PyPI - numba-cuda - Versions diffs - 0.22.0__cp313-cp313-manylinux_2_24_aarch64.manylinux_2_28_aarch64.whl - Mend

numba-cuda 0.22.0__cp313-cp313-manylinux_2_24_aarch64.manylinux_2_28_aarch64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (487) hide show

_numba_cuda_redirector.pth +4 -0
_numba_cuda_redirector.py +89 -0
numba_cuda/VERSION +1 -0
numba_cuda/__init__.py +6 -0
numba_cuda/_version.py +11 -0
numba_cuda/numba/cuda/__init__.py +70 -0
numba_cuda/numba/cuda/_internal/cuda_bf16.py +16394 -0
numba_cuda/numba/cuda/_internal/cuda_fp16.py +8112 -0
numba_cuda/numba/cuda/api.py +580 -0
numba_cuda/numba/cuda/api_util.py +76 -0
numba_cuda/numba/cuda/args.py +72 -0
numba_cuda/numba/cuda/bf16.py +397 -0
numba_cuda/numba/cuda/cache_hints.py +287 -0
numba_cuda/numba/cuda/cext/__init__.py +2 -0
numba_cuda/numba/cuda/cext/_devicearray.cpp +159 -0
numba_cuda/numba/cuda/cext/_devicearray.cpython-313-aarch64-linux-gnu.so +0 -0
numba_cuda/numba/cuda/cext/_devicearray.h +29 -0
numba_cuda/numba/cuda/cext/_dispatcher.cpp +1098 -0
numba_cuda/numba/cuda/cext/_dispatcher.cpython-313-aarch64-linux-gnu.so +0 -0
numba_cuda/numba/cuda/cext/_hashtable.cpp +532 -0
numba_cuda/numba/cuda/cext/_hashtable.h +135 -0
numba_cuda/numba/cuda/cext/_helperlib.c +71 -0
numba_cuda/numba/cuda/cext/_helperlib.cpython-313-aarch64-linux-gnu.so +0 -0
numba_cuda/numba/cuda/cext/_helpermod.c +82 -0
numba_cuda/numba/cuda/cext/_pymodule.h +38 -0
numba_cuda/numba/cuda/cext/_typeconv.cpp +206 -0
numba_cuda/numba/cuda/cext/_typeconv.cpython-313-aarch64-linux-gnu.so +0 -0
numba_cuda/numba/cuda/cext/_typeof.cpp +1159 -0
numba_cuda/numba/cuda/cext/_typeof.h +19 -0
numba_cuda/numba/cuda/cext/capsulethunk.h +111 -0
numba_cuda/numba/cuda/cext/mviewbuf.c +385 -0
numba_cuda/numba/cuda/cext/mviewbuf.cpython-313-aarch64-linux-gnu.so +0 -0
numba_cuda/numba/cuda/cext/typeconv.cpp +212 -0
numba_cuda/numba/cuda/cext/typeconv.hpp +101 -0
numba_cuda/numba/cuda/cg.py +67 -0
numba_cuda/numba/cuda/cgutils.py +1294 -0
numba_cuda/numba/cuda/cloudpickle/__init__.py +21 -0
numba_cuda/numba/cuda/cloudpickle/cloudpickle.py +1598 -0
numba_cuda/numba/cuda/cloudpickle/cloudpickle_fast.py +17 -0
numba_cuda/numba/cuda/codegen.py +541 -0
numba_cuda/numba/cuda/compiler.py +1396 -0
numba_cuda/numba/cuda/core/analysis.py +758 -0
numba_cuda/numba/cuda/core/annotations/__init__.py +0 -0
numba_cuda/numba/cuda/core/annotations/pretty_annotate.py +288 -0
numba_cuda/numba/cuda/core/annotations/type_annotations.py +305 -0
numba_cuda/numba/cuda/core/base.py +1332 -0
numba_cuda/numba/cuda/core/boxing.py +1411 -0
numba_cuda/numba/cuda/core/bytecode.py +728 -0
numba_cuda/numba/cuda/core/byteflow.py +2346 -0
numba_cuda/numba/cuda/core/caching.py +744 -0
numba_cuda/numba/cuda/core/callconv.py +392 -0
numba_cuda/numba/cuda/core/codegen.py +171 -0
numba_cuda/numba/cuda/core/compiler.py +199 -0
numba_cuda/numba/cuda/core/compiler_lock.py +85 -0
numba_cuda/numba/cuda/core/compiler_machinery.py +497 -0
numba_cuda/numba/cuda/core/config.py +650 -0
numba_cuda/numba/cuda/core/consts.py +124 -0
numba_cuda/numba/cuda/core/controlflow.py +989 -0
numba_cuda/numba/cuda/core/entrypoints.py +57 -0
numba_cuda/numba/cuda/core/environment.py +66 -0
numba_cuda/numba/cuda/core/errors.py +917 -0
numba_cuda/numba/cuda/core/event.py +511 -0
numba_cuda/numba/cuda/core/funcdesc.py +330 -0
numba_cuda/numba/cuda/core/generators.py +387 -0
numba_cuda/numba/cuda/core/imputils.py +509 -0
numba_cuda/numba/cuda/core/inline_closurecall.py +1787 -0
numba_cuda/numba/cuda/core/interpreter.py +3617 -0
numba_cuda/numba/cuda/core/ir.py +1812 -0
numba_cuda/numba/cuda/core/ir_utils.py +2638 -0
numba_cuda/numba/cuda/core/optional.py +129 -0
numba_cuda/numba/cuda/core/options.py +262 -0
numba_cuda/numba/cuda/core/postproc.py +249 -0
numba_cuda/numba/cuda/core/pythonapi.py +1859 -0
numba_cuda/numba/cuda/core/registry.py +46 -0
numba_cuda/numba/cuda/core/removerefctpass.py +123 -0
numba_cuda/numba/cuda/core/rewrites/__init__.py +26 -0
numba_cuda/numba/cuda/core/rewrites/ir_print.py +91 -0
numba_cuda/numba/cuda/core/rewrites/registry.py +104 -0
numba_cuda/numba/cuda/core/rewrites/static_binop.py +41 -0
numba_cuda/numba/cuda/core/rewrites/static_getitem.py +189 -0
numba_cuda/numba/cuda/core/rewrites/static_raise.py +100 -0
numba_cuda/numba/cuda/core/sigutils.py +68 -0
numba_cuda/numba/cuda/core/ssa.py +498 -0
numba_cuda/numba/cuda/core/targetconfig.py +330 -0
numba_cuda/numba/cuda/core/tracing.py +231 -0
numba_cuda/numba/cuda/core/transforms.py +956 -0
numba_cuda/numba/cuda/core/typed_passes.py +867 -0
numba_cuda/numba/cuda/core/typeinfer.py +1950 -0
numba_cuda/numba/cuda/core/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/core/unsafe/bytes.py +67 -0
numba_cuda/numba/cuda/core/unsafe/eh.py +67 -0
numba_cuda/numba/cuda/core/unsafe/refcount.py +98 -0
numba_cuda/numba/cuda/core/untyped_passes.py +1979 -0
numba_cuda/numba/cuda/cpython/builtins.py +1153 -0
numba_cuda/numba/cuda/cpython/charseq.py +1218 -0
numba_cuda/numba/cuda/cpython/cmathimpl.py +560 -0
numba_cuda/numba/cuda/cpython/enumimpl.py +103 -0
numba_cuda/numba/cuda/cpython/iterators.py +167 -0
numba_cuda/numba/cuda/cpython/listobj.py +1326 -0
numba_cuda/numba/cuda/cpython/mathimpl.py +499 -0
numba_cuda/numba/cuda/cpython/numbers.py +1475 -0
numba_cuda/numba/cuda/cpython/rangeobj.py +289 -0
numba_cuda/numba/cuda/cpython/slicing.py +322 -0
numba_cuda/numba/cuda/cpython/tupleobj.py +456 -0
numba_cuda/numba/cuda/cpython/unicode.py +2865 -0
numba_cuda/numba/cuda/cpython/unicode_support.py +1597 -0
numba_cuda/numba/cuda/cpython/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/cpython/unsafe/numbers.py +64 -0
numba_cuda/numba/cuda/cpython/unsafe/tuple.py +92 -0
numba_cuda/numba/cuda/cuda_paths.py +691 -0
numba_cuda/numba/cuda/cudadecl.py +543 -0
numba_cuda/numba/cuda/cudadrv/__init__.py +14 -0
numba_cuda/numba/cuda/cudadrv/devicearray.py +954 -0
numba_cuda/numba/cuda/cudadrv/devices.py +249 -0
numba_cuda/numba/cuda/cudadrv/driver.py +3238 -0
numba_cuda/numba/cuda/cudadrv/drvapi.py +435 -0
numba_cuda/numba/cuda/cudadrv/dummyarray.py +562 -0
numba_cuda/numba/cuda/cudadrv/enums.py +613 -0
numba_cuda/numba/cuda/cudadrv/error.py +48 -0
numba_cuda/numba/cuda/cudadrv/libs.py +220 -0
numba_cuda/numba/cuda/cudadrv/linkable_code.py +184 -0
numba_cuda/numba/cuda/cudadrv/mappings.py +14 -0
numba_cuda/numba/cuda/cudadrv/ndarray.py +26 -0
numba_cuda/numba/cuda/cudadrv/nvrtc.py +193 -0
numba_cuda/numba/cuda/cudadrv/nvvm.py +756 -0
numba_cuda/numba/cuda/cudadrv/rtapi.py +13 -0
numba_cuda/numba/cuda/cudadrv/runtime.py +34 -0
numba_cuda/numba/cuda/cudaimpl.py +983 -0
numba_cuda/numba/cuda/cudamath.py +149 -0
numba_cuda/numba/cuda/datamodel/__init__.py +7 -0
numba_cuda/numba/cuda/datamodel/cuda_manager.py +66 -0
numba_cuda/numba/cuda/datamodel/cuda_models.py +1446 -0
numba_cuda/numba/cuda/datamodel/cuda_packer.py +224 -0
numba_cuda/numba/cuda/datamodel/cuda_registry.py +22 -0
numba_cuda/numba/cuda/datamodel/cuda_testing.py +153 -0
numba_cuda/numba/cuda/datamodel/manager.py +11 -0
numba_cuda/numba/cuda/datamodel/models.py +9 -0
numba_cuda/numba/cuda/datamodel/packer.py +9 -0
numba_cuda/numba/cuda/datamodel/registry.py +11 -0
numba_cuda/numba/cuda/datamodel/testing.py +11 -0
numba_cuda/numba/cuda/debuginfo.py +997 -0
numba_cuda/numba/cuda/decorators.py +294 -0
numba_cuda/numba/cuda/descriptor.py +35 -0
numba_cuda/numba/cuda/device_init.py +155 -0
numba_cuda/numba/cuda/deviceufunc.py +1021 -0
numba_cuda/numba/cuda/dispatcher.py +2463 -0
numba_cuda/numba/cuda/errors.py +72 -0
numba_cuda/numba/cuda/extending.py +697 -0
numba_cuda/numba/cuda/flags.py +178 -0
numba_cuda/numba/cuda/fp16.py +357 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/include/13/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/13/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/13/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/13/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/initialize.py +24 -0
numba_cuda/numba/cuda/intrinsics.py +531 -0
numba_cuda/numba/cuda/itanium_mangler.py +214 -0
numba_cuda/numba/cuda/kernels/__init__.py +2 -0
numba_cuda/numba/cuda/kernels/reduction.py +265 -0
numba_cuda/numba/cuda/kernels/transpose.py +65 -0
numba_cuda/numba/cuda/libdevice.py +3386 -0
numba_cuda/numba/cuda/libdevicedecl.py +20 -0
numba_cuda/numba/cuda/libdevicefuncs.py +1060 -0
numba_cuda/numba/cuda/libdeviceimpl.py +88 -0
numba_cuda/numba/cuda/locks.py +19 -0
numba_cuda/numba/cuda/lowering.py +1980 -0
numba_cuda/numba/cuda/mathimpl.py +374 -0
numba_cuda/numba/cuda/memory_management/__init__.py +4 -0
numba_cuda/numba/cuda/memory_management/memsys.cu +99 -0
numba_cuda/numba/cuda/memory_management/memsys.cuh +22 -0
numba_cuda/numba/cuda/memory_management/nrt.cu +212 -0
numba_cuda/numba/cuda/memory_management/nrt.cuh +48 -0
numba_cuda/numba/cuda/memory_management/nrt.py +390 -0
numba_cuda/numba/cuda/memory_management/nrt_context.py +438 -0
numba_cuda/numba/cuda/misc/appdirs.py +594 -0
numba_cuda/numba/cuda/misc/cffiimpl.py +24 -0
numba_cuda/numba/cuda/misc/coverage_support.py +43 -0
numba_cuda/numba/cuda/misc/dump_style.py +41 -0
numba_cuda/numba/cuda/misc/findlib.py +75 -0
numba_cuda/numba/cuda/misc/firstlinefinder.py +96 -0
numba_cuda/numba/cuda/misc/gdb_hook.py +240 -0
numba_cuda/numba/cuda/misc/literal.py +28 -0
numba_cuda/numba/cuda/misc/llvm_pass_timings.py +412 -0
numba_cuda/numba/cuda/misc/special.py +94 -0
numba_cuda/numba/cuda/models.py +56 -0
numba_cuda/numba/cuda/np/arraymath.py +5130 -0
numba_cuda/numba/cuda/np/arrayobj.py +7635 -0
numba_cuda/numba/cuda/np/extensions.py +11 -0
numba_cuda/numba/cuda/np/linalg.py +3087 -0
numba_cuda/numba/cuda/np/math/__init__.py +0 -0
numba_cuda/numba/cuda/np/math/cmathimpl.py +558 -0
numba_cuda/numba/cuda/np/math/mathimpl.py +487 -0
numba_cuda/numba/cuda/np/math/numbers.py +1461 -0
numba_cuda/numba/cuda/np/npdatetime.py +969 -0
numba_cuda/numba/cuda/np/npdatetime_helpers.py +217 -0
numba_cuda/numba/cuda/np/npyfuncs.py +1808 -0
numba_cuda/numba/cuda/np/npyimpl.py +1027 -0
numba_cuda/numba/cuda/np/numpy_support.py +798 -0
numba_cuda/numba/cuda/np/polynomial/__init__.py +4 -0
numba_cuda/numba/cuda/np/polynomial/polynomial_core.py +242 -0
numba_cuda/numba/cuda/np/polynomial/polynomial_functions.py +380 -0
numba_cuda/numba/cuda/np/ufunc/__init__.py +4 -0
numba_cuda/numba/cuda/np/ufunc/decorators.py +203 -0
numba_cuda/numba/cuda/np/ufunc/sigparse.py +68 -0
numba_cuda/numba/cuda/np/ufunc/ufuncbuilder.py +65 -0
numba_cuda/numba/cuda/np/ufunc_db.py +1282 -0
numba_cuda/numba/cuda/np/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/np/unsafe/ndarray.py +84 -0
numba_cuda/numba/cuda/nvvmutils.py +254 -0
numba_cuda/numba/cuda/printimpl.py +126 -0
numba_cuda/numba/cuda/random.py +308 -0
numba_cuda/numba/cuda/reshape_funcs.cu +156 -0
numba_cuda/numba/cuda/serialize.py +267 -0
numba_cuda/numba/cuda/simulator/__init__.py +63 -0
numba_cuda/numba/cuda/simulator/_internal/__init__.py +4 -0
numba_cuda/numba/cuda/simulator/_internal/cuda_bf16.py +2 -0
numba_cuda/numba/cuda/simulator/api.py +179 -0
numba_cuda/numba/cuda/simulator/bf16.py +4 -0
numba_cuda/numba/cuda/simulator/compiler.py +38 -0
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +11 -0
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +462 -0
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +122 -0
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +66 -0
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +7 -0
numba_cuda/numba/cuda/simulator/cudadrv/dummyarray.py +7 -0
numba_cuda/numba/cuda/simulator/cudadrv/error.py +10 -0
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +10 -0
numba_cuda/numba/cuda/simulator/cudadrv/linkable_code.py +61 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvrtc.py +11 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +32 -0
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +22 -0
numba_cuda/numba/cuda/simulator/dispatcher.py +11 -0
numba_cuda/numba/cuda/simulator/kernel.py +320 -0
numba_cuda/numba/cuda/simulator/kernelapi.py +509 -0
numba_cuda/numba/cuda/simulator/memory_management/__init__.py +4 -0
numba_cuda/numba/cuda/simulator/memory_management/nrt.py +21 -0
numba_cuda/numba/cuda/simulator/reduction.py +19 -0
numba_cuda/numba/cuda/simulator/tests/support.py +4 -0
numba_cuda/numba/cuda/simulator/vector_types.py +65 -0
numba_cuda/numba/cuda/simulator_init.py +18 -0
numba_cuda/numba/cuda/stubs.py +624 -0
numba_cuda/numba/cuda/target.py +505 -0
numba_cuda/numba/cuda/testing.py +347 -0
numba_cuda/numba/cuda/tests/__init__.py +62 -0
numba_cuda/numba/cuda/tests/benchmarks/__init__.py +0 -0
numba_cuda/numba/cuda/tests/benchmarks/test_kernel_launch.py +119 -0
numba_cuda/numba/cuda/tests/cloudpickle_main_class.py +9 -0
numba_cuda/numba/cuda/tests/core/serialize_usecases.py +113 -0
numba_cuda/numba/cuda/tests/core/test_itanium_mangler.py +83 -0
numba_cuda/numba/cuda/tests/core/test_serialize.py +371 -0
numba_cuda/numba/cuda/tests/cudadrv/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +147 -0
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +161 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +397 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +24 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +180 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +313 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +191 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +621 -0
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +247 -0
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +100 -0
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +200 -0
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +53 -0
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +72 -0
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +138 -0
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +43 -0
numba_cuda/numba/cuda/tests/cudadrv/test_is_fp16.py +15 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linkable_code.py +58 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +348 -0
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +128 -0
numba_cuda/numba/cuda/tests/cudadrv/test_module_callbacks.py +301 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvjitlink.py +174 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvrtc.py +28 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +185 -0
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +39 -0
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +23 -0
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +38 -0
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +48 -0
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +44 -0
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +127 -0
numba_cuda/numba/cuda/tests/cudapy/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +231 -0
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +50 -0
numba_cuda/numba/cuda/tests/cudapy/cg_cache_usecases.py +36 -0
numba_cuda/numba/cuda/tests/cudapy/complex_usecases.py +116 -0
numba_cuda/numba/cuda/tests/cudapy/enum_usecases.py +59 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +62 -0
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +28 -0
numba_cuda/numba/cuda/tests/cudapy/overload_usecases.py +33 -0
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +104 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_analysis.py +1122 -0
numba_cuda/numba/cuda/tests/cudapy/test_array.py +344 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_alignment.py +268 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +203 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +63 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_reductions.py +360 -0
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +1815 -0
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16.py +599 -0
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16_bindings.py +377 -0
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +160 -0
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +27 -0
numba_cuda/numba/cuda/tests/cudapy/test_byteflow.py +98 -0
numba_cuda/numba/cuda/tests/cudapy/test_cache_hints.py +210 -0
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +683 -0
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +265 -0
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +718 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +370 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +23 -0
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +142 -0
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +178 -0
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +193 -0
numba_cuda/numba/cuda/tests/cudapy/test_copy_propagate.py +131 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +438 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +105 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +978 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo_types.py +476 -0
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +500 -0
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +820 -0
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +152 -0
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +111 -0
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +170 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +1088 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending_types.py +71 -0
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +265 -0
numba_cuda/numba/cuda/tests/cudapy/test_flow_control.py +1433 -0
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +57 -0
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +34 -0
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +69 -0
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +62 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +474 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +167 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +92 -0
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +39 -0
numba_cuda/numba/cuda/tests/cudapy/test_inline.py +170 -0
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +255 -0
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +1219 -0
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +263 -0
numba_cuda/numba/cuda/tests/cudapy/test_ir.py +598 -0
numba_cuda/numba/cuda/tests/cudapy/test_ir_utils.py +276 -0
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +68 -0
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +123 -0
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +194 -0
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +220 -0
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +173 -0
numba_cuda/numba/cuda/tests/cudapy/test_make_function_to_jit_function.py +364 -0
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_math.py +842 -0
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +76 -0
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +78 -0
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +25 -0
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +145 -0
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +39 -0
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +82 -0
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +53 -0
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +504 -0
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +93 -0
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +402 -0
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +128 -0
numba_cuda/numba/cuda/tests/cudapy/test_print.py +193 -0
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_random.py +117 -0
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +614 -0
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +130 -0
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +83 -0
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +86 -0
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +457 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +233 -0
numba_cuda/numba/cuda/tests/cudapy/test_ssa.py +454 -0
numba_cuda/numba/cuda/tests/cudapy/test_stream_api.py +56 -0
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +277 -0
numba_cuda/numba/cuda/tests/cudapy/test_tracing.py +200 -0
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +90 -0
numba_cuda/numba/cuda/tests/cudapy/test_typeconv.py +333 -0
numba_cuda/numba/cuda/tests/cudapy/test_typeinfer.py +538 -0
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +585 -0
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +485 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +312 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +23 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +183 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +206 -0
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +446 -0
numba_cuda/numba/cuda/tests/cudasim/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudasim/support.py +9 -0
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +111 -0
numba_cuda/numba/cuda/tests/data/__init__.py +2 -0
numba_cuda/numba/cuda/tests/data/cta_barrier.cu +28 -0
numba_cuda/numba/cuda/tests/data/cuda_include.cu +10 -0
numba_cuda/numba/cuda/tests/data/error.cu +12 -0
numba_cuda/numba/cuda/tests/data/include/add.cuh +8 -0
numba_cuda/numba/cuda/tests/data/jitlink.cu +28 -0
numba_cuda/numba/cuda/tests/data/jitlink.ptx +49 -0
numba_cuda/numba/cuda/tests/data/warn.cu +12 -0
numba_cuda/numba/cuda/tests/doc_examples/__init__.py +9 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/__init__.py +2 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/functions.cu +54 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/include/mul.cuh +8 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/saxpy.cu +14 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +86 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpointer.py +68 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +81 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +141 -0
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +160 -0
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +180 -0
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +119 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +66 -0
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +80 -0
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +206 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ufunc.py +53 -0
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +76 -0
numba_cuda/numba/cuda/tests/nocuda/__init__.py +9 -0
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +452 -0
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +48 -0
numba_cuda/numba/cuda/tests/nocuda/test_import.py +63 -0
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +252 -0
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +59 -0
numba_cuda/numba/cuda/tests/nrt/__init__.py +9 -0
numba_cuda/numba/cuda/tests/nrt/test_nrt.py +387 -0
numba_cuda/numba/cuda/tests/nrt/test_nrt_refct.py +124 -0
numba_cuda/numba/cuda/tests/support.py +900 -0
numba_cuda/numba/cuda/typeconv/__init__.py +4 -0
numba_cuda/numba/cuda/typeconv/castgraph.py +137 -0
numba_cuda/numba/cuda/typeconv/rules.py +63 -0
numba_cuda/numba/cuda/typeconv/typeconv.py +121 -0
numba_cuda/numba/cuda/types/__init__.py +233 -0
numba_cuda/numba/cuda/types/__init__.pyi +167 -0
numba_cuda/numba/cuda/types/abstract.py +9 -0
numba_cuda/numba/cuda/types/common.py +9 -0
numba_cuda/numba/cuda/types/containers.py +9 -0
numba_cuda/numba/cuda/types/cuda_abstract.py +533 -0
numba_cuda/numba/cuda/types/cuda_common.py +110 -0
numba_cuda/numba/cuda/types/cuda_containers.py +971 -0
numba_cuda/numba/cuda/types/cuda_function_type.py +230 -0
numba_cuda/numba/cuda/types/cuda_functions.py +798 -0
numba_cuda/numba/cuda/types/cuda_iterators.py +120 -0
numba_cuda/numba/cuda/types/cuda_misc.py +569 -0
numba_cuda/numba/cuda/types/cuda_npytypes.py +690 -0
numba_cuda/numba/cuda/types/cuda_scalars.py +280 -0
numba_cuda/numba/cuda/types/ext_types.py +101 -0
numba_cuda/numba/cuda/types/function_type.py +11 -0
numba_cuda/numba/cuda/types/functions.py +9 -0
numba_cuda/numba/cuda/types/iterators.py +9 -0
numba_cuda/numba/cuda/types/misc.py +9 -0
numba_cuda/numba/cuda/types/npytypes.py +9 -0
numba_cuda/numba/cuda/types/scalars.py +9 -0
numba_cuda/numba/cuda/typing/__init__.py +19 -0
numba_cuda/numba/cuda/typing/arraydecl.py +939 -0
numba_cuda/numba/cuda/typing/asnumbatype.py +130 -0
numba_cuda/numba/cuda/typing/bufproto.py +70 -0
numba_cuda/numba/cuda/typing/builtins.py +1209 -0
numba_cuda/numba/cuda/typing/cffi_utils.py +219 -0
numba_cuda/numba/cuda/typing/cmathdecl.py +47 -0
numba_cuda/numba/cuda/typing/collections.py +138 -0
numba_cuda/numba/cuda/typing/context.py +782 -0
numba_cuda/numba/cuda/typing/ctypes_utils.py +125 -0
numba_cuda/numba/cuda/typing/dictdecl.py +63 -0
numba_cuda/numba/cuda/typing/enumdecl.py +74 -0
numba_cuda/numba/cuda/typing/listdecl.py +147 -0
numba_cuda/numba/cuda/typing/mathdecl.py +158 -0
numba_cuda/numba/cuda/typing/npdatetime.py +322 -0
numba_cuda/numba/cuda/typing/npydecl.py +749 -0
numba_cuda/numba/cuda/typing/setdecl.py +115 -0
numba_cuda/numba/cuda/typing/templates.py +1446 -0
numba_cuda/numba/cuda/typing/typeof.py +301 -0
numba_cuda/numba/cuda/ufuncs.py +746 -0
numba_cuda/numba/cuda/utils.py +724 -0
numba_cuda/numba/cuda/vector_types.py +214 -0
numba_cuda/numba/cuda/vectorizers.py +260 -0
numba_cuda-0.22.0.dist-info/METADATA +109 -0
numba_cuda-0.22.0.dist-info/RECORD +487 -0
numba_cuda-0.22.0.dist-info/WHEEL +6 -0
numba_cuda-0.22.0.dist-info/licenses/LICENSE +26 -0
numba_cuda-0.22.0.dist-info/licenses/LICENSE.numba +24 -0
numba_cuda-0.22.0.dist-info/top_level.txt +1 -0

numba_cuda/numba/cuda/tests/cudapy/test_atomics.py ADDED Viewed

@@ -0,0 +1,1815 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+import numpy as np
+from textwrap import dedent
+from numba import cuda
+from numba.cuda import uint32, uint64, float32, float64, int32
+from numba.cuda.testing import unittest, CUDATestCase, cc_X_or_above
+from numba.cuda.core import config
+@cuda.jit(device=True)
+def atomic_cast_to_uint64(num):
+    return uint64(num)
+@cuda.jit(device=True)
+def atomic_cast_to_int(num):
+    return int(num)
+@cuda.jit(device=True)
+def atomic_cast_none(num):
+    return num
+@cuda.jit(device=True)
+def atomic_binary_1dim_shared(
+    ary,
+    idx,
+    op2,
+    ary_dtype,
+    ary_nelements,
+    binop_func,
+    cast_func,
+    initializer,
+    neg_idx,
+):
+    tid = cuda.threadIdx.x
+    sm = cuda.shared.array(ary_nelements, ary_dtype)
+    sm[tid] = initializer
+    cuda.syncthreads()
+    bin = cast_func(idx[tid] % ary_nelements)
+    if neg_idx:
+        bin = bin % ary_nelements
+    binop_func(sm, bin, op2)
+    cuda.syncthreads()
+    ary[tid] = sm[tid]
+@cuda.jit(device=True)
+def atomic_binary_1dim_shared2(
+    ary, idx, op2, ary_dtype, ary_nelements, binop_func, cast_func
+):
+    tid = cuda.threadIdx.x
+    sm = cuda.shared.array(ary_nelements, ary_dtype)
+    sm[tid] = ary[tid]
+    cuda.syncthreads()
+    bin = cast_func(idx[tid] % ary_nelements)
+    binop_func(sm, bin, op2)
+    cuda.syncthreads()
+    ary[tid] = sm[tid]
+@cuda.jit(device=True)
+def atomic_binary_2dim_shared(
+    ary, op2, ary_dtype, ary_shape, binop_func, y_cast_func, neg_idx
+):
+    tx = cuda.threadIdx.x
+    ty = cuda.threadIdx.y
+    sm = cuda.shared.array(ary_shape, ary_dtype)
+    sm[tx, ty] = ary[tx, ty]
+    cuda.syncthreads()
+    bin = (tx, y_cast_func(ty))
+    if neg_idx:
+        bin = (bin[0] % ary_shape[0], bin[1] % ary_shape[1])
+    binop_func(sm, bin, op2)
+    cuda.syncthreads()
+    ary[tx, ty] = sm[tx, ty]
+@cuda.jit(device=True)
+def atomic_binary_2dim_global(ary, op2, binop_func, y_cast_func, neg_idx):
+    tx = cuda.threadIdx.x
+    ty = cuda.threadIdx.y
+    bin = (tx, y_cast_func(ty))
+    if neg_idx:
+        bin = (bin[0] % ary.shape[0], bin[1] % ary.shape[1])
+    binop_func(ary, bin, op2)
+@cuda.jit(device=True)
+def atomic_binary_1dim_global(
+    ary, idx, ary_nelements, op2, binop_func, neg_idx
+):
+    tid = cuda.threadIdx.x
+    bin = int(idx[tid] % ary_nelements)
+    if neg_idx:
+        bin = bin % ary_nelements
+    binop_func(ary, bin, op2)
+def atomic_add(ary):
+    atomic_binary_1dim_shared(
+        ary, ary, 1, uint32, 32, cuda.atomic.add, atomic_cast_none, 0, False
+    )
+def atomic_add_wrap(ary):
+    atomic_binary_1dim_shared(
+        ary, ary, 1, uint32, 32, cuda.atomic.add, atomic_cast_none, 0, True
+    )
+def atomic_add2(ary):
+    atomic_binary_2dim_shared(
+        ary, 1, uint32, (4, 8), cuda.atomic.add, atomic_cast_none, False
+    )
+def atomic_add2_wrap(ary):
+    atomic_binary_2dim_shared(
+        ary, 1, uint32, (4, 8), cuda.atomic.add, atomic_cast_none, True
+    )
+def atomic_add3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1, uint32, (4, 8), cuda.atomic.add, atomic_cast_to_uint64, False
+    )
+def atomic_add_float(ary):
+    atomic_binary_1dim_shared(
+        ary,
+        ary,
+        1.0,
+        float32,
+        32,
+        cuda.atomic.add,
+        atomic_cast_to_int,
+        0.0,
+        False,
+    )
+def atomic_add_float_wrap(ary):
+    atomic_binary_1dim_shared(
+        ary,
+        ary,
+        1.0,
+        float32,
+        32,
+        cuda.atomic.add,
+        atomic_cast_to_int,
+        0.0,
+        True,
+    )
+def atomic_add_float_2(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float32, (4, 8), cuda.atomic.add, atomic_cast_none, False
+    )
+def atomic_add_float_2_wrap(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float32, (4, 8), cuda.atomic.add, atomic_cast_none, True
+    )
+def atomic_add_float_3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float32, (4, 8), cuda.atomic.add, atomic_cast_to_uint64, False
+    )
+def atomic_add_double_global(idx, ary):
+    atomic_binary_1dim_global(ary, idx, 32, 1.0, cuda.atomic.add, False)
+def atomic_add_double_global_wrap(idx, ary):
+    atomic_binary_1dim_global(ary, idx, 32, 1.0, cuda.atomic.add, True)
+def atomic_add_double_global_2(ary):
+    atomic_binary_2dim_global(ary, 1, cuda.atomic.add, atomic_cast_none, False)
+def atomic_add_double_global_2_wrap(ary):
+    atomic_binary_2dim_global(ary, 1, cuda.atomic.add, atomic_cast_none, True)
+def atomic_add_double_global_3(ary):
+    atomic_binary_2dim_global(
+        ary, 1, cuda.atomic.add, atomic_cast_to_uint64, False
+    )
+def atomic_add_double(idx, ary):
+    atomic_binary_1dim_shared(
+        ary,
+        idx,
+        1.0,
+        float64,
+        32,
+        cuda.atomic.add,
+        atomic_cast_none,
+        0.0,
+        False,
+    )
+def atomic_add_double_wrap(idx, ary):
+    atomic_binary_1dim_shared(
+        ary, idx, 1.0, float64, 32, cuda.atomic.add, atomic_cast_none, 0.0, True
+    )
+def atomic_add_double_2(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float64, (4, 8), cuda.atomic.add, atomic_cast_none, False
+    )
+def atomic_add_double_2_wrap(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float64, (4, 8), cuda.atomic.add, atomic_cast_none, True
+    )
+def atomic_add_double_3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float64, (4, 8), cuda.atomic.add, atomic_cast_to_uint64, False
+    )
+def atomic_sub(ary):
+    atomic_binary_1dim_shared(
+        ary, ary, 1, int32, 32, cuda.atomic.sub, atomic_cast_none, 0, False
+    )
+def atomic_sub2(ary):
+    atomic_binary_2dim_shared(
+        ary, 1, int32, (4, 8), cuda.atomic.sub, atomic_cast_none, False
+    )
+def atomic_sub3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1, int32, (4, 8), cuda.atomic.sub, atomic_cast_to_uint64, False
+    )
+def atomic_sub_float(ary):
+    atomic_binary_1dim_shared(
+        ary,
+        ary,
+        1.0,
+        float32,
+        32,
+        cuda.atomic.sub,
+        atomic_cast_to_int,
+        0.0,
+        False,
+    )
+def atomic_sub_float_2(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float32, (4, 8), cuda.atomic.sub, atomic_cast_none, False
+    )
+def atomic_sub_float_3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float32, (4, 8), cuda.atomic.sub, atomic_cast_to_uint64, False
+    )
+def atomic_sub_double(idx, ary):
+    atomic_binary_1dim_shared(
+        ary,
+        idx,
+        1.0,
+        float64,
+        32,
+        cuda.atomic.sub,
+        atomic_cast_none,
+        0.0,
+        False,
+    )
+def atomic_sub_double_2(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float64, (4, 8), cuda.atomic.sub, atomic_cast_none, False
+    )
+def atomic_sub_double_3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float64, (4, 8), cuda.atomic.sub, atomic_cast_to_uint64, False
+    )
+def atomic_sub_double_global(idx, ary):
+    atomic_binary_1dim_global(ary, idx, 32, 1.0, cuda.atomic.sub, False)
+def atomic_sub_double_global_2(ary):
+    atomic_binary_2dim_global(
+        ary, 1.0, cuda.atomic.sub, atomic_cast_none, False
+    )
+def atomic_sub_double_global_3(ary):
+    atomic_binary_2dim_shared(
+        ary, 1.0, float64, (4, 8), cuda.atomic.sub, atomic_cast_to_uint64, False
+    )
+def atomic_and(ary, op2):
+    atomic_binary_1dim_shared(
+        ary, ary, op2, uint32, 32, cuda.atomic.and_, atomic_cast_none, 1, False
+    )
+def atomic_and2(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.and_, atomic_cast_none, False
+    )
+def atomic_and3(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.and_, atomic_cast_to_uint64, False
+    )
+def atomic_and_global(idx, ary, op2):
+    atomic_binary_1dim_global(ary, idx, 32, op2, cuda.atomic.and_, False)
+def atomic_and_global_2(ary, op2):
+    atomic_binary_2dim_global(
+        ary, op2, cuda.atomic.and_, atomic_cast_none, False
+    )
+def atomic_or(ary, op2):
+    atomic_binary_1dim_shared(
+        ary, ary, op2, uint32, 32, cuda.atomic.or_, atomic_cast_none, 0, False
+    )
+def atomic_or2(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.or_, atomic_cast_none, False
+    )
+def atomic_or3(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.or_, atomic_cast_to_uint64, False
+    )
+def atomic_or_global(idx, ary, op2):
+    atomic_binary_1dim_global(ary, idx, 32, op2, cuda.atomic.or_, False)
+def atomic_or_global_2(ary, op2):
+    atomic_binary_2dim_global(
+        ary, op2, cuda.atomic.or_, atomic_cast_none, False
+    )
+def atomic_xor(ary, op2):
+    atomic_binary_1dim_shared(
+        ary, ary, op2, uint32, 32, cuda.atomic.xor, atomic_cast_none, 0, False
+    )
+def atomic_xor2(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.xor, atomic_cast_none, False
+    )
+def atomic_xor3(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.xor, atomic_cast_to_uint64, False
+    )
+def atomic_xor_global(idx, ary, op2):
+    atomic_binary_1dim_global(ary, idx, 32, op2, cuda.atomic.xor, False)
+def atomic_xor_global_2(ary, op2):
+    atomic_binary_2dim_global(
+        ary, op2, cuda.atomic.xor, atomic_cast_none, False
+    )
+def atomic_inc32(ary, idx, op2):
+    atomic_binary_1dim_shared2(
+        ary, idx, op2, uint32, 32, cuda.atomic.inc, atomic_cast_none
+    )
+def atomic_inc64(ary, idx, op2):
+    atomic_binary_1dim_shared2(
+        ary, idx, op2, uint64, 32, cuda.atomic.inc, atomic_cast_to_int
+    )
+def atomic_inc2_32(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.inc, atomic_cast_none, False
+    )
+def atomic_inc2_64(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint64, (4, 8), cuda.atomic.inc, atomic_cast_none, False
+    )
+def atomic_inc3(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.inc, atomic_cast_to_uint64, False
+    )
+def atomic_inc_global(idx, ary, op2):
+    atomic_binary_1dim_global(ary, idx, 32, op2, cuda.atomic.inc, False)
+def atomic_inc_global_2(ary, op2):
+    atomic_binary_2dim_global(
+        ary, op2, cuda.atomic.inc, atomic_cast_none, False
+    )
+def atomic_dec32(ary, idx, op2):
+    atomic_binary_1dim_shared2(
+        ary, idx, op2, uint32, 32, cuda.atomic.dec, atomic_cast_none
+    )
+def atomic_dec64(ary, idx, op2):
+    atomic_binary_1dim_shared2(
+        ary, idx, op2, uint64, 32, cuda.atomic.dec, atomic_cast_to_int
+    )
+def atomic_dec2_32(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.dec, atomic_cast_none, False
+    )
+def atomic_dec2_64(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint64, (4, 8), cuda.atomic.dec, atomic_cast_none, False
+    )
+def atomic_dec3(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.dec, atomic_cast_to_uint64, False
+    )
+def atomic_dec_global(idx, ary, op2):
+    atomic_binary_1dim_global(ary, idx, 32, op2, cuda.atomic.dec, False)
+def atomic_dec_global_2(ary, op2):
+    atomic_binary_2dim_global(
+        ary, op2, cuda.atomic.dec, atomic_cast_none, False
+    )
+def atomic_exch(ary, idx, op2):
+    atomic_binary_1dim_shared2(
+        ary, idx, op2, uint32, 32, cuda.atomic.exch, atomic_cast_none
+    )
+def atomic_exch2(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint32, (4, 8), cuda.atomic.exch, atomic_cast_none, False
+    )
+def atomic_exch3(ary, op2):
+    atomic_binary_2dim_shared(
+        ary, op2, uint64, (4, 8), cuda.atomic.exch, atomic_cast_none, False
+    )
+def atomic_exch_global(idx, ary, op2):
+    atomic_binary_1dim_global(ary, idx, 32, op2, cuda.atomic.exch, False)
+def gen_atomic_extreme_funcs(func):
+    fns = dedent("""
+    def atomic(res, ary):
+        tx = cuda.threadIdx.x
+        bx = cuda.blockIdx.x
+        {func}(res, 0, ary[tx, bx])
+    def atomic_double_normalizedindex(res, ary):
+        tx = cuda.threadIdx.x
+        bx = cuda.blockIdx.x
+        {func}(res, 0, ary[tx, uint64(bx)])
+    def atomic_double_oneindex(res, ary):
+        tx = cuda.threadIdx.x
+        {func}(res, 0, ary[tx])
+    def atomic_double_shared(res, ary):
+        tid = cuda.threadIdx.x
+        smary = cuda.shared.array(32, float64)
+        smary[tid] = ary[tid]
+        smres = cuda.shared.array(1, float64)
+        if tid == 0:
+            smres[0] = res[0]
+        cuda.syncthreads()
+        {func}(smres, 0, smary[tid])
+        cuda.syncthreads()
+        if tid == 0:
+            res[0] = smres[0]
+    """).format(func=func)
+    ld = {}
+    exec(fns, {"cuda": cuda, "float64": float64, "uint64": uint64}, ld)
+    return (
+        ld["atomic"],
+        ld["atomic_double_normalizedindex"],
+        ld["atomic_double_oneindex"],
+        ld["atomic_double_shared"],
+    )
+(
+    atomic_max,
+    atomic_max_double_normalizedindex,
+    atomic_max_double_oneindex,
+    atomic_max_double_shared,
+) = gen_atomic_extreme_funcs("cuda.atomic.max")
+(
+    atomic_min,
+    atomic_min_double_normalizedindex,
+    atomic_min_double_oneindex,
+    atomic_min_double_shared,
+) = gen_atomic_extreme_funcs("cuda.atomic.min")
+(
+    atomic_nanmax,
+    atomic_nanmax_double_normalizedindex,
+    atomic_nanmax_double_oneindex,
+    atomic_nanmax_double_shared,
+) = gen_atomic_extreme_funcs("cuda.atomic.nanmax")
+(
+    atomic_nanmin,
+    atomic_nanmin_double_normalizedindex,
+    atomic_nanmin_double_oneindex,
+    atomic_nanmin_double_shared,
+) = gen_atomic_extreme_funcs("cuda.atomic.nanmin")
+def atomic_compare_and_swap(res, old, ary, fill_val):
+    gid = cuda.grid(1)
+    if gid < res.size:
+        old[gid] = cuda.atomic.compare_and_swap(res[gid:], fill_val, ary[gid])
+def atomic_cas_1dim(res, old, ary, fill_val):
+    gid = cuda.grid(1)
+    if gid < res.size:
+        old[gid] = cuda.atomic.cas(res, gid, fill_val, ary[gid])
+def atomic_cas_2dim(res, old, ary, fill_val):
+    gid = cuda.grid(2)
+    if gid[0] < res.shape[0] and gid[1] < res.shape[1]:
+        old[gid] = cuda.atomic.cas(res, gid, fill_val, ary[gid])
+class TestCudaAtomics(CUDATestCase):
+    def setUp(self):
+        super().setUp()
+        np.random.seed(0)
+    def test_atomic_add(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32)
+        ary_wrap = ary.copy()
+        orig = ary.copy()
+        cuda_atomic_add = cuda.jit("void(uint32[:])")(atomic_add)
+        cuda_atomic_add[1, 32](ary)
+        cuda_atomic_add_wrap = cuda.jit("void(uint32[:])")(atomic_add_wrap)
+        cuda_atomic_add_wrap[1, 32](ary_wrap)
+        gold = np.zeros(32, dtype=np.uint32)
+        for i in range(orig.size):
+            gold[orig[i]] += 1
+        self.assertTrue(np.all(ary == gold))
+        self.assertTrue(np.all(ary_wrap == gold))
+    def test_atomic_add2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        ary_wrap = ary.copy()
+        orig = ary.copy()
+        cuda_atomic_add2 = cuda.jit("void(uint32[:,:])")(atomic_add2)
+        cuda_atomic_add2[1, (4, 8)](ary)
+        cuda_atomic_add2_wrap = cuda.jit("void(uint32[:,:])")(atomic_add2_wrap)
+        cuda_atomic_add2_wrap[1, (4, 8)](ary_wrap)
+        self.assertTrue(np.all(ary == orig + 1))
+        self.assertTrue(np.all(ary_wrap == orig + 1))
+    def test_atomic_add3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_add3 = cuda.jit("void(uint32[:,:])")(atomic_add3)
+        cuda_atomic_add3[1, (4, 8)](ary)
+        self.assertTrue(np.all(ary == orig + 1))
+    def test_atomic_add_float(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float32)
+        ary_wrap = ary.copy()
+        orig = ary.copy().astype(np.intp)
+        cuda_atomic_add_float = cuda.jit("void(float32[:])")(atomic_add_float)
+        cuda_atomic_add_float[1, 32](ary)
+        add_float_wrap = cuda.jit("void(float32[:])")(atomic_add_float_wrap)
+        add_float_wrap[1, 32](ary_wrap)
+        gold = np.zeros(32, dtype=np.uint32)
+        for i in range(orig.size):
+            gold[orig[i]] += 1.0
+        self.assertTrue(np.all(ary == gold))
+        self.assertTrue(np.all(ary_wrap == gold))
+    def test_atomic_add_float_2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float32).reshape(4, 8)
+        ary_wrap = ary.copy()
+        orig = ary.copy()
+        cuda_atomic_add2 = cuda.jit("void(float32[:,:])")(atomic_add_float_2)
+        cuda_atomic_add2[1, (4, 8)](ary)
+        cuda_func_wrap = cuda.jit("void(float32[:,:])")(atomic_add_float_2_wrap)
+        cuda_func_wrap[1, (4, 8)](ary_wrap)
+        self.assertTrue(np.all(ary == orig + 1))
+        self.assertTrue(np.all(ary_wrap == orig + 1))
+    def test_atomic_add_float_3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_add3 = cuda.jit("void(float32[:,:])")(atomic_add_float_3)
+        cuda_atomic_add3[1, (4, 8)](ary)
+        self.assertTrue(np.all(ary == orig + 1))
+    def assertCorrectFloat64Atomics(self, kernel, shared=True):
+        if config.ENABLE_CUDASIM:
+            return
+        # Use the first (and only) definition
+        asm = next(iter(kernel.inspect_asm().values()))
+        if cc_X_or_above(6, 0):
+            inst = "(red|atom)"
+            if shared:
+                inst = f"{inst}\\.shared"
+            self.assertRegex(asm, f"{inst}.add.f64", asm)
+        else:
+            if shared:
+                self.assertIn("atom.shared.cas.b64", asm)
+            else:
+                self.assertIn("atom.cas.b64", asm)
+    def test_atomic_add_double(self):
+        idx = np.random.randint(0, 32, size=32, dtype=np.int64)
+        ary = np.zeros(32, np.float64)
+        ary_wrap = ary.copy()
+        cuda_fn = cuda.jit("void(int64[:], float64[:])")(atomic_add_double)
+        cuda_fn[1, 32](idx, ary)
+        wrap_fn = cuda.jit("void(int64[:], float64[:])")(atomic_add_double_wrap)
+        wrap_fn[1, 32](idx, ary_wrap)
+        gold = np.zeros(32, dtype=np.uint32)
+        for i in range(idx.size):
+            gold[idx[i]] += 1.0
+        np.testing.assert_equal(ary, gold)
+        np.testing.assert_equal(ary_wrap, gold)
+        self.assertCorrectFloat64Atomics(cuda_fn)
+        self.assertCorrectFloat64Atomics(wrap_fn)
+    def test_atomic_add_double_2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        ary_wrap = ary.copy()
+        orig = ary.copy()
+        cuda_fn = cuda.jit("void(float64[:,:])")(atomic_add_double_2)
+        cuda_fn[1, (4, 8)](ary)
+        cuda_fn_wrap = cuda.jit("void(float64[:,:])")(atomic_add_double_2_wrap)
+        cuda_fn_wrap[1, (4, 8)](ary_wrap)
+        np.testing.assert_equal(ary, orig + 1)
+        np.testing.assert_equal(ary_wrap, orig + 1)
+        self.assertCorrectFloat64Atomics(cuda_fn)
+        self.assertCorrectFloat64Atomics(cuda_fn_wrap)
+    def test_atomic_add_double_3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(float64[:,:])")(atomic_add_double_3)
+        cuda_func[1, (4, 8)](ary)
+        np.testing.assert_equal(ary, orig + 1)
+        self.assertCorrectFloat64Atomics(cuda_func)
+    def test_atomic_add_double_global(self):
+        idx = np.random.randint(0, 32, size=32, dtype=np.int64)
+        ary = np.zeros(32, np.float64)
+        ary_wrap = ary.copy()
+        sig = "void(int64[:], float64[:])"
+        cuda_func = cuda.jit(sig)(atomic_add_double_global)
+        wrap_cuda_func = cuda.jit(sig)(atomic_add_double_global_wrap)
+        cuda_func[1, 32](idx, ary)
+        wrap_cuda_func[1, 32](idx, ary_wrap)
+        gold = np.zeros(32, dtype=np.uint32)
+        for i in range(idx.size):
+            gold[idx[i]] += 1.0
+        np.testing.assert_equal(ary, gold)
+        np.testing.assert_equal(ary_wrap, gold)
+        self.assertCorrectFloat64Atomics(cuda_func, shared=False)
+        self.assertCorrectFloat64Atomics(wrap_cuda_func, shared=False)
+    def test_atomic_add_double_global_2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        ary_wrap = ary.copy()
+        orig = ary.copy()
+        sig = "void(float64[:,:])"
+        cuda_func = cuda.jit(sig)(atomic_add_double_global_2)
+        wrap_cuda_func = cuda.jit(sig)(atomic_add_double_global_2_wrap)
+        cuda_func[1, (4, 8)](ary)
+        wrap_cuda_func[1, (4, 8)](ary_wrap)
+        np.testing.assert_equal(ary, orig + 1)
+        np.testing.assert_equal(ary_wrap, orig + 1)
+        self.assertCorrectFloat64Atomics(cuda_func, shared=False)
+        self.assertCorrectFloat64Atomics(wrap_cuda_func, shared=False)
+    def test_atomic_add_double_global_3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(float64[:,:])")(atomic_add_double_global_3)
+        cuda_func[1, (4, 8)](ary)
+        np.testing.assert_equal(ary, orig + 1)
+        self.assertCorrectFloat64Atomics(cuda_func, shared=False)
+    def test_atomic_sub(self):
+        ary = np.random.randint(0, 32, size=32, dtype=np.int32)
+        orig = ary.copy()
+        cuda_atomic_sub = cuda.jit("void(int32[:])")(atomic_sub)
+        cuda_atomic_sub[1, 32](ary)
+        gold = np.zeros(32, dtype=np.int32)
+        for i in range(orig.size):
+            gold[orig[i]] -= 1
+        self.assertTrue(np.all(ary == gold))
+    def test_atomic_sub2(self):
+        ary = np.random.randint(0, 32, size=(4, 8), dtype=np.int32)
+        orig = ary.copy()
+        cuda_atomic_sub2 = cuda.jit("void(int32[:,:])")(atomic_sub2)
+        cuda_atomic_sub2[1, (4, 8)](ary)
+        self.assertTrue(np.all(ary == orig - 1))
+    def test_atomic_sub3(self):
+        ary = np.random.randint(0, 32, size=(4, 8), dtype=np.uint32)
+        orig = ary.copy()
+        cuda_atomic_sub3 = cuda.jit("void(int32[:,:])")(atomic_sub3)
+        cuda_atomic_sub3[1, (4, 8)](ary)
+        self.assertTrue(np.all(ary == orig - 1))
+    def test_atomic_sub_float(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float32)
+        orig = ary.copy().astype(np.intp)
+        cuda_atomic_sub_float = cuda.jit("void(float32[:])")(atomic_sub_float)
+        cuda_atomic_sub_float[1, 32](ary)
+        gold = np.zeros(32, dtype=np.float32)
+        for i in range(orig.size):
+            gold[orig[i]] -= 1.0
+        self.assertTrue(np.all(ary == gold))
+    def test_atomic_sub_float_2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_sub2 = cuda.jit("void(float32[:,:])")(atomic_sub_float_2)
+        cuda_atomic_sub2[1, (4, 8)](ary)
+        self.assertTrue(np.all(ary == orig - 1))
+    def test_atomic_sub_float_3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_sub3 = cuda.jit("void(float32[:,:])")(atomic_sub_float_3)
+        cuda_atomic_sub3[1, (4, 8)](ary)
+        self.assertTrue(np.all(ary == orig - 1))
+    def test_atomic_sub_double(self):
+        idx = np.random.randint(0, 32, size=32, dtype=np.int64)
+        ary = np.zeros(32, np.float64)
+        cuda_func = cuda.jit("void(int64[:], float64[:])")(atomic_sub_double)
+        cuda_func[1, 32](idx, ary)
+        gold = np.zeros(32, dtype=np.float64)
+        for i in range(idx.size):
+            gold[idx[i]] -= 1.0
+        np.testing.assert_equal(ary, gold)
+    def test_atomic_sub_double_2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(float64[:,:])")(atomic_sub_double_2)
+        cuda_func[1, (4, 8)](ary)
+        np.testing.assert_equal(ary, orig - 1)
+    def test_atomic_sub_double_3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(float64[:,:])")(atomic_sub_double_3)
+        cuda_func[1, (4, 8)](ary)
+        np.testing.assert_equal(ary, orig - 1)
+    def test_atomic_sub_double_global(self):
+        idx = np.random.randint(0, 32, size=32, dtype=np.int64)
+        ary = np.zeros(32, np.float64)
+        sig = "void(int64[:], float64[:])"
+        cuda_func = cuda.jit(sig)(atomic_sub_double_global)
+        cuda_func[1, 32](idx, ary)
+        gold = np.zeros(32, dtype=np.float64)
+        for i in range(idx.size):
+            gold[idx[i]] -= 1.0
+        np.testing.assert_equal(ary, gold)
+    def test_atomic_sub_double_global_2(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(float64[:,:])")(atomic_sub_double_global_2)
+        cuda_func[1, (4, 8)](ary)
+        np.testing.assert_equal(ary, orig - 1)
+    def test_atomic_sub_double_global_3(self):
+        ary = np.random.randint(0, 32, size=32).astype(np.float64).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(float64[:,:])")(atomic_sub_double_global_3)
+        cuda_func[1, (4, 8)](ary)
+        np.testing.assert_equal(ary, orig - 1)
+    def test_atomic_and(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(uint32[:], uint32)")(atomic_and)
+        cuda_func[1, 32](ary, rand_const)
+        gold = ary.copy()
+        for i in range(orig.size):
+            gold[orig[i]] &= rand_const
+        self.assertTrue(np.all(ary == gold))
+    def test_atomic_and2(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_and2 = cuda.jit("void(uint32[:,:], uint32)")(atomic_and2)
+        cuda_atomic_and2[1, (4, 8)](ary, rand_const)
+        self.assertTrue(np.all(ary == orig & rand_const))
+    def test_atomic_and3(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_and3 = cuda.jit("void(uint32[:,:], uint32)")(atomic_and3)
+        cuda_atomic_and3[1, (4, 8)](ary, rand_const)
+        self.assertTrue(np.all(ary == orig & rand_const))
+    def test_atomic_and_global(self):
+        rand_const = np.random.randint(500)
+        idx = np.random.randint(0, 32, size=32, dtype=np.int32)
+        ary = np.random.randint(0, 32, size=32, dtype=np.int32)
+        sig = "void(int32[:], int32[:], int32)"
+        cuda_func = cuda.jit(sig)(atomic_and_global)
+        cuda_func[1, 32](idx, ary, rand_const)
+        gold = ary.copy()
+        for i in range(idx.size):
+            gold[idx[i]] &= rand_const
+        np.testing.assert_equal(ary, gold)
+    def test_atomic_and_global_2(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(uint32[:,:], uint32)")(atomic_and_global_2)
+        cuda_func[1, (4, 8)](ary, rand_const)
+        np.testing.assert_equal(ary, orig & rand_const)
+    def test_atomic_or(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(uint32[:], uint32)")(atomic_or)
+        cuda_func[1, 32](ary, rand_const)
+        gold = np.zeros(32, dtype=np.uint32)
+        for i in range(orig.size):
+            gold[orig[i]] |= rand_const
+        self.assertTrue(np.all(ary == gold))
+    def test_atomic_or2(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_and2 = cuda.jit("void(uint32[:,:], uint32)")(atomic_or2)
+        cuda_atomic_and2[1, (4, 8)](ary, rand_const)
+        self.assertTrue(np.all(ary == orig | rand_const))
+    def test_atomic_or3(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_and3 = cuda.jit("void(uint32[:,:], uint32)")(atomic_or3)
+        cuda_atomic_and3[1, (4, 8)](ary, rand_const)
+        self.assertTrue(np.all(ary == orig | rand_const))
+    def test_atomic_or_global(self):
+        rand_const = np.random.randint(500)
+        idx = np.random.randint(0, 32, size=32, dtype=np.int32)
+        ary = np.random.randint(0, 32, size=32, dtype=np.int32)
+        sig = "void(int32[:], int32[:], int32)"
+        cuda_func = cuda.jit(sig)(atomic_or_global)
+        cuda_func[1, 32](idx, ary, rand_const)
+        gold = ary.copy()
+        for i in range(idx.size):
+            gold[idx[i]] |= rand_const
+        np.testing.assert_equal(ary, gold)
+    def test_atomic_or_global_2(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(uint32[:,:], uint32)")(atomic_or_global_2)
+        cuda_func[1, (4, 8)](ary, rand_const)
+        np.testing.assert_equal(ary, orig | rand_const)
+    def test_atomic_xor(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(uint32[:], uint32)")(atomic_xor)
+        cuda_func[1, 32](ary, rand_const)
+        gold = np.zeros(32, dtype=np.uint32)
+        for i in range(orig.size):
+            gold[orig[i]] ^= rand_const
+        self.assertTrue(np.all(ary == gold))
+    def test_atomic_xor2(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_xor2 = cuda.jit("void(uint32[:,:], uint32)")(atomic_xor2)
+        cuda_atomic_xor2[1, (4, 8)](ary, rand_const)
+        self.assertTrue(np.all(ary == orig ^ rand_const))
+    def test_atomic_xor3(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_atomic_xor3 = cuda.jit("void(uint32[:,:], uint32)")(atomic_xor3)
+        cuda_atomic_xor3[1, (4, 8)](ary, rand_const)
+        self.assertTrue(np.all(ary == orig ^ rand_const))
+    def test_atomic_xor_global(self):
+        rand_const = np.random.randint(500)
+        idx = np.random.randint(0, 32, size=32, dtype=np.int32)
+        ary = np.random.randint(0, 32, size=32, dtype=np.int32)
+        gold = ary.copy()
+        sig = "void(int32[:], int32[:], int32)"
+        cuda_func = cuda.jit(sig)(atomic_xor_global)
+        cuda_func[1, 32](idx, ary, rand_const)
+        for i in range(idx.size):
+            gold[idx[i]] ^= rand_const
+        np.testing.assert_equal(ary, gold)
+    def test_atomic_xor_global_2(self):
+        rand_const = np.random.randint(500)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        orig = ary.copy()
+        cuda_func = cuda.jit("void(uint32[:,:], uint32)")(atomic_xor_global_2)
+        cuda_func[1, (4, 8)](ary, rand_const)
+        np.testing.assert_equal(ary, orig ^ rand_const)
+    def inc_dec_1dim_setup(self, dtype):
+        rconst = np.random.randint(32, dtype=dtype)
+        rary = np.random.randint(0, 32, size=32).astype(dtype)
+        ary_idx = np.arange(32, dtype=dtype)
+        return rconst, rary, ary_idx
+    def inc_dec_2dim_setup(self, dtype):
+        rconst = np.random.randint(32, dtype=dtype)
+        rary = np.random.randint(0, 32, size=32).astype(dtype).reshape(4, 8)
+        return rconst, rary
+    def check_inc_index(self, ary, idx, rconst, sig, nblocks, blksize, func):
+        orig = ary.copy()
+        cuda_func = cuda.jit(sig)(func)
+        cuda_func[nblocks, blksize](ary, idx, rconst)
+        np.testing.assert_equal(ary, np.where(orig >= rconst, 0, orig + 1))
+    def check_inc_index2(self, ary, idx, rconst, sig, nblocks, blksize, func):
+        orig = ary.copy()
+        cuda_func = cuda.jit(sig)(func)
+        cuda_func[nblocks, blksize](idx, ary, rconst)
+        np.testing.assert_equal(ary, np.where(orig >= rconst, 0, orig + 1))
+    def check_inc(self, ary, rconst, sig, nblocks, blksize, func):
+        orig = ary.copy()
+        cuda_func = cuda.jit(sig)(func)
+        cuda_func[nblocks, blksize](ary, rconst)
+        np.testing.assert_equal(ary, np.where(orig >= rconst, 0, orig + 1))
+    def test_atomic_inc_32(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint32)
+        sig = "void(uint32[:], uint32[:], uint32)"
+        self.check_inc_index(ary, idx, rand_const, sig, 1, 32, atomic_inc32)
+    def test_atomic_inc_64(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint64)
+        sig = "void(uint64[:], uint64[:], uint64)"
+        self.check_inc_index(ary, idx, rand_const, sig, 1, 32, atomic_inc64)
+    def test_atomic_inc2_32(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint32)
+        sig = "void(uint32[:,:], uint32)"
+        self.check_inc(ary, rand_const, sig, 1, (4, 8), atomic_inc2_32)
+    def test_atomic_inc2_64(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint64)
+        sig = "void(uint64[:,:], uint64)"
+        self.check_inc(ary, rand_const, sig, 1, (4, 8), atomic_inc2_64)
+    def test_atomic_inc3(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint32)
+        sig = "void(uint32[:,:], uint32)"
+        self.check_inc(ary, rand_const, sig, 1, (4, 8), atomic_inc3)
+    def test_atomic_inc_global_32(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint32)
+        sig = "void(uint32[:], uint32[:], uint32)"
+        self.check_inc_index2(
+            ary, idx, rand_const, sig, 1, 32, atomic_inc_global
+        )
+    def test_atomic_inc_global_64(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint64)
+        sig = "void(uint64[:], uint64[:], uint64)"
+        self.check_inc_index2(
+            ary, idx, rand_const, sig, 1, 32, atomic_inc_global
+        )
+    def test_atomic_inc_global_2_32(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint32)
+        sig = "void(uint32[:,:], uint32)"
+        self.check_inc(ary, rand_const, sig, 1, (4, 8), atomic_inc_global_2)
+    def test_atomic_inc_global_2_64(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint64)
+        sig = "void(uint64[:,:], uint64)"
+        self.check_inc(ary, rand_const, sig, 1, (4, 8), atomic_inc_global_2)
+    def check_dec_index(self, ary, idx, rconst, sig, nblocks, blksize, func):
+        orig = ary.copy()
+        cuda_func = cuda.jit(sig)(func)
+        cuda_func[nblocks, blksize](ary, idx, rconst)
+        np.testing.assert_equal(
+            ary,
+            np.where(
+                orig == 0, rconst, np.where(orig > rconst, rconst, orig - 1)
+            ),
+        )
+    def check_dec_index2(self, ary, idx, rconst, sig, nblocks, blksize, func):
+        orig = ary.copy()
+        cuda_func = cuda.jit(sig)(func)
+        cuda_func[nblocks, blksize](idx, ary, rconst)
+        np.testing.assert_equal(
+            ary,
+            np.where(
+                orig == 0, rconst, np.where(orig > rconst, rconst, orig - 1)
+            ),
+        )
+    def check_dec(self, ary, rconst, sig, nblocks, blksize, func):
+        orig = ary.copy()
+        cuda_func = cuda.jit(sig)(func)
+        cuda_func[nblocks, blksize](ary, rconst)
+        np.testing.assert_equal(
+            ary,
+            np.where(
+                orig == 0, rconst, np.where(orig > rconst, rconst, orig - 1)
+            ),
+        )
+    def test_atomic_dec_32(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint32)
+        sig = "void(uint32[:], uint32[:], uint32)"
+        self.check_dec_index(ary, idx, rand_const, sig, 1, 32, atomic_dec32)
+    def test_atomic_dec_64(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint64)
+        sig = "void(uint64[:], uint64[:], uint64)"
+        self.check_dec_index(ary, idx, rand_const, sig, 1, 32, atomic_dec64)
+    def test_atomic_dec2_32(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint32)
+        sig = "void(uint32[:,:], uint32)"
+        self.check_dec(ary, rand_const, sig, 1, (4, 8), atomic_dec2_32)
+    def test_atomic_dec2_64(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint64)
+        sig = "void(uint64[:,:], uint64)"
+        self.check_dec(ary, rand_const, sig, 1, (4, 8), atomic_dec2_64)
+    def test_atomic_dec3_new(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint32)
+        sig = "void(uint32[:,:], uint32)"
+        self.check_dec(ary, rand_const, sig, 1, (4, 8), atomic_dec3)
+    def test_atomic_dec_global_32(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint32)
+        sig = "void(uint32[:], uint32[:], uint32)"
+        self.check_dec_index2(
+            ary, idx, rand_const, sig, 1, 32, atomic_dec_global
+        )
+    def test_atomic_dec_global_64(self):
+        rand_const, ary, idx = self.inc_dec_1dim_setup(dtype=np.uint64)
+        sig = "void(uint64[:], uint64[:], uint64)"
+        self.check_dec_index2(
+            ary, idx, rand_const, sig, 1, 32, atomic_dec_global
+        )
+    def test_atomic_dec_global2_32(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint32)
+        sig = "void(uint32[:,:], uint32)"
+        self.check_dec(ary, rand_const, sig, 1, (4, 8), atomic_dec_global_2)
+    def test_atomic_dec_global2_64(self):
+        rand_const, ary = self.inc_dec_2dim_setup(np.uint64)
+        sig = "void(uint64[:,:], uint64)"
+        self.check_dec(ary, rand_const, sig, 1, (4, 8), atomic_dec_global_2)
+    def test_atomic_exch(self):
+        rand_const = np.random.randint(50, 100, dtype=np.uint32)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32)
+        idx = np.arange(32, dtype=np.uint32)
+        cuda_func = cuda.jit("void(uint32[:], uint32[:], uint32)")(atomic_exch)
+        cuda_func[1, 32](ary, idx, rand_const)
+        np.testing.assert_equal(ary, rand_const)
+    def test_atomic_exch2(self):
+        rand_const = np.random.randint(50, 100, dtype=np.uint32)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint32).reshape(4, 8)
+        cuda_func = cuda.jit("void(uint32[:,:], uint32)")(atomic_exch2)
+        cuda_func[1, (4, 8)](ary, rand_const)
+        np.testing.assert_equal(ary, rand_const)
+    def test_atomic_exch3(self):
+        rand_const = np.random.randint(50, 100, dtype=np.uint64)
+        ary = np.random.randint(0, 32, size=32).astype(np.uint64).reshape(4, 8)
+        cuda_func = cuda.jit("void(uint64[:,:], uint64)")(atomic_exch3)
+        cuda_func[1, (4, 8)](ary, rand_const)
+        np.testing.assert_equal(ary, rand_const)
+    def test_atomic_exch_global(self):
+        rand_const = np.random.randint(50, 100, dtype=np.uint32)
+        idx = np.arange(32, dtype=np.uint32)
+        ary = np.random.randint(0, 32, size=32, dtype=np.uint32)
+        sig = "void(uint32[:], uint32[:], uint32)"
+        cuda_func = cuda.jit(sig)(atomic_exch_global)
+        cuda_func[1, 32](idx, ary, rand_const)
+        np.testing.assert_equal(ary, rand_const)
+    def check_atomic_max(self, dtype, lo, hi):
+        vals = np.random.randint(lo, hi, size=(32, 32)).astype(dtype)
+        res = np.zeros(1, dtype=vals.dtype)
+        cuda_func = cuda.jit(atomic_max)
+        cuda_func[32, 32](res, vals)
+        gold = np.max(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_max_int32(self):
+        self.check_atomic_max(dtype=np.int32, lo=-65535, hi=65535)
+    def test_atomic_max_uint32(self):
+        self.check_atomic_max(dtype=np.uint32, lo=0, hi=65535)
+    def test_atomic_max_int64(self):
+        self.check_atomic_max(dtype=np.int64, lo=-65535, hi=65535)
+    def test_atomic_max_uint64(self):
+        self.check_atomic_max(dtype=np.uint64, lo=0, hi=65535)
+    def test_atomic_max_float32(self):
+        self.check_atomic_max(dtype=np.float32, lo=-65535, hi=65535)
+    def test_atomic_max_double(self):
+        self.check_atomic_max(dtype=np.float64, lo=-65535, hi=65535)
+    def test_atomic_max_double_normalizedindex(self):
+        vals = np.random.randint(0, 65535, size=(32, 32)).astype(np.float64)
+        res = np.zeros(1, np.float64)
+        cuda_func = cuda.jit("void(float64[:], float64[:,:])")(
+            atomic_max_double_normalizedindex
+        )
+        cuda_func[32, 32](res, vals)
+        gold = np.max(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_max_double_oneindex(self):
+        vals = np.random.randint(0, 128, size=32).astype(np.float64)
+        res = np.zeros(1, np.float64)
+        cuda_func = cuda.jit("void(float64[:], float64[:])")(
+            atomic_max_double_oneindex
+        )
+        cuda_func[1, 32](res, vals)
+        gold = np.max(vals)
+        np.testing.assert_equal(res, gold)
+    def check_atomic_min(self, dtype, lo, hi):
+        vals = np.random.randint(lo, hi, size=(32, 32)).astype(dtype)
+        res = np.array([65535], dtype=vals.dtype)
+        cuda_func = cuda.jit(atomic_min)
+        cuda_func[32, 32](res, vals)
+        gold = np.min(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_min_int32(self):
+        self.check_atomic_min(dtype=np.int32, lo=-65535, hi=65535)
+    def test_atomic_min_uint32(self):
+        self.check_atomic_min(dtype=np.uint32, lo=0, hi=65535)
+    def test_atomic_min_int64(self):
+        self.check_atomic_min(dtype=np.int64, lo=-65535, hi=65535)
+    def test_atomic_min_uint64(self):
+        self.check_atomic_min(dtype=np.uint64, lo=0, hi=65535)
+    def test_atomic_min_float(self):
+        self.check_atomic_min(dtype=np.float32, lo=-65535, hi=65535)
+    def test_atomic_min_double(self):
+        self.check_atomic_min(dtype=np.float64, lo=-65535, hi=65535)
+    def test_atomic_min_double_normalizedindex(self):
+        vals = np.random.randint(0, 65535, size=(32, 32)).astype(np.float64)
+        res = np.ones(1, np.float64) * 65535
+        cuda_func = cuda.jit("void(float64[:], float64[:,:])")(
+            atomic_min_double_normalizedindex
+        )
+        cuda_func[32, 32](res, vals)
+        gold = np.min(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_min_double_oneindex(self):
+        vals = np.random.randint(0, 128, size=32).astype(np.float64)
+        res = np.ones(1, np.float64) * 128
+        cuda_func = cuda.jit("void(float64[:], float64[:])")(
+            atomic_min_double_oneindex
+        )
+        cuda_func[1, 32](res, vals)
+        gold = np.min(vals)
+        np.testing.assert_equal(res, gold)
+    # Taken together, _test_atomic_minmax_nan_location and
+    # _test_atomic_minmax_nan_val check that NaNs are treated similarly to the
+    # way they are in Python / NumPy - that is, {min,max}(a, b) == a if either
+    # a or b is a NaN. For the atomics, this means that the max is taken as the
+    # value stored in the memory location rather than the value supplied - i.e.
+    # for:
+    #
+    #    cuda.atomic.{min,max}(ary, idx, val)
+    #
+    # the result will be ary[idx] for either of ary[idx] or val being NaN.
+    def _test_atomic_minmax_nan_location(self, func):
+        cuda_func = cuda.jit("void(float64[:], float64[:,:])")(func)
+        vals = np.random.randint(0, 128, size=(1, 1)).astype(np.float64)
+        res = np.zeros(1, np.float64) + np.nan
+        cuda_func[1, 1](res, vals)
+        np.testing.assert_equal(res, [np.nan])
+    def _test_atomic_minmax_nan_val(self, func):
+        cuda_func = cuda.jit("void(float64[:], float64[:,:])")(func)
+        res = np.random.randint(0, 128, size=1).astype(np.float64)
+        gold = res.copy()
+        vals = np.zeros((1, 1), np.float64) + np.nan
+        cuda_func[1, 1](res, vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_min_nan_location(self):
+        self._test_atomic_minmax_nan_location(atomic_min)
+    def test_atomic_max_nan_location(self):
+        self._test_atomic_minmax_nan_location(atomic_max)
+    def test_atomic_min_nan_val(self):
+        self._test_atomic_minmax_nan_val(atomic_min)
+    def test_atomic_max_nan_val(self):
+        self._test_atomic_minmax_nan_val(atomic_max)
+    def test_atomic_max_double_shared(self):
+        vals = np.random.randint(0, 32, size=32).astype(np.float64)
+        res = np.zeros(1, np.float64)
+        sig = "void(float64[:], float64[:])"
+        cuda_func = cuda.jit(sig)(atomic_max_double_shared)
+        cuda_func[1, 32](res, vals)
+        gold = np.max(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_min_double_shared(self):
+        vals = np.random.randint(0, 32, size=32).astype(np.float64)
+        res = np.ones(1, np.float64) * 32
+        sig = "void(float64[:], float64[:])"
+        cuda_func = cuda.jit(sig)(atomic_min_double_shared)
+        cuda_func[1, 32](res, vals)
+        gold = np.min(vals)
+        np.testing.assert_equal(res, gold)
+    def check_cas(self, n, fill, unfill, dtype, cas_func, ndim=1):
+        res = [fill] * (n // 2) + [unfill] * (n // 2)
+        np.random.shuffle(res)
+        res = np.asarray(res, dtype=dtype)
+        if ndim == 2:
+            res.shape = (10, -1)
+        out = np.zeros_like(res)
+        ary = np.random.randint(1, 10, size=res.shape).astype(res.dtype)
+        fill_mask = res == fill
+        unfill_mask = res == unfill
+        expect_res = np.zeros_like(res)
+        expect_res[fill_mask] = ary[fill_mask]
+        expect_res[unfill_mask] = unfill
+        expect_out = res.copy()
+        cuda_func = cuda.jit(cas_func)
+        if ndim == 1:
+            cuda_func[10, 10](res, out, ary, fill)
+        else:
+            cuda_func[(10, 10), (10, 10)](res, out, ary, fill)
+        np.testing.assert_array_equal(expect_res, res)
+        np.testing.assert_array_equal(expect_out, out)
+    def test_atomic_compare_and_swap(self):
+        self.check_cas(
+            n=100,
+            fill=-99,
+            unfill=-1,
+            dtype=np.int32,
+            cas_func=atomic_compare_and_swap,
+        )
+    def test_atomic_compare_and_swap2(self):
+        self.check_cas(
+            n=100,
+            fill=-45,
+            unfill=-1,
+            dtype=np.int64,
+            cas_func=atomic_compare_and_swap,
+        )
+    def test_atomic_compare_and_swap3(self):
+        rfill = np.random.randint(50, 500, dtype=np.uint32)
+        runfill = np.random.randint(1, 25, dtype=np.uint32)
+        self.check_cas(
+            n=100,
+            fill=rfill,
+            unfill=runfill,
+            dtype=np.uint32,
+            cas_func=atomic_compare_and_swap,
+        )
+    def test_atomic_compare_and_swap4(self):
+        rfill = np.random.randint(50, 500, dtype=np.uint64)
+        runfill = np.random.randint(1, 25, dtype=np.uint64)
+        self.check_cas(
+            n=100,
+            fill=rfill,
+            unfill=runfill,
+            dtype=np.uint64,
+            cas_func=atomic_compare_and_swap,
+        )
+    def test_atomic_cas_1dim(self):
+        self.check_cas(
+            n=100, fill=-99, unfill=-1, dtype=np.int32, cas_func=atomic_cas_1dim
+        )
+    def test_atomic_cas_2dim(self):
+        self.check_cas(
+            n=100,
+            fill=-99,
+            unfill=-1,
+            dtype=np.int32,
+            cas_func=atomic_cas_2dim,
+            ndim=2,
+        )
+    def test_atomic_cas2_1dim(self):
+        self.check_cas(
+            n=100, fill=-45, unfill=-1, dtype=np.int64, cas_func=atomic_cas_1dim
+        )
+    def test_atomic_cas2_2dim(self):
+        self.check_cas(
+            n=100,
+            fill=-45,
+            unfill=-1,
+            dtype=np.int64,
+            cas_func=atomic_cas_2dim,
+            ndim=2,
+        )
+    def test_atomic_cas3_1dim(self):
+        rfill = np.random.randint(50, 500, dtype=np.uint32)
+        runfill = np.random.randint(1, 25, dtype=np.uint32)
+        self.check_cas(
+            n=100,
+            fill=rfill,
+            unfill=runfill,
+            dtype=np.uint32,
+            cas_func=atomic_cas_1dim,
+        )
+    def test_atomic_cas3_2dim(self):
+        rfill = np.random.randint(50, 500, dtype=np.uint32)
+        runfill = np.random.randint(1, 25, dtype=np.uint32)
+        self.check_cas(
+            n=100,
+            fill=rfill,
+            unfill=runfill,
+            dtype=np.uint32,
+            cas_func=atomic_cas_2dim,
+            ndim=2,
+        )
+    def test_atomic_cas4_1dim(self):
+        rfill = np.random.randint(50, 500, dtype=np.uint64)
+        runfill = np.random.randint(1, 25, dtype=np.uint64)
+        self.check_cas(
+            n=100,
+            fill=rfill,
+            unfill=runfill,
+            dtype=np.uint64,
+            cas_func=atomic_cas_1dim,
+        )
+    def test_atomic_cas4_2dim(self):
+        rfill = np.random.randint(50, 500, dtype=np.uint64)
+        runfill = np.random.randint(1, 25, dtype=np.uint64)
+        self.check_cas(
+            n=100,
+            fill=rfill,
+            unfill=runfill,
+            dtype=np.uint64,
+            cas_func=atomic_cas_2dim,
+            ndim=2,
+        )
+    # Tests that the atomic add, min, and max operations return the old value -
+    # in the simulator, they did not (see Issue #5458). The max and min have
+    # special handling for NaN values, so we explicitly test with a NaN in the
+    # array being modified and the value provided.
+    def _test_atomic_returns_old(self, kernel, initial):
+        x = np.zeros(2, dtype=np.float32)
+        x[0] = initial
+        kernel[1, 1](x)
+        if np.isnan(initial):
+            self.assertTrue(np.isnan(x[1]))
+        else:
+            self.assertEqual(x[1], initial)
+    def test_atomic_add_returns_old(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.add(x, 0, 1)
+        self._test_atomic_returns_old(kernel, 10)
+    def test_atomic_max_returns_no_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.max(x, 0, 1)
+        self._test_atomic_returns_old(kernel, 10)
+    def test_atomic_max_returns_old_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.max(x, 0, 10)
+        self._test_atomic_returns_old(kernel, 1)
+    def test_atomic_max_returns_old_nan_in_array(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.max(x, 0, 1)
+        self._test_atomic_returns_old(kernel, np.nan)
+    def test_atomic_max_returns_old_nan_val(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.max(x, 0, np.nan)
+        self._test_atomic_returns_old(kernel, 10)
+    def test_atomic_min_returns_old_no_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.min(x, 0, 11)
+        self._test_atomic_returns_old(kernel, 10)
+    def test_atomic_min_returns_old_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.min(x, 0, 10)
+        self._test_atomic_returns_old(kernel, 11)
+    def test_atomic_min_returns_old_nan_in_array(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.min(x, 0, 11)
+        self._test_atomic_returns_old(kernel, np.nan)
+    def test_atomic_min_returns_old_nan_val(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.min(x, 0, np.nan)
+        self._test_atomic_returns_old(kernel, 11)
+    # Tests for atomic nanmin/nanmax
+    # nanmax tests
+    def check_atomic_nanmax(self, dtype, lo, hi, init_val):
+        vals = np.random.randint(lo, hi, size=(32, 32)).astype(dtype)
+        vals[1::2] = init_val
+        res = np.zeros(1, dtype=vals.dtype)
+        cuda_func = cuda.jit(atomic_nanmax)
+        cuda_func[32, 32](res, vals)
+        gold = np.nanmax(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_nanmax_int32(self):
+        self.check_atomic_nanmax(
+            dtype=np.int32, lo=-65535, hi=65535, init_val=0
+        )
+    def test_atomic_nanmax_uint32(self):
+        self.check_atomic_nanmax(dtype=np.uint32, lo=0, hi=65535, init_val=0)
+    def test_atomic_nanmax_int64(self):
+        self.check_atomic_nanmax(
+            dtype=np.int64, lo=-65535, hi=65535, init_val=0
+        )
+    def test_atomic_nanmax_uint64(self):
+        self.check_atomic_nanmax(dtype=np.uint64, lo=0, hi=65535, init_val=0)
+    def test_atomic_nanmax_float32(self):
+        self.check_atomic_nanmax(
+            dtype=np.float32, lo=-65535, hi=65535, init_val=np.nan
+        )
+    def test_atomic_nanmax_double(self):
+        self.check_atomic_nanmax(
+            dtype=np.float64, lo=-65535, hi=65535, init_val=np.nan
+        )
+    def test_atomic_nanmax_double_shared(self):
+        vals = np.random.randint(0, 32, size=32).astype(np.float64)
+        vals[1::2] = np.nan
+        res = np.array([0], dtype=vals.dtype)
+        sig = "void(float64[:], float64[:])"
+        cuda_func = cuda.jit(sig)(atomic_nanmax_double_shared)
+        cuda_func[1, 32](res, vals)
+        gold = np.nanmax(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_nanmax_double_oneindex(self):
+        vals = np.random.randint(0, 128, size=32).astype(np.float64)
+        vals[1::2] = np.nan
+        res = np.zeros(1, np.float64)
+        cuda_func = cuda.jit("void(float64[:], float64[:])")(
+            atomic_max_double_oneindex
+        )
+        cuda_func[1, 32](res, vals)
+        gold = np.nanmax(vals)
+        np.testing.assert_equal(res, gold)
+    # nanmin tests
+    def check_atomic_nanmin(self, dtype, lo, hi, init_val):
+        vals = np.random.randint(lo, hi, size=(32, 32)).astype(dtype)
+        vals[1::2] = init_val
+        res = np.array([65535], dtype=vals.dtype)
+        cuda_func = cuda.jit(atomic_nanmin)
+        cuda_func[32, 32](res, vals)
+        gold = np.nanmin(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_nanmin_int32(self):
+        self.check_atomic_nanmin(
+            dtype=np.int32, lo=-65535, hi=65535, init_val=0
+        )
+    def test_atomic_nanmin_uint32(self):
+        self.check_atomic_nanmin(dtype=np.uint32, lo=0, hi=65535, init_val=0)
+    def test_atomic_nanmin_int64(self):
+        self.check_atomic_nanmin(
+            dtype=np.int64, lo=-65535, hi=65535, init_val=0
+        )
+    def test_atomic_nanmin_uint64(self):
+        self.check_atomic_nanmin(dtype=np.uint64, lo=0, hi=65535, init_val=0)
+    def test_atomic_nanmin_float(self):
+        self.check_atomic_nanmin(
+            dtype=np.float32, lo=-65535, hi=65535, init_val=np.nan
+        )
+    def test_atomic_nanmin_double(self):
+        self.check_atomic_nanmin(
+            dtype=np.float64, lo=-65535, hi=65535, init_val=np.nan
+        )
+    def test_atomic_nanmin_double_shared(self):
+        vals = np.random.randint(0, 32, size=32).astype(np.float64)
+        vals[1::2] = np.nan
+        res = np.array([32], dtype=vals.dtype)
+        sig = "void(float64[:], float64[:])"
+        cuda_func = cuda.jit(sig)(atomic_nanmin_double_shared)
+        cuda_func[1, 32](res, vals)
+        gold = np.nanmin(vals)
+        np.testing.assert_equal(res, gold)
+    def test_atomic_nanmin_double_oneindex(self):
+        vals = np.random.randint(0, 128, size=32).astype(np.float64)
+        vals[1::2] = np.nan
+        res = np.array([128], np.float64)
+        cuda_func = cuda.jit("void(float64[:], float64[:])")(
+            atomic_min_double_oneindex
+        )
+        cuda_func[1, 32](res, vals)
+        gold = np.nanmin(vals)
+        np.testing.assert_equal(res, gold)
+    # Returning old value tests
+    def _test_atomic_nan_returns_old(self, kernel, initial):
+        x = np.zeros(2, dtype=np.float32)
+        x[0] = initial
+        x[1] = np.nan
+        kernel[1, 1](x)
+        if np.isnan(initial):
+            self.assertFalse(np.isnan(x[0]))
+            self.assertTrue(np.isnan(x[1]))
+        else:
+            self.assertEqual(x[1], initial)
+    def test_atomic_nanmax_returns_old_no_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmax(x, 0, 1)
+        self._test_atomic_nan_returns_old(kernel, 10)
+    def test_atomic_nanmax_returns_old_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmax(x, 0, 10)
+        self._test_atomic_nan_returns_old(kernel, 1)
+    def test_atomic_nanmax_returns_old_nan_in_array(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmax(x, 0, 1)
+        self._test_atomic_nan_returns_old(kernel, np.nan)
+    def test_atomic_nanmax_returns_old_nan_val(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmax(x, 0, np.nan)
+        self._test_atomic_nan_returns_old(kernel, 10)
+    def test_atomic_nanmin_returns_old_no_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmin(x, 0, 11)
+        self._test_atomic_nan_returns_old(kernel, 10)
+    def test_atomic_nanmin_returns_old_replace(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmin(x, 0, 10)
+        self._test_atomic_nan_returns_old(kernel, 11)
+    def test_atomic_nanmin_returns_old_nan_in_array(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmin(x, 0, 11)
+        self._test_atomic_nan_returns_old(kernel, np.nan)
+    def test_atomic_nanmin_returns_old_nan_val(self):
+        @cuda.jit
+        def kernel(x):
+            x[1] = cuda.atomic.nanmin(x, 0, np.nan)
+        self._test_atomic_nan_returns_old(kernel, 11)
+if __name__ == "__main__":
+    unittest.main()