PyPI - numba-cuda - Versions diffs - 0.21.1__cp313-cp313-win_amd64.whl - Mend

numba-cuda 0.21.1__cp313-cp313-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (488) hide show

_numba_cuda_redirector.pth +4 -0
_numba_cuda_redirector.py +89 -0
numba_cuda/VERSION +1 -0
numba_cuda/__init__.py +6 -0
numba_cuda/_version.py +11 -0
numba_cuda/numba/cuda/__init__.py +70 -0
numba_cuda/numba/cuda/_internal/cuda_bf16.py +16394 -0
numba_cuda/numba/cuda/_internal/cuda_fp16.py +8112 -0
numba_cuda/numba/cuda/api.py +577 -0
numba_cuda/numba/cuda/api_util.py +76 -0
numba_cuda/numba/cuda/args.py +72 -0
numba_cuda/numba/cuda/bf16.py +397 -0
numba_cuda/numba/cuda/cache_hints.py +287 -0
numba_cuda/numba/cuda/cext/__init__.py +2 -0
numba_cuda/numba/cuda/cext/_devicearray.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_devicearray.cpp +159 -0
numba_cuda/numba/cuda/cext/_devicearray.h +29 -0
numba_cuda/numba/cuda/cext/_dispatcher.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_dispatcher.cpp +1098 -0
numba_cuda/numba/cuda/cext/_hashtable.cpp +532 -0
numba_cuda/numba/cuda/cext/_hashtable.h +135 -0
numba_cuda/numba/cuda/cext/_helperlib.c +71 -0
numba_cuda/numba/cuda/cext/_helperlib.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_helpermod.c +82 -0
numba_cuda/numba/cuda/cext/_pymodule.h +38 -0
numba_cuda/numba/cuda/cext/_typeconv.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_typeconv.cpp +206 -0
numba_cuda/numba/cuda/cext/_typeof.cpp +1159 -0
numba_cuda/numba/cuda/cext/_typeof.h +19 -0
numba_cuda/numba/cuda/cext/capsulethunk.h +111 -0
numba_cuda/numba/cuda/cext/mviewbuf.c +385 -0
numba_cuda/numba/cuda/cext/mviewbuf.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/typeconv.cpp +212 -0
numba_cuda/numba/cuda/cext/typeconv.hpp +101 -0
numba_cuda/numba/cuda/cg.py +67 -0
numba_cuda/numba/cuda/cgutils.py +1294 -0
numba_cuda/numba/cuda/cloudpickle/__init__.py +21 -0
numba_cuda/numba/cuda/cloudpickle/cloudpickle.py +1598 -0
numba_cuda/numba/cuda/cloudpickle/cloudpickle_fast.py +17 -0
numba_cuda/numba/cuda/codegen.py +541 -0
numba_cuda/numba/cuda/compiler.py +1396 -0
numba_cuda/numba/cuda/core/analysis.py +758 -0
numba_cuda/numba/cuda/core/annotations/__init__.py +0 -0
numba_cuda/numba/cuda/core/annotations/pretty_annotate.py +288 -0
numba_cuda/numba/cuda/core/annotations/type_annotations.py +305 -0
numba_cuda/numba/cuda/core/base.py +1332 -0
numba_cuda/numba/cuda/core/boxing.py +1411 -0
numba_cuda/numba/cuda/core/bytecode.py +728 -0
numba_cuda/numba/cuda/core/byteflow.py +2346 -0
numba_cuda/numba/cuda/core/caching.py +744 -0
numba_cuda/numba/cuda/core/callconv.py +392 -0
numba_cuda/numba/cuda/core/codegen.py +171 -0
numba_cuda/numba/cuda/core/compiler.py +199 -0
numba_cuda/numba/cuda/core/compiler_lock.py +85 -0
numba_cuda/numba/cuda/core/compiler_machinery.py +497 -0
numba_cuda/numba/cuda/core/config.py +650 -0
numba_cuda/numba/cuda/core/consts.py +124 -0
numba_cuda/numba/cuda/core/controlflow.py +989 -0
numba_cuda/numba/cuda/core/entrypoints.py +57 -0
numba_cuda/numba/cuda/core/environment.py +66 -0
numba_cuda/numba/cuda/core/errors.py +917 -0
numba_cuda/numba/cuda/core/event.py +511 -0
numba_cuda/numba/cuda/core/funcdesc.py +330 -0
numba_cuda/numba/cuda/core/generators.py +387 -0
numba_cuda/numba/cuda/core/imputils.py +509 -0
numba_cuda/numba/cuda/core/inline_closurecall.py +1787 -0
numba_cuda/numba/cuda/core/interpreter.py +3617 -0
numba_cuda/numba/cuda/core/ir.py +1812 -0
numba_cuda/numba/cuda/core/ir_utils.py +2638 -0
numba_cuda/numba/cuda/core/optional.py +129 -0
numba_cuda/numba/cuda/core/options.py +262 -0
numba_cuda/numba/cuda/core/postproc.py +249 -0
numba_cuda/numba/cuda/core/pythonapi.py +1859 -0
numba_cuda/numba/cuda/core/registry.py +46 -0
numba_cuda/numba/cuda/core/removerefctpass.py +123 -0
numba_cuda/numba/cuda/core/rewrites/__init__.py +26 -0
numba_cuda/numba/cuda/core/rewrites/ir_print.py +91 -0
numba_cuda/numba/cuda/core/rewrites/registry.py +104 -0
numba_cuda/numba/cuda/core/rewrites/static_binop.py +41 -0
numba_cuda/numba/cuda/core/rewrites/static_getitem.py +189 -0
numba_cuda/numba/cuda/core/rewrites/static_raise.py +100 -0
numba_cuda/numba/cuda/core/sigutils.py +68 -0
numba_cuda/numba/cuda/core/ssa.py +498 -0
numba_cuda/numba/cuda/core/targetconfig.py +330 -0
numba_cuda/numba/cuda/core/tracing.py +231 -0
numba_cuda/numba/cuda/core/transforms.py +956 -0
numba_cuda/numba/cuda/core/typed_passes.py +867 -0
numba_cuda/numba/cuda/core/typeinfer.py +1950 -0
numba_cuda/numba/cuda/core/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/core/unsafe/bytes.py +67 -0
numba_cuda/numba/cuda/core/unsafe/eh.py +67 -0
numba_cuda/numba/cuda/core/unsafe/refcount.py +98 -0
numba_cuda/numba/cuda/core/untyped_passes.py +1979 -0
numba_cuda/numba/cuda/cpython/builtins.py +1153 -0
numba_cuda/numba/cuda/cpython/charseq.py +1218 -0
numba_cuda/numba/cuda/cpython/cmathimpl.py +560 -0
numba_cuda/numba/cuda/cpython/enumimpl.py +103 -0
numba_cuda/numba/cuda/cpython/iterators.py +167 -0
numba_cuda/numba/cuda/cpython/listobj.py +1326 -0
numba_cuda/numba/cuda/cpython/mathimpl.py +499 -0
numba_cuda/numba/cuda/cpython/numbers.py +1475 -0
numba_cuda/numba/cuda/cpython/rangeobj.py +289 -0
numba_cuda/numba/cuda/cpython/slicing.py +322 -0
numba_cuda/numba/cuda/cpython/tupleobj.py +456 -0
numba_cuda/numba/cuda/cpython/unicode.py +2865 -0
numba_cuda/numba/cuda/cpython/unicode_support.py +1597 -0
numba_cuda/numba/cuda/cpython/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/cpython/unsafe/numbers.py +64 -0
numba_cuda/numba/cuda/cpython/unsafe/tuple.py +92 -0
numba_cuda/numba/cuda/cuda_paths.py +691 -0
numba_cuda/numba/cuda/cudadecl.py +556 -0
numba_cuda/numba/cuda/cudadrv/__init__.py +14 -0
numba_cuda/numba/cuda/cudadrv/devicearray.py +951 -0
numba_cuda/numba/cuda/cudadrv/devices.py +249 -0
numba_cuda/numba/cuda/cudadrv/driver.py +3222 -0
numba_cuda/numba/cuda/cudadrv/drvapi.py +435 -0
numba_cuda/numba/cuda/cudadrv/dummyarray.py +558 -0
numba_cuda/numba/cuda/cudadrv/enums.py +613 -0
numba_cuda/numba/cuda/cudadrv/error.py +48 -0
numba_cuda/numba/cuda/cudadrv/libs.py +220 -0
numba_cuda/numba/cuda/cudadrv/linkable_code.py +184 -0
numba_cuda/numba/cuda/cudadrv/mappings.py +14 -0
numba_cuda/numba/cuda/cudadrv/ndarray.py +26 -0
numba_cuda/numba/cuda/cudadrv/nvrtc.py +193 -0
numba_cuda/numba/cuda/cudadrv/nvvm.py +756 -0
numba_cuda/numba/cuda/cudadrv/rtapi.py +13 -0
numba_cuda/numba/cuda/cudadrv/runtime.py +34 -0
numba_cuda/numba/cuda/cudaimpl.py +995 -0
numba_cuda/numba/cuda/cudamath.py +149 -0
numba_cuda/numba/cuda/datamodel/__init__.py +7 -0
numba_cuda/numba/cuda/datamodel/cuda_manager.py +66 -0
numba_cuda/numba/cuda/datamodel/cuda_models.py +1446 -0
numba_cuda/numba/cuda/datamodel/cuda_packer.py +224 -0
numba_cuda/numba/cuda/datamodel/cuda_registry.py +22 -0
numba_cuda/numba/cuda/datamodel/cuda_testing.py +153 -0
numba_cuda/numba/cuda/datamodel/manager.py +11 -0
numba_cuda/numba/cuda/datamodel/models.py +9 -0
numba_cuda/numba/cuda/datamodel/packer.py +9 -0
numba_cuda/numba/cuda/datamodel/registry.py +11 -0
numba_cuda/numba/cuda/datamodel/testing.py +11 -0
numba_cuda/numba/cuda/debuginfo.py +903 -0
numba_cuda/numba/cuda/decorators.py +294 -0
numba_cuda/numba/cuda/descriptor.py +35 -0
numba_cuda/numba/cuda/device_init.py +158 -0
numba_cuda/numba/cuda/deviceufunc.py +1021 -0
numba_cuda/numba/cuda/dispatcher.py +2463 -0
numba_cuda/numba/cuda/errors.py +72 -0
numba_cuda/numba/cuda/extending.py +697 -0
numba_cuda/numba/cuda/flags.py +178 -0
numba_cuda/numba/cuda/fp16.py +357 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/include/13/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/13/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/13/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/13/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/initialize.py +24 -0
numba_cuda/numba/cuda/intrinsic_wrapper.py +41 -0
numba_cuda/numba/cuda/intrinsics.py +382 -0
numba_cuda/numba/cuda/itanium_mangler.py +214 -0
numba_cuda/numba/cuda/kernels/__init__.py +2 -0
numba_cuda/numba/cuda/kernels/reduction.py +265 -0
numba_cuda/numba/cuda/kernels/transpose.py +65 -0
numba_cuda/numba/cuda/libdevice.py +3386 -0
numba_cuda/numba/cuda/libdevicedecl.py +20 -0
numba_cuda/numba/cuda/libdevicefuncs.py +1060 -0
numba_cuda/numba/cuda/libdeviceimpl.py +88 -0
numba_cuda/numba/cuda/locks.py +19 -0
numba_cuda/numba/cuda/lowering.py +1951 -0
numba_cuda/numba/cuda/mathimpl.py +374 -0
numba_cuda/numba/cuda/memory_management/__init__.py +4 -0
numba_cuda/numba/cuda/memory_management/memsys.cu +99 -0
numba_cuda/numba/cuda/memory_management/memsys.cuh +22 -0
numba_cuda/numba/cuda/memory_management/nrt.cu +212 -0
numba_cuda/numba/cuda/memory_management/nrt.cuh +48 -0
numba_cuda/numba/cuda/memory_management/nrt.py +390 -0
numba_cuda/numba/cuda/memory_management/nrt_context.py +438 -0
numba_cuda/numba/cuda/misc/appdirs.py +594 -0
numba_cuda/numba/cuda/misc/cffiimpl.py +24 -0
numba_cuda/numba/cuda/misc/coverage_support.py +43 -0
numba_cuda/numba/cuda/misc/dump_style.py +41 -0
numba_cuda/numba/cuda/misc/findlib.py +75 -0
numba_cuda/numba/cuda/misc/firstlinefinder.py +96 -0
numba_cuda/numba/cuda/misc/gdb_hook.py +240 -0
numba_cuda/numba/cuda/misc/literal.py +28 -0
numba_cuda/numba/cuda/misc/llvm_pass_timings.py +412 -0
numba_cuda/numba/cuda/misc/special.py +94 -0
numba_cuda/numba/cuda/models.py +56 -0
numba_cuda/numba/cuda/np/arraymath.py +5130 -0
numba_cuda/numba/cuda/np/arrayobj.py +7635 -0
numba_cuda/numba/cuda/np/extensions.py +11 -0
numba_cuda/numba/cuda/np/linalg.py +3087 -0
numba_cuda/numba/cuda/np/math/__init__.py +0 -0
numba_cuda/numba/cuda/np/math/cmathimpl.py +558 -0
numba_cuda/numba/cuda/np/math/mathimpl.py +487 -0
numba_cuda/numba/cuda/np/math/numbers.py +1461 -0
numba_cuda/numba/cuda/np/npdatetime.py +969 -0
numba_cuda/numba/cuda/np/npdatetime_helpers.py +217 -0
numba_cuda/numba/cuda/np/npyfuncs.py +1808 -0
numba_cuda/numba/cuda/np/npyimpl.py +1027 -0
numba_cuda/numba/cuda/np/numpy_support.py +798 -0
numba_cuda/numba/cuda/np/polynomial/__init__.py +4 -0
numba_cuda/numba/cuda/np/polynomial/polynomial_core.py +242 -0
numba_cuda/numba/cuda/np/polynomial/polynomial_functions.py +380 -0
numba_cuda/numba/cuda/np/ufunc/__init__.py +4 -0
numba_cuda/numba/cuda/np/ufunc/decorators.py +203 -0
numba_cuda/numba/cuda/np/ufunc/sigparse.py +68 -0
numba_cuda/numba/cuda/np/ufunc/ufuncbuilder.py +65 -0
numba_cuda/numba/cuda/np/ufunc_db.py +1282 -0
numba_cuda/numba/cuda/np/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/np/unsafe/ndarray.py +84 -0
numba_cuda/numba/cuda/nvvmutils.py +254 -0
numba_cuda/numba/cuda/printimpl.py +126 -0
numba_cuda/numba/cuda/random.py +308 -0
numba_cuda/numba/cuda/reshape_funcs.cu +156 -0
numba_cuda/numba/cuda/serialize.py +267 -0
numba_cuda/numba/cuda/simulator/__init__.py +63 -0
numba_cuda/numba/cuda/simulator/_internal/__init__.py +4 -0
numba_cuda/numba/cuda/simulator/_internal/cuda_bf16.py +2 -0
numba_cuda/numba/cuda/simulator/api.py +179 -0
numba_cuda/numba/cuda/simulator/bf16.py +4 -0
numba_cuda/numba/cuda/simulator/compiler.py +38 -0
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +11 -0
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +462 -0
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +122 -0
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +66 -0
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +7 -0
numba_cuda/numba/cuda/simulator/cudadrv/dummyarray.py +7 -0
numba_cuda/numba/cuda/simulator/cudadrv/error.py +10 -0
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +10 -0
numba_cuda/numba/cuda/simulator/cudadrv/linkable_code.py +61 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvrtc.py +11 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +32 -0
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +22 -0
numba_cuda/numba/cuda/simulator/dispatcher.py +11 -0
numba_cuda/numba/cuda/simulator/kernel.py +320 -0
numba_cuda/numba/cuda/simulator/kernelapi.py +509 -0
numba_cuda/numba/cuda/simulator/memory_management/__init__.py +4 -0
numba_cuda/numba/cuda/simulator/memory_management/nrt.py +21 -0
numba_cuda/numba/cuda/simulator/reduction.py +19 -0
numba_cuda/numba/cuda/simulator/tests/support.py +4 -0
numba_cuda/numba/cuda/simulator/vector_types.py +65 -0
numba_cuda/numba/cuda/simulator_init.py +18 -0
numba_cuda/numba/cuda/stubs.py +635 -0
numba_cuda/numba/cuda/target.py +505 -0
numba_cuda/numba/cuda/testing.py +347 -0
numba_cuda/numba/cuda/tests/__init__.py +62 -0
numba_cuda/numba/cuda/tests/benchmarks/__init__.py +0 -0
numba_cuda/numba/cuda/tests/benchmarks/test_kernel_launch.py +119 -0
numba_cuda/numba/cuda/tests/cloudpickle_main_class.py +9 -0
numba_cuda/numba/cuda/tests/core/serialize_usecases.py +113 -0
numba_cuda/numba/cuda/tests/core/test_itanium_mangler.py +83 -0
numba_cuda/numba/cuda/tests/core/test_serialize.py +371 -0
numba_cuda/numba/cuda/tests/cudadrv/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +147 -0
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +161 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +397 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +24 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +180 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +313 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +187 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +621 -0
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +247 -0
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +100 -0
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +198 -0
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +53 -0
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +72 -0
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +138 -0
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +43 -0
numba_cuda/numba/cuda/tests/cudadrv/test_is_fp16.py +15 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linkable_code.py +58 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +348 -0
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +128 -0
numba_cuda/numba/cuda/tests/cudadrv/test_module_callbacks.py +301 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvjitlink.py +174 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvrtc.py +28 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +185 -0
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +39 -0
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +23 -0
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +38 -0
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +48 -0
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +44 -0
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +127 -0
numba_cuda/numba/cuda/tests/cudapy/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +231 -0
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +50 -0
numba_cuda/numba/cuda/tests/cudapy/cg_cache_usecases.py +36 -0
numba_cuda/numba/cuda/tests/cudapy/complex_usecases.py +116 -0
numba_cuda/numba/cuda/tests/cudapy/enum_usecases.py +59 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +62 -0
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +28 -0
numba_cuda/numba/cuda/tests/cudapy/overload_usecases.py +33 -0
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +104 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_analysis.py +1122 -0
numba_cuda/numba/cuda/tests/cudapy/test_array.py +344 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_alignment.py +268 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +203 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +63 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_reductions.py +360 -0
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +1815 -0
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16.py +599 -0
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16_bindings.py +377 -0
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +160 -0
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +27 -0
numba_cuda/numba/cuda/tests/cudapy/test_byteflow.py +98 -0
numba_cuda/numba/cuda/tests/cudapy/test_cache_hints.py +210 -0
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +683 -0
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +265 -0
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +718 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +370 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +23 -0
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +142 -0
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +178 -0
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +193 -0
numba_cuda/numba/cuda/tests/cudapy/test_copy_propagate.py +131 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +438 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +105 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +889 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo_types.py +476 -0
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +500 -0
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +820 -0
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +152 -0
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +111 -0
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +170 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +1088 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending_types.py +71 -0
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +265 -0
numba_cuda/numba/cuda/tests/cudapy/test_flow_control.py +1433 -0
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +57 -0
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +34 -0
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +69 -0
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +62 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +474 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +167 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +92 -0
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +39 -0
numba_cuda/numba/cuda/tests/cudapy/test_inline.py +170 -0
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +255 -0
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +1219 -0
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +263 -0
numba_cuda/numba/cuda/tests/cudapy/test_ir.py +598 -0
numba_cuda/numba/cuda/tests/cudapy/test_ir_utils.py +276 -0
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +68 -0
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +123 -0
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +194 -0
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +220 -0
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +173 -0
numba_cuda/numba/cuda/tests/cudapy/test_make_function_to_jit_function.py +364 -0
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_math.py +842 -0
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +76 -0
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +78 -0
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +25 -0
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +145 -0
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +39 -0
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +82 -0
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +53 -0
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +504 -0
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +93 -0
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +402 -0
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +128 -0
numba_cuda/numba/cuda/tests/cudapy/test_print.py +193 -0
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_random.py +117 -0
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +614 -0
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +130 -0
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +83 -0
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +86 -0
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +457 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +233 -0
numba_cuda/numba/cuda/tests/cudapy/test_ssa.py +454 -0
numba_cuda/numba/cuda/tests/cudapy/test_stream_api.py +56 -0
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +277 -0
numba_cuda/numba/cuda/tests/cudapy/test_tracing.py +200 -0
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +90 -0
numba_cuda/numba/cuda/tests/cudapy/test_typeconv.py +333 -0
numba_cuda/numba/cuda/tests/cudapy/test_typeinfer.py +538 -0
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +585 -0
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +485 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +312 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +23 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +183 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +206 -0
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +331 -0
numba_cuda/numba/cuda/tests/cudasim/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudasim/support.py +9 -0
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +111 -0
numba_cuda/numba/cuda/tests/data/__init__.py +2 -0
numba_cuda/numba/cuda/tests/data/cta_barrier.cu +28 -0
numba_cuda/numba/cuda/tests/data/cuda_include.cu +10 -0
numba_cuda/numba/cuda/tests/data/error.cu +12 -0
numba_cuda/numba/cuda/tests/data/include/add.cuh +8 -0
numba_cuda/numba/cuda/tests/data/jitlink.cu +28 -0
numba_cuda/numba/cuda/tests/data/jitlink.ptx +49 -0
numba_cuda/numba/cuda/tests/data/warn.cu +12 -0
numba_cuda/numba/cuda/tests/doc_examples/__init__.py +9 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/__init__.py +2 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/functions.cu +54 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/include/mul.cuh +8 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/saxpy.cu +14 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +86 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpointer.py +68 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +81 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +141 -0
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +160 -0
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +180 -0
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +119 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +66 -0
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +80 -0
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +206 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ufunc.py +53 -0
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +76 -0
numba_cuda/numba/cuda/tests/nocuda/__init__.py +9 -0
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +391 -0
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +48 -0
numba_cuda/numba/cuda/tests/nocuda/test_import.py +63 -0
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +252 -0
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +59 -0
numba_cuda/numba/cuda/tests/nrt/__init__.py +9 -0
numba_cuda/numba/cuda/tests/nrt/test_nrt.py +387 -0
numba_cuda/numba/cuda/tests/nrt/test_nrt_refct.py +124 -0
numba_cuda/numba/cuda/tests/support.py +900 -0
numba_cuda/numba/cuda/typeconv/__init__.py +4 -0
numba_cuda/numba/cuda/typeconv/castgraph.py +137 -0
numba_cuda/numba/cuda/typeconv/rules.py +63 -0
numba_cuda/numba/cuda/typeconv/typeconv.py +121 -0
numba_cuda/numba/cuda/types/__init__.py +233 -0
numba_cuda/numba/cuda/types/__init__.pyi +167 -0
numba_cuda/numba/cuda/types/abstract.py +9 -0
numba_cuda/numba/cuda/types/common.py +9 -0
numba_cuda/numba/cuda/types/containers.py +9 -0
numba_cuda/numba/cuda/types/cuda_abstract.py +533 -0
numba_cuda/numba/cuda/types/cuda_common.py +110 -0
numba_cuda/numba/cuda/types/cuda_containers.py +971 -0
numba_cuda/numba/cuda/types/cuda_function_type.py +230 -0
numba_cuda/numba/cuda/types/cuda_functions.py +798 -0
numba_cuda/numba/cuda/types/cuda_iterators.py +120 -0
numba_cuda/numba/cuda/types/cuda_misc.py +569 -0
numba_cuda/numba/cuda/types/cuda_npytypes.py +690 -0
numba_cuda/numba/cuda/types/cuda_scalars.py +280 -0
numba_cuda/numba/cuda/types/ext_types.py +101 -0
numba_cuda/numba/cuda/types/function_type.py +11 -0
numba_cuda/numba/cuda/types/functions.py +9 -0
numba_cuda/numba/cuda/types/iterators.py +9 -0
numba_cuda/numba/cuda/types/misc.py +9 -0
numba_cuda/numba/cuda/types/npytypes.py +9 -0
numba_cuda/numba/cuda/types/scalars.py +9 -0
numba_cuda/numba/cuda/typing/__init__.py +19 -0
numba_cuda/numba/cuda/typing/arraydecl.py +939 -0
numba_cuda/numba/cuda/typing/asnumbatype.py +130 -0
numba_cuda/numba/cuda/typing/bufproto.py +70 -0
numba_cuda/numba/cuda/typing/builtins.py +1209 -0
numba_cuda/numba/cuda/typing/cffi_utils.py +219 -0
numba_cuda/numba/cuda/typing/cmathdecl.py +47 -0
numba_cuda/numba/cuda/typing/collections.py +138 -0
numba_cuda/numba/cuda/typing/context.py +782 -0
numba_cuda/numba/cuda/typing/ctypes_utils.py +125 -0
numba_cuda/numba/cuda/typing/dictdecl.py +63 -0
numba_cuda/numba/cuda/typing/enumdecl.py +74 -0
numba_cuda/numba/cuda/typing/listdecl.py +147 -0
numba_cuda/numba/cuda/typing/mathdecl.py +158 -0
numba_cuda/numba/cuda/typing/npdatetime.py +322 -0
numba_cuda/numba/cuda/typing/npydecl.py +749 -0
numba_cuda/numba/cuda/typing/setdecl.py +115 -0
numba_cuda/numba/cuda/typing/templates.py +1446 -0
numba_cuda/numba/cuda/typing/typeof.py +301 -0
numba_cuda/numba/cuda/ufuncs.py +746 -0
numba_cuda/numba/cuda/utils.py +724 -0
numba_cuda/numba/cuda/vector_types.py +214 -0
numba_cuda/numba/cuda/vectorizers.py +260 -0
numba_cuda-0.21.1.dist-info/METADATA +109 -0
numba_cuda-0.21.1.dist-info/RECORD +488 -0
numba_cuda-0.21.1.dist-info/WHEEL +5 -0
numba_cuda-0.21.1.dist-info/licenses/LICENSE +26 -0
numba_cuda-0.21.1.dist-info/licenses/LICENSE.numba +24 -0
numba_cuda-0.21.1.dist-info/top_level.txt +1 -0

numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py ADDED Viewed

@@ -0,0 +1,160 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+import unittest
+from numba.cuda.testing import (
+    CUDATestCase,
+    skip_if_cudadevrt_missing,
+    skip_on_cudasim,
+    skip_unless_cc_60,
+)
+from numba.cuda.tests.support import captured_stdout
+@skip_if_cudadevrt_missing
+@skip_unless_cc_60
+@skip_on_cudasim("cudasim doesn't support cuda import at non-top-level")
+class TestLaplace(CUDATestCase):
+    """
+    Test simple vector addition
+    """
+    def setUp(self):
+        # Prevent output from this test showing up when running the test suite
+        self._captured_stdout = captured_stdout()
+        self._captured_stdout.__enter__()
+        super().setUp()
+    def tearDown(self):
+        # No exception type, value, or traceback
+        self._captured_stdout.__exit__(None, None, None)
+        super().tearDown()
+    def test_ex_laplace(self):
+        # set True to regenerate the figures that
+        # accompany this example
+        plot = False
+        # ex_laplace.import.begin
+        import numpy as np
+        from numba import cuda
+        # ex_laplace.import.end
+        # ex_laplace.allocate.begin
+        # Use an odd problem size.
+        # This is so there can be an element truly in the "middle" for symmetry.
+        size = 1001
+        data = np.zeros(size)
+        # Middle element is made very hot
+        data[500] = 10000
+        buf_0 = cuda.to_device(data)
+        # This extra array is used for synchronization purposes
+        buf_1 = cuda.device_array_like(buf_0)
+        niter = 10000
+        # ex_laplace.allocate.end
+        if plot:
+            import matplotlib.pyplot as plt
+            fig, ax = plt.subplots(figsize=(16 * 0.66, 9 * 0.66))
+            plt.plot(
+                np.arange(len(buf_0)),
+                buf_0.copy_to_host(),
+                lw=3,
+                marker="*",
+                color="black",
+            )
+            plt.title("Initial State", fontsize=24)
+            plt.xlabel("Position", fontsize=24)
+            plt.ylabel("Temperature", fontsize=24)
+            ax.set_xticks(ax.get_xticks(), fontsize=16)
+            ax.set_yticks(ax.get_yticks(), fontsize=16)
+            plt.xlim(0, len(data))
+            plt.ylim(0, 10001)
+            plt.savefig("laplace_initial.svg")
+        # ex_laplace.kernel.begin
+        @cuda.jit
+        def solve_heat_equation(buf_0, buf_1, timesteps, k):
+            i = cuda.grid(1)
+            # Don't continue if our index is outside the domain
+            if i >= len(buf_0):
+                return
+            # Prepare to do a grid-wide synchronization later
+            grid = cuda.cg.this_grid()
+            for step in range(timesteps):
+                # Select the buffer from the previous timestep
+                if (step % 2) == 0:
+                    data = buf_0
+                    next_data = buf_1
+                else:
+                    data = buf_1
+                    next_data = buf_0
+                # Get the current temperature associated with this point
+                curr_temp = data[i]
+                # Apply formula from finite difference equation
+                if i == 0:
+                    # Left wall is held at T = 0
+                    next_temp = curr_temp + k * (data[i + 1] - (2 * curr_temp))
+                elif i == len(data) - 1:
+                    # Right wall is held at T = 0
+                    next_temp = curr_temp + k * (data[i - 1] - (2 * curr_temp))
+                else:
+                    # Interior points are a weighted average of their neighbors
+                    next_temp = curr_temp + k * (
+                        data[i - 1] - (2 * curr_temp) + data[i + 1]
+                    )
+                # Write new value to the next buffer
+                next_data[i] = next_temp
+                # Wait for every thread to write before moving on
+                grid.sync()
+        # ex_laplace.kernel.end
+        # ex_laplace.launch.begin
+        solve_heat_equation.forall(len(data))(buf_0, buf_1, niter, 0.25)
+        # ex_laplace.launch.end
+        results = buf_1.copy_to_host()
+        if plot:
+            fig, ax = plt.subplots(figsize=(16 * 0.66, 9 * 0.66))
+            plt.plot(
+                np.arange(len(results)),
+                results,
+                lw=3,
+                marker="*",
+                color="black",
+            )
+            plt.title(f"T = {niter}", fontsize=24)
+            plt.xlabel("Position", fontsize=24)
+            plt.ylabel("Temperature", fontsize=24)
+            ax.set_xticks(ax.get_xticks(), fontsize=16)
+            ax.set_yticks(ax.get_yticks(), fontsize=16)
+            plt.ylim(0, max(results))
+            plt.xlim(0, len(results))
+            plt.savefig("laplace_final.svg")
+        # Integral over the domain should be equal to its initial value.
+        # Note that this should match the initial value of data[500] above, but
+        # we don't assign it to a variable because that would make the example
+        # code look a bit oddly verbose.
+        np.testing.assert_allclose(results.sum(), 10000)
+if __name__ == "__main__":
+    unittest.main()

numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py ADDED Viewed

@@ -0,0 +1,180 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+"""
+Matrix multiplication example via `cuda.jit`.
+Reference: https://stackoverflow.com/a/64198479/13697228 by @RobertCrovella
+Contents in this file are referenced from the sphinx-generated docs.
+"magictoken" is used for markers as beginning and ending of example text.
+"""
+import unittest
+from numba.cuda.testing import CUDATestCase, skip_on_cudasim
+from numba.cuda.tests.support import captured_stdout
+@skip_on_cudasim("cudasim doesn't support cuda import at non-top-level")
+class TestMatMul(CUDATestCase):
+    """
+    Text matrix multiplication using simple, shared memory/square, and shared
+    memory/nonsquare cases.
+    """
+    def setUp(self):
+        # Prevent output from this test showing up when running the test suite
+        self._captured_stdout = captured_stdout()
+        self._captured_stdout.__enter__()
+        super().setUp()
+    def tearDown(self):
+        # No exception type, value, or traceback
+        self._captured_stdout.__exit__(None, None, None)
+        super().tearDown()
+    def test_ex_matmul(self):
+        """Test of matrix multiplication on various cases."""
+        # magictoken.ex_import.begin
+        from numba import cuda
+        from numba.cuda import float32
+        import numpy as np
+        import math
+        # magictoken.ex_import.end
+        # magictoken.ex_matmul.begin
+        @cuda.jit
+        def matmul(A, B, C):
+            """Perform square matrix multiplication of C = A * B."""
+            i, j = cuda.grid(2)
+            if i < C.shape[0] and j < C.shape[1]:
+                tmp = 0.0
+                for k in range(A.shape[1]):
+                    tmp += A[i, k] * B[k, j]
+                C[i, j] = tmp
+        # magictoken.ex_matmul.end
+        # magictoken.ex_run_matmul.begin
+        x_h = np.arange(16).reshape([4, 4])
+        y_h = np.ones([4, 4])
+        z_h = np.zeros([4, 4])
+        x_d = cuda.to_device(x_h)
+        y_d = cuda.to_device(y_h)
+        z_d = cuda.to_device(z_h)
+        threadsperblock = (16, 16)
+        blockspergrid_x = math.ceil(z_h.shape[0] / threadsperblock[0])
+        blockspergrid_y = math.ceil(z_h.shape[1] / threadsperblock[1])
+        blockspergrid = (blockspergrid_x, blockspergrid_y)
+        matmul[blockspergrid, threadsperblock](x_d, y_d, z_d)
+        z_h = z_d.copy_to_host()
+        print(z_h)
+        print(x_h @ y_h)
+        # magictoken.ex_run_matmul.end
+        # magictoken.ex_fast_matmul.begin
+        # Controls threads per block and shared memory usage.
+        # The computation will be done on blocks of TPBxTPB elements.
+        # TPB should not be larger than 32 in this example
+        TPB = 16
+        @cuda.jit
+        def fast_matmul(A, B, C):
+            """
+            Perform matrix multiplication of C = A * B using CUDA shared memory.
+            Reference: https://stackoverflow.com/a/64198479/13697228 by @RobertCrovella
+            """
+            # Define an array in the shared memory
+            # The size and type of the arrays must be known at compile time
+            sA = cuda.shared.array(shape=(TPB, TPB), dtype=float32)
+            sB = cuda.shared.array(shape=(TPB, TPB), dtype=float32)
+            x, y = cuda.grid(2)
+            tx = cuda.threadIdx.x
+            ty = cuda.threadIdx.y
+            bpg = cuda.gridDim.x  # blocks per grid
+            # Each thread computes one element in the result matrix.
+            # The dot product is chunked into dot products of TPB-long vectors.
+            tmp = float32(0.0)
+            for i in range(bpg):
+                # Preload data into shared memory
+                sA[ty, tx] = 0
+                sB[ty, tx] = 0
+                if y < A.shape[0] and (tx + i * TPB) < A.shape[1]:
+                    sA[ty, tx] = A[y, tx + i * TPB]
+                if x < B.shape[1] and (ty + i * TPB) < B.shape[0]:
+                    sB[ty, tx] = B[ty + i * TPB, x]
+                # Wait until all threads finish preloading
+                cuda.syncthreads()
+                # Computes partial product on the shared memory
+                for j in range(TPB):
+                    tmp += sA[ty, j] * sB[j, tx]
+                # Wait until all threads finish computing
+                cuda.syncthreads()
+            if y < C.shape[0] and x < C.shape[1]:
+                C[y, x] = tmp
+        # magictoken.ex_fast_matmul.end
+        # magictoken.ex_run_fast_matmul.begin
+        x_h = np.arange(16).reshape([4, 4])
+        y_h = np.ones([4, 4])
+        z_h = np.zeros([4, 4])
+        x_d = cuda.to_device(x_h)
+        y_d = cuda.to_device(y_h)
+        z_d = cuda.to_device(z_h)
+        threadsperblock = (TPB, TPB)
+        blockspergrid_x = math.ceil(z_h.shape[0] / threadsperblock[0])
+        blockspergrid_y = math.ceil(z_h.shape[1] / threadsperblock[1])
+        blockspergrid = (blockspergrid_x, blockspergrid_y)
+        fast_matmul[blockspergrid, threadsperblock](x_d, y_d, z_d)
+        z_h = z_d.copy_to_host()
+        print(z_h)
+        print(x_h @ y_h)
+        # magictoken.ex_run_fast_matmul.end
+        # fast_matmul test(s)
+        msg = "fast_matmul incorrect for shared memory, square case."
+        self.assertTrue(np.all(z_h == x_h @ y_h), msg=msg)
+        # magictoken.ex_run_nonsquare.begin
+        x_h = np.arange(115).reshape([5, 23])
+        y_h = np.ones([23, 7])
+        z_h = np.zeros([5, 7])
+        x_d = cuda.to_device(x_h)
+        y_d = cuda.to_device(y_h)
+        z_d = cuda.to_device(z_h)
+        threadsperblock = (TPB, TPB)
+        grid_y_max = max(x_h.shape[0], y_h.shape[0])
+        grid_x_max = max(x_h.shape[1], y_h.shape[1])
+        blockspergrid_x = math.ceil(grid_x_max / threadsperblock[0])
+        blockspergrid_y = math.ceil(grid_y_max / threadsperblock[1])
+        blockspergrid = (blockspergrid_x, blockspergrid_y)
+        fast_matmul[blockspergrid, threadsperblock](x_d, y_d, z_d)
+        z_h = z_d.copy_to_host()
+        print(z_h)
+        print(x_h @ y_h)
+        # magictoken.ex_run_nonsquare.end
+        # nonsquare fast_matmul test(s)
+        msg = "fast_matmul incorrect for shared memory, non-square case."
+        self.assertTrue(np.all(z_h == x_h @ y_h), msg=msg)
+if __name__ == "__main__":
+    unittest.main()

numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py ADDED Viewed

@@ -0,0 +1,119 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+import unittest
+from numba.cuda.testing import (
+    CUDATestCase,
+    skip_on_cudasim,
+    skip_on_standalone_numba_cuda,
+)
+from numba.cuda.tests.support import captured_stdout
+@skip_on_cudasim("cudasim doesn't support cuda import at non-top-level")
+class TestMonteCarlo(CUDATestCase):
+    """
+    Test monte-carlo integration
+    """
+    def setUp(self):
+        # Prevent output from this test showing up when running the test suite
+        self._captured_stdout = captured_stdout()
+        self._captured_stdout.__enter__()
+        super().setUp()
+    def tearDown(self):
+        # No exception type, value, or traceback
+        self._captured_stdout.__exit__(None, None, None)
+        super().tearDown()
+    @skip_on_standalone_numba_cuda
+    def test_ex_montecarlo(self):
+        # ex_montecarlo.import.begin
+        import numba
+        import numpy as np
+        from numba import cuda
+        from numba.cuda.random import (
+            create_xoroshiro128p_states,
+            xoroshiro128p_uniform_float32,
+        )
+        # ex_montecarlo.import.end
+        # ex_montecarlo.define.begin
+        # number of samples, higher will lead to a more accurate answer
+        nsamps = 1000000
+        # ex_montecarlo.define.end
+        # ex_montecarlo.kernel.begin
+        @cuda.jit
+        def mc_integrator_kernel(out, rng_states, lower_lim, upper_lim):
+            """
+            kernel to draw random samples and evaluate the function to
+            be integrated at those sample values
+            """
+            size = len(out)
+            gid = cuda.grid(1)
+            if gid < size:
+                # draw a sample between 0 and 1 on this thread
+                samp = xoroshiro128p_uniform_float32(rng_states, gid)
+                # normalize this sample to the limit range
+                samp = samp * (upper_lim - lower_lim) + lower_lim
+                # evaluate the function to be
+                # integrated at the normalized
+                # value of the sample
+                y = func(samp)
+                out[gid] = y
+        # ex_montecarlo.kernel.end
+        # ex_montecarlo.callfunc.begin
+        @cuda.reduce
+        def sum_reduce(a, b):
+            return a + b
+        def mc_integrate(lower_lim, upper_lim, nsamps):
+            """
+            approximate the definite integral of `func` from
+            `lower_lim` to `upper_lim`
+            """
+            out = cuda.to_device(np.zeros(nsamps, dtype="float32"))
+            rng_states = create_xoroshiro128p_states(nsamps, seed=42)
+            # jit the function for use in CUDA kernels
+            mc_integrator_kernel.forall(nsamps)(
+                out, rng_states, lower_lim, upper_lim
+            )
+            # normalization factor to convert
+            # to the average: (b - a)/(N - 1)
+            factor = (upper_lim - lower_lim) / (nsamps - 1)
+            return sum_reduce(out) * factor
+        # ex_montecarlo.callfunc.end
+        # ex_montecarlo.launch.begin
+        # define a function to integrate
+        @numba.jit
+        def func(x):
+            return 1.0 / x
+        mc_integrate(1, 2, nsamps)  # array(0.6929643, dtype=float32)
+        mc_integrate(2, 3, nsamps)  # array(0.4054021, dtype=float32)
+        # ex_montecarlo.launch.end
+        # values computed independently using maple
+        np.testing.assert_allclose(
+            mc_integrate(1, 2, nsamps), 0.69315, atol=0.001
+        )
+        np.testing.assert_allclose(
+            mc_integrate(2, 3, nsamps), 0.4055, atol=0.001
+        )
+if __name__ == "__main__":
+    unittest.main()

numba_cuda/numba/cuda/tests/doc_examples/test_random.py ADDED Viewed

@@ -0,0 +1,66 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+# Contents in this file are referenced from the sphinx-generated docs.
+# "magictoken" is used for markers as beginning and ending of example text.
+import unittest
+from numba.cuda.testing import CUDATestCase, skip_on_cudasim
+@skip_on_cudasim("cudasim doesn't support cuda import at non-top-level")
+class TestRandom(CUDATestCase):
+    def test_ex_3d_grid(self):
+        # magictoken.ex_3d_grid.begin
+        from numba import cuda
+        from numba.cuda.random import (
+            create_xoroshiro128p_states,
+            xoroshiro128p_uniform_float32,
+        )
+        import numpy as np
+        @cuda.jit
+        def random_3d(arr, rng_states):
+            # Per-dimension thread indices and strides
+            startx, starty, startz = cuda.grid(3)
+            stridex, stridey, stridez = cuda.gridsize(3)
+            # Linearized thread index
+            tid = (startz * stridey * stridex) + (starty * stridex) + startx
+            # Use strided loops over the array to assign a random value to each entry
+            for i in range(startz, arr.shape[0], stridez):
+                for j in range(starty, arr.shape[1], stridey):
+                    for k in range(startx, arr.shape[2], stridex):
+                        arr[i, j, k] = xoroshiro128p_uniform_float32(
+                            rng_states, tid
+                        )
+        # Array dimensions
+        X, Y, Z = 701, 900, 719
+        # Block and grid dimensions
+        bx, by, bz = 8, 8, 8
+        gx, gy, gz = 16, 16, 16
+        # Total number of threads
+        nthreads = bx * by * bz * gx * gy * gz
+        # Initialize a state for each thread
+        rng_states = create_xoroshiro128p_states(nthreads, seed=1)
+        # Generate random numbers
+        arr = cuda.device_array((X, Y, Z), dtype=np.float32)
+        random_3d[(gx, gy, gz), (bx, by, bz)](arr, rng_states)
+        # magictoken.ex_3d_grid.end
+        # Some basic tests of the randomly-generated numbers
+        host_arr = arr.copy_to_host()
+        self.assertGreater(np.mean(host_arr), 0.49)
+        self.assertLess(np.mean(host_arr), 0.51)
+        self.assertTrue(np.all(host_arr <= 1.0))
+        self.assertTrue(np.all(host_arr >= 0.0))
+if __name__ == "__main__":
+    unittest.main()

numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py ADDED Viewed

@@ -0,0 +1,80 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+import unittest
+from numba.cuda.testing import CUDATestCase, skip_on_cudasim
+from numba.cuda.tests.support import captured_stdout
+@skip_on_cudasim("cudasim doesn't support cuda import at non-top-level")
+class TestReduction(CUDATestCase):
+    """
+    Test shared memory reduction
+    """
+    def setUp(self):
+        # Prevent output from this test showing up when running the test suite
+        self._captured_stdout = captured_stdout()
+        self._captured_stdout.__enter__()
+        super().setUp()
+    def tearDown(self):
+        # No exception type, value, or traceback
+        self._captured_stdout.__exit__(None, None, None)
+        super().tearDown()
+    def test_ex_reduction(self):
+        # ex_reduction.import.begin
+        import numpy as np
+        from numba import cuda
+        from numba.cuda.types import int32
+        # ex_reduction.import.end
+        # ex_reduction.allocate.begin
+        # generate data
+        a = cuda.to_device(np.arange(1024))
+        nelem = len(a)
+        # ex_reduction.allocate.end
+        # ex_reduction.kernel.begin
+        @cuda.jit
+        def array_sum(data):
+            tid = cuda.threadIdx.x
+            size = len(data)
+            if tid < size:
+                i = cuda.grid(1)
+                # Declare an array in shared memory
+                shr = cuda.shared.array(nelem, int32)
+                shr[tid] = data[i]
+                # Ensure writes to shared memory are visible
+                # to all threads before reducing
+                cuda.syncthreads()
+                s = 1
+                while s < cuda.blockDim.x:
+                    if tid % (2 * s) == 0:
+                        # Stride by `s` and add
+                        shr[tid] += shr[tid + s]
+                    s *= 2
+                    cuda.syncthreads()
+                # After the loop, the zeroth  element contains the sum
+                if tid == 0:
+                    data[tid] = shr[tid]
+        # ex_reduction.kernel.end
+        # ex_reduction.launch.begin
+        array_sum[1, nelem](a)
+        print(a[0])  # 523776
+        print(sum(np.arange(1024)))  # 523776
+        # ex_reduction.launch.end
+        np.testing.assert_equal(a[0], sum(np.arange(1024)))
+if __name__ == "__main__":
+    unittest.main()