PyPI - numba-cuda - Versions diffs - 0.21.1__cp313-cp313-win_amd64.whl - Mend

numba-cuda 0.21.1__cp313-cp313-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (488) hide show

_numba_cuda_redirector.pth +4 -0
_numba_cuda_redirector.py +89 -0
numba_cuda/VERSION +1 -0
numba_cuda/__init__.py +6 -0
numba_cuda/_version.py +11 -0
numba_cuda/numba/cuda/__init__.py +70 -0
numba_cuda/numba/cuda/_internal/cuda_bf16.py +16394 -0
numba_cuda/numba/cuda/_internal/cuda_fp16.py +8112 -0
numba_cuda/numba/cuda/api.py +577 -0
numba_cuda/numba/cuda/api_util.py +76 -0
numba_cuda/numba/cuda/args.py +72 -0
numba_cuda/numba/cuda/bf16.py +397 -0
numba_cuda/numba/cuda/cache_hints.py +287 -0
numba_cuda/numba/cuda/cext/__init__.py +2 -0
numba_cuda/numba/cuda/cext/_devicearray.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_devicearray.cpp +159 -0
numba_cuda/numba/cuda/cext/_devicearray.h +29 -0
numba_cuda/numba/cuda/cext/_dispatcher.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_dispatcher.cpp +1098 -0
numba_cuda/numba/cuda/cext/_hashtable.cpp +532 -0
numba_cuda/numba/cuda/cext/_hashtable.h +135 -0
numba_cuda/numba/cuda/cext/_helperlib.c +71 -0
numba_cuda/numba/cuda/cext/_helperlib.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_helpermod.c +82 -0
numba_cuda/numba/cuda/cext/_pymodule.h +38 -0
numba_cuda/numba/cuda/cext/_typeconv.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/_typeconv.cpp +206 -0
numba_cuda/numba/cuda/cext/_typeof.cpp +1159 -0
numba_cuda/numba/cuda/cext/_typeof.h +19 -0
numba_cuda/numba/cuda/cext/capsulethunk.h +111 -0
numba_cuda/numba/cuda/cext/mviewbuf.c +385 -0
numba_cuda/numba/cuda/cext/mviewbuf.cp313-win_amd64.pyd +0 -0
numba_cuda/numba/cuda/cext/typeconv.cpp +212 -0
numba_cuda/numba/cuda/cext/typeconv.hpp +101 -0
numba_cuda/numba/cuda/cg.py +67 -0
numba_cuda/numba/cuda/cgutils.py +1294 -0
numba_cuda/numba/cuda/cloudpickle/__init__.py +21 -0
numba_cuda/numba/cuda/cloudpickle/cloudpickle.py +1598 -0
numba_cuda/numba/cuda/cloudpickle/cloudpickle_fast.py +17 -0
numba_cuda/numba/cuda/codegen.py +541 -0
numba_cuda/numba/cuda/compiler.py +1396 -0
numba_cuda/numba/cuda/core/analysis.py +758 -0
numba_cuda/numba/cuda/core/annotations/__init__.py +0 -0
numba_cuda/numba/cuda/core/annotations/pretty_annotate.py +288 -0
numba_cuda/numba/cuda/core/annotations/type_annotations.py +305 -0
numba_cuda/numba/cuda/core/base.py +1332 -0
numba_cuda/numba/cuda/core/boxing.py +1411 -0
numba_cuda/numba/cuda/core/bytecode.py +728 -0
numba_cuda/numba/cuda/core/byteflow.py +2346 -0
numba_cuda/numba/cuda/core/caching.py +744 -0
numba_cuda/numba/cuda/core/callconv.py +392 -0
numba_cuda/numba/cuda/core/codegen.py +171 -0
numba_cuda/numba/cuda/core/compiler.py +199 -0
numba_cuda/numba/cuda/core/compiler_lock.py +85 -0
numba_cuda/numba/cuda/core/compiler_machinery.py +497 -0
numba_cuda/numba/cuda/core/config.py +650 -0
numba_cuda/numba/cuda/core/consts.py +124 -0
numba_cuda/numba/cuda/core/controlflow.py +989 -0
numba_cuda/numba/cuda/core/entrypoints.py +57 -0
numba_cuda/numba/cuda/core/environment.py +66 -0
numba_cuda/numba/cuda/core/errors.py +917 -0
numba_cuda/numba/cuda/core/event.py +511 -0
numba_cuda/numba/cuda/core/funcdesc.py +330 -0
numba_cuda/numba/cuda/core/generators.py +387 -0
numba_cuda/numba/cuda/core/imputils.py +509 -0
numba_cuda/numba/cuda/core/inline_closurecall.py +1787 -0
numba_cuda/numba/cuda/core/interpreter.py +3617 -0
numba_cuda/numba/cuda/core/ir.py +1812 -0
numba_cuda/numba/cuda/core/ir_utils.py +2638 -0
numba_cuda/numba/cuda/core/optional.py +129 -0
numba_cuda/numba/cuda/core/options.py +262 -0
numba_cuda/numba/cuda/core/postproc.py +249 -0
numba_cuda/numba/cuda/core/pythonapi.py +1859 -0
numba_cuda/numba/cuda/core/registry.py +46 -0
numba_cuda/numba/cuda/core/removerefctpass.py +123 -0
numba_cuda/numba/cuda/core/rewrites/__init__.py +26 -0
numba_cuda/numba/cuda/core/rewrites/ir_print.py +91 -0
numba_cuda/numba/cuda/core/rewrites/registry.py +104 -0
numba_cuda/numba/cuda/core/rewrites/static_binop.py +41 -0
numba_cuda/numba/cuda/core/rewrites/static_getitem.py +189 -0
numba_cuda/numba/cuda/core/rewrites/static_raise.py +100 -0
numba_cuda/numba/cuda/core/sigutils.py +68 -0
numba_cuda/numba/cuda/core/ssa.py +498 -0
numba_cuda/numba/cuda/core/targetconfig.py +330 -0
numba_cuda/numba/cuda/core/tracing.py +231 -0
numba_cuda/numba/cuda/core/transforms.py +956 -0
numba_cuda/numba/cuda/core/typed_passes.py +867 -0
numba_cuda/numba/cuda/core/typeinfer.py +1950 -0
numba_cuda/numba/cuda/core/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/core/unsafe/bytes.py +67 -0
numba_cuda/numba/cuda/core/unsafe/eh.py +67 -0
numba_cuda/numba/cuda/core/unsafe/refcount.py +98 -0
numba_cuda/numba/cuda/core/untyped_passes.py +1979 -0
numba_cuda/numba/cuda/cpython/builtins.py +1153 -0
numba_cuda/numba/cuda/cpython/charseq.py +1218 -0
numba_cuda/numba/cuda/cpython/cmathimpl.py +560 -0
numba_cuda/numba/cuda/cpython/enumimpl.py +103 -0
numba_cuda/numba/cuda/cpython/iterators.py +167 -0
numba_cuda/numba/cuda/cpython/listobj.py +1326 -0
numba_cuda/numba/cuda/cpython/mathimpl.py +499 -0
numba_cuda/numba/cuda/cpython/numbers.py +1475 -0
numba_cuda/numba/cuda/cpython/rangeobj.py +289 -0
numba_cuda/numba/cuda/cpython/slicing.py +322 -0
numba_cuda/numba/cuda/cpython/tupleobj.py +456 -0
numba_cuda/numba/cuda/cpython/unicode.py +2865 -0
numba_cuda/numba/cuda/cpython/unicode_support.py +1597 -0
numba_cuda/numba/cuda/cpython/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/cpython/unsafe/numbers.py +64 -0
numba_cuda/numba/cuda/cpython/unsafe/tuple.py +92 -0
numba_cuda/numba/cuda/cuda_paths.py +691 -0
numba_cuda/numba/cuda/cudadecl.py +556 -0
numba_cuda/numba/cuda/cudadrv/__init__.py +14 -0
numba_cuda/numba/cuda/cudadrv/devicearray.py +951 -0
numba_cuda/numba/cuda/cudadrv/devices.py +249 -0
numba_cuda/numba/cuda/cudadrv/driver.py +3222 -0
numba_cuda/numba/cuda/cudadrv/drvapi.py +435 -0
numba_cuda/numba/cuda/cudadrv/dummyarray.py +558 -0
numba_cuda/numba/cuda/cudadrv/enums.py +613 -0
numba_cuda/numba/cuda/cudadrv/error.py +48 -0
numba_cuda/numba/cuda/cudadrv/libs.py +220 -0
numba_cuda/numba/cuda/cudadrv/linkable_code.py +184 -0
numba_cuda/numba/cuda/cudadrv/mappings.py +14 -0
numba_cuda/numba/cuda/cudadrv/ndarray.py +26 -0
numba_cuda/numba/cuda/cudadrv/nvrtc.py +193 -0
numba_cuda/numba/cuda/cudadrv/nvvm.py +756 -0
numba_cuda/numba/cuda/cudadrv/rtapi.py +13 -0
numba_cuda/numba/cuda/cudadrv/runtime.py +34 -0
numba_cuda/numba/cuda/cudaimpl.py +995 -0
numba_cuda/numba/cuda/cudamath.py +149 -0
numba_cuda/numba/cuda/datamodel/__init__.py +7 -0
numba_cuda/numba/cuda/datamodel/cuda_manager.py +66 -0
numba_cuda/numba/cuda/datamodel/cuda_models.py +1446 -0
numba_cuda/numba/cuda/datamodel/cuda_packer.py +224 -0
numba_cuda/numba/cuda/datamodel/cuda_registry.py +22 -0
numba_cuda/numba/cuda/datamodel/cuda_testing.py +153 -0
numba_cuda/numba/cuda/datamodel/manager.py +11 -0
numba_cuda/numba/cuda/datamodel/models.py +9 -0
numba_cuda/numba/cuda/datamodel/packer.py +9 -0
numba_cuda/numba/cuda/datamodel/registry.py +11 -0
numba_cuda/numba/cuda/datamodel/testing.py +11 -0
numba_cuda/numba/cuda/debuginfo.py +903 -0
numba_cuda/numba/cuda/decorators.py +294 -0
numba_cuda/numba/cuda/descriptor.py +35 -0
numba_cuda/numba/cuda/device_init.py +158 -0
numba_cuda/numba/cuda/deviceufunc.py +1021 -0
numba_cuda/numba/cuda/dispatcher.py +2463 -0
numba_cuda/numba/cuda/errors.py +72 -0
numba_cuda/numba/cuda/extending.py +697 -0
numba_cuda/numba/cuda/flags.py +178 -0
numba_cuda/numba/cuda/fp16.py +357 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/include/13/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/13/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/13/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/13/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/initialize.py +24 -0
numba_cuda/numba/cuda/intrinsic_wrapper.py +41 -0
numba_cuda/numba/cuda/intrinsics.py +382 -0
numba_cuda/numba/cuda/itanium_mangler.py +214 -0
numba_cuda/numba/cuda/kernels/__init__.py +2 -0
numba_cuda/numba/cuda/kernels/reduction.py +265 -0
numba_cuda/numba/cuda/kernels/transpose.py +65 -0
numba_cuda/numba/cuda/libdevice.py +3386 -0
numba_cuda/numba/cuda/libdevicedecl.py +20 -0
numba_cuda/numba/cuda/libdevicefuncs.py +1060 -0
numba_cuda/numba/cuda/libdeviceimpl.py +88 -0
numba_cuda/numba/cuda/locks.py +19 -0
numba_cuda/numba/cuda/lowering.py +1951 -0
numba_cuda/numba/cuda/mathimpl.py +374 -0
numba_cuda/numba/cuda/memory_management/__init__.py +4 -0
numba_cuda/numba/cuda/memory_management/memsys.cu +99 -0
numba_cuda/numba/cuda/memory_management/memsys.cuh +22 -0
numba_cuda/numba/cuda/memory_management/nrt.cu +212 -0
numba_cuda/numba/cuda/memory_management/nrt.cuh +48 -0
numba_cuda/numba/cuda/memory_management/nrt.py +390 -0
numba_cuda/numba/cuda/memory_management/nrt_context.py +438 -0
numba_cuda/numba/cuda/misc/appdirs.py +594 -0
numba_cuda/numba/cuda/misc/cffiimpl.py +24 -0
numba_cuda/numba/cuda/misc/coverage_support.py +43 -0
numba_cuda/numba/cuda/misc/dump_style.py +41 -0
numba_cuda/numba/cuda/misc/findlib.py +75 -0
numba_cuda/numba/cuda/misc/firstlinefinder.py +96 -0
numba_cuda/numba/cuda/misc/gdb_hook.py +240 -0
numba_cuda/numba/cuda/misc/literal.py +28 -0
numba_cuda/numba/cuda/misc/llvm_pass_timings.py +412 -0
numba_cuda/numba/cuda/misc/special.py +94 -0
numba_cuda/numba/cuda/models.py +56 -0
numba_cuda/numba/cuda/np/arraymath.py +5130 -0
numba_cuda/numba/cuda/np/arrayobj.py +7635 -0
numba_cuda/numba/cuda/np/extensions.py +11 -0
numba_cuda/numba/cuda/np/linalg.py +3087 -0
numba_cuda/numba/cuda/np/math/__init__.py +0 -0
numba_cuda/numba/cuda/np/math/cmathimpl.py +558 -0
numba_cuda/numba/cuda/np/math/mathimpl.py +487 -0
numba_cuda/numba/cuda/np/math/numbers.py +1461 -0
numba_cuda/numba/cuda/np/npdatetime.py +969 -0
numba_cuda/numba/cuda/np/npdatetime_helpers.py +217 -0
numba_cuda/numba/cuda/np/npyfuncs.py +1808 -0
numba_cuda/numba/cuda/np/npyimpl.py +1027 -0
numba_cuda/numba/cuda/np/numpy_support.py +798 -0
numba_cuda/numba/cuda/np/polynomial/__init__.py +4 -0
numba_cuda/numba/cuda/np/polynomial/polynomial_core.py +242 -0
numba_cuda/numba/cuda/np/polynomial/polynomial_functions.py +380 -0
numba_cuda/numba/cuda/np/ufunc/__init__.py +4 -0
numba_cuda/numba/cuda/np/ufunc/decorators.py +203 -0
numba_cuda/numba/cuda/np/ufunc/sigparse.py +68 -0
numba_cuda/numba/cuda/np/ufunc/ufuncbuilder.py +65 -0
numba_cuda/numba/cuda/np/ufunc_db.py +1282 -0
numba_cuda/numba/cuda/np/unsafe/__init__.py +0 -0
numba_cuda/numba/cuda/np/unsafe/ndarray.py +84 -0
numba_cuda/numba/cuda/nvvmutils.py +254 -0
numba_cuda/numba/cuda/printimpl.py +126 -0
numba_cuda/numba/cuda/random.py +308 -0
numba_cuda/numba/cuda/reshape_funcs.cu +156 -0
numba_cuda/numba/cuda/serialize.py +267 -0
numba_cuda/numba/cuda/simulator/__init__.py +63 -0
numba_cuda/numba/cuda/simulator/_internal/__init__.py +4 -0
numba_cuda/numba/cuda/simulator/_internal/cuda_bf16.py +2 -0
numba_cuda/numba/cuda/simulator/api.py +179 -0
numba_cuda/numba/cuda/simulator/bf16.py +4 -0
numba_cuda/numba/cuda/simulator/compiler.py +38 -0
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +11 -0
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +462 -0
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +122 -0
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +66 -0
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +7 -0
numba_cuda/numba/cuda/simulator/cudadrv/dummyarray.py +7 -0
numba_cuda/numba/cuda/simulator/cudadrv/error.py +10 -0
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +10 -0
numba_cuda/numba/cuda/simulator/cudadrv/linkable_code.py +61 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvrtc.py +11 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +32 -0
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +22 -0
numba_cuda/numba/cuda/simulator/dispatcher.py +11 -0
numba_cuda/numba/cuda/simulator/kernel.py +320 -0
numba_cuda/numba/cuda/simulator/kernelapi.py +509 -0
numba_cuda/numba/cuda/simulator/memory_management/__init__.py +4 -0
numba_cuda/numba/cuda/simulator/memory_management/nrt.py +21 -0
numba_cuda/numba/cuda/simulator/reduction.py +19 -0
numba_cuda/numba/cuda/simulator/tests/support.py +4 -0
numba_cuda/numba/cuda/simulator/vector_types.py +65 -0
numba_cuda/numba/cuda/simulator_init.py +18 -0
numba_cuda/numba/cuda/stubs.py +635 -0
numba_cuda/numba/cuda/target.py +505 -0
numba_cuda/numba/cuda/testing.py +347 -0
numba_cuda/numba/cuda/tests/__init__.py +62 -0
numba_cuda/numba/cuda/tests/benchmarks/__init__.py +0 -0
numba_cuda/numba/cuda/tests/benchmarks/test_kernel_launch.py +119 -0
numba_cuda/numba/cuda/tests/cloudpickle_main_class.py +9 -0
numba_cuda/numba/cuda/tests/core/serialize_usecases.py +113 -0
numba_cuda/numba/cuda/tests/core/test_itanium_mangler.py +83 -0
numba_cuda/numba/cuda/tests/core/test_serialize.py +371 -0
numba_cuda/numba/cuda/tests/cudadrv/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +147 -0
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +161 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +397 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +24 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +180 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +313 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +187 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +621 -0
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +247 -0
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +100 -0
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +198 -0
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +53 -0
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +72 -0
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +138 -0
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +43 -0
numba_cuda/numba/cuda/tests/cudadrv/test_is_fp16.py +15 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linkable_code.py +58 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +348 -0
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +128 -0
numba_cuda/numba/cuda/tests/cudadrv/test_module_callbacks.py +301 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvjitlink.py +174 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvrtc.py +28 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +185 -0
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +39 -0
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +23 -0
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +38 -0
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +48 -0
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +44 -0
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +127 -0
numba_cuda/numba/cuda/tests/cudapy/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +231 -0
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +50 -0
numba_cuda/numba/cuda/tests/cudapy/cg_cache_usecases.py +36 -0
numba_cuda/numba/cuda/tests/cudapy/complex_usecases.py +116 -0
numba_cuda/numba/cuda/tests/cudapy/enum_usecases.py +59 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +62 -0
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +28 -0
numba_cuda/numba/cuda/tests/cudapy/overload_usecases.py +33 -0
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +104 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_analysis.py +1122 -0
numba_cuda/numba/cuda/tests/cudapy/test_array.py +344 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_alignment.py +268 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +203 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +63 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_reductions.py +360 -0
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +1815 -0
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16.py +599 -0
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16_bindings.py +377 -0
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +160 -0
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +27 -0
numba_cuda/numba/cuda/tests/cudapy/test_byteflow.py +98 -0
numba_cuda/numba/cuda/tests/cudapy/test_cache_hints.py +210 -0
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +683 -0
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +265 -0
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +718 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +370 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +23 -0
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +142 -0
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +178 -0
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +193 -0
numba_cuda/numba/cuda/tests/cudapy/test_copy_propagate.py +131 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +438 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +105 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +889 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo_types.py +476 -0
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +500 -0
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +820 -0
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +152 -0
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +111 -0
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +170 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +1088 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending_types.py +71 -0
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +265 -0
numba_cuda/numba/cuda/tests/cudapy/test_flow_control.py +1433 -0
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +57 -0
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +34 -0
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +69 -0
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +62 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +474 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +167 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +92 -0
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +39 -0
numba_cuda/numba/cuda/tests/cudapy/test_inline.py +170 -0
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +255 -0
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +1219 -0
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +263 -0
numba_cuda/numba/cuda/tests/cudapy/test_ir.py +598 -0
numba_cuda/numba/cuda/tests/cudapy/test_ir_utils.py +276 -0
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +68 -0
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +123 -0
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +194 -0
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +220 -0
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +173 -0
numba_cuda/numba/cuda/tests/cudapy/test_make_function_to_jit_function.py +364 -0
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_math.py +842 -0
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +76 -0
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +78 -0
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +25 -0
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +145 -0
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +39 -0
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +82 -0
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +53 -0
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +504 -0
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +93 -0
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +402 -0
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +128 -0
numba_cuda/numba/cuda/tests/cudapy/test_print.py +193 -0
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_random.py +117 -0
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +614 -0
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +130 -0
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +83 -0
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +86 -0
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +457 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +233 -0
numba_cuda/numba/cuda/tests/cudapy/test_ssa.py +454 -0
numba_cuda/numba/cuda/tests/cudapy/test_stream_api.py +56 -0
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +277 -0
numba_cuda/numba/cuda/tests/cudapy/test_tracing.py +200 -0
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +90 -0
numba_cuda/numba/cuda/tests/cudapy/test_typeconv.py +333 -0
numba_cuda/numba/cuda/tests/cudapy/test_typeinfer.py +538 -0
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +585 -0
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +485 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +312 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +23 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +183 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +40 -0
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +206 -0
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +331 -0
numba_cuda/numba/cuda/tests/cudasim/__init__.py +9 -0
numba_cuda/numba/cuda/tests/cudasim/support.py +9 -0
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +111 -0
numba_cuda/numba/cuda/tests/data/__init__.py +2 -0
numba_cuda/numba/cuda/tests/data/cta_barrier.cu +28 -0
numba_cuda/numba/cuda/tests/data/cuda_include.cu +10 -0
numba_cuda/numba/cuda/tests/data/error.cu +12 -0
numba_cuda/numba/cuda/tests/data/include/add.cuh +8 -0
numba_cuda/numba/cuda/tests/data/jitlink.cu +28 -0
numba_cuda/numba/cuda/tests/data/jitlink.ptx +49 -0
numba_cuda/numba/cuda/tests/data/warn.cu +12 -0
numba_cuda/numba/cuda/tests/doc_examples/__init__.py +9 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/__init__.py +2 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/functions.cu +54 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/include/mul.cuh +8 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/saxpy.cu +14 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +86 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpointer.py +68 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +81 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +141 -0
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +160 -0
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +180 -0
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +119 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +66 -0
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +80 -0
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +206 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ufunc.py +53 -0
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +76 -0
numba_cuda/numba/cuda/tests/nocuda/__init__.py +9 -0
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +391 -0
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +48 -0
numba_cuda/numba/cuda/tests/nocuda/test_import.py +63 -0
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +252 -0
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +59 -0
numba_cuda/numba/cuda/tests/nrt/__init__.py +9 -0
numba_cuda/numba/cuda/tests/nrt/test_nrt.py +387 -0
numba_cuda/numba/cuda/tests/nrt/test_nrt_refct.py +124 -0
numba_cuda/numba/cuda/tests/support.py +900 -0
numba_cuda/numba/cuda/typeconv/__init__.py +4 -0
numba_cuda/numba/cuda/typeconv/castgraph.py +137 -0
numba_cuda/numba/cuda/typeconv/rules.py +63 -0
numba_cuda/numba/cuda/typeconv/typeconv.py +121 -0
numba_cuda/numba/cuda/types/__init__.py +233 -0
numba_cuda/numba/cuda/types/__init__.pyi +167 -0
numba_cuda/numba/cuda/types/abstract.py +9 -0
numba_cuda/numba/cuda/types/common.py +9 -0
numba_cuda/numba/cuda/types/containers.py +9 -0
numba_cuda/numba/cuda/types/cuda_abstract.py +533 -0
numba_cuda/numba/cuda/types/cuda_common.py +110 -0
numba_cuda/numba/cuda/types/cuda_containers.py +971 -0
numba_cuda/numba/cuda/types/cuda_function_type.py +230 -0
numba_cuda/numba/cuda/types/cuda_functions.py +798 -0
numba_cuda/numba/cuda/types/cuda_iterators.py +120 -0
numba_cuda/numba/cuda/types/cuda_misc.py +569 -0
numba_cuda/numba/cuda/types/cuda_npytypes.py +690 -0
numba_cuda/numba/cuda/types/cuda_scalars.py +280 -0
numba_cuda/numba/cuda/types/ext_types.py +101 -0
numba_cuda/numba/cuda/types/function_type.py +11 -0
numba_cuda/numba/cuda/types/functions.py +9 -0
numba_cuda/numba/cuda/types/iterators.py +9 -0
numba_cuda/numba/cuda/types/misc.py +9 -0
numba_cuda/numba/cuda/types/npytypes.py +9 -0
numba_cuda/numba/cuda/types/scalars.py +9 -0
numba_cuda/numba/cuda/typing/__init__.py +19 -0
numba_cuda/numba/cuda/typing/arraydecl.py +939 -0
numba_cuda/numba/cuda/typing/asnumbatype.py +130 -0
numba_cuda/numba/cuda/typing/bufproto.py +70 -0
numba_cuda/numba/cuda/typing/builtins.py +1209 -0
numba_cuda/numba/cuda/typing/cffi_utils.py +219 -0
numba_cuda/numba/cuda/typing/cmathdecl.py +47 -0
numba_cuda/numba/cuda/typing/collections.py +138 -0
numba_cuda/numba/cuda/typing/context.py +782 -0
numba_cuda/numba/cuda/typing/ctypes_utils.py +125 -0
numba_cuda/numba/cuda/typing/dictdecl.py +63 -0
numba_cuda/numba/cuda/typing/enumdecl.py +74 -0
numba_cuda/numba/cuda/typing/listdecl.py +147 -0
numba_cuda/numba/cuda/typing/mathdecl.py +158 -0
numba_cuda/numba/cuda/typing/npdatetime.py +322 -0
numba_cuda/numba/cuda/typing/npydecl.py +749 -0
numba_cuda/numba/cuda/typing/setdecl.py +115 -0
numba_cuda/numba/cuda/typing/templates.py +1446 -0
numba_cuda/numba/cuda/typing/typeof.py +301 -0
numba_cuda/numba/cuda/ufuncs.py +746 -0
numba_cuda/numba/cuda/utils.py +724 -0
numba_cuda/numba/cuda/vector_types.py +214 -0
numba_cuda/numba/cuda/vectorizers.py +260 -0
numba_cuda-0.21.1.dist-info/METADATA +109 -0
numba_cuda-0.21.1.dist-info/RECORD +488 -0
numba_cuda-0.21.1.dist-info/WHEEL +5 -0
numba_cuda-0.21.1.dist-info/licenses/LICENSE +26 -0
numba_cuda-0.21.1.dist-info/licenses/LICENSE.numba +24 -0
numba_cuda-0.21.1.dist-info/top_level.txt +1 -0

numba_cuda/numba/cuda/initialize.py ADDED Viewed

@@ -0,0 +1,24 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+def initialize_all():
+    # Import models to register them with the data model manager
+    import numba.cuda.models  # noqa: F401
+    from numba.cuda import HAS_NUMBA
+    if not HAS_NUMBA:
+        return
+    from numba.cuda.decorators import jit
+    from numba.cuda.dispatcher import CUDADispatcher
+    from numba.core.target_extension import (
+        target_registry,
+        dispatcher_registry,
+        jit_registry,
+    )
+    cuda_target = target_registry["cuda"]
+    jit_registry[cuda_target] = jit
+    dispatcher_registry[cuda_target] = CUDADispatcher

numba_cuda/numba/cuda/intrinsic_wrapper.py ADDED Viewed

@@ -0,0 +1,41 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+from .decorators import jit
+import numba
+@jit(device=True)
+def all_sync(mask, predicate):
+    """
+    If for all threads in the masked warp the predicate is true, then
+    a non-zero value is returned, otherwise 0 is returned.
+    """
+    return numba.cuda.vote_sync_intrinsic(mask, 0, predicate)[1]
+@jit(device=True)
+def any_sync(mask, predicate):
+    """
+    If for any thread in the masked warp the predicate is true, then
+    a non-zero value is returned, otherwise 0 is returned.
+    """
+    return numba.cuda.vote_sync_intrinsic(mask, 1, predicate)[1]
+@jit(device=True)
+def eq_sync(mask, predicate):
+    """
+    If for all threads in the masked warp the boolean predicate is the same,
+    then a non-zero value is returned, otherwise 0 is returned.
+    """
+    return numba.cuda.vote_sync_intrinsic(mask, 2, predicate)[1]
+@jit(device=True)
+def ballot_sync(mask, predicate):
+    """
+    Returns a mask of all threads in the warp whose predicate is true,
+    and are within the given mask.
+    """
+    return numba.cuda.vote_sync_intrinsic(mask, 3, predicate)[0]

numba_cuda/numba/cuda/intrinsics.py ADDED Viewed

@@ -0,0 +1,382 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+from llvmlite import ir
+from numba import cuda
+from numba.cuda import types
+from numba.cuda import cgutils
+from numba.cuda.core.errors import RequireLiteralValue, TypingError
+from numba.cuda.typing import signature
+from numba.cuda.extending import overload_attribute, overload_method
+from numba.cuda import nvvmutils
+from numba.cuda.extending import intrinsic
+# -------------------------------------------------------------------------------
+# Grid functions
+def _type_grid_function(ndim):
+    val = ndim.literal_value
+    if val == 1:
+        restype = types.int64
+    elif val in (2, 3):
+        restype = types.UniTuple(types.int64, val)
+    else:
+        raise ValueError("argument can only be 1, 2, 3")
+    return signature(restype, types.int32)
+@intrinsic
+def grid(typingctx, ndim):
+    """grid(ndim)
+    Return the absolute position of the current thread in the entire grid of
+    blocks.  *ndim* should correspond to the number of dimensions declared when
+    instantiating the kernel. If *ndim* is 1, a single integer is returned.
+    If *ndim* is 2 or 3, a tuple of the given number of integers is returned.
+    Computation of the first integer is as follows::
+        cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
+    and is similar for the other two indices, but using the ``y`` and ``z``
+    attributes.
+    """
+    if not isinstance(ndim, types.IntegerLiteral):
+        raise RequireLiteralValue(ndim)
+    sig = _type_grid_function(ndim)
+    def codegen(context, builder, sig, args):
+        restype = sig.return_type
+        if restype == types.int64:
+            return nvvmutils.get_global_id(builder, dim=1)
+        elif isinstance(restype, types.UniTuple):
+            ids = nvvmutils.get_global_id(builder, dim=restype.count)
+            return cgutils.pack_array(builder, ids)
+    return sig, codegen
+@intrinsic
+def gridsize(typingctx, ndim):
+    """gridsize(ndim)
+    Return the absolute size (or shape) in threads of the entire grid of
+    blocks. *ndim* should correspond to the number of dimensions declared when
+    instantiating the kernel. If *ndim* is 1, a single integer is returned.
+    If *ndim* is 2 or 3, a tuple of the given number of integers is returned.
+    Computation of the first integer is as follows::
+        cuda.blockDim.x * cuda.gridDim.x
+    and is similar for the other two indices, but using the ``y`` and ``z``
+    attributes.
+    """
+    if not isinstance(ndim, types.IntegerLiteral):
+        raise RequireLiteralValue(ndim)
+    sig = _type_grid_function(ndim)
+    def _nthreads_for_dim(builder, dim):
+        i64 = ir.IntType(64)
+        ntid = nvvmutils.call_sreg(builder, f"ntid.{dim}")
+        nctaid = nvvmutils.call_sreg(builder, f"nctaid.{dim}")
+        return builder.mul(builder.sext(ntid, i64), builder.sext(nctaid, i64))
+    def codegen(context, builder, sig, args):
+        restype = sig.return_type
+        nx = _nthreads_for_dim(builder, "x")
+        if restype == types.int64:
+            return nx
+        elif isinstance(restype, types.UniTuple):
+            ny = _nthreads_for_dim(builder, "y")
+            if restype.count == 2:
+                return cgutils.pack_array(builder, (nx, ny))
+            elif restype.count == 3:
+                nz = _nthreads_for_dim(builder, "z")
+                return cgutils.pack_array(builder, (nx, ny, nz))
+    return sig, codegen
+@intrinsic
+def _warpsize(typingctx):
+    sig = signature(types.int32)
+    def codegen(context, builder, sig, args):
+        return nvvmutils.call_sreg(builder, "warpsize")
+    return sig, codegen
+@overload_attribute(types.Module(cuda), "warpsize", target="cuda")
+def cuda_warpsize(mod):
+    """
+    The size of a warp. All architectures implemented to date have a warp size
+    of 32.
+    """
+    def get(mod):
+        return _warpsize()
+    return get
+# -------------------------------------------------------------------------------
+# syncthreads
+@intrinsic
+def syncthreads(typingctx):
+    """
+    Synchronize all threads in the same thread block.  This function implements
+    the same pattern as barriers in traditional multi-threaded programming: this
+    function waits until all threads in the block call it, at which point it
+    returns control to all its callers.
+    """
+    sig = signature(types.none)
+    def codegen(context, builder, sig, args):
+        fname = "llvm.nvvm.barrier0"
+        lmod = builder.module
+        fnty = ir.FunctionType(ir.VoidType(), ())
+        sync = cgutils.get_or_insert_function(lmod, fnty, fname)
+        builder.call(sync, ())
+        return context.get_dummy_value()
+    return sig, codegen
+def _syncthreads_predicate(typingctx, predicate, fname):
+    if not isinstance(predicate, types.Integer):
+        return None
+    sig = signature(types.i4, types.i4)
+    def codegen(context, builder, sig, args):
+        fnty = ir.FunctionType(ir.IntType(32), (ir.IntType(32),))
+        sync = cgutils.get_or_insert_function(builder.module, fnty, fname)
+        return builder.call(sync, args)
+    return sig, codegen
+@intrinsic
+def syncthreads_count(typingctx, predicate):
+    """
+    syncthreads_count(predicate)
+    An extension to numba.cuda.syncthreads where the return value is a count
+    of the threads where predicate is true.
+    """
+    fname = "llvm.nvvm.barrier0.popc"
+    return _syncthreads_predicate(typingctx, predicate, fname)
+@intrinsic
+def syncthreads_and(typingctx, predicate):
+    """
+    syncthreads_and(predicate)
+    An extension to numba.cuda.syncthreads where 1 is returned if predicate is
+    true for all threads or 0 otherwise.
+    """
+    fname = "llvm.nvvm.barrier0.and"
+    return _syncthreads_predicate(typingctx, predicate, fname)
+@intrinsic
+def syncthreads_or(typingctx, predicate):
+    """
+    syncthreads_or(predicate)
+    An extension to numba.cuda.syncthreads where 1 is returned if predicate is
+    true for any thread or 0 otherwise.
+    """
+    fname = "llvm.nvvm.barrier0.or"
+    return _syncthreads_predicate(typingctx, predicate, fname)
+@overload_method(types.Integer, "bit_count", target="cuda")
+def integer_bit_count(i):
+    return lambda i: cuda.popc(i)
+# -------------------------------------------------------------------------------
+# Warp shuffle functions
+#
+# References:
+#
+# - https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#warp-shuffle-functions
+# - https://docs.nvidia.com/cuda/nvvm-ir-spec/index.html#data-movement
+#
+# Notes:
+#
+# - The public CUDA C/C++ and Numba Python APIs for these intrinsics use
+#   different names for parameters to the NVVM IR specification. So that we
+#   can correlate the implementation with the documentation, the @intrinsic
+#   API functions map the public API arguments to the NVVM intrinsic
+#   arguments.
+# - The NVVM IR specification requires some of the parameters (e.g. mode) to be
+#   constants. It's therefore essential that we pass in some values to the
+#   shfl_sync_intrinsic function (e.g. the mode and c values).
+# - Normally parameters for intrinsic functions in Numba would be given the
+#   same name as used in the API, and would contain a type. However, because we
+#   have to pass in some values and some times (and there is divergence between
+#   the names in the intrinsic documentation and the public APIs) we instead
+#   follow the convention of naming shfl_sync_intrinsic parameters with a
+#   suffix of _type or _value depending on whether they contain a type or a
+#   value.
+@intrinsic
+def shfl_sync(typingctx, mask, value, src_lane):
+    """
+    Shuffles ``value`` across the masked warp and returns the value from
+    ``src_lane``. If this is outside the warp, then the given value is
+    returned.
+    """
+    membermask_type = mask
+    mode_value = 0
+    a_type = value
+    b_type = src_lane
+    c_value = 0x1F
+    return shfl_sync_intrinsic(
+        typingctx, membermask_type, mode_value, a_type, b_type, c_value
+    )
+@intrinsic
+def shfl_up_sync(typingctx, mask, value, delta):
+    """
+    Shuffles ``value`` across the masked warp and returns the value from
+    ``(laneid - delta)``. If this is outside the warp, then the given value is
+    returned.
+    """
+    membermask_type = mask
+    mode_value = 1
+    a_type = value
+    b_type = delta
+    c_value = 0
+    return shfl_sync_intrinsic(
+        typingctx, membermask_type, mode_value, a_type, b_type, c_value
+    )
+@intrinsic
+def shfl_down_sync(typingctx, mask, value, delta):
+    """
+    Shuffles ``value`` across the masked warp and returns the value from
+    ``(laneid + delta)``. If this is outside the warp, then the given value is
+    returned.
+    """
+    membermask_type = mask
+    mode_value = 2
+    a_type = value
+    b_type = delta
+    c_value = 0x1F
+    return shfl_sync_intrinsic(
+        typingctx, membermask_type, mode_value, a_type, b_type, c_value
+    )
+@intrinsic
+def shfl_xor_sync(typingctx, mask, value, lane_mask):
+    """
+    Shuffles ``value`` across the masked warp and returns the value from
+    ``(laneid ^ lane_mask)``.
+    """
+    membermask_type = mask
+    mode_value = 3
+    a_type = value
+    b_type = lane_mask
+    c_value = 0x1F
+    return shfl_sync_intrinsic(
+        typingctx, membermask_type, mode_value, a_type, b_type, c_value
+    )
+def shfl_sync_intrinsic(
+    typingctx,
+    membermask_type,
+    mode_value,
+    a_type,
+    b_type,
+    c_value,
+):
+    if a_type not in (types.i4, types.i8, types.f4, types.f8):
+        raise TypingError(
+            "shfl_sync only supports 32- and 64-bit ints and floats"
+        )
+    def codegen(context, builder, sig, args):
+        """
+        The NVVM shfl_sync intrinsic only supports i32, but the CUDA C/C++
+        intrinsic supports both 32- and 64-bit ints and floats, so for feature
+        parity, i32, i64, f32, and f64 are implemented. Floats by way of
+        bitcasting the float to an int, then shuffling, then bitcasting
+        back."""
+        membermask, a, b = args
+        # Types
+        a_type = sig.args[1]
+        return_type = context.get_value_type(sig.return_type)
+        i32 = ir.IntType(32)
+        i64 = ir.IntType(64)
+        if a_type in types.real_domain:
+            a = builder.bitcast(a, ir.IntType(a_type.bitwidth))
+        # NVVM intrinsic definition
+        arg_types = (i32, i32, i32, i32, i32)
+        shfl_return_type = ir.LiteralStructType((i32, ir.IntType(1)))
+        fnty = ir.FunctionType(shfl_return_type, arg_types)
+        fname = "llvm.nvvm.shfl.sync.i32"
+        shfl_sync = cgutils.get_or_insert_function(builder.module, fnty, fname)
+        # Intrinsic arguments
+        mode = ir.Constant(i32, mode_value)
+        c = ir.Constant(i32, c_value)
+        membermask = builder.trunc(membermask, i32)
+        b = builder.trunc(b, i32)
+        if a_type.bitwidth == 32:
+            a = builder.trunc(a, i32)
+            ret = builder.call(shfl_sync, (membermask, mode, a, b, c))
+            d = builder.extract_value(ret, 0)
+        else:
+            # Handle 64-bit values by shuffling as two 32-bit values and
+            # packing the result into 64 bits.
+            # Extract high and low parts
+            lo = builder.trunc(a, i32)
+            a_lshr = builder.lshr(a, ir.Constant(i64, 32))
+            hi = builder.trunc(a_lshr, i32)
+            # Shuffle individual parts
+            ret_lo = builder.call(shfl_sync, (membermask, mode, lo, b, c))
+            ret_hi = builder.call(shfl_sync, (membermask, mode, hi, b, c))
+            # Combine individual result parts into a 64-bit result
+            d_lo = builder.extract_value(ret_lo, 0)
+            d_hi = builder.extract_value(ret_hi, 0)
+            d_lo_64 = builder.zext(d_lo, i64)
+            d_hi_64 = builder.zext(d_hi, i64)
+            d_shl = builder.shl(d_hi_64, ir.Constant(i64, 32))
+            d = builder.or_(d_shl, d_lo_64)
+        return builder.bitcast(d, return_type)
+    sig = signature(a_type, membermask_type, a_type, b_type)
+    return sig, codegen

numba_cuda/numba/cuda/itanium_mangler.py ADDED Viewed

@@ -0,0 +1,214 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: BSD-2-Clause
+"""
+Itanium CXX ABI Mangler
+Reference: https://itanium-cxx-abi.github.io/cxx-abi/abi.html
+The basics of the mangling scheme.
+We are hijacking the CXX mangling scheme for our use.  We map Python modules
+into CXX namespace.  A `module1.submodule2.foo` is mapped to
+`module1::submodule2::foo`.   For parameterized numba types, we treat them as
+templated types; for example, `array(int64, 1d, C)` becomes an
+`array<int64, 1, C>`.
+All mangled names are prefixed with "_Z".  It is followed by the name of the
+entity.  A name contains one or more identifiers.  Each identifier is encoded
+as "<num of char><name>".   If the name is namespaced and, therefore,
+has multiple identifiers, the entire name is encoded as "N<name>E".
+For functions, arguments types follow.  There are condensed encodings for basic
+built-in types; e.g. "i" for int, "f" for float.  For other types, the
+previously mentioned name encoding should be used.
+For templated types, the template parameters are encoded immediately after the
+name.  If it is namespaced, it should be within the 'N' 'E' marker.  Template
+parameters are encoded in "I<params>E", where each parameter is encoded using
+the mentioned name encoding scheme.  Template parameters can contain literal
+values like the '1' in the array type shown earlier.  There is special encoding
+scheme for them to avoid leading digits.
+"""
+import re
+from numba.cuda import types
+# According the scheme, valid characters for mangled names are [a-zA-Z0-9_].
+# We borrow the '_' as the escape character to encode invalid char into
+# '_xx' where 'xx' is the hex codepoint.
+_re_invalid_char = re.compile(r"[^a-z0-9_]", re.I)
+PREFIX = "_Z"
+# Numba types to mangled type code. These correspond with the codes listed in
+# https://itanium-cxx-abi.github.io/cxx-abi/abi.html#mangling-builtin
+N2CODE = {
+    types.void: "v",
+    types.boolean: "b",
+    types.uint8: "h",
+    types.int8: "a",
+    types.uint16: "t",
+    types.int16: "s",
+    types.uint32: "j",
+    types.int32: "i",
+    types.uint64: "y",
+    types.int64: "x",
+    types.float16: "Dh",
+    types.float32: "f",
+    types.float64: "d",
+}
+def _escape_string(text):
+    """Escape the given string so that it only contains ASCII characters
+    of [a-zA-Z0-9_$].
+    The dollar symbol ($) and other invalid characters are escaped into
+    the string sequence of "$xx" where "xx" is the hex codepoint of the char.
+    Multibyte characters are encoded into utf8 and converted into the above
+    hex format.
+    """
+    def repl(m):
+        return "".join(("_%02x" % ch) for ch in m.group(0).encode("utf8"))
+    ret = re.sub(_re_invalid_char, repl, text)
+    # Return str if we got a unicode (for py2)
+    if not isinstance(ret, str):
+        return ret.encode("ascii")
+    return ret
+def _fix_lead_digit(text):
+    """
+    Fix text with leading digit
+    """
+    if text and text[0].isdigit():
+        return "_" + text
+    else:
+        return text
+def _len_encoded(string):
+    """
+    Prefix string with digit indicating the length.
+    Add underscore if string is prefixed with digits.
+    """
+    string = _fix_lead_digit(string)
+    return "%u%s" % (len(string), string)
+def mangle_abi_tag(abi_tag: str) -> str:
+    return "B" + _len_encoded(_escape_string(abi_tag))
+def mangle_identifier(ident, template_params="", *, abi_tags=(), uid=None):
+    """
+    Mangle the identifier with optional template parameters and abi_tags.
+    Note:
+    This treats '.' as '::' in C++.
+    """
+    if uid is not None:
+        # Add uid to abi-tags
+        abi_tags = (f"v{uid}", *abi_tags)
+    parts = [_len_encoded(_escape_string(x)) for x in ident.split(".")]
+    enc_abi_tags = list(map(mangle_abi_tag, abi_tags))
+    extras = template_params + "".join(enc_abi_tags)
+    if len(parts) > 1:
+        return "N%s%sE" % ("".join(parts), extras)
+    else:
+        return "%s%s" % (parts[0], extras)
+def mangle_type_or_value(typ):
+    """
+    Mangle type parameter and arbitrary value.
+    """
+    # Handle numba types
+    if isinstance(typ, types.Type):
+        if typ in N2CODE:
+            return N2CODE[typ]
+        else:
+            return mangle_templated_ident(*typ.mangling_args)
+    # Handle integer literal
+    elif isinstance(typ, int):
+        return "Li%dE" % typ
+    # Handle str as identifier
+    elif isinstance(typ, str):
+        return mangle_identifier(typ)
+    # Otherwise
+    else:
+        enc = _escape_string(str(typ))
+        return _len_encoded(enc)
+# Alias
+mangle_type = mangle_type_or_value
+mangle_value = mangle_type_or_value
+def mangle_templated_ident(identifier, parameters):
+    """
+    Mangle templated identifier.
+    """
+    template_params = (
+        "I%sE" % "".join(map(mangle_type_or_value, parameters))
+        if parameters
+        else ""
+    )
+    return mangle_identifier(identifier, template_params)
+def mangle_args(argtys):
+    """
+    Mangle sequence of Numba type objects and arbitrary values.
+    """
+    return "".join([mangle_type_or_value(t) for t in argtys])
+def mangle(ident, argtys, *, abi_tags=(), uid=None):
+    """
+    Mangle identifier with Numba type objects and abi-tags.
+    """
+    return "".join(
+        [
+            PREFIX,
+            mangle_identifier(ident, abi_tags=abi_tags, uid=uid),
+            mangle_args(argtys),
+        ]
+    )
+def prepend_namespace(mangled, ns):
+    """
+    Prepend namespace to mangled name.
+    """
+    if not mangled.startswith(PREFIX):
+        raise ValueError("input is not a mangled name")
+    elif mangled.startswith(PREFIX + "N"):
+        # nested
+        remaining = mangled[3:]
+        ret = PREFIX + "N" + mangle_identifier(ns) + remaining
+    else:
+        # non-nested
+        remaining = mangled[2:]
+        head, tail = _split_mangled_ident(remaining)
+        ret = PREFIX + "N" + mangle_identifier(ns) + head + "E" + tail
+    return ret
+def _split_mangled_ident(mangled):
+    """
+    Returns `(head, tail)` where `head` is the `<len> + <name>` encoded
+    identifier and `tail` is the remaining.
+    """
+    ct = int(mangled)
+    ctlen = len(str(ct))
+    at = ctlen + ct
+    return mangled[:at], mangled[at:]

numba_cuda/numba/cuda/kernels/__init__.py ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ # SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
2	+ # SPDX-License-Identifier: BSD-2-Clause