PyPI - numba-cuda - Versions diffs - 0.8.1__py3-none-any.whl → 0.10.0__py3-none-any.whl - Mend

numba-cuda 0.8.1py3-none-any.whl → 0.10.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (237) hide show

_numba_cuda_redirector.py +17 -13
numba_cuda/VERSION +1 -1
numba_cuda/_version.py +4 -1
numba_cuda/numba/cuda/__init__.py +6 -2
numba_cuda/numba/cuda/api.py +129 -86
numba_cuda/numba/cuda/api_util.py +3 -3
numba_cuda/numba/cuda/args.py +12 -16
numba_cuda/numba/cuda/cg.py +6 -6
numba_cuda/numba/cuda/codegen.py +74 -43
numba_cuda/numba/cuda/compiler.py +246 -114
numba_cuda/numba/cuda/cpp_function_wrappers.cu +1 -2
numba_cuda/numba/cuda/cuda_bf16.py +5155 -0
numba_cuda/numba/cuda/cuda_paths.py +293 -99
numba_cuda/numba/cuda/cudadecl.py +93 -79
numba_cuda/numba/cuda/cudadrv/__init__.py +3 -1
numba_cuda/numba/cuda/cudadrv/devicearray.py +185 -135
numba_cuda/numba/cuda/cudadrv/devices.py +16 -11
numba_cuda/numba/cuda/cudadrv/driver.py +460 -297
numba_cuda/numba/cuda/cudadrv/drvapi.py +241 -207
numba_cuda/numba/cuda/cudadrv/dummyarray.py +66 -54
numba_cuda/numba/cuda/cudadrv/enums.py +1 -1
numba_cuda/numba/cuda/cudadrv/error.py +6 -2
numba_cuda/numba/cuda/cudadrv/libs.py +67 -63
numba_cuda/numba/cuda/cudadrv/linkable_code.py +27 -3
numba_cuda/numba/cuda/cudadrv/mappings.py +16 -14
numba_cuda/numba/cuda/cudadrv/nvrtc.py +146 -30
numba_cuda/numba/cuda/cudadrv/nvvm.py +296 -161
numba_cuda/numba/cuda/cudadrv/rtapi.py +1 -1
numba_cuda/numba/cuda/cudadrv/runtime.py +20 -8
numba_cuda/numba/cuda/cudaimpl.py +296 -275
numba_cuda/numba/cuda/cudamath.py +1 -1
numba_cuda/numba/cuda/debuginfo.py +99 -7
numba_cuda/numba/cuda/decorators.py +87 -45
numba_cuda/numba/cuda/descriptor.py +1 -1
numba_cuda/numba/cuda/device_init.py +68 -18
numba_cuda/numba/cuda/deviceufunc.py +143 -98
numba_cuda/numba/cuda/dispatcher.py +300 -213
numba_cuda/numba/cuda/errors.py +13 -10
numba_cuda/numba/cuda/extending.py +55 -1
numba_cuda/numba/cuda/include/11/cuda_bf16.h +3749 -0
numba_cuda/numba/cuda/include/11/cuda_bf16.hpp +2683 -0
numba_cuda/numba/cuda/{cuda_fp16.h → include/11/cuda_fp16.h} +1090 -927
numba_cuda/numba/cuda/{cuda_fp16.hpp → include/11/cuda_fp16.hpp} +468 -319
numba_cuda/numba/cuda/include/12/cuda_bf16.h +5118 -0
numba_cuda/numba/cuda/include/12/cuda_bf16.hpp +3865 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.h +5363 -0
numba_cuda/numba/cuda/include/12/cuda_fp16.hpp +3483 -0
numba_cuda/numba/cuda/initialize.py +5 -3
numba_cuda/numba/cuda/intrinsic_wrapper.py +0 -39
numba_cuda/numba/cuda/intrinsics.py +203 -28
numba_cuda/numba/cuda/kernels/reduction.py +13 -13
numba_cuda/numba/cuda/kernels/transpose.py +3 -6
numba_cuda/numba/cuda/libdevice.py +317 -317
numba_cuda/numba/cuda/libdeviceimpl.py +3 -2
numba_cuda/numba/cuda/locks.py +16 -0
numba_cuda/numba/cuda/lowering.py +43 -0
numba_cuda/numba/cuda/mathimpl.py +62 -57
numba_cuda/numba/cuda/models.py +1 -5
numba_cuda/numba/cuda/nvvmutils.py +103 -88
numba_cuda/numba/cuda/printimpl.py +9 -5
numba_cuda/numba/cuda/random.py +46 -36
numba_cuda/numba/cuda/reshape_funcs.cu +1 -1
numba_cuda/numba/cuda/runtime/__init__.py +1 -1
numba_cuda/numba/cuda/runtime/memsys.cu +1 -1
numba_cuda/numba/cuda/runtime/memsys.cuh +1 -1
numba_cuda/numba/cuda/runtime/nrt.cu +3 -3
numba_cuda/numba/cuda/runtime/nrt.py +48 -43
numba_cuda/numba/cuda/simulator/__init__.py +22 -12
numba_cuda/numba/cuda/simulator/api.py +38 -22
numba_cuda/numba/cuda/simulator/compiler.py +2 -2
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +8 -2
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +63 -55
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +13 -11
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +5 -5
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +2 -2
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +1 -1
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +3 -3
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +3 -3
numba_cuda/numba/cuda/simulator/kernel.py +43 -34
numba_cuda/numba/cuda/simulator/kernelapi.py +31 -26
numba_cuda/numba/cuda/simulator/reduction.py +1 -0
numba_cuda/numba/cuda/simulator/vector_types.py +13 -9
numba_cuda/numba/cuda/simulator_init.py +2 -4
numba_cuda/numba/cuda/stubs.py +134 -108
numba_cuda/numba/cuda/target.py +92 -47
numba_cuda/numba/cuda/testing.py +24 -19
numba_cuda/numba/cuda/tests/__init__.py +14 -12
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +16 -17
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +7 -7
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +73 -54
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +48 -50
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +47 -29
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_libraries.py +3 -3
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +19 -19
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +108 -103
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +20 -11
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +20 -17
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +8 -6
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +8 -7
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +13 -13
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +12 -9
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +36 -31
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +8 -7
numba_cuda/numba/cuda/tests/cudadrv/test_module_callbacks.py +294 -0
numba_cuda/numba/cuda/tests/cudadrv/test_mvc.py +10 -7
numba_cuda/numba/cuda/tests/cudadrv/test_nvjitlink.py +24 -15
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +43 -41
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +4 -5
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +2 -2
numba_cuda/numba/cuda/tests/cudadrv/test_ptds.py +28 -17
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +1 -2
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +22 -14
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +4 -3
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +10 -4
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +1 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +10 -7
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +0 -2
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +1 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +6 -5
numba_cuda/numba/cuda/tests/cudapy/test_array.py +52 -42
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +5 -6
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +501 -304
numba_cuda/numba/cuda/tests/cudapy/test_bfloat16_bindings.py +257 -0
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +59 -23
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +3 -3
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +50 -37
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +29 -24
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +11 -6
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +84 -50
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +144 -73
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +2 -2
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +37 -27
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +43 -45
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +21 -14
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +60 -55
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +3 -2
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +26 -22
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +29 -27
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +77 -28
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +52 -45
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +55 -43
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +24 -7
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +30 -15
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +11 -12
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +21 -12
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +77 -66
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +5 -3
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +5 -3
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +3 -5
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +144 -126
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +23 -18
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +16 -22
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +1 -3
numba_cuda/numba/cuda/tests/cudapy/test_inline.py +59 -0
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +29 -20
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +147 -99
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +50 -36
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +1 -2
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +4 -4
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +24 -20
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +36 -31
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +13 -13
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +13 -6
numba_cuda/numba/cuda/tests/cudapy/test_math.py +83 -66
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +1 -3
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +19 -58
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +4 -4
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +9 -7
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +9 -8
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +12 -10
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +180 -96
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +5 -5
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +37 -18
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_print.py +9 -7
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_random.py +15 -10
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +88 -87
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +12 -10
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +26 -11
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +7 -10
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +4 -6
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +10 -9
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +62 -43
numba_cuda/numba/cuda/tests/cudapy/test_stream_api.py +7 -3
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +7 -5
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +18 -11
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +111 -88
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +2 -3
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +305 -130
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +33 -36
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +5 -5
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +16 -12
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +6 -7
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +31 -29
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +81 -30
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +19 -13
numba_cuda/numba/cuda/tests/data/jitlink.cu +1 -1
numba_cuda/numba/cuda/tests/data/jitlink.ptx +0 -2
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +15 -8
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +4 -7
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +14 -9
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +22 -18
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +7 -4
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +2 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +8 -4
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +2 -1
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +94 -19
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +2 -2
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +91 -62
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +14 -5
numba_cuda/numba/cuda/tests/nocuda/test_import.py +25 -25
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +40 -40
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +12 -10
numba_cuda/numba/cuda/tests/nrt/test_nrt.py +16 -20
numba_cuda/numba/cuda/tests/nrt/test_nrt_refct.py +12 -10
numba_cuda/numba/cuda/tests/test_binary_generation/generate_raw_ltoir.py +2 -2
numba_cuda/numba/cuda/types.py +5 -2
numba_cuda/numba/cuda/ufuncs.py +382 -362
numba_cuda/numba/cuda/utils.py +2 -2
numba_cuda/numba/cuda/vector_types.py +5 -3
numba_cuda/numba/cuda/vectorizers.py +38 -33
{numba_cuda-0.8.1.dist-info → numba_cuda-0.10.0.dist-info}/METADATA +1 -1
numba_cuda-0.10.0.dist-info/RECORD +263 -0
{numba_cuda-0.8.1.dist-info → numba_cuda-0.10.0.dist-info}/WHEEL +1 -1
numba_cuda-0.8.1.dist-info/RECORD +0 -251
{numba_cuda-0.8.1.dist-info → numba_cuda-0.10.0.dist-info}/licenses/LICENSE +0 -0
{numba_cuda-0.8.1.dist-info → numba_cuda-0.10.0.dist-info}/top_level.txt +0 -0

numba_cuda/numba/cuda/random.py CHANGED Viewed

@@ -1,7 +1,16 @@
 import math
-from numba import (config, cuda, float32, float64, uint32, int64, uint64,
-                   from_dtype, jit)
+from numba import (
+    config,
+    cuda,
+    float32,
+    float64,
+    uint32,
+    int64,
+    uint64,
+    from_dtype,
+    jit,
+)
 import numpy as np
@@ -29,8 +38,9 @@ import numpy as np
 # using the CPU @jit decorator everywhere to create functions that work as
 # both CPU and CUDA device functions.
-xoroshiro128p_dtype = np.dtype([('s0', np.uint64), ('s1', np.uint64)],
-                               align=True)
+xoroshiro128p_dtype = np.dtype(
+    [("s0", np.uint64), ("s1", np.uint64)], align=True
+)
 xoroshiro128p_type = from_dtype(xoroshiro128p_dtype)
 # When cudasim is enabled, Fake CUDA arrays are passed to some of the
@@ -45,7 +55,7 @@ _nopython = not config.ENABLE_CUDASIM
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def init_xoroshiro128p_state(states, index, seed):
-    '''Use SplitMix64 to generate an xoroshiro128p state from 64-bit seed.
+    """Use SplitMix64 to generate an xoroshiro128p state from 64-bit seed.
     This ensures that manually set small seeds don't result in a predictable
     initial sequence from the random number generator.
@@ -56,7 +66,7 @@ def init_xoroshiro128p_state(states, index, seed):
     :param index: offset in states to update
     :type seed: int64
     :param seed: seed value to use when initializing state
-    '''
+    """
     index = int64(index)
     seed = uint64(seed)
@@ -65,13 +75,13 @@ def init_xoroshiro128p_state(states, index, seed):
     z = (z ^ (z >> uint32(27))) * uint64(0x94D049BB133111EB)
     z = z ^ (z >> uint32(31))
-    states[index]['s0'] = z
-    states[index]['s1'] = z
+    states[index]["s0"] = z
+    states[index]["s1"] = z
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def rotl(x, k):
-    '''Left rotate x by k bits.'''
+    """Left rotate x by k bits."""
     x = uint64(x)
     k = uint32(k)
     return (x << k) | (x >> uint32(64 - k))
@@ -79,38 +89,38 @@ def rotl(x, k):
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def xoroshiro128p_next(states, index):
-    '''Return the next random uint64 and advance the RNG in states[index].
+    """Return the next random uint64 and advance the RNG in states[index].
     :type states: 1D array, dtype=xoroshiro128p_dtype
     :param states: array of RNG states
     :type index: int64
     :param index: offset in states to update
     :rtype: uint64
-    '''
+    """
     index = int64(index)
-    s0 = states[index]['s0']
-    s1 = states[index]['s1']
+    s0 = states[index]["s0"]
+    s1 = states[index]["s1"]
     result = s0 + s1
     s1 ^= s0
-    states[index]['s0'] = uint64(rotl(s0, uint32(55))) ^ s1 ^ (s1 << uint32(14))
-    states[index]['s1'] = uint64(rotl(s1, uint32(36)))
+    states[index]["s0"] = uint64(rotl(s0, uint32(55))) ^ s1 ^ (s1 << uint32(14))
+    states[index]["s1"] = uint64(rotl(s1, uint32(36)))
     return result
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def xoroshiro128p_jump(states, index):
-    '''Advance the RNG in ``states[index]`` by 2**64 steps.
+    """Advance the RNG in ``states[index]`` by 2**64 steps.
     :type states: 1D array, dtype=xoroshiro128p_dtype
     :param states: array of RNG states
     :type index: int64
     :param index: offset in states to update
-    '''
+    """
     index = int64(index)
-    jump = (uint64(0xbeac0467eba5facb), uint64(0xd86b048b86aa9922))
+    jump = (uint64(0xBEAC0467EBA5FACB), uint64(0xD86B048B86AA9922))
     s0 = uint64(0)
     s1 = uint64(0)
@@ -118,52 +128,52 @@ def xoroshiro128p_jump(states, index):
     for i in range(2):
         for b in range(64):
             if jump[i] & (uint64(1) << uint32(b)):
-                s0 ^= states[index]['s0']
-                s1 ^= states[index]['s1']
+                s0 ^= states[index]["s0"]
+                s1 ^= states[index]["s1"]
             xoroshiro128p_next(states, index)
-    states[index]['s0'] = s0
-    states[index]['s1'] = s1
+    states[index]["s0"] = s0
+    states[index]["s1"] = s1
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def uint64_to_unit_float64(x):
-    '''Convert uint64 to float64 value in the range [0.0, 1.0)'''
+    """Convert uint64 to float64 value in the range [0.0, 1.0)"""
     x = uint64(x)
     return (x >> uint32(11)) * (float64(1) / (uint64(1) << uint32(53)))
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def uint64_to_unit_float32(x):
-    '''Convert uint64 to float32 value in the range [0.0, 1.0)'''
+    """Convert uint64 to float32 value in the range [0.0, 1.0)"""
     x = uint64(x)
     return float32(uint64_to_unit_float64(x))
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def xoroshiro128p_uniform_float32(states, index):
-    '''Return a float32 in range [0.0, 1.0) and advance ``states[index]``.
+    """Return a float32 in range [0.0, 1.0) and advance ``states[index]``.
     :type states: 1D array, dtype=xoroshiro128p_dtype
     :param states: array of RNG states
     :type index: int64
     :param index: offset in states to update
     :rtype: float32
-    '''
+    """
     index = int64(index)
     return uint64_to_unit_float32(xoroshiro128p_next(states, index))
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def xoroshiro128p_uniform_float64(states, index):
-    '''Return a float64 in range [0.0, 1.0) and advance ``states[index]``.
+    """Return a float64 in range [0.0, 1.0) and advance ``states[index]``.
     :type states: 1D array, dtype=xoroshiro128p_dtype
     :param states: array of RNG states
     :type index: int64
     :param index: offset in states to update
     :rtype: float64
-    '''
+    """
     index = int64(index)
     return uint64_to_unit_float64(xoroshiro128p_next(states, index))
@@ -174,7 +184,7 @@ TWO_PI_FLOAT64 = np.float64(2 * math.pi)
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def xoroshiro128p_normal_float32(states, index):
-    '''Return a normally distributed float32 and advance ``states[index]``.
+    """Return a normally distributed float32 and advance ``states[index]``.
     The return value is drawn from a Gaussian of mean=0 and sigma=1 using the
     Box-Muller transform.  This advances the RNG sequence by two steps.
@@ -184,7 +194,7 @@ def xoroshiro128p_normal_float32(states, index):
     :type index: int64
     :param index: offset in states to update
     :rtype: float32
-    '''
+    """
     index = int64(index)
     u1 = xoroshiro128p_uniform_float32(states, index)
@@ -199,7 +209,7 @@ def xoroshiro128p_normal_float32(states, index):
 @jit(forceobj=_forceobj, looplift=_looplift, nopython=_nopython)
 def xoroshiro128p_normal_float64(states, index):
-    '''Return a normally distributed float32 and advance ``states[index]``.
+    """Return a normally distributed float32 and advance ``states[index]``.
     The return value is drawn from a Gaussian of mean=0 and sigma=1 using the
     Box-Muller transform.  This advances the RNG sequence by two steps.
@@ -209,7 +219,7 @@ def xoroshiro128p_normal_float64(states, index):
     :type index: int64
     :param index: offset in states to update
     :rtype: float64
-    '''
+    """
     index = int64(index)
     u1 = xoroshiro128p_uniform_float32(states, index)
@@ -242,7 +252,7 @@ def init_xoroshiro128p_states_cpu(states, seed, subsequence_start):
 def init_xoroshiro128p_states(states, seed, subsequence_start=0, stream=0):
-    '''Initialize RNG states on the GPU for parallel generators.
+    """Initialize RNG states on the GPU for parallel generators.
     This initializes the RNG states so that each state in the array corresponds
     subsequences in the separated by 2**64 steps from each other in the main
@@ -257,7 +267,7 @@ def init_xoroshiro128p_states(states, seed, subsequence_start=0, stream=0):
     :param states: array of RNG states
     :type seed: uint64
     :param seed: starting seed for list of generators
-    '''
+    """
     # Initialization on CPU is much faster than the GPU
     states_cpu = np.empty(shape=states.shape, dtype=xoroshiro128p_dtype)
@@ -267,7 +277,7 @@ def init_xoroshiro128p_states(states, seed, subsequence_start=0, stream=0):
 def create_xoroshiro128p_states(n, seed, subsequence_start=0, stream=0):
-    '''Returns a new device array initialized for n random number generators.
+    """Returns a new device array initialized for n random number generators.
     This initializes the RNG states so that each state in the array corresponds
     subsequences in the separated by 2**64 steps from each other in the main
@@ -286,7 +296,7 @@ def create_xoroshiro128p_states(n, seed, subsequence_start=0, stream=0):
     :param subsequence_start:
     :type stream: CUDA stream
     :param stream: stream to run initialization kernel on
-    '''
+    """
     states = cuda.device_array(n, dtype=xoroshiro128p_dtype, stream=stream)
     init_xoroshiro128p_states(states, seed, subsequence_start, stream)
     return states

numba_cuda/numba/cuda/reshape_funcs.cu CHANGED Viewed

@@ -148,4 +148,4 @@ numba_attempt_nocopy_reshape(npy_intp nd, const npy_intp *dims, const npy_intp *
     }
     return 1;
-}
+}

numba_cuda/numba/cuda/runtime/__init__.py CHANGED Viewed

	@@ -1 +1 @@
1	- from numba.cuda.runtime.nrt import rtsys # noqa: F401
1	+ from numba.cuda.runtime.nrt import rtsys # noqa: F401

numba_cuda/numba/cuda/runtime/memsys.cu CHANGED Viewed

@@ -91,4 +91,4 @@ extern "C" __global__ void NRT_MemSys_print(void)
   } else {
     printf("TheMsys is null.\n");
   }
-}
+}

numba_cuda/numba/cuda/runtime/memsys.cuh CHANGED Viewed

@@ -14,4 +14,4 @@ struct NRT_MemSys {
 /* The Memory System object */
 __device__ NRT_MemSys* TheMSys;
-extern "C" __global__ void NRT_MemSys_set(NRT_MemSys *memsys_ptr);
+extern "C" __global__ void NRT_MemSys_set(NRT_MemSys *memsys_ptr);

numba_cuda/numba/cuda/runtime/nrt.cu CHANGED Viewed

@@ -33,7 +33,7 @@ extern "C" __device__ void* NRT_Allocate(size_t size)
 {
   void* ptr = NULL;
   ptr       = malloc(size);
-  if (TheMSys && TheMSys->stats.enabled) {
+  if (TheMSys && TheMSys->stats.enabled) {
     TheMSys->stats.alloc.fetch_add(1, cuda::memory_order_relaxed); }
   return ptr;
 }
@@ -49,7 +49,7 @@ extern "C" __device__ void NRT_MemInfo_init(NRT_MemInfo* mi,
   mi->dtor_info = dtor_info;
   mi->data      = data;
   mi->size      = size;
- if (TheMSys && TheMSys->stats.enabled) {
+ if (TheMSys && TheMSys->stats.enabled) {
   TheMSys->stats.mi_alloc.fetch_add(1, cuda::memory_order_relaxed); }
 }
@@ -77,7 +77,7 @@ extern "C" __device__ void NRT_dealloc(NRT_MemInfo* mi)
 extern "C" __device__ void NRT_MemInfo_destroy(NRT_MemInfo* mi)
 {
   NRT_dealloc(mi);
-  if (TheMSys && TheMSys->stats.enabled) {
+  if (TheMSys && TheMSys->stats.enabled) {
     TheMSys->stats.mi_free.fetch_add(1, cuda::memory_order_relaxed); }
 }

numba_cuda/numba/cuda/runtime/nrt.py CHANGED Viewed

@@ -5,26 +5,28 @@ import numpy as np
 from numba import cuda, config
 from numba.core.runtime.nrt import _nrt_mstats
-from numba.cuda.cudadrv.driver import (Linker, driver, launch_kernel,
-                                       USE_NV_BINDING)
+from numba.cuda.cudadrv.driver import (
+    Linker,
+    driver,
+    launch_kernel,
+    USE_NV_BINDING,
+)
 from numba.cuda.cudadrv import devices
 from numba.cuda.api import get_current_device
 from numba.cuda.utils import _readenv
 # Check environment variable or config for NRT statistics enablement
-NRT_STATS = (
-    _readenv("NUMBA_CUDA_NRT_STATS", bool, False) or
-    getattr(config, "NUMBA_CUDA_NRT_STATS", False)
+NRT_STATS = _readenv("NUMBA_CUDA_NRT_STATS", bool, False) or getattr(
+    config, "NUMBA_CUDA_NRT_STATS", False
 )
 if not hasattr(config, "NUMBA_CUDA_NRT_STATS"):
     config.CUDA_NRT_STATS = NRT_STATS
 # Check environment variable or config for NRT enablement
-ENABLE_NRT = (
-    _readenv("NUMBA_CUDA_ENABLE_NRT", bool, False) or
-    getattr(config, "NUMBA_CUDA_ENABLE_NRT", False)
+ENABLE_NRT = _readenv("NUMBA_CUDA_ENABLE_NRT", bool, False) or getattr(
+    config, "NUMBA_CUDA_ENABLE_NRT", False
 )
 if not hasattr(config, "NUMBA_CUDA_ENABLE_NRT"):
     config.CUDA_ENABLE_NRT = ENABLE_NRT
@@ -35,16 +37,19 @@ def _alloc_init_guard(method):
     """
     Ensure NRT memory allocation and initialization before running the method
     """
     @wraps(method)
     def wrapper(self, *args, **kwargs):
         self.ensure_allocated()
         self.ensure_initialized()
         return method(self, *args, **kwargs)
     return wrapper
 class _Runtime:
     """Singleton class for Numba CUDA runtime"""
     _instance = None
     def __new__(cls, *args, **kwargs):
@@ -64,8 +69,7 @@ class _Runtime:
         """
         # Define the path for memsys.cu
         memsys_mod = os.path.join(
-            os.path.dirname(os.path.abspath(__file__)),
-            "memsys.cu"
+            os.path.dirname(os.path.abspath(__file__)), "memsys.cu"
         )
         cc = get_current_device().compute_capability
@@ -105,10 +109,12 @@ class _Runtime:
         # Allocate space for NRT_MemSys
         ptr, nbytes = self._memsys_module.get_global_symbol("memsys_size")
         memsys_size = ctypes.c_uint64()
-        driver.cuMemcpyDtoH(ctypes.addressof(memsys_size),
-                            ptr.device_ctypes_pointer, nbytes)
+        driver.cuMemcpyDtoH(
+            ctypes.addressof(memsys_size), ptr.device_ctypes_pointer, nbytes
+        )
         self._memsys = device_array(
-            (memsys_size.value,), dtype="i1", stream=stream)
+            (memsys_size.value,), dtype="i1", stream=stream
+        )
         self.set_memsys_to_module(self._memsys_module, stream=stream)
     def _single_thread_launch(self, module, stream, name, params=()):
@@ -121,12 +127,16 @@ class _Runtime:
         func = module.get_function(name)
         launch_kernel(
             func.handle,
-            1, 1, 1,
-            1, 1, 1,
+            1,
+            1,
+            1,
+            1,
+            1,
+            1,
             0,
             stream.handle,
             params,
-            cooperative=False
+            cooperative=False,
         )
     def _ctypes_pointer(self, array):
@@ -158,7 +168,8 @@ class _Runtime:
         self.ensure_allocated()
         self._single_thread_launch(
-            self._memsys_module, stream, "NRT_MemSys_init")
+            self._memsys_module, stream, "NRT_MemSys_init"
+        )
         self._initialized = True
         if config.CUDA_NRT_STATS:
@@ -170,7 +181,8 @@ class _Runtime:
         Enable memsys statistics
         """
         self._single_thread_launch(
-            self._memsys_module, stream, "NRT_MemSys_enable_stats")
+            self._memsys_module, stream, "NRT_MemSys_enable_stats"
+        )
     @_alloc_init_guard
     def memsys_disable_stats(self, stream=None):
@@ -178,7 +190,8 @@ class _Runtime:
         Disable memsys statistics
         """
         self._single_thread_launch(
-            self._memsys_module, stream, "NRT_MemSys_disable_stats")
+            self._memsys_module, stream, "NRT_MemSys_disable_stats"
+        )
     @_alloc_init_guard
     def memsys_stats_enabled(self, stream=None):
@@ -193,7 +206,7 @@ class _Runtime:
             self._memsys_module,
             stream,
             "NRT_MemSys_stats_enabled",
-            (enabled_ptr,)
+            (enabled_ptr,),
         )
         cuda.synchronize()
@@ -204,21 +217,20 @@ class _Runtime:
         """
         Copy all statistics of memsys to the host
         """
-        dt = np.dtype([
-            ('alloc', np.uint64),
-            ('free', np.uint64),
-            ('mi_alloc', np.uint64),
-            ('mi_free', np.uint64)
-        ])
+        dt = np.dtype(
+            [
+                ("alloc", np.uint64),
+                ("free", np.uint64),
+                ("mi_alloc", np.uint64),
+                ("mi_free", np.uint64),
+            ]
+        )
         stats_for_read = cuda.managed_array(1, dt)
         stats_ptr = self._ctypes_pointer(stats_for_read)
         self._single_thread_launch(
-            self._memsys_module,
-            stream,
-            "NRT_MemSys_read",
-            [stats_ptr]
+            self._memsys_module, stream, "NRT_MemSys_read", [stats_ptr]
         )
         cuda.synchronize()
@@ -237,7 +249,7 @@ class _Runtime:
             alloc=memsys["alloc"],
             free=memsys["free"],
             mi_alloc=memsys["mi_alloc"],
-            mi_free=memsys["mi_free"]
+            mi_free=memsys["mi_free"],
         )
     @_alloc_init_guard
@@ -249,10 +261,7 @@ class _Runtime:
         got_ptr = self._ctypes_pointer(got)
         self._single_thread_launch(
-            self._memsys_module,
-            stream,
-            f"NRT_MemSys_read_{stat}",
-            [got_ptr]
+            self._memsys_module, stream, f"NRT_MemSys_read_{stat}", [got_ptr]
         )
         cuda.synchronize()
@@ -309,15 +318,13 @@ class _Runtime:
         """
         if self._memsys is None:
             raise RuntimeError(
-                "Please allocate NRT Memsys first before setting to module.")
+                "Please allocate NRT Memsys first before setting to module."
+            )
         memsys_ptr = self._ctypes_pointer(self._memsys)
         self._single_thread_launch(
-            module,
-            stream,
-            "NRT_MemSys_set",
-            [memsys_ptr]
+            module, stream, "NRT_MemSys_set", [memsys_ptr]
         )
     @_alloc_init_guard
@@ -327,9 +334,7 @@ class _Runtime:
         """
         cuda.synchronize()
         self._single_thread_launch(
-            self._memsys_module,
-            stream,
-            "NRT_MemSys_print"
+            self._memsys_module, stream, "NRT_MemSys_print"
         )

numba_cuda/numba/cuda/simulator/__init__.py CHANGED Viewed

@@ -3,14 +3,22 @@ import sys
 from .api import *
 from .vector_types import vector_types
 from .reduction import Reduce
-from .cudadrv.devicearray import (device_array, device_array_like, pinned,
-                                  pinned_array, pinned_array_like,
-                                  mapped_array, to_device, auto_device)
+from .cudadrv.devicearray import (
+    device_array,
+    device_array_like,
+    pinned,
+    pinned_array,
+    pinned_array_like,
+    mapped_array,
+    to_device,
+    auto_device,
+)
 from .cudadrv import devicearray
 from .cudadrv.devices import require_context, gpus
 from .cudadrv.devices import get_context as current_context
 from .cudadrv.runtime import runtime
 from numba.core import config
 reduce = Reduce
 # Register simulated vector types as module level variables
@@ -25,14 +33,16 @@ del vector_types, name, svty, alias
 if config.ENABLE_CUDASIM:
     import sys
     from numba.cuda.simulator import cudadrv
-    sys.modules['numba.cuda.cudadrv'] = cudadrv
-    sys.modules['numba.cuda.cudadrv.devicearray'] = cudadrv.devicearray
-    sys.modules['numba.cuda.cudadrv.devices'] = cudadrv.devices
-    sys.modules['numba.cuda.cudadrv.driver'] = cudadrv.driver
-    sys.modules['numba.cuda.cudadrv.runtime'] = cudadrv.runtime
-    sys.modules['numba.cuda.cudadrv.drvapi'] = cudadrv.drvapi
-    sys.modules['numba.cuda.cudadrv.error'] = cudadrv.error
-    sys.modules['numba.cuda.cudadrv.nvvm'] = cudadrv.nvvm
+    sys.modules["numba.cuda.cudadrv"] = cudadrv
+    sys.modules["numba.cuda.cudadrv.devicearray"] = cudadrv.devicearray
+    sys.modules["numba.cuda.cudadrv.devices"] = cudadrv.devices
+    sys.modules["numba.cuda.cudadrv.driver"] = cudadrv.driver
+    sys.modules["numba.cuda.cudadrv.runtime"] = cudadrv.runtime
+    sys.modules["numba.cuda.cudadrv.drvapi"] = cudadrv.drvapi
+    sys.modules["numba.cuda.cudadrv.error"] = cudadrv.error
+    sys.modules["numba.cuda.cudadrv.nvvm"] = cudadrv.nvvm
     from . import compiler
-    sys.modules['numba.cuda.compiler'] = compiler
+    sys.modules["numba.cuda.compiler"] = compiler

numba-cuda 0.8.1__py3-none-any.whl → 0.10.0__py3-none-any.whl

numba-cuda 0.8.1py3-none-any.whl → 0.10.0py3-none-any.whl