PyPI - numba-cuda - Versions diffs - 0.8.1__py3-none-any.whl → 0.9.0__py3-none-any.whl - Mend

numba-cuda 0.8.1py3-none-any.whl → 0.9.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (227) hide show

_numba_cuda_redirector.py +17 -13
numba_cuda/VERSION +1 -1
numba_cuda/_version.py +4 -1
numba_cuda/numba/cuda/__init__.py +6 -2
numba_cuda/numba/cuda/api.py +129 -86
numba_cuda/numba/cuda/api_util.py +3 -3
numba_cuda/numba/cuda/args.py +12 -16
numba_cuda/numba/cuda/cg.py +6 -6
numba_cuda/numba/cuda/codegen.py +74 -43
numba_cuda/numba/cuda/compiler.py +232 -113
numba_cuda/numba/cuda/cpp_function_wrappers.cu +1 -2
numba_cuda/numba/cuda/cuda_fp16.h +661 -661
numba_cuda/numba/cuda/cuda_fp16.hpp +3 -3
numba_cuda/numba/cuda/cuda_paths.py +291 -99
numba_cuda/numba/cuda/cudadecl.py +125 -69
numba_cuda/numba/cuda/cudadrv/__init__.py +3 -1
numba_cuda/numba/cuda/cudadrv/devicearray.py +185 -135
numba_cuda/numba/cuda/cudadrv/devices.py +16 -11
numba_cuda/numba/cuda/cudadrv/driver.py +460 -297
numba_cuda/numba/cuda/cudadrv/drvapi.py +241 -207
numba_cuda/numba/cuda/cudadrv/dummyarray.py +66 -54
numba_cuda/numba/cuda/cudadrv/enums.py +1 -1
numba_cuda/numba/cuda/cudadrv/error.py +6 -2
numba_cuda/numba/cuda/cudadrv/libs.py +67 -63
numba_cuda/numba/cuda/cudadrv/linkable_code.py +16 -1
numba_cuda/numba/cuda/cudadrv/mappings.py +16 -14
numba_cuda/numba/cuda/cudadrv/nvrtc.py +138 -29
numba_cuda/numba/cuda/cudadrv/nvvm.py +296 -161
numba_cuda/numba/cuda/cudadrv/rtapi.py +1 -1
numba_cuda/numba/cuda/cudadrv/runtime.py +20 -8
numba_cuda/numba/cuda/cudaimpl.py +317 -233
numba_cuda/numba/cuda/cudamath.py +1 -1
numba_cuda/numba/cuda/debuginfo.py +8 -6
numba_cuda/numba/cuda/decorators.py +75 -45
numba_cuda/numba/cuda/descriptor.py +1 -1
numba_cuda/numba/cuda/device_init.py +69 -18
numba_cuda/numba/cuda/deviceufunc.py +143 -98
numba_cuda/numba/cuda/dispatcher.py +300 -213
numba_cuda/numba/cuda/errors.py +13 -10
numba_cuda/numba/cuda/extending.py +1 -1
numba_cuda/numba/cuda/initialize.py +5 -3
numba_cuda/numba/cuda/intrinsic_wrapper.py +3 -3
numba_cuda/numba/cuda/intrinsics.py +31 -27
numba_cuda/numba/cuda/kernels/reduction.py +13 -13
numba_cuda/numba/cuda/kernels/transpose.py +3 -6
numba_cuda/numba/cuda/libdevice.py +317 -317
numba_cuda/numba/cuda/libdeviceimpl.py +3 -2
numba_cuda/numba/cuda/locks.py +16 -0
numba_cuda/numba/cuda/mathimpl.py +62 -57
numba_cuda/numba/cuda/models.py +1 -5
numba_cuda/numba/cuda/nvvmutils.py +103 -88
numba_cuda/numba/cuda/printimpl.py +9 -5
numba_cuda/numba/cuda/random.py +46 -36
numba_cuda/numba/cuda/reshape_funcs.cu +1 -1
numba_cuda/numba/cuda/runtime/__init__.py +1 -1
numba_cuda/numba/cuda/runtime/memsys.cu +1 -1
numba_cuda/numba/cuda/runtime/memsys.cuh +1 -1
numba_cuda/numba/cuda/runtime/nrt.cu +3 -3
numba_cuda/numba/cuda/runtime/nrt.py +48 -43
numba_cuda/numba/cuda/simulator/__init__.py +22 -12
numba_cuda/numba/cuda/simulator/api.py +38 -22
numba_cuda/numba/cuda/simulator/compiler.py +2 -2
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +8 -2
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +63 -55
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +13 -11
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +5 -5
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +2 -2
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +1 -1
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +3 -3
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +3 -3
numba_cuda/numba/cuda/simulator/kernel.py +43 -34
numba_cuda/numba/cuda/simulator/kernelapi.py +31 -26
numba_cuda/numba/cuda/simulator/reduction.py +1 -0
numba_cuda/numba/cuda/simulator/vector_types.py +13 -9
numba_cuda/numba/cuda/simulator_init.py +2 -4
numba_cuda/numba/cuda/stubs.py +139 -102
numba_cuda/numba/cuda/target.py +64 -47
numba_cuda/numba/cuda/testing.py +24 -19
numba_cuda/numba/cuda/tests/__init__.py +14 -12
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +16 -17
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +7 -7
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +73 -54
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +48 -50
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +47 -29
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_libraries.py +3 -3
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +19 -19
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +108 -103
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +20 -11
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +20 -17
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +8 -6
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +8 -7
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +13 -13
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +12 -9
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +36 -31
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +8 -7
numba_cuda/numba/cuda/tests/cudadrv/test_module_callbacks.py +294 -0
numba_cuda/numba/cuda/tests/cudadrv/test_mvc.py +10 -7
numba_cuda/numba/cuda/tests/cudadrv/test_nvjitlink.py +24 -15
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +43 -41
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +4 -5
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +2 -2
numba_cuda/numba/cuda/tests/cudadrv/test_ptds.py +28 -17
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +1 -2
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +22 -14
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +4 -3
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +10 -4
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +1 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +7 -6
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +0 -2
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +1 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +6 -5
numba_cuda/numba/cuda/tests/cudapy/test_array.py +52 -42
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +5 -6
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +501 -304
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +57 -21
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +3 -3
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +50 -37
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +29 -24
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +11 -6
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +84 -50
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +144 -73
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +2 -2
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +37 -27
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +43 -45
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +21 -14
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +60 -55
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +3 -2
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +26 -22
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +29 -27
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +31 -28
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +52 -45
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +55 -43
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +6 -7
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +30 -15
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +11 -12
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +19 -12
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +77 -66
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +5 -3
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +5 -3
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +3 -5
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +144 -126
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +23 -18
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +16 -22
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +1 -3
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +29 -20
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +147 -99
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +50 -36
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +1 -2
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +4 -4
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +6 -6
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +24 -20
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +36 -31
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +13 -13
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +13 -6
numba_cuda/numba/cuda/tests/cudapy/test_math.py +83 -66
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +1 -3
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +19 -58
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +4 -4
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +9 -7
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +9 -8
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +12 -10
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +180 -96
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +5 -5
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +37 -18
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_print.py +9 -7
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_random.py +15 -10
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +88 -87
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +12 -10
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +26 -11
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +7 -10
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +4 -6
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +10 -9
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +62 -43
numba_cuda/numba/cuda/tests/cudapy/test_stream_api.py +7 -3
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +7 -5
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +18 -11
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +111 -88
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +2 -3
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +305 -130
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +33 -36
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +5 -5
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +16 -12
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +6 -7
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +31 -29
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +31 -25
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +19 -13
numba_cuda/numba/cuda/tests/data/jitlink.cu +1 -1
numba_cuda/numba/cuda/tests/data/jitlink.ptx +0 -2
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +15 -8
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +4 -7
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +14 -9
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +22 -18
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +7 -4
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +2 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +8 -4
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +2 -1
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +94 -19
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +2 -2
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +91 -62
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +14 -5
numba_cuda/numba/cuda/tests/nocuda/test_import.py +25 -25
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +40 -40
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +12 -10
numba_cuda/numba/cuda/tests/nrt/test_nrt.py +16 -20
numba_cuda/numba/cuda/tests/nrt/test_nrt_refct.py +12 -10
numba_cuda/numba/cuda/tests/test_binary_generation/generate_raw_ltoir.py +2 -2
numba_cuda/numba/cuda/types.py +5 -2
numba_cuda/numba/cuda/ufuncs.py +382 -362
numba_cuda/numba/cuda/utils.py +2 -2
numba_cuda/numba/cuda/vector_types.py +2 -2
numba_cuda/numba/cuda/vectorizers.py +37 -32
{numba_cuda-0.8.1.dist-info → numba_cuda-0.9.0.dist-info}/METADATA +1 -1
numba_cuda-0.9.0.dist-info/RECORD +253 -0
{numba_cuda-0.8.1.dist-info → numba_cuda-0.9.0.dist-info}/WHEEL +1 -1
numba_cuda-0.8.1.dist-info/RECORD +0 -251
{numba_cuda-0.8.1.dist-info → numba_cuda-0.9.0.dist-info}/licenses/LICENSE +0 -0
{numba_cuda-0.8.1.dist-info → numba_cuda-0.9.0.dist-info}/top_level.txt +0 -0

numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py CHANGED Viewed

@@ -6,8 +6,12 @@ from numba import cuda, int64
 from numba.cuda import compile_ptx
 from numba.core.errors import TypingError
 from numba.core.types import f2
-from numba.cuda.testing import (unittest, CUDATestCase, skip_on_cudasim,
-                                skip_unless_cc_53)
+from numba.cuda.testing import (
+    unittest,
+    CUDATestCase,
+    skip_on_cudasim,
+    skip_unless_cc_53,
+)
 def simple_threadidx(ary):
@@ -260,7 +264,6 @@ def simple_hsqrt(r, x):
 def simple_hrsqrt(r, x):
     i = cuda.grid(1)
     if i < len(r):
@@ -268,7 +271,7 @@ def simple_hrsqrt(r, x):
 def numpy_hrsqrt(x, dtype):
-    return x ** -0.5
+    return x**-0.5
 def simple_hceil(r, x):
@@ -404,15 +407,15 @@ class TestCudaIntrinsic(CUDATestCase):
         f_res = f_contigous()
         self.assertTrue(np.all(c_res == f_res))
-    @skip_on_cudasim('Cudasim does not check types')
+    @skip_on_cudasim("Cudasim does not check types")
     def test_nonliteral_grid_error(self):
-        with self.assertRaisesRegex(TypingError, 'RequireLiteralValue'):
-            cuda.jit('void(int32)')(nonliteral_grid)
+        with self.assertRaisesRegex(TypingError, "RequireLiteralValue"):
+            cuda.jit("void(int32)")(nonliteral_grid)
-    @skip_on_cudasim('Cudasim does not check types')
+    @skip_on_cudasim("Cudasim does not check types")
     def test_nonliteral_gridsize_error(self):
-        with self.assertRaisesRegex(TypingError, 'RequireLiteralValue'):
-            cuda.jit('void(int32)')(nonliteral_gridsize)
+        with self.assertRaisesRegex(TypingError, "RequireLiteralValue"):
+            cuda.jit("void(int32)")(nonliteral_gridsize)
     def test_simple_grid1d(self):
         compiled = cuda.jit("void(int32[::1])")(simple_grid1d)
@@ -444,7 +447,7 @@ class TestCudaIntrinsic(CUDATestCase):
         compiled[nctaid, ntid](ary)
         self.assertEqual(ary[0], nctaid * ntid)
-    @skip_on_cudasim('Requires too many threads')
+    @skip_on_cudasim("Requires too many threads")
     def test_issue_9229(self):
         # Ensure that grid and grid size are correct - #9229 showed that they
         # overflowed an int32.
@@ -469,7 +472,7 @@ class TestCudaIntrinsic(CUDATestCase):
         self.assertEqual(grid_error[0], 0)
         self.assertEqual(gridsize_error[0], 0)
-    @skip_on_cudasim('Tests PTX emission')
+    @skip_on_cudasim("Tests PTX emission")
     def test_selp(self):
         sig = (int64[:], int64, int64[:])
         cu_branching_with_ifs = cuda.jit(sig)(branching_with_ifs)
@@ -485,14 +488,14 @@ class TestCudaIntrinsic(CUDATestCase):
         a = np.arange(n, dtype=np.int64)
         cu_branching_with_ifs[n, 1](a, b, c)
         ptx = cu_branching_with_ifs.inspect_asm(sig)
-        self.assertEqual(2, len(re.findall(r'\s+bra\s+', ptx)))
-        np.testing.assert_array_equal(a, expected, err_msg='branching')
+        self.assertEqual(2, len(re.findall(r"\s+bra\s+", ptx)))
+        np.testing.assert_array_equal(a, expected, err_msg="branching")
         a = np.arange(n, dtype=np.int64)
         cu_branching_with_selps[n, 1](a, b, c)
         ptx = cu_branching_with_selps.inspect_asm(sig)
-        self.assertEqual(0, len(re.findall(r'\s+bra\s+', ptx)))
-        np.testing.assert_array_equal(a, expected, err_msg='selp')
+        self.assertEqual(0, len(re.findall(r"\s+bra\s+", ptx)))
+        np.testing.assert_array_equal(a, expected, err_msg="selp")
     def test_simple_gridsize2d(self):
         compiled = cuda.jit("void(int32[::1])")(simple_gridsize2d)
@@ -528,10 +531,10 @@ class TestCudaIntrinsic(CUDATestCase):
             a, b, c = cuda.gridsize(3)
             out[x, y, z] = a * b * c
-        arr = np.zeros(9 ** 3, dtype=np.int32).reshape(9, 9, 9)
+        arr = np.zeros(9**3, dtype=np.int32).reshape(9, 9, 9)
         foo[(3, 3, 3), (3, 3, 3)](arr)
-        np.testing.assert_equal(arr, 9 ** 3)
+        np.testing.assert_equal(arr, 9**3)
     def test_3dgrid_2(self):
         @cuda.jit
@@ -539,13 +542,15 @@ class TestCudaIntrinsic(CUDATestCase):
             x, y, z = cuda.grid(3)
             a, b, c = cuda.gridsize(3)
             grid_is_right = (
-                x == cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x and
-                y == cuda.threadIdx.y + cuda.blockIdx.y * cuda.blockDim.y and
-                z == cuda.threadIdx.z + cuda.blockIdx.z * cuda.blockDim.z
+                x == cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
+                and y == cuda.threadIdx.y + cuda.blockIdx.y * cuda.blockDim.y
+                and z == cuda.threadIdx.z + cuda.blockIdx.z * cuda.blockDim.z
+            )
+            gridsize_is_right = (
+                a == cuda.blockDim.x * cuda.gridDim.x
+                and b == cuda.blockDim.y * cuda.gridDim.y
+                and c == cuda.blockDim.z * cuda.gridDim.z
             )
-            gridsize_is_right = (a == cuda.blockDim.x * cuda.gridDim.x and
-                                 b == cuda.blockDim.y * cuda.gridDim.y and
-                                 c == cuda.blockDim.z * cuda.gridDim.z)
             out[x, y, z] = grid_is_right and gridsize_is_right
         x, y, z = (4 * 3, 3 * 2, 2 * 4)
@@ -605,21 +610,21 @@ class TestCudaIntrinsic(CUDATestCase):
     def test_fma_f4(self):
         compiled = cuda.jit("void(f4[:], f4, f4, f4)")(simple_fma)
         ary = np.zeros(1, dtype=np.float32)
-        compiled[1, 1](ary, 2., 3., 4.)
+        compiled[1, 1](ary, 2.0, 3.0, 4.0)
         np.testing.assert_allclose(ary[0], 2 * 3 + 4)
     def test_fma_f8(self):
         compiled = cuda.jit("void(f8[:], f8, f8, f8)")(simple_fma)
         ary = np.zeros(1, dtype=np.float64)
-        compiled[1, 1](ary, 2., 3., 4.)
+        compiled[1, 1](ary, 2.0, 3.0, 4.0)
         np.testing.assert_allclose(ary[0], 2 * 3 + 4)
     @skip_unless_cc_53
     def test_hadd(self):
         compiled = cuda.jit("void(f2[:], f2[:], f2[:])")(simple_hadd)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.array([3.], dtype=np.float16)
-        arg2 = np.array([4.], dtype=np.float16)
+        arg1 = np.array([3.0], dtype=np.float16)
+        arg2 = np.array([4.0], dtype=np.float16)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg1 + arg2)
@@ -628,24 +633,24 @@ class TestCudaIntrinsic(CUDATestCase):
         compiled = cuda.jit("void(f2[:], f2, f2)")(simple_hadd_scalar)
         ary = np.zeros(1, dtype=np.float16)
         arg1 = np.float16(3.1415926)
-        arg2 = np.float16(3.)
+        arg2 = np.float16(3.0)
         compiled[1, 1](ary, arg1, arg2)
         ref = arg1 + arg2
         np.testing.assert_allclose(ary[0], ref)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_hadd_ptx(self):
         args = (f2[:], f2, f2)
         ptx, _ = compile_ptx(simple_hadd_scalar, args, cc=(5, 3))
-        self.assertIn('add.f16', ptx)
+        self.assertIn("add.f16", ptx)
     @skip_unless_cc_53
     def test_hfma(self):
         compiled = cuda.jit("void(f2[:], f2[:], f2[:], f2[:])")(simple_hfma)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.array([2.], dtype=np.float16)
-        arg2 = np.array([3.], dtype=np.float16)
-        arg3 = np.array([4.], dtype=np.float16)
+        arg1 = np.array([2.0], dtype=np.float16)
+        arg2 = np.array([3.0], dtype=np.float16)
+        arg3 = np.array([4.0], dtype=np.float16)
         compiled[1, 1](ary, arg1, arg2, arg3)
         np.testing.assert_allclose(ary[0], arg1 * arg2 + arg3)
@@ -653,25 +658,25 @@ class TestCudaIntrinsic(CUDATestCase):
     def test_hfma_scalar(self):
         compiled = cuda.jit("void(f2[:], f2, f2, f2)")(simple_hfma_scalar)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.float16(2.)
-        arg2 = np.float16(3.)
-        arg3 = np.float16(4.)
+        arg1 = np.float16(2.0)
+        arg2 = np.float16(3.0)
+        arg3 = np.float16(4.0)
         compiled[1, 1](ary, arg1, arg2, arg3)
         ref = arg1 * arg2 + arg3
         np.testing.assert_allclose(ary[0], ref)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_hfma_ptx(self):
         args = (f2[:], f2, f2, f2)
         ptx, _ = compile_ptx(simple_hfma_scalar, args, cc=(5, 3))
-        self.assertIn('fma.rn.f16', ptx)
+        self.assertIn("fma.rn.f16", ptx)
     @skip_unless_cc_53
     def test_hsub(self):
         compiled = cuda.jit("void(f2[:], f2[:], f2[:])")(simple_hsub)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.array([3.], dtype=np.float16)
-        arg2 = np.array([4.], dtype=np.float16)
+        arg1 = np.array([3.0], dtype=np.float16)
+        arg2 = np.array([4.0], dtype=np.float16)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg1 - arg2)
@@ -685,18 +690,18 @@ class TestCudaIntrinsic(CUDATestCase):
         ref = arg1 - arg2
         np.testing.assert_allclose(ary[0], ref)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_hsub_ptx(self):
         args = (f2[:], f2, f2)
         ptx, _ = compile_ptx(simple_hsub_scalar, args, cc=(5, 3))
-        self.assertIn('sub.f16', ptx)
+        self.assertIn("sub.f16", ptx)
     @skip_unless_cc_53
     def test_hmul(self):
         compiled = cuda.jit()(simple_hmul)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.array([3.], dtype=np.float16)
-        arg2 = np.array([4.], dtype=np.float16)
+        arg1 = np.array([3.0], dtype=np.float16)
+        arg2 = np.array([4.0], dtype=np.float16)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg1 * arg2)
@@ -710,11 +715,11 @@ class TestCudaIntrinsic(CUDATestCase):
         ref = arg1 * arg2
         np.testing.assert_allclose(ary[0], ref)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_hmul_ptx(self):
         args = (f2[:], f2, f2)
         ptx, _ = compile_ptx(simple_hmul_scalar, args, cc=(5, 3))
-        self.assertIn('mul.f16', ptx)
+        self.assertIn("mul.f16", ptx)
     @skip_unless_cc_53
     def test_hdiv_scalar(self):
@@ -742,7 +747,7 @@ class TestCudaIntrinsic(CUDATestCase):
     def test_hneg(self):
         compiled = cuda.jit("void(f2[:], f2[:])")(simple_hneg)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.array([3.], dtype=np.float16)
+        arg1 = np.array([3.0], dtype=np.float16)
         compiled[1, 1](ary, arg1)
         np.testing.assert_allclose(ary[0], -arg1)
@@ -755,17 +760,17 @@ class TestCudaIntrinsic(CUDATestCase):
         ref = -arg1
         np.testing.assert_allclose(ary[0], ref)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_hneg_ptx(self):
         args = (f2[:], f2)
         ptx, _ = compile_ptx(simple_hneg_scalar, args, cc=(5, 3))
-        self.assertIn('neg.f16', ptx)
+        self.assertIn("neg.f16", ptx)
     @skip_unless_cc_53
     def test_habs(self):
         compiled = cuda.jit()(simple_habs)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.array([-3.], dtype=np.float16)
+        arg1 = np.array([-3.0], dtype=np.float16)
         compiled[1, 1](ary, arg1)
         np.testing.assert_allclose(ary[0], abs(arg1))
@@ -778,25 +783,43 @@ class TestCudaIntrinsic(CUDATestCase):
         ref = abs(arg1)
         np.testing.assert_allclose(ary[0], ref)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_habs_ptx(self):
         args = (f2[:], f2)
         ptx, _ = compile_ptx(simple_habs_scalar, args, cc=(5, 3))
-        self.assertIn('abs.f16', ptx)
+        self.assertIn("abs.f16", ptx)
     @skip_unless_cc_53
     def test_fp16_intrinsics_common(self):
-        kernels = (simple_hsin, simple_hcos,
-                   simple_hlog, simple_hlog2, simple_hlog10,
-                   simple_hsqrt, simple_hceil, simple_hfloor,
-                   simple_hrcp, simple_htrunc, simple_hrint,
-                   simple_hrsqrt)
+        kernels = (
+            simple_hsin,
+            simple_hcos,
+            simple_hlog,
+            simple_hlog2,
+            simple_hlog10,
+            simple_hsqrt,
+            simple_hceil,
+            simple_hfloor,
+            simple_hrcp,
+            simple_htrunc,
+            simple_hrint,
+            simple_hrsqrt,
+        )
         exp_kernels = (simple_hexp, simple_hexp2)
-        expected_functions = (np.sin, np.cos,
-                              np.log, np.log2, np.log10,
-                              np.sqrt, np.ceil, np.floor,
-                              np.reciprocal, np.trunc, np.rint,
-                              numpy_hrsqrt)
+        expected_functions = (
+            np.sin,
+            np.cos,
+            np.log,
+            np.log2,
+            np.log10,
+            np.sqrt,
+            np.ceil,
+            np.floor,
+            np.reciprocal,
+            np.trunc,
+            np.rint,
+            numpy_hrsqrt,
+        )
         expected_exp_functions = (np.exp, np.exp2)
         # Generate random data
@@ -807,7 +830,7 @@ class TestCudaIntrinsic(CUDATestCase):
         for kernel, fn in zip(kernels, expected_functions):
             with self.subTest(fn=fn):
                 kernel = cuda.jit("void(f2[:], f2[:])")(kernel)
-                kernel[1,N](r, x)
+                kernel[1, N](r, x)
                 expected = fn(x, dtype=np.float16)
                 np.testing.assert_allclose(r, expected)
@@ -815,7 +838,7 @@ class TestCudaIntrinsic(CUDATestCase):
         for kernel, fn in zip(exp_kernels, expected_exp_functions):
             with self.subTest(fn=fn):
                 kernel = cuda.jit("void(f2[:], f2[:])")(kernel)
-                kernel[1,N](r, x2)
+                kernel[1, N](r, x2)
                 expected = fn(x2, dtype=np.float16)
                 np.testing.assert_allclose(r, expected)
@@ -836,14 +859,26 @@ class TestCudaIntrinsic(CUDATestCase):
         # Run the kernel
         hexp10_vectors[1, N](r, x)
-        np.testing.assert_allclose(r, 10 ** x)
+        np.testing.assert_allclose(r, 10**x)
     @skip_unless_cc_53
     def test_fp16_comparison(self):
-        fns = (simple_heq_scalar, simple_hne_scalar, simple_hge_scalar,
-               simple_hgt_scalar, simple_hle_scalar, simple_hlt_scalar)
-        ops = (operator.eq, operator.ne, operator.ge,
-               operator.gt, operator.le, operator.lt)
+        fns = (
+            simple_heq_scalar,
+            simple_hne_scalar,
+            simple_hge_scalar,
+            simple_hgt_scalar,
+            simple_hle_scalar,
+            simple_hlt_scalar,
+        )
+        ops = (
+            operator.eq,
+            operator.ne,
+            operator.ge,
+            operator.gt,
+            operator.le,
+            operator.lt,
+        )
         for fn, op in zip(fns, ops):
             with self.subTest(op=op):
@@ -872,18 +907,20 @@ class TestCudaIntrinsic(CUDATestCase):
     @skip_unless_cc_53
     def test_multiple_float16_comparisons(self):
-        functions = (test_multiple_hcmp_1,
-                     test_multiple_hcmp_2,
-                     test_multiple_hcmp_3,
-                     test_multiple_hcmp_4,
-                     test_multiple_hcmp_5)
+        functions = (
+            test_multiple_hcmp_1,
+            test_multiple_hcmp_2,
+            test_multiple_hcmp_3,
+            test_multiple_hcmp_4,
+            test_multiple_hcmp_5,
+        )
         for fn in functions:
             with self.subTest(fn=fn):
                 compiled = cuda.jit("void(b1[:], f2, f2, f2)")(fn)
                 ary = np.zeros(1, dtype=np.bool_)
-                arg1 = np.float16(2.)
-                arg2 = np.float16(3.)
-                arg3 = np.float16(4.)
+                arg1 = np.float16(2.0)
+                arg2 = np.float16(3.0)
+                arg3 = np.float16(4.0)
                 compiled[1, 1](ary, arg1, arg2, arg3)
                 self.assertTrue(ary[0])
@@ -891,11 +928,11 @@ class TestCudaIntrinsic(CUDATestCase):
     def test_hmax(self):
         compiled = cuda.jit("void(f2[:], f2, f2)")(simple_hmax_scalar)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.float16(3.)
-        arg2 = np.float16(4.)
+        arg1 = np.float16(3.0)
+        arg2 = np.float16(4.0)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg2)
-        arg1 = np.float16(5.)
+        arg1 = np.float16(5.0)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg1)
@@ -903,25 +940,25 @@ class TestCudaIntrinsic(CUDATestCase):
     def test_hmin(self):
         compiled = cuda.jit("void(f2[:], f2, f2)")(simple_hmin_scalar)
         ary = np.zeros(1, dtype=np.float16)
-        arg1 = np.float16(3.)
-        arg2 = np.float16(4.)
+        arg1 = np.float16(3.0)
+        arg2 = np.float16(4.0)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg1)
-        arg1 = np.float16(5.)
+        arg1 = np.float16(5.0)
         compiled[1, 1](ary, arg1, arg2)
         np.testing.assert_allclose(ary[0], arg2)
     def test_cbrt_f32(self):
         compiled = cuda.jit("void(float32[:], float32)")(simple_cbrt)
         ary = np.zeros(1, dtype=np.float32)
-        cbrt_arg = 2.
+        cbrt_arg = 2.0
         compiled[1, 1](ary, cbrt_arg)
         np.testing.assert_allclose(ary[0], cbrt_arg ** (1 / 3))
     def test_cbrt_f64(self):
         compiled = cuda.jit("void(float64[:], float64)")(simple_cbrt)
         ary = np.zeros(1, dtype=np.float64)
-        cbrt_arg = 6.
+        cbrt_arg = 6.0
         compiled[1, 1](ary, cbrt_arg)
         np.testing.assert_allclose(ary[0], cbrt_arg ** (1 / 3))
@@ -1052,25 +1089,36 @@ class TestCudaIntrinsic(CUDATestCase):
         np.concatenate((vals, np.array([np.inf, -np.inf, np.nan])))
         digits = (
             # Common case branch of round_to_impl
-            -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5,
+            -5,
+            -4,
+            -3,
+            -2,
+            -1,
+            0,
+            1,
+            2,
+            3,
+            4,
+            5,
             # The algorithm currently implemented can only round to 13 digits
             # with single precision. Note that this doesn't trigger the
             # "overflow safe" branch of the implementation, which can only be
             # hit when using double precision.
-            13
+            13,
         )
         for val, ndigits in itertools.product(vals, digits):
             with self.subTest(val=val, ndigits=ndigits):
                 compiled[1, 1](ary, val, ndigits)
-                self.assertPreciseEqual(ary[0], round(val, ndigits),
-                                        prec='single')
+                self.assertPreciseEqual(
+                    ary[0], round(val, ndigits), prec="single"
+                )
     # CPython on most platforms uses rounding based on dtoa.c, whereas the CUDA
     # round-to implementation uses CPython's fallback implementation, which has
     # slightly different behavior at the edges of the domain. Since the CUDA
     # simulator executes using CPython, we need to skip this test when the
     # simulator is active.
-    @skip_on_cudasim('Overflow behavior differs on CPython')
+    @skip_on_cudasim("Overflow behavior differs on CPython")
     def test_round_to_f4_overflow(self):
         # Test that the input value is returned when y in round_ndigits
         # overflows.
@@ -1092,7 +1140,7 @@ class TestCudaIntrinsic(CUDATestCase):
         val = 0.3425
         ndigits = 3
         compiled[1, 1](ary, val, ndigits)
-        self.assertPreciseEqual(ary[0], round(val, ndigits), prec='single')
+        self.assertPreciseEqual(ary[0], round(val, ndigits), prec="single")
     def test_round_to_f8(self):
         compiled = cuda.jit("void(float64[:], float64, int32)")(simple_round_to)
@@ -1105,19 +1153,19 @@ class TestCudaIntrinsic(CUDATestCase):
         for val, ndigits in itertools.product(vals, digits):
             with self.subTest(val=val, ndigits=ndigits):
                 compiled[1, 1](ary, val, ndigits)
-                self.assertPreciseEqual(ary[0], round(val, ndigits),
-                                        prec='exact')
+                self.assertPreciseEqual(
+                    ary[0], round(val, ndigits), prec="exact"
+                )
         # Trigger the "overflow safe" branch of the implementation
         val = 0.12345678987654321 * 10e-15
         ndigits = 23
         with self.subTest(val=val, ndigits=ndigits):
             compiled[1, 1](ary, val, ndigits)
-            self.assertPreciseEqual(ary[0], round(val, ndigits),
-                                    prec='double')
+            self.assertPreciseEqual(ary[0], round(val, ndigits), prec="double")
     # Skipped on cudasim for the same reasons as test_round_to_f4 above.
-    @skip_on_cudasim('Overflow behavior differs on CPython')
+    @skip_on_cudasim("Overflow behavior differs on CPython")
     def test_round_to_f8_overflow(self):
         # Test that the input value is returned when y in round_ndigits
         # overflows.
@@ -1139,8 +1187,8 @@ class TestCudaIntrinsic(CUDATestCase):
         val = 0.5425
         ndigits = 3
         compiled[1, 1](ary, val, ndigits)
-        self.assertPreciseEqual(ary[0], round(val, ndigits), prec='double')
+        self.assertPreciseEqual(ary[0], round(val, ndigits), prec="double")
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

numba-cuda 0.8.1__py3-none-any.whl → 0.9.0__py3-none-any.whl

numba-cuda 0.8.1py3-none-any.whl → 0.9.0py3-none-any.whl