PyPI - numba-cuda - Versions diffs - 0.8.0__py3-none-any.whl → 0.9.0__py3-none-any.whl - Mend

numba-cuda 0.8.0py3-none-any.whl → 0.9.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (227) hide show

_numba_cuda_redirector.py +17 -13
numba_cuda/VERSION +1 -1
numba_cuda/_version.py +4 -1
numba_cuda/numba/cuda/__init__.py +6 -2
numba_cuda/numba/cuda/api.py +129 -86
numba_cuda/numba/cuda/api_util.py +3 -3
numba_cuda/numba/cuda/args.py +12 -16
numba_cuda/numba/cuda/cg.py +6 -6
numba_cuda/numba/cuda/codegen.py +74 -43
numba_cuda/numba/cuda/compiler.py +232 -113
numba_cuda/numba/cuda/cpp_function_wrappers.cu +1 -2
numba_cuda/numba/cuda/cuda_fp16.h +661 -661
numba_cuda/numba/cuda/cuda_fp16.hpp +3 -3
numba_cuda/numba/cuda/cuda_paths.py +291 -99
numba_cuda/numba/cuda/cudadecl.py +125 -69
numba_cuda/numba/cuda/cudadrv/__init__.py +3 -1
numba_cuda/numba/cuda/cudadrv/devicearray.py +185 -135
numba_cuda/numba/cuda/cudadrv/devices.py +16 -11
numba_cuda/numba/cuda/cudadrv/driver.py +463 -297
numba_cuda/numba/cuda/cudadrv/drvapi.py +241 -207
numba_cuda/numba/cuda/cudadrv/dummyarray.py +66 -54
numba_cuda/numba/cuda/cudadrv/enums.py +1 -1
numba_cuda/numba/cuda/cudadrv/error.py +6 -2
numba_cuda/numba/cuda/cudadrv/libs.py +67 -63
numba_cuda/numba/cuda/cudadrv/linkable_code.py +16 -1
numba_cuda/numba/cuda/cudadrv/mappings.py +16 -14
numba_cuda/numba/cuda/cudadrv/nvrtc.py +138 -29
numba_cuda/numba/cuda/cudadrv/nvvm.py +296 -161
numba_cuda/numba/cuda/cudadrv/rtapi.py +1 -1
numba_cuda/numba/cuda/cudadrv/runtime.py +20 -8
numba_cuda/numba/cuda/cudaimpl.py +317 -233
numba_cuda/numba/cuda/cudamath.py +1 -1
numba_cuda/numba/cuda/debuginfo.py +8 -6
numba_cuda/numba/cuda/decorators.py +75 -45
numba_cuda/numba/cuda/descriptor.py +1 -1
numba_cuda/numba/cuda/device_init.py +69 -18
numba_cuda/numba/cuda/deviceufunc.py +143 -98
numba_cuda/numba/cuda/dispatcher.py +300 -213
numba_cuda/numba/cuda/errors.py +13 -10
numba_cuda/numba/cuda/extending.py +1 -1
numba_cuda/numba/cuda/initialize.py +5 -3
numba_cuda/numba/cuda/intrinsic_wrapper.py +3 -3
numba_cuda/numba/cuda/intrinsics.py +31 -27
numba_cuda/numba/cuda/kernels/reduction.py +13 -13
numba_cuda/numba/cuda/kernels/transpose.py +3 -6
numba_cuda/numba/cuda/libdevice.py +317 -317
numba_cuda/numba/cuda/libdeviceimpl.py +3 -2
numba_cuda/numba/cuda/locks.py +16 -0
numba_cuda/numba/cuda/mathimpl.py +62 -57
numba_cuda/numba/cuda/models.py +1 -5
numba_cuda/numba/cuda/nvvmutils.py +103 -88
numba_cuda/numba/cuda/printimpl.py +9 -5
numba_cuda/numba/cuda/random.py +46 -36
numba_cuda/numba/cuda/reshape_funcs.cu +1 -1
numba_cuda/numba/cuda/runtime/__init__.py +1 -1
numba_cuda/numba/cuda/runtime/memsys.cu +1 -1
numba_cuda/numba/cuda/runtime/memsys.cuh +1 -1
numba_cuda/numba/cuda/runtime/nrt.cu +3 -3
numba_cuda/numba/cuda/runtime/nrt.py +48 -43
numba_cuda/numba/cuda/simulator/__init__.py +22 -12
numba_cuda/numba/cuda/simulator/api.py +38 -22
numba_cuda/numba/cuda/simulator/compiler.py +2 -2
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +8 -2
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +63 -55
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +13 -11
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +5 -5
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +2 -2
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +1 -1
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +3 -3
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +3 -3
numba_cuda/numba/cuda/simulator/kernel.py +43 -34
numba_cuda/numba/cuda/simulator/kernelapi.py +31 -26
numba_cuda/numba/cuda/simulator/reduction.py +1 -0
numba_cuda/numba/cuda/simulator/vector_types.py +13 -9
numba_cuda/numba/cuda/simulator_init.py +2 -4
numba_cuda/numba/cuda/stubs.py +139 -102
numba_cuda/numba/cuda/target.py +64 -47
numba_cuda/numba/cuda/testing.py +24 -19
numba_cuda/numba/cuda/tests/__init__.py +14 -12
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +16 -17
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +7 -7
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +73 -54
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +48 -50
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +47 -29
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_libraries.py +3 -3
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +19 -19
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +108 -103
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +20 -11
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +20 -17
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +8 -6
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +8 -7
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +13 -13
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +12 -9
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +36 -31
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +8 -7
numba_cuda/numba/cuda/tests/cudadrv/test_module_callbacks.py +294 -0
numba_cuda/numba/cuda/tests/cudadrv/test_mvc.py +10 -7
numba_cuda/numba/cuda/tests/cudadrv/test_nvjitlink.py +24 -15
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +43 -41
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +4 -5
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +2 -2
numba_cuda/numba/cuda/tests/cudadrv/test_ptds.py +28 -17
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +1 -2
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +22 -14
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +1 -1
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +4 -3
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +10 -4
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +1 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +7 -6
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +0 -2
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +1 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +6 -5
numba_cuda/numba/cuda/tests/cudapy/test_array.py +52 -42
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +5 -6
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +501 -304
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +57 -21
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +3 -3
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +50 -37
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +29 -24
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +11 -6
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +84 -50
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +144 -73
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +2 -2
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +37 -27
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +43 -45
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +21 -14
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +60 -55
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +3 -2
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +26 -22
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +29 -27
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +31 -28
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +52 -45
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +55 -43
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +6 -7
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +30 -15
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +11 -12
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +19 -12
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +77 -66
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +5 -3
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +5 -3
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +3 -5
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +144 -126
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +23 -18
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +16 -22
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +1 -3
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +29 -20
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +147 -99
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +50 -36
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +1 -2
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +4 -4
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +6 -6
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +24 -20
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +36 -31
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +13 -13
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +13 -6
numba_cuda/numba/cuda/tests/cudapy/test_math.py +83 -66
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +1 -3
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +19 -58
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +4 -4
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +9 -7
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +9 -8
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +12 -10
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +180 -96
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +5 -5
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +37 -18
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_print.py +9 -7
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_random.py +15 -10
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +88 -87
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +12 -10
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +26 -11
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +7 -10
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +4 -6
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +1 -1
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +10 -9
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +62 -43
numba_cuda/numba/cuda/tests/cudapy/test_stream_api.py +7 -3
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +7 -5
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +18 -11
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +111 -88
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +2 -3
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +305 -130
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +33 -36
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +5 -5
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +16 -12
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +7 -7
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +6 -7
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +31 -29
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +31 -25
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +19 -13
numba_cuda/numba/cuda/tests/data/jitlink.cu +1 -1
numba_cuda/numba/cuda/tests/data/jitlink.ptx +0 -2
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +15 -8
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +4 -7
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +14 -9
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +22 -18
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +7 -4
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +2 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +8 -4
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +2 -1
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +94 -19
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +2 -2
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +91 -62
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +14 -5
numba_cuda/numba/cuda/tests/nocuda/test_import.py +25 -25
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +40 -40
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +12 -10
numba_cuda/numba/cuda/tests/nrt/test_nrt.py +16 -20
numba_cuda/numba/cuda/tests/nrt/test_nrt_refct.py +12 -10
numba_cuda/numba/cuda/tests/test_binary_generation/generate_raw_ltoir.py +2 -2
numba_cuda/numba/cuda/types.py +5 -2
numba_cuda/numba/cuda/ufuncs.py +382 -362
numba_cuda/numba/cuda/utils.py +2 -2
numba_cuda/numba/cuda/vector_types.py +2 -2
numba_cuda/numba/cuda/vectorizers.py +37 -32
{numba_cuda-0.8.0.dist-info → numba_cuda-0.9.0.dist-info}/METADATA +1 -1
numba_cuda-0.9.0.dist-info/RECORD +253 -0
{numba_cuda-0.8.0.dist-info → numba_cuda-0.9.0.dist-info}/WHEEL +1 -1
numba_cuda-0.8.0.dist-info/RECORD +0 -251
{numba_cuda-0.8.0.dist-info → numba_cuda-0.9.0.dist-info}/licenses/LICENSE +0 -0
{numba_cuda-0.8.0.dist-info → numba_cuda-0.9.0.dist-info}/top_level.txt +0 -0

numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py CHANGED Viewed

@@ -7,12 +7,13 @@ from numba import cuda
 from numba.cuda.testing import skip_on_cudasim, CUDATestCase
 import unittest
-has_mp_get_context = hasattr(mp, 'get_context')
-is_unix = os.name == 'posix'
+has_mp_get_context = hasattr(mp, "get_context")
+is_unix = os.name == "posix"
 def fork_test(q):
     from numba.cuda.cudadrv.error import CudaDriverError
     try:
         cuda.to_device(np.arange(1))
     except CudaDriverError as e:
@@ -21,17 +22,17 @@ def fork_test(q):
         q.put(None)
-@skip_on_cudasim('disabled for cudasim')
+@skip_on_cudasim("disabled for cudasim")
 class TestMultiprocessing(CUDATestCase):
-    @unittest.skipUnless(has_mp_get_context, 'requires mp.get_context')
-    @unittest.skipUnless(is_unix, 'requires Unix')
+    @unittest.skipUnless(has_mp_get_context, "requires mp.get_context")
+    @unittest.skipUnless(is_unix, "requires Unix")
     def test_fork(self):
         """
         Test fork detection.
         """
         cuda.current_context()  # force cuda initialize
         # fork in process that also uses CUDA
-        ctx = mp.get_context('fork')
+        ctx = mp.get_context("fork")
         q = ctx.Queue()
         proc = ctx.Process(target=fork_test, args=[q])
         proc.start()
@@ -39,8 +40,8 @@ class TestMultiprocessing(CUDATestCase):
         proc.join()
         # there should be an exception raised in the child process
         self.assertIsNotNone(exc)
-        self.assertIn('CUDA initialized before forking', str(exc))
+        self.assertIn("CUDA initialized before forking", str(exc))
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py CHANGED Viewed

@@ -3,8 +3,11 @@ import threading
 import multiprocessing
 import numpy as np
 from numba import cuda
-from numba.cuda.testing import (skip_on_cudasim, skip_under_cuda_memcheck,
-                                CUDATestCase)
+from numba.cuda.testing import (
+    skip_on_cudasim,
+    skip_under_cuda_memcheck,
+    CUDATestCase,
+)
 import unittest
 try:
@@ -15,7 +18,7 @@ else:
     has_concurrent_futures = True
-has_mp_get_context = hasattr(multiprocessing, 'get_context')
+has_mp_get_context = hasattr(multiprocessing, "get_context")
 def check_concurrent_compiling():
@@ -41,15 +44,14 @@ def spawn_process_entry(q):
     # Catch anything that goes wrong in the threads
     except:  # noqa: E722
         msg = traceback.format_exc()
-        q.put('\n'.join(['', '=' * 80, msg]))
+        q.put("\n".join(["", "=" * 80, msg]))
     else:
         q.put(None)
-@skip_under_cuda_memcheck('Hangs cuda-memcheck')
-@skip_on_cudasim('disabled for cudasim')
+@skip_under_cuda_memcheck("Hangs cuda-memcheck")
+@skip_on_cudasim("disabled for cudasim")
 class TestMultiThreadCompiling(CUDATestCase):
     @unittest.skipIf(not has_concurrent_futures, "no concurrent.futures")
     def test_concurrent_compiling(self):
         check_concurrent_compiling()
@@ -59,7 +61,7 @@ class TestMultiThreadCompiling(CUDATestCase):
         # force CUDA context init
         cuda.get_current_device()
         # use "spawn" to avoid inheriting the CUDA context
-        ctx = multiprocessing.get_context('spawn')
+        ctx = multiprocessing.get_context("spawn")
         q = ctx.Queue()
         p = ctx.Process(target=spawn_process_entry, args=(q,))
@@ -70,7 +72,7 @@ class TestMultiThreadCompiling(CUDATestCase):
             p.join()
         if err is not None:
             raise AssertionError(err)
-        self.assertEqual(p.exitcode, 0, 'test failed in child process')
+        self.assertEqual(p.exitcode, 0, "test failed in child process")
     def test_invalid_context_error_with_d2h(self):
         def d2h(arr, out):
@@ -97,5 +99,5 @@ class TestMultiThreadCompiling(CUDATestCase):
         np.testing.assert_equal(darr.copy_to_host(), arr)
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

numba_cuda/numba/cuda/tests/cudapy/test_nondet.py CHANGED Viewed

@@ -45,5 +45,5 @@ class TestCudaNonDet(CUDATestCase):
         np.testing.assert_array_almost_equal(dF.copy_to_host(), E)
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

numba_cuda/numba/cuda/tests/cudapy/test_operator.py CHANGED Viewed

@@ -1,6 +1,10 @@
 import numpy as np
-from numba.cuda.testing import (unittest, CUDATestCase, skip_unless_cc_53,
-                                skip_on_cudasim)
+from numba.cuda.testing import (
+    unittest,
+    CUDATestCase,
+    skip_unless_cc_53,
+    skip_on_cudasim,
+)
 from numba import cuda
 from numba.core.types import f2, b1
 from numba.cuda import compile_ptx
@@ -73,12 +77,12 @@ def simple_fp16_ne(ary, a, b):
     ary[0] = a != b
-@cuda.jit('b1(f2, f2)', device=True)
+@cuda.jit("b1(f2, f2)", device=True)
 def hlt_func_1(x, y):
     return x < y
-@cuda.jit('b1(f2, f2)', device=True)
+@cuda.jit("b1(f2, f2)", device=True)
 def hlt_func_2(x, y):
     return x < y
@@ -116,6 +120,7 @@ class TestOperatorModule(CUDATestCase):
     """
     Test if operator module is supported by the CUDA target.
     """
     def operator_template(self, op):
         @cuda.jit
         def foo(a, b):
@@ -146,8 +151,12 @@ class TestOperatorModule(CUDATestCase):
     @skip_unless_cc_53
     def test_fp16_binary(self):
-        functions = (simple_fp16add, simple_fp16sub, simple_fp16mul,
-                     simple_fp16_div_scalar)
+        functions = (
+            simple_fp16add,
+            simple_fp16sub,
+            simple_fp16mul,
+            simple_fp16_div_scalar,
+        )
         ops = (operator.add, operator.sub, operator.mul, operator.truediv)
         for fn, op in zip(functions, ops):
@@ -162,10 +171,10 @@ class TestOperatorModule(CUDATestCase):
                 expected = op(arg1, arg2)
                 np.testing.assert_allclose(got, expected)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_fp16_binary_ptx(self):
         functions = (simple_fp16add, simple_fp16sub, simple_fp16mul)
-        instrs = ('add.f16', 'sub.f16', 'mul.f16')
+        instrs = ("add.f16", "sub.f16", "mul.f16")
         args = (f2[:], f2, f2)
         for fn, instr in zip(functions, instrs):
             with self.subTest(instr=instr):
@@ -174,11 +183,14 @@ class TestOperatorModule(CUDATestCase):
     @skip_unless_cc_53
     def test_mixed_fp16_binary_arithmetic(self):
-        functions = (simple_fp16add, simple_fp16sub, simple_fp16mul,
-                     simple_fp16_div_scalar)
+        functions = (
+            simple_fp16add,
+            simple_fp16sub,
+            simple_fp16mul,
+            simple_fp16_div_scalar,
+        )
         ops = (operator.add, operator.sub, operator.mul, operator.truediv)
-        types = (np.int8, np.int16, np.int32, np.int64,
-                 np.float32, np.float64)
+        types = (np.int8, np.int16, np.int32, np.int64, np.float32, np.float64)
         for (fn, op), ty in itertools.product(zip(functions, ops), types):
             with self.subTest(op=op, ty=ty):
                 kernel = cuda.jit(fn)
@@ -192,10 +204,10 @@ class TestOperatorModule(CUDATestCase):
                 expected = op(arg1, arg2)
                 np.testing.assert_allclose(got, expected)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_fp16_inplace_binary_ptx(self):
         functions = (simple_fp16_iadd, simple_fp16_isub, simple_fp16_imul)
-        instrs = ('add.f16', 'sub.f16', 'mul.f16')
+        instrs = ("add.f16", "sub.f16", "mul.f16")
         args = (f2[:], f2)
         for fn, instr in zip(functions, instrs):
@@ -205,8 +217,12 @@ class TestOperatorModule(CUDATestCase):
     @skip_unless_cc_53
     def test_fp16_inplace_binary(self):
-        functions = (simple_fp16_iadd, simple_fp16_isub, simple_fp16_imul,
-                     simple_fp16_idiv)
+        functions = (
+            simple_fp16_iadd,
+            simple_fp16_isub,
+            simple_fp16_imul,
+            simple_fp16_idiv,
+        )
         ops = (operator.iadd, operator.isub, operator.imul, operator.itruediv)
         for fn, op in zip(functions, ops):
@@ -236,26 +252,37 @@ class TestOperatorModule(CUDATestCase):
                 expected = op(arg1)
                 np.testing.assert_allclose(got, expected)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_fp16_neg_ptx(self):
         args = (f2[:], f2)
         ptx, _ = compile_ptx(simple_fp16neg, args, cc=(5, 3))
-        self.assertIn('neg.f16', ptx)
+        self.assertIn("neg.f16", ptx)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_fp16_abs_ptx(self):
         args = (f2[:], f2)
         ptx, _ = compile_ptx(simple_fp16abs, args, cc=(5, 3))
-        self.assertIn('abs.f16', ptx)
+        self.assertIn("abs.f16", ptx)
     @skip_unless_cc_53
     def test_fp16_comparison(self):
-        functions = (simple_fp16_gt, simple_fp16_ge,
-                     simple_fp16_lt, simple_fp16_le,
-                     simple_fp16_eq, simple_fp16_ne)
-        ops = (operator.gt, operator.ge, operator.lt, operator.le,
-               operator.eq, operator.ne)
+        functions = (
+            simple_fp16_gt,
+            simple_fp16_ge,
+            simple_fp16_lt,
+            simple_fp16_le,
+            simple_fp16_eq,
+            simple_fp16_ne,
+        )
+        ops = (
+            operator.gt,
+            operator.ge,
+            operator.lt,
+            operator.le,
+            operator.eq,
+            operator.ne,
+        )
         for fn, op in zip(functions, ops):
             with self.subTest(op=op):
@@ -271,16 +298,25 @@ class TestOperatorModule(CUDATestCase):
     @skip_unless_cc_53
     def test_mixed_fp16_comparison(self):
-        functions = (simple_fp16_gt, simple_fp16_ge,
-                     simple_fp16_lt, simple_fp16_le,
-                     simple_fp16_eq, simple_fp16_ne)
-        ops = (operator.gt, operator.ge, operator.lt, operator.le,
-               operator.eq, operator.ne)
-        types = (np.int8, np.int16, np.int32, np.int64,
-                 np.float32, np.float64)
-        for (fn, op), ty in itertools.product(zip(functions, ops),
-                                              types):
+        functions = (
+            simple_fp16_gt,
+            simple_fp16_ge,
+            simple_fp16_lt,
+            simple_fp16_le,
+            simple_fp16_eq,
+            simple_fp16_ne,
+        )
+        ops = (
+            operator.gt,
+            operator.ge,
+            operator.lt,
+            operator.le,
+            operator.eq,
+            operator.ne,
+        )
+        types = (np.int8, np.int16, np.int32, np.int64, np.float32, np.float64)
+        for (fn, op), ty in itertools.product(zip(functions, ops), types):
             with self.subTest(op=op, ty=ty):
                 kernel = cuda.jit(fn)
@@ -294,48 +330,68 @@ class TestOperatorModule(CUDATestCase):
     @skip_unless_cc_53
     def test_multiple_float16_comparisons(self):
-        functions = (test_multiple_hcmp_1,
-                     test_multiple_hcmp_2,
-                     test_multiple_hcmp_3,
-                     test_multiple_hcmp_4,
-                     test_multiple_hcmp_5)
+        functions = (
+            test_multiple_hcmp_1,
+            test_multiple_hcmp_2,
+            test_multiple_hcmp_3,
+            test_multiple_hcmp_4,
+            test_multiple_hcmp_5,
+        )
         for fn in functions:
             with self.subTest(fn=fn):
                 compiled = cuda.jit("void(b1[:], f2, f2, f2)")(fn)
                 ary = np.zeros(1, dtype=np.bool_)
-                arg1 = np.float16(2.)
-                arg2 = np.float16(3.)
-                arg3 = np.float16(4.)
+                arg1 = np.float16(2.0)
+                arg2 = np.float16(3.0)
+                arg3 = np.float16(4.0)
                 compiled[1, 1](ary, arg1, arg2, arg3)
                 self.assertTrue(ary[0])
     @skip_unless_cc_53
     def test_multiple_float16_comparisons_false(self):
-        functions = (test_multiple_hcmp_1,
-                     test_multiple_hcmp_2,
-                     test_multiple_hcmp_3,
-                     test_multiple_hcmp_4,
-                     test_multiple_hcmp_5)
+        functions = (
+            test_multiple_hcmp_1,
+            test_multiple_hcmp_2,
+            test_multiple_hcmp_3,
+            test_multiple_hcmp_4,
+            test_multiple_hcmp_5,
+        )
         for fn in functions:
             with self.subTest(fn=fn):
                 compiled = cuda.jit("void(b1[:], f2, f2, f2)")(fn)
                 ary = np.zeros(1, dtype=np.bool_)
-                arg1 = np.float16(2.)
-                arg2 = np.float16(3.)
-                arg3 = np.float16(1.)
+                arg1 = np.float16(2.0)
+                arg2 = np.float16(3.0)
+                arg3 = np.float16(1.0)
                 compiled[1, 1](ary, arg1, arg2, arg3)
                 self.assertFalse(ary[0])
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_fp16_comparison_ptx(self):
-        functions = (simple_fp16_gt, simple_fp16_ge,
-                     simple_fp16_lt, simple_fp16_le,
-                     simple_fp16_eq, simple_fp16_ne)
-        ops = (operator.gt, operator.ge, operator.lt, operator.le,
-               operator.eq, operator.ne)
-        opstring = ('setp.gt.f16', 'setp.ge.f16',
-                    'setp.lt.f16', 'setp.le.f16',
-                    'setp.eq.f16', 'setp.ne.f16')
+        functions = (
+            simple_fp16_gt,
+            simple_fp16_ge,
+            simple_fp16_lt,
+            simple_fp16_le,
+            simple_fp16_eq,
+            simple_fp16_ne,
+        )
+        ops = (
+            operator.gt,
+            operator.ge,
+            operator.lt,
+            operator.le,
+            operator.eq,
+            operator.ne,
+        )
+        opstring = (
+            "setp.gt.f16",
+            "setp.ge.f16",
+            "setp.lt.f16",
+            "setp.le.f16",
+            "setp.eq.f16",
+            "setp.ne.f16",
+        )
         args = (b1[:], f2, f2)
         for fn, op, s in zip(functions, ops, opstring):
@@ -343,51 +399,79 @@ class TestOperatorModule(CUDATestCase):
                 ptx, _ = compile_ptx(fn, args, cc=(5, 3))
                 self.assertIn(s, ptx)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_fp16_int8_comparison_ptx(self):
         # Test that int8 can be safely converted to fp16
         # in a comparison
-        functions = (simple_fp16_gt, simple_fp16_ge,
-                     simple_fp16_lt, simple_fp16_le,
-                     simple_fp16_eq, simple_fp16_ne)
-        ops = (operator.gt, operator.ge, operator.lt, operator.le,
-               operator.eq, operator.ne)
-        opstring = {operator.gt:'setp.gt.f16',
-                    operator.ge:'setp.ge.f16',
-                    operator.lt:'setp.lt.f16',
-                    operator.le:'setp.le.f16',
-                    operator.eq:'setp.eq.f16',
-                    operator.ne:'setp.ne.f16'}
+        functions = (
+            simple_fp16_gt,
+            simple_fp16_ge,
+            simple_fp16_lt,
+            simple_fp16_le,
+            simple_fp16_eq,
+            simple_fp16_ne,
+        )
+        ops = (
+            operator.gt,
+            operator.ge,
+            operator.lt,
+            operator.le,
+            operator.eq,
+            operator.ne,
+        )
+        opstring = {
+            operator.gt: "setp.gt.f16",
+            operator.ge: "setp.ge.f16",
+            operator.lt: "setp.lt.f16",
+            operator.le: "setp.le.f16",
+            operator.eq: "setp.eq.f16",
+            operator.ne: "setp.ne.f16",
+        }
         for fn, op in zip(functions, ops):
             with self.subTest(op=op):
                 args = (b1[:], f2, from_dtype(np.int8))
                 ptx, _ = compile_ptx(fn, args, cc=(5, 3))
                 self.assertIn(opstring[op], ptx)
-    @skip_on_cudasim('Compilation unsupported in the simulator')
+    @skip_on_cudasim("Compilation unsupported in the simulator")
     def test_mixed_fp16_comparison_promotion_ptx(self):
-        functions = (simple_fp16_gt, simple_fp16_ge,
-                     simple_fp16_lt, simple_fp16_le,
-                     simple_fp16_eq, simple_fp16_ne)
-        ops = (operator.gt, operator.ge, operator.lt, operator.le,
-               operator.eq, operator.ne)
-        types_promote = (np.int16, np.int32, np.int64,
-                         np.float32, np.float64)
-        opstring = {operator.gt:'setp.gt.',
-                    operator.ge:'setp.ge.',
-                    operator.lt:'setp.lt.',
-                    operator.le:'setp.le.',
-                    operator.eq:'setp.eq.',
-                    operator.ne:'setp.neu.'}
-        opsuffix = {np.dtype('int32'): 'f64',
-                    np.dtype('int64'): 'f64',
-                    np.dtype('float32'): 'f32',
-                    np.dtype('float64'): 'f64'}
-        for (fn, op), ty in itertools.product(zip(functions, ops),
-                                              types_promote):
+        functions = (
+            simple_fp16_gt,
+            simple_fp16_ge,
+            simple_fp16_lt,
+            simple_fp16_le,
+            simple_fp16_eq,
+            simple_fp16_ne,
+        )
+        ops = (
+            operator.gt,
+            operator.ge,
+            operator.lt,
+            operator.le,
+            operator.eq,
+            operator.ne,
+        )
+        types_promote = (np.int16, np.int32, np.int64, np.float32, np.float64)
+        opstring = {
+            operator.gt: "setp.gt.",
+            operator.ge: "setp.ge.",
+            operator.lt: "setp.lt.",
+            operator.le: "setp.le.",
+            operator.eq: "setp.eq.",
+            operator.ne: "setp.neu.",
+        }
+        opsuffix = {
+            np.dtype("int32"): "f64",
+            np.dtype("int64"): "f64",
+            np.dtype("float32"): "f32",
+            np.dtype("float64"): "f64",
+        }
+        for (fn, op), ty in itertools.product(
+            zip(functions, ops), types_promote
+        ):
             with self.subTest(op=op, ty=ty):
                 arg2_ty = np.result_type(np.float16, ty)
                 args = (b1[:], f2, from_dtype(arg2_ty))
@@ -397,5 +481,5 @@ class TestOperatorModule(CUDATestCase):
                 self.assertIn(ops, ptx)
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

numba_cuda/numba/cuda/tests/cudapy/test_optimization.py CHANGED Viewed

@@ -18,10 +18,10 @@ def device_func(x, y, z):
 # the test function were more complex it may be possible to isolate additional
 # fragments of PTX we could check for the absence / presence of, but removal of
 # the use of local memory is a good indicator that optimization was applied.
-removed_by_opt = ( '__local_depot0',)
+removed_by_opt = ("__local_depot0",)
-@skip_on_cudasim('Simulator does not optimize code')
+@skip_on_cudasim("Simulator does not optimize code")
 class TestOptimization(CUDATestCase):
     def test_eager_opt(self):
         # Optimization should occur by default
@@ -74,7 +74,7 @@ class TestOptimization(CUDATestCase):
         sig = (float64, float64, float64)
         device = cuda.jit(sig, device=True)(device_func)
         ptx = device.inspect_asm(sig)
-        self.assertIn('fma.rn.f64', ptx)
+        self.assertIn("fma.rn.f64", ptx)
     def test_device_noopt(self):
         # Optimization disabled
@@ -82,8 +82,8 @@ class TestOptimization(CUDATestCase):
         device = cuda.jit(sig, device=True, opt=False)(device_func)
         ptx = device.inspect_asm(sig)
         # Fused-multiply adds should be disabled when not optimizing
-        self.assertNotIn('fma.rn.f64', ptx)
+        self.assertNotIn("fma.rn.f64", ptx)
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

numba-cuda 0.8.0__py3-none-any.whl → 0.9.0__py3-none-any.whl

numba-cuda 0.8.0py3-none-any.whl → 0.9.0py3-none-any.whl