PyPI - numba-cuda - Versions diffs - 0.0.1__py3-none-any.whl → 0.0.12__py3-none-any.whl - Mend

numba-cuda 0.0.1py3-none-any.whl → 0.0.12py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (233) hide show

_numba_cuda_redirector.pth +1 -0
_numba_cuda_redirector.py +74 -0
numba_cuda/VERSION +1 -0
numba_cuda/__init__.py +5 -0
numba_cuda/_version.py +19 -0
numba_cuda/numba/cuda/__init__.py +22 -0
numba_cuda/numba/cuda/api.py +526 -0
numba_cuda/numba/cuda/api_util.py +30 -0
numba_cuda/numba/cuda/args.py +77 -0
numba_cuda/numba/cuda/cg.py +62 -0
numba_cuda/numba/cuda/codegen.py +378 -0
numba_cuda/numba/cuda/compiler.py +422 -0
numba_cuda/numba/cuda/cpp_function_wrappers.cu +47 -0
numba_cuda/numba/cuda/cuda_fp16.h +3631 -0
numba_cuda/numba/cuda/cuda_fp16.hpp +2465 -0
numba_cuda/numba/cuda/cuda_paths.py +258 -0
numba_cuda/numba/cuda/cudadecl.py +806 -0
numba_cuda/numba/cuda/cudadrv/__init__.py +9 -0
numba_cuda/numba/cuda/cudadrv/devicearray.py +904 -0
numba_cuda/numba/cuda/cudadrv/devices.py +248 -0
numba_cuda/numba/cuda/cudadrv/driver.py +3201 -0
numba_cuda/numba/cuda/cudadrv/drvapi.py +398 -0
numba_cuda/numba/cuda/cudadrv/dummyarray.py +452 -0
numba_cuda/numba/cuda/cudadrv/enums.py +607 -0
numba_cuda/numba/cuda/cudadrv/error.py +36 -0
numba_cuda/numba/cuda/cudadrv/libs.py +176 -0
numba_cuda/numba/cuda/cudadrv/ndarray.py +20 -0
numba_cuda/numba/cuda/cudadrv/nvrtc.py +260 -0
numba_cuda/numba/cuda/cudadrv/nvvm.py +707 -0
numba_cuda/numba/cuda/cudadrv/rtapi.py +10 -0
numba_cuda/numba/cuda/cudadrv/runtime.py +142 -0
numba_cuda/numba/cuda/cudaimpl.py +1055 -0
numba_cuda/numba/cuda/cudamath.py +140 -0
numba_cuda/numba/cuda/decorators.py +189 -0
numba_cuda/numba/cuda/descriptor.py +33 -0
numba_cuda/numba/cuda/device_init.py +89 -0
numba_cuda/numba/cuda/deviceufunc.py +908 -0
numba_cuda/numba/cuda/dispatcher.py +1057 -0
numba_cuda/numba/cuda/errors.py +59 -0
numba_cuda/numba/cuda/extending.py +7 -0
numba_cuda/numba/cuda/initialize.py +13 -0
numba_cuda/numba/cuda/intrinsic_wrapper.py +77 -0
numba_cuda/numba/cuda/intrinsics.py +198 -0
numba_cuda/numba/cuda/kernels/__init__.py +0 -0
numba_cuda/numba/cuda/kernels/reduction.py +262 -0
numba_cuda/numba/cuda/kernels/transpose.py +65 -0
numba_cuda/numba/cuda/libdevice.py +3382 -0
numba_cuda/numba/cuda/libdevicedecl.py +17 -0
numba_cuda/numba/cuda/libdevicefuncs.py +1057 -0
numba_cuda/numba/cuda/libdeviceimpl.py +83 -0
numba_cuda/numba/cuda/mathimpl.py +448 -0
numba_cuda/numba/cuda/models.py +48 -0
numba_cuda/numba/cuda/nvvmutils.py +235 -0
numba_cuda/numba/cuda/printimpl.py +86 -0
numba_cuda/numba/cuda/random.py +292 -0
numba_cuda/numba/cuda/simulator/__init__.py +38 -0
numba_cuda/numba/cuda/simulator/api.py +110 -0
numba_cuda/numba/cuda/simulator/compiler.py +9 -0
numba_cuda/numba/cuda/simulator/cudadrv/__init__.py +2 -0
numba_cuda/numba/cuda/simulator/cudadrv/devicearray.py +432 -0
numba_cuda/numba/cuda/simulator/cudadrv/devices.py +117 -0
numba_cuda/numba/cuda/simulator/cudadrv/driver.py +62 -0
numba_cuda/numba/cuda/simulator/cudadrv/drvapi.py +4 -0
numba_cuda/numba/cuda/simulator/cudadrv/dummyarray.py +4 -0
numba_cuda/numba/cuda/simulator/cudadrv/error.py +6 -0
numba_cuda/numba/cuda/simulator/cudadrv/libs.py +2 -0
numba_cuda/numba/cuda/simulator/cudadrv/nvvm.py +29 -0
numba_cuda/numba/cuda/simulator/cudadrv/runtime.py +19 -0
numba_cuda/numba/cuda/simulator/kernel.py +308 -0
numba_cuda/numba/cuda/simulator/kernelapi.py +495 -0
numba_cuda/numba/cuda/simulator/reduction.py +15 -0
numba_cuda/numba/cuda/simulator/vector_types.py +58 -0
numba_cuda/numba/cuda/simulator_init.py +17 -0
numba_cuda/numba/cuda/stubs.py +902 -0
numba_cuda/numba/cuda/target.py +440 -0
numba_cuda/numba/cuda/testing.py +202 -0
numba_cuda/numba/cuda/tests/__init__.py +58 -0
numba_cuda/numba/cuda/tests/cudadrv/__init__.py +8 -0
numba_cuda/numba/cuda/tests/cudadrv/test_array_attr.py +145 -0
numba_cuda/numba/cuda/tests/cudadrv/test_context_stack.py +145 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_array_slicing.py +375 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_auto_context.py +21 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_devicerecord.py +179 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_driver.py +235 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_libraries.py +22 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_memory.py +193 -0
numba_cuda/numba/cuda/tests/cudadrv/test_cuda_ndarray.py +547 -0
numba_cuda/numba/cuda/tests/cudadrv/test_deallocations.py +249 -0
numba_cuda/numba/cuda/tests/cudadrv/test_detect.py +81 -0
numba_cuda/numba/cuda/tests/cudadrv/test_emm_plugins.py +192 -0
numba_cuda/numba/cuda/tests/cudadrv/test_events.py +38 -0
numba_cuda/numba/cuda/tests/cudadrv/test_host_alloc.py +65 -0
numba_cuda/numba/cuda/tests/cudadrv/test_init.py +139 -0
numba_cuda/numba/cuda/tests/cudadrv/test_inline_ptx.py +37 -0
numba_cuda/numba/cuda/tests/cudadrv/test_is_fp16.py +12 -0
numba_cuda/numba/cuda/tests/cudadrv/test_linker.py +317 -0
numba_cuda/numba/cuda/tests/cudadrv/test_managed_alloc.py +127 -0
numba_cuda/numba/cuda/tests/cudadrv/test_mvc.py +54 -0
numba_cuda/numba/cuda/tests/cudadrv/test_nvvm_driver.py +199 -0
numba_cuda/numba/cuda/tests/cudadrv/test_pinned.py +37 -0
numba_cuda/numba/cuda/tests/cudadrv/test_profiler.py +20 -0
numba_cuda/numba/cuda/tests/cudadrv/test_ptds.py +149 -0
numba_cuda/numba/cuda/tests/cudadrv/test_reset_device.py +36 -0
numba_cuda/numba/cuda/tests/cudadrv/test_runtime.py +85 -0
numba_cuda/numba/cuda/tests/cudadrv/test_select_device.py +41 -0
numba_cuda/numba/cuda/tests/cudadrv/test_streams.py +122 -0
numba_cuda/numba/cuda/tests/cudapy/__init__.py +8 -0
numba_cuda/numba/cuda/tests/cudapy/cache_usecases.py +234 -0
numba_cuda/numba/cuda/tests/cudapy/cache_with_cpu_usecases.py +41 -0
numba_cuda/numba/cuda/tests/cudapy/extensions_usecases.py +58 -0
numba_cuda/numba/cuda/tests/cudapy/jitlink.ptx +30 -0
numba_cuda/numba/cuda/tests/cudapy/recursion_usecases.py +100 -0
numba_cuda/numba/cuda/tests/cudapy/test_alignment.py +42 -0
numba_cuda/numba/cuda/tests/cudapy/test_array.py +260 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_args.py +201 -0
numba_cuda/numba/cuda/tests/cudapy/test_array_methods.py +35 -0
numba_cuda/numba/cuda/tests/cudapy/test_atomics.py +1620 -0
numba_cuda/numba/cuda/tests/cudapy/test_blackscholes.py +120 -0
numba_cuda/numba/cuda/tests/cudapy/test_boolean.py +24 -0
numba_cuda/numba/cuda/tests/cudapy/test_caching.py +545 -0
numba_cuda/numba/cuda/tests/cudapy/test_casting.py +257 -0
numba_cuda/numba/cuda/tests/cudapy/test_cffi.py +33 -0
numba_cuda/numba/cuda/tests/cudapy/test_compiler.py +276 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex.py +296 -0
numba_cuda/numba/cuda/tests/cudapy/test_complex_kernel.py +20 -0
numba_cuda/numba/cuda/tests/cudapy/test_const_string.py +129 -0
numba_cuda/numba/cuda/tests/cudapy/test_constmem.py +176 -0
numba_cuda/numba/cuda/tests/cudapy/test_cooperative_groups.py +147 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_array_interface.py +435 -0
numba_cuda/numba/cuda/tests/cudapy/test_cuda_jit_no_types.py +90 -0
numba_cuda/numba/cuda/tests/cudapy/test_datetime.py +94 -0
numba_cuda/numba/cuda/tests/cudapy/test_debug.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_debuginfo.py +221 -0
numba_cuda/numba/cuda/tests/cudapy/test_device_func.py +222 -0
numba_cuda/numba/cuda/tests/cudapy/test_dispatcher.py +700 -0
numba_cuda/numba/cuda/tests/cudapy/test_enums.py +121 -0
numba_cuda/numba/cuda/tests/cudapy/test_errors.py +79 -0
numba_cuda/numba/cuda/tests/cudapy/test_exception.py +174 -0
numba_cuda/numba/cuda/tests/cudapy/test_extending.py +155 -0
numba_cuda/numba/cuda/tests/cudapy/test_fastmath.py +244 -0
numba_cuda/numba/cuda/tests/cudapy/test_forall.py +52 -0
numba_cuda/numba/cuda/tests/cudapy/test_freevar.py +29 -0
numba_cuda/numba/cuda/tests/cudapy/test_frexp_ldexp.py +66 -0
numba_cuda/numba/cuda/tests/cudapy/test_globals.py +60 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py +456 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py +159 -0
numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py +95 -0
numba_cuda/numba/cuda/tests/cudapy/test_idiv.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_inspect.py +165 -0
numba_cuda/numba/cuda/tests/cudapy/test_intrinsics.py +1106 -0
numba_cuda/numba/cuda/tests/cudapy/test_ipc.py +318 -0
numba_cuda/numba/cuda/tests/cudapy/test_iterators.py +99 -0
numba_cuda/numba/cuda/tests/cudapy/test_lang.py +64 -0
numba_cuda/numba/cuda/tests/cudapy/test_laplace.py +119 -0
numba_cuda/numba/cuda/tests/cudapy/test_libdevice.py +187 -0
numba_cuda/numba/cuda/tests/cudapy/test_lineinfo.py +199 -0
numba_cuda/numba/cuda/tests/cudapy/test_localmem.py +164 -0
numba_cuda/numba/cuda/tests/cudapy/test_mandel.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_math.py +786 -0
numba_cuda/numba/cuda/tests/cudapy/test_matmul.py +74 -0
numba_cuda/numba/cuda/tests/cudapy/test_minmax.py +113 -0
numba_cuda/numba/cuda/tests/cudapy/test_montecarlo.py +22 -0
numba_cuda/numba/cuda/tests/cudapy/test_multigpu.py +140 -0
numba_cuda/numba/cuda/tests/cudapy/test_multiprocessing.py +46 -0
numba_cuda/numba/cuda/tests/cudapy/test_multithreads.py +101 -0
numba_cuda/numba/cuda/tests/cudapy/test_nondet.py +49 -0
numba_cuda/numba/cuda/tests/cudapy/test_operator.py +401 -0
numba_cuda/numba/cuda/tests/cudapy/test_optimization.py +86 -0
numba_cuda/numba/cuda/tests/cudapy/test_overload.py +335 -0
numba_cuda/numba/cuda/tests/cudapy/test_powi.py +124 -0
numba_cuda/numba/cuda/tests/cudapy/test_print.py +128 -0
numba_cuda/numba/cuda/tests/cudapy/test_py2_div_issue.py +33 -0
numba_cuda/numba/cuda/tests/cudapy/test_random.py +104 -0
numba_cuda/numba/cuda/tests/cudapy/test_record_dtype.py +610 -0
numba_cuda/numba/cuda/tests/cudapy/test_recursion.py +125 -0
numba_cuda/numba/cuda/tests/cudapy/test_reduction.py +76 -0
numba_cuda/numba/cuda/tests/cudapy/test_retrieve_autoconverted_arrays.py +83 -0
numba_cuda/numba/cuda/tests/cudapy/test_serialize.py +85 -0
numba_cuda/numba/cuda/tests/cudapy/test_slicing.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm.py +444 -0
numba_cuda/numba/cuda/tests/cudapy/test_sm_creation.py +205 -0
numba_cuda/numba/cuda/tests/cudapy/test_sync.py +271 -0
numba_cuda/numba/cuda/tests/cudapy/test_transpose.py +80 -0
numba_cuda/numba/cuda/tests/cudapy/test_ufuncs.py +277 -0
numba_cuda/numba/cuda/tests/cudapy/test_userexc.py +47 -0
numba_cuda/numba/cuda/tests/cudapy/test_vector_type.py +307 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize.py +283 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_complex.py +20 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_decor.py +69 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_device.py +36 -0
numba_cuda/numba/cuda/tests/cudapy/test_vectorize_scalar_arg.py +37 -0
numba_cuda/numba/cuda/tests/cudapy/test_warning.py +139 -0
numba_cuda/numba/cuda/tests/cudapy/test_warp_ops.py +276 -0
numba_cuda/numba/cuda/tests/cudasim/__init__.py +6 -0
numba_cuda/numba/cuda/tests/cudasim/support.py +6 -0
numba_cuda/numba/cuda/tests/cudasim/test_cudasim_issues.py +102 -0
numba_cuda/numba/cuda/tests/data/__init__.py +0 -0
numba_cuda/numba/cuda/tests/data/cuda_include.cu +5 -0
numba_cuda/numba/cuda/tests/data/error.cu +7 -0
numba_cuda/numba/cuda/tests/data/jitlink.cu +23 -0
numba_cuda/numba/cuda/tests/data/jitlink.ptx +51 -0
numba_cuda/numba/cuda/tests/data/warn.cu +7 -0
numba_cuda/numba/cuda/tests/doc_examples/__init__.py +6 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/__init__.py +0 -0
numba_cuda/numba/cuda/tests/doc_examples/ffi/functions.cu +49 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cg.py +77 -0
numba_cuda/numba/cuda/tests/doc_examples/test_cpu_gpu_compat.py +76 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ffi.py +82 -0
numba_cuda/numba/cuda/tests/doc_examples/test_laplace.py +155 -0
numba_cuda/numba/cuda/tests/doc_examples/test_matmul.py +173 -0
numba_cuda/numba/cuda/tests/doc_examples/test_montecarlo.py +109 -0
numba_cuda/numba/cuda/tests/doc_examples/test_random.py +59 -0
numba_cuda/numba/cuda/tests/doc_examples/test_reduction.py +76 -0
numba_cuda/numba/cuda/tests/doc_examples/test_sessionize.py +130 -0
numba_cuda/numba/cuda/tests/doc_examples/test_ufunc.py +50 -0
numba_cuda/numba/cuda/tests/doc_examples/test_vecadd.py +73 -0
numba_cuda/numba/cuda/tests/nocuda/__init__.py +8 -0
numba_cuda/numba/cuda/tests/nocuda/test_dummyarray.py +359 -0
numba_cuda/numba/cuda/tests/nocuda/test_function_resolution.py +36 -0
numba_cuda/numba/cuda/tests/nocuda/test_import.py +49 -0
numba_cuda/numba/cuda/tests/nocuda/test_library_lookup.py +238 -0
numba_cuda/numba/cuda/tests/nocuda/test_nvvm.py +54 -0
numba_cuda/numba/cuda/types.py +37 -0
numba_cuda/numba/cuda/ufuncs.py +662 -0
numba_cuda/numba/cuda/vector_types.py +209 -0
numba_cuda/numba/cuda/vectorizers.py +252 -0
numba_cuda-0.0.12.dist-info/LICENSE +25 -0
numba_cuda-0.0.12.dist-info/METADATA +68 -0
numba_cuda-0.0.12.dist-info/RECORD +231 -0
{numba_cuda-0.0.1.dist-info → numba_cuda-0.0.12.dist-info}/WHEEL +1 -1
numba_cuda-0.0.1.dist-info/METADATA +0 -10
numba_cuda-0.0.1.dist-info/RECORD +0 -5
{numba_cuda-0.0.1.dist-info → numba_cuda-0.0.12.dist-info}/top_level.txt +0 -0

numba_cuda/numba/cuda/tests/cudapy/test_gufunc.py ADDED Viewed

@@ -0,0 +1,456 @@
+import numpy as np
+from collections import namedtuple
+from numba import void, int32, float32, float64
+from numba import guvectorize
+from numba import cuda
+from numba.cuda.testing import skip_on_cudasim, CUDATestCase
+import unittest
+import warnings
+from numba.core.errors import NumbaPerformanceWarning, TypingError
+from numba.tests.support import override_config
+def _get_matmulcore_gufunc(dtype=float32):
+    @guvectorize([void(dtype[:, :], dtype[:, :], dtype[:, :])],
+                 '(m,n),(n,p)->(m,p)',
+                 target='cuda')
+    def matmulcore(A, B, C):
+        m, n = A.shape
+        n, p = B.shape
+        for i in range(m):
+            for j in range(p):
+                C[i, j] = 0
+                for k in range(n):
+                    C[i, j] += A[i, k] * B[k, j]
+    return matmulcore
+@skip_on_cudasim('ufunc API unsupported in the simulator')
+class TestCUDAGufunc(CUDATestCase):
+    def test_gufunc_small(self):
+        gufunc = _get_matmulcore_gufunc()
+        matrix_ct = 2
+        A = np.arange(matrix_ct * 2 * 4, dtype=np.float32).reshape(matrix_ct, 2,
+                                                                   4)
+        B = np.arange(matrix_ct * 4 * 5, dtype=np.float32).reshape(matrix_ct, 4,
+                                                                   5)
+        C = gufunc(A, B)
+        Gold = np.matmul(A, B)
+        self.assertTrue(np.allclose(C, Gold))
+    def test_gufunc_auto_transfer(self):
+        gufunc = _get_matmulcore_gufunc()
+        matrix_ct = 2
+        A = np.arange(matrix_ct * 2 * 4, dtype=np.float32).reshape(matrix_ct, 2,
+                                                                   4)
+        B = np.arange(matrix_ct * 4 * 5, dtype=np.float32).reshape(matrix_ct, 4,
+                                                                   5)
+        dB = cuda.to_device(B)
+        C = gufunc(A, dB).copy_to_host()
+        Gold = np.matmul(A, B)
+        self.assertTrue(np.allclose(C, Gold))
+    def test_gufunc(self):
+        gufunc = _get_matmulcore_gufunc()
+        matrix_ct = 1001 # an odd number to test thread/block division in CUDA
+        A = np.arange(matrix_ct * 2 * 4, dtype=np.float32).reshape(matrix_ct, 2,
+                                                                   4)
+        B = np.arange(matrix_ct * 4 * 5, dtype=np.float32).reshape(matrix_ct, 4,
+                                                                   5)
+        C = gufunc(A, B)
+        Gold = np.matmul(A, B)
+        self.assertTrue(np.allclose(C, Gold))
+    def test_gufunc_hidim(self):
+        gufunc = _get_matmulcore_gufunc()
+        matrix_ct = 100 # an odd number to test thread/block division in CUDA
+        A = np.arange(matrix_ct * 2 * 4, dtype=np.float32).reshape(4, 25, 2, 4)
+        B = np.arange(matrix_ct * 4 * 5, dtype=np.float32).reshape(4, 25, 4, 5)
+        C = gufunc(A, B)
+        Gold = np.matmul(A, B)
+        self.assertTrue(np.allclose(C, Gold))
+    def test_gufunc_new_axis(self):
+        gufunc = _get_matmulcore_gufunc(dtype=float64)
+        X = np.random.randn(10, 3, 3)
+        Y = np.random.randn(3, 3)
+        gold = np.matmul(X, Y)
+        res1 = gufunc(X, Y)
+        np.testing.assert_allclose(gold, res1)
+        res2 = gufunc(X, np.tile(Y, (10, 1, 1)))
+        np.testing.assert_allclose(gold, res2)
+    def test_gufunc_stream(self):
+        gufunc = _get_matmulcore_gufunc()
+        #cuda.driver.flush_pending_free()
+        matrix_ct = 1001 # an odd number to test thread/block division in CUDA
+        A = np.arange(matrix_ct * 2 * 4, dtype=np.float32).reshape(matrix_ct, 2,
+                                                                   4)
+        B = np.arange(matrix_ct * 4 * 5, dtype=np.float32).reshape(matrix_ct, 4,
+                                                                   5)
+        stream = cuda.stream()
+        dA = cuda.to_device(A, stream)
+        dB = cuda.to_device(B, stream)
+        dC = cuda.device_array(shape=(1001, 2, 5), dtype=A.dtype, stream=stream)
+        dC = gufunc(dA, dB, out=dC, stream=stream)
+        C = dC.copy_to_host(stream=stream)
+        stream.synchronize()
+        Gold = np.matmul(A, B)
+        self.assertTrue(np.allclose(C, Gold))
+    def test_copy(self):
+        @guvectorize([void(float32[:], float32[:])],
+                     '(x)->(x)',
+                     target='cuda')
+        def copy(A, B):
+            for i in range(B.size):
+                B[i] = A[i]
+        A = np.arange(10, dtype=np.float32) + 1
+        B = np.zeros_like(A)
+        copy(A, out=B)
+        np.testing.assert_allclose(A, B)
+    def test_copy_unspecified_return(self):
+        # Ensure that behaviour is correct when the return type is not
+        # specified in the signature.
+        @guvectorize([(float32[:], float32[:])],
+                     '(x)->(x)',
+                     target='cuda')
+        def copy(A, B):
+            for i in range(B.size):
+                B[i] = A[i]
+        A = np.arange(10, dtype=np.float32) + 1
+        B = np.zeros_like(A)
+        copy(A, out=B)
+        self.assertTrue(np.allclose(A, B))
+    def test_copy_odd(self):
+        @guvectorize([void(float32[:], float32[:])],
+                     '(x)->(x)',
+                     target='cuda')
+        def copy(A, B):
+            for i in range(B.size):
+                B[i] = A[i]
+        A = np.arange(11, dtype=np.float32) + 1
+        B = np.zeros_like(A)
+        copy(A, out=B)
+        self.assertTrue(np.allclose(A, B))
+    def test_copy2d(self):
+        @guvectorize([void(float32[:, :], float32[:, :])],
+                     '(x, y)->(x, y)',
+                     target='cuda')
+        def copy2d(A, B):
+            for x in range(B.shape[0]):
+                for y in range(B.shape[1]):
+                    B[x, y] = A[x, y]
+        A = np.arange(30, dtype=np.float32).reshape(5, 6) + 1
+        B = np.zeros_like(A)
+        copy2d(A, out=B)
+        self.assertTrue(np.allclose(A, B))
+    def test_not_supported_call_from_jit(self):
+        # not supported
+        @guvectorize([void(int32[:], int32[:])],
+                     '(n)->(n)', target='cuda')
+        def gufunc_copy(A, b):
+            for i in range(A.shape[0]):
+                b[i] = A[i]
+        @cuda.jit
+        def cuda_jit(A, b):
+            return gufunc_copy(A, b)
+        A = np.arange(1024 * 32).astype('int32')
+        b = np.zeros_like(A)
+        msg = "Untyped global name 'gufunc_copy'.*"
+        with self.assertRaisesRegex(TypingError, msg):
+            cuda_jit[1, 1](A, b)
+    # Test inefficient use of the GPU where the inputs are all mapped onto a
+    # single thread in a single block.
+    def test_inefficient_launch_configuration(self):
+        @guvectorize(['void(float32[:], float32[:], float32[:])'],
+                     '(n),(n)->(n)', target='cuda')
+        def numba_dist_cuda(a, b, dist):
+            len = a.shape[0]
+            for i in range(len):
+                dist[i] = a[i] * b[i]
+        a = np.random.rand(1024 * 32).astype('float32')
+        b = np.random.rand(1024 * 32).astype('float32')
+        dist = np.zeros(a.shape[0]).astype('float32')
+        with override_config('CUDA_LOW_OCCUPANCY_WARNINGS', 1):
+            with warnings.catch_warnings(record=True) as w:
+                numba_dist_cuda(a, b, dist)
+                self.assertEqual(w[0].category, NumbaPerformanceWarning)
+                self.assertIn('Grid size', str(w[0].message))
+                self.assertIn('low occupancy', str(w[0].message))
+    def test_efficient_launch_configuration(self):
+        @guvectorize(['void(float32[:], float32[:], float32[:])'],
+                     '(n),(n)->(n)', nopython=True, target='cuda')
+        def numba_dist_cuda2(a, b, dist):
+            len = a.shape[0]
+            for i in range(len):
+                dist[i] = a[i] * b[i]
+        a = np.random.rand(524288 * 2).astype('float32').\
+            reshape((524288, 2))
+        b = np.random.rand(524288 * 2).astype('float32').\
+            reshape((524288, 2))
+        dist = np.zeros_like(a)
+        with override_config('CUDA_LOW_OCCUPANCY_WARNINGS', 1):
+            with warnings.catch_warnings(record=True) as w:
+                numba_dist_cuda2(a, b, dist)
+                self.assertEqual(len(w), 0)
+    def test_nopython_flag(self):
+        def foo(A, B):
+            pass
+        # nopython = True is fine
+        guvectorize([void(float32[:], float32[:])], '(x)->(x)', target='cuda',
+                    nopython=True)(foo)
+        # nopython = False is bad
+        with self.assertRaises(TypeError) as raises:
+            guvectorize([void(float32[:], float32[:])], '(x)->(x)',
+                        target='cuda', nopython=False)(foo)
+        self.assertEqual("nopython flag must be True", str(raises.exception))
+    def test_invalid_flags(self):
+        # Check invalid flags
+        def foo(A, B):
+            pass
+        with self.assertRaises(TypeError) as raises:
+            guvectorize([void(float32[:], float32[:])], '(x)->(x)',
+                        target='cuda', what1=True, ever2=False)(foo)
+        head = "The following target options are not supported:"
+        msg = str(raises.exception)
+        self.assertEqual(msg[:len(head)], head)
+        items = msg[len(head):].strip().split(',')
+        items = [i.strip("'\" ") for i in items]
+        self.assertEqual(set(['what1', 'ever2']), set(items))
+    def test_duplicated_output(self):
+        @guvectorize([void(float32[:], float32[:])], '(x)->(x)', target='cuda')
+        def foo(inp, out):
+            pass  # intentionally empty; never executed
+        inp = out = np.zeros(10, dtype=np.float32)
+        with self.assertRaises(ValueError) as raises:
+            foo(inp, out, out=out)
+        msg = "cannot specify argument 'out' as both positional and keyword"
+        self.assertEqual(str(raises.exception), msg)
+    def check_tuple_arg(self, a, b):
+        @guvectorize([(float64[:], float64[:], float64[:])], '(n),(n)->()',
+                     target='cuda')
+        def gu_reduce(x, y, r):
+            s = 0
+            for i in range(len(x)):
+                s += x[i] * y[i]
+            r[0] = s
+        r = gu_reduce(a, b)
+        expected = np.sum(np.asarray(a) * np.asarray(b), axis=1)
+        np.testing.assert_equal(expected, r)
+    def test_tuple_of_tuple_arg(self):
+        a = ((1.0, 2.0, 3.0),
+             (4.0, 5.0, 6.0))
+        b = ((1.5, 2.5, 3.5),
+             (4.5, 5.5, 6.5))
+        self.check_tuple_arg(a, b)
+    def test_tuple_of_namedtuple_arg(self):
+        Point = namedtuple('Point', ('x', 'y', 'z'))
+        a = (Point(x=1.0, y=2.0, z=3.0),
+             Point(x=4.0, y=5.0, z=6.0))
+        b = (Point(x=1.5, y=2.5, z=3.5),
+             Point(x=4.5, y=5.5, z=6.5))
+        self.check_tuple_arg(a, b)
+    def test_tuple_of_array_arg(self):
+        a = (np.asarray((1.0, 2.0, 3.0)),
+             np.asarray((4.0, 5.0, 6.0)))
+        b = (np.asarray((1.5, 2.5, 3.5)),
+             np.asarray((4.5, 5.5, 6.5)))
+        self.check_tuple_arg(a, b)
+    def test_gufunc_name(self):
+        gufunc = _get_matmulcore_gufunc()
+        self.assertEqual(gufunc.__name__, 'matmulcore')
+    def test_bad_return_type(self):
+        with self.assertRaises(TypeError) as te:
+            @guvectorize([int32(int32[:], int32[:])], '(m)->(m)', target='cuda')
+            def f(x, y):
+                pass
+        msg = str(te.exception)
+        self.assertIn('guvectorized functions cannot return values', msg)
+        self.assertIn('specifies int32 return type', msg)
+    def test_incorrect_number_of_pos_args(self):
+        @guvectorize([(int32[:], int32[:], int32[:])],
+                     '(m),(m)->(m)', target='cuda')
+        def f(x, y, z):
+            pass
+        arr = np.arange(5)
+        # Inputs only, too few
+        with self.assertRaises(TypeError) as te:
+            f(arr)
+        msg = str(te.exception)
+        self.assertIn('gufunc accepts 2 positional arguments', msg)
+        self.assertIn('or 3 positional arguments', msg)
+        self.assertIn('Got 1 positional argument.', msg)
+        # Inputs and outputs, too many
+        with self.assertRaises(TypeError) as te:
+            f(arr, arr, arr, arr)
+        msg = str(te.exception)
+        self.assertIn('gufunc accepts 2 positional arguments', msg)
+        self.assertIn('or 3 positional arguments', msg)
+        self.assertIn('Got 4 positional arguments.', msg)
+@skip_on_cudasim('ufunc API unsupported in the simulator')
+class TestMultipleOutputs(CUDATestCase):
+    def test_multiple_outputs_same_type_passed_in(self):
+        @guvectorize([void(float32[:], float32[:], float32[:])],
+                     '(x)->(x),(x)',
+                     target='cuda')
+        def copy(A, B, C):
+            for i in range(B.size):
+                B[i] = A[i]
+                C[i] = A[i]
+        A = np.arange(10, dtype=np.float32) + 1
+        B = np.zeros_like(A)
+        C = np.zeros_like(A)
+        copy(A, B, C)
+        np.testing.assert_allclose(A, B)
+        np.testing.assert_allclose(A, C)
+    def test_multiple_outputs_distinct_values(self):
+        @guvectorize([void(float32[:], float32[:], float32[:])],
+                     '(x)->(x),(x)',
+                     target='cuda')
+        def copy_and_double(A, B, C):
+            for i in range(B.size):
+                B[i] = A[i]
+                C[i] = A[i] * 2
+        A = np.arange(10, dtype=np.float32) + 1
+        B = np.zeros_like(A)
+        C = np.zeros_like(A)
+        copy_and_double(A, B, C)
+        np.testing.assert_allclose(A, B)
+        np.testing.assert_allclose(A * 2, C)
+    def test_multiple_output_allocation(self):
+        @guvectorize([void(float32[:], float32[:], float32[:])],
+                     '(x)->(x),(x)',
+                     target='cuda')
+        def copy_and_double(A, B, C):
+            for i in range(B.size):
+                B[i] = A[i]
+                C[i] = A[i] * 2
+        A = np.arange(10, dtype=np.float32) + 1
+        B, C = copy_and_double(A)
+        np.testing.assert_allclose(A, B)
+        np.testing.assert_allclose(A * 2, C)
+    def test_multiple_output_dtypes(self):
+        @guvectorize([void(int32[:], int32[:], float64[:])],
+                     '(x)->(x),(x)',
+                     target='cuda')
+        def copy_and_multiply(A, B, C):
+            for i in range(B.size):
+                B[i] = A[i]
+                C[i] = A[i] * 1.5
+        A = np.arange(10, dtype=np.int32) + 1
+        B = np.zeros_like(A)
+        C = np.zeros_like(A, dtype=np.float64)
+        copy_and_multiply(A, B, C)
+        np.testing.assert_allclose(A, B)
+        np.testing.assert_allclose(A * np.float64(1.5), C)
+    def test_incorrect_number_of_pos_args(self):
+        @guvectorize([(int32[:], int32[:], int32[:], int32[:])],
+                     '(m),(m)->(m),(m)', target='cuda')
+        def f(x, y, z, w):
+            pass
+        arr = np.arange(5)
+        # Inputs only, too few
+        with self.assertRaises(TypeError) as te:
+            f(arr)
+        msg = str(te.exception)
+        self.assertIn('gufunc accepts 2 positional arguments', msg)
+        self.assertIn('or 4 positional arguments', msg)
+        self.assertIn('Got 1 positional argument.', msg)
+        # Inputs and outputs, too many
+        with self.assertRaises(TypeError) as te:
+            f(arr, arr, arr, arr, arr)
+        msg = str(te.exception)
+        self.assertIn('gufunc accepts 2 positional arguments', msg)
+        self.assertIn('or 4 positional arguments', msg)
+        self.assertIn('Got 5 positional arguments.', msg)
+if __name__ == '__main__':
+    unittest.main()

numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scalar.py ADDED Viewed

@@ -0,0 +1,159 @@
+"""Example: sum each row using guvectorize
+See Numpy documentation for detail about gufunc:
+    http://docs.scipy.org/doc/numpy/reference/c-api.generalized-ufuncs.html
+"""
+import numpy as np
+from numba import guvectorize, cuda
+from numba.cuda.testing import skip_on_cudasim, CUDATestCase
+import unittest
+@skip_on_cudasim('ufunc API unsupported in the simulator')
+class TestGUFuncScalar(CUDATestCase):
+    def test_gufunc_scalar_output(self):
+        #    function type:
+        #        - has no void return type
+        #        - array argument is one dimension fewer than the source array
+        #        - scalar output is passed as a 1-element array.
+        #
+        #    signature: (n)->()
+        #        - the function takes an array of n-element and output a scalar.
+        @guvectorize(['void(int32[:], int32[:])'], '(n)->()', target='cuda')
+        def sum_row(inp, out):
+            tmp = 0.
+            for i in range(inp.shape[0]):
+                tmp += inp[i]
+            out[0] = tmp
+        # inp is (10000, 3)
+        # out is (10000)
+        # The outer (leftmost) dimension must match or numpy broadcasting
+        # is performed. But, broadcasting on CUDA arrays is not supported.
+        inp = np.arange(300, dtype=np.int32).reshape(100, 3)
+        # invoke on CUDA with manually managed memory
+        out1 = np.empty(100, dtype=inp.dtype)
+        out2 = np.empty(100, dtype=inp.dtype)
+        dev_inp = cuda.to_device(
+            inp)                 # alloc and copy input data
+        dev_out1 = cuda.to_device(out1, copy=False)   # alloc only
+        sum_row(dev_inp, out=dev_out1)                # invoke the gufunc
+        dev_out2 = sum_row(dev_inp)                   # invoke the gufunc
+        dev_out1.copy_to_host(out1)                 # retrieve the result
+        dev_out2.copy_to_host(out2)                 # retrieve the result
+        # verify result
+        for i in range(inp.shape[0]):
+            self.assertTrue(out1[i] == inp[i].sum())
+            self.assertTrue(out2[i] == inp[i].sum())
+    def test_gufunc_scalar_output_bug(self):
+        # Issue 2812: Error due to using input argument types as output argument
+        @guvectorize(['void(int32, int32[:])'], '()->()', target='cuda')
+        def twice(inp, out):
+            out[0] = inp * 2
+        self.assertEqual(twice(10), 20)
+        arg = np.arange(10).astype(np.int32)
+        self.assertPreciseEqual(twice(arg), arg * 2)
+    def test_gufunc_scalar_input_saxpy(self):
+        @guvectorize(['void(float32, float32[:], float32[:], float32[:])'],
+                     '(),(t),(t)->(t)', target='cuda')
+        def saxpy(a, x, y, out):
+            for i in range(out.shape[0]):
+                out[i] = a * x[i] + y[i]
+        A = np.float32(2)
+        X = np.arange(10, dtype=np.float32).reshape(5, 2)
+        Y = np.arange(10, dtype=np.float32).reshape(5, 2)
+        out = saxpy(A, X, Y)
+        for j in range(5):
+            for i in range(2):
+                exp = A * X[j, i] + Y[j, i]
+                self.assertTrue(exp == out[j, i])
+        X = np.arange(10, dtype=np.float32)
+        Y = np.arange(10, dtype=np.float32)
+        out = saxpy(A, X, Y)
+        for j in range(10):
+            exp = A * X[j] + Y[j]
+            self.assertTrue(exp == out[j], (exp, out[j]))
+        A = np.arange(5, dtype=np.float32)
+        X = np.arange(10, dtype=np.float32).reshape(5, 2)
+        Y = np.arange(10, dtype=np.float32).reshape(5, 2)
+        out = saxpy(A, X, Y)
+        for j in range(5):
+            for i in range(2):
+                exp = A[j] * X[j, i] + Y[j, i]
+                self.assertTrue(exp == out[j, i], (exp, out[j, i]))
+    def test_gufunc_scalar_cast(self):
+        @guvectorize(['void(int32, int32[:], int32[:])'], '(),(t)->(t)',
+                     target='cuda')
+        def foo(a, b, out):
+            for i in range(b.size):
+                out[i] = a * b[i]
+        a = np.int64(2)  # type does not match signature (int32)
+        b = np.arange(10).astype(np.int32)
+        out = foo(a, b)
+        np.testing.assert_equal(out, a * b)
+        # test error
+        a = np.array(a)
+        da = cuda.to_device(a)
+        self.assertEqual(da.dtype, np.int64)
+        with self.assertRaises(TypeError) as raises:
+            foo(da, b)
+        self.assertIn("does not support .astype()", str(raises.exception))
+    def test_gufunc_old_style_scalar_as_array(self):
+        # Example from issue #2579
+        @guvectorize(['void(int32[:],int32[:],int32[:])'], '(n),()->(n)',
+                     target='cuda')
+        def gufunc(x, y, res):
+            for i in range(x.shape[0]):
+                res[i] = x[i] + y[0]
+        # Case 1
+        a = np.array([1, 2, 3, 4], dtype=np.int32)
+        b = np.array([2], dtype=np.int32)
+        res = np.zeros(4, dtype=np.int32)
+        expected = res.copy()
+        expected = a + b
+        gufunc(a, b, out=res)
+        np.testing.assert_almost_equal(expected, res)
+        # Case 2
+        a = np.array([1, 2, 3, 4] * 2, dtype=np.int32).reshape(2, 4)
+        b = np.array([2, 10], dtype=np.int32)
+        res = np.zeros((2, 4), dtype=np.int32)
+        expected = res.copy()
+        expected[0] = a[0] + b[0]
+        expected[1] = a[1] + b[1]
+        gufunc(a, b, res)
+        np.testing.assert_almost_equal(expected, res)
+if __name__ == '__main__':
+    unittest.main()

numba_cuda/numba/cuda/tests/cudapy/test_gufunc_scheduling.py ADDED Viewed

@@ -0,0 +1,95 @@
+from numba.cuda.deviceufunc import GUFuncEngine
+import unittest
+def template(signature, shapes, expects):
+    gufb = GUFuncEngine.from_signature(signature)
+    sch = gufb.schedule(shapes)
+    for k, v in expects.items():
+        got = getattr(sch, k)
+        if got != v:
+            fmt = 'error for %s: got=%s but expect=%s'
+            raise AssertionError(fmt % (k, got, v))
+class TestGUFuncScheduling(unittest.TestCase):
+    def test_signature_1(self):
+        signature = '(m, n), (n, p) -> (m, p)'
+        shapes = (100, 4, 5), (1, 5, 7)
+        expects = dict(
+            ishapes=[(4, 5), (5, 7)],
+            oshapes=[(4, 7)],
+            loopdims=(100,),
+            pinned=[False, True]
+        )
+        template(signature, shapes, expects)
+    def test_signature_2(self):
+        signature = '(m, n), (n, p) -> (m, p)'
+        shapes = (100, 4, 5), (100, 5, 7)
+        expects = dict(
+            ishapes=[(4, 5), (5, 7)],
+            oshapes=[(4, 7)],
+            loopdims=(100,),
+            pinned=[False, False]
+        )
+        template(signature, shapes, expects)
+    def test_signature_3(self):
+        signature = '(m, n), (n, p) -> (m, p)'
+        shapes = (12, 34, 4, 5), (12, 34, 5, 7)
+        expects = dict(
+            ishapes=[(4, 5), (5, 7)],
+            oshapes=[(4, 7)],
+            loopdims=(12, 34),
+            pinned=[False, False]
+        )
+        template(signature, shapes, expects)
+    def test_signature_4(self):
+        signature = '(m, n), (n, p) -> (m, p)'
+        shapes = (4, 5), (5, 7)
+        expects = dict(
+            ishapes=[(4, 5), (5, 7)],
+            oshapes=[(4, 7)],
+            loopdims=(),
+            pinned=[False, False]
+        )
+        template(signature, shapes, expects)
+    def test_signature_5(self):
+        signature = '(a), (a) -> (a)'
+        shapes = (5,), (5,)
+        expects = dict(
+            ishapes=[(5,), (5,)],
+            oshapes=[(5,)],
+            loopdims=(),
+            pinned=[False, False]
+        )
+        template(signature, shapes, expects)
+    def test_signature_6(self):
+        signature = '(), () -> ()'
+        shapes = (5,), (5,)
+        expects = dict(
+            ishapes=[(), ()],
+            oshapes=[()],
+            loopdims=(5,),
+            pinned=[False, False]
+        )
+        template(signature, shapes, expects)
+    def test_signature_7(self):
+        signature = '(), () -> ()'
+        shapes = (5,), ()
+        expects = dict(
+            ishapes=[(), ()],
+            oshapes=[()],
+            loopdims=(5,),
+            pinned=[False, True]
+        )
+        template(signature, shapes, expects)
+if __name__ == '__main__':
+    unittest.main()

numba-cuda 0.0.1__py3-none-any.whl → 0.0.12__py3-none-any.whl

numba-cuda 0.0.1py3-none-any.whl → 0.0.12py3-none-any.whl