RubyGems - cumo - Versions diffs - 0.1.0 → 0.1.1 - Mend

cumo 0.1.0 → 0.1.1

Files changed (158) hide show

checksums.yaml +5 -5
data/.gitignore +1 -0
data/3rd_party/LICENSE.txt +60 -0
data/3rd_party/mkmf-cu/lib/mkmf-cu/cli.rb +13 -1
data/LICENSE.txt +1 -62
data/README.md +33 -29
data/bench/cumo_bench.rb +47 -25
data/bench/numo_bench.rb +27 -25
data/docs/src-tree.md +16 -0
data/ext/cumo/cuda/cublas.c +69 -219
data/ext/cumo/cuda/memory_pool_impl.hpp +1 -0
data/ext/cumo/cuda/runtime.c +2 -14
data/ext/cumo/cumo.c +16 -16
data/ext/cumo/include/cumo.h +2 -2
data/ext/cumo/include/cumo/cuda/cublas.h +6 -129
data/ext/cumo/include/cumo/cuda/runtime.h +16 -0
data/ext/cumo/include/cumo/indexer.h +46 -63
data/ext/cumo/include/cumo/intern.h +58 -112
data/ext/cumo/include/cumo/narray.h +214 -185
data/ext/cumo/include/cumo/narray_kernel.h +66 -37
data/ext/cumo/include/cumo/ndloop.h +42 -42
data/ext/cumo/include/cumo/reduce_kernel.h +55 -71
data/ext/cumo/include/cumo/template.h +56 -51
data/ext/cumo/include/cumo/template_kernel.h +31 -31
data/ext/cumo/include/cumo/types/bit.h +3 -3
data/ext/cumo/include/cumo/types/bit_kernel.h +2 -2
data/ext/cumo/include/cumo/types/complex.h +126 -126
data/ext/cumo/include/cumo/types/complex_kernel.h +126 -126
data/ext/cumo/include/cumo/types/complex_macro.h +28 -28
data/ext/cumo/include/cumo/types/complex_macro_kernel.h +20 -20
data/ext/cumo/include/cumo/types/dcomplex.h +5 -5
data/ext/cumo/include/cumo/types/dcomplex_kernel.h +1 -1
data/ext/cumo/include/cumo/types/int_macro.h +1 -1
data/ext/cumo/include/cumo/types/int_macro_kernel.h +1 -1
data/ext/cumo/include/cumo/types/robj_macro.h +30 -30
data/ext/cumo/include/cumo/types/scomplex.h +5 -5
data/ext/cumo/include/cumo/types/scomplex_kernel.h +1 -1
data/ext/cumo/narray/array.c +143 -143
data/ext/cumo/narray/data.c +184 -184
data/ext/cumo/narray/gen/cogen.rb +5 -2
data/ext/cumo/narray/gen/cogen_kernel.rb +5 -2
data/ext/cumo/narray/gen/def/dcomplex.rb +1 -1
data/ext/cumo/narray/gen/def/scomplex.rb +1 -1
data/ext/cumo/narray/gen/erbln.rb +132 -0
data/ext/cumo/narray/gen/erbpp2.rb +18 -13
data/ext/cumo/narray/gen/narray_def.rb +3 -3
data/ext/cumo/narray/gen/spec.rb +2 -2
data/ext/cumo/narray/gen/tmpl/accum.c +15 -15
data/ext/cumo/narray/gen/tmpl/accum_binary.c +22 -22
data/ext/cumo/narray/gen/tmpl/accum_binary_kernel.cu +3 -3
data/ext/cumo/narray/gen/tmpl/accum_index.c +30 -30
data/ext/cumo/narray/gen/tmpl/accum_index_kernel.cu +2 -2
data/ext/cumo/narray/gen/tmpl/accum_kernel.cu +3 -3
data/ext/cumo/narray/gen/tmpl/alloc_func.c +14 -14
data/ext/cumo/narray/gen/tmpl/allocate.c +11 -11
data/ext/cumo/narray/gen/tmpl/aref.c +2 -2
data/ext/cumo/narray/gen/tmpl/aref_cpu.c +4 -4
data/ext/cumo/narray/gen/tmpl/aset.c +2 -2
data/ext/cumo/narray/gen/tmpl/binary.c +28 -28
data/ext/cumo/narray/gen/tmpl/binary2.c +18 -18
data/ext/cumo/narray/gen/tmpl/binary2_kernel.cu +3 -3
data/ext/cumo/narray/gen/tmpl/binary_kernel.cu +6 -6
data/ext/cumo/narray/gen/tmpl/binary_s.c +13 -13
data/ext/cumo/narray/gen/tmpl/binary_s_kernel.cu +3 -3
data/ext/cumo/narray/gen/tmpl/bincount.c +23 -23
data/ext/cumo/narray/gen/tmpl/cast.c +7 -7
data/ext/cumo/narray/gen/tmpl/cast_array.c +3 -3
data/ext/cumo/narray/gen/tmpl/clip.c +38 -38
data/ext/cumo/narray/gen/tmpl/complex_accum_kernel.cu +2 -2
data/ext/cumo/narray/gen/tmpl/cond_binary.c +19 -19
data/ext/cumo/narray/gen/tmpl/cond_binary_kernel.cu +7 -7
data/ext/cumo/narray/gen/tmpl/cond_unary.c +15 -15
data/ext/cumo/narray/gen/tmpl/cum.c +15 -15
data/ext/cumo/narray/gen/tmpl/each.c +9 -9
data/ext/cumo/narray/gen/tmpl/each_with_index.c +9 -9
data/ext/cumo/narray/gen/tmpl/ewcomp.c +15 -15
data/ext/cumo/narray/gen/tmpl/ewcomp_kernel.cu +3 -3
data/ext/cumo/narray/gen/tmpl/extract_cpu.c +5 -5
data/ext/cumo/narray/gen/tmpl/extract_data.c +12 -12
data/ext/cumo/narray/gen/tmpl/eye.c +9 -9
data/ext/cumo/narray/gen/tmpl/eye_kernel.cu +3 -3
data/ext/cumo/narray/gen/tmpl/fill.c +9 -9
data/ext/cumo/narray/gen/tmpl/fill_kernel.cu +6 -6
data/ext/cumo/narray/gen/tmpl/float_accum_kernel.cu +1 -1
data/ext/cumo/narray/gen/tmpl/format.c +11 -11
data/ext/cumo/narray/gen/tmpl/format_to_a.c +8 -8
data/ext/cumo/narray/gen/tmpl/frexp.c +13 -13
data/ext/cumo/narray/gen/tmpl/gemm.c +252 -108
data/ext/cumo/narray/gen/tmpl/inspect.c +1 -1
data/ext/cumo/narray/gen/tmpl/lib.c +2 -2
data/ext/cumo/narray/gen/tmpl/logseq.c +7 -7
data/ext/cumo/narray/gen/tmpl/logseq_kernel.cu +6 -6
data/ext/cumo/narray/gen/tmpl/map_with_index.c +17 -17
data/ext/cumo/narray/gen/tmpl/median.c +10 -10
data/ext/cumo/narray/gen/tmpl/minmax.c +10 -10
data/ext/cumo/narray/gen/tmpl/new_dim0.c +3 -3
data/ext/cumo/narray/gen/tmpl/poly.c +6 -6
data/ext/cumo/narray/gen/tmpl/pow.c +28 -28
data/ext/cumo/narray/gen/tmpl/pow_kernel.cu +6 -6
data/ext/cumo/narray/gen/tmpl/rand.c +10 -10
data/ext/cumo/narray/gen/tmpl/rand_norm.c +7 -7
data/ext/cumo/narray/gen/tmpl/real_accum_kernel.cu +6 -6
data/ext/cumo/narray/gen/tmpl/seq.c +7 -7
data/ext/cumo/narray/gen/tmpl/seq_kernel.cu +6 -6
data/ext/cumo/narray/gen/tmpl/set2.c +20 -20
data/ext/cumo/narray/gen/tmpl/sort.c +11 -11
data/ext/cumo/narray/gen/tmpl/sort_index.c +18 -18
data/ext/cumo/narray/gen/tmpl/store.c +6 -6
data/ext/cumo/narray/gen/tmpl/store_array.c +19 -19
data/ext/cumo/narray/gen/tmpl/store_array_kernel.cu +12 -12
data/ext/cumo/narray/gen/tmpl/store_bit.c +23 -23
data/ext/cumo/narray/gen/tmpl/store_bit_kernel.cu +28 -28
data/ext/cumo/narray/gen/tmpl/store_from.c +16 -16
data/ext/cumo/narray/gen/tmpl/store_from_kernel.cu +12 -12
data/ext/cumo/narray/gen/tmpl/to_a.c +10 -10
data/ext/cumo/narray/gen/tmpl/unary.c +25 -25
data/ext/cumo/narray/gen/tmpl/unary2.c +17 -17
data/ext/cumo/narray/gen/tmpl/unary_kernel.cu +15 -15
data/ext/cumo/narray/gen/tmpl/unary_ret2.c +13 -13
data/ext/cumo/narray/gen/tmpl/unary_s.c +17 -17
data/ext/cumo/narray/gen/tmpl/unary_s_kernel.cu +12 -12
data/ext/cumo/narray/gen/tmpl_bit/allocate.c +9 -9
data/ext/cumo/narray/gen/tmpl_bit/aref.c +2 -2
data/ext/cumo/narray/gen/tmpl_bit/aref_cpu.c +5 -5
data/ext/cumo/narray/gen/tmpl_bit/aset.c +2 -2
data/ext/cumo/narray/gen/tmpl_bit/binary.c +29 -29
data/ext/cumo/narray/gen/tmpl_bit/bit_count.c +14 -14
data/ext/cumo/narray/gen/tmpl_bit/bit_count_cpu.c +21 -21
data/ext/cumo/narray/gen/tmpl_bit/bit_count_kernel.cu +28 -28
data/ext/cumo/narray/gen/tmpl_bit/bit_reduce.c +29 -29
data/ext/cumo/narray/gen/tmpl_bit/each.c +10 -10
data/ext/cumo/narray/gen/tmpl_bit/each_with_index.c +10 -10
data/ext/cumo/narray/gen/tmpl_bit/extract.c +8 -8
data/ext/cumo/narray/gen/tmpl_bit/extract_cpu.c +8 -8
data/ext/cumo/narray/gen/tmpl_bit/fill.c +17 -17
data/ext/cumo/narray/gen/tmpl_bit/format.c +14 -14
data/ext/cumo/narray/gen/tmpl_bit/format_to_a.c +11 -11
data/ext/cumo/narray/gen/tmpl_bit/inspect.c +3 -3
data/ext/cumo/narray/gen/tmpl_bit/mask.c +33 -33
data/ext/cumo/narray/gen/tmpl_bit/store_array.c +19 -19
data/ext/cumo/narray/gen/tmpl_bit/store_bit.c +22 -22
data/ext/cumo/narray/gen/tmpl_bit/store_from.c +18 -18
data/ext/cumo/narray/gen/tmpl_bit/to_a.c +12 -12
data/ext/cumo/narray/gen/tmpl_bit/unary.c +24 -24
data/ext/cumo/narray/gen/tmpl_bit/where.c +16 -16
data/ext/cumo/narray/gen/tmpl_bit/where2.c +20 -20
data/ext/cumo/narray/index.c +213 -213
data/ext/cumo/narray/math.c +27 -27
data/ext/cumo/narray/narray.c +484 -484
data/ext/cumo/narray/ndloop.c +259 -258
data/ext/cumo/narray/rand.c +3 -3
data/ext/cumo/narray/step.c +70 -70
data/ext/cumo/narray/struct.c +139 -139
metadata +6 -7
data/ext/cumo/include/cumo/intern_fwd.h +0 -38
data/lib/erbpp.rb +0 -294
data/lib/erbpp/line_number.rb +0 -137
data/lib/erbpp/narray_def.rb +0 -381

data/ext/cumo/narray/gen/tmpl/store_array_kernel.cu CHANGED

@@ -29,30 +29,30 @@ __global__ void <%="cumo_#{c_iter}_stride_scalar_kernel"%>(char *p1, ssize_t s1,
 void <%="cumo_#{c_iter}_index_kernel_launch"%>(char *p1, size_t *idx1, dtype* z, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_index_kernel"%><<<gridDim, blockDim>>>(p1,idx1,z,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_index_kernel"%><<<grid_dim, block_dim>>>(p1,idx1,z,n);
 }
 void <%="cumo_#{c_iter}_stride_kernel_launch"%>(char *p1, ssize_t s1, dtype* z, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_stride_kernel"%><<<gridDim, blockDim>>>(p1,s1,z,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_stride_kernel"%><<<grid_dim, block_dim>>>(p1,s1,z,n);
 }
 void <%="cumo_#{c_iter}_index_scalar_kernel_launch"%>(char *p1, size_t *idx1, dtype z, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_index_scalar_kernel"%><<<gridDim, blockDim>>>(p1,idx1,z,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_index_scalar_kernel"%><<<grid_dim, block_dim>>>(p1,idx1,z,n);
 }
 void <%="cumo_#{c_iter}_stride_scalar_kernel_launch"%>(char *p1, ssize_t s1, dtype z, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_stride_scalar_kernel"%><<<gridDim, blockDim>>>(p1,s1,z,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_stride_scalar_kernel"%><<<grid_dim, block_dim>>>(p1,s1,z,n);
 }
 <% end %>

data/ext/cumo/narray/gen/tmpl/store_bit.c CHANGED

@@ -1,56 +1,56 @@
 //<% unless c_iter.include? 'robject' %>
-void <%="cumo_#{c_iter}_index_index_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, size_t *idx1, size_t *idx2, uint64_t n);
-void <%="cumo_#{c_iter}_stride_index_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, ssize_t s1, size_t *idx2, uint64_t n);
-void <%="cumo_#{c_iter}_index_stride_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, size_t *idx1, ssize_t s2, uint64_t n);
-void <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, ssize_t s1, ssize_t s2, uint64_t n);
+void <%="cumo_#{c_iter}_index_index_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, size_t *idx1, size_t *idx2, uint64_t n);
+void <%="cumo_#{c_iter}_stride_index_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, ssize_t s1, size_t *idx2, uint64_t n);
+void <%="cumo_#{c_iter}_index_stride_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, size_t *idx1, ssize_t s2, uint64_t n);
+void <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, ssize_t s1, ssize_t s2, uint64_t n);
 //<% end %>
 static void
-<%=c_iter%>(na_loop_t *const lp)
+<%=c_iter%>(cumo_na_loop_t *const lp)
 {
     size_t     i;
     char      *p1;
     size_t     p2;
     ssize_t    s1, s2;
     size_t    *idx1, *idx2;
-    BIT_DIGIT *a2;
+    CUMO_BIT_DIGIT *a2;
-    INIT_COUNTER(lp, i);
-    INIT_PTR_IDX(lp, 0, p1, s1, idx1);
-    INIT_PTR_BIT_IDX(lp, 1, a2, p2, s2, idx2);
+    CUMO_INIT_COUNTER(lp, i);
+    CUMO_INIT_PTR_IDX(lp, 0, p1, s1, idx1);
+    CUMO_INIT_PTR_BIT_IDX(lp, 1, a2, p2, s2, idx2);
     //<% if c_iter.include? 'robject' %>
     {
-        BIT_DIGIT x;
+        CUMO_BIT_DIGIT x;
         dtype y;
-        SHOW_SYNCHRONIZE_WARNING_ONCE("<%=name%>", "<%=type_name%>");
-        SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
+        CUMO_SHOW_SYNCHRONIZE_WARNING_ONCE("<%=name%>", "<%=type_name%>");
+        CUMO_SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
         if (idx2) {
             if (idx1) {
                 for (; i--;) {
-                    LOAD_BIT(a2, p2+*idx2, x); idx2++;
+                    CUMO_LOAD_BIT(a2, p2+*idx2, x); idx2++;
                     y = m_from_sint(x);
-                    SET_DATA_INDEX(p1,idx1,dtype,y);
+                    CUMO_SET_DATA_INDEX(p1,idx1,dtype,y);
                 }
             } else {
                 for (; i--;) {
-                    LOAD_BIT(a2, p2+*idx2, x); idx2++;
+                    CUMO_LOAD_BIT(a2, p2+*idx2, x); idx2++;
                     y = m_from_sint(x);
-                    SET_DATA_STRIDE(p1,s1,dtype,y);
+                    CUMO_SET_DATA_STRIDE(p1,s1,dtype,y);
                 }
             }
         } else {
             if (idx1) {
                 for (; i--;) {
-                    LOAD_BIT(a2, p2, x); p2 += s2;
+                    CUMO_LOAD_BIT(a2, p2, x); p2 += s2;
                     y = m_from_sint(x);
-                    SET_DATA_INDEX(p1,idx1,dtype,y);
+                    CUMO_SET_DATA_INDEX(p1,idx1,dtype,y);
                 }
             } else {
                 for (; i--;) {
-                    LOAD_BIT(a2, p2, x); p2 += s2;
+                    CUMO_LOAD_BIT(a2, p2, x); p2 += s2;
                     y = m_from_sint(x);
-                    SET_DATA_STRIDE(p1,s1,dtype,y);
+                    CUMO_SET_DATA_STRIDE(p1,s1,dtype,y);
                 }
             }
         }
@@ -78,9 +78,9 @@ static void
 static VALUE
 <%=c_func(:nodef)%>(VALUE self, VALUE obj)
 {
-    ndfunc_arg_in_t ain[2] = {{OVERWRITE,0},{Qnil,0}};
-    ndfunc_t ndf = {<%=c_iter%>, FULL_LOOP, 2,0, ain,0};
+    cumo_ndfunc_arg_in_t ain[2] = {{CUMO_OVERWRITE,0},{Qnil,0}};
+    cumo_ndfunc_t ndf = {<%=c_iter%>, CUMO_FULL_LOOP, 2,0, ain,0};
-    na_ndloop(&ndf, 2, self, obj);
+    cumo_na_ndloop(&ndf, 2, self, obj);
     return self;
 }

data/ext/cumo/narray/gen/tmpl/store_bit_kernel.cu CHANGED

@@ -1,66 +1,66 @@
 <% unless c_iter.include? 'robject' %>
-__global__ void <%="cumo_#{c_iter}_index_index_kernel"%>(char *p1, size_t p2, BIT_DIGIT *a2, size_t *idx1, size_t *idx2, uint64_t n)
+__global__ void <%="cumo_#{c_iter}_index_index_kernel"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, size_t *idx1, size_t *idx2, uint64_t n)
 {
     for (uint64_t i = blockIdx.x * blockDim.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) {
-        BIT_DIGIT x;
-        LOAD_BIT(a2, p2 + idx2[i], x);
+        CUMO_BIT_DIGIT x;
+        CUMO_LOAD_BIT(a2, p2 + idx2[i], x);
         *(dtype*)(p1 + idx1[i]) = m_from_real(x);
     }
 }
-__global__ void <%="cumo_#{c_iter}_stride_index_kernel"%>(char *p1, size_t p2, BIT_DIGIT *a2, ssize_t s1, size_t *idx2, uint64_t n)
+__global__ void <%="cumo_#{c_iter}_stride_index_kernel"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, ssize_t s1, size_t *idx2, uint64_t n)
 {
     for (uint64_t i = blockIdx.x * blockDim.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) {
-        BIT_DIGIT x;
-        LOAD_BIT(a2, p2 + idx2[i], x);
+        CUMO_BIT_DIGIT x;
+        CUMO_LOAD_BIT(a2, p2 + idx2[i], x);
         *(dtype*)(p1 + (i * s1)) = m_from_real(x);
     }
 }
-__global__ void <%="cumo_#{c_iter}_index_stride_kernel"%>(char *p1, size_t p2, BIT_DIGIT *a2, size_t *idx1, ssize_t s2, uint64_t n)
+__global__ void <%="cumo_#{c_iter}_index_stride_kernel"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, size_t *idx1, ssize_t s2, uint64_t n)
 {
     for (uint64_t i = blockIdx.x * blockDim.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) {
-        BIT_DIGIT x;
-        LOAD_BIT(a2, p2 + (i * s2), x);
+        CUMO_BIT_DIGIT x;
+        CUMO_LOAD_BIT(a2, p2 + (i * s2), x);
         *(dtype*)(p1 + idx1[i]) = m_from_real(x);
     }
 }
-__global__ void <%="cumo_#{c_iter}_stride_stride_kernel"%>(char *p1, size_t p2, BIT_DIGIT *a2, ssize_t s1, ssize_t s2, uint64_t n)
+__global__ void <%="cumo_#{c_iter}_stride_stride_kernel"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, ssize_t s1, ssize_t s2, uint64_t n)
 {
     for (uint64_t i = blockIdx.x * blockDim.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) {
-        BIT_DIGIT x;
-        LOAD_BIT(a2, p2 + (i * s2), x);
+        CUMO_BIT_DIGIT x;
+        CUMO_LOAD_BIT(a2, p2 + (i * s2), x);
         *(dtype*)(p1 + (i * s1)) = m_from_real(x);
     }
 }
-void <%="cumo_#{c_iter}_index_index_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, size_t *idx1, size_t *idx2, uint64_t n)
+void <%="cumo_#{c_iter}_index_index_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, size_t *idx1, size_t *idx2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_index_index_kernel"%><<<gridDim, blockDim>>>(p1,p2,a2,idx1,idx2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_index_index_kernel"%><<<grid_dim, block_dim>>>(p1,p2,a2,idx1,idx2,n);
 }
-void <%="cumo_#{c_iter}_stride_index_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, ssize_t s1, size_t *idx2, uint64_t n)
+void <%="cumo_#{c_iter}_stride_index_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, ssize_t s1, size_t *idx2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_stride_index_kernel"%><<<gridDim, blockDim>>>(p1,p2,a2,s1,idx2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_stride_index_kernel"%><<<grid_dim, block_dim>>>(p1,p2,a2,s1,idx2,n);
 }
-void <%="cumo_#{c_iter}_index_stride_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, size_t *idx1, ssize_t s2, uint64_t n)
+void <%="cumo_#{c_iter}_index_stride_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, size_t *idx1, ssize_t s2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_index_stride_kernel"%><<<gridDim, blockDim>>>(p1,p2,a2,idx1,s2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_index_stride_kernel"%><<<grid_dim, block_dim>>>(p1,p2,a2,idx1,s2,n);
 }
-void <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(char *p1, size_t p2, BIT_DIGIT *a2, ssize_t s1, ssize_t s2, uint64_t n)
+void <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(char *p1, size_t p2, CUMO_BIT_DIGIT *a2, ssize_t s1, ssize_t s2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_stride_stride_kernel"%><<<gridDim, blockDim>>>(p1,p2,a2,s1,s2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_stride_stride_kernel"%><<<grid_dim, block_dim>>>(p1,p2,a2,s1,s2,n);
 }
 <% end %>

data/ext/cumo/narray/gen/tmpl/store_from.c CHANGED

@@ -6,46 +6,46 @@ void <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(char *p1, char *p2, ssize
 //<% end %>
 static void
-<%=c_iter%>(na_loop_t *const lp)
+<%=c_iter%>(cumo_na_loop_t *const lp)
 {
     size_t  i, s1, s2;
     char   *p1, *p2;
     size_t *idx1, *idx2;
-    INIT_COUNTER(lp, i);
-    INIT_PTR_IDX(lp, 0, p1, s1, idx1);
-    INIT_PTR_IDX(lp, 1, p2, s2, idx2);
+    CUMO_INIT_COUNTER(lp, i);
+    CUMO_INIT_PTR_IDX(lp, 0, p1, s1, idx1);
+    CUMO_INIT_PTR_IDX(lp, 1, p2, s2, idx2);
     //<% if c_iter.include? 'robject' %>
-    SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
+    CUMO_SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
     {
         <%=dtype%> x;
         dtype y;
         if (idx2) {
             if (idx1) {
                 for (; i--;) {
-                    GET_DATA_INDEX(p2,idx2,<%=dtype%>,x);
+                    CUMO_GET_DATA_INDEX(p2,idx2,<%=dtype%>,x);
                     y = <%=macro%>(x);
-                    SET_DATA_INDEX(p1,idx1,dtype,y);
+                    CUMO_SET_DATA_INDEX(p1,idx1,dtype,y);
                 }
             } else {
                 for (; i--;) {
-                    GET_DATA_INDEX(p2,idx2,<%=dtype%>,x);
+                    CUMO_GET_DATA_INDEX(p2,idx2,<%=dtype%>,x);
                     y = <%=macro%>(x);
-                    SET_DATA_STRIDE(p1,s1,dtype,y);
+                    CUMO_SET_DATA_STRIDE(p1,s1,dtype,y);
                 }
             }
         } else {
             if (idx1) {
                 for (; i--;) {
-                    GET_DATA_STRIDE(p2,s2,<%=dtype%>,x);
+                    CUMO_GET_DATA_STRIDE(p2,s2,<%=dtype%>,x);
                     y = <%=macro%>(x);
-                    SET_DATA_INDEX(p1,idx1,dtype,y);
+                    CUMO_SET_DATA_INDEX(p1,idx1,dtype,y);
                 }
             } else {
                 for (; i--;) {
-                    GET_DATA_STRIDE(p2,s2,<%=dtype%>,x);
+                    CUMO_GET_DATA_STRIDE(p2,s2,<%=dtype%>,x);
                     y = <%=macro%>(x);
-                    SET_DATA_STRIDE(p1,s1,dtype,y);
+                    CUMO_SET_DATA_STRIDE(p1,s1,dtype,y);
                 }
             }
         }
@@ -73,9 +73,9 @@ static void
 static VALUE
 <%=c_func(:nodef)%>(VALUE self, VALUE obj)
 {
-    ndfunc_arg_in_t ain[2] = {{OVERWRITE,0},{Qnil,0}};
-    ndfunc_t ndf = { <%=c_iter%>, FULL_LOOP, 2, 0, ain, 0 };
+    cumo_ndfunc_arg_in_t ain[2] = {{CUMO_OVERWRITE,0},{Qnil,0}};
+    cumo_ndfunc_t ndf = { <%=c_iter%>, CUMO_FULL_LOOP, 2, 0, ain, 0 };
-    na_ndloop(&ndf, 2, self, obj);
+    cumo_na_ndloop(&ndf, 2, self, obj);
     return self;
 }

data/ext/cumo/narray/gen/tmpl/store_from_kernel.cu CHANGED

@@ -29,30 +29,30 @@ __global__ void <%="cumo_#{c_iter}_stride_stride_kernel"%>(char *p1, char *p2, s
 void <%="cumo_#{c_iter}_index_index_kernel_launch"%>(char *p1, char *p2, size_t *idx1, size_t *idx2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_index_index_kernel"%><<<gridDim, blockDim>>>(p1,p2,idx1,idx2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_index_index_kernel"%><<<grid_dim, block_dim>>>(p1,p2,idx1,idx2,n);
 }
 void <%="cumo_#{c_iter}_stride_index_kernel_launch"%>(char *p1, char *p2, ssize_t s1, size_t *idx2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_stride_index_kernel"%><<<gridDim, blockDim>>>(p1,p2,s1,idx2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_stride_index_kernel"%><<<grid_dim, block_dim>>>(p1,p2,s1,idx2,n);
 }
 void <%="cumo_#{c_iter}_index_stride_kernel_launch"%>(char *p1, char *p2, size_t *idx1, ssize_t s2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_index_stride_kernel"%><<<gridDim, blockDim>>>(p1,p2,idx1,s2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_index_stride_kernel"%><<<grid_dim, block_dim>>>(p1,p2,idx1,s2,n);
 }
 void <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(char *p1, char *p2, ssize_t s1, ssize_t s2, uint64_t n)
 {
-    size_t gridDim = get_gridDim(n);
-    size_t blockDim = get_blockDim(n);
-    <%="cumo_#{c_iter}_stride_stride_kernel"%><<<gridDim, blockDim>>>(p1,p2,s1,s2,n);
+    size_t grid_dim = cumo_get_grid_dim(n);
+    size_t block_dim = cumo_get_block_dim(n);
+    <%="cumo_#{c_iter}_stride_stride_kernel"%><<<grid_dim, block_dim>>>(p1,p2,s1,s2,n);
 }
 <% end %>

data/ext/cumo/narray/gen/tmpl/to_a.c CHANGED

@@ -1,5 +1,5 @@
 static void
-<%=c_iter%>(na_loop_t *const lp)
+<%=c_iter%>(cumo_na_loop_t *const lp)
 {
     size_t i, s1;
     char *p1;
@@ -7,20 +7,20 @@ static void
     dtype x;
     volatile VALUE a, y;
-    INIT_COUNTER(lp, i);
-    INIT_PTR_IDX(lp, 0, p1, s1, idx1);
+    CUMO_INIT_COUNTER(lp, i);
+    CUMO_INIT_PTR_IDX(lp, 0, p1, s1, idx1);
     a = rb_ary_new2(i);
     rb_ary_push(lp->args[1].value, a);
-    //SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
+    //CUMO_SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
     if (idx1) {
         for (; i--;) {
-            GET_DATA_INDEX(p1,idx1,dtype,x);
+            CUMO_GET_DATA_INDEX(p1,idx1,dtype,x);
             y = m_data_to_num(x);
             rb_ary_push(a,y);
         }
     } else {
         for (; i--;) {
-            GET_DATA_STRIDE(p1,s1,dtype,x);
+            CUMO_GET_DATA_STRIDE(p1,s1,dtype,x);
             y = m_data_to_num(x);
             rb_ary_push(a,y);
         }
@@ -35,9 +35,9 @@ static void
 static VALUE
 <%=c_func(0)%>(VALUE self)
 {
-    ndfunc_arg_in_t ain[3] = {{Qnil,0},{sym_loop_opt},{sym_option}};
-    ndfunc_arg_out_t aout[1] = {{rb_cArray,0}}; // dummy?
-    ndfunc_t ndf = { <%=c_iter%>, FULL_LOOP_NIP, 3, 1, ain, aout };
+    cumo_ndfunc_arg_in_t ain[3] = {{Qnil,0},{cumo_sym_loop_opt},{cumo_sym_option}};
+    cumo_ndfunc_arg_out_t aout[1] = {{rb_cArray,0}}; // dummy?
+    cumo_ndfunc_t ndf = { <%=c_iter%>, CUMO_FULL_LOOP_NIP, 3, 1, ain, aout };
     cumo_cuda_runtime_check_status(cudaDeviceSynchronize());
-    return na_ndloop_cast_narray_to_rarray(&ndf, self, Qnil);
+    return cumo_na_ndloop_cast_narray_to_rarray(&ndf, self, Qnil);
 }

data/ext/cumo/narray/gen/tmpl/unary.c CHANGED

@@ -8,47 +8,47 @@ void <%="cumo_#{c_iter}_contiguous_kernel_launch"%>(char *p1, char *p2, uint64_t
 <% end %>
 static void
-<%=c_iter%>(na_loop_t *const lp)
+<%=c_iter%>(cumo_na_loop_t *const lp)
 {
     size_t  n;
     char   *p1, *p2;
     ssize_t s1, s2;
     size_t *idx1, *idx2;
-    INIT_COUNTER(lp, n);
-    INIT_PTR_IDX(lp, 0, p1, s1, idx1);
-    INIT_PTR_IDX(lp, 1, p2, s2, idx2);
+    CUMO_INIT_COUNTER(lp, n);
+    CUMO_INIT_PTR_IDX(lp, 0, p1, s1, idx1);
+    CUMO_INIT_PTR_IDX(lp, 1, p2, s2, idx2);
     <% if type_name == 'robject' || name == 'map' %>
     {
         size_t i;
         dtype x;
-        SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
+        CUMO_SHOW_SYNCHRONIZE_FIXME_WARNING_ONCE("<%=name%>", "<%=type_name%>");
         if (idx1) {
             if (idx2) {
                 for (i=0; i<n; i++) {
-                    GET_DATA_INDEX(p1,idx1,dtype,x);
+                    CUMO_GET_DATA_INDEX(p1,idx1,dtype,x);
                     x = m_<%=name%>(x);
-                    SET_DATA_INDEX(p2,idx2,dtype,x);
+                    CUMO_SET_DATA_INDEX(p2,idx2,dtype,x);
                 }
             } else {
                 for (i=0; i<n; i++) {
-                    GET_DATA_INDEX(p1,idx1,dtype,x);
+                    CUMO_GET_DATA_INDEX(p1,idx1,dtype,x);
                     x = m_<%=name%>(x);
-                    SET_DATA_STRIDE(p2,s2,dtype,x);
+                    CUMO_SET_DATA_STRIDE(p2,s2,dtype,x);
                 }
             }
         } else {
             if (idx2) {
                 for (i=0; i<n; i++) {
-                    GET_DATA_STRIDE(p1,s1,dtype,x);
+                    CUMO_GET_DATA_STRIDE(p1,s1,dtype,x);
                     x = m_<%=name%>(x);
-                    SET_DATA_INDEX(p2,idx2,dtype,x);
+                    CUMO_SET_DATA_INDEX(p2,idx2,dtype,x);
                 }
             } else {
                 //<% if need_align %>
-                if (is_aligned(p1,sizeof(dtype)) &&
-                    is_aligned(p2,sizeof(dtype)) ) {
+                if (cumo_is_aligned(p1,sizeof(dtype)) &&
+                    cumo_is_aligned(p2,sizeof(dtype)) ) {
                     if (s1 == sizeof(dtype) &&
                         s2 == sizeof(dtype) ) {
                         for (i=0; i<n; i++) {
@@ -56,8 +56,8 @@ static void
                         }
                         return;
                     }
-                    if (is_aligned_step(s1,sizeof(dtype)) &&
-                        is_aligned_step(s2,sizeof(dtype)) ) {
+                    if (cumo_is_aligned_step(s1,sizeof(dtype)) &&
+                        cumo_is_aligned_step(s2,sizeof(dtype)) ) {
                         //<% end %>
                         for (i=0; i<n; i++) {
                             *(dtype*)p2 = m_<%=name%>(*(dtype*)p1);
@@ -69,9 +69,9 @@ static void
                     }
                 }
                 for (i=0; i<n; i++) {
-                    GET_DATA_STRIDE(p1,s1,dtype,x);
+                    CUMO_GET_DATA_STRIDE(p1,s1,dtype,x);
                     x = m_<%=name%>(x);
-                    SET_DATA_STRIDE(p2,s2,dtype,x);
+                    CUMO_SET_DATA_STRIDE(p2,s2,dtype,x);
                 }
                 //<% end %>
             }
@@ -90,15 +90,15 @@ static void
                 <%="cumo_#{c_iter}_stride_index_kernel_launch"%>(p1,p2,s1,idx2,n);
             } else {
                 //<% if need_align %>
-                if (is_aligned(p1,sizeof(dtype)) &&
-                    is_aligned(p2,sizeof(dtype)) ) {
+                if (cumo_is_aligned(p1,sizeof(dtype)) &&
+                    cumo_is_aligned(p2,sizeof(dtype)) ) {
                     if (s1 == sizeof(dtype) &&
                         s2 == sizeof(dtype) ) {
                         <%="cumo_#{c_iter}_contiguous_kernel_launch"%>(p1,p2,n);
                         return;
                     }
-                    if (is_aligned_step(s1,sizeof(dtype)) &&
-                        is_aligned_step(s2,sizeof(dtype)) ) {
+                    if (cumo_is_aligned_step(s1,sizeof(dtype)) &&
+                        cumo_is_aligned_step(s2,sizeof(dtype)) ) {
                         //<% end %>
                         <%="cumo_#{c_iter}_stride_stride_kernel_launch"%>(p1,p2,s1,s2,n);
                         return;
@@ -121,12 +121,12 @@ static void
 static VALUE
 <%=c_func(0)%>(VALUE self)
 {
-    ndfunc_arg_in_t ain[1] = {{cT,0}};
-    ndfunc_arg_out_t aout[1] = {{cT,0}};
-    ndfunc_t ndf = {<%=c_iter%>, FULL_LOOP, 1,1, ain,aout};
+    cumo_ndfunc_arg_in_t ain[1] = {{cT,0}};
+    cumo_ndfunc_arg_out_t aout[1] = {{cT,0}};
+    cumo_ndfunc_t ndf = {<%=c_iter%>, CUMO_FULL_LOOP, 1,1, ain,aout};
     <% if name == 'map' %>
     cumo_cuda_runtime_check_status(cudaDeviceSynchronize());
     <% end %>
-    return na_ndloop(&ndf, 1, self);
+    return cumo_na_ndloop(&ndf, 1, self);
 }