RubyGems - numo-narray-alt - Versions diffs - 0.10.5 → 0.11.0 - Mend

numo-narray-alt 0.10.5 → 0.11.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

checksums.yaml +4 -4
data/README.md +9 -0
data/ext/numo/narray/extconf.rb +2 -0
data/ext/numo/narray/numo/narray.h +3 -3
data/ext/numo/narray/src/mh/math/sqrt.h +372 -0
data/ext/numo/narray/src/mh/mulsum.h +1360 -74
data/ext/numo/narray/src/mh/op/add.h +20 -0
data/ext/numo/narray/src/mh/op/binary_func.h +542 -0
data/ext/numo/narray/src/mh/op/div.h +20 -0
data/ext/numo/narray/src/mh/op/mul.h +20 -0
data/ext/numo/narray/src/mh/op/sub.h +20 -0
data/ext/numo/narray/src/mh/sort.h +4 -4
data/ext/numo/narray/src/t_bit.c +0 -5
data/ext/numo/narray/src/t_dcomplex.c +0 -5
data/ext/numo/narray/src/t_dfloat.c +35 -3
data/ext/numo/narray/src/t_int16.c +0 -5
data/ext/numo/narray/src/t_int32.c +0 -5
data/ext/numo/narray/src/t_int64.c +0 -5
data/ext/numo/narray/src/t_int8.c +0 -5
data/ext/numo/narray/src/t_robject.c +0 -5
data/ext/numo/narray/src/t_scomplex.c +0 -5
data/ext/numo/narray/src/t_sfloat.c +35 -3
data/ext/numo/narray/src/t_uint16.c +0 -5
data/ext/numo/narray/src/t_uint32.c +0 -5
data/ext/numo/narray/src/t_uint64.c +0 -5
data/ext/numo/narray/src/t_uint8.c +0 -5
metadata +2 -2

data/ext/numo/narray/src/mh/op/add.h CHANGED Viewed

@@ -75,4 +75,24 @@
   DEF_BINARY_SELF_FUNC(add, dfloat, numo_cDFloat)                                              \
   DEF_BINARY_FUNC(add, '+', dfloat, numo_cDFloat)
+#define DEF_NARRAY_SFLT_ADD_AVX_METHOD_FUNC()                                                  \
+  DEF_BINARY_SFLT_AVX_ITER_FUNC(add, _mm256_add_ps)                                            \
+  DEF_BINARY_SELF_FUNC(add, sfloat, numo_cSFloat)                                              \
+  DEF_BINARY_FUNC(add, '+', sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_ADD_AVX_METHOD_FUNC()                                                  \
+  DEF_BINARY_DFLT_AVX_ITER_FUNC(add, _mm256_add_pd)                                            \
+  DEF_BINARY_SELF_FUNC(add, dfloat, numo_cDFloat)                                              \
+  DEF_BINARY_FUNC(add, '+', dfloat, numo_cDFloat)
+#define DEF_NARRAY_SFLT_ADD_NEON_METHOD_FUNC()                                                 \
+  DEF_BINARY_SFLT_NEON_ITER_FUNC(add, vaddq_f32)                                               \
+  DEF_BINARY_SELF_FUNC(add, sfloat, numo_cSFloat)                                              \
+  DEF_BINARY_FUNC(add, '+', sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_ADD_NEON_METHOD_FUNC()                                                 \
+  DEF_BINARY_DFLT_NEON_ITER_FUNC(add, vaddq_f64)                                               \
+  DEF_BINARY_SELF_FUNC(add, dfloat, numo_cDFloat)                                              \
+  DEF_BINARY_FUNC(add, '+', dfloat, numo_cDFloat)
 #endif /* NUMO_NARRAY_MH_OP_ADD_H */

data/ext/numo/narray/src/mh/op/binary_func.h CHANGED Viewed

@@ -420,4 +420,546 @@
     }                                                                                          \
   }
+#define DEF_BINARY_SFLT_AVX_ITER_FUNC(fOpFunc, fSimdOp)                                        \
+  static void iter_sfloat_##fOpFunc(na_loop_t* const lp) {                                     \
+    size_t i = 0;                                                                              \
+    ITER_BINARY_INIT_VARS()                                                                    \
+                                                                                               \
+    size_t cnt;                                                                                \
+    size_t cnt_simd_loop = -1;                                                                 \
+    __m256 a;                                                                                  \
+    __m256 b;                                                                                  \
+    size_t num_pack;                                                                           \
+    num_pack = AVX_ALIGNMENT_SIZE / sizeof(sfloat);                                            \
+                                                                                               \
+    if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                    \
+        is_aligned(p3, sizeof(sfloat))) {                                                      \
+      if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat) && s3 == sizeof(sfloat)) {              \
+        if ((n >= num_pack) &&                                                                 \
+            is_same_aligned3(                                                                  \
+              &((sfloat*)p1)[i], &((sfloat*)p2)[i], &((sfloat*)p3)[i], AVX_ALIGNMENT_SIZE      \
+            )) {                                                                               \
+          cnt = get_count_of_elements_not_aligned_to_simd_size(                                \
+            &((sfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(sfloat)                              \
+          );                                                                                   \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+          cnt_simd_loop = (n - i) % num_pack;                                                  \
+          if (p1 == p3) {                                                                      \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              a = _mm256_load_ps(&((sfloat*)p1)[i]);                                           \
+              b = _mm256_load_ps(&((sfloat*)p2)[i]);                                           \
+              a = fSimdOp(a, b);                                                               \
+              _mm256_store_ps(&((sfloat*)p1)[i], a);                                           \
+            }                                                                                  \
+          } else {                                                                             \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              a = _mm256_load_ps(&((sfloat*)p1)[i]);                                           \
+              b = _mm256_load_ps(&((sfloat*)p2)[i]);                                           \
+              a = fSimdOp(a, b);                                                               \
+              _mm256_stream_ps(&((sfloat*)p3)[i], a);                                          \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        if (cnt_simd_loop != 0) {                                                              \
+          if (p1 == p3) {                                                                      \
+            for (; i < n; i++) {                                                               \
+              ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (; i < n; i++) {                                                               \
+              ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+      if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat)) &&        \
+          is_aligned_step(s3, sizeof(sfloat))) {                                               \
+        if (s2 == 0) {                                                                         \
+          if (s1 == sizeof(sfloat) && s3 == sizeof(sfloat)) {                                  \
+            b = _mm256_broadcast_ss(&((sfloat*)p2)[0]);                                        \
+            if ((n >= num_pack) &&                                                             \
+                is_same_aligned2(&((sfloat*)p1)[i], &((sfloat*)p3)[i], AVX_ALIGNMENT_SIZE)) {  \
+              cnt = get_count_of_elements_not_aligned_to_simd_size(                            \
+                &((sfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(sfloat)                          \
+              );                                                                               \
+              if (p1 == p3) {                                                                  \
+                for (i = 0; i < cnt; i++) {                                                    \
+                  ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (i = 0; i < cnt; i++) {                                                    \
+                  ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+              cnt_simd_loop = (n - i) % num_pack;                                              \
+              if (p1 == p3) {                                                                  \
+                for (; i < n - cnt_simd_loop; i += num_pack) {                                 \
+                  a = _mm256_load_ps(&((sfloat*)p1)[i]);                                       \
+                  a = fSimdOp(a, b);                                                           \
+                  _mm256_store_ps(&((sfloat*)p1)[i], a);                                       \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < n - cnt_simd_loop; i += num_pack) {                                 \
+                  a = _mm256_load_ps(&((sfloat*)p1)[i]);                                       \
+                  a = fSimdOp(a, b);                                                           \
+                  _mm256_stream_ps(&((sfloat*)p3)[i], a);                                      \
+                }                                                                              \
+              }                                                                                \
+            }                                                                                  \
+            if (cnt_simd_loop != 0) {                                                          \
+              if (p1 == p3) {                                                                  \
+                for (; i < n; i++) {                                                           \
+                  ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < n; i++) {                                                           \
+                  ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(sfloat*)p3 = m_##fOpFunc(*(sfloat*)p1, *(sfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        } else {                                                                               \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < n; i++) {                                                          \
+              *(sfloat*)p1 = m_##fOpFunc(*(sfloat*)p1, *(sfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(sfloat*)p3 = m_##fOpFunc(*(sfloat*)p1, *(sfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+    }                                                                                          \
+                                                                                               \
+    for (i = 0; i < n; i++) {                                                                  \
+      sfloat x;                                                                                \
+      sfloat y;                                                                                \
+      sfloat z;                                                                                \
+      GET_DATA_STRIDE(p1, s1, sfloat, x);                                                      \
+      GET_DATA_STRIDE(p2, s2, sfloat, y);                                                      \
+      z = m_##fOpFunc(x, y);                                                                   \
+      SET_DATA_STRIDE(p3, s3, sfloat, z);                                                      \
+    }                                                                                          \
+  }
+#define DEF_BINARY_DFLT_AVX_ITER_FUNC(fOpFunc, fSimdOp)                                        \
+  static void iter_dfloat_##fOpFunc(na_loop_t* const lp) {                                     \
+    size_t i = 0;                                                                              \
+    ITER_BINARY_INIT_VARS()                                                                    \
+                                                                                               \
+    size_t cnt;                                                                                \
+    size_t cnt_simd_loop = -1;                                                                 \
+    __m256d a;                                                                                 \
+    __m256d b;                                                                                 \
+    size_t num_pack;                                                                           \
+    num_pack = AVX_ALIGNMENT_SIZE / sizeof(dfloat);                                            \
+                                                                                               \
+    if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                    \
+        is_aligned(p3, sizeof(dfloat))) {                                                      \
+      if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat) && s3 == sizeof(dfloat)) {              \
+        if ((n >= num_pack) &&                                                                 \
+            is_same_aligned3(                                                                  \
+              &((dfloat*)p1)[i], &((dfloat*)p2)[i], &((dfloat*)p3)[i], AVX_ALIGNMENT_SIZE      \
+            )) {                                                                               \
+          cnt = get_count_of_elements_not_aligned_to_simd_size(                                \
+            &((dfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(dfloat)                              \
+          );                                                                                   \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+          cnt_simd_loop = (n - i) % num_pack;                                                  \
+          if (p1 == p3) {                                                                      \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              a = _mm256_load_pd(&((dfloat*)p1)[i]);                                           \
+              b = _mm256_load_pd(&((dfloat*)p2)[i]);                                           \
+              a = fSimdOp(a, b);                                                               \
+              _mm256_store_pd(&((dfloat*)p1)[i], a);                                           \
+            }                                                                                  \
+          } else {                                                                             \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              a = _mm256_load_pd(&((dfloat*)p1)[i]);                                           \
+              b = _mm256_load_pd(&((dfloat*)p2)[i]);                                           \
+              a = fSimdOp(a, b);                                                               \
+              _mm256_stream_pd(&((dfloat*)p3)[i], a);                                          \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        if (cnt_simd_loop != 0) {                                                              \
+          if (p1 == p3) {                                                                      \
+            for (; i < n; i++) {                                                               \
+              ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (; i < n; i++) {                                                               \
+              ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+      if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat)) &&        \
+          is_aligned_step(s3, sizeof(dfloat))) {                                               \
+        if (s2 == 0) {                                                                         \
+          if (s1 == sizeof(dfloat) && s3 == sizeof(dfloat)) {                                  \
+            b = _mm256_broadcast_sd(&((dfloat*)p2)[0]);                                        \
+            if ((n >= num_pack) &&                                                             \
+                is_same_aligned2(&((dfloat*)p1)[i], &((dfloat*)p3)[i], AVX_ALIGNMENT_SIZE)) {  \
+              cnt = get_count_of_elements_not_aligned_to_simd_size(                            \
+                &((dfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(dfloat)                          \
+              );                                                                               \
+              if (p1 == p3) {                                                                  \
+                for (; i < cnt; i++) {                                                         \
+                  ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < cnt; i++) {                                                         \
+                  ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+              cnt_simd_loop = (n - i) % num_pack;                                              \
+              if (p1 == p3) {                                                                  \
+                for (; i < n - cnt_simd_loop; i += num_pack) {                                 \
+                  a = _mm256_load_pd(&((dfloat*)p1)[i]);                                       \
+                  a = fSimdOp(a, b);                                                           \
+                  _mm256_store_pd(&((dfloat*)p1)[i], a);                                       \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < n - cnt_simd_loop; i += num_pack) {                                 \
+                  a = _mm256_load_pd(&((dfloat*)p1)[i]);                                       \
+                  a = fSimdOp(a, b);                                                           \
+                  _mm256_stream_pd(&((dfloat*)p3)[i], a);                                      \
+                }                                                                              \
+              }                                                                                \
+            }                                                                                  \
+            if (cnt_simd_loop != 0) {                                                          \
+              if (p1 == p3) {                                                                  \
+                for (; i < n; i++) {                                                           \
+                  ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < n; i++) {                                                           \
+                  ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(dfloat*)p3 = m_##fOpFunc(*(dfloat*)p1, *(dfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        } else {                                                                               \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < n; i++) {                                                          \
+              *(dfloat*)p1 = m_##fOpFunc(*(dfloat*)p1, *(dfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(dfloat*)p3 = m_##fOpFunc(*(dfloat*)p1, *(dfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+    }                                                                                          \
+                                                                                               \
+    for (i = 0; i < n; i++) {                                                                  \
+      dfloat x;                                                                                \
+      dfloat y;                                                                                \
+      dfloat z;                                                                                \
+      GET_DATA_STRIDE(p1, s1, dfloat, x);                                                      \
+      GET_DATA_STRIDE(p2, s2, dfloat, y);                                                      \
+      z = m_##fOpFunc(x, y);                                                                   \
+      SET_DATA_STRIDE(p3, s3, dfloat, z);                                                      \
+    }                                                                                          \
+  }
+#define DEF_BINARY_SFLT_NEON_ITER_FUNC(fOpFunc, fSimdOp)                                       \
+  static void iter_sfloat_##fOpFunc(na_loop_t* const lp) {                                     \
+    size_t i = 0;                                                                              \
+    ITER_BINARY_INIT_VARS()                                                                    \
+                                                                                               \
+    size_t cnt;                                                                                \
+    size_t cnt_simd_loop = -1;                                                                 \
+    float32x4_t a;                                                                             \
+    float32x4_t b;                                                                             \
+    size_t num_pack;                                                                           \
+    num_pack = NEON_ALIGNMENT_SIZE / sizeof(sfloat);                                           \
+                                                                                               \
+    if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                    \
+        is_aligned(p3, sizeof(sfloat))) {                                                      \
+      if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat) && s3 == sizeof(sfloat)) {              \
+        if ((n >= num_pack) &&                                                                 \
+            is_same_aligned3(                                                                  \
+              &((sfloat*)p1)[i], &((sfloat*)p2)[i], &((sfloat*)p3)[i], NEON_ALIGNMENT_SIZE     \
+            )) {                                                                               \
+          cnt = get_count_of_elements_not_aligned_to_simd_size(                                \
+            &((sfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(sfloat)                             \
+          );                                                                                   \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+          cnt_simd_loop = (n - i) % num_pack;                                                  \
+          for (; i < n - cnt_simd_loop; i += num_pack) {                                       \
+            a = vld1q_f32(&((sfloat*)p1)[i]);                                                  \
+            b = vld1q_f32(&((sfloat*)p2)[i]);                                                  \
+            a = fSimdOp(a, b);                                                                 \
+            vst1q_f32(&((sfloat*)p3)[i], a);                                                   \
+          }                                                                                    \
+        }                                                                                      \
+        if (cnt_simd_loop != 0) {                                                              \
+          if (p1 == p3) {                                                                      \
+            for (; i < n; i++) {                                                               \
+              ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (; i < n; i++) {                                                               \
+              ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], ((sfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+      if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat)) &&        \
+          is_aligned_step(s3, sizeof(sfloat))) {                                               \
+        if (s2 == 0) {                                                                         \
+          if (s1 == sizeof(sfloat) && s3 == sizeof(sfloat)) {                                  \
+            b = vld1q_dup_f32(&((sfloat*)p2)[0]);                                              \
+            if ((n >= num_pack) &&                                                             \
+                is_same_aligned2(&((sfloat*)p1)[i], &((sfloat*)p3)[i], NEON_ALIGNMENT_SIZE)) { \
+              cnt = get_count_of_elements_not_aligned_to_simd_size(                            \
+                &((sfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(sfloat)                         \
+              );                                                                               \
+              if (p1 == p3) {                                                                  \
+                for (i = 0; i < cnt; i++) {                                                    \
+                  ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (i = 0; i < cnt; i++) {                                                    \
+                  ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+              cnt_simd_loop = (n - i) % num_pack;                                              \
+              for (; i < n - cnt_simd_loop; i += num_pack) {                                   \
+                a = vld1q_f32(&((sfloat*)p1)[i]);                                              \
+                a = fSimdOp(a, b);                                                             \
+                vst1q_f32(&((sfloat*)p3)[i], a);                                               \
+              }                                                                                \
+            }                                                                                  \
+            if (cnt_simd_loop != 0) {                                                          \
+              if (p1 == p3) {                                                                  \
+                for (; i < n; i++) {                                                           \
+                  ((sfloat*)p1)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < n; i++) {                                                           \
+                  ((sfloat*)p3)[i] = m_##fOpFunc(((sfloat*)p1)[i], *(sfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(sfloat*)p3 = m_##fOpFunc(*(sfloat*)p1, *(sfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        } else {                                                                               \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < n; i++) {                                                          \
+              *(sfloat*)p1 = m_##fOpFunc(*(sfloat*)p1, *(sfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(sfloat*)p3 = m_##fOpFunc(*(sfloat*)p1, *(sfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+    }                                                                                          \
+                                                                                               \
+    for (i = 0; i < n; i++) {                                                                  \
+      sfloat x;                                                                                \
+      sfloat y;                                                                                \
+      sfloat z;                                                                                \
+      GET_DATA_STRIDE(p1, s1, sfloat, x);                                                      \
+      GET_DATA_STRIDE(p2, s2, sfloat, y);                                                      \
+      z = m_##fOpFunc(x, y);                                                                   \
+      SET_DATA_STRIDE(p3, s3, sfloat, z);                                                      \
+    }                                                                                          \
+  }
+#define DEF_BINARY_DFLT_NEON_ITER_FUNC(fOpFunc, fSimdOp)                                       \
+  static void iter_dfloat_##fOpFunc(na_loop_t* const lp) {                                     \
+    size_t i = 0;                                                                              \
+    ITER_BINARY_INIT_VARS()                                                                    \
+                                                                                               \
+    size_t cnt;                                                                                \
+    size_t cnt_simd_loop = -1;                                                                 \
+    float64x2_t a;                                                                             \
+    float64x2_t b;                                                                             \
+    size_t num_pack;                                                                           \
+    num_pack = NEON_ALIGNMENT_SIZE / sizeof(dfloat);                                           \
+                                                                                               \
+    if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                    \
+        is_aligned(p3, sizeof(dfloat))) {                                                      \
+      if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat) && s3 == sizeof(dfloat)) {              \
+        if ((n >= num_pack) &&                                                                 \
+            is_same_aligned3(                                                                  \
+              &((dfloat*)p1)[i], &((dfloat*)p2)[i], &((dfloat*)p3)[i], NEON_ALIGNMENT_SIZE     \
+            )) {                                                                               \
+          cnt = get_count_of_elements_not_aligned_to_simd_size(                                \
+            &((dfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(dfloat)                             \
+          );                                                                                   \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < cnt; i++) {                                                        \
+              ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+          cnt_simd_loop = (n - i) % num_pack;                                                  \
+          for (; i < n - cnt_simd_loop; i += num_pack) {                                       \
+            a = vld1q_f64(&((dfloat*)p1)[i]);                                                  \
+            b = vld1q_f64(&((dfloat*)p2)[i]);                                                  \
+            a = fSimdOp(a, b);                                                                 \
+            vst1q_f64(&((dfloat*)p3)[i], a);                                                   \
+          }                                                                                    \
+        }                                                                                      \
+        if (cnt_simd_loop != 0) {                                                              \
+          if (p1 == p3) {                                                                      \
+            for (; i < n; i++) {                                                               \
+              ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          } else {                                                                             \
+            for (; i < n; i++) {                                                               \
+              ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], ((dfloat*)p2)[i]);              \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+      if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat)) &&        \
+          is_aligned_step(s3, sizeof(dfloat))) {                                               \
+        if (s2 == 0) {                                                                         \
+          if (s1 == sizeof(dfloat) && s3 == sizeof(dfloat)) {                                  \
+            b = vld1q_dup_f64(&((dfloat*)p2)[0]);                                              \
+            if ((n >= num_pack) &&                                                             \
+                is_same_aligned2(&((dfloat*)p1)[i], &((dfloat*)p3)[i], NEON_ALIGNMENT_SIZE)) { \
+              cnt = get_count_of_elements_not_aligned_to_simd_size(                            \
+                &((dfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(dfloat)                         \
+              );                                                                               \
+              if (p1 == p3) {                                                                  \
+                for (; i < cnt; i++) {                                                         \
+                  ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < cnt; i++) {                                                         \
+                  ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+              cnt_simd_loop = (n - i) % num_pack;                                              \
+              for (; i < n - cnt_simd_loop; i += num_pack) {                                   \
+                a = vld1q_f64(&((dfloat*)p1)[i]);                                              \
+                a = fSimdOp(a, b);                                                             \
+                vst1q_f64(&((dfloat*)p3)[i], a);                                               \
+              }                                                                                \
+            }                                                                                  \
+            if (cnt_simd_loop != 0) {                                                          \
+              if (p1 == p3) {                                                                  \
+                for (; i < n; i++) {                                                           \
+                  ((dfloat*)p1)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              } else {                                                                         \
+                for (; i < n; i++) {                                                           \
+                  ((dfloat*)p3)[i] = m_##fOpFunc(((dfloat*)p1)[i], *(dfloat*)p2);              \
+                }                                                                              \
+              }                                                                                \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(dfloat*)p3 = m_##fOpFunc(*(dfloat*)p1, *(dfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        } else {                                                                               \
+          if (p1 == p3) {                                                                      \
+            for (i = 0; i < n; i++) {                                                          \
+              *(dfloat*)p1 = m_##fOpFunc(*(dfloat*)p1, *(dfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+            }                                                                                  \
+          } else {                                                                             \
+            for (i = 0; i < n; i++) {                                                          \
+              *(dfloat*)p3 = m_##fOpFunc(*(dfloat*)p1, *(dfloat*)p2);                          \
+              p1 += s1;                                                                        \
+              p2 += s2;                                                                        \
+              p3 += s3;                                                                        \
+            }                                                                                  \
+          }                                                                                    \
+        }                                                                                      \
+        return;                                                                                \
+      }                                                                                        \
+    }                                                                                          \
+                                                                                               \
+    for (i = 0; i < n; i++) {                                                                  \
+      dfloat x;                                                                                \
+      dfloat y;                                                                                \
+      dfloat z;                                                                                \
+      GET_DATA_STRIDE(p1, s1, dfloat, x);                                                      \
+      GET_DATA_STRIDE(p2, s2, dfloat, y);                                                      \
+      z = m_##fOpFunc(x, y);                                                                   \
+      SET_DATA_STRIDE(p3, s3, dfloat, z);                                                      \
+    }                                                                                          \
+  }
 #endif /* NUMO_NARRAY_MH_OP_BINARY_FUNC_H */

data/ext/numo/narray/src/mh/op/div.h CHANGED Viewed

@@ -115,4 +115,24 @@
   DEF_BINARY_SELF_FUNC(div, dfloat, numo_cDFloat)                                              \
   DEF_BINARY_FUNC(div, '/', dfloat, numo_cDFloat)
+#define DEF_NARRAY_SFLT_DIV_AVX_METHOD_FUNC()                                                  \
+  DEF_BINARY_SFLT_AVX_ITER_FUNC(div, _mm256_div_ps)                                            \
+  DEF_BINARY_SELF_FUNC(div, sfloat, numo_cSFloat)                                              \
+  DEF_BINARY_FUNC(div, '/', sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_DIV_AVX_METHOD_FUNC()                                                  \
+  DEF_BINARY_DFLT_AVX_ITER_FUNC(div, _mm256_div_pd)                                            \
+  DEF_BINARY_SELF_FUNC(div, dfloat, numo_cDFloat)                                              \
+  DEF_BINARY_FUNC(div, '/', dfloat, numo_cDFloat)
+#define DEF_NARRAY_SFLT_DIV_NEON_METHOD_FUNC()                                                 \
+  DEF_BINARY_SFLT_NEON_ITER_FUNC(div, vdivq_f32)                                               \
+  DEF_BINARY_SELF_FUNC(div, sfloat, numo_cSFloat)                                              \
+  DEF_BINARY_FUNC(div, '/', sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_DIV_NEON_METHOD_FUNC()                                                 \
+  DEF_BINARY_DFLT_NEON_ITER_FUNC(div, vdivq_f64)                                               \
+  DEF_BINARY_SELF_FUNC(div, dfloat, numo_cDFloat)                                              \
+  DEF_BINARY_FUNC(div, '/', dfloat, numo_cDFloat)
 #endif /* NUMO_NARRAY_MH_OP_DIV_H */