RubyGems - numo-narray-alt - Versions diffs - 0.10.4 → 0.11.0 - Mend

numo-narray-alt 0.10.4 → 0.11.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

checksums.yaml +4 -4
data/README.md +9 -0
data/ext/numo/narray/extconf.rb +2 -0
data/ext/numo/narray/numo/narray.h +3 -3
data/ext/numo/narray/numo/types/float_macro.h +5 -1
data/ext/numo/narray/src/mh/math/sqrt.h +372 -0
data/ext/numo/narray/src/mh/mulsum.h +1360 -74
data/ext/numo/narray/src/mh/op/add.h +20 -0
data/ext/numo/narray/src/mh/op/binary_func.h +542 -0
data/ext/numo/narray/src/mh/op/div.h +20 -0
data/ext/numo/narray/src/mh/op/mul.h +20 -0
data/ext/numo/narray/src/mh/op/sub.h +20 -0
data/ext/numo/narray/src/mh/sort.h +4 -4
data/ext/numo/narray/src/t_bit.c +0 -5
data/ext/numo/narray/src/t_dcomplex.c +0 -5
data/ext/numo/narray/src/t_dfloat.c +35 -3
data/ext/numo/narray/src/t_int16.c +0 -5
data/ext/numo/narray/src/t_int32.c +0 -5
data/ext/numo/narray/src/t_int64.c +0 -5
data/ext/numo/narray/src/t_int8.c +0 -5
data/ext/numo/narray/src/t_robject.c +0 -5
data/ext/numo/narray/src/t_scomplex.c +0 -5
data/ext/numo/narray/src/t_sfloat.c +35 -3
data/ext/numo/narray/src/t_uint16.c +0 -5
data/ext/numo/narray/src/t_uint32.c +0 -5
data/ext/numo/narray/src/t_uint64.c +0 -5
data/ext/numo/narray/src/t_uint8.c +0 -5
metadata +3 -3

data/ext/numo/narray/src/mh/mulsum.h CHANGED Viewed

@@ -1,46 +1,54 @@
 #ifndef NUMO_NARRAY_MH_MULSUM_H
 #define NUMO_NARRAY_MH_MULSUM_H 1
-#define DEF_NARRAY_FLT_MULSUM_METHOD_FUNC(tDType, tNAryClass)                                  \
-  static void iter_##tDType##_mulsum(na_loop_t* const lp) {                                    \
-    size_t n;                                                                                  \
-    char* p1;                                                                                  \
-    char* p2;                                                                                  \
-    char* p3;                                                                                  \
-    ssize_t s1;                                                                                \
-    ssize_t s2;                                                                                \
-    ssize_t s3;                                                                                \
-                                                                                               \
-    INIT_COUNTER(lp, n);                                                                       \
-    INIT_PTR(lp, 0, p1, s1);                                                                   \
-    INIT_PTR(lp, 1, p2, s2);                                                                   \
-    INIT_PTR(lp, 2, p3, s3);                                                                   \
-                                                                                               \
-    if (s3 == 0) {                                                                             \
-      tDType z;                                                                                \
-      GET_DATA(p3, tDType, z);                                                                 \
-      for (size_t i = 0; i < n; i++) {                                                         \
-        tDType x;                                                                              \
-        tDType y;                                                                              \
-        GET_DATA_STRIDE(p1, s1, tDType, x);                                                    \
-        GET_DATA_STRIDE(p2, s2, tDType, y);                                                    \
-        m_mulsum(x, y, z);                                                                     \
-      }                                                                                        \
-      SET_DATA(p3, tDType, z);                                                                 \
-    } else {                                                                                   \
-      for (size_t i = 0; i < n; i++) {                                                         \
-        tDType x;                                                                              \
-        tDType y;                                                                              \
-        tDType z;                                                                              \
-        GET_DATA_STRIDE(p1, s1, tDType, x);                                                    \
-        GET_DATA_STRIDE(p2, s2, tDType, y);                                                    \
-        GET_DATA(p3, tDType, z);                                                               \
-        m_mulsum(x, y, z);                                                                     \
-        SET_DATA_STRIDE(p3, s3, tDType, z);                                                    \
-      }                                                                                        \
-    }                                                                                          \
-  }                                                                                            \
-                                                                                               \
+// Check whether every reduce axis has contig stride (== element size) in both
+// operands. When true, making the reduce axis the inner-most loop turns mulsum
+// into the all-contig + s3==0 SIMD path, which matters for patterns such as
+// x.dot(x.transpose) where the default (last-axis-as-inner) picks a gather
+// stride on the transposed operand.
+static inline bool nary_mulsum_reduce_axes_contig(VALUE reduce, VALUE va, VALUE vb) {
+  narray_t *na, *nb;
+  GetNArray(va, na);
+  GetNArray(vb, nb);
+  if (NA_TYPE(na) != NARRAY_DATA_T && NA_TYPE(na) != NARRAY_VIEW_T) return false;
+  if (NA_TYPE(nb) != NARRAY_DATA_T && NA_TYPE(nb) != NARRAY_VIEW_T) return false;
+  if (TEST_COLUMN_MAJOR(va) || TEST_COLUMN_MAJOR(vb)) return false;
+  ssize_t a_elmsz = nary_element_stride(va);
+  ssize_t b_elmsz = nary_element_stride(vb);
+  int max_ndim = na->ndim > nb->ndim ? na->ndim : nb->ndim;
+  for (int i = 0; i < max_ndim; i++) {
+    if (!na_test_reduce(reduce, i)) continue;
+    int da = i - (max_ndim - na->ndim);
+    int db = i - (max_ndim - nb->ndim);
+    if (da >= 0 && na->shape[da] > 1) {
+      ssize_t s;
+      if (NA_TYPE(na) == NARRAY_VIEW_T) {
+        stridx_t sdx = NA_VIEW_STRIDX(na)[da];
+        if (SDX_IS_INDEX(sdx)) return false;
+        s = SDX_GET_STRIDE(sdx);
+      } else {
+        s = a_elmsz;
+        for (int k = na->ndim - 1; k > da; k--) s *= na->shape[k];
+      }
+      if (s != a_elmsz) return false;
+    }
+    if (db >= 0 && nb->shape[db] > 1) {
+      ssize_t s;
+      if (NA_TYPE(nb) == NARRAY_VIEW_T) {
+        stridx_t sdx = NA_VIEW_STRIDX(nb)[db];
+        if (SDX_IS_INDEX(sdx)) return false;
+        s = SDX_GET_STRIDE(sdx);
+      } else {
+        s = b_elmsz;
+        for (int k = nb->ndim - 1; k > db; k--) s *= nb->shape[k];
+      }
+      if (s != b_elmsz) return false;
+    }
+  }
+  return true;
+}
+#define DEF_FLT_MULSUM_NAN_ITER_FUNC(tDType)                                                   \
   static void iter_##tDType##_mulsum_nan(na_loop_t* const lp) {                                \
     size_t n;                                                                                  \
     char* p1;                                                                                  \
@@ -49,13 +57,28 @@
     ssize_t s1;                                                                                \
     ssize_t s2;                                                                                \
     ssize_t s3;                                                                                \
-                                                                                               \
     INIT_COUNTER(lp, n);                                                                       \
     INIT_PTR(lp, 0, p1, s1);                                                                   \
     INIT_PTR(lp, 1, p2, s2);                                                                   \
     INIT_PTR(lp, 2, p3, s3);                                                                   \
-                                                                                               \
     if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(tDType)) && is_aligned(p2, sizeof(tDType)) &&                  \
+          is_aligned(p3, sizeof(tDType))) {                                                    \
+        if (s1 == sizeof(tDType) && s2 == sizeof(tDType)) {                                    \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum_nan(((tDType*)p1)[i], ((tDType*)p2)[i], *(tDType*)p3);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(tDType)) && is_aligned_step(s2, sizeof(tDType))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum_nan(*(tDType*)p1, *(tDType*)p2, *(tDType*)p3);                            \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
       tDType z;                                                                                \
       GET_DATA(p3, tDType, z);                                                                 \
       for (size_t i = 0; i < n; i++) {                                                         \
@@ -67,6 +90,25 @@
       }                                                                                        \
       SET_DATA(p3, tDType, z);                                                                 \
     } else {                                                                                   \
+      if (is_aligned(p1, sizeof(tDType)) && is_aligned(p2, sizeof(tDType)) &&                  \
+          is_aligned(p3, sizeof(tDType))) {                                                    \
+        if (s1 == sizeof(tDType) && s2 == sizeof(tDType) && s3 == sizeof(tDType)) {            \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum_nan(((tDType*)p1)[i], ((tDType*)p2)[i], ((tDType*)p3)[i]);                \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(tDType)) && is_aligned_step(s2, sizeof(tDType)) &&      \
+            is_aligned_step(s3, sizeof(tDType))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum_nan(*(tDType*)p1, *(tDType*)p2, *(tDType*)p3);                            \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
       for (size_t i = 0; i < n; i++) {                                                         \
         tDType x;                                                                              \
         tDType y;                                                                              \
@@ -78,8 +120,9 @@
         SET_DATA_STRIDE(p3, s3, tDType, z);                                                    \
       }                                                                                        \
     }                                                                                          \
-  }                                                                                            \
-                                                                                               \
+  }
+#define DEF_FLT_MULSUM_RUBY_FUNCS(tDType, tNAryClass)                                          \
   static VALUE tDType##_mulsum_self(int argc, VALUE* argv, VALUE self) {                       \
     if (argc < 1) {                                                                            \
       rb_raise(rb_eArgError, "wrong number of arguments (%d for >=1)", argc);                  \
@@ -93,6 +136,9 @@
     VALUE naryv[2] = { self, argv[0] };                                                        \
     VALUE reduce =                                                                             \
       na_reduce_dimension(argc - 1, argv + 1, 2, naryv, &ndf, iter_##tDType##_mulsum_nan);     \
+    if (nary_mulsum_reduce_axes_contig(reduce, self, argv[0])) {                               \
+      ndf.flag |= NDF_FLAT_REDUCE;                                                             \
+    }                                                                                          \
     VALUE v = na_ndloop(&ndf, 4, self, argv[0], reduce, m_mulsum_init);                        \
                                                                                                \
     return rb_funcall(v, rb_intern("extract"), 0);                                             \
@@ -113,6 +159,115 @@
     return rb_funcallv_kw(v, rb_intern("mulsum"), argc, argv, RB_PASS_CALLED_KEYWORDS);        \
   }
+#define DEF_INT_MULSUM_RUBY_FUNCS(tDType, tNAryClass)                                          \
+  static VALUE tDType##_mulsum_self(int argc, VALUE* argv, VALUE self) {                       \
+    if (argc < 1) {                                                                            \
+      rb_raise(rb_eArgError, "wrong number of arguments (%d for >=1)", argc);                  \
+    }                                                                                          \
+                                                                                               \
+    ndfunc_arg_in_t ain[4] = {                                                                 \
+      { tNAryClass, 0 }, { tNAryClass, 0 }, { sym_reduce, 0 }, { sym_init, 0 }                 \
+    };                                                                                         \
+    ndfunc_arg_out_t aout[1] = { { tNAryClass, 0 } };                                          \
+    ndfunc_t ndf = { iter_##tDType##_mulsum, STRIDE_LOOP_NIP, 4, 1, ain, aout };               \
+    VALUE naryv[2] = { self, argv[0] };                                                        \
+    VALUE reduce = na_reduce_dimension(argc - 1, argv + 1, 2, naryv, &ndf, 0);                 \
+    VALUE v = na_ndloop(&ndf, 4, self, argv[0], reduce, m_mulsum_init);                        \
+                                                                                               \
+    return rb_funcall(v, rb_intern("extract"), 0);                                             \
+  }                                                                                            \
+                                                                                               \
+  static VALUE tDType##_mulsum(int argc, VALUE* argv, VALUE self) {                            \
+    if (argc < 1) {                                                                            \
+      rb_raise(rb_eArgError, "wrong number of arguments (%d for >=1)", argc);                  \
+    }                                                                                          \
+                                                                                               \
+    VALUE klass = na_upcast(rb_obj_class(self), rb_obj_class(argv[0]));                        \
+    if (klass == tNAryClass) {                                                                 \
+      return tDType##_mulsum_self(argc, argv, self);                                           \
+    }                                                                                          \
+                                                                                               \
+    VALUE v = rb_funcall(klass, id_cast, 1, self);                                             \
+                                                                                               \
+    return rb_funcallv_kw(v, rb_intern("mulsum"), argc, argv, RB_PASS_CALLED_KEYWORDS);        \
+  }
+#define DEF_NARRAY_FLT_MULSUM_METHOD_FUNC(tDType, tNAryClass)                                  \
+  static void iter_##tDType##_mulsum(na_loop_t* const lp) {                                    \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(tDType)) && is_aligned(p2, sizeof(tDType)) &&                  \
+          is_aligned(p3, sizeof(tDType))) {                                                    \
+        if (s1 == sizeof(tDType) && s2 == sizeof(tDType)) {                                    \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(((tDType*)p1)[i], ((tDType*)p2)[i], *(tDType*)p3);                        \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(tDType)) && is_aligned_step(s2, sizeof(tDType))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(tDType*)p1, *(tDType*)p2, *(tDType*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      tDType z;                                                                                \
+      GET_DATA(p3, tDType, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        tDType x;                                                                              \
+        tDType y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, tDType, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, tDType, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, tDType, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(tDType)) && is_aligned(p2, sizeof(tDType)) &&                  \
+          is_aligned(p3, sizeof(tDType))) {                                                    \
+        if (s1 == sizeof(tDType) && s2 == sizeof(tDType) && s3 == sizeof(tDType)) {            \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(((tDType*)p1)[i], ((tDType*)p2)[i], ((tDType*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(tDType)) && is_aligned_step(s2, sizeof(tDType)) &&      \
+            is_aligned_step(s3, sizeof(tDType))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(tDType*)p1, *(tDType*)p2, *(tDType*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        tDType x;                                                                              \
+        tDType y;                                                                              \
+        tDType z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, tDType, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, tDType, y);                                                    \
+        GET_DATA(p3, tDType, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, tDType, z);                                                    \
+      }                                                                                        \
+    }                                                                                          \
+  }                                                                                            \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(tDType)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(tDType, tNAryClass)
 #define DEF_NARRAY_INT_MULSUM_METHOD_FUNC(tDType, tNAryClass)                                  \
   static void iter_##tDType##_mulsum(na_loop_t* const lp) {                                    \
     size_t n;                                                                                  \
@@ -122,13 +277,28 @@
     ssize_t s1;                                                                                \
     ssize_t s2;                                                                                \
     ssize_t s3;                                                                                \
-                                                                                               \
     INIT_COUNTER(lp, n);                                                                       \
     INIT_PTR(lp, 0, p1, s1);                                                                   \
     INIT_PTR(lp, 1, p2, s2);                                                                   \
     INIT_PTR(lp, 2, p3, s3);                                                                   \
-                                                                                               \
     if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(tDType)) && is_aligned(p2, sizeof(tDType)) &&                  \
+          is_aligned(p3, sizeof(tDType))) {                                                    \
+        if (s1 == sizeof(tDType) && s2 == sizeof(tDType)) {                                    \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(((tDType*)p1)[i], ((tDType*)p2)[i], *(tDType*)p3);                        \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(tDType)) && is_aligned_step(s2, sizeof(tDType))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(tDType*)p1, *(tDType*)p2, *(tDType*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
       tDType z;                                                                                \
       GET_DATA(p3, tDType, z);                                                                 \
       for (size_t i = 0; i < n; i++) {                                                         \
@@ -139,6 +309,25 @@
       }                                                                                        \
       SET_DATA(p3, tDType, z);                                                                 \
     } else {                                                                                   \
+      if (is_aligned(p1, sizeof(tDType)) && is_aligned(p2, sizeof(tDType)) &&                  \
+          is_aligned(p3, sizeof(tDType))) {                                                    \
+        if (s1 == sizeof(tDType) && s2 == sizeof(tDType) && s3 == sizeof(tDType)) {            \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(((tDType*)p1)[i], ((tDType*)p2)[i], ((tDType*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(tDType)) && is_aligned_step(s2, sizeof(tDType)) &&      \
+            is_aligned_step(s3, sizeof(tDType))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(tDType*)p1, *(tDType*)p2, *(tDType*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
       for (size_t i = 0; i < n; i++) {                                                         \
         tDType x, y, z;                                                                        \
         GET_DATA_STRIDE(p1, s1, tDType, x);                                                    \
@@ -149,37 +338,1134 @@
       }                                                                                        \
     }                                                                                          \
   }                                                                                            \
-                                                                                               \
-  static VALUE tDType##_mulsum_self(int argc, VALUE* argv, VALUE self) {                       \
-    if (argc < 1) {                                                                            \
-      rb_raise(rb_eArgError, "wrong number of arguments (%d for >=1)", argc);                  \
+  DEF_INT_MULSUM_RUBY_FUNCS(tDType, tNAryClass)
+#define DEF_MULSUM_SFLT_SSE2_ITER_FUNC()                                                       \
+  static void iter_sfloat_mulsum(na_loop_t* const lp) {                                        \
+    size_t i = 0;                                                                              \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    const size_t num_pack = SIMD_ALIGNMENT_SIZE / sizeof(sfloat);                              \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                  \
+          is_aligned(p3, sizeof(sfloat))) {                                                    \
+        if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat)) {                                    \
+          sfloat z;                                                                            \
+          GET_DATA(p3, sfloat, z);                                                             \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned2(&((sfloat*)p1)[i], &((sfloat*)p2)[i], SIMD_ALIGNMENT_SIZE)) {   \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((sfloat*)p1)[i], SIMD_ALIGNMENT_SIZE, sizeof(sfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], z);                                 \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            __m128 acc = _mm_setzero_ps();                                                     \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m128 a = _mm_load_ps(&((sfloat*)p1)[i]);                                       \
+              __m128 b = _mm_load_ps(&((sfloat*)p2)[i]);                                       \
+              acc = _mm_add_ps(acc, _mm_mul_ps(a, b));                                         \
+            }                                                                                  \
+            __m128 shuf = _mm_shuffle_ps(acc, acc, _MM_SHUFFLE(2, 3, 0, 1));                   \
+            acc = _mm_add_ps(acc, shuf);                                                       \
+            shuf = _mm_shuffle_ps(acc, acc, _MM_SHUFFLE(0, 1, 2, 3));                          \
+            acc = _mm_add_ps(acc, shuf);                                                       \
+            z += _mm_cvtss_f32(acc);                                                           \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], z);                                   \
+          }                                                                                    \
+          SET_DATA(p3, sfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if ((s1 == sizeof(sfloat) || s2 == sizeof(sfloat)) &&                                  \
+            is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat))) {      \
+          const sfloat* q_contig;                                                              \
+          const char* q_strided;                                                               \
+          ssize_t stride;                                                                      \
+          if (s1 == sizeof(sfloat)) {                                                          \
+            q_contig = (const sfloat*)p1;                                                      \
+            q_strided = p2;                                                                    \
+            stride = s2;                                                                       \
+          } else {                                                                             \
+            q_contig = (const sfloat*)p2;                                                      \
+            q_strided = p1;                                                                    \
+            stride = s1;                                                                       \
+          }                                                                                    \
+          sfloat z;                                                                            \
+          GET_DATA(p3, sfloat, z);                                                             \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m128 acc = _mm_setzero_ps();                                                     \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m128 a = _mm_loadu_ps(&q_contig[j]);                                           \
+              __m128 b = _mm_set_ps(                                                           \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 3) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 2) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 1) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 0) * stride)                        \
+              );                                                                               \
+              acc = _mm_add_ps(acc, _mm_mul_ps(a, b));                                         \
+            }                                                                                  \
+            __m128 shuf = _mm_shuffle_ps(acc, acc, _MM_SHUFFLE(2, 3, 0, 1));                   \
+            acc = _mm_add_ps(acc, shuf);                                                       \
+            shuf = _mm_shuffle_ps(acc, acc, _MM_SHUFFLE(0, 1, 2, 3));                          \
+            acc = _mm_add_ps(acc, shuf);                                                       \
+            z += _mm_cvtss_f32(acc);                                                           \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(q_contig[j], *(const sfloat*)(q_strided + (ssize_t)j * stride), z);       \
+          }                                                                                    \
+          SET_DATA(p3, sfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(sfloat*)p1, *(sfloat*)p2, *(sfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      sfloat z;                                                                                \
+      GET_DATA(p3, sfloat, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        sfloat x;                                                                              \
+        sfloat y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, sfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, sfloat, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, sfloat, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                  \
+          is_aligned(p3, sizeof(sfloat))) {                                                    \
+        if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat) && s3 == sizeof(sfloat)) {            \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned3(                                                                \
+                &((sfloat*)p1)[i], &((sfloat*)p2)[i], &((sfloat*)p3)[i], SIMD_ALIGNMENT_SIZE   \
+              )) {                                                                             \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((sfloat*)p1)[i], SIMD_ALIGNMENT_SIZE, sizeof(sfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], ((sfloat*)p3)[i]);                  \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m128 a = _mm_load_ps(&((sfloat*)p1)[i]);                                       \
+              __m128 b = _mm_load_ps(&((sfloat*)p2)[i]);                                       \
+              __m128 c = _mm_load_ps(&((sfloat*)p3)[i]);                                       \
+              _mm_store_ps(&((sfloat*)p3)[i], _mm_add_ps(_mm_mul_ps(a, b), c));                \
+            }                                                                                  \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], ((sfloat*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (((s1 == 0 && s2 == sizeof(sfloat)) || (s1 == sizeof(sfloat) && s2 == 0)) &&        \
+            s3 == sizeof(sfloat)) {                                                            \
+          const sfloat* q_vec;                                                                 \
+          sfloat scalar;                                                                       \
+          if (s1 == 0) {                                                                       \
+            scalar = *(const sfloat*)p1;                                                       \
+            q_vec = (const sfloat*)p2;                                                         \
+          } else {                                                                             \
+            scalar = *(const sfloat*)p2;                                                       \
+            q_vec = (const sfloat*)p1;                                                         \
+          }                                                                                    \
+          sfloat* q_out = (sfloat*)p3;                                                         \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m128 va = _mm_set1_ps(scalar);                                                   \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m128 vb = _mm_loadu_ps(&q_vec[j]);                                             \
+              __m128 vc = _mm_loadu_ps(&q_out[j]);                                             \
+              _mm_storeu_ps(&q_out[j], _mm_add_ps(_mm_mul_ps(va, vb), vc));                    \
+            }                                                                                  \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(scalar, q_vec[j], q_out[j]);                                              \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat)) &&      \
+            is_aligned_step(s3, sizeof(sfloat))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(sfloat*)p1, *(sfloat*)p2, *(sfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        sfloat x;                                                                              \
+        sfloat y;                                                                              \
+        sfloat z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, sfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, sfloat, y);                                                    \
+        GET_DATA(p3, sfloat, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, sfloat, z);                                                    \
+      }                                                                                        \
     }                                                                                          \
-                                                                                               \
-    ndfunc_arg_in_t ain[4] = {                                                                 \
-      { tNAryClass, 0 }, { tNAryClass, 0 }, { sym_reduce, 0 }, { sym_init, 0 }                 \
-    };                                                                                         \
-    ndfunc_arg_out_t aout[1] = { { tNAryClass, 0 } };                                          \
-    ndfunc_t ndf = { iter_##tDType##_mulsum, STRIDE_LOOP_NIP, 4, 1, ain, aout };               \
-    VALUE naryv[2] = { self, argv[0] };                                                        \
-    VALUE reduce = na_reduce_dimension(argc - 1, argv + 1, 2, naryv, &ndf, 0);                 \
-    VALUE v = na_ndloop(&ndf, 4, self, argv[0], reduce, m_mulsum_init);                        \
-                                                                                               \
-    return rb_funcall(v, rb_intern("extract"), 0);                                             \
-  }                                                                                            \
-                                                                                               \
-  static VALUE tDType##_mulsum(int argc, VALUE* argv, VALUE self) {                            \
-    if (argc < 1) {                                                                            \
-      rb_raise(rb_eArgError, "wrong number of arguments (%d for >=1)", argc);                  \
+  }
+#define DEF_MULSUM_DFLT_SSE2_ITER_FUNC()                                                       \
+  static void iter_dfloat_mulsum(na_loop_t* const lp) {                                        \
+    size_t i = 0;                                                                              \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    const size_t num_pack = SIMD_ALIGNMENT_SIZE / sizeof(dfloat);                              \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                  \
+          is_aligned(p3, sizeof(dfloat))) {                                                    \
+        if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat)) {                                    \
+          dfloat z;                                                                            \
+          GET_DATA(p3, dfloat, z);                                                             \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned2(&((dfloat*)p1)[i], &((dfloat*)p2)[i], SIMD_ALIGNMENT_SIZE)) {   \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((dfloat*)p1)[i], SIMD_ALIGNMENT_SIZE, sizeof(dfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], z);                                 \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            __m128d acc = _mm_setzero_pd();                                                    \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m128d a = _mm_load_pd(&((dfloat*)p1)[i]);                                      \
+              __m128d b = _mm_load_pd(&((dfloat*)p2)[i]);                                      \
+              acc = _mm_add_pd(acc, _mm_mul_pd(a, b));                                         \
+            }                                                                                  \
+            __m128d shuf = _mm_shuffle_pd(acc, acc, 1);                                        \
+            acc = _mm_add_pd(acc, shuf);                                                       \
+            z += _mm_cvtsd_f64(acc);                                                           \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], z);                                   \
+          }                                                                                    \
+          SET_DATA(p3, dfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if ((s1 == sizeof(dfloat) || s2 == sizeof(dfloat)) &&                                  \
+            is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat))) {      \
+          const dfloat* q_contig;                                                              \
+          const char* q_strided;                                                               \
+          ssize_t stride;                                                                      \
+          if (s1 == sizeof(dfloat)) {                                                          \
+            q_contig = (const dfloat*)p1;                                                      \
+            q_strided = p2;                                                                    \
+            stride = s2;                                                                       \
+          } else {                                                                             \
+            q_contig = (const dfloat*)p2;                                                      \
+            q_strided = p1;                                                                    \
+            stride = s1;                                                                       \
+          }                                                                                    \
+          dfloat z;                                                                            \
+          GET_DATA(p3, dfloat, z);                                                             \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m128d acc = _mm_setzero_pd();                                                    \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m128d a = _mm_loadu_pd(&q_contig[j]);                                          \
+              __m128d b = _mm_set_pd(                                                          \
+                *(const dfloat*)(q_strided + (ssize_t)(j + 1) * stride),                       \
+                *(const dfloat*)(q_strided + (ssize_t)(j + 0) * stride)                        \
+              );                                                                               \
+              acc = _mm_add_pd(acc, _mm_mul_pd(a, b));                                         \
+            }                                                                                  \
+            __m128d shuf = _mm_shuffle_pd(acc, acc, 1);                                        \
+            acc = _mm_add_pd(acc, shuf);                                                       \
+            z += _mm_cvtsd_f64(acc);                                                           \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(q_contig[j], *(const dfloat*)(q_strided + (ssize_t)j * stride), z);       \
+          }                                                                                    \
+          SET_DATA(p3, dfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(dfloat*)p1, *(dfloat*)p2, *(dfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      dfloat z;                                                                                \
+      GET_DATA(p3, dfloat, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        dfloat x;                                                                              \
+        dfloat y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, dfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, dfloat, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, dfloat, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                  \
+          is_aligned(p3, sizeof(dfloat))) {                                                    \
+        if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat) && s3 == sizeof(dfloat)) {            \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned3(                                                                \
+                &((dfloat*)p1)[i], &((dfloat*)p2)[i], &((dfloat*)p3)[i], SIMD_ALIGNMENT_SIZE   \
+              )) {                                                                             \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((dfloat*)p1)[i], SIMD_ALIGNMENT_SIZE, sizeof(dfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], ((dfloat*)p3)[i]);                  \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m128d a = _mm_load_pd(&((dfloat*)p1)[i]);                                      \
+              __m128d b = _mm_load_pd(&((dfloat*)p2)[i]);                                      \
+              __m128d c = _mm_load_pd(&((dfloat*)p3)[i]);                                      \
+              _mm_store_pd(&((dfloat*)p3)[i], _mm_add_pd(_mm_mul_pd(a, b), c));                \
+            }                                                                                  \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], ((dfloat*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (((s1 == 0 && s2 == sizeof(dfloat)) || (s1 == sizeof(dfloat) && s2 == 0)) &&        \
+            s3 == sizeof(dfloat)) {                                                            \
+          const dfloat* q_vec;                                                                 \
+          dfloat scalar;                                                                       \
+          if (s1 == 0) {                                                                       \
+            scalar = *(const dfloat*)p1;                                                       \
+            q_vec = (const dfloat*)p2;                                                         \
+          } else {                                                                             \
+            scalar = *(const dfloat*)p2;                                                       \
+            q_vec = (const dfloat*)p1;                                                         \
+          }                                                                                    \
+          dfloat* q_out = (dfloat*)p3;                                                         \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m128d va = _mm_set1_pd(scalar);                                                  \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m128d vb = _mm_loadu_pd(&q_vec[j]);                                            \
+              __m128d vc = _mm_loadu_pd(&q_out[j]);                                            \
+              _mm_storeu_pd(&q_out[j], _mm_add_pd(_mm_mul_pd(va, vb), vc));                    \
+            }                                                                                  \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(scalar, q_vec[j], q_out[j]);                                              \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat)) &&      \
+            is_aligned_step(s3, sizeof(dfloat))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(dfloat*)p1, *(dfloat*)p2, *(dfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        dfloat x;                                                                              \
+        dfloat y;                                                                              \
+        dfloat z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, dfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, dfloat, y);                                                    \
+        GET_DATA(p3, dfloat, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, dfloat, z);                                                    \
+      }                                                                                        \
     }                                                                                          \
-                                                                                               \
-    VALUE klass = na_upcast(rb_obj_class(self), rb_obj_class(argv[0]));                        \
-    if (klass == tNAryClass) {                                                                 \
-      return tDType##_mulsum_self(argc, argv, self);                                           \
+  }
+#define DEF_NARRAY_SFLT_MULSUM_SSE2_METHOD_FUNC()                                              \
+  DEF_MULSUM_SFLT_SSE2_ITER_FUNC()                                                             \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(sfloat)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_MULSUM_SSE2_METHOD_FUNC()                                              \
+  DEF_MULSUM_DFLT_SSE2_ITER_FUNC()                                                             \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(dfloat)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(dfloat, numo_cDFloat)
+#define DEF_MULSUM_SFLT_AVX_ITER_FUNC()                                                        \
+  static void iter_sfloat_mulsum(na_loop_t* const lp) {                                        \
+    size_t i = 0;                                                                              \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    const size_t num_pack = AVX_ALIGNMENT_SIZE / sizeof(sfloat);                               \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                  \
+          is_aligned(p3, sizeof(sfloat))) {                                                    \
+        if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat)) {                                    \
+          sfloat z;                                                                            \
+          GET_DATA(p3, sfloat, z);                                                             \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned2(&((sfloat*)p1)[i], &((sfloat*)p2)[i], AVX_ALIGNMENT_SIZE)) {    \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((sfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(sfloat)                            \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], z);                                 \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            __m256 acc = _mm256_setzero_ps();                                                  \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m256 a = _mm256_load_ps(&((sfloat*)p1)[i]);                                    \
+              __m256 b = _mm256_load_ps(&((sfloat*)p2)[i]);                                    \
+              acc = _mm256_add_ps(acc, _mm256_mul_ps(a, b));                                   \
+            }                                                                                  \
+            __m128 lo = _mm256_castps256_ps128(acc);                                           \
+            __m128 hi = _mm256_extractf128_ps(acc, 1);                                         \
+            __m128 sum128 = _mm_add_ps(lo, hi);                                                \
+            __m128 shuf = _mm_shuffle_ps(sum128, sum128, _MM_SHUFFLE(2, 3, 0, 1));             \
+            sum128 = _mm_add_ps(sum128, shuf);                                                 \
+            shuf = _mm_shuffle_ps(sum128, sum128, _MM_SHUFFLE(0, 1, 2, 3));                    \
+            sum128 = _mm_add_ps(sum128, shuf);                                                 \
+            z += _mm_cvtss_f32(sum128);                                                        \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], z);                                   \
+          }                                                                                    \
+          SET_DATA(p3, sfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if ((s1 == sizeof(sfloat) || s2 == sizeof(sfloat)) &&                                  \
+            is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat))) {      \
+          const sfloat* q_contig;                                                              \
+          const char* q_strided;                                                               \
+          ssize_t stride;                                                                      \
+          if (s1 == sizeof(sfloat)) {                                                          \
+            q_contig = (const sfloat*)p1;                                                      \
+            q_strided = p2;                                                                    \
+            stride = s2;                                                                       \
+          } else {                                                                             \
+            q_contig = (const sfloat*)p2;                                                      \
+            q_strided = p1;                                                                    \
+            stride = s1;                                                                       \
+          }                                                                                    \
+          sfloat z;                                                                            \
+          GET_DATA(p3, sfloat, z);                                                             \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m256 acc = _mm256_setzero_ps();                                                  \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m256 a = _mm256_loadu_ps(&q_contig[j]);                                        \
+              __m256 b = _mm256_set_ps(                                                        \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 7) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 6) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 5) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 4) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 3) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 2) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 1) * stride),                       \
+                *(const sfloat*)(q_strided + (ssize_t)(j + 0) * stride)                        \
+              );                                                                               \
+              acc = _mm256_add_ps(acc, _mm256_mul_ps(a, b));                                   \
+            }                                                                                  \
+            __m128 lo = _mm256_castps256_ps128(acc);                                           \
+            __m128 hi = _mm256_extractf128_ps(acc, 1);                                         \
+            __m128 sum128 = _mm_add_ps(lo, hi);                                                \
+            __m128 shuf = _mm_shuffle_ps(sum128, sum128, _MM_SHUFFLE(2, 3, 0, 1));             \
+            sum128 = _mm_add_ps(sum128, shuf);                                                 \
+            shuf = _mm_shuffle_ps(sum128, sum128, _MM_SHUFFLE(0, 1, 2, 3));                    \
+            sum128 = _mm_add_ps(sum128, shuf);                                                 \
+            z += _mm_cvtss_f32(sum128);                                                        \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(q_contig[j], *(const sfloat*)(q_strided + (ssize_t)j * stride), z);       \
+          }                                                                                    \
+          SET_DATA(p3, sfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(sfloat*)p1, *(sfloat*)p2, *(sfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      sfloat z;                                                                                \
+      GET_DATA(p3, sfloat, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        sfloat x;                                                                              \
+        sfloat y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, sfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, sfloat, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, sfloat, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                  \
+          is_aligned(p3, sizeof(sfloat))) {                                                    \
+        if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat) && s3 == sizeof(sfloat)) {            \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned3(                                                                \
+                &((sfloat*)p1)[i], &((sfloat*)p2)[i], &((sfloat*)p3)[i], AVX_ALIGNMENT_SIZE    \
+              )) {                                                                             \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((sfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(sfloat)                            \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], ((sfloat*)p3)[i]);                  \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m256 a = _mm256_load_ps(&((sfloat*)p1)[i]);                                    \
+              __m256 b = _mm256_load_ps(&((sfloat*)p2)[i]);                                    \
+              __m256 c = _mm256_load_ps(&((sfloat*)p3)[i]);                                    \
+              _mm256_store_ps(&((sfloat*)p3)[i], _mm256_add_ps(_mm256_mul_ps(a, b), c));       \
+            }                                                                                  \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], ((sfloat*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (((s1 == 0 && s2 == sizeof(sfloat)) || (s1 == sizeof(sfloat) && s2 == 0)) &&        \
+            s3 == sizeof(sfloat)) {                                                            \
+          const sfloat* q_vec;                                                                 \
+          sfloat scalar;                                                                       \
+          if (s1 == 0) {                                                                       \
+            scalar = *(const sfloat*)p1;                                                       \
+            q_vec = (const sfloat*)p2;                                                         \
+          } else {                                                                             \
+            scalar = *(const sfloat*)p2;                                                       \
+            q_vec = (const sfloat*)p1;                                                         \
+          }                                                                                    \
+          sfloat* q_out = (sfloat*)p3;                                                         \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m256 va = _mm256_set1_ps(scalar);                                                \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m256 vb = _mm256_loadu_ps(&q_vec[j]);                                          \
+              __m256 vc = _mm256_loadu_ps(&q_out[j]);                                          \
+              _mm256_storeu_ps(&q_out[j], _mm256_add_ps(_mm256_mul_ps(va, vb), vc));           \
+            }                                                                                  \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(scalar, q_vec[j], q_out[j]);                                              \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat)) &&      \
+            is_aligned_step(s3, sizeof(sfloat))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(sfloat*)p1, *(sfloat*)p2, *(sfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        sfloat x;                                                                              \
+        sfloat y;                                                                              \
+        sfloat z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, sfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, sfloat, y);                                                    \
+        GET_DATA(p3, sfloat, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, sfloat, z);                                                    \
+      }                                                                                        \
+    }                                                                                          \
+  }
+#define DEF_MULSUM_DFLT_AVX_ITER_FUNC()                                                        \
+  static void iter_dfloat_mulsum(na_loop_t* const lp) {                                        \
+    size_t i = 0;                                                                              \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    const size_t num_pack = AVX_ALIGNMENT_SIZE / sizeof(dfloat);                               \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                  \
+          is_aligned(p3, sizeof(dfloat))) {                                                    \
+        if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat)) {                                    \
+          dfloat z;                                                                            \
+          GET_DATA(p3, dfloat, z);                                                             \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned2(&((dfloat*)p1)[i], &((dfloat*)p2)[i], AVX_ALIGNMENT_SIZE)) {    \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((dfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(dfloat)                            \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], z);                                 \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            __m256d acc = _mm256_setzero_pd();                                                 \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m256d a = _mm256_load_pd(&((dfloat*)p1)[i]);                                   \
+              __m256d b = _mm256_load_pd(&((dfloat*)p2)[i]);                                   \
+              acc = _mm256_add_pd(acc, _mm256_mul_pd(a, b));                                   \
+            }                                                                                  \
+            __m128d lo = _mm256_castpd256_pd128(acc);                                          \
+            __m128d hi = _mm256_extractf128_pd(acc, 1);                                        \
+            __m128d sum128 = _mm_add_pd(lo, hi);                                               \
+            __m128d shuf = _mm_shuffle_pd(sum128, sum128, 1);                                  \
+            sum128 = _mm_add_pd(sum128, shuf);                                                 \
+            z += _mm_cvtsd_f64(sum128);                                                        \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], z);                                   \
+          }                                                                                    \
+          SET_DATA(p3, dfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if ((s1 == sizeof(dfloat) || s2 == sizeof(dfloat)) &&                                  \
+            is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat))) {      \
+          const dfloat* q_contig;                                                              \
+          const char* q_strided;                                                               \
+          ssize_t stride;                                                                      \
+          if (s1 == sizeof(dfloat)) {                                                          \
+            q_contig = (const dfloat*)p1;                                                      \
+            q_strided = p2;                                                                    \
+            stride = s2;                                                                       \
+          } else {                                                                             \
+            q_contig = (const dfloat*)p2;                                                      \
+            q_strided = p1;                                                                    \
+            stride = s1;                                                                       \
+          }                                                                                    \
+          dfloat z;                                                                            \
+          GET_DATA(p3, dfloat, z);                                                             \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m256d acc = _mm256_setzero_pd();                                                 \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m256d a = _mm256_loadu_pd(&q_contig[j]);                                       \
+              __m256d b = _mm256_set_pd(                                                       \
+                *(const dfloat*)(q_strided + (ssize_t)(j + 3) * stride),                       \
+                *(const dfloat*)(q_strided + (ssize_t)(j + 2) * stride),                       \
+                *(const dfloat*)(q_strided + (ssize_t)(j + 1) * stride),                       \
+                *(const dfloat*)(q_strided + (ssize_t)(j + 0) * stride)                        \
+              );                                                                               \
+              acc = _mm256_add_pd(acc, _mm256_mul_pd(a, b));                                   \
+            }                                                                                  \
+            __m128d lo = _mm256_castpd256_pd128(acc);                                          \
+            __m128d hi = _mm256_extractf128_pd(acc, 1);                                        \
+            __m128d sum128 = _mm_add_pd(lo, hi);                                               \
+            __m128d shuf = _mm_shuffle_pd(sum128, sum128, 1);                                  \
+            sum128 = _mm_add_pd(sum128, shuf);                                                 \
+            z += _mm_cvtsd_f64(sum128);                                                        \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(q_contig[j], *(const dfloat*)(q_strided + (ssize_t)j * stride), z);       \
+          }                                                                                    \
+          SET_DATA(p3, dfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat))) {      \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(dfloat*)p1, *(dfloat*)p2, *(dfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      dfloat z;                                                                                \
+      GET_DATA(p3, dfloat, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        dfloat x;                                                                              \
+        dfloat y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, dfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, dfloat, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, dfloat, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                  \
+          is_aligned(p3, sizeof(dfloat))) {                                                    \
+        if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat) && s3 == sizeof(dfloat)) {            \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned3(                                                                \
+                &((dfloat*)p1)[i], &((dfloat*)p2)[i], &((dfloat*)p3)[i], AVX_ALIGNMENT_SIZE    \
+              )) {                                                                             \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((dfloat*)p1)[i], AVX_ALIGNMENT_SIZE, sizeof(dfloat)                            \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], ((dfloat*)p3)[i]);                  \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              __m256d a = _mm256_load_pd(&((dfloat*)p1)[i]);                                   \
+              __m256d b = _mm256_load_pd(&((dfloat*)p2)[i]);                                   \
+              __m256d c = _mm256_load_pd(&((dfloat*)p3)[i]);                                   \
+              _mm256_store_pd(&((dfloat*)p3)[i], _mm256_add_pd(_mm256_mul_pd(a, b), c));       \
+            }                                                                                  \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], ((dfloat*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (((s1 == 0 && s2 == sizeof(dfloat)) || (s1 == sizeof(dfloat) && s2 == 0)) &&        \
+            s3 == sizeof(dfloat)) {                                                            \
+          const dfloat* q_vec;                                                                 \
+          dfloat scalar;                                                                       \
+          if (s1 == 0) {                                                                       \
+            scalar = *(const dfloat*)p1;                                                       \
+            q_vec = (const dfloat*)p2;                                                         \
+          } else {                                                                             \
+            scalar = *(const dfloat*)p2;                                                       \
+            q_vec = (const dfloat*)p1;                                                         \
+          }                                                                                    \
+          dfloat* q_out = (dfloat*)p3;                                                         \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            __m256d va = _mm256_set1_pd(scalar);                                               \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              __m256d vb = _mm256_loadu_pd(&q_vec[j]);                                         \
+              __m256d vc = _mm256_loadu_pd(&q_out[j]);                                         \
+              _mm256_storeu_pd(&q_out[j], _mm256_add_pd(_mm256_mul_pd(va, vb), vc));           \
+            }                                                                                  \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(scalar, q_vec[j], q_out[j]);                                              \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat)) &&      \
+            is_aligned_step(s3, sizeof(dfloat))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(dfloat*)p1, *(dfloat*)p2, *(dfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        dfloat x;                                                                              \
+        dfloat y;                                                                              \
+        dfloat z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, dfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, dfloat, y);                                                    \
+        GET_DATA(p3, dfloat, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, dfloat, z);                                                    \
+      }                                                                                        \
     }                                                                                          \
-                                                                                               \
-    VALUE v = rb_funcall(klass, id_cast, 1, self);                                             \
-                                                                                               \
-    return rb_funcallv_kw(v, rb_intern("mulsum"), argc, argv, RB_PASS_CALLED_KEYWORDS);        \
   }
+#define DEF_NARRAY_SFLT_MULSUM_AVX_METHOD_FUNC()                                               \
+  DEF_MULSUM_SFLT_AVX_ITER_FUNC()                                                              \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(sfloat)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_MULSUM_AVX_METHOD_FUNC()                                               \
+  DEF_MULSUM_DFLT_AVX_ITER_FUNC()                                                              \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(dfloat)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(dfloat, numo_cDFloat)
+#define DEF_MULSUM_SFLT_NEON_ITER_FUNC()                                                       \
+  static void iter_sfloat_mulsum(na_loop_t* const lp) {                                        \
+    size_t i = 0;                                                                              \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    const size_t num_pack = NEON_ALIGNMENT_SIZE / sizeof(sfloat);                              \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                  \
+          is_aligned(p3, sizeof(sfloat))) {                                                    \
+        if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat)) {                                    \
+          sfloat z;                                                                            \
+          GET_DATA(p3, sfloat, z);                                                             \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned2(&((sfloat*)p1)[i], &((sfloat*)p2)[i], NEON_ALIGNMENT_SIZE)) {   \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((sfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(sfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], z);                                 \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            float32x4_t acc = vdupq_n_f32(0.0f);                                               \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              float32x4_t a = vld1q_f32(&((sfloat*)p1)[i]);                                    \
+              float32x4_t b = vld1q_f32(&((sfloat*)p2)[i]);                                    \
+              acc = vaddq_f32(acc, vmulq_f32(a, b));                                           \
+            }                                                                                  \
+            z += vaddvq_f32(acc);                                                              \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], z);                                   \
+          }                                                                                    \
+          SET_DATA(p3, sfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if ((s1 == sizeof(sfloat) || s2 == sizeof(sfloat)) &&                                  \
+            is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat))) {      \
+          const sfloat* q_contig;                                                              \
+          const char* q_strided;                                                               \
+          ssize_t stride;                                                                      \
+          if (s1 == sizeof(sfloat)) {                                                          \
+            q_contig = (const sfloat*)p1;                                                      \
+            q_strided = p2;                                                                    \
+            stride = s2;                                                                       \
+          } else {                                                                             \
+            q_contig = (const sfloat*)p2;                                                      \
+            q_strided = p1;                                                                    \
+            stride = s1;                                                                       \
+          }                                                                                    \
+          sfloat z;                                                                            \
+          GET_DATA(p3, sfloat, z);                                                             \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            float32x4_t acc = vdupq_n_f32(0.0f);                                               \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              float32x4_t a = vld1q_f32(&q_contig[j]);                                         \
+              float32x4_t b = vdupq_n_f32(0.0f);                                               \
+              b =                                                                              \
+                vsetq_lane_f32(*(const sfloat*)(q_strided + (ssize_t)(j + 0) * stride), b, 0); \
+              b =                                                                              \
+                vsetq_lane_f32(*(const sfloat*)(q_strided + (ssize_t)(j + 1) * stride), b, 1); \
+              b =                                                                              \
+                vsetq_lane_f32(*(const sfloat*)(q_strided + (ssize_t)(j + 2) * stride), b, 2); \
+              b =                                                                              \
+                vsetq_lane_f32(*(const sfloat*)(q_strided + (ssize_t)(j + 3) * stride), b, 3); \
+              acc = vaddq_f32(acc, vmulq_f32(a, b));                                           \
+            }                                                                                  \
+            z += vaddvq_f32(acc);                                                              \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(q_contig[j], *(const sfloat*)(q_strided + (ssize_t)j * stride), z);       \
+          }                                                                                    \
+          SET_DATA(p3, sfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      sfloat z;                                                                                \
+      GET_DATA(p3, sfloat, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        sfloat x;                                                                              \
+        sfloat y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, sfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, sfloat, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, sfloat, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(sfloat)) && is_aligned(p2, sizeof(sfloat)) &&                  \
+          is_aligned(p3, sizeof(sfloat))) {                                                    \
+        if (s1 == sizeof(sfloat) && s2 == sizeof(sfloat) && s3 == sizeof(sfloat)) {            \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned3(                                                                \
+                &((sfloat*)p1)[i], &((sfloat*)p2)[i], &((sfloat*)p3)[i], NEON_ALIGNMENT_SIZE   \
+              )) {                                                                             \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((sfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(sfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], ((sfloat*)p3)[i]);                  \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              float32x4_t a = vld1q_f32(&((sfloat*)p1)[i]);                                    \
+              float32x4_t b = vld1q_f32(&((sfloat*)p2)[i]);                                    \
+              float32x4_t c = vld1q_f32(&((sfloat*)p3)[i]);                                    \
+              vst1q_f32(&((sfloat*)p3)[i], vaddq_f32(vmulq_f32(a, b), c));                     \
+            }                                                                                  \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((sfloat*)p1)[i], ((sfloat*)p2)[i], ((sfloat*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (((s1 == 0 && s2 == sizeof(sfloat)) || (s1 == sizeof(sfloat) && s2 == 0)) &&        \
+            s3 == sizeof(sfloat)) {                                                            \
+          const sfloat* q_vec;                                                                 \
+          sfloat scalar;                                                                       \
+          if (s1 == 0) {                                                                       \
+            scalar = *(const sfloat*)p1;                                                       \
+            q_vec = (const sfloat*)p2;                                                         \
+          } else {                                                                             \
+            scalar = *(const sfloat*)p2;                                                       \
+            q_vec = (const sfloat*)p1;                                                         \
+          }                                                                                    \
+          sfloat* q_out = (sfloat*)p3;                                                         \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            float32x4_t va = vdupq_n_f32(scalar);                                              \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              float32x4_t vb = vld1q_f32(&q_vec[j]);                                           \
+              float32x4_t vc = vld1q_f32(&q_out[j]);                                           \
+              vst1q_f32(&q_out[j], vaddq_f32(vmulq_f32(va, vb), vc));                          \
+            }                                                                                  \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(scalar, q_vec[j], q_out[j]);                                              \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(sfloat)) && is_aligned_step(s2, sizeof(sfloat)) &&      \
+            is_aligned_step(s3, sizeof(sfloat))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(sfloat*)p1, *(sfloat*)p2, *(sfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        sfloat x;                                                                              \
+        sfloat y;                                                                              \
+        sfloat z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, sfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, sfloat, y);                                                    \
+        GET_DATA(p3, sfloat, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, sfloat, z);                                                    \
+      }                                                                                        \
+    }                                                                                          \
+  }
+#define DEF_MULSUM_DFLT_NEON_ITER_FUNC()                                                       \
+  static void iter_dfloat_mulsum(na_loop_t* const lp) {                                        \
+    size_t i = 0;                                                                              \
+    size_t n;                                                                                  \
+    char* p1;                                                                                  \
+    char* p2;                                                                                  \
+    char* p3;                                                                                  \
+    ssize_t s1;                                                                                \
+    ssize_t s2;                                                                                \
+    ssize_t s3;                                                                                \
+    INIT_COUNTER(lp, n);                                                                       \
+    INIT_PTR(lp, 0, p1, s1);                                                                   \
+    INIT_PTR(lp, 1, p2, s2);                                                                   \
+    INIT_PTR(lp, 2, p3, s3);                                                                   \
+    const size_t num_pack = NEON_ALIGNMENT_SIZE / sizeof(dfloat);                              \
+    if (s3 == 0) {                                                                             \
+      if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                  \
+          is_aligned(p3, sizeof(dfloat))) {                                                    \
+        if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat)) {                                    \
+          dfloat z;                                                                            \
+          GET_DATA(p3, dfloat, z);                                                             \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned2(&((dfloat*)p1)[i], &((dfloat*)p2)[i], NEON_ALIGNMENT_SIZE)) {   \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((dfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(dfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], z);                                 \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            float64x2_t acc = vdupq_n_f64(0.0);                                                \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              float64x2_t a = vld1q_f64(&((dfloat*)p1)[i]);                                    \
+              float64x2_t b = vld1q_f64(&((dfloat*)p2)[i]);                                    \
+              acc = vaddq_f64(acc, vmulq_f64(a, b));                                           \
+            }                                                                                  \
+            z += vaddvq_f64(acc);                                                              \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], z);                                   \
+          }                                                                                    \
+          SET_DATA(p3, dfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+        if ((s1 == sizeof(dfloat) || s2 == sizeof(dfloat)) &&                                  \
+            is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat))) {      \
+          const dfloat* q_contig;                                                              \
+          const char* q_strided;                                                               \
+          ssize_t stride;                                                                      \
+          if (s1 == sizeof(dfloat)) {                                                          \
+            q_contig = (const dfloat*)p1;                                                      \
+            q_strided = p2;                                                                    \
+            stride = s2;                                                                       \
+          } else {                                                                             \
+            q_contig = (const dfloat*)p2;                                                      \
+            q_strided = p1;                                                                    \
+            stride = s1;                                                                       \
+          }                                                                                    \
+          dfloat z;                                                                            \
+          GET_DATA(p3, dfloat, z);                                                             \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            float64x2_t acc = vdupq_n_f64(0.0);                                                \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              float64x2_t a = vld1q_f64(&q_contig[j]);                                         \
+              float64x2_t b = vdupq_n_f64(0.0);                                                \
+              b =                                                                              \
+                vsetq_lane_f64(*(const dfloat*)(q_strided + (ssize_t)(j + 0) * stride), b, 0); \
+              b =                                                                              \
+                vsetq_lane_f64(*(const dfloat*)(q_strided + (ssize_t)(j + 1) * stride), b, 1); \
+              acc = vaddq_f64(acc, vmulq_f64(a, b));                                           \
+            }                                                                                  \
+            z += vaddvq_f64(acc);                                                              \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(q_contig[j], *(const dfloat*)(q_strided + (ssize_t)j * stride), z);       \
+          }                                                                                    \
+          SET_DATA(p3, dfloat, z);                                                             \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      dfloat z;                                                                                \
+      GET_DATA(p3, dfloat, z);                                                                 \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        dfloat x;                                                                              \
+        dfloat y;                                                                              \
+        GET_DATA_STRIDE(p1, s1, dfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, dfloat, y);                                                    \
+        m_mulsum(x, y, z);                                                                     \
+      }                                                                                        \
+      SET_DATA(p3, dfloat, z);                                                                 \
+    } else {                                                                                   \
+      if (is_aligned(p1, sizeof(dfloat)) && is_aligned(p2, sizeof(dfloat)) &&                  \
+          is_aligned(p3, sizeof(dfloat))) {                                                    \
+        if (s1 == sizeof(dfloat) && s2 == sizeof(dfloat) && s3 == sizeof(dfloat)) {            \
+          if (n >= num_pack &&                                                                 \
+              is_same_aligned3(                                                                \
+                &((dfloat*)p1)[i], &((dfloat*)p2)[i], &((dfloat*)p3)[i], NEON_ALIGNMENT_SIZE   \
+              )) {                                                                             \
+            size_t cnt = (size_t)get_count_of_elements_not_aligned_to_simd_size(               \
+              &((dfloat*)p1)[i], NEON_ALIGNMENT_SIZE, sizeof(dfloat)                           \
+            );                                                                                 \
+            for (; i < cnt; i++) {                                                             \
+              m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], ((dfloat*)p3)[i]);                  \
+            }                                                                                  \
+            size_t cnt_simd_loop = (n - i) % num_pack;                                         \
+            for (; i < n - cnt_simd_loop; i += num_pack) {                                     \
+              float64x2_t a = vld1q_f64(&((dfloat*)p1)[i]);                                    \
+              float64x2_t b = vld1q_f64(&((dfloat*)p2)[i]);                                    \
+              float64x2_t c = vld1q_f64(&((dfloat*)p3)[i]);                                    \
+              vst1q_f64(&((dfloat*)p3)[i], vaddq_f64(vmulq_f64(a, b), c));                     \
+            }                                                                                  \
+          }                                                                                    \
+          for (; i < n; i++) {                                                                 \
+            m_mulsum(((dfloat*)p1)[i], ((dfloat*)p2)[i], ((dfloat*)p3)[i]);                    \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (((s1 == 0 && s2 == sizeof(dfloat)) || (s1 == sizeof(dfloat) && s2 == 0)) &&        \
+            s3 == sizeof(dfloat)) {                                                            \
+          const dfloat* q_vec;                                                                 \
+          dfloat scalar;                                                                       \
+          if (s1 == 0) {                                                                       \
+            scalar = *(const dfloat*)p1;                                                       \
+            q_vec = (const dfloat*)p2;                                                         \
+          } else {                                                                             \
+            scalar = *(const dfloat*)p2;                                                       \
+            q_vec = (const dfloat*)p1;                                                         \
+          }                                                                                    \
+          dfloat* q_out = (dfloat*)p3;                                                         \
+          size_t j = 0;                                                                        \
+          if (n >= num_pack) {                                                                 \
+            size_t cnt_simd_loop = n % num_pack;                                               \
+            float64x2_t va = vdupq_n_f64(scalar);                                              \
+            for (; j < n - cnt_simd_loop; j += num_pack) {                                     \
+              float64x2_t vb = vld1q_f64(&q_vec[j]);                                           \
+              float64x2_t vc = vld1q_f64(&q_out[j]);                                           \
+              vst1q_f64(&q_out[j], vaddq_f64(vmulq_f64(va, vb), vc));                          \
+            }                                                                                  \
+          }                                                                                    \
+          for (; j < n; j++) {                                                                 \
+            m_mulsum(scalar, q_vec[j], q_out[j]);                                              \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+        if (is_aligned_step(s1, sizeof(dfloat)) && is_aligned_step(s2, sizeof(dfloat)) &&      \
+            is_aligned_step(s3, sizeof(dfloat))) {                                             \
+          for (size_t i = 0; i < n; i++) {                                                     \
+            m_mulsum(*(dfloat*)p1, *(dfloat*)p2, *(dfloat*)p3);                                \
+            p1 += s1;                                                                          \
+            p2 += s2;                                                                          \
+            p3 += s3;                                                                          \
+          }                                                                                    \
+          return;                                                                              \
+        }                                                                                      \
+      }                                                                                        \
+      for (size_t i = 0; i < n; i++) {                                                         \
+        dfloat x;                                                                              \
+        dfloat y;                                                                              \
+        dfloat z;                                                                              \
+        GET_DATA_STRIDE(p1, s1, dfloat, x);                                                    \
+        GET_DATA_STRIDE(p2, s2, dfloat, y);                                                    \
+        GET_DATA(p3, dfloat, z);                                                               \
+        m_mulsum(x, y, z);                                                                     \
+        SET_DATA_STRIDE(p3, s3, dfloat, z);                                                    \
+      }                                                                                        \
+    }                                                                                          \
+  }
+#define DEF_NARRAY_SFLT_MULSUM_NEON_METHOD_FUNC()                                              \
+  DEF_MULSUM_SFLT_NEON_ITER_FUNC()                                                             \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(sfloat)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(sfloat, numo_cSFloat)
+#define DEF_NARRAY_DFLT_MULSUM_NEON_METHOD_FUNC()                                              \
+  DEF_MULSUM_DFLT_NEON_ITER_FUNC()                                                             \
+  DEF_FLT_MULSUM_NAN_ITER_FUNC(dfloat)                                                         \
+  DEF_FLT_MULSUM_RUBY_FUNCS(dfloat, numo_cDFloat)
 #endif /* NUMO_NARRAY_MH_MULSUM_H */