npm - whisper.rn - Versions diffs - 0.4.1 → 0.4.3 - Mend

whisper.rn 0.4.1 → 0.4.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

package/cpp/ggml-cpu/ops.h CHANGED Viewed

@@ -20,6 +20,9 @@
 static const size_t CACHE_LINE_SIZE_F32 = CACHE_LINE_SIZE/sizeof(float);
+// Work buffer size for im2col operations in CONV2D
+#define WSP_GGML_IM2COL_WORK_SIZE (16 * 1024 * 1024)
 #ifdef __cplusplus
 extern "C" {
 #endif
@@ -53,6 +56,7 @@ void wsp_ggml_compute_forward_permute(const struct wsp_ggml_compute_params * par
 void wsp_ggml_compute_forward_transpose(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_get_rows(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_get_rows_back(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
+void wsp_ggml_compute_forward_set_rows(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_diag(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_diag_mask_inf(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_diag_mask_zero(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
@@ -64,6 +68,7 @@ void wsp_ggml_compute_forward_clamp(const struct wsp_ggml_compute_params * param
 void wsp_ggml_compute_forward_conv_transpose_1d(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_im2col(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_im2col_back_f32(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
+void wsp_ggml_compute_forward_conv_2d(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_conv_transpose_2d(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_conv_2d_dw(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_pool_1d(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
@@ -93,6 +98,7 @@ void wsp_ggml_compute_forward_ssm_scan(const struct wsp_ggml_compute_params * pa
 void wsp_ggml_compute_forward_win_part(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_win_unpart(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_unary(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
+void wsp_ggml_compute_forward_glu(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_get_rel_pos(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_add_rel_pos(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_rwkv_wkv6(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
@@ -105,6 +111,7 @@ void wsp_ggml_compute_forward_custom(const struct wsp_ggml_compute_params * para
 void wsp_ggml_compute_forward_cross_entropy_loss(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_cross_entropy_loss_back(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 void wsp_ggml_compute_forward_opt_step_adamw(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
+void wsp_ggml_compute_forward_mul_mat(const struct wsp_ggml_compute_params * params, struct wsp_ggml_tensor * dst);
 #ifdef __cplusplus
 }

package/cpp/ggml-cpu/quants.c CHANGED Viewed

@@ -2,6 +2,7 @@
 #include "ggml-common.h"
 #include "ggml-cpu-impl.h"
+#include "simd-mappings.h"
 #include "ggml-quants.h"
 #include "quants.h"
@@ -137,7 +138,7 @@ void wsp_ggml_vec_dot_q4_0_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, size
         }
         int sumi = sumi0 + sumi1;
-        sumf += sumi*WSP_GGML_FP16_TO_FP32(x[ib].d)*WSP_GGML_FP16_TO_FP32(y[ib].d);
+        sumf += sumi*WSP_GGML_CPU_FP16_TO_FP32(x[ib].d)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].d);
     }
     *s = sumf;
@@ -174,7 +175,7 @@ void wsp_ggml_vec_dot_q4_1_q8_1_generic(int n, float * WSP_GGML_RESTRICT s, size
         }
         int sumi = sumi0 + sumi1;
-        sumf += (WSP_GGML_FP16_TO_FP32(x[ib].d)*WSP_GGML_FP16_TO_FP32(y[ib].d))*sumi + WSP_GGML_FP16_TO_FP32(x[ib].m)*WSP_GGML_FP16_TO_FP32(y[ib].s);
+        sumf += (WSP_GGML_CPU_FP16_TO_FP32(x[ib].d)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].d))*sumi + WSP_GGML_CPU_FP16_TO_FP32(x[ib].m)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].s);
     }
     *s = sumf;
@@ -217,7 +218,7 @@ void wsp_ggml_vec_dot_q5_0_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, size
         }
         int sumi = sumi0 + sumi1;
-        sumf += (WSP_GGML_FP16_TO_FP32(x[ib].d)*WSP_GGML_FP16_TO_FP32(y[ib].d)) * sumi;
+        sumf += (WSP_GGML_CPU_FP16_TO_FP32(x[ib].d)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].d)) * sumi;
     }
     *s = sumf;
@@ -260,7 +261,7 @@ void wsp_ggml_vec_dot_q5_1_q8_1_generic(int n, float * WSP_GGML_RESTRICT s, size
         }
         int sumi = sumi0 + sumi1;
-        sumf += (WSP_GGML_FP16_TO_FP32(x[ib].d)*WSP_GGML_FP16_TO_FP32(y[ib].d))*sumi + WSP_GGML_FP16_TO_FP32(x[ib].m)*WSP_GGML_FP16_TO_FP32(y[ib].s);
+        sumf += (WSP_GGML_CPU_FP16_TO_FP32(x[ib].d)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].d))*sumi + WSP_GGML_CPU_FP16_TO_FP32(x[ib].m)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].s);
     }
     *s = sumf;
@@ -290,7 +291,7 @@ void wsp_ggml_vec_dot_q8_0_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, size
             sumi += x[ib].qs[j]*y[ib].qs[j];
         }
-        sumf += sumi*(WSP_GGML_FP16_TO_FP32(x[ib].d)*WSP_GGML_FP16_TO_FP32(y[ib].d));
+        sumf += sumi*(WSP_GGML_CPU_FP16_TO_FP32(x[ib].d)*WSP_GGML_CPU_FP16_TO_FP32(y[ib].d));
     }
     *s = sumf;
@@ -342,7 +343,7 @@ void wsp_ggml_vec_dot_tq1_0_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
             }
         }
-        sumf += (float) sum * (WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d);
+        sumf += (float) sum * (WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d);
     }
     *s = sumf;
@@ -372,7 +373,7 @@ void wsp_ggml_vec_dot_tq2_0_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
             }
         }
-        const float d = y[i].d * WSP_GGML_FP16_TO_FP32(x[i].d);
+        const float d = y[i].d * WSP_GGML_CPU_FP16_TO_FP32(x[i].d);
         sumf += (float) sumi * d;
     }
@@ -405,8 +406,8 @@ void wsp_ggml_vec_dot_q2_K_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, size
             summs += y[i].bsums[j] * (sc[j] >> 4);
         }
-        const float dall = y[i].d * WSP_GGML_FP16_TO_FP32(x[i].d);
-        const float dmin = y[i].d * WSP_GGML_FP16_TO_FP32(x[i].dmin);
+        const float dall = y[i].d * WSP_GGML_CPU_FP16_TO_FP32(x[i].d);
+        const float dmin = y[i].d * WSP_GGML_CPU_FP16_TO_FP32(x[i].dmin);
         int isum = 0;
         int is = 0;
@@ -504,7 +505,7 @@ void wsp_ggml_vec_dot_q3_K_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, size
             for (int l = 0; l < 8; ++l) aux32[l] += (scales[j] - 32) * aux16[l];
             q8 += 8; a += 8;
         }
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         for (int l = 0; l < 8; ++l) sums[l] += d * aux32[l];
     }
     for (int l = 0; l < 8; ++l) sumf += sums[l];
@@ -577,9 +578,9 @@ void wsp_ggml_vec_dot_q4_K_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, size
             for (int l = 0; l < 8; ++l) aux32[l] += scale * aux16[l];
             q8 += 8; a += 8;
         }
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         for (int l = 0; l < 8; ++l) sums[l] += d * aux32[l];
-        const float dmin = WSP_GGML_FP16_TO_FP32(x[i].dmin) * y[i].d;
+        const float dmin = WSP_GGML_CPU_FP16_TO_FP32(x[i].dmin) * y[i].d;
         sumf -= dmin * sumi;
     }
     for (int l = 0; l < 8; ++l) sumf += sums[l];
@@ -657,9 +658,9 @@ void wsp_ggml_vec_dot_q5_K_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, size
             for (int l = 0; l < 8; ++l) aux32[l] += scale * aux16[l];
             q8 += 8; a += 8;
         }
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         for (int l = 0; l < 8; ++l) sums[l] += d * aux32[l];
-        const float dmin = WSP_GGML_FP16_TO_FP32(x[i].dmin) * y[i].d;
+        const float dmin = WSP_GGML_CPU_FP16_TO_FP32(x[i].dmin) * y[i].d;
         sumf -= dmin * sumi;
     }
     for (int l = 0; l < 8; ++l) sumf += sums[l];
@@ -714,7 +715,7 @@ void wsp_ggml_vec_dot_q6_K_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, size
             for (int l = 0; l < 8; ++l) aux32[l] += scale * aux16[l];
             q8 += 8; a += 8;
         }
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         for (int l = 0; l < 8; ++l) sums[l] += d * aux32[l];
     }
     for (int l = 0; l < 8; ++l) sumf += sums[l];
@@ -739,7 +740,7 @@ void wsp_ggml_vec_dot_iq2_xxs_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, s
     float sumf = 0.f;
     for (int i = 0; i < nb; ++i) {
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         const uint16_t * WSP_GGML_RESTRICT q2 = x[i].qs;
         const int8_t   * WSP_GGML_RESTRICT q8 = y[i].qs;
         int32_t bsum = 0;
@@ -778,7 +779,7 @@ void wsp_ggml_vec_dot_iq2_xs_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, si
     float sumf = 0.f;
     for (int i = 0; i < nb; ++i) {
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         const uint16_t * WSP_GGML_RESTRICT q2 = x[i].qs;
         const uint8_t  * WSP_GGML_RESTRICT sc = x[i].scales;
         const int8_t   * WSP_GGML_RESTRICT q8 = y[i].qs;
@@ -829,7 +830,7 @@ void wsp_ggml_vec_dot_iq2_s_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
     float sumf = 0;
     for (int i = 0; i < nb; i++) {
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         const int8_t  * q8 = y[i].qs;
         const uint8_t * qs = x[i].qs;
         const uint8_t * qh = x[i].qh;
@@ -882,7 +883,7 @@ void wsp_ggml_vec_dot_iq3_xxs_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, s
     float sumf = 0.f;
     for (int i = 0; i < nb; ++i) {
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         const uint8_t * WSP_GGML_RESTRICT q3 = x[i].qs;
         const uint8_t * WSP_GGML_RESTRICT gas = x[i].qs + QK_K/4;
         const int8_t  * WSP_GGML_RESTRICT q8 = y[i].qs;
@@ -924,7 +925,7 @@ void wsp_ggml_vec_dot_iq3_s_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
     float sumf = 0.f;
     for (int i = 0; i < nb; ++i) {
-        const float d = WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d;
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d;
         const uint8_t * WSP_GGML_RESTRICT qs = x[i].qs;
         const uint8_t * WSP_GGML_RESTRICT qh = x[i].qh;
         const uint8_t * WSP_GGML_RESTRICT signs = x[i].signs;
@@ -1002,7 +1003,7 @@ void wsp_ggml_vec_dot_iq1_s_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
             qs += 4;
         }
-        sumf += WSP_GGML_FP16_TO_FP32(x[i].d) * y[i].d * (sumi + IQ1S_DELTA * sumi1);
+        sumf += WSP_GGML_CPU_FP16_TO_FP32(x[i].d) * y[i].d * (sumi + IQ1S_DELTA * sumi1);
     }
     *s = sumf;
@@ -1063,7 +1064,7 @@ void wsp_ggml_vec_dot_iq1_m_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
             qh += 2;
         }
-        sumf += WSP_GGML_FP16_TO_FP32(scale.f16) * y[i].d * (sumi1 + IQ1M_DELTA * sumi2);
+        sumf += WSP_GGML_CPU_FP16_TO_FP32(scale.f16) * y[i].d * (sumi1 + IQ1M_DELTA * sumi2);
     }
     *s = sumf;
@@ -1087,7 +1088,7 @@ void wsp_ggml_vec_dot_iq4_nl_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, si
     float sumf = 0;
     for (; ib < nb; ++ib) {
-        const float d = WSP_GGML_FP16_TO_FP32(y[ib].d)*WSP_GGML_FP16_TO_FP32(x[ib].d);
+        const float d = WSP_GGML_CPU_FP16_TO_FP32(y[ib].d)*WSP_GGML_CPU_FP16_TO_FP32(x[ib].d);
         int sumi1 = 0, sumi2 = 0;
         for (int j = 0; j < QK4_NL/2; ++j) {
             sumi1 += y[ib].qs[j+       0] * kvalues_iq4nl[x[ib].qs[j] & 0xf];
@@ -1113,7 +1114,7 @@ void wsp_ggml_vec_dot_iq4_xs_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, si
     float sumf = 0;
     for (int ibl = 0; ibl < nb; ++ibl) {
-        const float d4d8 = WSP_GGML_FP16_TO_FP32(x[ibl].d) * y[ibl].d;
+        const float d4d8 = WSP_GGML_CPU_FP16_TO_FP32(x[ibl].d) * y[ibl].d;
         uint16_t h = x[ibl].scales_h;
         const uint8_t * qs = x[ibl].qs;
         const int8_t  * q8 = y[ibl].qs;

package/cpp/ggml-cpu/repack.cpp CHANGED Viewed

@@ -6,6 +6,7 @@
 #include "ggml-impl.h"
 #include "ggml-cpu.h"
 #include "ggml-cpu-impl.h"
+#include "simd-mappings.h"
 #include "traits.h"
 #include "arch-fallback.h"
@@ -72,7 +73,7 @@ void wsp_ggml_wsp_quantize_mat_q8_0_4x4_generic(const float * WSP_GGML_RESTRICT
             const float d = amax / ((1 << 7) - 1);
             id[row_iter] = d ? 1.0f / d : 0.0f;
-            y[i].d[row_iter] = WSP_GGML_FP32_TO_FP16(d);
+            y[i].d[row_iter] = WSP_GGML_CPU_FP32_TO_FP16(d);
         }
         for (int j = 0; j < QK8_0 * 4; j++) {
@@ -110,7 +111,7 @@ void wsp_ggml_wsp_quantize_mat_q8_0_4x8_generic(const float * WSP_GGML_RESTRICT
             const float d = amax / ((1 << 7) - 1);
             id[row_iter] = d ? 1.0f / d : 0.0f;
-            y[i].d[row_iter] = WSP_GGML_FP32_TO_FP16(d);
+            y[i].d[row_iter] = WSP_GGML_CPU_FP32_TO_FP16(d);
         }
         for (int j = 0; j < QK8_0 * 4; j++) {
@@ -236,7 +237,7 @@ void wsp_ggml_gemv_q4_0_4x4_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, siz
                         const int v1 = (int8_t) (b_ptr[l].qs[k * ncols_interleaved * blocklen + j * blocklen + i] & 0xF0);
                         sumi += ((v0 * a_ptr[l].qs[k * blocklen + i]) + (v1 * a_ptr[l].qs[k * blocklen + i + qk / 2])) >> 4;
                     }
-                    sumf[j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d);
+                    sumf[j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d);
                 }
             }
         }
@@ -280,7 +281,7 @@ void wsp_ggml_gemv_q4_0_4x8_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, siz
                         const int v1 = (int8_t) (b_ptr[l].qs[k * ncols_interleaved * blocklen + j * blocklen + i] & 0xF0);
                         sumi += ((v0 * a_ptr[l].qs[k * blocklen + i]) + (v1 * a_ptr[l].qs[k * blocklen + i + qk / 2])) >> 4;
                     }
-                    sumf[j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d);
+                    sumf[j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d);
                 }
             }
         }
@@ -325,7 +326,7 @@ void wsp_ggml_gemv_q4_0_8x8_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, siz
                             const int v1 = (int8_t) (b_ptr[l].qs[k * ncols_interleaved * blocklen + j * blocklen + i] & 0xF0);
                             sumi += ((v0 * a_ptr[l].qs[k * blocklen + i]) + (v1 * a_ptr[l].qs[k * blocklen + i + qk / 2])) >> 4;
                         }
-                        sumf[j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d);
+                        sumf[j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d);
                     }
                 }
             }
@@ -396,13 +397,13 @@ void wsp_ggml_gemv_q4_K_8x8_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
                         sumi2 = sumi2 * scales_1[j];
                         sumi += sumi1 + sumi2;
                     }
-                    sumf[j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * a_ptr[l].d;
+                    sumf[j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * a_ptr[l].d;
                 }
             }
             for (int sb = 0; sb < 8; sb++) {
                 uint8_t *mins = (uint8_t*) utmp + 8 + sb * 16;
                 for (int j = 0; j < ncols_interleaved; j++) {
-                    sum_minf[j] += mins[j] * (a_ptr[l].bsums[sb * 2] + a_ptr[l].bsums[sb * 2 + 1]) * WSP_GGML_FP16_TO_FP32(b_ptr[l].dmin[j]) * a_ptr[l].d;
+                    sum_minf[j] += mins[j] * (a_ptr[l].bsums[sb * 2] + a_ptr[l].bsums[sb * 2 + 1]) * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].dmin[j]) * a_ptr[l].d;
                 }
             }
         }
@@ -449,7 +450,7 @@ void wsp_ggml_gemv_iq4_nl_4x4_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, s
                             const int v1 = kvalues_iq4nl[b_ptr[l].qs[k * ncols_interleaved * blocklen + j * blocklen + i] >> 4];
                             sumi += ((v0 * a_ptr[l].qs[k * blocklen + i]) + (v1 * a_ptr[l].qs[k * blocklen + i + qk / 2]));
                         }
-                        sumf[j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d);
+                        sumf[j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d);
                     }
                 }
             }
@@ -500,7 +501,7 @@ void wsp_ggml_gemm_q4_0_4x4_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, siz
                                     sumi += ((v0 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i]) +
                                             (v1 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i + qk / 2 * 4])) >> 4;
                                 }
-                                sumf[m][j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d[m]);
+                                sumf[m][j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d[m]);
                             }
                         }
                     }
@@ -555,7 +556,7 @@ void wsp_ggml_gemm_q4_0_4x8_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, siz
                                 sumi += ((v0 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i]) +
                                         (v1 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i + qk / 2 * 4])) >> 4;
                             }
-                            sumf[m][j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d[m]);
+                            sumf[m][j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d[m]);
                         }
                     }
                 }
@@ -609,7 +610,7 @@ void wsp_ggml_gemm_q4_0_8x8_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, siz
                                 sumi += ((v0 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i]) +
                                          (v1 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i + qk / 2 * 4])) >> 4;
                             }
-                            sumf[m][j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d[m]);
+                            sumf[m][j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d[m]);
                         }
                     }
                 }
@@ -688,7 +689,7 @@ void wsp_ggml_gemm_q4_K_8x8_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
                                 sumi2 = sumi2 * scales_1[j];
                                 sumi += sumi1 + sumi2;
                             }
-                            sumf[m][j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * a_ptr[l].d[m];
+                            sumf[m][j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * a_ptr[l].d[m];
                         }
                     }
                 }
@@ -697,7 +698,7 @@ void wsp_ggml_gemm_q4_K_8x8_q8_K_generic(int n, float * WSP_GGML_RESTRICT s, siz
                     for(int m = 0; m < 4; m++) {
                         const int16_t *bsums = a_ptr[l].bsums + (sb * 8) + (m * 4) - ((sb % 2) * 6);
                         for(int j = 0; j < ncols_interleaved; j++) {
-                            sum_minf[m][j] += mins[j] * (bsums[0] + bsums[1]) * WSP_GGML_FP16_TO_FP32(b_ptr[l].dmin[j]) * a_ptr[l].d[m];
+                            sum_minf[m][j] += mins[j] * (bsums[0] + bsums[1]) * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].dmin[j]) * a_ptr[l].d[m];
                         }
                     }
                 }
@@ -753,7 +754,7 @@ void wsp_ggml_gemm_iq4_nl_4x4_q8_0_generic(int n, float * WSP_GGML_RESTRICT s, s
                                     sumi += ((v0 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i]) +
                                             (v1 * a_ptr[l].qs[k * 4 * blocklen + m * blocklen + i + qk / 2 * 4]));
                                 }
-                                sumf[m][j] += sumi * WSP_GGML_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_FP16_TO_FP32(a_ptr[l].d[m]);
+                                sumf[m][j] += sumi * WSP_GGML_CPU_FP16_TO_FP32(b_ptr[l].d[j]) * WSP_GGML_CPU_FP16_TO_FP32(a_ptr[l].d[m]);
                             }
                         }
                     }