npm - cui-llama.rn - Versions diffs - 1.3.4 → 1.3.6 - Mend

cui-llama.rn 1.3.4 → 1.3.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

package/android/src/main/CMakeLists.txt +14 -8
package/android/src/main/jni.cpp +38 -37
package/cpp/common.cpp +50 -30
package/cpp/common.h +32 -13
package/cpp/ggml-alloc.c +0 -1
package/cpp/ggml-backend-reg.cpp +79 -49
package/cpp/ggml-backend.cpp +5 -2
package/cpp/ggml-cpp.h +1 -0
package/cpp/ggml-cpu-aarch64.cpp +57 -72
package/cpp/ggml-cpu-quants.c +5 -1
package/cpp/ggml-cpu.c +6 -6
package/cpp/ggml-cpu.cpp +9 -0
package/cpp/ggml-impl.h +11 -0
package/cpp/ggml-metal.m +2 -2
package/cpp/ggml.c +129 -1388
package/cpp/ggml.h +29 -152
package/cpp/gguf.cpp +1325 -0
package/cpp/gguf.h +202 -0
package/cpp/llama-adapter.cpp +346 -0
package/cpp/llama-adapter.h +73 -0
package/cpp/llama-arch.cpp +1434 -0
package/cpp/llama-arch.h +395 -0
package/cpp/llama-batch.cpp +368 -0
package/cpp/llama-batch.h +88 -0
package/cpp/llama-chat.cpp +567 -0
package/cpp/llama-chat.h +51 -0
package/cpp/llama-context.cpp +1771 -0
package/cpp/llama-context.h +128 -0
package/cpp/llama-cparams.cpp +1 -0
package/cpp/llama-cparams.h +37 -0
package/cpp/llama-cpp.h +30 -0
package/cpp/llama-grammar.cpp +16 -15
package/cpp/llama-grammar.h +5 -6
package/cpp/llama-hparams.cpp +71 -0
package/cpp/llama-hparams.h +140 -0
package/cpp/llama-impl.cpp +167 -0
package/cpp/llama-impl.h +16 -136
package/cpp/llama-kv-cache.cpp +718 -0
package/cpp/llama-kv-cache.h +218 -0
package/cpp/llama-mmap.cpp +589 -0
package/cpp/llama-mmap.h +67 -0
package/cpp/llama-model-loader.cpp +1011 -0
package/cpp/llama-model-loader.h +158 -0
package/cpp/llama-model.cpp +2202 -0
package/cpp/llama-model.h +391 -0
package/cpp/llama-sampling.cpp +117 -4
package/cpp/llama-vocab.cpp +26 -29
package/cpp/llama-vocab.h +14 -2
package/cpp/llama.cpp +8839 -19131
package/cpp/llama.cpp.rej +23 -0
package/cpp/llama.h +31 -9
package/cpp/rn-llama.hpp +39 -37
package/cpp/sgemm.cpp +1091 -378
package/cpp/sgemm.h +2 -2
package/cpp/unicode.cpp +6 -0
package/package.json +1 -1

package/cpp/ggml.c CHANGED Viewed

@@ -1601,15 +1601,8 @@ static struct lm_ggml_tensor * lm_ggml_new_tensor_impl(
     struct lm_ggml_tensor * const result = (struct lm_ggml_tensor *)((char *)ctx->mem_buffer + obj_new->offs);
-#ifdef __clang__
-    // temporary until lm_ggml_tensor::backend is removed
-    #pragma clang diagnostic push
-    #pragma clang diagnostic ignored "-Wdeprecated-declarations"
-#endif
     *result = (struct lm_ggml_tensor) {
         /*.type         =*/ type,
-        /*.backend      =*/ LM_GGML_BACKEND_TYPE_CPU,
         /*.buffer       =*/ NULL,
         /*.ne           =*/ { 1, 1, 1, 1 },
         /*.nb           =*/ { 0, 0, 0, 0 },
@@ -1625,10 +1618,6 @@ static struct lm_ggml_tensor * lm_ggml_new_tensor_impl(
         /*.padding      =*/ { 0 },
     };
-#ifdef __clang__
-    #pragma clang diagnostic pop
-#endif
     // TODO: this should not be needed as long as we don't rely on aligned SIMD loads
     //LM_GGML_ASSERT_ALIGNED(result->data);
@@ -3773,13 +3762,84 @@ struct lm_ggml_tensor * lm_ggml_clamp(
     return result;
 }
-// lm_ggml_conv_1d
 static int64_t lm_ggml_calc_conv_output_size(int64_t ins, int64_t ks, int s, int p, int d) {
     return (ins + 2 * p - d * (ks - 1) - 1) / s + 1;
 }
-LM_GGML_API struct lm_ggml_tensor * lm_ggml_conv_1d(
+// im2col: [N, IC, IH, IW] => [N, OH, OW, IC*KH*KW]
+// a: [OC，IC, KH, KW]
+// b: [N, IC, IH, IW]
+// result: [N, OH, OW, IC*KH*KW]
+struct lm_ggml_tensor * lm_ggml_im2col(
+        struct lm_ggml_context * ctx,
+        struct lm_ggml_tensor  * a,
+        struct lm_ggml_tensor  * b,
+        int                   s0,
+        int                   s1,
+        int                   p0,
+        int                   p1,
+        int                   d0,
+        int                   d1,
+        bool                  is_2D,
+        enum lm_ggml_type        dst_type) {
+    if (is_2D) {
+        LM_GGML_ASSERT(a->ne[2] == b->ne[2]);
+    } else {
+        //LM_GGML_ASSERT(b->ne[1] % a->ne[1] == 0);
+        LM_GGML_ASSERT(b->ne[1] == a->ne[1]);
+        LM_GGML_ASSERT(b->ne[3] == 1);
+    }
+    const int64_t OH = is_2D ? lm_ggml_calc_conv_output_size(b->ne[1], a->ne[1], s1, p1, d1) : 0;
+    const int64_t OW =         lm_ggml_calc_conv_output_size(b->ne[0], a->ne[0], s0, p0, d0);
+    LM_GGML_ASSERT((!is_2D || OH > 0) && "b too small compared to a");
+    LM_GGML_ASSERT((OW > 0)           && "b too small compared to a");
+    const int64_t ne[4] = {
+        is_2D ? (a->ne[2] * a->ne[1] * a->ne[0]) : a->ne[1] * a->ne[0],
+        OW,
+        is_2D ? OH : b->ne[2],
+        is_2D ?      b->ne[3] : 1,
+    };
+    struct lm_ggml_tensor * result = lm_ggml_new_tensor(ctx, dst_type, 4, ne);
+    int32_t params[] = { s0, s1, p0, p1, d0, d1, (is_2D ? 1 : 0) };
+    lm_ggml_set_op_params(result, params, sizeof(params));
+    result->op     = LM_GGML_OP_IM2COL;
+    result->src[0] = a;
+    result->src[1] = b;
+    return result;
+}
+struct lm_ggml_tensor * lm_ggml_im2col_back(
+        struct lm_ggml_context * ctx,
+        struct lm_ggml_tensor  * a,
+        struct lm_ggml_tensor  * b,
+        int64_t             * ne,
+        int                   s0,
+        int                   s1,
+        int                   p0,
+        int                   p1,
+        int                   d0,
+        int                   d1,
+        bool                  is_2D) {
+    struct lm_ggml_tensor * result = lm_ggml_new_tensor(ctx, LM_GGML_TYPE_F32, 4, ne);
+    int32_t params[] = { s0, s1, p0, p1, d0, d1, (is_2D ? 1 : 0) };
+    lm_ggml_set_op_params(result, params, sizeof(params));
+    result->op     = LM_GGML_OP_IM2COL_BACK;
+    result->src[0] = a;
+    result->src[1] = b;
+    return result;
+}
+// lm_ggml_conv_1d
+struct lm_ggml_tensor * lm_ggml_conv_1d(
         struct lm_ggml_context * ctx,
         struct lm_ggml_tensor  * a,
         struct lm_ggml_tensor  * b,
@@ -3809,137 +3869,75 @@ struct lm_ggml_tensor* lm_ggml_conv_1d_ph(
     return lm_ggml_conv_1d(ctx, a, b, s, a->ne[0] / 2, d);
 }
-// lm_ggml_conv_transpose_1d
-static int64_t lm_ggml_calc_conv_transpose_1d_output_size(int64_t ins, int64_t ks, int s, int p, int d) {
-    return (ins - 1) * s - 2 * p + d * (ks - 1) + 1;
-}
+// lm_ggml_conv_1d_dw
-LM_GGML_API struct lm_ggml_tensor * lm_ggml_conv_transpose_1d(
+struct lm_ggml_tensor * lm_ggml_conv_1d_dw(
         struct lm_ggml_context * ctx,
         struct lm_ggml_tensor  * a,
         struct lm_ggml_tensor  * b,
         int                   s0,
         int                   p0,
         int                   d0) {
-    LM_GGML_ASSERT(lm_ggml_is_matrix(b));
-    LM_GGML_ASSERT(a->ne[2] == b->ne[1]);
-    LM_GGML_ASSERT(a->ne[3] == 1);
-    LM_GGML_ASSERT(p0 == 0);
-    LM_GGML_ASSERT(d0 == 1);
+    struct lm_ggml_tensor * new_a = lm_ggml_reshape_4d(ctx, a, a->ne[0], 1, a->ne[1], a->ne[2]);
+    struct lm_ggml_tensor * new_b = lm_ggml_reshape_4d(ctx, b, b->ne[0], 1, b->ne[1], b->ne[2]);
-    const int64_t ne[4] = {
-        lm_ggml_calc_conv_transpose_1d_output_size(b->ne[0], a->ne[0], s0, 0 /*p0*/, 1 /*d0*/),
-        a->ne[1], b->ne[2], 1,
-    };
-    struct lm_ggml_tensor * result = lm_ggml_new_tensor(ctx, LM_GGML_TYPE_F32, 4, ne);
+    struct lm_ggml_tensor * im2col = lm_ggml_im2col(ctx, new_a, new_b, s0, 0, p0, 0, d0, 0, false, LM_GGML_TYPE_F16);
-    int32_t params[] = { s0, p0, d0 };
-    lm_ggml_set_op_params(result, params, sizeof(params));
+    struct lm_ggml_tensor * result = lm_ggml_mul_mat(ctx, im2col, a);
-    result->op     = LM_GGML_OP_CONV_TRANSPOSE_1D;
-    result->src[0] = a;
-    result->src[1] = b;
+    result = lm_ggml_reshape_3d(ctx, result, b->ne[0], b->ne[1], 1);
     return result;
 }
-// lm_ggml_conv_depthwise
+// lm_ggml_conv_1d_dw_ph
-struct lm_ggml_tensor * lm_ggml_conv_depthwise_2d(
+struct lm_ggml_tensor * lm_ggml_conv_1d_dw_ph(
         struct lm_ggml_context * ctx,
         struct lm_ggml_tensor  * a,
         struct lm_ggml_tensor  * b,
         int                   s0,
-        int                   s1,
-        int                   p0,
-        int                   p1,
-        int                   d0,
-        int                   d1) {
-    struct lm_ggml_tensor * new_a = lm_ggml_reshape_4d(ctx, a, a->ne[0], a->ne[1], 1, a->ne[2] * a->ne[3]);
-    struct lm_ggml_tensor * im2col = lm_ggml_im2col(ctx, new_a,
-                                        lm_ggml_reshape_4d(ctx, b, b->ne[0], b->ne[1], 1, b->ne[2] * b->ne[3]),
-                                        s0, s1, p0, p1, d0, d1, true, LM_GGML_TYPE_F16); // [N * IC, OH, OW, KH * KW]
-    struct lm_ggml_tensor * new_b = lm_ggml_reshape_4d(ctx, im2col, im2col->ne[0], im2col->ne[2] * im2col->ne[1], b->ne[2], b->ne[3]); // [N * IC, OH, OW, KH * KW] => [N, IC, OH * OW, KH * KW]
+        int                   d0) {
+    return lm_ggml_conv_1d_dw(ctx, a, b, s0, a->ne[0] / 2, d0);
+}
-    new_a = lm_ggml_reshape_4d(ctx, new_a, (new_a->ne[0] * new_a->ne[1]), new_a->ne[2],  new_a->ne[3], 1);                       // [OC，1, KH, KW] => [1, OC, 1, KH * KW]
-    struct lm_ggml_tensor * result = lm_ggml_mul_mat(ctx, new_a, new_b);
-    result = lm_ggml_reshape_4d(ctx, result, im2col->ne[1], im2col->ne[2], b->ne[2], b->ne[3]); // [N, OC, OH, OW]
+// lm_ggml_conv_transpose_1d
-    return result;
+static int64_t lm_ggml_calc_conv_transpose_1d_output_size(int64_t ins, int64_t ks, int s, int p, int d) {
+    return (ins - 1) * s - 2 * p + d * (ks - 1) + 1;
 }
-// lm_ggml_conv_2d
-// im2col: [N, IC, IH, IW] => [N, OH, OW, IC*KH*KW]
-// a: [OC，IC, KH, KW]
-// b: [N, IC, IH, IW]
-// result: [N, OH, OW, IC*KH*KW]
-struct lm_ggml_tensor * lm_ggml_im2col(
+LM_GGML_API struct lm_ggml_tensor * lm_ggml_conv_transpose_1d(
         struct lm_ggml_context * ctx,
         struct lm_ggml_tensor  * a,
         struct lm_ggml_tensor  * b,
         int                   s0,
-        int                   s1,
         int                   p0,
-        int                   p1,
-        int                   d0,
-        int                   d1,
-        bool                  is_2D,
-        enum lm_ggml_type        dst_type) {
-    if(is_2D) {
-        LM_GGML_ASSERT(a->ne[2] == b->ne[2]);
-    } else {
-        LM_GGML_ASSERT(a->ne[1] == b->ne[1]);
-        LM_GGML_ASSERT(b->ne[3] == 1);
-    }
-    const int64_t OH = is_2D ? lm_ggml_calc_conv_output_size(b->ne[1], a->ne[1], s1, p1, d1) : 0;
-    const int64_t OW =         lm_ggml_calc_conv_output_size(b->ne[0], a->ne[0], s0, p0, d0);
+        int                   d0) {
+    LM_GGML_ASSERT(lm_ggml_is_matrix(b));
+    LM_GGML_ASSERT(a->ne[2] == b->ne[1]);
+    LM_GGML_ASSERT(a->ne[3] == 1);
-    LM_GGML_ASSERT((!is_2D || OH > 0) && "b too small compared to a");
-    LM_GGML_ASSERT((OW > 0)           && "b too small compared to a");
+    LM_GGML_ASSERT(p0 == 0);
+    LM_GGML_ASSERT(d0 == 1);
     const int64_t ne[4] = {
-        is_2D ? (a->ne[2] * a->ne[1] * a->ne[0]) : a->ne[1] * a->ne[0],
-        OW,
-        is_2D ? OH : b->ne[2],
-        is_2D ?      b->ne[3] : 1,
+        lm_ggml_calc_conv_transpose_1d_output_size(b->ne[0], a->ne[0], s0, 0 /*p0*/, 1 /*d0*/),
+        a->ne[1], b->ne[2], 1,
     };
+    struct lm_ggml_tensor * result = lm_ggml_new_tensor(ctx, LM_GGML_TYPE_F32, 4, ne);
-    struct lm_ggml_tensor * result = lm_ggml_new_tensor(ctx, dst_type, 4, ne);
-    int32_t params[] = { s0, s1, p0, p1, d0, d1, (is_2D ? 1 : 0) };
+    int32_t params[] = { s0, p0, d0 };
     lm_ggml_set_op_params(result, params, sizeof(params));
-    result->op     = LM_GGML_OP_IM2COL;
+    result->op     = LM_GGML_OP_CONV_TRANSPOSE_1D;
     result->src[0] = a;
     result->src[1] = b;
     return result;
 }
-struct lm_ggml_tensor * lm_ggml_im2col_back(
-        struct lm_ggml_context * ctx,
-        struct lm_ggml_tensor  * a,
-        struct lm_ggml_tensor  * b,
-        int64_t             * ne,
-        int                   s0,
-        int                   s1,
-        int                   p0,
-        int                   p1,
-        int                   d0,
-        int                   d1,
-        bool                  is_2D) {
-    struct lm_ggml_tensor * result = lm_ggml_new_tensor(ctx, LM_GGML_TYPE_F32, 4, ne);
-    int32_t params[] = { s0, s1, p0, p1, d0, d1, (is_2D ? 1 : 0) };
-    lm_ggml_set_op_params(result, params, sizeof(params));
-    result->op     = LM_GGML_OP_IM2COL_BACK;
-    result->src[0] = a;
-    result->src[1] = b;
-    return result;
-}
+// lm_ggml_conv_2d
 // a: [OC，IC, KH, KW]
 // b: [N, IC, IH, IW]
@@ -3986,6 +3984,31 @@ struct lm_ggml_tensor * lm_ggml_conv_2d_s1_ph(
     return lm_ggml_conv_2d(ctx, a, b, 1, 1, a->ne[0] / 2, a->ne[1] / 2, 1, 1);
 }
+// lm_ggml_conv_2d_dw
+struct lm_ggml_tensor * lm_ggml_conv_2d_dw(
+        struct lm_ggml_context * ctx,
+        struct lm_ggml_tensor  * a,
+        struct lm_ggml_tensor  * b,
+        int                   s0,
+        int                   s1,
+        int                   p0,
+        int                   p1,
+        int                   d0,
+        int                   d1) {
+    struct lm_ggml_tensor * new_a = lm_ggml_reshape_4d(ctx, a, a->ne[0], a->ne[1], 1, a->ne[2] * a->ne[3]);
+    struct lm_ggml_tensor * im2col = lm_ggml_im2col(ctx, new_a,
+                                        lm_ggml_reshape_4d(ctx, b, b->ne[0], b->ne[1], 1, b->ne[2] * b->ne[3]),
+                                        s0, s1, p0, p1, d0, d1, true, LM_GGML_TYPE_F16); // [N * IC, OH, OW, KH * KW]
+    struct lm_ggml_tensor * new_b = lm_ggml_reshape_4d(ctx, im2col, im2col->ne[0], im2col->ne[2] * im2col->ne[1], b->ne[2], b->ne[3]); // [N * IC, OH, OW, KH * KW] => [N, IC, OH * OW, KH * KW]
+    new_a = lm_ggml_reshape_4d(ctx, new_a, (new_a->ne[0] * new_a->ne[1]), new_a->ne[2],  new_a->ne[3], 1);                       // [OC，1, KH, KW] => [1, OC, 1, KH * KW]
+    struct lm_ggml_tensor * result = lm_ggml_mul_mat(ctx, new_a, new_b);
+    result = lm_ggml_reshape_4d(ctx, result, im2col->ne[1], im2col->ne[2], b->ne[2], b->ne[3]); // [N, OC, OH, OW]
+    return result;
+}
 // lm_ggml_conv_transpose_2d_p0
 static int64_t lm_ggml_calc_conv_transpose_output_size(int64_t ins, int64_t ks, int s, int p) {
@@ -6050,12 +6073,12 @@ struct lm_ggml_tensor * lm_ggml_graph_get_tensor(const struct lm_ggml_cgraph * c
 struct lm_ggml_tensor * lm_ggml_graph_get_grad(const struct lm_ggml_cgraph * cgraph, const struct lm_ggml_tensor * node) {
     const size_t igrad = lm_ggml_hash_find(&cgraph->visited_hash_set, node);
-    return igrad != LM_GGML_HASHSET_FULL && lm_ggml_bitset_get(cgraph->visited_hash_set.used, igrad) ? cgraph->grads[igrad] : NULL;
+    return igrad != LM_GGML_HASHSET_FULL && lm_ggml_bitset_get(cgraph->visited_hash_set.used, igrad) && cgraph->grads ? cgraph->grads[igrad] : NULL;
 }
 struct lm_ggml_tensor * lm_ggml_graph_get_grad_acc(const struct lm_ggml_cgraph * cgraph, const struct lm_ggml_tensor * node) {
     const size_t igrad = lm_ggml_hash_find(&cgraph->visited_hash_set, node);
-    return igrad != LM_GGML_HASHSET_FULL && lm_ggml_bitset_get(cgraph->visited_hash_set.used, igrad) ? cgraph->grad_accs[igrad] : NULL;
+    return igrad != LM_GGML_HASHSET_FULL && lm_ggml_bitset_get(cgraph->visited_hash_set.used, igrad) && cgraph->grad_accs ? cgraph->grad_accs[igrad] : NULL;
 }
 void lm_ggml_graph_print(const struct lm_ggml_cgraph * cgraph) {
@@ -6396,1288 +6419,6 @@ size_t lm_ggml_quantize_chunk(
 ////////////////////////////////////////////////////////////////////////////////
-struct lm_gguf_str {
-    uint64_t n;  // GGUFv2
-    char * data;
-};
-static const size_t LM_GGUF_TYPE_SIZE[LM_GGUF_TYPE_COUNT] = {
-    [LM_GGUF_TYPE_UINT8]   = sizeof(uint8_t),
-    [LM_GGUF_TYPE_INT8]    = sizeof(int8_t),
-    [LM_GGUF_TYPE_UINT16]  = sizeof(uint16_t),
-    [LM_GGUF_TYPE_INT16]   = sizeof(int16_t),
-    [LM_GGUF_TYPE_UINT32]  = sizeof(uint32_t),
-    [LM_GGUF_TYPE_INT32]   = sizeof(int32_t),
-    [LM_GGUF_TYPE_FLOAT32] = sizeof(float),
-    [LM_GGUF_TYPE_BOOL]    = sizeof(bool),
-    [LM_GGUF_TYPE_STRING]  = sizeof(struct lm_gguf_str),
-    [LM_GGUF_TYPE_UINT64]  = sizeof(uint64_t),
-    [LM_GGUF_TYPE_INT64]   = sizeof(int64_t),
-    [LM_GGUF_TYPE_FLOAT64] = sizeof(double),
-    [LM_GGUF_TYPE_ARRAY]   = 0, // undefined
-};
-static_assert(LM_GGUF_TYPE_COUNT == 13, "LM_GGUF_TYPE_COUNT != 13");
-static const char * LM_GGUF_TYPE_NAME[LM_GGUF_TYPE_COUNT] = {
-    [LM_GGUF_TYPE_UINT8]   = "u8",
-    [LM_GGUF_TYPE_INT8]    = "i8",
-    [LM_GGUF_TYPE_UINT16]  = "u16",
-    [LM_GGUF_TYPE_INT16]   = "i16",
-    [LM_GGUF_TYPE_UINT32]  = "u32",
-    [LM_GGUF_TYPE_INT32]   = "i32",
-    [LM_GGUF_TYPE_FLOAT32] = "f32",
-    [LM_GGUF_TYPE_BOOL]    = "bool",
-    [LM_GGUF_TYPE_STRING]  = "str",
-    [LM_GGUF_TYPE_ARRAY]   = "arr",
-    [LM_GGUF_TYPE_UINT64]  = "u64",
-    [LM_GGUF_TYPE_INT64]   = "i64",
-    [LM_GGUF_TYPE_FLOAT64] = "f64",
-};
-static_assert(LM_GGUF_TYPE_COUNT == 13, "LM_GGUF_TYPE_COUNT != 13");
-union lm_gguf_value {
-    uint8_t  uint8;
-    int8_t   int8;
-    uint16_t uint16;
-    int16_t  int16;
-    uint32_t uint32;
-    int32_t  int32;
-    float    float32;
-    uint64_t uint64;
-    int64_t  int64;
-    double   float64;
-    bool     bool_;
-    struct lm_gguf_str str;
-    struct {
-        enum lm_gguf_type type;
-        uint64_t n;  // GGUFv2
-        void * data;
-    } arr;
-};
-struct lm_gguf_kv {
-    struct lm_gguf_str key;
-    enum  lm_gguf_type  type;
-    union lm_gguf_value value;
-};
-struct lm_gguf_header {
-    char magic[4];
-    uint32_t version;
-    uint64_t n_tensors; // GGUFv2
-    uint64_t n_kv;      // GGUFv2
-};
-struct lm_gguf_tensor_info {
-    struct lm_gguf_str name;
-    uint32_t n_dims;
-    uint64_t ne[LM_GGML_MAX_DIMS];
-    enum lm_ggml_type type;
-    uint64_t offset; // offset from start of `data`, must be a multiple of `ALIGNMENT`
-    // for writing API
-    const void * data;
-    size_t size;
-};
-struct lm_gguf_context {
-    struct lm_gguf_header header;
-    struct lm_gguf_kv          * kv;
-    struct lm_gguf_tensor_info * infos;
-    size_t alignment;
-    size_t offset;    // offset of `data` from beginning of file
-    size_t size;      // size of `data` in bytes
-    //uint8_t * padding;
-    void * data;
-};
-static size_t lm_gguf_type_size(enum lm_gguf_type type) {
-    LM_GGML_ASSERT(0 <= type && type < LM_GGUF_TYPE_COUNT);
-    return LM_GGUF_TYPE_SIZE[type];
-}
-static bool lm_gguf_tensor_info_sanitize(struct lm_gguf_tensor_info * info) {
-    if (info->n_dims > LM_GGML_MAX_DIMS) {
-        fprintf(stderr, "%s: invalid number of dimensions (%" PRIu32 ")\n", __func__, info->n_dims);
-        return false;
-    }
-    if (info->type < 0 || info->type >= LM_GGML_TYPE_COUNT) {
-        fprintf(stderr, "%s: invalid type (%d)\n", __func__, info->type);
-        return false;
-    }
-    if (strlen(info->name.data) >= LM_GGML_MAX_NAME) {
-        fprintf(stderr, "%s: tensor '%s' name is too long\n", __func__, info->name.data);
-        return false;
-    }
-    for (uint32_t i = 0; i < info->n_dims; ++i) {
-        if (info->ne[i] <= 0) {
-            fprintf(stderr, "%s: invalid number of elements (%" PRIu64 ")\n", __func__, info->ne[i]);
-            return false;
-        }
-    }
-    // prevent overflow for total number of elements
-    if (INT64_MAX/info->ne[1] <= info->ne[0]) {
-        fprintf(stderr, "%s: invalid number of elements (%" PRIu64 ")\n", __func__, info->ne[1]);
-        return false;
-    }
-    if (INT64_MAX/info->ne[2] <= info->ne[0]*info->ne[1]) {
-        fprintf(stderr, "%s: invalid number of elements (%" PRIu64 ")\n", __func__, info->ne[2]);
-        return false;
-    }
-    if (INT64_MAX/info->ne[3] <= info->ne[0]*info->ne[1]*info->ne[2]) {
-        fprintf(stderr, "%s: invalid number of elements (%" PRIu64 ")\n", __func__, info->ne[3]);
-        return false;
-    }
-    return true;
-}
-static bool lm_gguf_fread_el(FILE * file, void * dst, size_t size, size_t * offset) {
-    const size_t n = fread(dst, 1, size, file);
-    *offset += n;
-    return n == size;
-}
-static bool lm_gguf_fread_str(FILE * file, struct lm_gguf_str * p, size_t * offset) {
-    p->n    = 0;
-    p->data = NULL;
-    bool ok = true;
-    ok = ok && lm_gguf_fread_el(file, &p->n, sizeof(p->n), offset);
-    // early exit if string length is invalid, prevents from integer overflow
-    if (p->n == SIZE_MAX) {
-        fprintf(stderr, "%s: invalid string length (%" PRIu64 ")\n", __func__, p->n);
-        return false;
-    }
-    p->data = calloc(p->n + 1, 1);
-    if (!p->data) {
-        fprintf(stderr, "%s: failed to allocate memory for string of length %" PRIu64 "\n", __func__, p->n);
-        return false;
-    }
-    ok = ok && lm_gguf_fread_el(file,  p->data, p->n, offset);
-    return ok;
-}
-static void lm_gguf_free_kv(struct lm_gguf_kv * kv) {
-    if (kv->key.data) {
-        LM_GGML_FREE(kv->key.data);
-    }
-    if (kv->type == LM_GGUF_TYPE_STRING) {
-        if (kv->value.str.data) {
-            LM_GGML_FREE(kv->value.str.data);
-        }
-    }
-    if (kv->type == LM_GGUF_TYPE_ARRAY) {
-        if (kv->value.arr.data) {
-            if (kv->value.arr.type == LM_GGUF_TYPE_STRING) {
-                for (uint64_t j = 0; j < kv->value.arr.n; ++j) {
-                    struct lm_gguf_str * str = &((struct lm_gguf_str *) kv->value.arr.data)[j];
-                    if (str->data) {
-                        LM_GGML_FREE(str->data);
-                    }
-                }
-            }
-            LM_GGML_FREE(kv->value.arr.data);
-        }
-    }
-}
-struct lm_gguf_context * lm_gguf_init_empty(void) {
-    struct lm_gguf_context * ctx = calloc(1, sizeof(struct lm_gguf_context));
-    if (!ctx) {
-        fprintf(stderr, "%s: failed to allocate memory for context\n", __func__);
-        return NULL;
-    }
-    memcpy(ctx->header.magic, LM_GGUF_MAGIC, sizeof(ctx->header.magic));
-    ctx->header.version   = LM_GGUF_VERSION;
-    ctx->header.n_tensors = 0;
-    ctx->header.n_kv      = 0;
-    ctx->kv    = NULL;
-    ctx->infos = NULL;
-    ctx->alignment = LM_GGUF_DEFAULT_ALIGNMENT;
-    ctx->offset    = 0;
-    ctx->size      = 0;
-    ctx->data = NULL;
-    return ctx;
-}
-struct lm_gguf_context * lm_gguf_init_from_file(const char * fname, struct lm_gguf_init_params params) {
-    FILE * file = lm_ggml_fopen(fname, "rb");
-    if (!file) {
-        fprintf(stderr, "%s: failed to open '%s': '%s'\n", __func__, fname, strerror(errno));
-        return NULL;
-    }
-    // offset from start of file
-    size_t offset = 0;
-    char magic[4];
-    // check the magic before making allocations
-    {
-        lm_gguf_fread_el(file, &magic, sizeof(magic), &offset);
-        for (uint32_t i = 0; i < sizeof(magic); i++) {
-            if (magic[i] != LM_GGUF_MAGIC[i]) {
-                fprintf(stderr, "%s: invalid magic characters '%c%c%c%c'\n", __func__, magic[0], magic[1], magic[2], magic[3]);
-                fclose(file);
-                return NULL;
-            }
-        }
-    }
-    bool ok = true;
-    struct lm_gguf_context * ctx = calloc(1, sizeof(struct lm_gguf_context));
-    if (!ctx) {
-        fprintf(stderr, "%s: failed to allocate memory for context\n", __func__);
-        fclose(file);
-        return NULL;
-    }
-    // read the header
-    {
-        strncpy(ctx->header.magic, magic, 4);
-        ctx->kv    = NULL;
-        ctx->infos = NULL;
-        ctx->data  = NULL;
-        ok = ok && lm_gguf_fread_el(file, &ctx->header.version,   sizeof(ctx->header.version),   &offset);
-        ok = ok && lm_gguf_fread_el(file, &ctx->header.n_tensors, sizeof(ctx->header.n_tensors), &offset);
-        ok = ok && lm_gguf_fread_el(file, &ctx->header.n_kv,      sizeof(ctx->header.n_kv),      &offset);
-        if (ctx->header.version == 1) {
-            fprintf(stderr, "%s: GGUFv1 is no longer supported. please use a more up-to-date version\n", __func__);
-            fclose(file);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-        // sanity-checks to prevent from integer/buffer overflows
-        ok = ok && (ctx->header.n_tensors < (SIZE_MAX/2)/sizeof(struct lm_gguf_tensor_info));
-        ok = ok && (ctx->header.n_tensors < (SIZE_MAX/2)/lm_ggml_tensor_overhead());
-        ok = ok && (ctx->header.n_kv      < (SIZE_MAX/2)/sizeof(struct lm_gguf_kv));
-        if (!ok) {
-            fprintf(stderr, "%s: failed to read header\n", __func__);
-            fclose(file);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-    }
-    // read the kv pairs
-    {
-        const uint64_t n_kv = ctx->header.n_kv;
-        ctx->kv = calloc(n_kv, sizeof(struct lm_gguf_kv));
-        if (!ctx->kv) {
-            fprintf(stderr, "%s: failed to allocate memory for kv pairs\n", __func__);
-            fclose(file);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-        for (uint64_t i = 0; i < n_kv; ++i) {
-            struct lm_gguf_kv * kv = &ctx->kv[i];
-            //fprintf(stderr, "%s: reading kv %d\n", __func__, i);
-            ok = ok && lm_gguf_fread_str(file, &kv->key,                    &offset);
-            ok = ok && lm_gguf_fread_el (file, &kv->type, sizeof(kv->type), &offset);
-            //fprintf(stderr, "%s: reading kv with key %s\n", __func__, kv->key.data);
-            switch (kv->type) {
-                case LM_GGUF_TYPE_UINT8:   ok = ok && lm_gguf_fread_el (file, &kv->value.uint8,   sizeof(kv->value.uint8),   &offset); break;
-                case LM_GGUF_TYPE_INT8:    ok = ok && lm_gguf_fread_el (file, &kv->value.int8,    sizeof(kv->value.int8),    &offset); break;
-                case LM_GGUF_TYPE_UINT16:  ok = ok && lm_gguf_fread_el (file, &kv->value.uint16,  sizeof(kv->value.uint16),  &offset); break;
-                case LM_GGUF_TYPE_INT16:   ok = ok && lm_gguf_fread_el (file, &kv->value.int16,   sizeof(kv->value.int16),   &offset); break;
-                case LM_GGUF_TYPE_UINT32:  ok = ok && lm_gguf_fread_el (file, &kv->value.uint32,  sizeof(kv->value.uint32),  &offset); break;
-                case LM_GGUF_TYPE_INT32:   ok = ok && lm_gguf_fread_el (file, &kv->value.int32,   sizeof(kv->value.int32),   &offset); break;
-                case LM_GGUF_TYPE_FLOAT32: ok = ok && lm_gguf_fread_el (file, &kv->value.float32, sizeof(kv->value.float32), &offset); break;
-                case LM_GGUF_TYPE_UINT64:  ok = ok && lm_gguf_fread_el (file, &kv->value.uint64,  sizeof(kv->value.uint64),  &offset); break;
-                case LM_GGUF_TYPE_INT64:   ok = ok && lm_gguf_fread_el (file, &kv->value.int64,   sizeof(kv->value.int64),   &offset); break;
-                case LM_GGUF_TYPE_FLOAT64: ok = ok && lm_gguf_fread_el (file, &kv->value.float64, sizeof(kv->value.float64), &offset); break;
-                case LM_GGUF_TYPE_BOOL:    ok = ok && lm_gguf_fread_el (file, &kv->value.bool_,   sizeof(kv->value.bool_),   &offset); break;
-                case LM_GGUF_TYPE_STRING:  ok = ok && lm_gguf_fread_str(file, &kv->value.str,                                &offset); break;
-                case LM_GGUF_TYPE_ARRAY:
-                    {
-                        ok = ok && lm_gguf_fread_el(file, &kv->value.arr.type, sizeof(kv->value.arr.type), &offset);
-                        ok = ok && lm_gguf_fread_el(file, &kv->value.arr.n,    sizeof(kv->value.arr.n),    &offset);
-                        switch (kv->value.arr.type) {
-                            case LM_GGUF_TYPE_UINT8:
-                            case LM_GGUF_TYPE_INT8:
-                            case LM_GGUF_TYPE_UINT16:
-                            case LM_GGUF_TYPE_INT16:
-                            case LM_GGUF_TYPE_UINT32:
-                            case LM_GGUF_TYPE_INT32:
-                            case LM_GGUF_TYPE_FLOAT32:
-                            case LM_GGUF_TYPE_UINT64:
-                            case LM_GGUF_TYPE_INT64:
-                            case LM_GGUF_TYPE_FLOAT64:
-                            case LM_GGUF_TYPE_BOOL:
-                                {
-                                    // prevent from integer overflow in the malloc below
-                                    if (kv->value.arr.n >= SIZE_MAX/lm_gguf_type_size(kv->value.arr.type)) {
-                                        fprintf(stderr, "%s: array size is too large (%" PRIu64 ")\n", __func__, kv->value.arr.n);
-                                        fclose(file);
-                                        lm_gguf_free(ctx);
-                                        return NULL;
-                                    }
-                                    kv->value.arr.data = calloc(kv->value.arr.n, lm_gguf_type_size(kv->value.arr.type));
-                                    if (!kv->value.arr.data) {
-                                        fprintf(stderr, "%s: failed to allocate memory for array\n", __func__);
-                                        fclose(file);
-                                        lm_gguf_free(ctx);
-                                        return NULL;
-                                    }
-                                    ok = ok && lm_gguf_fread_el(file, kv->value.arr.data, kv->value.arr.n * lm_gguf_type_size(kv->value.arr.type), &offset);
-                                } break;
-                            case LM_GGUF_TYPE_STRING:
-                                {
-                                    // prevent from integer overflow in the malloc below
-                                    if (kv->value.arr.n >= SIZE_MAX/sizeof(struct lm_gguf_str)) {
-                                        fprintf(stderr, "%s: array size is too large (%" PRIu64 ")\n", __func__, kv->value.arr.n);
-                                        fclose(file);
-                                        lm_gguf_free(ctx);
-                                        return NULL;
-                                    }
-                                    kv->value.arr.data = calloc(kv->value.arr.n, sizeof(struct lm_gguf_str));
-                                    if (!kv->value.arr.data) {
-                                        fprintf(stderr, "%s: failed to allocate memory for array\n", __func__);
-                                        fclose(file);
-                                        lm_gguf_free(ctx);
-                                        return NULL;
-                                    }
-                                    for (uint64_t j = 0; j < kv->value.arr.n; ++j) {
-                                        ok = ok && lm_gguf_fread_str(file, &((struct lm_gguf_str *) kv->value.arr.data)[j], &offset);
-                                    }
-                                } break;
-                            case LM_GGUF_TYPE_ARRAY:
-                            default:
-                                {
-                                    fprintf(stderr, "%s: invalid array type %d\n", __func__, kv->value.arr.type);
-                                    ok = false;
-                                } break;
-                        }
-                    } break;
-                default:
-                    {
-                        fprintf(stderr, "%s: invalid type %d\n", __func__, kv->type);
-                        ok = false;
-                    } break;
-            }
-            if (!ok) {
-                break;
-            }
-        }
-        if (!ok) {
-            fprintf(stderr, "%s: failed to read key-value pairs\n", __func__);
-            fclose(file);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-    }
-    // read the tensor infos
-    if (ctx->header.n_tensors > 0) {
-        ctx->infos = calloc(ctx->header.n_tensors, sizeof(struct lm_gguf_tensor_info));
-        if (!ctx->infos) {
-            fprintf(stderr, "%s: failed to allocate memory for tensor infos\n", __func__);
-            fclose(file);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-        for (uint64_t i = 0; i < ctx->header.n_tensors; ++i) {
-            struct lm_gguf_tensor_info * info = &ctx->infos[i];
-            for (int j = 0; j < LM_GGML_MAX_DIMS; ++j) {
-                info->ne[j] = 1;
-            }
-            ok = ok && lm_gguf_fread_str(file, &info->name,                          &offset);
-            ok = ok && lm_gguf_fread_el (file, &info->n_dims, sizeof(info->n_dims),  &offset);
-            ok = ok && (info->n_dims <= LM_GGML_MAX_DIMS);
-            for (uint32_t j = 0; j < info->n_dims; ++j) {
-                ok = ok && lm_gguf_fread_el(file, &info->ne[j], sizeof(info->ne[j]), &offset);
-            }
-            ok = ok && lm_gguf_fread_el (file, &info->type,   sizeof(info->type),    &offset);
-            ok = ok && lm_gguf_fread_el (file, &info->offset, sizeof(info->offset),  &offset);
-            ok = ok && lm_gguf_tensor_info_sanitize(info);
-            // make sure there is no duplicated tensor names
-            for (uint64_t j = 0; j < i && ok; ++j) {
-                if (strcmp(info->name.data, ctx->infos[j].name.data) == 0) {
-                    fprintf(stderr, "%s: duplicated tensor name %s\n", __func__, info->name.data);
-                    ok = false;
-                }
-            }
-            if (!ok) {
-                fprintf(stderr, "%s: failed to read tensor info\n", __func__);
-                fclose(file);
-                lm_gguf_free(ctx);
-                return NULL;
-            }
-        }
-    }
-    ctx->alignment = LM_GGUF_DEFAULT_ALIGNMENT;
-    int alignment_idx = lm_gguf_find_key(ctx, "general.alignment");
-    if (alignment_idx != -1) {
-        ctx->alignment = lm_gguf_get_val_u32(ctx, alignment_idx);
-    }
-    // we require the data section to be aligned, so take into account any padding
-    {
-        const size_t offset_pad = offset % ctx->alignment;
-        if (offset_pad != 0) {
-            offset += ctx->alignment - offset_pad;
-            fseek(file, offset, SEEK_SET);
-        }
-    }
-    // store the current file offset - this is where the data section starts
-    ctx->offset = offset;
-    // compute the total size of the data section, taking into account the alignment
-    {
-        ctx->size = 0;
-        for (uint64_t i = 0; i < ctx->header.n_tensors; ++i) {
-            struct lm_gguf_tensor_info * info = &ctx->infos[i];
-            const int64_t ne =
-                (int64_t) info->ne[0] *
-                (int64_t) info->ne[1] *
-                (int64_t) info->ne[2] *
-                (int64_t) info->ne[3];
-            if (lm_ggml_blck_size(info->type) == 0 ) {
-                // this tensor type support have been removed:
-                fprintf(stderr, "%s: tensor '%s' of type %d: %s\n",
-                        __func__, info->name.data, (int) info->type, lm_ggml_type_name(info->type));
-                fclose(file);
-                lm_gguf_free(ctx);
-                return NULL;
-            }
-            if (ne % lm_ggml_blck_size(info->type) != 0) {
-                fprintf(stderr, "%s: tensor '%s' of type %d (%s) number of elements (%" PRId64 ") is not a multiple of block size (%" PRId64 ")\n",
-                        __func__, info->name.data, (int) info->type, lm_ggml_type_name(info->type), ne, lm_ggml_blck_size(info->type));
-                fclose(file);
-                lm_gguf_free(ctx);
-                return NULL;
-            }
-            const size_t size_cur = lm_ggml_row_size(info->type, ne);
-            ctx->size += LM_GGML_PAD(size_cur, ctx->alignment);
-        }
-    }
-    // load the tensor data only if requested
-    if (params.ctx != NULL) {
-        // if the provided lm_gguf_context is no_alloc, then we create "empty" tensors and do not read the binary blob
-        // otherwise, we load the binary blob into the created lm_ggml_context as well, and point the "data" members of
-        // the lm_ggml_tensor structs to the appropriate locations in the binary blob
-        // compute the exact size needed for the new lm_ggml_context
-        const size_t mem_size =
-            params.no_alloc ?
-            (ctx->header.n_tensors    )*lm_ggml_tensor_overhead() :
-            (ctx->header.n_tensors + 1)*lm_ggml_tensor_overhead() + ctx->size;
-        struct lm_ggml_init_params pdata = {
-            .mem_size   = mem_size,
-            .mem_buffer = NULL,
-            .no_alloc   = params.no_alloc,
-        };
-        *params.ctx = lm_ggml_init(pdata);
-        if (*params.ctx == NULL) {
-            fprintf(stderr, "%s: failed to initialize context\n", __func__);
-            fclose(file);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-        struct lm_ggml_context * ctx_data = *params.ctx;
-        struct lm_ggml_tensor * data = NULL;
-        if (!params.no_alloc) {
-            data = lm_ggml_new_tensor_1d(ctx_data, LM_GGML_TYPE_I8, ctx->size);
-            ok = ok && data != NULL;
-            // read the binary blob with the tensor data
-            ok = ok && lm_gguf_fread_el(file, data->data, ctx->size, &offset);
-            if (!ok) {
-                fprintf(stderr, "%s: failed to read tensor data\n", __func__);
-                fclose(file);
-                lm_ggml_free(ctx_data);
-                lm_gguf_free(ctx);
-                return NULL;
-            }
-            ctx->data = data->data;
-        }
-        lm_ggml_set_no_alloc(ctx_data, true);
-        // create the tensors
-        for (uint64_t i = 0; i < ctx->header.n_tensors; ++i) {
-            const int64_t ne[LM_GGML_MAX_DIMS] = {
-                ctx->infos[i].ne[0],
-                ctx->infos[i].ne[1],
-                ctx->infos[i].ne[2],
-                ctx->infos[i].ne[3],
-            };
-            struct lm_ggml_tensor * cur = lm_ggml_new_tensor(ctx_data, ctx->infos[i].type, ctx->infos[i].n_dims, ne);
-            ok = ok && cur != NULL;
-            if (!ok) {
-                break;
-            }
-            lm_ggml_set_name(cur, ctx->infos[i].name.data);
-            // point the data member to the appropriate location in the binary blob using the tensor infos
-            if (!params.no_alloc) {
-              //cur->data = (char *) data->data + ctx->infos[i].offset - ctx->offset; // offset from start of file
-                cur->data = (char *) data->data + ctx->infos[i].offset;               // offset from data
-            }
-        }
-        if (!ok) {
-            fprintf(stderr, "%s: failed to read the tensor data\n", __func__);
-            fclose(file);
-            lm_ggml_free(ctx_data);
-            lm_gguf_free(ctx);
-            return NULL;
-        }
-        lm_ggml_set_no_alloc(ctx_data, params.no_alloc);
-    }
-    fclose(file);
-    return ctx;
-}
-void lm_gguf_free(struct lm_gguf_context * ctx) {
-    if (ctx == NULL) {
-        return;
-    }
-    if (ctx->kv) {
-        // free string memory - not great..
-        for (uint64_t i = 0; i < ctx->header.n_kv; ++i) {
-            lm_gguf_free_kv(&ctx->kv[i]);
-        }
-        LM_GGML_FREE(ctx->kv);
-    }
-    if (ctx->infos) {
-        for (uint64_t i = 0; i < ctx->header.n_tensors; ++i) {
-            struct lm_gguf_tensor_info * info = &ctx->infos[i];
-            if (info->name.data) {
-                LM_GGML_FREE(info->name.data);
-            }
-        }
-        LM_GGML_FREE(ctx->infos);
-    }
-    LM_GGML_FREE(ctx);
-}
-const char * lm_gguf_type_name(enum lm_gguf_type type) {
-    return LM_GGUF_TYPE_NAME[type];
-}
-int lm_gguf_get_version(const struct lm_gguf_context * ctx) {
-    return ctx->header.version;
-}
-size_t lm_gguf_get_alignment(const struct lm_gguf_context * ctx) {
-    return ctx->alignment;
-}
-size_t lm_gguf_get_data_offset(const struct lm_gguf_context * ctx) {
-    return ctx->offset;
-}
-void * lm_gguf_get_data(const struct lm_gguf_context * ctx) {
-    return ctx->data;
-}
-int lm_gguf_get_n_kv(const struct lm_gguf_context * ctx) {
-    return ctx->header.n_kv;
-}
-int lm_gguf_find_key(const struct lm_gguf_context * ctx, const char * key) {
-    // return -1 if key not found
-    int keyfound = -1;
-    const int n_kv = lm_gguf_get_n_kv(ctx);
-    for (int i = 0; i < n_kv; ++i) {
-        if (strcmp(key, lm_gguf_get_key(ctx, i)) == 0) {
-            keyfound = i;
-            break;
-        }
-    }
-    return keyfound;
-}
-const char * lm_gguf_get_key(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    return ctx->kv[key_id].key.data;
-}
-enum lm_gguf_type lm_gguf_get_kv_type(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    return ctx->kv[key_id].type;
-}
-enum lm_gguf_type lm_gguf_get_arr_type(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_ARRAY);
-    return ctx->kv[key_id].value.arr.type;
-}
-const void * lm_gguf_get_arr_data(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_ARRAY);
-    return ctx->kv[key_id].value.arr.data;
-}
-const char * lm_gguf_get_arr_str(const struct lm_gguf_context * ctx, int key_id, int i) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_ARRAY);
-    struct lm_gguf_kv * kv = &ctx->kv[key_id];
-    struct lm_gguf_str * str = &((struct lm_gguf_str *) kv->value.arr.data)[i];
-    return str->data;
-}
-int lm_gguf_get_arr_n(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_ARRAY);
-    return ctx->kv[key_id].value.arr.n;
-}
-uint8_t lm_gguf_get_val_u8(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_UINT8);
-    return ctx->kv[key_id].value.uint8;
-}
-int8_t lm_gguf_get_val_i8(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_INT8);
-    return ctx->kv[key_id].value.int8;
-}
-uint16_t lm_gguf_get_val_u16(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_UINT16);
-    return ctx->kv[key_id].value.uint16;
-}
-int16_t lm_gguf_get_val_i16(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_INT16);
-    return ctx->kv[key_id].value.int16;
-}
-uint32_t lm_gguf_get_val_u32(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_UINT32);
-    return ctx->kv[key_id].value.uint32;
-}
-int32_t lm_gguf_get_val_i32(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_INT32);
-    return ctx->kv[key_id].value.int32;
-}
-float lm_gguf_get_val_f32(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_FLOAT32);
-    return ctx->kv[key_id].value.float32;
-}
-uint64_t lm_gguf_get_val_u64(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_UINT64);
-    return ctx->kv[key_id].value.uint64;
-}
-int64_t lm_gguf_get_val_i64(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_INT64);
-    return ctx->kv[key_id].value.int64;
-}
-double lm_gguf_get_val_f64(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_FLOAT64);
-    return ctx->kv[key_id].value.float64;
-}
-bool lm_gguf_get_val_bool(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_BOOL);
-    return ctx->kv[key_id].value.bool_;
-}
-const char * lm_gguf_get_val_str(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type == LM_GGUF_TYPE_STRING);
-    return ctx->kv[key_id].value.str.data;
-}
-const void * lm_gguf_get_val_data(const struct lm_gguf_context * ctx, int key_id) {
-    LM_GGML_ASSERT(key_id >= 0 && key_id < lm_gguf_get_n_kv(ctx));
-    LM_GGML_ASSERT(ctx->kv[key_id].type != LM_GGUF_TYPE_ARRAY);
-    LM_GGML_ASSERT(ctx->kv[key_id].type != LM_GGUF_TYPE_STRING);
-    return &ctx->kv[key_id].value;
-}
-int lm_gguf_get_n_tensors(const struct lm_gguf_context * ctx) {
-    return ctx->header.n_tensors;
-}
-int lm_gguf_find_tensor(const struct lm_gguf_context * ctx, const char * name) {
-    // return -1 if tensor not found
-    int tensorfound = -1;
-    const int n_tensors = lm_gguf_get_n_tensors(ctx);
-    for (int i = 0; i < n_tensors; ++i) {
-        if (strcmp(name, lm_gguf_get_tensor_name(ctx, i)) == 0) {
-            tensorfound = i;
-            break;
-        }
-    }
-    return tensorfound;
-}
-size_t lm_gguf_get_tensor_offset(const struct lm_gguf_context * ctx, int i) {
-    return ctx->infos[i].offset;
-}
-char * lm_gguf_get_tensor_name(const struct lm_gguf_context * ctx, int i) {
-    return ctx->infos[i].name.data;
-}
-enum lm_ggml_type lm_gguf_get_tensor_type(const struct lm_gguf_context * ctx, int i) {
-    return ctx->infos[i].type;
-}
-// returns the index
-static int lm_gguf_get_or_add_key(struct lm_gguf_context * ctx, const char * key) {
-    const int idx = lm_gguf_find_key(ctx, key);
-    if (idx >= 0) {
-        return idx;
-    }
-    const int n_kv = lm_gguf_get_n_kv(ctx);
-    ctx->kv = realloc(ctx->kv, (n_kv + 1) * sizeof(struct lm_gguf_kv));
-    ctx->kv[n_kv].key.n    = strlen(key);
-    ctx->kv[n_kv].key.data = strdup(key);
-    ctx->header.n_kv++;
-    return n_kv;
-}
-void lm_gguf_remove_key(struct lm_gguf_context * ctx, const char * key) {
-    const int idx = lm_gguf_find_key(ctx, key);
-    if (idx >= 0) {
-        const int n_kv = lm_gguf_get_n_kv(ctx);
-        lm_gguf_free_kv(&ctx->kv[idx]);
-        for (int i = idx; i < n_kv-1; ++i) {
-            ctx->kv[i] = ctx->kv[i+1];
-        }
-        ctx->kv = realloc(ctx->kv, (n_kv - 1) * sizeof(struct lm_gguf_kv));
-        ctx->header.n_kv--;
-    }
-}
-void lm_gguf_set_val_u8(struct lm_gguf_context * ctx, const char * key, uint8_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type        = LM_GGUF_TYPE_UINT8;
-    ctx->kv[idx].value.uint8 = val;
-}
-void lm_gguf_set_val_i8(struct lm_gguf_context * ctx, const char * key, int8_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type       = LM_GGUF_TYPE_INT8;
-    ctx->kv[idx].value.int8 = val;
-}
-void lm_gguf_set_val_u16(struct lm_gguf_context * ctx, const char * key, uint16_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type         = LM_GGUF_TYPE_UINT16;
-    ctx->kv[idx].value.uint16 = val;
-}
-void lm_gguf_set_val_i16(struct lm_gguf_context * ctx, const char * key, int16_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type        = LM_GGUF_TYPE_INT16;
-    ctx->kv[idx].value.int16 = val;
-}
-void lm_gguf_set_val_u32(struct lm_gguf_context * ctx, const char * key, uint32_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type         = LM_GGUF_TYPE_UINT32;
-    ctx->kv[idx].value.uint32 = val;
-}
-void lm_gguf_set_val_i32(struct lm_gguf_context * ctx, const char * key, int32_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type        = LM_GGUF_TYPE_INT32;
-    ctx->kv[idx].value.int32 = val;
-}
-void lm_gguf_set_val_f32(struct lm_gguf_context * ctx, const char * key, float val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type          = LM_GGUF_TYPE_FLOAT32;
-    ctx->kv[idx].value.float32 = val;
-}
-void lm_gguf_set_val_u64(struct lm_gguf_context * ctx, const char * key, uint64_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type         = LM_GGUF_TYPE_UINT64;
-    ctx->kv[idx].value.uint64 = val;
-}
-void lm_gguf_set_val_i64(struct lm_gguf_context * ctx, const char * key, int64_t val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type        = LM_GGUF_TYPE_INT64;
-    ctx->kv[idx].value.int64 = val;
-}
-void lm_gguf_set_val_f64(struct lm_gguf_context * ctx, const char * key, double val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type          = LM_GGUF_TYPE_FLOAT64;
-    ctx->kv[idx].value.float64 = val;
-}
-void lm_gguf_set_val_bool(struct lm_gguf_context * ctx, const char * key, bool val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type        = LM_GGUF_TYPE_BOOL;
-    ctx->kv[idx].value.bool_ = val;
-}
-void lm_gguf_set_val_str(struct lm_gguf_context * ctx, const char * key, const char * val) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type           = LM_GGUF_TYPE_STRING;
-    ctx->kv[idx].value.str.n    = strlen(val);
-    ctx->kv[idx].value.str.data = strdup(val);
-}
-void lm_gguf_set_arr_data(struct lm_gguf_context * ctx, const char * key, enum lm_gguf_type type, const void * data, int n) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type           = LM_GGUF_TYPE_ARRAY;
-    ctx->kv[idx].value.arr.type = type;
-    ctx->kv[idx].value.arr.n    = n;
-    ctx->kv[idx].value.arr.data = LM_GGML_CALLOC(n, lm_gguf_type_size(type));
-    memcpy(ctx->kv[idx].value.arr.data, data, n*lm_gguf_type_size(type));
-}
-void lm_gguf_set_arr_str(struct lm_gguf_context * ctx, const char * key, const char ** data, int n) {
-    const int idx = lm_gguf_get_or_add_key(ctx, key);
-    ctx->kv[idx].type           = LM_GGUF_TYPE_ARRAY;
-    ctx->kv[idx].value.arr.type = LM_GGUF_TYPE_STRING;
-    ctx->kv[idx].value.arr.n    = n;
-    ctx->kv[idx].value.arr.data = LM_GGML_CALLOC(n, sizeof(struct lm_gguf_str));
-    for (int i = 0; i < n; i++) {
-        struct lm_gguf_str * str = &((struct lm_gguf_str *)ctx->kv[idx].value.arr.data)[i];
-        str->n    = strlen(data[i]);
-        str->data = strdup(data[i]);
-    }
-}
-// set or add KV pairs from another context
-void lm_gguf_set_kv(struct lm_gguf_context * ctx, struct lm_gguf_context * src) {
-    for (uint32_t i = 0; i < src->header.n_kv; i++) {
-        switch (src->kv[i].type) {
-            case LM_GGUF_TYPE_UINT8:   lm_gguf_set_val_u8  (ctx, src->kv[i].key.data, src->kv[i].value.uint8);    break;
-            case LM_GGUF_TYPE_INT8:    lm_gguf_set_val_i8  (ctx, src->kv[i].key.data, src->kv[i].value.int8);     break;
-            case LM_GGUF_TYPE_UINT16:  lm_gguf_set_val_u16 (ctx, src->kv[i].key.data, src->kv[i].value.uint16);   break;
-            case LM_GGUF_TYPE_INT16:   lm_gguf_set_val_i16 (ctx, src->kv[i].key.data, src->kv[i].value.int16);    break;
-            case LM_GGUF_TYPE_UINT32:  lm_gguf_set_val_u32 (ctx, src->kv[i].key.data, src->kv[i].value.uint32);   break;
-            case LM_GGUF_TYPE_INT32:   lm_gguf_set_val_i32 (ctx, src->kv[i].key.data, src->kv[i].value.int32);    break;
-            case LM_GGUF_TYPE_FLOAT32: lm_gguf_set_val_f32 (ctx, src->kv[i].key.data, src->kv[i].value.float32);  break;
-            case LM_GGUF_TYPE_UINT64:  lm_gguf_set_val_u64 (ctx, src->kv[i].key.data, src->kv[i].value.uint64);   break;
-            case LM_GGUF_TYPE_INT64:   lm_gguf_set_val_i64 (ctx, src->kv[i].key.data, src->kv[i].value.int64);    break;
-            case LM_GGUF_TYPE_FLOAT64: lm_gguf_set_val_f64 (ctx, src->kv[i].key.data, src->kv[i].value.float64);  break;
-            case LM_GGUF_TYPE_BOOL:    lm_gguf_set_val_bool(ctx, src->kv[i].key.data, src->kv[i].value.bool_);    break;
-            case LM_GGUF_TYPE_STRING:  lm_gguf_set_val_str (ctx, src->kv[i].key.data, src->kv[i].value.str.data); break;
-            case LM_GGUF_TYPE_ARRAY:
-                {
-                    if (src->kv[i].value.arr.type == LM_GGUF_TYPE_STRING) {
-                        const char ** data = LM_GGML_CALLOC(src->kv[i].value.arr.n, sizeof(char *));
-                        for (uint32_t j = 0; j < src->kv[i].value.arr.n; j++) {
-                            data[j] = ((struct lm_gguf_str *)src->kv[i].value.arr.data)[j].data;
-                        }
-                        lm_gguf_set_arr_str(ctx, src->kv[i].key.data, data, src->kv[i].value.arr.n);
-                        LM_GGML_FREE((void *)data);
-                    } else if (src->kv[i].value.arr.type == LM_GGUF_TYPE_ARRAY) {
-                        LM_GGML_ABORT("nested arrays not supported");
-                    } else {
-                        lm_gguf_set_arr_data(ctx, src->kv[i].key.data, src->kv[i].value.arr.type, src->kv[i].value.arr.data, src->kv[i].value.arr.n);
-                    }
-                } break;
-            default: LM_GGML_ABORT("invalid type");
-        }
-    }
-}
-void lm_gguf_add_tensor(
-             struct lm_gguf_context * ctx,
-        const struct lm_ggml_tensor * tensor) {
-    LM_GGML_ASSERT(tensor);
-    if (lm_gguf_find_tensor(ctx, tensor->name) != -1) {
-        LM_GGML_ABORT("duplicated tensor name");
-    }
-    const int idx = ctx->header.n_tensors;
-    ctx->infos = realloc(ctx->infos, (idx + 1)*sizeof(struct lm_gguf_tensor_info));
-    ctx->infos[idx].name.n    = strlen(tensor->name);
-    ctx->infos[idx].name.data = strdup(tensor->name);
-    for (int i = 0; i < LM_GGML_MAX_DIMS; ++i) {
-        ctx->infos[idx].ne[i] = 1;
-    }
-    ctx->infos[idx].n_dims = lm_ggml_n_dims(tensor);
-    for (uint32_t i = 0; i < ctx->infos[idx].n_dims; i++) {
-        ctx->infos[idx].ne[i] = tensor->ne[i];
-    }
-    ctx->infos[idx].type   = tensor->type;
-    ctx->infos[idx].offset = 0;
-    ctx->infos[idx].data   = tensor->data;
-    ctx->infos[idx].size   = lm_ggml_nbytes(tensor);
-    if (ctx->header.n_tensors > 0) {
-        ctx->infos[idx].offset = ctx->infos[idx - 1].offset + LM_GGML_PAD(ctx->infos[idx - 1].size, ctx->alignment);
-    }
-    ctx->header.n_tensors++;
-}
-void lm_gguf_set_tensor_type(struct lm_gguf_context * ctx, const char * name, enum lm_ggml_type type) {
-    const int idx = lm_gguf_find_tensor(ctx, name);
-    if (idx < 0) {
-        LM_GGML_ABORT("tensor not found");
-    }
-    ctx->infos[idx].type = type;
-}
-void lm_gguf_set_tensor_data(struct lm_gguf_context * ctx, const char * name, const void * data, size_t size) {
-    const int idx = lm_gguf_find_tensor(ctx, name);
-    if (idx < 0) {
-        LM_GGML_ABORT("tensor not found");
-    }
-    ctx->infos[idx].data = data;
-    ctx->infos[idx].size = size;
-    // update offsets
-    for (uint32_t i = idx + 1; i < ctx->header.n_tensors; ++i) {
-        ctx->infos[i].offset = ctx->infos[i - 1].offset + LM_GGML_PAD(ctx->infos[i - 1].size, ctx->alignment);
-    }
-}
-//static void lm_gguf_fwrite_str(FILE * file, const struct lm_gguf_str * val) {
-//    fwrite(&val->n,   sizeof(val->n),    1, file);
-//    fwrite(val->data, sizeof(char), val->n, file);
-//}
-//
-//static void lm_gguf_fwrite_el(FILE * file, const void * val, size_t size) {
-//    fwrite(val, sizeof(char), size, file);
-//}
-struct lm_gguf_buf {
-    void * data;
-    size_t size;
-    size_t offset;
-};
-static struct lm_gguf_buf lm_gguf_buf_init(size_t size) {
-    struct lm_gguf_buf buf = {
-        /*buf.data   =*/ size == 0 ? NULL : LM_GGML_CALLOC(1, size),
-        /*buf.size   =*/ size,
-        /*buf.offset =*/ 0,
-    };
-    return buf;
-}
-static void lm_gguf_buf_free(struct lm_gguf_buf buf) {
-    if (buf.data) {
-        LM_GGML_FREE(buf.data);
-    }
-}
-static void lm_gguf_buf_grow(struct lm_gguf_buf * buf, size_t size) {
-    if (buf->offset + size > buf->size) {
-        buf->size = 1.5*(buf->offset + size);
-        if (buf->data) {
-            buf->data = realloc(buf->data, buf->size);
-        }
-    }
-}
-static void lm_gguf_bwrite_str(struct lm_gguf_buf * buf, const struct lm_gguf_str * val) {
-    lm_gguf_buf_grow(buf, sizeof(val->n) + val->n);
-    if (buf->data) {
-        memcpy((char *) buf->data + buf->offset, &val->n, sizeof(val->n));
-    }
-    buf->offset += sizeof(val->n);
-    if (buf->data) {
-        memcpy((char *) buf->data + buf->offset, val->data, val->n);
-    }
-    buf->offset += val->n;
-}
-static void lm_gguf_bwrite_el(struct lm_gguf_buf * buf, const void * val, size_t el_size) {
-    lm_gguf_buf_grow(buf, el_size);
-    if (buf->data) {
-        memcpy((char *) buf->data + buf->offset, val, el_size);
-    }
-    buf->offset += el_size;
-}
-static void lm_gguf_write_to_buf(const struct lm_gguf_context * ctx, struct lm_gguf_buf * buf, bool only_meta) {
-    // write header
-    lm_gguf_bwrite_el(buf, &ctx->header.magic,     sizeof(ctx->header.magic));
-    lm_gguf_bwrite_el(buf, &ctx->header.version,   sizeof(ctx->header.version));
-    lm_gguf_bwrite_el(buf, &ctx->header.n_tensors, sizeof(ctx->header.n_tensors));
-    lm_gguf_bwrite_el(buf, &ctx->header.n_kv,      sizeof(ctx->header.n_kv));
-    // write key-value pairs
-    for (uint32_t i = 0; i < ctx->header.n_kv; ++i) {
-        struct lm_gguf_kv * kv = &ctx->kv[i];
-        lm_gguf_bwrite_str(buf, &kv->key);
-        lm_gguf_bwrite_el (buf, &kv->type, sizeof(kv->type));
-        switch (kv->type) {
-            case LM_GGUF_TYPE_UINT8:   lm_gguf_bwrite_el( buf, &kv->value.uint8,   sizeof(kv->value.uint8)  ); break;
-            case LM_GGUF_TYPE_INT8:    lm_gguf_bwrite_el (buf, &kv->value.int8,    sizeof(kv->value.int8)   ); break;
-            case LM_GGUF_TYPE_UINT16:  lm_gguf_bwrite_el (buf, &kv->value.uint16,  sizeof(kv->value.uint16) ); break;
-            case LM_GGUF_TYPE_INT16:   lm_gguf_bwrite_el (buf, &kv->value.int16,   sizeof(kv->value.int16)  ); break;
-            case LM_GGUF_TYPE_UINT32:  lm_gguf_bwrite_el (buf, &kv->value.uint32,  sizeof(kv->value.uint32) ); break;
-            case LM_GGUF_TYPE_INT32:   lm_gguf_bwrite_el (buf, &kv->value.int32,   sizeof(kv->value.int32)  ); break;
-            case LM_GGUF_TYPE_FLOAT32: lm_gguf_bwrite_el (buf, &kv->value.float32, sizeof(kv->value.float32)); break;
-            case LM_GGUF_TYPE_UINT64:  lm_gguf_bwrite_el (buf, &kv->value.uint64,  sizeof(kv->value.uint64) ); break;
-            case LM_GGUF_TYPE_INT64:   lm_gguf_bwrite_el (buf, &kv->value.int64,   sizeof(kv->value.int64)  ); break;
-            case LM_GGUF_TYPE_FLOAT64: lm_gguf_bwrite_el (buf, &kv->value.float64, sizeof(kv->value.float64)); break;
-            case LM_GGUF_TYPE_BOOL:    lm_gguf_bwrite_el (buf, &kv->value.bool_,   sizeof(kv->value.bool_)  ); break;
-            case LM_GGUF_TYPE_STRING:  lm_gguf_bwrite_str(buf, &kv->value.str                               ); break;
-            case LM_GGUF_TYPE_ARRAY:
-                {
-                    lm_gguf_bwrite_el(buf, &kv->value.arr.type, sizeof(kv->value.arr.type));
-                    lm_gguf_bwrite_el(buf, &kv->value.arr.n,    sizeof(kv->value.arr.n)   );
-                    switch (kv->value.arr.type) {
-                        case LM_GGUF_TYPE_UINT8:
-                        case LM_GGUF_TYPE_INT8:
-                        case LM_GGUF_TYPE_UINT16:
-                        case LM_GGUF_TYPE_INT16:
-                        case LM_GGUF_TYPE_UINT32:
-                        case LM_GGUF_TYPE_INT32:
-                        case LM_GGUF_TYPE_FLOAT32:
-                        case LM_GGUF_TYPE_UINT64:
-                        case LM_GGUF_TYPE_INT64:
-                        case LM_GGUF_TYPE_FLOAT64:
-                        case LM_GGUF_TYPE_BOOL:
-                            {
-                                lm_gguf_bwrite_el(buf, kv->value.arr.data, kv->value.arr.n * lm_gguf_type_size(kv->value.arr.type));
-                            } break;
-                        case LM_GGUF_TYPE_STRING:
-                            {
-                                for (uint32_t j = 0; j < kv->value.arr.n; ++j) {
-                                    lm_gguf_bwrite_str(buf, &((struct lm_gguf_str *) kv->value.arr.data)[j]);
-                                }
-                            } break;
-                        case LM_GGUF_TYPE_ARRAY:
-                        default: LM_GGML_ABORT("invalid type");
-                    }
-                } break;
-            default: LM_GGML_ABORT("invalid type");
-        }
-    }
-    // write tensor infos
-    for (uint32_t i = 0; i < ctx->header.n_tensors; ++i) {
-        struct lm_gguf_tensor_info * info = &ctx->infos[i];
-        lm_gguf_bwrite_str(buf, &info->name);
-        lm_gguf_bwrite_el (buf, &info->n_dims, sizeof(info->n_dims));
-        for (uint32_t j = 0; j < info->n_dims; ++j) {
-            lm_gguf_bwrite_el(buf, &info->ne[j], sizeof(info->ne[j]));
-        }
-        lm_gguf_bwrite_el(buf, &info->type,   sizeof(info->type));
-        lm_gguf_bwrite_el(buf, &info->offset, sizeof(info->offset));
-    }
-    // we require the data section to be aligned, so take into account any padding
-    {
-        const size_t offset     = buf->offset;
-        const size_t offset_pad = LM_GGML_PAD(offset, ctx->alignment);
-        if (offset_pad != offset) {
-            uint8_t pad = 0;
-            for (size_t i = 0; i < offset_pad - offset; ++i) {
-                lm_gguf_bwrite_el(buf, &pad, sizeof(pad));
-            }
-        }
-    }
-    if (only_meta) {
-        return;
-    }
-    size_t offset = 0;
-    // write tensor data
-    for (uint32_t i = 0; i < ctx->header.n_tensors; ++i) {
-        struct lm_gguf_tensor_info * info = &ctx->infos[i];
-        const size_t size     = info->size;
-        const size_t size_pad = LM_GGML_PAD(size, ctx->alignment);
-        lm_gguf_bwrite_el(buf, info->data, size);
-        if (size_pad != size) {
-            uint8_t pad = 0;
-            for (size_t j = 0; j < size_pad - size; ++j) {
-                lm_gguf_bwrite_el(buf, &pad, sizeof(pad));
-            }
-        }
-        LM_GGML_ASSERT(offset == info->offset);
-        offset += size_pad;
-    }
-}
-void lm_gguf_write_to_file(const struct lm_gguf_context * ctx, const char * fname, bool only_meta) {
-    FILE * file = lm_ggml_fopen(fname, "wb");
-    if (!file) {
-        LM_GGML_ABORT("failed to open file for writing");
-    }
-    struct lm_gguf_buf buf = lm_gguf_buf_init(16*1024);
-    lm_gguf_write_to_buf(ctx, &buf, only_meta);
-    fwrite(buf.data, 1, buf.offset, file);
-    lm_gguf_buf_free(buf);
-    fclose(file);
-}
-size_t lm_gguf_get_meta_size(const struct lm_gguf_context * ctx) {
-    // no allocs - only compute size
-    struct lm_gguf_buf buf = lm_gguf_buf_init(0);
-    lm_gguf_write_to_buf(ctx, &buf, true);
-    return buf.offset;
-}
-void lm_gguf_get_meta_data(const struct lm_gguf_context * ctx, void * data) {
-    struct lm_gguf_buf buf = lm_gguf_buf_init(16*1024);
-    lm_gguf_write_to_buf(ctx, &buf, true);
-    memcpy(data, buf.data, buf.offset);
-    lm_gguf_buf_free(buf);
-}
 void lm_ggml_log_set(lm_ggml_log_callback log_callback, void * user_data) {
     g_logger_state.log_callback = log_callback ? log_callback : lm_ggml_log_callback_default;
     g_logger_state.log_callback_user_data = user_data;