npm - @fugood/llama.node - Versions diffs - 1.4.11 → 1.4.13 - Mend

@fugood/llama.node 1.4.11 → 1.4.13

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (69) hide show

package/package.json +15 -15
package/scripts/llama.cpp.patch +31 -31
package/src/llama.cpp/common/arg.cpp +128 -59
package/src/llama.cpp/common/arg.h +1 -0
package/src/llama.cpp/common/chat-parser.cpp +11 -0
package/src/llama.cpp/common/chat.cpp +36 -7
package/src/llama.cpp/common/chat.h +1 -0
package/src/llama.cpp/common/common.cpp +42 -23
package/src/llama.cpp/common/common.h +11 -1
package/src/llama.cpp/common/llguidance.cpp +10 -6
package/src/llama.cpp/common/regex-partial.cpp +13 -13
package/src/llama.cpp/common/sampling.cpp +58 -14
package/src/llama.cpp/common/sampling.h +3 -1
package/src/llama.cpp/ggml/CMakeLists.txt +13 -1
package/src/llama.cpp/ggml/include/ggml-backend.h +1 -1
package/src/llama.cpp/ggml/src/CMakeLists.txt +23 -9
package/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt +12 -2
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu-impl.h +1 -1
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kernels.cpp +86 -25
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +15 -8
package/src/llama.cpp/ggml/src/ggml-cpu/llamafile/sgemm.cpp +768 -0
package/src/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h +0 -4
package/src/llama.cpp/include/llama.h +100 -12
package/src/llama.cpp/src/CMakeLists.txt +4 -0
package/src/llama.cpp/src/llama-adapter.cpp +12 -3
package/src/llama.cpp/src/llama-adapter.h +7 -1
package/src/llama.cpp/src/llama-arch.cpp +78 -0
package/src/llama.cpp/src/llama-arch.h +8 -0
package/src/llama.cpp/src/llama-chat.cpp +11 -0
package/src/llama.cpp/src/llama-chat.h +1 -0
package/src/llama.cpp/src/llama-context.cpp +637 -49
package/src/llama.cpp/src/llama-context.h +43 -1
package/src/llama.cpp/src/llama-grammar.cpp +40 -13
package/src/llama.cpp/src/llama-grammar.h +2 -0
package/src/llama.cpp/src/llama-graph.cpp +173 -5
package/src/llama.cpp/src/llama-graph.h +71 -6
package/src/llama.cpp/src/llama-hparams.cpp +4 -0
package/src/llama.cpp/src/llama-hparams.h +12 -5
package/src/llama.cpp/src/llama-kv-cache.h +1 -1
package/src/llama.cpp/src/llama-mmap.cpp +11 -4
package/src/llama.cpp/src/llama-model-loader.cpp +23 -0
package/src/llama.cpp/src/llama-model-loader.h +2 -0
package/src/llama.cpp/src/llama-model-saver.cpp +3 -0
package/src/llama.cpp/src/llama-model.cpp +337 -26
package/src/llama.cpp/src/llama-model.h +13 -2
package/src/llama.cpp/src/llama-sampling.cpp +1259 -186
package/src/llama.cpp/src/llama-sampling.h +19 -7
package/src/llama.cpp/src/llama-vocab.cpp +101 -33
package/src/llama.cpp/src/llama-vocab.h +2 -0
package/src/llama.cpp/src/llama.cpp +87 -64
package/src/llama.cpp/src/models/afmoe.cpp +9 -5
package/src/llama.cpp/src/models/bert.cpp +4 -2
package/src/llama.cpp/src/models/cogvlm.cpp +5 -3
package/src/llama.cpp/src/models/cohere2-iswa.cpp +3 -0
package/src/llama.cpp/src/models/deepseek2.cpp +1 -1
package/src/llama.cpp/src/models/gemma-embedding.cpp +2 -6
package/src/llama.cpp/src/models/gemma2-iswa.cpp +5 -2
package/src/llama.cpp/src/models/gemma3.cpp +3 -4
package/src/llama.cpp/src/models/gemma3n-iswa.cpp +4 -7
package/src/llama.cpp/src/models/llama-iswa.cpp +6 -2
package/src/llama.cpp/src/models/llama.cpp +19 -6
package/src/llama.cpp/src/models/maincoder.cpp +117 -0
package/src/llama.cpp/src/models/mimo2-iswa.cpp +123 -0
package/src/llama.cpp/src/models/models.h +18 -0
package/src/llama.cpp/src/models/modern-bert.cpp +116 -0
package/src/llama.cpp/src/models/openai-moe-iswa.cpp +5 -2
package/src/llama.cpp/src/models/plamo3.cpp +128 -0
package/src/llama.cpp/src/models/smallthinker.cpp +11 -5
package/src/llama.cpp/src/unicode.cpp +23 -14

package/src/llama.cpp/src/llama-model.h CHANGED Viewed

@@ -24,12 +24,14 @@ enum llm_type {
     LLM_TYPE_17M,
     LLM_TYPE_22M,
     LLM_TYPE_33M,
+    LLM_TYPE_47M,
     LLM_TYPE_60M,
     LLM_TYPE_70M,
     LLM_TYPE_80M,
     LLM_TYPE_109M,
     LLM_TYPE_137M,
     LLM_TYPE_140M,
+    LLM_TYPE_149M,
     LLM_TYPE_160M,
     LLM_TYPE_190M,
     LLM_TYPE_220M,
@@ -39,6 +41,7 @@ enum llm_type {
     LLM_TYPE_335M,
     LLM_TYPE_350M,
     LLM_TYPE_360M,
+    LLM_TYPE_395M,
     LLM_TYPE_410M,
     LLM_TYPE_450M,
     LLM_TYPE_475M,
@@ -116,10 +119,12 @@ enum llm_type {
     LLM_TYPE_31B_A3_5B,
     LLM_TYPE_80B_A3B, // Qwen3 Next
     LLM_TYPE_100B_A6B,
+    LLM_TYPE_102B_A12B, // Solar-Open
     LLM_TYPE_106B_A12B, // GLM-4.5-Air
     LLM_TYPE_230B_A10B, // Minimax M2
     LLM_TYPE_235B_A22B,
     LLM_TYPE_300B_A47B, // Ernie MoE big
+    LLM_TYPE_310B_A15B, // /MiMo-V2-Flash
     LLM_TYPE_355B_A32B, // GLM-4.5
     LLM_TYPE_E2B,
     LLM_TYPE_E4B,
@@ -462,8 +467,6 @@ struct llama_model {
     struct ggml_tensor * dense_2_out_layers = nullptr;
     struct ggml_tensor * dense_3_out_layers = nullptr;
-    llama_model_params params;
     // gguf metadata
     std::unordered_map<std::string, std::string> gguf_kv;
@@ -473,6 +476,9 @@ struct llama_model {
     // for quantize-stats only
     std::vector<std::pair<std::string, struct ggml_tensor *>> tensors_by_name;
+    // for keeping track of extra nodes used by lora adapters
+    uint32_t n_lora_nodes = 0;
     int64_t t_load_us  = 0;
     int64_t t_start_us = 0;
@@ -494,6 +500,9 @@ struct llama_model {
     size_t n_tensors() const;
     size_t n_devices() const;
+    uint32_t n_gpu_layers() const;
+    llama_split_mode split_mode() const;
     std::map<ggml_backend_buffer_type_t, size_t> memory_breakdown() const;
     // total number of parameters in the model
@@ -522,6 +531,8 @@ struct llama_model {
     ggml_cgraph * build_graph(const llm_graph_params & params) const;
 private:
+    llama_model_params params;
     struct impl;
     std::unique_ptr<impl> pimpl;
 };