PyPI - bigdl-core-cpp - Versions diffs - 2.6.0b20250320__py3-none-win_amd64.whl → 2.6.0b20250321__py3-none-win_amd64.whl - Mend

bigdl-core-cpp 2.6.0b20250320__py3-none-win_amd64.whl → 2.6.0b20250321__py3-none-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

bigdl/cpp/convert_hf_to_gguf.py +687 -60
bigdl/cpp/convert_hf_to_gguf_update.py +46 -41
bigdl/cpp/convert_lora_to_gguf.py +33 -5
bigdl/cpp/gguf-py/gguf/constants.py +306 -123
bigdl/cpp/gguf-py/gguf/gguf_writer.py +31 -3
bigdl/cpp/gguf-py/gguf/tensor_mapping.py +122 -25
bigdl/cpp/gguf-py/gguf/utility.py +1 -1
bigdl/cpp/gguf-py/gguf/vocab.py +1 -1
bigdl/cpp/libs/common.lib +0 -0
bigdl/cpp/libs/ggml-base.dll +0 -0
bigdl/cpp/libs/ggml-cpu.dll +0 -0
bigdl/cpp/libs/ggml-sycl.dll +0 -0
bigdl/cpp/libs/ggml.dll +0 -0
bigdl/cpp/libs/llama-batched.exe +0 -0
bigdl/cpp/libs/llama-bench.exe +0 -0
bigdl/cpp/libs/llama-cli.exe +0 -0
bigdl/cpp/libs/llama-embedding.exe +0 -0
bigdl/cpp/libs/llama-gemma3-cli.exe +0 -0
bigdl/cpp/libs/llama-gguf.exe +0 -0
bigdl/cpp/libs/llama-llava-cli.exe +0 -0
bigdl/cpp/libs/llama-lookup.exe +0 -0
bigdl/cpp/libs/llama-ls-sycl-device.exe +0 -0
bigdl/cpp/libs/llama-minicpmv-cli.exe +0 -0
bigdl/cpp/libs/llama-perplexity.exe +0 -0
bigdl/cpp/libs/llama-quantize.exe +0 -0
bigdl/cpp/libs/llama-server.exe +0 -0
bigdl/cpp/libs/llama-simple.exe +0 -0
bigdl/cpp/libs/llama-speculative.exe +0 -0
bigdl/cpp/libs/llama-tokenize.exe +0 -0
bigdl/cpp/libs/llama.dll +0 -0
bigdl/cpp/libs/llava_shared.dll +0 -0
bigdl/cpp/libs/ollama-ggml-base.dll +0 -0
bigdl/cpp/libs/ollama-ggml-cpu.dll +0 -0
bigdl/cpp/libs/ollama-ggml-sycl.dll +0 -0
bigdl/cpp/libs/ollama-lib.exe +0 -0
bigdl/cpp/libs/ollama.exe +0 -0
bigdl/cpp/libs/ollama_ggml.dll +0 -0
bigdl/cpp/libs/ollama_llama.dll +0 -0
bigdl/cpp/libs/ollama_llava_shared.dll +0 -0
{bigdl_core_cpp-2.6.0b20250320.dist-info → bigdl_core_cpp-2.6.0b20250321.dist-info}/METADATA +1 -1
bigdl_core_cpp-2.6.0b20250321.dist-info/RECORD +57 -0
{bigdl_core_cpp-2.6.0b20250320.dist-info → bigdl_core_cpp-2.6.0b20250321.dist-info}/WHEEL +1 -1
bigdl_core_cpp-2.6.0b20250320.dist-info/RECORD +0 -57
{bigdl_core_cpp-2.6.0b20250320.data → bigdl_core_cpp-2.6.0b20250321.data}/scripts/init-llama-cpp.bat +0 -0
{bigdl_core_cpp-2.6.0b20250320.data → bigdl_core_cpp-2.6.0b20250321.data}/scripts/init-llama-cpp.ps1 +0 -0
{bigdl_core_cpp-2.6.0b20250320.data → bigdl_core_cpp-2.6.0b20250321.data}/scripts/init-ollama.bat +0 -0
{bigdl_core_cpp-2.6.0b20250320.dist-info → bigdl_core_cpp-2.6.0b20250321.dist-info}/top_level.txt +0 -0

bigdl/cpp/gguf-py/gguf/gguf_writer.py CHANGED Viewed

@@ -26,6 +26,7 @@ from .constants import (
     RopeScalingType,
     PoolingType,
     TokenType,
+    ExpertGatingFuncType,
 )
 from .quants import quant_shape_from_byte_shape
@@ -631,6 +632,21 @@ class GGUFWriter:
     def add_embedding_length(self, length: int) -> None:
         self.add_uint32(Keys.LLM.EMBEDDING_LENGTH.format(arch=self.arch), length)
+    def add_features_length(self, length: int) -> None:
+        self.add_uint32(Keys.LLM.FEATURES_LENGTH.format(arch=self.arch), length)
+    def add_posnet_embedding_length(self, length: int) -> None:
+        self.add_uint32(Keys.PosNet.EMBEDDING_LENGTH.format(arch=self.arch), length)
+    def add_posnet_block_count(self, length: int) -> None:
+        self.add_uint32(Keys.PosNet.BLOCK_COUNT.format(arch=self.arch), length)
+    def add_convnext_embedding_length(self, length: int) -> None:
+        self.add_uint32(Keys.ConvNext.EMBEDDING_LENGTH.format(arch=self.arch), length)
+    def add_convnext_block_count(self, length: int) -> None:
+        self.add_uint32(Keys.ConvNext.BLOCK_COUNT.format(arch=self.arch), length)
     def add_block_count(self, length: int) -> None:
         self.add_uint32(Keys.LLM.BLOCK_COUNT.format(arch=self.arch), length)
@@ -700,6 +716,12 @@ class GGUFWriter:
     def add_expert_weights_scale(self, value: float) -> None:
         self.add_float32(Keys.LLM.EXPERT_WEIGHTS_SCALE.format(arch=self.arch), value)
+    def add_expert_weights_norm(self, value: bool) -> None:
+        self.add_bool(Keys.LLM.EXPERT_WEIGHTS_NORM.format(arch=self.arch), value)
+    def add_expert_gating_func(self, value: ExpertGatingFuncType) -> None:
+        self.add_uint32(Keys.LLM.EXPERT_GATING_FUNC.format(arch=self.arch), value.value)
     def add_swin_norm(self, value: bool) -> None:
         self.add_bool(Keys.LLM.SWIN_NORM.format(arch=self.arch), value)
@@ -721,12 +743,21 @@ class GGUFWriter:
     def add_wkv_head_size(self, size: int) -> None:
         self.add_uint32(Keys.WKV.HEAD_SIZE.format(arch=self.arch), size)
+    def add_token_shift_count(self, count: int) -> None:
+        self.add_uint32(Keys.LLM.TOKEN_SHIFT_COUNT.format(arch=self.arch), count)
     def add_layer_norm_eps(self, value: float) -> None:
         self.add_float32(Keys.Attention.LAYERNORM_EPS.format(arch=self.arch), value)
     def add_layer_norm_rms_eps(self, value: float) -> None:
         self.add_float32(Keys.Attention.LAYERNORM_RMS_EPS.format(arch=self.arch), value)
+    def add_group_norm_eps(self, value: float) -> None:
+        self.add_float32(Keys.Attention.GROUPNORM_EPS.format(arch=self.arch), value)
+    def add_group_norm_groups(self, value: int) -> None:
+        self.add_uint32(Keys.Attention.GROUPNORM_GROUPS.format(arch=self.arch), value)
     def add_causal_attention(self, value: bool) -> None:
         self.add_bool(Keys.Attention.CAUSAL.format(arch=self.arch), value)
@@ -826,9 +857,6 @@ class GGUFWriter:
     def add_pad_token_id(self, id: int) -> None:
         self.add_uint32(Keys.Tokenizer.PAD_ID, id)
-    def add_cls_token_id(self, id: int) -> None:
-        self.add_uint32(Keys.Tokenizer.CLS_ID, id)
     def add_mask_token_id(self, id: int) -> None:
         self.add_uint32(Keys.Tokenizer.MASK_ID, id)

bigdl/cpp/gguf-py/gguf/tensor_mapping.py CHANGED Viewed

@@ -13,7 +13,7 @@ class TensorNameMap:
             "transformer.wte",                           # gpt2 gpt-j mpt refact qwen dbrx jais exaone
             "transformer.word_embeddings",               # falcon
             "word_embeddings",                           # bloom
-            "model.embed_tokens",                        # llama-hf nemotron olmoe olmo2
+            "model.embed_tokens",                        # llama-hf nemotron olmoe olmo2 rwkv6qwen2
             "tok_embeddings",                            # llama-pth
             "embeddings.word_embeddings",                # bert nomic-bert
             "language_model.embedding.word_embeddings",  # persimmon
@@ -42,6 +42,7 @@ class TensorNameMap:
             "emb_ln",                     # nomic-bert
             "transformer.norm",           # openelm
             "rwkv.blocks.0.pre_ln",       # rwkv
+            "backbone.norm",              # wavtokenizer
         ),
         # Position embeddings
@@ -54,19 +55,20 @@ class TensorNameMap:
         # Output
         MODEL_TENSOR.OUTPUT: (
             "embed_out",                 # gptneox
-            "lm_head",                   # gpt2 mpt falcon llama-hf baichuan qwen mamba dbrx jais nemotron exaone olmoe olmo2
+            "lm_head",                   # gpt2 mpt falcon llama-hf baichuan qwen mamba dbrx jais nemotron exaone olmoe olmo2 phimoe
             "output",                    # llama-pth bloom internlm2
             "word_embeddings_for_head",  # persimmon
             "lm_head.linear",            # phi2
             "output_layer",              # chatglm
             "head",                      # rwkv
+            "head.out",                  # wavtokenizer
         ),
         # Output norm
         MODEL_TENSOR.OUTPUT_NORM: (
             "gpt_neox.final_layer_norm",               # gptneox
             "transformer.ln_f",                        # gpt2 gpt-j falcon jais exaone
-            "model.norm",                              # llama-hf baichuan internlm2 olmoe olmo2
+            "model.norm",                              # llama-hf baichuan internlm2 olmoe olmo2 phimoe
             "norm",                                    # llama-pth
             "transformer.norm_f",                      # mpt dbrx
             "ln_f",                                    # refact bloom qwen gpt2
@@ -80,6 +82,7 @@ class TensorNameMap:
             "transformer.norm",                        # openelm
             "model.norm",                              # nemotron
             "rwkv.ln_out",                             # rwkv
+            "backbone.final_layer_norm",               # wavtokenizer
         ),
         # Rope frequencies
@@ -90,6 +93,13 @@ class TensorNameMap:
         MODEL_TENSOR.ROPE_FACTORS_LONG: (),
         MODEL_TENSOR.ROPE_FACTORS_SHORT: (),
+        MODEL_TENSOR.CONV1D: (
+            "backbone.embed", # roberta
+        ),
+        MODEL_TENSOR.ROPE_FACTORS_LONG: (),
+        MODEL_TENSOR.ROPE_FACTORS_SHORT: (),
     }
     block_mappings_cfg: dict[MODEL_TENSOR, tuple[str, ...]] = {
@@ -101,7 +111,7 @@ class TensorNameMap:
             "transformer.h.{bid}.input_layernorm",                  # falcon7b
             "h.{bid}.input_layernorm",                              # bloom
             "transformer.h.{bid}.ln_mlp",                           # falcon40b
-            "model.layers.{bid}.input_layernorm",                   # llama-hf nemotron olmoe
+            "model.layers.{bid}.input_layernorm",                   # llama-hf nemotron olmoe phimoe
             "layers.{bid}.attention_norm",                          # llama-pth
             "language_model.encoder.layers.{bid}.input_layernorm",  # persimmon
             "model.layers.{bid}.ln1",                               # yi
@@ -145,7 +155,7 @@ class TensorNameMap:
         # Attention query
         MODEL_TENSOR.ATTN_Q: (
-            "model.layers.{bid}.self_attn.q_proj",                       # llama-hf nemotron olmoe olmo2
+            "model.layers.{bid}.self_attn.q_proj",                       # llama-hf nemotron olmoe olmo2 phimoe
             "model.layers.{bid}.self_attn.q_proj_no_perm",               # llama-custom
             "layers.{bid}.attention.wq",                                 # llama-pth
             "encoder.layer.{bid}.attention.self.query",                  # bert
@@ -158,7 +168,7 @@ class TensorNameMap:
         # Attention key
         MODEL_TENSOR.ATTN_K: (
-            "model.layers.{bid}.self_attn.k_proj",                     # llama-hf nemotron olmoe olmo2
+            "model.layers.{bid}.self_attn.k_proj",                     # llama-hf nemotron olmoe olmo2 phimoe
             "model.layers.{bid}.self_attn.k_proj_no_perm",             # llama-custom
             "layers.{bid}.attention.wk",                               # llama-pth
             "encoder.layer.{bid}.attention.self.key",                  # bert
@@ -172,7 +182,7 @@ class TensorNameMap:
         # Attention value
         MODEL_TENSOR.ATTN_V: (
-            "model.layers.{bid}.self_attn.v_proj",                       # llama-hf nemotron olmoe olmo2
+            "model.layers.{bid}.self_attn.v_proj",                       # llama-hf nemotron olmoe olmo2 phimoe
             "layers.{bid}.attention.wv",                                 # llama-pth
             "encoder.layer.{bid}.attention.self.value",                  # bert
             "transformer.h.{bid}.attn.v_proj",                           # gpt-j
@@ -190,7 +200,8 @@ class TensorNameMap:
             "transformer.blocks.{bid}.attn.out_proj",                       # mpt
             "transformer.h.{bid}.self_attention.dense",                     # falcon
             "h.{bid}.self_attention.dense",                                 # bloom
-            "model.layers.{bid}.self_attn.o_proj",                          # llama-hf nemotron olmoe olmo2
+            "model.layers.{bid}.self_attn.o_proj",                          # llama-hf nemotron olmoe olmo2 phimoe
+            "model.layers.{bid}.self_attn.linear_attn",                     # deci
             "layers.{bid}.attention.wo",                                    # llama-pth
             "encoder.layer.{bid}.attention.output.dense",                   # bert
             "transformer.h.{bid}.attn.out_proj",                            # gpt-j
@@ -234,7 +245,7 @@ class TensorNameMap:
             "transformer.h.{bid}.ln_2",                                      # gpt2 refact qwen jais exaone
             "h.{bid}.post_attention_layernorm",                              # bloom
             "transformer.blocks.{bid}.norm_2",                               # mpt
-            "model.layers.{bid}.post_attention_layernorm",                   # llama-hf nemotron olmoe
+            "model.layers.{bid}.post_attention_layernorm",                   # llama-hf nemotron olmoe phimoe
             "layers.{bid}.ffn_norm",                                         # llama-pth
             "language_model.encoder.layers.{bid}.post_attention_layernorm",  # persimmon
             "model.layers.{bid}.ln2",                                        # yi
@@ -257,7 +268,7 @@ class TensorNameMap:
         MODEL_TENSOR.FFN_GATE_INP: (
             "layers.{bid}.feed_forward.gate",                   # mixtral
-            "model.layers.{bid}.block_sparse_moe.gate",         # mixtral
+            "model.layers.{bid}.block_sparse_moe.gate",         # mixtral phimoe
             "model.layers.{bid}.mlp.gate",                      # qwen2moe olmoe
             "transformer.decoder_layer.{bid}.router",           # Grok
             "transformer.blocks.{bid}.ffn.router.layer",        # dbrx
@@ -268,6 +279,10 @@ class TensorNameMap:
             "model.layers.{bid}.mlp.shared_expert_gate", # qwen2moe
         ),
+        MODEL_TENSOR.FFN_EXP_PROBS_B: (
+            "model.layers.{bid}.mlp.gate.e_score_correction", # deepseek-v3
+        ),
         # Feed-forward up
         MODEL_TENSOR.FFN_UP: (
             "gpt_neox.layers.{bid}.mlp.dense_h_to_4h",                # gptneox
@@ -298,15 +313,16 @@ class TensorNameMap:
         ),
         MODEL_TENSOR.FFN_UP_EXP: (
-            "layers.{bid}.feed_forward.experts.w3",          # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear_v",  # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.v1",   # dbrx
-            "model.layers.{bid}.mlp.experts.up_proj",        # qwen2moe olmoe (merged)
+            "layers.{bid}.feed_forward.experts.w3",           # mixtral (merged)
+            "transformer.decoder_layer.{bid}.moe.linear_v",   # Grok (merged)
+            "transformer.blocks.{bid}.ffn.experts.mlp.v1",    # dbrx
+            "model.layers.{bid}.mlp.experts.up_proj",         # qwen2moe olmoe (merged)
+            "model.layers.{bid}.block_sparse_moe.experts.w3", # phimoe (merged)
         ),
         MODEL_TENSOR.FFN_UP_SHEXP: (
             "model.layers.{bid}.mlp.shared_expert.up_proj",  # qwen2moe
-            "model.layers.{bid}.mlp.shared_experts.up_proj", # deepseek2
+            "model.layers.{bid}.mlp.shared_experts.up_proj", # deepseek deepseek2
         ),
         # AWQ-activation gate
@@ -330,15 +346,16 @@ class TensorNameMap:
         ),
         MODEL_TENSOR.FFN_GATE_EXP: (
-            "layers.{bid}.feed_forward.experts.w1",         # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear",   # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.w1",  # dbrx
-            "model.layers.{bid}.mlp.experts.gate_proj",     # qwen2moe olmoe (merged)
+            "layers.{bid}.feed_forward.experts.w1",           # mixtral (merged)
+            "transformer.decoder_layer.{bid}.moe.linear",     # Grok (merged)
+            "transformer.blocks.{bid}.ffn.experts.mlp.w1",    # dbrx
+            "model.layers.{bid}.mlp.experts.gate_proj",       # qwen2moe olmoe (merged)
+            "model.layers.{bid}.block_sparse_moe.experts.w1", # phimoe (merged)
         ),
         MODEL_TENSOR.FFN_GATE_SHEXP: (
             "model.layers.{bid}.mlp.shared_expert.gate_proj",  # qwen2moe
-            "model.layers.{bid}.mlp.shared_experts.gate_proj", # deepseek2
+            "model.layers.{bid}.mlp.shared_experts.gate_proj", # deepseek deepseek2
         ),
         # Feed-forward down
@@ -375,11 +392,12 @@ class TensorNameMap:
             "transformer.blocks.{bid}.ffn.experts.mlp.w2",       # dbrx
             "model.layers.{bid}.mlp.experts.down_proj",          # qwen2moe olmoe (merged)
             "model.layers.{bid}.block_sparse_moe.output_linear", # granitemoe
+            "model.layers.{bid}.block_sparse_moe.experts.w2",    # phimoe (merged)
         ),
         MODEL_TENSOR.FFN_DOWN_SHEXP: (
             "model.layers.{bid}.mlp.shared_expert.down_proj",  # qwen2moe
-            "model.layers.{bid}.mlp.shared_experts.down_proj", # deepseek2
+            "model.layers.{bid}.mlp.shared_experts.down_proj", # deepseek deepseek2
         ),
         MODEL_TENSOR.ATTN_Q_NORM: (
@@ -449,34 +467,42 @@ class TensorNameMap:
         MODEL_TENSOR.TIME_MIX_W1: (
             "rwkv.blocks.{bid}.attention.time_maa_w1",  # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_w1", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_W2: (
             "rwkv.blocks.{bid}.attention.time_maa_w2",  # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_w2", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LERP_X: (
             "rwkv.blocks.{bid}.attention.time_maa_x",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_x",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LERP_K: (
             "rwkv.blocks.{bid}.attention.time_maa_k",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_k",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LERP_V: (
             "rwkv.blocks.{bid}.attention.time_maa_v",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_v",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LERP_R: (
             "rwkv.blocks.{bid}.attention.time_maa_r",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_r",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LERP_G: (
             "rwkv.blocks.{bid}.attention.time_maa_g",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_g",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LERP_W: (
             "rwkv.blocks.{bid}.attention.time_maa_w",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_maa_w",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_FIRST: (
@@ -485,30 +511,37 @@ class TensorNameMap:
         MODEL_TENSOR.TIME_MIX_DECAY: (
             "rwkv.blocks.{bid}.attention.time_decay",   # rwkv v6
+            "model.layers.{bid}.self_attn.time_decay",  # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_DECAY_W1: (
             "rwkv.blocks.{bid}.attention.time_decay_w1",  # rwkv v6
+            "model.layers.{bid}.self_attn.time_decay_w1", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_DECAY_W2: (
             "rwkv.blocks.{bid}.attention.time_decay_w2",  # rwkv v6
+            "model.layers.{bid}.self_attn.time_decay_w2", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_KEY: (
-            "rwkv.blocks.{bid}.attention.key", # rwkv
+            "rwkv.blocks.{bid}.attention.key",     # rwkv
+            "model.layers.{bid}.self_attn.k_proj", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_VALUE: (
-            "rwkv.blocks.{bid}.attention.value", # rwkv
+            "rwkv.blocks.{bid}.attention.value",   # rwkv
+            "model.layers.{bid}.self_attn.v_proj", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_RECEPTANCE: (
             "rwkv.blocks.{bid}.attention.receptance", # rwkv
+            "model.layers.{bid}.self_attn.q_proj",    # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_GATE: (
-            "rwkv.blocks.{bid}.attention.gate", # rwkv
+            "rwkv.blocks.{bid}.attention.gate",  # rwkv
+            "model.layers.{bid}.self_attn.gate", # rwkv6qwen2
         ),
         MODEL_TENSOR.TIME_MIX_LN: (
@@ -516,7 +549,8 @@ class TensorNameMap:
         ),
         MODEL_TENSOR.TIME_MIX_OUTPUT: (
-            "rwkv.blocks.{bid}.attention.output", # rwkv
+            "rwkv.blocks.{bid}.attention.output",  # rwkv
+            "model.layers.{bid}.self_attn.o_proj", # rwkv6qwen2
         ),
         MODEL_TENSOR.CHANNEL_MIX_LERP_K: (
@@ -681,6 +715,8 @@ class TensorNameMap:
             "encoder.block.{bid}.layer.1.DenseReluDense.wo", # t5
         ),
+        ############################################################################
+        # TODO: these do not belong to block_mappings_cfg - move them to mappings_cfg
         MODEL_TENSOR.ENC_OUTPUT_NORM: (
             "encoder.final_layer_norm", # t5
         ),
@@ -693,6 +729,67 @@ class TensorNameMap:
         MODEL_TENSOR.CLS_OUT: (
             "classifier.out_proj", # roberta
         ),
+        #############################################################################
+        MODEL_TENSOR.CONVNEXT_DW: (
+            "backbone.convnext.{bid}.dwconv", # wavtokenizer
+        ),
+        MODEL_TENSOR.CONVNEXT_NORM: (
+            "backbone.convnext.{bid}.norm", # wavtokenizer
+        ),
+        MODEL_TENSOR.CONVNEXT_PW1: (
+            "backbone.convnext.{bid}.pwconv1", # wavtokenizer
+        ),
+        MODEL_TENSOR.CONVNEXT_PW2: (
+            "backbone.convnext.{bid}.pwconv2", # wavtokenizer
+        ),
+        MODEL_TENSOR.CONVNEXT_GAMMA: (
+            "backbone.convnext.{bid}.gamma", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_CONV1: (
+            "backbone.posnet.{bid}.conv1", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_CONV2: (
+            "backbone.posnet.{bid}.conv2", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_NORM: (
+            "backbone.posnet.{bid}.norm", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_NORM1: (
+            "backbone.posnet.{bid}.norm1", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_NORM2: (
+            "backbone.posnet.{bid}.norm2", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_ATTN_NORM: (
+            "backbone.posnet.{bid}.norm", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_ATTN_Q: (
+            "backbone.posnet.{bid}.q", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_ATTN_K: (
+            "backbone.posnet.{bid}.k", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_ATTN_V: (
+            "backbone.posnet.{bid}.v", # wavtokenizer
+        ),
+        MODEL_TENSOR.POSNET_ATTN_OUT: (
+            "backbone.posnet.{bid}.proj_out", # wavtokenizer
+        ),
     }
     # architecture-specific block mappings

bigdl/cpp/gguf-py/gguf/utility.py CHANGED Viewed

@@ -47,7 +47,7 @@ def size_label(total_params: int, shared_params: int, expert_params: int, expert
 def naming_convention(model_name: str | None, base_name: str | None, finetune_string: str | None, version_string: str | None, size_label: str | None, output_type: str | None, model_type: Literal['vocab', 'LoRA'] | None = None) -> str:
-    # Reference: https://github.com/ggerganov/ggml/blob/master/docs/gguf.md#gguf-naming-convention
+    # Reference: https://github.com/ggml-org/ggml/blob/master/docs/gguf.md#gguf-naming-convention
     if base_name is not None:
         name = base_name.strip().replace(' ', '-').replace('/', '-')

bigdl/cpp/gguf-py/gguf/vocab.py CHANGED Viewed

@@ -127,7 +127,7 @@ class SpecialVocab:
                         self.merges = merges
                     elif isinstance(merges[0], list) and len(merges[0]) == 2 and isinstance(merges[0][0], str):
                         # New format since transformers 4.45 to support spaces in merges
-                        # ref: https://github.com/ggerganov/llama.cpp/issues/9692
+                        # ref: https://github.com/ggml-org/llama.cpp/issues/9692
                         # TODO: internally store as the new format instead of converting to old
                         if any(' ' in s for pair in merges for s in pair):
                             logger.warning(f'Spaces in merges detected, encoding as {chr(ord(" ") + 256)!r}')

bigdl/cpp/libs/common.lib CHANGED Viewed

Binary file

bigdl/cpp/libs/ggml-base.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ggml-cpu.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ggml-sycl.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ggml.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-batched.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-bench.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-cli.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-embedding.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-gemma3-cli.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-gguf.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-llava-cli.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-lookup.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-ls-sycl-device.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-minicpmv-cli.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-perplexity.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-quantize.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-server.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-simple.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-speculative.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama-tokenize.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/llama.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/llava_shared.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama-ggml-base.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama-ggml-cpu.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama-ggml-sycl.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama-lib.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama.exe CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama_ggml.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama_llama.dll CHANGED Viewed

Binary file

bigdl/cpp/libs/ollama_llava_shared.dll CHANGED Viewed

Binary file

{bigdl_core_cpp-2.6.0b20250320.dist-info → bigdl_core_cpp-2.6.0b20250321.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: bigdl-core-cpp
-Version: 2.6.0b20250320
+Version: 2.6.0b20250321
 Summary: Large Language Model Develop Toolkit
 Author: BigDL Authors
 License: Apache License, Version 2.0

bigdl_core_cpp-2.6.0b20250321.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,57 @@
+bigdl/cpp/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+bigdl/cpp/convert_hf_to_gguf.py,sha256=GB6mGc_deGraPhQfUgU8i33odUb6WfMw0vVPcgZ_-ow,240529
+bigdl/cpp/convert_hf_to_gguf_update.py,sha256=1BFKEkj0BMDB90lUB5p_-iR9rSVcjgYPGWmEw28avB8,17721
+bigdl/cpp/convert_llama_ggml_to_gguf.py,sha256=0dKjRhmFzvWV4e-cuLmaeW14JrWUtZwerBmz8mYyMvI,19556
+bigdl/cpp/convert_lora_to_gguf.py,sha256=sHrcutdgzrDR5H7ZiLPOLoMnkJKg8uZ7OcFhAZhPrLo,19073
+bigdl/cpp/gguf-py/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+bigdl/cpp/gguf-py/gguf/__init__.py,sha256=h5GWs6SMXYR8giWZ7MTZzAc3hYsIJF-HAkdxtgXLOPo,228
+bigdl/cpp/gguf-py/gguf/constants.py,sha256=CJ0LigNqlnEqYP8IhnJsKcst9fIm-huE4RccvkTYUbg,69188
+bigdl/cpp/gguf-py/gguf/gguf.py,sha256=QpLc-xU055W2d7CEFvJp2gLIfGO63bdM24ZndZCH6rw,493
+bigdl/cpp/gguf-py/gguf/gguf_reader.py,sha256=PUrx08ZwaUOz1gLw5JQ459Hi7JIeCdlHgZX7wXcTqbI,12702
+bigdl/cpp/gguf-py/gguf/gguf_writer.py,sha256=pFgnwrsDupKxI3SHNQbfiuz7dUopCOqj3ERBPuZMkMo,39955
+bigdl/cpp/gguf-py/gguf/lazy.py,sha256=YIYxGBWD-oKXU4HOvpHs9eiEn81HUgeSmt1mmHJlbdM,8814
+bigdl/cpp/gguf-py/gguf/metadata.py,sha256=oBTb4DXi_h1L_gYm8x_JRVuEPR4GHlVHuM-iN0OxWoY,33244
+bigdl/cpp/gguf-py/gguf/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+bigdl/cpp/gguf-py/gguf/quants.py,sha256=2z6vcK-kBefqZbYNmSEVmdZF_tXHeVb5NC6jCbBdgKc,62040
+bigdl/cpp/gguf-py/gguf/tensor_mapping.py,sha256=w1JZkRIKHj2tKYADLDUvCOsQfVf8y7Y0ZwqmtmrtLBA,39549
+bigdl/cpp/gguf-py/gguf/utility.py,sha256=Mx4mqamXtatL15LCH04mG-7SNBwPzP2T75ts0uBnEuI,3002
+bigdl/cpp/gguf-py/gguf/vocab.py,sha256=QTdt4HZrn7onHqm2tpHTaEq2sL3yG07zbHqQR9iVfu8,20815
+bigdl/cpp/libs/common.lib,sha256=Vo5qx0PPK6ZyT0Z3TUoVqPhxI-A-zZR7IHWSeLYTIkM,8642856
+bigdl/cpp/libs/ggml-base.dll,sha256=IUkUVt54mNJzwdTXmwvyJ_nQLOqmWrUpIrpRCg7VPFE,577024
+bigdl/cpp/libs/ggml-cpu.dll,sha256=BTX-iKt3_8YgJcpRl0pXDrES2ZYTEy9ph6i4mMYwLqQ,1038336
+bigdl/cpp/libs/ggml-sycl.dll,sha256=aqQdnqwEY-JlKm4Dny8nhy3OgSySYaiDWGSXwIp2SHc,5560832
+bigdl/cpp/libs/ggml.dll,sha256=XjdK5jlGNhAxr7_IGiTWkvi4Z06ciDqiL5wbW9ZRuVc,118272
+bigdl/cpp/libs/libc++.dll,sha256=U0TVK2WfFQIJPP6Bz9SeJmgskm2iqZWJorx_DGdfKIw,1561600
+bigdl/cpp/libs/llama-batched.exe,sha256=v27oJ9gdolpQArt7Ih8m3qXCrIcEhWmgJrbVoxwpy0Q,1741824
+bigdl/cpp/libs/llama-bench.exe,sha256=4aZtBZ2Bs-Q5kXVTd86WrE1uF3LuJCWfGaJcfHTkAH8,279552
+bigdl/cpp/libs/llama-cli.exe,sha256=Sa6UWO5May8Ub1tgRiLI3gBJ1ayJbiZwQtshD9Ckdu0,1812480
+bigdl/cpp/libs/llama-embedding.exe,sha256=WGqbovh_2njmpN1OE-5FU5yH-6D8hRQQ_cDKj_GlXlQ,1765376
+bigdl/cpp/libs/llama-gemma3-cli.exe,sha256=94z47LKR7CrVSZ2w_tzuHJ66hJhw7v6BWrvbZIS1r_U,2033664
+bigdl/cpp/libs/llama-gguf.exe,sha256=DlBsPv7pL0Rsp5hafby51gxRnXmzsti_569wySHAQ-Q,59392
+bigdl/cpp/libs/llama-llava-cli.exe,sha256=DyoTXM5HOGMQANjfZbsYk50EsxZK5sBGVDuTfYX6Adg,2019840
+bigdl/cpp/libs/llama-lookup.exe,sha256=lievf9j2yNC5uujL0oMmrpBj7J14PZWwi2XT_DX6_3U,1801216
+bigdl/cpp/libs/llama-ls-sycl-device.exe,sha256=ZNfBEekcD4AiaNPkqafa1pzfo8WTp0DpS7I6Mw-RAwo,10240
+bigdl/cpp/libs/llama-minicpmv-cli.exe,sha256=sozeVIjDxfa4NssDmTPBOO-6vgK1nJ-Bs5HDQp7QBE8,2017792
+bigdl/cpp/libs/llama-perplexity.exe,sha256=vPzXHFomoFPgtLznM1fw1JQKDv_4q4bSqUuBb1qKEpI,1886208
+bigdl/cpp/libs/llama-quantize.exe,sha256=CV3wKKGunBiBy6E8fStqXeFefjAnBmJUmXGwbMPyPb0,122880
+bigdl/cpp/libs/llama-server.exe,sha256=haDGFy0qNNR_WUys-9CaDTB3RJwjvrBkCKBlhuewRBU,4130304
+bigdl/cpp/libs/llama-simple.exe,sha256=Wfq0JYyVA4itZXPKs20UAOs0z-Q59SWOwpSlRgUWUw0,62464
+bigdl/cpp/libs/llama-speculative.exe,sha256=rQG1WQizxNX0oj1nzvxxn0k3DCkkOkk0flLgw0_B2fs,1803776
+bigdl/cpp/libs/llama-tokenize.exe,sha256=LA0ZLlq2Akt_CXTz8lSXw6-S9aCUnBm8RhEubpVZaz8,89088
+bigdl/cpp/libs/llama.dll,sha256=W07-VmnRG1Hm7NkUdA9lFjrW9Wz81pQlKfZWF8yugRI,1470464
+bigdl/cpp/libs/llava_shared.dll,sha256=IY0l5XnYnL014k398AHe33wTqwuBhKc1wTgn_uMeciA,380416
+bigdl/cpp/libs/ollama-ggml-base.dll,sha256=ma9wJKTWKvr16EAlGJPwuNJN-dwUCx-gYPAacF0HO5U,459776
+bigdl/cpp/libs/ollama-ggml-cpu.dll,sha256=lW9Ssioxrjm60ii9-LiLBoYJiFCpva8naloJpeGrjnI,477184
+bigdl/cpp/libs/ollama-ggml-sycl.dll,sha256=I-Ksd6w8OGivjKsPwdNA0u7sGzPvyFwu1W5OvJi2IcA,5326336
+bigdl/cpp/libs/ollama-lib.exe,sha256=LAaaV9voEPaeGBSSLsF0Eb9T0_zibH4SIe7NBakYses,25916416
+bigdl/cpp/libs/ollama.exe,sha256=GceJtJEhtrlNDAY9n-7FMyWiLoHP6UqgwOrrM7RdUIk,207360
+bigdl/cpp/libs/ollama_ggml.dll,sha256=X8XsTQd6Uc-LgMOzjNvGpnemqevACWoTVYdx7ZK6Zbc,113152
+bigdl/cpp/libs/ollama_llama.dll,sha256=XKb_ypeqhlL9_lP_AcxNR6Z8xdQcr-3Inr6l-CzX1o4,1421312
+bigdl/cpp/libs/ollama_llava_shared.dll,sha256=LtLN0l-jXVF8BNSH8XZAaAuIZXQWrc9cssBlPnYCixQ,398336
+bigdl_core_cpp-2.6.0b20250321.data/scripts/init-llama-cpp.bat,sha256=U0h6RifZxL3GGJp-0dxdZapQIvXUATSj644CURJL-lg,751
+bigdl_core_cpp-2.6.0b20250321.data/scripts/init-llama-cpp.ps1,sha256=JFOylLxO4MKpllHhdbPuJ1xHi9azxDpzdJns8JtZpkU,501
+bigdl_core_cpp-2.6.0b20250321.data/scripts/init-ollama.bat,sha256=0I2iBOFv3kR9hvEySGMRUU52-qwVhE7oRZnyWz-2z_U,657
+bigdl_core_cpp-2.6.0b20250321.dist-info/METADATA,sha256=9I4TcjPb4JO3gGlDHDAXgFbUhCRqhuZp9iOyVFX2Apo,750
+bigdl_core_cpp-2.6.0b20250321.dist-info/WHEEL,sha256=pUQ3YzM9z7CMLK4Pdg7RxRLrm1NUy0aQs4ESywX3iFk,97
+bigdl_core_cpp-2.6.0b20250321.dist-info/top_level.txt,sha256=iGuLfZARD_qANcIMfy0tbbrC3EtCg6BSiH8icc3dLWs,6
+bigdl_core_cpp-2.6.0b20250321.dist-info/RECORD,,

{bigdl_core_cpp-2.6.0b20250320.dist-info → bigdl_core_cpp-2.6.0b20250321.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (77.0.1)
+Generator: setuptools (77.0.3)
 Root-Is-Purelib: true
 Tag: py3-none-win_amd64