PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (527) hide show

mteb/models/model_implementations/arctic_models.py CHANGED Viewed

@@ -140,11 +140,12 @@ arctic_v2_training_datasets = {
 arctic_embed_xs = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-xs",
+    model_type=["dense"],
     revision="742da4f66e1823b5b4dbe6c320a1375a1fd85f9e",
     release_date="2024-07-08",  # initial commit of hf model.
     languages=["eng-Latn"],
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=22_600_000,
     memory_usage_mb=86,
     max_tokens=512,
@@ -165,11 +166,12 @@ arctic_embed_xs = ModelMeta(
 arctic_embed_s = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-s",
+    model_type=["dense"],
     revision="d3c1d2d433dd0fdc8e9ca01331a5f225639e798f",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=32_200_000,
     memory_usage_mb=127,
     max_tokens=512,
@@ -190,11 +192,12 @@ arctic_embed_s = ModelMeta(
 arctic_embed_m = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-m",
+    model_type=["dense"],
     revision="cc17beacbac32366782584c8752220405a0f3f40",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=109_000_000,
     memory_usage_mb=415,
     max_tokens=512,
@@ -215,11 +218,12 @@ arctic_embed_m_long = ModelMeta(
     loader=sentence_transformers_loader,
     loader_kwargs={"trust_remote_code": True},
     name="Snowflake/snowflake-arctic-embed-m-long",
+    model_type=["dense"],
     revision="89d0f6ab196eead40b90cb6f9fefec01a908d2d1",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=137_000_000,
     memory_usage_mb=522,
     max_tokens=2048,
@@ -239,11 +243,12 @@ arctic_embed_m_long = ModelMeta(
 arctic_embed_l = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-l",
+    model_type=["dense"],
     revision="9a9e5834d2e89cdd8bb72b64111dde496e4fe78c",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=335_000_000,
     memory_usage_mb=1274,
     max_tokens=512,
@@ -268,11 +273,12 @@ arctic_embed_m_v1_5 = ModelMeta(
         },
     ),
     name="Snowflake/snowflake-arctic-embed-m-v1.5",
+    model_type=["dense"],
     revision="97eab2e17fcb7ccb8bb94d6e547898fa1a6a0f47",
     release_date="2024-07-08",  # initial commit of hf model.
     languages=["eng-Latn"],
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors", "GGUF"],
     n_parameters=109_000_000,
     memory_usage_mb=415,
     max_tokens=512,
@@ -293,11 +299,12 @@ arctic_embed_m_v2_0 = ModelMeta(
     loader=sentence_transformers_loader,
     loader_kwargs={"trust_remote_code": True},
     name="Snowflake/snowflake-arctic-embed-m-v2.0",
+    model_type=["dense"],
     revision="f2a7d59d80dfda5b1d14f096f3ce88bb6bf9ebdc",
     release_date="2024-12-04",  # initial commit of hf model.
     languages=LANGUAGES_V2_0,
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=305_000_000,
     memory_usage_mb=1165,
     max_tokens=8192,
@@ -317,11 +324,12 @@ arctic_embed_m_v2_0 = ModelMeta(
 arctic_embed_l_v2_0 = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-l-v2.0",
+    model_type=["dense"],
     revision="edc2df7b6c25794b340229ca082e7c78782e6374",
     release_date="2024-12-04",  # initial commit of hf model.
     languages=LANGUAGES_V2_0,
     open_weights=True,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     n_parameters=568_000_000,
     memory_usage_mb=2166,
     max_tokens=8192,

mteb/models/model_implementations/b1ade_models.py CHANGED Viewed

@@ -10,6 +10,7 @@ b1ade_training_data = {
 b1ade_embed = ModelMeta(
     loader=sentence_transformers_loader,
     name="w601sxs/b1ade-embed",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="3bdac13927fdc888b903db93b2ffdbd90b295a69",
     open_weights=True,
@@ -21,7 +22,7 @@ b1ade_embed = ModelMeta(
     max_tokens=4096,
     reference="https://huggingface.co/w601sxs/b1ade-embed",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/bedrock_models.py CHANGED Viewed

@@ -155,6 +155,7 @@ class BedrockModel(AbsEncoder):
 amazon_titan_embed_text_v1 = ModelMeta(
     name="bedrock/amazon-titan-embed-text-v1",
+    model_type=["dense"],
     revision="1",
     release_date="2023-09-27",
     languages=None,  # not specified
@@ -181,6 +182,7 @@ amazon_titan_embed_text_v1 = ModelMeta(
 amazon_titan_embed_text_v2 = ModelMeta(
     name="bedrock/amazon-titan-embed-text-v2",
+    model_type=["dense"],
     revision="1",
     release_date="2024-04-30",
     languages=None,  # not specified
@@ -216,6 +218,7 @@ cohere_embed_english_v3 = ModelMeta(
         model_prompts=cohere_model_prompts,
     ),
     name="bedrock/cohere-embed-english-v3",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=False,
     reference="https://cohere.com/blog/introducing-embed-v3",
@@ -243,6 +246,7 @@ cohere_embed_multilingual_v3 = ModelMeta(
         model_prompts=cohere_model_prompts,
     ),
     name="bedrock/cohere-embed-multilingual-v3",
+    model_type=["dense"],
     languages=cohere_supported_languages,
     open_weights=False,
     reference="https://cohere.com/blog/introducing-embed-v3",

mteb/models/model_implementations/bge_models.py CHANGED Viewed

@@ -319,6 +319,7 @@ bge_small_en_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-small-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="5c38ec7c405ec4b44b94cc5a9bb96e735b38267a",
@@ -330,7 +331,13 @@ bge_small_en_v1_5 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-small-en-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
@@ -344,6 +351,7 @@ bge_base_en_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-base-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="a5beb1e3e68b9ab74eb54cfd186867f64f240e1a",
@@ -355,7 +363,13 @@ bge_base_en_v1_5 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-base-en-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     use_instructions=True,
     public_training_code=None,  # seemingly released (at least for some models, but the link is broken
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
@@ -369,6 +383,7 @@ bge_large_en_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-large-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="d4aa6901d3a41ba39fb536a557fa166f842b0e09",
@@ -380,7 +395,13 @@ bge_large_en_v1_5 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-large-en-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     use_instructions=True,
     citation=BGE_15_CITATION,
     public_training_code=None,  # seemingly released (at least for some models, but the link is broken
@@ -394,6 +415,7 @@ bge_small_zh = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-small-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="1d2363c5de6ce9ba9c890c8e23a4c72dce540ca8",
@@ -405,12 +427,13 @@ bge_small_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-small-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
     superseded_by="BAAI/bge-small-zh-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_base_zh = ModelMeta(
@@ -419,6 +442,7 @@ bge_base_zh = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-base-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="0e5f83d4895db7955e4cb9ed37ab73f7ded339b6",
@@ -430,12 +454,13 @@ bge_base_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-base-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
     superseded_by="BAAI/bge-base-zh-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_large_zh = ModelMeta(
@@ -444,6 +469,7 @@ bge_large_zh = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-large-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="b5d9f5c027e87b6f0b6fa4b614f8f9cdc45ce0e8",
@@ -455,12 +481,13 @@ bge_large_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-large-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
     superseded_by="BAAI/bge-large-zh-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_small_en = ModelMeta(
@@ -469,6 +496,7 @@ bge_small_en = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-small-en",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="4778d71a06863076696b03fd2777eb118712cad8",
@@ -480,12 +508,13 @@ bge_small_en = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-small-en",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
     training_datasets=bge_training_data,
     superseded_by="BAAI/bge-small-en-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_base_en = ModelMeta(
@@ -494,6 +523,7 @@ bge_base_en = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-base-en",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b737bf5dcc6ee8bdc530531266b4804a5d77b5d8",
@@ -505,12 +535,19 @@ bge_base_en = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-base-en",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=True,
     public_training_code=None,  # seemingly released (at least for some models, but the link is broken
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
     training_datasets=bge_training_data,
     superseded_by="BAAI/bge-base-en-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_large_en = ModelMeta(
@@ -519,6 +556,7 @@ bge_large_en = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-large-en",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="abe7d9d814b775ca171121fb03f394dc42974275",
@@ -530,12 +568,13 @@ bge_large_en = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-large-en",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     public_training_code=None,  # seemingly released (at least for some models, but the link is broken
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
     training_datasets=bge_training_data,
     superseded_by="BAAI/bge-large-en-v1.5",
+    citation=BGE_15_CITATION,
 )
@@ -545,6 +584,7 @@ bge_small_zh_v1_5 = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-small-zh-v1.5",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="7999e1d3359715c523056ef9478215996d62a620",
@@ -556,11 +596,12 @@ bge_small_zh_v1_5 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-small-zh-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
+    citation=BGE_15_CITATION,
 )
 bge_base_zh_v1_5 = ModelMeta(
@@ -569,6 +610,7 @@ bge_base_zh_v1_5 = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-base-zh-v1.5",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="f03589ceff5aac7111bd60cfc7d497ca17ecac65",
@@ -580,11 +622,12 @@ bge_base_zh_v1_5 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-base-zh-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
+    citation=BGE_15_CITATION,
 )
 bge_large_zh_v1_5 = ModelMeta(
@@ -593,6 +636,7 @@ bge_large_zh_v1_5 = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-large-zh-v1.5",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="79e7739b6ab944e86d6171e44d24c997fc1e0116",
@@ -604,16 +648,18 @@ bge_large_zh_v1_5 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/BAAI/bge-large-zh-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
+    citation=BGE_15_CITATION,
 )
 bge_m3 = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-m3",
+    model_type=["dense"],
     languages=bgem3_languages,
     open_weights=True,
     revision="5617a9f61b028005a4858fdac845db406aefb181",
@@ -625,11 +671,19 @@ bge_m3 = ModelMeta(
     max_tokens=8194,
     reference="https://huggingface.co/BAAI/bge-m3",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX"],
     use_instructions=False,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
     training_datasets=bge_m3_training_data,
+    citation="""@misc{bge-m3,
+      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
+      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
+      year={2024},
+      eprint={2402.03216},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
 )
 # Contents of cfli/bge-full-data
@@ -692,6 +746,7 @@ bge_full_data = {
 bge_multilingual_gemma2 = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-multilingual-gemma2",
+    model_type=["dense"],
     languages=[
         "eng-Latn",
         "zho-Hans",
@@ -712,7 +767,7 @@ bge_multilingual_gemma2 = ModelMeta(
     max_tokens=8192,  # from old C-MTEB leaderboard
     reference="https://huggingface.co/BAAI/bge-multilingual-gemma2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -722,11 +777,30 @@ bge_multilingual_gemma2 = ModelMeta(
     }
     | bge_full_data
     | bge_m3_training_data,
+    citation="""@misc{bge-m3,
+      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
+      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
+      year={2024},
+      eprint={2402.03216},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}
+@misc{bge_embedding,
+      title={C-Pack: Packaged Resources To Advance General Chinese Embedding},
+      author={Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff},
+      year={2023},
+      eprint={2309.07597},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
 )
 bge_en_icl = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-en-icl",
+    model_type=["dense"],
     languages=[
         "eng-Latn",
     ],
@@ -740,7 +814,7 @@ bge_en_icl = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/BAAI/bge-en-icl",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=False,
     public_training_code="https://github.com/FlagOpen/FlagEmbedding",
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
@@ -762,6 +836,7 @@ bge_en_icl = ModelMeta(
 bge_m3_unsupervised = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-m3-unsupervised",
+    model_type=["dense"],
     languages=bgem3_languages,
     open_weights=True,
     revision="46f03bc86361cf88102b0b517b36c8259f2946b1",
@@ -773,15 +848,24 @@ bge_m3_unsupervised = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/BAAI/bge-m3-unsupervised",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code="https://github.com/FlagOpen/FlagEmbedding",
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
     training_datasets=bge_m3_training_data,
+    citation="""@misc{bge-m3,
+      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
+      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
+      year={2024},
+      eprint={2402.03216},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
 )
 manu__bge_m3_custom_fr = ModelMeta(
     name="manu/bge-m3-custom-fr",
+    model_type=["dense"],
     revision="ed3ef88678ba83ddf4c0fab71a93cb90d89a9078",
     release_date="2024-04-11",
     languages=None,
@@ -794,7 +878,7 @@ manu__bge_m3_custom_fr = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/manu/bge-m3-custom-fr",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,

mteb/models/model_implementations/bica_model.py ADDED Viewed

@@ -0,0 +1,35 @@
+from mteb.models import ModelMeta, sentence_transformers_loader
+bica_base = ModelMeta(
+    name="bisectgroup/BiCA-base",
+    model_type=["dense"],
+    loader=sentence_transformers_loader,
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="31237a836e5ae908c308a256573e5f0986498574",
+    release_date="2025-11-14",
+    n_parameters=110_000_000,
+    memory_usage_mb=418,
+    embed_dim=768,
+    license="mit",
+    max_tokens=512,
+    reference="https://huggingface.co/bisectgroup/BiCA-base",
+    similarity_fn_name="cosine",
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
+    use_instructions=False,
+    public_training_code="https://github.com/NiravBhattLab/BiCA",
+    public_training_data="https://huggingface.co/datasets/bisectgroup/hard-negatives-traversal",
+    adapted_from="thenlper/gte-base",
+    citation="""
+@misc{sinha2025bicaeffectivebiomedicaldense,
+      title={BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives},
+      author={Aarush Sinha and Pavan Kumar S and Roshan Balaji and Nirav Pravinbhai Bhatt},
+      year={2025},
+      eprint={2511.08029},
+      archivePrefix={arXiv},
+      primaryClass={cs.IR},
+      url={https://arxiv.org/abs/2511.08029},
+}
+""",
+    training_datasets=set(),
+)

mteb/models/model_implementations/blip2_models.py CHANGED Viewed

@@ -10,6 +10,13 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+BLIP2_CITATION = """@inproceedings{li2023blip2,
+    title={{BLIP-2:} Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models},
+    author={Junnan Li and Dongxu Li and Silvio Savarese and Steven Hoi},
+    year={2023},
+    booktitle={ICML},
+}"""
 def blip2_loader(model_name, **kwargs):
     requires_package(
@@ -159,6 +166,7 @@ blip2_training_datasets = set(
 blip2_opt_2_7b = ModelMeta(
     loader=blip2_loader,
     name="Salesforce/blip2-opt-2.7b",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="51572668da0eb669e01a189dc22abe6088589a24",
     release_date="2024-03-22",
@@ -171,16 +179,18 @@ blip2_opt_2_7b = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/salesforce/LAVIS/tree/main/projects/blip2",
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/Salesforce/blip2-opt-2.7b",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=False,
     training_datasets=blip2_training_datasets,
+    citation=BLIP2_CITATION,
 )
 blip2_opt_6_7b_coco = ModelMeta(
     loader=blip2_loader,
     name="Salesforce/blip2-opt-6.7b-coco",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="0d580de59320a25a4d2c386387bcef310d5f286e",
     release_date="2024-03-31",
@@ -193,9 +203,10 @@ blip2_opt_6_7b_coco = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/salesforce/LAVIS/tree/main/projects/blip2",
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/Salesforce/blip2-opt-6.7b-coco",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=False,
     training_datasets=blip2_training_datasets,
+    citation=BLIP2_CITATION,
 )

mteb 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl