PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (458) hide show

mteb/models/model_implementations/arctic_models.py CHANGED Viewed

@@ -140,6 +140,7 @@ arctic_v2_training_datasets = {
 arctic_embed_xs = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-xs",
+    model_type=["dense"],
     revision="742da4f66e1823b5b4dbe6c320a1375a1fd85f9e",
     release_date="2024-07-08",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -165,6 +166,7 @@ arctic_embed_xs = ModelMeta(
 arctic_embed_s = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-s",
+    model_type=["dense"],
     revision="d3c1d2d433dd0fdc8e9ca01331a5f225639e798f",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -190,6 +192,7 @@ arctic_embed_s = ModelMeta(
 arctic_embed_m = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-m",
+    model_type=["dense"],
     revision="cc17beacbac32366782584c8752220405a0f3f40",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -215,6 +218,7 @@ arctic_embed_m_long = ModelMeta(
     loader=sentence_transformers_loader,
     loader_kwargs={"trust_remote_code": True},
     name="Snowflake/snowflake-arctic-embed-m-long",
+    model_type=["dense"],
     revision="89d0f6ab196eead40b90cb6f9fefec01a908d2d1",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -239,6 +243,7 @@ arctic_embed_m_long = ModelMeta(
 arctic_embed_l = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-l",
+    model_type=["dense"],
     revision="9a9e5834d2e89cdd8bb72b64111dde496e4fe78c",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -268,6 +273,7 @@ arctic_embed_m_v1_5 = ModelMeta(
         },
     ),
     name="Snowflake/snowflake-arctic-embed-m-v1.5",
+    model_type=["dense"],
     revision="97eab2e17fcb7ccb8bb94d6e547898fa1a6a0f47",
     release_date="2024-07-08",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -293,6 +299,7 @@ arctic_embed_m_v2_0 = ModelMeta(
     loader=sentence_transformers_loader,
     loader_kwargs={"trust_remote_code": True},
     name="Snowflake/snowflake-arctic-embed-m-v2.0",
+    model_type=["dense"],
     revision="f2a7d59d80dfda5b1d14f096f3ce88bb6bf9ebdc",
     release_date="2024-12-04",  # initial commit of hf model.
     languages=LANGUAGES_V2_0,
@@ -317,6 +324,7 @@ arctic_embed_m_v2_0 = ModelMeta(
 arctic_embed_l_v2_0 = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-l-v2.0",
+    model_type=["dense"],
     revision="edc2df7b6c25794b340229ca082e7c78782e6374",
     release_date="2024-12-04",  # initial commit of hf model.
     languages=LANGUAGES_V2_0,

mteb/models/model_implementations/b1ade_models.py CHANGED Viewed

@@ -10,6 +10,7 @@ b1ade_training_data = {
 b1ade_embed = ModelMeta(
     loader=sentence_transformers_loader,
     name="w601sxs/b1ade-embed",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="3bdac13927fdc888b903db93b2ffdbd90b295a69",
     open_weights=True,

mteb/models/model_implementations/bedrock_models.py CHANGED Viewed

@@ -155,6 +155,7 @@ class BedrockModel(AbsEncoder):
 amazon_titan_embed_text_v1 = ModelMeta(
     name="bedrock/amazon-titan-embed-text-v1",
+    model_type=["dense"],
     revision="1",
     release_date="2023-09-27",
     languages=None,  # not specified
@@ -181,6 +182,7 @@ amazon_titan_embed_text_v1 = ModelMeta(
 amazon_titan_embed_text_v2 = ModelMeta(
     name="bedrock/amazon-titan-embed-text-v2",
+    model_type=["dense"],
     revision="1",
     release_date="2024-04-30",
     languages=None,  # not specified
@@ -216,6 +218,7 @@ cohere_embed_english_v3 = ModelMeta(
         model_prompts=cohere_model_prompts,
     ),
     name="bedrock/cohere-embed-english-v3",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=False,
     reference="https://cohere.com/blog/introducing-embed-v3",
@@ -243,6 +246,7 @@ cohere_embed_multilingual_v3 = ModelMeta(
         model_prompts=cohere_model_prompts,
     ),
     name="bedrock/cohere-embed-multilingual-v3",
+    model_type=["dense"],
     languages=cohere_supported_languages,
     open_weights=False,
     reference="https://cohere.com/blog/introducing-embed-v3",

mteb/models/model_implementations/bge_models.py CHANGED Viewed

@@ -319,6 +319,7 @@ bge_small_en_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-small-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="5c38ec7c405ec4b44b94cc5a9bb96e735b38267a",
@@ -344,6 +345,7 @@ bge_base_en_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-base-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="a5beb1e3e68b9ab74eb54cfd186867f64f240e1a",
@@ -369,6 +371,7 @@ bge_large_en_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-large-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="d4aa6901d3a41ba39fb536a557fa166f842b0e09",
@@ -394,6 +397,7 @@ bge_small_zh = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-small-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="1d2363c5de6ce9ba9c890c8e23a4c72dce540ca8",
@@ -411,6 +415,7 @@ bge_small_zh = ModelMeta(
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
     superseded_by="BAAI/bge-small-zh-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_base_zh = ModelMeta(
@@ -419,6 +424,7 @@ bge_base_zh = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-base-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="0e5f83d4895db7955e4cb9ed37ab73f7ded339b6",
@@ -436,6 +442,7 @@ bge_base_zh = ModelMeta(
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
     superseded_by="BAAI/bge-base-zh-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_large_zh = ModelMeta(
@@ -444,6 +451,7 @@ bge_large_zh = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-large-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="b5d9f5c027e87b6f0b6fa4b614f8f9cdc45ce0e8",
@@ -461,6 +469,7 @@ bge_large_zh = ModelMeta(
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
     superseded_by="BAAI/bge-large-zh-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_small_en = ModelMeta(
@@ -469,6 +478,7 @@ bge_small_en = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-small-en",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="4778d71a06863076696b03fd2777eb118712cad8",
@@ -486,6 +496,7 @@ bge_small_en = ModelMeta(
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
     training_datasets=bge_training_data,
     superseded_by="BAAI/bge-small-en-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_base_en = ModelMeta(
@@ -494,6 +505,7 @@ bge_base_en = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-base-en",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b737bf5dcc6ee8bdc530531266b4804a5d77b5d8",
@@ -511,6 +523,7 @@ bge_base_en = ModelMeta(
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
     training_datasets=bge_training_data,
     superseded_by="BAAI/bge-base-en-v1.5",
+    citation=BGE_15_CITATION,
 )
 bge_large_en = ModelMeta(
@@ -519,6 +532,7 @@ bge_large_en = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="BAAI/bge-large-en",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="abe7d9d814b775ca171121fb03f394dc42974275",
@@ -536,6 +550,7 @@ bge_large_en = ModelMeta(
     public_training_data="https://data.baai.ac.cn/details/BAAI-MTP",
     training_datasets=bge_training_data,
     superseded_by="BAAI/bge-large-en-v1.5",
+    citation=BGE_15_CITATION,
 )
@@ -545,6 +560,7 @@ bge_small_zh_v1_5 = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-small-zh-v1.5",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="7999e1d3359715c523056ef9478215996d62a620",
@@ -561,6 +577,7 @@ bge_small_zh_v1_5 = ModelMeta(
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
+    citation=BGE_15_CITATION,
 )
 bge_base_zh_v1_5 = ModelMeta(
@@ -569,6 +586,7 @@ bge_base_zh_v1_5 = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-base-zh-v1.5",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="f03589ceff5aac7111bd60cfc7d497ca17ecac65",
@@ -585,6 +603,7 @@ bge_base_zh_v1_5 = ModelMeta(
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
+    citation=BGE_15_CITATION,
 )
 bge_large_zh_v1_5 = ModelMeta(
@@ -593,6 +612,7 @@ bge_large_zh_v1_5 = ModelMeta(
         model_prompts=model_prompts_zh,
     ),
     name="BAAI/bge-large-zh-v1.5",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="79e7739b6ab944e86d6171e44d24c997fc1e0116",
@@ -609,11 +629,13 @@ bge_large_zh_v1_5 = ModelMeta(
     public_training_code=None,
     public_training_data=None,
     training_datasets=bge_chinese_training_data,
+    citation=BGE_15_CITATION,
 )
 bge_m3 = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-m3",
+    model_type=["dense"],
     languages=bgem3_languages,
     open_weights=True,
     revision="5617a9f61b028005a4858fdac845db406aefb181",
@@ -630,6 +652,14 @@ bge_m3 = ModelMeta(
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
     training_datasets=bge_m3_training_data,
+    citation="""@misc{bge-m3,
+      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
+      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
+      year={2024},
+      eprint={2402.03216},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
 )
 # Contents of cfli/bge-full-data
@@ -692,6 +722,7 @@ bge_full_data = {
 bge_multilingual_gemma2 = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-multilingual-gemma2",
+    model_type=["dense"],
     languages=[
         "eng-Latn",
         "zho-Hans",
@@ -722,11 +753,30 @@ bge_multilingual_gemma2 = ModelMeta(
     }
     | bge_full_data
     | bge_m3_training_data,
+    citation="""@misc{bge-m3,
+      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
+      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
+      year={2024},
+      eprint={2402.03216},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}
+@misc{bge_embedding,
+      title={C-Pack: Packaged Resources To Advance General Chinese Embedding},
+      author={Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff},
+      year={2023},
+      eprint={2309.07597},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
 )
 bge_en_icl = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-en-icl",
+    model_type=["dense"],
     languages=[
         "eng-Latn",
     ],
@@ -762,6 +812,7 @@ bge_en_icl = ModelMeta(
 bge_m3_unsupervised = ModelMeta(
     loader=sentence_transformers_loader,
     name="BAAI/bge-m3-unsupervised",
+    model_type=["dense"],
     languages=bgem3_languages,
     open_weights=True,
     revision="46f03bc86361cf88102b0b517b36c8259f2946b1",
@@ -778,10 +829,19 @@ bge_m3_unsupervised = ModelMeta(
     public_training_code="https://github.com/FlagOpen/FlagEmbedding",
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
     training_datasets=bge_m3_training_data,
+    citation="""@misc{bge-m3,
+      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
+      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
+      year={2024},
+      eprint={2402.03216},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
 )
 manu__bge_m3_custom_fr = ModelMeta(
     name="manu/bge-m3-custom-fr",
+    model_type=["dense"],
     revision="ed3ef88678ba83ddf4c0fab71a93cb90d89a9078",
     release_date="2024-04-11",
     languages=None,

mteb/models/model_implementations/bica_model.py ADDED Viewed

@@ -0,0 +1,35 @@
+from mteb.models import ModelMeta, sentence_transformers_loader
+bica_base = ModelMeta(
+    name="bisectgroup/BiCA-base",
+    model_type=["dense"],
+    loader=sentence_transformers_loader,
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="31237a836e5ae908c308a256573e5f0986498574",
+    release_date="2025-11-14",
+    n_parameters=110_000_000,
+    memory_usage_mb=418,
+    embed_dim=768,
+    license="mit",
+    max_tokens=512,
+    reference="https://huggingface.co/bisectgroup/BiCA-base",
+    similarity_fn_name="cosine",
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=False,
+    public_training_code="https://github.com/NiravBhattLab/BiCA",
+    public_training_data="https://huggingface.co/datasets/bisectgroup/hard-negatives-traversal",
+    adapted_from="thenlper/gte-base",
+    citation="""
+@misc{sinha2025bicaeffectivebiomedicaldense,
+      title={BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives},
+      author={Aarush Sinha and Pavan Kumar S and Roshan Balaji and Nirav Pravinbhai Bhatt},
+      year={2025},
+      eprint={2511.08029},
+      archivePrefix={arXiv},
+      primaryClass={cs.IR},
+      url={https://arxiv.org/abs/2511.08029},
+}
+""",
+    training_datasets=set(),
+)

mteb/models/model_implementations/blip2_models.py CHANGED Viewed

@@ -10,6 +10,13 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+BLIP2_CITATION = """@inproceedings{li2023blip2,
+    title={{BLIP-2:} Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models},
+    author={Junnan Li and Dongxu Li and Silvio Savarese and Steven Hoi},
+    year={2023},
+    booktitle={ICML},
+}"""
 def blip2_loader(model_name, **kwargs):
     requires_package(
@@ -159,6 +166,7 @@ blip2_training_datasets = set(
 blip2_opt_2_7b = ModelMeta(
     loader=blip2_loader,
     name="Salesforce/blip2-opt-2.7b",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="51572668da0eb669e01a189dc22abe6088589a24",
     release_date="2024-03-22",
@@ -176,11 +184,13 @@ blip2_opt_2_7b = ModelMeta(
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=False,
     training_datasets=blip2_training_datasets,
+    citation=BLIP2_CITATION,
 )
 blip2_opt_6_7b_coco = ModelMeta(
     loader=blip2_loader,
     name="Salesforce/blip2-opt-6.7b-coco",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="0d580de59320a25a4d2c386387bcef310d5f286e",
     release_date="2024-03-31",
@@ -198,4 +208,5 @@ blip2_opt_6_7b_coco = ModelMeta(
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=False,
     training_datasets=blip2_training_datasets,
+    citation=BLIP2_CITATION,
 )

mteb/models/model_implementations/blip_models.py CHANGED Viewed

@@ -10,6 +10,17 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+BLIP_CITATION = """@misc{https://doi.org/10.48550/arxiv.2201.12086,
+    doi = {10.48550/ARXIV.2201.12086},
+    url = {https://arxiv.org/abs/2201.12086},
+    author = {Li, Junnan and Li, Dongxu and Xiong, Caiming and Hoi, Steven},
+    keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
+    title = {BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation},
+    publisher = {arXiv},
+    year = {2022},
+    copyright = {Creative Commons Attribution 4.0 International}
+}"""
 class BLIPModel(AbsEncoder):
     def __init__(
@@ -119,6 +130,7 @@ class BLIPModel(AbsEncoder):
 blip_image_captioning_large = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-image-captioning-large",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="2227ac38c9f16105cb0412e7cab4759978a8fd90",
     release_date="2023-12-07",
@@ -140,11 +152,13 @@ blip_image_captioning_large = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )
 blip_image_captioning_base = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-image-captioning-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="89b09ea1789f7addf2f6d6f0dfc4ce10ab58ef84",
     release_date="2023-08-01",
@@ -166,12 +180,14 @@ blip_image_captioning_base = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )
 blip_vqa_base = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-vqa-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="c7df8e7cd7aa2ee9af18f56e2b29e59a92651b64",
     release_date="2023-12-07",
@@ -192,11 +208,13 @@ blip_vqa_base = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )
 blip_vqa_capfilt_large = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-vqa-capfilt-large",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="e53f95265aeab69013fabb5380500ab984adbbb4",
     release_date="2023-01-22",
@@ -217,11 +235,13 @@ blip_vqa_capfilt_large = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )
 blip_itm_base_coco = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-itm-base-coco",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="7eaa90c11850c0b17fc38c6a11e7d88bd6ac231f",
     release_date="2023-08-01",
@@ -242,11 +262,13 @@ blip_itm_base_coco = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )
 blip_itm_large_coco = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-itm-large-coco",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="fef05cafc05298067cbbca00b125749394a77a6f",
     release_date="2023-08-01",
@@ -268,11 +290,13 @@ blip_itm_large_coco = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )
 blip_itm_base_flickr = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-itm-base-flickr",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="1de29e660d91ae1786c1876212ea805a22eab251",
     release_date="2023-08-01",
@@ -294,11 +318,13 @@ blip_itm_base_flickr = ModelMeta(
         # LAION115M
         # Flickr30k
     ),
+    citation=BLIP_CITATION,
 )
 blip_itm_large_flickr = ModelMeta(
     loader=BLIPModel,  # type: ignore
     name="Salesforce/blip-itm-large-flickr",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="bda12e6506758f54261b5ab174b2c55a3ba143fb",
     release_date="2023-08-01",
@@ -319,4 +345,5 @@ blip_itm_large_flickr = ModelMeta(
         # CC3M+CC12M+SBU
         # LAION115M
     ),
+    citation=BLIP_CITATION,
 )

mteb/models/model_implementations/bm25.py CHANGED Viewed

@@ -121,6 +121,7 @@ def bm25_loader(model_name, **kwargs) -> SearchProtocol:
 bm25_s = ModelMeta(
     loader=bm25_loader,
     name="bm25s",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="0_1_10",

mteb/models/model_implementations/bmretriever_models.py CHANGED Viewed

@@ -90,6 +90,7 @@ BMRetriever_410M = ModelMeta(
         apply_instruction_to_passages=True,
     ),
     name="BMRetriever/BMRetriever-410M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="e3569bfbcfe3a1bc48c142e11a7b0f38e86065a3",
@@ -119,6 +120,7 @@ BMRetriever_1B = ModelMeta(
         apply_instruction_to_passages=True,
     ),
     name="BMRetriever/BMRetriever-1B",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="1b758c5f4d3af48ef6035cc4088bdbcd7df43ca6",
@@ -148,6 +150,7 @@ BMRetriever_2B = ModelMeta(
         apply_instruction_to_passages=True,
     ),
     name="BMRetriever/BMRetriever-2B",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="718179afd57926369c347f46eee616db81084941",
@@ -177,6 +180,7 @@ BMRetriever_7B = ModelMeta(
         apply_instruction_to_passages=True,
     ),
     name="BMRetriever/BMRetriever-7B",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="13e6adb9273c5f254e037987d6b44e9e4b005b9a",

mteb/models/model_implementations/cadet_models.py CHANGED Viewed

@@ -3,6 +3,13 @@ from mteb.models.sentence_transformer_wrapper import sentence_transformers_loade
 from .bge_models import bge_m3_training_data
+CADET_CITATION = """@article{tamber2025conventionalcontrastivelearningfalls,
+    title={Conventional Contrastive Learning Often Falls Short: Improving Dense Retrieval with Cross-Encoder Listwise Distillation and Synthetic Data},
+    author={Manveer Singh Tamber and Suleman Kazi and Vivek Sourabh and Jimmy Lin},
+    journal={arXiv:2505.19274},
+    year={2025}
+}"""
 cadet_training_data = {
     # we train with the corpora of FEVER, MSMARCO, and DBPEDIA. We only train with synthetic generated queries.
     # However, we do use queries from MSMARCO as examples for synthetic query generation.
@@ -28,6 +35,7 @@ cadet_embed = ModelMeta(
         },
     ),
     name="manveertamber/cadet-embed-base-v1",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="8056d118be37a566f20972a5f35cda815f6bc47e",
     open_weights=True,
@@ -46,4 +54,5 @@ cadet_embed = ModelMeta(
     public_training_data="https://github.com/manveertamber/cadet-dense-retrieval",
     training_datasets=cadet_training_data,
     adapted_from="intfloat/e5-base-unsupervised",
+    citation=CADET_CITATION,
 )

mteb/models/model_implementations/cde_models.py CHANGED Viewed

@@ -24,6 +24,16 @@ if TYPE_CHECKING:
     )
 logger = logging.getLogger(__name__)
+CDE_CITATION = """@misc{morris2024contextualdocumentembeddings,
+    title={Contextual Document Embeddings},
+    author={John X. Morris and Alexander M. Rush},
+    year={2024},
+    eprint={2410.02525},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL},
+    url={https://arxiv.org/abs/2410.02525},
+}"""
 class CDEWrapper(SentenceTransformerEncoderWrapper):
     dataset_embeddings: torch.Tensor | None = None
@@ -199,6 +209,7 @@ cde_small_v1 = ModelMeta(
         trust_remote_code=True,
     ),
     name="jxm/cde-small-v1",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="e151df18af0d7f1d1c37b074fee58406ececf19f",
@@ -217,6 +228,7 @@ cde_small_v1 = ModelMeta(
     training_datasets=bge_full_data,
     public_training_code="https://github.com/jxmorris12/cde",
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
+    citation=CDE_CITATION,
 )
 cde_small_v2 = ModelMeta(
@@ -226,6 +238,7 @@ cde_small_v2 = ModelMeta(
         trust_remote_code=True,
     ),
     name="jxm/cde-small-v2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="4e1d021a6c3fd7ce8aa0a7204057eee5ae61d390",
@@ -244,4 +257,5 @@ cde_small_v2 = ModelMeta(
     training_datasets=bge_full_data,
     public_training_code="https://github.com/jxmorris12/cde",
     public_training_data="https://huggingface.co/datasets/cfli/bge-full-data",
+    citation=CDE_CITATION,
 )

mteb 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl