PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (458) hide show

mteb/models/model_implementations/rerankers_custom.py CHANGED Viewed

@@ -219,6 +219,7 @@ monobert_large = ModelMeta(
         fp_options="float16",
     ),
     name="castorini/monobert-large-msmarco",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="0a97706f3827389da43b83348d5d18c9d53876fa",
@@ -234,7 +235,6 @@ monobert_large = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["Sentence Transformers", "PyTorch"],
-    is_cross_encoder=True,
 )
 # languages unclear: https://huggingface.co/jinaai/jina-reranker-v2-base-multilingual/discussions/28
@@ -244,6 +244,7 @@ jina_reranker_multilingual = ModelMeta(
         fp_options="float16",
     ),
     name="jinaai/jina-reranker-v2-base-multilingual",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="126747772a932960028d9f4dc93bd5d9c4869be4",
@@ -259,7 +260,6 @@ jina_reranker_multilingual = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["Sentence Transformers", "PyTorch"],
-    is_cross_encoder=True,
 )
 bge_reranker_v2_m3 = ModelMeta(
@@ -268,6 +268,7 @@ bge_reranker_v2_m3 = ModelMeta(
         fp_options="float16",
     ),
     name="BAAI/bge-reranker-v2-m3",
+    model_type=["cross-encoder"],
     languages=[
         "eng-Latn",
         "ara-Arab",
@@ -316,7 +317,6 @@ bge_reranker_v2_m3 = ModelMeta(
     use_instructions=None,
     training_datasets=bge_m3_training_data,
     framework=["Sentence Transformers", "PyTorch"],
-    is_cross_encoder=True,
     citation="""
     @misc{li2023making,
       title={Making Large Language Models A Better Foundation For Dense Retrieval},

mteb/models/model_implementations/rerankers_monot5_based.py CHANGED Viewed

@@ -315,6 +315,7 @@ monot5_small = ModelMeta(
         fp_options="float16",
     ),
     name="castorini/monot5-small-msmarco-10k",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="77f8e3f7b1eb1afe353aa21a7c3a2fc8feca702e",
@@ -330,7 +331,6 @@ monot5_small = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
     citation="""@misc{rosa2022parameterleftbehinddistillation,
       title={No Parameter Left Behind: How Distillation and Model Size Affect Zero-Shot Retrieval},
       author={Guilherme Moraes Rosa and Luiz Bonifacio and Vitor Jeronymo and Hugo Abonizio and Marzieh Fadaee and Roberto Lotufo and Rodrigo Nogueira},
@@ -348,6 +348,7 @@ monot5_base = ModelMeta(
         fp_options="float16",
     ),
     name="castorini/monot5-base-msmarco-10k",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="f15657ab3d2a5dd0b9a30c8c0b6a0a73c9cb5884",
@@ -372,7 +373,6 @@ monot5_base = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
 monot5_large = ModelMeta(
@@ -381,6 +381,7 @@ monot5_large = ModelMeta(
         fp_options="float16",
     ),
     name="castorini/monot5-large-msmarco-10k",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="48cfad1d8dd587670393f27ee8ec41fde63e3d98",
@@ -396,7 +397,6 @@ monot5_large = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
     citation="""@misc{rosa2022parameterleftbehinddistillation,
       title={No Parameter Left Behind: How Distillation and Model Size Affect Zero-Shot Retrieval},
       author={Guilherme Moraes Rosa and Luiz Bonifacio and Vitor Jeronymo and Hugo Abonizio and Marzieh Fadaee and Roberto Lotufo and Rodrigo Nogueira},
@@ -414,6 +414,7 @@ monot5_3b = ModelMeta(
         fp_options="float16",
     ),
     name="castorini/monot5-3b-msmarco-10k",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="bc0c419a438c81f592f878ce32430a1823f5db6c",
@@ -429,7 +430,6 @@ monot5_3b = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
     citation="""@misc{rosa2022parameterleftbehinddistillation,
       title={No Parameter Left Behind: How Distillation and Model Size Affect Zero-Shot Retrieval},
       author={Guilherme Moraes Rosa and Luiz Bonifacio and Vitor Jeronymo and Hugo Abonizio and Marzieh Fadaee and Roberto Lotufo and Rodrigo Nogueira},
@@ -447,6 +447,7 @@ flant5_base = ModelMeta(
         fp_options="float16",
     ),
     name="google/flan-t5-base",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="7bcac572ce56db69c1ea7c8af255c5d7c9672fc2",
@@ -484,7 +485,6 @@ flant5_base = ModelMeta(
     similarity_fn_name=None,
     use_instructions=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
 flant5_large = ModelMeta(
@@ -493,6 +493,7 @@ flant5_large = ModelMeta(
         fp_options="float16",
     ),
     name="google/flan-t5-large",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="0613663d0d48ea86ba8cb3d7a44f0f65dc596a2a",
@@ -530,7 +531,6 @@ flant5_large = ModelMeta(
     similarity_fn_name=None,
     use_instructions=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
 flant5_xl = ModelMeta(
@@ -539,6 +539,7 @@ flant5_xl = ModelMeta(
         fp_options="float16",
     ),
     name="google/flan-t5-xl",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="7d6315df2c2fb742f0f5b556879d730926ca9001",
@@ -576,7 +577,6 @@ flant5_xl = ModelMeta(
     similarity_fn_name=None,
     use_instructions=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
 flant5_xxl = ModelMeta(
@@ -585,6 +585,7 @@ flant5_xxl = ModelMeta(
         fp_options="float16",
     ),
     name="google/flan-t5-xxl",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="ae7c9136adc7555eeccc78cdd960dfd60fb346ce",
@@ -622,7 +623,6 @@ flant5_xxl = ModelMeta(
     similarity_fn_name=None,
     use_instructions=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
@@ -632,6 +632,7 @@ llama2_7b = ModelMeta(
         fp_options="float16",
     ),
     name="meta-llama/Llama-2-7b-hf",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="01c7f73d771dfac7d292323805ebc428287df4f9",
@@ -656,7 +657,6 @@ llama2_7b = ModelMeta(
       primaryClass={cs.CL},
       url={https://arxiv.org/abs/2307.09288},
     }""",
-    is_cross_encoder=True,
 )
 llama2_7b_chat = ModelMeta(
@@ -665,6 +665,7 @@ llama2_7b_chat = ModelMeta(
         fp_options="float16",
     ),
     name="meta-llama/Llama-2-7b-chat-hf",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="f5db02db724555f92da89c216ac04704f23d4590",
@@ -689,7 +690,6 @@ llama2_7b_chat = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
 mistral_7b = ModelMeta(
@@ -698,6 +698,7 @@ mistral_7b = ModelMeta(
         fp_options="float16",
     ),
     name="mistralai/Mistral-7B-Instruct-v0.2",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="3ad372fc79158a2148299e3318516c786aeded6c",
@@ -722,7 +723,6 @@ mistral_7b = ModelMeta(
       primaryClass={cs.CL},
       url={https://arxiv.org/abs/2310.06825},
     }""",
-    is_cross_encoder=True,
 )
 followir_7b = ModelMeta(
@@ -731,6 +731,7 @@ followir_7b = ModelMeta(
         fp_options="float16",
     ),
     name="jhu-clsp/FollowIR-7B",
+    model_type=["cross-encoder"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="4d25d437e38b510c01852070c0731e8f6e1875d1",
@@ -758,7 +759,6 @@ followir_7b = ModelMeta(
       primaryClass={cs.IR}
     }
     """,
-    is_cross_encoder=True,
 )
@@ -874,6 +874,7 @@ mt5_base_mmarco_v2 = ModelMeta(
         fp_options="float16",
     ),
     name="unicamp-dl/mt5-base-mmarco-v2",
+    model_type=["cross-encoder"],
     languages=mt5_languages,
     open_weights=True,
     revision="cc0a949b9f21efcaba45c8cabb998ad02ce8d4e7",
@@ -898,7 +899,6 @@ mt5_base_mmarco_v2 = ModelMeta(
     similarity_fn_name=None,
     use_instructions=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )
 mt5_13b_mmarco_100k = ModelMeta(
@@ -907,6 +907,7 @@ mt5_13b_mmarco_100k = ModelMeta(
         fp_options="float16",
     ),
     name="unicamp-dl/mt5-13b-mmarco-100k",
+    model_type=["cross-encoder"],
     languages=mt5_languages,
     open_weights=True,
     revision="e1a4317e102a525ea9e16745ad21394a4f1bffbc",
@@ -922,5 +923,4 @@ mt5_13b_mmarco_100k = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     framework=["PyTorch"],
-    is_cross_encoder=True,
 )

mteb/models/model_implementations/richinfoai_models.py CHANGED Viewed

@@ -9,6 +9,7 @@ from .stella_models import stella_zh_datasets
 ritrieve_zh_v1 = ModelMeta(
     loader=SentenceTransformerEncoderWrapper,
     name="richinfoai/ritrieve_zh_v1",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="f8d5a707656c55705027678e311f9202c8ced12c",

mteb/models/model_implementations/ru_sentence_models.py CHANGED Viewed

@@ -43,6 +43,10 @@ GIGA_task_prompts = {
         "query": "Given a news title, retrieve relevant news article",
         "document": "",
     },
+    "RiaNewsRetrievalHardNegatives.v2": {
+        "query": "Given a news title, retrieve relevant news article",
+        "document": "",
+    },
     "MIRACLReranking": {
         "query": "Given a question, retrieve Wikipedia passages that answer the question",
         "document": "",
@@ -51,6 +55,10 @@ GIGA_task_prompts = {
         "query": "Given a question, retrieve Wikipedia passages that answer the question",
         "document": "",
     },
+    "MIRACLRetrievalHardNegatives.v2": {
+        "query": "Given a question, retrieve Wikipedia passages that answer the question",
+        "document": "",
+    },
     "ArguAna": {
         "query": "Given a search query, retrieve passages that answer the question",
         "document": "Given a search query, retrieve passages that answer the question",
@@ -230,6 +238,7 @@ GIGA_task_prompts = {
 rubert_tiny = ModelMeta(
     loader=sentence_transformers_loader,
     name="cointegrated/rubert-tiny",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="5441c5ea8026d4f6d7505ec004845409f1259fb1",
@@ -255,6 +264,7 @@ rubert_tiny = ModelMeta(
 rubert_tiny2 = ModelMeta(
     loader=sentence_transformers_loader,
     name="cointegrated/rubert-tiny2",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="dad72b8f77c5eef6995dd3e4691b758ba56b90c3",
@@ -281,6 +291,7 @@ rubert_tiny2 = ModelMeta(
 sbert_large_nlu_ru = ModelMeta(
     loader=sentence_transformers_loader,
     name="ai-forever/sbert_large_nlu_ru",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="af977d5dfa46a3635e29bf0ef383f2df2a08d47a",
@@ -306,6 +317,7 @@ sbert_large_nlu_ru = ModelMeta(
 sbert_large_mt_nlu_ru = ModelMeta(
     loader=sentence_transformers_loader,
     name="ai-forever/sbert_large_mt_nlu_ru",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="05300876c2b83f46d3ddd422a7f17e45cf633bb0",
@@ -333,6 +345,7 @@ user_base_ru = ModelMeta(
         model_prompts={"query": "query: ", "document": "passage: "},
     ),
     name="deepvk/USER-base",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="436a489a2087d61aa670b3496a9915f84e46c861",
@@ -393,6 +406,7 @@ user_base_ru = ModelMeta(
 user_bge_m3 = ModelMeta(
     loader=sentence_transformers_loader,
     name="deepvk/USER-bge-m3",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="0cc6cfe48e260fb0474c753087a69369e88709ae",
@@ -431,11 +445,19 @@ user_bge_m3 = ModelMeta(
     },
     public_training_code=None,
     public_training_data=None,
+    citation="""@misc{deepvk2024user,
+    title={USER: Universal Sentence Encoder for Russian},
+    author={Malashenko, Boris and  Zemerov, Anton and Spirin, Egor},
+    url={https://huggingface.co/datasets/deepvk/USER-base},
+    publisher={Hugging Face},
+    year={2024},
+}""",
 )
 deberta_v1_ru = ModelMeta(
     loader=sentence_transformers_loader,
     name="deepvk/deberta-v1-base",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="bdd30b0e19757e6940c92c7aff19e8fc0a60dff4",
@@ -466,6 +488,7 @@ deberta_v1_ru = ModelMeta(
 rubert_base_cased = ModelMeta(
     loader=sentence_transformers_loader,
     name="DeepPavlov/rubert-base-cased",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="4036cab694767a299f2b9e6492909664d9414229",
@@ -501,6 +524,7 @@ rubert_base_cased = ModelMeta(
 distilrubert_small_cased_conversational = ModelMeta(
     loader=sentence_transformers_loader,
     name="DeepPavlov/distilrubert-small-cased-conversational",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="e348066b4a7279b97138038299bddc6580a9169a",
@@ -535,6 +559,7 @@ distilrubert_small_cased_conversational = ModelMeta(
 rubert_base_cased_sentence = ModelMeta(
     loader=sentence_transformers_loader,
     name="DeepPavlov/rubert-base-cased-sentence",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="78b5122d6365337dd4114281b0d08cd1edbb3bc8",
@@ -559,6 +584,7 @@ rubert_base_cased_sentence = ModelMeta(
 labse_en_ru = ModelMeta(
     loader=sentence_transformers_loader,
     name="cointegrated/LaBSE-en-ru",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="cf0714e606d4af551e14ad69a7929cd6b0da7f7e",
@@ -586,6 +612,7 @@ turbo_models_datasets = set(
 rubert_tiny_turbo = ModelMeta(
     loader=sentence_transformers_loader,
     name="sergeyzh/rubert-tiny-turbo",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="8ce0cf757446ce9bb2d5f5a4ac8103c7a1049054",
@@ -608,6 +635,7 @@ rubert_tiny_turbo = ModelMeta(
 rubert_mini_frida = ModelMeta(
     loader=sentence_transformers_loader,
     name="sergeyzh/rubert-mini-frida",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="19b279b78afd945b5ccae78f63e284909814adc2",
@@ -635,6 +663,7 @@ rubert_mini_frida = ModelMeta(
 labse_ru_turbo = ModelMeta(
     loader=sentence_transformers_loader,
     name="sergeyzh/LaBSE-ru-turbo",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="1940b046c6b5e125df11722b899130329d0a46da",
@@ -683,6 +712,7 @@ rosberta_ru_en = ModelMeta(
         model_prompts=rosberta_prompts,
     ),
     name="ai-forever/ru-en-RoSBERTa",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="89fb1651989adbb1cfcfdedafd7d102951ad0555",
@@ -755,6 +785,7 @@ frida_prompts = {
     "SensitiveTopicsClassification": "categorize_topic: ",
     "TERRa": "categorize_entailment: ",
     "RiaNewsRetrieval": "categorize: ",
+    "RiaNewsRetrievalHardNegatives.v2": "",
 }
 frida_training_datasets = {
@@ -847,6 +878,7 @@ frida = ModelMeta(
         model_prompts=frida_prompts,
     ),
     name="ai-forever/FRIDA",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="7292217af9a9e6dbf07048f76b434ad1e2aa8b76",
@@ -864,6 +896,7 @@ frida = ModelMeta(
     public_training_data=None,
     public_training_code=None,
     framework=["Sentence Transformers", "PyTorch"],
+    citation=None,
 )
 giga_embeddings = ModelMeta(
@@ -879,6 +912,7 @@ giga_embeddings = ModelMeta(
         },
     ),
     name="ai-sage/Giga-Embeddings-instruct",
+    model_type=["dense"],
     languages=["eng-Latn", "rus-Cyrl"],
     open_weights=True,
     revision="0ad5b29bfecd806cecc9d66b927d828a736594dc",
@@ -910,6 +944,7 @@ berta_training_datasets = (
 berta = ModelMeta(
     loader=sentence_transformers_loader,
     name="sergeyzh/BERTA",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="914c8c8aed14042ed890fc2c662d5e9e66b2faa7",
@@ -982,6 +1017,7 @@ user2_small = ModelMeta(
         model_prompts=user2_prompts,
     ),
     name="deepvk/USER2-small",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="23f65b34cf7632032061f5cc66c14714e6d4cee4",
@@ -999,6 +1035,13 @@ user2_small = ModelMeta(
     public_training_data=None,
     public_training_code="https://github.com/BlessedTatonka/some_code/tree/2899f27d51efdf4217fc6453799ff197e9792f1e",
     framework=["Sentence Transformers", "PyTorch"],
+    citation="""@misc{deepvk2025user,
+    title={USER2},
+    author={Malashenko, Boris and Spirin, Egor and Sokolov Andrey},
+    url={https://huggingface.co/deepvk/USER2-small},
+    publisher={Hugging Face},
+    year={2025},
+}""",
 )
 user2_base = ModelMeta(
@@ -1007,6 +1050,7 @@ user2_base = ModelMeta(
         model_prompts=user2_prompts,
     ),
     name="deepvk/USER2-base",
+    model_type=["dense"],
     languages=["rus-Cyrl"],
     open_weights=True,
     revision="0942cf96909b6d52e61f79a01e2d30c7be640b27",
@@ -1024,4 +1068,11 @@ user2_base = ModelMeta(
     public_training_data=None,
     public_training_code="https://github.com/BlessedTatonka/some_code/tree/2899f27d51efdf4217fc6453799ff197e9792f1e",
     framework=["Sentence Transformers", "PyTorch"],
+    citation="""@misc{deepvk2025user,
+    title={USER2},
+    author={Malashenko, Boris and Spirin, Egor and Sokolov Andrey},
+    url={https://huggingface.co/deepvk/USER2-base},
+    publisher={Hugging Face},
+    year={2025},
+}""",
 )

mteb 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl