PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (527) hide show

mteb/models/model_implementations/gte_models.py CHANGED Viewed

@@ -42,6 +42,7 @@ gte_qwen2_7b_instruct = ModelMeta(
         embed_eos="<|endoftext|>",
     ),
     name="Alibaba-NLP/gte-Qwen2-7B-instruct",
+    model_type=["dense"],
     languages=None,
     open_weights=True,
     revision="e26182b2122f4435e8b3ebecbf363990f409b45b",
@@ -52,7 +53,7 @@ gte_qwen2_7b_instruct = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/Alibaba-NLP/gte-Qwen2-7B-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     citation=GTE_CITATION,
     public_training_code=None,
@@ -73,6 +74,7 @@ gte_qwen1_5_7b_instruct = ModelMeta(
         embed_eos="<|endoftext|>",
     ),
     name="Alibaba-NLP/gte-Qwen1.5-7B-instruct",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="07d27e5226328010336563bc1b564a5e3436a298",
@@ -84,11 +86,17 @@ gte_qwen1_5_7b_instruct = ModelMeta(
     max_tokens=32_768,
     reference="https://huggingface.co/Alibaba-NLP/gte-Qwen1.5-7B-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 gte_qwen2_1_5b_instruct = ModelMeta(
@@ -103,6 +111,7 @@ gte_qwen2_1_5b_instruct = ModelMeta(
         embed_eos="<|endoftext|>",
     ),
     name="Alibaba-NLP/gte-Qwen2-1.5B-instruct",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="c6c1b92f4a3e1b92b326ad29dd3c8433457df8dd",
@@ -114,16 +123,23 @@ gte_qwen2_1_5b_instruct = ModelMeta(
     max_tokens=32_768,
     reference="https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
     training_datasets=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 gte_small_zh = ModelMeta(
     loader=sentence_transformers_loader,
     name="thenlper/gte-small-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="af7bd46fbb00b3a6963c8dd7f1786ddfbfbe973a",
@@ -135,16 +151,23 @@ gte_small_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/thenlper/gte-small-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
     training_datasets=None,  # Not disclosed
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 gte_base_zh = ModelMeta(
     loader=sentence_transformers_loader,
     name="thenlper/gte-base-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="71ab7947d6fac5b64aa299e6e40e6c2b2e85976c",
@@ -156,16 +179,23 @@ gte_base_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/thenlper/gte-base-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
     training_datasets=None,  # Not disclosed
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 gte_large_zh = ModelMeta(
     loader=sentence_transformers_loader,
     name="thenlper/gte-large-zh",
+    model_type=["dense"],
     languages=["zho-Hans"],
     open_weights=True,
     revision="64c364e579de308104a9b2c170ca009502f4f545",
@@ -177,11 +207,17 @@ gte_large_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/thenlper/gte-large-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
     training_datasets=None,  # Not disclosed
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 gte_multilingual_langs = [
@@ -288,6 +324,7 @@ gte_multi_training_data = {
 gte_multilingual_base = ModelMeta(
     loader=sentence_transformers_loader,
     name="Alibaba-NLP/gte-multilingual-base",
+    model_type=["dense"],
     languages=gte_multilingual_langs,
     open_weights=True,
     revision="ca1791e0bcc104f6db161f27de1340241b13c5a4",
@@ -299,16 +336,24 @@ gte_multilingual_base = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/Alibaba-NLP/gte-multilingual-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,  # couldn't find
     training_datasets=gte_multi_training_data,
+    citation="""@inproceedings{zhang2024mgte,
+  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
+  author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
+  booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
+  pages={1393--1412},
+  year={2024}
+}""",
 )
 gte_modernbert_base = ModelMeta(
     loader=sentence_transformers_loader,
     name="Alibaba-NLP/gte-modernbert-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="7ca8b4ca700621b67618669f5378fe5f5820b8e4",
@@ -320,17 +365,38 @@ gte_modernbert_base = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/Alibaba-NLP/gte-modernbert-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=False,
     public_training_code=None,  # couldn't find
     public_training_data=None,
     training_datasets=gte_multi_training_data,  # English part of gte_multi_training_data,
+    citation="""@inproceedings{zhang2024mgte,
+  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
+  author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
+  booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
+  pages={1393--1412},
+  year={2024}
+}
+@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 gte_base_en_v15 = ModelMeta(
     loader=sentence_transformers_loader,
     name="Alibaba-NLP/gte-base-en-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="a829fd0e060bb84554da0dfd354d0de0f7712b7f",  # can be any
@@ -342,11 +408,35 @@ gte_base_en_v15 = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/Alibaba-NLP/gte-base-en-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=False,
     superseded_by=None,
     adapted_from=None,
     public_training_code=None,
     public_training_data=None,
     training_datasets=None,
+    citation="""@misc{zhang2024mgte,
+  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
+  author={Xin Zhang and Yanzhao Zhang and Dingkun Long and Wen Xie and Ziqi Dai and Jialong Tang and Huan Lin and Baosong Yang and Pengjun Xie and Fei Huang and Meishan Zhang and Wenjie Li and Min Zhang},
+  year={2024},
+  eprint={2407.19669},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL},
+  url={https://arxiv.org/abs/2407.19669},
+}
+@misc{li2023gte,
+  title={Towards General Text Embeddings with Multi-stage Contrastive Learning},
+  author={Zehan Li and Xin Zhang and Yanzhao Zhang and Dingkun Long and Pengjun Xie and Meishan Zhang},
+  year={2023},
+  eprint={2308.03281},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL},
+  url={https://arxiv.org/abs/2308.03281},
+}""",
 )

mteb/models/model_implementations/hinvec_models.py CHANGED Viewed

@@ -37,6 +37,7 @@ Hinvec_bidir = ModelMeta(
         add_eos_token=True,
     ),
     name="Sailesh97/Hinvec",
+    model_type=["dense"],
     languages=["eng-Latn", "hin-Deva"],
     open_weights=True,
     revision="d4fc678720cc1b8c5d18599ce2d9a4d6090c8b6b",
@@ -48,7 +49,7 @@ Hinvec_bidir = ModelMeta(
     max_tokens=2048,
     reference="https://huggingface.co/Sailesh97/Hinvec",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     training_datasets=hinvec_training_datasets,
     public_training_code=None,

mteb/models/model_implementations/human.py CHANGED Viewed

@@ -3,6 +3,7 @@ from mteb.models import ModelMeta
 human = ModelMeta(
     loader=None,
     name="Human",
+    model_type=["dense"],
     languages=["eng-Latn", "ara-Arab", "rus-Cyrl", "dan-Latn", "nob-Latn"],
     open_weights=True,
     revision="2025_09_25",

mteb/models/model_implementations/ibm_granite_models.py CHANGED Viewed

@@ -94,6 +94,7 @@ granite_training_data = {
 granite_107m_multilingual = ModelMeta(
     loader=sentence_transformers_loader,
     name="ibm-granite/granite-embedding-107m-multilingual",
+    model_type=["dense"],
     languages=GRANITE_LANGUAGES,
     open_weights=True,
     revision="47db56afe692f731540413c67dd818ff492277e7",
@@ -105,7 +106,13 @@ granite_107m_multilingual = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-107m-multilingual",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -118,6 +125,7 @@ granite_107m_multilingual = ModelMeta(
 granite_278m_multilingual = ModelMeta(
     loader=sentence_transformers_loader,
     name="ibm-granite/granite-embedding-278m-multilingual",
+    model_type=["dense"],
     languages=GRANITE_LANGUAGES,
     open_weights=True,
     revision="84e3546b88b0cb69f8078608a1df558020bcbf1f",
@@ -129,7 +137,13 @@ granite_278m_multilingual = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-278m-multilingual",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -142,6 +156,7 @@ granite_278m_multilingual = ModelMeta(
 granite_30m_english = ModelMeta(
     loader=sentence_transformers_loader,
     name="ibm-granite/granite-embedding-30m-english",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="eddbb57470f896b5f8e2bfcb823d8f0e2d2024a5",
@@ -153,7 +168,13 @@ granite_30m_english = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-30m-english",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -166,6 +187,7 @@ granite_30m_english = ModelMeta(
 granite_125m_english = ModelMeta(
     loader=sentence_transformers_loader,
     name="ibm-granite/granite-embedding-125m-english",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="e48d3a5b47eaa18e3fe07d4676e187fd80f32730",
@@ -177,7 +199,13 @@ granite_125m_english = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-125m-english",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -191,6 +219,7 @@ granite_125m_english = ModelMeta(
 granite_english_r2 = ModelMeta(
     loader=sentence_transformers_loader,
     name="ibm-granite/granite-embedding-english-r2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="6e7b8ce0e76270394ac4669ba4bbd7133b60b7f9",
@@ -202,7 +231,7 @@ granite_english_r2 = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/ibm-granite/granite-embedding-english-r2",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -215,6 +244,7 @@ granite_english_r2 = ModelMeta(
 granite_small_english_r2 = ModelMeta(
     loader=sentence_transformers_loader,
     name="ibm-granite/granite-embedding-small-english-r2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="54a8d2616a0844355a5164432d3f6dafb37b17a3",
@@ -226,7 +256,7 @@ granite_small_english_r2 = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/ibm-granite/granite-embedding-small-english-r2",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,

mteb/models/model_implementations/inf_models.py CHANGED Viewed

@@ -50,6 +50,7 @@ inf_retriever_v1 = ModelMeta(
         trust_remote_code=True,
     ),
     name="infly/inf-retriever-v1",
+    model_type=["dense"],
     languages=["eng-Latn", "zho-Hans"],
     open_weights=True,
     revision="cb70ca7c31dfa866b2eff2dad229c144d8ddfd91",
@@ -61,7 +62,7 @@ inf_retriever_v1 = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/infly/inf-retriever-v1",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     adapted_from="Alibaba-NLP/gte-Qwen2-7B-instruct",
     public_training_code=None,
@@ -76,6 +77,7 @@ inf_retriever_v1_1_5b = ModelMeta(
         trust_remote_code=True,
     ),
     name="infly/inf-retriever-v1-1.5b",
+    model_type=["dense"],
     languages=["eng-Latn", "zho-Hans"],
     open_weights=True,
     revision="c9c05c2dd50707a486966ba81703021ae2094a06",
@@ -87,7 +89,7 @@ inf_retriever_v1_1_5b = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/infly/inf-retriever-v1-1.5b",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     adapted_from="Alibaba-NLP/gte-Qwen2-1.5B-instruct",
     public_training_code=None,

mteb 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl