PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (527) hide show

mteb/models/model_implementations/model2vec_models.py CHANGED Viewed

@@ -139,7 +139,7 @@ class Model2VecModel(AbsEncoder):
             **kwargs: Additional arguments to pass to the wrapper.
         """
         requires_package(self, "model2vec", model_name, "pip install 'mteb[model2vec]'")
-        from model2vec import StaticModel  # type: ignore
+        from model2vec import StaticModel
         self.model_name = model_name
         self.model = StaticModel.from_pretrained(self.model_name)
@@ -161,6 +161,7 @@ class Model2VecModel(AbsEncoder):
 m2v_base_glove_subword = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/M2V_base_glove_subword",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="5f4f5ca159b7321a8b39739bba0794fa0debddf4",
@@ -171,7 +172,7 @@ m2v_base_glove_subword = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_base_glove_subword",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -186,6 +187,7 @@ m2v_base_glove_subword = ModelMeta(
 m2v_base_glove = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/M2V_base_glove",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="38ebd7f10f71e67fa8db898290f92b82e9cfff2b",
@@ -196,7 +198,7 @@ m2v_base_glove = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_base_glove",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -210,6 +212,7 @@ m2v_base_glove = ModelMeta(
 m2v_base_output = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/M2V_base_output",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="02460ae401a22b09d2c6652e23371398329551e2",
@@ -220,7 +223,7 @@ m2v_base_output = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_base_output",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -234,6 +237,7 @@ m2v_base_output = ModelMeta(
 m2v_multilingual_output = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/M2V_multilingual_output",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="2cf4ec4e1f51aeca6c55cf9b93097d00711a6305",
@@ -244,7 +248,7 @@ m2v_multilingual_output = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_multilingual_output",
     use_instructions=False,
     adapted_from="sentence-transformers/LaBSE",
@@ -258,6 +262,7 @@ m2v_multilingual_output = ModelMeta(
 potion_base_2m = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/potion-base-2M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="86db093558fbced2072b929eb1690bce5272bd4b",
@@ -268,7 +273,7 @@ potion_base_2m = ModelMeta(
     embed_dim=64,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/potion-base-2M",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -282,6 +287,7 @@ potion_base_2m = ModelMeta(
 potion_base_4m = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/potion-base-4M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="81b1802ada41afcd0987a37dc15e569c9fa76f04",
@@ -292,7 +298,7 @@ potion_base_4m = ModelMeta(
     embed_dim=128,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/potion-base-4M",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -306,6 +312,7 @@ potion_base_4m = ModelMeta(
 potion_base_8m = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/potion-base-8M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="dcbec7aa2d52fc76754ac6291803feedd8c619ce",
@@ -316,7 +323,7 @@ potion_base_8m = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/potion-base-8M",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -330,6 +337,7 @@ potion_base_8m = ModelMeta(
 potion_multilingual_128m = ModelMeta(
     loader=Model2VecModel,
     name="minishlab/potion-multilingual-128M",
+    model_type=["dense"],
     languages=_POTION_MULTILINGUAL_128M_LANGUAGES,
     open_weights=True,
     revision="38ebd7f10f71e67fa8db898290f92b82e9cfff2a",
@@ -340,7 +348,7 @@ potion_multilingual_128m = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "ONNX", "safetensors", "Sentence Transformers"],
     reference="https://huggingface.co/minishlab/potion-multilingual-128M",
     use_instructions=False,
     adapted_from="BAAI/bge-m3",
@@ -354,6 +362,7 @@ potion_multilingual_128m = ModelMeta(
 pubmed_bert_100k = ModelMeta(
     loader=Model2VecModel,
     name="NeuML/pubmedbert-base-embeddings-100K",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="bac5e3b12fb8c650e92a19c41b436732c4f16e9e",
@@ -364,7 +373,7 @@ pubmed_bert_100k = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-100K",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -377,6 +386,7 @@ pubmed_bert_100k = ModelMeta(
 pubmed_bert_500k = ModelMeta(
     loader=Model2VecModel,
     name="NeuML/pubmedbert-base-embeddings-500K",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="34ba71e35c393fdad7ed695113f653feb407b16b",
@@ -387,7 +397,7 @@ pubmed_bert_500k = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-500K",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -400,6 +410,7 @@ pubmed_bert_500k = ModelMeta(
 pubmed_bert_1m = ModelMeta(
     loader=Model2VecModel,
     name="NeuML/pubmedbert-base-embeddings-1M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="2b7fed222594708da6d88bcda92ae9b434b7ddd1",
@@ -410,7 +421,7 @@ pubmed_bert_1m = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-1M",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -423,6 +434,7 @@ pubmed_bert_1m = ModelMeta(
 pubmed_bert_2m = ModelMeta(
     loader=Model2VecModel,
     name="NeuML/pubmedbert-base-embeddings-2M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="1d7bbe04d6713e425161146bfdc71473cbed498a",
@@ -433,7 +445,7 @@ pubmed_bert_2m = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-2M",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -446,6 +458,7 @@ pubmed_bert_2m = ModelMeta(
 pubmed_bert_8m = ModelMeta(
     loader=Model2VecModel,
     name="NeuML/pubmedbert-base-embeddings-8M",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="387d350015e963744f4fafe56a574b7cd48646c9",
@@ -456,7 +469,7 @@ pubmed_bert_8m = ModelMeta(
     embed_dim=256,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-8M",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",

mteb/models/model_implementations/moka_models.py CHANGED Viewed

@@ -91,6 +91,7 @@ m3e_dataset = {
 m3e_base = ModelMeta(
     loader=sentence_transformers_loader,
     name="moka-ai/m3e-base",
+    model_type=["dense"],
     languages=["zho-Hans", "eng-Latn"],
     open_weights=True,
     revision="764b537a0e50e5c7d64db883f2d2e051cbe3c64c",
@@ -103,7 +104,7 @@ m3e_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/moka-ai/m3e-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     superseded_by=None,
     adapted_from=None,
@@ -116,6 +117,7 @@ m3e_base = ModelMeta(
 m3e_small = ModelMeta(
     loader=sentence_transformers_loader,
     name="moka-ai/m3e-small",
+    model_type=["dense"],
     languages=["zho-Hans", "eng-Latn"],
     open_weights=True,
     revision="44c696631b2a8c200220aaaad5f987f096e986df",
@@ -141,6 +143,7 @@ m3e_small = ModelMeta(
 m3e_large = ModelMeta(
     loader=sentence_transformers_loader,
     name="moka-ai/m3e-large",
+    model_type=["dense"],
     languages=["zho-Hans", "eng-Latn"],
     open_weights=True,
     revision="12900375086c37ba5d83d1e417b21dc7d1d1f388",

mteb/models/model_implementations/nbailab.py ADDED Viewed

@@ -0,0 +1,70 @@
+from mteb.models.model_meta import ModelMeta, ScoringFunction
+from mteb.models.sentence_transformer_wrapper import (
+    SentenceTransformerEncoderWrapper,
+)
+nb_sbert = ModelMeta(
+    loader=SentenceTransformerEncoderWrapper,  # type: ignore[arg-type]
+    name="NbAiLab/nb-sbert-base",
+    model_type=["dense"],
+    languages=["nno-Latn", "nob-Latn", "swe-Latn", "dan-Latn"],
+    open_weights=True,
+    revision="b95656350a076aeafd2d23763660f80655408cc6",
+    release_date="2022-11-23",
+    n_parameters=1_780_000_000,
+    memory_usage_mb=678,
+    embed_dim=4096,
+    license="apache-2.0",
+    max_tokens=75,
+    reference="https://huggingface.co/NbAiLab/nb-sbert-base",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
+    use_instructions=False,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/NbAiLab/mnli-norwegian",
+    training_datasets=set(),
+)
+nb_bert_large = ModelMeta(
+    loader=SentenceTransformerEncoderWrapper,  # type: ignore[arg-type]
+    name="NbAiLab/nb-bert-large",
+    model_type=["dense"],
+    languages=["nno-Latn", "nob-Latn"],
+    open_weights=True,
+    revision="f9d0fc184adab4dc354d85e1854b7634540d7550",
+    release_date="2021-04-29",
+    n_parameters=355087360,
+    memory_usage_mb=1359,
+    embed_dim=1024,
+    license="cc-by-4.0",
+    max_tokens=512,
+    reference="https://huggingface.co/NbAiLab/nb-bert-large",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
+    use_instructions=False,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/NbAiLab/nb-bert-large#training-data",
+    training_datasets=set(),
+)
+nb_bert_base = ModelMeta(
+    loader=SentenceTransformerEncoderWrapper,  # type: ignore[arg-type]
+    name="NbAiLab/nb-bert-base",
+    model_type=["dense"],
+    languages=["nno-Latn", "nob-Latn"],
+    open_weights=True,
+    revision="9417c3f62a3adc99f17ff92bff446f35d011f994",
+    release_date="2021-01-13",
+    n_parameters=177853440,
+    memory_usage_mb=681,
+    embed_dim=768,
+    license="cc-by-4.0",
+    max_tokens=512,
+    reference="https://huggingface.co/NbAiLab/nb-bert-base",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
+    use_instructions=False,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/NbAiLab/nb-bert-base#training-data",
+    training_datasets=set(),
+)

mteb/models/model_implementations/no_instruct_sentence_models.py CHANGED Viewed

@@ -30,13 +30,13 @@ class NoInstructModel(AbsEncoder):
         self,
         model_name: str,
         revision: str,
+        device: str | None = None,
         model_prompts: dict[str, str] | None = None,
         **kwargs: Any,
     ):
         from transformers import AutoModel, AutoTokenizer
         self.model_name = model_name
-        device = kwargs.pop("device", None)
         self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
         self.model = AutoModel.from_pretrained(
             model_name, revision=revision, **kwargs
@@ -97,6 +97,7 @@ class NoInstructModel(AbsEncoder):
 no_instruct_small_v0 = ModelMeta(
     loader=NoInstructModel,
     name="avsolatorio/NoInstruct-small-Embedding-v0",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b38747000553d8268915c95a55fc87e707c9aadd",
@@ -108,7 +109,7 @@ no_instruct_small_v0 = ModelMeta(
     license="mit",
     reference="https://huggingface.co/avsolatorio/NoInstruct-small-Embedding-v0",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     use_instructions=False,
     adapted_from=None,
     superseded_by=None,

mteb/models/model_implementations/nomic_models.py CHANGED Viewed

@@ -23,6 +23,7 @@ class NomicWrapper(SentenceTransformerEncoderWrapper):
         self,
         model_name: str,
         revision: str,
+        device: str | None = None,
         model_prompts: dict[str, str] | None = None,
         **kwargs: Any,
     ):
@@ -37,7 +38,9 @@ class NomicWrapper(SentenceTransformerEncoderWrapper):
                 f"Current transformers version is {transformers.__version__} is lower than the required version"
                 f" {MODERN_BERT_TRANSFORMERS_MIN_VERSION}"
             )
-        super().__init__(model_name, revision, model_prompts, **kwargs)
+        super().__init__(
+            model_name, revision, device=device, model_prompts=model_prompts, **kwargs
+        )
     def to(self, device: torch.device) -> None:
         self.model.to(device)
@@ -199,6 +202,7 @@ nomic_embed_v1_5 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b0753ae76394dd36bcfb912a46018088bca48be0",
@@ -211,7 +215,13 @@ nomic_embed_v1_5 = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/nomic-ai/nomic-embed-text-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     use_instructions=True,
     adapted_from=None,
     superseded_by=None,
@@ -227,6 +237,7 @@ nomic_embed_v1 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="0759316f275aa0cb93a5b830973843ca66babcf5",
@@ -238,7 +249,13 @@ nomic_embed_v1 = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/nomic-ai/nomic-embed-text-v1",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     use_instructions=True,
     citation=NOMIC_CITATION,
     adapted_from=None,
@@ -255,6 +272,7 @@ nomic_embed_v1_ablated = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1-ablated",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="7d948905c5d5d3874fa55a925d68e49dbf411e5f",
@@ -266,7 +284,7 @@ nomic_embed_v1_ablated = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/nomic-ai/nomic-embed-text-v1-ablated",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX"],
     use_instructions=True,
     adapted_from=None,
     superseded_by=None,
@@ -282,6 +300,7 @@ nomic_embed_v1_unsupervised = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1-unsupervised",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b53d557b15ae63852847c222d336c1609eced93c",
@@ -293,7 +312,7 @@ nomic_embed_v1_unsupervised = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/nomic-ai/nomic-embed-text-v1-unsupervised",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "Transformers"],
     use_instructions=True,
     adapted_from=None,
     superseded_by=None,
@@ -309,6 +328,7 @@ nomic_modern_bert_embed = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="nomic-ai/modernbert-embed-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="5960f1566fb7cb1adf1eb6e816639cf4646d9b12",
@@ -320,7 +340,7 @@ nomic_modern_bert_embed = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/nomic-ai/modernbert-embed-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     adapted_from="answerdotai/ModernBERT-base",
     public_training_code="https://github.com/nomic-ai/contrastors/blob/5f7b461e5a13b5636692d1c9f1141b27232fe966/src/contrastors/configs/train/contrastive_pretrain_modernbert.yaml",
@@ -328,4 +348,151 @@ nomic_modern_bert_embed = ModelMeta(
     superseded_by=None,
     training_datasets=nomic_training_data,
     public_training_data=None,
+    citation="""@misc{nussbaum2024nomic,
+      title={Nomic Embed: Training a Reproducible Long Context Text Embedder},
+      author={Zach Nussbaum and John X. Morris and Brandon Duderstadt and Andriy Mulyar},
+      year={2024},
+      eprint={2402.01613},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
+)
+m_languages = [
+    "eng-Latn",
+    "spa-Latn",
+    "fra-Latn",
+    "deu-Latn",
+    "ita-Latn",
+    "por-Latn",
+    "pol-Latn",
+    "nld-Latn",
+    "tur-Latn",
+    "jpn-Jpan",
+    "vie-Latn",
+    "rus-Cyrl",
+    "ind-Latn",
+    "arb-Arab",
+    "ces-Latn",
+    "ron-Latn",
+    "swe-Latn",
+    "ell-Grek",
+    "ukr-Cyrl",
+    "zho-Hans",
+    "hun-Latn",
+    "dan-Latn",
+    "nor-Latn",
+    "hin-Deva",
+    "fin-Latn",
+    "bul-Cyrl",
+    "kor-Hang",
+    "slk-Latn",
+    "tha-Thai",
+    "heb-Hebr",
+    "cat-Latn",
+    "lit-Latn",
+    "fas-Arab",
+    "msa-Latn",
+    "slv-Latn",
+    "lav-Latn",
+    "mar-Deva",
+    "ben-Beng",
+    "sqi-Latn",
+    "cym-Latn",
+    "bel-Cyrl",
+    "mal-Mlym",
+    "kan-Knda",
+    "mkd-Cyrl",
+    "urd-Arab",
+    "fry-Latn",
+    "fil-Latn",
+    "tel-Telu",
+    "eus-Latn",
+    "swh-Latn",
+    "som-Latn",
+    "snd-Arab",
+    "uzb-Latn",
+    "cos-Latn",
+    "hrv-Latn",
+    "guj-Gujr",
+    "hin-Latn",
+    "ceb-Latn",
+    "epo-Latn",
+    "jav-Latn",
+    "lat-Latn",
+    "zul-Latn",
+    "mon-Cyrl",
+    "sin-Sinh",
+    "ell-Latn",
+    "gle-Latn",
+    "kir-Cyrl",
+    "tgk-Cyrl",
+    "mya-Mymr",
+    "khm-Khmr",
+    "mlg-Latn",
+    "pan-Guru",
+    "rus-Latn",
+    "sna-Latn",
+    "zho-Latn",
+    "hau-Latn",
+    "heb-Latn",
+    "hmn-Latn",
+    "hat-Latn",
+    "jpn-Latn",
+    "sun-Latn",
+    "bul-Latn",
+    "gla-Latn",
+    "nya-Latn",
+    "pus-Arab",
+    "kur-Latn",
+    "hbs-Latn",
+    "amh-Ethi",
+    "ibo-Latn",
+    "lao-Laoo",
+    "mri-Latn",
+    "nno-Latn",
+    "smo-Latn",
+    "yid-Hebr",
+    "sot-Latn",
+    "tgl-Latn",
+    "xho-Latn",
+    "yor-Latn",
+]
+nomic_embed_text_v2_moe = ModelMeta(
+    loader=NomicWrapper,
+    loader_kwargs=dict(
+        trust_remote_code=True,
+        model_prompts=model_prompts,
+    ),
+    name="nomic-ai/nomic-embed-text-v2-moe",
+    model_type=["dense"],
+    languages=m_languages,
+    open_weights=True,
+    revision="1066b6599d099fbb93dfcb64f9c37a7c9e503e85",
+    release_date="2025-02-07",
+    n_parameters=475292928,
+    memory_usage_mb=1813,
+    max_tokens=512,
+    embed_dim=768,
+    license="apache-2.0",
+    reference="https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
+    use_instructions=True,
+    adapted_from="nomic-ai/nomic-xlm-2048",
+    public_training_data="https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access",
+    public_training_code="https://github.com/nomic-ai/contrastors/blob/613ddfd37309e538cceadb05b1e6423e7b09f603/src/contrastors/configs/train/contrastive_finetune_moe.yaml",
+    training_datasets=None,  # did not look into this further
+    superseded_by=None,
+    citation="""@misc{nussbaum2025trainingsparsemixtureexperts,
+      title={Training Sparse Mixture Of Experts Text Embedding Models},
+      author={Zach Nussbaum and Brandon Duderstadt},
+      year={2025},
+      eprint={2502.07972},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2502.07972},
+}""",
 )

mteb/models/model_implementations/nomic_models_vision.py CHANGED Viewed

@@ -1,8 +1,9 @@
-from typing import Any
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
 import torch
 import torch.nn.functional as F
-from PIL import Image
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
@@ -12,6 +13,9 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from PIL import Image
 NOMIC_EMBED_VISION_CITATION = """@article{nussbaum2024nomicembedvision,
       title={Nomic Embed Vision: Expanding the Latent Space},
       author={Nussbaum, Zach and Duderstadt, Brandon and Mulyar, Andriy},
@@ -164,6 +168,7 @@ nomic_embed_vision_v1_5 = ModelMeta(
         "text_model_revision": "a03db6748c80237063eb0546ac6b627eca2318cb",
     },
     name="nomic-ai/nomic-embed-vision-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="af2246fffdab78d8458418480e4886a8e48b70a7",
     release_date="2024-06-08",
@@ -176,7 +181,7 @@ nomic_embed_vision_v1_5 = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/nomic-ai/contrastors",
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/nomic-ai/nomic-embed-vision-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=True,

mteb 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl