PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (458) hide show

mteb/models/model_implementations/nomic_models.py CHANGED Viewed

@@ -193,12 +193,13 @@ NOMIC_CITATION = """
 """
 nomic_embed_v1_5 = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b0753ae76394dd36bcfb912a46018088bca48be0",
@@ -221,12 +222,13 @@ nomic_embed_v1_5 = ModelMeta(
 )
 nomic_embed_v1 = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="0759316f275aa0cb93a5b830973843ca66babcf5",
@@ -249,12 +251,13 @@ nomic_embed_v1 = ModelMeta(
 )
 nomic_embed_v1_ablated = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1-ablated",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="7d948905c5d5d3874fa55a925d68e49dbf411e5f",
@@ -276,12 +279,13 @@ nomic_embed_v1_ablated = ModelMeta(
 )
 nomic_embed_v1_unsupervised = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
     ),
     name="nomic-ai/nomic-embed-text-v1-unsupervised",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b53d557b15ae63852847c222d336c1609eced93c",
@@ -309,6 +313,7 @@ nomic_modern_bert_embed = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="nomic-ai/modernbert-embed-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="5960f1566fb7cb1adf1eb6e816639cf4646d9b12",
@@ -328,4 +333,151 @@ nomic_modern_bert_embed = ModelMeta(
     superseded_by=None,
     training_datasets=nomic_training_data,
     public_training_data=None,
+    citation="""@misc{nussbaum2024nomic,
+      title={Nomic Embed: Training a Reproducible Long Context Text Embedder},
+      author={Zach Nussbaum and John X. Morris and Brandon Duderstadt and Andriy Mulyar},
+      year={2024},
+      eprint={2402.01613},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}""",
+)
+m_languages = [
+    "eng-Latn",
+    "spa-Latn",
+    "fra-Latn",
+    "deu-Latn",
+    "ita-Latn",
+    "por-Latn",
+    "pol-Latn",
+    "nld-Latn",
+    "tur-Latn",
+    "jpn-Jpan",
+    "vie-Latn",
+    "rus-Cyrl",
+    "ind-Latn",
+    "arb-Arab",
+    "ces-Latn",
+    "ron-Latn",
+    "swe-Latn",
+    "ell-Grek",
+    "ukr-Cyrl",
+    "zho-Hans",
+    "hun-Latn",
+    "dan-Latn",
+    "nor-Latn",
+    "hin-Deva",
+    "fin-Latn",
+    "bul-Cyrl",
+    "kor-Hang",
+    "slk-Latn",
+    "tha-Thai",
+    "heb-Hebr",
+    "cat-Latn",
+    "lit-Latn",
+    "fas-Arab",
+    "msa-Latn",
+    "slv-Latn",
+    "lav-Latn",
+    "mar-Deva",
+    "ben-Beng",
+    "sqi-Latn",
+    "cym-Latn",
+    "bel-Cyrl",
+    "mal-Mlym",
+    "kan-Knda",
+    "mkd-Cyrl",
+    "urd-Arab",
+    "fry-Latn",
+    "fil-Latn",
+    "tel-Telu",
+    "eus-Latn",
+    "swh-Latn",
+    "som-Latn",
+    "snd-Arab",
+    "uzb-Latn",
+    "cos-Latn",
+    "hrv-Latn",
+    "guj-Gujr",
+    "hin-Latn",
+    "ceb-Latn",
+    "epo-Latn",
+    "jav-Latn",
+    "lat-Latn",
+    "zul-Latn",
+    "mon-Cyrl",
+    "sin-Sinh",
+    "ell-Latn",
+    "gle-Latn",
+    "kir-Cyrl",
+    "tgk-Cyrl",
+    "mya-Mymr",
+    "khm-Khmr",
+    "mlg-Latn",
+    "pan-Guru",
+    "rus-Latn",
+    "sna-Latn",
+    "zho-Latn",
+    "hau-Latn",
+    "heb-Latn",
+    "hmn-Latn",
+    "hat-Latn",
+    "jpn-Latn",
+    "sun-Latn",
+    "bul-Latn",
+    "gla-Latn",
+    "nya-Latn",
+    "pus-Arab",
+    "kur-Latn",
+    "hbs-Latn",
+    "amh-Ethi",
+    "ibo-Latn",
+    "lao-Laoo",
+    "mri-Latn",
+    "nno-Latn",
+    "smo-Latn",
+    "yid-Hebr",
+    "sot-Latn",
+    "tgl-Latn",
+    "xho-Latn",
+    "yor-Latn",
+]
+nomic_embed_text_v2_moe = ModelMeta(
+    loader=NomicWrapper,  # type: ignore
+    loader_kwargs=dict(
+        trust_remote_code=True,
+        model_prompts=model_prompts,
+    ),
+    name="nomic-ai/nomic-embed-text-v2-moe",
+    model_type=["dense"],
+    languages=m_languages,
+    open_weights=True,
+    revision="1066b6599d099fbb93dfcb64f9c37a7c9e503e85",
+    release_date="2025-02-07",
+    n_parameters=475292928,
+    memory_usage_mb=1813,
+    max_tokens=512,
+    embed_dim=768,
+    license="apache-2.0",
+    reference="https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    adapted_from="nomic-ai/nomic-xlm-2048",
+    public_training_data="https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access",
+    public_training_code="https://github.com/nomic-ai/contrastors/blob/613ddfd37309e538cceadb05b1e6423e7b09f603/src/contrastors/configs/train/contrastive_finetune_moe.yaml",
+    training_datasets=None,  # did not look into this further
+    superseded_by=None,
+    citation="""@misc{nussbaum2025trainingsparsemixtureexperts,
+      title={Training Sparse Mixture Of Experts Text Embedding Models},
+      author={Zach Nussbaum and Brandon Duderstadt},
+      year={2025},
+      eprint={2502.07972},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2502.07972},
+}""",
 )

mteb/models/model_implementations/nomic_models_vision.py CHANGED Viewed

@@ -1,8 +1,9 @@
-from typing import Any
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
 import torch
 import torch.nn.functional as F
-from PIL import Image
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
@@ -12,6 +13,9 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from PIL import Image
 NOMIC_EMBED_VISION_CITATION = """@article{nussbaum2024nomicembedvision,
       title={Nomic Embed Vision: Expanding the Latent Space},
       author={Nussbaum, Zach and Duderstadt, Brandon and Mulyar, Andriy},
@@ -164,6 +168,7 @@ nomic_embed_vision_v1_5 = ModelMeta(
         "text_model_revision": "a03db6748c80237063eb0546ac6b627eca2318cb",
     },
     name="nomic-ai/nomic-embed-vision-v1.5",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="af2246fffdab78d8458418480e4886a8e48b70a7",
     release_date="2024-06-08",

mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py CHANGED Viewed

@@ -1,7 +1,6 @@
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import torch
-from PIL import Image
 from torch.utils.data import DataLoader
 from mteb.abstasks.task_metadata import TaskMetadata
@@ -9,6 +8,10 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    pass
 LLAMA_NEMORETRIEVER_CITATION = """@misc{xu2025llamanemoretrievercolembedtopperforming,
       title={Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model},
       author={Mengyao Xu and Gabriel Moreira and Ronay Ak and Radek Osmulski and Yauhen Babakhin and Zhiding Yu and Benedikt Schifferer and Even Oldridge},
@@ -53,6 +56,7 @@ class LlamaNemoretrieverColembed(AbsEncoder):
         **kwargs,
     ):
         import torchvision.transforms.functional as F
+        from PIL import Image
         all_images = []
         if isinstance(images, DataLoader):
@@ -61,14 +65,16 @@ class LlamaNemoretrieverColembed(AbsEncoder):
             iterator = DataLoader(images, batch_size=batch_size)
         for batch in iterator:
-            for b in batch:
+            for image in batch["image"]:
                 pil_img = (
-                    F.to_pil_image(b.to("cpu")) if not isinstance(b, Image.Image) else b
+                    image
+                    if isinstance(image, Image.Image)
+                    else F.to_pil_image(image.to("cpu"))
                 )
                 all_images.append(pil_img)
         batch_size = 1
-        return self.model.forward_passages(all_images, batch_size=batch_size)
+        return self.model.forward_images(all_images, batch_size=batch_size)
     def calculate_probs(self, text_embeddings, image_embeddings):
         scores = self.similarity(text_embeddings, image_embeddings)
@@ -117,19 +123,18 @@ class LlamaNemoretrieverColembed(AbsEncoder):
 TRAINING_DATA = {
     # from https://huggingface.co/datasets/vidore/colpali_train_set
-    "DocVQA",
-    "InfoVQA",
-    "TATDQA",
-    "arXivQA",
-    "hotpotqa",
-    "miracl",
+    "VidoreDocVQARetrieval",
+    "VidoreInfoVQARetrieval",
+    "VidoreTatdqaRetrieval",
+    "VidoreArxivQARetrieval",
+    "HotpotQA",
+    "MIRACLRetrieval",
     "NQ",
-    "stackexchange",
+    "StackExchangeClustering",
     "SQuAD",
     "WebInstructSub",
     "docmatix-ir",
-    "vdr-multilingual-train",
-    "colpali_train_set",  # as it contains PDFs
+    "VDRMultilingualRetrieval",
     "VisRAG-Ret-Train-Synthetic-data",
     "VisRAG-Ret-Train-In-domain-data",
     "wiki-ss-nq",
@@ -141,12 +146,13 @@ llama_nemoretriever_colembed_1b_v1 = ModelMeta(
         trust_remote_code=True,
     ),
     name="nvidia/llama-nemoretriever-colembed-1b-v1",
+    model_type=["late-interaction"],
     languages=["eng-Latn"],
     revision="1f0fdea7f5b19532a750be109b19072d719b8177",
     release_date="2025-06-27",
     modalities=["image", "text"],
     n_parameters=2_418_000_000,
-    memory_usage_mb=9224,
+    memory_usage_mb=4610,
     max_tokens=8192,
     embed_dim=2048,
     license="https://huggingface.co/nvidia/llama-nemoretriever-colembed-1b-v1/blob/main/LICENSE",
@@ -167,12 +173,13 @@ llama_nemoretriever_colembed_3b_v1 = ModelMeta(
         trust_remote_code=True,
     ),
     name="nvidia/llama-nemoretriever-colembed-3b-v1",
+    model_type=["late-interaction"],
     languages=["eng-Latn"],
     revision="50c36f4d5271c6851aa08bd26d69f6e7ca8b870c",
     release_date="2025-06-27",
     modalities=["image", "text"],
     n_parameters=4_407_000_000,
-    memory_usage_mb=16811,
+    memory_usage_mb=8403,
     max_tokens=8192,
     embed_dim=3072,
     license="https://huggingface.co/nvidia/llama-nemoretriever-colembed-1b-v1/blob/main/LICENSE",

mteb/models/model_implementations/nvidia_models.py CHANGED Viewed

@@ -111,6 +111,7 @@ NV_embed_v2 = ModelMeta(
         add_eos_token=True,
     ),
     name="nvidia/NV-Embed-v2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="7604d305b621f14095a1aa23d351674c2859553a",
@@ -141,12 +142,13 @@ NV_embed_v1 = ModelMeta(
         add_eos_token=True,
     ),
     name="nvidia/NV-Embed-v1",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="570834afd5fef5bf3a3c2311a2b6e0a66f6f4f2c",
     release_date="2024-09-13",  # initial commit of hf model.
     n_parameters=7_850_000_000,
-    memory_usage_mb=29945,
+    memory_usage_mb=14975,
     embed_dim=4096,
     license="cc-by-nc-4.0",
     max_tokens=32768,
@@ -528,6 +530,7 @@ class LlamaEmbedNemotron(AbsEncoder):
 llama_embed_nemotron_8b = ModelMeta(
     loader=LlamaEmbedNemotron,
     name="nvidia/llama-embed-nemotron-8b",
+    model_type=["dense"],
     languages=llama_embed_nemotron_evaluated_languages,
     open_weights=True,
     revision="84a375593d27d3528beb4e104822515659e093b4",

mteb/models/model_implementations/octen_models.py ADDED Viewed

@@ -0,0 +1,195 @@
+from mteb.models.instruct_wrapper import InstructSentenceTransformerModel
+from mteb.models.model_meta import ModelMeta
+from mteb.models.models_protocols import PromptType
+def instruction_template(
+    instruction: str, prompt_type: PromptType | None = None
+) -> str:
+    if (
+        prompt_type == PromptType.document
+    ):  # to avoid this issue: https://huggingface.co/Qwen/Qwen3-Embedding-8B/discussions/21
+        return " "
+    if not instruction:
+        return ""
+    if isinstance(instruction, dict):
+        if prompt_type is None:
+            instruction = next(iter(instruction.values()))  # TODO
+        else:
+            instruction = instruction[prompt_type]
+    return f"Instruct: {instruction}\nQuery:"
+multilingual_langs = [
+    "afr-Latn",
+    "ara-Arab",
+    "aze-Latn",
+    "bel-Cyrl",
+    "bul-Cyrl",
+    "ben-Beng",
+    "cat-Latn",
+    "ceb-Latn",
+    "ces-Latn",
+    "cym-Latn",
+    "dan-Latn",
+    "deu-Latn",
+    "ell-Grek",
+    "eng-Latn",
+    "spa-Latn",
+    "est-Latn",
+    "eus-Latn",
+    "fas-Arab",
+    "fin-Latn",
+    "fra-Latn",
+    "glg-Latn",
+    "guj-Gujr",
+    "heb-Hebr",
+    "hin-Deva",
+    "hrv-Latn",
+    "hat-Latn",
+    "hun-Latn",
+    "hye-Armn",
+    "ind-Latn",
+    "isl-Latn",
+    "ita-Latn",
+    "jpn-Jpan",
+    "jav-Latn",
+    "kat-Geor",
+    "kaz-Cyrl",
+    "khm-Khmr",
+    "kan-Knda",
+    "kor-Hang",
+    "kir-Cyrl",
+    "lao-Laoo",
+    "lit-Latn",
+    "lav-Latn",
+    "mkd-Cyrl",
+    "mal-Mlym",
+    "mon-Cyrl",
+    "mar-Deva",
+    "msa-Latn",
+    "mya-Mymr",
+    "nep-Deva",
+    "nld-Latn",
+    "nor-Latn",
+    "nob-Latn",
+    "nno-Latn",
+    "pan-Guru",
+    "pol-Latn",
+    "por-Latn",
+    "que-Latn",
+    "ron-Latn",
+    "rus-Cyrl",
+    "sin-Sinh",
+    "slk-Latn",
+    "slv-Latn",
+    "swa-Latn",
+    "tam-Taml",
+    "tel-Telu",
+    "tha-Thai",
+    "tgl-Latn",
+    "tur-Latn",
+    "ukr-Cyrl",
+    "urd-Arab",
+    "vie-Latn",
+    "yor-Latn",
+    "zho-Hans",
+]
+OCTEN_CITATION = """@misc{octen-embedding-2025,
+  title={Octen-Embedding-8B: A Fine-tuned Multilingual Text Embedding Model},
+  author={Octen Team},
+  year={2025},
+  url={https://huggingface.co/bflhc/bflhc/Octen-Embedding-8B}
+}"""
+training_data = {
+    "T2Retrieval",
+    "DuRetrieval",
+    "MMarcoReranking",
+    "CMedQAv2-reranking",
+    "NQ",
+    "MSMARCO",
+    "HotpotQA",
+    "FEVER",
+    "MrTidyRetrieval",
+    "MIRACLRetrieval",
+    "CodeSearchNet",
+}
+# Predefined prompts for various RTEB tasks
+_PREDEFINED_PROMPTS = {
+    # ========== Open Datasets ==========
+    # Legal domain
+    "AILACasedocs": "Given a legal case scenario, retrieve the most relevant case documents",
+    "AILAStatutes": "Given a legal scenario, retrieve the most relevant statute documents",
+    "LegalQuAD": "Given a legal question, retrieve relevant legal documents that answer the question",
+    "LegalSummarization": "Given a query, retrieve relevant legal documents for summarization",
+    # Code domain
+    "AppsRetrieval": "Given a query about mobile applications, retrieve relevant app information",
+    "HumanEvalRetrieval": "Given a code problem description, retrieve relevant code examples",
+    "MBPPRetrieval": "Given a programming problem description, retrieve relevant code solutions",
+    "DS1000Retrieval": "Given a data science problem, retrieve relevant code snippets",
+    "FreshStackRetrieval": "Given a programming question, retrieve relevant Stack Overflow posts",
+    # Finance domain
+    "FinQARetrieval": "Given a financial question, retrieve relevant financial documents",
+    "FinanceBenchRetrieval": "Given a financial query, retrieve relevant financial information",
+    "HC3FinanceRetrieval": "Given a finance-related query, retrieve relevant documents",
+    # Medical domain
+    "CUREv1": "Given a medical query, retrieve relevant clinical documents",
+    "ChatDoctorRetrieval": "Given a medical question, retrieve relevant medical information",
+    # SQL domain
+    "WikiSQLRetrieval": "Given a natural language query, retrieve relevant SQL examples",
+    # Multilingual
+    "MIRACLRetrievalHardNegatives": "Given a question, retrieve Wikipedia passages that answer the question",
+    # ========== Private/Closed Datasets ==========
+    # Code domain (Private)
+    "Code1Retrieval": "Given a code problem description, retrieve relevant code examples",
+    "JapaneseCode1Retrieval": "Given a code problem description, retrieve relevant code examples",
+    # Finance domain (Private)
+    "EnglishFinance1Retrieval": "Given a financial query, retrieve relevant financial documents",
+    "EnglishFinance2Retrieval": "Given a financial query, retrieve relevant financial documents",
+    "EnglishFinance3Retrieval": "Given a financial query, retrieve relevant financial documents",
+    "EnglishFinance4Retrieval": "Given a financial query, retrieve relevant financial documents",
+    # Healthcare domain (Private)
+    "EnglishHealthcare1Retrieval": "Given a medical question, retrieve relevant medical information",
+    "GermanHealthcare1Retrieval": "Given a medical question, retrieve relevant medical information",
+    # Legal domain (Private)
+    "FrenchLegal1Retrieval": "Given a legal query, retrieve relevant legal documents",
+    "GermanLegal1Retrieval": "Given a legal query, retrieve relevant legal documents",
+    "JapaneseLegal1Retrieval": "Given a legal query, retrieve relevant legal documents",
+    # General/Multilingual (Private)
+    "French1Retrieval": "Given a query, retrieve relevant passages",
+    "German1Retrieval": "Given a query, retrieve relevant passages",
+}
+Octen_Embedding_8B = ModelMeta(
+    loader=InstructSentenceTransformerModel,
+    loader_kwargs=dict(
+        instruction_template=instruction_template,
+        apply_instruction_to_passages=True,
+        prompts_dict=_PREDEFINED_PROMPTS,
+        max_seq_length=18480,
+        model_kwargs={"torch_dtype": "bfloat16"},
+    ),
+    name="bflhc/Octen-Embedding-8B",
+    languages=multilingual_langs,
+    open_weights=True,
+    revision="2030603c2926ab005fafd824fac5911e271be21f",
+    release_date="2025-12-23",
+    n_parameters=7567295488,
+    memory_usage_mb=14433,
+    embed_dim=4096,
+    max_tokens=32768,
+    license="apache-2.0",
+    reference="https://huggingface.co/bflhc/Octen-Embedding-8B",
+    similarity_fn_name="cosine",
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data=None,
+    training_datasets=training_data,
+    citation=OCTEN_CITATION,
+    adapted_from="Qwen/Qwen3-Embedding-8B",
+)

mteb/models/model_implementations/openai_models.py CHANGED Viewed

@@ -91,10 +91,6 @@ class OpenAIModel(AbsEncoder):
         from openai import NotGiven
-        if self.model_name == "text-embedding-ada-002" and self._embed_dim is not None:
-            logger.warning(
-                "Reducing embedding size available only for text-embedding-3-* models"
-            )
         sentences = [text for batch in inputs for text in batch["text"]]
         mask_sents = [(i, t) for i, t in enumerate(sentences) if t.strip()]
@@ -122,13 +118,22 @@ class OpenAIModel(AbsEncoder):
         no_empty_embeddings = []
+        # Set dimensions only for models that support it
+        dimensions = (
+            self._embed_dim or NotGiven()
+            if not self.model_name == "text-embedding-ada-002"
+            else NotGiven()
+        )
+        default_kwargs = dict(
+            model=self.model_name,
+            encoding_format="float",
+            dimensions=dimensions,
+        )
         for sublist in tqdm(sublists, leave=False, disable=not show_progress_bar):
             try:
                 response = self._client.embeddings.create(
-                    input=sublist,
-                    model=self.model_name,
-                    encoding_format="float",
-                    dimensions=self._embed_dim or NotGiven(),
+                    input=sublist, **default_kwargs
                 )
             except Exception as e:
                 # Sleep due to too many requests
@@ -138,19 +143,13 @@ class OpenAIModel(AbsEncoder):
                 time.sleep(10)
                 try:
                     response = self._client.embeddings.create(
-                        input=sublist,
-                        model=self.model_name,
-                        encoding_format="float",
-                        dimensions=self._embed_dim or NotGiven(),
+                        input=sublist, **default_kwargs
                     )
                 except Exception as e:
                     logger.info("Sleeping for 60 seconds due to error", e)
                     time.sleep(60)
                     response = self._client.embeddings.create(
-                        input=sublist,
-                        model=self.model_name,
-                        encoding_format="float",
-                        dimensions=self._embed_dim or NotGiven(),
+                        input=sublist, **default_kwargs
                     )
             no_empty_embeddings.extend(self._to_numpy(response))
@@ -168,6 +167,7 @@ class OpenAIModel(AbsEncoder):
 text_embedding_3_small = ModelMeta(
     name="openai/text-embedding-3-small",
+    model_type=["dense"],
     revision="3",
     release_date="2024-01-25",
     languages=None,  # supported languages not specified
@@ -192,6 +192,7 @@ text_embedding_3_small = ModelMeta(
 )
 text_embedding_3_large = ModelMeta(
     name="openai/text-embedding-3-large",
+    model_type=["dense"],
     revision="3",
     release_date="2024-01-25",
     languages=None,  # supported languages not specified
@@ -216,6 +217,7 @@ text_embedding_3_large = ModelMeta(
 )
 text_embedding_ada_002 = ModelMeta(
     name="openai/text-embedding-ada-002",
+    model_type=["dense"],
     revision="3",
     release_date="2022-12-15",
     languages=None,  # supported languages not specified
@@ -241,6 +243,7 @@ text_embedding_ada_002 = ModelMeta(
 text_embedding_3_small_512 = ModelMeta(
     name="openai/text-embedding-3-small (embed_dim=512)",
+    model_type=["dense"],
     revision="3",
     release_date="2024-01-25",
     languages=None,  # supported languages not specified
@@ -267,6 +270,7 @@ text_embedding_3_small_512 = ModelMeta(
 text_embedding_3_large_512 = ModelMeta(
     name="openai/text-embedding-3-large (embed_dim=512)",
+    model_type=["dense"],
     revision="3",
     release_date="2024-01-25",
     languages=None,  # supported languages not specified

mteb 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl