PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (527) hide show

mteb/models/model_implementations/e5_models.py CHANGED Viewed

@@ -5,108 +5,10 @@ from mteb.models.model_meta import (
 from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
 from mteb.types import PromptType
+from .facebookai import XLMR_LANGUAGES
 E5_PAPER_RELEASE_DATE = "2024-02-08"
-XLMR_LANGUAGES = [
-    "afr-Latn",
-    "amh-Latn",
-    "ara-Latn",
-    "asm-Latn",
-    "aze-Latn",
-    "bel-Latn",
-    "bul-Latn",
-    "ben-Latn",
-    "ben-Beng",
-    "bre-Latn",
-    "bos-Latn",
-    "cat-Latn",
-    "ces-Latn",
-    "cym-Latn",
-    "dan-Latn",
-    "deu-Latn",
-    "ell-Latn",
-    "eng-Latn",
-    "epo-Latn",
-    "spa-Latn",
-    "est-Latn",
-    "eus-Latn",
-    "fas-Latn",
-    "fin-Latn",
-    "fra-Latn",
-    "fry-Latn",
-    "gle-Latn",
-    "gla-Latn",
-    "glg-Latn",
-    "guj-Latn",
-    "hau-Latn",
-    "heb-Latn",
-    "hin-Latn",
-    "hin-Deva",
-    "hrv-Latn",
-    "hun-Latn",
-    "hye-Latn",
-    "ind-Latn",
-    "isl-Latn",
-    "ita-Latn",
-    "jpn-Latn",
-    "jav-Latn",
-    "kat-Latn",
-    "kaz-Latn",
-    "khm-Latn",
-    "kan-Latn",
-    "kor-Latn",
-    "kur-Latn",
-    "kir-Latn",
-    "lat-Latn",
-    "lao-Latn",
-    "lit-Latn",
-    "lav-Latn",
-    "mlg-Latn",
-    "mkd-Latn",
-    "mal-Latn",
-    "mon-Latn",
-    "mar-Latn",
-    "msa-Latn",
-    "mya-Latn",
-    "nep-Latn",
-    "nld-Latn",
-    "nob-Latn",
-    "orm-Latn",
-    "ori-Latn",
-    "pan-Latn",
-    "pol-Latn",
-    "pus-Latn",
-    "por-Latn",
-    "ron-Latn",
-    "rus-Latn",
-    "san-Latn",
-    "snd-Latn",
-    "sin-Latn",
-    "slk-Latn",
-    "slv-Latn",
-    "som-Latn",
-    "sqi-Latn",
-    "srp-Latn",
-    "sun-Latn",
-    "swe-Latn",
-    "swa-Latn",
-    "tam-Latn",
-    "tam-Taml",
-    "tel-Latn",
-    "tel-Telu",
-    "tha-Latn",
-    "tgl-Latn",
-    "tur-Latn",
-    "uig-Latn",
-    "ukr-Latn",
-    "urd-Latn",
-    "urd-Arab",
-    "uzb-Latn",
-    "vie-Latn",
-    "xho-Latn",
-    "yid-Latn",
-    "zho-Hant",
-    "zho-Hans",
-]
 MULTILINGUAL_E5_CITATION = """
 @article{wang2024multilingual,
@@ -168,6 +70,7 @@ e5_mult_small = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/multilingual-e5-small",
+    model_type=["dense"],
     languages=XLMR_LANGUAGES,
     open_weights=True,
     revision="fd1525a9fd15316a2d503bf26ab031a61d056e98",
@@ -179,7 +82,7 @@ e5_mult_small = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/multilingual-e5-small",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,  # couldn't find
     public_training_data=None,
@@ -194,6 +97,7 @@ e5_mult_base = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/multilingual-e5-base",
+    model_type=["dense"],
     languages=XLMR_LANGUAGES,
     open_weights=True,
     revision="d13f1b27baf31030b7fd040960d60d909913633f",
@@ -205,7 +109,7 @@ e5_mult_base = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/intfloat/multilingual-e5-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -220,6 +124,7 @@ e5_mult_large = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/multilingual-e5-large",
+    model_type=["dense"],
     languages=XLMR_LANGUAGES,
     open_weights=True,
     revision="ab10c1a7f42e74530fe7ae5be82e6d4f11a719eb",
@@ -231,7 +136,7 @@ e5_mult_large = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/intfloat/multilingual-e5-large",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -246,6 +151,7 @@ e5_eng_small_v2 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/e5-small-v2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="dca8b1a9dae0d4575df2bf423a5edb485a431236",
@@ -257,7 +163,7 @@ e5_eng_small_v2 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-small-v2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -272,6 +178,7 @@ e5_eng_small = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/e5-small",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="e272f3049e853b47cb5ca3952268c6662abda68f",
@@ -283,7 +190,7 @@ e5_eng_small = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-small",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -298,6 +205,7 @@ e5_eng_base_v2 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/e5-base-v2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="1c644c92ad3ba1efdad3f1451a637716616a20e8",
@@ -309,7 +217,7 @@ e5_eng_base_v2 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-base-v2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     superseded_by=None,
     adapted_from="intfloat/e5-base",
@@ -325,6 +233,7 @@ e5_eng_large_v2 = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/e5-large-v2",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b322e09026e4ea05f42beadf4d661fb4e101d311",
@@ -336,7 +245,7 @@ e5_eng_large_v2 = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/intfloat/e5-large-v2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     superseded_by=None,
     adapted_from="intfloat/e5-large",
@@ -352,6 +261,7 @@ e5_large = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/e5-large",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="4dc6d853a804b9c8886ede6dda8a073b7dc08a81",
@@ -363,7 +273,7 @@ e5_large = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-large",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     superseded_by="intfloat/e5-large-v2",
     adapted_from="google-bert/bert-large-uncased-whole-word-masking",
@@ -379,6 +289,7 @@ e5_base = ModelMeta(
         model_prompts=model_prompts,
     ),
     name="intfloat/e5-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="b533fe4636f4a2507c08ddab40644d20b0006d6a",
@@ -390,7 +301,7 @@ e5_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     superseded_by="intfloat/e5-base-v2",
     adapted_from="google-bert/bert-base-uncased",

mteb/models/model_implementations/e5_v.py CHANGED Viewed

@@ -30,6 +30,7 @@ class E5VModel(AbsEncoder):
         self,
         model_name: str,
         revision: str,
+        device: str | None = None,
         composed_prompt=None,
         **kwargs: Any,
     ):
@@ -47,8 +48,7 @@ class E5VModel(AbsEncoder):
         self.processor = LlavaNextProcessor.from_pretrained(
             model_name, revision=revision
         )
-        if "device" in kwargs:
-            self.device = kwargs.pop("device")
+        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
         self.model = LlavaNextForConditionalGeneration.from_pretrained(
             model_name, revision=revision, **kwargs
         )
@@ -87,7 +87,7 @@ class E5VModel(AbsEncoder):
                     ],
                     return_tensors="pt",
                     padding=True,
-                ).to("cuda")
+                ).to(self.device)
                 text_outputs = self.model(
                     **text_inputs, output_hidden_states=True, return_dict=True
                 ).hidden_states[-1][:, -1, :]
@@ -111,7 +111,7 @@ class E5VModel(AbsEncoder):
                     batch["image"],
                     return_tensors="pt",
                     padding=True,
-                ).to("cuda")
+                ).to(self.device)
                 image_outputs = self.model(
                     **img_inputs, output_hidden_states=True, return_dict=True
                 ).hidden_states[-1][:, -1, :]
@@ -141,7 +141,7 @@ class E5VModel(AbsEncoder):
                     ]
                     inputs = self.processor(
                         prompts, batch["image"], return_tensors="pt", padding=True
-                    ).to("cuda")
+                    ).to(self.device)
                     outputs = self.model(
                         **inputs, output_hidden_states=True, return_dict=True
                     ).hidden_states[-1][:, -1, :]
@@ -160,6 +160,7 @@ e5_v = ModelMeta(
         device_map="auto",
     ),
     name="royokong/e5-v",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="0c1f22679417b3ae925d779442221c40cd1861ab",
     release_date="2024-07-17",
@@ -172,7 +173,7 @@ e5_v = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/kongds/E5-V",
     public_training_data="https://huggingface.co/datasets/princeton-nlp/datasets-for-simcse",
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/royokong/e5-v",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=True,

mteb/models/model_implementations/eagerworks_models.py ADDED Viewed

@@ -0,0 +1,164 @@
+from typing import Any
+import torch
+from torch.utils.data import DataLoader
+from tqdm.auto import tqdm
+from mteb._requires_package import (
+    requires_image_dependencies,
+    requires_package,
+)
+from mteb.abstasks.task_metadata import TaskMetadata
+from mteb.models.abs_encoder import AbsEncoder
+from mteb.models.model_meta import ModelMeta, ScoringFunction
+from mteb.types import Array, BatchedInput, PromptType
+class EagerEmbedV1Wrapper(AbsEncoder):
+    """Wrapper for EagerEmbed single-vector embedding models."""
+    def __init__(
+        self,
+        model_name: str,
+        revision: str | None = None,
+        device: str | None = None,
+        image_size: int = 784,
+        **kwargs,
+    ):
+        requires_image_dependencies()
+        requires_package(
+            self, "qwen_vl_utils", model_name, "pip install mteb[eager_embed]"
+        )
+        from transformers import AutoProcessor, Qwen3VLForConditionalGeneration
+        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
+        self.image_size = image_size
+        # Load model
+        self.mdl = Qwen3VLForConditionalGeneration.from_pretrained(model_name, **kwargs)
+        self.mdl = self.mdl.to(self.device)
+        self.mdl.eval()
+        # Load processor
+        self.processor = AutoProcessor.from_pretrained(model_name)
+    def get_embedding(self, last_hidden_state: torch.Tensor) -> torch.Tensor:
+        """Extract embeddings from last token of last hidden state."""
+        reps = last_hidden_state[:, -1]
+        return reps
+    def encode(
+        self,
+        inputs: DataLoader[BatchedInput],
+        *,
+        task_metadata: TaskMetadata,
+        hf_split: str,
+        hf_subset: str,
+        prompt_type: PromptType | None = None,
+        **kwargs: Any,
+    ) -> Array:
+        """Encode inputs (text and/or images) into embeddings."""
+        from qwen_vl_utils import process_vision_info
+        all_embeddings: list[torch.Tensor] = []
+        with torch.no_grad():
+            for batch in tqdm(inputs, desc="Encoding"):
+                batch_texts = batch.get("text", [])
+                batch_images = batch.get("image", [])
+                messages = []
+                for i in range(max(len(batch_texts), len(batch_images))):
+                    text_content = batch_texts[i] if batch_texts else ""
+                    image_content = batch_images[i] if batch_images else None
+                    query_prefix = "Query: " if prompt_type == PromptType.query else ""
+                    content = [
+                        {"type": "text", "text": f"{query_prefix}{text_content}"}
+                    ]
+                    if image_content is not None:
+                        content.append(
+                            {
+                                "type": "image",
+                                "image": image_content,
+                                "resized_height": self.image_size,
+                                "resized_width": self.image_size,
+                            }
+                        )
+                    messages.append([{"role": "user", "content": content}])
+                # Prepare inputs
+                texts = [
+                    self.processor.apply_chat_template(
+                        msg, tokenize=False, add_generation_prompt=False
+                    )
+                    + "<|endoftext|>"
+                    for msg in messages
+                ]
+                image_inputs = None
+                video_inputs = None
+                if batch_images:
+                    image_inputs, video_inputs = process_vision_info(messages)
+                model_inputs = self.processor(
+                    text=texts,
+                    images=image_inputs,
+                    videos=video_inputs,
+                    padding="longest",
+                    return_tensors="pt",
+                ).to(self.device)
+                # Get embeddings
+                output = self.mdl(
+                    **model_inputs, return_dict=True, output_hidden_states=True
+                )
+                embeddings = self.get_embedding(output.hidden_states[-1])
+                embeddings = embeddings.cpu().to(torch.float32)
+                embeddings = torch.nn.functional.normalize(embeddings, p=2, dim=-1)
+                all_embeddings.append(embeddings)
+        return torch.cat(all_embeddings, dim=0)
+EAGER_EMBED_V1_CITATION = """@article{EagerEmbed,
+  title={Eager Embed V1: Multimodal Dense Embeddings for Retrieval},
+  author={Juan Pablo Balarini},
+  year={2025},
+  publisher={Eagerworks},
+  url={https://github.com/eagerworks/eager-embed},
+}"""
+EAGER_EMBED_V1_TRAINING_DATASETS = {"colpali", "bge-ir", "pixmo-docs", "wiki-ss"}
+Eager_Embed_V1 = ModelMeta(
+    loader=EagerEmbedV1Wrapper,
+    loader_kwargs=dict(
+        dtype=torch.float16,
+        image_size=784,
+    ),
+    name="eagerworks/eager-embed-v1",
+    model_type=["dense"],
+    languages=["fra-Latn", "spa-Latn", "eng-Latn", "deu-Latn"],
+    revision="a6bec272729c5056e2c26618ce085205c82a3b3c",
+    release_date="2025-11-20",
+    modalities=["image", "text"],
+    n_parameters=4_000_000_000,
+    memory_usage_mb=16929,
+    max_tokens=262144,
+    embed_dim=2560,
+    license="apache-2.0",
+    open_weights=True,
+    framework=["Tevatron", "safetensors"],
+    reference="https://huggingface.co/eagerworks/eager-embed-v1",
+    similarity_fn_name=ScoringFunction.COSINE,
+    use_instructions=True,
+    training_datasets=EAGER_EMBED_V1_TRAINING_DATASETS,
+    citation=EAGER_EMBED_V1_CITATION,
+    adapted_from="https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct",
+    public_training_code="https://github.com/eagerworks/eager-embed",
+    public_training_data="https://github.com/eagerworks/eager-embed/blob/main/dataset_config.yaml",
+)

mteb/models/model_implementations/emillykkejensen_models.py ADDED Viewed

@@ -0,0 +1,91 @@
+from mteb.models.model_meta import ModelMeta
+from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
+embedding_gemma_300m_scandi = ModelMeta(
+    loader=sentence_transformers_loader,
+    name="emillykkejensen/EmbeddingGemma-Scandi-300m",
+    model_type=["dense"],
+    languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
+    open_weights=True,
+    revision="9f3307b9f601db564a9190cb475324d128dcfe86",
+    release_date="2025-10-17",
+    n_parameters=307_581_696,
+    embed_dim=768,
+    max_tokens=2048,
+    license="apache-2.0",
+    reference="https://huggingface.co/emillykkejensen/EmbeddingGemma-Scandi-300m",
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
+    training_datasets=set(),
+    similarity_fn_name="cosine",  # type: ignore[arg-type]
+    adapted_from="google/embeddinggemma-300m",
+    memory_usage_mb=578,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
+)
+qwen_scandi = ModelMeta(
+    loader=sentence_transformers_loader,
+    name="emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
+    model_type=["dense"],
+    languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
+    open_weights=True,
+    revision="cf1e7ba36ebd3d605549d8f02930a18e17b54513",
+    release_date="2025-10-17",
+    n_parameters=595776512,
+    memory_usage_mb=2272,
+    embed_dim=1024,
+    max_tokens=32768,
+    license="apache-2.0",
+    reference="https://huggingface.co/emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
+    training_datasets=set(),
+    similarity_fn_name="cosine",  # type: ignore[arg-type]
+    adapted_from="Qwen/Qwen3-Embedding-0.6B",
+)
+mmbert_scandi = ModelMeta(
+    loader=sentence_transformers_loader,
+    name="emillykkejensen/mmBERTscandi-base-embedding",
+    model_type=["dense"],
+    languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
+    open_weights=True,
+    revision="82d74c7a5d8e1ddf31b132865df2d16b2b0294ee",
+    release_date="2025-10-17",
+    n_parameters=306939648,
+    memory_usage_mb=1171,
+    embed_dim=768,
+    max_tokens=8192,
+    license="apache-2.0",
+    reference="https://huggingface.co/emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
+    training_datasets=set(),
+    similarity_fn_name="cosine",  # type: ignore[arg-type]
+    adapted_from="jonasaise/scandmmBERT-base-scandinavian",
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
+)

mteb/models/model_implementations/en_code_retriever.py CHANGED Viewed

@@ -12,6 +12,7 @@ english_code_retriever = ModelMeta(
         },
     ),
     name="fyaronskiy/english_code_retriever",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=True,
     revision="be653fab7d27a7348a0c2c3d16b9f92a7f10cb0c",
@@ -23,7 +24,7 @@ english_code_retriever = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/fyaronskiy/english_code_retriever",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/code-search-net/code_search_net",

mteb/models/model_implementations/euler_models.py ADDED Viewed

@@ -0,0 +1,32 @@
+from mteb.models.model_meta import ModelMeta
+from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
+Euler_Legal_Embedding_V1 = ModelMeta(
+    loader=sentence_transformers_loader,
+    name="Mira190/Euler-Legal-Embedding-V1",
+    model_type=["dense"],
+    revision="df607ed9e25e569514a99c27cdaaab16e76b6dd4",
+    release_date="2025-11-06",
+    languages=["eng-Latn"],
+    n_parameters=8000000000,
+    memory_usage_mb=15618,
+    max_tokens=1536,
+    embed_dim=4096,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
+    reference="https://huggingface.co/Mira190/Euler-Legal-Embedding-V1",
+    similarity_fn_name="cosine",
+    use_instructions=False,
+    training_datasets=set(),  # final-data-new-anonymized-grok4-filtered
+    adapted_from="Qwen/Qwen3-Embedding-8B",
+    superseded_by=None,
+    citation="""@misc{euler2025legal,
+      title={Euler-Legal-Embedding: Advanced Legal Representation Learning},
+      author={LawRank Team},
+      year={2025},
+      publisher={Hugging Face}
+}""",
+)

mteb/models/model_implementations/evaclip_models.py CHANGED Viewed

@@ -138,6 +138,7 @@ laion_2b = set(
 EVA02_CLIP_B_16 = ModelMeta(
     loader=evaclip_loader,
     name="QuanSun/EVA02-CLIP-B-16",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="11afd202f2ae80869d6cef18b1ec775e79bd8d12",
     release_date="2023-04-26",
@@ -161,6 +162,7 @@ EVA02_CLIP_B_16 = ModelMeta(
 EVA02_CLIP_L_14 = ModelMeta(
     loader=evaclip_loader,
     name="QuanSun/EVA02-CLIP-L-14",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="11afd202f2ae80869d6cef18b1ec775e79bd8d12",
     release_date="2023-04-26",
@@ -184,6 +186,7 @@ EVA02_CLIP_L_14 = ModelMeta(
 EVA02_CLIP_bigE_14 = ModelMeta(
     loader=evaclip_loader,
     name="QuanSun/EVA02-CLIP-bigE-14",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="11afd202f2ae80869d6cef18b1ec775e79bd8d12",
     release_date="2023-04-26",
@@ -208,6 +211,7 @@ EVA02_CLIP_bigE_14 = ModelMeta(
 EVA02_CLIP_bigE_14_plus = ModelMeta(
     loader=evaclip_loader,
     name="QuanSun/EVA02-CLIP-bigE-14-plus",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="11afd202f2ae80869d6cef18b1ec775e79bd8d12",
     release_date="2023-04-26",

mteb 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl