PyPI - mteb - Versions diffs - 2.3.10__py3-none-any.whl → 2.4.1__py3-none-any.whl - Mend

mteb 2.3.10py3-none-any.whl → 2.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (53) hide show

mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +7 -2
mteb/abstasks/_statistics_calculation.py +6 -2
mteb/abstasks/classification.py +0 -2
mteb/benchmarks/benchmarks/__init__.py +2 -0
mteb/benchmarks/benchmarks/benchmarks.py +57 -0
mteb/deprecated_evaluator.py +8 -13
mteb/descriptive_stats/Reranking/JQaRARerankingLite.json +35 -0
mteb/descriptive_stats/Reranking/JaCWIRRerankingLite.json +35 -0
mteb/descriptive_stats/Retrieval/JaCWIRRetrievalLite.json +30 -0
mteb/descriptive_stats/Retrieval/JaqketRetrievalLite.json +30 -0
mteb/descriptive_stats/Retrieval/MIRACLJaRetrievalLite.json +30 -0
mteb/descriptive_stats/Retrieval/MrTyDiJaRetrievalLite.json +30 -0
mteb/evaluate.py +2 -33
mteb/leaderboard/figures.py +1 -1
mteb/leaderboard/table.py +1 -11
mteb/models/abs_encoder.py +21 -17
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +2 -2
mteb/models/get_model_meta.py +3 -123
mteb/models/instruct_wrapper.py +2 -1
mteb/models/model_implementations/bica_model.py +34 -0
mteb/models/model_implementations/colpali_models.py +7 -2
mteb/models/model_implementations/colqwen_models.py +1 -1
mteb/models/model_implementations/gme_v_models.py +9 -5
mteb/models/model_implementations/google_models.py +10 -0
mteb/models/model_implementations/granite_vision_embedding_models.py +6 -2
mteb/models/model_implementations/jasper_models.py +2 -2
mteb/models/model_implementations/jina_models.py +1 -1
mteb/models/model_implementations/mod_models.py +204 -0
mteb/models/model_implementations/nomic_models.py +142 -4
mteb/models/model_implementations/nomic_models_vision.py +6 -2
mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py +6 -2
mteb/models/model_implementations/pylate_models.py +1 -4
mteb/models/model_implementations/random_baseline.py +6 -2
mteb/models/model_implementations/seed_1_6_embedding_models.py +7 -2
mteb/models/model_implementations/voyage_v.py +6 -2
mteb/models/model_meta.py +396 -19
mteb/models/sentence_transformer_wrapper.py +2 -7
mteb/tasks/reranking/jpn/__init__.py +9 -1
mteb/tasks/reranking/jpn/j_qa_ra_reranking_lite.py +49 -0
mteb/tasks/reranking/jpn/ja_cwir_reranking_lite.py +47 -0
mteb/tasks/retrieval/code/fresh_stack_retrieval.py +8 -5
mteb/tasks/retrieval/jpn/__init__.py +8 -0
mteb/tasks/retrieval/jpn/ja_cwir_retrieval_lite.py +47 -0
mteb/tasks/retrieval/jpn/jaqket_retrieval_lite.py +50 -0
mteb/tasks/retrieval/jpn/miracl_ja_retrieval_lite.py +52 -0
mteb/tasks/retrieval/jpn/mr_tydi_ja_retrieval_lite.py +48 -0
mteb/types/_encoder_io.py +7 -2
{mteb-2.3.10.dist-info → mteb-2.4.1.dist-info}/METADATA +2 -1
{mteb-2.3.10.dist-info → mteb-2.4.1.dist-info}/RECORD +53 -39
{mteb-2.3.10.dist-info → mteb-2.4.1.dist-info}/WHEEL +0 -0
{mteb-2.3.10.dist-info → mteb-2.4.1.dist-info}/entry_points.txt +0 -0
{mteb-2.3.10.dist-info → mteb-2.4.1.dist-info}/licenses/LICENSE +0 -0
{mteb-2.3.10.dist-info → mteb-2.4.1.dist-info}/top_level.txt +0 -0

mteb/models/model_implementations/nomic_models.py CHANGED Viewed

@@ -193,7 +193,7 @@ NOMIC_CITATION = """
 """
 nomic_embed_v1_5 = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -221,7 +221,7 @@ nomic_embed_v1_5 = ModelMeta(
 )
 nomic_embed_v1 = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -249,7 +249,7 @@ nomic_embed_v1 = ModelMeta(
 )
 nomic_embed_v1_ablated = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -276,7 +276,7 @@ nomic_embed_v1_ablated = ModelMeta(
 )
 nomic_embed_v1_unsupervised = ModelMeta(
-    loader=NomicWrapper,
+    loader=NomicWrapper,  # type: ignore
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -329,3 +329,141 @@ nomic_modern_bert_embed = ModelMeta(
     training_datasets=nomic_training_data,
     public_training_data=None,
 )
+m_languages = [
+    "eng-Latn",
+    "spa-Latn",
+    "fra-Latn",
+    "deu-Latn",
+    "ita-Latn",
+    "por-Latn",
+    "pol-Latn",
+    "nld-Latn",
+    "tur-Latn",
+    "jpn-Jpan",
+    "vie-Latn",
+    "rus-Cyrl",
+    "ind-Latn",
+    "arb-Arab",
+    "ces-Latn",
+    "ron-Latn",
+    "swe-Latn",
+    "ell-Grek",
+    "ukr-Cyrl",
+    "zho-Hans",
+    "hun-Latn",
+    "dan-Latn",
+    "nor-Latn",
+    "hin-Deva",
+    "fin-Latn",
+    "bul-Cyrl",
+    "kor-Hang",
+    "slk-Latn",
+    "tha-Thai",
+    "heb-Hebr",
+    "cat-Latn",
+    "lit-Latn",
+    "fas-Arab",
+    "msa-Latn",
+    "slv-Latn",
+    "lav-Latn",
+    "mar-Deva",
+    "ben-Beng",
+    "sqi-Latn",
+    "cym-Latn",
+    "bel-Cyrl",
+    "mal-Mlym",
+    "kan-Knda",
+    "mkd-Cyrl",
+    "urd-Arab",
+    "fry-Latn",
+    "fil-Latn",
+    "tel-Telu",
+    "eus-Latn",
+    "swh-Latn",
+    "som-Latn",
+    "snd-Arab",
+    "uzb-Latn",
+    "cos-Latn",
+    "hrv-Latn",
+    "guj-Gujr",
+    "hin-Latn",
+    "ceb-Latn",
+    "epo-Latn",
+    "jav-Latn",
+    "lat-Latn",
+    "zul-Latn",
+    "mon-Cyrl",
+    "sin-Sinh",
+    "ell-Latn",
+    "gle-Latn",
+    "kir-Cyrl",
+    "tgk-Cyrl",
+    "mya-Mymr",
+    "khm-Khmr",
+    "mlg-Latn",
+    "pan-Guru",
+    "rus-Latn",
+    "sna-Latn",
+    "zho-Latn",
+    "hau-Latn",
+    "heb-Latn",
+    "hmn-Latn",
+    "hat-Latn",
+    "jpn-Latn",
+    "sun-Latn",
+    "bul-Latn",
+    "gla-Latn",
+    "nya-Latn",
+    "pus-Arab",
+    "kur-Latn",
+    "hbs-Latn",
+    "amh-Ethi",
+    "ibo-Latn",
+    "lao-Laoo",
+    "mri-Latn",
+    "nno-Latn",
+    "smo-Latn",
+    "yid-Hebr",
+    "sot-Latn",
+    "tgl-Latn",
+    "xho-Latn",
+    "yor-Latn",
+]
+nomic_embed_text_v2_moe = ModelMeta(
+    loader=NomicWrapper,  # type: ignore
+    loader_kwargs=dict(
+        trust_remote_code=True,
+        model_prompts=model_prompts,
+    ),
+    name="nomic-ai/nomic-embed-text-v2-moe",
+    languages=m_languages,
+    open_weights=True,
+    revision="1066b6599d099fbb93dfcb64f9c37a7c9e503e85",
+    release_date="2025-02-07",
+    n_parameters=475292928,
+    memory_usage_mb=1813,
+    max_tokens=512,
+    embed_dim=768,
+    license="apache-2.0",
+    reference="https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    adapted_from="nomic-ai/nomic-xlm-2048",
+    public_training_data="https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access",
+    public_training_code="https://github.com/nomic-ai/contrastors/blob/613ddfd37309e538cceadb05b1e6423e7b09f603/src/contrastors/configs/train/contrastive_finetune_moe.yaml",
+    training_datasets=None,  # did not look into this further
+    superseded_by=None,
+    citation="""@misc{nussbaum2025trainingsparsemixtureexperts,
+      title={Training Sparse Mixture Of Experts Text Embedding Models},
+      author={Zach Nussbaum and Brandon Duderstadt},
+      year={2025},
+      eprint={2502.07972},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2502.07972},
+}""",
+)

mteb/models/model_implementations/nomic_models_vision.py CHANGED Viewed

@@ -1,8 +1,9 @@
-from typing import Any
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
 import torch
 import torch.nn.functional as F
-from PIL import Image
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
@@ -12,6 +13,9 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from PIL import Image
 NOMIC_EMBED_VISION_CITATION = """@article{nussbaum2024nomicembedvision,
       title={Nomic Embed Vision: Expanding the Latent Space},
       author={Nussbaum, Zach and Duderstadt, Brandon and Mulyar, Andriy},

mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py CHANGED Viewed

@@ -1,7 +1,6 @@
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import torch
-from PIL import Image
 from torch.utils.data import DataLoader
 from mteb.abstasks.task_metadata import TaskMetadata
@@ -9,6 +8,10 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    pass
 LLAMA_NEMORETRIEVER_CITATION = """@misc{xu2025llamanemoretrievercolembedtopperforming,
       title={Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model},
       author={Mengyao Xu and Gabriel Moreira and Ronay Ak and Radek Osmulski and Yauhen Babakhin and Zhiding Yu and Benedikt Schifferer and Even Oldridge},
@@ -53,6 +56,7 @@ class LlamaNemoretrieverColembed(AbsEncoder):
         **kwargs,
     ):
         import torchvision.transforms.functional as F
+        from PIL import Image
         all_images = []
         if isinstance(images, DataLoader):

mteb/models/model_implementations/pylate_models.py CHANGED Viewed

@@ -328,13 +328,10 @@ class MultiVectorModel(AbsEncoder, PylateSearchEncoder):
             inputs,
             prompt_name=prompt_name,
             is_query=prompt_type == PromptType.query,
-            convert_to_tensor=True,
             **kwargs,
         )
-        # encode returns a list of tensors shaped (x, token_dim), pad to uniform length
-        pred = torch.nn.utils.rnn.pad_sequence(pred, batch_first=True, padding_value=0)
-        return pred.cpu().numpy()
+        return pred
 colbert_v2 = ModelMeta(

mteb/models/model_implementations/random_baseline.py CHANGED Viewed

@@ -1,9 +1,10 @@
+from __future__ import annotations
 import hashlib
-from typing import Any, Literal
+from typing import TYPE_CHECKING, Any, Literal
 import numpy as np
 import torch
-from PIL import Image
 from torch.utils.data import DataLoader
 from mteb.abstasks.task_metadata import TaskMetadata
@@ -14,6 +15,9 @@ from mteb.similarity_functions import (
 )
 from mteb.types._encoder_io import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from PIL import Image
 def _string_to_vector(text: str | None, size: int) -> np.ndarray:
     """Generate a deterministic random vector based on a string.

mteb/models/model_implementations/seed_1_6_embedding_models.py CHANGED Viewed

@@ -1,14 +1,15 @@
+from __future__ import annotations
 import base64
 import logging
 import os
 import time
 from concurrent.futures import ThreadPoolExecutor, as_completed
 from io import BytesIO
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import requests
 import torch
-from PIL import Image
 from torch.utils.data import DataLoader
 from mteb._requires_package import requires_package
@@ -19,6 +20,10 @@ from mteb.models.model_implementations.nvidia_models import nvidia_training_data
 from mteb.models.model_meta import ModelMeta
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from PIL import Image
 logger = logging.getLogger(__name__)

mteb/models/model_implementations/voyage_v.py CHANGED Viewed

@@ -1,8 +1,9 @@
+from __future__ import annotations
 import logging
-from typing import Any, Literal
+from typing import TYPE_CHECKING, Any, Literal
 import torch
-from PIL import Image
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
@@ -12,6 +13,9 @@ from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from PIL import Image
 def _downsample_image(
     image: Image.Image, max_pixels: int = 16000000, target_longest_side: int = 4000

mteb 2.3.10__py3-none-any.whl → 2.4.1__py3-none-any.whl

mteb 2.3.10py3-none-any.whl → 2.4.1py3-none-any.whl