PyPI - mteb - Versions diffs - 2.6.6__py3-none-any.whl → 2.6.8__py3-none-any.whl - Mend

mteb 2.6.6py3-none-any.whl → 2.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (55) hide show

mteb/_create_dataloaders.py +7 -3
mteb/_evaluators/any_sts_evaluator.py +6 -3
mteb/_evaluators/clustering_evaluator.py +2 -2
mteb/_evaluators/evaluator.py +2 -1
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +8 -5
mteb/_evaluators/pair_classification_evaluator.py +2 -2
mteb/_evaluators/retrieval_evaluator.py +2 -2
mteb/_evaluators/sklearn_evaluator.py +3 -3
mteb/_evaluators/text/bitext_mining_evaluator.py +5 -3
mteb/_evaluators/text/summarization_evaluator.py +3 -2
mteb/_evaluators/zeroshot_classification_evaluator.py +5 -3
mteb/abstasks/abstask.py +3 -2
mteb/abstasks/aggregated_task.py +3 -3
mteb/abstasks/classification.py +3 -3
mteb/abstasks/clustering.py +2 -2
mteb/abstasks/clustering_legacy.py +2 -2
mteb/abstasks/image/image_text_pair_classification.py +2 -1
mteb/abstasks/multilabel_classification.py +2 -2
mteb/abstasks/pair_classification.py +2 -2
mteb/abstasks/retrieval.py +15 -14
mteb/abstasks/sts.py +2 -2
mteb/abstasks/text/bitext_mining.py +3 -3
mteb/abstasks/text/summarization.py +2 -2
mteb/abstasks/zeroshot_classification.py +3 -2
mteb/benchmarks/benchmarks/__init__.py +2 -0
mteb/benchmarks/benchmarks/benchmarks.py +24 -0
mteb/cli/build_cli.py +2 -1
mteb/deprecated_evaluator.py +3 -3
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2CybersecurityRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EconomicRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EnergyRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2HrRetrieval.json +32 -0
mteb/evaluate.py +5 -3
mteb/models/abs_encoder.py +3 -1
mteb/models/instruct_wrapper.py +1 -1
mteb/models/model_implementations/bm25.py +3 -3
mteb/models/model_implementations/jina_clip.py +46 -8
mteb/models/model_implementations/mxbai_models.py +118 -1
mteb/models/model_implementations/nvidia_models.py +73 -5
mteb/models/model_implementations/octen_models.py +30 -0
mteb/models/model_implementations/pylate_models.py +5 -4
mteb/models/model_implementations/sentence_transformers_models.py +66 -0
mteb/models/models_protocols.py +6 -4
mteb/models/search_wrappers.py +7 -6
mteb/models/sentence_transformer_wrapper.py +5 -4
mteb/tasks/retrieval/kor/__init__.py +15 -1
mteb/tasks/retrieval/kor/kovidore2_bench_retrieval.py +142 -0
mteb/types/__init__.py +2 -0
mteb/types/_encoder_io.py +12 -0
{mteb-2.6.6.dist-info → mteb-2.6.8.dist-info}/METADATA +1 -1
{mteb-2.6.6.dist-info → mteb-2.6.8.dist-info}/RECORD +55 -50
{mteb-2.6.6.dist-info → mteb-2.6.8.dist-info}/WHEEL +0 -0
{mteb-2.6.6.dist-info → mteb-2.6.8.dist-info}/entry_points.txt +0 -0
{mteb-2.6.6.dist-info → mteb-2.6.8.dist-info}/licenses/LICENSE +0 -0
{mteb-2.6.6.dist-info → mteb-2.6.8.dist-info}/top_level.txt +0 -0

mteb/benchmarks/benchmarks/benchmarks.py CHANGED Viewed

@@ -2728,3 +2728,27 @@ JMTEB_LITE_V1 = Benchmark(
 """,
     contacts=["lsz05"],
 )
+KOVIDORE_V2 = Benchmark(
+    name="KoViDoRe(v2)",
+    display_name="KoViDoRe v2",
+    tasks=get_tasks(
+        tasks=[
+            "KoVidore2CybersecurityRetrieval",
+            "KoVidore2EconomicRetrieval",
+            "KoVidore2EnergyRetrieval",
+            "KoVidore2HrRetrieval",
+        ]
+    ),
+    description="KoViDoRe v2 sets a new industry gold standard for multi-modal, enterprise document visual retrieval evaluation. It addresses a critical challenge in production RAG systems: retrieving accurate information from complex, visually-rich documents.",
+    reference="https://github.com/whybe-choi/kovidore-data-generator",
+    citation=r"""
+@misc{choi2026kovidorev2,
+  author = {Yongbin Choi},
+  note = {A benchmark for evaluating Korean vision document retrieval with multi-page reasoning queries in practical domains},
+  title = {KoViDoRe v2: a comprehensive evaluation of vision document retrieval for enterprise use-cases},
+  url = {https://github.com/whybe-choi/kovidore-data-generator},
+  year = {2026},
+}
+""",
+)

mteb/cli/build_cli.py CHANGED Viewed

@@ -13,6 +13,7 @@ from mteb.cache import ResultCache
 from mteb.cli._display_tasks import _display_benchmarks, _display_tasks
 from mteb.cli.generate_model_card import generate_model_card
 from mteb.evaluate import OverwriteStrategy
+from mteb.types._encoder_io import EncodeKwargs
 logger = logging.getLogger(__name__)
@@ -64,7 +65,7 @@ def run(args: argparse.Namespace) -> None:
             eval_splits=args.eval_splits,
         )
-    encode_kwargs = {}
+    encode_kwargs: EncodeKwargs = {}
     if args.batch_size is not None:
         encode_kwargs["batch_size"] = args.batch_size

mteb/deprecated_evaluator.py CHANGED Viewed

@@ -28,7 +28,7 @@ from mteb.models import (
     SentenceTransformerEncoderWrapper,
 )
 from mteb.results import TaskResult
-from mteb.types import ScoresDict
+from mteb.types import EncodeKwargs, ScoresDict
 if sys.version_info >= (3, 13):
     from warnings import deprecated
@@ -174,7 +174,7 @@ class MTEB:
         split: str,
         subsets_to_run: list[str] | None = None,
         *,
-        encode_kwargs: dict[str, Any],
+        encode_kwargs: EncodeKwargs,
         **kwargs: Any,
     ):
         tick = time()
@@ -263,7 +263,7 @@ class MTEB:
         overwrite_results: bool = False,
         raise_error: bool = True,
         co2_tracker: bool = False,
-        encode_kwargs: dict[str, Any] | None = None,
+        encode_kwargs: EncodeKwargs | None = None,
         **kwargs,
     ) -> list[TaskResult]:
         """Run the evaluation pipeline on the selected tasks.

mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2CybersecurityRetrieval.json ADDED Viewed

@@ -0,0 +1,32 @@
+{
+    "test": {
+        "num_samples": 1299,
+        "number_of_characters": 9254,
+        "documents_text_statistics": null,
+        "documents_image_statistics": {
+            "min_image_width": 2245,
+            "average_image_width": 2370.324347826087,
+            "max_image_width": 3508,
+            "min_image_height": 2481,
+            "average_image_height": 3289.8060869565215,
+            "max_image_height": 3580,
+            "unique_images": 1132
+        },
+        "queries_text_statistics": {
+            "total_text_length": 9254,
+            "min_text_length": 15,
+            "average_text_length": 62.10738255033557,
+            "max_text_length": 108,
+            "unique_texts": 149
+        },
+        "queries_image_statistics": null,
+        "relevant_docs_statistics": {
+            "num_relevant_docs": 409,
+            "min_relevant_docs_per_query": 1,
+            "average_relevant_docs_per_query": 2.7449664429530203,
+            "max_relevant_docs_per_query": 7,
+            "unique_relevant_docs": 316
+        },
+        "top_ranked_statistics": null
+    }
+}

mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EconomicRetrieval.json ADDED Viewed

@@ -0,0 +1,32 @@
+{
+    "test": {
+        "num_samples": 1640,
+        "number_of_characters": 8331,
+        "documents_text_statistics": null,
+        "documents_image_statistics": {
+            "min_image_width": 2313,
+            "average_image_width": 2347.5321597833445,
+            "max_image_width": 2481,
+            "min_image_height": 3138,
+            "average_image_height": 3214.301963439404,
+            "max_image_height": 3508,
+            "unique_images": 1442
+        },
+        "queries_text_statistics": {
+            "total_text_length": 8331,
+            "min_text_length": 23,
+            "average_text_length": 51.11042944785276,
+            "max_text_length": 110,
+            "unique_texts": 163
+        },
+        "queries_image_statistics": null,
+        "relevant_docs_statistics": {
+            "num_relevant_docs": 413,
+            "min_relevant_docs_per_query": 1,
+            "average_relevant_docs_per_query": 2.5337423312883436,
+            "max_relevant_docs_per_query": 6,
+            "unique_relevant_docs": 349
+        },
+        "top_ranked_statistics": null
+    }
+}

mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EnergyRetrieval.json ADDED Viewed

@@ -0,0 +1,32 @@
+{
+    "test": {
+        "num_samples": 2166,
+        "number_of_characters": 9764,
+        "documents_text_statistics": null,
+        "documents_image_statistics": {
+            "min_image_width": 2221,
+            "average_image_width": 2339.4957350727545,
+            "max_image_width": 2480,
+            "min_image_height": 3036,
+            "average_image_height": 3242.8138484696437,
+            "max_image_height": 3508,
+            "unique_images": 1974
+        },
+        "queries_text_statistics": {
+            "total_text_length": 9764,
+            "min_text_length": 22,
+            "average_text_length": 56.4393063583815,
+            "max_text_length": 103,
+            "unique_texts": 173
+        },
+        "queries_image_statistics": null,
+        "relevant_docs_statistics": {
+            "num_relevant_docs": 525,
+            "min_relevant_docs_per_query": 1,
+            "average_relevant_docs_per_query": 3.0346820809248554,
+            "max_relevant_docs_per_query": 7,
+            "unique_relevant_docs": 442
+        },
+        "top_ranked_statistics": null
+    }
+}

mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2HrRetrieval.json ADDED Viewed

@@ -0,0 +1,32 @@
+{
+    "test": {
+        "num_samples": 2330,
+        "number_of_characters": 13131,
+        "documents_text_statistics": null,
+        "documents_image_statistics": {
+            "min_image_width": 1949,
+            "average_image_width": 2430.1152204836417,
+            "max_image_width": 3505,
+            "min_image_height": 2480,
+            "average_image_height": 3350.3921289710765,
+            "max_image_height": 3626,
+            "unique_images": 2096
+        },
+        "queries_text_statistics": {
+            "total_text_length": 13131,
+            "min_text_length": 21,
+            "average_text_length": 59.41628959276018,
+            "max_text_length": 112,
+            "unique_texts": 221
+        },
+        "queries_image_statistics": null,
+        "relevant_docs_statistics": {
+            "num_relevant_docs": 726,
+            "min_relevant_docs_per_query": 1,
+            "average_relevant_docs_per_query": 3.2850678733031673,
+            "max_relevant_docs_per_query": 7,
+            "unique_relevant_docs": 575
+        },
+        "top_ranked_statistics": null
+    }
+}

mteb/evaluate.py CHANGED Viewed

@@ -5,7 +5,7 @@ import warnings
 from collections.abc import Iterable
 from pathlib import Path
 from time import time
-from typing import TYPE_CHECKING, Any, cast
+from typing import TYPE_CHECKING, cast
 from datasets.exceptions import DatasetNotFoundError
 from tqdm.auto import tqdm
@@ -27,6 +27,7 @@ from mteb.models.sentence_transformer_wrapper import (
 from mteb.results import ModelResult, TaskResult
 from mteb.results.task_result import TaskError
 from mteb.types import HFSubset, PromptType, SplitName
+from mteb.types._encoder_io import EncodeKwargs
 from mteb.types._metadata import ModelName, Revision
 if TYPE_CHECKING:
@@ -85,9 +86,10 @@ def _evaluate_task(
     *,
     splits: dict[SplitName, list[HFSubset]],
     co2_tracker: bool | None,
-    encode_kwargs: dict[str, Any],
+    encode_kwargs: EncodeKwargs,
     prediction_folder: Path | None,
     public_only: bool | None,
+    num_proc: int = 1,
 ) -> TaskResult | TaskError:
     """The core logic to run a model on a given task. See `evaluate` for more details.
@@ -270,7 +272,7 @@ def evaluate(
     *,
     co2_tracker: bool | None = None,
     raise_error: bool = True,
-    encode_kwargs: dict[str, Any] | None = None,
+    encode_kwargs: EncodeKwargs | None = None,
     cache: ResultCache | None = ResultCache(),
     overwrite_strategy: str | OverwriteStrategy = "only-missing",
     prediction_folder: Path | str | None = None,

mteb/models/abs_encoder.py CHANGED Viewed

@@ -5,6 +5,7 @@ from collections.abc import Callable, Sequence
 from typing import Any, Literal, cast, get_args, overload
 from torch.utils.data import DataLoader
+from typing_extensions import Unpack
 import mteb
 from mteb.abstasks.task_metadata import TaskMetadata, TaskType
@@ -19,6 +20,7 @@ from mteb.similarity_functions import (
 from mteb.types import (
     Array,
     BatchedInput,
+    EncodeKwargs,
     PromptType,
 )
@@ -370,7 +372,7 @@ class AbsEncoder(ABC):
         hf_split: str,
         hf_subset: str,
         prompt_type: PromptType | None = None,
-        **kwargs: Any,
+        **kwargs: Unpack[EncodeKwargs],
     ) -> Array:
         """Encodes the given sentences using the encoder.

mteb/models/instruct_wrapper.py CHANGED Viewed

@@ -92,7 +92,7 @@ def instruct_wrapper(
             logger.info(
                 f"Using instruction: '{instruction}' for task: '{task_metadata.name}'"
             )
-            embeddings = super().encode(  # type: ignore[safe-super]
+            embeddings = super().encode(  # type: ignore[safe-super,call-arg]
                 _inputs,  # type: ignore[arg-type]
                 instruction=instruction,
                 *args,

mteb/models/model_implementations/bm25.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import logging
-from typing import Any
 from mteb._create_dataloaders import _create_text_queries_dataloader
 from mteb._requires_package import requires_package
@@ -8,6 +7,7 @@ from mteb.models.model_meta import ModelMeta
 from mteb.models.models_protocols import SearchProtocol
 from mteb.types import (
     CorpusDatasetType,
+    EncodeKwargs,
     InstructionDatasetType,
     QueryDatasetType,
     RetrievalOutputType,
@@ -49,7 +49,7 @@ def bm25_loader(model_name, **kwargs) -> SearchProtocol:
             task_metadata: TaskMetadata,
             hf_split: str,
             hf_subset: str,
-            encode_kwargs: dict[str, Any],
+            encode_kwargs: EncodeKwargs,
         ) -> None:
             logger.info("Encoding Corpus...")
             corpus_texts = [
@@ -74,7 +74,7 @@ def bm25_loader(model_name, **kwargs) -> SearchProtocol:
             hf_split: str,
             hf_subset: str,
             top_k: int,
-            encode_kwargs: dict[str, Any],
+            encode_kwargs: EncodeKwargs,
             instructions: InstructionDatasetType | None = None,
             top_ranked: TopRankedDocumentsType | None = None,
         ) -> RetrievalOutputType:

mteb/models/model_implementations/jina_clip.py CHANGED Viewed

@@ -7,6 +7,7 @@ from tqdm.auto import tqdm
 from mteb._requires_package import requires_image_dependencies
 from mteb.abstasks.task_metadata import TaskMetadata
 from mteb.models.abs_encoder import AbsEncoder
+from mteb.models.model_implementations.colpali_models import COLPALI_TRAINING_DATA
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 from mteb.types import Array, BatchedInput, PromptType
@@ -120,6 +121,15 @@ class JinaCLIPModel(AbsEncoder):
         raise ValueError
+_JINA_CLIP_TRAIN_DATASETS_V1 = {
+    # LAION400M
+    # ShareGPT4V
+    "MSMARCO",
+    "NQ",
+    "HotpotQA",
+    # Natural Language Inference (NLI) dataset (Bowman et al., 2015)
+}
 jina_clip_v1 = ModelMeta(
     loader=JinaCLIPModel,
     name="jinaai/jina-clip-v1",
@@ -140,13 +150,41 @@ jina_clip_v1 = ModelMeta(
     reference="https://huggingface.co/jinaai/jina-clip-v1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=True,
-    training_datasets={
-        # LAION400M
-        # ShareGPT4V
-        "MSMARCO",
-        # NQ
-        # HotpotQA
-        # Natural Language Inference (NLI) dataset (Bowman et al., 2015)
-    },
+    training_datasets=_JINA_CLIP_TRAIN_DATASETS_V1,
     citation=JINA_CLIP_CITATION,
+    superseded_by="jinaai/jina-clip-v2",
+)
+jina_clip_v2 = ModelMeta(
+    loader=JinaCLIPModel,
+    name="jinaai/jina-clip-v2",
+    revision="344d954da76eb8ad47a7aaff42d012e30c15b8fe",
+    release_date="2024-10-09",
+    languages=["eng-Latn"],
+    n_parameters=865278477,
+    memory_usage_mb=1650.0,
+    max_tokens=8192,
+    embed_dim=1024,
+    license="cc-by-nc-4.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=["PyTorch", "Sentence Transformers"],
+    reference="https://huggingface.co/jinaai/jina-clip-v2",
+    similarity_fn_name=ScoringFunction.COSINE,
+    use_instructions=False,
+    training_datasets=_JINA_CLIP_TRAIN_DATASETS_V1 | COLPALI_TRAINING_DATA,
+    modalities=["text", "image"],
+    model_type=["dense"],
+    citation="""
+@misc{koukounas2024jinaclipv2multilingualmultimodalembeddings,
+      title={jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images},
+      author={Andreas Koukounas and Georgios Mastrapas and Bo Wang and Mohammad Kalim Akram and Sedigheh Eslami and Michael Günther and Isabelle Mohr and Saba Sturua and Scott Martens and Nan Wang and Han Xiao},
+      year={2024},
+      eprint={2412.08802},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2412.08802},
+}
+""",
 )

mteb/models/model_implementations/mxbai_models.py CHANGED Viewed

@@ -2,7 +2,10 @@ from mteb.models.model_meta import (
     ModelMeta,
     ScoringFunction,
 )
-from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
+from mteb.models.sentence_transformer_wrapper import (
+    CrossEncoderWrapper,
+    sentence_transformers_loader,
+)
 mixedbread_training_data = {
     # from correspondence:
@@ -122,3 +125,117 @@ mxbai_embed_xsmall_v1 = ModelMeta(
   url={https://www.mixedbread.ai/blog/mxbai-embed-xsmall-v1},
 }""",
 )
+mxbai_rerank_xsmall_v1 = ModelMeta(
+    loader=CrossEncoderWrapper,
+    name="mixedbread-ai/mxbai-rerank-xsmall-v1",
+    revision="b5c6e9da73abc3711f593f705371cdbe9e0fe422",
+    release_date="2024-02-29",
+    languages=["eng-Latn"],
+    n_parameters=70830337,
+    memory_usage_mb=135.0,
+    max_tokens=512,
+    embed_dim=None,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=[
+        "PyTorch",
+        "Sentence Transformers",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-rerank-xsmall-v1",
+    similarity_fn_name=None,
+    use_instructions=None,
+    training_datasets=None,
+    adapted_from=None,
+    superseded_by=None,
+    modalities=["text"],
+    model_type=["cross-encoder"],
+    citation="""@online{rerank2024mxbai,
+  title={Boost Your Search With The Crispy Mixedbread Rerank Models},
+  author={Aamir Shakir and Darius Koenig and Julius Lipp and Sean Lee},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-rerank-v1},
+}""",
+    contacts=None,
+)
+mxbai_rerank_base_v1 = ModelMeta(
+    loader=CrossEncoderWrapper,
+    name="mixedbread-ai/mxbai-rerank-base-v1",
+    revision="800f24c113213a187e65bde9db00c15a2bb12738",
+    release_date="2024-02-29",
+    languages=["eng-Latn"],
+    n_parameters=184422913,
+    memory_usage_mb=352.0,
+    max_tokens=512,
+    embed_dim=None,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=[
+        "PyTorch",
+        "Sentence Transformers",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-rerank-base-v1",
+    similarity_fn_name=None,
+    use_instructions=None,
+    training_datasets=None,
+    adapted_from=None,
+    superseded_by=None,
+    modalities=["text"],
+    model_type=["cross-encoder"],
+    citation="""@online{rerank2024mxbai,
+  title={Boost Your Search With The Crispy Mixedbread Rerank Models},
+  author={Aamir Shakir and Darius Koenig and Julius Lipp and Sean Lee},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-rerank-v1},
+}""",
+    contacts=None,
+)
+mxbai_rerank_large_v1 = ModelMeta(
+    loader=CrossEncoderWrapper,
+    name="mixedbread-ai/mxbai-rerank-large-v1",
+    revision="98f655841d5caf0b16eaff79c2b4ca109d920d17",
+    release_date="2024-02-29",
+    languages=["eng-Latn"],
+    n_parameters=435062785,
+    memory_usage_mb=830.0,
+    max_tokens=512,
+    embed_dim=None,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=[
+        "PyTorch",
+        "Sentence Transformers",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-rerank-large-v1",
+    similarity_fn_name=None,
+    use_instructions=None,
+    training_datasets=None,
+    adapted_from=None,
+    superseded_by=None,
+    modalities=["text"],
+    model_type=["cross-encoder"],
+    citation="""@online{rerank2024mxbai,
+  title={Boost Your Search With The Crispy Mixedbread Rerank Models},
+  author={Aamir Shakir and Darius Koenig and Julius Lipp and Sean Lee},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-rerank-v1},
+}""",
+    contacts=None,
+)

mteb/models/model_implementations/nvidia_models.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import logging
+from collections.abc import Callable
 from typing import Any
 import torch
@@ -29,7 +30,7 @@ NV_RETRIEVER_CITATION = """@misc{moreira2025nvretrieverimprovingtextembedding,
 }"""
-def instruction_template(
+def _instruction_template(
     instruction: str, prompt_type: PromptType | None = None
 ) -> str:
     return f"Instruct: {instruction}\nQuery: " if instruction else ""
@@ -100,10 +101,77 @@ nvidia_training_datasets = {
     "MrTidyRetrieval",
 }
+class _NVEmbedWrapper(InstructSentenceTransformerModel):
+    """Inherited, because nvembed requires `sbert==2`, but it doesn't have tokenizers kwargs"""
+    def __init__(
+        self,
+        model_name: str,
+        revision: str,
+        instruction_template: str
+        | Callable[[str, PromptType | None], str]
+        | None = None,
+        max_seq_length: int | None = None,
+        apply_instruction_to_passages: bool = True,
+        padding_side: str | None = None,
+        add_eos_token: bool = False,
+        prompts_dict: dict[str, str] | None = None,
+        **kwargs: Any,
+    ):
+        from sentence_transformers import __version__ as sbert_version
+        required_transformers_version = "4.42.4"
+        required_sbert_version = "2.7.0"
+        if Version(transformers_version) != Version(required_transformers_version):
+            raise RuntimeError(
+                f"transformers version {transformers_version} is not match with required "
+                f"install version {required_transformers_version} to run `nvidia/NV-Embed-v2`"
+            )
+        if Version(sbert_version) != Version(required_sbert_version):
+            raise RuntimeError(
+                f"sbert version {sbert_version} is not match with required "
+                f"install version {required_sbert_version} to run `nvidia/NV-Embed-v2`"
+            )
+        requires_package(
+            self, "flash_attn", model_name, "pip install 'mteb[flash_attention]'"
+        )
+        from sentence_transformers import SentenceTransformer
+        if (
+            isinstance(instruction_template, str)
+            and "{instruction}" not in instruction_template
+        ):
+            raise ValueError(
+                "Instruction template must contain the string '{instruction}'."
+            )
+        if instruction_template is None:
+            logger.warning(
+                "No instruction template provided. Instructions will be used as-is."
+            )
+        self.instruction_template = instruction_template
+        self.model_name = model_name
+        self.model = SentenceTransformer(model_name, revision=revision, **kwargs)
+        self.model.tokenizer.padding_side = padding_side
+        self.model.tokenizer.add_eos_token = add_eos_token
+        if max_seq_length:
+            # https://github.com/huggingface/sentence-transformers/issues/3575
+            self.model.max_seq_length = max_seq_length
+        self.apply_instruction_to_passages = apply_instruction_to_passages
+        self.prompts_dict = prompts_dict
 NV_embed_v2 = ModelMeta(
-    loader=InstructSentenceTransformerModel,
+    loader=_NVEmbedWrapper,
     loader_kwargs=dict(
-        instruction_template=instruction_template,
+        instruction_template=_instruction_template,
         trust_remote_code=True,
         max_seq_length=32768,
         padding_side="right",
@@ -132,9 +200,9 @@ NV_embed_v2 = ModelMeta(
 )
 NV_embed_v1 = ModelMeta(
-    loader=InstructSentenceTransformerModel,
+    loader=_NVEmbedWrapper,
     loader_kwargs=dict(
-        instruction_template=instruction_template,
+        instruction_template=_instruction_template,
         trust_remote_code=True,
         max_seq_length=32768,
         padding_side="right",

mteb/models/model_implementations/octen_models.py CHANGED Viewed

@@ -163,6 +163,36 @@ _PREDEFINED_PROMPTS = {
     "German1Retrieval": "Given a query, retrieve relevant passages",
 }
+Octen_Embedding_0B6 = ModelMeta(
+    loader=InstructSentenceTransformerModel,
+    loader_kwargs=dict(
+        instruction_template=instruction_template,
+        apply_instruction_to_passages=True,
+        prompts_dict=_PREDEFINED_PROMPTS,
+        max_seq_length=18480,
+        model_kwargs={"torch_dtype": "bfloat16"},
+    ),
+    name="bflhc/Octen-Embedding-0.6B",
+    languages=multilingual_langs,
+    open_weights=True,
+    revision="1a00a4e837bd788f6f8d91bc43201a5e52cf8ef8",
+    release_date="2026-01-10",
+    n_parameters=595776512,
+    memory_usage_mb=1136,
+    embed_dim=1024,
+    max_tokens=32768,
+    license="apache-2.0",
+    reference="https://huggingface.co/bflhc/Octen-Embedding-0.6B",
+    similarity_fn_name="cosine",
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
+    use_instructions=True,
+    public_training_code=None,
+    public_training_data=None,
+    training_datasets=training_data,
+    citation=OCTEN_CITATION,
+    adapted_from="Qwen/Qwen3-Embedding-0.6B",
+)
 Octen_Embedding_4B = ModelMeta(
     loader=InstructSentenceTransformerModel,
     loader_kwargs=dict(

mteb 2.6.6__py3-none-any.whl → 2.6.8__py3-none-any.whl

mteb 2.6.6py3-none-any.whl → 2.6.8py3-none-any.whl