PyPI - mteb - Versions diffs - 2.7.2__py3-none-any.whl → 2.7.3__py3-none-any.whl - Mend

mteb 2.7.2py3-none-any.whl → 2.7.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (151) hide show

mteb/_create_dataloaders.py +16 -9
mteb/_evaluators/any_sts_evaluator.py +10 -5
mteb/_evaluators/clustering_evaluator.py +10 -4
mteb/_evaluators/evaluator.py +9 -4
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +6 -4
mteb/_evaluators/pair_classification_evaluator.py +10 -5
mteb/_evaluators/retrieval_evaluator.py +19 -13
mteb/_evaluators/retrieval_metrics.py +9 -3
mteb/_evaluators/sklearn_evaluator.py +14 -10
mteb/_evaluators/text/bitext_mining_evaluator.py +8 -3
mteb/_evaluators/text/summarization_evaluator.py +8 -4
mteb/_evaluators/zeroshot_classification_evaluator.py +10 -3
mteb/_helpful_enum.py +5 -1
mteb/abstasks/_data_filter/filters.py +8 -2
mteb/abstasks/_data_filter/task_pipelines.py +7 -2
mteb/abstasks/_statistics_calculation.py +6 -4
mteb/abstasks/abstask.py +17 -9
mteb/abstasks/aggregate_task_metadata.py +20 -9
mteb/abstasks/aggregated_task.py +15 -8
mteb/abstasks/classification.py +15 -6
mteb/abstasks/clustering.py +17 -8
mteb/abstasks/clustering_legacy.py +14 -6
mteb/abstasks/image/image_text_pair_classification.py +17 -7
mteb/abstasks/multilabel_classification.py +11 -5
mteb/abstasks/pair_classification.py +19 -9
mteb/abstasks/regression.py +14 -6
mteb/abstasks/retrieval.py +27 -16
mteb/abstasks/retrieval_dataset_loaders.py +11 -8
mteb/abstasks/sts.py +19 -10
mteb/abstasks/task_metadata.py +17 -8
mteb/abstasks/text/bitext_mining.py +14 -7
mteb/abstasks/text/summarization.py +17 -7
mteb/abstasks/zeroshot_classification.py +15 -7
mteb/benchmarks/_create_table.py +13 -3
mteb/benchmarks/benchmark.py +11 -1
mteb/benchmarks/benchmarks/rteb_benchmarks.py +20 -9
mteb/cache.py +10 -5
mteb/cli/_display_tasks.py +9 -3
mteb/cli/build_cli.py +5 -2
mteb/cli/generate_model_card.py +9 -2
mteb/deprecated_evaluator.py +16 -12
mteb/evaluate.py +20 -18
mteb/filter_tasks.py +12 -7
mteb/get_tasks.py +9 -4
mteb/languages/language_scripts.py +8 -3
mteb/leaderboard/app.py +7 -3
mteb/leaderboard/table.py +7 -2
mteb/load_results.py +9 -3
mteb/models/abs_encoder.py +22 -12
mteb/models/cache_wrappers/cache_backend_protocol.py +5 -3
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +8 -4
mteb/models/cache_wrappers/cache_backends/faiss_cache.py +8 -3
mteb/models/cache_wrappers/cache_wrapper.py +14 -9
mteb/models/get_model_meta.py +11 -4
mteb/models/instruct_wrapper.py +13 -5
mteb/models/model_implementations/align_models.py +9 -4
mteb/models/model_implementations/bedrock_models.py +16 -6
mteb/models/model_implementations/blip2_models.py +9 -4
mteb/models/model_implementations/blip_models.py +9 -4
mteb/models/model_implementations/bm25.py +15 -10
mteb/models/model_implementations/bmretriever_models.py +6 -2
mteb/models/model_implementations/cde_models.py +9 -5
mteb/models/model_implementations/clip_models.py +9 -4
mteb/models/model_implementations/cohere_models.py +10 -4
mteb/models/model_implementations/cohere_v.py +9 -4
mteb/models/model_implementations/colpali_models.py +4 -3
mteb/models/model_implementations/colqwen_models.py +10 -31
mteb/models/model_implementations/colsmol_models.py +1 -1
mteb/models/model_implementations/conan_models.py +10 -4
mteb/models/model_implementations/dino_models.py +9 -4
mteb/models/model_implementations/e5_v.py +9 -4
mteb/models/model_implementations/eagerworks_models.py +10 -4
mteb/models/model_implementations/evaclip_models.py +9 -4
mteb/models/model_implementations/gme_v_models.py +5 -3
mteb/models/model_implementations/google_models.py +10 -4
mteb/models/model_implementations/granite_vision_embedding_models.py +6 -5
mteb/models/model_implementations/hinvec_models.py +5 -1
mteb/models/model_implementations/jasper_models.py +12 -5
mteb/models/model_implementations/jina_clip.py +9 -4
mteb/models/model_implementations/jina_models.py +10 -5
mteb/models/model_implementations/kalm_models.py +18 -12
mteb/models/model_implementations/linq_models.py +6 -1
mteb/models/model_implementations/listconranker.py +9 -4
mteb/models/model_implementations/llm2clip_models.py +9 -4
mteb/models/model_implementations/llm2vec_models.py +12 -6
mteb/models/model_implementations/mcinext_models.py +5 -2
mteb/models/model_implementations/moco_models.py +9 -4
mteb/models/model_implementations/mod_models.py +1 -1
mteb/models/model_implementations/model2vec_models.py +10 -4
mteb/models/model_implementations/no_instruct_sentence_models.py +12 -5
mteb/models/model_implementations/nomic_models.py +10 -4
mteb/models/model_implementations/nomic_models_vision.py +4 -3
mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py +7 -3
mteb/models/model_implementations/nvidia_models.py +12 -4
mteb/models/model_implementations/octen_models.py +1 -1
mteb/models/model_implementations/openai_models.py +9 -4
mteb/models/model_implementations/openclip_models.py +9 -4
mteb/models/model_implementations/opensearch_neural_sparse_models.py +10 -4
mteb/models/model_implementations/ops_moa_models.py +7 -2
mteb/models/model_implementations/promptriever_models.py +12 -6
mteb/models/model_implementations/pylate_models.py +19 -13
mteb/models/model_implementations/qwen3_models.py +8 -1
mteb/models/model_implementations/random_baseline.py +4 -3
mteb/models/model_implementations/repllama_models.py +13 -6
mteb/models/model_implementations/rerankers_custom.py +10 -4
mteb/models/model_implementations/rerankers_monot5_based.py +10 -4
mteb/models/model_implementations/salesforce_models.py +7 -1
mteb/models/model_implementations/seed_1_6_embedding_models.py +4 -2
mteb/models/model_implementations/seed_1_6_embedding_models_1215.py +5 -2
mteb/models/model_implementations/seed_models.py +1 -1
mteb/models/model_implementations/siglip_models.py +9 -4
mteb/models/model_implementations/slm_models.py +7 -4
mteb/models/model_implementations/uae_models.py +9 -4
mteb/models/model_implementations/vdr_models.py +7 -1
mteb/models/model_implementations/vista_models.py +9 -4
mteb/models/model_implementations/vlm2vec_models.py +9 -4
mteb/models/model_implementations/voyage_models.py +10 -4
mteb/models/model_implementations/voyage_v.py +10 -6
mteb/models/model_implementations/yuan_models_en.py +1 -1
mteb/models/model_meta.py +12 -7
mteb/models/models_protocols.py +19 -18
mteb/models/search_encoder_index/search_backend_protocol.py +7 -3
mteb/models/search_encoder_index/search_indexes/faiss_search_index.py +12 -4
mteb/models/search_wrappers.py +19 -12
mteb/models/sentence_transformer_wrapper.py +4 -3
mteb/models/vllm_wrapper.py +8 -6
mteb/results/benchmark_results.py +22 -17
mteb/results/model_result.py +21 -15
mteb/results/task_result.py +15 -9
mteb/similarity_functions.py +8 -2
mteb/tasks/aggregated_tasks/eng/cqadupstack_retrieval.py +3 -3
mteb/tasks/aggregated_tasks/eng/sts17_multilingual_visual_sts_eng.py +3 -3
mteb/tasks/aggregated_tasks/eng/sts_benchmark_multilingual_visual_sts_eng.py +3 -3
mteb/tasks/aggregated_tasks/fas/cqadupstack_retrieval_fa.py +3 -3
mteb/tasks/aggregated_tasks/fas/syn_per_chatbot_conv_sa_classification.py +3 -3
mteb/tasks/aggregated_tasks/multilingual/sts17_multilingual_vision_sts.py +3 -3
mteb/tasks/aggregated_tasks/multilingual/sts_benchmark_multilingual_visual_sts.py +3 -3
mteb/tasks/aggregated_tasks/nld/cqadupstack_nl_retrieval.py +3 -3
mteb/tasks/aggregated_tasks/pol/cqadupstack_retrieval_pl.py +3 -3
mteb/tasks/clustering/nob/snl_clustering.py +7 -2
mteb/tasks/clustering/nob/vg_clustering.py +7 -2
mteb/tasks/retrieval/eng/limit_retrieval.py +6 -1
mteb/tasks/retrieval/multilingual/ru_sci_bench_retrieval.py +3 -3
mteb/types/_encoder_io.py +1 -1
mteb/types/statistics.py +9 -2
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/METADATA +1 -1
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/RECORD +151 -151
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/WHEEL +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/entry_points.txt +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/licenses/LICENSE +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/top_level.txt +0 -0

mteb/abstasks/clustering.py CHANGED Viewed

@@ -1,9 +1,10 @@
+from __future__ import annotations
 import itertools
 import logging
 import random
 from collections import defaultdict
-from pathlib import Path
-from typing import Any, cast
+from typing import TYPE_CHECKING, Any, cast
 import numpy as np
 from datasets import Dataset, DatasetDict
@@ -11,13 +12,10 @@ from sklearn.cluster import MiniBatchKMeans
 from sklearn.metrics.cluster import v_measure_score
 from mteb._create_dataloaders import create_dataloader
-from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import Array, EncodeKwargs, HFSubset, ScoresDict
+from mteb.models import EncoderProtocol
+from mteb.types import Array, HFSubset
 from mteb.types.statistics import (
-    ImageStatistics,
-    LabelStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
 from ._statistics_calculation import (
@@ -27,6 +25,17 @@ from ._statistics_calculation import (
 )
 from .abstask import AbsTask
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb.models import MTEBModels
+    from mteb.types import Array, EncodeKwargs, ScoresDict
+    from mteb.types.statistics import (
+        ImageStatistics,
+        LabelStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)
@@ -186,7 +195,7 @@ class AbsTaskClustering(AbsTask):
                     self.max_fraction_of_documents_to_embed * len(data_split)
                 )
             else:
-                max_documents_to_embed = cast(int, self.max_document_to_embed)
+                max_documents_to_embed = cast("int", self.max_document_to_embed)
             max_documents_to_embed = min(len(data_split), max_documents_to_embed)
             example_indices = self.rng_state.sample(

mteb/abstasks/clustering_legacy.py CHANGED Viewed

@@ -1,6 +1,7 @@
+from __future__ import annotations
 import logging
-from pathlib import Path
-from typing import Any, TypedDict
+from typing import TYPE_CHECKING, Any, TypedDict
 import numpy as np
 from datasets import Dataset
@@ -9,12 +10,8 @@ from sklearn import metrics
 from mteb._evaluators import ClusteringEvaluator
 from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs, ScoresDict
 from mteb.types.statistics import (
-    ImageStatistics,
-    LabelStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
 from ._statistics_calculation import (
@@ -24,6 +21,17 @@ from ._statistics_calculation import (
 )
 from .abstask import AbsTask
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb.models import MTEBModels
+    from mteb.types import EncodeKwargs, ScoresDict
+    from mteb.types.statistics import (
+        ImageStatistics,
+        LabelStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/image/image_text_pair_classification.py CHANGED Viewed

@@ -1,10 +1,11 @@
+from __future__ import annotations
 import logging
 from collections.abc import Sequence
-from pathlib import Path
-from typing import Any, TypedDict
+from typing import TYPE_CHECKING, Any, TypedDict
 import torch
-from datasets import Dataset, concatenate_datasets
+from datasets import concatenate_datasets
 from mteb._evaluators import ImageTextPairClassificationEvaluator
 from mteb.abstasks._statistics_calculation import (
@@ -12,14 +13,23 @@ from mteb.abstasks._statistics_calculation import (
     calculate_text_statistics,
 )
 from mteb.abstasks.abstask import AbsTask
-from mteb.models.models_protocols import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs
+from mteb.models.models_protocols import EncoderProtocol
 from mteb.types.statistics import (
-    ImageStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
+if TYPE_CHECKING:
+    from pathlib import Path
+    from datasets import Dataset
+    from mteb.models.models_protocols import MTEBModels
+    from mteb.types import EncodeKwargs
+    from mteb.types.statistics import (
+        ImageStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/multilabel_classification.py CHANGED Viewed

@@ -1,8 +1,9 @@
+from __future__ import annotations
 import itertools
 import logging
 from collections import defaultdict
-from pathlib import Path
-from typing import Any, TypedDict
+from typing import TYPE_CHECKING, Any, TypedDict
 import numpy as np
 from datasets import DatasetDict
@@ -15,12 +16,17 @@ from typing_extensions import override
 from mteb._create_dataloaders import create_dataloader
 from mteb._evaluators.classification_metrics import hamming_score
-from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
-from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import Array, EncodeKwargs
+from mteb.models import EncoderProtocol
 from .classification import AbsTaskClassification
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
+    from mteb.models import MTEBModels
+    from mteb.types import Array, EncodeKwargs
 logger = logging.getLogger(__name__)

mteb/abstasks/pair_classification.py CHANGED Viewed

@@ -1,16 +1,15 @@
+from __future__ import annotations
 import hashlib
 import logging
 from collections import defaultdict
-from pathlib import Path
+from typing import TYPE_CHECKING
 import numpy as np
 from datasets import Dataset
 from sklearn.metrics import average_precision_score
 from mteb._evaluators import PairClassificationEvaluator
-from mteb._evaluators.pair_classification_evaluator import (
-    PairClassificationDistances,
-)
 from mteb.abstasks._statistics_calculation import (
     calculate_image_statistics,
     calculate_label_statistics,
@@ -18,15 +17,26 @@ from mteb.abstasks._statistics_calculation import (
 )
 from mteb.abstasks.abstask import AbsTask
 from mteb.models.model_meta import ScoringFunction
-from mteb.models.models_protocols import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs, PromptType
+from mteb.models.models_protocols import EncoderProtocol
 from mteb.types.statistics import (
-    ImageStatistics,
-    LabelStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb._evaluators.pair_classification_evaluator import (
+        PairClassificationDistances,
+    )
+    from mteb.models.models_protocols import MTEBModels
+    from mteb.types import EncodeKwargs, PromptType
+    from mteb.types.statistics import (
+        ImageStatistics,
+        LabelStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/regression.py CHANGED Viewed

@@ -1,29 +1,37 @@
+from __future__ import annotations
 import logging
-from typing import TypedDict
+from typing import TYPE_CHECKING, TypedDict
 import datasets
 import numpy as np
 import pandas as pd
-from datasets import Dataset
 from scipy.stats import kendalltau
 from sklearn.linear_model import LinearRegression
 from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
-from mteb._evaluators.sklearn_evaluator import SklearnEvaluator, SklearnModelProtocol
+from mteb._evaluators.sklearn_evaluator import SklearnEvaluator
 from mteb.abstasks._statistics_calculation import (
     calculate_image_statistics,
     calculate_score_statistics,
     calculate_text_statistics,
 )
 from mteb.types.statistics import (
-    ImageStatistics,
-    ScoreStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
 from .classification import AbsTaskClassification
+if TYPE_CHECKING:
+    from datasets import Dataset
+    from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
+    from mteb.types.statistics import (
+        ImageStatistics,
+        ScoreStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/retrieval.py CHANGED Viewed

@@ -1,13 +1,13 @@
+from __future__ import annotations
 import json
 import logging
 from collections import defaultdict
-from collections.abc import Callable, Mapping, Sequence
 from pathlib import Path
 from time import time
-from typing import Any, Literal
+from typing import TYPE_CHECKING, Any, Literal
 from datasets import Dataset, DatasetDict, concatenate_datasets
-from typing_extensions import Self
 from mteb._create_dataloaders import (
     _combine_queries_with_instruction_text,
@@ -19,25 +19,12 @@ from mteb._evaluators.retrieval_metrics import make_score_dict
 from mteb.models import (
     CrossEncoderProtocol,
     EncoderProtocol,
-    MTEBModels,
     SearchCrossEncoderWrapper,
     SearchEncoderWrapper,
     SearchProtocol,
 )
-from mteb.types import (
-    EncodeKwargs,
-    HFSubset,
-    QueryDatasetType,
-    RelevantDocumentsType,
-    RetrievalOutputType,
-    ScoresDict,
-)
 from mteb.types.statistics import (
-    ImageStatistics,
-    RelevantDocsStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
-    TopRankedStatistics,
 )
 from ._statistics_calculation import (
@@ -53,6 +40,30 @@ from .retrieval_dataset_loaders import (
     _combine_queries_with_instructions_datasets,
 )
+if TYPE_CHECKING:
+    from collections.abc import Callable, Mapping, Sequence
+    from typing_extensions import Self
+    from mteb.models import (
+        MTEBModels,
+    )
+    from mteb.types import (
+        EncodeKwargs,
+        HFSubset,
+        QueryDatasetType,
+        RelevantDocumentsType,
+        RetrievalOutputType,
+        ScoresDict,
+    )
+    from mteb.types.statistics import (
+        ImageStatistics,
+        RelevantDocsStatistics,
+        TextStatistics,
+        TopRankedStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/retrieval_dataset_loaders.py CHANGED Viewed

@@ -1,5 +1,7 @@
+from __future__ import annotations
 import logging
-from typing import TypedDict
+from typing import TYPE_CHECKING, TypedDict
 from datasets import (
     Dataset,
@@ -11,13 +13,14 @@ from datasets import (
     load_dataset,
 )
-from mteb.types import (
-    CorpusDatasetType,
-    InstructionDatasetType,
-    QueryDatasetType,
-    RelevantDocumentsType,
-    TopRankedDocumentsType,
-)
+if TYPE_CHECKING:
+    from mteb.types import (
+        CorpusDatasetType,
+        InstructionDatasetType,
+        QueryDatasetType,
+        RelevantDocumentsType,
+        TopRankedDocumentsType,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/sts.py CHANGED Viewed

@@ -1,19 +1,14 @@
+from __future__ import annotations
 import logging
-from pathlib import Path
-from typing import Any, TypedDict, cast
+from typing import TYPE_CHECKING, Any, TypedDict, cast
-from datasets import Dataset
 from scipy.stats import pearsonr, spearmanr
 from mteb._evaluators import AnySTSEvaluator
-from mteb._evaluators.any_sts_evaluator import STSEvaluatorScores
-from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs, PromptType
+from mteb.models import EncoderProtocol
 from mteb.types.statistics import (
-    ImageStatistics,
-    ScoreStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
 from ._statistics_calculation import (
@@ -23,6 +18,20 @@ from ._statistics_calculation import (
 )
 from .abstask import AbsTask
+if TYPE_CHECKING:
+    from pathlib import Path
+    from datasets import Dataset
+    from mteb._evaluators.any_sts_evaluator import STSEvaluatorScores
+    from mteb.models import MTEBModels
+    from mteb.types import EncodeKwargs, PromptType
+    from mteb.types.statistics import (
+        ImageStatistics,
+        ScoreStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)
@@ -182,7 +191,7 @@ class AbsTaskSTS(AbsTask):
         self, split: str, hf_subset: str | None = None, compute_overall: bool = False
     ) -> AnySTSDescriptiveStatistics:
         first_column, second_column = self.column_names
-        self.dataset = cast(dict[str, dict[str, Dataset]], self.dataset)
+        self.dataset = cast("dict[str, dict[str, Dataset]]", self.dataset)
         if hf_subset:
             sentence1 = self.dataset[hf_subset][split][first_column]

mteb/abstasks/task_metadata.py CHANGED Viewed

@@ -1,11 +1,12 @@
+from __future__ import annotations
 import json
 import logging
 from collections.abc import Sequence
 from pathlib import Path
-from typing import Any, Literal, cast
+from typing import TYPE_CHECKING, Any, Literal, cast
 from huggingface_hub import (
-    CardData,
     DatasetCard,
     DatasetCardData,
     constants,
@@ -17,13 +18,11 @@ from pydantic import (
     ConfigDict,
     field_validator,
 )
-from typing_extensions import Required, TypedDict
+from typing_extensions import Required, TypedDict  # noqa: TC002
 import mteb
 from mteb.languages import check_language_code
 from mteb.types import (
-    HFSubset,
-    ISOLanguageScript,
     Languages,
     Licenses,
     Modalities,
@@ -31,7 +30,17 @@ from mteb.types import (
     StrDate,
     StrURL,
 )
-from mteb.types.statistics import DescriptiveStatistics
+if TYPE_CHECKING:
+    from huggingface_hub import (
+        CardData,
+    )
+    from mteb.types import (
+        HFSubset,
+        ISOLanguageScript,
+    )
+    from mteb.types.statistics import DescriptiveStatistics
 logger = logging.getLogger(__name__)
@@ -368,7 +377,7 @@ class TaskMetadata(BaseModel):
         """Return a dictionary mapping huggingface subsets to languages."""
         if isinstance(self.eval_langs, dict):
             return self.eval_langs
-        return {"default": cast(list[str], self.eval_langs)}
+        return {"default": cast("list[str]", self.eval_langs)}
     @property
     def intext_citation(self, include_cite: bool = True) -> str:
@@ -697,7 +706,7 @@ class TaskMetadata(BaseModel):
             for val in self.eval_langs.values():
                 languages.extend(val)
         else:
-            languages = cast(list[str], self.eval_langs)
+            languages = cast("list[str]", self.eval_langs)
         # value "python" is not valid. It must be an ISO 639-1, 639-2 or 639-3 code (two/three letters),
         # or a special value like "code", "multilingual".
         readme_langs = []

mteb/abstasks/text/bitext_mining.py CHANGED Viewed

@@ -1,7 +1,8 @@
+from __future__ import annotations
 import logging
 from collections import defaultdict
-from pathlib import Path
-from typing import Any, ClassVar, TypedDict, cast
+from typing import TYPE_CHECKING, Any, ClassVar, TypedDict, cast
 from datasets import Dataset, DatasetDict
 from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
@@ -9,9 +10,15 @@ from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_sc
 from mteb._evaluators import BitextMiningEvaluator
 from mteb.abstasks._statistics_calculation import calculate_text_statistics
 from mteb.abstasks.abstask import AbsTask
-from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs, HFSubset, ScoresDict
-from mteb.types.statistics import SplitDescriptiveStatistics, TextStatistics
+from mteb.models import EncoderProtocol
+from mteb.types.statistics import SplitDescriptiveStatistics
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb.models import MTEBModels
+    from mteb.types import EncodeKwargs, HFSubset, ScoresDict
+    from mteb.types.statistics import TextStatistics
 logger = logging.getLogger(__name__)
@@ -90,7 +97,7 @@ class AbsTaskBitextMining(AbsTask):
         if subsets_to_run is not None:
             hf_subsets = [s for s in hf_subsets if s in subsets_to_run]
-        encoder_model = cast(EncoderProtocol, model)
+        encoder_model = cast("EncoderProtocol", model)
         if self.dataset is None:
             raise ValueError("Dataset is not loaded.")
@@ -127,7 +134,7 @@ class AbsTaskBitextMining(AbsTask):
                     **kwargs,
                 )
-        return cast(dict[HFSubset, ScoresDict], scores)
+        return cast("dict[HFSubset, ScoresDict]", scores)
     def _get_pairs(self, parallel: bool) -> list[tuple[str, str]]:
         pairs = self._DEFAULT_PAIR

mteb/abstasks/text/summarization.py CHANGED Viewed

@@ -1,24 +1,34 @@
+from __future__ import annotations
 import logging
-from pathlib import Path
+from typing import TYPE_CHECKING
 import numpy as np
-from datasets import Dataset
 from mteb._evaluators import SummarizationEvaluator
-from mteb._evaluators.text.summarization_evaluator import SummarizationMetrics
 from mteb.abstasks._statistics_calculation import (
     calculate_score_statistics,
     calculate_text_statistics,
 )
 from mteb.abstasks.abstask import AbsTask
-from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs
+from mteb.models import EncoderProtocol
 from mteb.types.statistics import (
-    ScoreStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
+if TYPE_CHECKING:
+    from pathlib import Path
+    from datasets import Dataset
+    from mteb._evaluators.text.summarization_evaluator import SummarizationMetrics
+    from mteb.models import MTEBModels
+    from mteb.types import EncodeKwargs
+    from mteb.types.statistics import (
+        ScoreStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/zeroshot_classification.py CHANGED Viewed

@@ -1,19 +1,16 @@
+from __future__ import annotations
 import logging
-from pathlib import Path
-from typing import TypedDict
+from typing import TYPE_CHECKING, TypedDict
 import torch
 from datasets import Dataset
 from sklearn import metrics
 from mteb._evaluators import ZeroShotClassificationEvaluator
-from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs
+from mteb.models import EncoderProtocol
 from mteb.types.statistics import (
-    ImageStatistics,
-    LabelStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
 from ._statistics_calculation import (
@@ -23,6 +20,17 @@ from ._statistics_calculation import (
 )
 from .abstask import AbsTask
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb.models import MTEBModels
+    from mteb.types import EncodeKwargs
+    from mteb.types.statistics import (
+        ImageStatistics,
+        LabelStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb/benchmarks/_create_table.py CHANGED Viewed

@@ -1,13 +1,17 @@
+from __future__ import annotations
 import re
 from collections import defaultdict
-from typing import Literal
+from typing import TYPE_CHECKING, Literal
 import numpy as np
 import pandas as pd
 import mteb
 from mteb.get_tasks import get_task, get_tasks
-from mteb.results.benchmark_results import BenchmarkResults
+if TYPE_CHECKING:
+    from mteb.results.benchmark_results import BenchmarkResults
 def _borda_count(scores: pd.Series) -> pd.Series:
@@ -303,6 +307,7 @@ def _create_per_language_table_from_benchmark_results(
 def _create_summary_table_mean_public_private(
     benchmark_results: BenchmarkResults,
+    exclude_private_from_borda: bool = False,
 ) -> pd.DataFrame:
     """Create summary table from BenchmarkResults.
@@ -311,6 +316,7 @@ def _create_summary_table_mean_public_private(
     Args:
         benchmark_results: BenchmarkResults object containing model results
+        exclude_private_from_borda: If True, calculate Borda rank using only public tasks
     Returns:
         DataFrame with model summaries, ready for styling in the leaderboard
@@ -356,7 +362,11 @@ def _create_summary_table_mean_public_private(
     joint_table = joint_table.drop(models_to_remove, axis=0)
     joint_table.insert(0, "mean(public)", public_mean)
     joint_table.insert(1, "mean(private)", private_mean)
-    joint_table["borda_rank"] = _get_borda_rank(per_task)
+    if exclude_private_from_borda:
+        borda_per_task = per_task[public_task_name]
+    else:
+        borda_per_task = per_task
+    joint_table["borda_rank"] = _get_borda_rank(borda_per_task)
     joint_table = joint_table.sort_values("borda_rank", ascending=True)
     joint_table = joint_table.reset_index()

mteb/benchmarks/benchmark.py CHANGED Viewed

@@ -123,9 +123,19 @@ class RtebBenchmark(Benchmark):
             _create_summary_table_mean_public_private,
         )
-        joint_table = _create_summary_table_mean_public_private(benchmark_results)
+        joint_table = _create_summary_table_mean_public_private(
+            benchmark_results, exclude_private_from_borda=True
+        )
+        # issue 3902: temporary remove the private column from RTEB summary table
+        if "Mean (Private)" in joint_table.columns:
+            joint_table = joint_table.drop(columns=["Mean (Private)"])
         # For RTEB: all tasks are Retrieval type, so Retrieval column = Mean (Task)
+        # but due to 3902, if Private column existed, Mean (Task) was the mean of Public and Private so instead we drop Mean (Task) and rename Mean (Public) to Mean (Task)
         joint_table = joint_table.rename(columns={"Retrieval": "Mean (Task)"})
+        if "Mean (Task)" in joint_table.columns:
+            joint_table = joint_table.drop(columns=["Mean (Task)"])
+        joint_table = joint_table.rename(columns={"Mean (Public)": "Mean (Task)"})
         return joint_table

mteb 2.7.2__py3-none-any.whl → 2.7.3__py3-none-any.whl

mteb 2.7.2py3-none-any.whl → 2.7.3py3-none-any.whl