PyPI - mteb - Versions diffs - 2.7.2__py3-none-any.whl → 2.7.3__py3-none-any.whl - Mend

mteb 2.7.2py3-none-any.whl → 2.7.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (151) hide show

mteb/_create_dataloaders.py +16 -9
mteb/_evaluators/any_sts_evaluator.py +10 -5
mteb/_evaluators/clustering_evaluator.py +10 -4
mteb/_evaluators/evaluator.py +9 -4
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +6 -4
mteb/_evaluators/pair_classification_evaluator.py +10 -5
mteb/_evaluators/retrieval_evaluator.py +19 -13
mteb/_evaluators/retrieval_metrics.py +9 -3
mteb/_evaluators/sklearn_evaluator.py +14 -10
mteb/_evaluators/text/bitext_mining_evaluator.py +8 -3
mteb/_evaluators/text/summarization_evaluator.py +8 -4
mteb/_evaluators/zeroshot_classification_evaluator.py +10 -3
mteb/_helpful_enum.py +5 -1
mteb/abstasks/_data_filter/filters.py +8 -2
mteb/abstasks/_data_filter/task_pipelines.py +7 -2
mteb/abstasks/_statistics_calculation.py +6 -4
mteb/abstasks/abstask.py +17 -9
mteb/abstasks/aggregate_task_metadata.py +20 -9
mteb/abstasks/aggregated_task.py +15 -8
mteb/abstasks/classification.py +15 -6
mteb/abstasks/clustering.py +17 -8
mteb/abstasks/clustering_legacy.py +14 -6
mteb/abstasks/image/image_text_pair_classification.py +17 -7
mteb/abstasks/multilabel_classification.py +11 -5
mteb/abstasks/pair_classification.py +19 -9
mteb/abstasks/regression.py +14 -6
mteb/abstasks/retrieval.py +27 -16
mteb/abstasks/retrieval_dataset_loaders.py +11 -8
mteb/abstasks/sts.py +19 -10
mteb/abstasks/task_metadata.py +17 -8
mteb/abstasks/text/bitext_mining.py +14 -7
mteb/abstasks/text/summarization.py +17 -7
mteb/abstasks/zeroshot_classification.py +15 -7
mteb/benchmarks/_create_table.py +13 -3
mteb/benchmarks/benchmark.py +11 -1
mteb/benchmarks/benchmarks/rteb_benchmarks.py +20 -9
mteb/cache.py +10 -5
mteb/cli/_display_tasks.py +9 -3
mteb/cli/build_cli.py +5 -2
mteb/cli/generate_model_card.py +9 -2
mteb/deprecated_evaluator.py +16 -12
mteb/evaluate.py +20 -18
mteb/filter_tasks.py +12 -7
mteb/get_tasks.py +9 -4
mteb/languages/language_scripts.py +8 -3
mteb/leaderboard/app.py +7 -3
mteb/leaderboard/table.py +7 -2
mteb/load_results.py +9 -3
mteb/models/abs_encoder.py +22 -12
mteb/models/cache_wrappers/cache_backend_protocol.py +5 -3
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +8 -4
mteb/models/cache_wrappers/cache_backends/faiss_cache.py +8 -3
mteb/models/cache_wrappers/cache_wrapper.py +14 -9
mteb/models/get_model_meta.py +11 -4
mteb/models/instruct_wrapper.py +13 -5
mteb/models/model_implementations/align_models.py +9 -4
mteb/models/model_implementations/bedrock_models.py +16 -6
mteb/models/model_implementations/blip2_models.py +9 -4
mteb/models/model_implementations/blip_models.py +9 -4
mteb/models/model_implementations/bm25.py +15 -10
mteb/models/model_implementations/bmretriever_models.py +6 -2
mteb/models/model_implementations/cde_models.py +9 -5
mteb/models/model_implementations/clip_models.py +9 -4
mteb/models/model_implementations/cohere_models.py +10 -4
mteb/models/model_implementations/cohere_v.py +9 -4
mteb/models/model_implementations/colpali_models.py +4 -3
mteb/models/model_implementations/colqwen_models.py +10 -31
mteb/models/model_implementations/colsmol_models.py +1 -1
mteb/models/model_implementations/conan_models.py +10 -4
mteb/models/model_implementations/dino_models.py +9 -4
mteb/models/model_implementations/e5_v.py +9 -4
mteb/models/model_implementations/eagerworks_models.py +10 -4
mteb/models/model_implementations/evaclip_models.py +9 -4
mteb/models/model_implementations/gme_v_models.py +5 -3
mteb/models/model_implementations/google_models.py +10 -4
mteb/models/model_implementations/granite_vision_embedding_models.py +6 -5
mteb/models/model_implementations/hinvec_models.py +5 -1
mteb/models/model_implementations/jasper_models.py +12 -5
mteb/models/model_implementations/jina_clip.py +9 -4
mteb/models/model_implementations/jina_models.py +10 -5
mteb/models/model_implementations/kalm_models.py +18 -12
mteb/models/model_implementations/linq_models.py +6 -1
mteb/models/model_implementations/listconranker.py +9 -4
mteb/models/model_implementations/llm2clip_models.py +9 -4
mteb/models/model_implementations/llm2vec_models.py +12 -6
mteb/models/model_implementations/mcinext_models.py +5 -2
mteb/models/model_implementations/moco_models.py +9 -4
mteb/models/model_implementations/mod_models.py +1 -1
mteb/models/model_implementations/model2vec_models.py +10 -4
mteb/models/model_implementations/no_instruct_sentence_models.py +12 -5
mteb/models/model_implementations/nomic_models.py +10 -4
mteb/models/model_implementations/nomic_models_vision.py +4 -3
mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py +7 -3
mteb/models/model_implementations/nvidia_models.py +12 -4
mteb/models/model_implementations/octen_models.py +1 -1
mteb/models/model_implementations/openai_models.py +9 -4
mteb/models/model_implementations/openclip_models.py +9 -4
mteb/models/model_implementations/opensearch_neural_sparse_models.py +10 -4
mteb/models/model_implementations/ops_moa_models.py +7 -2
mteb/models/model_implementations/promptriever_models.py +12 -6
mteb/models/model_implementations/pylate_models.py +19 -13
mteb/models/model_implementations/qwen3_models.py +8 -1
mteb/models/model_implementations/random_baseline.py +4 -3
mteb/models/model_implementations/repllama_models.py +13 -6
mteb/models/model_implementations/rerankers_custom.py +10 -4
mteb/models/model_implementations/rerankers_monot5_based.py +10 -4
mteb/models/model_implementations/salesforce_models.py +7 -1
mteb/models/model_implementations/seed_1_6_embedding_models.py +4 -2
mteb/models/model_implementations/seed_1_6_embedding_models_1215.py +5 -2
mteb/models/model_implementations/seed_models.py +1 -1
mteb/models/model_implementations/siglip_models.py +9 -4
mteb/models/model_implementations/slm_models.py +7 -4
mteb/models/model_implementations/uae_models.py +9 -4
mteb/models/model_implementations/vdr_models.py +7 -1
mteb/models/model_implementations/vista_models.py +9 -4
mteb/models/model_implementations/vlm2vec_models.py +9 -4
mteb/models/model_implementations/voyage_models.py +10 -4
mteb/models/model_implementations/voyage_v.py +10 -6
mteb/models/model_implementations/yuan_models_en.py +1 -1
mteb/models/model_meta.py +12 -7
mteb/models/models_protocols.py +19 -18
mteb/models/search_encoder_index/search_backend_protocol.py +7 -3
mteb/models/search_encoder_index/search_indexes/faiss_search_index.py +12 -4
mteb/models/search_wrappers.py +19 -12
mteb/models/sentence_transformer_wrapper.py +4 -3
mteb/models/vllm_wrapper.py +8 -6
mteb/results/benchmark_results.py +22 -17
mteb/results/model_result.py +21 -15
mteb/results/task_result.py +15 -9
mteb/similarity_functions.py +8 -2
mteb/tasks/aggregated_tasks/eng/cqadupstack_retrieval.py +3 -3
mteb/tasks/aggregated_tasks/eng/sts17_multilingual_visual_sts_eng.py +3 -3
mteb/tasks/aggregated_tasks/eng/sts_benchmark_multilingual_visual_sts_eng.py +3 -3
mteb/tasks/aggregated_tasks/fas/cqadupstack_retrieval_fa.py +3 -3
mteb/tasks/aggregated_tasks/fas/syn_per_chatbot_conv_sa_classification.py +3 -3
mteb/tasks/aggregated_tasks/multilingual/sts17_multilingual_vision_sts.py +3 -3
mteb/tasks/aggregated_tasks/multilingual/sts_benchmark_multilingual_visual_sts.py +3 -3
mteb/tasks/aggregated_tasks/nld/cqadupstack_nl_retrieval.py +3 -3
mteb/tasks/aggregated_tasks/pol/cqadupstack_retrieval_pl.py +3 -3
mteb/tasks/clustering/nob/snl_clustering.py +7 -2
mteb/tasks/clustering/nob/vg_clustering.py +7 -2
mteb/tasks/retrieval/eng/limit_retrieval.py +6 -1
mteb/tasks/retrieval/multilingual/ru_sci_bench_retrieval.py +3 -3
mteb/types/_encoder_io.py +1 -1
mteb/types/statistics.py +9 -2
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/METADATA +1 -1
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/RECORD +151 -151
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/WHEEL +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/entry_points.txt +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/licenses/LICENSE +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.3.dist-info}/top_level.txt +0 -0

mteb/_create_dataloaders.py CHANGED Viewed

@@ -1,21 +1,28 @@
+from __future__ import annotations
 import logging
 import warnings
-from collections.abc import Callable
-from typing import Any, cast
+from typing import TYPE_CHECKING, Any, cast
 import torch
 from datasets import Dataset, Image
 from torch.utils.data import DataLoader, default_collate
-from mteb.abstasks.task_metadata import TaskMetadata
 from mteb.types import (
-    BatchedInput,
-    Conversation,
     ConversationTurn,
     PromptType,
-    QueryDatasetType,
 )
-from mteb.types._encoder_io import CorpusInput, ImageInput, QueryInput, TextInput
+if TYPE_CHECKING:
+    from collections.abc import Callable
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.types import (
+        BatchedInput,
+        Conversation,
+        QueryDatasetType,
+    )
+    from mteb.types._encoder_io import CorpusInput, ImageInput, QueryInput, TextInput
 logger = logging.getLogger(__name__)
@@ -128,7 +135,7 @@ def _convert_conv_history_to_query(
     conversation = row["text"]
     # if it's a list of strings, just join them
     if isinstance(conversation, list) and isinstance(conversation[0], str):
-        conversation_ = cast(list[str], conversation)
+        conversation_ = cast("list[str]", conversation)
         conv_str = "; ".join(conversation_)
         current_conversation = [
             ConversationTurn(role="user", content=message) for message in conversation_
@@ -173,7 +180,7 @@ def _convert_conv_history_to_query(
     row["text"] = conv_str
     row["conversation"] = current_conversation
-    return cast(dict[str, str | list[ConversationTurn]], row)
+    return cast("dict[str, str | list[ConversationTurn]]", row)
 def _create_dataloader_for_queries_conversation(

mteb/_evaluators/any_sts_evaluator.py CHANGED Viewed

@@ -1,7 +1,8 @@
+from __future__ import annotations
 import logging
-from typing import TypedDict
+from typing import TYPE_CHECKING, TypedDict
-from datasets import Dataset
 from sklearn.metrics.pairwise import (
     paired_cosine_distances,
     paired_euclidean_distances,
@@ -9,13 +10,17 @@ from sklearn.metrics.pairwise import (
 )
 from mteb._create_dataloaders import create_dataloader
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
 from mteb.similarity_functions import compute_pairwise_similarity
-from mteb.types import EncodeKwargs, PromptType
 from .evaluator import Evaluator
+if TYPE_CHECKING:
+    from datasets import Dataset
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import EncodeKwargs, PromptType
 logger = logging.getLogger(__name__)

mteb/_evaluators/clustering_evaluator.py CHANGED Viewed

@@ -1,15 +1,21 @@
+from __future__ import annotations
 import logging
+from typing import TYPE_CHECKING
-from datasets import Dataset
 from sklearn import cluster
 from mteb._create_dataloaders import create_dataloader
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
-from mteb.types import EncodeKwargs
 from .evaluator import Evaluator
+if TYPE_CHECKING:
+    from datasets import Dataset
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import EncodeKwargs
 logger = logging.getLogger(__name__)

mteb/_evaluators/evaluator.py CHANGED Viewed

@@ -1,10 +1,15 @@
+from __future__ import annotations
 from abc import ABC, abstractmethod
-from collections.abc import Iterable, Mapping
-from typing import Any
+from typing import TYPE_CHECKING, Any
 from mteb.abstasks.abstask import _set_seed
-from mteb.models import EncoderProtocol
-from mteb.types import EncodeKwargs
+if TYPE_CHECKING:
+    from collections.abc import Iterable, Mapping
+    from mteb.models import EncoderProtocol
+    from mteb.types import EncodeKwargs
 class Evaluator(ABC):

mteb/_evaluators/image/imagetext_pairclassification_evaluator.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from __future__ import annotations
 import logging
-from collections.abc import Sequence
 from typing import TYPE_CHECKING, Any
 import torch
@@ -14,13 +13,16 @@ from mteb._create_dataloaders import (
 )
 from mteb._evaluators.evaluator import Evaluator
 from mteb._requires_package import requires_image_dependencies
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models.models_protocols import EncoderProtocol
-from mteb.types import EncodeKwargs
 if TYPE_CHECKING:
+    from collections.abc import Sequence
     from PIL.Image import Image
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models.models_protocols import EncoderProtocol
+    from mteb.types import EncodeKwargs
 logger = logging.getLogger(__name__)

mteb/_evaluators/pair_classification_evaluator.py CHANGED Viewed

@@ -1,8 +1,9 @@
+from __future__ import annotations
 import logging
-from typing import Any, TypedDict
+from typing import TYPE_CHECKING, Any, TypedDict
 import numpy as np
-from datasets import Dataset
 from sklearn.metrics.pairwise import (
     paired_cosine_distances,
     paired_euclidean_distances,
@@ -11,10 +12,14 @@ from sklearn.metrics.pairwise import (
 from mteb._create_dataloaders import _create_dataloader_from_texts, create_dataloader
 from mteb._evaluators.evaluator import Evaluator
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
 from mteb.similarity_functions import compute_pairwise_similarity
-from mteb.types import EncodeKwargs, PromptType
+if TYPE_CHECKING:
+    from datasets import Dataset
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import EncodeKwargs, PromptType
 logger = logging.getLogger(__name__)

mteb/_evaluators/retrieval_evaluator.py CHANGED Viewed

@@ -1,23 +1,29 @@
-import logging
-from collections.abc import Sequence
+from __future__ import annotations
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import SearchProtocol
-from mteb.types import (
-    CorpusDatasetType,
-    EncodeKwargs,
-    QueryDatasetType,
-    RelevantDocumentsType,
-    RetrievalEvaluationResult,
-    RetrievalOutputType,
-    TopRankedDocumentsType,
-)
+import logging
+from typing import TYPE_CHECKING
 from .evaluator import Evaluator
 from .retrieval_metrics import (
     calculate_retrieval_scores,
 )
+if TYPE_CHECKING:
+    from collections.abc import Sequence
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import SearchProtocol
+    from mteb.types import (
+        CorpusDatasetType,
+        EncodeKwargs,
+        QueryDatasetType,
+        RelevantDocumentsType,
+        RetrievalEvaluationResult,
+        RetrievalOutputType,
+        TopRankedDocumentsType,
+    )
 logger = logging.getLogger(__name__)

mteb/_evaluators/retrieval_metrics.py CHANGED Viewed

@@ -1,7 +1,8 @@
+from __future__ import annotations
 import logging
 from collections import defaultdict
-from collections.abc import Mapping
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import numpy as np
 import pandas as pd
@@ -9,7 +10,12 @@ import pytrec_eval
 from packaging.version import Version
 from sklearn.metrics import auc
-from mteb.types import RelevantDocumentsType, RetrievalEvaluationResult
+from mteb.types import RetrievalEvaluationResult
+if TYPE_CHECKING:
+    from collections.abc import Mapping
+    from mteb.types import RelevantDocumentsType
 logger = logging.getLogger(__name__)

mteb/_evaluators/sklearn_evaluator.py CHANGED Viewed

@@ -1,18 +1,22 @@
-import logging
-from typing import Any, Protocol, cast
+from __future__ import annotations
-import numpy as np
-from datasets import Dataset
-from torch.utils.data import DataLoader
-from typing_extensions import Self
+import logging
+from typing import TYPE_CHECKING, Any, Protocol, cast
 from mteb._create_dataloaders import create_dataloader
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
-from mteb.types import Array, BatchedInput, EncodeKwargs
 from .evaluator import Evaluator
+if TYPE_CHECKING:
+    import numpy as np
+    from datasets import Dataset
+    from torch.utils.data import DataLoader
+    from typing_extensions import Self
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import Array, BatchedInput, EncodeKwargs
 logger = logging.getLogger(__name__)
@@ -104,7 +108,7 @@ class SklearnEvaluator(Evaluator):
                 hf_subset=self.hf_subset,
                 **encode_kwargs,
             )
-            test_cache = cast(Array, test_cache)
+            test_cache = cast("Array", test_cache)
         logger.info("Running - Fitting classifier...")
         y_train = self.train_dataset[self.label_column_name]

mteb/_evaluators/text/bitext_mining_evaluator.py CHANGED Viewed

@@ -1,4 +1,7 @@
+from __future__ import annotations
 import logging
+from typing import TYPE_CHECKING
 import torch
 from datasets import Dataset
@@ -6,9 +9,11 @@ from tqdm.auto import tqdm
 from mteb._create_dataloaders import _create_dataloader_from_texts
 from mteb._evaluators.evaluator import Evaluator
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
-from mteb.types import Array, EncodeKwargs
+if TYPE_CHECKING:
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import Array, EncodeKwargs
 logger = logging.getLogger(__name__)

mteb/_evaluators/text/summarization_evaluator.py CHANGED Viewed

@@ -1,6 +1,8 @@
+from __future__ import annotations
 import logging
 import sys
-from typing import TypedDict
+from typing import TYPE_CHECKING, TypedDict
 import numpy as np
 import torch
@@ -9,10 +11,12 @@ from tqdm.auto import tqdm
 from mteb._create_dataloaders import _create_dataloader_from_texts
 from mteb._evaluators.evaluator import Evaluator
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
 from mteb.similarity_functions import cos_sim, dot_score
-from mteb.types import EncodeKwargs
+if TYPE_CHECKING:
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import EncodeKwargs
 # if later than python 3.13 use typing module
 if sys.version_info >= (3, 13):

mteb/_evaluators/zeroshot_classification_evaluator.py CHANGED Viewed

@@ -1,4 +1,7 @@
+from __future__ import annotations
 import logging
+from typing import TYPE_CHECKING
 from datasets import Dataset
@@ -6,13 +9,17 @@ from mteb._create_dataloaders import (
     _create_dataloader_from_texts,
     create_dataloader,
 )
-from mteb.abstasks.task_metadata import TaskMetadata
-from mteb.models import EncoderProtocol
 from mteb.similarity_functions import similarity
-from mteb.types import Array, EncodeKwargs
 from .evaluator import Evaluator
+if TYPE_CHECKING:
+    from datasets import Dataset
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import EncoderProtocol
+    from mteb.types import Array, EncodeKwargs
 logger = logging.getLogger(__name__)

mteb/_helpful_enum.py CHANGED Viewed

@@ -1,6 +1,10 @@
+from __future__ import annotations
 from enum import Enum
+from typing import TYPE_CHECKING
-from typing_extensions import Self
+if TYPE_CHECKING:
+    from typing_extensions import Self
 class HelpfulStrEnum(str, Enum):

mteb/abstasks/_data_filter/filters.py CHANGED Viewed

@@ -1,12 +1,18 @@
 """Simplified version of https://gist.github.com/AlexeyVatolin/ea3adc21aa7a767603ff393b22085adc from https://github.com/embeddings-benchmark/mteb/pull/2900"""
+from __future__ import annotations
 import logging
+from typing import TYPE_CHECKING
 import datasets
 import pandas as pd
-from datasets import Dataset, DatasetDict
+from datasets import DatasetDict
+if TYPE_CHECKING:
+    from datasets import Dataset
-from mteb import TaskMetadata
+    from mteb import TaskMetadata
 logger = logging.getLogger(__name__)

mteb/abstasks/_data_filter/task_pipelines.py CHANGED Viewed

@@ -1,9 +1,10 @@
+from __future__ import annotations
 import logging
+from typing import TYPE_CHECKING
 from datasets import DatasetDict
-from mteb import TaskMetadata
-from mteb.abstasks import AbsTaskClassification
 from mteb.abstasks._data_filter.filters import (
     deduplicate,
     filter_empty,
@@ -13,6 +14,10 @@ from mteb.abstasks._data_filter.filters import (
     split_train_test,
 )
+if TYPE_CHECKING:
+    from mteb import TaskMetadata
+    from mteb.abstasks import AbsTaskClassification
 logger = logging.getLogger(__name__)

mteb/abstasks/_statistics_calculation.py CHANGED Viewed

@@ -2,10 +2,8 @@ from __future__ import annotations
 import hashlib
 from collections import Counter
-from collections.abc import Mapping
 from typing import TYPE_CHECKING, cast
-from mteb.types import TopRankedDocumentsType
 from mteb.types.statistics import (
     ImageStatistics,
     LabelStatistics,
@@ -16,8 +14,12 @@ from mteb.types.statistics import (
 )
 if TYPE_CHECKING:
+    from collections.abc import Mapping
     from PIL import Image
+    from mteb.types import TopRankedDocumentsType
 def calculate_text_statistics(texts: list[str]) -> TextStatistics:
     """Calculate descriptive statistics for a list of texts.
@@ -87,13 +89,13 @@ def calculate_label_statistics(labels: list[int | list[int]]) -> LabelStatistics
     if not isinstance(labels[0], list):
         # single label classification
-        single_label = cast(list[int], labels)
+        single_label = cast("list[int]", labels)
         label_len = [1] * len(single_label)
         total_label_len = len(single_label)
         total_labels.extend(single_label)
     elif isinstance(labels[0], list):
         # multilabel classification
-        multilabel_labels = cast(list[list[int]], labels)
+        multilabel_labels = cast("list[list[int]]", labels)
         label_len = [len(l) for l in multilabel_labels]
         total_label_len = sum(label_len)
         for l in multilabel_labels:

mteb/abstasks/abstask.py CHANGED Viewed

@@ -1,30 +1,38 @@
+from __future__ import annotations
 import json
 import logging
 import warnings
 from abc import ABC, abstractmethod
-from collections.abc import Mapping, Sequence
+from collections.abc import Sequence
 from copy import copy
 from pathlib import Path
-from typing import Any, Literal, cast
+from typing import TYPE_CHECKING, Any, Literal, cast
 import numpy as np
 from datasets import ClassLabel, Dataset, DatasetDict, load_dataset
 from sklearn.preprocessing import MultiLabelBinarizer
 from tqdm.auto import tqdm
-from typing_extensions import Self
 from mteb._set_seed import _set_seed
-from mteb.abstasks.task_metadata import TaskMetadata
 from mteb.languages import LanguageScripts
 from mteb.models import (
     CrossEncoderProtocol,
     EncoderProtocol,
-    MTEBModels,
     SearchProtocol,
 )
-from mteb.types import HFSubset, Modalities, ScoresDict
-from mteb.types._encoder_io import EncodeKwargs
-from mteb.types.statistics import DescriptiveStatistics, SplitDescriptiveStatistics
+if TYPE_CHECKING:
+    from collections.abc import Mapping
+    from typing_extensions import Self
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.models import (
+        MTEBModels,
+    )
+    from mteb.types import EncodeKwargs, HFSubset, Modalities, ScoresDict
+    from mteb.types.statistics import DescriptiveStatistics, SplitDescriptiveStatistics
 logger = logging.getLogger(__name__)
@@ -163,7 +171,7 @@ class AbsTask(ABC):
         if not self.data_loaded:
             self.load_data()
-        self.dataset = cast(dict[HFSubset, DatasetDict], self.dataset)
+        self.dataset = cast("dict[HFSubset, DatasetDict]", self.dataset)
         scores = {}
         if self.hf_subsets is None:

mteb/abstasks/aggregate_task_metadata.py CHANGED Viewed

@@ -1,28 +1,39 @@
+from __future__ import annotations
 import logging
 from datetime import datetime
+from typing import TYPE_CHECKING
 from pydantic import ConfigDict, Field, model_validator
-from typing_extensions import Self
 from mteb.types import (
-    ISOLanguageScript,
     Languages,
-    Licenses,
-    Modalities,
-    StrDate,
 )
 from .abstask import AbsTask
 from .task_metadata import (
-    AnnotatorType,
     MetadataDatasetDict,
-    SampleCreationMethod,
-    TaskDomain,
     TaskMetadata,
-    TaskSubtype,
     TaskType,
 )
+if TYPE_CHECKING:
+    from typing_extensions import Self
+    from mteb.types import (
+        ISOLanguageScript,
+        Licenses,
+        Modalities,
+        StrDate,
+    )
+    from .task_metadata import (
+        AnnotatorType,
+        SampleCreationMethod,
+        TaskDomain,
+        TaskSubtype,
+    )
 logger = logging.getLogger(__name__)

mteb/abstasks/aggregated_task.py CHANGED Viewed

@@ -1,19 +1,26 @@
+from __future__ import annotations
 import logging
 import warnings
-from collections.abc import Mapping
-from pathlib import Path
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import numpy as np
-from datasets import Dataset, DatasetDict
-from mteb.models.models_protocols import MTEBModels
 from mteb.results.task_result import TaskResult
-from mteb.types import EncodeKwargs, HFSubset, ScoresDict
-from mteb.types.statistics import DescriptiveStatistics
 from .abstask import AbsTask
-from .aggregate_task_metadata import AggregateTaskMetadata
+if TYPE_CHECKING:
+    from collections.abc import Mapping
+    from pathlib import Path
+    from datasets import Dataset, DatasetDict
+    from mteb.models.models_protocols import MTEBModels
+    from mteb.types import EncodeKwargs, HFSubset, ScoresDict
+    from mteb.types.statistics import DescriptiveStatistics
+    from .aggregate_task_metadata import AggregateTaskMetadata
 logger = logging.getLogger(__name__)

mteb/abstasks/classification.py CHANGED Viewed

@@ -1,7 +1,8 @@
+from __future__ import annotations
 import logging
 from collections import defaultdict
-from pathlib import Path
-from typing import Any, TypedDict
+from typing import TYPE_CHECKING, Any, TypedDict
 import numpy as np
 from datasets import Dataset, DatasetDict
@@ -16,12 +17,8 @@ from sklearn.metrics import (
 from mteb._evaluators.sklearn_evaluator import SklearnEvaluator, SklearnModelProtocol
 from mteb.models import EncoderProtocol, MTEBModels
-from mteb.types import EncodeKwargs, HFSubset, ScoresDict
 from mteb.types.statistics import (
-    ImageStatistics,
-    LabelStatistics,
     SplitDescriptiveStatistics,
-    TextStatistics,
 )
 from ._statistics_calculation import (
@@ -31,6 +28,18 @@ from ._statistics_calculation import (
 )
 from .abstask import AbsTask
+if TYPE_CHECKING:
+    from pathlib import Path
+    from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
+    from mteb.models import MTEBModels
+    from mteb.types import EncodeKwargs, HFSubset, ScoresDict
+    from mteb.types.statistics import (
+        ImageStatistics,
+        LabelStatistics,
+        TextStatistics,
+    )
 logger = logging.getLogger(__name__)

mteb 2.7.2__py3-none-any.whl → 2.7.3__py3-none-any.whl

mteb 2.7.2py3-none-any.whl → 2.7.3py3-none-any.whl