PyPI - mteb - Versions diffs - 2.7.16__py3-none-any.whl → 2.7.18__py3-none-any.whl - Mend

mteb 2.7.16py3-none-any.whl → 2.7.18py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (173) hide show

mteb/_create_dataloaders.py CHANGED Viewed

@@ -30,7 +30,7 @@ logger = logging.getLogger(__name__)
 def _create_dataloader_from_texts(
     text: list[str],
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
     **kwargs: Any,
 ) -> DataLoader[TextInput]:
     """Create a dataloader from a list of text.
@@ -48,7 +48,7 @@ def _create_dataloader_from_texts(
     return DataLoader(
         dataset,
         batch_size=batch_size,
-        num_workers=num_proc if num_proc > 1 else 0,
+        num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
     )
@@ -74,7 +74,7 @@ def _corpus_to_dict(
 def _create_dataloader_for_retrieval_corpus(
     dataset: Dataset,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[CorpusInput]:
     """Create a dataloader from a corpus.
@@ -94,7 +94,7 @@ def _create_dataloader_for_retrieval_corpus(
     return DataLoader(
         new_ds,
         batch_size=batch_size,
-        num_workers=num_proc if num_proc > 1 else 0,
+        num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
     )
@@ -111,7 +111,7 @@ def _combine_queries_with_instruction_text(row: dict[str, str]) -> dict[str, str
 def _create_text_dataloader_for_queries(
     queries: QueryDatasetType,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[QueryInput]:
     """Create a dataloader from a list of queries.
@@ -131,7 +131,7 @@ def _create_text_dataloader_for_queries(
     return DataLoader(
         queries,
         batch_size=batch_size,
-        num_workers=num_proc if num_proc > 1 else 0,
+        num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
     )
@@ -200,7 +200,7 @@ def _convert_conv_history_to_query(
 def _create_dataloader_for_queries_conversation(
     queries: QueryDatasetType,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[QueryInput]:
     """Create a dataloader from a list of queries.
@@ -220,7 +220,7 @@ def _create_dataloader_for_queries_conversation(
         ),
         collate_fn=_custom_collate_fn,
         batch_size=batch_size,
-        num_workers=num_proc if num_proc > 1 else 0,
+        num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
     )
@@ -265,7 +265,7 @@ def _prepare_image_dataset(
     dataset: Dataset,
     image_column_name: str | None = None,
     transform: Callable[[Any], Any] | None = None,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> Dataset:
     """Prepare the image dataset by converting images to RGB and applying transformations."""
     if (
@@ -315,7 +315,7 @@ def _create_image_dataloader(
     batch_size: int = 32,
     transform: Callable[[Any], Any] | None = None,
     collate_fn: Callable[[list[dict[str, Any]]], dict[str, Any]] = _custom_collate_fn,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[ImageInput]:
     """Creates a DataLoader with the image dataset prepared using the explicit transformation.
@@ -341,14 +341,14 @@ def _create_image_dataloader(
         batch_size=batch_size,
         collate_fn=collate_fn,
         shuffle=False,
-        num_workers=num_proc if num_proc > 1 else 0,
+        num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
     )
 def _create_text_queries_dataloader(
     dataset: Dataset,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[QueryInput]:
     if not isinstance(dataset["text"][0], list):
         return _create_text_dataloader_for_queries(
@@ -368,7 +368,7 @@ def _create_queries_dataloader(
     task_metadata: TaskMetadata,
     input_column: str | None = None,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[QueryInput | ImageInput]:
     """Create a dataloader for queries."""
     queries_type = task_metadata.get_modalities(PromptType.query)
@@ -393,7 +393,7 @@ def _create_document_dataloader(
     task_metadata: TaskMetadata,
     input_column: str | None = None,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
 ) -> DataLoader[CorpusInput | ImageInput]:
     """Create a dataloader for documents.
@@ -430,7 +430,7 @@ def create_dataloader(
     prompt_type: PromptType | None = None,
     input_column: str | None = None,
     batch_size: int = 32,
-    num_proc: int = 1,
+    num_proc: int | None = None,
     **kwargs: Any,
 ) -> DataLoader[BatchedInput]:
     """Create a dataloader from a dataset.
@@ -482,5 +482,5 @@ def create_dataloader(
     return DataLoader(
         dataset,
         batch_size=batch_size,
-        num_workers=num_proc if num_proc > 1 else 0,
+        num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
     )

mteb/_evaluators/any_sts_evaluator.py CHANGED Viewed

@@ -66,7 +66,7 @@ class AnySTSEvaluator(Evaluator):
         model: EncoderProtocol,
         *,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> STSEvaluatorScores:
         logger.info("Running semantic similarity - Encoding samples (1/2)")
         embeddings1 = model.encode(

mteb/_evaluators/classification_metrics.py CHANGED Viewed

@@ -1,7 +1,16 @@
+from __future__ import annotations
+from typing import TYPE_CHECKING
 import numpy as np
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
-def hamming_score(y_true: np.ndarray, y_pred: np.ndarray) -> float:
+def hamming_score(
+    y_true: NDArray[np.integer], y_pred: NDArray[np.integer | np.floating]
+) -> float:
     """Compute the Hamming score (a.k.a. label-based accuracy) for multilabel classification.
     The Hamming score is the fraction of labels that are correctly predicted for each sample,

mteb/_evaluators/clustering_evaluator.py CHANGED Viewed

@@ -45,7 +45,7 @@ class ClusteringEvaluator(Evaluator):
         model: EncoderProtocol,
         *,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> list[int]:
         data_loader = create_dataloader(
             self.dataset,

mteb/_evaluators/image/imagetext_pairclassification_evaluator.py CHANGED Viewed

@@ -91,7 +91,7 @@ class ImageTextPairClassificationEvaluator(Evaluator):
         model: EncoderProtocol,
         *,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> list[torch.Tensor]:
         images = []
         if isinstance(self.images_column_names, str):
@@ -139,7 +139,7 @@ class ImageTextPairClassificationEvaluator(Evaluator):
             DataLoader(
                 CustomImageDataset(images),
                 collate_fn=_image_collate_fn,
-                num_workers=num_proc if num_proc > 1 else 0,
+                num_workers=num_proc if num_proc is not None and num_proc > 1 else 0,
             ),
             task_metadata=self.task_metadata,
             hf_subset=self.hf_subset,

mteb/_evaluators/pair_classification_evaluator.py CHANGED Viewed

@@ -16,6 +16,7 @@ from mteb.similarity_functions import compute_pairwise_similarity
 if TYPE_CHECKING:
     from datasets import Dataset
+    from numpy.typing import NDArray
     from mteb.abstasks.task_metadata import TaskMetadata
     from mteb.models import EncoderProtocol
@@ -91,7 +92,7 @@ class PairClassificationEvaluator(Evaluator):
         self,
         model: EncoderProtocol,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> PairClassificationDistances:
         logger.info("Running pair classification - Encoding samples (1/2)")
         embeddings1 = model.encode(
@@ -155,7 +156,7 @@ class PairClassificationEvaluator(Evaluator):
         hf_split: str,
         hf_subset: str,
         **encode_kwargs: Any,
-    ) -> np.ndarray:
+    ) -> NDArray[np.floating]:
         index_map = {}
         all_unique_texts: list[str] = []
         all_texts_indexes = []

mteb/_evaluators/retrieval_evaluator.py CHANGED Viewed

@@ -55,7 +55,7 @@ class RetrievalEvaluator(Evaluator):
         self,
         search_model: SearchProtocol,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> RetrievalOutputType:
         logger.info("Running retrieval task - Indexing corpus...")
         search_model.index(

mteb/_evaluators/retrieval_metrics.py CHANGED Viewed

@@ -15,6 +15,8 @@ from mteb.types import RetrievalEvaluationResult
 if TYPE_CHECKING:
     from collections.abc import Mapping
+    from numpy.typing import NDArray
     from mteb.types import RelevantDocumentsType
 logger = logging.getLogger(__name__)
@@ -273,9 +275,9 @@ def confidence_scores(sim_scores: list[float]) -> dict[str, float]:
 def nauc(
-    conf_scores: np.ndarray,
-    metrics: np.ndarray,
-    abstention_rates: np.ndarray = np.linspace(0, 1, 11)[:-1],
+    conf_scores: NDArray[np.floating],
+    metrics: NDArray[np.floating],
+    abstention_rates: NDArray[np.floating] = np.linspace(0, 1, 11)[:-1],
 ) -> float:
     """Computes normalized Area Under the Curve (nAUC) on a set of evaluated instances as presented in the paper https://arxiv.org/abs/2402.12997
@@ -295,10 +297,10 @@ def nauc(
     """
     def abstention_curve(
-        conf_scores: np.ndarray,
-        metrics: np.ndarray,
-        abstention_rates: np.ndarray = np.linspace(0, 1, 11)[:-1],
-    ) -> np.ndarray:
+        conf_scores: NDArray[np.floating],
+        metrics: NDArray[np.floating],
+        abstention_rates: NDArray[np.floating] = np.linspace(0, 1, 11)[:-1],
+    ) -> NDArray[np.floating]:
         """Computes the raw abstention curve for a given set of evaluated instances and corresponding confidence scores
         Args:

mteb/_evaluators/sklearn_evaluator.py CHANGED Viewed

@@ -10,6 +10,7 @@ from .evaluator import Evaluator
 if TYPE_CHECKING:
     import numpy as np
     from datasets import Dataset
+    from numpy.typing import NDArray
     from torch.utils.data import DataLoader
     from typing_extensions import Self
@@ -21,11 +22,15 @@ logger = logging.getLogger(__name__)
 class SklearnModelProtocol(Protocol):
-    def fit(self, X: Array, y: np.ndarray | list[int]) -> None: ...  # noqa: N803
-    def predict(self, X: Array) -> np.ndarray: ...  # noqa: N803
+    def fit(
+        self, X: Array, y: NDArray[np.integer | np.floating] | list[int | float]
+    ) -> None: ...
+    def predict(self, X: Array) -> NDArray[np.integer | np.floating]: ...
     def get_params(self) -> dict[str, Any]: ...
     def set_params(self, random_state: int, **kwargs: dict[str, Any]) -> Self: ...
-    def score(self, X: Array, y: np.ndarray | list[int]) -> float: ...  # noqa: N803
+    def score(
+        self, X: Array, y: NDArray[np.integer | np.floating] | list[int | float]
+    ) -> float: ...
 class SklearnEvaluator(Evaluator):
@@ -54,7 +59,9 @@ class SklearnEvaluator(Evaluator):
         self.evaluator_model = evaluator_model
     def create_dataloaders(
-        self, encode_kwargs: EncodeKwargs, num_proc: int
+        self,
+        encode_kwargs: EncodeKwargs,
+        num_proc: int | None,
     ) -> tuple[DataLoader[BatchedInput], DataLoader[BatchedInput]]:
         dataloader_train = create_dataloader(
             self.train_dataset,
@@ -78,8 +85,8 @@ class SklearnEvaluator(Evaluator):
         *,
         encode_kwargs: EncodeKwargs,
         test_cache: Array | None = None,
-        num_proc: int = 1,
-    ) -> tuple[np.ndarray, Array]:
+        num_proc: int | None = None,
+    ) -> tuple[NDArray[np.integer | np.floating], Array]:
         """Classification evaluation by training a sklearn classifier on the embeddings of the training set and evaluating on the embeddings of the test set.
         Args:

mteb/_evaluators/text/bitext_mining_evaluator.py CHANGED Viewed

@@ -41,7 +41,7 @@ class BitextMiningEvaluator(Evaluator):
         model: EncoderProtocol,
         *,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> dict[str, list[dict[str, float]]]:
         pair_elements = {p for pair in self.pairs for p in pair}
         if isinstance(self.sentences, Dataset):

mteb/_evaluators/text/summarization_evaluator.py CHANGED Viewed

@@ -100,7 +100,7 @@ class SummarizationEvaluator(Evaluator):
         model: EncoderProtocol,
         *,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> SummarizationDistances:
         # Get the human & machine summaries for the text in one go for all
         human_lens = [len(human_summaries) for human_summaries in self.human_summaries]

mteb/_evaluators/zeroshot_classification_evaluator.py CHANGED Viewed

@@ -48,7 +48,7 @@ class ZeroShotClassificationEvaluator(Evaluator):
         model: EncoderProtocol,
         *,
         encode_kwargs: EncodeKwargs,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> Array:
         dataloader = create_dataloader(
             self.dataset,

mteb/abstasks/_stratification.py CHANGED Viewed

@@ -38,21 +38,26 @@ Bibtex:
     }
 """
+from __future__ import annotations
 import itertools
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import numpy as np
 import scipy.sparse as sp
 from sklearn.model_selection._split import _BaseKFold
 from sklearn.utils import check_random_state
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
 def _iterative_train_test_split(
-    X: np.ndarray,  # noqa: N803
-    y: np.ndarray,
+    X: NDArray[np.integer],
+    y: NDArray[np.integer],
     test_size: float,
     random_state: int | None = None,
-) -> tuple[np.ndarray, np.ndarray]:
+) -> tuple[NDArray[np.integer], NDArray[np.integer]]:
     """Iteratively stratified train/test split
     Slighltly modified from:
@@ -79,8 +84,8 @@ def _iterative_train_test_split(
 def _fold_tie_break(
-    desired_samples_per_fold: np.ndarray,
-    M: np.ndarray,  # noqa: N803
+    desired_samples_per_fold: NDArray[np.floating],
+    M: NDArray[np.integer],  # noqa: N803
     random_state: np.random.RandomState,
 ):
     """Helper function to split a tie between folds with same desirability of a given sample
@@ -179,7 +184,7 @@ class IterativeStratification(_BaseKFold):
             ]
     def _prepare_stratification(
-        self, y: np.ndarray
+        self, y: NDArray[np.integer]
     ) -> tuple[
         list[list[int]],
         dict[int, bool],
@@ -301,7 +306,7 @@ class IterativeStratification(_BaseKFold):
             self.desired_samples_per_fold[fold_selected] -= 1
             folds[fold_selected].append(row)
-    def _iter_test_indices(self, X, y=None, groups=None):  # noqa: N803
+    def _iter_test_indices(self, X, y=None, groups=None):
         """Internal method for providing scikit-learn's split with folds
         Args:

mteb/abstasks/abstask.py CHANGED Viewed

@@ -116,7 +116,7 @@ class AbsTask(ABC):
             logger.warning(msg)
             warnings.warn(msg)
-    def dataset_transform(self, num_proc: int = 1, **kwargs: Any) -> None:
+    def dataset_transform(self, num_proc: int | None = None, **kwargs: Any) -> None:
         """A transform operations applied to the dataset after loading.
         This method is useful when the dataset from Huggingface is not in an `mteb` compatible format.
@@ -136,7 +136,7 @@ class AbsTask(ABC):
         *,
         encode_kwargs: EncodeKwargs,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> Mapping[HFSubset, ScoresDict]:
         """Evaluates an MTEB compatible model on the task.
@@ -219,7 +219,7 @@ class AbsTask(ABC):
         hf_subset: str,
         encode_kwargs: EncodeKwargs,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> ScoresDict:
         raise NotImplementedError(
@@ -324,7 +324,7 @@ class AbsTask(ABC):
             )  # only take the specified test split.
         return dataset_dict
-    def load_data(self, num_proc: int = 1, **kwargs: Any) -> None:
+    def load_data(self, num_proc: int | None = None, **kwargs: Any) -> None:
         """Loads dataset from HuggingFace hub
         This is the main loading function for Task. Do not overwrite this, instead we recommend using `dataset_transform`, which is called after the

mteb/abstasks/classification.py CHANGED Viewed

@@ -31,6 +31,8 @@ from .abstask import AbsTask
 if TYPE_CHECKING:
     from pathlib import Path
+    from numpy.typing import NDArray
     from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
     from mteb.models import MTEBModels
     from mteb.types import EncodeKwargs, HFSubset, ScoresDict
@@ -136,7 +138,7 @@ class AbsTaskClassification(AbsTask):
         *,
         encode_kwargs: EncodeKwargs,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> dict[HFSubset, ScoresDict]:
         """Evaluate a model on the classification task.
@@ -199,7 +201,7 @@ class AbsTaskClassification(AbsTask):
         hf_split: str,
         hf_subset: str,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> FullClassificationMetrics:
         if not isinstance(model, EncoderProtocol):
@@ -270,8 +272,8 @@ class AbsTaskClassification(AbsTask):
     def _calculate_scores(
         self,
-        y_test: np.ndarray | list[int],
-        y_pred: np.ndarray,
+        y_test: NDArray[np.integer] | list[int],
+        y_pred: NDArray[np.integer | np.floating] | list[int],
     ) -> ClassificationMetrics:
         scores = ClassificationMetrics(
             accuracy=accuracy_score(y_test, y_pred),

mteb/abstasks/clustering.py CHANGED Viewed

@@ -169,7 +169,7 @@ class AbsTaskClustering(AbsTask):
         hf_split: str,
         hf_subset: str,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> ScoresDict:
         if not isinstance(model, EncoderProtocol):

mteb/abstasks/clustering_legacy.py CHANGED Viewed

@@ -95,7 +95,7 @@ class AbsTaskClusteringLegacy(AbsTask):
         hf_split: str,
         hf_subset: str,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> ScoresDict:
         if not isinstance(model, EncoderProtocol):

mteb/abstasks/image/image_text_pair_classification.py CHANGED Viewed

@@ -134,7 +134,7 @@ class AbsTaskImageTextPairClassification(AbsTask):
         hf_split: str,
         hf_subset: str,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> ImageTextPairClassificationMetrics:
         if not isinstance(model, EncoderProtocol):

mteb/abstasks/multilabel_classification.py CHANGED Viewed

@@ -23,6 +23,8 @@ from .classification import AbsTaskClassification
 if TYPE_CHECKING:
     from pathlib import Path
+    from numpy.typing import NDArray
     from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
     from mteb.models import MTEBModels
     from mteb.types import Array, EncodeKwargs
@@ -32,10 +34,10 @@ logger = logging.getLogger(__name__)
 def _evaluate_classifier(
     embeddings_train: Array,
-    y_train: np.ndarray,
+    y_train: NDArray[np.integer],
     embeddings_test: Array,
     classifier: SklearnModelProtocol,
-) -> tuple[np.ndarray, SklearnModelProtocol]:
+) -> tuple[NDArray[np.integer | np.floating], SklearnModelProtocol]:
     classifier_copy: SklearnModelProtocol = clone(classifier)
     classifier_copy.fit(embeddings_train, y_train)
     return classifier_copy.predict(embeddings_test), classifier_copy
@@ -93,7 +95,7 @@ class AbsTaskMultilabelClassification(AbsTaskClassification):
         hf_split: str,
         hf_subset: str,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> FullMultilabelClassificationMetrics:
         if not isinstance(model, EncoderProtocol):
@@ -208,8 +210,8 @@ class AbsTaskMultilabelClassification(AbsTaskClassification):
     def _calculate_scores(  # type: ignore[override]
         self,
-        y_test: np.ndarray,
-        y_pred: np.ndarray,
+        y_test: NDArray[np.integer],
+        y_pred: NDArray[np.integer | np.floating],
         x_test_embedding: Array,
         current_classifier: SklearnModelProtocol,
     ) -> MultilabelClassificationMetrics:

mteb/abstasks/pair_classification.py CHANGED Viewed

@@ -97,7 +97,7 @@ class AbsTaskPairClassification(AbsTask):
         hf_subset: str,
         encode_kwargs: EncodeKwargs,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs,
     ) -> dict[str, float]:
         if not isinstance(model, EncoderProtocol):

mteb/abstasks/regression.py CHANGED Viewed

@@ -24,6 +24,7 @@ from .classification import AbsTaskClassification
 if TYPE_CHECKING:
     from datasets import Dataset
+    from numpy.typing import NDArray
     from mteb._evaluators.sklearn_evaluator import SklearnModelProtocol
     from mteb.types.statistics import (
@@ -123,8 +124,8 @@ class AbsTaskRegression(AbsTaskClassification):
     def _calculate_scores(  # type: ignore[override]
         self,
-        y_test: np.ndarray | list[int],
-        y_pred: np.ndarray,
+        y_test: NDArray[np.floating] | list[float],
+        y_pred: NDArray[np.floating] | list[float],
     ) -> RegressionMetrics:
         mse = mean_squared_error(y_test, y_pred)
         return RegressionMetrics(

mteb/abstasks/retrieval.py CHANGED Viewed

@@ -148,7 +148,10 @@ class AbsTaskRetrieval(AbsTask):
             )
         )
-    def convert_v1_dataset_format_to_v2(self, num_proc: int) -> None:
+    def convert_v1_dataset_format_to_v2(
+        self,
+        num_proc: int | None,
+    ) -> None:
         """Convert dataset from v1 (from `self.queries`, `self.document`) format to v2 format (`self.dotaset`)."""
         # check if dataset is `v1` version
         if not hasattr(self, "queries"):
@@ -257,7 +260,7 @@ class AbsTaskRetrieval(AbsTask):
         if hasattr(self, "top_ranked"):
             del self.top_ranked
-    def load_data(self, num_proc: int = 1, **kwargs) -> None:
+    def load_data(self, num_proc: int | None = None, **kwargs) -> None:
         """Load the dataset for the retrieval task."""
         if self.data_loaded:
             return
@@ -301,7 +304,7 @@ class AbsTaskRetrieval(AbsTask):
         *,
         encode_kwargs: EncodeKwargs,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs: Any,
     ) -> Mapping[HFSubset, ScoresDict]:
         """Evaluate the model on the retrieval task.
@@ -342,7 +345,7 @@ class AbsTaskRetrieval(AbsTask):
         hf_split: str,
         hf_subset: str,
         prediction_folder: Path | None = None,
-        num_proc: int = 1,
+        num_proc: int | None = None,
         **kwargs,
     ) -> ScoresDict:
         """Evaluate a model on a specific subset of the data.
@@ -473,7 +476,7 @@ class AbsTaskRetrieval(AbsTask):
         split: str,
         hf_subset: str | None = None,
         compute_overall: bool = False,
-        num_proc: int = 1,
+        num_proc: int | None = None,
     ) -> RetrievalDescriptiveStatistics:
         self.convert_v1_dataset_format_to_v2(num_proc)
         if hf_subset and hf_subset in self.dataset:

mteb 2.7.16__py3-none-any.whl → 2.7.18__py3-none-any.whl

mteb 2.7.16py3-none-any.whl → 2.7.18py3-none-any.whl