PyPI - mteb - Versions diffs - 2.5.2__py3-none-any.whl → 2.5.4__py3-none-any.whl - Mend

mteb 2.5.2py3-none-any.whl → 2.5.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (104) hide show

mteb/_create_dataloaders.py +10 -15
mteb/_evaluators/any_sts_evaluator.py +1 -4
mteb/_evaluators/evaluator.py +2 -1
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +5 -6
mteb/_evaluators/pair_classification_evaluator.py +3 -1
mteb/_evaluators/retrieval_metrics.py +17 -16
mteb/_evaluators/sklearn_evaluator.py +9 -8
mteb/_evaluators/text/bitext_mining_evaluator.py +23 -16
mteb/_evaluators/text/summarization_evaluator.py +20 -16
mteb/abstasks/_data_filter/filters.py +1 -1
mteb/abstasks/_data_filter/task_pipelines.py +3 -0
mteb/abstasks/_statistics_calculation.py +18 -10
mteb/abstasks/_stratification.py +18 -18
mteb/abstasks/abstask.py +33 -27
mteb/abstasks/aggregate_task_metadata.py +1 -9
mteb/abstasks/aggregated_task.py +7 -26
mteb/abstasks/classification.py +10 -4
mteb/abstasks/clustering.py +18 -14
mteb/abstasks/clustering_legacy.py +8 -8
mteb/abstasks/image/image_text_pair_classification.py +5 -3
mteb/abstasks/multilabel_classification.py +20 -16
mteb/abstasks/pair_classification.py +18 -9
mteb/abstasks/regression.py +3 -3
mteb/abstasks/retrieval.py +12 -9
mteb/abstasks/sts.py +6 -3
mteb/abstasks/task_metadata.py +22 -19
mteb/abstasks/text/bitext_mining.py +36 -25
mteb/abstasks/text/reranking.py +7 -5
mteb/abstasks/text/summarization.py +8 -3
mteb/abstasks/zeroshot_classification.py +5 -2
mteb/benchmarks/benchmark.py +2 -2
mteb/cache.py +27 -22
mteb/cli/_display_tasks.py +2 -2
mteb/cli/build_cli.py +15 -10
mteb/cli/generate_model_card.py +10 -7
mteb/deprecated_evaluator.py +60 -46
mteb/evaluate.py +39 -30
mteb/filter_tasks.py +25 -26
mteb/get_tasks.py +29 -30
mteb/languages/language_scripts.py +5 -3
mteb/leaderboard/app.py +1 -1
mteb/load_results.py +12 -12
mteb/models/abs_encoder.py +7 -5
mteb/models/cache_wrappers/cache_backend_protocol.py +3 -5
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +5 -4
mteb/models/cache_wrappers/cache_backends/faiss_cache.py +6 -2
mteb/models/cache_wrappers/cache_backends/numpy_cache.py +43 -25
mteb/models/cache_wrappers/cache_wrapper.py +2 -2
mteb/models/get_model_meta.py +8 -1
mteb/models/instruct_wrapper.py +11 -5
mteb/models/model_implementations/andersborges.py +2 -2
mteb/models/model_implementations/blip_models.py +8 -8
mteb/models/model_implementations/bm25.py +1 -1
mteb/models/model_implementations/clip_models.py +3 -3
mteb/models/model_implementations/cohere_models.py +1 -1
mteb/models/model_implementations/cohere_v.py +2 -2
mteb/models/model_implementations/dino_models.py +23 -23
mteb/models/model_implementations/emillykkejensen_models.py +3 -3
mteb/models/model_implementations/gme_v_models.py +4 -3
mteb/models/model_implementations/jina_clip.py +1 -1
mteb/models/model_implementations/jina_models.py +1 -1
mteb/models/model_implementations/kennethenevoldsen_models.py +2 -2
mteb/models/model_implementations/llm2clip_models.py +3 -3
mteb/models/model_implementations/mcinext_models.py +4 -1
mteb/models/model_implementations/moco_models.py +2 -2
mteb/models/model_implementations/model2vec_models.py +1 -1
mteb/models/model_implementations/nomic_models.py +8 -8
mteb/models/model_implementations/openclip_models.py +7 -7
mteb/models/model_implementations/random_baseline.py +3 -3
mteb/models/model_implementations/rasgaard_models.py +1 -1
mteb/models/model_implementations/repllama_models.py +2 -2
mteb/models/model_implementations/rerankers_custom.py +3 -3
mteb/models/model_implementations/rerankers_monot5_based.py +3 -3
mteb/models/model_implementations/siglip_models.py +10 -10
mteb/models/model_implementations/vlm2vec_models.py +1 -1
mteb/models/model_implementations/voyage_v.py +4 -4
mteb/models/model_meta.py +14 -13
mteb/models/search_encoder_index/search_indexes/faiss_search_index.py +9 -6
mteb/models/search_wrappers.py +26 -12
mteb/models/sentence_transformer_wrapper.py +19 -14
mteb/py.typed +0 -0
mteb/results/benchmark_results.py +28 -20
mteb/results/model_result.py +52 -22
mteb/results/task_result.py +55 -58
mteb/similarity_functions.py +11 -7
mteb/tasks/classification/dan/dk_hate_classification.py +1 -1
mteb/tasks/classification/est/estonian_valence.py +1 -1
mteb/tasks/classification/multilingual/scala_classification.py +1 -1
mteb/tasks/image_text_pair_classification/eng/sugar_crepe.py +1 -1
mteb/tasks/retrieval/code/code_rag.py +12 -12
mteb/tasks/retrieval/dan/dan_fever_retrieval.py +1 -1
mteb/tasks/retrieval/dan/tv2_nordretrieval.py +2 -2
mteb/tasks/retrieval/dan/twitter_hjerne_retrieval.py +2 -2
mteb/tasks/retrieval/nob/norquad.py +2 -2
mteb/tasks/retrieval/nob/snl_retrieval.py +2 -2
mteb/tasks/retrieval/tur/tur_hist_quad.py +1 -1
mteb/types/_result.py +2 -1
mteb/types/statistics.py +9 -3
{mteb-2.5.2.dist-info → mteb-2.5.4.dist-info}/METADATA +1 -1
{mteb-2.5.2.dist-info → mteb-2.5.4.dist-info}/RECORD +104 -103
{mteb-2.5.2.dist-info → mteb-2.5.4.dist-info}/WHEEL +0 -0
{mteb-2.5.2.dist-info → mteb-2.5.4.dist-info}/entry_points.txt +0 -0
{mteb-2.5.2.dist-info → mteb-2.5.4.dist-info}/licenses/LICENSE +0 -0
{mteb-2.5.2.dist-info → mteb-2.5.4.dist-info}/top_level.txt +0 -0

mteb/models/model_implementations/kennethenevoldsen_models.py CHANGED Viewed

@@ -4,7 +4,7 @@ from mteb.models.sentence_transformer_wrapper import (
 )
 dfm_enc_large = ModelMeta(
-    loader=sentence_transformers_loader,  # type: ignore
+    loader=sentence_transformers_loader,
     name="KennethEnevoldsen/dfm-sentence-encoder-large",
     model_type=["dense"],
     languages=["dan-Latn"],
@@ -39,7 +39,7 @@ dfm_enc_large = ModelMeta(
 )
 dfm_enc_med = ModelMeta(
-    loader=sentence_transformers_loader,  # type: ignore
+    loader=sentence_transformers_loader,
     name="KennethEnevoldsen/dfm-sentence-encoder-medium",
     model_type=["dense"],
     languages=["dan-Latn"],

mteb/models/model_implementations/llm2clip_models.py CHANGED Viewed

@@ -181,7 +181,7 @@ llm2clip_training_sets = set(
 )
 llm2clip_openai_l_14_336 = ModelMeta(
-    loader=llm2clip_loader,  # type: ignore
+    loader=llm2clip_loader,
     name="microsoft/LLM2CLIP-Openai-L-14-336",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -206,7 +206,7 @@ llm2clip_openai_l_14_336 = ModelMeta(
 # NOTE: https://huggingface.co/microsoft/LLM2CLIP-Openai-L-14-224/discussions/1
 llm2clip_openai_l_14_224 = ModelMeta(
-    loader=llm2clip_loader,  # type: ignore
+    loader=llm2clip_loader,
     name="microsoft/LLM2CLIP-Openai-L-14-224",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -230,7 +230,7 @@ llm2clip_openai_l_14_224 = ModelMeta(
 )
 llm2clip_openai_b_16 = ModelMeta(
-    loader=llm2clip_loader,  # type: ignore
+    loader=llm2clip_loader,
     name="microsoft/LLM2CLIP-Openai-B-16",
     model_type=["dense"],
     languages=["eng-Latn"],

mteb/models/model_implementations/mcinext_models.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import logging
 import os
 import time
+import warnings
 from typing import Any
 import numpy as np
@@ -246,7 +247,9 @@ class HakimModelWrapper(AbsEncoder):
         task_prompt, task_id = DATASET_TASKS.get(task_name, (None, None))
         if not task_prompt:
-            logger.warning(f"Unknown dataset: {task_name}, no preprocessing applied.")
+            msg = f"Unknown dataset: {task_name}, no preprocessing applied."
+            logger.warning(msg)
+            warnings.warn(msg)
             return sample
         task_prompt = f"مسئله : {task_prompt}"

mteb/models/model_implementations/moco_models.py CHANGED Viewed

@@ -117,7 +117,7 @@ mocov3_training_datasets = set(
 )
 mocov3_vit_base = ModelMeta(
-    loader=mocov3_loader,  # type: ignore
+    loader=mocov3_loader,
     name="nyu-visionx/moco-v3-vit-b",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -141,7 +141,7 @@ mocov3_vit_base = ModelMeta(
 )
 mocov3_vit_large = ModelMeta(
-    loader=mocov3_loader,  # type: ignore
+    loader=mocov3_loader,
     name="nyu-visionx/moco-v3-vit-l",
     model_type=["dense"],
     languages=["eng-Latn"],

mteb/models/model_implementations/model2vec_models.py CHANGED Viewed

@@ -139,7 +139,7 @@ class Model2VecModel(AbsEncoder):
             **kwargs: Additional arguments to pass to the wrapper.
         """
         requires_package(self, "model2vec", model_name, "pip install 'mteb[model2vec]'")
-        from model2vec import StaticModel  # type: ignore
+        from model2vec import StaticModel
         self.model_name = model_name
         self.model = StaticModel.from_pretrained(self.model_name)

mteb/models/model_implementations/nomic_models.py CHANGED Viewed

@@ -193,7 +193,7 @@ NOMIC_CITATION = """
 """
 nomic_embed_v1_5 = ModelMeta(
-    loader=NomicWrapper,  # type: ignore
+    loader=NomicWrapper,
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -222,7 +222,7 @@ nomic_embed_v1_5 = ModelMeta(
 )
 nomic_embed_v1 = ModelMeta(
-    loader=NomicWrapper,  # type: ignore
+    loader=NomicWrapper,
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -251,7 +251,7 @@ nomic_embed_v1 = ModelMeta(
 )
 nomic_embed_v1_ablated = ModelMeta(
-    loader=NomicWrapper,  # type: ignore
+    loader=NomicWrapper,
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -279,7 +279,7 @@ nomic_embed_v1_ablated = ModelMeta(
 )
 nomic_embed_v1_unsupervised = ModelMeta(
-    loader=NomicWrapper,  # type: ignore
+    loader=NomicWrapper,
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -334,7 +334,7 @@ nomic_modern_bert_embed = ModelMeta(
     training_datasets=nomic_training_data,
     public_training_data=None,
     citation="""@misc{nussbaum2024nomic,
-      title={Nomic Embed: Training a Reproducible Long Context Text Embedder},
+      title={Nomic Embed: Training a Reproducible Long Context Text Embedder},
       author={Zach Nussbaum and John X. Morris and Brandon Duderstadt and Andriy Mulyar},
       year={2024},
       eprint={2402.01613},
@@ -446,7 +446,7 @@ m_languages = [
 ]
 nomic_embed_text_v2_moe = ModelMeta(
-    loader=NomicWrapper,  # type: ignore
+    loader=NomicWrapper,
     loader_kwargs=dict(
         trust_remote_code=True,
         model_prompts=model_prompts,
@@ -472,12 +472,12 @@ nomic_embed_text_v2_moe = ModelMeta(
     training_datasets=None,  # did not look into this further
     superseded_by=None,
     citation="""@misc{nussbaum2025trainingsparsemixtureexperts,
-      title={Training Sparse Mixture Of Experts Text Embedding Models},
+      title={Training Sparse Mixture Of Experts Text Embedding Models},
       author={Zach Nussbaum and Brandon Duderstadt},
       year={2025},
       eprint={2502.07972},
       archivePrefix={arXiv},
       primaryClass={cs.CL},
-      url={https://arxiv.org/abs/2502.07972},
+      url={https://arxiv.org/abs/2502.07972},
 }""",
 )

mteb/models/model_implementations/openclip_models.py CHANGED Viewed

@@ -120,7 +120,7 @@ def openclip_loader(model_name, **kwargs):
 CLIP_ViT_L_14_DataComp_XL_s13B_b90K = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -146,7 +146,7 @@ CLIP_ViT_L_14_DataComp_XL_s13B_b90K = ModelMeta(
 )
 CLIP_ViT_B_32_DataComp_XL_s13B_b90K = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-B-32-DataComp.XL-s13B-b90K",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -172,7 +172,7 @@ CLIP_ViT_B_32_DataComp_XL_s13B_b90K = ModelMeta(
 )
 CLIP_ViT_B_16_DataComp_XL_s13B_b90K = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-B-16-DataComp.XL-s13B-b90K",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -198,7 +198,7 @@ CLIP_ViT_B_16_DataComp_XL_s13B_b90K = ModelMeta(
 )
 CLIP_ViT_bigG_14_laion2B_39B_b160k = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-bigG-14-laion2B-39B-b160k",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -224,7 +224,7 @@ CLIP_ViT_bigG_14_laion2B_39B_b160k = ModelMeta(
 )
 CLIP_ViT_g_14_laion2B_s34B_b88K = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-g-14-laion2B-s34B-b88K",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -250,7 +250,7 @@ CLIP_ViT_g_14_laion2B_s34B_b88K = ModelMeta(
 )
 CLIP_ViT_H_14_laion2B_s32B_b79K = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-H-14-laion2B-s32B-b79K",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -276,7 +276,7 @@ CLIP_ViT_H_14_laion2B_s32B_b79K = ModelMeta(
 )
 CLIP_ViT_L_14_laion2B_s32B_b82K = ModelMeta(
-    loader=openclip_loader,  # type: ignore
+    loader=openclip_loader,
     name="laion/CLIP-ViT-L-14-laion2B-s32B-b82K",
     model_type=["dense"],
     languages=["eng-Latn"],

mteb/models/model_implementations/random_baseline.py CHANGED Viewed

@@ -68,7 +68,7 @@ _common_mock_metadata = dict(
     license="mit",
     max_tokens=np.inf,
     reference=None,
-    similarity_fn_name="cosine",  # type: ignore
+    similarity_fn_name="cosine",
     framework=[],
     use_instructions=False,
     public_training_code=None,  # No training code, as this is a random baseline
@@ -187,7 +187,7 @@ class RandomEncoderBaseline:
 random_encoder_baseline = ModelMeta(
-    loader=RandomEncoderBaseline,  # type: ignore
+    loader=RandomEncoderBaseline,
     name="baseline/random-encoder-baseline",
     model_type=["dense"],
     modalities=["text", "image"],
@@ -232,7 +232,7 @@ class RandomCrossEncoderBaseline:
 random_cross_encoder_baseline = ModelMeta(
-    loader=RandomCrossEncoderBaseline,  # type: ignore
+    loader=RandomCrossEncoderBaseline,
     name="baseline/random-cross-encoder-baseline",
     model_type=["cross-encoder"],
     modalities=["text", "image"],

mteb/models/model_implementations/rasgaard_models.py CHANGED Viewed

@@ -4,7 +4,7 @@ from mteb.models.model_implementations.model2vec_models import Model2VecModel
 from mteb.models.model_meta import ModelMeta, ScoringFunction
 potion_base_8m = ModelMeta(
-    loader=Model2VecModel,  # type: ignore
+    loader=Model2VecModel,
     name="rasgaard/m2v-dfm-large",
     model_type=["dense"],
     languages=["dan-Latn"],

mteb/models/model_implementations/repllama_models.py CHANGED Viewed

@@ -154,7 +154,7 @@ REPLLAMA_CITATION = """
 """
 repllama_llama2_original = ModelMeta(
-    loader=RepLLaMAModel,  # type: ignore
+    loader=RepLLaMAModel,
     loader_kwargs=dict(
         base_model_name_or_path="meta-llama/Llama-2-7b-hf",
         device_map="auto",
@@ -187,7 +187,7 @@ repllama_llama2_original = ModelMeta(
 repllama_llama2_reproduced = ModelMeta(
-    loader=RepLLaMAModel,  # type: ignore
+    loader=RepLLaMAModel,
     loader_kwargs=dict(
         base_model_name_or_path="meta-llama/Llama-2-7b-hf",
         device_map="auto",

mteb/models/model_implementations/rerankers_custom.py CHANGED Viewed

@@ -214,7 +214,7 @@ class JinaReranker(RerankerWrapper):
 monobert_large = ModelMeta(
-    loader=MonoBERTReranker,  # type: ignore
+    loader=MonoBERTReranker,
     loader_kwargs=dict(
         fp_options="float16",
     ),
@@ -239,7 +239,7 @@ monobert_large = ModelMeta(
 # languages unclear: https://huggingface.co/jinaai/jina-reranker-v2-base-multilingual/discussions/28
 jina_reranker_multilingual = ModelMeta(
-    loader=JinaReranker,  # type: ignore
+    loader=JinaReranker,
     loader_kwargs=dict(
         fp_options="float16",
     ),
@@ -263,7 +263,7 @@ jina_reranker_multilingual = ModelMeta(
 )
 bge_reranker_v2_m3 = ModelMeta(
-    loader=BGEReranker,  # type: ignore
+    loader=BGEReranker,
     loader_kwargs=dict(
         fp_options="float16",
     ),

mteb/models/model_implementations/rerankers_monot5_based.py CHANGED Viewed

@@ -343,7 +343,7 @@ monot5_small = ModelMeta(
 )
 monot5_base = ModelMeta(
-    loader=MonoT5Reranker,  # type: ignore
+    loader=MonoT5Reranker,
     loader_kwargs=dict(
         fp_options="float16",
     ),
@@ -442,7 +442,7 @@ monot5_3b = ModelMeta(
 )
 flant5_base = ModelMeta(
-    loader=FLANT5Reranker,  # type: ignore
+    loader=FLANT5Reranker,
     loader_kwargs=dict(
         fp_options="float16",
     ),
@@ -902,7 +902,7 @@ mt5_base_mmarco_v2 = ModelMeta(
 )
 mt5_13b_mmarco_100k = ModelMeta(
-    loader=MonoT5Reranker,  # type: ignore
+    loader=MonoT5Reranker,
     loader_kwargs=dict(
         fp_options="float16",
     ),

mteb/models/model_implementations/siglip_models.py CHANGED Viewed

@@ -123,7 +123,7 @@ siglip_training_datasets = set(
 )
 siglip_so400m_patch14_224 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-so400m-patch14-224",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -147,7 +147,7 @@ siglip_so400m_patch14_224 = ModelMeta(
 )
 siglip_so400m_patch14_384 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-so400m-patch14-384",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -171,7 +171,7 @@ siglip_so400m_patch14_384 = ModelMeta(
 )
 siglip_so400m_patch16_256_i18n = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-so400m-patch16-256-i18n",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -195,7 +195,7 @@ siglip_so400m_patch16_256_i18n = ModelMeta(
 )
 siglip_base_patch16_256_multilingual = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-base-patch16-256-multilingual",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -219,7 +219,7 @@ siglip_base_patch16_256_multilingual = ModelMeta(
 )
 siglip_base_patch16_256 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-base-patch16-256",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -243,7 +243,7 @@ siglip_base_patch16_256 = ModelMeta(
 )
 siglip_base_patch16_512 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-base-patch16-512",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -267,7 +267,7 @@ siglip_base_patch16_512 = ModelMeta(
 )
 siglip_base_patch16_384 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-base-patch16-384",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -291,7 +291,7 @@ siglip_base_patch16_384 = ModelMeta(
 )
 siglip_base_patch16_224 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-base-patch16-224",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -315,7 +315,7 @@ siglip_base_patch16_224 = ModelMeta(
 )
 siglip_large_patch16_256 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-large-patch16-256",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -339,7 +339,7 @@ siglip_large_patch16_256 = ModelMeta(
 )
 siglip_large_patch16_384 = ModelMeta(
-    loader=SiglipModelWrapper,  # type: ignore
+    loader=SiglipModelWrapper,
     name="google/siglip-large-patch16-384",
     model_type=["dense"],
     languages=["eng-Latn"],

mteb/models/model_implementations/vlm2vec_models.py CHANGED Viewed

@@ -41,7 +41,7 @@ class VLM2VecWrapper(AbsEncoder):
             model_name,
             "pip install flash-attn --no-build-isolation",
         ):
-            import flash_attn  # noqa
+            pass
         requires_package(self, "peft", model_name, "pip install 'mteb[peft]'")
         from peft import LoraConfig, PeftModel

mteb/models/model_implementations/voyage_v.py CHANGED Viewed

@@ -40,15 +40,15 @@ def _downsample_image(
         logging.info(
             f"Downsampling image from {width}x{height} to {new_width}x{new_height}"
         )
-        return image.resize(new_size, Image.LANCZOS)  # type: ignore
+        return image.resize(new_size, Image.LANCZOS)
     if width > height:
         if width > 10000:
             logging.error("Processing extremely wide images.")
-            return image.resize((10000, height), Image.LANCZOS)  # type: ignore
+            return image.resize((10000, height), Image.LANCZOS)
     else:
         if height > 10000:
             logging.error("Processing extremely high images.")
-            return image.resize((width, 10000), Image.LANCZOS)  # type: ignore
+            return image.resize((width, 10000), Image.LANCZOS)
     return image
@@ -202,7 +202,7 @@ def voyage_v_loader(model_name, **kwargs):
 voyage_v = ModelMeta(
-    loader=voyage_v_loader,  # type: ignore
+    loader=voyage_v_loader,
     name="voyageai/voyage-multimodal-3",
     model_type=["dense"],
     languages=[],  # Unknown

mteb/models/model_meta.py CHANGED Viewed

@@ -81,7 +81,7 @@ def _get_loader_name(
     return loader.__name__
-_SENTENCE_TRANSFORMER_LIB_NAME = "Sentence Transformers"
+_SENTENCE_TRANSFORMER_LIB_NAME: FRAMEWORKS = "Sentence Transformers"
 class ModelMeta(BaseModel):
@@ -263,10 +263,8 @@ class ModelMeta(BaseModel):
         _kwargs = self.loader_kwargs.copy()
         _kwargs.update(kwargs)
-        model: EncoderProtocol = self.loader(
-            self.name, revision=self.revision, **_kwargs
-        )
-        model.mteb_model_meta = self  # type: ignore
+        model: MTEBModels = self.loader(self.name, revision=self.revision, **_kwargs)
+        model.mteb_model_meta = self  # type: ignore[misc]
         return model
     def model_name_as_path(self) -> str:
@@ -318,9 +316,8 @@ class ModelMeta(BaseModel):
                 model_config = None
                 logger.warning(f"Can't get configuration for {model_name}. Error: {e}")
-            if (
-                card_data.library_name == _SENTENCE_TRANSFORMER_LIB_NAME
-                or _SENTENCE_TRANSFORMER_LIB_NAME in card_data.tags
+            if card_data.library_name == _SENTENCE_TRANSFORMER_LIB_NAME or (
+                card_data.tags and _SENTENCE_TRANSFORMER_LIB_NAME in card_data.tags
             ):
                 frameworks.append(_SENTENCE_TRANSFORMER_LIB_NAME)
             else:
@@ -435,7 +432,7 @@ class ModelMeta(BaseModel):
                 and config_sbert.get("similarity_fn_name") is not None
             ):
                 meta.similarity_fn_name = ScoringFunction.from_str(
-                    config_sbert.get("similarity_fn_name")
+                    config_sbert["similarity_fn_name"]
                 )
             else:
                 meta.similarity_fn_name = ScoringFunction.COSINE
@@ -511,10 +508,12 @@ class ModelMeta(BaseModel):
                 if adapted_training_datasets is not None:
                     training_datasets |= adapted_training_datasets
             except (ValueError, KeyError) as e:
-                logger.warning(f"Could not get source model: {e} in MTEB")
+                msg = f"Could not get source model: {e} in MTEB"
+                logger.warning(msg)
+                warnings.warn(msg)
         return_dataset = training_datasets.copy()
-        visited = set()
+        visited: set[str] = set()
         for dataset in training_datasets:
             similar_tasks = _collect_similar_tasks(dataset, visited)
@@ -548,6 +547,8 @@ class ModelMeta(BaseModel):
     @staticmethod
     def _calculate_num_parameters_from_hub(model_name: str | None = None) -> int | None:
+        if not model_name:
+            return None
         try:
             safetensors_metadata = get_safetensors_metadata(model_name)
             if len(safetensors_metadata.parameter_count) >= 0:
@@ -561,7 +562,7 @@ class ModelMeta(BaseModel):
             logger.warning(
                 f"Can't calculate number of parameters for {model_name}. Got error {e}"
             )
-            return None
+        return None
     def calculate_num_parameters_from_hub(self) -> int | None:
         """Calculates the number of parameters in the model.
@@ -624,7 +625,7 @@ class ModelMeta(BaseModel):
         if "API" in self.framework or self.name is None:
             return None
-        return self._calculate_memory_usage_mb(self.model_name, self.n_parameters)
+        return self._calculate_memory_usage_mb(self.name, self.n_parameters)
     @staticmethod
     def fetch_release_date(model_name: str) -> StrDate | None:

mteb/models/search_encoder_index/search_indexes/faiss_search_index.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import logging
+import warnings
 from collections.abc import Callable
 import numpy as np
@@ -108,7 +109,7 @@ class FaissSearchIndex:
             ids = ids.tolist()
         if issubclass(self.index_type, faiss.IndexFlatL2):
-            similarities = -np.sqrt(np.maximum(similarities, 0))
+            similarities = (-np.sqrt(np.maximum(similarities, 0))).tolist()
         return similarities, ids
@@ -116,8 +117,8 @@ class FaissSearchIndex:
         self,
         embeddings: Array,
         top_k: int,
-        top_ranked: TopRankedDocumentsType | None = None,
-        query_idx_to_id: dict[int, str] | None = None,
+        top_ranked: TopRankedDocumentsType,
+        query_idx_to_id: dict[int, str],
     ) -> tuple[list[list[float]], list[list[int]]]:
         doc_id_to_idx = {doc_id: i for i, doc_id in enumerate(self.idxs)}
         scores_all: list[list[float]] = []
@@ -127,15 +128,17 @@ class FaissSearchIndex:
             query_id = query_idx_to_id[query_idx]
             ranked_ids = top_ranked.get(query_id)
             if not ranked_ids:
-                logger.warning(f"No top-ranked documents for query {query_id}")
+                msg = f"No top-ranked documents for query {query_id}"
+                logger.warning(msg)
+                warnings.warn(msg)
                 scores_all.append([])
                 idxs_all.append([])
                 continue
             candidate_indices = [doc_id_to_idx[doc_id] for doc_id in ranked_ids]
-            d = self.index.d
+            d = self.index.d  # type: ignore[union-attr]
             candidate_embs = np.vstack(
-                [self.index.reconstruct(idx) for idx in candidate_indices]
+                [self.index.reconstruct(idx) for idx in candidate_indices]  # type: ignore[union-attr]
             )
             sub_reranking_index = self.index_type(d)
             sub_reranking_index.add(candidate_embs)

mteb 2.5.2__py3-none-any.whl → 2.5.4__py3-none-any.whl

mteb 2.5.2py3-none-any.whl → 2.5.4py3-none-any.whl