PyPI - mteb - Versions diffs - 2.5.2__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.5.2py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (241) hide show

mteb/__init__.py +2 -0
mteb/_create_dataloaders.py +17 -18
mteb/_evaluators/any_sts_evaluator.py +3 -3
mteb/_evaluators/clustering_evaluator.py +2 -2
mteb/_evaluators/evaluator.py +4 -2
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +10 -8
mteb/_evaluators/pair_classification_evaluator.py +5 -3
mteb/_evaluators/retrieval_evaluator.py +2 -2
mteb/_evaluators/retrieval_metrics.py +18 -17
mteb/_evaluators/sklearn_evaluator.py +11 -10
mteb/_evaluators/text/bitext_mining_evaluator.py +27 -18
mteb/_evaluators/text/summarization_evaluator.py +23 -18
mteb/_evaluators/zeroshot_classification_evaluator.py +5 -3
mteb/abstasks/_data_filter/filters.py +1 -1
mteb/abstasks/_data_filter/task_pipelines.py +3 -0
mteb/abstasks/_statistics_calculation.py +18 -10
mteb/abstasks/_stratification.py +18 -18
mteb/abstasks/abstask.py +35 -28
mteb/abstasks/aggregate_task_metadata.py +1 -9
mteb/abstasks/aggregated_task.py +10 -29
mteb/abstasks/classification.py +15 -10
mteb/abstasks/clustering.py +19 -15
mteb/abstasks/clustering_legacy.py +10 -10
mteb/abstasks/image/image_text_pair_classification.py +7 -4
mteb/abstasks/multilabel_classification.py +23 -19
mteb/abstasks/pair_classification.py +20 -11
mteb/abstasks/regression.py +4 -4
mteb/abstasks/retrieval.py +28 -24
mteb/abstasks/retrieval_dataset_loaders.py +2 -2
mteb/abstasks/sts.py +8 -5
mteb/abstasks/task_metadata.py +31 -33
mteb/abstasks/text/bitext_mining.py +39 -28
mteb/abstasks/text/reranking.py +8 -6
mteb/abstasks/text/summarization.py +10 -5
mteb/abstasks/zeroshot_classification.py +8 -4
mteb/benchmarks/benchmark.py +4 -2
mteb/benchmarks/benchmarks/__init__.py +4 -0
mteb/benchmarks/benchmarks/benchmarks.py +112 -11
mteb/benchmarks/get_benchmark.py +14 -55
mteb/cache.py +182 -29
mteb/cli/_display_tasks.py +2 -2
mteb/cli/build_cli.py +110 -14
mteb/cli/generate_model_card.py +43 -23
mteb/deprecated_evaluator.py +63 -49
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2CybersecurityRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EconomicRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EnergyRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2HrRetrieval.json +32 -0
mteb/descriptive_stats/Retrieval/ChemRxivRetrieval.json +30 -0
mteb/descriptive_stats/Retrieval/EuroPIRQRetrieval.json +116 -0
mteb/descriptive_stats/Retrieval/NanoClimateFEVER-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoDBPedia-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoFEVER-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoHotpotQA-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoMSMARCO-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoNQ-VN.json +30 -0
mteb/descriptive_stats/Retrieval/TVPLRetrieval.json +30 -0
mteb/evaluate.py +44 -33
mteb/filter_tasks.py +25 -26
mteb/get_tasks.py +29 -30
mteb/languages/language_scripts.py +5 -3
mteb/leaderboard/app.py +162 -34
mteb/load_results.py +12 -12
mteb/models/abs_encoder.py +10 -6
mteb/models/cache_wrappers/cache_backend_protocol.py +3 -5
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +5 -4
mteb/models/cache_wrappers/cache_backends/faiss_cache.py +6 -2
mteb/models/cache_wrappers/cache_backends/numpy_cache.py +43 -25
mteb/models/cache_wrappers/cache_wrapper.py +2 -2
mteb/models/get_model_meta.py +21 -3
mteb/models/instruct_wrapper.py +28 -8
mteb/models/model_implementations/align_models.py +1 -1
mteb/models/model_implementations/andersborges.py +4 -4
mteb/models/model_implementations/ara_models.py +1 -1
mteb/models/model_implementations/arctic_models.py +8 -8
mteb/models/model_implementations/b1ade_models.py +1 -1
mteb/models/model_implementations/bge_models.py +45 -21
mteb/models/model_implementations/bica_model.py +3 -3
mteb/models/model_implementations/blip2_models.py +2 -2
mteb/models/model_implementations/blip_models.py +16 -16
mteb/models/model_implementations/bm25.py +4 -4
mteb/models/model_implementations/bmretriever_models.py +6 -4
mteb/models/model_implementations/cadet_models.py +1 -1
mteb/models/model_implementations/cde_models.py +11 -4
mteb/models/model_implementations/clip_models.py +6 -6
mteb/models/model_implementations/clips_models.py +3 -3
mteb/models/model_implementations/codefuse_models.py +5 -5
mteb/models/model_implementations/codesage_models.py +3 -3
mteb/models/model_implementations/cohere_models.py +5 -5
mteb/models/model_implementations/cohere_v.py +2 -2
mteb/models/model_implementations/colpali_models.py +3 -3
mteb/models/model_implementations/colqwen_models.py +8 -8
mteb/models/model_implementations/colsmol_models.py +2 -2
mteb/models/model_implementations/conan_models.py +1 -1
mteb/models/model_implementations/dino_models.py +42 -42
mteb/models/model_implementations/e5_instruct.py +23 -4
mteb/models/model_implementations/e5_models.py +9 -9
mteb/models/model_implementations/e5_v.py +6 -6
mteb/models/model_implementations/eagerworks_models.py +1 -1
mteb/models/model_implementations/emillykkejensen_models.py +6 -6
mteb/models/model_implementations/en_code_retriever.py +1 -1
mteb/models/model_implementations/euler_models.py +2 -2
mteb/models/model_implementations/fa_models.py +9 -9
mteb/models/model_implementations/facebookai.py +14 -2
mteb/models/model_implementations/geogpt_models.py +1 -1
mteb/models/model_implementations/gme_v_models.py +6 -5
mteb/models/model_implementations/google_models.py +1 -1
mteb/models/model_implementations/granite_vision_embedding_models.py +1 -1
mteb/models/model_implementations/gritlm_models.py +2 -2
mteb/models/model_implementations/gte_models.py +25 -13
mteb/models/model_implementations/hinvec_models.py +1 -1
mteb/models/model_implementations/ibm_granite_models.py +30 -6
mteb/models/model_implementations/inf_models.py +2 -2
mteb/models/model_implementations/jasper_models.py +2 -2
mteb/models/model_implementations/jina_clip.py +48 -10
mteb/models/model_implementations/jina_models.py +18 -11
mteb/models/model_implementations/kblab.py +12 -6
mteb/models/model_implementations/kennethenevoldsen_models.py +4 -4
mteb/models/model_implementations/kfst.py +1 -1
mteb/models/model_implementations/kowshik24_models.py +1 -1
mteb/models/model_implementations/lgai_embedding_models.py +1 -1
mteb/models/model_implementations/linq_models.py +1 -1
mteb/models/model_implementations/listconranker.py +1 -1
mteb/models/model_implementations/llm2clip_models.py +6 -6
mteb/models/model_implementations/llm2vec_models.py +8 -8
mteb/models/model_implementations/mcinext_models.py +4 -1
mteb/models/model_implementations/mdbr_models.py +17 -3
mteb/models/model_implementations/misc_models.py +68 -68
mteb/models/model_implementations/mixedbread_ai_models.py +332 -0
mteb/models/model_implementations/mme5_models.py +1 -1
mteb/models/model_implementations/moco_models.py +4 -4
mteb/models/model_implementations/mod_models.py +1 -1
mteb/models/model_implementations/model2vec_models.py +14 -14
mteb/models/model_implementations/moka_models.py +1 -1
mteb/models/model_implementations/nbailab.py +3 -3
mteb/models/model_implementations/no_instruct_sentence_models.py +2 -2
mteb/models/model_implementations/nomic_models.py +30 -15
mteb/models/model_implementations/nomic_models_vision.py +1 -1
mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py +15 -9
mteb/models/model_implementations/nvidia_models.py +151 -19
mteb/models/model_implementations/octen_models.py +61 -2
mteb/models/model_implementations/openclip_models.py +13 -13
mteb/models/model_implementations/opensearch_neural_sparse_models.py +5 -5
mteb/models/model_implementations/ops_moa_models.py +1 -1
mteb/models/model_implementations/ordalietech_solon_embeddings_mini_beta_1_1.py +1 -1
mteb/models/model_implementations/pawan_models.py +1 -1
mteb/models/model_implementations/piccolo_models.py +1 -1
mteb/models/model_implementations/pixie_models.py +56 -0
mteb/models/model_implementations/promptriever_models.py +4 -4
mteb/models/model_implementations/pylate_models.py +10 -9
mteb/models/model_implementations/qodo_models.py +2 -2
mteb/models/model_implementations/qtack_models.py +1 -1
mteb/models/model_implementations/qwen3_models.py +3 -3
mteb/models/model_implementations/qzhou_models.py +2 -2
mteb/models/model_implementations/random_baseline.py +3 -3
mteb/models/model_implementations/rasgaard_models.py +2 -2
mteb/models/model_implementations/reasonir_model.py +1 -1
mteb/models/model_implementations/repllama_models.py +3 -3
mteb/models/model_implementations/rerankers_custom.py +12 -6
mteb/models/model_implementations/rerankers_monot5_based.py +17 -17
mteb/models/model_implementations/richinfoai_models.py +1 -1
mteb/models/model_implementations/ru_sentence_models.py +20 -20
mteb/models/model_implementations/ruri_models.py +10 -10
mteb/models/model_implementations/salesforce_models.py +3 -3
mteb/models/model_implementations/samilpwc_models.py +1 -1
mteb/models/model_implementations/sarashina_embedding_models.py +2 -2
mteb/models/model_implementations/searchmap_models.py +1 -1
mteb/models/model_implementations/seed_1_6_embedding_models_1215.py +113 -146
mteb/models/model_implementations/sentence_transformers_models.py +124 -22
mteb/models/model_implementations/shuu_model.py +1 -1
mteb/models/model_implementations/siglip_models.py +20 -20
mteb/models/model_implementations/slm_models.py +416 -0
mteb/models/model_implementations/spartan8806_atles_champion.py +1 -1
mteb/models/model_implementations/stella_models.py +17 -4
mteb/models/model_implementations/tarka_models.py +2 -2
mteb/models/model_implementations/text2vec_models.py +9 -3
mteb/models/model_implementations/ua_sentence_models.py +1 -1
mteb/models/model_implementations/uae_models.py +7 -1
mteb/models/model_implementations/vdr_models.py +1 -1
mteb/models/model_implementations/vi_vn_models.py +6 -6
mteb/models/model_implementations/vlm2vec_models.py +3 -3
mteb/models/model_implementations/voyage_models.py +84 -0
mteb/models/model_implementations/voyage_v.py +9 -7
mteb/models/model_implementations/youtu_models.py +1 -1
mteb/models/model_implementations/yuan_models.py +1 -1
mteb/models/model_implementations/yuan_models_en.py +1 -1
mteb/models/model_meta.py +80 -31
mteb/models/models_protocols.py +22 -6
mteb/models/search_encoder_index/search_indexes/faiss_search_index.py +9 -6
mteb/models/search_wrappers.py +33 -18
mteb/models/sentence_transformer_wrapper.py +50 -25
mteb/models/vllm_wrapper.py +327 -0
mteb/py.typed +0 -0
mteb/results/benchmark_results.py +29 -21
mteb/results/model_result.py +52 -22
mteb/results/task_result.py +80 -58
mteb/similarity_functions.py +11 -7
mteb/tasks/classification/dan/dk_hate_classification.py +1 -1
mteb/tasks/classification/est/estonian_valence.py +1 -1
mteb/tasks/classification/kur/kurdish_sentiment_classification.py +2 -2
mteb/tasks/classification/multilingual/scala_classification.py +1 -1
mteb/tasks/clustering/eng/hume_wiki_cities_clustering.py +1 -1
mteb/tasks/clustering/eng/wiki_cities_clustering.py +1 -1
mteb/tasks/clustering/zho/cmteb_clustering.py +2 -2
mteb/tasks/image_text_pair_classification/eng/sugar_crepe.py +1 -1
mteb/tasks/reranking/multilingual/wikipedia_reranking_multilingual.py +1 -1
mteb/tasks/retrieval/code/code_rag.py +12 -12
mteb/tasks/retrieval/dan/dan_fever_retrieval.py +1 -1
mteb/tasks/retrieval/dan/tv2_nordretrieval.py +2 -2
mteb/tasks/retrieval/dan/twitter_hjerne_retrieval.py +2 -2
mteb/tasks/retrieval/eng/__init__.py +2 -0
mteb/tasks/retrieval/eng/chemrxiv.py +33 -0
mteb/tasks/retrieval/eng/cub200_i2i_retrieval.py +1 -1
mteb/tasks/retrieval/kor/__init__.py +15 -1
mteb/tasks/retrieval/kor/kovidore2_bench_retrieval.py +142 -0
mteb/tasks/retrieval/multilingual/__init__.py +2 -0
mteb/tasks/retrieval/multilingual/euro_pirq_retrieval.py +43 -0
mteb/tasks/retrieval/multilingual/vidore3_bench_retrieval.py +90 -100
mteb/tasks/retrieval/nob/norquad.py +2 -2
mteb/tasks/retrieval/nob/snl_retrieval.py +2 -2
mteb/tasks/retrieval/tur/tur_hist_quad.py +1 -1
mteb/tasks/retrieval/vie/__init__.py +14 -6
mteb/tasks/retrieval/vie/climate_fevervn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/db_pedia_vn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/fevervn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/hotpot_qavn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/msmarcovn_retrieval.py +48 -0
mteb/tasks/retrieval/vie/nqvn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/tvpl_retrieval.py +42 -0
mteb/tasks/retrieval/vie/zac_legal_text_retrieval.py +15 -1
mteb/types/__init__.py +2 -0
mteb/types/_encoder_io.py +12 -0
mteb/types/_result.py +2 -1
mteb/types/statistics.py +9 -3
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/METADATA +15 -4
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/RECORD +240 -219
mteb/models/model_implementations/mxbai_models.py +0 -111
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/WHEEL +0 -0
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/entry_points.txt +0 -0
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/licenses/LICENSE +0 -0
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/top_level.txt +0 -0

mteb/models/model_implementations/e5_models.py CHANGED Viewed

@@ -82,7 +82,7 @@ e5_mult_small = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/multilingual-e5-small",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,  # couldn't find
     public_training_data=None,
@@ -109,7 +109,7 @@ e5_mult_base = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/intfloat/multilingual-e5-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -136,7 +136,7 @@ e5_mult_large = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/intfloat/multilingual-e5-large",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -163,7 +163,7 @@ e5_eng_small_v2 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-small-v2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -190,7 +190,7 @@ e5_eng_small = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-small",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -217,7 +217,7 @@ e5_eng_base_v2 = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-base-v2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     superseded_by=None,
     adapted_from="intfloat/e5-base",
@@ -245,7 +245,7 @@ e5_eng_large_v2 = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/intfloat/e5-large-v2",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors"],
     use_instructions=True,
     superseded_by=None,
     adapted_from="intfloat/e5-large",
@@ -273,7 +273,7 @@ e5_large = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-large",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     superseded_by="intfloat/e5-large-v2",
     adapted_from="google-bert/bert-large-uncased-whole-word-masking",
@@ -301,7 +301,7 @@ e5_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/intfloat/e5-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     superseded_by="intfloat/e5-base-v2",
     adapted_from="google-bert/bert-base-uncased",

mteb/models/model_implementations/e5_v.py CHANGED Viewed

@@ -30,6 +30,7 @@ class E5VModel(AbsEncoder):
         self,
         model_name: str,
         revision: str,
+        device: str | None = None,
         composed_prompt=None,
         **kwargs: Any,
     ):
@@ -47,8 +48,7 @@ class E5VModel(AbsEncoder):
         self.processor = LlavaNextProcessor.from_pretrained(
             model_name, revision=revision
         )
-        if "device" in kwargs:
-            self.device = kwargs.pop("device")
+        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
         self.model = LlavaNextForConditionalGeneration.from_pretrained(
             model_name, revision=revision, **kwargs
         )
@@ -87,7 +87,7 @@ class E5VModel(AbsEncoder):
                     ],
                     return_tensors="pt",
                     padding=True,
-                ).to("cuda")
+                ).to(self.device)
                 text_outputs = self.model(
                     **text_inputs, output_hidden_states=True, return_dict=True
                 ).hidden_states[-1][:, -1, :]
@@ -111,7 +111,7 @@ class E5VModel(AbsEncoder):
                     batch["image"],
                     return_tensors="pt",
                     padding=True,
-                ).to("cuda")
+                ).to(self.device)
                 image_outputs = self.model(
                     **img_inputs, output_hidden_states=True, return_dict=True
                 ).hidden_states[-1][:, -1, :]
@@ -141,7 +141,7 @@ class E5VModel(AbsEncoder):
                     ]
                     inputs = self.processor(
                         prompts, batch["image"], return_tensors="pt", padding=True
-                    ).to("cuda")
+                    ).to(self.device)
                     outputs = self.model(
                         **inputs, output_hidden_states=True, return_dict=True
                     ).hidden_states[-1][:, -1, :]
@@ -173,7 +173,7 @@ e5_v = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/kongds/E5-V",
     public_training_data="https://huggingface.co/datasets/princeton-nlp/datasets-for-simcse",
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/royokong/e5-v",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=True,

mteb/models/model_implementations/eagerworks_models.py CHANGED Viewed

@@ -152,7 +152,7 @@ Eager_Embed_V1 = ModelMeta(
     embed_dim=2560,
     license="apache-2.0",
     open_weights=True,
-    framework=["Tevatron"],
+    framework=["Tevatron", "safetensors"],
     reference="https://huggingface.co/eagerworks/eager-embed-v1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=True,

mteb/models/model_implementations/emillykkejensen_models.py CHANGED Viewed

@@ -2,7 +2,7 @@ from mteb.models.model_meta import ModelMeta
 from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
 embedding_gemma_300m_scandi = ModelMeta(
-    loader=sentence_transformers_loader,  # type: ignore
+    loader=sentence_transformers_loader,
     name="emillykkejensen/EmbeddingGemma-Scandi-300m",
     model_type=["dense"],
     languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
@@ -14,7 +14,7 @@ embedding_gemma_300m_scandi = ModelMeta(
     max_tokens=2048,
     license="apache-2.0",
     reference="https://huggingface.co/emillykkejensen/EmbeddingGemma-Scandi-300m",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
@@ -35,7 +35,7 @@ embedding_gemma_300m_scandi = ModelMeta(
 qwen_scandi = ModelMeta(
-    loader=sentence_transformers_loader,  # type: ignore
+    loader=sentence_transformers_loader,
     name="emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
     model_type=["dense"],
     languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
@@ -48,7 +48,7 @@ qwen_scandi = ModelMeta(
     max_tokens=32768,
     license="apache-2.0",
     reference="https://huggingface.co/emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",
@@ -59,7 +59,7 @@ qwen_scandi = ModelMeta(
 mmbert_scandi = ModelMeta(
-    loader=sentence_transformers_loader,  # type: ignore
+    loader=sentence_transformers_loader,
     name="emillykkejensen/mmBERTscandi-base-embedding",
     model_type=["dense"],
     languages=["dan-Latn", "swe-Latn", "nor-Latn", "nob-Latn", "nno-Latn"],
@@ -72,7 +72,7 @@ mmbert_scandi = ModelMeta(
     max_tokens=8192,
     license="apache-2.0",
     reference="https://huggingface.co/emillykkejensen/Qwen3-Embedding-Scandi-0.6B",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/DDSC/nordic-embedding-training-data",

mteb/models/model_implementations/en_code_retriever.py CHANGED Viewed

@@ -24,7 +24,7 @@ english_code_retriever = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/fyaronskiy/english_code_retriever",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/code-search-net/code_search_net",

mteb/models/model_implementations/euler_models.py CHANGED Viewed

@@ -16,7 +16,7 @@ Euler_Legal_Embedding_V1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/Mira190/Euler-Legal-Embedding-V1",
     similarity_fn_name="cosine",
     use_instructions=False,
@@ -24,7 +24,7 @@ Euler_Legal_Embedding_V1 = ModelMeta(
     adapted_from="Qwen/Qwen3-Embedding-8B",
     superseded_by=None,
     citation="""@misc{euler2025legal,
-      title={Euler-Legal-Embedding: Advanced Legal Representation Learning},
+      title={Euler-Legal-Embedding: Advanced Legal Representation Learning},
       author={LawRank Team},
       year={2025},
       publisher={Hugging Face}

mteb/models/model_implementations/fa_models.py CHANGED Viewed

@@ -18,7 +18,7 @@ parsbert = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/HooshvareLab/bert-base-parsbert-uncased",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -54,7 +54,7 @@ bert_zwnj = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/m3hrdadfi/bert-zwnj-wnli-mean-tokens",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -80,7 +80,7 @@ roberta_zwnj = ModelMeta(
     max_tokens=514,
     reference="https://huggingface.co/m3hrdadfi/roberta-zwnj-wnli-mean-tokens",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -105,7 +105,7 @@ sentence_transformer_parsbert = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/myrkur/sentence-transformer-parsbert-fa",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -129,7 +129,7 @@ tooka_bert_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/PartAI/TookaBERT-Base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -156,7 +156,7 @@ tooka_sbert = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/PartAI/Tooka-SBERT",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -187,7 +187,7 @@ fa_bert = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/sbunlp/fabert",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -235,7 +235,7 @@ tooka_sbert_v2_small = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/PartAI/Tooka-SBERT-V2-Small",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -266,7 +266,7 @@ tooka_sbert_v2_large = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/PartAI/Tooka-SBERT-V2-Large",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/facebookai.py CHANGED Viewed

@@ -119,7 +119,13 @@ xlmr_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/FacebookAI/xlm-roberta-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -163,7 +169,13 @@ xlmr_large = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/FacebookAI/xlm-roberta-large",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/geogpt_models.py CHANGED Viewed

@@ -26,7 +26,7 @@ geoembedding = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/GeoGPT-Research-Project/GeoEmbedding",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/gme_v_models.py CHANGED Viewed

@@ -2,6 +2,7 @@ from __future__ import annotations
 import logging
 import math
+import warnings
 from typing import TYPE_CHECKING, Any
 import torch
@@ -261,9 +262,9 @@ def smart_resize(
         w_bar = ceil_by_factor(width * beta, factor)
     if max(h_bar, w_bar) / min(h_bar, w_bar) > MAX_RATIO:
-        logger.warning(
-            f"Absolute aspect ratio must be smaller than {MAX_RATIO}, got {max(h_bar, w_bar) / min(h_bar, w_bar)}"
-        )
+        msg = f"Absolute aspect ratio must be smaller than {MAX_RATIO}, got {max(h_bar, w_bar) / min(h_bar, w_bar)}"
+        logger.warning(msg)
+        warnings.warn(msg)
         if h_bar > w_bar:
             h_bar = w_bar * MAX_RATIO
         else:
@@ -359,7 +360,7 @@ gme_qwen2vl_2b = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-2B-Instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -383,7 +384,7 @@ gme_qwen2vl_7b = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-7B-Instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/google_models.py CHANGED Viewed

@@ -270,7 +270,7 @@ embedding_gemma_300m = ModelMeta(
     max_tokens=2048,
     license="gemma",
     reference="https://ai.google.dev/gemma/docs/embeddinggemma/model_card",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/granite_vision_embedding_models.py CHANGED Viewed

@@ -179,7 +179,7 @@ granite_vision_embedding = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/ibm-granite/granite-vision-3.3-2b-embedding",
     similarity_fn_name="MaxSim",
     use_instructions=True,

mteb/models/model_implementations/gritlm_models.py CHANGED Viewed

@@ -50,7 +50,7 @@ gritlm7b = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/GritLM/GritLM-7B",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["GritLM", "PyTorch"],
+    framework=["GritLM", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     training_datasets=GRIT_LM_TRAINING_DATA,
     # section 3.1 "We finetune our final models from Mistral 7B [68] and Mixtral 8x7B [69] using adaptations of E5 [160] and the Tülu 2 data
@@ -79,7 +79,7 @@ gritlm8x7b = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/GritLM/GritLM-8x7B",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["GritLM", "PyTorch"],
+    framework=["GritLM", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     training_datasets=GRIT_LM_TRAINING_DATA,
     citation=GRITLM_CITATION,

mteb/models/model_implementations/gte_models.py CHANGED Viewed

@@ -53,7 +53,7 @@ gte_qwen2_7b_instruct = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/Alibaba-NLP/gte-Qwen2-7B-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     citation=GTE_CITATION,
     public_training_code=None,
@@ -86,7 +86,7 @@ gte_qwen1_5_7b_instruct = ModelMeta(
     max_tokens=32_768,
     reference="https://huggingface.co/Alibaba-NLP/gte-Qwen1.5-7B-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -123,7 +123,7 @@ gte_qwen2_1_5b_instruct = ModelMeta(
     max_tokens=32_768,
     reference="https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
@@ -151,7 +151,7 @@ gte_small_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/thenlper/gte-small-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -179,7 +179,7 @@ gte_base_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/thenlper/gte-base-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -207,7 +207,7 @@ gte_large_zh = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/thenlper/gte-large-zh",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,
@@ -336,7 +336,7 @@ gte_multilingual_base = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/Alibaba-NLP/gte-multilingual-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data=None,  # couldn't find
@@ -365,7 +365,13 @@ gte_modernbert_base = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/Alibaba-NLP/gte-modernbert-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=False,
     public_training_code=None,  # couldn't find
     public_training_data=None,
@@ -402,7 +408,13 @@ gte_base_en_v15 = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/Alibaba-NLP/gte-base-en-v1.5",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     use_instructions=False,
     superseded_by=None,
     adapted_from=None,
@@ -410,21 +422,21 @@ gte_base_en_v15 = ModelMeta(
     public_training_data=None,
     training_datasets=None,
     citation="""@misc{zhang2024mgte,
-  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
+  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
   author={Xin Zhang and Yanzhao Zhang and Dingkun Long and Wen Xie and Ziqi Dai and Jialong Tang and Huan Lin and Baosong Yang and Pengjun Xie and Fei Huang and Meishan Zhang and Wenjie Li and Min Zhang},
   year={2024},
   eprint={2407.19669},
   archivePrefix={arXiv},
   primaryClass={cs.CL},
-  url={https://arxiv.org/abs/2407.19669},
+  url={https://arxiv.org/abs/2407.19669},
 }
 @misc{li2023gte,
-  title={Towards General Text Embeddings with Multi-stage Contrastive Learning},
+  title={Towards General Text Embeddings with Multi-stage Contrastive Learning},
   author={Zehan Li and Xin Zhang and Yanzhao Zhang and Dingkun Long and Pengjun Xie and Meishan Zhang},
   year={2023},
   eprint={2308.03281},
   archivePrefix={arXiv},
   primaryClass={cs.CL},
-  url={https://arxiv.org/abs/2308.03281},
+  url={https://arxiv.org/abs/2308.03281},
 }""",
 )

mteb/models/model_implementations/hinvec_models.py CHANGED Viewed

@@ -49,7 +49,7 @@ Hinvec_bidir = ModelMeta(
     max_tokens=2048,
     reference="https://huggingface.co/Sailesh97/Hinvec",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=True,
     training_datasets=hinvec_training_datasets,
     public_training_code=None,

mteb/models/model_implementations/ibm_granite_models.py CHANGED Viewed

@@ -106,7 +106,13 @@ granite_107m_multilingual = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-107m-multilingual",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -131,7 +137,13 @@ granite_278m_multilingual = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-278m-multilingual",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -156,7 +168,13 @@ granite_30m_english = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-30m-english",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -181,7 +199,13 @@ granite_125m_english = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/ibm-granite/granite-embedding-125m-english",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -207,7 +231,7 @@ granite_english_r2 = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/ibm-granite/granite-embedding-english-r2",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,
@@ -232,7 +256,7 @@ granite_small_english_r2 = ModelMeta(
     max_tokens=8192,
     reference="https://huggingface.co/ibm-granite/granite-embedding-small-english-r2",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     adapted_from=None,
     superseded_by=None,
     public_training_code=None,

mteb/models/model_implementations/inf_models.py CHANGED Viewed

@@ -62,7 +62,7 @@ inf_retriever_v1 = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/infly/inf-retriever-v1",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     adapted_from="Alibaba-NLP/gte-Qwen2-7B-instruct",
     public_training_code=None,
@@ -89,7 +89,7 @@ inf_retriever_v1_1_5b = ModelMeta(
     max_tokens=32768,
     reference="https://huggingface.co/infly/inf-retriever-v1-1.5b",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=True,
     adapted_from="Alibaba-NLP/gte-Qwen2-1.5B-instruct",
     public_training_code=None,

mteb 2.5.2__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.5.2py3-none-any.whl → 2.7.2py3-none-any.whl