PyPI - mteb - Versions diffs - 2.7.2__py3-none-any.whl → 2.7.4__py3-none-any.whl - Mend

mteb 2.7.2py3-none-any.whl → 2.7.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (238) hide show

mteb/_create_dataloaders.py +16 -9
mteb/_evaluators/any_sts_evaluator.py +10 -5
mteb/_evaluators/clustering_evaluator.py +10 -4
mteb/_evaluators/evaluator.py +9 -4
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +6 -4
mteb/_evaluators/pair_classification_evaluator.py +10 -5
mteb/_evaluators/retrieval_evaluator.py +19 -13
mteb/_evaluators/retrieval_metrics.py +9 -3
mteb/_evaluators/sklearn_evaluator.py +14 -10
mteb/_evaluators/text/bitext_mining_evaluator.py +8 -3
mteb/_evaluators/text/summarization_evaluator.py +8 -4
mteb/_evaluators/zeroshot_classification_evaluator.py +10 -3
mteb/_helpful_enum.py +5 -1
mteb/abstasks/_data_filter/filters.py +8 -2
mteb/abstasks/_data_filter/task_pipelines.py +7 -2
mteb/abstasks/_statistics_calculation.py +6 -4
mteb/abstasks/abstask.py +17 -9
mteb/abstasks/aggregate_task_metadata.py +20 -9
mteb/abstasks/aggregated_task.py +15 -8
mteb/abstasks/classification.py +15 -6
mteb/abstasks/clustering.py +17 -8
mteb/abstasks/clustering_legacy.py +14 -6
mteb/abstasks/image/image_text_pair_classification.py +17 -7
mteb/abstasks/multilabel_classification.py +11 -5
mteb/abstasks/pair_classification.py +19 -9
mteb/abstasks/regression.py +14 -6
mteb/abstasks/retrieval.py +28 -17
mteb/abstasks/retrieval_dataset_loaders.py +11 -8
mteb/abstasks/sts.py +19 -10
mteb/abstasks/task_metadata.py +17 -8
mteb/abstasks/text/bitext_mining.py +14 -7
mteb/abstasks/text/summarization.py +17 -7
mteb/abstasks/zeroshot_classification.py +15 -7
mteb/benchmarks/_create_table.py +13 -3
mteb/benchmarks/benchmark.py +11 -1
mteb/benchmarks/benchmarks/__init__.py +2 -0
mteb/benchmarks/benchmarks/benchmarks.py +41 -2
mteb/benchmarks/benchmarks/rteb_benchmarks.py +20 -9
mteb/cache.py +10 -5
mteb/cli/_display_tasks.py +9 -3
mteb/cli/build_cli.py +5 -2
mteb/cli/generate_model_card.py +9 -2
mteb/deprecated_evaluator.py +16 -12
mteb/descriptive_stats/Retrieval/BrightAopsRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightBiologyLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightBiologyRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightEarthScienceLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightEarthScienceRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightEconomicsLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightEconomicsRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightLeetcodeRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightPonyLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightPonyRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightPsychologyLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightPsychologyRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightRoboticsLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightRoboticsRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightStackoverflowLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightStackoverflowRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightSustainableLivingLongRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightSustainableLivingRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightTheoremQAQuestionsRetrieval.json +35 -0
mteb/descriptive_stats/Retrieval/BrightTheoremQATheoremsRetrieval.json +35 -0
mteb/evaluate.py +20 -18
mteb/filter_tasks.py +12 -7
mteb/get_tasks.py +9 -4
mteb/languages/language_scripts.py +8 -3
mteb/leaderboard/app.py +7 -3
mteb/leaderboard/table.py +7 -2
mteb/load_results.py +9 -3
mteb/models/abs_encoder.py +22 -12
mteb/models/cache_wrappers/cache_backend_protocol.py +5 -3
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +8 -4
mteb/models/cache_wrappers/cache_backends/faiss_cache.py +8 -3
mteb/models/cache_wrappers/cache_wrapper.py +14 -9
mteb/models/get_model_meta.py +11 -4
mteb/models/instruct_wrapper.py +13 -5
mteb/models/model_implementations/align_models.py +10 -4
mteb/models/model_implementations/amazon_models.py +1 -0
mteb/models/model_implementations/andersborges.py +2 -0
mteb/models/model_implementations/ara_models.py +1 -0
mteb/models/model_implementations/arctic_models.py +8 -0
mteb/models/model_implementations/b1ade_models.py +1 -0
mteb/models/model_implementations/bedrock_models.py +20 -6
mteb/models/model_implementations/bge_models.py +40 -1
mteb/models/model_implementations/bica_model.py +1 -0
mteb/models/model_implementations/blip2_models.py +11 -4
mteb/models/model_implementations/blip_models.py +17 -4
mteb/models/model_implementations/bm25.py +22 -14
mteb/models/model_implementations/bmretriever_models.py +10 -2
mteb/models/model_implementations/cadet_models.py +1 -0
mteb/models/model_implementations/cde_models.py +11 -5
mteb/models/model_implementations/clip_models.py +12 -4
mteb/models/model_implementations/clips_models.py +3 -0
mteb/models/model_implementations/codefuse_models.py +5 -0
mteb/models/model_implementations/codesage_models.py +3 -0
mteb/models/model_implementations/cohere_models.py +14 -4
mteb/models/model_implementations/cohere_v.py +14 -4
mteb/models/model_implementations/colpali_models.py +7 -3
mteb/models/model_implementations/colqwen_models.py +17 -31
mteb/models/model_implementations/colsmol_models.py +3 -1
mteb/models/model_implementations/conan_models.py +11 -4
mteb/models/model_implementations/dino_models.py +28 -4
mteb/models/model_implementations/e5_instruct.py +4 -0
mteb/models/model_implementations/e5_models.py +9 -0
mteb/models/model_implementations/e5_v.py +10 -4
mteb/models/model_implementations/eagerworks_models.py +11 -4
mteb/models/model_implementations/emillykkejensen_models.py +3 -0
mteb/models/model_implementations/en_code_retriever.py +1 -0
mteb/models/model_implementations/euler_models.py +1 -0
mteb/models/model_implementations/evaclip_models.py +13 -4
mteb/models/model_implementations/fa_models.py +9 -0
mteb/models/model_implementations/facebookai.py +2 -0
mteb/models/model_implementations/geogpt_models.py +1 -0
mteb/models/model_implementations/gme_v_models.py +7 -3
mteb/models/model_implementations/google_models.py +15 -4
mteb/models/model_implementations/granite_vision_embedding_models.py +7 -5
mteb/models/model_implementations/gritlm_models.py +2 -0
mteb/models/model_implementations/gte_models.py +9 -0
mteb/models/model_implementations/hinvec_models.py +6 -1
mteb/models/model_implementations/human.py +1 -0
mteb/models/model_implementations/ibm_granite_models.py +6 -0
mteb/models/model_implementations/inf_models.py +2 -0
mteb/models/model_implementations/jasper_models.py +14 -5
mteb/models/model_implementations/jina_clip.py +10 -4
mteb/models/model_implementations/jina_models.py +17 -5
mteb/models/model_implementations/kalm_models.py +24 -12
mteb/models/model_implementations/kblab.py +1 -0
mteb/models/model_implementations/kennethenevoldsen_models.py +2 -0
mteb/models/model_implementations/kfst.py +1 -0
mteb/models/model_implementations/kowshik24_models.py +1 -0
mteb/models/model_implementations/lens_models.py +2 -0
mteb/models/model_implementations/lgai_embedding_models.py +1 -0
mteb/models/model_implementations/linq_models.py +7 -1
mteb/models/model_implementations/listconranker.py +10 -4
mteb/models/model_implementations/llm2clip_models.py +12 -4
mteb/models/model_implementations/llm2vec_models.py +20 -6
mteb/models/model_implementations/mcinext_models.py +8 -2
mteb/models/model_implementations/mdbr_models.py +2 -0
mteb/models/model_implementations/misc_models.py +63 -0
mteb/models/model_implementations/mixedbread_ai_models.py +3 -0
mteb/models/model_implementations/mme5_models.py +2 -1
mteb/models/model_implementations/moco_models.py +11 -4
mteb/models/model_implementations/mod_models.py +2 -1
mteb/models/model_implementations/model2vec_models.py +23 -4
mteb/models/model_implementations/moka_models.py +3 -0
mteb/models/model_implementations/nbailab.py +3 -0
mteb/models/model_implementations/no_instruct_sentence_models.py +13 -5
mteb/models/model_implementations/nomic_models.py +16 -4
mteb/models/model_implementations/nomic_models_vision.py +5 -3
mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py +9 -3
mteb/models/model_implementations/nvidia_models.py +15 -4
mteb/models/model_implementations/octen_models.py +3 -1
mteb/models/model_implementations/openai_models.py +14 -4
mteb/models/model_implementations/openclip_models.py +17 -4
mteb/models/model_implementations/opensearch_neural_sparse_models.py +15 -4
mteb/models/model_implementations/ops_moa_models.py +9 -2
mteb/models/model_implementations/ordalietech_solon_embeddings_mini_beta_1_1.py +1 -0
mteb/models/model_implementations/pawan_models.py +1 -0
mteb/models/model_implementations/piccolo_models.py +2 -0
mteb/models/model_implementations/promptriever_models.py +16 -6
mteb/models/model_implementations/pylate_models.py +22 -13
mteb/models/model_implementations/qodo_models.py +2 -0
mteb/models/model_implementations/qtack_models.py +1 -0
mteb/models/model_implementations/qwen3_models.py +11 -1
mteb/models/model_implementations/qzhou_models.py +2 -0
mteb/models/model_implementations/random_baseline.py +4 -3
mteb/models/model_implementations/rasgaard_models.py +1 -0
mteb/models/model_implementations/reasonir_model.py +65 -0
mteb/models/model_implementations/repllama_models.py +15 -6
mteb/models/model_implementations/rerankers_custom.py +13 -4
mteb/models/model_implementations/rerankers_monot5_based.py +24 -4
mteb/models/model_implementations/richinfoai_models.py +1 -0
mteb/models/model_implementations/ru_sentence_models.py +20 -0
mteb/models/model_implementations/ruri_models.py +10 -0
mteb/models/model_implementations/salesforce_models.py +10 -1
mteb/models/model_implementations/samilpwc_models.py +1 -0
mteb/models/model_implementations/sarashina_embedding_models.py +2 -0
mteb/models/model_implementations/searchmap_models.py +1 -0
mteb/models/model_implementations/seed_1_6_embedding_models.py +5 -2
mteb/models/model_implementations/seed_1_6_embedding_models_1215.py +6 -2
mteb/models/model_implementations/seed_models.py +2 -1
mteb/models/model_implementations/sentence_transformers_models.py +18 -0
mteb/models/model_implementations/shuu_model.py +1 -0
mteb/models/model_implementations/siglip_models.py +19 -4
mteb/models/model_implementations/slm_models.py +7 -4
mteb/models/model_implementations/sonar_models.py +2 -1
mteb/models/model_implementations/spartan8806_atles_champion.py +1 -0
mteb/models/model_implementations/stella_models.py +6 -0
mteb/models/model_implementations/tarka_models.py +2 -0
mteb/models/model_implementations/text2vec_models.py +3 -0
mteb/models/model_implementations/ua_sentence_models.py +1 -0
mteb/models/model_implementations/uae_models.py +10 -4
mteb/models/model_implementations/vdr_models.py +8 -1
mteb/models/model_implementations/vi_vn_models.py +6 -0
mteb/models/model_implementations/vista_models.py +11 -4
mteb/models/model_implementations/vlm2vec_models.py +11 -4
mteb/models/model_implementations/voyage_models.py +25 -4
mteb/models/model_implementations/voyage_v.py +11 -6
mteb/models/model_implementations/xyz_models.py +1 -0
mteb/models/model_implementations/youtu_models.py +1 -0
mteb/models/model_implementations/yuan_models.py +1 -0
mteb/models/model_implementations/yuan_models_en.py +2 -1
mteb/models/model_meta.py +47 -9
mteb/models/models_protocols.py +19 -18
mteb/models/search_encoder_index/search_backend_protocol.py +7 -3
mteb/models/search_encoder_index/search_indexes/faiss_search_index.py +12 -4
mteb/models/search_wrappers.py +19 -12
mteb/models/sentence_transformer_wrapper.py +4 -3
mteb/models/vllm_wrapper.py +8 -6
mteb/results/benchmark_results.py +22 -17
mteb/results/model_result.py +21 -15
mteb/results/task_result.py +15 -9
mteb/similarity_functions.py +8 -2
mteb/tasks/aggregated_tasks/eng/cqadupstack_retrieval.py +3 -3
mteb/tasks/aggregated_tasks/eng/sts17_multilingual_visual_sts_eng.py +3 -3
mteb/tasks/aggregated_tasks/eng/sts_benchmark_multilingual_visual_sts_eng.py +3 -3
mteb/tasks/aggregated_tasks/fas/cqadupstack_retrieval_fa.py +3 -3
mteb/tasks/aggregated_tasks/fas/syn_per_chatbot_conv_sa_classification.py +3 -3
mteb/tasks/aggregated_tasks/multilingual/sts17_multilingual_vision_sts.py +3 -3
mteb/tasks/aggregated_tasks/multilingual/sts_benchmark_multilingual_visual_sts.py +3 -3
mteb/tasks/aggregated_tasks/nld/cqadupstack_nl_retrieval.py +3 -3
mteb/tasks/aggregated_tasks/pol/cqadupstack_retrieval_pl.py +3 -3
mteb/tasks/clustering/nob/snl_clustering.py +7 -2
mteb/tasks/clustering/nob/vg_clustering.py +7 -2
mteb/tasks/retrieval/eng/__init__.py +42 -0
mteb/tasks/retrieval/eng/bright_retrieval.py +9 -1
mteb/tasks/retrieval/eng/bright_v1_1_retrieval.py +968 -0
mteb/tasks/retrieval/eng/limit_retrieval.py +6 -1
mteb/tasks/retrieval/multilingual/ru_sci_bench_retrieval.py +3 -3
mteb/types/_encoder_io.py +1 -1
mteb/types/statistics.py +9 -2
{mteb-2.7.2.dist-info → mteb-2.7.4.dist-info}/METADATA +1 -1
{mteb-2.7.2.dist-info → mteb-2.7.4.dist-info}/RECORD +238 -217
{mteb-2.7.2.dist-info → mteb-2.7.4.dist-info}/WHEEL +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.4.dist-info}/entry_points.txt +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.4.dist-info}/licenses/LICENSE +0 -0
{mteb-2.7.2.dist-info → mteb-2.7.4.dist-info}/top_level.txt +0 -0

mteb/models/model_implementations/misc_models.py CHANGED Viewed

@@ -18,6 +18,7 @@ Haon_Chen__speed_embedding_7b_instruct = ModelMeta(
     release_date="2024-10-31",
     languages=["eng-Latn"],
     n_parameters=7110660096,
+    n_embedding_parameters=None,
     memory_usage_mb=13563,
     max_tokens=32768.0,
     embed_dim=None,
@@ -47,6 +48,7 @@ Gameselo__STS_multilingual_mpnet_base_v2 = ModelMeta(
     languages=[],
     loader=sentence_transformers_loader,
     n_parameters=278043648,
+    n_embedding_parameters=192_001_536,
     memory_usage_mb=1061,
     max_tokens=514.0,
     embed_dim=768,
@@ -148,6 +150,7 @@ Hum_Works__lodestone_base_4096_v1 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=None,
     memory_usage_mb=None,
     max_tokens=None,
     embed_dim=768,
@@ -215,6 +218,7 @@ Jaume__gemma_2b_embeddings = ModelMeta(
     languages=[],
     loader=sentence_transformers_loader,
     n_parameters=2506172416,
+    n_embedding_parameters=None,
     memory_usage_mb=9560,
     max_tokens=8192.0,
     embed_dim=2048,
@@ -250,6 +254,7 @@ Lajavaness__bilingual_embedding_base = ModelMeta(
         trust_remote_code=True,
     ),
     n_parameters=278043648,
+    n_embedding_parameters=192_001_536,
     memory_usage_mb=1061,
     max_tokens=514.0,
     embed_dim=768,
@@ -299,6 +304,7 @@ Lajavaness__bilingual_embedding_large = ModelMeta(
         trust_remote_code=True,
     ),
     n_parameters=559890432,
+    n_embedding_parameters=256_002_048,
     memory_usage_mb=2136,
     max_tokens=514.0,
     embed_dim=1024,
@@ -348,6 +354,7 @@ Lajavaness__bilingual_embedding_small = ModelMeta(
         trust_remote_code=True,
     ),
     n_parameters=117653760,
+    n_embedding_parameters=96_014_208,
     memory_usage_mb=449,
     max_tokens=512.0,
     embed_dim=384,
@@ -394,6 +401,7 @@ Mihaiii__Bulbasaur = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=17389824,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=66,
     max_tokens=512.0,
     embed_dim=384,
@@ -418,6 +426,7 @@ Mihaiii__Ivysaur = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=22713216,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=87,
     max_tokens=512.0,
     embed_dim=384,
@@ -442,6 +451,7 @@ Mihaiii__Squirtle = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=15615360,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=60,
     max_tokens=512.0,
     embed_dim=384,
@@ -466,6 +476,7 @@ Mihaiii__Venusaur = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=15615360,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=60,
     max_tokens=512.0,
     embed_dim=384,
@@ -490,6 +501,7 @@ Mihaiii__Wartortle = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=17389824,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=66,
     max_tokens=512.0,
     embed_dim=384,
@@ -514,6 +526,7 @@ Mihaiii__gte_micro = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=17389824,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=66,
     max_tokens=512.0,
     embed_dim=384,
@@ -537,6 +550,7 @@ Mihaiii__gte_micro_v4 = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=19164288,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=73,
     max_tokens=512.0,
     embed_dim=384,
@@ -560,6 +574,7 @@ OrdalieTech__Solon_embeddings_large_0_1 = ModelMeta(
     languages=["fra-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=559890432,
+    n_embedding_parameters=256_002_048,
     memory_usage_mb=2136,
     max_tokens=514.0,
     embed_dim=1024,
@@ -583,6 +598,7 @@ Omartificial_Intelligence_Space__Arabert_all_nli_triplet_Matryoshka = ModelMeta(
     languages=["ara-Arab"],
     loader=sentence_transformers_loader,
     n_parameters=135193344,
+    n_embedding_parameters=49_152_000,
     memory_usage_mb=516,
     max_tokens=512.0,
     embed_dim=768,
@@ -615,6 +631,7 @@ Omartificial_Intelligence_Space__Arabic_MiniLM_L12_v2_all_nli_triplet = ModelMet
     languages=["ara-Arab"],
     loader=sentence_transformers_loader,
     n_parameters=117653760,
+    n_embedding_parameters=96_014_208,
     memory_usage_mb=449,
     max_tokens=512.0,
     embed_dim=384,
@@ -640,6 +657,7 @@ Omartificial_Intelligence_Space__Arabic_all_nli_triplet_Matryoshka = ModelMeta(
     languages=["ara-Arab"],
     loader=sentence_transformers_loader,
     n_parameters=278043648,
+    n_embedding_parameters=192_001_536,
     memory_usage_mb=1061,
     max_tokens=514.0,
     embed_dim=768,
@@ -674,6 +692,7 @@ Omartificial_Intelligence_Space__Arabic_labse_Matryoshka = ModelMeta(
     languages=["ara-Arab"],
     loader=sentence_transformers_loader,
     n_parameters=470926848,
+    n_embedding_parameters=384_885_504,
     memory_usage_mb=1796,
     max_tokens=512.0,
     embed_dim=768,
@@ -708,6 +727,7 @@ Omartificial_Intelligence_Space__Arabic_mpnet_base_all_nli_triplet = ModelMeta(
     languages=["ara-Arab"],
     loader=sentence_transformers_loader,
     n_parameters=109486464,
+    n_embedding_parameters=23_444_736,
     memory_usage_mb=418,
     max_tokens=514.0,
     embed_dim=768,
@@ -742,6 +762,7 @@ Omartificial_Intelligence_Space__Marbert_all_nli_triplet_Matryoshka = ModelMeta(
     languages=["ara-Arab"],
     loader=sentence_transformers_loader,
     n_parameters=162841344,
+    n_embedding_parameters=76_800_000,
     memory_usage_mb=621,
     max_tokens=512.0,
     embed_dim=768,
@@ -774,6 +795,7 @@ consciousai__cai_lunaris_text_embeddings = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=31_254_528,
     memory_usage_mb=None,
     max_tokens=512.0,
     embed_dim=1024,
@@ -797,6 +819,7 @@ consciousai__cai_stellaris_text_embeddings = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=None,
     memory_usage_mb=None,
     max_tokens=514.0,
     embed_dim=768,
@@ -829,6 +852,7 @@ manu__sentence_croissant_alpha_v0_2 = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=1279887360,
+    n_embedding_parameters=65_536_000,
     memory_usage_mb=2441,
     max_tokens=2048.0,
     embed_dim=2048,
@@ -852,6 +876,7 @@ manu__sentence_croissant_alpha_v0_3 = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=1279887360,
+    n_embedding_parameters=65_536_000,
     memory_usage_mb=2441,
     max_tokens=2048.0,
     embed_dim=2048,
@@ -875,6 +900,7 @@ manu__sentence_croissant_alpha_v0_4 = ModelMeta(
     languages=["fra-Latn", "eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=1279887360,
+    n_embedding_parameters=65_536_000,
     memory_usage_mb=2441,
     max_tokens=2048.0,
     embed_dim=2048,
@@ -899,6 +925,7 @@ thenlper__gte_base = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=109482752,
+    n_embedding_parameters=23_440_896,
     memory_usage_mb=209,
     max_tokens=512.0,
     embed_dim=768,
@@ -928,6 +955,7 @@ thenlper__gte_large = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=335142400,
+    n_embedding_parameters=31_254_528,
     memory_usage_mb=639,
     max_tokens=512.0,
     embed_dim=1024,
@@ -957,6 +985,7 @@ thenlper__gte_small = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=33360512,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=64,
     max_tokens=512.0,
     embed_dim=384,
@@ -986,6 +1015,7 @@ OrlikB__KartonBERT_USE_base_v1 = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=103705344,
+    n_embedding_parameters=None,
     memory_usage_mb=396,
     max_tokens=512.0,
     embed_dim=768,
@@ -1009,6 +1039,7 @@ OrlikB__st_polish_kartonberta_base_alpha_v1 = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=None,
     memory_usage_mb=None,
     max_tokens=514.0,
     embed_dim=768,
@@ -1032,6 +1063,7 @@ sdadas__mmlw_e5_base = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=278043648,
+    n_embedding_parameters=192_001_536,
     memory_usage_mb=1061,
     max_tokens=514.0,
     embed_dim=768,
@@ -1063,6 +1095,7 @@ dwzhu__e5_base_4k = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=23_440_896,
     memory_usage_mb=None,
     max_tokens=4096.0,
     embed_dim=None,
@@ -1092,6 +1125,7 @@ sdadas__mmlw_e5_large = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=559890432,
+    n_embedding_parameters=256_002_048,
     memory_usage_mb=2136,
     max_tokens=514.0,
     embed_dim=1024,
@@ -1123,6 +1157,7 @@ sdadas__mmlw_e5_small = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=117653760,
+    n_embedding_parameters=96_014_208,
     memory_usage_mb=449,
     max_tokens=512.0,
     embed_dim=384,
@@ -1154,6 +1189,7 @@ sdadas__mmlw_roberta_base = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=124442880,
+    n_embedding_parameters=38_400_768,
     memory_usage_mb=475,
     max_tokens=514.0,
     embed_dim=768,
@@ -1185,6 +1221,7 @@ sdadas__mmlw_roberta_large = ModelMeta(
     languages=["pol-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=434961408,
+    n_embedding_parameters=131_073_024,
     memory_usage_mb=1659,
     max_tokens=514.0,
     embed_dim=1024,
@@ -1271,6 +1308,7 @@ izhx__udever_bloom_1b1 = ModelMeta(
     languages=udever_languages,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=385_351_680,
     memory_usage_mb=None,
     max_tokens=None,
     embed_dim=None,
@@ -1300,6 +1338,7 @@ izhx__udever_bloom_3b = ModelMeta(
     languages=udever_languages,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=642_252_800,
     memory_usage_mb=None,
     max_tokens=None,
     embed_dim=None,
@@ -1329,6 +1368,7 @@ izhx__udever_bloom_560m = ModelMeta(
     languages=udever_languages,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=256_901_120,
     memory_usage_mb=None,
     max_tokens=None,
     embed_dim=None,
@@ -1358,6 +1398,7 @@ izhx__udever_bloom_7b1 = ModelMeta(
     languages=udever_languages,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=1_027_604_480,
     memory_usage_mb=None,
     max_tokens=None,
     embed_dim=None,
@@ -1387,6 +1428,7 @@ avsolatorio__gist_embedding_v0 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=109482240,
+    n_embedding_parameters=23_440_896,
     memory_usage_mb=418,
     max_tokens=512.0,
     embed_dim=768,
@@ -1437,6 +1479,7 @@ avsolatorio__gist_all_minilm_l6_v2 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=22713216,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=87,
     max_tokens=512.0,
     embed_dim=384,
@@ -1487,6 +1530,7 @@ avsolatorio__gist_large_embedding_v0 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=335141888,
+    n_embedding_parameters=31_254_528,
     memory_usage_mb=1278,
     max_tokens=512.0,
     embed_dim=1024,
@@ -1537,6 +1581,7 @@ avsolatorio__gist_small_embedding_v0 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=33360000,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=127,
     max_tokens=512.0,
     embed_dim=384,
@@ -1587,6 +1632,7 @@ bigscience__sgpt_bloom_7b1_msmarco = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=1_026_793_472,
     memory_usage_mb=None,
     max_tokens=None,
     embed_dim=4096,
@@ -1616,6 +1662,7 @@ aari1995__german_semantic_sts_v2 = ModelMeta(
     languages=["deu-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=335736320,
+    n_embedding_parameters=31_848_448,
     memory_usage_mb=1281,
     max_tokens=512.0,
     embed_dim=1024,
@@ -1640,6 +1687,7 @@ abhinand__medembed_small_v0_1 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=33360000,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=127,
     max_tokens=512.0,
     embed_dim=384,
@@ -1678,6 +1726,7 @@ avsolatorio__noinstruct_small_embedding_v0 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=33360000,
+    n_embedding_parameters=11720448,
     memory_usage_mb=127,
     max_tokens=512.0,
     embed_dim=384,
@@ -1701,6 +1750,7 @@ brahmairesearch__slx_v0_1 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=22713216,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=87,
     max_tokens=512.0,
     embed_dim=384,
@@ -1724,6 +1774,7 @@ deepfile__embedder_100p = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=192_001_536,
     memory_usage_mb=1061,
     max_tokens=514.0,
     embed_dim=768,
@@ -1747,6 +1798,7 @@ infgrad__stella_base_en_v2 = ModelMeta(
     languages=["eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=23_440_896,
     memory_usage_mb=None,
     max_tokens=512.0,
     embed_dim=None,
@@ -1770,6 +1822,7 @@ malenia1__ternary_weight_embedding = ModelMeta(
     languages=None,
     loader=sentence_transformers_loader,
     n_parameters=98688000,
+    n_embedding_parameters=None,
     memory_usage_mb=158,
     max_tokens=512.0,
     embed_dim=1024,
@@ -1793,6 +1846,7 @@ omarelshehy__arabic_english_sts_matryoshka = ModelMeta(
     languages=["ara-Arab", "eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=559890432,
+    n_embedding_parameters=256_002_048,
     memory_usage_mb=2136,
     max_tokens=514.0,
     embed_dim=1024,
@@ -1833,6 +1887,7 @@ openbmb__minicpm_embedding = ModelMeta(
     release_date="2024-09-04",
     languages=["zho-Hans", "eng-Latn"],
     n_parameters=2724880896,
+    n_embedding_parameters=282_822_912,
     memory_usage_mb=5197,
     max_tokens=512.0,
     embed_dim=2304,
@@ -1857,6 +1912,7 @@ silma_ai__silma_embedding_matryoshka_v0_1 = ModelMeta(
     languages=["ara-Arab", "eng-Latn"],
     loader=sentence_transformers_loader,
     n_parameters=135193344,
+    n_embedding_parameters=49_152_000,
     memory_usage_mb=516,
     max_tokens=512.0,
     embed_dim=768,
@@ -1888,6 +1944,7 @@ sbert_chinese_general_v1 = ModelMeta(
     languages=["zho-Hans"],
     loader=sentence_transformers_loader,
     n_parameters=None,
+    n_embedding_parameters=16_226_304,
     memory_usage_mb=None,  # Not visible on repo
     max_tokens=512,
     embed_dim=128,
@@ -1916,6 +1973,7 @@ dmeta_embedding_zh_small = ModelMeta(
     languages=["zho-Hans"],
     loader=sentence_transformers_loader,
     n_parameters=int(74.2 * 1e6),
+    n_embedding_parameters=16_226_304,
     memory_usage_mb=283,
     max_tokens=1024,
     embed_dim=768,
@@ -1939,6 +1997,7 @@ xiaobu_embedding = ModelMeta(
     languages=["zho-Hans"],
     loader=sentence_transformers_loader,
     n_parameters=int(326 * 1e6),
+    n_embedding_parameters=21_635_072,
     memory_usage_mb=1244,
     max_tokens=512,
     embed_dim=1024,
@@ -1963,6 +2022,7 @@ xiaobu_embedding_v2 = ModelMeta(
     languages=["zho-Hans"],
     loader=sentence_transformers_loader,
     n_parameters=int(326 * 1e6),
+    n_embedding_parameters=21_635_072,
     memory_usage_mb=1242,
     max_tokens=512,
     embed_dim=768,
@@ -1987,6 +2047,7 @@ yinka_embedding = ModelMeta(
     languages=["zho-Hans"],
     loader=sentence_transformers_loader,
     n_parameters=int(326 * 1e6),
+    n_embedding_parameters=21_635_072,
     memory_usage_mb=1244,
     max_tokens=512,
     embed_dim=1024,
@@ -2010,6 +2071,7 @@ conan_embedding = ModelMeta(
     languages=["zho-Hans"],
     loader=sentence_transformers_loader,
     n_parameters=int(326 * 1e6),
+    n_embedding_parameters=21_635_072,
     memory_usage_mb=1242,
     max_tokens=512,
     embed_dim=768,
@@ -2043,6 +2105,7 @@ ember_v1 = ModelMeta(
     release_date="2023-10-10",
     languages=["eng-Latn"],
     n_parameters=int(335 * 1e6),
+    n_embedding_parameters=31_254_528,
     memory_usage_mb=1278,
     max_tokens=512,
     embed_dim=1024,

mteb/models/model_implementations/mixedbread_ai_models.py CHANGED Viewed

@@ -31,6 +31,7 @@ mxbai_embed_large_v1 = ModelMeta(
     revision="990580e27d329c7408b3741ecff85876e128e203",
     release_date="2024-03-07",  # initial commit of hf model.
     n_parameters=335_000_000,
+    n_embedding_parameters=31_254_528,
     memory_usage_mb=639,
     max_tokens=512,
     embed_dim=1024,
@@ -75,6 +76,7 @@ mxbai_embed_2d_large_v1 = ModelMeta(
     revision="7e639ca8e344af398876ead3b19ec3c0b9068f49",
     release_date="2024-03-04",  # initial commit of hf model.
     n_parameters=335_000_000,
+    n_embedding_parameters=31_254_528,
     memory_usage_mb=None,
     max_tokens=512,
     embed_dim=768,
@@ -106,6 +108,7 @@ mxbai_embed_xsmall_v1 = ModelMeta(
     revision="2f741ec33328bb57e4704e1238fc59a4a5745705",
     release_date="2024-08-13",  # initial commit of hf model.
     n_parameters=24_100_000,
+    n_embedding_parameters=11_720_448,
     memory_usage_mb=None,
     max_tokens=512,
     embed_dim=384,

mteb/models/model_implementations/mme5_models.py CHANGED Viewed

@@ -16,7 +16,8 @@ mme5_mllama = ModelMeta(
     revision="cbb328b9bf9ff5362c852c3166931903226d46f1",
     release_date="2025-02-12",
     languages=["eng-Latn"],
-    n_parameters=10_600_000_000,  # 10.6B
+    n_parameters=10_600_000_000,
+    n_embedding_parameters=None,  # 10.6B
     memory_usage_mb=20300,
     max_tokens=128_000,
     embed_dim=4096,

mteb/models/model_implementations/moco_models.py CHANGED Viewed

@@ -1,14 +1,19 @@
-from typing import Any
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
 import torch
-from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 from mteb._requires_package import requires_image_dependencies, requires_package
-from mteb.abstasks.task_metadata import TaskMetadata
 from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
-from mteb.types import Array, BatchedInput, PromptType
+if TYPE_CHECKING:
+    from torch.utils.data import DataLoader
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.types import Array, BatchedInput, PromptType
 MOCOV3_CITATION = """@Article{chen2021mocov3,
     author  = {Xinlei Chen* and Saining Xie* and Kaiming He},
@@ -125,6 +130,7 @@ mocov3_vit_base = ModelMeta(
     release_date="2024-06-03",
     modalities=["image"],
     n_parameters=86_600_000,
+    n_embedding_parameters=None,
     memory_usage_mb=330,
     max_tokens=None,
     embed_dim=768,
@@ -149,6 +155,7 @@ mocov3_vit_large = ModelMeta(
     release_date="2024-06-03",
     modalities=["image"],
     n_parameters=304_000_000,
+    n_embedding_parameters=None,
     memory_usage_mb=1161,
     max_tokens=None,
     embed_dim=1024,

mteb/models/model_implementations/mod_models.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from mteb.models.instruct_wrapper import InstructSentenceTransformerModel
 from mteb.models.model_meta import ModelMeta
-from mteb.models.models_protocols import PromptType
+from mteb.types import PromptType
 def instruction_template(
@@ -175,6 +175,7 @@ MoD_Embedding = ModelMeta(
     revision="acbb5b70fdab262226a6af2bc62001de8021b05c",
     release_date="2025-12-14",
     n_parameters=4021774336,
+    n_embedding_parameters=None,
     memory_usage_mb=7671,
     embed_dim=2560,
     max_tokens=32768,

mteb/models/model_implementations/model2vec_models.py CHANGED Viewed

@@ -1,17 +1,23 @@
+from __future__ import annotations
 import logging
-from typing import Any
+from typing import TYPE_CHECKING, Any
 import numpy as np
-from torch.utils.data import DataLoader
 from mteb._requires_package import requires_package
-from mteb.abstasks.task_metadata import TaskMetadata
 from mteb.models.abs_encoder import AbsEncoder
 from mteb.models.model_meta import ModelMeta, ScoringFunction
-from mteb.types import Array, BatchedInput, PromptType
 from .bge_models import bge_training_data
+if TYPE_CHECKING:
+    from torch.utils.data import DataLoader
+    from mteb.abstasks.task_metadata import TaskMetadata
+    from mteb.types import Array, BatchedInput, PromptType
 logger = logging.getLogger(__name__)
 MODEL2VEC_CITATION = """@software{minishlab2024model2vec,
@@ -167,6 +173,7 @@ m2v_base_glove_subword = ModelMeta(
     revision="5f4f5ca159b7321a8b39739bba0794fa0debddf4",
     release_date="2024-09-21",
     n_parameters=int(103 * 1e6),
+    n_embedding_parameters=int(103 * 1e6),
     memory_usage_mb=391,
     max_tokens=np.inf,  # Theoretically infinite
     embed_dim=256,
@@ -193,6 +200,7 @@ m2v_base_glove = ModelMeta(
     revision="38ebd7f10f71e67fa8db898290f92b82e9cfff2b",
     release_date="2024-09-21",
     n_parameters=int(102 * 1e6),
+    n_embedding_parameters=int(102 * 1e6),
     memory_usage_mb=391,
     max_tokens=np.inf,
     embed_dim=256,
@@ -218,6 +226,7 @@ m2v_base_output = ModelMeta(
     revision="02460ae401a22b09d2c6652e23371398329551e2",
     release_date="2024-09-21",
     n_parameters=int(7.56 * 1e6),
+    n_embedding_parameters=int(7.56 * 1e6),
     memory_usage_mb=29,
     max_tokens=np.inf,
     embed_dim=256,
@@ -243,6 +252,7 @@ m2v_multilingual_output = ModelMeta(
     revision="2cf4ec4e1f51aeca6c55cf9b93097d00711a6305",
     release_date="2024-09-21",
     n_parameters=int(128 * 1e6),
+    n_embedding_parameters=int(128 * 1e6),
     memory_usage_mb=489,
     max_tokens=np.inf,
     embed_dim=256,
@@ -268,6 +278,7 @@ potion_base_2m = ModelMeta(
     revision="86db093558fbced2072b929eb1690bce5272bd4b",
     release_date="2024-10-29",
     n_parameters=int(2 * 1e6),
+    n_embedding_parameters=int(2 * 1e6),
     memory_usage_mb=7,
     max_tokens=np.inf,
     embed_dim=64,
@@ -293,6 +304,7 @@ potion_base_4m = ModelMeta(
     revision="81b1802ada41afcd0987a37dc15e569c9fa76f04",
     release_date="2024-10-29",
     n_parameters=int(3.78 * 1e6),
+    n_embedding_parameters=int(3.78 * 1e6),
     memory_usage_mb=14,
     max_tokens=np.inf,
     embed_dim=128,
@@ -318,6 +330,7 @@ potion_base_8m = ModelMeta(
     revision="dcbec7aa2d52fc76754ac6291803feedd8c619ce",
     release_date="2024-10-29",
     n_parameters=int(7.56 * 1e6),
+    n_embedding_parameters=int(7.56 * 1e6),
     memory_usage_mb=29,
     max_tokens=np.inf,
     embed_dim=256,
@@ -343,6 +356,7 @@ potion_multilingual_128m = ModelMeta(
     revision="38ebd7f10f71e67fa8db898290f92b82e9cfff2a",
     release_date="2025-05-23",
     n_parameters=128 * 1e6,
+    n_embedding_parameters=128 * 1e6,
     memory_usage_mb=489,
     max_tokens=np.inf,
     embed_dim=256,
@@ -368,6 +382,7 @@ pubmed_bert_100k = ModelMeta(
     revision="bac5e3b12fb8c650e92a19c41b436732c4f16e9e",
     release_date="2025-01-03",
     n_parameters=1 * 1e5,
+    n_embedding_parameters=1 * 1e5,
     memory_usage_mb=0,
     max_tokens=np.inf,
     embed_dim=64,
@@ -392,6 +407,7 @@ pubmed_bert_500k = ModelMeta(
     revision="34ba71e35c393fdad7ed695113f653feb407b16b",
     release_date="2025-01-03",
     n_parameters=5 * 1e5,
+    n_embedding_parameters=5 * 1e5,
     memory_usage_mb=2,
     max_tokens=np.inf,
     embed_dim=64,
@@ -416,6 +432,7 @@ pubmed_bert_1m = ModelMeta(
     revision="2b7fed222594708da6d88bcda92ae9b434b7ddd1",
     release_date="2025-01-03",
     n_parameters=1 * 1e6,
+    n_embedding_parameters=1 * 1e6,
     memory_usage_mb=2,
     max_tokens=np.inf,
     embed_dim=64,
@@ -440,6 +457,7 @@ pubmed_bert_2m = ModelMeta(
     revision="1d7bbe04d6713e425161146bfdc71473cbed498a",
     release_date="2025-01-03",
     n_parameters=1.95 * 1e6,
+    n_embedding_parameters=1.95 * 1e6,
     memory_usage_mb=7,
     max_tokens=np.inf,
     embed_dim=64,
@@ -464,6 +482,7 @@ pubmed_bert_8m = ModelMeta(
     revision="387d350015e963744f4fafe56a574b7cd48646c9",
     release_date="2025-01-03",
     n_parameters=7.81 * 1e6,
+    n_embedding_parameters=7.81 * 1e6,
     memory_usage_mb=30,
     max_tokens=np.inf,
     embed_dim=256,

mteb 2.7.2__py3-none-any.whl → 2.7.4__py3-none-any.whl

mteb 2.7.2py3-none-any.whl → 2.7.4py3-none-any.whl