PyPI - mteb - Versions diffs - 2.5.2__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.5.2py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (241) hide show

mteb/__init__.py +2 -0
mteb/_create_dataloaders.py +17 -18
mteb/_evaluators/any_sts_evaluator.py +3 -3
mteb/_evaluators/clustering_evaluator.py +2 -2
mteb/_evaluators/evaluator.py +4 -2
mteb/_evaluators/image/imagetext_pairclassification_evaluator.py +10 -8
mteb/_evaluators/pair_classification_evaluator.py +5 -3
mteb/_evaluators/retrieval_evaluator.py +2 -2
mteb/_evaluators/retrieval_metrics.py +18 -17
mteb/_evaluators/sklearn_evaluator.py +11 -10
mteb/_evaluators/text/bitext_mining_evaluator.py +27 -18
mteb/_evaluators/text/summarization_evaluator.py +23 -18
mteb/_evaluators/zeroshot_classification_evaluator.py +5 -3
mteb/abstasks/_data_filter/filters.py +1 -1
mteb/abstasks/_data_filter/task_pipelines.py +3 -0
mteb/abstasks/_statistics_calculation.py +18 -10
mteb/abstasks/_stratification.py +18 -18
mteb/abstasks/abstask.py +35 -28
mteb/abstasks/aggregate_task_metadata.py +1 -9
mteb/abstasks/aggregated_task.py +10 -29
mteb/abstasks/classification.py +15 -10
mteb/abstasks/clustering.py +19 -15
mteb/abstasks/clustering_legacy.py +10 -10
mteb/abstasks/image/image_text_pair_classification.py +7 -4
mteb/abstasks/multilabel_classification.py +23 -19
mteb/abstasks/pair_classification.py +20 -11
mteb/abstasks/regression.py +4 -4
mteb/abstasks/retrieval.py +28 -24
mteb/abstasks/retrieval_dataset_loaders.py +2 -2
mteb/abstasks/sts.py +8 -5
mteb/abstasks/task_metadata.py +31 -33
mteb/abstasks/text/bitext_mining.py +39 -28
mteb/abstasks/text/reranking.py +8 -6
mteb/abstasks/text/summarization.py +10 -5
mteb/abstasks/zeroshot_classification.py +8 -4
mteb/benchmarks/benchmark.py +4 -2
mteb/benchmarks/benchmarks/__init__.py +4 -0
mteb/benchmarks/benchmarks/benchmarks.py +112 -11
mteb/benchmarks/get_benchmark.py +14 -55
mteb/cache.py +182 -29
mteb/cli/_display_tasks.py +2 -2
mteb/cli/build_cli.py +110 -14
mteb/cli/generate_model_card.py +43 -23
mteb/deprecated_evaluator.py +63 -49
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2CybersecurityRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EconomicRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2EnergyRetrieval.json +32 -0
mteb/descriptive_stats/Image/DocumentUnderstanding/KoVidore2HrRetrieval.json +32 -0
mteb/descriptive_stats/Retrieval/ChemRxivRetrieval.json +30 -0
mteb/descriptive_stats/Retrieval/EuroPIRQRetrieval.json +116 -0
mteb/descriptive_stats/Retrieval/NanoClimateFEVER-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoDBPedia-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoFEVER-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoHotpotQA-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoMSMARCO-VN.json +30 -0
mteb/descriptive_stats/Retrieval/NanoNQ-VN.json +30 -0
mteb/descriptive_stats/Retrieval/TVPLRetrieval.json +30 -0
mteb/evaluate.py +44 -33
mteb/filter_tasks.py +25 -26
mteb/get_tasks.py +29 -30
mteb/languages/language_scripts.py +5 -3
mteb/leaderboard/app.py +162 -34
mteb/load_results.py +12 -12
mteb/models/abs_encoder.py +10 -6
mteb/models/cache_wrappers/cache_backend_protocol.py +3 -5
mteb/models/cache_wrappers/cache_backends/_hash_utils.py +5 -4
mteb/models/cache_wrappers/cache_backends/faiss_cache.py +6 -2
mteb/models/cache_wrappers/cache_backends/numpy_cache.py +43 -25
mteb/models/cache_wrappers/cache_wrapper.py +2 -2
mteb/models/get_model_meta.py +21 -3
mteb/models/instruct_wrapper.py +28 -8
mteb/models/model_implementations/align_models.py +1 -1
mteb/models/model_implementations/andersborges.py +4 -4
mteb/models/model_implementations/ara_models.py +1 -1
mteb/models/model_implementations/arctic_models.py +8 -8
mteb/models/model_implementations/b1ade_models.py +1 -1
mteb/models/model_implementations/bge_models.py +45 -21
mteb/models/model_implementations/bica_model.py +3 -3
mteb/models/model_implementations/blip2_models.py +2 -2
mteb/models/model_implementations/blip_models.py +16 -16
mteb/models/model_implementations/bm25.py +4 -4
mteb/models/model_implementations/bmretriever_models.py +6 -4
mteb/models/model_implementations/cadet_models.py +1 -1
mteb/models/model_implementations/cde_models.py +11 -4
mteb/models/model_implementations/clip_models.py +6 -6
mteb/models/model_implementations/clips_models.py +3 -3
mteb/models/model_implementations/codefuse_models.py +5 -5
mteb/models/model_implementations/codesage_models.py +3 -3
mteb/models/model_implementations/cohere_models.py +5 -5
mteb/models/model_implementations/cohere_v.py +2 -2
mteb/models/model_implementations/colpali_models.py +3 -3
mteb/models/model_implementations/colqwen_models.py +8 -8
mteb/models/model_implementations/colsmol_models.py +2 -2
mteb/models/model_implementations/conan_models.py +1 -1
mteb/models/model_implementations/dino_models.py +42 -42
mteb/models/model_implementations/e5_instruct.py +23 -4
mteb/models/model_implementations/e5_models.py +9 -9
mteb/models/model_implementations/e5_v.py +6 -6
mteb/models/model_implementations/eagerworks_models.py +1 -1
mteb/models/model_implementations/emillykkejensen_models.py +6 -6
mteb/models/model_implementations/en_code_retriever.py +1 -1
mteb/models/model_implementations/euler_models.py +2 -2
mteb/models/model_implementations/fa_models.py +9 -9
mteb/models/model_implementations/facebookai.py +14 -2
mteb/models/model_implementations/geogpt_models.py +1 -1
mteb/models/model_implementations/gme_v_models.py +6 -5
mteb/models/model_implementations/google_models.py +1 -1
mteb/models/model_implementations/granite_vision_embedding_models.py +1 -1
mteb/models/model_implementations/gritlm_models.py +2 -2
mteb/models/model_implementations/gte_models.py +25 -13
mteb/models/model_implementations/hinvec_models.py +1 -1
mteb/models/model_implementations/ibm_granite_models.py +30 -6
mteb/models/model_implementations/inf_models.py +2 -2
mteb/models/model_implementations/jasper_models.py +2 -2
mteb/models/model_implementations/jina_clip.py +48 -10
mteb/models/model_implementations/jina_models.py +18 -11
mteb/models/model_implementations/kblab.py +12 -6
mteb/models/model_implementations/kennethenevoldsen_models.py +4 -4
mteb/models/model_implementations/kfst.py +1 -1
mteb/models/model_implementations/kowshik24_models.py +1 -1
mteb/models/model_implementations/lgai_embedding_models.py +1 -1
mteb/models/model_implementations/linq_models.py +1 -1
mteb/models/model_implementations/listconranker.py +1 -1
mteb/models/model_implementations/llm2clip_models.py +6 -6
mteb/models/model_implementations/llm2vec_models.py +8 -8
mteb/models/model_implementations/mcinext_models.py +4 -1
mteb/models/model_implementations/mdbr_models.py +17 -3
mteb/models/model_implementations/misc_models.py +68 -68
mteb/models/model_implementations/mixedbread_ai_models.py +332 -0
mteb/models/model_implementations/mme5_models.py +1 -1
mteb/models/model_implementations/moco_models.py +4 -4
mteb/models/model_implementations/mod_models.py +1 -1
mteb/models/model_implementations/model2vec_models.py +14 -14
mteb/models/model_implementations/moka_models.py +1 -1
mteb/models/model_implementations/nbailab.py +3 -3
mteb/models/model_implementations/no_instruct_sentence_models.py +2 -2
mteb/models/model_implementations/nomic_models.py +30 -15
mteb/models/model_implementations/nomic_models_vision.py +1 -1
mteb/models/model_implementations/nvidia_llama_nemoretriever_colemb.py +15 -9
mteb/models/model_implementations/nvidia_models.py +151 -19
mteb/models/model_implementations/octen_models.py +61 -2
mteb/models/model_implementations/openclip_models.py +13 -13
mteb/models/model_implementations/opensearch_neural_sparse_models.py +5 -5
mteb/models/model_implementations/ops_moa_models.py +1 -1
mteb/models/model_implementations/ordalietech_solon_embeddings_mini_beta_1_1.py +1 -1
mteb/models/model_implementations/pawan_models.py +1 -1
mteb/models/model_implementations/piccolo_models.py +1 -1
mteb/models/model_implementations/pixie_models.py +56 -0
mteb/models/model_implementations/promptriever_models.py +4 -4
mteb/models/model_implementations/pylate_models.py +10 -9
mteb/models/model_implementations/qodo_models.py +2 -2
mteb/models/model_implementations/qtack_models.py +1 -1
mteb/models/model_implementations/qwen3_models.py +3 -3
mteb/models/model_implementations/qzhou_models.py +2 -2
mteb/models/model_implementations/random_baseline.py +3 -3
mteb/models/model_implementations/rasgaard_models.py +2 -2
mteb/models/model_implementations/reasonir_model.py +1 -1
mteb/models/model_implementations/repllama_models.py +3 -3
mteb/models/model_implementations/rerankers_custom.py +12 -6
mteb/models/model_implementations/rerankers_monot5_based.py +17 -17
mteb/models/model_implementations/richinfoai_models.py +1 -1
mteb/models/model_implementations/ru_sentence_models.py +20 -20
mteb/models/model_implementations/ruri_models.py +10 -10
mteb/models/model_implementations/salesforce_models.py +3 -3
mteb/models/model_implementations/samilpwc_models.py +1 -1
mteb/models/model_implementations/sarashina_embedding_models.py +2 -2
mteb/models/model_implementations/searchmap_models.py +1 -1
mteb/models/model_implementations/seed_1_6_embedding_models_1215.py +113 -146
mteb/models/model_implementations/sentence_transformers_models.py +124 -22
mteb/models/model_implementations/shuu_model.py +1 -1
mteb/models/model_implementations/siglip_models.py +20 -20
mteb/models/model_implementations/slm_models.py +416 -0
mteb/models/model_implementations/spartan8806_atles_champion.py +1 -1
mteb/models/model_implementations/stella_models.py +17 -4
mteb/models/model_implementations/tarka_models.py +2 -2
mteb/models/model_implementations/text2vec_models.py +9 -3
mteb/models/model_implementations/ua_sentence_models.py +1 -1
mteb/models/model_implementations/uae_models.py +7 -1
mteb/models/model_implementations/vdr_models.py +1 -1
mteb/models/model_implementations/vi_vn_models.py +6 -6
mteb/models/model_implementations/vlm2vec_models.py +3 -3
mteb/models/model_implementations/voyage_models.py +84 -0
mteb/models/model_implementations/voyage_v.py +9 -7
mteb/models/model_implementations/youtu_models.py +1 -1
mteb/models/model_implementations/yuan_models.py +1 -1
mteb/models/model_implementations/yuan_models_en.py +1 -1
mteb/models/model_meta.py +80 -31
mteb/models/models_protocols.py +22 -6
mteb/models/search_encoder_index/search_indexes/faiss_search_index.py +9 -6
mteb/models/search_wrappers.py +33 -18
mteb/models/sentence_transformer_wrapper.py +50 -25
mteb/models/vllm_wrapper.py +327 -0
mteb/py.typed +0 -0
mteb/results/benchmark_results.py +29 -21
mteb/results/model_result.py +52 -22
mteb/results/task_result.py +80 -58
mteb/similarity_functions.py +11 -7
mteb/tasks/classification/dan/dk_hate_classification.py +1 -1
mteb/tasks/classification/est/estonian_valence.py +1 -1
mteb/tasks/classification/kur/kurdish_sentiment_classification.py +2 -2
mteb/tasks/classification/multilingual/scala_classification.py +1 -1
mteb/tasks/clustering/eng/hume_wiki_cities_clustering.py +1 -1
mteb/tasks/clustering/eng/wiki_cities_clustering.py +1 -1
mteb/tasks/clustering/zho/cmteb_clustering.py +2 -2
mteb/tasks/image_text_pair_classification/eng/sugar_crepe.py +1 -1
mteb/tasks/reranking/multilingual/wikipedia_reranking_multilingual.py +1 -1
mteb/tasks/retrieval/code/code_rag.py +12 -12
mteb/tasks/retrieval/dan/dan_fever_retrieval.py +1 -1
mteb/tasks/retrieval/dan/tv2_nordretrieval.py +2 -2
mteb/tasks/retrieval/dan/twitter_hjerne_retrieval.py +2 -2
mteb/tasks/retrieval/eng/__init__.py +2 -0
mteb/tasks/retrieval/eng/chemrxiv.py +33 -0
mteb/tasks/retrieval/eng/cub200_i2i_retrieval.py +1 -1
mteb/tasks/retrieval/kor/__init__.py +15 -1
mteb/tasks/retrieval/kor/kovidore2_bench_retrieval.py +142 -0
mteb/tasks/retrieval/multilingual/__init__.py +2 -0
mteb/tasks/retrieval/multilingual/euro_pirq_retrieval.py +43 -0
mteb/tasks/retrieval/multilingual/vidore3_bench_retrieval.py +90 -100
mteb/tasks/retrieval/nob/norquad.py +2 -2
mteb/tasks/retrieval/nob/snl_retrieval.py +2 -2
mteb/tasks/retrieval/tur/tur_hist_quad.py +1 -1
mteb/tasks/retrieval/vie/__init__.py +14 -6
mteb/tasks/retrieval/vie/climate_fevervn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/db_pedia_vn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/fevervn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/hotpot_qavn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/msmarcovn_retrieval.py +48 -0
mteb/tasks/retrieval/vie/nqvn_retrieval.py +39 -0
mteb/tasks/retrieval/vie/tvpl_retrieval.py +42 -0
mteb/tasks/retrieval/vie/zac_legal_text_retrieval.py +15 -1
mteb/types/__init__.py +2 -0
mteb/types/_encoder_io.py +12 -0
mteb/types/_result.py +2 -1
mteb/types/statistics.py +9 -3
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/METADATA +15 -4
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/RECORD +240 -219
mteb/models/model_implementations/mxbai_models.py +0 -111
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/WHEEL +0 -0
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/entry_points.txt +0 -0
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/licenses/LICENSE +0 -0
{mteb-2.5.2.dist-info → mteb-2.7.2.dist-info}/top_level.txt +0 -0

mteb/models/model_implementations/mixedbread_ai_models.py ADDED Viewed

@@ -0,0 +1,332 @@
+from mteb.models.model_implementations.pylate_models import MultiVectorModel
+from mteb.models.model_meta import (
+    ModelMeta,
+    ScoringFunction,
+)
+from mteb.models.sentence_transformer_wrapper import (
+    CrossEncoderWrapper,
+    sentence_transformers_loader,
+)
+mixedbread_training_data = {
+    # from correspondence:
+    # as mentioned in our blog post
+    # (https://www.mixedbread.com/blog/mxbai-embed-large-v1#built-for-rag-and-real-world-use-cases:~:text=During%20the%20whole,related%20use%20cases.)
+    # We do not train on any data (except the MSMarco training split) of MTEB. We have a strong filtering process to ensure the OOD setting. That's true
+    # for all of our models. Keep up the good work and let me know if you have any questions.
+    "MSMARCO",
+}
+mxbai_embed_large_v1 = ModelMeta(
+    loader=sentence_transformers_loader,
+    loader_kwargs=dict(
+        model_prompts={
+            "query": "Represent this sentence for searching relevant passages: "
+        },
+    ),
+    name="mixedbread-ai/mxbai-embed-large-v1",
+    model_type=["dense"],
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="990580e27d329c7408b3741ecff85876e128e203",
+    release_date="2024-03-07",  # initial commit of hf model.
+    n_parameters=335_000_000,
+    memory_usage_mb=639,
+    max_tokens=512,
+    embed_dim=1024,
+    license="apache-2.0",
+    reference="https://huggingface.co/mixedbread-ai/mxbai-embed-large-v1",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "GGUF",
+        "Transformers",
+    ],
+    use_instructions=True,
+    citation="""
+    @online{emb2024mxbai,
+      title={Open Source Strikes Bread - New Fluffy Embeddings Model},
+      author={Sean Lee and Aamir Shakir and Darius Koenig and Julius Lipp},
+      year={2024},
+      url={https://www.mixedbread.ai/blog/mxbai-embed-large-v1},
+    }
+    @article{li2023angle,
+      title={AnglE-optimized Text Embeddings},
+      author={Li, Xianming and Li, Jing},
+      journal={arXiv preprint arXiv:2309.12871},
+      year={2023}
+    }
+    """,
+    public_training_code=None,
+    public_training_data=None,
+    training_datasets=mixedbread_training_data,
+)
+mxbai_embed_2d_large_v1 = ModelMeta(
+    loader=sentence_transformers_loader,
+    name="mixedbread-ai/mxbai-embed-2d-large-v1",
+    model_type=["dense"],
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="7e639ca8e344af398876ead3b19ec3c0b9068f49",
+    release_date="2024-03-04",  # initial commit of hf model.
+    n_parameters=335_000_000,
+    memory_usage_mb=None,
+    max_tokens=512,
+    embed_dim=768,
+    license="apache-2.0",
+    reference="https://huggingface.co/mixedbread-ai/mxbai-embed-2d-large-v1",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=[
+        "Sentence Transformers",
+        "PyTorch",
+        "ONNX",
+        "safetensors",
+        "Transformers",
+    ],
+    use_instructions=True,
+    adapted_from=None,
+    superseded_by=None,
+    public_training_code=None,
+    public_training_data=None,
+    training_datasets=None,
+)
+mxbai_embed_xsmall_v1 = ModelMeta(
+    loader=sentence_transformers_loader,
+    name="mixedbread-ai/mxbai-embed-xsmall-v1",
+    model_type=["dense"],
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="2f741ec33328bb57e4704e1238fc59a4a5745705",
+    release_date="2024-08-13",  # initial commit of hf model.
+    n_parameters=24_100_000,
+    memory_usage_mb=None,
+    max_tokens=512,
+    embed_dim=384,
+    license="apache-2.0",
+    reference="https://huggingface.co/mixedbread-ai/mxbai-embed-xsmall-v1",
+    similarity_fn_name=ScoringFunction.COSINE,
+    framework=["Sentence Transformers", "PyTorch", "ONNX", "safetensors", "GGUF"],
+    use_instructions=True,
+    adapted_from="sentence-transformers/all-MiniLM-L6-v2",
+    superseded_by=None,
+    public_training_code=None,
+    public_training_data=None,
+    training_datasets=mixedbread_training_data,
+    citation="""@online{xsmall2024mxbai,
+  title={Every Byte Matters: Introducing mxbai-embed-xsmall-v1},
+  author={Sean Lee and Julius Lipp and Rui Huang and Darius Koenig},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-embed-xsmall-v1},
+}""",
+)
+mxbai_rerank_xsmall_v1 = ModelMeta(
+    loader=CrossEncoderWrapper,
+    name="mixedbread-ai/mxbai-rerank-xsmall-v1",
+    revision="b5c6e9da73abc3711f593f705371cdbe9e0fe422",
+    release_date="2024-02-29",
+    languages=["eng-Latn"],
+    n_parameters=70830337,
+    memory_usage_mb=135.0,
+    max_tokens=512,
+    embed_dim=None,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=[
+        "PyTorch",
+        "Sentence Transformers",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-rerank-xsmall-v1",
+    similarity_fn_name=None,
+    use_instructions=None,
+    training_datasets=None,
+    adapted_from=None,
+    superseded_by=None,
+    modalities=["text"],
+    model_type=["cross-encoder"],
+    citation="""@online{rerank2024mxbai,
+  title={Boost Your Search With The Crispy Mixedbread Rerank Models},
+  author={Aamir Shakir and Darius Koenig and Julius Lipp and Sean Lee},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-rerank-v1},
+}""",
+    contacts=None,
+)
+mxbai_rerank_base_v1 = ModelMeta(
+    loader=CrossEncoderWrapper,
+    name="mixedbread-ai/mxbai-rerank-base-v1",
+    revision="800f24c113213a187e65bde9db00c15a2bb12738",
+    release_date="2024-02-29",
+    languages=["eng-Latn"],
+    n_parameters=184422913,
+    memory_usage_mb=352.0,
+    max_tokens=512,
+    embed_dim=None,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=[
+        "PyTorch",
+        "Sentence Transformers",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-rerank-base-v1",
+    similarity_fn_name=None,
+    use_instructions=None,
+    training_datasets=None,
+    adapted_from=None,
+    superseded_by=None,
+    modalities=["text"],
+    model_type=["cross-encoder"],
+    citation="""@online{rerank2024mxbai,
+  title={Boost Your Search With The Crispy Mixedbread Rerank Models},
+  author={Aamir Shakir and Darius Koenig and Julius Lipp and Sean Lee},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-rerank-v1},
+}""",
+    contacts=None,
+)
+mxbai_rerank_large_v1 = ModelMeta(
+    loader=CrossEncoderWrapper,
+    name="mixedbread-ai/mxbai-rerank-large-v1",
+    revision="98f655841d5caf0b16eaff79c2b4ca109d920d17",
+    release_date="2024-02-29",
+    languages=["eng-Latn"],
+    n_parameters=435062785,
+    memory_usage_mb=830.0,
+    max_tokens=512,
+    embed_dim=None,
+    license="apache-2.0",
+    open_weights=True,
+    public_training_code=None,
+    public_training_data=None,
+    framework=[
+        "PyTorch",
+        "Sentence Transformers",
+        "Transformers",
+        "ONNX",
+        "safetensors",
+    ],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-rerank-large-v1",
+    similarity_fn_name=None,
+    use_instructions=None,
+    training_datasets=None,
+    adapted_from=None,
+    superseded_by=None,
+    modalities=["text"],
+    model_type=["cross-encoder"],
+    citation="""@online{rerank2024mxbai,
+  title={Boost Your Search With The Crispy Mixedbread Rerank Models},
+  author={Aamir Shakir and Darius Koenig and Julius Lipp and Sean Lee},
+  year={2024},
+  url={https://www.mixedbread.ai/blog/mxbai-rerank-v1},
+}""",
+    contacts=None,
+)
+mxbai_edge_colbert_v0_17m = ModelMeta(
+    loader=MultiVectorModel,
+    name="mixedbread-ai/mxbai-edge-colbert-v0-17m",
+    model_type=["late-interaction"],
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="23ae07f5bf028bc0d1f80c82e6e2dd2311f13a46",
+    public_training_code=None,
+    public_training_data=None,
+    release_date="2025-10-16",
+    n_parameters=int(17 * 1e6),
+    memory_usage_mb=64,
+    max_tokens=7999,
+    embed_dim=None,
+    license="apache-2.0",
+    similarity_fn_name=ScoringFunction.MAX_SIM,
+    framework=["PyLate", "ColBERT", "Transformers", "safetensors"],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-edge-colbert-v0-17m",
+    use_instructions=False,
+    adapted_from="https://huggingface.co/jhu-clsp/ettin-encoder-17m",
+    superseded_by=None,
+    training_datasets={
+        "CornStack",
+        "MSMARCO",
+        "NQ",
+        "HotpotQA",
+        "AmazonQA",
+        "LoTTE",
+        "MultiLongDocRetrieval",
+        # "FineWeb",
+        # "PubMedQA",
+        # "TriviaQA",
+    },
+    citation="""@misc{takehi2025fantasticsmallretrieverstrain,
+      title={Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report},
+      author={Rikiya Takehi and Benjamin Clavié and Sean Lee and Aamir Shakir},
+      year={2025},
+      eprint={2510.14880},
+      archivePrefix={arXiv},
+      primaryClass={cs.IR},
+      url={https://arxiv.org/abs/2510.14880},
+}""",
+    contacts=None,
+)
+mxbai_edge_colbert_v0_32m = ModelMeta(
+    loader=MultiVectorModel,
+    name="mixedbread-ai/mxbai-edge-colbert-v0-32m",
+    model_type=["late-interaction"],
+    languages=["eng-Latn"],
+    open_weights=True,
+    revision="2f12870a85dae80680b9babc59992c9a2bc59e4a",
+    public_training_code=None,
+    public_training_data=None,
+    release_date="2025-10-16",
+    n_parameters=int(32 * 1e6),
+    memory_usage_mb=122,
+    max_tokens=511,
+    embed_dim=None,
+    license="apache-2.0",
+    similarity_fn_name=ScoringFunction.MAX_SIM,
+    framework=["PyLate", "ColBERT", "Transformers", "safetensors"],
+    reference="https://huggingface.co/mixedbread-ai/mxbai-edge-colbert-v0-32m",
+    use_instructions=False,
+    adapted_from="https://huggingface.co/jhu-clsp/ettin-encoder-32m",
+    superseded_by=None,
+    training_datasets={
+        "CornStack",
+        "MSMARCO",
+        "NQ",
+        "HotpotQA",
+        "AmazonQA",
+        "LoTTE",
+        "MultiLongDocRetrieval",
+        # "FineWeb",
+        # "PubMedQA",
+        # "TriviaQA",
+    },
+    citation="""@misc{takehi2025fantasticsmallretrieverstrain,
+      title={Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report},
+      author={Rikiya Takehi and Benjamin Clavié and Sean Lee and Aamir Shakir},
+      year={2025},
+      eprint={2510.14880},
+      archivePrefix={arXiv},
+      primaryClass={cs.IR},
+      url={https://arxiv.org/abs/2510.14880},
+}""",
+    contacts=None,
+)

mteb/models/model_implementations/mme5_models.py CHANGED Viewed

@@ -25,7 +25,7 @@ mme5_mllama = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/intfloat/mmE5-MMEB-hardneg, https://huggingface.co/datasets/intfloat/mmE5-synthetic",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/intfloat/mmE5-mllama-11b-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=True,

mteb/models/model_implementations/moco_models.py CHANGED Viewed

@@ -117,7 +117,7 @@ mocov3_training_datasets = set(
 )
 mocov3_vit_base = ModelMeta(
-    loader=mocov3_loader,  # type: ignore
+    loader=mocov3_loader,
     name="nyu-visionx/moco-v3-vit-b",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -132,7 +132,7 @@ mocov3_vit_base = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/facebookresearch/moco-v3",
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://github.com/facebookresearch/moco-v3",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=False,
@@ -141,7 +141,7 @@ mocov3_vit_base = ModelMeta(
 )
 mocov3_vit_large = ModelMeta(
-    loader=mocov3_loader,  # type: ignore
+    loader=mocov3_loader,
     name="nyu-visionx/moco-v3-vit-l",
     model_type=["dense"],
     languages=["eng-Latn"],
@@ -156,7 +156,7 @@ mocov3_vit_large = ModelMeta(
     open_weights=True,
     public_training_code="https://github.com/facebookresearch/moco-v3",
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://github.com/facebookresearch/moco-v3",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=False,

mteb/models/model_implementations/mod_models.py CHANGED Viewed

@@ -181,7 +181,7 @@ MoD_Embedding = ModelMeta(
     license="apache-2.0",
     reference="https://huggingface.co/bflhc/MoD-Embedding",
     similarity_fn_name="cosine",
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,

mteb/models/model_implementations/model2vec_models.py CHANGED Viewed

@@ -139,7 +139,7 @@ class Model2VecModel(AbsEncoder):
             **kwargs: Additional arguments to pass to the wrapper.
         """
         requires_package(self, "model2vec", model_name, "pip install 'mteb[model2vec]'")
-        from model2vec import StaticModel  # type: ignore
+        from model2vec import StaticModel
         self.model_name = model_name
         self.model = StaticModel.from_pretrained(self.model_name)
@@ -172,7 +172,7 @@ m2v_base_glove_subword = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_base_glove_subword",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -198,7 +198,7 @@ m2v_base_glove = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_base_glove",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -223,7 +223,7 @@ m2v_base_output = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_base_output",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -248,7 +248,7 @@ m2v_multilingual_output = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/M2V_multilingual_output",
     use_instructions=False,
     adapted_from="sentence-transformers/LaBSE",
@@ -273,7 +273,7 @@ potion_base_2m = ModelMeta(
     embed_dim=64,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/potion-base-2M",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -298,7 +298,7 @@ potion_base_4m = ModelMeta(
     embed_dim=128,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/potion-base-4M",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -323,7 +323,7 @@ potion_base_8m = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["NumPy", "Sentence Transformers"],
+    framework=["NumPy", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/minishlab/potion-base-8M",
     use_instructions=False,
     adapted_from="BAAI/bge-base-en-v1.5",
@@ -348,7 +348,7 @@ potion_multilingual_128m = ModelMeta(
     embed_dim=256,
     license="mit",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "ONNX", "safetensors", "Sentence Transformers"],
     reference="https://huggingface.co/minishlab/potion-multilingual-128M",
     use_instructions=False,
     adapted_from="BAAI/bge-m3",
@@ -373,7 +373,7 @@ pubmed_bert_100k = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-100K",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -397,7 +397,7 @@ pubmed_bert_500k = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-500K",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -421,7 +421,7 @@ pubmed_bert_1m = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-1M",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -445,7 +445,7 @@ pubmed_bert_2m = ModelMeta(
     embed_dim=64,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-2M",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",
@@ -469,7 +469,7 @@ pubmed_bert_8m = ModelMeta(
     embed_dim=256,
     license="apache-2.0",
     similarity_fn_name="cosine",
-    framework=["NumPy"],
+    framework=["NumPy", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/NeuML/pubmedbert-base-embeddings-8M",
     use_instructions=False,
     adapted_from="NeuML/pubmedbert-base-embeddings",

mteb/models/model_implementations/moka_models.py CHANGED Viewed

@@ -104,7 +104,7 @@ m3e_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/moka-ai/m3e-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors"],
     use_instructions=False,
     superseded_by=None,
     adapted_from=None,

mteb/models/model_implementations/nbailab.py CHANGED Viewed

@@ -18,7 +18,7 @@ nb_sbert = ModelMeta(
     max_tokens=75,
     reference="https://huggingface.co/NbAiLab/nb-sbert-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "safetensors", "Transformers"],
     use_instructions=False,
     public_training_code=None,
     public_training_data="https://huggingface.co/datasets/NbAiLab/mnli-norwegian",
@@ -40,7 +40,7 @@ nb_bert_large = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/NbAiLab/nb-bert-large",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data="https://huggingface.co/NbAiLab/nb-bert-large#training-data",
@@ -62,7 +62,7 @@ nb_bert_base = ModelMeta(
     max_tokens=512,
     reference="https://huggingface.co/NbAiLab/nb-bert-base",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["Sentence Transformers", "PyTorch"],
+    framework=["Sentence Transformers", "PyTorch", "Transformers", "safetensors"],
     use_instructions=False,
     public_training_code=None,
     public_training_data="https://huggingface.co/NbAiLab/nb-bert-base#training-data",

mteb/models/model_implementations/no_instruct_sentence_models.py CHANGED Viewed

@@ -30,13 +30,13 @@ class NoInstructModel(AbsEncoder):
         self,
         model_name: str,
         revision: str,
+        device: str | None = None,
         model_prompts: dict[str, str] | None = None,
         **kwargs: Any,
     ):
         from transformers import AutoModel, AutoTokenizer
         self.model_name = model_name
-        device = kwargs.pop("device", None)
         self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
         self.model = AutoModel.from_pretrained(
             model_name, revision=revision, **kwargs
@@ -109,7 +109,7 @@ no_instruct_small_v0 = ModelMeta(
     license="mit",
     reference="https://huggingface.co/avsolatorio/NoInstruct-small-Embedding-v0",
     similarity_fn_name=ScoringFunction.COSINE,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     use_instructions=False,
     adapted_from=None,
     superseded_by=None,

mteb 2.5.2__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.5.2py3-none-any.whl → 2.7.2py3-none-any.whl