PyPI - mteb - Versions diffs - 2.5.1__py3-none-any.whl → 2.5.3__py3-none-any.whl - Mend

mteb 2.5.1py3-none-any.whl → 2.5.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (148) hide show

mteb/abstasks/abstask.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import json
 import logging
+import warnings
 from abc import ABC, abstractmethod
 from collections.abc import Sequence
 from copy import copy
@@ -102,9 +103,9 @@ class AbsTask(ABC):
     def check_if_dataset_is_superseded(self) -> None:
         """Check if the dataset is superseded by a newer version."""
         if self.superseded_by:
-            logger.warning(
-                f"Dataset '{self.metadata.name}' is superseded by '{self.superseded_by}', you might consider using the newer version of the dataset."
-            )
+            msg = f"Dataset '{self.metadata.name}' is superseded by '{self.superseded_by}'. We recommend using the newer version of the dataset unless you are running a specific benchmark. See `get_task('{self.superseded_by}').metadata.description` to get a description of the task and changes."
+            logger.warning(msg)
+            warnings.warn(msg)
     def dataset_transform(self):
         """A transform operations applied to the dataset after loading.
@@ -607,9 +608,8 @@ class AbsTask(ABC):
             self.data_loaded = False
             logger.info(f"Unloaded dataset {self.metadata.name} from memory.")
         else:
-            logger.warning(
-                f"Dataset {self.metadata.name} is not loaded, cannot unload it."
-            )
+            msg = f"Dataset `{self.metadata.name}` is not loaded, cannot unload it."
+            logger.warning(msg)
     @property
     def superseded_by(self) -> str | None:

mteb/abstasks/aggregated_task.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import logging
+import warnings
 from pathlib import Path
 from typing import Any
@@ -113,20 +114,13 @@ class AbsTaskAggregate(AbsTask):
         )
         mteb_versions = {tr.mteb_version for tr in task_results}
         if len(mteb_versions) != 1:
-            logger.warning(
-                f"All tasks of {self.metadata.name} is not run using the same version."
-            )
+            msg = f"All tasks of {self.metadata.name} is not run using the same version. different versions found are: {mteb_versions}"
+            logger.warning(msg)
+            warnings.warn(msg)
             task_res.mteb_version = None
         task_res.mteb_version = task_results[0].mteb_version
         return task_res
-    def check_if_dataset_is_superseded(self) -> None:
-        """Check if the dataset is superseded by a newer version"""
-        if self.superseded_by:
-            logger.warning(
-                f"Dataset '{self.metadata.name}' is superseded by '{self.superseded_by}', you might consider using the newer version of the dataset."
-            )
     def filter_eval_splits(self, eval_splits: list[str] | None) -> Self:
         """Filter the evaluation splits of the task.

mteb/abstasks/clustering_legacy.py CHANGED Viewed

@@ -89,6 +89,9 @@ class AbsTaskClusteringLegacy(AbsTask):
         prediction_folder: Path | None = None,
         **kwargs: Any,
     ) -> ScoresDict:
+        data_split = data_split.select_columns(
+            [self.input_column_name, self.label_column_name]
+        )
         # MTEB text clustering requires renaming and eval per subset.
         if self.metadata.modalities == ["text"]:
             all_metrics = []
@@ -97,8 +100,6 @@ class AbsTaskClusteringLegacy(AbsTask):
                 logger.info(
                     f"Running clustering on cluster ({i + 1}/{len(data_split)})"
                 )
-                if "__index_level_0__" in cluster_set:
-                    cluster_set.pop("__index_level_0__")
                 clustering_dataset = Dataset.from_dict(cluster_set).select_columns(
                     [self.input_column_name, self.label_column_name]
                 )

mteb/abstasks/task_metadata.py CHANGED Viewed

@@ -376,9 +376,8 @@ class TaskMetadata(BaseModel):
         if include_cite and cite:
             # check for whitespace in the citation
             if " " in cite:
-                logger.warning(
-                    "Citation contains whitespace. Please ensure that the citation is correctly formatted."
-                )
+                msg = "Citation contains whitespace. Please ensure that the citation is correctly formatted."
+                logger.warning(msg)
             return f"\\cite{{{cite}}}"
         return cite

mteb/cache.py CHANGED Viewed

@@ -3,6 +3,7 @@ import logging
 import os
 import shutil
 import subprocess
+import warnings
 from collections import defaultdict
 from collections.abc import Sequence
 from pathlib import Path
@@ -83,9 +84,9 @@ class ResultCache:
         model_path = results_folder / model_name
         if model_revision is None:
-            logger.warning(
-                "model_revision is not specified, attempting to load the latest revision. To disable this behavior, specify model_revision explicitly."
-            )
+            msg = "`model_revision` is not specified, attempting to load the latest revision. To disable this behavior, specify the 'model_revision` explicitly."
+            logger.warning(msg)
+            warnings.warn(msg)
             # get revs from paths
             revisions = [p for p in model_path.glob("*") if p.is_dir()]
             if not revisions:
@@ -281,7 +282,9 @@ class ResultCache:
             shutil.rmtree(self.cache_path)
             logger.info(f"Cache directory {self.cache_path} cleared.")
         else:
-            logger.warning(f"Cache directory {self.cache_path} does not exist.")
+            msg = f"Cache directory `{self.cache_path}` does not exist."
+            logger.warning(msg)
+            warnings.warn(msg)
     def __repr__(self) -> str:
         return f"ResultCache(cache_path={self.cache_path})"

mteb/cli/build_cli.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import argparse
 import logging
 import os
+import warnings
 from pathlib import Path
 import torch
@@ -69,15 +70,17 @@ def run(args: argparse.Namespace) -> None:
     overwrite_strategy = args.overwrite_strategy
     if args.overwrite:
-        logger.warning(
-            "`--overwrite` is deprecated, please use `--overwrite-strategy 'always'` instead."
+        warnings.warn(
+            "`--overwrite` is deprecated, please use `--overwrite-strategy 'always'` instead.",
+            DeprecationWarning,
         )
         overwrite_strategy = OverwriteStrategy.ALWAYS.value
     prediction_folder = args.prediction_folder
     if args.save_predictions:
-        logger.warning(
-            "`--save_predictions` is deprecated, please use `--prediction-folder` instead."
+        warnings.warn(
+            "`--save_predictions` is deprecated, please use `--prediction-folder` instead.",
+            DeprecationWarning,
         )
         prediction_folder = args.output_folder
@@ -279,7 +282,9 @@ def _create_meta(args: argparse.Namespace) -> None:
         from_existing = Path(from_existing)
     if output_path.exists() and overwrite:
-        logger.warning("Output path already exists, overwriting.")
+        msg = "Output path already exists, overwriting."
+        logger.warning(msg)
+        warnings.warn(msg)
     elif output_path.exists():
         raise FileExistsError(
             "Output path already exists, use --overwrite to overwrite."

mteb/cli/generate_model_card.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import logging
+import warnings
 from pathlib import Path
 from huggingface_hub import ModelCard, ModelCardData, repo_exists
@@ -92,9 +93,9 @@ def generate_model_card(
         if repo_exists(existing_model_card_id_or_path):
             existing_model_card.push_to_hub(existing_model_card_id_or_path, token=token)
         else:
-            logger.warning(
-                f"Repository {existing_model_card_id_or_path} does not exist on the Hub. Skipping push to hub."
-            )
+            msg = f"Repository {existing_model_card_id_or_path} does not exist on the Hub. Skipping push to hub."
+            logger.warning(msg)
+            warnings.warn(msg)
     existing_model_card.save(output_path)

mteb/deprecated_evaluator.py CHANGED Viewed

@@ -5,6 +5,7 @@ import logging
 import os
 import sys
 import traceback
+import warnings
 from collections.abc import Iterable
 from copy import deepcopy
 from datetime import datetime
@@ -470,9 +471,9 @@ class MTEB:
                             raise ImportError(
                                 "codecarbon is not installed. Please install it using `pip install 'mteb[codecarbon]'` to track CO₂ emissions."
                             )
-                        logger.warning(
-                            "Evaluating multiple MTEB runs simultaneously will produce incorrect CO₂ results"
-                        )
+                        msg = "Evaluating multiple MTEB runs simultaneously will produce incorrect CO₂ results"
+                        logger.warning(msg)
+                        warnings.warn(msg)
                         with EmissionsTracker(
                             save_to_file=False,
                             save_to_api=False,

mteb/evaluate.py CHANGED Viewed

@@ -1,6 +1,7 @@
 from __future__ import annotations
 import logging
+import warnings
 from collections.abc import Iterable
 from pathlib import Path
 from time import time
@@ -136,10 +137,12 @@ def _evaluate_task(
             task.load_data()
         except DatasetNotFoundError as e:
             if not task.metadata.is_public and public_only is None:
-                logger.warning(
+                msg = (
                     f"Dataset for private task '{task.metadata.name}' not found. "
                     "Make sure you have access to the dataset and that you have set up the authentication correctly. To disable this warning set `public_only=False`"
                 )
+                logger.warning(msg)
+                warnings.warn(msg)
                 return TaskError(
                     task_name=task.metadata.name,
                     exception=str(e),

mteb/get_tasks.py CHANGED Viewed

@@ -2,6 +2,7 @@
 import difflib
 import logging
+import warnings
 from collections import Counter, defaultdict
 from collections.abc import Sequence
 from typing import Any
@@ -340,9 +341,9 @@ def get_task(
     """
     if task_name in _TASK_RENAMES:
         _task_name = _TASK_RENAMES[task_name]
-        logger.warning(
-            f"The task with the given name '{task_name}' has been renamed to '{_task_name}'. To prevent this warning use the new name."
-        )
+        msg = f"The task with the given name '{task_name}' has been renamed to '{_task_name}'. To prevent this warning use the new name."
+        logger.warning(msg)
+        warnings.warn(msg)
     if task_name not in _TASKS_REGISTRY:
         close_matches = difflib.get_close_matches(task_name, _TASKS_REGISTRY.keys())

mteb/leaderboard/app.py CHANGED Viewed

@@ -36,9 +36,15 @@ LANGUAGE: list[str] = list({l for t in mteb.get_tasks() for l in t.metadata.lang
 def _load_results(cache: ResultCache) -> BenchmarkResults:
+    start_time = time.time()
     results_cache_path = Path(__file__).parent.joinpath("__cached_results.json")
     if not results_cache_path.exists():
+        logger.info("Cached results not found, downloading from remote...")
         cache.download_from_remote()
+        download_time = time.time() - start_time
+        logger.info(f"Downloaded remote results in {download_time:.2f}s")
+        load_start = time.time()
         all_model_names = [model_meta.name for model_meta in mteb.get_model_metas()]
         all_results = cache.load_results(
@@ -47,10 +53,16 @@ def _load_results(cache: ResultCache) -> BenchmarkResults:
             require_model_meta=False,
             include_remote=True,
         )
+        load_time = time.time() - load_start
+        logger.info(f"Loaded results from cache in {load_time:.2f}s")
         return all_results
     else:
+        logger.info("Loading cached results from disk...")
         with results_cache_path.open() as cache_file:
-            return mteb.BenchmarkResults.from_validated(**json.load(cache_file))
+            results = mteb.BenchmarkResults.from_validated(**json.load(cache_file))
+        total_time = time.time() - start_time
+        logger.info(f"Loaded cached results in {total_time:.2f}s")
+        return results
 def _produce_benchmark_link(benchmark_name: str, request: gr.Request) -> str:
@@ -322,20 +334,48 @@ def _cache_update_task_list(
 def get_leaderboard_app(cache: ResultCache = ResultCache()) -> gr.Blocks:
     """Returns a Gradio Blocks app for the MTEB leaderboard."""
-    logger.info("Loading all benchmark results")
+    app_start = time.time()
+    logger.info("=== Starting leaderboard app initialization ===")
+    logger.info("Step 1/7: Loading all benchmark results...")
+    load_start = time.time()
     all_results = _load_results(cache)
+    load_time = time.time() - load_start
+    logger.info(f"Step 1/7 complete: Loaded results in {load_time:.2f}s")
+    logger.info("Step 2/7: Fetching benchmarks...")
+    bench_start = time.time()
     benchmarks = sorted(
         mteb.get_benchmarks(display_on_leaderboard=True), key=lambda x: x.name
     )
+    bench_time = time.time() - bench_start
+    logger.info(
+        f"Step 2/7 complete: Fetched {len(benchmarks)} benchmarks in {bench_time:.2f}s"
+    )
+    logger.info(
+        "Step 3/7: Processing all benchmarks (select_tasks + join_revisions)..."
+    )
+    process_start = time.time()
     all_benchmark_results = {
         benchmark.name: all_results.select_tasks(benchmark.tasks).join_revisions()
         for benchmark in benchmarks
     }
+    process_time = time.time() - process_start
+    if len(benchmarks) > 0:
+        logger.info(
+            f"Step 3/7 complete: Processed {len(benchmarks)} benchmarks in {process_time:.2f}s (avg {process_time / len(benchmarks):.2f}s/benchmark)"
+        )
+    else:
+        logger.info(
+            f"Step 3/7 complete: Processed 0 benchmarks in {process_time:.2f}s (avg N/A)"
+        )
     default_benchmark = mteb.get_benchmark(DEFAULT_BENCHMARK_NAME)
     default_results = all_benchmark_results[default_benchmark.name]
-    logger.info("Benchmark results loaded")
+    logger.info("Step 4/7: Filtering models...")
+    filter_start = time.time()
     default_scores = default_results._get_scores(format="long")
     all_models = list({entry["model_name"] for entry in default_scores})
@@ -355,7 +395,13 @@ def get_leaderboard_app(cache: ResultCache = ResultCache()) -> gr.Blocks:
     # Filter BenchmarkResults based on default filtered models (as required by Kenneth)
     filtered_model_names = [entry["model_name"] for entry in default_filtered_scores]
     filtered_benchmark_results = default_results.select_models(filtered_model_names)
+    filter_time = time.time() - filter_start
+    logger.info(
+        f"Step 4/7 complete: Filtered {len(filtered_model_names)} models in {filter_time:.2f}s"
+    )
+    logger.info("Step 5/7: Generating tables...")
+    table_start = time.time()
     summary_table = apply_summary_styling_from_benchmark(
         default_benchmark, filtered_benchmark_results
     )
@@ -366,10 +412,14 @@ def get_leaderboard_app(cache: ResultCache = ResultCache()) -> gr.Blocks:
         default_benchmark,
         filtered_benchmark_results,
     )
+    table_time = time.time() - table_start
+    logger.info(f"Step 5/7 complete: Generated tables in {table_time:.2f}s")
     # Check if this benchmark displays per-language results
     display_language_table = len(default_benchmark.language_view) > 0
+    logger.info("Step 6/7: Creating Gradio components...")
+    component_start = time.time()
     lang_select = gr.CheckboxGroup(
         sorted(default_results.languages),
         value=sorted(default_results.languages),
@@ -410,7 +460,13 @@ def get_leaderboard_app(cache: ResultCache = ResultCache()) -> gr.Blocks:
         label="Modality",
         info="Select modalities to include.",
     )
+    component_time = time.time() - component_start
+    logger.info(
+        f"Step 6/7 complete: Created Gradio components in {component_time:.2f}s"
+    )
+    logger.info("Step 7/7: Building Gradio interface and callbacks...")
+    interface_start = time.time()
     with gr.Blocks(fill_width=True) as demo:
         with gr.Sidebar(
             position="left",
@@ -926,7 +982,11 @@ def get_leaderboard_app(cache: ResultCache = ResultCache()) -> gr.Blocks:
             )
         gr.Markdown(ACKNOWLEDGEMENT, elem_id="ack_markdown")
+    interface_time = time.time() - interface_start
+    logger.info(f"Step 7/7 complete: Built Gradio interface in {interface_time:.2f}s")
+    logger.info("Starting prerun on all benchmarks to populate caches...")
+    prerun_start = time.time()
     # Prerun on all benchmarks, so that results of callbacks get cached
     for benchmark in benchmarks:
         (
@@ -952,6 +1012,13 @@ def get_leaderboard_app(cache: ResultCache = ResultCache()) -> gr.Blocks:
         update_tables(
             bench_scores, filtered_tasks, bench_initial_models, benchmark.name
         )
+    prerun_time = time.time() - prerun_start
+    logger.info(
+        f"Prerun complete: Processed {len(benchmarks)} benchmarks in {prerun_time:.2f}s"
+    )
+    total_time = time.time() - app_start
+    logger.info(f"=== Leaderboard app initialization complete in {total_time:.2f}s ===")
     return demo

mteb/models/abs_encoder.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import logging
+import warnings
 from abc import ABC, abstractmethod
 from collections.abc import Callable, Sequence
 from typing import Any, Literal, cast, get_args, overload
@@ -187,6 +188,7 @@ class AbsEncoder(ABC):
                 except KeyError:
                     msg = f"Task name {task_name} is not valid. {valid_keys_msg}"
                     logger.warning(msg)
+                    warnings.warn(msg)
                     invalid_task_messages.add(msg)
                     invalid_keys.add(task_key)
@@ -232,9 +234,9 @@ class AbsEncoder(ABC):
         if isinstance(prompt, dict) and prompt_type:
             if prompt.get(prompt_type.value):
                 return prompt[prompt_type.value]
-            logger.warning(
-                f"Prompt type '{prompt_type}' not found in task metadata for task '{task_metadata.name}'."
-            )
+            msg = f"Prompt type '{prompt_type}' not found in task metadata for task '{task_metadata.name}'."
+            logger.warning(msg)
+            warnings.warn(msg)
             return ""
         if prompt:

mteb/models/cache_wrappers/cache_backends/faiss_cache.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import json
 import logging
+import warnings
 from pathlib import Path
 import numpy as np
@@ -71,7 +72,9 @@ class FaissCache:
         try:
             return self.index.reconstruct(idx)
         except Exception:
-            logger.warning(f"Vector id {idx} missing for hash {item_hash}")
+            msg = f"Vector id {idx} missing for hash {item_hash}"
+            logger.warning(msg)
+            warnings.warn(msg)
             return None
     def save(self) -> None:

mteb/models/cache_wrappers/cache_backends/numpy_cache.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import json
 import logging
+import warnings
 from pathlib import Path
 import numpy as np
@@ -41,9 +42,9 @@ class NumpyCache:
             for item, vec in zip(item, vectors):
                 item_hash = _hash_item(item)
                 if item_hash in self.hash_to_index:
-                    logger.warning(
-                        "Hash collision or duplicate item. Overwriting existing vector."
-                    )
+                    msg = f"Hash collision or duplicate item for hash {item_hash}. Overwriting existing vector."
+                    logger.warning(msg)
+                    warnings.warn(msg)
                     index = self.hash_to_index[item_hash]
                 else:
                     index = len(self.hash_to_index)
@@ -107,9 +108,9 @@ class NumpyCache:
                 f"Loaded vector dimension {self.vector_dim} from {self.dimension_file}"
             )
         else:
-            logger.warning(
-                "Dimension file not found. Vector dimension remains uninitialized."
-            )
+            msg = "Dimension file not found. Vector dimension remains uninitialized."
+            logger.warning(msg)
+            warnings.warn(msg)
     def save(self) -> None:
         """Persist VectorCacheMap to disk."""
@@ -151,14 +152,14 @@ class NumpyCache:
                     self.vectors = self.vectors.reshape(-1, self.vector_dim)
                     logger.info(f"Loaded vectors file with shape: {self.vectors.shape}")
                 else:
-                    logger.warning(
-                        "Vector dimension not set. Unable to load vectors file."
-                    )
+                    msg = "Vector dimension not set. Unable to load vectors file."
+                    logger.warning(msg)
+                    warnings.warn(msg)
                 logger.info(f"Loaded VectorCacheMap from {self.directory}")
             else:
-                logger.warning(
-                    "No existing files found. Initialized empty VectorCacheMap."
-                )
+                msg = "No existing files found. Initialized empty VectorCacheMap."
+                logger.warning(msg)
+                warnings.warn(msg)
         except Exception as e:
             logger.error(f"Error loading VectorCacheMap: {str(e)}")
             raise

mteb/models/model_implementations/align_models.py CHANGED Viewed

@@ -105,6 +105,7 @@ class ALIGNModel(AbsEncoder):
 align_base = ModelMeta(
     loader=ALIGNModel,
     name="kakaobrain/align-base",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="e96a37facc7b1f59090ece82293226b817afd6ba",
     release_date="2023-02-24",

mteb/models/model_implementations/amazon_models.py CHANGED Viewed

@@ -3,6 +3,7 @@ from mteb.models.model_meta import ModelMeta, ScoringFunction
 amazon_titan_text_embeddings_v2 = ModelMeta(
     loader=None,
     name="amazon/Titan-text-embeddings-v2",
+    model_type=["dense"],
     revision="1",
     release_date="2024-04-30",
     languages=["eng-Latn"],

mteb/models/model_implementations/andersborges.py CHANGED Viewed

@@ -6,6 +6,7 @@ from mteb.models.model_meta import ModelMeta, ScoringFunction
 model2vecdk = ModelMeta(
     loader=Model2VecModel,  # type: ignore
     name="andersborges/model2vecdk",
+    model_type=["dense"],
     languages=["dan-Latn"],
     open_weights=True,
     revision="cb576c78dcc1b729e4612645f61db59929d69e61",
@@ -36,6 +37,7 @@ model2vecdk = ModelMeta(
 model2vecdk_stem = ModelMeta(
     loader=Model2VecModel,  # type: ignore
     name="andersborges/model2vecdk-stem",
+    model_type=["dense"],
     languages=["dan-Latn"],
     open_weights=True,
     revision="cb576c78dcc1b729e4612645f61db59929d69e61",

mteb/models/model_implementations/ara_models.py CHANGED Viewed

@@ -4,6 +4,7 @@ from mteb.models.sentence_transformer_wrapper import sentence_transformers_loade
 arabic_triplet_matryoshka = ModelMeta(
     loader=sentence_transformers_loader,
     name="Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2",
+    model_type=["dense"],
     languages=["ara-Arab"],
     open_weights=True,
     revision="ed357f222f0b6ea6670d2c9b5a1cb93950d34200",

mteb/models/model_implementations/arctic_models.py CHANGED Viewed

@@ -140,6 +140,7 @@ arctic_v2_training_datasets = {
 arctic_embed_xs = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-xs",
+    model_type=["dense"],
     revision="742da4f66e1823b5b4dbe6c320a1375a1fd85f9e",
     release_date="2024-07-08",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -165,6 +166,7 @@ arctic_embed_xs = ModelMeta(
 arctic_embed_s = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-s",
+    model_type=["dense"],
     revision="d3c1d2d433dd0fdc8e9ca01331a5f225639e798f",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -190,6 +192,7 @@ arctic_embed_s = ModelMeta(
 arctic_embed_m = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-m",
+    model_type=["dense"],
     revision="cc17beacbac32366782584c8752220405a0f3f40",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -215,6 +218,7 @@ arctic_embed_m_long = ModelMeta(
     loader=sentence_transformers_loader,
     loader_kwargs={"trust_remote_code": True},
     name="Snowflake/snowflake-arctic-embed-m-long",
+    model_type=["dense"],
     revision="89d0f6ab196eead40b90cb6f9fefec01a908d2d1",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -239,6 +243,7 @@ arctic_embed_m_long = ModelMeta(
 arctic_embed_l = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-l",
+    model_type=["dense"],
     revision="9a9e5834d2e89cdd8bb72b64111dde496e4fe78c",
     release_date="2024-04-12",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -268,6 +273,7 @@ arctic_embed_m_v1_5 = ModelMeta(
         },
     ),
     name="Snowflake/snowflake-arctic-embed-m-v1.5",
+    model_type=["dense"],
     revision="97eab2e17fcb7ccb8bb94d6e547898fa1a6a0f47",
     release_date="2024-07-08",  # initial commit of hf model.
     languages=["eng-Latn"],
@@ -293,6 +299,7 @@ arctic_embed_m_v2_0 = ModelMeta(
     loader=sentence_transformers_loader,
     loader_kwargs={"trust_remote_code": True},
     name="Snowflake/snowflake-arctic-embed-m-v2.0",
+    model_type=["dense"],
     revision="f2a7d59d80dfda5b1d14f096f3ce88bb6bf9ebdc",
     release_date="2024-12-04",  # initial commit of hf model.
     languages=LANGUAGES_V2_0,
@@ -317,6 +324,7 @@ arctic_embed_m_v2_0 = ModelMeta(
 arctic_embed_l_v2_0 = ModelMeta(
     loader=sentence_transformers_loader,
     name="Snowflake/snowflake-arctic-embed-l-v2.0",
+    model_type=["dense"],
     revision="edc2df7b6c25794b340229ca082e7c78782e6374",
     release_date="2024-12-04",  # initial commit of hf model.
     languages=LANGUAGES_V2_0,

mteb/models/model_implementations/b1ade_models.py CHANGED Viewed

@@ -10,6 +10,7 @@ b1ade_training_data = {
 b1ade_embed = ModelMeta(
     loader=sentence_transformers_loader,
     name="w601sxs/b1ade-embed",
+    model_type=["dense"],
     languages=["eng-Latn"],
     revision="3bdac13927fdc888b903db93b2ffdbd90b295a69",
     open_weights=True,

mteb/models/model_implementations/bedrock_models.py CHANGED Viewed

@@ -155,6 +155,7 @@ class BedrockModel(AbsEncoder):
 amazon_titan_embed_text_v1 = ModelMeta(
     name="bedrock/amazon-titan-embed-text-v1",
+    model_type=["dense"],
     revision="1",
     release_date="2023-09-27",
     languages=None,  # not specified
@@ -181,6 +182,7 @@ amazon_titan_embed_text_v1 = ModelMeta(
 amazon_titan_embed_text_v2 = ModelMeta(
     name="bedrock/amazon-titan-embed-text-v2",
+    model_type=["dense"],
     revision="1",
     release_date="2024-04-30",
     languages=None,  # not specified
@@ -216,6 +218,7 @@ cohere_embed_english_v3 = ModelMeta(
         model_prompts=cohere_model_prompts,
     ),
     name="bedrock/cohere-embed-english-v3",
+    model_type=["dense"],
     languages=["eng-Latn"],
     open_weights=False,
     reference="https://cohere.com/blog/introducing-embed-v3",
@@ -243,6 +246,7 @@ cohere_embed_multilingual_v3 = ModelMeta(
         model_prompts=cohere_model_prompts,
     ),
     name="bedrock/cohere-embed-multilingual-v3",
+    model_type=["dense"],
     languages=cohere_supported_languages,
     open_weights=False,
     reference="https://cohere.com/blog/introducing-embed-v3",

mteb 2.5.1__py3-none-any.whl → 2.5.3__py3-none-any.whl

mteb 2.5.1py3-none-any.whl → 2.5.3py3-none-any.whl