PyPI - mteb - Versions diffs - 2.3.0__py3-none-any.whl → 2.3.1__py3-none-any.whl - Mend

mteb 2.3.0py3-none-any.whl → 2.3.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (21) hide show

mteb/descriptive_stats/Reranking/MultiLongDocReranking.json ADDED Viewed

@@ -0,0 +1,466 @@
+{
+    "test": {
+        "num_samples": 33489,
+        "number_of_characters": 478879013,
+        "documents_text_statistics": {
+            "total_text_length": 478570118,
+            "min_text_length": 37,
+            "average_text_length": 16119.442150291354,
+            "max_text_length": 287838,
+            "unique_texts": 29689
+        },
+        "documents_image_statistics": null,
+        "queries_text_statistics": {
+            "total_text_length": 308895,
+            "min_text_length": 3,
+            "average_text_length": 81.28815789473684,
+            "max_text_length": 2589,
+            "unique_texts": 3800
+        },
+        "queries_image_statistics": null,
+        "relevant_docs_statistics": {
+            "num_relevant_docs": 3800,
+            "min_relevant_docs_per_query": 8,
+            "average_relevant_docs_per_query": 1.0,
+            "max_relevant_docs_per_query": 8,
+            "unique_relevant_docs": 29689
+        },
+        "top_ranked_statistics": {
+            "num_top_ranked": 30400,
+            "min_top_ranked_per_query": 8,
+            "average_top_ranked_per_query": 8.0,
+            "max_top_ranked_per_query": 8
+        },
+        "hf_subset_descriptive_stats": {
+            "ar": {
+                "num_samples": 1759,
+                "number_of_characters": 17483509,
+                "documents_text_statistics": {
+                    "total_text_length": 17468355,
+                    "min_text_length": 2467,
+                    "average_text_length": 11204.846055163567,
+                    "max_text_length": 115382,
+                    "unique_texts": 1559
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 15154,
+                    "min_text_length": 7,
+                    "average_text_length": 75.77,
+                    "max_text_length": 695,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1559
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "de": {
+                "num_samples": 1800,
+                "number_of_characters": 9860028,
+                "documents_text_statistics": {
+                    "total_text_length": 9835298,
+                    "min_text_length": 107,
+                    "average_text_length": 6147.06125,
+                    "max_text_length": 92210,
+                    "unique_texts": 1600
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 24730,
+                    "min_text_length": 10,
+                    "average_text_length": 123.65,
+                    "max_text_length": 957,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1600
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "en": {
+                "num_samples": 6878,
+                "number_of_characters": 221164232,
+                "documents_text_statistics": {
+                    "total_text_length": 221099168,
+                    "min_text_length": 12147,
+                    "average_text_length": 36376.96084238236,
+                    "max_text_length": 287838,
+                    "unique_texts": 6078
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 65064,
+                    "min_text_length": 18,
+                    "average_text_length": 81.33,
+                    "max_text_length": 255,
+                    "unique_texts": 800
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 800,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 6078
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 6400,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "es": {
+                "num_samples": 1780,
+                "number_of_characters": 20852843,
+                "documents_text_statistics": {
+                    "total_text_length": 20826446,
+                    "min_text_length": 2657,
+                    "average_text_length": 13181.29493670886,
+                    "max_text_length": 270338,
+                    "unique_texts": 1580
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 26397,
+                    "min_text_length": 40,
+                    "average_text_length": 131.985,
+                    "max_text_length": 480,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1580
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "fr": {
+                "num_samples": 1762,
+                "number_of_characters": 17828712,
+                "documents_text_statistics": {
+                    "total_text_length": 17798753,
+                    "min_text_length": 2093,
+                    "average_text_length": 11394.848271446863,
+                    "max_text_length": 133854,
+                    "unique_texts": 1562
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 29959,
+                    "min_text_length": 33,
+                    "average_text_length": 149.795,
+                    "max_text_length": 2589,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1562
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "hi": {
+                "num_samples": 1715,
+                "number_of_characters": 18465376,
+                "documents_text_statistics": {
+                    "total_text_length": 18444624,
+                    "min_text_length": 2426,
+                    "average_text_length": 12174.669306930693,
+                    "max_text_length": 227264,
+                    "unique_texts": 1515
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 20752,
+                    "min_text_length": 6,
+                    "average_text_length": 103.76,
+                    "max_text_length": 2022,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1515
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "it": {
+                "num_samples": 1780,
+                "number_of_characters": 22616410,
+                "documents_text_statistics": {
+                    "total_text_length": 22593491,
+                    "min_text_length": 2518,
+                    "average_text_length": 14299.677848101266,
+                    "max_text_length": 117197,
+                    "unique_texts": 1580
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 22919,
+                    "min_text_length": 12,
+                    "average_text_length": 114.595,
+                    "max_text_length": 1899,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1580
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "ja": {
+                "num_samples": 1781,
+                "number_of_characters": 8562074,
+                "documents_text_statistics": {
+                    "total_text_length": 8550928,
+                    "min_text_length": 1244,
+                    "average_text_length": 5408.556609740671,
+                    "max_text_length": 97242,
+                    "unique_texts": 1581
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 11146,
+                    "min_text_length": 6,
+                    "average_text_length": 55.73,
+                    "max_text_length": 416,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1581
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "ko": {
+                "num_samples": 1770,
+                "number_of_characters": 9773349,
+                "documents_text_statistics": {
+                    "total_text_length": 9761605,
+                    "min_text_length": 1490,
+                    "average_text_length": 6217.58280254777,
+                    "max_text_length": 76949,
+                    "unique_texts": 1570
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 11744,
+                    "min_text_length": 8,
+                    "average_text_length": 58.72,
+                    "max_text_length": 330,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1570
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "pt": {
+                "num_samples": 1764,
+                "number_of_characters": 23152911,
+                "documents_text_statistics": {
+                    "total_text_length": 23130220,
+                    "min_text_length": 3473,
+                    "average_text_length": 14789.143222506395,
+                    "max_text_length": 108535,
+                    "unique_texts": 1564
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 22691,
+                    "min_text_length": 4,
+                    "average_text_length": 113.455,
+                    "max_text_length": 511,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1564
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "ru": {
+                "num_samples": 1779,
+                "number_of_characters": 22994826,
+                "documents_text_statistics": {
+                    "total_text_length": 22975852,
+                    "min_text_length": 2914,
+                    "average_text_length": 14550.887903736542,
+                    "max_text_length": 151133,
+                    "unique_texts": 1579
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 18974,
+                    "min_text_length": 12,
+                    "average_text_length": 94.87,
+                    "max_text_length": 413,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1579
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "th": {
+                "num_samples": 1800,
+                "number_of_characters": 8022609,
+                "documents_text_statistics": {
+                    "total_text_length": 8003011,
+                    "min_text_length": 37,
+                    "average_text_length": 5001.881875,
+                    "max_text_length": 44872,
+                    "unique_texts": 1600
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 19598,
+                    "min_text_length": 11,
+                    "average_text_length": 97.99,
+                    "max_text_length": 309,
+                    "unique_texts": 200
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 200,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 1600
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 1600,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            },
+            "zh": {
+                "num_samples": 7121,
+                "number_of_characters": 78102134,
+                "documents_text_statistics": {
+                    "total_text_length": 78082367,
+                    "min_text_length": 6268,
+                    "average_text_length": 12352.850340136054,
+                    "max_text_length": 278468,
+                    "unique_texts": 6321
+                },
+                "documents_image_statistics": null,
+                "queries_text_statistics": {
+                    "total_text_length": 19767,
+                    "min_text_length": 3,
+                    "average_text_length": 24.70875,
+                    "max_text_length": 646,
+                    "unique_texts": 800
+                },
+                "queries_image_statistics": null,
+                "relevant_docs_statistics": {
+                    "num_relevant_docs": 800,
+                    "min_relevant_docs_per_query": 8,
+                    "average_relevant_docs_per_query": 1.0,
+                    "max_relevant_docs_per_query": 8,
+                    "unique_relevant_docs": 6321
+                },
+                "top_ranked_statistics": {
+                    "num_top_ranked": 6400,
+                    "min_top_ranked_per_query": 8,
+                    "average_top_ranked_per_query": 8.0,
+                    "max_top_ranked_per_query": 8
+                }
+            }
+        }
+    }
+}

mteb/evaluate.py CHANGED Viewed

@@ -7,6 +7,7 @@ from pathlib import Path
 from time import time
 from typing import TYPE_CHECKING, Any, cast
+from datasets.exceptions import DatasetNotFoundError
 from tqdm.auto import tqdm
 from mteb._helpful_enum import HelpfulStrEnum
@@ -25,6 +26,7 @@ from mteb.models.sentence_transformer_wrapper import (
     SentenceTransformerEncoderWrapper,
 )
 from mteb.results import ModelResult, TaskResult
+from mteb.results.task_result import TaskError
 from mteb.types import HFSubset, PromptType, SplitName
 from mteb.types._metadata import ModelName, Revision
@@ -117,7 +119,8 @@ def _evaluate_task(
     co2_tracker: bool | None,
     encode_kwargs: dict[str, Any],
     prediction_folder: Path | None,
-) -> TaskResult:
+    public_only: bool | None,
+) -> TaskResult | TaskError:
     """The core logic to run a model on a given task. See `evaluate` for more details.
     Returns:
@@ -149,6 +152,7 @@ def _evaluate_task(
                 encode_kwargs=encode_kwargs,
                 co2_tracker=False,
                 prediction_folder=prediction_folder,
+                public_only=public_only,
             )
         result.kg_co2_emissions = tracker.final_emissions
         return result
@@ -159,7 +163,20 @@ def _evaluate_task(
     data_loaded = task.data_loaded
     if not data_loaded:
-        task.load_data()
+        try:
+            task.load_data()
+        except DatasetNotFoundError as e:
+            if not task.metadata.is_public and public_only is None:
+                logger.warning(
+                    f"Dataset for private task '{task.metadata.name}' not found. "
+                    "Make sure you have access to the dataset and that you have set up the authentication correctly. To disable this warning set `public_only=False`"
+                )
+                return TaskError(
+                    task_name=task.metadata.name,
+                    exception=str(e),
+                )
+            if public_only is False:
+                raise e
     evaluation_time = 0
@@ -281,6 +298,7 @@ def evaluate(
     overwrite_strategy: str | OverwriteStrategy = "only-missing",
     prediction_folder: Path | str | None = None,
     show_progress_bar: bool = True,
+    public_only: bool | None = None,
 ) -> ModelResult:
     """This function runs a model on a given task and returns the results.
@@ -304,6 +322,7 @@ def evaluate(
         prediction_folder: Optional folder in which to save model predictions for the task. Predictions of the tasks will be sabed in `prediction_folder/{task_name}_predictions.json`
         show_progress_bar: Whether to show a progress bar when running the evaluation. Default is True. Setting this to False will also set the
             `encode_kwargs['show_progress_bar']` to False if encode_kwargs is unspecified.
+        public_only: Run only public tasks. If None, it will attempt to run the private task.
     Returns:
         The results of the evaluation.
@@ -355,6 +374,7 @@ def evaluate(
             overwrite_strategy=overwrite_strategy,
             prediction_folder=prediction_folder,
             show_progress_bar=show_progress_bar,
+            public_only=public_only,
         )
         result = task.combine_task_results(results.task_results)
         return ModelResult(
@@ -367,6 +387,7 @@ def evaluate(
         task = tasks
     else:
         results = []
+        exceptions = []
         tasks_tqdm = tqdm(
             tasks,
             desc="Evaluating tasks",
@@ -384,12 +405,16 @@ def evaluate(
                 overwrite_strategy=overwrite_strategy,
                 prediction_folder=prediction_folder,
                 show_progress_bar=False,
+                public_only=public_only,
             )
             results.extend(_res.task_results)
+            if _res.exceptions:
+                exceptions.extend(_res.exceptions)
         return ModelResult(
             model_name=_res.model_name,
             model_revision=_res.model_revision,
             task_results=results,
+            exceptions=exceptions,
         )
     overwrite_strategy = OverwriteStrategy.from_str(overwrite_strategy)
@@ -459,16 +484,13 @@ def evaluate(
                 co2_tracker=co2_tracker,
                 encode_kwargs=encode_kwargs,
                 prediction_folder=prediction_folder,
+                public_only=public_only,
             )
         except Exception as e:
             logger.error(
                 f"Error while running task {task.metadata.name} on splits {list(missing_eval.keys())}: {e}"
             )
-            return ModelResult(
-                model_name=model_name,
-                model_revision=model_revision,
-                task_results=[],
-            )
+            result = TaskError(task_name=task.metadata.name, exception=str(e))
     else:
         result = _evaluate_task(
             model=model,
@@ -477,9 +499,18 @@ def evaluate(
             co2_tracker=False,
             encode_kwargs=encode_kwargs,
             prediction_folder=prediction_folder,
+            public_only=public_only,
         )
     logger.info(f"✓ Finished evaluation for {task.metadata.name}")
+    if isinstance(result, TaskError):
+        return ModelResult(
+            model_name=model_name,
+            model_revision=model_revision,
+            task_results=[],
+            exceptions=[result],
+        )
     if existing_results:
         result = result.merge(existing_results)

mteb/models/model_implementations/colpali_models.py CHANGED Viewed

@@ -196,10 +196,10 @@ COLPALI_CITATION = """
 COLPALI_TRAINING_DATA = {
     # from https://huggingface.co/datasets/vidore/colpali_train_set
-    "DocVQA",
-    "InfoVQA",
-    "TATDQA",
-    "arXivQA",
+    "VidoreDocVQARetrieval",
+    "VidoreInfoVQARetrieval",
+    "VidoreTatdqaRetrieval",
+    "VidoreArxivQARetrieval",
 }
 colpali_v1_1 = ModelMeta(

mteb 2.3.0__py3-none-any.whl → 2.3.1__py3-none-any.whl

mteb 2.3.0py3-none-any.whl → 2.3.1py3-none-any.whl