PyPI - EuroEval - Versions diffs - 16.4.0__py3-none-any.whl → 16.5.0__py3-none-any.whl - Mend

EuroEval 16.4.0py3-none-any.whl → 16.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of EuroEval might be problematic. Click here for more details.

Files changed (71) hide show

euroeval/__init__.py +6 -0
euroeval/benchmark_config_factory.py +51 -46
euroeval/benchmark_modules/base.py +6 -5
euroeval/benchmark_modules/hf.py +2 -9
euroeval/benchmark_modules/litellm.py +14 -12
euroeval/benchmark_modules/vllm.py +17 -10
euroeval/benchmarker.py +61 -44
euroeval/caching_utils.py +1 -1
euroeval/cli.py +86 -8
euroeval/constants.py +3 -0
euroeval/data_loading.py +78 -30
euroeval/data_models.py +326 -326
euroeval/dataset_configs/__init__.py +10 -3
euroeval/dataset_configs/bulgarian.py +56 -0
euroeval/dataset_configs/czech.py +25 -29
euroeval/dataset_configs/danish.py +51 -88
euroeval/dataset_configs/dutch.py +48 -86
euroeval/dataset_configs/english.py +45 -76
euroeval/dataset_configs/estonian.py +36 -38
euroeval/dataset_configs/faroese.py +19 -60
euroeval/dataset_configs/finnish.py +36 -68
euroeval/dataset_configs/french.py +39 -74
euroeval/dataset_configs/german.py +45 -81
euroeval/dataset_configs/greek.py +64 -0
euroeval/dataset_configs/icelandic.py +54 -91
euroeval/dataset_configs/italian.py +42 -78
euroeval/dataset_configs/latvian.py +28 -34
euroeval/dataset_configs/lithuanian.py +22 -26
euroeval/dataset_configs/norwegian.py +72 -114
euroeval/dataset_configs/polish.py +33 -60
euroeval/dataset_configs/portuguese.py +33 -65
euroeval/dataset_configs/serbian.py +64 -0
euroeval/dataset_configs/slovak.py +19 -24
euroeval/dataset_configs/spanish.py +42 -76
euroeval/dataset_configs/swedish.py +48 -84
euroeval/dataset_configs/ukrainian.py +64 -0
euroeval/exceptions.py +1 -1
euroeval/finetuning.py +3 -2
euroeval/generation.py +5 -4
euroeval/generation_utils.py +6 -5
euroeval/languages.py +395 -323
euroeval/metrics/huggingface.py +14 -3
euroeval/metrics/llm_as_a_judge.py +1 -1
euroeval/model_cache.py +6 -5
euroeval/model_loading.py +1 -1
euroeval/prompt_templates/__init__.py +2 -0
euroeval/prompt_templates/classification.py +206 -0
euroeval/prompt_templates/linguistic_acceptability.py +82 -43
euroeval/prompt_templates/multiple_choice.py +81 -41
euroeval/prompt_templates/named_entity_recognition.py +125 -44
euroeval/prompt_templates/reading_comprehension.py +92 -43
euroeval/prompt_templates/sentiment_classification.py +91 -43
euroeval/prompt_templates/summarization.py +64 -39
euroeval/prompt_templates/token_classification.py +279 -0
euroeval/scores.py +4 -3
euroeval/speed_benchmark.py +2 -1
euroeval/task_group_utils/multiple_choice_classification.py +2 -1
euroeval/task_group_utils/question_answering.py +24 -13
euroeval/task_group_utils/sequence_classification.py +5 -4
euroeval/task_group_utils/text_to_text.py +2 -1
euroeval/task_group_utils/token_classification.py +11 -8
euroeval/tasks.py +44 -1
euroeval/tokenisation_utils.py +19 -10
euroeval/types.py +10 -9
euroeval/utils.py +6 -3
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/METADATA +194 -37
euroeval-16.5.0.dist-info/RECORD +81 -0
euroeval-16.4.0.dist-info/RECORD +0 -75
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/WHEEL +0 -0
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/entry_points.txt +0 -0
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/licenses/LICENSE +0 -0

euroeval/dataset_configs/__init__.py CHANGED Viewed

@@ -3,6 +3,7 @@
 from ..data_models import DatasetConfig
 from ..languages import get_all_languages
 from ..tasks import SPEED
+from .bulgarian import *  # noqa: F403
 from .czech import *  # noqa: F403
 from .danish import *  # noqa: F403
 from .dutch import *  # noqa: F403
@@ -12,6 +13,7 @@ from .faroese import *  # noqa: F403
 from .finnish import *  # noqa: F403
 from .french import *  # noqa: F403
 from .german import *  # noqa: F403
+from .greek import *  # noqa: F403
 from .icelandic import *  # noqa: F403
 from .italian import *  # noqa: F403
 from .latvian import *  # noqa: F403
@@ -19,9 +21,11 @@ from .lithuanian import *  # noqa: F403
 from .norwegian import *  # noqa: F403
 from .polish import *  # noqa: F403
 from .portuguese import *  # noqa: F403
+from .serbian import *  # noqa: F403
 from .slovak import *  # noqa: F403
 from .spanish import *  # noqa: F403
 from .swedish import *  # noqa: F403
+from .ukrainian import *  # noqa: F403
 def get_all_dataset_configs() -> dict[str, DatasetConfig]:
@@ -31,7 +35,9 @@ def get_all_dataset_configs() -> dict[str, DatasetConfig]:
         A mapping between names of datasets and their configurations.
     """
     dataset_configs = [
-        cfg for cfg in globals().values() if isinstance(cfg, DatasetConfig)
+        cfg
+        for cfg in globals().values()
+        if isinstance(cfg, DatasetConfig) and cfg.task != SPEED
     ]
     assert len(dataset_configs) == len({cfg.name for cfg in dataset_configs}), (
         "There are duplicate dataset configurations. Please ensure that each dataset "
@@ -62,8 +68,9 @@ def get_dataset_config(dataset_name: str) -> DatasetConfig:
 SPEED_CONFIG = DatasetConfig(
     name="speed",
-    pretty_name="the speed estimation benchmark",
-    huggingface_id="",
+    pretty_name="",
+    source="",
     task=SPEED,
     languages=list(get_all_languages().values()),
+    _logging_string="the speed estimation benchmark",
 )

euroeval/dataset_configs/bulgarian.py ADDED Viewed

@@ -0,0 +1,56 @@
+"""All Bulgarian dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import BULGARIAN
+from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT
+### Official datasets ###
+CINEXIO_CONFIG = DatasetConfig(
+    name="cinexio",
+    pretty_name="Cinexio",
+    source="EuroEval/cinexio-mini",
+    task=SENT,
+    languages=[BULGARIAN],
+)
+SCALA_BG_CONFIG = DatasetConfig(
+    name="scala-bg",
+    pretty_name="ScaLA-bg",
+    source="EuroEval/scala-bg",
+    task=LA,
+    languages=[BULGARIAN],
+)
+BG_NER_BSNLP_CONFIG = DatasetConfig(
+    name="bg-ner-bsnlp",
+    pretty_name="BG-NER-BSNLp",
+    source="EuroEval/bg-ner-bsnlp-mini",
+    task=NER,
+    languages=[BULGARIAN],
+)
+MULTI_WIKI_QA_BG_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-bg",
+    pretty_name="MultiWikiQA-bg",
+    source="EuroEval/multi-wiki-qa-bg-mini",
+    task=RC,
+    languages=[BULGARIAN],
+)
+EXAMS_BG_CONFIG = DatasetConfig(
+    name="exams-bg",
+    pretty_name="Exams-bg",
+    source="EuroEval/exams-bg-mini",
+    task=KNOW,
+    languages=[BULGARIAN],
+)
+WINOGRANDE_BG_CONFIG = DatasetConfig(
+    name="winogrande-bg",
+    pretty_name="Winogrande-bg",
+    source="EuroEval/winogrande-bg",
+    task=COMMON_SENSE,
+    languages=[BULGARIAN],
+    _labels=["a", "b"],
+)

euroeval/dataset_configs/czech.py CHANGED Viewed

@@ -1,69 +1,65 @@
 """All Czech dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import CS
+from ..languages import CZECH
 from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT, SUMM
 ### Official datasets ###
 CSFD_SENTIMENT_CONFIG = DatasetConfig(
     name="csfd-sentiment",
-    pretty_name="the truncated version of the Czech sentiment classification dataset "
-    "CSFD Sentiment",
-    huggingface_id="EuroEval/csfd-sentiment-mini",
+    pretty_name="CSFD Sentiment",
+    source="EuroEval/csfd-sentiment-mini",
     task=SENT,
-    languages=[CS],
+    languages=[CZECH],
 )
 CS_GEC_CONFIG = DatasetConfig(
     name="cs-gec",
-    pretty_name="the truncated version of the Czech linguistic acceptability dataset "
-    "CS-GEC",
-    huggingface_id="EuroEval/cs-gec-mini",
+    pretty_name="CS-GEC",
+    source="EuroEval/cs-gec-mini",
     task=LA,
-    languages=[CS],
+    languages=[CZECH],
 )
 PONER_CONFIG = DatasetConfig(
     name="poner",
-    pretty_name="the truncated version of the Czech named entity recognition dataset "
-    "PONER",
-    huggingface_id="EuroEval/poner-mini",
+    pretty_name="PoNER",
+    source="EuroEval/poner-mini",
     task=NER,
-    languages=[CS],
+    languages=[CZECH],
 )
 SQAD_CONFIG = DatasetConfig(
     name="sqad",
-    pretty_name="the truncated version of the Czech reading comprehension dataset SQAD",
-    huggingface_id="EuroEval/sqad-mini",
+    pretty_name="SQAD",
+    source="EuroEval/sqad-mini",
     task=RC,
-    languages=[CS],
+    languages=[CZECH],
 )
 CZECH_NEWS_CONFIG = DatasetConfig(
     name="czech-news",
-    pretty_name="the truncated version of the Czech summarisation dataset",
-    huggingface_id="EuroEval/czech-news-mini",
+    pretty_name="Czech News",
+    source="EuroEval/czech-news-mini",
     task=SUMM,
-    languages=[CS],
+    languages=[CZECH],
 )
 UMIMETO_QA_CONFIG = DatasetConfig(
     name="umimeto-qa",
-    pretty_name="the Czech knowledge dataset UmimetoQA",
-    huggingface_id="EuroEval/umimeto-qa",
+    pretty_name="Umimeto QA",
+    source="EuroEval/umimeto-qa",
     task=KNOW,
-    languages=[CS],
+    languages=[CZECH],
 )
 HELLASWAG_CS_CONFIG = DatasetConfig(
     name="hellaswag-cs",
-    pretty_name="the truncated version of the Czech common-sense reasoning dataset "
-    "HellaSwag-cs, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-cs-mini",
+    pretty_name="HellaSwag-cs",
+    source="EuroEval/hellaswag-cs-mini",
     task=COMMON_SENSE,
-    languages=[CS],
+    languages=[CZECH],
 )
@@ -71,9 +67,9 @@ HELLASWAG_CS_CONFIG = DatasetConfig(
 SCALA_CS_CONFIG = DatasetConfig(
     name="scala-cs",
-    pretty_name="the Czech part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-cs",
+    pretty_name="ScaLA-cs",
+    source="EuroEval/scala-cs",
     task=LA,
-    languages=[CS],
+    languages=[CZECH],
     unofficial=True,
 )

euroeval/dataset_configs/danish.py CHANGED Viewed

@@ -1,87 +1,81 @@
 """All Danish dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import DA
+from ..languages import DANISH
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 ANGRY_TWEETS_CONFIG = DatasetConfig(
     name="angry-tweets",
-    pretty_name="the truncated version of the Danish sentiment classification "
-    "dataset AngryTweets",
-    huggingface_id="EuroEval/angry-tweets-mini",
+    pretty_name="AngryTweets",
+    source="EuroEval/angry-tweets-mini",
     task=SENT,
-    languages=[DA],
+    languages=[DANISH],
 )
 SCALA_DA_CONFIG = DatasetConfig(
     name="scala-da",
-    pretty_name="the Danish part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-da",
+    pretty_name="ScaLA-da",
+    source="EuroEval/scala-da",
     task=LA,
-    languages=[DA],
+    languages=[DANISH],
 )
 DANSK_CONFIG = DatasetConfig(
     name="dansk",
-    pretty_name="the truncated version of the Danish named entity recognition "
-    "dataset DANSK",
-    huggingface_id="EuroEval/dansk-mini",
+    pretty_name="DANSK",
+    source="EuroEval/dansk-mini",
     task=NER,
-    languages=[DA],
+    languages=[DANISH],
 )
 MULTI_WIKI_QA_DA_CONFIG = DatasetConfig(
     name="multi-wiki-qa-da",
-    pretty_name="the truncated version of the Danish part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-da-mini",
+    pretty_name="MultiWikiQA-da",
+    source="EuroEval/multi-wiki-qa-da-mini",
     task=RC,
-    languages=[DA],
+    languages=[DANISH],
 )
 NORDJYLLAND_NEWS_CONFIG = DatasetConfig(
     name="nordjylland-news",
-    pretty_name="the truncated version of the Danish summarisation dataset "
-    "Nordjylland News",
-    huggingface_id="EuroEval/nordjylland-news-mini",
+    pretty_name="Nordjylland News",
+    source="EuroEval/nordjylland-news-mini",
     task=SUMM,
-    languages=[DA],
+    languages=[DANISH],
 )
 DANSKE_TALEMAADER_CONFIG = DatasetConfig(
     name="danske-talemaader",
-    pretty_name="the truncated version of the Danish knowledge dataset Danske "
-    "Talemåder",
-    huggingface_id="EuroEval/danske-talemaader",
+    pretty_name="Danske Talemåder",
+    source="EuroEval/danske-talemaader",
     task=KNOW,
-    languages=[DA],
+    languages=[DANISH],
 )
 DANISH_CITIZEN_TESTS_CONFIG = DatasetConfig(
     name="danish-citizen-tests",
-    pretty_name="the Danish knowledge dataset Danish Citizen Tests",
-    huggingface_id="EuroEval/danish-citizen-tests-updated",
+    pretty_name="Danish Citizen Tests",
+    source="EuroEval/danish-citizen-tests-updated",
     task=KNOW,
-    languages=[DA],
+    languages=[DANISH],
 )
 HELLASWAG_DA_CONFIG = DatasetConfig(
     name="hellaswag-da",
-    pretty_name="the truncated version of the Danish common-sense reasoning dataset "
-    "HellaSwag-da, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-da-mini",
+    pretty_name="HellaSwag-da",
+    source="EuroEval/hellaswag-da-mini",
     task=COMMON_SENSE,
-    languages=[DA],
+    languages=[DANISH],
 )
-EUROPEAN_VALUES_DA_CONFIG = DatasetConfig(
-    name="european-values-da",
-    pretty_name="the Danish version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-da",
+VALEU_DA_CONFIG = DatasetConfig(
+    name="valeu-da",
+    pretty_name="ValEU-da",
+    source="EuroEval/european-values-da",
     task=EUROPEAN_VALUES,
-    languages=[DA],
+    languages=[DANISH],
     splits=["test"],
     bootstrap_samples=False,
 )
@@ -91,95 +85,64 @@ EUROPEAN_VALUES_DA_CONFIG = DatasetConfig(
 DANE_CONFIG = DatasetConfig(
     name="dane",
-    pretty_name="the truncated version of the Danish named entity recognition "
-    "dataset DaNE",
-    huggingface_id="EuroEval/dane-mini",
+    pretty_name="DaNE",
+    source="EuroEval/dane-mini",
     task=NER,
-    languages=[DA],
+    languages=[DANISH],
     unofficial=True,
 )
 MMLU_DA_CONFIG = DatasetConfig(
     name="mmlu-da",
-    pretty_name="the truncated version of the Danish knowledge dataset MMLU-da, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-da-mini",
+    pretty_name="MMLU-da",
+    source="EuroEval/mmlu-da-mini",
     task=KNOW,
-    languages=[DA],
+    languages=[DANISH],
     unofficial=True,
 )
 ARC_DA_CONFIG = DatasetConfig(
     name="arc-da",
-    pretty_name="the truncated version of the Danish knowledge dataset ARC-da, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-da-mini",
+    pretty_name="ARC-da",
+    source="EuroEval/arc-da-mini",
     task=KNOW,
-    languages=[DA],
+    languages=[DANISH],
     unofficial=True,
 )
 BELEBELE_DA_CONFIG = DatasetConfig(
     name="belebele-da",
-    pretty_name="the Danish multiple choice reading comprehension dataset BeleBele-da, "
-    "translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-da-mini",
+    pretty_name="Belebele-da",
+    source="EuroEval/belebele-da-mini",
     task=MCRC,
-    languages=[DA],
+    languages=[DANISH],
     unofficial=True,
 )
 SCANDIQA_DA_CONFIG = DatasetConfig(
     name="scandiqa-da",
-    pretty_name="the Danish part of the truncated version of the question answering "
-    "dataset ScandiQA",
-    huggingface_id="EuroEval/scandiqa-da-mini",
+    pretty_name="ScandiQA-da",
+    source="EuroEval/scandiqa-da-mini",
     task=RC,
-    languages=[DA],
+    languages=[DANISH],
     unofficial=True,
 )
 GOLDENSWAG_DA_CONFIG = DatasetConfig(
     name="goldenswag-da",
-    pretty_name="the truncated version of the Danish common-sense reasoning "
-    "dataset GoldenSwag-da, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-da-mini",
+    pretty_name="GoldenSwag-da",
+    source="EuroEval/goldenswag-da-mini",
     task=COMMON_SENSE,
-    languages=[DA],
+    languages=[DANISH],
     unofficial=True,
 )
 WINOGRANDE_DA_CONFIG = DatasetConfig(
     name="winogrande-da",
-    pretty_name="the Danish common-sense reasoning dataset Winogrande-da, translated "
-    "from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-da",
+    pretty_name="Winogrande-da",
+    source="EuroEval/winogrande-da",
     task=COMMON_SENSE,
-    languages=[DA],
+    languages=[DANISH],
     _labels=["a", "b"],
     unofficial=True,
 )
-EUROPEAN_VALUES_SITUATIONAL_DA_CONFIG = DatasetConfig(
-    name="european-values-situational-da",
-    pretty_name="the Danish version of the European values evaluation dataset, where "
-    "the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-da",
-    task=EUROPEAN_VALUES,
-    languages=[DA],
-    splits=["test"],
-    bootstrap_samples=False,
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_DA_CONFIG = DatasetConfig(
-    name="european-values-completions-da",
-    pretty_name="the Danish version of the European values evaluation dataset, where "
-    "the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-da",
-    task=EUROPEAN_VALUES,
-    languages=[DA],
-    splits=["test"],
-    bootstrap_samples=False,
-    unofficial=True,
-)

euroeval/dataset_configs/dutch.py CHANGED Viewed

@@ -1,80 +1,74 @@
 """All Dutch dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import NL
+from ..languages import DUTCH
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 DBRD_CONFIG = DatasetConfig(
     name="dbrd",
-    pretty_name="the truncated version of the Dutch sentiment classification "
-    "dataset DBRD",
-    huggingface_id="EuroEval/dbrd-mini",
+    pretty_name="DBRD",
+    source="EuroEval/dbrd-mini",
     task=SENT,
-    languages=[NL],
+    languages=[DUTCH],
     _labels=["negative", "positive"],
 )
 SCALA_NL_CONFIG = DatasetConfig(
     name="scala-nl",
-    pretty_name="the Dutch part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-nl",
+    pretty_name="ScaLA-nl",
+    source="EuroEval/scala-nl",
     task=LA,
-    languages=[NL],
+    languages=[DUTCH],
 )
 CONLL_NL_CONFIG = DatasetConfig(
     name="conll-nl",
-    pretty_name="the Dutch part of the truncated version of the named entity "
-    "recognition dataset CoNLL 2002",
-    huggingface_id="EuroEval/conll-nl-mini",
+    pretty_name="CoNLL-nl",
+    source="EuroEval/conll-nl-mini",
     task=NER,
-    languages=[NL],
+    languages=[DUTCH],
 )
 SQUAD_NL_CONFIG = DatasetConfig(
     name="squad-nl",
-    pretty_name="the truncated version of the Dutch reading comprehension dataset "
-    "SQuAD-nl, translated from the English SQuAD dataset",
-    huggingface_id="EuroEval/squad-nl-v2-mini",
+    pretty_name="SQuAD-nl",
+    source="EuroEval/squad-nl-v2-mini",
     task=RC,
-    languages=[NL],
+    languages=[DUTCH],
 )
 WIKI_LINGUA_NL_CONFIG = DatasetConfig(
     name="wiki-lingua-nl",
-    pretty_name="the Dutch part of the truncated version of the summarisation dataset "
-    "WikiLingua",
-    huggingface_id="EuroEval/wiki-lingua-nl-mini",
+    pretty_name="WikiLingua-nl",
+    source="EuroEval/wiki-lingua-nl-mini",
     task=SUMM,
-    languages=[NL],
+    languages=[DUTCH],
 )
 MMLU_NL_CONFIG = DatasetConfig(
     name="mmlu-nl",
-    pretty_name="the truncated version of the Dutch knowledge dataset MMLU-nl, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-nl-mini",
+    pretty_name="MMLU-nl",
+    source="EuroEval/mmlu-nl-mini",
     task=KNOW,
-    languages=[NL],
+    languages=[DUTCH],
 )
 HELLASWAG_NL_CONFIG = DatasetConfig(
     name="hellaswag-nl",
-    pretty_name="the truncated version of the Dutch common-sense reasoning dataset "
-    "HellaSwag-nl, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-nl-mini",
+    pretty_name="HellaSwag-nl",
+    source="EuroEval/hellaswag-nl-mini",
     task=COMMON_SENSE,
-    languages=[NL],
+    languages=[DUTCH],
 )
-EUROPEAN_VALUES_NL_CONFIG = DatasetConfig(
-    name="european-values-nl",
-    pretty_name="the Dutch version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-nl",
+VALEU_NL_CONFIG = DatasetConfig(
+    name="valeu-nl",
+    pretty_name="VaLEU-nl",
+    source="EuroEval/european-values-nl",
     task=EUROPEAN_VALUES,
-    languages=[NL],
+    languages=[DUTCH],
     splits=["test"],
     bootstrap_samples=False,
     _instruction_prompt="{text}",
@@ -85,96 +79,64 @@ EUROPEAN_VALUES_NL_CONFIG = DatasetConfig(
 DUTCH_COLA_CONFIG = DatasetConfig(
     name="dutch-cola",
-    pretty_name="the truncated version of the Dutch linguistic acceptability dataset "
-    "Dutch CoLA",
-    huggingface_id="EuroEval/dutch-cola",
+    pretty_name="Dutch CoLA",
+    source="EuroEval/dutch-cola",
     task=LA,
-    languages=[NL],
+    languages=[DUTCH],
     unofficial=True,
 )
 DUTCH_COLA_FULL_CONFIG = DatasetConfig(
     name="dutch-cola-full",
-    pretty_name="the Dutch linguistic acceptability dataset Dutch CoLA",
-    huggingface_id="EuroEval/dutch-cola-full",
+    pretty_name="Dutch CoLA Full",
+    source="EuroEval/dutch-cola-full",
     task=LA,
-    languages=[NL],
+    languages=[DUTCH],
     unofficial=True,
 )
 ARC_NL_CONFIG = DatasetConfig(
     name="arc-nl",
-    pretty_name="the truncated version of the Dutch knowledge dataset ARC-nl, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-nl-mini",
+    pretty_name="ARC-nl",
+    source="EuroEval/arc-nl-mini",
     task=KNOW,
-    languages=[NL],
+    languages=[DUTCH],
     unofficial=True,
 )
 BELEBELE_NL_CONFIG = DatasetConfig(
     name="belebele-nl",
-    pretty_name="the Dutch multiple choice reading comprehension dataset BeleBele-nl, "
-    "translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-nl-mini",
+    pretty_name="Belebele-nl",
+    source="EuroEval/belebele-nl-mini",
     task=MCRC,
-    languages=[NL],
+    languages=[DUTCH],
     unofficial=True,
 )
 MULTI_WIKI_QA_NL_CONFIG = DatasetConfig(
     name="multi-wiki-qa-nl",
-    pretty_name="the truncated version of the Dutch part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-nl-mini",
+    pretty_name="MultiWikiQA-nl",
+    source="EuroEval/multi-wiki-qa-nl-mini",
     task=RC,
-    languages=[NL],
+    languages=[DUTCH],
     unofficial=True,
 )
 GOLDENSWAG_NL_CONFIG = DatasetConfig(
     name="goldenswag-nl",
-    pretty_name="the truncated version of the Dutch common-sense reasoning "
-    "dataset GoldenSwag-nl, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-nl-mini",
+    pretty_name="GoldenSwag-nl",
+    source="EuroEval/goldenswag-nl-mini",
     task=COMMON_SENSE,
-    languages=[NL],
+    languages=[DUTCH],
     unofficial=True,
 )
 WINOGRANDE_NL_CONFIG = DatasetConfig(
     name="winogrande-nl",
-    pretty_name="the Dutch common-sense reasoning dataset Winogrande-nl, translated "
-    "from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-nl",
+    pretty_name="Winogrande-nl",
+    source="EuroEval/winogrande-nl",
     task=COMMON_SENSE,
-    languages=[NL],
+    languages=[DUTCH],
     _labels=["a", "b"],
     unofficial=True,
 )
-EUROPEAN_VALUES_SITUATIONAL_NL_CONFIG = DatasetConfig(
-    name="european-values-situational-nl",
-    pretty_name="the Dutch version of the European values evaluation dataset, where "
-    "the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-nl",
-    task=EUROPEAN_VALUES,
-    languages=[NL],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_NL_CONFIG = DatasetConfig(
-    name="european-values-completions-nl",
-    pretty_name="the Dutch version of the European values evaluation dataset, where "
-    "the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-nl",
-    task=EUROPEAN_VALUES,
-    languages=[NL],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)

EuroEval 16.4.0__py3-none-any.whl → 16.5.0__py3-none-any.whl

Potentially problematic release.

EuroEval 16.4.0py3-none-any.whl → 16.5.0py3-none-any.whl