PyPI - EuroEval - Versions diffs - 16.4.0__py3-none-any.whl → 16.5.0__py3-none-any.whl - Mend

EuroEval 16.4.0py3-none-any.whl → 16.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of EuroEval might be problematic. Click here for more details.

Files changed (71) hide show

euroeval/__init__.py +6 -0
euroeval/benchmark_config_factory.py +51 -46
euroeval/benchmark_modules/base.py +6 -5
euroeval/benchmark_modules/hf.py +2 -9
euroeval/benchmark_modules/litellm.py +14 -12
euroeval/benchmark_modules/vllm.py +17 -10
euroeval/benchmarker.py +61 -44
euroeval/caching_utils.py +1 -1
euroeval/cli.py +86 -8
euroeval/constants.py +3 -0
euroeval/data_loading.py +78 -30
euroeval/data_models.py +326 -326
euroeval/dataset_configs/__init__.py +10 -3
euroeval/dataset_configs/bulgarian.py +56 -0
euroeval/dataset_configs/czech.py +25 -29
euroeval/dataset_configs/danish.py +51 -88
euroeval/dataset_configs/dutch.py +48 -86
euroeval/dataset_configs/english.py +45 -76
euroeval/dataset_configs/estonian.py +36 -38
euroeval/dataset_configs/faroese.py +19 -60
euroeval/dataset_configs/finnish.py +36 -68
euroeval/dataset_configs/french.py +39 -74
euroeval/dataset_configs/german.py +45 -81
euroeval/dataset_configs/greek.py +64 -0
euroeval/dataset_configs/icelandic.py +54 -91
euroeval/dataset_configs/italian.py +42 -78
euroeval/dataset_configs/latvian.py +28 -34
euroeval/dataset_configs/lithuanian.py +22 -26
euroeval/dataset_configs/norwegian.py +72 -114
euroeval/dataset_configs/polish.py +33 -60
euroeval/dataset_configs/portuguese.py +33 -65
euroeval/dataset_configs/serbian.py +64 -0
euroeval/dataset_configs/slovak.py +19 -24
euroeval/dataset_configs/spanish.py +42 -76
euroeval/dataset_configs/swedish.py +48 -84
euroeval/dataset_configs/ukrainian.py +64 -0
euroeval/exceptions.py +1 -1
euroeval/finetuning.py +3 -2
euroeval/generation.py +5 -4
euroeval/generation_utils.py +6 -5
euroeval/languages.py +395 -323
euroeval/metrics/huggingface.py +14 -3
euroeval/metrics/llm_as_a_judge.py +1 -1
euroeval/model_cache.py +6 -5
euroeval/model_loading.py +1 -1
euroeval/prompt_templates/__init__.py +2 -0
euroeval/prompt_templates/classification.py +206 -0
euroeval/prompt_templates/linguistic_acceptability.py +82 -43
euroeval/prompt_templates/multiple_choice.py +81 -41
euroeval/prompt_templates/named_entity_recognition.py +125 -44
euroeval/prompt_templates/reading_comprehension.py +92 -43
euroeval/prompt_templates/sentiment_classification.py +91 -43
euroeval/prompt_templates/summarization.py +64 -39
euroeval/prompt_templates/token_classification.py +279 -0
euroeval/scores.py +4 -3
euroeval/speed_benchmark.py +2 -1
euroeval/task_group_utils/multiple_choice_classification.py +2 -1
euroeval/task_group_utils/question_answering.py +24 -13
euroeval/task_group_utils/sequence_classification.py +5 -4
euroeval/task_group_utils/text_to_text.py +2 -1
euroeval/task_group_utils/token_classification.py +11 -8
euroeval/tasks.py +44 -1
euroeval/tokenisation_utils.py +19 -10
euroeval/types.py +10 -9
euroeval/utils.py +6 -3
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/METADATA +194 -37
euroeval-16.5.0.dist-info/RECORD +81 -0
euroeval-16.4.0.dist-info/RECORD +0 -75
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/WHEEL +0 -0
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/entry_points.txt +0 -0
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/licenses/LICENSE +0 -0

euroeval/dataset_configs/norwegian.py CHANGED Viewed

@@ -1,105 +1,99 @@
 """All Norwegian dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import NB, NN, NO
+from ..languages import NORWEGIAN, NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 NOREC_CONFIG = DatasetConfig(
     name="norec",
-    pretty_name="the truncated version of the Norwegian sentiment classification "
-    "dataset NoReC",
-    huggingface_id="EuroEval/norec-mini",
+    pretty_name="NoReC",
+    source="EuroEval/norec-mini",
     task=SENT,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 SCALA_NB_CONFIG = DatasetConfig(
     name="scala-nb",
-    pretty_name="the Bokmål part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-nb",
+    pretty_name="ScaLA-nb",
+    source="EuroEval/scala-nb",
     task=LA,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
 )
 SCALA_NN_CONFIG = DatasetConfig(
     name="scala-nn",
-    pretty_name="the Nynorsk part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-nn",
+    pretty_name="ScaLA-nn",
+    source="EuroEval/scala-nn",
     task=LA,
-    languages=[NN],
+    languages=[NORWEGIAN_NYNORSK],
 )
 NORNE_NB_CONFIG = DatasetConfig(
     name="norne-nb",
-    pretty_name="the truncated version of the Bokmål part of the Norwegian named "
-    "entity recognition dataset NorNE",
-    huggingface_id="EuroEval/norne-nb-mini",
+    pretty_name="NorNE-nb",
+    source="EuroEval/norne-nb-mini",
     task=NER,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
 )
 NORNE_NN_CONFIG = DatasetConfig(
     name="norne-nn",
-    pretty_name="the truncated version of the Nynorsk part of the Norwegian named "
-    "entity recognition dataset NorNE",
-    huggingface_id="EuroEval/norne-nn-mini",
+    pretty_name="NorNE-nn",
+    source="EuroEval/norne-nn-mini",
     task=NER,
-    languages=[NN],
+    languages=[NORWEGIAN_NYNORSK],
 )
 NORQUAD_CONFIG = DatasetConfig(
     name="norquad",
-    pretty_name="the truncated version of the Norwegian question answering "
-    "dataset NorQuAD",
-    huggingface_id="EuroEval/norquad-mini",
+    pretty_name="NorQuAD",
+    source="EuroEval/norquad-mini",
     task=RC,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     _num_few_shot_examples=2,
 )
 NO_SAMMENDRAG_CONFIG = DatasetConfig(
     name="no-sammendrag",
-    pretty_name="the truncated version of the Norwegian summarisation dataset "
-    "Norske Sammendrag",
-    huggingface_id="EuroEval/no-sammendrag-mini",
+    pretty_name="NoSammendrag",
+    source="EuroEval/no-sammendrag-mini",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 NRK_QUIZ_QA_CONFIG = DatasetConfig(
     name="nrk-quiz-qa",
-    pretty_name="the truncated version of the Norwegian knowledge dataset NRK Quiz QA",
-    huggingface_id="EuroEval/nrk-quiz-qa-mini",
+    pretty_name="NRK Quiz QA",
+    source="EuroEval/nrk-quiz-qa-mini",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 IDIOMS_NO_CONFIG = DatasetConfig(
     name="idioms-no",
-    pretty_name="the Norwegian knowledge dataset Idioms-no",
-    huggingface_id="EuroEval/idioms-no",
+    pretty_name="Idioms-no",
+    source="EuroEval/idioms-no",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 NOR_COMMON_SENSE_QA_CONFIG = DatasetConfig(
     name="nor-common-sense-qa",
-    pretty_name="the truncated version of the Norwegian common-sense reasoning dataset "
-    "NorCommonSenseQA",
-    huggingface_id="EuroEval/nor-common-sense-qa",
+    pretty_name="NorCommonSenseQA",
+    source="EuroEval/nor-common-sense-qa",
     task=COMMON_SENSE,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     _labels=["a", "b", "c", "d", "e"],
 )
-EUROPEAN_VALUES_NO_CONFIG = DatasetConfig(
-    name="european-values-no",
-    pretty_name="the Norwegian version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-no",
+VALEU_NO_CONFIG = DatasetConfig(
+    name="valeu-no",
+    pretty_name="VaLEU-no",
+    source="EuroEval/european-values-no",
     task=EUROPEAN_VALUES,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     splits=["test"],
     bootstrap_samples=False,
     _instruction_prompt="{text}",
@@ -110,145 +104,109 @@ EUROPEAN_VALUES_NO_CONFIG = DatasetConfig(
 NO_COLA_CONFIG = DatasetConfig(
     name="no-cola",
-    pretty_name="the truncated version of the Norwegian linguistic acceptability "
-    "dataset NoCoLA",
-    huggingface_id="EuroEval/no-cola-mini",
+    pretty_name="NoCoLA",
+    source="EuroEval/no-cola-mini",
     task=LA,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
     unofficial=True,
 )
 NORGLM_MULTI_QA = DatasetConfig(
     name="norglm-multi-qa",
-    pretty_name="the question answering part of the Norwegian NorGLM multi-task human "
-    "annotated dataset NO-Multi-QA-Sum",
-    huggingface_id="EuroEval/norglm-multi-qa",
+    pretty_name="NorGLM-Multi-QA",
+    source="EuroEval/norglm-multi-qa",
     task=RC,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 NORGLM_MULTI_SUM = DatasetConfig(
     name="norglm-multi-sum",
-    pretty_name="the summarisation part of the Norwegian NorGLM multi-task human "
-    "annotated dataset NO-Multi-QA-Sum",
-    huggingface_id="EuroEval/norglm-multi-sum",
+    pretty_name="NorGLM-Multi-Sum",
+    source="EuroEval/norglm-multi-sum",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 SCHIBSTED_NO_CONFIG = DatasetConfig(
     name="schibsted-no",
-    pretty_name="the Norwegian summarisation dataset Schibsted-no",
-    huggingface_id="EuroEval/schibsted-article-summaries-no",
+    pretty_name="Schibsted-no",
+    source="EuroEval/schibsted-article-summaries-no",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 PERSONAL_SUM_CONFIG = DatasetConfig(
     name="personal-sum",
-    pretty_name="the Norwegian summarisation dataset personal-sum",
-    huggingface_id="EuroEval/personal-sum",
+    pretty_name="Personal Sum",
+    source="EuroEval/personal-sum",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 MMLU_NO_CONFIG = DatasetConfig(
     name="mmlu-no",
-    pretty_name="the truncated version of the Norwegian knowledge dataset MMLU-no, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-no-mini",
+    pretty_name="MMLU-no",
+    source="EuroEval/mmlu-no-mini",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 ARC_NO_CONFIG = DatasetConfig(
     name="arc-no",
-    pretty_name="the truncated version of the Norwegian knowledge dataset ARC-no, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-no-mini",
+    pretty_name="ARC-no",
+    source="EuroEval/arc-no-mini",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 HELLASWAG_NO_CONFIG = DatasetConfig(
     name="hellaswag-no",
-    pretty_name="the truncated version of the Norwegian common-sense reasoning dataset "
-    "HellaSwag-no, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-no-mini",
+    pretty_name="HellaSwag-no",
+    source="EuroEval/hellaswag-no-mini",
     task=COMMON_SENSE,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 BELEBELE_NO_CONFIG = DatasetConfig(
     name="belebele-no",
-    pretty_name="the Norwegian multiple choice reading comprehension dataset "
-    "BeleBele-no, translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-no-mini",
+    pretty_name="Belebele-no",
+    source="EuroEval/belebele-no-mini",
     task=MCRC,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 MULTI_WIKI_QA_NB_CONFIG = DatasetConfig(
     name="multi-wiki-qa-nb",
-    pretty_name="the truncated version of the Norwegian Bokmål part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-no-mini",
+    pretty_name="MultiWikiQA-nb",
+    source="EuroEval/multi-wiki-qa-no-mini",
     task=RC,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
     unofficial=True,
 )
 MULTI_WIKI_QA_NN_CONFIG = DatasetConfig(
     name="multi-wiki-qa-nn",
-    pretty_name="the truncated version of the Norwegian Nynorsk part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-nn-mini",
+    pretty_name="MultiWikiQA-nn",
+    source="EuroEval/multi-wiki-qa-nn-mini",
     task=RC,
-    languages=[NN],
+    languages=[NORWEGIAN_NYNORSK],
     unofficial=True,
 )
 WINOGRANDE_NO_CONFIG = DatasetConfig(
     name="winogrande-no",
-    pretty_name="the Norwegian common-sense reasoning dataset Winogrande-no, "
-    "translated from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-no",
+    pretty_name="Winogrande-no",
+    source="EuroEval/winogrande-no",
     task=COMMON_SENSE,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     _labels=["a", "b"],
     unofficial=True,
 )
-EUROPEAN_VALUES_SITUATIONAL_NO_CONFIG = DatasetConfig(
-    name="european-values-situational-no",
-    pretty_name="the Norwegian version of the European values evaluation dataset, "
-    "where the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-no",
-    task=EUROPEAN_VALUES,
-    languages=[NB, NN, NO],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_NO_CONFIG = DatasetConfig(
-    name="european-values-completions-no",
-    pretty_name="the Norwegian version of the European values evaluation dataset, "
-    "where the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-no",
-    task=EUROPEAN_VALUES,
-    languages=[NO],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)

euroeval/dataset_configs/polish.py CHANGED Viewed

@@ -1,75 +1,74 @@
 """All Polish dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import PL
+from ..languages import POLISH
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, NER, RC, SENT, SUMM
 ### Official datasets ###
 POLEMO2_CONFIG = DatasetConfig(
     name="polemo2",
-    pretty_name="the Polish sentiment classification dataset PolEmo2",
-    huggingface_id="EuroEval/polemo2-mini",
+    pretty_name="Polemo2",
+    source="EuroEval/polemo2-mini",
     task=SENT,
-    languages=[PL],
+    languages=[POLISH],
 )
 SCALA_PL_CONFIG = DatasetConfig(
     name="scala-pl",
-    pretty_name="the Polish part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-pl",
+    pretty_name="ScaLA-pl",
+    source="EuroEval/scala-pl",
     task=LA,
-    languages=[PL],
+    languages=[POLISH],
 )
 KPWR_NER_CONFIG = DatasetConfig(
     name="kpwr-ner",
-    pretty_name="the Polish entity recognition dataset KPWr-NER",
-    huggingface_id="EuroEval/kpwr-ner",
+    pretty_name="KPWr-NER",
+    source="EuroEval/kpwr-ner",
     task=NER,
-    languages=[PL],
+    languages=[POLISH],
 )
 POQUAD_CONFIG = DatasetConfig(
     name="poquad",
-    pretty_name="the Polish question answering dataset PoQuAD",
-    huggingface_id="EuroEval/poquad-mini",
+    pretty_name="PoQuAD",
+    source="EuroEval/poquad-mini",
     task=RC,
-    languages=[PL],
+    languages=[POLISH],
 )
 PSC_CONFIG = DatasetConfig(
     name="psc",
-    pretty_name="the Polish summarisation dataset PSC",
-    huggingface_id="EuroEval/psc-mini",
+    pretty_name="PSC",
+    source="EuroEval/psc-mini",
     task=SUMM,
-    languages=[PL],
+    languages=[POLISH],
 )
 LLMZSZL_CONFIG = DatasetConfig(
     name="llmzszl",
-    pretty_name="the Polish knowledge dataset LLMzSzŁ",
-    huggingface_id="EuroEval/llmzszl-mini",
+    pretty_name="LLMzSzŁ",
+    source="EuroEval/llmzszl-mini",
     task=KNOW,
-    languages=[PL],
+    languages=[POLISH],
 )
 WINOGRANDE_PL_CONFIG = DatasetConfig(
     name="winogrande-pl",
-    pretty_name="the Polish common-sense reasoning dataset Winogrande-pl, translated "
-    "from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-pl",
+    pretty_name="Winogrande-pl",
+    source="EuroEval/winogrande-pl",
     task=COMMON_SENSE,
-    languages=[PL],
+    languages=[POLISH],
     _labels=["a", "b"],
 )
-EUROPEAN_VALUES_PL_CONFIG = DatasetConfig(
-    name="european-values-pl",
-    pretty_name="the Polish version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-pl",
+VALEU_PL_CONFIG = DatasetConfig(
+    name="valeu-pl",
+    pretty_name="VaLEU-pl",
+    source="EuroEval/european-values-pl",
     task=EUROPEAN_VALUES,
-    languages=[PL],
+    languages=[POLISH],
     splits=["test"],
     bootstrap_samples=False,
     _instruction_prompt="{text}",
@@ -80,44 +79,18 @@ EUROPEAN_VALUES_PL_CONFIG = DatasetConfig(
 MULTI_WIKI_QA_PL_CONFIG = DatasetConfig(
     name="multi-wiki-qa-pl",
-    pretty_name="the truncated version of the Polish part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-pl-mini",
+    pretty_name="MultiWikiQA-pl",
+    source="EuroEval/multi-wiki-qa-pl-mini",
     task=RC,
-    languages=[PL],
+    languages=[POLISH],
     unofficial=True,
 )
 GOLDENSWAG_PL_CONFIG = DatasetConfig(
     name="goldenswag-pl",
-    pretty_name="the truncated version of the Polish common-sense reasoning "
-    "dataset GoldenSwag-pl, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-pl-mini",
+    pretty_name="GoldenSwag-pl",
+    source="EuroEval/goldenswag-pl-mini",
     task=COMMON_SENSE,
-    languages=[PL],
-    unofficial=True,
-)
-EUROPEAN_VALUES_SITUATIONAL_PL_CONFIG = DatasetConfig(
-    name="european-values-situational-pl",
-    pretty_name="the Polish version of the European values evaluation dataset, where "
-    "the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-pl",
-    task=EUROPEAN_VALUES,
-    languages=[PL],
-    splits=["test"],
-    bootstrap_samples=False,
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_PL_CONFIG = DatasetConfig(
-    name="european-values-completions-pl",
-    pretty_name="the Polish version of the European values evaluation dataset, where "
-    "the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-pl",
-    task=EUROPEAN_VALUES,
-    languages=[PL],
-    splits=["test"],
-    bootstrap_samples=False,
+    languages=[POLISH],
     unofficial=True,
 )

euroeval/dataset_configs/portuguese.py CHANGED Viewed

@@ -1,78 +1,74 @@
 """All Portuguese dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import PT
+from ..languages import EUROPEAN_PORTUGUESE, PORTUGUESE
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 SST2_PT_CONFIG = DatasetConfig(
     name="sst2-pt",
-    pretty_name="the truncated version of the Portuguese sentiment classification "
-    "dataset SST2-pt, translated from the English SST2 dataset",
-    huggingface_id="EuroEval/sst2-pt-mini",
+    pretty_name="SST2-pt",
+    source="EuroEval/sst2-pt-mini",
     task=SENT,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
     _labels=["positive", "negative"],
 )
 SCALA_PT = DatasetConfig(
     name="scala-pt",
-    pretty_name="the Portuguese part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-pt",
+    pretty_name="ScaLA-pt",
+    source="EuroEval/scala-pt",
     task=LA,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 HAREM_CONFIG = DatasetConfig(
     name="harem",
-    pretty_name="the Portuguese named entity recognition dataset HAREM",
-    huggingface_id="EuroEval/harem",
+    pretty_name="HAREM",
+    source="EuroEval/harem",
     task=NER,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 MULTI_WIKI_QA_PT_CONFIG = DatasetConfig(
     name="multi-wiki-qa-pt",
-    pretty_name="the truncated version of the Portuguese part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-pt-pt-mini",
+    pretty_name="MultiWikiQA-pt",
+    source="EuroEval/multi-wiki-qa-pt-pt-mini",
     task=RC,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 PUBLICO_CONFIG = DatasetConfig(
     name="publico",
-    pretty_name="the truncated version of the Portuguese summarisation dataset Público",
-    huggingface_id="EuroEval/publico-mini",
+    pretty_name="Publico",
+    source="EuroEval/publico-mini",
     task=SUMM,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 MMLU_PT_CONFIG = DatasetConfig(
     name="mmlu-pt",
-    pretty_name="the truncated version of the Portuguese knowledge dataset MMLU-pt, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-pt-mini",
+    pretty_name="MMLU-pt",
+    source="EuroEval/mmlu-pt-mini",
     task=KNOW,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 GOLDENSWAG_PT_CONFIG = DatasetConfig(
     name="goldenswag-pt",
-    pretty_name="the truncated version of the Portuguese common-sense reasoning "
-    "dataset GoldenSwag-pt, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-pt-mini",
+    pretty_name="GoldenSwag-pt",
+    source="EuroEval/goldenswag-pt-mini",
     task=COMMON_SENSE,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
-EUROPEAN_VALUES_PT_CONFIG = DatasetConfig(
-    name="european-values-pt",
-    pretty_name="the Portuguese version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-pt",
+VALEU_PT_CONFIG = DatasetConfig(
+    name="valeu-pt",
+    pretty_name="VaLEU-pt",
+    source="EuroEval/european-values-pt",
     task=EUROPEAN_VALUES,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
     splits=["test"],
     bootstrap_samples=False,
     _instruction_prompt="{text}",
@@ -83,47 +79,19 @@ EUROPEAN_VALUES_PT_CONFIG = DatasetConfig(
 BOOLQ_PT_CONFIG = DatasetConfig(
     name="boolq-pt",
-    pretty_name="the Portuguese multiple choice reading comprehension dataset "
-    "BoolQ-pt, translated from the English BoolQ dataset",
-    huggingface_id="EuroEval/boolq-pt",
+    pretty_name="BoolQ-pt",
+    source="EuroEval/boolq-pt",
     task=MCRC,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
     unofficial=True,
 )
 WINOGRANDE_PT_CONFIG = DatasetConfig(
     name="winogrande-pt",
-    pretty_name="the Portuguese common-sense reasoning dataset Winogrande-pt, "
-    "translated from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-pt",
+    pretty_name="Winogrande-pt",
+    source="EuroEval/winogrande-pt",
     task=COMMON_SENSE,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
     _labels=["a", "b"],
     unofficial=True,
 )
-EUROPEAN_VALUES_SITUATIONAL_PT_CONFIG = DatasetConfig(
-    name="european-values-situational-pt",
-    pretty_name="the Portuguese version of the European values evaluation dataset, "
-    "where the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-pt",
-    task=EUROPEAN_VALUES,
-    languages=[PT],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_PT_CONFIG = DatasetConfig(
-    name="european-values-completions-pt",
-    pretty_name="the Portuguese version of the European values evaluation dataset, "
-    "where the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-pt",
-    task=EUROPEAN_VALUES,
-    languages=[PT],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)

EuroEval 16.4.0__py3-none-any.whl → 16.5.0__py3-none-any.whl

Potentially problematic release.

EuroEval 16.4.0py3-none-any.whl → 16.5.0py3-none-any.whl