PyPI - EuroEval - Versions diffs - 15.12.0__py3-none-any.whl → 16.7.1__py3-none-any.whl - Mend

EuroEval 15.12.0py3-none-any.whl → 16.7.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (87) hide show

euroeval/__init__.py +32 -14
euroeval/benchmark_config_factory.py +92 -180
euroeval/benchmark_modules/base.py +49 -39
euroeval/benchmark_modules/fresh.py +35 -21
euroeval/benchmark_modules/hf.py +280 -244
euroeval/benchmark_modules/litellm.py +752 -312
euroeval/benchmark_modules/vllm.py +570 -268
euroeval/benchmarker.py +651 -528
euroeval/caching_utils.py +79 -0
euroeval/callbacks.py +5 -7
euroeval/cli.py +49 -38
euroeval/constants.py +44 -25
euroeval/data_loading.py +111 -55
euroeval/data_models.py +490 -323
euroeval/dataset_configs/__init__.py +26 -4
euroeval/dataset_configs/bosnian.py +39 -0
euroeval/dataset_configs/bulgarian.py +56 -0
euroeval/dataset_configs/croatian.py +56 -0
euroeval/dataset_configs/czech.py +75 -0
euroeval/dataset_configs/danish.py +78 -50
euroeval/dataset_configs/dutch.py +74 -44
euroeval/dataset_configs/english.py +71 -36
euroeval/dataset_configs/estonian.py +111 -0
euroeval/dataset_configs/faroese.py +25 -18
euroeval/dataset_configs/finnish.py +63 -26
euroeval/dataset_configs/french.py +65 -32
euroeval/dataset_configs/german.py +77 -36
euroeval/dataset_configs/greek.py +64 -0
euroeval/dataset_configs/icelandic.py +68 -57
euroeval/dataset_configs/italian.py +68 -36
euroeval/dataset_configs/latvian.py +87 -0
euroeval/dataset_configs/lithuanian.py +64 -0
euroeval/dataset_configs/norwegian.py +98 -72
euroeval/dataset_configs/polish.py +96 -0
euroeval/dataset_configs/portuguese.py +63 -40
euroeval/dataset_configs/serbian.py +64 -0
euroeval/dataset_configs/slovak.py +55 -0
euroeval/dataset_configs/slovene.py +56 -0
euroeval/dataset_configs/spanish.py +68 -34
euroeval/dataset_configs/swedish.py +82 -41
euroeval/dataset_configs/ukrainian.py +64 -0
euroeval/enums.py +12 -6
euroeval/exceptions.py +21 -1
euroeval/finetuning.py +34 -26
euroeval/generation.py +76 -41
euroeval/generation_utils.py +169 -34
euroeval/languages.py +1020 -188
euroeval/logging_utils.py +268 -0
euroeval/metrics/__init__.py +6 -0
euroeval/metrics/base.py +85 -0
euroeval/metrics/huggingface.py +216 -0
euroeval/metrics/llm_as_a_judge.py +260 -0
euroeval/metrics/pipeline.py +289 -0
euroeval/metrics/speed.py +48 -0
euroeval/model_cache.py +40 -21
euroeval/model_config.py +4 -5
euroeval/model_loading.py +3 -0
euroeval/prompt_templates/__init__.py +2 -0
euroeval/prompt_templates/classification.py +206 -0
euroeval/prompt_templates/linguistic_acceptability.py +157 -22
euroeval/prompt_templates/multiple_choice.py +159 -17
euroeval/prompt_templates/named_entity_recognition.py +318 -21
euroeval/prompt_templates/reading_comprehension.py +207 -16
euroeval/prompt_templates/sentiment_classification.py +205 -22
euroeval/prompt_templates/summarization.py +122 -22
euroeval/prompt_templates/token_classification.py +279 -0
euroeval/scores.py +20 -9
euroeval/speed_benchmark.py +11 -12
euroeval/task_group_utils/multiple_choice_classification.py +21 -12
euroeval/task_group_utils/question_answering.py +101 -73
euroeval/task_group_utils/sequence_classification.py +144 -61
euroeval/task_group_utils/text_to_text.py +33 -12
euroeval/task_group_utils/token_classification.py +86 -89
euroeval/tasks.py +75 -16
euroeval/tokenisation_utils.py +603 -0
euroeval/types.py +17 -11
euroeval/utils.py +332 -137
euroeval-16.7.1.dist-info/METADATA +623 -0
euroeval-16.7.1.dist-info/RECORD +84 -0
{euroeval-15.12.0.dist-info → euroeval-16.7.1.dist-info}/entry_points.txt +0 -1
euroeval/human_evaluation.py +0 -737
euroeval/metrics.py +0 -452
euroeval/tokenization_utils.py +0 -498
euroeval-15.12.0.dist-info/METADATA +0 -285
euroeval-15.12.0.dist-info/RECORD +0 -63
{euroeval-15.12.0.dist-info → euroeval-16.7.1.dist-info}/WHEEL +0 -0
{euroeval-15.12.0.dist-info → euroeval-16.7.1.dist-info}/licenses/LICENSE +0 -0

euroeval/dataset_configs/latvian.py ADDED Viewed

@@ -0,0 +1,87 @@
+"""All Latvian dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import LATVIAN
+from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT, SUMM
+### Official datasets ###
+LATVIAN_TWITTER_SENTIMENT_CONFIG = DatasetConfig(
+    name="latvian-twitter-sentiment",
+    pretty_name="Latvian Twitter Sentiment",
+    source="EuroEval/latvian-twitter-sentiment-mini",
+    task=SENT,
+    languages=[LATVIAN],
+)
+SCALA_LV_CONFIG = DatasetConfig(
+    name="scala-lv",
+    pretty_name="ScaLA-lv",
+    source="EuroEval/scala-lv",
+    task=LA,
+    languages=[LATVIAN],
+)
+FULLSTACK_NER_LV_CONFIG = DatasetConfig(
+    name="fullstack-ner-lv",
+    pretty_name="FullStack NER-lv",
+    source="EuroEval/fullstack-ner-lv-mini",
+    task=NER,
+    languages=[LATVIAN],
+)
+MULTI_WIKI_QA_LV_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-lv",
+    pretty_name="MultiWikiQA-lv",
+    source="EuroEval/multi-wiki-qa-lv-mini",
+    task=RC,
+    languages=[LATVIAN],
+)
+LSM_CONFIG = DatasetConfig(
+    name="lsm",
+    pretty_name="LSM",
+    source="EuroEval/lsm-mini",
+    task=SUMM,
+    languages=[LATVIAN],
+)
+MMLU_LV_CONFIG = DatasetConfig(
+    name="mmlu-lv",
+    pretty_name="MMLU-lv",
+    source="EuroEval/mmlu-lv-mini",
+    task=KNOW,
+    languages=[LATVIAN],
+)
+COPA_LV_CONFIG = DatasetConfig(
+    name="copa-lv",
+    pretty_name="COPA-lv",
+    source="EuroEval/copa-lv",
+    task=COMMON_SENSE,
+    languages=[LATVIAN],
+    _labels=["a", "b"],
+)
+### Unofficial datasets ###
+WIKIANN_LV_CONFIG = DatasetConfig(
+    name="wikiann-lv",
+    pretty_name="WikiANN-lv",
+    source="EuroEval/wikiann-lv-mini",
+    task=NER,
+    languages=[LATVIAN],
+    unofficial=True,
+)
+WINOGRANDE_LV_CONFIG = DatasetConfig(
+    name="winogrande-lv",
+    pretty_name="Winogrande-lv",
+    source="EuroEval/winogrande-lv",
+    task=COMMON_SENSE,
+    languages=[LATVIAN],
+    _labels=["a", "b"],
+    unofficial=True,
+)

euroeval/dataset_configs/lithuanian.py ADDED Viewed

@@ -0,0 +1,64 @@
+"""All Lithuanian dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import LITHUANIAN
+from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT, SUMM
+### Official datasets ###
+LITHUANIAN_EMOTIONS_CONFIG = DatasetConfig(
+    name="lithuanian-emotions",
+    pretty_name="Lithuanian Emotions",
+    source="EuroEval/lithuanian-emotions-mini",
+    task=SENT,
+    languages=[LITHUANIAN],
+)
+SCALA_LT_CONFIG = DatasetConfig(
+    name="scala-lt",
+    pretty_name="ScaLA-lt",
+    source="EuroEval/scala-lt",
+    task=LA,
+    languages=[LITHUANIAN],
+)
+WIKIANN_LT_CONFIG = DatasetConfig(
+    name="wikiann-lt",
+    pretty_name="WikiANN-lt",
+    source="EuroEval/wikiann-lt-mini",
+    task=NER,
+    languages=[LITHUANIAN],
+)
+MULTI_WIKI_QA_LT_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-lt",
+    pretty_name="MultiWikiQA-lt",
+    source="EuroEval/multi-wiki-qa-lt-mini",
+    task=RC,
+    languages=[LITHUANIAN],
+)
+LRYTAS_CONFIG = DatasetConfig(
+    name="lrytas",
+    pretty_name="Lrytas",
+    source="EuroEval/lrytas-mini",
+    task=SUMM,
+    languages=[LITHUANIAN],
+)
+LT_HISTORY_CONFIG = DatasetConfig(
+    name="lt-history",
+    pretty_name="LT-History",
+    source="EuroEval/lt-history",
+    task=KNOW,
+    languages=[LITHUANIAN],
+)
+WINOGRANDE_LT_CONFIG = DatasetConfig(
+    name="winogrande-lt",
+    pretty_name="Winogrande-lt",
+    source="EuroEval/winogrande-lt",
+    task=COMMON_SENSE,
+    languages=[LITHUANIAN],
+    _labels=["a", "b"],
+)

euroeval/dataset_configs/norwegian.py CHANGED Viewed

@@ -1,186 +1,212 @@
 """All Norwegian dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import NB, NN, NO
-from ..tasks import COMMON_SENSE, KNOW, LA, MCRC, NER, RC, SENT, SUMM
+from ..languages import NORWEGIAN, NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK
+from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 NOREC_CONFIG = DatasetConfig(
     name="norec",
-    pretty_name="the truncated version of the Norwegian sentiment classification "
-    "dataset NoReC",
-    huggingface_id="EuroEval/norec-mini",
+    pretty_name="NoReC",
+    source="EuroEval/norec-mini",
     task=SENT,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 SCALA_NB_CONFIG = DatasetConfig(
     name="scala-nb",
-    pretty_name="the Bokmål part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-nb",
+    pretty_name="ScaLA-nb",
+    source="EuroEval/scala-nb",
     task=LA,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
 )
 SCALA_NN_CONFIG = DatasetConfig(
     name="scala-nn",
-    pretty_name="the Nynorsk part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-nn",
+    pretty_name="ScaLA-nn",
+    source="EuroEval/scala-nn",
     task=LA,
-    languages=[NN],
+    languages=[NORWEGIAN_NYNORSK],
 )
 NORNE_NB_CONFIG = DatasetConfig(
     name="norne-nb",
-    pretty_name="the truncated version of the Bokmål part of the Norwegian named "
-    "entity recognition dataset NorNE",
-    huggingface_id="EuroEval/norne-nb-mini",
+    pretty_name="NorNE-nb",
+    source="EuroEval/norne-nb-mini",
     task=NER,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
 )
 NORNE_NN_CONFIG = DatasetConfig(
     name="norne-nn",
-    pretty_name="the truncated version of the Nynorsk part of the Norwegian named "
-    "entity recognition dataset NorNE",
-    huggingface_id="EuroEval/norne-nn-mini",
+    pretty_name="NorNE-nn",
+    source="EuroEval/norne-nn-mini",
     task=NER,
-    languages=[NN],
+    languages=[NORWEGIAN_NYNORSK],
 )
 NORQUAD_CONFIG = DatasetConfig(
     name="norquad",
-    pretty_name="the truncated version of the Norwegian question answering "
-    "dataset NorQuAD",
-    huggingface_id="EuroEval/norquad-mini",
+    pretty_name="NorQuAD",
+    source="EuroEval/norquad-mini",
     task=RC,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     _num_few_shot_examples=2,
 )
 NO_SAMMENDRAG_CONFIG = DatasetConfig(
     name="no-sammendrag",
-    pretty_name="the truncated version of the Norwegian summarisation dataset "
-    "Norske Sammendrag",
-    huggingface_id="EuroEval/no-sammendrag-mini",
+    pretty_name="NoSammendrag",
+    source="EuroEval/no-sammendrag-mini",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 NRK_QUIZ_QA_CONFIG = DatasetConfig(
     name="nrk-quiz-qa",
-    pretty_name="the truncated version of the Norwegian knowledge dataset NRK Quiz QA",
-    huggingface_id="EuroEval/nrk-quiz-qa-mini",
+    pretty_name="NRK Quiz QA",
+    source="EuroEval/nrk-quiz-qa-mini",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 IDIOMS_NO_CONFIG = DatasetConfig(
     name="idioms-no",
-    pretty_name="the Norwegian knowledge dataset Idioms-no",
-    huggingface_id="EuroEval/idioms-no",
+    pretty_name="Idioms-no",
+    source="EuroEval/idioms-no",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
 )
 NOR_COMMON_SENSE_QA_CONFIG = DatasetConfig(
     name="nor-common-sense-qa",
-    pretty_name="the truncated version of the Norwegian common-sense reasoning dataset "
-    "NorCommonSenseQA",
-    huggingface_id="EuroEval/nor-common-sense-qa",
+    pretty_name="NorCommonSenseQA",
+    source="EuroEval/nor-common-sense-qa",
     task=COMMON_SENSE,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     _labels=["a", "b", "c", "d", "e"],
 )
+VALEU_NO_CONFIG = DatasetConfig(
+    name="valeu-no",
+    pretty_name="VaLEU-no",
+    source="EuroEval/european-values-no",
+    task=EUROPEAN_VALUES,
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
+    splits=["test"],
+    bootstrap_samples=False,
+    _instruction_prompt="{text}",
+)
 ### Unofficial datasets ###
 NO_COLA_CONFIG = DatasetConfig(
     name="no-cola",
-    pretty_name="the truncated version of the Norwegian linguistic acceptability "
-    "dataset NoCoLA",
-    huggingface_id="EuroEval/no-cola-mini",
+    pretty_name="NoCoLA",
+    source="EuroEval/no-cola-mini",
     task=LA,
-    languages=[NB, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
     unofficial=True,
 )
 NORGLM_MULTI_QA = DatasetConfig(
     name="norglm-multi-qa",
-    pretty_name="the question answering part of the Norwegian NorGLM multi-task human "
-    "annotated dataset NO-Multi-QA-Sum",
-    huggingface_id="EuroEval/norglm-multi-qa",
+    pretty_name="NorGLM-Multi-QA",
+    source="EuroEval/norglm-multi-qa",
     task=RC,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 NORGLM_MULTI_SUM = DatasetConfig(
     name="norglm-multi-sum",
-    pretty_name="the summarisation part of the Norwegian NorGLM multi-task human "
-    "annotated dataset NO-Multi-QA-Sum",
-    huggingface_id="EuroEval/norglm-multi-sum",
+    pretty_name="NorGLM-Multi-Sum",
+    source="EuroEval/norglm-multi-sum",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 SCHIBSTED_NO_CONFIG = DatasetConfig(
     name="schibsted-no",
-    pretty_name="the Norwegian summarisation dataset Schibsted-no",
-    huggingface_id="EuroEval/schibsted-article-summaries-no",
+    pretty_name="Schibsted-no",
+    source="EuroEval/schibsted-article-summaries-no",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 PERSONAL_SUM_CONFIG = DatasetConfig(
     name="personal-sum",
-    pretty_name="the Norwegian summarisation dataset personal-sum",
-    huggingface_id="EuroEval/personal-sum",
+    pretty_name="Personal Sum",
+    source="EuroEval/personal-sum",
     task=SUMM,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 MMLU_NO_CONFIG = DatasetConfig(
     name="mmlu-no",
-    pretty_name="the truncated version of the Norwegian knowledge dataset MMLU-no, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-no-mini",
+    pretty_name="MMLU-no",
+    source="EuroEval/mmlu-no-mini",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 ARC_NO_CONFIG = DatasetConfig(
     name="arc-no",
-    pretty_name="the truncated version of the Norwegian knowledge dataset ARC-no, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-no-mini",
+    pretty_name="ARC-no",
+    source="EuroEval/arc-no-mini",
     task=KNOW,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 HELLASWAG_NO_CONFIG = DatasetConfig(
     name="hellaswag-no",
-    pretty_name="the truncated version of the Norwegian common-sense reasoning dataset "
-    "HellaSwag-no, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-no-mini",
+    pretty_name="HellaSwag-no",
+    source="EuroEval/hellaswag-no-mini",
     task=COMMON_SENSE,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
     unofficial=True,
 )
 BELEBELE_NO_CONFIG = DatasetConfig(
     name="belebele-no",
-    pretty_name="the Norwegian multiple choice reading comprehension dataset "
-    "BeleBele-no, translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-no-mini",
+    pretty_name="Belebele-no",
+    source="EuroEval/belebele-no-mini",
     task=MCRC,
-    languages=[NB, NN, NO],
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
+    unofficial=True,
+)
+MULTI_WIKI_QA_NB_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-nb",
+    pretty_name="MultiWikiQA-nb",
+    source="EuroEval/multi-wiki-qa-no-mini",
+    task=RC,
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN],
+    unofficial=True,
+)
+MULTI_WIKI_QA_NN_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-nn",
+    pretty_name="MultiWikiQA-nn",
+    source="EuroEval/multi-wiki-qa-nn-mini",
+    task=RC,
+    languages=[NORWEGIAN_NYNORSK],
+    unofficial=True,
+)
+WINOGRANDE_NO_CONFIG = DatasetConfig(
+    name="winogrande-no",
+    pretty_name="Winogrande-no",
+    source="EuroEval/winogrande-no",
+    task=COMMON_SENSE,
+    languages=[NORWEGIAN_BOKMÅL, NORWEGIAN_NYNORSK, NORWEGIAN],
+    _labels=["a", "b"],
     unofficial=True,
 )

euroeval/dataset_configs/polish.py ADDED Viewed

@@ -0,0 +1,96 @@
+"""All Polish dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import POLISH
+from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, NER, RC, SENT, SUMM
+### Official datasets ###
+POLEMO2_CONFIG = DatasetConfig(
+    name="polemo2",
+    pretty_name="Polemo2",
+    source="EuroEval/polemo2-mini",
+    task=SENT,
+    languages=[POLISH],
+)
+SCALA_PL_CONFIG = DatasetConfig(
+    name="scala-pl",
+    pretty_name="ScaLA-pl",
+    source="EuroEval/scala-pl",
+    task=LA,
+    languages=[POLISH],
+)
+KPWR_NER_CONFIG = DatasetConfig(
+    name="kpwr-ner",
+    pretty_name="KPWr-NER",
+    source="EuroEval/kpwr-ner",
+    task=NER,
+    languages=[POLISH],
+)
+POQUAD_CONFIG = DatasetConfig(
+    name="poquad",
+    pretty_name="PoQuAD",
+    source="EuroEval/poquad-mini",
+    task=RC,
+    languages=[POLISH],
+)
+PSC_CONFIG = DatasetConfig(
+    name="psc",
+    pretty_name="PSC",
+    source="EuroEval/psc-mini",
+    task=SUMM,
+    languages=[POLISH],
+)
+LLMZSZL_CONFIG = DatasetConfig(
+    name="llmzszl",
+    pretty_name="LLMzSzŁ",
+    source="EuroEval/llmzszl-mini",
+    task=KNOW,
+    languages=[POLISH],
+)
+WINOGRANDE_PL_CONFIG = DatasetConfig(
+    name="winogrande-pl",
+    pretty_name="Winogrande-pl",
+    source="EuroEval/winogrande-pl",
+    task=COMMON_SENSE,
+    languages=[POLISH],
+    _labels=["a", "b"],
+)
+VALEU_PL_CONFIG = DatasetConfig(
+    name="valeu-pl",
+    pretty_name="VaLEU-pl",
+    source="EuroEval/european-values-pl",
+    task=EUROPEAN_VALUES,
+    languages=[POLISH],
+    splits=["test"],
+    bootstrap_samples=False,
+    _instruction_prompt="{text}",
+)
+### Unofficial datasets ###
+MULTI_WIKI_QA_PL_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-pl",
+    pretty_name="MultiWikiQA-pl",
+    source="EuroEval/multi-wiki-qa-pl-mini",
+    task=RC,
+    languages=[POLISH],
+    unofficial=True,
+)
+GOLDENSWAG_PL_CONFIG = DatasetConfig(
+    name="goldenswag-pl",
+    pretty_name="GoldenSwag-pl",
+    source="EuroEval/goldenswag-pl-mini",
+    task=COMMON_SENSE,
+    languages=[POLISH],
+    unofficial=True,
+)

euroeval/dataset_configs/portuguese.py CHANGED Viewed

@@ -1,64 +1,77 @@
 """All Portuguese dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import PT
-from ..tasks import COMMON_SENSE, KNOW, LA, MCRC, NER, SENT, SUMM
+from ..languages import EUROPEAN_PORTUGUESE, PORTUGUESE
+from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 SST2_PT_CONFIG = DatasetConfig(
     name="sst2-pt",
-    pretty_name="the truncated version of the Portuguese sentiment classification "
-    "dataset SST2-pt, translated from the English SST2 dataset",
-    huggingface_id="EuroEval/sst2-pt-mini",
+    pretty_name="SST2-pt",
+    source="EuroEval/sst2-pt-mini",
     task=SENT,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
     _labels=["positive", "negative"],
 )
-MMLU_PT_CONFIG = DatasetConfig(
-    name="mmlu-pt",
-    pretty_name="the truncated version of the Portuguese knowledge dataset MMLU-pt, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-pt-mini",
-    task=KNOW,
-    languages=[PT],
-)
-GOLDENSWAG_PT_CONFIG = DatasetConfig(
-    name="goldenswag-pt",
-    pretty_name="the truncated version of the Portuguese common-sense reasoning "
-    "dataset GoldenSwag-pt, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-pt-mini",
-    task=COMMON_SENSE,
-    languages=[PT],
-)
 SCALA_PT = DatasetConfig(
     name="scala-pt",
-    pretty_name="the Portuguese part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-pt",
+    pretty_name="ScaLA-pt",
+    source="EuroEval/scala-pt",
     task=LA,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 HAREM_CONFIG = DatasetConfig(
     name="harem",
-    pretty_name="the Portuguese named entity recognition dataset HAREM",
-    huggingface_id="EuroEval/harem",
+    pretty_name="HAREM",
+    source="EuroEval/harem",
     task=NER,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+)
+MULTI_WIKI_QA_PT_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-pt",
+    pretty_name="MultiWikiQA-pt",
+    source="EuroEval/multi-wiki-qa-pt-pt-mini",
+    task=RC,
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
 )
 PUBLICO_CONFIG = DatasetConfig(
     name="publico",
-    pretty_name="the truncated version of the Portuguese summarisation dataset Público",
-    huggingface_id="EuroEval/publico-mini",
+    pretty_name="Publico",
+    source="EuroEval/publico-mini",
     task=SUMM,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+)
+MMLU_PT_CONFIG = DatasetConfig(
+    name="mmlu-pt",
+    pretty_name="MMLU-pt",
+    source="EuroEval/mmlu-pt-mini",
+    task=KNOW,
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+)
+GOLDENSWAG_PT_CONFIG = DatasetConfig(
+    name="goldenswag-pt",
+    pretty_name="GoldenSwag-pt",
+    source="EuroEval/goldenswag-pt-mini",
+    task=COMMON_SENSE,
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+)
+VALEU_PT_CONFIG = DatasetConfig(
+    name="valeu-pt",
+    pretty_name="VaLEU-pt",
+    source="EuroEval/european-values-pt",
+    task=EUROPEAN_VALUES,
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+    splits=["test"],
+    bootstrap_samples=False,
+    _instruction_prompt="{text}",
 )
@@ -66,9 +79,19 @@ PUBLICO_CONFIG = DatasetConfig(
 BOOLQ_PT_CONFIG = DatasetConfig(
     name="boolq-pt",
-    pretty_name="the Portuguese multiple choice reading comprehension dataset "
-    "BoolQ-pt, translated from the English BoolQ dataset",
-    huggingface_id="EuroEval/boolq-pt",
+    pretty_name="BoolQ-pt",
+    source="EuroEval/boolq-pt",
     task=MCRC,
-    languages=[PT],
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+    unofficial=True,
+)
+WINOGRANDE_PT_CONFIG = DatasetConfig(
+    name="winogrande-pt",
+    pretty_name="Winogrande-pt",
+    source="EuroEval/winogrande-pt",
+    task=COMMON_SENSE,
+    languages=[PORTUGUESE, EUROPEAN_PORTUGUESE],
+    _labels=["a", "b"],
+    unofficial=True,
 )

EuroEval 15.12.0__py3-none-any.whl → 16.7.1__py3-none-any.whl

EuroEval 15.12.0py3-none-any.whl → 16.7.1py3-none-any.whl