PyPI - EuroEval - Versions diffs - 15.12.0__py3-none-any.whl → 16.7.1__py3-none-any.whl - Mend

EuroEval 15.12.0py3-none-any.whl → 16.7.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (87) hide show

euroeval/__init__.py +32 -14
euroeval/benchmark_config_factory.py +92 -180
euroeval/benchmark_modules/base.py +49 -39
euroeval/benchmark_modules/fresh.py +35 -21
euroeval/benchmark_modules/hf.py +280 -244
euroeval/benchmark_modules/litellm.py +752 -312
euroeval/benchmark_modules/vllm.py +570 -268
euroeval/benchmarker.py +651 -528
euroeval/caching_utils.py +79 -0
euroeval/callbacks.py +5 -7
euroeval/cli.py +49 -38
euroeval/constants.py +44 -25
euroeval/data_loading.py +111 -55
euroeval/data_models.py +490 -323
euroeval/dataset_configs/__init__.py +26 -4
euroeval/dataset_configs/bosnian.py +39 -0
euroeval/dataset_configs/bulgarian.py +56 -0
euroeval/dataset_configs/croatian.py +56 -0
euroeval/dataset_configs/czech.py +75 -0
euroeval/dataset_configs/danish.py +78 -50
euroeval/dataset_configs/dutch.py +74 -44
euroeval/dataset_configs/english.py +71 -36
euroeval/dataset_configs/estonian.py +111 -0
euroeval/dataset_configs/faroese.py +25 -18
euroeval/dataset_configs/finnish.py +63 -26
euroeval/dataset_configs/french.py +65 -32
euroeval/dataset_configs/german.py +77 -36
euroeval/dataset_configs/greek.py +64 -0
euroeval/dataset_configs/icelandic.py +68 -57
euroeval/dataset_configs/italian.py +68 -36
euroeval/dataset_configs/latvian.py +87 -0
euroeval/dataset_configs/lithuanian.py +64 -0
euroeval/dataset_configs/norwegian.py +98 -72
euroeval/dataset_configs/polish.py +96 -0
euroeval/dataset_configs/portuguese.py +63 -40
euroeval/dataset_configs/serbian.py +64 -0
euroeval/dataset_configs/slovak.py +55 -0
euroeval/dataset_configs/slovene.py +56 -0
euroeval/dataset_configs/spanish.py +68 -34
euroeval/dataset_configs/swedish.py +82 -41
euroeval/dataset_configs/ukrainian.py +64 -0
euroeval/enums.py +12 -6
euroeval/exceptions.py +21 -1
euroeval/finetuning.py +34 -26
euroeval/generation.py +76 -41
euroeval/generation_utils.py +169 -34
euroeval/languages.py +1020 -188
euroeval/logging_utils.py +268 -0
euroeval/metrics/__init__.py +6 -0
euroeval/metrics/base.py +85 -0
euroeval/metrics/huggingface.py +216 -0
euroeval/metrics/llm_as_a_judge.py +260 -0
euroeval/metrics/pipeline.py +289 -0
euroeval/metrics/speed.py +48 -0
euroeval/model_cache.py +40 -21
euroeval/model_config.py +4 -5
euroeval/model_loading.py +3 -0
euroeval/prompt_templates/__init__.py +2 -0
euroeval/prompt_templates/classification.py +206 -0
euroeval/prompt_templates/linguistic_acceptability.py +157 -22
euroeval/prompt_templates/multiple_choice.py +159 -17
euroeval/prompt_templates/named_entity_recognition.py +318 -21
euroeval/prompt_templates/reading_comprehension.py +207 -16
euroeval/prompt_templates/sentiment_classification.py +205 -22
euroeval/prompt_templates/summarization.py +122 -22
euroeval/prompt_templates/token_classification.py +279 -0
euroeval/scores.py +20 -9
euroeval/speed_benchmark.py +11 -12
euroeval/task_group_utils/multiple_choice_classification.py +21 -12
euroeval/task_group_utils/question_answering.py +101 -73
euroeval/task_group_utils/sequence_classification.py +144 -61
euroeval/task_group_utils/text_to_text.py +33 -12
euroeval/task_group_utils/token_classification.py +86 -89
euroeval/tasks.py +75 -16
euroeval/tokenisation_utils.py +603 -0
euroeval/types.py +17 -11
euroeval/utils.py +332 -137
euroeval-16.7.1.dist-info/METADATA +623 -0
euroeval-16.7.1.dist-info/RECORD +84 -0
{euroeval-15.12.0.dist-info → euroeval-16.7.1.dist-info}/entry_points.txt +0 -1
euroeval/human_evaluation.py +0 -737
euroeval/metrics.py +0 -452
euroeval/tokenization_utils.py +0 -498
euroeval-15.12.0.dist-info/METADATA +0 -285
euroeval-15.12.0.dist-info/RECORD +0 -63
{euroeval-15.12.0.dist-info → euroeval-16.7.1.dist-info}/WHEEL +0 -0
{euroeval-15.12.0.dist-info → euroeval-16.7.1.dist-info}/licenses/LICENSE +0 -0

euroeval/dataset_configs/german.py CHANGED Viewed

@@ -1,91 +1,132 @@
 """All German dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import DE
-from ..tasks import COMMON_SENSE, KNOW, LA, MCRC, NER, RC, SENT, SUMM
+from ..languages import GERMAN
+from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 SB10K_CONFIG = DatasetConfig(
     name="sb10k",
-    pretty_name="the truncated version of the German sentiment classification "
-    "dataset SB10k",
-    huggingface_id="EuroEval/sb10k-mini",
+    pretty_name="SB10K",
+    source="EuroEval/sb10k-mini",
     task=SENT,
-    languages=[DE],
+    languages=[GERMAN],
 )
 SCALA_DE_CONFIG = DatasetConfig(
     name="scala-de",
-    pretty_name="the German part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-de",
+    pretty_name="ScaLA-de",
+    source="EuroEval/scala-de",
     task=LA,
-    languages=[DE],
+    languages=[GERMAN],
 )
 GERMEVAL_CONFIG = DatasetConfig(
     name="germeval",
-    pretty_name="the truncated version of the German named entity recognition "
-    "dataset GermEval",
-    huggingface_id="EuroEval/germeval-mini",
+    pretty_name="GermEval",
+    source="EuroEval/germeval-mini",
     task=NER,
-    languages=[DE],
+    languages=[GERMAN],
 )
 GERMANQUAD_CONFIG = DatasetConfig(
     name="germanquad",
-    pretty_name="the truncated version of the German reading comprehension dataset "
-    "GermanQuAD",
-    huggingface_id="EuroEval/germanquad-mini",
+    pretty_name="GermanQuAD",
+    source="EuroEval/germanquad-mini",
     task=RC,
-    languages=[DE],
+    languages=[GERMAN],
 )
 MLSUM_DE_CONFIG = DatasetConfig(
     name="mlsum-de",
-    pretty_name="the truncated version of the German summarisation dataset MLSum-de",
-    huggingface_id="EuroEval/mlsum-mini",
+    pretty_name="MLSUM-de",
+    source="EuroEval/mlsum-mini",
     task=SUMM,
-    languages=[DE],
+    languages=[GERMAN],
 )
 MMLU_DE_CONFIG = DatasetConfig(
     name="mmlu-de",
-    pretty_name="the truncated version of the German knowledge dataset MMLU-de, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-de-mini",
+    pretty_name="MMLU-de",
+    source="EuroEval/mmlu-de-mini",
     task=KNOW,
-    languages=[DE],
+    languages=[GERMAN],
 )
 HELLASWAG_DE_CONFIG = DatasetConfig(
     name="hellaswag-de",
-    pretty_name="the truncated version of the German common-sense reasoning dataset "
-    "HellaSwag-de, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-de-mini",
+    pretty_name="HellaSwag-de",
+    source="EuroEval/hellaswag-de-mini",
     task=COMMON_SENSE,
-    languages=[DE],
+    languages=[GERMAN],
+)
+VALEU_DE_CONFIG = DatasetConfig(
+    name="valeu-de",
+    pretty_name="VaLEU-de",
+    source="EuroEval/european-values-de",
+    task=EUROPEAN_VALUES,
+    languages=[GERMAN],
+    splits=["test"],
+    bootstrap_samples=False,
+    _instruction_prompt="{text}",
 )
 ### Unofficial datasets ###
+XQUAD_DE_CONFIG = DatasetConfig(
+    name="xquad-de",
+    pretty_name="XQuAD-de",
+    source="EuroEval/xquad-de",
+    task=RC,
+    languages=[GERMAN],
+    unofficial=True,
+)
 ARC_DE_CONFIG = DatasetConfig(
     name="arc-de",
-    pretty_name="the truncated version of the German knowledge dataset ARC-de, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-de-mini",
+    pretty_name="ARC-de",
+    source="EuroEval/arc-de-mini",
     task=KNOW,
-    languages=[DE],
+    languages=[GERMAN],
     unofficial=True,
 )
 BELEBELE_DE_CONFIG = DatasetConfig(
     name="belebele-de",
-    pretty_name="the German multiple choice reading comprehension dataset BeleBele-de, "
-    "translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-de-mini",
+    pretty_name="Belebele-de",
+    source="EuroEval/belebele-de-mini",
     task=MCRC,
-    languages=[DE],
+    languages=[GERMAN],
+    unofficial=True,
+)
+MULTI_WIKI_QA_DE_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-de",
+    pretty_name="MultiWikiQA-de",
+    source="EuroEval/multi-wiki-qa-de-mini",
+    task=RC,
+    languages=[GERMAN],
+    unofficial=True,
+)
+GOLDENSWAG_DE_CONFIG = DatasetConfig(
+    name="goldenswag-de",
+    pretty_name="GoldenSwag-de",
+    source="EuroEval/goldenswag-de-mini",
+    task=COMMON_SENSE,
+    languages=[GERMAN],
+    unofficial=True,
+)
+WINOGRANDE_DE_CONFIG = DatasetConfig(
+    name="winogrande-de",
+    pretty_name="Winogrande-de",
+    source="EuroEval/winogrande-de",
+    task=COMMON_SENSE,
+    languages=[GERMAN],
+    _labels=["a", "b"],
     unofficial=True,
 )

euroeval/dataset_configs/greek.py ADDED Viewed

@@ -0,0 +1,64 @@
+"""All Greek dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import GREEK
+from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT, SUMM
+### Official datasets ###
+GREEK_SA_CONFIG = DatasetConfig(
+    name="greek-sa",
+    pretty_name="Greek Sentiment Analysis",
+    source="EuroEval/greek-sa-mini",
+    task=SENT,
+    languages=[GREEK],
+    _labels=["negative", "positive"],
+)
+SCALA_EL_CONFIG = DatasetConfig(
+    name="scala-el",
+    pretty_name="ScaLA-el",
+    source="EuroEval/scala-el",
+    task=LA,
+    languages=[GREEK],
+)
+ELNER_CONFIG = DatasetConfig(
+    name="elner",
+    pretty_name="ElNER",
+    source="EuroEval/elner-mini",
+    task=NER,
+    languages=[GREEK],
+)
+MULTI_WIKI_QA_EL_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-el",
+    pretty_name="MultiWikiQA-el",
+    source="EuroEval/multi-wiki-qa-el-mini",
+    task=RC,
+    languages=[GREEK],
+)
+GREEK_WIKIPEDIA_CONFIG = DatasetConfig(
+    name="greek-wikipedia",
+    pretty_name="Greek Wikipedia",
+    source="EuroEval/greek-wikipedia-mini",
+    task=SUMM,
+    languages=[GREEK],
+)
+GLOBAL_MMLU_EL_CONFIG = DatasetConfig(
+    name="global-mmlu-el",
+    pretty_name="GlobalMMLU-el",
+    source="EuroEval/global-mmlu-el-mini",
+    task=KNOW,
+    languages=[GREEK],
+)
+WINOGRANDE_EL_CONFIG = DatasetConfig(
+    name="winogrande-el",
+    pretty_name="Winogrande-el",
+    source="EuroEval/winogrande-el",
+    task=COMMON_SENSE,
+    languages=[GREEK],
+)

euroeval/dataset_configs/icelandic.py CHANGED Viewed

@@ -1,71 +1,77 @@
 """All Icelandic dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import IS
-from ..tasks import COMMON_SENSE, KNOW, LA, MCRC, NER, RC, SENT, SUMM
+from ..languages import ICELANDIC
+from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 HOTTER_AND_COLDER_SENTIMENT_CONFIG = DatasetConfig(
     name="hotter-and-colder-sentiment",
-    pretty_name="the sentiment classification part of the Icelandic dataset Hotter "
-    "and Colder",
-    huggingface_id="EuroEval/hotter-and-colder-sentiment",
+    pretty_name="Hotter and Colder Sentiment",
+    source="EuroEval/hotter-and-colder-sentiment",
     task=SENT,
-    languages=[IS],
+    languages=[ICELANDIC],
 )
 SCALA_IS_CONFIG = DatasetConfig(
     name="scala-is",
-    pretty_name="the Icelandic part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-is",
+    pretty_name="ScaLA-is",
+    source="EuroEval/scala-is",
     task=LA,
-    languages=[IS],
+    languages=[ICELANDIC],
 )
 MIM_GOLD_NER_CONFIG = DatasetConfig(
     name="mim-gold-ner",
-    pretty_name="the truncated version of the Icelandic named entity recognition "
-    "dataset MIM-GOLD-NER",
-    huggingface_id="EuroEval/mim-gold-ner-mini",
+    pretty_name="MIM-GOLD-NER",
+    source="EuroEval/mim-gold-ner-mini",
     task=NER,
-    languages=[IS],
+    languages=[ICELANDIC],
 )
 NQII_CONFIG = DatasetConfig(
     name="nqii",
-    pretty_name="the truncated version of the Icelandic reading comprehension dataset "
-    "Natural Questions in Icelandic",
-    huggingface_id="EuroEval/nqii-mini",
+    pretty_name="NQiI",
+    source="EuroEval/nqii-mini",
     task=RC,
-    languages=[IS],
+    languages=[ICELANDIC],
 )
 RRN_CONFIG = DatasetConfig(
     name="rrn",
-    pretty_name="the truncated version of the Icelandic summarisation dataset "
-    "RÚV Radio News",
-    huggingface_id="EuroEval/rrn-mini",
+    pretty_name="RRN",
+    source="EuroEval/rrn-mini",
     task=SUMM,
-    languages=[IS],
+    languages=[ICELANDIC],
 )
 ICELANDIC_KNOWLEDGE_CONFIG = DatasetConfig(
     name="icelandic-knowledge",
-    pretty_name="the Icelandic knowledge dataset IcelandicKnowledge, derived from the "
-    "IcelandicQA dataset",
-    huggingface_id="EuroEval/icelandic-knowledge",
+    pretty_name="Icelandic Knowledge",
+    source="EuroEval/icelandic-knowledge",
     task=KNOW,
-    languages=[IS],
+    languages=[ICELANDIC],
 )
 WINOGRANDE_IS_CONFIG = DatasetConfig(
     name="winogrande-is",
-    pretty_name="the Icelandic common-sense reasoning dataset "
-    "Winogrande-is, manually translated from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-is",
+    pretty_name="Winogrande-is",
+    source="EuroEval/winogrande-is",
     task=COMMON_SENSE,
-    languages=[IS],
+    languages=[ICELANDIC],
+    _labels=["a", "b"],
+)
+VALEU_IS_CONFIG = DatasetConfig(
+    name="valeu-is",
+    pretty_name="VaLEU-is",
+    source="EuroEval/european-values-is",
+    task=EUROPEAN_VALUES,
+    languages=[ICELANDIC],
+    splits=["test"],
+    bootstrap_samples=False,
+    _instruction_prompt="{text}",
 )
@@ -73,76 +79,81 @@ WINOGRANDE_IS_CONFIG = DatasetConfig(
 ICE_EC_CONFIG = DatasetConfig(
     name="ice-ec",
-    pretty_name="the truncated version of the Icelandic Error Corpus",
-    huggingface_id="EuroEval/ice-ec",
+    pretty_name="ICE-EC",
+    source="EuroEval/ice-ec",
     task=LA,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 ICE_EC_FULL_CONFIG = DatasetConfig(
     name="ice-ec-full",
-    pretty_name="the Icelandic Error Corpus",
-    huggingface_id="EuroEval/ice-ec-full",
+    pretty_name="ICE-EC Full",
+    source="EuroEval/ice-ec-full",
     task=LA,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 ICE_LINGUISTIC_CONFIG = DatasetConfig(
     name="ice-linguistic",
-    pretty_name="the Icelandic linguistic acceptability dataset IceLinguistic",
-    huggingface_id="EuroEval/ice-linguistic",
+    pretty_name="IceLinguistic",
+    source="EuroEval/ice-linguistic",
     task=LA,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 ICELANDIC_QA_CONFIG = DatasetConfig(
     name="icelandic-qa",
-    pretty_name="the Icelandic reading comprehension dataset IcelandicQA",
-    huggingface_id="EuroEval/icelandic-qa",
+    pretty_name="Icelandic QA",
+    source="EuroEval/icelandic-qa",
     task=RC,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 MMLU_IS_CONFIG = DatasetConfig(
     name="mmlu-is",
-    pretty_name="the truncated version of the Icelandic knowledge dataset MMLU-is, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-is-mini",
+    pretty_name="MMLU-is",
+    source="EuroEval/mmlu-is-mini",
     task=KNOW,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 ARC_IS_CONFIG = DatasetConfig(
     name="arc-is",
-    pretty_name="the truncated version of the Icelandic knowledge dataset ARC-is, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-is-mini",
+    pretty_name="ARC-is",
+    source="EuroEval/arc-is-mini",
     task=KNOW,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 HELLASWAG_IS_CONFIG = DatasetConfig(
     name="hellaswag-is",
-    pretty_name="the truncated version of the Icelandic common-sense reasoning dataset "
-    "HellaSwag-is, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-is-mini",
+    pretty_name="HellaSwag-is",
+    source="EuroEval/hellaswag-is-mini",
     task=COMMON_SENSE,
-    languages=[IS],
+    languages=[ICELANDIC],
     unofficial=True,
 )
 BELEBELE_IS_CONFIG = DatasetConfig(
     name="belebele-is",
-    pretty_name="the Icelandic multiple choice reading comprehension dataset "
-    "BeleBele-is, translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-is-mini",
+    pretty_name="Belebele-is",
+    source="EuroEval/belebele-is-mini",
     task=MCRC,
-    languages=[IS],
+    languages=[ICELANDIC],
+    unofficial=True,
+)
+MULTI_WIKI_QA_IS_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-is",
+    pretty_name="MultiWikiQA-is",
+    source="EuroEval/multi-wiki-qa-is-mini",
+    task=RC,
+    languages=[ICELANDIC],
     unofficial=True,
 )

euroeval/dataset_configs/italian.py CHANGED Viewed

@@ -1,70 +1,76 @@
 """All Italian dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import IT
-from ..tasks import COMMON_SENSE, KNOW, LA, MCRC, NER, RC, SENT, SUMM
+from ..languages import ITALIAN
+from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 SENTIPOLC_CONFIG = DatasetConfig(
     name="sentipolc16",
-    pretty_name="the truncated version of the Italian sentiment classification "
-    "dataset Sentipolc-16",
-    huggingface_id="EuroEval/sentipolc16-mini",
+    pretty_name="Sentipolc16",
+    source="EuroEval/sentipolc16-mini",
     task=SENT,
-    languages=[IT],
+    languages=[ITALIAN],
 )
 SCALA_IT_CONFIG = DatasetConfig(
     name="scala-it",
-    pretty_name="the Italian part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-it",
+    pretty_name="ScaLA-it",
+    source="EuroEval/scala-it",
     task=LA,
-    languages=[IT],
+    languages=[ITALIAN],
 )
 MULTINERD_IT_CONFIG = DatasetConfig(
     name="multinerd-it",
-    pretty_name="the truncated version of the Italian part of the named "
-    "entity recognition dataset MultiNERD",
-    huggingface_id="EuroEval/multinerd-mini-it",
+    pretty_name="MultiNERD-it",
+    source="EuroEval/multinerd-mini-it",
     task=NER,
-    languages=[IT],
+    languages=[ITALIAN],
 )
 SQUAD_IT_CONFIG = DatasetConfig(
     name="squad-it",
-    pretty_name="the truncated version of the Italian reading comprehension dataset "
-    "SQuAD-it, translated from the English SQuAD dataset",
-    huggingface_id="EuroEval/squad-it-mini",
+    pretty_name="SQuAD-it",
+    source="EuroEval/squad-it-mini",
     task=RC,
-    languages=[IT],
+    languages=[ITALIAN],
 )
 ILPOST_SUM_CONFIG = DatasetConfig(
     name="ilpost-sum",
-    pretty_name="the truncated version of the Italian summarisation dataset IlPost-Sum",
-    huggingface_id="EuroEval/ilpost-sum",
+    pretty_name="IlPost-Sum",
+    source="EuroEval/ilpost-sum",
     task=SUMM,
-    languages=[IT],
+    languages=[ITALIAN],
 )
 MMLU_IT_CONFIG = DatasetConfig(
     name="mmlu-it",
-    pretty_name="the truncated version of the Italian knowledge dataset MMLU-it, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-it-mini",
+    pretty_name="MMLU-it",
+    source="EuroEval/mmlu-it-mini",
     task=KNOW,
-    languages=[IT],
+    languages=[ITALIAN],
 )
 HELLASWAG_IT_CONFIG = DatasetConfig(
     name="hellaswag-it",
-    pretty_name="the truncated version of the Italian common-sense reasoning dataset "
-    "HellaSwag-it, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-it-mini",
+    pretty_name="HellaSwag-it",
+    source="EuroEval/hellaswag-it-mini",
     task=COMMON_SENSE,
-    languages=[IT],
+    languages=[ITALIAN],
+)
+VALEU_IT_CONFIG = DatasetConfig(
+    name="valeu-it",
+    pretty_name="VaLEU-it",
+    source="EuroEval/european-values-it",
+    task=EUROPEAN_VALUES,
+    languages=[ITALIAN],
+    splits=["test"],
+    bootstrap_samples=False,
+    _instruction_prompt="{text}",
 )
@@ -72,20 +78,46 @@ HELLASWAG_IT_CONFIG = DatasetConfig(
 WIKINEURAL_IT_CONFIG = DatasetConfig(
     name="wikineural-it",
-    pretty_name="the truncated version of the Italian named "
-    "entity recognition dataset WikiNEuRal IT",
-    huggingface_id="EuroEval/wikineural-mini-it",
+    pretty_name="WikiNeural-it",
+    source="EuroEval/wikineural-mini-it",
     task=NER,
-    languages=[IT],
+    languages=[ITALIAN],
     unofficial=True,
 )
 BELEBELE_IT_CONFIG = DatasetConfig(
     name="belebele-it",
-    pretty_name="the Italian multiple choice reading comprehension dataset "
-    "BeleBele-it, translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-it-mini",
+    pretty_name="Belebele-it",
+    source="EuroEval/belebele-it-mini",
     task=MCRC,
-    languages=[IT],
+    languages=[ITALIAN],
+    unofficial=True,
+)
+MULTI_WIKI_QA_IT_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-it",
+    pretty_name="MultiWikiQA-it",
+    source="EuroEval/multi-wiki-qa-it-mini",
+    task=RC,
+    languages=[ITALIAN],
+    unofficial=True,
+)
+GOLDENSWAG_IT_CONFIG = DatasetConfig(
+    name="goldenswag-it",
+    pretty_name="GoldenSwag-it",
+    source="EuroEval/goldenswag-it-mini",
+    task=COMMON_SENSE,
+    languages=[ITALIAN],
+    unofficial=True,
+)
+WINOGRANDE_IT_CONFIG = DatasetConfig(
+    name="winogrande-it",
+    pretty_name="Winogrande-it",
+    source="EuroEval/winogrande-it",
+    task=COMMON_SENSE,
+    languages=[ITALIAN],
+    _labels=["a", "b"],
     unofficial=True,
 )

EuroEval 15.12.0__py3-none-any.whl → 16.7.1__py3-none-any.whl

EuroEval 15.12.0py3-none-any.whl → 16.7.1py3-none-any.whl