PyPI - EuroEval - Versions diffs - 16.4.0__py3-none-any.whl → 16.5.0__py3-none-any.whl - Mend

EuroEval 16.4.0py3-none-any.whl → 16.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of EuroEval might be problematic. Click here for more details.

Files changed (71) hide show

euroeval/__init__.py +6 -0
euroeval/benchmark_config_factory.py +51 -46
euroeval/benchmark_modules/base.py +6 -5
euroeval/benchmark_modules/hf.py +2 -9
euroeval/benchmark_modules/litellm.py +14 -12
euroeval/benchmark_modules/vllm.py +17 -10
euroeval/benchmarker.py +61 -44
euroeval/caching_utils.py +1 -1
euroeval/cli.py +86 -8
euroeval/constants.py +3 -0
euroeval/data_loading.py +78 -30
euroeval/data_models.py +326 -326
euroeval/dataset_configs/__init__.py +10 -3
euroeval/dataset_configs/bulgarian.py +56 -0
euroeval/dataset_configs/czech.py +25 -29
euroeval/dataset_configs/danish.py +51 -88
euroeval/dataset_configs/dutch.py +48 -86
euroeval/dataset_configs/english.py +45 -76
euroeval/dataset_configs/estonian.py +36 -38
euroeval/dataset_configs/faroese.py +19 -60
euroeval/dataset_configs/finnish.py +36 -68
euroeval/dataset_configs/french.py +39 -74
euroeval/dataset_configs/german.py +45 -81
euroeval/dataset_configs/greek.py +64 -0
euroeval/dataset_configs/icelandic.py +54 -91
euroeval/dataset_configs/italian.py +42 -78
euroeval/dataset_configs/latvian.py +28 -34
euroeval/dataset_configs/lithuanian.py +22 -26
euroeval/dataset_configs/norwegian.py +72 -114
euroeval/dataset_configs/polish.py +33 -60
euroeval/dataset_configs/portuguese.py +33 -65
euroeval/dataset_configs/serbian.py +64 -0
euroeval/dataset_configs/slovak.py +19 -24
euroeval/dataset_configs/spanish.py +42 -76
euroeval/dataset_configs/swedish.py +48 -84
euroeval/dataset_configs/ukrainian.py +64 -0
euroeval/exceptions.py +1 -1
euroeval/finetuning.py +3 -2
euroeval/generation.py +5 -4
euroeval/generation_utils.py +6 -5
euroeval/languages.py +395 -323
euroeval/metrics/huggingface.py +14 -3
euroeval/metrics/llm_as_a_judge.py +1 -1
euroeval/model_cache.py +6 -5
euroeval/model_loading.py +1 -1
euroeval/prompt_templates/__init__.py +2 -0
euroeval/prompt_templates/classification.py +206 -0
euroeval/prompt_templates/linguistic_acceptability.py +82 -43
euroeval/prompt_templates/multiple_choice.py +81 -41
euroeval/prompt_templates/named_entity_recognition.py +125 -44
euroeval/prompt_templates/reading_comprehension.py +92 -43
euroeval/prompt_templates/sentiment_classification.py +91 -43
euroeval/prompt_templates/summarization.py +64 -39
euroeval/prompt_templates/token_classification.py +279 -0
euroeval/scores.py +4 -3
euroeval/speed_benchmark.py +2 -1
euroeval/task_group_utils/multiple_choice_classification.py +2 -1
euroeval/task_group_utils/question_answering.py +24 -13
euroeval/task_group_utils/sequence_classification.py +5 -4
euroeval/task_group_utils/text_to_text.py +2 -1
euroeval/task_group_utils/token_classification.py +11 -8
euroeval/tasks.py +44 -1
euroeval/tokenisation_utils.py +19 -10
euroeval/types.py +10 -9
euroeval/utils.py +6 -3
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/METADATA +194 -37
euroeval-16.5.0.dist-info/RECORD +81 -0
euroeval-16.4.0.dist-info/RECORD +0 -75
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/WHEEL +0 -0
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/entry_points.txt +0 -0
{euroeval-16.4.0.dist-info → euroeval-16.5.0.dist-info}/licenses/LICENSE +0 -0

euroeval/dataset_configs/serbian.py ADDED Viewed

@@ -0,0 +1,64 @@
+"""All Serbian dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import SERBIAN
+from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT, SUMM
+### Official datasets ###
+MMS_SR_CONFIG = DatasetConfig(
+    name="mms-sr",
+    pretty_name="MMS-sr",
+    source="EuroEval/mms-sr-mini",
+    task=SENT,
+    languages=[SERBIAN],
+)
+SCALA_SR_CONFIG = DatasetConfig(
+    name="scala-sr",
+    pretty_name="ScaLA-sr",
+    source="EuroEval/scala-sr",
+    task=LA,
+    languages=[SERBIAN],
+)
+UNER_SR_CONFIG = DatasetConfig(
+    name="uner-sr",
+    pretty_name="UNER-sr",
+    source="EuroEval/uner-sr-mini",
+    task=NER,
+    languages=[SERBIAN],
+)
+MULTI_WIKI_QA_SR_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-sr",
+    pretty_name="MultiWikiQA-sr",
+    source="EuroEval/multi-wiki-qa-sr-mini",
+    task=RC,
+    languages=[SERBIAN],
+)
+LR_SUM_SR_CONFIG = DatasetConfig(
+    name="lr-sum-sr",
+    pretty_name="LRSum-sr",
+    source="EuroEval/lr-sum-sr-mini",
+    task=SUMM,
+    languages=[SERBIAN],
+)
+MMLU_SR_CONFIG = DatasetConfig(
+    name="mmlu-sr",
+    pretty_name="MMLU-sr",
+    source="EuroEval/mmlu-sr-mini",
+    task=KNOW,
+    languages=[SERBIAN],
+)
+WINOGRANDE_SR_CONFIG = DatasetConfig(
+    name="winogrande-sr",
+    pretty_name="Winogrande-sr",
+    source="EuroEval/winogrande-sr",
+    task=COMMON_SENSE,
+    languages=[SERBIAN],
+    _labels=["a", "b"],
+)

euroeval/dataset_configs/slovak.py CHANGED Viewed

@@ -1,60 +1,55 @@
 """All Slovak dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import SK
+from ..languages import SLOVAK
 from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT
 ### Official datasets ###
 CSFD_SENTIMENT_SK_CONFIG = DatasetConfig(
     name="csfd-sentiment-sk",
-    pretty_name="the truncated version of the Slovak sentiment classification dataset "
-    "CSFD-sentiment-sk",
-    huggingface_id="EuroEval/csfd-sentiment-sk-mini",
+    pretty_name="CSFD Sentiment SK",
+    source="EuroEval/csfd-sentiment-sk-mini",
     task=SENT,
-    languages=[SK],
+    languages=[SLOVAK],
 )
 SCALA_SK_CONFIG = DatasetConfig(
     name="scala-sk",
-    pretty_name="the Slovak part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-sk",
+    pretty_name="ScaLA-sk",
+    source="EuroEval/scala-sk",
     task=LA,
-    languages=[SK],
+    languages=[SLOVAK],
 )
 UNER_SK_CONFIG = DatasetConfig(
     name="uner-sk",
-    pretty_name="the truncated version of the Slovak named entity recognition dataset "
-    "UNER-sk",
-    huggingface_id="EuroEval/uner-sk-mini",
+    pretty_name="UNER-sk",
+    source="EuroEval/uner-sk-mini",
     task=NER,
-    languages=[SK],
+    languages=[SLOVAK],
 )
 MULTI_WIKI_QA_SK_CONFIG = DatasetConfig(
     name="multi-wiki-qa-sk",
-    pretty_name="the truncated version of the Slovak part of the reading comprehension "
-    "dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-sk-mini",
+    pretty_name="MultiWikiQA-sk",
+    source="EuroEval/multi-wiki-qa-sk-mini",
     task=RC,
-    languages=[SK],
+    languages=[SLOVAK],
 )
 MMLU_SK_CONFIG = DatasetConfig(
     name="mmlu-sk",
-    pretty_name="the truncated version of the Slovak knowledge dataset MMLU-sk, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-sk-mini",
+    pretty_name="MMLU-sk",
+    source="EuroEval/mmlu-sk-mini",
     task=KNOW,
-    languages=[SK],
+    languages=[SLOVAK],
 )
 WINOGRANDE_SK_CONFIG = DatasetConfig(
     name="winogrande-sk",
-    pretty_name="the Slovak common-sense reasoning dataset Winogrande-sk, translated "
-    "from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-sk",
+    pretty_name="Winogrande-sk",
+    source="EuroEval/winogrande-sk",
     task=COMMON_SENSE,
-    languages=[SK],
+    languages=[SLOVAK],
 )

euroeval/dataset_configs/spanish.py CHANGED Viewed

@@ -1,77 +1,73 @@
 """All Spanish dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import ES
+from ..languages import SPANISH
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 SENTIMENT_HEADLINES_CONFIG = DatasetConfig(
     name="sentiment-headlines-es",
-    pretty_name="the truncated version of the Spanish sentiment classification dataset "
-    "SentimentHeadlines",
-    huggingface_id="EuroEval/sentiment-headlines-es",
+    pretty_name="Sentiment Headlines ES",
+    source="EuroEval/sentiment-headlines-es",
     task=SENT,
-    languages=[ES],
+    languages=[SPANISH],
 )
 SCALA_ES_CONFIG = DatasetConfig(
     name="scala-es",
-    pretty_name="the Spanish part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-es",
+    pretty_name="ScaLA-es",
+    source="EuroEval/scala-es",
     task=LA,
-    languages=[ES],
+    languages=[SPANISH],
 )
 CONLL_ES_CONFIG = DatasetConfig(
     name="conll-es",
-    pretty_name="the Spanish part of the truncated version of the named entity "
-    "recognition dataset CoNLL 2002",
-    huggingface_id="EuroEval/conll-es-mini",
+    pretty_name="CoNLL-es",
+    source="EuroEval/conll-es-mini",
     task=NER,
-    languages=[ES],
+    languages=[SPANISH],
 )
 MLQA_ES_CONFIG = DatasetConfig(
     name="mlqa-es",
-    pretty_name="the Spanish version of the reading comprehension dataset MLQA",
-    huggingface_id="EuroEval/mlqa-es",
+    pretty_name="MLQA-es",
+    source="EuroEval/mlqa-es",
     task=RC,
-    languages=[ES],
+    languages=[SPANISH],
 )
 MLSUM_ES_CONFIG = DatasetConfig(
     name="mlsum-es",
-    pretty_name="the truncated version of the Spanish summarisation dataset MLSum-es",
-    huggingface_id="EuroEval/mlsum-es-mini",
+    pretty_name="MLSUM-es",
+    source="EuroEval/mlsum-es-mini",
     task=SUMM,
-    languages=[ES],
+    languages=[SPANISH],
 )
 MMLU_ES_CONFIG = DatasetConfig(
     name="mmlu-es",
-    pretty_name="the truncated version of the Spanish knowledge dataset MMLU-es, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-es-mini",
+    pretty_name="MMLU-es",
+    source="EuroEval/mmlu-es-mini",
     task=KNOW,
-    languages=[ES],
+    languages=[SPANISH],
 )
 HELLASWAG_ES_CONFIG = DatasetConfig(
     name="hellaswag-es",
-    pretty_name="the truncated version of the Spanish common-sense reasoning dataset "
-    "HellaSwag-es, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-es-mini",
+    pretty_name="HellaSwag-es",
+    source="EuroEval/hellaswag-es-mini",
     task=COMMON_SENSE,
-    languages=[ES],
+    languages=[SPANISH],
 )
-EUROPEAN_VALUES_ES_CONFIG = DatasetConfig(
-    name="european-values-es",
-    pretty_name="the Spanish version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-es",
+VALEU_ES_CONFIG = DatasetConfig(
+    name="valeu-es",
+    pretty_name="VaLEU-es",
+    source="EuroEval/european-values-es",
     task=EUROPEAN_VALUES,
-    languages=[ES],
+    languages=[SPANISH],
     splits=["test"],
     bootstrap_samples=False,
     _instruction_prompt="{text}",
@@ -82,76 +78,46 @@ EUROPEAN_VALUES_ES_CONFIG = DatasetConfig(
 XQUAD_ES_CONFIG = DatasetConfig(
     name="xquad-es",
-    pretty_name="the Spanish version of the reading comprehension dataset XQuAD",
-    huggingface_id="EuroEval/xquad-es",
+    pretty_name="XQuAD-es",
+    source="EuroEval/xquad-es",
     task=RC,
-    languages=[ES],
+    languages=[SPANISH],
     unofficial=True,
 )
 BELEBELE_ES_CONFIG = DatasetConfig(
     name="belebele-es",
-    pretty_name="the Spanish multiple choice reading comprehension dataset "
-    "BeleBele-es, translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-es-mini",
+    pretty_name="Belebele-es",
+    source="EuroEval/belebele-es-mini",
     task=MCRC,
-    languages=[ES],
+    languages=[SPANISH],
     unofficial=True,
 )
 MULTI_WIKI_QA_ES_CONFIG = DatasetConfig(
     name="multi-wiki-qa-es",
-    pretty_name="the truncated version of the Spanish part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-es-mini",
+    pretty_name="MultiWikiQA-es",
+    source="EuroEval/multi-wiki-qa-es-mini",
     task=RC,
-    languages=[ES],
+    languages=[SPANISH],
     unofficial=True,
 )
 GOLDENSWAG_ES_CONFIG = DatasetConfig(
     name="goldenswag-es",
-    pretty_name="the truncated version of the Spanish common-sense reasoning "
-    "dataset GoldenSwag-es, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-es-mini",
+    pretty_name="GoldenSwag-es",
+    source="EuroEval/goldenswag-es-mini",
     task=COMMON_SENSE,
-    languages=[ES],
+    languages=[SPANISH],
     unofficial=True,
 )
 WINOGRANDE_ES_CONFIG = DatasetConfig(
     name="winogrande-es",
-    pretty_name="the Spanish common-sense reasoning dataset Winogrande-es, translated "
-    "from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-es",
+    pretty_name="Winogrande-es",
+    source="EuroEval/winogrande-es",
     task=COMMON_SENSE,
-    languages=[ES],
+    languages=[SPANISH],
     _labels=["a", "b"],
     unofficial=True,
 )
-EUROPEAN_VALUES_SITUATIONAL_ES_CONFIG = DatasetConfig(
-    name="european-values-situational-es",
-    pretty_name="the Spanish version of the European values evaluation dataset, where "
-    "the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-es",
-    task=EUROPEAN_VALUES,
-    languages=[ES],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_ES_CONFIG = DatasetConfig(
-    name="european-values-completions-es",
-    pretty_name="the Spanish version of the European values evaluation dataset, where "
-    "the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-es",
-    task=EUROPEAN_VALUES,
-    languages=[ES],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)

euroeval/dataset_configs/swedish.py CHANGED Viewed

@@ -1,78 +1,73 @@
 """All Swedish dataset configurations used in EuroEval."""
 from ..data_models import DatasetConfig
-from ..languages import SV
+from ..languages import SWEDISH
 from ..tasks import COMMON_SENSE, EUROPEAN_VALUES, KNOW, LA, MCRC, NER, RC, SENT, SUMM
 ### Official datasets ###
 SWEREC_CONFIG = DatasetConfig(
     name="swerec",
-    pretty_name="the truncated version of the Swedish sentiment classification "
-    "dataset SweReC",
-    huggingface_id="EuroEval/swerec-mini",
+    pretty_name="SweReC",
+    source="EuroEval/swerec-mini",
     task=SENT,
-    languages=[SV],
+    languages=[SWEDISH],
 )
 SCALA_SV_CONFIG = DatasetConfig(
     name="scala-sv",
-    pretty_name="The Swedish part of the linguistic acceptability dataset ScaLA",
-    huggingface_id="EuroEval/scala-sv",
+    pretty_name="ScaLA-sv",
+    source="EuroEval/scala-sv",
     task=LA,
-    languages=[SV],
+    languages=[SWEDISH],
 )
 SUC3_CONFIG = DatasetConfig(
     name="suc3",
-    pretty_name="the truncated version of the Swedish named entity recognition "
-    "dataset SUC 3.0",
-    huggingface_id="EuroEval/suc3-mini",
+    pretty_name="SUC3",
+    source="EuroEval/suc3-mini",
     task=NER,
-    languages=[SV],
+    languages=[SWEDISH],
 )
 MULTI_WIKI_QA_SV_CONFIG = DatasetConfig(
     name="multi-wiki-qa-sv",
-    pretty_name="the truncated version of the Swedish part of the reading "
-    "comprehension dataset MultiWikiQA",
-    huggingface_id="EuroEval/multi-wiki-qa-sv-mini",
+    pretty_name="MultiWikiQA-sv",
+    source="EuroEval/multi-wiki-qa-sv-mini",
     task=RC,
-    languages=[SV],
+    languages=[SWEDISH],
 )
 SWEDN_CONFIG = DatasetConfig(
     name="swedn",
-    pretty_name="the truncated version of the Swedish summarisation dataset SweDN",
-    huggingface_id="EuroEval/swedn-mini",
+    pretty_name="SweDN",
+    source="EuroEval/swedn-mini",
     task=SUMM,
-    languages=[SV],
+    languages=[SWEDISH],
 )
 MMLU_SV_CONFIG = DatasetConfig(
     name="mmlu-sv",
-    pretty_name="the truncated version of the Swedish knowledge dataset MMLU-sv, "
-    "translated from the English MMLU dataset",
-    huggingface_id="EuroEval/mmlu-sv-mini",
+    pretty_name="MMLU-sv",
+    source="EuroEval/mmlu-sv-mini",
     task=KNOW,
-    languages=[SV],
+    languages=[SWEDISH],
 )
 HELLASWAG_SV_CONFIG = DatasetConfig(
     name="hellaswag-sv",
-    pretty_name="the truncated version of the Swedish common-sense reasoning dataset "
-    "HellaSwag-sv, translated from the English HellaSwag dataset",
-    huggingface_id="EuroEval/hellaswag-sv-mini",
+    pretty_name="HellaSwag-sv",
+    source="EuroEval/hellaswag-sv-mini",
     task=COMMON_SENSE,
-    languages=[SV],
+    languages=[SWEDISH],
 )
-EUROPEAN_VALUES_SV_CONFIG = DatasetConfig(
-    name="european-values-sv",
-    pretty_name="the Swedish version of the European values evaluation dataset",
-    huggingface_id="EuroEval/european-values-sv",
+VALEU_SV_CONFIG = DatasetConfig(
+    name="valeu-sv",
+    pretty_name="VaLEU-sv",
+    source="EuroEval/european-values-sv",
     task=EUROPEAN_VALUES,
-    languages=[SV],
+    languages=[SWEDISH],
     splits=["test"],
     bootstrap_samples=False,
     _instruction_prompt="{text}",
@@ -83,95 +78,64 @@ EUROPEAN_VALUES_SV_CONFIG = DatasetConfig(
 SCHIBSTED_SV_CONFIG = DatasetConfig(
     name="schibsted-sv",
-    pretty_name="the Swedish summarisation dataset Schibsted-sv",
-    huggingface_id="EuroEval/schibsted-article-summaries-sv",
+    pretty_name="Schibsted-sv",
+    source="EuroEval/schibsted-article-summaries-sv",
     task=SUMM,
-    languages=[SV],
+    languages=[SWEDISH],
     unofficial=True,
 )
 ARC_SV_CONFIG = DatasetConfig(
     name="arc-sv",
-    pretty_name="the truncated version of the Swedish knowledge dataset ARC-sv, "
-    "translated from the English ARC dataset",
-    huggingface_id="EuroEval/arc-sv-mini",
+    pretty_name="ARC-sv",
+    source="EuroEval/arc-sv-mini",
     task=KNOW,
-    languages=[SV],
+    languages=[SWEDISH],
     unofficial=True,
 )
 BELEBELE_SV_CONFIG = DatasetConfig(
     name="belebele-sv",
-    pretty_name="the Swedish multiple choice reading comprehension dataset "
-    "BeleBele-sv, translated from the English BeleBele dataset",
-    huggingface_id="EuroEval/belebele-sv-mini",
+    pretty_name="Belebele-sv",
+    source="EuroEval/belebele-sv-mini",
     task=MCRC,
-    languages=[SV],
+    languages=[SWEDISH],
     unofficial=True,
 )
 SCANDIQA_SV_CONFIG = DatasetConfig(
     name="scandiqa-sv",
-    pretty_name="the Swedish part of the truncated version of the question answering "
-    "dataset ScandiQA",
-    huggingface_id="EuroEval/scandiqa-sv-mini",
+    pretty_name="ScandiQA-sv",
+    source="EuroEval/scandiqa-sv-mini",
     task=RC,
-    languages=[SV],
+    languages=[SWEDISH],
     unofficial=True,
 )
 GOLDENSWAG_SV_CONFIG = DatasetConfig(
     name="goldenswag-sv",
-    pretty_name="the truncated version of the Swedish common-sense reasoning "
-    "dataset GoldenSwag-sv, translated from the English GoldenSwag dataset",
-    huggingface_id="EuroEval/goldenswag-sv-mini",
+    pretty_name="GoldenSwag-sv",
+    source="EuroEval/goldenswag-sv-mini",
     task=COMMON_SENSE,
-    languages=[SV],
+    languages=[SWEDISH],
     unofficial=True,
 )
 WINOGRANDE_SV_CONFIG = DatasetConfig(
     name="winogrande-sv",
-    pretty_name="the Swedish common-sense reasoning dataset Winogrande-sv, translated "
-    "from the English Winogrande dataset",
-    huggingface_id="EuroEval/winogrande-sv",
+    pretty_name="Winogrande-sv",
+    source="EuroEval/winogrande-sv",
     task=COMMON_SENSE,
-    languages=[SV],
+    languages=[SWEDISH],
     _labels=["a", "b"],
     unofficial=True,
 )
-EUROPEAN_VALUES_SITUATIONAL_SV_CONFIG = DatasetConfig(
-    name="european-values-situational-sv",
-    pretty_name="the Swedish version of the European values evaluation dataset, where "
-    "the questions are phrased in a situational way",
-    huggingface_id="EuroEval/european-values-situational-sv",
-    task=EUROPEAN_VALUES,
-    languages=[SV],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)
-EUROPEAN_VALUES_COMPLETIONS_SV_CONFIG = DatasetConfig(
-    name="european-values-completions-sv",
-    pretty_name="the Swedish version of the European values evaluation dataset, where "
-    "the questions are phrased as sentence completions",
-    huggingface_id="EuroEval/european-values-completions-sv",
-    task=EUROPEAN_VALUES,
-    languages=[SV],
-    splits=["test"],
-    bootstrap_samples=False,
-    _instruction_prompt="{text}",
-    unofficial=True,
-)
 SKOLPROV_CONFIG = DatasetConfig(
     name="skolprov",
-    pretty_name="the Swedish knowledge dataset Skolprov",
-    huggingface_id="EuroEval/skolprov",
+    pretty_name="Skolprov",
+    source="EuroEval/skolprov",
     task=KNOW,
-    languages=[SV],
+    languages=[SWEDISH],
     unofficial=True,
 )

euroeval/dataset_configs/ukrainian.py ADDED Viewed

@@ -0,0 +1,64 @@
+"""All Ukrainian dataset configurations used in EuroEval."""
+from ..data_models import DatasetConfig
+from ..languages import UKRAINIAN
+from ..tasks import COMMON_SENSE, KNOW, LA, NER, RC, SENT, SUMM
+### Official datasets ###
+CROSS_DOMAIN_UK_REVIEWS_CONFIG = DatasetConfig(
+    name="cross-domain-uk-reviews",
+    pretty_name="Cross Domain Ukrainian Reviews",
+    source="EuroEval/cross-domain-uk-reviews-mini",
+    task=SENT,
+    languages=[UKRAINIAN],
+)
+SCALA_UK_CONFIG = DatasetConfig(
+    name="scala-uk",
+    pretty_name="ScaLA-uk",
+    source="EuroEval/scala-uk",
+    task=LA,
+    languages=[UKRAINIAN],
+)
+NER_UK_CONFIG = DatasetConfig(
+    name="ner-uk",
+    pretty_name="NER-uk",
+    source="EuroEval/ner-uk-mini",
+    task=NER,
+    languages=[UKRAINIAN],
+)
+MULTI_WIKI_QA_UK_CONFIG = DatasetConfig(
+    name="multi-wiki-qa-uk",
+    pretty_name="MultiWikiQA-uk",
+    source="EuroEval/multi-wiki-qa-uk-mini",
+    task=RC,
+    languages=[UKRAINIAN],
+)
+LR_SUM_UK_CONFIG = DatasetConfig(
+    name="lr-sum-uk",
+    pretty_name="LRSum-uk",
+    source="EuroEval/lr-sum-uk-mini",
+    task=SUMM,
+    languages=[UKRAINIAN],
+)
+GLOBAL_MMLU_UK_CONFIG = DatasetConfig(
+    name="global-mmlu-uk",
+    pretty_name="GlobalMMLU-uk",
+    source="EuroEval/global-mmlu-uk-mini",
+    task=KNOW,
+    languages=[UKRAINIAN],
+)
+WINOGRANDE_UK_CONFIG = DatasetConfig(
+    name="winogrande-uk",
+    pretty_name="Winogrande-uk",
+    source="EuroEval/winogrande-uk",
+    task=COMMON_SENSE,
+    languages=[UKRAINIAN],
+    _labels=["a", "b"],
+)

euroeval/exceptions.py CHANGED Viewed

@@ -145,7 +145,7 @@ class NeedsAdditionalArgument(InvalidModel):
         else:
             self.message = (
                 f"The model you are trying to load requires the `{script_argument}` "
-                "argument  to be passed to the `Benchmarker` class. Please pass the "
+                "argument to be passed to the `Benchmarker` class. Please pass the "
                 "argument and try again."
             )
         super().__init__(self.message)

euroeval/finetuning.py CHANGED Viewed

@@ -1,5 +1,6 @@
 """Functions related to the finetuning of models."""
+import collections.abc as c
 import logging
 import sys
 import typing as t
@@ -30,11 +31,11 @@ if t.TYPE_CHECKING:
 def finetune(
     model: "BenchmarkModule",
-    datasets: list["DatasetDict"],
+    datasets: c.Sequence["DatasetDict"],
     model_config: "ModelConfig",
     dataset_config: "DatasetConfig",
     benchmark_config: "BenchmarkConfig",
-) -> list[dict[str, float]]:
+) -> c.Sequence[dict[str, float]]:
     """Evaluate a model on a dataset through finetuning.
     Args:

EuroEval 16.4.0__py3-none-any.whl → 16.5.0__py3-none-any.whl

Potentially problematic release.

EuroEval 16.4.0py3-none-any.whl → 16.5.0py3-none-any.whl