EuroEval 15.11.0__tar.gz → 15.13.0__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Potentially problematic release.
This version of EuroEval might be problematic. Click here for more details.
- {euroeval-15.11.0 → euroeval-15.13.0}/.pre-commit-config.yaml +2 -2
- {euroeval-15.11.0 → euroeval-15.13.0}/CHANGELOG.md +35 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/PKG-INFO +2 -2
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/danish.md +70 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/dutch.md +71 -2
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/english.md +71 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/faroese.md +71 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/finnish.md +73 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/french.md +71 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/german.md +70 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/icelandic.md +71 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/italian.md +71 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/norwegian.md +142 -0
- euroeval-15.13.0/docs/datasets/portuguese.md +570 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/spanish.md +70 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/swedish.md +70 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/reading-comprehension.md +1 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/pyproject.toml +2 -2
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_config_factory.py +7 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_modules/vllm.py +1 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmarker.py +7 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/cli.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/data_models.py +7 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/__init__.py +1 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/danish.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/dutch.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/english.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/faroese.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/finnish.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/french.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/german.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/icelandic.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/italian.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/norwegian.py +20 -0
- euroeval-15.13.0/src/euroeval/dataset_configs/portuguese.py +81 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/spanish.py +14 -3
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/dataset_configs/swedish.py +10 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/generation.py +22 -4
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/generation_utils.py +0 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/human_evaluation.py +1 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/languages.py +1 -2
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/linguistic_acceptability.py +9 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/multiple_choice.py +9 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/named_entity_recognition.py +20 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/reading_comprehension.py +10 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/sentiment_classification.py +11 -1
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/summarization.py +8 -1
- euroeval-15.13.0/src/scripts/create_boolq_pt.py +113 -0
- euroeval-15.13.0/src/scripts/create_goldenswag_pt.py +160 -0
- euroeval-15.13.0/src/scripts/create_harem.py +370 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_mmlu.py +59 -0
- euroeval-15.13.0/src/scripts/create_multi_wiki_qa.py +121 -0
- euroeval-15.13.0/src/scripts/create_publico.py +78 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_scala.py +2 -0
- euroeval-15.13.0/src/scripts/create_sst2_pt.py +91 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/load_ud_pos.py +44 -3
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/conftest.py +1 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_cli.py +3 -2
- {euroeval-15.11.0 → euroeval-15.13.0}/uv.lock +5 -5
- {euroeval-15.11.0 → euroeval-15.13.0}/.github/ISSUE_TEMPLATE/benchmark_dataset_request.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/.github/ISSUE_TEMPLATE/bug.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/.github/ISSUE_TEMPLATE/feature_request.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/.github/ISSUE_TEMPLATE/model_evaluation_request.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/.github/workflows/ci.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/.gitignore +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/CITATION.cff +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/CODE_OF_CONDUCT.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/CONTRIBUTING.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/Dockerfile.cuda +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/LICENSE +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/NEW_DATASET_GUIDE.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/CNAME +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/datasets/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/extras/radial_plotter.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/faq.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/gfx/favicon.png +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/danish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/dutch.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/english.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/faroese.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/finnish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/french.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/german.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/icelandic.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/italian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/norwegian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/spanish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Monolingual/swedish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Multilingual/european.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Multilingual/germanic.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Multilingual/mainland-scandinavian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/Multilingual/romance.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/leaderboards/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/methodology.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/python-package.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/common-sense-reasoning.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/knowledge.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/linguistic-acceptability.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/named-entity-recognition.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/sentiment-classification.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/speed.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/docs/tasks/summarization.md +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/gfx/euroeval.png +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/gfx/euroeval.xcf +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/gfx/scandeval.png +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/makefile +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/mkdocs.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_modules/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_modules/base.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_modules/fresh.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_modules/hf.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/benchmark_modules/litellm.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/callbacks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/constants.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/data_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/enums.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/exceptions.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/finetuning.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/metrics.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/model_cache.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/model_config.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/model_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/prompt_templates/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/scores.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/speed_benchmark.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/task_group_utils/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/task_group_utils/multiple_choice_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/task_group_utils/question_answering.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/task_group_utils/sequence_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/task_group_utils/text_to_text.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/task_group_utils/token_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/tasks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/tokenization_utils.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/types.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/euroeval/utils.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/constants.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_allocine.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_angry_tweets.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_arc.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_arc_is.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_belebele.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_cnn_dailymail.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_conll_en.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_conll_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_conll_nl.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_dane.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_danish_citizen_tests.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_dansk.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_danske_talemaader.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_danske_talemaader_old.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_dbrd.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_dutch_cola.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_eltec.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_fone.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_foqa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_fosent.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_fquad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_germanquad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_germeval.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_hellaswag.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_hellaswag_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_hotter_and_colder_sentiment.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_ice_linguistic.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_icelandic_error_corpus.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_icelandic_knowledge.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_icelandic_qa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_icesum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_idioms_no.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_ilpost_sum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_jentoft.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_life_in_the_uk.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_mim_gold_ner.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_mlqa_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_mlsum_de.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_mlsum_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_multinerd-it.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_no_cola.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_no_sammendrag.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_nor_common_sense_qa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_nordjylland_news.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_norec.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_norglm_multiqa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_norglm_multisum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_norne.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_norquad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_nqii.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_nrk_quiz_qa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_orange_sum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_personal_sum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_rrn.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_sb10k.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_scandiqa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_scandisent_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_schibsted.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_sentiment_headlines_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_sentipolc16.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_squad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_squad_it.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_squad_nl.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_squad_nl_old.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_sst5.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_suc3.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_swedn.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_swerec.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_turku_ner_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_tydiqa_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_wiki_lingua_nl.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_wikiann_fo.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_wikineural-it.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_winogrande_is.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_xlsum_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/create_xquad_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/fix_dot_env_file.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/src/scripts/versioning.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_config_factory.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_modules/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_modules/test_base.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_modules/test_fresh.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_modules/test_hf.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_modules/test_litellm.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmark_modules/test_vllm.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_benchmarker.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_callbacks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_constants.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_data_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_data_models.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_dataset_configs.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_enums.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_exceptions.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_finetuning.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_generation.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_human_evaluation.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_languages.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_model_cache.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_model_config.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_model_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_scores.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_speed_benchmark.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_task_utils/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_task_utils/test_question_answering.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_task_utils/test_sequence_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_task_utils/test_text_to_text.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_task_utils/test_token_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_tasks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_tokenization_utils.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_types.py +0 -0
- {euroeval-15.11.0 → euroeval-15.13.0}/tests/test_utils.py +0 -0
|
@@ -10,7 +10,7 @@ repos:
|
|
|
10
10
|
- id: trailing-whitespace
|
|
11
11
|
- id: debug-statements
|
|
12
12
|
- repo: https://github.com/astral-sh/ruff-pre-commit
|
|
13
|
-
rev: v0.12.
|
|
13
|
+
rev: v0.12.4
|
|
14
14
|
hooks:
|
|
15
15
|
- id: ruff
|
|
16
16
|
args:
|
|
@@ -31,7 +31,7 @@ repos:
|
|
|
31
31
|
hooks:
|
|
32
32
|
- id: nbstripout
|
|
33
33
|
- repo: https://github.com/pre-commit/mirrors-mypy
|
|
34
|
-
rev: v1.
|
|
34
|
+
rev: v1.17.0
|
|
35
35
|
hooks:
|
|
36
36
|
- id: mypy
|
|
37
37
|
args:
|
|
@@ -10,6 +10,41 @@ and this project adheres to [Semantic Versioning](http://semver.org/spec/v2.0.0.
|
|
|
10
10
|
|
|
11
11
|
|
|
12
12
|
|
|
13
|
+
## [v15.13.0] - 2025-07-21
|
|
14
|
+
### Added
|
|
15
|
+
- Added the new MultiWikiQA reading comprehension dataset for all languages, which is
|
|
16
|
+
based on Wikipedia articles along with questions and answers generated by
|
|
17
|
+
Gemini-1.5-pro. It has been set as unofficial for all languages except Portuguese,
|
|
18
|
+
which did not have an official reading comprehension dataset previously.
|
|
19
|
+
|
|
20
|
+
### Fixed
|
|
21
|
+
- Updated lower bound version of the `accelerate` dependency to `1.9.0`, as this is
|
|
22
|
+
required to evaluate some ModernBERT models.
|
|
23
|
+
|
|
24
|
+
|
|
25
|
+
## [v15.12.0] - 2025-07-19
|
|
26
|
+
### Added
|
|
27
|
+
- Added support for European Portuguese 🇵🇹 It includes 3 gold standard datasets and 4
|
|
28
|
+
machine translated ones. The gold standard datasets include the named entity
|
|
29
|
+
recognition dataset HAREM, the summarisation dataset Publico, and the linguistic
|
|
30
|
+
acceptability dataset ScaLA-pt. The machine translated ones include the sentiment
|
|
31
|
+
classification dataset SST-2, the multiple choice reading comprehension dataset BoolQ,
|
|
32
|
+
the knowledge dataset MMLU, and the common-sense reasoning dataset GoldenSwag. This
|
|
33
|
+
was contributed by [@duarteocarmo](https://github.com/duarteocarmo) ✨
|
|
34
|
+
- Added `--gpu-memory-utilization` argument (`gpu_memory_utilization` in the
|
|
35
|
+
`Benchmarker` API), which can be lowered in case the user is experiencing OOM errors
|
|
36
|
+
when evaluating models. The default is 0.9 (same as previously), which means that vLLM
|
|
37
|
+
will reserve 90% of the GPU memory for itself, and leave 10% free for other processes.
|
|
38
|
+
|
|
39
|
+
### Fixed
|
|
40
|
+
- There was a breaking change in `datasets`, where feature indexing of datasets resulted
|
|
41
|
+
in a `Column` instance, rather than a `list` as previously. We now detect this and
|
|
42
|
+
convert the `Column` instance to a `list` before using it.
|
|
43
|
+
- Revert `enable_thinking` argument to `apply_chat_template` back to the default value,
|
|
44
|
+
as this depends on the individual model implementation. In v15.11.0, this was
|
|
45
|
+
explicitly set to `True`, which caused some inconsistencies when comparing models.
|
|
46
|
+
|
|
47
|
+
|
|
13
48
|
## [v15.11.0] - 2025-07-15
|
|
14
49
|
### Added
|
|
15
50
|
- Added the English knowledge dataset Life in the UK, which has been added as an
|
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
Metadata-Version: 2.4
|
|
2
2
|
Name: EuroEval
|
|
3
|
-
Version: 15.
|
|
3
|
+
Version: 15.13.0
|
|
4
4
|
Summary: The robust European language model benchmark.
|
|
5
5
|
Project-URL: Repository, https://github.com/EuroEval/EuroEval
|
|
6
6
|
Project-URL: Issues, https://github.com/EuroEval/EuroEval/issues
|
|
@@ -29,7 +29,7 @@ License: MIT License
|
|
|
29
29
|
SOFTWARE.
|
|
30
30
|
License-File: LICENSE
|
|
31
31
|
Requires-Python: <4.0,>=3.10
|
|
32
|
-
Requires-Dist: accelerate>=
|
|
32
|
+
Requires-Dist: accelerate>=1.9.0
|
|
33
33
|
Requires-Dist: bert-score>=0.3.13
|
|
34
34
|
Requires-Dist: click>=8.1.3
|
|
35
35
|
Requires-Dist: datasets>=3.5.0
|
|
@@ -416,6 +416,76 @@ You can evaluate this dataset directly as follows:
|
|
|
416
416
|
$ euroeval --model <model-id> --dataset belebele-da
|
|
417
417
|
```
|
|
418
418
|
|
|
419
|
+
### Unofficial: MultiWikiQA-da
|
|
420
|
+
|
|
421
|
+
This dataset will be published in an upcoming paper, and contains Danish Wikipedia
|
|
422
|
+
articles with generated questions and answers, using the LLM Gemini-1.5-pro.
|
|
423
|
+
|
|
424
|
+
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
|
|
425
|
+
256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
|
|
426
|
+
|
|
427
|
+
Here are a few examples from the training split:
|
|
428
|
+
|
|
429
|
+
```json
|
|
430
|
+
{
|
|
431
|
+
'context': 'Rødspætten (Pleuronectes platessa) er en fladfisk, der findes overalt i de danske farvande. Den er i øvrigt udbredt fra Middelhavet til Island og Hvidehavet. Den foretrækker steder, hvor bunden består af sten, sand og grus. De unge rødspætter findes på lavt vand, mens de voksne foretrækker 10-50 meters dybde. Rødspætten er en højrevendt fladfisk, idet det normalt er højre side, der under larvens forvandling bliver til overside.\n\nUdseende \nRødspætten kan blive op til 100 centimeter, men bliver i Danmark sjældent over 50 centimeter. Den kendes bedst på, at der bag øjnene løber en buet køl med 4-7 benknuder. Skællene er små og glatte og ikke taglagte. Munden er lille med ret tykke læber. Begge øjne findes normalt på fiskens højre side. På oversiden er rødspætten oftest brunlig med et grønligt skær og med spredte rødlige pletter, der ofte er omgivet af lyse eller mørke ringe. Undersiden er hvid.\n\nLevevis \nRødspætten lever især af børsteorme og tyndskallede muslinger. Den er mest aktiv i døgnets mørke timer, mens den skjuler sig på bunden om dagen. Den skifter farve efter bundens farve og struktur. Rødspættens naturlige fjender er ud over mennesket f.eks. krabber og torsk.\n\nForplantning \nHannerne bliver i Nordsøen kønsmodne 3-4 år gamle og en længde på 20 centimeter, mens hunnerne kønsmodner et par år senere. I Østersøen bliver begge køn tidligere kønsmodne. Gydningen foregår normalt i 20-50 meters dybde i perioden januar til juni. Rødspætten foretrækker en temperatur på 6\xa0°C til gydningen. Æggene er glasklare med en diameter på cirka 2 millimeter og flyder op til overfladen. Efter 2-3 uger klækkes de 6 millimeter store larver. Larverne lever af planktonorganismer og begynder efter cirka 5 uger med en længde på 1 centimeter en forvandling, hvor venstre øje vandrer op over hovedet, der vrides, og kroppen bliver bredere. Til at begynde med svømmer de små rødspætter skråt og siden med højre side opad. Med en længde på 1,2-1,4 centimeter skifter de fra et pelagisk liv til at leve på lavt vand langs kysterne. I det første efterår måler rødspætten 7-12 centimeter og trækker ud, for at overvintre på dybere vand.\n\nKilder/Henvisninger \n\n C. V. Otterstrøm (1881-1962).\xa0Danmarks Fauna. Fisk II. Blødfinnefisk. G.E.C. Gads Forlag. København 1914.\n\nFladfisk',
|
|
432
|
+
'question': 'Hvilken side af rødspætten vender typisk opad?',
|
|
433
|
+
'answers': {
|
|
434
|
+
'answer_start': array([369]),
|
|
435
|
+
'text': array(['højre side'], dtype=object)
|
|
436
|
+
}
|
|
437
|
+
}
|
|
438
|
+
```
|
|
439
|
+
```json
|
|
440
|
+
{
|
|
441
|
+
'context': 'Mzilikazi ("blodvejen" eller "den store vej" ca. 1790–9. september 1868) var en sydafrikansk konge som grundlagde matabelekongedømmet i det område, som nu er Zimbabwe. Han var søn af Matshobana og blev født nær Mkuze i Zululand (nu del af Sydafrika) og døde ved Ingama i Matabeleland (nær Bulawayo, Zimbabwe). Mange regner ham som den største sydafrikanske militærleder efter zulukongen Shaka.\n\nHan førte sin stamme, khumalo, på en 800 km lang rejse fra Zululand til det, som nu er Zimbabwe. På vejen viste han betydelige statsmandsevner, da han samlede sit eget folk og de mange stammer han erobrede, til et stort, etnisk rigt og centraliseret kongedømme.\n\nHan var oprindelig en af Shakas løjtnanter, men i 1823 gjorde han oprør. Frem for at møde rituel henrettelse, flygtede han sammen med sin stamme. Han rejste først til Mozambique og i 1826 ind i Transvaal på grund af fortsatte angreb fra sine fjender.\n\nFortsatte angreb fik ham først til at flytte til dagens Botswana og i 1837 til det, som nu er Zambia Han klarede ikke at erobre den indfødte kololo–nation der og rejste til det, som blev kendt som Matabeleland (i dagens Zimbabwe) og slog sig ned der i 1840.\n\nEfter hans ankomst organiserede han sine tilhængere i et militærsystem med regiment–kraaler som kong Shakas, som blev stærke nok til at afvise boernes angreb i 1847–1851 og tvinge den Sydfrikanske Republiks regering til at underskrive en fredsaftale med ham i 1852.\n\nMzilikazi var generelt venlig over for europæisk rejsende, førte opdagelsen af guld i Matabeleland i 1867 til en flom af bosættere, som han ikke kunne kontrollere, og som førte til kongedømmets endelige nederlag under hans efterfølger Lobengula.\n\nKongelige fra historiske riger',
|
|
442
|
+
'question': 'Med hvilket øgenavn var Mzilikazi kendt?',
|
|
443
|
+
'answers': {
|
|
444
|
+
'answer_start': array([11]),
|
|
445
|
+
'text': array(['"blodvejen" eller "den store vej"'], dtype=object)
|
|
446
|
+
}
|
|
447
|
+
}
|
|
448
|
+
```
|
|
449
|
+
```json
|
|
450
|
+
{
|
|
451
|
+
'context': 'Jean-Nicolas Bouilly (24. januar 1763 i La Coudraye ved Tours – 14. april 1842 i Paris) var en fransk forfatter. \n\nEfter at have studeret jura sluttede Bouilly sig ved revolutionens udbrud til Mirabeau og Barnave og beklædte forskellige embeder, i hvilke han navnlig virkede for indførelsen af primærskoler og for folkeoplysning i det hele taget. Senere trak han sig tilbage og vedblev at leve uafhængig til sin død. 1790 opførtes hans opéra comique Pierre le Grand, med musik af Grétry. Af hans senere dramatiske arbejder kan nævnes L\'abbé de l\'Épée(1795), Les deux journées (1800), komponeret af Cherubini, Fanchon (1802), komponeret af Himmel, L\'intrigue aux fenêtres, Une folie (1803, med musik af Méhul; på dansk ved N.T. Bruun: "Ungdom og Galskab" [1806], med musik af Du Puy), Mme. de Sévigné (1805) og så videre. Desuden oversatte han flere stykker af Kotzebue. Hans skrifter for ungdommen stod i sin tid i høj kurs; hans stil er vidtsvævende og retorisk, hans billeder skruede, hele tonen så sentimental, at han fik navnet le poète lacrymal. Af disse skrifter kan nævnes: Contes offerts aux enfants de France, Contes à ma fille (1809), Conseils à ma fille (1811) og Les jeunes femmes (1819).\n\nKilder \n\n \n\nDramatikere fra Frankrig\nFranskmænd i 1700-tallet\nFranskmænd i 1800-tallet\nSalmonsens',
|
|
452
|
+
'question': 'Med hvilke politiske personer allierede Bouilly sig ved revolutionens begyndelse?',
|
|
453
|
+
'answers': {
|
|
454
|
+
'answer_start': array([193]),
|
|
455
|
+
'text': array(['Mirabeau og Barnave'], dtype=object)
|
|
456
|
+
}
|
|
457
|
+
}
|
|
458
|
+
```
|
|
459
|
+
|
|
460
|
+
When evaluating generative models, we use the following setup (see the
|
|
461
|
+
[methodology](/methodology) for more information on how these are used):
|
|
462
|
+
|
|
463
|
+
- Number of few-shot examples: 4
|
|
464
|
+
- Prefix prompt:
|
|
465
|
+
```
|
|
466
|
+
Følgende er tekster med tilhørende spørgsmål og svar.
|
|
467
|
+
```
|
|
468
|
+
- Base prompt template:
|
|
469
|
+
```
|
|
470
|
+
Tekst: {text}
|
|
471
|
+
Spørgsmål: {question}
|
|
472
|
+
Svar med maks. 3 ord: {label}
|
|
473
|
+
```
|
|
474
|
+
- Instruction-tuned prompt template:
|
|
475
|
+
```
|
|
476
|
+
Tekst: {text}
|
|
477
|
+
|
|
478
|
+
Besvar følgende spørgsmål om teksten ovenfor med maks. 3 ord.
|
|
479
|
+
|
|
480
|
+
Spørgsmål: {question}
|
|
481
|
+
```
|
|
482
|
+
|
|
483
|
+
You can evaluate this dataset directly as follows:
|
|
484
|
+
|
|
485
|
+
```bash
|
|
486
|
+
$ euroeval --model <model-id> --dataset multi-wiki-qa-da
|
|
487
|
+
```
|
|
488
|
+
|
|
419
489
|
|
|
420
490
|
## Knowledge
|
|
421
491
|
|
|
@@ -311,8 +311,6 @@ When evaluating generative models, we use the following setup (see the
|
|
|
311
311
|
|
|
312
312
|
Beantwoord de volgende vraag over de bovenstaande tekst in maximaal 3 woorden.
|
|
313
313
|
|
|
314
|
-
Besvar følgende spørgsmål om teksten ovenfor med maks. 3 ord.
|
|
315
|
-
|
|
316
314
|
Vraag: {question}
|
|
317
315
|
```
|
|
318
316
|
|
|
@@ -390,6 +388,77 @@ $ euroeval --model <model-id> --dataset belebele-nl
|
|
|
390
388
|
```
|
|
391
389
|
|
|
392
390
|
|
|
391
|
+
### Unofficial: MultiWikiQA-nl
|
|
392
|
+
|
|
393
|
+
This dataset will be published in an upcoming paper, and contains Dutch Wikipedia
|
|
394
|
+
articles with generated questions and answers, using the LLM Gemini-1.5-pro.
|
|
395
|
+
|
|
396
|
+
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
|
|
397
|
+
256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
|
|
398
|
+
|
|
399
|
+
Here are a few examples from the training split:
|
|
400
|
+
|
|
401
|
+
```json
|
|
402
|
+
{
|
|
403
|
+
'context': 'Het Tokyo Aquatics Centre (Japans: 東京アクアティクスセンタ, Tōkyō akuatikusu sentā) is een zwembad in de Japanse hoofdstad Tokio. Het ligt in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto. De bouw begon in april 2017 en werd in februari 2020 afgewerkt. De officiële opening werd uitgesteld vanwege de coronapandemie en vond plaats op 26 oktober 2020. Het zwembad werd gebouwd voor de Olympische en Paralympische Spelen in 2020 en biedt plaats aan vijftienduizend toeschouwers. Tijdens de Olympische Spelen zullen het baanzwemmen, schoonspringen en synchroonzwemmen er plaatsvinden; het waterpolotoernooi wordt gehouden in het nabijgelegen Tokyo Tatsumi International Swimming Center.\n\nHet zwembadcomplex heeft twee zwembaden en een duikbad. Het dak werd eerst op de grond gebouwd en vervolgens geleidelijk verhoogd tot een hoogte van 37 meter. Het is 160 meter lang, 130 meter breed en 10 meter dik. Het dak weegt 7.000 ton. Het zwembad blijft na de Olympische en Paralympische spelen in gebruik als zwemarena, evenwel met een in aantal gereduceerde publiekstribune. Tevens wordt het een publiek zwembad.\n\nZwembad in Japan\nKoto\nAccommodatie tijdens de Olympische Zomerspelen 2020\nSportaccommodatie in Tokio',
|
|
404
|
+
'question': 'In welke plaats is het Tokyo Aquatics Centre gevestigd?',
|
|
405
|
+
'answers': {
|
|
406
|
+
'answer_start': array([128]),
|
|
407
|
+
'text': array(['in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto'], dtype=object)
|
|
408
|
+
}
|
|
409
|
+
}
|
|
410
|
+
```
|
|
411
|
+
```json
|
|
412
|
+
{
|
|
413
|
+
'context': 'J.F. Scholten & Zonen was een textielfabriek in Enschede\n\nOntstaansgeschiedenis\n\nDe grondlegger voor wat later J.F. Scholten & zonen zou gaan heten is de schoolmeester Tijs Lammerink. Van 1800 tot 1810 is hij schoolmeester in Usselo en drijft hij daarnaast handel met de Usselose boeren, hij koopt het door hun geweven linnen op en verkoopt dit weer. In 1808 trouwt Tijs Lammerink met Geesken ten Thij en breidt hij zijn handelaarsactiviteiten uit. Hij koopt herberg "de Swaene" van de familie Wagelaar en koopt in korte tijd nog twee panden waarin hij in 1815 een katoenspinnerij en een zwartververij begint.\n\nHuwelijk dochter\nIn 1838 huwt de dochter van Tijs Lammerink, Bertiena, met Jan Frederik Scholten. Deze wordt opgenomen in het bedrijf van zijn schoonvader om het na diens overlijden alleen voort te zetten. De fabriek wordt getroffen door de stadsbrand van Enschede (1862) en vanaf dat moment besluit J.F. Scholten zijn werkzaamheden voort te zetten met zijn drie zonen Jan, Gijs en Theunis. Ze vernieuwen de spinnerij en maken hem stoomgedreven, en daarmee klaar voor de toekomst. De merknaam die ze blijven voeren is "De Swan" naar de naam van de herberg waarin Tijs Lammerink zijn werkzaamheden begon.\n\nZonen\nOok oudste zoon Jan krijgt een aantal zonen waarmee het voortbestaan van de fabriek wordt gewaarborgd. Na 1889 worden de zoons van Jan Scholten, te weten Jan Fredrik Scholten (1867-1943), Jan Bernard Scholten (1870-1947) en Julius Scholten (1871-1969) geleidelijk in de firma opgenomen.\nDe lijn wordt voortgezet in 1931 en 1934 wanneer de zoons van Julius Scholten, respectievelijk Jan Scholten (1903) en Jan Fredrik Scholten (1910) als firmanten in het bedrijf worden opgenomen.\n\nNaamloze Vennootschap en overname\nIn 1936 wordt de firma omgezet in een naamloze vennootschap. Er werden goederen gefabriceerd voor de binnenlandse markt en stapelartikelen voor Nederlands-Indië op consignatie-basis. In 1956 werden de N.V. Katoenfabrieken v/h Arntzenius Jannink & Co. te Goor door J.F. Scholten & Zonen N.V. overgenomen.\n\nAfbraak\nIn 1977 wordt de fabriek afgebroken. Op de plaats staat nu het Medisch Spectrum Twente\n\nGeschiedenis van Enschede\nEconomie in Enschede\nVoormalig Nederlands textielbedrijf',
|
|
414
|
+
'question': 'Welke logement verwierf Lammerink van de familie Wagelaar?',
|
|
415
|
+
'answers': {
|
|
416
|
+
'answer_start': array([467]),
|
|
417
|
+
'text': array(['"de Swaene"'], dtype=object)
|
|
418
|
+
}
|
|
419
|
+
}
|
|
420
|
+
```
|
|
421
|
+
```json
|
|
422
|
+
{
|
|
423
|
+
'context': "Een haardplaat is een metalen plaat achter of onder een open haard, meestal van gietijzer.\n\nToelichting\n\nFunctie van een haardplaat\nHaardplaten achter in de haard zijn bedoeld om warmte te verspreiden, haardplaten onder de haard om vonken op te vangen en zo brand te voorkomen. De meeste nog bewaarde haardplaten - in Nederland zijn er nog duizenden - zijn versierd met een beeltenis.\n\nEen open haard heeft een rendement van zo'n 10 tot 15%, wat betekent dat 85 tot 90 % van de warmte via de schoorsteen verloren gaat. Met een haardplaat achter de haard kan het rendement van een open haard worden verbeterd. Een haardplaat achter het vuur van de open haard neemt warmte op en straalt deze weer uit. Hoe dikker de plaat, hoe sterker de werking. Het rendement van een open haard kan met een haardplaat tot 50% verbeterd worden.\n\nGeschiedenis van de haardplaat\n\nHaardplaten deden hun intrede in de 15e eeuw. Voor die tijd bestond de achterkant van een open haard uit steen. Enkele haardplaten werden vooral gebruikt in Engeland, Frankrijk en Nederland. In Duitsland werden ook wel haardplaten gebruikt, vooral in de Eifel, maar in de rest van Duitsland zag men vooral haardkasten, dit waren meerdere haardplaten die met lijsten aan elkaar verbonden waren en zo een kast vormden. Deze haardkasten waren ook algemeen in de Scandinavische landen. Later werden de platen voor deze kachelkasten van keramiek gemaakt en ontstond de tegelkachel die in Duitsland, Scandinavië en Oost-Europa zeer algemeen was en hier en daar nog is.\n\nHaardplaten en kachelplaten ontstonden ongeveer gelijk en hebben hun oorsprong in de Eiffel en Elzas. De gietijzeren platen werden gegoten in een zandbed. Aanvankelijk waren de platen eenvoudig, maar al snel werden er houtsneden of stempels in het zandbed gedrukt waardoor de plaat een reliëf kreeg. Naarmate de vraag naar haard- en kachelplaten toenam werden de reliëfs verfraaid; later ontstonden complete taferelen. De versiering van haardplaten kent vele thema's: Bijbelse taferelen, allegorische voorstellingen, familiewapens, portretten, herdenkingen enz. De taferelen werden meestal gesneden naar het voorbeeld van prenten of gravures uit die tijd. Ook waren er modellenboeken in omloop. Er zijn maar weinig kunstenaars die zich specifiek richtten op haardplaten. Gelet op de versieringen zijn de Nederlandse haardplaten uit de 17e eeuw het meest opmerkelijk. Een haardplaat uit deze periode is te herkennen aan rijke versieringen rond een middentafereel. De versieringen bestonden vaak uit dolfijnen, slangen, salamanders, zeenimfen en schelpen. De zijkanten waren omrand met bloemen, bladeren en vruchten. De Duitse platen uit die tijd zijn veel soberder, meer rechttoe rechtaan. Ook de vorm van de Nederlandse en Duitse platen verschilden, de Nederlandse platen hebben meestal een ronde vorm aan de bovenkant terwijl de Duitse platen recht zijn.\n\nNederland heeft het Haardplatenmuseum in Klarenbeek. Sommige musea hebben wel bijzondere haardplaten in bezit zoals Museum De Waag in Deventer en het Rijksmuseum in Amsterdam. De grootste Europese collectie haardplaten - circa 400 stuks - is te vinden in het stadhuis van Düsseldorf, Duitsland.\n\nOnderhoudstips voor de haardplaat\nHaardplaten slijten vrijwel niet. Eventuele roest kan met een staalborstel verwijderd worden. Vroeger werden de platen ook wel gezandstraald, maar hierbij verloren versierde platen veel van hun oorspronkelijke reliëf. Tegenwoordig bestaan er meer verfijnde straaltechnieken waarmee bijvoorbeeld verf en roest van een plaat kan worden verwijderd. Stralen wordt door gespecialiseerde bedrijven gedaan omdat de straalmethode, het straalmiddel, de druk en de grootte van de korrel het resultaat bepalen. Ondeskundig stralen kan de plaat beschadigen. Na het schoonmaken kan de plaat het best worden ingesmeerd met kachelpoets. Sommige mensen maken de plaat schoon met petroleum. Dit middel is echter ongeschikt, de plaat wordt er blijvend dof van.\n\nExterne links\n Tour stadhuis Düsseldorf\n Haardplaten in musea\n Voorbeelden van oude haardplaten met hun symbolen\n\nBouwkundig onderdeel\nVerwarming",
|
|
424
|
+
'question': 'Hoe efficiënt is een open haard als er geen haardplaat gebruikt wordt?',
|
|
425
|
+
'answers': {
|
|
426
|
+
'answer_start': array([425]),
|
|
427
|
+
'text': array(["zo'n 10 tot 15%"], dtype=object)
|
|
428
|
+
}
|
|
429
|
+
}
|
|
430
|
+
```
|
|
431
|
+
|
|
432
|
+
When evaluating generative models, we use the following setup (see the
|
|
433
|
+
[methodology](/methodology) for more information on how these are used):
|
|
434
|
+
|
|
435
|
+
- Number of few-shot examples: 4
|
|
436
|
+
- Prefix prompt:
|
|
437
|
+
```
|
|
438
|
+
Hieronder volgen teksten met bijbehorende vragen en antwoorden.
|
|
439
|
+
```
|
|
440
|
+
- Base prompt template:
|
|
441
|
+
```
|
|
442
|
+
Tekst: {text}
|
|
443
|
+
Vraag: {question}
|
|
444
|
+
Antwoord in max 3 woorden: {label}
|
|
445
|
+
```
|
|
446
|
+
- Instruction-tuned prompt template:
|
|
447
|
+
```
|
|
448
|
+
Tekst: {text}
|
|
449
|
+
|
|
450
|
+
Beantwoord de volgende vraag over de bovenstaande tekst in maximaal 3 woorden.
|
|
451
|
+
|
|
452
|
+
Vraag: {question}
|
|
453
|
+
```
|
|
454
|
+
|
|
455
|
+
You can evaluate this dataset directly as follows:
|
|
456
|
+
|
|
457
|
+
```bash
|
|
458
|
+
$ euroeval --model <model-id> --dataset multi-wiki-qa-nl
|
|
459
|
+
```
|
|
460
|
+
|
|
461
|
+
|
|
393
462
|
## Knowledge
|
|
394
463
|
|
|
395
464
|
### MMLU-nl
|
|
@@ -356,6 +356,77 @@ $ euroeval --model <model-id> --dataset belebele-en
|
|
|
356
356
|
```
|
|
357
357
|
|
|
358
358
|
|
|
359
|
+
### Unofficial: MultiWikiQA-en
|
|
360
|
+
|
|
361
|
+
This dataset will be published in an upcoming paper, and contains English Wikipedia
|
|
362
|
+
articles with generated questions and answers, using the LLM Gemini-1.5-pro.
|
|
363
|
+
|
|
364
|
+
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
|
|
365
|
+
256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
|
|
366
|
+
|
|
367
|
+
Here are a few examples from the training split:
|
|
368
|
+
|
|
369
|
+
```json
|
|
370
|
+
{
|
|
371
|
+
'context': "Stagecoach in Norfolk (formerly Norfolk Green) was a bus operator based in King's Lynn in Norfolk, England. It operated public bus services in the counties of Norfolk, Cambridgeshire and Lincolnshire as well as numerous school and college services. It was a subsidiary of Stagecoach.\n\nIn April 2018, Stagecoach ceased operations in Norfolk. Services were taken over by First Norfolk & Suffolk, Lynx, Sanders Coaches, Stagecoach in Peterborough (the Interconnect 505) and West Norfolk Community Transport.\n\nHistory\n\nNorfolk Green was formed in 1996 with a fleet of four buses. In 1999 the Saham Toney depot was sold to Konectbus with four coaches.\n\nIn April 2011, Norfolk Green purchased the King's Lynn based services of First East England.\n\nOn 17 December 2013, Norfolk Green was sold to Stagecoach following the retirement of Ben Colson after ill health. Unusually, Stagecoach did not immediately apply its corporate brand, but retained the Norfolk Green trading name and livery, although the fleet received Stagecoach fleet numbers. All buses were rebranded between 2015 and late 2017.\n\nIn January 2018, Stagecoach announced it was reviewing its operations in Norfolk in response to the challenging economic environment, blaming a combination of rising operating costs and pressure on public sector budgets. The company said it met with trade union representatives to minimise the impact on staff and launched a consultation with employees over the potential closure of its King's Lynn depot. The company hoped to relocate the majority of its staff with other operators or elsewhere within the Stagecoach East area, which includes Bedford, Cambridge, Huntingdon and Peterborough.\n\nRoutes\nRoutes operated by Stagecoach Norfolk included the very popular Coasthopper services between King's Lynn and Cromer, the Interconnect 505 between King's Lynn and Spalding, a town service network in King's Lynn, a city service in Ely and many rural and interurban bus services across Norfolk, Cambridgeshire and Lincolnshire.\n\nFleet\nAs at July 2013, the fleet consisted of 74 buses. Fleet livery is two tone green. Twelve Optare Solo Slimlines wear a dark blue, yellow and green livery for the Coasthopper group of services. A large proportion of buses are also named after local characters and personalities.\n\nUpon Stagecoach's purchase of Norfolk Green, in the summer of 2016 Stagecoach Norfolk went onto replace the fleet of Coasthopper Optare Solo's with Alexander Dennis Enviro200s. In addition, and later on, they purchased brand new Optare Solos. These new buses feature a new updated Coasthopper 'Flying Kite' livery, free Wi-Fi, USB charging points and leather seating.\n\nReferences\n\nExternal links\n\nCompany website\n\nStagecoach Group bus operators in England\nTransport companies established in 1966\nTransport companies disestablished in 2018\n1996 establishments in England\n2018 disestablishments in England\nBritish companies established in 1996\nBritish companies disestablished in 2018\nFormer bus operators in Norfolk\nFormer bus operators in Cambridgeshire\nFormer bus operators in Lincolnshire",
|
|
372
|
+
'question': 'What is the date of formation of Norfolk Green?',
|
|
373
|
+
'answers': {
|
|
374
|
+
'answer_start': array([543]),
|
|
375
|
+
'text': array(['1996'], dtype=object)
|
|
376
|
+
}
|
|
377
|
+
}
|
|
378
|
+
```
|
|
379
|
+
```json
|
|
380
|
+
{
|
|
381
|
+
'context': "Lara Stalder (born 15 May 1994) is a Swiss ice hockey forward and member of the Swiss national ice hockey team, currently playing with Brynäs IF Dam of the Swedish Women's Hockey League (SDHL). She played with the Minnesota Duluth Bulldogs women's ice hockey team from 2013 to 2017, and with Linköping HC from 2017 to 2019.\n\nPlaying career \nAcross four seasons with Minnesota-Duluth, Stalder put up 148 points in 134 games, leading the team in points in her final season, as well as being named WCHA Player of the Year and Student-Athlete of the Year, and being a top-three finalist for the Patty Kazmaier Award. In 2016, she was drafted 20th overall by the Boston Pride of the National Women's Hockey League (NWHL).\n\nAfter missing most of the 2018–19 season due to a shoulder injury, Stalder left Linköping to sign with Brynäs. In 2020, she was named SDHL Player of the Year after putting up 71 points in 36 games, being the first woman to win Guldhjälmen. The 42 goals she would score that year is the second highest single-season total in SDHL history, and her 71 points the third highest single-season total in SDHL history.\n\nInternational \nStalder made her senior national team debut at the 2011 IIHF Women's World Championship. She has represented Switzerland at the Winter Olympics in 2014 and won the bronze medal after defeating Sweden in the bronze medal playoff. She would score 6 points in 6 games at the 2018 Winter Olympics, as Switzerland finished in 5th place.\n\nCareer statistics\n\nAwards and honors\n\nNCAA\nWCHA Offensive Player of the Week (Week of 17 January 2017)\nWCHA Offensive Player of the Week (Week of 24 January 2017)\nWCHA Offensive Player of the Week (Week of 31 January 2017)\nWCHA Offensive Player of the Month, January 2017\nWomen's Hockey Commissioners' Association National Division I Player of the Month, January 2017\nPatty Kazmaier Award Top-3 Finalist, 2016–17 season\n2016-17 AHCA-CCM Women's University Division I First-Team All-American\n\nSDHL \n\n Guldhjälmen (Golden Helmet), MVP of the SDHL as selected by players, 2019–20 season\n SDHL Forward of the Year, 2019–20 season\n\nReferences\n\nExternal links\n\nMinnesota Duluth bio\n\n1994 births\nLiving people\nSportspeople from Lucerne\nSwiss women's ice hockey forwards\nIce hockey players at the 2014 Winter Olympics\nIce hockey players at the 2018 Winter Olympics\nIce hockey players at the 2022 Winter Olympics\nOlympic bronze medalists for Switzerland\nOlympic ice hockey players for Switzerland\nOlympic medalists in ice hockey\nMedalists at the 2014 Winter Olympics\nBrynäs IF (women) players\nLinköping HC (women) players\nMinnesota Duluth Bulldogs women's ice hockey players\nSwiss expatriate ice hockey people\nSwiss expatriate sportspeople in Sweden\nSwiss expatriate sportspeople in the United States",
|
|
382
|
+
'question': 'Which SDHL award did Lara Stalder receive during the 2019-2020 season?',
|
|
383
|
+
'answers': {
|
|
384
|
+
'answer_start': array([945]),
|
|
385
|
+
'text': array(['Guldhjälmen'], dtype=object)
|
|
386
|
+
}
|
|
387
|
+
}
|
|
388
|
+
```
|
|
389
|
+
```json
|
|
390
|
+
{
|
|
391
|
+
'context': 'TCG Barbaros (F 244) is the lead ship of of the Turkish Navy.\n\nDevelopment and design \n\nBarbaros-class frigates were designed in Germany and are part of the MEKO group of modular warships, in this case the MEKO 200 design. Two ships were built in Germany and two in Turkey with German assistance. They are larger than the previous s and are also faster due to using CODOG machinery rather than pure diesels.\n\nThe first two vessels (F 244 and F 245) are defined as the Barbaros class (MEKO 200 TN Track II-A) while the last two vessels (F 246 and F 247) are defined as the Salih Reis class (MEKO 200 TN Track II-B) by the Turkish Navy.\n\nSalih Reis subclass ships are built with 8-cell Mk. 41 VLS and longer than Barbaros class vessels to accommodate 16-cell Mk. 41 VLS upgrade in the future while Barbaros-class vessels built with Mk.29 Sea Sparrow launchers that planned to be replaced by 8-cell Mk. 41 VLS.\n\nConstruction and career \nBarbaros was launched on 29 September 1993 by Blohm+Voss in Hamburg and commissioned on 23 May 1997.\n\nOn 9 March 2019, her crew saluted to the tomb of Barbaros Hayreddin while crossing Bosporus.\n\nOn 26 August 2020, TCG Barbaros and sailed alongside in Eastern Mediterranean Sea. Later that year on 3 October, she underwent alongside USS Roosevelt.\n\nReferences\n\nExternal links\n\n The First Upgraded MEKO 200 Frigate Of Turkish Navy\n BARBAROS CLASS ( MEKO 200 Track II) (Turkey)\n\n1993 ships\nShips built in Germany\nFrigates of the Turkish Navy\nBarbaros-class frigates of the Turkish Navy',
|
|
392
|
+
'question': 'Could you tell me about the MEKO group?',
|
|
393
|
+
'answers': {
|
|
394
|
+
'answer_start': array([172]),
|
|
395
|
+
'text': array(['modular warships'], dtype=object)
|
|
396
|
+
}
|
|
397
|
+
}
|
|
398
|
+
```
|
|
399
|
+
|
|
400
|
+
When evaluating generative models, we use the following setup (see the
|
|
401
|
+
[methodology](/methodology) for more information on how these are used):
|
|
402
|
+
|
|
403
|
+
- Number of few-shot examples: 4
|
|
404
|
+
- Prefix prompt:
|
|
405
|
+
```
|
|
406
|
+
The following are texts with accompanying questions and answers.
|
|
407
|
+
```
|
|
408
|
+
- Base prompt template:
|
|
409
|
+
```
|
|
410
|
+
Text: {text}
|
|
411
|
+
Question: {question}
|
|
412
|
+
Answer in max 3 words:
|
|
413
|
+
```
|
|
414
|
+
- Instruction-tuned prompt template:
|
|
415
|
+
```
|
|
416
|
+
Text: {text}
|
|
417
|
+
|
|
418
|
+
Answer the following question about the above text in at most 3 words.
|
|
419
|
+
|
|
420
|
+
Question: {question}
|
|
421
|
+
```
|
|
422
|
+
|
|
423
|
+
You can evaluate this dataset directly as follows:
|
|
424
|
+
|
|
425
|
+
```bash
|
|
426
|
+
$ euroeval --model <model-id> --dataset multi-wiki-qa-en
|
|
427
|
+
```
|
|
428
|
+
|
|
429
|
+
|
|
359
430
|
## Knowledge
|
|
360
431
|
|
|
361
432
|
### Life in the UK
|
|
@@ -351,3 +351,74 @@ You can evaluate this dataset directly as follows:
|
|
|
351
351
|
```bash
|
|
352
352
|
$ euroeval --model <model-id> --dataset foqa
|
|
353
353
|
```
|
|
354
|
+
|
|
355
|
+
|
|
356
|
+
### Unofficial: MultiWikiQA-fo
|
|
357
|
+
|
|
358
|
+
This dataset will be published in an upcoming paper, and contains Faroese Wikipedia
|
|
359
|
+
articles with generated questions and answers, using the LLM Gemini-1.5-pro.
|
|
360
|
+
|
|
361
|
+
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
|
|
362
|
+
256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
|
|
363
|
+
|
|
364
|
+
Here are a few examples from the training split:
|
|
365
|
+
|
|
366
|
+
```json
|
|
367
|
+
{
|
|
368
|
+
'context': 'Ali Babba- og 49 aðrar blaðgreinir er eitt savn við fimmti greinum, ið Høgni Mohr hevur skrivað og latið prentað í Dimmalætting og Vinnuvitan frá desember 2004 til februar 2006.\n\nSøgugongd \nGreinasavnið snýr seg um fólk, sum búgva í Føroyum, og onnur, ið hava tilknýti til hetta landið, men búgva uttanlands. Tekstirnir hava sum innihald trý eyðkend sløg av menniskjum: tey ávísu ókendu, sum standa aftan fyri tey kendu; onnur, ið eru mitt í einum serliga spennandi starvi; og hini, ið virka fremst í vinnulívinum. Savnið er sostatt grundað á tríggjar greinarøðir, ið júst eru greiddar úr hondum eftir hesum trimum leistum.\n\nLes eisini \nMohr, Høgni (2010) Tá deyðin verður avdúkaður. Øgiliga egið forlag. ISBN 9789991880518Styrkin í bókini er tann beinrakna tekstin, tær hugtakandi, men knøppu orðingarnar, miðlingin av sterkum menniskjaligum kenslum, stúran, gleði, ótta og sorg, og so tann einfalda, positiva mennsikjafatanin \xa0- Erhard Jacobsen, ummælari.Mohr, Høgni (2017) Fractura nasi. Øgiliga egið forlag. ISBN 9789991880525. Kirsten Brix týtt til danskt 2019. Danskt heiti Rejse for livet. forlag Amanda Books. Seld til filmframleiðslu í 2018.Hon er í passandi flogferð, skrivingin. Floygd, sum eingin annar tekstur eg nýligani havi lisið. Síðst eg kendi meg so væl í felag við hin skrivandi var, tá eg læs Bommhjarta hjá Jóanesi Nielsen, sum kom í fjør. Ein smittandi respektleys søga, sum hemningsleys gongur sínar egnu leiðir. Men aftanfyri hómast ein leitan eftir egnum upphavi. Hví bleiv eg sum eg bleiv, er skuggaspurningur høvundans \xa0- Birgir Kruse, ummælari.Mohr, Høgni (2018) Slepp tær til heiti fani. Øgiliga egið forlag. ISBN 9789991880532. Tekningar: Astrid Andreasen.Tað smakkar bara so væl at lesa hasi orðini. Ikki tí eg havi nakað ímóti Gerhardi ella Javnaðarflokkinum í Avhaldslosjuni, men bara tí at eg síggi spælandi orðalagið, sum ikki er eitt stívrent kvæðaørindi at fáa bókstavarím til skúlabrúks, men beint fram brúksføroyskt loyst úr lagdi \xa0- Birgir Kruse, ummælari.Mohr, Høgni (2019) mær dámar ikki høgna hoydal. Øgiliga egið forlag. ISBN 9789991880549\n\nTýtt og ritstjórnað \n2006 - Askur og Embla (týtt), Bókadeild Føroya lærarafelags, 204 síður.\n\n2013 - Sannleikin um ástarævintýrið (týtt og ritstjórnað), Øgiliga egið forlag, 35 síður.\n\nKeldur',
|
|
369
|
+
'question': 'Hvør er útgávandi av bókini "Mær dámar ikki Høgna Hoydal?"',
|
|
370
|
+
'answers': {
|
|
371
|
+
'answer_start': array([684]),
|
|
372
|
+
'text': array(['Øgiliga egið forlag'], dtype=object)
|
|
373
|
+
}
|
|
374
|
+
}
|
|
375
|
+
```
|
|
376
|
+
```json
|
|
377
|
+
{
|
|
378
|
+
'context': 'Ævintýr eru sum skaldskaparslag munnbornar søgur um vanlig folk í einum yvirnatúrligum heimi. Heitið veður nýtt um fleiri sløg av søgum, ið als ikki øll hava sama yivrnatúrliga innihald. Antti Aarne og Stith Thompson hava gjørt eina skrá yvir heimsins ævintýr. Har eru tey skift sundur í 5 høvuðsbólkar ella týpur. Sum annar munnborin skaldskapur hava ævintýrini ongan kendan høvund ella upprunaligan form. Tey kennast aftur eftir greining av søgugongd og innihaldi, og á tann hátt hava Aarne og Thompson skift tey sundur í týpur hvørja við sínum nummari og stavunum AT frammanfyri. Hesar týpur og høvuðsbólkar eru: I Djóraævintýr (AT 1-299), II Eginlig ævintýr (AT 300-1199), III Skemtiævintýr (AT 1200-1999), IV Formilævintýr (AT 2000-2399) og V Ymisk ævintýr (AT 2400.2499). Hesin seinasti bólkurin umfatar tey ævintýr, ið høvundarnir ikki fingu at hóska til hinar bólkarnar. \n\nÍ øllum vanligum brúki verður oftast hugsað um søgurnar í bólki II, tá talan er um ævintýr. Serstakliga kanska undirbólk A, ið verður kallaður Gandaævintýr (AT 300-749). Í hesum bólki eru m.a. tær væl kendu søgurnar um ein fátækan drong, ið bjargar eini prinsessu, sum trøll við níggju høvdum ella onkur onnur yvirnatúrlig vera hevur tikið; í endanum giftist drongurin við prinsessuni og verður kongur. Ella eina fátæka gentu, ið bjargar einum prinsi, sum ofta er umskaptur til okkurt andskræmiligt, og síðani giftist við honum og gerst drotning. Øll liva síðani lukkuliga. \n\nHóast ævintýr sum skaldskaparslag upprunaliga eru munnbornar søgur, kenna vit tey nú í tíðini best og ivaleyst bert úr ritstjórnaðum, prentaðum útgávum. Charles Perrault (1628-1703) var hin fyrsti at geva út eitt savn við søgum, ið eru ritstjórnað ævintýr. Bókin kom í 1697 og nenvdist Søgur og frásagnir úr farnum tíðum við undirheitinum "Gásamóðir sigur frá" (Les Contes de ma Mère l’Oye). Millum søgurnar í hesum savni eru so víðagitnar søgur sum Reyðhetta, Tornarósa og Øskufía. Perrault óttaðist bókmentaliga og mentanarliga smakkin í tíðini, lagaði søgurnar til, sum honum tókti best og gav tær út í navninum á 10 ára gamla syni sínum. Bókin gjørdist ómetaliga væl umtókt og var sum frá leið týdd til flestøll fjølment evropeisk mál. Seinni fóru fólk aðrastaðni at savna og skriva upp ævintýr, og summpart við beinleiðis fyrimynd í søgunum hjá Perrault komu serliga í 19. øld fleiri kend søvn við ritstjórnaðum ævintýrum. Kendast eru ævintýrini hjá týskarunum Jacob og Wilhelm Grimm. Eisini í Norðurlondum vaks áhugin, og millum kendastu útgávur eru tær hjá Ewald Tang Christensen í Danmark, Asbjørnsen og Moe í Noregi, og Jóni Árnasyni í Íslandi. \n\nÍ Føroyum tók Jakob Jakobsen tráðin upp, og í árunum 1898-1901 gav hann út savn sítt við føroyskum sagnum og ævintýrum. Eisini hann ritstjórnaði søgurnar, sum hann savnaði, so vit kunnu siga, at soleiðis sum vit lesa tær hjá honum, hava tær ikki verið sagdar honum. Hansara ritstjórnan er mest av málsligum slag. Hann flytur munnliga frásøgn í skrift við teimum tillagingum, ið tá eru neyðugar, og hartil reinsar hann frásøgnina fyri útlendskan málburð. Mangt bendir á, at ævintýr valla eru gamal skaldskapur í Føroyum. Tað tykist, sum tey eru komin í munnliga frásøgn í Føroyum eftir fólksligum, einahelst donskum útgávum. Men sum væntandi er í munnligari søgulist, hava fólk lagað tey til so við og við, so tey ofta hava føroyskan dám í mongum lutum. Summi teirra eru tó ivaleyst gomul í Føroyum.\n\nKeldur \n\n Kirsten Brix: "Drongurin, ið burturtikin varð av sjótrøllakonginum", Varðanum bd. 59 1992, s. 188-219. \n Jakob Jakobsen: Færøske Folkesagn og Æventyr 1899-1901.\n\nÆvintýr\nFólkaminni',
|
|
379
|
+
'question': 'Hvat var heitið á bókini eftir Charles Perrault?',
|
|
380
|
+
'answers': {
|
|
381
|
+
'answer_start': array([1743]),
|
|
382
|
+
'text': array(['Søgur og frásagnir úr farnum tíðum við undirheitinum "Gásamóðir sigur frá" (Les Contes de ma Mère l’Oye)'], dtype=object)
|
|
383
|
+
}
|
|
384
|
+
}
|
|
385
|
+
```
|
|
386
|
+
```json
|
|
387
|
+
{
|
|
388
|
+
'context': 'Trøllakampar (frøðiheiti Asplenium) hoyra til tann bólkin av plantum, ið verður kallaður blómuleysar plantur. Tað finnast 20.000 sløg av trøllakampum í heiminum, og er hetta slagríkasta fylki, aftaná fylkið við blómuplantum, ið telur 250.000 sløg. Flestu sløgini av trøllakampum finnast í tropunum og trívast best har vátt er. Trøllakampar verða mettir at vera "primitivt" plantuslag, ið er nær í ætt við upprunaplanturnar. Teir hava ikki blómur og seta ikki fræ, men nørast við grókornum, ið hjá summum trøllakampum sita í gróhópum aftanfyri á blaðnum, vardir av einum skjøldri, sum opnar seg, tá grókornini eru búgvin, so at tey kunnu spjaðast. Hjá øðrum sita teir á blaðkantinum, sum er rullaður inneftir, so leingi grókornini ikki eru búgvin. \n\nSummi trøllakampasløg hava tvey sløg av bløðum, eitt slag ið er “sterilt” og eitt sum er “fertilt”. Tað “fertila” blaðið kann hjá summum sløgum vera heilt ymiskt frá tí “sterila”. Trøllakampur kann hava grókorn í milliónatali, men bert fáar nýggjar plantur koma burturúr. Bløðini hava ymiskt skap. Tey kunnu verða innskorin eina, tvær og fleiri ferðir ella als ikki innskorin. Við sínum sermerkta vakstrarlagi líkist trøllakampur, áður enn hann er fullvaksin, einum fiólhøvdi ella tí evsta á fiólini.\n\nÚtbreiðsla\n\nTrøllakampar vóru nógv vanligari í Føroyum, áðrenn fólk settu búgv her. Hetta prógva sákornskanningar. Vøksturin í Føroyum er sum heild ávirkaður av seyðabiti, og hevur hann verið tað, síðan fólk settu búgv her. Seyðurin legðist beinanvegin eftir tí fruktagóða gróðri, sum landið var avvaksið við. Hesin gróðurin hvarv eftir stuttari tíð og broyttist til tættbitna gróðurin, sum vit kenna í dag. Sáðkornskanningar vísa, at trøllakampar sum heild fóru nógv aftur aftan á landnám. Teir eru av elstu plantusløgum á jørð og vuksu her fyri meira enn 300 mió árum síðan. Í koltíðini vuksu trøllakampur, javni og bjølluvísa sum stórir skógir.\n\nIkki allastaðni er seyður sloppin framat at bíta. Tí sæst enn tann mest upprunaligi gróðurin í gjáum og bakkum, har seyður ikki er sloppin framat. Her er gróðurin stórur og fjølbroyttur, og kanningar bera prógv um, at hann hevur verið støðugur í langa tíð av teirri orsøk, at seyður og fólk ikki sluppu framat. Av teimum trøllakampum, ið eru vanligir í Føroyum, eru fyrst og fremst tann stórvaksni trøllakalskampurin, tann heldur fínari mjúki kvennkampurin og dimmgrøni ekstur blóðkampurin. Hesir trøllkampar eru nógv vanligari í londunum sunnan fyri enn norðan fyri okkum.\n\nFleiri sløg av trøllakampum finnast í brattlendi. Lættast er at fáa eyga á tann stórvaksna trøllakallskampin og tann næstan líka stórvaksna mjúka kvennkampin. Sáðkornskanningar hava víst, at útbreiðslan av trøllakampum minkaði ógvuliga nógv, tá ið fólk settu búgv í Føroyum og høvdu húsdjór síni við sær.\n\nFimtan sløg av trøllakampum finnast í Føroyum. Flestu av teimum dámar best at vaksa í klettarivum, har vátt og skuggi er - men eisini í grýtutum lendi, brattlendi og gjáum. Ein tann mest vanligi trøllakampurin í Føroyum er fínur klettakampur, meðan svartur trøllakampur og strálhærdur trøllakampur eru sera sjáldsamir og bert finnast á einum stað. \n\nÍ 2007 varð nýtt trøllakampaslag funnið í brattlendi í Norðuroyggjum. Hetta er tungutrøllakampur (Asplenium scolopendrium). Hesin trøllakampur er eisini sjáldsamur í hinum Norðurlondunum.\n\nKelda\n Stamps.fo\n\nSí eisini\n Plantulívið í Føroyum\n\nPlantur í Føroyum\nPlantur',
|
|
389
|
+
'question': 'Hvussu mong trøllakamps sløg eru til í Føroyum?',
|
|
390
|
+
'answers': {
|
|
391
|
+
'answer_start': array([2782]),
|
|
392
|
+
'text': array(['Fimtan'], dtype=object)
|
|
393
|
+
}
|
|
394
|
+
}
|
|
395
|
+
```
|
|
396
|
+
|
|
397
|
+
When evaluating generative models, we use the following setup (see the
|
|
398
|
+
[methodology](/methodology) for more information on how these are used):
|
|
399
|
+
|
|
400
|
+
- Number of few-shot examples: 4
|
|
401
|
+
- Prefix prompt:
|
|
402
|
+
```
|
|
403
|
+
Hetta eru tekstir saman við spurningum og svar.
|
|
404
|
+
```
|
|
405
|
+
- Base prompt template:
|
|
406
|
+
```
|
|
407
|
+
Tekstur: {text}
|
|
408
|
+
Spurningur: {question}
|
|
409
|
+
Svara við í mesta lagi trimum orðum: {label}
|
|
410
|
+
```
|
|
411
|
+
- Instruction-tuned prompt template:
|
|
412
|
+
```
|
|
413
|
+
Tekstur: {text}
|
|
414
|
+
|
|
415
|
+
Svara hesum spurninginum um tekstin uppiyvir við í mesta lagi trimum orðum.
|
|
416
|
+
|
|
417
|
+
Spurningur: {question}
|
|
418
|
+
```
|
|
419
|
+
|
|
420
|
+
You can evaluate this dataset directly as follows:
|
|
421
|
+
|
|
422
|
+
```bash
|
|
423
|
+
$ euroeval --model <model-id> --dataset multi-wiki-qa-fo
|
|
424
|
+
```
|
|
@@ -208,6 +208,7 @@ $ euroeval --model <model-id> --dataset scala-fi
|
|
|
208
208
|
## Reading Comprehension
|
|
209
209
|
|
|
210
210
|
### TydiQA-fi
|
|
211
|
+
|
|
211
212
|
This question-answering dataset was published in [this
|
|
212
213
|
paper](https://aclanthology.org/2020.tacl-1.30/). TydiQA is a multilingual dataset
|
|
213
214
|
covering 11 typologically diverse languages with 204K question-answer pairs collected
|
|
@@ -234,7 +235,7 @@ Here are a few examples from the training split:
|
|
|
234
235
|
"answer_start": [59]
|
|
235
236
|
}
|
|
236
237
|
}
|
|
237
|
-
|
|
238
|
+
```
|
|
238
239
|
```json
|
|
239
240
|
{
|
|
240
241
|
"question": "Milloin Cristiano Ronaldo liittyi Juventukseen?",
|
|
@@ -353,6 +354,77 @@ $ euroeval --model <model-id> --dataset belebele-fi
|
|
|
353
354
|
```
|
|
354
355
|
|
|
355
356
|
|
|
357
|
+
### Unofficial: MultiWikiQA-fi
|
|
358
|
+
|
|
359
|
+
This dataset will be published in an upcoming paper, and contains Finnish Wikipedia
|
|
360
|
+
articles with generated questions and answers, using the LLM Gemini-1.5-pro.
|
|
361
|
+
|
|
362
|
+
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
|
|
363
|
+
256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
|
|
364
|
+
|
|
365
|
+
Here are a few examples from the training split:
|
|
366
|
+
|
|
367
|
+
```json
|
|
368
|
+
{
|
|
369
|
+
'context': 'Aarne Silvio Heikinheimo (20. maaliskuuta 1894 Tornio – 24. tammikuuta 1938) oli suomalainen jääkärikenraalimajuri. Hänen vanhempansa olivat ylimetsänhoitaja Johan Henrik Heikel ja Sally Armida Thauvón. Hänet vihittiin avioliittoon vuonna 1919 Sylvi Amalia Jurveliuksen kanssa.\n\nOpinnot\nHeikinheimo kirjoitti ylioppilaaksi Oulun suomalaisesta yhteiskoulusta vuonna 1913 ja liittyi Pohjois-Pohjalaiseen Osakuntaan. Opintojaan hän jatkoi Teknillisen korkeakoulun koneinsinööriosastolla vuosina 1913–1914. Hän seurasi opetusta Sotakorkeakoulun komentajakurssilla vuonna 1925 ja kävi Sotakorkeakoulun yleisen osaston vuosina 1926–1927.\n\nJääkäriaika\nHän liittyi yhtenä ensimmäisten vapaaehtoisten joukkoon, jonka päämääränä oli Saksassa sotilaskoulutusta antava Pfadfinder-kurssi, joka järjestettiin Pohjois-Saksassa sijaitsevalla Lockstedter Lagerin harjoitusalueella. Leirille hän ilmoittautui 25. helmikuuta 1915. Hänet sijoitettiin joukon 1. komppaniaan. Myöhemmin hänet sijoitettiin Kuninkaallisen, Preussin Jääkäripataljoona 27:n 1. komppaniaan. Hän otti osaa taisteluihin ensimmäisessä maailmansodassa Saksan itärintamalla Misse-joella, Riianlahdella ja Aa-joella. Hän osallistui kesällä vuonna 1917 Libaussa järjestetyille moottoriveneenkuljettaja- ja konekivääriasemestarikursseille ja elokuussa vuonna 1917 Schaulenissa järjestetylle autokurssille sekä syksyllä Libaussa vuonna 1917 järjestetylle räjäytyskurssille.\n\nSuomen sisällissota\n\nKatso myös: Suomen sisällissota\nHän saapui Suomeen oberzugführer Friedel Jacobssonin komennuskunnan mukana 30. tammikuuta 1918 ja liittyi Perä-Pohjolan suojeluskuntajoukkoihin Tervolassa. Hänet komennettiin joukkueenjohtajaksi Tervolaa ja Torniota vastaan taisteleviin joukkoihin. Tervolan ja Tornion valtausten jälkeen hänet nimitettiin Kemin kaupungin komendantiksi 7. helmikuuta, kunnes 5. maaliskuuta hänet nimitettiin Perä-Pohjolan pataljoonan komentajaksi. Hän johdatti pataljoonansa taisteluihin Vilkkilässä, Haavistolla (Oriveden), Tervaniemessä, Lempäälässä, Vesilahdella, Karkussa ja Tyrväällä. Sisällissodan loppuvaiheissa hän sai tehtäväkseen muodostaa Lahdessa Itä-Uudenmaan rykmentin.\n\nSisällissodan jälkeinen aika\n\nSisällissodan jälkeen Heikinheimo määrättiin 1. heinäkuuta 1918 alkaen 1. Divisioonan adjutantiksi ja myöhemmin väliaikaiseksi esikuntapäälliköksi, josta hänet siirrettiin 15. elokuuta 1918 Suomen valkoisen kaartin I pataljoonan komentajaksi ja edelleen komentajaksi 11. syyskuuta 1918 Viipurin rykmentin II pataljoonaan. II Polkupyöräpataljoonan komentajaksi hänet siirrettiin 27. huhtikuuta 1921 ja Viipurin rykmentin komentajaksi 15. elokuuta 1924. Hän toimi 12. elokuuta 1926 alkaen komentajana Jääkäriprikaatissa, josta hänet siirrettiin komentajaksi 3. Divisioonaan 9. kesäkuuta 1928. Esikuntatehtäviin hänet siirrettiin 25. elokuuta 1934 ja sijoitettiin Yleisesikuntaan ja määrättiin jalkaväen tarkastajaksi. Hän menehtyi tapaturmaisesti koeammunnoissa Harakan saarella kranaatinheittimen putken räjähdettyä 24. tammikuuta 1938. Hänet on haudattu Ouluun Intiön hautausmaalle, aivan sankarihautojen viereen.\n\nLuottamustoimet\nHeikinheimo toimi 2. Divisioonan kunniatuomioistuimen puheenjohtajana vuonna 1920 ja 3. Divisioonan kunniatuomioistuimen puheenjohtajana vuosina 1921 ja 1925. Polkupyöräjoukkojen erikoiskysymyksiä käsitelleen komitean jäsenenä hän toimi vuonna 1922 ja polkupyöräjoukkojen ohjesääntökomitean puheenjohtajana vuonna 1924 sekä pikakiväärinkokeilukomitean jäsenenä vuosina 1924–1925. Talvivarustuskomitean jäsenenä hän toimi vuonna 1924 ja kenttävarustustoimikunnan puheenjohtajana vuosina 1931–1934 sekä ohjesääntökomitean puheenjohtajana vuonna 1934. Mikkelin kaupunkiseurakunnan lisätyn kirkkovaltuuston jäsenenä hän toimi vuosina 1933–1934.\n\nLähteet \n Puolustusministeriön Sotahistoriallisen toimiston julkaisuja IV, Suomen jääkärien elämäkerrasto, WSOY Porvoo 1938.\n Sotatieteen Laitoksen Julkaisuja XIV, Suomen jääkärien elämäkerrasto 1975, Vaasa 1975 ISBN 951-99046-8-9.\n\nViitteet \n\nJääkärikenraalit\nVuonna 1894 syntyneet\nVuonna 1938 kuolleet',
|
|
370
|
+
'question': 'Milloin Aarne Heikinheimo sai ylioppilastutkinnon suoritettua?',
|
|
371
|
+
'answers': {
|
|
372
|
+
'answer_start': array([365]),
|
|
373
|
+
'text': array(['1913'], dtype=object)
|
|
374
|
+
}
|
|
375
|
+
}
|
|
376
|
+
```
|
|
377
|
+
```json
|
|
378
|
+
{
|
|
379
|
+
'context': 'Peter Costa (s. 17. tammikuuta Kíti, Kypros) on englantilainen Las Vegasissa asuva pokeriammattilainen. Hänen vanhempansa ovat kyproksenkreikkalaisia. Perhe muutti Liverpooliin Peterin ollessa nuori. Perheen yritys myi "fish and chipsejä" ja yritys laajentui myöhemmin ketjuksi.\n\nBritteinsaarilla Costa tuli tunnetuksi voitettuaan Late Night Pokerin kuudennen tuotantokauden finaalin. Lopun kaksinpelissä Costa kukisti itävaltalaisen Jin Cai Linin ja ansaitsi 60\xa0000 puntaa.\n\nTammikuussa 2003 Costa voitti Aussie Millions -tapahtuman pääturnauksen ja ansaitsi ykköstilastaan 394\xa0870 Australian dollaria. Costalla on myös useita turnausvoittoja Yhdysvalloista: esimerkiksi kesäkuussa 2002 hän voitti kolme turnausta kolmessa viikossa – kaikissa näissä ykköspalkinto oli yli 110\xa0000 dollaria. \n\nWorld Series of Pokerissa Costa on parhaimmillaan ollut seitsemäs (kaksi kertaa). World Poker Tourilta hänellä on rahasijoja, mutta ei toistaiseksi finaalipöytäsijoituksia.\n\nVuosina 2002 ja 2003 Costa oli ehdolla Europaan parhaan pelaajan palkinnon saajaksi. Hän teki maailmanennätyksen voitettuaan kaikkien aikojen suurimman (1\xa0166 pelaajaa) limiitti-hold\'em -turnauksen Orleansin kasinolla heinäkuussa 2003.\n\nKesäkuussa 2007 Costan pokeriuran turnausansiot ylittivät 1,7 miljoonaa dollaria.\n\nLähteet\n\nAiheesta muualla \n\n \n WPT:n profiili\n PokerListings.com:n profiili \n\nBrittiläiset pokerinpelaajat',
|
|
380
|
+
'question': 'Mikä on Peter Costan asuinpaikka?',
|
|
381
|
+
'answers': {
|
|
382
|
+
'answer_start': array([63]),
|
|
383
|
+
'text': array(['Las Vegasissa'], dtype=object)
|
|
384
|
+
}
|
|
385
|
+
}
|
|
386
|
+
```
|
|
387
|
+
```json
|
|
388
|
+
{
|
|
389
|
+
'context': 'Sigrid Vaasa (1566–1633) oli Ruotsin kuninkaan Eerik XIV:n ja hänen puolisonsa Kaarina Maununtyttären tytär.\n\nSigrid Vaasa asui lapsuudessaan äitinsä Kaarina Maununtyttären kanssa Liuksialan kartanossa ja jäätyään kahdesti leskeksi palasi asumaan sinne kuolemaansa asti. Vuonna 1597 hän avioitui Henrik Klaunpoika Tottin kanssa. Sen jälkeen oli Kirkniemen ja Sjundbyn kartanoiden emäntä. Heidän lapsistaan merkittävin oli Åke Tott, joka sai mainetta kuningas Kustaa II Aadolfin johtamissa sodissa. Kaarle-herttuan ja Sigismundin valtataistelun aikana Henrik Tott asettui suomalaisten aatelismiesten ja sitä kautta myös Sigismundin puolelle, minkä vuoksi hän joutui pakenemaan maasta ja kuoli ilmeisesti noin vuonna 1603 maanpaossa. Sigrid solmi uuden avioliiton vuonna 1609 Natt och Dag -sukuun kuuluvan Nils Nilsinpojan kanssa, muutti Ruotsiin mutta jäi neljän vuoden kuluttua leskeksi. Leskeksi jäätyään hän palasi Suomeen ja kuoli Liuksialassa.\n\nLähteet\n\nRuotsin prinsessat\nVuonna 1566 syntyneet\nVuonna 1633 kuolleet',
|
|
390
|
+
'question': 'Millä kartanolla Sigrid Vaasa vietti lapsuusvuotensa?',
|
|
391
|
+
'answers': {
|
|
392
|
+
'answer_start': array([180]),
|
|
393
|
+
'text': array(['Liuksialan kartanossa'], dtype=object)
|
|
394
|
+
}
|
|
395
|
+
}
|
|
396
|
+
```
|
|
397
|
+
|
|
398
|
+
When evaluating generative models, we use the following setup (see the
|
|
399
|
+
[methodology](/methodology) for more information on how these are used):
|
|
400
|
+
|
|
401
|
+
- Number of few-shot examples: 4
|
|
402
|
+
- Prefix prompt:
|
|
403
|
+
```
|
|
404
|
+
Seuraavassa on tekstejä ja niihin liittyviä kysymyksiä ja vastauksia.
|
|
405
|
+
```
|
|
406
|
+
- Base prompt template:
|
|
407
|
+
```
|
|
408
|
+
Teksti: {text}
|
|
409
|
+
Kysymys: {question}
|
|
410
|
+
Vastaa enintään 3 sanalla: {label}
|
|
411
|
+
```
|
|
412
|
+
- Instruction-tuned prompt template:
|
|
413
|
+
```
|
|
414
|
+
Teksti: {text}
|
|
415
|
+
|
|
416
|
+
Vastaa seuraavaan kysymykseen yllä olevasta tekstistä enintään 3 sanalla.
|
|
417
|
+
|
|
418
|
+
Kysymys: {question}
|
|
419
|
+
```
|
|
420
|
+
|
|
421
|
+
You can evaluate this dataset directly as follows:
|
|
422
|
+
|
|
423
|
+
```bash
|
|
424
|
+
$ euroeval --model <model-id> --dataset multi-wiki-qa-fi
|
|
425
|
+
```
|
|
426
|
+
|
|
427
|
+
|
|
356
428
|
## Common-sense Reasoning
|
|
357
429
|
|
|
358
430
|
### HellaSwag-fi
|
|
@@ -364,6 +364,77 @@ $ euroeval --model <model-id> --dataset belebele-fr
|
|
|
364
364
|
```
|
|
365
365
|
|
|
366
366
|
|
|
367
|
+
### Unofficial: MultiWikiQA-fr
|
|
368
|
+
|
|
369
|
+
This dataset will be published in an upcoming paper, and contains French Wikipedia
|
|
370
|
+
articles with generated questions and answers, using the LLM Gemini-1.5-pro.
|
|
371
|
+
|
|
372
|
+
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
|
|
373
|
+
256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
|
|
374
|
+
|
|
375
|
+
Here are a few examples from the training split:
|
|
376
|
+
|
|
377
|
+
```json
|
|
378
|
+
{
|
|
379
|
+
'context': "L'advocaat est une liqueur onctueuse d'origine néerlandaise, faite de jaune d'œuf, de sucre et d'alcool. Il a un léger goût rappelant celui des amandes. Dans les pays anglophones, il contient généralement 15 % d'alcool, tandis qu'en Europe continentale ce taux varie selon les pays, souvent entre 14 et 20 %.\n\nOutre le jaune d'œuf, l'alcool et le sucre, l'advocaat peut contenir du miel, de la vanille, de l'eau-de-vie et parfois de la crème fraîche (ou du lait concentré non sucré). Parmi les fabricants, on trouve Warners, Bols, Verpoorten, de Korenaer, Élixir d'Anvers, Warninks, De Kuyper, Dalkowski et Zwarte Kip.\n\nTypes \n\nAux Pays-Bas et dans le Tyrol, on vend un advocaat épais, souvent consommé à la cuillère, tandis qu'une version plus liquide est réservée à l'exportation. Cet advocaat épais entre dans la composition de plusieurs desserts, notamment des glaces et des pâtisseries. Il est aussi servi en apéritif ou en digestif. Traditionnellement, on le sert avec de la crème fouettée saupoudrée de cacao.\n\nLa qualité d'exportation, plus liquide, est particulièrement bien adaptée à la fabrication de cocktails et de long drinks. Le cocktail le plus connu est le Snowball : un mélange d'advocaat, de limonade et parfois de jus de citron vert (facultatif). Une autre boisson courante à base d'advocaat est le bombardino, servi dans les stations de ski italiennes : c'est un mélange d'advocaat, de café noir et de whisky.\n\nHistoire \nL'advocaat original était une liqueur créée par les Néerlandais du Suriname et de Recife avec des avocats. De retour aux Pays-Bas, où ce fruit n'était pas disponible, ils reconstituèrent une texture identique avec du jaune d'œuf épaissi. Le nom du fruit en nahuatl, ahuacatl, avait été transformé en espagnol en aguacate, puis en anglais en avocado et en néerlandais en advocaatpeer ou advocaat (par analogie avec la profession). De là, il se répandit dans les autres pays d'Europe. Le rompope de Puebla, au Mexique, est une liqueur très similaire, à base de jaune d'œuf et de vanille.\n\nVoir aussi \n\n \n Gogli\n Lait de poule\n Ponche Crema\n Rompope\n Sabayon\n\nNotes et références\n\nBibliographie \n \n \n\nLiqueur\nBoisson à base d'œuf\nBoisson néerlandaise",
|
|
380
|
+
'question': "Nommez deux marques qui produisent de l'advocaat.",
|
|
381
|
+
'answers': {
|
|
382
|
+
'answer_start': array([516]),
|
|
383
|
+
'text': array(['Warners, Bols'], dtype=object)
|
|
384
|
+
}
|
|
385
|
+
}
|
|
386
|
+
```
|
|
387
|
+
```json
|
|
388
|
+
{
|
|
389
|
+
'context': "La Sabine de Gandon est un timbre-poste d'usage courant qui a servi en France de au retrait de la vente des derniers timbres en . Ce type remplace la Marianne de Béquet et est remplacé en par la Liberté de Gandon d'après Delacroix.\n\nDescription \n\nLa Sabine est dessinée et gravée par Pierre Gandon à partir de la tête de l'héroïne Hersilie, représentée au centre du tableau de Jacques Louis David Les Sabines, sur lequel elle s'interpose entre les Sabins et les Romains. Le modèle est Aurore de Bellegarde, une amie du peintre.\n\nLes timbres sont imprimés en taille-douce en feuille de cent exemplaires.\n\nDeux mentions de pays émetteurs ont figuré sur ces timbres. De 1977 à 1981, la mention est « FRANCE » comme sur les timbres commémoratifs depuis le début de l'année 1975, après le début de la présidence de Valéry Giscard d'Estaing. Après l'élection de François Mitterrand à la présidence de la République, « République française » revient sur les timbres, y compris les derniers émis au type Sabine, dans la deuxième partie de l'année 1981.\n\nCarrière \nLa première émission a lieu le pour les 0,80 franc vert et 1 franc rouge, servant aux tarifs les plus fréquents de la lettre économique et prioritaire de moins de 20 grammes. Les valeurs de compléments et les autres valeurs d'usage sont émises le et le .\n\nEnsuite, les nouvelles émissions suivent les changements de tarifs : , . Ce dernier changement de tarif est également à l'origine de l'émission de six timbres le .\n\nLes trois derniers timbres au type Sabine émis le sont le pour correspondre aux tarifs des août et septembre précédents. Ils portent la mention « REPUBLIQUE FRANÇAISE ». Le , paraissent les timbres au type Liberté de Gandon d'après Delacroix.\n\nNotes et références\n\nVoir aussi\n\nBibliographie \n Catalogue de cotations de timbres de France, éd. Dallay, 2005-2006.\n\nArticle connexe \n Timbre de France d'usage courant\n\nLiens externes \n Bibliographie sur le type Sabine sur le site du Cercle des amis de Marianne.\n Liste des timbres au type Sabine sur le site Phil-Ouest.\n\nTimbre de France d'usage courant",
|
|
390
|
+
'question': 'Quel tableau de Jacques-Louis David a servi de modèle au timbre-poste La Sabine, dont le dessin et la gravure sont de Pierre Gandon\xa0?',
|
|
391
|
+
'answers': {
|
|
392
|
+
'answer_start': array([399]),
|
|
393
|
+
'text': array(['Les Sabines'], dtype=object)
|
|
394
|
+
}
|
|
395
|
+
}
|
|
396
|
+
```
|
|
397
|
+
```json
|
|
398
|
+
{
|
|
399
|
+
'context': "(parfois sous-titré Collectible Lennon) est le septième album de John Lennon, sorti en 1975. Il s'agit de la première compilation de son œuvre , et du dernier album qu'il ait publié avant sa retraite de cinq ans destinée à s'occuper de son fils Sean.\n\nParution \nL'album reprend onze chansons publiées par Lennon en single entre 1969 et 1974. Cinq des chansons, parmi les plus anciennes, n'avaient jusque-là jamais été publiées sur un 33 tours. Cet aspect a été particulièrement apprécié par la critique qui a généralement bien noté l'album. Celui-ci s'est bien vendu et a atteint le huitième rang des ventes au Royaume-Uni, et le douzième rang aux États-Unis, où il est devenu disque d'or.\n\nGive Peace a Chance est présenté ici sous forme d'un court extrait tandis qu'une portion de sa version live, enregistrée le au Madison Square Garden à New York lors du concert de charité « One to One », est greffée au final de Happy Xmas (War Is Over). Cette version augmentée de la chanson de Noël est inédite à cette collection.\n\nLe nom du disque fait référence au katsuobushi, une méthode japonaise de préparation et de conservation du poisson.\n\nLe sous-titre varie selon les éditions : absent des premières éditions américaines, il est parfois indiqué Collectible Lennon sur une étiquette rouge, parfois Collectable Lennon imprimé au dos de la pochette, avant la liste des titres.\n\nPochette \nLe recto de la pochette est composé de douze dessins : onze pour les titres des chansons, plus un pour le titre de l'album qui est illustré d'un disque rouge sur fond blanc semblable au drapeau du Japon, crédité à « Lennon Plastic Ono Band ». La palette de couleurs, dans des tons pastel, est volontairement limitée : un bleu pâle prédomine, formant sur la plupart des vignettes un ciel agrémenté de nuages blancs ; la palette est complétée par des tons de rose et de couleur chair.\n\nLes illustrations pour Imagine, Mind Games, et Whatever Gets You Thru the Night rappellent les pochettes des albums dont les chansons sont tirées. L'illustration pour Give Peace a Chance est réalisée à partir d'une photo de presse du bed-in de John et Yoko à Amsterdam, avec, posée sur le lit, la pochette du second album expérimental du couple, Unfinished Music No.2: Life with the Lions. Pour Happy Xmas (War is Over), un bombardier B29 apparaît suspendu à la façon d'une maquette , une boule de Noël rouge étant à son tour suspendue à l'avion. La chanson Instant Karma! est représentée par un flacon de produit lyophilisé. Woman is the Nigger of the World est illustrée par une femme nue, à la tête couverte, sous une pluie de tubes de rouge à lèvres fusant à la façon de balles de fusil, en référence aux paroles (). L'illustration pour Mother est directement inspirée du tableau La Mère de Whistler, la mère ayant ici les traits de Lennon, tandis que le cadre de gauche compte un second portrait de Lennon, en gros plan, laissant échapper des larmes. Power to the People est représenté par un texte déclarant Lennon admissible à une green card et commençant par , rappelant le manuscrit de la constitution des États-Unis. Des dessins de Lennon sont utilisés pour illustrer Cold Turkey et #9 Dream.\n\nLe dessin au verso représente un emballage, ouvert, de poisson séché selon la méthode japonaise de la compagnie fictive « Lennon Brand ». Une citation de Lennon, sous le pseudonyme Dr. Winston O'Boogie, y est inscrite.\n\nLa pochette intérieure porte au recto un grand disque rouge sur fond blanc , et au verso les paroles des chansons en blanc sur fond rouge, avec quelques erreurs de transcription.\n\nLa direction artistique est confiée à Roy Kohara, le même qui créa les pochettes des deux précédents albums de Lennon, Mind Games et Rock 'n' Roll et celle de la compilation des Beatles Rock 'n' Roll Music l'année suivante. Les illustrations sont de Michael Bryant.\n\nListe des chansons \nLes titres sont crédités à John Lennon sauf indication contraire.\n\nClassement\n\nNotes et références\n\nNotes\n\nRéférences \n\nAlbum de John Lennon\nCompilation musicale sortie en 1975\nAlbum publié par Apple Records\nAlbum publié par EMI Group\nAlbum produit par Phil Spector",
|
|
400
|
+
'question': "Qui est l'illustrateur de la couverture de l'album Shaved Fish?",
|
|
401
|
+
'answers': {
|
|
402
|
+
'answer_start': array([3828]),
|
|
403
|
+
'text': array(['Michael Bryant'], dtype=object)
|
|
404
|
+
}
|
|
405
|
+
}
|
|
406
|
+
```
|
|
407
|
+
|
|
408
|
+
When evaluating generative models, we use the following setup (see the
|
|
409
|
+
[methodology](/methodology) for more information on how these are used):
|
|
410
|
+
|
|
411
|
+
- Number of few-shot examples: 4
|
|
412
|
+
- Prefix prompt:
|
|
413
|
+
```
|
|
414
|
+
Les textes suivants sont accompagnés de questions et de réponses.
|
|
415
|
+
```
|
|
416
|
+
- Base prompt template:
|
|
417
|
+
```
|
|
418
|
+
Texte: {text}
|
|
419
|
+
Question: {question}
|
|
420
|
+
Réponse en 3 mots maximum: {label}
|
|
421
|
+
```
|
|
422
|
+
- Instruction-tuned prompt template:
|
|
423
|
+
```
|
|
424
|
+
Texte: {text}
|
|
425
|
+
|
|
426
|
+
Répondez à la question suivante sur le texte ci-dessus en 3 mots maximum.
|
|
427
|
+
|
|
428
|
+
Question: {question}
|
|
429
|
+
```
|
|
430
|
+
|
|
431
|
+
You can evaluate this dataset directly as follows:
|
|
432
|
+
|
|
433
|
+
```bash
|
|
434
|
+
$ euroeval --model <model-id> --dataset multi-wiki-qa-fr
|
|
435
|
+
```
|
|
436
|
+
|
|
437
|
+
|
|
367
438
|
## Knowledge
|
|
368
439
|
|
|
369
440
|
### MMLU-fr
|