EuroEval 15.11.0__tar.gz → 15.12.0__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Potentially problematic release.
This version of EuroEval might be problematic. Click here for more details.
- {euroeval-15.11.0 → euroeval-15.12.0}/.pre-commit-config.yaml +2 -2
- {euroeval-15.11.0 → euroeval-15.12.0}/CHANGELOG.md +23 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/PKG-INFO +1 -1
- euroeval-15.12.0/docs/datasets/portuguese.md +493 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/reading-comprehension.md +1 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/pyproject.toml +1 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_config_factory.py +7 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_modules/vllm.py +1 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmarker.py +7 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/cli.py +10 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/data_models.py +7 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/__init__.py +1 -0
- euroeval-15.12.0/src/euroeval/dataset_configs/portuguese.py +74 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/spanish.py +4 -3
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/generation.py +22 -4
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/generation_utils.py +0 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/human_evaluation.py +1 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/languages.py +1 -2
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/linguistic_acceptability.py +9 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/multiple_choice.py +9 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/named_entity_recognition.py +20 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/sentiment_classification.py +11 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/summarization.py +8 -1
- euroeval-15.12.0/src/scripts/create_boolq_pt.py +113 -0
- euroeval-15.12.0/src/scripts/create_goldenswag_pt.py +160 -0
- euroeval-15.12.0/src/scripts/create_harem.py +370 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_mmlu.py +59 -0
- euroeval-15.12.0/src/scripts/create_publico.py +78 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_scala.py +2 -0
- euroeval-15.12.0/src/scripts/create_sst2_pt.py +91 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/load_ud_pos.py +44 -3
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/conftest.py +1 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_cli.py +3 -2
- {euroeval-15.11.0 → euroeval-15.12.0}/uv.lock +1 -1
- {euroeval-15.11.0 → euroeval-15.12.0}/.github/ISSUE_TEMPLATE/benchmark_dataset_request.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/.github/ISSUE_TEMPLATE/bug.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/.github/ISSUE_TEMPLATE/feature_request.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/.github/ISSUE_TEMPLATE/model_evaluation_request.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/.github/workflows/ci.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/.gitignore +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/CITATION.cff +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/CODE_OF_CONDUCT.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/CONTRIBUTING.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/Dockerfile.cuda +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/LICENSE +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/NEW_DATASET_GUIDE.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/CNAME +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/danish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/dutch.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/english.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/faroese.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/finnish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/french.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/german.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/icelandic.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/italian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/norwegian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/spanish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/datasets/swedish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/extras/radial_plotter.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/faq.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/gfx/favicon.png +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/danish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/dutch.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/english.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/faroese.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/finnish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/french.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/german.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/icelandic.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/italian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/norwegian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/spanish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Monolingual/swedish.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Multilingual/european.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Multilingual/germanic.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Multilingual/mainland-scandinavian.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/Multilingual/romance.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/leaderboards/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/methodology.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/python-package.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/README.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/common-sense-reasoning.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/knowledge.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/linguistic-acceptability.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/named-entity-recognition.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/sentiment-classification.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/speed.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/docs/tasks/summarization.md +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/gfx/euroeval.png +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/gfx/euroeval.xcf +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/gfx/scandeval.png +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/makefile +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/mkdocs.yaml +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_modules/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_modules/base.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_modules/fresh.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_modules/hf.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/benchmark_modules/litellm.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/callbacks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/constants.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/data_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/danish.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/dutch.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/english.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/faroese.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/finnish.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/french.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/german.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/icelandic.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/italian.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/norwegian.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/dataset_configs/swedish.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/enums.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/exceptions.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/finetuning.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/metrics.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/model_cache.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/model_config.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/model_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/prompt_templates/reading_comprehension.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/scores.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/speed_benchmark.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/task_group_utils/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/task_group_utils/multiple_choice_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/task_group_utils/question_answering.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/task_group_utils/sequence_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/task_group_utils/text_to_text.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/task_group_utils/token_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/tasks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/tokenization_utils.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/types.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/euroeval/utils.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/constants.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_allocine.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_angry_tweets.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_arc.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_arc_is.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_belebele.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_cnn_dailymail.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_conll_en.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_conll_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_conll_nl.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_dane.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_danish_citizen_tests.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_dansk.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_danske_talemaader.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_danske_talemaader_old.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_dbrd.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_dutch_cola.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_eltec.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_fone.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_foqa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_fosent.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_fquad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_germanquad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_germeval.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_hellaswag.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_hellaswag_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_hotter_and_colder_sentiment.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_ice_linguistic.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_icelandic_error_corpus.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_icelandic_knowledge.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_icelandic_qa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_icesum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_idioms_no.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_ilpost_sum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_jentoft.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_life_in_the_uk.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_mim_gold_ner.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_mlqa_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_mlsum_de.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_mlsum_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_multinerd-it.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_no_cola.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_no_sammendrag.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_nor_common_sense_qa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_nordjylland_news.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_norec.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_norglm_multiqa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_norglm_multisum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_norne.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_norquad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_nqii.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_nrk_quiz_qa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_orange_sum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_personal_sum.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_rrn.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_sb10k.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_scandiqa.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_scandisent_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_schibsted.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_sentiment_headlines_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_sentipolc16.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_squad.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_squad_it.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_squad_nl.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_squad_nl_old.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_sst5.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_suc3.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_swedn.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_swerec.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_turku_ner_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_tydiqa_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_wiki_lingua_nl.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_wikiann_fo.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_wikineural-it.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_winogrande_is.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_xlsum_fi.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/create_xquad_es.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/fix_dot_env_file.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/src/scripts/versioning.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_config_factory.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_modules/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_modules/test_base.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_modules/test_fresh.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_modules/test_hf.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_modules/test_litellm.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmark_modules/test_vllm.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_benchmarker.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_callbacks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_constants.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_data_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_data_models.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_dataset_configs.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_enums.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_exceptions.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_finetuning.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_generation.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_human_evaluation.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_languages.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_model_cache.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_model_config.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_model_loading.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_scores.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_speed_benchmark.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_task_utils/__init__.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_task_utils/test_question_answering.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_task_utils/test_sequence_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_task_utils/test_text_to_text.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_task_utils/test_token_classification.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_tasks.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_tokenization_utils.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_types.py +0 -0
- {euroeval-15.11.0 → euroeval-15.12.0}/tests/test_utils.py +0 -0
|
@@ -10,7 +10,7 @@ repos:
|
|
|
10
10
|
- id: trailing-whitespace
|
|
11
11
|
- id: debug-statements
|
|
12
12
|
- repo: https://github.com/astral-sh/ruff-pre-commit
|
|
13
|
-
rev: v0.12.
|
|
13
|
+
rev: v0.12.4
|
|
14
14
|
hooks:
|
|
15
15
|
- id: ruff
|
|
16
16
|
args:
|
|
@@ -31,7 +31,7 @@ repos:
|
|
|
31
31
|
hooks:
|
|
32
32
|
- id: nbstripout
|
|
33
33
|
- repo: https://github.com/pre-commit/mirrors-mypy
|
|
34
|
-
rev: v1.
|
|
34
|
+
rev: v1.17.0
|
|
35
35
|
hooks:
|
|
36
36
|
- id: mypy
|
|
37
37
|
args:
|
|
@@ -10,6 +10,29 @@ and this project adheres to [Semantic Versioning](http://semver.org/spec/v2.0.0.
|
|
|
10
10
|
|
|
11
11
|
|
|
12
12
|
|
|
13
|
+
## [v15.12.0] - 2025-07-19
|
|
14
|
+
### Added
|
|
15
|
+
- Added support for European Portuguese 🇵🇹 It includes 3 gold standard datasets and 4
|
|
16
|
+
machine translated ones. The gold standard datasets include the named entity
|
|
17
|
+
recognition dataset HAREM, the summarisation dataset Publico, and the linguistic
|
|
18
|
+
acceptability dataset ScaLA-pt. The machine translated ones include the sentiment
|
|
19
|
+
classification dataset SST-2, the multiple choice reading comprehension dataset BoolQ,
|
|
20
|
+
the knowledge dataset MMLU, and the common-sense reasoning dataset GoldenSwag. This
|
|
21
|
+
was contributed by [@duarteocarmo](https://github.com/duarteocarmo) ✨
|
|
22
|
+
- Added `--gpu-memory-utilization` argument (`gpu_memory_utilization` in the
|
|
23
|
+
`Benchmarker` API), which can be lowered in case the user is experiencing OOM errors
|
|
24
|
+
when evaluating models. The default is 0.9 (same as previously), which means that vLLM
|
|
25
|
+
will reserve 90% of the GPU memory for itself, and leave 10% free for other processes.
|
|
26
|
+
|
|
27
|
+
### Fixed
|
|
28
|
+
- There was a breaking change in `datasets`, where feature indexing of datasets resulted
|
|
29
|
+
in a `Column` instance, rather than a `list` as previously. We now detect this and
|
|
30
|
+
convert the `Column` instance to a `list` before using it.
|
|
31
|
+
- Revert `enable_thinking` argument to `apply_chat_template` back to the default value,
|
|
32
|
+
as this depends on the individual model implementation. In v15.11.0, this was
|
|
33
|
+
explicitly set to `True`, which caused some inconsistencies when comparing models.
|
|
34
|
+
|
|
35
|
+
|
|
13
36
|
## [v15.11.0] - 2025-07-15
|
|
14
37
|
### Added
|
|
15
38
|
- Added the English knowledge dataset Life in the UK, which has been added as an
|
|
@@ -0,0 +1,493 @@
|
|
|
1
|
+
# 🇵🇹 Portuguese
|
|
2
|
+
|
|
3
|
+
This is an overview of all the datasets used in the European Portuguese part of EuroEval. The
|
|
4
|
+
datasets are grouped by their task - see the [task overview](/tasks) for more
|
|
5
|
+
information about what these constitute.
|
|
6
|
+
|
|
7
|
+
## Sentiment Classification
|
|
8
|
+
|
|
9
|
+
### SST2-PT
|
|
10
|
+
|
|
11
|
+
This dataset was published in [this paper](https://doi.org/10.48550/arXiv.2404.05333) and is part of the ExtraGLUE dataset. It is created by taking the original SST-2 dataset and using machine translation (DeepL) to translate it.
|
|
12
|
+
|
|
13
|
+
The original dataset contains 67,300 training, 872 validation, and 1,820 test samples. We use 1,024 / 256 / 2,048 samples for train / val / test respectively. Given that the original validation dataset only has 1,820 sample for testing, we derive that split from the training split, while ensuring no overlaps occur. This dataset only includes positive and negative labels, no neutrals.
|
|
14
|
+
|
|
15
|
+
Here are a few examples from the training split:
|
|
16
|
+
|
|
17
|
+
```json
|
|
18
|
+
{
|
|
19
|
+
"text": "um drama psicológico absorvente e inquietante .",
|
|
20
|
+
"label": "positive"
|
|
21
|
+
}
|
|
22
|
+
```
|
|
23
|
+
|
|
24
|
+
```json
|
|
25
|
+
{
|
|
26
|
+
"text": "tudo o que não se pode suportar",
|
|
27
|
+
"label": "negative"
|
|
28
|
+
}
|
|
29
|
+
```
|
|
30
|
+
|
|
31
|
+
```json
|
|
32
|
+
{
|
|
33
|
+
"text": "má escrita",
|
|
34
|
+
"label": "negative"
|
|
35
|
+
}
|
|
36
|
+
```
|
|
37
|
+
|
|
38
|
+
When evaluating generative models, we use the following setup (see the
|
|
39
|
+
[methodology](/methodology) for more information on how these are used):
|
|
40
|
+
|
|
41
|
+
- Number of few-shot examples: 12
|
|
42
|
+
- Prefix prompt:
|
|
43
|
+
```
|
|
44
|
+
Abaixo encontras documentos e os seus sentimentos correspondentes, que podem ser 'positivo' ou 'negativo'.
|
|
45
|
+
```
|
|
46
|
+
- Base prompt template:
|
|
47
|
+
```
|
|
48
|
+
Documento: {text}
|
|
49
|
+
Sentimento: {label}
|
|
50
|
+
```
|
|
51
|
+
- Instruction-tuned prompt template:
|
|
52
|
+
|
|
53
|
+
```
|
|
54
|
+
Texto: {text}
|
|
55
|
+
|
|
56
|
+
Clasifica o sentimento do documento. Responde apenas com 'positivo' ou 'negativo'.
|
|
57
|
+
```
|
|
58
|
+
|
|
59
|
+
You can evaluate this dataset directly as follows:
|
|
60
|
+
|
|
61
|
+
```bash
|
|
62
|
+
$ euroeval --model <model-id> --dataset sst2-pt
|
|
63
|
+
```
|
|
64
|
+
|
|
65
|
+
|
|
66
|
+
## Named Entity Recognition
|
|
67
|
+
|
|
68
|
+
### HAREM
|
|
69
|
+
|
|
70
|
+
This dataset was published in [this paper](https://aclanthology.org/L06-1027/) and is based on the [Primeiro HAREM](https://www.linguateca.pt/harem/) evaluation campaign for **Portuguese from Portugal**, using the manually annotated **Colecção Dourada**. The text sources come from varied sources: web, news, fiction books, politics, email, speeches, technical, expository.
|
|
71
|
+
|
|
72
|
+
We extract only documents where `<ORIGEM>` is `PT`, i.e., of **Portuguese origin**. The raw XML annotations are parsed and converted to token-level BIO labels. Tags are mapped to standard CoNLL categories:
|
|
73
|
+
|
|
74
|
+
- `PER` (pessoa)
|
|
75
|
+
- `LOC` (local)
|
|
76
|
+
- `ORG` (organização)
|
|
77
|
+
- `MISC` (diverso)
|
|
78
|
+
|
|
79
|
+
Labels follow the standard CoNLL BIO scheme with numeric encoding:
|
|
80
|
+
|
|
81
|
+
```python
|
|
82
|
+
{
|
|
83
|
+
"O": 0,
|
|
84
|
+
"B-PER": 1,
|
|
85
|
+
"I-PER": 2,
|
|
86
|
+
"B-ORG": 3,
|
|
87
|
+
"I-ORG": 4,
|
|
88
|
+
"B-LOC": 5,
|
|
89
|
+
"I-LOC": 6,
|
|
90
|
+
"B-MISC": 7,
|
|
91
|
+
"I-MISC": 8
|
|
92
|
+
}
|
|
93
|
+
```
|
|
94
|
+
|
|
95
|
+
In addition to tokenization and label alignment, each document is split into individual sentences, using punctuation-based heuristics. This makes the dataset better suited for sentence-level inference and generation.
|
|
96
|
+
|
|
97
|
+
Due to the limited number of PT-origin documents (1,965 examples total), we couldn’t reach the target of 2,304 (1,024 + 256 + 1,024). The final split is:
|
|
98
|
+
|
|
99
|
+
- Train: 873 examples
|
|
100
|
+
- Validation: 218 examples
|
|
101
|
+
- Test: 874 examples
|
|
102
|
+
|
|
103
|
+
|
|
104
|
+
```json
|
|
105
|
+
{
|
|
106
|
+
"tokens": array(["Na", "Covilhã", "ainda", "não", "havia", "liceu", "nessa", "altura", "."], dtype=object),
|
|
107
|
+
"labels": array([0, 5, 0, 0, 0, 0, 0, 0, 0], dtype=object)
|
|
108
|
+
}
|
|
109
|
+
```
|
|
110
|
+
```json
|
|
111
|
+
{
|
|
112
|
+
"tokens": array(["Por", "exemplo", ",", "em", "Filosofia", "está", "muito", "boa", "."], dtype=object),
|
|
113
|
+
"labels": array([0, 0, 0, 0, 7, 0, 0, 0, 0], dtype=object)
|
|
114
|
+
}
|
|
115
|
+
```
|
|
116
|
+
```json
|
|
117
|
+
{
|
|
118
|
+
"tokens": array(["Sabe", "qual", "a", "origem", "da", "sua", "família", "?"], dtype=object),
|
|
119
|
+
"labels": array([0, 0, 0, 0, 0, 0, 0, 0], dtype=object)
|
|
120
|
+
}
|
|
121
|
+
```
|
|
122
|
+
|
|
123
|
+
When evaluating generative models, we use the following setup (see the
|
|
124
|
+
[methodology](/methodology) for more information on how these are used):
|
|
125
|
+
|
|
126
|
+
- Number of few-shot examples: 8
|
|
127
|
+
- Prefix prompt:
|
|
128
|
+
```
|
|
129
|
+
Seguem-se frases e dicionários JSON com as entidades mencionadas presentes na frase indicada.
|
|
130
|
+
```
|
|
131
|
+
- Base prompt template:
|
|
132
|
+
```
|
|
133
|
+
Frase: {text}
|
|
134
|
+
Entidades mencionadas: {label}
|
|
135
|
+
```
|
|
136
|
+
- Instruction-tuned prompt template:
|
|
137
|
+
```
|
|
138
|
+
Frase: {text}
|
|
139
|
+
|
|
140
|
+
Identifica as entidades mencionadas na frase. Deves devolver um dicionário JSON com as chaves 'pessoa', 'organização', 'local' e 'diverso' . Os valores devem ser listas contendo as entidades mencionadas desse tipo, tal como ocorrem na frase.
|
|
141
|
+
```
|
|
142
|
+
- Label mapping:
|
|
143
|
+
- `B-PER` ➡️ `pessoa`
|
|
144
|
+
- `I-PER` ➡️ `pessoa`
|
|
145
|
+
- `B-LOC` ➡️ `local`
|
|
146
|
+
- `I-LOC` ➡️ `local`
|
|
147
|
+
- `B-ORG` ➡️ `organização`
|
|
148
|
+
- `I-ORG` ➡️ `organização`
|
|
149
|
+
- `B-MISC` ➡️ `diverso`
|
|
150
|
+
- `I-MISC` ➡️ `diverso`
|
|
151
|
+
|
|
152
|
+
You can evaluate this dataset directly as follows:
|
|
153
|
+
|
|
154
|
+
```bash
|
|
155
|
+
$ euroeval --model <model-id> --dataset harem
|
|
156
|
+
```
|
|
157
|
+
|
|
158
|
+
|
|
159
|
+
## Linguistic Acceptability
|
|
160
|
+
|
|
161
|
+
### ScaLA-pt
|
|
162
|
+
|
|
163
|
+
This dataset is a Portuguese version of ScaLA, which was originally published in [this paper](https://aclanthology.org/2023.nodalida-1.20/), created by corrupting grammatically correct sentences from the [Universal Dependencies Portuguese-Bosque treebank](https://github.com/UniversalDependencies/UD_Portuguese-Bosque), filtered to only include samples from the European Portuguese source *CETEMPúblico*. The treebank is based on the Constraint Grammar conversion of the Bosque corpus, part of the Floresta Sintá(c)tica treebank.
|
|
164
|
+
|
|
165
|
+
Corruptions were applied by either **removing a word** from the sentence or **swapping two neighbouring words**. Rules based on part-of-speech tags were used to ensure that these corruptions lead to grammatical errors.
|
|
166
|
+
|
|
167
|
+
The final dataset contains:
|
|
168
|
+
|
|
169
|
+
- **Training set**: 1,024 examples
|
|
170
|
+
- **Validation set**: 256 examples
|
|
171
|
+
- **Test set**: 2,048 examples
|
|
172
|
+
|
|
173
|
+
These splits are used as-is in the framework.
|
|
174
|
+
|
|
175
|
+
Here are a few examples from the training split:
|
|
176
|
+
|
|
177
|
+
```json
|
|
178
|
+
{
|
|
179
|
+
"text": "Nos Em os mercados orientais, Tóquio foi a excepção e, ao o meio da de a manhã, a bolsa tendia para uma alta marginal, com o índice Nikkei a marcar 12,07 pontos no em o fim da de a sessão da de a manhã.",
|
|
180
|
+
"label": "incorrect"
|
|
181
|
+
}
|
|
182
|
+
```
|
|
183
|
+
```json
|
|
184
|
+
{
|
|
185
|
+
"text": "A equipa está a mostrar progressos, mas ainda há muito para fazer.",
|
|
186
|
+
"label": "correct"
|
|
187
|
+
}
|
|
188
|
+
```
|
|
189
|
+
```json
|
|
190
|
+
{
|
|
191
|
+
"text": "Vários estudos têm mostrado que estes linfomas regridem depois de tratamentos dirigidos à a HP a, o que sugere uma relação entre os dois.",
|
|
192
|
+
"label": "incorrect"
|
|
193
|
+
}
|
|
194
|
+
```
|
|
195
|
+
|
|
196
|
+
When evaluating generative models, we use the following setup (see the
|
|
197
|
+
[methodology](/methodology) for more information on how these are used):
|
|
198
|
+
|
|
199
|
+
- Number of few-shot examples: 12
|
|
200
|
+
- Prefix prompt:
|
|
201
|
+
```
|
|
202
|
+
Seguem-se abaixo textos e se são gramaticalmente corretos.
|
|
203
|
+
```
|
|
204
|
+
- Base prompt template:
|
|
205
|
+
```
|
|
206
|
+
Texto: {text}
|
|
207
|
+
Gramaticalmente correcto: {label}
|
|
208
|
+
```
|
|
209
|
+
- Instruction-tuned prompt template:
|
|
210
|
+
```
|
|
211
|
+
Texto: {text}
|
|
212
|
+
|
|
213
|
+
Determina se o texto é gramaticalmente correcto ou não. Responde com 'sim' ou 'não', e nada mais.
|
|
214
|
+
```
|
|
215
|
+
- Label mapping:
|
|
216
|
+
- `correct` ➡️ `sim`
|
|
217
|
+
- `incorrect` ➡️ `não`
|
|
218
|
+
|
|
219
|
+
You can evaluate this dataset directly as follows:
|
|
220
|
+
|
|
221
|
+
```bash
|
|
222
|
+
$ euroeval --model <model-id> --dataset scala-pt
|
|
223
|
+
```
|
|
224
|
+
|
|
225
|
+
|
|
226
|
+
## Reading Comprehension
|
|
227
|
+
|
|
228
|
+
### Unofficial: BoolQ-PT
|
|
229
|
+
|
|
230
|
+
This dataset was published in [this paper](https://doi.org/10.48550/arXiv.2404.05333) and is part of the ExtraGLUE dataset. It is created by taking the original BoolQ dataset and using machine translation (DeepL) to translate it.
|
|
231
|
+
|
|
232
|
+
The original dataset has a passage, question, and yes/no label. We adapt this dataset by taking the original passage, question, and yes/no options, and turning it into a Q/A style question where the model can answer yes or no.
|
|
233
|
+
|
|
234
|
+
The original dataset contains 9,430 training, 3,270 validation, and 3,250 test samples. We use 1,024 / 256 / 2,048 samples for train / val / test respectively. We've observed some overlap in the splits, so decided to concatenate all splits into a single dataset, shuffling it, and extract splits.
|
|
235
|
+
|
|
236
|
+
Here are a few examples from the training split:
|
|
237
|
+
|
|
238
|
+
```json
|
|
239
|
+
{
|
|
240
|
+
"text": "Texto: Animais Fantásticos e Onde Encontrá-los -- Fantastic Beasts and Where to Find Them é um livro de 2001 escrito pela autora britânica J.K. Rowling (sob o pseudónimo do autor fictício Newt Scamander) sobre as criaturas mágicas do universo Harry Potter. A versão original, ilustrada pela própria autora, pretende ser a cópia de Harry Potter do livro didático com o mesmo nome mencionado em Harry Potter e a Pedra Filosofal (ou Harry Potter and the Sorcerer's Stone nos EUA), o primeiro romance da série Harry Potter. Inclui várias notas no seu interior, supostamente escritas à mão por Harry, Ron Weasley e Hermione Granger, detalhando as suas próprias experiências com algumas das bestas descritas e incluindo piadas relacionadas com a série original.\nPergunta: Animais fantásticos e onde encontrá-los está relacionado com Harry Potter?\nOpções:\na. sim\nb. não",
|
|
241
|
+
"label": "a"
|
|
242
|
+
}
|
|
243
|
+
```
|
|
244
|
+
|
|
245
|
+
```json
|
|
246
|
+
{
|
|
247
|
+
"text": "Texto: Oceano Antártico -- O Oceano Antártico, também conhecido como Oceano Antártico ou Oceano Austral, compreende as águas mais a sul do Oceano Mundial, geralmente consideradas a sul de 60° de latitude sul e circundando a Antárctida. Como tal, é considerado como a quarta maior das cinco principais divisões oceânicas: mais pequeno do que os oceanos Pacífico, Atlântico e Índico, mas maior do que o oceano Ártico. Esta zona oceânica é o local onde as águas frias da Antárctida, que fluem para norte, se misturam com as águas subantárcticas, mais quentes.\nPergunta: Existe um oceano chamado oceano Austral?\nOpções:\na. sim\nb. não",
|
|
248
|
+
"label": "a"
|
|
249
|
+
}
|
|
250
|
+
```
|
|
251
|
+
|
|
252
|
+
```json
|
|
253
|
+
{
|
|
254
|
+
"text": "Texto: Lista dos votos de desempate dos vice-presidentes dos Estados Unidos -- O vice-presidente dos Estados Unidos é o presidente ex officio do Senado, como previsto no artigo I, secção 3, cláusula 4, da Constituição dos Estados Unidos, mas só pode votar para desempatar. De acordo com o Senado dos Estados Unidos, até 28 de fevereiro de 2018, o voto de desempate foi dado 264 vezes por 36 vice-presidentes.\nPergunta: O vice-presidente já desempatou alguma vez no Senado?\nOpções:\na. sim\nb. não"
|
|
255
|
+
"label": "a"
|
|
256
|
+
}
|
|
257
|
+
```
|
|
258
|
+
|
|
259
|
+
When evaluating generative models, we use the following setup (see the
|
|
260
|
+
[methodology](/methodology) for more information on how these are used):
|
|
261
|
+
|
|
262
|
+
- Number of few-shot examples: 5
|
|
263
|
+
- Prefix prompt:
|
|
264
|
+
```
|
|
265
|
+
As seguintes são perguntas de escolha múltipla (com respostas).
|
|
266
|
+
```
|
|
267
|
+
- Base prompt template:
|
|
268
|
+
```
|
|
269
|
+
Pergunta: {text}
|
|
270
|
+
Opções:
|
|
271
|
+
a. {option_a}
|
|
272
|
+
b. {option_b}
|
|
273
|
+
Resposta: {label}
|
|
274
|
+
```
|
|
275
|
+
- Instruction-tuned prompt template:
|
|
276
|
+
|
|
277
|
+
```
|
|
278
|
+
Pergunta: {text}
|
|
279
|
+
Opções:
|
|
280
|
+
a. {option_a}
|
|
281
|
+
b. {option_b}
|
|
282
|
+
|
|
283
|
+
Responde à pergunta acima usando só 'a' ou 'b', e nada mais.
|
|
284
|
+
```
|
|
285
|
+
|
|
286
|
+
You can evaluate this dataset directly as follows:
|
|
287
|
+
|
|
288
|
+
```bash
|
|
289
|
+
$ euroeval --model <model-id> --dataset boolq-pt
|
|
290
|
+
```
|
|
291
|
+
|
|
292
|
+
|
|
293
|
+
## Knowledge
|
|
294
|
+
|
|
295
|
+
### MMLU-pt
|
|
296
|
+
|
|
297
|
+
This dataset was published in [this paper](https://doi.org/10.48550/arXiv.2410.08928) and is a machine translated version of the English [MMLU
|
|
298
|
+
dataset](https://openreview.net/forum?id=d7KBjmI3GmQ) and features questions within 57
|
|
299
|
+
different topics, such as elementary mathematics, US history and law. The translation to
|
|
300
|
+
Portuguese was done using DeepL.
|
|
301
|
+
|
|
302
|
+
The original full dataset consists of 270 / 1,439 / 14,774 samples for training, validation, and testing, respectively. These splits were merged, duplicates removed, and new splits were created with 1,024 / 256 / 2048 samples for training, validation, and testing, respectively.
|
|
303
|
+
|
|
304
|
+
Here are a few examples from the training split:
|
|
305
|
+
|
|
306
|
+
```json
|
|
307
|
+
{
|
|
308
|
+
"text": "De que tipo de direitos gozam os Estados costeiros sobre a sua plataforma continental?\nOpções:\na. O Estado costeiro goza ipso facto e ab initio de direitos soberanos sobre a sua plataforma continental para efeitos de exploração e aproveitamento dos seus recursos naturais\nb. O Estado costeiro só pode exercer direitos soberanos sobre a sua plataforma continental mediante declaração\nc. O Estado costeiro exerce direitos soberanos sobre a sua plataforma continental para efeitos de exploração dos seus recursos haliêuticos\nd. O Estado costeiro só pode exercer direitos limitados sobre a sua plataforma continental e apenas com o consentimento dos Estados vizinhos",
|
|
309
|
+
"label": "a"
|
|
310
|
+
}
|
|
311
|
+
```
|
|
312
|
+
|
|
313
|
+
```json
|
|
314
|
+
{
|
|
315
|
+
"text": "Qual delas não é uma competência-chave reconhecida da gestão?\nOpções:\na. Competências conceptuais\nb. Competências humanas\nc. Competências técnicas\nd. Competências de redação",
|
|
316
|
+
"label": "d"
|
|
317
|
+
}
|
|
318
|
+
```
|
|
319
|
+
|
|
320
|
+
```json
|
|
321
|
+
{
|
|
322
|
+
"text": "O presidente executa um "veto de bolso" fazendo qual das seguintes opções?\nOpções:\na. Manifestando publicamente a rejeição de um projeto de lei\nb. Emitindo uma ordem executiva que invalida um projeto de lei recentemente aprovado\nc. Não assinando um projeto de lei após o encerramento do Congresso\nd. Retirando embaixadores de uma negociação de paz",
|
|
323
|
+
"label": "c",
|
|
324
|
+
}
|
|
325
|
+
```
|
|
326
|
+
|
|
327
|
+
When evaluating generative models, we use the following setup (see the
|
|
328
|
+
[methodology](/methodology) for more information on how these are used):
|
|
329
|
+
|
|
330
|
+
- Number of few-shot examples: 5
|
|
331
|
+
- Prefix prompt:
|
|
332
|
+
```
|
|
333
|
+
As seguintes são perguntas de escolha múltipla (com respostas).
|
|
334
|
+
```
|
|
335
|
+
- Base prompt template:
|
|
336
|
+
```
|
|
337
|
+
Pergunta: {text}
|
|
338
|
+
Opções:
|
|
339
|
+
a. {option_a}
|
|
340
|
+
b. {option_b}
|
|
341
|
+
c. {option_c}
|
|
342
|
+
d. {option_d}
|
|
343
|
+
Resposta: {label}
|
|
344
|
+
```
|
|
345
|
+
- Instruction-tuned prompt template:
|
|
346
|
+
|
|
347
|
+
```
|
|
348
|
+
Pergunta: {text}
|
|
349
|
+
Opções:
|
|
350
|
+
a. {option_a}
|
|
351
|
+
b. {option_b}
|
|
352
|
+
c. {option_c}
|
|
353
|
+
d. {option_d}
|
|
354
|
+
|
|
355
|
+
Responde à pergunta acima usando só 'a' ou 'b', 'c' ou 'd', e nada mais.
|
|
356
|
+
```
|
|
357
|
+
|
|
358
|
+
You can evaluate this dataset directly as follows:
|
|
359
|
+
|
|
360
|
+
```bash
|
|
361
|
+
$ euroeval --model <model-id> --dataset mmlu-pt
|
|
362
|
+
```
|
|
363
|
+
|
|
364
|
+
|
|
365
|
+
## Common-sense Reasoning
|
|
366
|
+
|
|
367
|
+
### GoldenSwag-pt
|
|
368
|
+
|
|
369
|
+
This dataset is a filtered and machine translated version of the English [HellaSwag dataset](https://aclanthology.org/P19-1472/), featuring both video descriptions from ActivityNet as well as how-to articles from WikiHow. The machine translated version was published in [this paper](https://doi.org/10.48550/arXiv.2410.08928) and was done using DeepL, and the filtering was published in [this paper](https://doi.org/10.48550/arXiv.2504.07825), which resulted in higher quality samples.
|
|
370
|
+
|
|
371
|
+
The original full dataset consists of 1530 / 1530 samples for training and validation, respectively. However, they are exactly equal. We use a split of 660 / 256 / 2,048 samples for training, validation, and testing, respectively.
|
|
372
|
+
|
|
373
|
+
Here are a few examples from the training split:
|
|
374
|
+
|
|
375
|
+
```json
|
|
376
|
+
{
|
|
377
|
+
"text": "Como fazer com que o seu namorado à distância se sinta especial. Escreva uma carta de amor à moda antiga para enviar por correio normal. Embora seja possível enviar um e-mail instantaneamente, receber um pacote ou uma carta pelo correio é um esforço muito mais íntimo e sincero. As cartas também criam uma recordação que não pode ser feita por correio eletrónico.\nOpções:\na. Não se preocupe em escrever o poema perfeito ou algo profundo, o facto de se ter esforçado por escrever é suficiente. Pode fazer um desenho, encontrar um cartão pré-fabricado ou até enviar um postal de um local especial.\nb. Considere a possibilidade de criar um álbum de recortes com as notas do seu casamento como forma de surpreender o seu namorado com flores, um colar sentido ou até uma caixa com os brinquedos favoritos dele. A carta irá acompanhar a maioria dos filmes favoritos dele, dos quais você e o seu homem gostam de falar.\nc. Numa carta, escrevem-se palavras que vão até ao coração da pessoa. Se quiser enganar alguém para que lhe conte um pequeno segredo que lhe contou, tem de ter cuidado.\nd. Escreva-o em silêncio, não em voz alta e clara, e peça ao destinatário que o leia duas vezes. Utilize a linha de assunto para explicar a razão pela qual está a escrever ao seu namorado.",
|
|
378
|
+
"label": "a"
|
|
379
|
+
}
|
|
380
|
+
```
|
|
381
|
+
|
|
382
|
+
```json
|
|
383
|
+
{
|
|
384
|
+
"text": "Como cultivar inhame. Comece a cultivar os rebentos. Os inhames não são cultivados a partir de sementes como a maioria dos outros vegetais - eles crescem a partir de estacas, que são derivadas dos rebentos de inhames adultos. Para fazer crescer os rebentos, corte um inhame ao meio e mergulhe uma das partes num copo de água fria.\nOpções:\na. Mesmo antes de as plantas começarem a brotar, escave um pedaço do caule e coloque-o debaixo da água para que fique nivelado com o fundo do copo. Repita este processo até ter cerca de 5 cm de caule.\nb. A meio do processo de imersão, feche a outra metade num balde de água comercial. Pense em usar latas, baldes tupperware e outros recipientes que sejam grandes o suficiente para conter vários inhames de uma vez.\nc. Você deve ver as sementes brotarem. Se não conseguir, corte pequenas secções e mantenha os rebentos no copo de água fria.\nd. Insira palitos de dentes em três pontos à volta do meio do inhame e suspenda-o sobre o recipiente, meio submerso na água. Certifique-se de que o inhame escolhido tem um aspeto saudável.",
|
|
385
|
+
"label": "d"
|
|
386
|
+
}
|
|
387
|
+
```
|
|
388
|
+
|
|
389
|
+
```json
|
|
390
|
+
{
|
|
391
|
+
"text": "Como detetar o plágio. Utilize aplicações online gratuitas que não requerem subscrições ou inscrições para verificar documentos electrónicos. Pesquise no Google "verificador de plágio" para encontrar uma série de aplicações Web gratuitas que contêm caixas onde pode colar o texto suspeito. Carregue no botão verificar e deixe que a aplicação analise a Internet em busca de instâncias de texto duplicado.\nOpções:\na. Qualquer coisa que apareça indica que está a utilizar uma destas aplicações gratuitas. Normalmente, é necessário iniciar sessão no início da aplicação.\nb. Cuidado! Utilizar os motores de busca para descobrir alguns sites oficiais de educação e classificá-los como "falsos". Exemplo: ' math problem manuscript for mr.\nc. Se quiser converter pdfs em texto, pode fazê-lo. Alguém que entregue um documento pdf, embora não seja inerentemente suspeito, pode ser um sinal de que está a tentar evitar ser apanhado.\nd. Aparecerá uma janela de teste a perguntar se precisa de uma aplicação de pesquisa. Se não precisar, escolha google ' anti-pasteurização.",
|
|
392
|
+
"label": "c",
|
|
393
|
+
}
|
|
394
|
+
```
|
|
395
|
+
|
|
396
|
+
When evaluating generative models, we use the following setup (see the
|
|
397
|
+
[methodology](/methodology) for more information on how these are used):
|
|
398
|
+
|
|
399
|
+
- Number of few-shot examples: 5
|
|
400
|
+
- Prefix prompt:
|
|
401
|
+
```
|
|
402
|
+
As seguintes são perguntas de escolha múltipla (com respostas).
|
|
403
|
+
```
|
|
404
|
+
- Base prompt template:
|
|
405
|
+
```
|
|
406
|
+
Pergunta: {text}
|
|
407
|
+
Opções:
|
|
408
|
+
a. {option_a}
|
|
409
|
+
b. {option_b}
|
|
410
|
+
c. {option_c}
|
|
411
|
+
d. {option_d}
|
|
412
|
+
Resposta: {label}
|
|
413
|
+
```
|
|
414
|
+
- Instruction-tuned prompt template:
|
|
415
|
+
|
|
416
|
+
```
|
|
417
|
+
Pergunta: {text}
|
|
418
|
+
Opções:
|
|
419
|
+
a. {option_a}
|
|
420
|
+
b. {option_b}
|
|
421
|
+
c. {option_c}
|
|
422
|
+
d. {option_d}
|
|
423
|
+
|
|
424
|
+
Responde à pergunta acima usando só 'a' ou 'b', 'c' ou 'd', e nada mais.
|
|
425
|
+
```
|
|
426
|
+
|
|
427
|
+
You can evaluate this dataset directly as follows:
|
|
428
|
+
|
|
429
|
+
```bash
|
|
430
|
+
$ euroeval --model <model-id> --dataset goldenswag-pt
|
|
431
|
+
```
|
|
432
|
+
|
|
433
|
+
|
|
434
|
+
## Summarization
|
|
435
|
+
|
|
436
|
+
### Publico
|
|
437
|
+
|
|
438
|
+
This dataset contains 3,304 news articles from the Portuguese newspaper *Público* paired with extractive-style summaries. The samples all come from the [CCNews corpus](https://commoncrawl.org/blog/news-dataset-available).
|
|
439
|
+
|
|
440
|
+
To create summary–document pairs, we extract the **first two sentences** of each article as the `target_text` (summary), and concatenate the **title and the remainder** of the article into `text`. This heuristic is grounded in the journalistic convention of placing concise leads at the beginning of articles.
|
|
441
|
+
|
|
442
|
+
We provide 3 splits:
|
|
443
|
+
- Train: 1,024 examples
|
|
444
|
+
- Validation: 256 examples
|
|
445
|
+
- Test: 2,024 examples
|
|
446
|
+
|
|
447
|
+
Here are a few examples from the training split:
|
|
448
|
+
|
|
449
|
+
|
|
450
|
+
```json
|
|
451
|
+
{
|
|
452
|
+
"text": "As grandes transições, o risco de disrupção\nPor que razão se acumulam tantos riscos elevados e com tal perigosidade? A razão principal, quero crer, reside no afloramento dos impactos das grandes transições - climática, ecológica, energética, demográfica, digital, migratória, laboral, sociocultural e sociopolítica - e numa inusitada convergência de todos os seus efeitos, internos e externos, nas décadas mais próximas e, bem assim, na impotência da política, tal como a conhecemos, para lidar com tantos eventos de tal amplitude. Senão vejamos. A vertigem digital e as suas inúmeras provações Eis o vórtice em que estamos metidos: chips e sensores, drones e câmaras de vigilância, interfaces cérebro-computacionais e nano-implantes, máquinas inteligentes e mestres algoritmos, robots e veículos autónomos, torres e antenas. Neste ambiente congestionado e num campo eletromagnético 4G+5G cada vez mais preenchido, seria impossível não acontecerem interações fortuitas, incidentes imprevistos, impactos inusitados, descobertas acidentais. Estamos, assim, obrigados a multiplicar os ângulos de observação e as perspetivas de olhar para os problemas. A surpresa pode ser, deveras, surpreendente. Basta, apenas, que aconteçam alguns acidentes graves cuja responsabilidade seja atribuída, “afinal”, à utilização abusiva de sistemas de inteligência automáticos e veículos autónomos. Estou convencido de que neste novo ambiente de virtualidade real a descontextualização que a inteligência artificial e automática carrega consigo nos fará passar inúmeras provações. Velocidade e colisão Com a chegada das redes 4G e 5G chegam as tecnologias mais disruptivas, mas chega, também, o risco de mais imersão, invasão e intrusão, ou seja, o risco iminente de uma grande colisão. Dito de outro modo, com a chegada das redes distribuídas as tecnologias imersivas, intrusivas e invasivas irão colidir, tarde ou cedo, com os seus destinatários potenciais. O que importa sublinhar nesta altura, no preciso momento em que a alta velocidade da rede 5G está para chegar, é o risco muito elevado de uma “grande colisão por excesso de velocidade”. De facto, a pandemia da covid-19 mostra-nos que está iminente uma grande colisão entre o infinitamente grande dos macro-organismos, os seres humanos que nós somos, e o infinitamente pequeno dos microorganismos, como é o caso da covid-19. Efeitos assimétricos Os efeitos assimétricos destas grandes transições vão deixar muitos territórios para trás. Cada transição tem o seu ciclo de vida específico, com uma duração variável, e é completamente impossível abordar todas as suas consequências no âmbito limitado de uma escala de tempo ou geografia em concreto. Ou seja, cada território nacional ou regional acabará por sofrer, tarde ou cedo, os danos colaterais de medidas erradas tomadas pelos territórios seus vizinhos. É nesta altura, justamente, que organizações supranacionais como a União Europeia ou subnacionais como as comunidades intermunicipais poderão e deverão mostrar toda a sua relevância geoeconómica e geopolítica. As interações fortuitas e os imponderáveis do acaso As características principais da rede 5G são a hipervelocidade, baixa latência, alta conectividade, elevada densidade e intensidade, curto alcance. Se pensarmos, agora, no polígono digital que esta rede nos oferece – Big data e computação na nuvem, (BDCC), Internet dos objetos (IOT), Inteligência artificial (IA), Realidade aumentada e virtual (RAV), Computação periférica (EC) – e na interação intensa entre estes e outros dispositivos tecnológicos e digitais, estamos cada vez mais próximos das chamadas “propriedades emergentes” do “serendipismo” (do inglês serenpidity), a saber, interações fortuitas, incidentes imprevistos, impactos inusitados, descobertas acidentais. Ou seja, perante a interdependência máxima crescem extraordinariamente os imponderáveis do acaso. Dispositivos tecnológicos e assistentes inteligentes Na sociedade da informação e da comunicação a inteligência deixou de estar contida nos limites humanos originais. Com efeito, nos dias que correm, a inteligência está dispersa e difusa, manifesta-se sob múltiplas formas e interage com praticamente tudo o que nos envolve. Deste ponto de vista, a realidade não para de aumentar todos os dias à medida que a inteligência se transfere para ambientes inteligentes que são extensões da nossa própria inteligência. Hoje tudo é smart, desde a realidade virtual e aumentada aos interfaces cérebro-computacionais, desde a inteligência dos objetos até à inteligência das máquinas. De facto, a nossa inteligência e as faculdades humanas estão a transitar para fora do seu habitat biológico e o corpo humano instala-se em dispositivos tecnológicos transumanos e pós-humanos cuja configuração futura nem sequer imaginamos. Entre a distração e a alucinação Somos screeners muitas horas por dia, é impossível manter a atenção num ambiente completamente saturado de notificações e avisos. A multiplicação dos dispositivos tecnológicos e digitais – uma espécie de sexto continente - exige de nós uma atualização constante. Todos os dias mergulhamos num imenso oceano de informação, experimentamos uma vertigem permanente para separar o essencial do acessório e lutamos com imensas dificuldades para administrar a nossa economia da atenção. No final do dia estamos exaustos e no dia seguinte, ainda debilitados, tudo recomeça. Na vertigem o foco da atenção converte-se num turbilhão, talvez, mesmo, em delírio e alucinação. As mudanças paradigmáticas Entre tantas transições previsíveis e excecionais haverá, também, mudanças paradigmáticas, cujos sinais de longo alcance só alguns vislumbrarão. O drama das mudanças paradigmáticas é que elas não se compadecem com a duração dos ciclos políticos curtos e muito menos com programas de governo reativos. A redução dos passivos climáticos, tais como o sequestro e armazenamento de carbono, ou a mudança de alguns aspetos nucleares do modelo de desenvolvimento dominante, por exemplo, a revisão de algumas cadeias de valor no sentido da sua reterritorialização, ou, ainda, a mudança de aspetos fundamentais do nosso comportamento quotidiano, por exemplo, no que diz respeito ao cumprimento de regras base de economia circular. Quer dizer, temos de estar avisados, não podemos permitir que os efeitos contraproducentes ou paradoxais das várias transições acabem por absorver os pequenos/grandes sinais das mudanças paradigmáticas. Notas Finais Como se observa, o risco de disrupção está sempre presente, seja o carácter invasivo e intrusivo das tecnologias 5G, a histeria coletiva de informação e comunicação num ambiente totalmente saturado, a crença nos mestres-algoritmos e na metalinguagem normalizadora das plataformas digitais. Digamos que, doravante, crescerá bastante o risco sistémico da economia digital 4G e 5G e, nesse sentido, estamos obrigados a desenvolver treino específico e capacidades especiais para entender e antecipar como se forjam e desenvolvem as interações fortuitas, os incidentes imprevistos e, por via deles, também, as descobertas acidentais. Este é o grande paradoxo do nosso tempo. Mais liberdade, mais incerteza, mais episódios acidentais. Por outro lado, os sinais dessas interações acidentais podem ser de tal modo fortuitos e furtivos que dificilmente caberão no interior das nossas métricas conceptuais e instrumentais habituais. O nosso arsenal teórico e, muito em especial, o campo das ciências sociais e humanas, com origem no iluminismo moderno e na cultura analógica, estão definitivamente postos em causa e a academia deve preparar-se para rever o seu estatuto científico eminente se não quiser ser um ator secundário que corre pelo lado de fora da realidade da cultura tecnológica e digital.",
|
|
453
|
+
"target_text": "O nosso tempo não corre de feição. Desastres ambientais motivados por alterações climáticas, campos de refugiados em número crescente, pandemia da covid-19, elevado número de abalos de terra e erupções vulcânicas, adição digital e ódio nas redes sociais, polarização social e radicalização política, crise da transição energética, precariedade nos mercados de trabalho e baixos salários, dívidas públicas acumuladas gigantescas, crescente tensão geopolítica entre grandes potências."
|
|
454
|
+
}
|
|
455
|
+
```
|
|
456
|
+
```json
|
|
457
|
+
{
|
|
458
|
+
"text": "Sloane Stephens bateu todas as probabilidades\nFiel às indicações do treinador – “Respira, bate na bola, mexe os pés” –, Stephens soube controlar melhor as emoções, embora, na véspera não soubesse o que fazer para lidar com o nervosismo. “Estive a ler revistas de carros, críticas sobre a segurança… é um pouco estranho mas foi o que fiz. Estava muito nervosa, mas sabia que ela, provavelmente, sentia o mesmo”, contou a norte-americana de 24 anos. Não foi preciso muito tempo para se saber quem estava mais à vontade no Arthur Ashe Stadium: três erros directos de Keys conduziram ao primeiro break e deram uma vantagem de 3-2 à compatriota. A ansiedade da jogadora de 22 anos foi aumentando, o que não ajudou a que reencontrasse o seu ténis poderoso. E Keys terminou com somente metade dos pontos disputados com o seu primeiro serviço e sem concretizar nenhum dos três break-points – todos no segundo jogo do segundo set. Mais conservadora no seu estilo de jogo, Stephens não precisou muito mais do que manter a bola em campo para manter o ascendente no encontro. Mas também serviu bem, contra-atacou e defendeu-se muito bem nas esporádicas tentativas de reacção de Keys, e fechou o encontro ao fim dos 61 minutos. “Fiz seis erros em todo o encontro? Inacreditável! Acho que isso nunca me aconteceu antes”, confessou Stephens, já na conferência de imprensa, após a vitória por 6-3, 6-0. Antes, também tinha ficado boquiaberta quando Keys cometeu o último erro, no terceiro match-point. “’Ganhei mesmo o Open dos EUA’. Fiquei assim um bocadinho… Uau!”, admitiu. E foi de estupefacção o seu ar quando recebeu o cheque de três milhões de euros. Pelo meio, abraçou longamente na rede a amiga Maddy, que não conseguiu conter as lágrimas. E depois de subir às bancadas para abraçar treinador, família e o namorado (o futebolista Jozy Altidore), foi sentar-se ao lado dela, fazendo-a sorrir. “Sendo a amiga que é, Sloane apoiou-me muito”, contou Keys, que também reconheceu os nervos. “Estive nervosa toda a manhã, obviamente. Sloane é uma adversária difícil de defrontar, especialmente quando não metemos muitas bolas e ela também não falha. Não sabia o que fazer quando estava no court, o que intensificou ainda mais o nervosismo”, admitiu Keys. Por causa das paragens forçadas, nenhuma delas vai surgir no "top-10" do ranking desta segunda-feira. Stephens, que regressou à competição em Julho, após uma paragem de 11 meses e uma operação ao pé direito, vai surgir no 17.º lugar. Já Keys, operada por duas vezes ao pulso esquerdo, a segunda em Junho, vai subir ao 12.º lugar. Mas com o regresso em pleno das veteranas Serena Williams, Victoria Azarenka e Maria Sharapova, o confronto com a nova geração, em que se incluem as duas norte-americanas, mas também as campeãs Jelena Ostapenko (Roland Garros) e Garbiñe Muguruza (Wimbledon), vai elevar o interesse sobre o circuito feminino em 2018. Quatro anos e meio depois de derrotar Serena Williams, ser apontada como sua sucessora e chegar às meias-finais do Open da Austrália, Stephens está orgulhosa por ter confirmado as expectativas. “Um dia, vou poder mostrar aos meus filhos que venci o Open dos EUA. Quantas pessoas podem dizer isto? Até já gravaram o meu nome no vestuário. Isto é espantoso”, disse Stephens, ainda incrédula.",
|
|
459
|
+
"target_text": "Se já era altamente improvável que duas jogadoras vindas de recentes intervenções cirúrgicas pudessem, poucos meses depois, estar numa final de um torneio do Grand Slam, as hipóteses de Sloane Stephens vencer o Open dos EUA eram mais reduzidas depois da sua amiga Madison Keys ter realizado uma exibição de sonho nas meias-finais. Mas, no derradeiro encontro entre duas estreantes em finais de majors, o maior nervosismo de Keys impediu-a de produzir o ténis que a levou a eliminar Venus Williams e, com 30 erros não forçados, contribuiu com metade dos pontos ganhos por Stephens e suficientes para erguer o seu primeiro troféu do Grand Slam."
|
|
460
|
+
}
|
|
461
|
+
```
|
|
462
|
+
```json
|
|
463
|
+
{
|
|
464
|
+
"text": "Praia algarvia entre as seis melhores do mundo, destaca TripAdvisor\nDesta vez, deixa a segunda metade da tabela para firmar-se entre os dez melhores areais do planeta, subindo seis lugares em relação a 2021. “É uma praia deslumbrante... o sol bate nos diferentes tons de areia laranja e amarela das falésias altas que reflectem uma cor quente”, lê-se no comentário de um utilizador, destacado pela TripAdvisor em comunicado. “A própria areia da praia é um amarelo dourado de grão fino. As ondas quebram na praia com uma ferocidade gentil que cria um surf branco para nadadores e surfistas.” Para criar a lista, renovada anualmente, a TripAdvisor revê “dezenas de milhões de avaliações enviadas por milhões de viajantes globais nos últimos 12 meses”, analisando “a qualidade e a quantidade das avaliações” para “determinar as praias favoritas dos viajantes” no ano anterior, antecipando tendências para os próximos meses. Este ano, as escapadelas para praias insulares surgem particularmente “populares”, “com quase três quartos das dez melhores do mundo a situarem-se em locais remotos”, destaca a empresa em comunicado. É o caso da praia vencedora de 2023, a brasileira Baía do Sancho, localizada na ilha Fernando de Noronha. É um regresso ao topo da lista, subindo seis posições relativamente ao ano passado. Outro destaque é uma “nova e empolgante entrada”: a “dramática” praia de Reynisfjara, em Vik, na Islândia. “É uma praia como nenhuma outra”, assegura a nota de imprensa. “Com as suas mundialmente famosas areias negras e imponentes formações rochosas que se elevam sobre a costa, alguns podem reconhecer o impressionante cenário de A Guerra dos Tronos.” Apesar de “popular entre os observadores de pássaros devido aos vários tipos de aves marinhas avistadas nas proximidades, principalmente os papagaios-do-mar”, as “águas geladas” e as ondas, que podem atingir os 40 metros de altitude, não convidam a banhos. “É uma praia mais bem admirada da segurança do litoral.” “Além das adoradas praias do Havai, das Caraíbas e da Europa continental, a nossa comunidade está mesmo à procura de melhorar as suas experiências ao abraçar as falésias de Cannon Beach, na costa de Oregon, no Oeste dos Estados Unidos, e destinos mais frios, como a praia de Reynisfjara, na Islândia”, nota Sarah Firshein, chefe editorial da TripAdvisor, em comunicado.",
|
|
465
|
+
"target_text": "As “exuberantes falésias de areia vermelha” que emolduram “uma praia de areia branca que parece estender-se infinitamente”, terminando num “oceano azul-esverdeado”, valeram à praia da Falésia, situada em Olhos de Água, no concelho de Albufeira, o sexto lugar do ranking das melhores praias do mundo, eleito anualmente pelos Traveler's Choice Awards, da TripAdvisor. Há anos que o areal algarvio surge entre as preferências dos utilizadores da plataforma internacional, mantendo-se a única praia portuguesa no top mundial.",
|
|
466
|
+
}
|
|
467
|
+
```
|
|
468
|
+
|
|
469
|
+
When evaluating generative models, we use the following setup (see the
|
|
470
|
+
[methodology](/methodology) for more information on how these are used):
|
|
471
|
+
|
|
472
|
+
- Number of few-shot examples: 1
|
|
473
|
+
- Prefix prompt:
|
|
474
|
+
```
|
|
475
|
+
Abaixo encontras documentos com resumos associados.
|
|
476
|
+
```
|
|
477
|
+
- Base prompt template:
|
|
478
|
+
```
|
|
479
|
+
Documento: {text}
|
|
480
|
+
Resumo: {target_text}
|
|
481
|
+
```
|
|
482
|
+
- Instruction-tuned prompt template:
|
|
483
|
+
```
|
|
484
|
+
Documento: {text}
|
|
485
|
+
|
|
486
|
+
Escreve um resumo do documento anterior.
|
|
487
|
+
```
|
|
488
|
+
|
|
489
|
+
You can evaluate this dataset directly as follows:
|
|
490
|
+
|
|
491
|
+
```bash
|
|
492
|
+
$ euroeval --model <model-id> --dataset publico
|
|
493
|
+
```
|
|
@@ -42,6 +42,7 @@ def build_benchmark_config(
|
|
|
42
42
|
num_iterations: int,
|
|
43
43
|
api_base: str | None,
|
|
44
44
|
api_version: str | None,
|
|
45
|
+
gpu_memory_utilization: float,
|
|
45
46
|
debug: bool,
|
|
46
47
|
run_with_cli: bool,
|
|
47
48
|
only_allow_safetensors: bool,
|
|
@@ -102,6 +103,11 @@ def build_benchmark_config(
|
|
|
102
103
|
model on an inference API.
|
|
103
104
|
api_version:
|
|
104
105
|
The version of the API to use for a given inference API.
|
|
106
|
+
gpu_memory_utilization:
|
|
107
|
+
The GPU memory utilization to use for vLLM. A larger value will result in
|
|
108
|
+
faster evaluation, but at the risk of running out of GPU memory. Only reduce
|
|
109
|
+
this if you are running out of GPU memory. Only relevant if the model is
|
|
110
|
+
generative.
|
|
105
111
|
debug:
|
|
106
112
|
Whether to run the benchmark in debug mode.
|
|
107
113
|
run_with_cli:
|
|
@@ -154,6 +160,7 @@ def build_benchmark_config(
|
|
|
154
160
|
num_iterations=num_iterations,
|
|
155
161
|
api_base=api_base,
|
|
156
162
|
api_version=api_version,
|
|
163
|
+
gpu_memory_utilization=gpu_memory_utilization,
|
|
157
164
|
debug=debug,
|
|
158
165
|
run_with_cli=run_with_cli,
|
|
159
166
|
only_allow_safetensors=only_allow_safetensors,
|
|
@@ -757,7 +757,7 @@ def load_model_and_tokenizer(
|
|
|
757
757
|
model = LLM(
|
|
758
758
|
model=model_id,
|
|
759
759
|
tokenizer=model_id,
|
|
760
|
-
gpu_memory_utilization=
|
|
760
|
+
gpu_memory_utilization=benchmark_config.gpu_memory_utilization,
|
|
761
761
|
max_model_len=min(true_max_model_len, MAX_CONTEXT_LENGTH),
|
|
762
762
|
download_dir=download_dir,
|
|
763
763
|
trust_remote_code=benchmark_config.trust_remote_code,
|
|
@@ -78,6 +78,7 @@ class Benchmarker:
|
|
|
78
78
|
num_iterations: int = 10,
|
|
79
79
|
api_base: str | None = None,
|
|
80
80
|
api_version: str | None = None,
|
|
81
|
+
gpu_memory_utilization: float = 0.9,
|
|
81
82
|
debug: bool = False,
|
|
82
83
|
run_with_cli: bool = False,
|
|
83
84
|
only_allow_safetensors: bool = False,
|
|
@@ -145,6 +146,11 @@ class Benchmarker:
|
|
|
145
146
|
to a model on an inference API. Defaults to None.
|
|
146
147
|
api_version:
|
|
147
148
|
The version of the API to use. Defaults to None.
|
|
149
|
+
gpu_memory_utilization:
|
|
150
|
+
The GPU memory utilization to use for vLLM. Only relevant if the model
|
|
151
|
+
is generative. A larger value will result in faster evaluation, but at
|
|
152
|
+
the risk of running out of GPU memory. Only reduce this if you are
|
|
153
|
+
running out of GPU memory. Defaults to 0.9.
|
|
148
154
|
debug:
|
|
149
155
|
Whether to output debug information. Defaults to False.
|
|
150
156
|
run_with_cli:
|
|
@@ -192,6 +198,7 @@ class Benchmarker:
|
|
|
192
198
|
num_iterations=num_iterations,
|
|
193
199
|
api_base=api_base,
|
|
194
200
|
api_version=api_version,
|
|
201
|
+
gpu_memory_utilization=gpu_memory_utilization,
|
|
195
202
|
debug=debug,
|
|
196
203
|
run_with_cli=run_with_cli,
|
|
197
204
|
only_allow_safetensors=only_allow_safetensors,
|