EuroEval 15.12.0__tar.gz → 15.14.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.


This version of EuroEval might be problematic. Click here for more details.

Files changed (252) hide show
  1. {euroeval-15.12.0 → euroeval-15.14.0}/.github/ISSUE_TEMPLATE/benchmark_dataset_request.yaml +1 -0
  2. {euroeval-15.12.0 → euroeval-15.14.0}/.github/ISSUE_TEMPLATE/model_evaluation_request.yaml +1 -1
  3. {euroeval-15.12.0 → euroeval-15.14.0}/.pre-commit-config.yaml +1 -1
  4. {euroeval-15.12.0 → euroeval-15.14.0}/CHANGELOG.md +29 -0
  5. {euroeval-15.12.0 → euroeval-15.14.0}/PKG-INFO +2 -2
  6. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/danish.md +78 -8
  7. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/dutch.md +71 -2
  8. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/english.md +86 -15
  9. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/faroese.md +86 -15
  10. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/finnish.md +73 -1
  11. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/french.md +86 -15
  12. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/german.md +85 -15
  13. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/icelandic.md +101 -30
  14. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/italian.md +86 -15
  15. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/norwegian.md +142 -0
  16. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/portuguese.md +77 -0
  17. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/spanish.md +70 -1
  18. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/swedish.md +70 -1
  19. {euroeval-15.12.0 → euroeval-15.14.0}/pyproject.toml +2 -2
  20. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_modules/litellm.py +31 -4
  21. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/danish.py +10 -0
  22. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/dutch.py +10 -0
  23. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/english.py +10 -0
  24. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/faroese.py +10 -0
  25. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/finnish.py +10 -0
  26. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/french.py +10 -0
  27. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/german.py +10 -0
  28. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/icelandic.py +10 -0
  29. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/italian.py +10 -0
  30. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/norwegian.py +20 -0
  31. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/portuguese.py +29 -22
  32. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/spanish.py +10 -0
  33. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/swedish.py +10 -0
  34. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/reading_comprehension.py +10 -1
  35. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_boolq_pt.py +4 -4
  36. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_harem.py +4 -1
  37. euroeval-15.14.0/src/scripts/create_multi_wiki_qa.py +121 -0
  38. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_sst2_pt.py +4 -6
  39. {euroeval-15.12.0 → euroeval-15.14.0}/uv.lock +1763 -1384
  40. {euroeval-15.12.0 → euroeval-15.14.0}/.github/ISSUE_TEMPLATE/bug.yaml +0 -0
  41. {euroeval-15.12.0 → euroeval-15.14.0}/.github/ISSUE_TEMPLATE/feature_request.yaml +0 -0
  42. {euroeval-15.12.0 → euroeval-15.14.0}/.github/workflows/ci.yaml +0 -0
  43. {euroeval-15.12.0 → euroeval-15.14.0}/.gitignore +0 -0
  44. {euroeval-15.12.0 → euroeval-15.14.0}/CITATION.cff +0 -0
  45. {euroeval-15.12.0 → euroeval-15.14.0}/CODE_OF_CONDUCT.md +0 -0
  46. {euroeval-15.12.0 → euroeval-15.14.0}/CONTRIBUTING.md +0 -0
  47. {euroeval-15.12.0 → euroeval-15.14.0}/Dockerfile.cuda +0 -0
  48. {euroeval-15.12.0 → euroeval-15.14.0}/LICENSE +0 -0
  49. {euroeval-15.12.0 → euroeval-15.14.0}/NEW_DATASET_GUIDE.md +0 -0
  50. {euroeval-15.12.0 → euroeval-15.14.0}/README.md +0 -0
  51. {euroeval-15.12.0 → euroeval-15.14.0}/docs/CNAME +0 -0
  52. {euroeval-15.12.0 → euroeval-15.14.0}/docs/README.md +0 -0
  53. {euroeval-15.12.0 → euroeval-15.14.0}/docs/datasets/README.md +0 -0
  54. {euroeval-15.12.0 → euroeval-15.14.0}/docs/extras/radial_plotter.md +0 -0
  55. {euroeval-15.12.0 → euroeval-15.14.0}/docs/faq.md +0 -0
  56. {euroeval-15.12.0 → euroeval-15.14.0}/docs/gfx/favicon.png +0 -0
  57. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/danish.md +0 -0
  58. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/dutch.md +0 -0
  59. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/english.md +0 -0
  60. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/faroese.md +0 -0
  61. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/finnish.md +0 -0
  62. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/french.md +0 -0
  63. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/german.md +0 -0
  64. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/icelandic.md +0 -0
  65. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/italian.md +0 -0
  66. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/norwegian.md +0 -0
  67. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/spanish.md +0 -0
  68. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Monolingual/swedish.md +0 -0
  69. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Multilingual/european.md +0 -0
  70. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Multilingual/germanic.md +0 -0
  71. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Multilingual/mainland-scandinavian.md +0 -0
  72. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/Multilingual/romance.md +0 -0
  73. {euroeval-15.12.0 → euroeval-15.14.0}/docs/leaderboards/README.md +0 -0
  74. {euroeval-15.12.0 → euroeval-15.14.0}/docs/methodology.md +0 -0
  75. {euroeval-15.12.0 → euroeval-15.14.0}/docs/python-package.md +0 -0
  76. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/README.md +0 -0
  77. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/common-sense-reasoning.md +0 -0
  78. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/knowledge.md +0 -0
  79. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/linguistic-acceptability.md +0 -0
  80. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/named-entity-recognition.md +0 -0
  81. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/reading-comprehension.md +0 -0
  82. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/sentiment-classification.md +0 -0
  83. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/speed.md +0 -0
  84. {euroeval-15.12.0 → euroeval-15.14.0}/docs/tasks/summarization.md +0 -0
  85. {euroeval-15.12.0 → euroeval-15.14.0}/gfx/euroeval.png +0 -0
  86. {euroeval-15.12.0 → euroeval-15.14.0}/gfx/euroeval.xcf +0 -0
  87. {euroeval-15.12.0 → euroeval-15.14.0}/gfx/scandeval.png +0 -0
  88. {euroeval-15.12.0 → euroeval-15.14.0}/makefile +0 -0
  89. {euroeval-15.12.0 → euroeval-15.14.0}/mkdocs.yaml +0 -0
  90. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/__init__.py +0 -0
  91. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_config_factory.py +0 -0
  92. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_modules/__init__.py +0 -0
  93. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_modules/base.py +0 -0
  94. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_modules/fresh.py +0 -0
  95. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_modules/hf.py +0 -0
  96. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmark_modules/vllm.py +0 -0
  97. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/benchmarker.py +0 -0
  98. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/callbacks.py +0 -0
  99. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/cli.py +0 -0
  100. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/constants.py +0 -0
  101. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/data_loading.py +0 -0
  102. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/data_models.py +0 -0
  103. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/dataset_configs/__init__.py +0 -0
  104. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/enums.py +0 -0
  105. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/exceptions.py +0 -0
  106. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/finetuning.py +0 -0
  107. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/generation.py +0 -0
  108. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/generation_utils.py +0 -0
  109. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/human_evaluation.py +0 -0
  110. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/languages.py +0 -0
  111. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/metrics.py +0 -0
  112. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/model_cache.py +0 -0
  113. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/model_config.py +0 -0
  114. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/model_loading.py +0 -0
  115. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/__init__.py +0 -0
  116. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/linguistic_acceptability.py +0 -0
  117. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/multiple_choice.py +0 -0
  118. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/named_entity_recognition.py +0 -0
  119. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/sentiment_classification.py +0 -0
  120. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/prompt_templates/summarization.py +0 -0
  121. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/scores.py +0 -0
  122. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/speed_benchmark.py +0 -0
  123. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/task_group_utils/__init__.py +0 -0
  124. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/task_group_utils/multiple_choice_classification.py +0 -0
  125. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/task_group_utils/question_answering.py +0 -0
  126. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/task_group_utils/sequence_classification.py +0 -0
  127. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/task_group_utils/text_to_text.py +0 -0
  128. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/task_group_utils/token_classification.py +0 -0
  129. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/tasks.py +0 -0
  130. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/tokenization_utils.py +0 -0
  131. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/types.py +0 -0
  132. {euroeval-15.12.0 → euroeval-15.14.0}/src/euroeval/utils.py +0 -0
  133. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/constants.py +0 -0
  134. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_allocine.py +0 -0
  135. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_angry_tweets.py +0 -0
  136. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_arc.py +0 -0
  137. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_arc_is.py +0 -0
  138. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_belebele.py +0 -0
  139. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_cnn_dailymail.py +0 -0
  140. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_conll_en.py +0 -0
  141. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_conll_es.py +0 -0
  142. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_conll_nl.py +0 -0
  143. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_dane.py +0 -0
  144. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_danish_citizen_tests.py +0 -0
  145. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_dansk.py +0 -0
  146. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_danske_talemaader.py +0 -0
  147. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_danske_talemaader_old.py +0 -0
  148. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_dbrd.py +0 -0
  149. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_dutch_cola.py +0 -0
  150. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_eltec.py +0 -0
  151. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_fone.py +0 -0
  152. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_foqa.py +0 -0
  153. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_fosent.py +0 -0
  154. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_fquad.py +0 -0
  155. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_germanquad.py +0 -0
  156. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_germeval.py +0 -0
  157. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_goldenswag_pt.py +0 -0
  158. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_hellaswag.py +0 -0
  159. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_hellaswag_fi.py +0 -0
  160. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_hotter_and_colder_sentiment.py +0 -0
  161. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_ice_linguistic.py +0 -0
  162. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_icelandic_error_corpus.py +0 -0
  163. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_icelandic_knowledge.py +0 -0
  164. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_icelandic_qa.py +0 -0
  165. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_icesum.py +0 -0
  166. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_idioms_no.py +0 -0
  167. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_ilpost_sum.py +0 -0
  168. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_jentoft.py +0 -0
  169. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_life_in_the_uk.py +0 -0
  170. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_mim_gold_ner.py +0 -0
  171. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_mlqa_es.py +0 -0
  172. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_mlsum_de.py +0 -0
  173. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_mlsum_es.py +0 -0
  174. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_mmlu.py +0 -0
  175. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_multinerd-it.py +0 -0
  176. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_no_cola.py +0 -0
  177. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_no_sammendrag.py +0 -0
  178. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_nor_common_sense_qa.py +0 -0
  179. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_nordjylland_news.py +0 -0
  180. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_norec.py +0 -0
  181. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_norglm_multiqa.py +0 -0
  182. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_norglm_multisum.py +0 -0
  183. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_norne.py +0 -0
  184. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_norquad.py +0 -0
  185. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_nqii.py +0 -0
  186. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_nrk_quiz_qa.py +0 -0
  187. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_orange_sum.py +0 -0
  188. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_personal_sum.py +0 -0
  189. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_publico.py +0 -0
  190. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_rrn.py +0 -0
  191. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_sb10k.py +0 -0
  192. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_scala.py +0 -0
  193. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_scandiqa.py +0 -0
  194. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_scandisent_fi.py +0 -0
  195. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_schibsted.py +0 -0
  196. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_sentiment_headlines_es.py +0 -0
  197. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_sentipolc16.py +0 -0
  198. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_squad.py +0 -0
  199. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_squad_it.py +0 -0
  200. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_squad_nl.py +0 -0
  201. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_squad_nl_old.py +0 -0
  202. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_sst5.py +0 -0
  203. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_suc3.py +0 -0
  204. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_swedn.py +0 -0
  205. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_swerec.py +0 -0
  206. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_turku_ner_fi.py +0 -0
  207. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_tydiqa_fi.py +0 -0
  208. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_wiki_lingua_nl.py +0 -0
  209. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_wikiann_fo.py +0 -0
  210. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_wikineural-it.py +0 -0
  211. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_winogrande_is.py +0 -0
  212. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_xlsum_fi.py +0 -0
  213. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/create_xquad_es.py +0 -0
  214. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/fix_dot_env_file.py +0 -0
  215. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/load_ud_pos.py +0 -0
  216. {euroeval-15.12.0 → euroeval-15.14.0}/src/scripts/versioning.py +0 -0
  217. {euroeval-15.12.0 → euroeval-15.14.0}/tests/__init__.py +0 -0
  218. {euroeval-15.12.0 → euroeval-15.14.0}/tests/conftest.py +0 -0
  219. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_config_factory.py +0 -0
  220. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_modules/__init__.py +0 -0
  221. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_modules/test_base.py +0 -0
  222. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_modules/test_fresh.py +0 -0
  223. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_modules/test_hf.py +0 -0
  224. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_modules/test_litellm.py +0 -0
  225. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmark_modules/test_vllm.py +0 -0
  226. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_benchmarker.py +0 -0
  227. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_callbacks.py +0 -0
  228. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_cli.py +0 -0
  229. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_constants.py +0 -0
  230. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_data_loading.py +0 -0
  231. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_data_models.py +0 -0
  232. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_dataset_configs.py +0 -0
  233. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_enums.py +0 -0
  234. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_exceptions.py +0 -0
  235. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_finetuning.py +0 -0
  236. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_generation.py +0 -0
  237. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_human_evaluation.py +0 -0
  238. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_languages.py +0 -0
  239. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_model_cache.py +0 -0
  240. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_model_config.py +0 -0
  241. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_model_loading.py +0 -0
  242. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_scores.py +0 -0
  243. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_speed_benchmark.py +0 -0
  244. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_task_utils/__init__.py +0 -0
  245. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_task_utils/test_question_answering.py +0 -0
  246. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_task_utils/test_sequence_classification.py +0 -0
  247. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_task_utils/test_text_to_text.py +0 -0
  248. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_task_utils/test_token_classification.py +0 -0
  249. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_tasks.py +0 -0
  250. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_tokenization_utils.py +0 -0
  251. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_types.py +0 -0
  252. {euroeval-15.12.0 → euroeval-15.14.0}/tests/test_utils.py +0 -0
@@ -32,6 +32,7 @@ body:
32
32
  - label: Icelandic
33
33
  - label: Italian
34
34
  - label: Norwegian (Bokmål or Nynorsk)
35
+ - label: Portuguese
35
36
  - label: Spanish
36
37
  - label: Swedish
37
38
  validations:
@@ -18,7 +18,7 @@ body:
18
18
  What languages should this model be evaluated on? Tick all that apply. If the
19
19
  model is multilingual (e.g., Mistral, Llama), then tick all the languages.
20
20
  options:
21
- - label: Romance languages (French, Italian, Spanish)
21
+ - label: Romance languages (French, Italian, Portuguese, Spanish)
22
22
  - label: Scandinavian languages (Danish, Faroese, Icelandic, Norwegian, Swedish)
23
23
  - label: West Germanic languages (Dutch, English, German)
24
24
  - label: Finnish
@@ -10,7 +10,7 @@ repos:
10
10
  - id: trailing-whitespace
11
11
  - id: debug-statements
12
12
  - repo: https://github.com/astral-sh/ruff-pre-commit
13
- rev: v0.12.4
13
+ rev: v0.12.7
14
14
  hooks:
15
15
  - id: ruff
16
16
  args:
@@ -10,6 +10,35 @@ and this project adheres to [Semantic Versioning](http://semver.org/spec/v2.0.0.
10
10
 
11
11
 
12
12
 
13
+ ## [v15.14.0] - 2025-07-30
14
+ ### Changed
15
+ - Now runs a "test run" for API inference models with a single conversation to check for
16
+ generation arguments that need changing, for instance if the model does not support
17
+ logprobs or requires a specific temperature. This was done previously in the first
18
+ batch, resulting in slower evaluation and many erroneous API calls. It is now
19
+ significantly faster and faces fewer rate limits.
20
+ - Now also uses LiteLLM's `supports_reasoning` function to check if a model supports
21
+ reasoning. This check is done on top of all the previous checks, for robustness.
22
+
23
+ ### Fixed
24
+ - Disabling thinking (with the `@no-thinking` suffix) did not work properly for
25
+ Anthropic models, as they don't support the `budget_tokens` parameter when thinking
26
+ is disabled. This has been fixed now, so that the `@no-thinking` suffix now works
27
+ properly for all models that support it.
28
+
29
+
30
+ ## [v15.13.0] - 2025-07-21
31
+ ### Added
32
+ - Added the new MultiWikiQA reading comprehension dataset for all languages, which is
33
+ based on Wikipedia articles along with questions and answers generated by
34
+ Gemini-1.5-pro. It has been set as unofficial for all languages except Portuguese,
35
+ which did not have an official reading comprehension dataset previously.
36
+
37
+ ### Fixed
38
+ - Updated lower bound version of the `accelerate` dependency to `1.9.0`, as this is
39
+ required to evaluate some ModernBERT models.
40
+
41
+
13
42
  ## [v15.12.0] - 2025-07-19
14
43
  ### Added
15
44
  - Added support for European Portuguese 🇵🇹 It includes 3 gold standard datasets and 4
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.4
2
2
  Name: EuroEval
3
- Version: 15.12.0
3
+ Version: 15.14.0
4
4
  Summary: The robust European language model benchmark.
5
5
  Project-URL: Repository, https://github.com/EuroEval/EuroEval
6
6
  Project-URL: Issues, https://github.com/EuroEval/EuroEval/issues
@@ -29,7 +29,7 @@ License: MIT License
29
29
  SOFTWARE.
30
30
  License-File: LICENSE
31
31
  Requires-Python: <4.0,>=3.10
32
- Requires-Dist: accelerate>=0.34.2
32
+ Requires-Dist: accelerate>=1.9.0
33
33
  Requires-Dist: bert-score>=0.3.13
34
34
  Requires-Dist: click>=8.1.3
35
35
  Requires-Dist: datasets>=3.5.0
@@ -294,31 +294,31 @@ Here are a few examples from the training split:
294
294
 
295
295
  ```json
296
296
  {
297
- "context": '"(Sittin\' On) The Dock of the Bay" er en sang, der er skrevet af soul-sangeren Otis Redding og guitaristen Steve Cropper sammen. Den blev indspillet af Redding to gange i 1967, herunder en gang få dage før hans død i et flystyrt. Sangen blev udgivet på Stax Records\' Volt-label i 1968 og blev den første posthume single, der lå øverst på hitlisterne i USA. Den nåede op som nummer 3 på den britiske single-liste.',
298
- "question": 'Hvem sang sitting on the dock of the bay?',
297
+ "context": "\"(Sittin\' On) The Dock of the Bay\" er en sang, der er skrevet af soul-sangeren Otis Redding og guitaristen Steve Cropper sammen. Den blev indspillet af Redding to gange i 1967, herunder en gang få dage før hans død i et flystyrt. Sangen blev udgivet på Stax Records\' Volt-label i 1968 og blev den første posthume single, der lå øverst på hitlisterne i USA. Den nåede op som nummer 3 på den britiske single-liste.",
298
+ "question": "Hvem sang sitting on the dock of the bay?",
299
299
  "answers": {
300
300
  "answer_start": array([79]),
301
- "text": array(['Otis Redding'], dtype=object)
301
+ "text": array(["Otis Redding"], dtype=object)
302
302
  }
303
303
  }
304
304
  ```
305
305
  ```json
306
306
  {
307
307
  "context": "The Cat in the Hat Knows a Lot About That!\nKatten i hatten ved meget om det!\n\n\n\nKatten i hatten pilot\n\n\n\nGenre\nBørne-tv/undervisning/komedie\n\n\nInstrueret af\nTony Collingwood\n\n\nStemmer fra\nMartin Short\nJacob Ewaniuk\nAlexa Torrington\nRob Tinkler\n\n\nKomponist af temamusik\nDavid Schweitzer\n\n\nKomponist(er)\nDavid Schweitzer\n\n\nOprindelsesland\nCanada\nDet Forenede Kongerige\nUSA\n\n\nOprindelige sprog\nEngelsk\n\n\nAntal sæsoner\n2\n\n\nAntal episoder\n60 (liste over episoder)\n\n\nProduktion\n\n\nLøbetid\n30 minutter\n\n\nProduktionsselskab(er)\nCollingwood O'Hare Productions\nPortfolio Entertainment\nRandom House Children's Entertainment\nTreehouse TV\n\n\nDistributør\nTreehouse TV\n\n\nUdgivelse\n\n\nOprindelige netværk\nTreehouse TV (Canada)\nPBS Kids (USA)\nCITV og Tiny Pop (UK)\n\n\nBilledformat\n480i (SDTV)\n1080i (HDTV)\n\n\nOriginaludgivelse\n7. august 2010 (2010-08-07) - nu\n\n\nEksterne links\n\n\nWebsted\npbskids.org/catinthehat/",
308
- "question": 'Hvem synger titelmelodien til the cat in the hat?',
308
+ "question": "Hvem synger titelmelodien til the cat in the hat?",
309
309
  "answers": {
310
310
  "answer_start": array([269]),
311
- "text": array(['David Schweitzer'], dtype=object)
311
+ "text": array(["David Schweitzer"], dtype=object)
312
312
  }
313
313
  }
314
314
  ```
315
315
  ```json
316
316
  {
317
- "context": 'Modern Slavery Act 2015\nLoven om moderne slaveri fra 2015 er en lov fra Det Forenede Kongeriges parlament. Den har til formål at bekæmpe slaveri i Det Forenede Kongerige og konsoliderer tidligere lovovertrædelser vedrørende menneskehandel og slaveri. Loven gælder for England og Wales. Lovforslaget blev forelagt underhuset i udkast i oktober 2013 af James Brokenshire, parlamentarisk undersekretær for kriminalitet og sikkerhed, i oktober 2013. Lovforslagets sponsorer i indenrigsministeriet var Theresa May og Lord Bates. Det fik kongelig samstemmende udtalelse og blev lov den 26. marts 2015.',
318
- "question": 'Hvornår trådte den moderne slaveri i kraft?',
317
+ "context": "Modern Slavery Act 2015\nLoven om moderne slaveri fra 2015 er en lov fra Det Forenede Kongeriges parlament. Den har til formål at bekæmpe slaveri i Det Forenede Kongerige og konsoliderer tidligere lovovertrædelser vedrørende menneskehandel og slaveri. Loven gælder for England og Wales. Lovforslaget blev forelagt underhuset i udkast i oktober 2013 af James Brokenshire, parlamentarisk undersekretær for kriminalitet og sikkerhed, i oktober 2013. Lovforslagets sponsorer i indenrigsministeriet var Theresa May og Lord Bates. Det fik kongelig samstemmende udtalelse og blev lov den 26. marts 2015.",
318
+ "question": "Hvornår trådte den moderne slaveri i kraft?",
319
319
  "answers": {
320
320
  "answer_start": array([580]),
321
- "text": array(['26. marts 2015'], dtype=object)
321
+ "text": array(["26. marts 2015"], dtype=object)
322
322
  }
323
323
  }
324
324
  ```
@@ -416,6 +416,76 @@ You can evaluate this dataset directly as follows:
416
416
  $ euroeval --model <model-id> --dataset belebele-da
417
417
  ```
418
418
 
419
+ ### Unofficial: MultiWikiQA-da
420
+
421
+ This dataset will be published in an upcoming paper, and contains Danish Wikipedia
422
+ articles with generated questions and answers, using the LLM Gemini-1.5-pro.
423
+
424
+ The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
425
+ 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
426
+
427
+ Here are a few examples from the training split:
428
+
429
+ ```json
430
+ {
431
+ "context": 'Rødspætten (Pleuronectes platessa) er en fladfisk, der findes overalt i de danske farvande. Den er i øvrigt udbredt fra Middelhavet til Island og Hvidehavet. Den foretrækker steder, hvor bunden består af sten, sand og grus. De unge rødspætter findes på lavt vand, mens de voksne foretrækker 10-50 meters dybde. Rødspætten er en højrevendt fladfisk, idet det normalt er højre side, der under larvens forvandling bliver til overside.\n\nUdseende \nRødspætten kan blive op til 100 centimeter, men bliver i Danmark sjældent over 50 centimeter. Den kendes bedst på, at der bag øjnene løber en buet køl med 4-7 benknuder. Skællene er små og glatte og ikke taglagte. Munden er lille med ret tykke læber. Begge øjne findes normalt på fiskens højre side. På oversiden er rødspætten oftest brunlig med et grønligt skær og med spredte rødlige pletter, der ofte er omgivet af lyse eller mørke ringe. Undersiden er hvid.\n\nLevevis \nRødspætten lever især af børsteorme og tyndskallede muslinger. Den er mest aktiv i døgnets mørke timer, mens den skjuler sig på bunden om dagen. Den skifter farve efter bundens farve og struktur. Rødspættens naturlige fjender er ud over mennesket f.eks. krabber og torsk.\n\nForplantning \nHannerne bliver i Nordsøen kønsmodne 3-4 år gamle og en længde på 20 centimeter, mens hunnerne kønsmodner et par år senere. I Østersøen bliver begge køn tidligere kønsmodne. Gydningen foregår normalt i 20-50 meters dybde i perioden januar til juni. Rødspætten foretrækker en temperatur på 6\xa0°C til gydningen. Æggene er glasklare med en diameter på cirka 2 millimeter og flyder op til overfladen. Efter 2-3 uger klækkes de 6 millimeter store larver. Larverne lever af planktonorganismer og begynder efter cirka 5 uger med en længde på 1 centimeter en forvandling, hvor venstre øje vandrer op over hovedet, der vrides, og kroppen bliver bredere. Til at begynde med svømmer de små rødspætter skråt og siden med højre side opad. Med en længde på 1,2-1,4 centimeter skifter de fra et pelagisk liv til at leve på lavt vand langs kysterne. I det første efterår måler rødspætten 7-12 centimeter og trækker ud, for at overvintre på dybere vand.\n\nKilder/Henvisninger \n\n C. V. Otterstrøm (1881-1962).\xa0Danmarks Fauna. Fisk II. Blødfinnefisk. G.E.C. Gads Forlag. København 1914.\n\nFladfisk',
432
+ "question": 'Hvilken side af rødspætten vender typisk opad?',
433
+ "answers": {
434
+ "answer_start": array([369]),
435
+ "text": array(['højre side'], dtype=object)
436
+ }
437
+ }
438
+ ```
439
+ ```json
440
+ {
441
+ "context": 'Mzilikazi ("blodvejen" eller "den store vej" ca. 1790–9. september 1868) var en sydafrikansk konge som grundlagde matabelekongedømmet i det område, som nu er Zimbabwe. Han var søn af Matshobana og blev født nær Mkuze i Zululand (nu del af Sydafrika) og døde ved Ingama i Matabeleland (nær Bulawayo, Zimbabwe). Mange regner ham som den største sydafrikanske militærleder efter zulukongen Shaka.\n\nHan førte sin stamme, khumalo, på en 800 km lang rejse fra Zululand til det, som nu er Zimbabwe. På vejen viste han betydelige statsmandsevner, da han samlede sit eget folk og de mange stammer han erobrede, til et stort, etnisk rigt og centraliseret kongedømme.\n\nHan var oprindelig en af Shakas løjtnanter, men i 1823 gjorde han oprør. Frem for at møde rituel henrettelse, flygtede han sammen med sin stamme. Han rejste først til Mozambique og i 1826 ind i Transvaal på grund af fortsatte angreb fra sine fjender.\n\nFortsatte angreb fik ham først til at flytte til dagens Botswana og i 1837 til det, som nu er Zambia Han klarede ikke at erobre den indfødte kololo–nation der og rejste til det, som blev kendt som Matabeleland (i dagens Zimbabwe) og slog sig ned der i 1840.\n\nEfter hans ankomst organiserede han sine tilhængere i et militærsystem med regiment–kraaler som kong Shakas, som blev stærke nok til at afvise boernes angreb i 1847–1851 og tvinge den Sydfrikanske Republiks regering til at underskrive en fredsaftale med ham i 1852.\n\nMzilikazi var generelt venlig over for europæisk rejsende, førte opdagelsen af guld i Matabeleland i 1867 til en flom af bosættere, som han ikke kunne kontrollere, og som førte til kongedømmets endelige nederlag under hans efterfølger Lobengula.\n\nKongelige fra historiske riger',
442
+ "question": 'Med hvilket øgenavn var Mzilikazi kendt?',
443
+ "answers": {
444
+ "answer_start": array([11]),
445
+ "text": array(['"blodvejen" eller "den store vej"'], dtype=object)
446
+ }
447
+ }
448
+ ```
449
+ ```json
450
+ {
451
+ "context": 'Jean-Nicolas Bouilly (24. januar 1763 i La Coudraye ved Tours – 14. april 1842 i Paris) var en fransk forfatter. \n\nEfter at have studeret jura sluttede Bouilly sig ved revolutionens udbrud til Mirabeau og Barnave og beklædte forskellige embeder, i hvilke han navnlig virkede for indførelsen af primærskoler og for folkeoplysning i det hele taget. Senere trak han sig tilbage og vedblev at leve uafhængig til sin død. 1790 opførtes hans opéra comique Pierre le Grand, med musik af Grétry. Af hans senere dramatiske arbejder kan nævnes L\'abbé de l\'Épée(1795), Les deux journées (1800), komponeret af Cherubini, Fanchon (1802), komponeret af Himmel, L\'intrigue aux fenêtres, Une folie (1803, med musik af Méhul; på dansk ved N.T. Bruun: "Ungdom og Galskab" [1806], med musik af Du Puy), Mme. de Sévigné (1805) og så videre. Desuden oversatte han flere stykker af Kotzebue. Hans skrifter for ungdommen stod i sin tid i høj kurs; hans stil er vidtsvævende og retorisk, hans billeder skruede, hele tonen så sentimental, at han fik navnet le poète lacrymal. Af disse skrifter kan nævnes: Contes offerts aux enfants de France, Contes à ma fille (1809), Conseils à ma fille (1811) og Les jeunes femmes (1819).\n\nKilder \n\n \n\nDramatikere fra Frankrig\nFranskmænd i 1700-tallet\nFranskmænd i 1800-tallet\nSalmonsens',
452
+ "question": 'Med hvilke politiske personer allierede Bouilly sig ved revolutionens begyndelse?',
453
+ "answers": {
454
+ "answer_start": array([193]),
455
+ "text": array(['Mirabeau og Barnave'], dtype=object)
456
+ }
457
+ }
458
+ ```
459
+
460
+ When evaluating generative models, we use the following setup (see the
461
+ [methodology](/methodology) for more information on how these are used):
462
+
463
+ - Number of few-shot examples: 4
464
+ - Prefix prompt:
465
+ ```
466
+ Følgende er tekster med tilhørende spørgsmål og svar.
467
+ ```
468
+ - Base prompt template:
469
+ ```
470
+ Tekst: {text}
471
+ Spørgsmål: {question}
472
+ Svar med maks. 3 ord: {label}
473
+ ```
474
+ - Instruction-tuned prompt template:
475
+ ```
476
+ Tekst: {text}
477
+
478
+ Besvar følgende spørgsmål om teksten ovenfor med maks. 3 ord.
479
+
480
+ Spørgsmål: {question}
481
+ ```
482
+
483
+ You can evaluate this dataset directly as follows:
484
+
485
+ ```bash
486
+ $ euroeval --model <model-id> --dataset multi-wiki-qa-da
487
+ ```
488
+
419
489
 
420
490
  ## Knowledge
421
491
 
@@ -311,8 +311,6 @@ When evaluating generative models, we use the following setup (see the
311
311
 
312
312
  Beantwoord de volgende vraag over de bovenstaande tekst in maximaal 3 woorden.
313
313
 
314
- Besvar følgende spørgsmål om teksten ovenfor med maks. 3 ord.
315
-
316
314
  Vraag: {question}
317
315
  ```
318
316
 
@@ -390,6 +388,77 @@ $ euroeval --model <model-id> --dataset belebele-nl
390
388
  ```
391
389
 
392
390
 
391
+ ### Unofficial: MultiWikiQA-nl
392
+
393
+ This dataset will be published in an upcoming paper, and contains Dutch Wikipedia
394
+ articles with generated questions and answers, using the LLM Gemini-1.5-pro.
395
+
396
+ The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
397
+ 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
398
+
399
+ Here are a few examples from the training split:
400
+
401
+ ```json
402
+ {
403
+ "context": "Het Tokyo Aquatics Centre (Japans: 東京アクアティクスセンタ, Tōkyō akuatikusu sentā) is een zwembad in de Japanse hoofdstad Tokio. Het ligt in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto. De bouw begon in april 2017 en werd in februari 2020 afgewerkt. De officiële opening werd uitgesteld vanwege de coronapandemie en vond plaats op 26 oktober 2020. Het zwembad werd gebouwd voor de Olympische en Paralympische Spelen in 2020 en biedt plaats aan vijftienduizend toeschouwers. Tijdens de Olympische Spelen zullen het baanzwemmen, schoonspringen en synchroonzwemmen er plaatsvinden; het waterpolotoernooi wordt gehouden in het nabijgelegen Tokyo Tatsumi International Swimming Center.\n\nHet zwembadcomplex heeft twee zwembaden en een duikbad. Het dak werd eerst op de grond gebouwd en vervolgens geleidelijk verhoogd tot een hoogte van 37 meter. Het is 160 meter lang, 130 meter breed en 10 meter dik. Het dak weegt 7.000 ton. Het zwembad blijft na de Olympische en Paralympische spelen in gebruik als zwemarena, evenwel met een in aantal gereduceerde publiekstribune. Tevens wordt het een publiek zwembad.\n\nZwembad in Japan\nKoto\nAccommodatie tijdens de Olympische Zomerspelen 2020\nSportaccommodatie in Tokio",
404
+ "question": "In welke plaats is het Tokyo Aquatics Centre gevestigd?",
405
+ "answers": {
406
+ "answer_start": array([128]),
407
+ "text": array(["in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto"], dtype=object)
408
+ }
409
+ }
410
+ ```
411
+ ```json
412
+ {
413
+ "context": "J.F. Scholten & Zonen was een textielfabriek in Enschede\n\nOntstaansgeschiedenis\n\nDe grondlegger voor wat later J.F. Scholten & zonen zou gaan heten is de schoolmeester Tijs Lammerink. Van 1800 tot 1810 is hij schoolmeester in Usselo en drijft hij daarnaast handel met de Usselose boeren, hij koopt het door hun geweven linnen op en verkoopt dit weer. In 1808 trouwt Tijs Lammerink met Geesken ten Thij en breidt hij zijn handelaarsactiviteiten uit. Hij koopt herberg \"de Swaene\" van de familie Wagelaar en koopt in korte tijd nog twee panden waarin hij in 1815 een katoenspinnerij en een zwartververij begint.\n\nHuwelijk dochter\nIn 1838 huwt de dochter van Tijs Lammerink, Bertiena, met Jan Frederik Scholten. Deze wordt opgenomen in het bedrijf van zijn schoonvader om het na diens overlijden alleen voort te zetten. De fabriek wordt getroffen door de stadsbrand van Enschede (1862) en vanaf dat moment besluit J.F. Scholten zijn werkzaamheden voort te zetten met zijn drie zonen Jan, Gijs en Theunis. Ze vernieuwen de spinnerij en maken hem stoomgedreven, en daarmee klaar voor de toekomst. De merknaam die ze blijven voeren is \"De Swan\" naar de naam van de herberg waarin Tijs Lammerink zijn werkzaamheden begon.\n\nZonen\nOok oudste zoon Jan krijgt een aantal zonen waarmee het voortbestaan van de fabriek wordt gewaarborgd. Na 1889 worden de zoons van Jan Scholten, te weten Jan Fredrik Scholten (1867-1943), Jan Bernard Scholten (1870-1947) en Julius Scholten (1871-1969) geleidelijk in de firma opgenomen.\nDe lijn wordt voortgezet in 1931 en 1934 wanneer de zoons van Julius Scholten, respectievelijk Jan Scholten (1903) en Jan Fredrik Scholten (1910) als firmanten in het bedrijf worden opgenomen.\n\nNaamloze Vennootschap en overname\nIn 1936 wordt de firma omgezet in een naamloze vennootschap. Er werden goederen gefabriceerd voor de binnenlandse markt en stapelartikelen voor Nederlands-Indië op consignatie-basis. In 1956 werden de N.V. Katoenfabrieken v/h Arntzenius Jannink & Co. te Goor door J.F. Scholten & Zonen N.V. overgenomen.\n\nAfbraak\nIn 1977 wordt de fabriek afgebroken. Op de plaats staat nu het Medisch Spectrum Twente\n\nGeschiedenis van Enschede\nEconomie in Enschede\nVoormalig Nederlands textielbedrijf",
414
+ "question": "Welke logement verwierf Lammerink van de familie Wagelaar?",
415
+ "answers": {
416
+ "answer_start": array([467]),
417
+ "text": array(["\"de Swaene\""], dtype=object)
418
+ }
419
+ }
420
+ ```
421
+ ```json
422
+ {
423
+ "context": "Een haardplaat is een metalen plaat achter of onder een open haard, meestal van gietijzer.\n\nToelichting\n\nFunctie van een haardplaat\nHaardplaten achter in de haard zijn bedoeld om warmte te verspreiden, haardplaten onder de haard om vonken op te vangen en zo brand te voorkomen. De meeste nog bewaarde haardplaten - in Nederland zijn er nog duizenden - zijn versierd met een beeltenis.\n\nEen open haard heeft een rendement van zo'n 10 tot 15%, wat betekent dat 85 tot 90 % van de warmte via de schoorsteen verloren gaat. Met een haardplaat achter de haard kan het rendement van een open haard worden verbeterd. Een haardplaat achter het vuur van de open haard neemt warmte op en straalt deze weer uit. Hoe dikker de plaat, hoe sterker de werking. Het rendement van een open haard kan met een haardplaat tot 50% verbeterd worden.\n\nGeschiedenis van de haardplaat\n\nHaardplaten deden hun intrede in de 15e eeuw. Voor die tijd bestond de achterkant van een open haard uit steen. Enkele haardplaten werden vooral gebruikt in Engeland, Frankrijk en Nederland. In Duitsland werden ook wel haardplaten gebruikt, vooral in de Eifel, maar in de rest van Duitsland zag men vooral haardkasten, dit waren meerdere haardplaten die met lijsten aan elkaar verbonden waren en zo een kast vormden. Deze haardkasten waren ook algemeen in de Scandinavische landen. Later werden de platen voor deze kachelkasten van keramiek gemaakt en ontstond de tegelkachel die in Duitsland, Scandinavië en Oost-Europa zeer algemeen was en hier en daar nog is.\n\nHaardplaten en kachelplaten ontstonden ongeveer gelijk en hebben hun oorsprong in de Eiffel en Elzas. De gietijzeren platen werden gegoten in een zandbed. Aanvankelijk waren de platen eenvoudig, maar al snel werden er houtsneden of stempels in het zandbed gedrukt waardoor de plaat een reliëf kreeg. Naarmate de vraag naar haard- en kachelplaten toenam werden de reliëfs verfraaid; later ontstonden complete taferelen. De versiering van haardplaten kent vele thema's: Bijbelse taferelen, allegorische voorstellingen, familiewapens, portretten, herdenkingen enz. De taferelen werden meestal gesneden naar het voorbeeld van prenten of gravures uit die tijd. Ook waren er modellenboeken in omloop. Er zijn maar weinig kunstenaars die zich specifiek richtten op haardplaten. Gelet op de versieringen zijn de Nederlandse haardplaten uit de 17e eeuw het meest opmerkelijk. Een haardplaat uit deze periode is te herkennen aan rijke versieringen rond een middentafereel. De versieringen bestonden vaak uit dolfijnen, slangen, salamanders, zeenimfen en schelpen. De zijkanten waren omrand met bloemen, bladeren en vruchten. De Duitse platen uit die tijd zijn veel soberder, meer rechttoe rechtaan. Ook de vorm van de Nederlandse en Duitse platen verschilden, de Nederlandse platen hebben meestal een ronde vorm aan de bovenkant terwijl de Duitse platen recht zijn.\n\nNederland heeft het Haardplatenmuseum in Klarenbeek. Sommige musea hebben wel bijzondere haardplaten in bezit zoals Museum De Waag in Deventer en het Rijksmuseum in Amsterdam. De grootste Europese collectie haardplaten - circa 400 stuks - is te vinden in het stadhuis van Düsseldorf, Duitsland.\n\nOnderhoudstips voor de haardplaat\nHaardplaten slijten vrijwel niet. Eventuele roest kan met een staalborstel verwijderd worden. Vroeger werden de platen ook wel gezandstraald, maar hierbij verloren versierde platen veel van hun oorspronkelijke reliëf. Tegenwoordig bestaan er meer verfijnde straaltechnieken waarmee bijvoorbeeld verf en roest van een plaat kan worden verwijderd. Stralen wordt door gespecialiseerde bedrijven gedaan omdat de straalmethode, het straalmiddel, de druk en de grootte van de korrel het resultaat bepalen. Ondeskundig stralen kan de plaat beschadigen. Na het schoonmaken kan de plaat het best worden ingesmeerd met kachelpoets. Sommige mensen maken de plaat schoon met petroleum. Dit middel is echter ongeschikt, de plaat wordt er blijvend dof van.\n\nExterne links\n Tour stadhuis Düsseldorf\n Haardplaten in musea\n Voorbeelden van oude haardplaten met hun symbolen\n\nBouwkundig onderdeel\nVerwarming",
424
+ "question": "Hoe efficiënt is een open haard als er geen haardplaat gebruikt wordt?",
425
+ "answers": {
426
+ "answer_start": array([425]),
427
+ "text": array(["zo'n 10 tot 15%"], dtype=object)
428
+ }
429
+ }
430
+ ```
431
+
432
+ When evaluating generative models, we use the following setup (see the
433
+ [methodology](/methodology) for more information on how these are used):
434
+
435
+ - Number of few-shot examples: 4
436
+ - Prefix prompt:
437
+ ```
438
+ Hieronder volgen teksten met bijbehorende vragen en antwoorden.
439
+ ```
440
+ - Base prompt template:
441
+ ```
442
+ Tekst: {text}
443
+ Vraag: {question}
444
+ Antwoord in max 3 woorden: {label}
445
+ ```
446
+ - Instruction-tuned prompt template:
447
+ ```
448
+ Tekst: {text}
449
+
450
+ Beantwoord de volgende vraag over de bovenstaande tekst in maximaal 3 woorden.
451
+
452
+ Vraag: {question}
453
+ ```
454
+
455
+ You can evaluate this dataset directly as follows:
456
+
457
+ ```bash
458
+ $ euroeval --model <model-id> --dataset multi-wiki-qa-nl
459
+ ```
460
+
461
+
393
462
  ## Knowledge
394
463
 
395
464
  ### MMLU-nl
@@ -236,31 +236,31 @@ Here are a few examples from the training split:
236
236
 
237
237
  ```json
238
238
  {
239
- 'context': 'The Federation of International Gymnastics (FIG) was founded in Liege in 1881. By the end of the nineteenth century, men\'s gymnastics competition was popular enough to be included in the first "modern" Olympic Games in 1896. From then on until the early 1950s, both national and international competitions involved a changing variety of exercises gathered under the rubric, gymnastics, that would seem strange to today\'s audiences and that included for example, synchronized team floor calisthenics, rope climbing, high jumping, running, and horizontal ladder. During the 1920s, women organized and participated in gymnastics events. The first women\'s Olympic competition was primitive, only involving synchronized calisthenics and track and field. These games were held in 1928, in Amsterdam.',
240
- 'question': 'When was gymnastics included in the Olympics?',
241
- 'answers': {
242
- 'answer_start': array([219], dtype=int32),
243
- 'text': array(['1896'], dtype=object)
239
+ "context": 'The Federation of International Gymnastics (FIG) was founded in Liege in 1881. By the end of the nineteenth century, men\'s gymnastics competition was popular enough to be included in the first "modern" Olympic Games in 1896. From then on until the early 1950s, both national and international competitions involved a changing variety of exercises gathered under the rubric, gymnastics, that would seem strange to today\'s audiences and that included for example, synchronized team floor calisthenics, rope climbing, high jumping, running, and horizontal ladder. During the 1920s, women organized and participated in gymnastics events. The first women\'s Olympic competition was primitive, only involving synchronized calisthenics and track and field. These games were held in 1928, in Amsterdam.',
240
+ "question": 'When was gymnastics included in the Olympics?',
241
+ "answers": {
242
+ "answer_start": array([219], dtype=int32),
243
+ "text": array(['1896'], dtype=object)
244
244
  }
245
245
  }
246
246
  ```
247
247
  ```json
248
248
  {
249
- 'context': "London's buildings are too diverse to be characterised by any particular architectural style, partly because of their varying ages. Many grand houses and public buildings, such as the National Gallery, are constructed from Portland stone. Some areas of the city, particularly those just west of the centre, are characterised by white stucco or whitewashed buildings. Few structures in central London pre-date the Great Fire of 1666, these being a few trace Roman remains, the Tower of London and a few scattered Tudor survivors in the City. Further out is, for example, the Tudor period Hampton Court Palace, England's oldest surviving Tudor palace, built by Cardinal Thomas Wolsey c.1515.",
250
- 'question': "The area west of London's city is characterized by what type of building?",
251
- 'answers': {
252
- 'answer_start': array([328], dtype=int32),
253
- 'text': array(['white stucco or whitewashed'], dtype=object)
249
+ "context": "London's buildings are too diverse to be characterised by any particular architectural style, partly because of their varying ages. Many grand houses and public buildings, such as the National Gallery, are constructed from Portland stone. Some areas of the city, particularly those just west of the centre, are characterised by white stucco or whitewashed buildings. Few structures in central London pre-date the Great Fire of 1666, these being a few trace Roman remains, the Tower of London and a few scattered Tudor survivors in the City. Further out is, for example, the Tudor period Hampton Court Palace, England's oldest surviving Tudor palace, built by Cardinal Thomas Wolsey c.1515.",
250
+ "question": "The area west of London's city is characterized by what type of building?",
251
+ "answers": {
252
+ "answer_start": array([328], dtype=int32),
253
+ "text": array(['white stucco or whitewashed'], dtype=object)
254
254
  }
255
255
  }
256
256
  ```
257
257
  ```json
258
258
  {
259
- 'context': 'Along with the rest of South West England, Plymouth has a temperate oceanic climate (Köppen Cfb) which is generally wetter and milder than the rest of England. This means a wide range of exotic plants can be grown. The annual mean temperature is approximately 11 °C (52 °F). Due to the modifying effect of the sea the seasonal range is less than in most other parts of the UK. As a result of this summer highs are lower than its southerly latitude should warrant, but as a contrast the coldest month of February has mean minimum temperatures as mild as between 3 and 4 °C (37 and 39 °F). Snow is rare, not usually equating to more than a few flakes, but there have been exclusions, namely the European winter storms of 2009-10 which, in early January, covered Plymouth in at least 1 inch (2.5 cm) of snow; more on higher ground. Another period of notable snow occurred from 17–19 December 2010 when up to 8 inches (20 cm) of snow fell through the period – though only 2 inches (5.1 cm) would lie at any one time due to melt. Over the 1961–1990 period, annual snowfall accumulation averaged less than 7 cm (3 in) per year. July and August are the warmest months with mean daily maxima over 19 °C (66 °F).',
260
- 'question': 'What month in Plymouth has the lowest temperatures?',
261
- 'answers': {
262
- 'answer_start': array([503], dtype=int32),
263
- 'text': array(['February'], dtype=object)
259
+ "context": 'Along with the rest of South West England, Plymouth has a temperate oceanic climate (Köppen Cfb) which is generally wetter and milder than the rest of England. This means a wide range of exotic plants can be grown. The annual mean temperature is approximately 11 °C (52 °F). Due to the modifying effect of the sea the seasonal range is less than in most other parts of the UK. As a result of this summer highs are lower than its southerly latitude should warrant, but as a contrast the coldest month of February has mean minimum temperatures as mild as between 3 and 4 °C (37 and 39 °F). Snow is rare, not usually equating to more than a few flakes, but there have been exclusions, namely the European winter storms of 2009-10 which, in early January, covered Plymouth in at least 1 inch (2.5 cm) of snow; more on higher ground. Another period of notable snow occurred from 17–19 December 2010 when up to 8 inches (20 cm) of snow fell through the period – though only 2 inches (5.1 cm) would lie at any one time due to melt. Over the 1961–1990 period, annual snowfall accumulation averaged less than 7 cm (3 in) per year. July and August are the warmest months with mean daily maxima over 19 °C (66 °F).',
260
+ "question": 'What month in Plymouth has the lowest temperatures?',
261
+ "answers": {
262
+ "answer_start": array([503], dtype=int32),
263
+ "text": array(['February'], dtype=object)
264
264
  }
265
265
  }
266
266
  ```
@@ -356,6 +356,77 @@ $ euroeval --model <model-id> --dataset belebele-en
356
356
  ```
357
357
 
358
358
 
359
+ ### Unofficial: MultiWikiQA-en
360
+
361
+ This dataset will be published in an upcoming paper, and contains English Wikipedia
362
+ articles with generated questions and answers, using the LLM Gemini-1.5-pro.
363
+
364
+ The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
365
+ 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
366
+
367
+ Here are a few examples from the training split:
368
+
369
+ ```json
370
+ {
371
+ "context": "Stagecoach in Norfolk (formerly Norfolk Green) was a bus operator based in King's Lynn in Norfolk, England. It operated public bus services in the counties of Norfolk, Cambridgeshire and Lincolnshire as well as numerous school and college services. It was a subsidiary of Stagecoach.\n\nIn April 2018, Stagecoach ceased operations in Norfolk. Services were taken over by First Norfolk & Suffolk, Lynx, Sanders Coaches, Stagecoach in Peterborough (the Interconnect 505) and West Norfolk Community Transport.\n\nHistory\n\nNorfolk Green was formed in 1996 with a fleet of four buses. In 1999 the Saham Toney depot was sold to Konectbus with four coaches.\n\nIn April 2011, Norfolk Green purchased the King's Lynn based services of First East England.\n\nOn 17 December 2013, Norfolk Green was sold to Stagecoach following the retirement of Ben Colson after ill health. Unusually, Stagecoach did not immediately apply its corporate brand, but retained the Norfolk Green trading name and livery, although the fleet received Stagecoach fleet numbers. All buses were rebranded between 2015 and late 2017.\n\nIn January 2018, Stagecoach announced it was reviewing its operations in Norfolk in response to the challenging economic environment, blaming a combination of rising operating costs and pressure on public sector budgets. The company said it met with trade union representatives to minimise the impact on staff and launched a consultation with employees over the potential closure of its King's Lynn depot. The company hoped to relocate the majority of its staff with other operators or elsewhere within the Stagecoach East area, which includes Bedford, Cambridge, Huntingdon and Peterborough.\n\nRoutes\nRoutes operated by Stagecoach Norfolk included the very popular Coasthopper services between King's Lynn and Cromer, the Interconnect 505 between King's Lynn and Spalding, a town service network in King's Lynn, a city service in Ely and many rural and interurban bus services across Norfolk, Cambridgeshire and Lincolnshire.\n\nFleet\nAs at July 2013, the fleet consisted of 74 buses. Fleet livery is two tone green. Twelve Optare Solo Slimlines wear a dark blue, yellow and green livery for the Coasthopper group of services. A large proportion of buses are also named after local characters and personalities.\n\nUpon Stagecoach's purchase of Norfolk Green, in the summer of 2016 Stagecoach Norfolk went onto replace the fleet of Coasthopper Optare Solo's with Alexander Dennis Enviro200s. In addition, and later on, they purchased brand new Optare Solos. These new buses feature a new updated Coasthopper 'Flying Kite' livery, free Wi-Fi, USB charging points and leather seating.\n\nReferences\n\nExternal links\n\nCompany website\n\nStagecoach Group bus operators in England\nTransport companies established in 1966\nTransport companies disestablished in 2018\n1996 establishments in England\n2018 disestablishments in England\nBritish companies established in 1996\nBritish companies disestablished in 2018\nFormer bus operators in Norfolk\nFormer bus operators in Cambridgeshire\nFormer bus operators in Lincolnshire",
372
+ "question": "What is the date of formation of Norfolk Green?",
373
+ "answers": {
374
+ "answer_start": array([543]),
375
+ "text": array(["1996"], dtype=object)
376
+ }
377
+ }
378
+ ```
379
+ ```json
380
+ {
381
+ "context": "Lara Stalder (born 15 May 1994) is a Swiss ice hockey forward and member of the Swiss national ice hockey team, currently playing with Brynäs IF Dam of the Swedish Women's Hockey League (SDHL). She played with the Minnesota Duluth Bulldogs women's ice hockey team from 2013 to 2017, and with Linköping HC from 2017 to 2019.\n\nPlaying career \nAcross four seasons with Minnesota-Duluth, Stalder put up 148 points in 134 games, leading the team in points in her final season, as well as being named WCHA Player of the Year and Student-Athlete of the Year, and being a top-three finalist for the Patty Kazmaier Award. In 2016, she was drafted 20th overall by the Boston Pride of the National Women's Hockey League (NWHL).\n\nAfter missing most of the 2018–19 season due to a shoulder injury, Stalder left Linköping to sign with Brynäs. In 2020, she was named SDHL Player of the Year after putting up 71 points in 36 games, being the first woman to win Guldhjälmen. The 42 goals she would score that year is the second highest single-season total in SDHL history, and her 71 points the third highest single-season total in SDHL history.\n\nInternational \nStalder made her senior national team debut at the 2011 IIHF Women's World Championship. She has represented Switzerland at the Winter Olympics in 2014 and won the bronze medal after defeating Sweden in the bronze medal playoff. She would score 6 points in 6 games at the 2018 Winter Olympics, as Switzerland finished in 5th place.\n\nCareer statistics\n\nAwards and honors\n\nNCAA\nWCHA Offensive Player of the Week (Week of 17 January 2017)\nWCHA Offensive Player of the Week (Week of 24 January 2017)\nWCHA Offensive Player of the Week (Week of 31 January 2017)\nWCHA Offensive Player of the Month, January 2017\nWomen's Hockey Commissioners' Association National Division I Player of the Month, January 2017\nPatty Kazmaier Award Top-3 Finalist, 2016–17 season\n2016-17 AHCA-CCM Women's University Division I First-Team All-American\n\nSDHL \n\n Guldhjälmen (Golden Helmet), MVP of the SDHL as selected by players, 2019–20 season\n SDHL Forward of the Year, 2019–20 season\n\nReferences\n\nExternal links\n\nMinnesota Duluth bio\n\n1994 births\nLiving people\nSportspeople from Lucerne\nSwiss women's ice hockey forwards\nIce hockey players at the 2014 Winter Olympics\nIce hockey players at the 2018 Winter Olympics\nIce hockey players at the 2022 Winter Olympics\nOlympic bronze medalists for Switzerland\nOlympic ice hockey players for Switzerland\nOlympic medalists in ice hockey\nMedalists at the 2014 Winter Olympics\nBrynäs IF (women) players\nLinköping HC (women) players\nMinnesota Duluth Bulldogs women's ice hockey players\nSwiss expatriate ice hockey people\nSwiss expatriate sportspeople in Sweden\nSwiss expatriate sportspeople in the United States",
382
+ "question": "Which SDHL award did Lara Stalder receive during the 2019-2020 season?",
383
+ "answers": {
384
+ "answer_start": array([945]),
385
+ "text": array(["Guldhjälmen"], dtype=object)
386
+ }
387
+ }
388
+ ```
389
+ ```json
390
+ {
391
+ "context": "TCG Barbaros (F 244) is the lead ship of of the Turkish Navy.\n\nDevelopment and design \n\nBarbaros-class frigates were designed in Germany and are part of the MEKO group of modular warships, in this case the MEKO 200 design. Two ships were built in Germany and two in Turkey with German assistance. They are larger than the previous s and are also faster due to using CODOG machinery rather than pure diesels.\n\nThe first two vessels (F 244 and F 245) are defined as the Barbaros class (MEKO 200 TN Track II-A) while the last two vessels (F 246 and F 247) are defined as the Salih Reis class (MEKO 200 TN Track II-B) by the Turkish Navy.\n\nSalih Reis subclass ships are built with 8-cell Mk. 41 VLS and longer than Barbaros class vessels to accommodate 16-cell Mk. 41 VLS upgrade in the future while Barbaros-class vessels built with Mk.29 Sea Sparrow launchers that planned to be replaced by 8-cell Mk. 41 VLS.\n\nConstruction and career \nBarbaros was launched on 29 September 1993 by Blohm+Voss in Hamburg and commissioned on 23 May 1997.\n\nOn 9 March 2019, her crew saluted to the tomb of Barbaros Hayreddin while crossing Bosporus.\n\nOn 26 August 2020, TCG Barbaros and sailed alongside in Eastern Mediterranean Sea. Later that year on 3 October, she underwent alongside USS Roosevelt.\n\nReferences\n\nExternal links\n\n The First Upgraded MEKO 200 Frigate Of Turkish Navy\n BARBAROS CLASS ( MEKO 200 Track II) (Turkey)\n\n1993 ships\nShips built in Germany\nFrigates of the Turkish Navy\nBarbaros-class frigates of the Turkish Navy",
392
+ "question": "Could you tell me about the MEKO group?",
393
+ "answers": {
394
+ "answer_start": array([172]),
395
+ "text": array(["modular warships"], dtype=object)
396
+ }
397
+ }
398
+ ```
399
+
400
+ When evaluating generative models, we use the following setup (see the
401
+ [methodology](/methodology) for more information on how these are used):
402
+
403
+ - Number of few-shot examples: 4
404
+ - Prefix prompt:
405
+ ```
406
+ The following are texts with accompanying questions and answers.
407
+ ```
408
+ - Base prompt template:
409
+ ```
410
+ Text: {text}
411
+ Question: {question}
412
+ Answer in max 3 words:
413
+ ```
414
+ - Instruction-tuned prompt template:
415
+ ```
416
+ Text: {text}
417
+
418
+ Answer the following question about the above text in at most 3 words.
419
+
420
+ Question: {question}
421
+ ```
422
+
423
+ You can evaluate this dataset directly as follows:
424
+
425
+ ```bash
426
+ $ euroeval --model <model-id> --dataset multi-wiki-qa-en
427
+ ```
428
+
429
+
359
430
  ## Knowledge
360
431
 
361
432
  ### Life in the UK
@@ -294,31 +294,31 @@ Here are a few examples from the training split:
294
294
 
295
295
  ```json
296
296
  {
297
- 'context': 'Felagsskapur ST fyri undirvísing, vísindum og mentan (á enskum: United Nations Educational, Scientific and Cultural Organization, stytt UNESCO) er ein serstovnur undir Sameindu Tjóðum, stovnaður í 1946. Endamálið við felagskapinum er at menna útbúgving, gransking og mentan og at fremja samstarv millum tey 195 limalondini og teir 8 atlimirnar, ið eru Føroyar, Curaçao, Aruba, Jomfrúoyggjar, Caymanoyggjar, Makao, Niðurlendsku Antillurnar og Tokelau. Føroyar fingu atlimaskap í 2009 . Atlimaskapur gevur øll tey somu rættindi sum limaskapur. Limalondini skipa seg við hvør síni UNESCO nevnd. Fyrsta føroyska UNESCO nevndin varð skipað í mai 2012. \n\nUNESCO tekur sær millum annað av at meta um, hvørji pláss í heiminum skulu fáa status sum World Heritage Sites (heimsarvur). Limalond UNESCO samtyktu í 1972 millumtjóðasáttmálan um at verja heimsins mentanar- og náttúruarv. Orsøkin er vandin fyri, at náttúruøki, fornfrøðilig minnismerki og mentanarvirði forfarast orsakað av ferðafólkavinnu, dálking, kríggi ella vanligari órøkt.\n\nHygg eisini at \n\n Millumtjóðasáttmáli UNESCO um vernd av heimsins mentanar- og náttúruarvi.\n\nKeldur\n\nSlóðir úteftir \n\n UNESCO World Heritage Centre\n\nST\nHeimsarvar',
298
- 'question': 'Hvat góðkendu UNESCO-limalondini í 1972?',
299
- 'answers': {
300
- 'answer_start': array([806]),
301
- 'text': array(['millumtjóðasáttmálan um at verja heimsins mentanar- og náttúruarv'], dtype=object)
297
+ "context": "Felagsskapur ST fyri undirvísing, vísindum og mentan (á enskum: United Nations Educational, Scientific and Cultural Organization, stytt UNESCO) er ein serstovnur undir Sameindu Tjóðum, stovnaður í 1946. Endamálið við felagskapinum er at menna útbúgving, gransking og mentan og at fremja samstarv millum tey 195 limalondini og teir 8 atlimirnar, ið eru Føroyar, Curaçao, Aruba, Jomfrúoyggjar, Caymanoyggjar, Makao, Niðurlendsku Antillurnar og Tokelau. Føroyar fingu atlimaskap í 2009 . Atlimaskapur gevur øll tey somu rættindi sum limaskapur. Limalondini skipa seg við hvør síni UNESCO nevnd. Fyrsta føroyska UNESCO nevndin varð skipað í mai 2012. \n\nUNESCO tekur sær millum annað av at meta um, hvørji pláss í heiminum skulu fáa status sum World Heritage Sites (heimsarvur). Limalond UNESCO samtyktu í 1972 millumtjóðasáttmálan um at verja heimsins mentanar- og náttúruarv. Orsøkin er vandin fyri, at náttúruøki, fornfrøðilig minnismerki og mentanarvirði forfarast orsakað av ferðafólkavinnu, dálking, kríggi ella vanligari órøkt.\n\nHygg eisini at \n\n Millumtjóðasáttmáli UNESCO um vernd av heimsins mentanar- og náttúruarvi.\n\nKeldur\n\nSlóðir úteftir \n\n UNESCO World Heritage Centre\n\nST\nHeimsarvar",
298
+ "question": "Hvat góðkendu UNESCO-limalondini í 1972?",
299
+ "answers": {
300
+ "answer_start": array([806]),
301
+ "text": array(["millumtjóðasáttmálan um at verja heimsins mentanar- og náttúruarv"], dtype=object)
302
302
  }
303
303
  }
304
304
  ```
305
305
  ```json
306
306
  {
307
- 'context': 'Levi Niclasen, sum yrkjari betri kendur sum Óðin Ódn (føddur 1. mai 1943 á Tvøroyri, uppvaksin í Hvalba) er ein føroyskur rithøvundur, tónleikari, lærari og politikari. \n\nAftan á barnaskúlan arbeiddi hann í kolinum í Hvalba. Í 1957 stovnaði hann saman við brøðum sínum ein tónleikabólk, og brátt blivu teir kendir sum Hvalbiarbrøðurnir. Teir góvu út tvær stak plátur í 1962. Hann var í Grønlandi 1960 og 1961 og arbeiddi á landi í Føroyingahavnini fyri Nordafar. \nHann fór síðan á læraraskúla í Havn og tók prógv frá Føroya Læraraskúla í 1967. Var settur sum lærari við Hvalbiar skúla 1. august 1967. Hevur verið skúlaleiðari við Hvalbiar skúla frá 1. august 1979. Hann hevur eisini verið á Fróðskaparsetri Føroya og fullført nám í føroyskum og bókmentum 1969-70. Hann hevur útgivið fleiri yrkingasøvn og eisini eitt stuttsøgusavn og eina bók við bæði yrkingum og stuttsøgum. Hann hevur eisini týtt tvær bøkur til føroyskt.\n\nÚtgávur \nGivið út á egnum forlagi:\nHvirlur (yrkingasavn) 1970\nEg eri í iva (yrkingasavn) 1970 \nTey í urðini (søgusavn) 1973 \nReyðibarmur (yrkingar og stuttsøgur) 1974\nViðrák og Mótrák (yrkingasavn) 1975\nÓttast ikki (yrkingasavn) 1975\nNívandi niða (yrkingasavn) 1983 \nLovað er lygnin (yrkingasavn) 1983 \nEg eigi eina mynd (yrkingasavn) 1987\n\nTýðingar \nEydnuríki prinsurin (Oscar Wilde) (Føroya Lærarafelag 1977). \nHeilaga landið (Pär Lagerkvist) (felagið Varðin 1986).\n\nFamilja \nForeldur: Thomasia Niclasen, f. Thomasen á Giljanesi í Vágum og Hentzar Niclasen, kongsbóndi á Hamri í Hvalba. Giftist í 1971 við Súsonnu Niclasen, f. Holm. Hon er fødd í Hvalba í 1950. Tey eiga tríggjar synir: Tórarinn, Tóroddur og Njálur.\n\nKeldur \n\nFøroyskir týðarar\nFøroyskir rithøvundar\nFøroyskir yrkjarar\nFøroyskir lærarar\nHvalbingar\nFøðingar í 1943',
308
- 'question': 'Hvar var Levi Niclasen settur í starv í Grønlandi í 1961?',
309
- 'answers': {
310
- 'answer_start': array([431]),
311
- 'text': array(['Føroyingahavnini'], dtype=object)
307
+ "context": "Levi Niclasen, sum yrkjari betri kendur sum Óðin Ódn (føddur 1. mai 1943 á Tvøroyri, uppvaksin í Hvalba) er ein føroyskur rithøvundur, tónleikari, lærari og politikari. \n\nAftan á barnaskúlan arbeiddi hann í kolinum í Hvalba. Í 1957 stovnaði hann saman við brøðum sínum ein tónleikabólk, og brátt blivu teir kendir sum Hvalbiarbrøðurnir. Teir góvu út tvær stak plátur í 1962. Hann var í Grønlandi 1960 og 1961 og arbeiddi á landi í Føroyingahavnini fyri Nordafar. \nHann fór síðan á læraraskúla í Havn og tók prógv frá Føroya Læraraskúla í 1967. Var settur sum lærari við Hvalbiar skúla 1. august 1967. Hevur verið skúlaleiðari við Hvalbiar skúla frá 1. august 1979. Hann hevur eisini verið á Fróðskaparsetri Føroya og fullført nám í føroyskum og bókmentum 1969-70. Hann hevur útgivið fleiri yrkingasøvn og eisini eitt stuttsøgusavn og eina bók við bæði yrkingum og stuttsøgum. Hann hevur eisini týtt tvær bøkur til føroyskt.\n\nÚtgávur \nGivið út á egnum forlagi:\nHvirlur (yrkingasavn) 1970\nEg eri í iva (yrkingasavn) 1970 \nTey í urðini (søgusavn) 1973 \nReyðibarmur (yrkingar og stuttsøgur) 1974\nViðrák og Mótrák (yrkingasavn) 1975\nÓttast ikki (yrkingasavn) 1975\nNívandi niða (yrkingasavn) 1983 \nLovað er lygnin (yrkingasavn) 1983 \nEg eigi eina mynd (yrkingasavn) 1987\n\nTýðingar \nEydnuríki prinsurin (Oscar Wilde) (Føroya Lærarafelag 1977). \nHeilaga landið (Pär Lagerkvist) (felagið Varðin 1986).\n\nFamilja \nForeldur: Thomasia Niclasen, f. Thomasen á Giljanesi í Vágum og Hentzar Niclasen, kongsbóndi á Hamri í Hvalba. Giftist í 1971 við Súsonnu Niclasen, f. Holm. Hon er fødd í Hvalba í 1950. Tey eiga tríggjar synir: Tórarinn, Tóroddur og Njálur.\n\nKeldur \n\nFøroyskir týðarar\nFøroyskir rithøvundar\nFøroyskir yrkjarar\nFøroyskir lærarar\nHvalbingar\nFøðingar í 1943",
308
+ "question": "Hvar var Levi Niclasen settur í starv í Grønlandi í 1961?",
309
+ "answers": {
310
+ "answer_start": array([431]),
311
+ "text": array(["Føroyingahavnini"], dtype=object)
312
312
  }
313
313
  }
314
314
  ```
315
315
  ```json
316
316
  {
317
- 'context': "Giro d'Italia (á føroyskum Kring Italia) er ein av teimum trimum stóru teinasúkklukappingunum og verður hildin hvørt ár í mai/juni og varir í 3 vikur. Kappingin fer fram í Italia, men partar av kappigini kunnu eisini fara fram í onkrum ørðum landi í Evropa, t.d. byrjaði Giro d'Italia í Niðurlondum í 2016 og í Danmark í 2014.\n\nGiro d'Italia varð fyrstu ferð hildið í 1909, har ið tilsamans 8 teinar á 2448\xa0km vóru súkklaðir. Kappingin er saman við Tour de France og Vuelta a España ein av teimum trimum klassisku teinakappingunum, har Tour de France tó er tann mest týðandi.\n\nHar tann fremsti súkklarin í Tour de France er kendur fyri at súkkla í gulari troyggju, so súkklar fremsti súkklarin í Giro d´Italia í ljósareyðari troyggju, á italskum nevnd Maglia rosa. Tann fremsti fjallasúkklarin súkklar í grønari troyggju (Maglia Verde), meðan súkklarin við flestum stigum koyrir í lilla (Maglia ciclimano). Í 2007 varð tann hvíta ungdómstroyggjan innførd aftur, eftir at hon hevði verið burturi í nøkur ár, hon nevnist Maglia Bianca.\n\nTríggir súkklarar hava vunnið kappingina fimm ferðir: Alfredo Binda, Fausto Coppi og Eddy Merckx. Italiumaðurin Felice Gimondi hevur staðið á sigurspallinum níggju ferðir, har hann tríggjar ferðir hevur vunnið, tvær ferðir á øðrum plássi og fýra ferðir á triðjaplássi.\n\nYvirlit yvir vinnarar\n\nByrjan í øðrum londum\n\nKeldur \n\nGiro d'Italia",
318
- 'question': "Hvør hevur fimm ferðir vunnið Giro d'Italia?",
319
- 'answers': {
320
- 'answer_start': array([1089]),
321
- 'text': array(['Alfredo Binda, Fausto Coppi og Eddy Merckx'], dtype=object)
317
+ "context": "Giro d'Italia (á føroyskum Kring Italia) er ein av teimum trimum stóru teinasúkklukappingunum og verður hildin hvørt ár í mai/juni og varir í 3 vikur. Kappingin fer fram í Italia, men partar av kappigini kunnu eisini fara fram í onkrum ørðum landi í Evropa, t.d. byrjaði Giro d'Italia í Niðurlondum í 2016 og í Danmark í 2014.\n\nGiro d'Italia varð fyrstu ferð hildið í 1909, har ið tilsamans 8 teinar á 2448\xa0km vóru súkklaðir. Kappingin er saman við Tour de France og Vuelta a España ein av teimum trimum klassisku teinakappingunum, har Tour de France tó er tann mest týðandi.\n\nHar tann fremsti súkklarin í Tour de France er kendur fyri at súkkla í gulari troyggju, so súkklar fremsti súkklarin í Giro d´Italia í ljósareyðari troyggju, á italskum nevnd Maglia rosa. Tann fremsti fjallasúkklarin súkklar í grønari troyggju (Maglia Verde), meðan súkklarin við flestum stigum koyrir í lilla (Maglia ciclimano). Í 2007 varð tann hvíta ungdómstroyggjan innførd aftur, eftir at hon hevði verið burturi í nøkur ár, hon nevnist Maglia Bianca.\n\nTríggir súkklarar hava vunnið kappingina fimm ferðir: Alfredo Binda, Fausto Coppi og Eddy Merckx. Italiumaðurin Felice Gimondi hevur staðið á sigurspallinum níggju ferðir, har hann tríggjar ferðir hevur vunnið, tvær ferðir á øðrum plássi og fýra ferðir á triðjaplássi.\n\nYvirlit yvir vinnarar\n\nByrjan í øðrum londum\n\nKeldur \n\nGiro d'Italia",
318
+ "question": "Hvør hevur fimm ferðir vunnið Giro d'Italia?",
319
+ "answers": {
320
+ "answer_start": array([1089]),
321
+ "text": array(["Alfredo Binda, Fausto Coppi og Eddy Merckx"], dtype=object)
322
322
  }
323
323
  }
324
324
  ```
@@ -351,3 +351,74 @@ You can evaluate this dataset directly as follows:
351
351
  ```bash
352
352
  $ euroeval --model <model-id> --dataset foqa
353
353
  ```
354
+
355
+
356
+ ### Unofficial: MultiWikiQA-fo
357
+
358
+ This dataset will be published in an upcoming paper, and contains Faroese Wikipedia
359
+ articles with generated questions and answers, using the LLM Gemini-1.5-pro.
360
+
361
+ The original full dataset consists of 5,000 samples in a single split. We use a 1,024 /
362
+ 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
363
+
364
+ Here are a few examples from the training split:
365
+
366
+ ```json
367
+ {
368
+ "context": 'Ali Babba- og 49 aðrar blaðgreinir er eitt savn við fimmti greinum, ið Høgni Mohr hevur skrivað og latið prentað í Dimmalætting og Vinnuvitan frá desember 2004 til februar 2006.\n\nSøgugongd \nGreinasavnið snýr seg um fólk, sum búgva í Føroyum, og onnur, ið hava tilknýti til hetta landið, men búgva uttanlands. Tekstirnir hava sum innihald trý eyðkend sløg av menniskjum: tey ávísu ókendu, sum standa aftan fyri tey kendu; onnur, ið eru mitt í einum serliga spennandi starvi; og hini, ið virka fremst í vinnulívinum. Savnið er sostatt grundað á tríggjar greinarøðir, ið júst eru greiddar úr hondum eftir hesum trimum leistum.\n\nLes eisini \nMohr, Høgni (2010) Tá deyðin verður avdúkaður. Øgiliga egið forlag. ISBN 9789991880518Styrkin í bókini er tann beinrakna tekstin, tær hugtakandi, men knøppu orðingarnar, miðlingin av sterkum menniskjaligum kenslum, stúran, gleði, ótta og sorg, og so tann einfalda, positiva mennsikjafatanin \xa0- Erhard Jacobsen, ummælari.Mohr, Høgni (2017) Fractura nasi. Øgiliga egið forlag. ISBN 9789991880525. Kirsten Brix týtt til danskt 2019. Danskt heiti Rejse for livet. forlag Amanda Books. Seld til filmframleiðslu í 2018.Hon er í passandi flogferð, skrivingin. Floygd, sum eingin annar tekstur eg nýligani havi lisið. Síðst eg kendi meg so væl í felag við hin skrivandi var, tá eg læs Bommhjarta hjá Jóanesi Nielsen, sum kom í fjør. Ein smittandi respektleys søga, sum hemningsleys gongur sínar egnu leiðir. Men aftanfyri hómast ein leitan eftir egnum upphavi. Hví bleiv eg sum eg bleiv, er skuggaspurningur høvundans \xa0- Birgir Kruse, ummælari.Mohr, Høgni (2018) Slepp tær til heiti fani. Øgiliga egið forlag. ISBN 9789991880532. Tekningar: Astrid Andreasen.Tað smakkar bara so væl at lesa hasi orðini. Ikki tí eg havi nakað ímóti Gerhardi ella Javnaðarflokkinum í Avhaldslosjuni, men bara tí at eg síggi spælandi orðalagið, sum ikki er eitt stívrent kvæðaørindi at fáa bókstavarím til skúlabrúks, men beint fram brúksføroyskt loyst úr lagdi \xa0- Birgir Kruse, ummælari.Mohr, Høgni (2019) mær dámar ikki høgna hoydal. Øgiliga egið forlag. ISBN 9789991880549\n\nTýtt og ritstjórnað \n2006 - Askur og Embla (týtt), Bókadeild Føroya lærarafelags, 204 síður.\n\n2013 - Sannleikin um ástarævintýrið (týtt og ritstjórnað), Øgiliga egið forlag, 35 síður.\n\nKeldur',
369
+ "question": 'Hvør er útgávandi av bókini "Mær dámar ikki Høgna Hoydal?"',
370
+ "answers": {
371
+ "answer_start": array([684]),
372
+ "text": array(['Øgiliga egið forlag'], dtype=object)
373
+ }
374
+ }
375
+ ```
376
+ ```json
377
+ {
378
+ "context": 'Ævintýr eru sum skaldskaparslag munnbornar søgur um vanlig folk í einum yvirnatúrligum heimi. Heitið veður nýtt um fleiri sløg av søgum, ið als ikki øll hava sama yivrnatúrliga innihald. Antti Aarne og Stith Thompson hava gjørt eina skrá yvir heimsins ævintýr. Har eru tey skift sundur í 5 høvuðsbólkar ella týpur. Sum annar munnborin skaldskapur hava ævintýrini ongan kendan høvund ella upprunaligan form. Tey kennast aftur eftir greining av søgugongd og innihaldi, og á tann hátt hava Aarne og Thompson skift tey sundur í týpur hvørja við sínum nummari og stavunum AT frammanfyri. Hesar týpur og høvuðsbólkar eru: I Djóraævintýr (AT 1-299), II Eginlig ævintýr (AT 300-1199), III Skemtiævintýr (AT 1200-1999), IV Formilævintýr (AT 2000-2399) og V Ymisk ævintýr (AT 2400.2499). Hesin seinasti bólkurin umfatar tey ævintýr, ið høvundarnir ikki fingu at hóska til hinar bólkarnar. \n\nÍ øllum vanligum brúki verður oftast hugsað um søgurnar í bólki II, tá talan er um ævintýr. Serstakliga kanska undirbólk A, ið verður kallaður Gandaævintýr (AT 300-749). Í hesum bólki eru m.a. tær væl kendu søgurnar um ein fátækan drong, ið bjargar eini prinsessu, sum trøll við níggju høvdum ella onkur onnur yvirnatúrlig vera hevur tikið; í endanum giftist drongurin við prinsessuni og verður kongur. Ella eina fátæka gentu, ið bjargar einum prinsi, sum ofta er umskaptur til okkurt andskræmiligt, og síðani giftist við honum og gerst drotning. Øll liva síðani lukkuliga. \n\nHóast ævintýr sum skaldskaparslag upprunaliga eru munnbornar søgur, kenna vit tey nú í tíðini best og ivaleyst bert úr ritstjórnaðum, prentaðum útgávum. Charles Perrault (1628-1703) var hin fyrsti at geva út eitt savn við søgum, ið eru ritstjórnað ævintýr. Bókin kom í 1697 og nenvdist Søgur og frásagnir úr farnum tíðum við undirheitinum "Gásamóðir sigur frá" (Les Contes de ma Mère l’Oye). Millum søgurnar í hesum savni eru so víðagitnar søgur sum Reyðhetta, Tornarósa og Øskufía. Perrault óttaðist bókmentaliga og mentanarliga smakkin í tíðini, lagaði søgurnar til, sum honum tókti best og gav tær út í navninum á 10 ára gamla syni sínum. Bókin gjørdist ómetaliga væl umtókt og var sum frá leið týdd til flestøll fjølment evropeisk mál. Seinni fóru fólk aðrastaðni at savna og skriva upp ævintýr, og summpart við beinleiðis fyrimynd í søgunum hjá Perrault komu serliga í 19. øld fleiri kend søvn við ritstjórnaðum ævintýrum. Kendast eru ævintýrini hjá týskarunum Jacob og Wilhelm Grimm. Eisini í Norðurlondum vaks áhugin, og millum kendastu útgávur eru tær hjá Ewald Tang Christensen í Danmark, Asbjørnsen og Moe í Noregi, og Jóni Árnasyni í Íslandi. \n\nÍ Føroyum tók Jakob Jakobsen tráðin upp, og í árunum 1898-1901 gav hann út savn sítt við føroyskum sagnum og ævintýrum. Eisini hann ritstjórnaði søgurnar, sum hann savnaði, so vit kunnu siga, at soleiðis sum vit lesa tær hjá honum, hava tær ikki verið sagdar honum. Hansara ritstjórnan er mest av málsligum slag. Hann flytur munnliga frásøgn í skrift við teimum tillagingum, ið tá eru neyðugar, og hartil reinsar hann frásøgnina fyri útlendskan málburð. Mangt bendir á, at ævintýr valla eru gamal skaldskapur í Føroyum. Tað tykist, sum tey eru komin í munnliga frásøgn í Føroyum eftir fólksligum, einahelst donskum útgávum. Men sum væntandi er í munnligari søgulist, hava fólk lagað tey til so við og við, so tey ofta hava føroyskan dám í mongum lutum. Summi teirra eru tó ivaleyst gomul í Føroyum.\n\nKeldur \n\n Kirsten Brix: "Drongurin, ið burturtikin varð av sjótrøllakonginum", Varðanum bd. 59 1992, s. 188-219. \n Jakob Jakobsen: Færøske Folkesagn og Æventyr 1899-1901.\n\nÆvintýr\nFólkaminni',
379
+ "question": 'Hvat var heitið á bókini eftir Charles Perrault?',
380
+ "answers": {
381
+ "answer_start": array([1743]),
382
+ "text": array(['Søgur og frásagnir úr farnum tíðum við undirheitinum "Gásamóðir sigur frá" (Les Contes de ma Mère l’Oye)'], dtype=object)
383
+ }
384
+ }
385
+ ```
386
+ ```json
387
+ {
388
+ "context": 'Trøllakampar (frøðiheiti Asplenium) hoyra til tann bólkin av plantum, ið verður kallaður blómuleysar plantur. Tað finnast 20.000 sløg av trøllakampum í heiminum, og er hetta slagríkasta fylki, aftaná fylkið við blómuplantum, ið telur 250.000 sløg. Flestu sløgini av trøllakampum finnast í tropunum og trívast best har vátt er. Trøllakampar verða mettir at vera "primitivt" plantuslag, ið er nær í ætt við upprunaplanturnar. Teir hava ikki blómur og seta ikki fræ, men nørast við grókornum, ið hjá summum trøllakampum sita í gróhópum aftanfyri á blaðnum, vardir av einum skjøldri, sum opnar seg, tá grókornini eru búgvin, so at tey kunnu spjaðast. Hjá øðrum sita teir á blaðkantinum, sum er rullaður inneftir, so leingi grókornini ikki eru búgvin. \n\nSummi trøllakampasløg hava tvey sløg av bløðum, eitt slag ið er “sterilt” og eitt sum er “fertilt”. Tað “fertila” blaðið kann hjá summum sløgum vera heilt ymiskt frá tí “sterila”. Trøllakampur kann hava grókorn í milliónatali, men bert fáar nýggjar plantur koma burturúr. Bløðini hava ymiskt skap. Tey kunnu verða innskorin eina, tvær og fleiri ferðir ella als ikki innskorin. Við sínum sermerkta vakstrarlagi líkist trøllakampur, áður enn hann er fullvaksin, einum fiólhøvdi ella tí evsta á fiólini.\n\nÚtbreiðsla\n\nTrøllakampar vóru nógv vanligari í Føroyum, áðrenn fólk settu búgv her. Hetta prógva sákornskanningar. Vøksturin í Føroyum er sum heild ávirkaður av seyðabiti, og hevur hann verið tað, síðan fólk settu búgv her. Seyðurin legðist beinanvegin eftir tí fruktagóða gróðri, sum landið var avvaksið við. Hesin gróðurin hvarv eftir stuttari tíð og broyttist til tættbitna gróðurin, sum vit kenna í dag. Sáðkornskanningar vísa, at trøllakampar sum heild fóru nógv aftur aftan á landnám. Teir eru av elstu plantusløgum á jørð og vuksu her fyri meira enn 300 mió árum síðan. Í koltíðini vuksu trøllakampur, javni og bjølluvísa sum stórir skógir.\n\nIkki allastaðni er seyður sloppin framat at bíta. Tí sæst enn tann mest upprunaligi gróðurin í gjáum og bakkum, har seyður ikki er sloppin framat. Her er gróðurin stórur og fjølbroyttur, og kanningar bera prógv um, at hann hevur verið støðugur í langa tíð av teirri orsøk, at seyður og fólk ikki sluppu framat. Av teimum trøllakampum, ið eru vanligir í Føroyum, eru fyrst og fremst tann stórvaksni trøllakalskampurin, tann heldur fínari mjúki kvennkampurin og dimmgrøni ekstur blóðkampurin. Hesir trøllkampar eru nógv vanligari í londunum sunnan fyri enn norðan fyri okkum.\n\nFleiri sløg av trøllakampum finnast í brattlendi. Lættast er at fáa eyga á tann stórvaksna trøllakallskampin og tann næstan líka stórvaksna mjúka kvennkampin. Sáðkornskanningar hava víst, at útbreiðslan av trøllakampum minkaði ógvuliga nógv, tá ið fólk settu búgv í Føroyum og høvdu húsdjór síni við sær.\n\nFimtan sløg av trøllakampum finnast í Føroyum. Flestu av teimum dámar best at vaksa í klettarivum, har vátt og skuggi er - men eisini í grýtutum lendi, brattlendi og gjáum. Ein tann mest vanligi trøllakampurin í Føroyum er fínur klettakampur, meðan svartur trøllakampur og strálhærdur trøllakampur eru sera sjáldsamir og bert finnast á einum stað. \n\nÍ 2007 varð nýtt trøllakampaslag funnið í brattlendi í Norðuroyggjum. Hetta er tungutrøllakampur (Asplenium scolopendrium). Hesin trøllakampur er eisini sjáldsamur í hinum Norðurlondunum.\n\nKelda\n Stamps.fo\n\nSí eisini\n Plantulívið í Føroyum\n\nPlantur í Føroyum\nPlantur',
389
+ "question": 'Hvussu mong trøllakamps sløg eru til í Føroyum?',
390
+ "answers": {
391
+ "answer_start": array([2782]),
392
+ "text": array(['Fimtan'], dtype=object)
393
+ }
394
+ }
395
+ ```
396
+
397
+ When evaluating generative models, we use the following setup (see the
398
+ [methodology](/methodology) for more information on how these are used):
399
+
400
+ - Number of few-shot examples: 4
401
+ - Prefix prompt:
402
+ ```
403
+ Hetta eru tekstir saman við spurningum og svar.
404
+ ```
405
+ - Base prompt template:
406
+ ```
407
+ Tekstur: {text}
408
+ Spurningur: {question}
409
+ Svara við í mesta lagi trimum orðum: {label}
410
+ ```
411
+ - Instruction-tuned prompt template:
412
+ ```
413
+ Tekstur: {text}
414
+
415
+ Svara hesum spurninginum um tekstin uppiyvir við í mesta lagi trimum orðum.
416
+
417
+ Spurningur: {question}
418
+ ```
419
+
420
+ You can evaluate this dataset directly as follows:
421
+
422
+ ```bash
423
+ $ euroeval --model <model-id> --dataset multi-wiki-qa-fo
424
+ ```