EuroEval 15.13.0__tar.gz → 15.15.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.


This version of EuroEval might be problematic. Click here for more details.

Files changed (252) hide show
  1. {euroeval-15.13.0 → euroeval-15.15.0}/.github/ISSUE_TEMPLATE/benchmark_dataset_request.yaml +1 -0
  2. {euroeval-15.13.0 → euroeval-15.15.0}/.github/ISSUE_TEMPLATE/model_evaluation_request.yaml +1 -1
  3. {euroeval-15.13.0 → euroeval-15.15.0}/.pre-commit-config.yaml +2 -2
  4. {euroeval-15.13.0 → euroeval-15.15.0}/CHANGELOG.md +41 -0
  5. {euroeval-15.13.0 → euroeval-15.15.0}/PKG-INFO +3 -5
  6. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/danish.md +89 -23
  7. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/dutch.md +81 -15
  8. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/english.md +30 -30
  9. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/faroese.md +30 -30
  10. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/finnish.md +81 -15
  11. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/french.md +96 -30
  12. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/german.md +91 -30
  13. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/icelandic.md +45 -45
  14. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/italian.md +98 -32
  15. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/norwegian.md +30 -30
  16. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/portuguese.md +15 -15
  17. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/spanish.md +82 -15
  18. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/swedish.md +81 -15
  19. {euroeval-15.13.0 → euroeval-15.15.0}/docs/methodology.md +1 -1
  20. {euroeval-15.13.0 → euroeval-15.15.0}/pyproject.toml +3 -5
  21. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/__init__.py +7 -0
  22. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_modules/litellm.py +31 -4
  23. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_modules/vllm.py +11 -12
  24. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/data_models.py +1 -1
  25. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/danish.py +10 -0
  26. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/dutch.py +10 -0
  27. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/finnish.py +10 -0
  28. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/french.py +10 -0
  29. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/german.py +10 -0
  30. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/italian.py +10 -0
  31. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/spanish.py +10 -0
  32. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/swedish.py +10 -0
  33. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/generation.py +1 -1
  34. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/human_evaluation.py +2 -1
  35. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/metrics.py +20 -4
  36. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/multiple_choice.py +1 -1
  37. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/task_group_utils/question_answering.py +7 -1
  38. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/task_group_utils/sequence_classification.py +8 -1
  39. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/task_group_utils/text_to_text.py +8 -1
  40. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/task_group_utils/token_classification.py +9 -2
  41. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/types.py +5 -0
  42. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_boolq_pt.py +4 -4
  43. euroeval-15.13.0/src/scripts/create_goldenswag_pt.py → euroeval-15.15.0/src/scripts/create_goldenswag.py +63 -36
  44. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_harem.py +4 -1
  45. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_sst2_pt.py +4 -6
  46. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_data_models.py +1 -1
  47. {euroeval-15.13.0 → euroeval-15.15.0}/uv.lock +1987 -1576
  48. {euroeval-15.13.0 → euroeval-15.15.0}/.github/ISSUE_TEMPLATE/bug.yaml +0 -0
  49. {euroeval-15.13.0 → euroeval-15.15.0}/.github/ISSUE_TEMPLATE/feature_request.yaml +0 -0
  50. {euroeval-15.13.0 → euroeval-15.15.0}/.github/workflows/ci.yaml +0 -0
  51. {euroeval-15.13.0 → euroeval-15.15.0}/.gitignore +0 -0
  52. {euroeval-15.13.0 → euroeval-15.15.0}/CITATION.cff +0 -0
  53. {euroeval-15.13.0 → euroeval-15.15.0}/CODE_OF_CONDUCT.md +0 -0
  54. {euroeval-15.13.0 → euroeval-15.15.0}/CONTRIBUTING.md +0 -0
  55. {euroeval-15.13.0 → euroeval-15.15.0}/Dockerfile.cuda +0 -0
  56. {euroeval-15.13.0 → euroeval-15.15.0}/LICENSE +0 -0
  57. {euroeval-15.13.0 → euroeval-15.15.0}/NEW_DATASET_GUIDE.md +0 -0
  58. {euroeval-15.13.0 → euroeval-15.15.0}/README.md +0 -0
  59. {euroeval-15.13.0 → euroeval-15.15.0}/docs/CNAME +0 -0
  60. {euroeval-15.13.0 → euroeval-15.15.0}/docs/README.md +0 -0
  61. {euroeval-15.13.0 → euroeval-15.15.0}/docs/datasets/README.md +0 -0
  62. {euroeval-15.13.0 → euroeval-15.15.0}/docs/extras/radial_plotter.md +0 -0
  63. {euroeval-15.13.0 → euroeval-15.15.0}/docs/faq.md +0 -0
  64. {euroeval-15.13.0 → euroeval-15.15.0}/docs/gfx/favicon.png +0 -0
  65. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/danish.md +0 -0
  66. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/dutch.md +0 -0
  67. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/english.md +0 -0
  68. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/faroese.md +0 -0
  69. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/finnish.md +0 -0
  70. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/french.md +0 -0
  71. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/german.md +0 -0
  72. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/icelandic.md +0 -0
  73. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/italian.md +0 -0
  74. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/norwegian.md +0 -0
  75. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/spanish.md +0 -0
  76. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Monolingual/swedish.md +0 -0
  77. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Multilingual/european.md +0 -0
  78. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Multilingual/germanic.md +0 -0
  79. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Multilingual/mainland-scandinavian.md +0 -0
  80. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/Multilingual/romance.md +0 -0
  81. {euroeval-15.13.0 → euroeval-15.15.0}/docs/leaderboards/README.md +0 -0
  82. {euroeval-15.13.0 → euroeval-15.15.0}/docs/python-package.md +0 -0
  83. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/README.md +0 -0
  84. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/common-sense-reasoning.md +0 -0
  85. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/knowledge.md +0 -0
  86. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/linguistic-acceptability.md +0 -0
  87. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/named-entity-recognition.md +0 -0
  88. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/reading-comprehension.md +0 -0
  89. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/sentiment-classification.md +0 -0
  90. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/speed.md +0 -0
  91. {euroeval-15.13.0 → euroeval-15.15.0}/docs/tasks/summarization.md +0 -0
  92. {euroeval-15.13.0 → euroeval-15.15.0}/gfx/euroeval.png +0 -0
  93. {euroeval-15.13.0 → euroeval-15.15.0}/gfx/euroeval.xcf +0 -0
  94. {euroeval-15.13.0 → euroeval-15.15.0}/gfx/scandeval.png +0 -0
  95. {euroeval-15.13.0 → euroeval-15.15.0}/makefile +0 -0
  96. {euroeval-15.13.0 → euroeval-15.15.0}/mkdocs.yaml +0 -0
  97. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_config_factory.py +0 -0
  98. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_modules/__init__.py +0 -0
  99. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_modules/base.py +0 -0
  100. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_modules/fresh.py +0 -0
  101. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmark_modules/hf.py +0 -0
  102. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/benchmarker.py +0 -0
  103. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/callbacks.py +0 -0
  104. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/cli.py +0 -0
  105. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/constants.py +0 -0
  106. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/data_loading.py +0 -0
  107. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/__init__.py +0 -0
  108. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/english.py +0 -0
  109. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/faroese.py +0 -0
  110. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/icelandic.py +0 -0
  111. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/norwegian.py +0 -0
  112. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/dataset_configs/portuguese.py +0 -0
  113. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/enums.py +0 -0
  114. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/exceptions.py +0 -0
  115. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/finetuning.py +0 -0
  116. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/generation_utils.py +0 -0
  117. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/languages.py +0 -0
  118. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/model_cache.py +0 -0
  119. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/model_config.py +0 -0
  120. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/model_loading.py +0 -0
  121. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/__init__.py +0 -0
  122. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/linguistic_acceptability.py +0 -0
  123. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/named_entity_recognition.py +0 -0
  124. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/reading_comprehension.py +0 -0
  125. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/sentiment_classification.py +0 -0
  126. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/prompt_templates/summarization.py +0 -0
  127. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/scores.py +0 -0
  128. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/speed_benchmark.py +0 -0
  129. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/task_group_utils/__init__.py +0 -0
  130. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/task_group_utils/multiple_choice_classification.py +0 -0
  131. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/tasks.py +0 -0
  132. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/tokenization_utils.py +0 -0
  133. {euroeval-15.13.0 → euroeval-15.15.0}/src/euroeval/utils.py +0 -0
  134. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/constants.py +0 -0
  135. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_allocine.py +0 -0
  136. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_angry_tweets.py +0 -0
  137. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_arc.py +0 -0
  138. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_arc_is.py +0 -0
  139. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_belebele.py +0 -0
  140. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_cnn_dailymail.py +0 -0
  141. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_conll_en.py +0 -0
  142. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_conll_es.py +0 -0
  143. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_conll_nl.py +0 -0
  144. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_dane.py +0 -0
  145. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_danish_citizen_tests.py +0 -0
  146. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_dansk.py +0 -0
  147. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_danske_talemaader.py +0 -0
  148. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_danske_talemaader_old.py +0 -0
  149. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_dbrd.py +0 -0
  150. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_dutch_cola.py +0 -0
  151. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_eltec.py +0 -0
  152. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_fone.py +0 -0
  153. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_foqa.py +0 -0
  154. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_fosent.py +0 -0
  155. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_fquad.py +0 -0
  156. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_germanquad.py +0 -0
  157. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_germeval.py +0 -0
  158. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_hellaswag.py +0 -0
  159. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_hellaswag_fi.py +0 -0
  160. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_hotter_and_colder_sentiment.py +0 -0
  161. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_ice_linguistic.py +0 -0
  162. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_icelandic_error_corpus.py +0 -0
  163. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_icelandic_knowledge.py +0 -0
  164. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_icelandic_qa.py +0 -0
  165. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_icesum.py +0 -0
  166. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_idioms_no.py +0 -0
  167. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_ilpost_sum.py +0 -0
  168. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_jentoft.py +0 -0
  169. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_life_in_the_uk.py +0 -0
  170. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_mim_gold_ner.py +0 -0
  171. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_mlqa_es.py +0 -0
  172. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_mlsum_de.py +0 -0
  173. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_mlsum_es.py +0 -0
  174. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_mmlu.py +0 -0
  175. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_multi_wiki_qa.py +0 -0
  176. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_multinerd-it.py +0 -0
  177. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_no_cola.py +0 -0
  178. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_no_sammendrag.py +0 -0
  179. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_nor_common_sense_qa.py +0 -0
  180. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_nordjylland_news.py +0 -0
  181. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_norec.py +0 -0
  182. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_norglm_multiqa.py +0 -0
  183. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_norglm_multisum.py +0 -0
  184. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_norne.py +0 -0
  185. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_norquad.py +0 -0
  186. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_nqii.py +0 -0
  187. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_nrk_quiz_qa.py +0 -0
  188. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_orange_sum.py +0 -0
  189. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_personal_sum.py +0 -0
  190. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_publico.py +0 -0
  191. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_rrn.py +0 -0
  192. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_sb10k.py +0 -0
  193. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_scala.py +0 -0
  194. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_scandiqa.py +0 -0
  195. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_scandisent_fi.py +0 -0
  196. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_schibsted.py +0 -0
  197. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_sentiment_headlines_es.py +0 -0
  198. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_sentipolc16.py +0 -0
  199. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_squad.py +0 -0
  200. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_squad_it.py +0 -0
  201. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_squad_nl.py +0 -0
  202. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_squad_nl_old.py +0 -0
  203. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_sst5.py +0 -0
  204. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_suc3.py +0 -0
  205. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_swedn.py +0 -0
  206. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_swerec.py +0 -0
  207. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_turku_ner_fi.py +0 -0
  208. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_tydiqa_fi.py +0 -0
  209. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_wiki_lingua_nl.py +0 -0
  210. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_wikiann_fo.py +0 -0
  211. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_wikineural-it.py +0 -0
  212. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_winogrande_is.py +0 -0
  213. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_xlsum_fi.py +0 -0
  214. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/create_xquad_es.py +0 -0
  215. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/fix_dot_env_file.py +0 -0
  216. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/load_ud_pos.py +0 -0
  217. {euroeval-15.13.0 → euroeval-15.15.0}/src/scripts/versioning.py +0 -0
  218. {euroeval-15.13.0 → euroeval-15.15.0}/tests/__init__.py +0 -0
  219. {euroeval-15.13.0 → euroeval-15.15.0}/tests/conftest.py +0 -0
  220. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_config_factory.py +0 -0
  221. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_modules/__init__.py +0 -0
  222. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_modules/test_base.py +0 -0
  223. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_modules/test_fresh.py +0 -0
  224. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_modules/test_hf.py +0 -0
  225. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_modules/test_litellm.py +0 -0
  226. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmark_modules/test_vllm.py +0 -0
  227. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_benchmarker.py +0 -0
  228. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_callbacks.py +0 -0
  229. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_cli.py +0 -0
  230. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_constants.py +0 -0
  231. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_data_loading.py +0 -0
  232. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_dataset_configs.py +0 -0
  233. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_enums.py +0 -0
  234. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_exceptions.py +0 -0
  235. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_finetuning.py +0 -0
  236. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_generation.py +0 -0
  237. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_human_evaluation.py +0 -0
  238. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_languages.py +0 -0
  239. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_model_cache.py +0 -0
  240. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_model_config.py +0 -0
  241. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_model_loading.py +0 -0
  242. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_scores.py +0 -0
  243. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_speed_benchmark.py +0 -0
  244. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_task_utils/__init__.py +0 -0
  245. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_task_utils/test_question_answering.py +0 -0
  246. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_task_utils/test_sequence_classification.py +0 -0
  247. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_task_utils/test_text_to_text.py +0 -0
  248. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_task_utils/test_token_classification.py +0 -0
  249. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_tasks.py +0 -0
  250. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_tokenization_utils.py +0 -0
  251. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_types.py +0 -0
  252. {euroeval-15.13.0 → euroeval-15.15.0}/tests/test_utils.py +0 -0
@@ -32,6 +32,7 @@ body:
32
32
  - label: Icelandic
33
33
  - label: Italian
34
34
  - label: Norwegian (Bokmål or Nynorsk)
35
+ - label: Portuguese
35
36
  - label: Spanish
36
37
  - label: Swedish
37
38
  validations:
@@ -18,7 +18,7 @@ body:
18
18
  What languages should this model be evaluated on? Tick all that apply. If the
19
19
  model is multilingual (e.g., Mistral, Llama), then tick all the languages.
20
20
  options:
21
- - label: Romance languages (French, Italian, Spanish)
21
+ - label: Romance languages (French, Italian, Portuguese, Spanish)
22
22
  - label: Scandinavian languages (Danish, Faroese, Icelandic, Norwegian, Swedish)
23
23
  - label: West Germanic languages (Dutch, English, German)
24
24
  - label: Finnish
@@ -10,7 +10,7 @@ repos:
10
10
  - id: trailing-whitespace
11
11
  - id: debug-statements
12
12
  - repo: https://github.com/astral-sh/ruff-pre-commit
13
- rev: v0.12.4
13
+ rev: v0.12.7
14
14
  hooks:
15
15
  - id: ruff
16
16
  args:
@@ -31,7 +31,7 @@ repos:
31
31
  hooks:
32
32
  - id: nbstripout
33
33
  - repo: https://github.com/pre-commit/mirrors-mypy
34
- rev: v1.17.0
34
+ rev: v1.17.1
35
35
  hooks:
36
36
  - id: mypy
37
37
  args:
@@ -10,6 +10,47 @@ and this project adheres to [Semantic Versioning](http://semver.org/spec/v2.0.0.
10
10
 
11
11
 
12
12
 
13
+ ## [v15.15.0] - 2025-08-06
14
+ ### Added
15
+ - Added the common-sense reasoning dataset GoldenSwag for the following
16
+ languages: Danish, German, Spanish, Finnish, French, Italian, Dutch, Swedish.
17
+ The datasets are unofficial for now. This was contributed by
18
+ [@oliverkinch](https://github.com/oliverkinch) ✨
19
+
20
+ ### Changed
21
+ - Now allows metadata to be included in metrics, allowing more flexibility when
22
+ implementing custom metrics. This is not used in any task yet.
23
+ - Changed structured decoding backend from Outlines to XGrammar, as the latter was more
24
+ robust and now supports all the JSON features we need.
25
+ - Updated vLLM to `>=0.10.0`, which includes the updated XGrammar version.
26
+ - Now uses the V1 engine of vLLM, as we only used the V0 engine because XGrammar did not
27
+ support all the JSON features we needed.
28
+
29
+ ### Fixed
30
+ - Now sets `VLLM_ALLOW_LONG_MAX_MODEL_LEN=1` to ignore the vLLM error that happens when
31
+ vLLM cannot determine the maximum context length of a model correctly, so that it
32
+ thinks that the model's maximum context length is smaller than the amount that we
33
+ allow it to generate. This is basically since we're doing a more thorough check
34
+ through the config than vLLM does, so we can safely ignore this error.
35
+
36
+
37
+ ## [v15.14.0] - 2025-07-30
38
+ ### Changed
39
+ - Now runs a "test run" for API inference models with a single conversation to check for
40
+ generation arguments that need changing, for instance if the model does not support
41
+ logprobs or requires a specific temperature. This was done previously in the first
42
+ batch, resulting in slower evaluation and many erroneous API calls. It is now
43
+ significantly faster and faces fewer rate limits.
44
+ - Now also uses LiteLLM's `supports_reasoning` function to check if a model supports
45
+ reasoning. This check is done on top of all the previous checks, for robustness.
46
+
47
+ ### Fixed
48
+ - Disabling thinking (with the `@no-thinking` suffix) did not work properly for
49
+ Anthropic models, as they don't support the `budget_tokens` parameter when thinking
50
+ is disabled. This has been fixed now, so that the `@no-thinking` suffix now works
51
+ properly for all models that support it.
52
+
53
+
13
54
  ## [v15.13.0] - 2025-07-21
14
55
  ### Added
15
56
  - Added the new MultiWikiQA reading comprehension dataset for all languages, which is
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.4
2
2
  Name: EuroEval
3
- Version: 15.13.0
3
+ Version: 15.15.0
4
4
  Summary: The robust European language model benchmark.
5
5
  Project-URL: Repository, https://github.com/EuroEval/EuroEval
6
6
  Project-URL: Issues, https://github.com/EuroEval/EuroEval/issues
@@ -61,13 +61,11 @@ Provides-Extra: all
61
61
  Requires-Dist: bitsandbytes>=0.43.1; (platform_system == 'Linux') and extra == 'all'
62
62
  Requires-Dist: fbgemm-gpu>=1.0.0; (platform_system == 'Linux') and extra == 'all'
63
63
  Requires-Dist: gradio>=4.26.0; extra == 'all'
64
- Requires-Dist: outlines>=0.1.11; extra == 'all'
65
- Requires-Dist: vllm>=0.9.1; (platform_system == 'Linux') and extra == 'all'
64
+ Requires-Dist: vllm>=0.10.0; (platform_system == 'Linux') and extra == 'all'
66
65
  Provides-Extra: generative
67
66
  Requires-Dist: bitsandbytes>=0.43.1; (platform_system == 'Linux') and extra == 'generative'
68
67
  Requires-Dist: fbgemm-gpu>=1.0.0; (platform_system == 'Linux') and extra == 'generative'
69
- Requires-Dist: outlines>=0.1.11; extra == 'generative'
70
- Requires-Dist: vllm>=0.9.1; (platform_system == 'Linux') and extra == 'generative'
68
+ Requires-Dist: vllm>=0.10.0; (platform_system == 'Linux') and extra == 'generative'
71
69
  Provides-Extra: human-evaluation
72
70
  Requires-Dist: gradio>=4.26.0; extra == 'human-evaluation'
73
71
  Provides-Extra: test
@@ -294,31 +294,31 @@ Here are a few examples from the training split:
294
294
 
295
295
  ```json
296
296
  {
297
- "context": '"(Sittin\' On) The Dock of the Bay" er en sang, der er skrevet af soul-sangeren Otis Redding og guitaristen Steve Cropper sammen. Den blev indspillet af Redding to gange i 1967, herunder en gang få dage før hans død i et flystyrt. Sangen blev udgivet på Stax Records\' Volt-label i 1968 og blev den første posthume single, der lå øverst på hitlisterne i USA. Den nåede op som nummer 3 på den britiske single-liste.',
298
- "question": 'Hvem sang sitting on the dock of the bay?',
297
+ "context": "\"(Sittin\' On) The Dock of the Bay\" er en sang, der er skrevet af soul-sangeren Otis Redding og guitaristen Steve Cropper sammen. Den blev indspillet af Redding to gange i 1967, herunder en gang få dage før hans død i et flystyrt. Sangen blev udgivet på Stax Records\' Volt-label i 1968 og blev den første posthume single, der lå øverst på hitlisterne i USA. Den nåede op som nummer 3 på den britiske single-liste.",
298
+ "question": "Hvem sang sitting on the dock of the bay?",
299
299
  "answers": {
300
300
  "answer_start": array([79]),
301
- "text": array(['Otis Redding'], dtype=object)
301
+ "text": array(["Otis Redding"], dtype=object)
302
302
  }
303
303
  }
304
304
  ```
305
305
  ```json
306
306
  {
307
307
  "context": "The Cat in the Hat Knows a Lot About That!\nKatten i hatten ved meget om det!\n\n\n\nKatten i hatten pilot\n\n\n\nGenre\nBørne-tv/undervisning/komedie\n\n\nInstrueret af\nTony Collingwood\n\n\nStemmer fra\nMartin Short\nJacob Ewaniuk\nAlexa Torrington\nRob Tinkler\n\n\nKomponist af temamusik\nDavid Schweitzer\n\n\nKomponist(er)\nDavid Schweitzer\n\n\nOprindelsesland\nCanada\nDet Forenede Kongerige\nUSA\n\n\nOprindelige sprog\nEngelsk\n\n\nAntal sæsoner\n2\n\n\nAntal episoder\n60 (liste over episoder)\n\n\nProduktion\n\n\nLøbetid\n30 minutter\n\n\nProduktionsselskab(er)\nCollingwood O'Hare Productions\nPortfolio Entertainment\nRandom House Children's Entertainment\nTreehouse TV\n\n\nDistributør\nTreehouse TV\n\n\nUdgivelse\n\n\nOprindelige netværk\nTreehouse TV (Canada)\nPBS Kids (USA)\nCITV og Tiny Pop (UK)\n\n\nBilledformat\n480i (SDTV)\n1080i (HDTV)\n\n\nOriginaludgivelse\n7. august 2010 (2010-08-07) - nu\n\n\nEksterne links\n\n\nWebsted\npbskids.org/catinthehat/",
308
- "question": 'Hvem synger titelmelodien til the cat in the hat?',
308
+ "question": "Hvem synger titelmelodien til the cat in the hat?",
309
309
  "answers": {
310
310
  "answer_start": array([269]),
311
- "text": array(['David Schweitzer'], dtype=object)
311
+ "text": array(["David Schweitzer"], dtype=object)
312
312
  }
313
313
  }
314
314
  ```
315
315
  ```json
316
316
  {
317
- "context": 'Modern Slavery Act 2015\nLoven om moderne slaveri fra 2015 er en lov fra Det Forenede Kongeriges parlament. Den har til formål at bekæmpe slaveri i Det Forenede Kongerige og konsoliderer tidligere lovovertrædelser vedrørende menneskehandel og slaveri. Loven gælder for England og Wales. Lovforslaget blev forelagt underhuset i udkast i oktober 2013 af James Brokenshire, parlamentarisk undersekretær for kriminalitet og sikkerhed, i oktober 2013. Lovforslagets sponsorer i indenrigsministeriet var Theresa May og Lord Bates. Det fik kongelig samstemmende udtalelse og blev lov den 26. marts 2015.',
318
- "question": 'Hvornår trådte den moderne slaveri i kraft?',
317
+ "context": "Modern Slavery Act 2015\nLoven om moderne slaveri fra 2015 er en lov fra Det Forenede Kongeriges parlament. Den har til formål at bekæmpe slaveri i Det Forenede Kongerige og konsoliderer tidligere lovovertrædelser vedrørende menneskehandel og slaveri. Loven gælder for England og Wales. Lovforslaget blev forelagt underhuset i udkast i oktober 2013 af James Brokenshire, parlamentarisk undersekretær for kriminalitet og sikkerhed, i oktober 2013. Lovforslagets sponsorer i indenrigsministeriet var Theresa May og Lord Bates. Det fik kongelig samstemmende udtalelse og blev lov den 26. marts 2015.",
318
+ "question": "Hvornår trådte den moderne slaveri i kraft?",
319
319
  "answers": {
320
320
  "answer_start": array([580]),
321
- "text": array(['26. marts 2015'], dtype=object)
321
+ "text": array(["26. marts 2015"], dtype=object)
322
322
  }
323
323
  }
324
324
  ```
@@ -428,31 +428,31 @@ Here are a few examples from the training split:
428
428
 
429
429
  ```json
430
430
  {
431
- 'context': 'Rødspætten (Pleuronectes platessa) er en fladfisk, der findes overalt i de danske farvande. Den er i øvrigt udbredt fra Middelhavet til Island og Hvidehavet. Den foretrækker steder, hvor bunden består af sten, sand og grus. De unge rødspætter findes på lavt vand, mens de voksne foretrækker 10-50 meters dybde. Rødspætten er en højrevendt fladfisk, idet det normalt er højre side, der under larvens forvandling bliver til overside.\n\nUdseende \nRødspætten kan blive op til 100 centimeter, men bliver i Danmark sjældent over 50 centimeter. Den kendes bedst på, at der bag øjnene løber en buet køl med 4-7 benknuder. Skællene er små og glatte og ikke taglagte. Munden er lille med ret tykke læber. Begge øjne findes normalt på fiskens højre side. På oversiden er rødspætten oftest brunlig med et grønligt skær og med spredte rødlige pletter, der ofte er omgivet af lyse eller mørke ringe. Undersiden er hvid.\n\nLevevis \nRødspætten lever især af børsteorme og tyndskallede muslinger. Den er mest aktiv i døgnets mørke timer, mens den skjuler sig på bunden om dagen. Den skifter farve efter bundens farve og struktur. Rødspættens naturlige fjender er ud over mennesket f.eks. krabber og torsk.\n\nForplantning \nHannerne bliver i Nordsøen kønsmodne 3-4 år gamle og en længde på 20 centimeter, mens hunnerne kønsmodner et par år senere. I Østersøen bliver begge køn tidligere kønsmodne. Gydningen foregår normalt i 20-50 meters dybde i perioden januar til juni. Rødspætten foretrækker en temperatur på 6\xa0°C til gydningen. Æggene er glasklare med en diameter på cirka 2 millimeter og flyder op til overfladen. Efter 2-3 uger klækkes de 6 millimeter store larver. Larverne lever af planktonorganismer og begynder efter cirka 5 uger med en længde på 1 centimeter en forvandling, hvor venstre øje vandrer op over hovedet, der vrides, og kroppen bliver bredere. Til at begynde med svømmer de små rødspætter skråt og siden med højre side opad. Med en længde på 1,2-1,4 centimeter skifter de fra et pelagisk liv til at leve på lavt vand langs kysterne. I det første efterår måler rødspætten 7-12 centimeter og trækker ud, for at overvintre på dybere vand.\n\nKilder/Henvisninger \n\n C. V. Otterstrøm (1881-1962).\xa0Danmarks Fauna. Fisk II. Blødfinnefisk. G.E.C. Gads Forlag. København 1914.\n\nFladfisk',
432
- 'question': 'Hvilken side af rødspætten vender typisk opad?',
433
- 'answers': {
434
- 'answer_start': array([369]),
435
- 'text': array(['højre side'], dtype=object)
431
+ "context": 'Rødspætten (Pleuronectes platessa) er en fladfisk, der findes overalt i de danske farvande. Den er i øvrigt udbredt fra Middelhavet til Island og Hvidehavet. Den foretrækker steder, hvor bunden består af sten, sand og grus. De unge rødspætter findes på lavt vand, mens de voksne foretrækker 10-50 meters dybde. Rødspætten er en højrevendt fladfisk, idet det normalt er højre side, der under larvens forvandling bliver til overside.\n\nUdseende \nRødspætten kan blive op til 100 centimeter, men bliver i Danmark sjældent over 50 centimeter. Den kendes bedst på, at der bag øjnene løber en buet køl med 4-7 benknuder. Skællene er små og glatte og ikke taglagte. Munden er lille med ret tykke læber. Begge øjne findes normalt på fiskens højre side. På oversiden er rødspætten oftest brunlig med et grønligt skær og med spredte rødlige pletter, der ofte er omgivet af lyse eller mørke ringe. Undersiden er hvid.\n\nLevevis \nRødspætten lever især af børsteorme og tyndskallede muslinger. Den er mest aktiv i døgnets mørke timer, mens den skjuler sig på bunden om dagen. Den skifter farve efter bundens farve og struktur. Rødspættens naturlige fjender er ud over mennesket f.eks. krabber og torsk.\n\nForplantning \nHannerne bliver i Nordsøen kønsmodne 3-4 år gamle og en længde på 20 centimeter, mens hunnerne kønsmodner et par år senere. I Østersøen bliver begge køn tidligere kønsmodne. Gydningen foregår normalt i 20-50 meters dybde i perioden januar til juni. Rødspætten foretrækker en temperatur på 6\xa0°C til gydningen. Æggene er glasklare med en diameter på cirka 2 millimeter og flyder op til overfladen. Efter 2-3 uger klækkes de 6 millimeter store larver. Larverne lever af planktonorganismer og begynder efter cirka 5 uger med en længde på 1 centimeter en forvandling, hvor venstre øje vandrer op over hovedet, der vrides, og kroppen bliver bredere. Til at begynde med svømmer de små rødspætter skråt og siden med højre side opad. Med en længde på 1,2-1,4 centimeter skifter de fra et pelagisk liv til at leve på lavt vand langs kysterne. I det første efterår måler rødspætten 7-12 centimeter og trækker ud, for at overvintre på dybere vand.\n\nKilder/Henvisninger \n\n C. V. Otterstrøm (1881-1962).\xa0Danmarks Fauna. Fisk II. Blødfinnefisk. G.E.C. Gads Forlag. København 1914.\n\nFladfisk',
432
+ "question": 'Hvilken side af rødspætten vender typisk opad?',
433
+ "answers": {
434
+ "answer_start": array([369]),
435
+ "text": array(['højre side'], dtype=object)
436
436
  }
437
437
  }
438
438
  ```
439
439
  ```json
440
440
  {
441
- 'context': 'Mzilikazi ("blodvejen" eller "den store vej" ca. 1790–9. september 1868) var en sydafrikansk konge som grundlagde matabelekongedømmet i det område, som nu er Zimbabwe. Han var søn af Matshobana og blev født nær Mkuze i Zululand (nu del af Sydafrika) og døde ved Ingama i Matabeleland (nær Bulawayo, Zimbabwe). Mange regner ham som den største sydafrikanske militærleder efter zulukongen Shaka.\n\nHan førte sin stamme, khumalo, på en 800 km lang rejse fra Zululand til det, som nu er Zimbabwe. På vejen viste han betydelige statsmandsevner, da han samlede sit eget folk og de mange stammer han erobrede, til et stort, etnisk rigt og centraliseret kongedømme.\n\nHan var oprindelig en af Shakas løjtnanter, men i 1823 gjorde han oprør. Frem for at møde rituel henrettelse, flygtede han sammen med sin stamme. Han rejste først til Mozambique og i 1826 ind i Transvaal på grund af fortsatte angreb fra sine fjender.\n\nFortsatte angreb fik ham først til at flytte til dagens Botswana og i 1837 til det, som nu er Zambia Han klarede ikke at erobre den indfødte kololo–nation der og rejste til det, som blev kendt som Matabeleland (i dagens Zimbabwe) og slog sig ned der i 1840.\n\nEfter hans ankomst organiserede han sine tilhængere i et militærsystem med regiment–kraaler som kong Shakas, som blev stærke nok til at afvise boernes angreb i 1847–1851 og tvinge den Sydfrikanske Republiks regering til at underskrive en fredsaftale med ham i 1852.\n\nMzilikazi var generelt venlig over for europæisk rejsende, førte opdagelsen af guld i Matabeleland i 1867 til en flom af bosættere, som han ikke kunne kontrollere, og som førte til kongedømmets endelige nederlag under hans efterfølger Lobengula.\n\nKongelige fra historiske riger',
442
- 'question': 'Med hvilket øgenavn var Mzilikazi kendt?',
443
- 'answers': {
444
- 'answer_start': array([11]),
445
- 'text': array(['"blodvejen" eller "den store vej"'], dtype=object)
441
+ "context": 'Mzilikazi ("blodvejen" eller "den store vej" ca. 1790–9. september 1868) var en sydafrikansk konge som grundlagde matabelekongedømmet i det område, som nu er Zimbabwe. Han var søn af Matshobana og blev født nær Mkuze i Zululand (nu del af Sydafrika) og døde ved Ingama i Matabeleland (nær Bulawayo, Zimbabwe). Mange regner ham som den største sydafrikanske militærleder efter zulukongen Shaka.\n\nHan førte sin stamme, khumalo, på en 800 km lang rejse fra Zululand til det, som nu er Zimbabwe. På vejen viste han betydelige statsmandsevner, da han samlede sit eget folk og de mange stammer han erobrede, til et stort, etnisk rigt og centraliseret kongedømme.\n\nHan var oprindelig en af Shakas løjtnanter, men i 1823 gjorde han oprør. Frem for at møde rituel henrettelse, flygtede han sammen med sin stamme. Han rejste først til Mozambique og i 1826 ind i Transvaal på grund af fortsatte angreb fra sine fjender.\n\nFortsatte angreb fik ham først til at flytte til dagens Botswana og i 1837 til det, som nu er Zambia Han klarede ikke at erobre den indfødte kololo–nation der og rejste til det, som blev kendt som Matabeleland (i dagens Zimbabwe) og slog sig ned der i 1840.\n\nEfter hans ankomst organiserede han sine tilhængere i et militærsystem med regiment–kraaler som kong Shakas, som blev stærke nok til at afvise boernes angreb i 1847–1851 og tvinge den Sydfrikanske Republiks regering til at underskrive en fredsaftale med ham i 1852.\n\nMzilikazi var generelt venlig over for europæisk rejsende, førte opdagelsen af guld i Matabeleland i 1867 til en flom af bosættere, som han ikke kunne kontrollere, og som førte til kongedømmets endelige nederlag under hans efterfølger Lobengula.\n\nKongelige fra historiske riger',
442
+ "question": 'Med hvilket øgenavn var Mzilikazi kendt?',
443
+ "answers": {
444
+ "answer_start": array([11]),
445
+ "text": array(['"blodvejen" eller "den store vej"'], dtype=object)
446
446
  }
447
447
  }
448
448
  ```
449
449
  ```json
450
450
  {
451
- 'context': 'Jean-Nicolas Bouilly (24. januar 1763 i La Coudraye ved Tours – 14. april 1842 i Paris) var en fransk forfatter. \n\nEfter at have studeret jura sluttede Bouilly sig ved revolutionens udbrud til Mirabeau og Barnave og beklædte forskellige embeder, i hvilke han navnlig virkede for indførelsen af primærskoler og for folkeoplysning i det hele taget. Senere trak han sig tilbage og vedblev at leve uafhængig til sin død. 1790 opførtes hans opéra comique Pierre le Grand, med musik af Grétry. Af hans senere dramatiske arbejder kan nævnes L\'abbé de l\'Épée(1795), Les deux journées (1800), komponeret af Cherubini, Fanchon (1802), komponeret af Himmel, L\'intrigue aux fenêtres, Une folie (1803, med musik af Méhul; på dansk ved N.T. Bruun: "Ungdom og Galskab" [1806], med musik af Du Puy), Mme. de Sévigné (1805) og så videre. Desuden oversatte han flere stykker af Kotzebue. Hans skrifter for ungdommen stod i sin tid i høj kurs; hans stil er vidtsvævende og retorisk, hans billeder skruede, hele tonen så sentimental, at han fik navnet le poète lacrymal. Af disse skrifter kan nævnes: Contes offerts aux enfants de France, Contes à ma fille (1809), Conseils à ma fille (1811) og Les jeunes femmes (1819).\n\nKilder \n\n \n\nDramatikere fra Frankrig\nFranskmænd i 1700-tallet\nFranskmænd i 1800-tallet\nSalmonsens',
452
- 'question': 'Med hvilke politiske personer allierede Bouilly sig ved revolutionens begyndelse?',
453
- 'answers': {
454
- 'answer_start': array([193]),
455
- 'text': array(['Mirabeau og Barnave'], dtype=object)
451
+ "context": 'Jean-Nicolas Bouilly (24. januar 1763 i La Coudraye ved Tours – 14. april 1842 i Paris) var en fransk forfatter. \n\nEfter at have studeret jura sluttede Bouilly sig ved revolutionens udbrud til Mirabeau og Barnave og beklædte forskellige embeder, i hvilke han navnlig virkede for indførelsen af primærskoler og for folkeoplysning i det hele taget. Senere trak han sig tilbage og vedblev at leve uafhængig til sin død. 1790 opførtes hans opéra comique Pierre le Grand, med musik af Grétry. Af hans senere dramatiske arbejder kan nævnes L\'abbé de l\'Épée(1795), Les deux journées (1800), komponeret af Cherubini, Fanchon (1802), komponeret af Himmel, L\'intrigue aux fenêtres, Une folie (1803, med musik af Méhul; på dansk ved N.T. Bruun: "Ungdom og Galskab" [1806], med musik af Du Puy), Mme. de Sévigné (1805) og så videre. Desuden oversatte han flere stykker af Kotzebue. Hans skrifter for ungdommen stod i sin tid i høj kurs; hans stil er vidtsvævende og retorisk, hans billeder skruede, hele tonen så sentimental, at han fik navnet le poète lacrymal. Af disse skrifter kan nævnes: Contes offerts aux enfants de France, Contes à ma fille (1809), Conseils à ma fille (1811) og Les jeunes femmes (1819).\n\nKilder \n\n \n\nDramatikere fra Frankrig\nFranskmænd i 1700-tallet\nFranskmænd i 1800-tallet\nSalmonsens',
452
+ "question": 'Med hvilke politiske personer allierede Bouilly sig ved revolutionens begyndelse?',
453
+ "answers": {
454
+ "answer_start": array([193]),
455
+ "text": array(['Mirabeau og Barnave'], dtype=object)
456
456
  }
457
457
  }
458
458
  ```
@@ -829,6 +829,72 @@ $ euroeval --model <model-id> --dataset hellaswag-da
829
829
  ```
830
830
 
831
831
 
832
+ ### Unofficial: GoldenSwag-da
833
+
834
+ This dataset is a filtered and machine translated version of the English [HellaSwag dataset](https://aclanthology.org/P19-1472/), featuring both video descriptions from ActivityNet as well as how-to articles from WikiHow. The machine translated version was published in [this paper](https://doi.org/10.48550/arXiv.2410.08928) and was done using DeepL, and the filtering was published in [this paper](https://doi.org/10.48550/arXiv.2504.07825), which resulted in higher quality samples.
835
+
836
+ The original full dataset consists of 1530 / 1530 samples for training and validation, respectively. However, they are exactly equal. We use a split of 660 / 256 / 2,048 samples for training, validation, and testing, respectively.
837
+
838
+ Here are a few examples from the training split:
839
+
840
+ ```json
841
+ {
842
+ "text": "Sådan giver du dig selv en fransk manicure ved hjælp af tape. Gnid en vatpind med neglelakfjerner på alle dine negle. Det vil ikke kun fjerne afskallet lak eller rester af lak, men det vil også fjerne fugtighedscreme fra neglen. Hvis du har et fugtighedsbevarende middel, såsom lotion eller olie, på neglen, vil lakken ikke sidde ordentligt fast.\nSvarmuligheder:\na. Kom lakfjerneren i en lille skål. Du skal bruge den om et par minutter til at få denne opløsning på tæerne.\nb. Fordel et fugtgivende pulver over alle dine negle med cirkulære bevægelser, indtil du kommer i kontakt med huden. Polér altid neglene, inden du går i gang.\nc. Skum vattet i lakfjerneren. Brug en blød vaskeklud til at samle lakken op.\nd. Sørg for, at du har skabt et perfekt lærred til din franske manicure. Påfør din basisfarve på hele neglen.",
843
+ "label": "d"
844
+ }
845
+ ```
846
+
847
+ ```json
848
+ {
849
+ "text": "Sådan forbedrer du et lille barns tale. Kom ned på deres niveau. Sæt dig på hug eller på gulvet. Det vil få deres opmærksomhed.\nSvarmuligheder:\na. Du vil tale med dit barn i stedet for til det. Hun vil også kunne se din mund og få visuelle tegn på, hvordan man siger bestemte lyde.\nb. Løft om nødvendigt hænderne sammen til knytnæver. Hvis du strækker dine hænder til knytnæver og gør det, mens du taler, vil dit barn sandsynligvis gøre det samme.\nc. Prøv at være så stille som muligt, og tal kun til dem, når de er rolige. Hvis du taler længe nok, vil de til sidst høre din stemme.\nd. Lad dem bede dig om at rykke tættere på dem. Hvis det er muligt, så brug en siddepind i hovedhøjde.",
850
+ "label": "a"
851
+ }
852
+ ```
853
+
854
+ ```json
855
+ {
856
+ "text": "Sådan bruger du en bodysuit. Vælg en bodysuit, der smigrer dine yndlingstræk. Med så mange muligheder og stilarter kan bodysuiten virkelig være universelt flatterende. For at finde en body, der ser godt ud på dig, skal du overveje, hvilken del af din krop du vil fremhæve.\nSvarmuligheder:\na. Det kan være underarmene, benene eller andre steder, der stikker ud. Måske har du for eksempel en flot læbespalte, som du gerne vil fremhæve.\nb. Find ud af, hvilken del af din krop du vil fremhæve, og skær så ned på det, der fremhæver denne del. Hvis du for eksempel ønsker, at overdelene skal fremhæve dine bryster mest muligt, kan bikinitrusserne også bæres omkring det område.\nc. Hvis du for eksempel er stolt af dine tonede arme, skal du vælge en body uden ærmer eller med halterneck. Start med en bodysuit i t-shirt-stil, hvis du er ved at varme op til trenden.\nd. Beslut dig for, hvor mange forskellige dele af dig, din body skal fremhæve. Hvis du for eksempel vil have et sporty look, skal din body også fremhæve en del af din krop i stedet for en særlig iøjnefaldende del.",
857
+ "label": "c"
858
+ }
859
+ ```
860
+
861
+ When evaluating generative models, we use the following setup (see the
862
+ [methodology](/methodology) for more information on how these are used):
863
+
864
+ - Number of few-shot examples: 5
865
+ - Prefix prompt:
866
+ ```
867
+ Følgende er multiple choice spørgsmål (med svar).
868
+ ```
869
+ - Base prompt template:
870
+ ```
871
+ Spørgsmål: {text}
872
+ Svarmuligheder:
873
+ a. {option_a}
874
+ b. {option_b}
875
+ c. {option_c}
876
+ d. {option_d}
877
+ Svar: {label}
878
+ ```
879
+ - Instruction-tuned prompt template:
880
+ ```
881
+ Spørgsmål: {text}
882
+ Svarmuligheder:
883
+ a. {option_a}
884
+ b. {option_b}
885
+ c. {option_c}
886
+ d. {option_d}
887
+
888
+ Besvar ovenstående spørgsmål ved at svare med 'a', 'b', 'c' eller 'd', og intet andet.
889
+ ```
890
+
891
+ You can evaluate this dataset directly as follows:
892
+
893
+ ```bash
894
+ $ euroeval --model <model-id> --dataset goldenswag-da
895
+ ```
896
+
897
+
832
898
  ## Summarization
833
899
 
834
900
  ### Nordjylland News
@@ -400,31 +400,31 @@ Here are a few examples from the training split:
400
400
 
401
401
  ```json
402
402
  {
403
- 'context': 'Het Tokyo Aquatics Centre (Japans: 東京アクアティクスセンタ, Tōkyō akuatikusu sentā) is een zwembad in de Japanse hoofdstad Tokio. Het ligt in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto. De bouw begon in april 2017 en werd in februari 2020 afgewerkt. De officiële opening werd uitgesteld vanwege de coronapandemie en vond plaats op 26 oktober 2020. Het zwembad werd gebouwd voor de Olympische en Paralympische Spelen in 2020 en biedt plaats aan vijftienduizend toeschouwers. Tijdens de Olympische Spelen zullen het baanzwemmen, schoonspringen en synchroonzwemmen er plaatsvinden; het waterpolotoernooi wordt gehouden in het nabijgelegen Tokyo Tatsumi International Swimming Center.\n\nHet zwembadcomplex heeft twee zwembaden en een duikbad. Het dak werd eerst op de grond gebouwd en vervolgens geleidelijk verhoogd tot een hoogte van 37 meter. Het is 160 meter lang, 130 meter breed en 10 meter dik. Het dak weegt 7.000 ton. Het zwembad blijft na de Olympische en Paralympische spelen in gebruik als zwemarena, evenwel met een in aantal gereduceerde publiekstribune. Tevens wordt het een publiek zwembad.\n\nZwembad in Japan\nKoto\nAccommodatie tijdens de Olympische Zomerspelen 2020\nSportaccommodatie in Tokio',
404
- 'question': 'In welke plaats is het Tokyo Aquatics Centre gevestigd?',
405
- 'answers': {
406
- 'answer_start': array([128]),
407
- 'text': array(['in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto'], dtype=object)
403
+ "context": "Het Tokyo Aquatics Centre (Japans: 東京アクアティクスセンタ, Tōkyō akuatikusu sentā) is een zwembad in de Japanse hoofdstad Tokio. Het ligt in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto. De bouw begon in april 2017 en werd in februari 2020 afgewerkt. De officiële opening werd uitgesteld vanwege de coronapandemie en vond plaats op 26 oktober 2020. Het zwembad werd gebouwd voor de Olympische en Paralympische Spelen in 2020 en biedt plaats aan vijftienduizend toeschouwers. Tijdens de Olympische Spelen zullen het baanzwemmen, schoonspringen en synchroonzwemmen er plaatsvinden; het waterpolotoernooi wordt gehouden in het nabijgelegen Tokyo Tatsumi International Swimming Center.\n\nHet zwembadcomplex heeft twee zwembaden en een duikbad. Het dak werd eerst op de grond gebouwd en vervolgens geleidelijk verhoogd tot een hoogte van 37 meter. Het is 160 meter lang, 130 meter breed en 10 meter dik. Het dak weegt 7.000 ton. Het zwembad blijft na de Olympische en Paralympische spelen in gebruik als zwemarena, evenwel met een in aantal gereduceerde publiekstribune. Tevens wordt het een publiek zwembad.\n\nZwembad in Japan\nKoto\nAccommodatie tijdens de Olympische Zomerspelen 2020\nSportaccommodatie in Tokio",
404
+ "question": "In welke plaats is het Tokyo Aquatics Centre gevestigd?",
405
+ "answers": {
406
+ "answer_start": array([128]),
407
+ "text": array(["in het stadsdeel Tatsumi dat deel uit maakt van de wijk Koto"], dtype=object)
408
408
  }
409
409
  }
410
410
  ```
411
411
  ```json
412
412
  {
413
- 'context': 'J.F. Scholten & Zonen was een textielfabriek in Enschede\n\nOntstaansgeschiedenis\n\nDe grondlegger voor wat later J.F. Scholten & zonen zou gaan heten is de schoolmeester Tijs Lammerink. Van 1800 tot 1810 is hij schoolmeester in Usselo en drijft hij daarnaast handel met de Usselose boeren, hij koopt het door hun geweven linnen op en verkoopt dit weer. In 1808 trouwt Tijs Lammerink met Geesken ten Thij en breidt hij zijn handelaarsactiviteiten uit. Hij koopt herberg "de Swaene" van de familie Wagelaar en koopt in korte tijd nog twee panden waarin hij in 1815 een katoenspinnerij en een zwartververij begint.\n\nHuwelijk dochter\nIn 1838 huwt de dochter van Tijs Lammerink, Bertiena, met Jan Frederik Scholten. Deze wordt opgenomen in het bedrijf van zijn schoonvader om het na diens overlijden alleen voort te zetten. De fabriek wordt getroffen door de stadsbrand van Enschede (1862) en vanaf dat moment besluit J.F. Scholten zijn werkzaamheden voort te zetten met zijn drie zonen Jan, Gijs en Theunis. Ze vernieuwen de spinnerij en maken hem stoomgedreven, en daarmee klaar voor de toekomst. De merknaam die ze blijven voeren is "De Swan" naar de naam van de herberg waarin Tijs Lammerink zijn werkzaamheden begon.\n\nZonen\nOok oudste zoon Jan krijgt een aantal zonen waarmee het voortbestaan van de fabriek wordt gewaarborgd. Na 1889 worden de zoons van Jan Scholten, te weten Jan Fredrik Scholten (1867-1943), Jan Bernard Scholten (1870-1947) en Julius Scholten (1871-1969) geleidelijk in de firma opgenomen.\nDe lijn wordt voortgezet in 1931 en 1934 wanneer de zoons van Julius Scholten, respectievelijk Jan Scholten (1903) en Jan Fredrik Scholten (1910) als firmanten in het bedrijf worden opgenomen.\n\nNaamloze Vennootschap en overname\nIn 1936 wordt de firma omgezet in een naamloze vennootschap. Er werden goederen gefabriceerd voor de binnenlandse markt en stapelartikelen voor Nederlands-Indië op consignatie-basis. In 1956 werden de N.V. Katoenfabrieken v/h Arntzenius Jannink & Co. te Goor door J.F. Scholten & Zonen N.V. overgenomen.\n\nAfbraak\nIn 1977 wordt de fabriek afgebroken. Op de plaats staat nu het Medisch Spectrum Twente\n\nGeschiedenis van Enschede\nEconomie in Enschede\nVoormalig Nederlands textielbedrijf',
414
- 'question': 'Welke logement verwierf Lammerink van de familie Wagelaar?',
415
- 'answers': {
416
- 'answer_start': array([467]),
417
- 'text': array(['"de Swaene"'], dtype=object)
413
+ "context": "J.F. Scholten & Zonen was een textielfabriek in Enschede\n\nOntstaansgeschiedenis\n\nDe grondlegger voor wat later J.F. Scholten & zonen zou gaan heten is de schoolmeester Tijs Lammerink. Van 1800 tot 1810 is hij schoolmeester in Usselo en drijft hij daarnaast handel met de Usselose boeren, hij koopt het door hun geweven linnen op en verkoopt dit weer. In 1808 trouwt Tijs Lammerink met Geesken ten Thij en breidt hij zijn handelaarsactiviteiten uit. Hij koopt herberg \"de Swaene\" van de familie Wagelaar en koopt in korte tijd nog twee panden waarin hij in 1815 een katoenspinnerij en een zwartververij begint.\n\nHuwelijk dochter\nIn 1838 huwt de dochter van Tijs Lammerink, Bertiena, met Jan Frederik Scholten. Deze wordt opgenomen in het bedrijf van zijn schoonvader om het na diens overlijden alleen voort te zetten. De fabriek wordt getroffen door de stadsbrand van Enschede (1862) en vanaf dat moment besluit J.F. Scholten zijn werkzaamheden voort te zetten met zijn drie zonen Jan, Gijs en Theunis. Ze vernieuwen de spinnerij en maken hem stoomgedreven, en daarmee klaar voor de toekomst. De merknaam die ze blijven voeren is \"De Swan\" naar de naam van de herberg waarin Tijs Lammerink zijn werkzaamheden begon.\n\nZonen\nOok oudste zoon Jan krijgt een aantal zonen waarmee het voortbestaan van de fabriek wordt gewaarborgd. Na 1889 worden de zoons van Jan Scholten, te weten Jan Fredrik Scholten (1867-1943), Jan Bernard Scholten (1870-1947) en Julius Scholten (1871-1969) geleidelijk in de firma opgenomen.\nDe lijn wordt voortgezet in 1931 en 1934 wanneer de zoons van Julius Scholten, respectievelijk Jan Scholten (1903) en Jan Fredrik Scholten (1910) als firmanten in het bedrijf worden opgenomen.\n\nNaamloze Vennootschap en overname\nIn 1936 wordt de firma omgezet in een naamloze vennootschap. Er werden goederen gefabriceerd voor de binnenlandse markt en stapelartikelen voor Nederlands-Indië op consignatie-basis. In 1956 werden de N.V. Katoenfabrieken v/h Arntzenius Jannink & Co. te Goor door J.F. Scholten & Zonen N.V. overgenomen.\n\nAfbraak\nIn 1977 wordt de fabriek afgebroken. Op de plaats staat nu het Medisch Spectrum Twente\n\nGeschiedenis van Enschede\nEconomie in Enschede\nVoormalig Nederlands textielbedrijf",
414
+ "question": "Welke logement verwierf Lammerink van de familie Wagelaar?",
415
+ "answers": {
416
+ "answer_start": array([467]),
417
+ "text": array(["\"de Swaene\""], dtype=object)
418
418
  }
419
419
  }
420
420
  ```
421
421
  ```json
422
422
  {
423
- 'context': "Een haardplaat is een metalen plaat achter of onder een open haard, meestal van gietijzer.\n\nToelichting\n\nFunctie van een haardplaat\nHaardplaten achter in de haard zijn bedoeld om warmte te verspreiden, haardplaten onder de haard om vonken op te vangen en zo brand te voorkomen. De meeste nog bewaarde haardplaten - in Nederland zijn er nog duizenden - zijn versierd met een beeltenis.\n\nEen open haard heeft een rendement van zo'n 10 tot 15%, wat betekent dat 85 tot 90 % van de warmte via de schoorsteen verloren gaat. Met een haardplaat achter de haard kan het rendement van een open haard worden verbeterd. Een haardplaat achter het vuur van de open haard neemt warmte op en straalt deze weer uit. Hoe dikker de plaat, hoe sterker de werking. Het rendement van een open haard kan met een haardplaat tot 50% verbeterd worden.\n\nGeschiedenis van de haardplaat\n\nHaardplaten deden hun intrede in de 15e eeuw. Voor die tijd bestond de achterkant van een open haard uit steen. Enkele haardplaten werden vooral gebruikt in Engeland, Frankrijk en Nederland. In Duitsland werden ook wel haardplaten gebruikt, vooral in de Eifel, maar in de rest van Duitsland zag men vooral haardkasten, dit waren meerdere haardplaten die met lijsten aan elkaar verbonden waren en zo een kast vormden. Deze haardkasten waren ook algemeen in de Scandinavische landen. Later werden de platen voor deze kachelkasten van keramiek gemaakt en ontstond de tegelkachel die in Duitsland, Scandinavië en Oost-Europa zeer algemeen was en hier en daar nog is.\n\nHaardplaten en kachelplaten ontstonden ongeveer gelijk en hebben hun oorsprong in de Eiffel en Elzas. De gietijzeren platen werden gegoten in een zandbed. Aanvankelijk waren de platen eenvoudig, maar al snel werden er houtsneden of stempels in het zandbed gedrukt waardoor de plaat een reliëf kreeg. Naarmate de vraag naar haard- en kachelplaten toenam werden de reliëfs verfraaid; later ontstonden complete taferelen. De versiering van haardplaten kent vele thema's: Bijbelse taferelen, allegorische voorstellingen, familiewapens, portretten, herdenkingen enz. De taferelen werden meestal gesneden naar het voorbeeld van prenten of gravures uit die tijd. Ook waren er modellenboeken in omloop. Er zijn maar weinig kunstenaars die zich specifiek richtten op haardplaten. Gelet op de versieringen zijn de Nederlandse haardplaten uit de 17e eeuw het meest opmerkelijk. Een haardplaat uit deze periode is te herkennen aan rijke versieringen rond een middentafereel. De versieringen bestonden vaak uit dolfijnen, slangen, salamanders, zeenimfen en schelpen. De zijkanten waren omrand met bloemen, bladeren en vruchten. De Duitse platen uit die tijd zijn veel soberder, meer rechttoe rechtaan. Ook de vorm van de Nederlandse en Duitse platen verschilden, de Nederlandse platen hebben meestal een ronde vorm aan de bovenkant terwijl de Duitse platen recht zijn.\n\nNederland heeft het Haardplatenmuseum in Klarenbeek. Sommige musea hebben wel bijzondere haardplaten in bezit zoals Museum De Waag in Deventer en het Rijksmuseum in Amsterdam. De grootste Europese collectie haardplaten - circa 400 stuks - is te vinden in het stadhuis van Düsseldorf, Duitsland.\n\nOnderhoudstips voor de haardplaat\nHaardplaten slijten vrijwel niet. Eventuele roest kan met een staalborstel verwijderd worden. Vroeger werden de platen ook wel gezandstraald, maar hierbij verloren versierde platen veel van hun oorspronkelijke reliëf. Tegenwoordig bestaan er meer verfijnde straaltechnieken waarmee bijvoorbeeld verf en roest van een plaat kan worden verwijderd. Stralen wordt door gespecialiseerde bedrijven gedaan omdat de straalmethode, het straalmiddel, de druk en de grootte van de korrel het resultaat bepalen. Ondeskundig stralen kan de plaat beschadigen. Na het schoonmaken kan de plaat het best worden ingesmeerd met kachelpoets. Sommige mensen maken de plaat schoon met petroleum. Dit middel is echter ongeschikt, de plaat wordt er blijvend dof van.\n\nExterne links\n Tour stadhuis Düsseldorf\n Haardplaten in musea\n Voorbeelden van oude haardplaten met hun symbolen\n\nBouwkundig onderdeel\nVerwarming",
424
- 'question': 'Hoe efficiënt is een open haard als er geen haardplaat gebruikt wordt?',
425
- 'answers': {
426
- 'answer_start': array([425]),
427
- 'text': array(["zo'n 10 tot 15%"], dtype=object)
423
+ "context": "Een haardplaat is een metalen plaat achter of onder een open haard, meestal van gietijzer.\n\nToelichting\n\nFunctie van een haardplaat\nHaardplaten achter in de haard zijn bedoeld om warmte te verspreiden, haardplaten onder de haard om vonken op te vangen en zo brand te voorkomen. De meeste nog bewaarde haardplaten - in Nederland zijn er nog duizenden - zijn versierd met een beeltenis.\n\nEen open haard heeft een rendement van zo'n 10 tot 15%, wat betekent dat 85 tot 90 % van de warmte via de schoorsteen verloren gaat. Met een haardplaat achter de haard kan het rendement van een open haard worden verbeterd. Een haardplaat achter het vuur van de open haard neemt warmte op en straalt deze weer uit. Hoe dikker de plaat, hoe sterker de werking. Het rendement van een open haard kan met een haardplaat tot 50% verbeterd worden.\n\nGeschiedenis van de haardplaat\n\nHaardplaten deden hun intrede in de 15e eeuw. Voor die tijd bestond de achterkant van een open haard uit steen. Enkele haardplaten werden vooral gebruikt in Engeland, Frankrijk en Nederland. In Duitsland werden ook wel haardplaten gebruikt, vooral in de Eifel, maar in de rest van Duitsland zag men vooral haardkasten, dit waren meerdere haardplaten die met lijsten aan elkaar verbonden waren en zo een kast vormden. Deze haardkasten waren ook algemeen in de Scandinavische landen. Later werden de platen voor deze kachelkasten van keramiek gemaakt en ontstond de tegelkachel die in Duitsland, Scandinavië en Oost-Europa zeer algemeen was en hier en daar nog is.\n\nHaardplaten en kachelplaten ontstonden ongeveer gelijk en hebben hun oorsprong in de Eiffel en Elzas. De gietijzeren platen werden gegoten in een zandbed. Aanvankelijk waren de platen eenvoudig, maar al snel werden er houtsneden of stempels in het zandbed gedrukt waardoor de plaat een reliëf kreeg. Naarmate de vraag naar haard- en kachelplaten toenam werden de reliëfs verfraaid; later ontstonden complete taferelen. De versiering van haardplaten kent vele thema's: Bijbelse taferelen, allegorische voorstellingen, familiewapens, portretten, herdenkingen enz. De taferelen werden meestal gesneden naar het voorbeeld van prenten of gravures uit die tijd. Ook waren er modellenboeken in omloop. Er zijn maar weinig kunstenaars die zich specifiek richtten op haardplaten. Gelet op de versieringen zijn de Nederlandse haardplaten uit de 17e eeuw het meest opmerkelijk. Een haardplaat uit deze periode is te herkennen aan rijke versieringen rond een middentafereel. De versieringen bestonden vaak uit dolfijnen, slangen, salamanders, zeenimfen en schelpen. De zijkanten waren omrand met bloemen, bladeren en vruchten. De Duitse platen uit die tijd zijn veel soberder, meer rechttoe rechtaan. Ook de vorm van de Nederlandse en Duitse platen verschilden, de Nederlandse platen hebben meestal een ronde vorm aan de bovenkant terwijl de Duitse platen recht zijn.\n\nNederland heeft het Haardplatenmuseum in Klarenbeek. Sommige musea hebben wel bijzondere haardplaten in bezit zoals Museum De Waag in Deventer en het Rijksmuseum in Amsterdam. De grootste Europese collectie haardplaten - circa 400 stuks - is te vinden in het stadhuis van Düsseldorf, Duitsland.\n\nOnderhoudstips voor de haardplaat\nHaardplaten slijten vrijwel niet. Eventuele roest kan met een staalborstel verwijderd worden. Vroeger werden de platen ook wel gezandstraald, maar hierbij verloren versierde platen veel van hun oorspronkelijke reliëf. Tegenwoordig bestaan er meer verfijnde straaltechnieken waarmee bijvoorbeeld verf en roest van een plaat kan worden verwijderd. Stralen wordt door gespecialiseerde bedrijven gedaan omdat de straalmethode, het straalmiddel, de druk en de grootte van de korrel het resultaat bepalen. Ondeskundig stralen kan de plaat beschadigen. Na het schoonmaken kan de plaat het best worden ingesmeerd met kachelpoets. Sommige mensen maken de plaat schoon met petroleum. Dit middel is echter ongeschikt, de plaat wordt er blijvend dof van.\n\nExterne links\n Tour stadhuis Düsseldorf\n Haardplaten in musea\n Voorbeelden van oude haardplaten met hun symbolen\n\nBouwkundig onderdeel\nVerwarming",
424
+ "question": "Hoe efficiënt is een open haard als er geen haardplaat gebruikt wordt?",
425
+ "answers": {
426
+ "answer_start": array([425]),
427
+ "text": array(["zo'n 10 tot 15%"], dtype=object)
428
428
  }
429
429
  }
430
430
  ```
@@ -674,6 +674,72 @@ $ euroeval --model <model-id> --dataset hellaswag-nl
674
674
  ```
675
675
 
676
676
 
677
+ ### Unofficial: GoldenSwag-nl
678
+
679
+ This dataset is a filtered and machine translated version of the English [HellaSwag dataset](https://aclanthology.org/P19-1472/), featuring both video descriptions from ActivityNet as well as how-to articles from WikiHow. The machine translated version was published in [this paper](https://doi.org/10.48550/arXiv.2410.08928) and was done using DeepL, and the filtering was published in [this paper](https://doi.org/10.48550/arXiv.2504.07825), which resulted in higher quality samples.
680
+
681
+ The original full dataset consists of 1530 / 1530 samples for training and validation, respectively. However, they are exactly equal. We use a split of 660 / 256 / 2,048 samples for training, validation, and testing, respectively.
682
+
683
+ Here are a few examples from the training split:
684
+
685
+ ```json
686
+ {
687
+ "text": "Hoe leer je je kind een potlood vasthouden? Koop het juiste potlood voor je kind. Het gebruik van korte potloden, zoals golfpotloden of gewone potloden die doormidden zijn gebroken, kan kinderen helpen om zelf de juiste greep te vinden. Korte potloden hebben minder ruimte voor overbodige vingers, dus je kind heeft weinig keus dan de juiste drievingerige greep te gebruiken.\nAntwoordopties:\na. Je kunt korte potloden kopen bij de meeste hobby- en kantoorboekhandels. Help je kind met een potloodgreep.\nb. Goede potloden om mee te beginnen zijn de "p" en "g" potloden. Begin in de onderste potloodhouder in het midden en let goed op hoe je kind het potlood op zijn plaats probeert te houden.\nc. Ga voor meer informatie over het hanteren van een potlood naar. Maak onderscheid tussen potloden die met de handen worden aangedreven en potloden die met beide handen worden gebruikt.\nd. Met een vinger met een langere potloodpunt kunnen kinderen potloden met veel meer controle vasthouden. Met een vinger met een lagere punt kun je proberen om zowat elke vingerpositie onder controle te houden.",
688
+ "label": "a"
689
+ }
690
+ ```
691
+
692
+ ```json
693
+ {
694
+ "text": "Hoe ontstop je een langzaam lopende afvoer van de badkamer gootsteen. Verzamel je materialen. In plaats van te vertrouwen op afvoerreinigingsproducten, die vaak bijtend zijn en allergische reacties en ademhalingsproblemen kunnen veroorzaken, kun je huishoudelijke artikelen gebruiken die je waarschijnlijk al in huis hebt. Je hebt nodig: Doekjes zuiveringszout azijn citroen kokend water. Meet je ingrediënten af.\nAntwoordopties:\na. Een afvoer met een diameter van ongeveer 0,64 centimeter. Was gootsteenontstoppingsproducten met de hand is een gebruikelijke methode, maar je kunt ze bij de meeste bouwmarkten kopen.\nb. Je hebt als basis bloem, zuiveringszout, witte azijn en water nodig. Je kunt een maatbeker gebruiken om ze af te meten, of zelfs een waterkoker.\nc. Neem ¼ kopje zuiveringszout, 1 kopje witte azijn en 1 grote pan water om te koken. Zorg dat je een vod of gootsteenstopper bij de hand hebt.\nd. Hoewel niet alle kleine gootstenen verstopt zijn, kan heet water helpen om de verstopte gaten te verwijderen. Het gebruik van een maatbeker om je ingrediënten af te meten is vooral belangrijk omdat kokend water ook vuil zoals lichaamsresten, klei en zelfs dierlijke uitwerpselen introduceert.",
695
+ "label": "c"
696
+ }
697
+ ```
698
+
699
+ ```json
700
+ {
701
+ "text": "Hoe doe je een dip powder manicure? Gebruik nagellakremover en een nagelriemduwer. Als je nagellak op je nagels hebt, verwijder deze dan met nagellakremover zonder aceton op een niet-pluizend wattenschijfje. Gebruik een nagelriemduwer om je nagelriemen voorzichtig een beetje naar achteren te duwen.\nAntwoordopties:\na. Gebruik alleen nagellakremover of een nagelriemduwer als je vieze handen hebt. Schrijf op je nagels met de nagelriemduwer.\nb. Duw ze niet krachtig terug zodat je geen pijn veroorzaakt aan je vingers of teennagels. Druk ze echter wel stevig aan met je vingers.\nc. Beweeg de drukker in een ronddraaiende beweging om de doorbloeding te stimuleren. Breng een leave-in conditioner aan nadat je je nagelriemen hebt ingesmeerd.\nd. Verwijder voorzichtig overtollige nagelriemen met een nagelriemtrimmer of schraper. Dit zorgt ervoor dat nieuwe nagelgroei zichtbaar wordt, zodat je manicure langer meegaat voordat je hem moet opvullen.",
702
+ "label": "d"
703
+ }
704
+ ```
705
+
706
+ When evaluating generative models, we use the following setup (see the
707
+ [methodology](/methodology) for more information on how these are used):
708
+
709
+ - Number of few-shot examples: 5
710
+ - Prefix prompt:
711
+ ```
712
+ Hieronder staan meerkeuzevragen (met antwoorden).
713
+ ```
714
+ - Base prompt template:
715
+ ```
716
+ Vraag: {text}
717
+ Antwoordopties:
718
+ a. {option_a}
719
+ b. {option_b}
720
+ c. {option_c}
721
+ d. {option_d}
722
+ Antwoord: {label}
723
+ ```
724
+ - Instruction-tuned prompt template:
725
+ ```
726
+ Vraag: {text}
727
+ Antwoordopties:
728
+ a. {option_a}
729
+ b. {option_b}
730
+ c. {option_c}
731
+ d. {option_d}
732
+
733
+ Beantwoord de bovenstaande vraag met 'a', 'b', 'c' of 'd', en niets anders.
734
+ ```
735
+
736
+ You can evaluate this dataset directly as follows:
737
+
738
+ ```bash
739
+ $ euroeval --model <model-id> --dataset goldenswag-nl
740
+ ```
741
+
742
+
677
743
  ## Summarization
678
744
 
679
745
  ### WikiLingua-nl
@@ -236,31 +236,31 @@ Here are a few examples from the training split:
236
236
 
237
237
  ```json
238
238
  {
239
- 'context': 'The Federation of International Gymnastics (FIG) was founded in Liege in 1881. By the end of the nineteenth century, men\'s gymnastics competition was popular enough to be included in the first "modern" Olympic Games in 1896. From then on until the early 1950s, both national and international competitions involved a changing variety of exercises gathered under the rubric, gymnastics, that would seem strange to today\'s audiences and that included for example, synchronized team floor calisthenics, rope climbing, high jumping, running, and horizontal ladder. During the 1920s, women organized and participated in gymnastics events. The first women\'s Olympic competition was primitive, only involving synchronized calisthenics and track and field. These games were held in 1928, in Amsterdam.',
240
- 'question': 'When was gymnastics included in the Olympics?',
241
- 'answers': {
242
- 'answer_start': array([219], dtype=int32),
243
- 'text': array(['1896'], dtype=object)
239
+ "context": 'The Federation of International Gymnastics (FIG) was founded in Liege in 1881. By the end of the nineteenth century, men\'s gymnastics competition was popular enough to be included in the first "modern" Olympic Games in 1896. From then on until the early 1950s, both national and international competitions involved a changing variety of exercises gathered under the rubric, gymnastics, that would seem strange to today\'s audiences and that included for example, synchronized team floor calisthenics, rope climbing, high jumping, running, and horizontal ladder. During the 1920s, women organized and participated in gymnastics events. The first women\'s Olympic competition was primitive, only involving synchronized calisthenics and track and field. These games were held in 1928, in Amsterdam.',
240
+ "question": 'When was gymnastics included in the Olympics?',
241
+ "answers": {
242
+ "answer_start": array([219], dtype=int32),
243
+ "text": array(['1896'], dtype=object)
244
244
  }
245
245
  }
246
246
  ```
247
247
  ```json
248
248
  {
249
- 'context': "London's buildings are too diverse to be characterised by any particular architectural style, partly because of their varying ages. Many grand houses and public buildings, such as the National Gallery, are constructed from Portland stone. Some areas of the city, particularly those just west of the centre, are characterised by white stucco or whitewashed buildings. Few structures in central London pre-date the Great Fire of 1666, these being a few trace Roman remains, the Tower of London and a few scattered Tudor survivors in the City. Further out is, for example, the Tudor period Hampton Court Palace, England's oldest surviving Tudor palace, built by Cardinal Thomas Wolsey c.1515.",
250
- 'question': "The area west of London's city is characterized by what type of building?",
251
- 'answers': {
252
- 'answer_start': array([328], dtype=int32),
253
- 'text': array(['white stucco or whitewashed'], dtype=object)
249
+ "context": "London's buildings are too diverse to be characterised by any particular architectural style, partly because of their varying ages. Many grand houses and public buildings, such as the National Gallery, are constructed from Portland stone. Some areas of the city, particularly those just west of the centre, are characterised by white stucco or whitewashed buildings. Few structures in central London pre-date the Great Fire of 1666, these being a few trace Roman remains, the Tower of London and a few scattered Tudor survivors in the City. Further out is, for example, the Tudor period Hampton Court Palace, England's oldest surviving Tudor palace, built by Cardinal Thomas Wolsey c.1515.",
250
+ "question": "The area west of London's city is characterized by what type of building?",
251
+ "answers": {
252
+ "answer_start": array([328], dtype=int32),
253
+ "text": array(['white stucco or whitewashed'], dtype=object)
254
254
  }
255
255
  }
256
256
  ```
257
257
  ```json
258
258
  {
259
- 'context': 'Along with the rest of South West England, Plymouth has a temperate oceanic climate (Köppen Cfb) which is generally wetter and milder than the rest of England. This means a wide range of exotic plants can be grown. The annual mean temperature is approximately 11 °C (52 °F). Due to the modifying effect of the sea the seasonal range is less than in most other parts of the UK. As a result of this summer highs are lower than its southerly latitude should warrant, but as a contrast the coldest month of February has mean minimum temperatures as mild as between 3 and 4 °C (37 and 39 °F). Snow is rare, not usually equating to more than a few flakes, but there have been exclusions, namely the European winter storms of 2009-10 which, in early January, covered Plymouth in at least 1 inch (2.5 cm) of snow; more on higher ground. Another period of notable snow occurred from 17–19 December 2010 when up to 8 inches (20 cm) of snow fell through the period – though only 2 inches (5.1 cm) would lie at any one time due to melt. Over the 1961–1990 period, annual snowfall accumulation averaged less than 7 cm (3 in) per year. July and August are the warmest months with mean daily maxima over 19 °C (66 °F).',
260
- 'question': 'What month in Plymouth has the lowest temperatures?',
261
- 'answers': {
262
- 'answer_start': array([503], dtype=int32),
263
- 'text': array(['February'], dtype=object)
259
+ "context": 'Along with the rest of South West England, Plymouth has a temperate oceanic climate (Köppen Cfb) which is generally wetter and milder than the rest of England. This means a wide range of exotic plants can be grown. The annual mean temperature is approximately 11 °C (52 °F). Due to the modifying effect of the sea the seasonal range is less than in most other parts of the UK. As a result of this summer highs are lower than its southerly latitude should warrant, but as a contrast the coldest month of February has mean minimum temperatures as mild as between 3 and 4 °C (37 and 39 °F). Snow is rare, not usually equating to more than a few flakes, but there have been exclusions, namely the European winter storms of 2009-10 which, in early January, covered Plymouth in at least 1 inch (2.5 cm) of snow; more on higher ground. Another period of notable snow occurred from 17–19 December 2010 when up to 8 inches (20 cm) of snow fell through the period – though only 2 inches (5.1 cm) would lie at any one time due to melt. Over the 1961–1990 period, annual snowfall accumulation averaged less than 7 cm (3 in) per year. July and August are the warmest months with mean daily maxima over 19 °C (66 °F).',
260
+ "question": 'What month in Plymouth has the lowest temperatures?',
261
+ "answers": {
262
+ "answer_start": array([503], dtype=int32),
263
+ "text": array(['February'], dtype=object)
264
264
  }
265
265
  }
266
266
  ```
@@ -368,31 +368,31 @@ Here are a few examples from the training split:
368
368
 
369
369
  ```json
370
370
  {
371
- 'context': "Stagecoach in Norfolk (formerly Norfolk Green) was a bus operator based in King's Lynn in Norfolk, England. It operated public bus services in the counties of Norfolk, Cambridgeshire and Lincolnshire as well as numerous school and college services. It was a subsidiary of Stagecoach.\n\nIn April 2018, Stagecoach ceased operations in Norfolk. Services were taken over by First Norfolk & Suffolk, Lynx, Sanders Coaches, Stagecoach in Peterborough (the Interconnect 505) and West Norfolk Community Transport.\n\nHistory\n\nNorfolk Green was formed in 1996 with a fleet of four buses. In 1999 the Saham Toney depot was sold to Konectbus with four coaches.\n\nIn April 2011, Norfolk Green purchased the King's Lynn based services of First East England.\n\nOn 17 December 2013, Norfolk Green was sold to Stagecoach following the retirement of Ben Colson after ill health. Unusually, Stagecoach did not immediately apply its corporate brand, but retained the Norfolk Green trading name and livery, although the fleet received Stagecoach fleet numbers. All buses were rebranded between 2015 and late 2017.\n\nIn January 2018, Stagecoach announced it was reviewing its operations in Norfolk in response to the challenging economic environment, blaming a combination of rising operating costs and pressure on public sector budgets. The company said it met with trade union representatives to minimise the impact on staff and launched a consultation with employees over the potential closure of its King's Lynn depot. The company hoped to relocate the majority of its staff with other operators or elsewhere within the Stagecoach East area, which includes Bedford, Cambridge, Huntingdon and Peterborough.\n\nRoutes\nRoutes operated by Stagecoach Norfolk included the very popular Coasthopper services between King's Lynn and Cromer, the Interconnect 505 between King's Lynn and Spalding, a town service network in King's Lynn, a city service in Ely and many rural and interurban bus services across Norfolk, Cambridgeshire and Lincolnshire.\n\nFleet\nAs at July 2013, the fleet consisted of 74 buses. Fleet livery is two tone green. Twelve Optare Solo Slimlines wear a dark blue, yellow and green livery for the Coasthopper group of services. A large proportion of buses are also named after local characters and personalities.\n\nUpon Stagecoach's purchase of Norfolk Green, in the summer of 2016 Stagecoach Norfolk went onto replace the fleet of Coasthopper Optare Solo's with Alexander Dennis Enviro200s. In addition, and later on, they purchased brand new Optare Solos. These new buses feature a new updated Coasthopper 'Flying Kite' livery, free Wi-Fi, USB charging points and leather seating.\n\nReferences\n\nExternal links\n\nCompany website\n\nStagecoach Group bus operators in England\nTransport companies established in 1966\nTransport companies disestablished in 2018\n1996 establishments in England\n2018 disestablishments in England\nBritish companies established in 1996\nBritish companies disestablished in 2018\nFormer bus operators in Norfolk\nFormer bus operators in Cambridgeshire\nFormer bus operators in Lincolnshire",
372
- 'question': 'What is the date of formation of Norfolk Green?',
373
- 'answers': {
374
- 'answer_start': array([543]),
375
- 'text': array(['1996'], dtype=object)
371
+ "context": "Stagecoach in Norfolk (formerly Norfolk Green) was a bus operator based in King's Lynn in Norfolk, England. It operated public bus services in the counties of Norfolk, Cambridgeshire and Lincolnshire as well as numerous school and college services. It was a subsidiary of Stagecoach.\n\nIn April 2018, Stagecoach ceased operations in Norfolk. Services were taken over by First Norfolk & Suffolk, Lynx, Sanders Coaches, Stagecoach in Peterborough (the Interconnect 505) and West Norfolk Community Transport.\n\nHistory\n\nNorfolk Green was formed in 1996 with a fleet of four buses. In 1999 the Saham Toney depot was sold to Konectbus with four coaches.\n\nIn April 2011, Norfolk Green purchased the King's Lynn based services of First East England.\n\nOn 17 December 2013, Norfolk Green was sold to Stagecoach following the retirement of Ben Colson after ill health. Unusually, Stagecoach did not immediately apply its corporate brand, but retained the Norfolk Green trading name and livery, although the fleet received Stagecoach fleet numbers. All buses were rebranded between 2015 and late 2017.\n\nIn January 2018, Stagecoach announced it was reviewing its operations in Norfolk in response to the challenging economic environment, blaming a combination of rising operating costs and pressure on public sector budgets. The company said it met with trade union representatives to minimise the impact on staff and launched a consultation with employees over the potential closure of its King's Lynn depot. The company hoped to relocate the majority of its staff with other operators or elsewhere within the Stagecoach East area, which includes Bedford, Cambridge, Huntingdon and Peterborough.\n\nRoutes\nRoutes operated by Stagecoach Norfolk included the very popular Coasthopper services between King's Lynn and Cromer, the Interconnect 505 between King's Lynn and Spalding, a town service network in King's Lynn, a city service in Ely and many rural and interurban bus services across Norfolk, Cambridgeshire and Lincolnshire.\n\nFleet\nAs at July 2013, the fleet consisted of 74 buses. Fleet livery is two tone green. Twelve Optare Solo Slimlines wear a dark blue, yellow and green livery for the Coasthopper group of services. A large proportion of buses are also named after local characters and personalities.\n\nUpon Stagecoach's purchase of Norfolk Green, in the summer of 2016 Stagecoach Norfolk went onto replace the fleet of Coasthopper Optare Solo's with Alexander Dennis Enviro200s. In addition, and later on, they purchased brand new Optare Solos. These new buses feature a new updated Coasthopper 'Flying Kite' livery, free Wi-Fi, USB charging points and leather seating.\n\nReferences\n\nExternal links\n\nCompany website\n\nStagecoach Group bus operators in England\nTransport companies established in 1966\nTransport companies disestablished in 2018\n1996 establishments in England\n2018 disestablishments in England\nBritish companies established in 1996\nBritish companies disestablished in 2018\nFormer bus operators in Norfolk\nFormer bus operators in Cambridgeshire\nFormer bus operators in Lincolnshire",
372
+ "question": "What is the date of formation of Norfolk Green?",
373
+ "answers": {
374
+ "answer_start": array([543]),
375
+ "text": array(["1996"], dtype=object)
376
376
  }
377
377
  }
378
378
  ```
379
379
  ```json
380
380
  {
381
- 'context': "Lara Stalder (born 15 May 1994) is a Swiss ice hockey forward and member of the Swiss national ice hockey team, currently playing with Brynäs IF Dam of the Swedish Women's Hockey League (SDHL). She played with the Minnesota Duluth Bulldogs women's ice hockey team from 2013 to 2017, and with Linköping HC from 2017 to 2019.\n\nPlaying career \nAcross four seasons with Minnesota-Duluth, Stalder put up 148 points in 134 games, leading the team in points in her final season, as well as being named WCHA Player of the Year and Student-Athlete of the Year, and being a top-three finalist for the Patty Kazmaier Award. In 2016, she was drafted 20th overall by the Boston Pride of the National Women's Hockey League (NWHL).\n\nAfter missing most of the 2018–19 season due to a shoulder injury, Stalder left Linköping to sign with Brynäs. In 2020, she was named SDHL Player of the Year after putting up 71 points in 36 games, being the first woman to win Guldhjälmen. The 42 goals she would score that year is the second highest single-season total in SDHL history, and her 71 points the third highest single-season total in SDHL history.\n\nInternational \nStalder made her senior national team debut at the 2011 IIHF Women's World Championship. She has represented Switzerland at the Winter Olympics in 2014 and won the bronze medal after defeating Sweden in the bronze medal playoff. She would score 6 points in 6 games at the 2018 Winter Olympics, as Switzerland finished in 5th place.\n\nCareer statistics\n\nAwards and honors\n\nNCAA\nWCHA Offensive Player of the Week (Week of 17 January 2017)\nWCHA Offensive Player of the Week (Week of 24 January 2017)\nWCHA Offensive Player of the Week (Week of 31 January 2017)\nWCHA Offensive Player of the Month, January 2017\nWomen's Hockey Commissioners' Association National Division I Player of the Month, January 2017\nPatty Kazmaier Award Top-3 Finalist, 2016–17 season\n2016-17 AHCA-CCM Women's University Division I First-Team All-American\n\nSDHL \n\n Guldhjälmen (Golden Helmet), MVP of the SDHL as selected by players, 2019–20 season\n SDHL Forward of the Year, 2019–20 season\n\nReferences\n\nExternal links\n\nMinnesota Duluth bio\n\n1994 births\nLiving people\nSportspeople from Lucerne\nSwiss women's ice hockey forwards\nIce hockey players at the 2014 Winter Olympics\nIce hockey players at the 2018 Winter Olympics\nIce hockey players at the 2022 Winter Olympics\nOlympic bronze medalists for Switzerland\nOlympic ice hockey players for Switzerland\nOlympic medalists in ice hockey\nMedalists at the 2014 Winter Olympics\nBrynäs IF (women) players\nLinköping HC (women) players\nMinnesota Duluth Bulldogs women's ice hockey players\nSwiss expatriate ice hockey people\nSwiss expatriate sportspeople in Sweden\nSwiss expatriate sportspeople in the United States",
382
- 'question': 'Which SDHL award did Lara Stalder receive during the 2019-2020 season?',
383
- 'answers': {
384
- 'answer_start': array([945]),
385
- 'text': array(['Guldhjälmen'], dtype=object)
381
+ "context": "Lara Stalder (born 15 May 1994) is a Swiss ice hockey forward and member of the Swiss national ice hockey team, currently playing with Brynäs IF Dam of the Swedish Women's Hockey League (SDHL). She played with the Minnesota Duluth Bulldogs women's ice hockey team from 2013 to 2017, and with Linköping HC from 2017 to 2019.\n\nPlaying career \nAcross four seasons with Minnesota-Duluth, Stalder put up 148 points in 134 games, leading the team in points in her final season, as well as being named WCHA Player of the Year and Student-Athlete of the Year, and being a top-three finalist for the Patty Kazmaier Award. In 2016, she was drafted 20th overall by the Boston Pride of the National Women's Hockey League (NWHL).\n\nAfter missing most of the 2018–19 season due to a shoulder injury, Stalder left Linköping to sign with Brynäs. In 2020, she was named SDHL Player of the Year after putting up 71 points in 36 games, being the first woman to win Guldhjälmen. The 42 goals she would score that year is the second highest single-season total in SDHL history, and her 71 points the third highest single-season total in SDHL history.\n\nInternational \nStalder made her senior national team debut at the 2011 IIHF Women's World Championship. She has represented Switzerland at the Winter Olympics in 2014 and won the bronze medal after defeating Sweden in the bronze medal playoff. She would score 6 points in 6 games at the 2018 Winter Olympics, as Switzerland finished in 5th place.\n\nCareer statistics\n\nAwards and honors\n\nNCAA\nWCHA Offensive Player of the Week (Week of 17 January 2017)\nWCHA Offensive Player of the Week (Week of 24 January 2017)\nWCHA Offensive Player of the Week (Week of 31 January 2017)\nWCHA Offensive Player of the Month, January 2017\nWomen's Hockey Commissioners' Association National Division I Player of the Month, January 2017\nPatty Kazmaier Award Top-3 Finalist, 2016–17 season\n2016-17 AHCA-CCM Women's University Division I First-Team All-American\n\nSDHL \n\n Guldhjälmen (Golden Helmet), MVP of the SDHL as selected by players, 2019–20 season\n SDHL Forward of the Year, 2019–20 season\n\nReferences\n\nExternal links\n\nMinnesota Duluth bio\n\n1994 births\nLiving people\nSportspeople from Lucerne\nSwiss women's ice hockey forwards\nIce hockey players at the 2014 Winter Olympics\nIce hockey players at the 2018 Winter Olympics\nIce hockey players at the 2022 Winter Olympics\nOlympic bronze medalists for Switzerland\nOlympic ice hockey players for Switzerland\nOlympic medalists in ice hockey\nMedalists at the 2014 Winter Olympics\nBrynäs IF (women) players\nLinköping HC (women) players\nMinnesota Duluth Bulldogs women's ice hockey players\nSwiss expatriate ice hockey people\nSwiss expatriate sportspeople in Sweden\nSwiss expatriate sportspeople in the United States",
382
+ "question": "Which SDHL award did Lara Stalder receive during the 2019-2020 season?",
383
+ "answers": {
384
+ "answer_start": array([945]),
385
+ "text": array(["Guldhjälmen"], dtype=object)
386
386
  }
387
387
  }
388
388
  ```
389
389
  ```json
390
390
  {
391
- 'context': 'TCG Barbaros (F 244) is the lead ship of of the Turkish Navy.\n\nDevelopment and design \n\nBarbaros-class frigates were designed in Germany and are part of the MEKO group of modular warships, in this case the MEKO 200 design. Two ships were built in Germany and two in Turkey with German assistance. They are larger than the previous s and are also faster due to using CODOG machinery rather than pure diesels.\n\nThe first two vessels (F 244 and F 245) are defined as the Barbaros class (MEKO 200 TN Track II-A) while the last two vessels (F 246 and F 247) are defined as the Salih Reis class (MEKO 200 TN Track II-B) by the Turkish Navy.\n\nSalih Reis subclass ships are built with 8-cell Mk. 41 VLS and longer than Barbaros class vessels to accommodate 16-cell Mk. 41 VLS upgrade in the future while Barbaros-class vessels built with Mk.29 Sea Sparrow launchers that planned to be replaced by 8-cell Mk. 41 VLS.\n\nConstruction and career \nBarbaros was launched on 29 September 1993 by Blohm+Voss in Hamburg and commissioned on 23 May 1997.\n\nOn 9 March 2019, her crew saluted to the tomb of Barbaros Hayreddin while crossing Bosporus.\n\nOn 26 August 2020, TCG Barbaros and sailed alongside in Eastern Mediterranean Sea. Later that year on 3 October, she underwent alongside USS Roosevelt.\n\nReferences\n\nExternal links\n\n The First Upgraded MEKO 200 Frigate Of Turkish Navy\n BARBAROS CLASS ( MEKO 200 Track II) (Turkey)\n\n1993 ships\nShips built in Germany\nFrigates of the Turkish Navy\nBarbaros-class frigates of the Turkish Navy',
392
- 'question': 'Could you tell me about the MEKO group?',
393
- 'answers': {
394
- 'answer_start': array([172]),
395
- 'text': array(['modular warships'], dtype=object)
391
+ "context": "TCG Barbaros (F 244) is the lead ship of of the Turkish Navy.\n\nDevelopment and design \n\nBarbaros-class frigates were designed in Germany and are part of the MEKO group of modular warships, in this case the MEKO 200 design. Two ships were built in Germany and two in Turkey with German assistance. They are larger than the previous s and are also faster due to using CODOG machinery rather than pure diesels.\n\nThe first two vessels (F 244 and F 245) are defined as the Barbaros class (MEKO 200 TN Track II-A) while the last two vessels (F 246 and F 247) are defined as the Salih Reis class (MEKO 200 TN Track II-B) by the Turkish Navy.\n\nSalih Reis subclass ships are built with 8-cell Mk. 41 VLS and longer than Barbaros class vessels to accommodate 16-cell Mk. 41 VLS upgrade in the future while Barbaros-class vessels built with Mk.29 Sea Sparrow launchers that planned to be replaced by 8-cell Mk. 41 VLS.\n\nConstruction and career \nBarbaros was launched on 29 September 1993 by Blohm+Voss in Hamburg and commissioned on 23 May 1997.\n\nOn 9 March 2019, her crew saluted to the tomb of Barbaros Hayreddin while crossing Bosporus.\n\nOn 26 August 2020, TCG Barbaros and sailed alongside in Eastern Mediterranean Sea. Later that year on 3 October, she underwent alongside USS Roosevelt.\n\nReferences\n\nExternal links\n\n The First Upgraded MEKO 200 Frigate Of Turkish Navy\n BARBAROS CLASS ( MEKO 200 Track II) (Turkey)\n\n1993 ships\nShips built in Germany\nFrigates of the Turkish Navy\nBarbaros-class frigates of the Turkish Navy",
392
+ "question": "Could you tell me about the MEKO group?",
393
+ "answers": {
394
+ "answer_start": array([172]),
395
+ "text": array(["modular warships"], dtype=object)
396
396
  }
397
397
  }
398
398
  ```