PyPI - eval-framework - Versions diffs - 0.2.0__py3-none-any.whl - Mend

eval-framework 0.2.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (161) hide show

eval_framework/__init__.py +7 -0
eval_framework/base_config.py +36 -0
eval_framework/context/__init__.py +0 -0
eval_framework/context/determined.py +170 -0
eval_framework/context/eval.py +114 -0
eval_framework/context/local.py +52 -0
eval_framework/evaluation_generator.py +231 -0
eval_framework/exceptions.py +2 -0
eval_framework/external/ifeval_impl/README.md +5 -0
eval_framework/external/ifeval_impl/instructions.py +1523 -0
eval_framework/external/ifeval_impl/instructions_registry.py +161 -0
eval_framework/external/ifeval_impl/instructions_util.py +1689 -0
eval_framework/external/ifeval_impl/utils.py +135 -0
eval_framework/llm/__init__.py +0 -0
eval_framework/llm/aleph_alpha.py +323 -0
eval_framework/llm/base.py +58 -0
eval_framework/llm/huggingface.py +332 -0
eval_framework/llm/mistral.py +73 -0
eval_framework/llm/models.py +16 -0
eval_framework/llm/openai.py +205 -0
eval_framework/llm/vllm.py +438 -0
eval_framework/logger.py +3 -0
eval_framework/main.py +187 -0
eval_framework/metrics/__init__.py +0 -0
eval_framework/metrics/base.py +40 -0
eval_framework/metrics/completion/__init__.py +1 -0
eval_framework/metrics/completion/accuracy_completion.py +16 -0
eval_framework/metrics/completion/bleu.py +76 -0
eval_framework/metrics/completion/chrf.py +62 -0
eval_framework/metrics/completion/code_assertion.py +44 -0
eval_framework/metrics/completion/code_execution_pass_at_one.py +126 -0
eval_framework/metrics/completion/comet.py +56 -0
eval_framework/metrics/completion/concordance_index.py +38 -0
eval_framework/metrics/completion/csv_format.py +102 -0
eval_framework/metrics/completion/cwe_accuracy.py +49 -0
eval_framework/metrics/completion/exponential_similarity.py +65 -0
eval_framework/metrics/completion/f1.py +42 -0
eval_framework/metrics/completion/format_checker.py +56 -0
eval_framework/metrics/completion/grid_difference.py +77 -0
eval_framework/metrics/completion/ifeval.py +73 -0
eval_framework/metrics/completion/json_format.py +171 -0
eval_framework/metrics/completion/language_checker.py +74 -0
eval_framework/metrics/completion/length_control.py +83 -0
eval_framework/metrics/completion/math_reasoning_completion.py +303 -0
eval_framework/metrics/completion/niah_accuracy.py +163 -0
eval_framework/metrics/completion/placeholder_checker.py +27 -0
eval_framework/metrics/completion/repetition.py +88 -0
eval_framework/metrics/completion/rouge_1.py +35 -0
eval_framework/metrics/completion/rouge_2.py +45 -0
eval_framework/metrics/completion/rouge_geometric_mean.py +36 -0
eval_framework/metrics/completion/rouge_l.py +52 -0
eval_framework/metrics/completion/struct_eval_metrics.py +248 -0
eval_framework/metrics/completion/ter.py +67 -0
eval_framework/metrics/completion/text_counter.py +182 -0
eval_framework/metrics/efficiency/__init__.py +0 -0
eval_framework/metrics/efficiency/bytes_per_sequence_position.py +48 -0
eval_framework/metrics/llm/__init__.py +0 -0
eval_framework/metrics/llm/base.py +8 -0
eval_framework/metrics/llm/graders/chatbot_style_grader.py +92 -0
eval_framework/metrics/llm/graders/comparison_grader.py +146 -0
eval_framework/metrics/llm/graders/conciseness_grader.py +93 -0
eval_framework/metrics/llm/graders/contains_names_grader.py +71 -0
eval_framework/metrics/llm/graders/format_correctness_grader.py +109 -0
eval_framework/metrics/llm/graders/instruction_grader.py +177 -0
eval_framework/metrics/llm/graders/language.py +56 -0
eval_framework/metrics/llm/graders/long_context_grader.py +72 -0
eval_framework/metrics/llm/graders/models.py +74 -0
eval_framework/metrics/llm/graders/refusal_grader.py +57 -0
eval_framework/metrics/llm/graders/sql_quality_grader.py +145 -0
eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py +103 -0
eval_framework/metrics/llm/llm_judge_chatbot_style.py +36 -0
eval_framework/metrics/llm/llm_judge_completion_accuracy.py +39 -0
eval_framework/metrics/llm/llm_judge_conciseness.py +37 -0
eval_framework/metrics/llm/llm_judge_contains_names.py +36 -0
eval_framework/metrics/llm/llm_judge_format_correctness.py +43 -0
eval_framework/metrics/llm/llm_judge_instruction.py +58 -0
eval_framework/metrics/llm/llm_judge_mtbench_pair.py +205 -0
eval_framework/metrics/llm/llm_judge_mtbench_single.py +188 -0
eval_framework/metrics/llm/llm_judge_refusal.py +35 -0
eval_framework/metrics/llm/llm_judge_sql.py +394 -0
eval_framework/metrics/llm/llm_judge_world_knowledge.py +37 -0
eval_framework/metrics/loglikelihood/__init__.py +0 -0
eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py +51 -0
eval_framework/metrics/loglikelihood/probability_mass.py +56 -0
eval_framework/py.typed +0 -0
eval_framework/response_generator.py +416 -0
eval_framework/result_processors/__init__.py +0 -0
eval_framework/result_processors/base.py +74 -0
eval_framework/result_processors/hf_processor.py +87 -0
eval_framework/result_processors/result_processor.py +129 -0
eval_framework/run.py +314 -0
eval_framework/run_direct.py +42 -0
eval_framework/shared/types.py +227 -0
eval_framework/tasks/__init__.py +6 -0
eval_framework/tasks/base.py +314 -0
eval_framework/tasks/benchmarks/__init__.py +0 -0
eval_framework/tasks/benchmarks/arc.py +46 -0
eval_framework/tasks/benchmarks/arc_de.py +46 -0
eval_framework/tasks/benchmarks/arc_fi.py +46 -0
eval_framework/tasks/benchmarks/belebele.py +60 -0
eval_framework/tasks/benchmarks/bigcodebench.py +155 -0
eval_framework/tasks/benchmarks/casehold.py +47 -0
eval_framework/tasks/benchmarks/chembench.py +85 -0
eval_framework/tasks/benchmarks/copa.py +39 -0
eval_framework/tasks/benchmarks/duc.py +91 -0
eval_framework/tasks/benchmarks/flores200.py +62 -0
eval_framework/tasks/benchmarks/flores_plus.py +84 -0
eval_framework/tasks/benchmarks/gpqa.py +177 -0
eval_framework/tasks/benchmarks/gsm8k.py +148 -0
eval_framework/tasks/benchmarks/hellaswag.py +44 -0
eval_framework/tasks/benchmarks/hellaswag_de.py +52 -0
eval_framework/tasks/benchmarks/humaneval.py +97 -0
eval_framework/tasks/benchmarks/ifeval.py +78 -0
eval_framework/tasks/benchmarks/include.py +119 -0
eval_framework/tasks/benchmarks/infinitebench.py +302 -0
eval_framework/tasks/benchmarks/math_reasoning.py +569 -0
eval_framework/tasks/benchmarks/mbpp.py +192 -0
eval_framework/tasks/benchmarks/mmlu.py +190 -0
eval_framework/tasks/benchmarks/mmlu_de.py +109 -0
eval_framework/tasks/benchmarks/mmlu_pro.py +139 -0
eval_framework/tasks/benchmarks/mmmlu.py +529 -0
eval_framework/tasks/benchmarks/openbookqa.py +37 -0
eval_framework/tasks/benchmarks/opengptx_eu20.py +363 -0
eval_framework/tasks/benchmarks/pawsx.py +65 -0
eval_framework/tasks/benchmarks/piqa.py +39 -0
eval_framework/tasks/benchmarks/quality.py +56 -0
eval_framework/tasks/benchmarks/sciq.py +44 -0
eval_framework/tasks/benchmarks/sphyr.py +75 -0
eval_framework/tasks/benchmarks/squad.py +89 -0
eval_framework/tasks/benchmarks/struct_eval.py +110 -0
eval_framework/tasks/benchmarks/tablebench.py +117 -0
eval_framework/tasks/benchmarks/triviaqa.py +42 -0
eval_framework/tasks/benchmarks/truthfulqa.py +95 -0
eval_framework/tasks/benchmarks/winogender.py +39 -0
eval_framework/tasks/benchmarks/winogrande.py +44 -0
eval_framework/tasks/benchmarks/winox.py +57 -0
eval_framework/tasks/benchmarks/wmt.py +160 -0
eval_framework/tasks/benchmarks/zero_scrolls.py +197 -0
eval_framework/tasks/eval_config.py +112 -0
eval_framework/tasks/perturbation.py +83 -0
eval_framework/tasks/registry.py +186 -0
eval_framework/tasks/task_loader.py +80 -0
eval_framework/tasks/task_names.py +138 -0
eval_framework/tasks/utils.py +578 -0
eval_framework/utils/constants.py +9 -0
eval_framework/utils/generate_task_docs.py +229 -0
eval_framework/utils/helpers.py +3 -0
eval_framework/utils/logging.py +50 -0
eval_framework/utils/packaging.py +52 -0
eval_framework-0.2.0.dist-info/METADATA +514 -0
eval_framework-0.2.0.dist-info/RECORD +161 -0
eval_framework-0.2.0.dist-info/WHEEL +4 -0
eval_framework-0.2.0.dist-info/entry_points.txt +3 -0
template_formatting/README.md +83 -0
template_formatting/__init__.py +0 -0
template_formatting/formatter.py +536 -0
template_formatting/mistral_formatter.py +159 -0
template_formatting/py.typed +0 -0
template_formatting/tests/test_formatter_eval.py +408 -0
template_formatting/tests/test_formatter_scaling.py +253 -0
template_formatting/tests/test_mistral_formatter.py +136 -0

eval_framework/metrics/llm/llm_judge_mtbench_single.py ADDED Viewed

@@ -0,0 +1,188 @@
+import re
+from pydantic import BaseModel
+from eval_framework.logger import logger
+from eval_framework.metrics.base import MetricResult
+from eval_framework.metrics.llm.base import BaseLLMJudgeMetric
+from eval_framework.shared.types import BaseMetricContext, Completion, extract_context_metric
+from template_formatting.formatter import Message, Role
+SINGLE_JUDGE_PROMPTS = {
+    "single_assistant_single_turn": {
+        "prompt_template": '[System]\nYou are a helpful assistant.\n\n[Instruction]\nPlease act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question displayed below. Your evaluation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of the response. Begin your evaluation by providing a short explanation. Be as objective as possible. After providing your explanation, you must rate the response on a scale of 1 to 10 by strictly following this format: "[[rating]]", for example: "Rating: [[5]]".\n\n[Question]\n{question}\n\n[The Start of Assistant\'s Answer]\n{answer}\n[The End of Assistant\'s Answer]'  # noqa: E501
+    },
+    "single_assistant_multi_turn": {
+        "prompt_template": 'Please act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question displayed below. Your evaluation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of the response. You evaluation should focus on the assistant\'s answer to the second user question. Begin your evaluation by providing a short explanation. Be as objective as possible. After providing your explanation, you must rate the response on a scale of 1 to 10 by strictly following this format: "[[rating]]", for example: "Rating: [[5]]".\n\n<|The Start of Assistant A\'s Conversation with User|>\n\n### User:\n{question_1}\n\n### Assistant A:\n{answer_1}\n\n### User:\n{question_2}\n\n### Assistant A:\n{answer_2}\n\n<|The End of Assistant A\'s Conversation with User|>'  # noqa: E501
+    },
+    "single_assistant_single_turn_w_reference": {
+        "prompt_template": "[System]\nYou are a helpful assistant.\n\n[Instruction]\nPlease act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question displayed below. Your evaluation should consider correctness and helpfulness. You will be given a reference answer and the assistant's answer. Begin your evaluation by comparing the assistant's answer with the reference answer. Identify and correct any mistakes. Be as objective as possible. After providing your explanation, you must rate the response on a scale of 1 to 10 by strictly following this format: \"[[rating]]\", for example: \"Rating: [[5]]\".\n\n[Question]\n{question}\n\n[The Start of Reference Answer]\n{ref_answer_1}\n[The End of Reference Answer]\n\n[The Start of Assistant's Answer]\n{answer}\n[The End of Assistant's Answer]"  # noqa: E501
+    },
+    "single_assistant_multi_turn_w_reference": {
+        "prompt_template": "Please act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question. Your evaluation should consider correctness and helpfulness. You will be given a reference answer and the assistant's answer. You evaluation should focus on the assistant's answer to the second question. Begin your evaluation by comparing the assistant's answer with the reference answer. Identify and correct any mistakes. Be as objective as possible. After providing your explanation, you must rate the response on a scale of 1 to 10 by strictly following this format: \"[[rating]]\", for example: \"Rating: [[5]]\".\n\n<|The Start of Reference Answer|>\n\n### User:\n{question_1}\n\n### Reference answer:\n{ref_answer_1}\n\n### User:\n{question_2}\n\n### Reference answer:\n{ref_answer_2}\n\n<|The End of Reference Answer|>\n\n\n<|The Start of Assistant A's Conversation with User|>\n\n### User:\n{question_1}\n\n### Assistant A:\n{answer_1}\n\n### User:\n{question_2}\n\n### Assistant A:\n{answer_2}\n\n<|The End of Assistant A's Conversation with User|>"  # noqa: E501
+    },
+}
+SINGLE_JUDGE_PROMPTS_DE = {
+    "single_assistant_single_turn": {
+        "prompt_template": '[System]\nDu bist ein hilfreicher Assistent.\n\n[Anweisung]\nBitte agieren Sie als unparteiischer Richter und bewerten Sie die Qualität der Antwort, die von einem KI-Assistenten auf die unten angezeigte Nutzerfrage gegeben wurde. Ihre Bewertung sollte Faktoren wie Nützlichkeit, Relevanz, Genauigkeit, Tiefe, Kreativität und Detailliertheit der Antwort berücksichtigen. Beginnen Sie Ihre Bewertung mit einer kurzen Erklärung. Seien Sie so objektiv wie möglich. Nachdem Sie Ihre Erklärung gegeben haben, müssen Sie die Antwort auf einer Skala von 1 bis 10 bewerten und dabei streng dieses Format einhalten: "[[rating]]", zum Beispiel: "Bewertung: [[5]]".\n\n[Frage]\n{question}\n\n[Der Anfang der Assistentenantwort]\n{answer}\n[Das Ende der Assistentenantwort]'  # noqa: E501
+    },
+    "single_assistant_multi_turn": {
+        "prompt_template": 'Bitte agieren Sie als unparteiischer Richter und bewerten Sie die Qualität der Antwort, die von einem KI-Assistenten auf die unten angezeigte Nutzerfrage gegeben wurde. Ihre Bewertung sollte Faktoren wie Nützlichkeit, Relevanz, Genauigkeit, Tiefe, Kreativität und Detailliertheit der Antwort berücksichtigen. Ihre Bewertung sollte sich auf die Antwort des Assistenten auf die zweite Nutzerfrage konzentrieren. Beginnen Sie Ihre Bewertung mit einer kurzen Erklärung. Seien Sie so objektiv wie möglich. Nachdem Sie Ihre Erklärung gegeben haben, müssen Sie die Antwort auf einer Skala von 1 bis 10 bewerten, wobei Sie streng dieses Format einhalten: "[[rating]]", zum Beispiel: "Bewertung: [[5]]".\n\n<|Der Anfang von Assistent A\'s Unterhaltung mit dem Nutzer|>\n\n### Nutzer:\n{question_1}\n\n### Assistent A:\n{answer_1}\n\n### Nutzer:\n{question_2}\n\n### Assistent A:\n{answer_2}\n\n<|Das Ende von Assistent A\'s Unterhaltung mit dem Nutzer|>'  # noqa: E501
+    },
+    "single_assistant_single_turn_w_reference": {
+        "prompt_template": '[System]\nDu bist ein hilfreicher Assistent.\n\n[Anweisung]\nBitte agieren Sie als unparteiischer Richter und bewerten Sie die Qualität der Antwort, die von einem KI-Assistenten auf die unten angezeigte Nutzerfrage gegeben wurde. Ihre Bewertung sollte Korrektheit und Nützlichkeit berücksichtigen. Ihnen wird eine Referenzantwort und die Antwort des Assistenten gegeben. Beginnen Sie Ihre Bewertung, indem Sie die Antwort des Assistenten mit der Referenzantwort vergleichen. Identifizieren Sie und korrigieren Sie etwaige Fehler. Seien Sie so objektiv wie möglich. Nachdem Sie Ihre Erklärung gegeben haben, müssen Sie die Antwort auf einer Skala von 1 bis 10 bewerten und dabei streng dieses Format einhalten: "[[rating]]", zum Beispiel: "Bewertung: [[5]]".\n\n[Frage]\n{question}\n\n[Der Anfang der Referenzantwort]\n{ref_answer_1}\n[Das Ende der Referenzantwort]\n\n[Der Anfang der Assistentenantwort]\n{answer}\n[Das Ende der Assistentenantwort]'  # noqa: E501
+    },
+    "single_assistant_multi_turn_w_reference": {
+        "propmt_templte": 'Bitte agieren Sie als unparteiischer Richter und bewerten Sie die Qualität der Antwort, die von einem KI-Assistenten auf die Nutzerfrage gegeben wurde. Ihre Bewertung sollte Korrektheit und Nützlichkeit berücksichtigen. Ihnen wird eine Referenzantwort und die Antwort des Assistenten gegeben. Ihre Bewertung sollte sich auf die Antwort des Assistenten auf die zweite Frage konzentrieren. Beginnen Sie Ihre Bewertung, indem Sie die Antwort des Assistenten mit der Referenzantwort vergleichen. Identifizieren und korrigieren Sie etwaige Fehler. Seien Sie so objektiv wie möglich. Nachdem Sie Ihre Erklärung gegeben haben, müssen Sie die Antwort auf einer Skala von 1 bis 10 bewerten, wobei Sie streng dieses Format einhalten: "[[rating]]", zum Beispiel: "Bewertung: [[5]]".\n\n<|Der Anfang der Referenzantwort|>\n\n### Nutzer:\n{question_1}\n\n### Referenzantwort:\n{ref_answer_1}\n\n### Nutzer:\n{question_2}\n\n### Referenzantwort:\n{ref_answer_2}\n\n<|Das Ende der Referenzantwort|>\n\n\n<|Der Anfang von Assistent A\'s Unterhaltung mit dem Nutzer|>\n\n### Nutzer:\n{question_1}\n\n### Assistent A:\n{answer_1}\n\n### Nutzer:\n{question_2}\n\n### Assistent A:\n{answer_2}\n\n<|Das Ende von Assistent A\'s Unterhaltung mit dem Nutzer|>'  # noqa: E501
+    },
+}
+SINGLE_JUDGE_PROMPTS_FI = {
+    "single_assistant_single_turn": {
+        "prompt_template": '[Järjestelmä]\nOlet avulias avustaja.\n\n[Ohje]\nToimi puolueettomana tuomarina ja arvioi AI-avustajan antaman vastauksen laatua käyttäjän kysymykseen, joka näkyy alla. Arviosi tulisi ottaa huomioon tekijät kuten hyödyllisyys, asiaankuuluvuus, tarkkuus, syvällisyys, luovuus ja yksityiskohtien taso. Aloita arviointisi antamalla lyhyt selitys. Ole mahdollisimman objektiivinen. Selityksen jälkeen sinun on arvioitava vastaus asteikolla 1–10 noudattamalla tarkasti tätä muotoa: "[[arvosana]]", esimerkiksi: "Arvosana: [[5]]".\n\n[Kysymys]\n{question}\n\n[Avustajan vastauksen alku]\n{answer}\n[Avustajan vastauksen loppu]'  # noqa: E501
+    },
+    "single_assistant_multi_turn": {
+        "prompt_template": 'Toimi puolueettomana tuomarina ja arvioi AI-avustajan antaman vastauksen laatua käyttäjän kysymykseen, joka näkyy alla. Arviosi tulisi ottaa huomioon tekijät kuten hyödyllisyys, asiaankuuluvuus, tarkkuus, syvällisyys, luovuus ja yksityiskohtien taso. Arviosi tulisi keskittyä avustajan vastaukseen toiseen käyttäjän kysymykseen. Aloita arviointisi antamalla lyhyt selitys. Ole mahdollisimman objektiivinen. Selityksen jälkeen sinun on arvioitava vastaus asteikolla 1–10 noudattamalla tarkasti tätä muotoa: "[[arvosana]]", esimerkiksi: "Arvosana: [[5]]".\n\n<|Avustaja A:n keskustelun alku käyttäjän kanssa|>\n\n### Käyttäjä:\n{question_1}\n\n### Avustaja A:\n{answer_1}\n\n### Käyttäjä:\n{question_2}\n\n### Avustaja A:\n{answer_2}\n\n<|Avustaja A:n keskustelun loppu käyttäjän kanssa|>'  # noqa: E501
+    },
+    "single_assistant_single_turn_w_reference": {
+        "prompt_template": '[Järjestelmä]\nOlet avulias avustaja.\n\n[Ohje]\nToimi puolueettomana tuomarina ja arvioi AI-avustajan antaman vastauksen laatua käyttäjän kysymykseen, joka näkyy alla. Arviosi tulisi ottaa huomioon oikeellisuus ja hyödyllisyys. Sinulle annetaan viitevastaus ja avustajan vastaus. Aloita arviointisi vertaamalla avustajan vastausta viitevastaukseen. Tunnista ja korjaa mahdolliset virheet. Ole mahdollisimman objektiivinen. Selityksen jälkeen sinun on arvioitava vastaus asteikolla 1–10 noudattamalla tarkasti tätä muotoa: "[[arvosana]]", esimerkiksi: "Arvosana: [[5]]".\n\n[Kysymys]\n{question}\n\n[Viitevastauksen alku]\n{ref_answer_1}\n[Viitevastauksen loppu]\n\n[Avustajan vastauksen alku]\n{answer}\n[Avustajan vastauksen loppu]'  # noqa: E501
+    },
+    "single_assistant_multi_turn_w_reference": {
+        "prompt_template": 'Toimi puolueettomana tuomarina ja arvioi AI-avustajan antaman vastauksen laatua käyttäjän kysymykseen. Arviosi tulisi ottaa huomioon oikeellisuus ja hyödyllisyys. Sinulle annetaan viitevastaus ja avustajan vastaus. Arviosi tulisi keskittyä avustajan vastaukseen toiseen kysymykseen. Aloita arviointisi vertaamalla avustajan vastausta viitevastaukseen. Tunnista ja korjaa mahdolliset virheet. Ole mahdollisimman objektiivinen. Selityksen jälkeen sinun on arvioitava vastaus asteikolla 1–10 noudattamalla tarkasti tätä muotoa: "[[arvosana]]", esimerkiksi: "Arvosana: [[5]]".\n\n<|Viitevastauksen alku|>\n\n### Käyttäjä:\n{question_1}\n\n### Viitevastaus:\n{ref_answer_1}\n\n### Käyttäjä:\n{question_2}\n\n### Viitevastaus:\n{ref_answer_2}\n\n<|Viitevastauksen loppu|>\n\n\n<|Avustaja A:n keskustelun alku käyttäjän kanssa|>\n\n### Käyttäjä:\n{question_1}\n\n### Avustaja A:\n{answer_1}\n\n### Käyttäjä:\n{question_2}\n\n### Avustaja A:\n{answer_2}\n\n<|Avustaja A:n keskustelun loppu käyttäjän kanssa|>'  # noqa: E501
+    },
+}
+NEED_REF_CATEGORIES = ["math", "reasoning", "coding", "arena-hard-200"]
+class PromptToJudge(BaseModel):
+    comparison_type: str
+    prompt_text: str
+class MTBenchJudgeSingleMetricContext(BaseMetricContext):
+    category: str
+    reference: list[str] | str | None
+def generate_single_judge_prompts(response: Completion) -> list[PromptToJudge]:
+    context = extract_context_metric(response, MTBenchJudgeSingleMetricContext)
+    assert response.messages is not None
+    if response.subject.startswith("de"):
+        prompt_templates = SINGLE_JUDGE_PROMPTS_DE
+    elif response.subject.startswith("fi"):
+        prompt_templates = SINGLE_JUDGE_PROMPTS_FI
+    else:
+        prompt_templates = SINGLE_JUDGE_PROMPTS
+    prompts_to_judge = []
+    assert context.category is not None, "Category must be provided in the context for MTBenchJudgeSingleMetricContext"
+    # No reference answer needed
+    if context.category not in NEED_REF_CATEGORIES:
+        # SINLGE TURN
+        if len(response.messages) <= 2:
+            # turn 1
+            question = response.last_user_instruction
+            answer = response.completion
+            # format prompt
+            single_turn_prompt = prompt_templates["single_assistant_single_turn"]["prompt_template"].format(
+                question=question,
+                answer=answer,
+            )
+            prompts_to_judge.append(PromptToJudge(comparison_type="single_judgement", prompt_text=single_turn_prompt))
+            # MULTI TURN
+        else:
+            # turn 1
+            question_1 = response.first_user_instruction
+            answer_1 = response.messages[1].content
+            # turn 2
+            question_2 = response.last_user_instruction
+            answer_2 = response.completion
+            # format prompt
+            multi_turn_prompt = prompt_templates["single_assistant_multi_turn"]["prompt_template"].format(
+                question_1=question_1, answer_1=answer_1, question_2=question_2, answer_2=answer_2
+            )
+            prompts_to_judge.append(PromptToJudge(comparison_type="single_judgement", prompt_text=multi_turn_prompt))
+    # Reference answer needed
+    elif context.reference:
+        # SINGLE TURN
+        if len(response.messages) <= 2 and len(context.reference) >= 1:
+            # turn 1
+            question = response.last_user_instruction
+            answer = response.completion
+            ref_answer = context.reference[0]
+            # format prompt
+            single_turn_prompt = prompt_templates["single_assistant_single_turn_w_reference"]["prompt_template"].format(
+                question=question,
+                answer=answer,
+                ref_answer_1=ref_answer,
+            )
+            prompts_to_judge.append(PromptToJudge(comparison_type="single_judgement", prompt_text=single_turn_prompt))
+        # MULTI TURN
+        elif len(context.reference) >= 2:
+            # turn 1
+            question_1 = response.first_user_instruction
+            answer_1 = response.messages[1].content
+            ref_answer_1 = context.reference[0]
+            # turn 2
+            question_2 = response.last_user_instruction
+            answer_2 = response.completion
+            ref_answer_2 = context.reference[1]
+            # format prompt
+            multi_turn_prompt = prompt_templates["single_assistant_multi_turn_w_reference"]["prompt_template"].format(
+                question_1=question_1,
+                answer_1=answer_1,
+                ref_answer_1=ref_answer_1,
+                question_2=question_2,
+                answer_2=answer_2,
+                ref_answer_2=ref_answer_2,
+            )
+            prompts_to_judge.append(PromptToJudge(comparison_type="single_judgement", prompt_text=multi_turn_prompt))
+    else:
+        logger.info(
+            f"Warning: No reference answer found for this sample (category: "
+            f"{context.category}), even though it is needed."
+        )
+    return prompts_to_judge
+class MTBenchJudgeSingle(BaseLLMJudgeMetric):
+    NAME = "single_judgement"
+    def calculate(self, response: Completion) -> list[MetricResult]:
+        try:
+            prompts_to_judge: list[PromptToJudge] = generate_single_judge_prompts(response)
+            all_metrics = []
+            for prompt_to_judge in prompts_to_judge:
+                messages = [Message(role=Role.USER, content=prompt_to_judge.prompt_text)]
+                output = self._llm_judge.generate_from_messages([messages])
+                parsed_output = self._output_to_rating(output[0].completion)
+                all_metrics.append(
+                    MetricResult(
+                        metric_name=prompt_to_judge.comparison_type,
+                        value=parsed_output,
+                        higher_is_better=True,
+                    )
+                )
+            return all_metrics
+        except KeyError as e:
+            logger.info(f"LLM judge did not produce an expected output, sample will be ignored in aggregations. {e}")
+            return []
+    @staticmethod
+    def _output_to_rating(output: str) -> float:
+        match = re.search(r"\[\[(\d+)\]\]", output)
+        if match:
+            return float(match.group(1))
+        return 0

eval_framework/metrics/llm/llm_judge_refusal.py ADDED Viewed

@@ -0,0 +1,35 @@
+from eval_framework.llm.base import BaseLLM
+from eval_framework.metrics.base import MetricResult
+from eval_framework.metrics.llm.base import BaseLLMJudgeMetric
+from eval_framework.metrics.llm.graders.language import Language
+from eval_framework.metrics.llm.graders.refusal_grader import RefusalGrader
+from eval_framework.shared.types import Completion
+class LLMJudgeRefusal(BaseLLMJudgeMetric):
+    NAME = "refusal_classifier"
+    def __init__(self, llm_judge: BaseLLM):
+        super().__init__(llm_judge)
+        self._grader = RefusalGrader(llm_judge)
+    def calculate(self, response: Completion) -> list[MetricResult]:
+        if response.error is not None:
+            return [MetricResult(metric_name=self.NAME, value=None, higher_is_better=False, error=response.error)]
+        language = response.get_completion_language() or response.get_instruction_language() or "en"
+        grading = self._grader.grade(
+            completion=response.sanitized_completion,
+            language=Language(language),
+        )
+        return [
+            MetricResult(
+                metric_name=self.NAME,
+                value=float(grading.is_refusal) if grading.is_refusal is not None else None,
+                higher_is_better=True,
+                llm_judge_prompt=grading.judge_prompt,
+                llm_judge_response=grading.judge_response,
+                error=response.error,
+            )
+        ]

eval_framework/metrics/llm/llm_judge_sql.py ADDED Viewed

@@ -0,0 +1,394 @@
+import atexit
+import logging
+import random
+import re
+import signal
+import sqlite3
+import threading
+from enum import Enum
+from time import sleep
+from typing import Any
+from uuid import uuid4
+import docker
+import mysql.connector
+import mysql.connector.abstracts
+import psycopg2  # type: ignore
+from pydantic import BaseModel
+from eval_framework.llm.base import BaseLLM
+from eval_framework.metrics.base import MetricResult
+from eval_framework.metrics.llm.base import BaseLLMJudgeMetric
+from eval_framework.metrics.llm.graders.language import Language
+from eval_framework.metrics.llm.graders.sql_quality_grader import SqlQualityGrader
+from eval_framework.shared.types import Completion, LanguageMetricContext, extract_context_metric
+from eval_framework.tasks.utils import get_docker_address
+logger = logging.getLogger(__name__)
+class SqlDialects(Enum):
+    sqlite = "sqlite"
+    postgres = "postgresql"
+    mysql = "mysql"
+    standard_sql = "standard_sql"
+class SqlOutputComparison(BaseModel):
+    matches_results_count: bool
+    matches_column_count: bool
+    results_equal: bool
+class SqlValidationResult(BaseModel):
+    success: bool
+    schema_error: str | None = None
+    query_error: str | None = None
+    results: list[Any] = []
+class LLMJudgeSqlMetricContext(LanguageMetricContext):
+    dialect: str
+    db_schema: str
+_DOCKER_LAUNCH_LOCK = threading.Lock()
+_MYSQL_PORT = 0
+_POSTGRES_PORT = 0
+class LLMJudgeSql(BaseLLMJudgeMetric):
+    NAME = "SQL Quality"
+    def __init__(self, llm_judge: BaseLLM):
+        super().__init__(llm_judge)
+        self._grader = SqlQualityGrader(llm_judge)
+        self.postgres_password = "mysecretpassword"
+        self.postgres_user = "postgres"
+        self.mysql_password = "mysecretpassword"
+        self.mysql_user = "root"
+        self.mysql_db_name = "mysql"
+        with _DOCKER_LAUNCH_LOCK:
+            if _MYSQL_PORT != 0 and _POSTGRES_PORT != 0:
+                return
+            self.client = docker.from_env()
+            atexit.register(self._shutdown_dbs)
+            signal.signal(signal.SIGTERM, lambda *_: self._shutdown_dbs())
+            self._start_postgres_db()
+            self._start_mysql_db()
+            self._wait_for_db_containers()
+    def calculate(self, response: Completion) -> list[MetricResult]:
+        if response.error is not None:
+            return [
+                MetricResult(metric_name=f"{self.NAME}/{k}", value=None, higher_is_better=True, error=response.error)
+                for k in [
+                    "successfully_runs",
+                    "is_just_sql",
+                    "matches_results_count",
+                    "matches_column_count",
+                    "results_equal",
+                    "llm_quality_score",
+                ]
+            ]
+        context = extract_context_metric(response, LLMJudgeSqlMetricContext)
+        assert isinstance(response.ground_truth, str)
+        schema_id = str(uuid4()).replace("-", "_")
+        expected_result = self.validate_query(
+            SqlDialects(context.dialect),
+            context.db_schema,
+            response.ground_truth,
+            f"golden_{schema_id}",
+        )
+        completion_stripped = response.completion.strip().strip("```sql").strip("```")
+        completion_query = extract_query_from_completions(completion_stripped)
+        if completion_query:
+            result = self.validate_query(
+                SqlDialects(context.dialect),
+                context.db_schema,
+                completion_query,
+                f"completion_{schema_id}",
+            )
+        else:
+            result = None
+        results = [
+            MetricResult(
+                metric_name=f"{self.NAME}/successfully_runs",
+                value=float(result is not None and result.success),
+                higher_is_better=True,
+                error=response.error,
+            ),
+            MetricResult(
+                metric_name=f"{self.NAME}/is_just_sql",
+                value=float(completion_query == completion_stripped),
+                higher_is_better=True,
+                error=response.error,
+            ),
+        ]
+        if result is not None and result.success:
+            output_comparison = SqlOutputComparison(
+                matches_results_count=len(expected_result.results) == len(result.results),
+                matches_column_count=count_result_columns(expected_result.results)
+                == count_result_columns(result.results),
+                results_equal=expected_result.results == result.results,
+            )
+            results.extend(
+                [
+                    MetricResult(
+                        metric_name=f"{self.NAME}/matches_results_count",
+                        value=float(output_comparison.matches_results_count),
+                        higher_is_better=True,
+                        error=response.error,
+                    ),
+                    MetricResult(
+                        metric_name=f"{self.NAME}/matches_column_count",
+                        value=float(output_comparison.matches_column_count),
+                        higher_is_better=True,
+                        error=response.error,
+                    ),
+                    MetricResult(
+                        metric_name=f"{self.NAME}/results_equal",
+                        value=float(output_comparison.results_equal),
+                        higher_is_better=True,
+                        error=response.error,
+                    ),
+                ]
+            )
+        grading = self._grader.grade(
+            prompt=response.user_instruction,
+            completion=completion_stripped,
+            result=result.results if result and result.success else None,
+            language=Language(response.get_instruction_language()),
+        )
+        results.append(
+            MetricResult(
+                metric_name=f"{self.NAME}/llm_quality_score",
+                # [0, 1] normalization required for visualizer
+                value=(float(grading.query_quality) - 1) / 4 if grading.query_quality is not None else None,
+                higher_is_better=True,
+                llm_judge_prompt=grading.judge_prompt,
+                llm_judge_response=grading.judge_response,
+                error=response.error,
+            )
+        )
+        return results
+    def _start_postgres_db(self) -> None:
+        global _POSTGRES_PORT
+        for _ in range(10):  # find a free port
+            try:
+                _POSTGRES_PORT = random.randint(1000, 65535)
+                self.postgres_docker = self.client.containers.run(
+                    "docker.io/postgres",
+                    environment={"POSTGRES_PASSWORD": self.postgres_password},
+                    ports={5432: _POSTGRES_PORT},
+                    tty=True,
+                    auto_remove=True,
+                    detach=True,
+                    network_mode="bridge",
+                )
+                break
+            except docker.errors.APIError as e:
+                if "port is already allocated" not in str(e):
+                    raise e
+                continue
+    def _start_mysql_db(self) -> None:
+        global _MYSQL_PORT
+        for _ in range(10):  # find a free port
+            try:
+                _MYSQL_PORT = random.randint(1000, 65535)
+                self.mysql_docker = self.client.containers.run(
+                    "docker.io/mysql:latest",
+                    environment={"MYSQL_ROOT_PASSWORD": self.mysql_password, "MYSQL_DATABASE": self.mysql_db_name},
+                    ports={3306: _MYSQL_PORT},
+                    tty=True,
+                    auto_remove=True,
+                    detach=True,
+                    network_mode="bridge",
+                )
+                break
+            except docker.errors.APIError as e:
+                if "port is already allocated" not in str(e):
+                    raise e
+                continue
+    def _wait_for_db_containers(self) -> None:
+        for _ in range(600):
+            try:
+                con = self.connect_to_postgres()
+                con.close()
+                con = self.connect_to_mysql()
+                con.close()
+                return
+            except Exception:
+                logger.info("Could not connect to DBs yet...")
+                sleep(1)
+        raise Exception("DBs not available.")
+    def _shutdown_dbs(self) -> None:
+        if hasattr(self, "postgres_docker"):
+            self.postgres_docker.kill()
+        if hasattr(self, "mysql_docker"):
+            self.mysql_docker.kill()
+    def validate_query(
+        self,
+        dialect: SqlDialects,
+        create_db_statements: str,
+        sql_query: str,
+        db_schema: str,
+    ) -> SqlValidationResult:
+        match dialect:
+            case SqlDialects.sqlite | SqlDialects.standard_sql:
+                return self.validate_query_sqlite(create_db_statements, sql_query, f"{dialect.value}_{db_schema}")
+            case SqlDialects.postgres:
+                return self.validate_query_postgres(create_db_statements, sql_query, f"{dialect.value}_{db_schema}")
+            case SqlDialects.mysql:
+                return self.validate_query_mysql(create_db_statements, sql_query, f"{dialect.value}_{db_schema}")
+            case _:
+                raise NotImplementedError(f"Query validation not implemented for {dialect.value}.")
+    def validate_query_sqlite(self, create_db_statements: str, sql_query: str, db_schema: str) -> SqlValidationResult:
+        con = sqlite3.connect(":memory:")
+        cur = con.cursor()
+        try:
+            statements = separate_statements(create_db_statements)
+            for statement in statements:
+                cur.execute(statement)
+                con.commit()
+        except Exception as e:
+            logger.info(f"Create statements are not compatible with SQLite. Reason: {e}")
+            return SqlValidationResult(success=False, schema_error=str(e))
+        try:
+            queries = separate_statements(sql_query)
+            for query in queries:
+                cur.execute(query)
+                con.commit()
+            results = cur.fetchall()
+        except Exception as e:
+            logger.info(f"SQL query is not compatible with SQLite. Reason: {e}")
+            return SqlValidationResult(success=False, query_error=str(e))
+        con.close()
+        return SqlValidationResult(success=True, results=results)
+    def connect_to_postgres(self) -> psycopg2.extensions.connection:
+        conn_params = {
+            "dbname": "postgres",
+            "user": self.postgres_user,
+            "password": self.postgres_password,
+            "host": get_docker_address(),
+            "port": _POSTGRES_PORT,
+        }
+        return psycopg2.connect(**conn_params)
+    def validate_query_postgres(self, create_db_statements: str, sql_query: str, db_schema: str) -> SqlValidationResult:
+        con = self.connect_to_postgres()
+        cur = con.cursor()
+        cur.execute(f"CREATE SCHEMA {db_schema};")
+        con.commit()
+        cur.execute(f"ALTER USER {self.postgres_user} set SEARCH_PATH = {db_schema};")
+        con.commit()
+        try:
+            statements = separate_statements(create_db_statements)
+            for statement in statements:
+                cur.execute(statement)
+            con.commit()
+        except Exception as e:
+            logger.info(f"Create statements are not compatible with PostgreSQL. Reason: {e}")
+            return SqlValidationResult(success=False, schema_error=str(e))
+        try:
+            queries = separate_statements(sql_query)
+            for query in queries:
+                cur.execute(query)
+                con.commit()
+            results = cur.fetchall()
+        except Exception as e:
+            logger.info(f"SQL query is not compatible with PostgreSQL. Reason: {e}")
+            return SqlValidationResult(success=False, query_error=str(e))
+        con.commit()
+        con.close()
+        return SqlValidationResult(success=True, results=results)
+    def connect_to_mysql(
+        self,
+    ) -> mysql.connector.pooling.PooledMySQLConnection | mysql.connector.abstracts.MySQLConnectionAbstract:
+        conn_params = {
+            "database": self.mysql_db_name,
+            "user": self.mysql_user,
+            "password": self.mysql_password,
+            "host": get_docker_address(),
+            "port": _MYSQL_PORT,
+        }
+        return mysql.connector.connect(**conn_params)
+    def validate_query_mysql(self, create_db_statements: str, sql_query: str, db_schema: str) -> SqlValidationResult:
+        con = self.connect_to_mysql()
+        cur = con.cursor(buffered=True)
+        cur.execute(f"CREATE SCHEMA {db_schema};")
+        con.commit()
+        cur.execute(f"USE {db_schema};")
+        try:
+            statements = separate_statements(create_db_statements)
+            for statement in statements:
+                cur.execute(statement)
+                con.commit()
+        except Exception as e:
+            logger.info(f"Create statements are not compatible with MySQL. Reason: {e}")
+            con.close()
+            return SqlValidationResult(success=False, schema_error=str(e))
+        try:
+            queries = separate_statements(sql_query)
+            for query in queries:
+                cur.execute(query)
+                con.commit()
+            results = cur.fetchall()
+        except Exception as e:
+            logger.info(f"SQL query is not compatible with MySQL. Reason: {e}")
+            con.close()
+            return SqlValidationResult(success=False, query_error=str(e))
+        cur.close()
+        con.close()
+        return SqlValidationResult(success=True, results=results)
+def separate_statements(statements: str) -> list[str]:
+    return statements.split(";")[:-1]
+def is_create_table_statement(statement: str) -> bool:
+    return "CREATE TABLE" in statement
+def count_result_columns(result: list[Any]) -> int:
+    if len(result) == 0:
+        return 0
+    return len(result[0])
+def extract_query_from_completions(completion: str) -> str | None:
+    # Match SQL blocks starting with SELECT or WITH at line start
+    # (allowing punctuation/whitespace), ending at first semicolon
+    pattern = re.compile(r"(?:^|\n)[^a-zA-Z0-9_]*((?:select|with)\b.*?;)", re.IGNORECASE | re.DOTALL)
+    matches = pattern.findall(completion)
+    # Return the query only if exactly one match is found
+    if len(matches) == 1:
+        return matches[0].strip()
+    return None

eval_framework/metrics/llm/llm_judge_world_knowledge.py ADDED Viewed

@@ -0,0 +1,37 @@
+from eval_framework.llm.base import BaseLLM
+from eval_framework.metrics.base import MetricResult
+from eval_framework.metrics.llm.base import BaseLLMJudgeMetric
+from eval_framework.metrics.llm.graders.language import Language
+from eval_framework.metrics.llm.graders.summary_world_knowledge_grader import SummarizationWorldKnowledgeGrader
+from eval_framework.shared.types import Completion
+class LLMJudgeWorldKnowledge(BaseLLMJudgeMetric):
+    NAME = "World Knowledge"
+    def __init__(self, llm_judge: BaseLLM):
+        super().__init__(llm_judge)
+        self._grader = SummarizationWorldKnowledgeGrader(llm_judge)
+    def calculate(self, response: Completion) -> list[MetricResult]:
+        if response.error is not None:
+            return [MetricResult(metric_name=self.NAME, value=None, higher_is_better=False, error=response.error)]
+        language = Language(response.get_instruction_language())
+        grading = self._grader.grade(
+            reference_input=response.user_instruction,
+            completion=response.sanitized_completion,
+            language=language,
+        )
+        return [
+            MetricResult(
+                metric_name=self.NAME,
+                value=float(grading.contains_world_knowledge) if grading.contains_world_knowledge is not None else None,
+                higher_is_better=False,
+                llm_judge_prompt=grading.judge_prompt,
+                llm_judge_response=grading.judge_response,
+                error=response.error,
+            )
+        ]

eval_framework/metrics/loglikelihood/__init__.py ADDED Viewed

File without changes