PyPI - eval-framework - Versions diffs - 0.2.7__py3-none-any.whl - Mend

eval-framework 0.2.7__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (170) hide show

eval_framework/__init__.py +7 -0
eval_framework/base_config.py +36 -0
eval_framework/context/__init__.py +0 -0
eval_framework/context/determined.py +177 -0
eval_framework/context/eval.py +121 -0
eval_framework/context/local.py +78 -0
eval_framework/evaluation_generator.py +234 -0
eval_framework/exceptions.py +2 -0
eval_framework/external/ifeval_impl/README.md +5 -0
eval_framework/external/ifeval_impl/instructions.py +1523 -0
eval_framework/external/ifeval_impl/instructions_registry.py +161 -0
eval_framework/external/ifeval_impl/instructions_util.py +1689 -0
eval_framework/external/ifeval_impl/utils.py +135 -0
eval_framework/llm/__init__.py +0 -0
eval_framework/llm/aleph_alpha.py +432 -0
eval_framework/llm/base.py +180 -0
eval_framework/llm/huggingface.py +418 -0
eval_framework/llm/mistral.py +88 -0
eval_framework/llm/models.py +28 -0
eval_framework/llm/openai.py +400 -0
eval_framework/llm/vllm.py +554 -0
eval_framework/logger.py +3 -0
eval_framework/main.py +166 -0
eval_framework/metrics/__init__.py +0 -0
eval_framework/metrics/base.py +40 -0
eval_framework/metrics/completion/__init__.py +1 -0
eval_framework/metrics/completion/accuracy_completion.py +16 -0
eval_framework/metrics/completion/aidanbench.py +28 -0
eval_framework/metrics/completion/bleu.py +76 -0
eval_framework/metrics/completion/chrf.py +62 -0
eval_framework/metrics/completion/code_assertion.py +44 -0
eval_framework/metrics/completion/code_execution_pass_at_one.py +126 -0
eval_framework/metrics/completion/comet.py +56 -0
eval_framework/metrics/completion/concordance_index.py +38 -0
eval_framework/metrics/completion/csv_format.py +102 -0
eval_framework/metrics/completion/cwe_accuracy.py +49 -0
eval_framework/metrics/completion/exponential_similarity.py +65 -0
eval_framework/metrics/completion/f1.py +42 -0
eval_framework/metrics/completion/format_checker.py +56 -0
eval_framework/metrics/completion/grid_difference.py +77 -0
eval_framework/metrics/completion/ifeval.py +73 -0
eval_framework/metrics/completion/json_format.py +179 -0
eval_framework/metrics/completion/language_checker.py +74 -0
eval_framework/metrics/completion/length_control.py +83 -0
eval_framework/metrics/completion/math_reasoning_completion.py +307 -0
eval_framework/metrics/completion/niah_accuracy.py +163 -0
eval_framework/metrics/completion/placeholder_checker.py +27 -0
eval_framework/metrics/completion/repetition.py +88 -0
eval_framework/metrics/completion/rouge_1.py +35 -0
eval_framework/metrics/completion/rouge_2.py +45 -0
eval_framework/metrics/completion/rouge_geometric_mean.py +36 -0
eval_framework/metrics/completion/rouge_l.py +52 -0
eval_framework/metrics/completion/struct_eval_metrics.py +248 -0
eval_framework/metrics/completion/ter.py +67 -0
eval_framework/metrics/completion/text_counter.py +182 -0
eval_framework/metrics/efficiency/__init__.py +0 -0
eval_framework/metrics/efficiency/bytes_per_sequence_position.py +48 -0
eval_framework/metrics/llm/__init__.py +0 -0
eval_framework/metrics/llm/base.py +34 -0
eval_framework/metrics/llm/graders/chatbot_style_grader.py +92 -0
eval_framework/metrics/llm/graders/coherence_grader.py +115 -0
eval_framework/metrics/llm/graders/comparison_grader.py +198 -0
eval_framework/metrics/llm/graders/conciseness_grader.py +93 -0
eval_framework/metrics/llm/graders/contains_names_grader.py +71 -0
eval_framework/metrics/llm/graders/format_correctness_grader.py +109 -0
eval_framework/metrics/llm/graders/instruction_grader.py +177 -0
eval_framework/metrics/llm/graders/language.py +56 -0
eval_framework/metrics/llm/graders/long_context_grader.py +72 -0
eval_framework/metrics/llm/graders/models.py +74 -0
eval_framework/metrics/llm/graders/refusal_grader.py +57 -0
eval_framework/metrics/llm/graders/sql_quality_grader.py +145 -0
eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py +103 -0
eval_framework/metrics/llm/llm_judge_chatbot_style.py +36 -0
eval_framework/metrics/llm/llm_judge_coherence.py +44 -0
eval_framework/metrics/llm/llm_judge_completion_accuracy.py +39 -0
eval_framework/metrics/llm/llm_judge_conciseness.py +37 -0
eval_framework/metrics/llm/llm_judge_contains_names.py +36 -0
eval_framework/metrics/llm/llm_judge_format_correctness.py +43 -0
eval_framework/metrics/llm/llm_judge_instruction.py +58 -0
eval_framework/metrics/llm/llm_judge_mtbench_pair.py +306 -0
eval_framework/metrics/llm/llm_judge_mtbench_single.py +210 -0
eval_framework/metrics/llm/llm_judge_refusal.py +35 -0
eval_framework/metrics/llm/llm_judge_sql.py +394 -0
eval_framework/metrics/llm/llm_judge_world_knowledge.py +37 -0
eval_framework/metrics/llm/utils.py +20 -0
eval_framework/metrics/loglikelihood/__init__.py +0 -0
eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py +51 -0
eval_framework/metrics/loglikelihood/base.py +50 -0
eval_framework/metrics/loglikelihood/confidence_weighted_accuracy.py +25 -0
eval_framework/metrics/loglikelihood/dcs.py +43 -0
eval_framework/metrics/loglikelihood/probability_mass.py +53 -0
eval_framework/metrics/loglikelihood/ternary.py +42 -0
eval_framework/py.typed +0 -0
eval_framework/response_generator.py +351 -0
eval_framework/result_processors/__init__.py +0 -0
eval_framework/result_processors/base.py +88 -0
eval_framework/result_processors/hf_uploader.py +75 -0
eval_framework/result_processors/result_processor.py +129 -0
eval_framework/result_processors/wandb_uploader.py +137 -0
eval_framework/run.py +369 -0
eval_framework/run_direct.py +42 -0
eval_framework/shared/types.py +227 -0
eval_framework/tasks/__init__.py +6 -0
eval_framework/tasks/base.py +392 -0
eval_framework/tasks/benchmarks/__init__.py +0 -0
eval_framework/tasks/benchmarks/aidanbench.py +211 -0
eval_framework/tasks/benchmarks/arc.py +70 -0
eval_framework/tasks/benchmarks/arc_de.py +46 -0
eval_framework/tasks/benchmarks/arc_fi.py +46 -0
eval_framework/tasks/benchmarks/belebele.py +60 -0
eval_framework/tasks/benchmarks/bigcodebench.py +155 -0
eval_framework/tasks/benchmarks/casehold.py +47 -0
eval_framework/tasks/benchmarks/chembench.py +85 -0
eval_framework/tasks/benchmarks/copa.py +64 -0
eval_framework/tasks/benchmarks/duc.py +91 -0
eval_framework/tasks/benchmarks/flores200.py +133 -0
eval_framework/tasks/benchmarks/flores_plus.py +84 -0
eval_framework/tasks/benchmarks/gpqa.py +201 -0
eval_framework/tasks/benchmarks/gsm8k.py +150 -0
eval_framework/tasks/benchmarks/hellaswag.py +69 -0
eval_framework/tasks/benchmarks/hellaswag_de.py +52 -0
eval_framework/tasks/benchmarks/humaneval.py +97 -0
eval_framework/tasks/benchmarks/ifeval.py +78 -0
eval_framework/tasks/benchmarks/include.py +119 -0
eval_framework/tasks/benchmarks/infinitebench.py +302 -0
eval_framework/tasks/benchmarks/math_reasoning.py +580 -0
eval_framework/tasks/benchmarks/mbpp.py +192 -0
eval_framework/tasks/benchmarks/mmlu.py +215 -0
eval_framework/tasks/benchmarks/mmlu_de.py +109 -0
eval_framework/tasks/benchmarks/mmlu_pro.py +164 -0
eval_framework/tasks/benchmarks/mmmlu.py +529 -0
eval_framework/tasks/benchmarks/openbookqa.py +85 -0
eval_framework/tasks/benchmarks/opengptx_eu20.py +363 -0
eval_framework/tasks/benchmarks/pawsx.py +65 -0
eval_framework/tasks/benchmarks/piqa.py +64 -0
eval_framework/tasks/benchmarks/quality.py +56 -0
eval_framework/tasks/benchmarks/sciq.py +110 -0
eval_framework/tasks/benchmarks/sphyr.py +79 -0
eval_framework/tasks/benchmarks/squad.py +211 -0
eval_framework/tasks/benchmarks/struct_eval.py +116 -0
eval_framework/tasks/benchmarks/tablebench.py +117 -0
eval_framework/tasks/benchmarks/triviaqa.py +42 -0
eval_framework/tasks/benchmarks/truthfulqa.py +119 -0
eval_framework/tasks/benchmarks/winogender.py +64 -0
eval_framework/tasks/benchmarks/winogrande.py +69 -0
eval_framework/tasks/benchmarks/winox.py +57 -0
eval_framework/tasks/benchmarks/wmt.py +160 -0
eval_framework/tasks/benchmarks/zero_scrolls.py +197 -0
eval_framework/tasks/eval_config.py +136 -0
eval_framework/tasks/perturbation.py +83 -0
eval_framework/tasks/registry.py +186 -0
eval_framework/tasks/task_loader.py +81 -0
eval_framework/tasks/task_names.py +324 -0
eval_framework/tasks/utils.py +584 -0
eval_framework/utils/constants.py +9 -0
eval_framework/utils/file_ops.py +245 -0
eval_framework/utils/generate_task_docs.py +244 -0
eval_framework/utils/helpers.py +32 -0
eval_framework/utils/logging.py +62 -0
eval_framework/utils/packaging.py +52 -0
eval_framework/utils/tqdm_handler.py +14 -0
eval_framework-0.2.7.dist-info/METADATA +548 -0
eval_framework-0.2.7.dist-info/RECORD +170 -0
eval_framework-0.2.7.dist-info/WHEEL +4 -0
eval_framework-0.2.7.dist-info/entry_points.txt +3 -0
template_formatting/README.md +83 -0
template_formatting/__init__.py +0 -0
template_formatting/formatter.py +537 -0
template_formatting/mistral_formatter.py +159 -0
template_formatting/py.typed +0 -0

eval_framework/tasks/benchmarks/infinitebench.py ADDED Viewed

@@ -0,0 +1,302 @@
+import os
+import re
+from abc import ABC
+from pathlib import Path
+from typing import Any
+from datasets import DownloadConfig, Features, Sequence, Value, load_dataset
+from eval_framework.metrics.completion.accuracy_completion import AccuracyCompletion
+from eval_framework.metrics.loglikelihood.accuracy_loglikelihood import AccuracyLoglikelihood
+from eval_framework.tasks.base import BaseTask, Language, ResponseType, Sample
+class InfiniteBench(BaseTask[str], ABC):
+    """
+    InfiniteBench: Extending Long Context Evaluation Beyond 100K Tokens
+    https://github.com/OpenBMB/InfiniteBench
+    """
+    DATASET_PATH = "xinrongzhang2022/InfiniteBench"
+    SUBJECTS = ["default"]
+    LANGUAGE = Language.ENG
+    PERTURBATION_UNMODIFIABLE_WORDS = None
+    def __init__(self, num_fewshot: int = 0) -> None:
+        assert num_fewshot == 0, "Few-shots are not supported for long-context InfiniteBench tasks"
+        super().__init__(num_fewshot)
+    def _load_hf_dataset(self, **kwargs: Any) -> Any:
+        cache_dir: str = os.environ.get("HF_DATASET_CACHE_DIR", f"{Path.home()}/.cache/huggingface/datasets")
+        download_config = DownloadConfig(cache_dir=cache_dir, max_retries=5)
+        ft = Features(
+            {
+                "id": Value("int64"),
+                "context": Value("string"),
+                "input": Value("string"),
+                "answer": Sequence(Value("string")),
+                "options": Sequence(Value("string")),
+            }
+        )
+        try:
+            return load_dataset(
+                **kwargs, trust_remote_code=True, cache_dir=cache_dir, download_config=download_config, features=ft
+            )
+        except Exception:
+            return load_dataset(
+                **kwargs,
+                trust_remote_code=True,
+                cache_dir=f"{Path.home()}/.cache/eval-framework",
+                features=ft,
+            )
+class InfiniteBenchLoglikelihood(InfiniteBench, ABC):
+    """Base class for loglikelihood tasks."""
+    RESPONSE_TYPE = ResponseType.LOGLIKELIHOODS
+    METRICS = [AccuracyLoglikelihood]
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n\n{item['input']}"
+    def _get_ground_truth(self, item: dict[str, Any]) -> str | None | list[str]:
+        assert item["answer"][0] in item["options"], f"Ground truth {item['answer']} is not in {item['options']}"
+        return f" {item['answer'][0]}"
+    def _get_possible_completions(self, item: dict[str, Any]) -> list[str] | None:
+        return [f" {choice}" for choice in item["options"]]
+class InfiniteBenchCompletion(InfiniteBench, ABC):
+    """Base class for completion tasks."""
+    RESPONSE_TYPE = ResponseType.COMPLETION
+    METRICS = [AccuracyCompletion]
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n\n{item['input']}"
+    def _get_ground_truth(self, item: dict[str, Any]) -> str | None | list[str]:
+        return item["answer"]
+class InfiniteBench_CodeDebug(InfiniteBenchLoglikelihood):
+    """Finding which function in a code repo contains a crashing error (MC form)."""
+    NAME = "InfiniteBench_CodeDebug"
+    SAMPLE_SPLIT = "code_debug"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+class InfiniteBench_EnMC(InfiniteBenchLoglikelihood):
+    """Multiple choice questions derived from the fake book."""
+    NAME = "InfiniteBench_EnMC"
+    SAMPLE_SPLIT = "longbook_choice_eng"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+class InfiniteBench_CodeRun(InfiniteBenchCompletion):
+    """Simulating execution of multiple simple, synthetic functions."""
+    NAME = "InfiniteBench_CodeRun"
+    SAMPLE_SPLIT = "code_run"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 30  # Avg Output Tokens: 1.3
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        ANS_RE = re.compile(r"The return value is: (\-?[0-9\.\,]+)")
+        match = ANS_RE.search(completion_text)
+        if match:
+            match_str = match.group(1).strip()
+            return match_str
+        else:
+            return "[invalid]"
+class InfiniteBench_EnDia(InfiniteBenchCompletion):
+    """Identification of talkers in partially anonymized scripts."""
+    NAME = "InfiniteBench_EnDia"
+    SAMPLE_SPLIT = "longdialogue_qa_eng"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 30  # Avg Output Tokens: 3.4
+    def _get_ground_truth(self, item: dict[str, Any]) -> str | None | list[str]:
+        answers = [i.lower() for i in item["answer"]]
+        return answers
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n\n{item['input']}\n"
+    def _get_cue_text(self, item: dict[str, Any]) -> str:
+        return "The character which is $$MASK$$ is:"
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        return completion_text.lower()
+class InfiniteBench_EnQA(InfiniteBenchCompletion):
+    """Free-form question answering based on the fake book."""
+    NAME = "InfiniteBench_EnQA"
+    SAMPLE_SPLIT = "longbook_qa_eng"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 30  # Avg Output Tokens: 4.8
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n{item['input']}"
+    def _get_ground_truth(self, item: dict[str, Any]) -> str | None | list[str]:
+        answers = [i.replace('"', "").lower() for i in item["answer"]]
+        return answers
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        return completion_text.lower()
+class InfiniteBench_MathFind(InfiniteBenchCompletion):
+    """Finding special integers in a lengthy list."""
+    NAME = "InfiniteBench_MathFind"
+    SAMPLE_SPLIT = "math_find"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 30  # Avg Output Tokens: 1.3
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        ANS_RE = re.compile(r"(\-?[0-9\.\,]+)")
+        match = ANS_RE.search(completion_text)
+        if match:
+            match_str = match.group(0).strip()
+            return match_str
+        else:
+            return "[invalid]"
+class InfiniteBench_RetrieveKV2(InfiniteBenchCompletion):
+    """Finding the corresponding value from a dictionary and a key."""
+    NAME = "InfiniteBench_RetrieveKV2"
+    SAMPLE_SPLIT = "kv_retrieval"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 40  # Avg Output Tokens: 22.7 (all answers are 36 chars)
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n{item['input']}"
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        ANS_RE = re.compile(r"([0-9a-f\-]+)")
+        match = ANS_RE.search(completion_text)
+        if match:
+            match_str = match.group(1).strip()
+            return match_str
+        else:
+            return "[invalid]"
+class InfiniteBench_RetrieveNumber(InfiniteBenchCompletion):
+    """Locating repeated hidden numbers in a noisy long context."""
+    NAME = "InfiniteBench_RetrieveNumber"
+    SAMPLE_SPLIT = "number_string"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 12  # Avg Output Tokens: 4.0 (all answers are 10 digits integers)
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n{item['input']}\n"
+    def _get_cue_text(self, item: dict[str, Any]) -> str:
+        return "The sequence of digits is:"
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        ANS_RE = re.compile(r"([0-9]+)")
+        match = ANS_RE.search(completion_text)
+        if match:
+            match_str = match.group(1).strip()
+            return match_str
+        else:
+            return "[invalid]"
+class InfiniteBench_RetrievePassKey1(InfiniteBenchCompletion):
+    """Retrieving hidden keys in a noisy long context."""
+    NAME = "InfiniteBench_RetrievePassKey1"
+    SAMPLE_SPLIT = "passkey"
+    FEWSHOT_SPLIT = SAMPLE_SPLIT
+    def __init__(self, num_fewshot: int = 0) -> None:
+        super().__init__(num_fewshot)
+        self.stop_sequences: list[str] = ["\n"]
+        self.max_tokens = 8  # Avg Output Tokens: 2.0 (all answers are 5 digits integers)
+    def _get_instruction_text(self, item: dict[str, Any]) -> str:
+        return f"{item['context']}\n{item['input']}\n"
+    def _get_cue_text(self, item: dict[str, Any]) -> str:
+        return "The pass key is:"
+    def post_process_generated_completion(self, completion_text: str, sample: Sample | None = None) -> str:
+        for stop_sequence in self.stop_sequences:
+            if stop_sequence in completion_text:
+                completion_text = completion_text.split(stop_sequence)[0]
+        ANS_RE = re.compile(r"([0-9]+)")
+        match = ANS_RE.search(completion_text)
+        if match:
+            match_str = match.group(1).strip()
+            return match_str
+        else:
+            return "[invalid]"