PyPI - eval-framework - Versions diffs - 0.3.1__tar.gz → 0.3.3__tar.gz - Mend

eval-framework 0.3.1tar.gz → 0.3.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (191) hide show

{eval_framework-0.3.1 → eval_framework-0.3.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: eval-framework
-Version: 0.3.1
+Version: 0.3.3
 Summary: Evalulation Framework
 Author: Aleph Alpha Research
 License:                                  Apache License

{eval_framework-0.3.1 → eval_framework-0.3.3}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "eval-framework"
-version = "0.3.1"
+version = "0.3.3"
 description = "Evalulation Framework"
 readme = "README.md"
 license = { file = "LICENSE" }

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/drop_completion.py RENAMED Viewed

@@ -18,7 +18,7 @@ class DropMetricContext(BaseMetricContext):
 class DropF1ExactMatch(BaseMetric[Completion]):
     """DROP F1 and exact match. Requires DropMetricContext with answer_tuples."""
-    NAME = "DROP F1 / Exact Match"
+    NAME = "Drop F1"
     KEYS = ["f1", "exact_match"]
     def calculate(self, response: Completion) -> list[MetricResult]:
@@ -52,5 +52,5 @@ class DropF1ExactMatch(BaseMetric[Completion]):
                 higher_is_better=True,
                 error=response.error,
             )
-            for name, key in zip([n.strip() for n in self.NAME.split("/")], self.KEYS)
+            for name, key in zip(self.NAMES, self.KEYS)
         ]

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/math_minerva_completion.py RENAMED Viewed

@@ -20,6 +20,7 @@ class MathMinervaCompletion(BaseMetric[Completion]):
     """
     NAME = "Math Minerva Completion"
+    KEYS = ["Exact", "Exact Flex"]
     AGGREGATORS = [PassAtK()]
     def __init__(
@@ -36,17 +37,12 @@ class MathMinervaCompletion(BaseMetric[Completion]):
         if response.error:
             return [
                 MetricResult(
-                    metric_name="Exact Match",
+                    metric_name=x,
                     value=None,
                     higher_is_better=True,
                     error=response.error,
-                ),
-                MetricResult(
-                    metric_name="Exact Match (Flex)",
-                    value=None,
-                    higher_is_better=True,
-                    error=response.error,
-                ),
+                )
+                for x in self.NAMES
             ]
         gold = response.ground_truth
@@ -55,17 +51,12 @@ class MathMinervaCompletion(BaseMetric[Completion]):
         if not gold:
             return [
                 MetricResult(
-                    metric_name="Exact Match",
-                    value=None,
-                    higher_is_better=True,
-                    error="No ground truth available",
-                ),
-                MetricResult(
-                    metric_name="Exact Match (Flex)",
+                    metric_name=x,
                     value=None,
                     higher_is_better=True,
                     error="No ground truth available",
-                ),
+                )
+                for x in self.NAMES
             ]
         raw = response.raw_completion or response.completion
@@ -84,12 +75,8 @@ class MathMinervaCompletion(BaseMetric[Completion]):
         )
         return [
-            MetricResult(metric_name="Exact Match", value=exact_match, higher_is_better=True),
-            MetricResult(
-                metric_name="Exact Match (Flex)",
-                value=exact_match_flex,
-                higher_is_better=True,
-            ),
+            MetricResult(metric_name=name, value=value, higher_is_better=True)
+            for name, value in zip(self.NAMES, [exact_match, exact_match_flex])
         ]

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/mbpp.py RENAMED Viewed

@@ -276,7 +276,8 @@ class MBPP_OLMES(MBPP):
     def __init__(self, num_fewshot: int = 3) -> None:
         super().__init__(num_fewshot)
-        assert num_fewshot == 3, "MBPP_OLMES requires exactly 3 fewshot examples"
+        if num_fewshot != 3:
+            logger.warning(f"MBPP_OLMES supports only 3-shot, got {num_fewshot}")
         self.stop_sequences = ["```", '\n"""', "\nassert", "\n#"]
     def _get_instruction_text(self, item: dict[str, Any]) -> str:

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/truthfulqa.py RENAMED Viewed

@@ -106,13 +106,18 @@ class TRUTHFULQA_OLMES(TRUTHFULQA):
     """
     NAME = "TruthfulQA_OLMES"
+    FEWSHOT_SPLIT = "validation"  # use dataset few-shot for multiple-choice options
+    PERTURBATION_UNMODIFIABLE_WORDS = ["Question", "Answer"]
+    def _get_cue_text(self, item: dict[str, Any]) -> str:
+        return "Answer:"
     def _get_instruction_text(self, item: dict[str, Any]) -> str:
         question = item["question"]
         choices = item[self.target_identifier]["choices"]
         labels = get_n_letters(len(choices))
         options = "\n".join(f" {label}. {choice}" for label, choice in zip(labels, choices))
-        return f"Q: {question}\n{options}\n"
+        return f"Question: {question}\n{options}\n"
     def _get_ground_truth(self, item: dict[str, Any]) -> str | None | list[str]:
         labels_arr = item[self.target_identifier]["labels"]
@@ -126,7 +131,17 @@ class TRUTHFULQA_OLMES(TRUTHFULQA):
         return [f" {letter}" for letter in letters]
     def _sample_fewshot_examples(self, item: dict[str, Any]) -> list[dict]:
-        return self.FEWSHOT_ITEMS[: self.num_fewshot]
+        # Reuse BaseTask's split-based sampler.
+        return BaseTask._sample_fewshot_examples(self, item)
+    def _get_fewshot_target_text(self, item: dict[str, Any]) -> str:
+        cue_text = self._get_cue_text(item)
+        labels_arr = item[self.target_identifier]["labels"]
+        letters = get_n_letters(len(labels_arr))
+        # Pick one correct option for the demonstration answer.
+        correct_letters = [letters[i] for i, label in enumerate(labels_arr) if label == 1]
+        letter = correct_letters[0] if correct_letters else letters[0]
+        return f"{cue_text} {letter}"
 class TRUTHFULQA_IDK(TRUTHFULQA):

{eval_framework-0.3.1 → eval_framework-0.3.3}/LICENSE RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/base_config.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/context/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/context/determined.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/context/eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/context/local.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/evaluation_generator.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/exceptions.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/external/drop_process_results.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/external/ifeval_impl/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/external/ifeval_impl/instructions.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/external/ifeval_impl/instructions_registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/external/ifeval_impl/instructions_util.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/external/ifeval_impl/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/aleph_alpha.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/huggingface.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/mistral.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/openai.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/llm/vllm.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/logger.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/main.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/aggregators/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/aggregators/aggregators.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/accuracy_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/bleu.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/chrf.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/code_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/code_execution_pass_at_one.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/comet.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/concordance_index.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/csv_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/cwe_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/exponential_similarity.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/f1.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/format_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/grid_difference.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/json_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/language_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/length_control.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/math_reasoning_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/minerva_math_utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/multipl_e_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/niah_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/placeholder_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/repetition.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/rouge_1.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/rouge_2.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/rouge_geometric_mean.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/rouge_l.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/struct_eval_metrics.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/ter.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/completion/text_counter.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/efficiency/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/efficiency/bytes_per_sequence_position.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/chatbot_style_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/coherence_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/comparison_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/conciseness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/contains_names_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/format_correctness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/instruction_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/language.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/long_context_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/refusal_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/sql_quality_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_chatbot_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_coherence.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_completion_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_conciseness.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_contains_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_format_correctness.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_instruction.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_mtbench_pair.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_mtbench_single.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_refusal.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_sql.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/llm_judge_world_knowledge.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/llm/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/bits_per_byte.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/confidence_weighted_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/dcs.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/probability_mass.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/metrics/loglikelihood/ternary.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/py.typed RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/response_generator.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/result_processors/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/result_processors/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/result_processors/hf_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/result_processors/result_processor.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/result_processors/wandb_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/run.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/run_direct.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/shared/types.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/suite.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/Dockerfile_codebench RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/arc.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/arc_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/arc_fi.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/balancedcopa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/belebele.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/bigcodebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/casehold.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/chembench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/copa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/csqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/drop.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/duc.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/flores200.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/flores_plus.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/global_mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/goldenswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/gpqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/gsm8k.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/hellaswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/hellaswag_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/humaneval.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/include.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/infinitebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/lab_bench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/math_reasoning.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/medqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/mmlu_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/mmlu_pro.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/mmmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/multipl_e.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/naturalqs_open.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/openbookqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/opengptx_eu20.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/pawsx.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/piqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/quality.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/sciq.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/social_iqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/sphyr.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/squad.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/struct_eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/tablebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/triviaqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/winogender.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/winogrande.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/winox.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/wmt.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/benchmarks/zero_scrolls.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/eval_config.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/perturbation.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/task_loader.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/task_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/task_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/tasks/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/constants.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/file_ops.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/generate_task_docs.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/helpers.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/logging.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/packaging.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/eval_framework/utils/tqdm_handler.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/template_formatting/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/template_formatting/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/template_formatting/formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/template_formatting/mistral_formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.1 → eval_framework-0.3.3}/src/template_formatting/py.typed RENAMED Viewed

File without changes

eval-framework 0.3.1__tar.gz → 0.3.3__tar.gz

eval-framework 0.3.1tar.gz → 0.3.3tar.gz