PyPI - eval-framework - Versions diffs - 0.3.2__tar.gz → 0.3.4__tar.gz - Mend

eval-framework 0.3.2tar.gz → 0.3.4tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (191) hide show

{eval_framework-0.3.2 → eval_framework-0.3.4}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: eval-framework
-Version: 0.3.2
+Version: 0.3.4
 Summary: Evalulation Framework
 Author: Aleph Alpha Research
 License:                                  Apache License

{eval_framework-0.3.2 → eval_framework-0.3.4}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "eval-framework"
-version = "0.3.2"
+version = "0.3.4"
 description = "Evalulation Framework"
 readme = "README.md"
 license = { file = "LICENSE" }

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/drop_completion.py RENAMED Viewed

@@ -18,7 +18,7 @@ class DropMetricContext(BaseMetricContext):
 class DropF1ExactMatch(BaseMetric[Completion]):
     """DROP F1 and exact match. Requires DropMetricContext with answer_tuples."""
-    NAME = "DROP F1 / Exact Match"
+    NAME = "Drop F1"
     KEYS = ["f1", "exact_match"]
     def calculate(self, response: Completion) -> list[MetricResult]:
@@ -52,5 +52,5 @@ class DropF1ExactMatch(BaseMetric[Completion]):
                 higher_is_better=True,
                 error=response.error,
             )
-            for name, key in zip([n.strip() for n in self.NAME.split("/")], self.KEYS)
+            for name, key in zip(self.NAMES, self.KEYS)
         ]

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/math_minerva_completion.py RENAMED Viewed

@@ -20,6 +20,7 @@ class MathMinervaCompletion(BaseMetric[Completion]):
     """
     NAME = "Math Minerva Completion"
+    KEYS = ["Exact", "Exact Flex"]
     AGGREGATORS = [PassAtK()]
     def __init__(
@@ -36,17 +37,12 @@ class MathMinervaCompletion(BaseMetric[Completion]):
         if response.error:
             return [
                 MetricResult(
-                    metric_name="Exact Match",
+                    metric_name=x,
                     value=None,
                     higher_is_better=True,
                     error=response.error,
-                ),
-                MetricResult(
-                    metric_name="Exact Match (Flex)",
-                    value=None,
-                    higher_is_better=True,
-                    error=response.error,
-                ),
+                )
+                for x in self.NAMES
             ]
         gold = response.ground_truth
@@ -55,17 +51,12 @@ class MathMinervaCompletion(BaseMetric[Completion]):
         if not gold:
             return [
                 MetricResult(
-                    metric_name="Exact Match",
-                    value=None,
-                    higher_is_better=True,
-                    error="No ground truth available",
-                ),
-                MetricResult(
-                    metric_name="Exact Match (Flex)",
+                    metric_name=x,
                     value=None,
                     higher_is_better=True,
                     error="No ground truth available",
-                ),
+                )
+                for x in self.NAMES
             ]
         raw = response.raw_completion or response.completion
@@ -84,12 +75,8 @@ class MathMinervaCompletion(BaseMetric[Completion]):
         )
         return [
-            MetricResult(metric_name="Exact Match", value=exact_match, higher_is_better=True),
-            MetricResult(
-                metric_name="Exact Match (Flex)",
-                value=exact_match_flex,
-                higher_is_better=True,
-            ),
+            MetricResult(metric_name=name, value=value, higher_is_better=True)
+            for name, value in zip(self.NAMES, [exact_match, exact_match_flex])
         ]

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/response_generator.py RENAMED Viewed

@@ -78,7 +78,7 @@ class ResponseGenerator:
                 custom_hf_revision=self.config.hf_revision,
             )
-        self.response_type, _ = self.task._get_type_and_metrics()
+        self.response_type = self.task.get_response_type()
     def _llm_task_param_precedence(self) -> tuple[list[str] | None, int | None]:
         """

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/base.py RENAMED Viewed

@@ -15,7 +15,7 @@ from huggingface_hub.errors import RevisionNotFoundError
 from pydantic import BaseModel, ConfigDict
 from eval_framework.shared.types import BaseMetricContext, Completion, Error, RawCompletion
-from eval_framework.tasks.utils import raise_errors
+from eval_framework.tasks.utils import classproperty, raise_errors
 from template_formatting.formatter import Message, Role
 if TYPE_CHECKING:
@@ -91,8 +91,6 @@ class BaseTask[SubjectType](ABC):
     DATASET_PATH: str
     SAMPLE_SPLIT: str
     FEWSHOT_SPLIT: str
-    RESPONSE_TYPE: ResponseType
-    METRICS: list[type["BaseMetric"]]
     SUBJECTS: list[SubjectType]
     HF_REVISION: str | None = None  # tag name, or branch name, or commit hash to ensure reproducibility
@@ -104,6 +102,10 @@ class BaseTask[SubjectType](ABC):
     # language by subtopic, or `None` (for tasks not specific to a single language).
     LANGUAGE: Language | dict[str, Language] | dict[str, tuple[Language, Language]] | None
+    # RESPONSE_TYPE and METRICS use exposed as classproperties, so you can access them via either
+    # `TaskClass.*` or `task.*` (or `task.get_metrics()`). This avoids mypy conflicts from re-declaring class vars.
+    # By default, these values come from TASK_STYLER if set, otherwise from legacy class attributes.
     def __init__(self, num_fewshot: int = 0) -> None:
         self.num_fewshot = num_fewshot
         self.stop_sequences: list[str] | None = None
@@ -332,14 +334,12 @@ class BaseTask[SubjectType](ABC):
         return None
     def get_metadata(self) -> dict[str, str | list[str]]:
-        response_type, metrics = self._get_type_and_metrics()
         meta: dict[str, str | list[str]] = {
             "dataset_path": self.DATASET_PATH,
             "sample_split": self.SAMPLE_SPLIT,
             "fewshot_split": self.FEWSHOT_SPLIT,
-            "response_type": response_type.value,
-            "metrics": [m.NAME for m in metrics],
+            "response_type": self.get_response_type().value,
+            "metrics": [m.NAME for m in self.get_metrics()],
             "subjects": [str(s) for s in self.SUBJECTS],
         }
         if hasattr(self, "TASK_STYLER"):
@@ -420,7 +420,26 @@ class BaseTask[SubjectType](ABC):
             )
         return completion_list
-    def _get_type_and_metrics(self) -> tuple[ResponseType, list[type["BaseMetric"]]]:
-        if hasattr(self, "TASK_STYLER"):
-            return self.TASK_STYLER.response_type, self.TASK_STYLER.metrics
-        return self.RESPONSE_TYPE, self.METRICS
+    @classmethod
+    def get_response_type(cls) -> ResponseType:
+        """Return the response type of the task (or the styler if it exists)."""
+        if hasattr(cls, "TASK_STYLER"):
+            return cls.TASK_STYLER.response_type
+        return cls.RESPONSE_TYPE
+    @classmethod
+    def get_metrics(cls) -> list[type["BaseMetric"]]:
+        """Return the metrics of the task (or the styler if it exists)."""
+        if hasattr(cls, "TASK_STYLER"):
+            return cls.TASK_STYLER.metrics
+        return cls.METRICS
+    @classproperty
+    def RESPONSE_TYPE(cls) -> ResponseType:
+        """For backwards compatibility."""
+        return cls.get_response_type()
+    @classproperty
+    def METRICS(cls) -> list[type["BaseMetric"]]:
+        """For backwards compatibility."""
+        return cls.get_metrics()

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/naturalqs_open.py RENAMED Viewed

@@ -86,7 +86,7 @@ class NaturalQsOpenCloze(_NaturalQsOpenChoice_Base):
 class NaturalQsOpenMC(_NaturalQsOpenChoice_Base):
     NAME = "NaturalQsOpenMC"
-    TASK_STYLER = MCStyle(space_prefixed_labels=True)
+    TASK_STYLER = MCStyle()
 class NaturalQsOpenMC_OLMES(_NaturalQsOpenChoice_Base):

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/truthfulqa.py RENAMED Viewed

@@ -106,13 +106,18 @@ class TRUTHFULQA_OLMES(TRUTHFULQA):
     """
     NAME = "TruthfulQA_OLMES"
+    FEWSHOT_SPLIT = "validation"  # use dataset few-shot for multiple-choice options
+    PERTURBATION_UNMODIFIABLE_WORDS = ["Question", "Answer"]
+    def _get_cue_text(self, item: dict[str, Any]) -> str:
+        return "Answer:"
     def _get_instruction_text(self, item: dict[str, Any]) -> str:
         question = item["question"]
         choices = item[self.target_identifier]["choices"]
         labels = get_n_letters(len(choices))
         options = "\n".join(f" {label}. {choice}" for label, choice in zip(labels, choices))
-        return f"Q: {question}\n{options}\n"
+        return f"Question: {question}\n{options}\n"
     def _get_ground_truth(self, item: dict[str, Any]) -> str | None | list[str]:
         labels_arr = item[self.target_identifier]["labels"]
@@ -126,7 +131,17 @@ class TRUTHFULQA_OLMES(TRUTHFULQA):
         return [f" {letter}" for letter in letters]
     def _sample_fewshot_examples(self, item: dict[str, Any]) -> list[dict]:
-        return self.FEWSHOT_ITEMS[: self.num_fewshot]
+        # Reuse BaseTask's split-based sampler.
+        return BaseTask._sample_fewshot_examples(self, item)
+    def _get_fewshot_target_text(self, item: dict[str, Any]) -> str:
+        cue_text = self._get_cue_text(item)
+        labels_arr = item[self.target_identifier]["labels"]
+        letters = get_n_letters(len(labels_arr))
+        # Pick one correct option for the demonstration answer.
+        correct_letters = [letters[i] for i, label in enumerate(labels_arr) if label == 1]
+        letter = correct_letters[0] if correct_letters else letters[0]
+        return f"{cue_text} {letter}"
 class TRUTHFULQA_IDK(TRUTHFULQA):

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/eval_config.py RENAMED Viewed

@@ -112,7 +112,7 @@ class EvalConfig(BaseConfig):
     @model_validator(mode="after")
     def validate_llm_judge_defined(self) -> "EvalConfig":
         task = get_task(self.task_name)
-        _, task_metrics = task(num_fewshot=0)._get_type_and_metrics()
+        task_metrics = task(num_fewshot=0).get_metrics()
         for metric_class in task_metrics:
             if issubclass(metric_class, BaseLLMJudgeMetric):
                 assert self.llm_judge_class is not None, "The LLM Judge must be defined for this evaluation task."

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/utils.py RENAMED Viewed

@@ -8,7 +8,7 @@ import string
 import threading
 from collections.abc import Callable
 from pathlib import Path
-from typing import Any, Literal, NamedTuple
+from typing import Any, Literal, NamedTuple, overload
 import dill
 import numpy as np
@@ -22,6 +22,24 @@ logger = logging.getLogger(__name__)
 RANDOM_SEED = 42  # hacky way to get around circular import
 redis_warning_printed = False
+class classproperty[T]:
+    """Descriptor supporting property-like access on classes and instances."""
+    def __init__(self, fget: Callable[[Any], T]) -> None:
+        self.fget = fget
+    @overload
+    def __get__(self, obj: None, owner: type[Any]) -> T: ...
+    @overload
+    def __get__(self, obj: object, owner: type[Any] | None = None) -> T: ...
+    def __get__(self, obj: object | None, owner: type[Any] | None = None) -> T:
+        cls = owner if owner is not None else type(obj)
+        return self.fget(cls)
 _pools: dict[tuple[str | None, tuple[str, ...] | None], ContainerPoolManager] = {}
 _pools_lock = threading.Lock()

{eval_framework-0.3.2 → eval_framework-0.3.4}/LICENSE RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/base_config.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/context/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/context/determined.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/context/eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/context/local.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/evaluation_generator.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/exceptions.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/external/drop_process_results.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/external/ifeval_impl/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/external/ifeval_impl/instructions.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/external/ifeval_impl/instructions_registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/external/ifeval_impl/instructions_util.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/external/ifeval_impl/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/aleph_alpha.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/huggingface.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/mistral.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/openai.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/llm/vllm.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/logger.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/main.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/aggregators/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/aggregators/aggregators.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/accuracy_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/bleu.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/chrf.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/code_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/code_execution_pass_at_one.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/comet.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/concordance_index.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/csv_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/cwe_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/exponential_similarity.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/f1.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/format_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/grid_difference.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/json_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/language_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/length_control.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/math_reasoning_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/minerva_math_utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/multipl_e_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/niah_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/placeholder_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/repetition.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/rouge_1.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/rouge_2.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/rouge_geometric_mean.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/rouge_l.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/struct_eval_metrics.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/ter.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/completion/text_counter.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/efficiency/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/efficiency/bytes_per_sequence_position.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/chatbot_style_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/coherence_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/comparison_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/conciseness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/contains_names_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/format_correctness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/instruction_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/language.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/long_context_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/refusal_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/sql_quality_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_chatbot_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_coherence.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_completion_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_conciseness.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_contains_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_format_correctness.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_instruction.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_mtbench_pair.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_mtbench_single.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_refusal.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_sql.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/llm_judge_world_knowledge.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/llm/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/bits_per_byte.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/confidence_weighted_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/dcs.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/probability_mass.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/metrics/loglikelihood/ternary.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/py.typed RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/result_processors/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/result_processors/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/result_processors/hf_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/result_processors/result_processor.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/result_processors/wandb_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/run.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/run_direct.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/shared/types.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/suite.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/Dockerfile_codebench RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/arc.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/arc_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/arc_fi.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/balancedcopa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/belebele.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/bigcodebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/casehold.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/chembench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/copa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/csqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/drop.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/duc.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/flores200.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/flores_plus.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/global_mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/goldenswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/gpqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/gsm8k.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/hellaswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/hellaswag_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/humaneval.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/include.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/infinitebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/lab_bench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/math_reasoning.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/mbpp.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/medqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/mmlu_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/mmlu_pro.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/mmmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/multipl_e.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/openbookqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/opengptx_eu20.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/pawsx.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/piqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/quality.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/sciq.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/social_iqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/sphyr.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/squad.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/struct_eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/tablebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/triviaqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/winogender.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/winogrande.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/winox.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/wmt.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/benchmarks/zero_scrolls.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/perturbation.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/task_loader.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/task_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/tasks/task_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/constants.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/file_ops.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/generate_task_docs.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/helpers.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/logging.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/packaging.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/eval_framework/utils/tqdm_handler.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/template_formatting/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/template_formatting/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/template_formatting/formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/template_formatting/mistral_formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.2 → eval_framework-0.3.4}/src/template_formatting/py.typed RENAMED Viewed

File without changes

eval-framework 0.3.2__tar.gz → 0.3.4__tar.gz

eval-framework 0.3.2tar.gz → 0.3.4tar.gz