PyPI - eval-framework - Versions diffs - 0.3.5__tar.gz → 0.3.7__tar.gz - Mend

eval-framework 0.3.5tar.gz → 0.3.7tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (191) hide show

{eval_framework-0.3.5 → eval_framework-0.3.7}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: eval-framework
-Version: 0.3.5
+Version: 0.3.7
 Summary: Evalulation Framework
 Author: Aleph Alpha Research
 License:                                  Apache License

{eval_framework-0.3.5 → eval_framework-0.3.7}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "eval-framework"
-version = "0.3.5"
+version = "0.3.7"
 description = "Evalulation Framework"
 readme = "README.md"
 license = { file = "LICENSE" }

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/openai.py RENAMED Viewed

@@ -8,18 +8,38 @@ from functools import partial
 import tiktoken
 from openai import OpenAI
-from openai.types.chat import ChatCompletionAssistantMessageParam, ChatCompletionUserMessageParam
+from openai.types.chat import (
+    ChatCompletionAssistantMessageParam,
+    ChatCompletionMessageParam,
+    ChatCompletionSystemMessageParam,
+    ChatCompletionUserMessageParam,
+)
 from tokenizers import Tokenizer
 from transformers import AutoTokenizer
 from eval_framework.llm.base import BaseLLM
 from eval_framework.shared.types import ConcatCompression, Error, RawCompletion, RawLoglikelihood
 from eval_framework.tasks.base import Sample
-from template_formatting.formatter import BaseFormatter, ConcatFormatter, HFFormatter, Message
+from template_formatting.formatter import BaseFormatter, ConcatFormatter, HFFormatter, Message, Role
 logger = logging.getLogger(__name__)
+def _to_chat_completion_message(message: Message) -> ChatCompletionMessageParam:
+    match message.role:
+        case Role.SYSTEM:
+            return ChatCompletionSystemMessageParam(role="system", content=message.content)
+        case Role.USER:
+            return ChatCompletionUserMessageParam(role="user", content=message.content)
+        case Role.ASSISTANT:
+            return ChatCompletionAssistantMessageParam(role="assistant", content=message.content)
+        case None:
+            raise ValueError(
+                "Cannot send a Message without a role through the chat completion API; "
+                "the legacy roleless format is only supported for fine-tuning."
+            )
 class OpenAIModel(BaseLLM):
     """
     LLM wrapper for OpenAI API providing text/chat completions and log-probability evaluation output.
@@ -158,14 +178,7 @@ class OpenAIModel(BaseLLM):
             else:
                 # Use chat completion API
-                chat_messages = [
-                    (
-                        ChatCompletionUserMessageParam(role="user", content=m.content)
-                        if m.role is not None and m.role.value.lower() == "user"
-                        else ChatCompletionAssistantMessageParam(role="assistant", content=m.content)
-                    )
-                    for m in single_messages
-                ]
+                chat_messages = [_to_chat_completion_message(m) for m in single_messages]
                 assert self._model_name is not None
                 chat_response = self._client.chat.completions.create(
                     model=self._model_name,

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/math_minerva_completion.py RENAMED Viewed

@@ -17,21 +17,28 @@ class MathMinervaCompletion(BaseMetric[Completion]):
     Minerva MATH: reports Exact Match and Exact Match (Flex).
     Uses raw_completion to extract multiple candidates; primary for exact_match,
     all candidates with both Minerva and Hendrycks equivalence for exact_match_flex.
+    English Minerva extraction is the default. Subclasses select other
+    final-answer styles by overriding ``COT_STYLE`` / ``RELAXED``.
     """
     NAME = "Math Minerva Completion"
     KEYS = ["Exact", "Exact Flex"]
     AGGREGATORS = [PassAtK()]
+    # Defaults; subclasses override these class attributes to define variants.
+    COT_STYLE: str = "minerva"
+    RELAXED: bool = False
     def __init__(
         self,
         use_cot: bool = True,
-        cot_style: str = "minerva",
-        relaxed: bool = False,
+        cot_style: str | None = None,
+        relaxed: bool | None = None,
     ) -> None:
         self.use_cot = use_cot
-        self.cot_style = cot_style
-        self.relaxed = relaxed
+        self.cot_style = cot_style if cot_style is not None else self.COT_STYLE
+        self.relaxed = relaxed if relaxed is not None else self.RELAXED
     def calculate(self, response: Completion) -> list[MetricResult]:
         if response.error:
@@ -60,7 +67,12 @@ class MathMinervaCompletion(BaseMetric[Completion]):
             ]
         raw = response.raw_completion or response.completion
-        all_candidates = extract_answers(raw, use_cot=self.use_cot, cot_style=self.cot_style, relaxed=self.relaxed)
+        all_candidates = extract_answers(
+            raw,
+            use_cot=self.use_cot,
+            cot_style=self.cot_style,
+            relaxed=self.relaxed,
+        )
         exact_match = 0.0
         if all_candidates:
@@ -83,10 +95,19 @@ class MathMinervaCompletion(BaseMetric[Completion]):
 class MathMinervaCompletionRelaxed(MathMinervaCompletion):
     """MathMinervaCompletion with relaxed=True by default (flexible final-answer matching)."""
-    def __init__(
-        self,
-        use_cot: bool = True,
-        cot_style: str = "minerva",
-        relaxed: bool = True,
-    ) -> None:
-        super().__init__(use_cot=use_cot, cot_style=cot_style, relaxed=relaxed)
+    NAME = "Math Minerva Completion Relaxed"
+    RELAXED = True
+class MathMinervaCompletionDE(MathMinervaCompletion):
+    """MathMinervaCompletion with German final-answer extraction (``Finale Antwort: …``)."""
+    NAME = "Math Minerva Completion DE"
+    COT_STYLE = "minerva_de"
+class MathMinervaCompletionRelaxedDE(MathMinervaCompletionDE):
+    """MathMinervaCompletionDE with relaxed=True by default."""
+    NAME = "Math Minerva Completion Relaxed DE"
+    RELAXED = True

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/minerva_math_utils.py RENAMED Viewed

@@ -12,6 +12,7 @@ from sympy.parsing.latex.errors import LaTeXParsingError
 INVALID_ANSWER = "[invalidanswer]"
 END_SEQ = "I hope it is correct."
+END_SEQ_DE = "Ich hoffe, die Antwort ist korrekt."  # German pendant to END_SEQ
 # Minerva normalize_final_answer: appendix D of Lewkowycz et al. (2022)
 SUBSTITUTIONS = [
@@ -143,6 +144,44 @@ def get_unnormalized_answer(text: str, relaxed: bool = False) -> str:
     return INVALID_ANSWER
+def get_unnormalized_answer_de(text: str, relaxed: bool = False) -> str:
+    """German analogue of ``get_unnormalized_answer``."""
+    if relaxed:
+        match = re.search(
+            r"(?i)(?:finale|endgültige)\s+antwort\s*:\s*"
+            r"(?:die\s+(?:finale\s+|endgültige\s+)?antwort\s+(?:ist|lautet)\s*)?(.*)",
+            text,
+            re.DOTALL,
+        )
+        if match:
+            raw = match.group(1).strip()
+            raw = re.sub(
+                r"\.?\s*ich\s+hoffe,?\s+(?:die\s+antwort|sie|es)\s+(?:ist|sei)\s+korrekt\.?\s*$",
+                "",
+                raw,
+                flags=re.IGNORECASE,
+            ).strip()
+            return raw
+        return INVALID_ANSWER
+    text = text + END_SEQ_DE
+    match = re.search(
+        r"Finale Antwort: Die finale Antwort lautet(.*?)\. Ich hoffe, die Antwort ist korrekt\.",
+        text,
+    )
+    if match:
+        return match.group(1).strip()
+    return INVALID_ANSWER
+# Registry of supported `cot_style` values
+# Keys are the strings passed by metric configurations; values are language-specific final-answer extractors
+# `(text: str, relaxed: bool) -> str`. Extend this dict to add a new language.
+COT_EXTRACTORS = {
+    "minerva": get_unnormalized_answer,
+    "minerva_de": get_unnormalized_answer_de,
+}
 def normalized_gold_from_solution(solution: str) -> str | None:
     """Extract and normalize the gold answer from a solution string (last \\boxed{...})."""
     boxed = last_boxed_only_string(solution)
@@ -368,10 +407,12 @@ def extract_answers(
     all_answers: list[str] = []
     if use_cot:
-        if cot_style == "minerva":
-            minerva_answer = normalize_final_answer(get_unnormalized_answer(raw, relaxed=relaxed))
-            if minerva_answer and minerva_answer != INVALID_ANSWER:
-                all_answers.append(minerva_answer)
+        if cot_style not in COT_EXTRACTORS:
+            raise ValueError(f"Unknown cot_style {cot_style!r}; valid: {sorted(COT_EXTRACTORS)}")
+        extractor = COT_EXTRACTORS[cot_style]
+        minerva_answer = normalize_final_answer(extractor(raw, relaxed=relaxed))
+        if minerva_answer and minerva_answer != INVALID_ANSWER:
+            all_answers.append(minerva_answer)
         boxed = last_boxed_only_string(raw)
         if boxed is not None:
             try:

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/ifeval.py RENAMED Viewed

@@ -1,6 +1,7 @@
 from typing import Any
 from eval_framework.metrics.completion.ifeval import IFEvalMetric, IFEvalMetricContext
+from eval_framework.metrics.completion.language_checker import LanguageRawConsistencyChecker
 from eval_framework.tasks.base import NO_SUBJECT, BaseTask, Language, ResponseType
@@ -76,3 +77,4 @@ class IFEvalDe(IFEval):
     DATASET_PATH = "jzhang86/de_ifeval"
     SUBJECTS = [NO_SUBJECT]
     LANGUAGE = {NO_SUBJECT: Language.DEU}
+    METRICS = [IFEvalMetric, LanguageRawConsistencyChecker]

{eval_framework-0.3.5 → eval_framework-0.3.7}/LICENSE RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/base_config.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/context/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/context/determined.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/context/eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/context/local.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/evaluation_generator.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/exceptions.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/external/drop_process_results.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/external/ifeval_impl/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/external/ifeval_impl/instructions.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/external/ifeval_impl/instructions_registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/external/ifeval_impl/instructions_util.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/external/ifeval_impl/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/aleph_alpha.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/huggingface.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/mistral.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/llm/vllm.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/logger.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/main.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/aggregators/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/aggregators/aggregators.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/accuracy_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/bleu.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/chrf.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/code_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/code_execution_pass_at_one.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/comet.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/concordance_index.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/csv_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/cwe_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/drop_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/exponential_similarity.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/f1.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/format_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/grid_difference.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/json_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/language_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/length_control.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/math_reasoning_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/multipl_e_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/niah_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/placeholder_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/repetition.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/rouge_1.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/rouge_2.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/rouge_geometric_mean.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/rouge_l.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/struct_eval_metrics.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/ter.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/completion/text_counter.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/efficiency/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/efficiency/bytes_per_sequence_position.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/chatbot_style_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/coherence_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/comparison_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/conciseness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/contains_names_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/format_correctness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/instruction_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/language.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/long_context_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/refusal_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/sql_quality_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_chatbot_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_coherence.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_completion_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_conciseness.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_contains_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_format_correctness.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_instruction.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_mtbench_pair.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_mtbench_single.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_refusal.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_sql.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/llm_judge_world_knowledge.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/llm/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/bits_per_byte.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/confidence_weighted_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/dcs.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/probability_mass.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/metrics/loglikelihood/ternary.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/py.typed RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/response_generator.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/result_processors/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/result_processors/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/result_processors/hf_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/result_processors/result_processor.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/result_processors/wandb_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/run.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/run_direct.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/shared/types.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/suite.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/Dockerfile_codebench RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/arc.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/arc_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/arc_fi.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/balancedcopa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/belebele.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/bigcodebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/casehold.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/chembench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/copa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/csqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/drop.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/duc.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/flores200.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/flores_plus.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/global_mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/goldenswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/gpqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/gsm8k.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/hellaswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/hellaswag_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/humaneval.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/include.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/infinitebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/lab_bench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/math_reasoning.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/mbpp.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/medqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/mmlu_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/mmlu_pro.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/mmmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/multipl_e.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/naturalqs_open.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/openbookqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/opengptx_eu20.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/pawsx.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/piqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/quality.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/sciq.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/social_iqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/sphyr.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/squad.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/struct_eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/tablebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/triviaqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/truthfulqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/winogender.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/winogrande.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/winox.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/wmt.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/benchmarks/zero_scrolls.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/eval_config.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/perturbation.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/task_loader.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/task_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/task_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/tasks/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/constants.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/file_ops.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/generate_task_docs.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/helpers.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/logging.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/packaging.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/eval_framework/utils/tqdm_handler.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/template_formatting/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/template_formatting/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/template_formatting/formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/template_formatting/mistral_formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.5 → eval_framework-0.3.7}/src/template_formatting/py.typed RENAMED Viewed

File without changes

eval-framework 0.3.5__tar.gz → 0.3.7__tar.gz

eval-framework 0.3.5tar.gz → 0.3.7tar.gz