PyPI - eval-framework - Versions diffs - 0.3.4__tar.gz → 0.3.5__tar.gz - Mend

eval-framework 0.3.4tar.gz → 0.3.5tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (191) hide show

{eval_framework-0.3.4 → eval_framework-0.3.5}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: eval-framework
-Version: 0.3.4
+Version: 0.3.5
 Summary: Evalulation Framework
 Author: Aleph Alpha Research
 License:                                  Apache License

{eval_framework-0.3.4 → eval_framework-0.3.5}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "eval-framework"
-version = "0.3.4"
+version = "0.3.5"
 description = "Evalulation Framework"
 readme = "README.md"
 license = { file = "LICENSE" }

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/evaluation_generator.py RENAMED Viewed

@@ -127,7 +127,18 @@ class EvaluationGenerator:
         return results
     def _aggregate_results(self, results: list[Result]) -> dict[str, float | None]:
-        data = pd.DataFrame([r.model_dump() for r in results])
+        data = pd.DataFrame(
+            [
+                {
+                    "metric_name": r.metric_name,
+                    "subject": r.subject,
+                    "key": r.key,
+                    "value": r.value,
+                    "error": r.error,
+                }
+                for r in results
+            ]
+        )
         if len(data) == 0:
             return {}
         data.fillna({"key": ""}, inplace=True)
@@ -251,7 +262,20 @@ class EvaluationGenerator:
         return aggregated_results
     def _aggregate_results_with_aggregators(self, results: list[Result]) -> dict[str, float | None]:
-        data = pd.DataFrame([r.model_dump() for r in results])
+        data = pd.DataFrame(
+            [
+                {
+                    "metric_name": r.metric_name,
+                    "metric_class_name": r.metric_class_name,
+                    "subject": r.subject,
+                    "key": r.key,
+                    "value": r.value,
+                    "error": r.error,
+                    "prompt": r.prompt,
+                }
+                for r in results
+            ]
+        )
         if len(data) == 0:
             return {}
         data = data.fillna({"key": ""})
@@ -313,6 +337,7 @@ class EvaluationGenerator:
             raise ValueError("No saved completions found. Run 'run_completions' first.")
         metrics_results = self._run_metric_calculators(responses)
+        del responses
         aggregated_results = self._aggregate_results(metrics_results)
         results_with_aggregators = self._aggregate_results_with_aggregators(metrics_results)
         aggregated_results.update(results_with_aggregators)

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/response_generator.py RENAMED Viewed

@@ -114,8 +114,8 @@ class ResponseGenerator:
         try:
             raw_loglikelihoods = self.llm.logprobs(samples)
         except Exception as e:
-            if raise_errors():
-                raise e
+            if raise_errors() or self.config.fail_on_error:
+                raise
             logger.info(f"Error: {e.__class__.__name__} {e}")
             raw_loglikelihoods = [
                 RawLoglikelihood(
@@ -166,7 +166,8 @@ class ResponseGenerator:
                     self.llm,
                     stop_sequences=stop_sequences,
                     max_tokens=max_tokens,
-                )  # type: ignore[call-arg]
+                    fail_on_error=self.config.fail_on_error,
+                )
             case ResponseType.LOGLIKELIHOODS:
                 return self._generate_loglikelihoods
             case _:

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/result_processors/result_processor.py RENAMED Viewed

@@ -36,9 +36,9 @@ class ResultsFileProcessor(ResultProcessor):
             return {}
     def save_responses(self, responses: list[Completion | Loglikelihood]) -> None:
-        responses_data = [response.model_dump(mode="json", serialize_as_any=True) for response in responses]
         with jsonlines.open(self.output_dir / "output.jsonl", "w") as f:
-            f.write_all(responses_data)
+            for response in responses:
+                f.write(response.model_dump(mode="json", serialize_as_any=True))
     def save_response(self, response: Completion | Loglikelihood) -> None:
         with jsonlines.open(self.output_dir / "output.jsonl", "a") as f:
@@ -72,9 +72,9 @@ class ResultsFileProcessor(ResultProcessor):
         return responses
     def save_metrics_results(self, results: list[Result]) -> None:
-        result_data = [x.model_dump(mode="json") for x in results]
         with jsonlines.open(self.output_dir / "results.jsonl", "w") as f:
-            f.write_all(result_data)
+            for result in results:
+                f.write(result.model_dump(mode="json"))
     def save_metrics_result(self, result: Result) -> None:
         with jsonlines.open(self.output_dir / "results.jsonl", "a") as f:

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/base.py RENAMED Viewed

@@ -352,12 +352,15 @@ class BaseTask[SubjectType](ABC):
         samples: list[Sample],
         stop_sequences: list[str] | None = None,
         max_tokens: int | None = None,
+        fail_on_error: bool = False,
     ) -> list[Completion]:
         """
         Generates completions for the sample.
         :param sample: sample to generate completions for
         :param stop_sequences: stop sequences to use in completion generation
         :param max_tokens: maximum tokens to use in completion generation
+        :param fail_on_error: if True, re-raise the original exception instead of capturing it
+                              into a per-sample Error completion
         :return: completion
         """
         if stop_sequences is None:
@@ -367,8 +370,8 @@ class BaseTask[SubjectType](ABC):
         try:
             raw_completions = llm.generate(samples=samples, stop_sequences=stop_sequences, max_tokens=max_tokens)
         except Exception as e:
-            if raise_errors():
-                raise e
+            if raise_errors() or fail_on_error:
+                raise
             logger.info(f"Error: {e.__class__.__name__} {e}")
             raw_completions = [
                 RawCompletion(

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/aidanbench.py RENAMED Viewed

@@ -104,7 +104,12 @@ class AidanBenchOriginal(BaseTask[str]):
         return [Message(role=Role.USER, content=instruction_message)]
     def _generation_loop(
-        self, llm: "BaseLLM", stop_sequences: list[str] | None, max_tokens: int | None, initial_samples: list[Sample]
+        self,
+        llm: "BaseLLM",
+        stop_sequences: list[str] | None,
+        max_tokens: int | None,
+        initial_samples: list[Sample],
+        fail_on_error: bool = False,
     ) -> tuple[list[list[Message]], list[Union["Error", None]]]:
         initial_messages = [s.messages for s in initial_samples]
         samples = [(s, False) for s in initial_samples]  # (sample, is_done)
@@ -118,6 +123,7 @@ class AidanBenchOriginal(BaseTask[str]):
                 [samples[i][0] for i in not_done_idx],
                 stop_sequences=stop_sequences,
                 max_tokens=max_tokens,
+                fail_on_error=fail_on_error,
             )
             new_completion_messages: list[list[Message] | None] = [c.messages for c in new_completions]
             new_errors = [c.error for c in new_completions]
@@ -164,11 +170,14 @@ class AidanBenchOriginal(BaseTask[str]):
         samples: list[Sample],
         stop_sequences: list[str] | None = None,
         max_tokens: int | None = None,
+        fail_on_error: bool = False,
     ) -> list[Completion]:
         assert all(len(s.messages) == 1 and s.messages[0].role == Role.USER for s in samples), (
             "Each sample must have exactly one USER message."
         )
-        all_message_histories, errors = self._generation_loop(llm, stop_sequences, max_tokens, samples)
+        all_message_histories, errors = self._generation_loop(
+            llm, stop_sequences, max_tokens, samples, fail_on_error=fail_on_error
+        )
         completion_list = []
         for idx, sample in enumerate(samples):

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/eval_config.py RENAMED Viewed

@@ -27,6 +27,7 @@ KEYS_UNRELATED_TO_RESULTS = {
     "save_intermediate_results",
     "save_logs",
     "delete_output_dir_after_upload",
+    "fail_on_error",
 }
@@ -59,6 +60,9 @@ class EvalConfig(BaseConfig):
     # how many times to repeat a single sample
     # can be used to reduce variance of tasks with low number of samples, e.g. AIME24
     repeats: Annotated[int, BeforeValidator(lambda v: 1 if v is None else v), Field(ge=1)] = 1
+    # When True, request/sample errors (e.g. unreachable inference endpoint, exhausted retries)
+    # propagate instead of being captured into a blank Error result.
+    fail_on_error: Annotated[bool, BeforeValidator(lambda v: False if v is None else v)] = False
     # Adding a new member? Remember to update KEYS_UNRELATED_TO_RESULTS if it doesn't impact eval results.
     @property

{eval_framework-0.3.4 → eval_framework-0.3.5}/LICENSE RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/base_config.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/context/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/context/determined.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/context/eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/context/local.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/exceptions.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/external/drop_process_results.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/external/ifeval_impl/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/external/ifeval_impl/instructions.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/external/ifeval_impl/instructions_registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/external/ifeval_impl/instructions_util.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/external/ifeval_impl/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/aleph_alpha.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/huggingface.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/mistral.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/openai.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/llm/vllm.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/logger.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/main.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/aggregators/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/aggregators/aggregators.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/accuracy_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/aidanbench.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/bleu.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/chrf.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/code_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/code_execution_pass_at_one.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/comet.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/concordance_index.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/csv_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/cwe_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/drop_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/exponential_similarity.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/f1.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/format_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/grid_difference.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/json_format.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/language_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/length_control.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/math_minerva_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/math_reasoning_completion.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/minerva_math_utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/multipl_e_assertion.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/niah_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/placeholder_checker.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/repetition.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/rouge_1.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/rouge_2.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/rouge_geometric_mean.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/rouge_l.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/struct_eval_metrics.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/ter.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/completion/text_counter.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/efficiency/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/efficiency/bytes_per_sequence_position.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/chatbot_style_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/coherence_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/comparison_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/conciseness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/contains_names_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/format_correctness_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/instruction_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/language.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/long_context_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/models.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/refusal_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/sql_quality_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_chatbot_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_coherence.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_completion_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_conciseness.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_contains_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_format_correctness.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_instruction.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_mtbench_pair.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_mtbench_single.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_refusal.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_sql.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/llm_judge_world_knowledge.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/llm/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/bits_per_byte.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/confidence_weighted_accuracy.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/dcs.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/probability_mass.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/metrics/loglikelihood/ternary.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/py.typed RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/result_processors/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/result_processors/base.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/result_processors/hf_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/result_processors/wandb_uploader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/run.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/run_direct.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/shared/types.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/suite.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/Dockerfile_codebench RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/arc.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/arc_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/arc_fi.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/balancedcopa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/belebele.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/bigcodebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/casehold.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/chembench.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/copa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/csqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/drop.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/duc.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/flores200.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/flores_plus.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/global_mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/goldenswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/gpqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/gsm8k.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/hellaswag.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/hellaswag_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/humaneval.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/ifeval.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/include.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/infinitebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/lab_bench.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/math_reasoning.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/mbpp.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/medqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/mmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/mmlu_de.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/mmlu_pro.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/mmmlu.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/multipl_e.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/naturalqs_open.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/openbookqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/opengptx_eu20.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/pawsx.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/piqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/quality.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/sciq.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/social_iqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/sphyr.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/squad.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/struct_eval.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/tablebench.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/triviaqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/truthfulqa.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/winogender.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/winogrande.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/winox.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/wmt.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/benchmarks/zero_scrolls.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/perturbation.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/registry.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/task_loader.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/task_names.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/task_style.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/tasks/utils.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/constants.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/file_ops.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/generate_task_docs.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/helpers.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/logging.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/packaging.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/eval_framework/utils/tqdm_handler.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/template_formatting/README.md RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/template_formatting/__init__.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/template_formatting/formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/template_formatting/mistral_formatter.py RENAMED Viewed

File without changes

{eval_framework-0.3.4 → eval_framework-0.3.5}/src/template_formatting/py.typed RENAMED Viewed

File without changes

eval-framework 0.3.4__tar.gz → 0.3.5__tar.gz

eval-framework 0.3.4tar.gz → 0.3.5tar.gz