PyPI - eval-framework - Versions diffs - 0.2.0__py3-none-any.whl - Mend

eval-framework 0.2.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (161) hide show

eval_framework/__init__.py +7 -0
eval_framework/base_config.py +36 -0
eval_framework/context/__init__.py +0 -0
eval_framework/context/determined.py +170 -0
eval_framework/context/eval.py +114 -0
eval_framework/context/local.py +52 -0
eval_framework/evaluation_generator.py +231 -0
eval_framework/exceptions.py +2 -0
eval_framework/external/ifeval_impl/README.md +5 -0
eval_framework/external/ifeval_impl/instructions.py +1523 -0
eval_framework/external/ifeval_impl/instructions_registry.py +161 -0
eval_framework/external/ifeval_impl/instructions_util.py +1689 -0
eval_framework/external/ifeval_impl/utils.py +135 -0
eval_framework/llm/__init__.py +0 -0
eval_framework/llm/aleph_alpha.py +323 -0
eval_framework/llm/base.py +58 -0
eval_framework/llm/huggingface.py +332 -0
eval_framework/llm/mistral.py +73 -0
eval_framework/llm/models.py +16 -0
eval_framework/llm/openai.py +205 -0
eval_framework/llm/vllm.py +438 -0
eval_framework/logger.py +3 -0
eval_framework/main.py +187 -0
eval_framework/metrics/__init__.py +0 -0
eval_framework/metrics/base.py +40 -0
eval_framework/metrics/completion/__init__.py +1 -0
eval_framework/metrics/completion/accuracy_completion.py +16 -0
eval_framework/metrics/completion/bleu.py +76 -0
eval_framework/metrics/completion/chrf.py +62 -0
eval_framework/metrics/completion/code_assertion.py +44 -0
eval_framework/metrics/completion/code_execution_pass_at_one.py +126 -0
eval_framework/metrics/completion/comet.py +56 -0
eval_framework/metrics/completion/concordance_index.py +38 -0
eval_framework/metrics/completion/csv_format.py +102 -0
eval_framework/metrics/completion/cwe_accuracy.py +49 -0
eval_framework/metrics/completion/exponential_similarity.py +65 -0
eval_framework/metrics/completion/f1.py +42 -0
eval_framework/metrics/completion/format_checker.py +56 -0
eval_framework/metrics/completion/grid_difference.py +77 -0
eval_framework/metrics/completion/ifeval.py +73 -0
eval_framework/metrics/completion/json_format.py +171 -0
eval_framework/metrics/completion/language_checker.py +74 -0
eval_framework/metrics/completion/length_control.py +83 -0
eval_framework/metrics/completion/math_reasoning_completion.py +303 -0
eval_framework/metrics/completion/niah_accuracy.py +163 -0
eval_framework/metrics/completion/placeholder_checker.py +27 -0
eval_framework/metrics/completion/repetition.py +88 -0
eval_framework/metrics/completion/rouge_1.py +35 -0
eval_framework/metrics/completion/rouge_2.py +45 -0
eval_framework/metrics/completion/rouge_geometric_mean.py +36 -0
eval_framework/metrics/completion/rouge_l.py +52 -0
eval_framework/metrics/completion/struct_eval_metrics.py +248 -0
eval_framework/metrics/completion/ter.py +67 -0
eval_framework/metrics/completion/text_counter.py +182 -0
eval_framework/metrics/efficiency/__init__.py +0 -0
eval_framework/metrics/efficiency/bytes_per_sequence_position.py +48 -0
eval_framework/metrics/llm/__init__.py +0 -0
eval_framework/metrics/llm/base.py +8 -0
eval_framework/metrics/llm/graders/chatbot_style_grader.py +92 -0
eval_framework/metrics/llm/graders/comparison_grader.py +146 -0
eval_framework/metrics/llm/graders/conciseness_grader.py +93 -0
eval_framework/metrics/llm/graders/contains_names_grader.py +71 -0
eval_framework/metrics/llm/graders/format_correctness_grader.py +109 -0
eval_framework/metrics/llm/graders/instruction_grader.py +177 -0
eval_framework/metrics/llm/graders/language.py +56 -0
eval_framework/metrics/llm/graders/long_context_grader.py +72 -0
eval_framework/metrics/llm/graders/models.py +74 -0
eval_framework/metrics/llm/graders/refusal_grader.py +57 -0
eval_framework/metrics/llm/graders/sql_quality_grader.py +145 -0
eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py +103 -0
eval_framework/metrics/llm/llm_judge_chatbot_style.py +36 -0
eval_framework/metrics/llm/llm_judge_completion_accuracy.py +39 -0
eval_framework/metrics/llm/llm_judge_conciseness.py +37 -0
eval_framework/metrics/llm/llm_judge_contains_names.py +36 -0
eval_framework/metrics/llm/llm_judge_format_correctness.py +43 -0
eval_framework/metrics/llm/llm_judge_instruction.py +58 -0
eval_framework/metrics/llm/llm_judge_mtbench_pair.py +205 -0
eval_framework/metrics/llm/llm_judge_mtbench_single.py +188 -0
eval_framework/metrics/llm/llm_judge_refusal.py +35 -0
eval_framework/metrics/llm/llm_judge_sql.py +394 -0
eval_framework/metrics/llm/llm_judge_world_knowledge.py +37 -0
eval_framework/metrics/loglikelihood/__init__.py +0 -0
eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py +51 -0
eval_framework/metrics/loglikelihood/probability_mass.py +56 -0
eval_framework/py.typed +0 -0
eval_framework/response_generator.py +416 -0
eval_framework/result_processors/__init__.py +0 -0
eval_framework/result_processors/base.py +74 -0
eval_framework/result_processors/hf_processor.py +87 -0
eval_framework/result_processors/result_processor.py +129 -0
eval_framework/run.py +314 -0
eval_framework/run_direct.py +42 -0
eval_framework/shared/types.py +227 -0
eval_framework/tasks/__init__.py +6 -0
eval_framework/tasks/base.py +314 -0
eval_framework/tasks/benchmarks/__init__.py +0 -0
eval_framework/tasks/benchmarks/arc.py +46 -0
eval_framework/tasks/benchmarks/arc_de.py +46 -0
eval_framework/tasks/benchmarks/arc_fi.py +46 -0
eval_framework/tasks/benchmarks/belebele.py +60 -0
eval_framework/tasks/benchmarks/bigcodebench.py +155 -0
eval_framework/tasks/benchmarks/casehold.py +47 -0
eval_framework/tasks/benchmarks/chembench.py +85 -0
eval_framework/tasks/benchmarks/copa.py +39 -0
eval_framework/tasks/benchmarks/duc.py +91 -0
eval_framework/tasks/benchmarks/flores200.py +62 -0
eval_framework/tasks/benchmarks/flores_plus.py +84 -0
eval_framework/tasks/benchmarks/gpqa.py +177 -0
eval_framework/tasks/benchmarks/gsm8k.py +148 -0
eval_framework/tasks/benchmarks/hellaswag.py +44 -0
eval_framework/tasks/benchmarks/hellaswag_de.py +52 -0
eval_framework/tasks/benchmarks/humaneval.py +97 -0
eval_framework/tasks/benchmarks/ifeval.py +78 -0
eval_framework/tasks/benchmarks/include.py +119 -0
eval_framework/tasks/benchmarks/infinitebench.py +302 -0
eval_framework/tasks/benchmarks/math_reasoning.py +569 -0
eval_framework/tasks/benchmarks/mbpp.py +192 -0
eval_framework/tasks/benchmarks/mmlu.py +190 -0
eval_framework/tasks/benchmarks/mmlu_de.py +109 -0
eval_framework/tasks/benchmarks/mmlu_pro.py +139 -0
eval_framework/tasks/benchmarks/mmmlu.py +529 -0
eval_framework/tasks/benchmarks/openbookqa.py +37 -0
eval_framework/tasks/benchmarks/opengptx_eu20.py +363 -0
eval_framework/tasks/benchmarks/pawsx.py +65 -0
eval_framework/tasks/benchmarks/piqa.py +39 -0
eval_framework/tasks/benchmarks/quality.py +56 -0
eval_framework/tasks/benchmarks/sciq.py +44 -0
eval_framework/tasks/benchmarks/sphyr.py +75 -0
eval_framework/tasks/benchmarks/squad.py +89 -0
eval_framework/tasks/benchmarks/struct_eval.py +110 -0
eval_framework/tasks/benchmarks/tablebench.py +117 -0
eval_framework/tasks/benchmarks/triviaqa.py +42 -0
eval_framework/tasks/benchmarks/truthfulqa.py +95 -0
eval_framework/tasks/benchmarks/winogender.py +39 -0
eval_framework/tasks/benchmarks/winogrande.py +44 -0
eval_framework/tasks/benchmarks/winox.py +57 -0
eval_framework/tasks/benchmarks/wmt.py +160 -0
eval_framework/tasks/benchmarks/zero_scrolls.py +197 -0
eval_framework/tasks/eval_config.py +112 -0
eval_framework/tasks/perturbation.py +83 -0
eval_framework/tasks/registry.py +186 -0
eval_framework/tasks/task_loader.py +80 -0
eval_framework/tasks/task_names.py +138 -0
eval_framework/tasks/utils.py +578 -0
eval_framework/utils/constants.py +9 -0
eval_framework/utils/generate_task_docs.py +229 -0
eval_framework/utils/helpers.py +3 -0
eval_framework/utils/logging.py +50 -0
eval_framework/utils/packaging.py +52 -0
eval_framework-0.2.0.dist-info/METADATA +514 -0
eval_framework-0.2.0.dist-info/RECORD +161 -0
eval_framework-0.2.0.dist-info/WHEEL +4 -0
eval_framework-0.2.0.dist-info/entry_points.txt +3 -0
template_formatting/README.md +83 -0
template_formatting/__init__.py +0 -0
template_formatting/formatter.py +536 -0
template_formatting/mistral_formatter.py +159 -0
template_formatting/py.typed +0 -0
template_formatting/tests/test_formatter_eval.py +408 -0
template_formatting/tests/test_formatter_scaling.py +253 -0
template_formatting/tests/test_mistral_formatter.py +136 -0

eval_framework/external/ifeval_impl/utils.py ADDED Viewed

@@ -0,0 +1,135 @@
+# mypy: ignore-errors
+import dataclasses
+from eval_framework.external.ifeval_impl import instructions_registry
+@dataclasses.dataclass
+class InputExample:
+    key: int
+    instruction_id_list: list[str]
+    prompt: str
+    kwargs: list[dict[str, str | int | None]]
+@dataclasses.dataclass
+class OutputExample:
+    instruction_id_list: list[str]
+    prompt: str
+    response: str
+    follow_all_instructions: bool
+    follow_instruction_list: list[bool]
+def test_instruction_following_strict(
+    inp,
+    response,
+):
+    """Tests response to see if instructions are followed."""
+    instruction_list = inp.instruction_id_list
+    is_following_list = []
+    for index, instruction_id in enumerate(instruction_list):
+        instruction_cls = instructions_registry.INSTRUCTION_DICT[instruction_id]
+        instruction = instruction_cls(instruction_id)
+        # Remove None values from kwargs to avoid unexpected keyword argument errors in build_description method.
+        kwargs = {k: v for k, v in inp.kwargs[index].items() if v}
+        instruction.build_description(**kwargs)
+        args = instruction.get_instruction_args()
+        if args and "prompt" in args:
+            instruction.build_description(prompt=inp.prompt)
+        if response.strip() and instruction.check_following(response):
+            is_following_list.append(True)
+        else:
+            is_following_list.append(False)
+    return OutputExample(
+        instruction_id_list=inp.instruction_id_list,
+        prompt=inp.prompt,
+        response=response,
+        follow_all_instructions=all(is_following_list),
+        follow_instruction_list=is_following_list,
+    )
+def test_instruction_following_loose(
+    inp,
+    response,
+):
+    """Tests response for an upper bound for following instructions."""
+    r = response.split("\n")
+    response_remove_first = "\n".join(r[1:]).strip()
+    response_remove_last = "\n".join(r[:-1]).strip()
+    response_remove_both = "\n".join(r[1:-1]).strip()
+    revised_response = response.replace("*", "")
+    revised_response_remove_first = response_remove_first.replace("*", "")
+    revised_response_remove_last = response_remove_last.replace("*", "")
+    revised_response_remove_both = response_remove_both.replace("*", "")
+    all_responses = [
+        response,
+        revised_response,
+        response_remove_first,
+        response_remove_last,
+        response_remove_both,
+        revised_response_remove_first,
+        revised_response_remove_last,
+        revised_response_remove_both,
+    ]
+    instruction_list = inp.instruction_id_list
+    is_following_list = []
+    for index, instruction_id in enumerate(instruction_list):
+        instruction_cls = instructions_registry.INSTRUCTION_DICT[instruction_id]
+        instruction = instruction_cls(instruction_id)
+        # Remove None values from kwargs to avoid unexpected keyword argument errors in build_description method.
+        kwargs = {k: v for k, v in inp.kwargs[index].items() if v}
+        instruction.build_description(**kwargs)
+        args = instruction.get_instruction_args()
+        if args and "prompt" in args:
+            instruction.build_description(prompt=inp.prompt)
+        is_following = False
+        for r in all_responses:
+            if r.strip() and instruction.check_following(r):
+                is_following = True
+                break
+        is_following_list.append(is_following)
+    return OutputExample(
+        instruction_id_list=inp.instruction_id_list,
+        prompt=inp.prompt,
+        response=response,
+        follow_all_instructions=all(is_following_list),
+        follow_instruction_list=is_following_list,
+    )
+def process_results(input, results):
+    response = results[0]
+    input_example = InputExample(
+        key=input.key,
+        instruction_id_list=input.instruction_id_list,
+        prompt=input.prompt,
+        kwargs=input.additional_kwargs,
+    )
+    out_strict = test_instruction_following_strict(input_example, response)
+    out_loose = test_instruction_following_loose(input_example, response)
+    return {
+        "prompt_level_strict_acc": out_strict.follow_all_instructions,
+        "inst_level_strict_acc": out_strict.follow_instruction_list,
+        "prompt_level_loose_acc": out_loose.follow_all_instructions,
+        "inst_level_loose_acc": out_loose.follow_instruction_list,
+    }
+def agg_inst_level_acc(items):
+    flat_items = [item for sublist in items for item in sublist]
+    inst_level_acc = sum(flat_items) / len(flat_items)
+    return inst_level_acc

eval_framework/llm/__init__.py ADDED Viewed

File without changes

eval_framework/llm/aleph_alpha.py ADDED Viewed

@@ -0,0 +1,323 @@
+import asyncio
+import json
+import logging
+import os
+import random
+import re
+import time
+import traceback
+from collections.abc import Callable, Sequence
+import aiohttp
+from aleph_alpha_client import (
+    AsyncClient,
+    BusyError,
+    Client,
+    CompletionRequest,
+    CompletionResponse,
+    EvaluationRequest,
+    EvaluationResponse,
+    Prompt,
+)
+from aleph_alpha_client.prompt import Text
+from dotenv import load_dotenv
+from eval_framework.llm.base import BaseLLM
+from eval_framework.shared.types import Error, PromptTooLongException, RawCompletion, RawLoglikelihood
+from eval_framework.tasks.base import Sample
+from eval_framework.tasks.utils import raise_errors
+from template_formatting.formatter import BaseFormatter, Llama3Formatter, Message
+load_dotenv()
+logger = logging.getLogger(__name__)
+def safe_json_loads(s: str) -> dict:
+    try:
+        return json.loads(s)
+    except (json.JSONDecodeError, TypeError):
+        return {}
+class AlephAlphaAPIModel(BaseLLM):
+    LLM_NAME: str
+    DEFAULT_FORMATTER: Callable[[], BaseFormatter] | None = None
+    def __init__(
+        self,
+        formatter: BaseFormatter | None = None,
+        checkpoint_name: str | None = None,
+        # Please see README.md for tips if adapting the following parameters.
+        max_retries: int = 100,
+        max_async_concurrent_requests: int = 32,
+        request_timeout_seconds: int = 30 * 60 + 5,
+        queue_full_timeout_seconds: int = 30 * 60 + 5,
+    ) -> None:
+        self._formatter: BaseFormatter
+        if formatter is None:
+            if self.DEFAULT_FORMATTER is None:
+                raise ValueError("Either formatter or default formatter must be specified")
+            self._formatter = self.DEFAULT_FORMATTER()
+        else:
+            self._formatter = formatter
+        self._llm_name = checkpoint_name or self.LLM_NAME
+        self.max_async_concurrent_requests = max_async_concurrent_requests
+        self.max_retries = max_retries
+        self.request_timeout_seconds = request_timeout_seconds
+        self.queue_full_timeout_seconds = queue_full_timeout_seconds
+        self._validate_model_availability()
+    def _validate_model_availability(self) -> None:
+        """
+        Validate that the model name is available by making a test request.
+        """
+        try:
+            # 'Client' object does not support the context manager protocol
+            client = Client(
+                host=os.getenv("AA_INFERENCE_ENDPOINT", "dummy_endpoint"),
+                token=os.getenv("AA_TOKEN", "dummy"),
+            )
+            request = CompletionRequest(
+                prompt=Prompt.from_text(""),
+                maximum_tokens=1,
+            )
+            client.complete(request, model=self._llm_name)
+            logger.info(f"Model '{self._llm_name}' available and loaded.")
+        except Exception as e:
+            raise RuntimeError(f"Model '{self._llm_name}' is not available: {e}")
+    async def _request_with_backoff(
+        self, client: AsyncClient, request: CompletionRequest | EvaluationRequest, id: int
+    ) -> CompletionResponse | EvaluationResponse:
+        """
+        Query Aleph-Alpha API with complete. Retry with back-off until it responds.
+        """
+        num_attempts = 0
+        start_time: float | None = None
+        while True:
+            try:
+                if isinstance(request, CompletionRequest):
+                    return await client.complete(request, model=self._llm_name)
+                elif isinstance(request, EvaluationRequest):
+                    return await client.evaluate(request, model=self._llm_name)
+                else:
+                    raise ValueError(f"Unsupported request type: {type(request)}")
+            except (TimeoutError, BusyError, RuntimeError, aiohttp.ClientError) as e:
+                status_code: str = safe_json_loads(e.args[1]).get("code", "") if len(e.args) >= 2 else ""
+                str_e = str(e)
+                if status_code == "QUEUE_FULL":
+                    # Worker not available or missed a heartbeat (inference longer than scheduler's
+                    # API_MODEL_AVAILABLE_TIMEOUT_DURATION_MILLIS) or the scheduler is overloaded.
+                    if start_time is None:
+                        start_time = time.time()
+                    elapsed = time.time() - start_time
+                    if elapsed <= self.queue_full_timeout_seconds:
+                        logger.info(
+                            f"Request {id}: {status_code or str_e[:256]} - retrying: attempt"
+                            f" {num_attempts}/{self.max_retries}, elapsed {elapsed:.1f} sec"
+                        )
+                        # don't count as retry (request returns immediately, so just wait a bit not to DoS the server)
+                        await asyncio.sleep(random.randint(5, 30))
+                        continue
+                elif (
+                    status_code == "TIMEOUT_TASK"
+                    or isinstance(e, TimeoutError)
+                    or "502 Bad Gateway" in str_e
+                    or "504 Gateway Time-out" in str_e
+                    or isinstance(e, aiohttp.ClientError)
+                ):
+                    # client timeout, either because task too long in a queue or inference too long
+                    # (scheduler's API_CLIENT_TIMEOUT_DURATION_MILLIS). Retrying for the "inference too long"
+                    # case makes no sense but we unfortunately don't know which case has happened.
+                    num_attempts += 1
+                    start_time = None
+                    if num_attempts < self.max_retries:
+                        logger.info(f"Request {id}: TIMEOUT_TASK - retrying: attempt {num_attempts}/{self.max_retries}")
+                        await asyncio.sleep(random.randint(5, 30))
+                        continue
+                raise e
+    async def _process_request_with_client(
+        self,
+        client: AsyncClient,
+        semaphore: asyncio.Semaphore,
+        request: CompletionRequest | EvaluationRequest,
+        id: int,
+    ) -> RawCompletion | tuple[EvaluationRequest, EvaluationResponse | Error]:
+        async with semaphore:
+            try:
+                response = await self._request_with_backoff(client=client, request=request, id=id)
+                logger.info(f"Request {id}: Success")
+            except Exception as e:
+                if raise_errors():
+                    raise e
+                logger.info(f"Request {id}: Failure: {str(e)[:256]}")
+                if len(e.args) >= 2:
+                    status_code: str = safe_json_loads(e.args[1]).get("code", "")
+                    if status_code == "PROMPT_TOO_LONG":
+                        error = Error(
+                            error_class=PromptTooLongException.__name__,
+                            message="Prompt exceeded context size.",
+                            traceback=traceback.format_exc(),
+                        )
+                    else:
+                        error = Error(error_class=status_code, message=str(e), traceback=traceback.format_exc())
+                else:
+                    error = Error(error_class=e.__class__.__name__, message=str(e), traceback=traceback.format_exc())
+                if isinstance(request, CompletionRequest):
+                    assert isinstance(request.prompt.items[0], Text)
+                    return RawCompletion(
+                        prompt=request.prompt.items[0].text,
+                        prompt_sequence_positions=None,
+                        completion="",
+                        completion_sequence_positions=0,
+                        raw_completion_error=error,
+                    )
+                else:
+                    return (request, error)
+        # Completion responses can directly be converted to RawCompletion
+        if isinstance(request, CompletionRequest):
+            assert isinstance(request.prompt.items[0], Text) and isinstance(response, CompletionResponse)
+            assert len(response.completions) == 1
+            prompt = request.prompt.items[0].text
+            completion = response.completions[0].completion or ""
+            prompt_sequence_positions: int | None = None
+            completion_sequence_positions: int | None = None
+            # Support workaround in api-worker-transformer's scaling generator to return the correct number of tokens.
+            # These are part of the completion string; those in CompletionResponse are invalid in this case.
+            m = re.match(r"\uf8c9(\d+),(\d+)\uf8c9(.*)", completion, re.DOTALL)
+            if m is not None:
+                num_input_tokens, num_completion_tokens, completion = m.groups()
+                prompt_sequence_positions = int(num_input_tokens)
+                completion_sequence_positions = int(num_completion_tokens)
+            else:
+                prompt_sequence_positions = response.num_tokens_prompt_total if response else None
+                completion_sequence_positions = response.num_tokens_generated if response else None
+            return RawCompletion(
+                prompt=prompt,
+                prompt_sequence_positions=prompt_sequence_positions,
+                completion=completion,
+                completion_sequence_positions=completion_sequence_positions,
+            )
+        # Evaluation responses must be assembled from individual choice requests later
+        else:
+            assert isinstance(response, EvaluationResponse)
+            return (request, response)
+    async def _process_requests(
+        self, requests: list[CompletionRequest] | list[EvaluationRequest]
+    ) -> list[RawCompletion | tuple[EvaluationRequest, EvaluationResponse | Error]]:
+        semaphore = asyncio.Semaphore(self.max_async_concurrent_requests)
+        async with AsyncClient(
+            host=os.getenv("AA_INFERENCE_ENDPOINT", "dummy_endpoint"),
+            nice=True,
+            request_timeout_seconds=self.request_timeout_seconds,
+            token=os.getenv("AA_TOKEN", "dummy"),
+            total_retries=0,  # we have a custom retry policy in _request_with_backoff()
+        ) as client:
+            tasks = (
+                self._process_request_with_client(client, semaphore, request, i)
+                for i, request in enumerate[CompletionRequest | EvaluationRequest](requests)
+            )
+            responses = await asyncio.gather(*tasks)  # guarantees order of responses
+        return responses
+    def generate_from_messages(
+        self,
+        messages: list[Sequence[Message]],
+        stop_sequences: list[str] | None = None,
+        max_tokens: int | None = None,
+        temperature: float | None = None,
+    ) -> list[RawCompletion]:
+        if temperature is None:
+            effective_temperature = 0.0  # Current default, TODO: refactor to use model's default
+            logger.info(
+                f"Using default temperature value: {effective_temperature} as no custom temperature value was provided"
+            )
+        else:
+            effective_temperature = temperature
+        requests = []
+        for single_messages in messages:
+            requests.append(
+                CompletionRequest(
+                    prompt=Prompt.from_text(self._formatter.format(single_messages, output_mode="string")),
+                    maximum_tokens=max_tokens,
+                    stop_sequences=stop_sequences,
+                    temperature=effective_temperature,
+                )
+            )
+        responses = asyncio.run(self._process_requests(requests))
+        return responses  # type: ignore
+    def logprobs(self, samples: list[Sample]) -> list[RawLoglikelihood]:
+        samples_prompt: list[str] = []
+        evaluation_requests: list[EvaluationRequest] = []
+        results: list[RawLoglikelihood] = []
+        # evaluate all choices independently in flattened list
+        for sample in samples:
+            prompt: str = self._formatter.format(sample.messages, output_mode="string") if sample.messages else ""
+            samples_prompt.append(prompt)
+            for choice in sample.possible_completions or []:
+                evaluation_requests.append(
+                    EvaluationRequest(prompt=Prompt.from_text(prompt), completion_expected=choice)
+                )
+        evaluation_responses = asyncio.run(self._process_requests(evaluation_requests))
+        evaluation_responses_iter = iter(evaluation_responses)
+        # assemble choices to RawLoglikelihood from a flattened list for all possible choice replies
+        for sample, prompt in zip(samples, samples_prompt, strict=True):
+            choices_log_probs: dict[str, float] = {}
+            choices_sequence_positions: dict[str, int] = {}
+            prompt_sequence_positions: int | None = 0
+            error = None
+            for choice in sample.possible_completions or []:
+                request, response = next(evaluation_responses_iter)
+                if error is not None:
+                    continue
+                if isinstance(response, Error):  # failure for one choice leads to failure of the whole sample
+                    error = response
+                    prompt_sequence_positions = None
+                    choices_log_probs = {}
+                    choices_sequence_positions = {}
+                else:
+                    assert isinstance(request, EvaluationRequest) and isinstance(response, EvaluationResponse)
+                    assert isinstance(request.prompt.items[0], Text)
+                    assert prompt == request.prompt.items[0].text, f"{prompt} != {request.prompt.items[0].text}"
+                    assert choice == request.completion_expected, f"{choice} != {request.completion_expected}"
+                    prompt_sequence_positions = response.num_tokens_prompt_total - response.result["token_count"]
+                    choices_log_probs[choice] = response.result["log_probability"]
+                    choices_sequence_positions[choice] = response.result["token_count"]
+            results.append(
+                RawLoglikelihood(
+                    prompt=prompt,
+                    prompt_sequence_positions=prompt_sequence_positions,
+                    loglikelihoods=choices_log_probs,
+                    loglikelihoods_sequence_positions=choices_sequence_positions,
+                    raw_loglikelihood_error=error,
+                )
+            )
+        return results
+class Llama31_8B_Instruct_API(AlephAlphaAPIModel):
+    LLM_NAME = "llama-3.1-8b-instruct"
+    DEFAULT_FORMATTER = Llama3Formatter

eval_framework/llm/base.py ADDED Viewed

@@ -0,0 +1,58 @@
+from abc import ABC, abstractmethod
+from collections.abc import Sequence
+from eval_framework.shared.types import RawCompletion, RawLoglikelihood
+from eval_framework.tasks.base import Sample
+from template_formatting.formatter import Message
+class BaseLLM(ABC):
+    @property
+    def name(self) -> str:
+        """
+        This property is used to name the results folder and identify the eval results.
+        Overwrite this property in the subclass with e.g. the checkpoint name/huggingface model name."""
+        return self.__class__.__name__
+    @abstractmethod
+    def generate_from_messages(
+        self,
+        messages: list[Sequence[Message]],
+        stop_sequences: list[str] | None = None,
+        max_tokens: int | None = None,
+        temperature: float | None = None,
+    ) -> list[RawCompletion]:
+        """
+        stop_sequences and max_tokens are injected by the task if exist. They should be overwritten or
+        extended with the properties of the model. This includes but is not limited to the stop tokens
+        by the evaluated checkpoint (e.g. <|eot_id|> for an instruction finetuned Llama3.1, <|endoftext|>
+        for a pretrained Llama3.1).
+        This function is expected to raise errors which are caught and reported when running the eval.
+        Please also make sure to raise an error in case of sequence length issues. We expect to always
+        raise an error if something impedes the expected completion of a task.
+        Important! The completion is expected to be detokenized and to NOT contain special tokens.
+        Returns: List[RawCompletion]
+        """
+        raise NotImplementedError
+    @abstractmethod
+    def logprobs(self, samples: list[Sample]) -> list[RawLoglikelihood]:
+        """
+        This function is expected to raise errors which are caught and reported when running the eval.
+        Please also make sure to raise an error in case of sequence length issues. We expect to always
+        raise an error if something prevents the expected completion of a task.
+        """
+        raise NotImplementedError
+    def generate(
+        self,
+        samples: list[Sample],
+        stop_sequences: list[str] | None = None,
+        max_tokens: int | None = None,
+        temperature: float | None = None,
+    ) -> list[RawCompletion]:
+        messages: list[Sequence[Message]] = [sample.messages for sample in samples]
+        return self.generate_from_messages(messages, stop_sequences, max_tokens, temperature)