PyPI - eval-framework - Versions diffs - 0.2.0__py3-none-any.whl - Mend

eval-framework 0.2.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (161) hide show

eval_framework/__init__.py +7 -0
eval_framework/base_config.py +36 -0
eval_framework/context/__init__.py +0 -0
eval_framework/context/determined.py +170 -0
eval_framework/context/eval.py +114 -0
eval_framework/context/local.py +52 -0
eval_framework/evaluation_generator.py +231 -0
eval_framework/exceptions.py +2 -0
eval_framework/external/ifeval_impl/README.md +5 -0
eval_framework/external/ifeval_impl/instructions.py +1523 -0
eval_framework/external/ifeval_impl/instructions_registry.py +161 -0
eval_framework/external/ifeval_impl/instructions_util.py +1689 -0
eval_framework/external/ifeval_impl/utils.py +135 -0
eval_framework/llm/__init__.py +0 -0
eval_framework/llm/aleph_alpha.py +323 -0
eval_framework/llm/base.py +58 -0
eval_framework/llm/huggingface.py +332 -0
eval_framework/llm/mistral.py +73 -0
eval_framework/llm/models.py +16 -0
eval_framework/llm/openai.py +205 -0
eval_framework/llm/vllm.py +438 -0
eval_framework/logger.py +3 -0
eval_framework/main.py +187 -0
eval_framework/metrics/__init__.py +0 -0
eval_framework/metrics/base.py +40 -0
eval_framework/metrics/completion/__init__.py +1 -0
eval_framework/metrics/completion/accuracy_completion.py +16 -0
eval_framework/metrics/completion/bleu.py +76 -0
eval_framework/metrics/completion/chrf.py +62 -0
eval_framework/metrics/completion/code_assertion.py +44 -0
eval_framework/metrics/completion/code_execution_pass_at_one.py +126 -0
eval_framework/metrics/completion/comet.py +56 -0
eval_framework/metrics/completion/concordance_index.py +38 -0
eval_framework/metrics/completion/csv_format.py +102 -0
eval_framework/metrics/completion/cwe_accuracy.py +49 -0
eval_framework/metrics/completion/exponential_similarity.py +65 -0
eval_framework/metrics/completion/f1.py +42 -0
eval_framework/metrics/completion/format_checker.py +56 -0
eval_framework/metrics/completion/grid_difference.py +77 -0
eval_framework/metrics/completion/ifeval.py +73 -0
eval_framework/metrics/completion/json_format.py +171 -0
eval_framework/metrics/completion/language_checker.py +74 -0
eval_framework/metrics/completion/length_control.py +83 -0
eval_framework/metrics/completion/math_reasoning_completion.py +303 -0
eval_framework/metrics/completion/niah_accuracy.py +163 -0
eval_framework/metrics/completion/placeholder_checker.py +27 -0
eval_framework/metrics/completion/repetition.py +88 -0
eval_framework/metrics/completion/rouge_1.py +35 -0
eval_framework/metrics/completion/rouge_2.py +45 -0
eval_framework/metrics/completion/rouge_geometric_mean.py +36 -0
eval_framework/metrics/completion/rouge_l.py +52 -0
eval_framework/metrics/completion/struct_eval_metrics.py +248 -0
eval_framework/metrics/completion/ter.py +67 -0
eval_framework/metrics/completion/text_counter.py +182 -0
eval_framework/metrics/efficiency/__init__.py +0 -0
eval_framework/metrics/efficiency/bytes_per_sequence_position.py +48 -0
eval_framework/metrics/llm/__init__.py +0 -0
eval_framework/metrics/llm/base.py +8 -0
eval_framework/metrics/llm/graders/chatbot_style_grader.py +92 -0
eval_framework/metrics/llm/graders/comparison_grader.py +146 -0
eval_framework/metrics/llm/graders/conciseness_grader.py +93 -0
eval_framework/metrics/llm/graders/contains_names_grader.py +71 -0
eval_framework/metrics/llm/graders/format_correctness_grader.py +109 -0
eval_framework/metrics/llm/graders/instruction_grader.py +177 -0
eval_framework/metrics/llm/graders/language.py +56 -0
eval_framework/metrics/llm/graders/long_context_grader.py +72 -0
eval_framework/metrics/llm/graders/models.py +74 -0
eval_framework/metrics/llm/graders/refusal_grader.py +57 -0
eval_framework/metrics/llm/graders/sql_quality_grader.py +145 -0
eval_framework/metrics/llm/graders/summary_world_knowledge_grader.py +103 -0
eval_framework/metrics/llm/llm_judge_chatbot_style.py +36 -0
eval_framework/metrics/llm/llm_judge_completion_accuracy.py +39 -0
eval_framework/metrics/llm/llm_judge_conciseness.py +37 -0
eval_framework/metrics/llm/llm_judge_contains_names.py +36 -0
eval_framework/metrics/llm/llm_judge_format_correctness.py +43 -0
eval_framework/metrics/llm/llm_judge_instruction.py +58 -0
eval_framework/metrics/llm/llm_judge_mtbench_pair.py +205 -0
eval_framework/metrics/llm/llm_judge_mtbench_single.py +188 -0
eval_framework/metrics/llm/llm_judge_refusal.py +35 -0
eval_framework/metrics/llm/llm_judge_sql.py +394 -0
eval_framework/metrics/llm/llm_judge_world_knowledge.py +37 -0
eval_framework/metrics/loglikelihood/__init__.py +0 -0
eval_framework/metrics/loglikelihood/accuracy_loglikelihood.py +51 -0
eval_framework/metrics/loglikelihood/probability_mass.py +56 -0
eval_framework/py.typed +0 -0
eval_framework/response_generator.py +416 -0
eval_framework/result_processors/__init__.py +0 -0
eval_framework/result_processors/base.py +74 -0
eval_framework/result_processors/hf_processor.py +87 -0
eval_framework/result_processors/result_processor.py +129 -0
eval_framework/run.py +314 -0
eval_framework/run_direct.py +42 -0
eval_framework/shared/types.py +227 -0
eval_framework/tasks/__init__.py +6 -0
eval_framework/tasks/base.py +314 -0
eval_framework/tasks/benchmarks/__init__.py +0 -0
eval_framework/tasks/benchmarks/arc.py +46 -0
eval_framework/tasks/benchmarks/arc_de.py +46 -0
eval_framework/tasks/benchmarks/arc_fi.py +46 -0
eval_framework/tasks/benchmarks/belebele.py +60 -0
eval_framework/tasks/benchmarks/bigcodebench.py +155 -0
eval_framework/tasks/benchmarks/casehold.py +47 -0
eval_framework/tasks/benchmarks/chembench.py +85 -0
eval_framework/tasks/benchmarks/copa.py +39 -0
eval_framework/tasks/benchmarks/duc.py +91 -0
eval_framework/tasks/benchmarks/flores200.py +62 -0
eval_framework/tasks/benchmarks/flores_plus.py +84 -0
eval_framework/tasks/benchmarks/gpqa.py +177 -0
eval_framework/tasks/benchmarks/gsm8k.py +148 -0
eval_framework/tasks/benchmarks/hellaswag.py +44 -0
eval_framework/tasks/benchmarks/hellaswag_de.py +52 -0
eval_framework/tasks/benchmarks/humaneval.py +97 -0
eval_framework/tasks/benchmarks/ifeval.py +78 -0
eval_framework/tasks/benchmarks/include.py +119 -0
eval_framework/tasks/benchmarks/infinitebench.py +302 -0
eval_framework/tasks/benchmarks/math_reasoning.py +569 -0
eval_framework/tasks/benchmarks/mbpp.py +192 -0
eval_framework/tasks/benchmarks/mmlu.py +190 -0
eval_framework/tasks/benchmarks/mmlu_de.py +109 -0
eval_framework/tasks/benchmarks/mmlu_pro.py +139 -0
eval_framework/tasks/benchmarks/mmmlu.py +529 -0
eval_framework/tasks/benchmarks/openbookqa.py +37 -0
eval_framework/tasks/benchmarks/opengptx_eu20.py +363 -0
eval_framework/tasks/benchmarks/pawsx.py +65 -0
eval_framework/tasks/benchmarks/piqa.py +39 -0
eval_framework/tasks/benchmarks/quality.py +56 -0
eval_framework/tasks/benchmarks/sciq.py +44 -0
eval_framework/tasks/benchmarks/sphyr.py +75 -0
eval_framework/tasks/benchmarks/squad.py +89 -0
eval_framework/tasks/benchmarks/struct_eval.py +110 -0
eval_framework/tasks/benchmarks/tablebench.py +117 -0
eval_framework/tasks/benchmarks/triviaqa.py +42 -0
eval_framework/tasks/benchmarks/truthfulqa.py +95 -0
eval_framework/tasks/benchmarks/winogender.py +39 -0
eval_framework/tasks/benchmarks/winogrande.py +44 -0
eval_framework/tasks/benchmarks/winox.py +57 -0
eval_framework/tasks/benchmarks/wmt.py +160 -0
eval_framework/tasks/benchmarks/zero_scrolls.py +197 -0
eval_framework/tasks/eval_config.py +112 -0
eval_framework/tasks/perturbation.py +83 -0
eval_framework/tasks/registry.py +186 -0
eval_framework/tasks/task_loader.py +80 -0
eval_framework/tasks/task_names.py +138 -0
eval_framework/tasks/utils.py +578 -0
eval_framework/utils/constants.py +9 -0
eval_framework/utils/generate_task_docs.py +229 -0
eval_framework/utils/helpers.py +3 -0
eval_framework/utils/logging.py +50 -0
eval_framework/utils/packaging.py +52 -0
eval_framework-0.2.0.dist-info/METADATA +514 -0
eval_framework-0.2.0.dist-info/RECORD +161 -0
eval_framework-0.2.0.dist-info/WHEEL +4 -0
eval_framework-0.2.0.dist-info/entry_points.txt +3 -0
template_formatting/README.md +83 -0
template_formatting/__init__.py +0 -0
template_formatting/formatter.py +536 -0
template_formatting/mistral_formatter.py +159 -0
template_formatting/py.typed +0 -0
template_formatting/tests/test_formatter_eval.py +408 -0
template_formatting/tests/test_formatter_scaling.py +253 -0
template_formatting/tests/test_mistral_formatter.py +136 -0

template_formatting/tests/test_formatter_eval.py ADDED Viewed

@@ -0,0 +1,408 @@
+# ruff: noqa: E501
+import importlib.util
+import pytest
+from template_formatting.formatter import (
+    BaseFormatter,
+    ConcatFormatter,
+    HFFormatter,
+    Llama3Formatter,
+    Message,
+    Property,
+    ReasoningFormatter,
+    Role,
+    get_formatter,
+)
+package_exists = importlib.util.find_spec("transformers") is not None
+# no tests requiring a GPU runner are contained here -> no additional pytest GPU markers
+@pytest.fixture()
+def concat_formatter() -> BaseFormatter:
+    return ConcatFormatter()
+@pytest.fixture()
+def llama3_formatter() -> BaseFormatter:
+    return Llama3Formatter()
+@pytest.fixture()
+def hf_formatter() -> BaseFormatter:
+    return HFFormatter("meta-llama/Meta-Llama-3-8B-Instruct")
+@pytest.fixture()
+def llama3_reasoning_formatter() -> BaseFormatter:
+    llama3_reasoning_formatter = ReasoningFormatter(Llama3Formatter)
+    llama3_reasoning_formatter.template.end_of_text = "<|end_of_text|>"
+    return llama3_reasoning_formatter
+def test_concat_formatter(concat_formatter: BaseFormatter) -> None:
+    messages = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?\n"),  # new line has to be handled on task level
+        Message(role=Role.ASSISTANT, content="Bonjour! The capital of France is Paris!"),
+        Message(role=Role.USER, content="Great, thanks!"),
+    ]
+    formatted_conversation = concat_formatter.format(messages, output_mode="string")
+    expected_output = (
+        "You are a helpful AI assistant for travel tips and recommendations\n\n"
+        "What is France's capital?\n"
+        "Bonjour! The capital of France is Paris!\n\n"
+        "Great, thanks!"
+    )
+    assert formatted_conversation == expected_output
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_with_system_and_assistant_simple(
+    llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter
+) -> None:
+    conversation = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?"),
+        Message(role=Role.ASSISTANT, content="Bonjour! The capital of France is Paris!"),
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Bonjour! The capital of France is Paris!"
+    )
+    assert formatted_conversation == expected_output
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="string")
+    assert hf_formatted_conversation == expected_output
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_with_system_and_assistant(
+    llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter
+) -> None:
+    conversation = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?"),
+        Message(role=Role.ASSISTANT, content="Bonjour! The capital of France is Paris!"),
+        Message(role=Role.USER, content="Great, thanks!"),
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Bonjour! The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "Great, thanks!<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+    )
+    assert formatted_conversation == expected_output
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="string")
+    assert hf_formatted_conversation == expected_output
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_without_system_and_assistant(
+    llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter
+) -> None:
+    conversation = [
+        Message(role=Role.USER, content="What is France's capital?"),
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+    )
+    assert formatted_conversation == expected_output
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="string")
+    assert hf_formatted_conversation == expected_output
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_without_system_multiple_rounds(
+    llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter
+) -> None:
+    conversation = [
+        Message(role=Role.USER, content="What is France's capital?"),
+        Message(role=Role.ASSISTANT, content="Bonjour! The capital of France is Paris!"),
+        Message(role=Role.USER, content="What can I do there?"),
+        Message(
+            role=Role.ASSISTANT,
+            content=(
+                "Paris offers many attractions and activities. "
+                "Some popular things to do include visiting the Eiffel Tower, "
+                "exploring the Louvre Museum, taking a river cruise along the Seine, "
+                "and strolling through charming neighborhoods like Montmartre."
+            ),
+        ),
+        Message(role=Role.USER, content="What else?"),
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Bonjour! The capital of France is Paris!<|eot_id|>"
+        "<|start_header_id|>user<|end_header_id|>\n\n"
+        "What can I do there?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Paris offers many attractions and activities. Some popular things to do "
+        "include visiting the Eiffel Tower, exploring the Louvre Museum, taking a river "
+        "cruise along the Seine, and strolling through charming neighborhoods like Montmartre.<|eot_id|>"
+        "<|start_header_id|>user<|end_header_id|>\n\n"
+        "What else?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+    )
+    assert formatted_conversation == expected_output
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="string")
+    assert hf_formatted_conversation == expected_output
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_with_prefilling(llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter) -> None:
+    conversation = [
+        Message(role=Role.USER, content="How many helicopters can a human eat in one sitting?"),
+        Message(role=Role.ASSISTANT, content="A human can"),  # aka "cue"
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
+        "How many helicopters can a human eat in one sitting?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        "A human can"
+    )
+    assert formatted_conversation == expected_output
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="string")
+    assert hf_formatted_conversation == expected_output
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_stripping_of_whitespace(llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter) -> None:
+    conversation = [
+        Message(role=Role.USER, content="  What is the capital of France?  "),
+        Message(role=Role.ASSISTANT, content="  The capital of France is  "),  #
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is the capital of France?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        "The capital of France is"
+    )
+    assert formatted_conversation == expected_output
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="string")
+    assert hf_formatted_conversation == expected_output
+@pytest.mark.parametrize(
+    "model_name, expected_formatter",
+    [
+        pytest.param("llama-3", Llama3Formatter, id="llama-3"),
+        pytest.param("llama-3-base", Llama3Formatter, id="llama-3-base"),
+        pytest.param("llama-3-large", Llama3Formatter, id="llama-3-large"),
+        pytest.param("my-llama-3-model", Llama3Formatter, id="custom-llama-3-model"),
+        pytest.param("gpt2", ConcatFormatter, id="gpt2"),
+        pytest.param("bert", ConcatFormatter, id="bert"),
+        pytest.param("roberta", ConcatFormatter, id="roberta"),
+        pytest.param("distilbert", ConcatFormatter, id="distilbert"),
+        pytest.param("custom-model", ConcatFormatter, id="custom-non-llama3-model"),
+        pytest.param("", ConcatFormatter, id="empty-model-name"),
+    ],
+)
+def test_get_formatter(model_name: str, expected_formatter: type[BaseFormatter]) -> None:
+    formatter = get_formatter(model_name)
+    assert isinstance(formatter, expected_formatter)
+# ReasoningFormatter tests
+def test_reasoning_formatter_with_system_and_user(llama3_reasoning_formatter: BaseFormatter) -> None:
+    conversation = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?"),
+    ]
+    formatted_conversation = llama3_reasoning_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "<|begin_of_thought|>"
+    )
+    assert formatted_conversation == expected_output
+def test_reasoning_formatter_with_user(llama3_reasoning_formatter: BaseFormatter) -> None:
+    conversation = [
+        Message(role=Role.USER, content="What is France's capital?"),
+    ]
+    formatted_conversation = llama3_reasoning_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "<|begin_of_thought|>"
+    )
+    assert formatted_conversation == expected_output
+def test_reasoning_formatter_with_system_user_and_thought(llama3_reasoning_formatter: BaseFormatter) -> None:
+    conversation = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?"),
+        Message(role=Role.ASSISTANT, property=Property.THOUGHT, content="Bonjour! Let me think about this..."),
+    ]
+    formatted_conversation = llama3_reasoning_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "<|begin_of_thought|>Bonjour! Let me think about this...<|end_of_thought|>"
+        "<|begin_of_solution|>"
+    )
+    assert formatted_conversation == expected_output
+def test_reasoning_formatter_with_system_user_thought_and_solution(llama3_reasoning_formatter: BaseFormatter) -> None:
+    conversation = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?"),
+        Message(role=Role.ASSISTANT, property=Property.THOUGHT, content="Bonjour! Let me think about this..."),
+        Message(role=Role.ASSISTANT, property=Property.SOLUTION, content="Merci! The capital of France is Paris!"),
+    ]
+    formatted_conversation = llama3_reasoning_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "<|begin_of_thought|>Bonjour! Let me think about this..."
+        "<|end_of_thought|><|begin_of_solution|>Merci! The capital of France is Paris!"
+        "<|begin_of_answer|>"
+    )
+    assert formatted_conversation == expected_output
+def test_reasoning_formatter_with_system_user_thought_solution_and_answer(
+    llama3_reasoning_formatter: BaseFormatter,
+) -> None:
+    conversation = [
+        Message(role=Role.SYSTEM, content="You are a helpful AI assistant for travel tips and recommendations"),
+        Message(role=Role.USER, content="What is France's capital?"),
+        Message(role=Role.ASSISTANT, property=Property.THOUGHT, content="Bonjour! Let me think about this..."),
+        Message(role=Role.ASSISTANT, property=Property.SOLUTION, content="Merci! The capital of France is Paris!"),
+        Message(role=Role.ASSISTANT, property=Property.ANSWER, content="\\boxed{Paris}"),
+    ]
+    formatted_conversation = llama3_reasoning_formatter.format(conversation, output_mode="string")
+    expected_output = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "<|begin_of_thought|>Bonjour! Let me think about this...<|end_of_thought|>"
+        "<|begin_of_solution|>Merci! The capital of France is Paris!"
+        "<|begin_of_answer|>\\boxed{Paris}<|end_of_answer|><|end_of_solution|><|eot_id|><|end_of_text|>"
+    )
+    assert formatted_conversation == expected_output
+def test_reasoning_formatter_parse_wrong_order() -> None:
+    base_formatter = Llama3Formatter
+    rf = ReasoningFormatter(base_formatter)
+    rt = rf.template
+    output_str = (
+        rt.begin_thought_id
+        + "thought"
+        + rt.begin_solution_id
+        + "solution"  # Wrong: begin_solution_id comes before end_thought_id.
+        + rt.end_thought_id
+        + rt.end_solution_id
+        + rt.begin_answer_id
+        + "answer"
+        + rt.end_answer_id
+        + rt.end_of_text
+    )
+    parsed, error = rf.parse(output_str)
+    assert error is not None
+    with pytest.raises(ValueError):
+        raise error
+def test_reasoning_formatter_parse_incomplete() -> None:
+    base_formatter = Llama3Formatter
+    rf = ReasoningFormatter(base_formatter)
+    rt = rf.template
+    output_str = rt.begin_thought_id + "only thought" + rt.end_thought_id
+    parsed, error = rf.parse(output_str)
+    assert error is None
+    assert parsed["thought"] == "only thought"
+    assert parsed.get("solution", "") == ""
+    assert parsed.get("answer", "") == ""
+def test_reasoning_formatter_parse_duplicate_tokens() -> None:
+    base_formatter = Llama3Formatter
+    rf = ReasoningFormatter(base_formatter)
+    rt = rf.template
+    output_str = (
+        rt.begin_thought_id
+        + "thought"
+        + rt.begin_thought_id
+        + "duplicate"
+        + rt.end_thought_id
+        + rt.begin_solution_id
+        + "solution"
+        + rt.end_solution_id
+        + rt.begin_answer_id
+        + "answer"
+        + rt.end_answer_id
+        + rt.end_of_text
+    )
+    parsed, error = rf.parse(output_str)
+    assert error is not None
+    with pytest.raises(ValueError):
+        raise error

template_formatting/tests/test_formatter_scaling.py ADDED Viewed

@@ -0,0 +1,253 @@
+# ruff: noqa: E501
+import importlib.util
+import pytest
+from template_formatting.formatter import (
+    BaseFormatter,
+    ConcatFormatter,
+    HFFormatter,
+    Llama3Formatter,
+    Message,
+    Property,
+    ReasoningFormatter,
+    Role,
+)
+package_exists = importlib.util.find_spec("transformers") is not None
+@pytest.fixture()
+def concat_formatter() -> BaseFormatter:
+    return ConcatFormatter()
+@pytest.fixture()
+def llama3_formatter() -> BaseFormatter:
+    return Llama3Formatter()
+@pytest.fixture()
+def hf_formatter() -> BaseFormatter:
+    return HFFormatter("meta-llama/Meta-Llama-3-8B-Instruct")
+def test_get_grouped_messages_same_property() -> None:
+    defaults = {"content": "dummy", "has_loss": False, "type": "text"}
+    messages = [
+        Message(role=Role.USER, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+    ]
+    grouped_messages = BaseFormatter._get_grouped_messages(messages)
+    assert grouped_messages == [
+        [Message(role=Role.USER, property=None, **defaults)],
+        [Message(role=Role.ASSISTANT, property=None, **defaults)],
+        [Message(role=Role.ASSISTANT, property=None, **defaults)],
+    ]
+def test_get_grouped_messages_different_property() -> None:
+    defaults = {"content": "dummy", "has_loss": False, "type": "text"}
+    messages = [
+        Message(role=Role.USER, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=Property.ANSWER, **defaults),
+    ]
+    grouped_messages = BaseFormatter._get_grouped_messages(messages)
+    assert grouped_messages == [
+        [Message(role=Role.USER, property=None, **defaults)],
+        [
+            Message(role=Role.ASSISTANT, property=None, **defaults),
+            Message(role=Role.ASSISTANT, property=Property.ANSWER, **defaults),
+        ],
+    ]
+def test_base_verify_messages() -> None:
+    defaults = {"content": "dummy", "has_loss": False, "type": "text"}
+    messages = [
+        Message(role=Role.USER, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+    ]
+    # Does not raise an assertion error.
+    BaseFormatter._verify_messages(messages)
+def test_base_verify_messages_raises_exception() -> None:
+    defaults = {"content": "dummy", "has_loss": False, "type": "text"}
+    messages = [
+        Message(role=Role.USER, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+    ]
+    with pytest.raises(AssertionError):
+        BaseFormatter._verify_messages(messages)
+def test_reasoning_verify_messages() -> None:
+    defaults = {"content": "dummy", "has_loss": False, "type": "text"}
+    messages = [
+        Message(role=Role.USER, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=Property.THOUGHT, **defaults),
+        Message(role=Role.ASSISTANT, property=Property.SOLUTION, **defaults),
+        Message(role=Role.ASSISTANT, property=Property.ANSWER, **defaults),
+    ]
+    # Does not raise an assertion error.
+    ReasoningFormatter._verify_messages(messages)
+def test_reasoning_verify_messages_raises_exception() -> None:
+    defaults = {"content": "dummy", "has_loss": False, "type": "text"}
+    messages = [
+        Message(role=Role.USER, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=None, **defaults),
+        Message(role=Role.ASSISTANT, property=Property.ANSWER, **defaults),
+    ]
+    with pytest.raises(AssertionError):
+        ReasoningFormatter._verify_messages(messages)
+## Assert that formatting is in line with HF Formatter
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_with_system_and_assistant_simple(
+    llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter
+) -> None:
+    conversation = [
+        Message(
+            role=Role.SYSTEM,
+            content="You are a helpful AI assistant for travel tips and recommendations",
+            has_loss=False,
+            type="text",
+        ),
+        Message(role=Role.USER, content="What is France's capital?", has_loss=False, type="text"),
+        Message(role=Role.ASSISTANT, content="Bonjour! The capital of France is Paris!", has_loss=True, type="text"),
+    ]
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="list")
+    expected_contents = [
+        (
+            "<|begin_of_text|>"
+            "<|start_header_id|>system<|end_header_id|>\n\n"
+            "You are a helpful AI assistant for travel tips and recommendations<|eot_id|>"
+        ),
+        (
+            "<|start_header_id|>user<|end_header_id|>\n\n"
+            "What is France's capital?<|eot_id|>"
+            "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        ),
+        "Bonjour! The capital of France is Paris!<|eot_id|>",
+    ]
+    for formatted_message, expected in zip(formatted_conversation, expected_contents):
+        assert formatted_message.content == expected
+    # stringify the list
+    formatted_conversation_str = "".join(elm.content for elm in formatted_conversation)
+    expected_output_str = (
+        "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n"
+        "You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Bonjour! The capital of France is Paris!<|eot_id|>"
+    )
+    assert formatted_conversation_str == expected_output_str
+    hf_formatted_conversation = hf_formatter.format(conversation, output_mode="list")
+    assert hf_formatted_conversation == formatted_conversation_str
+@pytest.mark.skipif(
+    not package_exists,
+    reason="`transformers` package is not installed, HFFormatter will not be available.",
+)
+def test_llama3_formatter_without_system_multiple_rounds_list(
+    llama3_formatter: BaseFormatter, hf_formatter: BaseFormatter
+) -> None:
+    conversation = [
+        Message(role=Role.USER, content="What is France's capital?", has_loss=False, type="text"),
+        Message(role=Role.ASSISTANT, content="Bonjour! The capital of France is Paris!", has_loss=True, type="text"),
+        Message(role=Role.USER, content="What can I do there?", has_loss=False, type="text"),
+        Message(
+            role=Role.ASSISTANT,
+            content=(
+                "Paris offers many attractions and activities. "
+                "Some popular things to do include visiting the Eiffel Tower, "
+                "exploring the Louvre Museum, taking a river cruise along the Seine, "
+                "and strolling through charming neighborhoods like Montmartre."
+            ),
+            has_loss=False,
+            type="text",
+        ),
+        Message(role=Role.USER, content="What else?", has_loss=False, type="text"),
+    ]
+    original_conversation = conversation.copy()
+    formatted_conversation = llama3_formatter.format(conversation, output_mode="list")
+    expected_contents = [
+        (
+            "<|begin_of_text|>"
+            "<|start_header_id|>user<|end_header_id|>\n\n"
+            "What is France's capital?<|eot_id|>"
+            "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        ),
+        "Bonjour! The capital of France is Paris!<|eot_id|>",
+        (
+            "<|start_header_id|>user<|end_header_id|>\n\n"
+            "What can I do there?<|eot_id|>"
+            "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        ),
+        (
+            "Paris offers many attractions and activities. Some popular things to do include visiting the Eiffel Tower, "
+            "exploring the Louvre Museum, taking a river cruise along the Seine, and strolling through charming neighborhoods like Montmartre.<|eot_id|>"
+        ),
+        ("<|start_header_id|>user<|end_header_id|>\n\nWhat else?<|eot_id|>"),
+    ]
+    for formatted_message, expected in zip(formatted_conversation, expected_contents):
+        assert formatted_message.content == expected
+    # stringify the list
+    formatted_conversation_str = "".join(elm.content for elm in formatted_conversation)
+    expected_output_str = (
+        "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
+        "What is France's capital?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Bonjour! The capital of France is Paris!<|eot_id|>"
+        "<|start_header_id|>user<|end_header_id|>\n\n"
+        "What can I do there?<|eot_id|>"
+        "<|start_header_id|>assistant<|end_header_id|>\n\n"
+        "Paris offers many attractions and activities. Some popular things to do "
+        "include visiting the Eiffel Tower, exploring the Louvre Museum, taking a river "
+        "cruise along the Seine, and strolling through charming neighborhoods like Montmartre.<|eot_id|>"
+        "<|start_header_id|>user<|end_header_id|>\n\n"
+        "What else?<|eot_id|>"
+    )
+    assert formatted_conversation_str == expected_output_str
+    hf_formatted_conversation = hf_formatter.format(original_conversation, output_mode="list")
+    assert hf_formatted_conversation == expected_output_str