PyPI - flexeval - Versions diffs - 0.3.1__tar.gz → 0.3.2__tar.gz - Mend

flexeval 0.3.1tar.gz → 0.3.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (134) hide show

{flexeval-0.3.1 → flexeval-0.3.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: flexeval
-Version: 0.3.1
+Version: 0.3.2
 Summary:
 Author: ryokan-ri
 Author-email: ryokan.ri@sbintuitions.co.jp
@@ -9,6 +9,7 @@ Classifier: Programming Language :: Python :: 3
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
 Provides-Extra: vllm
 Requires-Dist: datasets (>=2.14.6,<3.0.0)
 Requires-Dist: evaluate (>=0.4.1,<0.5.0)

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/llm_score.py RENAMED Viewed

@@ -109,7 +109,7 @@ class ChatLLMScore(Metric):
         self,
         language_model: LanguageModel,
         prompt_template: PromptTemplate,
-        system_message: str | None = None,
+        system_message: str | PromptTemplate | None = None,
         batch_size: int = 4,
     ) -> None:
         self._language_model = language_model
@@ -151,9 +151,13 @@ class ChatLLMScore(Metric):
             evaluator_input = self._prompt_template.embed_input(prompt_inputs)
             input_chat_messages = [{"role": "user", "content": evaluator_input}]
             if self._system_message:
+                if isinstance(self._system_message, str):
+                    system_message = self._system_message
+                else:
+                    system_message = self._system_message.embed_input(prompt_inputs)
                 input_chat_messages.insert(
                     0,
-                    {"role": "system", "content": self._system_message},
+                    {"role": "system", "content": system_message},
                 )
             evaluator_input_list.append(input_chat_messages)

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/judge/llm_judge.py RENAMED Viewed

@@ -26,7 +26,7 @@ class ChatLLMPairwiseJudge(PairwiseJudge):
         self,
         language_model: LanguageModel,
         prompt_template: PromptTemplate,
-        system_message: str | None = None,
+        system_message: str | PromptTemplate | None = None,
     ) -> None:
         self._language_model = language_model
         self._prompt_template = prompt_template
@@ -76,7 +76,14 @@ class ChatLLMPairwiseJudge(PairwiseJudge):
             judge_input = self._prompt_template.embed_input(prompt_inputs)
             input_chat_messages = [{"role": "user", "content": judge_input}]
             if self._system_message:
-                input_chat_messages.insert(0, {"role": "system", "content": self._system_message})
+                if isinstance(self._system_message, str):
+                    system_message = self._system_message
+                else:
+                    system_message = self._system_message.embed_input(prompt_inputs)
+                input_chat_messages.insert(
+                    0,
+                    {"role": "system", "content": system_message},
+                )
             input_chat_messages_list.append(input_chat_messages)
         judge_outputs = self._language_model.batch_generate_chat_response(input_chat_messages_list)
         return [self._parse_judge_output(output) for output in judge_outputs]

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/Metric/assistant_eval_gpt4_ja_single_turn.jsonnet RENAMED Viewed

@@ -33,5 +33,6 @@ Translated and adapted from [lm-sys/FastChat](https://github.com/lm-sys/FastChat
         |||,
       },
     },
+    system_message: "あなたは優秀な助手です。",
   },
 }

flexeval-0.3.2/flexeval/preset_configs/PairwiseJudge/assistant_judge_gpt4_ja_single_turn.jsonnet ADDED Viewed

@@ -0,0 +1,49 @@
+/*
+This is a configuration for evaluting the quality of responses generated by an AI assistant.
+Originally used to generate scores for the Japanese versions of MT-bench or Vicuna-bench.
+Translated and adapted from [lm-sys/FastChat](https://github.com/lm-sys/FastChat/blob/main/fastchat/llm_judge/data/judge_prompts.jsonl).
+*/
+{
+  class_path: 'ChatLLMPairwiseJudge',
+  init_args: {
+    language_model: { class_path: 'OpenAIChatGPT', init_args: { model_name: 'gpt-4-turbo-2024-04-09' } },
+    prompt_template: {
+      class_path: 'Jinja2PromptTemplate',
+      init_args: {
+        template: |||
+          {% set question = model1_item["task_inputs"]["messages"][0]["content"] -%}
+          {% set model1_chat = model1_item["task_inputs"]["messages"] -%}
+          {% set model2_chat = model2_item["task_inputs"]["messages"] -%}
+          [ユーザの質問]
+          {{ model1_item["task_inputs"]["chat"][0]["content"] }}
+          {% if references|length > 0 -%}
+          [参考回答の開始]
+          {{ references[0] }}
+          [参考回答の終了]
+          {% endif -%}
+          [アシスタント1の回答開始]
+          {% if model1_chat|length == 1 %}{{ model1_item["lm_output"] }}{% else %}{{ model1_chat[1]["content"] }}{% endif %}
+          [アシスタント1の回答終了]
+          [アシスタント2の回答開始]
+          {% if model2_chat|length == 1 %}{{ model2_item["lm_output"] }}{% else %}{{ model2_chat[1]["content"] }}{% endif %}
+          [アシスタント2の回答終了]
+        |||,
+      },
+    },
+    system_message: {
+      class_path: 'Jinja2PromptTemplate',
+      init_args: {
+        template: |||
+          {% if references|length > 0 -%}
+          あなたは、回答の質をチェックするための審判員です。以下に示されるユーザーの質問に対する2つのAIアシスタントの応答の品質を評価してください。回答の内容がユーザーの指示に従っており、ユーザーの質問によりよく答えているアシスタントを選んでください。参照回答、アシスタント1の回答、アシスタント2の回答が与えられるので、どちらのアシスタントの回答が優れているかを評価してください。評価の際には、まずそれぞれのアシスタントの回答を参照回答と比較し、回答の誤りを見つけて修正してください。立場が偏らないようにし、回答の提示順があなたの判断に影響しないようにしてください。回答の長さが評価に影響しないこと、特定のアシスタントの名前を好まないこと、できるだけ客観的であること、に気をつけてください。説明の後に、最終的な判断を以下の形式に従って出力してください：アシスタント1が優れていれば[[1]]、アシスタント2が優れていれば[[2]]、同点の場合は[[3]]
+          {%- else -%}
+          あなたは、回答の質をチェックするための審判員です。以下に示されるユーザーの質問に対する2つのAIアシスタントの応答の品質を評価してください。回答の内容がユーザーの指示に従っており、ユーザーの質問によりよく答えているアシスタントを選んでください。具体的には、回答の有用性、関連性、正確性、深さ、創造性、詳細レベルなどの要素を考慮する必要があります。評価の際には、まず2つの回答を比較し、簡単な説明をしてください。立場が偏らないようにし、回答の提示順があなたの判断に影響しないようにしてください。回答の長さが評価に影響しないこと、特定のアシスタントの名前を好まないこと、できるだけ客観的であること、に気をつけてください。説明の後に、最終的な判断を以下の形式に従って出力してください：アシスタント1が優れていれば[[1]]、アシスタント2が優れていれば[[2]]、同点の場合は[[3]]
+          {%- endif %}
+        |||,
+      },
+    },
+  },
+}

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/scripts/flexeval_file.py RENAMED Viewed

@@ -3,6 +3,7 @@ from __future__ import annotations
 import json
 import logging
 import os
+import sys
 from importlib.metadata import version
 from pathlib import Path
 from typing import Any, Dict, List, Union
@@ -76,6 +77,10 @@ def main() -> None:
         help="Path to the config file",
     )
+    # Add the current directory to sys.path
+    # to enable importing modules from the directory where this script is executed.
+    sys.path.append(os.environ.get("ADDITIONAL_MODULES_PATH", "./"))
     args = parser.parse_args()
     logger.info(args)

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/scripts/flexeval_lm.py RENAMED Viewed

@@ -188,6 +188,7 @@ def main() -> None:  # noqa: C901, PLR0912, PLR0915
         "You can specify the parameters, the path to the config file, or the name of the preset config.",
         enable_path=True,
     )
+    # Saving arguments
     parser.add_argument(
         "--save_dir",
         type=str,
@@ -200,11 +201,13 @@ def main() -> None:  # noqa: C901, PLR0912, PLR0915
         default=False,
         help="Overwrite the save_dir if it exists",
     )
+    # Argument parsing arguments
     parser.add_argument(
         "--config",
         action=ActionConfigFile,
         help="Path to the config file",
     )
+    # Metadata
     parser.add_argument(
         "--metadata",
         type=Dict[str, Any],
@@ -230,6 +233,10 @@ def main() -> None:  # noqa: C901, PLR0912, PLR0915
             if resolved_config_path is not None:
                 sys.argv[i + 1] = resolved_config_path
+    # Add the current directory to sys.path
+    # to enable importing modules from the directory where this script is executed.
+    sys.path.append(os.environ.get("ADDITIONAL_MODULES_PATH", "./"))
     args = parser.parse_args()
     logger.info(args)
     logger.info(f"flexeval version: {version('flexeval')}")
@@ -320,6 +327,8 @@ def main() -> None:  # noqa: C901, PLR0912, PLR0915
                     f"Overwriting the existing file: {save_dir / CONFIG_FILE_NAME}",
                 )
+                save_json(task_config, save_dir / CONFIG_FILE_NAME)
         try:
             with Timer() as timer:
                 metrics, outputs = eval_setup.evaluate_lm(

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/scripts/flexeval_pairwise.py RENAMED Viewed

@@ -90,6 +90,10 @@ def main() -> None:
             if resolved_config_path is not None:
                 sys.argv[i + 1] = resolved_config_path
+    # Add the current directory to sys.path
+    # to enable importing modules from the directory where this script is executed.
+    sys.path.append(os.environ.get("ADDITIONAL_MODULES_PATH", "./"))
     args = parser.parse_args()
     logger.info(args)

{flexeval-0.3.1 → flexeval-0.3.2}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "flexeval"
-version = "0.3.1" # This will be automatically set from git tag by poetry-dynamic-versioning
+version = "0.3.2" # This will be automatically set from git tag by poetry-dynamic-versioning
 description = ""
 authors = ["ryokan-ri <ryokan.ri@sbintuitions.co.jp>"]
 readme = "README.md"
@@ -47,12 +47,6 @@ mkdocs-gen-files = "^0.5.0"
 mkdocs-literate-nav = "^0.6.1"
 mkdocs-section-index = "^0.3.9"
-[[tool.poetry.source]]
-name = "pypi_test"
-url = "https://test.pypi.org/"
-priority = "supplemental"
 [build-system]
 requires = ["poetry-core", "poetry-dynamic-versioning"]
 build-backend = "poetry_dynamic_versioning.backend"

flexeval-0.3.1/flexeval/preset_configs/PairwiseJudge/assistant_judge_gpt4_ja_single_turn.jsonnet DELETED Viewed

@@ -1,43 +0,0 @@
-/*
-This is a configuration for evaluting the quality of responses generated by an AI assistant.
-Originally used to generate scores for the Japanese versions of MT-bench or Vicuna-bench.
-Translated and adapted from [lm-sys/FastChat](https://github.com/lm-sys/FastChat/blob/main/fastchat/llm_judge/data/judge_prompts.jsonl).
-*/
-{
-  class_path: 'ChatLLMPairwiseJudge',
-  init_args: {
-    language_model: { class_path: 'OpenAIChatGPT', init_args: { model_name: 'gpt-4-turbo-2024-04-09' } },
-    prompt_template: {
-      class_path: 'Jinja2PromptTemplate',
-      init_args: {
-        template: |||
-          {% set question = model1_item["task_inputs"]["messages"][0]["content"] -%}
-          {% set model1_chat = model1_item["task_inputs"]["messages"] -%}
-          {% set model2_chat = model2_item["task_inputs"]["messages"] -%}
-          [指示]
-          {% if references|length > 0 -%}
-          以下に示されるユーザーの質問に対する2つのAIアシスタントの応答の品質を評価してください。回答の内容がユーザーの指示に従っており、ユーザーの質問によりよく答えているアシスタントを選んでください。参照回答、アシスタント1の回答、アシスタント2の回答が与えられるので、どちらのアシスタントの回答が優れているかを評価してください。評価の際には、まずそれぞれのアシスタントの回答を参照回答と比較し、回答の誤りを見つけて修正してください。立場が偏らないようにし、回答の提示順があなたの判断に影響しないようにしてください。回答の長さが評価に影響しないこと、特定のアシスタントの名前を好まないこと、できるだけ客観的であること、に気をつけてください。説明の後に、最終的な判断を以下の形式に従って出力してください：アシスタント1が優れていれば[[1]]、アシスタント2が優れていれば[[2]]、同点の場合は[[3]]
-          {%- else -%}
-          以下に示されるユーザーの質問に対する2つのAIアシスタントの応答の品質を評価してください。回答の内容がユーザーの指示に従っており、ユーザーの質問によりよく答えているアシスタントを選んでください。具体的には、回答の有用性、関連性、正確性、深さ、創造性、詳細レベルなどの要素を考慮する必要があります。評価の際には、まず2つの回答を比較し、簡単な説明をしてください。立場が偏らないようにし、回答の提示順があなたの判断に影響しないようにしてください。回答の長さが評価に影響しないこと、特定のアシスタントの名前を好まないこと、できるだけ客観的であること、に気をつけてください。説明の後に、最終的な判断を以下の形式に従って出力してください：アシスタント1が優れていれば[[1]]、アシスタント2が優れていれば[[2]]、同点の場合は[[3]]
-          {%- endif %}
-          [ユーザの質問]
-          {{ model1_item["task_inputs"]["chat"][0]["content"] }}
-          {% if references|length > 0 -%}
-          [参考回答の開始]
-          {{ references[0] }}
-          [参考回答の終了]
-          {% endif -%}
-          [アシスタント1の回答開始]
-          {% if model1_chat|length == 1 %}{{ model1_item["lm_output"] }}{% else %}{{ model1_chat[1]["content"] }}{% endif %}
-          [アシスタント1の回答終了]
-          [アシスタント2の回答開始]
-          {% if model2_chat|length == 1 %}{{ model2_item["lm_output"] }}{% else %}{{ model2_chat[1]["content"] }}{% endif %}
-          [アシスタント2の回答終了]
-        |||,
-      },
-    },
-  },
-}

{flexeval-0.3.1 → flexeval-0.3.2}/LICENSE RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/README.md RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/README.md RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/mt-en-ref-gpt4.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/mt-en.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/mt-ja-ref-gpt4.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/mt-ja.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/rakuda-v2-ja.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/vicuna-en-ref-gpt4.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/vicuna-en.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/vicuna-ja-ref-gpt4.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/chatbot_bench_datasets/vicuna-ja.jsonl RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/chat_dataset/hf_dataset.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/evaluate_chat_response.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/evaluate_from_file.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/evaluate_generation.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/evaluate_multiple_choice.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/evaluate_pairwise.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/evaluate_perplexity.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/few_shot_generator/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/few_shot_generator/balanced.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/few_shot_generator/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/few_shot_generator/rand.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/generation_dataset/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/generation_dataset/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/generation_dataset/hf_dataset.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/generation_dataset/jsonl.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/generation_dataset/sacrebleu_dataset.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/language_model/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/language_model/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/language_model/hf_lm.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/language_model/openai_chatgpt.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/language_model/vllm_model.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/bleu.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/char_f1.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/code_eval.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/common_prefix_length.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/common_string_length.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/exact_match.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/normalizer/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/normalizer/aio.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/normalizer/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/normalizer/regex.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/output_length_stats.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/perspective_api.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/rouge.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/substring_match.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/tokenizer/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/tokenizer/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/tokenizer/mecab.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/tokenizer/sacrebleu_tokenizer.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/tokenizer/whitespace.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/metric/xer.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/multiple_choice_dataset/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/multiple_choice_dataset/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/multiple_choice_dataset/hf_dataset.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/judge/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/judge/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/match.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/match_maker/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/match_maker/all_combinations.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/match_maker/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/match_maker/random_combinations.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/scorer/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/scorer/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/scorer/bradley_terry.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/pairwise_comparison/scorer/win_rate.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/prompt_template/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/prompt_template/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/prompt_template/jinja2.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/text_dataset/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/text_dataset/base.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/text_dataset/hf.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/text_dataset/jsonl.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/utils/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/utils/data_util.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/core/utils/jinja2_env.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/code_generation/jhumaneval.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/code_generation/jhumaneval_tab_indent.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/code_generation/mbpp.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/code_generation/mbpp_tab_indent.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/code_generation/openai_humaneval.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/code_generation/openai_humaneval_tab_indent.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_chat/mt-en.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_chat/vicuna-en.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_generation/babi.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_generation/commonsense_qa.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_generation/gsm8k.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_generation/squad_v1.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_generation/trivia_qa.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_generation/twitter_sentiment.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_multiple_choice/commonsense_qa_mc.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_multiple_choice/hellaswag.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_multiple_choice/openbookqa.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/en_multiple_choice/xwinograd_en.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1/flexeval/preset_configs/EvalSetup/en_preplexity → flexeval-0.3.2/flexeval/preset_configs/EvalSetup/en_perplexity}/tiny_shakespeare.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_chat/elyze_tasks_100.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_chat/mt-ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_chat/rakuda-v2-ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_chat/vicuna-ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/aio.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/jcommonsenseqa.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/jnli.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/jsquad.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/mgsm_ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/wrime_pos_neg.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_generation/xlsum_ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_multiple_choice/jcommonsenseqa_mc.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/ja_multiple_choice/xwinograd_ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/translation/wmt20_en_ja.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/EvalSetup/translation/wmt20_ja_en.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/Metric/assistant_eval_gpt4_en_single_turn.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/preset_configs/PairwiseJudge/assistant_judge_gpt4_en_single_turn.jsonnet RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/scripts/__init__.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/scripts/common.py RENAMED Viewed

File without changes

{flexeval-0.3.1 → flexeval-0.3.2}/flexeval/scripts/flexeval_presets.py RENAMED Viewed

File without changes

flexeval 0.3.1__tar.gz → 0.3.2__tar.gz

flexeval 0.3.1tar.gz → 0.3.2tar.gz