PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (273) hide show

evalscope/__init__.py +4 -1
evalscope/api/__init__.py +0 -0
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +3 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +683 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +155 -0
evalscope/api/benchmark/benchmark.py +321 -0
evalscope/api/benchmark/meta.py +115 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +261 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +355 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +264 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +11 -0
evalscope/api/messages/chat_message.py +198 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +105 -0
evalscope/api/mixin/__init__.py +2 -0
evalscope/api/mixin/dataset_mixin.py +105 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +157 -0
evalscope/api/model/model.py +383 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +23 -11
evalscope/app/utils/data_utils.py +42 -26
evalscope/app/utils/text_utils.py +0 -2
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +6 -7
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -3
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +2 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aigc/i2i/__init__.py +0 -0
evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py +44 -0
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +53 -55
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +41 -46
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +29 -45
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +34 -44
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +16 -27
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +181 -160
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +94 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +183 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +135 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +136 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +192 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +112 -54
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -265
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +95 -54
evalscope/constants.py +29 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +277 -423
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +32 -30
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +47 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +123 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +698 -0
evalscope/perf/benchmark.py +2 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +7 -5
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +8 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -2
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +101 -6
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +26 -44
evalscope/summarizer.py +1 -1
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +2 -1
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/io_utils.py +100 -5
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +10 -7
evalscope/utils/multi_choices.py +271 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/METADATA +98 -49
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/RECORD +234 -216
tests/aigc/test_t2i.py +22 -4
tests/benchmark/__init__.py +1 -0
tests/benchmark/test_eval.py +386 -0
tests/cli/test_all.py +3 -5
tests/cli/test_collection.py +13 -4
tests/cli/test_custom.py +22 -15
tests/rag/test_clip_benchmark.py +1 -0
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/top_level.txt +0 -0

tests/aigc/test_t2i.py CHANGED Viewed

@@ -25,11 +25,12 @@ class TestRun(unittest.TestCase):
             datasets=[
                 'general_t2i'
             ],
+            model_task=ModelTask.IMAGE_GENERATION,  # must be IMAGE_GENERATION
             dataset_args={
                 'general_t2i': {
                     'metric_list': [
-                        # 'PickScore',
-                        'CLIPScore',
+                        'PickScore',
+                        # 'CLIPScore',
                         # 'HPSv2Score',
                         # 'HPSv2.1Score',
                         # 'BLIPv2Score',
@@ -45,6 +46,23 @@ class TestRun(unittest.TestCase):
         run_task(task_cfg=task_cfg)
+    def test_run_local_evalmuse(self):
+        from evalscope import TaskConfig, run_task
+        task_cfg = TaskConfig(
+            model_id='T2I-Model', # 只用于展示，实际运行时不需要指定模型ID
+            model_task=ModelTask.IMAGE_GENERATION,
+            datasets=[
+                'evalmuse',  # 使用 EvalMuse benchmark
+            ],
+            dataset_args={
+                'evalmuse': {
+                    'dataset_id': 'data/example.jsonl',  # 构建的jsonl路径
+                }
+            },
+        )
+        run_task(task_cfg=task_cfg)
     @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
     def test_run_benchmark(self):
@@ -66,13 +84,13 @@ class TestRun(unittest.TestCase):
             dataset_args={
                 'tifa160': {
                     'metric_list': [
-                        'PickScore',
+                        # 'PickScore',
                         # 'CLIPScore',
                         # 'HPSv2Score',
                         # 'BLIPv2Score',
                         # 'ImageRewardScore',
                         # 'VQAScore',
-                        # 'FGA_BLIP2Score',
+                        'FGA_BLIP2Score',
                     ]
                 }
             },

tests/benchmark/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ # Copyright (c) Alibaba, Inc. and its affiliates.

tests/benchmark/test_eval.py ADDED Viewed

@@ -0,0 +1,386 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+from dotenv import dotenv_values
+env = dotenv_values('.env')
+import unittest
+from unittest import TestCase
+from evalscope.config import TaskConfig
+from evalscope.constants import EvalType, JudgeStrategy, OutputType
+from evalscope.run import run_task
+from evalscope.utils.logger import get_logger
+logger = get_logger()
+class TestBenchmark(TestCase):
+    """Benchmark evaluation test cases."""
+    def setUp(self):
+        """Setup common test configuration."""
+        self.base_config = {
+            'model': 'qwen-plus',
+            'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+            'api_key': env.get('DASHSCOPE_API_KEY'),
+            'eval_type': EvalType.SERVICE,
+            'eval_batch_size': 5,
+            'limit': 5,
+            'generation_config': {
+                'max_tokens': 4096,
+                'temperature': 0.0,
+                'seed': 42,
+                'parallel_tool_calls': True
+            },
+            'judge_strategy': JudgeStrategy.AUTO,
+            'judge_worker_num': 5,
+            'judge_model_args': {
+                'model_id': 'qwen2.5-72b-instruct',
+                'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+                'api_key': env.get('DASHSCOPE_API_KEY'),
+                'generation_config': {
+                    'temperature': 0.0,
+                    'max_tokens': 4096,
+                }
+            },
+            'debug': True,
+        }
+    def _run_dataset_test(self, dataset_name, dataset_args=None, use_mock=False, **config_overrides):
+        """Helper method to run test for a specific dataset."""
+        config = self.base_config.copy()
+        config['datasets'] = [dataset_name]
+        if use_mock:
+            config['eval_type'] = EvalType.MOCK_LLM
+        # 应用配置覆盖
+        config.update(config_overrides)
+        if dataset_args:
+            config['dataset_args'] = {dataset_name: dataset_args}
+        task_cfg = TaskConfig(**config)
+        run_task(task_cfg=task_cfg)
+    def _run_dataset_load_test(self, dataset_name, dataset_args=None):
+        """Helper method to test dataset loading."""
+        self._run_dataset_test(dataset_name, dataset_args, use_mock=True, limit=None)
+    # Math & Reasoning datasets
+    def test_gsm8k(self):
+        """Test GSM8K math reasoning dataset."""
+        self._run_dataset_test('gsm8k')
+    def test_gsm8k_local(self):
+        """Test GSM8K math reasoning dataset with local path."""
+        dataset_args = {
+            'local_path': 'data/gsm8k',
+        }
+        self._run_dataset_test('gsm8k', dataset_args=dataset_args, use_mock=True)
+    def test_mmlu(self):
+        """Test MMLU reasoning dataset."""
+        dataset_args = {
+            'few_shot_num': 0,
+            # 'subset_list': ['abstract_algebra', 'computer_security']
+        }
+        self._run_dataset_test('mmlu', use_mock=True, dataset_args=dataset_args)
+    def test_mmlu_pro(self):
+        """Test MMLU-Pro reasoning dataset."""
+        dataset_args = {
+            'few_shot_num': 2,
+            'subset_list': ['computer science', 'math']
+        }
+        self._run_dataset_test('mmlu_pro', use_mock=False, dataset_args=dataset_args, repeats=2)
+    def test_mmlu_redux(self):
+        """Test MMLU-Redux reasoning dataset."""
+        dataset_args = {
+            'subset_list': ['abstract_algebra', 'computer_security'],
+        }
+        # self._run_dataset_load_test('mmlu_redux', dataset_args)
+        self._run_dataset_test('mmlu_redux', dataset_args=dataset_args)
+    def test_cmmlu(self):
+        """Test C-MMLU reasoning dataset."""
+        dataset_args = {
+            'subset_list': ['agronomy', 'computer_security'],
+            'few_shot_num': 0,
+        }
+        # self._run_dataset_load_test('cmmlu')
+        self._run_dataset_test('cmmlu', dataset_args=dataset_args)
+    def test_math_500(self):
+        """Test MATH 500 dataset."""
+        # self._run_dataset_load_test('math_500')
+        self._run_dataset_test('math_500')
+    def test_aime24(self):
+        """Test AIME 2024 dataset."""
+        self._run_dataset_test('aime24')
+    def test_aime25(self):
+        """Test AIME 2025 dataset."""
+        self._run_dataset_test('aime25')
+    def test_competition_math(self):
+        """Test Competition Math dataset."""
+        dataset_args = {
+            'subset_list': ['Level 4']
+        }
+        self._run_dataset_test('competition_math', dataset_args)
+    # Knowledge & QA datasets
+    def test_arc(self):
+        """Test ARC dataset."""
+        # self._run_dataset_load_test('arc')
+        dataset_args = {
+            'subset_list': ['ARC-Easy', 'ARC-Challenge'],
+            'few_shot_num': 2,
+        }
+        self._run_dataset_test('arc', dataset_args=dataset_args)
+    def test_ceval(self):
+        """Test CEval dataset."""
+        dataset_args = {
+            'subset_list': ['logic', 'law'],
+            # 'few_shot_num': 0,
+        }
+        # self._run_dataset_load_test('ceval')
+        self._run_dataset_test('ceval', dataset_args=dataset_args)
+    def test_super_gpqa(self):
+        """Test Super GPQA dataset."""
+        # self._run_dataset_load_test('super_gpqa')
+        dataset_args = {
+            'subset_list': ['History', 'Psychology'],
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('super_gpqa', dataset_args=dataset_args, ignore_errors=True)
+    def test_gpqa(self):
+        """Test GPQA dataset."""
+        # self._run_dataset_load_test('gpqa_diamond')
+        dataset_args = {
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('gpqa_diamond', dataset_args=dataset_args, ignore_errors=True)
+    def test_iquiz(self):
+        """Test IQuiz dataset."""
+        dataset_args = {
+            'subset_list': ['IQ', 'EQ'],
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('iquiz', dataset_args=dataset_args)
+    def test_maritime_bench(self):
+        """Test MaritimeBench dataset."""
+        dataset_args = {
+            'subset_list': ['default'],
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('maritime_bench', dataset_args=dataset_args)
+    def test_musr(self):
+        """Test MuSR dataset."""
+        dataset_args = {
+            'subset_list': ['murder_mysteries', 'object_placements', 'team_allocation'],
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('musr', dataset_args=dataset_args)
+    def test_hellaswag(self):
+        """Test HellaSwag dataset."""
+        self._run_dataset_test('hellaswag')
+    def test_truthful_qa(self):
+        """Test TruthfulQA dataset."""
+        dataset_args = {
+            'extra_params': {
+                'multiple_correct': True
+            }
+        }
+        self._run_dataset_test('truthful_qa', dataset_args=dataset_args)
+    def test_trivia_qa(self):
+        """Test TriviaQA dataset."""
+        self._run_dataset_test('trivia_qa')
+    def test_race(self):
+        """Test RACE dataset."""
+        self._run_dataset_test('race')
+    def test_winogrande(self):
+        """Test winogrande"""
+        self._run_dataset_test('winogrande')
+    def test_bbh(self):
+        dataset_args = {
+            'subset_list': ['temporal_sequences', 'navigate'],
+        }
+        self._run_dataset_test('bbh', dataset_args=dataset_args)
+    def test_simple_qa(self):
+        """Test SimpleQA dataset."""
+        self._run_dataset_test('simple_qa')
+    def test_chinese_simpleqa(self):
+        """Test Chinese SimpleQA dataset."""
+        dataset_args = {
+            'subset_list': ['中华文化']
+        }
+        self._run_dataset_test('chinese_simpleqa', dataset_args)
+    # Code datasets
+    def test_live_code_bench(self):
+        """Test LiveCodeBench dataset."""
+        dataset_args = {
+            'extra_params': {
+                'start_date': '2024-08-01',
+                'end_date': '2025-02-28'
+            },
+            'local_path': '/root/.cache/modelscope/hub/datasets/AI-ModelScope/code_generation_lite'
+        }
+        self._run_dataset_test('live_code_bench', dataset_args)
+    def test_humaneval(self):
+        """Test HumanEval dataset."""
+        self._run_dataset_test('humaneval')
+    # Custom & specialized datasets
+    def test_general_qa(self):
+        """Test custom general QA dataset."""
+        dataset_args = {
+            'local_path': 'custom_eval/text/qa',
+            'subset_list': ['example']
+        }
+        self._run_dataset_test('general_qa', dataset_args)
+    def test_general_mcq(self):
+        """Test custom general MCQ dataset."""
+        dataset_args = {
+            'local_path': 'custom_eval/text/mcq',
+            'subset_list': ['example']
+        }
+        self._run_dataset_test('general_mcq', dataset_args)
+    def test_alpaca_eval(self):
+        """Test AlpacaEval dataset."""
+        self._run_dataset_test('alpaca_eval')
+    def test_arena_hard(self):
+        """Test Arena Hard dataset."""
+        self._run_dataset_test('arena_hard', use_cache='outputs/20250818_211353')
+    def test_frames(self):
+        """Test Frames dataset."""
+        dataset_args = {
+            # 'local_path': '/root/.cache/modelscope/hub/datasets/iic/frames'
+        }
+        self._run_dataset_test('frames', dataset_args)
+    def test_docmath(self):
+        """Test DocMath dataset."""
+        self._run_dataset_test('docmath')
+    def test_drop(self):
+        """Test DROP dataset."""
+        dataset_args = {
+            'few_shot_num': 3,
+        }
+        self._run_dataset_test('drop', dataset_args=dataset_args)
+    def test_ifeval(self):
+        """Test IFEval dataset."""
+        self._run_dataset_test('ifeval')
+    def test_needle_haystack(self):
+        """Test Needle in Haystack dataset."""
+        dataset_args = {
+            'subset_list': ['english'],
+            'extra_params': {
+                'context_lengths_max': 10000,
+                'context_lengths_num_intervals': 5,
+                'document_depth_percent_intervals': 5,
+                'show_score': True,
+            }
+        }
+        self._run_dataset_test('needle_haystack', dataset_args)
+    def test_ifeval(self):
+        """Test IFEval dataset."""
+        self._run_dataset_test('ifeval')
+    def test_hle(self):
+        """Test HLE dataset."""
+        dataset_args = {
+            'subset_list': ['Math', 'Other'],
+            'extra_params': {
+                'include_multi_modal': False
+            }
+        }
+        self._run_dataset_test('hle', dataset_args)
+    def test_process_bench(self):
+        """Test ProcessBench dataset."""
+        dataset_args = {
+            'subset_list': ['gsm8k', 'math'],
+        }
+        self._run_dataset_test('process_bench', dataset_args, use_cache='outputs/20250819_161844')
+    def test_humaneval(self):
+        """Test HumanEval dataset."""
+        dataset_args = {
+            'metric_list': ['Pass@1', 'Pass@2', 'Pass@5']
+        }
+        self._run_dataset_test('humaneval', dataset_args, repeats=5)
+    def test_live_code_bench(self):
+        """Test LiveCodeBench dataset."""
+        dataset_args = {
+            'subset_list': ['v6'],
+            'extra_params': {
+                'start_date': '2024-08-01',
+                'end_date': '2025-02-28'
+            },
+        }
+        self._run_dataset_test('live_code_bench', dataset_args, judge_worker_num=1)
+    def test_tool_bench(self):
+        """Test ToolBench dataset."""
+        self._run_dataset_test('tool_bench')
+    def test_bfcl(self):
+        """Test BFCL dataset."""
+        dataset_args = {
+            'subset_list': ['simple', 'live_multiple', 'multi_turn_base'],
+            'extra_params': {
+                'is_fc_model': True,
+                'underscore_to_dot': True
+            }
+        }
+        self._run_dataset_test('bfcl_v3', dataset_args)
+    def test_tau_bench(self):
+        dataset_args = {
+            'extra_params': {
+                'user_model': 'qwen-plus',
+                'api_key': env.get('DASHSCOPE_API_KEY'),
+                'api_base': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+                'generation_config': {
+                    'temperature': 0.7,
+                    'max_new_tokens': 1024
+                }
+            }
+        }
+        self._run_dataset_test('tau_bench', dataset_args, limit=1)
+if __name__ == '__main__':
+    # Run specific test: python -m unittest test_eval.TestBenchmark.test_gsm8k
+    # Run all tests: python -m unittest test_eval.TestBenchmark
+    unittest.main()

tests/cli/test_all.py CHANGED Viewed

@@ -32,7 +32,7 @@ datasets=[
         'competition_math',
         'math_500',
         'aime24',
-        'gpqa',
+        'gpqa_diamond',
         'arc',
         'ceval',
         'hellaswag',
@@ -82,8 +82,7 @@ dataset_args={
     'bbh': {
         'subset_list': ['word_sorting', 'movie_recommendation'],
     },
-    'gpqa': {
-        'subset_list': ['gpqa_diamond'],
+    'gpqa_diamond': {
         'few_shot_num': 0,
     },
     'humaneval': {
@@ -112,8 +111,7 @@ dataset_args={
         'subset_list': [
             'example',  # 评测数据集名称，上述 *_dev.csv 中的 *
             # 'test'
-        ],
-        'metric_list': ['AverageBLEU']
+        ]
     },
     'super_gpqa': {
         'subset_list': ['Philosophy', 'Education'],

tests/cli/test_collection.py CHANGED Viewed

@@ -1,3 +1,6 @@
+from dotenv import dotenv_values
+env = dotenv_values('.env')
 import json
 import os
 import unittest
@@ -15,7 +18,6 @@ class TestCollection(unittest.TestCase):
                     CollectionSchema(name='math', datasets=[
                         CollectionSchema(name='generation', datasets=[
                             DatasetInfo(name='gsm8k', weight=1, task_type='math', tags=['en', 'math']),
-                            DatasetInfo(name='competition_math', weight=1, task_type='math', tags=['en', 'math']),
                         ]),
                         CollectionSchema(name='multiple_choice', datasets=[
                             DatasetInfo(name='cmmlu', weight=2, task_type='math', tags=['zh', 'math'], args={'subset_list': ['college_mathematics', 'high_school_mathematics']}),
@@ -45,15 +47,22 @@ class TestCollection(unittest.TestCase):
         from evalscope import TaskConfig, run_task
         task_cfg = TaskConfig(
-            model='Qwen2.5-0.5B-Instruct',
-            api_url='http://127.0.0.1:8801/v1/chat/completions',
-            api_key='EMPTY',
+            model='qwen-plus',
+            api_url='https://dashscope.aliyuncs.com/compatible-mode/v1',
+            api_key=env.get('DASHSCOPE_API_KEY'),
             eval_type=EvalType.SERVICE,
             datasets=['data_collection'],
             dataset_args={'data_collection': {
                 'local_path': 'outputs/mixed_data_test.jsonl'
                 # 'local_path': 'outputs/weighted_mixed_data.jsonl'
             }},
+            eval_batch_size=5,
+            generation_config = {
+                'max_tokens': 10000,
+                'temperature': 0.0,
+            },
+            limit=50,
+            # use_cache='outputs/20250822_161804'
         )
         run_task(task_cfg=task_cfg)

tests/cli/test_custom.py CHANGED Viewed

@@ -10,7 +10,7 @@ import subprocess
 import unittest
 from evalscope.config import TaskConfig
-from evalscope.constants import EvalStage, EvalType, JudgeStrategy, OutputType
+from evalscope.constants import EvalType, JudgeStrategy, OutputType
 from evalscope.run import run_task
 from evalscope.utils.import_utils import is_module_installed
 from evalscope.utils.logger import get_logger
@@ -120,7 +120,7 @@ class TestRunCustom(unittest.TestCase):
         from evalscope.config import TaskConfig
         task_cfg = TaskConfig(
-            model='qwen2.5-72b-instruct',
+            model='qwen2.5-7b-instruct',
             api_url='https://dashscope.aliyuncs.com/compatible-mode/v1',
             api_key= env.get('DASHSCOPE_API_KEY'),
             eval_type=EvalType.SERVICE,
@@ -132,7 +132,7 @@ class TestRunCustom(unittest.TestCase):
                     'dataset_id': 'custom_eval/text/qa',
                     'subset_list': [
                         'arena',
-                        'example'
+                        # 'example'
                     ],
                 }
             },
@@ -147,7 +147,7 @@ class TestRunCustom(unittest.TestCase):
             },
             ignore_errors=False,
             judge_model_args={
-                'model_id': 'qwen2.5-72b-instruct',
+                'model_id': 'qwen2.5-7b-instruct',
                 'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
                 'api_key': env.get('DASHSCOPE_API_KEY'),
                 'generation_config': {
@@ -155,9 +155,19 @@ class TestRunCustom(unittest.TestCase):
                     'max_tokens': 4096
                 },
                 'score_type': 'numeric',
+                'prompt_template': """Please act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question displayed below. Your evaluation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of the response.
+Begin your evaluation by providing a short explanation. Be as objective as possible.
+After providing your explanation, you must rate the response on a scale of 0 (worst) to 100 (best) by strictly following this format: \"[[rating]]\", for example: \"Rating: [[5]]\"
+[Question]
+{question}
+[Response]
+{pred}
+"""
             },
             judge_worker_num=5,
-            judge_strategy=JudgeStrategy.AUTO,
+            judge_strategy=JudgeStrategy.LLM,
         )
         run_task(task_cfg=task_cfg)
@@ -203,8 +213,9 @@ class TestRunCustom(unittest.TestCase):
                 },
                 'score_type': 'pattern',
             },
-            judge_worker_num=5,
-            judge_strategy=JudgeStrategy.LLM,
+            judge_worker_num=1,
+            judge_strategy=JudgeStrategy.LLM_RECALL,
+            use_cache='outputs/20250818_170420'
         )
         run_task(task_cfg=task_cfg)
@@ -223,20 +234,16 @@ class TestRunCustom(unittest.TestCase):
                 'general_arena': {
                     'extra_params':{
                         'models':[
-                            {
-                                'name': 'qwen2.5-0.5b',
-                                'report_path': 'outputs/20250702_140354/reports/qwen2.5-0.5b-instruct'
-                            },
                             {
                                 'name': 'qwen2.5-7b',
-                                'report_path': 'outputs/20250702_140702/reports/qwen2.5-7b-instruct'
+                                'report_path': 'outputs/20250819_165034/reports/qwen2.5-7b-instruct'
                             },
                             {
                                 'name': 'qwen2.5-72b',
-                                'report_path': 'outputs/20250702_140802/reports/qwen2.5-72b-instruct'
+                                'report_path': 'outputs/20250819_164926/reports/qwen2.5-72b-instruct'
                             }
                         ],
-                        'baseline': 'qwen2.5-7b'
+                        'baseline': 'qwen2.5-72b'
                     }
                 }
             },
@@ -255,7 +262,7 @@ class TestRunCustom(unittest.TestCase):
                 },
             },
             judge_worker_num=5,
-            use_cache='outputs/20250702_165727'
+            # use_cache='outputs/20250819_173546'
         )
         run_task(task_cfg=task_cfg)

tests/rag/test_clip_benchmark.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
 import os
 # os.environ["CUDA_VISIBLE_DEVICES"] = "1"
 import subprocess
 import unittest

evalscope/benchmarks/aigc/t2i/base.py DELETED Viewed

@@ -1,56 +0,0 @@
-from typing import List, Optional, Union
-from evalscope.benchmarks import DataAdapter
-from evalscope.metrics import mean, metric_registry
-from evalscope.utils.logger import get_logger
-logger = get_logger()
-class T2IBaseAdapter(DataAdapter):
-    def __init__(self, **kwargs):
-        super().__init__(**kwargs)
-        logger.info(f'Initializing metrics: {self.metric_list}')
-        self.metrics = {m: metric_registry.get(m).object() for m in self.metric_list}
-    def gen_prompt(self, input_d: dict, subset_name: str, few_shot_list: list, **kwargs) -> dict:
-        # dummy prompt for general t2i
-        return self.gen_prompt_data(prompt=input_d.get('prompt', ''), id=input_d.get('id', 0))
-    def get_gold_answer(self, input_d: dict) -> str:
-        # dummy gold answer for general t2i
-        return input_d.get('prompt', '')
-    def parse_pred_result(self, result: str, raw_input_d: dict = None, eval_type: str = 'checkpoint') -> str:
-        # dummy parse pred result for general t2i
-        return result or raw_input_d.get('image_path', '')
-    def match(self, gold: str, pred: str) -> dict:
-        # dummy match for general t2i
-        # pred is the image path, gold is the prompt
-        res = {}
-        for metric_name, metric_func in self.metrics.items():
-            score = metric_func(images=[pred], texts=[gold])[0][0]
-            if isinstance(score, dict):
-                for k, v in score.items():
-                    res[f'{metric_name}_{k}'] = v.cpu().item()
-            else:
-                res[metric_name] = score.cpu().item()  # Updated to use score.cpu().item()
-        return res
-    def compute_metric(self, review_res_list: Union[List[dict], List[List[dict]]], **kwargs) -> List[dict]:
-        """
-        compute weighted mean of the bleu score of all samples
-        Args:
-            review_res_list: [score1, score2, ...]
-        Returns:
-            avg_res: List[dict]
-        """
-        items = super().compute_dict_metric(review_res_list, **kwargs)
-        return [{'metric_name': k, 'score': mean(v), 'num': len(v)} for k, v in items.items()]

evalscope 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl