PyPI - evalscope - Versions diffs - 1.0.0__py3-none-any.whl → 1.0.2__py3-none-any.whl - Mend

evalscope 1.0.0py3-none-any.whl → 1.0.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of evalscope might be problematic. Click here for more details.

Files changed (148) hide show

evalscope/api/benchmark/__init__.py +1 -1
evalscope/api/benchmark/adapters/__init__.py +2 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +7 -4
evalscope/api/benchmark/adapters/image_edit_adapter.py +82 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +5 -2
evalscope/api/benchmark/adapters/text2image_adapter.py +12 -10
evalscope/api/benchmark/adapters/vision_language_adapter.py +8 -0
evalscope/api/benchmark/benchmark.py +62 -2
evalscope/api/benchmark/meta.py +9 -0
evalscope/api/dataset/dataset.py +6 -6
evalscope/api/dataset/loader.py +2 -1
evalscope/api/evaluator/cache.py +24 -1
evalscope/api/evaluator/evaluator.py +5 -0
evalscope/api/evaluator/state.py +17 -1
evalscope/api/messages/__init__.py +1 -0
evalscope/api/messages/chat_message.py +52 -2
evalscope/api/metric/scorer.py +15 -7
evalscope/api/mixin/__init__.py +1 -1
evalscope/api/mixin/llm_judge_mixin.py +2 -0
evalscope/api/mixin/sandbox_mixin.py +204 -0
evalscope/api/model/generate_config.py +1 -6
evalscope/api/model/model.py +5 -2
evalscope/api/tool/tool_info.py +1 -1
evalscope/app/app.py +3 -0
evalscope/app/ui/single_model.py +3 -3
evalscope/app/utils/data_utils.py +7 -7
evalscope/app/utils/env_utils.py +12 -0
evalscope/app/utils/text_utils.py +14 -12
evalscope/arguments.py +8 -4
evalscope/backend/opencompass/backend_manager.py +0 -2
evalscope/backend/rag_eval/utils/embedding.py +9 -1
evalscope/benchmarks/ai2d/ai2d_adapter.py +53 -0
evalscope/benchmarks/amc/amc_adapter.py +46 -0
evalscope/benchmarks/bbh/bbh_adapter.py +43 -17
evalscope/benchmarks/bfcl/bfcl_adapter.py +142 -7
evalscope/benchmarks/bfcl/generation.py +9 -9
evalscope/benchmarks/ceval/ceval_adapter.py +1 -2
evalscope/benchmarks/data_collection/data_collection_adapter.py +23 -19
evalscope/benchmarks/drop/drop_adapter.py +1 -1
evalscope/benchmarks/frames/frames_adapter.py +2 -1
evalscope/benchmarks/general_arena/general_arena_adapter.py +5 -1
evalscope/benchmarks/healthbench/healthbench_adapter.py +282 -0
evalscope/benchmarks/healthbench/utils.py +102 -0
evalscope/benchmarks/humaneval/humaneval_adapter.py +19 -35
evalscope/benchmarks/humaneval/utils.py +235 -0
evalscope/benchmarks/ifeval/instructions_util.py +2 -3
evalscope/benchmarks/image_edit/__init__.py +0 -0
evalscope/benchmarks/image_edit/gedit/__init__.py +0 -0
evalscope/benchmarks/image_edit/gedit/gedit_adapter.py +138 -0
evalscope/benchmarks/image_edit/gedit/utils.py +372 -0
evalscope/benchmarks/image_edit/gedit/vie_prompts.py +406 -0
evalscope/benchmarks/live_code_bench/evaluate_utils.py +13 -6
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +60 -37
evalscope/benchmarks/live_code_bench/sandbox_evaluate_utils.py +220 -0
evalscope/benchmarks/math_500/math_500_adapter.py +0 -1
evalscope/benchmarks/math_vista/__init__.py +0 -0
evalscope/benchmarks/math_vista/math_vista_adapter.py +129 -0
evalscope/benchmarks/minerva_math/__init__.py +0 -0
evalscope/benchmarks/minerva_math/minerva_math_adapter.py +48 -0
evalscope/benchmarks/mm_bench/__init__.py +0 -0
evalscope/benchmarks/mm_bench/mm_bench_adapter.py +99 -0
evalscope/benchmarks/mm_star/__init__.py +0 -0
evalscope/benchmarks/mm_star/mm_star_adapter.py +73 -0
evalscope/benchmarks/mmmu/__init__.py +0 -0
evalscope/benchmarks/mmmu/mmmu_adapter.py +159 -0
evalscope/benchmarks/mmmu_pro/__init__.py +0 -0
evalscope/benchmarks/mmmu_pro/mmmu_pro_adapter.py +124 -0
evalscope/benchmarks/multi_if/__init__.py +0 -0
evalscope/benchmarks/multi_if/ifeval.py +3354 -0
evalscope/benchmarks/multi_if/metrics.py +120 -0
evalscope/benchmarks/multi_if/multi_if_adapter.py +161 -0
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +6 -5
evalscope/benchmarks/olympiad_bench/__init__.py +0 -0
evalscope/benchmarks/olympiad_bench/olympiad_bench_adapter.py +163 -0
evalscope/benchmarks/olympiad_bench/utils.py +565 -0
evalscope/benchmarks/omni_bench/__init__.py +0 -0
evalscope/benchmarks/omni_bench/omni_bench_adapter.py +86 -0
evalscope/benchmarks/real_world_qa/__init__.py +0 -0
evalscope/benchmarks/real_world_qa/real_world_qa_adapter.py +64 -0
evalscope/benchmarks/tau_bench/generation.py +1 -1
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +20 -19
evalscope/benchmarks/text2image/__init__.py +0 -0
evalscope/benchmarks/{aigc/t2i → text2image}/evalmuse_adapter.py +3 -1
evalscope/benchmarks/{aigc/t2i → text2image}/genai_bench_adapter.py +2 -2
evalscope/benchmarks/{aigc/t2i → text2image}/general_t2i_adapter.py +1 -1
evalscope/benchmarks/{aigc/t2i → text2image}/hpdv2_adapter.py +7 -2
evalscope/benchmarks/{aigc/t2i → text2image}/tifa_adapter.py +1 -0
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +1 -2
evalscope/cli/start_app.py +7 -1
evalscope/cli/start_perf.py +7 -1
evalscope/config.py +96 -14
evalscope/constants.py +11 -0
evalscope/evaluator/evaluator.py +30 -10
evalscope/metrics/llm_judge.py +19 -7
evalscope/metrics/metric.py +27 -2
evalscope/models/image_edit_model.py +125 -0
evalscope/models/model_apis.py +22 -0
evalscope/models/openai_compatible.py +3 -0
evalscope/models/text2image_model.py +2 -2
evalscope/models/utils/openai.py +8 -6
evalscope/perf/arguments.py +2 -0
evalscope/perf/benchmark.py +2 -0
evalscope/perf/plugin/api/base.py +2 -2
evalscope/perf/plugin/api/default_api.py +7 -7
evalscope/perf/plugin/api/openai_api.py +83 -19
evalscope/perf/plugin/datasets/flickr8k.py +2 -2
evalscope/perf/plugin/datasets/kontext_bench.py +2 -2
evalscope/perf/plugin/datasets/random_vl_dataset.py +2 -2
evalscope/perf/utils/benchmark_util.py +7 -5
evalscope/perf/utils/local_server.py +3 -0
evalscope/report/__init__.py +0 -1
evalscope/report/combinator.py +0 -25
evalscope/report/generator.py +8 -87
evalscope/report/report.py +8 -4
evalscope/run.py +9 -5
evalscope/third_party/toolbench_static/llm/swift_infer.py +0 -4
evalscope/utils/chat_service.py +1 -1
evalscope/utils/function_utils.py +41 -0
evalscope/utils/import_utils.py +73 -1
evalscope/utils/io_utils.py +56 -7
evalscope/utils/json_schema.py +23 -2
evalscope/utils/logger.py +19 -0
evalscope/utils/model_utils.py +4 -3
evalscope/utils/multi_choices.py +23 -6
evalscope/version.py +2 -2
{evalscope-1.0.0.dist-info → evalscope-1.0.2.dist-info}/METADATA +17 -24
{evalscope-1.0.0.dist-info → evalscope-1.0.2.dist-info}/RECORD +145 -103
tests/benchmark/test_eval.py +80 -37
tests/benchmark/test_image_edit.py +65 -0
tests/benchmark/test_sandbox.py +81 -0
tests/benchmark/test_vlm.py +137 -0
tests/cli/test_all.py +83 -43
tests/cli/test_collection.py +8 -5
tests/cli/test_reasoning.py +81 -0
tests/common.py +73 -0
tests/perf/test_perf.py +44 -14
tests/rag/test_clip_benchmark.py +0 -3
evalscope/api/mixin/dataset_mixin.py +0 -105
evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py +0 -44
tests/aigc/__init__.py +0 -1
/evalscope/benchmarks/{aigc → ai2d}/__init__.py +0 -0
/evalscope/benchmarks/{aigc/i2i → amc}/__init__.py +0 -0
/evalscope/benchmarks/{aigc/t2i → healthbench}/__init__.py +0 -0
{evalscope-1.0.0.dist-info → evalscope-1.0.2.dist-info}/LICENSE +0 -0
{evalscope-1.0.0.dist-info → evalscope-1.0.2.dist-info}/WHEEL +0 -0
{evalscope-1.0.0.dist-info → evalscope-1.0.2.dist-info}/entry_points.txt +0 -0
{evalscope-1.0.0.dist-info → evalscope-1.0.2.dist-info}/top_level.txt +0 -0
/tests/{aigc → benchmark}/test_t2i.py +0 -0

tests/benchmark/test_eval.py CHANGED Viewed

@@ -4,17 +4,15 @@ from dotenv import dotenv_values
 env = dotenv_values('.env')
 import unittest
-from unittest import TestCase
-from evalscope.config import TaskConfig
 from evalscope.constants import EvalType, JudgeStrategy, OutputType
-from evalscope.run import run_task
 from evalscope.utils.logger import get_logger
+from tests.common import TestBenchmark
 logger = get_logger()
-class TestBenchmark(TestCase):
+class TestNativeBenchmark(TestBenchmark):
     """Benchmark evaluation test cases."""
     def setUp(self):
@@ -35,38 +33,18 @@ class TestBenchmark(TestCase):
             'judge_strategy': JudgeStrategy.AUTO,
             'judge_worker_num': 5,
             'judge_model_args': {
-                'model_id': 'qwen2.5-72b-instruct',
+                'model_id': 'qwen3-235b-a22b',
                 'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
                 'api_key': env.get('DASHSCOPE_API_KEY'),
                 'generation_config': {
                     'temperature': 0.0,
                     'max_tokens': 4096,
+                    'extra_body': {'enable_thinking': False}
                 }
             },
             'debug': True,
         }
-    def _run_dataset_test(self, dataset_name, dataset_args=None, use_mock=False, **config_overrides):
-        """Helper method to run test for a specific dataset."""
-        config = self.base_config.copy()
-        config['datasets'] = [dataset_name]
-        if use_mock:
-            config['eval_type'] = EvalType.MOCK_LLM
-        # 应用配置覆盖
-        config.update(config_overrides)
-        if dataset_args:
-            config['dataset_args'] = {dataset_name: dataset_args}
-        task_cfg = TaskConfig(**config)
-        run_task(task_cfg=task_cfg)
-    def _run_dataset_load_test(self, dataset_name, dataset_args=None):
-        """Helper method to test dataset loading."""
-        self._run_dataset_test(dataset_name, dataset_args, use_mock=True, limit=None)
     # Math & Reasoning datasets
     def test_gsm8k(self):
@@ -84,10 +62,18 @@ class TestBenchmark(TestCase):
         """Test MMLU reasoning dataset."""
         dataset_args = {
             'few_shot_num': 0,
-            # 'subset_list': ['abstract_algebra', 'computer_security']
+            'subset_list': ['abstract_algebra', 'computer_security']
         }
         self._run_dataset_test('mmlu', use_mock=True, dataset_args=dataset_args)
+    def test_mmlu_reasoning(self):
+        """Test MMLU reasoning dataset."""
+        dataset_args = {
+            'few_shot_num': 0,
+            'subset_list': ['abstract_algebra', 'computer_security']
+        }
+        self._run_dataset_test('mmlu', dataset_args=dataset_args, model='qwen3-0.6b', stream=True)
     def test_mmlu_pro(self):
         """Test MMLU-Pro reasoning dataset."""
         dataset_args = {
@@ -116,7 +102,11 @@ class TestBenchmark(TestCase):
     def test_math_500(self):
         """Test MATH 500 dataset."""
         # self._run_dataset_load_test('math_500')
-        self._run_dataset_test('math_500')
+        dataset_args = {
+            'subset_list': ['Level 1', 'Level 2'],
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('math_500', dataset_args=dataset_args)
     def test_aime24(self):
         """Test AIME 2024 dataset."""
@@ -222,6 +212,7 @@ class TestBenchmark(TestCase):
     def test_bbh(self):
         dataset_args = {
             'subset_list': ['temporal_sequences', 'navigate'],
+            'few_shot_num': 0,
         }
         self._run_dataset_test('bbh', dataset_args=dataset_args)
@@ -336,20 +327,21 @@ class TestBenchmark(TestCase):
     def test_humaneval(self):
         """Test HumanEval dataset."""
         dataset_args = {
-            'metric_list': ['Pass@1', 'Pass@2', 'Pass@5']
+            'metric_list': ['Pass@1']
         }
-        self._run_dataset_test('humaneval', dataset_args, repeats=5)
+        self._run_dataset_test('humaneval', dataset_args)
     def test_live_code_bench(self):
         """Test LiveCodeBench dataset."""
         dataset_args = {
-            'subset_list': ['v6'],
+            'subset_list': ['v5'],
+            'review_timeout': 6,
             'extra_params': {
                 'start_date': '2024-08-01',
                 'end_date': '2025-02-28'
             },
         }
-        self._run_dataset_test('live_code_bench', dataset_args, judge_worker_num=1)
+        self._run_dataset_test('live_code_bench', dataset_args, limit=20, use_cache='outputs/20250918_200232', rerun_review=True)
     def test_tool_bench(self):
         """Test ToolBench dataset."""
@@ -358,27 +350,78 @@ class TestBenchmark(TestCase):
     def test_bfcl(self):
         """Test BFCL dataset."""
         dataset_args = {
-            'subset_list': ['simple', 'live_multiple', 'multi_turn_base'],
+            'subset_list': [
+                # 'simple',
+                # 'live_multiple',
+                # 'multi_turn_base',
+                'multi_turn_miss_func'
+            ],
             'extra_params': {
                 'is_fc_model': True,
                 'underscore_to_dot': True
             }
         }
-        self._run_dataset_test('bfcl_v3', dataset_args)
+        self._run_dataset_test('bfcl_v3', dataset_args, model='qwen-plus', limit=30, eval_batch_size=5)
     def test_tau_bench(self):
         dataset_args = {
+            'subset_list': [
+                'airline',
+                'retail'
+            ],
             'extra_params': {
                 'user_model': 'qwen-plus',
                 'api_key': env.get('DASHSCOPE_API_KEY'),
                 'api_base': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
                 'generation_config': {
-                    'temperature': 0.7,
-                    'max_new_tokens': 1024
+                    'temperature': 0.0,
+                    'max_tokens': 12000,
+                    'stream': True
                 }
             }
         }
-        self._run_dataset_test('tau_bench', dataset_args, limit=1)
+        self._run_dataset_test('tau_bench', dataset_args, limit=5, model='qwq-plus', stream=True)
+    def test_r1_collection(self):
+        dataset_args = {
+            'dataset_id': 'evalscope/R1-Distill-Math-Test-v2'
+        }
+        self._run_dataset_test('data_collection', dataset_args)
+    def test_qwen3_collection(self):
+        dataset_args = {
+            'dataset_id': 'evalscope/Qwen3-Test-Collection'
+        }
+        self._run_dataset_test('data_collection', dataset_args)
+    def test_multi_if(self):
+        dataset_args = {
+            'subset_list': ['English', 'Chinese'],
+            'few_shot_num': 0,
+        }
+        self._run_dataset_test('multi_if', dataset_args, limit=5)
+    def test_healthbench(self):
+        dataset_args = {
+            'subset_list': ['health_data_tasks'],
+            'extra_params': {
+                'version': 'Hard'
+            }
+        }
+        self._run_dataset_test('health_bench', dataset_args, limit=5)
+    def test_amc(self):
+        dataset_args = {
+            'subset_list': ['amc22'],
+        }
+        self._run_dataset_test('amc', dataset_args)
+    def test_minerva_math(self):
+        dataset_args = {
+            'subset_list': ['default'],
+        }
+        self._run_dataset_test('minerva_math', dataset_args)
 if __name__ == '__main__':
     # Run specific test: python -m unittest test_eval.TestBenchmark.test_gsm8k

tests/benchmark/test_image_edit.py ADDED Viewed

@@ -0,0 +1,65 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+from dotenv import dotenv_values
+env = dotenv_values('.env')
+import unittest
+from evalscope.constants import EvalType, JudgeStrategy, ModelTask
+from evalscope.utils.logger import get_logger
+from tests.common import TestBenchmark
+logger = get_logger()
+class TestImageEditBenchmark(TestBenchmark):
+    def setUp(self):
+        """Setup common test configuration."""
+        self.base_config = {
+            'model': 'Qwen/Qwen-Image-Edit',
+            'model_args':{
+                'precision': 'bfloat16',
+                'device_map': 'cuda:2'
+            },
+            'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+            'api_key': env.get('DASHSCOPE_API_KEY'),
+            'model_task': ModelTask.IMAGE_GENERATION,
+            'eval_type': EvalType.IMAGE_EDITING,
+            'eval_batch_size': 1,
+            'limit': 5,
+            'generation_config': {
+                'true_cfg_scale': 4.0,
+                'num_inference_steps': 50,
+                'negative_prompt': ' ',
+            },
+            'judge_strategy': JudgeStrategy.AUTO,
+            'judge_worker_num': 5,
+            'judge_model_args': {
+                'model_id': 'qwen2.5-vl-72b-instruct',
+                'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+                'api_key': env.get('DASHSCOPE_API_KEY'),
+                'generation_config': {
+                    'temperature': 0.0,
+                    'max_tokens': 4096,
+                }
+            },
+            'debug': True,
+        }
+    def test_gedit(self):
+        """Test GEdit dataset."""
+        dataset_args = {
+            'extra_params':{
+                'language': 'cn',
+            }
+        }
+        self._run_dataset_test('gedit', dataset_args=dataset_args, use_cache='outputs/20250829_150058')
+    def test_gedit_local(self):
+        dataset_args = {
+            'extra_params':{
+                'language': 'cn',
+                'local_file': 'outputs/example_edit.jsonl',
+            }
+        }
+        self._run_dataset_test('gedit', dataset_args=dataset_args, model=None, model_id='offline_model')

tests/benchmark/test_sandbox.py ADDED Viewed

@@ -0,0 +1,81 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+from dotenv import dotenv_values
+env = dotenv_values('.env')
+import unittest
+from evalscope.constants import EvalType, JudgeStrategy, OutputType
+from evalscope.utils.logger import get_logger
+from tests.common import TestBenchmark
+logger = get_logger()
+class TestCodeBenchmark(TestBenchmark):
+    """Benchmark evaluation test cases."""
+    def setUp(self):
+        """Setup common test configuration."""
+        self.base_config = {
+            'model': 'qwen-plus',
+            'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+            'api_key': env.get('DASHSCOPE_API_KEY'),
+            'eval_type': EvalType.SERVICE,
+            'eval_batch_size': 5,
+            'limit': 5,
+            'generation_config': {
+                'max_tokens': 4096,
+                'temperature': 0.0,
+                'seed': 42,
+                'parallel_tool_calls': True
+            },
+            'judge_strategy': JudgeStrategy.AUTO,
+            'judge_worker_num': 5,
+            'judge_model_args': {
+                'model_id': 'qwen2.5-72b-instruct',
+                'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+                'api_key': env.get('DASHSCOPE_API_KEY'),
+                'generation_config': {
+                    'temperature': 0.0,
+                    'max_tokens': 4096,
+                }
+            },
+            'use_sandbox': True,
+            'sandbox_type': 'docker',
+            'debug': True,
+        }
+    def test_humaneval(self):
+        """Test Humaneval dataset."""
+        self._run_dataset_test('humaneval', limit=5)
+    def test_humaneval_remote_sandbox(self):
+        """Test Humaneval dataset with remote sandbox manager."""
+        sandbox_manager_config = {'base_url': 'http://localhost:8000'}
+        self._run_dataset_test('humaneval', limit=5, sandbox_manager_config=sandbox_manager_config)
+    def test_live_code_bench(self):
+        """Test Live Code Bench dataset."""
+        dataset_args = {
+            'subset_list': ['v5'],
+            'review_timeout': 6,
+            'extra_params': {
+                'start_date': '2024-08-01',
+                'end_date': '2025-02-28'
+            },
+        }
+        self._run_dataset_test('live_code_bench', limit=5, dataset_args=dataset_args, use_cache='outputs/20250918_200232', rerun_review=True)
+    def test_live_code_bench_remote_sandbox(self):
+        """Test Live Code Bench dataset."""
+        dataset_args = {
+            'subset_list': ['v5'],
+            'review_timeout': 6,
+            'extra_params': {
+                'start_date': '2024-08-01',
+                'end_date': '2025-02-28'
+            },
+        }
+        sandbox_manager_config = {'base_url': 'http://localhost:8000'}
+        self._run_dataset_test('live_code_bench', limit=20, dataset_args=dataset_args, sandbox_manager_config=sandbox_manager_config, use_cache='outputs/20250918_200232_2', rerun_review=True)

tests/benchmark/test_vlm.py ADDED Viewed

@@ -0,0 +1,137 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+from dotenv import dotenv_values
+env = dotenv_values('.env')
+import unittest
+from evalscope.constants import EvalType, JudgeStrategy, OutputType
+from evalscope.utils.logger import get_logger
+from tests.common import TestBenchmark
+logger = get_logger()
+class TestVLMBenchmark(TestBenchmark):
+    """Benchmark evaluation test cases."""
+    def setUp(self):
+        """Setup common test configuration."""
+        self.base_config = {
+            'model': 'qwen-vl-plus',
+            'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+            'api_key': env.get('DASHSCOPE_API_KEY'),
+            'eval_type': EvalType.SERVICE,
+            'eval_batch_size': 5,
+            'limit': 5,
+            'generation_config': {
+                'max_tokens': 2048,
+                'temperature': 0.0,
+                'seed': 42,
+                'parallel_tool_calls': True
+            },
+            'judge_strategy': JudgeStrategy.AUTO,
+            'judge_worker_num': 5,
+            'judge_model_args': {
+                'model_id': 'qwen2.5-72b-instruct',
+                'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+                'api_key': env.get('DASHSCOPE_API_KEY'),
+                'generation_config': {
+                    'temperature': 0.0,
+                    'max_tokens': 4096,
+                }
+            },
+            'debug': True,
+        }
+    def test_mmmu(self):
+        dataset_args = {
+            'subset_list':[
+                'Accounting',
+                'Agriculture',
+                # 'Architecture_and_Engineering'
+            ]
+        }
+        self._run_dataset_test('mmmu', dataset_args=dataset_args)
+    def test_math_vista(self):
+        dataset_args = {
+            'subset_list': ['default']
+        }
+        self._run_dataset_test('math_vista', dataset_args=dataset_args)
+    def test_mmmu_pro(self):
+        dataset_args = {
+            'subset_list':[
+                'Accounting',
+                # 'Agriculture',
+            ],
+            'extra_params': {
+                'dataset_format': 'standard (4 options)',  # 'standard (4 options)', 'standard (10 options)', 'vision'
+            },
+        }
+        self._run_dataset_test('mmmu_pro', dataset_args=dataset_args, limit=10)
+    def test_qwen3_vl_collection(self):
+        dataset_args = {
+            'dataset_id': 'outputs/qwen3_vl_test.jsonl',
+            'shuffle': True,
+        }
+        self._run_dataset_test('data_collection', dataset_args, limit=100)
+    def test_real_world_qa(self):
+        dataset_args = {
+            'subset_list': ['default']
+        }
+        self._run_dataset_test('real_world_qa', dataset_args=dataset_args, limit=10)
+    def test_ai2d(self):
+        dataset_args = {
+            'subset_list': ['default']
+        }
+        self._run_dataset_test('ai2d', dataset_args=dataset_args)
+    def test_cc_bench(self):
+        dataset_args = {
+            'subset_list': ['cc']
+        }
+        self._run_dataset_test('cc_bench', dataset_args=dataset_args)
+    def test_mm_bench(self):
+        dataset_args = {
+            'subset_list': ['cn', 'en']
+        }
+        self._run_dataset_test('mm_bench', dataset_args=dataset_args)
+    def test_mm_star(self):
+        dataset_args = {
+            # 'subset_list': ['val']
+        }
+        self._run_dataset_test('mm_star', dataset_args=dataset_args)
+    def test_omni_bench(self):
+        dataset_args = {
+            'extra_params': {
+                'use_image': True, # Whether to use image input, if False, use text alternative image content.
+                'use_audio': True, # Whether to use audio input, if False, use text alternative audio content.
+            }
+        }
+        self._run_dataset_test('omni_bench', dataset_args=dataset_args, model='qwen-omni-turbo')
+    def test_olympiad_bench(self):
+        dataset_args = {
+            'subset_list': [
+                # 'OE_MM_maths_en_COMP',
+                # 'OE_MM_maths_zh_CEE',
+                # 'OE_MM_maths_zh_COMP',
+                # 'OE_MM_physics_en_COMP',
+                # 'OE_MM_physics_zh_CEE',
+                # 'OE_TO_maths_en_COMP',
+                # 'OE_TO_maths_zh_CEE',
+                # 'OE_TO_maths_zh_COMP',
+                # 'OE_TO_physics_en_COMP',
+                # 'OE_TO_physics_zh_CEE',
+                'TP_TO_maths_zh_CEE',
+            ]
+        }
+        self._run_dataset_test('olympiad_bench', dataset_args=dataset_args)

tests/cli/test_all.py CHANGED Viewed

@@ -17,44 +17,44 @@ os.environ['EVALSCOPE_LOG_LEVEL'] = 'DEBUG'
 logger = get_logger()
 datasets=[
-        'iquiz',
-        'ifeval',
-        'mmlu',
-        'mmlu_pro',
-        'musr',
-        'process_bench',
-        'race',
-        'trivia_qa',
-        'cmmlu',
-        'humaneval',
-        'gsm8k',
-        'bbh',
-        'competition_math',
-        'math_500',
-        'aime24',
-        'gpqa_diamond',
-        'arc',
-        'ceval',
-        'hellaswag',
-        'general_mcq',
-        'general_qa',
-        'super_gpqa',
-        # 'live_code_bench',
-        'mmlu_redux',
-        'simple_qa',
-        'chinese_simpleqa',
-        'alpaca_eval',
-        'arena_hard',
-        'maritime_bench',
-        'drop',
-        'winogrande',
-        'tool_bench',
-        'frames',
-        'docmath',
-        'needle_haystack',
-        'bfcl_v3',
-        'hle',
-        'tau_bench',
+    'iquiz',
+    'ifeval',
+    'mmlu',
+    'mmlu_pro',
+    'musr',
+    'process_bench',
+    'race',
+    'trivia_qa',
+    'cmmlu',
+    'humaneval',
+    'gsm8k',
+    'bbh',
+    'competition_math',
+    'math_500',
+    'aime24',
+    'gpqa_diamond',
+    'arc',
+    'ceval',
+    'hellaswag',
+    'general_mcq',
+    'general_qa',
+    'super_gpqa',
+    # 'live_code_bench',
+    'mmlu_redux',
+    'simple_qa',
+    'chinese_simpleqa',
+    'alpaca_eval',
+    'arena_hard',
+    'maritime_bench',
+    'drop',
+    'winogrande',
+    'tool_bench',
+    'frames',
+    'docmath',
+    'needle_haystack',
+    'bfcl_v3',
+    'hle',
+    'tau_bench',
 ]
 # Reverse the datasets list to ensure the order is from most recent to oldest
@@ -150,7 +150,6 @@ dataset_args={
 }
 class TestRun(unittest.TestCase):
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
     def test_benchmarks(self):
         from evalscope.config import TaskConfig
@@ -180,19 +179,60 @@ class TestRun(unittest.TestCase):
         run_task(task_cfg=task_cfg)
+    def test_vlm_benchmark(self):
+        from evalscope.config import TaskConfig
+        task_cfg = TaskConfig(
+            model='qwen-vl-plus',
+            api_url='https://dashscope.aliyuncs.com/compatible-mode/v1',
+            api_key= env.get('DASHSCOPE_API_KEY'),
+            eval_type=EvalType.SERVICE,
+            datasets=[
+                'mmmu',
+                # 'math_vista',
+            ],
+            dataset_args={
+                'mmmu': {
+                    'subset_list': ['Accounting']
+                },
+                'math_vista': {
+                    'subset_list': ['default']
+                }
+            },
+            eval_batch_size=1,
+            limit=1,
+            stream=True,
+            generation_config={
+                'temperature': 0,
+                'n': 1,
+                'max_tokens': 4096,
+                'image_height': 512,
+                'image_width': 512,
+                'image_num': 2,
+            },
+            judge_worker_num=5,
+            judge_strategy=JudgeStrategy.AUTO,
+            judge_model_args={
+                'model_id': 'qwen2.5-72b-instruct',
+                'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
+                'api_key': env.get('DASHSCOPE_API_KEY'),
+            }
+        )
+        run_task(task_cfg=task_cfg)
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
     def test_ci_lite(self):
         from evalscope.config import TaskConfig
+        api_key = env.get('DASHSCOPE_API_KEY')
         task_cfg = TaskConfig(
             model='qwen-plus',
             api_url='https://dashscope.aliyuncs.com/compatible-mode/v1',
-            api_key= env.get('DASHSCOPE_API_KEY'),
-            eval_type=EvalType.SERVICE,
+            api_key=api_key,
+            eval_type=EvalType.SERVICE if api_key else EvalType.MOCK_LLM,
             datasets=[
                 'general_mcq',
-                'general_qa',
                 'iquiz',
             ],
             dataset_args={

tests/cli/test_collection.py CHANGED Viewed

@@ -52,16 +52,19 @@ class TestCollection(unittest.TestCase):
             api_key=env.get('DASHSCOPE_API_KEY'),
             eval_type=EvalType.SERVICE,
             datasets=['data_collection'],
-            dataset_args={'data_collection': {
-                'local_path': 'outputs/mixed_data_test.jsonl'
-                # 'local_path': 'outputs/weighted_mixed_data.jsonl'
-            }},
+            dataset_args={
+                'data_collection': {
+                    # 'local_path': 'outputs/test_mix.jsonl'
+                    'local_path': 'outputs/mixed_data_test.jsonl',
+                    'shuffle': True,
+                }
+            },
             eval_batch_size=5,
             generation_config = {
                 'max_tokens': 10000,
                 'temperature': 0.0,
             },
-            limit=50,
+            limit=10,
             # use_cache='outputs/20250822_161804'
         )
         run_task(task_cfg=task_cfg)

evalscope 1.0.0__py3-none-any.whl → 1.0.2__py3-none-any.whl

Potentially problematic release.

evalscope 1.0.0py3-none-any.whl → 1.0.2py3-none-any.whl