PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (273) hide show

evalscope/__init__.py +4 -1
evalscope/api/__init__.py +0 -0
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +3 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +683 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +155 -0
evalscope/api/benchmark/benchmark.py +321 -0
evalscope/api/benchmark/meta.py +115 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +261 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +355 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +264 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +11 -0
evalscope/api/messages/chat_message.py +198 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +105 -0
evalscope/api/mixin/__init__.py +2 -0
evalscope/api/mixin/dataset_mixin.py +105 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +157 -0
evalscope/api/model/model.py +383 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +23 -11
evalscope/app/utils/data_utils.py +42 -26
evalscope/app/utils/text_utils.py +0 -2
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +6 -7
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -3
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +2 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aigc/i2i/__init__.py +0 -0
evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py +44 -0
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +53 -55
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +41 -46
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +29 -45
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +34 -44
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +16 -27
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +181 -160
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +94 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +183 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +135 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +136 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +192 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +112 -54
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -265
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +95 -54
evalscope/constants.py +29 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +277 -423
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +32 -30
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +47 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +123 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +698 -0
evalscope/perf/benchmark.py +2 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +7 -5
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +8 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -2
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +101 -6
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +26 -44
evalscope/summarizer.py +1 -1
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +2 -1
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/io_utils.py +100 -5
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +10 -7
evalscope/utils/multi_choices.py +271 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/METADATA +98 -49
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/RECORD +234 -216
tests/aigc/test_t2i.py +22 -4
tests/benchmark/__init__.py +1 -0
tests/benchmark/test_eval.py +386 -0
tests/cli/test_all.py +3 -5
tests/cli/test_collection.py +13 -4
tests/cli/test_custom.py +22 -15
tests/rag/test_clip_benchmark.py +1 -0
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/top_level.txt +0 -0

evalscope/perf/benchmark.py CHANGED Viewed

@@ -189,7 +189,8 @@ async def benchmark(args: Arguments) -> Tuple[Dict, Dict]:
     await connect_test(args, api_plugin)
     # start statistic benchmark metric
     statistic_benchmark_metric_task = asyncio.create_task(
-        statistic_benchmark_metric(benchmark_data_queue, args, api_plugin))
+        statistic_benchmark_metric(benchmark_data_queue, args, api_plugin)
+    )
     # start send request
     semaphore = asyncio.Semaphore(args.parallel)
     send_request_tasks: List[asyncio.Task] = []

evalscope/perf/http_client.py CHANGED Viewed

@@ -26,7 +26,8 @@ class AioHttpClient:
         self.api_plugin = api_plugin
         self.client = aiohttp.ClientSession(
             timeout=aiohttp.ClientTimeout(connect=self.connect_timeout, sock_read=self.read_timeout),
-            trace_configs=[self._create_trace_config()] if args.debug else [])
+            trace_configs=[self._create_trace_config()] if args.debug else []
+        )
     async def __aenter__(self):
         pass
@@ -105,7 +106,8 @@ async def test_connection(args: Arguments, api_plugin: 'ApiPluginBase') -> bool:
     while True:
         try:
             is_error, state_code, response_data = await asyncio.wait_for(
-                attempt_connection(), timeout=args.connect_timeout)
+                attempt_connection(), timeout=args.connect_timeout
+            )
             if not is_error:
                 logger.info('Test connection successful.')
                 return True

evalscope/perf/plugin/api/custom_api.py CHANGED Viewed

@@ -153,7 +153,8 @@ class CustomPlugin(ApiPluginBase):
             # If no usage information and no tokenizer, raise an error
             raise ValueError(
-                'Cannot determine token counts: no usage information in response and no tokenizer provided.')
+                'Cannot determine token counts: no usage information in response and no tokenizer provided.'
+            )
         except Exception as e:
             logger.error(f'Error parsing responses: {e}')
@@ -186,8 +187,7 @@ class CustomPlugin(ApiPluginBase):
             data = json.dumps(body, ensure_ascii=False)
             # Send the request
-            async with client_session.request(
-                'POST', url=url, data=data, headers=headers) as response:  # noqa: E125
+            async with client_session.request('POST', url=url, data=data, headers=headers) as response:  # noqa: E125
                 # Get the status code
                 status_code = response.status
@@ -244,6 +244,7 @@ if __name__ == '__main__':
         api='custom',  # Use the custom API plugin registered above
         dataset='openqa',
         number=1,
-        max_tokens=10)
+        max_tokens=10
+    )
     run_perf_benchmark(args)

evalscope/perf/plugin/api/openai_api.py CHANGED Viewed

@@ -159,13 +159,15 @@ class OpenaiPlugin(DefaultApiPlugin):
                 input_tokens += len(self.tokenizer.encode(request['messages'][0]['content']))
                 output_tokens += len(self.tokenizer.encode(full_response_content))
         else:
-            raise ValueError('Error: Unable to retrieve usage information\n\n'
-                             'This error occurs when:\n'
-                             '1. The API response does not contain usage data, AND\n'
-                             '2. No tokenizer has been specified or found.\n\n'
-                             'To resolve this issue, do ONE of the following:\n'
-                             "a) Ensure that the API you're using supports and returns usage information, OR\n"
-                             'b) Specify a tokenizer using the `--tokenizer-path` parameter.\n\n'
-                             'If you continue to experience issues, '
-                             'please open an issue on our GitHub repository https://github.com/modelscope/evalscope .')
+            raise ValueError(
+                'Error: Unable to retrieve usage information\n\n'
+                'This error occurs when:\n'
+                '1. The API response does not contain usage data, AND\n'
+                '2. No tokenizer has been specified or found.\n\n'
+                'To resolve this issue, do ONE of the following:\n'
+                "a) Ensure that the API you're using supports and returns usage information, OR\n"
+                'b) Specify a tokenizer using the `--tokenizer-path` parameter.\n\n'
+                'If you continue to experience issues, '
+                'please open an issue on our GitHub repository https://github.com/modelscope/evalscope .'
+            )
         return input_tokens, output_tokens

evalscope/perf/plugin/datasets/custom.py CHANGED Viewed

@@ -17,7 +17,8 @@ class CustomDatasetPlugin(DatasetPluginBase):
         for item in self.dataset_line_by_line(self.query_parameters.dataset_path):
             prompt = item.strip()
             if len(prompt) > self.query_parameters.min_prompt_length and len(
-                    prompt) < self.query_parameters.max_prompt_length:
+                prompt
+            ) < self.query_parameters.max_prompt_length:
                 if self.query_parameters.apply_chat_template:
                     message = self.create_message(prompt)
                     yield [message]

evalscope/perf/plugin/datasets/flickr8k.py CHANGED Viewed

@@ -24,5 +24,5 @@ class FlickrDatasetPlugin(DatasetPluginBase):
             text = item['txt']
             base64_image = PIL_to_base64(pil_image)
-            message = self.create_message(text=text, image_url=f'data:image/jpeg;base64,{base64_image}')
+            message = self.create_message(text=text, image_urls=f'data:image/jpeg;base64,{base64_image}')
             yield [message]

evalscope/perf/plugin/datasets/kontext_bench.py CHANGED Viewed

@@ -24,5 +24,5 @@ class KontextDatasetPlugin(DatasetPluginBase):
             text = item['instruction']
             base64_image = PIL_to_base64(pil_image)
-            message = self.create_message(text=text, image_url=f'data:image/jpeg;base64,{base64_image}')
+            message = self.create_message(text=text, image_urls=f'data:image/jpeg;base64,{base64_image}')
             yield [message]

evalscope/perf/plugin/datasets/line_by_line.py CHANGED Viewed

@@ -18,7 +18,8 @@ class LineByLineDatasetPlugin(DatasetPluginBase):
         for item in self.dataset_line_by_line(self.query_parameters.dataset_path):
             prompt = item.strip()
             if len(prompt) > self.query_parameters.min_prompt_length and len(
-                    prompt) < self.query_parameters.max_prompt_length:
+                prompt
+            ) < self.query_parameters.max_prompt_length:
                 if self.query_parameters.apply_chat_template:
                     message = self.create_message(prompt)
                     yield [message]

evalscope/perf/plugin/datasets/longalpaca.py CHANGED Viewed

@@ -23,7 +23,8 @@ class LongAlpacaDatasetPlugin(DatasetPluginBase):
         for item in ds:
             prompt = item['instruction'].strip()
             if len(prompt) > self.query_parameters.min_prompt_length and len(
-                    prompt) < self.query_parameters.max_prompt_length:
+                prompt
+            ) < self.query_parameters.max_prompt_length:
                 if self.query_parameters.apply_chat_template:
                     message = self.create_message(prompt)
                     yield [message]

evalscope/perf/plugin/datasets/openqa.py CHANGED Viewed

@@ -27,8 +27,10 @@ class OpenqaDatasetPlugin(DatasetPluginBase):
         for item in self.dataset_line_by_line(self.query_parameters.dataset_path):
             item = json.loads(item)
             prompt = item['question'].strip()
-            if (len(prompt) > self.query_parameters.min_prompt_length
-                    and len(prompt) < self.query_parameters.max_prompt_length):
+            if (
+                len(prompt) > self.query_parameters.min_prompt_length
+                and len(prompt) < self.query_parameters.max_prompt_length
+            ):
                 if self.query_parameters.apply_chat_template:
                     message = self.create_message(prompt)
                     yield [message]

evalscope/perf/utils/benchmark_util.py CHANGED Viewed

@@ -33,8 +33,8 @@ class BenchmarkData:
         if len(self.chunk_times) > 1:
             self.first_chunk_latency = self.chunk_times[0] - self.start_time
             # remove the first chunk time from the total latency
-            self.time_per_output_token = (self.query_latency - self.first_chunk_latency) / (
-                self.completion_tokens - 1) if self.completion_tokens > 1 else 0.0
+            self.time_per_output_token = (self.query_latency - self.first_chunk_latency
+                                          ) / (self.completion_tokens - 1) if self.completion_tokens > 1 else 0.0
             self.inter_chunk_latency = [t2 - t1 for t1, t2 in zip(self.chunk_times[:-1], self.chunk_times[1:])]
         else:
             self.first_chunk_latency = self.query_latency
@@ -126,11 +126,13 @@ class BenchmarkMetrics:
             self.avg_completion_tokens = self.n_total_completion_tokens / self.n_succeed_queries
             self.avg_input_token_per_seconds = self.n_total_prompt_tokens / self.total_first_chunk_latency
             self.avg_output_token_per_seconds = self.n_total_completion_tokens / self.total_time
-            self.avg_total_token_per_seconds = (self.n_total_prompt_tokens
-                                                + self.n_total_completion_tokens) / self.total_time
+            self.avg_total_token_per_seconds = (
+                self.n_total_prompt_tokens + self.n_total_completion_tokens
+            ) / self.total_time
             self.avg_time_per_token = self.n_time_per_output_token / self.n_succeed_queries
             self.avg_inter_token_latency = sum(self.n_total_inter_token_latency) / len(
-                self.n_total_inter_token_latency) if self.n_total_inter_token_latency else 0.0
+                self.n_total_inter_token_latency
+            ) if self.n_total_inter_token_latency else 0.0
             self.qps = self.n_succeed_queries / self.total_time
         except ZeroDivisionError as e:
             logger.exception(e)

evalscope/perf/utils/db_util.py CHANGED Viewed

@@ -56,7 +56,8 @@ def transpose_results(data):
 def create_result_table(cursor):
-    cursor.execute(f'''CREATE TABLE IF NOT EXISTS result(
+    cursor.execute(
+        f'''CREATE TABLE IF NOT EXISTS result(
                       {DatabaseColumns.REQUEST} TEXT,
                       {DatabaseColumns.START_TIME} REAL,
                       {DatabaseColumns.CHUNK_TIMES} TEXT,
@@ -69,7 +70,8 @@ def create_result_table(cursor):
                       {DatabaseColumns.COMPLETION_TOKENS} INTEGER,
                       {DatabaseColumns.MAX_GPU_MEMORY_COST} REAL,
                       {DatabaseColumns.TIME_PER_OUTPUT_TOKEN} REAL
-                   )''')
+                   )'''
+    )
 def insert_benchmark_data(cursor: sqlite3.Cursor, benchmark_data: BenchmarkData):
@@ -89,9 +91,10 @@ def insert_benchmark_data(cursor: sqlite3.Cursor, benchmark_data: BenchmarkData)
     if benchmark_data.success:
         # Add additional columns for success case
-        additional_columns = (benchmark_data.query_latency, benchmark_data.first_chunk_latency,
-                              benchmark_data.prompt_tokens, benchmark_data.completion_tokens,
-                              benchmark_data.max_gpu_memory_cost, benchmark_data.time_per_output_token)
+        additional_columns = (
+            benchmark_data.query_latency, benchmark_data.first_chunk_latency, benchmark_data.prompt_tokens,
+            benchmark_data.completion_tokens, benchmark_data.max_gpu_memory_cost, benchmark_data.time_per_output_token
+        )
         query = f"""INSERT INTO result(
                       {DatabaseColumns.REQUEST}, {DatabaseColumns.START_TIME}, {DatabaseColumns.CHUNK_TIMES},
                       {DatabaseColumns.SUCCESS}, {DatabaseColumns.RESPONSE_MESSAGES}, {DatabaseColumns.COMPLETED_TIME},
@@ -124,7 +127,7 @@ def get_result_db_path(args: Arguments):
     logger.info(f'Save the data base to: {result_db_path}')
     if os.path.exists(result_db_path):
-        logger.warning('The db file exists, delete it and start again!.')
+        logger.error(f'The db file {result_db_path} exists, delete it and start again!.')
         sys.exit(1)
     return result_db_path

evalscope/perf/utils/local_server.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import os
 import subprocess
-import torch
 import uvicorn
 from contextlib import asynccontextmanager
 from dataclasses import dataclass
@@ -61,8 +60,12 @@ class ServerSentEvent(object):
 @asynccontextmanager
 async def lifespan(app: FastAPI):
     yield
-    if torch.cuda.is_available():
-        torch.cuda.empty_cache()
+    try:
+        import torch
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
+    except ImportError:
+        pass
 def create_app(model, attn_implementation=None) -> FastAPI:
@@ -102,6 +105,8 @@ def start_app(args: Arguments):
         uvicorn.run(app, host='0.0.0.0', port=args.port, workers=1)
     elif args.api == 'local_vllm':
+        import torch
         os.environ['VLLM_USE_MODELSCOPE'] = 'True'
         os.environ['VLLM_ALLOW_LONG_MAX_MODEL_LEN'] = '1'
         os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'

evalscope/perf/utils/rich_display.py CHANGED Viewed

@@ -32,8 +32,9 @@ def analyze_results(all_results):
             avg_tps = total_metrics.get(Metrics.OUTPUT_TOKEN_THROUGHPUT, 0)
             avg_ttft = total_metrics.get(Metrics.AVERAGE_TIME_TO_FIRST_TOKEN, 0)
             p99_ttft = percentile_metrics.get(PercentileMetrics.TTFT)[percentiles.index('99%')]
-            success_rate = (total_metrics.get(Metrics.SUCCEED_REQUESTS, 0)
-                            / total_metrics.get(Metrics.TOTAL_REQUESTS, 1)) * 100
+            success_rate = (
+                total_metrics.get(Metrics.SUCCEED_REQUESTS, 0) / total_metrics.get(Metrics.TOTAL_REQUESTS, 1)
+            ) * 100
             avg_tpot = total_metrics.get(Metrics.AVERAGE_TIME_PER_OUTPUT_TOKEN, 0)
             p99_tpot = percentile_metrics.get(PercentileMetrics.TPOT)[percentiles.index('99%')]
@@ -55,12 +56,13 @@ def analyze_results(all_results):
                 f'{p99_tpot:.3f}' if p99_tpot is not None else 'N/A',
             ])
-            total_tokens += total_metrics.get(Metrics.AVERAGE_OUTPUT_TOKENS_PER_REQUEST, 0) * total_metrics.get(
-                Metrics.SUCCEED_REQUESTS, 0)
+            total_tokens += total_metrics.get(Metrics.AVERAGE_OUTPUT_TOKENS_PER_REQUEST,
+                                              0) * total_metrics.get(Metrics.SUCCEED_REQUESTS, 0)
             total_time += total_metrics.get(Metrics.TIME_TAKEN_FOR_TESTS, 0)
         except Exception as e:
             logger.warning(
-                f"Warning: Error processing results for concurrency {result.get('concurrency', 'unknown')}: {str(e)}")
+                f"Warning: Error processing results for concurrency {result.get('concurrency', 'unknown')}: {str(e)}"
+            )
             continue
     if not summary:
@@ -138,7 +140,8 @@ def print_summary(all_results, model_name):
                 f'{float(row[8]):.3f}',  # Average TPOT
                 f'{float(row[9]):.3f}',  # P99 TPOT
                 row[6],  # Success Rate
-                style=row_style)
+                style=row_style
+            )
         except ValueError as e:
             console.print(f'Warning: Error processing row data: {str(e)}', style='bold red')
             continue
@@ -156,8 +159,9 @@ def print_summary(all_results, model_name):
         perf_info.add_column('Value', style='green', width=40)
         perf_info.add_row('Highest RPS', f'Concurrency {summary[best_rps_idx][0]} ({summary[best_rps_idx][1]} req/sec)')
-        perf_info.add_row('Lowest Latency',
-                          f'Concurrency {summary[best_latency_idx][0]} ({summary[best_latency_idx][2]} seconds)')
+        perf_info.add_row(
+            'Lowest Latency', f'Concurrency {summary[best_latency_idx][0]} ({summary[best_latency_idx][2]} seconds)'
+        )
         console.print('\n')
         console.print(perf_info)
@@ -166,7 +170,8 @@ def print_summary(all_results, model_name):
         recommendations = []
         if best_rps_idx == len(summary) - 1:
             recommendations.append(
-                'The system seems not to have reached its performance bottleneck, try higher concurrency')
+                'The system seems not to have reached its performance bottleneck, try higher concurrency'
+            )
         elif best_rps_idx == 0:
             recommendations.append('Consider lowering concurrency, current load may be too high')
         else:
@@ -175,7 +180,8 @@ def print_summary(all_results, model_name):
         success_rate = float(summary[-1][6][:-1])
         if success_rate < 95:
             recommendations.append(
-                'Success rate is low at high concurrency, check system resources or reduce concurrency')
+                'Success rate is low at high concurrency, check system resources or reduce concurrency'
+            )
         recommend_text = Text('\nPerformance Recommendations:', style='bold cyan')
         console.print(recommend_text)

evalscope/report/__init__.py CHANGED Viewed

@@ -6,7 +6,7 @@ from evalscope.utils.import_utils import _LazyModule
 if TYPE_CHECKING:
     from .combinator import gen_table, get_data_frame, get_report_list
     from .generator import ReportGenerator
-    from .utils import Category, Report, ReportKey, Subset
+    from .report import Category, Report, ReportKey, Subset
 else:
     _import_structure = {
@@ -19,7 +19,7 @@ else:
         'generator': [
             'ReportGenerator',
         ],
-        'utils': [
+        'report': [
             'Category',
             'Report',
             'ReportKey',

evalscope/report/combinator.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 from tabulate import tabulate
 from typing import List, Tuple
-from evalscope.report.utils import Report
+from evalscope.report.report import Report
 from evalscope.utils.logger import get_logger
 logger = get_logger()
@@ -32,25 +32,30 @@ def get_report_list(reports_path_list: List[str]) -> List[Report]:
     return report_list
-def get_data_frame(report_list: List[Report],
-                   flatten_metrics: bool = True,
-                   flatten_categories: bool = True,
-                   add_overall_metric: bool = False) -> pd.DataFrame:
+def get_data_frame(
+    report_list: List[Report],
+    flatten_metrics: bool = True,
+    flatten_categories: bool = True,
+    add_overall_metric: bool = False
+) -> pd.DataFrame:
     tables = []
     for report in report_list:
         df = report.to_dataframe(
             flatten_metrics=flatten_metrics,
             flatten_categories=flatten_categories,
-            add_overall_metric=add_overall_metric)
+            add_overall_metric=add_overall_metric
+        )
         tables.append(df)
     return pd.concat(tables, ignore_index=True)
-def gen_table(reports_path_list: list[str] = None,
-              report_list: list[Report] = None,
-              flatten_metrics: bool = True,
-              flatten_categories: bool = True,
-              add_overall_metric: bool = False) -> str:
+def gen_table(
+    reports_path_list: list[str] = None,
+    report_list: list[Report] = None,
+    flatten_metrics: bool = True,
+    flatten_categories: bool = True,
+    add_overall_metric: bool = False
+) -> str:
     """
     Generates a formatted table from a list of report paths or Report objects.
@@ -78,7 +83,8 @@ def gen_table(reports_path_list: list[str] = None,
         report_list,
         flatten_metrics=flatten_metrics,
         flatten_categories=flatten_categories,
-        add_overall_metric=add_overall_metric)
+        add_overall_metric=add_overall_metric
+    )
     return tabulate(table, headers=table.columns, tablefmt='grid', showindex=False)

evalscope/report/generator.py CHANGED Viewed

@@ -3,16 +3,18 @@ from pandas import DataFrame
 from typing import TYPE_CHECKING
 from evalscope.constants import DataCollection
-from evalscope.report.utils import *
+from evalscope.report.report import *
 if TYPE_CHECKING:
-    from evalscope.benchmarks import DataAdapter
+    from evalscope.api.benchmark import DataAdapter
+    from evalscope.api.metric import AggScore
+    from evalscope.benchmarks import DataAdapter as OldDataAdapter
 class ReportGenerator:
     @staticmethod
-    def gen_report(subset_score_map: dict, model_name: str, data_adapter: 'DataAdapter', **kwargs) -> Report:
+    def gen_report(subset_score_map: dict, model_name: str, data_adapter: 'OldDataAdapter', **kwargs) -> Report:
         """
         Generate a report for a specific dataset based on provided subset scores.
@@ -59,7 +61,9 @@ class ReportGenerator:
                             score=score_item['score'],
                             num=score_item['num'],
                             metric_name=score_item['metric_name'],
-                            categories=tuple(categories)))
+                            categories=tuple(categories)
+                        )
+                    )
             df = pd.DataFrame(subsets)
             return df
@@ -83,7 +87,8 @@ class ReportGenerator:
             dataset_name=dataset_name,
             model_name=model_name,
             dataset_description=data_adapter.description,
-            dataset_pretty_name=data_adapter.pretty_name)
+            dataset_pretty_name=data_adapter.pretty_name
+        )
         return report
     @staticmethod
@@ -101,4 +106,94 @@ class ReportGenerator:
             name=DataCollection.NAME,
             metrics=[Metric(name='Average', categories=categories)],
             dataset_name=all_dataset_name,
-            model_name=model_name)
+            model_name=model_name
+        )
+    @staticmethod
+    def generate_report(
+        score_dict: Dict[str, List['AggScore']],
+        model_name: str,
+        data_adapter: 'DataAdapter',
+        add_aggregation_name: bool = True
+    ) -> Report:
+        """
+        Generate a report for a specific dataset based on provided subset scores.
+        Args:
+            subset_score_map (dict): A mapping from subset names to a list of score dictionaries.
+            ```
+            {
+                'subset_name': [
+                    AggScore={'metric_name': 'AverageAccuracy', 'score': 0.3389, 'num': 100},
+                    AggScore={'metric_name': 'WeightedAverageAccuracy', 'score': 0.3389, 'num': 100}
+                ],
+                ...
+            }
+            ```
+            data_adapter (DataAdapter): An adapter object for data handling.
+        Returns:
+            Report: A structured report object containing metrics, categories, and subsets.
+            >>> report = gen_report(subset_score_map, "My Report", data_adapter, dataset_name="Dataset", model_name="Model")
+        """  # noqa: E501
+        dataset_name = data_adapter.name
+        category_map = data_adapter.category_map
+        report_name = f'{model_name}@{dataset_name}'
+        def flatten_subset() -> DataFrame:
+            """
+            Flatten subset score map to a DataFrame.
+            Example:
+                        name  score  num   categories      metric_name
+            0       ARC-Easy    0.5    2    [default]  AverageAccuracy
+            1  ARC-Challenge    0.5    2    [default]  AverageAccuracy
+            """
+            subsets = []
+            for subset_name, agg_scores in score_dict.items():
+                for agg_score_item in agg_scores:
+                    categories = category_map.get(subset_name, ['default'])
+                    if add_aggregation_name and agg_score_item.aggregation_name:
+                        metric_name = f'{agg_score_item.aggregation_name}_{agg_score_item.metric_name}'
+                    else:
+                        metric_name = agg_score_item.metric_name
+                    if isinstance(categories, str):
+                        categories = [categories]
+                    subsets.append(
+                        dict(
+                            name=subset_name,
+                            score=agg_score_item.score,
+                            num=agg_score_item.num,
+                            metric_name=metric_name,
+                            categories=tuple(categories)
+                        )
+                    )
+            df = pd.DataFrame(subsets)
+            return df
+        df = flatten_subset()
+        metrics_list = []
+        for metric_name, group_metric in df.groupby('metric_name', sort=False):
+            categories = []
+            for category_name, group_category in group_metric.groupby('categories'):
+                subsets = []
+                for _, row in group_category.iterrows():
+                    subsets.append(Subset(name=row['name'], score=row['score'], num=row['num']))
+                categories.append(Category(name=category_name, subsets=subsets))
+            metrics_list.append(Metric(name=metric_name, categories=categories))
+        report = Report(
+            name=report_name,
+            metrics=metrics_list,
+            dataset_name=dataset_name,
+            model_name=model_name,
+            dataset_description=data_adapter.description,
+            dataset_pretty_name=data_adapter.pretty_name
+        )
+        return report

evalscope/report/{utils.py → report.py} RENAMED Viewed

@@ -152,10 +152,12 @@ class Report:
             data = json.load(f)
         return cls.from_dict(data)
-    def to_dataframe(self,
-                     flatten_metrics: bool = True,
-                     flatten_categories: bool = True,
-                     add_overall_metric: bool = False) -> pd.DataFrame:
+    def to_dataframe(
+        self,
+        flatten_metrics: bool = True,
+        flatten_categories: bool = True,
+        add_overall_metric: bool = False
+    ) -> pd.DataFrame:
         """
         Convert the report to a pandas DataFrame.
         Args:
@@ -201,8 +203,8 @@ class Report:
         # multi-level aggregation for categories
         max_depth = df_categories[ReportKey.category_name].apply(len).max()
         for level in range(max_depth):
-            df_categories[f'{ReportKey.category_prefix}{level}'] = df_categories[ReportKey.category_name].apply(
-                lambda x: x[level] if len(x) > level else None)
+            df_categories[f'{ReportKey.category_prefix}{level}'] = df_categories[
+                ReportKey.category_name].apply(lambda x: x[level] if len(x) > level else None)
         df_categories.drop(columns=[ReportKey.category_name], inplace=True)
         return df_categories

evalscope 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl