PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.1__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of evalscope might be problematic. Click here for more details.

Files changed (302) hide show

evalscope/__init__.py +4 -1
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +5 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +684 -0
evalscope/api/benchmark/adapters/image_edit_adapter.py +82 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +156 -0
evalscope/api/benchmark/adapters/vision_language_adapter.py +6 -0
evalscope/api/benchmark/benchmark.py +356 -0
evalscope/api/benchmark/meta.py +121 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +262 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +378 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +275 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +12 -0
evalscope/api/messages/chat_message.py +243 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +113 -0
evalscope/api/mixin/__init__.py +1 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +155 -0
evalscope/api/model/model.py +386 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/app.py +3 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +26 -14
evalscope/app/utils/data_utils.py +43 -27
evalscope/app/utils/env_utils.py +12 -0
evalscope/app/utils/text_utils.py +14 -14
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +7 -10
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -5
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +10 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +188 -171
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +93 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +187 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +136 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +140 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/instructions_util.py +2 -3
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/image_edit/gedit/__init__.py +0 -0
evalscope/benchmarks/image_edit/gedit/gedit_adapter.py +138 -0
evalscope/benchmarks/image_edit/gedit/utils.py +372 -0
evalscope/benchmarks/image_edit/gedit/vie_prompts.py +406 -0
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/math_vista/__init__.py +0 -0
evalscope/benchmarks/math_vista/math_vista_adapter.py +129 -0
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/mmmu/__init__.py +0 -0
evalscope/benchmarks/mmmu/mmmu_adapter.py +159 -0
evalscope/benchmarks/mmmu_pro/__init__.py +0 -0
evalscope/benchmarks/mmmu_pro/mmmu_pro_adapter.py +129 -0
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +196 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +114 -60
evalscope/benchmarks/text2image/__init__.py +0 -0
evalscope/benchmarks/text2image/evalmuse_adapter.py +78 -0
evalscope/benchmarks/text2image/genai_bench_adapter.py +53 -0
evalscope/benchmarks/text2image/general_t2i_adapter.py +42 -0
evalscope/benchmarks/text2image/hpdv2_adapter.py +52 -0
evalscope/benchmarks/text2image/tifa_adapter.py +27 -0
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -266
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_app.py +7 -1
evalscope/cli/start_perf.py +7 -1
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +157 -57
evalscope/constants.py +37 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +275 -419
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +47 -33
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/image_edit_model.py +125 -0
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +67 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +126 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +701 -0
evalscope/perf/benchmark.py +4 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +15 -10
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +11 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -3
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +51 -35
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +33 -47
evalscope/summarizer.py +1 -1
evalscope/third_party/toolbench_static/llm/swift_infer.py +0 -4
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +3 -2
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/import_utils.py +23 -1
evalscope/utils/io_utils.py +142 -6
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +11 -7
evalscope/utils/multi_choices.py +288 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/METADATA +108 -62
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/RECORD +258 -226
tests/benchmark/test_eval.py +385 -0
tests/benchmark/test_image_edit.py +65 -0
tests/{aigc → benchmark}/test_t2i.py +22 -4
tests/benchmark/test_vlm.py +80 -0
tests/cli/test_all.py +85 -47
tests/cli/test_collection.py +20 -8
tests/cli/test_custom.py +22 -15
tests/cli/test_reasoning.py +81 -0
tests/common.py +73 -0
tests/perf/test_perf.py +4 -2
tests/rag/test_clip_benchmark.py +0 -2
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +0 -78
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +0 -58
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +0 -58
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +0 -57
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +0 -37
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
/evalscope/{benchmarks/aigc → api}/__init__.py +0 -0
/evalscope/benchmarks/{aigc/t2i → image_edit}/__init__.py +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/top_level.txt +0 -0
/tests/{aigc → benchmark}/__init__.py +0 -0

evalscope/benchmarks/data_adapter.py DELETED Viewed

@@ -1,528 +0,0 @@
-# Copyright (c) Alibaba, Inc. and its affiliates.
-import os.path
-import random
-from abc import ABC, abstractmethod
-from collections import defaultdict
-from typing import Any, Dict, List, Optional, Union
-from evalscope.benchmarks.utils import PromptData, load_file_with_extension, preprocess_decorator
-from evalscope.constants import DEFAULT_DATASET_CACHE_DIR, AnswerKeys, EvalType, HubType
-from evalscope.metrics import LLMJudge, metric_registry
-from evalscope.report import Report, ReportGenerator
-from evalscope.utils.logger import get_logger
-logger = get_logger()
-class DataAdapter(ABC):
-    """
-    Data Adapter for the benchmark. You need to implement the following methods:
-        - gen_prompt
-        - get_gold_answer
-        - parse_pred_result
-        - match
-    """
-    def __init__(self,
-                 name: str,
-                 dataset_id: str,
-                 model_adapter: str,
-                 subset_list: list,
-                 metric_list: List[str],
-                 llm_as_a_judge: bool = False,
-                 output_types: Optional[List[str]] = None,
-                 few_shot_num: Optional[int] = 0,
-                 train_split: Optional[str] = None,
-                 eval_split: Optional[str] = None,
-                 prompt_template: Optional[str] = None,
-                 system_prompt: Optional[str] = None,
-                 query_template: Optional[str] = None,
-                 pretty_name: Optional[str] = None,
-                 description: Optional[str] = None,
-                 tags: Optional[List[str]] = None,
-                 **kwargs):
-        """
-        Args:
-            name: str, the name of the benchmark.
-            dataset_id: str, the dataset id on ModelScope or local path for the benchmark.
-            model_adapter: str, the model adapter to use for the benchmark.
-            subset_list: list of subset names for the dataset.
-            metric_list: list, the metric list to evaluate the model on specific benchmark.
-            llm_as_a_judge: bool, whether to use LLM as a judge to evaluate the predicted answer against the gold answer.
-            output_types: list, the output types of the model adapter. Default: [model_adapter]
-            few_shot_num: int, number of few-shot examples. Default: 0
-            train_split: str, usually for few-shot examples. e.g. 'train'
-            eval_split: str, the target eval split name. e.g. 'test'
-            prompt_template: str, the prompt template for the benchmark,
-                e.g. for ARC, it is `The following are multiple choice questions, please output correct answer in
-                    the form of A or B or C or D, do not output explanation:`
-            system_prompt: str, the system prompt for the benchmark, e.g. 'You are a helpful assistant.'
-            query_template: str, the query template for the benchmark, e.g. 'Please answer the following question: {}'
-            pretty_name: str, the pretty name of the benchmark, e.g. 'ARC Challenge Set'.
-            description: str, the description of the benchmark,
-                e.g. 'ARC Challenge Set is a benchmark for evaluating reasoning abilities of models on science questions.'
-        """  # noqa: E501
-        self.name = name
-        self.dataset_id = dataset_id
-        self.model_adapter = model_adapter
-        self.subset_list = subset_list
-        self.metric_list = metric_list
-        self.llm_as_a_judge = llm_as_a_judge
-        self.output_types = output_types or [model_adapter]
-        self.few_shot_num = few_shot_num
-        self.train_split = train_split
-        self.eval_split = eval_split
-        self.prompt_template = prompt_template
-        self.system_prompt = system_prompt
-        self.query_template = query_template
-        self.pretty_name = pretty_name
-        self.description = description
-        self.tags = tags or []
-        self.config_kwargs = kwargs
-        self.category_map = kwargs.get('category_map', {})
-        self.choices = kwargs.get('choices', None)
-    def __init_subclass__(cls, **kwargs):
-        super().__init_subclass__(**kwargs)
-        # find and decorate parse_pred_result method
-        if hasattr(cls, 'parse_pred_result'):
-            original_method = cls.parse_pred_result
-            cls.parse_pred_result = preprocess_decorator(original_method)
-    def load(self,
-             dataset_name_or_path: str = None,
-             subset_list: list = None,
-             work_dir: Optional[str] = DEFAULT_DATASET_CACHE_DIR,
-             **kwargs) -> dict:
-        """
-        Load the dataset. Remote and local datasets are supported.
-        You can rewrite this method to support your own local dataset, just follow the format of the output.
-        Returns: {'subset_name': {'train': train_dataset, 'test': test_dataset}}
-            train_dataset, test_dataset: Iterable dataset, object each item of which is a dict.
-        """
-        dataset_name_or_path = os.path.expanduser(dataset_name_or_path or self.dataset_id)
-        subset_list = subset_list or self.subset_list
-        # Try to load dataset from local disk
-        if os.path.exists(dataset_name_or_path):
-            logger.info(f'Loading dataset from local disk: {dataset_name_or_path}')
-            trust_remote_code = kwargs.pop('trust_remote_code', False)
-            data_dict = self.load_from_disk(
-                dataset_name_or_path, subset_list, work_dir, trust_remote_code=trust_remote_code, **kwargs)
-        else:
-            logger.info(f'Loading dataset from hub: {dataset_name_or_path}')
-            trust_remote_code = kwargs.pop('trust_remote_code', True)
-            data_dict = self.load_from_hub(
-                dataset_name_or_path, subset_list, work_dir, trust_remote_code=trust_remote_code, **kwargs)
-        if len(data_dict) == 0:
-            raise ValueError(f'Dataset is empty: {dataset_name_or_path}')
-        return data_dict
-    def load_from_hub(self, dataset_name_or_path: str, subset_list: list, work_dir: str, **kwargs) -> dict:
-        from modelscope.msdatasets import MsDataset
-        datasets_hub: str = kwargs.pop('datasets_hub', HubType.MODELSCOPE)
-        split_as_subset: bool = kwargs.pop('split_as_subset', False)
-        # Load dataset from remote
-        logger.info(f'Loading dataset: dataset_name: {dataset_name_or_path} > subsets: {subset_list}')
-        data_dict = {}
-        split_list = [split for split in [self.train_split, self.eval_split] if split is not None]
-        if len(split_list) == 0:
-            logger.error(f'Got empty split list: {split_list}')
-        if split_as_subset:
-            for sub_name in subset_list:
-                data_dict[sub_name] = {}
-                # e.g. train: few-shot, test: target dataset to evaluate
-                for split in split_list:
-                    dataset = MsDataset.load(
-                        dataset_name=dataset_name_or_path,
-                        split=sub_name,  # load subset from split
-                        cache_dir=work_dir,
-                        hub=datasets_hub,
-                        **kwargs)
-                    data_dict[sub_name].update({split: dataset})
-        else:
-            for sub_name in subset_list:
-                data_dict[sub_name] = {}
-                # e.g. train: few-shot, test: target dataset to evaluate
-                for split in split_list:
-                    dataset = MsDataset.load(
-                        dataset_name=dataset_name_or_path,
-                        subset_name=sub_name,
-                        split=split,
-                        cache_dir=work_dir,
-                        hub=datasets_hub,
-                        **kwargs)
-                    data_dict[sub_name].update({split: dataset})
-        return data_dict
-    def load_from_disk(self, dataset_name_or_path, subset_list, work_dir, **kwargs) -> dict:
-        """
-        Load the dataset from local disk.
-        If you want to support local dataset, please rewrite this method in xxx_data_adapter.
-        Use modelscope.msdatasets.MsDataset.load to load the dataset from local by default.
-        """
-        # remove dataset_infos.json file if exists, since MsDataset will occur an error if it exists.
-        dataset_infos_path = os.path.join(dataset_name_or_path, 'dataset_infos.json')
-        if os.path.exists(dataset_infos_path):
-            logger.info(f'Removing dataset_infos.json file at {dataset_infos_path} to avoid MsDataset errors.')
-            os.remove(dataset_infos_path)
-        return self.load_from_hub(dataset_name_or_path, subset_list, None, **kwargs)
-    def load_with_snapshot(self,
-                           file_structure: Dict[str, List[str]],
-                           dataset_name_or_path: str = None,
-                           subset_list: list = None,
-                           work_dir: Optional[str] = DEFAULT_DATASET_CACHE_DIR,
-                           **kwargs) -> dict:
-        """
-        For datasets that cannot be correctly loaded using MsDataset, utilize snapshot downloading to load the data.
-        This feature supports both remote and local datasets.
-        Args:
-            file_structure: dict, the file structure of the dataset, e.g. {'subset_name': ['file1.jsonl', 'file2.jsonl']}.
-            dataset_name_or_path: str, the dataset id on ModelScope or local path for the benchmark.
-            subset_list: list of subset names for the dataset.
-            work_dir: str, the working directory to store the dataset.
-        Returns: {'subset_name': {'eval': eval_dataset}}
-        """  # noqa: E501
-        dataset_name_or_path = os.path.expanduser(dataset_name_or_path or self.dataset_id)
-        subset_list = subset_list or self.subset_list
-        # Try to load dataset from local disk
-        if os.path.exists(dataset_name_or_path):
-            logger.info(f'Loading dataset from {dataset_name_or_path}')
-            dataset_path = dataset_name_or_path
-        else:
-            from modelscope import dataset_snapshot_download
-            # Load dataset from remote
-            logger.info(f'Loading dataset from modelscope: > dataset_name: {dataset_name_or_path}')
-            # flatten file structure
-            file_names = [file for sub_files in file_structure.values() for file in sub_files]
-            # download dataset snapshot
-            dataset_path = dataset_snapshot_download(
-                dataset_name_or_path, cache_dir=work_dir, allow_file_pattern=file_names)
-        # read and process files
-        data_dict = defaultdict(dict)
-        for sub_name in subset_list:
-            file_paths = [os.path.join(dataset_path, file_name) for file_name in file_structure[sub_name]]
-            # not train split, only eval split
-            data_dict[sub_name][self.eval_split] = load_file_with_extension(file_paths)
-        return data_dict
-    def reformat_subset(self, data_dict: dict, subset_key: str, format: str = '{}') -> dict:
-        """
-        Reformat the dataset subset with subset_key and format.
-        """
-        res_dict: dict = defaultdict(lambda: defaultdict(list), {key: defaultdict(list) for key in self.subset_list})
-        for sub_name, sub_data_dict in data_dict.items():
-            for split in [self.train_split, self.eval_split]:
-                if split is None:
-                    continue
-                for sample_d in sub_data_dict[split]:
-                    new_subset_name = format.format(sample_d[subset_key])
-                    if new_subset_name not in self.subset_list:
-                        continue
-                    res_dict[new_subset_name][split].append(sample_d)
-        return res_dict
-    def gen_prompts(self, data_dict: dict) -> dict:
-        """
-        Generate dataset prompts from raw input, unify the prompt format for different datasets.
-        Args:
-            data_dict:  Refer to the output of load method: evalscope.benchmarks.benchmark.Benchmark.load
-        Returns:
-            {'subset_name': [prompt_d_1, prompt_d_2, ...]}
-            prompt_d_i (dict): refer to the output of gen_prompt method.
-        e.g. train -- few-shot data, test -- target dataset to evaluate.
-        """
-        res_dict: dict = {}
-        if self.few_shot_num and self.few_shot_num < 0:
-            raise ValueError(f'Invalid shot_num: {self.few_shot_num} for few-shot evaluation.')
-        logger.info(f'Use settings: '
-                    f'> few_shot_num: {self.few_shot_num}, '
-                    f'> few_shot_split: {self.train_split}, '
-                    f'> target_eval_split: {self.eval_split}')
-        for sub_name, sub_data_dict in data_dict.items():
-            few_shot_data = []
-            if self.train_split and self.few_shot_num and self.few_shot_num > 0:
-                few_shot_random: bool = self.config_kwargs.get('few_shot_random', True)
-                few_shot_data = self.get_fewshot_examples([item for item in sub_data_dict[self.train_split]],
-                                                          self.few_shot_num,
-                                                          few_shot_random=few_shot_random)
-            res_dict[sub_name] = []
-            for sample_d in sub_data_dict[self.eval_split]:
-                prompt_d = self.gen_prompt(input_d=sample_d, subset_name=sub_name, few_shot_list=few_shot_data)
-                prompt_d[AnswerKeys.RAW_INPUT] = sample_d
-                res_dict[sub_name].append(prompt_d)
-        return res_dict
-    def get_fewshot_examples(self, data_list: list, k: int, few_shot_random: bool = True):
-        if k > len(data_list):
-            k = len(data_list)
-        if few_shot_random:
-            return random.sample(data_list, k)
-        else:
-            return data_list[:k]
-    def compute_metric(self, review_res_list: Union[dict, list], **kwargs) -> List[dict]:
-        """
-        Compute evaluation result by specific metrics.
-        Args:
-            review_res_list: list, the review result list, each item of which is match result for gold and pred.
-        Returns:
-            Metric results. e.g. [{'metric_name': 'AverageAccuracy', 'score': 0.3389, 'num': 100}]
-        """
-        if len(self.metric_list) == 0:
-            raise ValueError('No metric list found for the benchmark.')
-        res_list = []
-        for metric_str in self.metric_list:
-            metric = metric_registry.get(metric_str)
-            metric_name = metric.name
-            metric_func = metric.object
-            if isinstance(review_res_list, dict):
-                review_res = review_res_list.get(metric_name, [])
-            else:
-                review_res = review_res_list
-            res_list.append({'metric_name': metric_name, 'score': metric_func(review_res), 'num': len(review_res)})
-        return res_list
-    def compute_dict_metric(self, review_res_list: Union[List[dict], List[List[dict]]],
-                            **kwargs) -> Dict[str, List[float]]:
-        """
-        compute weighted mean of score of all samples
-        Args:
-            review_res_list: [score1, score2, ...]
-        Returns:
-            avg_res: Dict[str, List[float]]
-        """
-        if len(review_res_list) > 0 and isinstance(review_res_list[0], list):
-            review_res_list = [item for sublist in review_res_list for item in sublist]
-        items = defaultdict(list)
-        for scores in review_res_list:
-            if isinstance(scores, dict):
-                for k, v in scores.items():
-                    items[k].append(v)
-            else:
-                items['AverageAccuracy'].append(scores)
-        return items
-    def gen_report(self, subset_score_map: dict, model_name: str, **kwargs) -> Report:
-        """
-        Generate report for the evaluation results for all subsets.
-        Args:
-            subset_score_map: The subset-score map.
-                e.g. {subset_name: [{'metric_name': 'AverageAccuracy', 'score': 0.3389, 'num': 100}]}
-            model_name: The evaluation model name.
-        Returns: The evaluation report.
-        Here is a format example for gsm8k:
-        {
-            "name": "qwen2.5_gsm8k",
-            "metrics": [
-                {
-                    "name": "AverageAccuracy",
-                    "categories": [
-                        {
-                            "name": "default",
-                            "subsets": [
-                                {
-                                    "name": "main",
-                                    "score": 0.0,
-                                    "num": 2
-                                }
-                            ],
-                            "num": 2,
-                            "score": 0.0,
-                            "macro_score": 0.0
-                        }
-                    ],
-                    "num": 2,
-                    "score": 0.0,
-                    "macro_score": 0.0
-                }
-            ],
-            "dataset_name": "gsm8k",
-            "model_name": "qwen2.5"
-        }
-        """  # noqa: E501
-        return ReportGenerator.gen_report(subset_score_map, model_name, data_adapter=self, **kwargs)
-    def post_process_report(self, report: Report, **kwargs):
-        """
-        Post-process the report after generation. Draw a chart, save to file, etc.
-        This method can be overridden to customize the report format or content.
-        Args:
-            report (Report): The generated report.
-        """
-        pass
-    def gen_prompt_data(self,
-                        prompt: str = '',
-                        system_prompt: Optional[str] = None,
-                        choices: Optional[List[str]] = None,
-                        index: Optional[Union[int, str]] = None,
-                        id: Optional[Union[int, str]] = None,
-                        messages: Optional[List[dict]] = None,
-                        **kwargs) -> dict:
-        """
-        Generates a dictionary representation of prompt data for evaluation or inference.
-        Args:
-            prompt (str): The main prompt or input text. Can also be a list of prompts.
-            system_prompt (Optional[str], optional): An optional system-level prompt to provide context or instructions. Defaults to None.
-            choices (Optional[List[str]], optional): A list of possible choices for multi-choice tasks.
-                If not provided, uses self.choices. Defaults to None.
-            index (Optional[Union[int, str]], optional): An optional index or identifier for the prompt.
-                Defaults to 0 if not provided. Defaults to None.
-            id (Optional[Union[int, str]], optional): An optional unique identifier for the prompt data. Defaults to None.
-            messages (Optional[List[dict]], optional): An optional list of message dictionaries, typically for chat-based prompts. Defaults to None.
-                If messages is provided, it will be used as the prompt data instead of the prompt string.
-        Returns:
-            dict: A dictionary representation of the prompt data, suitable for further processing or model input.
-        """  # noqa: E501
-        data = [prompt] if not isinstance(prompt, list) else prompt
-        prompt_data = PromptData(
-            data=data,
-            multi_choices=choices or self.choices,
-            system_prompt=system_prompt or self.system_prompt,
-            index=index or 0,
-            id=id,
-            messages=messages,
-            extra_data=kwargs.get('extra_data', None))
-        return prompt_data.to_dict()
-    def gen_prompt(self, input_d: dict, subset_name: str, few_shot_list: list, **kwargs) -> Any:
-        """
-        Generate model prompt from raw input, unify the prompt format for different datasets.
-        The input format is compatible with OpenAI Chat Completions APIs.
-        Args:
-            input_d (Any): The raw input. Depending on the dataset.
-            subset_name (str): The subset name.
-            few_shot_list (list): The few-shot examples.
-        Returns:
-            For class ChatGenerationModelAdapter, the output format is:
-                {'data': [full_prompt], 'system_prompt': (str, optional)},  -- full_prompt: str, the constructed prompt for each sample from dataset.
-            For class MultiChoiceModelAdapter, the output format is:
-                {'data': [full_prompt], 'multi_choices': self.choices}  -- full_prompt: str, the constructed prompt for each sample from dataset.
-            For class ContinuationEvalModelAdapter, the output format is:
-                {'data': ctx_continuation_pair_list, 'multi_choices': self.choices} -- ctx_continuation_pair_list: list, the context-continuation pair list.
-        """  # noqa: E501
-        raise NotImplementedError
-    @abstractmethod
-    def get_gold_answer(self, input_d: Any) -> Any:
-        """
-        Parse the raw input labels (gold).
-        Args:
-            input_d: input raw data. Depending on the dataset.
-        Returns:
-            The parsed input. e.g. gold answer ... Depending on the dataset.
-        """
-        raise NotImplementedError
-    def parse_pred_result(self, result: Any, raw_input_d: dict = None, eval_type: str = EvalType.CHECKPOINT) -> Any:
-        """
-        Parse the predicted result and extract proper answer.
-        Args:
-            result: Predicted answer from the model. Usually a string for chat.
-            raw_input_d: The raw input. Depending on the dataset.
-            eval_type: 'checkpoint' or 'service' or `custom`, default: 'checkpoint'
-        Returns:
-            The parsed answer. Depending on the dataset. Usually a string for chat.
-        """
-        return result
-    def llm_parse_pred_result(self, result: Any, raw_input_d: dict = None, eval_type: str = EvalType.CHECKPOINT) -> Any:
-        """
-        Parse the predicted result using LLM.
-        Args:
-            result (Any): The predicted answer from the model.
-            raw_input_d (dict): The raw input data.
-            eval_type (str): The evaluation type, default is 'checkpoint'.
-        Returns:
-            The parsed answer. Usually a string for chat.
-        """
-        return result
-    def match(self, gold: Any, pred: Any) -> Any:
-        """
-        Match the gold answer and the predicted answer.
-        Args:
-            gold (Any): The golden answer. Usually a string for chat/multiple-choice-questions.
-                        e.g. 'A', extracted from get_gold_answer method.
-            pred (Any): The predicted answer. Usually a string for chat/multiple-choice-questions.
-                        e.g. 'B', extracted from parse_pred_result method.
-        Returns:
-            The match result. Usually a score (float) for chat/multiple-choice-questions.
-        """
-        return 1.0 if gold == pred else 0.0
-    def llm_match(self, gold: Any, pred: Any, judge: Optional[LLMJudge] = None, **kwargs) -> float:
-        """
-        Use LLM as a judge to evaluate the predicted answer against the gold answer.
-        Args:
-            gold (Any): The golden answer.
-            pred (Any): The predicted answer.
-        Returns:
-            The match result as a float score between 0 and 1.
-        """
-        # Default judge handling
-        if judge is None:
-            logger.warning('No judge LLM provided, please specify a judge LLM in the config.')
-            return 0
-        # Extract question from raw_input if available
-        raw_input = kwargs.get('raw_input', {})
-        question_keys = ['question', 'Question', 'prompt', 'Prompt', 'query', 'Query', 'problem', 'Problem']
-        # Find the first non-empty question key in raw_input
-        question = next((raw_input.get(key) for key in question_keys if raw_input.get(key)), None)
-        # Request judge and obtain score
-        prompt = judge.build_prompt(pred, gold, question)
-        judge_response = judge(prompt)
-        score = judge.get_score(judge_response)
-        return score

evalscope/benchmarks/filters.py DELETED Viewed

@@ -1,59 +0,0 @@
-import re
-from typing import Any, Callable, Dict
-class Filter:
-    """
-    A base Filter class that implements the registry pattern
-    """
-    _registry: Dict[str, Callable[[str, Any], str]] = {}
-    @classmethod
-    def register(cls, name: str) -> Callable:
-        """
-        Decorator to register a new filter function
-        """
-        def decorator(func: Callable[[str, Any], str]) -> Callable[[str, Any], str]:
-            cls._registry[name] = func
-            return func
-        return decorator
-    @classmethod
-    def get_filter(cls, name: str) -> Callable:
-        """
-        Get a registered filter by name
-        """
-        return cls._registry.get(name)
-    @classmethod
-    def apply(cls, name: str, value: str, *args, **kwargs) -> str:
-        """
-        Apply a registered filter to a value
-        """
-        filter_func = cls.get_filter(name)
-        if filter_func is None:
-            raise ValueError(f'Filter {name} not found')
-        return filter_func(value, *args, **kwargs)
-@Filter.register('remove_until')
-def remove_until(value: str, marker: str) -> str:
-    """
-    Remove everything before the last occurrence of marker
-    """
-    if marker not in value:
-        return value
-    return value[value.rindex(marker) + len(marker):]
-@Filter.register('extract')
-def extract(value: str, pattern: str) -> str:
-    """
-    Extract content from string using regex pattern
-    """
-    match = re.search(pattern, value)
-    if match:
-        return match.group(0)
-    return ''

evalscope 0.17.1__py3-none-any.whl → 1.0.1__py3-none-any.whl

Potentially problematic release.

evalscope 0.17.1py3-none-any.whl → 1.0.1py3-none-any.whl