PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.1__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of evalscope might be problematic. Click here for more details.

Files changed (302) hide show

evalscope/__init__.py +4 -1
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +5 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +684 -0
evalscope/api/benchmark/adapters/image_edit_adapter.py +82 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +156 -0
evalscope/api/benchmark/adapters/vision_language_adapter.py +6 -0
evalscope/api/benchmark/benchmark.py +356 -0
evalscope/api/benchmark/meta.py +121 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +262 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +378 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +275 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +12 -0
evalscope/api/messages/chat_message.py +243 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +113 -0
evalscope/api/mixin/__init__.py +1 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +155 -0
evalscope/api/model/model.py +386 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/app.py +3 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +26 -14
evalscope/app/utils/data_utils.py +43 -27
evalscope/app/utils/env_utils.py +12 -0
evalscope/app/utils/text_utils.py +14 -14
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +7 -10
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -5
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +10 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +188 -171
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +93 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +187 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +136 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +140 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/instructions_util.py +2 -3
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/image_edit/gedit/__init__.py +0 -0
evalscope/benchmarks/image_edit/gedit/gedit_adapter.py +138 -0
evalscope/benchmarks/image_edit/gedit/utils.py +372 -0
evalscope/benchmarks/image_edit/gedit/vie_prompts.py +406 -0
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/math_vista/__init__.py +0 -0
evalscope/benchmarks/math_vista/math_vista_adapter.py +129 -0
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/mmmu/__init__.py +0 -0
evalscope/benchmarks/mmmu/mmmu_adapter.py +159 -0
evalscope/benchmarks/mmmu_pro/__init__.py +0 -0
evalscope/benchmarks/mmmu_pro/mmmu_pro_adapter.py +129 -0
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +196 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +114 -60
evalscope/benchmarks/text2image/__init__.py +0 -0
evalscope/benchmarks/text2image/evalmuse_adapter.py +78 -0
evalscope/benchmarks/text2image/genai_bench_adapter.py +53 -0
evalscope/benchmarks/text2image/general_t2i_adapter.py +42 -0
evalscope/benchmarks/text2image/hpdv2_adapter.py +52 -0
evalscope/benchmarks/text2image/tifa_adapter.py +27 -0
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -266
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_app.py +7 -1
evalscope/cli/start_perf.py +7 -1
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +157 -57
evalscope/constants.py +37 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +275 -419
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +47 -33
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/image_edit_model.py +125 -0
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +67 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +126 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +701 -0
evalscope/perf/benchmark.py +4 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +15 -10
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +11 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -3
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +51 -35
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +33 -47
evalscope/summarizer.py +1 -1
evalscope/third_party/toolbench_static/llm/swift_infer.py +0 -4
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +3 -2
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/import_utils.py +23 -1
evalscope/utils/io_utils.py +142 -6
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +11 -7
evalscope/utils/multi_choices.py +288 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/METADATA +108 -62
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/RECORD +258 -226
tests/benchmark/test_eval.py +385 -0
tests/benchmark/test_image_edit.py +65 -0
tests/{aigc → benchmark}/test_t2i.py +22 -4
tests/benchmark/test_vlm.py +80 -0
tests/cli/test_all.py +85 -47
tests/cli/test_collection.py +20 -8
tests/cli/test_custom.py +22 -15
tests/cli/test_reasoning.py +81 -0
tests/common.py +73 -0
tests/perf/test_perf.py +4 -2
tests/rag/test_clip_benchmark.py +0 -2
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +0 -78
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +0 -58
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +0 -58
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +0 -57
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +0 -37
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
/evalscope/{benchmarks/aigc → api}/__init__.py +0 -0
/evalscope/benchmarks/{aigc/t2i → image_edit}/__init__.py +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/top_level.txt +0 -0
/tests/{aigc → benchmark}/__init__.py +0 -0

evalscope/models/local_model.py DELETED Viewed

@@ -1,128 +0,0 @@
-import importlib
-from abc import ABC, abstractmethod
-from typing import TYPE_CHECKING, Optional
-from evalscope.constants import DEFAULT_MODEL_CACHE_DIR, DEFAULT_MODEL_REVISION, EvalType, ModelTask
-from evalscope.utils.logger import get_logger
-from evalscope.utils.model_utils import get_device
-if TYPE_CHECKING:
-    from evalscope.config import TaskConfig
-logger = get_logger()
-class LocalModel(ABC):
-    def __init__(self,
-                 model_id: str,
-                 model_revision: str = None,
-                 device_map: str = None,
-                 torch_dtype: str = 'auto',
-                 cache_dir: str = None,
-                 **kwargs):
-        self.model_id = model_id
-        self.model_revision = model_revision or DEFAULT_MODEL_REVISION
-        self.device = device_map or get_device()
-        self.cache_dir = cache_dir or DEFAULT_MODEL_CACHE_DIR
-        self.kwargs = kwargs
-        self.model = None
-        self.tokenizer = None
-        if isinstance(torch_dtype, str) and torch_dtype != 'auto':
-            import torch
-            torch_dtype = eval(torch_dtype)
-        self.torch_dtype = torch_dtype
-        self.model_cfg = {
-            'model_id': self.model_id,
-            'device_map': self.device,
-            'torch_dtype': str(self.torch_dtype),
-        }
-    @abstractmethod
-    def load_model(self):
-        pass
-class LocalChatModel(LocalModel):
-    def __init__(self, **kwargs):
-        super().__init__(**kwargs)
-    def load_model(self):
-        from modelscope import AutoModelForCausalLM, AutoTokenizer
-        logger.info(f'Loading model {self.model_id} ...')
-        self.tokenizer = AutoTokenizer.from_pretrained(
-            self.model_id,
-            revision=self.model_revision,
-            trust_remote_code=True,
-            cache_dir=self.cache_dir,
-        )
-        # Fix no padding
-        if self.tokenizer.pad_token is None:
-            self.tokenizer.pad_token = self.tokenizer.eos_token
-        self.model = AutoModelForCausalLM.from_pretrained(
-            self.model_id,
-            revision=self.model_revision,
-            device_map=self.device,
-            trust_remote_code=True,
-            torch_dtype=self.torch_dtype,
-            cache_dir=self.cache_dir,
-        )
-class LocalImageModel(LocalModel):
-    def __init__(self, **kwargs):
-        super().__init__(**kwargs)
-        self.pipeline_cls = self.kwargs.pop('pipeline_cls', None)
-        # default to DiffusionPipeline if not specified
-        if self.pipeline_cls is None:
-            if 'flux' in self.model_id.lower():
-                self.pipeline_cls = 'FluxPipeline'
-            else:
-                self.pipeline_cls = 'DiffusionPipeline'
-    def load_model(self):
-        # from modelscope import pipeline_cls
-        module = getattr(importlib.import_module('modelscope'), self.pipeline_cls)
-        logger.info(f'Loading model {self.model_id} with {self.pipeline_cls} ...')
-        self.model = module.from_pretrained(
-            self.model_id,
-            revision=self.model_revision,
-            torch_dtype=self.torch_dtype,
-            cache_dir=self.cache_dir,
-            **self.kwargs,
-        )
-        self.model.to(self.device)
-    def __call__(self, *args, **kwargs):
-        return self.model(*args, **kwargs)
-def get_local_model(task_cfg: 'TaskConfig') -> Optional[LocalModel]:
-    """Get the base local model for the task. If the task is not checkpoint-based, return None.
-       Avoids loading model multiple times for different datasets.
-    """
-    if task_cfg.eval_type != EvalType.CHECKPOINT:
-        return None
-    elif task_cfg.model_task == ModelTask.TEXT_GENERATION:
-        base_model = LocalChatModel(model_id=task_cfg.model, **task_cfg.model_args)
-        base_model.load_model()
-        return base_model
-    elif task_cfg.model_task == ModelTask.IMAGE_GENERATION:
-        base_model = LocalImageModel(model_id=task_cfg.model, **task_cfg.model_args)
-        base_model.load_model()
-        return base_model
-    else:
-        raise ValueError(f'Unsupported model task: {task_cfg.model_task} for model checkpoint.')

evalscope/models/register.py DELETED Viewed

@@ -1,41 +0,0 @@
-MODEL_ADAPTERS = {}
-def register_model_adapter(name):
-    """
-    Decorator to register a model adapter with a given name.
-    :param name: The name of the model adapter.
-    """
-    def decorator(adapter):
-        if name in MODEL_ADAPTERS:
-            raise ValueError(f"Model adapter '{name}' is already registered.")
-        MODEL_ADAPTERS[name] = adapter
-        return adapter
-    return decorator
-def get_model_adapter(name):
-    """
-    Retrieve a registered model adapter by name.
-    :param name: The name of the model adapter.
-    :return: The model adapter class or function.
-    """
-    if name not in MODEL_ADAPTERS:
-        raise ValueError(
-            f"Model adapter '{name}' is not registered. Available model adapters: {list(MODEL_ADAPTERS.keys())}")
-    return MODEL_ADAPTERS[name]
-def register_model_adapter_class(cls, name=None):
-    """
-    Register a model adapter class.
-    :param cls: The model adapter class to register
-    :param name: Optional name for the model adapter. If not provided, the class name will be used.
-    """
-    if name is None:
-        name = cls.__name__
-    if name in MODEL_ADAPTERS:
-        raise ValueError(f"Model adapter class '{name}' is already registered.")
-    MODEL_ADAPTERS[name] = cls

tests/cli/test_run.py DELETED Viewed

@@ -1,489 +0,0 @@
-# Copyright (c) Alibaba, Inc. and its affiliates.
-from dotenv import dotenv_values
-from tests.utils import test_level_list
-env = dotenv_values('.env')
-import os
-import subprocess
-import unittest
-from evalscope.config import TaskConfig
-from evalscope.constants import EvalStage, EvalType, JudgeStrategy, OutputType
-from evalscope.run import run_task
-from evalscope.utils.import_utils import is_module_installed
-from evalscope.utils.logger import get_logger
-os.environ['EVALSCOPE_LOG_LEVEL'] = 'DEBUG'
-logger = get_logger()
-class TestRun(unittest.TestCase):
-    def setUp(self) -> None:
-        logger.info('Init env for evalscope native run UTs ...\n')
-        self._check_env('evalscope')
-    def tearDown(self) -> None:
-        pass
-    @staticmethod
-    def _check_env(module_name: str):
-        if is_module_installed(module_name):
-            logger.info(f'{module_name} is installed.')
-        else:
-            raise ModuleNotFoundError(f'run: pip install {module_name}')
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_simple_eval(self):
-        model = 'qwen/Qwen2-0.5B-Instruct'
-        datasets = 'arc'  # arc ceval
-        limit = 10
-        cmd_simple = f'evalscope eval ' \
-                     f'--model {model} ' \
-                     f'--datasets {datasets} ' \
-                     f'--limit {limit}'
-        logger.info(f'Start to run command: {cmd_simple}')
-        run_res = subprocess.run(cmd_simple, text=True, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
-        assert run_res.returncode == 0, f'Failed to run command: {cmd_simple}'
-        logger.info(f'>>test_run_simple_eval stdout: {run_res.stdout}')
-        logger.error(f'>>test_run_simple_eval stderr: {run_res.stderr}')
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_eval_with_args(self):
-        model = 'qwen/Qwen2-0.5B-Instruct'
-        datasets = 'arc'  # arc ceval
-        limit = 5
-        dataset_args = '{"ceval": {"few_shot_num": 0, "few_shot_random": false}}'
-        cmd_with_args = f'evalscope eval ' \
-                        f'--model {model} ' \
-                        f'--datasets {datasets} ' \
-                        f'--limit {limit} ' \
-                        f'--generation-config do_sample=true,temperature=0.6,max_length=65535,max_new_tokens=65535,max_tokens=65535,n=1,top_p=0.95,top_k=20 ' \
-                        f"""--dataset-args \'{dataset_args}\' """
-        logger.info(f'Start to run command: {cmd_with_args}')
-        run_res = subprocess.run(cmd_with_args, text=True, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
-        assert run_res.returncode == 0, f'Failed to run command: {cmd_with_args}'
-        logger.info(f'>>test_run_eval_with_args stdout: {run_res.stdout}')
-        logger.error(f'>>test_run_eval_with_args stderr: {run_res.stderr}')
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_yaml_config(self):
-        from evalscope import run_task
-        run_task(task_cfg='examples/tasks/eval_native.yaml')
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_task(self):
-        task_cfg = TaskConfig(
-            model='qwen/Qwen2.5-0.5B-Instruct',
-            datasets=[
-                'iquiz',
-                # 'ifeval',
-                # 'mmlu',
-                # 'mmlu_pro',
-                # 'musr',
-                # 'process_bench',
-                # 'race',
-                # 'trivia_qa',
-                # 'cmmlu',
-                # 'humaneval',
-                # 'super_gpqa',
-                # 'gsm8k',
-                # 'bbh',
-                # 'competition_math',
-                # 'math_500',
-                'aime24',
-                'gpqa',
-                # 'arc',
-                # 'ceval',
-                # 'hellaswag',
-                # 'general_mcq',
-                # 'general_qa'
-            ],
-            dataset_args={
-                'mmlu': {
-                    'subset_list': ['elementary_mathematics'],
-                    'few_shot_num': 0
-                },
-                'mmlu_pro': {
-                    'subset_list': ['math', 'health'],
-                    'few_shot_num': 4
-                },
-                'ceval': {
-                    'subset_list': [
-                        'computer_network', 'operating_system', 'computer_architecture'
-                    ],
-                    'few_shot_num': 0
-                },
-                'cmmlu': {
-                    'subset_list': ['elementary_chinese'],
-                    'few_shot_num': 0
-                },
-                'bbh': {
-                    'subset_list': ['word_sorting', 'movie_recommendation'],
-                },
-                'gpqa': {
-                    'subset_list': ['gpqa_diamond'],
-                    'few_shot_num': 0
-                },
-                'humaneval': {
-                    'metric_list': ['Pass@1', 'Pass@2', 'Pass@5'],
-                },
-                'competition_math': {
-                    'subset_list': ['Level 1']
-                },
-                'process_bench': {
-                    'subset_list': ['gsm8k'],
-                },
-                'musr': {
-                    'subset_list': ['murder_mysteries'],
-                },
-                'general_mcq': {
-                    'local_path': 'custom_eval/text/mcq',  # 自定义数据集路径
-                    'subset_list': [
-                        'example'  # 评测数据集名称，上述 *_dev.csv 中的 *
-                    ],
-                    'query_template': 'Question: {question}\n{choices}\nAnswer: {answer}'  # 问题模板
-                },
-                'general_qa': {
-                    'local_path': 'custom_eval/text/qa',  # 自定义数据集路径
-                    'subset_list': [
-                        'example',  # 评测数据集名称，上述 *_dev.csv 中的 *
-                        # 'test'
-                    ],
-                    'metric_list': ['AverageBLEU']
-                },
-                'super_gpqa': {
-                    'subset_list': ['Philosophy', 'Education'],
-                    'few_shot_num': 0
-                },
-                'ifeval': {
-                    'filters': {
-                        'remove_until': '</think>'
-                    }
-                }
-            },
-            limit=2,
-            eval_batch_size=2,
-            generation_config={
-                'max_new_tokens': 2048,
-                'temperature': 0.7,
-                'num_return_sequences': 1,
-            },
-            # debug=True
-        )
-        run_task(task_cfg=task_cfg)
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_one_task(self):
-        from evalscope.config import TaskConfig
-        task_cfg = TaskConfig(
-            model='Qwen/Qwen3-1.7B',
-            datasets=[
-                # 'iquiz',
-                # 'math_500',
-                # 'aime24',
-                # 'competition_math',
-                # 'mmlu',
-                # 'simple_qa',
-                'truthful_qa',
-            ],
-            dataset_args={
-                'competition_math': {
-                    'subset_list': ['Level 4', 'Level 5']
-                },
-                'mmlu': {
-                    'subset_list': ['elementary_mathematics', 'high_school_european_history', 'nutrition'],
-                    'few_shot_num': 0
-                },
-            },
-            limit=5,
-            eval_batch_size=5,
-            generation_config={
-                'max_new_tokens': 1000,  # 最大生成token数，建议设置为较大值避免输出截断
-                'temperature': 0.7,  # 采样温度 (qwen 报告推荐值)
-                'top_p': 0.8,  # top-p采样 (qwen 报告推荐值)
-                'top_k': 20,  # top-k采样 (qwen 报告推荐值)
-                'chat_template_kwargs': {'enable_thinking': False}  # 关闭思考模式
-            },
-            judge_strategy=JudgeStrategy.AUTO,
-        )
-        run_task(task_cfg=task_cfg)
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_task_loop(self):
-        os.environ['CUDA_VISIBLE_DEVICES'] = '2'
-        from evalscope.config import TaskConfig
-        task_cfg1 = TaskConfig(
-            model='Qwen/Qwen2.5-0.5B-Instruct',
-            model_id='model1',
-            datasets=['iquiz'],
-            limit=10
-        )
-        task_cfg2 = TaskConfig(
-            model='Qwen/Qwen2.5-0.5B-Instruct',
-            model_id='model2',
-            datasets=['iquiz'],
-            limit=10
-        )
-        task_cfg3 = TaskConfig(
-            model='Qwen/Qwen2.5-0.5B-Instruct',
-            model_id='model3',
-            datasets=['iquiz'],
-            limit=10
-        )
-        run_task(task_cfg=[task_cfg1, task_cfg2, task_cfg3])
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_server_model(self):
-        from evalscope.config import TaskConfig
-        task_cfg = TaskConfig(
-            model='qwen-plus',
-            api_url='https://dashscope.aliyuncs.com/compatible-mode/v1',
-            api_key= env.get('DASHSCOPE_API_KEY'),
-            eval_type=EvalType.SERVICE,
-            datasets=[
-                # 'iquiz',
-                # 'ifeval',
-                # 'mmlu',
-                # 'mmlu_pro',
-                # 'musr',
-                # 'process_bench',
-                # 'race',
-                'trivia_qa',
-                # 'cmmlu',
-                # 'humaneval',
-                # 'gsm8k',
-                # 'bbh',
-                # 'competition_math',
-                # 'math_500',
-                # 'aime24',
-                # 'gpqa',
-                # 'arc',
-                # 'ceval',
-                # 'hellaswag',
-                # 'general_mcq',
-                # 'general_qa',
-                # 'super_gpqa',
-                # 'mmlu_redux',
-                # 'maritime_bench',
-                # 'drop',
-                # 'winogrande',
-                # 'tool_bench',
-                # 'frames',
-                # 'bfcl_v3',
-                # 'truthful_qa',
-                # 'tau_bench',
-                # 'hle'
-            ],
-            dataset_args={
-                'mmlu': {
-                    'subset_list': ['elementary_mathematics', 'high_school_european_history', 'nutrition'],
-                    'few_shot_num': 0
-                },
-                'mmlu_pro': {
-                    'subset_list': ['math', 'health'],
-                    'few_shot_num': 0
-                },
-                'ceval': {
-                    'subset_list': [
-                        'computer_network', 'operating_system', 'computer_architecture'
-                    ],
-                    'few_shot_num': 0
-                },
-                'cmmlu': {
-                    'subset_list': ['elementary_chinese'],
-                    'few_shot_num': 0
-                },
-                'bbh': {
-                    'subset_list': ['word_sorting', 'movie_recommendation'],
-                },
-                'gpqa': {
-                    # 'subset_list': ['gpqa_diamond'],
-                    'few_shot_num': 0,
-                    'local_path': './data/data/gpqa',
-                },
-                'humaneval': {
-                    'metric_list': ['Pass@1', 'Pass@2', 'Pass@5'],
-                },
-                'competition_math': {
-                    'subset_list': ['Level 1']
-                },
-                'process_bench': {
-                    'subset_list': ['gsm8k'],
-                },
-                'musr': {
-                    'subset_list': ['murder_mysteries'],
-                },
-                'general_mcq': {
-                    'local_path': 'custom_eval/text/mcq',  # 自定义数据集路径
-                    'subset_list': [
-                        'example'  # 评测数据集名称，上述 *_dev.csv 中的 *
-                    ],
-                    'query_template': 'Question: {question}\n{choices}\nAnswer: {answer}'  # 问题模板
-                },
-                'general_qa': {
-                    'local_path': 'custom_eval/text/qa',  # 自定义数据集路径
-                    'subset_list': [
-                        'example',  # 评测数据集名称，上述 *_dev.csv 中的 *
-                        # 'test'
-                    ],
-                    'metric_list': ['AverageRouge']
-                },
-                'super_gpqa': {
-                    'subset_list': ['Philosophy', 'Education'],
-                    'few_shot_num': 0
-                },
-                'mmlu_redux':{
-                    'subset_list': ['abstract_algebra']
-                },
-                'frames':{
-                    'local_path': 'data/iic/frames',
-                },
-                'bfcl_v3': {
-                    'subset_list': ['parallel'],
-                    'extra_params': {
-                        # 'is_fc_model': False,
-                    }
-                },
-                'tau_bench': {
-                    'extra_params': {
-                        'user_model': 'qwen-plus',
-                        'api_key': env.get('DASHSCOPE_API_KEY'),
-                        'api_base': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
-                    }
-                },
-                'hle': {
-                    'subset_list': ['Math', 'Other'],
-                },
-            },
-            eval_batch_size=10,
-            limit=10,
-            # debug=True,
-            stream=True,
-            generation_config={
-                'temperature': 0.6,
-                'n': 1,
-                'max_tokens': 4096,
-                # 'extra_headers':{'key': 'value'},
-            },
-            ignore_errors=False,
-        )
-        run_task(task_cfg=task_cfg)
-    @unittest.skipUnless(0 in test_level_list(), 'skip test in current test level')
-    def test_run_judge_model(self):
-        from evalscope.config import TaskConfig
-        task_cfg = TaskConfig(
-            model='qwen-plus',
-            api_url='https://dashscope.aliyuncs.com/compatible-mode/v1',
-            api_key= env.get('DASHSCOPE_API_KEY'),
-            eval_type=EvalType.SERVICE,
-            datasets=[
-                # 'math_500',
-                # 'aime24',
-                # 'competition_math',
-                # 'arc',
-                # 'gsm8k',
-                # 'truthful_qa',
-                # 'simple_qa',
-                # 'chinese_simpleqa',
-                # 'live_code_bench',
-                # 'humaneval',
-                # 'general_qa',
-                # 'alpaca_eval',
-                # 'arena_hard',
-                # 'frames',
-                # 'docmath',
-                # 'needle_haystack',
-                # 'ifeval',
-                'hle'
-            ],
-            dataset_args={
-                'needle_haystack': {
-                    'subset_list': ['english'],
-                    'extra_params': {
-                        'show_score': True,
-                    }
-                },
-                'competition_math': {
-                    'subset_list': ['Level 4']
-                },
-                'live_code_bench': {
-                    'extra_params': {
-                        'start_date': '2024-08-01',
-                        'end_date': '2025-02-28'
-                    },
-                    'local_path': '/root/.cache/modelscope/hub/datasets/AI-ModelScope/code_generation_lite'
-                },
-                'general_qa': {
-                    'local_path': 'custom_eval/text/qa',  # 自定义数据集路径
-                    'subset_list': [
-                        'example',  # 评测数据集名称，上述 *_dev.csv 中的 *
-                        # 'test'
-                    ]
-                },
-                'chinese_simpleqa': {
-                    'subset_list': [
-                        '中华文化'
-                    ]
-                },
-                'frames': {
-                    'local_path': '/root/.cache/modelscope/hub/datasets/iic/frames'
-                },
-                'hle': {
-                    'subset_list': ['Math', 'Other'],
-                },
-            },
-            eval_batch_size=10,
-            limit=3,
-            judge_strategy=JudgeStrategy.LLM,
-            judge_worker_num=5,
-            judge_model_args={
-                'model_id': 'qwen2.5-72b-instruct',
-                'api_url': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
-                'api_key': env.get('DASHSCOPE_API_KEY'),
-                'generation_config': {
-                    'temperature': 0.0,
-                    'max_tokens': 4096
-                }
-            },
-            generation_config={
-                'max_new_tokens': 20000,
-                'temperature': 0.0,
-                'seed': 42,
-                'n': 1
-            },
-            timeout=60000,
-            stream=True,
-            use_cache='outputs/20250714_150626'
-            # analysis_report=True,
-            # debug=True,
-            # use_cache='outputs/20250616_161931'
-        )
-        run_task(task_cfg=task_cfg)
-if __name__ == '__main__':
-    unittest.main()