PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (273) hide show

evalscope/__init__.py +4 -1
evalscope/api/__init__.py +0 -0
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +3 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +683 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +155 -0
evalscope/api/benchmark/benchmark.py +321 -0
evalscope/api/benchmark/meta.py +115 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +261 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +355 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +264 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +11 -0
evalscope/api/messages/chat_message.py +198 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +105 -0
evalscope/api/mixin/__init__.py +2 -0
evalscope/api/mixin/dataset_mixin.py +105 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +157 -0
evalscope/api/model/model.py +383 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +23 -11
evalscope/app/utils/data_utils.py +42 -26
evalscope/app/utils/text_utils.py +0 -2
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +6 -7
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -3
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +2 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aigc/i2i/__init__.py +0 -0
evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py +44 -0
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +53 -55
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +41 -46
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +29 -45
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +34 -44
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +16 -27
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +181 -160
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +94 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +183 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +135 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +136 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +192 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +112 -54
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -265
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +95 -54
evalscope/constants.py +29 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +277 -423
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +32 -30
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +47 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +123 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +698 -0
evalscope/perf/benchmark.py +2 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +7 -5
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +8 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -2
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +101 -6
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +26 -44
evalscope/summarizer.py +1 -1
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +2 -1
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/io_utils.py +100 -5
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +10 -7
evalscope/utils/multi_choices.py +271 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/METADATA +98 -49
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/RECORD +234 -216
tests/aigc/test_t2i.py +22 -4
tests/benchmark/__init__.py +1 -0
tests/benchmark/test_eval.py +386 -0
tests/cli/test_all.py +3 -5
tests/cli/test_collection.py +13 -4
tests/cli/test_custom.py +22 -15
tests/rag/test_clip_benchmark.py +1 -0
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/top_level.txt +0 -0

evalscope/backend/rag_eval/utils/llm.py CHANGED Viewed

@@ -2,11 +2,10 @@ import os
 from langchain_core.callbacks.manager import CallbackManagerForLLMRun
 from langchain_core.language_models.llms import LLM as BaseLLM
 from langchain_openai import ChatOpenAI
-from transformers.generation.configuration_utils import GenerationConfig
 from typing import Any, Dict, Iterator, List, Mapping, Optional
-from evalscope.constants import DEFAULT_MODEL_REVISION
-from evalscope.models import ChatGenerationModelAdapter, LocalModel
+from evalscope.api.model import GenerateConfig, Model, get_model
+from evalscope.constants import DEFAULT_MODEL_REVISION, EvalType
 class LLM:
@@ -30,16 +29,19 @@ class LocalLLM(BaseLLM):
     model_name_or_path: str
     model_revision: str = DEFAULT_MODEL_REVISION
     template_type: Optional[str] = None
-    model_name: Optional[str]
-    model: Optional[ChatGenerationModelAdapter]
-    generation_config: Optional[Dict]
+    model_name: Optional[str] = None
+    model: Optional[Model] = None
+    generation_config: Optional[Dict] = {}
     def __init__(self, **kw):
         super().__init__(**kw)
         self.model_name = os.path.basename(self.model_name_or_path)
-        self.model = ChatGenerationModelAdapter(
-            model=LocalModel(model_id=self.model_name_or_path, model_revision=self.model_revision),
-            generation_config=GenerationConfig(**self.generation_config) if self.generation_config else None,
+        # Create and initialize the local model
+        self.model = get_model(
+            model=self.model_name_or_path,
+            eval_type=EvalType.CHECKPOINT,
+            config=GenerateConfig(**self.generation_config),
         )
     def _call(
@@ -50,10 +52,9 @@ class LocalLLM(BaseLLM):
         **kwargs: Any,
     ) -> str:
         """Run the LLM on the given input."""
-        infer_cfg = {'stop': stop}
-        response, _ = self.model.predict([{'data': [prompt]}], infer_cfg=infer_cfg)
-        return response[0][0]
+        response = self.model.generate(input=prompt)
+        return response.completion
     @property
     def _identifying_params(self) -> Dict[str, Any]:

evalscope/benchmarks/__init__.py CHANGED Viewed

@@ -4,8 +4,6 @@ import importlib
 import os
 import time
-from evalscope.benchmarks.benchmark import Benchmark, BenchmarkMeta
-from evalscope.benchmarks.data_adapter import DataAdapter
 from evalscope.utils import get_logger
 logger = get_logger()

evalscope/benchmarks/aigc/i2i/__init__.py ADDED Viewed

File without changes

evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py ADDED Viewed

@@ -0,0 +1,44 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+import os.path
+from collections import defaultdict
+from typing import List, Optional, Union
+from evalscope.utils.io_utils import jsonl_to_list
+from evalscope.utils.logger import get_logger
+logger = get_logger()
+class GeneralI2IAdapter:
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+    def load(self, dataset_name_or_path: str = None, subset_list: list = None, **kwargs) -> dict:
+        dataset_name_or_path = dataset_name_or_path or self.dataset_id
+        subset_list = subset_list or self.subset_list
+        data_file_dict = defaultdict(str)
+        data_item_dict = defaultdict(list)
+        # get data file path and subset name
+        if os.path.isdir(dataset_name_or_path):
+            for subset_name in subset_list:
+                data_file_dict[subset_name] = os.path.join(dataset_name_or_path, f'{subset_name}.jsonl')
+        elif os.path.isfile(dataset_name_or_path):
+            cur_subset_name = os.path.splitext(os.path.basename(dataset_name_or_path))[0]
+            data_file_dict[cur_subset_name] = dataset_name_or_path
+        else:
+            raise ValueError(f'Invalid dataset path: {dataset_name_or_path}')
+        # load data from local disk
+        try:
+            for subset_name, file_path in data_file_dict.items():
+                data_item_dict[subset_name] = jsonl_to_list(file_path)
+        except Exception as e:
+            raise ValueError(f'Failed to load data from {self.dataset_id}, got error: {e}')
+        data_dict = {subset_name: {'test': data_item_dict[subset_name]} for subset_name in data_file_dict.keys()}
+        return data_dict

evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py CHANGED Viewed

@@ -1,78 +1,76 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
-import os.path
 from collections import defaultdict
 from typing import List, Optional, Union
-from evalscope.benchmarks import Benchmark
-from evalscope.constants import OutputType
+from evalscope.api.benchmark import BenchmarkMeta, Text2ImageAdapter
+from evalscope.api.metric.scorer import AggScore, Score
+from evalscope.api.registry import get_metric, register_benchmark
+from evalscope.constants import Tags
 from evalscope.metrics import mean
-from evalscope.utils.io_utils import jsonl_to_list
+from evalscope.utils.function_utils import thread_safe
 from evalscope.utils.logger import get_logger
-from .base import T2IBaseAdapter
 logger = get_logger()
-@Benchmark.register(
-    name='evalmuse',
-    dataset_id='AI-ModelScope/T2V-Eval-Prompts',
-    model_adapter=OutputType.IMAGE_GENERATION,
-    output_types=[OutputType.IMAGE_GENERATION],
-    subset_list=['EvalMuse'],
-    metric_list=['FGA_BLIP2Score'],
-    few_shot_num=0,
-    train_split=None,
-    eval_split='test',
+@register_benchmark(
+    BenchmarkMeta(
+        name='evalmuse',
+        dataset_id='AI-ModelScope/T2V-Eval-Prompts',
+        description='EvalMuse Text-to-Image Benchmark',
+        tags=[Tags.TEXT_TO_IMAGE],
+        subset_list=['EvalMuse'],
+        metric_list=['FGA_BLIP2Score'],
+        few_shot_num=0,
+        train_split=None,
+        eval_split='test',
+    )
 )
-class EvalMuseAdapter(T2IBaseAdapter):
+class EvalMuseAdapter(Text2ImageAdapter):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
+        assert len(self.metric_list
+                   ) == 1 and self.metric_list[0] == 'FGA_BLIP2Score', 'Only FGA_BLIP2Score is supported for EvalMuse'
-    def load(self, **kwargs) -> dict:
-        if os.path.isfile(self.dataset_id):
-            data_list = jsonl_to_list(self.dataset_id)
-            data_dict = {self.subset_list[0]: {'test': data_list}}
-            return data_dict
-        else:
-            return super().load(**kwargs)
+    @thread_safe
+    def match_score(self, original_prediction, filtered_prediction, reference, task_state):
+        # Get prediction and prompt from task state
+        image_path = task_state.metadata.get('image_path', original_prediction)
-    def get_gold_answer(self, input_d: dict) -> dict:
-        # return prompt and elements dict
-        return {'prompt': input_d.get('prompt'), 'tags': input_d.get('tags', {})}
+        # Initialize the score object with prediction details
+        score = Score(
+            extracted_prediction=image_path,
+            prediction=image_path,
+        )
-    def match(self, gold: dict, pred: str) -> dict:
-        # dummy match for general t2i
-        # pred is the image path, gold is the prompt
-        res = {}
-        for metric_name, metric_func in self.metrics.items():
-            if metric_name == 'FGA_BLIP2Score':
-                # For FGA_BLIP2Score, we need to pass the dictionary
-                score = metric_func(images=[pred], texts=[gold])[0][0]
-            else:
-                score = metric_func(images=[pred], texts=[gold['prompt']])[0][0]
-            if isinstance(score, dict):
-                for k, v in score.items():
-                    res[f'{metric_name}:{k}'] = v.cpu().item()
-            else:
-                res[metric_name] = score.cpu().item()
-        return res
+        # Calculate scores for each configured metric
+        try:
+            metric_name = self.metric_list[0]
+            metric_cls = get_metric(metric_name)
+            metric_func = metric_cls()  # Initialize with parameters
+            metric_score = metric_func(image_path, task_state.metadata)[0]
-    def compute_metric(self, review_res_list: Union[List[dict], List[List[dict]]], **kwargs) -> List[dict]:
-        """
-        compute weighted mean of the bleu score of all samples
-        """
-        items = super().compute_dict_metric(review_res_list, **kwargs)
-        # add statistics for each metric
+            for k, v in metric_score.items():
+                score.value[f'{metric_name}:{k}'] = v.cpu().item()
+        except Exception as e:
+            logger.error(f'Error calculating metric {metric_name}: {e}')
+            score.value[metric_name] = 0
+            score.metadata[metric_name] = f'error: {str(e)}'
+        return score
+    def aggregate_scores(self, sample_scores) -> List[AggScore]:
         new_items = defaultdict(list)
-        for metric_name, value_list in items.items():
-            if 'FGA_BLIP2Score' in metric_name and '(' in metric_name:  # FGA_BLIP2Score element score
+        agg_list = []
+        for sample_score in sample_scores:
+            for metric_name, value in sample_score.score.value.items():
                 metrics_prefix = metric_name.split(':')[0]
                 category = metric_name.rpartition('(')[-1].split(')')[0]
                 category = category.split('-')[0].lower()  # remove the suffix if exists
-                new_items[f'{metrics_prefix}:{category}'].extend(value_list)
-            else:
-                new_items[metric_name].extend(value_list)
+                new_items[f'{metrics_prefix}:{category}'].append(value)
+        for k, v in new_items.items():
+            agg_list.append(AggScore(metric_name=k, score=mean(v), num=len(v)))
-        # calculate mean for each metric
-        return [{'metric_name': k, 'score': mean(v), 'num': len(v)} for k, v in new_items.items()]
+        return agg_list

evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py CHANGED Viewed

@@ -1,58 +1,53 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
-import os.path
-from collections import defaultdict
-from typing import List, Optional, Union
-from evalscope.benchmarks import Benchmark
-from evalscope.constants import OutputType
-from evalscope.utils.io_utils import jsonl_to_list
+import os
+from evalscope.api.benchmark import BenchmarkMeta, Text2ImageAdapter
+from evalscope.api.dataset import Sample
+from evalscope.api.messages import ChatMessageUser
+from evalscope.api.metric.scorer import Score
+from evalscope.api.registry import get_metric, register_benchmark
+from evalscope.constants import Tags
 from evalscope.utils.logger import get_logger
-from .base import T2IBaseAdapter
 logger = get_logger()
-@Benchmark.register(
-    name='genai_bench',
-    dataset_id='AI-ModelScope/T2V-Eval-Prompts',
-    model_adapter=OutputType.IMAGE_GENERATION,
-    output_types=[OutputType.IMAGE_GENERATION],
-    subset_list=['GenAI-Bench-1600'],
-    metric_list=['VQAScore'],
-    few_shot_num=0,
-    train_split=None,
-    eval_split='test',
+@register_benchmark(
+    BenchmarkMeta(
+        name='genai_bench',
+        dataset_id='AI-ModelScope/T2V-Eval-Prompts',
+        description='GenAI-Bench Text-to-Image Benchmark',
+        tags=[Tags.TEXT_TO_IMAGE],
+        subset_list=['GenAI-Bench-1600'],
+        metric_list=['VQAScore'],
+        few_shot_num=0,
+        train_split=None,
+        eval_split='test',
+    )
 )
-class GenAIBenchAdapter(T2IBaseAdapter):
+class GenAIBenchAdapter(Text2ImageAdapter):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
-    def load(self, **kwargs) -> dict:
+    def load_from_disk(self, **kwargs):
         if os.path.isfile(self.dataset_id):
-            data_list = jsonl_to_list(self.dataset_id)
-            data_dict = {self.subset_list[0]: {'test': data_list}}
-            return data_dict
-        else:
-            return super().load(**kwargs)
-    def get_gold_answer(self, input_d: dict) -> dict:
-        # return prompt and elements dict
-        return {'prompt': input_d.get('prompt'), 'tags': input_d.get('tags', {})}
-    def match(self, gold: dict, pred: str) -> dict:
-        # dummy match for general t2i
-        # pred is the image path, gold is the prompt
-        res = {}
-        for metric_name, metric_func in self.metrics.items():
-            score = metric_func(images=[pred], texts=[gold['prompt']])[0][0]
-            res[metric_name] = score.cpu().item()
-            # fine-granular metrics
-            if gold['tags'].get('advanced'):
-                res[f'{metric_name}_advanced'] = score.cpu().item()
-            else:
-                res[f'{metric_name}_basic'] = score.cpu().item()
-        return res
+            file_name = os.path.basename(self.dataset_id)
+            file_without_ext = os.path.splitext(file_name)[0]
+            self.subset_list = [file_without_ext]
+        return super().load_from_disk(use_local_loader=True)
+    def record_to_sample(self, record) -> Sample:
+        """Convert a record dictionary to a Sample object."""
+        advanced = record['tags'].get('advanced')
+        return Sample(
+            input=[ChatMessageUser(content=record['prompt'])],
+            metadata={
+                'id': record['id'],
+                'prompt': record['prompt'],
+                'category': 'advanced' if advanced else 'basic',
+                'tags': record.get('tags', []),
+                'image_path': record.get('image_path', ''),  # Optional field for existing image path
+            }
+        )

evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py CHANGED Viewed

@@ -1,58 +1,42 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
-import os.path
-from collections import defaultdict
-from typing import List, Optional, Union
+import os
-from evalscope.benchmarks import Benchmark
-from evalscope.constants import OutputType
-from evalscope.utils.io_utils import jsonl_to_list
+from evalscope.api.benchmark import BenchmarkMeta, Text2ImageAdapter
+from evalscope.api.dataset import Sample
+from evalscope.api.messages import ChatMessageSystem, ChatMessageUser
+from evalscope.api.registry import register_benchmark
+from evalscope.constants import Tags
 from evalscope.utils.logger import get_logger
-from .base import T2IBaseAdapter
 logger = get_logger()
-@Benchmark.register(
-    name='general_t2i',
-    dataset_id='general_t2i',
-    model_adapter=OutputType.IMAGE_GENERATION,
-    output_types=[OutputType.IMAGE_GENERATION],
-    subset_list=['default'],
-    metric_list=['PickScore'],
-    few_shot_num=0,
-    train_split=None,
-    eval_split='test',
+@register_benchmark(
+    BenchmarkMeta(
+        name='general_t2i',
+        dataset_id='general_t2i',
+        description='General Text-to-Image Benchmark',
+        tags=[Tags.TEXT_TO_IMAGE],
+        subset_list=['default'],
+        metric_list=['PickScore'],
+        few_shot_num=0,
+        train_split=None,
+        eval_split='test',
+    )
 )
-class GeneralT2IAdapter(T2IBaseAdapter):
+class GeneralT2IAdapter(Text2ImageAdapter):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
-    def load(self, dataset_name_or_path: str = None, subset_list: list = None, **kwargs) -> dict:
-        dataset_name_or_path = dataset_name_or_path or self.dataset_id
-        subset_list = subset_list or self.subset_list
-        data_file_dict = defaultdict(str)
-        data_item_dict = defaultdict(list)
-        # get data file path and subset name
-        if os.path.isdir(dataset_name_or_path):
-            for subset_name in subset_list:
-                data_file_dict[subset_name] = os.path.join(dataset_name_or_path, f'{subset_name}.jsonl')
-        elif os.path.isfile(dataset_name_or_path):
-            cur_subset_name = os.path.splitext(os.path.basename(dataset_name_or_path))[0]
-            data_file_dict[cur_subset_name] = dataset_name_or_path
-        else:
-            raise ValueError(f'Invalid dataset path: {dataset_name_or_path}')
-        # load data from local disk
-        try:
-            for subset_name, file_path in data_file_dict.items():
-                data_item_dict[subset_name] = jsonl_to_list(file_path)
-        except Exception as e:
-            raise ValueError(f'Failed to load data from {self.dataset_id}, got error: {e}')
-        data_dict = {subset_name: {'test': data_item_dict[subset_name]} for subset_name in data_file_dict.keys()}
-        return data_dict
+    def load_from_disk(self, **kwargs):
+        if os.path.isfile(self.dataset_id):
+            file_name = os.path.basename(self.dataset_id)
+            file_without_ext = os.path.splitext(file_name)[0]
+            self.subset_list = [file_without_ext]
+        return super().load_from_disk(use_local_loader=True)
+    def record_to_sample(self, record):
+        return Sample(input=[ChatMessageUser(content=record['prompt'])], metadata={'image_path': record['image_path']})

evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py CHANGED Viewed

@@ -1,57 +1,47 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
-import os.path
-from collections import defaultdict
-from typing import List, Optional, Union
+import os
-from evalscope.benchmarks import Benchmark
-from evalscope.constants import OutputType
-from evalscope.utils.io_utils import jsonl_to_list
+from evalscope.api.benchmark import BenchmarkMeta, Text2ImageAdapter
+from evalscope.api.dataset import Sample
+from evalscope.api.messages import ChatMessageUser
+from evalscope.api.registry import register_benchmark
+from evalscope.constants import Tags
 from evalscope.utils.logger import get_logger
-from .base import T2IBaseAdapter
 logger = get_logger()
-@Benchmark.register(
-    name='hpdv2',
-    dataset_id='AI-ModelScope/T2V-Eval-Prompts',
-    model_adapter=OutputType.IMAGE_GENERATION,
-    output_types=[OutputType.IMAGE_GENERATION],
-    subset_list=['HPDv2'],
-    metric_list=['HPSv2.1Score'],
-    few_shot_num=0,
-    train_split=None,
-    eval_split='test',
+@register_benchmark(
+    BenchmarkMeta(
+        name='hpdv2',
+        dataset_id='AI-ModelScope/T2V-Eval-Prompts',
+        description='HPDv2 Text-to-Image Benchmark',
+        tags=[Tags.TEXT_TO_IMAGE],
+        subset_list=['HPDv2'],
+        metric_list=['HPSv2.1Score'],
+        few_shot_num=0,
+        train_split=None,
+        eval_split='test',
+    )
 )
-class HPDv2Adapter(T2IBaseAdapter):
+class HPDv2Adapter(Text2ImageAdapter):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
-    def load(self, **kwargs) -> dict:
+    def load_from_disk(self, **kwargs):
         if os.path.isfile(self.dataset_id):
-            data_list = jsonl_to_list(self.dataset_id)
-            data_dict = {self.subset_list[0]: {'test': data_list}}
-            return data_dict
-        else:
-            return super().load(**kwargs)
-    def get_gold_answer(self, input_d: dict) -> dict:
-        # return prompt and elements dict
-        return {'prompt': input_d.get('prompt'), 'tags': input_d.get('tags', {})}
-    def match(self, gold: dict, pred: str) -> dict:
-        # dummy match for general t2i
-        # pred is the image path, gold is the prompt
-        res = {}
-        for metric_name, metric_func in self.metrics.items():
-            score = metric_func(images=[pred], texts=[gold['prompt']])[0][0]
-            res[metric_name] = score.cpu().item()
-            # fine-granular metrics
-            category = gold['tags'].get('category')
-            if category:
-                res[f'{metric_name}_{category}'] = score.cpu().item()
-        return res
+            file_name = os.path.basename(self.dataset_id)
+            file_without_ext = os.path.splitext(file_name)[0]
+            self.subset_list = [file_without_ext]
+        return super().load_from_disk(use_local_loader=True)
+    def record_to_sample(self, record):
+        return Sample(
+            input=[ChatMessageUser(content=record['prompt'])],
+            metadata={
+                'category': record.get('tags', {}).get('category', ''),
+                'tags': record.get('tags', {})
+            }
+        )

evalscope/benchmarks/aigc/t2i/tifa_adapter.py CHANGED Viewed

@@ -1,37 +1,26 @@
 # Copyright (c) Alibaba, Inc. and its affiliates.
-import os.path
-from collections import defaultdict
-from typing import List, Optional, Union
-from evalscope.benchmarks import Benchmark
-from evalscope.constants import OutputType
-from evalscope.utils.io_utils import jsonl_to_list
+from evalscope.api.benchmark import BenchmarkMeta, Text2ImageAdapter
+from evalscope.api.registry import register_benchmark
+from evalscope.constants import Tags
 from evalscope.utils.logger import get_logger
-from .base import T2IBaseAdapter
 logger = get_logger()
-@Benchmark.register(
-    name='tifa160',
-    dataset_id='AI-ModelScope/T2V-Eval-Prompts',
-    model_adapter=OutputType.IMAGE_GENERATION,
-    output_types=[OutputType.IMAGE_GENERATION],
-    subset_list=['TIFA-160'],
-    metric_list=['PickScore'],
-    few_shot_num=0,
-    train_split=None,
-    eval_split='test',
+@register_benchmark(
+    BenchmarkMeta(
+        name='tifa160',
+        dataset_id='AI-ModelScope/T2V-Eval-Prompts',
+        description='TIFA-160 Text-to-Image Benchmark',
+        tags=[Tags.TEXT_TO_IMAGE],
+        subset_list=['TIFA-160'],
+        metric_list=['PickScore'],
+        few_shot_num=0,
+        train_split=None,
+        eval_split='test',
+    )
 )
-class TIFA_Adapter(T2IBaseAdapter):
+class TIFA_Adapter(Text2ImageAdapter):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
-    def load(self, **kwargs) -> dict:
-        if os.path.isfile(self.dataset_id):
-            data_list = jsonl_to_list(self.dataset_id)
-            data_dict = {self.subset_list[0]: {'test': data_list}}
-            return data_dict
-        else:
-            return super().load(**kwargs)

evalscope 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl