PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (273) hide show

evalscope/__init__.py +4 -1
evalscope/api/__init__.py +0 -0
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +3 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +683 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +155 -0
evalscope/api/benchmark/benchmark.py +321 -0
evalscope/api/benchmark/meta.py +115 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +261 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +355 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +264 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +11 -0
evalscope/api/messages/chat_message.py +198 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +105 -0
evalscope/api/mixin/__init__.py +2 -0
evalscope/api/mixin/dataset_mixin.py +105 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +157 -0
evalscope/api/model/model.py +383 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +23 -11
evalscope/app/utils/data_utils.py +42 -26
evalscope/app/utils/text_utils.py +0 -2
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +6 -7
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -3
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +2 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aigc/i2i/__init__.py +0 -0
evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py +44 -0
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +53 -55
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +41 -46
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +29 -45
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +34 -44
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +16 -27
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +181 -160
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +94 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +183 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +135 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +136 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +192 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +112 -54
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -265
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +95 -54
evalscope/constants.py +29 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +277 -423
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +32 -30
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +47 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +123 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +698 -0
evalscope/perf/benchmark.py +2 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +7 -5
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +8 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -2
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +101 -6
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +26 -44
evalscope/summarizer.py +1 -1
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +2 -1
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/io_utils.py +100 -5
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +10 -7
evalscope/utils/multi_choices.py +271 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/METADATA +98 -49
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/RECORD +234 -216
tests/aigc/test_t2i.py +22 -4
tests/benchmark/__init__.py +1 -0
tests/benchmark/test_eval.py +386 -0
tests/cli/test_all.py +3 -5
tests/cli/test_collection.py +13 -4
tests/cli/test_custom.py +22 -15
tests/rag/test_clip_benchmark.py +1 -0
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/top_level.txt +0 -0

evalscope/api/metric/metric.py ADDED Viewed

@@ -0,0 +1,55 @@
+from abc import ABC, abstractmethod
+from typing import Callable, Iterable, List, Union
+from evalscope.utils import get_logger
+from evalscope.utils.function_utils import thread_safe
+logger = get_logger()
+class Metric(ABC):
+    """
+    Metric classes operate on a sample level.
+    """
+    def __init__(self, *args, **kwargs) -> None:
+        """
+        Can define custom behavior here, if an individual instantiation of a Metric class should have state.
+        """
+    @abstractmethod
+    def apply(self, predictions: List[str], references: List[str]) -> List[float]:
+        pass
+    def __call__(self, prediction: str, reference: str) -> float:
+        """
+        Allows the metric to be called like a function.
+        """
+        return self.apply([prediction], [reference])[0]
+class T2IMetric(Metric):
+    _instance = None
+    @thread_safe
+    def __new__(cls, *args, **kwargs):
+        if cls._instance is None:
+            cls._instance = super().__new__(cls)
+        return cls._instance
+    def __init__(self, *args, **kwargs):
+        cls = self.__class__
+        if hasattr(self, '_init_done'):
+            return
+        logger.info(f'Initializing {cls.__name__}...')
+        self._init_once(*args, **kwargs)
+        self._init_done = True
+    def _init_once(self, *args, **kwargs):
+        pass
+    def apply(self, images: List[str], texts: List[str], **kwargs) -> List[Union[float, dict]]:
+        pass
+    def __call__(self, image: str, text: str, **kwargs) -> Union[float, dict]:
+        return self.apply([image], [text], **kwargs)[0]

evalscope/api/metric/scorer.py ADDED Viewed

@@ -0,0 +1,105 @@
+from pydantic import BaseModel, Field
+from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union
+from evalscope.utils.logger import get_logger
+logger = get_logger()
+Value = Dict[str, Union[int, float, bool]]
+class Score(BaseModel):
+    """Score generated by a scorer."""
+    value: Value = Field(default_factory=dict)
+    """Score value as a dictionary. Key is the score name, value is the score value.
+    The first key is considered the main score by default."""
+    extracted_prediction: Optional[str] = Field(default=None)
+    """Answer extracted from model output (optional)"""
+    prediction: Optional[str] = Field(default=None)
+    """Original prediction text from the model (optional)"""
+    explanation: Optional[str] = Field(default=None)
+    """Explanation of score (optional)."""
+    metadata: Optional[Dict[str, Any]] = Field(default_factory=dict)
+    """Additional metadata related to the score"""
+    main_score_name: Optional[str] = Field(default=None)
+    """Main score name, if applicable. This is used to indicate which score is the primary score in a multi-score scenario."""  # noqa: E501
+    @property
+    def main_value(self) -> Union[int, float, bool]:
+        """Main score value."""
+        if self.main_score_name and self.main_score_name in self.value:
+            return self.value[self.main_score_name]
+        return next(iter(self.value.values()), None)
+    @main_value.setter
+    def main_value(self, value: Union[int, float, bool]):
+        """Set the main score value."""
+        if self.main_score_name:
+            self.value[self.main_score_name] = value
+        else:
+            # If no main score name is set, just update the first value
+            if self.value:
+                first_key = next(iter(self.value))
+                self.value[first_key] = value
+            else:
+                self.value['default'] = value
+class SampleScore(BaseModel):
+    """Score for a Sample."""
+    score: Score
+    """A score"""
+    sample_id: Optional[Union[str, int]] = Field(default=None)
+    """A sample id"""
+    group_id: Optional[Union[str, int]] = Field(default=None)
+    """A group id for the sample, used for grouping k repeated samples."""
+    sample_metadata: Optional[Dict[str, Any]] = Field(default=None)
+    """Metadata from the sample"""
+class AggScore(BaseModel):
+    """Output of an aggregation operation."""
+    score: float = Field(default=0.0)
+    """Aggregated value as a float."""
+    metric_name: str = Field(default='')
+    """Name of the metric being aggregated."""
+    aggregation_name: str = Field(default='')
+    """Name of the aggregation methods"""
+    num: int = Field(default=0)
+    """Number of samples used in the aggregation."""
+    ids: Optional[List[Union[str, int]]] = Field(default=None)
+    """List of sample IDs used in the aggregation, if applicable."""
+    metadata: Optional[Dict[str, Any]] = Field(default=None)
+    """Additional metadata related to the aggregation."""
+class Aggregator:
+    name = 'default'
+    def __call__(self, scores: List[SampleScore]) -> List[AggScore]:
+        r"""Aggregate a metric on a list of scores.
+        Args:
+          scores: List of scores.
+        Returns:
+          List[AggregatOutput]: List of aggregated outputs.
+        """
+        ...

evalscope/api/mixin/__init__.py ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ from .dataset_mixin import DatasetLoaderMixin
2	+ from .llm_judge_mixin import LLMJudgeMixin

evalscope/api/mixin/dataset_mixin.py ADDED Viewed

@@ -0,0 +1,105 @@
+from abc import ABC
+from collections import defaultdict
+from typing import Any, Callable, Dict
+from evalscope.api.dataset import Dataset, DatasetDict, RemoteDataLoader
+class DatasetLoaderMixin:
+    """
+    Mixin class providing dataset loading functionality for benchmarks.
+    This mixin provides common dataset loading methods that can be shared
+    across different data adapters, including support for:
+    - Loading multiple subsets
+    - Few-shot dataset loading
+    - Remote dataset loading with configuration
+    """
+    def load_subsets(self, load_func: Callable[[str], Dataset]) -> DatasetDict:
+        """
+        Load multiple subsets of the dataset using the provided loading function.
+        This method handles two loading strategies:
+        1. Reformat mode: Load only the default subset and reformat it
+        2. Multi-subset mode: Load all subsets specified in subset_list
+        Args:
+            load_func (Callable[[str], Dataset]): Function to load individual subsets
+        Returns:
+            DatasetDict: Dictionary containing all loaded subsets
+        """
+        if self.reformat_subset:
+            # Load only the default subset
+            subset_data = load_func(self.default_subset)
+            # Reformat the subset to create multiple subsets based on sample keys
+            # NOTE: subset_list and limit is applied here if specified
+            dataset_dict = DatasetDict.from_dataset(dataset=subset_data, subset_list=self.subset_list, limit=self.limit)
+        else:
+            # Load all specified subsets into separate entries
+            subset_dict = defaultdict()
+            for subset in self.subset_list:
+                subset_data = load_func(subset)
+                subset_dict[subset] = subset_data
+            dataset_dict = DatasetDict(subset_dict)
+        return dataset_dict
+    def load_subset(self, subset: str) -> Dataset:
+        """
+        Load a specific subset of the dataset for evaluation.
+        This method configures and executes the data loading for a single subset,
+        handling both split-as-subset and traditional subset configurations.
+        Args:
+            subset (str): The subset identifier to load
+        Returns:
+            Dataset: The loaded dataset subset with processed samples
+        """
+        # Determine the split and subset names based on configuration
+        split = subset if self.split_as_subset else self.eval_split
+        subset_name = self.default_subset if self.split_as_subset else subset
+        # Create and configure the remote data loader
+        loader = RemoteDataLoader(
+            data_id_or_path=self.dataset_id,
+            split=split,
+            subset=subset_name,
+            sample_fields=self.record_to_sample,  # Custom sample conversion function
+            limit=self.limit if not self.reformat_subset else None,  # Limit number of samples if specified
+            repeats=self._task_config.repeats,  # Number of repetitions for each sample
+            data_source=self._task_config.dataset_hub,  # Data source configuration
+        )
+        return loader.load()
+    def load_fewshot_subset(self, subset: str) -> Dataset:
+        """
+        Load a subset specifically for few-shot examples.
+        This method loads training data to be used as demonstrations in few-shot prompting.
+        It typically loads from the training split with limited samples and optional shuffling.
+        Args:
+            subset (str): The subset identifier to load few-shot examples from
+        Returns:
+            Dataset: The loaded few-shot dataset with demonstration examples
+        """
+        # Use training split for few-shot examples
+        split = subset if self.split_as_subset else self.train_split
+        subset_name = self.default_subset if self.split_as_subset else subset
+        # Create loader specifically configured for few-shot sampling
+        loader = RemoteDataLoader(
+            data_id_or_path=self.dataset_id,
+            split=split,
+            subset=subset_name,
+            sample_fields=self.record_to_sample,
+            limit=self.few_shot_num
+            if not self.reformat_subset else None,  # Limit to specified number of few-shot examples
+            shuffle=self.few_shot_random,  # Randomize selection if enabled
+            data_source=self._task_config.dataset_hub,
+        )
+        return loader.load()

evalscope/api/mixin/llm_judge_mixin.py ADDED Viewed

@@ -0,0 +1,168 @@
+from typing import TYPE_CHECKING, Any, Dict, List, Optional
+from evalscope.api.evaluator import TaskState
+from evalscope.api.metric import Score
+from evalscope.constants import JudgeStrategy
+from evalscope.metrics import LLMJudge
+from evalscope.utils.logger import get_logger
+if TYPE_CHECKING:
+    from evalscope.config import TaskConfig
+logger = get_logger()
+class LLMJudgeMixin:
+    """
+    Mixin class for LLM Judge functionality.
+    """
+    def __init__(self, task_config: 'TaskConfig'):
+        self._task_config = task_config
+        self._use_llm_judge = False
+        """Whether to use LLM as a judge"""
+        self._llm_judge: Optional[LLMJudge] = None
+    @property
+    def llm_judge(self) -> Optional[LLMJudge]:
+        """Get LLM judge instance with lazy initialization."""
+        if self._llm_judge is None and self.use_llm_judge:
+            self._llm_judge = self.init_llm_judge()
+        return self._llm_judge
+    @llm_judge.setter
+    def llm_judge(self, value: Optional[LLMJudge]):
+        """Set LLM judge instance."""
+        self._llm_judge = value
+    @property
+    def judge_strategy(self) -> str:
+        """Get the judge strategy from the task configuration."""
+        return self._task_config.judge_strategy
+    @property
+    def use_llm_judge(self) -> bool:
+        """Check if LLM judge is enabled."""
+        if self.judge_strategy == JudgeStrategy.RULE:
+            return False
+        elif self.judge_strategy == JudgeStrategy.LLM:
+            return True
+        elif self.judge_strategy == JudgeStrategy.LLM_RECALL:
+            return True
+        elif self.judge_strategy == JudgeStrategy.AUTO:
+            return self._use_llm_judge
+        else:
+            logger.warning(f'Unknown judge strategy: {self.judge_strategy}. Defaulting to False.')
+            return False
+    def init_llm_judge(self) -> Optional[LLMJudge]:
+        """
+        Initialize the LLM judge for the benchmark.
+        Returns:
+            Optional[LLMJudge]: The initialized LLM judge instance or None
+        """
+        if self.judge_strategy == JudgeStrategy.RULE:
+            return None
+        else:
+            return LLMJudge(**self._task_config.judge_model_args)
+    def maybe_llm_match_score(
+        self,
+        original_prediction: str,
+        filtered_prediction: str,
+        reference: str,
+        task_state: TaskState,
+        rule_based_score: Optional[Score] = None,
+    ) -> Score:
+        """
+        Compute the match score between the original and filtered predictions against the reference.
+        Args:
+            original_prediction: The original prediction output from the model.
+            filtered_prediction: The filtered prediction output from the model.
+            reference: The ground truth reference output.
+            task_state: The current task state.
+            original_score: Optional original score to be used for comparison.
+        Returns:
+            Score: The computed match score.
+        """
+        # If LLM judge is not used, return the rule-based score directly
+        if not self.use_llm_judge:
+            return rule_based_score
+        # For LLM_RECALL, if rule-based score is already perfect, skip LLM judge
+        if float(rule_based_score.main_value) > 0.99:
+            return rule_based_score
+        # Compute LLM judge score
+        llm_score = self.llm_match_score(
+            original_prediction=original_prediction,
+            filtered_prediction=filtered_prediction,
+            reference=reference,
+            task_state=task_state,
+        )
+        # For LLM RECALL, merge the scores
+        return self._merge_scores(rule_based_score, llm_score)
+    def llm_match_score(
+        self,
+        original_prediction: str,
+        filtered_prediction: str,
+        reference: str,
+        task_state: TaskState,
+    ) -> Score:
+        """Compute the LLM match score.
+        Args:
+            original_prediction (str): The original prediction output from the model.
+            filtered_prediction (str): The filtered prediction output from the model.
+            reference (str): The ground truth reference output.
+            task_state (TaskState): The current task state.
+        Returns:
+            Score: The computed match score.
+        """
+        score = Score(
+            extracted_prediction=filtered_prediction,
+            prediction=original_prediction,
+        )
+        question = task_state.input_text
+        # Request judge and obtain score
+        prompt = self.llm_judge.build_prompt(pred=original_prediction, gold=reference, question=question)
+        judge_response = self.llm_judge.judge(prompt)
+        judge_score = self.llm_judge.get_score(judge_response)
+        score.value = {'acc': judge_score}
+        score.explanation = f'LLM judge: {judge_response}'
+        score.metadata = {
+            'source': 'llm_judge',
+            'judge_strategy': self.judge_strategy,
+            'model': self.llm_judge.model_id
+        }
+        return score
+    def _merge_scores(self, rule_based_score: Score, llm_score: Score) -> Score:
+        """
+        Merge rule-based score with LLM judge score for LLM_RECALL strategy.
+        Args:
+            rule_based_score: The original rule-based score
+            llm_score: The LLM judge score
+        Returns:
+            Score: The merged score
+        """
+        # Update the main value with LLM judge result
+        rule_based_score.main_value = llm_score.main_value
+        rule_based_score.explanation = llm_score.explanation
+        rule_based_score.metadata = llm_score.metadata
+        return rule_based_score

evalscope/api/model/__init__.py ADDED Viewed

@@ -0,0 +1,12 @@
+from .generate_config import GenerateConfig
+from .model import Model, ModelAPI, get_model, get_model_with_task_config
+from .model_output import (
+    ChatCompletionChoice,
+    Logprob,
+    Logprobs,
+    ModelOutput,
+    ModelUsage,
+    StopReason,
+    TopLogprob,
+    as_stop_reason,
+)

evalscope/api/model/generate_config.py ADDED Viewed

@@ -0,0 +1,157 @@
+# flake8: noqa: E501
+from copy import deepcopy
+from pydantic import BaseModel, Field, model_validator
+from typing import Any, Dict, List, Literal, Optional, Union
+from evalscope.utils.json_schema import JSONSchema
+class ResponseSchema(BaseModel):
+    """Schema for model response when using Structured Output."""
+    name: str
+    """The name of the response schema. Must be a-z, A-Z, 0-9, or contain underscores and dashes, with a maximum length of 64."""
+    json_schema: JSONSchema
+    """The schema for the response format, described as a JSON Schema object."""
+    description: Optional[str] = Field(default=None)
+    """A description of what the response format is for, used by the model to determine how to respond in the format."""
+    strict: Optional[bool] = Field(default=None)
+    """Whether to enable strict schema adherence when generating the output. If set to true, the model will always follow the exact schema defined in the schema field.
+    OpenAI and Mistral only."""
+class GenerateConfig(BaseModel):
+    """Model generation options."""
+    max_retries: Optional[int] = Field(default=None)
+    """Maximum number of times to retry request (defaults to unlimited)."""
+    timeout: Optional[int] = Field(default=None)
+    """Request timeout (in seconds)."""
+    batch_size: Optional[int] = Field(default=None)
+    """Maximum number of concurrent connections to Model API (default is model specific) or batch size for generation."""
+    stream: Optional[bool] = Field(default=None)
+    """Whether to stream the response (default is model specific)."""
+    system_message: Optional[str] = Field(default=None)
+    """Override the default system message."""
+    max_tokens: Optional[int] = Field(default=None)
+    """The maximum number of tokens that can be generated in the completion (default is model specific)."""
+    top_p: Optional[float] = Field(default=None)
+    """An alternative to sampling with temperature, called nucleus sampling, where the model considers the results of the tokens with top_p probability mass."""
+    temperature: Optional[float] = Field(default=None)
+    """What sampling temperature to use, between 0 and 2. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic."""
+    stop_seqs: Optional[List[str]] = Field(default=None)
+    """Sequences where the API will stop generating further tokens. The returned text will not contain the stop sequence."""
+    best_of: Optional[int] = Field(default=None)
+    """Generates best_of completions server-side and returns the 'best' (the one with the highest log probability per token). vLLM only."""
+    frequency_penalty: Optional[float] = Field(default=None)
+    """Number between -2.0 and 2.0. Positive values penalize new tokens based on their existing frequency in the text so far, decreasing the model's likelihood to repeat the same line verbatim. OpenAI, Google, Grok, Groq, vLLM, and SGLang only."""
+    presence_penalty: Optional[float] = Field(default=None)
+    """Number between -2.0 and 2.0. Positive values penalize new tokens based on whether they appear in the text so far, increasing the model's likelihood to talk about new topics. OpenAI, Google, Grok, Groq, vLLM, and SGLang only."""
+    logit_bias: Optional[Dict[int, float]] = Field(default=None)
+    """Map token Ids to an associated bias value from -100 to 100 (e.g. "42=10,43=-10"). OpenAI, Grok, Grok, and vLLM only."""
+    seed: Optional[int] = Field(default=None)
+    """Random seed. OpenAI, Google, Mistral, Groq, HuggingFace, and vLLM only."""
+    do_sample: Optional[bool] = Field(default=None)
+    """Whether to use sampling; use greedy decoding otherwise. Only transformers models support this parameter."""
+    top_k: Optional[int] = Field(default=None)
+    """Randomly sample the next word from the top_k most likely next words. Anthropic, Google, HuggingFace, vLLM, and SGLang only."""
+    n: Optional[int] = Field(default=None)
+    """How many chat completion choices to generate for each input message. OpenAI, Grok, Google, TogetherAI, vLLM, and SGLang only."""
+    logprobs: Optional[bool] = Field(default=None)
+    """Return log probabilities of the output tokens. OpenAI, Grok, TogetherAI, Huggingface, llama-cpp-python, vLLM, and SGLang only."""
+    top_logprobs: Optional[int] = Field(default=None)
+    """Number of most likely tokens (0-20) to return at each token position, each with an associated log probability. OpenAI, Grok, Huggingface, vLLM, and SGLang only."""
+    parallel_tool_calls: Optional[bool] = Field(default=None)
+    """Whether to enable parallel function calling during tool use (defaults to True). OpenAI and Groq only."""
+    internal_tools: Optional[bool] = Field(default=None)
+    """Whether to automatically map tools to model internal implementations (e.g. 'computer' for anthropic)."""
+    max_tool_output: Optional[int] = Field(default=None)
+    """Maximum tool output (in bytes). Defaults to 16 * 1024."""
+    cache_prompt: Union[Literal['auto'], bool, None] = Field(default=None)
+    """Whether to cache the prompt prefix. Defaults to "auto", which will enable caching for requests with tools. Anthropic only."""
+    reasoning_effort: Optional[Literal['low', 'medium', 'high']] = Field(default=None)
+    """Constrains effort on reasoning for reasoning models (defaults to `medium`). Open AI o1 models only."""
+    reasoning_tokens: Optional[int] = Field(default=None)
+    """Maximum number of tokens to use for reasoning. Anthropic Claude models only."""
+    reasoning_summary: Optional[Literal['concise', 'detailed', 'auto']] = Field(default=None)
+    """Provide summary of reasoning steps (defaults to no summary). Use 'auto' to access the most detailed summarizer available for the current model. OpenAI reasoning models only."""
+    reasoning_history: Optional[Literal['none', 'all', 'last', 'auto']] = Field(default=None)
+    """Include reasoning in chat message history sent to generate."""
+    response_schema: Optional[ResponseSchema] = Field(default=None)
+    """Request a response format as JSONSchema (output should still be validated). OpenAI, Google, and Mistral only."""
+    extra_body: Optional[Dict[str, Any]] = Field(default=None)
+    """Extra body to be sent with requests to OpenAI compatible servers. OpenAI, vLLM, and SGLang only."""
+    height: Optional[int] = Field(default=None)
+    """Image height for image generation model only"""
+    width: Optional[int] = Field(default=None)
+    """Image width for image generation model only"""
+    num_inference_steps: Optional[int] = Field(default=None)
+    """Number of inference steps for image generation model only"""
+    guidance_scale: Optional[float] = Field(default=None)
+    """Guidance scale for image generation model only"""
+    # migrate reasoning_history as a bool
+    @model_validator(mode='before')
+    @classmethod
+    def migrate_reasoning(cls, data: Any) -> Any:
+        if isinstance(data, dict):
+            reasoning_history = data.get('reasoning_history', None)
+            if reasoning_history is True:
+                data['reasoning_history'] = 'all'
+            elif reasoning_history is False:
+                data['reasoning_history'] = 'none'
+        return data
+    def merge(self, other: 'GenerateConfig') -> 'GenerateConfig':
+        """Merge another model configuration into this one.
+        Args:
+           other (GenerateConfig):
+              Configuration to merge.
+        Returns:
+           Merged configuration.
+        """
+        config_keys = [field for field in self.__class__.model_fields.keys()]
+        config = deepcopy(self)
+        for key in config_keys:
+            value = getattr(other, key, None)
+            if value is not None:
+                setattr(config, key, value)
+        return config

evalscope 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl