PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (273) hide show

evalscope/__init__.py +4 -1
evalscope/api/__init__.py +0 -0
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +3 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +683 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +155 -0
evalscope/api/benchmark/benchmark.py +321 -0
evalscope/api/benchmark/meta.py +115 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +261 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +355 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +264 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +11 -0
evalscope/api/messages/chat_message.py +198 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +105 -0
evalscope/api/mixin/__init__.py +2 -0
evalscope/api/mixin/dataset_mixin.py +105 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +157 -0
evalscope/api/model/model.py +383 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +23 -11
evalscope/app/utils/data_utils.py +42 -26
evalscope/app/utils/text_utils.py +0 -2
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +6 -7
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -3
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +2 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aigc/i2i/__init__.py +0 -0
evalscope/benchmarks/aigc/i2i/general_i2i_adapter.py +44 -0
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +53 -55
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +41 -46
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +29 -45
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +34 -44
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +16 -27
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +181 -160
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +94 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +183 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +135 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +136 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +192 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +112 -54
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -265
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +95 -54
evalscope/constants.py +29 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +277 -423
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +32 -30
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +47 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +123 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +698 -0
evalscope/perf/benchmark.py +2 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +7 -5
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +8 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -2
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +101 -6
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +26 -44
evalscope/summarizer.py +1 -1
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +2 -1
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/io_utils.py +100 -5
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +10 -7
evalscope/utils/multi_choices.py +271 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/METADATA +98 -49
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/RECORD +234 -216
tests/aigc/test_t2i.py +22 -4
tests/benchmark/__init__.py +1 -0
tests/benchmark/test_eval.py +386 -0
tests/cli/test_all.py +3 -5
tests/cli/test_collection.py +13 -4
tests/cli/test_custom.py +22 -15
tests/rag/test_clip_benchmark.py +1 -0
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.0.dist-info}/top_level.txt +0 -0

evalscope/api/dataset/dataset.py ADDED Viewed

@@ -0,0 +1,349 @@
+import abc
+import random
+from collections import defaultdict
+from dataclasses import dataclass, field
+from pydantic import BaseModel, Field
+from typing import Any, Callable, Dict, Iterator, List, Optional, Sequence, Union
+from evalscope.api.messages import ChatMessage, messages_pretty_str
+from evalscope.api.tool import ToolInfo
+from evalscope.utils.multi_choices import answer_character, answer_index
+class Sample(BaseModel):
+    r"""Sample for an evaluation task."""
+    input: Union[str, List[ChatMessage]]
+    """The input to be submitted to the model."""
+    choices: Optional[List[str]] = None
+    """List of available answer choices (used only for multiple-choice evals)."""
+    target: Union[str, List[str]] = ''
+    """Ideal target output. May be a literal value or narrative text to be used by a model grader."""
+    id: Optional[int] = None
+    """Unique identifier for sample."""
+    group_id: Optional[int] = None
+    """Identifier for the group this sample belongs to, used for grouping k repeated samples."""
+    tools: Optional[List[ToolInfo]] = None
+    """List of tools available to the model during inference (optional)."""
+    category: Optional[str] = None
+    """Category of the sample (optional)."""
+    subset_key: Optional[str] = None
+    """Key for the subset this sample belongs to, used for generating subsets (optional)."""
+    metadata: Dict[str, Any] = Field(default_factory=dict)
+    """Arbitrary metadata associated with the sample."""
+    sandbox: Optional[str] = None
+    """Sandbox environment type and optional config file."""
+    files: Optional[Dict[str, str]] = None
+    """Files that go along with the sample (copied to SandboxEnvironment)"""
+    setup: Optional[str] = None
+    """Setup script to run for sample (run within default SandboxEnvironment)."""
+    def pretty_print(self) -> str:
+        """Return a pretty-printed string representation of the sample."""
+        if isinstance(self.input, str):
+            input_text = self.input
+        else:
+            input_text = messages_pretty_str(self.input)
+        return f'Sample ID: {self.id}\nInput: {input_text}\nTarget: {self.target}'
+@dataclass
+class FieldSpec:
+    r"""Specification for mapping data source fields to sample fields."""
+    input: str = field(default='input')
+    """Name of the field containing the sample input."""
+    target: str = field(default='target')
+    """Name of the field containing the sample target."""
+    choices: str = field(default='choices')
+    """Name of field containing the list of answer choices."""
+    id: int = field(default=0)
+    """ Unique identifier for the sample."""
+    metadata: Optional[List[str]] = field(default=None)
+    """List of additional field names that should be read as metadata."""
+    sandbox: str = field(default='sandbox')
+    """Sandbox type along with optional config file."""
+    files: str = field(default='files')
+    """Files that go along with the sample."""
+    setup: str = field(default='setup')
+    """Setup script to run for sample (run within default SandboxEnvironment)."""
+class Dataset(Sequence[Sample], abc.ABC):
+    r"""A sequence of Sample objects.
+    Datasets provide sequential access (via conventional indexes or slicing)
+    to a collection of Sample objects.
+    """
+    @property
+    @abc.abstractmethod
+    def name(self) -> Optional[str]:
+        ...
+    @property
+    @abc.abstractmethod
+    def location(self) -> Optional[str]:
+        ...
+    @property
+    @abc.abstractmethod
+    def shuffled(self) -> bool:
+        ...
+    @abc.abstractmethod
+    def __iter__(self) -> Iterator[Sample]:
+        """Return an iterator over the samples."""
+        ...
+    @abc.abstractmethod
+    def __getitem__(self, index: Union[int, slice]) -> Union[Sample, 'Dataset']:
+        ...
+    @abc.abstractmethod
+    def __len__(self) -> int:
+        ...
+    @abc.abstractmethod
+    def filter(self, predicate: Callable[[Sample], bool], name: Optional[str] = None) -> 'Dataset':
+        """Filter the dataset using a predicate. Only samples matching the predicate will be included.
+        Args:
+          predicate: Filtering function.
+          name: Name for filtered dataset (optional).
+        Returns:
+          Filtered dataset.
+        """
+        ...
+    @abc.abstractmethod
+    def shuffle(self, seed: Optional[int] = None) -> None:
+        """Shuffle the order of the dataset (in place).
+        Args:
+           seed: Random seed for shuffling (optional).
+        """
+        ...
+    @abc.abstractmethod
+    def shuffle_choices(self, seed: Optional[int] = None) -> None:
+        """Shuffle the order of the choices with each sample.
+        Args:
+           seed: Random seed for shuffling (optional).
+        """
+        ...
+    @abc.abstractmethod
+    def reindex(self, group_size=1):
+        """Reindex the dataset samples to ensure consistent ordering.
+        Args:
+           group_size: Number of samples per group for setting group_id.
+        """
+        ...
+class MemoryDataset(Dataset):
+    r"""A Dataset stored in memory."""
+    def __init__(
+        self,
+        samples: List[Sample],
+        name: Optional[str] = None,
+        location: Optional[str] = None,
+        shuffled: bool = False,
+    ) -> None:
+        r"""A dataset of samples held in an in-memory list.
+        Datasets provide sequential access (via conventional indexes or slicing)
+        to a collection of Sample objects. The ListDataset is explicitly
+        initialized with a list that is held in memory.
+        Args:
+            samples (List[Sample]): The list of sample objects.
+            name (str | None): Optional name for dataset.
+            location (str | None): Optional location for dataset.
+            shuffled (bool): Was the dataset shuffled after reading.
+        """
+        self.samples = samples
+        self._name = name
+        self._location = location
+        self._shuffled = shuffled
+    @property
+    def name(self) -> Optional[str]:
+        """Dataset name."""
+        return self._name
+    @property
+    def location(self) -> Optional[str]:
+        """Dataset location."""
+        return self._location
+    @property
+    def shuffled(self) -> bool:
+        """Was the dataset shuffled."""
+        return self._shuffled
+    def __iter__(self) -> Iterator[Sample]:
+        return iter(self.samples)
+    def __getitem__(self, index: Union[int, slice]) -> Union[Sample, Dataset]:
+        if isinstance(index, int):
+            return self.samples[index]
+        else:
+            return MemoryDataset(
+                samples=self.samples[index],
+                name=self.name,
+                location=self.location,
+                shuffled=self.shuffled,
+            )
+    def __len__(self) -> int:
+        return len(self.samples)
+    def shuffle(self, seed: Optional[int] = None) -> None:
+        if seed is not None:
+            random.Random(seed).shuffle(self.samples)
+        else:
+            random.shuffle(self.samples)
+        self._shuffled = True
+    def shuffle_choices(self, seed: Optional[int] = None) -> None:
+        rand = random.Random(seed)
+        for sample in self.samples:
+            if not sample.choices:
+                continue
+            # The original positions
+            positions = list(range(len(sample.choices)))
+            # Shuffle the choices
+            rand.shuffle(positions)
+            shuffled_choices = [sample.choices[i] for i in positions]
+            # Map of original position / target letter
+            position_map = {i: answer_character(new_i) for new_i, i in enumerate(positions)}
+            # Update to the shuffled choices and target
+            sample.choices = shuffled_choices
+            sample.target = self._remap_target(sample.target, position_map=position_map)
+    def _remap_target(self, target: Union[str, List[str]], position_map: Dict[int, str]) -> Union[str, List[str]]:
+        if isinstance(target, list):
+            return [position_map[answer_index(t)] for t in target]
+        else:
+            return position_map[answer_index(target)]
+    def filter(self, predicate: Callable[[Sample], bool], name: Optional[str] = None) -> 'MemoryDataset':
+        return MemoryDataset(
+            name=name or self.name,
+            location=self.location,
+            samples=[sample for sample in self.samples if predicate(sample)],
+            shuffled=self.shuffled,
+        )
+    def reindex(self, group_size=1):
+        # Reindex the dataset samples to ensure consistent ordering
+        for i, sample in enumerate(self.samples):
+            sample.id = i
+            sample.group_id = i // group_size
+class DatasetDict:
+    """
+    A dictionary-like container for datasets.
+    """
+    def __init__(self, datasets: Dict[str, Dataset]):
+        self.datasets = datasets
+    def __getitem__(self, key: str) -> Dataset:
+        return self.datasets[key]
+    def __setitem__(self, key: str, value: Dataset) -> None:
+        self.datasets[key] = value
+    def __delitem__(self, key: str) -> None:
+        del self.datasets[key]
+    def get(self, key: str, default: Optional[Dataset] = None) -> Optional[Dataset]:
+        return self.datasets.get(key, default)
+    def items(self):
+        return self.datasets.items()
+    def keys(self):
+        return self.datasets.keys()
+    def values(self):
+        return self.datasets.values()
+    def __len__(self) -> int:
+        return len(self.datasets)
+    @classmethod
+    def from_dataset(
+        cls,
+        dataset: Dataset,
+        subset_list: List[str],
+        limit: Optional[Union[int, float]] = None,
+        repeats: int = 1
+    ) -> 'DatasetDict':
+        """
+        Create a DatasetDict from a single Dataset using subset key in the sample.
+        Args:
+            dataset (Dataset): The dataset to wrap in a DatasetDict.
+            subset_list (List[str]): List of subset keys to include.
+            limit (int | float | None): Optional limit on number of samples per subset.
+                If int, limits to that many samples. If float, limits to that fraction of samples.
+        Returns:
+            DatasetDict: A new DatasetDict containing the provided dataset.
+        """
+        data_dict = defaultdict(list)
+        dataset_dict = defaultdict(list)
+        # init subset keys to prevent order issues
+        for key in subset_list:
+            data_dict[key] = []
+            dataset_dict[key] = []
+        # Loop through each sample in the dataset
+        for sample in dataset.samples:
+            subset_key = sample.subset_key or 'default'
+            data_dict[subset_key].append(sample)
+        # Create a MemoryDataset for each subset key
+        for key, samples in data_dict.items():
+            if key not in subset_list:
+                continue
+            # Apply limit if specified
+            if limit is not None:
+                if isinstance(limit, float):
+                    limit = int(len(samples) * limit)
+                total_limit = limit * repeats
+                samples = samples[:total_limit]
+            cur_dataset = MemoryDataset(samples, name=dataset.name)
+            # Reindex the dataset to ensure consistent IDs and group IDs
+            cur_dataset.reindex(group_size=repeats)
+            dataset_dict[key] = cur_dataset
+        return cls(dataset_dict)

evalscope/api/dataset/loader.py ADDED Viewed

@@ -0,0 +1,261 @@
+import copy
+import os
+import random
+from abc import ABC, abstractmethod
+from pathlib import Path
+from typing import Callable, Dict, List, Optional, Union
+from evalscope.api.dataset.utils import record_to_sample_fn
+from evalscope.constants import DEFAULT_EVALSCOPE_CACHE_DIR, HubType
+from evalscope.utils import get_logger
+from evalscope.utils.io_utils import csv_to_list, gen_hash, jsonl_to_list, safe_filename
+from .dataset import Dataset, FieldSpec, MemoryDataset, Sample
+from .utils import data_to_samples, shuffle_choices_if_requested
+logger = get_logger()
+class DataLoader(ABC):
+    """
+    Abstract base class for data loaders.
+    """
+    def __init__(
+        self,
+        data_id_or_path: str,
+        split: str,
+        sample_fields: Union[FieldSpec, Callable] = None,
+        filter_func: Callable = None,
+        subset: str = 'default',
+        version: str = None,
+        limit: Union[int, float] = None,
+        data_source: Optional[str] = None,
+        shuffle: bool = False,
+        shuffle_choices: Optional[Union[bool, int]] = None,
+        seed: Optional[int] = None,
+        auto_id: bool = True,
+        repeats: int = 1,
+        trust_remote: bool = True,
+        **kwargs
+    ):
+        self.data_id_or_path = data_id_or_path
+        self.split = split
+        self.sample_fields = sample_fields
+        self.filter_func = filter_func
+        self.subset = subset
+        self.version = version
+        self.limit = limit
+        self.data_source = data_source
+        self.shuffle = shuffle
+        self.shuffle_choices = shuffle_choices
+        self.seed = seed
+        self.auto_id = auto_id
+        self.repeats = repeats
+        self.trust_remote = trust_remote
+        self.kwargs = kwargs
+    @abstractmethod
+    def load(self) -> Dataset:
+        """
+        Load data from the source.
+        """
+        ...
+class RemoteDataLoader(DataLoader):
+    """
+    Data loader for remote datasets: ModelScope or Huggingface.
+    """
+    def load(self) -> Dataset:
+        import datasets
+        from modelscope import MsDataset
+        path = self.data_id_or_path
+        # resolve data_to_sample function
+        data_to_sample = record_to_sample_fn(self.sample_fields)
+        # generate a unique cache dir for this dataset
+        dataset_hash = gen_hash(f'{path}{self.split}{self.subset}{self.version}{self.kwargs}')
+        datasets_cache_dir = os.path.join(DEFAULT_EVALSCOPE_CACHE_DIR, 'datasets')
+        dataset_cache_dir = os.path.join(datasets_cache_dir, f'{safe_filename(path)}-{dataset_hash}')
+        if os.path.exists(dataset_cache_dir):
+            dataset = datasets.load_from_disk(dataset_cache_dir)
+        else:
+            logger.info(
+                f'Loading dataset {path} from {self.data_source} > subset: {self.subset} > split: {self.split} ...'
+            )
+            if self.data_source == HubType.MODELSCOPE:
+                dataset = MsDataset.load(
+                    dataset_name=path,
+                    split=self.split,
+                    subset_name=self.subset,
+                    version=self.version,
+                    trust_remote_code=self.trust_remote,
+                    **self.kwargs,
+                )
+                # convert to Huggingface dataset if necessary
+                if not isinstance(dataset, datasets.Dataset):
+                    dataset = dataset.to_hf_dataset()
+            elif self.data_source in [HubType.HUGGINGFACE, HubType.LOCAL]:
+                # remove dataset_infos.json file if exists, since datasets will occur an error if it exists.
+                dataset_infos_path = os.path.join(path, 'dataset_infos.json')
+                if os.path.exists(dataset_infos_path):
+                    logger.info(f'Removing dataset_infos.json file at {dataset_infos_path} to avoid datasets errors.')
+                    os.remove(dataset_infos_path)
+                # load dataset from Huggingface or local path
+                dataset = datasets.load_dataset(
+                    path=path,
+                    name=self.subset if self.subset != 'default' else None,
+                    split=self.split,
+                    revision=self.version,
+                    trust_remote_code=self.trust_remote,
+                    **self.kwargs,
+                )
+            # Only save to disk if not loading from local path
+            if self.data_source != HubType.LOCAL:
+                dataset.save_to_disk(dataset_cache_dir)
+        # shuffle if requested
+        if self.shuffle:
+            dataset = dataset.shuffle(seed=self.seed)
+        # limit if requested
+        if self.limit:
+            if isinstance(self.limit, float):
+                self.limit = int(len(dataset) * self.limit)
+            elif isinstance(self.limit, int) and self.limit < 0:
+                raise ValueError('Limit must be a non-negative integer or a float between 0 and 1.')
+            dataset = dataset.select(range(self.limit))
+        # convert to list
+        dataset = dataset.to_list()
+        # repeat k times
+        if self.repeats > 1:
+            dataset = [copy.deepcopy(item) for item in dataset for _ in range(self.repeats)]
+        # return the dataset
+        memory_dataset = MemoryDataset(
+            samples=data_to_samples(data=dataset, data_to_sample=data_to_sample),
+            name=Path(path).stem if Path(path).exists() else path,
+            location=path,
+        )
+        # Apply filtering if a filter function is provided
+        if self.filter_func is not None:
+            memory_dataset = memory_dataset.filter(self.filter_func)
+        # assign ids and group_ids if requested
+        if self.auto_id:
+            memory_dataset.reindex(group_size=self.repeats)
+        shuffle_choices_if_requested(memory_dataset, self.shuffle_choices)
+        return memory_dataset
+class LocalDataLoader(DataLoader):
+    """
+    Data loader for local datasets. Reads from JSONL or CSV files.
+    """
+    def load(self):
+        path = self.data_id_or_path
+        data_to_sample = record_to_sample_fn(self.sample_fields)
+        dataset = []
+        # Check for JSONL or CSV files in the specified path
+        for ext, loader in [('.jsonl', jsonl_to_list), ('.csv', csv_to_list)]:
+            # Check if the file exists with the given extension
+            if os.path.isfile(path) and path.endswith(ext):
+                file_paths = [path]
+            else:
+                file_paths = [
+                    os.path.join(path, f'{self.subset}_{self.split}{ext}'),
+                    os.path.join(path, f'{self.subset}{ext}')
+                ]
+            # If the file exists, load it
+            for file_path in file_paths:
+                if os.path.exists(file_path):
+                    dataset = loader(file_path)
+                    break  # Stop checking other extensions once a file is found
+        # shuffle if requested
+        if self.shuffle:
+            random.shuffle(dataset, self.seed)
+        # limit if requested
+        if self.limit:
+            if isinstance(self.limit, float):
+                self.limit = int(len(dataset) * self.limit)
+            elif isinstance(self.limit, int) and self.limit < 0:
+                raise ValueError('Limit must be a non-negative integer or a float between 0 and 1.')
+            dataset = dataset[:self.limit]
+        # repeat k times
+        if self.repeats > 1:
+            dataset = [copy.deepcopy(item) for item in dataset for _ in range(self.repeats)]
+        # return the dataset
+        memory_dataset = MemoryDataset(
+            samples=data_to_samples(data=dataset, data_to_sample=data_to_sample),
+            name=Path(path).stem if Path(path).exists() else path,
+            location=path,
+        )
+        # Apply filtering if a filter function is provided
+        if self.filter_func is not None:
+            memory_dataset = memory_dataset.filter(self.filter_func)
+        # assign ids and group_ids if requested
+        if self.auto_id:
+            memory_dataset.reindex(group_size=self.repeats)
+        shuffle_choices_if_requested(memory_dataset, self.shuffle_choices)
+        return memory_dataset
+class DictDataLoader(DataLoader):
+    """Load dataset from a list of dictionaries."""
+    def __init__(self, dict_list: list, **kwargs):
+        super().__init__(data_id_or_path='', split='', **kwargs)
+        self.dict_list = dict_list
+    def load(self) -> Dataset:
+        data_to_sample = record_to_sample_fn(self.sample_fields)
+        dataset = self.dict_list
+        # shuffle if requested
+        if self.shuffle:
+            random.shuffle(dataset, self.seed)
+        # limit if requested
+        if self.limit:
+            if isinstance(self.limit, float):
+                self.limit = int(len(dataset) * self.limit)
+            elif isinstance(self.limit, int) and self.limit < 0:
+                raise ValueError('Limit must be a non-negative integer or a float between 0 and 1.')
+            dataset = dataset[:self.limit]
+        # repeat k times
+        if self.repeats > 1:
+            dataset = [copy.deepcopy(item) for item in dataset for _ in range(self.repeats)]
+        # return the dataset
+        memory_dataset = MemoryDataset(samples=data_to_samples(data=dataset, data_to_sample=data_to_sample), )
+        # Apply filtering if a filter function is provided
+        if self.filter_func is not None:
+            memory_dataset = memory_dataset.filter(self.filter_func)
+        # assign ids and group_ids if requested
+        if self.auto_id:
+            memory_dataset.reindex(group_size=self.repeats)
+        shuffle_choices_if_requested(memory_dataset, self.shuffle_choices)
+        return memory_dataset

evalscope 0.17.1__py3-none-any.whl → 1.0.0__py3-none-any.whl

evalscope 0.17.1py3-none-any.whl → 1.0.0py3-none-any.whl