PyPI - evalscope - Versions diffs - 0.17.1__py3-none-any.whl → 1.0.1__py3-none-any.whl - Mend

evalscope 0.17.1py3-none-any.whl → 1.0.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of evalscope might be problematic. Click here for more details.

Files changed (302) hide show

evalscope/__init__.py +4 -1
evalscope/api/benchmark/__init__.py +3 -0
evalscope/api/benchmark/adapters/__init__.py +5 -0
evalscope/api/benchmark/adapters/default_data_adapter.py +684 -0
evalscope/api/benchmark/adapters/image_edit_adapter.py +82 -0
evalscope/api/benchmark/adapters/multi_choice_adapter.py +83 -0
evalscope/api/benchmark/adapters/text2image_adapter.py +156 -0
evalscope/api/benchmark/adapters/vision_language_adapter.py +6 -0
evalscope/api/benchmark/benchmark.py +356 -0
evalscope/api/benchmark/meta.py +121 -0
evalscope/api/dataset/__init__.py +2 -0
evalscope/api/dataset/dataset.py +349 -0
evalscope/api/dataset/loader.py +262 -0
evalscope/api/dataset/utils.py +143 -0
evalscope/api/evaluator/__init__.py +3 -0
evalscope/api/evaluator/cache.py +378 -0
evalscope/api/evaluator/evaluator.py +56 -0
evalscope/api/evaluator/state.py +275 -0
evalscope/api/filter/__init__.py +1 -0
evalscope/api/filter/filter.py +72 -0
evalscope/api/messages/__init__.py +12 -0
evalscope/api/messages/chat_message.py +243 -0
evalscope/api/messages/content.py +102 -0
evalscope/api/messages/utils.py +35 -0
evalscope/api/metric/__init__.py +2 -0
evalscope/api/metric/metric.py +55 -0
evalscope/api/metric/scorer.py +113 -0
evalscope/api/mixin/__init__.py +1 -0
evalscope/api/mixin/llm_judge_mixin.py +168 -0
evalscope/api/model/__init__.py +12 -0
evalscope/api/model/generate_config.py +155 -0
evalscope/api/model/model.py +386 -0
evalscope/api/model/model_output.py +285 -0
evalscope/api/registry.py +182 -0
evalscope/api/tool/__init__.py +3 -0
evalscope/api/tool/tool_call.py +101 -0
evalscope/api/tool/tool_info.py +173 -0
evalscope/api/tool/utils.py +64 -0
evalscope/app/app.py +3 -0
evalscope/app/ui/app_ui.py +2 -1
evalscope/app/ui/multi_model.py +50 -25
evalscope/app/ui/single_model.py +26 -14
evalscope/app/utils/data_utils.py +43 -27
evalscope/app/utils/env_utils.py +12 -0
evalscope/app/utils/text_utils.py +14 -14
evalscope/app/utils/visualization.py +9 -4
evalscope/arguments.py +7 -10
evalscope/backend/opencompass/api_meta_template.py +2 -1
evalscope/backend/opencompass/backend_manager.py +6 -5
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +10 -10
evalscope/backend/rag_eval/clip_benchmark/task_template.py +8 -4
evalscope/backend/rag_eval/ragas/task_template.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +7 -4
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +2 -1
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +2 -1
evalscope/backend/rag_eval/utils/embedding.py +10 -1
evalscope/backend/rag_eval/utils/llm.py +13 -12
evalscope/benchmarks/__init__.py +0 -2
evalscope/benchmarks/aime/aime24_adapter.py +38 -40
evalscope/benchmarks/aime/aime25_adapter.py +34 -40
evalscope/benchmarks/alpaca_eval/alpaca_eval_adapter.py +86 -60
evalscope/benchmarks/arc/arc_adapter.py +34 -147
evalscope/benchmarks/arena_hard/arena_hard_adapter.py +96 -70
evalscope/benchmarks/arena_hard/utils.py +37 -1
evalscope/benchmarks/bbh/bbh_adapter.py +72 -144
evalscope/benchmarks/bfcl/bfcl_adapter.py +188 -171
evalscope/benchmarks/bfcl/generation.py +222 -0
evalscope/benchmarks/ceval/ceval_adapter.py +93 -162
evalscope/benchmarks/chinese_simple_qa/csimple_qa_adapter.py +85 -82
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +34 -125
evalscope/benchmarks/competition_math/competition_math_adapter.py +56 -108
evalscope/benchmarks/data_collection/data_collection_adapter.py +187 -45
evalscope/benchmarks/docmath/docmath_adapter.py +109 -51
evalscope/benchmarks/docmath/utils.py +4 -5
evalscope/benchmarks/drop/drop_adapter.py +88 -40
evalscope/benchmarks/frames/frames_adapter.py +136 -52
evalscope/benchmarks/general_arena/general_arena_adapter.py +140 -98
evalscope/benchmarks/general_arena/utils.py +23 -27
evalscope/benchmarks/general_mcq/general_mcq_adapter.py +40 -101
evalscope/benchmarks/general_qa/general_qa_adapter.py +73 -134
evalscope/benchmarks/gpqa/gpqa_adapter.py +61 -100
evalscope/benchmarks/gpqa/{chain_of_thought.txt → prompt.py} +12 -5
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +62 -142
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +35 -124
evalscope/benchmarks/hle/hle_adapter.py +127 -93
evalscope/benchmarks/humaneval/humaneval_adapter.py +86 -55
evalscope/benchmarks/ifeval/ifeval_adapter.py +69 -40
evalscope/benchmarks/ifeval/instructions.py +109 -64
evalscope/benchmarks/ifeval/instructions_registry.py +1 -1
evalscope/benchmarks/ifeval/instructions_util.py +2 -3
evalscope/benchmarks/ifeval/utils.py +6 -7
evalscope/benchmarks/image_edit/gedit/__init__.py +0 -0
evalscope/benchmarks/image_edit/gedit/gedit_adapter.py +138 -0
evalscope/benchmarks/image_edit/gedit/utils.py +372 -0
evalscope/benchmarks/image_edit/gedit/vie_prompts.py +406 -0
evalscope/benchmarks/iquiz/iquiz_adapter.py +30 -65
evalscope/benchmarks/live_code_bench/evaluate_utils.py +2 -2
evalscope/benchmarks/live_code_bench/live_code_bench_adapter.py +121 -71
evalscope/benchmarks/live_code_bench/load_utils.py +13 -21
evalscope/benchmarks/live_code_bench/testing_util.py +6 -2
evalscope/benchmarks/maritime_bench/maritime_bench_adapter.py +49 -75
evalscope/benchmarks/math_500/math_500_adapter.py +41 -48
evalscope/benchmarks/math_vista/__init__.py +0 -0
evalscope/benchmarks/math_vista/math_vista_adapter.py +129 -0
evalscope/benchmarks/mmlu/mmlu_adapter.py +32 -205
evalscope/benchmarks/mmlu_pro/mmlu_pro_adapter.py +80 -99
evalscope/benchmarks/mmlu_redux/mmlu_redux_adapter.py +64 -110
evalscope/benchmarks/mmmu/__init__.py +0 -0
evalscope/benchmarks/mmmu/mmmu_adapter.py +159 -0
evalscope/benchmarks/mmmu_pro/__init__.py +0 -0
evalscope/benchmarks/mmmu_pro/mmmu_pro_adapter.py +129 -0
evalscope/benchmarks/musr/musr_adapter.py +33 -64
evalscope/benchmarks/needle_haystack/needle_haystack_adapter.py +196 -152
evalscope/benchmarks/process_bench/process_bench_adapter.py +144 -76
evalscope/benchmarks/race/race_adapter.py +33 -119
evalscope/benchmarks/simple_qa/simple_qa_adapter.py +72 -70
evalscope/benchmarks/super_gpqa/{five_shot_prompt.txt → prompt.py} +14 -16
evalscope/benchmarks/super_gpqa/super_gpqa_adapter.py +73 -117
evalscope/benchmarks/super_gpqa/utils.py +2 -1
evalscope/benchmarks/tau_bench/generation.py +147 -0
evalscope/benchmarks/tau_bench/tau_bench_adapter.py +114 -60
evalscope/benchmarks/text2image/__init__.py +0 -0
evalscope/benchmarks/text2image/evalmuse_adapter.py +78 -0
evalscope/benchmarks/text2image/genai_bench_adapter.py +53 -0
evalscope/benchmarks/text2image/general_t2i_adapter.py +42 -0
evalscope/benchmarks/text2image/hpdv2_adapter.py +52 -0
evalscope/benchmarks/text2image/tifa_adapter.py +27 -0
evalscope/benchmarks/tool_bench/tool_bench_adapter.py +91 -70
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +56 -124
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +70 -266
evalscope/benchmarks/winogrande/winogrande_adapter.py +28 -54
evalscope/cli/cli.py +2 -0
evalscope/cli/start_app.py +7 -1
evalscope/cli/start_perf.py +7 -1
evalscope/cli/start_server.py +6 -3
evalscope/collections/__init__.py +2 -10
evalscope/collections/sampler.py +10 -10
evalscope/collections/schema.py +13 -11
evalscope/config.py +157 -57
evalscope/constants.py +37 -61
evalscope/evaluator/__init__.py +1 -1
evalscope/evaluator/evaluator.py +275 -419
evalscope/filters/__init__.py +2 -0
evalscope/filters/extraction.py +126 -0
evalscope/filters/selection.py +57 -0
evalscope/metrics/__init__.py +13 -13
evalscope/metrics/llm_judge.py +47 -33
evalscope/metrics/math_parser.py +27 -22
evalscope/metrics/metric.py +307 -0
evalscope/metrics/metrics.py +22 -18
evalscope/metrics/t2v_metrics/__init__.py +0 -52
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/clip_model.py +4 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/build_mps_model/cross_modeling.py +9 -13
evalscope/metrics/t2v_metrics/models/clipscore_models/clip_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/hpsv2_model.py +3 -2
evalscope/metrics/t2v_metrics/models/clipscore_models/mps_model.py +2 -1
evalscope/metrics/t2v_metrics/models/clipscore_models/pickscore_model.py +2 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/blip2_itm_model.py +2 -1
evalscope/metrics/t2v_metrics/models/itmscore_models/fga_blip2_model.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/ImageReward.py +10 -5
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward/blip_pretrain.py +4 -2
evalscope/metrics/t2v_metrics/models/itmscore_models/image_reward_model.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/language_model/clip_t5.py +15 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5/model/multimodal_encoder/clip_encoder.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/clip_t5_model.py +15 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/gpt4v_model.py +9 -6
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/config.py +2 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/gradcam.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/logger.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/optims.py +3 -9
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/registry.py +16 -10
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/common/vqa_tools/vqa_eval.py +4 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/__init__.py +8 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/Qformer.py +47 -25
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_qformer.py +12 -7
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5.py +23 -17
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/blip2_t5_instruct.py +33 -23
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/fga_blip2.py +2 -1
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_llama.py +46 -30
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip2_models/modeling_t5.py +69 -37
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/__init__.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip.py +6 -4
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_image_text_matching.py +7 -5
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_nlvr.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_outputs.py +5 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/blip_vqa.py +17 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/blip_models/nlvr_encoder.py +35 -19
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/clip_vit.py +14 -12
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/eva_vit.py +63 -52
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/med.py +63 -38
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/models/vit.py +6 -3
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/__init__.py +6 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/lavis/processors/randaugment.py +3 -2
evalscope/metrics/t2v_metrics/models/vqascore_models/mm_utils.py +15 -13
evalscope/metrics/t2v_metrics/models/vqascore_models/vqa_model.py +3 -2
evalscope/models/__init__.py +6 -29
evalscope/models/image_edit_model.py +125 -0
evalscope/models/mockllm.py +65 -0
evalscope/models/model_apis.py +67 -0
evalscope/models/modelscope.py +455 -0
evalscope/models/openai_compatible.py +126 -0
evalscope/models/text2image_model.py +124 -0
evalscope/models/utils/openai.py +701 -0
evalscope/perf/benchmark.py +4 -1
evalscope/perf/http_client.py +4 -2
evalscope/perf/plugin/api/custom_api.py +5 -4
evalscope/perf/plugin/api/openai_api.py +11 -9
evalscope/perf/plugin/datasets/custom.py +2 -1
evalscope/perf/plugin/datasets/flickr8k.py +1 -1
evalscope/perf/plugin/datasets/kontext_bench.py +1 -1
evalscope/perf/plugin/datasets/line_by_line.py +2 -1
evalscope/perf/plugin/datasets/longalpaca.py +2 -1
evalscope/perf/plugin/datasets/openqa.py +4 -2
evalscope/perf/utils/benchmark_util.py +15 -10
evalscope/perf/utils/db_util.py +9 -6
evalscope/perf/utils/local_server.py +11 -3
evalscope/perf/utils/rich_display.py +16 -10
evalscope/report/__init__.py +2 -3
evalscope/report/combinator.py +18 -12
evalscope/report/generator.py +51 -35
evalscope/report/{utils.py → report.py} +8 -6
evalscope/run.py +33 -47
evalscope/summarizer.py +1 -1
evalscope/third_party/toolbench_static/llm/swift_infer.py +0 -4
evalscope/utils/__init__.py +21 -2
evalscope/utils/chat_service.py +3 -2
evalscope/utils/deprecation_utils.py +12 -1
evalscope/utils/function_utils.py +29 -0
evalscope/utils/import_utils.py +23 -1
evalscope/utils/io_utils.py +142 -6
evalscope/utils/json_schema.py +208 -0
evalscope/utils/logger.py +51 -12
evalscope/utils/model_utils.py +11 -7
evalscope/utils/multi_choices.py +288 -0
evalscope/utils/url_utils.py +65 -0
evalscope/version.py +2 -2
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/METADATA +108 -62
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/RECORD +258 -226
tests/benchmark/test_eval.py +385 -0
tests/benchmark/test_image_edit.py +65 -0
tests/{aigc → benchmark}/test_t2i.py +22 -4
tests/benchmark/test_vlm.py +80 -0
tests/cli/test_all.py +85 -47
tests/cli/test_collection.py +20 -8
tests/cli/test_custom.py +22 -15
tests/cli/test_reasoning.py +81 -0
tests/common.py +73 -0
tests/perf/test_perf.py +4 -2
tests/rag/test_clip_benchmark.py +0 -2
evalscope/benchmarks/aigc/t2i/base.py +0 -56
evalscope/benchmarks/aigc/t2i/evalmuse_adapter.py +0 -78
evalscope/benchmarks/aigc/t2i/genai_bench_adapter.py +0 -58
evalscope/benchmarks/aigc/t2i/general_t2i_adapter.py +0 -58
evalscope/benchmarks/aigc/t2i/hpdv2_adapter.py +0 -57
evalscope/benchmarks/aigc/t2i/tifa_adapter.py +0 -37
evalscope/benchmarks/arc/ai2_arc.py +0 -151
evalscope/benchmarks/benchmark.py +0 -81
evalscope/benchmarks/ceval/ceval_exam.py +0 -146
evalscope/benchmarks/cmmlu/cmmlu.py +0 -161
evalscope/benchmarks/cmmlu/samples.jsonl +0 -5
evalscope/benchmarks/competition_math/competition_math.py +0 -79
evalscope/benchmarks/data_adapter.py +0 -528
evalscope/benchmarks/filters.py +0 -59
evalscope/benchmarks/gsm8k/gsm8k.py +0 -121
evalscope/benchmarks/hellaswag/hellaswag.py +0 -112
evalscope/benchmarks/humaneval/humaneval.py +0 -79
evalscope/benchmarks/mmlu/mmlu.py +0 -160
evalscope/benchmarks/mmlu/samples.jsonl +0 -5
evalscope/benchmarks/process_bench/critique_template.txt +0 -13
evalscope/benchmarks/race/race.py +0 -104
evalscope/benchmarks/race/samples.jsonl +0 -5
evalscope/benchmarks/super_gpqa/zero_shot_prompt.txt +0 -4
evalscope/benchmarks/trivia_qa/trivia_qa.py +0 -89
evalscope/benchmarks/truthful_qa/truthful_qa.py +0 -163
evalscope/benchmarks/utils.py +0 -60
evalscope/collections/evaluator.py +0 -375
evalscope/metrics/completion_parsers.py +0 -227
evalscope/metrics/named_metrics.py +0 -55
evalscope/models/adapters/__init__.py +0 -14
evalscope/models/adapters/base_adapter.py +0 -84
evalscope/models/adapters/bfcl_adapter.py +0 -246
evalscope/models/adapters/chat_adapter.py +0 -207
evalscope/models/adapters/choice_adapter.py +0 -222
evalscope/models/adapters/custom_adapter.py +0 -71
evalscope/models/adapters/server_adapter.py +0 -236
evalscope/models/adapters/t2i_adapter.py +0 -79
evalscope/models/adapters/tau_bench_adapter.py +0 -189
evalscope/models/custom/__init__.py +0 -4
evalscope/models/custom/custom_model.py +0 -50
evalscope/models/custom/dummy_model.py +0 -99
evalscope/models/local_model.py +0 -128
evalscope/models/register.py +0 -41
tests/cli/test_run.py +0 -489
/evalscope/{benchmarks/aigc → api}/__init__.py +0 -0
/evalscope/benchmarks/{aigc/t2i → image_edit}/__init__.py +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/LICENSE +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/WHEEL +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/entry_points.txt +0 -0
{evalscope-0.17.1.dist-info → evalscope-1.0.1.dist-info}/top_level.txt +0 -0
/tests/{aigc → benchmark}/__init__.py +0 -0

evalscope/api/dataset/loader.py ADDED Viewed

@@ -0,0 +1,262 @@
+import copy
+import os
+import random
+from abc import ABC, abstractmethod
+from pathlib import Path
+from typing import Callable, Dict, List, Optional, Union
+from evalscope.api.dataset.utils import record_to_sample_fn
+from evalscope.constants import DEFAULT_EVALSCOPE_CACHE_DIR, HubType
+from evalscope.utils import get_logger
+from evalscope.utils.io_utils import csv_to_list, gen_hash, jsonl_to_list, safe_filename
+from .dataset import Dataset, FieldSpec, MemoryDataset, Sample
+from .utils import data_to_samples, shuffle_choices_if_requested
+logger = get_logger()
+class DataLoader(ABC):
+    """
+    Abstract base class for data loaders.
+    """
+    def __init__(
+        self,
+        data_id_or_path: str,
+        split: str,
+        sample_fields: Union[FieldSpec, Callable] = None,
+        filter_func: Callable = None,
+        subset: str = 'default',
+        version: str = None,
+        limit: Union[int, float] = None,
+        data_source: Optional[str] = None,
+        shuffle: bool = False,
+        shuffle_choices: Optional[Union[bool, int]] = None,
+        seed: Optional[int] = None,
+        auto_id: bool = True,
+        repeats: int = 1,
+        trust_remote: bool = True,
+        **kwargs
+    ):
+        self.data_id_or_path = data_id_or_path
+        self.split = split
+        self.sample_fields = sample_fields
+        self.filter_func = filter_func
+        self.subset = subset
+        self.version = version
+        self.limit = limit
+        self.data_source = data_source
+        self.shuffle = shuffle
+        self.shuffle_choices = shuffle_choices
+        self.seed = seed
+        self.auto_id = auto_id
+        self.repeats = repeats
+        self.trust_remote = trust_remote
+        self.kwargs = kwargs
+    @abstractmethod
+    def load(self) -> Dataset:
+        """
+        Load data from the source.
+        """
+        ...
+class RemoteDataLoader(DataLoader):
+    """
+    Data loader for remote datasets: ModelScope or Huggingface.
+    """
+    def load(self) -> Dataset:
+        import datasets
+        from modelscope import MsDataset
+        path = self.data_id_or_path
+        # resolve data_to_sample function
+        data_to_sample = record_to_sample_fn(self.sample_fields)
+        # generate a unique cache dir for this dataset
+        dataset_hash = gen_hash(f'{path}{self.split}{self.subset}{self.version}{self.kwargs}')
+        datasets_cache_dir = os.path.join(DEFAULT_EVALSCOPE_CACHE_DIR, 'datasets')
+        dataset_cache_dir = os.path.join(datasets_cache_dir, f'{safe_filename(path)}-{dataset_hash}')
+        if os.path.exists(dataset_cache_dir):
+            dataset = datasets.load_from_disk(dataset_cache_dir)
+        else:
+            logger.info(
+                f'Loading dataset {path} from {self.data_source} > subset: {self.subset} > split: {self.split} ...'
+            )
+            if self.data_source == HubType.MODELSCOPE:
+                dataset = MsDataset.load(
+                    dataset_name=path,
+                    split=self.split,
+                    subset_name=self.subset,
+                    version=self.version,
+                    trust_remote_code=self.trust_remote,
+                    **self.kwargs,
+                )
+                # convert to Huggingface dataset if necessary
+                if not isinstance(dataset, datasets.Dataset):
+                    dataset = dataset.to_hf_dataset()
+            elif self.data_source in [HubType.HUGGINGFACE, HubType.LOCAL]:
+                # remove dataset_infos.json file if exists, since datasets will occur an error if it exists.
+                dataset_infos_path = os.path.join(path, 'dataset_infos.json')
+                if os.path.exists(dataset_infos_path):
+                    logger.info(f'Removing dataset_infos.json file at {dataset_infos_path} to avoid datasets errors.')
+                    os.remove(dataset_infos_path)
+                # load dataset from Huggingface or local path
+                dataset = datasets.load_dataset(
+                    path=path,
+                    name=self.subset if self.subset != 'default' else None,
+                    split=self.split,
+                    revision=self.version,
+                    trust_remote_code=self.trust_remote,
+                    **self.kwargs,
+                )
+            # Only save to disk if not loading from local path
+            if self.data_source != HubType.LOCAL:
+                dataset.save_to_disk(dataset_cache_dir)
+        # shuffle if requested
+        if self.shuffle:
+            dataset = dataset.shuffle(seed=self.seed)
+        # limit if requested
+        if self.limit:
+            if isinstance(self.limit, float):
+                self.limit = int(len(dataset) * self.limit)
+            elif isinstance(self.limit, int) and self.limit < 0:
+                raise ValueError('Limit must be a non-negative integer or a float between 0 and 1.')
+            if len(dataset) > self.limit:
+                dataset = dataset.select(range(self.limit))
+        # convert to list
+        dataset = dataset.to_list()
+        # repeat k times
+        if self.repeats > 1:
+            dataset = [copy.deepcopy(item) for item in dataset for _ in range(self.repeats)]
+        # return the dataset
+        memory_dataset = MemoryDataset(
+            samples=data_to_samples(data=dataset, data_to_sample=data_to_sample),
+            name=Path(path).stem if Path(path).exists() else path,
+            location=path,
+        )
+        # Apply filtering if a filter function is provided
+        if self.filter_func is not None:
+            memory_dataset = memory_dataset.filter(self.filter_func)
+        # assign ids and group_ids if requested
+        if self.auto_id:
+            memory_dataset.reindex(group_size=self.repeats)
+        shuffle_choices_if_requested(memory_dataset, self.shuffle_choices)
+        return memory_dataset
+class LocalDataLoader(DataLoader):
+    """
+    Data loader for local datasets. Reads from JSONL or CSV files.
+    """
+    def load(self):
+        path = self.data_id_or_path
+        data_to_sample = record_to_sample_fn(self.sample_fields)
+        dataset = []
+        # Check for JSONL or CSV files in the specified path
+        for ext, loader in [('.jsonl', jsonl_to_list), ('.csv', csv_to_list)]:
+            # Check if the file exists with the given extension
+            if os.path.isfile(path) and path.endswith(ext):
+                file_paths = [path]
+            else:
+                file_paths = [
+                    os.path.join(path, f'{self.subset}_{self.split}{ext}'),
+                    os.path.join(path, f'{self.subset}{ext}')
+                ]
+            # If the file exists, load it
+            for file_path in file_paths:
+                if os.path.exists(file_path):
+                    dataset = loader(file_path)
+                    break  # Stop checking other extensions once a file is found
+        # shuffle if requested
+        if self.shuffle:
+            random.shuffle(dataset, self.seed)
+        # limit if requested
+        if self.limit:
+            if isinstance(self.limit, float):
+                self.limit = int(len(dataset) * self.limit)
+            elif isinstance(self.limit, int) and self.limit < 0:
+                raise ValueError('Limit must be a non-negative integer or a float between 0 and 1.')
+            dataset = dataset[:self.limit]
+        # repeat k times
+        if self.repeats > 1:
+            dataset = [copy.deepcopy(item) for item in dataset for _ in range(self.repeats)]
+        # return the dataset
+        memory_dataset = MemoryDataset(
+            samples=data_to_samples(data=dataset, data_to_sample=data_to_sample),
+            name=Path(path).stem if Path(path).exists() else path,
+            location=path,
+        )
+        # Apply filtering if a filter function is provided
+        if self.filter_func is not None:
+            memory_dataset = memory_dataset.filter(self.filter_func)
+        # assign ids and group_ids if requested
+        if self.auto_id:
+            memory_dataset.reindex(group_size=self.repeats)
+        shuffle_choices_if_requested(memory_dataset, self.shuffle_choices)
+        return memory_dataset
+class DictDataLoader(DataLoader):
+    """Load dataset from a list of dictionaries."""
+    def __init__(self, dict_list: list, **kwargs):
+        super().__init__(data_id_or_path='', split='', **kwargs)
+        self.dict_list = dict_list
+    def load(self) -> Dataset:
+        data_to_sample = record_to_sample_fn(self.sample_fields)
+        dataset = self.dict_list
+        # shuffle if requested
+        if self.shuffle:
+            random.shuffle(dataset, self.seed)
+        # limit if requested
+        if self.limit:
+            if isinstance(self.limit, float):
+                self.limit = int(len(dataset) * self.limit)
+            elif isinstance(self.limit, int) and self.limit < 0:
+                raise ValueError('Limit must be a non-negative integer or a float between 0 and 1.')
+            dataset = dataset[:self.limit]
+        # repeat k times
+        if self.repeats > 1:
+            dataset = [copy.deepcopy(item) for item in dataset for _ in range(self.repeats)]
+        # return the dataset
+        memory_dataset = MemoryDataset(samples=data_to_samples(data=dataset, data_to_sample=data_to_sample), )
+        # Apply filtering if a filter function is provided
+        if self.filter_func is not None:
+            memory_dataset = memory_dataset.filter(self.filter_func)
+        # assign ids and group_ids if requested
+        if self.auto_id:
+            memory_dataset.reindex(group_size=self.repeats)
+        shuffle_choices_if_requested(memory_dataset, self.shuffle_choices)
+        return memory_dataset

evalscope/api/dataset/utils.py ADDED Viewed

@@ -0,0 +1,143 @@
+import json
+from tqdm import tqdm
+from typing import Any, Callable, Dict, Iterable, List, Optional, Union, cast
+from .dataset import Dataset, FieldSpec, Sample
+def record_to_sample_fn(sample_fields: Union[FieldSpec, Callable, None] = None, ) -> Callable:
+    if sample_fields is None:
+        sample_fields = FieldSpec()
+    if isinstance(sample_fields, FieldSpec):
+        def record_to_sample(record: dict) -> Sample:
+            # collect metadata if specified
+            metadata: Optional[Dict[str, Any]] = None
+            if sample_fields.metadata:
+                if isinstance(sample_fields.metadata, list):
+                    metadata = {}
+                    for name in sample_fields.metadata:
+                        metadata[name] = record.get(name)
+            elif 'metadata' in record:
+                metadata_field = record.get('metadata')
+                if isinstance(metadata_field, str):
+                    metadata = json.loads(metadata_field)
+                elif isinstance(metadata_field, dict):
+                    metadata = metadata_field
+                else:
+                    raise ValueError(f"Unexpected type for 'metadata' field: {type(metadata_field)}")
+            # return sample
+            return Sample(
+                input=read_input(record.get(sample_fields.input)),
+                target=read_target(record.get(sample_fields.target)),
+                choices=read_choices(record.get(sample_fields.choices)),
+                id=record.get(sample_fields.id, None),
+                metadata=metadata,
+                sandbox=read_sandbox(record.get(sample_fields.sandbox)),
+                files=read_files(record.get(sample_fields.files)),
+                setup=read_setup(record.get(sample_fields.setup)),
+            )
+        return record_to_sample
+    else:
+        return sample_fields
+def data_to_samples(data: Iterable[dict], data_to_sample: Callable) -> List[Sample]:
+    samples: List[Sample] = []
+    for record in tqdm(data, desc='Processing records'):
+        record_samples = as_sample_list(data_to_sample(record=record))
+        samples.extend(record_samples)
+    return samples
+def as_sample_list(samples: Union[Sample, List[Sample]]) -> List[Sample]:
+    if isinstance(samples, list):
+        return samples
+    else:
+        return [samples]
+def read_input(input_val: Optional[Any]) -> str:
+    if not input_val:
+        raise ValueError('No input in dataset')
+    return str(input_val)
+def read_target(obj: Optional[Any]) -> Union[str, List[str]]:
+    if obj is not None:
+        return [str(item) for item in obj] if isinstance(obj, list) else str(obj)
+    else:
+        return ''
+def read_choices(obj: Optional[Any]) -> Optional[List[str]]:
+    if obj is not None:
+        if isinstance(obj, list):
+            return [str(choice) for choice in obj]
+        elif isinstance(obj, str):
+            choices = obj.split(',')
+            if len(choices) == 1:
+                choices = obj.split()
+            return [choice.strip() for choice in choices]
+        else:
+            return [str(obj)]
+    else:
+        return None
+def read_setup(setup: Optional[Any]) -> Optional[str]:
+    if setup is not None:
+        return str(setup)
+    else:
+        return None
+def read_sandbox(sandbox: Optional[Any]) -> Optional[str]:
+    if sandbox is not None:
+        if isinstance(sandbox, str):
+            return sandbox
+        elif isinstance(sandbox, dict):
+            return json.dumps(sandbox)
+        else:
+            raise ValueError(f"Unexpected type for 'sandbox' field: {type(sandbox)}")
+    else:
+        return None
+def read_files(files: Optional[Any]) -> Optional[Dict[str, str]]:
+    if files is not None:
+        if isinstance(files, str):
+            files = json.loads(files)
+        if isinstance(files, dict):
+            if all(isinstance(v, str) for v in files.values()):
+                return cast(Dict[str, str], files)
+        # didn't find the right type
+        raise ValueError(f"Unexpected type for 'files' field: {type(files)}")
+    else:
+        return None
+def shuffle_choices_if_requested(dataset: Dataset, shuffle_choices: Optional[Union[bool, int]]) -> None:
+    """
+    Shuffle the choices in the dataset if requested.
+    The `shuffle_choices` parameter passed to `json_dataset`, `csv_dataset`,
+    and `hf_dataset` can be a boolean, an integer, or `None` (default).
+    If it is a boolean, it will shuffle the choices if the value is `True`,
+    and do nothing if it is `False`.
+    If it is an integer, it will shuffle the choices using the integer as the seed.
+    """
+    # Note that `isinstance(x, int)` returns True if x is True or False,
+    # so we need to check for both explicitly
+    if shuffle_choices is True:
+        dataset.shuffle_choices()
+    elif shuffle_choices is False:
+        pass
+    elif isinstance(shuffle_choices, int):
+        dataset.shuffle_choices(seed=shuffle_choices)

evalscope/api/evaluator/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+from .cache import CacheManager, ModelResult, ReviewResult
+from .evaluator import Evaluator
+from .state import Choices, Target, TaskState

evalscope 0.17.1__py3-none-any.whl → 1.0.1__py3-none-any.whl

Potentially problematic release.

evalscope 0.17.1py3-none-any.whl → 1.0.1py3-none-any.whl