PyPI - evalscope - Versions diffs - 0.7.2__py3-none-any.whl → 0.8.1__py3-none-any.whl - Mend

evalscope 0.7.2py3-none-any.whl → 0.8.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of evalscope might be problematic. Click here for more details.

Files changed (234) hide show

evalscope/__init__.py +1 -1
evalscope/arguments.py +73 -0
evalscope/backend/base.py +6 -2
evalscope/backend/opencompass/api_meta_template.py +8 -14
evalscope/backend/opencompass/backend_manager.py +24 -15
evalscope/backend/opencompass/tasks/eval_api.py +1 -6
evalscope/backend/opencompass/tasks/eval_datasets.py +26 -28
evalscope/backend/rag_eval/__init__.py +3 -3
evalscope/backend/rag_eval/backend_manager.py +21 -25
evalscope/backend/rag_eval/clip_benchmark/__init__.py +1 -1
evalscope/backend/rag_eval/clip_benchmark/arguments.py +6 -6
evalscope/backend/rag_eval/clip_benchmark/dataset_builder.py +62 -79
evalscope/backend/rag_eval/clip_benchmark/task_template.py +29 -43
evalscope/backend/rag_eval/clip_benchmark/tasks/image_caption.py +20 -22
evalscope/backend/rag_eval/clip_benchmark/tasks/zeroshot_classification.py +16 -23
evalscope/backend/rag_eval/clip_benchmark/tasks/zeroshot_retrieval.py +14 -35
evalscope/backend/rag_eval/clip_benchmark/utils/webdataset_convert.py +69 -90
evalscope/backend/rag_eval/cmteb/__init__.py +3 -3
evalscope/backend/rag_eval/cmteb/arguments.py +25 -27
evalscope/backend/rag_eval/cmteb/base.py +22 -23
evalscope/backend/rag_eval/cmteb/task_template.py +15 -17
evalscope/backend/rag_eval/cmteb/tasks/Classification.py +98 -79
evalscope/backend/rag_eval/cmteb/tasks/Clustering.py +17 -22
evalscope/backend/rag_eval/cmteb/tasks/CustomTask.py +17 -19
evalscope/backend/rag_eval/cmteb/tasks/PairClassification.py +35 -29
evalscope/backend/rag_eval/cmteb/tasks/Reranking.py +18 -5
evalscope/backend/rag_eval/cmteb/tasks/Retrieval.py +163 -163
evalscope/backend/rag_eval/cmteb/tasks/STS.py +126 -104
evalscope/backend/rag_eval/cmteb/tasks/__init__.py +33 -34
evalscope/backend/rag_eval/ragas/__init__.py +2 -2
evalscope/backend/rag_eval/ragas/arguments.py +3 -8
evalscope/backend/rag_eval/ragas/prompts/chinese/AnswerCorrectness/correctness_prompt_chinese.json +9 -9
evalscope/backend/rag_eval/ragas/prompts/chinese/AnswerCorrectness/long_form_answer_prompt_chinese.json +2 -2
evalscope/backend/rag_eval/ragas/prompts/chinese/AnswerRelevancy/question_generation_chinese.json +3 -3
evalscope/backend/rag_eval/ragas/prompts/chinese/ContextPrecision/context_precision_prompt_chinese.json +5 -5
evalscope/backend/rag_eval/ragas/prompts/chinese/CustomNodeFilter/scoring_prompt_chinese.json +7 -0
evalscope/backend/rag_eval/ragas/prompts/chinese/Faithfulness/nli_statements_message_chinese.json +8 -8
evalscope/backend/rag_eval/ragas/prompts/chinese/Faithfulness/statement_prompt_chinese.json +5 -5
evalscope/backend/rag_eval/ragas/prompts/chinese/HeadlinesExtractor/prompt_chinese.json +7 -5
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiHopAbstractQuerySynthesizer/concept_combination_prompt_chinese.json +2 -2
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiHopAbstractQuerySynthesizer/generate_query_reference_prompt_chinese.json +27 -4
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiHopAbstractQuerySynthesizer/theme_persona_matching_prompt_chinese.json +2 -2
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiHopSpecificQuerySynthesizer/generate_query_reference_prompt_chinese.json +27 -4
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiHopSpecificQuerySynthesizer/theme_persona_matching_prompt_chinese.json +2 -2
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiModalFaithfulness/faithfulness_prompt_chinese.json +2 -2
evalscope/backend/rag_eval/ragas/prompts/chinese/MultiModalRelevance/relevance_prompt_chinese.json +5 -5
evalscope/backend/rag_eval/ragas/prompts/chinese/NERExtractor/prompt_chinese.json +3 -3
evalscope/backend/rag_eval/ragas/prompts/chinese/SingleHopSpecificQuerySynthesizer/generate_query_reference_prompt_chinese.json +21 -4
evalscope/backend/rag_eval/ragas/prompts/chinese/SingleHopSpecificQuerySynthesizer/theme_persona_matching_prompt_chinese.json +3 -3
evalscope/backend/rag_eval/ragas/prompts/chinese/SummaryExtractor/prompt_chinese.json +4 -4
evalscope/backend/rag_eval/ragas/prompts/chinese/ThemesExtractor/prompt_chinese.json +2 -2
evalscope/backend/rag_eval/ragas/prompts/persona_prompt.py +0 -1
evalscope/backend/rag_eval/ragas/task_template.py +10 -15
evalscope/backend/rag_eval/ragas/tasks/__init__.py +1 -1
evalscope/backend/rag_eval/ragas/tasks/build_distribution.py +45 -0
evalscope/backend/rag_eval/ragas/tasks/build_transform.py +135 -0
evalscope/backend/rag_eval/ragas/tasks/testset_generation.py +17 -133
evalscope/backend/rag_eval/ragas/tasks/translate_prompt.py +8 -18
evalscope/backend/rag_eval/utils/clip.py +47 -51
evalscope/backend/rag_eval/utils/embedding.py +13 -12
evalscope/backend/rag_eval/utils/llm.py +8 -6
evalscope/backend/rag_eval/utils/tools.py +12 -11
evalscope/backend/vlm_eval_kit/__init__.py +1 -1
evalscope/backend/vlm_eval_kit/custom_dataset.py +7 -8
evalscope/benchmarks/arc/__init__.py +3 -2
evalscope/benchmarks/arc/ai2_arc.py +19 -16
evalscope/benchmarks/arc/arc_adapter.py +32 -24
evalscope/benchmarks/bbh/__init__.py +1 -2
evalscope/benchmarks/bbh/bbh_adapter.py +28 -25
evalscope/benchmarks/bbh/cot_prompts/boolean_expressions.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/causal_judgement.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/date_understanding.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/disambiguation_qa.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/dyck_languages.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/formal_fallacies.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/geometric_shapes.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/hyperbaton.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/logical_deduction_five_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/logical_deduction_seven_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/logical_deduction_three_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/movie_recommendation.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/multistep_arithmetic_two.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/navigate.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/object_counting.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/penguins_in_a_table.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/reasoning_about_colored_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/ruin_names.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/salient_translation_error_detection.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/snarks.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/sports_understanding.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/temporal_sequences.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/tracking_shuffled_objects_five_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/tracking_shuffled_objects_seven_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/tracking_shuffled_objects_three_objects.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/web_of_lies.txt +1 -1
evalscope/benchmarks/bbh/cot_prompts/word_sorting.txt +1 -1
evalscope/benchmarks/benchmark.py +16 -16
evalscope/benchmarks/ceval/__init__.py +3 -2
evalscope/benchmarks/ceval/ceval_adapter.py +80 -69
evalscope/benchmarks/ceval/ceval_exam.py +18 -31
evalscope/benchmarks/cmmlu/__init__.py +3 -2
evalscope/benchmarks/cmmlu/cmmlu.py +87 -92
evalscope/benchmarks/cmmlu/cmmlu_adapter.py +109 -155
evalscope/benchmarks/cmmlu/samples.jsonl +1 -1
evalscope/benchmarks/competition_math/__init__.py +3 -2
evalscope/benchmarks/competition_math/competition_math.py +7 -16
evalscope/benchmarks/competition_math/competition_math_adapter.py +32 -34
evalscope/benchmarks/data_adapter.py +24 -24
evalscope/benchmarks/general_qa/__init__.py +3 -2
evalscope/benchmarks/general_qa/general_qa_adapter.py +35 -39
evalscope/benchmarks/gsm8k/__init__.py +1 -1
evalscope/benchmarks/gsm8k/gsm8k.py +6 -12
evalscope/benchmarks/gsm8k/gsm8k_adapter.py +27 -24
evalscope/benchmarks/hellaswag/__init__.py +3 -2
evalscope/benchmarks/hellaswag/hellaswag.py +15 -19
evalscope/benchmarks/hellaswag/hellaswag_adapter.py +28 -23
evalscope/benchmarks/humaneval/__init__.py +1 -1
evalscope/benchmarks/humaneval/humaneval.py +15 -18
evalscope/benchmarks/humaneval/humaneval_adapter.py +192 -7
evalscope/benchmarks/mmlu/__init__.py +3 -2
evalscope/benchmarks/mmlu/mmlu.py +15 -29
evalscope/benchmarks/mmlu/mmlu_adapter.py +85 -77
evalscope/benchmarks/race/__init__.py +3 -2
evalscope/benchmarks/race/race.py +21 -35
evalscope/benchmarks/race/race_adapter.py +33 -29
evalscope/benchmarks/race/samples.jsonl +1 -1
evalscope/benchmarks/trivia_qa/__init__.py +3 -2
evalscope/benchmarks/trivia_qa/samples.jsonl +1 -1
evalscope/benchmarks/trivia_qa/trivia_qa.py +19 -34
evalscope/benchmarks/trivia_qa/trivia_qa_adapter.py +27 -22
evalscope/benchmarks/truthful_qa/__init__.py +3 -2
evalscope/benchmarks/truthful_qa/truthful_qa.py +25 -29
evalscope/benchmarks/truthful_qa/truthful_qa_adapter.py +36 -37
evalscope/cli/cli.py +6 -5
evalscope/cli/start_eval.py +31 -0
evalscope/cli/start_perf.py +0 -3
evalscope/cli/start_server.py +27 -41
evalscope/config.py +154 -96
evalscope/constants.py +50 -32
evalscope/evaluator/evaluator.py +97 -377
evalscope/evaluator/rating_eval.py +12 -33
evalscope/evaluator/reviewer/auto_reviewer.py +48 -76
evalscope/metrics/bundled_rouge_score/rouge_scorer.py +10 -20
evalscope/metrics/code_metric.py +3 -9
evalscope/metrics/math_accuracy.py +3 -6
evalscope/metrics/metrics.py +21 -21
evalscope/metrics/rouge_metric.py +11 -25
evalscope/models/__init__.py +1 -2
evalscope/models/api/openai_api.py +40 -29
evalscope/models/custom/__init__.py +0 -1
evalscope/models/custom/custom_model.py +3 -3
evalscope/models/dummy_chat_model.py +7 -8
evalscope/models/model_adapter.py +89 -156
evalscope/models/openai_model.py +20 -20
evalscope/perf/arguments.py +16 -3
evalscope/perf/benchmark.py +9 -11
evalscope/perf/http_client.py +3 -8
evalscope/perf/main.py +8 -1
evalscope/perf/plugin/api/custom_api.py +1 -2
evalscope/perf/plugin/api/dashscope_api.py +1 -2
evalscope/perf/plugin/api/openai_api.py +3 -4
evalscope/perf/plugin/datasets/base.py +1 -2
evalscope/perf/plugin/datasets/flickr8k.py +1 -2
evalscope/perf/plugin/datasets/longalpaca.py +1 -2
evalscope/perf/plugin/datasets/openqa.py +1 -2
evalscope/perf/plugin/registry.py +3 -3
evalscope/perf/utils/analysis_result.py +1 -2
evalscope/perf/utils/benchmark_util.py +5 -6
evalscope/perf/utils/db_util.py +77 -30
evalscope/perf/utils/local_server.py +21 -13
evalscope/registry/config/cfg_arena_zhihu.yaml +1 -1
evalscope/registry/tasks/arc.yaml +2 -3
evalscope/registry/tasks/bbh.yaml +3 -4
evalscope/registry/tasks/bbh_mini.yaml +3 -4
evalscope/registry/tasks/ceval.yaml +3 -3
evalscope/registry/tasks/ceval_mini.yaml +3 -4
evalscope/registry/tasks/cmmlu.yaml +3 -3
evalscope/registry/tasks/eval_qwen-7b-chat_v100.yaml +1 -1
evalscope/registry/tasks/general_qa.yaml +1 -1
evalscope/registry/tasks/gsm8k.yaml +2 -2
evalscope/registry/tasks/mmlu.yaml +3 -3
evalscope/registry/tasks/mmlu_mini.yaml +3 -3
evalscope/run.py +153 -381
evalscope/run_arena.py +21 -25
evalscope/summarizer.py +27 -40
evalscope/third_party/longbench_write/README.md +99 -42
evalscope/third_party/longbench_write/default_task.json +1 -1
evalscope/third_party/longbench_write/default_task.yaml +8 -7
evalscope/third_party/longbench_write/eval.py +29 -27
evalscope/third_party/longbench_write/infer.py +16 -104
evalscope/third_party/longbench_write/longbench_write.py +5 -4
evalscope/third_party/longbench_write/resources/judge.txt +1 -1
evalscope/third_party/longbench_write/tools/data_etl.py +5 -6
evalscope/third_party/longbench_write/utils.py +0 -1
evalscope/third_party/toolbench_static/eval.py +14 -15
evalscope/third_party/toolbench_static/infer.py +48 -69
evalscope/third_party/toolbench_static/llm/swift_infer.py +4 -12
evalscope/third_party/toolbench_static/requirements.txt +1 -1
evalscope/third_party/toolbench_static/toolbench_static.py +4 -3
evalscope/tools/combine_reports.py +27 -34
evalscope/tools/rewrite_eval_results.py +15 -47
evalscope/utils/__init__.py +1 -1
evalscope/utils/arena_utils.py +18 -48
evalscope/{perf/utils → utils}/chat_service.py +4 -5
evalscope/utils/completion_parsers.py +3 -8
evalscope/utils/io_utils.py +162 -0
evalscope/utils/logger.py +17 -7
evalscope/utils/model_utils.py +11 -0
evalscope/utils/utils.py +5 -306
evalscope/version.py +2 -2
{evalscope-0.7.2.dist-info → evalscope-0.8.1.dist-info}/METADATA +123 -118
evalscope-0.8.1.dist-info/RECORD +285 -0
tests/cli/test_run.py +53 -15
tests/perf/test_perf.py +6 -1
tests/rag/test_clip_benchmark.py +38 -38
tests/rag/test_mteb.py +3 -2
tests/rag/test_ragas.py +5 -5
tests/swift/test_run_swift_eval.py +2 -3
tests/swift/test_run_swift_vlm_eval.py +2 -3
tests/swift/test_run_swift_vlm_jugde_eval.py +2 -3
tests/vlm/test_vlmeval.py +3 -2
evalscope/backend/rag_eval/ragas/metrics/__init__.py +0 -2
evalscope/backend/rag_eval/ragas/metrics/multi_modal_faithfulness.py +0 -91
evalscope/backend/rag_eval/ragas/metrics/multi_modal_relevance.py +0 -99
evalscope/cache.py +0 -98
evalscope/models/template.py +0 -1446
evalscope/run_ms.py +0 -140
evalscope/utils/task_cfg_parser.py +0 -10
evalscope/utils/task_utils.py +0 -22
evalscope-0.7.2.dist-info/RECORD +0 -286
{evalscope-0.7.2.dist-info → evalscope-0.8.1.dist-info}/LICENSE +0 -0
{evalscope-0.7.2.dist-info → evalscope-0.8.1.dist-info}/WHEEL +0 -0
{evalscope-0.7.2.dist-info → evalscope-0.8.1.dist-info}/entry_points.txt +0 -0
{evalscope-0.7.2.dist-info → evalscope-0.8.1.dist-info}/top_level.txt +0 -0

evalscope/backend/rag_eval/clip_benchmark/utils/webdataset_convert.py CHANGED Viewed

@@ -1,11 +1,12 @@
 # Convert datasets to webdataset format
 import os
-from tqdm import tqdm
 import torch
 import torch.utils.data
 import webdataset
+from tqdm import tqdm
 from evalscope.backend.rag_eval.clip_benchmark.dataset_builder import DatasetWrapper
-from evalscope.backend.rag_eval.utils.tools import path_to_bytes, PIL_to_bytes
+from evalscope.backend.rag_eval.utils.tools import PIL_to_bytes, path_to_bytes
 from evalscope.utils.logger import get_logger
 logger = get_logger()
@@ -17,19 +18,21 @@ def convert_dataset(
     output_folder,
     *,
     transform=None,
-    image_format="webp",
+    image_format='webp',
     max_count=10_000,
     max_size=1_000_000_000,
     multilabel=False,
     verbose=True,
 ):
     """
-    Convert an iterable `dataset` of (image, label) pairs to webdataset (.tar) format, and store in `output_folder/split`.
+    Convert an iterable `dataset` of (image, label) pairs to webdataset (.tar) format, and store in
+       `output_folder/split`.
     Images may be passed in as either:
     * File paths: pass in `transform=path_to_bytes`;
     * PIL images: pass in `transform=PIL_to_bytes(image_format)` where `image_format` is e.g. "webp"; or
-    * Raw binary data: use a PyTorch `Dataset` that supports `transform=PIL_to_bytes(image_format)`, and pass in `transform=None` here.
+    * Raw binary data: use a PyTorch `Dataset` that supports `transform=PIL_to_bytes(image_format)`, and
+        pass in `transform=None` here.
         Be sure that the transform is not applied twice.
     Copying image files directly or writing raw binary data is fastest since it allows multiprocessing;
@@ -37,9 +40,10 @@ def convert_dataset(
     Labels must be zero-indexed integers (for multilabel datasets, labels must be arrays/tensors).
-    Classnames and zero-shot classification templates can be provided as attributes of the dataset (`.classes` and `.templates`)
-    or filled in manually afterward. `dataset.classes` should be a list of strings indexed by the labels,
-    and `dataset.templates` should be a list of strings containing `{c}` to specify where classnames are to be inserted.
+    Classnames and zero-shot classification templates can be provided as attributes of the dataset (`.classes`
+    and `.templates`) or filled in manually afterward. `dataset.classes` should be a list of strings indexed by
+    the labels, and `dataset.templates` should be a list of strings containing `{c}` to specify where classnames
+    are to be inserted.
     """
     # Create output directory
     os.makedirs(os.path.join(output_folder, split), exist_ok=True)
@@ -52,52 +56,44 @@ def convert_dataset(
     )
     if verbose:
         try:
-            logger.info(f"Dataset size: {len(dataset)}")
+            logger.info(f'Dataset size: {len(dataset)}')
         except TypeError:
-            logger.info("IterableDataset has no len()")
+            logger.info('IterableDataset has no len()')
     # Save classnames
-    if hasattr(dataset, "classes") and dataset.classes:
-        classnames_fname = os.path.join(output_folder, "classnames.txt")
-        with open(classnames_fname, "w") as classnames_file:
-            logger.info(*dataset.classes, sep="\n", end="\n", file=classnames_file)
+    if hasattr(dataset, 'classes') and dataset.classes:
+        classnames_fname = os.path.join(output_folder, 'classnames.txt')
+        with open(classnames_fname, 'w') as classnames_file:
+            logger.info(*dataset.classes, sep='\n', end='\n', file=classnames_file)
         if verbose:
             logger.info("Saved class names to '%s'" % classnames_fname)
     elif verbose:
-        logger.info("WARNING: No class names found")
+        logger.info('WARNING: No class names found')
     # Save zeroshot templates
-    if hasattr(dataset, "templates") and dataset.templates:
-        templates_fname = os.path.join(
-            output_folder, "zeroshot_classification_templates.txt"
-        )
-        with open(templates_fname, "w") as templates_file:
-            logger.info(*dataset.templates, sep="\n", end="\n", file=templates_file)
+    if hasattr(dataset, 'templates') and dataset.templates:
+        templates_fname = os.path.join(output_folder, 'zeroshot_classification_templates.txt')
+        with open(templates_fname, 'w') as templates_file:
+            logger.info(*dataset.templates, sep='\n', end='\n', file=templates_file)
         if verbose:
             logger.info("Saved class names to '%s'" % templates_fname)
     elif verbose:
-        logger.info("WARNING: No zeroshot classification templates found")
+        logger.info('WARNING: No zeroshot classification templates found')
     # Save dataset type
     if multilabel:
-        type_fname = os.path.join(output_folder, "dataset_type.txt")
-        with open(type_fname, "w") as type_file:
-            logger.info("multilabel", end="\n", file=type_file)
+        type_fname = os.path.join(output_folder, 'dataset_type.txt')
+        with open(type_fname, 'w') as type_file:
+            logger.info('multilabel', end='\n', file=type_file)
             if verbose:
                 logger.info("Saved dataset type to '%s'" % type_fname)
     # Write to TAR files
-    data_fname = os.path.join(output_folder, split, r"%d.tar")
+    data_fname = os.path.join(output_folder, split, r'%d.tar')
     sink = webdataset.ShardWriter(data_fname, maxcount=max_count, maxsize=max_size)
     nsamples = 0
-    label_type = "npy" if multilabel else "cls"
-    for index, (input, output) in enumerate(tqdm(dataloader, desc="Converting")):
+    label_type = 'npy' if multilabel else 'cls'
+    for index, (input, output) in enumerate(tqdm(dataloader, desc='Converting')):
         nsamples += 1
         if isinstance(input, str) and transform is path_to_bytes:
             # If copying file, determine image format from extension
-            extension = (
-                os.path.splitext(input)[1]
-                .replace(".", "")
-                .lower()
-                .replace("jpeg", "jpg")
-                or image_format
-            )
+            extension = (os.path.splitext(input)[1].replace('.', '').lower().replace('jpeg', 'jpg') or image_format)
         else:
             extension = image_format
         # Convert label if necessary
@@ -107,27 +103,22 @@ def convert_dataset(
             else:
                 output = output.item()
         # Write example
-        sink.write(
-            {
-                "__key__": "s%07d" % index,
-                extension: transform(input) if transform else input,
-                label_type: output,
-            }
-        )
+        sink.write({
+            '__key__': 's%07d' % index,
+            extension: transform(input) if transform else input,
+            label_type: output,
+        })
     num_shards = sink.shard
     sink.close()
     if verbose:
-        logger.info(
-            "Saved dataset to '%s'"
-            % data_fname.replace(r"%d", "{0..%d}" % (num_shards - 1))
-        )
+        logger.info("Saved dataset to '%s'" % data_fname.replace(r'%d', '{0..%d}' % (num_shards - 1)))
     # Save number of shards
-    nshards_fname = os.path.join(output_folder, split, "nshards.txt")
-    with open(nshards_fname, "w") as nshards_file:
-        logger.info(num_shards, end="\n", file=nshards_file)
+    nshards_fname = os.path.join(output_folder, split, 'nshards.txt')
+    with open(nshards_fname, 'w') as nshards_file:
+        logger.info(num_shards, end='\n', file=nshards_file)
     if verbose:
         logger.info("Saved number of shards = %d to '%s'" % (num_shards, nshards_fname))
-    logger.info("Final dataset size:", nsamples)
+    logger.info('Final dataset size:', nsamples)
 def convert_retrieval_dataset(
@@ -136,13 +127,14 @@ def convert_retrieval_dataset(
     output_folder,
     *,
     transform=None,
-    image_format="webp",
+    image_format='webp',
     max_count=10_000,
     max_size=1_000_000_000,
     verbose=True,
 ):
     """
-    Convert an iterable `dataset` of (image, [caption1, caption2, ...]) pairs to webdataset (.tar) format, and store in `output_folder/split`.
+    Convert an iterable `dataset` of (image, [caption1, caption2, ...]) pairs to webdataset (.tar) format,
+    and store in `output_folder/split`.
     Labels must be lists of strings, with no newlines.
@@ -159,72 +151,59 @@ def convert_retrieval_dataset(
     )
     if verbose:
         try:
-            logger.info(f"Dataset size: {len(dataset)}")
+            logger.info(f'Dataset size: {len(dataset)}')
         except TypeError:
-            logger.info("IterableDataset has no len()")
+            logger.info('IterableDataset has no len()')
     # No classnames
     # No zeroshot templates
     # Save dataset type
-    type_fname = os.path.join(output_folder, "dataset_type.txt")
-    with open(type_fname, "w") as type_file:
-        logger.info("retrieval", end="\n", file=type_file)
+    type_fname = os.path.join(output_folder, 'dataset_type.txt')
+    with open(type_fname, 'w') as type_file:
+        logger.info('retrieval', end='\n', file=type_file)
     if verbose:
         logger.info("Saved dataset type to '%s'" % type_fname)
     # Write to TAR files
-    data_fname = os.path.join(output_folder, split, r"%d.tar")
+    data_fname = os.path.join(output_folder, split, r'%d.tar')
     sink = webdataset.ShardWriter(data_fname, maxcount=max_count, maxsize=max_size)
     nsamples = 0
-    for index, (input, output) in enumerate(tqdm(dataloader, desc="Converting")):
+    for index, (input, output) in enumerate(tqdm(dataloader, desc='Converting')):
         nsamples += 1
         if isinstance(input, str) and transform is path_to_bytes:
             # If copying file, determine image format from extension
-            extension = (
-                os.path.splitext(input)[1]
-                .replace(".", "")
-                .lower()
-                .replace("jpeg", "jpg")
-                or image_format
-            )
+            extension = (os.path.splitext(input)[1].replace('.', '').lower().replace('jpeg', 'jpg') or image_format)
         else:
             extension = image_format
-        sink.write(
-            {
-                "__key__": "s%07d" % index,
-                extension: transform(input) if transform else input,
-                "txt": "\n".join(caption.replace("\n", r"\n") for caption in output),
-            }
-        )
+        sink.write({
+            '__key__': 's%07d' % index,
+            extension: transform(input) if transform else input,
+            'txt': '\n'.join(caption.replace('\n', r'\n') for caption in output),
+        })
     num_shards = sink.shard
     sink.close()
     if verbose:
-        logger.info(
-            "Saved dataset to '%s'"
-            % data_fname.replace(r"%d", "{0..%d}" % (num_shards - 1))
-        )
+        logger.info("Saved dataset to '%s'" % data_fname.replace(r'%d', '{0..%d}' % (num_shards - 1)))
     # Save number of shards
-    nshards_fname = os.path.join(output_folder, split, "nshards.txt")
-    with open(nshards_fname, "w") as nshards_file:
-        logger.info(num_shards, end="\n", file=nshards_file)
+    nshards_fname = os.path.join(output_folder, split, 'nshards.txt')
+    with open(nshards_fname, 'w') as nshards_file:
+        logger.info(num_shards, end='\n', file=nshards_file)
     if verbose:
         logger.info("Saved number of shards = %d to '%s'" % (num_shards, nshards_fname))
-    logger.info("Final dataset size:", nsamples)
+    logger.info('Final dataset size:', nsamples)
-if __name__ == "__main__":
+if __name__ == '__main__':
     from modelscope.msdatasets import MsDataset
-    splits = ["train", "validation"]
+    splits = ['train', 'validation']
     for split in splits:
-        ds = MsDataset.load("modelscope/muge", split=split)
+        ds = MsDataset.load('modelscope/muge', split=split)
         hf_dataset = ds.to_hf_dataset()
-        pytorch_dataset = DatasetWrapper(
-            hf_dataset, image_key="image", text_key="query"
-        )
+        pytorch_dataset = DatasetWrapper(hf_dataset, image_key='image', text_key='query')
         convert_retrieval_dataset(
             pytorch_dataset,
             split,
-            "data/muge",
-            transform=PIL_to_bytes("jpg"),
-            image_format="jpg",
+            'data/muge',
+            transform=PIL_to_bytes('jpg'),
+            image_format='jpg',
             max_count=50_000,
         )

evalscope/backend/rag_eval/cmteb/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from evalscope.backend.rag_eval.cmteb.tasks import *
+from evalscope.backend.rag_eval.cmteb.arguments import EvalArguments, ModelArguments
 from evalscope.backend.rag_eval.cmteb.base import *
-from evalscope.backend.rag_eval.cmteb.arguments import ModelArguments, EvalArguments
-from evalscope.backend.rag_eval.cmteb.task_template import one_stage_eval, two_stage_eval
+from evalscope.backend.rag_eval.cmteb.task_template import one_stage_eval, two_stage_eval
+from evalscope.backend.rag_eval.cmteb.tasks import *

evalscope/backend/rag_eval/cmteb/arguments.py CHANGED Viewed

@@ -1,38 +1,36 @@
 from dataclasses import dataclass, field
-from typing import List, Optional, Union, Dict, Any
+from typing import Any, Dict, List, Optional, Union
 @dataclass
 class ModelArguments:
     # Arguments for embeding model: sentence transformer or cross encoder
-    model_name_or_path: str = ""  # model name or path
+    model_name_or_path: str = ''  # model name or path
     is_cross_encoder: bool = False  # whether the model is a cross encoder
     # pooling mode: Either “cls”, “lasttoken”, “max”, “mean”, “mean_sqrt_len_tokens”, or “weightedmean”.
     pooling_mode: Optional[str] = None
     max_seq_length: int = 512  # max sequence length
     # prompt for llm based model
-    prompt: str = ""
+    prompt: str = ''
     # model kwargs
     model_kwargs: dict = field(default_factory=dict)
     # config kwargs
     config_kwargs: Dict[str, Any] = field(default_factory=dict)
     # encode kwargs
-    encode_kwargs: dict = field(
-        default_factory=lambda: {"show_progress_bar": True, "batch_size": 32}
-    )
-    hub: str = "modelscope"  # modelscope or huggingface
+    encode_kwargs: dict = field(default_factory=lambda: {'show_progress_bar': True, 'batch_size': 32})
+    hub: str = 'modelscope'  # modelscope or huggingface
     def to_dict(self) -> Dict[str, Any]:
         return {
-            "model_name_or_path": self.model_name_or_path,
-            "is_cross_encoder": self.is_cross_encoder,
-            "pooling_mode": self.pooling_mode,
-            "max_seq_length": self.max_seq_length,
-            "prompt": self.prompt,
-            "model_kwargs": self.model_kwargs,
-            "config_kwargs": self.config_kwargs,
-            "encode_kwargs": self.encode_kwargs,
-            "hub": self.hub,
+            'model_name_or_path': self.model_name_or_path,
+            'is_cross_encoder': self.is_cross_encoder,
+            'pooling_mode': self.pooling_mode,
+            'max_seq_length': self.max_seq_length,
+            'prompt': self.prompt,
+            'model_kwargs': self.model_kwargs,
+            'config_kwargs': self.config_kwargs,
+            'encode_kwargs': self.encode_kwargs,
+            'hub': self.hub,
         }
@@ -42,20 +40,20 @@ class EvalArguments:
     tasks: List[str] = field(default_factory=list)  # task names
     dataset_path: Optional[str] = None  # custom dataset path
     verbosity: int = 2  # verbosity level 0-3
-    output_folder: str = "outputs"  # output folder
+    output_folder: str = 'outputs'  # output folder
     overwrite_results: bool = True  # overwrite results
     limits: Optional[int] = None  # limit number of samples
-    hub: str = "modelscope"  # modelscope or huggingface
-    top_k: int = 5 # top k for reranking
+    hub: str = 'modelscope'  # modelscope or huggingface
+    top_k: int = 5  # top k for reranking
     def to_dict(self) -> Dict[str, Any]:
         return {
-            "tasks": self.tasks,
-            "dataset_path": self.dataset_path,
-            "verbosity": self.verbosity,
-            "output_folder": self.output_folder,
-            "overwrite_results": self.overwrite_results,
-            "limits": self.limits,
-            "hub": self.hub,
-            "top_k": self.top_k,
+            'tasks': self.tasks,
+            'dataset_path': self.dataset_path,
+            'verbosity': self.verbosity,
+            'output_folder': self.output_folder,
+            'overwrite_results': self.overwrite_results,
+            'limits': self.limits,
+            'hub': self.hub,
+            'top_k': self.top_k,
         }

evalscope/backend/rag_eval/cmteb/base.py CHANGED Viewed

@@ -1,12 +1,14 @@
+import datasets
 from collections import defaultdict
-from typing import List
-from mteb import AbsTask
 from datasets import DatasetDict
 from modelscope import MsDataset
-import datasets
-from evalscope.backend.rag_eval.cmteb.tasks import CLS_DICT, CLS_RETRIEVAL, CLS_CUSTOM
+from mteb import AbsTask
+from typing import List
+from evalscope.backend.rag_eval.cmteb.tasks import CLS_CUSTOM, CLS_DICT, CLS_RETRIEVAL
+from evalscope.constants import HubType
-__all__ = ["TaskBase"]
+__all__ = ['TaskBase']
 class TaskBase:
@@ -28,7 +30,7 @@ class TaskBase:
             from mteb.overview import TASKS_REGISTRY
             task_cls = TASKS_REGISTRY[task_name]
-            if task_cls.metadata.type != "Retrieval":
+            if task_cls.metadata.type != 'Retrieval':
                 task_cls.load_data = load_data
         # init task instance
@@ -41,33 +43,30 @@ def load_data(self, **kwargs):
     if self.data_loaded:
         return
-    limits = kwargs.get("limits", None)
-    hub = kwargs.get("hub", "modelscope")
-    name = self.metadata_dict.get("name")
-    path = self.metadata_dict["dataset"].get("path")
+    limits = kwargs.get('limits', None)
+    hub = kwargs.get('hub', HubType.MODELSCOPE)
+    name = self.metadata_dict.get('name')
+    path = self.metadata_dict['dataset'].get('path')
-    assert path is not None, "Path must be specified in dataset"
+    assert path is not None, 'Path must be specified in dataset'
     # Loading the dataset based on the source hub
-    if hub == "modelscope":
+    if hub == HubType.MODELSCOPE:
         import re
-        path = re.sub(r"^mteb/", "MTEB/", path)
+        path = re.sub(r'^mteb/', 'MTEB/', path)
         dataset = MsDataset.load(path)
     else:
-        dataset = datasets.load_dataset(**self.metadata_dict["dataset"])  # type: ignore
+        dataset = datasets.load_dataset(**self.metadata_dict['dataset'])  # type: ignore
     if limits is not None:
-        dataset = {
-            split: dataset[split].select(range(min(limits, len(dataset[split]))))
-            for split in dataset.keys()
-        }
+        dataset = {split: dataset[split].select(range(min(limits, len(dataset[split])))) for split in dataset.keys()}
     if name in CLS_RETRIEVAL:
         self.corpus, self.queries, self.relevant_docs = load_retrieval_data(
             dataset,
             path,
-            self.metadata_dict["eval_splits"],
+            self.metadata_dict['eval_splits'],
         )
     self.dataset = dataset
@@ -77,13 +76,13 @@ def load_data(self, **kwargs):
 def load_retrieval_data(dataset, dataset_name: str, eval_splits: list) -> tuple:
     eval_split = eval_splits[0]
-    qrels = MsDataset.load(dataset_name + "-qrels")[eval_split]
+    qrels = MsDataset.load(dataset_name + '-qrels')[eval_split]
-    corpus = {e["id"]: {"text": e["text"]} for e in dataset["corpus"]}
-    queries = {e["id"]: e["text"] for e in dataset["queries"]}
+    corpus = {e['id']: {'text': e['text']} for e in dataset['corpus']}
+    queries = {e['id']: e['text'] for e in dataset['queries']}
     relevant_docs = defaultdict(dict)
     for e in qrels:
-        relevant_docs[e["qid"]][e["pid"]] = e["score"]
+        relevant_docs[e['qid']][e['pid']] = e['score']
     corpus = DatasetDict({eval_split: corpus})
     queries = DatasetDict({eval_split: queries})

evalscope/backend/rag_eval/cmteb/task_template.py CHANGED Viewed

@@ -1,8 +1,8 @@
-import os
 import mteb
-from evalscope.backend.rag_eval import EmbeddingModel
-from evalscope.backend.rag_eval import cmteb
+import os
 from mteb.task_selection import results_to_dataframe
+from evalscope.backend.rag_eval import EmbeddingModel, cmteb
 from evalscope.utils.logger import get_logger
 logger = get_logger()
@@ -19,8 +19,8 @@ def show_results(output_folder, model, results):
         model_name,
         revision,
     )
-    logger.info(f"Evaluation results:\n{results_df.to_markdown()}")
-    logger.info(f"Evaluation results saved in {os.path.abspath(save_path)}")
+    logger.info(f'Evaluation results:\n{results_df.to_markdown()}')
+    logger.info(f'Evaluation results saved in {os.path.abspath(save_path)}')
 def one_stage_eval(
@@ -29,18 +29,16 @@ def one_stage_eval(
 ) -> None:
     # load model
     model = EmbeddingModel.load(**model_args)
-    custom_dataset_path = eval_args.pop("dataset_path", None)
+    custom_dataset_path = eval_args.pop('dataset_path', None)
     # load task first to update instructions
-    tasks = cmteb.TaskBase.get_tasks(
-        task_names=eval_args["tasks"], dataset_path=custom_dataset_path
-    )
+    tasks = cmteb.TaskBase.get_tasks(task_names=eval_args['tasks'], dataset_path=custom_dataset_path)
     evaluation = mteb.MTEB(tasks=tasks)
     # run evaluation
     results = evaluation.run(model, **eval_args)
     # save and log results
-    show_results(eval_args["output_folder"], model, results)
+    show_results(eval_args['output_folder'], model, results)
 def two_stage_eval(
@@ -56,7 +54,7 @@ def two_stage_eval(
     first_stage_path = f"{eval_args['output_folder']}/stage1"
     second_stage_path = f"{eval_args['output_folder']}/stage2"
-    tasks = cmteb.TaskBase.get_tasks(task_names=eval_args["tasks"])
+    tasks = cmteb.TaskBase.get_tasks(task_names=eval_args['tasks'])
     for task in tasks:
         evaluation = mteb.MTEB(tasks=[task])
@@ -66,19 +64,19 @@ def two_stage_eval(
             save_predictions=True,
             output_folder=first_stage_path,
             overwrite_results=True,
-            hub=eval_args["hub"],
-            limits=eval_args["limits"],
+            hub=eval_args['hub'],
+            limits=eval_args['limits'],
         )
         # stage 2: run cross encoder
         results = evaluation.run(
             cross_encoder,
-            top_k=eval_args["top_k"],
+            top_k=eval_args['top_k'],
             save_predictions=True,
             output_folder=second_stage_path,
-            previous_results=f"{first_stage_path}/{task.metadata.name}_default_predictions.json",
+            previous_results=f'{first_stage_path}/{task.metadata.name}_default_predictions.json',
             overwrite_results=True,
-            hub=eval_args["hub"],
-            limits=eval_args["limits"],
+            hub=eval_args['hub'],
+            limits=eval_args['limits'],
         )
         # save and log results

evalscope 0.7.2__py3-none-any.whl → 0.8.1__py3-none-any.whl

Potentially problematic release.

evalscope 0.7.2py3-none-any.whl → 0.8.1py3-none-any.whl