PyPI - wisent - Versions diffs - 0.7.379__py3-none-any.whl → 0.7.701__py3-none-any.whl - Mend

wisent 0.7.379py3-none-any.whl → 0.7.701py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (725) hide show

wisent/examples/scripts/results/benchmark_methods_summary.json DELETED Viewed

@@ -1,260 +0,0 @@
-{
-  "benchmark_info": {
-    "aime": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "aime2024": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "aime2025": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "apps": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "arc_challenge": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "arc_easy": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "arithmetic": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "asdiv": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "boolq": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "cb": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "codexglue_code_to_text_go": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "codexglue_code_to_text_java": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "codexglue_code_to_text_javascript": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "codexglue_code_to_text_php": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "codexglue_code_to_text_python": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "codexglue_code_to_text_ruby": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "conala": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "concode": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "copa": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "coqa": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "drop": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "ds1000": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "gpqa": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "gsm8k": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "hellaswag": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "hendrycks_math": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "hmmt": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "hmmt_feb_2025": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "humaneval": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "humaneval_plus": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "instruct_humaneval": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "lambada_openai": {
-      "evaluation_method": "perplexity",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "lambada_standard": {
-      "evaluation_method": "perplexity",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "livecodebench": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "livemathbench_cnmo_en": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "livemathbench_cnmo_zh": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "math": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "math500": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "mbpp": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "mbpp_plus": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "mercury": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "mmlu": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "nq_open": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "openbookqa": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "penn_treebank": {
-      "evaluation_method": "perplexity",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "piqa": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "polymath_en_high": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "polymath_en_medium": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "polymath_zh_high": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "polymath_zh_medium": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "ptb": {
-      "evaluation_method": "perplexity",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "race": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "recode": {
-      "evaluation_method": "docker_code",
-      "pair_creation_method": "HuggingFaceDataLoader"
-    },
-    "record": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "squad2": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "squadv2": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "swag": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "triviaqa": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "truthfulqa_mc1": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "truthfulqa_mc2": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "webqs": {
-      "evaluation_method": "generation",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "wikitext": {
-      "evaluation_method": "perplexity",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "wikitext103": {
-      "evaluation_method": "perplexity",
-      "pair_creation_method": "LMEvalDataLoader"
-    },
-    "winogrande": {
-      "evaluation_method": "log_likelihoods",
-      "pair_creation_method": "LMEvalDataLoader"
-    }
-  }
-}

wisent/examples/scripts/results/benchmark_pair_creation_methods.json DELETED Viewed

@@ -1,66 +0,0 @@
-{
-  "aime": "LMEvalDataLoader",
-  "aime2024": "LMEvalDataLoader",
-  "aime2025": "LMEvalDataLoader",
-  "apps": "HuggingFaceDataLoader",
-  "arc_challenge": "LMEvalDataLoader",
-  "arc_easy": "LMEvalDataLoader",
-  "arithmetic": "LMEvalDataLoader",
-  "asdiv": "LMEvalDataLoader",
-  "boolq": "LMEvalDataLoader",
-  "cb": "LMEvalDataLoader",
-  "codexglue_code_to_text_go": "HuggingFaceDataLoader",
-  "codexglue_code_to_text_java": "HuggingFaceDataLoader",
-  "codexglue_code_to_text_javascript": "HuggingFaceDataLoader",
-  "codexglue_code_to_text_php": "HuggingFaceDataLoader",
-  "codexglue_code_to_text_python": "HuggingFaceDataLoader",
-  "codexglue_code_to_text_ruby": "HuggingFaceDataLoader",
-  "conala": "HuggingFaceDataLoader",
-  "concode": "HuggingFaceDataLoader",
-  "copa": "LMEvalDataLoader",
-  "coqa": "LMEvalDataLoader",
-  "drop": "LMEvalDataLoader",
-  "ds1000": "HuggingFaceDataLoader",
-  "gpqa": "LMEvalDataLoader",
-  "gsm8k": "LMEvalDataLoader",
-  "hellaswag": "LMEvalDataLoader",
-  "hendrycks_math": "LMEvalDataLoader",
-  "hmmt": "LMEvalDataLoader",
-  "hmmt_feb_2025": "LMEvalDataLoader",
-  "humaneval": "HuggingFaceDataLoader",
-  "humaneval_plus": "HuggingFaceDataLoader",
-  "instruct_humaneval": "HuggingFaceDataLoader",
-  "lambada_openai": "LMEvalDataLoader",
-  "lambada_standard": "LMEvalDataLoader",
-  "livecodebench": "LMEvalDataLoader",
-  "livemathbench_cnmo_en": "LMEvalDataLoader",
-  "livemathbench_cnmo_zh": "LMEvalDataLoader",
-  "math": "HuggingFaceDataLoader",
-  "math500": "HuggingFaceDataLoader",
-  "mbpp": "HuggingFaceDataLoader",
-  "mbpp_plus": "HuggingFaceDataLoader",
-  "mercury": "HuggingFaceDataLoader",
-  "mmlu": "LMEvalDataLoader",
-  "nq_open": "LMEvalDataLoader",
-  "openbookqa": "LMEvalDataLoader",
-  "penn_treebank": "LMEvalDataLoader",
-  "piqa": "LMEvalDataLoader",
-  "polymath_en_high": "LMEvalDataLoader",
-  "polymath_en_medium": "LMEvalDataLoader",
-  "polymath_zh_high": "LMEvalDataLoader",
-  "polymath_zh_medium": "LMEvalDataLoader",
-  "ptb": "LMEvalDataLoader",
-  "race": "LMEvalDataLoader",
-  "recode": "HuggingFaceDataLoader",
-  "record": "LMEvalDataLoader",
-  "squad2": "LMEvalDataLoader",
-  "squadv2": "LMEvalDataLoader",
-  "swag": "LMEvalDataLoader",
-  "triviaqa": "LMEvalDataLoader",
-  "truthfulqa_mc1": "LMEvalDataLoader",
-  "truthfulqa_mc2": "LMEvalDataLoader",
-  "webqs": "LMEvalDataLoader",
-  "wikitext": "LMEvalDataLoader",
-  "wikitext103": "LMEvalDataLoader",
-  "winogrande": "LMEvalDataLoader"
-}

wisent/examples/scripts/results/benchmark_pair_totals.json DELETED Viewed

@@ -1,269 +0,0 @@
-{
-  "total_benchmarks": 263,
-  "total_pairs": 356,
-  "per_benchmark": {
-    "epec_koref_bin": 1,
-    "advanced_ai_risk": 2,
-    "humaneval": 1,
-    "lambada": 1,
-    "xstorycloze": 2,
-    "coqcat": 1,
-    "swag": 1,
-    "cycle_letters": 1,
-    "iwslt2017-en-ar": 1,
-    "bigbench": 2,
-    "livecodebench": 1,
-    "acp_bench_hard": 2,
-    "claim_stance_topic": 1,
-    "bec2016eu": 2,
-    "mercury": 1,
-    "eus_reading": 1,
-    "lambada_openai": 1,
-    "wmt14_en_fr": 1,
-    "bertaqa": 2,
-    "pythia": 2,
-    "fld": 1,
-    "darija_bench": 2,
-    "assin_entailment": 1,
-    "polymath_zh_high": 1,
-    "Tag": 1,
-    "mastermind": 2,
-    "math": 1,
-    "codexglue_code_to_text_python": 1,
-    "csatqa": 2,
-    "squadv2": 1,
-    "evalita_LLM": 2,
-    "hmmt_feb_2025": 1,
-    "mc_taco": 1,
-    "meqsum": 1,
-    "aime2025": 1,
-    "atis": 1,
-    "egymmlu": 2,
-    "freebase": 1,
-    "arabic_exams": 1,
-    "acp_bench": 2,
-    "afrimgsm_direct_amh": 1,
-    "livemathbench_cnmo_en": 1,
-    "agieval": 2,
-    "polemo2": 1,
-    "argument_topic": 1,
-    "ruler": 2,
-    "gpt3_translation_benchmarks": 2,
-    "truthfulqa": 1,
-    "eq_bench": 1,
-    "asdiv": 1,
-    "openbookqa": 1,
-    "blimp": 2,
-    "boolq": 1,
-    "ceval": 2,
-    "babi": 1,
-    "spanish_bench": 2,
-    "medqa": 1,
-    "egyhellaswag": 1,
-    "mutual": 1,
-    "truthfulqa_mc2": 1,
-    "japanese_leaderboard": 2,
-    "logiqa2": 1,
-    "aclue": 2,
-    "kormedmcqa": 1,
-    "metabench": 2,
-    "lambada_standard": 1,
-    "ethics_cm": 1,
-    "wikitext103": 1,
-    "catcola": 1,
-    "aexams": 2,
-    "arabic_leaderboard_complete": 2,
-    "20_newsgroups": 1,
-    "arithmetic": 2,
-    "wmdp": 1,
-    "belebele": 2,
-    "lingoly": 1,
-    "paws-x": 2,
-    "darijammlu": 2,
-    "drop": 1,
-    "anagrams1": 1,
-    "dbpedia_14": 1,
-    "evalita-mp": 2,
-    "bhtc_v2": 1,
-    "record": 1,
-    "m_mmlu": 2,
-    "instruct_humaneval": 1,
-    "inverse_scaling_hindsight_neglect_10shot": 1,
-    "hendrycks_ethics": 2,
-    "model_written_evals": 2,
-    "gsm8k": 1,
-    "kobest": 2,
-    "galician_bench": 2,
-    "cocoteros_es": 1,
-    "triviaqa": 1,
-    "lambada_cloze": 1,
-    "unscramble": 2,
-    "mmlusr": 1,
-    "polymath_en_high": 1,
-    "mmlu_pro": 2,
-    "lambada_multilingual": 2,
-    "mmlu": 2,
-    "polymath_en_medium": 1,
-    "ArabCulture": 2,
-    "meddialog": 1,
-    "cabreu": 1,
-    "multipl_e": 1,
-    "coqa": 1,
-    "eus_exams": 2,
-    "bangla_mmlu": 1,
-    "french_bench": 2,
-    "polymath_zh_medium": 1,
-    "codexglue_code_to_text_ruby": 1,
-    "arabic_leaderboard_light": 2,
-    "mimic_repsum": 1,
-    "flores": 2,
-    "cnn_dailymail": 1,
-    "codexglue_code_to_text_php": 1,
-    "basque-glue": 2,
-    "prost": 1,
-    "math500": 1,
-    "codexglue_code_to_text_java": 1,
-    "chain_of_thought": 2,
-    "arc_challenge": 1,
-    "aime": 1,
-    "catalanqa": 1,
-    "lambada_multilingual_stablelm": 2,
-    "anli": 1,
-    "squad2": 1,
-    "moral_stories": 1,
-    "eus_exams_es": 2,
-    "webqs": 1,
-    "wsc273": 1,
-    "paloma": 2,
-    "qa4mre": 1,
-    "mathqa": 1,
-    "gpqa": 2,
-    "inverse_scaling": 2,
-    "mbpp": 1,
-    "piqa": 1,
-    "aime2024": 1,
-    "codexglue_code_to_text_javascript": 1,
-    "penn_treebank": 1,
-    "escola": 1,
-    "arc_ar": 1,
-    "openllm": 2,
-    "mmlu_prox": 2,
-    "global_mmlu": 2,
-    "mts_dialog": 1,
-    "ptb": 1,
-    "winogender": 2,
-    "prompt_robustness_agieval_aqua_rat": 1,
-    "bbh": 2,
-    "codexglue_code_to_text_go": 1,
-    "fda": 1,
-    "tinyBenchmarks": 2,
-    "darijahellaswag": 1,
-    "ethos_binary": 1,
-    "ifeval": 1,
-    "noticia": 1,
-    "copal_id": 1,
-    "boolq-seq2seq": 1,
-    "leaderboard": 2,
-    "ag_news": 1,
-    "headqa": 1,
-    "AraDICE": 2,
-    "anagrams2": 1,
-    "basque_bench": 2,
-    "truthfulqa-multi": 2,
-    "wmt-ro-en-t5-prompt": 1,
-    "cmmlu": 2,
-    "mela": 2,
-    "hrm8k": 2,
-    "hmmt": 1,
-    "portuguese_bench": 2,
-    "kmmlu": 2,
-    "haerae": 2,
-    "apps": 1,
-    "cola": 1,
-    "careqa": 1,
-    "self_consistency": 1,
-    "tmmluplus": 2,
-    "pubmedqa": 1,
-    "yahoo_answers_topics": 1,
-    "hendrycks_math": 2,
-    "catalan_bench": 2,
-    "ds1000": 1,
-    "kbl": 2,
-    "siqa": 1,
-    "glue": 2,
-    "medtext": 1,
-    "super-glue-lm-eval-v1-seq2seq": 1,
-    "afrixnli_en_direct_amh": 1,
-    "iwslt2017-ar-en": 1,
-    "noreval": 2,
-    "sciq": 1,
-    "race": 1,
-    "xquad": 2,
-    "unfair_tos": 1,
-    "banking77": 1,
-    "option_order_robustness_agieval_aqua_rat": 1,
-    "arabicmmlu": 2,
-    "c4": 1,
-    "wikitext": 1,
-    "benchmarks": 2,
-    "chartqa": 1,
-    "groundcocoa": 1,
-    "mediqa_qa2019": 1,
-    "xnli": 2,
-    "xcopa": 2,
-    "truthfulqa_mc1": 1,
-    "super-glue-lm-eval-v1": 2,
-    "concode": 1,
-    "mnli": 1,
-    "babilong": 1,
-    "humaneval_plus": 1,
-    "qasper": 1,
-    "copa": 1,
-    "commonsense_qa": 1,
-    "conala": 1,
-    "logiqa": 1,
-    "llama": 1,
-    "arc_easy": 1,
-    "score": 2,
-    "wmt16_en_de": 1,
-    "med_concepts_qa": 2,
-    "mlqa": 2,
-    "olaph": 1,
-    "galcola": 1,
-    "minerva_math": 2,
-    "bbq": 1,
-    "jsonschema_bench": 1,
-    "histoires_morales": 1,
-    "multimedqa": 2,
-    "eus_proficiency": 1,
-    "nq_open": 1,
-    "mmmu": 2,
-    "hellaswag": 1,
-    "glianorex": 1,
-    "multiblimp": 2,
-    "mmlu-pro-plus": 2,
-    "cb": 1,
-    "eus_trivia": 1,
-    "xsum": 1,
-    "basqueglue": 2,
-    "recode": 1,
-    "realtoxicityprompts": 1,
-    "coedit_gec": 1,
-    "afrimmlu_direct_amh": 1,
-    "evalita-sp_sum_task_fp-small_p1": 1,
-    "xnli_eu": 1,
-    "mbpp_plus": 1,
-    "crows_pairs": 2,
-    "xwinograd": 2,
-    "medmcqa": 1,
-    "non_greedy_robustness_agieval_aqua_rat": 1,
-    "translation": 2,
-    "livemathbench_cnmo_zh": 1,
-    "winogrande": 1,
-    "libra": 2,
-    "mgsm": 2,
-    "turkishmmlu": 2,
-    "wmt16_ro_en": 1,
-    "financial_tweets": 1
-  }
-}

wisent 0.7.379__py3-none-any.whl → 0.7.701__py3-none-any.whl

wisent 0.7.379py3-none-any.whl → 0.7.701py3-none-any.whl