PyPI - wisent - Versions diffs - 0.7.379__py3-none-any.whl → 0.7.701__py3-none-any.whl - Mend

wisent 0.7.379py3-none-any.whl → 0.7.701py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (725) hide show

wisent/examples/scripts/results/failing_benchmarks_test_results.json DELETED Viewed

@@ -1,945 +0,0 @@
-{
-  "model": "mock",
-  "total": 235,
-  "passed": 40,
-  "failed": 195,
-  "timeout": 0,
-  "benchmarks": {
-    "math500": {
-      "status": "passed",
-      "success": true
-    },
-    "aime2024": {
-      "status": "passed",
-      "success": true
-    },
-    "aime2025": {
-      "status": "passed",
-      "success": true
-    },
-    "hmmt": {
-      "status": "passed",
-      "success": true
-    },
-    "hmmt_feb_2025": {
-      "status": "passed",
-      "success": true
-    },
-    "polymath_en_medium": {
-      "status": "passed",
-      "success": true
-    },
-    "polymath_zh_medium": {
-      "status": "passed",
-      "success": true
-    },
-    "polymath_en_high": {
-      "status": "passed",
-      "success": true
-    },
-    "polymath_zh_high": {
-      "status": "passed",
-      "success": true
-    },
-    "livemathbench_cnmo_en": {
-      "status": "passed",
-      "success": true
-    },
-    "livemathbench_cnmo_zh": {
-      "status": "failed",
-      "success": false
-    },
-    "instruct_humaneval": {
-      "status": "failed",
-      "success": false
-    },
-    "recode": {
-      "status": "failed",
-      "success": false
-    },
-    "bbh": {
-      "status": "passed",
-      "success": true
-    },
-    "siqa": {
-      "status": "failed",
-      "success": false
-    },
-    "AraDICE": {
-      "status": "failed",
-      "success": false
-    },
-    "ArabCulture": {
-      "status": "failed",
-      "success": false
-    },
-    "darija_bench": {
-      "status": "failed",
-      "success": false
-    },
-    "ceval": {
-      "status": "failed",
-      "success": false
-    },
-    "turkishmmlu": {
-      "status": "failed",
-      "success": false
-    },
-    "bangla_mmlu": {
-      "status": "failed",
-      "success": false
-    },
-    "japanese_leaderboard": {
-      "status": "failed",
-      "success": false
-    },
-    "kormedmcqa": {
-      "status": "failed",
-      "success": false
-    },
-    "basqueglue": {
-      "status": "failed",
-      "success": false
-    },
-    "eus_exams": {
-      "status": "failed",
-      "success": false
-    },
-    "catalan_bench": {
-      "status": "failed",
-      "success": false
-    },
-    "french_bench": {
-      "status": "failed",
-      "success": false
-    },
-    "icelandic_winogrande": {
-      "status": "failed",
-      "success": false
-    },
-    "global_mmlu": {
-      "status": "failed",
-      "success": false
-    },
-    "global_piqa": {
-      "status": "failed",
-      "success": false
-    },
-    "belebele": {
-      "status": "failed",
-      "success": false
-    },
-    "mlqa": {
-      "status": "failed",
-      "success": false
-    },
-    "xquad": {
-      "status": "failed",
-      "success": false
-    },
-    "xcopa": {
-      "status": "failed",
-      "success": false
-    },
-    "okapi/arc_multilingual": {
-      "status": "failed",
-      "success": false
-    },
-    "okapi/hellaswag_multilingual": {
-      "status": "failed",
-      "success": false
-    },
-    "okapi/mmlu_multilingual": {
-      "status": "failed",
-      "success": false
-    },
-    "okapi/truthfulqa_multilingual": {
-      "status": "failed",
-      "success": false
-    },
-    "toxigen": {
-      "status": "failed",
-      "success": false
-    },
-    "moral_stories": {
-      "status": "failed",
-      "success": false
-    },
-    "realtoxicityprompts": {
-      "status": "failed",
-      "success": false
-    },
-    "discrim_eval": {
-      "status": "failed",
-      "success": false
-    },
-    "esbbq": {
-      "status": "failed",
-      "success": false
-    },
-    "cabbq": {
-      "status": "failed",
-      "success": false
-    },
-    "simple_cooccurrence_bias": {
-      "status": "failed",
-      "success": false
-    },
-    "winogender": {
-      "status": "failed",
-      "success": false
-    },
-    "medmcqa": {
-      "status": "failed",
-      "success": false
-    },
-    "med_concepts_qa": {
-      "status": "failed",
-      "success": false
-    },
-    "meddialog": {
-      "status": "failed",
-      "success": false
-    },
-    "mediqa_qa2019": {
-      "status": "failed",
-      "success": false
-    },
-    "medtext": {
-      "status": "failed",
-      "success": false
-    },
-    "meqsum": {
-      "status": "failed",
-      "success": false
-    },
-    "mimic_repsum": {
-      "status": "failed",
-      "success": false
-    },
-    "minerva_math": {
-      "status": "failed",
-      "success": false
-    },
-    "mgsm": {
-      "status": "failed",
-      "success": false
-    },
-    "hrm8k": {
-      "status": "failed",
-      "success": false
-    },
-    "babi": {
-      "status": "failed",
-      "success": false
-    },
-    "babilong": {
-      "status": "failed",
-      "success": false
-    },
-    "longbench": {
-      "status": "failed",
-      "success": false
-    },
-    "longbenchv2": {
-      "status": "failed",
-      "success": false
-    },
-    "ruler": {
-      "status": "failed",
-      "success": false
-    },
-    "scrolls": {
-      "status": "failed",
-      "success": false
-    },
-    "inverse_scaling": {
-      "status": "failed",
-      "success": false
-    },
-    "storycloze": {
-      "status": "failed",
-      "success": false
-    },
-    "histoires_morales": {
-      "status": "failed",
-      "success": false
-    },
-    "groundcocoa": {
-      "status": "failed",
-      "success": false
-    },
-    "blimp": {
-      "status": "passed",
-      "success": true
-    },
-    "blimp_nl": {
-      "status": "failed",
-      "success": false
-    },
-    "multiblimp": {
-      "status": "failed",
-      "success": false
-    },
-    "turblimp_core": {
-      "status": "failed",
-      "success": false
-    },
-    "zhoblimp": {
-      "status": "failed",
-      "success": false
-    },
-    "lambada_multilingual_stablelm": {
-      "status": "failed",
-      "success": false
-    },
-    "paws-x": {
-      "status": "failed",
-      "success": false
-    },
-    "translation": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt2016": {
-      "status": "failed",
-      "success": false
-    },
-    "code_x_glue": {
-      "status": "failed",
-      "success": false
-    },
-    "humaneval_infilling": {
-      "status": "failed",
-      "success": false
-    },
-    "bertaqa": {
-      "status": "failed",
-      "success": false
-    },
-    "careqa": {
-      "status": "failed",
-      "success": false
-    },
-    "acp_bench": {
-      "status": "failed",
-      "success": false
-    },
-    "acp_bench_hard": {
-      "status": "failed",
-      "success": false
-    },
-    "aexams": {
-      "status": "failed",
-      "success": false
-    },
-    "benchmarks": {
-      "status": "failed",
-      "success": false
-    },
-    "bhs": {
-      "status": "failed",
-      "success": false
-    },
-    "c4": {
-      "status": "failed",
-      "success": false
-    },
-    "chartqa": {
-      "status": "failed",
-      "success": false
-    },
-    "click": {
-      "status": "failed",
-      "success": false
-    },
-    "eq-bench_ca": {
-      "status": "failed",
-      "success": false
-    },
-    "eq-bench_es": {
-      "status": "failed",
-      "success": false
-    },
-    "evalita_LLM": {
-      "status": "failed",
-      "success": false
-    },
-    "fda": {
-      "status": "failed",
-      "success": false
-    },
-    "fld": {
-      "status": "failed",
-      "success": false
-    },
-    "jsonschema_bench": {
-      "status": "failed",
-      "success": false
-    },
-    "kbl": {
-      "status": "failed",
-      "success": false
-    },
-    "leaderboard": {
-      "status": "failed",
-      "success": false
-    },
-    "libra": {
-      "status": "failed",
-      "success": false
-    },
-    "lingoly": {
-      "status": "failed",
-      "success": false
-    },
-    "llama3": {
-      "status": "failed",
-      "success": false
-    },
-    "lm_syneval": {
-      "status": "failed",
-      "success": false
-    },
-    "mastermind": {
-      "status": "failed",
-      "success": false
-    },
-    "mmlusr": {
-      "status": "failed",
-      "success": false
-    },
-    "mmmu": {
-      "status": "failed",
-      "success": false
-    },
-    "model_written_evals": {
-      "status": "failed",
-      "success": false
-    },
-    "mts_dialog": {
-      "status": "failed",
-      "success": false
-    },
-    "noreval": {
-      "status": "failed",
-      "success": false
-    },
-    "olaph": {
-      "status": "failed",
-      "success": false
-    },
-    "paloma": {
-      "status": "failed",
-      "success": false
-    },
-    "pile": {
-      "status": "failed",
-      "success": false
-    },
-    "pile_10k": {
-      "status": "failed",
-      "success": false
-    },
-    "polemo2": {
-      "status": "failed",
-      "success": false
-    },
-    "score": {
-      "status": "failed",
-      "success": false
-    },
-    "squad_completion": {
-      "status": "failed",
-      "success": false
-    },
-    "super_glue": {
-      "status": "failed",
-      "success": false
-    },
-    "swde": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyBenchmarks": {
-      "status": "failed",
-      "success": false
-    },
-    "truthfulqa-multi": {
-      "status": "failed",
-      "success": false
-    },
-    "unitxt": {
-      "status": "failed",
-      "success": false
-    },
-    "unscramble": {
-      "status": "passed",
-      "success": true
-    },
-    "wmdp": {
-      "status": "passed",
-      "success": true
-    },
-    "wsc273": {
-      "status": "failed",
-      "success": false
-    },
-    "global_mmlu_ar": {
-      "status": "failed",
-      "success": false
-    },
-    "arabic_exams": {
-      "status": "passed",
-      "success": true
-    },
-    "persona": {
-      "status": "failed",
-      "success": false
-    },
-    "afrixnli_en_direct_amh": {
-      "status": "failed",
-      "success": false
-    },
-    "evalita_mp": {
-      "status": "failed",
-      "success": false
-    },
-    "truthfulqa": {
-      "status": "passed",
-      "success": true
-    },
-    "eus_exams_es": {
-      "status": "passed",
-      "success": true
-    },
-    "flores": {
-      "status": "failed",
-      "success": false
-    },
-    "afrimgsm_direct_amh": {
-      "status": "failed",
-      "success": false
-    },
-    "ceval_valid": {
-      "status": "failed",
-      "success": false
-    },
-    "advanced_ai_risk": {
-      "status": "failed",
-      "success": false
-    },
-    "tmlu": {
-      "status": "failed",
-      "success": false
-    },
-    "arc_ar": {
-      "status": "failed",
-      "success": false
-    },
-    "afrimmlu_direct_amh": {
-      "status": "failed",
-      "success": false
-    },
-    "m_mmlu": {
-      "status": "passed",
-      "success": true
-    },
-    "non_greedy_robustness_agieval_aqua_rat": {
-      "status": "passed",
-      "success": true
-    },
-    "prompt_robustness_agieval_aqua_rat": {
-      "status": "passed",
-      "success": true
-    },
-    "inverse_scaling_hindsight_neglect_10shot": {
-      "status": "failed",
-      "success": false
-    },
-    "mela": {
-      "status": "failed",
-      "success": false
-    },
-    "paws_ca": {
-      "status": "failed",
-      "success": false
-    },
-    "ja_leaderboard_jaqket_v2": {
-      "status": "failed",
-      "success": false
-    },
-    "super_glue-boolq-t5-prompt": {
-      "status": "failed",
-      "success": false
-    },
-    "multiple_choice": {
-      "status": "failed",
-      "success": false
-    },
-    "option_order_robustness_agieval_aqua_rat": {
-      "status": "passed",
-      "success": true
-    },
-    "phrases_ca-va": {
-      "status": "failed",
-      "success": false
-    },
-    "code2text_go": {
-      "status": "failed",
-      "success": false
-    },
-    "ethics_cm": {
-      "status": "passed",
-      "success": true
-    },
-    "cabreu": {
-      "status": "failed",
-      "success": false
-    },
-    "sycophancy": {
-      "status": "failed",
-      "success": false
-    },
-    "evalita_sp_sum_task_fp-small_p1": {
-      "status": "failed",
-      "success": false
-    },
-    "glianorex": {
-      "status": "passed",
-      "success": true
-    },
-    "flan_held_in": {
-      "status": "failed",
-      "success": false
-    },
-    "assin_entailment": {
-      "status": "passed",
-      "success": true
-    },
-    "gsm_plus": {
-      "status": "failed",
-      "success": false
-    },
-    "mnli": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyTruthfulQA": {
-      "status": "failed",
-      "success": false
-    },
-    "multimedqa": {
-      "status": "passed",
-      "success": true
-    },
-    "openllm": {
-      "status": "passed",
-      "success": true
-    },
-    "pythia": {
-      "status": "passed",
-      "success": true
-    },
-    "t0_eval": {
-      "status": "failed",
-      "success": false
-    },
-    "Tag": {
-      "status": "failed",
-      "success": false
-    },
-    "basque-glue": {
-      "status": "failed",
-      "success": false
-    },
-    "chain_of_thought": {
-      "status": "passed",
-      "success": true
-    },
-    "freebase": {
-      "status": "passed",
-      "success": true
-    },
-    "gpt3_translation_benchmarks": {
-      "status": "failed",
-      "success": false
-    },
-    "iwslt2017": {
-      "status": "failed",
-      "success": false
-    },
-    "llama": {
-      "status": "passed",
-      "success": true
-    },
-    "self_consistency": {
-      "status": "passed",
-      "success": true
-    },
-    "super-glue-lm-eval-v1": {
-      "status": "failed",
-      "success": false
-    },
-    "super-glue-lm-eval-v1-seq2seq": {
-      "status": "failed",
-      "success": false
-    },
-    "super-glue-t5-prompt": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt14": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt14_en_fr": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt14_fr_en": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt16_de_en": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt16_en_de": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt16_en_ro": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt16_ro_en": {
-      "status": "failed",
-      "success": false
-    },
-    "20_newsgroups": {
-      "status": "passed",
-      "success": true
-    },
-    "ag_news": {
-      "status": "passed",
-      "success": true
-    },
-    "anagrams1": {
-      "status": "passed",
-      "success": true
-    },
-    "anagrams2": {
-      "status": "passed",
-      "success": true
-    },
-    "argument_topic": {
-      "status": "passed",
-      "success": true
-    },
-    "atis": {
-      "status": "failed",
-      "success": false
-    },
-    "banking77": {
-      "status": "passed",
-      "success": true
-    },
-    "bec2016eu": {
-      "status": "failed",
-      "success": false
-    },
-    "bhtc_v2": {
-      "status": "failed",
-      "success": false
-    },
-    "boolq-seq2seq": {
-      "status": "failed",
-      "success": false
-    },
-    "catalanqa": {
-      "status": "failed",
-      "success": false
-    },
-    "catcola": {
-      "status": "failed",
-      "success": false
-    },
-    "claim_stance_topic": {
-      "status": "failed",
-      "success": false
-    },
-    "cnn_dailymail": {
-      "status": "failed",
-      "success": false
-    },
-    "cocoteros_es": {
-      "status": "failed",
-      "success": false
-    },
-    "coedit_gec": {
-      "status": "failed",
-      "success": false
-    },
-    "cola": {
-      "status": "failed",
-      "success": false
-    },
-    "coqcat": {
-      "status": "failed",
-      "success": false
-    },
-    "cycle_letters": {
-      "status": "passed",
-      "success": true
-    },
-    "dbpedia_14": {
-      "status": "failed",
-      "success": false
-    },
-    "doc_vqa": {
-      "status": "failed",
-      "success": false
-    },
-    "epec_koref_bin": {
-      "status": "failed",
-      "success": false
-    },
-    "escola": {
-      "status": "passed",
-      "success": true
-    },
-    "ethos_binary": {
-      "status": "failed",
-      "success": false
-    },
-    "financial_tweets": {
-      "status": "failed",
-      "success": false
-    },
-    "galcola": {
-      "status": "passed",
-      "success": true
-    },
-    "iwslt2017-ar-en": {
-      "status": "failed",
-      "success": false
-    },
-    "iwslt2017-en-ar": {
-      "status": "failed",
-      "success": false
-    },
-    "law_stack_exchange": {
-      "status": "failed",
-      "success": false
-    },
-    "ledgar": {
-      "status": "failed",
-      "success": false
-    },
-    "logieval": {
-      "status": "failed",
-      "success": false
-    },
-    "medical_abstracts": {
-      "status": "failed",
-      "success": false
-    },
-    "noticia": {
-      "status": "failed",
-      "success": false
-    },
-    "parafraseja": {
-      "status": "failed",
-      "success": false
-    },
-    "parafrases_gl": {
-      "status": "failed",
-      "success": false
-    },
-    "qnlieu": {
-      "status": "failed",
-      "success": false
-    },
-    "random_insertion": {
-      "status": "failed",
-      "success": false
-    },
-    "reversed_words": {
-      "status": "failed",
-      "success": false
-    },
-    "sglue_rte": {
-      "status": "failed",
-      "success": false
-    },
-    "stsb": {
-      "status": "failed",
-      "success": false
-    },
-    "summarization_gl": {
-      "status": "failed",
-      "success": false
-    },
-    "teca": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyArc": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyGSM8k": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyHellaswag": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyMMLU": {
-      "status": "failed",
-      "success": false
-    },
-    "tinyWinogrande": {
-      "status": "failed",
-      "success": false
-    },
-    "unfair_tos": {
-      "status": "failed",
-      "success": false
-    },
-    "vaxx_stance": {
-      "status": "failed",
-      "success": false
-    },
-    "wiceu": {
-      "status": "failed",
-      "success": false
-    },
-    "wmt-ro-en-t5-prompt": {
-      "status": "failed",
-      "success": false
-    },
-    "xlsum_es": {
-      "status": "failed",
-      "success": false
-    },
-    "xsum": {
-      "status": "failed",
-      "success": false
-    },
-    "yahoo_answers_topics": {
-      "status": "failed",
-      "success": false
-    },
-    "instructhumaneval": {
-      "status": "failed",
-      "success": false
-    },
-    "humanevalpack": {
-      "status": "failed",
-      "success": false
-    }
-  }
-}

wisent 0.7.379__py3-none-any.whl → 0.7.701__py3-none-any.whl

wisent 0.7.379py3-none-any.whl → 0.7.701py3-none-any.whl