PyPI - wisent - Versions diffs - 0.7.701__py3-none-any.whl → 0.7.1045__py3-none-any.whl - Mend

wisent 0.7.701py3-none-any.whl → 0.7.1045py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (391) hide show

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/leaderboard.py CHANGED Viewed

@@ -165,14 +165,12 @@ class LeaderboardExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "leaderboard",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/lingoly.py CHANGED Viewed

@@ -174,14 +174,12 @@ class LingolyExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "lingoly",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/llama3.py CHANGED Viewed

@@ -123,14 +123,12 @@ class Llama3Extractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "llama3",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/lm_syneval.py CHANGED Viewed

@@ -123,14 +123,12 @@ class LmSynevalExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "lm_syneval",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/logiqa.py CHANGED Viewed

@@ -86,14 +86,14 @@ class LogiQAExtractor(LMEvalBenchmarkExtractor):
             incorrect = options[(label_idx+1)%len(options)]
             question = f"{question}"
-            formatted_question = f"Passage: {context}\nQuestion: {question}\nA. {incorrect}\nB. {correct}"
+            prompt = f"Passage: {context}\nQuestion: {question}"
             metadata = {
                 "label": "logiqa",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/logiqa2.py CHANGED Viewed

@@ -85,14 +85,14 @@ class LogiQA2Extractor(LMEvalBenchmarkExtractor):
             incorrect = options[(answer+1)%len(options)]
             question = f"{question}"
-            formatted_question = f"Passage: {text}\nQuestion: {question}\nA. {incorrect}\nB. {correct}"
+            prompt = f"Passage: {text}\nQuestion: {question}"
             metadata = {
                 "label": "logiqa2",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/longbench.py CHANGED Viewed

@@ -123,14 +123,12 @@ class LongbenchExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "longbench",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/longbenchv2.py CHANGED Viewed

@@ -123,14 +123,12 @@ class Longbenchv2Extractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "longbenchv2",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mastermind.py CHANGED Viewed

@@ -115,7 +115,7 @@ class MastermindExtractor(LMEvalBenchmarkExtractor):
                     }
                     return self._build_pair(
-                        question=formatted_question,
+                        question=question,
                         correct=correct,
                         incorrect=incorrect,
                         metadata=metadata,
@@ -174,14 +174,12 @@ class MastermindExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "mastermind",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mc-taco.py CHANGED Viewed

@@ -83,7 +83,7 @@ class MCTACOExtractor(LMEvalBenchmarkExtractor):
                 )
                 return None
-            formatted_question = f"{sentence}\nQuestion: {question}\nAnswer: {answer}\nPlausible:\nA. Yes\nB. No"
+            prompt = f"{sentence}\nQuestion: {question}\nAnswer: {answer}\nPlausible?"
             correct = "Yes" if label == 1 else "No"
             incorrect = "No" if label == 1 else "Yes"
@@ -93,7 +93,7 @@ class MCTACOExtractor(LMEvalBenchmarkExtractor):
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/med_concepts_qa.py CHANGED Viewed

@@ -131,7 +131,7 @@ class MedConceptsQaExtractor(LMEvalBenchmarkExtractor):
                 # For this format, the response should be just the letter
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=answer_key,
                     incorrect=chr(ord('A') + incorrect_idx),
                     metadata=metadata,
@@ -195,14 +195,12 @@ class MedConceptsQaExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "med_concepts_qa",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/meddialog.py CHANGED Viewed

@@ -151,14 +151,12 @@ class MeddialogExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "meddialog",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/medical.py CHANGED Viewed

@@ -80,12 +80,10 @@ class MedicalExtractor(LMEvalBenchmarkExtractor):
             correct = str(choices[answer_idx]).strip()
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = str(choices[incorrect_idx]).strip()
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {"label": "medical"}
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/medmcqa.py CHANGED Viewed

@@ -140,14 +140,12 @@ class MedmcqaExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "medmcqa",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/medqa.py CHANGED Viewed

@@ -89,14 +89,14 @@ class MedQAExtractor(LMEvalBenchmarkExtractor):
             correct = endings[label]
             incorrect = endings[(label + 1) % 4]
-            formatted_question = f"Question: {sent1}\nA. {incorrect}\nB. {correct}"
+            prompt = f"Question: {sent1}"
             metadata = {
                 "label": "medqa",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mela.py CHANGED Viewed

@@ -67,11 +67,11 @@ class MelaExtractor(LMEvalBenchmarkExtractor):
                 incorrect_idx = 1 - answer_idx
                 incorrect = choices[incorrect_idx]
-                formatted_question = f"Sentence: {sentence}\nDetermine whether this sentence is acceptable or unacceptable?\nA. {incorrect}\nB. {correct}"
+                prompt = f"Sentence: {sentence}\nDetermine whether this sentence is acceptable or unacceptable?"
                 metadata = {"label": "mela"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=prompt,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/metabench.py CHANGED Viewed

@@ -125,14 +125,12 @@ class MetabenchExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "metabench",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/minerva_math.py CHANGED Viewed

@@ -143,14 +143,12 @@ class MinervaMathExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "minerva_math",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mmlu.py CHANGED Viewed

@@ -115,14 +115,12 @@ class MMLUExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "mmlu",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mmlusr.py CHANGED Viewed

@@ -154,20 +154,19 @@ class MmlusrExtractor(LMEvalBenchmarkExtractor):
                 )
                 return None
-            # Build prompt matching lm-eval format
+            # Build prompt - raw question without MC formatting
             correct = choices[answer_idx]
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            # Format exactly as lm-eval does it
-            formatted_question = f"{question}\nA. {choices[0]}\nB. {choices[1]}\nC. {choices[2]}\nD. {choices[3]}\nAnswer:"
+            prompt = question
             metadata = {
                 "label": "mmlusr",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mrpc.py CHANGED Viewed

@@ -79,7 +79,7 @@ class MRPCExtractor(LMEvalBenchmarkExtractor):
                 )
                 return None
-            formatted_question = f"Sentence 1: {sentence1}\nSentence 2: {sentence2}. Do both sequences mean the same thing?\nAnswer:\nA. Yes\nB. No"
+            prompt = f"Sentence 1: {sentence1}\nSentence 2: {sentence2}. Do both sequences mean the same thing?"
             correct = "Yes" if label == 1 else "No"
             incorrect = "No" if label == 1 else "Yes"
@@ -89,7 +89,7 @@ class MRPCExtractor(LMEvalBenchmarkExtractor):
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/multiblimp.py CHANGED Viewed

@@ -100,11 +100,8 @@ class MultiblimpExtractor(LMEvalBenchmarkExtractor):
                     log.debug("Skipping doc with missing sen/wrong_sen", extra={"doc": doc})
                     return None
-                # Prompt: present both sentences as choices (matching lm-eval format)
-                # Since doc_to_text is empty, we format as multiple choice
-                prompt = "Which sentence is grammatically correct?\nA. {}\nB. {}".format(
-                    correct_sentence, incorrect_sentence
-                )
+                # Raw prompt without A./B. formatting
+                prompt = "Which sentence is grammatically correct?"
                 metadata = {"label": "multiblimp"}

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/multirc.py CHANGED Viewed

@@ -82,7 +82,7 @@ class MultiRCExtractor(LMEvalBenchmarkExtractor):
                 )
                 return None
-            formatted_question = f"{paragraph}\nQuestion: {question}\nAnswer: {answer}\nIs this answer correct?\nA. Yes\nB. No"
+            prompt = f"{paragraph}\nQuestion: {question}\nAnswer: {answer}\nIs this answer correct?"
             correct = "Yes" if label == 1 else "No"
             incorrect = "No" if label == 1 else "Yes"
@@ -92,7 +92,7 @@ class MultiRCExtractor(LMEvalBenchmarkExtractor):
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/mutual.py CHANGED Viewed

@@ -84,14 +84,14 @@ class MutualExtractor(LMEvalBenchmarkExtractor):
             correct = options[answer_idx]
             incorrect = options[(answer_idx+1)%len(options)]
-            formatted_question = (f"{article}\nA. {incorrect}\nB. {correct}")
+            prompt = article
             metadata = {
                 "label": "mutual",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/non.py CHANGED Viewed

@@ -80,12 +80,10 @@ class NonExtractor(LMEvalBenchmarkExtractor):
             correct = str(choices[answer_idx]).strip()
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = str(choices[incorrect_idx]).strip()
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {"label": "non"}
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/noreval.py CHANGED Viewed

@@ -144,14 +144,12 @@ class NorevalExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "noreval",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/noreval_exact.py CHANGED Viewed

@@ -128,14 +128,12 @@ class NorevalExactMatchExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "noreval_exact",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/noreval_gen_exact.py CHANGED Viewed

@@ -136,14 +136,12 @@ class NorevalGenerationExactMatchExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "noreval_gen_exact",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/noreval_mc.py CHANGED Viewed

@@ -107,12 +107,12 @@ class NorevalMultipleChoiceExtractor(LMEvalBenchmarkExtractor):
                     log.debug("Skipping doc due to empty correct/wrong fields", extra={"doc": doc})
                     return None
-                formatted_question = f"Which sentence is grammatically correct?\nA. {incorrect}\nB. {correct}"
+                prompt = f"Which sentence is grammatically correct?"
                 metadata = {"label": "noreval_ncb"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,
@@ -151,12 +151,10 @@ class NorevalMultipleChoiceExtractor(LMEvalBenchmarkExtractor):
                 correct = str(choices[correct_idx]).strip()
                 incorrect = str(choices[incorrect_idx]).strip()
-                formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
                 metadata = {"label": "noreval_truthfulqa"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,
@@ -192,12 +190,10 @@ class NorevalMultipleChoiceExtractor(LMEvalBenchmarkExtractor):
                 incorrect_idx = (answer_idx + 1) % len(choice_texts)
                 incorrect = str(choice_texts[incorrect_idx]).strip()
-                formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
                 metadata = {"label": "noreval_nrk_quiz"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/noreval_mc_log_likelihoods.py CHANGED Viewed

@@ -102,12 +102,12 @@ class NorevalMultipleChoiceExtractor(LMEvalBenchmarkExtractor):
                     log.debug("Skipping doc due to empty correct/wrong fields", extra={"doc": doc})
                     return None
-                formatted_question = f"Which sentence is grammatically correct?\nA. {incorrect}\nB. {correct}"
+                prompt = f"Which sentence is grammatically correct?"
                 metadata = {"label": "noreval_ncb"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,
@@ -146,12 +146,10 @@ class NorevalMultipleChoiceExtractor(LMEvalBenchmarkExtractor):
                 correct = str(choices[correct_idx]).strip()
                 incorrect = str(choices[incorrect_idx]).strip()
-                formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
                 metadata = {"label": "noreval_truthfulqa"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,
@@ -187,12 +185,10 @@ class NorevalMultipleChoiceExtractor(LMEvalBenchmarkExtractor):
                 incorrect_idx = (answer_idx + 1) % len(choice_texts)
                 incorrect = str(choice_texts[incorrect_idx]).strip()
-                formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
                 metadata = {"label": "noreval_nrk_quiz"}
                 return self._build_pair(
-                    question=formatted_question,
+                    question=question,
                     correct=correct,
                     incorrect=incorrect,
                     metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/nq_open.py CHANGED Viewed

@@ -106,14 +106,14 @@ class NQOpenExtractor(LMEvalBenchmarkExtractor):
                 if incorrect == correct:
                     incorrect += "k"
-            formatted_question = f"Question: {question}\nAnswer:\nA. {incorrect}\nB. {correct}"
+            prompt = f"Question: {question}\nAnswer:"
             metadata = {
                 "label": "nq_open",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=prompt,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/okapi_arc_multilingual.py CHANGED Viewed

@@ -138,14 +138,12 @@ class OkapiArcMultilingualExtractor(LMEvalBenchmarkExtractor):
             incorrect_idx = (answer_idx + 1) % len(choices)
             incorrect = choices[incorrect_idx]
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "okapi/arc_multilingual",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent/core/contrastive_pairs/lm_eval_pairs/lm_task_extractors/okapi_hellaswag_multilingual.py CHANGED Viewed

@@ -145,14 +145,12 @@ class OkapiHellaswagMultilingualExtractor(LMEvalBenchmarkExtractor):
                 )
                 return None
-            formatted_question = f"Question: {question}\nA. {incorrect}\nB. {correct}"
             metadata = {
                 "label": "okapi/hellaswag_multilingual",
             }
             return self._build_pair(
-                question=formatted_question,
+                question=question,
                 correct=correct,
                 incorrect=incorrect,
                 metadata=metadata,

wisent 0.7.701__py3-none-any.whl → 0.7.1045__py3-none-any.whl

wisent 0.7.701py3-none-any.whl → 0.7.1045py3-none-any.whl