PyPI - opik-optimizer - Versions diffs - 0.7.8__py3-none-any.whl → 0.8.1__py3-none-any.whl - Mend

opik-optimizer 0.7.8py3-none-any.whl → 0.8.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (31) hide show

opik_optimizer/__init__.py +2 -0
opik_optimizer/base_optimizer.py +6 -4
opik_optimizer/data/hotpot-500.json +501 -1001
opik_optimizer/datasets/__init__.py +27 -0
opik_optimizer/datasets/ai2_arc.py +44 -0
opik_optimizer/datasets/cnn_dailymail.py +40 -0
opik_optimizer/datasets/election_questions.py +36 -0
opik_optimizer/datasets/gsm8k.py +40 -0
opik_optimizer/datasets/halu_eval.py +43 -0
opik_optimizer/datasets/hotpot_qa.py +68 -0
opik_optimizer/datasets/medhallu.py +39 -0
opik_optimizer/datasets/rag_hallucinations.py +41 -0
opik_optimizer/datasets/ragbench.py +40 -0
opik_optimizer/datasets/tiny_test.py +57 -0
opik_optimizer/datasets/truthful_qa.py +107 -0
opik_optimizer/demo/datasets.py +53 -607
opik_optimizer/evolutionary_optimizer/evolutionary_optimizer.py +3 -1
opik_optimizer/few_shot_bayesian_optimizer/few_shot_bayesian_optimizer.py +90 -19
opik_optimizer/logging_config.py +1 -1
opik_optimizer/meta_prompt_optimizer.py +60 -14
opik_optimizer/mipro_optimizer/mipro_optimizer.py +151 -13
opik_optimizer/optimization_result.py +11 -0
opik_optimizer/task_evaluator.py +6 -1
opik_optimizer/utils.py +0 -52
opik_optimizer-0.8.1.dist-info/METADATA +196 -0
opik_optimizer-0.8.1.dist-info/RECORD +45 -0
opik_optimizer-0.7.8.dist-info/METADATA +0 -174
opik_optimizer-0.7.8.dist-info/RECORD +0 -33
{opik_optimizer-0.7.8.dist-info → opik_optimizer-0.8.1.dist-info}/WHEEL +0 -0
{opik_optimizer-0.7.8.dist-info → opik_optimizer-0.8.1.dist-info}/licenses/LICENSE +0 -0
{opik_optimizer-0.7.8.dist-info → opik_optimizer-0.8.1.dist-info}/top_level.txt +0 -0

opik_optimizer/datasets/__init__.py ADDED Viewed

@@ -0,0 +1,27 @@
+from .hotpot_qa import hotpot_300, hotpot_500
+from .halu_eval import halu_eval_300
+from .tiny_test import tiny_test
+from .gsm8k import gsm8k
+from .ai2_arc import ai2_arc
+from .truthful_qa import truthful_qa
+from .cnn_dailymail import cnn_dailymail
+from .ragbench import ragbench_sentence_relevance
+from .election_questions import election_questions
+from .medhallu import medhallu
+from .rag_hallucinations import rag_hallucinations
+__all__ = [
+    "hotpot_300",
+    "hotpot_500",
+    "halu_eval_300",
+    "tiny_test",
+    "gsm8k",
+    "ai2_arc",
+    "truthful_qa",
+    "cnn_dailymail",
+    "ragbench_sentence_relevance",
+    "election_questions",
+    "medhallu",
+    "rag_hallucinations",
+]

opik_optimizer/datasets/ai2_arc.py ADDED Viewed

@@ -0,0 +1,44 @@
+import opik
+def ai2_arc(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the AI2 ARC dataset.
+    """
+    dataset_name = "ai2_arc" if not test_mode else "ai2_arc_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset(
+            "ai2_arc", "ARC-Challenge",
+            streaming=True, download_config=download_config
+        )
+        data = []
+        for i, item in enumerate(hf_dataset["train"]):
+            if i >= nb_items:
+                break
+            data.append({
+                "question": item["question"],
+                "answer": item["answerKey"],
+                "choices": item["choices"],
+            })
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/cnn_dailymail.py ADDED Viewed

@@ -0,0 +1,40 @@
+import opik
+def cnn_dailymail(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 100 samples of the CNN Daily Mail dataset.
+    """
+    dataset_name = "cnn_dailymail" if not test_mode else "cnn_dailymail_test"
+    nb_items = 100 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset("cnn_dailymail", "3.0.0", streaming=True, download_config=download_config)
+        data = []
+        for i, item in enumerate(hf_dataset["validation"]):
+            if i >= nb_items:
+                break
+            data.append({
+                "article": item["article"],
+                "highlights": item["highlights"],
+            })
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/election_questions.py ADDED Viewed

@@ -0,0 +1,36 @@
+import opik
+def election_questions(
+    test_mode: bool = False
+) -> opik.Dataset:
+    dataset_name = "election_questions" if not test_mode else "election_questions_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset("Anthropic/election_questions", download_config=download_config)
+        data = [
+            {
+                "question": item["question"],
+                "label": item["label"]
+            }
+            for item in hf_dataset["test"].select(range(nb_items))
+        ]
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/gsm8k.py ADDED Viewed

@@ -0,0 +1,40 @@
+import opik
+def gsm8k(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the GSM8K dataset.
+    """
+    dataset_name = "gsm8k" if not test_mode else "gsm8k_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset("gsm8k", "main", streaming=True, download_config=download_config)
+        data = []
+        for i, item in enumerate(hf_dataset["train"]):
+            if i >= nb_items:
+                break
+            data.append({
+                "question": item["question"],
+                "answer": item["answer"],
+            })
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/halu_eval.py ADDED Viewed

@@ -0,0 +1,43 @@
+import opik
+def halu_eval_300(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the HaluEval dataset.
+    """
+    dataset_name = "halu_eval_300" if not test_mode else "halu_eval_300_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import pandas as pd
+        try:
+            df = pd.read_parquet(
+                "hf://datasets/pminervini/HaluEval/general/data-00000-of-00001.parquet"
+            )
+        except Exception:
+            raise Exception("Unable to download HaluEval; please try again") from None
+        sample_size = min(nb_items, len(df))
+        df_sampled = df.sample(n=sample_size, random_state=42)
+        dataset_records = [
+            {
+                "input": x["user_query"],
+                "llm_output": x["chatgpt_response"],
+                "expected_hallucination_label": x["hallucination"],
+            }
+            for x in df_sampled.to_dict(orient="records")
+        ]
+        dataset.insert(dataset_records)
+        return dataset

opik_optimizer/datasets/hotpot_qa.py ADDED Viewed

@@ -0,0 +1,68 @@
+import opik
+from importlib.resources import files
+import json
+def hotpot_300(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the HotpotQA dataset.
+    """
+    dataset_name = "hotpot_300" if not test_mode else "hotpot_300_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        # Load data from file and insert into the dataset
+        json_content = (files('opik_optimizer') / 'data' / 'hotpot-500.json').read_text(encoding='utf-8')
+        all_data = json.loads(json_content)
+        trainset = all_data[:nb_items]
+        data = []
+        for row in reversed(trainset):
+            data.append(row)
+        dataset.insert(data)
+        return dataset
+def hotpot_500(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 500 samples of the HotpotQA dataset.
+    """
+    dataset_name = "hotpot_500" if not test_mode else "hotpot_500_test"
+    nb_items = 500 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        # Load data from file and insert into the dataset
+        json_content = (files('opik_optimizer') / 'data' / 'hotpot-500.json').read_text(encoding='utf-8')
+        all_data = json.loads(json_content)
+        trainset = all_data[:nb_items]
+        data = []
+        for row in reversed(trainset):
+            data.append(row)
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/medhallu.py ADDED Viewed

@@ -0,0 +1,39 @@
+import opik
+def medhallu(
+    test_mode: bool = False
+) -> opik.Dataset:
+    dataset_name = "medhallu" if not test_mode else "medhallu_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset("UTAustin-AIHealth/MedHallu", "pqa_labeled", download_config=download_config)
+        data = [
+            {
+                "question": item["Question"],
+                "knowledge": item["Knowledge"],
+                "ground_truth": item["Ground Truth"],
+                "hallucinated_answer": item["Hallucinated Answer"],
+                "difficulty_level": item["Difficulty Level"],
+                "hallucination_category": item["Category of Hallucination"],
+            }
+            for item in hf_dataset["train"].select(range(nb_items))
+        ]
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/rag_hallucinations.py ADDED Viewed

@@ -0,0 +1,41 @@
+import opik
+def rag_hallucinations(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the RAG Hallucinations dataset.
+    """
+    dataset_name = "rag_hallucination" if not test_mode else "rag_hallucination_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset("aporia-ai/rag_hallucinations", download_config=download_config)
+        data = [
+            {
+                "context": item["context"],
+                "question": item["question"],
+                "answer": item["answer"],
+                "is_hallucination": item["is_hallucination"],
+            }
+            for item in hf_dataset["train"].select(range(nb_items))
+        ]
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/ragbench.py ADDED Viewed

@@ -0,0 +1,40 @@
+import opik
+def ragbench_sentence_relevance(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the RAGBench sentence relevance dataset.
+    """
+    dataset_name = "ragbench_sentence_relevance" if not test_mode else "ragbench_sentence_relevance_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        hf_dataset = ds.load_dataset("wandb/ragbench-sentence-relevance-balanced", download_config=download_config)
+        data = [
+            {
+                "question": item["question"],
+                "sentence": item["sentence"],
+                "label": item["label"],
+            }
+            for item in hf_dataset["train"].select(range(nb_items))
+        ]
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik_optimizer/datasets/tiny_test.py ADDED Viewed

@@ -0,0 +1,57 @@
+import opik
+TINY_TEST_ITEMS = [
+        {
+            "text": "What is the capital of France?",
+            "label": "Paris",
+            "metadata": {
+                "context": "France is a country in Europe. Its capital is Paris."
+            },
+        },
+        {
+            "text": "Who wrote Romeo and Juliet?",
+            "label": "William Shakespeare",
+            "metadata": {
+                "context": "Romeo and Juliet is a famous play written by William Shakespeare."
+            },
+        },
+        {
+            "text": "What is 2 + 2?",
+            "label": "4",
+            "metadata": {"context": "Basic arithmetic: 2 + 2 equals 4."},
+        },
+        {
+            "text": "What is the largest planet in our solar system?",
+            "label": "Jupiter",
+            "metadata": {
+                "context": "Jupiter is the largest planet in our solar system."
+            },
+        },
+        {
+            "text": "Who painted the Mona Lisa?",
+            "label": "Leonardo da Vinci",
+            "metadata": {"context": "The Mona Lisa was painted by Leonardo da Vinci."},
+        },
+    ]
+def tiny_test(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 5 samples of the HotpotQA dataset.
+    """
+    dataset_name = "tiny_test" if not test_mode else "tiny_test_test"
+    nb_items = len(TINY_TEST_ITEMS)
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        dataset.insert(TINY_TEST_ITEMS)
+        return dataset

opik_optimizer/datasets/truthful_qa.py ADDED Viewed

@@ -0,0 +1,107 @@
+import opik
+def truthful_qa(
+    test_mode: bool = False
+) -> opik.Dataset:
+    """
+    Dataset containing the first 300 samples of the TruthfulQA dataset.
+    """
+    dataset_name = "truthful_qa" if not test_mode else "truthful_qa_test"
+    nb_items = 300 if not test_mode else 5
+    client = opik.Opik()
+    dataset = client.get_or_create_dataset(dataset_name)
+    items = dataset.get_items()
+    if len(items) == nb_items:
+        return dataset
+    elif len(items) != 0:
+        raise ValueError(f"Dataset {dataset_name} contains {len(items)} items, expected {nb_items}. We recommend deleting the dataset and re-creating it.")
+    elif len(items) == 0:
+        import datasets as ds
+        # Load data from file and insert into the dataset
+        download_config = ds.DownloadConfig(download_desc=False, disable_tqdm=True)
+        ds.disable_progress_bar()
+        gen_dataset = ds.load_dataset("truthful_qa", "generation", download_config=download_config)
+        mc_dataset = ds.load_dataset("truthful_qa", "multiple_choice", download_config=download_config)
+        data = []
+        for gen_item, mc_item in zip(
+            gen_dataset["validation"], mc_dataset["validation"]
+        ):
+            if len(data) >= nb_items:
+                break
+            # Get correct answers from both configurations
+            correct_answers = set(gen_item["correct_answers"])
+            if "mc1_targets" in mc_item:
+                correct_answers.update(
+                    [
+                        choice
+                        for choice, label in zip(
+                            mc_item["mc1_targets"]["choices"],
+                            mc_item["mc1_targets"]["labels"],
+                        )
+                        if label == 1
+                    ]
+                )
+            if "mc2_targets" in mc_item:
+                correct_answers.update(
+                    [
+                        choice
+                        for choice, label in zip(
+                            mc_item["mc2_targets"]["choices"],
+                            mc_item["mc2_targets"]["labels"],
+                        )
+                        if label == 1
+                    ]
+                )
+            # Get all possible answers
+            all_answers = set(
+                gen_item["correct_answers"] + gen_item["incorrect_answers"]
+            )
+            if "mc1_targets" in mc_item:
+                all_answers.update(mc_item["mc1_targets"]["choices"])
+            if "mc2_targets" in mc_item:
+                all_answers.update(mc_item["mc2_targets"]["choices"])
+            # Create a single example with all necessary fields
+            example = {
+                "question": gen_item["question"],
+                "answer": gen_item["best_answer"],
+                "choices": list(all_answers),
+                "correct_answer": gen_item["best_answer"],
+                "input": gen_item["question"],  # For AnswerRelevance metric
+                "output": gen_item["best_answer"],  # For output_key requirement
+                "context": gen_item.get("source", ""),  # Use source as context
+                "type": "TEXT",  # Set type to TEXT as required by Opik
+                "category": gen_item["category"],
+                "source": "MANUAL",  # Set source to MANUAL as required by Opik
+                "correct_answers": list(
+                    correct_answers
+                ),  # Keep track of all correct answers
+                "incorrect_answers": gen_item[
+                    "incorrect_answers"
+                ],  # Keep track of incorrect answers
+            }
+            # Ensure all required fields are present
+            required_fields = [
+                "question",
+                "answer",
+                "choices",
+                "correct_answer",
+                "input",
+                "output",
+                "context",
+            ]
+            if all(field in example and example[field] for field in required_fields):
+                data.append(example)
+        ds.enable_progress_bar()
+        dataset.insert(data)
+        return dataset

opik-optimizer 0.7.8__py3-none-any.whl → 0.8.1__py3-none-any.whl

opik-optimizer 0.7.8py3-none-any.whl → 0.8.1py3-none-any.whl