PyPI - python-flexeval - Versions diffs - 0.2.0__py3-none-any.whl → 0.3.0__py3-none-any.whl - Mend

python-flexeval 0.2.0py3-none-any.whl → 0.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

flexeval/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "0.2.0"
1	+ __version__ = "0.3.0"

flexeval/classes/jsonview.py ADDED Viewed

@@ -0,0 +1,107 @@
+import json
+from collections import UserDict
+class JsonViewDict(UserDict):
+    """Dictionary that syncs changes back to the model field."""
+    def __init__(
+        self,
+        model_instance,
+        text_field_attr_name,
+        json_dumps_fn=json.dumps,
+        json_loads_fn=json.loads,
+    ):
+        self.model_instance = model_instance
+        self.text_field_attr_name = text_field_attr_name
+        self.json_dumps_fn = json_dumps_fn
+        self.json_loads_fn = json_loads_fn
+        text_value = getattr(model_instance, text_field_attr_name)
+        initial_data = self.json_loads_fn(text_value)
+        super().__init__(initial_data)
+    def _sync_to_model(self):
+        """Sync the current data back to the model field."""
+        json_str = self.json_loads_fn(self.data)
+        setattr(self.model_instance, self.text_field_attr_name, json_str)
+    # Override mutating methods to trigger sync
+    def __setitem__(self, key, value):
+        super().__setitem__(key, value)
+        self._sync_to_model()
+    def __delitem__(self, key):
+        super().__delitem__(key)
+        self._sync_to_model()
+    def clear(self):
+        super().clear()
+        self._sync_to_model()
+    def pop(self, key, *args):
+        result = super().pop(key, *args)
+        self._sync_to_model()
+        return result
+    def popitem(self):
+        result = super().popitem()
+        self._sync_to_model()
+        return result
+    def setdefault(self, key, default=None):
+        result = super().setdefault(key, default)
+        self._sync_to_model()
+        return result
+    def update(self, *args, **kwargs):
+        super().update(*args, **kwargs)
+        self._sync_to_model()
+class JsonView:
+    """Descriptor that provides dict-like access to a JSON text field.
+    Example:
+    class SomeModel(pw.Model):
+        some_field = pw.TextField(default="{}")
+        some_field_dict = JsonView(text_field_attr_name="some_field")
+    m = SomeModel()
+    m.some_field_dict["chosen_mistake"] = "whatever"
+    """
+    def __init__(self, text_field_attr_name):
+        self.text_field_attr_name = text_field_attr_name
+        self.attr_name = None
+    def __set_name__(self, owner, name):
+        """Called when the descriptor is assigned to a class attribute."""
+        self.attr_name = f"_{name}_dict"
+    def __get__(self, instance, owner):
+        if instance is None:
+            return self
+        # Check if we already have a cached JsonViewDict
+        if not hasattr(instance, self.attr_name):
+            if not hasattr(instance, self.text_field_attr_name):
+                raise ValueError(
+                    f"Failed to link this JsonView to field '{self.text_field_attr_name}' because it doesn't exist on this model instance."
+                )
+            # Cache a new JsonViewDict
+            json_dict = JsonViewDict(instance, self.text_field_attr_name)
+            setattr(instance, self.attr_name, json_dict)
+        return getattr(instance, self.attr_name)
+    def __set__(self, instance, value):
+        """Allow setting the entire dict."""
+        if isinstance(value, dict):
+            json_dict = JsonViewDict(instance, self.text_field_attr_name)
+            json_dict.update(value)
+            setattr(instance, self.attr_name, json_dict)
+        else:
+            raise ValueError(
+                f"This JsonView must be a dictionary to set linked field '{self.text_field_attr_name}' correctly."
+            )

flexeval/classes/message.py CHANGED Viewed

@@ -10,6 +10,7 @@ from flexeval.classes.dataset import Dataset
 from flexeval.classes.eval_set_run import EvalSetRun
 from flexeval.classes.thread import Thread
 from flexeval.classes.turn import Turn
+from flexeval.classes.jsonview import JsonView
 from flexeval.configuration import completion_functions
 logger = logging.getLogger(__name__)
@@ -34,6 +35,10 @@ class Message(BaseModel):
     content = pw.TextField()
     context = pw.TextField(null=True)  # Previous messages
+    # metadata
+    metadata = pw.TextField(default="{}", null=False)
+    metadata_dict = JsonView("metadata")
     # helpers
     system_prompt = pw.TextField(null=True)
     is_flexeval_completion = pw.BooleanField(null=True)

flexeval/classes/thread.py CHANGED Viewed

@@ -3,6 +3,7 @@ import peewee as pw
 from flexeval.classes.base import BaseModel
 from flexeval.classes.dataset import Dataset
 from flexeval.classes.eval_set_run import EvalSetRun
+from flexeval.classes.jsonview import JsonView
 class Thread(BaseModel):
@@ -20,6 +21,9 @@ class Thread(BaseModel):
     system_prompt = pw.TextField(null=True)
+    metadata = pw.TextField(default="{}", null=False)
+    metadata_dict = JsonView("metadata")
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
         self.metrics_to_evaluate = []

flexeval/data_loader.py CHANGED Viewed

@@ -54,18 +54,13 @@ def load_jsonl(
                 max(1, nb_evaluations_per_thread)
             ):  # duplicate stored threads for averaged evaluation results
                 if thread_id in selected_thread_ids:
-                    thread_object = Thread.create(
-                        evalsetrun=dataset.evalsetrun,
-                        dataset=dataset,
-                        jsonl_thread_id=thread_id,
-                        eval_run_thread_id=str(thread_id)
-                        + "_"
-                        + str(thread_eval_run_id),
-                    )
+                    thread_json = json.loads(thread)
+                    # extract any metadata
+                    thread_metadata = thread_json.copy()
+                    del thread_metadata["input"]
-                    # Context
                     context = []
-                    thread_input = json.loads(thread)["input"]
+                    thread_input = thread_json["input"]
                     # Get system prompt used in the thread - assuming only 1
                     for message in thread_input:
@@ -78,15 +73,35 @@ def load_jsonl(
                         # Add the system prompt as context
                         context.append({"role": "system", "content": system_prompt})
+                    thread_object: Thread = Thread.create(
+                        evalsetrun=dataset.evalsetrun,
+                        dataset=dataset,
+                        jsonl_thread_id=thread_id,
+                        eval_run_thread_id=str(thread_id)
+                        + "_"
+                        + str(thread_eval_run_id),
+                        system_prompt=system_prompt,
+                        metadata=json.dumps(thread_metadata),
+                    )
                     # Create messages
                     index_in_thread = 0
                     for message in thread_input:
+                        if not isinstance(message, dict):
+                            raise ValueError(
+                                f"Can't load unknown object type; expected dict. Check JSONL format: {message}"
+                            )
                         role = message.get("role", None)
                         if role != "system":
                             # System message shouldn't be added as a separate message
                             system_prompt_for_this_message = ""
                             if role != "user":
                                 system_prompt_for_this_message = system_prompt
+                            message_metadata = message.copy()
+                            if "content" in message_metadata:
+                                del message_metadata["content"]
+                            if "role" in message_metadata:
+                                del message_metadata["role"]
                             Message.create(
                                 evalsetrun=dataset.evalsetrun,
                                 dataset=dataset,
@@ -95,9 +110,9 @@ def load_jsonl(
                                 role=role,
                                 content=message.get("content", None),
                                 context=json.dumps(context),
-                                metadata=message.get("metadata", None),
                                 is_flexeval_completion=False,
                                 system_prompt=system_prompt_for_this_message,
+                                metadata=json.dumps(message_metadata),
                             )
                             # Update context
                             context.append(

{python_flexeval-0.2.0.dist-info → python_flexeval-0.3.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: python-flexeval
-Version: 0.2.0
+Version: 0.3.0
 Summary: FlexEval is a tool for designing custom metrics, completion functions, and LLM-graded rubrics for evaluating the behavior of LLM-powered systems.
 Project-URL: Homepage, https://digitalharborfoundation.github.io/FlexEval/
 Project-URL: GitHub, https://github.com/DigitalHarborFoundation/FlexEval

{python_flexeval-0.2.0.dist-info → python_flexeval-0.3.0.dist-info}/RECORD RENAMED Viewed

@@ -1,11 +1,11 @@
-flexeval/__about__.py,sha256=Zn1KFblwuFHiDRdRAiRnDBRkbPttWh44jKa5zG2ov0E,22
+flexeval/__about__.py,sha256=VrXpHDu3erkzwl_WXrqINBm9xWkcyUy53IQOj042dOs,22
 flexeval/__init__.py,sha256=UXI_xdSxnGAK2plDODBbPF3df-N7E9YJ418QHK7XN-Q,391
 flexeval/__main__.py,sha256=c9NQqsea3e-_6b736gBeIO3O_zdXQ1wtY3-Scj5NiPg,126
 flexeval/cli.py,sha256=RwtRk121OivbLQyYpYxJ7PugPIYQ8J4qXHFN2SxxPy4,2985
 flexeval/completions.py,sha256=pi_tYK4m3vKSqAC1ym9Jc3e4srcQSXfx-mX4qI5qisQ,5686
 flexeval/compute_metrics.py,sha256=4X6XFk0qUKcaCDllNeJreuhlnDHmfRPlsf0f8fWFOxA,37277
 flexeval/config.yaml,sha256=dpkFdW0rKf7StGoVeIGaCNw0n0yOfYWig0xmIfsDdbg,530
-flexeval/data_loader.py,sha256=EKc6wdpQuhrB2ai2U_fQxojzt1RR716ELisiZXpfu58,25311
+flexeval/data_loader.py,sha256=UP-HWqh5o_euqT2GvTbUYmA-yJcbTKtmug4w63w2CbA,26153
 flexeval/db_utils.py,sha256=2jgqexLCAqShvgPrImZz12UkMZtfERhP8iXjratXYok,1612
 flexeval/dependency_graph.py,sha256=SaG9gjkw2Q0NykqQWs4JzPkv5sMj2aXXmhjJ7yRkV4Q,10539
 flexeval/eval_schema.json,sha256=BQetj8O0_4rorj3Mpqk-sj_SCaRkGMrvBUcxhuw6zLE,13111
@@ -20,9 +20,10 @@ flexeval/classes/base.py,sha256=xxkTa8joPe39CFwveeTPW56LW-x7rsi5oBAIxrvM5iI,944
 flexeval/classes/dataset.py,sha256=Y_EdEIuhx526SSvkqk2tFBzkOgBkVY-5FeraYMtU5lo,2913
 flexeval/classes/eval_runner.py,sha256=ZvCpyaD7lorDK_mYJSZqQbvI6FfLbIWRFHNarWTAMQU,6270
 flexeval/classes/eval_set_run.py,sha256=fq_wBOaxuq7dLxiZIw76WGIwhRBNbQWDUhpiK0wDG_A,1116
-flexeval/classes/message.py,sha256=zuDm_v1gmK49Fw5m-HTWiqndrI_xtLotlXD8nhRDDTg,7518
+flexeval/classes/jsonview.py,sha256=3XJTh46ODfqdNbrXYDEV6kRO8KbeiHJo5pb4aJrbHRY,3459
+flexeval/classes/message.py,sha256=gDejDfaHGQKgS_CpJqjPAVzpiRD2JddKo17Yi1wVeiw,7676
 flexeval/classes/metric.py,sha256=d8l39_QwnQDmTJvy9TIulU4p0jqD7ldMUi4m5zfK2Es,2806
-flexeval/classes/thread.py,sha256=LchsK9mmrY4K-zSTMAAmywlzPVwnpZ7rOHqBGPIlda8,2779
+flexeval/classes/thread.py,sha256=cFQu3Mwzk8-Def8xccB8F6zKv64Srvhz5n83yLELvKo,2922
 flexeval/classes/tool_call.py,sha256=CteT2Hajor0PlHEEn7apfZux5_mremSIDrQmZ0iB7K0,1748
 flexeval/classes/turn.py,sha256=kLmgnYQ-4a8sydzGK1HTQRyUDXZIedmt_NFR3shLJFE,8635
 flexeval/configuration/__init__.py,sha256=wP_gpYyaEp5DxCSH8-4KHchH07JMZZOk8eCFMfd5LBw,75
@@ -41,8 +42,8 @@ flexeval/schema/eval_schema.py,sha256=iHMbanW4Ef_sp51KiaZKeP3Dn4Z6pWCGa7N2SPvsFK
 flexeval/schema/evalrun_schema.py,sha256=M7JY01DhlLzwZc2jJTIeGPs9vt6TFMPir51MFhtRllA,3526
 flexeval/schema/rubric_schema.py,sha256=uxcf7MHWKW3EmABUnWeCinGUP6LBjskiq7zkEPHmAvU,1615
 flexeval/schema/schema_utils.py,sha256=Fg1foqRA-9X-hl_vqIF3bpYdE51hNEgdw739Q-s3iQc,698
-python_flexeval-0.2.0.dist-info/METADATA,sha256=bEifn06Ok5-8YllS4uYxBN2KNuZvf7vJg8b_GarkttU,5599
-python_flexeval-0.2.0.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-python_flexeval-0.2.0.dist-info/entry_points.txt,sha256=wSyluqXhrX3xySVYAtM-Kv23p4OauKQCSBuNNfzEGtI,52
-python_flexeval-0.2.0.dist-info/licenses/LICENSE,sha256=OlAu_c13gw6-fJ9UdhZBMeNr5STLrnWG_0Hv0SCXtu4,1082
-python_flexeval-0.2.0.dist-info/RECORD,,
+python_flexeval-0.3.0.dist-info/METADATA,sha256=xBbeZrF4aEdl94pg-L2P_Di6cxtxA3aZnu6fxFjUf-8,5599
+python_flexeval-0.3.0.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+python_flexeval-0.3.0.dist-info/entry_points.txt,sha256=wSyluqXhrX3xySVYAtM-Kv23p4OauKQCSBuNNfzEGtI,52
+python_flexeval-0.3.0.dist-info/licenses/LICENSE,sha256=OlAu_c13gw6-fJ9UdhZBMeNr5STLrnWG_0Hv0SCXtu4,1082
+python_flexeval-0.3.0.dist-info/RECORD,,

{python_flexeval-0.2.0.dist-info → python_flexeval-0.3.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{python_flexeval-0.2.0.dist-info → python_flexeval-0.3.0.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{python_flexeval-0.2.0.dist-info → python_flexeval-0.3.0.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

python-flexeval 0.2.0__py3-none-any.whl → 0.3.0__py3-none-any.whl

python-flexeval 0.2.0py3-none-any.whl → 0.3.0py3-none-any.whl