PyPI - judgeval - Versions diffs - 0.0.37__py3-none-any.whl → 0.0.39__py3-none-any.whl - Mend

judgeval 0.0.37py3-none-any.whl → 0.0.39py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

judgeval/common/tracer.py +132 -281
judgeval/common/utils.py +1 -1
judgeval/constants.py +2 -3
judgeval/data/__init__.py +0 -2
judgeval/data/datasets/dataset.py +2 -9
judgeval/data/datasets/eval_dataset_client.py +1 -62
judgeval/data/example.py +7 -7
judgeval/data/result.py +3 -3
judgeval/data/tool.py +19 -0
judgeval/data/trace.py +5 -1
judgeval/data/{sequence_run.py → trace_run.py} +4 -4
judgeval/evaluation_run.py +1 -1
judgeval/integrations/langgraph.py +187 -1768
judgeval/judges/litellm_judge.py +1 -1
judgeval/judges/mixture_of_judges.py +1 -1
judgeval/judges/utils.py +1 -1
judgeval/judgment_client.py +21 -25
judgeval/run_evaluation.py +381 -107
judgeval/scorers/judgeval_scorers/api_scorers/tool_order.py +4 -2
judgeval-0.0.39.dist-info/METADATA +247 -0
{judgeval-0.0.37.dist-info → judgeval-0.0.39.dist-info}/RECORD +23 -23
judgeval/data/sequence.py +0 -50
judgeval-0.0.37.dist-info/METADATA +0 -214
{judgeval-0.0.37.dist-info → judgeval-0.0.39.dist-info}/WHEEL +0 -0
{judgeval-0.0.37.dist-info → judgeval-0.0.39.dist-info}/licenses/LICENSE.md +0 -0

judgeval/judges/litellm_judge.py CHANGED Viewed

@@ -12,7 +12,7 @@ BASE_CONVERSATION = [
 class LiteLLMJudge(JudgevalJudge):
-    def __init__(self, model: str = "gpt-4o-mini", **kwargs):
+    def __init__(self, model: str = "gpt-4.1-mini", **kwargs):
         debug(f"Initializing LiteLLMJudge with model={model}")
         self.model = model
         self.kwargs = kwargs

judgeval/judges/mixture_of_judges.py CHANGED Viewed

@@ -136,7 +136,7 @@ class MixtureOfJudges(JudgevalJudge):
     """
     def __init__(self,
                  models: List[str] = ['QWEN', 'LLAMA3_70B_INSTRUCT_TURBO', 'MISTRAL_8x22B_INSTRUCT'],
-                 aggregator: str = 'gpt-4o',
+                 aggregator: str = 'gpt-4.1',
                  **kwargs):
         """
         `models` are the individual judge models to be used for generating responses.

judgeval/judges/utils.py CHANGED Viewed

@@ -23,7 +23,7 @@ def create_judge(
     If no model is provided, uses GPT4o as the default judge.
     """
     if model is None:  # default option
-        return LiteLLMJudge(model="gpt-4o"), True
+        return LiteLLMJudge(model="gpt-4.1"), True
     if not isinstance(model, (str, list, JudgevalJudge)):
         raise InvalidJudgeModelError(f"Model must be a string, list of strings, or a judgeval judge object. Got: {type(model)} instead.")
     # If model is already a valid judge type, return it and mark native

judgeval/judgment_client.py CHANGED Viewed

@@ -12,7 +12,7 @@ from judgeval.data import (
     ScoringResult,
     Example,
     CustomExample,
-    Sequence,
+    Trace,
 )
 from judgeval.scorers import (
     APIJudgmentScorer,
@@ -23,9 +23,9 @@ from judgeval.evaluation_run import EvaluationRun
 from judgeval.run_evaluation import (
     run_eval,
     assert_test,
-    run_sequence_eval
+    run_trace_eval
 )
-from judgeval.data.sequence_run import SequenceRun
+from judgeval.data.trace_run import TraceRun
 from judgeval.judges import JudgevalJudge
 from judgeval.constants import (
     JUDGMENT_EVAL_FETCH_API_URL,
@@ -105,16 +105,16 @@ class JudgmentClient(metaclass=SingletonMeta):
             rules=rules
         )
-    def run_sequence_evaluation(
+    def run_trace_evaluation(
         self,
         scorers: List[Union[APIJudgmentScorer, JudgevalScorer]],
         model: Optional[Union[str, List[str], JudgevalJudge]] = "gpt-4.1",
-        sequences: Optional[List[Sequence]] = None,
+        traces: Optional[List[Trace]] = None,
         examples: Optional[List[Example]] = None,
         test_file: Optional[str] = None,
         aggregator: Optional[str] = None,
         project_name: str = "default_project",
-        eval_run_name: str = "default_eval_sequence",
+        eval_run_name: str = "default_eval_trace",
         log_results: bool = True,
         append: bool = False,
         override: bool = False,
@@ -134,16 +134,16 @@ class JudgmentClient(metaclass=SingletonMeta):
             if examples and not function:
                 raise ValueError("Cannot pass in examples without a function")
-            if sequences and function:
-                raise ValueError("Cannot pass in sequences and function")
+            if traces and function:
+                raise ValueError("Cannot pass in traces and function")
-            if examples and sequences:
-                raise ValueError("Cannot pass in both examples and sequences")
+            if examples and traces:
+                raise ValueError("Cannot pass in both examples and traces")
-            sequence_run = SequenceRun(
+            trace_run = TraceRun(
                 project_name=project_name,
                 eval_name=eval_run_name,
-                sequences=sequences,
+                traces=traces,
                 scorers=scorers,
                 model=model,
                 aggregator=aggregator,
@@ -152,9 +152,9 @@ class JudgmentClient(metaclass=SingletonMeta):
                 judgment_api_key=self.judgment_api_key,
                 organization_id=self.organization_id,
             )
-            return run_sequence_eval(sequence_run, override, ignore_errors, function, tracer, examples)
+            return run_trace_eval(trace_run, override, ignore_errors, function, tracer, examples)
         except ValueError as e:
-            raise ValueError(f"Please check your SequenceRun object, one or more fields are invalid: \n{str(e)}")
+            raise ValueError(f"Please check your TraceRun object, one or more fields are invalid: \n{str(e)}")
         except Exception as e:
             raise Exception(f"An unexpected error occurred during evaluation: {str(e)}")
@@ -245,12 +245,6 @@ class JudgmentClient(metaclass=SingletonMeta):
         """
         return self.eval_dataset_client.append_examples(alias, examples, project_name)
-    def append_sequence_dataset(self, alias: str, sequences: List[Sequence], project_name: str) -> bool:
-        """
-        Appends a `Sequence` to the Judgment platform for storage.
-        """
-        return self.eval_dataset_client.append_sequences(alias, sequences, project_name)
     def pull_dataset(self, alias: str, project_name: str) -> EvalDataset:
         """
         Retrieves a saved `EvalDataset` from the Judgment platform.
@@ -486,7 +480,7 @@ class JudgmentClient(metaclass=SingletonMeta):
         return response.json()["slug"]
-    def assert_test(
+    async def assert_test(
         self,
         scorers: List[Union[APIJudgmentScorer, JudgevalScorer]],
         examples: Optional[List[Example]] = None,
@@ -500,7 +494,8 @@ class JudgmentClient(metaclass=SingletonMeta):
         override: bool = False,
         rules: Optional[List[Rule]] = None,
         function: Optional[Callable] = None,
-        tracer: Optional[Union[Tracer, BaseCallbackHandler]] = None
+        tracer: Optional[Union[Tracer, BaseCallbackHandler]] = None,
+        async_execution: bool = False
     ) -> None:
         """
         Asserts a test by running the evaluation and checking the results for success
@@ -523,7 +518,7 @@ class JudgmentClient(metaclass=SingletonMeta):
             raise ValueError("Exactly one of 'examples' or 'test_file' must be provided, but not both")
         if function:
-            results = self.run_sequence_evaluation(
+            results = self.run_trace_evaluation(
                 examples=examples,
                 scorers=scorers,
                 model=model,
@@ -538,7 +533,7 @@ class JudgmentClient(metaclass=SingletonMeta):
                 test_file=test_file
             )
         else:
-            results = self.run_evaluation(
+            results = await self.run_evaluation(
                 examples=examples,
                 scorers=scorers,
                 model=model,
@@ -548,7 +543,8 @@ class JudgmentClient(metaclass=SingletonMeta):
                 project_name=project_name,
                 eval_run_name=eval_run_name,
                 override=override,
-                rules=rules
+                rules=rules,
+                async_execution=async_execution
             )
         assert_test(results)

judgeval 0.0.37__py3-none-any.whl → 0.0.39__py3-none-any.whl

judgeval 0.0.37py3-none-any.whl → 0.0.39py3-none-any.whl