PyPI - judgeval - Versions diffs - 0.3.0__tar.gz → 0.3.2__tar.gz - Mend

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: judgeval
-Version: 0.3.0
+Version: 0.3.2
 Summary: Judgeval Package
 Project-URL: Homepage, https://github.com/JudgmentLabs/judgeval
 Project-URL: Issues, https://github.com/JudgmentLabs/judgeval/issues

@@ -1,6 +1,6 @@
 [project]
 name = "judgeval"
-version = "0.3.0"
+version = "0.3.2"
 authors = [
     { name="Andrew Li", email="andrew@judgmentlabs.ai" },
     { name="Alex Shan", email="alex@judgmentlabs.ai" },

@@ -142,7 +142,7 @@ class DatasetStatsPayload(TypedDict):
 # Projects API
-JUDGMENT_PROJECT_DELETE_API_URL = f"{ROOT_API}/projects/delete_from_judgeval"
+JUDGMENT_PROJECT_DELETE_API_URL = f"{ROOT_API}/projects/delete_from_judgeval/"
 JUDGMENT_PROJECT_CREATE_API_URL = f"{ROOT_API}/projects/add/"

@@ -54,7 +54,6 @@ class TraceManagerClient:
         Returns:
             dict: Server response containing UI URL and other metadata
         """
-        server_response = self.api_client.upsert_trace(trace_data)
         if self.tracer and self.tracer.use_s3 and final_save:
             try:
@@ -67,6 +66,11 @@ class TraceManagerClient:
             except Exception as e:
                 judgeval_logger.warning(f"Failed to save trace to S3: {str(e)}")
+        trace_data.pop("trace_spans", None)
+        trace_data.pop("evaluation_runs", None)
+        server_response = self.api_client.upsert_trace(trace_data)
         if not offline_mode and show_link and "ui_results_url" in server_response:
             pretty_str = f"\n🔍 You can view your trace data here: [rgb(106,0,255)][link={server_response['ui_results_url']}]View Trace[/link]\n"
             rprint(pretty_str)

@@ -104,6 +104,8 @@ TOGETHER_SUPPORTED_MODELS = [
     "mistralai/Mistral-7B-Instruct-v0.1",
 ]
+DEFAULT_TOGETHER_MODEL = "meta-llama/Meta-Llama-3-8B-Instruct-Lite"
 JUDGMENT_SUPPORTED_MODELS = {"osiris-large", "osiris-mini", "osiris"}
 ACCEPTABLE_MODELS = (

@@ -1,6 +1,6 @@
 # generated by datamodel-codegen:
 #   filename:  openapi_new.json
-#   timestamp: 2025-07-26T00:14:40+00:00
+#   timestamp: 2025-07-29T18:13:07+00:00
 from __future__ import annotations
@@ -135,7 +135,6 @@ class TraceJudgmentType(BaseModel):
     created_at: Annotated[str, Field(title="Created At")]
     duration: Annotated[float, Field(title="Duration")]
     trace_spans: Annotated[List[TraceSpanJudgmentType], Field(title="Trace Spans")]
-    overwrite: Annotated[Optional[bool], Field(title="Overwrite")] = False
     offline_mode: Annotated[Optional[bool], Field(title="Offline Mode")] = False
     rules: Annotated[Optional[Dict[str, Any]], Field(title="Rules")] = Field(
         default_factory=dict

@@ -11,6 +11,7 @@ from judgeval.common.utils import (
     afetch_together_api_response,
 )
 from judgeval.common.logger import judgeval_logger
+from judgeval.constants import DEFAULT_TOGETHER_MODEL
 BASE_CONVERSATION = [
     {"role": "system", "content": "You are a helpful assistant."},
@@ -18,7 +19,7 @@ BASE_CONVERSATION = [
 class TogetherJudge(JudgevalJudge):
-    def __init__(self, model: str = "Qwen/Qwen2.5-72B-Instruct-Turbo", **kwargs):
+    def __init__(self, model: str = DEFAULT_TOGETHER_MODEL, **kwargs):
         self.model = model
         self.kwargs = kwargs
         super().__init__(model_name=model)

@@ -414,7 +414,7 @@ def _poll_evaluation_until_complete(
     expected_scorer_data_count: int,
     poll_interval_seconds: float = 5,
     max_failures: int = 5,
-    max_poll_count: int = 24,  # This should be equivalent to 120 seconds
+    max_poll_count: int = 60,  # This should be equivalent to 5 minutes
 ) -> Tuple[List[ScoringResult], str]:
     """
     Polls until the evaluation is complete and returns the results.

judgeval 0.3.0__tar.gz → 0.3.2__tar.gz