PyPI - judgeval - Versions diffs - 0.16.9__tar.gz → 0.18.0__tar.gz - Mend

judgeval 0.16.9tar.gz → 0.18.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of judgeval might be problematic. Click here for more details.

Files changed (168) hide show

{judgeval-0.16.9 → judgeval-0.18.0}/.github/workflows/ci.yaml RENAMED Viewed

@@ -51,7 +51,7 @@ jobs:
           cd src
           export JUDGMENT_API_KEY="$JUDGEVAL_GH_JUDGMENT_API_KEY"
           export JUDGMENT_ORG_ID="$JUDGEVAL_GH_JUDGMENT_ORG_ID"
-          uv run pytest tests -n auto
+          uv run pytest tests/tracer/llm -n auto
   run-e2e-tests:
     needs: [validate-branch]

{judgeval-0.16.9 → judgeval-0.18.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: judgeval
-Version: 0.16.9
+Version: 0.18.0
 Summary: Judgeval Package
 Project-URL: Homepage, https://github.com/JudgmentLabs/judgeval
 Project-URL: Issues, https://github.com/JudgmentLabs/judgeval/issues
@@ -63,8 +63,7 @@ Judgeval's agent monitoring infra provides a simple harness for integrating GRPO
 await trainer.train(
     agent_function=your_agent_function,  # entry point to your agent
     scorers=[RewardScorer()],  # Custom scorer you define based on task criteria, acts as reward
-    prompts=training_prompts,  # Tasks
-    rft_provider="fireworks"
+    prompts=training_prompts  # Tasks
 )
 ```

{judgeval-0.16.9 → judgeval-0.18.0}/README.md RENAMED Viewed

@@ -36,8 +36,7 @@ Judgeval's agent monitoring infra provides a simple harness for integrating GRPO
 await trainer.train(
     agent_function=your_agent_function,  # entry point to your agent
     scorers=[RewardScorer()],  # Custom scorer you define based on task criteria, acts as reward
-    prompts=training_prompts,  # Tasks
-    rft_provider="fireworks"
+    prompts=training_prompts  # Tasks
 )
 ```

{judgeval-0.16.9 → judgeval-0.18.0}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "judgeval"
-version = "0.16.9"
+version = "0.18.0"
 authors = [
     { name = "Andrew Li", email = "andrew@judgmentlabs.ai" },
     { name = "Alex Shan", email = "alex@judgmentlabs.ai" },

{judgeval-0.16.9 → judgeval-0.18.0}/scripts/api_generator.py RENAMED Viewed

@@ -43,6 +43,11 @@ JUDGEVAL_PATHS: List[str] = [
     "/e2e_fetch_trace/",
     "/e2e_fetch_span_score/",
     "/e2e_fetch_trace_scorer_span_score/",
+    "/prompts/insert/",
+    "/prompts/fetch/",
+    "/prompts/tag/",
+    "/prompts/untag/",
+    "/prompts/get_prompt_versions/",
 ]

{judgeval-0.16.9 → judgeval-0.18.0}/scripts/openapi_transform.py RENAMED Viewed

@@ -41,6 +41,11 @@ JUDGEVAL_PATHS: List[str] = [
     "/projects/resolve/",
     "/e2e_fetch_trace/",
     "/e2e_fetch_span_score/",
+    "/prompts/insert/",
+    "/prompts/fetch/",
+    "/prompts/tag/",
+    "/prompts/untag/",
+    "/prompts/get_prompt_versions/",
 ]

{judgeval-0.16.9 → judgeval-0.18.0}/src/judgeval/__init__.py RENAMED Viewed

@@ -6,6 +6,7 @@ from judgeval.data.evaluation_run import ExampleEvaluationRun
 from typing import List, Optional, Union, Sequence
+import ast
 from judgeval.scorers import ExampleAPIScorerConfig
 from judgeval.scorers.example_scorer import ExampleScorer
 from judgeval.data.example import Example
@@ -81,6 +82,7 @@ class JudgmentClient(metaclass=SingletonMeta):
         scorer_file_path: str,
         requirements_file_path: Optional[str] = None,
         unique_name: Optional[str] = None,
+        overwrite: bool = False,
     ) -> bool:
         """
         Upload custom ExampleScorer from files to backend.
@@ -89,6 +91,7 @@ class JudgmentClient(metaclass=SingletonMeta):
             scorer_file_path: Path to Python file containing CustomScorer class
             requirements_file_path: Optional path to requirements.txt
             unique_name: Optional unique identifier (auto-detected from scorer.name if not provided)
+            overwrite: Whether to overwrite existing scorer if it already exists
         Returns:
             bool: True if upload successful
@@ -111,6 +114,31 @@ class JudgmentClient(metaclass=SingletonMeta):
         with open(scorer_file_path, "r") as f:
             scorer_code = f.read()
+        try:
+            tree = ast.parse(scorer_code, filename=scorer_file_path)
+        except SyntaxError as e:
+            error_msg = f"Invalid Python syntax in {scorer_file_path}: {e}"
+            judgeval_logger.error(error_msg)
+            raise ValueError(error_msg)
+        scorer_classes = []
+        for node in ast.walk(tree):
+            if isinstance(node, ast.ClassDef):
+                for base in node.bases:
+                    if (isinstance(base, ast.Name) and base.id == "ExampleScorer") or (
+                        isinstance(base, ast.Attribute) and base.attr == "ExampleScorer"
+                    ):
+                        scorer_classes.append(node.name)
+        if len(scorer_classes) > 1:
+            error_msg = f"Multiple ExampleScorer classes found in {scorer_file_path}: {scorer_classes}. Please only upload one scorer class per file."
+            judgeval_logger.error(error_msg)
+            raise ValueError(error_msg)
+        elif len(scorer_classes) == 0:
+            error_msg = f"No ExampleScorer class was found in {scorer_file_path}. Please ensure the file contains a valid scorer class that inherits from ExampleScorer."
+            judgeval_logger.error(error_msg)
+            raise ValueError(error_msg)
         # Read requirements (optional)
         requirements_text = ""
         if requirements_file_path and os.path.exists(requirements_file_path):
@@ -127,6 +155,7 @@ class JudgmentClient(metaclass=SingletonMeta):
                     "scorer_name": unique_name,
                     "scorer_code": scorer_code,
                     "requirements_text": requirements_text,
+                    "overwrite": overwrite,
                 }
             )

{judgeval-0.16.9 → judgeval-0.18.0}/src/judgeval/api/__init__.py RENAMED Viewed

@@ -189,6 +189,59 @@ class JudgmentSyncClient:
             payload,
         )
+    def prompts_insert(self, payload: PromptInsertRequest) -> PromptInsertResponse:
+        return self._request(
+            "POST",
+            url_for("/prompts/insert/"),
+            payload,
+        )
+    def prompts_tag(self, payload: PromptTagRequest) -> PromptTagResponse:
+        return self._request(
+            "POST",
+            url_for("/prompts/tag/"),
+            payload,
+        )
+    def prompts_untag(self, payload: PromptUntagRequest) -> PromptUntagResponse:
+        return self._request(
+            "POST",
+            url_for("/prompts/untag/"),
+            payload,
+        )
+    def prompts_fetch(
+        self,
+        project_id: str,
+        name: str,
+        commit_id: Optional[str] = None,
+        tag: Optional[str] = None,
+    ) -> PromptFetchResponse:
+        query_params = {}
+        query_params["project_id"] = project_id
+        query_params["name"] = name
+        if commit_id is not None:
+            query_params["commit_id"] = commit_id
+        if tag is not None:
+            query_params["tag"] = tag
+        return self._request(
+            "GET",
+            url_for("/prompts/fetch/"),
+            query_params,
+        )
+    def prompts_get_prompt_versions(
+        self, project_id: str, name: str
+    ) -> PromptVersionsResponse:
+        query_params = {}
+        query_params["project_id"] = project_id
+        query_params["name"] = name
+        return self._request(
+            "GET",
+            url_for("/prompts/get_prompt_versions/"),
+            query_params,
+        )
     def projects_resolve(
         self, payload: ResolveProjectNameRequest
     ) -> ResolveProjectNameResponse:
@@ -381,6 +434,61 @@ class JudgmentAsyncClient:
             payload,
         )
+    async def prompts_insert(
+        self, payload: PromptInsertRequest
+    ) -> PromptInsertResponse:
+        return await self._request(
+            "POST",
+            url_for("/prompts/insert/"),
+            payload,
+        )
+    async def prompts_tag(self, payload: PromptTagRequest) -> PromptTagResponse:
+        return await self._request(
+            "POST",
+            url_for("/prompts/tag/"),
+            payload,
+        )
+    async def prompts_untag(self, payload: PromptUntagRequest) -> PromptUntagResponse:
+        return await self._request(
+            "POST",
+            url_for("/prompts/untag/"),
+            payload,
+        )
+    async def prompts_fetch(
+        self,
+        project_id: str,
+        name: str,
+        commit_id: Optional[str] = None,
+        tag: Optional[str] = None,
+    ) -> PromptFetchResponse:
+        query_params = {}
+        query_params["project_id"] = project_id
+        query_params["name"] = name
+        if commit_id is not None:
+            query_params["commit_id"] = commit_id
+        if tag is not None:
+            query_params["tag"] = tag
+        return await self._request(
+            "GET",
+            url_for("/prompts/fetch/"),
+            query_params,
+        )
+    async def prompts_get_prompt_versions(
+        self, project_id: str, name: str
+    ) -> PromptVersionsResponse:
+        query_params = {}
+        query_params["project_id"] = project_id
+        query_params["name"] = name
+        return await self._request(
+            "GET",
+            url_for("/prompts/get_prompt_versions/"),
+            query_params,
+        )
     async def projects_resolve(
         self, payload: ResolveProjectNameRequest
     ) -> ResolveProjectNameResponse:

{judgeval-0.16.9 → judgeval-0.18.0}/src/judgeval/api/api_types.py RENAMED Viewed

@@ -1,6 +1,6 @@
 # generated by datamodel-codegen:
 #   filename:  .openapi.json
-#   timestamp: 2025-10-15T19:25:00+00:00
+#   timestamp: 2025-10-21T01:37:42+00:00
 from __future__ import annotations
 from typing import Any, Dict, List, Literal, Optional, TypedDict, Union
@@ -80,6 +80,7 @@ class CustomScorerUploadPayload(TypedDict):
     scorer_name: str
     scorer_code: str
     requirements_text: str
+    overwrite: NotRequired[bool]
 class CustomScorerTemplateResponse(TypedDict):
@@ -88,6 +89,40 @@ class CustomScorerTemplateResponse(TypedDict):
     message: str
+class PromptInsertRequest(TypedDict):
+    project_id: str
+    name: str
+    prompt: str
+    tags: List[str]
+class PromptInsertResponse(TypedDict):
+    commit_id: str
+    parent_commit_id: NotRequired[Optional[str]]
+    created_at: str
+class PromptTagRequest(TypedDict):
+    project_id: str
+    name: str
+    commit_id: str
+    tags: List[str]
+class PromptTagResponse(TypedDict):
+    commit_id: str
+class PromptUntagRequest(TypedDict):
+    project_id: str
+    name: str
+    tags: List[str]
+class PromptUntagResponse(TypedDict):
+    commit_ids: List[str]
 class ResolveProjectNameRequest(TypedDict):
     project_name: str
@@ -169,6 +204,18 @@ class PromptScorer(TypedDict):
     is_trace: NotRequired[Optional[bool]]
+class PromptCommitInfo(TypedDict):
+    name: str
+    prompt: str
+    tags: List[str]
+    commit_id: str
+    parent_commit_id: NotRequired[Optional[str]]
+    created_at: str
+    first_name: str
+    last_name: str
+    user_email: str
 class ScorerData(TypedDict):
     id: NotRequired[str]
     name: str
@@ -265,6 +312,14 @@ class FetchPromptScorersResponse(TypedDict):
     scorers: List[PromptScorer]
+class PromptFetchResponse(TypedDict):
+    commit: NotRequired[Optional[PromptCommitInfo]]
+class PromptVersionsResponse(TypedDict):
+    versions: List[PromptCommitInfo]
 class ScoringResult(TypedDict):
     success: bool
     scorers_data: List[ScorerData]

{judgeval-0.16.9 → judgeval-0.18.0}/src/judgeval/cli.py RENAMED Viewed

@@ -26,6 +26,12 @@ def upload_scorer(
     unique_name: str = typer.Option(
         None, help="Custom name for the scorer (auto-detected if not provided)"
     ),
+    overwrite: bool = typer.Option(
+        False,
+        "--overwrite",
+        "-o",
+        help="Overwrite existing scorer if it already exists",
+    ),
 ):
     # Validate file paths
     if not Path(scorer_file_path).exists():
@@ -43,6 +49,7 @@ def upload_scorer(
             scorer_file_path=scorer_file_path,
             requirements_file_path=requirements_file_path,
             unique_name=unique_name,
+            overwrite=overwrite,
         )
         if not result:

{judgeval-0.16.9 → judgeval-0.18.0}/src/judgeval/data/judgment_types.py RENAMED Viewed

@@ -1,6 +1,6 @@
 # generated by datamodel-codegen:
 #   filename:  .openapi.json
-#   timestamp: 2025-10-15T19:24:59+00:00
+#   timestamp: 2025-10-21T01:37:41+00:00
 from __future__ import annotations
 from typing import Annotated, Any, Dict, List, Optional, Union
@@ -87,6 +87,7 @@ class CustomScorerUploadPayload(BaseModel):
     scorer_name: Annotated[str, Field(title="Scorer Name")]
     scorer_code: Annotated[str, Field(title="Scorer Code")]
     requirements_text: Annotated[str, Field(title="Requirements Text")]
+    overwrite: Annotated[Optional[bool], Field(title="Overwrite")] = False
 class CustomScorerTemplateResponse(BaseModel):
@@ -95,6 +96,40 @@ class CustomScorerTemplateResponse(BaseModel):
     message: Annotated[str, Field(title="Message")]
+class PromptInsertRequest(BaseModel):
+    project_id: Annotated[str, Field(title="Project Id")]
+    name: Annotated[str, Field(title="Name")]
+    prompt: Annotated[str, Field(title="Prompt")]
+    tags: Annotated[List[str], Field(title="Tags")]
+class PromptInsertResponse(BaseModel):
+    commit_id: Annotated[str, Field(title="Commit Id")]
+    parent_commit_id: Annotated[Optional[str], Field(title="Parent Commit Id")] = None
+    created_at: Annotated[str, Field(title="Created At")]
+class PromptTagRequest(BaseModel):
+    project_id: Annotated[str, Field(title="Project Id")]
+    name: Annotated[str, Field(title="Name")]
+    commit_id: Annotated[str, Field(title="Commit Id")]
+    tags: Annotated[List[str], Field(title="Tags")]
+class PromptTagResponse(BaseModel):
+    commit_id: Annotated[str, Field(title="Commit Id")]
+class PromptUntagRequest(BaseModel):
+    project_id: Annotated[str, Field(title="Project Id")]
+    name: Annotated[str, Field(title="Name")]
+    tags: Annotated[List[str], Field(title="Tags")]
+class PromptUntagResponse(BaseModel):
+    commit_ids: Annotated[List[str], Field(title="Commit Ids")]
 class ResolveProjectNameRequest(BaseModel):
     project_name: Annotated[str, Field(title="Project Name")]
@@ -187,6 +222,18 @@ class PromptScorer(BaseModel):
     is_trace: Annotated[Optional[bool], Field(title="Is Trace")] = False
+class PromptCommitInfo(BaseModel):
+    name: Annotated[str, Field(title="Name")]
+    prompt: Annotated[str, Field(title="Prompt")]
+    tags: Annotated[List[str], Field(title="Tags")]
+    commit_id: Annotated[str, Field(title="Commit Id")]
+    parent_commit_id: Annotated[Optional[str], Field(title="Parent Commit Id")] = None
+    created_at: Annotated[str, Field(title="Created At")]
+    first_name: Annotated[str, Field(title="First Name")]
+    last_name: Annotated[str, Field(title="Last Name")]
+    user_email: Annotated[str, Field(title="User Email")]
 class ScorerData(BaseModel):
     id: Annotated[Optional[str], Field(title="Id")] = None
     name: Annotated[str, Field(title="Name")]
@@ -299,6 +346,14 @@ class FetchPromptScorersResponse(BaseModel):
     scorers: Annotated[List[PromptScorer], Field(title="Scorers")]
+class PromptFetchResponse(BaseModel):
+    commit: Optional[PromptCommitInfo] = None
+class PromptVersionsResponse(BaseModel):
+    versions: Annotated[List[PromptCommitInfo], Field(title="Versions")]
 class ScoringResult(BaseModel):
     success: Annotated[bool, Field(title="Success")]
     scorers_data: Annotated[List[ScorerData], Field(title="Scorers Data")]

judgeval 0.16.9__tar.gz → 0.18.0__tar.gz

Potentially problematic release.

judgeval 0.16.9tar.gz → 0.18.0tar.gz