PyPI - judgeval - Versions diffs - 0.1.0__py3-none-any.whl → 0.23.0__py3-none-any.whl - Mend

judgeval 0.1.0py3-none-any.whl → 0.23.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (234) hide show

judgeval/__init__.py +173 -10
judgeval/api/__init__.py +523 -0
judgeval/api/api_types.py +413 -0
judgeval/cli.py +112 -0
judgeval/constants.py +7 -30
judgeval/data/__init__.py +1 -3
judgeval/data/evaluation_run.py +125 -0
judgeval/data/example.py +14 -40
judgeval/data/judgment_types.py +396 -146
judgeval/data/result.py +11 -18
judgeval/data/scorer_data.py +3 -26
judgeval/data/scripts/openapi_transform.py +5 -5
judgeval/data/trace.py +115 -194
judgeval/dataset/__init__.py +335 -0
judgeval/env.py +55 -0
judgeval/evaluation/__init__.py +346 -0
judgeval/exceptions.py +28 -0
judgeval/integrations/langgraph/__init__.py +13 -0
judgeval/integrations/openlit/__init__.py +51 -0
judgeval/judges/__init__.py +2 -2
judgeval/judges/litellm_judge.py +77 -16
judgeval/judges/together_judge.py +88 -17
judgeval/judges/utils.py +7 -20
judgeval/judgment_attribute_keys.py +55 -0
judgeval/{common/logger.py → logger.py} +24 -8
judgeval/prompt/__init__.py +330 -0
judgeval/scorers/__init__.py +11 -11
judgeval/scorers/agent_scorer.py +15 -19
judgeval/scorers/api_scorer.py +21 -23
judgeval/scorers/base_scorer.py +54 -36
judgeval/scorers/example_scorer.py +1 -3
judgeval/scorers/judgeval_scorers/api_scorers/__init__.py +2 -24
judgeval/scorers/judgeval_scorers/api_scorers/answer_correctness.py +2 -10
judgeval/scorers/judgeval_scorers/api_scorers/answer_relevancy.py +2 -2
judgeval/scorers/judgeval_scorers/api_scorers/faithfulness.py +2 -10
judgeval/scorers/judgeval_scorers/api_scorers/instruction_adherence.py +2 -14
judgeval/scorers/judgeval_scorers/api_scorers/prompt_scorer.py +171 -59
judgeval/scorers/score.py +64 -47
judgeval/scorers/utils.py +2 -107
judgeval/tracer/__init__.py +1111 -2
judgeval/tracer/constants.py +1 -0
judgeval/tracer/exporters/__init__.py +40 -0
judgeval/tracer/exporters/s3.py +119 -0
judgeval/tracer/exporters/store.py +59 -0
judgeval/tracer/exporters/utils.py +32 -0
judgeval/tracer/keys.py +63 -0
judgeval/tracer/llm/__init__.py +7 -0
judgeval/tracer/llm/config.py +78 -0
judgeval/tracer/llm/constants.py +9 -0
judgeval/tracer/llm/llm_anthropic/__init__.py +3 -0
judgeval/tracer/llm/llm_anthropic/config.py +6 -0
judgeval/tracer/llm/llm_anthropic/messages.py +452 -0
judgeval/tracer/llm/llm_anthropic/messages_stream.py +322 -0
judgeval/tracer/llm/llm_anthropic/wrapper.py +59 -0
judgeval/tracer/llm/llm_google/__init__.py +3 -0
judgeval/tracer/llm/llm_google/config.py +6 -0
judgeval/tracer/llm/llm_google/generate_content.py +127 -0
judgeval/tracer/llm/llm_google/wrapper.py +30 -0
judgeval/tracer/llm/llm_openai/__init__.py +3 -0
judgeval/tracer/llm/llm_openai/beta_chat_completions.py +216 -0
judgeval/tracer/llm/llm_openai/chat_completions.py +501 -0
judgeval/tracer/llm/llm_openai/config.py +6 -0
judgeval/tracer/llm/llm_openai/responses.py +506 -0
judgeval/tracer/llm/llm_openai/utils.py +42 -0
judgeval/tracer/llm/llm_openai/wrapper.py +63 -0
judgeval/tracer/llm/llm_together/__init__.py +3 -0
judgeval/tracer/llm/llm_together/chat_completions.py +406 -0
judgeval/tracer/llm/llm_together/config.py +6 -0
judgeval/tracer/llm/llm_together/wrapper.py +52 -0
judgeval/tracer/llm/providers.py +19 -0
judgeval/tracer/managers.py +167 -0
judgeval/tracer/processors/__init__.py +220 -0
judgeval/tracer/utils.py +19 -0
judgeval/trainer/__init__.py +14 -0
judgeval/trainer/base_trainer.py +122 -0
judgeval/trainer/config.py +123 -0
judgeval/trainer/console.py +144 -0
judgeval/trainer/fireworks_trainer.py +392 -0
judgeval/trainer/trainable_model.py +252 -0
judgeval/trainer/trainer.py +70 -0
judgeval/utils/async_utils.py +39 -0
judgeval/utils/decorators/__init__.py +0 -0
judgeval/utils/decorators/dont_throw.py +37 -0
judgeval/utils/decorators/use_once.py +13 -0
judgeval/utils/file_utils.py +74 -28
judgeval/utils/guards.py +36 -0
judgeval/utils/meta.py +27 -0
judgeval/utils/project.py +15 -0
judgeval/utils/serialize.py +253 -0
judgeval/utils/testing.py +70 -0
judgeval/utils/url.py +10 -0
judgeval/{version_check.py → utils/version_check.py} +5 -3
judgeval/utils/wrappers/README.md +3 -0
judgeval/utils/wrappers/__init__.py +15 -0
judgeval/utils/wrappers/immutable_wrap_async.py +74 -0
judgeval/utils/wrappers/immutable_wrap_async_iterator.py +84 -0
judgeval/utils/wrappers/immutable_wrap_sync.py +66 -0
judgeval/utils/wrappers/immutable_wrap_sync_iterator.py +84 -0
judgeval/utils/wrappers/mutable_wrap_async.py +67 -0
judgeval/utils/wrappers/mutable_wrap_sync.py +67 -0
judgeval/utils/wrappers/py.typed +0 -0
judgeval/utils/wrappers/utils.py +35 -0
judgeval/v1/__init__.py +88 -0
judgeval/v1/data/__init__.py +7 -0
judgeval/v1/data/example.py +44 -0
judgeval/v1/data/scorer_data.py +42 -0
judgeval/v1/data/scoring_result.py +44 -0
judgeval/v1/datasets/__init__.py +6 -0
judgeval/v1/datasets/dataset.py +214 -0
judgeval/v1/datasets/dataset_factory.py +94 -0
judgeval/v1/evaluation/__init__.py +6 -0
judgeval/v1/evaluation/evaluation.py +182 -0
judgeval/v1/evaluation/evaluation_factory.py +17 -0
judgeval/v1/instrumentation/__init__.py +6 -0
judgeval/v1/instrumentation/llm/__init__.py +7 -0
judgeval/v1/instrumentation/llm/config.py +78 -0
judgeval/v1/instrumentation/llm/constants.py +11 -0
judgeval/v1/instrumentation/llm/llm_anthropic/__init__.py +5 -0
judgeval/v1/instrumentation/llm/llm_anthropic/config.py +6 -0
judgeval/v1/instrumentation/llm/llm_anthropic/messages.py +414 -0
judgeval/v1/instrumentation/llm/llm_anthropic/messages_stream.py +307 -0
judgeval/v1/instrumentation/llm/llm_anthropic/wrapper.py +61 -0
judgeval/v1/instrumentation/llm/llm_google/__init__.py +5 -0
judgeval/v1/instrumentation/llm/llm_google/config.py +6 -0
judgeval/v1/instrumentation/llm/llm_google/generate_content.py +121 -0
judgeval/v1/instrumentation/llm/llm_google/wrapper.py +30 -0
judgeval/v1/instrumentation/llm/llm_openai/__init__.py +5 -0
judgeval/v1/instrumentation/llm/llm_openai/beta_chat_completions.py +212 -0
judgeval/v1/instrumentation/llm/llm_openai/chat_completions.py +477 -0
judgeval/v1/instrumentation/llm/llm_openai/config.py +6 -0
judgeval/v1/instrumentation/llm/llm_openai/responses.py +472 -0
judgeval/v1/instrumentation/llm/llm_openai/utils.py +41 -0
judgeval/v1/instrumentation/llm/llm_openai/wrapper.py +63 -0
judgeval/v1/instrumentation/llm/llm_together/__init__.py +5 -0
judgeval/v1/instrumentation/llm/llm_together/chat_completions.py +382 -0
judgeval/v1/instrumentation/llm/llm_together/config.py +6 -0
judgeval/v1/instrumentation/llm/llm_together/wrapper.py +57 -0
judgeval/v1/instrumentation/llm/providers.py +19 -0
judgeval/v1/integrations/claude_agent_sdk/__init__.py +119 -0
judgeval/v1/integrations/claude_agent_sdk/wrapper.py +564 -0
judgeval/v1/integrations/langgraph/__init__.py +13 -0
judgeval/v1/integrations/openlit/__init__.py +47 -0
judgeval/v1/internal/api/__init__.py +525 -0
judgeval/v1/internal/api/api_types.py +413 -0
judgeval/v1/prompts/__init__.py +6 -0
judgeval/v1/prompts/prompt.py +29 -0
judgeval/v1/prompts/prompt_factory.py +189 -0
judgeval/v1/py.typed +0 -0
judgeval/v1/scorers/__init__.py +6 -0
judgeval/v1/scorers/api_scorer.py +82 -0
judgeval/v1/scorers/base_scorer.py +17 -0
judgeval/v1/scorers/built_in/__init__.py +17 -0
judgeval/v1/scorers/built_in/answer_correctness.py +28 -0
judgeval/v1/scorers/built_in/answer_relevancy.py +28 -0
judgeval/v1/scorers/built_in/built_in_factory.py +26 -0
judgeval/v1/scorers/built_in/faithfulness.py +28 -0
judgeval/v1/scorers/built_in/instruction_adherence.py +28 -0
judgeval/v1/scorers/custom_scorer/__init__.py +6 -0
judgeval/v1/scorers/custom_scorer/custom_scorer.py +50 -0
judgeval/v1/scorers/custom_scorer/custom_scorer_factory.py +16 -0
judgeval/v1/scorers/prompt_scorer/__init__.py +6 -0
judgeval/v1/scorers/prompt_scorer/prompt_scorer.py +86 -0
judgeval/v1/scorers/prompt_scorer/prompt_scorer_factory.py +85 -0
judgeval/v1/scorers/scorers_factory.py +49 -0
judgeval/v1/tracer/__init__.py +7 -0
judgeval/v1/tracer/base_tracer.py +520 -0
judgeval/v1/tracer/exporters/__init__.py +14 -0
judgeval/v1/tracer/exporters/in_memory_span_exporter.py +25 -0
judgeval/v1/tracer/exporters/judgment_span_exporter.py +42 -0
judgeval/v1/tracer/exporters/noop_span_exporter.py +19 -0
judgeval/v1/tracer/exporters/span_store.py +50 -0
judgeval/v1/tracer/judgment_tracer_provider.py +70 -0
judgeval/v1/tracer/processors/__init__.py +6 -0
judgeval/v1/tracer/processors/_lifecycles/__init__.py +28 -0
judgeval/v1/tracer/processors/_lifecycles/agent_id_processor.py +53 -0
judgeval/v1/tracer/processors/_lifecycles/context_keys.py +11 -0
judgeval/v1/tracer/processors/_lifecycles/customer_id_processor.py +29 -0
judgeval/v1/tracer/processors/_lifecycles/registry.py +18 -0
judgeval/v1/tracer/processors/judgment_span_processor.py +165 -0
judgeval/v1/tracer/processors/noop_span_processor.py +42 -0
judgeval/v1/tracer/tracer.py +67 -0
judgeval/v1/tracer/tracer_factory.py +38 -0
judgeval/v1/trainers/__init__.py +5 -0
judgeval/v1/trainers/base_trainer.py +62 -0
judgeval/v1/trainers/config.py +123 -0
judgeval/v1/trainers/console.py +144 -0
judgeval/v1/trainers/fireworks_trainer.py +392 -0
judgeval/v1/trainers/trainable_model.py +252 -0
judgeval/v1/trainers/trainers_factory.py +37 -0
judgeval/v1/utils.py +18 -0
judgeval/version.py +5 -0
judgeval/warnings.py +4 -0
judgeval-0.23.0.dist-info/METADATA +266 -0
judgeval-0.23.0.dist-info/RECORD +201 -0
judgeval-0.23.0.dist-info/entry_points.txt +2 -0
judgeval/clients.py +0 -34
judgeval/common/__init__.py +0 -13
judgeval/common/api/__init__.py +0 -3
judgeval/common/api/api.py +0 -352
judgeval/common/api/constants.py +0 -165
judgeval/common/exceptions.py +0 -27
judgeval/common/storage/__init__.py +0 -6
judgeval/common/storage/s3_storage.py +0 -98
judgeval/common/tracer/__init__.py +0 -31
judgeval/common/tracer/constants.py +0 -22
judgeval/common/tracer/core.py +0 -1916
judgeval/common/tracer/otel_exporter.py +0 -108
judgeval/common/tracer/otel_span_processor.py +0 -234
judgeval/common/tracer/span_processor.py +0 -37
judgeval/common/tracer/span_transformer.py +0 -211
judgeval/common/tracer/trace_manager.py +0 -92
judgeval/common/utils.py +0 -940
judgeval/data/datasets/__init__.py +0 -4
judgeval/data/datasets/dataset.py +0 -341
judgeval/data/datasets/eval_dataset_client.py +0 -214
judgeval/data/tool.py +0 -5
judgeval/data/trace_run.py +0 -37
judgeval/evaluation_run.py +0 -75
judgeval/integrations/langgraph.py +0 -843
judgeval/judges/mixture_of_judges.py +0 -286
judgeval/judgment_client.py +0 -369
judgeval/rules.py +0 -521
judgeval/run_evaluation.py +0 -684
judgeval/scorers/judgeval_scorers/api_scorers/derailment_scorer.py +0 -14
judgeval/scorers/judgeval_scorers/api_scorers/execution_order.py +0 -52
judgeval/scorers/judgeval_scorers/api_scorers/hallucination.py +0 -28
judgeval/scorers/judgeval_scorers/api_scorers/tool_dependency.py +0 -20
judgeval/scorers/judgeval_scorers/api_scorers/tool_order.py +0 -27
judgeval/utils/alerts.py +0 -93
judgeval/utils/requests.py +0 -50
judgeval-0.1.0.dist-info/METADATA +0 -202
judgeval-0.1.0.dist-info/RECORD +0 -73
{judgeval-0.1.0.dist-info → judgeval-0.23.0.dist-info}/WHEEL +0 -0
{judgeval-0.1.0.dist-info → judgeval-0.23.0.dist-info}/licenses/LICENSE.md +0 -0

judgeval/v1/internal/api/api_types.py ADDED Viewed

@@ -0,0 +1,413 @@
+# generated by datamodel-codegen:
+#   filename:  tmp5p8bhyaw.json
+#   timestamp: 2025-11-18T18:52:12+00:00
+from __future__ import annotations
+from typing import Any, Dict, List, Literal, Optional, TypedDict, Union
+from typing_extensions import NotRequired
+TraceAndSpanId = List
+class LogEvalResultsResponse(TypedDict):
+    ui_results_url: str
+class EvalResultsFetch(TypedDict):
+    experiment_run_id: str
+    project_name: str
+class FetchExperimentRunResponse(TypedDict):
+    results: NotRequired[Optional[List]]
+    ui_results_url: NotRequired[Optional[str]]
+class DatasetFetch(TypedDict):
+    dataset_name: str
+    project_name: str
+class DatasetsFetch(TypedDict):
+    project_name: str
+class ProjectAdd(TypedDict):
+    project_name: str
+class ProjectAddResponse(TypedDict):
+    project_id: str
+class ProjectDeleteFromJudgevalResponse(TypedDict):
+    project_name: str
+class ProjectDeleteResponse(TypedDict):
+    message: str
+class ScorerExistsRequest(TypedDict):
+    name: str
+class ScorerExistsResponse(TypedDict):
+    exists: bool
+class SavePromptScorerRequest(TypedDict):
+    name: str
+    prompt: str
+    threshold: float
+    model: NotRequired[str]
+    is_trace: NotRequired[bool]
+    options: NotRequired[Optional[Dict[str, float]]]
+    description: NotRequired[Optional[str]]
+class FetchPromptScorersRequest(TypedDict):
+    names: NotRequired[Optional[List[str]]]
+    is_trace: NotRequired[Optional[bool]]
+class CustomScorerUploadPayload(TypedDict):
+    scorer_name: str
+    scorer_code: str
+    requirements_text: str
+    overwrite: NotRequired[bool]
+class CustomScorerTemplateResponse(TypedDict):
+    scorer_name: str
+    status: str
+    message: str
+class PromptInsertRequest(TypedDict):
+    project_id: str
+    name: str
+    prompt: str
+    tags: List[str]
+class PromptInsertResponse(TypedDict):
+    commit_id: str
+    parent_commit_id: NotRequired[Optional[str]]
+    created_at: str
+class PromptTagRequest(TypedDict):
+    project_id: str
+    name: str
+    commit_id: str
+    tags: List[str]
+class PromptTagResponse(TypedDict):
+    commit_id: str
+class PromptUntagRequest(TypedDict):
+    project_id: str
+    name: str
+    tags: List[str]
+class PromptUntagResponse(TypedDict):
+    commit_ids: List[str]
+class ResolveProjectNameRequest(TypedDict):
+    project_name: str
+class ResolveProjectNameResponse(TypedDict):
+    project_id: str
+class TraceIdRequest(TypedDict):
+    trace_id: str
+class SpanScoreRequest(TypedDict):
+    span_id: str
+    trace_id: str
+class BaseScorer(TypedDict):
+    score_type: str
+    threshold: NotRequired[float]
+    name: NotRequired[Optional[str]]
+    class_name: NotRequired[Optional[str]]
+    score: NotRequired[Optional[float]]
+    score_breakdown: NotRequired[Optional[Dict[str, Any]]]
+    reason: NotRequired[Optional[str]]
+    using_native_model: NotRequired[Optional[bool]]
+    success: NotRequired[Optional[bool]]
+    model: NotRequired[Optional[str]]
+    model_client: NotRequired[Any]
+    strict_mode: NotRequired[bool]
+    error: NotRequired[Optional[str]]
+    additional_metadata: NotRequired[Optional[Dict[str, Any]]]
+    user: NotRequired[Optional[str]]
+    server_hosted: NotRequired[bool]
+class ScorerConfig(TypedDict):
+    score_type: str
+    name: NotRequired[Optional[str]]
+    threshold: NotRequired[float]
+    strict_mode: NotRequired[bool]
+    required_params: NotRequired[List[str]]
+    kwargs: NotRequired[Optional[Dict[str, Any]]]
+class Example(TypedDict):
+    example_id: NotRequired[str]
+    created_at: NotRequired[str]
+    name: NotRequired[Optional[str]]
+class ValidationError(TypedDict):
+    loc: List[Union[str, int]]
+    msg: str
+    type: str
+class UsageInfo(TypedDict):
+    total_judgees: int
+    regular_use: int
+    pay_as_you_go_use: int
+    remaining_regular: int
+    remaining_after: int
+DatasetKind = Literal["trace", "example"]
+class PromptScorer(TypedDict):
+    id: str
+    user_id: str
+    organization_id: str
+    name: str
+    prompt: str
+    threshold: float
+    model: NotRequired[str]
+    options: NotRequired[Optional[Dict[str, float]]]
+    description: NotRequired[Optional[str]]
+    created_at: NotRequired[Optional[str]]
+    updated_at: NotRequired[Optional[str]]
+    is_trace: NotRequired[Optional[bool]]
+    is_bucket_rubric: NotRequired[Optional[bool]]
+class PromptCommitInfo(TypedDict):
+    name: str
+    prompt: str
+    tags: List[str]
+    commit_id: str
+    parent_commit_id: NotRequired[Optional[str]]
+    created_at: str
+    first_name: str
+    last_name: str
+    user_email: str
+class ScorerData(TypedDict):
+    id: NotRequired[str]
+    name: str
+    threshold: float
+    success: bool
+    score: NotRequired[Optional[float]]
+    reason: NotRequired[Optional[str]]
+    strict_mode: NotRequired[Optional[bool]]
+    evaluation_model: NotRequired[Optional[str]]
+    error: NotRequired[Optional[str]]
+    additional_metadata: NotRequired[Optional[Dict[str, Any]]]
+class OtelTraceSpan(TypedDict):
+    organization_id: str
+    project_id: NotRequired[Optional[str]]
+    user_id: str
+    timestamp: str
+    trace_id: str
+    span_id: str
+    parent_span_id: NotRequired[Optional[str]]
+    trace_state: NotRequired[Optional[str]]
+    span_name: NotRequired[Optional[str]]
+    span_kind: NotRequired[Optional[str]]
+    service_name: NotRequired[Optional[str]]
+    resource_attributes: NotRequired[Optional[Dict[str, Any]]]
+    span_attributes: NotRequired[Optional[Dict[str, Any]]]
+    duration: NotRequired[Optional[int]]
+    status_code: NotRequired[Optional[int]]
+    status_message: NotRequired[Optional[str]]
+    events: NotRequired[Optional[List[Dict[str, Any]]]]
+    links: NotRequired[Optional[List[Dict[str, Any]]]]
+class OtelSpanListItemScores(TypedDict):
+    success: bool
+    score: float
+    reason: NotRequired[Optional[str]]
+    name: str
+class OtelSpanDetailScores(TypedDict):
+    success: bool
+    score: float
+    reason: NotRequired[Optional[str]]
+    name: str
+    example_id: NotRequired[Optional[str]]
+class ExampleEvaluationRun(TypedDict):
+    id: NotRequired[str]
+    project_name: str
+    eval_name: str
+    custom_scorers: NotRequired[List[BaseScorer]]
+    judgment_scorers: NotRequired[List[ScorerConfig]]
+    created_at: NotRequired[str]
+    examples: List[Example]
+    trace_span_id: NotRequired[Optional[str]]
+    trace_id: NotRequired[Optional[str]]
+class HTTPValidationError(TypedDict):
+    detail: NotRequired[List[ValidationError]]
+class TraceEvaluationRun(TypedDict):
+    id: NotRequired[str]
+    project_name: str
+    eval_name: str
+    custom_scorers: NotRequired[List[BaseScorer]]
+    judgment_scorers: NotRequired[List[ScorerConfig]]
+    created_at: NotRequired[str]
+    trace_and_span_ids: List[TraceAndSpanId]
+    is_offline: NotRequired[bool]
+    is_bucket_run: NotRequired[bool]
+class DatasetInsertExamples(TypedDict):
+    dataset_name: str
+    examples: List[Example]
+    project_name: str
+class DatasetInfo(TypedDict):
+    dataset_id: str
+    name: str
+    created_at: str
+    kind: DatasetKind
+    entries: int
+    creator: str
+class DatasetCreate(TypedDict):
+    name: str
+    dataset_kind: DatasetKind
+    project_name: str
+    examples: List[Example]
+    overwrite: bool
+class SavePromptScorerResponse(TypedDict):
+    scorer_response: PromptScorer
+class FetchPromptScorersResponse(TypedDict):
+    scorers: List[PromptScorer]
+class PromptFetchResponse(TypedDict):
+    commit: NotRequired[Optional[PromptCommitInfo]]
+class PromptVersionsResponse(TypedDict):
+    versions: List[PromptCommitInfo]
+class ScoringResult(TypedDict):
+    success: bool
+    scorers_data: List[ScorerData]
+    name: NotRequired[Optional[str]]
+    data_object: NotRequired[Optional[Union[OtelTraceSpan, Example]]]
+    trace_id: NotRequired[Optional[str]]
+    run_duration: NotRequired[Optional[float]]
+    evaluation_cost: NotRequired[Optional[float]]
+class OtelTraceListItem(TypedDict):
+    organization_id: str
+    project_id: str
+    trace_id: str
+    created_at: str
+    duration: NotRequired[Optional[int]]
+    tags: NotRequired[Optional[List[str]]]
+    experiment_run_id: NotRequired[Optional[str]]
+    span_name: NotRequired[Optional[str]]
+    llm_cost: NotRequired[Optional[float]]
+    error: NotRequired[str]
+    scores: NotRequired[List[OtelSpanListItemScores]]
+    rules_invoked: NotRequired[List[str]]
+    customer_id: NotRequired[Optional[str]]
+    input: NotRequired[Optional[str]]
+    output: NotRequired[Optional[str]]
+    input_preview: NotRequired[Optional[str]]
+    output_preview: NotRequired[Optional[str]]
+    annotation_count: NotRequired[int]
+    span_id: str
+    rule_id: NotRequired[Optional[str]]
+class OtelSpanDetail(TypedDict):
+    organization_id: str
+    project_id: str
+    timestamp: str
+    trace_id: str
+    span_id: str
+    parent_span_id: NotRequired[Optional[str]]
+    trace_state: NotRequired[Optional[str]]
+    span_name: NotRequired[Optional[str]]
+    span_kind: NotRequired[Optional[str]]
+    service_name: NotRequired[Optional[str]]
+    resource_attributes: NotRequired[Optional[Dict[str, Any]]]
+    span_attributes: NotRequired[Optional[Dict[str, Any]]]
+    duration: NotRequired[Optional[int]]
+    status_code: NotRequired[Optional[int]]
+    status_message: NotRequired[Optional[str]]
+    events: NotRequired[Optional[List[Dict[str, Any]]]]
+    links: NotRequired[Optional[Union[List[Dict[str, Any]], Dict[str, Any]]]]
+    llm_cost: NotRequired[Optional[float]]
+    prompt_tokens: NotRequired[Optional[int]]
+    completion_tokens: NotRequired[Optional[int]]
+    scores: NotRequired[Optional[List[OtelSpanDetailScores]]]
+class EvaluateResponse(TypedDict):
+    status: str
+    results: List[ScoringResult]
+    resource_usage: NotRequired[Optional[UsageInfo]]
+class EvalResults(TypedDict):
+    results: List[ScoringResult]
+    run: Union[ExampleEvaluationRun, TraceEvaluationRun]
+class DatasetTraceWithSpans(TypedDict):
+    dataset_id: str
+    trace_detail: OtelTraceListItem
+    spans: List[OtelSpanDetail]
+class DatasetReturn(TypedDict):
+    name: str
+    project_name: str
+    dataset_kind: DatasetKind
+    examples: NotRequired[List[Example]]
+    traces: NotRequired[Optional[List[DatasetTraceWithSpans]]]

judgeval/v1/prompts/__init__.py ADDED Viewed

@@ -0,0 +1,6 @@
+from __future__ import annotations
+from judgeval.v1.prompts.prompt import Prompt
+from judgeval.v1.prompts.prompt_factory import PromptFactory
+__all__ = ["Prompt", "PromptFactory"]

judgeval/v1/prompts/prompt.py ADDED Viewed

@@ -0,0 +1,29 @@
+from __future__ import annotations
+import re
+from dataclasses import dataclass, field
+from string import Template
+from typing import Dict, List, Optional
+@dataclass
+class Prompt:
+    name: str
+    prompt: str
+    created_at: str
+    tags: List[str]
+    commit_id: str
+    parent_commit_id: Optional[str] = None
+    metadata: Dict[str, str] = field(default_factory=dict)
+    _template: Template = field(init=False, repr=False)
+    def __post_init__(self):
+        template_str = re.sub(r"\{\{([^}]+)\}\}", r"$\1", self.prompt)
+        self._template = Template(template_str)
+    def compile(self, **kwargs) -> str:
+        try:
+            return self._template.substitute(**kwargs)
+        except KeyError as e:
+            missing_var = str(e).strip("'")
+            raise ValueError(f"Missing required variable: {missing_var}")

judgeval/v1/prompts/prompt_factory.py ADDED Viewed

@@ -0,0 +1,189 @@
+from __future__ import annotations
+from typing import List, Optional, overload
+from judgeval.logger import judgeval_logger
+from judgeval.utils.decorators.dont_throw import dont_throw
+from judgeval.v1.internal.api import JudgmentSyncClient
+from judgeval.v1.prompts.prompt import Prompt
+from judgeval.v1.utils import resolve_project_id
+class PromptFactory:
+    __slots__ = "_client"
+    def __init__(self, client: JudgmentSyncClient):
+        self._client = client
+    def create(
+        self,
+        project_name: str,
+        name: str,
+        prompt: str,
+        tags: Optional[List[str]] = None,
+    ) -> Prompt:
+        try:
+            if tags is None:
+                tags = []
+            project_id = resolve_project_id(self._client, project_name)
+            assert project_id is not None
+            response = self._client.prompts_insert(
+                {
+                    "project_id": project_id,
+                    "name": name,
+                    "prompt": prompt,
+                    "tags": tags,
+                }
+            )
+            return Prompt(
+                name=name,
+                prompt=prompt,
+                created_at=response["created_at"],
+                tags=tags,
+                commit_id=response["commit_id"],
+                parent_commit_id=response.get("parent_commit_id"),
+            )
+        except Exception as e:
+            judgeval_logger.error(f"Failed to create prompt: {str(e)}")
+            raise
+    @overload
+    def get(
+        self,
+        /,
+        *,
+        project_name: str,
+        name: str,
+        commit_id: str,
+    ) -> Optional[Prompt]: ...
+    @overload
+    def get(
+        self,
+        /,
+        *,
+        project_name: str,
+        name: str,
+        tag: str,
+    ) -> Optional[Prompt]: ...
+    @dont_throw
+    def get(
+        self,
+        /,
+        *,
+        project_name: str,
+        name: str,
+        commit_id: Optional[str] = None,
+        tag: Optional[str] = None,
+    ) -> Optional[Prompt]:
+        if commit_id is not None and tag is not None:
+            judgeval_logger.error("Cannot fetch prompt by both commit_id and tag")
+            return None
+        project_id = resolve_project_id(self._client, project_name)
+        if project_id is None:
+            return None
+        response = self._client.prompts_fetch(
+            project_id=project_id,
+            name=name,
+            commit_id=commit_id,
+            tag=tag,
+        )
+        prompt_config = response.get("commit")
+        if prompt_config is None:
+            return None
+        return Prompt(
+            name=prompt_config["name"],
+            prompt=prompt_config["prompt"],
+            created_at=prompt_config["created_at"],
+            tags=prompt_config["tags"],
+            commit_id=prompt_config["commit_id"],
+            parent_commit_id=prompt_config.get("parent_commit_id"),
+            metadata={
+                "creator_first_name": prompt_config["first_name"],
+                "creator_last_name": prompt_config["last_name"],
+                "creator_email": prompt_config["user_email"],
+            },
+        )
+    def tag(
+        self,
+        project_name: str,
+        name: str,
+        commit_id: str,
+        tags: List[str],
+    ) -> str:
+        try:
+            project_id = resolve_project_id(self._client, project_name)
+            assert project_id is not None
+            response = self._client.prompts_tag(
+                {
+                    "project_id": project_id,
+                    "name": name,
+                    "commit_id": commit_id,
+                    "tags": tags,
+                }
+            )
+            return response["commit_id"]
+        except Exception as e:
+            judgeval_logger.error(f"Failed to tag prompt: {str(e)}")
+            raise
+    def untag(
+        self,
+        project_name: str,
+        name: str,
+        tags: List[str],
+    ) -> List[str]:
+        try:
+            project_id = resolve_project_id(self._client, project_name)
+            assert project_id is not None
+            response = self._client.prompts_untag(
+                {
+                    "project_id": project_id,
+                    "name": name,
+                    "tags": tags,
+                }
+            )
+            return response["commit_ids"]
+        except Exception as e:
+            judgeval_logger.error(f"Failed to untag prompt: {str(e)}")
+            raise
+    def list(
+        self,
+        project_name: str,
+        name: str,
+    ) -> List[Prompt]:
+        try:
+            project_id = resolve_project_id(self._client, project_name)
+            assert project_id is not None
+            response = self._client.prompts_get_prompt_versions(
+                project_id=project_id,
+                name=name,
+            )
+            return [
+                Prompt(
+                    name=prompt_config["name"],
+                    prompt=prompt_config["prompt"],
+                    tags=prompt_config["tags"],
+                    created_at=prompt_config["created_at"],
+                    commit_id=prompt_config["commit_id"],
+                    parent_commit_id=prompt_config.get("parent_commit_id"),
+                    metadata={
+                        "creator_first_name": prompt_config["first_name"],
+                        "creator_last_name": prompt_config["last_name"],
+                        "creator_email": prompt_config["user_email"],
+                    },
+                )
+                for prompt_config in response["versions"]
+            ]
+        except Exception as e:
+            judgeval_logger.error(f"Failed to list prompt versions: {str(e)}")
+            raise

judgeval/v1/py.typed ADDED Viewed

File without changes

judgeval/v1/scorers/__init__.py ADDED Viewed

@@ -0,0 +1,6 @@
+from __future__ import annotations
+from judgeval.v1.scorers.base_scorer import BaseScorer
+from judgeval.v1.scorers.scorers_factory import ScorersFactory
+__all__ = ["BaseScorer", "ScorersFactory"]

judgeval 0.1.0__py3-none-any.whl → 0.23.0__py3-none-any.whl

judgeval 0.1.0py3-none-any.whl → 0.23.0py3-none-any.whl