PyPI - arize-phoenix - Versions diffs - 10.0.4__py3-none-any.whl → 12.28.1__py3-none-any.whl - Mend

arize-phoenix 10.0.4py3-none-any.whl → 12.28.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/METADATA +124 -72
arize_phoenix-12.28.1.dist-info/RECORD +499 -0
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/WHEEL +1 -1
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/licenses/IP_NOTICE +1 -1
phoenix/__generated__/__init__.py +0 -0
phoenix/__generated__/classification_evaluator_configs/__init__.py +20 -0
phoenix/__generated__/classification_evaluator_configs/_document_relevance_classification_evaluator_config.py +17 -0
phoenix/__generated__/classification_evaluator_configs/_hallucination_classification_evaluator_config.py +17 -0
phoenix/__generated__/classification_evaluator_configs/_models.py +18 -0
phoenix/__generated__/classification_evaluator_configs/_tool_selection_classification_evaluator_config.py +17 -0
phoenix/__init__.py +5 -4
phoenix/auth.py +39 -2
phoenix/config.py +1763 -91
phoenix/datetime_utils.py +120 -2
phoenix/db/README.md +595 -25
phoenix/db/bulk_inserter.py +145 -103
phoenix/db/engines.py +140 -33
phoenix/db/enums.py +3 -12
phoenix/db/facilitator.py +302 -35
phoenix/db/helpers.py +1000 -65
phoenix/db/iam_auth.py +64 -0
phoenix/db/insertion/dataset.py +135 -2
phoenix/db/insertion/document_annotation.py +9 -6
phoenix/db/insertion/evaluation.py +2 -3
phoenix/db/insertion/helpers.py +17 -2
phoenix/db/insertion/session_annotation.py +176 -0
phoenix/db/insertion/span.py +15 -11
phoenix/db/insertion/span_annotation.py +3 -4
phoenix/db/insertion/trace_annotation.py +3 -4
phoenix/db/insertion/types.py +50 -20
phoenix/db/migrations/versions/01a8342c9cdf_add_user_id_on_datasets.py +40 -0
phoenix/db/migrations/versions/0df286449799_add_session_annotations_table.py +105 -0
phoenix/db/migrations/versions/272b66ff50f8_drop_single_indices.py +119 -0
phoenix/db/migrations/versions/58228d933c91_dataset_labels.py +67 -0
phoenix/db/migrations/versions/699f655af132_experiment_tags.py +57 -0
phoenix/db/migrations/versions/735d3d93c33e_add_composite_indices.py +41 -0
phoenix/db/migrations/versions/a20694b15f82_cost.py +196 -0
phoenix/db/migrations/versions/ab513d89518b_add_user_id_on_dataset_versions.py +40 -0
phoenix/db/migrations/versions/d0690a79ea51_users_on_experiments.py +40 -0
phoenix/db/migrations/versions/deb2c81c0bb2_dataset_splits.py +139 -0
phoenix/db/migrations/versions/e76cbd66ffc3_add_experiments_dataset_examples.py +87 -0
phoenix/db/models.py +669 -56
phoenix/db/pg_config.py +10 -0
phoenix/db/types/model_provider.py +4 -0
phoenix/db/types/token_price_customization.py +29 -0
phoenix/db/types/trace_retention.py +23 -15
phoenix/experiments/evaluators/utils.py +3 -3
phoenix/experiments/functions.py +160 -52
phoenix/experiments/tracing.py +2 -2
phoenix/experiments/types.py +1 -1
phoenix/inferences/inferences.py +1 -2
phoenix/server/api/auth.py +38 -7
phoenix/server/api/auth_messages.py +46 -0
phoenix/server/api/context.py +100 -4
phoenix/server/api/dataloaders/__init__.py +79 -5
phoenix/server/api/dataloaders/annotation_configs_by_project.py +31 -0
phoenix/server/api/dataloaders/annotation_summaries.py +60 -8
phoenix/server/api/dataloaders/average_experiment_repeated_run_group_latency.py +50 -0
phoenix/server/api/dataloaders/average_experiment_run_latency.py +17 -24
phoenix/server/api/dataloaders/cache/two_tier_cache.py +1 -2
phoenix/server/api/dataloaders/dataset_dataset_splits.py +52 -0
phoenix/server/api/dataloaders/dataset_example_revisions.py +0 -1
phoenix/server/api/dataloaders/dataset_example_splits.py +40 -0
phoenix/server/api/dataloaders/dataset_examples_and_versions_by_experiment_run.py +47 -0
phoenix/server/api/dataloaders/dataset_labels.py +36 -0
phoenix/server/api/dataloaders/document_evaluation_summaries.py +2 -2
phoenix/server/api/dataloaders/document_evaluations.py +6 -9
phoenix/server/api/dataloaders/experiment_annotation_summaries.py +88 -34
phoenix/server/api/dataloaders/experiment_dataset_splits.py +43 -0
phoenix/server/api/dataloaders/experiment_error_rates.py +21 -28
phoenix/server/api/dataloaders/experiment_repeated_run_group_annotation_summaries.py +77 -0
phoenix/server/api/dataloaders/experiment_repeated_run_groups.py +57 -0
phoenix/server/api/dataloaders/experiment_runs_by_experiment_and_example.py +44 -0
phoenix/server/api/dataloaders/last_used_times_by_generative_model_id.py +35 -0
phoenix/server/api/dataloaders/latency_ms_quantile.py +40 -8
phoenix/server/api/dataloaders/record_counts.py +37 -10
phoenix/server/api/dataloaders/session_annotations_by_session.py +29 -0
phoenix/server/api/dataloaders/span_cost_by_span.py +24 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_generative_model.py +56 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_project_session.py +57 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_span.py +43 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_trace.py +56 -0
phoenix/server/api/dataloaders/span_cost_details_by_span_cost.py +27 -0
phoenix/server/api/dataloaders/span_cost_summary_by_experiment.py +57 -0
phoenix/server/api/dataloaders/span_cost_summary_by_experiment_repeated_run_group.py +64 -0
phoenix/server/api/dataloaders/span_cost_summary_by_experiment_run.py +58 -0
phoenix/server/api/dataloaders/span_cost_summary_by_generative_model.py +55 -0
phoenix/server/api/dataloaders/span_cost_summary_by_project.py +152 -0
phoenix/server/api/dataloaders/span_cost_summary_by_project_session.py +56 -0
phoenix/server/api/dataloaders/span_cost_summary_by_trace.py +55 -0
phoenix/server/api/dataloaders/span_costs.py +29 -0
phoenix/server/api/dataloaders/table_fields.py +2 -2
phoenix/server/api/dataloaders/token_prices_by_model.py +30 -0
phoenix/server/api/dataloaders/trace_annotations_by_trace.py +27 -0
phoenix/server/api/dataloaders/types.py +29 -0
phoenix/server/api/exceptions.py +11 -1
phoenix/server/api/helpers/dataset_helpers.py +5 -1
phoenix/server/api/helpers/playground_clients.py +1243 -292
phoenix/server/api/helpers/playground_registry.py +2 -2
phoenix/server/api/helpers/playground_spans.py +8 -4
phoenix/server/api/helpers/playground_users.py +26 -0
phoenix/server/api/helpers/prompts/conversions/aws.py +83 -0
phoenix/server/api/helpers/prompts/conversions/google.py +103 -0
phoenix/server/api/helpers/prompts/models.py +205 -22
phoenix/server/api/input_types/{SpanAnnotationFilter.py → AnnotationFilter.py} +22 -14
phoenix/server/api/input_types/ChatCompletionInput.py +6 -2
phoenix/server/api/input_types/CreateProjectInput.py +27 -0
phoenix/server/api/input_types/CreateProjectSessionAnnotationInput.py +37 -0
phoenix/server/api/input_types/DatasetFilter.py +17 -0
phoenix/server/api/input_types/ExperimentRunSort.py +237 -0
phoenix/server/api/input_types/GenerativeCredentialInput.py +9 -0
phoenix/server/api/input_types/GenerativeModelInput.py +5 -0
phoenix/server/api/input_types/ProjectSessionSort.py +161 -1
phoenix/server/api/input_types/PromptFilter.py +14 -0
phoenix/server/api/input_types/PromptVersionInput.py +52 -1
phoenix/server/api/input_types/SpanSort.py +44 -7
phoenix/server/api/input_types/TimeBinConfig.py +23 -0
phoenix/server/api/input_types/UpdateAnnotationInput.py +34 -0
phoenix/server/api/input_types/UserRoleInput.py +1 -0
phoenix/server/api/mutations/__init__.py +10 -0
phoenix/server/api/mutations/annotation_config_mutations.py +8 -8
phoenix/server/api/mutations/api_key_mutations.py +19 -23
phoenix/server/api/mutations/chat_mutations.py +154 -47
phoenix/server/api/mutations/dataset_label_mutations.py +243 -0
phoenix/server/api/mutations/dataset_mutations.py +21 -16
phoenix/server/api/mutations/dataset_split_mutations.py +351 -0
phoenix/server/api/mutations/experiment_mutations.py +2 -2
phoenix/server/api/mutations/export_events_mutations.py +3 -3
phoenix/server/api/mutations/model_mutations.py +210 -0
phoenix/server/api/mutations/project_mutations.py +49 -10
phoenix/server/api/mutations/project_session_annotations_mutations.py +158 -0
phoenix/server/api/mutations/project_trace_retention_policy_mutations.py +8 -4
phoenix/server/api/mutations/prompt_label_mutations.py +74 -65
phoenix/server/api/mutations/prompt_mutations.py +65 -129
phoenix/server/api/mutations/prompt_version_tag_mutations.py +11 -8
phoenix/server/api/mutations/span_annotations_mutations.py +15 -10
phoenix/server/api/mutations/trace_annotations_mutations.py +14 -10
phoenix/server/api/mutations/trace_mutations.py +47 -3
phoenix/server/api/mutations/user_mutations.py +66 -41
phoenix/server/api/queries.py +768 -293
phoenix/server/api/routers/__init__.py +2 -2
phoenix/server/api/routers/auth.py +154 -88
phoenix/server/api/routers/ldap.py +229 -0
phoenix/server/api/routers/oauth2.py +369 -106
phoenix/server/api/routers/v1/__init__.py +24 -4
phoenix/server/api/routers/v1/annotation_configs.py +23 -31
phoenix/server/api/routers/v1/annotations.py +481 -17
phoenix/server/api/routers/v1/datasets.py +395 -81
phoenix/server/api/routers/v1/documents.py +142 -0
phoenix/server/api/routers/v1/evaluations.py +24 -31
phoenix/server/api/routers/v1/experiment_evaluations.py +19 -8
phoenix/server/api/routers/v1/experiment_runs.py +337 -59
phoenix/server/api/routers/v1/experiments.py +479 -48
phoenix/server/api/routers/v1/models.py +7 -0
phoenix/server/api/routers/v1/projects.py +18 -49
phoenix/server/api/routers/v1/prompts.py +54 -40
phoenix/server/api/routers/v1/sessions.py +108 -0
phoenix/server/api/routers/v1/spans.py +1091 -81
phoenix/server/api/routers/v1/traces.py +132 -78
phoenix/server/api/routers/v1/users.py +389 -0
phoenix/server/api/routers/v1/utils.py +3 -7
phoenix/server/api/subscriptions.py +305 -88
phoenix/server/api/types/Annotation.py +90 -23
phoenix/server/api/types/ApiKey.py +13 -17
phoenix/server/api/types/AuthMethod.py +1 -0
phoenix/server/api/types/ChatCompletionSubscriptionPayload.py +1 -0
phoenix/server/api/types/CostBreakdown.py +12 -0
phoenix/server/api/types/Dataset.py +226 -72
phoenix/server/api/types/DatasetExample.py +88 -18
phoenix/server/api/types/DatasetExperimentAnnotationSummary.py +10 -0
phoenix/server/api/types/DatasetLabel.py +57 -0
phoenix/server/api/types/DatasetSplit.py +98 -0
phoenix/server/api/types/DatasetVersion.py +49 -4
phoenix/server/api/types/DocumentAnnotation.py +212 -0
phoenix/server/api/types/Experiment.py +264 -59
phoenix/server/api/types/ExperimentComparison.py +5 -10
phoenix/server/api/types/ExperimentRepeatedRunGroup.py +155 -0
phoenix/server/api/types/ExperimentRepeatedRunGroupAnnotationSummary.py +9 -0
phoenix/server/api/types/ExperimentRun.py +169 -65
phoenix/server/api/types/ExperimentRunAnnotation.py +158 -39
phoenix/server/api/types/GenerativeModel.py +245 -3
phoenix/server/api/types/GenerativeProvider.py +70 -11
phoenix/server/api/types/{Model.py → InferenceModel.py} +1 -1
phoenix/server/api/types/ModelInterface.py +16 -0
phoenix/server/api/types/PlaygroundModel.py +20 -0
phoenix/server/api/types/Project.py +1278 -216
phoenix/server/api/types/ProjectSession.py +188 -28
phoenix/server/api/types/ProjectSessionAnnotation.py +187 -0
phoenix/server/api/types/ProjectTraceRetentionPolicy.py +1 -1
phoenix/server/api/types/Prompt.py +119 -39
phoenix/server/api/types/PromptLabel.py +42 -25
phoenix/server/api/types/PromptVersion.py +11 -8
phoenix/server/api/types/PromptVersionTag.py +65 -25
phoenix/server/api/types/ServerStatus.py +6 -0
phoenix/server/api/types/Span.py +167 -123
phoenix/server/api/types/SpanAnnotation.py +189 -42
phoenix/server/api/types/SpanCostDetailSummaryEntry.py +10 -0
phoenix/server/api/types/SpanCostSummary.py +10 -0
phoenix/server/api/types/SystemApiKey.py +65 -1
phoenix/server/api/types/TokenPrice.py +16 -0
phoenix/server/api/types/TokenUsage.py +3 -3
phoenix/server/api/types/Trace.py +223 -51
phoenix/server/api/types/TraceAnnotation.py +149 -50
phoenix/server/api/types/User.py +137 -32
phoenix/server/api/types/UserApiKey.py +73 -26
phoenix/server/api/types/node.py +10 -0
phoenix/server/api/types/pagination.py +11 -2
phoenix/server/app.py +290 -45
phoenix/server/authorization.py +38 -3
phoenix/server/bearer_auth.py +34 -24
phoenix/server/cost_tracking/cost_details_calculator.py +196 -0
phoenix/server/cost_tracking/cost_model_lookup.py +179 -0
phoenix/server/cost_tracking/helpers.py +68 -0
phoenix/server/cost_tracking/model_cost_manifest.json +3657 -830
phoenix/server/cost_tracking/regex_specificity.py +397 -0
phoenix/server/cost_tracking/token_cost_calculator.py +57 -0
phoenix/server/daemons/__init__.py +0 -0
phoenix/server/daemons/db_disk_usage_monitor.py +214 -0
phoenix/server/daemons/generative_model_store.py +103 -0
phoenix/server/daemons/span_cost_calculator.py +99 -0
phoenix/server/dml_event.py +17 -0
phoenix/server/dml_event_handler.py +5 -0
phoenix/server/email/sender.py +56 -3
phoenix/server/email/templates/db_disk_usage_notification.html +19 -0
phoenix/server/email/types.py +11 -0
phoenix/server/experiments/__init__.py +0 -0
phoenix/server/experiments/utils.py +14 -0
phoenix/server/grpc_server.py +11 -11
phoenix/server/jwt_store.py +17 -15
phoenix/server/ldap.py +1449 -0
phoenix/server/main.py +26 -10
phoenix/server/oauth2.py +330 -12
phoenix/server/prometheus.py +66 -6
phoenix/server/rate_limiters.py +4 -9
phoenix/server/retention.py +33 -20
phoenix/server/session_filters.py +49 -0
phoenix/server/static/.vite/manifest.json +55 -51
phoenix/server/static/assets/components-BreFUQQa.js +6702 -0
phoenix/server/static/assets/{index-E0M82BdE.js → index-CTQoemZv.js} +140 -56
phoenix/server/static/assets/pages-DBE5iYM3.js +9524 -0
phoenix/server/static/assets/vendor-BGzfc4EU.css +1 -0
phoenix/server/static/assets/vendor-DCE4v-Ot.js +920 -0
phoenix/server/static/assets/vendor-codemirror-D5f205eT.js +25 -0
phoenix/server/static/assets/vendor-recharts-V9cwpXsm.js +37 -0
phoenix/server/static/assets/vendor-shiki-Do--csgv.js +5 -0
phoenix/server/static/assets/vendor-three-CmB8bl_y.js +3840 -0
phoenix/server/templates/index.html +40 -6
phoenix/server/thread_server.py +1 -2
phoenix/server/types.py +14 -4
phoenix/server/utils.py +74 -0
phoenix/session/client.py +56 -3
phoenix/session/data_extractor.py +5 -0
phoenix/session/evaluation.py +14 -5
phoenix/session/session.py +45 -9
phoenix/settings.py +5 -0
phoenix/trace/attributes.py +80 -13
phoenix/trace/dsl/helpers.py +90 -1
phoenix/trace/dsl/query.py +8 -6
phoenix/trace/projects.py +5 -0
phoenix/utilities/template_formatters.py +1 -1
phoenix/version.py +1 -1
arize_phoenix-10.0.4.dist-info/RECORD +0 -405
phoenix/server/api/types/Evaluation.py +0 -39
phoenix/server/cost_tracking/cost_lookup.py +0 -255
phoenix/server/static/assets/components-DULKeDfL.js +0 -4365
phoenix/server/static/assets/pages-Cl0A-0U2.js +0 -7430
phoenix/server/static/assets/vendor-WIZid84E.css +0 -1
phoenix/server/static/assets/vendor-arizeai-Dy-0mSNw.js +0 -649
phoenix/server/static/assets/vendor-codemirror-DBtifKNr.js +0 -33
phoenix/server/static/assets/vendor-oB4u9zuV.js +0 -905
phoenix/server/static/assets/vendor-recharts-D-T4KPz2.js +0 -59
phoenix/server/static/assets/vendor-shiki-BMn4O_9F.js +0 -5
phoenix/server/static/assets/vendor-three-C5WAXd5r.js +0 -2998
phoenix/utilities/deprecation.py +0 -31
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/entry_points.txt +0 -0
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/licenses/LICENSE +0 -0

phoenix/server/api/routers/v1/experiment_runs.py CHANGED Viewed

@@ -1,32 +1,34 @@
+import json
 from datetime import datetime
 from typing import Any, Optional
-from fastapi import APIRouter, HTTPException
+from fastapi import APIRouter, Depends, HTTPException, Query
 from pydantic import Field
 from sqlalchemy import select
-from sqlalchemy.exc import IntegrityError as PostgreSQLIntegrityError
-from sqlean.dbapi2 import IntegrityError as SQLiteIntegrityError  # type: ignore[import-untyped]
 from starlette.requests import Request
-from starlette.status import HTTP_404_NOT_FOUND, HTTP_409_CONFLICT
 from strawberry.relay import GlobalID
 from phoenix.db import models
+from phoenix.db.helpers import get_runs_with_incomplete_evaluations_query
+from phoenix.db.insertion.helpers import OnConflict, insert_on_conflict
 from phoenix.db.models import ExperimentRunOutput
+from phoenix.server.api.routers.v1.datasets import DatasetExample
 from phoenix.server.api.types.node import from_global_id_with_expected_type
+from phoenix.server.authorization import is_not_locked
 from phoenix.server.dml_event import ExperimentRunInsertEvent
 from .models import V1RoutesBaseModel
-from .utils import ResponseBody, add_errors_to_responses
+from .utils import PaginatedResponseBody, ResponseBody, add_errors_to_responses
 router = APIRouter(tags=["experiments"], include_in_schema=True)
-class ExperimentRun(V1RoutesBaseModel):
+class ExperimentRunData(V1RoutesBaseModel):
     dataset_example_id: str = Field(
         description="The ID of the dataset example used in the experiment run"
     )
     output: Any = Field(description="The output of the experiment task")
-    repetition_number: int = Field(description="The repetition number of the experiment run")
+    repetition_number: int = Field(description="The repetition number of the experiment run", gt=0)
     start_time: datetime = Field(description="The start time of the experiment run")
     end_time: datetime = Field(description="The end time of the experiment run")
     trace_id: Optional[str] = Field(
@@ -38,7 +40,7 @@ class ExperimentRun(V1RoutesBaseModel):
     )
-class CreateExperimentRunRequestBody(ExperimentRun):
+class CreateExperimentRunRequestBody(ExperimentRunData):
     pass
@@ -52,18 +54,21 @@ class CreateExperimentRunResponseBody(ResponseBody[CreateExperimentRunResponseBo
 @router.post(
     "/experiments/{experiment_id}/runs",
+    dependencies=[Depends(is_not_locked)],
     operation_id="createExperimentRun",
     summary="Create run for an experiment",
     response_description="Experiment run created successfully",
     responses=add_errors_to_responses(
         [
             {
-                "status_code": HTTP_404_NOT_FOUND,
+                "status_code": 404,
                 "description": "Experiment or dataset example not found",
             },
             {
-                "status_code": HTTP_409_CONFLICT,
-                "description": "This experiment run has already been submitted",
+                "status_code": 409,
+                "description": (
+                    "Experiment run already exists with a successful result and cannot be updated"
+                ),
             },
         ]
     ),
@@ -77,7 +82,7 @@ async def create_experiment_run(
     except ValueError:
         raise HTTPException(
             detail=f"Experiment with ID {experiment_gid} does not exist",
-            status_code=HTTP_404_NOT_FOUND,
+            status_code=404,
         )
     example_gid = GlobalID.from_id(request_body.dataset_example_id)
@@ -86,7 +91,7 @@ async def create_experiment_run(
     except ValueError:
         raise HTTPException(
             detail=f"DatasetExample with ID {example_gid} does not exist",
-            status_code=HTTP_404_NOT_FOUND,
+            status_code=404,
         )
     trace_id = request_body.trace_id
@@ -97,37 +102,72 @@ async def create_experiment_run(
     error = request_body.error
     async with request.app.state.db() as session:
-        exp_run = models.ExperimentRun(
-            experiment_id=experiment_rowid,
-            dataset_example_id=dataset_example_id,
-            trace_id=trace_id,
-            output=ExperimentRunOutput(task_output=task_output),
-            repetition_number=repetition_number,
-            start_time=start_time,
-            end_time=end_time,
-            error=error,
+        # Check if a record already exists
+        existing_run = await session.scalar(
+            select(models.ExperimentRun)
+            .where(models.ExperimentRun.experiment_id == experiment_rowid)
+            .where(models.ExperimentRun.dataset_example_id == dataset_example_id)
+            .where(models.ExperimentRun.repetition_number == repetition_number)
         )
-        try:
-            session.add(exp_run)
-            await session.flush()
-        except (PostgreSQLIntegrityError, SQLiteIntegrityError):
+        if existing_run is not None and existing_run.error is None:
+            # Record exists and has no error - reject the update
+            run_gid = GlobalID("ExperimentRun", str(existing_run.id))
             raise HTTPException(
-                detail="This experiment run has already been submitted",
-                status_code=HTTP_409_CONFLICT,
+                status_code=409,
+                detail=(
+                    f"Experiment run {run_gid} already exists with a successful result "
+                    "and cannot be updated"
+                ),
             )
-    request.state.event_queue.put(ExperimentRunInsertEvent((exp_run.id,)))
-    run_gid = GlobalID("ExperimentRun", str(exp_run.id))
+        # Either no record exists, or existing record has an error - proceed with upsert
+        stmt = insert_on_conflict(
+            {
+                "experiment_id": experiment_rowid,
+                "dataset_example_id": dataset_example_id,
+                "trace_id": trace_id,
+                "output": ExperimentRunOutput(task_output=task_output),
+                "repetition_number": repetition_number,
+                "start_time": start_time,
+                "end_time": end_time,
+                "error": error,
+            },
+            table=models.ExperimentRun,
+            dialect=request.app.state.db.dialect,
+            unique_by=["experiment_id", "dataset_example_id", "repetition_number"],
+            on_conflict=OnConflict.DO_UPDATE,
+        ).returning(models.ExperimentRun.id)
+        id_ = await session.scalar(stmt)
+    request.state.event_queue.put(ExperimentRunInsertEvent((id_,)))
+    run_gid = GlobalID("ExperimentRun", str(id_))
     return CreateExperimentRunResponseBody(
         data=CreateExperimentRunResponseBodyData(id=str(run_gid))
     )
-class ExperimentRunResponse(ExperimentRun):
+class ExperimentRun(ExperimentRunData):
     id: str = Field(description="The ID of the experiment run")
     experiment_id: str = Field(description="The ID of the experiment")
-class ListExperimentRunsResponseBody(ResponseBody[list[ExperimentRunResponse]]):
+class ListExperimentRunsResponseBody(PaginatedResponseBody[ExperimentRun]):
+    pass
+class IncompleteExperimentEvaluation(V1RoutesBaseModel):
+    """
+    Information about an experiment run with incomplete evaluations
+    """
+    experiment_run: ExperimentRun = Field(description="The experiment run")
+    dataset_example: DatasetExample = Field(description="The dataset example")
+    evaluation_names: list[str] = Field(
+        description="List of evaluation names that are incomplete (either missing or failed)"
+    )
+class GetIncompleteEvaluationsResponseBody(PaginatedResponseBody[IncompleteExperimentEvaluation]):
     pass
@@ -135,47 +175,285 @@ class ListExperimentRunsResponseBody(ResponseBody[list[ExperimentRunResponse]]):
     "/experiments/{experiment_id}/runs",
     operation_id="listExperimentRuns",
     summary="List runs for an experiment",
+    description="Retrieve a paginated list of runs for an experiment",
     response_description="Experiment runs retrieved successfully",
     responses=add_errors_to_responses(
-        [{"status_code": HTTP_404_NOT_FOUND, "description": "Experiment not found"}]
+        [
+            {"status_code": 404, "description": "Experiment not found"},
+            {"status_code": 422, "description": "Invalid cursor format"},
+        ]
     ),
 )
 async def list_experiment_runs(
-    request: Request, experiment_id: str
+    request: Request,
+    experiment_id: str,
+    cursor: Optional[str] = Query(
+        default=None,
+        description="Cursor for pagination (base64-encoded experiment run ID)",
+    ),
+    limit: Optional[int] = Query(
+        default=None,
+        description="The max number of experiment runs to return at a time. "
+        "If not specified, returns all results.",
+        gt=0,
+    ),
 ) -> ListExperimentRunsResponseBody:
-    experiment_gid = GlobalID.from_id(experiment_id)
+    try:
+        experiment_gid = GlobalID.from_id(experiment_id)
+    except Exception as e:
+        raise HTTPException(
+            detail=f"Invalid experiment ID format: {experiment_id}",
+            status_code=422,
+        ) from e
     try:
         experiment_rowid = from_global_id_with_expected_type(experiment_gid, "Experiment")
     except ValueError:
         raise HTTPException(
             detail=f"Experiment with ID {experiment_gid} does not exist",
-            status_code=HTTP_404_NOT_FOUND,
+            status_code=404,
         )
+    stmt = (
+        select(models.ExperimentRun)
+        .filter_by(experiment_id=experiment_rowid)
+        .order_by(models.ExperimentRun.id.desc())
+    )
+    if cursor:
+        try:
+            cursor_id = GlobalID.from_id(cursor).node_id
+            stmt = stmt.where(models.ExperimentRun.id <= int(cursor_id))
+        except ValueError:
+            raise HTTPException(
+                detail=f"Invalid cursor format: {cursor}",
+                status_code=422,
+            )
+    # Apply limit only if specified for pagination
+    if limit is not None:
+        stmt = stmt.limit(limit + 1)
     async with request.app.state.db() as session:
-        experiment_runs = await session.execute(
-            select(models.ExperimentRun)
-            .where(models.ExperimentRun.experiment_id == experiment_rowid)
-            # order by dataset_example_id to be consistent with `list_dataset_examples`
-            .order_by(models.ExperimentRun.dataset_example_id.asc())
+        experiment_runs = (await session.scalars(stmt)).all()
+    if not experiment_runs:
+        return ListExperimentRunsResponseBody(next_cursor=None, data=[])
+    next_cursor = None
+    # Only check for next cursor if limit was specified
+    if limit is not None and len(experiment_runs) == limit + 1:
+        last_run = experiment_runs[-1]
+        next_cursor = str(GlobalID("ExperimentRun", str(last_run.id)))
+        experiment_runs = experiment_runs[:-1]
+    runs = []
+    for exp_run in experiment_runs:
+        run_gid = GlobalID("ExperimentRun", str(exp_run.id))
+        experiment_gid = GlobalID("Experiment", str(exp_run.experiment_id))
+        example_gid = GlobalID("DatasetExample", str(exp_run.dataset_example_id))
+        runs.append(
+            ExperimentRun(
+                start_time=exp_run.start_time,
+                end_time=exp_run.end_time,
+                experiment_id=str(experiment_gid),
+                dataset_example_id=str(example_gid),
+                repetition_number=exp_run.repetition_number,
+                output=exp_run.output.get("task_output"),
+                error=exp_run.error,
+                id=str(run_gid),
+                trace_id=exp_run.trace_id,
+            )
+        )
+    return ListExperimentRunsResponseBody(data=runs, next_cursor=next_cursor)
+@router.get(
+    "/experiments/{experiment_id}/incomplete-evaluations",
+    operation_id="getIncompleteExperimentEvaluations",
+    summary="Get incomplete evaluations for an experiment",
+    responses=add_errors_to_responses(
+        [
+            {"status_code": 400, "description": "No evaluator names provided"},
+            {"status_code": 404, "description": "Experiment not found"},
+            {"status_code": 422, "description": "Invalid cursor format"},
+        ]
+    ),
+    response_description="Incomplete evaluations retrieved successfully",
+)
+async def get_incomplete_evaluations(
+    request: Request,
+    experiment_id: str,
+    evaluation_name: list[str] = Query(default=[], description="Evaluation names to check"),
+    cursor: Optional[str] = Query(default=None, description="Cursor for pagination"),
+    limit: int = Query(
+        default=50, description="Maximum number of runs with incomplete evaluations to return", gt=0
+    ),
+) -> GetIncompleteEvaluationsResponseBody:
+    """
+    Get experiment runs that have incomplete evaluations.
+    Returns runs with:
+    - Missing evaluations (evaluator has not been run)
+    - Failed evaluations (evaluator ran but has errors)
+    Args:
+        experiment_id: The ID of the experiment
+        evaluation_name: List of evaluation names to check (required, at least one)
+        cursor: Cursor for pagination
+        limit: Maximum number of results to return
+    Returns:
+        Paginated list of runs with incomplete evaluations
+    """
+    try:
+        experiment_globalid = GlobalID.from_id(experiment_id)
+    except Exception as e:
+        raise HTTPException(
+            detail=f"Invalid experiment ID format: {experiment_id}",
+            status_code=422,
+        ) from e
+    try:
+        experiment_rowid = from_global_id_with_expected_type(experiment_globalid, "Experiment")
+    except ValueError:
+        raise HTTPException(
+            detail=f"Experiment with ID {experiment_globalid} does not exist",
+            status_code=404,
+        )
+    # Parse cursor if provided
+    cursor_run_rowid: Optional[int] = None
+    if cursor:
+        try:
+            cursor_gid = GlobalID.from_id(cursor)
+            cursor_run_rowid = from_global_id_with_expected_type(cursor_gid, "ExperimentRun")
+        except (ValueError, AttributeError):
+            raise HTTPException(
+                detail=f"Invalid cursor format: {cursor}",
+                status_code=422,
+            )
+    # Deduplicate evaluation names
+    evaluation_name = list(set(name.strip() for name in evaluation_name if name.strip()))
+    # Require at least one evaluation name
+    if not evaluation_name:
+        raise HTTPException(
+            detail="At least one evaluation_name must be provided",
+            status_code=400,
+        )
+    # Validate evaluation names - reject null bytes which are invalid in PostgreSQL
+    for name in evaluation_name:
+        if "\x00" in name:
+            raise HTTPException(
+                detail="Invalid evaluation name: null bytes are not allowed",
+                status_code=400,
+            )
+    async with request.app.state.db() as session:
+        # Verify experiment exists
+        experiment_result = await session.execute(
+            select(models.Experiment).filter_by(id=experiment_rowid)
         )
-        experiment_runs = experiment_runs.scalars().all()
-        runs = []
-        for exp_run in experiment_runs:
-            run_gid = GlobalID("ExperimentRun", str(exp_run.id))
-            experiment_gid = GlobalID("Experiment", str(exp_run.experiment_id))
-            example_gid = GlobalID("DatasetExample", str(exp_run.dataset_example_id))
-            runs.append(
-                ExperimentRunResponse(
-                    start_time=exp_run.start_time,
-                    end_time=exp_run.end_time,
-                    experiment_id=str(experiment_gid),
-                    dataset_example_id=str(example_gid),
-                    repetition_number=exp_run.repetition_number,
-                    output=exp_run.output.get("task_output"),
-                    error=exp_run.error,
-                    id=str(run_gid),
-                    trace_id=exp_run.trace_id,
+        experiment = experiment_result.scalar()
+        if not experiment:
+            raise HTTPException(
+                detail=f"Experiment with ID {experiment_globalid} does not exist",
+                status_code=404,
+            )
+        # Query for runs with incomplete evaluations in a single query
+        # This fetches runs, revisions, and annotations together to minimize round-trips
+        # A run has incomplete evaluations if:
+        # 1. It's missing an annotation for any of the requested evaluators
+        # 2. It has a failed annotation (error IS NOT NULL) for any evaluator
+        # Get dialect for SQL generation
+        dialect = request.app.state.db.dialect
+        # Single query: Get runs with incomplete evaluations + their revisions + annotations
+        combined_query = get_runs_with_incomplete_evaluations_query(
+            experiment_rowid,
+            evaluation_name,
+            dialect,
+            cursor_run_rowid=cursor_run_rowid,
+            limit=limit,
+            include_annotations_and_revisions=True,
+        )
+        combined_result = await session.execute(combined_query)
+        all_rows = combined_result.all()
+        if not all_rows:
+            return GetIncompleteEvaluationsResponseBody(data=[], next_cursor=None)
+        # Parse rows - now each row is a single run with successful annotations as JSON array
+        # Each row: (ExperimentRun, revision_id, DatasetExampleRevision, annotations_json)
+        runs_data: list[tuple[models.ExperimentRun, models.DatasetExampleRevision, set[str]]] = []
+        for row in all_rows:
+            run = row[0]  # ExperimentRun
+            revision = row[2]  # DatasetExampleRevision
+            annotations_json = row[3]  # JSON string or None
+            # Parse successful annotation names (just a list of strings now)
+            successful_eval_names: set[str] = set()
+            if annotations_json:
+                successful_eval_names = set(json.loads(annotations_json))
+            runs_data.append((run, revision, successful_eval_names))
+        # Apply pagination limit
+        has_more = len(runs_data) > limit
+        if has_more:
+            runs_to_process = runs_data[:limit]
+        else:
+            runs_to_process = runs_data
+        # Build response
+        incomplete_evaluations_list: list[IncompleteExperimentEvaluation] = []
+        for run, revision, successful_eval_names in runs_to_process:
+            # Determine incomplete evaluation names for this run
+            # Any evaluation not in the successful set is incomplete (either missing or failed)
+            incomplete_evaluation_names = sorted(
+                name for name in evaluation_name if name not in successful_eval_names
+            )
+            run_globalid = GlobalID("ExperimentRun", str(run.id))
+            example_globalid = GlobalID("DatasetExample", str(run.dataset_example_id))
+            incomplete_evaluations_list.append(
+                IncompleteExperimentEvaluation(
+                    experiment_run=ExperimentRun(
+                        id=str(run_globalid),
+                        experiment_id=str(experiment_globalid),
+                        dataset_example_id=str(example_globalid),
+                        output=run.output.get("task_output"),
+                        repetition_number=run.repetition_number,
+                        start_time=run.start_time,
+                        end_time=run.end_time,
+                        trace_id=run.trace_id,
+                        error=run.error,
+                    ),
+                    dataset_example=DatasetExample(
+                        id=str(example_globalid),
+                        input=revision.input,
+                        output=revision.output,
+                        metadata=revision.metadata_,
+                        updated_at=revision.created_at,
+                    ),
+                    evaluation_names=incomplete_evaluation_names,
                 )
             )
-    return ListExperimentRunsResponseBody(data=runs)
+        # Set next cursor if we have more results
+        next_cursor = None
+        if has_more:
+            # Cursor is the ID of the next item to fetch
+            # (the extra item we fetched but didn't process)
+            next_run, _, _ = runs_data[limit]  # First item after our limit
+            next_cursor = str(GlobalID("ExperimentRun", str(next_run.id)))
+        return GetIncompleteEvaluationsResponseBody(
+            data=incomplete_evaluations_list, next_cursor=next_cursor
+        )

arize-phoenix 10.0.4__py3-none-any.whl → 12.28.1__py3-none-any.whl

arize-phoenix 10.0.4py3-none-any.whl → 12.28.1py3-none-any.whl