PyPI - arize-phoenix - Versions diffs - 10.0.4__py3-none-any.whl → 12.28.1__py3-none-any.whl - Mend

arize-phoenix 10.0.4py3-none-any.whl → 12.28.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/METADATA +124 -72
arize_phoenix-12.28.1.dist-info/RECORD +499 -0
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/WHEEL +1 -1
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/licenses/IP_NOTICE +1 -1
phoenix/__generated__/__init__.py +0 -0
phoenix/__generated__/classification_evaluator_configs/__init__.py +20 -0
phoenix/__generated__/classification_evaluator_configs/_document_relevance_classification_evaluator_config.py +17 -0
phoenix/__generated__/classification_evaluator_configs/_hallucination_classification_evaluator_config.py +17 -0
phoenix/__generated__/classification_evaluator_configs/_models.py +18 -0
phoenix/__generated__/classification_evaluator_configs/_tool_selection_classification_evaluator_config.py +17 -0
phoenix/__init__.py +5 -4
phoenix/auth.py +39 -2
phoenix/config.py +1763 -91
phoenix/datetime_utils.py +120 -2
phoenix/db/README.md +595 -25
phoenix/db/bulk_inserter.py +145 -103
phoenix/db/engines.py +140 -33
phoenix/db/enums.py +3 -12
phoenix/db/facilitator.py +302 -35
phoenix/db/helpers.py +1000 -65
phoenix/db/iam_auth.py +64 -0
phoenix/db/insertion/dataset.py +135 -2
phoenix/db/insertion/document_annotation.py +9 -6
phoenix/db/insertion/evaluation.py +2 -3
phoenix/db/insertion/helpers.py +17 -2
phoenix/db/insertion/session_annotation.py +176 -0
phoenix/db/insertion/span.py +15 -11
phoenix/db/insertion/span_annotation.py +3 -4
phoenix/db/insertion/trace_annotation.py +3 -4
phoenix/db/insertion/types.py +50 -20
phoenix/db/migrations/versions/01a8342c9cdf_add_user_id_on_datasets.py +40 -0
phoenix/db/migrations/versions/0df286449799_add_session_annotations_table.py +105 -0
phoenix/db/migrations/versions/272b66ff50f8_drop_single_indices.py +119 -0
phoenix/db/migrations/versions/58228d933c91_dataset_labels.py +67 -0
phoenix/db/migrations/versions/699f655af132_experiment_tags.py +57 -0
phoenix/db/migrations/versions/735d3d93c33e_add_composite_indices.py +41 -0
phoenix/db/migrations/versions/a20694b15f82_cost.py +196 -0
phoenix/db/migrations/versions/ab513d89518b_add_user_id_on_dataset_versions.py +40 -0
phoenix/db/migrations/versions/d0690a79ea51_users_on_experiments.py +40 -0
phoenix/db/migrations/versions/deb2c81c0bb2_dataset_splits.py +139 -0
phoenix/db/migrations/versions/e76cbd66ffc3_add_experiments_dataset_examples.py +87 -0
phoenix/db/models.py +669 -56
phoenix/db/pg_config.py +10 -0
phoenix/db/types/model_provider.py +4 -0
phoenix/db/types/token_price_customization.py +29 -0
phoenix/db/types/trace_retention.py +23 -15
phoenix/experiments/evaluators/utils.py +3 -3
phoenix/experiments/functions.py +160 -52
phoenix/experiments/tracing.py +2 -2
phoenix/experiments/types.py +1 -1
phoenix/inferences/inferences.py +1 -2
phoenix/server/api/auth.py +38 -7
phoenix/server/api/auth_messages.py +46 -0
phoenix/server/api/context.py +100 -4
phoenix/server/api/dataloaders/__init__.py +79 -5
phoenix/server/api/dataloaders/annotation_configs_by_project.py +31 -0
phoenix/server/api/dataloaders/annotation_summaries.py +60 -8
phoenix/server/api/dataloaders/average_experiment_repeated_run_group_latency.py +50 -0
phoenix/server/api/dataloaders/average_experiment_run_latency.py +17 -24
phoenix/server/api/dataloaders/cache/two_tier_cache.py +1 -2
phoenix/server/api/dataloaders/dataset_dataset_splits.py +52 -0
phoenix/server/api/dataloaders/dataset_example_revisions.py +0 -1
phoenix/server/api/dataloaders/dataset_example_splits.py +40 -0
phoenix/server/api/dataloaders/dataset_examples_and_versions_by_experiment_run.py +47 -0
phoenix/server/api/dataloaders/dataset_labels.py +36 -0
phoenix/server/api/dataloaders/document_evaluation_summaries.py +2 -2
phoenix/server/api/dataloaders/document_evaluations.py +6 -9
phoenix/server/api/dataloaders/experiment_annotation_summaries.py +88 -34
phoenix/server/api/dataloaders/experiment_dataset_splits.py +43 -0
phoenix/server/api/dataloaders/experiment_error_rates.py +21 -28
phoenix/server/api/dataloaders/experiment_repeated_run_group_annotation_summaries.py +77 -0
phoenix/server/api/dataloaders/experiment_repeated_run_groups.py +57 -0
phoenix/server/api/dataloaders/experiment_runs_by_experiment_and_example.py +44 -0
phoenix/server/api/dataloaders/last_used_times_by_generative_model_id.py +35 -0
phoenix/server/api/dataloaders/latency_ms_quantile.py +40 -8
phoenix/server/api/dataloaders/record_counts.py +37 -10
phoenix/server/api/dataloaders/session_annotations_by_session.py +29 -0
phoenix/server/api/dataloaders/span_cost_by_span.py +24 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_generative_model.py +56 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_project_session.py +57 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_span.py +43 -0
phoenix/server/api/dataloaders/span_cost_detail_summary_entries_by_trace.py +56 -0
phoenix/server/api/dataloaders/span_cost_details_by_span_cost.py +27 -0
phoenix/server/api/dataloaders/span_cost_summary_by_experiment.py +57 -0
phoenix/server/api/dataloaders/span_cost_summary_by_experiment_repeated_run_group.py +64 -0
phoenix/server/api/dataloaders/span_cost_summary_by_experiment_run.py +58 -0
phoenix/server/api/dataloaders/span_cost_summary_by_generative_model.py +55 -0
phoenix/server/api/dataloaders/span_cost_summary_by_project.py +152 -0
phoenix/server/api/dataloaders/span_cost_summary_by_project_session.py +56 -0
phoenix/server/api/dataloaders/span_cost_summary_by_trace.py +55 -0
phoenix/server/api/dataloaders/span_costs.py +29 -0
phoenix/server/api/dataloaders/table_fields.py +2 -2
phoenix/server/api/dataloaders/token_prices_by_model.py +30 -0
phoenix/server/api/dataloaders/trace_annotations_by_trace.py +27 -0
phoenix/server/api/dataloaders/types.py +29 -0
phoenix/server/api/exceptions.py +11 -1
phoenix/server/api/helpers/dataset_helpers.py +5 -1
phoenix/server/api/helpers/playground_clients.py +1243 -292
phoenix/server/api/helpers/playground_registry.py +2 -2
phoenix/server/api/helpers/playground_spans.py +8 -4
phoenix/server/api/helpers/playground_users.py +26 -0
phoenix/server/api/helpers/prompts/conversions/aws.py +83 -0
phoenix/server/api/helpers/prompts/conversions/google.py +103 -0
phoenix/server/api/helpers/prompts/models.py +205 -22
phoenix/server/api/input_types/{SpanAnnotationFilter.py → AnnotationFilter.py} +22 -14
phoenix/server/api/input_types/ChatCompletionInput.py +6 -2
phoenix/server/api/input_types/CreateProjectInput.py +27 -0
phoenix/server/api/input_types/CreateProjectSessionAnnotationInput.py +37 -0
phoenix/server/api/input_types/DatasetFilter.py +17 -0
phoenix/server/api/input_types/ExperimentRunSort.py +237 -0
phoenix/server/api/input_types/GenerativeCredentialInput.py +9 -0
phoenix/server/api/input_types/GenerativeModelInput.py +5 -0
phoenix/server/api/input_types/ProjectSessionSort.py +161 -1
phoenix/server/api/input_types/PromptFilter.py +14 -0
phoenix/server/api/input_types/PromptVersionInput.py +52 -1
phoenix/server/api/input_types/SpanSort.py +44 -7
phoenix/server/api/input_types/TimeBinConfig.py +23 -0
phoenix/server/api/input_types/UpdateAnnotationInput.py +34 -0
phoenix/server/api/input_types/UserRoleInput.py +1 -0
phoenix/server/api/mutations/__init__.py +10 -0
phoenix/server/api/mutations/annotation_config_mutations.py +8 -8
phoenix/server/api/mutations/api_key_mutations.py +19 -23
phoenix/server/api/mutations/chat_mutations.py +154 -47
phoenix/server/api/mutations/dataset_label_mutations.py +243 -0
phoenix/server/api/mutations/dataset_mutations.py +21 -16
phoenix/server/api/mutations/dataset_split_mutations.py +351 -0
phoenix/server/api/mutations/experiment_mutations.py +2 -2
phoenix/server/api/mutations/export_events_mutations.py +3 -3
phoenix/server/api/mutations/model_mutations.py +210 -0
phoenix/server/api/mutations/project_mutations.py +49 -10
phoenix/server/api/mutations/project_session_annotations_mutations.py +158 -0
phoenix/server/api/mutations/project_trace_retention_policy_mutations.py +8 -4
phoenix/server/api/mutations/prompt_label_mutations.py +74 -65
phoenix/server/api/mutations/prompt_mutations.py +65 -129
phoenix/server/api/mutations/prompt_version_tag_mutations.py +11 -8
phoenix/server/api/mutations/span_annotations_mutations.py +15 -10
phoenix/server/api/mutations/trace_annotations_mutations.py +14 -10
phoenix/server/api/mutations/trace_mutations.py +47 -3
phoenix/server/api/mutations/user_mutations.py +66 -41
phoenix/server/api/queries.py +768 -293
phoenix/server/api/routers/__init__.py +2 -2
phoenix/server/api/routers/auth.py +154 -88
phoenix/server/api/routers/ldap.py +229 -0
phoenix/server/api/routers/oauth2.py +369 -106
phoenix/server/api/routers/v1/__init__.py +24 -4
phoenix/server/api/routers/v1/annotation_configs.py +23 -31
phoenix/server/api/routers/v1/annotations.py +481 -17
phoenix/server/api/routers/v1/datasets.py +395 -81
phoenix/server/api/routers/v1/documents.py +142 -0
phoenix/server/api/routers/v1/evaluations.py +24 -31
phoenix/server/api/routers/v1/experiment_evaluations.py +19 -8
phoenix/server/api/routers/v1/experiment_runs.py +337 -59
phoenix/server/api/routers/v1/experiments.py +479 -48
phoenix/server/api/routers/v1/models.py +7 -0
phoenix/server/api/routers/v1/projects.py +18 -49
phoenix/server/api/routers/v1/prompts.py +54 -40
phoenix/server/api/routers/v1/sessions.py +108 -0
phoenix/server/api/routers/v1/spans.py +1091 -81
phoenix/server/api/routers/v1/traces.py +132 -78
phoenix/server/api/routers/v1/users.py +389 -0
phoenix/server/api/routers/v1/utils.py +3 -7
phoenix/server/api/subscriptions.py +305 -88
phoenix/server/api/types/Annotation.py +90 -23
phoenix/server/api/types/ApiKey.py +13 -17
phoenix/server/api/types/AuthMethod.py +1 -0
phoenix/server/api/types/ChatCompletionSubscriptionPayload.py +1 -0
phoenix/server/api/types/CostBreakdown.py +12 -0
phoenix/server/api/types/Dataset.py +226 -72
phoenix/server/api/types/DatasetExample.py +88 -18
phoenix/server/api/types/DatasetExperimentAnnotationSummary.py +10 -0
phoenix/server/api/types/DatasetLabel.py +57 -0
phoenix/server/api/types/DatasetSplit.py +98 -0
phoenix/server/api/types/DatasetVersion.py +49 -4
phoenix/server/api/types/DocumentAnnotation.py +212 -0
phoenix/server/api/types/Experiment.py +264 -59
phoenix/server/api/types/ExperimentComparison.py +5 -10
phoenix/server/api/types/ExperimentRepeatedRunGroup.py +155 -0
phoenix/server/api/types/ExperimentRepeatedRunGroupAnnotationSummary.py +9 -0
phoenix/server/api/types/ExperimentRun.py +169 -65
phoenix/server/api/types/ExperimentRunAnnotation.py +158 -39
phoenix/server/api/types/GenerativeModel.py +245 -3
phoenix/server/api/types/GenerativeProvider.py +70 -11
phoenix/server/api/types/{Model.py → InferenceModel.py} +1 -1
phoenix/server/api/types/ModelInterface.py +16 -0
phoenix/server/api/types/PlaygroundModel.py +20 -0
phoenix/server/api/types/Project.py +1278 -216
phoenix/server/api/types/ProjectSession.py +188 -28
phoenix/server/api/types/ProjectSessionAnnotation.py +187 -0
phoenix/server/api/types/ProjectTraceRetentionPolicy.py +1 -1
phoenix/server/api/types/Prompt.py +119 -39
phoenix/server/api/types/PromptLabel.py +42 -25
phoenix/server/api/types/PromptVersion.py +11 -8
phoenix/server/api/types/PromptVersionTag.py +65 -25
phoenix/server/api/types/ServerStatus.py +6 -0
phoenix/server/api/types/Span.py +167 -123
phoenix/server/api/types/SpanAnnotation.py +189 -42
phoenix/server/api/types/SpanCostDetailSummaryEntry.py +10 -0
phoenix/server/api/types/SpanCostSummary.py +10 -0
phoenix/server/api/types/SystemApiKey.py +65 -1
phoenix/server/api/types/TokenPrice.py +16 -0
phoenix/server/api/types/TokenUsage.py +3 -3
phoenix/server/api/types/Trace.py +223 -51
phoenix/server/api/types/TraceAnnotation.py +149 -50
phoenix/server/api/types/User.py +137 -32
phoenix/server/api/types/UserApiKey.py +73 -26
phoenix/server/api/types/node.py +10 -0
phoenix/server/api/types/pagination.py +11 -2
phoenix/server/app.py +290 -45
phoenix/server/authorization.py +38 -3
phoenix/server/bearer_auth.py +34 -24
phoenix/server/cost_tracking/cost_details_calculator.py +196 -0
phoenix/server/cost_tracking/cost_model_lookup.py +179 -0
phoenix/server/cost_tracking/helpers.py +68 -0
phoenix/server/cost_tracking/model_cost_manifest.json +3657 -830
phoenix/server/cost_tracking/regex_specificity.py +397 -0
phoenix/server/cost_tracking/token_cost_calculator.py +57 -0
phoenix/server/daemons/__init__.py +0 -0
phoenix/server/daemons/db_disk_usage_monitor.py +214 -0
phoenix/server/daemons/generative_model_store.py +103 -0
phoenix/server/daemons/span_cost_calculator.py +99 -0
phoenix/server/dml_event.py +17 -0
phoenix/server/dml_event_handler.py +5 -0
phoenix/server/email/sender.py +56 -3
phoenix/server/email/templates/db_disk_usage_notification.html +19 -0
phoenix/server/email/types.py +11 -0
phoenix/server/experiments/__init__.py +0 -0
phoenix/server/experiments/utils.py +14 -0
phoenix/server/grpc_server.py +11 -11
phoenix/server/jwt_store.py +17 -15
phoenix/server/ldap.py +1449 -0
phoenix/server/main.py +26 -10
phoenix/server/oauth2.py +330 -12
phoenix/server/prometheus.py +66 -6
phoenix/server/rate_limiters.py +4 -9
phoenix/server/retention.py +33 -20
phoenix/server/session_filters.py +49 -0
phoenix/server/static/.vite/manifest.json +55 -51
phoenix/server/static/assets/components-BreFUQQa.js +6702 -0
phoenix/server/static/assets/{index-E0M82BdE.js → index-CTQoemZv.js} +140 -56
phoenix/server/static/assets/pages-DBE5iYM3.js +9524 -0
phoenix/server/static/assets/vendor-BGzfc4EU.css +1 -0
phoenix/server/static/assets/vendor-DCE4v-Ot.js +920 -0
phoenix/server/static/assets/vendor-codemirror-D5f205eT.js +25 -0
phoenix/server/static/assets/vendor-recharts-V9cwpXsm.js +37 -0
phoenix/server/static/assets/vendor-shiki-Do--csgv.js +5 -0
phoenix/server/static/assets/vendor-three-CmB8bl_y.js +3840 -0
phoenix/server/templates/index.html +40 -6
phoenix/server/thread_server.py +1 -2
phoenix/server/types.py +14 -4
phoenix/server/utils.py +74 -0
phoenix/session/client.py +56 -3
phoenix/session/data_extractor.py +5 -0
phoenix/session/evaluation.py +14 -5
phoenix/session/session.py +45 -9
phoenix/settings.py +5 -0
phoenix/trace/attributes.py +80 -13
phoenix/trace/dsl/helpers.py +90 -1
phoenix/trace/dsl/query.py +8 -6
phoenix/trace/projects.py +5 -0
phoenix/utilities/template_formatters.py +1 -1
phoenix/version.py +1 -1
arize_phoenix-10.0.4.dist-info/RECORD +0 -405
phoenix/server/api/types/Evaluation.py +0 -39
phoenix/server/cost_tracking/cost_lookup.py +0 -255
phoenix/server/static/assets/components-DULKeDfL.js +0 -4365
phoenix/server/static/assets/pages-Cl0A-0U2.js +0 -7430
phoenix/server/static/assets/vendor-WIZid84E.css +0 -1
phoenix/server/static/assets/vendor-arizeai-Dy-0mSNw.js +0 -649
phoenix/server/static/assets/vendor-codemirror-DBtifKNr.js +0 -33
phoenix/server/static/assets/vendor-oB4u9zuV.js +0 -905
phoenix/server/static/assets/vendor-recharts-D-T4KPz2.js +0 -59
phoenix/server/static/assets/vendor-shiki-BMn4O_9F.js +0 -5
phoenix/server/static/assets/vendor-three-C5WAXd5r.js +0 -2998
phoenix/utilities/deprecation.py +0 -31
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/entry_points.txt +0 -0
{arize_phoenix-10.0.4.dist-info → arize_phoenix-12.28.1.dist-info}/licenses/LICENSE +0 -0

phoenix/server/api/mutations/chat_mutations.py CHANGED Viewed

@@ -1,9 +1,10 @@
 import asyncio
+import logging
 from dataclasses import asdict, field
 from datetime import datetime, timezone
 from itertools import chain, islice
 from traceback import format_exc
-from typing import Any, Iterable, Iterator, List, Optional, TypeVar, Union
+from typing import Any, Iterable, Iterator, Optional, TypeVar, Union
 import strawberry
 from openinference.instrumentation import safe_json_dumps
@@ -22,14 +23,19 @@ from strawberry.relay import GlobalID
 from strawberry.types import Info
 from typing_extensions import assert_never
+from phoenix.config import PLAYGROUND_PROJECT_NAME
 from phoenix.datetime_utils import local_now, normalize_datetime
 from phoenix.db import models
-from phoenix.db.helpers import get_dataset_example_revisions
-from phoenix.server.api.auth import IsLocked, IsNotReadOnly
+from phoenix.db.helpers import (
+    get_dataset_example_revisions,
+    insert_experiment_with_examples_snapshot,
+)
+from phoenix.server.api.auth import IsLocked, IsNotReadOnly, IsNotViewer
 from phoenix.server.api.context import Context
 from phoenix.server.api.exceptions import BadRequest, CustomGraphQLError, NotFound
 from phoenix.server.api.helpers.dataset_helpers import get_dataset_example_output
 from phoenix.server.api.helpers.playground_clients import (
+    PlaygroundClientCredential,
     PlaygroundStreamingClient,
     initialize_playground_clients,
 )
@@ -43,6 +49,7 @@ from phoenix.server.api.helpers.playground_spans import (
     llm_tools,
     prompt_metadata,
 )
+from phoenix.server.api.helpers.playground_users import get_user
 from phoenix.server.api.helpers.prompts.models import PromptTemplateFormat
 from phoenix.server.api.input_types.ChatCompletionInput import (
     ChatCompletionInput,
@@ -62,6 +69,7 @@ from phoenix.server.api.types.DatasetVersion import DatasetVersion
 from phoenix.server.api.types.node import from_global_id_with_expected_type
 from phoenix.server.api.types.Span import Span
 from phoenix.server.dml_event import SpanInsertEvent
+from phoenix.server.experiments.utils import generate_experiment_project_name
 from phoenix.trace.attributes import unflatten
 from phoenix.trace.schemas import SpanException
 from phoenix.utilities.json import jsonify
@@ -72,9 +80,11 @@ from phoenix.utilities.template_formatters import (
     TemplateFormatter,
 )
+logger = logging.getLogger(__name__)
 initialize_playground_clients()
-ChatCompletionMessage = tuple[ChatCompletionMessageRole, str, Optional[str], Optional[List[Any]]]
+ChatCompletionMessage = tuple[ChatCompletionMessageRole, str, Optional[str], Optional[list[Any]]]
 @strawberry.type
@@ -90,24 +100,25 @@ class ChatCompletionToolCall:
 @strawberry.type
-class ChatCompletionMutationPayload:
-    db_span: strawberry.Private[models.Span]
+class ChatCompletionRepetition:
+    repetition_number: int
     content: Optional[str]
-    tool_calls: List[ChatCompletionToolCall]
-    span: Span
+    tool_calls: list[ChatCompletionToolCall]
+    span: Optional[Span]
     error_message: Optional[str]
 @strawberry.type
-class ChatCompletionMutationError:
-    message: str
+class ChatCompletionMutationPayload:
+    repetitions: list[ChatCompletionRepetition]
 @strawberry.type
 class ChatCompletionOverDatasetMutationExamplePayload:
     dataset_example_id: GlobalID
+    repetition_number: int
     experiment_run_id: GlobalID
-    result: Union[ChatCompletionMutationPayload, ChatCompletionMutationError]
+    repetition: ChatCompletionRepetition
 @strawberry.type
@@ -120,7 +131,7 @@ class ChatCompletionOverDatasetMutationPayload:
 @strawberry.type
 class ChatCompletionMutationMixin:
-    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsLocked])  # type: ignore
+    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsNotViewer, IsLocked])  # type: ignore
     @classmethod
     async def chat_completion_over_dataset(
         cls,
@@ -132,9 +143,17 @@ class ChatCompletionMutationMixin:
         if llm_client_class is None:
             raise BadRequest(f"Unknown LLM provider: '{provider_key.value}'")
         try:
+            # Convert GraphQL credentials to PlaygroundCredential objects
+            credentials = None
+            if input.credentials:
+                credentials = [
+                    PlaygroundClientCredential(env_var_name=cred.env_var_name, value=cred.value)
+                    for cred in input.credentials
+                ]
             llm_client = llm_client_class(
                 model=input.model,
-                api_key=input.api_key,
+                credentials=credentials,
             )
         except CustomGraphQLError:
             raise
@@ -151,6 +170,7 @@ class ChatCompletionMutationMixin:
             if input.dataset_version_id
             else None
         )
+        project_name = generate_experiment_project_name()
         async with info.context.db() as session:
             dataset = await session.scalar(select(models.Dataset).filter_by(id=dataset_id))
             if dataset is None:
@@ -166,16 +186,26 @@ class ChatCompletionMutationMixin:
                     raise NotFound("No versions found for the given dataset")
             else:
                 resolved_version_id = dataset_version_id
+            # Parse split IDs if provided
+            resolved_split_ids: Optional[list[int]] = None
+            if input.split_ids is not None and len(input.split_ids) > 0:
+                resolved_split_ids = [
+                    from_global_id_with_expected_type(split_id, models.DatasetSplit.__name__)
+                    for split_id in input.split_ids
+                ]
             revisions = [
                 revision
                 async for revision in await session.stream_scalars(
-                    get_dataset_example_revisions(resolved_version_id).order_by(
-                        models.DatasetExampleRevision.id
-                    )
+                    get_dataset_example_revisions(
+                        resolved_version_id,
+                        split_ids=resolved_split_ids,
+                    ).order_by(models.DatasetExampleRevision.id)
                 )
             ]
             if not revisions:
                 raise NotFound("No examples found for the given dataset and version")
+            user_id = get_user(info)
             experiment = models.Experiment(
                 dataset_id=from_global_id_with_expected_type(input.dataset_id, Dataset.__name__),
                 dataset_version_id=resolved_version_id,
@@ -184,15 +214,25 @@ class ChatCompletionMutationMixin:
                 description=input.experiment_description,
                 repetitions=1,
                 metadata_=input.experiment_metadata or dict(),
-                project_name=PLAYGROUND_PROJECT_NAME,
+                project_name=project_name,
+                user_id=user_id,
             )
-            session.add(experiment)
-            await session.flush()
-        results: list[Union[ChatCompletionMutationPayload, BaseException]] = []
+            if resolved_split_ids:
+                experiment.experiment_dataset_splits = [
+                    models.ExperimentDatasetSplit(dataset_split_id=split_id)
+                    for split_id in resolved_split_ids
+                ]
+            await insert_experiment_with_examples_snapshot(session, experiment)
+        results: list[Union[tuple[ChatCompletionRepetition, models.Span], BaseException]] = []
         batch_size = 3
         start_time = datetime.now(timezone.utc)
-        for batch in _get_batches(revisions, batch_size):
+        unbatched_items = [
+            (revision, repetition_number)
+            for revision in revisions
+            for repetition_number in range(1, input.repetitions + 1)
+        ]
+        for batch in _get_batches(unbatched_items, batch_size):
             batch_results = await asyncio.gather(
                 *(
                     cls._chat_completion(
@@ -200,7 +240,7 @@ class ChatCompletionMutationMixin:
                         llm_client,
                         ChatCompletionInput(
                             model=input.model,
-                            api_key=input.api_key,
+                            credentials=input.credentials,
                             messages=input.messages,
                             tools=input.tools,
                             invocation_parameters=input.invocation_parameters,
@@ -209,9 +249,12 @@ class ChatCompletionMutationMixin:
                                 variables=revision.input,
                             ),
                             prompt_name=input.prompt_name,
+                            repetitions=repetition_number,
                         ),
+                        repetition_number=repetition_number,
+                        project_name=project_name,
                     )
-                    for revision in batch
+                    for revision, repetition_number in batch
                 ),
                 return_exceptions=True,
             )
@@ -223,19 +266,19 @@ class ChatCompletionMutationMixin:
             experiment_id=GlobalID(models.Experiment.__name__, str(experiment.id)),
         )
         experiment_runs = []
-        for revision, result in zip(revisions, results):
+        for (revision, repetition_number), result in zip(unbatched_items, results):
             if isinstance(result, BaseException):
                 experiment_run = models.ExperimentRun(
                     experiment_id=experiment.id,
                     dataset_example_id=revision.dataset_example_id,
                     output={},
-                    repetition_number=1,
+                    repetition_number=repetition_number,
                     start_time=start_time,
                     end_time=start_time,
                     error=str(result),
                 )
             else:
-                db_span: models.Span = result.db_span
+                repetition, db_span = result
                 experiment_run = models.ExperimentRun(
                     experiment_id=experiment.id,
                     dataset_example_id=revision.dataset_example_id,
@@ -245,10 +288,10 @@ class ChatCompletionMutationMixin:
                     ),
                     prompt_token_count=db_span.cumulative_llm_token_count_prompt,
                     completion_token_count=db_span.cumulative_llm_token_count_completion,
-                    repetition_number=1,
+                    repetition_number=repetition_number,
                     start_time=db_span.start_time,
                     end_time=db_span.end_time,
-                    error=str(result.error_message) if result.error_message else None,
+                    error=str(repetition.error_message) if repetition.error_message else None,
                 )
             experiment_runs.append(experiment_run)
@@ -256,22 +299,31 @@ class ChatCompletionMutationMixin:
             session.add_all(experiment_runs)
             await session.flush()
-        for revision, experiment_run, result in zip(revisions, experiment_runs, results):
+        for (revision, repetition_number), experiment_run, result in zip(
+            unbatched_items, experiment_runs, results
+        ):
             dataset_example_id = GlobalID(
                 models.DatasetExample.__name__, str(revision.dataset_example_id)
             )
             experiment_run_id = GlobalID(models.ExperimentRun.__name__, str(experiment_run.id))
             example_payload = ChatCompletionOverDatasetMutationExamplePayload(
                 dataset_example_id=dataset_example_id,
+                repetition_number=repetition_number,
                 experiment_run_id=experiment_run_id,
-                result=result
-                if isinstance(result, ChatCompletionMutationPayload)
-                else ChatCompletionMutationError(message=str(result)),
+                repetition=ChatCompletionRepetition(
+                    repetition_number=repetition_number,
+                    content=None,
+                    tool_calls=[],
+                    span=None,
+                    error_message=str(result),
+                )
+                if isinstance(result, BaseException)
+                else result[0],
             )
             payload.examples.append(example_payload)
         return payload
-    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsLocked])  # type: ignore
+    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsNotViewer, IsLocked])  # type: ignore
     @classmethod
     async def chat_completion(
         cls, info: Info[Context, None], input: ChatCompletionInput
@@ -281,9 +333,17 @@ class ChatCompletionMutationMixin:
         if llm_client_class is None:
             raise BadRequest(f"Unknown LLM provider: '{provider_key.value}'")
         try:
+            # Convert GraphQL credentials to PlaygroundCredential objects
+            credentials = None
+            if input.credentials:
+                credentials = [
+                    PlaygroundClientCredential(env_var_name=cred.env_var_name, value=cred.value)
+                    for cred in input.credentials
+                ]
             llm_client = llm_client_class(
                 model=input.model,
-                api_key=input.api_key,
+                credentials=credentials,
             )
         except CustomGraphQLError:
             raise
@@ -292,7 +352,38 @@ class ChatCompletionMutationMixin:
                 f"Failed to connect to LLM API for {provider_key.value} {input.model.name}: "
                 f"{str(error)}"
             )
-        return await cls._chat_completion(info, llm_client, input)
+        results: list[Union[tuple[ChatCompletionRepetition, models.Span], BaseException]] = []
+        batch_size = 3
+        for batch in _get_batches(range(1, input.repetitions + 1), batch_size):
+            batch_results = await asyncio.gather(
+                *(
+                    cls._chat_completion(
+                        info, llm_client, input, repetition_number=repetition_number
+                    )
+                    for repetition_number in batch
+                ),
+                return_exceptions=True,
+            )
+            results.extend(batch_results)
+        repetitions: list[ChatCompletionRepetition] = []
+        for repetition_number, result in enumerate(results, start=1):
+            if isinstance(result, BaseException):
+                repetitions.append(
+                    ChatCompletionRepetition(
+                        repetition_number=repetition_number,
+                        content=None,
+                        tool_calls=[],
+                        span=None,
+                        error_message=str(result),
+                    )
+                )
+            else:
+                repetition, _ = result
+                repetitions.append(repetition)
+        return ChatCompletionMutationPayload(repetitions=repetitions)
     @classmethod
     async def _chat_completion(
@@ -300,7 +391,10 @@ class ChatCompletionMutationMixin:
         info: Info[Context, None],
         llm_client: PlaygroundStreamingClient,
         input: ChatCompletionInput,
-    ) -> ChatCompletionMutationPayload:
+        repetition_number: int,
+        project_name: str = PLAYGROUND_PROJECT_NAME,
+        project_description: str = "Traces from prompt playground",
+    ) -> tuple[ChatCompletionRepetition, models.Span]:
         attributes: dict[str, Any] = {}
         attributes.update(dict(prompt_metadata(input.prompt_name)))
@@ -394,15 +488,15 @@ class ChatCompletionMutationMixin:
             # Get or create the project ID
             if (
                 project_id := await session.scalar(
-                    select(models.Project.id).where(models.Project.name == PLAYGROUND_PROJECT_NAME)
+                    select(models.Project.id).where(models.Project.name == project_name)
                 )
             ) is None:
                 project_id = await session.scalar(
                     insert(models.Project)
                     .returning(models.Project.id)
                     .values(
-                        name=PLAYGROUND_PROJECT_NAME,
-                        description="Traces from prompt playground",
+                        name=project_name,
+                        description=project_description,
                     )
                 )
             trace = models.Trace(
@@ -433,27 +527,41 @@ class ChatCompletionMutationMixin:
             session.add(trace)
             session.add(span)
             await session.flush()
+            try:
+                span_cost = info.context.span_cost_calculator.calculate_cost(
+                    start_time=span.start_time,
+                    attributes=span.attributes,
+                )
+            except Exception as e:
+                logger.exception(f"Failed to calculate cost for span {span.id}: {e}")
+                span_cost = None
+            if span_cost:
+                span_cost.span_rowid = span.id
+                span_cost.trace_rowid = trace.id
+                session.add(span_cost)
+                await session.flush()
-        gql_span = Span(span_rowid=span.id, db_span=span)
+        gql_span = Span(id=span.id, db_record=span)
         info.context.event_queue.put(SpanInsertEvent(ids=(project_id,)))
         if status_code is StatusCode.ERROR:
-            return ChatCompletionMutationPayload(
-                db_span=span,
+            repetition = ChatCompletionRepetition(
+                repetition_number=repetition_number,
                 content=None,
                 tool_calls=[],
                 span=gql_span,
                 error_message=status_message,
             )
         else:
-            return ChatCompletionMutationPayload(
-                db_span=span,
+            repetition = ChatCompletionRepetition(
+                repetition_number=repetition_number,
                 content=text_content if text_content else None,
                 tool_calls=list(tool_calls.values()),
                 span=gql_span,
                 error_message=None,
             )
+        return repetition, span
 def _formatted_messages(
@@ -588,5 +696,4 @@ TOOL_CALL_FUNCTION_ARGUMENTS_JSON = ToolCallAttributes.TOOL_CALL_FUNCTION_ARGUME
 TOOL_JSON_SCHEMA = ToolAttributes.TOOL_JSON_SCHEMA
 PROMPT_TEMPLATE_VARIABLES = SpanAttributes.LLM_PROMPT_TEMPLATE_VARIABLES
-PLAYGROUND_PROJECT_NAME = "playground"
+LLM_PROVIDER = SpanAttributes.LLM_PROVIDER

phoenix/server/api/mutations/dataset_label_mutations.py ADDED Viewed

@@ -0,0 +1,243 @@
+from typing import Optional
+import sqlalchemy
+import strawberry
+from sqlalchemy import delete, select
+from sqlalchemy.exc import IntegrityError as PostgreSQLIntegrityError
+from sqlalchemy.orm import joinedload
+from sqlalchemy.sql import tuple_
+from sqlean.dbapi2 import IntegrityError as SQLiteIntegrityError  # type: ignore[import-untyped]
+from strawberry import UNSET
+from strawberry.relay.types import GlobalID
+from strawberry.types import Info
+from phoenix.db import models
+from phoenix.server.api.auth import IsLocked, IsNotReadOnly, IsNotViewer
+from phoenix.server.api.context import Context
+from phoenix.server.api.exceptions import BadRequest, Conflict, NotFound
+from phoenix.server.api.queries import Query
+from phoenix.server.api.types.Dataset import Dataset
+from phoenix.server.api.types.DatasetLabel import DatasetLabel
+from phoenix.server.api.types.node import from_global_id_with_expected_type
+@strawberry.input
+class CreateDatasetLabelInput:
+    name: str
+    description: Optional[str] = UNSET
+    color: str
+    dataset_ids: Optional[list[GlobalID]] = UNSET
+@strawberry.type
+class CreateDatasetLabelMutationPayload:
+    dataset_label: DatasetLabel
+    datasets: list[Dataset]
+@strawberry.input
+class DeleteDatasetLabelsInput:
+    dataset_label_ids: list[GlobalID]
+@strawberry.type
+class DeleteDatasetLabelsMutationPayload:
+    dataset_labels: list[DatasetLabel]
+@strawberry.input
+class SetDatasetLabelsInput:
+    dataset_id: GlobalID
+    dataset_label_ids: list[GlobalID]
+@strawberry.type
+class SetDatasetLabelsMutationPayload:
+    query: Query
+    dataset: Dataset
+@strawberry.type
+class DatasetLabelMutationMixin:
+    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsNotViewer, IsLocked])  # type: ignore
+    async def create_dataset_label(
+        self,
+        info: Info[Context, None],
+        input: CreateDatasetLabelInput,
+    ) -> CreateDatasetLabelMutationPayload:
+        name = input.name
+        description = input.description
+        color = input.color
+        dataset_rowids: dict[
+            int, None
+        ] = {}  # use dictionary to de-duplicate while preserving order
+        if input.dataset_ids:
+            for dataset_id in input.dataset_ids:
+                try:
+                    dataset_rowid = from_global_id_with_expected_type(dataset_id, Dataset.__name__)
+                except ValueError:
+                    raise BadRequest(f"Invalid dataset ID: {dataset_id}")
+                dataset_rowids[dataset_rowid] = None
+        async with info.context.db() as session:
+            dataset_label_orm = models.DatasetLabel(name=name, description=description, color=color)
+            session.add(dataset_label_orm)
+            try:
+                await session.flush()
+            except (PostgreSQLIntegrityError, SQLiteIntegrityError):
+                raise Conflict(f"A dataset label named '{name}' already exists")
+            except sqlalchemy.exc.StatementError as error:
+                raise BadRequest(str(error.orig))
+            datasets_by_id: dict[int, models.Dataset] = {}
+            if dataset_rowids:
+                datasets_by_id = {
+                    dataset.id: dataset
+                    for dataset in await session.scalars(
+                        select(models.Dataset).where(models.Dataset.id.in_(dataset_rowids.keys()))
+                    )
+                }
+                if len(datasets_by_id) < len(dataset_rowids):
+                    raise NotFound("One or more datasets not found")
+                session.add_all(
+                    [
+                        models.DatasetsDatasetLabel(
+                            dataset_id=dataset_rowid,
+                            dataset_label_id=dataset_label_orm.id,
+                        )
+                        for dataset_rowid in dataset_rowids
+                    ]
+                )
+                await session.commit()
+        return CreateDatasetLabelMutationPayload(
+            dataset_label=DatasetLabel(id=dataset_label_orm.id, db_record=dataset_label_orm),
+            datasets=[
+                Dataset(
+                    id=datasets_by_id[dataset_rowid].id, db_record=datasets_by_id[dataset_rowid]
+                )
+                for dataset_rowid in dataset_rowids
+            ],
+        )
+    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsNotViewer, IsLocked])  # type: ignore
+    async def delete_dataset_labels(
+        self, info: Info[Context, None], input: DeleteDatasetLabelsInput
+    ) -> DeleteDatasetLabelsMutationPayload:
+        dataset_label_row_ids: dict[int, None] = {}
+        for dataset_label_node_id in input.dataset_label_ids:
+            try:
+                dataset_label_row_id = from_global_id_with_expected_type(
+                    dataset_label_node_id, DatasetLabel.__name__
+                )
+            except ValueError:
+                raise BadRequest(f"Unknown dataset label: {dataset_label_node_id}")
+            dataset_label_row_ids[dataset_label_row_id] = None
+        async with info.context.db() as session:
+            stmt = (
+                delete(models.DatasetLabel)
+                .where(models.DatasetLabel.id.in_(dataset_label_row_ids.keys()))
+                .returning(models.DatasetLabel)
+            )
+            deleted_dataset_labels = (await session.scalars(stmt)).all()
+            if len(deleted_dataset_labels) < len(dataset_label_row_ids):
+                await session.rollback()
+                raise NotFound("Could not find one or more dataset labels with given IDs")
+        deleted_dataset_labels_by_id = {
+            dataset_label.id: dataset_label for dataset_label in deleted_dataset_labels
+        }
+        return DeleteDatasetLabelsMutationPayload(
+            dataset_labels=[
+                DatasetLabel(
+                    id=deleted_dataset_labels_by_id[dataset_label_row_id].id,
+                    db_record=deleted_dataset_labels_by_id[dataset_label_row_id],
+                )
+                for dataset_label_row_id in dataset_label_row_ids
+            ]
+        )
+    @strawberry.mutation(permission_classes=[IsNotReadOnly, IsNotViewer, IsLocked])  # type: ignore
+    async def set_dataset_labels(
+        self, info: Info[Context, None], input: SetDatasetLabelsInput
+    ) -> SetDatasetLabelsMutationPayload:
+        try:
+            dataset_id = from_global_id_with_expected_type(input.dataset_id, Dataset.__name__)
+        except ValueError:
+            raise BadRequest(f"Invalid dataset ID: {input.dataset_id}")
+        dataset_label_ids: dict[
+            int, None
+        ] = {}  # use dictionary to de-duplicate while preserving order
+        for dataset_label_gid in input.dataset_label_ids:
+            try:
+                dataset_label_id = from_global_id_with_expected_type(
+                    dataset_label_gid, DatasetLabel.__name__
+                )
+            except ValueError:
+                raise BadRequest(f"Invalid dataset label ID: {dataset_label_gid}")
+            dataset_label_ids[dataset_label_id] = None
+        async with info.context.db() as session:
+            dataset = await session.scalar(
+                select(models.Dataset)
+                .where(models.Dataset.id == dataset_id)
+                .options(joinedload(models.Dataset.datasets_dataset_labels))
+            )
+            if not dataset:
+                raise NotFound(f"Dataset with ID {input.dataset_id} not found")
+            existing_label_ids = (
+                await session.scalars(
+                    select(models.DatasetLabel.id).where(
+                        models.DatasetLabel.id.in_(dataset_label_ids.keys())
+                    )
+                )
+            ).all()
+            if len(existing_label_ids) != len(dataset_label_ids):
+                raise NotFound("One or more dataset labels not found")
+            previously_applied_dataset_label_ids = {
+                dataset_dataset_label.dataset_label_id
+                for dataset_dataset_label in dataset.datasets_dataset_labels
+            }
+            datasets_dataset_labels_to_add = [
+                models.DatasetsDatasetLabel(
+                    dataset_id=dataset_id,
+                    dataset_label_id=dataset_label_id,
+                )
+                for dataset_label_id in dataset_label_ids
+                if dataset_label_id not in previously_applied_dataset_label_ids
+            ]
+            if datasets_dataset_labels_to_add:
+                session.add_all(datasets_dataset_labels_to_add)
+                await session.flush()
+            datasets_dataset_labels_to_delete = [
+                dataset_dataset_label
+                for dataset_dataset_label in dataset.datasets_dataset_labels
+                if dataset_dataset_label.dataset_label_id not in dataset_label_ids
+            ]
+            if datasets_dataset_labels_to_delete:
+                await session.execute(
+                    delete(models.DatasetsDatasetLabel).where(
+                        tuple_(
+                            models.DatasetsDatasetLabel.dataset_id,
+                            models.DatasetsDatasetLabel.dataset_label_id,
+                        ).in_(
+                            [
+                                (
+                                    datasets_dataset_labels.dataset_id,
+                                    datasets_dataset_labels.dataset_label_id,
+                                )
+                                for datasets_dataset_labels in datasets_dataset_labels_to_delete
+                            ]
+                        )
+                    )
+                )
+        return SetDatasetLabelsMutationPayload(
+            dataset=Dataset(id=dataset.id, db_record=dataset),
+            query=Query(),
+        )

arize-phoenix 10.0.4__py3-none-any.whl → 12.28.1__py3-none-any.whl

arize-phoenix 10.0.4py3-none-any.whl → 12.28.1py3-none-any.whl