PyPI - arize-phoenix - Versions diffs - 3.16.1__py3-none-any.whl → 7.7.0__py3-none-any.whl - Mend

arize-phoenix 3.16.1py3-none-any.whl → 7.7.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of arize-phoenix might be problematic. Click here for more details.

Files changed (338) hide show

arize_phoenix-7.7.0.dist-info/METADATA +261 -0
arize_phoenix-7.7.0.dist-info/RECORD +345 -0
{arize_phoenix-3.16.1.dist-info → arize_phoenix-7.7.0.dist-info}/WHEEL +1 -1
arize_phoenix-7.7.0.dist-info/entry_points.txt +3 -0
phoenix/__init__.py +86 -14
phoenix/auth.py +309 -0
phoenix/config.py +675 -45
phoenix/core/model.py +32 -30
phoenix/core/model_schema.py +102 -109
phoenix/core/model_schema_adapter.py +48 -45
phoenix/datetime_utils.py +24 -3
phoenix/db/README.md +54 -0
phoenix/db/__init__.py +4 -0
phoenix/db/alembic.ini +85 -0
phoenix/db/bulk_inserter.py +294 -0
phoenix/db/engines.py +208 -0
phoenix/db/enums.py +20 -0
phoenix/db/facilitator.py +113 -0
phoenix/db/helpers.py +159 -0
phoenix/db/insertion/constants.py +2 -0
phoenix/db/insertion/dataset.py +227 -0
phoenix/db/insertion/document_annotation.py +171 -0
phoenix/db/insertion/evaluation.py +191 -0
phoenix/db/insertion/helpers.py +98 -0
phoenix/db/insertion/span.py +193 -0
phoenix/db/insertion/span_annotation.py +158 -0
phoenix/db/insertion/trace_annotation.py +158 -0
phoenix/db/insertion/types.py +256 -0
phoenix/db/migrate.py +86 -0
phoenix/db/migrations/data_migration_scripts/populate_project_sessions.py +199 -0
phoenix/db/migrations/env.py +114 -0
phoenix/db/migrations/script.py.mako +26 -0
phoenix/db/migrations/versions/10460e46d750_datasets.py +317 -0
phoenix/db/migrations/versions/3be8647b87d8_add_token_columns_to_spans_table.py +126 -0
phoenix/db/migrations/versions/4ded9e43755f_create_project_sessions_table.py +66 -0
phoenix/db/migrations/versions/cd164e83824f_users_and_tokens.py +157 -0
phoenix/db/migrations/versions/cf03bd6bae1d_init.py +280 -0
phoenix/db/models.py +807 -0
phoenix/exceptions.py +5 -1
phoenix/experiments/__init__.py +6 -0
phoenix/experiments/evaluators/__init__.py +29 -0
phoenix/experiments/evaluators/base.py +158 -0
phoenix/experiments/evaluators/code_evaluators.py +184 -0
phoenix/experiments/evaluators/llm_evaluators.py +473 -0
phoenix/experiments/evaluators/utils.py +236 -0
phoenix/experiments/functions.py +772 -0
phoenix/experiments/tracing.py +86 -0
phoenix/experiments/types.py +726 -0
phoenix/experiments/utils.py +25 -0
phoenix/inferences/__init__.py +0 -0
phoenix/{datasets → inferences}/errors.py +6 -5
phoenix/{datasets → inferences}/fixtures.py +49 -42
phoenix/{datasets/dataset.py → inferences/inferences.py} +121 -105
phoenix/{datasets → inferences}/schema.py +11 -11
phoenix/{datasets → inferences}/validation.py +13 -14
phoenix/logging/__init__.py +3 -0
phoenix/logging/_config.py +90 -0
phoenix/logging/_filter.py +6 -0
phoenix/logging/_formatter.py +69 -0
phoenix/metrics/__init__.py +5 -4
phoenix/metrics/binning.py +4 -3
phoenix/metrics/metrics.py +2 -1
phoenix/metrics/mixins.py +7 -6
phoenix/metrics/retrieval_metrics.py +2 -1
phoenix/metrics/timeseries.py +5 -4
phoenix/metrics/wrappers.py +9 -3
phoenix/pointcloud/clustering.py +5 -5
phoenix/pointcloud/pointcloud.py +7 -5
phoenix/pointcloud/projectors.py +5 -6
phoenix/pointcloud/umap_parameters.py +53 -52
phoenix/server/api/README.md +28 -0
phoenix/server/api/auth.py +44 -0
phoenix/server/api/context.py +152 -9
phoenix/server/api/dataloaders/__init__.py +91 -0
phoenix/server/api/dataloaders/annotation_summaries.py +139 -0
phoenix/server/api/dataloaders/average_experiment_run_latency.py +54 -0
phoenix/server/api/dataloaders/cache/__init__.py +3 -0
phoenix/server/api/dataloaders/cache/two_tier_cache.py +68 -0
phoenix/server/api/dataloaders/dataset_example_revisions.py +131 -0
phoenix/server/api/dataloaders/dataset_example_spans.py +38 -0
phoenix/server/api/dataloaders/document_evaluation_summaries.py +144 -0
phoenix/server/api/dataloaders/document_evaluations.py +31 -0
phoenix/server/api/dataloaders/document_retrieval_metrics.py +89 -0
phoenix/server/api/dataloaders/experiment_annotation_summaries.py +79 -0
phoenix/server/api/dataloaders/experiment_error_rates.py +58 -0
phoenix/server/api/dataloaders/experiment_run_annotations.py +36 -0
phoenix/server/api/dataloaders/experiment_run_counts.py +49 -0
phoenix/server/api/dataloaders/experiment_sequence_number.py +44 -0
phoenix/server/api/dataloaders/latency_ms_quantile.py +188 -0
phoenix/server/api/dataloaders/min_start_or_max_end_times.py +85 -0
phoenix/server/api/dataloaders/project_by_name.py +31 -0
phoenix/server/api/dataloaders/record_counts.py +116 -0
phoenix/server/api/dataloaders/session_io.py +79 -0
phoenix/server/api/dataloaders/session_num_traces.py +30 -0
phoenix/server/api/dataloaders/session_num_traces_with_error.py +32 -0
phoenix/server/api/dataloaders/session_token_usages.py +41 -0
phoenix/server/api/dataloaders/session_trace_latency_ms_quantile.py +55 -0
phoenix/server/api/dataloaders/span_annotations.py +26 -0
phoenix/server/api/dataloaders/span_dataset_examples.py +31 -0
phoenix/server/api/dataloaders/span_descendants.py +57 -0
phoenix/server/api/dataloaders/span_projects.py +33 -0
phoenix/server/api/dataloaders/token_counts.py +124 -0
phoenix/server/api/dataloaders/trace_by_trace_ids.py +25 -0
phoenix/server/api/dataloaders/trace_root_spans.py +32 -0
phoenix/server/api/dataloaders/user_roles.py +30 -0
phoenix/server/api/dataloaders/users.py +33 -0
phoenix/server/api/exceptions.py +48 -0
phoenix/server/api/helpers/__init__.py +12 -0
phoenix/server/api/helpers/dataset_helpers.py +217 -0
phoenix/server/api/helpers/experiment_run_filters.py +763 -0
phoenix/server/api/helpers/playground_clients.py +948 -0
phoenix/server/api/helpers/playground_registry.py +70 -0
phoenix/server/api/helpers/playground_spans.py +455 -0
phoenix/server/api/input_types/AddExamplesToDatasetInput.py +16 -0
phoenix/server/api/input_types/AddSpansToDatasetInput.py +14 -0
phoenix/server/api/input_types/ChatCompletionInput.py +38 -0
phoenix/server/api/input_types/ChatCompletionMessageInput.py +24 -0
phoenix/server/api/input_types/ClearProjectInput.py +15 -0
phoenix/server/api/input_types/ClusterInput.py +2 -2
phoenix/server/api/input_types/CreateDatasetInput.py +12 -0
phoenix/server/api/input_types/CreateSpanAnnotationInput.py +18 -0
phoenix/server/api/input_types/CreateTraceAnnotationInput.py +18 -0
phoenix/server/api/input_types/DataQualityMetricInput.py +5 -2
phoenix/server/api/input_types/DatasetExampleInput.py +14 -0
phoenix/server/api/input_types/DatasetSort.py +17 -0
phoenix/server/api/input_types/DatasetVersionSort.py +16 -0
phoenix/server/api/input_types/DeleteAnnotationsInput.py +7 -0
phoenix/server/api/input_types/DeleteDatasetExamplesInput.py +13 -0
phoenix/server/api/input_types/DeleteDatasetInput.py +7 -0
phoenix/server/api/input_types/DeleteExperimentsInput.py +7 -0
phoenix/server/api/input_types/DimensionFilter.py +4 -4
phoenix/server/api/input_types/GenerativeModelInput.py +17 -0
phoenix/server/api/input_types/Granularity.py +1 -1
phoenix/server/api/input_types/InvocationParameters.py +162 -0
phoenix/server/api/input_types/PatchAnnotationInput.py +19 -0
phoenix/server/api/input_types/PatchDatasetExamplesInput.py +35 -0
phoenix/server/api/input_types/PatchDatasetInput.py +14 -0
phoenix/server/api/input_types/PerformanceMetricInput.py +5 -2
phoenix/server/api/input_types/ProjectSessionSort.py +29 -0
phoenix/server/api/input_types/SpanAnnotationSort.py +17 -0
phoenix/server/api/input_types/SpanSort.py +134 -69
phoenix/server/api/input_types/TemplateOptions.py +10 -0
phoenix/server/api/input_types/TraceAnnotationSort.py +17 -0
phoenix/server/api/input_types/UserRoleInput.py +9 -0
phoenix/server/api/mutations/__init__.py +28 -0
phoenix/server/api/mutations/api_key_mutations.py +167 -0
phoenix/server/api/mutations/chat_mutations.py +593 -0
phoenix/server/api/mutations/dataset_mutations.py +591 -0
phoenix/server/api/mutations/experiment_mutations.py +75 -0
phoenix/server/api/{types/ExportEventsMutation.py → mutations/export_events_mutations.py} +21 -18
phoenix/server/api/mutations/project_mutations.py +57 -0
phoenix/server/api/mutations/span_annotations_mutations.py +128 -0
phoenix/server/api/mutations/trace_annotations_mutations.py +127 -0
phoenix/server/api/mutations/user_mutations.py +329 -0
phoenix/server/api/openapi/__init__.py +0 -0
phoenix/server/api/openapi/main.py +17 -0
phoenix/server/api/openapi/schema.py +16 -0
phoenix/server/api/queries.py +738 -0
phoenix/server/api/routers/__init__.py +11 -0
phoenix/server/api/routers/auth.py +284 -0
phoenix/server/api/routers/embeddings.py +26 -0
phoenix/server/api/routers/oauth2.py +488 -0
phoenix/server/api/routers/v1/__init__.py +64 -0
phoenix/server/api/routers/v1/datasets.py +1017 -0
phoenix/server/api/routers/v1/evaluations.py +362 -0
phoenix/server/api/routers/v1/experiment_evaluations.py +115 -0
phoenix/server/api/routers/v1/experiment_runs.py +167 -0
phoenix/server/api/routers/v1/experiments.py +308 -0
phoenix/server/api/routers/v1/pydantic_compat.py +78 -0
phoenix/server/api/routers/v1/spans.py +267 -0
phoenix/server/api/routers/v1/traces.py +208 -0
phoenix/server/api/routers/v1/utils.py +95 -0
phoenix/server/api/schema.py +44 -241
phoenix/server/api/subscriptions.py +597 -0
phoenix/server/api/types/Annotation.py +21 -0
phoenix/server/api/types/AnnotationSummary.py +55 -0
phoenix/server/api/types/AnnotatorKind.py +16 -0
phoenix/server/api/types/ApiKey.py +27 -0
phoenix/server/api/types/AuthMethod.py +9 -0
phoenix/server/api/types/ChatCompletionMessageRole.py +11 -0
phoenix/server/api/types/ChatCompletionSubscriptionPayload.py +46 -0
phoenix/server/api/types/Cluster.py +25 -24
phoenix/server/api/types/CreateDatasetPayload.py +8 -0
phoenix/server/api/types/DataQualityMetric.py +31 -13
phoenix/server/api/types/Dataset.py +288 -63
phoenix/server/api/types/DatasetExample.py +85 -0
phoenix/server/api/types/DatasetExampleRevision.py +34 -0
phoenix/server/api/types/DatasetVersion.py +14 -0
phoenix/server/api/types/Dimension.py +32 -31
phoenix/server/api/types/DocumentEvaluationSummary.py +9 -8
phoenix/server/api/types/EmbeddingDimension.py +56 -49
phoenix/server/api/types/Evaluation.py +25 -31
phoenix/server/api/types/EvaluationSummary.py +30 -50
phoenix/server/api/types/Event.py +20 -20
phoenix/server/api/types/ExampleRevisionInterface.py +14 -0
phoenix/server/api/types/Experiment.py +152 -0
phoenix/server/api/types/ExperimentAnnotationSummary.py +13 -0
phoenix/server/api/types/ExperimentComparison.py +17 -0
phoenix/server/api/types/ExperimentRun.py +119 -0
phoenix/server/api/types/ExperimentRunAnnotation.py +56 -0
phoenix/server/api/types/GenerativeModel.py +9 -0
phoenix/server/api/types/GenerativeProvider.py +85 -0
phoenix/server/api/types/Inferences.py +80 -0
phoenix/server/api/types/InferencesRole.py +23 -0
phoenix/server/api/types/LabelFraction.py +7 -0
phoenix/server/api/types/MimeType.py +2 -2
phoenix/server/api/types/Model.py +54 -54
phoenix/server/api/types/PerformanceMetric.py +8 -5
phoenix/server/api/types/Project.py +407 -142
phoenix/server/api/types/ProjectSession.py +139 -0
phoenix/server/api/types/Segments.py +4 -4
phoenix/server/api/types/Span.py +221 -176
phoenix/server/api/types/SpanAnnotation.py +43 -0
phoenix/server/api/types/SpanIOValue.py +15 -0
phoenix/server/api/types/SystemApiKey.py +9 -0
phoenix/server/api/types/TemplateLanguage.py +10 -0
phoenix/server/api/types/TimeSeries.py +19 -15
phoenix/server/api/types/TokenUsage.py +11 -0
phoenix/server/api/types/Trace.py +154 -0
phoenix/server/api/types/TraceAnnotation.py +45 -0
phoenix/server/api/types/UMAPPoints.py +7 -7
phoenix/server/api/types/User.py +60 -0
phoenix/server/api/types/UserApiKey.py +45 -0
phoenix/server/api/types/UserRole.py +15 -0
phoenix/server/api/types/node.py +4 -112
phoenix/server/api/types/pagination.py +156 -57
phoenix/server/api/utils.py +34 -0
phoenix/server/app.py +864 -115
phoenix/server/bearer_auth.py +163 -0
phoenix/server/dml_event.py +136 -0
phoenix/server/dml_event_handler.py +256 -0
phoenix/server/email/__init__.py +0 -0
phoenix/server/email/sender.py +97 -0
phoenix/server/email/templates/__init__.py +0 -0
phoenix/server/email/templates/password_reset.html +19 -0
phoenix/server/email/types.py +11 -0
phoenix/server/grpc_server.py +102 -0
phoenix/server/jwt_store.py +505 -0
phoenix/server/main.py +305 -116
phoenix/server/oauth2.py +52 -0
phoenix/server/openapi/__init__.py +0 -0
phoenix/server/prometheus.py +111 -0
phoenix/server/rate_limiters.py +188 -0
phoenix/server/static/.vite/manifest.json +87 -0
phoenix/server/static/assets/components-Cy9nwIvF.js +2125 -0
phoenix/server/static/assets/index-BKvHIxkk.js +113 -0
phoenix/server/static/assets/pages-CUi2xCVQ.js +4449 -0
phoenix/server/static/assets/vendor-DvC8cT4X.js +894 -0
phoenix/server/static/assets/vendor-DxkFTwjz.css +1 -0
phoenix/server/static/assets/vendor-arizeai-Do1793cv.js +662 -0
phoenix/server/static/assets/vendor-codemirror-BzwZPyJM.js +24 -0
phoenix/server/static/assets/vendor-recharts-_Jb7JjhG.js +59 -0
phoenix/server/static/assets/vendor-shiki-Cl9QBraO.js +5 -0
phoenix/server/static/assets/vendor-three-DwGkEfCM.js +2998 -0
phoenix/server/telemetry.py +68 -0
phoenix/server/templates/index.html +82 -23
phoenix/server/thread_server.py +3 -3
phoenix/server/types.py +275 -0
phoenix/services.py +27 -18
phoenix/session/client.py +743 -68
phoenix/session/data_extractor.py +31 -7
phoenix/session/evaluation.py +3 -9
phoenix/session/session.py +263 -219
phoenix/settings.py +22 -0
phoenix/trace/__init__.py +2 -22
phoenix/trace/attributes.py +338 -0
phoenix/trace/dsl/README.md +116 -0
phoenix/trace/dsl/filter.py +663 -213
phoenix/trace/dsl/helpers.py +73 -21
phoenix/trace/dsl/query.py +574 -201
phoenix/trace/exporter.py +24 -19
phoenix/trace/fixtures.py +368 -32
phoenix/trace/otel.py +71 -219
phoenix/trace/projects.py +3 -2
phoenix/trace/schemas.py +33 -11
phoenix/trace/span_evaluations.py +21 -16
phoenix/trace/span_json_decoder.py +6 -4
phoenix/trace/span_json_encoder.py +2 -2
phoenix/trace/trace_dataset.py +47 -32
phoenix/trace/utils.py +21 -4
phoenix/utilities/__init__.py +0 -26
phoenix/utilities/client.py +132 -0
phoenix/utilities/deprecation.py +31 -0
phoenix/utilities/error_handling.py +3 -2
phoenix/utilities/json.py +109 -0
phoenix/utilities/logging.py +8 -0
phoenix/utilities/project.py +2 -2
phoenix/utilities/re.py +49 -0
phoenix/utilities/span_store.py +0 -23
phoenix/utilities/template_formatters.py +99 -0
phoenix/version.py +1 -1
arize_phoenix-3.16.1.dist-info/METADATA +0 -495
arize_phoenix-3.16.1.dist-info/RECORD +0 -178
phoenix/core/project.py +0 -619
phoenix/core/traces.py +0 -96
phoenix/experimental/evals/__init__.py +0 -73
phoenix/experimental/evals/evaluators.py +0 -413
phoenix/experimental/evals/functions/__init__.py +0 -4
phoenix/experimental/evals/functions/classify.py +0 -453
phoenix/experimental/evals/functions/executor.py +0 -353
phoenix/experimental/evals/functions/generate.py +0 -138
phoenix/experimental/evals/functions/processing.py +0 -76
phoenix/experimental/evals/models/__init__.py +0 -14
phoenix/experimental/evals/models/anthropic.py +0 -175
phoenix/experimental/evals/models/base.py +0 -170
phoenix/experimental/evals/models/bedrock.py +0 -221
phoenix/experimental/evals/models/litellm.py +0 -134
phoenix/experimental/evals/models/openai.py +0 -448
phoenix/experimental/evals/models/rate_limiters.py +0 -246
phoenix/experimental/evals/models/vertex.py +0 -173
phoenix/experimental/evals/models/vertexai.py +0 -186
phoenix/experimental/evals/retrievals.py +0 -96
phoenix/experimental/evals/templates/__init__.py +0 -50
phoenix/experimental/evals/templates/default_templates.py +0 -472
phoenix/experimental/evals/templates/template.py +0 -195
phoenix/experimental/evals/utils/__init__.py +0 -172
phoenix/experimental/evals/utils/threads.py +0 -27
phoenix/server/api/helpers.py +0 -11
phoenix/server/api/routers/evaluation_handler.py +0 -109
phoenix/server/api/routers/span_handler.py +0 -70
phoenix/server/api/routers/trace_handler.py +0 -60
phoenix/server/api/types/DatasetRole.py +0 -23
phoenix/server/static/index.css +0 -6
phoenix/server/static/index.js +0 -7447
phoenix/storage/span_store/__init__.py +0 -23
phoenix/storage/span_store/text_file.py +0 -85
phoenix/trace/dsl/missing.py +0 -60
phoenix/trace/langchain/__init__.py +0 -3
phoenix/trace/langchain/instrumentor.py +0 -35
phoenix/trace/llama_index/__init__.py +0 -3
phoenix/trace/llama_index/callback.py +0 -102
phoenix/trace/openai/__init__.py +0 -3
phoenix/trace/openai/instrumentor.py +0 -30
{arize_phoenix-3.16.1.dist-info → arize_phoenix-7.7.0.dist-info}/licenses/IP_NOTICE +0 -0
{arize_phoenix-3.16.1.dist-info → arize_phoenix-7.7.0.dist-info}/licenses/LICENSE +0 -0
/phoenix/{datasets → db/insertion}/__init__.py +0 -0
/phoenix/{experimental → db/migrations}/__init__.py +0 -0
/phoenix/{storage → db/migrations/data_migration_scripts}/__init__.py +0 -0

phoenix/experimental/evals/models/anthropic.py DELETED Viewed

@@ -1,175 +0,0 @@
-from dataclasses import dataclass, field
-from typing import TYPE_CHECKING, Any, Dict, List, Optional
-from phoenix.exceptions import PhoenixContextLimitExceeded
-from phoenix.experimental.evals.models.base import BaseEvalModel
-from phoenix.experimental.evals.models.rate_limiters import RateLimiter
-if TYPE_CHECKING:
-    from tiktoken import Encoding
-MODEL_TOKEN_LIMIT_MAPPING = {
-    "claude-2.1": 200000,
-    "claude-2.0": 100000,
-    "claude-instant-1.2": 100000,
-}
-@dataclass
-class AnthropicModel(BaseEvalModel):
-    model: str = "claude-2.1"
-    """The model name to use."""
-    temperature: float = 0.0
-    """What sampling temperature to use."""
-    max_tokens: int = 256
-    """The maximum number of tokens to generate in the completion."""
-    top_p: float = 1
-    """Total probability mass of tokens to consider at each step."""
-    top_k: int = 256
-    """The cutoff where the model no longer selects the words"""
-    stop_sequences: List[str] = field(default_factory=list)
-    """If the model encounters a stop sequence, it stops generating further tokens. """
-    max_retries: int = 6
-    """Maximum number of retries to make when generating."""
-    retry_min_seconds: int = 10
-    """Minimum number of seconds to wait when retrying."""
-    retry_max_seconds: int = 60
-    """Maximum number of seconds to wait when retrying."""
-    extra_parameters: Dict[str, Any] = field(default_factory=dict)
-    """Any extra parameters to add to the request body (e.g., countPenalty for a21 models)"""
-    max_content_size: Optional[int] = None
-    """If you're using a fine-tuned model, set this to the maximum content size"""
-    def __post_init__(self) -> None:
-        self._init_environment()
-        self._init_client()
-        self._init_tiktoken()
-        self._init_rate_limiter()
-    def _init_environment(self) -> None:
-        try:
-            import tiktoken
-            self._tiktoken = tiktoken
-        except ImportError:
-            self._raise_import_error(
-                package_name="tiktoken",
-            )
-    def _init_client(self) -> None:
-        try:
-            import anthropic  # type:ignore
-            self._anthropic = anthropic
-            self.client = self._anthropic.Anthropic()
-            self.async_client = self._anthropic.AsyncAnthropic()
-        except ImportError:
-            self._raise_import_error(
-                package_name="anthropic",
-            )
-    def _init_tiktoken(self) -> None:
-        try:
-            encoding = self._tiktoken.encoding_for_model(self.model)
-        except KeyError:
-            encoding = self._tiktoken.get_encoding("cl100k_base")
-        self._tiktoken_encoding = encoding
-    def _init_rate_limiter(self) -> None:
-        self._rate_limiter = RateLimiter(
-            rate_limit_error=self._anthropic.RateLimitError,
-            max_rate_limit_retries=10,
-            initial_per_second_request_rate=1,
-            maximum_per_second_request_rate=20,
-            enforcement_window_minutes=1,
-        )
-    def invocation_parameters(self) -> Dict[str, Any]:
-        return {
-            "max_tokens_to_sample": self.max_tokens,
-            "stop_sequences": self.stop_sequences,
-            "temperature": self.temperature,
-            "top_p": self.top_p,
-            "top_k": self.top_k,
-        }
-    @property
-    def encoder(self) -> "Encoding":
-        return self._tiktoken_encoding
-    def get_tokens_from_text(self, text: str) -> List[int]:
-        return self.encoder.encode(text)
-    def get_text_from_tokens(self, tokens: List[int]) -> str:
-        return self.encoder.decode(tokens)
-    @property
-    def max_context_size(self) -> int:
-        context_size = self.max_content_size or MODEL_TOKEN_LIMIT_MAPPING.get(self.model, None)
-        if context_size is None:
-            raise ValueError(
-                "Can't determine maximum context size. An unknown model name was "
-                + f"used: {self.model}. Please set the `max_content_size` argument"
-                + "when using fine-tuned models. "
-            )
-        return context_size
-    def _generate(self, prompt: str, **kwargs: Dict[str, Any]) -> str:
-        # instruction is an invalid input to Anthropic models, it is passed in by
-        # BaseEvalModel.__call__ and needs to be removed
-        kwargs.pop("instruction", None)
-        invocation_parameters = self.invocation_parameters()
-        invocation_parameters.update(kwargs)
-        response = self._rate_limited_completion(
-            model=self.model,
-            prompt=self._format_prompt_for_claude(prompt),
-            **invocation_parameters,
-        )
-        return str(response)
-    def _rate_limited_completion(self, **kwargs: Any) -> Any:
-        @self._rate_limiter.limit
-        def _completion(**kwargs: Any) -> Any:
-            try:
-                response = self.client.completions.create(**kwargs)
-                return response.completion
-            except self._anthropic.BadRequestError as e:
-                exception_message = e.args[0]
-                if exception_message and "prompt is too long" in exception_message:
-                    raise PhoenixContextLimitExceeded(exception_message) from e
-                raise e
-        return _completion(**kwargs)
-    async def _async_generate(self, prompt: str, **kwargs: Dict[str, Any]) -> str:
-        # instruction is an invalid input to Anthropic models, it is passed in by
-        # BaseEvalModel.__call__ and needs to be removed
-        kwargs.pop("instruction", None)
-        invocation_parameters = self.invocation_parameters()
-        invocation_parameters.update(kwargs)
-        response = await self._async_rate_limited_completion(
-            model=self.model, prompt=self._format_prompt_for_claude(prompt), **invocation_parameters
-        )
-        return str(response)
-    async def _async_rate_limited_completion(self, **kwargs: Any) -> Any:
-        @self._rate_limiter.alimit
-        async def _async_completion(**kwargs: Any) -> Any:
-            try:
-                response = await self.async_client.completions.create(**kwargs)
-                return response.completion
-            except self._anthropic.BadRequestError as e:
-                exception_message = e.args[0]
-                if exception_message and "prompt is too long" in exception_message:
-                    raise PhoenixContextLimitExceeded(exception_message) from e
-                raise e
-        return await _async_completion(**kwargs)
-    def _format_prompt_for_claude(self, prompt: str) -> str:
-        # Claude requires prompt in the format of Human: ... Assistant:
-        return f"{self._anthropic.HUMAN_PROMPT} {prompt} {self._anthropic.AI_PROMPT}"

phoenix/experimental/evals/models/base.py DELETED Viewed

@@ -1,170 +0,0 @@
-import logging
-from abc import ABC, abstractmethod, abstractproperty
-from contextlib import contextmanager
-from dataclasses import dataclass, field
-from typing import TYPE_CHECKING, Any, Generator, List, Optional, Sequence
-from phoenix.experimental.evals.models.rate_limiters import RateLimiter
-if TYPE_CHECKING:
-    from tiktoken import Encoding
-from tqdm.asyncio import tqdm_asyncio
-from tqdm.auto import tqdm
-from typing_extensions import TypeVar
-from phoenix.experimental.evals.utils.threads import to_thread
-from phoenix.utilities.logging import printif
-T = TypeVar("T", bound=type)
-def is_list_of(lst: Sequence[object], tp: T) -> bool:
-    return isinstance(lst, list) and all(isinstance(x, tp) for x in lst)
-logger = logging.getLogger(__name__)
-TQDM_BAR_FORMAT = (
-    "Eta:{eta} |{bar}| {percentage:3.1f}% "
-    "({n_fmt}/{total_fmt}) "
-    "[{elapsed}<{remaining}, {rate_fmt}{postfix}]"
-)
-@contextmanager
-def set_verbosity(
-    model: "BaseEvalModel", verbose: bool = False
-) -> Generator["BaseEvalModel", None, None]:
-    try:
-        _model_verbose_setting = model._verbose
-        _rate_limiter_verbose_setting = model._rate_limiter._verbose
-        model._verbose = verbose
-        model._rate_limiter._verbose = verbose
-        yield model
-    finally:
-        model._verbose = _model_verbose_setting
-        model._rate_limiter._verbose = _rate_limiter_verbose_setting
-@dataclass
-class BaseEvalModel(ABC):
-    default_concurrency: int = 20
-    _verbose: bool = False
-    _rate_limiter: RateLimiter = field(default_factory=RateLimiter)
-    def reload_client(self) -> None:
-        pass
-    def __call__(self, prompt: str, instruction: Optional[str] = None, **kwargs: Any) -> str:
-        """Run the LLM on the given prompt."""
-        if not isinstance(prompt, str):
-            raise TypeError(
-                "Invalid type for argument `prompt`. Expected a string but found "
-                f"{type(prompt)}. If you want to run the LLM on multiple prompts, use "
-                "`generate` instead."
-            )
-        if instruction is not None and not isinstance(instruction, str):
-            raise TypeError(
-                "Invalid type for argument `instruction`. Expected a string but found "
-                f"{type(instruction)}."
-            )
-        return self._generate(prompt=prompt, instruction=instruction, **kwargs)
-    async def async_call(self, prompt: str, instruction: Optional[str] = None) -> str:
-        """Run the LLM on the given prompt."""
-        if not isinstance(prompt, str):
-            raise TypeError(
-                "Invalid type for argument `prompt`. Expected a string but found "
-                f"{type(prompt)}. If you want to run the LLM on multiple prompts, use "
-                "`generate` instead."
-            )
-        if instruction is not None and not isinstance(instruction, str):
-            raise TypeError(
-                "Invalid type for argument `instruction`. Expected a string but found "
-                f"{type(instruction)}."
-            )
-        response = await self.agenerate(prompts=[prompt], instruction=instruction)
-        return response[0]
-    def generate(
-        self, prompts: List[str], instruction: Optional[str] = None, **kwargs: Any
-    ) -> List[str]:
-        printif(self._verbose, f"Generating responses for {len(prompts)} prompts...")
-        if extra_info := self.verbose_generation_info():
-            printif(self._verbose, extra_info)
-        if not is_list_of(prompts, str):
-            raise TypeError(
-                "Invalid type for argument `prompts`. Expected a list of strings "
-                f"but found {type(prompts)}."
-            )
-        try:
-            outputs = []
-            for prompt in tqdm(prompts, bar_format=TQDM_BAR_FORMAT):
-                output = self._generate(prompt=prompt, instruction=instruction, **kwargs)
-                logger.info(f"Prompt: {prompt}\nInstruction: {instruction}\nOutput: {output}")
-                outputs.append(output)
-        except (KeyboardInterrupt, Exception) as e:
-            raise e
-        return outputs
-    async def agenerate(self, prompts: List[str], instruction: Optional[str] = None) -> List[str]:
-        if not is_list_of(prompts, str):
-            raise TypeError(
-                "Invalid type for argument `prompts`. Expected a list of strings "
-                f"but found {type(prompts)}."
-            )
-        try:
-            result: List[str] = await tqdm_asyncio.gather(
-                *[self._agenerate(prompt=prompt, instruction=instruction) for prompt in prompts],
-                bar_format=TQDM_BAR_FORMAT,
-                ncols=100,
-            )
-        except (KeyboardInterrupt, Exception) as e:
-            raise e
-        return result
-    def verbose_generation_info(self) -> str:
-        # if defined, returns additional model-specific information to display if `generate` is
-        # run with `verbose=True`
-        return ""
-    @abstractmethod
-    async def _async_generate(self, prompt: str, **kwargs: Any) -> str:
-        raise NotImplementedError
-    @abstractmethod
-    def _generate(self, prompt: str, **kwargs: Any) -> str:
-        raise NotImplementedError
-    async def _agenerate(self, prompt: str, instruction: Optional[str]) -> str:
-        return str(await to_thread(self._generate, prompt=prompt, instruction=instruction))
-    @staticmethod
-    def _raise_import_error(
-        package_name: str, package_display_name: str = "", package_min_version: str = ""
-    ) -> None:
-        if not package_display_name:
-            package_display_name = package_name
-        msg = (
-            f"Could not import necessary dependencies to use {package_display_name}. "
-            "Please install them with "
-        )
-        if package_min_version:
-            msg += f"`pip install {package_name}>={package_min_version}`."
-        else:
-            msg += f"`pip install {package_name}`."
-        raise ImportError(msg)
-    @abstractmethod
-    def get_tokens_from_text(self, text: str) -> List[int]: ...
-    @abstractmethod
-    def get_text_from_tokens(self, tokens: List[int]) -> str: ...
-    @abstractproperty
-    def max_context_size(self) -> int: ...
-    @abstractproperty
-    def encoder(self) -> "Encoding": ...

phoenix/experimental/evals/models/bedrock.py DELETED Viewed

@@ -1,221 +0,0 @@
-import json
-import logging
-from dataclasses import dataclass, field
-from typing import TYPE_CHECKING, Any, Dict, List, Optional
-from phoenix.exceptions import PhoenixContextLimitExceeded
-from phoenix.experimental.evals.models.base import BaseEvalModel
-from phoenix.experimental.evals.models.rate_limiters import RateLimiter
-if TYPE_CHECKING:
-    from tiktoken import Encoding
-logger = logging.getLogger(__name__)
-MINIMUM_BOTO_VERSION = "1.28.58"
-MODEL_TOKEN_LIMIT_MAPPING = {
-    "anthropic.claude-instant-v1": 100 * 1024,
-    "anthropic.claude-v1": 100 * 1024,
-    "anthropic.claude-v2": 100 * 1024,
-    "amazon.titan-text-express-v1": 8 * 1024,
-    "ai21.j2-mid-v1": 8 * 1024,
-    "ai21.j2-ultra-v1": 8 * 1024,
-}
-@dataclass
-class BedrockModel(BaseEvalModel):
-    model_id: str = "anthropic.claude-v2"
-    """The model name to use."""
-    temperature: float = 0.0
-    """What sampling temperature to use."""
-    max_tokens: int = 256
-    """The maximum number of tokens to generate in the completion."""
-    top_p: float = 1
-    """Total probability mass of tokens to consider at each step."""
-    top_k: int = 256
-    """The cutoff where the model no longer selects the words"""
-    stop_sequences: List[str] = field(default_factory=list)
-    """If the model encounters a stop sequence, it stops generating further tokens. """
-    max_retries: int = 6
-    """Maximum number of retries to make when generating."""
-    retry_min_seconds: int = 10
-    """Minimum number of seconds to wait when retrying."""
-    retry_max_seconds: int = 60
-    """Maximum number of seconds to wait when retrying."""
-    client: Any = None
-    """The bedrock session client. If unset, a new one is created with boto3."""
-    max_content_size: Optional[int] = None
-    """If you're using a fine-tuned model, set this to the maximum content size"""
-    extra_parameters: Dict[str, Any] = field(default_factory=dict)
-    """Any extra parameters to add to the request body (e.g., countPenalty for a21 models)"""
-    def __post_init__(self) -> None:
-        self._init_environment()
-        self._init_client()
-        self._init_tiktoken()
-        self._init_rate_limiter()
-    def _init_environment(self) -> None:
-        try:
-            import tiktoken
-            self._tiktoken = tiktoken
-        except ImportError:
-            self._raise_import_error(
-                package_name="tiktoken",
-            )
-    def _init_client(self) -> None:
-        if not self.client:
-            try:
-                import boto3  # type:ignore
-                self.client = boto3.client("bedrock-runtime")
-            except ImportError:
-                self._raise_import_error(
-                    package_name="boto3",
-                    package_min_version=MINIMUM_BOTO_VERSION,
-                )
-    def _init_tiktoken(self) -> None:
-        try:
-            encoding = self._tiktoken.encoding_for_model(self.model_id)
-        except KeyError:
-            encoding = self._tiktoken.get_encoding("cl100k_base")
-        self._tiktoken_encoding = encoding
-    def _init_rate_limiter(self) -> None:
-        self._rate_limiter = RateLimiter(
-            rate_limit_error=self.client.exceptions.ThrottlingException,
-            max_rate_limit_retries=10,
-            initial_per_second_request_rate=2,
-            maximum_per_second_request_rate=20,
-            enforcement_window_minutes=1,
-        )
-    @property
-    def max_context_size(self) -> int:
-        context_size = self.max_content_size or MODEL_TOKEN_LIMIT_MAPPING.get(self.model_id, None)
-        if context_size is None:
-            raise ValueError(
-                "Can't determine maximum context size. An unknown model name was "
-                + f"used: {self.model_id}. Please set the `max_content_size` argument"
-                + "when using fine-tuned models. "
-            )
-        return context_size
-    @property
-    def encoder(self) -> "Encoding":
-        return self._tiktoken_encoding
-    def get_tokens_from_text(self, text: str) -> List[int]:
-        return self.encoder.encode(text)
-    def get_text_from_tokens(self, tokens: List[int]) -> str:
-        return self.encoder.decode(tokens)
-    async def _async_generate(self, prompt: str, **kwargs: Dict[str, Any]) -> str:
-        return self._generate(prompt, **kwargs)
-    def _generate(self, prompt: str, **kwargs: Dict[str, Any]) -> str:
-        body = json.dumps(self._create_request_body(prompt))
-        accept = "application/json"
-        contentType = "application/json"
-        response = self._rate_limited_completion(
-            body=body, modelId=self.model_id, accept=accept, contentType=contentType
-        )
-        return self._parse_output(response) or ""
-    def _rate_limited_completion(self, **kwargs: Any) -> Any:
-        """Use tenacity to retry the completion call."""
-        @self._rate_limiter.limit
-        def _completion(**kwargs: Any) -> Any:
-            try:
-                return self.client.invoke_model(**kwargs)
-            except Exception as e:
-                exception_message = e.args[0]
-                if not exception_message:
-                    raise e
-                if "Input is too long" in exception_message:
-                    # Error from Anthropic models
-                    raise PhoenixContextLimitExceeded(exception_message) from e
-                elif "expected maxLength" in exception_message:
-                    # Error from Titan models
-                    raise PhoenixContextLimitExceeded(exception_message) from e
-                elif "Prompt has too many tokens" in exception_message:
-                    # Error from AI21 models
-                    raise PhoenixContextLimitExceeded(exception_message) from e
-                raise e
-        return _completion(**kwargs)
-    def _format_prompt_for_claude(self, prompt: str) -> str:
-        # Claude requires prompt in the format of Human: ... Assisatnt:
-        if not prompt.strip().lower().startswith("human:"):
-            prompt = f"\n\nHuman:{prompt}"
-        if not prompt.strip().lower().startswith("assistant:"):
-            prompt = f"{prompt}\n\nAssistant:"
-        return prompt
-    def _create_request_body(self, prompt: str) -> Dict[str, Any]:
-        # The request formats for bedrock models differ
-        # see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters.html
-        if self.model_id.startswith("ai21"):
-            return {
-                **{
-                    "prompt": prompt,
-                    "temperature": self.temperature,
-                    "topP": self.top_p,
-                    "maxTokens": self.max_tokens,
-                    "stopSequences": self.stop_sequences,
-                },
-                **self.extra_parameters,
-            }
-        elif self.model_id.startswith("anthropic"):
-            return {
-                **{
-                    "prompt": self._format_prompt_for_claude(prompt),
-                    "temperature": self.temperature,
-                    "top_p": self.top_p,
-                    "top_k": self.top_k,
-                    "max_tokens_to_sample": self.max_tokens,
-                    "stop_sequences": self.stop_sequences,
-                },
-                **self.extra_parameters,
-            }
-        else:
-            if not self.model_id.startswith("amazon"):
-                logger.warn(f"Unknown format for model {self.model_id}, returning titan format...")
-            return {
-                **{
-                    "inputText": prompt,
-                    "textGenerationConfig": {
-                        "temperature": self.temperature,
-                        "topP": self.top_p,
-                        "maxTokenCount": self.max_tokens,
-                        "stopSequences": self.stop_sequences,
-                    },
-                },
-                **self.extra_parameters,
-            }
-    def _parse_output(self, response: Any) -> Any:
-        if self.model_id.startswith("ai21"):
-            body = json.loads(response.get("body").read())
-            return body.get("completions")[0].get("data").get("text")
-        elif self.model_id.startswith("anthropic"):
-            body = json.loads(response.get("body").read().decode())
-            return body.get("completion")
-        elif self.model_id.startswith("amazon"):
-            body = json.loads(response.get("body").read())
-            return body.get("results")[0].get("outputText")
-        else:
-            body = json.loads(response.get("body").read())
-            return body.get("results")[0].get("data").get("outputText")

arize-phoenix 3.16.1__py3-none-any.whl → 7.7.0__py3-none-any.whl

Potentially problematic release.

arize-phoenix 3.16.1py3-none-any.whl → 7.7.0py3-none-any.whl