PyPI - arize - Versions diffs - 8.0.0a21__py3-none-any.whl → 8.0.0a23__py3-none-any.whl - Mend

arize 8.0.0a21py3-none-any.whl → 8.0.0a23py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (166) hide show

arize/__init__.py +17 -9
arize/_exporter/client.py +55 -36
arize/_exporter/parsers/tracing_data_parser.py +41 -30
arize/_exporter/validation.py +3 -3
arize/_flight/client.py +208 -77
arize/_generated/api_client/__init__.py +30 -6
arize/_generated/api_client/api/__init__.py +1 -0
arize/_generated/api_client/api/datasets_api.py +864 -190
arize/_generated/api_client/api/experiments_api.py +167 -131
arize/_generated/api_client/api/projects_api.py +1197 -0
arize/_generated/api_client/api_client.py +2 -2
arize/_generated/api_client/configuration.py +42 -34
arize/_generated/api_client/exceptions.py +2 -2
arize/_generated/api_client/models/__init__.py +15 -4
arize/_generated/api_client/models/dataset.py +10 -10
arize/_generated/api_client/models/dataset_example.py +111 -0
arize/_generated/api_client/models/dataset_example_update.py +100 -0
arize/_generated/api_client/models/dataset_version.py +13 -13
arize/_generated/api_client/models/datasets_create_request.py +16 -8
arize/_generated/api_client/models/datasets_examples_insert_request.py +100 -0
arize/_generated/api_client/models/datasets_examples_list200_response.py +106 -0
arize/_generated/api_client/models/datasets_examples_update_request.py +102 -0
arize/_generated/api_client/models/datasets_list200_response.py +10 -4
arize/_generated/api_client/models/experiment.py +14 -16
arize/_generated/api_client/models/experiment_run.py +108 -0
arize/_generated/api_client/models/experiment_run_create.py +102 -0
arize/_generated/api_client/models/experiments_create_request.py +16 -10
arize/_generated/api_client/models/experiments_list200_response.py +10 -4
arize/_generated/api_client/models/experiments_runs_list200_response.py +19 -5
arize/_generated/api_client/models/{error.py → pagination_metadata.py} +13 -11
arize/_generated/api_client/models/primitive_value.py +172 -0
arize/_generated/api_client/models/problem.py +100 -0
arize/_generated/api_client/models/project.py +99 -0
arize/_generated/api_client/models/{datasets_list_examples200_response.py → projects_create_request.py} +13 -11
arize/_generated/api_client/models/projects_list200_response.py +106 -0
arize/_generated/api_client/rest.py +2 -2
arize/_generated/api_client/test/test_dataset.py +4 -2
arize/_generated/api_client/test/test_dataset_example.py +56 -0
arize/_generated/api_client/test/test_dataset_example_update.py +52 -0
arize/_generated/api_client/test/test_dataset_version.py +7 -2
arize/_generated/api_client/test/test_datasets_api.py +27 -13
arize/_generated/api_client/test/test_datasets_create_request.py +8 -4
arize/_generated/api_client/test/{test_datasets_list_examples200_response.py → test_datasets_examples_insert_request.py} +19 -15
arize/_generated/api_client/test/test_datasets_examples_list200_response.py +66 -0
arize/_generated/api_client/test/test_datasets_examples_update_request.py +61 -0
arize/_generated/api_client/test/test_datasets_list200_response.py +9 -3
arize/_generated/api_client/test/test_experiment.py +2 -4
arize/_generated/api_client/test/test_experiment_run.py +56 -0
arize/_generated/api_client/test/test_experiment_run_create.py +54 -0
arize/_generated/api_client/test/test_experiments_api.py +6 -6
arize/_generated/api_client/test/test_experiments_create_request.py +9 -6
arize/_generated/api_client/test/test_experiments_list200_response.py +9 -5
arize/_generated/api_client/test/test_experiments_runs_list200_response.py +15 -5
arize/_generated/api_client/test/test_pagination_metadata.py +53 -0
arize/_generated/api_client/test/{test_error.py → test_primitive_value.py} +13 -14
arize/_generated/api_client/test/test_problem.py +57 -0
arize/_generated/api_client/test/test_project.py +58 -0
arize/_generated/api_client/test/test_projects_api.py +59 -0
arize/_generated/api_client/test/test_projects_create_request.py +54 -0
arize/_generated/api_client/test/test_projects_list200_response.py +70 -0
arize/_generated/api_client_README.md +43 -29
arize/_generated/protocol/flight/flight_pb2.py +400 -0
arize/_lazy.py +27 -19
arize/client.py +269 -55
arize/config.py +365 -116
arize/constants/__init__.py +1 -0
arize/constants/config.py +11 -4
arize/constants/ml.py +6 -4
arize/constants/openinference.py +2 -0
arize/constants/pyarrow.py +2 -0
arize/constants/spans.py +3 -1
arize/datasets/__init__.py +1 -0
arize/datasets/client.py +299 -84
arize/datasets/errors.py +32 -2
arize/datasets/validation.py +18 -8
arize/embeddings/__init__.py +2 -0
arize/embeddings/auto_generator.py +23 -19
arize/embeddings/base_generators.py +89 -36
arize/embeddings/constants.py +2 -0
arize/embeddings/cv_generators.py +26 -4
arize/embeddings/errors.py +27 -5
arize/embeddings/nlp_generators.py +31 -12
arize/embeddings/tabular_generators.py +32 -20
arize/embeddings/usecases.py +12 -2
arize/exceptions/__init__.py +1 -0
arize/exceptions/auth.py +11 -1
arize/exceptions/base.py +29 -4
arize/exceptions/models.py +21 -2
arize/exceptions/parameters.py +31 -0
arize/exceptions/spaces.py +12 -1
arize/exceptions/types.py +86 -7
arize/exceptions/values.py +220 -20
arize/experiments/__init__.py +1 -0
arize/experiments/client.py +390 -286
arize/experiments/evaluators/__init__.py +1 -0
arize/experiments/evaluators/base.py +74 -41
arize/experiments/evaluators/exceptions.py +6 -3
arize/experiments/evaluators/executors.py +121 -73
arize/experiments/evaluators/rate_limiters.py +106 -57
arize/experiments/evaluators/types.py +34 -7
arize/experiments/evaluators/utils.py +65 -27
arize/experiments/functions.py +103 -101
arize/experiments/tracing.py +52 -44
arize/experiments/types.py +56 -31
arize/logging.py +54 -22
arize/models/__init__.py +1 -0
arize/models/batch_validation/__init__.py +1 -0
arize/models/batch_validation/errors.py +543 -65
arize/models/batch_validation/validator.py +339 -300
arize/models/bounded_executor.py +20 -7
arize/models/casting.py +75 -29
arize/models/client.py +326 -107
arize/models/proto.py +95 -40
arize/models/stream_validation.py +42 -14
arize/models/surrogate_explainer/__init__.py +1 -0
arize/models/surrogate_explainer/mimic.py +24 -13
arize/pre_releases.py +43 -0
arize/projects/__init__.py +1 -0
arize/projects/client.py +129 -0
arize/regions.py +40 -0
arize/spans/__init__.py +1 -0
arize/spans/client.py +130 -106
arize/spans/columns.py +13 -0
arize/spans/conversion.py +54 -38
arize/spans/validation/__init__.py +1 -0
arize/spans/validation/annotations/__init__.py +1 -0
arize/spans/validation/annotations/annotations_validation.py +6 -4
arize/spans/validation/annotations/dataframe_form_validation.py +13 -11
arize/spans/validation/annotations/value_validation.py +35 -11
arize/spans/validation/common/__init__.py +1 -0
arize/spans/validation/common/argument_validation.py +33 -8
arize/spans/validation/common/dataframe_form_validation.py +35 -9
arize/spans/validation/common/errors.py +211 -11
arize/spans/validation/common/value_validation.py +80 -13
arize/spans/validation/evals/__init__.py +1 -0
arize/spans/validation/evals/dataframe_form_validation.py +28 -8
arize/spans/validation/evals/evals_validation.py +34 -4
arize/spans/validation/evals/value_validation.py +26 -3
arize/spans/validation/metadata/__init__.py +1 -1
arize/spans/validation/metadata/argument_validation.py +14 -5
arize/spans/validation/metadata/dataframe_form_validation.py +26 -10
arize/spans/validation/metadata/value_validation.py +24 -10
arize/spans/validation/spans/__init__.py +1 -0
arize/spans/validation/spans/dataframe_form_validation.py +34 -13
arize/spans/validation/spans/spans_validation.py +35 -4
arize/spans/validation/spans/value_validation.py +76 -7
arize/types.py +293 -157
arize/utils/__init__.py +1 -0
arize/utils/arrow.py +31 -15
arize/utils/cache.py +34 -6
arize/utils/dataframe.py +19 -2
arize/utils/online_tasks/__init__.py +2 -0
arize/utils/online_tasks/dataframe_preprocessor.py +53 -41
arize/utils/openinference_conversion.py +44 -5
arize/utils/proto.py +10 -0
arize/utils/size.py +5 -3
arize/version.py +3 -1
{arize-8.0.0a21.dist-info → arize-8.0.0a23.dist-info}/METADATA +4 -3
arize-8.0.0a23.dist-info/RECORD +174 -0
{arize-8.0.0a21.dist-info → arize-8.0.0a23.dist-info}/WHEEL +1 -1
arize-8.0.0a23.dist-info/licenses/LICENSE +176 -0
arize-8.0.0a23.dist-info/licenses/NOTICE +13 -0
arize/_generated/protocol/flight/export_pb2.py +0 -61
arize/_generated/protocol/flight/ingest_pb2.py +0 -365
arize-8.0.0a21.dist-info/RECORD +0 -146
arize-8.0.0a21.dist-info/licenses/LICENSE.md +0 -12

arize/__init__.py CHANGED Viewed

@@ -1,9 +1,12 @@
+"""Arize SDK for model observability and LLM tracing."""
 import logging
 from collections.abc import Mapping
 from arize._generated.api_client import models
 from arize.client import ArizeClient
 from arize.config import SDKConfiguration
+from arize.regions import Region
 # Attach a NullHandler by default in the top-level package
 # so that if no configuration is installed, nothing explodes.
@@ -14,23 +17,27 @@ try:
     from .logging import auto_configure_from_env
     auto_configure_from_env()
-except Exception:
-    # Never let logging config crash imports
+except Exception:  # noqa: S110
+    # Intentionally silent: logging configuration is optional and should never
+    # prevent SDK initialization. Users can configure logging explicitly if needed.
     pass
-__all__ = ["ArizeClient", "SDKConfiguration"]
+__all__ = [
+    "ArizeClient",
+    "Region",
+    "SDKConfiguration",
+]
-def make_to_df(field_name: str):
+def make_to_df(field_name: str) -> object:
     def to_df(
-        self,
+        self: object,
         by_alias: bool = False,
         exclude_none: str | bool = False,
         json_normalize: bool = False,
         convert_dtypes: bool = True,
-    ):
-        """
-        Convert a list of objects to a pandas DataFrame.
+    ) -> object:
+        """Convert a list of objects to a pandas DataFrame.
         Behavior:
           - If an item is a Pydantic v2 model, use `.model_dump(by_alias=...)`.
@@ -85,6 +92,7 @@ def make_to_df(field_name: str):
 models.DatasetsList200Response.to_df = make_to_df("datasets")  # type: ignore[attr-defined]
-models.DatasetsListExamples200Response.to_df = make_to_df("examples")  # type: ignore[attr-defined]
+models.DatasetsExamplesList200Response.to_df = make_to_df("examples")  # type: ignore[attr-defined]
 models.ExperimentsList200Response.to_df = make_to_df("experiments")  # type: ignore[attr-defined]
 models.ExperimentsRunsList200Response.to_df = make_to_df("experiment_runs")  # type: ignore[attr-defined]
+models.ProjectsList200Response.to_df = make_to_df("projects")  # type: ignore[attr-defined]

arize/_exporter/client.py CHANGED Viewed

@@ -2,7 +2,6 @@
 import logging
 from dataclasses import dataclass
 from datetime import datetime
-from typing import List, Tuple
 import pandas as pd
 import pyarrow.parquet as pq
@@ -16,7 +15,7 @@ from arize._exporter.validation import (
     validate_input_type,
     validate_start_end_time,
 )
-from arize._generated.protocol.flight import export_pb2
+from arize._generated.protocol.flight import flight_pb2
 from arize.logging import CtxAdapter
 from arize.types import Environments, SimilaritySearchParams
 from arize.utils.dataframe import reset_dataframe_index
@@ -33,19 +32,20 @@ class ArizeExportClient:
         space_id: str,
         model_id: str,
         environment: Environments,
-        start_time: str | datetime,
-        end_time: str | datetime,
+        start_time: datetime,
+        end_time: datetime,
         where: str = "",
-        columns: List | None = None,
+        columns: list | None = None,
         similarity_search_params: SimilaritySearchParams | None = None,
         model_version: str = "",
         batch_id: str = "",
         include_actuals: bool = False,
         stream_chunk_size: int | None = None,
-    ):
-        """
-        Exports data of a specific model in the Arize platform to a pandas dataframe for a defined
-        time interval and model environment, optionally by model version and/or batch id.
+    ) -> object:
+        """Exports data of a specific model in the Arize platform to a pandas dataframe.
+        The export covers a defined time interval and model environment, and can
+        optionally be filtered by model version and/or batch id.
         Args:
             space_id (str): The id for the space where to export models from, can be retrieved from
@@ -104,14 +104,14 @@ class ArizeExportClient:
             return pd.DataFrame()
         progress_bar = self._get_progress_bar(num_recs)
         list_of_df = []
-        while True:
-            try:
+        try:
+            while True:
                 flight_batch = stream_reader.read_chunk()
                 batch_df = flight_batch.data.to_pandas()
                 list_of_df.append(batch_df)
                 progress_bar.update(batch_df.shape[0])
-            except StopIteration:
-                break
+        except StopIteration:
+            pass
         progress_bar.close()
         df = pd.concat(list_of_df)
         null_columns = df.columns[df.isnull().all()]
@@ -139,16 +139,17 @@ class ArizeExportClient:
         start_time: datetime,
         end_time: datetime,
         where: str = "",
-        columns: List | None = None,
+        columns: list | None = None,
         similarity_search_params: SimilaritySearchParams | None = None,
         model_version: str = "",
         batch_id: str = "",
         include_actuals: bool = False,
         stream_chunk_size: int | None = None,
     ) -> None:
-        """
-        Exports data of a specific model in the Arize platform to a parquet file for a defined time
-        interval and model environment, optionally by model version and/or batch id.
+        """Exports data of a specific model in the Arize platform to a parquet file.
+        The export covers a defined time interval and model environment, and can
+        optionally be filtered by model version and/or batch id.
         Args:
             path (str): path to the file to store exported data. File must be in parquet format and
@@ -208,17 +209,17 @@ class ArizeExportClient:
             stream_chunk_size=stream_chunk_size,
         )
         if stream_reader is None:
-            return None
+            return
         progress_bar = self._get_progress_bar(num_recs)
         with pq.ParquetWriter(path, schema=stream_reader.schema) as writer:
-            while True:
-                try:
+            try:
+                while True:
                     flight_batch = stream_reader.read_chunk()
                     record_batch = flight_batch.data
                     writer.write_batch(record_batch)
                     progress_bar.update(record_batch.num_rows)
-                except StopIteration:
-                    break
+            except StopIteration:
+                pass
         progress_bar.close()
     def _get_stream_reader(
@@ -233,9 +234,9 @@ class ArizeExportClient:
         batch_id: str = "",
         where: str = "",
         similarity_search_params: SimilaritySearchParams | None = None,
-        columns: List | None = None,
+        columns: list | None = None,
         stream_chunk_size: int | None = None,
-    ) -> Tuple[flight.FlightStreamReader, int]:
+    ) -> tuple[flight.FlightStreamReader | None, int]:
         # Bind common context for this operation
         log = CtxAdapter(
             logger,
@@ -273,7 +274,7 @@ class ArizeExportClient:
         validate_start_end_time(start_time, end_time)
         # Create query descriptor
-        query_descriptor = export_pb2.RecordQueryDescriptor(
+        query_descriptor = flight_pb2.RecordQueryDescriptor(
             space_id=space_id,
             model_id=model_id,
             environment=environment.name,
@@ -289,9 +290,11 @@ class ArizeExportClient:
                 else None
             ),
             projected_columns=columns if columns else [],
-            stream_chunk_size=Int64Value(value=stream_chunk_size)
-            if stream_chunk_size is not None
-            else None,
+            stream_chunk_size=(
+                Int64Value(value=stream_chunk_size)
+                if stream_chunk_size is not None
+                else None
+            ),
         )
         try:
@@ -306,17 +309,24 @@ class ArizeExportClient:
                 logger.warning("Query returns no data")
                 return None, 0
             logger.debug("Ticket: %s", flight_info.endpoints[0].ticket)
-            # Retrieve the result set as flight stream reader
-            reader = self.flight_client.do_get(flight_info.endpoints[0].ticket)
-            return reader, flight_info.total_records
         except Exception as e:
             msg = f"Error getting flight info or do_get: {e}"
-            logger.error(msg)
+            logger.exception(msg)
             raise RuntimeError(msg) from e
+        # Retrieve the result set as flight stream reader
+        reader = self.flight_client.do_get(flight_info.endpoints[0].ticket)
+        return reader, flight_info.total_records
     @staticmethod
-    def _get_progress_bar(num_recs):
+    def _get_progress_bar(num_recs: int) -> tqdm:
+        """Create a progress bar for export operations.
+        Args:
+            num_recs: Total number of records to export.
+        Returns:
+            A tqdm progress bar configured for data export display.
+        """
         return tqdm(
             total=num_recs,
             desc=f"  exporting {num_recs} rows",
@@ -329,8 +339,17 @@ class ArizeExportClient:
 def _get_pb_similarity_search_params(
     similarity_params: SimilaritySearchParams,
-) -> export_pb2.SimilaritySearchParams:
-    proto_params = export_pb2.SimilaritySearchParams()
+) -> flight_pb2.SimilaritySearchParams:
+    """Convert SimilaritySearchParams to protocol buffer format.
+    Args:
+        similarity_params: Similarity search parameters containing search column name,
+            threshold, and reference examples.
+    Returns:
+        A protocol buffer SimilaritySearchParams object for Flight requests.
+    """
+    proto_params = flight_pb2.SimilaritySearchParams()
     proto_params.search_column_name = similarity_params.search_column_name
     proto_params.threshold = similarity_params.threshold
     for ref in similarity_params.references:

arize/_exporter/parsers/tracing_data_parser.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import json
 import logging
-from typing import List
 import numpy as np
 import pandas as pd
@@ -28,12 +27,26 @@ logger = logging.getLogger(__name__)
 # but the resulting error messages provide clarity on what the effect
 # of the error is on the data; It should not prevent a user from continuing to use the data
 class OtelTracingDataTransformer:
+    def _apply_column_transformation(
+        self, df: pd.DataFrame, col_name: str, transform_func: object
+    ) -> str | None:
+        """Apply a transformation to a column and return error message if it fails."""
+        try:
+            df[col_name] = df[col_name].apply(transform_func)
+        except Exception as e:
+            return (
+                f"Unable to transform json string data to a Python dict in column '{col_name}'; "
+                f"May encounter issues when importing data back into Arize; Error: {e}"
+            )
+        else:
+            return None
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:
-        errors: List[str] = []
+        errors: list[str] = []
         # Convert list of json serializable strings columns to list of dictionaries for more
         # conveinent data processing in Python
-        list_of_json_string_column_names: List[str] = [
+        list_of_json_string_column_names: list[str] = [
             col.name
             for col in [
                 SPAN_ATTRIBUTES_LLM_INPUT_MESSAGES_COL,
@@ -45,17 +58,13 @@ class OtelTracingDataTransformer:
             if col.name in df.columns
         ]
         for col_name in list_of_json_string_column_names:
-            try:
-                df[col_name] = df[col_name].apply(
-                    self._transform_value_to_list_of_dict
-                )
-            except Exception as e:
-                errors.append(
-                    f"Unable to transform json string data to a Python dict in column '{col_name}'; "
-                    f"May encounter issues when importing data back into Arize; Error: {e}"
-                )
-        json_string_column_names: List[str] = [
+            error = self._apply_column_transformation(
+                df, col_name, self._transform_value_to_list_of_dict
+            )
+            if error:
+                errors.append(error)
+        json_string_column_names: list[str] = [
             col.name
             for col in [
                 SPAN_ATTRIBUTES_LLM_PROMPT_TEMPLATE_VARIABLES_COL,
@@ -64,16 +73,14 @@ class OtelTracingDataTransformer:
             if col.name in df.columns
         ]
         for col_name in json_string_column_names:
-            try:
-                df[col_name] = df[col_name].apply(self._transform_json_to_dict)
-            except Exception as e:
-                errors.append(
-                    f"Unable to transform json string data to a Python dict in column '{col_name}'; "
-                    f"May encounter issues when importing data back into Arize; Error: {e}"
-                )
+            error = self._apply_column_transformation(
+                df, col_name, self._transform_json_to_dict
+            )
+            if error:
+                errors.append(error)
         # Clean json string columns since empty strings are equivalent here to None but are not valid json
-        dirty_string_column_names: List[str] = [
+        dirty_string_column_names: list[str] = [
             col.name
             for col in [
                 SPAN_ATTRIBUTES_LLM_INVOCATION_PARAMETERS_COL,
@@ -85,7 +92,7 @@ class OtelTracingDataTransformer:
             df[col_name] = df[col_name].apply(self._clean_json_string)
         # Convert timestamp columns to datetime objects
-        timestamp_column_names: List[str] = [
+        timestamp_column_names: list[str] = [
             col.name
             for col in [
                 SPAN_START_TIME_COL,
@@ -103,7 +110,9 @@ class OtelTracingDataTransformer:
         return df
-    def _transform_value_to_list_of_dict(self, value):
+    def _transform_value_to_list_of_dict(
+        self, value: object
+    ) -> list[object] | None:
         if value is None:
             return None
@@ -113,10 +122,11 @@ class OtelTracingDataTransformer:
                 for i in value
                 if self._is_non_empty_string(i)
             ]
-        elif self._is_non_empty_string(value):
+        if self._is_non_empty_string(value):
             return [self._deserialize_json_string_to_dict(value)]
+        return None
-    def _transform_json_to_dict(self, value):
+    def _transform_json_to_dict(self, value: object) -> object | None:
         if value is None:
             return None
@@ -126,20 +136,21 @@ class OtelTracingDataTransformer:
         if isinstance(value, str) and value == "":
             # transform empty string to None
             return None
+        return None
-    def _is_non_empty_string(self, value):
+    def _is_non_empty_string(self, value: object) -> bool:
         return isinstance(value, str) and value != ""
-    def _deserialize_json_string_to_dict(self, value: str):
+    def _deserialize_json_string_to_dict(self, value: str) -> object:
         try:
             return json.loads(value)
         except json.JSONDecodeError as e:
             raise ValueError(f"Invalid JSON string: {value}") from e
-    def _clean_json_string(self, value):
+    def _clean_json_string(self, value: object) -> object | None:
         return value if self._is_non_empty_string(value) else None
-    def _convert_timestamp_to_datetime(self, value):
+    def _convert_timestamp_to_datetime(self, value: object) -> object:
         return (
             pd.Timestamp(value, unit="ns")
             if value and isinstance(value, (int, float, np.int64))

arize/_exporter/validation.py CHANGED Viewed

@@ -1,13 +1,13 @@
 from __future__ import annotations
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING
 if TYPE_CHECKING:
     from datetime import datetime
 def validate_input_type(
-    input: Any,
+    input: object,
     input_name: str,
     input_type: type,
     allow_none: bool = False,
@@ -28,7 +28,7 @@ def validate_input_type(
 def validate_input_value(
-    input: Any,
+    input: object,
     input_name: str,
     choices: tuple,
 ) -> None:

arize 8.0.0a21__py3-none-any.whl → 8.0.0a23__py3-none-any.whl

arize 8.0.0a21py3-none-any.whl → 8.0.0a23py3-none-any.whl