PyPI - chalkpy - Versions diffs - 2.89.22__py3-none-any.whl → 2.95.3__py3-none-any.whl - Mend

chalkpy 2.89.22py3-none-any.whl → 2.95.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (268) hide show

chalk/__init__.py +2 -1
chalk/_gen/chalk/arrow/v1/arrow_pb2.py +7 -5
chalk/_gen/chalk/arrow/v1/arrow_pb2.pyi +6 -0
chalk/_gen/chalk/artifacts/v1/chart_pb2.py +36 -33
chalk/_gen/chalk/artifacts/v1/chart_pb2.pyi +41 -1
chalk/_gen/chalk/artifacts/v1/cron_query_pb2.py +8 -7
chalk/_gen/chalk/artifacts/v1/cron_query_pb2.pyi +5 -0
chalk/_gen/chalk/common/v1/offline_query_pb2.py +19 -13
chalk/_gen/chalk/common/v1/offline_query_pb2.pyi +37 -0
chalk/_gen/chalk/common/v1/online_query_pb2.py +54 -54
chalk/_gen/chalk/common/v1/online_query_pb2.pyi +13 -1
chalk/_gen/chalk/common/v1/script_task_pb2.py +13 -11
chalk/_gen/chalk/common/v1/script_task_pb2.pyi +19 -1
chalk/_gen/chalk/dataframe/__init__.py +0 -0
chalk/_gen/chalk/dataframe/v1/__init__.py +0 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2.py +48 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2.pyi +123 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2_grpc.py +4 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/graph/v1/graph_pb2.py +150 -149
chalk/_gen/chalk/graph/v1/graph_pb2.pyi +25 -0
chalk/_gen/chalk/graph/v1/sources_pb2.py +94 -84
chalk/_gen/chalk/graph/v1/sources_pb2.pyi +56 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2.py +79 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2.pyi +377 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2_grpc.py +4 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/kubernetes/v1/scaledobject_pb2.py +43 -7
chalk/_gen/chalk/kubernetes/v1/scaledobject_pb2.pyi +252 -2
chalk/_gen/chalk/protosql/v1/sql_service_pb2.py +54 -27
chalk/_gen/chalk/protosql/v1/sql_service_pb2.pyi +131 -3
chalk/_gen/chalk/protosql/v1/sql_service_pb2_grpc.py +45 -0
chalk/_gen/chalk/protosql/v1/sql_service_pb2_grpc.pyi +14 -0
chalk/_gen/chalk/python/v1/types_pb2.py +14 -14
chalk/_gen/chalk/python/v1/types_pb2.pyi +8 -0
chalk/_gen/chalk/server/v1/benchmark_pb2.py +76 -0
chalk/_gen/chalk/server/v1/benchmark_pb2.pyi +156 -0
chalk/_gen/chalk/server/v1/benchmark_pb2_grpc.py +258 -0
chalk/_gen/chalk/server/v1/benchmark_pb2_grpc.pyi +84 -0
chalk/_gen/chalk/server/v1/billing_pb2.py +40 -38
chalk/_gen/chalk/server/v1/billing_pb2.pyi +17 -1
chalk/_gen/chalk/server/v1/branches_pb2.py +45 -0
chalk/_gen/chalk/server/v1/branches_pb2.pyi +80 -0
chalk/_gen/chalk/server/v1/branches_pb2_grpc.pyi +36 -0
chalk/_gen/chalk/server/v1/builder_pb2.py +372 -272
chalk/_gen/chalk/server/v1/builder_pb2.pyi +479 -12
chalk/_gen/chalk/server/v1/builder_pb2_grpc.py +360 -0
chalk/_gen/chalk/server/v1/builder_pb2_grpc.pyi +96 -0
chalk/_gen/chalk/server/v1/chart_pb2.py +10 -10
chalk/_gen/chalk/server/v1/chart_pb2.pyi +18 -2
chalk/_gen/chalk/server/v1/clickhouse_pb2.py +42 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2.pyi +17 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2_grpc.py +78 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/cloud_components_pb2.py +153 -107
chalk/_gen/chalk/server/v1/cloud_components_pb2.pyi +146 -4
chalk/_gen/chalk/server/v1/cloud_components_pb2_grpc.py +180 -0
chalk/_gen/chalk/server/v1/cloud_components_pb2_grpc.pyi +48 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2.py +11 -3
chalk/_gen/chalk/server/v1/cloud_credentials_pb2.pyi +20 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2.py +59 -35
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2.pyi +127 -1
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2_grpc.py +135 -0
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2_grpc.pyi +36 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2.py +90 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2.pyi +264 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2_grpc.py +170 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2_grpc.pyi +62 -0
chalk/_gen/chalk/server/v1/datasets_pb2.py +36 -24
chalk/_gen/chalk/server/v1/datasets_pb2.pyi +71 -2
chalk/_gen/chalk/server/v1/datasets_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/datasets_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/deploy_pb2.py +9 -3
chalk/_gen/chalk/server/v1/deploy_pb2.pyi +12 -0
chalk/_gen/chalk/server/v1/deploy_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/deploy_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/deployment_pb2.py +20 -15
chalk/_gen/chalk/server/v1/deployment_pb2.pyi +25 -0
chalk/_gen/chalk/server/v1/environment_pb2.py +25 -15
chalk/_gen/chalk/server/v1/environment_pb2.pyi +93 -1
chalk/_gen/chalk/server/v1/eventbus_pb2.py +44 -0
chalk/_gen/chalk/server/v1/eventbus_pb2.pyi +64 -0
chalk/_gen/chalk/server/v1/eventbus_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/eventbus_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/files_pb2.py +65 -0
chalk/_gen/chalk/server/v1/files_pb2.pyi +167 -0
chalk/_gen/chalk/server/v1/files_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/files_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/graph_pb2.py +41 -3
chalk/_gen/chalk/server/v1/graph_pb2.pyi +191 -0
chalk/_gen/chalk/server/v1/graph_pb2_grpc.py +92 -0
chalk/_gen/chalk/server/v1/graph_pb2_grpc.pyi +32 -0
chalk/_gen/chalk/server/v1/incident_pb2.py +57 -0
chalk/_gen/chalk/server/v1/incident_pb2.pyi +165 -0
chalk/_gen/chalk/server/v1/incident_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/incident_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2.py +44 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2.pyi +38 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2_grpc.py +78 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/integrations_pb2.py +11 -9
chalk/_gen/chalk/server/v1/integrations_pb2.pyi +34 -2
chalk/_gen/chalk/server/v1/kube_pb2.py +29 -19
chalk/_gen/chalk/server/v1/kube_pb2.pyi +28 -0
chalk/_gen/chalk/server/v1/kube_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/kube_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/log_pb2.py +21 -3
chalk/_gen/chalk/server/v1/log_pb2.pyi +68 -0
chalk/_gen/chalk/server/v1/log_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/log_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2.py +73 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2.pyi +212 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2_grpc.py +217 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2_grpc.pyi +74 -0
chalk/_gen/chalk/server/v1/model_registry_pb2.py +10 -10
chalk/_gen/chalk/server/v1/model_registry_pb2.pyi +4 -1
chalk/_gen/chalk/server/v1/monitoring_pb2.py +84 -75
chalk/_gen/chalk/server/v1/monitoring_pb2.pyi +1 -0
chalk/_gen/chalk/server/v1/monitoring_pb2_grpc.py +136 -0
chalk/_gen/chalk/server/v1/monitoring_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/offline_queries_pb2.py +32 -10
chalk/_gen/chalk/server/v1/offline_queries_pb2.pyi +73 -0
chalk/_gen/chalk/server/v1/offline_queries_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/offline_queries_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/plandebug_pb2.py +53 -0
chalk/_gen/chalk/server/v1/plandebug_pb2.pyi +86 -0
chalk/_gen/chalk/server/v1/plandebug_pb2_grpc.py +168 -0
chalk/_gen/chalk/server/v1/plandebug_pb2_grpc.pyi +60 -0
chalk/_gen/chalk/server/v1/queries_pb2.py +76 -48
chalk/_gen/chalk/server/v1/queries_pb2.pyi +155 -2
chalk/_gen/chalk/server/v1/queries_pb2_grpc.py +180 -0
chalk/_gen/chalk/server/v1/queries_pb2_grpc.pyi +48 -0
chalk/_gen/chalk/server/v1/scheduled_query_pb2.py +4 -2
chalk/_gen/chalk/server/v1/scheduled_query_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/scheduled_query_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/scheduled_query_run_pb2.py +12 -6
chalk/_gen/chalk/server/v1/scheduled_query_run_pb2.pyi +75 -2
chalk/_gen/chalk/server/v1/scheduler_pb2.py +24 -12
chalk/_gen/chalk/server/v1/scheduler_pb2.pyi +61 -1
chalk/_gen/chalk/server/v1/scheduler_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/scheduler_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2.py +26 -14
chalk/_gen/chalk/server/v1/script_tasks_pb2.pyi +33 -3
chalk/_gen/chalk/server/v1/script_tasks_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2.py +75 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2.pyi +142 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2_grpc.py +349 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2_grpc.pyi +114 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2.py +48 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2.pyi +150 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2_grpc.py +123 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2_grpc.pyi +52 -0
chalk/_gen/chalk/server/v1/team_pb2.py +156 -137
chalk/_gen/chalk/server/v1/team_pb2.pyi +56 -10
chalk/_gen/chalk/server/v1/team_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/team_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/topic_pb2.py +5 -3
chalk/_gen/chalk/server/v1/topic_pb2.pyi +10 -1
chalk/_gen/chalk/server/v1/trace_pb2.py +50 -28
chalk/_gen/chalk/server/v1/trace_pb2.pyi +121 -0
chalk/_gen/chalk/server/v1/trace_pb2_grpc.py +135 -0
chalk/_gen/chalk/server/v1/trace_pb2_grpc.pyi +42 -0
chalk/_gen/chalk/server/v1/webhook_pb2.py +9 -3
chalk/_gen/chalk/server/v1/webhook_pb2.pyi +18 -0
chalk/_gen/chalk/server/v1/webhook_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/webhook_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2.py +62 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2.pyi +75 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2_grpc.py +221 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2_grpc.pyi +88 -0
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2.py +19 -7
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2.pyi +96 -3
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2_grpc.py +48 -0
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2_grpc.pyi +20 -0
chalk/_gen/chalk/utils/v1/field_change_pb2.py +32 -0
chalk/_gen/chalk/utils/v1/field_change_pb2.pyi +42 -0
chalk/_gen/chalk/utils/v1/field_change_pb2_grpc.py +4 -0
chalk/_gen/chalk/utils/v1/field_change_pb2_grpc.pyi +4 -0
chalk/_lsp/error_builder.py +11 -0
chalk/_monitoring/Chart.py +1 -3
chalk/_version.py +1 -1
chalk/cli.py +5 -10
chalk/client/client.py +178 -64
chalk/client/client_async.py +154 -0
chalk/client/client_async_impl.py +22 -0
chalk/client/client_grpc.py +738 -112
chalk/client/client_impl.py +541 -136
chalk/client/dataset.py +27 -6
chalk/client/models.py +99 -2
chalk/client/serialization/model_serialization.py +126 -10
chalk/config/project_config.py +1 -1
chalk/df/LazyFramePlaceholder.py +1154 -0
chalk/df/ast_parser.py +2 -10
chalk/features/_class_property.py +7 -0
chalk/features/_embedding/embedding.py +1 -0
chalk/features/_embedding/sentence_transformer.py +1 -1
chalk/features/_encoding/converter.py +83 -2
chalk/features/_encoding/pyarrow.py +20 -4
chalk/features/_encoding/rich.py +1 -3
chalk/features/_tensor.py +1 -2
chalk/features/dataframe/_filters.py +14 -5
chalk/features/dataframe/_impl.py +91 -36
chalk/features/dataframe/_validation.py +11 -7
chalk/features/feature_field.py +40 -30
chalk/features/feature_set.py +1 -2
chalk/features/feature_set_decorator.py +1 -0
chalk/features/feature_wrapper.py +42 -3
chalk/features/hooks.py +81 -12
chalk/features/inference.py +65 -10
chalk/features/resolver.py +338 -56
chalk/features/tag.py +1 -3
chalk/features/underscore_features.py +2 -1
chalk/functions/__init__.py +456 -21
chalk/functions/holidays.py +1 -3
chalk/gitignore/gitignore_parser.py +5 -1
chalk/importer.py +186 -74
chalk/ml/__init__.py +6 -2
chalk/ml/model_hooks.py +368 -51
chalk/ml/model_reference.py +68 -10
chalk/ml/model_version.py +34 -21
chalk/ml/utils.py +143 -40
chalk/operators/_utils.py +14 -3
chalk/parsed/_proto/export.py +22 -0
chalk/parsed/duplicate_input_gql.py +4 -0
chalk/parsed/expressions.py +1 -3
chalk/parsed/json_conversions.py +21 -14
chalk/parsed/to_proto.py +16 -4
chalk/parsed/user_types_to_json.py +31 -10
chalk/parsed/validation_from_registries.py +182 -0
chalk/queries/named_query.py +16 -6
chalk/queries/scheduled_query.py +13 -1
chalk/serialization/parsed_annotation.py +25 -12
chalk/sql/__init__.py +221 -0
chalk/sql/_internal/integrations/athena.py +6 -1
chalk/sql/_internal/integrations/bigquery.py +22 -2
chalk/sql/_internal/integrations/databricks.py +61 -18
chalk/sql/_internal/integrations/mssql.py +281 -0
chalk/sql/_internal/integrations/postgres.py +11 -3
chalk/sql/_internal/integrations/redshift.py +4 -0
chalk/sql/_internal/integrations/snowflake.py +11 -2
chalk/sql/_internal/integrations/util.py +2 -1
chalk/sql/_internal/sql_file_resolver.py +55 -10
chalk/sql/_internal/sql_source.py +36 -2
chalk/streams/__init__.py +1 -3
chalk/streams/_kafka_source.py +5 -1
chalk/streams/_windows.py +16 -4
chalk/streams/types.py +1 -2
chalk/utils/__init__.py +1 -3
chalk/utils/_otel_version.py +13 -0
chalk/utils/async_helpers.py +14 -5
chalk/utils/df_utils.py +2 -2
chalk/utils/duration.py +1 -3
chalk/utils/job_log_display.py +538 -0
chalk/utils/missing_dependency.py +5 -4
chalk/utils/notebook.py +255 -2
chalk/utils/pl_helpers.py +190 -37
chalk/utils/pydanticutil/pydantic_compat.py +1 -2
chalk/utils/storage_client.py +246 -0
chalk/utils/threading.py +1 -3
chalk/utils/tracing.py +194 -86
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/METADATA +53 -21
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/RECORD +268 -198
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/WHEEL +0 -0
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/entry_points.txt +0 -0
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/top_level.txt +0 -0

chalk/df/ast_parser.py CHANGED Viewed

@@ -93,9 +93,7 @@ def parse_dataframe_getitem():
     )
     assert isinstance(func_node, ast.Subscript)
     slc = func_node.slice
-    if isinstance(slc, ast.Index):
-        slc = slc.value  # type: ignore
-        assert isinstance(slc, ast.expr)
+    assert isinstance(slc, ast.expr)
     converted_slice = convert_slice(slc)
     return eval_converted_expr(converted_slice, glbs=func_frame.f_globals, lcls=func_frame.f_locals)
@@ -227,13 +225,7 @@ def _convert_maybe_tuple(slc: ast.expr):
         return _convert_ops(slc)
-def convert_slice(slc: Union[ast.expr, ast.Index]):
-    if isinstance(slc, ast.Index):
-        # Index is deprecated in Python 3.9+
-        slc = slc.value  # type: ignore
-        assert isinstance(slc, ast.expr)
-        slc = _convert_maybe_tuple(slc)
-        return ast.Index(value=slc)  # pyright: ignore[reportCallIssue]
+def convert_slice(slc: ast.expr):
     return _convert_maybe_tuple(slc)

chalk/features/_class_property.py CHANGED Viewed

@@ -5,6 +5,8 @@ import functools
 from typing import Any, Callable, List, Type, TypeVar, cast
 from chalk._lsp.error_builder import FeatureClassErrorBuilder
+from chalk.features.feature_wrapper import UnresolvedFeature
+from chalk.utils.notebook import is_notebook
 T = TypeVar("T")
 V = TypeVar("V")
@@ -54,6 +56,11 @@ def classproperty_support(cls: Type[T]) -> Type[T]:
             if (res := self.__chalk_notebook_feature_expressions__.get(item)) is not None:
                 return res
+            # If in notebook, fallback to constructing FQN string instead of raising error
+            if is_notebook():
+                fqn = f"{self.namespace}.{item}"
+                return UnresolvedFeature(fqn)
             builder: FeatureClassErrorBuilder = self.__chalk_error_builder__
             builder.invalid_attribute(
                 root_feature_str=self.namespace,

chalk/features/_embedding/embedding.py CHANGED Viewed

@@ -25,6 +25,7 @@ from chalk.utils.collections import ensure_tuple
 SUPPORTED_LOCAL_MODELS = {
     "all-MiniLM-L6-v2",  # https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2
     "sample-bert",  # For internal Chalk use
+    "sample-linear-nn",  # For internal Chalk use
 }
 # This will eventually be included in SUPPORTED_LOCAL_MODELS

chalk/features/_embedding/sentence_transformer.py CHANGED Viewed

@@ -111,7 +111,7 @@ class SentenceTransformerProvider(EmbeddingProvider):
                     raise ValueError(
                         f"Expected to find an embedding for input at position {idx}, but the response data was exhausted."
                     )
-            yield create_fixedsize_with_nulls(response, self.dimensions)
+            yield create_fixedsize_with_nulls(values_with_nulls, self.dimensions)
     def get_vector_class(self) -> Type[Vector]:
         return Vector[self.dimensions]

chalk/features/_encoding/converter.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from __future__ import annotations
+import io
 import json
 import types
 import typing
@@ -50,6 +51,7 @@ from chalk.features._encoding.pyarrow import (
     rich_to_pyarrow,
 )
 from chalk.features._encoding.rich import structure_primitive_to_rich, unstructure_rich_to_primitive
+from chalk.features.feature_wrapper import UnresolvedFeature
 from chalk.utils.collections import unwrap_annotated_if_needed, unwrap_optional_and_annotated_if_needed
 from chalk.utils.df_utils import pa_array_to_pl_series
 from chalk.utils.json import JSON, TJSON, is_pyarrow_json_type, pyarrow_json_type
@@ -870,6 +872,79 @@ class PrimitiveFeatureConverter(Generic[_TPrim]):
         else:
             raise TypeError(f"Could not convert the pyarrow dtype {dtype} to a protobuf message")
+    @classmethod
+    def convert_pa_field_to_proto_field(cls, field: pa.Field) -> pb.Field:
+        """Convert a PyArrow Field to proto Field."""
+        field_proto = pb.Field(
+            name=field.name, arrow_type=cls.convert_pa_dtype_to_proto_dtype(field.type), nullable=field.nullable
+        )
+        if field.metadata:
+            # field.metadata is of types dict[bytes, bytes]
+            for k, v in field.metadata.items():
+                field_proto.metadata[k.decode("utf-8")] = v.decode("utf-8")
+        return field_proto
+    @classmethod
+    def convert_proto_field_to_pa_field(cls, proto_field: pb.Field) -> pa.Field:
+        """Convert a proto Field to PyArrow Field."""
+        arrow_type = cls.convert_proto_dtype_to_pa_dtype(proto_field.arrow_type)
+        # don't have to convert back to dict[bytes, bytes] as can initialize with dict[str, str]
+        metadata = dict(proto_field.metadata) if proto_field.metadata else None
+        return pa.field(
+            name=proto_field.name,
+            type=arrow_type,
+            nullable=proto_field.nullable,
+            metadata=metadata,
+        )
+    @classmethod
+    def convert_pa_schema_to_proto_schema(cls, schema: pa.Schema) -> pb.Schema:
+        schema_proto = pb.Schema(
+            columns=[cls.convert_pa_field_to_proto_field(field) for field in schema],
+        )
+        if schema.metadata:
+            # schema.metadata is of types dict[bytes, bytes]
+            for k, v in schema.metadata.items():
+                schema_proto.metadata[k.decode("utf-8")] = v.decode("utf-8")
+        return schema_proto
+    @classmethod
+    def convert_proto_schema_to_pa_schema(cls, proto_schema: pb.Schema) -> pa.Schema:
+        fields = [cls.convert_proto_field_to_pa_field(proto_field) for proto_field in proto_schema.columns]
+        # don't have to convert back to dict[bytes, bytes] as can initialize with dict[str, str]
+        metadata = dict(proto_schema.metadata) if proto_schema.metadata else None
+        return pa.schema(fields, metadata=metadata)
+    @staticmethod
+    def convert_arrow_table_to_proto(table: pa.Table | pa.RecordBatch) -> pb.TableParquetBytes:
+        if isinstance(table, pa.RecordBatch):
+            table = pa.Table.from_batches([table])
+        elif isinstance(table, pa.Table):
+            pass
+        else:
+            raise TypeError(f"expected pa.Table or pa.RecordBatch, got {type(table)!r}")
+        sink = io.BytesIO()
+        import pyarrow.parquet
+        pyarrow.parquet.write_table(table, sink)
+        return pb.TableParquetBytes(encoded_parquet_bytes=sink.getvalue())
+    @staticmethod
+    def convert_arrow_table_from_proto(proto: pb.TableParquetBytes) -> pa.Table:
+        import pyarrow.parquet
+        pf = pyarrow.parquet.ParquetFile(io.BytesIO(proto.encoded_parquet_bytes))
+        return pyarrow.parquet.read_table(pf)
     @staticmethod
     def _serialize_pa_decimal_to_pb(value: Union[pa.Decimal128Scalar, pa.Decimal256Scalar]) -> pb.ScalarValue:
         dec_val = value.as_py()
@@ -1183,8 +1258,14 @@ class FeatureConverter(PrimitiveFeatureConverter[_TPrim], Generic[_TPrim, _TRich
         # because it is also used for error handling inside of `from_rich_to_primitive`.
         self._name = name
         if rich_default != ...:
-            # The missing value strategy doesn't really matter because rich_default is not missing
-            primitive_default = self.from_rich_to_primitive(rich_default, missing_value_strategy="allow")
+            # In notebook environments, UnresolvedFeature may be used as a placeholder
+            # for features that can't be resolved due to a stale registry.
+            # Treat these as missing defaults since they're not concrete values.
+            if isinstance(rich_default, UnresolvedFeature):
+                rich_default = ...
+            else:
+                # The missing value strategy doesn't really matter because rich_default is not missing
+                primitive_default = self.from_rich_to_primitive(rich_default, missing_value_strategy="allow")
         super().__init__(
             name, is_nullable=is_nullable, pyarrow_dtype=pyarrow_dtype, primitive_default=primitive_default
         )

chalk/features/_encoding/pyarrow.py CHANGED Viewed

@@ -8,12 +8,28 @@ import ipaddress
 import typing
 import uuid
 from datetime import date, datetime, time, timedelta
-from typing import TYPE_CHECKING, Any, Dict, FrozenSet, List, Mapping, Set, Tuple, Type, cast
+from typing import (
+    TYPE_CHECKING,
+    Annotated,
+    Any,
+    Dict,
+    FrozenSet,
+    List,
+    Literal,
+    Mapping,
+    Set,
+    Tuple,
+    Type,
+    TypeGuard,
+    cast,
+    get_args,
+    get_origin,
+    is_typeddict,
+)
 import attrs
 import google.protobuf.message
 import pyarrow as pa
-from typing_extensions import Annotated, Literal, TypeGuard, get_args, get_origin, is_typeddict
 from chalk.features._encoding.http import HttpResponse, get_http_response_as_pyarrow
 from chalk.features._encoding.primitive import ChalkStructType, TPrimitive
@@ -24,7 +40,7 @@ from chalk.utils.collections import is_namedtuple, is_optional, unwrap_optional_
 from chalk.utils.enum import get_enum_value_type
 from chalk.utils.json import JSON, is_pyarrow_json_type
 from chalk.utils.missing_dependency import missing_dependency_exception
-from chalk.utils.pl_helpers import is_new_polars
+from chalk.utils.pl_helpers import is_new_polars, pl_array
 from chalk.utils.pydanticutil.pydantic_compat import is_pydantic_basemodel
 if TYPE_CHECKING:
@@ -418,7 +434,7 @@ def pyarrow_to_polars(
         underlying = pa_type.value_type
         if is_new_polars and use_fixed_size_list:
             # pl.Array is only available in polars >=0.18
-            return pl.Array(inner=pyarrow_to_polars(underlying, name=f"{name}[]"), width=pa_type.list_size)
+            return pl_array(inner=pyarrow_to_polars(underlying, name=f"{name}[]"), size=pa_type.list_size)
         else:
             return pl.List(pyarrow_to_polars(underlying, name=f"{name}[]"))
     if pa.types.is_struct(pa_type):

chalk/features/_encoding/rich.py CHANGED Viewed

@@ -8,7 +8,7 @@ import enum
 import ipaddress
 import uuid
 from datetime import date, datetime, time, timedelta
-from typing import Any, FrozenSet, List, Set, Tuple, Type, TypeVar, Union, cast
+from typing import Any, FrozenSet, List, Set, Tuple, Type, TypeVar, Union, cast, get_args, get_origin, is_typeddict
 import attrs
 import cattrs
@@ -23,8 +23,6 @@ try:
 except ImportError:
     V1BaseModel = None
-from typing_extensions import get_args, get_origin, is_typeddict
 from chalk.features._encoding.primitive import ChalkStructType, TPrimitive
 from chalk.utils.cached_type_hints import cached_get_type_hints
 from chalk.utils.collections import is_namedtuple, unwrap_optional_and_annotated_if_needed

chalk/features/_tensor.py CHANGED Viewed

@@ -1,11 +1,10 @@
 from __future__ import annotations
 from enum import Enum
-from typing import Any, Tuple, Type, Union, overload
+from typing import Any, Tuple, Type, TypeGuard, Union, overload
 import numpy as np
 import pyarrow as pa
-from typing_extensions import TypeGuard
 TensorDimension = Union[int, str]

chalk/features/dataframe/_filters.py CHANGED Viewed

@@ -4,16 +4,17 @@ import collections.abc
 import datetime
 import enum
 import functools
-from typing import TYPE_CHECKING, Any, List, Mapping, Optional, Protocol, Sequence, TypeVar, Union, cast
+from typing import TYPE_CHECKING, Any, List, Mapping, Optional, Protocol, Sequence, TypeGuard, TypeVar, Union, cast
 import pyarrow as pa
-from typing_extensions import Self, TypeGuard
+from typing_extensions import Self
 from chalk.features._encoding.converter import pyarrow_to_polars
 from chalk.features.feature_field import Feature
 from chalk.features.feature_wrapper import FeatureWrapper, unwrap_feature
 from chalk.features.filter import Filter, TimeDelta, get_filter_now
 from chalk.utils.collections import ensure_tuple
+from chalk.utils.pl_helpers import polars_lazy_frame_collect_schema
 if TYPE_CHECKING:
     import polars as pl
@@ -442,7 +443,7 @@ class _PolarsStructAdapter(StructAdapter["pl.Expr"]):
 def filter_data_frame(
     item: Any,
-    underlying: Union[pl.DataFrame, pl.LazyFrame],
+    underlying: pl.LazyFrame,
     namespace: Optional[str],
 ) -> Union[pl.DataFrame, pl.LazyFrame]:
@@ -463,7 +464,10 @@ def filter_data_frame(
             )
     now = get_filter_now()
     if len(projections) > 0:
-        key_error_or_none = dataframe_missing_key_error(projections, underlying.columns)
+        key_error_or_none = dataframe_missing_key_error(
+            projections,
+            (underlying.collect_schema().names() if polars_lazy_frame_collect_schema else underlying.columns),
+        )
         if key_error_or_none is not None:
             raise key_error_or_none
     # now = datetime.datetime.now(tz=datetime.timezone.utc)
@@ -472,7 +476,12 @@ def filter_data_frame(
     timestamp_feature = (
         None if namespace is None else CURRENT_FEATURE_REGISTRY.get().get_feature_sets()[namespace].__chalk_ts__
     )
-    pl_expr = convert_filters_to_pl_expr(filters, underlying.schema, timestamp_feature, now)
+    pl_expr = convert_filters_to_pl_expr(
+        filters,
+        (underlying.collect_schema() if polars_lazy_frame_collect_schema else underlying.schema),
+        timestamp_feature,
+        now,
+    )
     df = underlying
     if pl_expr is not None:
         df = df.filter(pl_expr)

chalk/features/dataframe/_impl.py CHANGED Viewed

@@ -32,7 +32,6 @@ from typing import (
     overload,
 )
-import packaging.version
 import pyarrow as pa
 from chalk.features._chalkop import Aggregation
@@ -56,6 +55,13 @@ from chalk.utils.df_utils import (
 )
 from chalk.utils.duration import Duration, parse_chalk_duration
 from chalk.utils.missing_dependency import missing_dependency_exception
+from chalk.utils.pl_helpers import (
+    polars_group_by_instead_of_groupby,
+    polars_lazy_frame_collect_schema,
+    polars_name_dot_suffix_instead_of_suffix,
+    polars_uses_schema_overrides,
+    schema_compat,
+)
 from chalk.utils.pydanticutil.pydantic_compat import is_pydantic_basemodel
 if TYPE_CHECKING:
@@ -473,7 +479,12 @@ class DataFrame(metaclass=DataFrameMeta):
             raise ValueError(f"Unable to convert data of type {type(data).__name__} into a DataFrame")
         # Rename / validate that all column names are root fqns
         if self._pydantic_model is None:
-            self.columns = tuple(Feature.from_root_fqn(str(c)) for c in underlying.columns)
+            self.columns = tuple(
+                Feature.from_root_fqn(str(c))
+                for c in (
+                    underlying.collect_schema().names() if polars_lazy_frame_collect_schema else underlying.columns
+                )
+            )
         else:
             self.columns = ()
@@ -505,7 +516,13 @@ class DataFrame(metaclass=DataFrameMeta):
         """
         import polars as pl
-        rename_map = {x: Distance.fqn for x in underlying.columns if x in self._distance_feature_fqns}
+        rename_map = {
+            x: Distance.fqn
+            for x in (
+                underlying.collect_schema().names() if polars_lazy_frame_collect_schema else underlying.columns
+            )  # pyright: ignore
+            if x in self._distance_feature_fqns
+        }
         underlying = underlying.rename(rename_map)
         if len(rename_map) > 0:
@@ -620,7 +637,14 @@ class DataFrame(metaclass=DataFrameMeta):
             )
         elif all(isinstance(col, str) for col in ensure_tuple(item)):
             # Select the columns with `.select()` since they're by name.
-            key_error_or_none = dataframe_missing_key_error(ensure_tuple(item), self._underlying.columns)
+            key_error_or_none = dataframe_missing_key_error(
+                ensure_tuple(item),
+                (
+                    self._underlying.collect_schema().names()
+                    if polars_lazy_frame_collect_schema
+                    else self._underlying.columns
+                ),
+            )
             if key_error_or_none is not None:
                 raise key_error_or_none
             materialized = self._materialize()
@@ -700,7 +724,7 @@ class DataFrame(metaclass=DataFrameMeta):
             if len(operation.filters) > 0:
                 f = convert_filters_to_pl_expr(
                     operation.filters,
-                    self._underlying.schema,
+                    schema_compat(self._underlying),
                     timestamp_feature,
                     now,
                 )
@@ -711,10 +735,10 @@ class DataFrame(metaclass=DataFrameMeta):
         data = self._underlying.lazy()
-        if packaging.version.parse(pl.__version__) <= packaging.version.parse("0.19.0"):
-            data = data.groupby(groupby)
-        else:
+        if polars_group_by_instead_of_groupby:
             data = data.group_by(groupby)
+        else:
+            data = data.groupby(groupby)  # pyright: ignore
         data = data.agg(cols).collect()
@@ -778,7 +802,7 @@ class DataFrame(metaclass=DataFrameMeta):
         col_str = str(column)
-        col_dtype = self._underlying.schema[col_str]
+        col_dtype = schema_compat(self._underlying)[col_str]
         underlying = self._underlying
         if col_dtype != pl.Float64() and col_dtype != pl.Float32():
             underlying = underlying.select(pl.col(col_str).cast(pl.Float32))
@@ -965,7 +989,7 @@ class DataFrame(metaclass=DataFrameMeta):
             if len(operation.filters) > 0:
                 f = convert_filters_to_pl_expr(
                     operation.filters,
-                    self._underlying.schema,
+                    schema_compat(self._underlying),
                     timestamp_feature,
                     now,
                 )
@@ -974,22 +998,40 @@ class DataFrame(metaclass=DataFrameMeta):
             cols.append(operation.fn(c).alias(str(alias)))
-        return DataFrame(
-            self._underlying.lazy()
-            .sort(str(index), descending=False)
-            .groupby_dynamic(
-                index_column=str(index),
-                by=groupby,
-                offset=offset,
-                every=every,
-                period=period,
-                start_by=start_by,
+        if polars_group_by_instead_of_groupby:
+            return DataFrame(
+                self._underlying.lazy()
+                .sort(str(index), descending=False)
+                .group_by_dynamic(
+                    index_column=str(index),
+                    group_by=groupby,
+                    offset=offset,
+                    every=every,
+                    period=period,
+                    start_by=start_by,
+                )
+                .agg(cols)
+                .collect(),
+                convert_dtypes=self._convert_dtypes,
+                pydantic_model=self._pydantic_model,
+            )
+        else:
+            return DataFrame(
+                self._underlying.lazy()
+                .sort(str(index), descending=False)
+                .groupby_dynamic(  # pyright: ignore
+                    index_column=str(index),
+                    by=groupby,
+                    offset=offset,
+                    every=every,
+                    period=period,
+                    start_by=start_by,
+                )
+                .agg(cols)
+                .collect(),
+                convert_dtypes=self._convert_dtypes,
+                pydantic_model=self._pydantic_model,
             )
-            .agg(cols)
-            .collect(),
-            convert_dtypes=self._convert_dtypes,
-            pydantic_model=self._pydantic_model,
-        )
     def join(
         self,
@@ -1200,7 +1242,7 @@ class DataFrame(metaclass=DataFrameMeta):
                 if len(operation.filters) > 0:
                     f = convert_filters_to_pl_expr(
                         operation.filters,
-                        self._underlying.schema,
+                        schema_compat(self._underlying),
                         timestamp_feature,
                         now,
                     )
@@ -1424,15 +1466,25 @@ class DataFrame(metaclass=DataFrameMeta):
         else:
             cols_to_select, dtypes, new_columns = cls._parse_columns(columns)
-        # 'dtypes' deprecated for 'schema_overrides' in polars 0.20+, but parameter renamed without breaking
-        data = pl.read_csv(
-            source=path,
-            has_header=has_header,
-            columns=cols_to_select,
-            dtypes=dtypes,  # pyright: ignore[reportCallIssue]
-            new_columns=new_columns,
-            storage_options=DataFrame._get_storage_options(),
-        )
+        # 'dtypes' deprecated for 'schema_overrides' in polars 0.20.31+
+        if polars_uses_schema_overrides:
+            data = pl.read_csv(
+                source=path,
+                has_header=has_header,
+                columns=cols_to_select,
+                schema_overrides=dtypes,  # pyright: ignore[reportCallIssue]
+                new_columns=new_columns,
+                storage_options=DataFrame._get_storage_options(),
+            )
+        else:
+            data = pl.read_csv(
+                source=path,
+                has_header=has_header,
+                columns=cols_to_select,
+                dtypes=dtypes,  # pyright: ignore[reportCallIssue]
+                new_columns=new_columns,
+                storage_options=DataFrame._get_storage_options(),
+            )
         return cls(data)
     @classmethod
@@ -1922,7 +1974,10 @@ class DataFrame(metaclass=DataFrameMeta):
             raise ValueError("DataFrame dimensions do not match")
         suffix = "__POLARS_CMP_OTHER"
-        other_renamed = other.select(pl.all().suffix(suffix))
+        if polars_name_dot_suffix_instead_of_suffix:
+            other_renamed = other.select(pl.all().name.suffix(suffix))
+        else:
+            other_renamed = other.select(pl.all().suffix(suffix))  # pyright: ignore
         combined = pl.concat([materialized, other_renamed], how="horizontal")
         if op == "eq":

chalk/features/dataframe/_validation.py CHANGED Viewed

@@ -8,6 +8,7 @@ import isodate
 from chalk.features._encoding.missing_value import MissingValueStrategy
 from chalk.features.feature_field import Feature, FeatureNotFoundException
 from chalk.utils.collections import get_unique_item
+from chalk.utils.pl_helpers import apply_compat, schema_compat, str_json_decode_compat
 if TYPE_CHECKING:
     import polars as pl
@@ -67,7 +68,7 @@ def validate_df_schema(underlying: Union[pl.DataFrame, pl.LazyFrame]):
     # This is called from within DataFrame.__init__, which validates that polars is installed
     import polars as pl
-    for root_fqn, actual_dtype in underlying.schema.items():
+    for root_fqn, actual_dtype in schema_compat(underlying).items():
         feature = Feature.from_root_fqn(root_fqn)
         if feature.is_has_one or feature.is_has_many:
             continue
@@ -87,7 +88,7 @@ def validate_df_schema(underlying: Union[pl.DataFrame, pl.LazyFrame]):
             isinstance(expected_dtype, pl.List)
             and actual_dtype == pl.Utf8  # pyright: ignore[reportUnnecessaryComparison]
         ):
-            col = pl.col(root_fqn).str.json_extract(expected_dtype)
+            col = str_json_decode_compat(pl.col(root_fqn), expected_dtype)
             try:
                 underlying = underlying.with_columns(col.cast(expected_dtype))
             except (Exception, pl.PolarsPanicError) as e:
@@ -123,21 +124,24 @@ def validate_df_schema(underlying: Union[pl.DataFrame, pl.LazyFrame]):
                     if isinstance(expected_dtype, pl.Datetime):
                         # tzinfo = None if expected_dtype.time_zone is None else zoneinfo.ZoneInfo(expected_dtype.time_zone)
                         underlying = underlying.with_columns(pl.col(root_fqn).str.strptime(pl.Datetime).alias(root_fqn))
-                        if cast(pl.Datetime, underlying.schema[root_fqn]).time_zone is not None:
+                        if cast(pl.Datetime, schema_compat(underlying)[root_fqn]).time_zone is not None:
                             assert expected_dtype.time_zone is not None
                             cast_expr = pl.col(root_fqn).dt.convert_time_zone(expected_dtype.time_zone)
                         else:
                             cast_expr = pl.col(root_fqn).dt.replace_time_zone(expected_dtype.time_zone)
                     elif expected_dtype == pl.Date:
-                        cast_expr = pl.col(root_fqn).apply(
+                        cast_expr = apply_compat(
+                            pl.col(root_fqn),
                             lambda x: None if x is None else isodate.parse_date(x),
                         )
                     elif expected_dtype == pl.Time:
-                        cast_expr = pl.col(root_fqn).apply(
+                        cast_expr = apply_compat(
+                            pl.col(root_fqn),
                             lambda x: None if x is None else isodate.parse_time(x),
                         )
                     elif expected_dtype == pl.Duration:
-                        cast_expr = pl.col(root_fqn).apply(
+                        cast_expr = apply_compat(
+                            pl.col(root_fqn),
                             lambda x: None if x is None else isodate.parse_duration(x),
                         )
                     else:
@@ -168,7 +172,7 @@ def validate_nulls(
     if isinstance(underlying, pl.LazyFrame):
         underlying = underlying.collect()
-    schema = underlying.schema
+    schema = schema_compat(underlying)
     null_count_rows = underlying.null_count().to_dicts()
     if len(null_count_rows) == 0:
         return underlying  # Empty dataframe

chalkpy 2.89.22__py3-none-any.whl → 2.95.3__py3-none-any.whl

chalkpy 2.89.22py3-none-any.whl → 2.95.3py3-none-any.whl