PyPI - chalkpy - Versions diffs - 2.90.1__py3-none-any.whl → 2.95.3__py3-none-any.whl - Mend

chalkpy 2.90.1py3-none-any.whl → 2.95.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

chalk/__init__.py +2 -1
chalk/_gen/chalk/arrow/v1/arrow_pb2.py +7 -5
chalk/_gen/chalk/arrow/v1/arrow_pb2.pyi +6 -0
chalk/_gen/chalk/artifacts/v1/chart_pb2.py +16 -16
chalk/_gen/chalk/artifacts/v1/chart_pb2.pyi +4 -0
chalk/_gen/chalk/artifacts/v1/cron_query_pb2.py +8 -7
chalk/_gen/chalk/artifacts/v1/cron_query_pb2.pyi +5 -0
chalk/_gen/chalk/common/v1/offline_query_pb2.py +17 -15
chalk/_gen/chalk/common/v1/offline_query_pb2.pyi +25 -0
chalk/_gen/chalk/common/v1/script_task_pb2.py +3 -3
chalk/_gen/chalk/common/v1/script_task_pb2.pyi +2 -0
chalk/_gen/chalk/dataframe/__init__.py +0 -0
chalk/_gen/chalk/dataframe/v1/__init__.py +0 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2.py +48 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2.pyi +123 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2_grpc.py +4 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/graph/v1/graph_pb2.py +150 -149
chalk/_gen/chalk/graph/v1/graph_pb2.pyi +25 -0
chalk/_gen/chalk/graph/v1/sources_pb2.py +94 -84
chalk/_gen/chalk/graph/v1/sources_pb2.pyi +56 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2.py +79 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2.pyi +377 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2_grpc.py +4 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/kubernetes/v1/scaledobject_pb2.py +43 -7
chalk/_gen/chalk/kubernetes/v1/scaledobject_pb2.pyi +252 -2
chalk/_gen/chalk/protosql/v1/sql_service_pb2.py +54 -27
chalk/_gen/chalk/protosql/v1/sql_service_pb2.pyi +131 -3
chalk/_gen/chalk/protosql/v1/sql_service_pb2_grpc.py +45 -0
chalk/_gen/chalk/protosql/v1/sql_service_pb2_grpc.pyi +14 -0
chalk/_gen/chalk/python/v1/types_pb2.py +14 -14
chalk/_gen/chalk/python/v1/types_pb2.pyi +8 -0
chalk/_gen/chalk/server/v1/benchmark_pb2.py +76 -0
chalk/_gen/chalk/server/v1/benchmark_pb2.pyi +156 -0
chalk/_gen/chalk/server/v1/benchmark_pb2_grpc.py +258 -0
chalk/_gen/chalk/server/v1/benchmark_pb2_grpc.pyi +84 -0
chalk/_gen/chalk/server/v1/billing_pb2.py +40 -38
chalk/_gen/chalk/server/v1/billing_pb2.pyi +17 -1
chalk/_gen/chalk/server/v1/branches_pb2.py +45 -0
chalk/_gen/chalk/server/v1/branches_pb2.pyi +80 -0
chalk/_gen/chalk/server/v1/branches_pb2_grpc.pyi +36 -0
chalk/_gen/chalk/server/v1/builder_pb2.py +358 -288
chalk/_gen/chalk/server/v1/builder_pb2.pyi +360 -10
chalk/_gen/chalk/server/v1/builder_pb2_grpc.py +225 -0
chalk/_gen/chalk/server/v1/builder_pb2_grpc.pyi +60 -0
chalk/_gen/chalk/server/v1/chart_pb2.py +10 -10
chalk/_gen/chalk/server/v1/chart_pb2.pyi +18 -2
chalk/_gen/chalk/server/v1/clickhouse_pb2.py +42 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2.pyi +17 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2_grpc.py +78 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/cloud_components_pb2.py +141 -119
chalk/_gen/chalk/server/v1/cloud_components_pb2.pyi +106 -4
chalk/_gen/chalk/server/v1/cloud_components_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/cloud_components_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2.py +11 -3
chalk/_gen/chalk/server/v1/cloud_credentials_pb2.pyi +20 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2.py +52 -38
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2.pyi +62 -1
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2.py +90 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2.pyi +264 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2_grpc.py +170 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2_grpc.pyi +62 -0
chalk/_gen/chalk/server/v1/deploy_pb2.py +9 -3
chalk/_gen/chalk/server/v1/deploy_pb2.pyi +12 -0
chalk/_gen/chalk/server/v1/deploy_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/deploy_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/deployment_pb2.py +6 -6
chalk/_gen/chalk/server/v1/deployment_pb2.pyi +20 -0
chalk/_gen/chalk/server/v1/environment_pb2.py +14 -12
chalk/_gen/chalk/server/v1/environment_pb2.pyi +19 -0
chalk/_gen/chalk/server/v1/eventbus_pb2.py +4 -2
chalk/_gen/chalk/server/v1/files_pb2.py +65 -0
chalk/_gen/chalk/server/v1/files_pb2.pyi +167 -0
chalk/_gen/chalk/server/v1/files_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/files_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/graph_pb2.py +38 -26
chalk/_gen/chalk/server/v1/graph_pb2.pyi +58 -0
chalk/_gen/chalk/server/v1/graph_pb2_grpc.py +47 -0
chalk/_gen/chalk/server/v1/graph_pb2_grpc.pyi +18 -0
chalk/_gen/chalk/server/v1/incident_pb2.py +23 -21
chalk/_gen/chalk/server/v1/incident_pb2.pyi +15 -1
chalk/_gen/chalk/server/v1/indexing_job_pb2.py +44 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2.pyi +38 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2_grpc.py +78 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/integrations_pb2.py +11 -9
chalk/_gen/chalk/server/v1/integrations_pb2.pyi +34 -2
chalk/_gen/chalk/server/v1/kube_pb2.py +29 -19
chalk/_gen/chalk/server/v1/kube_pb2.pyi +28 -0
chalk/_gen/chalk/server/v1/kube_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/kube_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/log_pb2.py +21 -3
chalk/_gen/chalk/server/v1/log_pb2.pyi +68 -0
chalk/_gen/chalk/server/v1/log_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/log_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/model_registry_pb2.py +10 -10
chalk/_gen/chalk/server/v1/model_registry_pb2.pyi +4 -1
chalk/_gen/chalk/server/v1/plandebug_pb2.py +53 -0
chalk/_gen/chalk/server/v1/plandebug_pb2.pyi +86 -0
chalk/_gen/chalk/server/v1/plandebug_pb2_grpc.py +168 -0
chalk/_gen/chalk/server/v1/plandebug_pb2_grpc.pyi +60 -0
chalk/_gen/chalk/server/v1/queries_pb2.py +66 -66
chalk/_gen/chalk/server/v1/queries_pb2.pyi +32 -2
chalk/_gen/chalk/server/v1/scheduled_query_run_pb2.py +12 -12
chalk/_gen/chalk/server/v1/scheduled_query_run_pb2.pyi +16 -3
chalk/_gen/chalk/server/v1/scheduler_pb2.py +24 -12
chalk/_gen/chalk/server/v1/scheduler_pb2.pyi +61 -1
chalk/_gen/chalk/server/v1/scheduler_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/scheduler_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2.py +15 -3
chalk/_gen/chalk/server/v1/script_tasks_pb2.pyi +22 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2.py +75 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2.pyi +142 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2_grpc.py +349 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2_grpc.pyi +114 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2.py +48 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2.pyi +150 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2_grpc.py +123 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2_grpc.pyi +52 -0
chalk/_gen/chalk/server/v1/team_pb2.py +154 -141
chalk/_gen/chalk/server/v1/team_pb2.pyi +30 -2
chalk/_gen/chalk/server/v1/team_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/team_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/topic_pb2.py +5 -3
chalk/_gen/chalk/server/v1/topic_pb2.pyi +10 -1
chalk/_gen/chalk/server/v1/trace_pb2.py +44 -40
chalk/_gen/chalk/server/v1/trace_pb2.pyi +20 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2.py +62 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2.pyi +75 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2_grpc.py +221 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2_grpc.pyi +88 -0
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2.py +16 -10
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2.pyi +52 -1
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2_grpc.py +48 -0
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2_grpc.pyi +20 -0
chalk/_gen/chalk/utils/v1/field_change_pb2.py +32 -0
chalk/_gen/chalk/utils/v1/field_change_pb2.pyi +42 -0
chalk/_gen/chalk/utils/v1/field_change_pb2_grpc.py +4 -0
chalk/_gen/chalk/utils/v1/field_change_pb2_grpc.pyi +4 -0
chalk/_lsp/error_builder.py +11 -0
chalk/_version.py +1 -1
chalk/client/client.py +128 -43
chalk/client/client_async.py +149 -0
chalk/client/client_async_impl.py +22 -0
chalk/client/client_grpc.py +539 -104
chalk/client/client_impl.py +449 -122
chalk/client/dataset.py +7 -1
chalk/client/models.py +98 -0
chalk/client/serialization/model_serialization.py +92 -9
chalk/df/LazyFramePlaceholder.py +1154 -0
chalk/features/_class_property.py +7 -0
chalk/features/_embedding/embedding.py +1 -0
chalk/features/_encoding/converter.py +83 -2
chalk/features/feature_field.py +40 -30
chalk/features/feature_set_decorator.py +1 -0
chalk/features/feature_wrapper.py +42 -3
chalk/features/hooks.py +81 -10
chalk/features/inference.py +33 -31
chalk/features/resolver.py +224 -24
chalk/functions/__init__.py +65 -3
chalk/gitignore/gitignore_parser.py +5 -1
chalk/importer.py +142 -68
chalk/ml/__init__.py +2 -0
chalk/ml/model_hooks.py +194 -26
chalk/ml/model_reference.py +56 -8
chalk/ml/model_version.py +24 -15
chalk/ml/utils.py +20 -17
chalk/operators/_utils.py +10 -3
chalk/parsed/_proto/export.py +22 -0
chalk/parsed/duplicate_input_gql.py +3 -0
chalk/parsed/json_conversions.py +20 -14
chalk/parsed/to_proto.py +16 -4
chalk/parsed/user_types_to_json.py +31 -10
chalk/parsed/validation_from_registries.py +182 -0
chalk/queries/named_query.py +16 -6
chalk/queries/scheduled_query.py +9 -1
chalk/serialization/parsed_annotation.py +24 -11
chalk/sql/__init__.py +18 -0
chalk/sql/_internal/integrations/databricks.py +55 -17
chalk/sql/_internal/integrations/mssql.py +127 -62
chalk/sql/_internal/integrations/redshift.py +4 -0
chalk/sql/_internal/sql_file_resolver.py +53 -9
chalk/sql/_internal/sql_source.py +35 -2
chalk/streams/_kafka_source.py +5 -1
chalk/streams/_windows.py +15 -2
chalk/utils/_otel_version.py +13 -0
chalk/utils/async_helpers.py +2 -2
chalk/utils/missing_dependency.py +5 -4
chalk/utils/tracing.py +185 -95
{chalkpy-2.90.1.dist-info → chalkpy-2.95.3.dist-info}/METADATA +4 -6
{chalkpy-2.90.1.dist-info → chalkpy-2.95.3.dist-info}/RECORD +202 -146
{chalkpy-2.90.1.dist-info → chalkpy-2.95.3.dist-info}/WHEEL +0 -0
{chalkpy-2.90.1.dist-info → chalkpy-2.95.3.dist-info}/entry_points.txt +0 -0
{chalkpy-2.90.1.dist-info → chalkpy-2.95.3.dist-info}/top_level.txt +0 -0

chalk/importer.py CHANGED Viewed

@@ -304,6 +304,19 @@ def _parse_agg_function_call(expr: Underscore | None) -> Tuple[str, Underscore,
                 f"expecting 'int' type argument for 'k', but received arg of type '{type(call_expr._chalk__kwargs.get('k'))}'"
             )
         opts = FrozenOrderedSet(call_expr._chalk__kwargs.items())
+    elif aggregation == "approx_percentile":
+        if len(call_expr._chalk__args) > 0:
+            raise ChalkParseError("should not have any positional arguments")
+        elif {"quantile"} != call_expr._chalk__kwargs.keys():
+            raise ChalkParseError("expecting exactly one required keyword argument 'quantile'")
+        elif not isinstance(call_expr._chalk__kwargs.get("quantile"), float):
+            raise ChalkParseError(
+                f"expecting 'float' type argument for 'quantile', but received arg of type '{type(call_expr._chalk__kwargs.get('quantile'))}'"
+            )
+        # TODO: expand proto definition to accept kwargs that are not necessarily `k`
+        quantile = call_expr._chalk__kwargs["quantile"]
+        nano_quantile = int(round(quantile * 1_000_000_000))
+        opts = FrozenOrderedSet([("k", nano_quantile)])
     elif aggregation in ("min_by_n", "max_by_n"):
         if len(call_expr._chalk__kwargs) > 0:
             raise ChalkParseError("should not have any keyword arguments")
@@ -433,8 +446,6 @@ def run_post_import_fixups():
             #       "1m", "2m", materialization={...},
             #       expression=_.transactions[_.amount].sum(),
             #   )
-            assert f.underscore_expression is not None
-            assert f.window_materialization is not None
             try:
                 f.window_materialization_parsed = parse_windowed_materialization(f=f)
@@ -572,39 +583,51 @@ def parse_grouped_window(f: Feature) -> WindowConfigResolved:
         aggregation_kwargs=aggregation_kwargs,
         pyarrow_dtype=pyarrow_dtype,
         filters=parsed_filters,
-        backfill_resolver=_try_parse_resolver_fqn(
-            "backfill_resolver",
-            f.window_materialization.get("backfill_resolver", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        backfill_schedule=f.window_materialization.get("backfill_schedule", None)
-        if isinstance(f.window_materialization, dict)
-        else None,
-        backfill_lookback_duration_seconds=_try_parse_duration(
-            "backfill_lookback_duration",
-            f.window_materialization.get("backfill_lookback_duration", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        backfill_start_time=_try_parse_datetime(
-            "backfill_start_time",
-            f.window_materialization.get("backfill_start_time", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        continuous_resolver=_try_parse_resolver_fqn(
-            "continuous_resolver",
-            f.window_materialization.get("continuous_resolver", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        continuous_buffer_duration_seconds=_try_parse_duration(
-            "continuous_buffer_duration",
-            f.window_materialization.get("continuous_buffer_duration", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
+        backfill_resolver=(
+            _try_parse_resolver_fqn(
+                "backfill_resolver",
+                f.window_materialization.get("backfill_resolver", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        backfill_schedule=(
+            f.window_materialization.get("backfill_schedule", None)
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        backfill_lookback_duration_seconds=(
+            _try_parse_duration(
+                "backfill_lookback_duration",
+                f.window_materialization.get("backfill_lookback_duration", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        backfill_start_time=(
+            _try_parse_datetime(
+                "backfill_start_time",
+                f.window_materialization.get("backfill_start_time", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        continuous_resolver=(
+            _try_parse_resolver_fqn(
+                "continuous_resolver",
+                f.window_materialization.get("continuous_resolver", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        continuous_buffer_duration_seconds=(
+            _try_parse_duration(
+                "continuous_buffer_duration",
+                f.window_materialization.get("continuous_buffer_duration", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
     )
     return cfg
@@ -800,39 +823,51 @@ def parse_windowed_materialization(f: Feature) -> WindowConfigResolved | None:
         aggregation_kwargs=aggregation_kwargs,
         pyarrow_dtype=f.converter.pyarrow_dtype,
         filters=parsed_filters,
-        backfill_resolver=_try_parse_resolver_fqn(
-            "backfill_resolver",
-            f.window_materialization.get("backfill_resolver", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        backfill_schedule=f.window_materialization.get("backfill_schedule", None)
-        if isinstance(f.window_materialization, dict)
-        else None,
-        backfill_lookback_duration_seconds=_try_parse_duration(
-            "backfill_lookback_duration",
-            f.window_materialization.get("backfill_lookback_duration", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        backfill_start_time=_try_parse_datetime(
-            "backfill_start_time",
-            f.window_materialization.get("backfill_start_time", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        continuous_resolver=_try_parse_resolver_fqn(
-            "continuous_resolver",
-            f.window_materialization.get("continuous_resolver", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
-        continuous_buffer_duration_seconds=_try_parse_duration(
-            "continuous_buffer_duration",
-            f.window_materialization.get("continuous_buffer_duration", None),
-        )
-        if isinstance(f.window_materialization, dict)
-        else None,
+        backfill_resolver=(
+            _try_parse_resolver_fqn(
+                "backfill_resolver",
+                f.window_materialization.get("backfill_resolver", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        backfill_schedule=(
+            f.window_materialization.get("backfill_schedule", None)
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        backfill_lookback_duration_seconds=(
+            _try_parse_duration(
+                "backfill_lookback_duration",
+                f.window_materialization.get("backfill_lookback_duration", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        backfill_start_time=(
+            _try_parse_datetime(
+                "backfill_start_time",
+                f.window_materialization.get("backfill_start_time", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        continuous_resolver=(
+            _try_parse_resolver_fqn(
+                "continuous_resolver",
+                f.window_materialization.get("continuous_resolver", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
+        continuous_buffer_duration_seconds=(
+            _try_parse_duration(
+                "continuous_buffer_duration",
+                f.window_materialization.get("continuous_buffer_duration", None),
+            )
+            if isinstance(f.window_materialization, dict)
+            else None
+        ),
     )
@@ -1010,6 +1045,33 @@ class _UnderscoreValidationError(ValueError):
     ...
+def _has_group_by_in_parent_chain(underscore: Underscore) -> bool:
+    """
+    Traverse parent chain to check if .group_by() exists before .agg().
+    For valid group_by_windowed: _.x.group_by(_.y).agg(_.z.sum())
+    - Looks for: UnderscoreCall -> UnderscoreAttr("group_by")
+    Returns True if .group_by() found, False otherwise.
+    """
+    current: Optional[Any] = underscore
+    while current is not None:
+        # Check if current is a .group_by() call
+        if isinstance(current, UnderscoreCall):
+            parent = current._chalk__parent
+            if isinstance(parent, UnderscoreAttr) and parent._chalk__attr == "group_by":
+                return True
+        # Move to parent
+        if hasattr(current, "_chalk__parent"):
+            current = current._chalk__parent
+        else:
+            break
+    return False
 class ChalkImporter:
     def __init__(self):
         super().__init__()
@@ -1111,6 +1173,9 @@ class ChalkImporter:
         for feature_class in FeatureSetBase.registry.values():
             # Iterate through every class, to find every underscore definition.
             for f in feature_class.features:
+                if f.is_windowed_pseudofeature is True:
+                    # need one LSP just for the base
+                    continue
                 if f.underscore_expression is not None:
                     # Validate that the underscore expression is well-formed.
                     # If it is not well-formed, then an `_UnderscoreValidationError` will
@@ -1489,6 +1554,15 @@ def _supplemental_validate_underscore_expression(
                     )
             return None
+        # Validate .agg() usage (addressing TODO at line 1522)
+        if op_name == "agg":
+            if not _has_group_by_in_parent_chain(caller):
+                raise _UnderscoreValidationError(
+                    "'.agg()' can only be used with '.group_by()' for group_by_windowed features. "
+                    + "For windowed features, use direct aggregation methods instead. "
+                    + "For example, instead of using '.agg(_.field.method())', use '.field.method()' directly on the filtered DataFrame"
+                )
         return None
         # TODO: check that op_name is a supported agg or .agg/.group_by/etc

chalk/ml/__init__.py CHANGED Viewed

@@ -2,6 +2,7 @@ from __future__ import annotations
 from chalk.ml.model_file_transfer import FileInfo, HFSourceConfig, LocalSourceConfig, S3SourceConfig, SourceConfig
 from chalk.ml.model_reference import ModelReference
+from chalk.ml.model_version import ModelVersion
 from chalk.ml.utils import ModelClass, ModelEncoding, ModelRunCriterion, ModelType
 __all__ = (
@@ -9,6 +10,7 @@ __all__ = (
     "ModelClass",
     "ModelEncoding",
     "ModelReference",
+    "ModelVersion",
     "SourceConfig",
     "LocalSourceConfig",
     "S3SourceConfig",

chalk/ml/model_hooks.py CHANGED Viewed

@@ -1,12 +1,15 @@
-from typing import Any, Dict, Optional, Protocol, Tuple
+from typing import TYPE_CHECKING, Any, Dict, Optional, Protocol, Tuple
 from chalk.ml.utils import ModelClass, ModelEncoding, ModelType
+if TYPE_CHECKING:
+    from chalk.features.resolver import ResourceHint
 class ModelInference(Protocol):
     """Abstract base class for model loading and inference."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         """Load a model from the given path."""
         pass
@@ -14,11 +17,27 @@ class ModelInference(Protocol):
         """Run inference on the model with input X."""
         pass
+    def prepare_input(self, feature_table: Any) -> Any:
+        """Convert PyArrow table to model input format.
+        Default implementation converts to numpy array via __array__().
+        Override for model-specific input formats (e.g., ONNX struct arrays).
+        """
+        return feature_table.__array__()
+    def extract_output(self, result: Any, output_feature_name: str) -> Any:
+        """Extract single output from model result.
+        Default implementation returns result as-is (for single outputs).
+        Override for models with structured outputs (e.g., ONNX struct arrays).
+        """
+        return result
 class XGBoostClassifierInference(ModelInference):
     """Model inference for XGBoost classifiers."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import xgboost  # pyright: ignore[reportMissingImports]
         model = xgboost.XGBClassifier()
@@ -32,7 +51,7 @@ class XGBoostClassifierInference(ModelInference):
 class XGBoostRegressorInference(ModelInference):
     """Model inference for XGBoost regressors."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import xgboost  # pyright: ignore[reportMissingImports]
         model = xgboost.XGBRegressor()
@@ -46,17 +65,27 @@ class XGBoostRegressorInference(ModelInference):
 class PyTorchInference(ModelInference):
     """Model inference for PyTorch models."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import torch  # pyright: ignore[reportMissingImports]
         torch.set_grad_enabled(False)
+        # Load the model
         model = torch.jit.load(path)
-        model.input_to_tensor = lambda X: torch.from_numpy(X).float()
+        # If resource_hint is "gpu", move model to GPU
+        if resource_hint == "gpu" and torch.cuda.is_available():
+            device = torch.device("cuda")
+            model = model.to(device)
+            model.input_to_tensor = lambda X: torch.from_numpy(X).float().to(device)
+        else:
+            model.input_to_tensor = lambda X: torch.from_numpy(X).float()
         return model
     def predict(self, model: Any, X: Any) -> Any:
         outputs = model(model.input_to_tensor(X))
-        result = outputs.detach().numpy().astype("float64")
+        result = outputs.detach().cpu().numpy().astype("float64")
         result = result.squeeze()
         # Convert 0-dimensional array to scalar, or ensure we have a proper 1D array
@@ -69,7 +98,7 @@ class PyTorchInference(ModelInference):
 class SklearnInference(ModelInference):
     """Model inference for scikit-learn models."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import joblib  # pyright: ignore[reportMissingImports]
         return joblib.load(path)
@@ -81,7 +110,7 @@ class SklearnInference(ModelInference):
 class TensorFlowInference(ModelInference):
     """Model inference for TensorFlow models."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import tensorflow  # pyright: ignore[reportMissingImports]
         return tensorflow.keras.models.load_model(path)
@@ -93,7 +122,7 @@ class TensorFlowInference(ModelInference):
 class LightGBMInference(ModelInference):
     """Model inference for LightGBM models."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import lightgbm  # pyright: ignore[reportMissingImports]
         return lightgbm.Booster(model_file=path)
@@ -105,7 +134,7 @@ class LightGBMInference(ModelInference):
 class CatBoostInference(ModelInference):
     """Model inference for CatBoost models."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import catboost  # pyright: ignore[reportMissingImports]
         return catboost.CatBoost().load_model(path)
@@ -115,31 +144,170 @@ class CatBoostInference(ModelInference):
 class ONNXInference(ModelInference):
-    """Model inference for ONNX models."""
+    """Model inference for ONNX models with struct input/output support."""
-    def load_model(self, path: str) -> Any:
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
         import onnxruntime  # pyright: ignore[reportMissingImports]
-        return onnxruntime.InferenceSession(path)
+        # Conditionally add CUDAExecutionProvider based on resource_hint
+        providers = (
+            ["CUDAExecutionProvider", "CPUExecutionProvider"] if resource_hint == "gpu" else ["CPUExecutionProvider"]
+        )
+        return onnxruntime.InferenceSession(path, providers=providers)
+    def prepare_input(self, feature_table: Any) -> Any:
+        """Convert PyArrow table to struct array for ONNX models."""
+        import pyarrow as pa
+        # Get arrays for each column, combining chunks if necessary
+        arrays = []
+        for i in range(feature_table.num_columns):
+            col = feature_table.column(i)
+            if isinstance(col, pa.ChunkedArray):
+                arrays.append(col.combine_chunks())
+            else:
+                arrays.append(col)
+        # Create fields from schema, preserving original field names
+        # Field names should match ONNX input names exactly
+        fields = []
+        for field in feature_table.schema:
+            fields.append(pa.field(field.name, field.type))
+        # Create struct array where each row is a struct with named fields
+        return pa.StructArray.from_arrays(arrays, fields=fields)
+    def extract_output(self, result: Any, output_feature_name: str) -> Any:
+        """Extract single field from ONNX struct output."""
+        import pyarrow as pa
+        if not isinstance(result, (pa.StructArray, pa.ChunkedArray)):
+            return result
+        struct_type = result.type if isinstance(result, pa.StructArray) else result.chunk(0).type
+        # Find matching field by name, or use first field
+        field_index = None
+        for i, field in enumerate(struct_type):
+            if field.name == output_feature_name:
+                field_index = i
+                break
+        return result.field(field_index if field_index is not None else 0)
     def predict(self, model: Any, X: Any) -> Any:
+        """Run ONNX inference with struct input/output."""
+        # Get ONNX model input/output names
+        input_names = [inp.name for inp in model.get_inputs()]
+        output_names = [out.name for out in model.get_outputs()]
+        # Convert struct input to ONNX input dict
+        input_dict = self._struct_to_inputs(X, input_names)
+        # Run ONNX inference
+        outputs = model.run(output_names, input_dict)
+        # Always return outputs as struct array
+        return self._outputs_to_struct(output_names, outputs)
+    def _struct_to_inputs(self, struct_array: Any, input_names: list) -> dict:
+        """Extract ONNX inputs from struct array by matching field names.
+        Struct field names must match ONNX input names (supports list/Tensor types).
+        If ONNX expects a single input but struct has multiple scalar fields,
+        stack them into a 2D array.
+        """
         import numpy as np
+        import pyarrow as pa
+        if isinstance(struct_array, pa.ChunkedArray):
+            struct_array = struct_array.combine_chunks()
+        input_dict = {}
+        struct_fields = {field.name: i for i, field in enumerate(struct_array.type)}
+        # Check if struct field names match ONNX input names
+        fields_match = all(input_name in struct_fields for input_name in input_names)
+        if not fields_match:
+            # Special case 1: ONNX expects single input and struct has single field
+            # Use that field regardless of name mismatch
+            if len(input_names) == 1 and len(struct_fields) == 1:
+                field_data = struct_array.field(0)
+                input_dict[input_names[0]] = self._arrow_to_numpy(field_data)
+                return input_dict
+            # Special case 2: ONNX expects single input, but struct has multiple scalar fields
+            # Stack them into a 2D array [batch_size, num_fields]
+            if len(input_names) == 1 and len(struct_fields) > 1:
+                # Check if all fields are scalar (not nested lists)
+                all_scalar = all(
+                    not pa.types.is_list(struct_array.type[i].type)
+                    and not pa.types.is_large_list(struct_array.type[i].type)
+                    for i in range(len(struct_array.type))
+                )
+                if all_scalar:
+                    # Stack all fields into a single 2D array
+                    columns = []
+                    for i in range(len(struct_array.type)):
+                        field_data = struct_array.field(i)
+                        col_array = self._arrow_to_numpy(field_data)
+                        columns.append(col_array)
+                    # Stack columns horizontally to create [batch_size, num_features]
+                    stacked = np.column_stack(columns)
+                    input_dict[input_names[0]] = stacked
+                    return input_dict
+            raise ValueError(
+                f"ONNX inputs {input_names} not found in struct fields {list(struct_fields.keys())}. "
+                + "Struct field names must match ONNX input names."
+            )
+        # Direct mapping: struct fields match ONNX inputs (for Tensor/list types or named inputs)
+        for input_name in input_names:
+            field_data = struct_array.field(struct_fields[input_name])
+            input_dict[input_name] = self._arrow_to_numpy(field_data)
+        return input_dict
+    def _arrow_to_numpy(self, arrow_array: Any) -> Any:
+        """Convert Arrow array (including nested lists) to dense numpy array."""
+        import numpy as np
+        import pyarrow as pa
-        # Get input names from the model metadata
-        input_names = [inp.name for inp in model.get_inputs()]
+        if isinstance(arrow_array, pa.ChunkedArray):
+            arrow_array = arrow_array.combine_chunks()
-        # Convert X to float32 if needed
-        X_float32 = X.astype("float32") if hasattr(X, "astype") else np.array(X, dtype="float32")
+        # Convert to Python list, then numpy - handles all cases (nested lists, flat arrays, etc.)
+        return np.array(arrow_array.to_pylist(), dtype=np.float32)
-        # If there's only one input, use it directly
-        if len(input_names) == 1:
-            input_dict = {input_names[0]: X_float32}
-        else:
-            # For multiple inputs, we'd need additional logic
-            # For now, assume the first input is the main one
-            input_dict = {input_names[0]: X_float32}
+    def _outputs_to_struct(self, output_names: list, outputs: list) -> Any:
+        """Convert ONNX outputs to PyArrow struct array."""
+        import pyarrow as pa
+        if not outputs:
+            raise ValueError("ONNX model returned no outputs")
+        # Convert each output to Arrow array with proper type
+        fields = []
+        arrays = []
+        for name, output_array in zip(output_names, outputs):
+            arrow_array = self._numpy_to_arrow_array(output_array)
+            fields.append(pa.field(name, arrow_array.type))
+            arrays.append(arrow_array)
+        return pa.StructArray.from_arrays(arrays, fields=fields)
+    def _numpy_to_arrow_array(self, arr: Any) -> Any:
+        """Convert numpy array to PyArrow array (possibly nested list)."""
+        import pyarrow as pa
-        return model.run(None, input_dict)[0]
+        # PyArrow can infer the correct nested list type from Python lists
+        # Shape (batch, dim1, dim2, ...) -> list[list[...]]
+        return pa.array(arr.tolist())
 class ModelInferenceRegistry:

chalkpy 2.90.1__py3-none-any.whl → 2.95.3__py3-none-any.whl

chalkpy 2.90.1py3-none-any.whl → 2.95.3py3-none-any.whl