PyPI - chalkpy - Versions diffs - 2.89.22__py3-none-any.whl → 2.95.3__py3-none-any.whl - Mend

chalkpy 2.89.22py3-none-any.whl → 2.95.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (268) hide show

chalk/__init__.py +2 -1
chalk/_gen/chalk/arrow/v1/arrow_pb2.py +7 -5
chalk/_gen/chalk/arrow/v1/arrow_pb2.pyi +6 -0
chalk/_gen/chalk/artifacts/v1/chart_pb2.py +36 -33
chalk/_gen/chalk/artifacts/v1/chart_pb2.pyi +41 -1
chalk/_gen/chalk/artifacts/v1/cron_query_pb2.py +8 -7
chalk/_gen/chalk/artifacts/v1/cron_query_pb2.pyi +5 -0
chalk/_gen/chalk/common/v1/offline_query_pb2.py +19 -13
chalk/_gen/chalk/common/v1/offline_query_pb2.pyi +37 -0
chalk/_gen/chalk/common/v1/online_query_pb2.py +54 -54
chalk/_gen/chalk/common/v1/online_query_pb2.pyi +13 -1
chalk/_gen/chalk/common/v1/script_task_pb2.py +13 -11
chalk/_gen/chalk/common/v1/script_task_pb2.pyi +19 -1
chalk/_gen/chalk/dataframe/__init__.py +0 -0
chalk/_gen/chalk/dataframe/v1/__init__.py +0 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2.py +48 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2.pyi +123 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2_grpc.py +4 -0
chalk/_gen/chalk/dataframe/v1/dataframe_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/graph/v1/graph_pb2.py +150 -149
chalk/_gen/chalk/graph/v1/graph_pb2.pyi +25 -0
chalk/_gen/chalk/graph/v1/sources_pb2.py +94 -84
chalk/_gen/chalk/graph/v1/sources_pb2.pyi +56 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2.py +79 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2.pyi +377 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2_grpc.py +4 -0
chalk/_gen/chalk/kubernetes/v1/horizontalpodautoscaler_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/kubernetes/v1/scaledobject_pb2.py +43 -7
chalk/_gen/chalk/kubernetes/v1/scaledobject_pb2.pyi +252 -2
chalk/_gen/chalk/protosql/v1/sql_service_pb2.py +54 -27
chalk/_gen/chalk/protosql/v1/sql_service_pb2.pyi +131 -3
chalk/_gen/chalk/protosql/v1/sql_service_pb2_grpc.py +45 -0
chalk/_gen/chalk/protosql/v1/sql_service_pb2_grpc.pyi +14 -0
chalk/_gen/chalk/python/v1/types_pb2.py +14 -14
chalk/_gen/chalk/python/v1/types_pb2.pyi +8 -0
chalk/_gen/chalk/server/v1/benchmark_pb2.py +76 -0
chalk/_gen/chalk/server/v1/benchmark_pb2.pyi +156 -0
chalk/_gen/chalk/server/v1/benchmark_pb2_grpc.py +258 -0
chalk/_gen/chalk/server/v1/benchmark_pb2_grpc.pyi +84 -0
chalk/_gen/chalk/server/v1/billing_pb2.py +40 -38
chalk/_gen/chalk/server/v1/billing_pb2.pyi +17 -1
chalk/_gen/chalk/server/v1/branches_pb2.py +45 -0
chalk/_gen/chalk/server/v1/branches_pb2.pyi +80 -0
chalk/_gen/chalk/server/v1/branches_pb2_grpc.pyi +36 -0
chalk/_gen/chalk/server/v1/builder_pb2.py +372 -272
chalk/_gen/chalk/server/v1/builder_pb2.pyi +479 -12
chalk/_gen/chalk/server/v1/builder_pb2_grpc.py +360 -0
chalk/_gen/chalk/server/v1/builder_pb2_grpc.pyi +96 -0
chalk/_gen/chalk/server/v1/chart_pb2.py +10 -10
chalk/_gen/chalk/server/v1/chart_pb2.pyi +18 -2
chalk/_gen/chalk/server/v1/clickhouse_pb2.py +42 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2.pyi +17 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2_grpc.py +78 -0
chalk/_gen/chalk/server/v1/clickhouse_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/cloud_components_pb2.py +153 -107
chalk/_gen/chalk/server/v1/cloud_components_pb2.pyi +146 -4
chalk/_gen/chalk/server/v1/cloud_components_pb2_grpc.py +180 -0
chalk/_gen/chalk/server/v1/cloud_components_pb2_grpc.pyi +48 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2.py +11 -3
chalk/_gen/chalk/server/v1/cloud_credentials_pb2.pyi +20 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/cloud_credentials_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2.py +59 -35
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2.pyi +127 -1
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2_grpc.py +135 -0
chalk/_gen/chalk/server/v1/dataplanejobqueue_pb2_grpc.pyi +36 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2.py +90 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2.pyi +264 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2_grpc.py +170 -0
chalk/_gen/chalk/server/v1/dataplaneworkflows_pb2_grpc.pyi +62 -0
chalk/_gen/chalk/server/v1/datasets_pb2.py +36 -24
chalk/_gen/chalk/server/v1/datasets_pb2.pyi +71 -2
chalk/_gen/chalk/server/v1/datasets_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/datasets_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/deploy_pb2.py +9 -3
chalk/_gen/chalk/server/v1/deploy_pb2.pyi +12 -0
chalk/_gen/chalk/server/v1/deploy_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/deploy_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/deployment_pb2.py +20 -15
chalk/_gen/chalk/server/v1/deployment_pb2.pyi +25 -0
chalk/_gen/chalk/server/v1/environment_pb2.py +25 -15
chalk/_gen/chalk/server/v1/environment_pb2.pyi +93 -1
chalk/_gen/chalk/server/v1/eventbus_pb2.py +44 -0
chalk/_gen/chalk/server/v1/eventbus_pb2.pyi +64 -0
chalk/_gen/chalk/server/v1/eventbus_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/eventbus_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/files_pb2.py +65 -0
chalk/_gen/chalk/server/v1/files_pb2.pyi +167 -0
chalk/_gen/chalk/server/v1/files_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/files_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/graph_pb2.py +41 -3
chalk/_gen/chalk/server/v1/graph_pb2.pyi +191 -0
chalk/_gen/chalk/server/v1/graph_pb2_grpc.py +92 -0
chalk/_gen/chalk/server/v1/graph_pb2_grpc.pyi +32 -0
chalk/_gen/chalk/server/v1/incident_pb2.py +57 -0
chalk/_gen/chalk/server/v1/incident_pb2.pyi +165 -0
chalk/_gen/chalk/server/v1/incident_pb2_grpc.py +4 -0
chalk/_gen/chalk/server/v1/incident_pb2_grpc.pyi +4 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2.py +44 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2.pyi +38 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2_grpc.py +78 -0
chalk/_gen/chalk/server/v1/indexing_job_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/integrations_pb2.py +11 -9
chalk/_gen/chalk/server/v1/integrations_pb2.pyi +34 -2
chalk/_gen/chalk/server/v1/kube_pb2.py +29 -19
chalk/_gen/chalk/server/v1/kube_pb2.pyi +28 -0
chalk/_gen/chalk/server/v1/kube_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/kube_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/log_pb2.py +21 -3
chalk/_gen/chalk/server/v1/log_pb2.pyi +68 -0
chalk/_gen/chalk/server/v1/log_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/log_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2.py +73 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2.pyi +212 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2_grpc.py +217 -0
chalk/_gen/chalk/server/v1/metadataplanejobqueue_pb2_grpc.pyi +74 -0
chalk/_gen/chalk/server/v1/model_registry_pb2.py +10 -10
chalk/_gen/chalk/server/v1/model_registry_pb2.pyi +4 -1
chalk/_gen/chalk/server/v1/monitoring_pb2.py +84 -75
chalk/_gen/chalk/server/v1/monitoring_pb2.pyi +1 -0
chalk/_gen/chalk/server/v1/monitoring_pb2_grpc.py +136 -0
chalk/_gen/chalk/server/v1/monitoring_pb2_grpc.pyi +38 -0
chalk/_gen/chalk/server/v1/offline_queries_pb2.py +32 -10
chalk/_gen/chalk/server/v1/offline_queries_pb2.pyi +73 -0
chalk/_gen/chalk/server/v1/offline_queries_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/offline_queries_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/plandebug_pb2.py +53 -0
chalk/_gen/chalk/server/v1/plandebug_pb2.pyi +86 -0
chalk/_gen/chalk/server/v1/plandebug_pb2_grpc.py +168 -0
chalk/_gen/chalk/server/v1/plandebug_pb2_grpc.pyi +60 -0
chalk/_gen/chalk/server/v1/queries_pb2.py +76 -48
chalk/_gen/chalk/server/v1/queries_pb2.pyi +155 -2
chalk/_gen/chalk/server/v1/queries_pb2_grpc.py +180 -0
chalk/_gen/chalk/server/v1/queries_pb2_grpc.pyi +48 -0
chalk/_gen/chalk/server/v1/scheduled_query_pb2.py +4 -2
chalk/_gen/chalk/server/v1/scheduled_query_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/scheduled_query_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/server/v1/scheduled_query_run_pb2.py +12 -6
chalk/_gen/chalk/server/v1/scheduled_query_run_pb2.pyi +75 -2
chalk/_gen/chalk/server/v1/scheduler_pb2.py +24 -12
chalk/_gen/chalk/server/v1/scheduler_pb2.pyi +61 -1
chalk/_gen/chalk/server/v1/scheduler_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/scheduler_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2.py +26 -14
chalk/_gen/chalk/server/v1/script_tasks_pb2.pyi +33 -3
chalk/_gen/chalk/server/v1/script_tasks_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/script_tasks_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2.py +75 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2.pyi +142 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2_grpc.py +349 -0
chalk/_gen/chalk/server/v1/sql_interface_pb2_grpc.pyi +114 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2.py +48 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2.pyi +150 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2_grpc.py +123 -0
chalk/_gen/chalk/server/v1/sql_queries_pb2_grpc.pyi +52 -0
chalk/_gen/chalk/server/v1/team_pb2.py +156 -137
chalk/_gen/chalk/server/v1/team_pb2.pyi +56 -10
chalk/_gen/chalk/server/v1/team_pb2_grpc.py +90 -0
chalk/_gen/chalk/server/v1/team_pb2_grpc.pyi +24 -0
chalk/_gen/chalk/server/v1/topic_pb2.py +5 -3
chalk/_gen/chalk/server/v1/topic_pb2.pyi +10 -1
chalk/_gen/chalk/server/v1/trace_pb2.py +50 -28
chalk/_gen/chalk/server/v1/trace_pb2.pyi +121 -0
chalk/_gen/chalk/server/v1/trace_pb2_grpc.py +135 -0
chalk/_gen/chalk/server/v1/trace_pb2_grpc.pyi +42 -0
chalk/_gen/chalk/server/v1/webhook_pb2.py +9 -3
chalk/_gen/chalk/server/v1/webhook_pb2.pyi +18 -0
chalk/_gen/chalk/server/v1/webhook_pb2_grpc.py +45 -0
chalk/_gen/chalk/server/v1/webhook_pb2_grpc.pyi +12 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2.py +62 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2.pyi +75 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2_grpc.py +221 -0
chalk/_gen/chalk/streaming/v1/debug_service_pb2_grpc.pyi +88 -0
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2.py +19 -7
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2.pyi +96 -3
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2_grpc.py +48 -0
chalk/_gen/chalk/streaming/v1/simple_streaming_service_pb2_grpc.pyi +20 -0
chalk/_gen/chalk/utils/v1/field_change_pb2.py +32 -0
chalk/_gen/chalk/utils/v1/field_change_pb2.pyi +42 -0
chalk/_gen/chalk/utils/v1/field_change_pb2_grpc.py +4 -0
chalk/_gen/chalk/utils/v1/field_change_pb2_grpc.pyi +4 -0
chalk/_lsp/error_builder.py +11 -0
chalk/_monitoring/Chart.py +1 -3
chalk/_version.py +1 -1
chalk/cli.py +5 -10
chalk/client/client.py +178 -64
chalk/client/client_async.py +154 -0
chalk/client/client_async_impl.py +22 -0
chalk/client/client_grpc.py +738 -112
chalk/client/client_impl.py +541 -136
chalk/client/dataset.py +27 -6
chalk/client/models.py +99 -2
chalk/client/serialization/model_serialization.py +126 -10
chalk/config/project_config.py +1 -1
chalk/df/LazyFramePlaceholder.py +1154 -0
chalk/df/ast_parser.py +2 -10
chalk/features/_class_property.py +7 -0
chalk/features/_embedding/embedding.py +1 -0
chalk/features/_embedding/sentence_transformer.py +1 -1
chalk/features/_encoding/converter.py +83 -2
chalk/features/_encoding/pyarrow.py +20 -4
chalk/features/_encoding/rich.py +1 -3
chalk/features/_tensor.py +1 -2
chalk/features/dataframe/_filters.py +14 -5
chalk/features/dataframe/_impl.py +91 -36
chalk/features/dataframe/_validation.py +11 -7
chalk/features/feature_field.py +40 -30
chalk/features/feature_set.py +1 -2
chalk/features/feature_set_decorator.py +1 -0
chalk/features/feature_wrapper.py +42 -3
chalk/features/hooks.py +81 -12
chalk/features/inference.py +65 -10
chalk/features/resolver.py +338 -56
chalk/features/tag.py +1 -3
chalk/features/underscore_features.py +2 -1
chalk/functions/__init__.py +456 -21
chalk/functions/holidays.py +1 -3
chalk/gitignore/gitignore_parser.py +5 -1
chalk/importer.py +186 -74
chalk/ml/__init__.py +6 -2
chalk/ml/model_hooks.py +368 -51
chalk/ml/model_reference.py +68 -10
chalk/ml/model_version.py +34 -21
chalk/ml/utils.py +143 -40
chalk/operators/_utils.py +14 -3
chalk/parsed/_proto/export.py +22 -0
chalk/parsed/duplicate_input_gql.py +4 -0
chalk/parsed/expressions.py +1 -3
chalk/parsed/json_conversions.py +21 -14
chalk/parsed/to_proto.py +16 -4
chalk/parsed/user_types_to_json.py +31 -10
chalk/parsed/validation_from_registries.py +182 -0
chalk/queries/named_query.py +16 -6
chalk/queries/scheduled_query.py +13 -1
chalk/serialization/parsed_annotation.py +25 -12
chalk/sql/__init__.py +221 -0
chalk/sql/_internal/integrations/athena.py +6 -1
chalk/sql/_internal/integrations/bigquery.py +22 -2
chalk/sql/_internal/integrations/databricks.py +61 -18
chalk/sql/_internal/integrations/mssql.py +281 -0
chalk/sql/_internal/integrations/postgres.py +11 -3
chalk/sql/_internal/integrations/redshift.py +4 -0
chalk/sql/_internal/integrations/snowflake.py +11 -2
chalk/sql/_internal/integrations/util.py +2 -1
chalk/sql/_internal/sql_file_resolver.py +55 -10
chalk/sql/_internal/sql_source.py +36 -2
chalk/streams/__init__.py +1 -3
chalk/streams/_kafka_source.py +5 -1
chalk/streams/_windows.py +16 -4
chalk/streams/types.py +1 -2
chalk/utils/__init__.py +1 -3
chalk/utils/_otel_version.py +13 -0
chalk/utils/async_helpers.py +14 -5
chalk/utils/df_utils.py +2 -2
chalk/utils/duration.py +1 -3
chalk/utils/job_log_display.py +538 -0
chalk/utils/missing_dependency.py +5 -4
chalk/utils/notebook.py +255 -2
chalk/utils/pl_helpers.py +190 -37
chalk/utils/pydanticutil/pydantic_compat.py +1 -2
chalk/utils/storage_client.py +246 -0
chalk/utils/threading.py +1 -3
chalk/utils/tracing.py +194 -86
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/METADATA +53 -21
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/RECORD +268 -198
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/WHEEL +0 -0
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/entry_points.txt +0 -0
{chalkpy-2.89.22.dist-info → chalkpy-2.95.3.dist-info}/top_level.txt +0 -0

chalk/ml/model_hooks.py CHANGED Viewed

@@ -1,68 +1,385 @@
-from typing import Any, Callable, Dict, Optional, Tuple
+from typing import TYPE_CHECKING, Any, Dict, Optional, Protocol, Tuple
-import pyarrow as pa
+from chalk.ml.utils import ModelClass, ModelEncoding, ModelType
-from chalk.ml.utils import ModelEncoding, ModelType
+if TYPE_CHECKING:
+    from chalk.features.resolver import ResourceHint
-def load_xgb_classifier(f: str):
-    import xgboost  # pyright: ignore[reportMissingImports]
+class ModelInference(Protocol):
+    """Abstract base class for model loading and inference."""
-    model = xgboost.XGBClassifier()
-    model.load_model(f)
-    return model
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        """Load a model from the given path."""
+        pass
+    def predict(self, model: Any, X: Any) -> Any:
+        """Run inference on the model with input X."""
+        pass
-def load_xgb_regressor(f: str):
-    import xgboost  # pyright: ignore[reportMissingImports]
+    def prepare_input(self, feature_table: Any) -> Any:
+        """Convert PyArrow table to model input format.
-    model = xgboost.XGBRegressor()
-    model.load_model(f)
-    return model
+        Default implementation converts to numpy array via __array__().
+        Override for model-specific input formats (e.g., ONNX struct arrays).
+        """
+        return feature_table.__array__()
+    def extract_output(self, result: Any, output_feature_name: str) -> Any:
+        """Extract single output from model result.
-def load_pytorch_model(f: str):
-    import torch  # pyright: ignore[reportMissingImports]
+        Default implementation returns result as-is (for single outputs).
+        Override for models with structured outputs (e.g., ONNX struct arrays).
+        """
+        return result
-    torch.set_grad_enabled(False)
-    model = torch.jit.load(f)
-    model.input_to_tensor = lambda X: torch.from_numpy(X.__array__()).float()
-    return model
+class XGBoostClassifierInference(ModelInference):
+    """Model inference for XGBoost classifiers."""
-MODEL_HOOKS: Dict[Tuple[ModelType, ModelEncoding, Optional[str]], Callable[[str], Any]] = {
-    (ModelType.PYTORCH, ModelEncoding.PICKLE, None): load_pytorch_model,
-    (ModelType.SKLEARN, ModelEncoding.PICKLE, None): lambda f: __import__("joblib").load(f),
-    (ModelType.TENSORFLOW, ModelEncoding.HDF5, None): lambda f: __import__("tensorflow").keras.models.load_model(f),
-    (ModelType.TENSORFLOW, ModelEncoding.SAFETENSOR, None): lambda f: __import__("tensorflow").keras.models.load_model(
-        f
-    ),
-    (ModelType.XGBOOST, ModelEncoding.JSON, None): load_xgb_regressor,
-    (ModelType.XGBOOST, ModelEncoding.JSON, "classifier"): load_xgb_classifier,
-    (ModelType.XGBOOST, ModelEncoding.JSON, "regressor"): load_xgb_regressor,
-    (ModelType.LIGHTGBM, ModelEncoding.TEXT, None): lambda f: __import__("lightgbm").Booster(model_file=f),
-    (ModelType.CATBOOST, ModelEncoding.CBM, None): lambda f: __import__("catboost").CatBoost().load_model(f),
-    (ModelType.ONNX, ModelEncoding.PROTOBUF, None): lambda f: __import__("onnxruntime").InferenceSession(f),
-}
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import xgboost  # pyright: ignore[reportMissingImports]
+        model = xgboost.XGBClassifier()
+        model.load_model(path)
+        return model
-def pytorch_predict(model: Any, X: Any):
-    outputs = model(model.input_to_tensor(X))
-    result = outputs.detach().numpy().astype("float64")
-    result = result.squeeze()
-    # Convert 0-dimensional array to scalar, or ensure we have a proper 1D array
-    if result.ndim == 0:
-        return result.item()
-    return result
+    def predict(self, model: Any, X: Any) -> Any:
+        return model.predict(X)
-PREDICT_HOOKS: Dict[Tuple[ModelType, ModelEncoding, Optional[str]], Callable[[Any, pa.Table], Any]] = {
-    (ModelType.PYTORCH, ModelEncoding.PICKLE, None): pytorch_predict,
-    (ModelType.SKLEARN, ModelEncoding.PICKLE, None): lambda model, X: model.predict(X),
-    (ModelType.TENSORFLOW, ModelEncoding.HDF5, None): lambda model, X: model.predict(X),
-    (ModelType.TENSORFLOW, ModelEncoding.SAFETENSOR, None): lambda model, X: model.predict(X),
-    (ModelType.XGBOOST, ModelEncoding.JSON, None): lambda model, X: model.predict(X),
-    (ModelType.LIGHTGBM, ModelEncoding.TEXT, None): lambda model, X: model.predict(X),
-    (ModelType.CATBOOST, ModelEncoding.CBM, None): lambda model, X: model.predict(X),
-    (ModelType.ONNX, ModelEncoding.PROTOBUF, None): lambda model, X: model.run(None, {"input": X.astype("float32")})[0],
-}
+class XGBoostRegressorInference(ModelInference):
+    """Model inference for XGBoost regressors."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import xgboost  # pyright: ignore[reportMissingImports]
+        model = xgboost.XGBRegressor()
+        model.load_model(path)
+        return model
+    def predict(self, model: Any, X: Any) -> Any:
+        return model.predict(X)
+class PyTorchInference(ModelInference):
+    """Model inference for PyTorch models."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import torch  # pyright: ignore[reportMissingImports]
+        torch.set_grad_enabled(False)
+        # Load the model
+        model = torch.jit.load(path)
+        # If resource_hint is "gpu", move model to GPU
+        if resource_hint == "gpu" and torch.cuda.is_available():
+            device = torch.device("cuda")
+            model = model.to(device)
+            model.input_to_tensor = lambda X: torch.from_numpy(X).float().to(device)
+        else:
+            model.input_to_tensor = lambda X: torch.from_numpy(X).float()
+        return model
+    def predict(self, model: Any, X: Any) -> Any:
+        outputs = model(model.input_to_tensor(X))
+        result = outputs.detach().cpu().numpy().astype("float64")
+        result = result.squeeze()
+        # Convert 0-dimensional array to scalar, or ensure we have a proper 1D array
+        if result.ndim == 0:
+            return result.item()
+        return result
+class SklearnInference(ModelInference):
+    """Model inference for scikit-learn models."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import joblib  # pyright: ignore[reportMissingImports]
+        return joblib.load(path)
+    def predict(self, model: Any, X: Any) -> Any:
+        return model.predict(X)
+class TensorFlowInference(ModelInference):
+    """Model inference for TensorFlow models."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import tensorflow  # pyright: ignore[reportMissingImports]
+        return tensorflow.keras.models.load_model(path)
+    def predict(self, model: Any, X: Any) -> Any:
+        return model.predict(X)
+class LightGBMInference(ModelInference):
+    """Model inference for LightGBM models."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import lightgbm  # pyright: ignore[reportMissingImports]
+        return lightgbm.Booster(model_file=path)
+    def predict(self, model: Any, X: Any) -> Any:
+        return model.predict(X)
+class CatBoostInference(ModelInference):
+    """Model inference for CatBoost models."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import catboost  # pyright: ignore[reportMissingImports]
+        return catboost.CatBoost().load_model(path)
+    def predict(self, model: Any, X: Any) -> Any:
+        return model.predict(X)
+class ONNXInference(ModelInference):
+    """Model inference for ONNX models with struct input/output support."""
+    def load_model(self, path: str, resource_hint: Optional["ResourceHint"] = None) -> Any:
+        import onnxruntime  # pyright: ignore[reportMissingImports]
+        # Conditionally add CUDAExecutionProvider based on resource_hint
+        providers = (
+            ["CUDAExecutionProvider", "CPUExecutionProvider"] if resource_hint == "gpu" else ["CPUExecutionProvider"]
+        )
+        return onnxruntime.InferenceSession(path, providers=providers)
+    def prepare_input(self, feature_table: Any) -> Any:
+        """Convert PyArrow table to struct array for ONNX models."""
+        import pyarrow as pa
+        # Get arrays for each column, combining chunks if necessary
+        arrays = []
+        for i in range(feature_table.num_columns):
+            col = feature_table.column(i)
+            if isinstance(col, pa.ChunkedArray):
+                arrays.append(col.combine_chunks())
+            else:
+                arrays.append(col)
+        # Create fields from schema, preserving original field names
+        # Field names should match ONNX input names exactly
+        fields = []
+        for field in feature_table.schema:
+            fields.append(pa.field(field.name, field.type))
+        # Create struct array where each row is a struct with named fields
+        return pa.StructArray.from_arrays(arrays, fields=fields)
+    def extract_output(self, result: Any, output_feature_name: str) -> Any:
+        """Extract single field from ONNX struct output."""
+        import pyarrow as pa
+        if not isinstance(result, (pa.StructArray, pa.ChunkedArray)):
+            return result
+        struct_type = result.type if isinstance(result, pa.StructArray) else result.chunk(0).type
+        # Find matching field by name, or use first field
+        field_index = None
+        for i, field in enumerate(struct_type):
+            if field.name == output_feature_name:
+                field_index = i
+                break
+        return result.field(field_index if field_index is not None else 0)
+    def predict(self, model: Any, X: Any) -> Any:
+        """Run ONNX inference with struct input/output."""
+        # Get ONNX model input/output names
+        input_names = [inp.name for inp in model.get_inputs()]
+        output_names = [out.name for out in model.get_outputs()]
+        # Convert struct input to ONNX input dict
+        input_dict = self._struct_to_inputs(X, input_names)
+        # Run ONNX inference
+        outputs = model.run(output_names, input_dict)
+        # Always return outputs as struct array
+        return self._outputs_to_struct(output_names, outputs)
+    def _struct_to_inputs(self, struct_array: Any, input_names: list) -> dict:
+        """Extract ONNX inputs from struct array by matching field names.
+        Struct field names must match ONNX input names (supports list/Tensor types).
+        If ONNX expects a single input but struct has multiple scalar fields,
+        stack them into a 2D array.
+        """
+        import numpy as np
+        import pyarrow as pa
+        if isinstance(struct_array, pa.ChunkedArray):
+            struct_array = struct_array.combine_chunks()
+        input_dict = {}
+        struct_fields = {field.name: i for i, field in enumerate(struct_array.type)}
+        # Check if struct field names match ONNX input names
+        fields_match = all(input_name in struct_fields for input_name in input_names)
+        if not fields_match:
+            # Special case 1: ONNX expects single input and struct has single field
+            # Use that field regardless of name mismatch
+            if len(input_names) == 1 and len(struct_fields) == 1:
+                field_data = struct_array.field(0)
+                input_dict[input_names[0]] = self._arrow_to_numpy(field_data)
+                return input_dict
+            # Special case 2: ONNX expects single input, but struct has multiple scalar fields
+            # Stack them into a 2D array [batch_size, num_fields]
+            if len(input_names) == 1 and len(struct_fields) > 1:
+                # Check if all fields are scalar (not nested lists)
+                all_scalar = all(
+                    not pa.types.is_list(struct_array.type[i].type)
+                    and not pa.types.is_large_list(struct_array.type[i].type)
+                    for i in range(len(struct_array.type))
+                )
+                if all_scalar:
+                    # Stack all fields into a single 2D array
+                    columns = []
+                    for i in range(len(struct_array.type)):
+                        field_data = struct_array.field(i)
+                        col_array = self._arrow_to_numpy(field_data)
+                        columns.append(col_array)
+                    # Stack columns horizontally to create [batch_size, num_features]
+                    stacked = np.column_stack(columns)
+                    input_dict[input_names[0]] = stacked
+                    return input_dict
+            raise ValueError(
+                f"ONNX inputs {input_names} not found in struct fields {list(struct_fields.keys())}. "
+                + "Struct field names must match ONNX input names."
+            )
+        # Direct mapping: struct fields match ONNX inputs (for Tensor/list types or named inputs)
+        for input_name in input_names:
+            field_data = struct_array.field(struct_fields[input_name])
+            input_dict[input_name] = self._arrow_to_numpy(field_data)
+        return input_dict
+    def _arrow_to_numpy(self, arrow_array: Any) -> Any:
+        """Convert Arrow array (including nested lists) to dense numpy array."""
+        import numpy as np
+        import pyarrow as pa
+        if isinstance(arrow_array, pa.ChunkedArray):
+            arrow_array = arrow_array.combine_chunks()
+        # Convert to Python list, then numpy - handles all cases (nested lists, flat arrays, etc.)
+        return np.array(arrow_array.to_pylist(), dtype=np.float32)
+    def _outputs_to_struct(self, output_names: list, outputs: list) -> Any:
+        """Convert ONNX outputs to PyArrow struct array."""
+        import pyarrow as pa
+        if not outputs:
+            raise ValueError("ONNX model returned no outputs")
+        # Convert each output to Arrow array with proper type
+        fields = []
+        arrays = []
+        for name, output_array in zip(output_names, outputs):
+            arrow_array = self._numpy_to_arrow_array(output_array)
+            fields.append(pa.field(name, arrow_array.type))
+            arrays.append(arrow_array)
+        return pa.StructArray.from_arrays(arrays, fields=fields)
+    def _numpy_to_arrow_array(self, arr: Any) -> Any:
+        """Convert numpy array to PyArrow array (possibly nested list)."""
+        import pyarrow as pa
+        # PyArrow can infer the correct nested list type from Python lists
+        # Shape (batch, dim1, dim2, ...) -> list[list[...]]
+        return pa.array(arr.tolist())
+class ModelInferenceRegistry:
+    """Registry for model inference implementations."""
+    def __init__(self):
+        super().__init__()
+        self._registry: Dict[Tuple[ModelType, ModelEncoding, Optional[ModelClass]], ModelInference] = {}
+    def register(
+        self,
+        model_type: ModelType,
+        encoding: ModelEncoding,
+        model_class: Optional[ModelClass],
+        inference: ModelInference,
+    ) -> None:
+        """Register a model inference implementation."""
+        self._registry[(model_type, encoding, model_class)] = inference
+    def register_for_all_classes(
+        self,
+        model_type: ModelType,
+        encoding: ModelEncoding,
+        inference: ModelInference,
+    ) -> None:
+        """Register inference for None, CLASSIFICATION, and REGRESSION variants."""
+        self.register(model_type, encoding, None, inference)
+        self.register(model_type, encoding, ModelClass.CLASSIFICATION, inference)
+        self.register(model_type, encoding, ModelClass.REGRESSION, inference)
+    def get(
+        self,
+        model_type: ModelType,
+        encoding: ModelEncoding,
+        model_class: Optional[ModelClass] = None,
+    ) -> Optional[ModelInference]:
+        """Get a model inference implementation from the registry."""
+        return self._registry.get((model_type, encoding, model_class), None)
+    def get_loader(
+        self,
+        model_type: ModelType,
+        encoding: ModelEncoding,
+        model_class: Optional[ModelClass] = None,
+    ):
+        """Get the load_model function for a given configuration."""
+        inference = self.get(model_type, encoding, model_class)
+        return inference.load_model if inference else None
+    def get_predictor(
+        self,
+        model_type: ModelType,
+        encoding: ModelEncoding,
+        model_class: Optional[ModelClass] = None,
+    ):
+        """Get the predict function for a given configuration."""
+        inference = self.get(model_type, encoding, model_class)
+        return inference.predict if inference else None
+# Global registry instance
+MODEL_REGISTRY = ModelInferenceRegistry()
+# Register all model types
+MODEL_REGISTRY.register_for_all_classes(ModelType.PYTORCH, ModelEncoding.PICKLE, PyTorchInference())
+MODEL_REGISTRY.register_for_all_classes(ModelType.SKLEARN, ModelEncoding.PICKLE, SklearnInference())
+MODEL_REGISTRY.register_for_all_classes(ModelType.TENSORFLOW, ModelEncoding.HDF5, TensorFlowInference())
+MODEL_REGISTRY.register_for_all_classes(ModelType.LIGHTGBM, ModelEncoding.TEXT, LightGBMInference())
+MODEL_REGISTRY.register_for_all_classes(ModelType.CATBOOST, ModelEncoding.CBM, CatBoostInference())
+MODEL_REGISTRY.register_for_all_classes(ModelType.ONNX, ModelEncoding.PROTOBUF, ONNXInference())
+# XGBoost requires different implementations for classification vs regression
+MODEL_REGISTRY.register(ModelType.XGBOOST, ModelEncoding.JSON, None, XGBoostRegressorInference())
+MODEL_REGISTRY.register(ModelType.XGBOOST, ModelEncoding.JSON, ModelClass.CLASSIFICATION, XGBoostClassifierInference())
+MODEL_REGISTRY.register(ModelType.XGBOOST, ModelEncoding.JSON, ModelClass.REGRESSION, XGBoostRegressorInference())

chalk/ml/model_reference.py CHANGED Viewed

@@ -3,12 +3,22 @@ from __future__ import annotations
 import inspect
 import os
 from datetime import datetime
+from typing import TYPE_CHECKING
 from chalk.ml.model_version import ModelVersion
-from chalk.ml.utils import REGISTRY_METADATA_FILE, get_model_spec, model_encoding_from_proto, model_type_from_proto
+from chalk.ml.utils import (
+    ModelClass,
+    get_model_spec,
+    get_registry_metadata_file,
+    model_encoding_from_proto,
+    model_type_from_proto,
+)
 from chalk.utils.object_inspect import get_source_object_starting
 from chalk.utils.source_parsing import should_skip_source_code_parsing
+if TYPE_CHECKING:
+    from chalk.features.resolver import ResourceHint
 class ModelReference:
     def __init__(
@@ -18,6 +28,8 @@ class ModelReference:
         version: int | None = None,
         alias: str | None = None,
         as_of_date: datetime | None = None,
+        resource_hint: "ResourceHint | None" = None,
+        resource_group: str | None = None,
     ):
         """Specifies the model version that should be loaded into the deployment.
@@ -68,6 +80,8 @@ class ModelReference:
         self.as_of_date = as_of_date
         self.alias = alias
         self.identifier = identifier
+        self.resource_hint = resource_hint
+        self.resource_group = resource_group
         self.filename = filename
         self.source_line_start = source_line_start
@@ -89,7 +103,8 @@ class ModelReference:
         MODEL_REFERENCE_REGISTRY[(name, identifier)] = self
         # Only load model if the metadata file exists, which only happens in deployed environments
-        if REGISTRY_METADATA_FILE is not None and os.path.exists(REGISTRY_METADATA_FILE):
+        registry_metadata_file = get_registry_metadata_file()
+        if registry_metadata_file is not None and os.path.exists(registry_metadata_file):
             model_artifact_metadata = get_model_spec(model_name=name, identifier=identifier)
             mv = ModelVersion(
@@ -100,6 +115,11 @@ class ModelReference:
                 identifier=identifier,
                 model_type=model_type_from_proto(model_artifact_metadata.spec.model_type),
                 model_encoding=model_encoding_from_proto(model_artifact_metadata.spec.model_encoding),
+                model_class=ModelClass(model_artifact_metadata.spec.model_class)
+                if model_artifact_metadata.spec.model_class
+                else None,
+                resource_hint=resource_hint,
+                resource_group=resource_group,
             )
             from chalk.features.hooks import before_all
@@ -107,14 +127,22 @@ class ModelReference:
             def hook():
                 mv.load_model()
-            before_all(hook)
+            before_all(hook, resource_hint=resource_hint, resource_group=resource_group)
             self.model_version = mv
         else:
-            self.model_version = ModelVersion(name=name, identifier=identifier)
+            self.model_version = ModelVersion(
+                name=name, identifier=identifier, resource_hint=resource_hint, resource_group=resource_group
+            )
     @classmethod
-    def as_of(cls, name: str, when: datetime) -> ModelVersion:
+    def as_of(
+        cls,
+        name: str,
+        when: datetime,
+        resource_hint: "ResourceHint | None" = None,
+        resource_group: str | None = None,
+    ) -> ModelVersion:
         """Creates a ModelReference for a specific point in time.
         Parameters
@@ -123,6 +151,11 @@ class ModelReference:
             The name of the model.
         when
             The datetime to use for creating the model version identifier.
+        resource_hint
+            Whether this model loading is bound by CPU, I/O, or GPU.
+        resource_group
+            The resource group for the model: this is used to isolate execution
+            onto a separate pod (or set of nodes), such as on a GPU-enabled node.
         Returns
         -------
@@ -134,13 +167,20 @@ class ModelReference:
         >>> import datetime
         >>> timestamp = datetime.datetime(2023, 10, 15, 14, 30, 0)
         >>> model = ModelReference.as_of("fraud_model", timestamp)
+        >>> model = ModelReference.as_of("fraud_model", timestamp, resource_hint="gpu", resource_group="gpu-group")
         """
-        mr = ModelReference(name=name, as_of_date=when)
+        mr = ModelReference(name=name, as_of_date=when, resource_hint=resource_hint, resource_group=resource_group)
         return mr.model_version
     @classmethod
-    def from_version(cls, name: str, version: int) -> ModelVersion:
+    def from_version(
+        cls,
+        name: str,
+        version: int,
+        resource_hint: "ResourceHint | None" = None,
+        resource_group: str | None = None,
+    ) -> ModelVersion:
         """Creates a ModelReference using a numeric version identifier.
         Parameters
@@ -149,6 +189,11 @@ class ModelReference:
             The name of the model.
         version
             The version number. Must be a non-negative integer.
+        resource_hint
+            Whether this model loading is bound by CPU, I/O, or GPU.
+        resource_group
+            The resource group for the model: this is used to isolate execution
+            onto a separate pod (or set of nodes), such as on a GPU-enabled node.
         Returns
         -------
@@ -163,15 +208,22 @@ class ModelReference:
         Examples
         --------
         >>> model = ModelReference.from_version("fraud_model", 1)
+        >>> model = ModelReference.from_version("fraud_model", 1, resource_hint="gpu", resource_group="gpu-group")
         """
         if version < 0:
             raise ValueError("Version number must be a non-negative integer.")
-        mr = ModelReference(name=name, version=version)
+        mr = ModelReference(name=name, version=version, resource_hint=resource_hint, resource_group=resource_group)
         return mr.model_version
     @classmethod
-    def from_alias(cls, name: str, alias: str) -> ModelVersion:
+    def from_alias(
+        cls,
+        name: str,
+        alias: str,
+        resource_hint: "ResourceHint | None" = None,
+        resource_group: str | None = None,
+    ) -> ModelVersion:
         """Creates a ModelReference using an alias identifier.
         Parameters
@@ -180,6 +232,11 @@ class ModelReference:
             The name of the model.
         alias
             The alias string. Must be non-empty.
+        resource_hint
+            Whether this model loading is bound by CPU, I/O, or GPU.
+        resource_group
+            The resource group for the model: this is used to isolate execution
+            onto a separate pod (or set of nodes), such as on a GPU-enabled node.
         Returns
         -------
@@ -194,11 +251,12 @@ class ModelReference:
         Examples
         --------
         >>> model = ModelReference.from_alias("fraud_model", "latest")
+        >>> model = ModelReference.from_alias("fraud_model", "latest", resource_hint="gpu", resource_group="gpu-group")
         """
         if not alias:
             raise ValueError("Alias must be a non-empty string.")
-        mr = ModelReference(name=name, alias=alias)
+        mr = ModelReference(name=name, alias=alias, resource_hint=resource_hint, resource_group=resource_group)
         return mr.model_version

chalkpy 2.89.22__py3-none-any.whl → 2.95.3__py3-none-any.whl

chalkpy 2.89.22py3-none-any.whl → 2.95.3py3-none-any.whl