PyPI - snowflake-ml-python - Versions diffs - 1.4.0__py3-none-any.whl → 1.5.0__py3-none-any.whl - Mend

snowflake-ml-python 1.4.0py3-none-any.whl → 1.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (234) hide show

snowflake/ml/_internal/env_utils.py +77 -32
snowflake/ml/_internal/exceptions/dataset_error_messages.py +5 -0
snowflake/ml/_internal/exceptions/dataset_errors.py +24 -0
snowflake/ml/_internal/exceptions/error_codes.py +3 -0
snowflake/ml/_internal/lineage/data_source.py +10 -0
snowflake/ml/_internal/lineage/dataset_dataframe.py +44 -0
snowflake/ml/_internal/utils/identifier.py +3 -1
snowflake/ml/_internal/utils/sql_identifier.py +2 -6
snowflake/ml/dataset/__init__.py +10 -0
snowflake/ml/dataset/dataset.py +454 -129
snowflake/ml/dataset/dataset_factory.py +53 -0
snowflake/ml/dataset/dataset_metadata.py +103 -0
snowflake/ml/dataset/dataset_reader.py +202 -0
snowflake/ml/feature_store/feature_store.py +531 -332
snowflake/ml/feature_store/feature_view.py +40 -23
snowflake/ml/fileset/embedded_stage_fs.py +146 -0
snowflake/ml/fileset/sfcfs.py +56 -54
snowflake/ml/fileset/snowfs.py +159 -0
snowflake/ml/fileset/stage_fs.py +49 -17
snowflake/ml/model/__init__.py +2 -2
snowflake/ml/model/_api.py +16 -1
snowflake/ml/model/_client/model/model_impl.py +27 -0
snowflake/ml/model/_client/model/model_version_impl.py +137 -50
snowflake/ml/model/_client/ops/model_ops.py +159 -40
snowflake/ml/model/_client/sql/model.py +25 -2
snowflake/ml/model/_client/sql/model_version.py +131 -2
snowflake/ml/model/_deploy_client/image_builds/server_image_builder.py +5 -1
snowflake/ml/model/_deploy_client/image_builds/templates/dockerfile_template +1 -0
snowflake/ml/model/_deploy_client/snowservice/deploy.py +2 -0
snowflake/ml/model/_deploy_client/utils/constants.py +0 -5
snowflake/ml/model/_deploy_client/utils/snowservice_client.py +21 -50
snowflake/ml/model/_model_composer/model_composer.py +22 -1
snowflake/ml/model/_model_composer/model_manifest/model_manifest.py +38 -51
snowflake/ml/model/_model_composer/model_manifest/model_manifest_schema.py +19 -1
snowflake/ml/model/_model_composer/model_method/model_method.py +6 -10
snowflake/ml/model/_packager/model_env/model_env.py +41 -0
snowflake/ml/model/_packager/model_handlers/catboost.py +206 -0
snowflake/ml/model/_packager/model_handlers/lightgbm.py +218 -0
snowflake/ml/model/_packager/model_handlers/sklearn.py +3 -0
snowflake/ml/model/_packager/model_meta/_core_requirements.py +1 -1
snowflake/ml/model/_packager/model_meta/model_meta.py +37 -11
snowflake/ml/model/_packager/model_meta/model_meta_schema.py +20 -1
snowflake/ml/model/_packager/model_meta_migrator/migrator_plans.py +3 -1
snowflake/ml/model/_packager/model_packager.py +2 -5
snowflake/ml/model/{_model_composer/model_runtime/_runtime_requirements.py → _packager/model_runtime/_snowml_inference_alternative_requirements.py} +1 -1
snowflake/ml/model/_packager/model_runtime/model_runtime.py +137 -0
snowflake/ml/model/type_hints.py +21 -2
snowflake/ml/modeling/_internal/estimator_utils.py +16 -11
snowflake/ml/modeling/_internal/local_implementations/pandas_handlers.py +4 -1
snowflake/ml/modeling/_internal/local_implementations/pandas_trainer.py +55 -3
snowflake/ml/modeling/_internal/ml_runtime_implementations/ml_runtime_handlers.py +34 -18
snowflake/ml/modeling/_internal/model_trainer.py +7 -0
snowflake/ml/modeling/_internal/model_trainer_builder.py +42 -9
snowflake/ml/modeling/_internal/snowpark_implementations/distributed_hpo_trainer.py +13 -14
snowflake/ml/modeling/_internal/snowpark_implementations/snowpark_handlers.py +29 -7
snowflake/ml/modeling/_internal/snowpark_implementations/snowpark_trainer.py +261 -16
snowflake/ml/modeling/calibration/calibrated_classifier_cv.py +246 -175
snowflake/ml/modeling/cluster/affinity_propagation.py +246 -175
snowflake/ml/modeling/cluster/agglomerative_clustering.py +246 -175
snowflake/ml/modeling/cluster/birch.py +248 -175
snowflake/ml/modeling/cluster/bisecting_k_means.py +248 -175
snowflake/ml/modeling/cluster/dbscan.py +246 -175
snowflake/ml/modeling/cluster/feature_agglomeration.py +248 -175
snowflake/ml/modeling/cluster/k_means.py +248 -175
snowflake/ml/modeling/cluster/mean_shift.py +246 -175
snowflake/ml/modeling/cluster/mini_batch_k_means.py +248 -175
snowflake/ml/modeling/cluster/optics.py +246 -175
snowflake/ml/modeling/cluster/spectral_biclustering.py +246 -175
snowflake/ml/modeling/cluster/spectral_clustering.py +246 -175
snowflake/ml/modeling/cluster/spectral_coclustering.py +246 -175
snowflake/ml/modeling/compose/column_transformer.py +248 -175
snowflake/ml/modeling/compose/transformed_target_regressor.py +246 -175
snowflake/ml/modeling/covariance/elliptic_envelope.py +246 -175
snowflake/ml/modeling/covariance/empirical_covariance.py +246 -175
snowflake/ml/modeling/covariance/graphical_lasso.py +246 -175
snowflake/ml/modeling/covariance/graphical_lasso_cv.py +246 -175
snowflake/ml/modeling/covariance/ledoit_wolf.py +246 -175
snowflake/ml/modeling/covariance/min_cov_det.py +246 -175
snowflake/ml/modeling/covariance/oas.py +246 -175
snowflake/ml/modeling/covariance/shrunk_covariance.py +246 -175
snowflake/ml/modeling/decomposition/dictionary_learning.py +248 -175
snowflake/ml/modeling/decomposition/factor_analysis.py +248 -175
snowflake/ml/modeling/decomposition/fast_ica.py +248 -175
snowflake/ml/modeling/decomposition/incremental_pca.py +248 -175
snowflake/ml/modeling/decomposition/kernel_pca.py +248 -175
snowflake/ml/modeling/decomposition/mini_batch_dictionary_learning.py +248 -175
snowflake/ml/modeling/decomposition/mini_batch_sparse_pca.py +248 -175
snowflake/ml/modeling/decomposition/pca.py +248 -175
snowflake/ml/modeling/decomposition/sparse_pca.py +248 -175
snowflake/ml/modeling/decomposition/truncated_svd.py +248 -175
snowflake/ml/modeling/discriminant_analysis/linear_discriminant_analysis.py +248 -175
snowflake/ml/modeling/discriminant_analysis/quadratic_discriminant_analysis.py +246 -175
snowflake/ml/modeling/ensemble/ada_boost_classifier.py +246 -175
snowflake/ml/modeling/ensemble/ada_boost_regressor.py +246 -175
snowflake/ml/modeling/ensemble/bagging_classifier.py +246 -175
snowflake/ml/modeling/ensemble/bagging_regressor.py +246 -175
snowflake/ml/modeling/ensemble/extra_trees_classifier.py +246 -175
snowflake/ml/modeling/ensemble/extra_trees_regressor.py +246 -175
snowflake/ml/modeling/ensemble/gradient_boosting_classifier.py +246 -175
snowflake/ml/modeling/ensemble/gradient_boosting_regressor.py +246 -175
snowflake/ml/modeling/ensemble/hist_gradient_boosting_classifier.py +246 -175
snowflake/ml/modeling/ensemble/hist_gradient_boosting_regressor.py +246 -175
snowflake/ml/modeling/ensemble/isolation_forest.py +246 -175
snowflake/ml/modeling/ensemble/random_forest_classifier.py +246 -175
snowflake/ml/modeling/ensemble/random_forest_regressor.py +246 -175
snowflake/ml/modeling/ensemble/stacking_regressor.py +248 -175
snowflake/ml/modeling/ensemble/voting_classifier.py +248 -175
snowflake/ml/modeling/ensemble/voting_regressor.py +248 -175
snowflake/ml/modeling/feature_selection/generic_univariate_select.py +248 -175
snowflake/ml/modeling/feature_selection/select_fdr.py +248 -175
snowflake/ml/modeling/feature_selection/select_fpr.py +248 -175
snowflake/ml/modeling/feature_selection/select_fwe.py +248 -175
snowflake/ml/modeling/feature_selection/select_k_best.py +248 -175
snowflake/ml/modeling/feature_selection/select_percentile.py +248 -175
snowflake/ml/modeling/feature_selection/sequential_feature_selector.py +248 -175
snowflake/ml/modeling/feature_selection/variance_threshold.py +248 -175
snowflake/ml/modeling/framework/_utils.py +8 -1
snowflake/ml/modeling/framework/base.py +72 -37
snowflake/ml/modeling/gaussian_process/gaussian_process_classifier.py +246 -175
snowflake/ml/modeling/gaussian_process/gaussian_process_regressor.py +246 -175
snowflake/ml/modeling/impute/iterative_imputer.py +248 -175
snowflake/ml/modeling/impute/knn_imputer.py +248 -175
snowflake/ml/modeling/impute/missing_indicator.py +248 -175
snowflake/ml/modeling/kernel_approximation/additive_chi2_sampler.py +248 -175
snowflake/ml/modeling/kernel_approximation/nystroem.py +248 -175
snowflake/ml/modeling/kernel_approximation/polynomial_count_sketch.py +248 -175
snowflake/ml/modeling/kernel_approximation/rbf_sampler.py +248 -175
snowflake/ml/modeling/kernel_approximation/skewed_chi2_sampler.py +248 -175
snowflake/ml/modeling/kernel_ridge/kernel_ridge.py +246 -175
snowflake/ml/modeling/lightgbm/lgbm_classifier.py +246 -175
snowflake/ml/modeling/lightgbm/lgbm_regressor.py +246 -175
snowflake/ml/modeling/linear_model/ard_regression.py +246 -175
snowflake/ml/modeling/linear_model/bayesian_ridge.py +246 -175
snowflake/ml/modeling/linear_model/elastic_net.py +246 -175
snowflake/ml/modeling/linear_model/elastic_net_cv.py +246 -175
snowflake/ml/modeling/linear_model/gamma_regressor.py +246 -175
snowflake/ml/modeling/linear_model/huber_regressor.py +246 -175
snowflake/ml/modeling/linear_model/lars.py +246 -175
snowflake/ml/modeling/linear_model/lars_cv.py +246 -175
snowflake/ml/modeling/linear_model/lasso.py +246 -175
snowflake/ml/modeling/linear_model/lasso_cv.py +246 -175
snowflake/ml/modeling/linear_model/lasso_lars.py +246 -175
snowflake/ml/modeling/linear_model/lasso_lars_cv.py +246 -175
snowflake/ml/modeling/linear_model/lasso_lars_ic.py +246 -175
snowflake/ml/modeling/linear_model/linear_regression.py +246 -175
snowflake/ml/modeling/linear_model/logistic_regression.py +246 -175
snowflake/ml/modeling/linear_model/logistic_regression_cv.py +246 -175
snowflake/ml/modeling/linear_model/multi_task_elastic_net.py +246 -175
snowflake/ml/modeling/linear_model/multi_task_elastic_net_cv.py +246 -175
snowflake/ml/modeling/linear_model/multi_task_lasso.py +246 -175
snowflake/ml/modeling/linear_model/multi_task_lasso_cv.py +246 -175
snowflake/ml/modeling/linear_model/orthogonal_matching_pursuit.py +246 -175
snowflake/ml/modeling/linear_model/passive_aggressive_classifier.py +246 -175
snowflake/ml/modeling/linear_model/passive_aggressive_regressor.py +246 -175
snowflake/ml/modeling/linear_model/perceptron.py +246 -175
snowflake/ml/modeling/linear_model/poisson_regressor.py +246 -175
snowflake/ml/modeling/linear_model/ransac_regressor.py +246 -175
snowflake/ml/modeling/linear_model/ridge.py +246 -175
snowflake/ml/modeling/linear_model/ridge_classifier.py +246 -175
snowflake/ml/modeling/linear_model/ridge_classifier_cv.py +246 -175
snowflake/ml/modeling/linear_model/ridge_cv.py +246 -175
snowflake/ml/modeling/linear_model/sgd_classifier.py +246 -175
snowflake/ml/modeling/linear_model/sgd_one_class_svm.py +246 -175
snowflake/ml/modeling/linear_model/sgd_regressor.py +246 -175
snowflake/ml/modeling/linear_model/theil_sen_regressor.py +246 -175
snowflake/ml/modeling/linear_model/tweedie_regressor.py +246 -175
snowflake/ml/modeling/manifold/isomap.py +248 -175
snowflake/ml/modeling/manifold/mds.py +248 -175
snowflake/ml/modeling/manifold/spectral_embedding.py +248 -175
snowflake/ml/modeling/manifold/tsne.py +248 -175
snowflake/ml/modeling/mixture/bayesian_gaussian_mixture.py +246 -175
snowflake/ml/modeling/mixture/gaussian_mixture.py +246 -175
snowflake/ml/modeling/model_selection/grid_search_cv.py +63 -41
snowflake/ml/modeling/model_selection/randomized_search_cv.py +80 -38
snowflake/ml/modeling/multiclass/one_vs_one_classifier.py +246 -175
snowflake/ml/modeling/multiclass/one_vs_rest_classifier.py +246 -175
snowflake/ml/modeling/multiclass/output_code_classifier.py +246 -175
snowflake/ml/modeling/naive_bayes/bernoulli_nb.py +246 -175
snowflake/ml/modeling/naive_bayes/categorical_nb.py +246 -175
snowflake/ml/modeling/naive_bayes/complement_nb.py +246 -175
snowflake/ml/modeling/naive_bayes/gaussian_nb.py +246 -175
snowflake/ml/modeling/naive_bayes/multinomial_nb.py +246 -175
snowflake/ml/modeling/neighbors/k_neighbors_classifier.py +246 -175
snowflake/ml/modeling/neighbors/k_neighbors_regressor.py +246 -175
snowflake/ml/modeling/neighbors/kernel_density.py +246 -175
snowflake/ml/modeling/neighbors/local_outlier_factor.py +246 -175
snowflake/ml/modeling/neighbors/nearest_centroid.py +246 -175
snowflake/ml/modeling/neighbors/nearest_neighbors.py +246 -175
snowflake/ml/modeling/neighbors/neighborhood_components_analysis.py +248 -175
snowflake/ml/modeling/neighbors/radius_neighbors_classifier.py +246 -175
snowflake/ml/modeling/neighbors/radius_neighbors_regressor.py +246 -175
snowflake/ml/modeling/neural_network/bernoulli_rbm.py +248 -175
snowflake/ml/modeling/neural_network/mlp_classifier.py +246 -175
snowflake/ml/modeling/neural_network/mlp_regressor.py +246 -175
snowflake/ml/modeling/pipeline/pipeline.py +517 -35
snowflake/ml/modeling/preprocessing/binarizer.py +1 -5
snowflake/ml/modeling/preprocessing/k_bins_discretizer.py +1 -5
snowflake/ml/modeling/preprocessing/label_encoder.py +1 -5
snowflake/ml/modeling/preprocessing/max_abs_scaler.py +1 -5
snowflake/ml/modeling/preprocessing/min_max_scaler.py +10 -12
snowflake/ml/modeling/preprocessing/normalizer.py +1 -5
snowflake/ml/modeling/preprocessing/one_hot_encoder.py +13 -5
snowflake/ml/modeling/preprocessing/ordinal_encoder.py +1 -5
snowflake/ml/modeling/preprocessing/polynomial_features.py +248 -175
snowflake/ml/modeling/preprocessing/robust_scaler.py +1 -5
snowflake/ml/modeling/preprocessing/standard_scaler.py +11 -11
snowflake/ml/modeling/semi_supervised/label_propagation.py +246 -175
snowflake/ml/modeling/semi_supervised/label_spreading.py +246 -175
snowflake/ml/modeling/svm/linear_svc.py +246 -175
snowflake/ml/modeling/svm/linear_svr.py +246 -175
snowflake/ml/modeling/svm/nu_svc.py +246 -175
snowflake/ml/modeling/svm/nu_svr.py +246 -175
snowflake/ml/modeling/svm/svc.py +246 -175
snowflake/ml/modeling/svm/svr.py +246 -175
snowflake/ml/modeling/tree/decision_tree_classifier.py +246 -175
snowflake/ml/modeling/tree/decision_tree_regressor.py +246 -175
snowflake/ml/modeling/tree/extra_tree_classifier.py +246 -175
snowflake/ml/modeling/tree/extra_tree_regressor.py +246 -175
snowflake/ml/modeling/xgboost/xgb_classifier.py +246 -175
snowflake/ml/modeling/xgboost/xgb_regressor.py +246 -175
snowflake/ml/modeling/xgboost/xgbrf_classifier.py +246 -175
snowflake/ml/modeling/xgboost/xgbrf_regressor.py +246 -175
snowflake/ml/registry/model_registry.py +3 -149
snowflake/ml/registry/registry.py +1 -1
snowflake/ml/version.py +1 -1
{snowflake_ml_python-1.4.0.dist-info → snowflake_ml_python-1.5.0.dist-info}/METADATA +129 -57
snowflake_ml_python-1.5.0.dist-info/RECORD +380 -0
snowflake/ml/model/_model_composer/model_runtime/model_runtime.py +0 -97
snowflake/ml/registry/_artifact_manager.py +0 -156
snowflake/ml/registry/artifact.py +0 -46
snowflake_ml_python-1.4.0.dist-info/RECORD +0 -370
{snowflake_ml_python-1.4.0.dist-info → snowflake_ml_python-1.5.0.dist-info}/LICENSE.txt +0 -0
{snowflake_ml_python-1.4.0.dist-info → snowflake_ml_python-1.5.0.dist-info}/WHEEL +0 -0
{snowflake_ml_python-1.4.0.dist-info → snowflake_ml_python-1.5.0.dist-info}/top_level.txt +0 -0

snowflake/ml/modeling/model_selection/grid_search_cv.py CHANGED Viewed

@@ -20,6 +20,7 @@ from snowflake.ml.model.model_signature import (
     FeatureSpec,
     ModelSignature,
     _infer_signature,
+    _rename_signature_with_snowflake_identifiers,
 )
 from snowflake.ml.modeling._internal.estimator_utils import (
     gather_dependencies,
@@ -330,12 +331,15 @@ class GridSearchCV(BaseTransformer):
         )
         self._sklearn_object = model_trainer.train()
         self._is_fitted = True
-        self._get_model_signatures(dataset)
+        self._generate_model_signatures(dataset)
         return self
-    def _batch_inference_validate_snowpark(self, dataset: DataFrame, inference_method: str) -> List[str]:
-        """Util method to run validate that batch inference can be run on a snowpark dataframe and
-        return the available package that exists in the snowflake anaconda channel
+    def _batch_inference_validate_snowpark(
+        self,
+        dataset: DataFrame,
+        inference_method: str,
+    ) -> None:
+        """Util method to run validate that batch inference can be run on a snowpark dataframe.
         Args:
             dataset: snowpark dataframe
@@ -345,8 +349,6 @@ class GridSearchCV(BaseTransformer):
             SnowflakeMLException: If the estimator is not fitted, raise error
             SnowflakeMLException: If the session is None, raise error
-        Returns:
-            A list of available package that exists in the snowflake anaconda channel
         """
         if not self._is_fitted:
             raise exceptions.SnowflakeMLException(
@@ -362,10 +364,6 @@ class GridSearchCV(BaseTransformer):
                 error_code=error_codes.NOT_FOUND,
                 original_exception=ValueError("Session must not specified for snowpark dataset."),
             )
-        # Validate that key package version in user workspace are supported in snowflake conda channel
-        return pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
-            pkg_versions=self._get_dependencies(), session=session, subproject=_SUBPROJECT
-        )
     @available_if(original_estimator_has_callable("predict"))  # type: ignore[misc]
     @telemetry.send_api_usage_telemetry(
@@ -384,6 +382,9 @@ class GridSearchCV(BaseTransformer):
         Returns:
             Transformed dataset.
+        Raises:
+            SnowflakeMLException: when the output column(s) doesn't exist in the model signature, raise error
         """
         super()._check_dataset_type(dataset)
@@ -396,13 +397,23 @@ class GridSearchCV(BaseTransformer):
             expected_type_inferred = ""
             # infer the datatype from label columns
             if "predict" in self.model_signatures:
-                expected_type_inferred = convert_sp_to_sf_type(
-                    self.model_signatures["predict"].outputs[0].as_snowpark_type()
-                )
-            self._deps = self._batch_inference_validate_snowpark(
-                dataset=dataset,
-                inference_method=inference_method,
-            )
+                # Batch inference takes a single expected output column type. Use the first columns type for now.
+                label_cols_signatures = [
+                    row for row in self.model_signatures["predict"].outputs if row.name in self.output_cols
+                ]
+                if len(label_cols_signatures) == 0:
+                    error_str = (
+                        f"Output columns {self.output_cols} do not match"
+                        f"model signatures {self.model_signatures['predict'].outputs}."
+                    )
+                    raise exceptions.SnowflakeMLException(
+                        error_code=error_codes.INVALID_ATTRIBUTE,
+                        original_exception=ValueError(error_str),
+                    )
+                expected_type_inferred = convert_sp_to_sf_type(label_cols_signatures[0].as_snowpark_type())
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
@@ -460,7 +471,8 @@ class GridSearchCV(BaseTransformer):
         inference_method = "transform"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -519,7 +531,8 @@ class GridSearchCV(BaseTransformer):
         inference_method = "predict_proba"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -579,7 +592,8 @@ class GridSearchCV(BaseTransformer):
         inference_method = "predict_log_proba"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -639,7 +653,8 @@ class GridSearchCV(BaseTransformer):
         inference_method = "decision_function"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -700,7 +715,8 @@ class GridSearchCV(BaseTransformer):
         transform_kwargs: BatchInferenceKwargsTypedDict = dict()
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -751,17 +767,15 @@ class GridSearchCV(BaseTransformer):
         transform_kwargs: ScoreKwargsTypedDict = dict()
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(
-                dataset=dataset,
-                inference_method="score",
-            )
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method="score")
+            self._deps = self._get_dependencies()
             selected_cols = self._get_active_columns()
             if len(selected_cols) > 0:
                 dataset = dataset.select(selected_cols)
             assert isinstance(dataset._session, Session)  # keep mypy happy
             transform_kwargs = dict(
                 session=dataset._session,
-                dependencies=["snowflake-snowpark-python"] + self._deps,
+                dependencies=self._deps,
                 score_sproc_imports=["sklearn"],
             )
         elif isinstance(dataset, pd.DataFrame):
@@ -785,12 +799,22 @@ class GridSearchCV(BaseTransformer):
         return output_score
-    def _get_model_signatures(self, dataset: Union[DataFrame, pd.DataFrame]) -> None:
+    def to_sklearn(self) -> sklearn.model_selection.GridSearchCV:
+        """
+        Get sklearn.model_selection.GridSearchCV object.
+        """
+        assert self._sklearn_object is not None
+        return self._sklearn_object
+    def _get_dependencies(self) -> List[str]:
+        return self._deps
+    def _generate_model_signatures(self, dataset: Union[DataFrame, pd.DataFrame]) -> None:
         self._model_signature_dict = dict()
         PROB_FUNCTIONS = ["predict_log_proba", "predict_proba", "decision_function"]
-        inputs = list(_infer_signature(dataset[self.input_cols], "input"))
+        inputs = list(_infer_signature(dataset[self.input_cols], "input", use_snowflake_identifiers=True))
         outputs: List[BaseFeatureSpec] = []
         if hasattr(self, "predict"):
             # keep mypy happy
@@ -798,18 +822,20 @@ class GridSearchCV(BaseTransformer):
             # For classifier, the type of predict is the same as the type of label
             if self._sklearn_object._estimator_type == "classifier":
                 # label columns is the desired type for output
-                outputs = list(_infer_signature(dataset[self.label_cols], "output"))
+                outputs = list(_infer_signature(dataset[self.label_cols], "output", use_snowflake_identifiers=True))
                 # rename the output columns
                 outputs = list(model_signature_utils.rename_features(outputs, self.output_cols))
                 self._model_signature_dict["predict"] = ModelSignature(
                     inputs, ([] if self._drop_input_cols else inputs) + outputs
                 )
             # For regressor, the type of predict is float64
             elif self._sklearn_object._estimator_type == "regressor":
                 outputs = [FeatureSpec(dtype=DataType.DOUBLE, name=c) for c in self.output_cols]
                 self._model_signature_dict["predict"] = ModelSignature(
                     inputs, ([] if self._drop_input_cols else inputs) + outputs
                 )
         for prob_func in PROB_FUNCTIONS:
             if hasattr(self, prob_func):
                 output_cols_prefix: str = f"{prob_func}_"
@@ -819,6 +845,12 @@ class GridSearchCV(BaseTransformer):
                     inputs, ([] if self._drop_input_cols else inputs) + outputs
                 )
+        # Output signature names may still need to be renamed, since they were not created with `_infer_signature`.
+        items = list(self._model_signature_dict.items())
+        for method, signature in items:
+            signature._outputs = _rename_signature_with_snowflake_identifiers(signature._outputs)
+            self._model_signature_dict[method] = signature
     @property
     def model_signatures(self) -> Dict[str, ModelSignature]:
         """Returns model signature of current class.
@@ -827,7 +859,7 @@ class GridSearchCV(BaseTransformer):
             SnowflakeMLException: If estimator is not fitted, then model signature cannot be inferred
         Returns:
-            Dict[str, ModelSignature]: each method and its input output signature
+            each method and its input output signature
         """
         if self._model_signature_dict is None:
             raise exceptions.SnowflakeMLException(
@@ -835,13 +867,3 @@ class GridSearchCV(BaseTransformer):
                 original_exception=RuntimeError("Estimator not fitted before accessing property model_signatures!"),
             )
         return self._model_signature_dict
-    def to_sklearn(self) -> sklearn.model_selection.GridSearchCV:
-        """
-        Get sklearn.model_selection.GridSearchCV object.
-        """
-        assert self._sklearn_object is not None
-        return self._sklearn_object
-    def _get_dependencies(self) -> List[str]:
-        return self._deps

snowflake/ml/modeling/model_selection/randomized_search_cv.py CHANGED Viewed

@@ -17,6 +17,7 @@ from snowflake.ml.model.model_signature import (
     FeatureSpec,
     ModelSignature,
     _infer_signature,
+    _rename_signature_with_snowflake_identifiers,
 )
 from snowflake.ml.modeling._internal.estimator_utils import (
     gather_dependencies,
@@ -343,11 +344,25 @@ class RandomizedSearchCV(BaseTransformer):
         )
         self._sklearn_object = model_trainer.train()
         self._is_fitted = True
-        self._get_model_signatures(dataset)
+        self._generate_model_signatures(dataset)
         return self
-    def _batch_inference_validate_snowpark(self, dataset: DataFrame, inference_method: str) -> List[str]:
-        """Util method to run validate that batch inference can be run on a snowpark dataframe."""
+    def _batch_inference_validate_snowpark(
+        self,
+        dataset: DataFrame,
+        inference_method: str,
+    ) -> None:
+        """Util method to run validate that batch inference can be run on a snowpark dataframe.
+        Args:
+            dataset: snowpark dataframe
+            inference_method: the inference method such as predict, score...
+        Raises:
+            SnowflakeMLException: If the estimator is not fitted, raise error
+            SnowflakeMLException: If the session is None, raise error
+        """
         if not self._is_fitted:
             raise exceptions.SnowflakeMLException(
                 error_code=error_codes.METHOD_NOT_ALLOWED,
@@ -362,10 +377,6 @@ class RandomizedSearchCV(BaseTransformer):
                 error_code=error_codes.NOT_FOUND,
                 original_exception=ValueError("Session must not specified for snowpark dataset."),
             )
-        # Validate that key package version in user workspace are supported in snowflake conda channel
-        return pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
-            pkg_versions=self._get_dependencies(), session=session, subproject=_SUBPROJECT
-        )
     @available_if(original_estimator_has_callable("predict"))  # type: ignore[misc]
     @telemetry.send_api_usage_telemetry(
@@ -383,6 +394,9 @@ class RandomizedSearchCV(BaseTransformer):
         Returns:
             Transformed dataset.
+        Raises:
+            SnowflakeMLException: when the output column(s) doesn't exist in the model signature, raise error
         """
         super()._check_dataset_type(dataset)
@@ -395,13 +409,24 @@ class RandomizedSearchCV(BaseTransformer):
             expected_type_inferred = ""
             # infer the datatype from label columns
             if "predict" in self.model_signatures:
-                expected_type_inferred = convert_sp_to_sf_type(
-                    self.model_signatures["predict"].outputs[0].as_snowpark_type()
-                )
-            self._deps = self._batch_inference_validate_snowpark(
-                dataset=dataset,
-                inference_method=inference_method,
-            )
+                # Batch inference takes a single expected output column type. Use the first columns type for now.
+                label_cols_signatures = [
+                    row for row in self.model_signatures["predict"].outputs if row.name in self.output_cols
+                ]
+                if len(label_cols_signatures) == 0:
+                    error_str = (
+                        f"Output columns {self.output_cols} do not match"
+                        f"model signatures {self.model_signatures['predict'].outputs}."
+                    )
+                    raise exceptions.SnowflakeMLException(
+                        error_code=error_codes.INVALID_ATTRIBUTE,
+                        original_exception=ValueError(error_str),
+                    )
+                expected_type_inferred = convert_sp_to_sf_type(label_cols_signatures[0].as_snowpark_type())
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -457,7 +482,9 @@ class RandomizedSearchCV(BaseTransformer):
         inference_method = "transform"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -515,7 +542,9 @@ class RandomizedSearchCV(BaseTransformer):
         inference_method = "predict_proba"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -575,7 +604,9 @@ class RandomizedSearchCV(BaseTransformer):
         inference_method = "predict_log_proba"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -634,7 +665,9 @@ class RandomizedSearchCV(BaseTransformer):
         inference_method = "decision_function"
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -695,7 +728,9 @@ class RandomizedSearchCV(BaseTransformer):
         transform_kwargs: BatchInferenceKwargsTypedDict = dict()
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method=inference_method)
+            self._deps = self._get_dependencies()
             assert isinstance(
                 dataset._session, Session
             )  # mypy does not recognize the check in _batch_inference_validate_snowpark()
@@ -745,10 +780,9 @@ class RandomizedSearchCV(BaseTransformer):
         transform_kwargs: ScoreKwargsTypedDict = dict()
         if isinstance(dataset, DataFrame):
-            self._deps = self._batch_inference_validate_snowpark(
-                dataset=dataset,
-                inference_method="score",
-            )
+            self._batch_inference_validate_snowpark(dataset=dataset, inference_method="score")
+            self._deps = self._get_dependencies()
             selected_cols = self._get_active_columns()
             if len(selected_cols) > 0:
                 dataset = dataset.select(selected_cols)
@@ -756,7 +790,7 @@ class RandomizedSearchCV(BaseTransformer):
             assert isinstance(dataset._session, Session)  # keep mypy happy
             transform_kwargs = dict(
                 session=dataset._session,
-                dependencies=["snowflake-snowpark-python"] + self._deps,
+                dependencies=self._deps,
                 score_sproc_imports=["sklearn"],
             )
         elif isinstance(dataset, pd.DataFrame):
@@ -780,12 +814,22 @@ class RandomizedSearchCV(BaseTransformer):
         return output_score
-    def _get_model_signatures(self, dataset: Union[DataFrame, pd.DataFrame]) -> None:
+    def to_sklearn(self) -> sklearn.model_selection.RandomizedSearchCV:
+        """
+        Get sklearn.model_selection.RandomizedSearchCV object.
+        """
+        assert self._sklearn_object is not None
+        return self._sklearn_object
+    def _get_dependencies(self) -> List[str]:
+        return self._deps
+    def _generate_model_signatures(self, dataset: Union[DataFrame, pd.DataFrame]) -> None:
         self._model_signature_dict = dict()
         PROB_FUNCTIONS = ["predict_log_proba", "predict_proba", "decision_function"]
-        inputs = list(_infer_signature(dataset[self.input_cols], "input"))
+        inputs = list(_infer_signature(dataset[self.input_cols], "input", use_snowflake_identifiers=True))
         outputs: List[BaseFeatureSpec] = []
         if hasattr(self, "predict"):
             # keep mypy happy
@@ -793,18 +837,20 @@ class RandomizedSearchCV(BaseTransformer):
             # For classifier, the type of predict is the same as the type of label
             if self._sklearn_object._estimator_type == "classifier":
                 # label columns is the desired type for output
-                outputs = list(_infer_signature(dataset[self.label_cols], "output"))
+                outputs = list(_infer_signature(dataset[self.label_cols], "output", use_snowflake_identifiers=True))
                 # rename the output columns
                 outputs = list(model_signature_utils.rename_features(outputs, self.output_cols))
                 self._model_signature_dict["predict"] = ModelSignature(
                     inputs, ([] if self._drop_input_cols else inputs) + outputs
                 )
             # For regressor, the type of predict is float64
             elif self._sklearn_object._estimator_type == "regressor":
                 outputs = [FeatureSpec(dtype=DataType.DOUBLE, name=c) for c in self.output_cols]
                 self._model_signature_dict["predict"] = ModelSignature(
                     inputs, ([] if self._drop_input_cols else inputs) + outputs
                 )
         for prob_func in PROB_FUNCTIONS:
             if hasattr(self, prob_func):
                 output_cols_prefix: str = f"{prob_func}_"
@@ -814,6 +860,12 @@ class RandomizedSearchCV(BaseTransformer):
                     inputs, ([] if self._drop_input_cols else inputs) + outputs
                 )
+        # Output signature names may still need to be renamed, since they were not created with `_infer_signature`.
+        items = list(self._model_signature_dict.items())
+        for method, signature in items:
+            signature._outputs = _rename_signature_with_snowflake_identifiers(signature._outputs)
+            self._model_signature_dict[method] = signature
     @property
     def model_signatures(self) -> Dict[str, ModelSignature]:
         """Returns model signature of current class.
@@ -822,7 +874,7 @@ class RandomizedSearchCV(BaseTransformer):
             SnowflakeMLException: If estimator is not fitted, then model signature cannot be inferred
         Returns:
-            Dict[str, ModelSignature]: each method and its input output signature
+            each method and its input output signature
         """
         if self._model_signature_dict is None:
             raise exceptions.SnowflakeMLException(
@@ -830,13 +882,3 @@ class RandomizedSearchCV(BaseTransformer):
                 original_exception=RuntimeError("Estimator not fitted before accessing property model_signatures!"),
             )
         return self._model_signature_dict
-    def to_sklearn(self) -> sklearn.model_selection.RandomizedSearchCV:
-        """
-        Get sklearn.model_selection.RandomizedSearchCV object.
-        """
-        assert self._sklearn_object is not None
-        return self._sklearn_object
-    def _get_dependencies(self) -> List[str]:
-        return self._deps

snowflake-ml-python 1.4.0__py3-none-any.whl → 1.5.0__py3-none-any.whl

snowflake-ml-python 1.4.0py3-none-any.whl → 1.5.0py3-none-any.whl