PyPI - snowflake-ml-python - Versions diffs - 1.5.1__py3-none-any.whl → 1.5.3__py3-none-any.whl - Mend

snowflake-ml-python 1.5.1py3-none-any.whl → 1.5.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

snowflake/ml/modeling/_internal/snowpark_implementations/snowpark_trainer.py CHANGED Viewed

@@ -17,30 +17,19 @@ from snowflake.ml._internal.utils import (
     identifier,
     pkg_version_utils,
     snowpark_dataframe_utils,
+    temp_file_utils,
 )
-from snowflake.ml._internal.utils.query_result_checker import SqlResultValidator
-from snowflake.ml._internal.utils.temp_file_utils import (
-    cleanup_temp_files,
-    get_temp_file_path,
-)
+from snowflake.ml.modeling._internal import estimator_utils
 from snowflake.ml.modeling._internal.estimator_utils import handle_inference_result
 from snowflake.ml.modeling._internal.model_specifications import (
     ModelSpecifications,
     ModelSpecificationsBuilder,
 )
-from snowflake.snowpark import (
-    DataFrame,
-    Session,
-    exceptions as snowpark_exceptions,
-    functions as F,
-)
-from snowflake.snowpark._internal.utils import (
-    TempObjectType,
-    random_name_for_temp_object,
-)
+from snowflake.snowpark import DataFrame, Session, exceptions as snowpark_exceptions
+from snowflake.snowpark._internal import utils as snowpark_utils
 from snowflake.snowpark.stored_procedure import StoredProcedure
-cp.register_pickle_by_value(inspect.getmodule(get_temp_file_path))
+cp.register_pickle_by_value(inspect.getmodule(temp_file_utils.get_temp_file_path))
 cp.register_pickle_by_value(inspect.getmodule(identifier.get_inferred_name))
 cp.register_pickle_by_value(inspect.getmodule(handle_inference_result))
@@ -90,60 +79,6 @@ class SnowparkModelTrainer:
         self._subproject = subproject
         self._class_name = estimator.__class__.__name__
-    def _create_temp_stage(self) -> str:
-        """
-        Creates temporary stage.
-        Returns:
-            Temp stage name.
-        """
-        # Create temp stage to upload pickled model file.
-        transform_stage_name = random_name_for_temp_object(TempObjectType.STAGE)
-        stage_creation_query = f"CREATE OR REPLACE TEMPORARY STAGE {transform_stage_name};"
-        SqlResultValidator(session=self.session, query=stage_creation_query).has_dimensions(
-            expected_rows=1, expected_cols=1
-        ).validate()
-        return transform_stage_name
-    def _upload_model_to_stage(self, stage_name: str) -> Tuple[str, str]:
-        """
-        Util method to pickle and upload the model to a temp Snowflake stage.
-        Args:
-            stage_name: Stage name to save model.
-        Returns:
-            a tuple containing stage file paths for pickled input model for training and location to store trained
-            models(response from training sproc).
-        """
-        # Create a temp file and dump the transform to that file.
-        local_transform_file_name = get_temp_file_path()
-        with open(local_transform_file_name, mode="w+b") as local_transform_file:
-            cp.dump(self.estimator, local_transform_file)
-        # Use posixpath to construct stage paths
-        stage_transform_file_name = posixpath.join(stage_name, os.path.basename(local_transform_file_name))
-        stage_result_file_name = posixpath.join(stage_name, os.path.basename(local_transform_file_name))
-        statement_params = telemetry.get_function_usage_statement_params(
-            project=_PROJECT,
-            subproject=self._subproject,
-            function_name=telemetry.get_statement_params_full_func_name(inspect.currentframe(), self._class_name),
-            api_calls=[F.sproc],
-            custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
-        )
-        # Put locally serialized transform on stage.
-        self.session.file.put(
-            local_transform_file_name,
-            stage_transform_file_name,
-            auto_compress=False,
-            overwrite=True,
-            statement_params=statement_params,
-        )
-        cleanup_temp_files([local_transform_file_name])
-        return (stage_transform_file_name, stage_result_file_name)
     def _fetch_model_from_stage(self, dir_path: str, file_name: str, statement_params: Dict[str, str]) -> object:
         """
         Downloads the serialized model from a stage location and unpickles it.
@@ -156,7 +91,7 @@ class SnowparkModelTrainer:
         Returns:
             Deserialized model object.
         """
-        local_result_file_name = get_temp_file_path()
+        local_result_file_name = temp_file_utils.get_temp_file_path()
         self.session.file.get(
             posixpath.join(dir_path, file_name),
             local_result_file_name,
@@ -166,13 +101,13 @@ class SnowparkModelTrainer:
         with open(os.path.join(local_result_file_name, file_name), mode="r+b") as result_file_obj:
             fit_estimator = cp.load(result_file_obj)
-        cleanup_temp_files([local_result_file_name])
+        temp_file_utils.cleanup_temp_files([local_result_file_name])
         return fit_estimator
     def _build_fit_wrapper_sproc(
         self,
         model_spec: ModelSpecifications,
-    ) -> Callable[[Any, List[str], str, str, List[str], List[str], Optional[str], Dict[str, str]], str]:
+    ) -> Callable[[Any, List[str], str, List[str], List[str], Optional[str], Dict[str, str]], str]:
         """
         Constructs and returns a python stored procedure function to be used for training model.
@@ -188,8 +123,7 @@ class SnowparkModelTrainer:
         def fit_wrapper_function(
             session: Session,
             sql_queries: List[str],
-            stage_transform_file_name: str,
-            stage_result_file_name: str,
+            temp_stage_name: str,
             input_cols: List[str],
             label_cols: List[str],
             sample_weight_col: Optional[str],
@@ -212,9 +146,13 @@ class SnowparkModelTrainer:
             df: pd.DataFrame = sp_df.to_pandas(statement_params=statement_params)
             df.columns = sp_df.columns
-            local_transform_file_name = get_temp_file_path()
+            local_transform_file_name = temp_file_utils.get_temp_file_path()
-            session.file.get(stage_transform_file_name, local_transform_file_name, statement_params=statement_params)
+            session.file.get(
+                stage_location=temp_stage_name,
+                target_directory=local_transform_file_name,
+                statement_params=statement_params,
+            )
             local_transform_file_path = os.path.join(
                 local_transform_file_name, os.listdir(local_transform_file_name)[0]
@@ -233,14 +171,14 @@ class SnowparkModelTrainer:
             estimator.fit(**args)
-            local_result_file_name = get_temp_file_path()
+            local_result_file_name = temp_file_utils.get_temp_file_path()
             with open(local_result_file_name, mode="w+b") as local_result_file_obj:
                 cp.dump(estimator, local_result_file_obj)
             session.file.put(
-                local_result_file_name,
-                stage_result_file_name,
+                local_file_name=local_result_file_name,
+                stage_location=temp_stage_name,
                 auto_compress=False,
                 overwrite=True,
                 statement_params=statement_params,
@@ -254,7 +192,7 @@ class SnowparkModelTrainer:
     def _get_fit_wrapper_sproc_anonymous(self, statement_params: Dict[str, str]) -> StoredProcedure:
         model_spec = ModelSpecificationsBuilder.build(model=self.estimator)
-        fit_sproc_name = random_name_for_temp_object(TempObjectType.PROCEDURE)
+        fit_sproc_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.PROCEDURE)
         relaxed_dependencies = pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
             pkg_versions=model_spec.pkgDependencies, session=self.session
@@ -284,7 +222,7 @@ class SnowparkModelTrainer:
             fit_sproc: StoredProcedure = self.session._FIT_WRAPPER_SPROCS[fit_sproc_key]  # type: ignore[attr-defined]
             return fit_sproc
-        fit_sproc_name = random_name_for_temp_object(TempObjectType.PROCEDURE)
+        fit_sproc_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.PROCEDURE)
         relaxed_dependencies = pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
             pkg_versions=model_spec.pkgDependencies, session=self.session
@@ -307,7 +245,7 @@ class SnowparkModelTrainer:
     def _build_fit_predict_wrapper_sproc(
         self,
         model_spec: ModelSpecifications,
-    ) -> Callable[[Session, List[str], str, str, List[str], Dict[str, str], bool, List[str], str], str]:
+    ) -> Callable[[Session, List[str], str, List[str], Dict[str, str], bool, List[str], str], str]:
         """
         Constructs and returns a python stored procedure function to be used for training model.
@@ -323,8 +261,7 @@ class SnowparkModelTrainer:
         def fit_predict_wrapper_function(
             session: Session,
             sql_queries: List[str],
-            stage_transform_file_name: str,
-            stage_result_file_name: str,
+            temp_stage_name: str,
             input_cols: List[str],
             statement_params: Dict[str, str],
             drop_input_cols: bool,
@@ -347,9 +284,13 @@ class SnowparkModelTrainer:
             df: pd.DataFrame = sp_df.to_pandas(statement_params=statement_params)
             df.columns = sp_df.columns
-            local_transform_file_name = get_temp_file_path()
+            local_transform_file_name = temp_file_utils.get_temp_file_path()
-            session.file.get(stage_transform_file_name, local_transform_file_name, statement_params=statement_params)
+            session.file.get(
+                stage_location=temp_stage_name,
+                target_directory=local_transform_file_name,
+                statement_params=statement_params,
+            )
             local_transform_file_path = os.path.join(
                 local_transform_file_name, os.listdir(local_transform_file_name)[0]
@@ -359,14 +300,14 @@ class SnowparkModelTrainer:
             fit_predict_result = estimator.fit_predict(X=df[input_cols])
-            local_result_file_name = get_temp_file_path()
+            local_result_file_name = temp_file_utils.get_temp_file_path()
             with open(local_result_file_name, mode="w+b") as local_result_file_obj:
                 cp.dump(estimator, local_result_file_obj)
             session.file.put(
-                local_result_file_name,
-                stage_result_file_name,
+                local_file_name=local_result_file_name,
+                stage_location=temp_stage_name,
                 auto_compress=False,
                 overwrite=True,
                 statement_params=statement_params,
@@ -407,7 +348,6 @@ class SnowparkModelTrainer:
             Session,
             List[str],
             str,
-            str,
             List[str],
             Optional[List[str]],
             Optional[str],
@@ -433,8 +373,7 @@ class SnowparkModelTrainer:
         def fit_transform_wrapper_function(
             session: Session,
             sql_queries: List[str],
-            stage_transform_file_name: str,
-            stage_result_file_name: str,
+            temp_stage_name: str,
             input_cols: List[str],
             label_cols: Optional[List[str]],
             sample_weight_col: Optional[str],
@@ -459,9 +398,13 @@ class SnowparkModelTrainer:
             df: pd.DataFrame = sp_df.to_pandas(statement_params=statement_params)
             df.columns = sp_df.columns
-            local_transform_file_name = get_temp_file_path()
+            local_transform_file_name = temp_file_utils.get_temp_file_path()
-            session.file.get(stage_transform_file_name, local_transform_file_name, statement_params=statement_params)
+            session.file.get(
+                stage_location=temp_stage_name,
+                target_directory=local_transform_file_name,
+                statement_params=statement_params,
+            )
             local_transform_file_path = os.path.join(
                 local_transform_file_name, os.listdir(local_transform_file_name)[0]
@@ -480,14 +423,14 @@ class SnowparkModelTrainer:
             fit_transform_result = estimator.fit_transform(**args)
-            local_result_file_name = get_temp_file_path()
+            local_result_file_name = temp_file_utils.get_temp_file_path()
             with open(local_result_file_name, mode="w+b") as local_result_file_obj:
                 cp.dump(estimator, local_result_file_obj)
             session.file.put(
-                local_result_file_name,
-                stage_result_file_name,
+                local_file_name=local_result_file_name,
+                stage_location=temp_stage_name,
                 auto_compress=False,
                 overwrite=True,
                 statement_params=statement_params,
@@ -535,7 +478,7 @@ class SnowparkModelTrainer:
     def _get_fit_predict_wrapper_sproc_anonymous(self, statement_params: Dict[str, str]) -> StoredProcedure:
         model_spec = ModelSpecificationsBuilder.build(model=self.estimator)
-        fit_predict_sproc_name = random_name_for_temp_object(TempObjectType.PROCEDURE)
+        fit_predict_sproc_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.PROCEDURE)
         relaxed_dependencies = pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
             pkg_versions=model_spec.pkgDependencies, session=self.session
@@ -567,7 +510,7 @@ class SnowparkModelTrainer:
             ]
             return fit_sproc
-        fit_predict_sproc_name = random_name_for_temp_object(TempObjectType.PROCEDURE)
+        fit_predict_sproc_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.PROCEDURE)
         relaxed_dependencies = pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
             pkg_versions=model_spec.pkgDependencies, session=self.session
@@ -592,7 +535,7 @@ class SnowparkModelTrainer:
     def _get_fit_transform_wrapper_sproc_anonymous(self, statement_params: Dict[str, str]) -> StoredProcedure:
         model_spec = ModelSpecificationsBuilder.build(model=self.estimator)
-        fit_transform_sproc_name = random_name_for_temp_object(TempObjectType.PROCEDURE)
+        fit_transform_sproc_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.PROCEDURE)
         relaxed_dependencies = pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
             pkg_versions=model_spec.pkgDependencies, session=self.session
@@ -623,7 +566,7 @@ class SnowparkModelTrainer:
             ]
             return fit_sproc
-        fit_transform_sproc_name = random_name_for_temp_object(TempObjectType.PROCEDURE)
+        fit_transform_sproc_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.PROCEDURE)
         relaxed_dependencies = pkg_version_utils.get_valid_pkg_versions_supported_in_snowflake_conda_channel(
             pkg_versions=model_spec.pkgDependencies, session=self.session
@@ -663,19 +606,21 @@ class SnowparkModelTrainer:
         # Extract query that generated the dataframe. We will need to pass it to the fit procedure.
         queries = dataset.queries["queries"]
-        transform_stage_name = self._create_temp_stage()
-        (stage_transform_file_name, stage_result_file_name) = self._upload_model_to_stage(
-            stage_name=transform_stage_name
-        )
-        # Call fit sproc
+        temp_stage_name = estimator_utils.create_temp_stage(self.session)
         statement_params = telemetry.get_function_usage_statement_params(
             project=_PROJECT,
             subproject=self._subproject,
             function_name=telemetry.get_statement_params_full_func_name(inspect.currentframe(), self._class_name),
             api_calls=[Session.call],
-            custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
+            custom_tags={"autogen": True} if self._autogenerated else None,
         )
+        estimator_utils.upload_model_to_stage(
+            stage_name=temp_stage_name,
+            estimator=self.estimator,
+            session=self.session,
+            statement_params=statement_params,
+        )
+        # Call fit sproc
         if _ENABLE_ANONYMOUS_SPROC:
             fit_wrapper_sproc = self._get_fit_wrapper_sproc_anonymous(statement_params=statement_params)
@@ -686,8 +631,7 @@ class SnowparkModelTrainer:
             sproc_export_file_name: str = fit_wrapper_sproc(
                 self.session,
                 queries,
-                stage_transform_file_name,
-                stage_result_file_name,
+                temp_stage_name,
                 self.input_cols,
                 self.label_cols,
                 self.sample_weight_col,
@@ -706,7 +650,7 @@ class SnowparkModelTrainer:
             sproc_export_file_name = fields[0]
         return self._fetch_model_from_stage(
-            dir_path=stage_result_file_name,
+            dir_path=temp_stage_name,
             file_name=sproc_export_file_name,
             statement_params=statement_params,
         )
@@ -734,32 +678,34 @@ class SnowparkModelTrainer:
         # Extract query that generated the dataframe. We will need to pass it to the fit procedure.
         queries = dataset.queries["queries"]
-        transform_stage_name = self._create_temp_stage()
-        (stage_transform_file_name, stage_result_file_name) = self._upload_model_to_stage(
-            stage_name=transform_stage_name
-        )
-        # Call fit sproc
         statement_params = telemetry.get_function_usage_statement_params(
             project=_PROJECT,
             subproject=self._subproject,
             function_name=telemetry.get_statement_params_full_func_name(inspect.currentframe(), self._class_name),
             api_calls=[Session.call],
-            custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
+            custom_tags={"autogen": True} if self._autogenerated else None,
         )
+        temp_stage_name = estimator_utils.create_temp_stage(self.session)
+        estimator_utils.upload_model_to_stage(
+            stage_name=temp_stage_name,
+            estimator=self.estimator,
+            session=self.session,
+            statement_params=statement_params,
+        )
+        # Call fit sproc
         if _ENABLE_ANONYMOUS_SPROC:
             fit_predict_wrapper_sproc = self._get_fit_predict_wrapper_sproc_anonymous(statement_params=statement_params)
         else:
             fit_predict_wrapper_sproc = self._get_fit_predict_wrapper_sproc(statement_params=statement_params)
-        fit_predict_result_name = random_name_for_temp_object(TempObjectType.TABLE)
+        fit_predict_result_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.TABLE)
         sproc_export_file_name: str = fit_predict_wrapper_sproc(
             self.session,
             queries,
-            stage_transform_file_name,
-            stage_result_file_name,
+            temp_stage_name,
             self.input_cols,
             statement_params,
             drop_input_cols,
@@ -769,7 +715,7 @@ class SnowparkModelTrainer:
         output_result_sp = self.session.table(fit_predict_result_name)
         fitted_estimator = self._fetch_model_from_stage(
-            dir_path=stage_result_file_name,
+            dir_path=temp_stage_name,
             file_name=sproc_export_file_name,
             statement_params=statement_params,
         )
@@ -799,20 +745,23 @@ class SnowparkModelTrainer:
         # Extract query that generated the dataframe. We will need to pass it to the fit procedure.
         queries = dataset.queries["queries"]
-        transform_stage_name = self._create_temp_stage()
-        (stage_transform_file_name, stage_result_file_name) = self._upload_model_to_stage(
-            stage_name=transform_stage_name
-        )
-        # Call fit sproc
         statement_params = telemetry.get_function_usage_statement_params(
             project=_PROJECT,
             subproject=self._subproject,
             function_name=telemetry.get_statement_params_full_func_name(inspect.currentframe(), self._class_name),
             api_calls=[Session.call],
-            custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
+            custom_tags={"autogen": True} if self._autogenerated else None,
+        )
+        temp_stage_name = estimator_utils.create_temp_stage(self.session)
+        estimator_utils.upload_model_to_stage(
+            stage_name=temp_stage_name,
+            estimator=self.estimator,
+            session=self.session,
+            statement_params=statement_params,
         )
+        # Call fit sproc
         if _ENABLE_ANONYMOUS_SPROC:
             fit_transform_wrapper_sproc = self._get_fit_transform_wrapper_sproc_anonymous(
                 statement_params=statement_params
@@ -820,13 +769,12 @@ class SnowparkModelTrainer:
         else:
             fit_transform_wrapper_sproc = self._get_fit_transform_wrapper_sproc(statement_params=statement_params)
-        fit_transform_result_name = random_name_for_temp_object(TempObjectType.TABLE)
+        fit_transform_result_name = snowpark_utils.random_name_for_temp_object(snowpark_utils.TempObjectType.TABLE)
         sproc_export_file_name: str = fit_transform_wrapper_sproc(
             self.session,
             queries,
-            stage_transform_file_name,
-            stage_result_file_name,
+            temp_stage_name,
             self.input_cols,
             self.label_cols,
             self.sample_weight_col,
@@ -838,7 +786,7 @@ class SnowparkModelTrainer:
         output_result_sp = self.session.table(fit_transform_result_name)
         fitted_estimator = self._fetch_model_from_stage(
-            dir_path=stage_result_file_name,
+            dir_path=temp_stage_name,
             file_name=sproc_export_file_name,
             statement_params=statement_params,
         )

snowflake/ml/modeling/_internal/snowpark_implementations/xgboost_external_memory_trainer.py CHANGED Viewed

@@ -13,12 +13,12 @@ from snowflake.ml._internal.exceptions import (
     exceptions,
     modeling_error_messages,
 )
-from snowflake.ml._internal.utils import pkg_version_utils
+from snowflake.ml._internal.utils import pkg_version_utils, temp_file_utils
 from snowflake.ml._internal.utils.query_result_checker import ResultValidator
 from snowflake.ml._internal.utils.snowpark_dataframe_utils import (
     cast_snowpark_dataframe,
 )
-from snowflake.ml._internal.utils.temp_file_utils import get_temp_file_path
+from snowflake.ml.modeling._internal import estimator_utils
 from snowflake.ml.modeling._internal.model_specifications import (
     ModelSpecifications,
     ModelSpecificationsBuilder,
@@ -306,8 +306,6 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
         )  # type: ignore[misc]
         def fit_wrapper_sproc(
             session: Session,
-            stage_transform_file_name: str,
-            stage_result_file_name: str,
             dataset_stage_name: str,
             batch_size: int,
             input_cols: List[str],
@@ -320,9 +318,13 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
             import cloudpickle as cp
-            local_transform_file_name = get_temp_file_path()
+            local_transform_file_name = temp_file_utils.get_temp_file_path()
-            session.file.get(stage_transform_file_name, local_transform_file_name, statement_params=statement_params)
+            session.file.get(
+                stage_location=dataset_stage_name,
+                target_directory=local_transform_file_name,
+                statement_params=statement_params,
+            )
             local_transform_file_path = os.path.join(
                 local_transform_file_name, os.listdir(local_transform_file_name)[0]
@@ -345,13 +347,13 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
                 sample_weight_col=sample_weight_col,
             )
-            local_result_file_name = get_temp_file_path()
+            local_result_file_name = temp_file_utils.get_temp_file_path()
             with open(local_result_file_name, mode="w+b") as local_result_file_obj:
                 cp.dump(estimator, local_result_file_obj)
             session.file.put(
-                local_result_file_name,
-                stage_result_file_name,
+                local_file_name=local_result_file_name,
+                stage_location=dataset_stage_name,
                 auto_compress=False,
                 overwrite=True,
                 statement_params=statement_params,
@@ -394,11 +396,6 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
             SnowflakeMLException: For known types of user and system errors.
             e: For every unexpected exception from SnowflakeClient.
         """
-        temp_stage_name = self._create_temp_stage()
-        (stage_transform_file_name, stage_result_file_name) = self._upload_model_to_stage(stage_name=temp_stage_name)
-        data_file_paths = self._write_training_data_to_stage(dataset_stage_name=temp_stage_name)
-        # Call fit sproc
         statement_params = telemetry.get_function_usage_statement_params(
             project=_PROJECT,
             subproject=self._subproject,
@@ -406,7 +403,16 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
             api_calls=[Session.call],
             custom_tags=None,
         )
+        temp_stage_name = estimator_utils.create_temp_stage(self.session)
+        estimator_utils.upload_model_to_stage(
+            stage_name=temp_stage_name,
+            estimator=self.estimator,
+            session=self.session,
+            statement_params=statement_params,
+        )
+        data_file_paths = self._write_training_data_to_stage(dataset_stage_name=temp_stage_name)
+        # Call fit sproc
         model_spec = ModelSpecificationsBuilder.build(model=self.estimator)
         fit_wrapper = self._get_xgb_external_memory_fit_wrapper_sproc(
             model_spec=model_spec,
@@ -418,8 +424,6 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
         try:
             sproc_export_file_name = fit_wrapper(
                 self.session,
-                stage_transform_file_name,
-                stage_result_file_name,
                 temp_stage_name,
                 self._batch_size,
                 self.input_cols,
@@ -440,7 +444,7 @@ class XGBoostExternalMemoryTrainer(SnowparkModelTrainer):
             sproc_export_file_name = fields[0]
         return self._fetch_model_from_stage(
-            dir_path=stage_result_file_name,
+            dir_path=temp_stage_name,
             file_name=sproc_export_file_name,
             statement_params=statement_params,
         )

snowflake/ml/modeling/calibration/calibrated_classifier_cv.py CHANGED Viewed

@@ -296,7 +296,7 @@ class CalibratedClassifierCV(BaseTransformer):
                         inspect.currentframe(), CalibratedClassifierCV.__class__.__name__
                     ),
                     api_calls=[Session.call],
-                    custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
+                    custom_tags={"autogen": True} if self._autogenerated else None,
                 )
                 pd_df: pd.DataFrame = dataset.to_pandas(statement_params=statement_params)
                 pd_df.columns = dataset.columns
@@ -629,7 +629,14 @@ class CalibratedClassifierCV(BaseTransformer):
     ) -> List[str]:
         # in case the inferred output column names dimension is different
         # we use one line of snowpark dataframe and put it into sklearn estimator using pandas
-        output_df_pd = getattr(self, method)(dataset.limit(1).to_pandas(), output_cols_prefix)
+        sample_pd_df = dataset.select(self.input_cols).limit(1).to_pandas()
+        # Rename the pandas df column names to snowflake identifiers and reorder columns to match the order
+        # seen during the fit.
+        snowpark_column_names = dataset.select(self.input_cols).columns
+        sample_pd_df.columns = snowpark_column_names
+        output_df_pd = getattr(self, method)(sample_pd_df, output_cols_prefix)
         output_df_columns = list(output_df_pd.columns)
         output_df_columns_set: Set[str] = set(output_df_columns) - set(dataset.columns)
         if self.sample_weight_col:

snowflake/ml/modeling/cluster/affinity_propagation.py CHANGED Viewed

@@ -271,7 +271,7 @@ class AffinityPropagation(BaseTransformer):
                         inspect.currentframe(), AffinityPropagation.__class__.__name__
                     ),
                     api_calls=[Session.call],
-                    custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
+                    custom_tags={"autogen": True} if self._autogenerated else None,
                 )
                 pd_df: pd.DataFrame = dataset.to_pandas(statement_params=statement_params)
                 pd_df.columns = dataset.columns
@@ -606,7 +606,14 @@ class AffinityPropagation(BaseTransformer):
     ) -> List[str]:
         # in case the inferred output column names dimension is different
         # we use one line of snowpark dataframe and put it into sklearn estimator using pandas
-        output_df_pd = getattr(self, method)(dataset.limit(1).to_pandas(), output_cols_prefix)
+        sample_pd_df = dataset.select(self.input_cols).limit(1).to_pandas()
+        # Rename the pandas df column names to snowflake identifiers and reorder columns to match the order
+        # seen during the fit.
+        snowpark_column_names = dataset.select(self.input_cols).columns
+        sample_pd_df.columns = snowpark_column_names
+        output_df_pd = getattr(self, method)(sample_pd_df, output_cols_prefix)
         output_df_columns = list(output_df_pd.columns)
         output_df_columns_set: Set[str] = set(output_df_columns) - set(dataset.columns)
         if self.sample_weight_col:

snowflake/ml/modeling/cluster/agglomerative_clustering.py CHANGED Viewed

@@ -304,7 +304,7 @@ class AgglomerativeClustering(BaseTransformer):
                         inspect.currentframe(), AgglomerativeClustering.__class__.__name__
                     ),
                     api_calls=[Session.call],
-                    custom_tags=dict([("autogen", True)]) if self._autogenerated else None,
+                    custom_tags={"autogen": True} if self._autogenerated else None,
                 )
                 pd_df: pd.DataFrame = dataset.to_pandas(statement_params=statement_params)
                 pd_df.columns = dataset.columns
@@ -637,7 +637,14 @@ class AgglomerativeClustering(BaseTransformer):
     ) -> List[str]:
         # in case the inferred output column names dimension is different
         # we use one line of snowpark dataframe and put it into sklearn estimator using pandas
-        output_df_pd = getattr(self, method)(dataset.limit(1).to_pandas(), output_cols_prefix)
+        sample_pd_df = dataset.select(self.input_cols).limit(1).to_pandas()
+        # Rename the pandas df column names to snowflake identifiers and reorder columns to match the order
+        # seen during the fit.
+        snowpark_column_names = dataset.select(self.input_cols).columns
+        sample_pd_df.columns = snowpark_column_names
+        output_df_pd = getattr(self, method)(sample_pd_df, output_cols_prefix)
         output_df_columns = list(output_df_pd.columns)
         output_df_columns_set: Set[str] = set(output_df_columns) - set(dataset.columns)
         if self.sample_weight_col:

snowflake-ml-python 1.5.1__py3-none-any.whl → 1.5.3__py3-none-any.whl

snowflake-ml-python 1.5.1py3-none-any.whl → 1.5.3py3-none-any.whl