PyPI - teradataml - Versions diffs - 20.0.0.0__py3-none-any.whl → 20.0.0.2__py3-none-any.whl - Mend

teradataml 20.0.0.0py3-none-any.whl → 20.0.0.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of teradataml might be problematic. Click here for more details.

Files changed (263) hide show

teradataml/LICENSE-3RD-PARTY.pdf +0 -0
teradataml/LICENSE.pdf +0 -0
teradataml/README.md +183 -0
teradataml/__init__.py +6 -3
teradataml/_version.py +2 -2
teradataml/analytics/__init__.py +3 -2
teradataml/analytics/analytic_function_executor.py +275 -40
teradataml/analytics/analytic_query_generator.py +92 -0
teradataml/analytics/byom/__init__.py +3 -2
teradataml/analytics/json_parser/metadata.py +1 -0
teradataml/analytics/json_parser/utils.py +17 -21
teradataml/analytics/meta_class.py +40 -1
teradataml/analytics/sqle/DecisionTreePredict.py +1 -1
teradataml/analytics/sqle/__init__.py +10 -2
teradataml/analytics/table_operator/__init__.py +3 -2
teradataml/analytics/uaf/__init__.py +21 -2
teradataml/analytics/utils.py +62 -1
teradataml/analytics/valib.py +1 -1
teradataml/automl/__init__.py +1553 -319
teradataml/automl/custom_json_utils.py +139 -61
teradataml/automl/data_preparation.py +276 -319
teradataml/automl/data_transformation.py +163 -81
teradataml/automl/feature_engineering.py +402 -239
teradataml/automl/feature_exploration.py +9 -2
teradataml/automl/model_evaluation.py +48 -51
teradataml/automl/model_training.py +291 -189
teradataml/catalog/byom.py +8 -8
teradataml/catalog/model_cataloging_utils.py +1 -1
teradataml/clients/auth_client.py +133 -0
teradataml/clients/pkce_client.py +1 -1
teradataml/common/aed_utils.py +3 -2
teradataml/common/constants.py +48 -6
teradataml/common/deprecations.py +13 -7
teradataml/common/garbagecollector.py +156 -120
teradataml/common/messagecodes.py +6 -1
teradataml/common/messages.py +3 -1
teradataml/common/sqlbundle.py +1 -1
teradataml/common/utils.py +103 -11
teradataml/common/wrapper_utils.py +1 -1
teradataml/context/context.py +121 -31
teradataml/data/advertising.csv +201 -0
teradataml/data/bank_marketing.csv +11163 -0
teradataml/data/bike_sharing.csv +732 -0
teradataml/data/boston2cols.csv +721 -0
teradataml/data/breast_cancer.csv +570 -0
teradataml/data/complaints_test_tokenized.csv +353 -0
teradataml/data/complaints_tokens_model.csv +348 -0
teradataml/data/covid_confirm_sd.csv +83 -0
teradataml/data/customer_segmentation_test.csv +2628 -0
teradataml/data/customer_segmentation_train.csv +8069 -0
teradataml/data/dataframe_example.json +10 -0
teradataml/data/docs/sqle/docs_17_10/OneHotEncodingFit.py +3 -1
teradataml/data/docs/sqle/docs_17_10/OneHotEncodingTransform.py +6 -0
teradataml/data/docs/sqle/docs_17_10/OutlierFilterTransform.py +5 -1
teradataml/data/docs/sqle/docs_17_20/ANOVA.py +61 -1
teradataml/data/docs/sqle/docs_17_20/CFilter.py +132 -0
teradataml/data/docs/sqle/docs_17_20/ColumnTransformer.py +2 -0
teradataml/data/docs/sqle/docs_17_20/FTest.py +105 -26
teradataml/data/docs/sqle/docs_17_20/GLM.py +162 -1
teradataml/data/docs/sqle/docs_17_20/GetFutileColumns.py +5 -3
teradataml/data/docs/sqle/docs_17_20/KMeans.py +48 -1
teradataml/data/docs/sqle/docs_17_20/NaiveBayes.py +162 -0
teradataml/data/docs/sqle/docs_17_20/NonLinearCombineFit.py +3 -2
teradataml/data/docs/sqle/docs_17_20/OneHotEncodingFit.py +5 -0
teradataml/data/docs/sqle/docs_17_20/OneHotEncodingTransform.py +6 -0
teradataml/data/docs/sqle/docs_17_20/OutlierFilterFit.py +2 -0
teradataml/data/docs/sqle/docs_17_20/Pivoting.py +279 -0
teradataml/data/docs/sqle/docs_17_20/ROC.py +3 -2
teradataml/data/docs/sqle/docs_17_20/SVMPredict.py +13 -2
teradataml/data/docs/sqle/docs_17_20/ScaleFit.py +119 -1
teradataml/data/docs/sqle/docs_17_20/ScaleTransform.py +93 -1
teradataml/data/docs/sqle/docs_17_20/Shap.py +197 -0
teradataml/data/docs/sqle/docs_17_20/TDGLMPredict.py +163 -1
teradataml/data/docs/sqle/docs_17_20/TDNaiveBayesPredict.py +189 -0
teradataml/data/docs/sqle/docs_17_20/TFIDF.py +142 -0
teradataml/data/docs/sqle/docs_17_20/Unpivoting.py +216 -0
teradataml/data/docs/sqle/docs_17_20/XGBoost.py +12 -4
teradataml/data/docs/sqle/docs_17_20/XGBoostPredict.py +7 -1
teradataml/data/docs/sqle/docs_17_20/ZTest.py +72 -7
teradataml/data/docs/uaf/docs_17_20/ACF.py +1 -10
teradataml/data/docs/uaf/docs_17_20/ArimaEstimate.py +1 -1
teradataml/data/docs/uaf/docs_17_20/ArimaForecast.py +35 -5
teradataml/data/docs/uaf/docs_17_20/ArimaValidate.py +3 -1
teradataml/data/docs/uaf/docs_17_20/ArimaXEstimate.py +293 -0
teradataml/data/docs/uaf/docs_17_20/AutoArima.py +354 -0
teradataml/data/docs/uaf/docs_17_20/BreuschGodfrey.py +3 -2
teradataml/data/docs/uaf/docs_17_20/BreuschPaganGodfrey.py +1 -1
teradataml/data/docs/uaf/docs_17_20/Convolve.py +13 -10
teradataml/data/docs/uaf/docs_17_20/Convolve2.py +4 -1
teradataml/data/docs/uaf/docs_17_20/CumulPeriodogram.py +5 -4
teradataml/data/docs/uaf/docs_17_20/DFFT2Conv.py +4 -4
teradataml/data/docs/uaf/docs_17_20/DWT.py +235 -0
teradataml/data/docs/uaf/docs_17_20/DWT2D.py +214 -0
teradataml/data/docs/uaf/docs_17_20/DurbinWatson.py +1 -1
teradataml/data/docs/uaf/docs_17_20/ExtractResults.py +1 -1
teradataml/data/docs/uaf/docs_17_20/FilterFactory1d.py +160 -0
teradataml/data/docs/uaf/docs_17_20/GenseriesSinusoids.py +1 -1
teradataml/data/docs/uaf/docs_17_20/GoldfeldQuandt.py +9 -31
teradataml/data/docs/uaf/docs_17_20/HoltWintersForecaster.py +4 -2
teradataml/data/docs/uaf/docs_17_20/IDFFT2.py +1 -8
teradataml/data/docs/uaf/docs_17_20/IDWT.py +236 -0
teradataml/data/docs/uaf/docs_17_20/IDWT2D.py +226 -0
teradataml/data/docs/uaf/docs_17_20/IQR.py +134 -0
teradataml/data/docs/uaf/docs_17_20/LineSpec.py +1 -1
teradataml/data/docs/uaf/docs_17_20/LinearRegr.py +2 -2
teradataml/data/docs/uaf/docs_17_20/MAMean.py +3 -3
teradataml/data/docs/uaf/docs_17_20/Matrix2Image.py +297 -0
teradataml/data/docs/uaf/docs_17_20/MatrixMultiply.py +15 -6
teradataml/data/docs/uaf/docs_17_20/PACF.py +0 -1
teradataml/data/docs/uaf/docs_17_20/Portman.py +2 -2
teradataml/data/docs/uaf/docs_17_20/PowerSpec.py +2 -2
teradataml/data/docs/uaf/docs_17_20/Resample.py +9 -1
teradataml/data/docs/uaf/docs_17_20/SAX.py +246 -0
teradataml/data/docs/uaf/docs_17_20/SeasonalNormalize.py +17 -10
teradataml/data/docs/uaf/docs_17_20/SignifPeriodicities.py +1 -1
teradataml/data/docs/uaf/docs_17_20/WhitesGeneral.py +3 -1
teradataml/data/docs/uaf/docs_17_20/WindowDFFT.py +368 -0
teradataml/data/dwt2d_dataTable.csv +65 -0
teradataml/data/dwt_dataTable.csv +8 -0
teradataml/data/dwt_filterTable.csv +3 -0
teradataml/data/finance_data4.csv +13 -0
teradataml/data/glm_example.json +28 -1
teradataml/data/grocery_transaction.csv +19 -0
teradataml/data/housing_train_segment.csv +201 -0
teradataml/data/idwt2d_dataTable.csv +5 -0
teradataml/data/idwt_dataTable.csv +8 -0
teradataml/data/idwt_filterTable.csv +3 -0
teradataml/data/insect2Cols.csv +61 -0
teradataml/data/interval_data.csv +5 -0
teradataml/data/jsons/paired_functions.json +14 -0
teradataml/data/jsons/sqle/17.20/TD_ANOVA.json +99 -27
teradataml/data/jsons/sqle/17.20/TD_CFilter.json +118 -0
teradataml/data/jsons/sqle/17.20/TD_FTest.json +166 -83
teradataml/data/jsons/sqle/17.20/TD_GLM.json +90 -14
teradataml/data/jsons/sqle/17.20/TD_GLMPREDICT.json +48 -5
teradataml/data/jsons/sqle/17.20/TD_GetFutileColumns.json +5 -3
teradataml/data/jsons/sqle/17.20/TD_KMeans.json +31 -11
teradataml/data/jsons/sqle/17.20/TD_NaiveBayes.json +193 -0
teradataml/data/jsons/sqle/17.20/TD_NaiveBayesPredict.json +212 -0
teradataml/data/jsons/sqle/17.20/TD_NonLinearCombineFit.json +3 -2
teradataml/data/jsons/sqle/17.20/TD_OneClassSVM.json +9 -9
teradataml/data/jsons/sqle/17.20/TD_Pivoting.json +280 -0
teradataml/data/jsons/sqle/17.20/TD_ROC.json +2 -1
teradataml/data/jsons/sqle/17.20/TD_SVM.json +16 -16
teradataml/data/jsons/sqle/17.20/TD_SVMPredict.json +19 -1
teradataml/data/jsons/sqle/17.20/TD_ScaleFit.json +168 -15
teradataml/data/jsons/sqle/17.20/TD_ScaleTransform.json +50 -1
teradataml/data/jsons/sqle/17.20/TD_Shap.json +222 -0
teradataml/data/jsons/sqle/17.20/TD_TFIDF.json +162 -0
teradataml/data/jsons/sqle/17.20/TD_Unpivoting.json +235 -0
teradataml/data/jsons/sqle/17.20/TD_XGBoost.json +25 -7
teradataml/data/jsons/sqle/17.20/TD_XGBoostPredict.json +17 -4
teradataml/data/jsons/sqle/17.20/TD_ZTest.json +157 -80
teradataml/data/jsons/storedprocedure/17.20/TD_FILTERFACTORY1D.json +150 -0
teradataml/data/jsons/uaf/17.20/TD_ACF.json +1 -18
teradataml/data/jsons/uaf/17.20/TD_ARIMAESTIMATE.json +3 -16
teradataml/data/jsons/uaf/17.20/TD_ARIMAFORECAST.json +0 -3
teradataml/data/jsons/uaf/17.20/TD_ARIMAVALIDATE.json +5 -3
teradataml/data/jsons/uaf/17.20/TD_ARIMAXESTIMATE.json +362 -0
teradataml/data/jsons/uaf/17.20/TD_AUTOARIMA.json +469 -0
teradataml/data/jsons/uaf/17.20/TD_BINARYMATRIXOP.json +0 -3
teradataml/data/jsons/uaf/17.20/TD_BINARYSERIESOP.json +0 -2
teradataml/data/jsons/uaf/17.20/TD_BREUSCH_GODFREY.json +2 -1
teradataml/data/jsons/uaf/17.20/TD_BREUSCH_PAGAN_GODFREY.json +2 -5
teradataml/data/jsons/uaf/17.20/TD_CONVOLVE.json +3 -6
teradataml/data/jsons/uaf/17.20/TD_CONVOLVE2.json +1 -3
teradataml/data/jsons/uaf/17.20/TD_CUMUL_PERIODOGRAM.json +0 -5
teradataml/data/jsons/uaf/17.20/TD_DFFT.json +1 -4
teradataml/data/jsons/uaf/17.20/TD_DFFT2.json +2 -7
teradataml/data/jsons/uaf/17.20/TD_DFFT2CONV.json +1 -2
teradataml/data/jsons/uaf/17.20/TD_DFFTCONV.json +0 -2
teradataml/data/jsons/uaf/17.20/TD_DTW.json +3 -6
teradataml/data/jsons/uaf/17.20/TD_DWT.json +173 -0
teradataml/data/jsons/uaf/17.20/TD_DWT2D.json +160 -0
teradataml/data/jsons/uaf/17.20/TD_FITMETRICS.json +1 -1
teradataml/data/jsons/uaf/17.20/TD_GOLDFELD_QUANDT.json +16 -30
teradataml/data/jsons/uaf/17.20/{TD_HOLT_WINTERS_FORECAST.json → TD_HOLT_WINTERS_FORECASTER.json} +1 -2
teradataml/data/jsons/uaf/17.20/TD_IDFFT2.json +1 -15
teradataml/data/jsons/uaf/17.20/TD_IDWT.json +162 -0
teradataml/data/jsons/uaf/17.20/TD_IDWT2D.json +149 -0
teradataml/data/jsons/uaf/17.20/TD_IQR.json +117 -0
teradataml/data/jsons/uaf/17.20/TD_LINEAR_REGR.json +1 -1
teradataml/data/jsons/uaf/17.20/TD_LINESPEC.json +1 -1
teradataml/data/jsons/uaf/17.20/TD_MAMEAN.json +1 -3
teradataml/data/jsons/uaf/17.20/TD_MATRIX2IMAGE.json +209 -0
teradataml/data/jsons/uaf/17.20/TD_PACF.json +2 -2
teradataml/data/jsons/uaf/17.20/TD_POWERSPEC.json +5 -5
teradataml/data/jsons/uaf/17.20/TD_RESAMPLE.json +48 -28
teradataml/data/jsons/uaf/17.20/TD_SAX.json +208 -0
teradataml/data/jsons/uaf/17.20/TD_SEASONALNORMALIZE.json +12 -6
teradataml/data/jsons/uaf/17.20/TD_SIMPLEEXP.json +0 -1
teradataml/data/jsons/uaf/17.20/TD_TRACKINGOP.json +8 -8
teradataml/data/jsons/uaf/17.20/TD_UNDIFF.json +1 -1
teradataml/data/jsons/uaf/17.20/TD_UNNORMALIZE.json +1 -1
teradataml/data/jsons/uaf/17.20/TD_WINDOWDFFT.json +400 -0
teradataml/data/kmeans_example.json +5 -0
teradataml/data/kmeans_table.csv +10 -0
teradataml/data/load_example_data.py +8 -2
teradataml/data/naivebayestextclassifier_example.json +1 -1
teradataml/data/naivebayestextclassifierpredict_example.json +11 -0
teradataml/data/onehot_encoder_train.csv +4 -0
teradataml/data/openml_example.json +29 -0
teradataml/data/peppers.png +0 -0
teradataml/data/real_values.csv +14 -0
teradataml/data/sax_example.json +8 -0
teradataml/data/scale_attributes.csv +3 -0
teradataml/data/scale_example.json +52 -1
teradataml/data/scale_input_part_sparse.csv +31 -0
teradataml/data/scale_input_partitioned.csv +16 -0
teradataml/data/scale_input_sparse.csv +11 -0
teradataml/data/scale_parameters.csv +3 -0
teradataml/data/scripts/deploy_script.py +21 -2
teradataml/data/scripts/sklearn/sklearn_fit.py +40 -37
teradataml/data/scripts/sklearn/sklearn_fit_predict.py +22 -30
teradataml/data/scripts/sklearn/sklearn_function.template +42 -24
teradataml/data/scripts/sklearn/sklearn_model_selection_split.py +23 -33
teradataml/data/scripts/sklearn/sklearn_neighbors.py +19 -28
teradataml/data/scripts/sklearn/sklearn_score.py +32 -32
teradataml/data/scripts/sklearn/sklearn_transform.py +85 -42
teradataml/data/star_pivot.csv +8 -0
teradataml/data/templates/open_source_ml.json +2 -1
teradataml/data/teradataml_example.json +97 -1
teradataml/data/timestamp_data.csv +4 -0
teradataml/data/titanic_dataset_unpivoted.csv +19 -0
teradataml/data/uaf_example.json +55 -1
teradataml/data/unpivot_example.json +15 -0
teradataml/data/url_data.csv +9 -0
teradataml/data/windowdfft.csv +16 -0
teradataml/data/ztest_example.json +16 -0
teradataml/dataframe/copy_to.py +9 -4
teradataml/dataframe/data_transfer.py +125 -64
teradataml/dataframe/dataframe.py +575 -57
teradataml/dataframe/dataframe_utils.py +47 -9
teradataml/dataframe/fastload.py +273 -90
teradataml/dataframe/functions.py +339 -0
teradataml/dataframe/row.py +160 -0
teradataml/dataframe/setop.py +2 -2
teradataml/dataframe/sql.py +740 -18
teradataml/dataframe/window.py +1 -1
teradataml/dbutils/dbutils.py +324 -18
teradataml/geospatial/geodataframe.py +1 -1
teradataml/geospatial/geodataframecolumn.py +1 -1
teradataml/hyperparameter_tuner/optimizer.py +13 -13
teradataml/lib/aed_0_1.dll +0 -0
teradataml/opensource/sklearn/_sklearn_wrapper.py +254 -122
teradataml/options/__init__.py +16 -5
teradataml/options/configure.py +39 -6
teradataml/options/display.py +2 -2
teradataml/plot/axis.py +4 -4
teradataml/scriptmgmt/UserEnv.py +26 -19
teradataml/scriptmgmt/lls_utils.py +120 -16
teradataml/table_operators/Script.py +4 -5
teradataml/table_operators/TableOperator.py +160 -26
teradataml/table_operators/table_operator_util.py +88 -41
teradataml/table_operators/templates/dataframe_udf.template +63 -0
teradataml/telemetry_utils/__init__.py +0 -0
teradataml/telemetry_utils/queryband.py +52 -0
teradataml/utils/validators.py +41 -3
{teradataml-20.0.0.0.dist-info → teradataml-20.0.0.2.dist-info}/METADATA +191 -6
{teradataml-20.0.0.0.dist-info → teradataml-20.0.0.2.dist-info}/RECORD +263 -185
{teradataml-20.0.0.0.dist-info → teradataml-20.0.0.2.dist-info}/WHEEL +0 -0
{teradataml-20.0.0.0.dist-info → teradataml-20.0.0.2.dist-info}/top_level.txt +0 -0
{teradataml-20.0.0.0.dist-info → teradataml-20.0.0.2.dist-info}/zip-safe +0 -0

teradataml/automl/data_transformation.py CHANGED Viewed

@@ -31,6 +31,8 @@ from teradataml import ScaleTransform
 from teradataml import SimpleImputeTransform
 from teradataml import TargetEncodingTransform
 from teradataml import Transform, UtilFuncs, TeradataConstants
+from teradataml.common.garbagecollector import GarbageCollector
+from teradataml.hyperparameter_tuner.utils import _ProgressBar
 # AutoML Internal libraries
 from teradataml.automl.feature_exploration import _FeatureExplore
@@ -58,12 +60,12 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                 Types: teradataml Dataframe
             data_transformation_params:
-                Required Arugment.
+                Required Argument.
                 Specifies the parameters for performing data transformation.
                 Types: dict
             auto:
-                Optional Arugment.
+                Optional Argument.
                 Specifies whether to run AutoML in custom mode or auto mode.
                 When set to False, runs in custom mode. Otherwise, by default runs in auto mode.
                 Default Value: True
@@ -80,7 +82,7 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                 Types: int
             target_column_ind:
-                Optional Arugment.
+                Optional Argument.
                 Specifies whether target column is present in given dataset.
                 Default Value: False
                 Types: bool
@@ -91,6 +93,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         self.verbose = verbose
         self.target_column_ind = target_column_ind
         self.table_name_mapping = table_name_mapping
+        self.data_node_id = data._nodeid
+        self.table_name_mapping[self.data_node_id] = {}
     def data_transformation(self):
         """
@@ -118,6 +122,11 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         # Extracting target column details and type whether it is classification or not
         self.data_target_column = self.data_transformation_params.get("data_target_column")
         self.classification_type = self.data_transformation_params.get("classification_type", False)
+        # Setting number of jobs for progress bar based on mode of execution
+        jobs = 10 if self.auto else 15
+        self.progress_bar = _ProgressBar(jobs=jobs, verbose=2, prefix='Transformation Running:')
         # Performing transformation carried out in feature engineering phase
         self.feature_engineering_transformation()
         # Performing transformation carried out in data preparation phase
@@ -133,27 +142,52 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             on test data using parameters from data_transformation_params.
         """
         self._display_msg(msg="Performing transformation carried out in feature engineering phase ...",
-                          show_data=True)
+                          show_data=True,
+                          progress_bar=self.progress_bar)
         # Performing default transformation for both auto and custom mode
         self._preprocess_transformation()
+        self.progress_bar.update()
         self._futile_column_handling_transformation()
+        self.progress_bar.update()
         # Handling target column transformation
         if self.target_column_ind and self.classification_type:
             self._handle_target_column_transformation()
+        self.progress_bar.update()
         self._date_column_handling_transformation()
+        self.progress_bar.update()
         # Performing transformation according to run mode
         if self.auto:
             self._missing_value_handling_transformation()
+            self.progress_bar.update()
             self._categorical_encoding_transformation()
+            self.progress_bar.update()
         else:
             self._custom_missing_value_handling_transformation()
+            self.progress_bar.update()
             self._custom_bincode_column_transformation()
+            self.progress_bar.update()
             self._custom_string_column_transformation()
+            self.progress_bar.update()
             self._custom_categorical_encoding_transformation()
+            self.progress_bar.update()
             self._custom_mathematical_transformation()
+            self.progress_bar.update()
             self._custom_non_linear_transformation()
+            self.progress_bar.update()
             self._custom_anti_select_column_transformation()
+            self.progress_bar.update()
     def data_preparation_transformation(self):
         """
@@ -162,15 +196,23 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             on test data using parameters from data_transformation_params.
         """
         self._display_msg(msg="Performing transformation carried out in data preparation phase ...",
-                          show_data=True)
+                          show_data=True,
+                          progress_bar=self.progress_bar)
         # Handling features transformed from feature engineering phase
         self._handle_generated_features_transformation()
+        self.progress_bar.update()
         # Performing transformation including feature selection using lasso, rfe and pca
         # followed by scaling
         self._feature_selection_lasso_transformation()
+        self.progress_bar.update()
         self._feature_selection_rfe_transformation()
+        self.progress_bar.update()
         self._feature_selection_pca_transformation()
+        self.progress_bar.update()
     def _preprocess_transformation(self):
         """
@@ -182,7 +224,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         if columns_to_be_removed:
             self.data = self.data.drop(columns_to_be_removed, axis=1)
             self._display_msg(msg="\nUpdated dataset after dropping irrelevent columns :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
         # Adding id column
         self.data = FillRowId(data=self.data, row_id_column='id').result
@@ -197,7 +240,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         if futile_cols:
             self.data = self.data.drop(futile_cols, axis=1)
             self._display_msg(msg="\nUpdated dataset after dropping futile columns :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
     def _date_column_handling_transformation(self):
         """
@@ -205,47 +249,32 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             Function performs transformation on date columns and generates new columns.
         """
         # Extracting date columns
-        date_columns = self.data_transformation_params.get("date_columns",None)
-        if date_columns:
+        self.date_column_list = self.data_transformation_params.get("date_columns",None)
+        if self.date_column_list:
             # Dropping rows with null values in date columns
-            self.data = self.data.dropna(subset=date_columns)
+            self.data = self.data.dropna(subset=self.date_column_list)
             # Extracting unique date columns for dropping
             drop_unique_date_columns = self.data_transformation_params.get("drop_unique_date_columns",None)
             if drop_unique_date_columns:
                 self.data = self.data.drop(drop_unique_date_columns, axis=1)
+                # Updated date column list after dropping irrelevant date columns
+                self.date_column_list = [item for item in self.date_column_list if item not in drop_unique_date_columns]
-            # Extracting date components parameters for new columns generation
-            extract_date_comp_param = self.data_transformation_params.get("extract_date_comp_param",None)
-            extract_date_comp_col = self.data_transformation_params.get("extract_date_comp_col", None)
-            if extract_date_comp_param:
-                self.data=self.data.assign(**extract_date_comp_param)
-                self.data = self.data.drop(extract_date_comp_col, axis=1)
-            # Extracting irrelevant date component columns for dropping
-            drop_extract_date_columns = self.data_transformation_params.get("drop_extract_date_columns", None)
-            if drop_extract_date_columns:
-                self.data = self.data.drop(drop_extract_date_columns, axis=1)
-            # Extracting date component fit objects for bincode transformation
-            day_component_fit_object = self.data_transformation_params.get("day_component_fit_object", None)
-            month_component_fit_object = self.data_transformation_params.get("month_component_fit_object", None)
-            year_diff_component_fit_object = self.data_transformation_params.get("year_diff_component_fit_object", None)
-            # Performing bincode transformation on day, month and year components
-            for fit_object in [day_component_fit_object, month_component_fit_object, year_diff_component_fit_object]:
-                if fit_object:
-                    for col, bin_code_fit in fit_object.items():
-                        accumulate_columns = self._extract_list(self.data.columns, [col])
-                        transform_params = {
-                            "data": self.data,
-                            "object": bin_code_fit,
-                            "accumulate": accumulate_columns,
-                            "persist": True
-                        }
-                        self.data = BincodeTransform(**transform_params).result
-            self._display_msg(msg="\nUpdated dataset after transforming date columns :",
-                              data=self.data)
+            if len(self.date_column_list) != 0:
+                # Extracting date components parameters for new columns generation
+                new_columns=self._fetch_date_component()
+                # Extracting irrelevant date component columns for dropping
+                drop_extract_date_columns = self.data_transformation_params.get("drop_extract_date_columns", None)
+                if drop_extract_date_columns:
+                    self.data = self.data.drop(drop_extract_date_columns, axis=1)
+                    new_columns = [item for item in new_columns if item not in drop_extract_date_columns]
+                self._display_msg(msg='Updated list of newly generated features from existing date features :',
+                                  col_lst=new_columns)
+                self._display_msg(msg="\nUpdated dataset after transforming date columns :",
+                                  data=self.data,
+                                  progress_bar=self.progress_bar)
     def _missing_value_handling_transformation(self):
         """
@@ -257,7 +286,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         if drop_cols:
             self.data = self.data.drop(drop_cols, axis=1)
             self._display_msg(msg="\nUpdated dataset after dropping missing value containing columns : ",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
         # Extracting imputation columns and fit object for missing value imputation
         imputation_cols = self.data_transformation_params.get("imputation_columns", None)
@@ -265,20 +295,22 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             sm_fit_obj = self.data_transformation_params.get("imputation_fit_object")
             # imputing column using fit object
             self.data = SimpleImputeTransform(data=self.data,
-                                            object=sm_fit_obj,
-                                            volatile=True).result
+                                              object=sm_fit_obj).result
             self._display_msg(msg="\nUpdated dataset after imputing missing value containing columns :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
         # Handling rest null, its temporary solution. It subjects to change based on input.
         dropped_data = self.data.dropna()
         dropped_count = self.data.shape[0] - dropped_data.shape[0]
         if dropped_count > 0:
-            self.data = dropped_data
             self._display_msg(msg="\nFound additional {} rows that contain missing values :".format(dropped_count),
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
+            self.data = dropped_data
             self._display_msg(msg="\nUpdated dataset after dropping additional missing value containing rows :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
     def _custom_missing_value_handling_transformation(self):
         """
@@ -291,7 +323,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         if drop_col_list:
             self.data = self.data.drop(drop_col_list, axis=1)
             self._display_msg(msg="\nUpdated dataset after dropping customized missing value containing columns :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
         # Extracting custom imputation columns and fit object for missing value imputation
         custom_imp_ind = self.data_transformation_params.get("custom_imputation_ind", False)
@@ -299,10 +332,10 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             sm_fit_obj = self.data_transformation_params.get("custom_imputation_fit_object")
             # imputing column using fit object
             self.data = SimpleImputeTransform(data=self.data,
-                                            object=sm_fit_obj,
-                                            volatile=True).result
+                                              object=sm_fit_obj).result
             self._display_msg(msg="\nUpdated dataset after imputing customized missing value containing columns :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
         # Handling rest with default missing value handling
         self._missing_value_handling_transformation()
@@ -325,11 +358,15 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     "data" : self.data,
                     "object" : custom_eql_bincode_fit_object,
                     "accumulate" : accumulate_columns,
-                    "persist" : True,
+                    "persist" : True,
+                    "display_table_name" : False
                 }
                 self.data = BincodeTransform(**eql_transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
                 self._display_msg(msg="\nUpdated dataset after performing customized equal width bin-code transformation :",
-                                  data=self.data)
+                                  data=self.data,
+                                  progress_bar=self.progress_bar)
             # Hnadling bincode transformation for Variable-Width
             custom_var_bincode_col = self.data_transformation_params.get("custom_var_bincode_col", None)
@@ -343,11 +380,15 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     "object" : custom_var_bincode_fit_object,
                     "object_order_column" : "TD_MinValue_BINFIT",
                     "accumulate" : accumulate_columns,
-                    "persist" : True
+                    "persist" : True,
+                    "display_table_name" : False
                 }
                 self.data = BincodeTransform(**var_transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
                 self._display_msg(msg="\nUpdated dataset after performing customized variable width bin-code transformation :",
-                                  data=self.data)
+                                  data=self.data,
+                                  progress_bar=self.progress_bar)
     def _custom_string_column_transformation(self):
         """
@@ -362,7 +403,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             for target_col,transform_val in custom_string_manipulation_param.items():
                 self.data = self._str_method_mapping(target_col, transform_val)
             self._display_msg(msg="\nUpdated dataset after performing customized string manipulation :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
     def _categorical_encoding_transformation(self):
         """
@@ -380,14 +422,18 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                         "data" : self.data,
                         "object" : fit_obj,
                         "is_input_dense" : True,
-                        "persist" : True
+                        "persist" : True,
+                        "display_table_name" : False
                     }
                 # Performing one hot encoding transformation
                 self.data = OneHotEncodingTransform(**transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
             # Dropping old columns after encoding
             self.data = self.data.drop(one_hot_encoding_drop_list, axis=1)
             self._display_msg(msg="\nUpdated dataset after performing categorical encoding :",
-                            data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
     def _custom_categorical_encoding_transformation(self):
         """
@@ -408,10 +454,13 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     "data" : self.data,
                     "object" : custom_ord_encoding_fit_obj,
                     "accumulate" : accumulate_columns,
-                    "persist" : True
+                    "persist" : True,
+                    "display_table_name" : False
                 }
                 # Performing ordinal encoding transformation
                 self.data = OrdinalEncodingTransform(**transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
             # Extracting parameters for target encoding
             custom_target_encoding_ind = self.data_transformation_params.get("custom_target_encoding_ind", False)
             custom_target_encoding_fit_obj = self.data_transformation_params.get("custom_target_encoding_fit_obj", None)
@@ -424,12 +473,16 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                         "data" : self.data,
                         "object" : tar_fit_obj,
                         "accumulate" : accumulate_columns,
-                        "persist" : True
+                        "persist" : True,
+                        "display_table_name" : False
                     }
-                    # Performing ordinal encoding transformation
+                    # Performing target encoding transformation
                     self.data = TargetEncodingTransform(**transform_params).result
+                    # Adding transformed data containing table to garbage collector
+                    GarbageCollector._add_to_garbagecollector(self.data._table_name)
             self._display_msg(msg="\nUpdated dataset after performing customized categorical encoding :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
         # Handling rest with default categorical encoding transformation
         self._categorical_encoding_transformation()
@@ -468,12 +521,16 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     "data" : self.data,
                     "object" : custom_numerical_transformation_fit_object,
                     "id_columns" : custom_numerical_transformation_id_columns,
-                    "persist" :True
+                    "persist" :True,
+                    "display_table_name" : False
                 }
                 # Peforming transformation on target columns
                 self.data = Transform(**transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
             self._display_msg(msg="\nUpdated dataset after performing customized mathematical transformation :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
     def _custom_non_linear_transformation(self):
         """
@@ -491,12 +548,16 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     "data" : self.data,
                     "object" : fit_obj,
                     "accumulate" : self.data.columns,
-                    "persist" : True
+                    "persist" : True,
+                    "display_table_name" : False
                 }
                 # Performing transformation
                 self.data = NonLinearCombineTransform(**transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
             self._display_msg(msg="\nUpdated dataset after performing customized non-linear transformation :",
-                              data=self.data)
+                              data=self.data,
+                              progress_bar=self.progress_bar)
     def _custom_anti_select_column_transformation(self):
         """
@@ -516,7 +577,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                 # Performing transformation for given user input
                 self.data = Antiselect(**fit_params).result
                 self._display_msg(msg="\nUpdated dataset after performing customized anti-selection :",
-                                  data=self.data)
+                                  data=self.data,
+                                  progress_bar=self.progress_bar)
     def _handle_generated_features_transformation(self):
         """
@@ -539,8 +601,11 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                 "target_columns" : round_columns,
                 "precision_digit" : 4,
                 "accumulate" : accumulate_columns,
-                "persist" : True}
+                "persist" : True,
+                "display_table_name" : False}
             self.data = RoundColumns(**fit_params).result
+            # Adding transformed data containing table to garbage collector
+            GarbageCollector._add_to_garbagecollector(self.data._table_name)
     def _handle_target_column_transformation(self):
         """
@@ -561,11 +626,13 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     "data" : self.data,
                     "object" : target_col_ord_encoding_fit_obj,
                     "accumulate" : accumulate_columns,
-                    "persist" : True
+                    "persist" : True,
+                    "display_table_name" : False
                 }
                 # Performing ordinal encoding transformation
                 self.data = OrdinalEncodingTransform(**transform_params).result
+                # Adding transformed data containing table to garbage collector
+                GarbageCollector._add_to_garbagecollector(self.data._table_name)
         # Converting target column to integer datatype
         params = {
             "data" : self.data,
@@ -575,7 +642,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         }
         self.data = ConvertTo(**params).result
         self._display_msg(msg="\nUpdated dataset after performing target column transformation :",
-                          data=self.data)
+                          data=self.data,
+                          progress_bar=self.progress_bar)
     def _extract_and_display_features(self, feature_type, feature_list):
         """
@@ -605,7 +673,8 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
         # Displaying feature dataframe
         self._display_msg(msg=f"\nUpdated dataset after performing {feature_type} feature selection:",
-                        data=feature_df)
+                          data=feature_df,
+                          progress_bar=self.progress_bar)
         # Returning feature dataframe
         return feature_df
@@ -631,12 +700,14 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     accumulate=accumulate_cols).result
         # Displaying scaled dataset
         self._display_msg(msg="\nUpdated dataset after performing scaling on Lasso selected features :",
-                          data=lasso_df)
+                          data=lasso_df,
+                          progress_bar=self.progress_bar)
         # Uploading lasso dataset to table for further use
         table_name = UtilFuncs._generate_temp_table_name(prefix="lasso_new_test",
                                                          table_type = TeradataConstants.TERADATA_TABLE)
-        self.table_name_mapping["lasso_new_test"] = table_name
+        # Storing table name mapping for lasso dataset
+        self.table_name_mapping[self.data_node_id]["lasso_new_test"] = table_name
         copy_to_sql(df = lasso_df, table_name= table_name, if_exists="replace")
     def _feature_selection_rfe_transformation(self):
@@ -667,12 +738,14 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     accumulate=accumulate_cols).result
         # Displaying scaled dataset
         self._display_msg(msg="\nUpdated dataset after performing scaling on RFE selected features :",
-                          data=rfe_df)
+                          data=rfe_df,
+                          progress_bar=self.progress_bar)
         # Uploading rfe dataset to table for further use
         table_name = UtilFuncs._generate_temp_table_name(prefix="rfe_new_test",
                                                          table_type = TeradataConstants.TERADATA_TABLE)
-        self.table_name_mapping["rfe_new_test"] = table_name
+        # Storing table name mapping for rfe dataset
+        self.table_name_mapping[self.data_node_id]["rfe_new_test"] = table_name
         copy_to_sql(df = rfe_df, table_name= table_name, if_exists="replace")
     def _feature_selection_pca_transformation(self):
@@ -691,18 +764,25 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
                     accumulate=accumulate_cols).result
         # Displaying scaled dataset
         self._display_msg(msg="\nUpdated dataset after performing scaling for PCA feature selection :",
-                          data=pca_scaled_df)
+                          data=pca_scaled_df,
+                          progress_bar=self.progress_bar)
         # Convert to pandas dataframe for applying pca
         pca_scaled_pd = pca_scaled_df.to_pandas()
         # Extracting pca fit instance for applying pca
         pca_fit_instance = self.data_transformation_params.get("pca_fit_instance", None)
+        # Extracting columns for applying pca
+        pca_fit_columns = self.data_transformation_params.get("pca_fit_columns", None)
         # drop id column and target column if present
         drop_col = ['id']
         if self.target_column_ind:
             drop_col.append(self.data_target_column)
         pca_df = pca_scaled_pd.drop(columns=drop_col, axis=1)
+        # Rearranging columns to match the order used during PCA fitting to
+        # avoid issues during PCA transformation.
+        pca_df = pca_df[pca_fit_columns]
         # Applying pca on scaled dataset
         pca_df = pca_fit_instance.transform(pca_df)
@@ -718,10 +798,12 @@ class _DataTransformation(_FeatureExplore, _FeatureEngineering):
             pca_df[self.data_target_column] = pca_scaled_pd[self.data_target_column].reset_index(drop=True)
         # Displaying pca dataframe
         self._display_msg(msg="\nUpdated dataset after performing PCA feature selection :",
-                          data=pca_df)
+                          data=pca_df.head(10),
+                          progress_bar=self.progress_bar)
         # Uploading pca dataset to table for further use
         table_name = UtilFuncs._generate_temp_table_name(prefix="pca_new_test",
                                                          table_type = TeradataConstants.TERADATA_TABLE)
-        self.table_name_mapping["pca_new_test"] = table_name
+        # Storing table name mapping for pca dataset
+        self.table_name_mapping[self.data_node_id]["pca_new_test"] = table_name
         copy_to_sql(df = pca_df, table_name=table_name, if_exists="replace")

teradataml 20.0.0.0__py3-none-any.whl → 20.0.0.2__py3-none-any.whl

Potentially problematic release.

teradataml 20.0.0.0py3-none-any.whl → 20.0.0.2py3-none-any.whl