PyPI - teradataml - Versions diffs - 17.20.0.6__py3-none-any.whl → 20.0.0.0__py3-none-any.whl - Mend

teradataml 17.20.0.6py3-none-any.whl → 20.0.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of teradataml might be problematic. Click here for more details.

Files changed (432) hide show

teradataml/LICENSE-3RD-PARTY.pdf +0 -0
teradataml/LICENSE.pdf +0 -0
teradataml/README.md +238 -1
teradataml/__init__.py +13 -3
teradataml/_version.py +1 -1
teradataml/analytics/Transformations.py +4 -4
teradataml/analytics/__init__.py +0 -2
teradataml/analytics/analytic_function_executor.py +3 -0
teradataml/analytics/json_parser/utils.py +13 -12
teradataml/analytics/sqle/DecisionTreePredict.py +15 -30
teradataml/analytics/sqle/NaiveBayesPredict.py +11 -20
teradataml/analytics/sqle/__init__.py +0 -13
teradataml/analytics/utils.py +1 -0
teradataml/analytics/valib.py +3 -0
teradataml/automl/__init__.py +1628 -0
teradataml/automl/custom_json_utils.py +1270 -0
teradataml/automl/data_preparation.py +993 -0
teradataml/automl/data_transformation.py +727 -0
teradataml/automl/feature_engineering.py +1648 -0
teradataml/automl/feature_exploration.py +547 -0
teradataml/automl/model_evaluation.py +163 -0
teradataml/automl/model_training.py +887 -0
teradataml/catalog/__init__.py +0 -2
teradataml/catalog/byom.py +49 -6
teradataml/catalog/function_argument_mapper.py +0 -2
teradataml/catalog/model_cataloging_utils.py +2 -1021
teradataml/common/aed_utils.py +6 -2
teradataml/common/constants.py +50 -58
teradataml/common/deprecations.py +160 -0
teradataml/common/garbagecollector.py +61 -104
teradataml/common/messagecodes.py +27 -36
teradataml/common/messages.py +11 -15
teradataml/common/utils.py +205 -287
teradataml/common/wrapper_utils.py +1 -110
teradataml/context/context.py +150 -78
teradataml/data/bank_churn.csv +10001 -0
teradataml/data/bmi.csv +501 -0
teradataml/data/docs/sqle/docs_17_10/BincodeFit.py +3 -3
teradataml/data/docs/sqle/docs_17_10/BincodeTransform.py +6 -5
teradataml/data/docs/sqle/docs_17_10/Fit.py +1 -1
teradataml/data/docs/sqle/docs_17_10/OneHotEncodingTransform.py +1 -1
teradataml/data/docs/sqle/docs_17_10/OutlierFilterTransform.py +1 -1
teradataml/data/docs/sqle/docs_17_10/PolynomialFeaturesTransform.py +2 -2
teradataml/data/docs/sqle/docs_17_10/RowNormalizeTransform.py +2 -1
teradataml/data/docs/sqle/docs_17_10/ScaleTransform.py +1 -0
teradataml/data/docs/sqle/docs_17_10/SimpleImputeTransform.py +1 -1
teradataml/data/docs/sqle/docs_17_10/Transform.py +2 -1
teradataml/data/docs/sqle/docs_17_20/BincodeFit.py +3 -3
teradataml/data/docs/sqle/docs_17_20/BincodeTransform.py +6 -5
teradataml/data/docs/sqle/docs_17_20/Fit.py +1 -1
teradataml/data/docs/sqle/docs_17_20/GLM.py +1 -1
teradataml/data/docs/sqle/docs_17_20/GLMPredictPerSegment.py +9 -10
teradataml/data/docs/sqle/docs_17_20/KMeansPredict.py +3 -2
teradataml/data/docs/sqle/docs_17_20/NaiveBayesTextClassifierPredict.py +16 -15
teradataml/data/docs/sqle/docs_17_20/NaiveBayesTextClassifierTrainer.py +2 -2
teradataml/data/docs/sqle/docs_17_20/NonLinearCombineFit.py +2 -2
teradataml/data/docs/sqle/docs_17_20/NonLinearCombineTransform.py +8 -8
teradataml/data/docs/sqle/docs_17_20/OneClassSVMPredict.py +21 -20
teradataml/data/docs/sqle/docs_17_20/OneHotEncodingTransform.py +1 -1
teradataml/data/docs/sqle/docs_17_20/OutlierFilterTransform.py +8 -3
teradataml/data/docs/sqle/docs_17_20/PolynomialFeaturesTransform.py +6 -5
teradataml/data/docs/sqle/docs_17_20/RandomProjectionTransform.py +6 -6
teradataml/data/docs/sqle/docs_17_20/RowNormalizeTransform.py +2 -1
teradataml/data/docs/sqle/docs_17_20/SVM.py +1 -1
teradataml/data/docs/sqle/docs_17_20/SVMPredict.py +16 -16
teradataml/data/docs/sqle/docs_17_20/ScaleTransform.py +1 -0
teradataml/data/docs/sqle/docs_17_20/SimpleImputeTransform.py +3 -2
teradataml/data/docs/sqle/docs_17_20/TDDecisionForestPredict.py +4 -4
teradataml/data/docs/sqle/docs_17_20/TDGLMPredict.py +19 -19
teradataml/data/docs/sqle/docs_17_20/TargetEncodingTransform.py +5 -4
teradataml/data/docs/sqle/docs_17_20/Transform.py +2 -2
teradataml/data/docs/sqle/docs_17_20/XGBoostPredict.py +9 -9
teradataml/data/fish.csv +160 -0
teradataml/data/glass_types.csv +215 -0
teradataml/data/insurance.csv +1 -1
teradataml/data/iris_data.csv +151 -0
teradataml/data/jsons/sqle/17.10/TD_FunctionTransform.json +1 -0
teradataml/data/jsons/sqle/17.10/TD_OneHotEncodingTransform.json +1 -0
teradataml/data/jsons/sqle/17.10/TD_OutlierFilterTransform.json +1 -0
teradataml/data/jsons/sqle/17.10/TD_PolynomialFeaturesTransform.json +1 -0
teradataml/data/jsons/sqle/17.10/TD_RowNormalizeTransform.json +1 -0
teradataml/data/jsons/sqle/17.10/TD_ScaleTransform.json +1 -0
teradataml/data/jsons/sqle/17.10/TD_SimpleImputeTransform.json +1 -0
teradataml/data/load_example_data.py +3 -0
teradataml/data/multi_model_classification.csv +401 -0
teradataml/data/multi_model_regression.csv +401 -0
teradataml/data/openml_example.json +63 -0
teradataml/data/scripts/deploy_script.py +65 -0
teradataml/data/scripts/mapper.R +20 -0
teradataml/data/scripts/sklearn/__init__.py +0 -0
teradataml/data/scripts/sklearn/sklearn_fit.py +175 -0
teradataml/data/scripts/sklearn/sklearn_fit_predict.py +135 -0
teradataml/data/scripts/sklearn/sklearn_function.template +113 -0
teradataml/data/scripts/sklearn/sklearn_model_selection_split.py +158 -0
teradataml/data/scripts/sklearn/sklearn_neighbors.py +152 -0
teradataml/data/scripts/sklearn/sklearn_score.py +128 -0
teradataml/data/scripts/sklearn/sklearn_transform.py +179 -0
teradataml/data/templates/open_source_ml.json +9 -0
teradataml/data/teradataml_example.json +73 -1
teradataml/data/test_classification.csv +101 -0
teradataml/data/test_prediction.csv +101 -0
teradataml/data/test_regression.csv +101 -0
teradataml/data/train_multiclass.csv +101 -0
teradataml/data/train_regression.csv +101 -0
teradataml/data/train_regression_multiple_labels.csv +101 -0
teradataml/data/wine_data.csv +1600 -0
teradataml/dataframe/copy_to.py +79 -13
teradataml/dataframe/data_transfer.py +8 -0
teradataml/dataframe/dataframe.py +910 -311
teradataml/dataframe/dataframe_utils.py +102 -5
teradataml/dataframe/fastload.py +11 -3
teradataml/dataframe/setop.py +15 -2
teradataml/dataframe/sql.py +3735 -77
teradataml/dataframe/sql_function_parameters.py +56 -5
teradataml/dataframe/vantage_function_types.py +45 -1
teradataml/dataframe/window.py +30 -29
teradataml/dbutils/dbutils.py +18 -1
teradataml/geospatial/geodataframe.py +18 -7
teradataml/geospatial/geodataframecolumn.py +5 -0
teradataml/hyperparameter_tuner/optimizer.py +910 -120
teradataml/hyperparameter_tuner/utils.py +131 -37
teradataml/lib/aed_0_1.dll +0 -0
teradataml/lib/libaed_0_1.dylib +0 -0
teradataml/lib/libaed_0_1.so +0 -0
teradataml/libaed_0_1.dylib +0 -0
teradataml/libaed_0_1.so +0 -0
teradataml/opensource/__init__.py +1 -0
teradataml/opensource/sklearn/__init__.py +1 -0
teradataml/opensource/sklearn/_class.py +255 -0
teradataml/opensource/sklearn/_sklearn_wrapper.py +1668 -0
teradataml/opensource/sklearn/_wrapper_utils.py +268 -0
teradataml/opensource/sklearn/constants.py +54 -0
teradataml/options/__init__.py +3 -6
teradataml/options/configure.py +21 -20
teradataml/scriptmgmt/UserEnv.py +61 -5
teradataml/scriptmgmt/lls_utils.py +135 -53
teradataml/table_operators/Apply.py +38 -6
teradataml/table_operators/Script.py +45 -308
teradataml/table_operators/TableOperator.py +182 -591
teradataml/table_operators/__init__.py +0 -1
teradataml/table_operators/table_operator_util.py +32 -40
teradataml/utils/validators.py +127 -3
{teradataml-17.20.0.6.dist-info → teradataml-20.0.0.0.dist-info}/METADATA +243 -3
{teradataml-17.20.0.6.dist-info → teradataml-20.0.0.0.dist-info}/RECORD +147 -391
teradataml/analytics/mle/AdaBoost.py +0 -651
teradataml/analytics/mle/AdaBoostPredict.py +0 -564
teradataml/analytics/mle/Antiselect.py +0 -342
teradataml/analytics/mle/Arima.py +0 -641
teradataml/analytics/mle/ArimaPredict.py +0 -477
teradataml/analytics/mle/Attribution.py +0 -1070
teradataml/analytics/mle/Betweenness.py +0 -658
teradataml/analytics/mle/Burst.py +0 -711
teradataml/analytics/mle/CCM.py +0 -600
teradataml/analytics/mle/CCMPrepare.py +0 -324
teradataml/analytics/mle/CFilter.py +0 -460
teradataml/analytics/mle/ChangePointDetection.py +0 -572
teradataml/analytics/mle/ChangePointDetectionRT.py +0 -477
teradataml/analytics/mle/Closeness.py +0 -737
teradataml/analytics/mle/ConfusionMatrix.py +0 -420
teradataml/analytics/mle/Correlation.py +0 -477
teradataml/analytics/mle/Correlation2.py +0 -573
teradataml/analytics/mle/CoxHazardRatio.py +0 -679
teradataml/analytics/mle/CoxPH.py +0 -556
teradataml/analytics/mle/CoxSurvival.py +0 -478
teradataml/analytics/mle/CumulativeMovAvg.py +0 -363
teradataml/analytics/mle/DTW.py +0 -623
teradataml/analytics/mle/DWT.py +0 -564
teradataml/analytics/mle/DWT2D.py +0 -599
teradataml/analytics/mle/DecisionForest.py +0 -716
teradataml/analytics/mle/DecisionForestEvaluator.py +0 -363
teradataml/analytics/mle/DecisionForestPredict.py +0 -561
teradataml/analytics/mle/DecisionTree.py +0 -830
teradataml/analytics/mle/DecisionTreePredict.py +0 -528
teradataml/analytics/mle/ExponentialMovAvg.py +0 -418
teradataml/analytics/mle/FMeasure.py +0 -402
teradataml/analytics/mle/FPGrowth.py +0 -734
teradataml/analytics/mle/FrequentPaths.py +0 -695
teradataml/analytics/mle/GLM.py +0 -558
teradataml/analytics/mle/GLML1L2.py +0 -547
teradataml/analytics/mle/GLML1L2Predict.py +0 -519
teradataml/analytics/mle/GLMPredict.py +0 -529
teradataml/analytics/mle/HMMDecoder.py +0 -945
teradataml/analytics/mle/HMMEvaluator.py +0 -901
teradataml/analytics/mle/HMMSupervised.py +0 -521
teradataml/analytics/mle/HMMUnsupervised.py +0 -572
teradataml/analytics/mle/Histogram.py +0 -561
teradataml/analytics/mle/IDWT.py +0 -476
teradataml/analytics/mle/IDWT2D.py +0 -493
teradataml/analytics/mle/IdentityMatch.py +0 -763
teradataml/analytics/mle/Interpolator.py +0 -918
teradataml/analytics/mle/KMeans.py +0 -485
teradataml/analytics/mle/KNN.py +0 -627
teradataml/analytics/mle/KNNRecommender.py +0 -488
teradataml/analytics/mle/KNNRecommenderPredict.py +0 -581
teradataml/analytics/mle/LAR.py +0 -439
teradataml/analytics/mle/LARPredict.py +0 -478
teradataml/analytics/mle/LDA.py +0 -548
teradataml/analytics/mle/LDAInference.py +0 -492
teradataml/analytics/mle/LDATopicSummary.py +0 -464
teradataml/analytics/mle/LevenshteinDistance.py +0 -450
teradataml/analytics/mle/LinReg.py +0 -433
teradataml/analytics/mle/LinRegPredict.py +0 -438
teradataml/analytics/mle/MinHash.py +0 -544
teradataml/analytics/mle/Modularity.py +0 -587
teradataml/analytics/mle/NEREvaluator.py +0 -410
teradataml/analytics/mle/NERExtractor.py +0 -595
teradataml/analytics/mle/NERTrainer.py +0 -458
teradataml/analytics/mle/NGrams.py +0 -570
teradataml/analytics/mle/NPath.py +0 -634
teradataml/analytics/mle/NTree.py +0 -549
teradataml/analytics/mle/NaiveBayes.py +0 -462
teradataml/analytics/mle/NaiveBayesPredict.py +0 -513
teradataml/analytics/mle/NaiveBayesTextClassifier.py +0 -607
teradataml/analytics/mle/NaiveBayesTextClassifier2.py +0 -531
teradataml/analytics/mle/NaiveBayesTextClassifierPredict.py +0 -799
teradataml/analytics/mle/NamedEntityFinder.py +0 -529
teradataml/analytics/mle/NamedEntityFinderEvaluator.py +0 -414
teradataml/analytics/mle/NamedEntityFinderTrainer.py +0 -396
teradataml/analytics/mle/POSTagger.py +0 -417
teradataml/analytics/mle/Pack.py +0 -411
teradataml/analytics/mle/PageRank.py +0 -535
teradataml/analytics/mle/PathAnalyzer.py +0 -426
teradataml/analytics/mle/PathGenerator.py +0 -367
teradataml/analytics/mle/PathStart.py +0 -464
teradataml/analytics/mle/PathSummarizer.py +0 -470
teradataml/analytics/mle/Pivot.py +0 -471
teradataml/analytics/mle/ROC.py +0 -425
teradataml/analytics/mle/RandomSample.py +0 -637
teradataml/analytics/mle/RandomWalkSample.py +0 -490
teradataml/analytics/mle/SAX.py +0 -779
teradataml/analytics/mle/SVMDense.py +0 -677
teradataml/analytics/mle/SVMDensePredict.py +0 -536
teradataml/analytics/mle/SVMDenseSummary.py +0 -437
teradataml/analytics/mle/SVMSparse.py +0 -557
teradataml/analytics/mle/SVMSparsePredict.py +0 -553
teradataml/analytics/mle/SVMSparseSummary.py +0 -435
teradataml/analytics/mle/Sampling.py +0 -549
teradataml/analytics/mle/Scale.py +0 -565
teradataml/analytics/mle/ScaleByPartition.py +0 -496
teradataml/analytics/mle/ScaleMap.py +0 -378
teradataml/analytics/mle/ScaleSummary.py +0 -320
teradataml/analytics/mle/SentenceExtractor.py +0 -363
teradataml/analytics/mle/SentimentEvaluator.py +0 -432
teradataml/analytics/mle/SentimentExtractor.py +0 -578
teradataml/analytics/mle/SentimentTrainer.py +0 -405
teradataml/analytics/mle/SeriesSplitter.py +0 -641
teradataml/analytics/mle/Sessionize.py +0 -475
teradataml/analytics/mle/SimpleMovAvg.py +0 -397
teradataml/analytics/mle/StringSimilarity.py +0 -425
teradataml/analytics/mle/TF.py +0 -389
teradataml/analytics/mle/TFIDF.py +0 -504
teradataml/analytics/mle/TextChunker.py +0 -414
teradataml/analytics/mle/TextClassifier.py +0 -399
teradataml/analytics/mle/TextClassifierEvaluator.py +0 -413
teradataml/analytics/mle/TextClassifierTrainer.py +0 -565
teradataml/analytics/mle/TextMorph.py +0 -494
teradataml/analytics/mle/TextParser.py +0 -623
teradataml/analytics/mle/TextTagger.py +0 -530
teradataml/analytics/mle/TextTokenizer.py +0 -502
teradataml/analytics/mle/UnivariateStatistics.py +0 -488
teradataml/analytics/mle/Unpack.py +0 -526
teradataml/analytics/mle/Unpivot.py +0 -438
teradataml/analytics/mle/VarMax.py +0 -776
teradataml/analytics/mle/VectorDistance.py +0 -762
teradataml/analytics/mle/WeightedMovAvg.py +0 -400
teradataml/analytics/mle/XGBoost.py +0 -842
teradataml/analytics/mle/XGBoostPredict.py +0 -627
teradataml/analytics/mle/__init__.py +0 -123
teradataml/analytics/mle/json/adaboost_mle.json +0 -135
teradataml/analytics/mle/json/adaboostpredict_mle.json +0 -85
teradataml/analytics/mle/json/antiselect_mle.json +0 -34
teradataml/analytics/mle/json/antiselect_mle_mle.json +0 -34
teradataml/analytics/mle/json/arima_mle.json +0 -172
teradataml/analytics/mle/json/arimapredict_mle.json +0 -52
teradataml/analytics/mle/json/attribution_mle_mle.json +0 -143
teradataml/analytics/mle/json/betweenness_mle.json +0 -97
teradataml/analytics/mle/json/burst_mle.json +0 -140
teradataml/analytics/mle/json/ccm_mle.json +0 -124
teradataml/analytics/mle/json/ccmprepare_mle.json +0 -14
teradataml/analytics/mle/json/cfilter_mle.json +0 -93
teradataml/analytics/mle/json/changepointdetection_mle.json +0 -92
teradataml/analytics/mle/json/changepointdetectionrt_mle.json +0 -78
teradataml/analytics/mle/json/closeness_mle.json +0 -104
teradataml/analytics/mle/json/confusionmatrix_mle.json +0 -79
teradataml/analytics/mle/json/correlation_mle.json +0 -86
teradataml/analytics/mle/json/correlationreduce_mle.json +0 -49
teradataml/analytics/mle/json/coxhazardratio_mle.json +0 -89
teradataml/analytics/mle/json/coxph_mle.json +0 -98
teradataml/analytics/mle/json/coxsurvival_mle.json +0 -79
teradataml/analytics/mle/json/cumulativemovavg_mle.json +0 -34
teradataml/analytics/mle/json/decisionforest_mle.json +0 -167
teradataml/analytics/mle/json/decisionforestevaluator_mle.json +0 -33
teradataml/analytics/mle/json/decisionforestpredict_mle_mle.json +0 -74
teradataml/analytics/mle/json/decisiontree_mle.json +0 -194
teradataml/analytics/mle/json/decisiontreepredict_mle_mle.json +0 -86
teradataml/analytics/mle/json/dtw_mle.json +0 -97
teradataml/analytics/mle/json/dwt2d_mle.json +0 -116
teradataml/analytics/mle/json/dwt_mle.json +0 -101
teradataml/analytics/mle/json/exponentialmovavg_mle.json +0 -55
teradataml/analytics/mle/json/fmeasure_mle.json +0 -58
teradataml/analytics/mle/json/fpgrowth_mle.json +0 -159
teradataml/analytics/mle/json/frequentpaths_mle.json +0 -129
teradataml/analytics/mle/json/glm_mle.json +0 -111
teradataml/analytics/mle/json/glml1l2_mle.json +0 -106
teradataml/analytics/mle/json/glml1l2predict_mle.json +0 -57
teradataml/analytics/mle/json/glmpredict_mle_mle.json +0 -74
teradataml/analytics/mle/json/histogram_mle.json +0 -100
teradataml/analytics/mle/json/hmmdecoder_mle.json +0 -192
teradataml/analytics/mle/json/hmmevaluator_mle.json +0 -206
teradataml/analytics/mle/json/hmmsupervised_mle.json +0 -91
teradataml/analytics/mle/json/hmmunsupervised_mle.json +0 -114
teradataml/analytics/mle/json/identitymatch_mle.json +0 -88
teradataml/analytics/mle/json/idwt2d_mle.json +0 -73
teradataml/analytics/mle/json/idwt_mle.json +0 -66
teradataml/analytics/mle/json/interpolator_mle.json +0 -151
teradataml/analytics/mle/json/kmeans_mle.json +0 -97
teradataml/analytics/mle/json/knn_mle.json +0 -141
teradataml/analytics/mle/json/knnrecommender_mle.json +0 -111
teradataml/analytics/mle/json/knnrecommenderpredict_mle.json +0 -75
teradataml/analytics/mle/json/lar_mle.json +0 -78
teradataml/analytics/mle/json/larpredict_mle.json +0 -69
teradataml/analytics/mle/json/lda_mle.json +0 -130
teradataml/analytics/mle/json/ldainference_mle.json +0 -78
teradataml/analytics/mle/json/ldatopicsummary_mle.json +0 -64
teradataml/analytics/mle/json/levenshteindistance_mle.json +0 -92
teradataml/analytics/mle/json/linreg_mle.json +0 -42
teradataml/analytics/mle/json/linregpredict_mle.json +0 -56
teradataml/analytics/mle/json/minhash_mle.json +0 -113
teradataml/analytics/mle/json/modularity_mle.json +0 -91
teradataml/analytics/mle/json/naivebayespredict_mle_mle.json +0 -85
teradataml/analytics/mle/json/naivebayesreduce_mle.json +0 -52
teradataml/analytics/mle/json/naivebayestextclassifierpredict_mle_mle.json +0 -147
teradataml/analytics/mle/json/naivebayestextclassifiertrainer2_mle.json +0 -108
teradataml/analytics/mle/json/naivebayestextclassifiertrainer_mle.json +0 -102
teradataml/analytics/mle/json/namedentityfinder_mle.json +0 -84
teradataml/analytics/mle/json/namedentityfinderevaluatorreduce_mle.json +0 -43
teradataml/analytics/mle/json/namedentityfindertrainer_mle.json +0 -64
teradataml/analytics/mle/json/nerevaluator_mle.json +0 -54
teradataml/analytics/mle/json/nerextractor_mle.json +0 -87
teradataml/analytics/mle/json/nertrainer_mle.json +0 -89
teradataml/analytics/mle/json/ngrams_mle.json +0 -137
teradataml/analytics/mle/json/ngramsplitter_mle_mle.json +0 -137
teradataml/analytics/mle/json/npath@coprocessor_mle.json +0 -73
teradataml/analytics/mle/json/ntree@coprocessor_mle.json +0 -123
teradataml/analytics/mle/json/pack_mle.json +0 -58
teradataml/analytics/mle/json/pack_mle_mle.json +0 -58
teradataml/analytics/mle/json/pagerank_mle.json +0 -81
teradataml/analytics/mle/json/pathanalyzer_mle.json +0 -63
teradataml/analytics/mle/json/pathgenerator_mle.json +0 -40
teradataml/analytics/mle/json/pathstart_mle.json +0 -62
teradataml/analytics/mle/json/pathsummarizer_mle.json +0 -72
teradataml/analytics/mle/json/pivoting_mle.json +0 -71
teradataml/analytics/mle/json/postagger_mle.json +0 -51
teradataml/analytics/mle/json/randomsample_mle.json +0 -131
teradataml/analytics/mle/json/randomwalksample_mle.json +0 -85
teradataml/analytics/mle/json/roc_mle.json +0 -73
teradataml/analytics/mle/json/sampling_mle.json +0 -75
teradataml/analytics/mle/json/sax_mle.json +0 -154
teradataml/analytics/mle/json/scale_mle.json +0 -93
teradataml/analytics/mle/json/scalebypartition_mle.json +0 -89
teradataml/analytics/mle/json/scalemap_mle.json +0 -44
teradataml/analytics/mle/json/scalesummary_mle.json +0 -14
teradataml/analytics/mle/json/sentenceextractor_mle.json +0 -41
teradataml/analytics/mle/json/sentimentevaluator_mle.json +0 -43
teradataml/analytics/mle/json/sentimentextractor_mle.json +0 -100
teradataml/analytics/mle/json/sentimenttrainer_mle.json +0 -68
teradataml/analytics/mle/json/seriessplitter_mle.json +0 -133
teradataml/analytics/mle/json/sessionize_mle_mle.json +0 -62
teradataml/analytics/mle/json/simplemovavg_mle.json +0 -48
teradataml/analytics/mle/json/stringsimilarity_mle.json +0 -50
teradataml/analytics/mle/json/stringsimilarity_mle_mle.json +0 -50
teradataml/analytics/mle/json/svmdense_mle.json +0 -165
teradataml/analytics/mle/json/svmdensepredict_mle.json +0 -95
teradataml/analytics/mle/json/svmdensesummary_mle.json +0 -58
teradataml/analytics/mle/json/svmsparse_mle.json +0 -148
teradataml/analytics/mle/json/svmsparsepredict_mle_mle.json +0 -103
teradataml/analytics/mle/json/svmsparsesummary_mle.json +0 -57
teradataml/analytics/mle/json/textchunker_mle.json +0 -40
teradataml/analytics/mle/json/textclassifier_mle.json +0 -51
teradataml/analytics/mle/json/textclassifierevaluator_mle.json +0 -43
teradataml/analytics/mle/json/textclassifiertrainer_mle.json +0 -103
teradataml/analytics/mle/json/textmorph_mle.json +0 -63
teradataml/analytics/mle/json/textparser_mle.json +0 -166
teradataml/analytics/mle/json/texttagger_mle.json +0 -81
teradataml/analytics/mle/json/texttokenizer_mle.json +0 -91
teradataml/analytics/mle/json/tf_mle.json +0 -33
teradataml/analytics/mle/json/tfidf_mle.json +0 -34
teradataml/analytics/mle/json/univariatestatistics_mle.json +0 -81
teradataml/analytics/mle/json/unpack_mle.json +0 -91
teradataml/analytics/mle/json/unpack_mle_mle.json +0 -91
teradataml/analytics/mle/json/unpivoting_mle.json +0 -63
teradataml/analytics/mle/json/varmax_mle.json +0 -176
teradataml/analytics/mle/json/vectordistance_mle.json +0 -179
teradataml/analytics/mle/json/weightedmovavg_mle.json +0 -48
teradataml/analytics/mle/json/xgboost_mle.json +0 -178
teradataml/analytics/mle/json/xgboostpredict_mle.json +0 -104
teradataml/analytics/sqle/Antiselect.py +0 -321
teradataml/analytics/sqle/Attribution.py +0 -603
teradataml/analytics/sqle/DecisionForestPredict.py +0 -408
teradataml/analytics/sqle/GLMPredict.py +0 -430
teradataml/analytics/sqle/MovingAverage.py +0 -543
teradataml/analytics/sqle/NGramSplitter.py +0 -548
teradataml/analytics/sqle/NPath.py +0 -632
teradataml/analytics/sqle/NaiveBayesTextClassifierPredict.py +0 -515
teradataml/analytics/sqle/Pack.py +0 -388
teradataml/analytics/sqle/SVMSparsePredict.py +0 -464
teradataml/analytics/sqle/Sessionize.py +0 -390
teradataml/analytics/sqle/StringSimilarity.py +0 -400
teradataml/analytics/sqle/Unpack.py +0 -503
teradataml/analytics/sqle/json/antiselect_sqle.json +0 -21
teradataml/analytics/sqle/json/attribution_sqle.json +0 -92
teradataml/analytics/sqle/json/decisionforestpredict_sqle.json +0 -48
teradataml/analytics/sqle/json/glmpredict_sqle.json +0 -48
teradataml/analytics/sqle/json/h2opredict_sqle.json +0 -63
teradataml/analytics/sqle/json/movingaverage_sqle.json +0 -58
teradataml/analytics/sqle/json/naivebayestextclassifierpredict_sqle.json +0 -76
teradataml/analytics/sqle/json/ngramsplitter_sqle.json +0 -126
teradataml/analytics/sqle/json/npath_sqle.json +0 -67
teradataml/analytics/sqle/json/pack_sqle.json +0 -47
teradataml/analytics/sqle/json/pmmlpredict_sqle.json +0 -55
teradataml/analytics/sqle/json/sessionize_sqle.json +0 -43
teradataml/analytics/sqle/json/stringsimilarity_sqle.json +0 -39
teradataml/analytics/sqle/json/svmsparsepredict_sqle.json +0 -74
teradataml/analytics/sqle/json/unpack_sqle.json +0 -80
teradataml/catalog/model_cataloging.py +0 -980
teradataml/config/mlengine_alias_definitions_v1.0 +0 -118
teradataml/config/mlengine_alias_definitions_v1.1 +0 -127
teradataml/config/mlengine_alias_definitions_v1.3 +0 -129
teradataml/table_operators/sandbox_container_util.py +0 -643
{teradataml-17.20.0.6.dist-info → teradataml-20.0.0.0.dist-info}/WHEEL +0 -0
{teradataml-17.20.0.6.dist-info → teradataml-20.0.0.0.dist-info}/top_level.txt +0 -0
{teradataml-17.20.0.6.dist-info → teradataml-20.0.0.0.dist-info}/zip-safe +0 -0

teradataml/automl/model_training.py ADDED Viewed

@@ -0,0 +1,887 @@
+# ##################################################################
+#
+# Copyright 2024 Teradata. All rights reserved.
+# TERADATA CONFIDENTIAL AND TRADE SECRET
+#
+# Primary Owner: Sweta Shaw
+# Email Id: Sweta.Shaw@Teradata.com
+#
+# Secondary Owner: Akhil Bisht
+# Email Id: AKHIL.BISHT@Teradata.com
+#
+# Version: 1.1
+# Function Version: 1.0
+# ##################################################################
+# Python libraries
+import concurrent.futures
+from concurrent.futures import ThreadPoolExecutor
+import pandas as pd
+from itertools import product
+# Teradata libraries
+from teradataml.context import context as tdmlctx
+from teradataml.dataframe.copy_to import copy_to_sql
+from teradataml.dataframe.dataframe import DataFrame
+from teradataml import execute_sql, get_connection
+from teradataml import SVM, GLM, DecisionForest, XGBoost, GridSearch, KNN
+class _ModelTraining:
+    def __init__(self,
+                 data,
+                 target_column,
+                 model_list,
+                 verbose=0,
+                 features=None,
+                 task_type="Regression",
+                 custom_data = None):
+        """
+        DESCRIPTION:
+            Function initializes the data, target column, features and models
+            for model training.
+        PARAMETERS:
+            data:
+                Required Argument.
+                Specifies the dataset for model training phase.
+                Types: teradataml Dataframe
+            target_column:
+                Required Arugment.
+                Specifies the target column present inside the dataset.
+                Types: str
+            model_list:
+                Required Arugment.
+                Specifies the list of models to be used for model training.
+                Types: list
+            verbose:
+                Optional Argument.
+                Specifies the detailed execution steps based on verbose level.
+                Default Value: 0
+                Permitted Values:
+                    * 0: prints the progress bar and leaderboard
+                    * 1: prints the execution steps of AutoML.
+                    * 2: prints the intermediate data between the
+                         execution of each step of AutoML.
+                Types: int
+            features:
+                Required Arugment.
+                Specifies the list of selected feature by rfe, lasso and pca
+                respectively in this order.
+                Types: list of list of strings (str)
+            task_type:
+                Required Arugment.
+                Specifies the task type for AutoML, whether to apply regresion
+                or classification on the provived dataset.
+                Default Value: "Regression"
+                Permitted Values: "Regression", "Classification"
+                Types: str
+            custom_data:
+                Optional Arugment.
+                Specifies json object containing user customized input.
+                Types: json object
+        """
+        self.data = data
+        self.target_column = target_column
+        self.model_list = model_list
+        self.verbose = verbose
+        self.features = (features[1], features[0], features[2])
+        self.task_type = task_type
+        self.custom_data = custom_data
+        self.labels = self.data.drop_duplicate(self.target_column).size
+    def model_training(self,
+                       auto=True,
+                       max_runtime_secs=None,
+                       stopping_metric=None,
+                       stopping_tolerance=0
+                       ):
+        """
+        DESCRIPTION:
+            Function to perform following tasks:-
+                1. Generates the hyperparameters for different ML models.
+                2. Performs hyperparameter tunning for different ML models in parallel.
+                3. Displays the leaderboard of trained ML models.
+        PARAMETERS:
+            auto:
+                Optional Arugment.
+                Specifies whether to run data preparation in auto mode or custom mode.
+                When set to True, runs automtically otherwise, it take user inputs.
+                Default Value: True
+                Types: boolean
+            max_runtime_secs:
+                Optional Arugment.
+                Specifies the time limit in seconds for model training.
+                Types: int
+            stopping_metric:
+                Required, when "stopping_tolerance" is set, otherwise optional.
+                Specifies the stopping mertics for stopping tolerance in model training.
+                Types: str
+            stopping_tolerance:
+                Required, when "stopping_metric" is set, otherwise optional.
+                Specifies the stopping tolerance for stopping metrics in model training.
+                Types: float
+        RETURNS:
+            pandas dataframes containing model information, leaderboard and target
+            column distinct count.
+        """
+        self.stopping_metric = stopping_metric
+        self.stopping_tolerance = stopping_tolerance
+        self.max_runtime_secs = max_runtime_secs
+        self._display_heading(phase=3, progress_bar=self.progress_bar)
+        self._display_msg(msg='Model Training started ...',
+                          progress_bar=self.progress_bar,
+                          show_data=True)
+        # Generates the hyperparameters for different ML models
+        parameters = self._generate_parameter()
+        # handles customized hyperparameters
+        if not auto:
+            parameters = self._custom_hyperparameters(parameters)
+        if self.verbose == 2:
+            self._display_hyperparameters(parameters)
+        # Parallel execution of hpt
+        trained_models_info = self._parallel_training(parameters)
+        # Displaying leaderboard
+        leader_board, models = self._display_leaderboard(trained_models_info)
+        self._display_heading(phase=4,
+                              progress_bar=self.progress_bar)
+        self.progress_bar.update()
+        return models, leader_board, self.labels
+    def _display_hyperparameters(self,
+                                 hyperparameters_list):
+        """
+        DESCRIPTION:
+            Internal function to display the hyperparameters for different ML models.
+        PARAMETERS:
+            hyperparameters_list:
+                Required Arugment.
+                Specifies the hyperparameters for different ML models.
+                Types: list of dict
+        RETURNS:
+            None
+        """
+        self._display_msg(msg="\nHyperparameters used for model training: ",
+                          progress_bar = self.progress_bar,
+                          show_data=True)
+        print(" " *150, end='\r', flush=True)
+        # Iterating over hyperparameters_list
+        for hyperparameter_dct in hyperparameters_list:
+            # Extracting hyperparameter and thier value from hyperparameters dictionary
+            for key, val in hyperparameter_dct.items():
+                # Displaying hyperparameters
+                print(f"{key} : {str(val)}")
+            # Creating all possible combinations of hyperparameters
+            all_combinations = list(product(*[v if isinstance(v, tuple) else [v] for v in hyperparameter_dct.values()]))
+            # Displaying total number of models for each model
+            total_models = len(all_combinations)
+            print(f"Total number of models for {hyperparameter_dct['name']} : {total_models}")
+            print(f"--"*100+'\n')
+    def _display_leaderboard(self,
+                             trained_models_info):
+        """
+        DESCRIPTION:
+            Internal function to display the trainined ML models.
+        PARAMETERS:
+            trained_models_info:
+                Required Arugment.
+                Specifies the trained models inforamtion to display.
+                Types: pandas Dataframe
+        RETURNS:
+            pandas Dataframe.
+        """
+        # Creating a copy to avoid use of same reference of memory
+        if self.task_type != "Regression":
+            sorted_model_df = trained_models_info.sort_values(by=['Micro-F1', 'Weighted-F1'],
+                                                ascending=[False, False]).reset_index(drop=True)
+        else:
+            sorted_model_df = trained_models_info.sort_values(by='R2-score',
+                                                ascending=False).reset_index(drop=True)
+        # Adding rank to leaderboard
+        sorted_model_df.insert(0, 'Rank', sorted_model_df.index + 1)
+        # Assuming 'sorted_df' is your DataFrame
+        # Excluding the "last_col"
+        leaderboard = sorted_model_df.drop("model-obj", axis=1)
+        self._display_msg(msg="Leaderboard",
+                          progress_bar=self.progress_bar,
+                          data=leaderboard,
+                          show_data=True)
+        return leaderboard, sorted_model_df
+    def _update_hyperparameters(self,
+                                existing_params,
+                                new_params):
+        """
+        DESCRIPTION:
+            Function to update customized hyperparameters by performing addition or replacement
+            based on user input.
+        PARAMETERS:
+            existing_params:
+                Required Argument.
+                Specifies the existing generated hyperparameters for specific model.
+                Types: dict
+            new_params:
+                Required Argument.
+                Specifies the newly passed hyperparameters from user input.
+                Types: dict
+        RETURNS:
+            Updated dictionary containing hyperparameters for specific model.
+        """
+        # Iterating over new hyperparameters and performing required operation
+        # based on passed method ADD or REPLACE
+        for feature, param_list in new_params.items():
+            if feature in existing_params.keys():
+                if param_list["Method"] == "ADD":
+                    # Extending existing list
+                    existing_params[feature] = list(existing_params[feature])
+                    existing_params[feature].extend(param_list["Value"])
+                    # Updating list with unique values.
+                    existing_params[feature]=tuple(set(existing_params[feature]))
+                elif param_list["Method"] == "REPLACE":
+                    # Replacing with entirely new value
+                    existing_params[feature] = tuple(param_list["Value"])
+                else:
+                    self._display_msg(inline_msg="Passed method is not valid.")
+            else:
+                self._display_msg(inline_msg="\nPassed model argument {} is not"
+                                  "available for model {}. Skipping it."
+                                  .format(feature,existing_params['name']))
+                continue
+            # Returning updated hyperparamter
+        return existing_params
+    def _custom_hyperparameters(self,
+                                hyperparameters):
+        """
+        DESCRIPTION:
+            Function to extract and update hyperaparameters from user input for model training.
+        PARAMETERS:
+            hyperparameters:
+                Required Argument.
+                Specifies the existing generated hyperparameters for all models.
+                Types: list
+        RETURNS:
+             Updated list of dictionaries containing hyperparameterd for all models.
+        """
+        self._display_msg(msg="\nStarting customized hyperparameter update ...",
+                          progress_bar=self.progress_bar,
+                          show_data=True)
+        # Fetching user input for performing hyperparameter tuning
+        hyperparameter_tuning_input = self.custom_data.get("HyperparameterTuningIndicator", False)
+        if hyperparameter_tuning_input:
+            # Extracting models and its corresponding hyperparameters details
+            model_hyperparameters = self.custom_data.get("HyperparameterTuningParam", None)
+            # Getting model index for mapping
+            model_index_param = self.model_mapping
+            # Checking hyperparameters passed by user and mapping them according to model
+            if model_hyperparameters:
+                for model_name, hyp_list in model_hyperparameters.items():
+                    if model_name in list(model_index_param.keys()):
+                        model_index = model_index_param[model_name]
+                    else:
+                        self._display_msg(inline_msg="\nPassed model {} is not available for training.".format(model_name))
+                        continue
+                    # Updating existing hyperparameters with customized hyperparameters as per user input
+                    hyperparameters[model_index]=self._update_hyperparameters(hyperparameters[model_index],hyp_list)
+                # Displaying it after update
+                self._display_msg(inline_msg="\nCompleted customized hyperparameter update.",
+                                 progress_bar=self.progress_bar)
+            else:
+                self._display_msg(inline_msg="No information provided for custom hyperparameters. AutoML will proceed with default values.",
+                                 progress_bar=self.progress_bar)
+        else:
+            self._display_msg(inline_msg="\nSkipping customized hyperparameter tuning",
+                             progress_bar=self.progress_bar)
+        # Retunring updated hyperparameters for all models
+        return hyperparameters
+    # Hyperparameter generation for XGBoost or Decision Forest
+    def _get_tree_model_hyperparameters(self,
+                                        num_rows,
+                                        num_cols,
+                                        model_name):
+        """
+        DESCRIPTION:
+            Internal function to generate hyperparameters for tree based model i.e., XGBoost or Decision Forest.
+        PARAMETERS:
+            num_rows:
+                Required Arugment.
+                Specifies the number of rows in dataset.
+                Types: int
+            num_cols:
+                Required Arugment.
+                Specifies the number of columns in dataset.
+                Types: int
+            model_name:
+                Required Argument.
+                Specifies which linear model is getting used for generating hyperparameters.
+                Types: Str
+        RETURNS:
+            dict containing, hyperparameters for XGBoost or Decision Forest.
+        """
+        # Initializing hyperparameters based on default value
+        min_impurity = [0.0]
+        shrinkage_factor = [0.5]
+        max_depth = [5]
+        min_node_size = [1]
+        iter_num = [10]
+        num_trees = [-1]
+        # Extending values for hyperparameters based on dataset size, i.e., number of rows and columns
+        if num_rows < 1000 and num_cols < 10:
+            min_impurity.extend([0.1])
+            shrinkage_factor.extend([0.1, 0.2])
+            max_depth.extend([6, 7, 8])
+            min_node_size.extend([2])
+            iter_num.extend([20])
+            num_trees.extend([10, 20])
+        elif num_rows < 10000 and num_cols < 15:
+            min_impurity.extend([0.1, 0.2])
+            shrinkage_factor.extend([0.1, 0.3])
+            max_depth.extend([6, 8, 10])
+            min_node_size.extend([2, 3])
+            iter_num.extend([20, 30])
+            num_trees.extend([20, 30])
+        elif num_rows < 100000 and num_cols < 20:
+            min_impurity.extend([0.2, 0.3])
+            shrinkage_factor.extend([0.01, 0.1, 0.2])
+            max_depth.extend([4, 6, 7])
+            min_node_size.extend([3, 4])
+            iter_num.extend([30, 40])
+            num_trees.extend([30, 40])
+        else:
+            min_impurity.extend([0.1, 0.2, 0.3])
+            shrinkage_factor.extend([0.01, 0.05, 0.1])
+            max_depth.extend([3, 4, 7, 8])
+            min_node_size.extend([2, 3, 4])
+            iter_num.extend([20, 30, 40])
+            num_trees.extend([20, 30, 40])
+        # Hyperparameters for XGBoost model
+        xgb_params = {
+                'response_column': self.target_column,
+                'name':'xgboost',
+                'model_type': 'Regression',
+                'column_sampling': (1, .6),
+                'min_impurity': tuple(min_impurity),
+                'lambda1': (0.01, 0.1, 1, 10),
+                'shrinkage_factor': tuple(shrinkage_factor),
+                'max_depth': tuple(max_depth),
+                'min_node_size': tuple(min_node_size),
+                'iter_num': tuple(iter_num)
+                }
+        # Hyperparameters for Decision Forest model
+        df_params = {
+                'response_column': self.target_column,
+                'name': 'decision_forest',
+                'tree_type': 'Regression',
+                'min_impurity': tuple(min_impurity),
+                'max_depth': tuple(max_depth),
+                'min_node_size': tuple(min_node_size),
+                'num_trees': tuple(num_trees)
+        }
+        # Updating model type in case of classification
+        if self.task_type == "Classification":
+            xgb_params['model_type'] = 'Classification'
+            df_params['tree_type'] = 'Classification'
+        # Returning hyperparameters based on passed model
+        if model_name == 'xgboost':
+            return xgb_params
+        elif model_name == 'decision_forest':
+            return df_params
+        else:
+            return None
+    # Hyperparameter generation for KNN
+    def _get_knn_hyperparameters(self,
+                                 num_rows=None,
+                                 num_cols=None):
+        """
+        DESCRIPTION:
+            Internal function to generate hyperparameters for KNN.
+        PARAMETERS:
+            num_rows
+                Required Arugment.
+                Specifies the number of rows in dataset.
+                Types: int
+            num_cols:
+                Required Arugment.
+                Specifies the number of columns in dataset.
+                Types: int
+        RETURNS:
+            dict containing, hyperparameters for KNN.
+        """
+        params = {
+                'response_column': self.target_column,
+                'name': 'knn',
+                'model_type': 'Regression',
+                'k': (3, 5, 6, 8, 10, 12),
+                "id_column":"id",
+                "voting_weight": 1.0
+                }
+        if self.task_type == "Classification":
+            params['model_type'] = 'Classification'
+        return params
+    # Hyperparameter generation for SVM/GLM
+    def _get_linear_model_hyperparameters(self,
+                                          num_rows,
+                                          num_cols,
+                                          model_name):
+        """
+        DESCRIPTION:
+            Internal function to generate hyperparameters for linear models i.e., SVM or GLM.
+        PARAMETERS:
+            num_rows:
+                Required Arugment.
+                Specifies the number of rows in dataset.
+                Types: int
+            num_cols:
+                Required Arugment.
+                Specifies the number of columns in dataset.
+                Types: int
+            model_name:
+                Required Argument.
+                Specifies which tree model is getting used for generating hyperparameters.
+                Types: Str
+        RETURNS:
+            dict containing, hyperparameters for SVM or GLM.
+        """
+        # Initializing hyperparameters based on default value
+        iter_max = [300]
+        batch_size = [10]
+        # Extending values for hyperparameters based on dataset size i.e., number of rows and columns
+        if num_rows < 1000 and num_cols < 10:
+            iter_max.extend([100, 200])
+            batch_size.extend([20, 40, 50])
+        elif num_rows < 10000 and num_cols < 15:
+            iter_max.extend([200, 400])
+            batch_size.extend([50, 60, 80])
+        elif num_rows < 100000 and num_cols < 20:
+            iter_max.extend([400])
+            batch_size.extend([100, 150])
+        else:
+            iter_max.extend([200, 400, 500])
+            batch_size.extend([80, 100, 150])
+        # Hyperparameters for SVM model
+        svm_params = {
+                'response_column': self.target_column,
+                'name':'svm',
+                'model_type':'regression',
+                'lambda1':(0.001, 0.02, 0.1),
+                'alpha':(.15, .85),
+                'tolerance':(0.001, 0.01),
+                'learning_rate':('Invtime','Adaptive','constant'),
+                'initial_eta' : (0.05, 0.1),
+                'momentum':(0.65, 0.8, 0.95),
+                'nesterov': True,
+                'intercept': True,
+                'iter_num_no_change':(5, 10, 50),
+                'local_sgd_iterations ': (10, 20),
+                'iter_max' : tuple(iter_max),
+                'batch_size' : tuple(batch_size)
+                }
+        # Hyperparameters for GLM model
+        glm_params={
+                'response_column': self.target_column,
+                'name': 'glm',
+                'family': 'GAUSSIAN',
+                'lambda1':(0.001, 0.02, 0.1),
+                'alpha': (0.15, 0.85),
+                'learning_rate': ('invtime', 'constant', 'adaptive'),
+                'initial_eta': (0.05, 0.1),
+                'momentum': (0.65, 0.8, 0.95),
+                'iter_num_no_change':(5, 10, 50),
+                'iter_max' : tuple(iter_max),
+                'batch_size' : tuple(batch_size)
+                }
+        # Updating model type in case of classification
+        if self.task_type == "Classification":
+            svm_params['model_type'] = 'Classification'
+            svm_params['learning_rate'] =  'OPTIMAL'
+            glm_params['family'] = 'BINOMIAL'
+            glm_params['learning_rate'] =  'OPTIMAL'
+        # Returning hyperparameters based on passed model
+        if model_name == 'svm':
+            return svm_params
+        elif model_name == 'glm':
+            return glm_params
+        else:
+            return None
+    def _generate_parameter(self):
+        """
+        DESCRIPTION:
+            Internal function to generate hyperparameters for ML models.
+        RETURNS:
+            list containing, dict of hyperparameters for different ML models.
+        """
+        # list for storing hyperparameters
+        parameters=[]
+        # Index for model mapping
+        model_index=0
+        # Dictionary for mapping model with index
+        self.model_mapping={}
+        # Getting number of rows and columns
+        num_rows = self.data.shape[0]
+        num_cols = self.data.shape[1]
+        # Updating model list for multi-class classification
+        if self.task_type.casefold() == "classification" and self.labels > 2:
+            for model in ['glm','svm']:
+                if model in self.model_list:
+                    self._display_msg(inline_msg="\nMulti-class classification is "
+                                     "not supported by {} model. Skipping {} model."
+                                     .format(model, model),
+                                     progress_bar=self.progress_bar)
+                    self.model_list.remove(model)
+        # Model functions mapping for hyperparameter generation
+        model_functions = {
+            'decision_forest': self._get_tree_model_hyperparameters,
+            'xgboost': self._get_tree_model_hyperparameters,
+            'knn': self._get_knn_hyperparameters,
+            'glm': self._get_linear_model_hyperparameters,
+            'svm': self._get_linear_model_hyperparameters,
+        }
+        # Generating hyperparameters for each model
+        if self.model_list:
+            for model in self.model_list:
+                self.model_mapping[model] = model_index
+                if model == 'knn':
+                    parameters.append(model_functions[model](num_rows, num_cols))
+                else:
+                    parameters.append(model_functions[model](num_rows, num_cols, model))
+                model_index += 1
+        else:
+            raise ValueError("No model is selected for training.")
+        return parameters
+    def _parallel_training(self, parameters):
+        """
+        DESCRIPTION:
+            Internal function initiates the threadpool executor
+            for hyperparameter tunning of ML models.
+        PARAMETERS:
+             parameters:
+                Required Argument.
+                Specifies the hyperparamters for ML models.
+                Types: list of dict
+        RETURNS:
+            Pandas DataFrame containing, trained models information.
+        """
+        # Hyperparameters for each model
+        model_params = parameters[:min(len(parameters), 5)]
+        self._display_msg(msg="\nPerforming hyperParameter tuning ...", progress_bar=self.progress_bar)
+        # Defining training and testing data
+        data_types = ['lasso', 'rfe', 'pca']
+        trainng_datas = tuple(DataFrame(self.table_name_mapping[f'{data_type}_train']) for data_type in data_types)
+        testing_datas = tuple(DataFrame(self.table_name_mapping[f'{data_type}_test']) for data_type in data_types)
+        if self.stopping_metric is None:
+            self.stopping_tolerance, self.stopping_metric = 1.0, 'MICRO-F1' \
+                                    if self.is_classification_type() else 'R2'
+        self.max_runtime_secs = self.max_runtime_secs/len(model_params) \
+                                if self.max_runtime_secs is not None else None
+        trained_models = []
+        for param in model_params:
+            result = self._hyperparameter_tunning(param, trainng_datas, testing_datas)
+            trained_models.append(result)
+        models_df = pd.concat(trained_models, ignore_index=True)
+        # Score the model and combine the results into a single DataFrame
+        trained_models_info = self._model_scoring(testing_datas, models_df)
+        trained_models_info = trained_models_info.reset_index(drop=True)
+        return trained_models_info
+    def _model_scoring(self,
+                       test_data,
+                       model_info):
+        """
+        DESCRIPTION:
+            Internal function generates the performance metrics for
+            trained ML models using testing dataset.
+        PARAMETERS:
+            test_data
+                Required Argument.
+                Specifies the testing datasets
+                Types: tuple of Teradataml DataFrame
+            model_info
+                Required Arugment.
+                Specifies the trained models information.
+                Types: Pandas DataFrame
+        RETURNS:
+            Pandas DataFrame containing, trained models with thier performance metrics.
+        """
+        self._display_msg(msg="Evaluating models performance ...",
+                          progress_bar = self.progress_bar,
+                          show_data=True)
+        # Empty list for storing model performance metrics
+        model_performance_data = []
+        # Mapping feature selection methods to corresponding test data
+        feature_selection_to_test_data = {"lasso": test_data[0],
+                                          "rfe": test_data[1],
+                                          "pca": test_data[2]}
+        # Iterating over models
+        for index, model_row in model_info.iterrows():
+            # Extracting model name, feature selection method, and model object
+            model_name, feature_selection, model_object = model_row['Name'], \
+                                                        model_row['Feature selection'], model_row['obj']
+            # Selecting test data based on feature selection method
+            test_set = feature_selection_to_test_data[feature_selection]
+            # Model evaluation
+            if model_name == 'knn':
+                performance_metrics = model_object.evaluate(test_data=test_set)
+            else:
+                eval_params = self._eval_params_generation(model_name)
+                performance_metrics = model_object.evaluate(newdata=test_set, **eval_params)
+            # Extracting performance metrics
+            if self.is_classification_type():
+                # Classification
+                # Extract performance metrics from the output data
+                performance_metrics_list = [metric[2] for metric in performance_metrics.output_data.itertuples()]
+                # Combine all the elements to form a new row
+                new_row = [model_name, feature_selection] + performance_metrics_list + [model_object]
+            else:
+                # Regression
+                regression_metrics = next(performance_metrics.result.itertuples())
+                sample_size = test_set.select('id').size
+                feature_count = len(test_set.columns) - 2
+                r2_score = regression_metrics[8]
+                adjusted_r2_score = 1 - ((1 - r2_score) * (sample_size - 1) / (sample_size - feature_count - 1))
+                new_row = [model_name, feature_selection, regression_metrics[0], regression_metrics[1], regression_metrics[2],
+                        regression_metrics[5], regression_metrics[6], r2_score, adjusted_r2_score, model_object]
+            model_performance_data.append(new_row)
+        if self.is_classification_type():
+            model_metrics_df = pd.DataFrame(model_performance_data, columns=['Name','Feature selection',
+                                                        'Accuracy','Micro-Precision',
+                                                        'Micro-Recall','Micro-F1',
+                                                        'Macro-Precision','Macro-Recall',
+                                                        'Macro-F1','Weighted-Precision',
+                                                        'Weighted-Recall','Weighted-F1',
+                                                        'model-obj'])
+        else:
+            model_metrics_df = pd.DataFrame(model_performance_data, columns=['Name',
+                                                            'Feature selection',
+                                                            'MAE', 'MSE', 'MSLE',
+                                                            'RMSE', 'RMSLE',
+                                                            'R2-score',
+                                                            'Adjusted R2-score',
+                                                            'model-obj'])
+        self._display_msg(msg="Evaluation completed.",
+                          progress_bar = self.progress_bar,
+                          show_data=True)
+        return model_metrics_df
+    def _hyperparameter_tunning(self,
+                                model_param,
+                                train_data,
+                                test_data):
+        """
+        DESCRIPTION:
+            Internal function performs hyperparameter tuning on
+            ML models for regression/classification problems.
+        PARAMETERS:
+            model_param
+                Required Arugment.
+                Specifies the eval_params argument for GridSearch.
+                Types: dict
+            train_data:
+                Required Arugment.
+                Specifies the training datasets.
+                Types: tuple of Teradataml DataFrame
+            test_data
+                Required Argument.
+                Specifies the testing datasets
+                Types: tuple of Teradataml DataFrame
+        RETURNS:
+            pandas DataFrame containing, trained models information.
+        """
+        # Mapping model names to functions
+        model_to_func = {"glm": GLM, "svm": SVM,
+                         "xgboost": XGBoost, "decision_forest": DecisionForest, "knn": KNN}
+        # Setting eval_params for hpt.
+        eval_params = self._eval_params_generation(model_param['name'])
+        # Input columns for model
+        model_param['input_columns'] = self.features
+        self._display_msg(msg=model_param['name'],
+                          progress_bar=self.progress_bar,
+                          show_data=True)
+        # Defining test data for KNN
+        if model_param['name'] == 'knn':
+            model_param['test_data'] = test_data
+        # Defining Gridsearch with ML model based on Name
+        _obj = GridSearch(func=model_to_func[model_param['name']], params=model_param)
+        if self.verbose > 0:
+            print(" " *200, end='\r', flush=True)
+            verbose = 1
+        else:
+            verbose = 0
+        # Hyperparameter tunning
+        if model_param['name'] == 'knn':
+            _obj.fit(data=train_data, evaluation_metric=self.stopping_metric,
+                    early_stop=self.stopping_tolerance, run_parallel=True,
+                    sample_seed=42, sample_id_column='id', discard_invalid_column_params=True,
+                    verbose=verbose, max_time=self.max_runtime_secs)
+        else:
+            _obj.fit(data=train_data, evaluation_metric=self.stopping_metric,
+                    early_stop=self.stopping_tolerance, **eval_params,
+                    run_parallel=True, discard_invalid_column_params=True, sample_seed=42,
+                    sample_id_column='id', verbose=verbose, max_time=self.max_runtime_secs)
+        # Getting all passed models
+        _df = _obj.model_stats.merge(_obj.models[_obj.models['STATUS']=='PASS'][['MODEL_ID', 'DATA_ID']], on='MODEL_ID', how='inner')
+        # Mapping data ID to DataFrame
+        data_id_to_df = {"DF_0": _df[_df['DATA_ID']=='DF_0'],
+                         "DF_1": _df[_df['DATA_ID']=='DF_1'],
+                         "DF_2": _df[_df['DATA_ID']=='DF_2']}
+        # Returns best model within a Data_ID group
+        # get_best_model = lambda df: df.sort_values(by=['MICRO-F1', 'WEIGHTED-F1'], ascending=[False, False]).iloc[0]['MODEL_ID']\
+        # if self.task_type != 'Regression' else df.sort_values(by=['R2', 'MAE'], ascending=[False, False]).iloc[0]['MODEL_ID']
+        get_best_model = lambda df, stats: df.sort_values(by=stats, ascending=[False, False]).iloc[0]['MODEL_ID']
+        # best_model = get_best_model(data_id_to_df[data_id], stats)
+        stats = ['MICRO-F1', 'WEIGHTED-F1'] if self.task_type != 'Regression' else ['R2', 'MAE']
+        model_info_data = []
+        # Extracting best model
+        for data_id, df_name in zip(["DF_0", "DF_1", "DF_2"], ["lasso", "rfe", "pca"]):
+            if not data_id_to_df[data_id].empty:
+                best_model = get_best_model(data_id_to_df[data_id], stats)
+                model_info_data.append([model_param['name'], df_name, _obj.get_model(best_model)])
+                self._display_msg(inline_msg=best_model, progress_bar=self.progress_bar)
+        model_info = pd.DataFrame(data=model_info_data, columns=["Name",'Feature selection', "obj"])
+        self._display_msg(msg="-"*100,
+                          progress_bar=self.progress_bar,
+                          show_data=True)
+        self.progress_bar.update()
+        return model_info
+    def _eval_params_generation(self,
+                                ml_name):
+        """
+        DESCRIPTION:
+            Internal function generates the eval_params for
+            different ML models.
+        PARAMETERS:
+            ml_name
+                Required Arugment.
+                Specifies the ML name for eval_params generation.
+                Types: str
+        RETURNS:
+            dict containing, eval_params for ML model.
+        """
+        # Setting the eval_params
+        eval_params = {"id_column": "id",
+                        "accumulate": self.target_column}
+        # For Classification
+        if self.task_type != "Regression":
+            if ml_name == 'xgboost':
+                eval_params['model_type'] = 'Classification'
+                eval_params['object_order_column'] = ['task_index', 'tree_num', 'iter','class_num', 'tree_order']
+            else:
+                eval_params['output_prob'] = True
+        else:
+        # For Regression
+            if ml_name == 'xgboost':
+                eval_params['model_type'] = 'Regression'
+                eval_params['object_order_column'] = ['task_index', 'tree_num', 'iter', 'tree_order']
+        return eval_params

teradataml 17.20.0.6__py3-none-any.whl → 20.0.0.0__py3-none-any.whl

Potentially problematic release.

teradataml 17.20.0.6py3-none-any.whl → 20.0.0.0py3-none-any.whl