PyPI - oracle-ads - Versions diffs - 2.13.9rc0__py3-none-any.whl → 2.13.9rc1__py3-none-any.whl - Mend

oracle-ads 2.13.9rc0py3-none-any.whl → 2.13.9rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (857) hide show

ads/aqua/__init__.py +40 -0
ads/aqua/app.py +506 -0
ads/aqua/cli.py +96 -0
ads/aqua/client/__init__.py +3 -0
ads/aqua/client/client.py +836 -0
ads/aqua/client/openai_client.py +305 -0
ads/aqua/common/__init__.py +5 -0
ads/aqua/common/decorator.py +125 -0
ads/aqua/common/entities.py +269 -0
ads/aqua/common/enums.py +122 -0
ads/aqua/common/errors.py +109 -0
ads/aqua/common/utils.py +1285 -0
ads/aqua/config/__init__.py +4 -0
ads/aqua/config/container_config.py +248 -0
ads/aqua/config/evaluation/__init__.py +4 -0
ads/aqua/config/evaluation/evaluation_service_config.py +147 -0
ads/aqua/config/utils/__init__.py +4 -0
ads/aqua/config/utils/serializer.py +339 -0
ads/aqua/constants.py +116 -0
ads/aqua/data.py +14 -0
ads/aqua/dummy_data/icon.txt +1 -0
ads/aqua/dummy_data/oci_model_deployments.json +56 -0
ads/aqua/dummy_data/oci_models.json +1 -0
ads/aqua/dummy_data/readme.md +26 -0
ads/aqua/evaluation/__init__.py +8 -0
ads/aqua/evaluation/constants.py +53 -0
ads/aqua/evaluation/entities.py +186 -0
ads/aqua/evaluation/errors.py +70 -0
ads/aqua/evaluation/evaluation.py +1814 -0
ads/aqua/extension/__init__.py +42 -0
ads/aqua/extension/aqua_ws_msg_handler.py +76 -0
ads/aqua/extension/base_handler.py +90 -0
ads/aqua/extension/common_handler.py +121 -0
ads/aqua/extension/common_ws_msg_handler.py +36 -0
ads/aqua/extension/deployment_handler.py +298 -0
ads/aqua/extension/deployment_ws_msg_handler.py +54 -0
ads/aqua/extension/errors.py +30 -0
ads/aqua/extension/evaluation_handler.py +129 -0
ads/aqua/extension/evaluation_ws_msg_handler.py +61 -0
ads/aqua/extension/finetune_handler.py +96 -0
ads/aqua/extension/model_handler.py +390 -0
ads/aqua/extension/models/__init__.py +0 -0
ads/aqua/extension/models/ws_models.py +145 -0
ads/aqua/extension/models_ws_msg_handler.py +50 -0
ads/aqua/extension/ui_handler.py +282 -0
ads/aqua/extension/ui_websocket_handler.py +130 -0
ads/aqua/extension/utils.py +133 -0
ads/aqua/finetuning/__init__.py +7 -0
ads/aqua/finetuning/constants.py +23 -0
ads/aqua/finetuning/entities.py +181 -0
ads/aqua/finetuning/finetuning.py +749 -0
ads/aqua/model/__init__.py +8 -0
ads/aqua/model/constants.py +60 -0
ads/aqua/model/entities.py +385 -0
ads/aqua/model/enums.py +32 -0
ads/aqua/model/model.py +2114 -0
ads/aqua/modeldeployment/__init__.py +8 -0
ads/aqua/modeldeployment/constants.py +10 -0
ads/aqua/modeldeployment/deployment.py +1326 -0
ads/aqua/modeldeployment/entities.py +653 -0
ads/aqua/modeldeployment/inference.py +74 -0
ads/aqua/modeldeployment/utils.py +543 -0
ads/aqua/resources/gpu_shapes_index.json +94 -0
ads/aqua/server/__init__.py +4 -0
ads/aqua/server/__main__.py +24 -0
ads/aqua/server/app.py +47 -0
ads/aqua/server/aqua_spec.yml +1291 -0
ads/aqua/training/__init__.py +4 -0
ads/aqua/training/exceptions.py +476 -0
ads/aqua/ui.py +499 -0
ads/automl/__init__.py +9 -0
ads/automl/driver.py +330 -0
ads/automl/provider.py +975 -0
ads/bds/__init__.py +5 -0
ads/bds/auth.py +127 -0
ads/bds/big_data_service.py +255 -0
ads/catalog/__init__.py +19 -0
ads/catalog/model.py +1576 -0
ads/catalog/notebook.py +461 -0
ads/catalog/project.py +468 -0
ads/catalog/summary.py +178 -0
ads/common/__init__.py +11 -0
ads/common/analyzer.py +65 -0
ads/common/artifact/.model-ignore +63 -0
ads/common/artifact/__init__.py +10 -0
ads/common/auth.py +1122 -0
ads/common/card_identifier.py +83 -0
ads/common/config.py +647 -0
ads/common/data.py +165 -0
ads/common/decorator/__init__.py +9 -0
ads/common/decorator/argument_to_case.py +88 -0
ads/common/decorator/deprecate.py +69 -0
ads/common/decorator/require_nonempty_arg.py +65 -0
ads/common/decorator/runtime_dependency.py +178 -0
ads/common/decorator/threaded.py +97 -0
ads/common/decorator/utils.py +35 -0
ads/common/dsc_file_system.py +303 -0
ads/common/error.py +14 -0
ads/common/extended_enum.py +81 -0
ads/common/function/__init__.py +5 -0
ads/common/function/fn_util.py +142 -0
ads/common/function/func_conf.yaml +25 -0
ads/common/ipython.py +76 -0
ads/common/model.py +679 -0
ads/common/model_artifact.py +1759 -0
ads/common/model_artifact_schema.json +107 -0
ads/common/model_export_util.py +664 -0
ads/common/model_metadata.py +24 -0
ads/common/object_storage_details.py +296 -0
ads/common/oci_client.py +175 -0
ads/common/oci_datascience.py +46 -0
ads/common/oci_logging.py +1144 -0
ads/common/oci_mixin.py +957 -0
ads/common/oci_resource.py +136 -0
ads/common/serializer.py +559 -0
ads/common/utils.py +1852 -0
ads/common/word_lists.py +1491 -0
ads/common/work_request.py +189 -0
ads/data_labeling/__init__.py +13 -0
ads/data_labeling/boundingbox.py +253 -0
ads/data_labeling/constants.py +47 -0
ads/data_labeling/data_labeling_service.py +244 -0
ads/data_labeling/interface/__init__.py +5 -0
ads/data_labeling/interface/loader.py +16 -0
ads/data_labeling/interface/parser.py +16 -0
ads/data_labeling/interface/reader.py +23 -0
ads/data_labeling/loader/__init__.py +5 -0
ads/data_labeling/loader/file_loader.py +241 -0
ads/data_labeling/metadata.py +110 -0
ads/data_labeling/mixin/__init__.py +5 -0
ads/data_labeling/mixin/data_labeling.py +232 -0
ads/data_labeling/ner.py +129 -0
ads/data_labeling/parser/__init__.py +5 -0
ads/data_labeling/parser/dls_record_parser.py +388 -0
ads/data_labeling/parser/export_metadata_parser.py +94 -0
ads/data_labeling/parser/export_record_parser.py +473 -0
ads/data_labeling/reader/__init__.py +5 -0
ads/data_labeling/reader/dataset_reader.py +574 -0
ads/data_labeling/reader/dls_record_reader.py +121 -0
ads/data_labeling/reader/export_record_reader.py +62 -0
ads/data_labeling/reader/jsonl_reader.py +75 -0
ads/data_labeling/reader/metadata_reader.py +203 -0
ads/data_labeling/reader/record_reader.py +263 -0
ads/data_labeling/record.py +52 -0
ads/data_labeling/visualizer/__init__.py +5 -0
ads/data_labeling/visualizer/image_visualizer.py +525 -0
ads/data_labeling/visualizer/text_visualizer.py +357 -0
ads/database/__init__.py +5 -0
ads/database/connection.py +338 -0
ads/dataset/__init__.py +10 -0
ads/dataset/capabilities.md +51 -0
ads/dataset/classification_dataset.py +339 -0
ads/dataset/correlation.py +226 -0
ads/dataset/correlation_plot.py +563 -0
ads/dataset/dask_series.py +173 -0
ads/dataset/dataframe_transformer.py +110 -0
ads/dataset/dataset.py +1979 -0
ads/dataset/dataset_browser.py +360 -0
ads/dataset/dataset_with_target.py +995 -0
ads/dataset/exception.py +25 -0
ads/dataset/factory.py +987 -0
ads/dataset/feature_engineering_transformer.py +35 -0
ads/dataset/feature_selection.py +107 -0
ads/dataset/forecasting_dataset.py +26 -0
ads/dataset/helper.py +1450 -0
ads/dataset/label_encoder.py +99 -0
ads/dataset/mixin/__init__.py +5 -0
ads/dataset/mixin/dataset_accessor.py +134 -0
ads/dataset/pipeline.py +58 -0
ads/dataset/plot.py +710 -0
ads/dataset/progress.py +86 -0
ads/dataset/recommendation.py +297 -0
ads/dataset/recommendation_transformer.py +502 -0
ads/dataset/regression_dataset.py +14 -0
ads/dataset/sampled_dataset.py +1050 -0
ads/dataset/target.py +98 -0
ads/dataset/timeseries.py +18 -0
ads/dbmixin/__init__.py +5 -0
ads/dbmixin/db_pandas_accessor.py +153 -0
ads/environment/__init__.py +9 -0
ads/environment/ml_runtime.py +66 -0
ads/evaluations/README.md +14 -0
ads/evaluations/__init__.py +109 -0
ads/evaluations/evaluation_plot.py +983 -0
ads/evaluations/evaluator.py +1334 -0
ads/evaluations/statistical_metrics.py +543 -0
ads/experiments/__init__.py +9 -0
ads/experiments/capabilities.md +0 -0
ads/explanations/__init__.py +21 -0
ads/explanations/base_explainer.py +142 -0
ads/explanations/capabilities.md +83 -0
ads/explanations/explainer.py +190 -0
ads/explanations/mlx_global_explainer.py +1050 -0
ads/explanations/mlx_interface.py +386 -0
ads/explanations/mlx_local_explainer.py +287 -0
ads/explanations/mlx_whatif_explainer.py +201 -0
ads/feature_engineering/__init__.py +20 -0
ads/feature_engineering/accessor/__init__.py +5 -0
ads/feature_engineering/accessor/dataframe_accessor.py +535 -0
ads/feature_engineering/accessor/mixin/__init__.py +5 -0
ads/feature_engineering/accessor/mixin/correlation.py +166 -0
ads/feature_engineering/accessor/mixin/eda_mixin.py +266 -0
ads/feature_engineering/accessor/mixin/eda_mixin_series.py +85 -0
ads/feature_engineering/accessor/mixin/feature_types_mixin.py +211 -0
ads/feature_engineering/accessor/mixin/utils.py +65 -0
ads/feature_engineering/accessor/series_accessor.py +431 -0
ads/feature_engineering/adsimage/__init__.py +5 -0
ads/feature_engineering/adsimage/image.py +192 -0
ads/feature_engineering/adsimage/image_reader.py +170 -0
ads/feature_engineering/adsimage/interface/__init__.py +5 -0
ads/feature_engineering/adsimage/interface/reader.py +19 -0
ads/feature_engineering/adsstring/__init__.py +7 -0
ads/feature_engineering/adsstring/oci_language/__init__.py +8 -0
ads/feature_engineering/adsstring/string/__init__.py +8 -0
ads/feature_engineering/data_schema.json +57 -0
ads/feature_engineering/dataset/__init__.py +5 -0
ads/feature_engineering/dataset/zip_code_data.py +42062 -0
ads/feature_engineering/exceptions.py +40 -0
ads/feature_engineering/feature_type/__init__.py +133 -0
ads/feature_engineering/feature_type/address.py +184 -0
ads/feature_engineering/feature_type/adsstring/__init__.py +5 -0
ads/feature_engineering/feature_type/adsstring/common_regex_mixin.py +164 -0
ads/feature_engineering/feature_type/adsstring/oci_language.py +93 -0
ads/feature_engineering/feature_type/adsstring/parsers/__init__.py +5 -0
ads/feature_engineering/feature_type/adsstring/parsers/base.py +47 -0
ads/feature_engineering/feature_type/adsstring/parsers/nltk_parser.py +96 -0
ads/feature_engineering/feature_type/adsstring/parsers/spacy_parser.py +221 -0
ads/feature_engineering/feature_type/adsstring/string.py +258 -0
ads/feature_engineering/feature_type/base.py +58 -0
ads/feature_engineering/feature_type/boolean.py +183 -0
ads/feature_engineering/feature_type/category.py +146 -0
ads/feature_engineering/feature_type/constant.py +137 -0
ads/feature_engineering/feature_type/continuous.py +151 -0
ads/feature_engineering/feature_type/creditcard.py +314 -0
ads/feature_engineering/feature_type/datetime.py +190 -0
ads/feature_engineering/feature_type/discrete.py +134 -0
ads/feature_engineering/feature_type/document.py +43 -0
ads/feature_engineering/feature_type/gis.py +251 -0
ads/feature_engineering/feature_type/handler/__init__.py +5 -0
ads/feature_engineering/feature_type/handler/feature_validator.py +524 -0
ads/feature_engineering/feature_type/handler/feature_warning.py +319 -0
ads/feature_engineering/feature_type/handler/warnings.py +128 -0
ads/feature_engineering/feature_type/integer.py +142 -0
ads/feature_engineering/feature_type/ip_address.py +144 -0
ads/feature_engineering/feature_type/ip_address_v4.py +138 -0
ads/feature_engineering/feature_type/ip_address_v6.py +138 -0
ads/feature_engineering/feature_type/lat_long.py +256 -0
ads/feature_engineering/feature_type/object.py +43 -0
ads/feature_engineering/feature_type/ordinal.py +132 -0
ads/feature_engineering/feature_type/phone_number.py +135 -0
ads/feature_engineering/feature_type/string.py +171 -0
ads/feature_engineering/feature_type/text.py +93 -0
ads/feature_engineering/feature_type/unknown.py +43 -0
ads/feature_engineering/feature_type/zip_code.py +164 -0
ads/feature_engineering/feature_type_manager.py +406 -0
ads/feature_engineering/schema.py +795 -0
ads/feature_engineering/utils.py +245 -0
ads/feature_store/.readthedocs.yaml +19 -0
ads/feature_store/README.md +65 -0
ads/feature_store/__init__.py +9 -0
ads/feature_store/common/__init__.py +0 -0
ads/feature_store/common/enums.py +339 -0
ads/feature_store/common/exceptions.py +18 -0
ads/feature_store/common/spark_session_singleton.py +125 -0
ads/feature_store/common/utils/__init__.py +0 -0
ads/feature_store/common/utils/base64_encoder_decoder.py +72 -0
ads/feature_store/common/utils/feature_schema_mapper.py +283 -0
ads/feature_store/common/utils/transformation_utils.py +82 -0
ads/feature_store/common/utils/utility.py +403 -0
ads/feature_store/data_validation/__init__.py +0 -0
ads/feature_store/data_validation/great_expectation.py +129 -0
ads/feature_store/dataset.py +1230 -0
ads/feature_store/dataset_job.py +530 -0
ads/feature_store/docs/Dockerfile +7 -0
ads/feature_store/docs/Makefile +44 -0
ads/feature_store/docs/conf.py +28 -0
ads/feature_store/docs/requirements.txt +14 -0
ads/feature_store/docs/source/ads.feature_store.query.rst +20 -0
ads/feature_store/docs/source/cicd.rst +137 -0
ads/feature_store/docs/source/conf.py +86 -0
ads/feature_store/docs/source/data_versioning.rst +33 -0
ads/feature_store/docs/source/dataset.rst +388 -0
ads/feature_store/docs/source/dataset_job.rst +27 -0
ads/feature_store/docs/source/demo.rst +70 -0
ads/feature_store/docs/source/entity.rst +78 -0
ads/feature_store/docs/source/feature_group.rst +624 -0
ads/feature_store/docs/source/feature_group_job.rst +29 -0
ads/feature_store/docs/source/feature_store.rst +122 -0
ads/feature_store/docs/source/feature_store_class.rst +123 -0
ads/feature_store/docs/source/feature_validation.rst +66 -0
ads/feature_store/docs/source/figures/cicd.png +0 -0
ads/feature_store/docs/source/figures/data_validation.png +0 -0
ads/feature_store/docs/source/figures/data_versioning.png +0 -0
ads/feature_store/docs/source/figures/dataset.gif +0 -0
ads/feature_store/docs/source/figures/dataset.png +0 -0
ads/feature_store/docs/source/figures/dataset_lineage.png +0 -0
ads/feature_store/docs/source/figures/dataset_statistics.png +0 -0
ads/feature_store/docs/source/figures/dataset_statistics_viz.png +0 -0
ads/feature_store/docs/source/figures/dataset_validation_results.png +0 -0
ads/feature_store/docs/source/figures/dataset_validation_summary.png +0 -0
ads/feature_store/docs/source/figures/drift_monitoring.png +0 -0
ads/feature_store/docs/source/figures/entity.png +0 -0
ads/feature_store/docs/source/figures/feature_group.png +0 -0
ads/feature_store/docs/source/figures/feature_group_lineage.png +0 -0
ads/feature_store/docs/source/figures/feature_group_statistics_viz.png +0 -0
ads/feature_store/docs/source/figures/feature_store_deployment.png +0 -0
ads/feature_store/docs/source/figures/feature_store_overview.png +0 -0
ads/feature_store/docs/source/figures/featuregroup.gif +0 -0
ads/feature_store/docs/source/figures/lineage_d1.png +0 -0
ads/feature_store/docs/source/figures/lineage_d2.png +0 -0
ads/feature_store/docs/source/figures/lineage_fg.png +0 -0
ads/feature_store/docs/source/figures/logo-dark-mode.png +0 -0
ads/feature_store/docs/source/figures/logo-light-mode.png +0 -0
ads/feature_store/docs/source/figures/overview.png +0 -0
ads/feature_store/docs/source/figures/resource_manager.png +0 -0
ads/feature_store/docs/source/figures/resource_manager_feature_store_stack.png +0 -0
ads/feature_store/docs/source/figures/resource_manager_home.png +0 -0
ads/feature_store/docs/source/figures/stats_1.png +0 -0
ads/feature_store/docs/source/figures/stats_2.png +0 -0
ads/feature_store/docs/source/figures/stats_d.png +0 -0
ads/feature_store/docs/source/figures/stats_fg.png +0 -0
ads/feature_store/docs/source/figures/transformation.png +0 -0
ads/feature_store/docs/source/figures/transformations.gif +0 -0
ads/feature_store/docs/source/figures/validation.png +0 -0
ads/feature_store/docs/source/figures/validation_fg.png +0 -0
ads/feature_store/docs/source/figures/validation_results.png +0 -0
ads/feature_store/docs/source/figures/validation_summary.png +0 -0
ads/feature_store/docs/source/index.rst +81 -0
ads/feature_store/docs/source/module.rst +8 -0
ads/feature_store/docs/source/notebook.rst +94 -0
ads/feature_store/docs/source/overview.rst +47 -0
ads/feature_store/docs/source/quickstart.rst +176 -0
ads/feature_store/docs/source/release_notes.rst +194 -0
ads/feature_store/docs/source/setup_feature_store.rst +81 -0
ads/feature_store/docs/source/statistics.rst +58 -0
ads/feature_store/docs/source/transformation.rst +199 -0
ads/feature_store/docs/source/ui.rst +65 -0
ads/feature_store/docs/source/user_guides.setup.feature_store_operator.rst +66 -0
ads/feature_store/docs/source/user_guides.setup.helm_chart.rst +192 -0
ads/feature_store/docs/source/user_guides.setup.terraform.rst +338 -0
ads/feature_store/entity.py +718 -0
ads/feature_store/execution_strategy/__init__.py +0 -0
ads/feature_store/execution_strategy/delta_lake/__init__.py +0 -0
ads/feature_store/execution_strategy/delta_lake/delta_lake_service.py +375 -0
ads/feature_store/execution_strategy/engine/__init__.py +0 -0
ads/feature_store/execution_strategy/engine/spark_engine.py +316 -0
ads/feature_store/execution_strategy/execution_strategy.py +113 -0
ads/feature_store/execution_strategy/execution_strategy_provider.py +47 -0
ads/feature_store/execution_strategy/spark/__init__.py +0 -0
ads/feature_store/execution_strategy/spark/spark_execution.py +618 -0
ads/feature_store/feature.py +192 -0
ads/feature_store/feature_group.py +1494 -0
ads/feature_store/feature_group_expectation.py +346 -0
ads/feature_store/feature_group_job.py +602 -0
ads/feature_store/feature_lineage/__init__.py +0 -0
ads/feature_store/feature_lineage/graphviz_service.py +180 -0
ads/feature_store/feature_option_details.py +50 -0
ads/feature_store/feature_statistics/__init__.py +0 -0
ads/feature_store/feature_statistics/statistics_service.py +99 -0
ads/feature_store/feature_store.py +699 -0
ads/feature_store/feature_store_registrar.py +518 -0
ads/feature_store/input_feature_detail.py +149 -0
ads/feature_store/mixin/__init__.py +4 -0
ads/feature_store/mixin/oci_feature_store.py +145 -0
ads/feature_store/model_details.py +73 -0
ads/feature_store/query/__init__.py +0 -0
ads/feature_store/query/filter.py +266 -0
ads/feature_store/query/generator/__init__.py +0 -0
ads/feature_store/query/generator/query_generator.py +298 -0
ads/feature_store/query/join.py +161 -0
ads/feature_store/query/query.py +403 -0
ads/feature_store/query/validator/__init__.py +0 -0
ads/feature_store/query/validator/query_validator.py +57 -0
ads/feature_store/response/__init__.py +0 -0
ads/feature_store/response/response_builder.py +68 -0
ads/feature_store/service/__init__.py +0 -0
ads/feature_store/service/oci_dataset.py +139 -0
ads/feature_store/service/oci_dataset_job.py +199 -0
ads/feature_store/service/oci_entity.py +125 -0
ads/feature_store/service/oci_feature_group.py +164 -0
ads/feature_store/service/oci_feature_group_job.py +214 -0
ads/feature_store/service/oci_feature_store.py +182 -0
ads/feature_store/service/oci_lineage.py +87 -0
ads/feature_store/service/oci_transformation.py +104 -0
ads/feature_store/statistics/__init__.py +0 -0
ads/feature_store/statistics/abs_feature_value.py +49 -0
ads/feature_store/statistics/charts/__init__.py +0 -0
ads/feature_store/statistics/charts/abstract_feature_plot.py +37 -0
ads/feature_store/statistics/charts/box_plot.py +148 -0
ads/feature_store/statistics/charts/frequency_distribution.py +65 -0
ads/feature_store/statistics/charts/probability_distribution.py +68 -0
ads/feature_store/statistics/charts/top_k_frequent_elements.py +98 -0
ads/feature_store/statistics/feature_stat.py +126 -0
ads/feature_store/statistics/generic_feature_value.py +33 -0
ads/feature_store/statistics/statistics.py +41 -0
ads/feature_store/statistics_config.py +101 -0
ads/feature_store/templates/feature_store_template.yaml +45 -0
ads/feature_store/transformation.py +499 -0
ads/feature_store/validation_output.py +57 -0
ads/hpo/__init__.py +9 -0
ads/hpo/_imports.py +91 -0
ads/hpo/ads_search_space.py +439 -0
ads/hpo/distributions.py +325 -0
ads/hpo/objective.py +280 -0
ads/hpo/search_cv.py +1657 -0
ads/hpo/stopping_criterion.py +75 -0
ads/hpo/tuner_artifact.py +413 -0
ads/hpo/utils.py +91 -0
ads/hpo/validation.py +140 -0
ads/hpo/visualization/__init__.py +5 -0
ads/hpo/visualization/_contour.py +23 -0
ads/hpo/visualization/_edf.py +20 -0
ads/hpo/visualization/_intermediate_values.py +21 -0
ads/hpo/visualization/_optimization_history.py +25 -0
ads/hpo/visualization/_parallel_coordinate.py +169 -0
ads/hpo/visualization/_param_importances.py +26 -0
ads/jobs/__init__.py +53 -0
ads/jobs/ads_job.py +663 -0
ads/jobs/builders/__init__.py +5 -0
ads/jobs/builders/base.py +156 -0
ads/jobs/builders/infrastructure/__init__.py +6 -0
ads/jobs/builders/infrastructure/base.py +165 -0
ads/jobs/builders/infrastructure/dataflow.py +1252 -0
ads/jobs/builders/infrastructure/dsc_job.py +1894 -0
ads/jobs/builders/infrastructure/dsc_job_runtime.py +1233 -0
ads/jobs/builders/infrastructure/utils.py +65 -0
ads/jobs/builders/runtimes/__init__.py +5 -0
ads/jobs/builders/runtimes/artifact.py +338 -0
ads/jobs/builders/runtimes/base.py +325 -0
ads/jobs/builders/runtimes/container_runtime.py +242 -0
ads/jobs/builders/runtimes/python_runtime.py +1016 -0
ads/jobs/builders/runtimes/pytorch_runtime.py +204 -0
ads/jobs/cli.py +104 -0
ads/jobs/env_var_parser.py +131 -0
ads/jobs/extension.py +160 -0
ads/jobs/schema/__init__.py +5 -0
ads/jobs/schema/infrastructure_schema.json +116 -0
ads/jobs/schema/job_schema.json +42 -0
ads/jobs/schema/runtime_schema.json +183 -0
ads/jobs/schema/validator.py +141 -0
ads/jobs/serializer.py +296 -0
ads/jobs/templates/__init__.py +5 -0
ads/jobs/templates/container.py +6 -0
ads/jobs/templates/driver_notebook.py +177 -0
ads/jobs/templates/driver_oci.py +500 -0
ads/jobs/templates/driver_python.py +48 -0
ads/jobs/templates/driver_pytorch.py +852 -0
ads/jobs/templates/driver_utils.py +615 -0
ads/jobs/templates/hostname_from_env.c +55 -0
ads/jobs/templates/oci_metrics.py +181 -0
ads/jobs/utils.py +104 -0
ads/llm/__init__.py +28 -0
ads/llm/autogen/__init__.py +2 -0
ads/llm/autogen/constants.py +15 -0
ads/llm/autogen/reports/__init__.py +2 -0
ads/llm/autogen/reports/base.py +67 -0
ads/llm/autogen/reports/data.py +103 -0
ads/llm/autogen/reports/session.py +526 -0
ads/llm/autogen/reports/templates/chat_box.html +13 -0
ads/llm/autogen/reports/templates/chat_box_lt.html +5 -0
ads/llm/autogen/reports/templates/chat_box_rt.html +6 -0
ads/llm/autogen/reports/utils.py +56 -0
ads/llm/autogen/v02/__init__.py +4 -0
ads/llm/autogen/v02/client.py +295 -0
ads/llm/autogen/v02/log_handlers/__init__.py +2 -0
ads/llm/autogen/v02/log_handlers/oci_file_handler.py +83 -0
ads/llm/autogen/v02/loggers/__init__.py +6 -0
ads/llm/autogen/v02/loggers/metric_logger.py +320 -0
ads/llm/autogen/v02/loggers/session_logger.py +580 -0
ads/llm/autogen/v02/loggers/utils.py +86 -0
ads/llm/autogen/v02/runtime_logging.py +163 -0
ads/llm/chain.py +268 -0
ads/llm/chat_template.py +31 -0
ads/llm/deploy.py +63 -0
ads/llm/guardrails/__init__.py +5 -0
ads/llm/guardrails/base.py +442 -0
ads/llm/guardrails/huggingface.py +44 -0
ads/llm/langchain/__init__.py +5 -0
ads/llm/langchain/plugins/__init__.py +5 -0
ads/llm/langchain/plugins/chat_models/__init__.py +5 -0
ads/llm/langchain/plugins/chat_models/oci_data_science.py +1027 -0
ads/llm/langchain/plugins/embeddings/__init__.py +4 -0
ads/llm/langchain/plugins/embeddings/oci_data_science_model_deployment_endpoint.py +184 -0
ads/llm/langchain/plugins/llms/__init__.py +5 -0
ads/llm/langchain/plugins/llms/oci_data_science_model_deployment_endpoint.py +979 -0
ads/llm/requirements.txt +3 -0
ads/llm/serialize.py +219 -0
ads/llm/serializers/__init__.py +0 -0
ads/llm/serializers/retrieval_qa.py +153 -0
ads/llm/serializers/runnable_parallel.py +27 -0
ads/llm/templates/score_chain.jinja2 +155 -0
ads/llm/templates/tool_chat_template_hermes.jinja +130 -0
ads/llm/templates/tool_chat_template_mistral_parallel.jinja +94 -0
ads/model/__init__.py +52 -0
ads/model/artifact.py +573 -0
ads/model/artifact_downloader.py +254 -0
ads/model/artifact_uploader.py +267 -0
ads/model/base_properties.py +238 -0
ads/model/common/.model-ignore +66 -0
ads/model/common/__init__.py +5 -0
ads/model/common/utils.py +142 -0
ads/model/datascience_model.py +2635 -0
ads/model/deployment/__init__.py +20 -0
ads/model/deployment/common/__init__.py +5 -0
ads/model/deployment/common/utils.py +308 -0
ads/model/deployment/model_deployer.py +466 -0
ads/model/deployment/model_deployment.py +1846 -0
ads/model/deployment/model_deployment_infrastructure.py +671 -0
ads/model/deployment/model_deployment_properties.py +493 -0
ads/model/deployment/model_deployment_runtime.py +838 -0
ads/model/extractor/__init__.py +5 -0
ads/model/extractor/automl_extractor.py +74 -0
ads/model/extractor/embedding_onnx_extractor.py +80 -0
ads/model/extractor/huggingface_extractor.py +88 -0
ads/model/extractor/keras_extractor.py +84 -0
ads/model/extractor/lightgbm_extractor.py +93 -0
ads/model/extractor/model_info_extractor.py +114 -0
ads/model/extractor/model_info_extractor_factory.py +105 -0
ads/model/extractor/pytorch_extractor.py +87 -0
ads/model/extractor/sklearn_extractor.py +112 -0
ads/model/extractor/spark_extractor.py +89 -0
ads/model/extractor/tensorflow_extractor.py +85 -0
ads/model/extractor/xgboost_extractor.py +94 -0
ads/model/framework/__init__.py +5 -0
ads/model/framework/automl_model.py +178 -0
ads/model/framework/embedding_onnx_model.py +438 -0
ads/model/framework/huggingface_model.py +399 -0
ads/model/framework/lightgbm_model.py +266 -0
ads/model/framework/pytorch_model.py +266 -0
ads/model/framework/sklearn_model.py +250 -0
ads/model/framework/spark_model.py +326 -0
ads/model/framework/tensorflow_model.py +254 -0
ads/model/framework/xgboost_model.py +258 -0
ads/model/generic_model.py +3518 -0
ads/model/model_artifact_boilerplate/README.md +381 -0
ads/model/model_artifact_boilerplate/__init__.py +5 -0
ads/model/model_artifact_boilerplate/artifact_introspection_test/__init__.py +5 -0
ads/model/model_artifact_boilerplate/artifact_introspection_test/model_artifact_validate.py +427 -0
ads/model/model_artifact_boilerplate/artifact_introspection_test/requirements.txt +2 -0
ads/model/model_artifact_boilerplate/runtime.yaml +7 -0
ads/model/model_artifact_boilerplate/score.py +61 -0
ads/model/model_file_description_schema.json +68 -0
ads/model/model_introspect.py +331 -0
ads/model/model_metadata.py +1810 -0
ads/model/model_metadata_mixin.py +460 -0
ads/model/model_properties.py +63 -0
ads/model/model_version_set.py +739 -0
ads/model/runtime/__init__.py +5 -0
ads/model/runtime/env_info.py +306 -0
ads/model/runtime/model_deployment_details.py +37 -0
ads/model/runtime/model_provenance_details.py +58 -0
ads/model/runtime/runtime_info.py +81 -0
ads/model/runtime/schemas/inference_env_info_schema.yaml +16 -0
ads/model/runtime/schemas/model_provenance_schema.yaml +36 -0
ads/model/runtime/schemas/training_env_info_schema.yaml +16 -0
ads/model/runtime/utils.py +201 -0
ads/model/serde/__init__.py +5 -0
ads/model/serde/common.py +40 -0
ads/model/serde/model_input.py +547 -0
ads/model/serde/model_serializer.py +1184 -0
ads/model/service/__init__.py +5 -0
ads/model/service/oci_datascience_model.py +1076 -0
ads/model/service/oci_datascience_model_deployment.py +500 -0
ads/model/service/oci_datascience_model_version_set.py +176 -0
ads/model/transformer/__init__.py +5 -0
ads/model/transformer/onnx_transformer.py +324 -0
ads/mysqldb/__init__.py +5 -0
ads/mysqldb/mysql_db.py +227 -0
ads/opctl/__init__.py +18 -0
ads/opctl/anomaly_detection.py +11 -0
ads/opctl/backend/__init__.py +5 -0
ads/opctl/backend/ads_dataflow.py +353 -0
ads/opctl/backend/ads_ml_job.py +710 -0
ads/opctl/backend/ads_ml_pipeline.py +164 -0
ads/opctl/backend/ads_model_deployment.py +209 -0
ads/opctl/backend/base.py +146 -0
ads/opctl/backend/local.py +1053 -0
ads/opctl/backend/marketplace/__init__.py +9 -0
ads/opctl/backend/marketplace/helm_helper.py +173 -0
ads/opctl/backend/marketplace/local_marketplace.py +271 -0
ads/opctl/backend/marketplace/marketplace_backend_runner.py +71 -0
ads/opctl/backend/marketplace/marketplace_operator_interface.py +44 -0
ads/opctl/backend/marketplace/marketplace_operator_runner.py +24 -0
ads/opctl/backend/marketplace/marketplace_utils.py +212 -0
ads/opctl/backend/marketplace/models/__init__.py +5 -0
ads/opctl/backend/marketplace/models/bearer_token.py +94 -0
ads/opctl/backend/marketplace/models/marketplace_type.py +70 -0
ads/opctl/backend/marketplace/models/ocir_details.py +56 -0
ads/opctl/backend/marketplace/prerequisite_checker.py +238 -0
ads/opctl/cli.py +707 -0
ads/opctl/cmds.py +869 -0
ads/opctl/conda/__init__.py +5 -0
ads/opctl/conda/cli.py +193 -0
ads/opctl/conda/cmds.py +749 -0
ads/opctl/conda/config.yaml +34 -0
ads/opctl/conda/manifest_template.yaml +13 -0
ads/opctl/conda/multipart_uploader.py +188 -0
ads/opctl/conda/pack.py +89 -0
ads/opctl/config/__init__.py +5 -0
ads/opctl/config/base.py +57 -0
ads/opctl/config/diagnostics/__init__.py +5 -0
ads/opctl/config/diagnostics/distributed/default_requirements_config.yaml +62 -0
ads/opctl/config/merger.py +255 -0
ads/opctl/config/resolver.py +297 -0
ads/opctl/config/utils.py +79 -0
ads/opctl/config/validator.py +17 -0
ads/opctl/config/versioner.py +68 -0
ads/opctl/config/yaml_parsers/__init__.py +7 -0
ads/opctl/config/yaml_parsers/base.py +58 -0
ads/opctl/config/yaml_parsers/distributed/__init__.py +7 -0
ads/opctl/config/yaml_parsers/distributed/yaml_parser.py +201 -0
ads/opctl/constants.py +66 -0
ads/opctl/decorator/__init__.py +5 -0
ads/opctl/decorator/common.py +129 -0
ads/opctl/diagnostics/__init__.py +5 -0
ads/opctl/diagnostics/__main__.py +25 -0
ads/opctl/diagnostics/check_distributed_job_requirements.py +212 -0
ads/opctl/diagnostics/check_requirements.py +144 -0
ads/opctl/diagnostics/requirement_exception.py +9 -0
ads/opctl/distributed/README.md +109 -0
ads/opctl/distributed/__init__.py +5 -0
ads/opctl/distributed/certificates.py +32 -0
ads/opctl/distributed/cli.py +207 -0
ads/opctl/distributed/cmds.py +731 -0
ads/opctl/distributed/common/__init__.py +5 -0
ads/opctl/distributed/common/abstract_cluster_provider.py +449 -0
ads/opctl/distributed/common/abstract_framework_spec_builder.py +88 -0
ads/opctl/distributed/common/cluster_config_helper.py +103 -0
ads/opctl/distributed/common/cluster_provider_factory.py +21 -0
ads/opctl/distributed/common/cluster_runner.py +54 -0
ads/opctl/distributed/common/framework_factory.py +29 -0
ads/opctl/docker/Dockerfile.job +103 -0
ads/opctl/docker/Dockerfile.job.arm +107 -0
ads/opctl/docker/Dockerfile.job.gpu +175 -0
ads/opctl/docker/base-env.yaml +13 -0
ads/opctl/docker/cuda.repo +6 -0
ads/opctl/docker/operator/.dockerignore +0 -0
ads/opctl/docker/operator/Dockerfile +41 -0
ads/opctl/docker/operator/Dockerfile.gpu +85 -0
ads/opctl/docker/operator/cuda.repo +6 -0
ads/opctl/docker/operator/environment.yaml +8 -0
ads/opctl/forecast.py +11 -0
ads/opctl/index.yaml +3 -0
ads/opctl/model/__init__.py +5 -0
ads/opctl/model/cli.py +65 -0
ads/opctl/model/cmds.py +73 -0
ads/opctl/operator/README.md +4 -0
ads/opctl/operator/__init__.py +31 -0
ads/opctl/operator/cli.py +344 -0
ads/opctl/operator/cmd.py +596 -0
ads/opctl/operator/common/__init__.py +5 -0
ads/opctl/operator/common/backend_factory.py +460 -0
ads/opctl/operator/common/const.py +27 -0
ads/opctl/operator/common/data/synthetic.csv +16001 -0
ads/opctl/operator/common/dictionary_merger.py +148 -0
ads/opctl/operator/common/errors.py +42 -0
ads/opctl/operator/common/operator_config.py +99 -0
ads/opctl/operator/common/operator_loader.py +811 -0
ads/opctl/operator/common/operator_schema.yaml +130 -0
ads/opctl/operator/common/operator_yaml_generator.py +152 -0
ads/opctl/operator/common/utils.py +208 -0
ads/opctl/operator/lowcode/__init__.py +5 -0
ads/opctl/operator/lowcode/anomaly/MLoperator +16 -0
ads/opctl/operator/lowcode/anomaly/README.md +207 -0
ads/opctl/operator/lowcode/anomaly/__init__.py +5 -0
ads/opctl/operator/lowcode/anomaly/__main__.py +103 -0
ads/opctl/operator/lowcode/anomaly/cmd.py +35 -0
ads/opctl/operator/lowcode/anomaly/const.py +167 -0
ads/opctl/operator/lowcode/anomaly/environment.yaml +10 -0
ads/opctl/operator/lowcode/anomaly/model/__init__.py +5 -0
ads/opctl/operator/lowcode/anomaly/model/anomaly_dataset.py +146 -0
ads/opctl/operator/lowcode/anomaly/model/anomaly_merlion.py +162 -0
ads/opctl/operator/lowcode/anomaly/model/automlx.py +99 -0
ads/opctl/operator/lowcode/anomaly/model/autots.py +115 -0
ads/opctl/operator/lowcode/anomaly/model/base_model.py +404 -0
ads/opctl/operator/lowcode/anomaly/model/factory.py +110 -0
ads/opctl/operator/lowcode/anomaly/model/isolationforest.py +78 -0
ads/opctl/operator/lowcode/anomaly/model/oneclasssvm.py +78 -0
ads/opctl/operator/lowcode/anomaly/model/randomcutforest.py +120 -0
ads/opctl/operator/lowcode/anomaly/model/tods.py +119 -0
ads/opctl/operator/lowcode/anomaly/operator_config.py +127 -0
ads/opctl/operator/lowcode/anomaly/schema.yaml +401 -0
ads/opctl/operator/lowcode/anomaly/utils.py +88 -0
ads/opctl/operator/lowcode/common/__init__.py +5 -0
ads/opctl/operator/lowcode/common/const.py +10 -0
ads/opctl/operator/lowcode/common/data.py +116 -0
ads/opctl/operator/lowcode/common/errors.py +47 -0
ads/opctl/operator/lowcode/common/transformations.py +296 -0
ads/opctl/operator/lowcode/common/utils.py +384 -0
ads/opctl/operator/lowcode/feature_store_marketplace/MLoperator +13 -0
ads/opctl/operator/lowcode/feature_store_marketplace/README.md +30 -0
ads/opctl/operator/lowcode/feature_store_marketplace/__init__.py +5 -0
ads/opctl/operator/lowcode/feature_store_marketplace/__main__.py +116 -0
ads/opctl/operator/lowcode/feature_store_marketplace/cmd.py +85 -0
ads/opctl/operator/lowcode/feature_store_marketplace/const.py +15 -0
ads/opctl/operator/lowcode/feature_store_marketplace/environment.yaml +0 -0
ads/opctl/operator/lowcode/feature_store_marketplace/models/__init__.py +4 -0
ads/opctl/operator/lowcode/feature_store_marketplace/models/apigw_config.py +32 -0
ads/opctl/operator/lowcode/feature_store_marketplace/models/db_config.py +43 -0
ads/opctl/operator/lowcode/feature_store_marketplace/models/mysql_config.py +120 -0
ads/opctl/operator/lowcode/feature_store_marketplace/models/serializable_yaml_model.py +34 -0
ads/opctl/operator/lowcode/feature_store_marketplace/operator_utils.py +386 -0
ads/opctl/operator/lowcode/feature_store_marketplace/schema.yaml +160 -0
ads/opctl/operator/lowcode/forecast/MLoperator +25 -0
ads/opctl/operator/lowcode/forecast/README.md +209 -0
ads/opctl/operator/lowcode/forecast/__init__.py +5 -0
ads/opctl/operator/lowcode/forecast/__main__.py +89 -0
ads/opctl/operator/lowcode/forecast/cmd.py +40 -0
ads/opctl/operator/lowcode/forecast/const.py +92 -0
ads/opctl/operator/lowcode/forecast/environment.yaml +20 -0
ads/opctl/operator/lowcode/forecast/errors.py +26 -0
ads/opctl/operator/lowcode/forecast/model/__init__.py +5 -0
ads/opctl/operator/lowcode/forecast/model/arima.py +279 -0
ads/opctl/operator/lowcode/forecast/model/automlx.py +553 -0
ads/opctl/operator/lowcode/forecast/model/autots.py +312 -0
ads/opctl/operator/lowcode/forecast/model/base_model.py +875 -0
ads/opctl/operator/lowcode/forecast/model/factory.py +106 -0
ads/opctl/operator/lowcode/forecast/model/forecast_datasets.py +492 -0
ads/opctl/operator/lowcode/forecast/model/ml_forecast.py +243 -0
ads/opctl/operator/lowcode/forecast/model/neuralprophet.py +482 -0
ads/opctl/operator/lowcode/forecast/model/prophet.py +445 -0
ads/opctl/operator/lowcode/forecast/model_evaluator.py +244 -0
ads/opctl/operator/lowcode/forecast/operator_config.py +234 -0
ads/opctl/operator/lowcode/forecast/schema.yaml +506 -0
ads/opctl/operator/lowcode/forecast/utils.py +397 -0
ads/opctl/operator/lowcode/forecast/whatifserve/__init__.py +7 -0
ads/opctl/operator/lowcode/forecast/whatifserve/deployment_manager.py +285 -0
ads/opctl/operator/lowcode/forecast/whatifserve/score.py +246 -0
ads/opctl/operator/lowcode/pii/MLoperator +17 -0
ads/opctl/operator/lowcode/pii/README.md +208 -0
ads/opctl/operator/lowcode/pii/__init__.py +5 -0
ads/opctl/operator/lowcode/pii/__main__.py +78 -0
ads/opctl/operator/lowcode/pii/cmd.py +39 -0
ads/opctl/operator/lowcode/pii/constant.py +84 -0
ads/opctl/operator/lowcode/pii/environment.yaml +17 -0
ads/opctl/operator/lowcode/pii/errors.py +27 -0
ads/opctl/operator/lowcode/pii/model/__init__.py +5 -0
ads/opctl/operator/lowcode/pii/model/factory.py +82 -0
ads/opctl/operator/lowcode/pii/model/guardrails.py +167 -0
ads/opctl/operator/lowcode/pii/model/pii.py +145 -0
ads/opctl/operator/lowcode/pii/model/processor/__init__.py +34 -0
ads/opctl/operator/lowcode/pii/model/processor/email_replacer.py +34 -0
ads/opctl/operator/lowcode/pii/model/processor/mbi_replacer.py +35 -0
ads/opctl/operator/lowcode/pii/model/processor/name_replacer.py +225 -0
ads/opctl/operator/lowcode/pii/model/processor/number_replacer.py +73 -0
ads/opctl/operator/lowcode/pii/model/processor/remover.py +26 -0
ads/opctl/operator/lowcode/pii/model/report.py +487 -0
ads/opctl/operator/lowcode/pii/operator_config.py +95 -0
ads/opctl/operator/lowcode/pii/schema.yaml +108 -0
ads/opctl/operator/lowcode/pii/utils.py +43 -0
ads/opctl/operator/lowcode/recommender/MLoperator +16 -0
ads/opctl/operator/lowcode/recommender/README.md +206 -0
ads/opctl/operator/lowcode/recommender/__init__.py +5 -0
ads/opctl/operator/lowcode/recommender/__main__.py +82 -0
ads/opctl/operator/lowcode/recommender/cmd.py +33 -0
ads/opctl/operator/lowcode/recommender/constant.py +30 -0
ads/opctl/operator/lowcode/recommender/environment.yaml +11 -0
ads/opctl/operator/lowcode/recommender/model/base_model.py +212 -0
ads/opctl/operator/lowcode/recommender/model/factory.py +56 -0
ads/opctl/operator/lowcode/recommender/model/recommender_dataset.py +25 -0
ads/opctl/operator/lowcode/recommender/model/svd.py +106 -0
ads/opctl/operator/lowcode/recommender/operator_config.py +81 -0
ads/opctl/operator/lowcode/recommender/schema.yaml +265 -0
ads/opctl/operator/lowcode/recommender/utils.py +13 -0
ads/opctl/operator/runtime/__init__.py +5 -0
ads/opctl/operator/runtime/const.py +17 -0
ads/opctl/operator/runtime/container_runtime_schema.yaml +50 -0
ads/opctl/operator/runtime/marketplace_runtime.py +50 -0
ads/opctl/operator/runtime/python_marketplace_runtime_schema.yaml +21 -0
ads/opctl/operator/runtime/python_runtime_schema.yaml +21 -0
ads/opctl/operator/runtime/runtime.py +115 -0
ads/opctl/schema.yaml.yml +36 -0
ads/opctl/script.py +40 -0
ads/opctl/spark/__init__.py +5 -0
ads/opctl/spark/cli.py +43 -0
ads/opctl/spark/cmds.py +147 -0
ads/opctl/templates/diagnostic_report_template.jinja2 +102 -0
ads/opctl/utils.py +344 -0
ads/oracledb/__init__.py +5 -0
ads/oracledb/oracle_db.py +346 -0
ads/pipeline/__init__.py +39 -0
ads/pipeline/ads_pipeline.py +2279 -0
ads/pipeline/ads_pipeline_run.py +772 -0
ads/pipeline/ads_pipeline_step.py +605 -0
ads/pipeline/builders/__init__.py +5 -0
ads/pipeline/builders/infrastructure/__init__.py +5 -0
ads/pipeline/builders/infrastructure/custom_script.py +32 -0
ads/pipeline/cli.py +119 -0
ads/pipeline/extension.py +291 -0
ads/pipeline/schema/__init__.py +5 -0
ads/pipeline/schema/cs_step_schema.json +35 -0
ads/pipeline/schema/ml_step_schema.json +31 -0
ads/pipeline/schema/pipeline_schema.json +71 -0
ads/pipeline/visualizer/__init__.py +5 -0
ads/pipeline/visualizer/base.py +570 -0
ads/pipeline/visualizer/graph_renderer.py +272 -0
ads/pipeline/visualizer/text_renderer.py +84 -0
ads/secrets/__init__.py +11 -0
ads/secrets/adb.py +386 -0
ads/secrets/auth_token.py +86 -0
ads/secrets/big_data_service.py +365 -0
ads/secrets/mysqldb.py +149 -0
ads/secrets/oracledb.py +160 -0
ads/secrets/secrets.py +407 -0
ads/telemetry/__init__.py +7 -0
ads/telemetry/base.py +69 -0
ads/telemetry/client.py +125 -0
ads/telemetry/telemetry.py +257 -0
ads/templates/dataflow_pyspark.jinja2 +13 -0
ads/templates/dataflow_sparksql.jinja2 +22 -0
ads/templates/func.jinja2 +20 -0
ads/templates/schemas/openapi.json +1740 -0
ads/templates/score-pkl.jinja2 +173 -0
ads/templates/score.jinja2 +322 -0
ads/templates/score_embedding_onnx.jinja2 +202 -0
ads/templates/score_generic.jinja2 +165 -0
ads/templates/score_huggingface_pipeline.jinja2 +217 -0
ads/templates/score_lightgbm.jinja2 +185 -0
ads/templates/score_onnx.jinja2 +407 -0
ads/templates/score_onnx_new.jinja2 +473 -0
ads/templates/score_oracle_automl.jinja2 +185 -0
ads/templates/score_pyspark.jinja2 +154 -0
ads/templates/score_pytorch.jinja2 +219 -0
ads/templates/score_scikit-learn.jinja2 +184 -0
ads/templates/score_tensorflow.jinja2 +184 -0
ads/templates/score_xgboost.jinja2 +178 -0
ads/text_dataset/__init__.py +5 -0
ads/text_dataset/backends.py +211 -0
ads/text_dataset/dataset.py +445 -0
ads/text_dataset/extractor.py +207 -0
ads/text_dataset/options.py +53 -0
ads/text_dataset/udfs.py +22 -0
ads/text_dataset/utils.py +49 -0
ads/type_discovery/__init__.py +9 -0
ads/type_discovery/abstract_detector.py +21 -0
ads/type_discovery/constant_detector.py +41 -0
ads/type_discovery/continuous_detector.py +54 -0
ads/type_discovery/credit_card_detector.py +99 -0
ads/type_discovery/datetime_detector.py +92 -0
ads/type_discovery/discrete_detector.py +118 -0
ads/type_discovery/document_detector.py +146 -0
ads/type_discovery/ip_detector.py +68 -0
ads/type_discovery/latlon_detector.py +90 -0
ads/type_discovery/phone_number_detector.py +63 -0
ads/type_discovery/type_discovery_driver.py +87 -0
ads/type_discovery/typed_feature.py +594 -0
ads/type_discovery/unknown_detector.py +41 -0
ads/type_discovery/zipcode_detector.py +48 -0
ads/vault/__init__.py +7 -0
ads/vault/vault.py +237 -0
{oracle_ads-2.13.9rc0.dist-info → oracle_ads-2.13.9rc1.dist-info}/METADATA +150 -150
oracle_ads-2.13.9rc1.dist-info/RECORD +858 -0
{oracle_ads-2.13.9rc0.dist-info → oracle_ads-2.13.9rc1.dist-info}/WHEEL +1 -2
{oracle_ads-2.13.9rc0.dist-info → oracle_ads-2.13.9rc1.dist-info}/entry_points.txt +2 -1
oracle_ads-2.13.9rc0.dist-info/RECORD +0 -9
oracle_ads-2.13.9rc0.dist-info/top_level.txt +0 -1
{oracle_ads-2.13.9rc0.dist-info → oracle_ads-2.13.9rc1.dist-info}/licenses/LICENSE.txt +0 -0

ads/dataset/sampled_dataset.py ADDED Viewed

@@ -0,0 +1,1050 @@
+#!/usr/bin/env python
+# -*- coding: utf-8; -*-
+# Copyright (c) 2020, 2024 Oracle and/or its affiliates.
+# Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
+import matplotlib
+import matplotlib.pyplot as plt
+import numpy as np
+import pandas as pd
+import itertools
+from matplotlib.patches import BoxStyle
+from ads.dataset.label_encoder import DataFrameLabelEncoder
+from sklearn.feature_selection import SelectKBest
+from sklearn.feature_selection import chi2
+from sklearn.preprocessing import MinMaxScaler
+import matplotlib.font_manager
+from ads.common import utils, logger
+from ads.dataset.helper import (
+    fix_column_names,
+    convert_columns,
+    get_feature_type,
+    convert_to_html,
+)
+from ads.dataset.plot import Plotting
+from ads.dataset.progress import DummyProgressBar
+from ads.dataset.timeseries import Timeseries
+from ads.type_discovery.type_discovery_driver import TypeDiscoveryDriver
+from ads.type_discovery.typed_feature import (
+    DateTimeTypedFeature,
+    ContinuousTypedFeature,
+    GISTypedFeature,
+    ConstantTypedFeature,
+    CreditCardTypedFeature,
+    ZipcodeTypedFeature,
+    PhoneNumberTypedFeature,
+    OrdinalTypedFeature,
+    CategoricalTypedFeature,
+    DocumentTypedFeature,
+    AddressTypedFeature,
+)
+from ads.common.decorator.runtime_dependency import (
+    runtime_dependency,
+    OptionalDependency,
+)
+NATURAL_EARTH_DATASET = "naturalearth_lowres"
+class PandasDataset(object):
+    """
+    This class provides APIs that can work on a sampled dataset.
+    """
+    def __init__(
+        self,
+        sampled_df,
+        type_discovery=True,
+        types={},
+        metadata=None,
+        progress=DummyProgressBar(),
+    ):
+        self.client = None
+        self.sampled_df = fix_column_names(sampled_df)
+        self.correlation = None
+        self.feature_dist_html_dict = {}
+        self.feature_types = metadata if metadata is not None else {}
+        self.world = None
+        self.numeric_columns = self.sampled_df.select_dtypes(
+            utils.numeric_pandas_dtypes()
+        ).columns.values
+        # run type discovery
+        if len(self.feature_types) == 0:
+            if len(types) != 0:
+                # update feature types as it is for the types given by user
+                self._update_feature_types(types.keys())
+            if type_discovery:
+                try:
+                    #
+                    # perform type-discovery
+                    #
+                    progress.update("Running data type discovery")
+                    tdd = TypeDiscoveryDriver()
+                    self.feature_types = {
+                        col_name: tdd.discover(col_name, col_vals)
+                        for col_name, col_vals in self.sampled_df.items()
+                        if col_name not in types
+                    }
+                except Exception as e:
+                    print(
+                        f"An error occured while performing typed discovery on this dataset. Try running again with "
+                        f"`type_discovery=False`"
+                    )
+                    raise e
+        # convert dataframe columns to the data types discovered.
+        self.sampled_df = convert_columns(self.sampled_df, self.feature_types)
+        # update feature types for rest of the columns - no type discovery, does not include user overrides
+        self._update_feature_types(
+            set(self.sampled_df.columns.values) - set(self.feature_types.keys())
+        )
+        self.sampled_df = self.sampled_df.reset_index(drop=True)
+    def _find_feature_subset(self, df, target_name, include_n_features=32):
+        if len(df.columns) <= include_n_features:
+            return self.sampled_df
+        else:
+            try:
+                y = df[target_name]
+                X = df.drop(columns=[target_name])
+                X_columns = X.columns
+                X = X.fillna(X.mode().iloc[0])
+                X = DataFrameLabelEncoder().fit_transform(X)
+                X = MinMaxScaler().fit_transform(X)
+                from sklearn.impute import SimpleImputer
+                imp_most_freq = SimpleImputer(strategy="most_frequent")
+                X = imp_most_freq.fit_transform(X)
+                est = SelectKBest(score_func=chi2, k=include_n_features)
+                est.fit_transform(X, y)
+                subset_features = [self.target.name] + list(
+                    itertools.compress(X_columns, est.get_support())
+                )
+                return self.sampled_df.filter(subset_features, axis=1)
+            except Exception as e:
+                print("_find_feature_subset failed: ", str(e))
+                return pd.DataFrame()
+    def _update_multiple_outputs(self, out, msg):
+        if isinstance(out, (list, tuple)):
+            for o in out:
+                o.value = msg
+        else:
+            self._update_multiple_outputs([out], msg)
+    def _calculate_dataset_statistics(self, is_wide_dataset, out):
+        #
+        # first the missing values for non-wide datasets
+        #
+        df_missing = pd.DataFrame()
+        df_skew = pd.DataFrame()
+        if is_wide_dataset:
+            df_missing = pd.DataFrame()  # empty dataframe when not calculating
+            df_skew = pd.DataFrame()  # empty dataframe when not calculating
+        else:
+            #
+            # count missing values
+            #
+            d = {column_name: np.nan for column_name in self.df.columns}  # default
+            for column_name in self.df.columns:
+                self._update_multiple_outputs(
+                    out, f"calculating missing values (<code>{column_name}</code>)..."
+                )
+                d[column_name] = self.df[column_name].isna().sum()
+            df_missing = pd.DataFrame.from_dict(d, orient="index", columns=["missing"])
+            #
+            # calculate skew
+            #
+            d = {column_name: np.nan for column_name in self.df.columns}  # default
+            for column_name in self.numeric_columns:
+                self._update_multiple_outputs(
+                    out, f"calculating skew (<code>{column_name}</code>)..."
+                )
+                if len(self.df[column_name].dropna()) > 0:
+                    d[column_name] = self.df[column_name].dropna().skew()
+                else:
+                    d[column_name] = np.nan
+            df_skew = pd.DataFrame.from_dict(d, orient="index", columns=["skew"])
+            self._update_multiple_outputs(out, "calculating dataset statistics...")
+            for col in self.df.columns:
+                if df_missing["missing"][col] == len(self.df[col]):
+                    self.df[col] = self.df[col].astype("object")
+        #
+        # compute descriptive dataset statistics
+        df_stats = self.df.describe(include="all").round(2)
+        self._update_multiple_outputs(out, "transpose dataset statistics...")
+        df_stats = df_stats.transpose()
+        self._update_multiple_outputs(out, "finalizing dataset statistics...")
+        df_stats = df_stats.fillna("")
+        #
+        # we join the stats with missing df if we computed that
+        #
+        self._update_multiple_outputs(
+            out, "Assembling statistics into single result..."
+        )
+        if not df_missing.empty:
+            df_stats = df_stats.join(df_missing).fillna("")
+        if not df_skew.empty:
+            df_stats = df_stats.join(df_skew).fillna("")
+        return df_stats
+    def _generate_features_html(
+        self, is_wide_dataset, n_features, df_stats, visualizations_follow
+    ):
+        html = utils.get_bootstrap_styles()
+        if is_wide_dataset:
+            html += """<p>The dataset has too many columns ({:,}) to
+                efficiently show feature visualizations, instead only showing table of
+                statistics</p>""".format(
+                n_features
+            )
+        html += "<p><b>&#x2022; Note</b> these are computed on the entire dataset.</p>"
+        html += "<hr>"
+        html += (
+            df_stats.replace(np.nan, "")
+            .style.set_table_styles(utils.get_dataframe_styles(max_width=125))
+            .set_table_attributes("class=table")
+            .format(
+                lambda x: "{:.8g}".format(x)
+                if ("float" in str(type(x))) or ("int" in str(type(x)))
+                else x
+            )
+            .to_html()
+        )
+        if visualizations_follow:
+            html += "<br><hr><h2>Feature Visualizations...</h2>"
+        return html
+    def _generate_warnings_html(
+        self, is_wide_dataset, n_rows, n_features, df_stats, out, accordion
+    ):
+        #
+        # create the "Warnings" accordion section:
+        #  - show high cardinal categoricals
+        #  - show high missing values
+        #  - large number of zeros (not for wide datasets - slow to compute)
+        #
+        #
+        accum = []
+        ignored_feature_types = ["document"]
+        # more than 5% missing is a warning
+        #
+        if "missing" in df_stats.columns:
+            df_missing = df_stats[["missing"]][df_stats["missing"] != ""]
+            if not df_missing.empty:
+                # ignore document types
+                for column_name, missing in df_missing.iterrows():
+                    if (
+                        self.feature_types[column_name]["type"]
+                        not in ignored_feature_types
+                    ):
+                        missing_values = float(missing[0])
+                        missing_pct = 100 * missing_values / n_rows
+                        if missing_pct >= 5:
+                            accum.append(
+                                {
+                                    "label": "missing",
+                                    "message": f"<code>{column_name}</code> has {missing_values} ({missing_pct:.1f}%) missing values. Consider remove the column or replace null values.",
+                                }
+                            )
+                        if missing_pct == 100:
+                            accum.append(
+                                {
+                                    "label": "missing",
+                                    "message": f"<code>{column_name}</code> is excluded from correlation computation due to {missing_values} ({missing_pct:.1f}%) missing values.",
+                                }
+                            )
+        # abs skew > 20 skewness warning issues
+        #
+        if "skew" in df_stats.columns:
+            df_skew = df_stats[["skew"]][df_stats["skew"] != ""]
+            if not df_skew.empty:
+                # ignore document types
+                for column_name, skew in df_skew.iterrows():
+                    if (
+                        self.feature_types[column_name]["type"]
+                        not in ignored_feature_types
+                    ):
+                        skewness = float(skew[0])
+                        if abs(skewness) >= 20:
+                            accum.append(
+                                {
+                                    "label": "skew",
+                                    "message": f"<code>{column_name}</code> has skew of {skewness:.3f}",
+                                }
+                            )
+        # high cardinality (> 15 unique values) is a warning
+        #
+        if "unique" in df_stats.columns:
+            for column_name, count in df_stats[["unique"]][
+                df_stats["unique"] != ""
+            ].iterrows():
+                # ignore document types
+                if self.feature_types[column_name]["type"] not in ignored_feature_types:
+                    out.value = (
+                        f"Analyzing cadinalities (<code>{column_name}</code>)..."
+                    )
+                    unique = self.df[column_name].unique().shape[0]
+                    if unique == n_rows:
+                        accum.append(
+                            {
+                                "label": "high-cardinality",
+                                "message": f"<code>{column_name}</code> has a high cardinality: every value is distinct",
+                            }
+                        )
+                    elif unique > 15:
+                        accum.append(
+                            {
+                                "label": "high-cardinality",
+                                "message": f"<code>{column_name}</code> has a high cardinality: {unique} distinct values",
+                            }
+                        )
+        if not is_wide_dataset:
+            # more than 10% zeros is a warning
+            if "min" in df_stats.columns:
+                for column_name, count in df_stats[["min"]][
+                    df_stats["min"] != ""
+                ].iterrows():
+                    if (
+                        self.feature_types[column_name]["type"]
+                        not in ignored_feature_types
+                    ):
+                        out.value = f"Analyzing zeros (<code>{column_name}</code>)..."
+                        # we've filtered on only columns that have a min value of 0 for speed
+                        zeros = self.df[self.df[column_name] == 0].shape[0]
+                        zeros_pct = 100 * zeros / n_rows
+                        if zeros_pct >= 10:
+                            accum.append(
+                                {
+                                    "label": "zeros",
+                                    "message": f"<code>{column_name}</code> has {zeros} ({zeros_pct:.2f}%) zeros)",
+                                }
+                            )
+        #
+        # collect the warnings into an HTML presentation
+        #
+        out.value = "Assembling results..."
+        if accum:
+            html = utils.get_bootstrap_styles()
+            html += utils.highlight_text(f"{len(accum)} WARNING(S) found")
+            accordion.set_title(3, f"Warnings ({len(accum)})")
+            html += "<hr>"
+            tr_rows = [
+                f"""
+                <tr style="border-top:0">
+                       <td>
+                        {feature_warning['message']}
+                       <td>
+                        <span class="label label-{feature_warning['label']}">{feature_warning['label']}</span>
+                       </td>
+                </tr>
+            """.strip()
+                for feature_warning in accum
+            ]
+            html += """
+                <table style="width: 100%; max-width: 100%;">
+                <tbody>
+                {}
+                </tbody>
+                </table>""".format(
+                "\n".join(tr_rows)
+            )
+            return html
+        else:
+            return "<h3>No Feature warnings found</h3>"
+    def summary(self, feature_name=None):
+        """
+        Display list of features & their datatypes.
+        Shows the column name and the feature's meta_data if given a specific feature name.
+        Parameters
+        ----------
+        date_col: str
+            The name of the feature
+        Returns
+        -------
+        dict
+            a dictionary that contains requested information
+        """
+        feature_n_datatype = {}
+        list_of_dfs = []
+        if feature_name is None:
+            feature_n_datatype = {
+                col: self.feature_types[col].type
+                + "/"
+                + self.feature_types[col].low_level_type
+                for col in self.sampled_df.columns
+            }
+            df = pd.DataFrame(
+                feature_n_datatype.items(), columns=["Feature", "Datatype"]
+            )
+        else:
+            if isinstance(feature_name, (list, tuple, pd.core.indexes.base.Index)):
+                feature_names = list(feature_name)
+            else:
+                feature_names = [feature_name]
+            for col in feature_names:
+                if col in self.sampled_df.columns:
+                    feature_n_datatype[col] = {
+                        k: v
+                        for k, v in self.feature_types[col].meta_data.items()
+                        if k not in ["internal", "feature_name"]
+                    }
+                    new_dict = utils.flatten(feature_n_datatype[col])
+                    tmp_df = pd.DataFrame.from_dict(
+                        new_dict,
+                        orient="index",
+                        columns=[feature_names[feature_names.index(str(col))]],
+                    )
+                    list_of_dfs.append(tmp_df)
+                else:
+                    feature_n_datatype[col] = None
+            df = pd.concat(list_of_dfs, axis=1).transpose().fillna("-")
+            # get all the unique types from df
+            new_list_dfs = []
+            for t in df.type.unique():
+                new_list_dfs.append(df[df["type"] == t])
+            df = pd.concat(new_list_dfs)
+            # reorder columns in df
+            # get a list of columns
+            cols = list(df)
+            # move the column to head of list using index, pop and insert
+            cols.insert(0, cols.pop(cols.index("low_level_type")))
+            cols.insert(0, cols.pop(cols.index("type")))
+            df = df.loc[:, cols]
+        return df
+    def timeseries(self, date_col):
+        """
+        Supports any plotting operations where x=datetime.
+        Parameters
+        ----------
+        date_col: str
+            The name of the feature to plot
+        Returns
+        -------
+        func
+            a plotting object that contains a date column and dataframe
+        """
+        if date_col in self.feature_types and isinstance(
+            self.feature_types[date_col], DateTimeTypedFeature
+        ):
+            return Timeseries(date_col, self.sampled_df)
+        else:
+            raise ValueError("Not a date time column.")
+    def plot(
+        self, x, y=None, plot_type="infer", yscale=None, verbose=True, sample_size=0
+    ):
+        """
+        Supports plotting feature distribution, and relationship between features.
+        Parameters
+        ----------
+        x: str
+            The name of the feature to plot
+        y: str, optional
+            Name of the feature to plot against x
+        plot_type: str, default: infer
+            Override the inferred plot type for certain combinations of the data types of x and y.
+            By default, the best plot type is inferred based on x and y data types.
+            Valid values:
+            - box_plot - discrete feature vs continuous feature. Draw a box plot to show
+              distributions with respect to categories,
+            - scatter - continuous feature vs continuous feature. Draw a scatter plot
+              with possibility of several semantic groupings.
+        yscale : str, optional
+            One of {"linear", "log", "symlog", "logit"}.
+            The y axis scale type to apply. Can be used when either x or y is an ordinal feature.
+        verbose: bool, default True
+            Displays Note/Tips if True
+        """
+        sample_size = int(sample_size)
+        min_sample_size = 10000
+        if sample_size == 0:
+            sub_samp_size = len(self.sampled_df)
+            sub_samp_df = self.sampled_df
+        else:
+            sub_samp_size = max(min(sample_size, len(self.sampled_df)), min_sample_size)
+            sub_samp_df = self.sampled_df.sample(n=sub_samp_size)
+        plot = Plotting(
+            sub_samp_df, self.feature_types, x, y=y, plot_type=plot_type, yscale=yscale
+        )
+        if verbose:
+            if len(self.df) != sub_samp_size:
+                logger.info(f"Downsampling from dataset for graphing.")
+        return plot
+    @runtime_dependency(module="geopandas", install_from=OptionalDependency.GEO)
+    def plot_gis_scatter(self, lon="longitude", lat="latitude", ax=None):
+        """
+        Supports plotting Choropleth maps
+        Parameters
+        ----------
+        df: pandas dataframe
+            The dataframe to plot
+        x: str
+            The name of the feature to plot, usually the longitude
+        y: str
+            THe name of the feature to plot, usually the latitude
+        """
+        if lon in self.sampled_df.columns and lat in self.sampled_df.columns:
+            if ax is None:
+                fig, ax = plt.subplots(1, figsize=(10, 10))
+            gdf = geopandas.GeoDataFrame(
+                self.sampled_df,
+                geometry=geopandas.points_from_xy(
+                    self.sampled_df[lon], self.sampled_df[lat]
+                ),
+            )
+            world = geopandas.read_file(
+                geopandas.datasets.get_path(NATURAL_EARTH_DATASET)
+            )
+            ax1 = world.plot(ax=ax, color="lightgrey", linewidth=0.5, edgecolor="white")
+            gdf.plot(ax=ax1, color="blue", markersize=10)
+        else:
+            if len(self.sampled_df.columns) > 0:
+                logger.info(
+                    "The available latitude and longitude columns are: "
+                    + ", ".join(self.sampled_df.columns)
+                    + "."
+                )
+            else:
+                logger.info("There are no latitude and longitude columns available.")
+    """
+    Internal methods
+    """
+    def _update_feature_types(self, columns):
+        # Build feature types for columns which are not type discovered, by using the inferred type as it is
+        for column in columns:
+            self.feature_types[column] = get_feature_type(
+                column, self.sampled_df[column]
+            )
+    @runtime_dependency(module="geopandas", install_from=OptionalDependency.GEO)
+    def _visualize_feature_distribution(self, html_widget):
+        """
+        This function is called once per dataset to generate html for feature distribution plots.
+        """
+        if len(self.feature_dist_html_dict) > 0:
+            return self.feature_dist_html_dict
+        feature_dist_html = ""
+        figsize = (6.5, 2)
+        props = {
+            "boxstyle": BoxStyle("Round", pad=0),
+            "facecolor": "white",
+            "linestyle": "solid",
+            "linewidth": 0,
+            "edgecolor": "white",
+        }
+        font = {"size": 10}
+        matplotlib.rc("font", **font)
+        red_square = dict(markerfacecolor="r", marker="s")
+        blues = [
+            "#AED6F1",
+            "#85C1E9",
+            "#5DADE2",
+            "#3498DB",
+            "#2E86C1",
+            "#2874A6",
+            "#1B4F72",
+        ]
+        bright_colors = ["red", "green", "blue", "yellow", "green"]
+        for col_index, col in enumerate(self.sampled_df.columns):
+            feature_metadata = self.feature_types[col].meta_data
+            text = "\n".join(
+                [
+                    f"{col}\n",
+                    "  - type: {} ({})".format(
+                        self.feature_types[col].type,
+                        self.feature_types[col].low_level_type,
+                    ),
+                    "  - missing_percentage: {:.1f}%".format(
+                        self.feature_types[col].missing_percentage
+                    ),
+                ]
+            )
+            fig, ax = PandasDataset._init_fig_ax(figsize)
+            if isinstance(self.feature_types[col], ContinuousTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                self.sampled_df[col].plot(
+                    kind="box",
+                    vert=False,
+                    flierprops=red_square,
+                    ax=ax,
+                    figsize=figsize,
+                )
+            elif isinstance(self.feature_types[col], DateTimeTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                from matplotlib.dates import AutoDateFormatter, AutoDateLocator
+                loc = AutoDateLocator(interval_multiples=False)
+                ax.xaxis.set_major_locator(loc)
+                ax.xaxis.set_major_formatter(AutoDateFormatter(loc))
+                self.sampled_df[col].hist(
+                    bins=50,
+                    grid=False,
+                    xrot=45,
+                    ax=ax,
+                    rwidth=0.95,
+                    color=blues[-1],
+                    figsize=figsize,
+                )
+            elif isinstance(self.feature_types[col], GISTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                df = pd.DataFrame(
+                    feature_metadata["internal"]["sample"], columns=["lat", "lon"]
+                )
+                gdf = geopandas.GeoDataFrame(
+                    df, geometry=geopandas.points_from_xy(df["lon"], df["lat"])
+                )
+                if not self.world:
+                    self.world = geopandas.read_file(
+                        geopandas.datasets.get_path(NATURAL_EARTH_DATASET)
+                    )
+                self.world.plot(
+                    ax=ax, color="lightgrey", linewidth=0.5, edgecolor="white"
+                )
+                gdf.plot(ax=ax, color="blue", markersize=10)
+                ax.set_aspect("auto")
+            elif (
+                isinstance(self.feature_types[col], ConstantTypedFeature)
+                and feature_metadata["missing_percentage"] < 100
+            ):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                pd.Series(
+                    feature_metadata["internal"]["counts"],
+                    name=col,
+                    index=feature_metadata["internal"]["counts"].keys(),
+                ).plot(kind="barh", ax=ax, width=0.95, figsize=figsize, color=["black"])
+            elif isinstance(self.feature_types[col], CreditCardTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                sorted_by_value = sorted(
+                    feature_metadata["internal"]["counts"],
+                    key=feature_metadata["internal"]["counts"].get,
+                    reverse=True,
+                )
+                pd.Series(
+                    feature_metadata["internal"]["counts"],
+                    name=col,
+                    index=sorted_by_value,
+                ).plot(kind="bar", ax=ax, width=0.95, figsize=figsize, color=blues)
+            elif isinstance(self.feature_types[col], ZipcodeTypedFeature):
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                pd.Series(
+                    feature_metadata["internal"]["histogram"],
+                    name=col,
+                    index=feature_metadata["internal"]["histogram"].keys(),
+                ).plot(kind="bar", ax=ax, figsize=figsize, color=blues)
+            elif isinstance(self.feature_types[col], PhoneNumberTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                pd.Series(
+                    feature_metadata["internal"]["counts"],
+                    name=col,
+                    index=feature_metadata["internal"]["counts"].keys(),
+                ).plot(kind="bar", ax=ax, figsize=figsize, color=blues)
+            elif isinstance(self.feature_types[col], OrdinalTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                high_cardinality = feature_metadata["internal"]["high_cardinality"]
+                very_high_cardinality = feature_metadata["internal"][
+                    "very_high_cardinality"
+                ]
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                if very_high_cardinality:
+                    addrtext = "Samples:\n\n"
+                    addrtext += ", ".join(
+                        feature_metadata["internal"]["counts"]
+                        .keys()
+                        .astype(str)
+                        .to_list()[:6]
+                    )
+                    ax.text(
+                        0.05,
+                        0.95,
+                        addrtext,
+                        transform=ax.transAxes,
+                        fontsize=10,
+                        verticalalignment="top",
+                        bbox=props,
+                    )
+                    ax.axis("off")
+                else:
+                    if high_cardinality:
+                        text += (
+                            "\n\n  NOTE: plot has been capped\n  from %d to show only most\n  common top %d "
+                            "categories"
+                            % (
+                                feature_metadata["internal"]["unique"],
+                                len(feature_metadata["internal"]["counts"].keys()),
+                            )
+                        )
+                    if feature_metadata["internal"]["unique"] < 24:
+                        pd.Series(
+                            feature_metadata["internal"]["counts"],
+                            name=col,
+                            index=feature_metadata["internal"]["counts"].keys(),
+                        ).plot(
+                            kind="bar",
+                            ax=ax,
+                            width=0.90,
+                            color=blues[-1],
+                            figsize=figsize,
+                        )
+                    else:
+                        self.sampled_df[col].plot(
+                            kind="hist",
+                            grid=False,
+                            rwidth=0.95,
+                            ax=ax,
+                            color=blues[-1],
+                            figsize=figsize,
+                        )
+            elif isinstance(self.feature_types[col], CategoricalTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type, feature_metadata["stats"]
+                )
+                high_cardinality = feature_metadata["internal"]["high_cardinality"]
+                very_high_cardinality = feature_metadata["internal"][
+                    "very_high_cardinality"
+                ]
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                if very_high_cardinality:
+                    # grab the first few examples as strings
+                    addrtext = "Samples:\n\n"
+                    addrtext += "\n".join(
+                        [
+                            utils.ellipsis_strings(x, 65)
+                            for x in feature_metadata["internal"]["counts"]
+                            .keys()
+                            .astype(str)
+                            .to_list()[:3]
+                        ]
+                    )
+                    ax.text(
+                        0.05,
+                        0.95,
+                        addrtext,
+                        transform=ax.transAxes,
+                        fontsize=10,
+                        verticalalignment="top",
+                        bbox=props,
+                    )
+                    ax.axis("off")
+                else:
+                    text += PandasDataset._format_stats(
+                        self.feature_types[col].type, feature_metadata["stats"]
+                    )
+                    if high_cardinality:
+                        text += (
+                            "\n\n  NOTE: plot has been capped\n  to show only most\n  common top %d categories"
+                            % (len(feature_metadata["internal"]["counts"].keys()))
+                        )
+                    if feature_metadata["internal"]["unique"] == 2:
+                        #
+                        # binary
+                        #
+                        count_series = pd.Series(
+                            feature_metadata["internal"]["counts"],
+                            name=col,
+                            index=feature_metadata["internal"]["counts"].keys(),
+                        ).astype(float)
+                        ax1 = count_series.plot(
+                            kind="barh",
+                            ax=ax,
+                            width=0.95,
+                            figsize=figsize,
+                            color=[blues[0], blues[-1]],
+                        )
+                        # x_labels = utils.ellipsis_strings(feature_metadata['internal']['counts'].keys().astype(str))
+                        # ax1.set_xticklabels(x_labels)
+                    else:
+                        #
+                        # multiclass, potentially high cardinality
+                        #
+                        ax1 = pd.Series(
+                            feature_metadata["internal"]["counts"],
+                            name=col,
+                            index=feature_metadata["internal"]["counts"].keys(),
+                        ).plot(
+                            kind="bar", ax=ax, width=0.95, color=blues, figsize=figsize
+                        )
+                        x_labels = utils.ellipsis_strings(
+                            feature_metadata["internal"]["counts"].keys()
+                        )
+                        ax1.set_xticklabels(x_labels)
+            elif isinstance(
+                self.feature_types[col], DocumentTypedFeature
+            ) or isinstance(self.feature_types[col], AddressTypedFeature):
+                text += PandasDataset._format_stats(
+                    self.feature_types[col].type,
+                    {k: v for k, v in feature_metadata["stats"].items()},
+                )
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                )
+                if "word_frequencies" in feature_metadata["internal"]:
+                    word_freqs = feature_metadata["internal"]["word_frequencies"]
+                    stats = "\n".join(["  - word count: %d" % (len(word_freqs.keys()))])
+                    text = text + "\n"
+                    text += stats
+                    try:
+                        from wordcloud import WordCloud, STOPWORDS
+                        wordcloud = WordCloud(
+                            width=1000,
+                            height=int(1000 * (figsize[1] / figsize[0])),
+                            background_color="white",
+                            stopwords=set(STOPWORDS),
+                            max_words=50,
+                            max_font_size=75,
+                        ).fit_words(word_freqs)
+                        plt.imshow(wordcloud, interpolation="bilinear")
+                        plt.axis("off")
+                    except ModuleNotFoundError as e:
+                        utils._log_missing_module("wordcloud", OptionalDependency.TEXT)
+                        logger.info(
+                            "The text word cloud is not plotted due to missing dependency wordcloud."
+                        )
+            else:
+                ax.text(
+                    -1.1,
+                    1,
+                    text,
+                    transform=ax.transAxes,
+                    verticalalignment="top",
+                    bbox=props,
+                    weight="bold",
+                )
+                if feature_metadata["missing_percentage"] == 100:
+                    addrtext = "NOTE: plot has been disabled as all values in this column are missing."
+                else:
+                    addrtext = "NOTE: plot has been disabled,\nfor features of unknown type\nno visualization is available"
+                ax.text(
+                    0.05,
+                    0.95,
+                    addrtext,
+                    transform=ax.transAxes,
+                    fontsize=14,
+                    verticalalignment="top",
+                    bbox=props,
+                    weight="bold",
+                )
+                ax.axis("off")
+            self.feature_dist_html_dict[col] = convert_to_html(plt)
+            plt.close()
+            html_widget.value += self.feature_dist_html_dict[col]
+    @staticmethod
+    def _init_fig_ax(figsize, dpi=288):
+        fig, ax = plt.subplots(figsize=figsize, dpi=dpi)
+        fig.set(facecolor="white")
+        return fig, ax
+    @staticmethod
+    def _format_stats(feature_type_name, stats):
+        text = "\n  - %s statistics:" % (feature_type_name)
+        for k in list(stats.keys()):
+            if "percentage" in k:
+                text += "\n    - {}: {:.3f}%".format(k, stats[k])
+            elif isinstance(stats[k], (int, np.int64)) or (
+                isinstance(stats[k], float)
+                and not np.isnan(stats[k])
+                and stats[k] == int(stats[k])
+            ):
+                text += "\n    - {}: {:,}".format(k, int(stats[k]))
+            elif isinstance(stats[k], bool):
+                text += "\n    - {}: {s}".format(k, "yes" if stats[k] else "no")
+            elif isinstance(stats[k], (float, np.float64)):
+                text += "\n    - {}: {:.3f}".format(k, stats[k])
+            else:
+                text += "\n    - {}: {}".format(k, stats[k])
+        return text

oracle-ads 2.13.9rc0__py3-none-any.whl → 2.13.9rc1__py3-none-any.whl

oracle-ads 2.13.9rc0py3-none-any.whl → 2.13.9rc1py3-none-any.whl