PyPI - dragon-ml-toolbox - Versions diffs - 19.14.0__py3-none-any.whl → 20.0.0__py3-none-any.whl - Mend

dragon-ml-toolbox 19.14.0py3-none-any.whl → 20.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (219) hide show

{dragon_ml_toolbox-19.14.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/METADATA +29 -46
dragon_ml_toolbox-20.0.0.dist-info/RECORD +178 -0
ml_tools/{ETL_cleaning.py → ETL_cleaning/__init__.py} +13 -5
ml_tools/ETL_cleaning/_basic_clean.py +351 -0
ml_tools/ETL_cleaning/_clean_tools.py +128 -0
ml_tools/ETL_cleaning/_dragon_cleaner.py +245 -0
ml_tools/ETL_cleaning/_imprimir.py +13 -0
ml_tools/{ETL_engineering.py → ETL_engineering/__init__.py} +8 -4
ml_tools/ETL_engineering/_dragon_engineering.py +261 -0
ml_tools/ETL_engineering/_imprimir.py +24 -0
ml_tools/{_core/_ETL_engineering.py → ETL_engineering/_transforms.py} +14 -267
ml_tools/{_core → GUI_tools}/_GUI_tools.py +37 -40
ml_tools/{GUI_tools.py → GUI_tools/__init__.py} +7 -5
ml_tools/GUI_tools/_imprimir.py +12 -0
ml_tools/IO_tools/_IO_loggers.py +235 -0
ml_tools/IO_tools/_IO_save_load.py +151 -0
ml_tools/IO_tools/_IO_utils.py +140 -0
ml_tools/{IO_tools.py → IO_tools/__init__.py} +13 -5
ml_tools/IO_tools/_imprimir.py +14 -0
ml_tools/MICE/_MICE_imputation.py +132 -0
ml_tools/{MICE_imputation.py → MICE/__init__.py} +6 -7
ml_tools/{_core/_MICE_imputation.py → MICE/_dragon_mice.py} +243 -322
ml_tools/MICE/_imprimir.py +11 -0
ml_tools/{ML_callbacks.py → ML_callbacks/__init__.py} +12 -4
ml_tools/ML_callbacks/_base.py +101 -0
ml_tools/ML_callbacks/_checkpoint.py +232 -0
ml_tools/ML_callbacks/_early_stop.py +208 -0
ml_tools/ML_callbacks/_imprimir.py +12 -0
ml_tools/ML_callbacks/_scheduler.py +197 -0
ml_tools/{ML_chaining_utilities.py → ML_chain/__init__.py} +8 -3
ml_tools/{_core/_ML_chaining_utilities.py → ML_chain/_chaining_tools.py} +5 -129
ml_tools/ML_chain/_dragon_chain.py +140 -0
ml_tools/ML_chain/_imprimir.py +11 -0
ml_tools/ML_configuration/__init__.py +90 -0
ml_tools/ML_configuration/_base_model_config.py +69 -0
ml_tools/ML_configuration/_finalize.py +366 -0
ml_tools/ML_configuration/_imprimir.py +47 -0
ml_tools/ML_configuration/_metrics.py +593 -0
ml_tools/ML_configuration/_models.py +206 -0
ml_tools/ML_configuration/_training.py +124 -0
ml_tools/ML_datasetmaster/__init__.py +28 -0
ml_tools/ML_datasetmaster/_base_datasetmaster.py +337 -0
ml_tools/{_core/_ML_datasetmaster.py → ML_datasetmaster/_datasetmaster.py} +9 -329
ml_tools/ML_datasetmaster/_imprimir.py +15 -0
ml_tools/{_core/_ML_sequence_datasetmaster.py → ML_datasetmaster/_sequence_datasetmaster.py} +13 -15
ml_tools/{_core/_ML_vision_datasetmaster.py → ML_datasetmaster/_vision_datasetmaster.py} +63 -65
ml_tools/ML_evaluation/__init__.py +53 -0
ml_tools/ML_evaluation/_classification.py +629 -0
ml_tools/ML_evaluation/_feature_importance.py +409 -0
ml_tools/ML_evaluation/_imprimir.py +25 -0
ml_tools/ML_evaluation/_loss.py +92 -0
ml_tools/ML_evaluation/_regression.py +273 -0
ml_tools/{_core/_ML_sequence_evaluation.py → ML_evaluation/_sequence.py} +8 -11
ml_tools/{_core/_ML_vision_evaluation.py → ML_evaluation/_vision.py} +12 -17
ml_tools/{_core → ML_evaluation_captum}/_ML_evaluation_captum.py +11 -38
ml_tools/{ML_evaluation_captum.py → ML_evaluation_captum/__init__.py} +6 -4
ml_tools/ML_evaluation_captum/_imprimir.py +10 -0
ml_tools/{_core → ML_finalize_handler}/_ML_finalize_handler.py +3 -7
ml_tools/ML_finalize_handler/__init__.py +10 -0
ml_tools/ML_finalize_handler/_imprimir.py +8 -0
ml_tools/ML_inference/__init__.py +22 -0
ml_tools/ML_inference/_base_inference.py +166 -0
ml_tools/{_core/_ML_chaining_inference.py → ML_inference/_chain_inference.py} +14 -17
ml_tools/ML_inference/_dragon_inference.py +332 -0
ml_tools/ML_inference/_imprimir.py +11 -0
ml_tools/ML_inference/_multi_inference.py +180 -0
ml_tools/ML_inference_sequence/__init__.py +10 -0
ml_tools/ML_inference_sequence/_imprimir.py +8 -0
ml_tools/{_core/_ML_sequence_inference.py → ML_inference_sequence/_sequence_inference.py} +11 -15
ml_tools/ML_inference_vision/__init__.py +10 -0
ml_tools/ML_inference_vision/_imprimir.py +8 -0
ml_tools/{_core/_ML_vision_inference.py → ML_inference_vision/_vision_inference.py} +15 -19
ml_tools/ML_models/__init__.py +32 -0
ml_tools/{_core/_ML_models_advanced.py → ML_models/_advanced_models.py} +22 -18
ml_tools/ML_models/_base_mlp_attention.py +198 -0
ml_tools/{_core/_models_advanced_base.py → ML_models/_base_save_load.py} +73 -49
ml_tools/ML_models/_dragon_tabular.py +248 -0
ml_tools/ML_models/_imprimir.py +18 -0
ml_tools/ML_models/_mlp_attention.py +134 -0
ml_tools/{_core → ML_models}/_models_advanced_helpers.py +13 -13
ml_tools/ML_models_sequence/__init__.py +10 -0
ml_tools/ML_models_sequence/_imprimir.py +8 -0
ml_tools/{_core/_ML_sequence_models.py → ML_models_sequence/_sequence_models.py} +5 -8
ml_tools/ML_models_vision/__init__.py +29 -0
ml_tools/ML_models_vision/_base_wrapper.py +254 -0
ml_tools/ML_models_vision/_image_classification.py +182 -0
ml_tools/ML_models_vision/_image_segmentation.py +108 -0
ml_tools/ML_models_vision/_imprimir.py +16 -0
ml_tools/ML_models_vision/_object_detection.py +135 -0
ml_tools/ML_optimization/__init__.py +21 -0
ml_tools/ML_optimization/_imprimir.py +13 -0
ml_tools/{_core/_ML_optimization_pareto.py → ML_optimization/_multi_dragon.py} +18 -24
ml_tools/ML_optimization/_single_dragon.py +203 -0
ml_tools/{_core/_ML_optimization.py → ML_optimization/_single_manual.py} +75 -213
ml_tools/{_core → ML_scaler}/_ML_scaler.py +8 -11
ml_tools/ML_scaler/__init__.py +10 -0
ml_tools/ML_scaler/_imprimir.py +8 -0
ml_tools/ML_trainer/__init__.py +20 -0
ml_tools/ML_trainer/_base_trainer.py +297 -0
ml_tools/ML_trainer/_dragon_detection_trainer.py +402 -0
ml_tools/ML_trainer/_dragon_sequence_trainer.py +540 -0
ml_tools/ML_trainer/_dragon_trainer.py +1160 -0
ml_tools/ML_trainer/_imprimir.py +10 -0
ml_tools/{ML_utilities.py → ML_utilities/__init__.py} +14 -6
ml_tools/ML_utilities/_artifact_finder.py +382 -0
ml_tools/ML_utilities/_imprimir.py +16 -0
ml_tools/ML_utilities/_inspection.py +325 -0
ml_tools/ML_utilities/_train_tools.py +205 -0
ml_tools/{ML_vision_transformers.py → ML_vision_transformers/__init__.py} +9 -6
ml_tools/{_core/_ML_vision_transformers.py → ML_vision_transformers/_core_transforms.py} +11 -155
ml_tools/ML_vision_transformers/_imprimir.py +14 -0
ml_tools/ML_vision_transformers/_offline_augmentation.py +159 -0
ml_tools/{_core/_PSO_optimization.py → PSO_optimization/_PSO.py} +58 -15
ml_tools/{PSO_optimization.py → PSO_optimization/__init__.py} +5 -3
ml_tools/PSO_optimization/_imprimir.py +10 -0
ml_tools/SQL/__init__.py +7 -0
ml_tools/{_core/_SQL.py → SQL/_dragon_SQL.py} +7 -11
ml_tools/SQL/_imprimir.py +8 -0
ml_tools/{_core → VIF}/_VIF_factor.py +5 -8
ml_tools/{VIF_factor.py → VIF/__init__.py} +4 -2
ml_tools/VIF/_imprimir.py +10 -0
ml_tools/_core/__init__.py +7 -1
ml_tools/_core/_logger.py +8 -18
ml_tools/_core/_schema_load_ops.py +43 -0
ml_tools/_core/_script_info.py +2 -2
ml_tools/{data_exploration.py → data_exploration/__init__.py} +32 -16
ml_tools/data_exploration/_analysis.py +214 -0
ml_tools/data_exploration/_cleaning.py +566 -0
ml_tools/data_exploration/_features.py +583 -0
ml_tools/data_exploration/_imprimir.py +32 -0
ml_tools/data_exploration/_plotting.py +487 -0
ml_tools/data_exploration/_schema_ops.py +176 -0
ml_tools/{ensemble_evaluation.py → ensemble_evaluation/__init__.py} +6 -4
ml_tools/{_core → ensemble_evaluation}/_ensemble_evaluation.py +3 -7
ml_tools/ensemble_evaluation/_imprimir.py +14 -0
ml_tools/{ensemble_inference.py → ensemble_inference/__init__.py} +5 -3
ml_tools/{_core → ensemble_inference}/_ensemble_inference.py +15 -18
ml_tools/ensemble_inference/_imprimir.py +9 -0
ml_tools/{ensemble_learning.py → ensemble_learning/__init__.py} +4 -6
ml_tools/{_core → ensemble_learning}/_ensemble_learning.py +7 -10
ml_tools/ensemble_learning/_imprimir.py +10 -0
ml_tools/{excel_handler.py → excel_handler/__init__.py} +5 -3
ml_tools/{_core → excel_handler}/_excel_handler.py +6 -10
ml_tools/excel_handler/_imprimir.py +13 -0
ml_tools/{keys.py → keys/__init__.py} +4 -1
ml_tools/keys/_imprimir.py +11 -0
ml_tools/{_core → keys}/_keys.py +2 -0
ml_tools/{math_utilities.py → math_utilities/__init__.py} +5 -2
ml_tools/math_utilities/_imprimir.py +11 -0
ml_tools/{_core → math_utilities}/_math_utilities.py +1 -5
ml_tools/{optimization_tools.py → optimization_tools/__init__.py} +9 -4
ml_tools/optimization_tools/_imprimir.py +13 -0
ml_tools/optimization_tools/_optimization_bounds.py +236 -0
ml_tools/optimization_tools/_optimization_plots.py +218 -0
ml_tools/{path_manager.py → path_manager/__init__.py} +6 -3
ml_tools/{_core/_path_manager.py → path_manager/_dragonmanager.py} +11 -347
ml_tools/path_manager/_imprimir.py +15 -0
ml_tools/path_manager/_path_tools.py +346 -0
ml_tools/plot_fonts/__init__.py +8 -0
ml_tools/plot_fonts/_imprimir.py +8 -0
ml_tools/{_core → plot_fonts}/_plot_fonts.py +2 -5
ml_tools/schema/__init__.py +15 -0
ml_tools/schema/_feature_schema.py +223 -0
ml_tools/schema/_gui_schema.py +191 -0
ml_tools/schema/_imprimir.py +10 -0
ml_tools/{serde.py → serde/__init__.py} +4 -2
ml_tools/serde/_imprimir.py +10 -0
ml_tools/{_core → serde}/_serde.py +3 -8
ml_tools/{utilities.py → utilities/__init__.py} +11 -6
ml_tools/utilities/_imprimir.py +18 -0
ml_tools/{_core/_utilities.py → utilities/_utility_save_load.py} +13 -190
ml_tools/utilities/_utility_tools.py +192 -0
dragon_ml_toolbox-19.14.0.dist-info/RECORD +0 -111
ml_tools/ML_chaining_inference.py +0 -8
ml_tools/ML_configuration.py +0 -86
ml_tools/ML_configuration_pytab.py +0 -14
ml_tools/ML_datasetmaster.py +0 -10
ml_tools/ML_evaluation.py +0 -16
ml_tools/ML_evaluation_multi.py +0 -12
ml_tools/ML_finalize_handler.py +0 -8
ml_tools/ML_inference.py +0 -12
ml_tools/ML_models.py +0 -14
ml_tools/ML_models_advanced.py +0 -14
ml_tools/ML_models_pytab.py +0 -14
ml_tools/ML_optimization.py +0 -14
ml_tools/ML_optimization_pareto.py +0 -8
ml_tools/ML_scaler.py +0 -8
ml_tools/ML_sequence_datasetmaster.py +0 -8
ml_tools/ML_sequence_evaluation.py +0 -10
ml_tools/ML_sequence_inference.py +0 -8
ml_tools/ML_sequence_models.py +0 -8
ml_tools/ML_trainer.py +0 -12
ml_tools/ML_vision_datasetmaster.py +0 -12
ml_tools/ML_vision_evaluation.py +0 -10
ml_tools/ML_vision_inference.py +0 -8
ml_tools/ML_vision_models.py +0 -18
ml_tools/SQL.py +0 -8
ml_tools/_core/_ETL_cleaning.py +0 -694
ml_tools/_core/_IO_tools.py +0 -498
ml_tools/_core/_ML_callbacks.py +0 -702
ml_tools/_core/_ML_configuration.py +0 -1332
ml_tools/_core/_ML_configuration_pytab.py +0 -102
ml_tools/_core/_ML_evaluation.py +0 -867
ml_tools/_core/_ML_evaluation_multi.py +0 -544
ml_tools/_core/_ML_inference.py +0 -646
ml_tools/_core/_ML_models.py +0 -668
ml_tools/_core/_ML_models_pytab.py +0 -693
ml_tools/_core/_ML_trainer.py +0 -2323
ml_tools/_core/_ML_utilities.py +0 -886
ml_tools/_core/_ML_vision_models.py +0 -644
ml_tools/_core/_data_exploration.py +0 -1909
ml_tools/_core/_optimization_tools.py +0 -493
ml_tools/_core/_schema.py +0 -359
ml_tools/plot_fonts.py +0 -8
ml_tools/schema.py +0 -12
{dragon_ml_toolbox-19.14.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/WHEEL +0 -0
{dragon_ml_toolbox-19.14.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/licenses/LICENSE +0 -0
{dragon_ml_toolbox-19.14.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/licenses/LICENSE-THIRD-PARTY.md +0 -0
{dragon_ml_toolbox-19.14.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/top_level.txt +0 -0

ml_tools/_core/_logger.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import logging
 import sys
-from typing import Optional, Union, Dict, Any
+from typing import Optional, Union, Any
 # Step 1: Conditionally import colorlog
 try:
@@ -27,7 +27,7 @@ class _UnifiedFormatter(logging.Formatter):
     A unified log formatter that adds emojis, uses level-specific formats,
     and applies colors if colorlog is available.
     """
-    def __init__(self, datefmt: Optional[str] = None, log_colors: Optional[Dict[str, str]] = None):
+    def __init__(self, datefmt: Optional[str] = None, log_colors: Optional[dict[str, str]] = None):
         """Initializes the formatter, creating sub-formatters for each level."""
         # Initialize the base logging.Formatter correctly
         super().__init__(datefmt=datefmt)
@@ -60,7 +60,7 @@ class _ContextAdapter(logging.LoggerAdapter):
     """
     Wraps the logger to automatically prepend the context name to the message.
     """
-    def process(self, msg: Any, kwargs: Dict[str, Any]) -> tuple[Any, Dict[str, Any]]:
+    def process(self, msg: Any, kwargs: dict[str, Any]) -> tuple[Any, dict[str, Any]]:
         # Retrieve the context name from the extra dict passed during init
         context = self.extra.get('context_name', 'Unknown') # type: ignore
         return f"[{context}] {msg}", kwargs
@@ -75,7 +75,7 @@ def _setup_main_logger(name: str = "ml_tools", level: int = logging.INFO) -> log
     # Prevents adding handlers multiple times if imported multiple times
     if not logger.handlers:
-        formatter_kwargs: Dict[str, Any] = {
+        formatter_kwargs: dict[str, Any] = {
             'datefmt': '%Y-%m-%d %H:%M'
         }
@@ -121,26 +121,16 @@ def get_logger(name: Optional[str] = None) -> Union[logging.Logger, logging.Logg
     return _ROOT_LOGGER
-# Maintain backward compatibility for scripts importing _LOGGER directly
-_LOGGER = _ROOT_LOGGER
-def _log_and_exit(message: str, exit_code: int = 1):
-    """Logs a critical message inside an exception block and terminates the program."""
-    _LOGGER.exception(message)
-    sys.exit(exit_code)
 if __name__ == "__main__":
-    _LOGGER.info("Data loading process started.")
-    _LOGGER.warning("A non-critical configuration value is missing.")
+    _ROOT_LOGGER.info("Data loading process started.")
+    _ROOT_LOGGER.warning("A non-critical configuration value is missing.")
     try:
         x = 1 / 0
     except ZeroDivisionError:
-        _LOGGER.exception("Critical error during calculation.")
+        _ROOT_LOGGER.exception("Critical error during calculation.")
-    _LOGGER.critical("Total failure.")
+    _ROOT_LOGGER.critical("Total failure.")
     test_logger = get_logger("SUPER CONTEXT")

ml_tools/_core/_schema_load_ops.py ADDED Viewed

@@ -0,0 +1,43 @@
+from typing import Any, Optional
+__all__ = ["prepare_schema_from_json"]
+def prepare_schema_from_json(data: dict[str, Any]) -> dict[str, Any]:
+    """
+    Processes a raw dictionary (loaded from JSON) into the clean arguments
+    required to instantiate a FeatureSchema.
+    Performs the following restorations:
+    1. Converts list fields back to tuples.
+    2. Converts string keys in 'categorical_index_map' back to integers.
+    Args:
+        data (dict): The raw dictionary from a JSON file (e.g. from 'schema_dict').
+    Returns:
+        dict: A dictionary of kwargs ready to be unpacked into FeatureSchema(**kwargs).
+    """
+    # 1. Restore Tuples (JSON loads them as lists)
+    feature_names = tuple(data.get("feature_names", []))
+    cont_names = tuple(data.get("continuous_feature_names", []))
+    cat_names = tuple(data.get("categorical_feature_names", []))
+    # 2. Restore Integer Keys for categorical_index_map
+    raw_map = data.get("categorical_index_map")
+    cat_index_map: Optional[dict[int, int]] = None
+    if raw_map is not None:
+        # JSON keys are always strings; convert back to int
+        cat_index_map = {int(k): v for k, v in raw_map.items()}
+    # 3. Mappings (keys are strings, no conversion needed)
+    cat_mappings = data.get("categorical_mappings", None)
+    return {
+        "feature_names": feature_names,
+        "continuous_feature_names": cont_names,
+        "categorical_feature_names": cat_names,
+        "categorical_index_map": cat_index_map,
+        "categorical_mappings": cat_mappings
+    }

ml_tools/_core/_script_info.py CHANGED Viewed

@@ -1,7 +1,7 @@
-def _script_info(all_data: list[str]):
+def _imprimir_disponibles(all_data: list[str]):
     """
-    List available names.
+    List available names in namespace.
     """
     print("Available functions and objects:")
     for i, name in enumerate(all_data, start=1):

ml_tools/{data_exploration.py → data_exploration/__init__.py} RENAMED Viewed

@@ -1,54 +1,70 @@
-from ._core._data_exploration import (
+from ._analysis import (
     summarize_dataframe,
+    show_null_columns,
+    match_and_filter_columns_by_regex,
+)
+from ._cleaning import (
     drop_constant_columns,
     drop_rows_with_missing_data,
-    show_null_columns,
     drop_columns_with_missing_data,
     drop_macro,
     clean_column_names,
+    clip_outliers_single,
+    clip_outliers_multi,
+    drop_outlier_samples,
+    standardize_percentages,
+)
+from ._plotting import (
     plot_value_distributions,
     plot_continuous_vs_target,
     plot_categorical_vs_target,
-    encode_categorical_features,
+    plot_correlation_heatmap,
+)
+from ._features import (
     split_features_targets,
     split_continuous_binary,
-    clip_outliers_single,
-    clip_outliers_multi,
-    drop_outlier_samples,
-    plot_correlation_heatmap,
-    match_and_filter_columns_by_regex,
-    standardize_percentages,
+    split_continuous_categorical_targets,
+    encode_categorical_features,
     reconstruct_one_hot,
     reconstruct_binary,
     reconstruct_multibinary,
+)
+from ._schema_ops import (
     finalize_feature_schema,
     apply_feature_schema,
-    info
 )
+from ._imprimir import info
 __all__ = [
     "summarize_dataframe",
+    "show_null_columns",
     "drop_constant_columns",
     "drop_rows_with_missing_data",
-    "show_null_columns",
     "drop_columns_with_missing_data",
     "drop_macro",
     "clean_column_names",
-    "plot_value_distributions",
-    "plot_continuous_vs_target",
-    "plot_categorical_vs_target",
+    "plot_value_distributions",
     "split_features_targets",
+    "split_continuous_binary",
+    "split_continuous_categorical_targets",
     "encode_categorical_features",
     "clip_outliers_single",
     "clip_outliers_multi",
     "drop_outlier_samples",
+    "plot_continuous_vs_target",
+    "plot_categorical_vs_target",
     "plot_correlation_heatmap",
     "finalize_feature_schema",
+    "apply_feature_schema",
     "match_and_filter_columns_by_regex",
     "standardize_percentages",
     "reconstruct_one_hot",
     "reconstruct_binary",
     "reconstruct_multibinary",
-    "split_continuous_binary",
-    "apply_feature_schema",
 ]

ml_tools/data_exploration/_analysis.py ADDED Viewed

@@ -0,0 +1,214 @@
+import pandas as pd
+from typing import Optional, Union
+from pathlib import Path
+import numpy as np
+import re
+import matplotlib.pyplot as plt
+from ..path_manager import make_fullpath, sanitize_filename
+from .._core import get_logger
+_LOGGER = get_logger("Data Exploration: Analysis")
+__all__ = [
+    "summarize_dataframe",
+    "show_null_columns",
+    "match_and_filter_columns_by_regex",
+]
+def summarize_dataframe(df: pd.DataFrame, round_digits: int = 2):
+    """
+    Returns a summary DataFrame with data types, non-null counts, number of unique values,
+    missing value percentage, and basic statistics for each column.
+    Parameters:
+        df (pd.DataFrame): The input DataFrame.
+        round_digits (int): Decimal places to round numerical statistics.
+    Returns:
+        pd.DataFrame: Summary table.
+    """
+    summary = pd.DataFrame({
+        'Data Type': df.dtypes,
+        'Completeness %': (df.notnull().mean() * 100).round(2),
+        'Unique Values': df.nunique(),
+        # 'Missing %': (df.isnull().mean() * 100).round(2)
+    })
+    # For numeric columns, add summary statistics
+    numeric_cols = df.select_dtypes(include='number').columns
+    if not numeric_cols.empty:
+        stats = df[numeric_cols].describe(percentiles=[.10, .25, .50, .70, .80, .90])
+        summary_numeric = stats.T[
+            ['mean', 'std', 'min', '10%', '25%', '50%', '70%', '80%', '90%', 'max']
+        ].round(round_digits)
+        summary = summary.join(summary_numeric, how='left')
+    print(f"DataFrame Shape: {df.shape}")
+    return summary
+def show_null_columns(
+    df: pd.DataFrame,
+    round_digits: int = 2,
+    plot_to_dir: Optional[Union[str, Path]] = None,
+    plot_filename: Optional[str] = None,
+    use_all_columns: bool = False
+) -> pd.DataFrame:
+    """
+    Returns a table of columns with missing values, showing both the count and
+    percentage of missing entries per column.
+    Optionally generates a visualization of the missing data profile.
+    Parameters:
+        df (pd.DataFrame): The input DataFrame.
+        round_digits (int): Number of decimal places for the percentage.
+        plot_to_dir (str | Path | None): If provided, saves a visualization of the
+            missing data to this directory.
+        plot_filename (str): The filename for the saved plot (without extension).
+            Used only if `plot_to_dir` is set.
+        use_all_columns (bool): If True, includes all columns in the summary and plot,
+            even those with no missing values.
+    Returns:
+        pd.DataFrame: A DataFrame summarizing missing values in each column.
+    """
+    null_counts = df.isnull().sum()
+    null_percent = df.isnull().mean() * 100
+    if use_all_columns:
+        null_summary = pd.DataFrame({
+            'Missing Count': null_counts,
+            'Missing %': null_percent.round(round_digits)
+        })
+    else:
+        # Filter only columns with at least one null
+        mask = null_counts > 0
+        null_summary = pd.DataFrame({
+            'Missing Count': null_counts[mask],
+            'Missing %': null_percent[mask].round(round_digits)
+        })
+    # Sort by descending percentage of missing values
+    null_summary = null_summary.sort_values(by='Missing %', ascending=False)
+    # --- Visualization Logic ---
+    if plot_to_dir:
+        if null_summary.empty:
+            _LOGGER.info("No missing data found. Skipping plot generation.")
+        else:
+            try:
+                # Validate and create save directory
+                save_path = make_fullpath(plot_to_dir, make=True, enforce="directory")
+                # Prepare data
+                features = null_summary.index.tolist()
+                missing_pct = np.array(null_summary['Missing %'].values)
+                present_pct = 100 - missing_pct
+                n_features = len(features)
+                # Dynamic width
+                width = max(10, n_features * 0.4)
+                plt.figure(figsize=(width, 8))
+                # Stacked Bar Chart Logic
+                # Grid behind bars
+                plt.grid(axis='y', linestyle='--', alpha=0.5, zorder=0)
+                # 1. Present Data: Solid Green
+                plt.bar(
+                    features,
+                    present_pct,
+                    color='tab:green',
+                    label='Present',
+                    width=0.6,
+                    zorder=3
+                )
+                # 2. Missing Data: Transparent Red Fill + Solid Red Hatch
+                # define facecolor (fill) with alpha, but edgecolor (lines) without alpha.
+                plt.bar(
+                    features,
+                    missing_pct,
+                    bottom=present_pct,
+                    facecolor=(1.0, 1.0, 1.0, 0.2), # RGBA
+                    edgecolor='tab:red',             # Solid red for the hatch lines
+                    hatch='///',                     # hatch pattern
+                    linewidth=0.4,                   # Ensure lines are thick enough to see
+                    label='Missing',
+                    width=0.6,
+                    zorder=3
+                )
+                # Styling
+                plt.ylim(0, 100)
+                plt.ylabel("Data Completeness (%)", fontsize=13)
+                plt.yticks(np.arange(0, 101, 10))
+                plot_title = f"Missing Data - {plot_filename.replace('_', ' ')}" if plot_filename else "Missing Data"
+                plt.title(plot_title)
+                plt.xticks(rotation=45, ha='right', fontsize=9)
+                # Reference line
+                plt.axhline(y=100, color='black', linestyle='-', linewidth=0.5, alpha=0.3)
+                plt.legend(loc='lower right', framealpha=0.95)
+                plt.tight_layout()
+                # Save
+                if plot_filename is None or plot_filename.strip() == "":
+                    plot_filename = "Missing_Data_Profile"
+                else:
+                    plot_filename =  "Missing_Data_" + sanitize_filename(plot_filename)
+                full_filename = plot_filename + ".svg"
+                plt.savefig(save_path / full_filename, format='svg', bbox_inches="tight")
+                plt.close()
+                _LOGGER.info(f"Saved missing data plot as '{full_filename}'")
+            except Exception as e:
+                _LOGGER.error(f"Failed to generate missing data plot. Error: {e}")
+                plt.close()
+    return null_summary
+def match_and_filter_columns_by_regex(
+    df: pd.DataFrame,
+    pattern: str,
+    case_sensitive: bool = False,
+    escape_pattern: bool = False
+) -> tuple[pd.DataFrame, list[str]]:
+    """
+    Return a tuple of (filtered DataFrame, matched column names) based on a regex pattern.
+    Parameters:
+        df (pd.DataFrame): The DataFrame to search.
+        pattern (str): The regex pattern to match column names (use a raw string).
+        case_sensitive (bool): Whether matching is case-sensitive.
+        escape_pattern (bool): If True, the pattern is escaped with `re.escape()` to treat it literally.
+    Returns:
+        (Tuple[pd.DataFrame, list[str]]): A DataFrame filtered to matched columns, and a list of matching column names.
+    """
+    if escape_pattern:
+        pattern = re.escape(pattern)
+    mask = df.columns.str.contains(pattern, case=case_sensitive, regex=True)
+    matched_columns = df.columns[mask].to_list()
+    filtered_df = df.loc[:, mask]
+    _LOGGER.info(f"{len(matched_columns)} columns match the regex pattern '{pattern}'.")
+    # if filtered df is a series, convert to dataframe
+    if isinstance(filtered_df, pd.Series):
+        filtered_df = filtered_df.to_frame()
+    return filtered_df, matched_columns

dragon-ml-toolbox 19.14.0__py3-none-any.whl → 20.0.0__py3-none-any.whl

dragon-ml-toolbox 19.14.0py3-none-any.whl → 20.0.0py3-none-any.whl