PyPI - dragon-ml-toolbox - Versions diffs - 19.13.0__py3-none-any.whl → 20.0.0__py3-none-any.whl - Mend

dragon-ml-toolbox 19.13.0py3-none-any.whl → 20.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (219) hide show

{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/METADATA +29 -46
dragon_ml_toolbox-20.0.0.dist-info/RECORD +178 -0
ml_tools/{ETL_cleaning.py → ETL_cleaning/__init__.py} +13 -5
ml_tools/ETL_cleaning/_basic_clean.py +351 -0
ml_tools/ETL_cleaning/_clean_tools.py +128 -0
ml_tools/ETL_cleaning/_dragon_cleaner.py +245 -0
ml_tools/ETL_cleaning/_imprimir.py +13 -0
ml_tools/{ETL_engineering.py → ETL_engineering/__init__.py} +8 -4
ml_tools/ETL_engineering/_dragon_engineering.py +261 -0
ml_tools/ETL_engineering/_imprimir.py +24 -0
ml_tools/{_core/_ETL_engineering.py → ETL_engineering/_transforms.py} +14 -267
ml_tools/{_core → GUI_tools}/_GUI_tools.py +37 -40
ml_tools/{GUI_tools.py → GUI_tools/__init__.py} +7 -5
ml_tools/GUI_tools/_imprimir.py +12 -0
ml_tools/IO_tools/_IO_loggers.py +235 -0
ml_tools/IO_tools/_IO_save_load.py +151 -0
ml_tools/IO_tools/_IO_utils.py +140 -0
ml_tools/{IO_tools.py → IO_tools/__init__.py} +13 -5
ml_tools/IO_tools/_imprimir.py +14 -0
ml_tools/MICE/_MICE_imputation.py +132 -0
ml_tools/{MICE_imputation.py → MICE/__init__.py} +6 -7
ml_tools/{_core/_MICE_imputation.py → MICE/_dragon_mice.py} +243 -322
ml_tools/MICE/_imprimir.py +11 -0
ml_tools/{ML_callbacks.py → ML_callbacks/__init__.py} +12 -4
ml_tools/ML_callbacks/_base.py +101 -0
ml_tools/ML_callbacks/_checkpoint.py +232 -0
ml_tools/ML_callbacks/_early_stop.py +208 -0
ml_tools/ML_callbacks/_imprimir.py +12 -0
ml_tools/ML_callbacks/_scheduler.py +197 -0
ml_tools/{ML_chaining_utilities.py → ML_chain/__init__.py} +8 -3
ml_tools/{_core/_ML_chaining_utilities.py → ML_chain/_chaining_tools.py} +5 -129
ml_tools/ML_chain/_dragon_chain.py +140 -0
ml_tools/ML_chain/_imprimir.py +11 -0
ml_tools/ML_configuration/__init__.py +90 -0
ml_tools/ML_configuration/_base_model_config.py +69 -0
ml_tools/ML_configuration/_finalize.py +366 -0
ml_tools/ML_configuration/_imprimir.py +47 -0
ml_tools/ML_configuration/_metrics.py +593 -0
ml_tools/ML_configuration/_models.py +206 -0
ml_tools/ML_configuration/_training.py +124 -0
ml_tools/ML_datasetmaster/__init__.py +28 -0
ml_tools/ML_datasetmaster/_base_datasetmaster.py +337 -0
ml_tools/{_core/_ML_datasetmaster.py → ML_datasetmaster/_datasetmaster.py} +9 -329
ml_tools/ML_datasetmaster/_imprimir.py +15 -0
ml_tools/{_core/_ML_sequence_datasetmaster.py → ML_datasetmaster/_sequence_datasetmaster.py} +13 -15
ml_tools/{_core/_ML_vision_datasetmaster.py → ML_datasetmaster/_vision_datasetmaster.py} +63 -65
ml_tools/ML_evaluation/__init__.py +53 -0
ml_tools/ML_evaluation/_classification.py +629 -0
ml_tools/ML_evaluation/_feature_importance.py +409 -0
ml_tools/ML_evaluation/_imprimir.py +25 -0
ml_tools/ML_evaluation/_loss.py +92 -0
ml_tools/ML_evaluation/_regression.py +273 -0
ml_tools/{_core/_ML_sequence_evaluation.py → ML_evaluation/_sequence.py} +8 -11
ml_tools/{_core/_ML_vision_evaluation.py → ML_evaluation/_vision.py} +12 -17
ml_tools/{_core → ML_evaluation_captum}/_ML_evaluation_captum.py +11 -38
ml_tools/{ML_evaluation_captum.py → ML_evaluation_captum/__init__.py} +6 -4
ml_tools/ML_evaluation_captum/_imprimir.py +10 -0
ml_tools/{_core → ML_finalize_handler}/_ML_finalize_handler.py +3 -7
ml_tools/ML_finalize_handler/__init__.py +10 -0
ml_tools/ML_finalize_handler/_imprimir.py +8 -0
ml_tools/ML_inference/__init__.py +22 -0
ml_tools/ML_inference/_base_inference.py +166 -0
ml_tools/{_core/_ML_chaining_inference.py → ML_inference/_chain_inference.py} +14 -17
ml_tools/ML_inference/_dragon_inference.py +332 -0
ml_tools/ML_inference/_imprimir.py +11 -0
ml_tools/ML_inference/_multi_inference.py +180 -0
ml_tools/ML_inference_sequence/__init__.py +10 -0
ml_tools/ML_inference_sequence/_imprimir.py +8 -0
ml_tools/{_core/_ML_sequence_inference.py → ML_inference_sequence/_sequence_inference.py} +11 -15
ml_tools/ML_inference_vision/__init__.py +10 -0
ml_tools/ML_inference_vision/_imprimir.py +8 -0
ml_tools/{_core/_ML_vision_inference.py → ML_inference_vision/_vision_inference.py} +15 -19
ml_tools/ML_models/__init__.py +32 -0
ml_tools/{_core/_ML_models_advanced.py → ML_models/_advanced_models.py} +22 -18
ml_tools/ML_models/_base_mlp_attention.py +198 -0
ml_tools/{_core/_models_advanced_base.py → ML_models/_base_save_load.py} +73 -49
ml_tools/ML_models/_dragon_tabular.py +248 -0
ml_tools/ML_models/_imprimir.py +18 -0
ml_tools/ML_models/_mlp_attention.py +134 -0
ml_tools/{_core → ML_models}/_models_advanced_helpers.py +13 -13
ml_tools/ML_models_sequence/__init__.py +10 -0
ml_tools/ML_models_sequence/_imprimir.py +8 -0
ml_tools/{_core/_ML_sequence_models.py → ML_models_sequence/_sequence_models.py} +5 -8
ml_tools/ML_models_vision/__init__.py +29 -0
ml_tools/ML_models_vision/_base_wrapper.py +254 -0
ml_tools/ML_models_vision/_image_classification.py +182 -0
ml_tools/ML_models_vision/_image_segmentation.py +108 -0
ml_tools/ML_models_vision/_imprimir.py +16 -0
ml_tools/ML_models_vision/_object_detection.py +135 -0
ml_tools/ML_optimization/__init__.py +21 -0
ml_tools/ML_optimization/_imprimir.py +13 -0
ml_tools/{_core/_ML_optimization_pareto.py → ML_optimization/_multi_dragon.py} +18 -24
ml_tools/ML_optimization/_single_dragon.py +203 -0
ml_tools/{_core/_ML_optimization.py → ML_optimization/_single_manual.py} +75 -213
ml_tools/{_core → ML_scaler}/_ML_scaler.py +8 -11
ml_tools/ML_scaler/__init__.py +10 -0
ml_tools/ML_scaler/_imprimir.py +8 -0
ml_tools/ML_trainer/__init__.py +20 -0
ml_tools/ML_trainer/_base_trainer.py +297 -0
ml_tools/ML_trainer/_dragon_detection_trainer.py +402 -0
ml_tools/ML_trainer/_dragon_sequence_trainer.py +540 -0
ml_tools/ML_trainer/_dragon_trainer.py +1160 -0
ml_tools/ML_trainer/_imprimir.py +10 -0
ml_tools/{ML_utilities.py → ML_utilities/__init__.py} +14 -6
ml_tools/ML_utilities/_artifact_finder.py +382 -0
ml_tools/ML_utilities/_imprimir.py +16 -0
ml_tools/ML_utilities/_inspection.py +325 -0
ml_tools/ML_utilities/_train_tools.py +205 -0
ml_tools/{ML_vision_transformers.py → ML_vision_transformers/__init__.py} +9 -6
ml_tools/{_core/_ML_vision_transformers.py → ML_vision_transformers/_core_transforms.py} +11 -155
ml_tools/ML_vision_transformers/_imprimir.py +14 -0
ml_tools/ML_vision_transformers/_offline_augmentation.py +159 -0
ml_tools/{_core/_PSO_optimization.py → PSO_optimization/_PSO.py} +58 -15
ml_tools/{PSO_optimization.py → PSO_optimization/__init__.py} +5 -3
ml_tools/PSO_optimization/_imprimir.py +10 -0
ml_tools/SQL/__init__.py +7 -0
ml_tools/{_core/_SQL.py → SQL/_dragon_SQL.py} +7 -11
ml_tools/SQL/_imprimir.py +8 -0
ml_tools/{_core → VIF}/_VIF_factor.py +5 -8
ml_tools/{VIF_factor.py → VIF/__init__.py} +4 -2
ml_tools/VIF/_imprimir.py +10 -0
ml_tools/_core/__init__.py +7 -1
ml_tools/_core/_logger.py +8 -18
ml_tools/_core/_schema_load_ops.py +43 -0
ml_tools/_core/_script_info.py +2 -2
ml_tools/{data_exploration.py → data_exploration/__init__.py} +32 -16
ml_tools/data_exploration/_analysis.py +214 -0
ml_tools/data_exploration/_cleaning.py +566 -0
ml_tools/data_exploration/_features.py +583 -0
ml_tools/data_exploration/_imprimir.py +32 -0
ml_tools/data_exploration/_plotting.py +487 -0
ml_tools/data_exploration/_schema_ops.py +176 -0
ml_tools/{ensemble_evaluation.py → ensemble_evaluation/__init__.py} +6 -4
ml_tools/{_core → ensemble_evaluation}/_ensemble_evaluation.py +3 -7
ml_tools/ensemble_evaluation/_imprimir.py +14 -0
ml_tools/{ensemble_inference.py → ensemble_inference/__init__.py} +5 -3
ml_tools/{_core → ensemble_inference}/_ensemble_inference.py +15 -18
ml_tools/ensemble_inference/_imprimir.py +9 -0
ml_tools/{ensemble_learning.py → ensemble_learning/__init__.py} +4 -6
ml_tools/{_core → ensemble_learning}/_ensemble_learning.py +7 -10
ml_tools/ensemble_learning/_imprimir.py +10 -0
ml_tools/{excel_handler.py → excel_handler/__init__.py} +5 -3
ml_tools/{_core → excel_handler}/_excel_handler.py +6 -10
ml_tools/excel_handler/_imprimir.py +13 -0
ml_tools/{keys.py → keys/__init__.py} +4 -1
ml_tools/keys/_imprimir.py +11 -0
ml_tools/{_core → keys}/_keys.py +2 -0
ml_tools/{math_utilities.py → math_utilities/__init__.py} +5 -2
ml_tools/math_utilities/_imprimir.py +11 -0
ml_tools/{_core → math_utilities}/_math_utilities.py +1 -5
ml_tools/{optimization_tools.py → optimization_tools/__init__.py} +9 -4
ml_tools/optimization_tools/_imprimir.py +13 -0
ml_tools/optimization_tools/_optimization_bounds.py +236 -0
ml_tools/optimization_tools/_optimization_plots.py +218 -0
ml_tools/{path_manager.py → path_manager/__init__.py} +6 -3
ml_tools/{_core/_path_manager.py → path_manager/_dragonmanager.py} +11 -347
ml_tools/path_manager/_imprimir.py +15 -0
ml_tools/path_manager/_path_tools.py +346 -0
ml_tools/plot_fonts/__init__.py +8 -0
ml_tools/plot_fonts/_imprimir.py +8 -0
ml_tools/{_core → plot_fonts}/_plot_fonts.py +2 -5
ml_tools/schema/__init__.py +15 -0
ml_tools/schema/_feature_schema.py +223 -0
ml_tools/schema/_gui_schema.py +191 -0
ml_tools/schema/_imprimir.py +10 -0
ml_tools/{serde.py → serde/__init__.py} +4 -2
ml_tools/serde/_imprimir.py +10 -0
ml_tools/{_core → serde}/_serde.py +3 -8
ml_tools/{utilities.py → utilities/__init__.py} +11 -6
ml_tools/utilities/_imprimir.py +18 -0
ml_tools/{_core/_utilities.py → utilities/_utility_save_load.py} +13 -190
ml_tools/utilities/_utility_tools.py +192 -0
dragon_ml_toolbox-19.13.0.dist-info/RECORD +0 -111
ml_tools/ML_chaining_inference.py +0 -8
ml_tools/ML_configuration.py +0 -86
ml_tools/ML_configuration_pytab.py +0 -14
ml_tools/ML_datasetmaster.py +0 -10
ml_tools/ML_evaluation.py +0 -16
ml_tools/ML_evaluation_multi.py +0 -12
ml_tools/ML_finalize_handler.py +0 -8
ml_tools/ML_inference.py +0 -12
ml_tools/ML_models.py +0 -14
ml_tools/ML_models_advanced.py +0 -14
ml_tools/ML_models_pytab.py +0 -14
ml_tools/ML_optimization.py +0 -14
ml_tools/ML_optimization_pareto.py +0 -8
ml_tools/ML_scaler.py +0 -8
ml_tools/ML_sequence_datasetmaster.py +0 -8
ml_tools/ML_sequence_evaluation.py +0 -10
ml_tools/ML_sequence_inference.py +0 -8
ml_tools/ML_sequence_models.py +0 -8
ml_tools/ML_trainer.py +0 -12
ml_tools/ML_vision_datasetmaster.py +0 -12
ml_tools/ML_vision_evaluation.py +0 -10
ml_tools/ML_vision_inference.py +0 -8
ml_tools/ML_vision_models.py +0 -18
ml_tools/SQL.py +0 -8
ml_tools/_core/_ETL_cleaning.py +0 -694
ml_tools/_core/_IO_tools.py +0 -498
ml_tools/_core/_ML_callbacks.py +0 -702
ml_tools/_core/_ML_configuration.py +0 -1332
ml_tools/_core/_ML_configuration_pytab.py +0 -102
ml_tools/_core/_ML_evaluation.py +0 -867
ml_tools/_core/_ML_evaluation_multi.py +0 -544
ml_tools/_core/_ML_inference.py +0 -646
ml_tools/_core/_ML_models.py +0 -668
ml_tools/_core/_ML_models_pytab.py +0 -693
ml_tools/_core/_ML_trainer.py +0 -2323
ml_tools/_core/_ML_utilities.py +0 -886
ml_tools/_core/_ML_vision_models.py +0 -644
ml_tools/_core/_data_exploration.py +0 -1901
ml_tools/_core/_optimization_tools.py +0 -493
ml_tools/_core/_schema.py +0 -359
ml_tools/plot_fonts.py +0 -8
ml_tools/schema.py +0 -12
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/WHEEL +0 -0
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/licenses/LICENSE +0 -0
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/licenses/LICENSE-THIRD-PARTY.md +0 -0
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/top_level.txt +0 -0

ml_tools/{_core/_MICE_imputation.py → MICE/_dragon_mice.py} RENAMED Viewed

@@ -1,288 +1,29 @@
 import pandas as pd
-import miceforest as mf
 from pathlib import Path
+from typing import Union
+import miceforest as mf
 import matplotlib.pyplot as plt
 import numpy as np
 from plotnine import ggplot, labs, theme, element_blank # type: ignore
-from typing import Optional, Union
-from ._utilities import load_dataframe, merge_dataframes, save_dataframe_filename
-from ._math_utilities import threshold_binary_values, discretize_categorical_values
-from ._path_manager import sanitize_filename, make_fullpath, list_csv_paths
-from ._logger import get_logger
-from ._script_info import _script_info
-from ._schema import FeatureSchema
+from ..utilities import load_dataframe, merge_dataframes, save_dataframe_filename
+from ..schema import FeatureSchema
+from ..math_utilities import discretize_categorical_values
+from ..path_manager import make_fullpath, list_csv_paths, sanitize_filename
+from .._core import get_logger
-_LOGGER = get_logger("MICE")
+_LOGGER = get_logger("DragonMICE")
 __all__ = [
     "DragonMICE",
-    "apply_mice",
-    "save_imputed_datasets",
     "get_convergence_diagnostic",
     "get_imputed_distributions",
-    "run_mice_pipeline",
 ]
-def apply_mice(df: pd.DataFrame, df_name: str, binary_columns: Optional[list[str]]=None, resulting_datasets: int=1, iterations: int=20, random_state: int=101):
-    # Initialize kernel with number of imputed datasets to generate
-    kernel = mf.ImputationKernel(
-        data=df,
-        num_datasets=resulting_datasets,
-        random_state=random_state
-    )
-    _LOGGER.info("➡️ MICE imputation running...")
-    # Perform MICE with n iterations per dataset
-    kernel.mice(iterations)
-    # Retrieve the imputed datasets
-    imputed_datasets = [kernel.complete_data(dataset=i) for i in range(resulting_datasets)]
-    if imputed_datasets is None or len(imputed_datasets) == 0:
-        _LOGGER.error("No imputed datasets were generated. Check the MICE process.")
-        raise ValueError()
-    # threshold binary columns
-    if binary_columns is not None:
-        invalid_binary_columns = set(binary_columns) - set(df.columns)
-        if invalid_binary_columns:
-            _LOGGER.warning(f"These 'binary columns' are not in the dataset:")
-            for invalid_binary_col in invalid_binary_columns:
-                print(f"  - {invalid_binary_col}")
-        valid_binary_columns = [col for col in binary_columns if col not in invalid_binary_columns]
-        for imputed_df in imputed_datasets:
-            for binary_column_name in valid_binary_columns:
-                imputed_df[binary_column_name] = threshold_binary_values(imputed_df[binary_column_name]) # type: ignore
-    if resulting_datasets == 1:
-        imputed_dataset_names = [f"{df_name}_MICE"]
-    else:
-        imputed_dataset_names = [f"{df_name}_MICE_{i+1}" for i in range(resulting_datasets)]
-    # Ensure indexes match
-    for imputed_df, subname in zip(imputed_datasets, imputed_dataset_names):
-        assert imputed_df.shape[0] == df.shape[0], f"❌ Row count mismatch in dataset {subname}" # type: ignore
-        assert all(imputed_df.index == df.index), f"❌ Index mismatch in dataset {subname}" # type: ignore
-    # print("✅ All imputed datasets match the original DataFrame indexes.")
-    _LOGGER.info("MICE imputation complete.")
-    return kernel, imputed_datasets, imputed_dataset_names
-def save_imputed_datasets(save_dir: Union[str, Path], imputed_datasets: list, df_targets: pd.DataFrame, imputed_dataset_names: list[str]):
-    for imputed_df, subname in zip(imputed_datasets, imputed_dataset_names):
-        merged_df = merge_dataframes(imputed_df, df_targets, direction="horizontal", verbose=False)
-        save_dataframe_filename(df=merged_df, save_dir=save_dir, filename=subname)
-#Get names of features that had missing values before imputation
-def _get_na_column_names(df: pd.DataFrame):
-    return [col for col in df.columns if df[col].isna().any()]
-#Convergence diagnostic
-def get_convergence_diagnostic(kernel: mf.ImputationKernel, imputed_dataset_names: list[str], column_names: list[str], root_dir: Union[str,Path], fontsize: int=16):
-    """
-    Generate and save convergence diagnostic plots for imputed variables.
-    Parameters:
-    - kernel: Trained miceforest.ImputationKernel.
-    - imputed_dataset_names: Names assigned to each imputed dataset.
-    - column_names: List of feature names to track over iterations.
-    - root_dir: Directory to save convergence plots.
-    """
-    # get number of iterations used
-    iterations_cap = kernel.iteration_count()
-    dataset_count = kernel.num_datasets
-    if dataset_count != len(imputed_dataset_names):
-        _LOGGER.error(f"Expected {dataset_count} names in imputed_dataset_names, got {len(imputed_dataset_names)}")
-        raise ValueError()
-    # Check path
-    root_path = make_fullpath(root_dir, make=True)
-    # Styling parameters
-    label_font = {'size': fontsize, 'weight': 'bold'}
-    # iterate over each imputed dataset
-    for dataset_id, imputed_dataset_name in zip(range(dataset_count), imputed_dataset_names):
-        #Check directory for current dataset
-        dataset_file_dir = f"Convergence_Metrics_{imputed_dataset_name}"
-        local_save_dir = make_fullpath(input_path=root_path / dataset_file_dir, make=True)
-        for feature_name in column_names:
-            means_per_iteration = []
-            for iteration in range(iterations_cap):
-                current_imputed = kernel.complete_data(dataset=dataset_id, iteration=iteration)
-                means_per_iteration.append(np.mean(current_imputed[feature_name])) # type: ignore
-            plt.figure(figsize=(10, 8))
-            plt.plot(means_per_iteration, marker='o')
-            plt.xlabel("Iteration", **label_font)
-            plt.ylabel("Mean of Imputed Values", **label_font)
-            plt.title(f"Mean Convergence for '{feature_name}'", **label_font)
-            # Adjust plot display for the X axis
-            _ticks = np.arange(iterations_cap)
-            _labels = np.arange(1, iterations_cap + 1)
-            plt.xticks(ticks=_ticks, labels=_labels) # type: ignore
-            plt.grid(True)
-            feature_save_name = sanitize_filename(feature_name)
-            feature_save_name = feature_save_name + ".svg"
-            save_path = local_save_dir / feature_save_name
-            plt.savefig(save_path, bbox_inches='tight', format="svg")
-            plt.close()
-        _LOGGER.info(f"{dataset_file_dir} process completed.")
-# Imputed distributions
-def get_imputed_distributions(kernel: mf.ImputationKernel, df_name: str, root_dir: Union[str, Path], column_names: list[str], one_plot: bool=False, fontsize: int=14):
-    '''
-    It works using miceforest's authors implementation of the method `.plot_imputed_distributions()`.
-    Set `one_plot=True` to save a single image including all feature distribution plots instead.
-    '''
-    # Check path
-    root_path = make_fullpath(root_dir, make=True)
-    local_dir_name = f"Distribution_Metrics_{df_name}_imputed"
-    local_save_dir = make_fullpath(root_path / local_dir_name, make=True)
-    # Styling parameters
-    legend_kwargs = {'frameon': True, 'facecolor': 'white', 'framealpha': 0.8}
-    label_font = {'size': fontsize, 'weight': 'bold'}
-    def _process_figure(fig, filename: str):
-        """Helper function to add labels and legends to a figure"""
-        if not isinstance(fig, ggplot):
-            _LOGGER.error(f"Expected a plotnine.ggplot object, received {type(fig)}.")
-            raise TypeError()
-        # Edit labels and title
-        fig = fig + theme(
-                plot_title=element_blank(),  # removes labs(title=...)
-                strip_text=element_blank()   # removes facet_wrap labels
-            )
-        fig = fig + labs(y="", x="")
-        # Render to matplotlib figure
-        fig = fig.draw()
-        if not hasattr(fig, 'axes') or len(fig.axes) == 0:
-            _LOGGER.error("Rendered figure has no axes to modify.")
-            raise RuntimeError()
-        if filename == "Combined_Distributions":
-            custom_xlabel = "Feature Values"
-        else:
-            custom_xlabel = filename
-        for ax in fig.axes:
-            # Set axis labels
-            ax.set_xlabel(custom_xlabel, **label_font)
-            ax.set_ylabel('Distribution', **label_font)
-            # Add legend based on line colors
-            lines = ax.get_lines()
-            if len(lines) >= 1:
-                lines[0].set_label('Original Data')
-                if len(lines) > 1:
-                    lines[1].set_label('Imputed Data')
-                ax.legend(**legend_kwargs)
-        # Adjust layout and save
-        # fig.tight_layout()
-        # fig.subplots_adjust(bottom=0.2, left=0.2)  # Optional, depending on overflow
-        # sanitize savename
-        feature_save_name = sanitize_filename(filename)
-        feature_save_name = feature_save_name + ".svg"
-        new_save_path = local_save_dir / feature_save_name
-        fig.savefig(
-            new_save_path,
-            format='svg',
-            bbox_inches='tight',
-            pad_inches=0.1
-        )
-        plt.close(fig)
-    if one_plot:
-        # Generate combined plot
-        fig = kernel.plot_imputed_distributions(variables=column_names)
-        _process_figure(fig, "Combined_Distributions")
-        # Generate individual plots per feature
-    else:
-        for feature in column_names:
-            fig = kernel.plot_imputed_distributions(variables=[feature])
-            _process_figure(fig, feature)
-    _LOGGER.info(f"{local_dir_name} completed.")
-def run_mice_pipeline(df_path_or_dir: Union[str,Path], target_columns: list[str],
-                      save_datasets_dir: Union[str,Path], save_metrics_dir: Union[str,Path],
-                      binary_columns: Optional[list[str]]=None,
-                      resulting_datasets: int=1,
-                      iterations: int=20,
-                      random_state: int=101):
-    """
-    Call functions in sequence for each dataset in the provided path or directory:
-        1. Load dataframe
-        2. Apply MICE
-        3. Save imputed dataset(s)
-        4. Save convergence metrics
-        5. Save distribution metrics
-    Target columns must be skipped from the imputation. Binary columns will be thresholded after imputation.
-    """
-    # Check paths
-    save_datasets_path = make_fullpath(save_datasets_dir, make=True)
-    save_metrics_path = make_fullpath(save_metrics_dir, make=True)
-    input_path = make_fullpath(df_path_or_dir)
-    if input_path.is_file():
-        all_file_paths = [input_path]
-    else:
-        all_file_paths = list(list_csv_paths(input_path, raise_on_empty=True).values())
-    for df_path in all_file_paths:
-        df: pd.DataFrame
-        df, df_name = load_dataframe(df_path=df_path, kind="pandas") # type: ignore
-        df, df_targets = _skip_targets(df, target_columns)
-        kernel, imputed_datasets, imputed_dataset_names = apply_mice(df=df, df_name=df_name, binary_columns=binary_columns, resulting_datasets=resulting_datasets, iterations=iterations, random_state=random_state)
-        save_imputed_datasets(save_dir=save_datasets_path, imputed_datasets=imputed_datasets, df_targets=df_targets, imputed_dataset_names=imputed_dataset_names)
-        imputed_column_names = _get_na_column_names(df=df)
-        get_convergence_diagnostic(kernel=kernel, imputed_dataset_names=imputed_dataset_names, column_names=imputed_column_names, root_dir=save_metrics_path)
-        get_imputed_distributions(kernel=kernel, df_name=df_name, root_dir=save_metrics_path, column_names=imputed_column_names)
-def _skip_targets(df: pd.DataFrame, target_cols: list[str]):
-    valid_targets = [col for col in target_cols if col in df.columns]
-    df_targets = df[valid_targets]
-    df_feats = df.drop(columns=valid_targets)
-    return df_feats, df_targets
-# modern implementation
 class DragonMICE:
     """
     A modern MICE imputation pipeline that uses a FeatureSchema
@@ -293,71 +34,80 @@ class DragonMICE:
     def __init__(self,
                  schema: FeatureSchema,
                  impute_targets: bool = False,
-                 iterations: int = 20,
+                 iterations: int = 30,
                  resulting_datasets: int = 1,
                  random_state: int = 101):
-        self.schema = schema
-        self.impute_targets = impute_targets
-        self.random_state = random_state
-        self.iterations = iterations
-        self.resulting_datasets = resulting_datasets
+        # Validation
+        if not isinstance(schema, FeatureSchema):
+            raise TypeError(f"schema must be a FeatureSchema, got {type(schema)}")
+        if iterations < 1:
+            raise ValueError("iterations must be >= 1")
+        if resulting_datasets < 1:
+            raise ValueError("resulting_datasets must be >= 1")
+        # Private Attributes
+        self._schema = schema
+        self._impute_targets = impute_targets
+        self._random_state = random_state
+        self._iterations = iterations
+        self._resulting_datasets = resulting_datasets
         # --- Store schema info ---
         # 1. Categorical info
-        if not self.schema.categorical_index_map:
+        if not self._schema.categorical_index_map:
             _LOGGER.warning("FeatureSchema has no 'categorical_index_map'. No discretization will be applied.")
-            self.cat_info = {}
+            self._cat_info = {}
         else:
-            self.cat_info = self.schema.categorical_index_map
+            self._cat_info = self._schema.categorical_index_map
         # 2. Ordered feature names (critical for index mapping)
-        self.ordered_features = list(self.schema.feature_names)
+        # Convert to list immediately to avoid Pandas Tuple indexing errors
+        self._ordered_features = list(self._schema.feature_names)
         # 3. Names of categorical features
-        self.categorical_features = list(self.schema.categorical_feature_names)
+        self._categorical_features = list(self._schema.categorical_feature_names)
+        _LOGGER.info(f"DragonMICE initialized. Impute Targets: {self._impute_targets}. Found {len(self._cat_info)} categorical features to discretize.")
-        _LOGGER.info(f"DragonMICE initialized. Impute Targets: {self.impute_targets}. Found {len(self.cat_info)} categorical features to discretize.")
+    @property
+    def schema(self) -> FeatureSchema:
+        """Exposes the used FeatureSchema as read-only for inspection/logging purposes."""
+        return self._schema
     def _post_process(self, imputed_df: pd.DataFrame) -> pd.DataFrame:
         """
         Applies schema-based discretization to a completed dataframe.
-        This method works around the behavior of `discretize_categorical_values`
-        (which returns a full int32 array) by:
-        1. Extracting *only* the schema features.
-        2. Discretizing them.
-        3. Updating the original dataframe (which may contain targets) with these integers.
         """
         # If no categorical features are defined, return the df as-is.
-        if not self.cat_info:
+        if not self._cat_info:
             return imputed_df
         try:
             # 1. Extract the features strictly defined in the schema
             # We must respect the schema order for index-based discretization
-            df_schema_features = imputed_df[self.ordered_features]
+            df_schema_features = imputed_df[self._ordered_features]
             # 2. Convert to NumPy array
             array_ordered = df_schema_features.to_numpy()
-            # 3. Apply discretization utility (returns int32 array)
+            # 3. Apply discretization utility (returns int32 array usually, or floats)
             discretized_array_int32 = discretize_categorical_values(
                 array_ordered,
-                self.cat_info,
+                self._cat_info,
                 start_at_zero=True
             )
             # 4. Create a DataFrame for the discretized values
             df_discretized_full = pd.DataFrame(
                 discretized_array_int32,
-                columns=self.ordered_features,
+                columns=self._ordered_features,
                 index=df_schema_features.index
             )
             # 5. Isolate only the categorical columns that changed
-            df_discretized_cats = df_discretized_full[self.categorical_features]
+            df_discretized_cats = df_discretized_full[self._categorical_features]
             # 6. Update the original imputed DF
             # This preserves Target columns if they exist in imputed_df
@@ -367,7 +117,7 @@ class DragonMICE:
             return final_df
         except Exception as e:
-            _LOGGER.error(f"Failed during post-processing discretization:\n\tSchema features: {len(self.ordered_features)}\n{e}")
+            _LOGGER.error(f"Failed during post-processing discretization:\n\tSchema features: {len(self._ordered_features)}\n{e}")
             raise
     def _run_mice(self,
@@ -378,43 +128,45 @@ class DragonMICE:
         Parameters:
             df (pd.DataFrame): The input dataframe.
-                               If impute_targets=False, this should only be features.
-                               If impute_targets=True, this can be the full dataset.
-            df_name (str): The base name for the dataset.
         """
         # Validation: Ensure Schema features exist in the input
-        missing_cols = [col for col in self.ordered_features if col not in df.columns]
+        # Note: self._ordered_features is already a list
+        missing_cols = [col for col in self._ordered_features if col not in df.columns]
         if missing_cols:
             _LOGGER.error(f"Input DataFrame is missing required schema columns: {missing_cols}")
-            raise ValueError()
+            raise ValueError(f"Missing columns: {missing_cols}")
         # If NOT imputing targets, we strictly filter to features.
         # If we ARE imputing targets, we use the whole DF provided (Features + Targets).
-        if not self.impute_targets:
-            data_for_mice = df[self.ordered_features]
+        if not self._impute_targets:
+            data_for_mice = df[self._ordered_features]
         else:
             data_for_mice = df
         # 1. Initialize kernel
         kernel = mf.ImputationKernel(
             data=data_for_mice,
-            num_datasets=self.resulting_datasets,
-            random_state=self.random_state
+            num_datasets=self._resulting_datasets,
+            random_state=self._random_state
         )
         # base message
         message = "➡️ Schema-based MICE imputation running"
-        if self.impute_targets:
+        if self._impute_targets:
             message += " (Targets included)"
         _LOGGER.info(message)
         # 2. Perform MICE
-        kernel.mice(self.iterations)
+        try:
+            kernel.mice(self._iterations)
+        except Exception as e:
+            _LOGGER.error(f"MICE imputation failed during execution: {e}")
+            raise
         # 3. Retrieve, process, and collect datasets
         imputed_datasets = []
-        for i in range(self.resulting_datasets):
+        for i in range(self._resulting_datasets):
             # complete_data returns a pd.DataFrame
             completed_df = kernel.complete_data(dataset=i)
@@ -431,15 +183,19 @@ class DragonMICE:
             raise ValueError()
         # 4. Generate names
-        if self.resulting_datasets == 1:
+        if self._resulting_datasets == 1:
             imputed_dataset_names = [f"{df_name}_MICE"]
         else:
-            imputed_dataset_names = [f"{df_name}_MICE_{i+1}" for i in range(self.resulting_datasets)]
+            imputed_dataset_names = [f"{df_name}_MICE_{i+1}" for i in range(self._resulting_datasets)]
         # 5. Validate indexes and Row Counts
         for imputed_df, subname in zip(imputed_datasets, imputed_dataset_names):
-            assert imputed_df.shape[0] == df.shape[0], f"❌ Row count mismatch in dataset {subname}"
-            assert all(imputed_df.index == df.index), f"❌ Index mismatch in dataset {subname}"
+            if imputed_df.shape[0] != df.shape[0]:
+                 _LOGGER.error(f"Row count mismatch in dataset {subname}")
+                 raise ValueError()
+            if not all(imputed_df.index == df.index):
+                 _LOGGER.error(f"Index mismatch in dataset {subname}")
+                 raise ValueError()
         _LOGGER.info("Schema-based MICE imputation complete.")
@@ -452,34 +208,51 @@ class DragonMICE:
                      ):
         """
         Runs the complete MICE imputation pipeline.
+        Parameters:
+            df_path_or_dir (str | Path): Path to a CSV file or directory containing CSV files.
+            save_datasets_dir (str | Path): Directory to save imputed datasets.
+            save_metrics_dir (str | Path): Directory to save convergence and distribution metrics.
         """
         # Check paths
-        save_datasets_path = make_fullpath(save_datasets_dir, make=True)
-        save_metrics_path = make_fullpath(save_metrics_dir, make=True)
+        save_datasets_path = make_fullpath(save_datasets_dir, make=True, enforce="directory")
+        save_metrics_path = make_fullpath(save_metrics_dir, make=True, enforce="directory")
         input_path = make_fullpath(df_path_or_dir)
         if input_path.is_file():
             all_file_paths = [input_path]
-        else:
+        elif input_path.is_dir():
             all_file_paths = list(list_csv_paths(input_path, raise_on_empty=True).values())
+        else:
+            _LOGGER.error(f"Input path '{input_path}' is neither a file nor a directory.")
+            raise FileNotFoundError()
         for df_path in all_file_paths:
-            df, df_name = load_dataframe(df_path=df_path, kind="pandas")
+            df, df_name = load_dataframe(df_path=df_path, kind="pandas") # type: ignore
             # --- SPLIT LOGIC BASED ON CONFIGURATION ---
-            if self.impute_targets:
+            if self._impute_targets:
                 # If we impute targets, we pass the whole DF to MICE.
                 # We pass an empty DF as 'targets' to save_imputed_datasets to prevent duplication.
                 df_input = df
                 df_targets_to_save = pd.DataFrame(index=df.index)
-                # We monitor all columns that had NaNs
-                imputed_column_names = _get_na_column_names(df=df)
+                # Monitor all columns that had NaNs
+                imputed_column_names = [col for col in df.columns if df[col].isna().any()]
             else:
-                # Original behavior: Split explicitly
-                df_input = df[self.schema.feature_names]
-                df_targets_to_save = df.drop(columns=self.schema.feature_names)
+                # Explicitly cast tuple to list for Pandas indexing
+                feature_cols = list(self._schema.feature_names)
+                # Check for column existence before slicing
+                if not set(feature_cols).issubset(df.columns):
+                    missing = set(feature_cols) - set(df.columns)
+                    _LOGGER.error(f"Dataset '{df_name}' is missing schema features: {missing}")
+                    raise KeyError(f"Missing features: {missing}")
+                df_input = df[feature_cols]
+                # Drop features to get targets (more robust than explicit selection if targets vary)
+                df_targets_to_save = df.drop(columns=feature_cols)
                 imputed_column_names = _get_na_column_names(df=df_input) # type: ignore
@@ -487,7 +260,7 @@ class DragonMICE:
             kernel, imputed_datasets, imputed_dataset_names = self._run_mice(df=df_input, df_name=df_name) # type: ignore
             # Save (merges imputed_datasets with df_targets_to_save)
-            save_imputed_datasets(
+            _save_imputed_datasets(
                 save_dir=save_datasets_path,
                 imputed_datasets=imputed_datasets,
                 df_targets=df_targets_to_save,
@@ -510,5 +283,153 @@ class DragonMICE:
             )
-def info():
-    _script_info(__all__)
+def _save_imputed_datasets(save_dir: Union[str, Path], imputed_datasets: list, df_targets: pd.DataFrame, imputed_dataset_names: list[str]):
+    for imputed_df, subname in zip(imputed_datasets, imputed_dataset_names):
+        merged_df = merge_dataframes(imputed_df, df_targets, direction="horizontal", verbose=False)
+        save_dataframe_filename(df=merged_df, save_dir=save_dir, filename=subname)
+#Convergence diagnostic
+def get_convergence_diagnostic(kernel: mf.ImputationKernel, imputed_dataset_names: list[str], column_names: list[str], root_dir: Union[str,Path], fontsize: int=16):
+    """
+    Generate and save convergence diagnostic plots for imputed variables.
+    Parameters:
+    - kernel: Trained miceforest.ImputationKernel.
+    - imputed_dataset_names: Names assigned to each imputed dataset.
+    - column_names: List of feature names to track over iterations.
+    - root_dir: Directory to save convergence plots.
+    """
+    # get number of iterations used
+    iterations_cap = kernel.iteration_count()
+    dataset_count = kernel.num_datasets
+    if dataset_count != len(imputed_dataset_names):
+        _LOGGER.error(f"Expected {dataset_count} names in imputed_dataset_names, got {len(imputed_dataset_names)}")
+        raise ValueError()
+    # Check path
+    root_path = make_fullpath(root_dir, make=True)
+    # Styling parameters
+    label_font = {'size': fontsize, 'weight': 'bold'}
+    # iterate over each imputed dataset
+    for dataset_id, imputed_dataset_name in zip(range(dataset_count), imputed_dataset_names):
+        #Check directory for current dataset
+        dataset_file_dir = f"Convergence_Metrics_{imputed_dataset_name}"
+        local_save_dir = make_fullpath(input_path=root_path / dataset_file_dir, make=True)
+        for feature_name in column_names:
+            means_per_iteration = []
+            for iteration in range(iterations_cap):
+                current_imputed = kernel.complete_data(dataset=dataset_id, iteration=iteration)
+                means_per_iteration.append(np.mean(current_imputed[feature_name])) # type: ignore
+            plt.figure(figsize=(10, 8))
+            plt.plot(means_per_iteration, marker='o')
+            plt.xlabel("Iteration", **label_font)
+            plt.ylabel("Mean of Imputed Values", **label_font)
+            plt.title(f"Mean Convergence for '{feature_name}'", **label_font)
+            # Adjust plot display for the X axis
+            _ticks = np.arange(iterations_cap)
+            _labels = np.arange(1, iterations_cap + 1)
+            plt.xticks(ticks=_ticks, labels=_labels) # type: ignore
+            plt.grid(True)
+            feature_save_name = sanitize_filename(feature_name)
+            feature_save_name = feature_save_name + ".svg"
+            save_path = local_save_dir / feature_save_name
+            plt.savefig(save_path, bbox_inches='tight', format="svg")
+            plt.close()
+        _LOGGER.info(f"{dataset_file_dir} process completed.")
+# Imputed distributions
+def get_imputed_distributions(kernel: mf.ImputationKernel, df_name: str, root_dir: Union[str, Path], column_names: list[str], one_plot: bool=False, fontsize: int=14):
+    '''
+    It works using miceforest's authors implementation of the method `.plot_imputed_distributions()`.
+    Set `one_plot=True` to save a single image including all feature distribution plots instead.
+    '''
+    # Check path
+    root_path = make_fullpath(root_dir, make=True)
+    local_dir_name = f"Distribution_Metrics_{df_name}_imputed"
+    local_save_dir = make_fullpath(root_path / local_dir_name, make=True)
+    # Styling parameters
+    legend_kwargs = {'frameon': True, 'facecolor': 'white', 'framealpha': 0.8}
+    label_font = {'size': fontsize, 'weight': 'bold'}
+    def _process_figure(fig, filename: str):
+        """Helper function to add labels and legends to a figure"""
+        if not isinstance(fig, ggplot):
+            _LOGGER.error(f"Expected a plotnine.ggplot object, received {type(fig)}.")
+            raise TypeError()
+        # Edit labels and title
+        fig = fig + theme(
+                plot_title=element_blank(),  # removes labs(title=...)
+                strip_text=element_blank()   # removes facet_wrap labels
+            )
+        fig = fig + labs(y="", x="")
+        # Render to matplotlib figure
+        fig = fig.draw()
+        if not hasattr(fig, 'axes') or len(fig.axes) == 0:
+            _LOGGER.error("Rendered figure has no axes to modify.")
+            raise RuntimeError()
+        if filename == "Combined_Distributions":
+            custom_xlabel = "Feature Values"
+        else:
+            custom_xlabel = filename
+        for ax in fig.axes:
+            # Set axis labels
+            ax.set_xlabel(custom_xlabel, **label_font)
+            ax.set_ylabel('Distribution', **label_font)
+            # Add legend based on line colors
+            lines = ax.get_lines()
+            if len(lines) >= 1:
+                lines[0].set_label('Original Data')
+                if len(lines) > 1:
+                    lines[1].set_label('Imputed Data')
+                ax.legend(**legend_kwargs)
+        # Adjust layout and save
+        # fig.tight_layout()
+        # fig.subplots_adjust(bottom=0.2, left=0.2)  # Optional, depending on overflow
+        # sanitize savename
+        feature_save_name = sanitize_filename(filename)
+        feature_save_name = feature_save_name + ".svg"
+        new_save_path = local_save_dir / feature_save_name
+        fig.savefig(
+            new_save_path,
+            format='svg',
+            bbox_inches='tight',
+            pad_inches=0.1
+        )
+        plt.close(fig)
+    if one_plot:
+        # Generate combined plot
+        fig = kernel.plot_imputed_distributions(variables=column_names)
+        _process_figure(fig, "Combined_Distributions")
+        # Generate individual plots per feature
+    else:
+        for feature in column_names:
+            fig = kernel.plot_imputed_distributions(variables=[feature])
+            _process_figure(fig, feature)
+    _LOGGER.info(f"{local_dir_name} completed.")

dragon-ml-toolbox 19.13.0__py3-none-any.whl → 20.0.0__py3-none-any.whl

dragon-ml-toolbox 19.13.0py3-none-any.whl → 20.0.0py3-none-any.whl