PyPI - dragon-ml-toolbox - Versions diffs - 19.13.0__py3-none-any.whl → 20.0.0__py3-none-any.whl - Mend

dragon-ml-toolbox 19.13.0py3-none-any.whl → 20.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (219) hide show

{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/METADATA +29 -46
dragon_ml_toolbox-20.0.0.dist-info/RECORD +178 -0
ml_tools/{ETL_cleaning.py → ETL_cleaning/__init__.py} +13 -5
ml_tools/ETL_cleaning/_basic_clean.py +351 -0
ml_tools/ETL_cleaning/_clean_tools.py +128 -0
ml_tools/ETL_cleaning/_dragon_cleaner.py +245 -0
ml_tools/ETL_cleaning/_imprimir.py +13 -0
ml_tools/{ETL_engineering.py → ETL_engineering/__init__.py} +8 -4
ml_tools/ETL_engineering/_dragon_engineering.py +261 -0
ml_tools/ETL_engineering/_imprimir.py +24 -0
ml_tools/{_core/_ETL_engineering.py → ETL_engineering/_transforms.py} +14 -267
ml_tools/{_core → GUI_tools}/_GUI_tools.py +37 -40
ml_tools/{GUI_tools.py → GUI_tools/__init__.py} +7 -5
ml_tools/GUI_tools/_imprimir.py +12 -0
ml_tools/IO_tools/_IO_loggers.py +235 -0
ml_tools/IO_tools/_IO_save_load.py +151 -0
ml_tools/IO_tools/_IO_utils.py +140 -0
ml_tools/{IO_tools.py → IO_tools/__init__.py} +13 -5
ml_tools/IO_tools/_imprimir.py +14 -0
ml_tools/MICE/_MICE_imputation.py +132 -0
ml_tools/{MICE_imputation.py → MICE/__init__.py} +6 -7
ml_tools/{_core/_MICE_imputation.py → MICE/_dragon_mice.py} +243 -322
ml_tools/MICE/_imprimir.py +11 -0
ml_tools/{ML_callbacks.py → ML_callbacks/__init__.py} +12 -4
ml_tools/ML_callbacks/_base.py +101 -0
ml_tools/ML_callbacks/_checkpoint.py +232 -0
ml_tools/ML_callbacks/_early_stop.py +208 -0
ml_tools/ML_callbacks/_imprimir.py +12 -0
ml_tools/ML_callbacks/_scheduler.py +197 -0
ml_tools/{ML_chaining_utilities.py → ML_chain/__init__.py} +8 -3
ml_tools/{_core/_ML_chaining_utilities.py → ML_chain/_chaining_tools.py} +5 -129
ml_tools/ML_chain/_dragon_chain.py +140 -0
ml_tools/ML_chain/_imprimir.py +11 -0
ml_tools/ML_configuration/__init__.py +90 -0
ml_tools/ML_configuration/_base_model_config.py +69 -0
ml_tools/ML_configuration/_finalize.py +366 -0
ml_tools/ML_configuration/_imprimir.py +47 -0
ml_tools/ML_configuration/_metrics.py +593 -0
ml_tools/ML_configuration/_models.py +206 -0
ml_tools/ML_configuration/_training.py +124 -0
ml_tools/ML_datasetmaster/__init__.py +28 -0
ml_tools/ML_datasetmaster/_base_datasetmaster.py +337 -0
ml_tools/{_core/_ML_datasetmaster.py → ML_datasetmaster/_datasetmaster.py} +9 -329
ml_tools/ML_datasetmaster/_imprimir.py +15 -0
ml_tools/{_core/_ML_sequence_datasetmaster.py → ML_datasetmaster/_sequence_datasetmaster.py} +13 -15
ml_tools/{_core/_ML_vision_datasetmaster.py → ML_datasetmaster/_vision_datasetmaster.py} +63 -65
ml_tools/ML_evaluation/__init__.py +53 -0
ml_tools/ML_evaluation/_classification.py +629 -0
ml_tools/ML_evaluation/_feature_importance.py +409 -0
ml_tools/ML_evaluation/_imprimir.py +25 -0
ml_tools/ML_evaluation/_loss.py +92 -0
ml_tools/ML_evaluation/_regression.py +273 -0
ml_tools/{_core/_ML_sequence_evaluation.py → ML_evaluation/_sequence.py} +8 -11
ml_tools/{_core/_ML_vision_evaluation.py → ML_evaluation/_vision.py} +12 -17
ml_tools/{_core → ML_evaluation_captum}/_ML_evaluation_captum.py +11 -38
ml_tools/{ML_evaluation_captum.py → ML_evaluation_captum/__init__.py} +6 -4
ml_tools/ML_evaluation_captum/_imprimir.py +10 -0
ml_tools/{_core → ML_finalize_handler}/_ML_finalize_handler.py +3 -7
ml_tools/ML_finalize_handler/__init__.py +10 -0
ml_tools/ML_finalize_handler/_imprimir.py +8 -0
ml_tools/ML_inference/__init__.py +22 -0
ml_tools/ML_inference/_base_inference.py +166 -0
ml_tools/{_core/_ML_chaining_inference.py → ML_inference/_chain_inference.py} +14 -17
ml_tools/ML_inference/_dragon_inference.py +332 -0
ml_tools/ML_inference/_imprimir.py +11 -0
ml_tools/ML_inference/_multi_inference.py +180 -0
ml_tools/ML_inference_sequence/__init__.py +10 -0
ml_tools/ML_inference_sequence/_imprimir.py +8 -0
ml_tools/{_core/_ML_sequence_inference.py → ML_inference_sequence/_sequence_inference.py} +11 -15
ml_tools/ML_inference_vision/__init__.py +10 -0
ml_tools/ML_inference_vision/_imprimir.py +8 -0
ml_tools/{_core/_ML_vision_inference.py → ML_inference_vision/_vision_inference.py} +15 -19
ml_tools/ML_models/__init__.py +32 -0
ml_tools/{_core/_ML_models_advanced.py → ML_models/_advanced_models.py} +22 -18
ml_tools/ML_models/_base_mlp_attention.py +198 -0
ml_tools/{_core/_models_advanced_base.py → ML_models/_base_save_load.py} +73 -49
ml_tools/ML_models/_dragon_tabular.py +248 -0
ml_tools/ML_models/_imprimir.py +18 -0
ml_tools/ML_models/_mlp_attention.py +134 -0
ml_tools/{_core → ML_models}/_models_advanced_helpers.py +13 -13
ml_tools/ML_models_sequence/__init__.py +10 -0
ml_tools/ML_models_sequence/_imprimir.py +8 -0
ml_tools/{_core/_ML_sequence_models.py → ML_models_sequence/_sequence_models.py} +5 -8
ml_tools/ML_models_vision/__init__.py +29 -0
ml_tools/ML_models_vision/_base_wrapper.py +254 -0
ml_tools/ML_models_vision/_image_classification.py +182 -0
ml_tools/ML_models_vision/_image_segmentation.py +108 -0
ml_tools/ML_models_vision/_imprimir.py +16 -0
ml_tools/ML_models_vision/_object_detection.py +135 -0
ml_tools/ML_optimization/__init__.py +21 -0
ml_tools/ML_optimization/_imprimir.py +13 -0
ml_tools/{_core/_ML_optimization_pareto.py → ML_optimization/_multi_dragon.py} +18 -24
ml_tools/ML_optimization/_single_dragon.py +203 -0
ml_tools/{_core/_ML_optimization.py → ML_optimization/_single_manual.py} +75 -213
ml_tools/{_core → ML_scaler}/_ML_scaler.py +8 -11
ml_tools/ML_scaler/__init__.py +10 -0
ml_tools/ML_scaler/_imprimir.py +8 -0
ml_tools/ML_trainer/__init__.py +20 -0
ml_tools/ML_trainer/_base_trainer.py +297 -0
ml_tools/ML_trainer/_dragon_detection_trainer.py +402 -0
ml_tools/ML_trainer/_dragon_sequence_trainer.py +540 -0
ml_tools/ML_trainer/_dragon_trainer.py +1160 -0
ml_tools/ML_trainer/_imprimir.py +10 -0
ml_tools/{ML_utilities.py → ML_utilities/__init__.py} +14 -6
ml_tools/ML_utilities/_artifact_finder.py +382 -0
ml_tools/ML_utilities/_imprimir.py +16 -0
ml_tools/ML_utilities/_inspection.py +325 -0
ml_tools/ML_utilities/_train_tools.py +205 -0
ml_tools/{ML_vision_transformers.py → ML_vision_transformers/__init__.py} +9 -6
ml_tools/{_core/_ML_vision_transformers.py → ML_vision_transformers/_core_transforms.py} +11 -155
ml_tools/ML_vision_transformers/_imprimir.py +14 -0
ml_tools/ML_vision_transformers/_offline_augmentation.py +159 -0
ml_tools/{_core/_PSO_optimization.py → PSO_optimization/_PSO.py} +58 -15
ml_tools/{PSO_optimization.py → PSO_optimization/__init__.py} +5 -3
ml_tools/PSO_optimization/_imprimir.py +10 -0
ml_tools/SQL/__init__.py +7 -0
ml_tools/{_core/_SQL.py → SQL/_dragon_SQL.py} +7 -11
ml_tools/SQL/_imprimir.py +8 -0
ml_tools/{_core → VIF}/_VIF_factor.py +5 -8
ml_tools/{VIF_factor.py → VIF/__init__.py} +4 -2
ml_tools/VIF/_imprimir.py +10 -0
ml_tools/_core/__init__.py +7 -1
ml_tools/_core/_logger.py +8 -18
ml_tools/_core/_schema_load_ops.py +43 -0
ml_tools/_core/_script_info.py +2 -2
ml_tools/{data_exploration.py → data_exploration/__init__.py} +32 -16
ml_tools/data_exploration/_analysis.py +214 -0
ml_tools/data_exploration/_cleaning.py +566 -0
ml_tools/data_exploration/_features.py +583 -0
ml_tools/data_exploration/_imprimir.py +32 -0
ml_tools/data_exploration/_plotting.py +487 -0
ml_tools/data_exploration/_schema_ops.py +176 -0
ml_tools/{ensemble_evaluation.py → ensemble_evaluation/__init__.py} +6 -4
ml_tools/{_core → ensemble_evaluation}/_ensemble_evaluation.py +3 -7
ml_tools/ensemble_evaluation/_imprimir.py +14 -0
ml_tools/{ensemble_inference.py → ensemble_inference/__init__.py} +5 -3
ml_tools/{_core → ensemble_inference}/_ensemble_inference.py +15 -18
ml_tools/ensemble_inference/_imprimir.py +9 -0
ml_tools/{ensemble_learning.py → ensemble_learning/__init__.py} +4 -6
ml_tools/{_core → ensemble_learning}/_ensemble_learning.py +7 -10
ml_tools/ensemble_learning/_imprimir.py +10 -0
ml_tools/{excel_handler.py → excel_handler/__init__.py} +5 -3
ml_tools/{_core → excel_handler}/_excel_handler.py +6 -10
ml_tools/excel_handler/_imprimir.py +13 -0
ml_tools/{keys.py → keys/__init__.py} +4 -1
ml_tools/keys/_imprimir.py +11 -0
ml_tools/{_core → keys}/_keys.py +2 -0
ml_tools/{math_utilities.py → math_utilities/__init__.py} +5 -2
ml_tools/math_utilities/_imprimir.py +11 -0
ml_tools/{_core → math_utilities}/_math_utilities.py +1 -5
ml_tools/{optimization_tools.py → optimization_tools/__init__.py} +9 -4
ml_tools/optimization_tools/_imprimir.py +13 -0
ml_tools/optimization_tools/_optimization_bounds.py +236 -0
ml_tools/optimization_tools/_optimization_plots.py +218 -0
ml_tools/{path_manager.py → path_manager/__init__.py} +6 -3
ml_tools/{_core/_path_manager.py → path_manager/_dragonmanager.py} +11 -347
ml_tools/path_manager/_imprimir.py +15 -0
ml_tools/path_manager/_path_tools.py +346 -0
ml_tools/plot_fonts/__init__.py +8 -0
ml_tools/plot_fonts/_imprimir.py +8 -0
ml_tools/{_core → plot_fonts}/_plot_fonts.py +2 -5
ml_tools/schema/__init__.py +15 -0
ml_tools/schema/_feature_schema.py +223 -0
ml_tools/schema/_gui_schema.py +191 -0
ml_tools/schema/_imprimir.py +10 -0
ml_tools/{serde.py → serde/__init__.py} +4 -2
ml_tools/serde/_imprimir.py +10 -0
ml_tools/{_core → serde}/_serde.py +3 -8
ml_tools/{utilities.py → utilities/__init__.py} +11 -6
ml_tools/utilities/_imprimir.py +18 -0
ml_tools/{_core/_utilities.py → utilities/_utility_save_load.py} +13 -190
ml_tools/utilities/_utility_tools.py +192 -0
dragon_ml_toolbox-19.13.0.dist-info/RECORD +0 -111
ml_tools/ML_chaining_inference.py +0 -8
ml_tools/ML_configuration.py +0 -86
ml_tools/ML_configuration_pytab.py +0 -14
ml_tools/ML_datasetmaster.py +0 -10
ml_tools/ML_evaluation.py +0 -16
ml_tools/ML_evaluation_multi.py +0 -12
ml_tools/ML_finalize_handler.py +0 -8
ml_tools/ML_inference.py +0 -12
ml_tools/ML_models.py +0 -14
ml_tools/ML_models_advanced.py +0 -14
ml_tools/ML_models_pytab.py +0 -14
ml_tools/ML_optimization.py +0 -14
ml_tools/ML_optimization_pareto.py +0 -8
ml_tools/ML_scaler.py +0 -8
ml_tools/ML_sequence_datasetmaster.py +0 -8
ml_tools/ML_sequence_evaluation.py +0 -10
ml_tools/ML_sequence_inference.py +0 -8
ml_tools/ML_sequence_models.py +0 -8
ml_tools/ML_trainer.py +0 -12
ml_tools/ML_vision_datasetmaster.py +0 -12
ml_tools/ML_vision_evaluation.py +0 -10
ml_tools/ML_vision_inference.py +0 -8
ml_tools/ML_vision_models.py +0 -18
ml_tools/SQL.py +0 -8
ml_tools/_core/_ETL_cleaning.py +0 -694
ml_tools/_core/_IO_tools.py +0 -498
ml_tools/_core/_ML_callbacks.py +0 -702
ml_tools/_core/_ML_configuration.py +0 -1332
ml_tools/_core/_ML_configuration_pytab.py +0 -102
ml_tools/_core/_ML_evaluation.py +0 -867
ml_tools/_core/_ML_evaluation_multi.py +0 -544
ml_tools/_core/_ML_inference.py +0 -646
ml_tools/_core/_ML_models.py +0 -668
ml_tools/_core/_ML_models_pytab.py +0 -693
ml_tools/_core/_ML_trainer.py +0 -2323
ml_tools/_core/_ML_utilities.py +0 -886
ml_tools/_core/_ML_vision_models.py +0 -644
ml_tools/_core/_data_exploration.py +0 -1901
ml_tools/_core/_optimization_tools.py +0 -493
ml_tools/_core/_schema.py +0 -359
ml_tools/plot_fonts.py +0 -8
ml_tools/schema.py +0 -12
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/WHEEL +0 -0
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/licenses/LICENSE +0 -0
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/licenses/LICENSE-THIRD-PARTY.md +0 -0
{dragon_ml_toolbox-19.13.0.dist-info → dragon_ml_toolbox-20.0.0.dist-info}/top_level.txt +0 -0

ml_tools/schema/_gui_schema.py ADDED Viewed

@@ -0,0 +1,191 @@
+from typing import Union, Any
+from pathlib import Path
+import json
+from ..path_manager import make_fullpath
+from ..keys._keys import SchemaKeys
+from .._core import get_logger
+from ._feature_schema import FeatureSchema
+_LOGGER = get_logger("GUISchema")
+__all__ = [
+    "create_guischema_template",
+    "make_multibinary_groups",
+]
+def create_guischema_template(
+    directory: Union[str, Path],
+    feature_schema: FeatureSchema,
+    targets: list[str],
+    continuous_ranges: dict[str, tuple[float, float]],
+    multibinary_groups: Union[dict[str, list[str]], None] = None,
+) -> None:
+    """
+    Generates a 'GUISchema.json' boilerplate file based on the Model FeatureSchema.
+    The generated JSON contains entries with empty "gui_name" fields for manual mapping.
+    Leave 'gui_name' empty to use auto-formatted Title Case.
+    Args:
+        directory (str | Path): Where to save the json file.
+        feature_schema (FeatureSchema): The source FeatureSchema object.
+        targets (list[str]): List of target names as used in the ML pipeline.
+        continuous_ranges (Dict[str, Tuple[float, float]]): Dict {model_name: (min, max)}.
+        multibinary_groups (Dict[str, list[str]] | None): Optional Dict {GUI_Group_Name: [model_col_1, model_col_2]}.
+                            Used to group binary columns into a single multi-select list.
+    """
+    dir_path = make_fullpath(directory, make=True, enforce="directory")
+    schema = feature_schema
+    output_data: dict[str, Any] = {
+        SchemaKeys.TARGETS: [],
+        SchemaKeys.CONTINUOUS: [],
+        SchemaKeys.BINARY: [],
+        SchemaKeys.MULTIBINARY: {}, # Structure: GroupName: [{model: x, gui: ""}]
+        SchemaKeys.CATEGORICAL: []
+    }
+    # Track handled columns to prevent duplicates in binary/categorical
+    handled_cols = set()
+    # 1. Targets
+    for t in targets:
+        output_data[SchemaKeys.TARGETS].append({
+            SchemaKeys.MODEL_NAME: t,
+            SchemaKeys.GUI_NAME: "" # User to fill
+        })
+    # 2. Continuous
+    # Validate ranges against schema
+    schema_cont_set = set(schema.continuous_feature_names)
+    for name, min_max in continuous_ranges.items():
+        if name in schema_cont_set:
+            output_data[SchemaKeys.CONTINUOUS].append({
+                SchemaKeys.MODEL_NAME: name,
+                SchemaKeys.GUI_NAME: "",
+                SchemaKeys.MIN_VALUE: min_max[0],
+                SchemaKeys.MAX_VALUE: min_max[1]
+            })
+            handled_cols.add(name)
+        else:
+            _LOGGER.warning(f"GUISchema: Provided range for '{name}', but it is not in FeatureSchema continuous list.")
+    # 3. Multi-Binary Groups
+    if multibinary_groups:
+        # Check for validity within the generic feature list
+        all_feats = set(schema.feature_names)
+        for group_name, cols in multibinary_groups.items():
+            # Validation: Groups cannot be empty
+            if not cols:
+                # warn and skip
+                _LOGGER.warning(f"GUISchema: Multi-binary group '{group_name}' is empty and will be skipped.")
+                continue
+            group_options = []
+            for col in cols:
+                # Validation: Columns must exist in schema
+                if col not in all_feats:
+                    # warn and skip
+                    _LOGGER.warning(f"GUISchema: Multi-binary column '{col}' in group '{group_name}' not found in FeatureSchema. Skipping.")
+                    continue
+                # else, add to group
+                group_options.append({
+                    SchemaKeys.MODEL_NAME: col,
+                    SchemaKeys.GUI_NAME: ""
+                })
+                handled_cols.add(col)
+            output_data[SchemaKeys.MULTIBINARY][group_name] = group_options
+    # 4. Binary & Categorical (Derived from Schema Mappings)
+    if schema.categorical_mappings:
+        for name, mapping in schema.categorical_mappings.items():
+            if name in handled_cols:
+                continue
+            # Heuristic: Cardinality 2 = Binary, >2 = Categorical
+            if len(mapping) == 2:
+                output_data[SchemaKeys.BINARY].append({
+                    SchemaKeys.MODEL_NAME: name,
+                    SchemaKeys.GUI_NAME: "" # User to fill
+                })
+            else:
+                # For categorical, we also allow renaming the specific options
+                options_with_names = {k: "" for k in mapping.keys()} # Default gui_option = model_option
+                output_data[SchemaKeys.CATEGORICAL].append({
+                    SchemaKeys.MODEL_NAME: name,
+                    SchemaKeys.GUI_NAME: "", # User to fill feature name
+                    SchemaKeys.MAPPING: mapping, # Original mapping
+                    SchemaKeys.OPTIONAL_LABELS: options_with_names # User can edit keys here
+                })
+    save_path = dir_path / SchemaKeys.GUI_SCHEMA_FILENAME
+    try:
+        with open(save_path, 'w', encoding='utf-8') as f:
+            json.dump(output_data, f, indent=4)
+        _LOGGER.info(f"GUISchema template generated at: '{dir_path.name}/{SchemaKeys.GUI_SCHEMA_FILENAME}'")
+    except IOError as e:
+        _LOGGER.error(f"Failed to save GUISchema template: {e}")
+def make_multibinary_groups(
+    feature_schema: FeatureSchema,
+    group_prefixes: list[str],
+    separator: str = "_"
+) -> dict[str, list[str]]:
+    """
+    Helper to automate creating the multibinary_groups dictionary for create_guischema_template.
+    Iterates through provided prefixes and groups categorical features that contain
+    the pattern '{prefix}{separator}'.
+    Args:
+        feature_schema: The loaded FeatureSchema containing categorical feature names.
+        group_prefixes: A list of group prefixes to search for.
+        separator: The separator used in Multibinary Encoding (default '_').
+    Returns:
+        Dict[str, list[str]]: A dictionary mapping group names to their found column names.
+    """
+    groups: dict[str, list[str]] = {}
+    # check that categorical features exist
+    if not feature_schema.categorical_feature_names:
+        _LOGGER.error("FeatureSchema has no categorical features defined.")
+        raise ValueError()
+    # validate separator
+    if not separator or not isinstance(separator, str):
+        _LOGGER.error(f"Invalid separator '{separator}' of type {type(separator)}.")
+        raise ValueError()
+    for prefix in group_prefixes:
+        if not prefix or not isinstance(prefix, str):
+            _LOGGER.error(f"Invalid prefix '{prefix}' of type {type(prefix)}.")
+            raise ValueError()
+        search_term = f"{prefix}{separator}"
+        # check if substring exists in the column name. must begin with prefix+separator
+        cols = [
+            name for name in feature_schema.categorical_feature_names
+            if name.startswith(search_term)
+        ]
+        if cols:
+            groups[prefix] = cols
+        else:
+            _LOGGER.warning(f"No columns found for group '{prefix}' using search term '{search_term}'")
+    # log resulting groups
+    _LOGGER.info(f"Multibinary groups created: {list(groups.keys())}")
+    return groups

ml_tools/schema/_imprimir.py ADDED Viewed

@@ -0,0 +1,10 @@
+from .._core import _imprimir_disponibles
+_GRUPOS = [
+    "FeatureSchema",
+    "create_guischema_template",
+    "make_multibinary_groups",
+]
+def info():
+    _imprimir_disponibles(_GRUPOS)

ml_tools/{serde.py → serde/__init__.py} RENAMED Viewed

@@ -1,10 +1,12 @@
-from ._core._serde import (
+from ._serde import (
     serialize_object_filename,
     serialize_object,
     deserialize_object,
-    info
 )
+from ._imprimir import info
 __all__ = [
     "serialize_object_filename",
     "serialize_object",

ml_tools/serde/_imprimir.py ADDED Viewed

@@ -0,0 +1,10 @@
+from .._core import _imprimir_disponibles
+_GRUPOS = [
+    "serialize_object_filename",
+    "serialize_object",
+    "deserialize_object",
+]
+def info():
+    _imprimir_disponibles(_GRUPOS)

ml_tools/{_core → serde}/_serde.py RENAMED Viewed

@@ -3,9 +3,8 @@ from joblib.externals.loky.process_executor import TerminatedWorkerError
 from typing import Any, Union, TypeVar, get_origin, Type, Optional
 from pathlib import Path
-from ._path_manager import make_fullpath, sanitize_filename
-from ._script_info import _script_info
-from ._logger import get_logger
+from ..path_manager import make_fullpath, sanitize_filename
+from .._core import get_logger
 _LOGGER = get_logger("SERDE")
@@ -95,7 +94,7 @@ def serialize_object(obj: Any, file_path: Path, verbose: bool = True, raise_on_e
 # Define a TypeVar to link the expected type to the return type of deserialization
 T = TypeVar('T')
 def deserialize_object(
     filepath: Union[str, Path],
     expected_type: Optional[Type[T]] = None,
@@ -146,7 +145,3 @@ def deserialize_object(
                 _LOGGER.info(f"Loaded object '{obj}' from '{true_filepath}'.")
         return obj # type: ignore
-def info():
-    _script_info(__all__)

ml_tools/{utilities.py → utilities/__init__.py} RENAMED Viewed

@@ -1,27 +1,32 @@
-from ._core._utilities import (
+from ._utility_save_load import (
     load_dataframe,
     load_dataframe_greedy,
     load_dataframe_with_schema,
     yield_dataframes_from_dir,
-    merge_dataframes,
     save_dataframe_filename,
     save_dataframe,
-    save_dataframe_with_schema,
+    save_dataframe_with_schema
+)
+from ._utility_tools import (
+    merge_dataframes,
     distribute_dataset_by_target,
     train_dataset_orchestrator,
-    train_dataset_yielder,
-    info
+    train_dataset_yielder
 )
+from ._imprimir import info
 __all__ = [
     "load_dataframe",
     "load_dataframe_greedy",
     "load_dataframe_with_schema",
     "yield_dataframes_from_dir",
-    "merge_dataframes",
     "save_dataframe_filename",
     "save_dataframe",
     "save_dataframe_with_schema",
+    "merge_dataframes",
     "distribute_dataset_by_target",
     "train_dataset_orchestrator",
     "train_dataset_yielder"

ml_tools/utilities/_imprimir.py ADDED Viewed

@@ -0,0 +1,18 @@
+from .._core import _imprimir_disponibles
+_GRUPOS = [
+    "load_dataframe",
+    "load_dataframe_greedy",
+    "load_dataframe_with_schema",
+    "yield_dataframes_from_dir",
+    "save_dataframe_filename",
+    "save_dataframe",
+    "save_dataframe_with_schema",
+    "merge_dataframes",
+    "distribute_dataset_by_target",
+    "train_dataset_orchestrator",
+    "train_dataset_yielder"
+]
+def info():
+    _imprimir_disponibles(_GRUPOS)

ml_tools/{_core/_utilities.py → utilities/_utility_save_load.py} RENAMED Viewed

@@ -1,16 +1,16 @@
-import numpy as np
 import pandas as pd
 import polars as pl
+import numpy as np
 from pathlib import Path
-from typing import Literal, Union, Optional, Any, Iterator, Tuple, overload
+from typing import Literal, Union, Optional, Any, overload
+from ..schema import FeatureSchema
-from ._path_manager import sanitize_filename, make_fullpath, list_csv_paths
-from ._script_info import _script_info
-from ._logger import get_logger
-from ._schema import FeatureSchema
+from ..path_manager import make_fullpath, list_csv_paths, sanitize_filename
+from .._core import get_logger
-_LOGGER = get_logger("Utilities")
+_LOGGER = get_logger("Save/Load Utilities")
 __all__ = [
@@ -18,16 +18,13 @@ __all__ = [
     "load_dataframe_greedy",
     "load_dataframe_with_schema",
     "yield_dataframes_from_dir",
-    "merge_dataframes",
     "save_dataframe_filename",
     "save_dataframe",
-    "save_dataframe_with_schema",
-    "distribute_dataset_by_target",
-    "train_dataset_orchestrator",
-    "train_dataset_yielder"
+    "save_dataframe_with_schema"
 ]
 # Overload 1: When kind='pandas'
 @overload
 def load_dataframe(
@@ -36,7 +33,7 @@ def load_dataframe(
     kind: Literal["pandas"] = "pandas",
     all_strings: bool = False,
     verbose: bool = True
-) -> Tuple[pd.DataFrame, str]:
+) -> tuple[pd.DataFrame, str]:
     ... # for overload stubs
 # Overload 2: When kind='polars'
@@ -47,7 +44,7 @@ def load_dataframe(
     kind: Literal["polars"] = "polars",
     all_strings: bool = False,
     verbose: bool = True
-) -> Tuple[pl.DataFrame, str]:
+) -> tuple[pl.DataFrame, str]:
     ... # for overload stubs
 def load_dataframe(
@@ -56,7 +53,7 @@ def load_dataframe(
     kind: Literal["pandas", "polars"] = "pandas",
     all_strings: bool = False,
     verbose: bool = True
-) -> Union[Tuple[pd.DataFrame, str], Tuple[pl.DataFrame, str]]:
+) -> Union[tuple[pd.DataFrame, str], tuple[pl.DataFrame, str]]:
     """
     Load a CSV file into a DataFrame and extract its base name.
@@ -187,7 +184,7 @@ def load_dataframe_with_schema(
     df_path: Union[str, Path],
     schema: "FeatureSchema",
     all_strings: bool = False,
-) -> Tuple[pd.DataFrame, str]:
+) -> tuple[pd.DataFrame, str]:
     """
     Loads a CSV file into a Pandas DataFrame, strictly validating its
     feature columns against a FeatureSchema.
@@ -271,65 +268,6 @@ def yield_dataframes_from_dir(datasets_dir: Union[str,Path], verbose: bool=True)
         yield df, df_name
-def merge_dataframes(
-    *dfs: pd.DataFrame,
-    reset_index: bool = False,
-    direction: Literal["horizontal", "vertical"] = "horizontal",
-    verbose: bool=True
-) -> pd.DataFrame:
-    """
-    Merges multiple DataFrames either horizontally or vertically.
-    Parameters:
-        *dfs (pd.DataFrame): Variable number of DataFrames to merge.
-        reset_index (bool): Whether to reset index in the final merged DataFrame.
-        direction (["horizontal" | "vertical"]):
-            - "horizontal": Merge on index, adding columns.
-            - "vertical": Append rows; all DataFrames must have identical columns.
-    Returns:
-        pd.DataFrame: A single merged DataFrame.
-    Raises:
-        ValueError:
-            - If fewer than 2 DataFrames are provided.
-            - If indexes do not match for horizontal merge.
-            - If column names or order differ for vertical merge.
-    """
-    if len(dfs) < 2:
-        raise ValueError("❌ At least 2 DataFrames must be provided.")
-    if verbose:
-        for i, df in enumerate(dfs, start=1):
-            print(f"➡️ DataFrame {i} shape: {df.shape}")
-    if direction == "horizontal":
-        reference_index = dfs[0].index
-        for i, df in enumerate(dfs, start=1):
-            if not df.index.equals(reference_index):
-                raise ValueError(f"❌ Indexes do not match: Dataset 1 and Dataset {i}.")
-        merged_df = pd.concat(dfs, axis=1)
-    elif direction == "vertical":
-        reference_columns = dfs[0].columns
-        for i, df in enumerate(dfs, start=1):
-            if not df.columns.equals(reference_columns):
-                raise ValueError(f"❌ Column names/order do not match: Dataset 1 and Dataset {i}.")
-        merged_df = pd.concat(dfs, axis=0)
-    else:
-        _LOGGER.error(f"Invalid merge direction: {direction}")
-        raise ValueError()
-    if reset_index:
-        merged_df = merged_df.reset_index(drop=True)
-    if verbose:
-        _LOGGER.info(f"Merged DataFrame shape: {merged_df.shape}")
-    return merged_df
 def save_dataframe_filename(df: Union[pd.DataFrame, pl.DataFrame], save_dir: Union[str,Path], filename: str) -> None:
     """
@@ -448,118 +386,6 @@ def save_dataframe_with_schema(
     save_dataframe(df=df_to_save, full_path=full_path)
-def distribute_dataset_by_target(
-    df_or_path: Union[pd.DataFrame, str, Path],
-    target_columns: list[str],
-    verbose: bool = False
-) -> Iterator[Tuple[str, pd.DataFrame]]:
-    """
-    Yields cleaned DataFrames for each target column, where rows with missing
-    target values are removed. The target column is placed at the end.
-    Parameters
-    ----------
-    df_or_path : [pd.DataFrame | str | Path]
-        Dataframe or path to Dataframe with all feature and target columns ready to split and train a model.
-    target_columns : List[str]
-        List of target column names to generate per-target DataFrames.
-    verbose: bool
-        Whether to print info for each yielded dataset.
-    Yields
-    ------
-    Tuple[str, pd.DataFrame]
-        * Target name.
-        * Pandas DataFrame.
-    """
-    # Validate path or dataframe
-    if isinstance(df_or_path, str) or isinstance(df_or_path, Path):
-        df_path = make_fullpath(df_or_path)
-        df, _ = load_dataframe(df_path)
-    else:
-        df = df_or_path
-    valid_targets = [col for col in df.columns if col in target_columns]
-    feature_columns = [col for col in df.columns if col not in valid_targets]
-    for target in valid_targets:
-        subset = df[feature_columns + [target]].dropna(subset=[target]) # type: ignore
-        if verbose:
-            print(f"Target: '{target}' - Dataframe shape: {subset.shape}")
-        yield target, subset
-def train_dataset_orchestrator(list_of_dirs: list[Union[str,Path]],
-                               target_columns: list[str],
-                               save_dir: Union[str,Path],
-                               safe_mode: bool=False):
-    """
-    Orchestrates the creation of single-target datasets from multiple directories each with a variable number of CSV datasets.
-    This function iterates through a list of directories, finds all CSV files,
-    and splits each dataframe based on the provided target columns. Each resulting
-    single-target dataframe is then saved to a specified directory.
-    Parameters
-    ----------
-    list_of_dirs : list[str | Path]
-        A list of directory paths where the source CSV files are located.
-    target_columns : list[str]
-        A list of column names to be used as targets for splitting the datasets.
-    save_dir : str | Path
-        The directory where the newly created single-target datasets will be saved.
-    safe_mode : bool
-        If True, prefixes the saved filename with the source directory name to prevent overwriting files with the same name from different sources.
-    """
-    all_dir_paths: list[Path] = list()
-    for dir in list_of_dirs:
-        dir_path = make_fullpath(dir)
-        if not dir_path.is_dir():
-            _LOGGER.error(f"'{dir}' is not a directory.")
-            raise IOError()
-        all_dir_paths.append(dir_path)
-    # main loop
-    total_saved = 0
-    for df_dir in all_dir_paths:
-        for df_name, df_path in list_csv_paths(df_dir).items():
-            try:
-                for target_name, df in distribute_dataset_by_target(df_or_path=df_path, target_columns=target_columns, verbose=False):
-                    if safe_mode:
-                        filename = df_dir.name + '_' + target_name + '_' + df_name
-                    else:
-                        filename = target_name + '_' + df_name
-                    save_dataframe_filename(df=df, save_dir=save_dir, filename=filename)
-                    total_saved += 1
-            except Exception as e:
-                _LOGGER.error(f"Failed to process file '{df_path}'. Reason: {e}")
-                continue
-    _LOGGER.info(f"{total_saved} single-target datasets were created.")
-def train_dataset_yielder(
-    df: pd.DataFrame,
-    target_cols: list[str]
-) -> Iterator[Tuple[pd.DataFrame, pd.Series, list[str], str]]:
-    """
-    Yields one tuple at a time:
-        (features_dataframe, target_series, feature_names, target_name)
-    Skips any target columns not found in the DataFrame.
-    """
-    # Determine which target columns actually exist in the DataFrame
-    valid_targets = [col for col in target_cols if col in df.columns]
-    # Features = all columns excluding valid target columns
-    df_features = df.drop(columns=valid_targets)
-    feature_names = df_features.columns.to_list()
-    for target_col in valid_targets:
-        df_target = df[target_col]
-        yield (df_features, df_target, feature_names, target_col)
 def _validate_and_reorder_schema(
     df: pd.DataFrame,
     schema: "FeatureSchema"
@@ -626,6 +452,3 @@ def _validate_and_reorder_schema(
     return df_to_process # type: ignore
-def info():
-    _script_info(__all__)

dragon-ml-toolbox 19.13.0__py3-none-any.whl → 20.0.0__py3-none-any.whl

dragon-ml-toolbox 19.13.0py3-none-any.whl → 20.0.0py3-none-any.whl