PyPI - dragon-ml-toolbox - Versions diffs - 4.3.0__py3-none-any.whl → 4.5.0__py3-none-any.whl - Mend

dragon-ml-toolbox 4.3.0py3-none-any.whl → 4.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of dragon-ml-toolbox might be problematic. Click here for more details.

Files changed (11) hide show

{dragon_ml_toolbox-4.3.0.dist-info → dragon_ml_toolbox-4.5.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dragon-ml-toolbox
-Version: 4.3.0
+Version: 4.5.0
 Summary: A collection of tools for data science and machine learning projects.
 Author-email: Karl Loza <luigiloza@gmail.com>
 License-Expression: MIT

{dragon_ml_toolbox-4.3.0.dist-info → dragon_ml_toolbox-4.5.0.dist-info}/RECORD RENAMED Viewed

@@ -1,22 +1,22 @@
-dragon_ml_toolbox-4.3.0.dist-info/licenses/LICENSE,sha256=2uUFNy7D0TLgHim1K5s3DIJ4q_KvxEXVilnU20cWliY,1066
-dragon_ml_toolbox-4.3.0.dist-info/licenses/LICENSE-THIRD-PARTY.md,sha256=lY4_rJPnLnMu7YBQaY-_iz1JRDcLdQzNCyeLAF1glJY,1837
-ml_tools/ETL_engineering.py,sha256=P7HN_e3vfmrOqDDK-IenyRSFQPr0N3V9e2gN75QFVWs,39372
+dragon_ml_toolbox-4.5.0.dist-info/licenses/LICENSE,sha256=2uUFNy7D0TLgHim1K5s3DIJ4q_KvxEXVilnU20cWliY,1066
+dragon_ml_toolbox-4.5.0.dist-info/licenses/LICENSE-THIRD-PARTY.md,sha256=lY4_rJPnLnMu7YBQaY-_iz1JRDcLdQzNCyeLAF1glJY,1837
+ml_tools/ETL_engineering.py,sha256=4wwZXi9_U7xfCY70jGBaKniOeZ0m75ppxWpQBd_DmLc,39369
 ml_tools/GUI_tools.py,sha256=n4ZZ5kEjwK5rkOCFJE41HeLFfjhpJVLUSzk9Kd9Kr_0,45410
 ml_tools/MICE_imputation.py,sha256=b6ZTs8RedXFifOpuMCzr68xM16mCBVh1Ua6kcGfiVtg,11462
 ml_tools/ML_callbacks.py,sha256=0a-Rbr0Xp_B1FNopOKBBmuJ4MqazS5JgDiT7wx1dHvE,13161
 ml_tools/ML_evaluation.py,sha256=4dVqe6JF1Ukmk1sAcY8E5EG1oB1_oy2HXE5OT-pZwCs,10273
 ml_tools/ML_inference.py,sha256=Fh-X2UQn3AznWBjf-7iPSxwE-EzkGQm1VEIRUAkURmE,5336
 ml_tools/ML_trainer.py,sha256=dJjMfCEEM07Txy9KEH-2srZ3CZUa4lFWTJhpNWQ4Ndk,14974
-ml_tools/PSO_optimization.py,sha256=xtnPute5pkS_w-VvqOBgRLgke09mjfacGC2m9DiipHE,27626
+ml_tools/PSO_optimization.py,sha256=9bplCNOSe2Ozcz5yQRkbih7geuDO9UJ6dJTMSJJ8zVk,27965
 ml_tools/RNN_forecast.py,sha256=2CyjBLSYYc3xLHxwLXUmP5Qv8AmV1OB_EndETNX1IBk,1956
 ml_tools/SQL.py,sha256=9zzS6AFEJM9aj6nE31hDe8S9TqLonk-J1amwZoiHNbk,10468
 ml_tools/VIF_factor.py,sha256=2nUMupfUoogf8o6ghoFZk_OwWhFXU0R3C9Gj0HOlI14,10415
-ml_tools/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+ml_tools/__init__.py,sha256=q0y9faQ6e17XCQ7eUiCZ1FJ4Bg5EQqLjZ9f_l5REUUY,41
 ml_tools/_logger.py,sha256=TpgYguxO-CWYqqgLW0tqFjtwZ58PE_W2OCfWNGZr0n0,1175
 ml_tools/_pytorch_models.py,sha256=ewPPsTHgmRPzMMWwObZOdH1vxm2Ij2VWZP38NC6zSH4,10135
 ml_tools/_script_info.py,sha256=21r83LV3RubsNZ_RTEUON6RbDf7Mh4_udweNcvdF_Fk,212
-ml_tools/custom_logger.py,sha256=a3ywSCQT7j5ypR-usnKh2l861d_aVJ93ZRVqxrHsBBw,4112
-ml_tools/data_exploration.py,sha256=T4nO9YSDGvrpom7JELtoQTyg7XTEmvQz-jG0KKxqTRk,23467
+ml_tools/custom_logger.py,sha256=njM_0XPbQ1S-x5LeSQAaTo2if-XVOR_pQSGg4EDeiTU,4603
+ml_tools/data_exploration.py,sha256=qc_Oolxco2x9IhlYu5zPIuVBGiBw65HnypuGm8cQOOM,23677
 ml_tools/datasetmaster.py,sha256=_tNC2v98eCQGr3nMW_EFs83TRgRme8Uc7ttg1vosmQU,30106
 ml_tools/ensemble_inference.py,sha256=0SNX3YAz5bpvtwYmqEwqyWeIJP2Pb-v-bemENRSO7qg,9426
 ml_tools/ensemble_learning.py,sha256=Zi1oy6G2FWnTI5hBwjlexwF3JKALFS2FN6F8HAlVi_s,35391
@@ -24,7 +24,7 @@ ml_tools/handle_excel.py,sha256=J9iwIqMZemoxK49J5osSwp9Ge0h9YTKyYGbOm53hcno,1300
 ml_tools/keys.py,sha256=kK9UF-hek2VcPGFILCKl5geoN6flmMOu7IzhdEA6z5Y,1068
 ml_tools/path_manager.py,sha256=Z8e7w3MPqQaN8xmTnKuXZS6CIW59BFwwqGhGc00sdp4,13692
 ml_tools/utilities.py,sha256=mz-M351DzxWxnYVcLX-7ZQ6c-RGoCV9g4VTS9Qif2Es,18348
-dragon_ml_toolbox-4.3.0.dist-info/METADATA,sha256=7aZO_5P8SDx4tPFTtb3MTAaRgf_vbcOEURaxpT3MGK8,6572
-dragon_ml_toolbox-4.3.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-dragon_ml_toolbox-4.3.0.dist-info/top_level.txt,sha256=wm-oxax3ciyez6VoO4zsFd-gSok2VipYXnbg3TH9PtU,9
-dragon_ml_toolbox-4.3.0.dist-info/RECORD,,
+dragon_ml_toolbox-4.5.0.dist-info/METADATA,sha256=PzpYHROSr85CBbNnCcS-XInzpOFhAyXbPZ5YkLaYbps,6572
+dragon_ml_toolbox-4.5.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+dragon_ml_toolbox-4.5.0.dist-info/top_level.txt,sha256=wm-oxax3ciyez6VoO4zsFd-gSok2VipYXnbg3TH9PtU,9
+dragon_ml_toolbox-4.5.0.dist-info/RECORD,,

ml_tools/ETL_engineering.py CHANGED Viewed

@@ -569,7 +569,7 @@ class NumberExtractor:
         self,
         regex_pattern: str = r"(\d+\.?\d*)",
         dtype: Literal["float", "int"] = "float",
-        round_digits: Optional[int] = None,
+        round_digits: Optional[int] = 2,
     ):
         # --- Validation ---
         if not isinstance(regex_pattern, str):

ml_tools/PSO_optimization.py CHANGED Viewed

@@ -2,7 +2,7 @@ import numpy as np
 from pathlib import Path
 import xgboost as xgb
 import lightgbm as lgb
-from typing import Literal, Union, Tuple, Dict, Optional
+from typing import Literal, Union, Tuple, Dict, Optional, Any
 import pandas as pd
 from copy import deepcopy
 from .utilities import (
@@ -25,6 +25,7 @@ from contextlib import nullcontext
 __all__ = [
     "ObjectiveFunction",
     "multiple_objective_functions_from_dir",
+    "parse_lower_upper_bounds",
     "run_pso",
     "plot_optimal_feature_distributions"
 ]
@@ -169,6 +170,18 @@ def multiple_objective_functions_from_dir(directory: Union[str,Path], add_noise:
     return objective_functions, objective_function_names
+def parse_lower_upper_bounds(source: dict[str,tuple[Any,Any]]):
+    """
+    Parse lower and upper boundaries, returning 2 lists:
+    `lower_bounds`, `upper_bounds`
+    """
+    lower = [low[0] for low in source.values()]
+    upper = [up[1] for up in source.values()]
+    return lower, upper
 def _set_boundaries(lower_boundaries: list[float], upper_boundaries: list[float]):
     assert len(lower_boundaries) == len(upper_boundaries), "Lower and upper boundaries must have the same length."
     assert len(lower_boundaries) >= 1, "At least one boundary pair is required."

ml_tools/__init__.py CHANGED Viewed

	@@ -0,0 +1 @@
1	+ from .custom_logger import custom_logger

ml_tools/custom_logger.py CHANGED Viewed

@@ -1,9 +1,9 @@
 from pathlib import Path
 from datetime import datetime
 from typing import Union, List, Dict, Any
-import pandas as pd
 import traceback
 import json
+import csv
 from .path_manager import sanitize_filename, make_fullpath
 from ._script_info import _script_info
 from ._logger import _LOGGER
@@ -18,7 +18,6 @@ def custom_logger(
     data: Union[
         List[Any],
         Dict[Any, Any],
-        pd.DataFrame,
         str,
         BaseException
     ],
@@ -75,7 +74,7 @@ def custom_logger(
             _log_exception_to_log(data, base_path.with_suffix(".log"))
         else:
-            raise ValueError("Unsupported data type. Must be list, dict, DataFrame, str, or BaseException.")
+            raise ValueError("Unsupported data type. Must be list, dict, str, or BaseException.")
         _LOGGER.info(f"🗄️ Log saved to: '{base_path}'")
@@ -106,8 +105,19 @@ def _log_dict_to_csv(data: Dict[Any, List[Any]], path: Path) -> None:
         padded_value = value + [None] * (max_length - len(value))
         sanitized_dict[sanitized_key] = padded_value
-    df = pd.DataFrame(sanitized_dict)
-    df.to_csv(path, index=False)
+    # The `newline=''` argument is important to prevent extra blank rows
+    with open(path, 'w', newline='', encoding='utf-8') as csv_file:
+        writer = csv.writer(csv_file)
+        # 1. Write the header row from the sanitized dictionary keys
+        header = list(sanitized_dict.keys())
+        writer.writerow(header)
+        # 2. Transpose columns to rows and write them
+        # zip(*sanitized_dict.values()) elegantly converts the column data
+        # (lists in the dict) into row-by-row tuples.
+        rows_to_write = zip(*sanitized_dict.values())
+        writer.writerows(rows_to_write)
 def _log_string_to_log(data: str, path: Path) -> None:

ml_tools/data_exploration.py CHANGED Viewed

@@ -126,7 +126,7 @@ def drop_rows_with_missing_data(df: pd.DataFrame, targets: Optional[list[str]],
     # Stage 1: Drop rows with all target columns missing
     if targets is not None:
         # validate targets
-        valid_targets = [target for target in targets if target in df_clean.columns]
+        valid_targets = _validate_columns(df_clean, targets)
         target_na = df_clean[valid_targets].isnull().all(axis=1)
         if target_na.any():
             print(f"🧹 Dropping {target_na.sum()} rows with all target columns missing.")
@@ -134,10 +134,10 @@ def drop_rows_with_missing_data(df: pd.DataFrame, targets: Optional[list[str]],
         else:
             print("✅ No rows with all targets missing.")
     else:
-        targets = []
+        valid_targets = []
     # Stage 2: Drop rows based on feature column missing values
-    feature_cols = [col for col in df_clean.columns if col not in targets]
+    feature_cols = [col for col in df_clean.columns if col not in valid_targets]
     if feature_cols:
         feature_na_frac = df_clean[feature_cols].isnull().mean(axis=1)
         rows_to_drop = feature_na_frac[feature_na_frac > threshold].index
@@ -238,8 +238,9 @@ def split_features_targets(df: pd.DataFrame, targets: list[str]):
         - Shape of the features dataframe.
         - Shape of the targets dataframe.
     """
-    df_targets = df[targets]
-    df_features = df.drop(columns=targets)
+    valid_targets = _validate_columns(df, targets)
+    df_targets = df[valid_targets]
+    df_features = df.drop(columns=valid_targets)
     print(f"Original shape: {df.shape}\nFeatures shape: {df_features.shape}\nTargets shape: {df_targets.shape}")
     return df_features, df_targets
@@ -347,7 +348,7 @@ def plot_correlation_heatmap(df: pd.DataFrame,
         full_path = save_path / plot_title
         plt.savefig(full_path, bbox_inches="tight", format='svg')
-        print(f"Saved correlation heatmap: '{plot_title}.svg'")
+        print(f"Saved correlation heatmap: '{plot_title}'")
     plt.show()
     plt.close()
@@ -644,5 +645,10 @@ def standardize_percentages(
     return df_copy
+def _validate_columns(df: pd.DataFrame, columns: list[str]):
+    valid_columns = [column for column in columns if column in df.columns]
+    return valid_columns
 def info():
     _script_info(__all__)

{dragon_ml_toolbox-4.3.0.dist-info → dragon_ml_toolbox-4.5.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{dragon_ml_toolbox-4.3.0.dist-info → dragon_ml_toolbox-4.5.0.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{dragon_ml_toolbox-4.3.0.dist-info → dragon_ml_toolbox-4.5.0.dist-info}/licenses/LICENSE-THIRD-PARTY.md RENAMED Viewed

File without changes

{dragon_ml_toolbox-4.3.0.dist-info → dragon_ml_toolbox-4.5.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

dragon-ml-toolbox 4.3.0__py3-none-any.whl → 4.5.0__py3-none-any.whl

Potentially problematic release.

dragon-ml-toolbox 4.3.0py3-none-any.whl → 4.5.0py3-none-any.whl