PyPI - dragon-ml-toolbox - Versions diffs - 8.1.0__tar.gz → 8.2.0__tar.gz - Mend

dragon-ml-toolbox 8.1.0tar.gz → 8.2.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of dragon-ml-toolbox might be problematic. Click here for more details.

Files changed (41) hide show

{dragon_ml_toolbox-8.1.0/dragon_ml_toolbox.egg-info → dragon_ml_toolbox-8.2.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dragon-ml-toolbox
-Version: 8.1.0
+Version: 8.2.0
 Summary: A collection of tools for data science and machine learning projects.
 Author-email: Karl Loza <luigiloza@gmail.com>
 License-Expression: MIT

{dragon_ml_toolbox-8.1.0 → dragon_ml_toolbox-8.2.0/dragon_ml_toolbox.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dragon-ml-toolbox
-Version: 8.1.0
+Version: 8.2.0
 Summary: A collection of tools for data science and machine learning projects.
 Author-email: Karl Loza <luigiloza@gmail.com>
 License-Expression: MIT

{dragon_ml_toolbox-8.1.0 → dragon_ml_toolbox-8.2.0}/ml_tools/ETL_engineering.py RENAMED Viewed

@@ -3,7 +3,6 @@ import re
 from typing import Literal, Union, Optional, Any, Callable, List, Dict, Tuple
 from ._script_info import _script_info
 from ._logger import _LOGGER
-import warnings
 __all__ = [
@@ -13,6 +12,7 @@ __all__ = [
     "DataProcessor",
     "BinaryTransformer",
     "MultiBinaryDummifier",
+    "AutoDummifier",
     "KeywordDummifier",
     "NumberExtractor",
     "MultiNumberExtractor",
@@ -277,16 +277,32 @@ class DataProcessor:
                     processed_columns.append(result.alias(output_col_spec))
                 elif isinstance(result, pl.DataFrame):
-                    if not isinstance(output_col_spec, list):
-                        raise TypeError(f"Function for '{input_col_name}' returned a DataFrame but 'output_col' is not a list.")
-                    if len(result.columns) != len(output_col_spec):
-                        raise ValueError(
-                            f"Mismatch in '{input_col_name}': function produced {len(result.columns)} columns, "
-                            f"but recipe specifies {len(output_col_spec)} output names."
-                        )
+                    # 1. Handle list-based renaming
+                    if isinstance(output_col_spec, list):
+                        if len(result.columns) != len(output_col_spec):
+                            raise ValueError(
+                                f"Mismatch in '{input_col_name}': function produced {len(result.columns)} columns, "
+                                f"but recipe specifies {len(output_col_spec)} output names."
+                            )
+                        renamed_df = result.rename(dict(zip(result.columns, output_col_spec)))
+                        processed_columns.extend(renamed_df.get_columns())
+                    # 2. Handle a string prefix for AutoDummifier
+                    elif isinstance(output_col_spec, str):
+                        prefix = output_col_spec
+                        # Replace the original name part with the desired prefix.
+                        new_names = {
+                            col: f"{prefix}{col[len(input_col_name):]}" for col in result.columns
+                        }
+                        renamed_df = result.rename(new_names)
+                        processed_columns.extend(renamed_df.get_columns())
-                    renamed_df = result.rename(dict(zip(result.columns, output_col_spec)))
-                    processed_columns.extend(renamed_df.get_columns())
+                    else:
+                        raise TypeError(
+                            f"Function for '{input_col_name}' returned a DataFrame, "
+                            f"so 'output_col' must be a list of names or a string prefix."
+                        )
                 else:
                     raise TypeError(f"Function for '{input_col_name}' returned an unexpected type: {type(result)}.")
@@ -413,6 +429,27 @@ class BinaryTransformer:
             return (~contains_keyword).cast(pl.UInt8)
+class AutoDummifier:
+    """
+    A transformer that performs one-hot encoding on a categorical column,
+    automatically detecting the unique categories from the data.
+    """
+    def __call__(self, column: pl.Series) -> pl.DataFrame:
+        """
+        Executes the one-hot encoding logic.
+        Args:
+            column (pl.Series): The input Polars Series of categories.
+        Returns:
+            pl.DataFrame: A DataFrame with one-hot encoded columns.
+                          Column names are auto-generated by Polars as
+                          '{original_col_name}_{category_value}'.
+        """
+        # Ensure the column is treated as a string before creating dummies
+        return column.cast(pl.Utf8).to_dummies()
 class MultiBinaryDummifier:
     """
     A one-to-many transformer that creates multiple binary columns from a single

{dragon_ml_toolbox-8.1.0 → dragon_ml_toolbox-8.2.0}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "dragon-ml-toolbox"
-version = "8.1.0"
+version = "8.2.0"
 description = "A collection of tools for data science and machine learning projects."
 authors = [
     { name = "Karl Loza", email = "luigiloza@gmail.com" }