PyPI - sibi-dst - Versions diffs - 0.3.10__py3-none-any.whl → 0.3.12__py3-none-any.whl - Mend

sibi-dst 0.3.10py3-none-any.whl → 0.3.12py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

sibi_dst/df_helper/_df_helper.py +9 -2
sibi_dst/df_helper/core/__init__.py +9 -2
sibi_dst/df_helper/core/_defaults.py +99 -3
sibi_dst/df_helper/plugins/django/_django_load_from_db.py +60 -9
sibi_dst/df_helper/plugins/http/_http_config.py +2 -3
sibi_dst/df_helper/plugins/parquet/_parquet_filter_handler.py +4 -0
sibi_dst/df_helper/plugins/parquet/_parquet_options.py +2 -0
sibi_dst/df_helper/plugins/sql_alchemy/_io_sqlalchemy_dask.py +118 -128
sibi_dst/df_helper/plugins/sql_alchemy/_sqlachemy_filter_handler.py +2 -0
sibi_dst/df_helper/plugins/sql_alchemy/_sqlalchemy_load_from_db.py +28 -52
sibi_dst/utils/__init__.py +2 -1
sibi_dst/utils/_data_utils.py +116 -88
sibi_dst/utils/_data_wrapper.py +2 -320
sibi_dst/utils/_date_utils.py +130 -0
sibi_dst/utils/_df_utils.py +91 -0
{sibi_dst-0.3.10.dist-info → sibi_dst-0.3.12.dist-info}/METADATA +5 -2
{sibi_dst-0.3.10.dist-info → sibi_dst-0.3.12.dist-info}/RECORD +18 -18
{sibi_dst-0.3.10.dist-info → sibi_dst-0.3.12.dist-info}/WHEEL +0 -0

sibi_dst/df_helper/plugins/sql_alchemy/_sqlalchemy_load_from_db.py CHANGED Viewed

@@ -1,23 +1,30 @@
+from typing import Dict
 import dask.dataframe as dd
-from sqlmodel import Session, select
-from typing import Any, Dict, Optional
-import logging
 import pandas as pd
+from sqlalchemy.inspection import inspect
+from sqlalchemy.orm import sessionmaker
+from sqlalchemy import select
+#from sqlmodel import Session, select
+from sibi_dst.df_helper.core import ParamsConfig, QueryConfig, sqlalchemy_field_conversion_map_dask, \
+    normalize_sqlalchemy_type
 from sibi_dst.utils import Logger
-from ._sqlalchemy_db_connection import SqlAlchemyConnectionConfig
-from sibi_dst.df_helper.core import ParamsConfig, QueryConfig
+from ._io_sqlalchemy_dask import SQLAlchemyDask
 from ._sqlachemy_filter_handler import SqlAlchemyFilterHandler
+from ._sqlalchemy_db_connection import SqlAlchemyConnectionConfig
 class SqlAlchemyLoadFromDb:
     df: dd.DataFrame
     def __init__(
-        self,
-        plugin_sqlalchemy: SqlAlchemyConnectionConfig,  # Expected to be an instance of SqlAlchemyConnection
-        plugin_query: QueryConfig = None,
-        plugin_params: ParamsConfig = None,
-        logger: Logger = None,
-        **kwargs,
+            self,
+            plugin_sqlalchemy: SqlAlchemyConnectionConfig,  # Expected to be an instance of SqlAlchemyConnection
+            plugin_query: QueryConfig = None,
+            plugin_params: ParamsConfig = None,
+            logger: Logger = None,
+            **kwargs,
     ):
         """
         Initialize the loader with database connection, query, and parameters.
@@ -27,7 +34,7 @@ class SqlAlchemyLoadFromDb:
         self.model = self.db_connection.model
         self.engine = self.db_connection.engine
         self.logger = logger or Logger.default_logger(logger_name=self.__class__.__name__)
-        self.query_config =  plugin_query
+        self.query_config = plugin_query
         self.params_config = plugin_params
         self.debug = kwargs.pop("debug", False)
         self.verbose_debug = kwargs.pop("verbose_debug", False)
@@ -40,44 +47,13 @@ class SqlAlchemyLoadFromDb:
         return self.df
     def _build_and_load(self) -> dd.DataFrame:
-        """
-        Query the database and load results into a Dask DataFrame.
-        """
-        with Session(self.engine) as session:
-            try:
-                query = select(self.model)
-                filters = self.params_config.filters
-                if filters:
-                    n_records = 0
-                    query = SqlAlchemyFilterHandler.apply_filters_sqlalchemy(query, self.model,self.params_config.filters)
-                else:
-                    n_records = self.query_config.n_records or 100
-                if n_records:
-                    query = query.limit(n_records)
-                # Debug: Log the SQL query
-                if self.debug:
-                    self.logger.info(f"Executing query: {str(query)}")
-                # Execute the query
-                try:
-                    results = session.exec(query).fetchall()
-                    if results:
-                        records = [
-                            {key: getattr(result, key) for key in result.__table__.columns.keys()}
-                                for result in results
-                        ]
-                    df = dd.from_pandas(pd.DataFrame(records), npartitions=1)
-                except Exception as e:
-                    self.logger.info(results)
-                    self.logger.warning("Query returned no results.")
-                    df = dd.from_pandas(pd.DataFrame(), npartitions=1)
-            except Exception as e:
-                print(query)
-                self.logger.error(f"Error loading data: {e}")
-                df = dd.from_pandas(pd.DataFrame(), npartitions=1)
+        try:
+            reader = SQLAlchemyDask(model=self.model, filters=self.params_config.filters,engine_url=self.engine.url, logger=self.logger, chunk_size=1000, verbose=self.debug)
+            df = reader.read_frame()
+            if df is None or len(df.index) == 0:
+                self.logger.warning("Query returned no results.")
+                return dd.from_pandas(pd.DataFrame(), npartitions=1)
             return df
+        except Exception as e:
+            self.logger.error(f"Failed to load data into Dask DataFrame.{e}")
+            return dd.from_pandas(pd.DataFrame(), npartitions=1)

sibi_dst/utils/__init__.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from __future__ import annotations
 from ._credentials import ConfigManager, ConfigLoader
 from ._log_utils import Logger
-from ._date_utils import DateUtils
+from ._date_utils import DateUtils, BusinessDays
 from ._data_utils import DataUtils
 from ._file_utils import FileUtils
 from ._filepath_generator import FilePathGenerator
@@ -17,6 +17,7 @@ __all__=[
     "ConfigLoader",
     "Logger",
     "DateUtils",
+    "BusinessDays",
     "FileUtils",
     "DataWrapper",
     "DataUtils",

sibi_dst/utils/_data_utils.py CHANGED Viewed

@@ -7,13 +7,35 @@ class DataUtils:
     def __init__(self, logger=None):
         self.logger = logger or Logger.default_logger(logger_name=self.__class__.__name__)
+    def transform_numeric_cols(self, df, columns, fill_value=0, dtype=int):
+        if not columns:
+            self.logger.warning('No columns specified')
+        columns = [column for column in columns if column in df.columns]
+        for col in columns:
+            if isinstance(df, dd.DataFrame):
+                # Replace NaN with 0, then convert to boolean
+                df[col] = df[col].map_partitions(
+                    lambda s: pd.to_numeric(s, errors='coerce')  # Convert to numeric, invalid to NaN
+                    .fillna(fill_value)  # Replace NaN with 0
+                    .astype(dtype),
+                    meta=(col, dtype)
+                )
+            else:
+                # For Pandas DataFrame, handle mixed types and invalid values
+                df[col] = pd.to_numeric(df[col], errors='coerce')  # Convert to numeric, invalid to NaN
+                df[col] = df[col].fillna(fill_value).astype(dtype)
+        return df
     @staticmethod
-    def transform_numeric_columns(df, fill_value=0, transform_func=None):
+    def transform_numeric_columns(df, columns=None, fill_value=0, transform_func=None):
         """
         Transform numeric columns in a DataFrame (Pandas or Dask), handling missing values and applying optional transformations.
         Parameters:
         - df (pandas.DataFrame or dask.dataframe.DataFrame): The DataFrame.
+        - columns (list of str, optional): Specific columns to transform. If None, all numeric columns are transformed.
         - fill_value (int or float): The value to replace NA values with.
         - transform_func (callable, optional): The transformation function to apply.
           If None, no additional transformation is applied.
@@ -21,68 +43,64 @@ class DataUtils:
         Returns:
         - pandas.DataFrame or dask.dataframe.DataFrame: Updated DataFrame with transformed numeric columns.
         """
-        # Detect numeric columns
-        numeric_columns = df.select_dtypes(include=['number']).columns.tolist()
+        if columns is None:
+            # Detect numeric columns
+            columns = df.select_dtypes(include=['number']).columns.tolist()
-        if not numeric_columns:
+        if not columns:
             return df
+        columns = [column for column in columns if column in df.columns]
         # Default transformation function (identity) if none is provided
         if transform_func is None:
             transform_func = lambda x: x
-        # Apply transformations
-        for col in numeric_columns:
-            dtype = df[col].dtype
-            if pd.api.types.is_integer_dtype(dtype):
-                meta_type = 'int64'
-            elif pd.api.types.is_float_dtype(dtype):
-                meta_type = 'float64'
-            else:
-                continue  # Skip non-numeric columns
+        # Batch processing for Dask
+        if isinstance(df, dd.DataFrame):
+            def transform_partition(partition):
+                # Apply transformations for all numeric columns in a single pass
+                partition[columns] = partition[columns].fillna(fill_value).map(transform_func)
+                return partition
+            # Apply the transformation function to all specified columns
+            df = df.map_partitions(transform_partition, meta=df)
+        else:
+            # Pandas: Vectorized operations for all specified columns
+            df[columns] = df[columns].fillna(fill_value).map(transform_func)
-            df[col] = df[col].fillna(fill_value).astype(meta_type)
-            if isinstance(df, dd.DataFrame):
-                df[col] = df[col].map_partitions(
-                    lambda s: s.apply(transform_func), meta=(col, meta_type)
-                )
-            else:
-                df[col] = df[col].apply(transform_func)
         return df
     @staticmethod
-    def transform_boolean_columns(df, threshold=1):
+    def transform_boolean_columns(df, columns=None):
         """
-        Transform boolean-like columns in a DataFrame (Pandas or Dask) to actual booleans.
+        Detect if the provided columns in a DataFrame (Pandas or Dask) contain only 0 and 1
+        and convert them to boolean. Detection is performed using a sample.
         Parameters:
         - df (pandas.DataFrame or dask.dataframe.DataFrame): The DataFrame.
-        - threshold (int or float): The value to evaluate as `True`.
+        - columns (list of str): List of columns to check and transform.
+        - sample_size (int): Number of rows to sample for detection. Ignored for Pandas DataFrames.
         Returns:
         - pandas.DataFrame or dask.dataframe.DataFrame: Updated DataFrame with transformed boolean columns.
         """
+        # Apply transformation to each specified column
+        for col in columns:
+            if col in df.columns:
+                if isinstance(df, dd.DataFrame):
+                    # Replace NaN with 0, then convert to boolean
+                    df[col] = df[col].map_partitions(
+                        lambda s: pd.to_numeric(s, errors='coerce')  # Convert to numeric, invalid to NaN
+                        .fillna(0)  # Replace NaN with 0
+                        .astype(int)  # Ensure integer type
+                        .astype(bool),  # Convert to boolean
+                        meta=(col, 'bool')
+                    )
+                else:
+                    # For Pandas DataFrame, handle mixed types and invalid values
+                    df[col] = pd.to_numeric(df[col], errors='coerce')  # Convert to numeric, invalid to NaN
+                    df[col] = df[col].fillna(0).astype(int).astype(bool)
-        def is_boolean_like(col):
-            """
-            Check if a column is boolean-like (contains only two unique values).
-            """
-            unique_values = col.dropna().unique()
-            if isinstance(col, dd.Series):
-                unique_values = unique_values.compute()
-            return len(unique_values) <= 2 and set(unique_values).issubset({0, 1, True, False})
-        # Detect boolean-like columns
-        boolean_columns = [col for col in df.columns if is_boolean_like(df[col])]
-        # Apply transformation to each detected column
-        for col in boolean_columns:
-            if isinstance(df, dd.DataFrame):
-                df[col] = df[col].map_partitions(
-                    lambda s: s == threshold, meta=(col, 'bool')
-                )
-            else:
-                df[col] = df[col] == threshold
         return df
     def merge_lookup_data(self, classname, df, **kwargs):
@@ -97,73 +115,67 @@ class DataUtils:
         Returns:
         - pandas.DataFrame or dask.dataframe.DataFrame: Updated DataFrame with merged lookup data.
         """
-        # Check if the DataFrame is empty
+        # Return early if the DataFrame is empty
         if self.is_dataframe_empty(df):
             return df
-        # Extract required parameters with default values
-        source_col = kwargs.pop('source_col', None)
-        lookup_col = kwargs.pop('lookup_col', None)
-        lookup_description_col = kwargs.pop('lookup_description_col', None)
-        source_description_alias = kwargs.pop('source_description_alias', None)
-        fillna_source_description_alias = kwargs.pop('fillna_source_description_alias', False)
-        fieldnames = kwargs.get('fieldnames', None)
-        column_names = kwargs.get('column_names', None)
+        # Extract and validate required parameters
+        required_params = ['source_col', 'lookup_col', 'lookup_description_col', 'source_description_alias']
+        missing_params = [param for param in required_params if param not in kwargs]
+        if missing_params:
+            raise ValueError(f"Missing required parameters: {', '.join(missing_params)}")
+        source_col = kwargs.pop('source_col')
+        lookup_col = kwargs.pop('lookup_col')
+        lookup_description_col = kwargs.pop('lookup_description_col')
+        source_description_alias = kwargs.pop('source_description_alias')
-        # Validate required parameters
-        if not all([source_col, lookup_col, lookup_description_col, source_description_alias]):
-            raise ValueError(
-                'source_col, lookup_col, lookup_description_col, and source_description_alias must be specified'
-            )
+        # Optional parameters with default values
+        fillna_source_description_alias = kwargs.pop('fillna_source_description_alias', False)
+        fieldnames = kwargs.pop('fieldnames', (lookup_col, lookup_description_col))
+        column_names = kwargs.pop('column_names', ['temp_join_col', source_description_alias])
         if source_col not in df.columns:
-            self.logger.info(f'{source_col} not in DataFrame columns')
+            self.logger.info(f"{source_col} not in DataFrame columns")
             return df
         # Get unique IDs from source column
         ids = df[source_col].dropna().unique()
         if isinstance(ids, dd.Series):
             ids = ids.compute()
-        ids = ids.tolist()
-        if not ids:
-            self.logger.info(f'No IDs found in the source column: {source_col}')
+        if not len(ids):
+            self.logger.info(f"No IDs found in the source column: {source_col}")
             return df
-        # Set default fieldnames and column_names if not provided
-        if fieldnames is None:
-            kwargs['fieldnames'] = (lookup_col, lookup_description_col)
-        if column_names is None:
-            kwargs['column_names'] = ['temp_join_col', source_description_alias]
+        ids = sorted(ids.tolist())
         # Prepare kwargs for loading lookup data
         load_kwargs = kwargs.copy()
-        load_kwargs[f'{lookup_col}__in'] = ids
+        load_kwargs.update({
+            'fieldnames': fieldnames,
+            'column_names': column_names,
+            f'{lookup_col}__in': ids
+        })
         # Load lookup data
-        lookup_instance = classname()
+        lookup_instance = classname(debug=True, verbose_debug=True)
         result = lookup_instance.load(**load_kwargs)
+        if len(result.index) == 0:
+            self.logger.info(f"No IDs found in the source column: {source_col}")
+            return df
         # Determine the join column on the result DataFrame
-        if 'temp_join_col' in kwargs.get("column_names", []):
-            temp_join_col = 'temp_join_col'
-        else:
-            temp_join_col = lookup_col
+        temp_join_col = 'temp_join_col' if 'temp_join_col' in column_names else lookup_col
         # Merge DataFrames
         df = df.merge(result, how='left', left_on=source_col, right_on=temp_join_col)
         if fillna_source_description_alias and source_description_alias in df.columns:
-            df[source_description_alias] = df[source_description_alias].fillna('')
+            df[source_description_alias]=df[source_description_alias].fillna('')
         # Drop temp_join_col if present
-        if 'temp_join_col' in df.columns:
-            df = df.drop(columns='temp_join_col')
+        df = df.drop(columns='temp_join_col', errors='ignore')
         return df
-    @staticmethod
-    def is_dataframe_empty(df):
+    def is_dataframe_empty(self, df):
         """
         Check if a DataFrame (Pandas or Dask) is empty.
@@ -174,14 +186,30 @@ class DataUtils:
         - bool: True if the DataFrame is empty, False otherwise.
         """
         if isinstance(df, dd.DataFrame):
-            df_size = df.map_partitions(len).sum().compute()
-            return df_size == 0
-        else:
+            try:
+                return len(df.index) == 0
+            except Exception as e:
+                self.logger.error(f"Error while processing Dask DataFrame: {e}")
+                return False
+        elif isinstance(df, pd.DataFrame):
             return df.empty
+        else:
+            self.logger.error("Input must be a pandas or dask DataFrame.")
+            return False
     @staticmethod
-    def convert_to_datetime(df, date_fields):
+    def convert_to_datetime_dask(df, date_fields):
+        """
+        Convert specified columns in a Dask DataFrame to datetime, handling errors gracefully.
+        Parameters:
+        - df (dask.dataframe.DataFrame): The Dask DataFrame containing the columns.
+        - date_fields (list of str): List of column names to convert to datetime.
+        Returns:
+        - dask.dataframe.DataFrame: Updated DataFrame with specified columns converted to datetime.
+        """
         for col in date_fields:
             if col in df.columns:
-                df[col] = pd.to_datetime(df[col], errors='coerce')
-        return df
+                df[col] = df[col].map_partitions(pd.to_datetime, errors="coerce", meta=(col, "datetime64[ns]"))
+        return df

sibi-dst 0.3.10__py3-none-any.whl → 0.3.12__py3-none-any.whl

sibi-dst 0.3.10py3-none-any.whl → 0.3.12py3-none-any.whl