PyPI - upgini - Versions diffs - 1.2.9__tar.gz → 1.2.9a2__tar.gz - Mend

upgini 1.2.9tar.gz → 1.2.9a2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (65) hide show

{upgini-1.2.9 → upgini-1.2.9a2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.9
+Version: 1.2.9a2
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/
@@ -28,7 +28,6 @@ Requires-Dist: fastparquet>=0.8.1
 Requires-Dist: ipywidgets>=8.1.0
 Requires-Dist: jarowinkler>=2.0.0
 Requires-Dist: levenshtein>=0.25.1
-Requires-Dist: lightgbm>=3.3.2
 Requires-Dist: numpy<=1.26.4,>=1.19.0
 Requires-Dist: pandas<3.0.0,>=1.1.0
 Requires-Dist: pydantic<3.0.0,>1.0.0

{upgini-1.2.9 → upgini-1.2.9a2}/pyproject.toml RENAMED Viewed

@@ -38,7 +38,7 @@ dependencies = [
     "catboost>=1.0.3",
     "fastparquet>=0.8.1",
     "ipywidgets>=8.1.0",
-    "lightgbm>=3.3.2",
     "numpy>=1.19.0,<=1.26.4",
     "pandas>=1.1.0,<3.0.0",
     "pydantic>1.0.0,<3.0.0",

upgini-1.2.9a2/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.2.9a2"

{upgini-1.2.9 → upgini-1.2.9a2}/src/upgini/__init__.py RENAMED Viewed

@@ -1,7 +1,7 @@
 import os
-from upgini.features_enricher import FeaturesEnricher  # noqa: F401
-from upgini.metadata import SearchKey, CVType, RuntimeParameters, ModelTaskType  # noqa: F401
+# from upgini.features_enricher import FeaturesEnricher  # noqa: F401
+# from upgini.metadata import SearchKey, CVType, RuntimeParameters, ModelTaskType  # noqa: F401
 # from .lazy_import import LazyImport
 os.environ["SETUPTOOLS_USE_DISTUTILS"] = "stdlib"

{upgini-1.2.9 → upgini-1.2.9a2}/src/upgini/features_enricher.py RENAMED Viewed

@@ -1103,7 +1103,7 @@ class FeaturesEnricher(TransformerMixin):
                             else:
                                 eval_uplift = None
-                            # effective_eval_set = eval_set if eval_set is not None else self.eval_set
+                            effective_eval_set = eval_set if eval_set is not None else self.eval_set
                             eval_metrics = {
                                 self.bundle.get("quality_metrics_segment_header"): self.bundle.get(
                                     "quality_metrics_eval_segment"
@@ -1369,7 +1369,6 @@ class FeaturesEnricher(TransformerMixin):
                 + [DateTimeSearchKeyConverter.DATETIME_COL, SYSTEM_RECORD_ID, ENTITY_SYSTEM_RECORD_ID]
             )
         ]
-        self.logger.info(f"Client features column on prepare data for metrics: {client_features}")
         filtered_enriched_features = self.__filtered_enriched_features(
             importance_threshold,
@@ -1436,19 +1435,31 @@ class FeaturesEnricher(TransformerMixin):
                 )
         fitting_eval_set_dict = {}
-        fitting_x_columns = fitting_X.columns.to_list()
-        self.logger.info(f"Final list of fitting X columns: {fitting_x_columns}")
-        fitting_enriched_x_columns = fitting_enriched_X.columns.to_list()
-        self.logger.info(f"Final list of fitting enriched X columns: {fitting_enriched_x_columns}")
         for idx, eval_tuple in eval_set_sampled_dict.items():
             eval_X_sampled, enriched_eval_X, eval_y_sampled = eval_tuple
             eval_X_sorted, eval_y_sorted = self._sort_by_system_record_id(eval_X_sampled, eval_y_sampled, self.cv)
             enriched_eval_X_sorted, enriched_eval_y_sorted = self._sort_by_system_record_id(
                 enriched_eval_X, eval_y_sampled, self.cv
             )
-            fitting_eval_X = eval_X_sorted[fitting_x_columns].copy()
-            fitting_enriched_eval_X = enriched_eval_X_sorted[fitting_enriched_x_columns].copy()
+            fitting_eval_X = eval_X_sorted[client_features].copy()
+            fitting_enriched_eval_X = enriched_eval_X_sorted[
+                client_features + existing_filtered_enriched_features
+            ].copy()
+            # # Drop high cardinality features in eval set
+            if len(columns_with_high_cardinality) > 0:
+                fitting_eval_X = fitting_eval_X.drop(columns=columns_with_high_cardinality, errors="ignore")
+                fitting_enriched_eval_X = fitting_enriched_eval_X.drop(
+                    columns=columns_with_high_cardinality, errors="ignore"
+                )
+            # Drop constant features in eval_set
+            if len(constant_columns) > 0:
+                fitting_eval_X = fitting_eval_X.drop(columns=constant_columns, errors="ignore")
+                fitting_enriched_eval_X = fitting_enriched_eval_X.drop(columns=constant_columns, errors="ignore")
+            # Drop datetime features in eval_set
+            if len(datetime_features) > 0:
+                fitting_eval_X = fitting_eval_X.drop(columns=datetime_features, errors="ignore")
+                fitting_enriched_eval_X = fitting_enriched_eval_X.drop(columns=datetime_features, errors="ignore")
             # Convert bool to string in eval_set
             if len(bool_columns) > 0:
                 fitting_eval_X[col] = fitting_eval_X[col].astype(str)
@@ -1669,7 +1680,6 @@ class FeaturesEnricher(TransformerMixin):
         X_sampled = enriched_Xy[x_columns].copy()
         y_sampled = enriched_Xy[TARGET].copy()
         enriched_X = enriched_Xy.drop(columns=[TARGET, EVAL_SET_INDEX], errors="ignore")
-        enriched_X_columns = enriched_X.columns.to_list()
         self.logger.info(f"Shape of enriched_X: {enriched_X.shape}")
         self.logger.info(f"Shape of X after sampling: {X_sampled.shape}")
@@ -1684,7 +1694,7 @@ class FeaturesEnricher(TransformerMixin):
             for idx in range(len(eval_set)):
                 eval_X_sampled = enriched_eval_sets[idx + 1][x_columns].copy()
                 eval_y_sampled = enriched_eval_sets[idx + 1][TARGET].copy()
-                enriched_eval_X = enriched_eval_sets[idx + 1][enriched_X_columns].copy()
+                enriched_eval_X = enriched_eval_sets[idx + 1].drop(columns=[TARGET, EVAL_SET_INDEX])
                 eval_set_sampled_dict[idx] = (eval_X_sampled, enriched_eval_X, eval_y_sampled)
         self.__cached_sampled_datasets = (
@@ -1763,13 +1773,12 @@ class FeaturesEnricher(TransformerMixin):
             X_sampled = enriched_Xy[x_columns].copy()
             y_sampled = enriched_Xy[TARGET].copy()
             enriched_X = enriched_Xy.drop(columns=[TARGET, EVAL_SET_INDEX])
-            enriched_X_columns = enriched_X.columns.tolist()
             for idx in range(len(eval_set)):
                 enriched_eval_xy = enriched_df.query(f"{EVAL_SET_INDEX} == {idx + 1}")
                 eval_x_sampled = enriched_eval_xy[x_columns].copy()
                 eval_y_sampled = enriched_eval_xy[TARGET].copy()
-                enriched_eval_x = enriched_eval_xy[enriched_X_columns].copy()
+                enriched_eval_x = enriched_eval_xy.drop(columns=[TARGET, EVAL_SET_INDEX])
                 eval_set_sampled_dict[idx] = (eval_x_sampled, enriched_eval_x, eval_y_sampled)
         else:
             self.logger.info("Transform without eval_set")

{upgini-1.2.9 → upgini-1.2.9a2}/src/upgini/metrics.py RENAMED Viewed

@@ -10,7 +10,6 @@ import catboost
 import numpy as np
 import pandas as pd
 from catboost import CatBoostClassifier, CatBoostRegressor
-from lightgbm import LGBMClassifier, LGBMRegressor
 from numpy import log1p
 from pandas.api.types import is_numeric_dtype
 from sklearn.metrics import check_scoring, get_scorer, make_scorer, roc_auc_score
@@ -254,7 +253,6 @@ class EstimatorWrapper:
     def _prepare_data(
         self, x: pd.DataFrame, y: pd.Series, groups: Optional[np.ndarray] = None
     ) -> Tuple[pd.DataFrame, np.ndarray, np.ndarray]:
-        self.logger.info(f"Before preparing data columns: {x.columns.to_list()}")
         for c in x.columns:
             if is_numeric_dtype(x[c]):
                 x[c] = x[c].astype(float)
@@ -273,7 +271,6 @@ class EstimatorWrapper:
         else:
             x, y = self._remove_empty_target_rows(x, y)
-        self.logger.info(f"After preparing data columns: {x.columns.to_list()}")
         return x, y, groups
     def _remove_empty_target_rows(self, x: pd.DataFrame, y: pd.Series) -> Tuple[pd.DataFrame, pd.Series]:
@@ -408,6 +405,7 @@ class EstimatorWrapper:
                 estimator = CatBoostWrapper(**kwargs)
             else:
                 try:
+                    from lightgbm import LGBMClassifier, LGBMRegressor
                     if isinstance(estimator, (LGBMClassifier, LGBMRegressor)):
                         estimator = LightGBMWrapper(**kwargs)
                     else:
@@ -495,9 +493,7 @@ class CatBoostWrapper(EstimatorWrapper):
             if x[name].nunique() > 1:
                 unique_cat_features.append(name)
             else:
-                self.logger.info(f"Drop column {name} on preparing data for fit")
                 x = x.drop(columns=name)
-                self.exclude_features.append(name)
         self.cat_features = unique_cat_features
         if (
             hasattr(self.estimator, "get_param")

{upgini-1.2.9 → upgini-1.2.9a2}/src/upgini/utils/features_validator.py RENAMED Viewed

@@ -87,4 +87,4 @@ class FeaturesValidator:
     @staticmethod
     def find_constant_features(df: pd.DataFrame) -> List[str]:
-        return [i for i in df if df[i].nunique() <= 1]
+        return [i for i in df if df[i].nunique() == 1]