PyPI - upgini - Versions diffs - 1.2.9__py3-none-any.whl → 1.2.9a2__py3-none-any.whl - Mend

upgini 1.2.9py3-none-any.whl → 1.2.9a2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (9) hide show

upgini/__about__.py +1 -1
upgini/__init__.py +2 -2
upgini/features_enricher.py +22 -13
upgini/metrics.py +1 -5
upgini/utils/features_validator.py +1 -1
{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/METADATA +1 -2
{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/RECORD +9 -9
{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/WHEEL +0 -0
{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/licenses/LICENSE +0 -0

upgini/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "1.2.9"
1	+ __version__ = "1.2.9a2"

upgini/__init__.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
-from upgini.features_enricher import FeaturesEnricher  # noqa: F401
-from upgini.metadata import SearchKey, CVType, RuntimeParameters, ModelTaskType  # noqa: F401
+# from upgini.features_enricher import FeaturesEnricher  # noqa: F401
+# from upgini.metadata import SearchKey, CVType, RuntimeParameters, ModelTaskType  # noqa: F401
 # from .lazy_import import LazyImport
 os.environ["SETUPTOOLS_USE_DISTUTILS"] = "stdlib"

upgini/features_enricher.py CHANGED Viewed

@@ -1103,7 +1103,7 @@ class FeaturesEnricher(TransformerMixin):
                             else:
                                 eval_uplift = None
-                            # effective_eval_set = eval_set if eval_set is not None else self.eval_set
+                            effective_eval_set = eval_set if eval_set is not None else self.eval_set
                             eval_metrics = {
                                 self.bundle.get("quality_metrics_segment_header"): self.bundle.get(
                                     "quality_metrics_eval_segment"
@@ -1369,7 +1369,6 @@ class FeaturesEnricher(TransformerMixin):
                 + [DateTimeSearchKeyConverter.DATETIME_COL, SYSTEM_RECORD_ID, ENTITY_SYSTEM_RECORD_ID]
             )
         ]
-        self.logger.info(f"Client features column on prepare data for metrics: {client_features}")
         filtered_enriched_features = self.__filtered_enriched_features(
             importance_threshold,
@@ -1436,19 +1435,31 @@ class FeaturesEnricher(TransformerMixin):
                 )
         fitting_eval_set_dict = {}
-        fitting_x_columns = fitting_X.columns.to_list()
-        self.logger.info(f"Final list of fitting X columns: {fitting_x_columns}")
-        fitting_enriched_x_columns = fitting_enriched_X.columns.to_list()
-        self.logger.info(f"Final list of fitting enriched X columns: {fitting_enriched_x_columns}")
         for idx, eval_tuple in eval_set_sampled_dict.items():
             eval_X_sampled, enriched_eval_X, eval_y_sampled = eval_tuple
             eval_X_sorted, eval_y_sorted = self._sort_by_system_record_id(eval_X_sampled, eval_y_sampled, self.cv)
             enriched_eval_X_sorted, enriched_eval_y_sorted = self._sort_by_system_record_id(
                 enriched_eval_X, eval_y_sampled, self.cv
             )
-            fitting_eval_X = eval_X_sorted[fitting_x_columns].copy()
-            fitting_enriched_eval_X = enriched_eval_X_sorted[fitting_enriched_x_columns].copy()
+            fitting_eval_X = eval_X_sorted[client_features].copy()
+            fitting_enriched_eval_X = enriched_eval_X_sorted[
+                client_features + existing_filtered_enriched_features
+            ].copy()
+            # # Drop high cardinality features in eval set
+            if len(columns_with_high_cardinality) > 0:
+                fitting_eval_X = fitting_eval_X.drop(columns=columns_with_high_cardinality, errors="ignore")
+                fitting_enriched_eval_X = fitting_enriched_eval_X.drop(
+                    columns=columns_with_high_cardinality, errors="ignore"
+                )
+            # Drop constant features in eval_set
+            if len(constant_columns) > 0:
+                fitting_eval_X = fitting_eval_X.drop(columns=constant_columns, errors="ignore")
+                fitting_enriched_eval_X = fitting_enriched_eval_X.drop(columns=constant_columns, errors="ignore")
+            # Drop datetime features in eval_set
+            if len(datetime_features) > 0:
+                fitting_eval_X = fitting_eval_X.drop(columns=datetime_features, errors="ignore")
+                fitting_enriched_eval_X = fitting_enriched_eval_X.drop(columns=datetime_features, errors="ignore")
             # Convert bool to string in eval_set
             if len(bool_columns) > 0:
                 fitting_eval_X[col] = fitting_eval_X[col].astype(str)
@@ -1669,7 +1680,6 @@ class FeaturesEnricher(TransformerMixin):
         X_sampled = enriched_Xy[x_columns].copy()
         y_sampled = enriched_Xy[TARGET].copy()
         enriched_X = enriched_Xy.drop(columns=[TARGET, EVAL_SET_INDEX], errors="ignore")
-        enriched_X_columns = enriched_X.columns.to_list()
         self.logger.info(f"Shape of enriched_X: {enriched_X.shape}")
         self.logger.info(f"Shape of X after sampling: {X_sampled.shape}")
@@ -1684,7 +1694,7 @@ class FeaturesEnricher(TransformerMixin):
             for idx in range(len(eval_set)):
                 eval_X_sampled = enriched_eval_sets[idx + 1][x_columns].copy()
                 eval_y_sampled = enriched_eval_sets[idx + 1][TARGET].copy()
-                enriched_eval_X = enriched_eval_sets[idx + 1][enriched_X_columns].copy()
+                enriched_eval_X = enriched_eval_sets[idx + 1].drop(columns=[TARGET, EVAL_SET_INDEX])
                 eval_set_sampled_dict[idx] = (eval_X_sampled, enriched_eval_X, eval_y_sampled)
         self.__cached_sampled_datasets = (
@@ -1763,13 +1773,12 @@ class FeaturesEnricher(TransformerMixin):
             X_sampled = enriched_Xy[x_columns].copy()
             y_sampled = enriched_Xy[TARGET].copy()
             enriched_X = enriched_Xy.drop(columns=[TARGET, EVAL_SET_INDEX])
-            enriched_X_columns = enriched_X.columns.tolist()
             for idx in range(len(eval_set)):
                 enriched_eval_xy = enriched_df.query(f"{EVAL_SET_INDEX} == {idx + 1}")
                 eval_x_sampled = enriched_eval_xy[x_columns].copy()
                 eval_y_sampled = enriched_eval_xy[TARGET].copy()
-                enriched_eval_x = enriched_eval_xy[enriched_X_columns].copy()
+                enriched_eval_x = enriched_eval_xy.drop(columns=[TARGET, EVAL_SET_INDEX])
                 eval_set_sampled_dict[idx] = (eval_x_sampled, enriched_eval_x, eval_y_sampled)
         else:
             self.logger.info("Transform without eval_set")

upgini/metrics.py CHANGED Viewed

@@ -10,7 +10,6 @@ import catboost
 import numpy as np
 import pandas as pd
 from catboost import CatBoostClassifier, CatBoostRegressor
-from lightgbm import LGBMClassifier, LGBMRegressor
 from numpy import log1p
 from pandas.api.types import is_numeric_dtype
 from sklearn.metrics import check_scoring, get_scorer, make_scorer, roc_auc_score
@@ -254,7 +253,6 @@ class EstimatorWrapper:
     def _prepare_data(
         self, x: pd.DataFrame, y: pd.Series, groups: Optional[np.ndarray] = None
     ) -> Tuple[pd.DataFrame, np.ndarray, np.ndarray]:
-        self.logger.info(f"Before preparing data columns: {x.columns.to_list()}")
         for c in x.columns:
             if is_numeric_dtype(x[c]):
                 x[c] = x[c].astype(float)
@@ -273,7 +271,6 @@ class EstimatorWrapper:
         else:
             x, y = self._remove_empty_target_rows(x, y)
-        self.logger.info(f"After preparing data columns: {x.columns.to_list()}")
         return x, y, groups
     def _remove_empty_target_rows(self, x: pd.DataFrame, y: pd.Series) -> Tuple[pd.DataFrame, pd.Series]:
@@ -408,6 +405,7 @@ class EstimatorWrapper:
                 estimator = CatBoostWrapper(**kwargs)
             else:
                 try:
+                    from lightgbm import LGBMClassifier, LGBMRegressor
                     if isinstance(estimator, (LGBMClassifier, LGBMRegressor)):
                         estimator = LightGBMWrapper(**kwargs)
                     else:
@@ -495,9 +493,7 @@ class CatBoostWrapper(EstimatorWrapper):
             if x[name].nunique() > 1:
                 unique_cat_features.append(name)
             else:
-                self.logger.info(f"Drop column {name} on preparing data for fit")
                 x = x.drop(columns=name)
-                self.exclude_features.append(name)
         self.cat_features = unique_cat_features
         if (
             hasattr(self.estimator, "get_param")

upgini/utils/features_validator.py CHANGED Viewed

@@ -87,4 +87,4 @@ class FeaturesValidator:
     @staticmethod
     def find_constant_features(df: pd.DataFrame) -> List[str]:
-        return [i for i in df if df[i].nunique() <= 1]
+        return [i for i in df if df[i].nunique() == 1]

{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.9
+Version: 1.2.9a2
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/
@@ -28,7 +28,6 @@ Requires-Dist: fastparquet>=0.8.1
 Requires-Dist: ipywidgets>=8.1.0
 Requires-Dist: jarowinkler>=2.0.0
 Requires-Dist: levenshtein>=0.25.1
-Requires-Dist: lightgbm>=3.3.2
 Requires-Dist: numpy<=1.26.4,>=1.19.0
 Requires-Dist: pandas<3.0.0,>=1.1.0
 Requires-Dist: pydantic<3.0.0,>1.0.0

{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/RECORD RENAMED Viewed

@@ -1,13 +1,13 @@
-upgini/__about__.py,sha256=Oh3Y6CIypkhAjW-aquBTyP3_cA-gKgKTwq9EpcWpjps,22
-upgini/__init__.py,sha256=M64LwQTBa-5Jz24Zm2h8rWwlKQQ1J8nP7gGgIciS0WU,589
+upgini/__about__.py,sha256=GR-gR128AJNWooDSfagbh8bkcWGBGJA-QDxLGQEYeqQ,24
+upgini/__init__.py,sha256=3WLf0J2JF5xhTYOKbReBzkRmmvXTl_V7JKZm7b-cpTo,593
 upgini/ads.py,sha256=nvuRxRx5MHDMgPr9SiU-fsqRdFaBv8p4_v1oqiysKpc,2714
 upgini/dataset.py,sha256=olZ-OHSfBNoBSCo7R5t7uCLukI2nO7afpx_A-HCiJLk,31067
 upgini/errors.py,sha256=2b_Wbo0OYhLUbrZqdLIx5jBnAsiD1Mcenh-VjR4HCTw,950
-upgini/features_enricher.py,sha256=rC3Lq1KvwJdSiITAUfYzBxdRtPkpOo6X2fqc3wWQfM4,187594
+upgini/features_enricher.py,sha256=J5-bn07iaJSXVN8COeu2RbDqZ4NTPd1L27HePaNh52o,188134
 upgini/http.py,sha256=21asexflvavydzCOONJDGQBtQanCElrbnqLXakJ9Cu8,42880
 upgini/lazy_import.py,sha256=74gQ8JuA48BGRLxAo7lNHNKY2D2emMxrUxKGdxVGhuY,1012
 upgini/metadata.py,sha256=osmzdNESeh7yP3BZday6N9Q3eaIHfzhhRM1d6NSgcf0,11223
-upgini/metrics.py,sha256=Swp-innl6XrdK6Dy6uLTVxmkzPRqFbCxfYxQUsK_-w8,31222
+upgini/metrics.py,sha256=AYVvcqSqO_UWwFIby0gcqSDNLiIoy6EU3pa8aUBUQ4k,30946
 upgini/search_task.py,sha256=qxUxAD-bed-FpZYmTB_4orW7YJsW_O6a1TcgnZIRFr4,17307
 upgini/spinner.py,sha256=4iMd-eIe_BnkqFEMIliULTbj6rNI2HkN_VJ4qYe0cUc,1118
 upgini/version_validator.py,sha256=ddSKUK_-eGJB3NgrqOMoWJU-OxQ253WsNLp8aqJkaIM,1389
@@ -47,7 +47,7 @@ upgini/utils/deduplicate_utils.py,sha256=Zvs7zW4QzaERQmJNPrTVf2ZTVBkBLOycFCzyMwt
 upgini/utils/display_utils.py,sha256=A2ouB5eiZ-Kyt9ykYxkLQwyoRPrdYeJymwNTiajtFXs,10990
 upgini/utils/email_utils.py,sha256=j0Ug1R_0AnCg1Y92zIZ4XMwvKo3G5_pcOlBN1OH_gZs,5191
 upgini/utils/fallback_progress_bar.py,sha256=PDaKb8dYpVZaWMroNcOHsTc3pSjgi9mOm0--cOFTwJ0,1074
-upgini/utils/features_validator.py,sha256=LIF6YMpHlxCrVz6mvMpc1kfNTIMVGlNCor7IJTmlSfI,3307
+upgini/utils/features_validator.py,sha256=PgKNt5dyqfErTvjtRNNUS9g7GFqHBtAtnsfA-V5UO1A,3307
 upgini/utils/format.py,sha256=Yv5cvvSs2bOLUzzNu96Pu33VMDNbabio92QepUj41jU,243
 upgini/utils/ip_utils.py,sha256=Q6vb7Sr5Khx3Sq3eENjW2qCXKej_S5jZbneH6zEOkzQ,5171
 upgini/utils/phone_utils.py,sha256=IrbztLuOJBiePqqxllfABWfYlfAjYevPhXKipl95wUI,10432
@@ -57,7 +57,7 @@ upgini/utils/sklearn_ext.py,sha256=13jQS_k7v0aUtudXV6nGUEWjttPQzAW9AFYL5wgEz9k,4
 upgini/utils/target_utils.py,sha256=BVtDmrmFMKerSUWaNOIEdzsYHIFiODdpnWbE50QDPDc,7864
 upgini/utils/track_info.py,sha256=G5Lu1xxakg2_TQjKZk4b5SvrHsATTXNVV3NbvWtT8k8,5663
 upgini/utils/warning_counter.py,sha256=dIWBB4dI5XRRJZudvIlqlIYKEiwLLPcXarsZuYRt338,227
-upgini-1.2.9.dist-info/METADATA,sha256=3mB0qUIeWVpka3vMeXq-t7STUZxVKQb5NpGBpFA9zlw,48607
-upgini-1.2.9.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
-upgini-1.2.9.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
-upgini-1.2.9.dist-info/RECORD,,
+upgini-1.2.9a2.dist-info/METADATA,sha256=NepU5uIYzESWv2GCSJrd6W3GOd4m2ipgrZChnFdiJTM,48578
+upgini-1.2.9a2.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
+upgini-1.2.9a2.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
+upgini-1.2.9a2.dist-info/RECORD,,

{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/WHEEL RENAMED Viewed

File without changes

{upgini-1.2.9.dist-info → upgini-1.2.9a2.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

upgini 1.2.9__py3-none-any.whl → 1.2.9a2__py3-none-any.whl

Potentially problematic release.

upgini 1.2.9py3-none-any.whl → 1.2.9a2py3-none-any.whl