PyPI - upgini - Versions diffs - 1.2.86.dev1__py3-none-any.whl → 1.2.87a3857.dev1__py3-none-any.whl - Mend

upgini 1.2.86.dev1py3-none-any.whl → 1.2.87a3857.dev1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (9) hide show

upgini/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "1.2.86.dev1"
1	+ __version__ = "1.2.87a3857.dev1"

upgini/features_enricher.py CHANGED Viewed

@@ -1664,6 +1664,10 @@ class FeaturesEnricher(TransformerMixin):
                 enriched_eval_y_sorted,
             )
+        fitting_X, fitting_enriched_X, fitting_eval_set_dict = self._convert_id_columns_to_int(
+            fitting_X, fitting_enriched_X, fitting_eval_set_dict, columns_renaming
+        )
         return (
             validated_X,
             fitting_X,
@@ -1677,6 +1681,38 @@ class FeaturesEnricher(TransformerMixin):
             columns_renaming,
         )
+    def _convert_id_columns_to_int(
+        self,
+        fitting_X: pd.DataFrame,
+        fitting_enriched_X: pd.DataFrame,
+        fitting_eval_set_dict: Dict[int, Tuple[pd.DataFrame, pd.Series]],
+        columns_renaming: Dict[str, str] = {},
+    ) -> pd.DataFrame:
+        def _set_encoded(col_name: str, df: pd.DataFrame, slice: Tuple[int, int], combined_col: pd.Series):
+            df[col_name] = combined_col.iloc[slice[0] : slice[1]]
+            return slice[1]
+        inverse_columns_renaming = {v: k for k, v in columns_renaming.items()}
+        if self.id_columns:
+            self.logger.info(f"Convert id columns to int: {self.id_columns}")
+            for col in self.id_columns:
+                col = inverse_columns_renaming.get(col, col)
+                combined_col = pd.concat(
+                    [fitting_X[col], fitting_enriched_X[col]]
+                    + [eval_set_pair[0][col] for eval_set_pair in fitting_eval_set_dict.values()]
+                )
+                combined_col = combined_col.astype("category").cat.codes
+                slice_end = _set_encoded(col, fitting_X, (0, len(fitting_X)), combined_col)
+                slice_end = _set_encoded(
+                    col, fitting_enriched_X, (slice_end, slice_end + len(fitting_enriched_X)), combined_col
+                )
+                for eval_set_pair in fitting_eval_set_dict.values():
+                    slice_end = _set_encoded(
+                        col, eval_set_pair[0], (slice_end, slice_end + len(eval_set_pair[0])), combined_col
+                    )
+        return fitting_X, fitting_enriched_X, fitting_eval_set_dict
     @dataclass
     class _SampledDataForMetrics:
         X_sampled: pd.DataFrame
@@ -2204,10 +2240,12 @@ class FeaturesEnricher(TransformerMixin):
                         {"name": name, "value": key_example(sk_type)} for name in sk_meta.unnestKeyNames
                     ]
                 else:
-                    search_keys_with_values[sk_type.name] = [{
-                        "name": sk_meta.originalName,
-                        "value": key_example(sk_type),
-                    }]
+                    search_keys_with_values[sk_type.name] = [
+                        {
+                            "name": sk_meta.originalName,
+                            "value": key_example(sk_type),
+                        }
+                    ]
         keys_section = json.dumps(search_keys_with_values)
         features_for_transform = self._search_task.get_features_for_transform()
@@ -3927,7 +3965,7 @@ if response.status_code == 200:
         if features_meta is None:
             raise Exception(self.bundle.get("missing_features_meta"))
-        return [f.name for f in features_meta if f.type == "categorical"]
+        return [f.name for f in features_meta if f.type == "categorical" and f.name not in self.id_columns]
     def __prepare_feature_importances(
         self, trace_id: str, df: pd.DataFrame, updated_shaps: Optional[Dict[str, float]] = None, silent=False

upgini/metrics.py CHANGED Viewed

@@ -314,7 +314,7 @@ class EstimatorWrapper:
         self.groups = groups
         self.text_features = text_features
         self.logger = logger or logging.getLogger()
-        self.droped_features = []
+        self.dropped_features = []
         self.converted_to_int = []
         self.converted_to_str = []
         self.converted_to_numeric = []
@@ -363,10 +363,11 @@ class EstimatorWrapper:
         x, y, groups = self._prepare_data(x, y, groups=self.groups)
         self.logger.info(f"Before preparing data columns: {x.columns.to_list()}")
-        self.droped_features = []
+        self.dropped_features = []
         self.converted_to_int = []
         self.converted_to_str = []
         self.converted_to_numeric = []
         for c in x.columns:
             if _get_unique_count(x[c]) < 2:
@@ -374,7 +375,7 @@ class EstimatorWrapper:
                 if c in self.cat_features:
                     self.cat_features.remove(c)
                 x.drop(columns=[c], inplace=True)
-                self.droped_features.append(c)
+                self.dropped_features.append(c)
             elif self.text_features is not None and c in self.text_features:
                 x[c] = x[c].astype(str)
                 self.converted_to_str.append(c)
@@ -391,9 +392,7 @@ class EstimatorWrapper:
                     self.converted_to_int.append(c)
                     self.cat_features.remove(c)
                 elif is_float_dtype(x[c]) or (x[c].dtype == "category" and is_float_dtype(x[c].cat.categories)):
-                    self.logger.info(
-                        f"Convert float cat feature {c} to string"
-                    )
+                    self.logger.info(f"Convert float cat feature {c} to string")
                     x[c] = x[c].astype(str)
                     self.converted_to_str.append(c)
                 elif x[c].dtype not in ["category", "int64"]:
@@ -411,16 +410,16 @@ class EstimatorWrapper:
                     except (ValueError, TypeError):
                         self.logger.warning(f"Remove feature {c} because it is not numeric and not in cat_features")
                         x.drop(columns=[c], inplace=True)
-                        self.droped_features.append(c)
+                        self.dropped_features.append(c)
         return x, y, groups, {}
     def _prepare_to_calculate(self, x: pd.DataFrame, y: pd.Series) -> Tuple[pd.DataFrame, np.ndarray, dict]:
         x, y, _ = self._prepare_data(x, y)
-        if self.droped_features:
-            self.logger.info(f"Drop features on calculate metrics: {self.droped_features}")
-            x = x.drop(columns=self.droped_features)
+        if self.dropped_features:
+            self.logger.info(f"Drop features on calculate metrics: {self.dropped_features}")
+            x = x.drop(columns=self.dropped_features)
         if self.converted_to_int:
             self.logger.info(f"Convert to int features on calculate metrics: {self.converted_to_int}")
@@ -763,7 +762,7 @@ class CatBoostWrapper(EstimatorWrapper):
                     )
                 for f in high_cardinality_features:
                     self.text_features.remove(f)
-                    self.droped_features.append(f)
+                    self.dropped_features.append(f)
                     x = x.drop(columns=f, errors="ignore")
                 return super().cross_val_predict(x, y, baseline_score_column)
             else:
@@ -853,7 +852,7 @@ class LightGBMWrapper(EstimatorWrapper):
         for c in x.columns:
             if x[c].dtype not in ["category", "int64", "float64", "bool"]:
                 self.logger.warning(f"Feature {c} is not numeric and will be dropped")
-                self.droped_features.append(c)
+                self.dropped_features.append(c)
                 x = x.drop(columns=c, errors="ignore")
         return x, y_numpy, groups, params
@@ -933,7 +932,7 @@ class OtherEstimatorWrapper(EstimatorWrapper):
         for c in x.columns:
             if x[c].dtype not in ["category", "int64", "float64", "bool"]:
                 self.logger.warning(f"Feature {c} is not numeric and will be dropped")
-                self.droped_features.append(c)
+                self.dropped_features.append(c)
                 x = x.drop(columns=c, errors="ignore")
         return x, y_numpy, groups, params

upgini/utils/datetime_utils.py CHANGED Viewed

@@ -121,31 +121,31 @@ class DateTimeSearchKeyConverter:
                 df[cos_feature] = np.cos(2 * np.pi * df[column] / period)
                 self.generated_features.append(cos_feature)
-        # df["quarter"] = df[self.date_column].dt.quarter
+        df["quarter"] = df[self.date_column].dt.quarter
-        # # Calculate the start date of the quarter for each timestamp
-        # df["quarter_start"] = df[self.date_column].dt.to_period("Q").dt.start_time
+        # Calculate the start date of the quarter for each timestamp
+        df["quarter_start"] = df[self.date_column].dt.to_period("Q").dt.start_time
-        # # Calculate the day in the quarter
-        # df["day_in_quarter"] = (df[self.date_column] - df["quarter_start"]).dt.days + 1
+        # Calculate the day in the quarter
+        df["day_in_quarter"] = (df[self.date_column] - df["quarter_start"]).dt.days + 1
-        # # Vectorized calculation of days_in_quarter
-        # quarter = df["quarter"]
-        # start = df["quarter_start"]
-        # year = start.dt.year
-        # month = start.dt.month
+        # Vectorized calculation of days_in_quarter
+        quarter = df["quarter"]
+        start = df["quarter_start"]
+        year = start.dt.year
+        month = start.dt.month
-        # quarter_end_year = np.where(quarter == 4, year + 1, year)
-        # quarter_end_month = np.where(quarter == 4, 1, month + 3)
+        quarter_end_year = np.where(quarter == 4, year + 1, year)
+        quarter_end_month = np.where(quarter == 4, 1, month + 3)
-        # end = pd.to_datetime({"year": quarter_end_year, "month": quarter_end_month, "day": 1})
-        # end.index = df.index
+        end = pd.to_datetime({"year": quarter_end_year, "month": quarter_end_month, "day": 1})
+        end.index = df.index
-        # df["days_in_quarter"] = (end - start).dt.days
+        df["days_in_quarter"] = (end - start).dt.days
-        # add_cyclical_features(df, "day_in_quarter", df["days_in_quarter"])  # Days in the quarter
+        add_cyclical_features(df, "day_in_quarter", df["days_in_quarter"])  # Days in the quarter
-        # df.drop(columns=["quarter", "quarter_start", "day_in_quarter", "days_in_quarter"], inplace=True)
+        df.drop(columns=["quarter", "quarter_start", "day_in_quarter", "days_in_quarter"], inplace=True)
         df[seconds] = (df[self.date_column] - df[self.date_column].dt.floor("D")).dt.seconds

upgini/utils/email_utils.py CHANGED Viewed

@@ -36,11 +36,11 @@ class EmailDomainGenerator:
         self.generated_features = []
     def generate(self, df: pd.DataFrame) -> pd.DataFrame:
-        # for email_col in self.email_columns:
-        #     domain_feature = email_col + self.DOMAIN_SUFFIX
-        #     if domain_feature not in df.columns:
-        #         df[domain_feature] = df[email_col].apply(self._email_to_domain).astype("string")
-        #         self.generated_features.append(domain_feature)
+        for email_col in self.email_columns:
+            domain_feature = email_col + self.DOMAIN_SUFFIX
+            if domain_feature not in df.columns:
+                df[domain_feature] = df[email_col].apply(self._email_to_domain).astype("string")
+                self.generated_features.append(domain_feature)
         return df
     @staticmethod

{upgini-1.2.86.dev1.dist-info → upgini-1.2.87a3857.dev1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.86.dev1
+Version: 1.2.87a3857.dev1
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

{upgini-1.2.86.dev1.dist-info → upgini-1.2.87a3857.dev1.dist-info}/RECORD RENAMED Viewed

@@ -1,12 +1,12 @@
-upgini/__about__.py,sha256=x1iyqkRuCxNu5kTIKv8yNfzxxa0JD4GnBFMpKHM2wRM,28
+upgini/__about__.py,sha256=3sSsl0Y82MTrFi1HkJZNIy6czqNHsAzjhFjDu3_mdew,33
 upgini/__init__.py,sha256=LXSfTNU0HnlOkE69VCxkgIKDhWP-JFo_eBQ71OxTr5Y,261
 upgini/ads.py,sha256=nvuRxRx5MHDMgPr9SiU-fsqRdFaBv8p4_v1oqiysKpc,2714
 upgini/dataset.py,sha256=fRtqSkXNONLnPe6cCL967GMt349FTIpXzy_u8LUKncw,35354
 upgini/errors.py,sha256=2b_Wbo0OYhLUbrZqdLIx5jBnAsiD1Mcenh-VjR4HCTw,950
-upgini/features_enricher.py,sha256=G0qbRPdlWe9p6cwYF3khP99-0kgAO8N0A2sfQxSLgmM,213446
+upgini/features_enricher.py,sha256=G69F0tRPjKWMhNwvXK0dgHzyTSMHShGN0ycrtYge6kA,215354
 upgini/http.py,sha256=6Qcepv0tDC72mBBJxYHnA2xqw6QwFaKrXN8o4vju8Es,44372
 upgini/metadata.py,sha256=zt_9k0iQbWXuiRZcel4ORNPdQKt6Ou69ucZD_E1Q46o,12341
-upgini/metrics.py,sha256=3cip0_L6-OFew74KsRwzxJDU6UFq05h2v7IsyHLcMRc,43164
+upgini/metrics.py,sha256=HJ5DpnrWAwrlw3_JlAWEhs1SXfI-_R4TGp2ajavOE14,43129
 upgini/search_task.py,sha256=Q5HjBpLIB3OCxAD1zNv5yQ3ZNJx696WCK_-H35_y7Rs,17912
 upgini/spinner.py,sha256=4iMd-eIe_BnkqFEMIliULTbj6rNI2HkN_VJ4qYe0cUc,1118
 upgini/version_validator.py,sha256=DvbaAvuYFoJqYt0fitpsk6Xcv-H1BYDJYHUMxaKSH_Y,1509
@@ -51,10 +51,10 @@ upgini/utils/blocked_time_series.py,sha256=Uqr3vp4YqNclj2-PzEYqVy763GSXHn86sbpIl
 upgini/utils/country_utils.py,sha256=lY-eXWwFVegdVENFttbvLcgGDjFO17Sex8hd2PyJaRk,6937
 upgini/utils/custom_loss_utils.py,sha256=kieNZYBYZm5ZGBltF1F_jOSF4ea6C29rYuCyiDcqVNY,3857
 upgini/utils/cv_utils.py,sha256=w6FQb9nO8BWDx88EF83NpjPLarK4eR4ia0Wg0kLBJC4,3525
-upgini/utils/datetime_utils.py,sha256=FKeCc5PQnhMSyLiw8nuiMccmMkrUCj4zCIgpZnffpbU,13569
+upgini/utils/datetime_utils.py,sha256=_jq-kn_dGNFfs-DGXcWCGzy9bkplfAjrZ8SsmN28zXc,13535
 upgini/utils/deduplicate_utils.py,sha256=AcMLoObMjhOTQ_fMS1LWy0GKp6WXnZ-FNux_8V3nbZU,8914
 upgini/utils/display_utils.py,sha256=hAeWEcJtPDg8fAVcMNrNB-azFD2WJp1nvbPAhR7SeP4,12071
-upgini/utils/email_utils.py,sha256=TZ_2UL0T7rzXG5WNu3dLUReY15qt6PozEGY_4cyuhdM,5287
+upgini/utils/email_utils.py,sha256=pZ2vCfNxLIPUhxr0-OlABNXm12jjU44isBk8kGmqQzA,5277
 upgini/utils/fallback_progress_bar.py,sha256=PDaKb8dYpVZaWMroNcOHsTc3pSjgi9mOm0--cOFTwJ0,1074
 upgini/utils/feature_info.py,sha256=Q9HN6A-fvfVD-irFWrmOqqZG9RsUSvh5MTY_k0xu-tE,7287
 upgini/utils/features_validator.py,sha256=lEfmk4DoxZ4ooOE1HC0ZXtUb_lFKRFHIrnFULZ4_rL8,3746
@@ -70,7 +70,7 @@ upgini/utils/target_utils.py,sha256=LRN840dzx78-wg7ftdxAkp2c1eu8-JDvkACiRThm4HE,
 upgini/utils/track_info.py,sha256=G5Lu1xxakg2_TQjKZk4b5SvrHsATTXNVV3NbvWtT8k8,5663
 upgini/utils/ts_utils.py,sha256=26vhC0pN7vLXK6R09EEkMK3Lwb9IVPH7LRdqFIQ3kPs,1383
 upgini/utils/warning_counter.py,sha256=-GRY8EUggEBKODPSuXAkHn9KnEQwAORC0mmz_tim-PM,254
-upgini-1.2.86.dev1.dist-info/METADATA,sha256=WbxVPEQbJJMxYSDRTiJAdevnfltYEQ8WjxyGgVv7vaE,49167
-upgini-1.2.86.dev1.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
-upgini-1.2.86.dev1.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
-upgini-1.2.86.dev1.dist-info/RECORD,,
+upgini-1.2.87a3857.dev1.dist-info/METADATA,sha256=CAuubJghDMbrQnw0lkf8Go-cHO0uvsYaQYVel40FlLM,49172
+upgini-1.2.87a3857.dev1.dist-info/WHEEL,sha256=zEMcRr9Kr03x1ozGwg5v9NQBKn3kndp6LSoSlVg-jhU,87
+upgini-1.2.87a3857.dev1.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
+upgini-1.2.87a3857.dev1.dist-info/RECORD,,

{upgini-1.2.86.dev1.dist-info → upgini-1.2.87a3857.dev1.dist-info}/WHEEL RENAMED Viewed

@@ -1,4 +1,4 @@
 Wheel-Version: 1.0
-Generator: hatchling 1.25.0
+Generator: hatchling 1.24.2
 Root-Is-Purelib: true
 Tag: py3-none-any

{upgini-1.2.86.dev1.dist-info → upgini-1.2.87a3857.dev1.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

upgini 1.2.86.dev1__py3-none-any.whl → 1.2.87a3857.dev1__py3-none-any.whl

Potentially problematic release.

upgini 1.2.86.dev1py3-none-any.whl → 1.2.87a3857.dev1py3-none-any.whl