PyPI - upgini - Versions diffs - 1.2.118__py3-none-any.whl → 1.2.120__py3-none-any.whl - Mend

upgini 1.2.118py3-none-any.whl → 1.2.120py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

upgini/__about__.py +1 -1
upgini/features_enricher.py +74 -48
upgini/utils/display_utils.py +12 -9
upgini/utils/sklearn_ext.py +3 -4
{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/METADATA +1 -1
{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/RECORD +8 -8
{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/WHEEL +0 -0
{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/licenses/LICENSE +0 -0

upgini/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "1.2.~~118~~"
1	+ __version__ = "1.2.120"

upgini/features_enricher.py CHANGED Viewed

@@ -854,7 +854,7 @@ class FeaturesEnricher(TransformerMixin):
                     raise e
             finally:
                 self.logger.info(f"Transform elapsed time: {time.time() - start_time}")
             return result
     def calculate_metrics(
@@ -1028,13 +1028,7 @@ class FeaturesEnricher(TransformerMixin):
                     columns_renaming,
                     _,
                 ) = prepared_data
-                # rename baseline_score_column
-                reversed_renaming = {v: k for k, v in columns_renaming.items()}
-                baseline_score_column = self.baseline_score_column
-                if baseline_score_column is not None:
-                    baseline_score_column = reversed_renaming[baseline_score_column]
                 gc.collect()
                 if fitting_X.shape[1] == 0 and fitting_enriched_X.shape[1] == 0:
@@ -1089,7 +1083,7 @@ class FeaturesEnricher(TransformerMixin):
                             has_time=has_time,
                         )
                         baseline_cv_result = baseline_estimator.cross_val_predict(
-                            fitting_X, y_sorted, baseline_score_column
+                            fitting_X, y_sorted, self.baseline_score_column
                         )
                         baseline_metric = baseline_cv_result.get_display_metric()
                         if baseline_metric is None:
@@ -1192,7 +1186,7 @@ class FeaturesEnricher(TransformerMixin):
                                     f"on client features: {eval_X_sorted.columns.to_list()}"
                                 )
                                 etalon_eval_results = baseline_estimator.calculate_metric(
-                                    eval_X_sorted, eval_y_sorted, baseline_score_column
+                                    eval_X_sorted, eval_y_sorted, self.baseline_score_column
                                 )
                                 etalon_eval_metric = etalon_eval_results.get_display_metric()
                                 self.logger.info(
@@ -1741,7 +1735,8 @@ class FeaturesEnricher(TransformerMixin):
             c
             for c in (validated_X.columns.to_list() + generated_features)
             if (not self.fit_select_features or c in set(self.feature_names_).union(self.id_columns or []))
-            and c not in (
+            and c
+            not in (
                 excluding_search_keys
                 + list(self.fit_dropped_features)
                 + [DateTimeSearchKeyConverter.DATETIME_COL, SYSTEM_RECORD_ID, ENTITY_SYSTEM_RECORD_ID]
@@ -2215,7 +2210,8 @@ class FeaturesEnricher(TransformerMixin):
             progress_callback=progress_callback,
             add_fit_system_record_id=True,
         )
-        if enriched_df is None:
+        if enriched_df is None or len(enriched_df) == 0 or len(enriched_df.columns) == 0:
+            self.logger.warning(f"Empty enriched dataframe returned: {enriched_df}, returning None")
             return None
         x_columns = [
@@ -2500,6 +2496,9 @@ if response.status_code == 200:
     ) -> tuple[pd.DataFrame, dict[str, str], list[str], dict[str, SearchKey]]:
         if self._search_task is None:
             raise NotFittedError(self.bundle.get("transform_unfitted_enricher"))
+        features_meta = self._search_task.get_all_features_metadata_v2()
+        if features_meta is None:
+            raise NotFittedError(self.bundle.get("transform_unfitted_enricher"))
         start_time = time.time()
         search_id = self.search_id or (self._search_task.search_task_id if self._search_task is not None else None)
@@ -2519,7 +2518,7 @@ if response.status_code == 200:
             if len(self.feature_names_) == 0:
                 msg = self.bundle.get("no_important_features_for_transform")
                 self.__log_warning(msg, show_support_link=True)
-                return X, {c: c for c in X.columns}, [], dict()
+                return None, {}, [], self.search_keys
             self.__validate_search_keys(self.search_keys, self.search_id)
@@ -2527,9 +2526,8 @@ if response.status_code == 200:
                 msg = self.bundle.get("transform_with_paid_features")
                 self.logger.warning(msg)
                 self.__display_support_link(msg)
-                return None, {c: c for c in X.columns}, [], {}
+                return None, {}, [], self.search_keys
-            features_meta = self._search_task.get_all_features_metadata_v2()
             online_api_features = [fm.name for fm in features_meta if fm.from_online_api and fm.shap_value > 0]
             if len(online_api_features) > 0:
                 self.logger.warning(
@@ -2550,7 +2548,7 @@ if response.status_code == 200:
                         self.logger.warning(msg)
                         print(msg)
                         show_request_quote_button()
-                        return None, {c: c for c in X.columns}, [], {}
+                        return None, {}, [], {}
                     else:
                         msg = self.bundle.get("transform_usage_info").format(
                             transform_usage.limit, transform_usage.transformed_rows
@@ -2620,14 +2618,33 @@ if response.status_code == 200:
             # If there are no external features, we don't call backend on transform
             external_features = [fm for fm in features_meta if fm.shap_value > 0 and fm.source != "etalon"]
-            if not external_features:
+            if len(external_features) == 0:
                 self.logger.warning(
                     "No external features found, returning original dataframe"
                     f" with generated important features: {self.feature_names_}"
                 )
-                filtered_columns = [c for c in self.feature_names_ if c in df.columns]
-                self.logger.warning(f"Filtered columns by existance in dataframe: {filtered_columns}")
-                return df[filtered_columns], columns_renaming, generated_features, search_keys
+                df = df.rename(columns=columns_renaming)
+                generated_features = [columns_renaming.get(c, c) for c in generated_features]
+                search_keys = {columns_renaming.get(c, c): t for c, t in search_keys.items()}
+                selecting_columns = self._selecting_input_and_generated_columns(
+                    validated_Xy, generated_features, keep_input, trace_id
+                )
+                self.logger.warning(f"Filtered columns by existance in dataframe: {selecting_columns}")
+                if add_fit_system_record_id:
+                    df = self._add_fit_system_record_id(
+                        df,
+                        search_keys,
+                        SYSTEM_RECORD_ID,
+                        TARGET,
+                        columns_renaming,
+                        self.id_columns,
+                        self.cv,
+                        self.model_task_type,
+                        self.logger,
+                        self.bundle,
+                    )
+                    selecting_columns.append(SYSTEM_RECORD_ID)
+                return df[selecting_columns], columns_renaming, generated_features, search_keys
             # Don't pass all features in backend on transform
             runtime_parameters = self._get_copy_of_runtime_parameters()
@@ -2845,29 +2862,12 @@ if response.status_code == 200:
                 how="left",
             )
-            fit_input_columns = [c.originalName for c in self._search_task.get_file_metadata(trace_id).columns]
-            new_columns_on_transform = [c for c in validated_Xy.columns if c not in fit_input_columns]
-            selected_generated_features = [
-                c for c in generated_features if not self.fit_select_features or c in self.feature_names_
-            ]
-            if keep_input is True:
-                selected_input_columns = [
-                    c
-                    for c in validated_Xy.columns
-                    if not self.fit_select_features
-                    or c in self.feature_names_
-                    or c in new_columns_on_transform
-                    or c in self.search_keys
-                    or c in (self.id_columns or [])
-                    or c in [EVAL_SET_INDEX, TARGET]  # transform for metrics calculation
-                ]
-            else:
-                selected_input_columns = []
-            selecting_columns = selected_input_columns + selected_generated_features
+            selecting_columns = self._selecting_input_and_generated_columns(
+                validated_Xy, generated_features, keep_input, trace_id
+            )
             selecting_columns.extend(
-                c for c in result.columns
+                c
+                for c in result.columns
                 if c in self.feature_names_ and c not in selecting_columns and c not in validated_Xy.columns
             )
             if add_fit_system_record_id:
@@ -2895,6 +2895,35 @@ if response.status_code == 200:
             return result, columns_renaming, generated_features, search_keys
+    def _selecting_input_and_generated_columns(
+        self,
+        validated_Xy: pd.DataFrame,
+        generated_features: list[str],
+        keep_input: bool,
+        trace_id: str,
+    ):
+        fit_input_columns = [c.originalName for c in self._search_task.get_file_metadata(trace_id).columns]
+        new_columns_on_transform = [c for c in validated_Xy.columns if c not in fit_input_columns]
+        selected_generated_features = [
+            c for c in generated_features if not self.fit_select_features or c in self.feature_names_
+        ]
+        if keep_input is True:
+            selected_input_columns = [
+                c
+                for c in validated_Xy.columns
+                if not self.fit_select_features
+                or c in self.feature_names_
+                or c in new_columns_on_transform
+                or c in self.search_keys
+                or c in (self.id_columns or [])
+                or c in [EVAL_SET_INDEX, TARGET]  # transform for metrics calculation
+            ]
+        else:
+            selected_input_columns = []
+        return selected_input_columns + selected_generated_features
     def __validate_search_keys(self, search_keys: dict[str, SearchKey], search_id: str | None = None):
         if (search_keys is None or len(search_keys) == 0) and self.country_code is None:
             if search_id:
@@ -3349,6 +3378,7 @@ if response.status_code == 200:
             except KeyboardInterrupt as e:
                 print(self.bundle.get("search_stopping"))
                 self.rest_client.stop_search_task_v2(trace_id, self._search_task.search_task_id)
+                self._search_task = None
                 self.logger.warning(f"Search {self._search_task.search_task_id} stopped by user")
                 print(self.bundle.get("search_stopped"))
                 raise e
@@ -3727,9 +3757,7 @@ if response.status_code == 200:
             eval_types = validated_eval_X.dtypes
             # Find columns with different types
             diff_cols = [
-                (col, x_types[col], eval_types[col])
-                for col in x_types.index
-                if x_types[col] != eval_types[col]
+                (col, x_types[col], eval_types[col]) for col in x_types.index if x_types[col] != eval_types[col]
             ]
             diff_col_names = [col for col, _, _ in diff_cols]
             # print columns with different types
@@ -3815,9 +3843,7 @@ if response.status_code == 200:
         return Xy[X.columns].copy(), Xy[TARGET].copy()
     @staticmethod
-    def _sort_by_system_record_id(
-        X: pd.DataFrame, y: pd.Series, cv: CVType | None
-    ) -> tuple[pd.DataFrame, pd.Series]:
+    def _sort_by_system_record_id(X: pd.DataFrame, y: pd.Series, cv: CVType | None) -> tuple[pd.DataFrame, pd.Series]:
         if cv not in [CVType.time_series, CVType.blocked_time_series]:
             record_id_column = ENTITY_SYSTEM_RECORD_ID if ENTITY_SYSTEM_RECORD_ID in X else SYSTEM_RECORD_ID
             Xy = X.copy()

upgini/utils/display_utils.py CHANGED Viewed

@@ -269,19 +269,22 @@ def make_html_report(
                 if search_keys is not None
                 else ""
             }
-            {"<h3>All relevant features. Accuracy after enrichment</h3>" + make_table(metrics_df)
-             if metrics_df is not None
-             else ""
+            {
+                "<h3>All relevant features. Accuracy after enrichment</h3>" + make_table(metrics_df)
+                if metrics_df is not None
+                else ""
             }
-            {"<h3>Relevant data sources</h3>" + make_table(relevant_datasources_df)
-             if len(relevant_datasources_df) > 0
-             else ""
+            {
+                "<h3>Relevant data sources</h3>" + make_table(relevant_datasources_df)
+                if len(relevant_datasources_df) > 0
+                else ""
             }
             <h3>All relevant features. Listing ({len(relevant_features_df)} items)</h3>
             {make_table(relevant_features_df, wrap_long_string=25)}
-            {"<h3>Description of AutoFE feature names</h3>" + make_table(autofe_descriptions_df, wrap_long_string=25)
-             if autofe_descriptions_df is not None
-             else ""
+            {
+                "<h3>Description of AutoFE feature names</h3>" + make_table(autofe_descriptions_df, wrap_long_string=25)
+                if autofe_descriptions_df is not None and len(autofe_descriptions_df) > 0
+                else ""
             }
             <p>To buy found data sources, please contact: <a href='mailto:sales@upgini.com'>sales@upgini.com</a></p>
             <p>Best regards, </br><b>Upgini Team</b></p>

upgini/utils/sklearn_ext.py CHANGED Viewed

@@ -1301,6 +1301,7 @@ def _encode_cat_features(X_train, y_train, X_test, y_test, cat_features, estimat
             encoder = OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1)
             encoder.fit(X_train[cat_features], y_train)
+            # OrdinalEncoder doesn't support progressive encoding with target
             X_train[cat_features] = encoder.transform(X_train[cat_features]).astype(int)
             X_test[cat_features] = encoder.transform(X_test[cat_features]).astype(int)
@@ -1314,10 +1315,8 @@ def _encode_cat_features(X_train, y_train, X_test, y_test, cat_features, estimat
             encoder = OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1)
             encoder.fit(X_train[cat_features], y_train)
-            # Progressive encoding on train (using y)
-            X_train[cat_features] = encoder.transform(X_train[cat_features], y_train).astype(int)
-            # Static encoding on validation (no y)
+            # OrdinalEncoder doesn't support progressive encoding with target
+            X_train[cat_features] = encoder.transform(X_train[cat_features]).astype(int)
             X_test[cat_features] = encoder.transform(X_test[cat_features]).astype(int)
             return X_train, y_train, X_test, y_test, [], encoder

{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.118
+Version: 1.2.120
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/RECORD RENAMED Viewed

@@ -1,9 +1,9 @@
-upgini/__about__.py,sha256=q02CtZPV2DVtBrD7C_RFfsbI15l7QGmxfUzcCx5UykM,24
+upgini/__about__.py,sha256=C4MPkUjPY8txHqkpCAHzv554Bvc9hUrOFMic1aakSTI,24
 upgini/__init__.py,sha256=LXSfTNU0HnlOkE69VCxkgIKDhWP-JFo_eBQ71OxTr5Y,261
 upgini/ads.py,sha256=nvuRxRx5MHDMgPr9SiU-fsqRdFaBv8p4_v1oqiysKpc,2714
 upgini/dataset.py,sha256=pQ8JQe0cdygD-W9GefJmfE6bnj4EYzXsjlgWdIS9nS8,31578
 upgini/errors.py,sha256=2b_Wbo0OYhLUbrZqdLIx5jBnAsiD1Mcenh-VjR4HCTw,950
-upgini/features_enricher.py,sha256=zGWU8l6dWZwV1fsQD-j9tTKP9X6mUO9HPnwcGrJFS8o,230596
+upgini/features_enricher.py,sha256=Du1S72F55cqyKbHT3VGSPnJO3XicWABFVkA2-G3chdA,231696
 upgini/http.py,sha256=-J_wOpnwVnT0ebPC6sOs6fN3AWtCD0LJLu6nlYmxaqk,44348
 upgini/metadata.py,sha256=VzgtgEbPPtNxTrj9LM5qSDP3DujHwAXqbUSKBjPcb9c,12477
 upgini/metrics.py,sha256=KCPE_apPN-9BIdv6GqASbJVaB_gBcy8wzNApAcyaGo4,46020
@@ -54,7 +54,7 @@ upgini/utils/custom_loss_utils.py,sha256=kieNZYBYZm5ZGBltF1F_jOSF4ea6C29rYuCyiDc
 upgini/utils/cv_utils.py,sha256=w6FQb9nO8BWDx88EF83NpjPLarK4eR4ia0Wg0kLBJC4,3525
 upgini/utils/datetime_utils.py,sha256=UL1ernnawW0LV9mPDpCIc6sFy0HUhFscWVNwfH4V7rI,14366
 upgini/utils/deduplicate_utils.py,sha256=oZEiZeN-A92zwAPysV4OP9hO-niC2RLt-Dhc_hynBTU,11273
-upgini/utils/display_utils.py,sha256=Quzl9hBOruLEMaSkeNKWwI5qrd9Hc5MeGiYG3cOqCzk,11868
+upgini/utils/display_utils.py,sha256=uSG3JwpwCIgRJXsp-8ktuJ0Dh-WFti7IrRLMUfHfoDc,11973
 upgini/utils/email_utils.py,sha256=pZ2vCfNxLIPUhxr0-OlABNXm12jjU44isBk8kGmqQzA,5277
 upgini/utils/fallback_progress_bar.py,sha256=PDaKb8dYpVZaWMroNcOHsTc3pSjgi9mOm0--cOFTwJ0,1074
 upgini/utils/feature_info.py,sha256=6vihytwKma_TlXtTn4l6Aj4kqlOj0ouLy-yWVV6VUw8,7551
@@ -68,13 +68,13 @@ upgini/utils/postal_code_utils.py,sha256=5M0sUqH2DAr33kARWCTXR-ACyzWbjDq_-0mmEml
 upgini/utils/progress_bar.py,sha256=N-Sfdah2Hg8lXP_fV9EfUTXz_PyRt4lo9fAHoUDOoLc,1550
 upgini/utils/psi.py,sha256=vw8QEktXSx29IiMJMxmDeFU_4lJInJBXt_XL5Muekzo,11114
 upgini/utils/sample_utils.py,sha256=xpfYaZ2cYP7I2JrcooVc13QNBFawB81cJRuh38451Q4,15123
-upgini/utils/sklearn_ext.py,sha256=jLJWAKkqQinV15Z4y1ZnsN3c-fKFwXTsprs00COnyVU,49315
+upgini/utils/sklearn_ext.py,sha256=Pcy8sWD6f4YcE5Bu0UmXD4j0ICmXtrT8DJlTArM-_a0,49356
 upgini/utils/sort.py,sha256=8uuHs2nfSMVnz8GgvbOmgMB1PgEIZP1uhmeRFxcwnYw,7039
 upgini/utils/target_utils.py,sha256=GCPn4QeJ83JJ_vyBJ3IhY5fyIRkLC9q9BE59S2FRO1I,10882
 upgini/utils/track_info.py,sha256=G5Lu1xxakg2_TQjKZk4b5SvrHsATTXNVV3NbvWtT8k8,5663
 upgini/utils/ts_utils.py,sha256=26vhC0pN7vLXK6R09EEkMK3Lwb9IVPH7LRdqFIQ3kPs,1383
 upgini/utils/warning_counter.py,sha256=-GRY8EUggEBKODPSuXAkHn9KnEQwAORC0mmz_tim-PM,254
-upgini-1.2.118.dist-info/METADATA,sha256=fEdGQaho0hyf9dXC_fL1AxuJFI46-zCMvm_U_O6hOec,50743
-upgini-1.2.118.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
-upgini-1.2.118.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
-upgini-1.2.118.dist-info/RECORD,,
+upgini-1.2.120.dist-info/METADATA,sha256=KFxeOoYvqFTE347dhf5EmvIskXqWMZvxYWy3AAwOyWI,50743
+upgini-1.2.120.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
+upgini-1.2.120.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
+upgini-1.2.120.dist-info/RECORD,,

{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/WHEEL RENAMED Viewed

File without changes

{upgini-1.2.118.dist-info → upgini-1.2.120.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

upgini 1.2.118__py3-none-any.whl → 1.2.120__py3-none-any.whl

upgini 1.2.118py3-none-any.whl → 1.2.120py3-none-any.whl