PyPI - upgini - Versions diffs - 1.2.118__py3-none-any.whl → 1.2.120a1__py3-none-any.whl - Mend

upgini 1.2.118py3-none-any.whl → 1.2.120a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

upgini/__about__.py +1 -1
upgini/dataset.py +2 -0
upgini/features_enricher.py +67 -38
upgini/http.py +11 -1
upgini/utils/display_utils.py +12 -9
{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/METADATA +1 -1
{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/RECORD +9 -9
{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/WHEEL +0 -0
{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/licenses/LICENSE +0 -0

upgini/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "1.2.~~118~~"
1	+ __version__ = "1.2.120a1"

upgini/dataset.py CHANGED Viewed

@@ -694,7 +694,9 @@ class Dataset:
     def prepare_uploading_file(self, base_path: str) -> str:
         parquet_file_path = f"{base_path}/{self.dataset_name}.parquet"
+        print("Before saving parquet file")
         self.data.to_parquet(path=parquet_file_path, index=False, compression="gzip", engine="fastparquet")
+        print("After saving parquet file")
         uploading_file_size = Path(parquet_file_path).stat().st_size
         self.logger.info(f"Size of prepared uploading file: {uploading_file_size}. {len(self.data)} rows")
         if uploading_file_size > self.MAX_UPLOADING_FILE_SIZE:

upgini/features_enricher.py CHANGED Viewed

@@ -854,7 +854,7 @@ class FeaturesEnricher(TransformerMixin):
                     raise e
             finally:
                 self.logger.info(f"Transform elapsed time: {time.time() - start_time}")
             return result
     def calculate_metrics(
@@ -1741,7 +1741,8 @@ class FeaturesEnricher(TransformerMixin):
             c
             for c in (validated_X.columns.to_list() + generated_features)
             if (not self.fit_select_features or c in set(self.feature_names_).union(self.id_columns or []))
-            and c not in (
+            and c
+            not in (
                 excluding_search_keys
                 + list(self.fit_dropped_features)
                 + [DateTimeSearchKeyConverter.DATETIME_COL, SYSTEM_RECORD_ID, ENTITY_SYSTEM_RECORD_ID]
@@ -2215,7 +2216,8 @@ class FeaturesEnricher(TransformerMixin):
             progress_callback=progress_callback,
             add_fit_system_record_id=True,
         )
-        if enriched_df is None:
+        if enriched_df is None or len(enriched_df) == 0 or len(enriched_df.columns) == 0:
+            self.logger.warning(f"Empty enriched dataframe returned: {enriched_df}, returning None")
             return None
         x_columns = [
@@ -2519,7 +2521,7 @@ if response.status_code == 200:
             if len(self.feature_names_) == 0:
                 msg = self.bundle.get("no_important_features_for_transform")
                 self.__log_warning(msg, show_support_link=True)
-                return X, {c: c for c in X.columns}, [], dict()
+                return None, {}, [], self.search_keys
             self.__validate_search_keys(self.search_keys, self.search_id)
@@ -2527,7 +2529,7 @@ if response.status_code == 200:
                 msg = self.bundle.get("transform_with_paid_features")
                 self.logger.warning(msg)
                 self.__display_support_link(msg)
-                return None, {c: c for c in X.columns}, [], {}
+                return None, {}, [], self.search_keys
             features_meta = self._search_task.get_all_features_metadata_v2()
             online_api_features = [fm.name for fm in features_meta if fm.from_online_api and fm.shap_value > 0]
@@ -2550,7 +2552,7 @@ if response.status_code == 200:
                         self.logger.warning(msg)
                         print(msg)
                         show_request_quote_button()
-                        return None, {c: c for c in X.columns}, [], {}
+                        return None, {}, [], {}
                     else:
                         msg = self.bundle.get("transform_usage_info").format(
                             transform_usage.limit, transform_usage.transformed_rows
@@ -2620,14 +2622,33 @@ if response.status_code == 200:
             # If there are no external features, we don't call backend on transform
             external_features = [fm for fm in features_meta if fm.shap_value > 0 and fm.source != "etalon"]
-            if not external_features:
+            if len(external_features) == 0:
                 self.logger.warning(
                     "No external features found, returning original dataframe"
                     f" with generated important features: {self.feature_names_}"
                 )
-                filtered_columns = [c for c in self.feature_names_ if c in df.columns]
-                self.logger.warning(f"Filtered columns by existance in dataframe: {filtered_columns}")
-                return df[filtered_columns], columns_renaming, generated_features, search_keys
+                df = df.rename(columns=columns_renaming)
+                generated_features = [columns_renaming.get(c, c) for c in generated_features]
+                search_keys = {columns_renaming.get(c, c): t for c, t in search_keys.items()}
+                selecting_columns = self._selecting_input_and_generated_columns(
+                    validated_Xy, generated_features, keep_input, trace_id
+                )
+                self.logger.warning(f"Filtered columns by existance in dataframe: {selecting_columns}")
+                if add_fit_system_record_id:
+                    df = self._add_fit_system_record_id(
+                        df,
+                        search_keys,
+                        SYSTEM_RECORD_ID,
+                        TARGET,
+                        columns_renaming,
+                        self.id_columns,
+                        self.cv,
+                        self.model_task_type,
+                        self.logger,
+                        self.bundle,
+                    )
+                    selecting_columns.append(SYSTEM_RECORD_ID)
+                return df[selecting_columns], columns_renaming, generated_features, search_keys
             # Don't pass all features in backend on transform
             runtime_parameters = self._get_copy_of_runtime_parameters()
@@ -2845,29 +2866,12 @@ if response.status_code == 200:
                 how="left",
             )
-            fit_input_columns = [c.originalName for c in self._search_task.get_file_metadata(trace_id).columns]
-            new_columns_on_transform = [c for c in validated_Xy.columns if c not in fit_input_columns]
-            selected_generated_features = [
-                c for c in generated_features if not self.fit_select_features or c in self.feature_names_
-            ]
-            if keep_input is True:
-                selected_input_columns = [
-                    c
-                    for c in validated_Xy.columns
-                    if not self.fit_select_features
-                    or c in self.feature_names_
-                    or c in new_columns_on_transform
-                    or c in self.search_keys
-                    or c in (self.id_columns or [])
-                    or c in [EVAL_SET_INDEX, TARGET]  # transform for metrics calculation
-                ]
-            else:
-                selected_input_columns = []
-            selecting_columns = selected_input_columns + selected_generated_features
+            selecting_columns = self._selecting_input_and_generated_columns(
+                validated_Xy, generated_features, keep_input, trace_id
+            )
             selecting_columns.extend(
-                c for c in result.columns
+                c
+                for c in result.columns
                 if c in self.feature_names_ and c not in selecting_columns and c not in validated_Xy.columns
             )
             if add_fit_system_record_id:
@@ -2895,6 +2899,35 @@ if response.status_code == 200:
             return result, columns_renaming, generated_features, search_keys
+    def _selecting_input_and_generated_columns(
+        self,
+        validated_Xy: pd.DataFrame,
+        generated_features: list[str],
+        keep_input: bool,
+        trace_id: str,
+    ):
+        fit_input_columns = [c.originalName for c in self._search_task.get_file_metadata(trace_id).columns]
+        new_columns_on_transform = [c for c in validated_Xy.columns if c not in fit_input_columns]
+        selected_generated_features = [
+            c for c in generated_features if not self.fit_select_features or c in self.feature_names_
+        ]
+        if keep_input is True:
+            selected_input_columns = [
+                c
+                for c in validated_Xy.columns
+                if not self.fit_select_features
+                or c in self.feature_names_
+                or c in new_columns_on_transform
+                or c in self.search_keys
+                or c in (self.id_columns or [])
+                or c in [EVAL_SET_INDEX, TARGET]  # transform for metrics calculation
+            ]
+        else:
+            selected_input_columns = []
+        return selected_input_columns + selected_generated_features
     def __validate_search_keys(self, search_keys: dict[str, SearchKey], search_id: str | None = None):
         if (search_keys is None or len(search_keys) == 0) and self.country_code is None:
             if search_id:
@@ -3727,9 +3760,7 @@ if response.status_code == 200:
             eval_types = validated_eval_X.dtypes
             # Find columns with different types
             diff_cols = [
-                (col, x_types[col], eval_types[col])
-                for col in x_types.index
-                if x_types[col] != eval_types[col]
+                (col, x_types[col], eval_types[col]) for col in x_types.index if x_types[col] != eval_types[col]
             ]
             diff_col_names = [col for col, _, _ in diff_cols]
             # print columns with different types
@@ -3815,9 +3846,7 @@ if response.status_code == 200:
         return Xy[X.columns].copy(), Xy[TARGET].copy()
     @staticmethod
-    def _sort_by_system_record_id(
-        X: pd.DataFrame, y: pd.Series, cv: CVType | None
-    ) -> tuple[pd.DataFrame, pd.Series]:
+    def _sort_by_system_record_id(X: pd.DataFrame, y: pd.Series, cv: CVType | None) -> tuple[pd.DataFrame, pd.Series]:
         if cv not in [CVType.time_series, CVType.blocked_time_series]:
             record_id_column = ENTITY_SYSTEM_RECORD_ID if ENTITY_SYSTEM_RECORD_ID in X else SYSTEM_RECORD_ID
             Xy = X.copy()

upgini/http.py CHANGED Viewed

@@ -426,19 +426,26 @@ class _RestClient:
     ) -> SearchTaskResponse:
         api_path = self.INITIAL_SEARCH_URI_FMT_V2
+        print("Before getting track metrics")
         track_metrics = get_track_metrics(self.client_ip, self.client_visitorid)
+        print("After getting track metrics")
         def open_and_send():
             md5_hash = hashlib.md5()
+            print("Before opening file to calculate hashes")
             with open(file_path, "rb") as file:
                 content = file.read()
                 md5_hash.update(content)
                 digest = md5_hash.hexdigest()
                 metadata_with_md5 = pydantic_copy_method(metadata)(update={"checksumMD5": digest})
+            print("After calculating md5")
+            print("Before calculating sha256")
             digest_sha256 = file_hash(file_path)
+            print("After calculating sha256")
             metadata_with_md5 = pydantic_copy_method(metadata_with_md5)(update={"digest": digest_sha256})
+            print("Before opening file to send")
             with open(file_path, "rb") as file:
                 files = {
                     "metadata": (
@@ -466,9 +473,12 @@ class _RestClient:
                     )
                 additional_headers = {self.SEARCH_KEYS_HEADER_NAME: ",".join(self.search_keys_meaning_types(metadata))}
-                return self._send_post_file_req_v2(
+                print("Before sending request for initial search")
+                response = self._send_post_file_req_v2(
                     api_path, files, trace_id=trace_id, additional_headers=additional_headers
                 )
+                print("After sending request")
+                return response
         response = self._with_unauth_retry(open_and_send)
         return SearchTaskResponse(response)

upgini/utils/display_utils.py CHANGED Viewed

@@ -269,19 +269,22 @@ def make_html_report(
                 if search_keys is not None
                 else ""
             }
-            {"<h3>All relevant features. Accuracy after enrichment</h3>" + make_table(metrics_df)
-             if metrics_df is not None
-             else ""
+            {
+                "<h3>All relevant features. Accuracy after enrichment</h3>" + make_table(metrics_df)
+                if metrics_df is not None
+                else ""
             }
-            {"<h3>Relevant data sources</h3>" + make_table(relevant_datasources_df)
-             if len(relevant_datasources_df) > 0
-             else ""
+            {
+                "<h3>Relevant data sources</h3>" + make_table(relevant_datasources_df)
+                if len(relevant_datasources_df) > 0
+                else ""
             }
             <h3>All relevant features. Listing ({len(relevant_features_df)} items)</h3>
             {make_table(relevant_features_df, wrap_long_string=25)}
-            {"<h3>Description of AutoFE feature names</h3>" + make_table(autofe_descriptions_df, wrap_long_string=25)
-             if autofe_descriptions_df is not None
-             else ""
+            {
+                "<h3>Description of AutoFE feature names</h3>" + make_table(autofe_descriptions_df, wrap_long_string=25)
+                if autofe_descriptions_df is not None and len(autofe_descriptions_df) > 0
+                else ""
             }
             <p>To buy found data sources, please contact: <a href='mailto:sales@upgini.com'>sales@upgini.com</a></p>
             <p>Best regards, </br><b>Upgini Team</b></p>

{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.118
+Version: 1.2.120a1
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/RECORD RENAMED Viewed

@@ -1,10 +1,10 @@
-upgini/__about__.py,sha256=q02CtZPV2DVtBrD7C_RFfsbI15l7QGmxfUzcCx5UykM,24
+upgini/__about__.py,sha256=J4ou6xfTwIgzTXi7mnxG9WD4vn49_cFGZVdB8RZEIPM,26
 upgini/__init__.py,sha256=LXSfTNU0HnlOkE69VCxkgIKDhWP-JFo_eBQ71OxTr5Y,261
 upgini/ads.py,sha256=nvuRxRx5MHDMgPr9SiU-fsqRdFaBv8p4_v1oqiysKpc,2714
-upgini/dataset.py,sha256=pQ8JQe0cdygD-W9GefJmfE6bnj4EYzXsjlgWdIS9nS8,31578
+upgini/dataset.py,sha256=9xYeqp-Ti3-QcsucyxlDFOHQef6ZQsBX7bOZMCyT2rM,31665
 upgini/errors.py,sha256=2b_Wbo0OYhLUbrZqdLIx5jBnAsiD1Mcenh-VjR4HCTw,950
-upgini/features_enricher.py,sha256=zGWU8l6dWZwV1fsQD-j9tTKP9X6mUO9HPnwcGrJFS8o,230596
-upgini/http.py,sha256=-J_wOpnwVnT0ebPC6sOs6fN3AWtCD0LJLu6nlYmxaqk,44348
+upgini/features_enricher.py,sha256=C9pZKusj_QnG9coPVAa1a_88VC-lLR4Tre4uC10yt04,231852
+upgini/http.py,sha256=CzDgSrYH6-R14G0d8xPyLalb-w42fjj9XOHVXh7leyM,44835
 upgini/metadata.py,sha256=VzgtgEbPPtNxTrj9LM5qSDP3DujHwAXqbUSKBjPcb9c,12477
 upgini/metrics.py,sha256=KCPE_apPN-9BIdv6GqASbJVaB_gBcy8wzNApAcyaGo4,46020
 upgini/search_task.py,sha256=SAiUd1AytbA2Q6PSnnztr7oTRKpud1wQZ5YtKjsmQHU,18256
@@ -54,7 +54,7 @@ upgini/utils/custom_loss_utils.py,sha256=kieNZYBYZm5ZGBltF1F_jOSF4ea6C29rYuCyiDc
 upgini/utils/cv_utils.py,sha256=w6FQb9nO8BWDx88EF83NpjPLarK4eR4ia0Wg0kLBJC4,3525
 upgini/utils/datetime_utils.py,sha256=UL1ernnawW0LV9mPDpCIc6sFy0HUhFscWVNwfH4V7rI,14366
 upgini/utils/deduplicate_utils.py,sha256=oZEiZeN-A92zwAPysV4OP9hO-niC2RLt-Dhc_hynBTU,11273
-upgini/utils/display_utils.py,sha256=Quzl9hBOruLEMaSkeNKWwI5qrd9Hc5MeGiYG3cOqCzk,11868
+upgini/utils/display_utils.py,sha256=uSG3JwpwCIgRJXsp-8ktuJ0Dh-WFti7IrRLMUfHfoDc,11973
 upgini/utils/email_utils.py,sha256=pZ2vCfNxLIPUhxr0-OlABNXm12jjU44isBk8kGmqQzA,5277
 upgini/utils/fallback_progress_bar.py,sha256=PDaKb8dYpVZaWMroNcOHsTc3pSjgi9mOm0--cOFTwJ0,1074
 upgini/utils/feature_info.py,sha256=6vihytwKma_TlXtTn4l6Aj4kqlOj0ouLy-yWVV6VUw8,7551
@@ -74,7 +74,7 @@ upgini/utils/target_utils.py,sha256=GCPn4QeJ83JJ_vyBJ3IhY5fyIRkLC9q9BE59S2FRO1I,
 upgini/utils/track_info.py,sha256=G5Lu1xxakg2_TQjKZk4b5SvrHsATTXNVV3NbvWtT8k8,5663
 upgini/utils/ts_utils.py,sha256=26vhC0pN7vLXK6R09EEkMK3Lwb9IVPH7LRdqFIQ3kPs,1383
 upgini/utils/warning_counter.py,sha256=-GRY8EUggEBKODPSuXAkHn9KnEQwAORC0mmz_tim-PM,254
-upgini-1.2.118.dist-info/METADATA,sha256=fEdGQaho0hyf9dXC_fL1AxuJFI46-zCMvm_U_O6hOec,50743
-upgini-1.2.118.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
-upgini-1.2.118.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
-upgini-1.2.118.dist-info/RECORD,,
+upgini-1.2.120a1.dist-info/METADATA,sha256=Ai4c0bpRvXFgEYB78zVltQNbWv6HpPdc96IAw85kPJI,50745
+upgini-1.2.120a1.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
+upgini-1.2.120a1.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
+upgini-1.2.120a1.dist-info/RECORD,,

{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/WHEEL RENAMED Viewed

File without changes

{upgini-1.2.118.dist-info → upgini-1.2.120a1.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

upgini 1.2.118__py3-none-any.whl → 1.2.120a1__py3-none-any.whl

upgini 1.2.118py3-none-any.whl → 1.2.120a1py3-none-any.whl