PyPI - upgini - Versions diffs - 1.1.280.dev0__tar.gz → 1.1.281__tar.gz - Mend

upgini 1.1.280.dev0tar.gz → 1.1.281tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (64) hide show

{upgini-1.1.280.dev0 → upgini-1.1.281}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.1.280.dev0
+Version: 1.1.281
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

upgini-1.1.281/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.1.281"

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/dataset.py RENAMED Viewed

@@ -246,7 +246,7 @@ class Dataset:  # (pd.DataFrame):
         if len(columns_to_fix) > 0:
             self.logger.warning(f"Convert strings with decimal comma to float: {columns_to_fix}")
             for col in columns_to_fix:
-                self.data[col] = self.data[col].astype("string").str.replace(",", ".").astype(np.float64)
+                self.data[col] = self.data[col].astype("string").str.replace(",", ".", regex=False).astype(np.float64)
     @staticmethod
     def _ip_to_int(ip: Optional[_BaseAddress]) -> Optional[int]:

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/features_enricher.py RENAMED Viewed

@@ -930,6 +930,7 @@ class FeaturesEnricher(TransformerMixin):
                         scoring,
                         groups=groups,
                         text_features=self.generate_features,
+                        has_date=has_date,
                     )
                     metric = wrapper.metric_name
                     multiplier = wrapper.multiplier
@@ -956,6 +957,7 @@ class FeaturesEnricher(TransformerMixin):
                             add_params=custom_loss_add_params,
                             groups=groups,
                             text_features=self.generate_features,
+                            has_date=has_date,
                         )
                         etalon_metric = baseline_estimator.cross_val_predict(
                             fitting_X, y_sorted, self.baseline_score_column
@@ -981,6 +983,7 @@ class FeaturesEnricher(TransformerMixin):
                             add_params=custom_loss_add_params,
                             groups=groups,
                             text_features=self.generate_features,
+                            has_date=has_date,
                         )
                         enriched_metric = enriched_estimator.cross_val_predict(fitting_enriched_X, enriched_y_sorted)
                         self.logger.info(f"Enriched {metric} on train combined features: {enriched_metric}")
@@ -1333,8 +1336,6 @@ class FeaturesEnricher(TransformerMixin):
         excluding_search_keys = list(search_keys.keys())
         if search_keys_for_metrics is not None and len(search_keys_for_metrics) > 0:
             excluding_search_keys = [sk for sk in excluding_search_keys if sk not in search_keys_for_metrics]
-        meta = self._search_task.get_all_features_metadata_v2()
-        zero_importance_client_features = [m for m in meta if m.source == "etalon" and m.shap_value == 0.0]
         client_features = [
             c
@@ -1344,7 +1345,6 @@ class FeaturesEnricher(TransformerMixin):
                 excluding_search_keys
                 + list(self.fit_dropped_features)
                 + [DateTimeSearchKeyConverter.DATETIME_COL, SYSTEM_RECORD_ID]
-                + zero_importance_client_features
             )
         ]
@@ -1403,9 +1403,9 @@ class FeaturesEnricher(TransformerMixin):
         if len(decimal_columns_to_fix) > 0:
             self.logger.warning(f"Convert strings with decimal comma to float: {decimal_columns_to_fix}")
             for col in decimal_columns_to_fix:
-                fitting_X[col] = fitting_X[col].astype("string").str.replace(",", ".").astype(np.float64)
+                fitting_X[col] = fitting_X[col].astype("string").str.replace(",", ".", regex=False).astype(np.float64)
                 fitting_enriched_X[col] = (
-                    fitting_enriched_X[col].astype("string").str.replace(",", ".").astype(np.float64)
+                    fitting_enriched_X[col].astype("string").str.replace(",", ".", regex=False).astype(np.float64)
                 )
         fitting_eval_set_dict = dict()
@@ -1441,9 +1441,17 @@ class FeaturesEnricher(TransformerMixin):
             # Correct string features with decimal commas
             if len(decimal_columns_to_fix) > 0:
                 for col in decimal_columns_to_fix:
-                    fitting_eval_X[col] = fitting_eval_X[col].astype("string").str.replace(",", ".").astype(np.float64)
+                    fitting_eval_X[col] = (
+                        fitting_eval_X[col]
+                        .astype("string").str
+                        .replace(",", ".", regex=False)
+                        .astype(np.float64)
+                    )
                     fitting_enriched_eval_X[col] = (
-                        fitting_enriched_eval_X[col].astype("string").str.replace(",", ".").astype(np.float64)
+                        fitting_enriched_eval_X[col]
+                        .astype("string").str
+                        .replace(",", ".", regex=False)
+                        .astype(np.float64)
                     )
             fitting_eval_set_dict[idx] = (
@@ -3712,7 +3720,7 @@ class FeaturesEnricher(TransformerMixin):
                     if y is not None:
                         with open(f"{tmp_dir}/y.pickle", "wb") as y_file:
                             pickle.dump(sample(y, xy_sample_index), y_file)
-                        if eval_set:
+                        if eval_set and _num_samples(eval_set[0][0]) > 0:
                             eval_xy_sample_index = rnd.randint(0, _num_samples(eval_set[0][0]), size=1000)
                             with open(f"{tmp_dir}/eval_x.pickle", "wb") as eval_x_file:
                                 pickle.dump(sample(eval_set[0][0], eval_xy_sample_index), eval_x_file)

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/metrics.py RENAMED Viewed

@@ -314,9 +314,17 @@ class EstimatorWrapper:
             metrics_by_fold = cv_results["test_score"]
             self.cv_estimators = cv_results["estimator"]
+            self.check_fold_metrics(metrics_by_fold)
             metric = np.mean(metrics_by_fold) * self.multiplier
         return self.post_process_metric(metric)
+    def check_fold_metrics(self, metrics_by_fold: List[float]):
+        first_metric_sign = 1 if metrics_by_fold[0] >= 0 else -1
+        for metric in metrics_by_fold[1:]:
+            if first_metric_sign * metric < 0:
+                self.logger.warning(f"Sign of metrics differs between folds: {metrics_by_fold}")
     def post_process_metric(self, metric: float) -> float:
         if self.metric_name == "GINI":
             metric = 2 * metric - 1
@@ -346,6 +354,7 @@ class EstimatorWrapper:
         text_features: Optional[List[str]] = None,
         add_params: Optional[Dict[str, Any]] = None,
         groups: Optional[List[str]] = None,
+        has_date: Optional[bool] = None,
     ) -> EstimatorWrapper:
         scorer, metric_name, multiplier = _get_scorer(target_type, scoring)
         kwargs = {
@@ -360,6 +369,7 @@ class EstimatorWrapper:
         }
         if estimator is None:
             params = dict()
+            params["has_time"] = has_date
             # if metric_name.upper() in SUPPORTED_CATBOOST_METRICS:
             #     params["eval_metric"] = SUPPORTED_CATBOOST_METRICS[metric_name.upper()]
             if target_type == ModelTaskType.MULTICLASS:
@@ -475,7 +485,7 @@ class CatBoostWrapper(EstimatorWrapper):
         # Find rest categorical features
         self.cat_features = _get_cat_features(x, self.text_features, embedding_features)
-        x = fill_na_cat_features(x, self.cat_features)
+        # x = fill_na_cat_features(x, self.cat_features)
         unique_cat_features = []
         for name in self.cat_features:
             # Remove constant categorical features
@@ -525,7 +535,7 @@ class CatBoostWrapper(EstimatorWrapper):
             x, emb_columns = self.group_embeddings(x)
             params["embedding_features"] = emb_columns
         if self.cat_features:
-            x = fill_na_cat_features(x, self.cat_features)
+            # x = fill_na_cat_features(x, self.cat_features)
             params["cat_features"] = self.cat_features
         return x, y, params

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/display_utils.py RENAMED Viewed

@@ -9,6 +9,7 @@ from typing import Callable, List, Optional
 import pandas as pd
 from xhtml2pdf import pisa
+from upgini.__about__ import __version__
 def ipython_available() -> bool:
@@ -166,12 +167,12 @@ def make_html_report(
                         /*-pdf-frame-border: 1;*/
                     }}
                     @frame content_frame {{
-                        left: 10pt; width: 574pt; top: 50pt; height: 752pt;
+                        left: 10pt; width: 574pt; top: 50pt; height: 742pt;
                         /*-pdf-frame-border: 1;*/
                     }}
                     @frame footer_frame {{
                         -pdf-frame-content: footer_content;
-                        left: 10pt; width: 574pt; top: 802pt; height: 30pt;
+                        left: 10pt; width: 574pt; top: 802pt; height: 40pt;
                         /*-pdf-frame-border: 1;*/
                     }}
                 }}
@@ -234,7 +235,8 @@ def make_html_report(
             <div id="header_content">UPGINI</div>
             <div id="footer_content">
                 © Upgini</br>
-                sales@upgini.com
+                sales@upgini.com</br>
+                Launched by version {__version__}
             </div>
             <h1>Data search report</h1>
@@ -257,7 +259,7 @@ def make_html_report(
             }
             <h3>Relevant data sources</h3>
             {make_table(relevant_datasources_df)}
-            <h3>All relevant features. Listing</h3>
+            <h3>All relevant features. Listing ({len(relevant_features_df)} items)</h3>
             {make_table(relevant_features_df, wrap_long_string=25)}
             {"<h3>Description of AutoFE feature names</h3>" + make_table(autofe_descriptions_df, wrap_long_string=25)
              if autofe_descriptions_df is not None

upgini-1.1.280.dev0/src/upgini/__about__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- __version__ = "1.1.280.dev0"

{upgini-1.1.280.dev0 → upgini-1.1.281}/.gitignore RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/LICENSE RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/README.md RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/ads.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/all_operands.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/binary.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/date.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/feature.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/groupby.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/operand.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/unary.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/autofe/vector.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/http.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/normalizer/phone_normalizer.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/resource_bundle/strings_widget.properties RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/search_task.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/deduplicate_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/fallback_progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/features_validator.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/ip_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/target_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/track_info.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev0 → upgini-1.1.281}/src/upgini/version_validator.py RENAMED Viewed

File without changes

upgini 1.1.280.dev0__tar.gz → 1.1.281__tar.gz

Potentially problematic release.

upgini 1.1.280.dev0tar.gz → 1.1.281tar.gz