PyPI - upgini - Versions diffs - 1.1.280.dev1__tar.gz → 1.1.282__tar.gz - Mend

upgini 1.1.280.dev1tar.gz → 1.1.282tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (64) hide show

{upgini-1.1.280.dev1 → upgini-1.1.282}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.1.280.dev1
+Version: 1.1.282
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/
@@ -839,4 +839,4 @@ Some convenient ways to start contributing are:
 - [More perks for registered users](https://profile.upgini.com)
 <sup>😔 Found mistype or a bug in code snippet? Our bad! <a href="https://github.com/upgini/upgini/issues/new?assignees=&title=readme%2Fbug">
-Please report it here.</a></sup>
+Please report it here</a></sup>

{upgini-1.1.280.dev1 → upgini-1.1.282}/README.md RENAMED Viewed

@@ -799,4 +799,4 @@ Some convenient ways to start contributing are:
 - [More perks for registered users](https://profile.upgini.com)
 <sup>😔 Found mistype or a bug in code snippet? Our bad! <a href="https://github.com/upgini/upgini/issues/new?assignees=&title=readme%2Fbug">
-Please report it here.</a></sup>
+Please report it here</a></sup>

upgini-1.1.282/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.1.282"

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/features_enricher.py RENAMED Viewed

@@ -930,6 +930,7 @@ class FeaturesEnricher(TransformerMixin):
                         scoring,
                         groups=groups,
                         text_features=self.generate_features,
+                        has_date=has_date,
                     )
                     metric = wrapper.metric_name
                     multiplier = wrapper.multiplier
@@ -956,6 +957,7 @@ class FeaturesEnricher(TransformerMixin):
                             add_params=custom_loss_add_params,
                             groups=groups,
                             text_features=self.generate_features,
+                            has_date=has_date,
                         )
                         etalon_metric = baseline_estimator.cross_val_predict(
                             fitting_X, y_sorted, self.baseline_score_column
@@ -981,6 +983,7 @@ class FeaturesEnricher(TransformerMixin):
                             add_params=custom_loss_add_params,
                             groups=groups,
                             text_features=self.generate_features,
+                            has_date=has_date,
                         )
                         enriched_metric = enriched_estimator.cross_val_predict(fitting_enriched_X, enriched_y_sorted)
                         self.logger.info(f"Enriched {metric} on train combined features: {enriched_metric}")
@@ -1333,8 +1336,6 @@ class FeaturesEnricher(TransformerMixin):
         excluding_search_keys = list(search_keys.keys())
         if search_keys_for_metrics is not None and len(search_keys_for_metrics) > 0:
             excluding_search_keys = [sk for sk in excluding_search_keys if sk not in search_keys_for_metrics]
-        meta = self._search_task.get_all_features_metadata_v2()
-        zero_importance_client_features = [m.name for m in meta if m.source == "etalon" and m.shap_value == 0.0]
         client_features = [
             c
@@ -1344,7 +1345,6 @@ class FeaturesEnricher(TransformerMixin):
                 excluding_search_keys
                 + list(self.fit_dropped_features)
                 + [DateTimeSearchKeyConverter.DATETIME_COL, SYSTEM_RECORD_ID]
-                + zero_importance_client_features
             )
         ]
@@ -3720,7 +3720,7 @@ class FeaturesEnricher(TransformerMixin):
                     if y is not None:
                         with open(f"{tmp_dir}/y.pickle", "wb") as y_file:
                             pickle.dump(sample(y, xy_sample_index), y_file)
-                        if eval_set:
+                        if eval_set and _num_samples(eval_set[0][0]) > 0:
                             eval_xy_sample_index = rnd.randint(0, _num_samples(eval_set[0][0]), size=1000)
                             with open(f"{tmp_dir}/eval_x.pickle", "wb") as eval_x_file:
                                 pickle.dump(sample(eval_set[0][0], eval_xy_sample_index), eval_x_file)

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/metrics.py RENAMED Viewed

@@ -298,6 +298,7 @@ class EstimatorWrapper:
         scorer = check_scoring(self.estimator, scoring=self.scorer)
         if baseline_score_column is not None and self.metric_name == "GINI":
+            self.logger.info("Calculate baseline GINI on passed baseline_score_column and target")
             metric = roc_auc_score(y, x[baseline_score_column])
         else:
             cv_results = cross_validate(
@@ -314,9 +315,17 @@ class EstimatorWrapper:
             metrics_by_fold = cv_results["test_score"]
             self.cv_estimators = cv_results["estimator"]
+            self.check_fold_metrics(metrics_by_fold)
             metric = np.mean(metrics_by_fold) * self.multiplier
         return self.post_process_metric(metric)
+    def check_fold_metrics(self, metrics_by_fold: List[float]):
+        first_metric_sign = 1 if metrics_by_fold[0] >= 0 else -1
+        for metric in metrics_by_fold[1:]:
+            if first_metric_sign * metric < 0:
+                self.logger.warning(f"Sign of metrics differs between folds: {metrics_by_fold}")
     def post_process_metric(self, metric: float) -> float:
         if self.metric_name == "GINI":
             metric = 2 * metric - 1
@@ -346,6 +355,7 @@ class EstimatorWrapper:
         text_features: Optional[List[str]] = None,
         add_params: Optional[Dict[str, Any]] = None,
         groups: Optional[List[str]] = None,
+        has_date: Optional[bool] = None,
     ) -> EstimatorWrapper:
         scorer, metric_name, multiplier = _get_scorer(target_type, scoring)
         kwargs = {
@@ -360,6 +370,7 @@ class EstimatorWrapper:
         }
         if estimator is None:
             params = dict()
+            params["has_time"] = has_date
             # if metric_name.upper() in SUPPORTED_CATBOOST_METRICS:
             #     params["eval_metric"] = SUPPORTED_CATBOOST_METRICS[metric_name.upper()]
             if target_type == ModelTaskType.MULTICLASS:
@@ -475,7 +486,7 @@ class CatBoostWrapper(EstimatorWrapper):
         # Find rest categorical features
         self.cat_features = _get_cat_features(x, self.text_features, embedding_features)
-        x = fill_na_cat_features(x, self.cat_features)
+        # x = fill_na_cat_features(x, self.cat_features)
         unique_cat_features = []
         for name in self.cat_features:
             # Remove constant categorical features
@@ -525,7 +536,7 @@ class CatBoostWrapper(EstimatorWrapper):
             x, emb_columns = self.group_embeddings(x)
             params["embedding_features"] = emb_columns
         if self.cat_features:
-            x = fill_na_cat_features(x, self.cat_features)
+            # x = fill_na_cat_features(x, self.cat_features)
             params["cat_features"] = self.cat_features
         return x, y, params

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/display_utils.py RENAMED Viewed

@@ -9,6 +9,7 @@ from typing import Callable, List, Optional
 import pandas as pd
 from xhtml2pdf import pisa
+from upgini.__about__ import __version__
 def ipython_available() -> bool:
@@ -166,12 +167,12 @@ def make_html_report(
                         /*-pdf-frame-border: 1;*/
                     }}
                     @frame content_frame {{
-                        left: 10pt; width: 574pt; top: 50pt; height: 752pt;
+                        left: 10pt; width: 574pt; top: 50pt; height: 742pt;
                         /*-pdf-frame-border: 1;*/
                     }}
                     @frame footer_frame {{
                         -pdf-frame-content: footer_content;
-                        left: 10pt; width: 574pt; top: 802pt; height: 30pt;
+                        left: 10pt; width: 574pt; top: 802pt; height: 40pt;
                         /*-pdf-frame-border: 1;*/
                     }}
                 }}
@@ -234,7 +235,8 @@ def make_html_report(
             <div id="header_content">UPGINI</div>
             <div id="footer_content">
                 © Upgini</br>
-                sales@upgini.com
+                sales@upgini.com</br>
+                Launched by version {__version__}
             </div>
             <h1>Data search report</h1>
@@ -257,7 +259,7 @@ def make_html_report(
             }
             <h3>Relevant data sources</h3>
             {make_table(relevant_datasources_df)}
-            <h3>All relevant features. Listing</h3>
+            <h3>All relevant features. Listing ({len(relevant_features_df)} items)</h3>
             {make_table(relevant_features_df, wrap_long_string=25)}
             {"<h3>Description of AutoFE feature names</h3>" + make_table(autofe_descriptions_df, wrap_long_string=25)
              if autofe_descriptions_df is not None

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

@@ -17,7 +17,7 @@ from sklearn.base import clone, is_classifier
 from sklearn.exceptions import FitFailedWarning, NotFittedError
 from sklearn.metrics import check_scoring
 from sklearn.metrics._scorer import _MultimetricScorer
-from sklearn.model_selection import check_cv
+from sklearn.model_selection import StratifiedKFold, check_cv
 from sklearn.utils.fixes import np_version, parse_version
 from sklearn.utils.validation import indexable
@@ -312,25 +312,34 @@ def cross_validate(
                 ret[key] = train_scores_dict[name]
         return ret
-    except Exception:
+    except ValueError as e:
         # logging.exception("Failed to execute overriden cross_validate. Fallback to original")
-        raise
-        # fit_params["use_best_model"] = False
-        # return original_cross_validate(
-        #     estimator,
-        #     X,
-        #     y,
-        #     groups=groups,
-        #     scoring=scoring,
-        #     cv=cv,
-        #     n_jobs=n_jobs,
-        #     verbose=verbose,
-        #     fit_params=fit_params,
-        #     pre_dispatch=pre_dispatch,
-        #     return_train_score=return_train_score,
-        #     return_estimator=return_estimator,
-        #     error_score=error_score,
-        # )
+        if hasattr(e, "args") and len(e.args) > 0 and "Only one class present in y_true" in e.args[0]:
+            # Try change CV to StratifiedKFold and retry
+            if hasattr(cv, "shuffle"):
+                shuffle = cv.shuffle
+            else:
+                shuffle = False
+            if hasattr(cv, "random_state"):
+                random_state = cv.random_state
+            else:
+                random_state = None
+            return cross_validate(
+                estimator,
+                x,
+                y,
+                groups=groups,
+                scoring=scoring,
+                cv=StratifiedKFold(n_splits=cv.get_n_splits(), shuffle=shuffle, random_state=random_state),
+                n_jobs=n_jobs,
+                verbose=verbose,
+                fit_params=fit_params,
+                pre_dispatch=pre_dispatch,
+                return_train_score=return_train_score,
+                return_estimator=return_estimator,
+                error_score=error_score,
+            )
+        raise e
 def _fit_and_score(

upgini-1.1.280.dev1/src/upgini/__about__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- __version__ = "1.1.280.dev1"

{upgini-1.1.280.dev1 → upgini-1.1.282}/.gitignore RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/LICENSE RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/ads.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/all_operands.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/binary.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/date.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/feature.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/groupby.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/operand.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/unary.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/autofe/vector.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/dataset.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/http.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/normalizer/phone_normalizer.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/resource_bundle/strings_widget.properties RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/search_task.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/deduplicate_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/fallback_progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/features_validator.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/ip_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/target_utils.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/track_info.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.1.280.dev1 → upgini-1.1.282}/src/upgini/version_validator.py RENAMED Viewed

File without changes

upgini 1.1.280.dev1__tar.gz → 1.1.282__tar.gz

Potentially problematic release.

upgini 1.1.280.dev1tar.gz → 1.1.282tar.gz