PyPI - upgini - Versions diffs - 1.1.267__tar.gz → 1.1.268__tar.gz - Mend

upgini 1.1.267tar.gz → 1.1.268tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (85) hide show

{upgini-1.1.267/src/upgini.egg-info → upgini-1.1.268}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.267
+Version: 1.1.268
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.267 → upgini-1.1.268}/setup.py RENAMED Viewed

@@ -40,7 +40,7 @@ def send_log(msg: str):
 here = Path(__file__).parent.resolve()
-version = "1.1.267"
+version = "1.1.268"
 try:
     send_log(f"Start setup PyLib version {version}")
     setup(

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/features_enricher.py RENAMED Viewed

@@ -3665,7 +3665,7 @@ class FeaturesEnricher(TransformerMixin):
                     if y is not None:
                         with open(f"{tmp_dir}/y.pickle", "wb") as y_file:
                             pickle.dump(sample(y, xy_sample_index), y_file)
-                        if eval_set is not None:
+                        if eval_set:
                             eval_xy_sample_index = rnd.randint(0, _num_samples(eval_set[0][0]), size=1000)
                             with open(f"{tmp_dir}/eval_x.pickle", "wb") as eval_x_file:
                                 pickle.dump(sample(eval_set[0][0], eval_xy_sample_index), eval_x_file)

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/metrics.py RENAMED Viewed

@@ -3,15 +3,16 @@ import re
 from copy import deepcopy
 from typing import Any, Callable, Dict, List, Optional, Tuple, Union
+import catboost
 import numpy as np
 import pandas as pd
 from catboost import CatBoostClassifier, CatBoostRegressor
-import catboost
 from lightgbm import LGBMClassifier, LGBMRegressor
 from numpy import log1p
 from pandas.api.types import is_numeric_dtype
 from sklearn.metrics import check_scoring, get_scorer, make_scorer, roc_auc_score
+from upgini.utils.features_validator import FeaturesValidator
 from upgini.utils.sklearn_ext import cross_validate
 try:
@@ -352,6 +353,7 @@ class EstimatorWrapper:
             "target_type": target_type,
             "groups": groups,
             "text_features": text_features,
+            "logger": logger,
         }
         if estimator is None:
             params = dict()
@@ -414,12 +416,22 @@ class CatBoostWrapper(EstimatorWrapper):
         target_type: ModelTaskType,
         groups: Optional[List[str]] = None,
         text_features: Optional[List[str]] = None,
+        logger: Optional[logging.Logger] = None,
     ):
         super(CatBoostWrapper, self).__init__(
-            estimator, scorer, metric_name, multiplier, cv, target_type, groups=groups, text_features=text_features
+            estimator,
+            scorer,
+            metric_name,
+            multiplier,
+            cv,
+            target_type,
+            groups=groups,
+            text_features=text_features,
+            logger=logger,
         )
         self.cat_features = None
         self.emb_features = None
+        self.exclude_features = []
     def _prepare_to_fit(self, X: pd.DataFrame, y: pd.Series) -> Tuple[pd.DataFrame, np.ndarray, np.ndarray, dict]:
         X, y, groups, params = super()._prepare_to_fit(X, y)
@@ -437,9 +449,7 @@ class CatBoostWrapper(EstimatorWrapper):
                 X, embedding_features = self.group_embeddings(X)
                 params["embedding_features"] = embedding_features
             else:
-                self.logger.info(
-                    f"Embedding features count less than 3, so use them separately: {self.emb_features}"
-                )
+                self.logger.info(f"Embedding features count less than 3, so use them separately: {self.emb_features}")
                 self.emb_features = []
         else:
             self.logger.warning(f"Embedding features are not supported by Catboost version {catboost.__version__}")
@@ -498,6 +508,8 @@ class CatBoostWrapper(EstimatorWrapper):
         return df, [emb_name]
     def _prepare_to_calculate(self, X: pd.DataFrame, y: pd.Series) -> Tuple[pd.DataFrame, np.ndarray, dict]:
+        if self.exclude_features:
+            X = X.drop(columns=self.exclude_features)
         X, y, params = super()._prepare_to_calculate(X, y)
         if self.text_features:
             params["text_features"] = self.text_features
@@ -510,6 +522,26 @@ class CatBoostWrapper(EstimatorWrapper):
         return X, y, params
+    def cross_val_predict(
+        self, X: pd.DataFrame, y: np.ndarray, baseline_score_column: Optional[Any] = None
+    ) -> Optional[float]:
+        try:
+            return super().cross_val_predict(X, y, baseline_score_column)
+        except Exception as e:
+            if "Dictionary size is 0" in e.args[0] and self.text_features:
+                high_cardinality_features = FeaturesValidator.find_high_cardinality(X[self.text_features])
+                self.logger.warning(
+                    "Failed to calculate metrics. Try to remove high cardinality"
+                    f" text features {high_cardinality_features} and retry"
+                )
+                for f in high_cardinality_features:
+                    self.text_features.remove(f)
+                    self.exclude_features.append(f)
+                    X = X.drop(columns=f)
+                return super().cross_val_predict(X, y, baseline_score_column)
+            else:
+                raise e
 class LightGBMWrapper(EstimatorWrapper):
     def __init__(
@@ -522,9 +554,18 @@ class LightGBMWrapper(EstimatorWrapper):
         target_type: ModelTaskType,
         groups: Optional[List[str]] = None,
         text_features: Optional[List[str]] = None,
+        logger: Optional[logging.Logger] = None,
     ):
         super(LightGBMWrapper, self).__init__(
-            estimator, scorer, metric_name, multiplier, cv, target_type, groups=groups, text_features=text_features
+            estimator,
+            scorer,
+            metric_name,
+            multiplier,
+            cv,
+            target_type,
+            groups=groups,
+            text_features=text_features,
+            logger=logger,
         )
         self.cat_features = None
@@ -561,9 +602,18 @@ class OtherEstimatorWrapper(EstimatorWrapper):
         target_type: ModelTaskType,
         groups: Optional[List[str]] = None,
         text_features: Optional[List[str]] = None,
+        logger: Optional[logging.Logger] = None,
     ):
         super(OtherEstimatorWrapper, self).__init__(
-            estimator, scorer, metric_name, multiplier, cv, target_type, groups=groups, text_features=text_features
+            estimator,
+            scorer,
+            metric_name,
+            multiplier,
+            cv,
+            target_type,
+            groups=groups,
+            text_features=text_features,
+            logger=logger,
         )
         self.cat_features = None

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

@@ -1,5 +1,4 @@
 import functools
-import logging
 import numbers
 import time
 import warnings
@@ -313,7 +312,7 @@ def cross_validate(
         return ret
     except Exception:
-        logging.exception("Failed to execute overriden cross_validate. Fallback to original")
+        # logging.exception("Failed to execute overriden cross_validate. Fallback to original")
         raise
         # fit_params["use_best_model"] = False
         # return original_cross_validate(

{upgini-1.1.267 → upgini-1.1.268/src/upgini.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.267
+Version: 1.1.268
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.267 → upgini-1.1.268}/tests/test_target_utils.py RENAMED Viewed

@@ -140,7 +140,7 @@ def test_binary_psi_calculation():
         "target": [0, 0, 0, 0, 0, 1, 1, 1, 1, 1,   0, 0, 0, 0, 0, 1, 0, 1, 0, 1]
     })
     df["date"] = pd.date_range("2020-01-01", "2020-01-20")
-    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE})
+    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE}, logs_enabled=False)
     enricher._validate_PSI(df)
     assert not enricher.warning_counter.has_warnings()
@@ -148,7 +148,7 @@ def test_binary_psi_calculation():
         "target": [0, 0, 0, 0, 0, 1, 1, 1, 1, 1,   0, 0, 0, 0, 0, 0, 0, 1, 0, 1]
     })
     df["date"] = pd.date_range("2020-01-01", "2020-01-20")
-    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE})
+    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE}, logs_enabled=False)
     enricher._validate_PSI(df)
     assert enricher.warning_counter._count == 1
@@ -157,7 +157,7 @@ def test_binary_psi_calculation():
         "eval_set_index": [0] * 10 + [1] * 10,
     })
     df["date"] = pd.date_range("2020-01-01", "2020-01-20")
-    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE})
+    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE}, logs_enabled=False)
     enricher._validate_PSI(df)
     assert enricher.warning_counter._count == 1
@@ -166,7 +166,7 @@ def test_binary_psi_calculation():
         "eval_set_index": [0] * 10 + [1] * 10,
     })
     df["date"] = pd.date_range("2020-01-01", "2020-01-20")
-    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE})
+    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE}, logs_enabled=False)
     enricher._validate_PSI(df)
     assert enricher.warning_counter._count == 2
@@ -177,7 +177,7 @@ def test_regression_psi_calculation():
         "target": random.rand(20)
     })
     df["date"] = pd.date_range("2020-01-01", "2020-01-20")
-    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE})
+    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE}, logs_enabled=False)
     enricher._validate_PSI(df)
     assert enricher.warning_counter._count == 1
@@ -189,6 +189,6 @@ def test_regression_psi_calculation():
         "target": list(values1) + list(values2)
     })
     df["date"] = pd.date_range("2020-01-01", "2020-01-20")
-    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE})
+    enricher = FeaturesEnricher(search_keys={"date": SearchKey.DATE}, logs_enabled=False)
     enricher._validate_PSI(df)
     assert not enricher.warning_counter.has_warnings()

{upgini-1.1.267 → upgini-1.1.268}/LICENSE RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/README.md RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/setup.cfg RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/ads.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/all_operands.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/binary.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/date.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/feature.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/groupby.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/operand.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/unary.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/autofe/vector.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/dataset.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/fingerprint.js RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/http.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/normalizer/phone_normalizer.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/resource_bundle/strings_widget.properties RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/search_task.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/deduplicate_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/display_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/fallback_progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/features_validator.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/ip_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/target_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/track_info.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini/version_validator.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini.egg-info/requires.txt RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/src/upgini.egg-info/top_level.txt RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_autofe_operands.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_binary_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_categorical_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_continuous_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_etalon_validation.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_features_enricher.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_metrics.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.267 → upgini-1.1.268}/tests/test_widget.py RENAMED Viewed

File without changes

upgini 1.1.267__tar.gz → 1.1.268__tar.gz

upgini 1.1.267tar.gz → 1.1.268tar.gz