PyPI - upgini - Versions diffs - 1.1.282a3418.post2__tar.gz → 1.1.283__tar.gz - Mend

upgini 1.1.282a3418.post2tar.gz → 1.1.283tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (64) hide show

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.1.282a3418.post2
+Version: 1.1.283
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/
@@ -839,4 +839,4 @@ Some convenient ways to start contributing are:
 - [More perks for registered users](https://profile.upgini.com)
 <sup>😔 Found mistype or a bug in code snippet? Our bad! <a href="https://github.com/upgini/upgini/issues/new?assignees=&title=readme%2Fbug">
-Please report it here.</a></sup>
+Please report it here</a></sup>

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/README.md RENAMED Viewed

@@ -799,4 +799,4 @@ Some convenient ways to start contributing are:
 - [More perks for registered users](https://profile.upgini.com)
 <sup>😔 Found mistype or a bug in code snippet? Our bad! <a href="https://github.com/upgini/upgini/issues/new?assignees=&title=readme%2Fbug">
-Please report it here.</a></sup>
+Please report it here</a></sup>

upgini-1.1.283/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.1.283"

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/autofe/all_operands.py RENAMED Viewed

@@ -1,7 +1,7 @@
 from typing import Dict
 from upgini.autofe.binary import Add, Divide, Max, Min, Multiply, Sim, Subtract
-from upgini.autofe.date import DateDiff, DateDiffType2, DateListDiff, DateListDiffBounded, DatePercentile
+from upgini.autofe.date import DateDiff, DateDiffType2, DateListDiff, DateListDiffBounded
 from upgini.autofe.groupby import GroupByThenAgg, GroupByThenRank
 from upgini.autofe.operand import Operand
 from upgini.autofe.unary import Abs, Floor, Freq, Log, Residual, Sigmoid, Sqrt, Square
@@ -49,7 +49,6 @@ ALL_OPERANDS: Dict[str, Operand] = {
         DateListDiffBounded(diff_unit="Y", aggregation="count", lower_bound=30, upper_bound=45),
         DateListDiffBounded(diff_unit="Y", aggregation="count", lower_bound=45, upper_bound=60),
         DateListDiffBounded(diff_unit="Y", aggregation="count", lower_bound=60),
-        DatePercentile(),
     ]
 }

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/autofe/date.py RENAMED Viewed

@@ -1,10 +1,9 @@
-from datetime import date
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Optional, Union
 import numpy as np
 import pandas as pd
 from pandas.core.arrays.timedeltas import TimedeltaArray
-from pydantic import BaseModel, validator
+from pydantic import BaseModel
 from upgini.autofe.operand import PandasOperand
@@ -28,17 +27,6 @@ class DateDiff(PandasOperand, DateDiffMixin):
     is_binary = True
     has_symmetry_importance = True
-    def get_params(self) -> Dict[str, Optional[str]]:
-        res = super().get_params()
-        res.update(
-            {
-                "diff_unit": self.diff_unit,
-                "left_unit": self.left_unit,
-                "right_unit": self.right_unit,
-            }
-        )
-        return res
     def calculate_binary(self, left: pd.Series, right: pd.Series) -> pd.Series:
         left = self._convert_to_date(left, self.left_unit)
         right = self._convert_to_date(right, self.right_unit)
@@ -54,17 +42,6 @@ class DateDiffType2(PandasOperand, DateDiffMixin):
     is_binary = True
     has_symmetry_importance = True
-    def get_params(self) -> Dict[str, Optional[str]]:
-        res = super().get_params()
-        res.update(
-            {
-                "diff_unit": self.diff_unit,
-                "left_unit": self.left_unit,
-                "right_unit": self.right_unit,
-            }
-        )
-        return res
     def calculate_binary(self, left: pd.Series, right: pd.Series) -> pd.Series:
         left = self._convert_to_date(left, self.left_unit)
         right = self._convert_to_date(right, self.right_unit)
@@ -87,15 +64,6 @@ class DateListDiff(PandasOperand, DateDiffMixin):
     has_symmetry_importance = True
     aggregation: str
-    def get_params(self) -> Dict[str, Optional[str]]:
-        res = super().get_params()
-        res.update(
-            {
-                "aggregation": self.aggregation,
-            }
-        )
-        return res
     def __init__(self, **data: Any) -> None:
         if "name" not in data:
             data["name"] = f"date_diff_{data.get('aggregation')}"
@@ -148,55 +116,3 @@ class DateListDiffBounded(DateListDiff):
     def _agg(self, x):
         x = x[(x >= (self.lower_bound or -np.inf)) & (x < (self.upper_bound or np.inf))]
         return super()._agg(x)
-class DatePercentile(PandasOperand):
-    name = "date_per"
-    is_binary = True
-    output_type = "float"
-    date_unit: Optional[str] = None
-    zero_month: Optional[int]
-    zero_year: Optional[int]
-    zero_bounds: Optional[List[float]]
-    step: int = 30
-    def get_params(self) -> Dict[str, Optional[str]]:
-        res = super().get_params()
-        res.update(
-            {
-                "date_unit": self.date_unit,
-                "zero_month": self.zero_month,
-                "zero_year": self.zero_year,
-                "zero_bounds": self.zero_bounds,
-                "step": self.step,
-            }
-        )
-        return res
-    @validator("zero_bounds", pre=True)
-    def validate_bounds(cls, value):
-        if value is None or isinstance(value, list):
-            return value
-        elif isinstance(value, str):
-            return value[1:-1].split(", ")
-    def calculate_binary(self, left: pd.Series, right: pd.Series) -> pd.Series:
-        # Assuming that left is a date column, right is a feature column
-        left = pd.to_datetime(left, unit=self.date_unit)
-        months = left.dt.month
-        years = left.dt.year
-        month_diffs = 12 * (years - (self.zero_year or 0)) + (months - (self.zero_month or 0))
-        bounds = month_diffs.apply(
-            lambda d: np.array(self.zero_bounds if self.zero_bounds is not None else []) + d * 30
-        )
-        return right.index.to_series().apply(lambda i: self.__perc(right[i], bounds[i]))
-    def __perc(self, f, bounds):
-        hit = np.where(f >= bounds)[0]
-        if hit.size > 0:
-            return np.max(hit) * 10
-        else:
-            return np.nan

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/autofe/feature.py RENAMED Viewed

@@ -1,6 +1,6 @@
 import hashlib
 import itertools
-from typing import Dict, List, Optional, Set, Tuple, Union
+from typing import Dict, List, Optional, Tuple, Union
 import numpy as np
 import pandas as pd
@@ -16,12 +16,6 @@ class Column:
         self.data = data
         self.calculate_all = calculate_all
-    def get_display_name(self, cache: bool = True, shorten: bool = False, **kwargs) -> str:
-        return self.name
-    def set_op_params(self, params: Dict[str, str]) -> "Column":
-        return self
     def rename_columns(self, mapping: Dict[str, str]) -> "Column":
         self.name = self._unhash(mapping.get(self.name) or self.name)
         return self
@@ -75,30 +69,19 @@ class Feature:
         self.cached_display_name = cached_display_name
         self.alias = alias
-    def set_op_params(self, params: Optional[Dict[str, str]]) -> "Feature":
-        obj_dict = self.op.dict().copy()
-        obj_dict.update(params or {})
-        self.op = self.op.__class__.parse_obj(obj_dict)
+    def set_op_params(self, params: Dict[str, str]) -> "Feature":
         self.op.set_params(params)
-        for child in self.children:
-            child.set_op_params(params)
         return self
     def get_hash(self) -> str:
-        return hashlib.sha256(
-            "_".join([self.op.name] + [ch.get_display_name() for ch in self.children]).encode("utf-8")
-        ).hexdigest()[:8]
+        return hashlib.sha256("_".join([self.op.name] + [ch.name for ch in self.children]).encode("utf-8")).hexdigest()[
+            :8
+        ]
     def set_alias(self, alias: str) -> "Feature":
         self.alias = alias
         return self
-    def get_all_operand_names(self) -> Set[str]:
-        return {self.op.name}.union(
-            {n for f in self.children if isinstance(f, Feature) for n in f.get_all_operand_names()}
-        )
     def rename_columns(self, mapping: Dict[str, str]) -> "Feature":
         for child in self.children:
             child.rename_columns(mapping)

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/autofe/operand.py RENAMED Viewed

@@ -25,10 +25,8 @@ class Operand(BaseModel):
         self.params = params
         return self
-    def get_params(self) -> Dict[str, Optional[str]]:
-        res = {"alias": self.alias}
-        res.update(self.params or {})
-        return res
+    def get_params(self) -> Dict[str, str]:
+        return self.params
 MAIN_COLUMN = "main_column"

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/features_enricher.py RENAMED Viewed

@@ -935,7 +935,7 @@ class FeaturesEnricher(TransformerMixin):
                     metric = wrapper.metric_name
                     multiplier = wrapper.multiplier
-                    # 1 If client features are presented - fit and predict with KFold CatBoost model
+                    # 1 If client features are presented - fit and predict with KFold estimator
                     # on etalon features and calculate baseline metric
                     etalon_metric = None
                     baseline_estimator = None
@@ -962,9 +962,15 @@ class FeaturesEnricher(TransformerMixin):
                         etalon_metric = baseline_estimator.cross_val_predict(
                             fitting_X, y_sorted, self.baseline_score_column
                         )
-                        self.logger.info(f"Baseline {metric} on train client features: {etalon_metric}")
+                        if etalon_metric is None:
+                            self.logger.info(
+                                f"Baseline {metric} on train client features is None (maybe all features was removed)"
+                            )
+                            baseline_estimator = None
+                        else:
+                            self.logger.info(f"Baseline {metric} on train client features: {etalon_metric}")
-                    # 2 Fit and predict with KFold Catboost model on enriched tds
+                    # 2 Fit and predict with KFold estimator on enriched tds
                     # and calculate final metric (and uplift)
                     enriched_estimator = None
                     if set(fitting_X.columns) != set(fitting_enriched_X.columns):
@@ -986,11 +992,15 @@ class FeaturesEnricher(TransformerMixin):
                             has_date=has_date,
                         )
                         enriched_metric = enriched_estimator.cross_val_predict(fitting_enriched_X, enriched_y_sorted)
-                        self.logger.info(f"Enriched {metric} on train combined features: {enriched_metric}")
-                        if etalon_metric is not None:
-                            uplift = (enriched_metric - etalon_metric) * multiplier
-                        else:
+                        if etalon_metric is None:
+                            self.logger.warning(
+                                f"Enriched {metric} on train combined features is None (maybe all features was removed)"
+                            )
+                            enriched_estimator = None
                             uplift = None
+                        else:
+                            self.logger.info(f"Enriched {metric} on train combined features: {enriched_metric}")
+                            uplift = (enriched_metric - etalon_metric) * multiplier
                     else:
                         enriched_metric = None
                         uplift = None
@@ -1442,12 +1452,15 @@ class FeaturesEnricher(TransformerMixin):
             if len(decimal_columns_to_fix) > 0:
                 for col in decimal_columns_to_fix:
                     fitting_eval_X[col] = (
-                        fitting_eval_X[col].astype("string").str.replace(",", ".", regex=False).astype(np.float64)
+                        fitting_eval_X[col]
+                        .astype("string").str
+                        .replace(",", ".", regex=False)
+                        .astype(np.float64)
                     )
                     fitting_enriched_eval_X[col] = (
                         fitting_enriched_eval_X[col]
-                        .astype("string")
-                        .str.replace(",", ".", regex=False)
+                        .astype("string").str
+                        .replace(",", ".", regex=False)
                         .astype(np.float64)
                     )
@@ -3290,7 +3303,7 @@ class FeaturesEnricher(TransformerMixin):
                     description[f"Feature {feature_idx}"] = bc.hashed_name
                     feature_idx += 1
-                description["Function"] = ",".join(sorted(autofe_feature.get_all_operand_names()))
+                description["Function"] = autofe_feature.op.name
                 descriptions.append(description)

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/metrics.py RENAMED Viewed

@@ -298,6 +298,7 @@ class EstimatorWrapper:
         scorer = check_scoring(self.estimator, scoring=self.scorer)
         if baseline_score_column is not None and self.metric_name == "GINI":
+            self.logger.info("Calculate baseline GINI on passed baseline_score_column and target")
             metric = roc_auc_score(y, x[baseline_score_column])
         else:
             cv_results = cross_validate(

{upgini-1.1.282a3418.post2 → upgini-1.1.283}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

@@ -17,7 +17,7 @@ from sklearn.base import clone, is_classifier
 from sklearn.exceptions import FitFailedWarning, NotFittedError
 from sklearn.metrics import check_scoring
 from sklearn.metrics._scorer import _MultimetricScorer
-from sklearn.model_selection import check_cv
+from sklearn.model_selection import StratifiedKFold, check_cv
 from sklearn.utils.fixes import np_version, parse_version
 from sklearn.utils.validation import indexable
@@ -312,25 +312,34 @@ def cross_validate(
                 ret[key] = train_scores_dict[name]
         return ret
-    except Exception:
+    except ValueError as e:
         # logging.exception("Failed to execute overriden cross_validate. Fallback to original")
-        raise
-        # fit_params["use_best_model"] = False
-        # return original_cross_validate(
-        #     estimator,
-        #     X,
-        #     y,
-        #     groups=groups,
-        #     scoring=scoring,
-        #     cv=cv,
-        #     n_jobs=n_jobs,
-        #     verbose=verbose,
-        #     fit_params=fit_params,
-        #     pre_dispatch=pre_dispatch,
-        #     return_train_score=return_train_score,
-        #     return_estimator=return_estimator,
-        #     error_score=error_score,
-        # )
+        if hasattr(e, "args") and len(e.args) > 0 and "Only one class present in y_true" in e.args[0]:
+            # Try change CV to StratifiedKFold and retry
+            if hasattr(cv, "shuffle"):
+                shuffle = cv.shuffle
+            else:
+                shuffle = False
+            if hasattr(cv, "random_state"):
+                random_state = cv.random_state
+            else:
+                random_state = None
+            return cross_validate(
+                estimator,
+                x,
+                y,
+                groups=groups,
+                scoring=scoring,
+                cv=StratifiedKFold(n_splits=cv.get_n_splits(), shuffle=shuffle, random_state=random_state),
+                n_jobs=n_jobs,
+                verbose=verbose,
+                fit_params=fit_params,
+                pre_dispatch=pre_dispatch,
+                return_train_score=return_train_score,
+                return_estimator=return_estimator,
+                error_score=error_score,
+            )
+        raise e
 def _fit_and_score(