PyPI - upgini - Versions diffs - 1.2.113a3974.dev1__py3-none-any.whl → 1.2.114a1__py3-none-any.whl - Mend

upgini 1.2.113a3974.dev1py3-none-any.whl → 1.2.114a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

upgini/__about__.py +1 -1
upgini/autofe/date.py +8 -4
upgini/dataset.py +3 -1
upgini/features_enricher.py +462 -136
upgini/metadata.py +1 -0
upgini/metrics.py +6 -2
upgini/resource_bundle/strings.properties +4 -1
upgini/sampler/base.py +3 -1
upgini/sampler/random_under_sampler.py +18 -8
upgini/utils/deduplicate_utils.py +43 -7
upgini/utils/feature_info.py +5 -0
upgini/utils/psi.py +294 -0
{upgini-1.2.113a3974.dev1.dist-info → upgini-1.2.114a1.dist-info}/METADATA +31 -17
{upgini-1.2.113a3974.dev1.dist-info → upgini-1.2.114a1.dist-info}/RECORD +16 -15
{upgini-1.2.113a3974.dev1.dist-info → upgini-1.2.114a1.dist-info}/WHEEL +1 -1
{upgini-1.2.113a3974.dev1.dist-info → upgini-1.2.114a1.dist-info}/licenses/LICENSE +0 -0

upgini/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "1.2.~~113a3974.dev1~~"
1	+ __version__ = "1.2.114a1"

upgini/autofe/date.py CHANGED Viewed

@@ -244,7 +244,8 @@ class DateListDiffBounded(DateListDiff, ParametrizedOperator):
 class DatePercentileBase(PandasOperator, abc.ABC):
     is_binary: bool = True
-    output_type: Optional[str] = "float"
+    is_categorical: bool = True
+    output_type: Optional[str] = "category"
     date_unit: Optional[str] = None
@@ -254,7 +255,12 @@ class DatePercentileBase(PandasOperator, abc.ABC):
         bounds = self._get_bounds(left)
-        return right.index.to_series().apply(lambda i: self._perc(right[i], bounds[i]))
+        return (
+            right.index.to_series()
+            .apply(lambda i: self._perc(right[i], bounds[i]))
+            .astype(pd.Int64Dtype())
+            .astype("category")
+        )
     @abc.abstractmethod
     def _get_bounds(self, date_col: pd.Series) -> pd.Series:
@@ -318,8 +324,6 @@ class DatePercentile(DatePercentileBase):
 class DatePercentileMethod2(DatePercentileBase):
     name: str = "date_per_method2"
-    is_categorical: bool = True
-    output_type: Optional[str] = "category"
     def _get_bounds(self, date_col: pd.Series) -> pd.Series:
         pass

upgini/dataset.py CHANGED Viewed

@@ -343,7 +343,9 @@ class Dataset:
             if col in mandatory_columns:
                 self.data["valid_mandatory"] = self.data["valid_mandatory"] & self.data[f"{col}_is_valid"]
-            invalid_values = list(set(self.data.loc[self.data[f"{col}_is_valid"] == 0, col].head().values))
+            # Use stable pandas API across versions: Series.unique keeps order
+            # and collapses multiple NaNs into a single NaN
+            invalid_values = self.data.loc[self.data[f"{col}_is_valid"] == 0, col].unique().tolist()[:5]
             valid_share = self.data[f"{col}_is_valid"].sum() / nrows
             original_col_name = self.columns_renaming[col]
             validation_stats[original_col_name] = {}

upgini 1.2.113a3974.dev1__py3-none-any.whl → 1.2.114a1__py3-none-any.whl

upgini 1.2.113a3974.dev1py3-none-any.whl → 1.2.114a1py3-none-any.whl