PyPI - upgini - Versions diffs - 1.2.121a3__tar.gz → 1.2.122a2__tar.gz - Mend

upgini 1.2.121a3tar.gz → 1.2.122a2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (82) hide show

{upgini-1.2.121a3 → upgini-1.2.122a2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.121a3
+Version: 1.2.122a2
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

upgini-1.2.122a2/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.2.122a2"

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/feature.py RENAMED Viewed

@@ -42,6 +42,9 @@ class Column:
     def get_display_name(self, cache: bool = True, shorten: bool = False, **kwargs) -> str:
         return self.get_columns(**kwargs)[0]
+    def reset_display_indices(self) -> "Column":
+        return self
     def _unhash(self, feature_name: str) -> str:
         last_component_idx = feature_name.rfind("_")
         if not feature_name.startswith("f_"):
@@ -142,6 +145,7 @@ class Feature:
         )
     def rename_columns(self, mapping: Dict[str, str]) -> "Feature":
+        self.op.rename_columns(mapping)
         for child in self.children:
             child.rename_columns(mapping)
         self.cached_display_name = None
@@ -212,6 +216,13 @@ class Feature:
         self.cached_display_name = None
         return self
+    def reset_display_indices(self) -> "Feature":
+        for child in self.children:
+            child.reset_display_indices()
+        self.display_index = None
+        self.cached_display_name = None
+        return self
     def infer_type(self, data: pd.DataFrame) -> Union[str, DtypeObj]:
         if self.op.output_type:
             return self.op.output_type

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/operator.py RENAMED Viewed

@@ -89,6 +89,32 @@ class Operator(BaseModel, metaclass=OperatorRegistry):
     def delete_data(self):
         pass
+    def rename_columns(self, columns_renaming: Dict[str, str]) -> "Operator":
+        # Rename occurrences of column names inside self.params keys according to columns_renaming
+        if not self.params or not columns_renaming:
+            return self
+        # Replace longer keys first to avoid partial overlaps
+        replacements = sorted(columns_renaming.items(), key=lambda kv: -len(kv[0]))
+        renamed_params: Dict[str, str] = {}
+        for param_key, param_value in self.params.items():
+            new_key = param_key
+            for old, new in replacements:
+                if old and old in new_key:
+                    new_key = new_key.replace(old, new)
+            if new_key in renamed_params and new_key != param_key:
+                self._logger.warning(
+                    "Param key collision after rename: '%s' -> '%s'. Overwriting value.",
+                    param_key,
+                    new_key,
+                )
+            renamed_params[new_key] = param_value
+        self.params = renamed_params
+        return self
 class ParametrizedOperator(Operator, abc.ABC):

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/features_enricher.py RENAMED Viewed

@@ -1028,7 +1028,7 @@ class FeaturesEnricher(TransformerMixin):
                     columns_renaming,
                     _,
                 ) = prepared_data
                 gc.collect()
                 if fitting_X.shape[1] == 0 and fitting_enriched_X.shape[1] == 0:
@@ -1406,7 +1406,7 @@ class FeaturesEnricher(TransformerMixin):
         self,
         X: pd.DataFrame,
         eval_set: list[tuple[pd.DataFrame, pd.Series]],
-        enriched_eval_set: dict,
+        enriched_eval_set: dict[int, tuple[pd.DataFrame, pd.Series, pd.DataFrame, pd.Series]],
         eval_set_dates: dict[int, pd.Series],
         search_keys: dict[str, SearchKey],
         stability_threshold: float,
@@ -1417,31 +1417,42 @@ class FeaturesEnricher(TransformerMixin):
         # Find latest eval set or earliest if all eval sets are before train set
         date_column = self._get_date_column(search_keys)
+        date_converter = DateTimeSearchKeyConverter(
+            date_column, self.date_format, self.logger, self.bundle, generate_cyclical_features=False
+        )
+        X = date_converter.convert(X)
         x_date = X[date_column].dropna()
-        if not is_numeric_dtype(x_date):
-            x_date = pd.to_datetime(x_date).dt.floor("D").astype(np.int64) / 10**6
-        main_min_date = x_date.min()
+        if len(x_date) == 0:
+            self.logger.warning("Empty date column in X")
+            return []
-        for eval_x, _ in eval_set:
-            eval_x_date = eval_x[date_column].dropna()
-            if not is_numeric_dtype(eval_x_date):
-                eval_x[date_column] = pd.to_datetime(eval_x_date).dt.floor("D").astype(np.int64) / 10**6
+        main_min_date = x_date.min()
         # Find minimum date for each eval_set and compare with main dataset
         eval_dates = []
         for i, (eval_x, _) in enumerate(eval_set):
-            if date_column in eval_x.columns:
-                if len(eval_x) < 1000:
-                    self.logger.warning(f"Eval_set {i} has less than 1000 rows. It will be ignored for stability check")
-                    continue
-                eval_x_date = eval_x[date_column].dropna()
-                if not is_numeric_dtype(eval_x_date):
-                    eval_x_date = pd.to_datetime(eval_x_date).dt.floor("D").astype(np.int64) / 10**6
-                eval_min_date = eval_x_date.min()
-                eval_max_date = eval_x_date.max()
-                eval_dates.append((i, eval_min_date, eval_max_date))
+            if date_column not in eval_x.columns:
+                self.logger.warning(f"Date column not found in eval_set {i + 1}")
+                continue
+            eval_x = date_converter.convert(eval_x)
+            eval_x_date = eval_x[date_column].dropna()
+            if len(eval_x_date) < 1000:
+                self.logger.warning(f"Eval_set {i} has less than 1000 rows. It will be ignored for stability check")
+                continue
+            if len(enriched_eval_set[i][2]) < 1000:
+                self.logger.warning(
+                    f"Enriched eval_set {i} has less than 1000 rows. It will be ignored for stability check"
+                )
+                continue
+            eval_min_date = eval_x_date.min()
+            eval_max_date = eval_x_date.max()
+            eval_dates.append((i, eval_min_date, eval_max_date))
         if not eval_dates:
+            self.logger.warning("There are no correct eval_sets for stability check")
             return []
         # Check if any eval_set has minimum date >= main dataset minimum date
@@ -1464,10 +1475,7 @@ class FeaturesEnricher(TransformerMixin):
         checking_eval_set_df = checking_eval_set_df.copy()
         checking_eval_set_df[date_column] = eval_set_dates[selected_eval_set_idx]
-        if not is_numeric_dtype(checking_eval_set_df[date_column]):
-            checking_eval_set_df[date_column] = (
-                pd.to_datetime(checking_eval_set_df[date_column]).dt.floor("D").astype(np.int64) / 10**6
-            )
+        checking_eval_set_df = date_converter.convert(checking_eval_set_df)
         psi_values_sparse = calculate_sparsity_psi(
             checking_eval_set_df, cat_features, date_column, self.logger, model_task_type

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

@@ -155,7 +155,7 @@ target_outliers_warning=We detected {} outliers in your sample.\nExamples of out
     # features validation
 empty_or_contant_features=Columns {} has value with frequency more than 99%, removed from X
 high_cardinality_features=Columns {} has high cardinality (>90% unique values), removed from X
-one_hot_encoded_features=One hot encoded features detected: {}
+one_hot_encoded_features=One hot encoded features detected. Use int encoding for correct results of fit.\n{}
     # Dataset validation
 dataset_too_few_rows=X size should be at least {} rows after validation

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/features_validator.py RENAMED Viewed

@@ -46,7 +46,7 @@ class FeaturesValidator:
         if one_hot_encoded_features:
             msg = bundle.get("one_hot_encoded_features").format(one_hot_encoded_features)
-            self.logger.info(msg)
+            warnings.append(msg)
         columns_renaming = columns_renaming or {}
@@ -100,6 +100,10 @@ class FeaturesValidator:
     @staticmethod
     def is_one_hot_encoded(series: pd.Series) -> bool:
         try:
+            # All rows should be the same type
+            if series.apply(lambda x: type(x)).nunique() != 1:
+                return False
             # First, handle string representations of True/False
             series_copy = series.copy()
             if series_copy.dtype == "object" or series_copy.dtype == "string":

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/psi.py RENAMED Viewed

@@ -7,7 +7,6 @@ from typing import Callable, Dict, Optional
 import more_itertools
 import numpy as np
 import pandas as pd
-from pandas.api.types import is_numeric_dtype
 from pydantic import BaseModel
 from upgini.metadata import TARGET, ModelTaskType

upgini-1.2.121a3/src/upgini/__about__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- __version__ = "1.2.121a3"

{upgini-1.2.121a3 → upgini-1.2.122a2}/.gitignore RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/LICENSE RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/README.md RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/ads.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/all_operators.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/binary.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/date.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/groupby.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/base.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/cross.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/delta.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/lag.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/roll.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/trend.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/timeseries/volatility.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/unary.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/autofe/vector.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/dataset.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/http.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/metrics.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/normalizer/normalize_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/resource_bundle/strings_widget.properties RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/search_task.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/Roboto-Regular.ttf RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/config.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/country_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/deduplicate_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/display_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/email_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/fallback_progress_bar.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/feature_info.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/hash_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/ip_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/mstats.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/progress_bar.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/sample_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/sort.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/target_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/track_info.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/ts_utils.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.2.121a3 → upgini-1.2.122a2}/src/upgini/version_validator.py RENAMED Viewed

File without changes

upgini 1.2.121a3__tar.gz → 1.2.122a2__tar.gz

upgini 1.2.121a3tar.gz → 1.2.122a2tar.gz