PyPI - upgini - Versions diffs - 1.1.246a101__py3-none-any.whl → 1.1.248a1__py3-none-any.whl - Mend

upgini 1.1.246a101py3-none-any.whl → 1.1.248a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (15) hide show

upgini/autofe/operand.py +4 -2
upgini/autofe/unary.py +2 -2
upgini/dataset.py +4 -4
upgini/features_enricher.py +59 -33
upgini/metadata.py +1 -0
upgini/resource_bundle/strings.properties +2 -0
upgini/resource_bundle/strings_widget.properties +2 -0
upgini/utils/cv_utils.py +37 -11
upgini/utils/datetime_utils.py +12 -7
upgini/utils/deduplicate_utils.py +9 -4
{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/METADATA +1 -1
{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/RECORD +15 -15
{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/LICENSE +0 -0
{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/WHEEL +0 -0
{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/top_level.txt +0 -0

upgini/autofe/operand.py CHANGED Viewed

@@ -59,12 +59,14 @@ class PandasOperand(Operand, abc.ABC):
         df_from.loc[np.nan] = np.nan
         return df_to.fillna(np.nan).apply(lambda x: df_from.loc[x])
-    def _round_value(self, value: Union[pd.Series, pd.DataFrame]) -> Union[pd.Series, pd.DataFrame]:
+    def _round_value(
+        self, value: Union[pd.Series, pd.DataFrame], precision: Optional[int] = None
+    ) -> Union[pd.Series, pd.DataFrame]:
         if isinstance(value, pd.DataFrame):
             return value.apply(self._round_value, axis=1)
         if np.issubdtype(value.dtype, np.floating):
-            precision = np.finfo(value.dtype).precision
+            precision = precision or np.finfo(value.dtype).precision
             return np.trunc(value * 10**precision) / (10**precision)
         else:
             return value

upgini/autofe/unary.py CHANGED Viewed

@@ -22,10 +22,10 @@ class Log(PandasOperand):
     output_type = "float"
     def calculate_unary(self, data: pd.Series) -> pd.Series:
-        return self._round_value(np.log(np.abs(data.replace(0, np.nan))))
+        return self._round_value(np.log(np.abs(data.replace(0, np.nan))), 10)
     def calculate_group(self, data: pd.DataFrame, **kwargs) -> pd.DataFrame:
-        return self._round_value(np.log(data.replace(0, np.nan).abs()))
+        return self._round_value(np.log(data.replace(0, np.nan).abs()), 10)
 class Sqrt(PandasOperand):

upgini/dataset.py CHANGED Viewed

@@ -662,15 +662,15 @@ class Dataset:  # (pd.DataFrame):
             # if self.task_type != ModelTaskType.MULTICLASS:
             #     self.data[target] = self.data[target].apply(pd.to_numeric, errors="coerce")
-        keys_to_validate = [
+        keys_to_validate = {
             key
             for search_group in self.search_keys_checked
             for key in search_group
             if self.columns_renaming.get(key) != EmailSearchKeyConverter.EMAIL_ONE_DOMAIN_COLUMN_NAME
-        ]
-        ipv4_column = self.etalon_def_checked.get(FileColumnMeaningType.IP_ADDRESS)
+        }
+        ipv4_column = self.etalon_def_checked.get(FileColumnMeaningType.IP_ADDRESS.value)
         if (
-            FileColumnMeaningType.IPV6_ADDRESS in self.etalon_def_checked
+            FileColumnMeaningType.IPV6_ADDRESS.value in self.etalon_def_checked
             and ipv4_column is not None
             and ipv4_column in keys_to_validate
         ):

upgini/features_enricher.py CHANGED Viewed

@@ -1,3 +1,4 @@
+import dataclasses
 import gc
 import hashlib
 import itertools
@@ -9,8 +10,7 @@ import sys
 import tempfile
 import time
 import uuid
-from collections import namedtuple
-from functools import reduce
+from dataclasses import dataclass
 from threading import Thread
 from typing import Any, Callable, Dict, List, Optional, Set, Tuple, Union
@@ -21,6 +21,7 @@ from scipy.stats import ks_2samp
 from sklearn.base import TransformerMixin
 from sklearn.exceptions import NotFittedError
 from sklearn.model_selection import BaseCrossValidator
+from sklearn.model_selection._split import GroupsConsumerMixin
 from upgini.autofe.feature import Feature
 from upgini.data_source.data_source_publisher import CommercialSchema
@@ -59,7 +60,7 @@ from upgini.utils.custom_loss_utils import (
     get_additional_params_custom_loss,
     get_runtime_params_custom_loss,
 )
-from upgini.utils.cv_utils import CVConfig
+from upgini.utils.cv_utils import CVConfig, get_groups
 from upgini.utils.datetime_utils import (
     DateTimeSearchKeyConverter,
     is_blocked_time_series,
@@ -920,6 +921,7 @@ class FeaturesEnricher(TransformerMixin):
                     fitting_eval_set_dict,
                     search_keys,
                     groups,
+                    _cv,
                 ) = prepared_data
                 gc.collect()
@@ -936,16 +938,6 @@ class FeaturesEnricher(TransformerMixin):
                     has_date = self._get_date_column(search_keys) is not None
                     model_task_type = self.model_task_type or define_task(y_sorted, has_date, self.logger, silent=True)
-                    _cv = cv or self.cv
-                    if groups is None and _cv == CVType.group_k_fold:
-                        self.logger.info("Replacing group_k_fold with k_fold as no groups were found")
-                        _cv = CVType.k_fold
-                    if not isinstance(_cv, BaseCrossValidator):
-                        date_column = self._get_date_column(search_keys)
-                        date_series = validated_X[date_column] if date_column is not None else None
-                        _cv = CVConfig(
-                            _cv, date_series, self.random_state, self._search_task.get_shuffle_kfold()
-                        ).get_cv()
                     wrapper = EstimatorWrapper.create(
                         estimator,
@@ -1213,7 +1205,7 @@ class FeaturesEnricher(TransformerMixin):
         generated_features = []
         date_column = self._get_date_column(search_keys)
         if date_column is not None:
-            converter = DateTimeSearchKeyConverter(date_column, self.date_format, self.logger)
+            converter = DateTimeSearchKeyConverter(date_column, self.date_format, self.logger, self.bundle)
             extended_X = converter.convert(extended_X, keep_time=True)
             generated_features.extend(converter.generated_features)
         email_column = self._get_email_column(search_keys)
@@ -1265,6 +1257,27 @@ class FeaturesEnricher(TransformerMixin):
             self.logger.info("Passed X, y and eval_set that differs from passed on fit. Transform will be used")
             return False, X, y, checked_eval_set
+    def _get_cv_and_groups(
+        self,
+        X: pd.DataFrame,
+        cv_override: Union[BaseCrossValidator, CVType, str, None],
+        search_keys: Dict[str, SearchKey],
+    ) -> Tuple[BaseCrossValidator, Optional[np.ndarray]]:
+        _cv = cv_override or self.cv
+        group_columns = sorted(self._get_group_columns(X, search_keys))
+        groups = None
+        if not isinstance(_cv, BaseCrossValidator):
+            date_column = self._get_date_column(search_keys)
+            date_series = X[date_column] if date_column is not None else None
+            _cv, groups = CVConfig(
+                _cv, date_series, self.random_state, self._search_task.get_shuffle_kfold(), group_columns=group_columns
+            ).get_cv_and_groups(X)
+        elif isinstance(_cv, GroupsConsumerMixin):
+            groups = get_groups(X, group_columns)
+        return _cv, groups
     def _prepare_data_for_metrics(
         self,
         trace_id: str,
@@ -1275,6 +1288,7 @@ class FeaturesEnricher(TransformerMixin):
         importance_threshold: Optional[float] = None,
         max_features: Optional[int] = None,
         remove_outliers_calc_metrics: Optional[bool] = None,
+        cv_override: Union[BaseCrossValidator, CVType, str, None] = None,
         search_keys_for_metrics: Optional[List[str]] = None,
         progress_bar: Optional[ProgressBar] = None,
         progress_callback: Optional[Callable[[SearchProgress], Any]] = None,
@@ -1290,7 +1304,7 @@ class FeaturesEnricher(TransformerMixin):
             else None
         )
-        X_sampled, y_sampled, enriched_X, eval_set_sampled_dict, search_keys = self._sample_data_for_metrics(
+        sampled_data = self._sample_data_for_metrics(
             trace_id,
             validated_X,
             validated_y,
@@ -1302,6 +1316,7 @@ class FeaturesEnricher(TransformerMixin):
             progress_bar,
             progress_callback,
         )
+        X_sampled, y_sampled, enriched_X, eval_set_sampled_dict, search_keys = dataclasses.astuple(sampled_data)
         excluding_search_keys = list(search_keys.keys())
         if search_keys_for_metrics is not None and len(search_keys_for_metrics) > 0:
@@ -1325,14 +1340,7 @@ class FeaturesEnricher(TransformerMixin):
         X_sorted, y_sorted = self._sort_by_system_record_id(X_sampled, y_sampled, self.cv)
         enriched_X_sorted, enriched_y_sorted = self._sort_by_system_record_id(enriched_X, y_sampled, self.cv)
-        group_columns = sorted(self._get_group_columns(enriched_X_sorted, search_keys))
-        groups = (
-            None
-            if not group_columns or self.cv != CVType.group_k_fold
-            else reduce(
-                lambda left, right: left + "_" + right, [enriched_X_sorted[c].astype(str) for c in group_columns]
-            ).factorize()[0]
-        )
+        cv, groups = self._get_cv_and_groups(enriched_X_sorted, cv_override, search_keys)
         existing_filtered_enriched_features = [c for c in filtered_enriched_features if c in enriched_X_sorted.columns]
@@ -1382,11 +1390,16 @@ class FeaturesEnricher(TransformerMixin):
             fitting_eval_set_dict,
             search_keys,
             groups,
+            cv,
         )
-    _SampledDataForMetrics = namedtuple(
-        "_SampledDataForMetrics", "X_sampled y_sampled enriched_X eval_set_sampled_dict search_keys"
-    )
+    @dataclass
+    class _SampledDataForMetrics:
+        X_sampled: pd.DataFrame
+        y_sampled: pd.Series
+        enriched_X: pd.DataFrame
+        eval_set_sampled_dict: Dict[int, Tuple[pd.DataFrame, pd.Series]]
+        search_keys: Dict[str, SearchKey]
     def _sample_data_for_metrics(
         self,
@@ -1571,7 +1584,12 @@ class FeaturesEnricher(TransformerMixin):
                 df_with_eval_set_index = pd.concat([df_with_eval_set_index, eval_df_with_index])
             _, df_with_eval_set_index = remove_fintech_duplicates(
-                df_with_eval_set_index, self.search_keys, self.logger, silent=True
+                df_with_eval_set_index,
+                self.search_keys,
+                date_format=self.date_format,
+                logger=self.logger,
+                silent=True,
+                bundle=self.bundle,
             )
             # downsample if need to eval_set threshold
@@ -1673,7 +1691,11 @@ class FeaturesEnricher(TransformerMixin):
     ):
         search_keys = {k: v for k, v in search_keys.items() if k in X_sampled.columns.to_list()}
         return FeaturesEnricher._SampledDataForMetrics(
-            X_sampled, y_sampled, enriched_X, eval_set_sampled_dict, search_keys
+            X_sampled=X_sampled,
+            y_sampled=y_sampled,
+            enriched_X=enriched_X,
+            eval_set_sampled_dict=eval_set_sampled_dict,
+            search_keys=search_keys,
         )
     def get_search_id(self) -> Optional[str]:
@@ -1810,7 +1832,7 @@ class FeaturesEnricher(TransformerMixin):
             generated_features = []
             date_column = self._get_date_column(search_keys)
             if date_column is not None:
-                converter = DateTimeSearchKeyConverter(date_column, self.date_format, self.logger)
+                converter = DateTimeSearchKeyConverter(date_column, self.date_format, self.logger, bundle=self.bundle)
                 df = converter.convert(df)
                 self.logger.info(f"Date column after convertion: {df[date_column]}")
                 generated_features.extend(converter.generated_features)
@@ -1868,7 +1890,9 @@ class FeaturesEnricher(TransformerMixin):
             df_without_features = df.drop(columns=non_keys_columns)
-            df_without_features = clean_full_duplicates(df_without_features, self.logger, silent=silent_mode)
+            df_without_features = clean_full_duplicates(
+                df_without_features, self.logger, silent=silent_mode, bundle=self.bundle
+            )
             del df
             gc.collect()
@@ -2148,9 +2172,11 @@ class FeaturesEnricher(TransformerMixin):
         df = self.__add_country_code(df, self.fit_search_keys)
-        need_full_defuplication, df = remove_fintech_duplicates(df, self.fit_search_keys, self.logger)
+        need_full_defuplication, df = remove_fintech_duplicates(
+            df, self.fit_search_keys, date_format=self.date_format, logger=self.logger, bundle=self.bundle
+        )
         if need_full_defuplication:
-            df = clean_full_duplicates(df, self.logger)
+            df = clean_full_duplicates(df, self.logger, bundle=self.bundle)
         date_column = self._get_date_column(self.fit_search_keys)
         self.__adjust_cv(df, date_column, model_task_type)
@@ -2158,7 +2184,7 @@ class FeaturesEnricher(TransformerMixin):
         self.fit_generated_features = []
         if date_column is not None:
-            converter = DateTimeSearchKeyConverter(date_column, self.date_format, self.logger)
+            converter = DateTimeSearchKeyConverter(date_column, self.date_format, self.logger, bundle=self.bundle)
             df = converter.convert(df, keep_time=True)
             self.logger.info(f"Date column after convertion: {df[date_column]}")
             self.fit_generated_features.extend(converter.generated_features)

upgini/metadata.py CHANGED Viewed

@@ -306,3 +306,4 @@ class CVType(Enum):
     group_k_fold = "group_k_fold"
     time_series = "time_series"
     blocked_time_series = "blocked_time_series"
+    not_set = "not_set"

upgini/resource_bundle/strings.properties CHANGED Viewed

@@ -89,6 +89,8 @@ empty_search_key=Search key {} is empty. Please fill values or remove this searc
 single_constant_search_key=\nWARNING: Constant value detected for the {} search key in the X dataframe: {}.\nThat search key will add constant features for different y values.\nPlease add extra search keys with non constant values, like the COUNTRY, POSTAL_CODE, DATE, PHONE NUMBER, EMAIL/HEM or IPv4
 unsupported_index_column=\nWARNING: Your column with name `index` was dropped because it's reserved name is booked for system needs.
 date_string_without_format=Date column `{}` has string type, but date_format is not specified. Convert column to datetime type or pass date_format
+invalid_date_format=Failed to parse date in column `{}`. Try to pass explicit date format in date_format argument of FeaturesEnricher constructor
+unsupported_date_type=Unsupported type of date column `{}`. Convert to datetime please.
 invalid_postal_code=All values of POSTAL_CODE column `{}` are invalid
 invalid_country=All values of COUNTRY column `{}` are invalid
 invalid_ip=All values of IPv4 column `{}` are invalid

upgini/resource_bundle/strings_widget.properties CHANGED Viewed

@@ -9,6 +9,8 @@ dataset_too_few_rows=Labeled dataset size with unique search keys must be not le
 dataset_too_big_file=Too big size of labeled dataset for processing. Please reduce number of rows or columns
 dataset_too_many_rows_registered=Labeled dataset size rows limit is {}. Please sample it and retry
 dataset_all_dates_old=There is empty labeled dataset after removing data before '2000-01-01'
+invalid_date_format=Failed to parse date in column `{}`
+unsupported_date_type=Unsupported type of date column `{}`. Convert to datetime please.
 # Validate target
 y_is_constant=Target label is a constant. Relevant feature search requires a non-constant target

upgini/utils/cv_utils.py CHANGED Viewed

@@ -1,4 +1,6 @@
-from typing import Any, Dict, Optional, Union
+from functools import reduce
+from typing import Any, Dict, List, Optional, Tuple, Union
+import numpy as np
 import pandas as pd
 from sklearn.model_selection import BaseCrossValidator, KFold, TimeSeriesSplit, GroupKFold, GroupShuffleSplit
@@ -14,6 +16,9 @@ class CVConfig:
         date_column: Optional[pd.Series],
         random_state=None,
         shuffle_kfold: Optional[bool] = None,
+        test_size: Optional[float] = 0.2,
+        n_folds: Optional[int] = 5,
+        group_columns: Optional[List[str]] = None,
     ):
         if cv_type is None:
             self.cv_type = CVType.k_fold
@@ -24,9 +29,10 @@ class CVConfig:
         else:
             raise Exception(f"Unexpected type of cv_type: {type(cv_type)}")
+        self.group_columns = group_columns
         self.shuffle_kfold: Optional[bool] = shuffle_kfold
-        self.test_size = 0.2
-        self.n_folds = 5
+        self.test_size = test_size
+        self.n_folds = n_folds
         if (self.cv_type == CVType.k_fold or self.cv_type == CVType.group_k_fold) and self.shuffle_kfold is None:
             self.shuffle_kfold = date_column is None or is_constant(date_column)
         if self.shuffle_kfold:
@@ -45,17 +51,37 @@ class CVConfig:
             config["test_size"] = self.test_size
         return config
-    def get_cv(self) -> BaseCrossValidator:
+    def get_cv_and_groups(self, X: pd.DataFrame) -> Tuple[BaseCrossValidator, Optional[np.ndarray]]:
         if self.cv_type == CVType.time_series:
-            return TimeSeriesSplit(n_splits=self.n_folds)
+            return TimeSeriesSplit(n_splits=self.n_folds), None
         elif self.cv_type == CVType.blocked_time_series:
-            return BlockedTimeSeriesSplit(n_splits=self.n_folds, test_size=self.test_size)
-        elif self.cv_type == CVType.group_k_fold and self.shuffle_kfold:
-            return GroupShuffleSplit(n_splits=self.n_folds, test_size=self.test_size, random_state=self.random_state)
-        elif self.cv_type == CVType.group_k_fold:
-            return GroupKFold(n_splits=self.n_folds)
+            return BlockedTimeSeriesSplit(n_splits=self.n_folds, test_size=self.test_size), None
+        elif self.cv_type == CVType.group_k_fold and self.group_columns:
+            groups = get_groups(X, self.group_columns)
+            if groups is None or np.unique(groups).size < self.n_folds:
+                return KFold(n_splits=self.n_folds, shuffle=self.shuffle_kfold, random_state=self.random_state), None
+            if self.shuffle_kfold:
+                return (
+                    GroupShuffleSplit(n_splits=self.n_folds, test_size=self.test_size, random_state=self.random_state),
+                    groups,
+                )
+            else:
+                return GroupKFold(n_splits=self.n_folds), groups
         else:
-            return KFold(n_splits=self.n_folds, shuffle=self.shuffle_kfold, random_state=self.random_state)
+            return KFold(n_splits=self.n_folds, shuffle=self.shuffle_kfold, random_state=self.random_state), None
+def get_groups(X: pd.DataFrame, group_columns: Optional[List[str]]) -> Optional[np.ndarray]:
+    existing_group_columns = [c for c in group_columns if c in X.columns]
+    return (
+        None
+        if not group_columns
+        else reduce(
+            lambda left, right: left + "_" + right, [X[c].astype(str) for c in existing_group_columns]
+        ).factorize()[0]
+    )
 def is_constant(s, dropna=True) -> bool:

upgini/utils/datetime_utils.py CHANGED Viewed

@@ -9,6 +9,7 @@ from dateutil.relativedelta import relativedelta
 from pandas.api.types import is_numeric_dtype, is_period_dtype, is_string_dtype
 from upgini.errors import ValidationError
+from upgini.resource_bundle import ResourceBundle, get_custom_bundle
 DATE_FORMATS = ["%Y-%m-%d", "%d.%m.%y", "%d.%m.%Y", "%m.%d.%y", "%m.%d.%Y", "%Y-%m-%dT%H:%M:%S.%f"]
@@ -18,7 +19,13 @@ DATETIME_PATTERN = r"^[\d\s\.\-:T]+$"
 class DateTimeSearchKeyConverter:
     DATETIME_COL = "_date_time"
-    def __init__(self, date_column: str, date_format: Optional[str] = None, logger: Optional[logging.Logger] = None):
+    def __init__(
+        self,
+        date_column: str,
+        date_format: Optional[str] = None,
+        logger: Optional[logging.Logger] = None,
+        bundle: ResourceBundle = None,
+    ):
         self.date_column = date_column
         self.date_format = date_format
         if logger is not None:
@@ -27,6 +34,7 @@ class DateTimeSearchKeyConverter:
             self.logger = logging.getLogger()
             self.logger.setLevel("FATAL")
         self.generated_features: List[str] = []
+        self.bundle = bundle or get_custom_bundle()
     @staticmethod
     def _int_to_opt(i: int) -> Optional[int]:
@@ -71,10 +79,10 @@ class DateTimeSearchKeyConverter:
                 df[self.date_column] = pd.to_datetime(df[self.date_column], unit="us")
             elif df[self.date_column].apply(lambda x: 10**11 < x < 10**14).all():
                 df[self.date_column] = pd.to_datetime(df[self.date_column], unit="ms")
-            elif df[self.date_column].apply(lambda x: 0 < x < 10*11).all():
+            elif df[self.date_column].apply(lambda x: 0 < x < 10 * 11).all():
                 df[self.date_column] = pd.to_datetime(df[self.date_column], unit="s")
             else:
-                msg = f"Unsupported type of date column {self.date_column}. Convert to datetime please."
+                msg = self.bundle.get("unsupported_date_type").format(self.date_column)
                 self.logger.warning(msg)
                 raise ValidationError(msg)
@@ -121,10 +129,7 @@ class DateTimeSearchKeyConverter:
                     return pd.to_datetime(df[self.date_column], format=date_format)
                 except ValueError:
                     pass
-            raise ValidationError(
-                f"Failed to parse date in column `{self.date_column}`. "
-                "Try to pass explicit date format in date_format argument of FeaturesEnricher constructor"
-            )
+            raise ValidationError(self.bundle.get("invalid_date_format").format(self.date_column))
 def is_time_series(df: pd.DataFrame, date_col: str) -> bool:

upgini/utils/deduplicate_utils.py CHANGED Viewed

@@ -4,13 +4,18 @@ from typing import Dict, List, Optional, Tuple, Union
 import pandas as pd
 from upgini.metadata import SYSTEM_RECORD_ID, TARGET, ModelTaskType, SearchKey
-from upgini.resource_bundle import bundle
+from upgini.resource_bundle import ResourceBundle
 from upgini.utils.datetime_utils import DateTimeSearchKeyConverter
 from upgini.utils.target_utils import define_task
 def remove_fintech_duplicates(
-    df: pd.DataFrame, search_keys: Dict[str, SearchKey], logger: Optional[Logger] = None, silent=False
+    df: pd.DataFrame,
+    search_keys: Dict[str, SearchKey],
+    date_format: Optional[str] = None,
+    logger: Optional[Logger] = None,
+    silent=False,
+    bundle: ResourceBundle = None,
 ) -> Tuple[bool, pd.DataFrame]:
     # Base checks
     need_full_deduplication = True
@@ -72,7 +77,7 @@ def remove_fintech_duplicates(
     nonunique_target_rows = nonunique_target_groups[nonunique_target_groups].reset_index().drop(columns=TARGET)
     sub_df = pd.merge(sub_df, nonunique_target_rows, on=personal_cols)
-    sub_df = DateTimeSearchKeyConverter(date_col).convert(sub_df)
+    sub_df = DateTimeSearchKeyConverter(date_col, date_format=date_format, logger=logger, bundle=bundle).convert(sub_df)
     grouped_by_personal_cols = sub_df.groupby(personal_cols, group_keys=False)
     rows_with_diff_target = grouped_by_personal_cols.filter(has_diff_target_within_60_days)
     if len(rows_with_diff_target) > 0:
@@ -95,7 +100,7 @@ def remove_fintech_duplicates(
 def clean_full_duplicates(
-    df: pd.DataFrame, logger: Optional[Logger] = None, silent=False
+    df: pd.DataFrame, logger: Optional[Logger] = None, silent=False, bundle: ResourceBundle = None
 ) -> pd.DataFrame:
     nrows = len(df)
     if nrows == 0:

{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.246a101
+Version: 1.1.248a1
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/RECORD RENAMED Viewed

@@ -1,11 +1,11 @@
 upgini/__init__.py,sha256=asENHgEVHQBIkV-e_0IhE_ZWqkCG6398U3ZLrNzAH6k,407
 upgini/ads.py,sha256=mre6xn44wcC_fg63iLT_kTh4mViZqR9AKRJZAtpQz8Y,2592
-upgini/dataset.py,sha256=AsDJmEfVvdnBrIXQ2DSjitnTQ-5uu1H59YkhjhBRXcw,50424
+upgini/dataset.py,sha256=8TE_NKdhNeL3mlU-S57bHFub4G0gmyOGtceqO-CRaMk,50436
 upgini/errors.py,sha256=pdzQl3MKuK52yvncxMWMRWeSIOGhUFzpQoszoRFBOk0,958
-upgini/features_enricher.py,sha256=mQPM2dbUh-V_HHISFKmT49irNMv1PcLlpUk5HByHhfI,167889
+upgini/features_enricher.py,sha256=xoaG_cEhQJciYHHE-UkjdkprfThNnxGRe9YvT0NVnoI,168617
 upgini/fingerprint.js,sha256=VygVIQlN1v4NGZfjHqtRogOw8zjTnnMNJg_f7M5iGQU,33442
 upgini/http.py,sha256=eSG4gOpmCGlXmB6KIPNzAG8tRZNUjyYpMeUeHw_2li4,42264
-upgini/metadata.py,sha256=55t0uQI910tzTcnwxZCUL1413BhTiSm8oqiwp-94NyA,9613
+upgini/metadata.py,sha256=5SQjDsQrfpGKT42i0H40C6wxTY_up94xSqAARH140_U,9637
 upgini/metrics.py,sha256=LS2MgEKgmn9VEXsKzxv3pBZ-q71mTnpWu6vL8fYgpo4,26727
 upgini/search_task.py,sha256=5n4qGJmtu48s0-FHAtF3L5qVLMd1JVW3FJlM8dFbh-s,17063
 upgini/spinner.py,sha256=Dm1dQ5F_z_Ua2odLxZX7OypcOX9tSx_vE5MGaKtUmfw,1118
@@ -17,8 +17,8 @@ upgini/autofe/all_operands.py,sha256=du44N6ISWe3ikb0y9ZzSOHNbLiyEYrJPwoBo0Z6xp2s
 upgini/autofe/binary.py,sha256=f8LQqZi9zyaMUAv-jASMmWNA_vT05ncYCjZq0qx3USs,3972
 upgini/autofe/feature.py,sha256=xeqTq35-BX4KCt0xAkk3UZAGzV5VyjorV5AdNdA5yLs,11851
 upgini/autofe/groupby.py,sha256=iXRfOmOc84ooSzRhsh9GmmG7rTafX0-ekXko8s9Qs68,3089
-upgini/autofe/operand.py,sha256=GpSx-nL2XKnTJ7kvRr_SIFoUMchqYian6SftJ82zsN4,2719
-upgini/autofe/unary.py,sha256=WB-Ovwaz2a-Jscpshg1Om7Ttx6DJ6gQ_fgqtXx_UHuw,2845
+upgini/autofe/operand.py,sha256=Rhy7Ky3we-I1Su1--dS4xdsO3K8neV4rqM_Q4xYE4ug,2779
+upgini/autofe/unary.py,sha256=gyMkrx9bfa3o19zS-4JaRlScHrfeZGBsYe7d_6ePT-0,2853
 upgini/autofe/vector.py,sha256=Qk7VmdwURNwVw7fIMEspWEo7HTiyUWCYIqu3hcWQQio,507
 upgini/data_source/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 upgini/data_source/data_source_publisher.py,sha256=PeotNz-taBT6aweQc9xc_pdtUOqmqe1IZr1-3NeUsd0,14008
@@ -28,8 +28,8 @@ upgini/normalizer/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU
 upgini/normalizer/phone_normalizer.py,sha256=lhwsPEnfyjeIsndW2EcQGZksXYsfxaQ1ghAzVYoDRKM,9927
 upgini/resource_bundle/__init__.py,sha256=hdvbqL0b0xMWbY6-kiYGsW1ro2GMiWpxxsO9uCv-h9Q,8379
 upgini/resource_bundle/exceptions.py,sha256=5fRvx0_vWdE1-7HcSgF0tckB4A9AKyf5RiinZkInTsI,621
-upgini/resource_bundle/strings.properties,sha256=0qDpfZBMU4moFXKzb11ALwk5N8FdgyJYzI0wRTvFJbI,25008
-upgini/resource_bundle/strings_widget.properties,sha256=IjPHslEk_fx95Phz3NV9PhVYxqexJgAV9xvZoRPvURc,1433
+upgini/resource_bundle/strings.properties,sha256=dmkObOr0FJPkGQmiybmFcI3RbYjl_uCz_IQ4nm8SRkk,25242
+upgini/resource_bundle/strings_widget.properties,sha256=gOdqvZWntP2LCza_tyVk1_yRYcG4c04K9sQOAVhF_gw,1577
 upgini/sampler/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 upgini/sampler/base.py,sha256=CC-DvPbrN7zp5--SVFuUqkVmdWM_5F7R0Do98ETV82U,6421
 upgini/sampler/random_under_sampler.py,sha256=XU4c2swPIFxVXHOPpxgM2bUao0Xm-aoMmd6fKjIuV5s,4068
@@ -39,9 +39,9 @@ upgini/utils/base_search_key_detector.py,sha256=DGwhXLvc8i5VZWMDr0rncFfV5GEHdsCS
 upgini/utils/blocked_time_series.py,sha256=dMz5ewk3PsoeOrc3lDzInCVPS9u_2XQkV0W6PuMMjPg,3380
 upgini/utils/country_utils.py,sha256=1KXhLSNqkNYVL3on8-zK0Arc_SspUH7AMZvGZICysOU,6462
 upgini/utils/custom_loss_utils.py,sha256=DBslpjWGPt7xTeypt78baR59012SYphbPsO_YLKdilo,3972
-upgini/utils/cv_utils.py,sha256=6pSSL_Ft_8C6n6aInJeiyeSBD7McjsMxKZpHqSBV0uY,2491
-upgini/utils/datetime_utils.py,sha256=awsLpnFjBNcrsCDyyiiJLicHgHiGCNAwi0UOwRKGD7s,8645
-upgini/utils/deduplicate_utils.py,sha256=qRmytTgheYM6OfLnURrmdkZVN02vvZXL5bm0Yob3svk,5995
+upgini/utils/cv_utils.py,sha256=Tn01RJvpZGZh0PUQUimlBkV-AXwe7s6yjCNFtw352Uc,3525
+upgini/utils/datetime_utils.py,sha256=P5no4mFgYpEP6oY524ebTKvKc3TBMJzAYpWdj210_Fw,8699
+upgini/utils/deduplicate_utils.py,sha256=GRPwD8bXZNspKvf19W3SrYjqg1qQMDlZD-BDkHnKYyo,6176
 upgini/utils/display_utils.py,sha256=tiq5sFOfMwkKCjQ7OGdyK_twe0Qdr9F3mzkW1QXSDog,10664
 upgini/utils/email_utils.py,sha256=3CvHXTSzlgLyGsQOXfRYVfFhfPy6OXG4uXOBWRaLfHg,3479
 upgini/utils/fallback_progress_bar.py,sha256=cdbd1XGcWm4Ed4eAqV2_St3z7uC_kkH22gEyrN5ub6M,1090
@@ -55,8 +55,8 @@ upgini/utils/sklearn_ext.py,sha256=fvuTWJ5AnT3ED9KSaQu_yIgW2JR19hFlaGDoVP3k60g,4
 upgini/utils/target_utils.py,sha256=DH812qcZ7Pvf9WVVb33fbwQjb1W9h1hXRNCCiG7Y6tI,2563
 upgini/utils/track_info.py,sha256=EPcJ13Jqa17_T0JjM37Ac9kWDz5Zk0GVsIZKutOb8aU,5207
 upgini/utils/warning_counter.py,sha256=dIWBB4dI5XRRJZudvIlqlIYKEiwLLPcXarsZuYRt338,227
-upgini-1.1.246a101.dist-info/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
-upgini-1.1.246a101.dist-info/METADATA,sha256=VfuzobkBVkcJyRz_DEihRaROyfGPYnczR537L6mx2GU,48210
-upgini-1.1.246a101.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
-upgini-1.1.246a101.dist-info/top_level.txt,sha256=OFhTGiDIWKl5gFI49qvWq1R9IKflPaE2PekcbDXDtx4,7
-upgini-1.1.246a101.dist-info/RECORD,,
+upgini-1.1.248a1.dist-info/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
+upgini-1.1.248a1.dist-info/METADATA,sha256=leV6Cyrr3xf01Jd34x-1asI-e4rk2bjDPJvdUsaagNg,48208
+upgini-1.1.248a1.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
+upgini-1.1.248a1.dist-info/top_level.txt,sha256=OFhTGiDIWKl5gFI49qvWq1R9IKflPaE2PekcbDXDtx4,7
+upgini-1.1.248a1.dist-info/RECORD,,

{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/LICENSE RENAMED Viewed

File without changes

{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/WHEEL RENAMED Viewed

File without changes

{upgini-1.1.246a101.dist-info → upgini-1.1.248a1.dist-info}/top_level.txt RENAMED Viewed

File without changes

upgini 1.1.246a101__py3-none-any.whl → 1.1.248a1__py3-none-any.whl

Potentially problematic release.

upgini 1.1.246a101py3-none-any.whl → 1.1.248a1py3-none-any.whl