PyPI - upgini - Versions diffs - 1.1.274__tar.gz → 1.1.274a1__tar.gz - Mend

upgini 1.1.274tar.gz → 1.1.274a1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (85) hide show

{upgini-1.1.274/src/upgini.egg-info → upgini-1.1.274a1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.274
+Version: 1.1.274a1
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers
@@ -28,7 +28,7 @@ Description-Content-Type: text/markdown
 License-File: LICENSE
 Requires-Dist: python-dateutil>=2.8.0
 Requires-Dist: requests>=2.8.0
-Requires-Dist: pandas<3.0.0,>=1.1.0
+Requires-Dist: pandas<2.1.0,>=1.1.0
 Requires-Dist: numpy>=1.19.0
 Requires-Dist: scikit-learn>=1.3.0
 Requires-Dist: pydantic<2.0.0,>=1.8.2

{upgini-1.1.274 → upgini-1.1.274a1}/setup.py RENAMED Viewed

@@ -40,7 +40,7 @@ def send_log(msg: str):
 here = Path(__file__).parent.resolve()
-version = "1.1.274"
+version = "1.1.274a1"
 try:
     send_log(f"Start setup PyLib version {version}")
     setup(
@@ -77,7 +77,7 @@ try:
         install_requires=[
             "python-dateutil>=2.8.0",
             "requests>=2.8.0",
-            "pandas>=1.1.0,<3.0.0",
+            "pandas>=1.1.0,<2.1.0",
             "numpy>=1.19.0",
             "scikit-learn>=1.3.0",
             "pydantic>=1.8.2,<2.0.0",

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/autofe/date.py RENAMED Viewed

@@ -2,7 +2,6 @@ from typing import Any, Optional, Union
 import numpy as np
 import pandas as pd
 from pydantic import BaseModel
-from pandas.core.arrays.timedeltas import TimedeltaArray
 from upgini.autofe.operand import PandasOperand
@@ -47,7 +46,6 @@ class DateDiffType2(PandasOperand, DateDiffMixin):
         future = right + (left.dt.year - right.dt.year).apply(
             lambda y: np.datetime64("NaT") if np.isnan(y) else pd.tseries.offsets.DateOffset(years=y)
         )
-        future = pd.to_datetime(future)
         before = future[future < left]
         future[future < left] = before + pd.tseries.offsets.DateOffset(years=1)
         diff = (future - left) / np.timedelta64(1, self.diff_unit)
@@ -74,13 +72,8 @@ class DateListDiff(PandasOperand, DateDiffMixin):
         return pd.Series(left - right.values).apply(lambda x: self._agg(self._diff(x)))
-    def _diff(self, x: TimedeltaArray):
-        if self.diff_unit == "Y":
-            x = (x / 365 / 24 / 60 / 60 / 10**9).astype(int)
-        elif self.diff_unit == "M":
-            raise Exception("Unsupported difference unit: Month")
-        else:
-            x = x / np.timedelta64(1, self.diff_unit)
+    def _diff(self, x):
+        x = x / np.timedelta64(1, self.diff_unit)
         return x[x > 0]
     def _agg(self, x):

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

@@ -48,7 +48,6 @@ class DataSourcePublisher:
         data_table_uri: str,
         search_keys: Dict[str, SearchKey],
         update_frequency: str,
-        exclude_from_autofe_generation: Optional[List[str]],
         secondary_search_keys: Optional[Dict[str, SearchKey]] = None,
         sort_column: Optional[str] = None,
         date_format: Optional[str] = None,
@@ -58,6 +57,7 @@ class DataSourcePublisher:
         join_date_abs_limit_days: Optional[int] = None,
         features_for_embeddings: Optional[List[str]] = DEFAULT_GENERATE_EMBEDDINGS,
         data_table_id_to_replace: Optional[str] = None,
+        exclude_from_autofe_generation: Optional[List[str]] = None,
         _force_generation=False,
         _silent=False,
     ) -> str:

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/features_enricher.py RENAMED Viewed

@@ -1,5 +1,4 @@
 import dataclasses
-import datetime
 import gc
 import hashlib
 import itertools
@@ -147,7 +146,6 @@ class FeaturesEnricher(TransformerMixin):
     """
     TARGET_NAME = "target"
-    CURRENT_DATE = "current_date"
     RANDOM_STATE = 42
     CALCULATE_METRICS_THRESHOLD = 50_000_000
     CALCULATE_METRICS_MIN_THRESHOLD = 500
@@ -209,7 +207,6 @@ class FeaturesEnricher(TransformerMixin):
         client_ip: Optional[str] = None,
         client_visitorid: Optional[str] = None,
         custom_bundle_config: Optional[str] = None,
-        add_date_if_missing: bool = True,
         **kwargs,
     ):
         self.bundle = get_custom_bundle(custom_bundle_config)
@@ -320,7 +317,6 @@ class FeaturesEnricher(TransformerMixin):
         self.raise_validation_error = raise_validation_error
         self.exclude_columns = exclude_columns
         self.baseline_score_column = baseline_score_column
-        self.add_date_if_missing = add_date_if_missing
     def _get_api_key(self):
         return self._api_key
@@ -424,9 +420,6 @@ class FeaturesEnricher(TransformerMixin):
             self.__validate_search_keys(self.search_keys, self.search_id)
-            # Validate client estimator params
-            self._get_client_cat_features(estimator, X, self.search_keys)
             try:
                 self.X = X
                 self.y = y
@@ -820,7 +813,6 @@ class FeaturesEnricher(TransformerMixin):
         trace_id = trace_id or str(uuid.uuid4())
         start_time = time.time()
         with MDC(trace_id=trace_id):
-            self.logger.info("Start calculate metrics")
             if len(args) > 0:
                 msg = f"WARNING: Unsupported positional arguments for calculate_metrics: {args}"
                 self.logger.warning(msg)
@@ -872,9 +864,22 @@ class FeaturesEnricher(TransformerMixin):
                     self.__display_support_link(msg)
                     return None
-                cat_features, search_keys_for_metrics = self._get_client_cat_features(
-                    estimator, effective_X, self.search_keys
-                )
+                cat_features = None
+                search_keys_for_metrics = []
+                if (
+                    estimator is not None
+                    and hasattr(estimator, "get_param")
+                    and estimator.get_param("cat_features") is not None
+                ):
+                    cat_features = estimator.get_param("cat_features")
+                    if len(cat_features) > 0 and isinstance(cat_features[0], int):
+                        cat_features = [effective_X.columns[i] for i in cat_features]
+                        for cat_feature in cat_features:
+                            if cat_feature in self.search_keys:
+                                if self.search_keys[cat_feature] in [SearchKey.COUNTRY, SearchKey.POSTAL_CODE]:
+                                    search_keys_for_metrics.append(cat_feature)
+                                else:
+                                    raise ValidationError(self.bundle.get("cat_feature_search_key").format(cat_feature))
                 prepared_data = self._prepare_data_for_metrics(
                     trace_id=trace_id,
@@ -889,7 +894,6 @@ class FeaturesEnricher(TransformerMixin):
                     search_keys_for_metrics=search_keys_for_metrics,
                     progress_bar=progress_bar,
                     progress_callback=progress_callback,
-                    cat_features=cat_features,
                 )
                 if prepared_data is None:
                     return None
@@ -1265,29 +1269,6 @@ class FeaturesEnricher(TransformerMixin):
         return _cv, groups
-    def _get_client_cat_features(
-        self, estimator: Optional[Any], X: pd.DataFrame, search_keys: Dict[str, SearchKey]
-    ) -> Optional[List[str]]:
-        cat_features = None
-        search_keys_for_metrics = []
-        if (
-            estimator is not None
-            and hasattr(estimator, "get_param")
-            and estimator.get_param("cat_features") is not None
-        ):
-            cat_features = estimator.get_param("cat_features")
-            if len(cat_features) > 0:
-                if all([isinstance(f, int) for f in cat_features]):
-                    cat_features = [X.columns[i] for i in cat_features]
-                self.logger.info(f"Collected categorical features {cat_features} from user estimator")
-                for cat_feature in cat_features:
-                    if cat_feature in search_keys:
-                        if search_keys[cat_feature] in [SearchKey.COUNTRY, SearchKey.POSTAL_CODE]:
-                            search_keys_for_metrics.append(cat_feature)
-                        else:
-                            raise ValidationError(self.bundle.get("cat_feature_search_key").format(cat_feature))
-        return cat_features, search_keys_for_metrics
     def _prepare_data_for_metrics(
         self,
         trace_id: str,
@@ -1302,7 +1283,6 @@ class FeaturesEnricher(TransformerMixin):
         search_keys_for_metrics: Optional[List[str]] = None,
         progress_bar: Optional[ProgressBar] = None,
         progress_callback: Optional[Callable[[SearchProgress], Any]] = None,
-        cat_features: Optional[List[str]] = None,
     ):
         is_input_same_as_fit, X, y, eval_set = self._is_input_same_as_fit(X, y, eval_set)
         is_demo_dataset = hash_input(X, y, eval_set) in DEMO_DATASET_HASHES
@@ -1360,8 +1340,9 @@ class FeaturesEnricher(TransformerMixin):
         # Detect and drop high cardinality columns in train
         columns_with_high_cardinality = FeaturesValidator.find_high_cardinality(fitting_X)
-        non_excluding_columns = (self.generate_features or []) + (cat_features or [])
-        columns_with_high_cardinality = [c for c in columns_with_high_cardinality if c not in non_excluding_columns]
+        columns_with_high_cardinality = [
+            c for c in columns_with_high_cardinality if c not in (self.generate_features or [])
+        ]
         if len(columns_with_high_cardinality) > 0:
             self.logger.warning(
                 f"High cardinality columns {columns_with_high_cardinality} will be dropped for metrics calculation"
@@ -1823,11 +1804,10 @@ class FeaturesEnricher(TransformerMixin):
         else:
             features_section = ""
-        search_id = self._search_task.search_task_id
-        api_example = f"""curl 'https://search.upgini.com/online/api/http_inference_trigger?search_id={search_id}' \\
+        api_example = f"""curl 'https://inference-upgini.azurewebsites.net/api/http_inference_trigger' \\
     -H 'Authorization: {self.api_key}' \\
     -H 'Content-Type: application/json' \\
-    -d '{{"search_keys": {keys}{features_section}}}'"""
+    -d '{{"search_id": "{self._search_task.search_task_id}", "search_keys": {keys}{features_section}}}'"""
         return api_example
     def _get_copy_of_runtime_parameters(self) -> RuntimeParameters:
@@ -1922,8 +1902,6 @@ class FeaturesEnricher(TransformerMixin):
                 generated_features.extend(converter.generated_features)
             else:
                 self.logger.info("Input dataset hasn't date column")
-                if self.add_date_if_missing:
-                    df = self._add_current_date_as_key(df, search_keys, self.logger, self.bundle)
             email_column = self._get_email_column(search_keys)
             hem_column = self._get_hem_column(search_keys)
             email_converted_to_hem = False
@@ -2242,7 +2220,9 @@ class FeaturesEnricher(TransformerMixin):
         self.fit_search_keys = self.search_keys.copy()
         self.fit_search_keys = self.__prepare_search_keys(validated_X, self.fit_search_keys, is_demo_dataset)
-        validate_dates_distribution(validated_X, self.fit_search_keys, self.logger, self.bundle, self.warning_counter)
+        validate_dates_distribution(
+            validated_X, self.fit_search_keys, self.logger, self.bundle, self.warning_counter
+        )
         maybe_date_column = self._get_date_column(self.fit_search_keys)
         has_date = maybe_date_column is not None
@@ -2293,8 +2273,6 @@ class FeaturesEnricher(TransformerMixin):
             self.fit_generated_features.extend(converter.generated_features)
         else:
             self.logger.info("Input dataset hasn't date column")
-            if self.add_date_if_missing:
-                df = self._add_current_date_as_key(df, self.fit_search_keys, self.logger, self.bundle)
         email_column = self._get_email_column(self.fit_search_keys)
         hem_column = self._get_hem_column(self.fit_search_keys)
         email_converted_to_hem = False
@@ -2875,25 +2853,6 @@ class FeaturesEnricher(TransformerMixin):
             if t in [SearchKey.DATE, SearchKey.DATETIME]:
                 return col
-    @staticmethod
-    def _add_current_date_as_key(
-        df: pd.DataFrame, search_keys: Dict[str, SearchKey], logger: logging.Logger, bundle: ResourceBundle
-    ) -> pd.DataFrame:
-        if (
-            set(search_keys.values()) == {SearchKey.PHONE}
-            or set(search_keys.values()) == {SearchKey.EMAIL}
-            or set(search_keys.values()) == {SearchKey.HEM}
-            or set(search_keys.values()) == {SearchKey.COUNTRY, SearchKey.POSTAL_CODE}
-        ):
-            msg = bundle.get("current_date_added")
-            print(msg)
-            logger.warning(msg)
-            df[FeaturesEnricher.CURRENT_DATE] = datetime.date.today()
-            search_keys[FeaturesEnricher.CURRENT_DATE] = SearchKey.DATE
-            converter = DateTimeSearchKeyConverter(FeaturesEnricher.CURRENT_DATE, None, logger, bundle)
-            df = converter.convert(df)
-        return df
     @staticmethod
     def _get_group_columns(df: pd.DataFrame, search_keys: Dict[str, SearchKey]) -> List[str]:
         return [
@@ -2944,7 +2903,9 @@ class FeaturesEnricher(TransformerMixin):
                 [
                     c
                     for c in df.columns
-                    if c not in sort_columns and c not in sort_exclude_columns and df[c].nunique() > 1
+                    if c not in sort_columns
+                    and c not in sort_exclude_columns
+                    and df[c].nunique() > 1
                 ]
                 # [
                 #     sk

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/metrics.py RENAMED Viewed

@@ -1,4 +1,3 @@
-import inspect
 import logging
 import re
 from copy import deepcopy
@@ -382,11 +381,6 @@ class EstimatorWrapper:
             kwargs["estimator"] = estimator_copy
             if isinstance(estimator, CatBoostClassifier) or isinstance(estimator, CatBoostRegressor):
                 if cat_features is not None:
-                    for cat_feature in cat_features:
-                        if cat_feature not in X.columns:
-                            logger.error(
-                                f"Client cat_feature `{cat_feature}` not found in X columns: {X.columns.to_list()}"
-                            )
                     estimator_copy.set_params(
                         cat_features=[X.columns.get_loc(cat_feature) for cat_feature in cat_features]
                     )
@@ -653,12 +647,6 @@ class OtherEstimatorWrapper(EstimatorWrapper):
 def validate_scoring_argument(scoring: Union[Callable, str, None]):
     if isinstance(scoring, str) and scoring is not None:
         _get_scorer_by_name(scoring)
-    elif isinstance(scoring, Callable):
-        spec = inspect.getfullargspec(scoring)
-        if len(spec.args) < 3:
-            raise ValidationError(
-                f"Invalid scoring function passed {scoring}. It should accept 3 input arguments: estimator, X, y"
-            )
 def _get_scorer_by_name(scoring: str) -> Tuple[Callable, str, int]:

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/normalizer/phone_normalizer.py RENAMED Viewed

@@ -1,7 +1,7 @@
 from typing import Optional
 import pandas as pd
-from pandas.api.types import is_float_dtype, is_int64_dtype, is_string_dtype, is_object_dtype
+from pandas.api.types import is_float_dtype, is_int64_dtype, is_string_dtype
 from upgini.errors import ValidationError
@@ -44,7 +44,7 @@ class PhoneNormalizer:
         Method will remove all non numeric chars from string and convert it to int.
         None will be set for phone numbers that couldn"t be converted to int
         """
-        if is_string_dtype(self.df[self.phone_column_name]) or is_object_dtype(self.df[self.phone_column_name]):
+        if is_string_dtype(self.df[self.phone_column_name]):
             convert_func = self.phone_str_to_int_safe
         elif is_float_dtype(self.df[self.phone_column_name]):
             convert_func = self.phone_float_to_int_safe

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

@@ -38,7 +38,6 @@ loss_selection_warn=\nWARNING: Loss `{0}` is not supported for feature selection
 loss_calc_metrics_warn=\nWARNING: Loss `{0}` is not supported for metrics calculation with {1}
 multivariate_timeseries_detected=\nWARNING: Multivariate TimeSeries detected. Blocked time series cross-validation split selected.\nMore details: https://github.com/upgini/upgini#-time-series-prediction-support
 group_k_fold_in_classification=\nWARNING: Using group K-fold cross-validation split for classification task.
-current_date_added=\nWARNING: No date/datetime column was detected in X to be used as a search key. The current date will be used to match the latest version of data sources
 # Errors
 failed_search_by_task_id=Failed to retrieve the specified search results
@@ -159,7 +158,7 @@ dataset_invalid_multiclass_target=Unexpected dtype of target for multiclass task
 dataset_invalid_regression_target=Unexpected dtype of target for regression task type: {}. Expected float
 dataset_invalid_timeseries_target=Unexpected dtype of target for timeseries task type: {}. Expected float
 dataset_to_many_multiclass_targets=The number of target classes {} exceeds the allowed threshold: {}. Please, correct your data and try again
-dataset_rarest_class_less_min=Count of rows with the rarest class `{}` is {}, minimum count must be > {} for each class\nPlease, remove rows with rarest class from your dataframe
+dataset_rarest_class_less_min=Frequency of the rarest class `{}` is {}, minimum frequency must be > {} for each class\nPlease, remove rows with rarest class from your dataframe
 dataset_rarest_class_less_threshold=\nWARNING: Target is imbalanced and will be undersampled to the rarest class. Frequency of the rarest class `{}` is {}\nMinimum number of observations for each class to avoid undersampling {} ({}%)
 dataset_date_features=\nWARNING: Columns {} is a datetime or period type but not used as a search key, removed from X
 dataset_too_many_features=Too many features. Maximum number of features is {}

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/utils/datetime_utils.py RENAMED Viewed

@@ -100,9 +100,6 @@ class DateTimeSearchKeyConverter:
                 msg = self.bundle.get("unsupported_date_type").format(self.date_column)
                 self.logger.warning(msg)
                 raise ValidationError(msg)
-        else:
-            df[self.date_column] = df[self.date_column].astype("string").apply(self.clean_date)
-            df[self.date_column] = self.parse_date(df)
         # If column with date is datetime then extract seconds of the day and minute of the hour
         # as additional features

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini/utils/track_info.py RENAMED Viewed

@@ -55,7 +55,7 @@ def _get_execution_ide() -> str:
 def get_track_metrics(client_ip: Optional[str] = None, client_visitorid: Optional[str] = None) -> dict:
     # default values
     track = {"ide": _get_execution_ide()}
-    ident_res = "https://api64.ipify.org"
+    ident_res = "https://api.ipify.org"
     try:
         track["hostname"] = socket.gethostname()
@@ -74,20 +74,17 @@ def get_track_metrics(client_ip: Optional[str] = None, client_visitorid: Optiona
             display(
                 Javascript(
                     """
-                    async function getVisitorId() {
-                        return import('https://upgini.github.io/upgini/js/a.js')
+                        import('https://upgini.github.io/upgini/js/a.js')
                             .then(FingerprintJS => FingerprintJS.load())
                             .then(fp => fp.get())
-                            .then(result => result.visitorId);
-                    }
+                            .then(result => window.visitorId = result.visitorId);
                     """
                 )
             )
-            track["visitorId"] = output.eval_js("getVisitorId()", timeout_sec=30)
+            track["visitorId"] = output.eval_js("window.visitorId", timeout_sec=10)
         except Exception as e:
             track["err"] = str(e)
-            if "visitorId" not in track:
-                track["visitorId"] = "None"
+            track["visitorId"] = "None"
         if client_ip:
             track["ip"] = client_ip
         else:
@@ -98,19 +95,16 @@ def get_track_metrics(client_ip: Optional[str] = None, client_visitorid: Optiona
                 display(
                     Javascript(
                         f"""
-                        async function getIP() {{
-                            return fetch("{ident_res}")
+                            fetch("{ident_res}")
                                 .then(response => response.text())
-                                .then(data => data);
-                        }}
+                                .then(data => window.clientIP = data);
                         """
                     )
                 )
-                track["ip"] = output.eval_js("getIP()", timeout_sec=10)
+                track["ip"] = output.eval_js("window.clientIP", timeout_sec=10)
             except Exception as e:
                 track["err"] = str(e)
-                if "ip" not in track:
-                    track["ip"] = "0.0.0.0"
+                track["ip"] = "0.0.0.0"
     elif track["ide"] == "binder":
         try:
@@ -122,10 +116,8 @@ def get_track_metrics(client_ip: Optional[str] = None, client_visitorid: Optiona
                 track["visitorId"] = sha256(os.environ["CLIENT_IP"].encode()).hexdigest()
         except Exception as e:
             track["err"] = str(e)
-            if "ip" not in track:
-                track["ip"] = "0.0.0.0"
-            if "visitorId" not in track:
-                track["visitorId"] = "None"
+            track["ip"] = "0.0.0.0"
+            track["visitorId"] = "None"
     elif track["ide"] == "kaggle":
         try:
@@ -144,8 +136,8 @@ def get_track_metrics(client_ip: Optional[str] = None, client_visitorid: Optiona
                     raise Exception(err)
         except Exception as e:
             track["err"] = str(e)
-            if "visitorId" not in track:
-                track["visitorId"] = "None"
+            track["ip"] = "0.0.0.0"
+            track["visitorId"] = "None"
     else:
         try:
             if client_ip:
@@ -158,9 +150,5 @@ def get_track_metrics(client_ip: Optional[str] = None, client_visitorid: Optiona
                 track["visitorId"] = sha256(str(getnode()).encode()).hexdigest()
         except Exception as e:
             track["err"] = str(e)
-            if "visitorId" not in track:
-                track["visitorId"] = "None"
-            if "ip" not in track:
-                track["ip"] = "0.0.0.0"
     return track

{upgini-1.1.274 → upgini-1.1.274a1/src/upgini.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.274
+Version: 1.1.274a1
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers
@@ -28,7 +28,7 @@ Description-Content-Type: text/markdown
 License-File: LICENSE
 Requires-Dist: python-dateutil>=2.8.0
 Requires-Dist: requests>=2.8.0
-Requires-Dist: pandas<3.0.0,>=1.1.0
+Requires-Dist: pandas<2.1.0,>=1.1.0
 Requires-Dist: numpy>=1.19.0
 Requires-Dist: scikit-learn>=1.3.0
 Requires-Dist: pydantic<2.0.0,>=1.8.2

{upgini-1.1.274 → upgini-1.1.274a1}/src/upgini.egg-info/requires.txt RENAMED Viewed

@@ -1,6 +1,6 @@
 python-dateutil>=2.8.0
 requests>=2.8.0
-pandas<3.0.0,>=1.1.0
+pandas<2.1.0,>=1.1.0
 numpy>=1.19.0
 scikit-learn>=1.3.0
 pydantic<2.0.0,>=1.8.2

{upgini-1.1.274 → upgini-1.1.274a1}/tests/test_autofe_operands.py RENAMED Viewed

@@ -30,8 +30,7 @@ def test_date_diff_type2():
     operand = DateDiffType2(left_unit="s")
     expected_result = pd.Series([61.0, 182.0])
-    actual = operand.calculate_binary(df.date1, df.date2)
-    assert_series_equal(actual, expected_result)
+    assert_series_equal(operand.calculate_binary(df.date1, df.date2), expected_result)
 def test_date_diff_list():

{upgini-1.1.274 → upgini-1.1.274a1}/tests/test_features_enricher.py RENAMED Viewed

@@ -246,7 +246,7 @@ def test_eval_set_with_diff_order_of_columns(requests_mock: Mocker):
     eval1_df = df[10000:11000].reset_index(drop=True)
     eval1_features = eval1_df.drop(columns="target")
     # shuffle columns
-    eval1_features = eval1_features[list(eval1_features.columns)]
+    eval1_features = eval1_features[set(eval1_features.columns)]
     eval1_target = eval1_df["target"].reset_index(drop=True)
     eval2_df = df[11000:12000]
@@ -375,7 +375,7 @@ def test_saved_features_enricher(requests_mock: Mocker):
     url = "http://fake_url2"
     path_to_mock_features = os.path.join(
-        os.path.dirname(os.path.realpath(__file__)), "test_data/binary/validation_features_v3.parquet"
+        os.path.dirname(os.path.realpath(__file__)), "test_data/binary/validation_features.parquet"
     )
     mock_default_requests(requests_mock, url)
@@ -462,7 +462,7 @@ def test_saved_features_enricher(requests_mock: Mocker):
             segment_header: [train_segment, eval_1_segment, eval_2_segment],
             rows_header: [10000, 1000, 1000],
             target_mean_header: [0.5044, 0.487, 0.486],
-            enriched_gini: [0.021830, -0.006607, -0.018483],
+            enriched_gini: [-0.000136, 0.000000, -0.003728],
         }
     )
     print("Expected metrics: ")
@@ -487,13 +487,16 @@ def test_saved_features_enricher(requests_mock: Mocker):
     train_random_indices = random.choice(train_target.index, size=9000, replace=False)
     train_target.loc[train_random_indices] = 0
-    metrics = enricher.calculate_metrics(train_features, train_target)
+    metrics = enricher.calculate_metrics(
+        train_features,
+        train_target
+    )
     expected_metrics = pd.DataFrame(
         {
             segment_header: [train_segment],
             rows_header: [10000],
             target_mean_header: [0.049],
-            enriched_gini: [0.054454],
+            enriched_gini: [0.000985],
         }
     )
     print("Expected metrics: ")
@@ -2227,9 +2230,8 @@ def test_email_search_key(requests_mock: Mocker):
             "hashed_email_64ff8c",
             "email_one_domain_3b0a68",
             "email_domain_10c73f",
-            "current_date_b993c4",
         }
-        assert {"hashed_email_64ff8c", "email_one_domain_3b0a68", "current_date_b993c4"} == {
+        assert {"hashed_email_64ff8c", "email_one_domain_3b0a68"} == {
             sk for sublist in self.search_keys for sk in sublist
         }
         raise TestException()
@@ -2274,18 +2276,10 @@ def test_composit_index_search_key(requests_mock: Mocker):
         **kwargs,
     ):
         self.validate()
-        assert set(self.columns.to_list()) == {
-            "system_record_id",
-            "country_aff64e",
-            "postal_code_13534a",
-            "current_date_b993c4",
-            "target",
-        }
+        assert set(self.columns.to_list()) == {"system_record_id", "country_aff64e", "postal_code_13534a", "target"}
         assert "country_aff64e" in self.columns
         assert "postal_code_13534a"
-        assert {"country_aff64e", "postal_code_13534a", "current_date_b993c4"} == {
-            sk for sublist in self.search_keys for sk in sublist
-        }
+        assert {"country_aff64e", "postal_code_13534a"} == {sk for sublist in self.search_keys for sk in sublist}
         # assert "country_fake_a" in self.columns
         # assert "postal_code_fake_a" in self.columns
         # assert {"country_fake_a", "postal_code_fake_a"} == {sk for sublist in self.search_keys for sk in sublist}
@@ -2658,4 +2652,5 @@ class DataFrameWrapper:
 class TestException(Exception):
-    pass
+    def __init__(self):
+        super().__init__()