PyPI - upgini - Versions diffs - 1.2.112__py3-none-any.whl → 1.2.113a1__py3-none-any.whl - Mend

upgini 1.2.112py3-none-any.whl → 1.2.113a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

upgini/__about__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "1.2.~~112~~"
1	+ __version__ = "1.2.113a1"

upgini/features_enricher.py CHANGED Viewed

@@ -415,6 +415,7 @@ class FeaturesEnricher(TransformerMixin):
         y: Union[pd.Series, np.ndarray, List],
         eval_set: Optional[Union[List[tuple], tuple]] = None,
         *args,
+        oot: Union[pd.DataFrame, pd.Series, np.ndarray, None] = None,
         exclude_features_sources: Optional[List[str]] = None,
         calculate_metrics: Optional[bool] = None,
         estimator: Optional[Any] = None,
@@ -443,6 +444,9 @@ class FeaturesEnricher(TransformerMixin):
         eval_set: List[tuple], optional (default=None)
             List of pairs (X, y) for validation.
+        oot: pandas.DataFrame of shape (n_samples, n_features)
+            Out of time data.
         importance_threshold: float, optional (default=None)
             Minimum SHAP value to select a feature. Default value is 0.0.
@@ -508,7 +512,8 @@ class FeaturesEnricher(TransformerMixin):
                     X,
                     y,
                     self.eval_set,
-                    progress_bar,
+                    oot=oot,
+                    progress_bar=progress_bar,
                     start_time=start_time,
                     exclude_features_sources=exclude_features_sources,
                     calculate_metrics=calculate_metrics,
@@ -563,6 +568,7 @@ class FeaturesEnricher(TransformerMixin):
         y: Union[pd.DataFrame, pd.Series, np.ndarray, List],
         eval_set: Optional[Union[List[tuple], tuple]] = None,
         *args,
+        oot: Union[pd.DataFrame, pd.Series, np.ndarray, None] = None,
         exclude_features_sources: Optional[List[str]] = None,
         keep_input: bool = True,
         importance_threshold: Optional[float] = None,
@@ -667,7 +673,8 @@ class FeaturesEnricher(TransformerMixin):
                     X,
                     y,
                     self.eval_set,
-                    progress_bar,
+                    oot=oot,
+                    progress_bar=progress_bar,
                     start_time=start_time,
                     exclude_features_sources=exclude_features_sources,
                     calculate_metrics=calculate_metrics,
@@ -940,7 +947,7 @@ class FeaturesEnricher(TransformerMixin):
             ):
                 raise ValidationError(self.bundle.get("metrics_unfitted_enricher"))
-            validated_X, validated_y, validated_eval_set = self._validate_train_eval(
+            validated_X, validated_y, validated_eval_set, _ = self._validate_train_eval(
                 effective_X, effective_y, effective_eval_set
             )
@@ -1535,7 +1542,7 @@ class FeaturesEnricher(TransformerMixin):
         is_input_same_as_fit, X, y, eval_set = self._is_input_same_as_fit(X, y, eval_set)
         is_demo_dataset = hash_input(X, y, eval_set) in DEMO_DATASET_HASHES
         checked_eval_set = self._check_eval_set(eval_set, X, self.bundle)
-        validated_X, validated_y, validated_eval_set = self._validate_train_eval(X, y, checked_eval_set)
+        validated_X, validated_y, validated_eval_set, _ = self._validate_train_eval(X, y, checked_eval_set)
         sampled_data = self._get_enriched_for_metrics(
             trace_id,
@@ -1931,11 +1938,8 @@ class FeaturesEnricher(TransformerMixin):
         )
         # Handle eval sets extraction based on EVAL_SET_INDEX
-        if EVAL_SET_INDEX in enriched_Xy.columns:
-            eval_set_indices = list(enriched_Xy[EVAL_SET_INDEX].unique())
-            if 0 in eval_set_indices:
-                eval_set_indices.remove(0)
-            for eval_set_index in eval_set_indices:
+        if EVAL_SET_INDEX in enriched_Xy.columns and eval_set is not None:
+            for eval_set_index in range(1, len(eval_set) + 1):
                 enriched_eval_sets[eval_set_index] = enriched_Xy.loc[
                     enriched_Xy[EVAL_SET_INDEX] == eval_set_index
                 ].copy()
@@ -2047,7 +2051,11 @@ class FeaturesEnricher(TransformerMixin):
         )
     def __combine_train_and_eval_sets(
-        self, X: pd.DataFrame, y: Optional[pd.Series] = None, eval_set: Optional[List[tuple]] = None
+        self,
+        X: pd.DataFrame,
+        y: Optional[pd.Series] = None,
+        eval_set: Optional[List[tuple]] = None,
+        oot: Optional[pd.DataFrame] = None,
     ) -> pd.DataFrame:
         df = X.copy()
         if y is not None:
@@ -2063,6 +2071,11 @@ class FeaturesEnricher(TransformerMixin):
             eval_df_with_index[TARGET] = eval_y
             eval_df_with_index[EVAL_SET_INDEX] = idx + 1
             df = pd.concat([df, eval_df_with_index])
+        if oot is not None:
+            oot_df_with_index = oot.copy()
+            oot_df_with_index[EVAL_SET_INDEX] = -1
+            df = pd.concat([df, oot_df_with_index])
         return df
@@ -2115,12 +2128,12 @@ class FeaturesEnricher(TransformerMixin):
     ) -> Dict[int, Tuple]:
         eval_set_sampled_dict = {}
-        for idx in range(eval_set_len):
-            enriched_eval_xy = enriched_df.query(f"{EVAL_SET_INDEX} == {idx + 1}")
+        for idx in range(1, eval_set_len + 1):
+            enriched_eval_xy = enriched_df.query(f"{EVAL_SET_INDEX} == {idx}")
             eval_x_sampled = enriched_eval_xy[x_columns].copy()
             eval_y_sampled = enriched_eval_xy[TARGET].copy()
             enriched_eval_x = enriched_eval_xy[enriched_X_columns].copy()
-            eval_set_sampled_dict[idx] = (eval_x_sampled, enriched_eval_x, eval_y_sampled)
+            eval_set_sampled_dict[idx - 1] = (eval_x_sampled, enriched_eval_x, eval_y_sampled)
         return eval_set_sampled_dict
@@ -2312,10 +2325,10 @@ if response.status_code == 200:
         with MDC(trace_id=trace_id, search_id=search_id):
             self.logger.info("Start transform")
-            validated_X, validated_y, validated_eval_set = self._validate_train_eval(
-                X, y, eval_set=None, is_transform=True
+            validated_X, validated_y, _, _ = self._validate_train_eval(
+                X, y, is_transform=True
             )
-            df = self.__combine_train_and_eval_sets(validated_X, validated_y, validated_eval_set)
+            df = self.__combine_train_and_eval_sets(validated_X, validated_y)
             validated_Xy = df.copy()
@@ -2790,9 +2803,10 @@ if response.status_code == 200:
         X: Union[pd.DataFrame, pd.Series, np.ndarray],
         y: Union[pd.DataFrame, pd.Series, np.ndarray, List, None],
         eval_set: Optional[List[tuple]],
+        *,
+        oot: Union[pd.DataFrame, pd.Series, np.ndarray, None] = None,
         progress_bar: Optional[ProgressBar],
         start_time: int,
-        *,
         exclude_features_sources: Optional[List[str]] = None,
         calculate_metrics: Optional[bool],
         scoring: Union[Callable, str, None],
@@ -2813,7 +2827,7 @@ if response.status_code == 200:
         self.fit_dropped_features = set()
         self.fit_generated_features = []
-        validated_X, validated_y, validated_eval_set = self._validate_train_eval(X, y, eval_set)
+        validated_X, validated_y, validated_eval_set, validated_oot = self._validate_train_eval(X, y, eval_set, oot)
         is_demo_dataset = hash_input(validated_X, validated_y, validated_eval_set) in DEMO_DATASET_HASHES
         if is_demo_dataset:
@@ -2854,6 +2868,7 @@ if response.status_code == 200:
             validated_X,
             validated_y,
             validated_eval_set,
+            validated_oot,
             exclude_features_sources=exclude_features_sources,
             calculate_metrics=calculate_metrics,
             scoring=scoring,
@@ -2861,7 +2876,7 @@ if response.status_code == 200:
             remove_outliers_calc_metrics=remove_outliers_calc_metrics,
         )
-        df = self.__combine_train_and_eval_sets(validated_X, validated_y, validated_eval_set)
+        df = self.__combine_train_and_eval_sets(validated_X, validated_y, validated_eval_set, validated_oot)
         self.id_columns_encoder = OrdinalEncoder().fit(df[self.id_columns or []])
         self.fit_search_keys = self.search_keys.copy()
@@ -3288,12 +3303,14 @@ if response.status_code == 200:
         X: pd.DataFrame,
         y: Optional[pd.Series] = None,
         eval_set: Optional[List[Tuple[pd.DataFrame, pd.Series]]] = None,
+        oot: Union[pd.DataFrame, pd.Series, np.ndarray, None] = None,
         is_transform: bool = False,
     ) -> Tuple[pd.DataFrame, pd.Series, Optional[List[Tuple[pd.DataFrame, pd.Series]]]]:
         validated_X = self._validate_X(X, is_transform)
         validated_y = self._validate_y(validated_X, y, enforce_y=not is_transform)
         validated_eval_set = self._validate_eval_set(validated_X, eval_set)
-        return validated_X, validated_y, validated_eval_set
+        validated_oot = self._validate_oot(validated_X, oot)
+        return validated_X, validated_y, validated_eval_set, validated_oot
     def _encode_id_columns(
         self,
@@ -3429,6 +3446,49 @@ if response.status_code == 200:
             return None
         return [self._validate_eval_set_pair(X, eval_pair) for eval_pair in eval_set]
+    def _validate_oot(self, X: pd.DataFrame, oot: Optional[pd.DataFrame]):
+        if oot is None:
+            return None
+        if _num_samples(oot) == 0:
+            raise ValidationError(self.bundle.get("oot_is_empty"))
+        if isinstance(oot, pd.DataFrame):
+            if isinstance(oot.columns, pd.MultiIndex) or isinstance(oot.index, pd.MultiIndex):
+                raise ValidationError(self.bundle.get("oot_multiindex_unsupported"))
+            validated_oot = oot.copy()
+        elif isinstance(oot, pd.Series):
+            validated_oot = oot.to_frame()
+        elif isinstance(oot, (list, np.ndarray)):
+            validated_oot = pd.DataFrame(oot)
+            renaming = {c: str(c) for c in validated_oot.columns}
+            validated_oot = validated_oot.rename(columns=renaming)
+        else:
+            raise ValidationError(self.bundle.get("unsupported_type_oot").format(type(oot)))
+        if not validated_oot.index.is_unique:
+            raise ValidationError(self.bundle.get("non_unique_index_oot"))
+        if self.exclude_columns is not None:
+            validated_oot = validated_oot.drop(columns=self.exclude_columns, errors="ignore")
+        if self.baseline_score_column:
+            validated_oot[self.baseline_score_column] = validated_oot[self.baseline_score_column].astype(
+                "float64", errors="ignore"
+            )
+        if validated_oot.columns.to_list() != X.columns.to_list():
+            if set(validated_oot.columns.to_list()) == set(X.columns.to_list()):
+                validated_oot = validated_oot[X.columns.to_list()]
+            else:
+                raise ValidationError(self.bundle.get("oot_and_x_diff_shape"))
+        # Check for duplicates between train and eval sets by comparing all values
+        train_eval_intersection = pd.merge(X, validated_oot, how="inner")
+        if len(train_eval_intersection) > 0:
+            raise ValidationError(self.bundle.get("oot_has_train_samples"))
+        return validated_oot
     def _validate_eval_set_pair(self, X: pd.DataFrame, eval_pair: Tuple) -> Tuple[pd.DataFrame, pd.Series]:
         if len(eval_pair) != 2:
             raise ValidationError(self.bundle.get("eval_set_invalid_tuple_size").format(len(eval_pair)))
@@ -3600,6 +3660,7 @@ if response.status_code == 200:
         X: pd.DataFrame,
         y: Union[pd.Series, np.ndarray, list, None] = None,
         eval_set: Optional[List[tuple]] = None,
+        oot: Optional[pd.DataFrame] = None,
         exclude_features_sources: Optional[List[str]] = None,
         calculate_metrics: Optional[bool] = None,
         cv: Optional[Any] = None,
@@ -3668,6 +3729,8 @@ if response.status_code == 200:
                         self.logger.info(
                             f"First 10 rows of the eval_y_{idx} with shape {_num_samples(eval_y)}:\n{sample(eval_y)}"
                         )
+                if oot is not None:
+                    self.logger.info(f"First 10 rows of the oot with shape {oot.shape}:\n{sample(oot)}")
             do_without_pandas_limits(print_datasets_sample)
@@ -4577,7 +4640,7 @@ if response.status_code == 200:
             print(msg)
     def _validate_PSI(self, df: pd.DataFrame):
-        if EVAL_SET_INDEX in df.columns:
+        if EVAL_SET_INDEX in df.columns and (df[EVAL_SET_INDEX] == 1).any():
             train = df.query(f"{EVAL_SET_INDEX} == 0")
             eval1 = df.query(f"{EVAL_SET_INDEX} == 1")
         else:

upgini/resource_bundle/strings.properties CHANGED Viewed

@@ -139,6 +139,13 @@ eval_x_is_empty=X in eval_set is empty.
 eval_y_is_empty=y in eval_set is empty.
 x_and_eval_x_diff_types=X and eval_set X has different types: {} and {}
 eval_x_has_train_samples=Eval set X has rows that are present in train set X
+# OOT
+oot_is_empty=Out of time data is empty
+oot_multiindex_unsupported=Multi index in out of time data is not supported
+unsupported_type_oot=Unsupported type of out of time data: {}. Use pandas.DataFrame, pandas.Series or numpy.ndarray
+non_unique_index_oot=Out of time data has non unique index. Use reset_index
+oot_and_x_diff_shape=Out of time data has different columns than train set X
+oot_has_train_samples=Out of time data has rows that are present in train set X
 baseline_score_column_not_exists=baseline_score_column {} doesn't exist in input dataframe
 baseline_score_column_has_na=baseline_score_column contains NaN. Clear it and and retry

{upgini-1.2.112.dist-info → upgini-1.2.113a1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.112
+Version: 1.2.113a1
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

{upgini-1.2.112.dist-info → upgini-1.2.113a1.dist-info}/RECORD RENAMED Viewed

@@ -1,9 +1,9 @@
-upgini/__about__.py,sha256=2l59GHTYScTlsiV491ecYRn_6bm6FIVavXCWQJfNn2Q,24
+upgini/__about__.py,sha256=H2pDgAfR-AAZibgkBF4HysX4COuPa8QPX6H6srUsYKU,26
 upgini/__init__.py,sha256=LXSfTNU0HnlOkE69VCxkgIKDhWP-JFo_eBQ71OxTr5Y,261
 upgini/ads.py,sha256=nvuRxRx5MHDMgPr9SiU-fsqRdFaBv8p4_v1oqiysKpc,2714
 upgini/dataset.py,sha256=xFi0a-A3uvtxVwFM6JOyitkEPd1I2slIBj5SWfys3hQ,32724
 upgini/errors.py,sha256=2b_Wbo0OYhLUbrZqdLIx5jBnAsiD1Mcenh-VjR4HCTw,950
-upgini/features_enricher.py,sha256=rfVdHgUYEq9saqhWcI04jUmNQcAAn5Kto4w3WpxlOpA,221762
+upgini/features_enricher.py,sha256=lWcxE606_hSGXcFG3lXKzWCwNaAVHN0_j9AUWi1CTkc,224671
 upgini/http.py,sha256=zeAZvT6IAzOs9jQ3WG8mJBANLajgvv2LZePFzKz004w,45482
 upgini/metadata.py,sha256=9_0lFEWPpIHRBW-xWYSEcwPzICTC6_bQ6dUUlE75Xns,12773
 upgini/metrics.py,sha256=V2SP6NS5bfFHzRqufeKVsCXME1yG4t_8Dmk2E3zKdYk,45715
@@ -38,7 +38,7 @@ upgini/normalizer/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU
 upgini/normalizer/normalize_utils.py,sha256=mDh2mBW3aQMB4EFP2aHbf2dGMVkOcWnp4sKKvKDBh8w,8511
 upgini/resource_bundle/__init__.py,sha256=S5F2G47pnJd2LDpmFsjDqEwiKkP8Hm-hcseDbMka6Ko,8345
 upgini/resource_bundle/exceptions.py,sha256=5fRvx0_vWdE1-7HcSgF0tckB4A9AKyf5RiinZkInTsI,621
-upgini/resource_bundle/strings.properties,sha256=NyxRwzehkrL5LMoVyjkhN811MvalepavNfjlC9ubE0Q,28677
+upgini/resource_bundle/strings.properties,sha256=2ohGjki3qn1fkRKDCFm8Hy1DU-3HEP_b3AVHBJka4vg,29147
 upgini/resource_bundle/strings_widget.properties,sha256=gOdqvZWntP2LCza_tyVk1_yRYcG4c04K9sQOAVhF_gw,1577
 upgini/sampler/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 upgini/sampler/base.py,sha256=7GpjYqjOp58vYcJLiX__1R5wjUlyQbxvHJ2klFnup_M,6389
@@ -71,7 +71,7 @@ upgini/utils/target_utils.py,sha256=i3Xt5l9ybB2_nF_ma5cfPuL3OeFTs2dY2xDI0p4Azpg,
 upgini/utils/track_info.py,sha256=G5Lu1xxakg2_TQjKZk4b5SvrHsATTXNVV3NbvWtT8k8,5663
 upgini/utils/ts_utils.py,sha256=26vhC0pN7vLXK6R09EEkMK3Lwb9IVPH7LRdqFIQ3kPs,1383
 upgini/utils/warning_counter.py,sha256=-GRY8EUggEBKODPSuXAkHn9KnEQwAORC0mmz_tim-PM,254
-upgini-1.2.112.dist-info/METADATA,sha256=0FctuJ3ulRlAtYCinvR1Y0Q3cD7yffMLLfWI7LctDBY,49529
-upgini-1.2.112.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
-upgini-1.2.112.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
-upgini-1.2.112.dist-info/RECORD,,
+upgini-1.2.113a1.dist-info/METADATA,sha256=An6LMif5xPvDV-osNxUvgAaz3xsvTnsQ4CnsNF5b6AQ,49531
+upgini-1.2.113a1.dist-info/WHEEL,sha256=1yFddiXMmvYK7QYTqtRNtX66WJ0Mz8PYEiEUoOUUxRY,87
+upgini-1.2.113a1.dist-info/licenses/LICENSE,sha256=5RRzgvdJUu3BUDfv4bzVU6FqKgwHlIay63pPCSmSgzw,1514
+upgini-1.2.113a1.dist-info/RECORD,,

{upgini-1.2.112.dist-info → upgini-1.2.113a1.dist-info}/WHEEL RENAMED Viewed

File without changes

{upgini-1.2.112.dist-info → upgini-1.2.113a1.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

upgini 1.2.112__py3-none-any.whl → 1.2.113a1__py3-none-any.whl

upgini 1.2.112py3-none-any.whl → 1.2.113a1py3-none-any.whl