PyPI - upgini - Versions diffs - 1.2.38a3769.dev11__tar.gz → 1.2.39__tar.gz - Mend

upgini 1.2.38a3769.dev11tar.gz → 1.2.39tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (67) hide show

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.38a3769.dev11
+Version: 1.2.39
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/
@@ -382,6 +382,7 @@ enricher = FeaturesEnricher(
 	date_format = "%Y-%d-%m"
 )
 ```
 ### 4. 🔍 Start your first feature search!
 The main abstraction you interact is `FeaturesEnricher`, a Scikit-learn compatible estimator.  You can easily add it into your existing ML pipelines.
 Create instance of the `FeaturesEnricher` class and call:
@@ -412,7 +413,7 @@ enricher = FeaturesEnricher(
 enricher.fit(X, y)
 ```
-That's all). We've fitted `FeaturesEnricher`.
+That's all! We've fit `FeaturesEnricher`.
 ### 5. 📈 Evaluate feature importances (SHAP values) from the search result
 `FeaturesEnricher` class has two properties for feature importances, which will be filled after fit - `feature_names_` and `feature_importances_`:
@@ -464,7 +465,7 @@ enricher = FeaturesEnricher(
 )
 ```
-## 💻 How it works?
+## 💻 How does it work?
 ### 🧹 Search dataset validation
 We validate and clean search initialization dataset under the hood:
@@ -506,6 +507,17 @@ enricher = FeaturesEnricher(
 	cv=CVType.time_series
 )
 ```
+If you're working with multivariate time series, you should specify id columns of individual univariate series in `FeaturesEnricher`. For example, if you have a dataset predicting sales for different stores and products, you should specify store and product id columns as follows:
+```python
+enricher = FeaturesEnricher(
+    search_keys={
+        "sales_date": SearchKey.DATE,
+    },
+    id_columns=["store_id", "product_id"],
+    cv=CVType.time_series
+)
+```
 ⚠️ **Pre-process search dataset** in case of time series prediction:
 sort rows in dataset according to observation order, in most cases - ascending order by date/datetime.

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/README.md RENAMED Viewed

@@ -340,6 +340,7 @@ enricher = FeaturesEnricher(
 	date_format = "%Y-%d-%m"
 )
 ```
 ### 4. 🔍 Start your first feature search!
 The main abstraction you interact is `FeaturesEnricher`, a Scikit-learn compatible estimator.  You can easily add it into your existing ML pipelines.
 Create instance of the `FeaturesEnricher` class and call:
@@ -370,7 +371,7 @@ enricher = FeaturesEnricher(
 enricher.fit(X, y)
 ```
-That's all). We've fitted `FeaturesEnricher`.
+That's all! We've fit `FeaturesEnricher`.
 ### 5. 📈 Evaluate feature importances (SHAP values) from the search result
 `FeaturesEnricher` class has two properties for feature importances, which will be filled after fit - `feature_names_` and `feature_importances_`:
@@ -422,7 +423,7 @@ enricher = FeaturesEnricher(
 )
 ```
-## 💻 How it works?
+## 💻 How does it work?
 ### 🧹 Search dataset validation
 We validate and clean search initialization dataset under the hood:
@@ -464,6 +465,17 @@ enricher = FeaturesEnricher(
 	cv=CVType.time_series
 )
 ```
+If you're working with multivariate time series, you should specify id columns of individual univariate series in `FeaturesEnricher`. For example, if you have a dataset predicting sales for different stores and products, you should specify store and product id columns as follows:
+```python
+enricher = FeaturesEnricher(
+    search_keys={
+        "sales_date": SearchKey.DATE,
+    },
+    id_columns=["store_id", "product_id"],
+    cv=CVType.time_series
+)
+```
 ⚠️ **Pre-process search dataset** in case of time series prediction:
 sort rows in dataset according to observation order, in most cases - ascending order by date/datetime.

upgini-1.2.39/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.2.39"

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/dataset.py RENAMED Viewed

@@ -77,6 +77,7 @@ class Dataset:  # (pd.DataFrame):
         unnest_search_keys: Optional[Dict[str, str]] = None,
         model_task_type: Optional[ModelTaskType] = None,
         cv_type: Optional[CVType] = None,
+        date_column: Optional[str] = None,
         id_columns: Optional[List[str]] = None,
         random_state: Optional[int] = None,
         rest_client: Optional[_RestClient] = None,
@@ -122,6 +123,7 @@ class Dataset:  # (pd.DataFrame):
         self.columns_renaming: Dict[str, str] = {}
         self.imbalanced: bool = False
         self.id_columns = id_columns
+        self.date_column = date_column
         if logger is not None:
             self.logger = logger
         else:
@@ -232,6 +234,7 @@ class Dataset:  # (pd.DataFrame):
                 target_column=target_column,
                 task_type=self.task_type,
                 cv_type=self.cv_type,
+                date_column=self.date_column,
                 id_columns=self.id_columns,
                 random_state=self.random_state,
                 sample_size=self.FORCE_SAMPLE_SIZE,

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/features_enricher.py RENAMED Viewed

@@ -932,9 +932,7 @@ class FeaturesEnricher(TransformerMixin):
                 cat_features, search_keys_for_metrics = self._get_client_cat_features(
                     estimator, validated_X, self.search_keys
                 )
-                search_keys_for_metrics.extend(
-                    [c for c in self.id_columns or [] if c not in search_keys_for_metrics]
-                )
+                search_keys_for_metrics.extend([c for c in self.id_columns or [] if c not in search_keys_for_metrics])
                 self.logger.info(f"Search keys for metrics: {search_keys_for_metrics}")
                 prepared_data = self._prepare_data_for_metrics(
@@ -2010,7 +2008,7 @@ class FeaturesEnricher(TransformerMixin):
             trace_id = trace_id or uuid.uuid4()
             return search_task.get_progress(trace_id)
-    def get_transactional_transform_api(self):
+    def get_transactional_transform_api(self, only_online_sources=False):
         if self.api_key is None:
             raise ValidationError(self.bundle.get("transactional_transform_unregistered"))
         if self._search_task is None:
@@ -2068,7 +2066,7 @@ class FeaturesEnricher(TransformerMixin):
         api_example = f"""curl 'https://search.upgini.com/online/api/http_inference_trigger?search_id={search_id}' \\
     -H 'Authorization: {self.api_key}' \\
     -H 'Content-Type: application/json' \\
-    -d '{{"search_keys": {keys}{features_section}}}'"""
+    -d '{{"search_keys": {keys}{features_section}, "only_online_sources": {str(only_online_sources).lower()}}}'"""
         return api_example
     def _get_copy_of_runtime_parameters(self) -> RuntimeParameters:
@@ -2112,13 +2110,15 @@ class FeaturesEnricher(TransformerMixin):
                 return None, {c: c for c in X.columns}, []
             features_meta = self._search_task.get_all_features_metadata_v2()
-            online_api_features = [fm.name for fm in features_meta if fm.from_online_api]
+            online_api_features = [fm.name for fm in features_meta if fm.from_online_api and fm.shap_value > 0]
             if len(online_api_features) > 0:
                 self.logger.warning(
                     f"There are important features for transform, that generated by online API: {online_api_features}"
                 )
-                # TODO
-                raise Exception("There are features selected that are paid. Contact support (sales@upgini.com)")
+                msg = self.bundle.get("online_api_features_transform").format(online_api_features)
+                self.logger.warning(msg)
+                print(msg)
+                print(self.get_transactional_transform_api(only_online_sources=True))
             if not metrics_calculation:
                 transform_usage = self.rest_client.get_current_transform_usage(trace_id)
@@ -2150,6 +2150,9 @@ class FeaturesEnricher(TransformerMixin):
                 validated_X = validated_X.drop(columns=columns_to_drop)
             search_keys = self.search_keys.copy()
+            if self.id_columns is not None and self.cv is not None and self.cv.is_time_series():
+                self.search_keys.update({col: SearchKey.CUSTOM_KEY for col in self.id_columns})
             search_keys = self.__prepare_search_keys(
                 validated_X, search_keys, is_demo_dataset, is_transform=True, silent_mode=silent_mode
             )
@@ -2307,7 +2310,8 @@ class FeaturesEnricher(TransformerMixin):
                 meaning_types=meaning_types,
                 search_keys=combined_search_keys,
                 unnest_search_keys=unnest_search_keys,
-                id_columns=self.__get_renamed_id_columns(),
+                id_columns=self.__get_renamed_id_columns(columns_renaming),
+                date_column=self._get_date_column(search_keys),
                 date_format=self.date_format,
                 rest_client=self.rest_client,
                 logger=self.logger,
@@ -2794,6 +2798,7 @@ class FeaturesEnricher(TransformerMixin):
             model_task_type=self.model_task_type,
             cv_type=self.cv,
             id_columns=self.__get_renamed_id_columns(),
+            date_column=self._get_date_column(self.fit_search_keys),
             date_format=self.date_format,
             random_state=self.random_state,
             rest_client=self.rest_client,
@@ -2953,8 +2958,9 @@ class FeaturesEnricher(TransformerMixin):
     def __should_add_date_column(self):
         return self.add_date_if_missing or (self.cv is not None and self.cv.is_time_series())
-    def __get_renamed_id_columns(self):
-        reverse_renaming = {v: k for k, v in self.fit_columns_renaming.items()}
+    def __get_renamed_id_columns(self, renaming: Optional[Dict[str, str]] = None):
+        renaming = renaming or self.fit_columns_renaming
+        reverse_renaming = {v: k for k, v in renaming.items()}
         return None if self.id_columns is None else [reverse_renaming.get(c) or c for c in self.id_columns]
     def __adjust_cv(self, df: pd.DataFrame):
@@ -3265,6 +3271,7 @@ class FeaturesEnricher(TransformerMixin):
                 f"Generate features: {self.generate_features}\n"
                 f"Round embeddings: {self.round_embeddings}\n"
                 f"Detect missing search keys: {self.detect_missing_search_keys}\n"
+                f"Exclude columns: {self.exclude_columns}\n"
                 f"Exclude features sources: {exclude_features_sources}\n"
                 f"Calculate metrics: {calculate_metrics}\n"
                 f"Scoring: {scoring}\n"
@@ -3272,6 +3279,15 @@ class FeaturesEnricher(TransformerMixin):
                 f"Remove target outliers: {remove_outliers_calc_metrics}\n"
                 f"Exclude columns: {self.exclude_columns}\n"
                 f"Search id: {self.search_id}\n"
+                f"Custom loss: {self.loss}\n"
+                f"Logs enabled: {self.logs_enabled}\n"
+                f"Raise validation error: {self.raise_validation_error}\n"
+                f"Baseline score column: {self.baseline_score_column}\n"
+                f"Client ip: {self.client_ip}\n"
+                f"Client visitorId: {self.client_visitorid}\n"
+                f"Add date if missing: {self.add_date_if_missing}\n"
+                f"Select features: {self.select_features}\n"
+                f"Disable force downsampling: {self.disable_force_downsampling}\n"
             )
             def sample(df):
@@ -3955,7 +3971,7 @@ class FeaturesEnricher(TransformerMixin):
             display_html_dataframe(self.metrics, self.metrics, msg)
     def __show_selected_features(self, search_keys: Dict[str, SearchKey]):
-        search_key_names = search_keys.keys()
+        search_key_names = [col for col, tpe in search_keys.items() if tpe != SearchKey.CUSTOM_KEY]
         if self.fit_columns_renaming:
             search_key_names = [self.fit_columns_renaming.get(col, col) for col in search_key_names]
         msg = self.bundle.get("features_info_header").format(len(self.feature_names_), search_key_names)

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

@@ -216,6 +216,7 @@ imbalanced_target=\nTarget is imbalanced and will be undersampled. Frequency of
 loss_selection_info=Using loss `{}` for feature selection
 loss_calc_metrics_info=Using loss `{}` for metrics calculation with default estimator
 forced_balance_undersample=For quick data retrieval, your dataset has been sampled. To use data search without data sampling please contact support (sales@upgini.com)
+online_api_features_transform=Please note that some of the selected features {} are provided through a slow enrichment interface and are not available via transformation. However, they can be accessed via the API:
 # Validation table
 validation_column_name_header=Column name

upgini-1.2.38a3769.dev11/src/upgini/__about__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- __version__ = "1.2.38a3769.dev11"

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/.gitignore RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/LICENSE RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/ads.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/all_operands.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/binary.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/date.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/feature.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/groupby.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/operand.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/unary.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/autofe/vector.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/http.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/lazy_import.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/metrics.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/normalizer/normalize_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/resource_bundle/strings_widget.properties RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/search_task.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/Roboto-Regular.ttf RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/__init__.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/country_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/deduplicate_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/display_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/email_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/fallback_progress_bar.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/feature_info.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/features_validator.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/ip_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/progress_bar.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/target_utils.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/track_info.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.2.38a3769.dev11 → upgini-1.2.39}/src/upgini/version_validator.py RENAMED Viewed

File without changes

upgini 1.2.38a3769.dev11__tar.gz → 1.2.39__tar.gz

Potentially problematic release.

upgini 1.2.38a3769.dev11tar.gz → 1.2.39tar.gz