PyPI - upgini - Versions diffs - 1.2.6a1__tar.gz → 1.2.8__tar.gz - Mend

upgini 1.2.6a1tar.gz → 1.2.8tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (65) hide show

{upgini-1.2.6a1 → upgini-1.2.8}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: upgini
-Version: 1.2.6a1
+Version: 1.2.8
 Summary: Intelligent data search & enrichment for Machine Learning
 Project-URL: Bug Reports, https://github.com/upgini/upgini/issues
 Project-URL: Homepage, https://upgini.com/

upgini-1.2.8/src/upgini/__about__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "1.2.8"

{upgini-1.2.6a1 → upgini-1.2.8}/src/upgini/autofe/all_operands.py RENAMED Viewed

@@ -1,3 +1,4 @@
+from copy import deepcopy
 from typing import Dict
 from upgini.autofe.binary import (
@@ -83,4 +84,4 @@ ALL_OPERANDS: Dict[str, Operand] = {
 def find_op(name):
-    return ALL_OPERANDS.get(name)
+    return deepcopy(ALL_OPERANDS.get(name))

{upgini-1.2.6a1 → upgini-1.2.8}/src/upgini/autofe/feature.py RENAMED Viewed

@@ -22,6 +22,9 @@ class Column:
     def set_op_params(self, params: Dict[str, str]) -> "Column":
         return self
+    def get_op_params(self, **kwargs):
+        return dict()
     def rename_columns(self, mapping: Dict[str, str]) -> "Column":
         self.name = self._unhash(mapping.get(self.name) or self.name)
         return self
@@ -44,6 +47,10 @@ class Column:
     def get_columns(self, **kwargs) -> List[str]:
         return [self.name]
+    @property
+    def children(self) -> List[Union["Feature", "Column"]]:
+        return []
     def infer_type(self, data: pd.DataFrame) -> DtypeObj:
         return data[self.name].dtype
@@ -88,9 +95,30 @@ class Feature:
         self.op.set_params(params)
         for child in self.children:
-            child.set_op_params(params)
+            child_params = {
+                k[len(child.get_display_name()) + 1 :]: v
+                for k, v in params.items()
+                if k.startswith(child.get_display_name())
+            }
+            if not child_params:
+                child_params = params
+            child.set_op_params(child_params)
         return self
+    def get_op_params(self, **kwargs) -> Dict[str, str]:
+        return {
+            k: str(v)
+            for k, v in dict(
+                (
+                    (f"{child.get_display_name(**kwargs)}_{k}", v)
+                    for child in self.children
+                    for k, v in child.get_op_params(**kwargs).items()
+                ),
+                **(self.op.get_params() or {}),
+            ).items()
+            if v is not None
+        }
     def get_hash(self) -> str:
         return hashlib.sha256(
             "_".join([self.op.name] + [ch.get_display_name() for ch in self.children]).encode("utf-8")
@@ -326,24 +354,26 @@ class FeatureGroup:
         return names
     def calculate(self, data: pd.DataFrame, is_root=False) -> pd.DataFrame:
-        main_column = None if self.main_column_node is None else self.main_column_node.get_columns()[0]
         if isinstance(self.op, PandasOperand):
-            columns = self.get_columns()
-            lower_order_children = [
+            main_column = None if self.main_column_node is None else self.main_column_node.get_display_name()
+            lower_order_children = []
+            if self.main_column_node is not None:
+                lower_order_children.append(self.main_column_node)
+            lower_order_children.extend(
                 ch for f in self.children for ch in f.children if ch.get_display_name() != main_column
-            ]
+            )
             lower_order_names = [ch.get_display_name() for ch in lower_order_children]
-            if any(isinstance(f, Feature) for f in lower_order_children):
-                child_data = pd.concat(
-                    [data[main_column or []]] + [ch.calculate(data) for ch in lower_order_children],
-                    axis=1,
-                )
-                child_data.columns = ([main_column] if main_column is not None else []) + lower_order_names
-            else:
-                child_data = data[columns]
+            child_data = pd.concat(
+                [ch.calculate(data) for ch in lower_order_children],
+                axis=1,
+            )
+            child_data.columns = lower_order_names
             new_data = self.op.calculate_group(child_data, main_column=main_column)
-            new_data.rename(columns=dict(zip(lower_order_names, self.get_display_names())), inplace=True)
+            new_data.rename(
+                columns=dict(zip((n for n in lower_order_names if n != main_column), self.get_display_names())),
+                inplace=True,
+            )
         else:
             raise NotImplementedError(f"Unrecognized operator {self.op.name}.")

{upgini-1.2.6a1 → upgini-1.2.8}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

@@ -64,6 +64,7 @@ class DataSourcePublisher:
         date_features: Optional[List[str]] = None,
         date_vector_features: Optional[List[str]] = None,
         generate_runtime_embeddings: Optional[List[str]] = None,
+        exclude_raw: Optional[List[str]] = None,
         _force_generation=False,
         _silent=False,
     ) -> str:
@@ -88,6 +89,8 @@ class DataSourcePublisher:
         features_for_embeddings - optional list of str - list of features that should be used for GPT features
             generation
+        exclude_raw - optional list of str - list of features that should NOT be used as raw features
         ...
         data_table_id_to_replace - optional str - id of registered ADS that should be replaced by new table
@@ -166,6 +169,8 @@ class DataSourcePublisher:
                     request["dateVectorFeatures"] = date_vector_features
                 if generate_runtime_embeddings is not None:
                     request["generateRuntimeEmbeddingsFeatures"] = generate_runtime_embeddings
+                if exclude_raw is not None:
+                    request["excludeRaw"] = exclude_raw
                 self.logger.info(f"Start registering data table {request}")
                 task_id = self._rest_client.register_ads(request, trace_id)
@@ -281,6 +286,7 @@ class DataSourcePublisher:
         date_vector_features: Optional[List[str]] = None,
         exclude_from_autofe_generation: Optional[List[str]] = None,
         generate_runtime_embeddings: Optional[List[str]] = None,
+        exclude_raw: Optional[List[str]] = None,
     ):
         trace_id = str(uuid.uuid4())
         with MDC(trace_id=trace_id):
@@ -336,6 +342,8 @@ class DataSourcePublisher:
                     request["excludeFromGenerationFeatures"] = exclude_from_autofe_generation
                 if generate_runtime_embeddings is not None:
                     request["generateRuntimeEmbeddingsFeatures"] = generate_runtime_embeddings
+                if exclude_raw is not None:
+                    request["excludeRaw"] = exclude_raw
                 self.logger.info(f"Activating data tables with request {request}")
                 self._rest_client.activate_datatables(request, trace_id)
@@ -378,7 +386,6 @@ class DataSourcePublisher:
                 search_keys = [k.value.value for k in search_keys] if search_keys else None
                 request = {"bqTableId": bq_table_id, "searchKeys": search_keys}
                 task_id = self._rest_client.upload_online(request, trace_id)
-                print(f"Start polling management task_id={task_id} with trace_id={trace_id}")
                 with Spinner():
                     status_response = self._rest_client.poll_ads_management_task_status(task_id, trace_id)
                     while status_response["status"] not in self.FINAL_STATUSES:

{upgini-1.2.6a1 → upgini-1.2.8}/src/upgini/features_enricher.py RENAMED Viewed

@@ -2095,7 +2095,9 @@ class FeaturesEnricher(TransformerMixin):
             features_not_to_pass = [
                 c
                 for c in df.columns
-                if c not in search_keys.keys() and c not in features_for_transform and c != ENTITY_SYSTEM_RECORD_ID
+                if c not in search_keys.keys()
+                and c not in features_for_transform
+                and c not in [ENTITY_SYSTEM_RECORD_ID, SEARCH_KEY_UNNEST]
             ]
             if add_fit_system_record_id:
@@ -3235,7 +3237,6 @@ class FeaturesEnricher(TransformerMixin):
                 ]
             )
-            # TODO some columns not exists
             all_other_columns = sorted_other_keys + other_columns
             search_keys_hash = "search_keys_hash"

{upgini-1.2.6a1 → upgini-1.2.8}/src/upgini/utils/ip_utils.py RENAMED Viewed

@@ -104,7 +104,7 @@ class IpSearchKeyConverter:
         del self.search_keys[self.ip_column]
         del self.columns_renaming[self.ip_column]
         self.search_keys[ipv6] = SearchKey.IPV6_ADDRESS
-        self.columns_renaming[ipv6] = original_ip  # could be upgini_ip_unnest...
+        self.columns_renaming[ipv6] = original_ip  # could be __unnest_ip...
         return df