PyPI - kumoai - Versions diffs - 2.13.0.dev202512040649__cp313-cp313-win_amd64.whl → 2.14.0.dev202512211732__cp313-cp313-win_amd64.whl - Mend

kumoai 2.13.0.dev202512040649__cp313-cp313-win_amd64.whl → 2.14.0.dev202512211732__cp313-cp313-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

kumoai/__init__.py +12 -0
kumoai/_version.py +1 -1
kumoai/client/pquery.py +6 -2
kumoai/experimental/rfm/__init__.py +33 -8
kumoai/experimental/rfm/authenticate.py +3 -4
kumoai/experimental/rfm/backend/local/__init__.py +4 -0
kumoai/experimental/rfm/{local_graph_store.py → backend/local/graph_store.py} +52 -91
kumoai/experimental/rfm/backend/local/sampler.py +315 -0
kumoai/experimental/rfm/backend/local/table.py +21 -16
kumoai/experimental/rfm/backend/snow/__init__.py +2 -0
kumoai/experimental/rfm/backend/snow/sampler.py +252 -0
kumoai/experimental/rfm/backend/snow/table.py +102 -48
kumoai/experimental/rfm/backend/sqlite/__init__.py +4 -2
kumoai/experimental/rfm/backend/sqlite/sampler.py +349 -0
kumoai/experimental/rfm/backend/sqlite/table.py +84 -31
kumoai/experimental/rfm/base/__init__.py +26 -3
kumoai/experimental/rfm/base/column.py +14 -12
kumoai/experimental/rfm/base/column_expression.py +50 -0
kumoai/experimental/rfm/base/sampler.py +773 -0
kumoai/experimental/rfm/base/source.py +1 -0
kumoai/experimental/rfm/base/sql_sampler.py +84 -0
kumoai/experimental/rfm/base/sql_table.py +229 -0
kumoai/experimental/rfm/base/table.py +173 -138
kumoai/experimental/rfm/graph.py +302 -108
kumoai/experimental/rfm/infer/__init__.py +6 -4
kumoai/experimental/rfm/infer/dtype.py +3 -3
kumoai/experimental/rfm/infer/pkey.py +4 -2
kumoai/experimental/rfm/infer/stype.py +35 -0
kumoai/experimental/rfm/infer/time_col.py +1 -2
kumoai/experimental/rfm/pquery/executor.py +27 -27
kumoai/experimental/rfm/pquery/pandas_executor.py +30 -32
kumoai/experimental/rfm/rfm.py +299 -230
kumoai/experimental/rfm/sagemaker.py +4 -4
kumoai/kumolib.cp313-win_amd64.pyd +0 -0
kumoai/pquery/predictive_query.py +10 -6
kumoai/testing/snow.py +50 -0
kumoai/utils/__init__.py +3 -2
kumoai/utils/progress_logger.py +178 -12
kumoai/utils/sql.py +3 -0
{kumoai-2.13.0.dev202512040649.dist-info → kumoai-2.14.0.dev202512211732.dist-info}/METADATA +3 -2
{kumoai-2.13.0.dev202512040649.dist-info → kumoai-2.14.0.dev202512211732.dist-info}/RECORD +44 -36
kumoai/experimental/rfm/local_graph_sampler.py +0 -223
kumoai/experimental/rfm/local_pquery_driver.py +0 -689
{kumoai-2.13.0.dev202512040649.dist-info → kumoai-2.14.0.dev202512211732.dist-info}/WHEEL +0 -0
{kumoai-2.13.0.dev202512040649.dist-info → kumoai-2.14.0.dev202512211732.dist-info}/licenses/LICENSE +0 -0
{kumoai-2.13.0.dev202512040649.dist-info → kumoai-2.14.0.dev202512211732.dist-info}/top_level.txt +0 -0

kumoai/experimental/rfm/base/table.py CHANGED Viewed

@@ -1,23 +1,20 @@
 from abc import ABC, abstractmethod
-from collections import defaultdict
+from collections.abc import Sequence
 from functools import cached_property
-from typing import Dict, List, Optional, Sequence, Set
 import pandas as pd
+from kumoapi.model_plan import MissingType
 from kumoapi.source_table import UnavailableSourceTable
 from kumoapi.table import Column as ColumnDefinition
 from kumoapi.table import TableDefinition
 from kumoapi.typing import Stype
 from typing_extensions import Self
-from kumoai import in_notebook
-from kumoai.experimental.rfm.base import Column, SourceColumn, SourceForeignKey
+from kumoai import in_notebook, in_snowflake_notebook
+from kumoai.experimental.rfm.base import Column, DataBackend, SourceColumn
 from kumoai.experimental.rfm.infer import (
-    contains_categorical,
-    contains_id,
-    contains_multicategorical,
-    contains_timestamp,
     infer_primary_key,
+    infer_stype,
     infer_time_column,
 )
@@ -38,44 +35,32 @@ class Table(ABC):
     def __init__(
         self,
         name: str,
-        columns: Optional[Sequence[str]] = None,
-        primary_key: Optional[str] = None,
-        time_column: Optional[str] = None,
-        end_time_column: Optional[str] = None,
+        columns: Sequence[str] | None = None,
+        primary_key: MissingType | str | None = MissingType.VALUE,
+        time_column: str | None = None,
+        end_time_column: str | None = None,
     ) -> None:
         self._name = name
-        self._primary_key: Optional[str] = None
-        self._time_column: Optional[str] = None
-        self._end_time_column: Optional[str] = None
+        self._primary_key: str | None = None
+        self._time_column: str | None = None
+        self._end_time_column: str | None = None
-        if len(self._source_column_dict) == 0:
-            raise ValueError(f"Table '{name}' does not hold any column with "
-                             f"a supported data type")
+        if columns is None:
+            columns = list(self._source_column_dict.keys())
-        primary_keys = [
-            column.name for column in self._source_column_dict.values()
-            if column.is_primary_key
-        ]
-        if len(primary_keys) == 1:  # NOTE No composite keys yet.
-            if primary_key is not None and primary_key != primary_keys[0]:
-                raise ValueError(f"Found duplicate primary key "
-                                 f"definition '{primary_key}' and "
-                                 f"'{primary_keys[0]}' in table '{name}'")
-            primary_key = primary_keys[0]
-        unique_keys = [
-            column.name for column in self._source_column_dict.values()
-            if column.is_unique_key
-        ]
-        if primary_key is None and len(unique_keys) == 1:
-            primary_key = unique_keys[0]
-        self._columns: Dict[str, Column] = {}
-        for column_name in columns or list(self._source_column_dict.keys()):
+        self._columns: dict[str, Column] = {}
+        for column_name in columns:
             self.add_column(column_name)
-        if primary_key is not None:
+        if isinstance(primary_key, MissingType):
+            # Inference from source column metadata:
+            if '_source_column_dict' in self.__dict__:
+                primary_key = self._source_primary_key
+                if (primary_key is not None and primary_key in self
+                        and self[primary_key].is_physical):
+                    self.primary_key = primary_key
+        elif primary_key is not None:
             if primary_key not in self:
                 self.add_column(primary_key)
             self.primary_key = primary_key
@@ -95,7 +80,7 @@ class Table(ABC):
         r"""The name of this table."""
         return self._name
-    # Data column #############################################################
+    # Column ##################################################################
     def has_column(self, name: str) -> bool:
         r"""Returns ``True`` if this table holds a column with name ``name``;
@@ -117,7 +102,7 @@ class Table(ABC):
         return self._columns[name]
     @property
-    def columns(self) -> List[Column]:
+    def columns(self) -> list[Column]:
         r"""Returns a list of :class:`Column` objects that represent the
         columns in this table.
         """
@@ -140,36 +125,22 @@ class Table(ABC):
             raise KeyError(f"Column '{name}' does not exist in the underlying "
                            f"source table")
-        try:
-            dtype = self._source_column_dict[name].dtype
-        except Exception as e:
-            raise RuntimeError(f"Could not obtain data type for column "
-                               f"'{name}' in table '{self.name}'. Change "
-                               f"the data type of the column in the source "
-                               f"table or remove it from the table.") from e
+        dtype = self._source_column_dict[name].dtype
+        ser = self._source_sample_df[name]
         try:
-            ser = self._sample_df[name]
-            if contains_id(ser, name, dtype):
-                stype = Stype.ID
-            elif contains_timestamp(ser, name, dtype):
-                stype = Stype.timestamp
-            elif contains_multicategorical(ser, name, dtype):
-                stype = Stype.multicategorical
-            elif contains_categorical(ser, name, dtype):
-                stype = Stype.categorical
-            else:
-                stype = dtype.default_stype
+            stype = infer_stype(ser, name, dtype)
         except Exception as e:
             raise RuntimeError(f"Could not obtain semantic type for column "
-                               f"'{name}' in table '{self.name}'. Change "
-                               f"the data type of the column in the source "
-                               f"table or remove it from the table.") from e
+                               f"'{name}' with data type '{dtype}' in table "
+                               f"'{self.name}'. Change the data type of the "
+                               f"column in the source table or remove it from "
+                               f"this table.") from e
         self._columns[name] = Column(
             name=name,
-            dtype=dtype,
             stype=stype,
+            dtype=dtype,
         )
         return self._columns[name]
@@ -205,7 +176,7 @@ class Table(ABC):
         return self._primary_key is not None
     @property
-    def primary_key(self) -> Optional[Column]:
+    def primary_key(self) -> Column | None:
         r"""The primary key column of this table.
         The getter returns the primary key column of this table, or ``None`` if
@@ -220,7 +191,7 @@ class Table(ABC):
         return self[self._primary_key]
     @primary_key.setter
-    def primary_key(self, name: Optional[str]) -> None:
+    def primary_key(self, name: str | None) -> None:
         if name is not None and name == self._time_column:
             raise ValueError(f"Cannot specify column '{name}' as a primary "
                              f"key since it is already defined to be a time "
@@ -250,7 +221,7 @@ class Table(ABC):
         return self._time_column is not None
     @property
-    def time_column(self) -> Optional[Column]:
+    def time_column(self) -> Column | None:
         r"""The time column of this table.
         The getter returns the time column of this table, or ``None`` if no
@@ -265,7 +236,7 @@ class Table(ABC):
         return self[self._time_column]
     @time_column.setter
-    def time_column(self, name: Optional[str]) -> None:
+    def time_column(self, name: str | None) -> None:
         if name is not None and name == self._primary_key:
             raise ValueError(f"Cannot specify column '{name}' as a time "
                              f"column since it is already defined to be a "
@@ -295,7 +266,7 @@ class Table(ABC):
         return self._end_time_column is not None
     @property
-    def end_time_column(self) -> Optional[Column]:
+    def end_time_column(self) -> Column | None:
         r"""The end time column of this table.
         The getter returns the end time column of this table, or ``None`` if no
@@ -311,7 +282,7 @@ class Table(ABC):
         return self[self._end_time_column]
     @end_time_column.setter
-    def end_time_column(self, name: Optional[str]) -> None:
+    def end_time_column(self, name: str | None) -> None:
         if name is not None and name == self._primary_key:
             raise ValueError(f"Cannot specify column '{name}' as an end time "
                              f"column since it is already defined to be a "
@@ -384,7 +355,12 @@ class Table(ABC):
         if self._num_rows is not None:
             num_rows_repr = ' ({self._num_rows:,} rows)'
-        if in_notebook():
+        if in_snowflake_notebook():
+            import streamlit as st
+            md_repr = f"### 🏷️ Metadata of Table `{self.name}`{num_rows_repr}"
+            st.markdown(md_repr)
+            st.dataframe(self.metadata, hide_index=True)
+        elif in_notebook():
             from IPython.display import Markdown, display
             md_repr = f"### 🏷️ Metadata of Table `{self.name}`{num_rows_repr}"
             display(Markdown(md_repr))
@@ -400,8 +376,91 @@ class Table(ABC):
             print(f"🏷️ Metadata of Table '{self.name}'{num_rows_repr}")
             print(self.metadata.to_string(index=False))
+    def infer_primary_key(self, verbose: bool = True) -> Self:
+        r"""Infers the primary key in this table.
+        Args:
+            verbose: Whether to print verbose output.
+        """
+        if self.has_primary_key():
+            return self
+        def _set_primary_key(primary_key: str) -> None:
+            self.primary_key = primary_key
+            if verbose:
+                print(f"Detected primary key '{primary_key}' in table "
+                      f"'{self.name}'")
+        # Inference from source column metadata:
+        if '_source_column_dict' in self.__dict__:
+            primary_key = self._source_primary_key
+            if (primary_key is not None and primary_key in self
+                    and self[primary_key].is_physical):
+                _set_primary_key(primary_key)
+                return self
+            unique_keys = [
+                column.name for column in self._source_column_dict.values()
+                if column.is_unique_key
+            ]
+            if (len(unique_keys) == 1  # NOTE No composite keys yet.
+                    and unique_keys[0] in self
+                    and self[unique_keys[0]].is_physical):
+                _set_primary_key(unique_keys[0])
+                return self
+        # Heuristic-based inference:
+        candidates = [
+            column.name for column in self.columns if column.stype == Stype.ID
+        ]
+        if len(candidates) == 0:
+            for column in self.columns:
+                if self.name.lower() == column.name.lower():
+                    candidates.append(column.name)
+                elif (self.name.lower().endswith('s')
+                      and self.name.lower()[:-1] == column.name.lower()):
+                    candidates.append(column.name)
+        if primary_key := infer_primary_key(
+                table_name=self.name,
+                df=self._sample_current_df(columns=candidates),
+                candidates=candidates,
+        ):
+            _set_primary_key(primary_key)
+            return self
+        return self
+    def infer_time_column(self, verbose: bool = True) -> Self:
+        r"""Infers the time column in this table.
+        Args:
+            verbose: Whether to print verbose output.
+        """
+        if self.has_time_column():
+            return self
+        # Heuristic-based inference:
+        candidates = [
+            column.name for column in self.columns
+            if column.stype == Stype.timestamp
+            and column.name != self._end_time_column
+        ]
+        if time_column := infer_time_column(
+                df=self._sample_current_df(columns=candidates),
+                candidates=candidates,
+        ):
+            self.time_column = time_column
+            if verbose:
+                print(f"Detected time column '{time_column}' in table "
+                      f"'{self.name}'")
+        return self
     def infer_metadata(self, verbose: bool = True) -> Self:
-        r"""Infers metadata, *i.e.*, primary keys and time columns, in the
+        r"""Infers metadata, *i.e.*, primary keys and time columns, in this
         table.
         Args:
@@ -409,45 +468,15 @@ class Table(ABC):
         """
         logs = []
-        # Try to detect primary key if not set:
         if not self.has_primary_key():
+            self.infer_primary_key(verbose=False)
+            if self.has_primary_key():
+                logs.append(f"primary key '{self._primary_key}'")
-            def is_candidate(column: Column) -> bool:
-                if column.stype == Stype.ID:
-                    return True
-                if all(column.stype != Stype.ID for column in self.columns):
-                    if self.name == column.name:
-                        return True
-                    if (self.name.endswith('s')
-                            and self.name[:-1] == column.name):
-                        return True
-                return False
-            candidates = [
-                column.name for column in self.columns if is_candidate(column)
-            ]
-            if primary_key := infer_primary_key(
-                    table_name=self.name,
-                    df=self._sample_df,
-                    candidates=candidates,
-            ):
-                self.primary_key = primary_key
-                logs.append(f"primary key '{primary_key}'")
-        # Try to detect time column if not set:
         if not self.has_time_column():
-            candidates = [
-                column.name for column in self.columns
-                if column.stype == Stype.timestamp
-                and column.name != self._end_time_column
-            ]
-            if time_column := infer_time_column(
-                    df=self._sample_df,
-                    candidates=candidates,
-            ):
-                self.time_column = time_column
-                logs.append(f"time column '{time_column}'")
+            self.infer_time_column(verbose=False)
+            if self.has_time_column():
+                logs.append(f"time column '{self._time_column}'")
         if verbose and len(logs) > 0:
             print(f"Detected {' and '.join(logs)} in table '{self.name}'")
@@ -468,6 +497,36 @@ class Table(ABC):
             end_time_col=self._end_time_column,
         )
+    @cached_property
+    def _source_column_dict(self) -> dict[str, SourceColumn]:
+        source_columns = self._get_source_columns()
+        if len(source_columns) == 0:
+            raise ValueError(f"Table '{self.name}' does not hold any column "
+                             f"with a supported data type")
+        return {column.name: column for column in source_columns}
+    @cached_property
+    def _source_sample_df(self) -> pd.DataFrame:
+        return self._get_source_sample_df()
+    @property
+    def _source_primary_key(self) -> str | None:
+        primary_keys = [
+            column.name for column in self._source_column_dict.values()
+            if column.is_primary_key
+        ]
+        if len(primary_keys) == 1:  # NOTE No composite keys yet.
+            return primary_keys[0]
+        return None
+    @cached_property
+    def _num_rows(self) -> int | None:
+        return self._get_num_rows()
+    def _sample_current_df(self, columns: Sequence[str]) -> pd.DataFrame:
+        return self._source_sample_df[columns]
     # Python builtins #########################################################
     def __hash__(self) -> int:
@@ -496,45 +555,21 @@ class Table(ABC):
                 f'  end_time_column={self._end_time_column},\n'
                 f')')
-    # Abstract method #########################################################
-    @cached_property
-    def _source_column_dict(self) -> Dict[str, SourceColumn]:
-        return {col.name: col for col in self._get_source_columns()}
+    # Abstract Methods ########################################################
+    @property
     @abstractmethod
-    def _get_source_columns(self) -> List[SourceColumn]:
-        pass
-    @cached_property
-    def _source_foreign_key_dict(self) -> Dict[str, SourceForeignKey]:
-        fkeys = self._get_source_foreign_keys()
-        # NOTE Drop all keys that link to different primary keys in the same
-        # table since we don't support composite keys yet:
-        table_pkeys: Dict[str, Set[str]] = defaultdict(set)
-        for fkey in fkeys:
-            table_pkeys[fkey.dst_table].add(fkey.primary_key)
-        return {
-            fkey.name: fkey
-            for fkey in fkeys if len(table_pkeys[fkey.dst_table]) == 1
-        }
+    def backend(self) -> DataBackend:
+        r"""The data backend of this table."""
     @abstractmethod
-    def _get_source_foreign_keys(self) -> List[SourceForeignKey]:
+    def _get_source_columns(self) -> list[SourceColumn]:
         pass
-    @cached_property
-    def _sample_df(self) -> pd.DataFrame:
-        return self._get_sample_df()
     @abstractmethod
-    def _get_sample_df(self) -> pd.DataFrame:
+    def _get_source_sample_df(self) -> pd.DataFrame:
         pass
-    @cached_property
-    def _num_rows(self) -> Optional[int]:
-        return self._get_num_rows()
     @abstractmethod
-    def _get_num_rows(self) -> Optional[int]:
+    def _get_num_rows(self) -> int | None:
         pass