PyPI - kumoai - Versions diffs - 2.12.0.dev202511111731__cp311-cp311-macosx_11_0_arm64.whl → 2.13.0.dev202512091732__cp311-cp311-macosx_11_0_arm64.whl - Mend

kumoai 2.12.0.dev202511111731__cp311-cp311-macosx_11_0_arm64.whl → 2.13.0.dev202512091732__cp311-cp311-macosx_11_0_arm64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

kumoai/__init__.py +18 -9
kumoai/_version.py +1 -1
kumoai/client/client.py +9 -13
kumoai/connector/utils.py +23 -2
kumoai/experimental/rfm/__init__.py +162 -46
kumoai/experimental/rfm/backend/__init__.py +0 -0
kumoai/experimental/rfm/backend/local/__init__.py +42 -0
kumoai/experimental/rfm/{local_graph_store.py → backend/local/graph_store.py} +20 -30
kumoai/experimental/rfm/backend/local/sampler.py +242 -0
kumoai/experimental/rfm/backend/local/table.py +109 -0
kumoai/experimental/rfm/backend/snow/__init__.py +35 -0
kumoai/experimental/rfm/backend/snow/table.py +117 -0
kumoai/experimental/rfm/backend/sqlite/__init__.py +30 -0
kumoai/experimental/rfm/backend/sqlite/table.py +101 -0
kumoai/experimental/rfm/base/__init__.py +14 -0
kumoai/experimental/rfm/base/column.py +66 -0
kumoai/experimental/rfm/base/sampler.py +374 -0
kumoai/experimental/rfm/base/source.py +18 -0
kumoai/experimental/rfm/{local_table.py → base/table.py} +139 -139
kumoai/experimental/rfm/{local_graph.py → graph.py} +334 -79
kumoai/experimental/rfm/infer/__init__.py +6 -0
kumoai/experimental/rfm/infer/dtype.py +79 -0
kumoai/experimental/rfm/infer/pkey.py +126 -0
kumoai/experimental/rfm/infer/time_col.py +62 -0
kumoai/experimental/rfm/local_graph_sampler.py +43 -4
kumoai/experimental/rfm/local_pquery_driver.py +1 -1
kumoai/experimental/rfm/pquery/pandas_executor.py +1 -1
kumoai/experimental/rfm/rfm.py +28 -27
kumoai/experimental/rfm/sagemaker.py +138 -0
kumoai/spcs.py +1 -3
kumoai/testing/decorators.py +1 -1
{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/METADATA +12 -2
{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/RECORD +36 -21
kumoai/experimental/rfm/utils.py +0 -344
{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/WHEEL +0 -0
{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/licenses/LICENSE +0 -0
{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/top_level.txt +0 -0

{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/RECORD RENAMED Viewed

@@ -1,33 +1,48 @@
 kumoai/_logging.py,sha256=U2_5ROdyk92P4xO4H2WJV8EC7dr6YxmmnM-b7QX9M7I,886
 kumoai/mixin.py,sha256=MP413xzuCqWhxAPUHmloLA3j4ZyF1tEtfi516b_hOXQ,812
-kumoai/_version.py,sha256=EmBJ4U0JvENPiq7lq8M80mpSdMDFEwNkBsjWDdzaLT4,39
-kumoai/__init__.py,sha256=LU1zmKYc0KV5hy2VGKUuXgSvbJwj2rSRQ_R_bpHyl1o,10708
+kumoai/_version.py,sha256=bUx8YEaVu-Ejr0CkVpysUTjmuNl9FBowBo1W0BvlWVo,39
+kumoai/__init__.py,sha256=Nn9YH_x9kAeEFn8RWbP95slZow0qFnakPZZ1WADe1hY,10843
 kumoai/formatting.py,sha256=jA_rLDCGKZI8WWCha-vtuLenVKTZvli99Tqpurz1H84,953
 kumoai/futures.py,sha256=oJFIfdCM_3nWIqQteBKYMY4fPhoYlYWE_JA2o6tx-ng,3737
 kumoai/kumolib.cpython-311-darwin.so,sha256=AmB_Fysmud1y7Gm5CuBQ5lWDuSzpxVDV_iTA2cjH1s8,232544
 kumoai/jobs.py,sha256=NrdLEFNo7oeCYSy-kj2nAvCFrz9BZ_xrhkqHFHk5ksY,2496
 kumoai/exceptions.py,sha256=b-_sdbAKOg50uaJZ65GmBLdTo4HANdjl8_R0sJpwaN0,833
 kumoai/databricks.py,sha256=e6E4lOFvZHXFwh4CO1kXU1zzDU3AapLQYMxjiHPC-HQ,476
-kumoai/spcs.py,sha256=N4ddeoHAc4I3bKrDitsb91lUx5VKvCyPyMT3zWiuCcY,4275
+kumoai/spcs.py,sha256=N31d7rLa-bgYh8e2J4YzX1ScxGLqiVXrqJnCl1y4Mts,4139
 kumoai/_singleton.py,sha256=UTwrbDkoZSGB8ZelorvprPDDv9uZkUi1q_SrmsyngpQ,836
 kumoai/experimental/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-kumoai/experimental/rfm/local_graph_sampler.py,sha256=o60_sdMa_fr60DrdmCIaE6lKQAD2msp1t-GGubFNt-o,6738
-kumoai/experimental/rfm/local_graph.py,sha256=2iJDlsGVzqCe1bD_puXWlhwGkn7YnQyJ4p4C-fwCZNE,30076
-kumoai/experimental/rfm/local_pquery_driver.py,sha256=aO7Jfwx9gxGKYvpqxZx1LLWdI1MhuZQOPtAITxoOQO0,26162
-kumoai/experimental/rfm/__init__.py,sha256=ornmi2x947jkQLptMn7ZLvTf2Sw-RMcVW73AnjVsWAo,1709
-kumoai/experimental/rfm/utils.py,sha256=3IiBvT_aLBkkcJh3H11_50yt_XlEzHR0cm9Kprrtl8k,11123
-kumoai/experimental/rfm/local_table.py,sha256=r8xZ33Mjs6JD8ud6h23tZ99Dag2DvZ4h6tWjmGrKQg4,19605
-kumoai/experimental/rfm/rfm.py,sha256=V2NxxhrYi_MqLi_xcZsOYsdciT7V44iS5Fc9Ewq9eiM,48101
-kumoai/experimental/rfm/local_graph_store.py,sha256=8BqonuaMftAAsjgZpB369i5AeNd1PkisMbbEqc0cKBo,13847
+kumoai/experimental/rfm/local_graph_sampler.py,sha256=32ZCNirPyCqCD8IccaXmRt0EJk1p54mWXpJ33NotAqE,7883
+kumoai/experimental/rfm/local_pquery_driver.py,sha256=dhOS1L9aboya86EL4AFYc8bQkimbOchSLfe_jn2qGh4,26158
+kumoai/experimental/rfm/graph.py,sha256=76hlQyaEYqBYNIF3jslIqRRuAPNtXvc1kR6InwyHH-M,39751
+kumoai/experimental/rfm/__init__.py,sha256=slliYcrh80xPtQQ_nnsp3ny9IbmHCyirmdZUfKTdME4,6064
+kumoai/experimental/rfm/sagemaker.py,sha256=_hTrFg4qfXe7uzwqSEG_wze-IFkwn7qde9OpUodCpbc,4982
+kumoai/experimental/rfm/rfm.py,sha256=BSgxeM0xW2mt74jq4Ah4hl85RxT6337NoDQP7f7iXvY,47699
 kumoai/experimental/rfm/authenticate.py,sha256=FiuHMvP7V3zBZUlHMDMbNLhc-UgDZgz4hjVSTuQ7DRw,18888
+kumoai/experimental/rfm/backend/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+kumoai/experimental/rfm/backend/sqlite/__init__.py,sha256=jYmZDNAVsojuPO1Q5idFmG5N0aCB8BDyrpAoS31n9bc,844
+kumoai/experimental/rfm/backend/sqlite/table.py,sha256=kcYpWaZKFez2Tru6Sdz-Ywk8jP8VpLnjmCIQQtRFGnU,3800
+kumoai/experimental/rfm/backend/local/__init__.py,sha256=2s9sSA-E-8pfkkzCH4XPuaSxSznEURMfMgwEIfYYPsg,1014
+kumoai/experimental/rfm/backend/local/table.py,sha256=Ahob9HidpU6z_M41rK5FATa3d7CL2UzZl8pGVyrzLNc,3565
+kumoai/experimental/rfm/backend/local/graph_store.py,sha256=RpfJldemOG-4RzGSIS9EcytHbvC4gYm-Ps3a-4qfptk,13297
+kumoai/experimental/rfm/backend/local/sampler.py,sha256=xJf53jD8kJCQa6gZTmxp9AXsOXwPoQ7G7dAefXGX16E,8459
+kumoai/experimental/rfm/backend/snow/__init__.py,sha256=B-tG-p8WA-mBuwvK1f0S2gdRPEGwApdxlnyeVSnY2xg,927
+kumoai/experimental/rfm/backend/snow/table.py,sha256=sHagXhW7RifzOiB4yjxV_9FtR0KUFVIw1mYwZe4bpMg,4255
 kumoai/experimental/rfm/pquery/__init__.py,sha256=X0O3EIq5SMfBEE-ii5Cq6iDhR3s3XMXB52Cx5htoePw,152
-kumoai/experimental/rfm/pquery/pandas_executor.py,sha256=kiBJq7uVGbasG7TiqsubEl6ey3UYzZiM4bwxILqp_54,18487
+kumoai/experimental/rfm/pquery/pandas_executor.py,sha256=wYI9a3smClR2pQGwsYRdmpOm0PlUsbtyW9wpAVpCEe4,18492
 kumoai/experimental/rfm/pquery/executor.py,sha256=f7-pJhL0BgFU9E4o4gQpQyArOvyrZtwxFmks34-QOAE,2741
 kumoai/experimental/rfm/infer/multicategorical.py,sha256=0-cLpDnGryhr76QhZNO-klKokJ6MUSfxXcGdQ61oykY,1102
 kumoai/experimental/rfm/infer/categorical.py,sha256=VwNaKwKbRYkTxEJ1R6gziffC8dGsEThcDEfbi-KqW5c,853
+kumoai/experimental/rfm/infer/time_col.py,sha256=7R5Itl8RRBOr61qLpRTanIqrUVZFZcAXzDA9lCw4nx4,1820
+kumoai/experimental/rfm/infer/pkey.py,sha256=ubNqW1LIjLKiXbjXELAY3g6n2f3u2Eis_uC2DEiXFiU,4393
 kumoai/experimental/rfm/infer/id.py,sha256=ZIO0DWIoiEoS_8MVc5lkqBfkTWWQ0yGCgjkwLdaYa_Q,908
-kumoai/experimental/rfm/infer/__init__.py,sha256=xQ8_SuejIzXyn2J7bIKX3pXumFtRuEfBtE5oEDUDJjI,293
+kumoai/experimental/rfm/infer/dtype.py,sha256=ZZ6ztqJnTR1CaC2z5Uhf0o0rSdNThnss5tem5JNQkck,2607
+kumoai/experimental/rfm/infer/__init__.py,sha256=krdMFN8iKZlSFOl-M5MW1KuSviQV3H1E18jj2uB8g6Q,469
 kumoai/experimental/rfm/infer/timestamp.py,sha256=vM9--7eStzaGG13Y-oLYlpNJyhL6f9dp17HDXwtl_DM,1094
+kumoai/experimental/rfm/base/__init__.py,sha256=V2B2TA064nppZ3o6uWAH7EFeKSz-hZKB7_YqV1jJfOI,303
+kumoai/experimental/rfm/base/table.py,sha256=yaY7Auvq2KblXOid3-a_Pw6RgnPK5Y1zGAY2xi1D2gg,19843
+kumoai/experimental/rfm/base/sampler.py,sha256=2FIUIN2fD0RCz-qx1NCuEpt3YRx7nxcQds5lEao4mq4,13433
+kumoai/experimental/rfm/base/source.py,sha256=8_waFQVsctryHkm9BwmFZ9-vw5cXAXfjk7KDmcl_kic,272
+kumoai/experimental/rfm/base/column.py,sha256=izCJmufJcd1RSi-ptFMfrue-JYag38MJxizka7ya0-A,2319
 kumoai/encoder/__init__.py,sha256=VPGs4miBC_WfwWeOXeHhFomOUocERFavhKf5fqITcds,182
 kumoai/graph/graph.py,sha256=iyp4klPIMn2ttuEqMJvsrxKb_tmz_DTnvziIhCegduM,38291
 kumoai/graph/__init__.py,sha256=n8X4X8luox4hPBHTRC9R-3JzvYYMoR8n7lF1H4w4Hzc,228
@@ -57,7 +72,7 @@ kumoai/codegen/handlers/utils.py,sha256=58b2GCgaTBUp2aId7BLMXMV0ENrusbNbfw7mlyXA
 kumoai/codegen/handlers/connector.py,sha256=afGf_GreyQ9y6qF3QTgSiM416qtUcP298SatNqUFhvQ,3828
 kumoai/codegen/handlers/table.py,sha256=POHpA-GFYFGTSuerGmtigYablk-Wq1L3EBvsOI-iFMQ,3956
 kumoai/testing/__init__.py,sha256=goHIIo3JE7uHV7njo4_aTd89mVVR74BEAZ2uyBaOR0w,170
-kumoai/testing/decorators.py,sha256=RiFrJcP-ym-mB1BYSGC26bBiryxoR9-GwL1G4EHc2sc,1591
+kumoai/testing/decorators.py,sha256=83tMifuPTpUqX7zHxMttkj1TDdB62EBtAP-Fjj72Zdo,1607
 kumoai/connector/glue_connector.py,sha256=HivT0QYQ8-XeB4QLgWvghiqXuq7jyBK9G2R1py_NnE4,4697
 kumoai/connector/databricks_connector.py,sha256=YQy203XHZGzNJ8bPUjUOnrVt2KlpgMdVuTHpc6sVCcs,7574
 kumoai/connector/snowflake_connector.py,sha256=K0s-H9tW3rve8g2x1PbyxvzSpkROfGQZz-Qa4PoT4UE,9022
@@ -65,7 +80,7 @@ kumoai/connector/bigquery_connector.py,sha256=IkyRqvF8Cg96kApUuuz86eYnl-BqBmDX1f
 kumoai/connector/source_table.py,sha256=QLT8bEYaxeMwy-b168url0VfnkTrs5K6VKLbxTI4hEY,17539
 kumoai/connector/__init__.py,sha256=9g6oNJ0qHWFlL5enTSoK4_SSH_5hP74xUDZx-9SggC4,842
 kumoai/connector/file_upload_connector.py,sha256=swp03HgChOvmNPJetuujBSAqADe7NRmS_T0F3o9it4w,7008
-kumoai/connector/utils.py,sha256=PUjunLpfqMZsrPDo2EmnyJRBl_mt-E6ugv2kNkf5Rn8,64011
+kumoai/connector/utils.py,sha256=wlqQxMmPvnFNoCcczGkKYjSu05h8OhWh4fhTzQm_2bQ,64694
 kumoai/connector/s3_connector.py,sha256=3kbv-h7DwD8O260Q0h1GPm5wwQpLt-Tb3d_CBSaie44,10155
 kumoai/connector/base.py,sha256=cujXSZF3zAfuxNuEw54DSL1T7XCuR4t0shSMDuPUagQ,5291
 kumoai/pquery/__init__.py,sha256=uTXr7t1eXcVfM-ETaM_1ImfEqhrmaj8BjiIvy1YZTL8,533
@@ -73,7 +88,7 @@ kumoai/pquery/predictive_query.py,sha256=oUqwdOWLLkPM-G4PhpUk_6mwSJGBtaD3t37Wp5O
 kumoai/pquery/prediction_table.py,sha256=QPDH22X1UB0NIufY7qGuV2XW7brG3Pv--FbjNezzM2g,10776
 kumoai/pquery/training_table.py,sha256=elmPDZx11kPiC_dkOhJcBUGtHKgL32GCBvZ9k6U0pMg,15809
 kumoai/client/pquery.py,sha256=R2hc-M8vPoyIDH0ywLwFVxCznVAqpZz3w2HszjdNW-o,6891
-kumoai/client/client.py,sha256=S1OfGDwTzoyf40fhg111xGQGNfEP-OnoXqFV6X9iMEc,8580
+kumoai/client/client.py,sha256=Jda8V9yiu3LbhxlcgRWPeYi7eF6jzCKcq8-B_vEd1ik,8514
 kumoai/client/graph.py,sha256=zvLEDExLT_RVbUMHqVl0m6tO6s2gXmYSoWmPF6YMlnA,3831
 kumoai/client/online.py,sha256=pkBBh_DEC3GAnPcNw6bopNRlGe7EUbIFe7_seQqZRaw,2720
 kumoai/client/source_table.py,sha256=VCsCcM7KYcnjGP7HLTb-AOSEGEVsJTWjk8bMg1JdgPU,2101
@@ -91,8 +106,8 @@ kumoai/trainer/baseline_trainer.py,sha256=LlfViNOmswNv4c6zJJLsyv0pC2mM2WKMGYx06o
 kumoai/trainer/__init__.py,sha256=zUdFl-f-sBWmm2x8R-rdVzPBeU2FaMzUY5mkcgoTa1k,939
 kumoai/trainer/online_serving.py,sha256=9cddb5paeZaCgbUeceQdAOxysCtV5XP-KcsgFz_XR5w,9566
 kumoai/trainer/trainer.py,sha256=hBXO7gwpo3t59zKFTeIkK65B8QRmWCwO33sbDuEAPlY,20133
-kumoai-2.12.0.dev202511111731.dist-info/RECORD,,
-kumoai-2.12.0.dev202511111731.dist-info/WHEEL,sha256=sunMa2yiYbrNLGeMVDqEA0ayyJbHlex7SCn1TZrEq60,136
-kumoai-2.12.0.dev202511111731.dist-info/top_level.txt,sha256=YjU6UcmomoDx30vEXLsOU784ED7VztQOsFApk1SFwvs,7
-kumoai-2.12.0.dev202511111731.dist-info/METADATA,sha256=sNoIEIZxJx58O-0mQyfBmpsnrkAzg3ZVQhucsvlDX64,2052
-kumoai-2.12.0.dev202511111731.dist-info/licenses/LICENSE,sha256=TbWlyqRmhq9PEzCaTI0H0nWLQCCOywQM8wYH8MbjfLo,1102
+kumoai-2.13.0.dev202512091732.dist-info/RECORD,,
+kumoai-2.13.0.dev202512091732.dist-info/WHEEL,sha256=sunMa2yiYbrNLGeMVDqEA0ayyJbHlex7SCn1TZrEq60,136
+kumoai-2.13.0.dev202512091732.dist-info/top_level.txt,sha256=YjU6UcmomoDx30vEXLsOU784ED7VztQOsFApk1SFwvs,7
+kumoai-2.13.0.dev202512091732.dist-info/METADATA,sha256=vJw5NmUoOgDLJFHGcXgjPq6lYJXtSn8wvhyOKnCsaVU,2510
+kumoai-2.13.0.dev202512091732.dist-info/licenses/LICENSE,sha256=TbWlyqRmhq9PEzCaTI0H0nWLQCCOywQM8wYH8MbjfLo,1102

kumoai/experimental/rfm/utils.py DELETED Viewed

@@ -1,344 +0,0 @@
-import re
-import warnings
-from typing import Any, Dict, Optional
-import numpy as np
-import pandas as pd
-import pyarrow as pa
-from kumoapi.typing import Dtype, Stype
-from kumoai.experimental.rfm.infer import (
-    contains_categorical,
-    contains_id,
-    contains_multicategorical,
-    contains_timestamp,
-)
-# Mapping from pandas/numpy dtypes to Kumo Dtypes
-PANDAS_TO_DTYPE: Dict[Any, Dtype] = {
-    np.dtype('bool'): Dtype.bool,
-    pd.BooleanDtype(): Dtype.bool,
-    pa.bool_(): Dtype.bool,
-    np.dtype('byte'): Dtype.int,
-    pd.UInt8Dtype(): Dtype.int,
-    np.dtype('int16'): Dtype.int,
-    pd.Int16Dtype(): Dtype.int,
-    np.dtype('int32'): Dtype.int,
-    pd.Int32Dtype(): Dtype.int,
-    np.dtype('int64'): Dtype.int,
-    pd.Int64Dtype(): Dtype.int,
-    np.dtype('float32'): Dtype.float,
-    pd.Float32Dtype(): Dtype.float,
-    np.dtype('float64'): Dtype.float,
-    pd.Float64Dtype(): Dtype.float,
-    np.dtype('object'): Dtype.string,
-    pd.StringDtype(storage='python'): Dtype.string,
-    pd.StringDtype(storage='pyarrow'): Dtype.string,
-    pa.string(): Dtype.string,
-    pa.binary(): Dtype.binary,
-    np.dtype('datetime64[ns]'): Dtype.date,
-    np.dtype('timedelta64[ns]'): Dtype.timedelta,
-    pa.list_(pa.float32()): Dtype.floatlist,
-    pa.list_(pa.int64()): Dtype.intlist,
-    pa.list_(pa.string()): Dtype.stringlist,
-}
-def to_dtype(ser: pd.Series) -> Dtype:
-    """Extracts the :class:`Dtype` from a :class:`pandas.Series`.
-    Args:
-        ser: A :class:`pandas.Series` to analyze.
-    Returns:
-        The data type.
-    """
-    if pd.api.types.is_datetime64_any_dtype(ser.dtype):
-        return Dtype.date
-    if isinstance(ser.dtype, pd.CategoricalDtype):
-        return Dtype.string
-    if pd.api.types.is_object_dtype(ser.dtype):
-        index = ser.iloc[:1000].first_valid_index()
-        if index is not None and pd.api.types.is_list_like(ser[index]):
-            pos = ser.index.get_loc(index)
-            assert isinstance(pos, int)
-            ser = ser.iloc[pos:pos + 1000].dropna()
-            if not ser.map(pd.api.types.is_list_like).all():
-                raise ValueError("Data contains a mix of list-like and "
-                                 "non-list-like values")
-            ser = ser[ser.map(lambda x: not isinstance(x, list) or len(x) > 0)]
-            dtypes = ser.apply(lambda x: PANDAS_TO_DTYPE.get(
-                np.array(x).dtype, Dtype.string)).unique().tolist()
-            invalid_dtypes = set(dtypes) - {
-                Dtype.string,
-                Dtype.int,
-                Dtype.float,
-            }
-            if len(invalid_dtypes) > 0:
-                raise ValueError(f"Data contains unsupported list data types: "
-                                 f"{list(invalid_dtypes)}")
-            if Dtype.string in dtypes:
-                return Dtype.stringlist
-            if dtypes == [Dtype.int]:
-                return Dtype.intlist
-            return Dtype.floatlist
-    if ser.dtype not in PANDAS_TO_DTYPE:
-        raise ValueError(f"Unsupported data type '{ser.dtype}'")
-    return PANDAS_TO_DTYPE[ser.dtype]
-def infer_stype(ser: pd.Series, column_name: str, dtype: Dtype) -> Stype:
-    r"""Infers the semantic type of a column.
-    Args:
-        ser: A :class:`pandas.Series` to analyze.
-        column_name: The name of the column (used for pattern matching).
-        dtype: The data type.
-    Returns:
-        The semantic type.
-    """
-    if contains_id(ser, column_name, dtype):
-        return Stype.ID
-    if contains_timestamp(ser, column_name, dtype):
-        return Stype.timestamp
-    if contains_multicategorical(ser, column_name, dtype):
-        return Stype.multicategorical
-    if contains_categorical(ser, column_name, dtype):
-        return Stype.categorical
-    return dtype.default_stype
-def detect_primary_key(
-    table_name: str,
-    df: pd.DataFrame,
-    candidates: list[str],
-) -> Optional[str]:
-    r"""Auto-detect potential primary key column.
-    Args:
-        table_name: The table name.
-        df: The pandas DataFrame to analyze
-        candidates: A list of potential candidates.
-    Returns:
-        The name of the detected primary key, or ``None`` if not found.
-    """
-    # A list of (potentially modified) table names that are eligible to match
-    # with a primary key, i.e.:
-    # - UserInfo -> User
-    # - snakecase <-> camelcase
-    # - camelcase <-> snakecase
-    # - plural <-> singular (users -> user, eligibilities -> eligibility)
-    # - verb -> noun (qualifying -> qualify)
-    _table_names = {table_name}
-    if table_name.lower().endswith('_info'):
-        _table_names.add(table_name[:-5])
-    elif table_name.lower().endswith('info'):
-        _table_names.add(table_name[:-4])
-    table_names = set()
-    for _table_name in _table_names:
-        table_names.add(_table_name.lower())
-        snakecase = re.sub(r'(.)([A-Z][a-z]+)', r'\1_\2', _table_name)
-        snakecase = re.sub(r'([a-z0-9])([A-Z])', r'\1_\2', snakecase)
-        table_names.add(snakecase.lower())
-        camelcase = _table_name.replace('_', '')
-        table_names.add(camelcase.lower())
-        if _table_name.lower().endswith('s'):
-            table_names.add(_table_name.lower()[:-1])
-            table_names.add(snakecase.lower()[:-1])
-            table_names.add(camelcase.lower()[:-1])
-        else:
-            table_names.add(_table_name.lower() + 's')
-            table_names.add(snakecase.lower() + 's')
-            table_names.add(camelcase.lower() + 's')
-        if _table_name.lower().endswith('ies'):
-            table_names.add(_table_name.lower()[:-3] + 'y')
-            table_names.add(snakecase.lower()[:-3] + 'y')
-            table_names.add(camelcase.lower()[:-3] + 'y')
-        elif _table_name.lower().endswith('y'):
-            table_names.add(_table_name.lower()[:-1] + 'ies')
-            table_names.add(snakecase.lower()[:-1] + 'ies')
-            table_names.add(camelcase.lower()[:-1] + 'ies')
-        if _table_name.lower().endswith('ing'):
-            table_names.add(_table_name.lower()[:-3])
-            table_names.add(snakecase.lower()[:-3])
-            table_names.add(camelcase.lower()[:-3])
-    scores: list[tuple[str, int]] = []
-    for col_name in candidates:
-        col_name_lower = col_name.lower()
-        score = 0
-        if col_name_lower == 'id':
-            score += 4
-        for table_name_lower in table_names:
-            if col_name_lower == table_name_lower:
-                score += 4  # USER -> USER
-                break
-            for suffix in ['id', 'hash', 'key', 'code', 'uuid']:
-                if not col_name_lower.endswith(suffix):
-                    continue
-                if col_name_lower == f'{table_name_lower}_{suffix}':
-                    score += 5  # USER -> USER_ID
-                    break
-                if col_name_lower == f'{table_name_lower}{suffix}':
-                    score += 5  # User -> UserId
-                    break
-                if col_name_lower.endswith(f'{table_name_lower}_{suffix}'):
-                    score += 2
-                if col_name_lower.endswith(f'{table_name_lower}{suffix}'):
-                    score += 2
-            # `rel-bench` hard-coding :(
-            if table_name == 'studies' and col_name == 'nct_id':
-                score += 1
-        ser = df[col_name].iloc[:1_000_000]
-        score += 3 * (ser.nunique() / len(ser))
-        scores.append((col_name, score))
-    scores = [x for x in scores if x[-1] >= 4]
-    scores.sort(key=lambda x: x[-1], reverse=True)
-    if len(scores) == 0:
-        return None
-    if len(scores) == 1:
-        return scores[0][0]
-    # In case of multiple candidates, only return one if its score is unique:
-    if scores[0][1] != scores[1][1]:
-        return scores[0][0]
-    max_score = max(scores, key=lambda x: x[1])
-    candidates = [col_name for col_name, score in scores if score == max_score]
-    warnings.warn(f"Found multiple potential primary keys in table "
-                  f"'{table_name}': {candidates}. Please specify the primary "
-                  f"key for this table manually.")
-    return None
-def detect_time_column(
-    df: pd.DataFrame,
-    candidates: list[str],
-) -> Optional[str]:
-    r"""Auto-detect potential time column.
-    Args:
-        df: The pandas DataFrame to analyze
-        candidates: A list of potential candidates.
-    Returns:
-        The name of the detected time column, or ``None`` if not found.
-    """
-    candidates = [  # Exclude all candidates with `*last*` in column names:
-        col_name for col_name in candidates
-        if not re.search(r'(^|_)last(_|$)', col_name, re.IGNORECASE)
-    ]
-    if len(candidates) == 0:
-        return None
-    if len(candidates) == 1:
-        return candidates[0]
-    # If there exists a dedicated `create*` column, use it as time column:
-    create_candidates = [
-        candidate for candidate in candidates
-        if candidate.lower().startswith('create')
-    ]
-    if len(create_candidates) == 1:
-        return create_candidates[0]
-    if len(create_candidates) > 1:
-        candidates = create_candidates
-    # Find the most optimal time column. Usually, it is the one pointing to
-    # the oldest timestamps:
-    with warnings.catch_warnings():
-        warnings.filterwarnings('ignore', message='Could not infer format')
-        min_timestamp_dict = {
-            key: pd.to_datetime(df[key].iloc[:10_000], 'coerce')
-            for key in candidates
-        }
-    min_timestamp_dict = {
-        key: value.min().tz_localize(None)
-        for key, value in min_timestamp_dict.items()
-    }
-    min_timestamp_dict = {
-        key: value
-        for key, value in min_timestamp_dict.items() if not pd.isna(value)
-    }
-    if len(min_timestamp_dict) == 0:
-        return None
-    return min(min_timestamp_dict, key=min_timestamp_dict.get)  # type: ignore
-PUNCTUATION = re.compile(r"[\'\"\.,\(\)\!\?\;\:]")
-MULTISPACE = re.compile(r"\s+")
-def normalize_text(
-    ser: pd.Series,
-    max_words: Optional[int] = 50,
-) -> pd.Series:
-    r"""Normalizes text into a list of lower-case words.
-    Args:
-        ser: The :class:`pandas.Series` to normalize.
-        max_words: The maximum number of words to return.
-            This will auto-shrink any large text column to avoid blowing up
-            context size.
-    """
-    if len(ser) == 0 or pd.api.types.is_list_like(ser.iloc[0]):
-        return ser
-    def normalize_fn(line: str) -> list[str]:
-        line = PUNCTUATION.sub(" ", line)
-        line = re.sub(r"<br\s*/?>", " ", line)  # Handle <br /> or <br>
-        line = MULTISPACE.sub(" ", line)
-        words = line.split()
-        if max_words is not None:
-            words = words[:max_words]
-        return words
-    ser = ser.fillna('').astype(str)
-    if max_words is not None:
-        # We estimate the number of words as 5 characters + 1 space in an
-        # English text on average. We need this pre-filter here, as word
-        # splitting on a giant text can be very expensive:
-        ser = ser.str[:6 * max_words]
-    ser = ser.str.lower()
-    ser = ser.map(normalize_fn)
-    return ser

{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/WHEEL RENAMED Viewed

File without changes

{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{kumoai-2.12.0.dev202511111731.dist-info → kumoai-2.13.0.dev202512091732.dist-info}/top_level.txt RENAMED Viewed

File without changes