PyPI - churnkit - Versions diffs - 0.75.1a2__py3-none-any.whl → 0.75.1a3__py3-none-any.whl - Mend

churnkit 0.75.1a2py3-none-any.whl → 0.75.1a3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

{churnkit-0.75.1a2.dist-info → churnkit-0.75.1a3.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: churnkit
-Version: 0.75.1a2
+Version: 0.75.1a3
 Summary: Structured ML framework for customer churn prediction -- from exploration notebooks to production pipelines, locally or on Databricks.
 Project-URL: Homepage, https://github.com/aladjov/CR
 Project-URL: Documentation, https://github.com/aladjov/CR/wiki

{churnkit-0.75.1a2.dist-info → churnkit-0.75.1a3.dist-info}/RECORD RENAMED Viewed

@@ -1,4 +1,4 @@
-customer_retention/__init__.py,sha256=C6I88EHy9hhtRAg0eGgH0JkXYBBA2lzOc6qitHneXuw,1114
+customer_retention/__init__.py,sha256=9vKI748I497pRMAJl1x4_Th5hfFQRDfIHny7dk6gyQU,1114
 customer_retention/cli.py,sha256=Wdl540cZgu_9mV-hWmTV9jD3S8QTDR8Ik-5hQXYCvmg,2466
 customer_retention/analysis/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 customer_retention/analysis/jupyter_save_hook.py,sha256=iiNFIL83yOPX8BGUjCE6Pt5Kc8X-2adtE1_NZTMUaZQ,947
@@ -56,14 +56,14 @@ customer_retention/analysis/recommendations/transform/__init__.py,sha256=z5HPxPG
 customer_retention/analysis/recommendations/transform/power.py,sha256=4S-zZnLWrHVW4Q52xiyCPXJ8OweO28Tnld94kiFY5yw,3738
 customer_retention/analysis/recommendations/transform/scale.py,sha256=mKt6_UV0iQ1AiQwyHr3owhvkFWngecr6sTzgA4DX7Is,5081
 customer_retention/analysis/visualization/__init__.py,sha256=5dVikBgzwJuQZ-W0vN5uMB1lLjVmvJbEhROQw9_87PI,399
-customer_retention/analysis/visualization/chart_builder.py,sha256=xZgRjLDRbBYBPvLz0HOOUfyzydt4H6skv5d2Oe0pvPk,111788
+customer_retention/analysis/visualization/chart_builder.py,sha256=TmeTgMRChrsr4bFevToTBAsYqyy0e9Z5sNFQ37avC48,111799
 customer_retention/analysis/visualization/console.py,sha256=dl_nEo6rXXSRfSnYkkJ4CsvBcE-n3l4mH9MIIjtw8Yw,2853
 customer_retention/analysis/visualization/display.py,sha256=9px602M7GrllJYthHLthjpVYd0jiTTAyY5WK69dd4s0,6625
 customer_retention/analysis/visualization/number_formatter.py,sha256=I1gUB0tEmfTQuDfOGYBZ3KRbq1rUd7ltR0vhDxFNRv8,1171
 customer_retention/artifacts/__init__.py,sha256=zTROqiS6zlkkuCZgR6YOB0Cvlsyr0TpRBYsOEorpDYw,118
 customer_retention/artifacts/fit_artifact_registry.py,sha256=aNfZC0Dgbc6jEwRR5keDEop9jo_tuL82hKO3ouCh5eY,5750
 customer_retention/core/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-customer_retention/core/compat/__init__.py,sha256=tD0XOABGAVQwuUaII8v1EKVJ149n1anp2dUzQkFkl-M,5382
+customer_retention/core/compat/__init__.py,sha256=dwamNiYIDzHEHpcmaphvR7wAwHslIqz6FoYjmQiR8Gg,7245
 customer_retention/core/compat/detection.py,sha256=6W_1LefgQriBtRY2PnvSCUGDt0X63oIUEEVjFqG3qH0,2492
 customer_retention/core/compat/ops.py,sha256=L-tAh4A3UEfRvePS6rAbhqb0QtZ_bN-TV7ZWpTkMFLA,1809
 customer_retention/core/compat/pandas_backend.py,sha256=14JPoYTW6X-a3UwFaemhmPr8zi_GTdZnyitmqPQODR0,1839
@@ -107,7 +107,7 @@ customer_retention/generators/notebook_generator/stages/s01_ingestion.py,sha256=
 customer_retention/generators/notebook_generator/stages/s02_profiling.py,sha256=kpI-3FfTYpr29NBX24bYFXB03eq3cKSQBftCRr15qxY,3794
 customer_retention/generators/notebook_generator/stages/s03_cleaning.py,sha256=cNY9AEoZx2r1hNmz2cD4zy36bV855GKavcWSTjp1Hc4,8084
 customer_retention/generators/notebook_generator/stages/s04_transformation.py,sha256=pzZOnWUfGjtGKzaqGfkN-Dipef1KUfErbSejMJv8Eo0,7623
-customer_retention/generators/notebook_generator/stages/s05_feature_engineering.py,sha256=PVfVyA3Lc_DRXsxEf2eAeYtgfx9w8UJW0ImR8UjVpqA,5915
+customer_retention/generators/notebook_generator/stages/s05_feature_engineering.py,sha256=XksIe9u36SJyZzQxLv-v7rHEOp30PtwX-K-rpuk6iGc,5985
 customer_retention/generators/notebook_generator/stages/s06_feature_selection.py,sha256=FIPy6Dk6OI2LLo3vikq7i8EWkp_-kMbto1yN7Pgi7f4,4484
 customer_retention/generators/notebook_generator/stages/s07_model_training.py,sha256=yJ-FWSCamvAqjZrvxWaUAviWLPHHS4EQ2nrZMRbPey4,8076
 customer_retention/generators/notebook_generator/stages/s08_deployment.py,sha256=6IS1_9ZMvXBNMCTwGNZgSRU5Gh0kaats_CKJZ-z46wg,3556
@@ -124,11 +124,11 @@ customer_retention/generators/pipeline_generator/__init__.py,sha256=1SRNHmQGM-yY
 customer_retention/generators/pipeline_generator/findings_parser.py,sha256=YvlXmDPDXkNnCvScUDNycwkp1J2HXpbDUO43NiShAig,34527
 customer_retention/generators/pipeline_generator/generator.py,sha256=ZKLr34AM-XEswjoddJXciASUg2mL8jgsXjpQiaKy29M,6097
 customer_retention/generators/pipeline_generator/models.py,sha256=1vSUXzO1uZw194nPdDJ5vU3lZw35Am-UWQY0Ic9CvbE,4874
-customer_retention/generators/pipeline_generator/renderer.py,sha256=hHybbSplSQxhkt_5OcJ8NTXkQppO2VM7lylNOzz3ZAU,81770
+customer_retention/generators/pipeline_generator/renderer.py,sha256=bvGTU_AkRgFSa0_xiMJawuOg7EswP8GcErVBR661TYM,81872
 customer_retention/generators/spec_generator/__init__.py,sha256=vojlxKgLGnLHH9DNolB8mgL0_FsIfSSLmuHPXyr8bYY,782
 customer_retention/generators/spec_generator/databricks_generator.py,sha256=o_qAik7mXuwzC9c7xUTkno5GHUmfHz5F2dIWqTcaDzw,15416
 customer_retention/generators/spec_generator/generic_generator.py,sha256=I_glnOOsXDbL_v_ffxkeKwSYm5MCEB5qF9WAAZ8Woho,13962
-customer_retention/generators/spec_generator/mlflow_pipeline_generator.py,sha256=B6uE4YeSWQAMo-d08qsBkicrlTf-S6AIfL9SAKa87vY,27533
+customer_retention/generators/spec_generator/mlflow_pipeline_generator.py,sha256=8-iUBgGThRJM5EmfJUwEoy8hJGZb7dZfuO6eh_QRH7A,27614
 customer_retention/generators/spec_generator/pipeline_spec.py,sha256=c8v1SWgTdeGmNs96l1hOS0qx1B1ua0iwPhw1I5w9OIo,10705
 customer_retention/integrations/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 customer_retention/integrations/adapters/__init__.py,sha256=Fgdp0ESROTUHnOb2RN9Ubo0A4BdfoenOGuUz61lHz8g,583
@@ -187,7 +187,7 @@ customer_retention/stages/features/feature_engineer.py,sha256=btVsdLHRKYk6E5xI-9
 customer_retention/stages/features/feature_manifest.py,sha256=EEBG7kdU_jWNcnDqdLHONIaJ-n2GcqLkjXjIxo3zn9w,9731
 customer_retention/stages/features/feature_selector.py,sha256=_CG3ZKVuZuqrwV9YvYvlTnXf0ahhsZNLmSRhf4nwNiQ,10089
 customer_retention/stages/features/interaction_features.py,sha256=P7aaHALbFcfEchJsesVPhVmOm-v2VmYkG90t8p2tNVA,4634
-customer_retention/stages/features/temporal_features.py,sha256=0RghOQwWte7cGULbKAtMggX9pQGwYGU1f4lkl-Y_5ao,9283
+customer_retention/stages/features/temporal_features.py,sha256=KyXehl56Bt2tW7uP5uG_EJIgWIy8ee5qkjRSKxuJlhQ,9183
 customer_retention/stages/ingestion/__init__.py,sha256=kYVOe8kq7S0I_tjY-BcdZ1IsNWrYYjzDmoAcV2lhijQ,308
 customer_retention/stages/ingestion/load_result.py,sha256=sambVq085Lj1rAfIrbDA2BgPU3HsVVJJpgkVWojkpyc,860
 customer_retention/stages/ingestion/loaders.py,sha256=I0cgJo1XU47y_y7RKk6oELGVu1062qNP2GU5jJfgXVk,7705
@@ -216,7 +216,7 @@ customer_retention/stages/profiling/column_profiler.py,sha256=WZKwPxpDmCQiBJBHB-
 customer_retention/stages/profiling/distribution_analysis.py,sha256=9v-QY41cuQI_Fuvjkqx1Q3QAcsSK8ThU43t8PRgD0uo,17052
 customer_retention/stages/profiling/drift_detector.py,sha256=I1OYr37ew-XB7sVp6VARqjH0eKZA1Rx0eOQNRJZTOMs,12681
 customer_retention/stages/profiling/feature_capacity.py,sha256=fP_sK2KxU6zpdfnIcAW313N451SXqHT1wv9psd5WhSk,19598
-customer_retention/stages/profiling/pattern_analysis_config.py,sha256=RRxrZqTA_Xue1zbO6W6-gpVa7EC0ZdP5M0XOtuSg4lQ,22499
+customer_retention/stages/profiling/pattern_analysis_config.py,sha256=TivC8fY3xNQ561VgHgaSloDVl7zSDOi-no8BSr5Favg,22575
 customer_retention/stages/profiling/profile_result.py,sha256=NKKh1u2FmfBqnIbOEiqBh25IZDMm91h38RT7wzA8yQI,6350
 customer_retention/stages/profiling/quality_checks.py,sha256=ov8opsY4AoM9D6Yr_fGXsVwXfpmO0OeFfhdML-xfoIM,65678
 customer_retention/stages/profiling/relationship_detector.py,sha256=9WMM8YOIl-EWPY2P3PFuOENM9D1nm5lU5sDfZTE_chQ,9477
@@ -228,16 +228,16 @@ customer_retention/stages/profiling/segment_aware_outlier.py,sha256=PS5GXnf_g3D9
 customer_retention/stages/profiling/target_level_analyzer.py,sha256=XPhdHqTdK9zzBDqy-JyrTi6NFf07wRwIGsVEOAiR_dE,10491
 customer_retention/stages/profiling/temporal_analyzer.py,sha256=PXf4pYNcszp7N8_14MKFKXDku-fw2M_NLWN7jUsHd1Q,16102
 customer_retention/stages/profiling/temporal_coverage.py,sha256=r23s1qyB7o11ab_TTLOgb4q29OPA_crRshFpMLt4t_w,18561
-customer_retention/stages/profiling/temporal_feature_analyzer.py,sha256=iWcT84ly5iPqNRnxDxe458R4Iha5u72_g-2-ZNAk4Gs,32343
+customer_retention/stages/profiling/temporal_feature_analyzer.py,sha256=Gl8GLxPlDIzh-shUYrePYnjzYQUwsBB-sB4Voqf69O8,32364
 customer_retention/stages/profiling/temporal_feature_engineer.py,sha256=kTp5avXNsGGCYF_TBUg4KpbzfL79zz50zQ7ywVOxPkg,27141
-customer_retention/stages/profiling/temporal_pattern_analyzer.py,sha256=EyV5905sjclCv4AOblXn6P8bDHvQpJsv7yuIotlpZLA,26512
-customer_retention/stages/profiling/temporal_quality_checks.py,sha256=bxZEqpADOFoYWb-rXBZrFyUdRHqQ9k4fCrQXzL4uVCk,13590
+customer_retention/stages/profiling/temporal_pattern_analyzer.py,sha256=-DBNhBfyEGhl0-rIgbpEGDJikyINDG55FP15JURKm_A,26814
+customer_retention/stages/profiling/temporal_quality_checks.py,sha256=SosW3omX2c025UIdlXpLEBJCsAsIvoGXMbxw6tzBocA,13750
 customer_retention/stages/profiling/temporal_target_analyzer.py,sha256=eeZlUhTWZfCftwgm_dySi1feRLuoU9SRLL_r_4jgN5g,8785
 customer_retention/stages/profiling/text_embedder.py,sha256=ck7WIq7pGC7xgEzMQr7fYdHcJegYR6wfdh3z32WUiK8,3038
 customer_retention/stages/profiling/text_processor.py,sha256=spdfwVSEU07aYbl2bIsg_INOBt3Js-IA15WVkjf1ask,4474
 customer_retention/stages/profiling/text_reducer.py,sha256=ilSuUAu0dHUyRGTNg8TzoCEd-EAyXKvoAm4uGqwlSQs,2409
-customer_retention/stages/profiling/time_series_profiler.py,sha256=AGX7BJiKwCtzyPL4cWy3EmqS6CnDwr8PZCWCl_5ivmA,10410
-customer_retention/stages/profiling/time_window_aggregator.py,sha256=NcxVAor8JhDnPLap_iS3z81flejd7uPeTQLwLmQn7MA,15868
+customer_retention/stages/profiling/time_series_profiler.py,sha256=RRpaHrd6CXzat6HTdowIFxoZQyzqC3LlO9y-q_tsv2g,10315
+customer_retention/stages/profiling/time_window_aggregator.py,sha256=SD53z3Itz2F3ptfYHRmlW4d7IbrXvJoJbsPw0VOoUWI,15909
 customer_retention/stages/profiling/type_detector.py,sha256=VgYHWcBGepyJKNdY1FKgb9scOaosN6fDY_-WiTjfoAg,14726
 customer_retention/stages/profiling/window_recommendation.py,sha256=Apd_PDFpo49HJJzldTcwzzgJjBzEfd8mbGboBwHhzGw,13354
 customer_retention/stages/temporal/__init__.py,sha256=f86XiSUMKQgeTLyOsu89IJcafOPjdBIR9bH_hhrY8b8,6135
@@ -254,7 +254,7 @@ customer_retention/stages/temporal/timestamp_manager.py,sha256=EisQM4_e14wsdqVxz
 customer_retention/stages/transformation/__init__.py,sha256=6XQGYKYNqdOuxlX6IujtVqRZ099pS8X_ATd6mLqwVtQ,783
 customer_retention/stages/transformation/binary_handler.py,sha256=ObwL90YP3ivwOJONBikzZouUoBz-YCTcxWybfwA5ddc,3201
 customer_retention/stages/transformation/categorical_encoder.py,sha256=T0mLgJ6cf2kLkha4HclAeeaxlz7cVJBWYEsEt8fs5KA,10145
-customer_retention/stages/transformation/datetime_transformer.py,sha256=iWzxb7gdpn1uEPo96_ir9hDcqCERnVPhBLTTQyxq1xk,3619
+customer_retention/stages/transformation/datetime_transformer.py,sha256=60qQUizDS_h-i6BNOAzDoOJxC1T1OEJE3ZguSA3mimI,3716
 customer_retention/stages/transformation/numeric_transformer.py,sha256=wqC2aUfXargeOph8d9F4P2wLet4lnFOKoI9x1mpJucw,6367
 customer_retention/stages/transformation/pipeline.py,sha256=qqbpisjN4uZ050eishlEj037u2mPKEwxGG0o7GruoQM,11278
 customer_retention/stages/validation/__init__.py,sha256=8Klgpez2ApVM1n1HUWcaGjaa21-aC-ReaZIVj7zHFh4,2380
@@ -276,27 +276,27 @@ customer_retention/transforms/artifact_store.py,sha256=FYLpDcv2N6-dUTX5RPEIK3aCW
 customer_retention/transforms/executor.py,sha256=oML5dCidxbW_q6YUkAwWcutYP6bIFB6IdD3BvemK45A,6304
 customer_retention/transforms/fitted.py,sha256=3pNvnae-P3t3bKMeZz1Bl0xww-feapIYdoeTY6aUtI8,3278
 customer_retention/transforms/ops.py,sha256=Xg2g9UOOudq_y9Hf3oWsjpqw3dEoykQR5pDSoyW8GX0,4294
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/00_start_here.ipynb,sha256=zCyhftEd3v9fc0Ta6wvA6b-9LcoGzRi8bS1tMZ3iu9w,21911
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/01_data_discovery.ipynb,sha256=up0X3oDJ5sAo1-tbqMyZj_f1h6D542G2uAxjVmtYCOI,46430
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/01a_a_temporal_text_deep_dive.ipynb,sha256=uai8T3iJSqOrabBQnVi8Z0k8zZGVgs_VVQWRHyXN8QU,33690
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/01a_temporal_deep_dive.ipynb,sha256=fC1ASNtvI8X1lAe-Lzcw3oX2cptDC-ymPeEtKKWhg20,67326
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/01b_temporal_quality.ipynb,sha256=RU5hxgrTVMZs1ytChVv1t49WpTO0Oj6B_Fu8g0xS0To,23039
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/01c_temporal_patterns.ipynb,sha256=ZGYfztP6JhOEwPmTYdC0l7w579fKXcNEJXq-PnCLc2I,153167
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/01d_event_aggregation.ipynb,sha256=-FT3SoBU0fhaZxGeTo-_UQl6riCrtoJaFnUg31opk64,63244
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/02_column_deep_dive.ipynb,sha256=mbP2LQWsXDyTsWg0bhrCBHEfHsEer_XOXRYV9f8JxAk,60250
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/02a_text_columns_deep_dive.ipynb,sha256=M9YN8yAjjuC6ZaUlc-rVqVLEkWd7Rc_GNILHS9qO3PU,29704
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/03_quality_assessment.ipynb,sha256=H49LLmn1PHbcbAvSQfteESRGk125QwkPI5qbLk3yZgc,68595
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/04_relationship_analysis.ipynb,sha256=Rr-B4-xg0ILuAIgztlZkiGJdTzLuNjOqBFxO8W4o9iU,78624
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/05_multi_dataset.ipynb,sha256=bBxkuZyTl1yZg4kMXO87WRjgZMhj_6hwLGX6m3XC270,62664
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/06_feature_opportunities.ipynb,sha256=cBJF5o4z3Z-dustQ4CVklnfTcQ8saG97tlgswWK9uWE,67409
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/07_modeling_readiness.ipynb,sha256=IiA04fyb-l097Glp3MtR03vPjQsZlS1Icg-hjEHa_Dg,28376
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/08_baseline_experiments.ipynb,sha256=KmjhnDf1JdpEiIcdfQ-ZFo_at6t9JRC30B6NmmvMBmg,34226
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/09_business_alignment.ipynb,sha256=tMNfGM7AH50N1ONzHhGW2HZLpQwraIxVzOiVnI-10X8,17214
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/10_spec_generation.ipynb,sha256=KeUdfL9Mvdi6023XpnfZ6oLEDNZaWiIHUfsAWig24mE,42847
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/11_scoring_validation.ipynb,sha256=5fi3eHMm03ZKZgdFAXMgydtZ3qX2TtR3L9bZS2MpWPE,49937
-churnkit-0.75.1a2.data/data/share/churnkit/exploration_notebooks/12_view_documentation.ipynb,sha256=aQF7CG8HxckqUKOKqnmZgMkSvfVzyO2LlYPrymLYjBY,4405
-churnkit-0.75.1a2.dist-info/METADATA,sha256=_YubBia8HFc-pJjr1z979oFMzQ6kH61DYhHalVn-y40,12736
-churnkit-0.75.1a2.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
-churnkit-0.75.1a2.dist-info/entry_points.txt,sha256=swQFVe-jjgQSBJQNO2Ulkz2F5odaE-TsnlTor3HQBjw,70
-churnkit-0.75.1a2.dist-info/licenses/LICENSE,sha256=Bud8Oj25tnpoIuXCWW0xcSfmGPeEZAAHrDRoKdSYtZY,11344
-churnkit-0.75.1a2.dist-info/RECORD,,
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/00_start_here.ipynb,sha256=zCyhftEd3v9fc0Ta6wvA6b-9LcoGzRi8bS1tMZ3iu9w,21911
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/01_data_discovery.ipynb,sha256=up0X3oDJ5sAo1-tbqMyZj_f1h6D542G2uAxjVmtYCOI,46430
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/01a_a_temporal_text_deep_dive.ipynb,sha256=uai8T3iJSqOrabBQnVi8Z0k8zZGVgs_VVQWRHyXN8QU,33690
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/01a_temporal_deep_dive.ipynb,sha256=fC1ASNtvI8X1lAe-Lzcw3oX2cptDC-ymPeEtKKWhg20,67326
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/01b_temporal_quality.ipynb,sha256=RU5hxgrTVMZs1ytChVv1t49WpTO0Oj6B_Fu8g0xS0To,23039
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/01c_temporal_patterns.ipynb,sha256=ZGYfztP6JhOEwPmTYdC0l7w579fKXcNEJXq-PnCLc2I,153167
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/01d_event_aggregation.ipynb,sha256=-FT3SoBU0fhaZxGeTo-_UQl6riCrtoJaFnUg31opk64,63244
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/02_column_deep_dive.ipynb,sha256=mbP2LQWsXDyTsWg0bhrCBHEfHsEer_XOXRYV9f8JxAk,60250
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/02a_text_columns_deep_dive.ipynb,sha256=M9YN8yAjjuC6ZaUlc-rVqVLEkWd7Rc_GNILHS9qO3PU,29704
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/03_quality_assessment.ipynb,sha256=H49LLmn1PHbcbAvSQfteESRGk125QwkPI5qbLk3yZgc,68595
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/04_relationship_analysis.ipynb,sha256=Rr-B4-xg0ILuAIgztlZkiGJdTzLuNjOqBFxO8W4o9iU,78624
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/05_multi_dataset.ipynb,sha256=bBxkuZyTl1yZg4kMXO87WRjgZMhj_6hwLGX6m3XC270,62664
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/06_feature_opportunities.ipynb,sha256=cBJF5o4z3Z-dustQ4CVklnfTcQ8saG97tlgswWK9uWE,67409
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/07_modeling_readiness.ipynb,sha256=IiA04fyb-l097Glp3MtR03vPjQsZlS1Icg-hjEHa_Dg,28376
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/08_baseline_experiments.ipynb,sha256=KmjhnDf1JdpEiIcdfQ-ZFo_at6t9JRC30B6NmmvMBmg,34226
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/09_business_alignment.ipynb,sha256=tMNfGM7AH50N1ONzHhGW2HZLpQwraIxVzOiVnI-10X8,17214
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/10_spec_generation.ipynb,sha256=KeUdfL9Mvdi6023XpnfZ6oLEDNZaWiIHUfsAWig24mE,42847
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/11_scoring_validation.ipynb,sha256=5fi3eHMm03ZKZgdFAXMgydtZ3qX2TtR3L9bZS2MpWPE,49937
+churnkit-0.75.1a3.data/data/share/churnkit/exploration_notebooks/12_view_documentation.ipynb,sha256=aQF7CG8HxckqUKOKqnmZgMkSvfVzyO2LlYPrymLYjBY,4405
+churnkit-0.75.1a3.dist-info/METADATA,sha256=hYbCUfYKPP5jeW_YjZRN8j4M6msQHdApmOx7-KEJDmU,12736
+churnkit-0.75.1a3.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+churnkit-0.75.1a3.dist-info/entry_points.txt,sha256=swQFVe-jjgQSBJQNO2Ulkz2F5odaE-TsnlTor3HQBjw,70
+churnkit-0.75.1a3.dist-info/licenses/LICENSE,sha256=Bud8Oj25tnpoIuXCWW0xcSfmGPeEZAAHrDRoKdSYtZY,11344
+churnkit-0.75.1a3.dist-info/RECORD,,

customer_retention/__init__.py CHANGED Viewed

@@ -17,7 +17,7 @@ Main module categories:
                 llm_context, iteration)
 """
-__version__ = "0.75.1a2"
+__version__ = "0.75.1a3"
 # Environment utilities (always available)
 from .core.compat import (

customer_retention/analysis/visualization/chart_builder.py CHANGED Viewed

@@ -5,7 +5,7 @@ import numpy as np
 import plotly.express as px
 import plotly.graph_objects as go
-from customer_retention.core.compat import DataFrame, Series, ensure_pandas_series, to_pandas
+from customer_retention.core.compat import DataFrame, Series, ensure_pandas_series, safe_to_datetime, to_pandas
 from .number_formatter import NumberFormatter
@@ -532,9 +532,8 @@ class ChartBuilder:
         dates: Series,
         title: Optional[str] = None,
     ) -> go.Figure:
-        import pandas as pd
         dates = ensure_pandas_series(dates)
-        parsed = pd.to_datetime(dates, errors="coerce").dropna()
+        parsed = safe_to_datetime(dates, errors="coerce").dropna()
         if len(parsed) == 0:
             fig = go.Figure()
@@ -1029,7 +1028,7 @@ class ChartBuilder:
         """
         import pandas as pd
         dates = ensure_pandas_series(dates)
-        parsed = pd.to_datetime(dates, errors="coerce")
+        parsed = safe_to_datetime(dates, errors="coerce")
         if values is not None:
             values = ensure_pandas_series(values)
@@ -1078,7 +1077,7 @@ class ChartBuilder:
         """Create a month x day-of-week heatmap for pattern discovery."""
         import pandas as pd
         dates = ensure_pandas_series(dates)
-        parsed = pd.to_datetime(dates, errors="coerce").dropna()
+        parsed = safe_to_datetime(dates, errors="coerce").dropna()
         if values is not None:
             values = ensure_pandas_series(values)
@@ -1127,7 +1126,7 @@ class ChartBuilder:
         dates = ensure_pandas_series(dates)
         values = ensure_pandas_series(values)
-        df = pd.DataFrame({"date": pd.to_datetime(dates), "value": values}).dropna()
+        df = pd.DataFrame({"date": safe_to_datetime(dates), "value": values}).dropna()
         df = df.sort_values("date")
         df["rolling_mean"] = df["value"].rolling(window=window, center=True, min_periods=1).mean()
@@ -2222,7 +2221,7 @@ class ChartBuilder:
         import pandas as pd
         with warnings.catch_warnings():
             warnings.simplefilter("ignore")
-            dates = pd.to_datetime(series, errors='coerce').dropna()
+            dates = safe_to_datetime(pd.Series(series), errors='coerce').dropna()
         if len(dates) == 0:
             return

customer_retention/core/compat/__init__.py CHANGED Viewed

@@ -147,6 +147,54 @@ def is_float_dtype(arr_or_dtype: Any) -> bool:
     return _pandas.api.types.is_float_dtype(arr_or_dtype)
+def _infer_epoch_unit(value: int) -> str:
+    """Infer the epoch unit from a representative integer timestamp value.
+    Spark LongType timestamps become int64 after ``to_pandas()``.  The bare
+    ``pd.to_datetime()`` call assumes nanoseconds for large integers, which
+    silently produces wrong dates when the source used seconds or milliseconds.
+    This helper picks the right ``unit`` based on magnitude.
+    """
+    abs_val = abs(int(value))
+    if abs_val > 1e17:
+        return "ns"
+    if abs_val > 1e14:
+        return "us"
+    if abs_val > 1e11:
+        return "ms"
+    return "s"
+def safe_to_datetime(series: Any, **kwargs: Any) -> _pandas.Series:
+    """Convert a Series to datetime, handling Spark LongType epoch integers.
+    Like ``pd.to_datetime`` but automatically detects integer epoch columns
+    and passes the correct ``unit`` parameter.  Any extra *kwargs* are
+    forwarded to ``pd.to_datetime``.
+    """
+    series = ensure_pandas_series(series)
+    if _pandas.api.types.is_datetime64_any_dtype(series):
+        return series
+    if _pandas.api.types.is_integer_dtype(series):
+        non_null = series.dropna()
+        if len(non_null) > 0:
+            unit = _infer_epoch_unit(non_null.iloc[0])
+            return _pandas.to_datetime(series, unit=unit, **kwargs)
+    return _pandas.to_datetime(series, **kwargs)
+def ensure_datetime_column(df: _pandas.DataFrame, column: str) -> _pandas.DataFrame:
+    """Ensure *column* in a **pandas** DataFrame is ``datetime64``.
+    Call this after ``to_pandas()`` to safely convert columns that may have
+    arrived as int64 epoch values from Spark.  Returns the DataFrame
+    (modified in-place).
+    """
+    if not _pandas.api.types.is_datetime64_any_dtype(df[column]):
+        df[column] = safe_to_datetime(df[column])
+    return df
 class PandasCompat:
     @staticmethod
     def value_counts_normalize(series: Any, normalize: bool = False) -> Any:
@@ -208,6 +256,8 @@ __all__ = [
     "is_notebook",
     "get_display_function",
     "get_dbutils",
+    "safe_to_datetime",
+    "ensure_datetime_column",
     "ops",
     "DataOps",
 ]

customer_retention/generators/notebook_generator/stages/s05_feature_engineering.py CHANGED Viewed

@@ -55,7 +55,8 @@ else:
 else:
     print("Warning: No feature_timestamp column found. Using current date (may cause leakage).")
     if "signup_date" in df.columns:
-        df["tenure_days"] = (pd.Timestamp.now() - pd.to_datetime(df["signup_date"])).dt.days'''),
+        from customer_retention.core.compat import safe_to_datetime
+        df["tenure_days"] = (pd.Timestamp.now() - safe_to_datetime(df["signup_date"])).dt.days'''),
             self.cb.section("Validate Point-in-Time Correctness"),
             self.cb.code('''if "feature_timestamp" in df.columns:
     pit_report = PointInTimeJoiner.validate_temporal_integrity(df)

customer_retention/generators/pipeline_generator/renderer.py CHANGED Viewed

@@ -290,6 +290,7 @@ from pathlib import Path
 {% if ops %}
 from customer_retention.transforms import {{ ops | sort | join(', ') }}
 {% endif %}
+from customer_retention.core.compat import ensure_datetime_column, safe_to_datetime
 from config import SOURCES, get_bronze_path{{ ', RAW_SOURCES' if config.lifecycle else '' }}
 SOURCE_NAME = "{{ source }}"
@@ -356,7 +357,7 @@ def _load_raw_events():
 {% if config.lifecycle.include_recency_bucket %}
 def add_recency_tenure(df: pd.DataFrame, raw_df: pd.DataFrame) -> pd.DataFrame:
-    raw_df[TIME_COLUMN] = pd.to_datetime(raw_df[TIME_COLUMN])
+    ensure_datetime_column(raw_df, TIME_COLUMN)
     reference_date = raw_df[TIME_COLUMN].max()
     entity_stats = raw_df.groupby(ENTITY_COLUMN)[TIME_COLUMN].agg(["min", "max"])
     entity_stats["days_since_last"] = (reference_date - entity_stats["max"]).dt.days
@@ -398,7 +399,7 @@ def add_lifecycle_quadrant(df: pd.DataFrame) -> pd.DataFrame:
 {% if config.lifecycle.include_cyclical_features %}
 def add_cyclical_features(df: pd.DataFrame, raw_df: pd.DataFrame) -> pd.DataFrame:
-    raw_df[TIME_COLUMN] = pd.to_datetime(raw_df[TIME_COLUMN])
+    ensure_datetime_column(raw_df, TIME_COLUMN)
     mean_dow = raw_df.groupby(ENTITY_COLUMN)[TIME_COLUMN].apply(lambda x: x.dt.dayofweek.mean())
     df = df.merge(mean_dow.rename("mean_dow"), left_on=ENTITY_COLUMN, right_index=True, how="left")
     df["dow_sin"] = np.sin(2 * np.pi * df["mean_dow"] / 7)
@@ -1447,6 +1448,7 @@ from pathlib import Path
 {% if ops %}
 from customer_retention.transforms import {{ ops | sort | join(', ') }}
 {% endif %}
+from customer_retention.core.compat import ensure_datetime_column, safe_to_datetime
 from config import PRODUCTION_DIR, RAW_SOURCES, TARGET_COLUMN
 SOURCE_NAME = "{{ source }}"
@@ -1502,7 +1504,7 @@ AGG_FUNCS = {{ config.aggregation.agg_funcs }}
 def apply_reshaping(df: pd.DataFrame) -> pd.DataFrame:
 {% if config.aggregation %}
-    df[TIME_COLUMN] = pd.to_datetime(df[TIME_COLUMN])
+    ensure_datetime_column(df, TIME_COLUMN)
     reference_date = df[TIME_COLUMN].max()
     result = df.groupby(ENTITY_COLUMN).agg("first")[[]]
     if TARGET_COLUMN in df.columns:
@@ -1535,7 +1537,7 @@ def _load_raw_events():
 {% if config.lifecycle.include_recency_bucket %}
 def add_recency_tenure(df: pd.DataFrame, raw_df: pd.DataFrame) -> pd.DataFrame:
-    raw_df[TIME_COLUMN] = pd.to_datetime(raw_df[TIME_COLUMN])
+    ensure_datetime_column(raw_df, TIME_COLUMN)
     reference_date = raw_df[TIME_COLUMN].max()
     entity_stats = raw_df.groupby(ENTITY_COLUMN)[TIME_COLUMN].agg(["min", "max"])
     entity_stats["days_since_last"] = (reference_date - entity_stats["max"]).dt.days
@@ -1577,7 +1579,7 @@ def add_lifecycle_quadrant(df: pd.DataFrame) -> pd.DataFrame:
 {% if config.lifecycle.include_cyclical_features %}
 def add_cyclical_features(df: pd.DataFrame, raw_df: pd.DataFrame) -> pd.DataFrame:
-    raw_df[TIME_COLUMN] = pd.to_datetime(raw_df[TIME_COLUMN])
+    ensure_datetime_column(raw_df, TIME_COLUMN)
     mean_dow = raw_df.groupby(ENTITY_COLUMN)[TIME_COLUMN].apply(lambda x: x.dt.dayofweek.mean())
     df = df.merge(mean_dow.rename("mean_dow"), left_on=ENTITY_COLUMN, right_index=True, how="left")
     df["dow_sin"] = np.sin(2 * np.pi * df["mean_dow"] / 7)

customer_retention/generators/spec_generator/mlflow_pipeline_generator.py CHANGED Viewed

@@ -395,6 +395,7 @@ def log_data_quality_metrics(df: pd.DataFrame, prefix: str = "data"):
         code_lines = [
             "def engineer_features(df: pd.DataFrame) -> pd.DataFrame:",
             '    """Engineer features based on exploration findings."""',
+            "    from customer_retention.core.compat import safe_to_datetime",
             "    df = df.copy()",
             "    new_features = []",
             "",
@@ -411,7 +412,7 @@ def log_data_quality_metrics(df: pd.DataFrame, prefix: str = "data"):
             code_lines.extend([
                 f"    # Datetime features from {col_name}",
                 f"    if '{col_name}' in df.columns:",
-                f"        df['{col_name}'] = pd.to_datetime(df['{col_name}'], errors='coerce')",
+                f"        df['{col_name}'] = safe_to_datetime(df['{col_name}'], errors='coerce')",
                 "",
             ])

customer_retention/stages/features/temporal_features.py CHANGED Viewed

@@ -10,7 +10,7 @@ from dataclasses import dataclass, field
 from enum import Enum
 from typing import List, Optional, Union
-from customer_retention.core.compat import DataFrame, Series, Timedelta, Timestamp, pd
+from customer_retention.core.compat import DataFrame, Series, Timedelta, Timestamp, pd, safe_to_datetime, to_pandas
 class ReferenceDateSource(Enum):
@@ -122,19 +122,19 @@ class TemporalFeatureGenerator:
         if not self._is_fitted:
             raise ValueError("Generator not fitted. Call fit() first.")
-        result = df.copy()
+        result = to_pandas(df).copy()
         self.generated_features = []
         warnings_list = []
         # Get reference date(s) for this transform
         if self.reference_date_source in [ReferenceDateSource.COLUMN, ReferenceDateSource.FEATURE_TIMESTAMP]:
-            ref_dates = pd.to_datetime(df[self.reference_date_column], format='mixed')
+            ref_dates = safe_to_datetime(df[self.reference_date_column])
         else:
             ref_dates = self.reference_date
         # Tenure features
         if self.created_column and self.created_column in df.columns:
-            created = pd.to_datetime(df[self.created_column], format='mixed')
+            created = safe_to_datetime(df[self.created_column])
             tenure_days = self._compute_days_diff(ref_dates, created)
             result["tenure_days"] = tenure_days
             self.generated_features.append("tenure_days")
@@ -154,7 +154,7 @@ class TemporalFeatureGenerator:
         # Recency features
         if self.last_order_column and self.last_order_column in df.columns:
-            last_order = pd.to_datetime(df[self.last_order_column], format='mixed')
+            last_order = safe_to_datetime(df[self.last_order_column])
             days_since_last = self._compute_days_diff(ref_dates, last_order)
             result["days_since_last_order"] = days_since_last
             self.generated_features.append("days_since_last_order")
@@ -162,8 +162,8 @@ class TemporalFeatureGenerator:
         # Activation features
         if (self.first_order_column and self.first_order_column in df.columns and
                 self.created_column and self.created_column in df.columns):
-            created = pd.to_datetime(df[self.created_column], format='mixed')
-            first_order = pd.to_datetime(df[self.first_order_column], format='mixed')
+            created = safe_to_datetime(df[self.created_column])
+            first_order = safe_to_datetime(df[self.first_order_column])
             days_to_first = self._compute_days_diff(first_order, created)
             result["days_to_first_order"] = days_to_first
             self.generated_features.append("days_to_first_order")
@@ -171,8 +171,8 @@ class TemporalFeatureGenerator:
         # Active period
         if (self.first_order_column and self.first_order_column in df.columns and
                 self.last_order_column and self.last_order_column in df.columns):
-            first_order = pd.to_datetime(df[self.first_order_column], format='mixed')
-            last_order = pd.to_datetime(df[self.last_order_column], format='mixed')
+            first_order = safe_to_datetime(df[self.first_order_column])
+            last_order = safe_to_datetime(df[self.last_order_column])
             active_period = self._compute_days_diff(last_order, first_order)
             result["active_period_days"] = active_period
             self.generated_features.append("active_period_days")
@@ -210,21 +210,21 @@ class TemporalFeatureGenerator:
                 raise ValueError(
                     "date_column must be provided when source is MAX_DATE"
                 )
-            self.reference_date = pd.to_datetime(df[self.date_column], format='mixed').max()
+            self.reference_date = safe_to_datetime(df[self.date_column]).max()
         elif self.reference_date_source == ReferenceDateSource.COLUMN:
             if self.reference_date_column is None:
                 raise ValueError(
                     "reference_date_column must be provided when source is COLUMN"
                 )
-            self.reference_date = pd.to_datetime(df[self.reference_date_column], format='mixed')
+            self.reference_date = safe_to_datetime(df[self.reference_date_column])
         elif self.reference_date_source == ReferenceDateSource.FEATURE_TIMESTAMP:
             if "feature_timestamp" not in df.columns:
                 raise ValueError(
                     "feature_timestamp column required when source is FEATURE_TIMESTAMP"
                 )
-            self.reference_date = pd.to_datetime(df["feature_timestamp"], format='mixed')
+            self.reference_date = safe_to_datetime(df["feature_timestamp"])
             self.reference_date_column = "feature_timestamp"
     def _compute_days_diff(

customer_retention/stages/profiling/pattern_analysis_config.py CHANGED Viewed

@@ -4,7 +4,7 @@ from typing import Any, Dict, List, Optional, Tuple
 import numpy as np
 import pandas as pd
-from customer_retention.core.compat import DataFrame
+from customer_retention.core.compat import DataFrame, ensure_datetime_column, to_pandas
 @dataclass
@@ -216,12 +216,13 @@ class SparklineDataBuilder:
         self.freq = freq
     def build(self, df: DataFrame, columns: List[str]) -> Tuple[List[SparklineData], bool]:
-        import pandas as pd
+        df = to_pandas(df)
         has_target = self.target_column is not None and self.target_column in df.columns
         if has_target:
             validate_not_event_level(df, self.entity_column, self.target_column)
         df_work = self._prepare_working_df(df, has_target)
-        df_work['_period'] = pd.to_datetime(df_work[self.time_column]).dt.to_period(self.freq).dt.start_time
+        ensure_datetime_column(df_work, self.time_column)
+        df_work['_period'] = df_work[self.time_column].dt.to_period(self.freq).dt.start_time
         results = [self._build_sparkline_for_column(df_work, col, has_target)
                    for col in columns if col in df_work.columns]
         return results, has_target

customer_retention/stages/profiling/temporal_feature_analyzer.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import Any, Dict, List, Optional, Tuple
 import numpy as np
 from scipy import stats
-from customer_retention.core.compat import DataFrame, pd, qcut, to_datetime
+from customer_retention.core.compat import DataFrame, ensure_datetime_column, pd, qcut, to_pandas
 from customer_retention.core.utils import compute_effect_size
@@ -626,8 +626,8 @@ class TemporalFeatureAnalyzer:
         return next_priority
     def _prepare_dataframe(self, df: DataFrame) -> DataFrame:
-        df = df.copy()
-        df[self.time_column] = to_datetime(df[self.time_column])
+        df = to_pandas(df).copy()
+        ensure_datetime_column(df, self.time_column)
         return df
     def _validate_event_level_target_usage(self, df: DataFrame, target_column: Optional[str]) -> None:

customer_retention/stages/profiling/temporal_pattern_analyzer.py CHANGED Viewed

@@ -5,7 +5,15 @@ from typing import Dict, List, Optional, Tuple
 import numpy as np
 from scipy import stats
-from customer_retention.core.compat import DataFrame, Timestamp, cut, pd, to_datetime, to_pandas
+from customer_retention.core.compat import (
+    DataFrame,
+    Timestamp,
+    cut,
+    ensure_datetime_column,
+    pd,
+    safe_to_datetime,
+    to_pandas,
+)
 from customer_retention.core.utils import compute_effect_size
@@ -177,6 +185,8 @@ def generate_trend_recommendations(trend: TrendResult, mean_value: float = 1.0)
 def analyze_cohort_distribution(first_events: DataFrame, time_column: str) -> CohortDistribution:
+    first_events = to_pandas(first_events)
+    ensure_datetime_column(first_events, time_column)
     years = first_events[time_column].dt.year
     year_counts = years.value_counts().sort_index().to_dict()
     total = len(first_events)
@@ -232,6 +242,7 @@ def compute_recency_buckets(
     reference_date: Timestamp, bucket_edges: Optional[List[float]] = None
 ) -> List[RecencyBucketStats]:
     df = to_pandas(df)
+    ensure_datetime_column(df, time_column)
     edges = bucket_edges or DEFAULT_BUCKET_EDGES
     labels = _generate_bucket_labels(edges)
     entity_last = df.groupby(entity_column)[time_column].max().reset_index()
@@ -298,6 +309,7 @@ def _diagnose_anomaly_pattern(
     df: DataFrame, entity_column: str, time_column: str, target_column: str
 ) -> AnomalyDiagnostics:
     df = to_pandas(df)
+    ensure_datetime_column(df, time_column)
     entity_target = df.groupby(entity_column)[target_column].first()
     target_1_pct = float(entity_target.mean() * 100)
     target_1_is_minority = target_1_pct < 50
@@ -436,6 +448,7 @@ def compare_recency_by_target(
     df = to_pandas(df)
     if target_column not in df.columns:
         return None
+    ensure_datetime_column(df, time_column)
     ref_date = reference_date or df[time_column].max()
     entity_last = df.groupby(entity_column)[time_column].max().reset_index()
     entity_last["recency_days"] = (ref_date - entity_last[time_column]).dt.days
@@ -502,7 +515,7 @@ class TemporalPatternAnalyzer:
         if len(df_clean) < 3:
             return self._unknown_trend()
-        time_col = to_datetime(df_clean[self.time_column])
+        time_col = safe_to_datetime(df_clean[self.time_column])
         x = (time_col - time_col.min()).dt.total_seconds() / 86400
         y = df_clean[value_column].values
@@ -587,9 +600,10 @@ class TemporalPatternAnalyzer:
             return pd.DataFrame()
         df_copy = to_pandas(df).copy()
+        ensure_datetime_column(df_copy, cohort_column)
         entity_first_event = df_copy.groupby(entity_column)[cohort_column].min()
         df_copy["_cohort"] = df_copy[entity_column].map(entity_first_event)
-        df_copy["_cohort"] = to_datetime(df_copy["_cohort"]).dt.to_period(period)
+        df_copy["_cohort"] = df_copy["_cohort"].dt.to_period(period)
         entity_cohorts = df_copy.groupby(entity_column)["_cohort"].first().reset_index()
         entity_cohorts.columns = [entity_column, "_cohort"]
@@ -615,11 +629,10 @@ class TemporalPatternAnalyzer:
             return RecencyResult(avg_recency_days=0, median_recency_days=0, min_recency_days=0, max_recency_days=0)
         df = to_pandas(df)
+        ensure_datetime_column(df, self.time_column)
         ref_date = reference_date or Timestamp.now()
-        to_datetime(df[self.time_column])
         entity_last = df.groupby(entity_column)[self.time_column].max()
-        entity_last = to_datetime(entity_last)
         recency_days = (ref_date - entity_last).dt.days
         target_correlation = None

customer_retention/stages/profiling/temporal_quality_checks.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from dataclasses import dataclass, field
 from typing import Optional
-from customer_retention.core.compat import DataFrame, Timestamp, to_datetime, to_pandas
+from customer_retention.core.compat import DataFrame, Timestamp, ensure_datetime_column, safe_to_datetime, to_pandas
 from customer_retention.core.components.enums import Severity
@@ -38,6 +38,7 @@ class DuplicateEventCheck(TemporalQualityCheck):
         self.time_column = time_column
     def run(self, df: DataFrame) -> TemporalQualityResult:
+        df = to_pandas(df)
         if len(df) == 0:
             return self._pass_result("No data to check")
@@ -70,11 +71,12 @@ class TemporalGapCheck(TemporalQualityCheck):
         self.max_gap_multiple = max_gap_multiple
     def run(self, df: DataFrame) -> TemporalQualityResult:
+        df = to_pandas(df)
         if len(df) < 2:
             return self._pass_result("Insufficient data to check gaps")
-        df = to_pandas(df)
-        time_col = to_datetime(df.sort_values(self.time_column)[self.time_column])
+        ensure_datetime_column(df, self.time_column)
+        time_col = df.sort_values(self.time_column)[self.time_column]
         diffs_days = time_col.diff().dropna().dt.total_seconds() / 86400
         expected_days = self.FREQ_TO_DAYS.get(self.expected_frequency, 1)
         threshold_days = expected_days * self.max_gap_multiple
@@ -108,10 +110,11 @@ class FutureDateCheck(TemporalQualityCheck):
         self.reference_date = reference_date or Timestamp.now()
     def run(self, df: DataFrame) -> TemporalQualityResult:
+        df = to_pandas(df)
         if len(df) == 0:
             return self._pass_result("No data to check")
-        time_col = to_datetime(df[self.time_column])
+        time_col = safe_to_datetime(df[self.time_column])
         future_mask = time_col > self.reference_date
         future_count = future_mask.sum()
@@ -138,10 +141,11 @@ class EventOrderCheck(TemporalQualityCheck):
         self.time_column = time_column
     def run(self, df: DataFrame) -> TemporalQualityResult:
+        df = to_pandas(df)
         if len(df) < 2:
             return self._pass_result("Insufficient data to check ordering")
-        df_check = df.assign(_parsed_time=to_datetime(df[self.time_column]))
+        df_check = df.assign(_parsed_time=safe_to_datetime(df[self.time_column]))
         collision_counts = df_check.groupby([self.entity_column, "_parsed_time"]).size()
         ambiguous = collision_counts[collision_counts > 1]
         ambiguous_count = ambiguous.sum() - len(ambiguous)

customer_retention/stages/profiling/time_series_profiler.py CHANGED Viewed

@@ -6,9 +6,8 @@ import numpy as np
 from customer_retention.core.compat import (
     DataFrame,
     Timestamp,
-    is_datetime64_any_dtype,
+    ensure_datetime_column,
     pd,
-    to_datetime,
     to_pandas,
 )
@@ -196,11 +195,12 @@ class TimeSeriesProfiler:
         self.time_column = time_column
     def profile(self, df: DataFrame) -> TimeSeriesProfile:
+        df = self._prepare_dataframe(df)
         if len(df) == 0:
             return self._empty_profile()
         self._validate_columns(df)
-        df = self._prepare_dataframe(df)
         total_events = len(df)
         unique_entities = df[self.entity_column].nunique()
@@ -231,8 +231,7 @@ class TimeSeriesProfiler:
     def _prepare_dataframe(self, df: DataFrame) -> DataFrame:
         df = to_pandas(df).copy()
-        if not is_datetime64_any_dtype(df[self.time_column]):
-            df[self.time_column] = to_datetime(df[self.time_column])
+        ensure_datetime_column(df, self.time_column)
         return df
     def _compute_entity_lifecycles(self, df: DataFrame) -> DataFrame:

customer_retention/stages/profiling/time_window_aggregator.py CHANGED Viewed

@@ -10,9 +10,10 @@ from customer_retention.core.compat import (
     DataFrame,
     Timedelta,
     Timestamp,
+    ensure_datetime_column,
     is_numeric_dtype,
     pd,
-    to_datetime,
+    to_pandas,
 )
@@ -82,11 +83,12 @@ class TimeWindowAggregator:
         include_recency: bool = False, include_tenure: bool = False,
         exclude_columns: Optional[List[str]] = None,
     ) -> DataFrame:
+        df = to_pandas(df)
         if len(df) == 0:
             return pd.DataFrame()
         df = df.copy()
-        df[self.time_column] = to_datetime(df[self.time_column])
+        ensure_datetime_column(df, self.time_column)
         reference_date = self._validate_reference_date(df, reference_date)
         parsed_windows = [TimeWindow.from_string(w) for w in (windows or ["30d"])]

customer_retention/stages/transformation/datetime_transformer.py CHANGED Viewed

@@ -3,7 +3,14 @@ from typing import Optional, Union
 import numpy as np
-from customer_retention.core.compat import DataFrame, Series, Timestamp, is_datetime64_any_dtype, pd
+from customer_retention.core.compat import (
+    DataFrame,
+    Series,
+    Timestamp,
+    ensure_pandas_series,
+    is_datetime64_any_dtype,
+    safe_to_datetime,
+)
 @dataclass
@@ -92,6 +99,7 @@ class DatetimeTransformer:
         )
     def _ensure_datetime(self, series: Series) -> Series:
+        series = ensure_pandas_series(series)
         if is_datetime64_any_dtype(series):
             return series
-        return pd.to_datetime(series, errors='coerce', format='mixed')
+        return safe_to_datetime(series, errors='coerce')