PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py ADDED Viewed

@@ -0,0 +1,296 @@
+"""Augmented Dickey-Fuller test for unit root detection.
+The ADF test tests the null hypothesis that a unit root is present
+in the time series. If the null is rejected (p < alpha), the series
+is considered stationary.
+References:
+    - Dickey, D. A., & Fuller, W. A. (1979). Distribution of the estimators
+      for autoregressive time series with a unit root.
+    - MacKinnon, J. G. (1994). Approximate asymptotic distribution functions
+      for unit-root and cointegration tests.
+"""
+from __future__ import annotations
+from typing import Literal
+import numpy as np
+import pandas as pd
+from statsmodels.tsa.stattools import adfuller
+from ml4t.diagnostic.errors import ComputationError, ValidationError
+from ml4t.diagnostic.logging import get_logger
+logger = get_logger(__name__)
+class ADFResult:
+    """Results from Augmented Dickey-Fuller test.
+    Attributes:
+        test_statistic: ADF test statistic
+        p_value: MacKinnon p-value for null hypothesis (unit root exists)
+        critical_values: Critical values at 1%, 5%, 10% significance levels
+        lags_used: Number of lags included in the test
+        n_obs: Number of observations used in regression
+        is_stationary: Whether series is stationary (rejects unit root at 5%)
+        regression: Type of regression ('c', 'ct', 'ctt', 'n')
+        autolag_method: Method used for lag selection if applicable
+    """
+    def __init__(
+        self,
+        test_statistic: float,
+        p_value: float,
+        critical_values: dict[str, float],
+        lags_used: int,
+        n_obs: int,
+        regression: str,
+        autolag_method: str | None = None,
+    ):
+        """Initialize ADF result.
+        Args:
+            test_statistic: ADF test statistic
+            p_value: P-value for unit root hypothesis
+            critical_values: Critical values dict with keys '1%', '5%', '10%'
+            lags_used: Number of lags used in test
+            n_obs: Number of observations
+            regression: Regression type
+            autolag_method: Automatic lag selection method if used
+        """
+        self.test_statistic = test_statistic
+        self.p_value = p_value
+        self.critical_values = critical_values
+        self.lags_used = lags_used
+        self.n_obs = n_obs
+        self.regression = regression
+        self.autolag_method = autolag_method
+        # Determine stationarity at 5% significance level
+        self.is_stationary = p_value < 0.05
+    def __repr__(self) -> str:
+        """String representation."""
+        return (
+            f"ADFResult(statistic={self.test_statistic:.4f}, "
+            f"p_value={self.p_value:.4f}, "
+            f"stationary={self.is_stationary})"
+        )
+    def summary(self) -> str:
+        """Human-readable summary of ADF test results.
+        Returns:
+            Formatted summary string
+        """
+        lines = [
+            "Augmented Dickey-Fuller Test Results",
+            "=" * 50,
+            f"Test Statistic:    {self.test_statistic:.4f}",
+            f"P-value:           {self.p_value:.4f}",
+            f"Lags Used:         {self.lags_used}",
+            f"Observations:      {self.n_obs}",
+            f"Regression Type:   {self.regression}",
+        ]
+        if self.autolag_method:
+            lines.append(f"Autolag Method:    {self.autolag_method}")
+        lines.append("")
+        lines.append("Critical Values:")
+        for level, value in sorted(self.critical_values.items()):
+            lines.append(f"  {level:>4s}: {value:>8.4f}")
+        lines.append("")
+        lines.append(f"Conclusion: {'Stationary' if self.is_stationary else 'Non-stationary'}")
+        lines.append(
+            f"  (Reject H0 at 5% level: {self.is_stationary})"
+            if self.is_stationary
+            else "  (Fail to reject H0 at 5% level)"
+        )
+        return "\n".join(lines)
+def adf_test(
+    data: pd.Series | np.ndarray,
+    maxlag: int | None = None,
+    regression: Literal["c", "ct", "ctt", "n"] = "c",
+    autolag: Literal["AIC", "BIC", "t-stat"] | None = "AIC",
+) -> ADFResult:
+    """Perform Augmented Dickey-Fuller test for unit root.
+    The ADF test tests the null hypothesis that a unit root is present
+    in the time series. If the null is rejected (p < alpha), the series
+    is considered stationary.
+    Regression types:
+        - 'c': Constant only (default)
+        - 'ct': Constant and trend
+        - 'ctt': Constant, linear and quadratic trend
+        - 'n': No constant, no trend
+    Lag selection methods:
+        - 'AIC': Akaike Information Criterion (default)
+        - 'BIC': Bayesian Information Criterion
+        - 't-stat': Based on t-statistic of last lag
+        - None: Use maxlag directly
+    Args:
+        data: Time series data to test (1D array or Series)
+        maxlag: Maximum number of lags to use. If None, uses 12*(nobs/100)^{1/4}
+        regression: Type of regression to include in test
+        autolag: Method for automatic lag selection. If None, uses maxlag directly
+    Returns:
+        ADFResult with test statistics and conclusion
+    Raises:
+        ValidationError: If data is invalid (empty, wrong shape, etc.)
+        ComputationError: If test computation fails
+    Example:
+        >>> import numpy as np
+        >>> # Test random walk (non-stationary)
+        >>> rw = np.cumsum(np.random.randn(1000))
+        >>> result = adf_test(rw)
+        >>> print(result.summary())
+        >>>
+        >>> # Test with manual lag specification
+        >>> result = adf_test(rw, maxlag=10, autolag=None)
+        >>> print(f"Used {result.lags_used} lags")
+        >>>
+        >>> # Test with trend
+        >>> result = adf_test(rw, regression='ct')
+        >>> print(f"Stationary: {result.is_stationary}")
+    Notes:
+        - For financial returns, 'c' (constant only) is typically appropriate
+        - For price series, 'ct' (constant + trend) may be better
+        - Larger maxlag increases power but reduces sample size
+        - AIC tends to select more lags than BIC
+    """
+    # Input validation
+    if data is None:
+        raise ValidationError("Data cannot be None", context={"function": "adf_test"})
+    # Convert to numpy array
+    if isinstance(data, pd.Series):
+        arr = data.to_numpy()
+        logger.debug("Converted pandas Series to numpy array", shape=arr.shape)
+    elif isinstance(data, np.ndarray):
+        arr = data
+    else:
+        raise ValidationError(
+            f"Data must be pandas Series or numpy array, got {type(data)}",
+            context={"function": "adf_test", "data_type": type(data).__name__},
+        )
+    # Check array properties
+    if arr.ndim != 1:
+        raise ValidationError(
+            f"Data must be 1-dimensional, got {arr.ndim}D",
+            context={"function": "adf_test", "shape": arr.shape},
+        )
+    if len(arr) == 0:
+        raise ValidationError("Data cannot be empty", context={"function": "adf_test", "length": 0})
+    # Check for missing values
+    if np.any(np.isnan(arr)):
+        n_missing = np.sum(np.isnan(arr))
+        raise ValidationError(
+            f"Data contains {n_missing} missing values (NaN)",
+            context={"function": "adf_test", "n_missing": n_missing, "length": len(arr)},
+        )
+    # Check for infinite values
+    if np.any(np.isinf(arr)):
+        n_inf = np.sum(np.isinf(arr))
+        raise ValidationError(
+            f"Data contains {n_inf} infinite values",
+            context={"function": "adf_test", "n_inf": n_inf, "length": len(arr)},
+        )
+    # Check minimum length
+    min_length = 10 if maxlag is None else max(10, maxlag + 3)
+    if len(arr) < min_length:
+        raise ValidationError(
+            f"Insufficient data for ADF test (need at least {min_length} observations)",
+            context={
+                "function": "adf_test",
+                "length": len(arr),
+                "min_length": min_length,
+                "maxlag": maxlag,
+            },
+        )
+    # Check for constant series
+    if np.std(arr) == 0:
+        raise ValidationError(
+            "Data is constant (zero variance)",
+            context={
+                "function": "adf_test",
+                "length": len(arr),
+                "mean": float(np.mean(arr)),
+            },
+        )
+    # Log test parameters
+    logger.info(
+        "Running ADF test",
+        n_obs=len(arr),
+        maxlag=maxlag,
+        regression=regression,
+        autolag=autolag,
+    )
+    # Run ADF test
+    try:
+        result = adfuller(
+            arr, maxlag=maxlag, regression=regression, autolag=autolag, regresults=False
+        )
+        # Unpack result
+        # adfuller returns: (adf, pvalue, usedlag, nobs, critical_values, icbest)
+        adf_stat = result[0]
+        pvalue = result[1]
+        usedlag = result[2]
+        nobs = result[3]
+        critical_vals = result[4]
+        logger.info(
+            "ADF test completed",
+            statistic=adf_stat,
+            p_value=pvalue,
+            lags_used=usedlag,
+            n_obs=nobs,
+            stationary=pvalue < 0.05,
+        )
+        # Create result object
+        return ADFResult(
+            test_statistic=float(adf_stat),
+            p_value=float(pvalue),
+            critical_values=dict(critical_vals),
+            lags_used=int(usedlag),
+            n_obs=int(nobs),
+            regression=regression,
+            autolag_method=autolag,
+        )
+    except Exception as e:
+        logger.error("ADF test failed", error=str(e), n_obs=len(arr))
+        raise ComputationError(  # noqa: B904
+            f"ADF test computation failed: {e}",
+            context={
+                "function": "adf_test",
+                "n_obs": len(arr),
+                "maxlag": maxlag,
+                "regression": regression,
+                "autolag": autolag,
+            },
+            cause=e,
+        )

ml4t/diagnostic/evaluation/stationarity/kpss_test.py ADDED Viewed

@@ -0,0 +1,308 @@
+"""Kwiatkowski-Phillips-Schmidt-Shin (KPSS) test for stationarity.
+IMPORTANT: KPSS tests the null hypothesis of stationarity, which is the
+OPPOSITE of the ADF test. Rejecting H0 means the series is NON-stationary.
+KPSS is typically used in conjunction with ADF to provide more robust
+stationarity assessment:
+- Stationary: ADF rejects + KPSS fails to reject
+- Non-stationary: ADF fails to reject + KPSS rejects
+- Quasi-stationary: Both reject or both fail (inconclusive)
+References:
+    - Kwiatkowski, D., Phillips, P. C., Schmidt, P., & Shin, Y. (1992).
+      Testing the null hypothesis of stationarity against the alternative
+      of a unit root. Journal of Econometrics, 54(1-3), 159-178.
+"""
+from __future__ import annotations
+from typing import Literal
+import numpy as np
+import pandas as pd
+from statsmodels.tsa.stattools import kpss
+from ml4t.diagnostic.errors import ComputationError, ValidationError
+from ml4t.diagnostic.logging import get_logger
+logger = get_logger(__name__)
+class KPSSResult:
+    """Results from Kwiatkowski-Phillips-Schmidt-Shin (KPSS) test.
+    IMPORTANT: KPSS tests the null hypothesis of stationarity, which is the
+    OPPOSITE of the ADF test. Rejecting H0 means the series is NON-stationary.
+    Attributes:
+        test_statistic: KPSS test statistic
+        p_value: Interpolated p-value for null hypothesis (stationarity)
+        critical_values: Critical values at 10%, 5%, 2.5%, 1% significance levels
+        lags_used: Number of lags used in Newey-West standard errors
+        n_obs: Number of observations used
+        is_stationary: Whether series is stationary (fails to reject H0 at 5%)
+        regression: Type of regression ('c' for level, 'ct' for trend)
+    """
+    def __init__(
+        self,
+        test_statistic: float,
+        p_value: float,
+        critical_values: dict[str, float],
+        lags_used: int,
+        n_obs: int,
+        regression: str,
+    ):
+        """Initialize KPSS result.
+        Args:
+            test_statistic: KPSS test statistic
+            p_value: P-value for stationarity hypothesis
+            critical_values: Critical values dict with keys '10%', '5%', '2.5%', '1%'
+            lags_used: Number of lags used for Newey-West
+            n_obs: Number of observations
+            regression: Regression type ('c' or 'ct')
+        """
+        self.test_statistic = test_statistic
+        self.p_value = p_value
+        self.critical_values = critical_values
+        self.lags_used = lags_used
+        self.n_obs = n_obs
+        self.regression = regression
+        # CRITICAL: KPSS has opposite interpretation from ADF
+        # H0 = stationary, so we're stationary if we FAIL to reject (p >= 0.05)
+        self.is_stationary = p_value >= 0.05
+    def __repr__(self) -> str:
+        """String representation."""
+        return (
+            f"KPSSResult(statistic={self.test_statistic:.4f}, "
+            f"p_value={self.p_value:.4f}, "
+            f"stationary={self.is_stationary})"
+        )
+    def summary(self) -> str:
+        """Human-readable summary of KPSS test results.
+        Returns:
+            Formatted summary string
+        """
+        lines = [
+            "Kwiatkowski-Phillips-Schmidt-Shin (KPSS) Test Results",
+            "=" * 50,
+            f"Test Statistic:    {self.test_statistic:.4f}",
+            f"P-value:           {self.p_value:.4f}",
+            f"Lags Used:         {self.lags_used}",
+            f"Observations:      {self.n_obs}",
+            f"Regression Type:   {'Level' if self.regression == 'c' else 'Trend'}",
+        ]
+        lines.append("")
+        lines.append("Critical Values:")
+        for level, value in sorted(self.critical_values.items()):
+            lines.append(f"  {level:>4s}: {value:>8.4f}")
+        lines.append("")
+        lines.append(f"Conclusion: {'Stationary' if self.is_stationary else 'Non-stationary'}")
+        lines.append(
+            "  (Fail to reject H0 at 5% level)"
+            if self.is_stationary
+            else f"  (Reject H0 at 5% level: {not self.is_stationary})"
+        )
+        lines.append("")
+        lines.append("IMPORTANT: KPSS tests H0 = stationary (opposite of ADF)")
+        lines.append("  - High p-value (>0.05) => stationary")
+        lines.append("  - Low p-value (<0.05) => non-stationary")
+        return "\n".join(lines)
+def kpss_test(
+    data: pd.Series | np.ndarray,
+    regression: Literal["c", "ct"] = "c",
+    nlags: int | Literal["auto", "legacy"] | None = "auto",
+) -> KPSSResult:
+    """Perform Kwiatkowski-Phillips-Schmidt-Shin test for stationarity.
+    The KPSS test tests the null hypothesis that the time series is stationary.
+    This is the OPPOSITE of the ADF test. If the null is rejected (p < alpha),
+    the series is considered NON-stationary.
+    KPSS is typically used in conjunction with ADF to provide more robust
+    stationarity assessment:
+    - Stationary: ADF rejects + KPSS fails to reject
+    - Non-stationary: ADF fails to reject + KPSS rejects
+    - Quasi-stationary: Both reject or both fail (inconclusive)
+    Regression types:
+        - 'c': Level stationarity (constant mean, default)
+        - 'ct': Trend stationarity (stationary around a trend)
+    Lag selection for Newey-West standard errors:
+        - 'auto': Uses int(12 * (nobs/100)^{1/4}) (default, recommended)
+        - 'legacy': Uses int(4 * (nobs/100)^{1/4})
+        - int: Manual specification of number of lags
+    Args:
+        data: Time series data to test (1D array or Series)
+        regression: Type of stationarity to test ('c' for level, 'ct' for trend)
+        nlags: Number of lags for Newey-West standard errors
+    Returns:
+        KPSSResult with test statistics and conclusion
+    Raises:
+        ValidationError: If data is invalid (empty, wrong shape, etc.)
+        ComputationError: If test computation fails
+    Example:
+        >>> import numpy as np
+        >>> # Test white noise (stationary)
+        >>> wn = np.random.randn(1000)
+        >>> result = kpss_test(wn)
+        >>> print(result.summary())
+        >>>
+        >>> # Test random walk (non-stationary)
+        >>> rw = np.cumsum(np.random.randn(1000))
+        >>> result = kpss_test(rw)
+        >>> print(f"Stationary: {result.is_stationary}")
+        >>>
+        >>> # Test with trend stationarity
+        >>> result = kpss_test(rw, regression='ct')
+        >>> print(f"Trend stationary: {result.is_stationary}")
+        >>>
+        >>> # Use with ADF for complementary testing
+        >>> from ml4t.diagnostic.evaluation.stationarity import adf_test
+        >>> adf_result = adf_test(wn)
+        >>> kpss_result = kpss_test(wn)
+        >>> if adf_result.is_stationary and kpss_result.is_stationary:
+        ...     print("Strong evidence for stationarity")
+    Notes:
+        - For financial returns, 'c' (level) is typically appropriate
+        - For price series with trend, 'ct' may be better
+        - KPSS is more powerful against I(1) alternatives than ADF
+        - Use both ADF and KPSS for robust stationarity assessment
+        - White noise should pass both tests (ADF rejects, KPSS fails to reject)
+    """
+    # Input validation (same as ADF)
+    if data is None:
+        raise ValidationError("Data cannot be None", context={"function": "kpss_test"})
+    # Convert to numpy array
+    if isinstance(data, pd.Series):
+        arr = data.to_numpy()
+        logger.debug("Converted pandas Series to numpy array", shape=arr.shape)
+    elif isinstance(data, np.ndarray):
+        arr = data
+    else:
+        raise ValidationError(
+            f"Data must be pandas Series or numpy array, got {type(data)}",
+            context={"function": "kpss_test", "data_type": type(data).__name__},
+        )
+    # Check array properties
+    if arr.ndim != 1:
+        raise ValidationError(
+            f"Data must be 1-dimensional, got {arr.ndim}D",
+            context={"function": "kpss_test", "shape": arr.shape},
+        )
+    if len(arr) == 0:
+        raise ValidationError(
+            "Data cannot be empty", context={"function": "kpss_test", "length": 0}
+        )
+    # Check for missing values
+    if np.any(np.isnan(arr)):
+        n_missing = np.sum(np.isnan(arr))
+        raise ValidationError(
+            f"Data contains {n_missing} missing values (NaN)",
+            context={"function": "kpss_test", "n_missing": n_missing, "length": len(arr)},
+        )
+    # Check for infinite values
+    if np.any(np.isinf(arr)):
+        n_inf = np.sum(np.isinf(arr))
+        raise ValidationError(
+            f"Data contains {n_inf} infinite values",
+            context={"function": "kpss_test", "n_inf": n_inf, "length": len(arr)},
+        )
+    # Check minimum length
+    min_length = 10
+    if len(arr) < min_length:
+        raise ValidationError(
+            f"Insufficient data for KPSS test (need at least {min_length} observations)",
+            context={
+                "function": "kpss_test",
+                "length": len(arr),
+                "min_length": min_length,
+            },
+        )
+    # Check for constant series
+    if np.std(arr) == 0:
+        raise ValidationError(
+            "Data is constant (zero variance)",
+            context={
+                "function": "kpss_test",
+                "length": len(arr),
+                "mean": float(np.mean(arr)),
+            },
+        )
+    # Log test parameters
+    logger.info(
+        "Running KPSS test",
+        n_obs=len(arr),
+        regression=regression,
+        nlags=nlags,
+    )
+    # Run KPSS test
+    try:
+        # Use "auto" if nlags is None (statsmodels doesn't accept None)
+        nlags_param: int | Literal["auto", "legacy"] = nlags if nlags is not None else "auto"
+        result = kpss(arr, regression=regression, nlags=nlags_param)
+        # Unpack result
+        # kpss returns: (kpss_stat, pvalue, lags, critical_values)
+        kpss_stat = result[0]
+        pvalue = result[1]
+        usedlag = result[2]
+        critical_vals = result[3]
+        logger.info(
+            "KPSS test completed",
+            statistic=kpss_stat,
+            p_value=pvalue,
+            lags_used=usedlag,
+            n_obs=len(arr),
+            stationary=pvalue >= 0.05,  # Note: opposite of ADF
+        )
+        # Create result object
+        return KPSSResult(
+            test_statistic=float(kpss_stat),
+            p_value=float(pvalue),
+            critical_values=dict(critical_vals),
+            lags_used=int(usedlag),
+            n_obs=len(arr),
+            regression=regression,
+        )
+    except Exception as e:
+        logger.error("KPSS test failed", error=str(e), n_obs=len(arr))
+        raise ComputationError(  # noqa: B904
+            f"KPSS test computation failed: {e}",
+            context={
+                "function": "kpss_test",
+                "n_obs": len(arr),
+                "regression": regression,
+                "nlags": nlags,
+            },
+            cause=e,
+        )