PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/distribution/tests.py ADDED Viewed

@@ -0,0 +1,470 @@
+"""Normality tests for distribution analysis.
+This module provides statistical tests for normality:
+- Jarque-Bera test: Based on sample skewness and kurtosis, asymptotically valid
+- Shapiro-Wilk test: More powerful for small samples (n < 2000), recommended
+Test Comparison:
+    - Jarque-Bera: Based on sample skewness and kurtosis, asymptotically valid
+    - Shapiro-Wilk: More powerful for small samples (n < 2000), recommended
+References:
+    - Jarque, C. M., & Bera, A. K. (1980). Efficient tests for normality,
+      homoscedasticity and serial independence of regression residuals.
+      Economics Letters, 6(3), 255-259. DOI: 10.1016/0165-1765(80)90024-5
+    - Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test
+      for normality (complete samples). Biometrika, 52(3-4), 591-611.
+      DOI: 10.1093/biomet/52.3-4.591
+"""
+from __future__ import annotations
+from dataclasses import dataclass
+import numpy as np
+import pandas as pd
+from scipy import stats
+from ml4t.diagnostic.errors import ComputationError, ValidationError
+from ml4t.diagnostic.logging import get_logger
+logger = get_logger(__name__)
+@dataclass
+class JarqueBeraResult:
+    """Jarque-Bera normality test result.
+    Tests for normality based on sample skewness and kurtosis. The test
+    statistic is: JB = (n/6) * (S^2 + K^2/4), where S is skewness and K
+    is excess kurtosis. Under H0 (normality), JB ~ χ²(2).
+    Attributes:
+        statistic: Jarque-Bera test statistic
+        p_value: P-value for null hypothesis (data is normally distributed)
+        skewness: Sample skewness used in test
+        excess_kurtosis: Sample excess kurtosis used in test (Fisher: normal=0)
+        is_normal: Whether data is consistent with normality (p >= alpha)
+        n_obs: Number of observations
+        alpha: Significance level used
+    """
+    statistic: float
+    p_value: float
+    skewness: float
+    excess_kurtosis: float
+    is_normal: bool
+    n_obs: int
+    alpha: float = 0.05
+    def __repr__(self) -> str:
+        """String representation."""
+        return f"JarqueBeraResult(statistic={self.statistic:.4f}, p_value={self.p_value:.4f}, is_normal={self.is_normal})"
+    def summary(self) -> str:
+        """Human-readable summary of Jarque-Bera test.
+        Returns:
+            Formatted summary string
+        """
+        lines = [
+            "Jarque-Bera Normality Test",
+            "=" * 50,
+            f"Test Statistic:    {self.statistic:.4f}",
+            f"P-value:           {self.p_value:.4f}",
+            f"Observations:      {self.n_obs}",
+            f"Significance:      α={self.alpha}",
+        ]
+        lines.append("")
+        lines.append("Moments:")
+        lines.append(f"  Skewness:        {self.skewness:.4f}")
+        lines.append(f"  Excess Kurtosis: {self.excess_kurtosis:.4f}")
+        lines.append("")
+        conclusion = (
+            "Data is consistent with normality"
+            if self.is_normal
+            else "Data deviates from normality"
+        )
+        lines.append(f"Conclusion: {conclusion}")
+        lines.append(
+            f"  (Fail to reject H0 at {self.alpha * 100:.0f}% level)"
+            if self.is_normal
+            else f"  (Reject H0 at {self.alpha * 100:.0f}% level)"
+        )
+        lines.append("")
+        lines.append("Test Methodology:")
+        lines.append("  - JB = (n/6) * (S² + K²/4)")
+        lines.append("  - H0: Data is normally distributed")
+        lines.append("  - Under H0: JB ~ χ²(2)")
+        lines.append("  - Asymptotically valid (requires large n)")
+        if not self.is_normal:
+            lines.append("")
+            lines.append("Implications:")
+            lines.append("  - Normal distribution assumption violated")
+            lines.append("  - Consider robust statistical methods")
+            lines.append("  - Account for non-normality in risk models")
+        return "\n".join(lines)
+@dataclass
+class ShapiroWilkResult:
+    """Shapiro-Wilk normality test result.
+    Tests for normality using order statistics. More powerful than Jarque-Bera
+    for small samples (n < 2000). The test statistic W ranges from 0 to 1,
+    with values close to 1 indicating normality.
+    Attributes:
+        statistic: Shapiro-Wilk test statistic (W)
+        p_value: P-value for null hypothesis (data is normally distributed)
+        is_normal: Whether data is consistent with normality (p >= alpha)
+        n_obs: Number of observations
+        alpha: Significance level used
+    """
+    statistic: float
+    p_value: float
+    is_normal: bool
+    n_obs: int
+    alpha: float = 0.05
+    def __repr__(self) -> str:
+        """String representation."""
+        return f"ShapiroWilkResult(statistic={self.statistic:.4f}, p_value={self.p_value:.4f}, is_normal={self.is_normal})"
+    def summary(self) -> str:
+        """Human-readable summary of Shapiro-Wilk test.
+        Returns:
+            Formatted summary string
+        """
+        lines = [
+            "Shapiro-Wilk Normality Test",
+            "=" * 50,
+            f"Test Statistic (W): {self.statistic:.4f}",
+            f"P-value:            {self.p_value:.4f}",
+            f"Observations:       {self.n_obs}",
+            f"Significance:       α={self.alpha}",
+        ]
+        lines.append("")
+        conclusion = (
+            "Data is consistent with normality"
+            if self.is_normal
+            else "Data deviates from normality"
+        )
+        lines.append(f"Conclusion: {conclusion}")
+        lines.append(
+            f"  (Fail to reject H0 at {self.alpha * 100:.0f}% level)"
+            if self.is_normal
+            else f"  (Reject H0 at {self.alpha * 100:.0f}% level)"
+        )
+        lines.append("")
+        lines.append("Test Methodology:")
+        lines.append("  - Based on correlation between data and normal scores")
+        lines.append("  - W statistic ranges from 0 (non-normal) to 1 (normal)")
+        lines.append("  - H0: Data is normally distributed")
+        lines.append("  - More powerful than Jarque-Bera for small samples")
+        lines.append("  - Recommended for n < 2000")
+        if not self.is_normal:
+            lines.append("")
+            lines.append("Implications:")
+            lines.append("  - Normal distribution assumption violated")
+            lines.append("  - Consider non-parametric methods")
+            lines.append("  - Use robust estimators for inference")
+        return "\n".join(lines)
+def jarque_bera_test(
+    data: pd.Series | np.ndarray,
+    alpha: float = 0.05,
+) -> JarqueBeraResult:
+    """Jarque-Bera test for normality.
+    Tests whether sample skewness and kurtosis match a normal distribution.
+    The test statistic is:
+        JB = (n/6) * (S^2 + K^2/4)
+    where n is sample size, S is skewness, K is excess kurtosis.
+    Under H0 (normality), JB ~ χ²(2).
+    The null hypothesis is that the data is normally distributed. Low p-values
+    (< alpha) indicate rejection of normality.
+    Args:
+        data: Time series data (1D array or Series)
+        alpha: Significance level (default 0.05)
+    Returns:
+        JarqueBeraResult with test statistics and conclusion
+    Raises:
+        ValidationError: If data is invalid (empty, wrong shape, etc.)
+        ComputationError: If test computation fails
+    Example:
+        >>> import numpy as np
+        >>> # Normal data (should pass)
+        >>> normal = np.random.normal(0, 1, 1000)
+        >>> result = jarque_bera_test(normal)
+        >>> print(f"p-value: {result.p_value:.4f}, normal: {result.is_normal}")
+        >>>
+        >>> # Lognormal data (should fail)
+        >>> lognormal = np.random.lognormal(0, 0.5, 1000)
+        >>> result = jarque_bera_test(lognormal)
+        >>> print(f"p-value: {result.p_value:.4f}, normal: {result.is_normal}")
+    Notes:
+        - Test is asymptotically valid (requires large n)
+        - More powerful for large samples (n > 2000)
+        - For small samples, use Shapiro-Wilk test instead
+        - Uses scipy.stats.jarque_bera
+    """
+    # Input validation (same as compute_moments)
+    if data is None:
+        raise ValidationError("Data cannot be None", context={"function": "jarque_bera_test"})
+    # Convert to numpy array
+    if isinstance(data, pd.Series):
+        arr = data.to_numpy()
+    elif isinstance(data, np.ndarray):
+        arr = data
+    else:
+        raise ValidationError(
+            f"Data must be pandas Series or numpy array, got {type(data)}",
+            context={"function": "jarque_bera_test", "data_type": type(data).__name__},
+        )
+    # Check array properties
+    if arr.ndim != 1:
+        raise ValidationError(
+            f"Data must be 1-dimensional, got {arr.ndim}D",
+            context={"function": "jarque_bera_test", "shape": arr.shape},
+        )
+    if len(arr) == 0:
+        raise ValidationError(
+            "Data cannot be empty", context={"function": "jarque_bera_test", "length": 0}
+        )
+    # Check for missing/infinite values
+    if np.any(~np.isfinite(arr)):
+        n_invalid = np.sum(~np.isfinite(arr))
+        raise ValidationError(
+            f"Data contains {n_invalid} NaN or infinite values",
+            context={"function": "jarque_bera_test", "n_invalid": n_invalid, "length": len(arr)},
+        )
+    # Check minimum length
+    min_length = 20
+    if len(arr) < min_length:
+        raise ValidationError(
+            f"Insufficient data for Jarque-Bera test (need at least {min_length} observations)",
+            context={
+                "function": "jarque_bera_test",
+                "length": len(arr),
+                "min_length": min_length,
+            },
+        )
+    # Check for constant series
+    if np.std(arr) == 0:
+        raise ValidationError(
+            "Data is constant (zero variance)",
+            context={
+                "function": "jarque_bera_test",
+                "length": len(arr),
+                "mean": float(np.mean(arr)),
+            },
+        )
+    logger.info("Running Jarque-Bera test", n_obs=len(arr), alpha=alpha)
+    try:
+        # Run Jarque-Bera test using scipy
+        # Returns (statistic, p_value)
+        jb_stat, p_value = stats.jarque_bera(arr)
+        # Compute moments for reporting
+        skewness = float(stats.skew(arr, bias=False))
+        excess_kurtosis = float(stats.kurtosis(arr, bias=False))
+        # Determine normality
+        is_normal = p_value >= alpha
+        logger.info(
+            "Jarque-Bera test completed",
+            statistic=jb_stat,
+            p_value=p_value,
+            is_normal=is_normal,
+        )
+        return JarqueBeraResult(
+            statistic=float(jb_stat),
+            p_value=float(p_value),
+            skewness=skewness,
+            excess_kurtosis=excess_kurtosis,
+            is_normal=is_normal,
+            n_obs=len(arr),
+            alpha=alpha,
+        )
+    except Exception as e:
+        logger.error("Jarque-Bera test failed", error=str(e), n_obs=len(arr))
+        raise ComputationError(  # noqa: B904
+            f"Jarque-Bera test computation failed: {e}",
+            context={"function": "jarque_bera_test", "n_obs": len(arr), "alpha": alpha},
+            cause=e,
+        )
+def shapiro_wilk_test(
+    data: pd.Series | np.ndarray,
+    alpha: float = 0.05,
+) -> ShapiroWilkResult:
+    """Shapiro-Wilk test for normality.
+    Tests for normality using order statistics. More powerful than Jarque-Bera
+    for small samples (n < 2000). The test statistic W ranges from 0 to 1,
+    with values close to 1 indicating normality.
+    The null hypothesis is that the data is normally distributed. Low p-values
+    (< alpha) indicate rejection of normality.
+    Args:
+        data: Time series data (1D array or Series)
+        alpha: Significance level (default 0.05)
+    Returns:
+        ShapiroWilkResult with test statistics and conclusion
+    Raises:
+        ValidationError: If data is invalid (empty, wrong shape, etc.)
+        ComputationError: If test computation fails
+    Example:
+        >>> import numpy as np
+        >>> # Normal data (should pass)
+        >>> normal = np.random.normal(0, 1, 500)
+        >>> result = shapiro_wilk_test(normal)
+        >>> print(f"W: {result.statistic:.4f}, p-value: {result.p_value:.4f}")
+        >>>
+        >>> # Lognormal data (should fail)
+        >>> lognormal = np.random.lognormal(0, 0.5, 500)
+        >>> result = shapiro_wilk_test(lognormal)
+        >>> print(f"Normal: {result.is_normal}")
+    Notes:
+        - More powerful than Jarque-Bera for small samples (n < 2000)
+        - Recommended over Jarque-Bera when n < 2000
+        - W statistic close to 1 indicates normality
+        - Uses scipy.stats.shapiro
+        - Maximum sample size: 5000 (scipy limitation)
+    """
+    # Input validation (same as jarque_bera_test)
+    if data is None:
+        raise ValidationError("Data cannot be None", context={"function": "shapiro_wilk_test"})
+    # Convert to numpy array
+    if isinstance(data, pd.Series):
+        arr = data.to_numpy()
+    elif isinstance(data, np.ndarray):
+        arr = data
+    else:
+        raise ValidationError(
+            f"Data must be pandas Series or numpy array, got {type(data)}",
+            context={"function": "shapiro_wilk_test", "data_type": type(data).__name__},
+        )
+    # Check array properties
+    if arr.ndim != 1:
+        raise ValidationError(
+            f"Data must be 1-dimensional, got {arr.ndim}D",
+            context={"function": "shapiro_wilk_test", "shape": arr.shape},
+        )
+    if len(arr) == 0:
+        raise ValidationError(
+            "Data cannot be empty", context={"function": "shapiro_wilk_test", "length": 0}
+        )
+    # Check for missing/infinite values
+    if np.any(~np.isfinite(arr)):
+        n_invalid = np.sum(~np.isfinite(arr))
+        raise ValidationError(
+            f"Data contains {n_invalid} NaN or infinite values",
+            context={"function": "shapiro_wilk_test", "n_invalid": n_invalid, "length": len(arr)},
+        )
+    # Check minimum length (Shapiro-Wilk needs at least 3 observations)
+    min_length = 3
+    if len(arr) < min_length:
+        raise ValidationError(
+            f"Insufficient data for Shapiro-Wilk test (need at least {min_length} observations)",
+            context={
+                "function": "shapiro_wilk_test",
+                "length": len(arr),
+                "min_length": min_length,
+            },
+        )
+    # Check maximum length (scipy limitation)
+    max_length = 5000
+    if len(arr) > max_length:
+        logger.warning(
+            f"Data has {len(arr)} observations, using first {max_length} (scipy.stats.shapiro limitation)"
+        )
+        arr = arr[:max_length]
+    # Check for constant series
+    if np.std(arr) == 0:
+        raise ValidationError(
+            "Data is constant (zero variance)",
+            context={
+                "function": "shapiro_wilk_test",
+                "length": len(arr),
+                "mean": float(np.mean(arr)),
+            },
+        )
+    logger.info("Running Shapiro-Wilk test", n_obs=len(arr), alpha=alpha)
+    try:
+        # Run Shapiro-Wilk test using scipy
+        # Returns (statistic, p_value)
+        w_stat, p_value = stats.shapiro(arr)
+        # Determine normality
+        is_normal = p_value >= alpha
+        logger.info(
+            "Shapiro-Wilk test completed",
+            statistic=w_stat,
+            p_value=p_value,
+            is_normal=is_normal,
+        )
+        return ShapiroWilkResult(
+            statistic=float(w_stat),
+            p_value=float(p_value),
+            is_normal=is_normal,
+            n_obs=len(arr),
+            alpha=alpha,
+        )
+    except Exception as e:
+        logger.error("Shapiro-Wilk test failed", error=str(e), n_obs=len(arr))
+        raise ComputationError(  # noqa: B904
+            f"Shapiro-Wilk test computation failed: {e}",
+            context={"function": "shapiro_wilk_test", "n_obs": len(arr), "alpha": alpha},
+            cause=e,
+        )

ml4t/diagnostic/evaluation/drift/__init__.py ADDED Viewed

@@ -0,0 +1,139 @@
+"""Distribution drift detection for feature monitoring.
+This module provides comprehensive drift detection with three complementary methods
+and a unified analysis interface:
+**Individual Methods**:
+- **PSI (Population Stability Index)**: Bin-based distribution comparison
+- **Wasserstein Distance**: Optimal transport metric for continuous features
+- **Domain Classifier**: ML-based multivariate drift detection with feature importance
+**Unified Interface**:
+- **analyze_drift()**: Multi-method drift analysis with consensus-based flagging
+Distribution drift is critical for ML model monitoring:
+- Feature distributions change over time (concept drift)
+- Model performance degrades when test distribution differs from training
+- Early detection allows proactive model retraining
+- Multi-method consensus increases confidence in drift detection
+PSI Interpretation:
+    - PSI < 0.1: No significant change (green)
+    - 0.1 ≤ PSI < 0.2: Small change, monitor (yellow)
+    - PSI ≥ 0.2: Significant change, investigate (red)
+Wasserstein Distance Interpretation:
+    - W = 0: Identical distributions
+    - W > 0: Distribution drift detected
+    - Larger values indicate greater drift magnitude
+    - Threshold calibrated via permutation testing
+Domain Classifier Interpretation:
+    - AUC ≈ 0.5: No drift (random guess between reference and test)
+    - AUC = 0.6: Weak drift
+    - AUC = 0.7-0.8: Moderate drift
+    - AUC > 0.9: Strong drift
+    - Feature importance identifies which features drifted
+When to Use:
+    - **PSI**: Categorical features or when binning is acceptable
+    - **Wasserstein**: Continuous features, more sensitive to small shifts
+    - **Domain Classifier**: Multivariate drift, interaction detection
+    - **analyze_drift()**: Comprehensive analysis with multiple methods
+    - Model monitoring: Compare production data to training data
+    - Temporal drift: Compare recent data to historical baseline
+    - Segmentation drift: Compare distributions across segments
+References:
+    - Yurdakul, B. (2018). Statistical Properties of Population Stability Index.
+      https://scholarship.richmond.edu/honors-theses/1131/
+    - Webb, G. I., et al. (2016). Characterizing concept drift.
+      Data Mining and Knowledge Discovery, 30(4), 964-994.
+    - Villani, C. (2009). Optimal Transport: Old and New. Springer.
+    - Ramdas, A., et al. (2017). On Wasserstein Two-Sample Testing and Related
+      Families of Nonparametric Tests. Entropy, 19(2), 47.
+    - Lopez-Paz, D., & Oquab, M. (2017). Revisiting Classifier Two-Sample Tests.
+      ICLR 2017.
+    - Rabanser, S., et al. (2019). Failing Loudly: An Empirical Study of Methods
+      for Detecting Dataset Shift. NeurIPS 2019.
+Example - Individual Methods:
+    >>> import numpy as np
+    >>> from ml4t.diagnostic.evaluation.drift import (
+    ...     compute_psi, compute_wasserstein_distance, compute_domain_classifier_drift
+    ... )
+    >>>
+    >>> # PSI for univariate drift
+    >>> reference = np.random.normal(0, 1, 1000)
+    >>> test = np.random.normal(0.5, 1, 1000)  # Mean shifted
+    >>> psi_result = compute_psi(reference, test, n_bins=10)
+    >>> print(f"PSI: {psi_result.psi:.4f}, Alert: {psi_result.alert_level}")
+    >>>
+    >>> # Wasserstein for continuous features
+    >>> ws_result = compute_wasserstein_distance(reference, test)
+    >>> print(f"Wasserstein: {ws_result.distance:.4f}, Drifted: {ws_result.drifted}")
+Example - Unified Analysis:
+    >>> import pandas as pd
+    >>> from ml4t.diagnostic.evaluation.drift import analyze_drift
+    >>>
+    >>> # Create reference and test datasets
+    >>> reference = pd.DataFrame({
+    ...     'feature1': np.random.normal(0, 1, 1000),
+    ...     'feature2': np.random.normal(0, 1, 1000),
+    ... })
+    >>> test = pd.DataFrame({
+    ...     'feature1': np.random.normal(0.5, 1, 1000),  # Drifted
+    ...     'feature2': np.random.normal(0, 1, 1000),    # Stable
+    ... })
+    >>>
+    >>> # Comprehensive drift analysis with all methods
+    >>> result = analyze_drift(reference, test)
+    >>> print(result.summary())
+    >>> print(f"Drifted features: {result.drifted_features}")
+    >>>
+    >>> # Get detailed results as DataFrame
+    >>> df = result.to_dataframe()
+    >>> print(df)
+    >>>
+    >>> # Use specific methods only
+    >>> result = analyze_drift(reference, test, methods=['psi', 'wasserstein'])
+    >>>
+    >>> # Customize consensus threshold (default: 0.5)
+    >>> result = analyze_drift(reference, test, consensus_threshold=0.66)
+"""
+# Import from submodules and re-export
+from ml4t.diagnostic.evaluation.drift.analysis import (
+    DriftSummaryResult,
+    FeatureDriftResult,
+    analyze_drift,
+)
+from ml4t.diagnostic.evaluation.drift.domain_classifier import (
+    DomainClassifierResult,
+    compute_domain_classifier_drift,
+)
+from ml4t.diagnostic.evaluation.drift.population_stability_index import (
+    PSIResult,
+    compute_psi,
+)
+from ml4t.diagnostic.evaluation.drift.wasserstein import (
+    WassersteinResult,
+    compute_wasserstein_distance,
+)
+__all__ = [
+    # PSI
+    "compute_psi",
+    "PSIResult",
+    # Wasserstein
+    "compute_wasserstein_distance",
+    "WassersteinResult",
+    # Domain Classifier
+    "compute_domain_classifier_drift",
+    "DomainClassifierResult",
+    # Unified analysis
+    "analyze_drift",
+    "FeatureDriftResult",
+    "DriftSummaryResult",
+]