PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py ADDED Viewed

@@ -0,0 +1,436 @@
+"""Rademacher Anti-Serum (RAS) for multiple testing correction.
+Implements Rademacher complexity-based corrections that account for strategy
+correlation, unlike traditional methods (DSR, Bonferroni) which assume independence.
+**Key Advantage**: Zero false positive rate when strategies are correlated.
+Identical strategies contribute zero additional complexity.
+References
+----------
+.. [1] Paleologo, G. (2024). "The Elements of Quantitative Investing",
+       Wiley Finance, Chapter 4.3 / Section 8.3.
+.. [2] Bartlett, P.L. & Mendelson, S. (2002). "Rademacher and Gaussian
+       Complexities: Risk Bounds and Structural Results", JMLR 3:463-482.
+.. [3] Massart, P. (2000). "Some applications of concentration inequalities
+       to statistics", Annales de la Faculté des Sciences de Toulouse.
+"""
+from __future__ import annotations
+import warnings
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+import numpy as np
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+@dataclass(frozen=True)
+class RASResult:
+    """Result of Rademacher Anti-Serum adjustment.
+    Attributes
+    ----------
+    adjusted_values : NDArray
+        Conservative lower bounds on true performance metrics.
+    observed_values : NDArray
+        Original observed values before adjustment.
+    complexity : float
+        Rademacher complexity R̂ used in adjustment.
+    data_snooping_penalty : float
+        Penalty from data snooping (2R̂).
+    estimation_error : float
+        Penalty from estimation uncertainty.
+    n_significant : int
+        Number of strategies with adjusted values > 0.
+    significant_mask : NDArray[np.bool_]
+        Boolean mask of significant strategies.
+    massart_bound : float
+        Theoretical upper bound √(2 log N / T).
+    complexity_ratio : float
+        R̂ / massart_bound (lower = more correlated strategies).
+    """
+    adjusted_values: NDArray[Any]
+    observed_values: NDArray[Any]
+    complexity: float
+    data_snooping_penalty: float
+    estimation_error: float
+    n_significant: int
+    significant_mask: NDArray[np.bool_]
+    massart_bound: float
+    complexity_ratio: float
+def rademacher_complexity(
+    X: NDArray[Any],
+    n_simulations: int = 10000,
+    random_state: int | None = None,
+) -> float:
+    """Compute empirical Rademacher complexity via Monte Carlo estimation.
+    Measures a strategy set's capacity to fit random noise, quantifying
+    overfitting risk when selecting among multiple candidates.
+    **Definition** (Bartlett & Mendelson, 2002):
+        R̂_T(F) = E_σ[sup_{n} (1/T) Σᵢ σᵢ xᵢₙ]
+    where σᵢ ∈ {-1, +1} with P(σᵢ = 1) = 0.5 (Rademacher distribution).
+    **Interpretation**:
+    - R̂ ≈ 0: Strategies highly correlated (low overfitting risk)
+    - R̂ → √(2 log N / T): Strategies uncorrelated (Massart upper bound)
+    Parameters
+    ----------
+    X : ndarray of shape (T, N)
+        Performance matrix: T time periods × N strategies.
+        Typically contains period-by-period ICs or returns.
+    n_simulations : int, default=10000
+        Monte Carlo samples. Higher = more accurate but slower.
+        10000 provides ~1% relative error.
+    random_state : int, optional
+        Random seed for reproducibility.
+    Returns
+    -------
+    float
+        Empirical Rademacher complexity R̂ ∈ [0, √(2 log N / T)].
+    Notes
+    -----
+    **Massart's Upper Bound** [3]:
+        R̂ ≤ max_n ||xₙ||₂ × √(2 log N) / T
+    For normalized data (||xₙ||₂ ≈ √T), this simplifies to √(2 log N / T).
+    **Computational Complexity**: O(n_simulations × T × N)
+    Examples
+    --------
+    >>> import numpy as np
+    >>> X = np.random.randn(2500, 1000) * 0.02  # 1000 strategies, 2500 days
+    >>> R_hat = rademacher_complexity(X, random_state=42)
+    >>> massart = np.sqrt(2 * np.log(1000) / 2500)
+    >>> print(f"R̂={R_hat:.4f}, Massart={massart:.4f}, ratio={R_hat/massart:.2f}")
+    References
+    ----------
+    .. [2] Bartlett & Mendelson (2002), JMLR 3:463-482, Definition 2.
+    .. [3] Massart (2000), Lemma 1.
+    """
+    if not isinstance(X, np.ndarray):
+        raise TypeError(f"X must be numpy array, got {type(X)}")
+    if X.ndim != 2:
+        raise ValueError(f"X must be 2D array (T, N), got shape {X.shape}")
+    T, N = X.shape
+    if T < 1 or N < 1:
+        raise ValueError(f"X must have positive dimensions, got ({T}, {N})")
+    rng = np.random.default_rng(random_state)
+    # Monte Carlo estimation: E_σ[max_n (σ^T x_n / T)]
+    max_correlations = np.zeros(n_simulations)
+    for i in range(n_simulations):
+        # Rademacher vector: σᵢ ∈ {-1, +1} with P=0.5
+        sigma = rng.choice([-1.0, 1.0], size=T)
+        # Compute (σ^T x_n) / T for all strategies n
+        correlations = sigma @ X / T
+        # Take supremum over strategy set
+        max_correlations[i] = np.max(correlations)
+    return float(np.mean(max_correlations))
+def ras_ic_adjustment(
+    observed_ic: NDArray[Any],
+    complexity: float,
+    n_samples: int,
+    delta: float = 0.05,
+    kappa: float = 0.02,
+    return_result: bool = False,
+) -> NDArray[Any] | RASResult:
+    """Apply RAS adjustment for Information Coefficients (bounded metrics).
+    Computes conservative lower bounds on true IC values accounting for
+    data snooping and estimation error.
+    **Formula** (Hoeffding concentration for |IC| ≤ κ):
+        θₙ ≥ θ̂ₙ - 2R̂ - 2κ√(log(2/δ)/T)
+               ───   ─────────────────
+               (a)         (b)
+    where:
+        (a) = data snooping penalty from testing N strategies
+        (b) = estimation error for bounded r.v. (Hoeffding's inequality)
+    Parameters
+    ----------
+    observed_ic : ndarray of shape (N,)
+        Observed Information Coefficients for N strategies.
+    complexity : float
+        Rademacher complexity R̂ from `rademacher_complexity()`.
+    n_samples : int
+        Number of time periods T used to compute ICs.
+    delta : float, default=0.05
+        Significance level (1 - confidence). Lower = more conservative.
+    kappa : float, default=0.02
+        Bound on |IC|. **Critical parameter**.
+        Practical guidance (Paleologo 2024, p.273):
+        - κ=0.02: Typical alpha signals
+        - κ=0.05: High-conviction signals
+        - κ=1.0: Theoretical maximum (usually too conservative)
+    return_result : bool, default=False
+        If True, return RASResult dataclass with full diagnostics.
+    Returns
+    -------
+    ndarray or RASResult
+        If return_result=False: Adjusted IC lower bounds (N,).
+        If return_result=True: RASResult with full diagnostics.
+    Raises
+    ------
+    ValueError
+        If inputs are invalid or observed ICs exceed kappa bound.
+    Warns
+    -----
+    UserWarning
+        If any |observed_ic| > κ (theoretical guarantee violated).
+    Notes
+    -----
+    **Derivation**:
+    1. Data snooping: Standard Rademacher generalization bound gives 2R̂.
+    2. Estimation: For bounded r.v. |X| ≤ κ, Hoeffding gives
+       P(|X̂ - X| > t) ≤ 2exp(-Tt²/2κ²). Setting RHS = δ yields
+       t = κ√(2 log(2/δ)/T). Conservative factor 2 for two-sided.
+    **Advantages over DSR**:
+    - Accounts for strategy correlation (R̂ ↓ as correlation ↑)
+    - Non-asymptotic (valid for any T)
+    - Zero false positives in Paleologo's simulations
+    Examples
+    --------
+    >>> import numpy as np
+    >>> X = np.random.randn(2500, 500) * 0.02
+    >>> observed_ic = X.mean(axis=0)
+    >>> R_hat = rademacher_complexity(X)
+    >>> result = ras_ic_adjustment(observed_ic, R_hat, 2500, return_result=True)
+    >>> print(f"Significant: {result.n_significant}/{len(observed_ic)}")
+    References
+    ----------
+    .. [1] Paleologo (2024), Section 8.3.2, Procedure 8.1.
+    .. [2] Hoeffding (1963), "Probability inequalities for sums of bounded
+           random variables", JASA 58:13-30.
+    """
+    observed_ic = np.asarray(observed_ic)
+    if observed_ic.ndim != 1:
+        raise ValueError(f"observed_ic must be 1D, got shape {observed_ic.shape}")
+    if complexity < 0:
+        raise ValueError(f"complexity must be non-negative, got {complexity}")
+    if n_samples < 1:
+        raise ValueError(f"n_samples must be positive, got {n_samples}")
+    if not 0 < delta < 1:
+        raise ValueError(f"delta must be in (0, 1), got {delta}")
+    if kappa <= 0:
+        raise ValueError(f"kappa must be positive, got {kappa}")
+    # Warn if ICs exceed the bounded assumption
+    max_abs_ic = np.max(np.abs(observed_ic))
+    if max_abs_ic > kappa:
+        warnings.warn(
+            f"max(|IC|)={max_abs_ic:.4f} exceeds kappa={kappa}. "
+            "Theoretical guarantees may not hold. Consider increasing kappa.",
+            UserWarning,
+            stacklevel=2,
+        )
+    N = len(observed_ic)
+    T = n_samples
+    # (a) Data snooping penalty: 2R̂
+    data_snooping = 2 * complexity
+    # (b) Estimation error: 2κ√(log(2/δ)/T) from Hoeffding
+    estimation_error = 2 * kappa * np.sqrt(np.log(2 / delta) / T)
+    # Conservative lower bound
+    adjusted_ic = observed_ic - data_snooping - estimation_error
+    if not return_result:
+        return adjusted_ic
+    # Compute diagnostics
+    massart_bound = np.sqrt(2 * np.log(N) / T) if N > 1 else 0.0
+    significant_mask = adjusted_ic > 0
+    return RASResult(
+        adjusted_values=adjusted_ic,
+        observed_values=observed_ic,
+        complexity=complexity,
+        data_snooping_penalty=data_snooping,
+        estimation_error=estimation_error,
+        n_significant=int(np.sum(significant_mask)),
+        significant_mask=significant_mask,
+        massart_bound=massart_bound,
+        complexity_ratio=complexity / massart_bound if massart_bound > 0 else 0.0,
+    )
+def ras_sharpe_adjustment(
+    observed_sharpe: NDArray[Any],
+    complexity: float,
+    n_samples: int,
+    n_strategies: int,
+    delta: float = 0.05,
+    return_result: bool = False,
+) -> NDArray[Any] | RASResult:
+    """Apply RAS adjustment for Sharpe ratios (sub-Gaussian metrics).
+    Computes conservative lower bounds on true Sharpe ratios accounting for
+    data snooping, estimation error, and multiple testing.
+    **Formula** (sub-Gaussian concentration + union bound):
+        θₙ ≥ θ̂ₙ - 2R̂ - 3√(2 log(2/δ)/T) - √(2 log(2N/δ)/T)
+               ───   ─────────────────────────────────────
+               (a)              (b)              (c)
+    where:
+        (a) = data snooping penalty
+        (b) = sub-Gaussian estimation error (factor 3 for conservatism)
+        (c) = union bound over N strategies
+    Parameters
+    ----------
+    observed_sharpe : ndarray of shape (N,)
+        Observed (annualized) Sharpe ratios for N strategies.
+    complexity : float
+        Rademacher complexity R̂ from `rademacher_complexity()`.
+    n_samples : int
+        Number of time periods T used to compute Sharpe ratios.
+    n_strategies : int
+        Total number of strategies N tested.
+    delta : float, default=0.05
+        Significance level (1 - confidence). Lower = more conservative.
+    return_result : bool, default=False
+        If True, return RASResult dataclass with full diagnostics.
+    Returns
+    -------
+    ndarray or RASResult
+        If return_result=False: Adjusted Sharpe lower bounds (N,).
+        If return_result=True: RASResult with full diagnostics.
+    Notes
+    -----
+    **Derivation**:
+    1. Data snooping: 2R̂ (standard Rademacher bound)
+    2. Sub-Gaussian error: For σ²-sub-Gaussian X, P(X > t) ≤ exp(-t²/2σ²).
+       Daily returns typically have σ ≈ 1 when standardized.
+       Factor 3 provides conservatism for heavier tails.
+    3. Union bound: P(∃n: |X̂ₙ - Xₙ| > t) ≤ N × single-strategy bound.
+       Contributes √(2 log(2N/δ)/T) term.
+    **Comparison to DSR**:
+    - DSR assumes independent strategies (overpenalizes correlated ones)
+    - RAS captures correlation via R̂ (correlated → lower R̂ → less penalty)
+    - RAS is non-asymptotic; DSR requires large T
+    Examples
+    --------
+    >>> import numpy as np
+    >>> returns = np.random.randn(252, 100) * 0.01  # 100 strategies, 1 year
+    >>> observed_sr = returns.mean(axis=0) / returns.std(axis=0) * np.sqrt(252)
+    >>> R_hat = rademacher_complexity(returns)
+    >>> result = ras_sharpe_adjustment(
+    ...     observed_sr, R_hat, 252, 100, return_result=True
+    ... )
+    >>> print(f"Significant: {result.n_significant}/100")
+    References
+    ----------
+    .. [1] Paleologo (2024), Section 8.3.2, Procedure 8.2.
+    """
+    observed_sharpe = np.asarray(observed_sharpe)
+    if observed_sharpe.ndim != 1:
+        raise ValueError(f"observed_sharpe must be 1D, got shape {observed_sharpe.shape}")
+    if complexity < 0:
+        raise ValueError(f"complexity must be non-negative, got {complexity}")
+    if n_samples < 1:
+        raise ValueError(f"n_samples must be positive, got {n_samples}")
+    if n_strategies < 1:
+        raise ValueError(f"n_strategies must be positive, got {n_strategies}")
+    if not 0 < delta < 1:
+        raise ValueError(f"delta must be in (0, 1), got {delta}")
+    T = n_samples
+    N = n_strategies
+    # (a) Data snooping penalty: 2R̂
+    data_snooping = 2 * complexity
+    # (b) Sub-Gaussian estimation error (independent of N)
+    # Factor 3 for conservatism with potential heavy tails
+    error_term1 = 3 * np.sqrt(2 * np.log(2 / delta) / T)
+    # (c) Union bound over N strategies
+    error_term2 = np.sqrt(2 * np.log(2 * N / delta) / T)
+    estimation_error = error_term1 + error_term2
+    # Conservative lower bound
+    adjusted_sharpe = observed_sharpe - data_snooping - estimation_error
+    if not return_result:
+        return adjusted_sharpe
+    # Compute diagnostics
+    massart_bound = np.sqrt(2 * np.log(N) / T) if N > 1 else 0.0
+    significant_mask = adjusted_sharpe > 0
+    return RASResult(
+        adjusted_values=adjusted_sharpe,
+        observed_values=observed_sharpe,
+        complexity=complexity,
+        data_snooping_penalty=data_snooping,
+        estimation_error=estimation_error,
+        n_significant=int(np.sum(significant_mask)),
+        significant_mask=significant_mask,
+        massart_bound=massart_bound,
+        complexity_ratio=complexity / massart_bound if massart_bound > 0 else 0.0,
+    )
+__all__ = [
+    "RASResult",
+    "rademacher_complexity",
+    "ras_ic_adjustment",
+    "ras_sharpe_adjustment",
+]

ml4t/diagnostic/evaluation/stats/reality_check.py ADDED Viewed

@@ -0,0 +1,155 @@
+"""White's Reality Check for multiple strategy comparison.
+This module implements White's Reality Check (2000), which tests whether
+any strategy significantly outperforms a benchmark after adjusting for
+multiple comparisons and data mining bias.
+Reference:
+White, H. (2000). "A Reality Check for Data Snooping."
+Econometrica, 68(5), 1097-1126.
+"""
+from typing import TYPE_CHECKING, Any, Union
+import numpy as np
+import pandas as pd
+import polars as pl
+from ml4t.diagnostic.backends.adapter import DataFrameAdapter
+from .bootstrap import _stationary_bootstrap_indices
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+def whites_reality_check(
+    returns_benchmark: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    returns_strategies: Union[pd.DataFrame, pl.DataFrame, "NDArray[Any]"],
+    bootstrap_samples: int = 1000,
+    block_size: int | None = None,
+    random_state: int | None = None,
+) -> dict[str, Any]:
+    """Perform White's Reality Check for multiple strategy comparison.
+    Tests whether any strategy significantly outperforms a benchmark after
+    adjusting for multiple comparisons and data mining bias. Uses stationary
+    bootstrap to preserve temporal dependencies.
+    Parameters
+    ----------
+    returns_benchmark : Union[pl.Series, pd.Series, NDArray]
+        Benchmark strategy returns
+    returns_strategies : Union[pd.DataFrame, pl.DataFrame, NDArray]
+        Returns for multiple strategies being tested
+    bootstrap_samples : int, default 1000
+        Number of bootstrap samples for null distribution
+    block_size : Optional[int], default None
+        Block size for stationary bootstrap. If None, uses optimal size
+    random_state : Optional[int], default None
+        Random seed for reproducible results
+    Returns
+    -------
+    dict
+        Dictionary with 'test_statistic', 'p_value', 'critical_values',
+        'best_strategy_performance', 'null_distribution'
+    Notes
+    -----
+    **Test Hypothesis**:
+    - H0: No strategy beats the benchmark (max E[r_i - r_benchmark] <= 0)
+    - H1: At least one strategy beats the benchmark
+    **Interpretation**:
+    - p_value < 0.05: Reject H0, at least one strategy beats benchmark
+    - p_value >= 0.05: Cannot reject H0, no evidence of outperformance
+    Examples
+    --------
+    >>> benchmark_returns = np.random.normal(0.001, 0.02, 252)
+    >>> strategy_returns = np.random.normal(0.002, 0.02, (252, 10))
+    >>> result = whites_reality_check(benchmark_returns, strategy_returns)
+    >>> print(f"Reality Check p-value: {result['p_value']:.3f}")
+    References
+    ----------
+    White, H. (2000). "A Reality Check for Data Snooping."
+    Econometrica, 68(5), 1097-1126.
+    """
+    # Convert inputs
+    benchmark = DataFrameAdapter.to_numpy(returns_benchmark).flatten()
+    if isinstance(returns_strategies, pd.DataFrame | pl.DataFrame):
+        strategies = DataFrameAdapter.to_numpy(returns_strategies)
+        if strategies.ndim == 1:
+            strategies = strategies.reshape(-1, 1)
+    else:
+        strategies = np.array(returns_strategies)
+        if strategies.ndim == 1:
+            strategies = strategies.reshape(-1, 1)
+    n_periods, n_strategies = strategies.shape
+    if len(benchmark) != n_periods:
+        raise ValueError("Benchmark and strategies must have same number of periods")
+    # Calculate relative performance (strategies vs benchmark)
+    relative_returns = strategies - benchmark.reshape(-1, 1)
+    # Test statistic: maximum mean relative performance
+    mean_relative_returns = np.mean(relative_returns, axis=0)
+    test_statistic = np.max(mean_relative_returns)
+    best_strategy_idx = np.argmax(mean_relative_returns)
+    # Bootstrap null distribution
+    if random_state is not None:
+        np.random.seed(random_state)
+    # Optimal block size for stationary bootstrap (rule of thumb)
+    if block_size is None:
+        block_size = max(1, int(n_periods ** (1 / 3)))
+    null_dist_list: list[float] = []
+    for _ in range(bootstrap_samples):
+        # Stationary bootstrap resampling
+        bootstrap_indices = _stationary_bootstrap_indices(n_periods, float(block_size))
+        # Resample relative returns
+        bootstrap_relative = relative_returns[bootstrap_indices]
+        # Center the bootstrap sample (impose null hypothesis)
+        bootstrap_relative = bootstrap_relative - np.mean(bootstrap_relative, axis=0)
+        # Calculate maximum mean for this bootstrap sample
+        bootstrap_max = np.max(np.mean(bootstrap_relative, axis=0))
+        null_dist_list.append(float(bootstrap_max))
+    null_distribution = np.array(null_dist_list)
+    # Calculate p-value
+    p_value = np.mean(null_distribution >= test_statistic)
+    # Calculate critical values
+    critical_values = {
+        "90%": np.percentile(null_distribution, 90),
+        "95%": np.percentile(null_distribution, 95),
+        "99%": np.percentile(null_distribution, 99),
+    }
+    return {
+        "test_statistic": float(test_statistic),
+        "p_value": float(p_value),
+        "critical_values": critical_values,
+        "best_strategy_idx": int(best_strategy_idx),
+        "best_strategy_performance": float(mean_relative_returns[best_strategy_idx]),
+        "null_distribution": null_distribution,
+        "n_strategies": n_strategies,
+        "n_periods": n_periods,
+    }
+__all__ = [
+    "whites_reality_check",
+]