PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/stats/false_discovery_rate.py ADDED Viewed

@@ -0,0 +1,295 @@
+"""False Discovery Rate (FDR) and Family-Wise Error Rate (FWER) corrections.
+This module implements multiple testing corrections:
+- Benjamini-Hochberg FDR (1995): Controls expected proportion of false discoveries
+- Holm-Bonferroni FWER (1979): Controls probability of any false discovery
+These methods are essential when testing multiple hypotheses simultaneously,
+which is common in quantitative finance (testing many strategies, factors, etc.).
+"""
+from collections.abc import Sequence
+from typing import TYPE_CHECKING, Any, Union
+import numpy as np
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+def benjamini_hochberg_fdr(
+    p_values: Sequence[float],
+    alpha: float = 0.05,
+    return_details: bool = False,
+) -> Union["NDArray[Any]", dict[str, Any]]:
+    """Apply Benjamini-Hochberg False Discovery Rate correction.
+    Controls the False Discovery Rate (FDR) - the expected proportion of false
+    discoveries among the rejected hypotheses. More powerful than Bonferroni
+    correction for multiple hypothesis testing.
+    Based on Benjamini & Hochberg (1995): "Controlling the False Discovery Rate"
+    Parameters
+    ----------
+    p_values : Sequence[float]
+        P-values from multiple hypothesis tests
+    alpha : float, default 0.05
+        Target FDR level (e.g., 0.05 for 5% FDR)
+    return_details : bool, default False
+        Whether to return detailed information
+    Returns
+    -------
+    Union[NDArray, dict]
+        If return_details=False: Boolean array of rejected hypotheses
+        If return_details=True: dict with 'rejected', 'adjusted_p_values',
+                               'critical_values', 'n_rejected'
+    Examples
+    --------
+    >>> p_values = [0.001, 0.01, 0.03, 0.08, 0.12]
+    >>> rejected = benjamini_hochberg_fdr(p_values, alpha=0.05)
+    >>> print(f"Rejected: {rejected}")
+    Rejected: [ True  True  True False False]
+    """
+    p_array = np.array(p_values)
+    n = len(p_array)
+    if n == 0:
+        if return_details:
+            return {
+                "rejected": np.array([], dtype=bool),
+                "adjusted_p_values": np.array([]),
+                "critical_values": np.array([]),
+                "n_rejected": 0,
+            }
+        return np.array([], dtype=bool)
+    # Sort p-values and keep track of original indices
+    sorted_indices = np.argsort(p_array)
+    sorted_p_values = p_array[sorted_indices]
+    # Calculate critical values: (i/n) * alpha
+    critical_values = np.arange(1, n + 1) / n * alpha
+    # Find largest i such that P(i) <= (i/n) * alpha
+    # Work backwards from largest p-value
+    rejected_sorted = np.zeros(n, dtype=bool)
+    for i in range(n - 1, -1, -1):
+        if sorted_p_values[i] <= critical_values[i]:
+            # Reject this and all smaller p-values
+            rejected_sorted[: i + 1] = True
+            break
+    # Map back to original order
+    rejected = np.zeros(n, dtype=bool)
+    rejected[sorted_indices] = rejected_sorted
+    if not return_details:
+        return rejected
+    # Calculate adjusted p-values (step-up method)
+    adjusted_p_values = np.zeros(n)
+    adjusted_p_values[sorted_indices] = np.minimum.accumulate(
+        sorted_p_values[::-1] * n / np.arange(n, 0, -1),
+    )[::-1]
+    # Ensure adjusted p-values don't exceed 1
+    adjusted_p_values = np.minimum(adjusted_p_values, 1.0)
+    return {
+        "rejected": rejected,
+        "adjusted_p_values": adjusted_p_values,
+        "critical_values": critical_values[sorted_indices],
+        "n_rejected": int(np.sum(rejected)),
+    }
+def holm_bonferroni(
+    p_values: Sequence[float],
+    alpha: float = 0.05,
+) -> dict[str, Any]:
+    """Holm-Bonferroni step-down procedure for FWER control.
+    Controls the Family-Wise Error Rate (FWER) - the probability of making
+    at least one false discovery. More powerful than Bonferroni correction
+    while maintaining strong FWER control.
+    Based on Holm (1979): "A Simple Sequentially Rejective Multiple Test Procedure"
+    Parameters
+    ----------
+    p_values : Sequence[float]
+        P-values from multiple hypothesis tests
+    alpha : float, default 0.05
+        Target FWER significance level
+    Returns
+    -------
+    dict
+        Dictionary with:
+        - rejected: list[bool] - Whether each hypothesis is rejected
+        - adjusted_p_values: list[float] - Holm-adjusted p-values
+        - n_rejected: int - Number of rejections
+        - critical_values: list[float] - Holm critical thresholds
+    Notes
+    -----
+    The Holm procedure is a step-down method:
+    1. Sort p-values ascending: p_(1) <= p_(2) <= ... <= p_(m)
+    2. For p_(i), compare to alpha / (m - i + 1)
+    3. Reject all hypotheses up to (and including) the last rejection
+    4. Stop at first non-rejection; accept remaining hypotheses
+    This is uniformly more powerful than Bonferroni while controlling FWER.
+    Examples
+    --------
+    >>> p_values = [0.001, 0.01, 0.03, 0.08, 0.12]
+    >>> result = holm_bonferroni(p_values, alpha=0.05)
+    >>> print(f"Rejected: {result['rejected']}")
+    Rejected: [True, True, False, False, False]
+    """
+    p_array = np.asarray(p_values, dtype=np.float64)
+    m = len(p_array)
+    if m == 0:
+        return {
+            "rejected": [],
+            "adjusted_p_values": [],
+            "n_rejected": 0,
+            "critical_values": [],
+        }
+    # Sort p-values and track original indices
+    sorted_indices = np.argsort(p_array)
+    sorted_p = p_array[sorted_indices]
+    # Holm critical values: alpha / (m - i + 1) for i = 0, 1, ..., m-1
+    # i.e., alpha/m, alpha/(m-1), ..., alpha/1
+    critical_values = alpha / (m - np.arange(m))
+    # Step-down procedure: reject while p_(i) <= critical_(i)
+    rejected_sorted = sorted_p <= critical_values
+    # Once we fail to reject, accept all remaining
+    if not rejected_sorted.all():
+        first_fail = np.argmin(rejected_sorted)
+        rejected_sorted[first_fail:] = False
+    # Map back to original order
+    rejected = np.zeros(m, dtype=bool)
+    rejected[sorted_indices] = rejected_sorted
+    # Compute Holm-adjusted p-values
+    # adjusted_p_(i) = max_{j <= i} { (m - j + 1) * p_(j) }
+    adjusted_sorted = np.maximum.accumulate(sorted_p * (m - np.arange(m)))
+    adjusted_sorted = np.clip(adjusted_sorted, 0.0, 1.0)
+    # Map adjusted p-values back to original order
+    adjusted_p_values = np.zeros(m)
+    adjusted_p_values[sorted_indices] = adjusted_sorted
+    # Critical values in original order
+    critical_original = np.zeros(m)
+    critical_original[sorted_indices] = critical_values
+    return {
+        "rejected": rejected.tolist(),
+        "adjusted_p_values": adjusted_p_values.tolist(),
+        "n_rejected": int(rejected.sum()),
+        "critical_values": critical_original.tolist(),
+    }
+def multiple_testing_summary(
+    test_results: Sequence[dict[str, Any]],
+    method: str = "benjamini_hochberg",
+    alpha: float = 0.05,
+) -> dict[str, Any]:
+    """Summarize results from multiple statistical tests with corrections.
+    Provides a comprehensive summary of multiple hypothesis testing results
+    with appropriate corrections for multiple comparisons.
+    Parameters
+    ----------
+    test_results : Sequence[dict]
+        List of test result dictionaries (each should have 'p_value' key)
+    method : str, default "benjamini_hochberg"
+        Multiple testing correction method
+    alpha : float, default 0.05
+        Significance level
+    Returns
+    -------
+    dict
+        Summary with original and corrected results
+    Examples
+    --------
+    >>> results = [{'name': 'Strategy A', 'p_value': 0.01},
+    ...           {'name': 'Strategy B', 'p_value': 0.08}]
+    >>> summary = multiple_testing_summary(results)
+    >>> print(f"Significant after correction: {summary['n_significant_corrected']}")
+    """
+    if not test_results:
+        return {
+            "n_tests": 0,
+            "n_significant_uncorrected": 0,
+            "n_significant_corrected": 0,
+            "correction_method": method,
+            "alpha": alpha,
+        }
+    # Extract p-values
+    p_values = [result.get("p_value", np.nan) for result in test_results]
+    valid_p_values = [p for p in p_values if not np.isnan(p)]
+    if not valid_p_values:
+        return {
+            "n_tests": len(test_results),
+            "n_significant_uncorrected": 0,
+            "n_significant_corrected": 0,
+            "correction_method": method,
+            "alpha": alpha,
+            "warning": "No valid p-values found",
+        }
+    # Uncorrected significance
+    n_significant_uncorrected = sum(p <= alpha for p in valid_p_values)
+    # Apply correction
+    if method == "benjamini_hochberg":
+        correction_result = benjamini_hochberg_fdr(
+            valid_p_values,
+            alpha=alpha,
+            return_details=True,
+        )
+        n_significant_corrected = correction_result["n_rejected"]
+        adjusted_p_values = correction_result["adjusted_p_values"]
+        rejected = correction_result["rejected"]
+    else:
+        raise ValueError(f"Unknown correction method: {method}")
+    return {
+        "n_tests": len(test_results),
+        "n_significant_uncorrected": n_significant_uncorrected,
+        "n_significant_corrected": n_significant_corrected,
+        "correction_method": method,
+        "alpha": alpha,
+        "adjusted_p_values": adjusted_p_values.tolist(),
+        "rejected_hypotheses": rejected.tolist(),
+        "uncorrected_rate": n_significant_uncorrected / len(valid_p_values),
+        "corrected_rate": n_significant_corrected / len(valid_p_values),
+    }
+__all__ = [
+    "benjamini_hochberg_fdr",
+    "holm_bonferroni",
+    "multiple_testing_summary",
+]

ml4t/diagnostic/evaluation/stats/hac_standard_errors.py ADDED Viewed

@@ -0,0 +1,108 @@
+"""Robust standard errors for Information Coefficient estimation.
+This module provides standard error estimation for rank correlation (IC)
+with proper handling of temporal dependence through stationary bootstrap.
+References
+----------
+.. [1] Politis, D.N. & Romano, J.P. (1994). "The Stationary Bootstrap."
+       Journal of the American Statistical Association 89:1303-1313.
+.. [2] Patton, A., Politis, D.N. & White, H. (2009). "Correction to
+       Automatic Block-Length Selection for the Dependent Bootstrap."
+       Econometric Reviews 28:372-375.
+"""
+from typing import TYPE_CHECKING, Any, Union
+import numpy as np
+import pandas as pd
+import polars as pl
+from .bootstrap import stationary_bootstrap_ic
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+def robust_ic(
+    predictions: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    returns: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    n_samples: int = 1000,
+    return_details: bool = False,
+) -> dict[str, float] | float:
+    """Calculate Information Coefficient with robust standard errors.
+    Uses stationary bootstrap [1]_ to compute standard errors that properly
+    account for temporal dependence in time series data.
+    The stationary bootstrap is the correct method because:
+    1. Preserves temporal dependence structure
+    2. No asymptotic approximations required
+    3. Theoretically valid for rank correlation (Spearman IC)
+    Parameters
+    ----------
+    predictions : Union[pl.Series, pd.Series, NDArray]
+        Model predictions or scores
+    returns : Union[pl.Series, pd.Series, NDArray]
+        Forward returns corresponding to predictions
+    n_samples : int, default 1000
+        Number of bootstrap samples
+    return_details : bool, default False
+        Whether to return detailed statistics
+    Returns
+    -------
+    Union[dict, float]
+        If return_details=False: t-statistic (IC / bootstrap_std)
+        If return_details=True: dict with 'ic', 'bootstrap_std', 't_stat',
+            'p_value', 'ci_lower', 'ci_upper'
+    Examples
+    --------
+    >>> predictions = np.random.randn(252)
+    >>> returns = 0.1 * predictions + np.random.randn(252) * 0.5
+    >>> result = robust_ic(predictions, returns, return_details=True)
+    >>> print(f"IC: {result['ic']:.3f}, t-stat: {result['t_stat']:.3f}")
+    References
+    ----------
+    .. [1] Politis, D.N. & Romano, J.P. (1994). "The Stationary Bootstrap."
+           Journal of the American Statistical Association 89:1303-1313.
+    """
+    bootstrap_result = stationary_bootstrap_ic(
+        predictions, returns, n_samples=n_samples, return_details=True
+    )
+    assert isinstance(bootstrap_result, dict)
+    if not return_details:
+        if bootstrap_result["bootstrap_std"] > 0:
+            return bootstrap_result["ic"] / bootstrap_result["bootstrap_std"]
+        return np.nan
+    # Compute t-statistic
+    t_stat = (
+        bootstrap_result["ic"] / bootstrap_result["bootstrap_std"]
+        if bootstrap_result["bootstrap_std"] > 0
+        else np.nan
+    )
+    return {
+        "ic": bootstrap_result["ic"],
+        "bootstrap_std": bootstrap_result["bootstrap_std"],
+        "t_stat": t_stat,
+        "p_value": bootstrap_result.get("p_value", np.nan),
+        "ci_lower": bootstrap_result.get("ci_lower", np.nan),
+        "ci_upper": bootstrap_result.get("ci_upper", np.nan),
+    }
+# Keep old name as alias for now
+hac_adjusted_ic = robust_ic
+__all__ = [
+    "robust_ic",
+    "hac_adjusted_ic",  # Alias
+]