PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/binary_metrics.py ADDED Viewed

@@ -0,0 +1,910 @@
+"""Binary Classification Metrics for Trading Signal Evaluation.
+This module provides precision, recall, lift, and coverage metrics for evaluating
+binary trading signals against labeled outcomes. Designed to complement the
+existing Signal Analysis and Feature Diagnostics capabilities.
+Key Features:
+    - Polars-native implementation (fast, memory-efficient)
+    - Statistical significance testing (binomial test, proportions z-test)
+    - Confidence intervals via Wilson score
+    - Sparse signal support (handles low coverage gracefully)
+    - Comprehensive report generation
+Usage Example:
+    >>> import polars as pl
+    >>> from ml4t.diagnostic.evaluation.binary_metrics import (
+    ...     precision, recall, lift, coverage, binary_classification_report
+    ... )
+    >>>
+    >>> # Example data
+    >>> signals = pl.Series([1, 0, 1, 1, 0, 1, 0, 0, 1, 0])
+    >>> labels = pl.Series([1, 0, 1, 0, 0, 1, 0, 1, 1, 0])
+    >>>
+    >>> # Compute metrics
+    >>> prec = precision(signals, labels)
+    >>> rec = recall(signals, labels)
+    >>> print(f"Precision: {prec:.3f}, Recall: {rec:.3f}")
+References:
+    Wilson, E.B. (1927). "Probable inference, the law of succession,
+    and statistical inference". Journal of the American Statistical
+    Association.
+"""
+from __future__ import annotations
+from dataclasses import dataclass
+from typing import Literal
+import numpy as np
+import polars as pl
+from scipy import stats
+# ============================================================================
+# Core Metrics
+# ============================================================================
+def precision(signals: pl.Series, labels: pl.Series) -> float:
+    """Compute precision: P(label=1 | signal=1).
+    Precision measures the accuracy of positive predictions. In trading:
+        - High precision = most signals lead to profitable outcomes
+        - Low precision = many false positives (unprofitable trades)
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    float
+        Precision value in [0, 1], or NaN if no signals
+    Formula
+    -------
+    precision = TP / (TP + FP)
+    where TP = true positives, FP = false positives
+    """
+    n_signals = signals.sum()
+    if n_signals == 0:
+        return float("nan")
+    tp = ((signals == 1) & (labels == 1)).sum()
+    fp = ((signals == 1) & (labels == 0)).sum()
+    return float(tp / (tp + fp))
+def recall(signals: pl.Series, labels: pl.Series) -> float:
+    """Compute recall (sensitivity): P(signal=1 | label=1).
+    Recall measures coverage of positive outcomes. In trading:
+        - High recall = captures most profitable opportunities
+        - Low recall = misses many profitable opportunities
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    float
+        Recall value in [0, 1], or NaN if no positive labels
+    Formula
+    -------
+    recall = TP / (TP + FN)
+    where TP = true positives, FN = false negatives
+    """
+    n_positives = labels.sum()
+    if n_positives == 0:
+        return float("nan")
+    tp = ((signals == 1) & (labels == 1)).sum()
+    fn = ((signals == 0) & (labels == 1)).sum()
+    return float(tp / (tp + fn))
+def coverage(signals: pl.Series) -> float:
+    """Compute signal coverage: fraction of observations with signals.
+    Coverage measures how frequently the indicator generates signals:
+        - High coverage (>20%) = many trading opportunities
+        - Low coverage (<5%) = sparse/rare signals
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    Returns
+    -------
+    float
+        Coverage value in [0, 1]
+    Formula
+    -------
+    coverage = (# signals) / (# total observations)
+    """
+    n = len(signals)
+    if n == 0:
+        return float("nan")
+    return float(signals.sum() / n)
+def lift(signals: pl.Series, labels: pl.Series) -> float:
+    """Compute lift: precision / base_rate.
+    Lift measures improvement over random selection:
+        - Lift > 1.0 = signal better than random
+        - Lift < 1.0 = signal worse than random
+        - Lift = 1.0 = signal no better than random
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    float
+        Lift value (typically 0.5 - 3.0), or NaN if no signals or labels
+    Formula
+    -------
+    lift = precision / base_rate
+    where base_rate = P(label=1) overall
+    """
+    n = len(labels)
+    if n == 0:
+        return float("nan")
+    base_rate = labels.sum() / n
+    if base_rate == 0 or signals.sum() == 0:
+        return float("nan")
+    prec = precision(signals, labels)
+    return float(prec / base_rate)
+def f1_score(signals: pl.Series, labels: pl.Series) -> float:
+    """Compute F1 score: harmonic mean of precision and recall.
+    F1 balances precision and recall:
+        - F1 = 1.0 = perfect precision and recall
+        - F1 = 0.0 = zero precision or recall
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    float
+        F1 score in [0, 1], or NaN if undefined
+    Formula
+    -------
+    F1 = 2 * (precision * recall) / (precision + recall)
+    """
+    prec = precision(signals, labels)
+    rec = recall(signals, labels)
+    if np.isnan(prec) or np.isnan(rec) or (prec + rec) == 0:
+        return float("nan")
+    return 2 * (prec * rec) / (prec + rec)
+def specificity(signals: pl.Series, labels: pl.Series) -> float:
+    """Compute specificity: P(signal=0 | label=0).
+    Specificity measures the true negative rate:
+        - High specificity = correctly avoids bad trades
+        - Low specificity = many false positives
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    float
+        Specificity value in [0, 1], or NaN if no negative labels
+    Formula
+    -------
+    specificity = TN / (TN + FP)
+    where TN = true negatives, FP = false positives
+    """
+    n_negatives = (labels == 0).sum()
+    if n_negatives == 0:
+        return float("nan")
+    tn = ((signals == 0) & (labels == 0)).sum()
+    fp = ((signals == 1) & (labels == 0)).sum()
+    return float(tn / (tn + fp))
+def balanced_accuracy(signals: pl.Series, labels: pl.Series) -> float:
+    """Compute balanced accuracy: average of recall and specificity.
+    Balanced accuracy is useful when classes are imbalanced:
+        - Equal weight to both positive and negative class performance
+        - Range [0, 1], where 0.5 = random classifier
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    float
+        Balanced accuracy in [0, 1], or NaN if undefined
+    Formula
+    -------
+    balanced_accuracy = (recall + specificity) / 2
+    """
+    rec = recall(signals, labels)
+    spec = specificity(signals, labels)
+    if np.isnan(rec) or np.isnan(spec):
+        return float("nan")
+    return (rec + spec) / 2
+# ============================================================================
+# Confidence Intervals
+# ============================================================================
+def wilson_score_interval(
+    n_successes: int,
+    n_trials: int,
+    confidence: float = 0.95,
+) -> tuple[float, float]:
+    """Compute Wilson score confidence interval for a proportion.
+    More accurate than normal approximation, especially for small samples
+    or extreme proportions. Recommended for trading signal evaluation.
+    Parameters
+    ----------
+    n_successes : int
+        Number of successes (e.g., true positives)
+    n_trials : int
+        Total number of trials (e.g., total signals)
+    confidence : float, default 0.95
+        Confidence level for the interval
+    Returns
+    -------
+    tuple[float, float]
+        (lower_bound, upper_bound) of the confidence interval
+    References
+    ----------
+    Wilson, E.B. (1927). "Probable inference, the law of succession,
+    and statistical inference". Journal of the American Statistical
+    Association.
+    Examples
+    --------
+    >>> lower, upper = wilson_score_interval(45, 100, confidence=0.95)
+    >>> print(f"95% CI: [{lower:.3f}, {upper:.3f}]")
+    """
+    if n_trials == 0:
+        return (float("nan"), float("nan"))
+    z = stats.norm.ppf(1 - (1 - confidence) / 2)
+    p_hat = n_successes / n_trials
+    denominator = 1 + z**2 / n_trials
+    center = (p_hat + z**2 / (2 * n_trials)) / denominator
+    margin = z * np.sqrt((p_hat * (1 - p_hat) + z**2 / (4 * n_trials)) / n_trials) / denominator
+    return (float(center - margin), float(center + margin))
+# ============================================================================
+# Statistical Tests
+# ============================================================================
+def binomial_test_precision(
+    tp: int,
+    n: int,
+    prevalence: float,
+    alternative: Literal["greater", "less", "two-sided"] = "greater",
+) -> float:
+    """Test if precision is significantly better than random using binomial test.
+    Null hypothesis: precision = prevalence (signal no better than random)
+    Alternative: precision > prevalence (signal better than random)
+    Parameters
+    ----------
+    tp : int
+        True positives (# signals with positive outcomes)
+    n : int
+        Total signals (# times signal=1)
+    prevalence : float
+        Base rate P(label=1) in population
+    alternative : {'greater', 'less', 'two-sided'}, default 'greater'
+        Alternative hypothesis direction
+    Returns
+    -------
+    float
+        p-value for the binomial test
+    Notes
+    -----
+    Interpretation:
+        - p < 0.05 => precision significantly > prevalence (good signal!)
+        - p >= 0.05 => precision not significantly better than random
+    """
+    if n == 0:
+        return float("nan")
+    # Handle edge case where prevalence is 0 or 1
+    if prevalence <= 0 or prevalence >= 1:
+        return float("nan")
+    result = stats.binomtest(tp, n, prevalence, alternative=alternative)
+    return float(result.pvalue)
+def proportions_z_test(
+    signals: pl.Series,
+    labels: pl.Series,
+    alternative: Literal["greater", "less", "two-sided"] = "greater",
+) -> tuple[float, float]:
+    """Test if precision differs from base rate using z-test.
+    More powerful than binomial test for large samples (n > 30).
+    Null hypothesis: precision = base_rate
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    alternative : {'greater', 'less', 'two-sided'}, default 'greater'
+        Alternative hypothesis direction
+    Returns
+    -------
+    tuple[float, float]
+        (z_statistic, p_value)
+    Notes
+    -----
+    Interpretation:
+        - p < 0.05 => precision significantly different from base rate
+        - z > 0 => precision > base rate (good)
+        - z < 0 => precision < base rate (bad)
+    """
+    n_signals = int(signals.sum())
+    n_total = len(labels)
+    if n_signals == 0 or n_total == 0:
+        return (float("nan"), float("nan"))
+    # Signal group precision
+    tp = int(((signals == 1) & (labels == 1)).sum())
+    p1 = tp / n_signals
+    # Population base rate
+    p2 = float(labels.sum() / n_total)
+    n2 = n_total - n_signals
+    if n2 == 0:
+        return (float("nan"), float("nan"))
+    # Pooled proportion
+    p_pool = float(labels.sum() / n_total)
+    # Standard error
+    se = np.sqrt(p_pool * (1 - p_pool) * (1 / n_signals + 1 / n2))
+    if se == 0:
+        return (float("nan"), float("nan"))
+    # Z-statistic
+    z = (p1 - p2) / se
+    # P-value
+    if alternative == "greater":
+        p_value = 1 - stats.norm.cdf(z)
+    elif alternative == "less":
+        p_value = stats.norm.cdf(z)
+    else:  # two-sided
+        p_value = 2 * (1 - stats.norm.cdf(abs(z)))
+    return (float(z), float(p_value))
+def compare_precisions_z_test(
+    signals1: pl.Series,
+    labels1: pl.Series,
+    signals2: pl.Series,
+    labels2: pl.Series,
+    alternative: Literal["greater", "less", "two-sided"] = "two-sided",
+) -> tuple[float, float]:
+    """Compare precision between two strategies using z-test.
+    Tests whether strategy 1 has significantly different precision than strategy 2.
+    Parameters
+    ----------
+    signals1 : pl.Series
+        Binary signals from strategy 1
+    labels1 : pl.Series
+        Binary labels for strategy 1
+    signals2 : pl.Series
+        Binary signals from strategy 2
+    labels2 : pl.Series
+        Binary labels for strategy 2
+    alternative : {'greater', 'less', 'two-sided'}, default 'two-sided'
+        Alternative hypothesis direction
+    Returns
+    -------
+    tuple[float, float]
+        (z_statistic, p_value)
+    """
+    n1 = int(signals1.sum())
+    n2 = int(signals2.sum())
+    if n1 == 0 or n2 == 0:
+        return (float("nan"), float("nan"))
+    tp1 = int(((signals1 == 1) & (labels1 == 1)).sum())
+    tp2 = int(((signals2 == 1) & (labels2 == 1)).sum())
+    p1 = tp1 / n1
+    p2 = tp2 / n2
+    # Pooled proportion
+    p_pool = (tp1 + tp2) / (n1 + n2)
+    # Standard error
+    se = np.sqrt(p_pool * (1 - p_pool) * (1 / n1 + 1 / n2))
+    if se == 0:
+        return (float("nan"), float("nan"))
+    z = (p1 - p2) / se
+    if alternative == "greater":
+        p_value = 1 - stats.norm.cdf(z)
+    elif alternative == "less":
+        p_value = stats.norm.cdf(z)
+    else:
+        p_value = 2 * (1 - stats.norm.cdf(abs(z)))
+    return (float(z), float(p_value))
+# ============================================================================
+# Confusion Matrix
+# ============================================================================
+@dataclass
+class ConfusionMatrix:
+    """Confusion matrix for binary classification.
+    Attributes
+    ----------
+    tp : int
+        True positives
+    fp : int
+        False positives
+    tn : int
+        True negatives
+    fn : int
+        False negatives
+    """
+    tp: int
+    fp: int
+    tn: int
+    fn: int
+    @property
+    def n_signals(self) -> int:
+        """Total positive predictions."""
+        return self.tp + self.fp
+    @property
+    def n_positives(self) -> int:
+        """Total actual positives."""
+        return self.tp + self.fn
+    @property
+    def n_negatives(self) -> int:
+        """Total actual negatives."""
+        return self.tn + self.fp
+    @property
+    def n_total(self) -> int:
+        """Total observations."""
+        return self.tp + self.fp + self.tn + self.fn
+    def to_dict(self) -> dict[str, int]:
+        """Convert to dictionary."""
+        return {
+            "tp": self.tp,
+            "fp": self.fp,
+            "tn": self.tn,
+            "fn": self.fn,
+            "n_signals": self.n_signals,
+            "n_positives": self.n_positives,
+            "n_negatives": self.n_negatives,
+            "n_total": self.n_total,
+        }
+def compute_confusion_matrix(signals: pl.Series, labels: pl.Series) -> ConfusionMatrix:
+    """Compute confusion matrix from signals and labels.
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    ConfusionMatrix
+        Confusion matrix with tp, fp, tn, fn
+    """
+    tp = int(((signals == 1) & (labels == 1)).sum())
+    fp = int(((signals == 1) & (labels == 0)).sum())
+    tn = int(((signals == 0) & (labels == 0)).sum())
+    fn = int(((signals == 0) & (labels == 1)).sum())
+    return ConfusionMatrix(tp=tp, fp=fp, tn=tn, fn=fn)
+# ============================================================================
+# Comprehensive Report
+# ============================================================================
+@dataclass
+class BinaryClassificationReport:
+    """Comprehensive binary classification report.
+    Attributes
+    ----------
+    precision : float
+        Precision (positive predictive value)
+    recall : float
+        Recall (sensitivity, true positive rate)
+    f1_score : float
+        Harmonic mean of precision and recall
+    specificity : float
+        True negative rate
+    balanced_accuracy : float
+        Average of recall and specificity
+    lift : float
+        Improvement over random selection
+    coverage : float
+        Fraction of observations with signals
+    confusion_matrix : ConfusionMatrix
+        Confusion matrix details
+    base_rate : float
+        Population prevalence of positive class
+    precision_ci : tuple[float, float]
+        Wilson score CI for precision
+    recall_ci : tuple[float, float]
+        Wilson score CI for recall
+    binomial_pvalue : float
+        P-value for binomial test of precision > base_rate
+    z_test_stat : float
+        Z-statistic for precision vs base_rate
+    z_test_pvalue : float
+        P-value for z-test
+    mean_return_on_signal : float | None
+        Mean return when signal=1 (if returns provided)
+    mean_return_no_signal : float | None
+        Mean return when signal=0 (if returns provided)
+    return_lift : float | None
+        Ratio of signal return to no-signal return (if returns provided)
+    """
+    precision: float
+    recall: float
+    f1_score: float
+    specificity: float
+    balanced_accuracy: float
+    lift: float
+    coverage: float
+    confusion_matrix: ConfusionMatrix
+    base_rate: float
+    precision_ci: tuple[float, float]
+    recall_ci: tuple[float, float]
+    binomial_pvalue: float
+    z_test_stat: float
+    z_test_pvalue: float
+    mean_return_on_signal: float | None = None
+    mean_return_no_signal: float | None = None
+    return_lift: float | None = None
+    def to_dict(self) -> dict:
+        """Convert report to dictionary."""
+        result = {
+            "precision": self.precision,
+            "recall": self.recall,
+            "f1_score": self.f1_score,
+            "specificity": self.specificity,
+            "balanced_accuracy": self.balanced_accuracy,
+            "lift": self.lift,
+            "coverage": self.coverage,
+            "base_rate": self.base_rate,
+            "precision_ci": self.precision_ci,
+            "recall_ci": self.recall_ci,
+            "binomial_pvalue": self.binomial_pvalue,
+            "z_test_stat": self.z_test_stat,
+            "z_test_pvalue": self.z_test_pvalue,
+            **self.confusion_matrix.to_dict(),
+        }
+        if self.mean_return_on_signal is not None:
+            result["mean_return_on_signal"] = self.mean_return_on_signal
+            result["mean_return_no_signal"] = self.mean_return_no_signal
+            result["return_lift"] = self.return_lift
+        return result
+    @property
+    def is_significant(self) -> bool:
+        """Whether precision is significantly better than base rate at p<0.05."""
+        return self.binomial_pvalue < 0.05
+    @property
+    def is_sparse(self) -> bool:
+        """Whether signal coverage is below 5%."""
+        return self.coverage < 0.05
+def binary_classification_report(
+    signals: pl.Series,
+    labels: pl.Series,
+    returns: pl.Series | None = None,
+    confidence: float = 0.95,
+) -> BinaryClassificationReport:
+    """Generate comprehensive binary classification report for trading signal.
+    Computes all key metrics with confidence intervals and statistical tests.
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    returns : pl.Series, optional
+        Series of returns for additional return analysis
+    confidence : float, default 0.95
+        Confidence level for Wilson score intervals
+    Returns
+    -------
+    BinaryClassificationReport
+        Comprehensive report with all metrics, CIs, and statistical tests
+    Examples
+    --------
+    >>> report = binary_classification_report(signals, labels)
+    >>> print(f"Precision: {report.precision:.3f} "
+    ...       f"[{report.precision_ci[0]:.3f}, {report.precision_ci[1]:.3f}]")
+    >>> print(f"Statistical significance: p={report.binomial_pvalue:.4f}")
+    >>> if report.is_significant:
+    ...     print("Signal is significantly better than random!")
+    """
+    # Compute confusion matrix
+    cm = compute_confusion_matrix(signals, labels)
+    # Basic metrics
+    prec = precision(signals, labels)
+    rec = recall(signals, labels)
+    f1 = f1_score(signals, labels)
+    spec = specificity(signals, labels)
+    bal_acc = balanced_accuracy(signals, labels)
+    lift_val = lift(signals, labels)
+    cov = coverage(signals)
+    # Base rate
+    base_rate = cm.n_positives / cm.n_total if cm.n_total > 0 else float("nan")
+    # Confidence intervals
+    prec_ci = wilson_score_interval(cm.tp, cm.n_signals, confidence)
+    rec_ci = wilson_score_interval(cm.tp, cm.n_positives, confidence)
+    # Statistical tests
+    binom_pvalue = binomial_test_precision(cm.tp, cm.n_signals, base_rate)
+    z_stat, z_pvalue = proportions_z_test(signals, labels)
+    # Returns analysis (if provided)
+    mean_ret_signal = None
+    mean_ret_no_signal = None
+    ret_lift = None
+    if returns is not None:
+        signal_mask = signals == 1
+        no_signal_mask = signals == 0
+        if signal_mask.sum() > 0:
+            val = returns.filter(signal_mask).mean()
+            if val is not None and isinstance(val, int | float):
+                mean_ret_signal = float(val)
+        if no_signal_mask.sum() > 0:
+            val = returns.filter(no_signal_mask).mean()
+            if val is not None and isinstance(val, int | float):
+                mean_ret_no_signal = float(val)
+        if (
+            mean_ret_signal is not None
+            and mean_ret_no_signal is not None
+            and mean_ret_no_signal != 0
+        ):
+            ret_lift = mean_ret_signal / mean_ret_no_signal
+    return BinaryClassificationReport(
+        precision=prec,
+        recall=rec,
+        f1_score=f1,
+        specificity=spec,
+        balanced_accuracy=bal_acc,
+        lift=lift_val,
+        coverage=cov,
+        confusion_matrix=cm,
+        base_rate=base_rate,
+        precision_ci=prec_ci,
+        recall_ci=rec_ci,
+        binomial_pvalue=binom_pvalue,
+        z_test_stat=z_stat,
+        z_test_pvalue=z_pvalue,
+        mean_return_on_signal=mean_ret_signal,
+        mean_return_no_signal=mean_ret_no_signal,
+        return_lift=ret_lift,
+    )
+def format_classification_report(report: BinaryClassificationReport) -> str:
+    """Format binary classification report as human-readable string.
+    Parameters
+    ----------
+    report : BinaryClassificationReport
+        Report from binary_classification_report()
+    Returns
+    -------
+    str
+        Formatted string with metrics and interpretation
+    """
+    cm = report.confusion_matrix
+    lines = [
+        "Binary Classification Report",
+        "=" * 50,
+        "",
+        f"Sample Size: {cm.n_total:,}",
+        f"Base Rate: {report.base_rate:.3f} ({cm.n_positives:,} positives)",
+        "",
+        "Metrics:",
+        f"  Precision:    {report.precision:.3f} "
+        f"[{report.precision_ci[0]:.3f}, {report.precision_ci[1]:.3f}]",
+        f"  Recall:       {report.recall:.3f} "
+        f"[{report.recall_ci[0]:.3f}, {report.recall_ci[1]:.3f}]",
+        f"  F1 Score:     {report.f1_score:.3f}",
+        f"  Specificity:  {report.specificity:.3f}",
+        f"  Balanced Acc: {report.balanced_accuracy:.3f}",
+        f"  Lift:         {report.lift:.3f}",
+        f"  Coverage:     {report.coverage:.3f} ({cm.n_signals:,} signals)",
+        "",
+        "Confusion Matrix:",
+        f"  TP: {cm.tp:>6,}  FP: {cm.fp:>6,}",
+        f"  FN: {cm.fn:>6,}  TN: {cm.tn:>6,}",
+        "",
+        "Statistical Significance:",
+        f"  Binomial test p-value: {report.binomial_pvalue:.4f}",
+        f"  Z-test statistic:      {report.z_test_stat:.3f}",
+        f"  Z-test p-value:        {report.z_test_pvalue:.4f}",
+    ]
+    # Add returns analysis if available
+    if report.mean_return_on_signal is not None:
+        lines.extend(
+            [
+                "",
+                "Returns Analysis:",
+                f"  Mean return (signal):    {report.mean_return_on_signal:.4f}",
+                f"  Mean return (no signal): {report.mean_return_no_signal:.4f}",
+                f"  Return lift:             {report.return_lift:.3f}",
+            ]
+        )
+    # Interpretation
+    lines.extend(["", "Interpretation:"])
+    if report.is_significant:
+        lines.append("  [+] Signal precision significantly > base rate (p < 0.05)")
+    else:
+        lines.append("  [-] Signal precision NOT significantly > base rate (p >= 0.05)")
+    if report.lift > 1.2:
+        lines.append("  [+] Strong lift (>1.2x better than random)")
+    elif report.lift > 1.0:
+        lines.append("  [~] Moderate lift (>1.0x better than random)")
+    else:
+        lines.append("  [-] No lift (<= 1.0x, not better than random)")
+    if report.is_sparse:
+        lines.append("  [!] Very sparse signals (<5% coverage)")
+    elif report.coverage > 0.20:
+        lines.append("  [+] High signal frequency (>20% coverage)")
+    return "\n".join(lines)
+# ============================================================================
+# Convenience Functions
+# ============================================================================
+def compute_all_metrics(
+    signals: pl.Series,
+    labels: pl.Series,
+) -> dict[str, float]:
+    """Compute all binary classification metrics.
+    Parameters
+    ----------
+    signals : pl.Series
+        Binary series (1=signal, 0=no signal)
+    labels : pl.Series
+        Binary series (1=positive outcome, 0=negative outcome)
+    Returns
+    -------
+    dict[str, float]
+        Dictionary with all metric values
+    """
+    return {
+        "precision": precision(signals, labels),
+        "recall": recall(signals, labels),
+        "f1_score": f1_score(signals, labels),
+        "specificity": specificity(signals, labels),
+        "balanced_accuracy": balanced_accuracy(signals, labels),
+        "lift": lift(signals, labels),
+        "coverage": coverage(signals),
+    }