PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/results/barrier_results/__init__.py ADDED Viewed

@@ -0,0 +1,36 @@
+"""Result classes for Barrier Analysis module.
+This package provides Pydantic result classes for storing and serializing
+barrier analysis outputs including hit rates, profit factors, precision/recall,
+and time-to-target metrics.
+Triple barrier outcomes from ml4t.features:
+- label: int (-1=SL hit, 0=timeout, 1=TP hit)
+- label_return: float (actual return at exit)
+- label_bars: int (bars from entry to exit)
+References
+----------
+Lopez de Prado, M. (2018). "Advances in Financial Machine Learning"
+    Chapter 3: Labeling (Triple Barrier Method)
+"""
+from __future__ import annotations
+from ml4t.diagnostic.results.barrier_results.hit_rate import HitRateResult
+from ml4t.diagnostic.results.barrier_results.precision_recall import PrecisionRecallResult
+from ml4t.diagnostic.results.barrier_results.profit_factor import ProfitFactorResult
+from ml4t.diagnostic.results.barrier_results.tearsheet import BarrierTearSheet
+from ml4t.diagnostic.results.barrier_results.time_to_target import TimeToTargetResult
+from ml4t.diagnostic.results.barrier_results.validation import _validate_quantile_dict_keys
+__all__ = [
+    # Validation helper
+    "_validate_quantile_dict_keys",
+    # Result classes
+    "HitRateResult",
+    "ProfitFactorResult",
+    "PrecisionRecallResult",
+    "TimeToTargetResult",
+    "BarrierTearSheet",
+]

ml4t/diagnostic/results/barrier_results/hit_rate.py ADDED Viewed

@@ -0,0 +1,304 @@
+"""Hit rate analysis results for barrier outcomes.
+This module provides the HitRateResult class for storing hit rate metrics
+(TP, SL, timeout) by signal quantile, including chi-square independence tests.
+"""
+from __future__ import annotations
+import polars as pl
+from pydantic import Field, model_validator
+from ml4t.diagnostic.results.barrier_results.validation import _validate_quantile_dict_keys
+from ml4t.diagnostic.results.base import BaseResult
+class HitRateResult(BaseResult):
+    """Results from hit rate analysis by signal decile.
+    Contains hit rates (% TP, % SL, % timeout) for each signal quantile,
+    along with chi-square test for independence between signal strength
+    and barrier outcome.
+    Examples
+    --------
+    >>> result = hit_rate_result
+    >>> print(result.summary())
+    >>> df = result.get_dataframe("hit_rates")
+    """
+    analysis_type: str = Field(default="barrier_hit_rate", frozen=True)
+    # ==========================================================================
+    # Configuration
+    # ==========================================================================
+    n_quantiles: int = Field(
+        ...,
+        description="Number of quantiles used",
+    )
+    quantile_labels: list[str] = Field(
+        ...,
+        description="Labels for each quantile (e.g., ['D1', 'D2', ..., 'D10'])",
+    )
+    # ==========================================================================
+    # Hit Rates by Quantile
+    # ==========================================================================
+    hit_rate_tp: dict[str, float] = Field(
+        ...,
+        description="Take-profit hit rate per quantile: {quantile: rate}",
+    )
+    hit_rate_sl: dict[str, float] = Field(
+        ...,
+        description="Stop-loss hit rate per quantile: {quantile: rate}",
+    )
+    hit_rate_timeout: dict[str, float] = Field(
+        ...,
+        description="Timeout hit rate per quantile: {quantile: rate}",
+    )
+    # ==========================================================================
+    # Counts
+    # ==========================================================================
+    count_tp: dict[str, int] = Field(
+        ...,
+        description="Take-profit count per quantile",
+    )
+    count_sl: dict[str, int] = Field(
+        ...,
+        description="Stop-loss count per quantile",
+    )
+    count_timeout: dict[str, int] = Field(
+        ...,
+        description="Timeout count per quantile",
+    )
+    count_total: dict[str, int] = Field(
+        ...,
+        description="Total count per quantile",
+    )
+    # ==========================================================================
+    # Statistical Test (Chi-Square Independence)
+    # ==========================================================================
+    chi2_statistic: float = Field(
+        ...,
+        description="Chi-square statistic for independence test",
+    )
+    chi2_p_value: float = Field(
+        ...,
+        description="P-value for chi-square test",
+    )
+    chi2_dof: int = Field(
+        ...,
+        description="Degrees of freedom for chi-square test",
+    )
+    is_significant: bool = Field(
+        ...,
+        description="Whether signal quantile significantly affects outcome (p < alpha)",
+    )
+    significance_level: float = Field(
+        ...,
+        description="Significance level used for test",
+    )
+    # ==========================================================================
+    # Aggregates
+    # ==========================================================================
+    overall_hit_rate_tp: float = Field(
+        ...,
+        description="Overall take-profit hit rate across all observations",
+    )
+    overall_hit_rate_sl: float = Field(
+        ...,
+        description="Overall stop-loss hit rate across all observations",
+    )
+    overall_hit_rate_timeout: float = Field(
+        ...,
+        description="Overall timeout hit rate across all observations",
+    )
+    n_observations: int = Field(
+        ...,
+        description="Total number of observations analyzed",
+    )
+    # ==========================================================================
+    # Monotonicity
+    # ==========================================================================
+    tp_rate_monotonic: bool = Field(
+        ...,
+        description="Whether TP hit rate is monotonic across quantiles",
+    )
+    tp_rate_direction: str = Field(
+        ...,
+        description="Direction of TP rate change: 'increasing', 'decreasing', or 'none'",
+    )
+    tp_rate_spearman: float = Field(
+        ...,
+        description="Spearman correlation between quantile rank and TP hit rate",
+    )
+    # ==========================================================================
+    # Validation
+    # ==========================================================================
+    @model_validator(mode="after")
+    def _validate_quantile_keys(self) -> HitRateResult:
+        """Validate that all quantile-keyed dicts have consistent keys."""
+        if self.n_quantiles != len(self.quantile_labels):
+            raise ValueError(
+                f"n_quantiles ({self.n_quantiles}) != len(quantile_labels) ({len(self.quantile_labels)})"
+            )
+        _validate_quantile_dict_keys(
+            self.quantile_labels,
+            [
+                ("hit_rate_tp", self.hit_rate_tp),
+                ("hit_rate_sl", self.hit_rate_sl),
+                ("hit_rate_timeout", self.hit_rate_timeout),
+                ("count_tp", self.count_tp),
+                ("count_sl", self.count_sl),
+                ("count_timeout", self.count_timeout),
+                ("count_total", self.count_total),
+            ],
+        )
+        return self
+    # ==========================================================================
+    # Methods
+    # ==========================================================================
+    def get_dataframe(self, name: str | None = None) -> pl.DataFrame:
+        """Get results as Polars DataFrame.
+        Parameters
+        ----------
+        name : str | None
+            DataFrame to retrieve:
+            - None or "hit_rates": Hit rates by quantile
+            - "counts": Raw counts by quantile and outcome
+            - "summary": Single-row summary statistics
+        Returns
+        -------
+        pl.DataFrame
+            Requested DataFrame
+        """
+        if name is None or name == "hit_rates":
+            return pl.DataFrame(
+                {
+                    "quantile": self.quantile_labels,
+                    "hit_rate_tp": [self.hit_rate_tp[q] for q in self.quantile_labels],
+                    "hit_rate_sl": [self.hit_rate_sl[q] for q in self.quantile_labels],
+                    "hit_rate_timeout": [self.hit_rate_timeout[q] for q in self.quantile_labels],
+                    "count_total": [self.count_total[q] for q in self.quantile_labels],
+                }
+            )
+        if name == "counts":
+            return pl.DataFrame(
+                {
+                    "quantile": self.quantile_labels,
+                    "count_tp": [self.count_tp[q] for q in self.quantile_labels],
+                    "count_sl": [self.count_sl[q] for q in self.quantile_labels],
+                    "count_timeout": [self.count_timeout[q] for q in self.quantile_labels],
+                    "count_total": [self.count_total[q] for q in self.quantile_labels],
+                }
+            )
+        if name == "summary":
+            return pl.DataFrame(
+                {
+                    "metric": [
+                        "n_observations",
+                        "n_quantiles",
+                        "overall_hit_rate_tp",
+                        "overall_hit_rate_sl",
+                        "overall_hit_rate_timeout",
+                        "chi2_statistic",
+                        "chi2_p_value",
+                        "is_significant",
+                        "tp_rate_monotonic",
+                        "tp_rate_spearman",
+                    ],
+                    "value": [
+                        float(self.n_observations),
+                        float(self.n_quantiles),
+                        self.overall_hit_rate_tp,
+                        self.overall_hit_rate_sl,
+                        self.overall_hit_rate_timeout,
+                        self.chi2_statistic,
+                        self.chi2_p_value,
+                        float(self.is_significant),
+                        float(self.tp_rate_monotonic),
+                        self.tp_rate_spearman,
+                    ],
+                }
+            )
+        raise ValueError(
+            f"Unknown DataFrame name: {name}. Available: 'hit_rates', 'counts', 'summary'"
+        )
+    def list_available_dataframes(self) -> list[str]:
+        """List available DataFrame views."""
+        return ["hit_rates", "counts", "summary"]
+    def summary(self) -> str:
+        """Get human-readable summary of hit rate results."""
+        lines = [
+            "=" * 60,
+            "Barrier Hit Rate Analysis",
+            "=" * 60,
+            "",
+            f"Observations:     {self.n_observations:>10,}",
+            f"Quantiles:        {self.n_quantiles:>10}",
+            "",
+            "Overall Hit Rates:",
+            f"  Take-Profit:    {self.overall_hit_rate_tp:>10.1%}",
+            f"  Stop-Loss:      {self.overall_hit_rate_sl:>10.1%}",
+            f"  Timeout:        {self.overall_hit_rate_timeout:>10.1%}",
+            "",
+            "Chi-Square Test (Signal Decile vs Outcome):",
+            f"  Chi2 Statistic: {self.chi2_statistic:>10.2f}",
+            f"  P-value:        {self.chi2_p_value:>10.4f}",
+            f"  DoF:            {self.chi2_dof:>10}",
+            f"  Significant:    {'Yes' if self.is_significant else 'No':>10} (alpha={self.significance_level})",
+            "",
+            "Monotonicity (TP Rate vs Signal Strength):",
+            f"  Monotonic:      {'Yes' if self.tp_rate_monotonic else 'No':>10}",
+            f"  Direction:      {self.tp_rate_direction:>10}",
+            f"  Spearman rho:   {self.tp_rate_spearman:>10.4f}",
+            "",
+            "-" * 60,
+            "Hit Rates by Quantile:",
+            "-" * 60,
+            f"{'Quantile':<10} {'TP Rate':>10} {'SL Rate':>10} {'Timeout':>10} {'Count':>8}",
+        ]
+        for q in self.quantile_labels:
+            lines.append(
+                f"{q:<10} {self.hit_rate_tp[q]:>10.1%} {self.hit_rate_sl[q]:>10.1%} "
+                f"{self.hit_rate_timeout[q]:>10.1%} {self.count_total[q]:>8,}"
+            )
+        return "\n".join(lines)

ml4t/diagnostic/results/barrier_results/precision_recall.py ADDED Viewed

@@ -0,0 +1,266 @@
+"""Precision/recall analysis results for barrier outcomes.
+This module provides the PrecisionRecallResult class for storing precision,
+recall, F1 scores, and lift metrics for barrier outcomes by signal quantile.
+"""
+from __future__ import annotations
+import polars as pl
+from pydantic import Field, model_validator
+from ml4t.diagnostic.results.barrier_results.validation import _validate_quantile_dict_keys
+from ml4t.diagnostic.results.base import BaseResult
+class PrecisionRecallResult(BaseResult):
+    """Results from precision/recall analysis for barrier outcomes.
+    Precision: Of signals in top quantile, what fraction hit TP?
+    Recall: Of all TP outcomes, what fraction came from top quantile?
+    This helps understand signal selectivity vs coverage trade-offs.
+    Examples
+    --------
+    >>> result = precision_recall_result
+    >>> print(result.summary())
+    >>> df = result.get_dataframe()
+    """
+    analysis_type: str = Field(default="barrier_precision_recall", frozen=True)
+    # ==========================================================================
+    # Configuration
+    # ==========================================================================
+    n_quantiles: int = Field(
+        ...,
+        description="Number of quantiles used",
+    )
+    quantile_labels: list[str] = Field(
+        ...,
+        description="Labels for each quantile (e.g., ['D1', 'D2', ..., 'D10'])",
+    )
+    # ==========================================================================
+    # Precision by Quantile (TP-focused)
+    # ==========================================================================
+    precision_tp: dict[str, float] = Field(
+        ...,
+        description="Precision for TP: P(TP | in quantile) = TP count / total in quantile",
+    )
+    # ==========================================================================
+    # Recall by Quantile (TP-focused)
+    # ==========================================================================
+    recall_tp: dict[str, float] = Field(
+        ...,
+        description="Recall for TP: P(in quantile | TP) = TP in quantile / all TP",
+    )
+    # ==========================================================================
+    # Cumulative Metrics (from top quantile down)
+    # ==========================================================================
+    cumulative_precision_tp: dict[str, float] = Field(
+        ...,
+        description="Cumulative precision: P(TP | in top k quantiles)",
+    )
+    cumulative_recall_tp: dict[str, float] = Field(
+        ...,
+        description="Cumulative recall: P(in top k quantiles | TP)",
+    )
+    cumulative_f1_tp: dict[str, float] = Field(
+        ...,
+        description="Cumulative F1 score: 2 * (precision * recall) / (precision + recall)",
+    )
+    # ==========================================================================
+    # Lift Metrics
+    # ==========================================================================
+    lift_tp: dict[str, float] = Field(
+        ...,
+        description="Lift for TP: precision / baseline TP rate",
+    )
+    cumulative_lift_tp: dict[str, float] = Field(
+        ...,
+        description="Cumulative lift for TP",
+    )
+    # ==========================================================================
+    # Baseline
+    # ==========================================================================
+    baseline_tp_rate: float = Field(
+        ...,
+        description="Baseline TP rate (overall TP count / total)",
+    )
+    total_tp_count: int = Field(
+        ...,
+        description="Total number of TP outcomes",
+    )
+    n_observations: int = Field(
+        ...,
+        description="Total number of observations",
+    )
+    # ==========================================================================
+    # Best Operating Point
+    # ==========================================================================
+    best_f1_quantile: str = Field(
+        ...,
+        description="Quantile with best cumulative F1 score",
+    )
+    best_f1_score: float = Field(
+        ...,
+        description="Best cumulative F1 score achieved",
+    )
+    # ==========================================================================
+    # Validation
+    # ==========================================================================
+    @model_validator(mode="after")
+    def _validate_quantile_keys(self) -> PrecisionRecallResult:
+        """Validate that all quantile-keyed dicts have consistent keys."""
+        if self.n_quantiles != len(self.quantile_labels):
+            raise ValueError(
+                f"n_quantiles ({self.n_quantiles}) != len(quantile_labels) ({len(self.quantile_labels)})"
+            )
+        _validate_quantile_dict_keys(
+            self.quantile_labels,
+            [
+                ("precision_tp", self.precision_tp),
+                ("recall_tp", self.recall_tp),
+                ("cumulative_precision_tp", self.cumulative_precision_tp),
+                ("cumulative_recall_tp", self.cumulative_recall_tp),
+                ("cumulative_f1_tp", self.cumulative_f1_tp),
+                ("lift_tp", self.lift_tp),
+                ("cumulative_lift_tp", self.cumulative_lift_tp),
+            ],
+        )
+        return self
+    def get_dataframe(self, name: str | None = None) -> pl.DataFrame:
+        """Get results as Polars DataFrame.
+        Parameters
+        ----------
+        name : str | None
+            DataFrame to retrieve:
+            - None or "precision_recall": Per-quantile metrics
+            - "cumulative": Cumulative metrics from top down
+            - "summary": Summary statistics
+        Returns
+        -------
+        pl.DataFrame
+            Requested DataFrame
+        """
+        if name is None or name == "precision_recall":
+            return pl.DataFrame(
+                {
+                    "quantile": self.quantile_labels,
+                    "precision_tp": [self.precision_tp[q] for q in self.quantile_labels],
+                    "recall_tp": [self.recall_tp[q] for q in self.quantile_labels],
+                    "lift_tp": [self.lift_tp[q] for q in self.quantile_labels],
+                }
+            )
+        if name == "cumulative":
+            return pl.DataFrame(
+                {
+                    "quantile": self.quantile_labels,
+                    "cumulative_precision_tp": [
+                        self.cumulative_precision_tp[q] for q in self.quantile_labels
+                    ],
+                    "cumulative_recall_tp": [
+                        self.cumulative_recall_tp[q] for q in self.quantile_labels
+                    ],
+                    "cumulative_f1_tp": [self.cumulative_f1_tp[q] for q in self.quantile_labels],
+                    "cumulative_lift_tp": [
+                        self.cumulative_lift_tp[q] for q in self.quantile_labels
+                    ],
+                }
+            )
+        if name == "summary":
+            return pl.DataFrame(
+                {
+                    "metric": [
+                        "n_observations",
+                        "n_quantiles",
+                        "total_tp_count",
+                        "baseline_tp_rate",
+                        "best_f1_quantile",
+                        "best_f1_score",
+                    ],
+                    "value": [
+                        float(self.n_observations),
+                        float(self.n_quantiles),
+                        float(self.total_tp_count),
+                        self.baseline_tp_rate,
+                        self.best_f1_quantile,
+                        self.best_f1_score,
+                    ],
+                }
+            )
+        raise ValueError(
+            f"Unknown DataFrame name: {name}. Available: 'precision_recall', 'cumulative', 'summary'"
+        )
+    def list_available_dataframes(self) -> list[str]:
+        """List available DataFrame views."""
+        return ["precision_recall", "cumulative", "summary"]
+    def summary(self) -> str:
+        """Get human-readable summary of precision/recall results."""
+        lines = [
+            "=" * 60,
+            "Barrier Precision/Recall Analysis (TP-focused)",
+            "=" * 60,
+            "",
+            f"Observations:      {self.n_observations:>10,}",
+            f"Total TP Count:    {self.total_tp_count:>10,}",
+            f"Baseline TP Rate:  {self.baseline_tp_rate:>10.1%}",
+            "",
+            f"Best F1 Score:     {self.best_f1_score:>10.4f} (at {self.best_f1_quantile})",
+            "",
+            "-" * 60,
+            "Per-Quantile Metrics:",
+            "-" * 60,
+            f"{'Quantile':<10} {'Precision':>10} {'Recall':>10} {'Lift':>8}",
+        ]
+        for q in self.quantile_labels:
+            lines.append(
+                f"{q:<10} {self.precision_tp[q]:>10.1%} {self.recall_tp[q]:>10.1%} "
+                f"{self.lift_tp[q]:>8.2f}x"
+            )
+        lines.append("")
+        lines.append("-" * 60)
+        lines.append("Cumulative Metrics (from top quantile):")
+        lines.append("-" * 60)
+        lines.append(f"{'Quantile':<10} {'Cum Prec':>10} {'Cum Recall':>10} {'Cum F1':>10}")
+        for q in self.quantile_labels:
+            lines.append(
+                f"{q:<10} {self.cumulative_precision_tp[q]:>10.1%} "
+                f"{self.cumulative_recall_tp[q]:>10.1%} {self.cumulative_f1_tp[q]:>10.4f}"
+            )
+        return "\n".join(lines)