PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/trade_shap/explain.py ADDED Viewed

@@ -0,0 +1,208 @@
+"""Trade SHAP explanation logic.
+This module provides the TradeShapExplainer class that explains individual trades
+using SHAP values, with O(log n) timestamp alignment and efficient feature extraction.
+"""
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
+import numpy as np
+from ml4t.diagnostic.evaluation.trade_shap.alignment import TimestampAligner
+from ml4t.diagnostic.evaluation.trade_shap.models import (
+    TradeExplainFailure,
+    TradeShapExplanation,
+)
+if TYPE_CHECKING:
+    import polars as pl
+    from numpy.typing import NDArray
+    from ml4t.diagnostic.evaluation.trade_analysis import TradeMetrics
+class TradeShapExplainer:
+    """Explains individual trades using SHAP values.
+    Uses TimestampAligner for O(log n) timestamp lookup and extracts
+    feature values in a single row read for efficiency.
+    Returns TradeExplainFailure for expected failure cases instead of
+    throwing exceptions, enabling clean batch processing.
+    Attributes:
+        features_df: Polars DataFrame with timestamp and feature columns
+        shap_values: 2D numpy array of SHAP values (n_samples x n_features)
+        feature_names: List of feature column names
+        aligner: TimestampAligner for fast timestamp lookup
+        top_n_features: Number of top features to include in explanation
+    Example:
+        >>> explainer = TradeShapExplainer(
+        ...     features_df=features,
+        ...     shap_values=shap_values,
+        ...     feature_names=feature_names,
+        ...     tolerance_seconds=60.0,
+        ... )
+        >>> result = explainer.explain(trade)
+        >>> if isinstance(result, TradeShapExplanation):
+        ...     print(result.top_features[:3])
+        ... else:
+        ...     print(f"Failed: {result.reason}")
+    """
+    def __init__(
+        self,
+        features_df: pl.DataFrame,
+        shap_values: NDArray[np.floating[Any]],
+        feature_names: list[str],
+        tolerance_seconds: float = 0.0,
+        top_n_features: int | None = None,
+        alignment_mode: str = "entry",
+        missing_value_strategy: str = "skip",
+    ) -> None:
+        """Initialize the explainer.
+        Args:
+            features_df: Polars DataFrame with 'timestamp' column and feature columns
+            shap_values: SHAP values array (n_samples x n_features)
+            feature_names: List of feature column names matching shap_values columns
+            tolerance_seconds: Maximum seconds for nearest-match alignment (0 = exact only)
+            top_n_features: Number of top features to include (None = all)
+            alignment_mode: 'entry' for exact match, 'nearest' for closest within tolerance
+            missing_value_strategy: How to handle alignment failures ('error', 'skip', 'zero')
+        Raises:
+            ValueError: If shap_values shape doesn't match features_df rows or feature_names
+        """
+        self.features_df = features_df
+        self.shap_values = shap_values
+        self.feature_names = feature_names
+        self.top_n_features = top_n_features
+        self.alignment_mode = alignment_mode
+        self.missing_value_strategy = missing_value_strategy
+        # Validate shapes
+        n_rows = len(features_df)
+        n_features = len(feature_names)
+        if shap_values.shape[0] != n_rows:
+            raise ValueError(
+                f"SHAP values rows ({shap_values.shape[0]}) != features_df rows ({n_rows})"
+            )
+        if shap_values.shape[1] != n_features:
+            raise ValueError(
+                f"SHAP values columns ({shap_values.shape[1]}) != feature_names ({n_features})"
+            )
+        # Build aligner with appropriate tolerance
+        timestamps = features_df["timestamp"].to_list()
+        effective_tolerance = tolerance_seconds if alignment_mode == "nearest" else 0.0
+        self.aligner = TimestampAligner.from_datetime_index(
+            timestamps, tolerance_seconds=effective_tolerance
+        )
+        # Cache feature data as numpy for fast row extraction
+        self._feature_matrix = features_df.select(feature_names).to_numpy()
+    def explain(
+        self,
+        trade: TradeMetrics,
+    ) -> TradeShapExplanation | TradeExplainFailure:
+        """Explain a single trade.
+        Args:
+            trade: Trade to explain (must have timestamp and symbol attributes)
+        Returns:
+            TradeShapExplanation on success, TradeExplainFailure on expected failures
+        """
+        trade_id = f"{trade.symbol}_{trade.timestamp.isoformat()}"
+        # Align to timestamp
+        result = self.aligner.align(trade.timestamp)
+        if result.index is None:
+            # Handle alignment failure based on strategy
+            if self.missing_value_strategy == "error":
+                raise ValueError(
+                    f"Cannot align SHAP values for trade {trade_id}: "
+                    f"no timestamp within {self.aligner.tolerance_seconds}s "
+                    f"(nearest is {result.distance_seconds:.1f}s away)"
+                )
+            elif self.missing_value_strategy == "zero":
+                # Return zero SHAP vector
+                shap_vector = np.zeros(len(self.feature_names))
+                feature_values = dict.fromkeys(self.feature_names, 0.0)
+                top_features = [(name, 0.0) for name in self.feature_names]
+                return TradeShapExplanation(
+                    trade_id=trade_id,
+                    timestamp=trade.timestamp,
+                    top_features=top_features,
+                    feature_values=feature_values,
+                    shap_vector=shap_vector,
+                )
+            else:  # "skip" or default
+                return TradeExplainFailure(
+                    trade_id=trade_id,
+                    timestamp=trade.timestamp,
+                    reason="alignment_missing",
+                    details={
+                        "alignment_mode": self.alignment_mode,
+                        "tolerance_seconds": self.aligner.tolerance_seconds,
+                        "distance_seconds": result.distance_seconds,
+                    },
+                )
+        idx = result.index
+        # Extract SHAP vector for this row
+        shap_vector = np.asarray(self.shap_values[idx, :], dtype=np.float64)
+        # Extract feature values in one row read (not per-feature loop)
+        feature_row = self._feature_matrix[idx, :]
+        feature_values = {
+            name: float(val) for name, val in zip(self.feature_names, feature_row, strict=True)
+        }
+        # Get top N contributors by absolute SHAP value
+        top_n = self.top_n_features if self.top_n_features is not None else len(self.feature_names)
+        # Create (feature_name, shap_value) pairs and sort by |shap|
+        feature_shap_pairs = list(zip(self.feature_names, shap_vector.tolist(), strict=True))
+        feature_shap_pairs.sort(key=lambda x: abs(x[1]), reverse=True)
+        top_features = [(name, float(val)) for name, val in feature_shap_pairs[:top_n]]
+        return TradeShapExplanation(
+            trade_id=trade_id,
+            timestamp=trade.timestamp,
+            top_features=top_features,
+            feature_values=feature_values,
+            shap_vector=shap_vector,
+        )
+    def explain_many(
+        self,
+        trades: list[TradeMetrics],
+    ) -> tuple[list[TradeShapExplanation], list[TradeExplainFailure]]:
+        """Explain multiple trades.
+        Args:
+            trades: List of trades to explain
+        Returns:
+            Tuple of (successful explanations, failures)
+        """
+        explanations: list[TradeShapExplanation] = []
+        failures: list[TradeExplainFailure] = []
+        for trade in trades:
+            result = self.explain(trade)
+            if isinstance(result, TradeShapExplanation):
+                explanations.append(result)
+            else:
+                failures.append(result)
+        return explanations, failures

ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py ADDED Viewed

@@ -0,0 +1,23 @@
+"""Hypothesis generation for trade SHAP error patterns.
+This package provides template-based hypothesis generation for explaining
+why trading patterns cause losses, with templates stored as YAML data.
+"""
+from ml4t.diagnostic.evaluation.trade_shap.hypotheses.generator import (
+    HypothesisConfig,
+    HypothesisGenerator,
+)
+from ml4t.diagnostic.evaluation.trade_shap.hypotheses.matcher import (
+    Template,
+    TemplateMatcher,
+    load_templates,
+)
+__all__ = [
+    "HypothesisGenerator",
+    "HypothesisConfig",
+    "TemplateMatcher",
+    "Template",
+    "load_templates",
+]

ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py ADDED Viewed

@@ -0,0 +1,290 @@
+"""Hypothesis generator for trade SHAP error patterns.
+Generates actionable hypotheses and improvement suggestions based on
+template matching against error pattern features.
+"""
+from __future__ import annotations
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any
+from ml4t.diagnostic.evaluation.trade_shap.hypotheses.matcher import (
+    TemplateMatcher,
+    load_templates,
+)
+if TYPE_CHECKING:
+    from ml4t.diagnostic.evaluation.trade_shap.models import ErrorPattern
+@dataclass
+class HypothesisConfig:
+    """Configuration for hypothesis generation.
+    Attributes:
+        template_library: Which template library to use ('comprehensive' or 'minimal')
+        min_confidence: Minimum confidence threshold for generating hypothesis
+        max_actions: Maximum number of actions to include
+    """
+    template_library: str = "comprehensive"
+    min_confidence: float = 0.5
+    max_actions: int = 4
+class HypothesisGenerator:
+    """Generates hypotheses for error patterns using template matching.
+    Matches error pattern features against a library of templates and
+    generates actionable hypotheses about why the pattern causes losses.
+    Attributes:
+        config: Hypothesis generation configuration
+        matcher: Template matcher
+    Example:
+        >>> generator = HypothesisGenerator()
+        >>> enriched = generator.generate_hypothesis(error_pattern)
+        >>> print(enriched.hypothesis)
+        >>> print(enriched.actions)
+    """
+    def __init__(self, config: HypothesisConfig | Any | None = None) -> None:
+        """Initialize generator.
+        Args:
+            config: Hypothesis configuration (uses defaults if None).
+                   Accepts HypothesisConfig dataclass or HypothesisGenerationConfig Pydantic model.
+        """
+        # Normalize config to HypothesisConfig dataclass
+        self.config = self._normalize_config(config)
+        # Load templates and create matcher
+        templates = load_templates(self.config.template_library)
+        self.matcher = TemplateMatcher(templates)
+    def _normalize_config(self, config: Any) -> HypothesisConfig:
+        """Normalize config to HypothesisConfig dataclass.
+        Supports both HypothesisConfig dataclass and HypothesisGenerationConfig Pydantic model.
+        """
+        if config is None:
+            return HypothesisConfig()
+        if isinstance(config, HypothesisConfig):
+            return config
+        # Handle Pydantic HypothesisGenerationConfig or similar
+        return HypothesisConfig(
+            template_library=getattr(config, "template_library", "comprehensive"),
+            min_confidence=getattr(config, "min_confidence", 0.5),
+            max_actions=getattr(config, "max_actions", 4),
+        )
+    def generate_hypothesis(
+        self,
+        error_pattern: ErrorPattern,
+        feature_names: list[str] | None = None,
+    ) -> ErrorPattern:
+        """Generate hypothesis for an error pattern.
+        Args:
+            error_pattern: Error pattern to analyze
+            feature_names: Optional list of all feature names for context
+        Returns:
+            ErrorPattern with hypothesis, actions, and confidence fields populated
+        """
+        from ml4t.diagnostic.evaluation.trade_shap.models import ErrorPattern
+        # Parse top_features into dict format for matcher
+        pattern_features = [
+            {
+                "name": feat[0],
+                "mean_shap": feat[1],
+                "p_value_t": feat[2],
+                "p_value_mw": feat[3],
+                "is_significant": feat[4],
+            }
+            for feat in error_pattern.top_features
+        ]
+        # Try to match a template
+        match_result = self.matcher.match(pattern_features)
+        if match_result is None or match_result.confidence < self.config.min_confidence:
+            # No good match - return pattern unchanged
+            return error_pattern
+        # Format hypothesis from template
+        hypothesis = self._format_hypothesis(
+            match_result.template.hypothesis_template,
+            match_result.matched_features,
+        )
+        # Get actions (limit to max)
+        actions = match_result.template.actions[: self.config.max_actions]
+        # Adjust confidence based on pattern characteristics
+        adjusted_confidence = self._adjust_confidence(
+            match_result.confidence,
+            error_pattern.n_trades,
+            error_pattern.separation_score,
+        )
+        # Return enriched pattern
+        return ErrorPattern(
+            cluster_id=error_pattern.cluster_id,
+            n_trades=error_pattern.n_trades,
+            description=error_pattern.description,
+            top_features=error_pattern.top_features,
+            separation_score=error_pattern.separation_score,
+            distinctiveness=error_pattern.distinctiveness,
+            hypothesis=hypothesis,
+            actions=actions,
+            confidence=adjusted_confidence,
+        )
+    def _format_hypothesis(
+        self,
+        template: str,
+        matched_features: list[dict[str, Any]],
+    ) -> str:
+        """Format hypothesis string from template.
+        Substitutes {feature} placeholder with actual feature name(s).
+        """
+        if not matched_features:
+            return template.replace("{feature}", "the feature")
+        # Use first matched feature name
+        feature_name = matched_features[0]["name"]
+        # If multiple significant features, mention them
+        sig_features = [f for f in matched_features if f["is_significant"]]
+        if len(sig_features) > 1:
+            names = [f["name"] for f in sig_features[:2]]
+            feature_name = " and ".join(names)
+        return template.replace("{feature}", feature_name)
+    def _adjust_confidence(
+        self,
+        base_confidence: float,
+        n_trades: int,
+        separation_score: float,
+    ) -> float:
+        """Adjust confidence based on pattern characteristics.
+        - More trades = higher confidence (larger sample)
+        - Higher separation = higher confidence (more distinct pattern)
+        - Very small samples or poor separation get significant penalties
+        """
+        # Trade count adjustment - penalize small samples heavily
+        if n_trades >= 20:
+            trade_boost = 0.05
+        elif n_trades >= 10:
+            trade_boost = 0.02
+        elif n_trades >= 5:
+            trade_boost = -0.10
+        elif n_trades >= 2:
+            trade_boost = -0.25
+        else:
+            # Single trade - very unreliable
+            trade_boost = -0.50
+        # Separation score adjustment - penalize poor cluster separation
+        if separation_score >= 1.5:
+            sep_boost = 0.05
+        elif separation_score >= 1.0:
+            sep_boost = 0.02
+        elif separation_score >= 0.5:
+            sep_boost = -0.20  # Moderate separation needs noticeable penalty
+        elif separation_score >= 0.3:
+            sep_boost = -0.35
+        else:
+            # Very poor separation - cluster is not distinct
+            sep_boost = -0.50
+        adjusted = base_confidence + trade_boost + sep_boost
+        return max(0.0, min(1.0, adjusted))
+    def generate_actions(
+        self,
+        error_pattern: ErrorPattern,
+        max_actions: int | None = None,
+    ) -> list[dict[str, Any]]:
+        """Generate prioritized action suggestions for an error pattern.
+        Args:
+            error_pattern: Error pattern with hypothesis
+            max_actions: Maximum actions to return (defaults to config)
+        Returns:
+            List of action dictionaries with category, description, priority, etc.
+        """
+        if max_actions is None:
+            max_actions = self.config.max_actions
+        if not error_pattern.actions:
+            return []
+        # Categorize and prioritize actions
+        categorized_actions = []
+        for i, action in enumerate(error_pattern.actions[:max_actions]):
+            # Determine category from action text
+            category = self._categorize_action(action)
+            # Priority based on position and confidence
+            priority = self._determine_priority(i, error_pattern.confidence)
+            categorized_actions.append(
+                {
+                    "category": category,
+                    "description": action,
+                    "priority": priority,
+                    "implementation_difficulty": self._estimate_difficulty(action),
+                    "rationale": f"Based on pattern: {error_pattern.description}",
+                }
+            )
+        return categorized_actions
+    def _categorize_action(self, action: str) -> str:
+        """Categorize an action based on its text."""
+        action_lower = action.lower()
+        if any(word in action_lower for word in ["feature", "indicator", "add"]):
+            return "feature_engineering"
+        elif any(word in action_lower for word in ["filter", "regime", "threshold"]):
+            return "filter_regime"
+        elif any(word in action_lower for word in ["size", "position", "stop", "risk"]):
+            return "risk_management"
+        elif any(word in action_lower for word in ["tune", "parameter", "adjust"]):
+            return "model_adjustment"
+        else:
+            return "general"
+    def _determine_priority(self, position: int, confidence: float | None) -> str:
+        """Determine action priority."""
+        conf = confidence or 0.5
+        if position == 0 and conf >= 0.7:
+            return "high"
+        elif position <= 1 and conf >= 0.5:
+            return "medium"
+        else:
+            return "low"
+    def _estimate_difficulty(self, action: str) -> str:
+        """Estimate implementation difficulty from action text."""
+        action_lower = action.lower()
+        if any(word in action_lower for word in ["implement", "hmm", "model", "ensemble"]):
+            return "hard"
+        elif any(word in action_lower for word in ["add", "consider", "track"]):
+            return "medium"
+        else:
+            return "easy"