PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/integration/backtest_contract.py ADDED Viewed

@@ -0,0 +1,671 @@
+"""ML4T Backtest integration contract for backtest evaluation and comparison.
+This module defines the API contract between ML4T Diagnostic and ML4T Backtest for:
+1. Exporting evaluation results to backtest storage
+2. Comparing live vs backtest performance (Bayesian comparison)
+3. Supporting paper vs live promotion workflows
+Example workflow - Backtest evaluation export:
+    >>> from ml4t.diagnostic.evaluation import PortfolioEvaluator
+    >>> from ml4t.diagnostic.integration import EvaluationExport
+    >>>
+    >>> # 1. Evaluate backtest results
+    >>> evaluator = PortfolioEvaluator(config)
+    >>> results = evaluator.evaluate(returns_df)
+    >>>
+    >>> # 2. Export for ML4T Backtest storage
+    >>> export = results.to_backtest_export(
+    ...     strategy_id="momentum_v1",
+    ...     environment="backtest"
+    ... )
+    >>>
+    >>> # 3. Store in ML4T Backtest database
+    >>> # backtest_engine.store_evaluation(export.to_dict())
+Example workflow - Live vs Backtest comparison:
+    >>> from ml4t.diagnostic.integration import ComparisonRequest
+    >>>
+    >>> # 1. Create comparison request
+    >>> request = ComparisonRequest(
+    ...     strategy_id="momentum_v1",
+    ...     backtest_results=backtest_results.to_dict(),
+    ...     live_results=live_results.to_dict(),
+    ...     comparison_type="bayesian"
+    ... )
+    >>>
+    >>> # 2. Run Bayesian comparison
+    >>> from ml4t.diagnostic.evaluation import BayesianComparison
+    >>> comparison = BayesianComparison.from_request(request)
+    >>> result = comparison.compare()
+"""
+from __future__ import annotations
+from datetime import UTC, datetime, timedelta
+from enum import Enum
+from typing import Any, Literal
+from pydantic import BaseModel, Field, field_validator, model_validator
+class EnvironmentType(str, Enum):
+    """Strategy execution environment.
+    - BACKTEST: Historical simulation
+    - PAPER: Forward testing with simulated execution
+    - LIVE: Real trading with real capital
+    """
+    BACKTEST = "backtest"
+    PAPER = "paper"
+    LIVE = "live"
+class ComparisonType(str, Enum):
+    """Type of performance comparison.
+    - BAYESIAN: Bayesian hypothesis testing (recommended)
+    - BOOTSTRAP: Bootstrap confidence intervals
+    - PARAMETRIC: T-test and F-test (assumes normality)
+    - CUSUM: CUSUM drift detection
+    """
+    BAYESIAN = "bayesian"
+    BOOTSTRAP = "bootstrap"
+    PARAMETRIC = "parametric"
+    CUSUM = "cusum"
+class TradeRecord(BaseModel):
+    """Individual trade record for trade-level SHAP diagnostics.
+    This schema represents a single completed trade from a backtest or live trading.
+    Used by ml4t-diagnostics for trade-level analysis, SHAP attribution, and
+    error pattern clustering.
+    The schema supports both simple (single-leg) and complex (multi-leg) trades,
+    with optional metadata for regime detection and classification.
+    Required Fields:
+        timestamp: Trade exit timestamp (when position was closed)
+        symbol: Asset symbol (e.g., "AAPL", "BTC-USD")
+        entry_price: Average entry price
+        exit_price: Average exit price
+        pnl: Realized profit/loss (in quote currency)
+        duration: Time between entry and exit
+    Optional Fields:
+        direction: Trade direction (long/short)
+        metadata: Arbitrary metadata (e.g., entry signals, regime info)
+        regime_info: Market regime at time of trade
+        quantity: Position size
+        entry_timestamp: When position was opened
+        fees: Total transaction fees
+        slippage: Estimated or actual slippage
+    Validation:
+        - PnL consistency with prices (for long/short trades)
+        - Duration is positive
+        - Prices are positive
+        - Timestamps are valid
+    Example - Simple long trade:
+        >>> from datetime import datetime, timedelta
+        >>> trade = TradeRecord(
+        ...     timestamp=datetime(2024, 1, 15, 10, 30),
+        ...     symbol="AAPL",
+        ...     entry_price=150.00,
+        ...     exit_price=155.00,
+        ...     pnl=500.00,  # (155-150) * 100 shares
+        ...     duration=timedelta(days=5),
+        ...     direction="long",
+        ...     quantity=100
+        ... )
+    Example - Short trade with metadata:
+        >>> trade = TradeRecord(
+        ...     timestamp=datetime(2024, 2, 1, 14, 0),
+        ...     symbol="BTC-USD",
+        ...     entry_price=45000.0,
+        ...     exit_price=44000.0,
+        ...     pnl=1000.0,  # (45000-44000) * 1 BTC
+        ...     duration=timedelta(hours=6),
+        ...     direction="short",
+        ...     quantity=1.0,
+        ...     metadata={
+        ...         "entry_signal": "momentum_reversal",
+        ...         "volatility_regime": "high",
+        ...         "market_regime": "trending_down"
+        ...     },
+        ...     fees=50.0,
+        ...     slippage=20.0
+        ... )
+    Example - For SHAP diagnostics workflow:
+        >>> # 1. Extract worst trades from backtest
+        >>> worst_trades = [t for t in all_trades if t.pnl < threshold]
+        >>>
+        >>> # 2. Analyze with SHAP
+        >>> from ml4t.diagnostic.evaluation import TradeShapAnalyzer
+        >>> analyzer = TradeShapAnalyzer(model, features)
+        >>> patterns = analyzer.explain_worst_trades(worst_trades)
+        >>>
+        >>> # 3. Get actionable hypotheses
+        >>> for pattern in patterns:
+        ...     print(pattern.hypothesis)
+        ...     print(pattern.actions)
+    """
+    # Required fields
+    timestamp: datetime = Field(
+        ...,
+        description="Trade exit timestamp (when position was closed)",
+    )
+    symbol: str = Field(
+        ...,
+        min_length=1,
+        description="Asset symbol (e.g., 'AAPL', 'BTC-USD', 'ES_F')",
+    )
+    entry_price: float = Field(
+        ...,
+        gt=0.0,
+        description="Average entry price (must be positive)",
+    )
+    exit_price: float = Field(
+        ...,
+        gt=0.0,
+        description="Average exit price (must be positive)",
+    )
+    pnl: float = Field(
+        ...,
+        description="Realized profit/loss in quote currency (can be negative)",
+    )
+    duration: timedelta = Field(
+        ...,
+        description="Time between entry and exit (must be positive)",
+    )
+    # Optional fields
+    direction: Literal["long", "short"] | None = Field(
+        None,
+        description="Trade direction (long=buy then sell, short=sell then buy)",
+    )
+    metadata: dict[str, Any] | None = Field(
+        None,
+        description="Arbitrary metadata (signals, regime info, stop loss triggers, etc.)",
+    )
+    regime_info: dict[str, str] | None = Field(
+        None,
+        description="Market regime at trade time (e.g., {'volatility': 'high', 'trend': 'up'})",
+    )
+    quantity: float | None = Field(
+        None,
+        gt=0.0,
+        description="Position size (number of shares/contracts/coins)",
+    )
+    entry_timestamp: datetime | None = Field(
+        None,
+        description="Position entry timestamp (if available)",
+    )
+    fees: float | None = Field(
+        None,
+        ge=0.0,
+        description="Total transaction fees (commissions + exchange fees)",
+    )
+    slippage: float | None = Field(
+        None,
+        ge=0.0,
+        description="Estimated or actual slippage cost",
+    )
+    @field_validator("duration")
+    @classmethod
+    def validate_duration_positive(cls, v: timedelta) -> timedelta:
+        """Ensure duration is positive."""
+        if v.total_seconds() <= 0:
+            raise ValueError(f"Duration must be positive, got {v}")
+        return v
+    @model_validator(mode="after")
+    def validate_pnl_consistency(self) -> TradeRecord:
+        """Validate PnL is consistent with prices and direction.
+        For trades with known direction and quantity, verify that the PnL
+        calculation matches the price difference.
+        Allows for small discrepancies due to fees and slippage.
+        """
+        if self.direction is None or self.quantity is None:
+            # Cannot validate without direction and quantity
+            return self
+        # Calculate expected PnL from price difference
+        price_diff = self.exit_price - self.entry_price
+        if self.direction == "long":
+            expected_pnl = price_diff * self.quantity
+        else:  # short
+            expected_pnl = -price_diff * self.quantity
+        # Account for fees and slippage
+        total_costs = (self.fees or 0.0) + (self.slippage or 0.0)
+        expected_pnl -= total_costs
+        # Allow 1% tolerance for rounding and other small discrepancies
+        tolerance = abs(expected_pnl) * 0.01 + 0.01  # Minimum 1 cent tolerance
+        actual_diff = abs(self.pnl - expected_pnl)
+        if actual_diff > tolerance:
+            raise ValueError(
+                f"PnL inconsistent with prices. "
+                f"Expected ~{expected_pnl:.2f} (from prices), got {self.pnl:.2f}. "
+                f"Difference: {actual_diff:.2f}, tolerance: {tolerance:.2f}. "
+                f"Check direction, quantity, fees, or slippage."
+            )
+        return self
+    @model_validator(mode="after")
+    def validate_timestamps(self) -> TradeRecord:
+        """Validate timestamp ordering if entry_timestamp provided."""
+        if self.entry_timestamp is not None:
+            if self.entry_timestamp >= self.timestamp:
+                raise ValueError(
+                    f"Entry timestamp ({self.entry_timestamp}) must be before exit timestamp ({self.timestamp})"
+                )
+            # Verify duration matches timestamps
+            calculated_duration = self.timestamp - self.entry_timestamp
+            # Allow 1 second tolerance for rounding
+            if abs((calculated_duration - self.duration).total_seconds()) > 1.0:
+                raise ValueError(
+                    f"Duration ({self.duration}) inconsistent with timestamps. "
+                    f"Calculated: {calculated_duration} from entry/exit timestamps."
+                )
+        return self
+    def to_dict(self) -> dict[str, Any]:
+        """Export to dictionary format for storage.
+        Returns:
+            Dictionary with all trade data, suitable for JSON serialization
+        Example:
+            >>> trade.to_dict()
+            {
+                'timestamp': '2024-01-15T10:30:00',
+                'symbol': 'AAPL',
+                'entry_price': 150.0,
+                'exit_price': 155.0,
+                'pnl': 500.0,
+                'duration': 432000.0,  # seconds
+                'direction': 'long',
+                ...
+            }
+        """
+        data = self.model_dump(mode="json")
+        # Convert timedelta to total seconds for JSON compatibility
+        if "duration" in data:
+            data["duration"] = self.duration.total_seconds()
+        return data
+    @classmethod
+    def from_dict(cls, data: dict[str, Any]) -> TradeRecord:
+        """Create TradeRecord from dictionary.
+        Args:
+            data: Dictionary with trade data (from to_dict() or ML4T Backtest)
+        Returns:
+            TradeRecord instance
+        Example:
+            >>> data = {
+            ...     'timestamp': '2024-01-15T10:30:00',
+            ...     'symbol': 'AAPL',
+            ...     'entry_price': 150.0,
+            ...     'exit_price': 155.0,
+            ...     'pnl': 500.0,
+            ...     'duration': 432000.0  # seconds
+            ... }
+            >>> trade = TradeRecord.from_dict(data)
+        """
+        # Convert duration from seconds if needed
+        if "duration" in data and isinstance(data["duration"], int | float):
+            data["duration"] = timedelta(seconds=data["duration"])
+        return cls(**data)
+class StrategyMetadata(BaseModel):
+    """Metadata about the strategy being evaluated.
+    This provides context for ML4T Backtest to track evaluations across
+    different versions, environments, and time periods.
+    Attributes:
+        strategy_id: Unique strategy identifier (e.g., "momentum_v1")
+        version: Strategy version (e.g., "1.2.3")
+        environment: Execution environment (backtest/paper/live)
+        start_date: Evaluation period start
+        end_date: Evaluation period end
+        config_hash: Hash of strategy configuration for reproducibility
+        description: Optional human-readable description
+    Example:
+        >>> metadata = StrategyMetadata(
+        ...     strategy_id="momentum_rsi",
+        ...     version="1.0.0",
+        ...     environment=EnvironmentType.BACKTEST,
+        ...     start_date=datetime(2020, 1, 1),
+        ...     end_date=datetime(2023, 12, 31)
+        ... )
+    """
+    strategy_id: str = Field(..., description="Unique strategy identifier")
+    version: str | None = Field(None, description="Strategy version (semver)")
+    environment: EnvironmentType = Field(..., description="Execution environment")
+    start_date: datetime = Field(..., description="Evaluation period start")
+    end_date: datetime = Field(..., description="Evaluation period end")
+    config_hash: str | None = Field(None, description="Strategy config hash for reproducibility")
+    description: str | None = Field(None, description="Human-readable description")
+    tags: dict[str, str] | None = Field(
+        None, description="Optional tags (e.g., {'asset_class': 'crypto'})"
+    )
+class EvaluationExport(BaseModel):
+    """Complete evaluation results for ML4T Backtest storage.
+    This is the primary export format for storing ML4T Diagnostic results in
+    ML4T Backtest's database. Contains all metrics, metadata, and diagnostics.
+    Attributes:
+        metadata: Strategy metadata (ID, version, environment)
+        metrics: Core performance metrics (Sharpe, CAGR, drawdown, etc.)
+        diagnostics: Optional diagnostic results (stationarity, correlation, etc.)
+        sharpe_framework: Optional enhanced Sharpe results (PSR, DSR, etc.)
+        timestamp: Evaluation timestamp (UTC)
+        diagnostic_version: ML4T Diagnostic library version for compatibility tracking
+    Example:
+        >>> export = EvaluationExport(
+        ...     metadata=metadata,
+        ...     metrics={
+        ...         "sharpe_ratio": 1.85,
+        ...         "cagr": 0.24,
+        ...         "max_drawdown": -0.18
+        ...     },
+        ...     timestamp=datetime.utcnow()
+        ... )
+        >>> backtest_engine.store_evaluation(export.to_dict())
+    """
+    metadata: StrategyMetadata = Field(..., description="Strategy metadata")
+    metrics: dict[str, float] = Field(..., description="Core performance metrics")
+    diagnostics: dict[str, dict] | None = Field(None, description="Optional diagnostic results")
+    sharpe_framework: dict[str, float] | None = Field(
+        None, description="Enhanced Sharpe results (PSR, DSR, MinTRL)"
+    )
+    timestamp: datetime = Field(
+        default_factory=lambda: datetime.now(tz=UTC),
+        description="Evaluation timestamp (UTC)",
+    )
+    diagnostic_version: str | None = Field(
+        None, description="ML4T Diagnostic version for compatibility"
+    )
+    def to_dict(self) -> dict:
+        """Export to ML4T Backtest-compatible dictionary format.
+        Returns dictionary suitable for JSON serialization and storage
+        in ML4T Backtest's database.
+        Returns:
+            Dictionary with all evaluation data
+        Example:
+            >>> export.to_dict()
+            {
+                'metadata': {
+                    'strategy_id': 'momentum_v1',
+                    'environment': 'backtest',
+                    ...
+                },
+                'metrics': {...},
+                'timestamp': '2024-11-03T12:00:00Z'
+            }
+        """
+        return self.model_dump(mode="json")
+    def to_json(self) -> str:
+        """Export to JSON string for storage.
+        Returns:
+            JSON string representation
+        Example:
+            >>> json_str = export.to_json()
+            >>> # Store in database or file
+            >>> with open('evaluation.json', 'w') as f:
+            ...     f.write(json_str)
+        """
+        return self.model_dump_json(indent=2)
+class ComparisonRequest(BaseModel):
+    """Request for comparing performance across environments.
+    Used for Bayesian comparison of live vs backtest, or paper vs backtest.
+    ML4T Diagnostic uses this to determine if live performance matches expectations.
+    Attributes:
+        strategy_id: Strategy being compared
+        backtest_export: Backtest evaluation results
+        live_export: Live/paper evaluation results
+        comparison_type: Type of statistical comparison
+        confidence_level: Confidence level for tests (default: 0.95)
+        hypothesis: Hypothesis being tested
+    Example:
+        >>> request = ComparisonRequest(
+        ...     strategy_id="momentum_v1",
+        ...     backtest_export=backtest_results,
+        ...     live_export=live_results,
+        ...     comparison_type=ComparisonType.BAYESIAN,
+        ...     hypothesis="live >= backtest"
+        ... )
+    """
+    strategy_id: str = Field(..., description="Strategy identifier")
+    backtest_export: EvaluationExport = Field(..., description="Backtest evaluation")
+    live_export: EvaluationExport = Field(..., description="Live/paper evaluation")
+    comparison_type: ComparisonType = Field(
+        ComparisonType.BAYESIAN, description="Type of comparison"
+    )
+    confidence_level: float = Field(0.95, ge=0.5, le=0.99, description="Confidence level")
+    hypothesis: str | None = Field(None, description="Hypothesis (e.g., 'live >= backtest')")
+class ComparisonResult(BaseModel):
+    """Result of live vs backtest comparison.
+    Contains statistical evidence for whether live performance matches
+    backtest expectations. Used for paper-to-live promotion decisions.
+    Attributes:
+        strategy_id: Strategy being compared
+        comparison_type: Type of comparison performed
+        decision: Recommendation (PROMOTE, REJECT, UNCERTAIN)
+        confidence: Confidence in decision [0.0, 1.0]
+        metrics_comparison: Comparison of key metrics
+        statistical_tests: Statistical test results
+        bayesian_evidence: Optional Bayesian evidence (if Bayesian comparison)
+        recommendation: Human-readable recommendation
+        timestamp: Comparison timestamp
+    Example:
+        >>> result = ComparisonResult(
+        ...     strategy_id="momentum_v1",
+        ...     comparison_type=ComparisonType.BAYESIAN,
+        ...     decision="PROMOTE",
+        ...     confidence=0.92,
+        ...     metrics_comparison={
+        ...         "sharpe_ratio": {"backtest": 1.85, "live": 1.72, "diff": -0.13}
+        ...     },
+        ...     recommendation="Live performance consistent with backtest"
+        ... )
+    """
+    strategy_id: str = Field(..., description="Strategy identifier")
+    comparison_type: ComparisonType = Field(..., description="Comparison type")
+    decision: str = Field(..., description="Decision (PROMOTE, REJECT, UNCERTAIN, MONITOR)")
+    confidence: float = Field(..., ge=0.0, le=1.0, description="Confidence in decision")
+    metrics_comparison: dict[str, dict[str, float]] = Field(
+        ..., description="Comparison of metrics (backtest vs live)"
+    )
+    statistical_tests: dict[str, dict] = Field(..., description="Statistical test results")
+    bayesian_evidence: dict[str, float] | None = Field(
+        None, description="Bayesian evidence (BF, posterior prob)"
+    )
+    recommendation: str = Field(..., description="Human-readable recommendation")
+    timestamp: datetime = Field(
+        default_factory=lambda: datetime.now(tz=UTC), description="Comparison timestamp"
+    )
+    warnings: list[str] | None = Field(None, description="Optional warnings")
+    def to_dict(self) -> dict:
+        """Export to dictionary format.
+        Returns:
+            Dictionary with comparison results
+        Example:
+            >>> result.to_dict()
+            {
+                'strategy_id': 'momentum_v1',
+                'decision': 'PROMOTE',
+                'confidence': 0.92,
+                ...
+            }
+        """
+        return self.model_dump(mode="json")
+    def summary(self) -> str:
+        """Human-readable summary of comparison.
+        Returns:
+            Formatted summary string
+        Example:
+            >>> print(result.summary())
+            Strategy Comparison: momentum_v1
+            ================================
+            Decision: PROMOTE (confidence: 0.92)
+            Metrics Comparison:
+              Sharpe Ratio: 1.85 (BT) → 1.72 (Live) [Δ=-0.13]
+            Recommendation: Live performance consistent with backtest
+        """
+        lines = [f"Strategy Comparison: {self.strategy_id}", "=" * 50]
+        lines.append(f"Decision: {self.decision} (confidence: {self.confidence:.2f})")
+        lines.append("")
+        # Metrics comparison
+        lines.append("Metrics Comparison:")
+        for metric, values in self.metrics_comparison.items():
+            bt = values.get("backtest", 0)
+            live = values.get("live", 0)
+            diff = values.get("diff", 0)
+            metric_name = metric.replace("_", " ").title()
+            lines.append(f"  {metric_name}: {bt:.3f} (BT) → {live:.3f} (Live) [Δ={diff:+.3f}]")
+        lines.append("")
+        lines.append(f"Recommendation: {self.recommendation}")
+        # Warnings
+        if self.warnings:
+            lines.append("")
+            lines.append("Warnings:")
+            for warning in self.warnings:
+                lines.append(f"  ⚠️  {warning}")
+        return "\n".join(lines)
+class PromotionWorkflow(BaseModel):
+    """Paper-to-live promotion workflow configuration.
+    Defines the criteria and process for promoting a strategy from
+    paper trading to live trading based on evaluation results.
+    Attributes:
+        strategy_id: Strategy being promoted
+        paper_duration_days: Minimum paper trading duration
+        promotion_criteria: Required conditions for promotion
+        approval_required: Whether human approval is needed
+        risk_limits: Risk limits for live trading
+    Example:
+        >>> workflow = PromotionWorkflow(
+        ...     strategy_id="momentum_v1",
+        ...     paper_duration_days=30,
+        ...     promotion_criteria={
+        ...         "min_sharpe": 1.5,
+        ...         "max_drawdown": -0.15,
+        ...         "min_trades": 100,
+        ...         "bayesian_confidence": 0.90
+        ...     },
+        ...     approval_required=True
+        ... )
+    """
+    strategy_id: str = Field(..., description="Strategy identifier")
+    paper_duration_days: int = Field(..., ge=1, description="Minimum paper trading days")
+    promotion_criteria: dict[str, float] = Field(
+        ..., description="Required conditions for promotion"
+    )
+    approval_required: bool = Field(True, description="Whether human approval needed")
+    risk_limits: dict[str, float] | None = Field(None, description="Risk limits for live trading")
+    def evaluate_promotion(self, comparison_result: ComparisonResult) -> bool:
+        """Evaluate if promotion criteria are met.
+        Args:
+            comparison_result: Result of paper vs backtest comparison
+        Returns:
+            True if promotion criteria satisfied
+        Example:
+            >>> workflow.evaluate_promotion(comparison_result)
+            True  # Ready for promotion
+        """
+        # Check decision
+        if comparison_result.decision != "PROMOTE":
+            return False
+        # Check confidence
+        min_confidence = self.promotion_criteria.get("bayesian_confidence", 0.9)
+        if comparison_result.confidence < min_confidence:
+            return False
+        # Check metrics
+        for metric, threshold in self.promotion_criteria.items():
+            if metric in comparison_result.metrics_comparison:
+                comparison_result.metrics_comparison[metric].get("live", 0)
+                if metric.startswith("min_"):
+                    metric_name = metric[4:]  # Remove 'min_' prefix
+                    if metric_name in comparison_result.metrics_comparison and (
+                        comparison_result.metrics_comparison[metric_name]["live"] < threshold
+                    ):
+                        return False
+                elif metric.startswith("max_"):
+                    metric_name = metric[4:]  # Remove 'max_' prefix
+                    if metric_name in comparison_result.metrics_comparison and (
+                        comparison_result.metrics_comparison[metric_name]["live"] > threshold
+                    ):
+                        return False
+        return True