PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/results/signal_results/validation.py ADDED Viewed

@@ -0,0 +1,147 @@
+"""Validation helper functions for signal result classes.
+This module provides utility functions for validating dictionary key consistency
+and normalizing period strings used in signal analysis results.
+References
+----------
+Lopez de Prado, M. (2018). "Advances in Financial Machine Learning"
+"""
+from __future__ import annotations
+from typing import Any
+def _validate_dict_keys_match(
+    data: dict[str, Any],
+    required_fields: list[str],
+    optional_fields: list[str] | None = None,
+    reference_field: str | None = None,
+) -> None:
+    """Validate that all dict fields share the same keys.
+    Parameters
+    ----------
+    data : dict
+        Model data dictionary.
+    required_fields : list[str]
+        Required dict field names that must all share the same keys.
+    optional_fields : list[str] | None
+        Optional dict field names that, if present and not None, must also share the same keys.
+    reference_field : str | None
+        Field to use as reference for key set. If None, uses first required field.
+    Raises
+    ------
+    ValueError
+        If any dict field has different keys than the reference.
+    """
+    if not required_fields:
+        return
+    ref_field = reference_field or required_fields[0]
+    ref_keys = set(data.get(ref_field, {}).keys())
+    if not ref_keys:
+        return  # Empty reference, nothing to validate
+    # Check required fields
+    for field in required_fields:
+        if field == ref_field:
+            continue
+        field_data = data.get(field)
+        if field_data is None:
+            raise ValueError(
+                f"Required field '{field}' is None but '{ref_field}' has keys: {ref_keys}"
+            )
+        field_keys = set(field_data.keys())
+        if field_keys != ref_keys:
+            missing = ref_keys - field_keys
+            extra = field_keys - ref_keys
+            raise ValueError(
+                f"Key mismatch in '{field}': "
+                f"missing={missing or 'none'}, extra={extra or 'none'} "
+                f"(reference: '{ref_field}')"
+            )
+    # Check optional fields (only if they exist and are not None)
+    for field in optional_fields or []:
+        field_data = data.get(field)
+        if field_data is None:
+            continue
+        field_keys = set(field_data.keys())
+        if field_keys != ref_keys:
+            missing = ref_keys - field_keys
+            extra = field_keys - ref_keys
+            raise ValueError(
+                f"Key mismatch in '{field}': "
+                f"missing={missing or 'none'}, extra={extra or 'none'} "
+                f"(reference: '{ref_field}')"
+            )
+def _normalize_period(period: int | str) -> str:
+    """Normalize period to canonical string format used internally.
+    Accepts:
+    - int: 21 -> "21D"
+    - str without suffix: "21" -> "21D"
+    - str with suffix: "21D" -> "21D"
+    Parameters
+    ----------
+    period : int | str
+        Period as integer or string, with or without 'D' suffix.
+    Returns
+    -------
+    str
+        Canonical period key with 'D' suffix (e.g., "21D").
+    Examples
+    --------
+    >>> _normalize_period(21)
+    '21D'
+    >>> _normalize_period('21')
+    '21D'
+    >>> _normalize_period('21D')
+    '21D'
+    """
+    if isinstance(period, int):
+        return f"{period}D"
+    period_str = str(period).strip()
+    if period_str.endswith("D"):
+        return period_str
+    return f"{period_str}D"
+def _figure_from_data(data: dict | str) -> Any:
+    """Convert figure data to Plotly Figure.
+    Handles both dict (direct) and JSON string formats transparently.
+    This fixes the type ambiguity where figures may be stored as either
+    Python dicts or JSON strings.
+    Parameters
+    ----------
+    data : dict | str
+        Figure data as Python dict or JSON string.
+    Returns
+    -------
+    plotly.graph_objects.Figure
+        Plotly Figure object.
+    """
+    import plotly.io as pio
+    if isinstance(data, str):
+        # Already JSON string
+        return pio.from_json(data)
+    elif isinstance(data, dict):
+        # Python dict - convert directly to Figure
+        import plotly.graph_objects as go
+        return go.Figure(data)
+    else:
+        raise TypeError(f"Expected dict or str for figure data, got {type(data)}")

ml4t/diagnostic/signal/AGENT.md ADDED Viewed

@@ -0,0 +1,17 @@
+# signal/ - Factor Signal Analysis
+Alphalens-style signal quality analysis.
+## Modules
+| File | Purpose |
+|------|---------|
+| core.py | `analyze_signal()` entry point |
+| result.py | `SignalResult` dataclass |
+| ic.py | IC computation |
+| quantile.py | Quantile returns, spread |
+| turnover.py | Turnover, autocorrelation |
+## Key Functions
+`analyze_signal()`, `compute_ic_series()`, `compute_quantile_returns()`, `compute_turnover()`

ml4t/diagnostic/signal/__init__.py ADDED Viewed

@@ -0,0 +1,69 @@
+"""Signal analysis for factor/alpha evaluation.
+This module provides tools for analyzing the predictive power of signals
+(factors) for future returns.
+Main Entry Point
+----------------
+analyze_signal : Compute IC, quantile returns, spread, and turnover
+    for a factor signal. This is the recommended way to use this module.
+Example
+-------
+>>> from ml4t.diagnostic.signal import analyze_signal
+>>> result = analyze_signal(factor_df, prices_df)
+>>> print(result.summary())
+>>> result.to_json("results.json")
+Building Blocks
+---------------
+For custom workflows, use the component functions:
+- prepare_data : Join factor with prices and compute forward returns
+- compute_ic_series : Compute IC time series
+- compute_quantile_returns : Compute returns by quantile
+- compute_turnover : Compute factor turnover rate
+- filter_outliers : Remove cross-sectional outliers
+- quantize_factor : Assign quantile labels
+"""
+from ml4t.diagnostic.signal._utils import (
+    QuantileMethod,
+    filter_outliers,
+    quantize_factor,
+)
+from ml4t.diagnostic.signal.core import analyze_signal, prepare_data
+from ml4t.diagnostic.signal.quantile import (
+    compute_monotonicity,
+    compute_quantile_returns,
+    compute_spread,
+)
+from ml4t.diagnostic.signal.result import SignalResult
+from ml4t.diagnostic.signal.signal_ic import compute_ic_series, compute_ic_summary
+from ml4t.diagnostic.signal.turnover import (
+    compute_autocorrelation,
+    compute_turnover,
+    estimate_half_life,
+)
+__all__ = [
+    # Main entry point
+    "analyze_signal",
+    "SignalResult",
+    # Data preparation
+    "prepare_data",
+    "filter_outliers",
+    "quantize_factor",
+    "QuantileMethod",
+    # IC functions
+    "compute_ic_series",
+    "compute_ic_summary",
+    # Quantile functions
+    "compute_quantile_returns",
+    "compute_spread",
+    "compute_monotonicity",
+    # Turnover functions
+    "compute_turnover",
+    "compute_autocorrelation",
+    "estimate_half_life",
+]

ml4t/diagnostic/signal/_report.py ADDED Viewed

@@ -0,0 +1,152 @@
+"""Report generation for signal analysis.
+Internal module for HTML report generation.
+"""
+from __future__ import annotations
+from typing import TYPE_CHECKING
+if TYPE_CHECKING:
+    from ml4t.diagnostic.signal.result import SignalResult
+def generate_html(result: SignalResult, path: str) -> None:
+    """Generate HTML report from signal analysis results.
+    Parameters
+    ----------
+    result : SignalResult
+        Analysis results.
+    path : str
+        Output file path.
+    """
+    try:
+        import plotly.graph_objects as go
+        from plotly.subplots import make_subplots
+    except ImportError:
+        # Fallback to text-only report
+        _generate_text_html(result, path)
+        return
+    # Create figure with subplots
+    fig = make_subplots(
+        rows=2,
+        cols=2,
+        subplot_titles=("IC Time Series", "Quantile Returns", "IC Summary", "Spread Summary"),
+        specs=[
+            [{"type": "scatter"}, {"type": "bar"}],
+            [{"type": "table"}, {"type": "table"}],
+        ],
+    )
+    # IC Time Series
+    for period_key, ic_vals in result.ic_series.items():
+        if ic_vals:
+            fig.add_trace(
+                go.Scatter(
+                    y=ic_vals,
+                    mode="lines",
+                    name=f"IC {period_key}",
+                ),
+                row=1,
+                col=1,
+            )
+    # Quantile Returns (first period)
+    if result.periods:
+        first_period = f"{result.periods[0]}D"
+        q_returns = result.quantile_returns.get(first_period, {})
+        if q_returns:
+            quantiles = sorted(q_returns.keys())
+            returns = [q_returns[q] for q in quantiles]
+            fig.add_trace(
+                go.Bar(
+                    x=[f"Q{q}" for q in quantiles],
+                    y=returns,
+                    name=f"Returns {first_period}",
+                ),
+                row=1,
+                col=2,
+            )
+    # IC Summary Table
+    ic_data = []
+    for period in result.periods:
+        period_key = f"{period}D"
+        ic_data.append(
+            [
+                period_key,
+                f"{result.ic.get(period_key, float('nan')):.4f}",
+                f"{result.ic_t_stat.get(period_key, float('nan')):.2f}",
+                f"{result.ic_p_value.get(period_key, float('nan')):.4f}",
+            ]
+        )
+    fig.add_trace(
+        go.Table(
+            header={"values": ["Period", "IC", "t-stat", "p-value"]},
+            cells={"values": list(zip(*ic_data)) if ic_data else [[], [], [], []]},
+        ),
+        row=2,
+        col=1,
+    )
+    # Spread Summary Table
+    spread_data = []
+    for period in result.periods:
+        period_key = f"{period}D"
+        spread_data.append(
+            [
+                period_key,
+                f"{result.spread.get(period_key, float('nan')):.4f}",
+                f"{result.spread_t_stat.get(period_key, float('nan')):.2f}",
+                f"{result.monotonicity.get(period_key, float('nan')):.3f}",
+            ]
+        )
+    fig.add_trace(
+        go.Table(
+            header={"values": ["Period", "Spread", "t-stat", "Monotonicity"]},
+            cells={"values": list(zip(*spread_data)) if spread_data else [[], [], [], []]},
+        ),
+        row=2,
+        col=2,
+    )
+    # Update layout
+    fig.update_layout(
+        title_text=f"Signal Analysis: {result.n_assets} assets, {result.n_dates} dates",
+        height=800,
+        showlegend=True,
+    )
+    # Write HTML
+    fig.write_html(path, include_plotlyjs=True)
+def _generate_text_html(result: SignalResult, path: str) -> None:
+    """Generate text-only HTML report (no Plotly)."""
+    html = f"""<!DOCTYPE html>
+<html>
+<head>
+    <title>Signal Analysis Report</title>
+    <style>
+        body {{ font-family: monospace; padding: 20px; }}
+        table {{ border-collapse: collapse; margin: 10px 0; }}
+        th, td {{ border: 1px solid #ddd; padding: 8px; text-align: right; }}
+        th {{ background-color: #f2f2f2; }}
+        pre {{ background-color: #f5f5f5; padding: 15px; }}
+    </style>
+</head>
+<body>
+    <h1>Signal Analysis Report</h1>
+    <pre>{result.summary()}</pre>
+</body>
+</html>"""
+    with open(path, "w") as f:
+        f.write(html)
+__all__ = ["generate_html"]

ml4t/diagnostic/signal/_utils.py ADDED Viewed

@@ -0,0 +1,261 @@
+"""Internal utilities for signal analysis.
+Simple, pure functions for data preparation.
+"""
+from __future__ import annotations
+from enum import Enum
+from typing import TYPE_CHECKING
+import polars as pl
+if TYPE_CHECKING:
+    import pandas as pd
+class QuantileMethod(str, Enum):
+    """Method for quantile assignment."""
+    QUANTILE = "quantile"  # Equal frequency (rank-based)
+    UNIFORM = "uniform"  # Equal width
+def ensure_polars(df: pl.DataFrame | pd.DataFrame) -> pl.DataFrame:
+    """Convert pandas DataFrame to Polars if needed.
+    Parameters
+    ----------
+    df : pl.DataFrame | pd.DataFrame
+        Input DataFrame.
+    Returns
+    -------
+    pl.DataFrame
+        Polars DataFrame.
+    """
+    if isinstance(df, pl.DataFrame):
+        return df
+    # Pandas DataFrame
+    return pl.from_pandas(df)
+def filter_outliers(
+    data: pl.DataFrame,
+    z_threshold: float = 3.0,
+    factor_col: str = "factor",
+    date_col: str = "date",
+) -> pl.DataFrame:
+    """Filter outliers using cross-sectional z-score.
+    Removes observations where factor z-score exceeds threshold
+    within each date's cross-section.
+    Parameters
+    ----------
+    data : pl.DataFrame
+        Data with date and factor columns.
+    z_threshold : float, default 3.0
+        Z-score threshold. Values <= 0 disable filtering.
+    factor_col : str, default "factor"
+        Factor column name.
+    date_col : str, default "date"
+        Date column name.
+    Returns
+    -------
+    pl.DataFrame
+        Data with outliers removed.
+    """
+    if z_threshold <= 0:
+        return data
+    # Cross-sectional z-score with std=0 edge case
+    data = data.with_columns(
+        pl.when(pl.col(factor_col).std().over(date_col) > 0)
+        .then(
+            (pl.col(factor_col) - pl.col(factor_col).mean().over(date_col))
+            / pl.col(factor_col).std().over(date_col)
+        )
+        .otherwise(pl.lit(None))
+        .alias("_zscore")
+    )
+    # Keep rows within threshold or with null z-score (constant cross-section)
+    data = data.filter(pl.col("_zscore").is_null() | (pl.col("_zscore").abs() <= z_threshold))
+    return data.drop("_zscore")
+def quantize_factor(
+    data: pl.DataFrame,
+    n_quantiles: int = 5,
+    method: QuantileMethod = QuantileMethod.QUANTILE,
+    factor_col: str = "factor",
+    date_col: str = "date",
+) -> pl.DataFrame:
+    """Assign quantile labels to factor values within each date.
+    Parameters
+    ----------
+    data : pl.DataFrame
+        Data with date and factor columns.
+    n_quantiles : int, default 5
+        Number of quantiles.
+    method : QuantileMethod, default QUANTILE
+        QUANTILE = equal frequency, UNIFORM = equal width.
+    factor_col : str, default "factor"
+        Factor column name.
+    date_col : str, default "date"
+        Date column name.
+    Returns
+    -------
+    pl.DataFrame
+        Data with "quantile" column (1 = lowest, n = highest).
+    """
+    if method == QuantileMethod.QUANTILE:
+        # Rank-based (equal count per quantile)
+        data = data.with_columns(
+            (
+                (pl.col(factor_col).rank().over(date_col) - 1)
+                / pl.col(factor_col).count().over(date_col)
+                * n_quantiles
+            )
+            .floor()
+            .cast(pl.Int32)
+            .clip(0, n_quantiles - 1)
+            .alias("_rank")
+        )
+        data = data.with_columns((pl.col("_rank") + 1).alias("quantile"))
+        return data.drop("_rank")
+    else:
+        # Equal width
+        data = data.with_columns(
+            (
+                (pl.col(factor_col) - pl.col(factor_col).min().over(date_col))
+                / (
+                    pl.col(factor_col).max().over(date_col)
+                    - pl.col(factor_col).min().over(date_col)
+                    + 1e-10
+                )
+                * n_quantiles
+            )
+            .floor()
+            .cast(pl.Int32)
+            .clip(0, n_quantiles - 1)
+            .alias("_pct")
+        )
+        data = data.with_columns((pl.col("_pct") + 1).alias("quantile"))
+        return data.drop("_pct")
+def compute_forward_returns(
+    data: pl.DataFrame,
+    prices: pl.DataFrame,
+    periods: tuple[int, ...],
+    date_col: str = "date",
+    asset_col: str = "asset",
+    price_col: str = "price",
+) -> pl.DataFrame:
+    """Compute forward returns for each period using vectorized operations.
+    For each (date, asset), computes return from date to date + period.
+    Forward returns are computed using the factor data's date universe,
+    so period N means "N dates forward in the factor dates", not calendar days.
+    Parameters
+    ----------
+    data : pl.DataFrame
+        Factor data with date and asset columns.
+    prices : pl.DataFrame
+        Price data with date, asset, and price columns.
+    periods : tuple[int, ...]
+        Forward return periods in trading days (factor date indices).
+    date_col, asset_col, price_col : str
+        Column names.
+    Returns
+    -------
+    pl.DataFrame
+        Data with forward return columns (e.g., "1D_fwd_return").
+    """
+    if data.is_empty():
+        # Add empty columns for each period
+        for p in periods:
+            data = data.with_columns(pl.lit(None).cast(pl.Float64).alias(f"{p}D_fwd_return"))
+        return data
+    # 1. Create date index mapping from FACTOR data (not prices)
+    # This ensures forward returns align with factor date universe
+    factor_dates = data.select(date_col).unique().sort(date_col)
+    factor_dates = factor_dates.with_row_index("_factor_date_idx")
+    # 2. Join data with current prices
+    result = data.join(
+        prices.select([date_col, asset_col, price_col]).rename({price_col: "_current_price"}),
+        on=[date_col, asset_col],
+        how="left",
+    )
+    # 3. Join to get factor date index for each row
+    result = result.join(factor_dates, on=date_col, how="left")
+    # 4. For each period, compute forward return via joins
+    for p in periods:
+        col_name = f"{p}D_fwd_return"
+        # Create mapping: current_factor_idx -> future_factor_date
+        # future_factor_idx = current_factor_idx + p
+        future_date_map = factor_dates.with_columns(
+            (pl.col("_factor_date_idx") - p).alias("_current_idx")
+        ).filter(pl.col("_current_idx") >= 0)
+        # Join to get future date (from factor date sequence)
+        result = result.join(
+            future_date_map.select([date_col, "_current_idx"]).rename(
+                {date_col: f"_future_date_{p}"}
+            ),
+            left_on="_factor_date_idx",
+            right_on="_current_idx",
+            how="left",
+        )
+        # Join to get future price (from price data)
+        result = result.join(
+            prices.select([date_col, asset_col, price_col]).rename(
+                {price_col: f"_future_price_{p}"}
+            ),
+            left_on=[f"_future_date_{p}", asset_col],
+            right_on=[date_col, asset_col],
+            how="left",
+        )
+        # Compute return: (future - current) / current
+        # Handle NaN in current price (use is_nan check)
+        result = result.with_columns(
+            pl.when(
+                pl.col("_current_price").is_not_null()
+                & pl.col("_current_price").is_not_nan()
+                & pl.col(f"_future_price_{p}").is_not_null()
+                & pl.col(f"_future_price_{p}").is_not_nan()
+                & (pl.col("_current_price") != 0)
+            )
+            .then(
+                (pl.col(f"_future_price_{p}") - pl.col("_current_price")) / pl.col("_current_price")
+            )
+            .otherwise(None)
+            .alias(col_name)
+        )
+    # 5. Clean up temporary columns
+    temp_cols = [c for c in result.columns if c.startswith("_")]
+    return result.drop(temp_cols)
+__all__ = [
+    "QuantileMethod",
+    "ensure_polars",
+    "filter_outliers",
+    "quantize_factor",
+    "compute_forward_returns",
+]