PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/signal_selector.py ADDED Viewed

@@ -0,0 +1,452 @@
+"""Signal selection algorithms for multi-signal comparison.
+This module provides intelligent signal selection algorithms to identify
+the most promising signals from a large set based on various criteria:
+- **Top-N**: Select best signals by a single metric
+- **Uncorrelated**: Select diverse signals with low correlation
+- **Pareto Frontier**: Select non-dominated signals on two metrics
+- **Cluster Representatives**: Select best signal from each correlation cluster
+These algorithms help reduce a large signal universe (50-200) to a manageable
+subset for detailed comparison while maximizing information value.
+Examples
+--------
+>>> from ml4t.diagnostic.evaluation.signal_selector import SignalSelector
+>>>
+>>> # Select top 10 by IC IR
+>>> top_signals = SignalSelector.select_top_n(summary, n=10, metric="ic_ir")
+>>>
+>>> # Select 5 uncorrelated signals
+>>> diverse = SignalSelector.select_uncorrelated(
+...     summary, correlation_matrix, n=5, max_correlation=0.5
+... )
+>>>
+>>> # Find Pareto-optimal signals (low turnover, high IC)
+>>> efficient = SignalSelector.select_pareto_frontier(
+...     summary, x_metric="turnover_mean", y_metric="ic_ir"
+... )
+"""
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
+import numpy as np
+import polars as pl
+if TYPE_CHECKING:
+    pass
+class SignalSelector:
+    """Smart signal selection algorithms for comparison.
+    Provides static methods for selecting subsets of signals based on
+    different criteria. All methods are designed to work with summary
+    DataFrames from MultiSignalAnalysis.
+    Methods
+    -------
+    select_top_n : Select top N signals by metric
+    select_uncorrelated : Select diverse, uncorrelated signals
+    select_pareto_frontier : Select Pareto-optimal signals
+    select_by_cluster : Select representative from each cluster
+    """
+    @staticmethod
+    def select_top_n(
+        summary_df: pl.DataFrame,
+        n: int = 10,
+        metric: str = "ic_ir",
+        ascending: bool = False,
+        filter_significant: bool = False,
+        significance_col: str = "fdr_significant",
+    ) -> list[str]:
+        """Select top N signals by a single metric.
+        Parameters
+        ----------
+        summary_df : pl.DataFrame
+            Summary DataFrame with columns: signal_name, {metric}
+        n : int, default 10
+            Number of signals to select
+        metric : str, default "ic_ir"
+            Metric column to sort by
+        ascending : bool, default False
+            If True, select lowest values (e.g., for turnover)
+        filter_significant : bool, default False
+            If True, only consider signals that pass significance threshold
+        significance_col : str, default "fdr_significant"
+            Column containing significance flag
+        Returns
+        -------
+        list[str]
+            Signal names of top N signals
+        Examples
+        --------
+        >>> # Top 10 by IC IR (highest)
+        >>> top = SignalSelector.select_top_n(summary, n=10, metric="ic_ir")
+        >>>
+        >>> # Top 10 lowest turnover
+        >>> low_turn = SignalSelector.select_top_n(
+        ...     summary, n=10, metric="turnover_mean", ascending=True
+        ... )
+        """
+        if metric not in summary_df.columns:
+            raise ValueError(f"Metric '{metric}' not found. Available: {summary_df.columns}")
+        df = summary_df
+        # Optionally filter to significant only
+        if filter_significant and significance_col in df.columns:
+            df = df.filter(pl.col(significance_col))
+        # Sort and take top N
+        sorted_df = df.sort(metric, descending=not ascending)
+        return sorted_df.head(n)["signal_name"].to_list()
+    @staticmethod
+    def select_uncorrelated(
+        summary_df: pl.DataFrame,
+        correlation_matrix: pl.DataFrame,
+        n: int = 5,
+        metric: str = "ic_ir",
+        min_metric_value: float | None = None,
+        max_correlation: float = 0.7,
+    ) -> list[str]:
+        """Select top N signals that are least correlated with each other.
+        Uses a greedy algorithm:
+        1. Filter signals with metric >= min_metric_value (if specified)
+        2. Sort remaining by metric (descending)
+        3. Select best signal
+        4. For each remaining, select signal with lowest max correlation
+           to already-selected signals, subject to max_correlation threshold
+        5. Repeat until N signals selected or no more available
+        Parameters
+        ----------
+        summary_df : pl.DataFrame
+            Summary DataFrame with signal_name and metric columns
+        correlation_matrix : pl.DataFrame
+            Square correlation matrix with signal names as both index and columns
+        n : int, default 5
+            Number of signals to select
+        metric : str, default "ic_ir"
+            Metric to rank signals by (higher is better)
+        min_metric_value : float | None, default None
+            Minimum metric value to consider a signal
+        max_correlation : float, default 0.7
+            Maximum allowed correlation between selected signals
+        Returns
+        -------
+        list[str]
+            Signal names of selected uncorrelated signals
+        Notes
+        -----
+        This is a greedy algorithm that may not find the globally optimal
+        subset, but works well in practice and is O(n²) in the number of
+        signals.
+        Examples
+        --------
+        >>> # Select 5 diverse signals with IC > 0.02
+        >>> diverse = SignalSelector.select_uncorrelated(
+        ...     summary, corr_matrix, n=5,
+        ...     min_metric_value=0.02, max_correlation=0.5
+        ... )
+        """
+        # Get available signals and their metrics
+        candidates = summary_df.select(["signal_name", metric])
+        # Filter by minimum metric if specified
+        if min_metric_value is not None:
+            candidates = candidates.filter(pl.col(metric) >= min_metric_value)
+        if len(candidates) == 0:
+            return []
+        # Sort by metric descending
+        candidates = candidates.sort(metric, descending=True)
+        candidate_names = candidates["signal_name"].to_list()
+        # Convert correlation matrix to numpy for efficient indexing
+        corr_signals = correlation_matrix.columns
+        corr_numpy = correlation_matrix.to_numpy()
+        # Build name-to-index mapping
+        signal_to_idx = {name: i for i, name in enumerate(corr_signals)}
+        # Greedy selection
+        selected: list[str] = []
+        remaining = set(candidate_names)
+        for signal_name in candidate_names:
+            if signal_name not in remaining:
+                continue
+            if signal_name not in signal_to_idx:
+                # Signal not in correlation matrix (shouldn't happen normally)
+                remaining.discard(signal_name)
+                continue
+            # Check correlation with already selected signals
+            if len(selected) > 0:
+                idx = signal_to_idx[signal_name]
+                selected_idxs = [signal_to_idx[s] for s in selected]
+                correlations = np.abs(corr_numpy[idx, selected_idxs])
+                max_corr = np.max(correlations)
+                if max_corr > max_correlation:
+                    remaining.discard(signal_name)
+                    continue
+            # Select this signal
+            selected.append(signal_name)
+            remaining.discard(signal_name)
+            if len(selected) >= n:
+                break
+        return selected
+    @staticmethod
+    def select_pareto_frontier(
+        summary_df: pl.DataFrame,
+        x_metric: str = "turnover_mean",
+        y_metric: str = "ic_ir",
+        minimize_x: bool = True,
+        maximize_y: bool = True,
+    ) -> list[str]:
+        """Select signals on the Pareto frontier (efficient frontier).
+        A signal is Pareto-optimal if no other signal is strictly better
+        on both metrics. This finds signals that represent different
+        trade-offs between the two metrics.
+        Parameters
+        ----------
+        summary_df : pl.DataFrame
+            Summary DataFrame with signal_name, x_metric, y_metric columns
+        x_metric : str, default "turnover_mean"
+            First metric (typically to minimize, like turnover)
+        y_metric : str, default "ic_ir"
+            Second metric (typically to maximize, like IC)
+        minimize_x : bool, default True
+            If True, lower x values are better
+        maximize_y : bool, default True
+            If True, higher y values are better
+        Returns
+        -------
+        list[str]
+            Signal names on the Pareto frontier, sorted by x_metric
+        Notes
+        -----
+        The Pareto frontier helps identify signals that represent different
+        trade-offs. For example, one signal might have the highest IC but
+        also the highest turnover, while another has moderate IC with low
+        turnover. Both are Pareto-optimal.
+        Time complexity: O(n²) where n is number of signals.
+        Examples
+        --------
+        >>> # Find signals with best IC vs turnover trade-off
+        >>> frontier = SignalSelector.select_pareto_frontier(
+        ...     summary, x_metric="turnover_mean", y_metric="ic_ir"
+        ... )
+        >>> print(f"{len(frontier)} Pareto-optimal signals")
+        """
+        if x_metric not in summary_df.columns or y_metric not in summary_df.columns:
+            raise ValueError(
+                f"Metrics not found. Required: {x_metric}, {y_metric}. "
+                f"Available: {summary_df.columns}"
+            )
+        # Extract data
+        data = summary_df.select(["signal_name", x_metric, y_metric]).to_numpy()
+        names = data[:, 0].tolist()
+        x_values = data[:, 1].astype(float)
+        y_values = data[:, 2].astype(float)
+        # Convert to "higher is better" for comparison
+        if minimize_x:
+            x_values = -x_values
+        if not maximize_y:
+            y_values = -y_values
+        # Find Pareto frontier
+        n = len(names)
+        pareto_mask = np.ones(n, dtype=bool)
+        for i in range(n):
+            if not pareto_mask[i]:
+                continue
+            for j in range(n):
+                if i == j or not pareto_mask[j]:
+                    continue
+                # Check if j dominates i (j better on both metrics)
+                if x_values[j] >= x_values[i] and y_values[j] >= y_values[i]:
+                    if x_values[j] > x_values[i] or y_values[j] > y_values[i]:
+                        pareto_mask[i] = False
+                        break
+        # Sort by original x_metric (not negated)
+        x_original = data[:, 1].astype(float)
+        pareto_with_x = [(names[i], x_original[i]) for i in range(n) if pareto_mask[i]]
+        pareto_with_x.sort(key=lambda x: x[1], reverse=not minimize_x)
+        return [name for name, _ in pareto_with_x]
+    @staticmethod
+    def select_by_cluster(
+        correlation_matrix: pl.DataFrame,
+        summary_df: pl.DataFrame,
+        n_clusters: int = 5,
+        signals_per_cluster: int = 1,
+        metric: str = "ic_ir",
+        linkage_method: str = "ward",
+    ) -> list[str]:
+        """Select representative signals from each correlation cluster.
+        Uses hierarchical clustering on correlation distance to group
+        similar signals, then selects the best signal(s) from each cluster.
+        Parameters
+        ----------
+        correlation_matrix : pl.DataFrame
+            Square correlation matrix (signals as columns)
+        summary_df : pl.DataFrame
+            Summary with signal_name and metric columns
+        n_clusters : int, default 5
+            Number of clusters to create
+        signals_per_cluster : int, default 1
+            Number of signals to select from each cluster
+        metric : str, default "ic_ir"
+            Metric for selecting best within cluster
+        linkage_method : str, default "ward"
+            Hierarchical clustering linkage method
+        Returns
+        -------
+        list[str]
+            Selected signal names (one per cluster, sorted by metric)
+        Notes
+        -----
+        This method is useful for finding truly independent signal sources.
+        "100 signals = 3 unique bets" pattern can be revealed by clustering.
+        Requires scipy for hierarchical clustering.
+        Examples
+        --------
+        >>> # Select best signal from each of 5 clusters
+        >>> reps = SignalSelector.select_by_cluster(
+        ...     corr_matrix, summary, n_clusters=5
+        ... )
+        """
+        try:
+            from scipy.cluster.hierarchy import cut_tree, linkage
+        except ImportError as err:
+            raise ImportError(
+                "scipy required for cluster selection. Install with: pip install scipy"
+            ) from err
+        # Get signal names and correlation matrix
+        signal_names = correlation_matrix.columns
+        corr_np = correlation_matrix.to_numpy()
+        # Convert correlation to distance (1 - |correlation|)
+        distance = 1 - np.abs(corr_np)
+        np.fill_diagonal(distance, 0)
+        # Perform hierarchical clustering
+        # linkage expects condensed distance matrix
+        n = len(signal_names)
+        condensed = distance[np.triu_indices(n, k=1)]
+        linkage_matrix = linkage(condensed, method=linkage_method)
+        # Cut tree to get cluster labels
+        cluster_labels = cut_tree(linkage_matrix, n_clusters=n_clusters).flatten()
+        # Build cluster -> signals mapping
+        clusters: dict[int, list[str]] = {i: [] for i in range(n_clusters)}
+        for i, signal in enumerate(signal_names):
+            clusters[cluster_labels[i]].append(signal)
+        # Get metric values from summary
+        metric_lookup = dict(
+            zip(
+                summary_df["signal_name"].to_list(),
+                summary_df[metric].to_list(),
+            )
+        )
+        # Select best signal(s) from each cluster
+        selected: list[str] = []
+        for cluster_id in range(n_clusters):
+            cluster_signals = clusters[cluster_id]
+            if not cluster_signals:
+                continue
+            # Sort by metric and take top signals_per_cluster
+            sorted_signals = sorted(
+                cluster_signals,
+                key=lambda s: metric_lookup.get(s, float("-inf")),
+                reverse=True,
+            )
+            selected.extend(sorted_signals[:signals_per_cluster])
+        # Sort final list by metric
+        selected.sort(
+            key=lambda s: metric_lookup.get(s, float("-inf")),
+            reverse=True,
+        )
+        return selected
+    @staticmethod
+    def get_selection_info(
+        summary_df: pl.DataFrame,
+        selected_signals: list[str],
+        method: str,
+        **method_params: Any,
+    ) -> dict[str, Any]:
+        """Get information about a signal selection for documentation.
+        Parameters
+        ----------
+        summary_df : pl.DataFrame
+            Summary DataFrame
+        selected_signals : list[str]
+            List of selected signal names
+        method : str
+            Selection method name ("top_n", "uncorrelated", "pareto", "cluster")
+        **method_params : Any
+            Parameters used for selection
+        Returns
+        -------
+        dict
+            Dictionary with selection metadata for reporting
+        """
+        # Get metrics for selected signals
+        selected_data = summary_df.filter(pl.col("signal_name").is_in(selected_signals))
+        return {
+            "method": method,
+            "n_selected": len(selected_signals),
+            "n_total": len(summary_df),
+            "signals": selected_signals,
+            "method_params": method_params,
+            "selected_summary": selected_data.to_dicts(),
+        }

ml4t/diagnostic/evaluation/stat_registry.py ADDED Viewed

@@ -0,0 +1,139 @@
+"""Statistical test registry for evaluation framework.
+This module provides a centralized registry for statistical tests
+used in the evaluation framework, including tier defaults.
+"""
+from collections.abc import Callable
+from typing import Any
+class StatTestRegistry:
+    """Registry of statistical tests for evaluation.
+    The StatTestRegistry provides a centralized place to register and query
+    statistical tests, including their tier defaults.
+    Attributes
+    ----------
+    _tests : dict[str, Callable]
+        Mapping of test names to test functions
+    _tier_defaults : dict[int, list[str]]
+        Default tests for each evaluation tier
+    Examples
+    --------
+    >>> registry = StatTestRegistry()
+    >>> registry.register("dsr", dsr_func, tiers=[1])
+    >>> func = registry.get("dsr")
+    """
+    _instance: "StatTestRegistry | None" = None
+    def __init__(self) -> None:
+        """Initialize empty registry."""
+        self._tests: dict[str, Callable[..., Any]] = {}
+        self._tier_defaults: dict[int, list[str]] = {1: [], 2: [], 3: []}
+    @classmethod
+    def default(cls) -> "StatTestRegistry":
+        """Get or create the default singleton registry instance.
+        Returns
+        -------
+        StatTestRegistry
+            The default registry instance with standard tests registered
+        """
+        if cls._instance is None:
+            cls._instance = cls()
+            cls._instance._register_defaults()
+        return cls._instance
+    @classmethod
+    def reset_default(cls) -> None:
+        """Reset the default singleton instance (primarily for testing)."""
+        cls._instance = None
+    def register(
+        self,
+        name: str,
+        func: Callable[..., Any],
+        tiers: list[int] | None = None,
+    ) -> None:
+        """Register a statistical test with the registry.
+        Parameters
+        ----------
+        name : str
+            Unique name for the test
+        func : Callable
+            Function that performs the test.
+            Should return a dict with test results
+        tiers : list[int], optional
+            Evaluation tiers where this test is a default
+        """
+        self._tests[name] = func
+        if tiers:
+            for tier in tiers:
+                if tier in self._tier_defaults and name not in self._tier_defaults[tier]:
+                    self._tier_defaults[tier].append(name)
+    def get(self, name: str) -> Callable[..., Any]:
+        """Get a test function by name.
+        Parameters
+        ----------
+        name : str
+            Name of the test
+        Returns
+        -------
+        Callable
+            The test function
+        Raises
+        ------
+        KeyError
+            If test name is not registered
+        """
+        if name not in self._tests:
+            raise KeyError(f"Unknown test: {name}. Available: {list(self._tests.keys())}")
+        return self._tests[name]
+    def get_by_tier(self, tier: int) -> list[str]:
+        """Get default tests for a specific tier.
+        Parameters
+        ----------
+        tier : int
+            Evaluation tier (1, 2, or 3)
+        Returns
+        -------
+        list[str]
+            List of default test names for the tier
+        """
+        return self._tier_defaults.get(tier, []).copy()
+    def list_tests(self) -> list[str]:
+        """List all registered test names.
+        Returns
+        -------
+        list[str]
+            Sorted list of test names
+        """
+        return sorted(self._tests.keys())
+    def __contains__(self, name: str) -> bool:
+        """Check if a test is registered."""
+        return name in self._tests
+    def _register_defaults(self) -> None:
+        """Register default statistical tests."""
+        from . import stats
+        self.register("dsr", stats.deflated_sharpe_ratio_from_statistics, tiers=[1])
+        self.register("hac_ic", stats.robust_ic, tiers=[2])
+        self.register("fdr", stats.benjamini_hochberg_fdr, tiers=[1])
+        self.register("whites_reality_check", stats.whites_reality_check, tiers=[])

ml4t/diagnostic/evaluation/stationarity/__init__.py ADDED Viewed

@@ -0,0 +1,97 @@
+"""Stationarity testing for time series features.
+This module provides statistical tests for detecting unit roots and assessing
+stationarity of financial time series:
+- Augmented Dickey-Fuller (ADF) test - tests for unit root (H0: non-stationary)
+- KPSS test - tests for stationarity (H0: stationary)
+- Phillips-Perron (PP) test - robust alternative to ADF (H0: non-stationary)
+Stationarity is a critical assumption for many time series models and
+feature engineering techniques. Non-stationary series require transformation
+(differencing, detrending) before use in predictive models.
+Key Differences Between Tests:
+    - ADF: Parametric test with lagged differences, H0 = unit root (non-stationary)
+    - PP: Non-parametric correction for serial correlation, H0 = unit root (non-stationary)
+    - KPSS: H0 = stationarity (opposite interpretation!)
+    - Use multiple tests together for robust stationarity assessment
+    - Stationary: ADF/PP rejects + KPSS fails to reject
+    - Non-stationary: ADF/PP fails to reject + KPSS rejects
+    - Quasi-stationary: Both reject or both fail to reject (inconclusive)
+Phillips-Perron vs ADF:
+    - PP uses non-parametric Newey-West correction for heteroscedasticity
+    - PP estimates regression with only 1 lag vs ADF's multiple lags
+    - PP more robust to general forms of serial correlation
+    - Both have same null hypothesis: unit root exists (non-stationary)
+References:
+    - Dickey, D. A., & Fuller, W. A. (1979). Distribution of the estimators
+      for autoregressive time series with a unit root.
+    - Phillips, P. C., & Perron, P. (1988). Testing for a unit root in time
+      series regression. Biometrika, 75(2), 335-346.
+    - MacKinnon, J. G. (1994). Approximate asymptotic distribution functions
+      for unit-root and cointegration tests.
+    - Kwiatkowski, D., Phillips, P. C., Schmidt, P., & Shin, Y. (1992).
+      Testing the null hypothesis of stationarity against the alternative
+      of a unit root. Journal of Econometrics, 54(1-3), 159-178.
+Example:
+    >>> import numpy as np
+    >>> from ml4t.diagnostic.evaluation.stationarity import adf_test, kpss_test
+    >>>
+    >>> # White noise (stationary)
+    >>> white_noise = np.random.randn(1000)
+    >>> adf = adf_test(white_noise)
+    >>> kpss = kpss_test(white_noise)
+    >>> print(f"ADF stationary: {adf.is_stationary}")   # Should be True
+    >>> print(f"KPSS stationary: {kpss.is_stationary}") # Should be True
+    >>>
+    >>> # Random walk (non-stationary)
+    >>> random_walk = np.cumsum(np.random.randn(1000))
+    >>> adf = adf_test(random_walk)
+    >>> kpss = kpss_test(random_walk)
+    >>> print(f"ADF stationary: {adf.is_stationary}")   # Should be False
+    >>> print(f"KPSS stationary: {kpss.is_stationary}") # Should be False
+    >>>
+    >>> # Comprehensive analysis with all tests
+    >>> from ml4t.diagnostic.evaluation.stationarity import analyze_stationarity
+    >>> result = analyze_stationarity(random_walk)
+    >>> print(result.summary())
+"""
+# Import from submodules and re-export
+from ml4t.diagnostic.evaluation.stationarity.analysis import (
+    StationarityAnalysisResult,
+    analyze_stationarity,
+)
+from ml4t.diagnostic.evaluation.stationarity.augmented_dickey_fuller import (
+    ADFResult,
+    adf_test,
+)
+from ml4t.diagnostic.evaluation.stationarity.kpss_test import (
+    KPSSResult,
+    kpss_test,
+)
+from ml4t.diagnostic.evaluation.stationarity.phillips_perron import (
+    HAS_ARCH,
+    PPResult,
+    pp_test,
+)
+__all__ = [
+    # ADF test
+    "adf_test",
+    "ADFResult",
+    # KPSS test
+    "kpss_test",
+    "KPSSResult",
+    # PP test
+    "pp_test",
+    "PPResult",
+    "HAS_ARCH",
+    # Comprehensive analysis
+    "analyze_stationarity",
+    "StationarityAnalysisResult",
+]