PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/splitters/cpcv/partitioning.py ADDED Viewed

@@ -0,0 +1,263 @@
+"""Group partitioning strategies for CPCV.
+This module handles partitioning the timeline into groups:
+- Contiguous partitioning (equal-sized time slices)
+- Session-aligned partitioning (respects trading session boundaries)
+"""
+from __future__ import annotations
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Any
+import numpy as np
+from numpy.typing import NDArray
+if TYPE_CHECKING:
+    import pandas as pd
+    import polars as pl
+def create_contiguous_partitions(
+    n_samples: int,
+    n_groups: int,
+) -> list[tuple[int, int]]:
+    """Create boundaries for contiguous groups.
+    Partitions n_samples into n_groups approximately equal-sized groups.
+    Earlier groups get extra samples when n_samples is not evenly divisible.
+    Parameters
+    ----------
+    n_samples : int
+        Total number of samples.
+    n_groups : int
+        Number of groups to create.
+    Returns
+    -------
+    boundaries : list of tuple
+        List of (start_idx, end_idx) for each group.
+        end_idx is exclusive (standard Python convention).
+    Raises
+    ------
+    ValueError
+        If boundaries don't satisfy CPCV invariants.
+    Examples
+    --------
+    >>> create_contiguous_partitions(100, 5)
+    [(0, 20), (20, 40), (40, 60), (60, 80), (80, 100)]
+    >>> create_contiguous_partitions(103, 5)
+    [(0, 21), (21, 42), (42, 62), (62, 82), (82, 103)]
+    """
+    base_size = n_samples // n_groups
+    remainder = n_samples % n_groups
+    boundaries = []
+    current_start = 0
+    for i in range(n_groups):
+        # Add extra sample to first 'remainder' groups
+        group_size = base_size + (1 if i < remainder else 0)
+        group_end = current_start + group_size
+        boundaries.append((current_start, group_end))
+        current_start = group_end
+    # Validate invariants
+    validate_contiguous_partitions(boundaries, n_samples)
+    return boundaries
+def validate_contiguous_partitions(
+    boundaries: list[tuple[int, int]],
+    n_samples: int,
+) -> None:
+    """Validate CPCV group boundary invariants.
+    Ensures:
+    1. All samples are covered (no gaps)
+    2. No overlap between groups
+    3. Groups are contiguous
+    Parameters
+    ----------
+    boundaries : list of tuple
+        List of (start_idx, end_idx) for each group.
+    n_samples : int
+        Total number of samples.
+    Raises
+    ------
+    ValueError
+        If any invariant is violated.
+    """
+    if not boundaries:
+        raise ValueError("CPCV invariant violated: no group boundaries created")
+    # Check first boundary starts at 0
+    if boundaries[0][0] != 0:
+        raise ValueError(
+            f"CPCV invariant violated: first group must start at 0, got {boundaries[0][0]}"
+        )
+    # Check last boundary ends at n_samples
+    if boundaries[-1][1] != n_samples:
+        raise ValueError(
+            f"CPCV invariant violated: last group must end at {n_samples}, got {boundaries[-1][1]}"
+        )
+    # Check contiguity (each group starts where previous ended)
+    for i in range(1, len(boundaries)):
+        prev_end = boundaries[i - 1][1]
+        curr_start = boundaries[i][0]
+        if curr_start != prev_end:
+            raise ValueError(
+                f"CPCV invariant violated: gap between group {i - 1} (ends at {prev_end}) "
+                f"and group {i} (starts at {curr_start})"
+            )
+    # Check each group is non-empty
+    for i, (start, end) in enumerate(boundaries):
+        if end <= start:
+            raise ValueError(
+                f"CPCV invariant violated: group {i} is empty or invalid (start={start}, end={end})"
+            )
+def create_session_partitions(
+    X: pl.DataFrame | pd.DataFrame,
+    session_col: str,
+    n_groups: int,
+    session_to_indices_fn: Callable[
+        [pl.DataFrame | pd.DataFrame, str],
+        tuple[list[Any], dict[Any, NDArray[np.intp]]],
+    ],
+) -> list[NDArray[np.intp]]:
+    """Create exact index arrays per group, aligned to session boundaries.
+    Unlike contiguous partitioning which returns (start, end) ranges,
+    this method returns EXACT index arrays for each group. This is critical
+    for correct behavior with non-contiguous or interleaved data.
+    Parameters
+    ----------
+    X : DataFrame
+        Data with session column.
+    session_col : str
+        Name of column containing session identifiers.
+    n_groups : int
+        Number of groups to create.
+    session_to_indices_fn : callable
+        Function that returns (ordered_sessions, session_to_indices_dict).
+        Typically from BaseSplitter._session_to_indices.
+    Returns
+    -------
+    group_indices : list of np.ndarray
+        List of numpy arrays containing exact row indices for each group.
+        Each array contains the indices for all rows belonging to sessions
+        in that group.
+    Raises
+    ------
+    ValueError
+        If not enough sessions for the requested number of groups.
+    Notes
+    -----
+    The key difference from contiguous partitioning is that we track
+    exact indices rather than (start, end) boundaries. This prevents
+    incorrect index ranges when data is interleaved by asset within sessions.
+    """
+    # Get session -> indices mapping
+    ordered_sessions, session_to_indices = session_to_indices_fn(X, session_col)
+    n_sessions = len(ordered_sessions)
+    if n_sessions < n_groups:
+        raise ValueError(
+            f"Not enough sessions ({n_sessions}) for {n_groups} groups. "
+            f"Need at least {n_groups} sessions."
+        )
+    # Partition sessions into groups
+    base_sessions_per_group = n_sessions // n_groups
+    remainder = n_sessions % n_groups
+    group_indices_list = []
+    current_session_idx = 0
+    for i in range(n_groups):
+        # Add extra session to first 'remainder' groups
+        sessions_in_group = base_sessions_per_group + (1 if i < remainder else 0)
+        session_group_end = current_session_idx + sessions_in_group
+        # Get sessions for this group
+        group_sessions = ordered_sessions[current_session_idx:session_group_end]
+        # Collect EXACT indices for sessions in this group
+        indices_arrays = [session_to_indices[s] for s in group_sessions]
+        if indices_arrays:
+            group_indices = np.concatenate(indices_arrays)
+            # Sort for predictable ordering
+            group_indices = np.sort(group_indices)
+        else:
+            group_indices = np.array([], dtype=np.intp)
+        group_indices_list.append(group_indices)
+        current_session_idx = session_group_end
+    return group_indices_list
+def boundaries_to_indices(
+    boundaries: list[tuple[int, int]],
+    groups: tuple[int, ...],
+) -> NDArray[np.intp]:
+    """Convert group boundaries to flat index array for selected groups.
+    Parameters
+    ----------
+    boundaries : list of tuple
+        List of (start_idx, end_idx) for each group.
+    groups : tuple of int
+        Which groups to include.
+    Returns
+    -------
+    indices : np.ndarray
+        Sorted array of indices for selected groups.
+    """
+    # Use numpy concatenation instead of Python list extend for performance
+    ranges = [np.arange(boundaries[g][0], boundaries[g][1], dtype=np.intp) for g in groups]
+    if not ranges:
+        return np.array([], dtype=np.intp)
+    return np.concatenate(ranges)
+def exact_indices_to_array(
+    group_indices_list: list[NDArray[np.intp]],
+    groups: tuple[int, ...],
+) -> NDArray[np.intp]:
+    """Concatenate exact index arrays for selected groups.
+    Parameters
+    ----------
+    group_indices_list : list of np.ndarray
+        List of exact index arrays for each group.
+    groups : tuple of int
+        Which groups to include.
+    Returns
+    -------
+    indices : np.ndarray
+        Sorted array of indices for selected groups.
+    """
+    arrays = [group_indices_list[g] for g in groups]
+    if not arrays or all(len(a) == 0 for a in arrays):
+        return np.array([], dtype=np.intp)
+    return np.sort(np.concatenate(arrays))

ml4t/diagnostic/splitters/cpcv/purge_engine.py ADDED Viewed

@@ -0,0 +1,379 @@
+"""Purging engine for CPCV.
+This module implements the core purging and embargo logic:
+- Mask-based purging (efficient for large datasets)
+- Single-asset and multi-asset purging strategies
+- Segment-based purging for temporal coherence
+"""
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
+import numpy as np
+from numpy.typing import NDArray
+from ml4t.diagnostic.core.purging import apply_purging_and_embargo
+from ml4t.diagnostic.splitters.cpcv.windows import (
+    find_contiguous_segments,
+    timestamp_window_from_indices,
+)
+from ml4t.diagnostic.splitters.utils import convert_indices_to_timestamps
+if TYPE_CHECKING:
+    import pandas as pd
+def apply_single_asset_purging(
+    train_indices: NDArray[np.intp],
+    test_group_indices: tuple[int, ...],
+    group_boundaries: list[tuple[int, int]],
+    n_samples: int,
+    timestamps: pd.DatetimeIndex | None,
+    label_horizon: int | pd.Timedelta,
+    embargo_size: int | pd.Timedelta | None,
+    embargo_pct: float | None,
+    group_indices_list: list[NDArray[np.intp]] | None = None,
+) -> NDArray[np.intp]:
+    """Apply purging for single-asset data.
+    For each test group, removes training samples that would cause
+    look-ahead bias due to label overlap or temporal proximity.
+    Parameters
+    ----------
+    train_indices : ndarray
+        Initial training indices.
+    test_group_indices : tuple of int
+        Indices of groups used for testing.
+    group_boundaries : list of tuple
+        Boundaries (start, end) for each group.
+    n_samples : int
+        Total number of samples.
+    timestamps : pd.DatetimeIndex, optional
+        Timestamps for time-based purging.
+    label_horizon : int or pd.Timedelta
+        Forward-looking period of labels.
+    embargo_size : int or pd.Timedelta, optional
+        Buffer period after test set.
+    embargo_pct : float, optional
+        Embargo as percentage of samples.
+    group_indices_list : list of ndarray, optional
+        Exact indices per group (for session-aligned mode).
+    Returns
+    -------
+    clean_indices : ndarray
+        Training indices after purging.
+    """
+    for test_group_idx in test_group_indices:
+        # Compute purge window bounds
+        if group_indices_list is not None and timestamps is not None:
+            # Session-aligned mode: use actual timestamps from test indices
+            test_indices = group_indices_list[test_group_idx]
+            window = timestamp_window_from_indices(test_indices, timestamps)
+            if window is None:
+                # Empty test group - skip purging for this group
+                continue
+            test_start_time = window.start
+            test_end_time = window.end_exclusive
+        else:
+            # Standard mode: use boundaries
+            test_start_idx, test_end_idx = group_boundaries[test_group_idx]
+            test_start_time, test_end_time = convert_indices_to_timestamps(
+                test_start_idx,
+                test_end_idx,
+                timestamps,
+            )
+        # Apply purging and embargo for this test group
+        train_indices = apply_purging_and_embargo(
+            train_indices=train_indices,
+            test_start=test_start_time,
+            test_end=test_end_time,
+            label_horizon=label_horizon,
+            embargo_size=embargo_size,
+            embargo_pct=embargo_pct,
+            n_samples=n_samples,
+            timestamps=timestamps,
+        )
+    return train_indices
+def apply_multi_asset_purging(
+    train_indices: NDArray[np.intp],
+    test_group_indices: tuple[int, ...],
+    group_boundaries: list[tuple[int, int]],
+    n_samples: int,
+    timestamps: pd.DatetimeIndex | None,
+    groups_array: NDArray[Any],
+    label_horizon: int | pd.Timedelta,
+    embargo_size: int | pd.Timedelta | None,
+    embargo_pct: float | None,
+    group_indices_list: list[NDArray[np.intp]] | None = None,
+) -> NDArray[np.intp]:
+    """Apply purging for multi-asset data with per-asset isolation.
+    This method correctly handles non-contiguous test groups by applying
+    purging for each contiguous segment of test data separately per asset.
+    Parameters
+    ----------
+    train_indices : ndarray
+        Initial training indices.
+    test_group_indices : tuple of int
+        Indices of groups used for testing.
+    group_boundaries : list of tuple
+        Boundaries (start, end) for each group.
+    n_samples : int
+        Total number of samples.
+    timestamps : pd.DatetimeIndex, optional
+        Timestamps for time-based purging.
+    groups_array : ndarray
+        Asset labels for each sample.
+    label_horizon : int or pd.Timedelta
+        Forward-looking period of labels.
+    embargo_size : int or pd.Timedelta, optional
+        Buffer period after test set.
+    embargo_pct : float, optional
+        Embargo as percentage of samples.
+    group_indices_list : list of ndarray, optional
+        Exact indices per group (for session-aligned mode).
+    Returns
+    -------
+    clean_indices : ndarray
+        Training indices after per-asset purging.
+    """
+    if len(groups_array) != n_samples:
+        raise ValueError(
+            f"groups length ({len(groups_array)}) must match number of samples ({n_samples})",
+        )
+    # Prepare test groups data for contiguous segment detection
+    test_groups_data = prepare_test_groups_data(
+        test_group_indices, group_boundaries, group_indices_list
+    )
+    # Apply purging per asset
+    final_train_indices: list[int] = []
+    unique_assets = np.unique(groups_array)
+    for asset_id in unique_assets:
+        # Process this asset's training data with purging
+        asset_train = process_asset_purging(
+            asset_id=asset_id,
+            groups_array=groups_array,
+            train_indices=train_indices,
+            test_groups_data=test_groups_data,
+            n_samples=n_samples,
+            timestamps=timestamps,
+            label_horizon=label_horizon,
+            embargo_size=embargo_size,
+            embargo_pct=embargo_pct,
+            group_indices_list=group_indices_list,
+        )
+        final_train_indices.extend(asset_train)
+    # Sort for deterministic output
+    return np.sort(np.array(final_train_indices, dtype=np.intp))
+def prepare_test_groups_data(
+    test_group_indices: tuple[int, ...],
+    group_boundaries: list[tuple[int, int]],
+    group_indices_list: list[NDArray[np.intp]] | None = None,
+) -> list[tuple[int, int, int, NDArray[np.intp] | None]]:
+    """Prepare and sort test groups data for contiguous segment detection.
+    Parameters
+    ----------
+    test_group_indices : tuple of int
+        Which groups are used for testing.
+    group_boundaries : list of tuple
+        Boundaries (start, end) for each group.
+    group_indices_list : list of ndarray, optional
+        Exact indices per group (for session-aligned mode).
+    Returns
+    -------
+    test_groups_data : list of tuple
+        Sorted list of (group_idx, start_idx, end_idx, exact_indices).
+        In session-aligned mode, exact_indices contains the actual row indices;
+        otherwise it's None.
+    """
+    test_groups_data: list[tuple[int, int, int, NDArray[np.intp] | None]] = []
+    for test_group_idx in test_group_indices:
+        test_start_idx, test_end_idx = group_boundaries[test_group_idx]
+        exact_indices = (
+            group_indices_list[test_group_idx] if group_indices_list is not None else None
+        )
+        test_groups_data.append((test_group_idx, test_start_idx, test_end_idx, exact_indices))
+    # Sort test groups by start index to identify contiguous segments
+    test_groups_data.sort(key=lambda x: x[1])
+    return test_groups_data
+def process_asset_purging(
+    asset_id: Any,
+    groups_array: NDArray[Any],
+    train_indices: NDArray[np.intp],
+    test_groups_data: list[tuple[int, int, int, NDArray[np.intp] | None]],
+    n_samples: int,
+    timestamps: pd.DatetimeIndex | None,
+    label_horizon: int | pd.Timedelta,
+    embargo_size: int | pd.Timedelta | None,
+    embargo_pct: float | None,
+    group_indices_list: list[NDArray[np.intp]] | None = None,
+) -> list[int]:
+    """Process purging for a single asset across all test segments.
+    Parameters
+    ----------
+    asset_id : any
+        Identifier for this asset.
+    groups_array : ndarray
+        Asset labels for all samples.
+    train_indices : ndarray
+        Candidate training indices.
+    test_groups_data : list of tuple
+        Test group information from prepare_test_groups_data.
+    n_samples : int
+        Total number of samples.
+    timestamps : pd.DatetimeIndex, optional
+        Timestamps for time-based purging.
+    label_horizon : int or pd.Timedelta
+        Forward-looking period of labels.
+    embargo_size : int or pd.Timedelta, optional
+        Buffer period after test set.
+    embargo_pct : float, optional
+        Embargo as percentage of samples.
+    group_indices_list : list of ndarray, optional
+        Exact indices per group (for session-aligned mode).
+    Returns
+    -------
+    clean_indices : list of int
+        Training indices for this asset after purging.
+    """
+    # Find indices for this asset
+    asset_mask = groups_array == asset_id
+    asset_indices = np.where(asset_mask)[0]
+    # Get train indices for this asset
+    asset_train_indices = np.intersect1d(train_indices, asset_indices)
+    if len(asset_train_indices) == 0:
+        return []
+    # Find contiguous segments of test groups for this asset
+    contiguous_segments = find_contiguous_segments(
+        test_groups_data,
+        asset_indices,
+    )
+    # If no test data for this asset, keep all training data
+    if not contiguous_segments:
+        return asset_train_indices.tolist()
+    # Apply purging for each contiguous segment
+    return apply_segment_purging(
+        asset_train_indices=asset_train_indices,
+        contiguous_segments=contiguous_segments,
+        n_samples=n_samples,
+        timestamps=timestamps,
+        label_horizon=label_horizon,
+        embargo_size=embargo_size,
+        embargo_pct=embargo_pct,
+        group_indices_list=group_indices_list,
+    )
+def apply_segment_purging(
+    asset_train_indices: NDArray[np.intp],
+    contiguous_segments: list[list[tuple[int, int, int, NDArray[np.intp]]]],
+    n_samples: int,
+    timestamps: pd.DatetimeIndex | None,
+    label_horizon: int | pd.Timedelta,
+    embargo_size: int | pd.Timedelta | None,
+    embargo_pct: float | None,
+    group_indices_list: list[NDArray[np.intp]] | None = None,
+) -> list[int]:
+    """Apply purging across all contiguous segments for an asset.
+    Uses a set-based approach for tracking remaining indices, which is
+    efficient for the iterative purging across segments.
+    Parameters
+    ----------
+    asset_train_indices : ndarray
+        Training indices for this asset.
+    contiguous_segments : list of list of tuple
+        Segments from find_contiguous_segments.
+    n_samples : int
+        Total number of samples.
+    timestamps : pd.DatetimeIndex, optional
+        Timestamps for time-based purging.
+    label_horizon : int or pd.Timedelta
+        Forward-looking period of labels.
+    embargo_size : int or pd.Timedelta, optional
+        Buffer period after test set.
+    embargo_pct : float, optional
+        Embargo as percentage of samples.
+    group_indices_list : list of ndarray, optional
+        Exact indices per group (for session-aligned mode).
+    Returns
+    -------
+    clean_indices : list of int
+        Sorted training indices after purging all segments.
+    """
+    remaining_train_indices = set(asset_train_indices)
+    for segment in contiguous_segments:
+        if not segment:
+            continue
+        # Compute purge window bounds
+        if group_indices_list is not None and timestamps is not None:
+            # Session-aligned mode: compute timestamp bounds from actual test indices
+            segment_test_indices = np.concatenate([item[3] for item in segment])
+            window = timestamp_window_from_indices(segment_test_indices, timestamps)
+            if window is None:
+                # Empty test segment - skip purging for this segment
+                continue
+            segment_start_time = window.start
+            segment_end_time = window.end_exclusive
+        else:
+            # Standard mode: use boundaries
+            segment_start_idx = segment[0][1]  # Start of first group in segment
+            segment_end_idx = segment[-1][2]  # End of last group in segment
+            segment_start_time, segment_end_time = convert_indices_to_timestamps(
+                segment_start_idx,
+                segment_end_idx,
+                timestamps,
+            )
+        # Apply purging for this contiguous segment
+        remaining_array = np.array(list(remaining_train_indices), dtype=np.intp)
+        if len(remaining_array) == 0:
+            break
+        clean_segment_train = apply_purging_and_embargo(
+            train_indices=remaining_array,
+            test_start=segment_start_time,
+            test_end=segment_end_time,
+            label_horizon=label_horizon,
+            embargo_size=embargo_size,
+            embargo_pct=embargo_pct,
+            n_samples=n_samples,
+            timestamps=timestamps,
+        )
+        # Update remaining indices (remove those that were purged)
+        remaining_train_indices = set(clean_segment_train)
+    return sorted(remaining_train_indices)