PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/splitters/walk_forward.py ADDED Viewed

@@ -0,0 +1,757 @@
+"""Walk-forward cross-validation with purging and embargo.
+This module implements walk-forward cross-validation that prevents data leakage
+through purging and embargo, suitable for time-series financial data.
+"""
+from collections.abc import Generator
+from typing import TYPE_CHECKING, Any, Union, cast
+import numpy as np
+import pandas as pd
+import polars as pl
+from ml4t.diagnostic.core.purging import apply_purging_and_embargo
+from ml4t.diagnostic.splitters.base import BaseSplitter
+from ml4t.diagnostic.splitters.calendar import TradingCalendar, parse_time_size_calendar_aware
+from ml4t.diagnostic.splitters.calendar_config import CalendarConfig
+from ml4t.diagnostic.splitters.config import PurgedWalkForwardConfig
+from ml4t.diagnostic.splitters.group_isolation import isolate_groups_from_train
+from ml4t.diagnostic.splitters.utils import convert_indices_to_timestamps
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+class PurgedWalkForwardCV(BaseSplitter):
+    """Walk-forward cross-validator with purging and embargo.
+    Walk-forward CV creates sequential train/test splits where training data
+    always precedes test data. This implementation adds purging and embargo
+    to prevent data leakage from label overlap and serial correlation.
+    Parameters
+    ----------
+    n_splits : int, default=5
+        Number of splits to generate.
+    test_size : int, float, str, or None, optional
+        Size of each test set:
+        - If int: number of samples (e.g., 1000)
+        - If float: proportion of dataset (e.g., 0.1)
+        - If str: time period using pandas offset aliases (e.g., "4W", "30D", "3M")
+        - If None: uses 1 / (n_splits + 1)
+        Time-based specifications require X to have a DatetimeIndex.
+    train_size : int, float, str, or None, optional
+        Size of each training set:
+        - If int: number of samples (e.g., 10000)
+        - If float: proportion of dataset (e.g., 0.5)
+        - If str: time period using pandas offset aliases (e.g., "78W", "6M", "2Y")
+        - If None: uses all available data before test set
+        Time-based specifications require X to have a DatetimeIndex.
+    gap : int, default=0
+        Gap between training and test set (in addition to purging).
+    label_horizon : int or pd.Timedelta, default=0
+        Forward-looking period of labels for purging calculation.
+    embargo_size : int or pd.Timedelta, optional
+        Size of embargo period after each test set.
+    embargo_pct : float, optional
+        Embargo size as percentage of total samples.
+    expanding : bool, default=True
+        If True, training window expands with each split.
+        If False, uses fixed-size rolling window.
+    consecutive : bool, default=False
+        If True, uses consecutive (back-to-back) test periods with no gaps.
+        This is appropriate for walk-forward validation where you want to
+        simulate realistic trading with sequential validation periods.
+        If False, spreads test periods across the dataset to sample different
+        time periods (useful for testing robustness across market regimes).
+    calendar : str, CalendarConfig, or TradingCalendar, optional
+        Trading calendar for calendar-aware time period calculations.
+        - If str: Name of pandas_market_calendars calendar (e.g., 'CME_Equity', 'NYSE')
+          Creates default CalendarConfig with UTC timezone
+        - If CalendarConfig: Full configuration with exchange, timezone, and options
+        - If TradingCalendar: Pre-configured calendar instance
+        - If None: Uses naive time-based calculation (backward compatible)
+        For intraday data with time-based test_size/train_size (e.g., '4W'),
+        using a calendar ensures proper session-aware splitting:
+        - Trading sessions are atomic units (won't split Sunday 5pm - Friday 4pm)
+        - Handles varying data density in activity-based data (dollar bars, trade bars)
+        - Proper timezone handling for tz-naive and tz-aware data
+        - '1D' selections: Complete trading sessions
+        - '4W' selections: Complete trading weeks (e.g., 4 weeks of 5 sessions each)
+        Examples:
+        >>> from ml4t.diagnostic.splitters.calendar_config import CME_CONFIG
+        >>> cv = PurgedWalkForwardCV(test_size='4W', calendar=CME_CONFIG)  # CME futures
+        >>> cv = PurgedWalkForwardCV(test_size='1W', calendar='NYSE')  # US equities (simple)
+    align_to_sessions : bool, default=False
+        If True, align fold boundaries to trading session boundaries.
+        Requires X to have a session column (specified by session_col parameter).
+        Trading sessions should be assigned using the qdata library before cross-validation:
+        - Use DataManager with exchange/calendar parameters, or
+        - Use SessionAssigner.from_exchange('CME') directly
+        When enabled, fold boundaries will never split a trading session, preventing
+        subtle lookahead bias in intraday strategies.
+    session_col : str, default='session_date'
+        Name of the column containing session identifiers.
+        Only used if align_to_sessions=True.
+        This column should be added by qdata.sessions.SessionAssigner
+    isolate_groups : bool, default=False
+        If True, prevent the same group (asset/symbol) from appearing in both
+        train and test sets. This is critical for multi-asset validation to
+        avoid data leakage.
+        Requires passing `groups` parameter to split() method with asset IDs.
+        Example:
+        >>> cv = PurgedWalkForwardCV(n_splits=5, isolate_groups=True)
+        >>> for train, test in cv.split(df, groups=df['symbol']):
+        ...     # train and test will have completely different symbols
+        ...     pass
+    Attributes:
+    ----------
+    n_splits_ : int
+        The number of splits.
+    Examples:
+    --------
+    >>> import numpy as np
+    >>> from ml4t.diagnostic.splitters import PurgedWalkForwardCV
+    >>> X = np.arange(100).reshape(100, 1)
+    >>> cv = PurgedWalkForwardCV(n_splits=3, label_horizon=5, embargo_size=2)
+    >>> for train, test in cv.split(X):
+    ...     print(f"Train: {len(train)}, Test: {len(test)}")
+    Train: 17, Test: 25
+    Train: 40, Test: 25
+    Train: 63, Test: 25
+    """
+    def __init__(
+        self,
+        config: PurgedWalkForwardConfig | None = None,
+        *,
+        n_splits: int = 5,
+        test_size: float | None = None,
+        train_size: float | None = None,
+        gap: int = 0,
+        label_horizon: int | pd.Timedelta = 0,
+        embargo_size: int | pd.Timedelta | None = None,
+        embargo_pct: float | None = None,
+        expanding: bool = True,
+        consecutive: bool = False,
+        calendar: str | CalendarConfig | TradingCalendar | None = None,
+        align_to_sessions: bool = False,
+        session_col: str = "session_date",
+        timestamp_col: str | None = None,
+        isolate_groups: bool = False,
+    ) -> None:
+        """Initialize PurgedWalkForwardCV.
+        This splitter uses a config-first architecture. You can either:
+        1. Pass a config object: PurgedWalkForwardCV(config=my_config)
+        2. Pass individual parameters: PurgedWalkForwardCV(n_splits=5, test_size=100)
+        Parameters are automatically converted to a config object internally,
+        ensuring a single source of truth for all validation and logic.
+        Examples
+        --------
+        >>> # Approach 1: Direct parameters (convenient)
+        >>> cv = PurgedWalkForwardCV(n_splits=5, test_size=100)
+        >>>
+        >>> # Approach 2: Config object (for serialization/reproducibility)
+        >>> from ml4t.diagnostic.splitters.config import PurgedWalkForwardConfig
+        >>> config = PurgedWalkForwardConfig(n_splits=5, test_size=100)
+        >>> cv = PurgedWalkForwardCV(config=config)
+        >>>
+        >>> # Config can be serialized
+        >>> config.to_json("cv_config.json")
+        >>> loaded = PurgedWalkForwardConfig.from_json("cv_config.json")
+        >>> cv = PurgedWalkForwardCV(config=loaded)
+        """
+        # Config-first: either use provided config or create from params
+        if config is not None:
+            # Explicit config provided
+            # Verify no conflicting parameters were passed
+            non_default_params = []
+            if n_splits != 5:
+                non_default_params.append("n_splits")
+            if test_size is not None:
+                non_default_params.append("test_size")
+            if train_size is not None:
+                non_default_params.append("train_size")
+            if gap != 0:
+                non_default_params.append("gap")
+            if label_horizon != 0:
+                non_default_params.append("label_horizon")
+            if embargo_size is not None:
+                non_default_params.append("embargo_size")
+            if embargo_pct is not None:
+                non_default_params.append("embargo_pct")
+            if not expanding:
+                non_default_params.append("expanding")
+            if consecutive:
+                non_default_params.append("consecutive")
+            if calendar is not None:
+                non_default_params.append("calendar")
+            if align_to_sessions:
+                non_default_params.append("align_to_sessions")
+            if session_col != "session_date":
+                non_default_params.append("session_col")
+            if timestamp_col is not None:
+                non_default_params.append("timestamp_col")
+            if isolate_groups:
+                non_default_params.append("isolate_groups")
+            if non_default_params:
+                raise ValueError(
+                    f"Cannot specify both 'config' and individual parameters. "
+                    f"Got config plus: {', '.join(non_default_params)}"
+                )
+            self.config = config
+        else:
+            # Create config from individual parameters
+            # Note: embargo_size maps to embargo_td in config
+            self.config = PurgedWalkForwardConfig(
+                n_splits=n_splits,
+                test_size=test_size,
+                train_size=train_size,
+                label_horizon=label_horizon,
+                embargo_td=embargo_size,
+                align_to_sessions=align_to_sessions,
+                session_col=session_col,
+                timestamp_col=timestamp_col,
+                isolate_groups=isolate_groups,
+            )
+        # Handle calendar initialization
+        # NOTE: Calendar config could be moved to WalkForwardConfig in future version
+        if calendar is None:
+            self.calendar = None
+        elif isinstance(calendar, str | CalendarConfig):
+            self.calendar = TradingCalendar(calendar)
+        elif isinstance(calendar, TradingCalendar):
+            self.calendar = calendar
+        else:
+            raise TypeError(
+                f"calendar must be str, CalendarConfig, TradingCalendar, or None, got {type(calendar)}"
+            )
+        # Legacy attributes for compatibility with existing split() implementation
+        # These reference the config values
+        self.gap = gap
+        self.embargo_pct = embargo_pct
+        self.expanding = expanding
+        self.consecutive = consecutive
+    # Property accessors for config values (clean API)
+    @property
+    def n_splits(self) -> int:
+        """Number of cross-validation folds."""
+        return self.config.n_splits
+    @property
+    def test_size(self) -> int | float | str | None:
+        """Test set size specification."""
+        return self.config.test_size
+    @property
+    def train_size(self) -> int | float | str | None:
+        """Training set size specification."""
+        return self.config.train_size
+    @property
+    def label_horizon(self) -> int:
+        """Forward-looking period of labels."""
+        return self.config.label_horizon
+    @property
+    def embargo_size(self) -> int | None:
+        """Embargo buffer size."""
+        return self.config.embargo_td
+    @property
+    def align_to_sessions(self) -> bool:
+        """Whether to align fold boundaries to sessions."""
+        return self.config.align_to_sessions
+    @property
+    def session_col(self) -> str:
+        """Column name containing session identifiers."""
+        return self.config.session_col
+    @property
+    def timestamp_col(self) -> str | None:
+        """Column name containing timestamps for time-based sizes."""
+        return self.config.timestamp_col
+    @property
+    def isolate_groups(self) -> bool:
+        """Whether to prevent group overlap between train/test."""
+        return self.config.isolate_groups
+    def _parse_time_size(
+        self,
+        size_spec: int | float | str,
+        timestamps: pd.DatetimeIndex | None,
+        n_samples: int,
+    ) -> int:
+        """Parse size specification and convert to sample count.
+        Uses calendar-aware logic if calendar is configured, otherwise falls back
+        to naive time-based calculation.
+        Parameters
+        ----------
+        size_spec : int, float, or str
+            Size specification to parse.
+        timestamps : pd.DatetimeIndex
+            Datetime index of the data.
+        n_samples : int
+            Total number of samples in dataset.
+        Returns
+        -------
+        int
+            Number of samples corresponding to the size specification.
+        """
+        if isinstance(size_spec, str):
+            # Time-based specification (e.g., "4W", "30D", "3M")
+            if timestamps is None:
+                raise ValueError(
+                    "Time-based size specifications require timestamps. "
+                    "For pandas DataFrames: use a DatetimeIndex. "
+                    "For Polars DataFrames: set timestamp_col='your_datetime_column'. "
+                    "Example: PurgedWalkForwardCV(test_size='4W', timestamp_col='date')"
+                )
+            # Use calendar-aware parsing if calendar is configured
+            return parse_time_size_calendar_aware(
+                size_spec=size_spec,
+                timestamps=timestamps,
+                calendar=self.calendar,
+            )
+        elif isinstance(size_spec, float):
+            # Proportion of dataset
+            return int(n_samples * size_spec)
+        else:
+            # Integer sample count
+            return size_spec
+    def get_n_splits(
+        self,
+        X: Union[pl.DataFrame, pd.DataFrame, "NDArray[Any]"] | None = None,
+        y: Union[pl.Series, pd.Series, "NDArray[Any]"] | None = None,
+        groups: Union[pl.Series, pd.Series, "NDArray[Any]"] | None = None,
+    ) -> int:
+        """Get number of splits.
+        Parameters
+        ----------
+        X : array-like, optional
+            Always ignored, exists for compatibility.
+        y : array-like, optional
+            Always ignored, exists for compatibility.
+        groups : array-like, optional
+            Always ignored, exists for compatibility.
+        Returns:
+        -------
+        n_splits : int
+            Number of splits.
+        """
+        del X, y, groups  # Unused, for sklearn compatibility
+        return self.n_splits
+    def split(
+        self,
+        X: Union[pl.DataFrame, pd.DataFrame, "NDArray[Any]"],
+        y: Union[pl.Series, pd.Series, "NDArray[Any]"] | None = None,
+        groups: Union[pl.Series, pd.Series, "NDArray[Any]"] | None = None,
+    ) -> Generator[tuple["NDArray[np.intp]", "NDArray[np.intp]"], None, None]:
+        """Generate train/test indices for walk-forward splits.
+        Parameters
+        ----------
+        X : array-like of shape (n_samples, n_features)
+            Training data.
+        y : array-like of shape (n_samples,), optional
+            Target variable.
+        groups : array-like of shape (n_samples,), optional
+            Group labels for samples.
+        Yields:
+        ------
+        train : ndarray
+            Training set indices for this split.
+        test : ndarray
+            Test set indices for this split.
+        """
+        # Validate inputs and get sample count
+        n_samples = self._validate_data(X, y, groups)
+        # Validate session alignment if enabled
+        self._validate_session_alignment(X, self.align_to_sessions, self.session_col)
+        # Branch between session-based and sample-based logic
+        if self.align_to_sessions:
+            # Session-aware splitting: operate on unique sessions
+            # X is verified to be a DataFrame by _validate_session_alignment
+            yield from self._split_by_sessions(
+                cast(pl.DataFrame | pd.DataFrame, X), y, groups, n_samples
+            )
+        else:
+            # Standard sample-based splitting
+            yield from self._split_by_samples(X, y, groups, n_samples)
+    def _split_by_samples(
+        self,
+        X: Union[pl.DataFrame, pd.DataFrame, "NDArray[Any]"],
+        _y: Union[pl.Series, pd.Series, "NDArray[Any]"] | None,
+        groups: Union[pl.Series, pd.Series, "NDArray[Any]"] | None,
+        n_samples: int,
+    ) -> Generator[tuple["NDArray[np.intp]", "NDArray[np.intp]"], None, None]:
+        """Generate splits using sample indices (original implementation)."""
+        # Extract timestamps if available (supports both Polars and pandas)
+        timestamps = self._extract_timestamps(X, self.timestamp_col)
+        # Calculate test size
+        if self.test_size is None:
+            test_size = n_samples // (self.n_splits + 1)
+        else:
+            test_size = self._parse_time_size(self.test_size, timestamps, n_samples)
+        # Calculate train size if specified
+        if self.train_size is not None:
+            train_size = self._parse_time_size(self.train_size, timestamps, n_samples)
+        else:
+            train_size = None
+        # Calculate split points
+        if self.consecutive:
+            # Consecutive walk-forward: back-to-back test periods with no gaps
+            # Useful for realistic trading simulation where test periods are sequential
+            step_size = test_size
+            # Determine where first test period starts
+            if train_size is not None and not self.expanding:
+                # Rolling window: first test comes after initial training window
+                first_test_start = train_size
+            elif self.expanding:
+                # Expanding window: ensure we have enough data for minimum train_size
+                # or default to test_size if train_size not specified
+                first_test_start = train_size if train_size is not None else test_size
+            else:
+                # No train_size specified and not expanding: start after first test-sized chunk
+                first_test_start = test_size
+            # Validate we have enough data for all consecutive periods
+            total_required = first_test_start + self.n_splits * test_size
+            if total_required > n_samples:
+                raise ValueError(
+                    f"Insufficient data for consecutive={self.consecutive}: "
+                    f"need {total_required:,} samples (first_test at {first_test_start:,} "
+                    f"+ {self.n_splits} × {test_size:,}), but only have {n_samples:,}"
+                )
+        else:
+            # Spread folds across available data to sample different time periods
+            # Useful for testing robustness across different market regimes
+            available_for_splits = n_samples - test_size
+            step_size = available_for_splits // self.n_splits
+            first_test_start = test_size
+        for i in range(self.n_splits):
+            # Calculate test indices
+            test_start = first_test_start + i * step_size
+            test_end = min(test_start + test_size, n_samples)
+            # For the last split, optionally use all remaining data
+            # (only if test_size was not explicitly specified)
+            if i == self.n_splits - 1 and self.test_size is None:
+                test_end = n_samples
+            # Calculate train indices
+            if self.expanding:
+                # Expanding window: use all data from start
+                train_start = 0
+            else:
+                # Rolling window
+                if train_size is not None:
+                    train_start = max(0, test_start - self.gap - train_size)
+                else:
+                    # If no train_size specified, use all available data
+                    train_start = 0
+            # Apply gap
+            train_end = test_start - self.gap
+            # Initial train indices (before purging/embargo)
+            train_indices = np.arange(train_start, train_end)
+            # Convert test boundaries to timestamps if needed
+            test_start_time, test_end_time = convert_indices_to_timestamps(
+                test_start,
+                test_end,
+                timestamps,
+            )
+            # Apply purging and embargo
+            clean_train_indices = apply_purging_and_embargo(
+                train_indices=train_indices,
+                test_start=test_start_time,
+                test_end=test_end_time,
+                label_horizon=self.label_horizon,
+                embargo_size=self.embargo_size,
+                embargo_pct=self.embargo_pct,
+                n_samples=n_samples,
+                timestamps=timestamps,
+            )
+            # Test indices
+            test_indices = np.arange(test_start, test_end, dtype=np.intp)
+            # Apply group isolation if requested
+            if self.isolate_groups and groups is not None:
+                clean_train_indices = isolate_groups_from_train(
+                    clean_train_indices, test_indices, groups
+                )
+            yield clean_train_indices.astype(np.intp), test_indices
+    def _split_by_sessions(
+        self,
+        X: pl.DataFrame | pd.DataFrame,
+        _y: Union[pl.Series, pd.Series, "NDArray[Any]"] | None,
+        groups: Union[pl.Series, pd.Series, "NDArray[Any]"] | None,
+        n_samples: int,
+    ) -> Generator[tuple["NDArray[np.intp]", "NDArray[np.intp]"], None, None]:
+        """Generate splits using session boundaries (session-aware)."""
+        # Get unique sessions in chronological order
+        unique_sessions = self._get_unique_sessions(X, self.session_col)
+        n_sessions = len(unique_sessions)
+        # Extract timestamps if available (for purging/embargo)
+        timestamps = self._extract_timestamps(X, self.timestamp_col)
+        # Calculate test size in sessions
+        if self.test_size is None:
+            test_size_sessions = n_sessions // (self.n_splits + 1)
+        elif isinstance(self.test_size, int):
+            # Integer test_size: interpret as number of sessions
+            test_size_sessions = self.test_size
+        elif isinstance(self.test_size, float):
+            # Float test_size: proportion of sessions
+            test_size_sessions = int(n_sessions * self.test_size)
+        else:
+            # Time-based test_size not supported with sessions
+            raise ValueError(
+                f"align_to_sessions=True does not support time-based test_size. "
+                f"Use integer (number of sessions) or float (proportion). Got: {self.test_size}"
+            )
+        # Calculate train size in sessions if specified
+        if self.train_size is not None:
+            if isinstance(self.train_size, int):
+                train_size_sessions = self.train_size
+            elif isinstance(self.train_size, float):
+                train_size_sessions = int(n_sessions * self.train_size)
+            else:
+                raise ValueError(
+                    f"align_to_sessions=True does not support time-based train_size. "
+                    f"Use integer (number of sessions) or float (proportion). Got: {self.train_size}"
+                )
+        else:
+            train_size_sessions = None
+        # Calculate split points in session space
+        if self.consecutive:
+            step_size_sessions = test_size_sessions
+            if train_size_sessions is not None and not self.expanding:
+                first_test_start_session = train_size_sessions
+            elif self.expanding:
+                first_test_start_session = (
+                    train_size_sessions if train_size_sessions is not None else test_size_sessions
+                )
+            else:
+                first_test_start_session = test_size_sessions
+            total_required_sessions = first_test_start_session + self.n_splits * test_size_sessions
+            if total_required_sessions > n_sessions:
+                raise ValueError(
+                    f"Insufficient sessions for consecutive={self.consecutive}: "
+                    f"need {total_required_sessions:,} sessions (first_test at {first_test_start_session:,} "
+                    f"+ {self.n_splits} × {test_size_sessions:,}), but only have {n_sessions:,}"
+                )
+        else:
+            available_for_splits_sessions = n_sessions - test_size_sessions
+            step_size_sessions = available_for_splits_sessions // self.n_splits
+            first_test_start_session = test_size_sessions
+        # Generate splits by mapping session ranges to row indices
+        for i in range(self.n_splits):
+            # Calculate test session range
+            test_start_session = first_test_start_session + i * step_size_sessions
+            test_end_session = min(test_start_session + test_size_sessions, n_sessions)
+            if i == self.n_splits - 1 and self.test_size is None:
+                test_end_session = n_sessions
+            # Calculate train session range
+            if self.expanding:
+                train_start_session = 0
+            else:
+                if train_size_sessions is not None:
+                    train_start_session = max(
+                        0, test_start_session - self.gap - train_size_sessions
+                    )
+                else:
+                    train_start_session = 0
+            train_end_session = test_start_session - self.gap
+            # Get session IDs for train and test
+            if isinstance(unique_sessions, pl.Series):
+                train_sessions = unique_sessions[train_start_session:train_end_session].to_list()
+                test_sessions = unique_sessions[test_start_session:test_end_session].to_list()
+                session_col_values = X[self.session_col]
+            else:  # pandas Series
+                train_sessions = unique_sessions.iloc[
+                    train_start_session:train_end_session
+                ].tolist()
+                test_sessions = unique_sessions.iloc[test_start_session:test_end_session].tolist()
+                session_col_values = X[self.session_col]
+            # Map sessions to row indices
+            if isinstance(X, pl.DataFrame):
+                train_mask = session_col_values.is_in(train_sessions)
+                test_mask = session_col_values.is_in(test_sessions)
+                train_indices = np.where(train_mask.to_numpy())[0]
+                test_indices = np.where(test_mask.to_numpy())[0]
+            else:  # pandas DataFrame
+                # Cast to pd.Series since X is pd.DataFrame here
+                session_col_pd = cast(pd.Series, session_col_values)
+                train_mask = session_col_pd.isin(train_sessions)
+                test_mask = session_col_pd.isin(test_sessions)
+                train_indices = np.where(train_mask.to_numpy())[0]
+                test_indices = np.where(test_mask.to_numpy())[0]
+            # Apply purging and embargo if configured
+            if self._has_purging_or_embargo():
+                # Compute actual timestamp bounds from test indices
+                # This is critical for multi-asset data where rows may be sorted by
+                # asset rather than time - using positional indices [0] and [-1] would
+                # give incorrect timestamp bounds
+                test_start_time, test_end_time = self._timestamp_window_from_indices(
+                    test_indices, timestamps
+                )
+                clean_train_indices = apply_purging_and_embargo(
+                    train_indices=train_indices,
+                    test_start=test_start_time,
+                    test_end=test_end_time,
+                    label_horizon=self.label_horizon,
+                    embargo_size=self.embargo_size,
+                    embargo_pct=self.embargo_pct,
+                    n_samples=n_samples,
+                    timestamps=timestamps,
+                )
+            else:
+                clean_train_indices = train_indices
+            # Apply group isolation if requested
+            if self.isolate_groups and groups is not None:
+                clean_train_indices = isolate_groups_from_train(
+                    clean_train_indices, test_indices, groups
+                )
+            yield clean_train_indices.astype(np.intp), test_indices.astype(np.intp)
+    def _has_purging_or_embargo(self) -> bool:
+        """Check if purging or embargo is needed.
+        Handles both int and pd.Timedelta values for label_horizon and embargo_size.
+        Returns
+        -------
+        bool
+            True if purging or embargo should be applied.
+        """
+        # Check label_horizon (can be int or Timedelta)
+        has_label_horizon = False
+        if isinstance(self.label_horizon, int | float):
+            has_label_horizon = self.label_horizon > 0
+        elif hasattr(self.label_horizon, "total_seconds"):  # pd.Timedelta
+            has_label_horizon = self.label_horizon.total_seconds() > 0
+        # Check embargo (embargo_size can be int or Timedelta, embargo_pct is always float or None)
+        has_embargo = self.embargo_size is not None or self.embargo_pct is not None
+        return has_label_horizon or has_embargo
+    @staticmethod
+    def _timestamp_window_from_indices(
+        indices: "NDArray[np.intp]",
+        timestamps: pd.DatetimeIndex | None,
+    ) -> tuple[int | pd.Timestamp, int | pd.Timestamp]:
+        """Compute timestamp window from actual indices (for session-aligned purging).
+        This is critical for correct purging in session-aligned mode. Instead of
+        using positional indices [0] and [-1] which assume chronological ordering,
+        we compute the actual timestamp bounds from all test indices.
+        For multi-asset data where rows may be sorted by asset rather than time,
+        test_indices[0] may not have the minimum timestamp.
+        Parameters
+        ----------
+        indices : ndarray
+            Row indices of test samples.
+        timestamps : pd.DatetimeIndex or None
+            Timestamps for all samples. If None, returns index bounds.
+        Returns
+        -------
+        start_time : int or pd.Timestamp
+            Minimum timestamp of test indices (or min index if no timestamps).
+        end_time_exclusive : int or pd.Timestamp
+            Maximum timestamp + 1 nanosecond (or max index + 1 if no timestamps).
+        """
+        if len(indices) == 0:
+            # Empty indices - return minimal bounds
+            if timestamps is None:
+                return 0, 0
+            return timestamps[0], timestamps[0]
+        if timestamps is None:
+            # No timestamps - return index bounds
+            return int(indices.min()), int(indices.max()) + 1
+        test_timestamps = timestamps.take(indices)
+        start_time = test_timestamps.min()
+        # Add 1 nanosecond to make end exclusive (handles duplicate timestamps)
+        end_time_exclusive = test_timestamps.max() + pd.Timedelta(1, "ns")
+        return start_time, end_time_exclusive