PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/config/validation.py ADDED Viewed

@@ -0,0 +1,279 @@
+"""Custom validators and validation utilities.
+This module provides reusable validators, custom types, and validation
+helpers used across the configuration system.
+"""
+from __future__ import annotations
+from enum import Enum
+from typing import Annotated
+from pydantic import Field
+# Custom type aliases for common constraints
+PositiveInt = Annotated[int, Field(gt=0)]
+NonNegativeInt = Annotated[int, Field(ge=0)]
+PositiveFloat = Annotated[float, Field(gt=0.0)]
+NonNegativeFloat = Annotated[float, Field(ge=0.0)]
+Probability = Annotated[float, Field(ge=0.0, le=1.0)]
+CorrelationValue = Annotated[float, Field(ge=-1.0, le=1.0)]
+class SignificanceLevel(float, Enum):
+    """Standard significance levels for hypothesis testing."""
+    LEVEL_01 = 0.01
+    LEVEL_05 = 0.05
+    LEVEL_10 = 0.10
+class CorrelationMethod(str, Enum):
+    """Correlation calculation methods."""
+    PEARSON = "pearson"
+    SPEARMAN = "spearman"
+    KENDALL = "kendall"
+class StationarityTest(str, Enum):
+    """Stationarity test types."""
+    ADF = "adf"  # Augmented Dickey-Fuller
+    KPSS = "kpss"  # Kwiatkowski-Phillips-Schmidt-Shin
+    PP = "pp"  # Phillips-Perron
+class RegressionType(str, Enum):
+    """Regression types for stationarity tests."""
+    CONSTANT = "c"  # Constant only
+    CONSTANT_TREND = "ct"  # Constant and trend
+    CONSTANT_TREND_SQUARED = "ctt"  # Constant, trend, and trend squared
+    NONE = "n"  # No constant or trend
+class ClusteringMethod(str, Enum):
+    """Clustering algorithm types."""
+    HIERARCHICAL = "hierarchical"
+    KMEANS = "kmeans"
+    DBSCAN = "dbscan"
+class LinkageMethod(str, Enum):
+    """Linkage methods for hierarchical clustering."""
+    WARD = "ward"
+    COMPLETE = "complete"
+    AVERAGE = "average"
+    SINGLE = "single"
+class DistanceMetric(str, Enum):
+    """Distance metrics for clustering."""
+    EUCLIDEAN = "euclidean"
+    CORRELATION = "correlation"
+    MANHATTAN = "manhattan"
+    COSINE = "cosine"
+class NormalityTest(str, Enum):
+    """Normality test types."""
+    JARQUE_BERA = "jarque_bera"
+    SHAPIRO = "shapiro"
+    KOLMOGOROV_SMIRNOV = "ks"
+    ANDERSON = "anderson"
+class OutlierMethod(str, Enum):
+    """Outlier detection methods."""
+    ZSCORE = "zscore"
+    IQR = "iqr"
+    ISOLATION_FOREST = "isolation_forest"
+class VolatilityClusterMethod(str, Enum):
+    """Methods for detecting volatility clustering."""
+    LJUNG_BOX = "ljung_box"
+    ENGLE_ARCH = "engle_arch"
+class ThresholdOptimizationTarget(str, Enum):
+    """Optimization targets for threshold analysis."""
+    SHARPE = "sharpe"
+    PRECISION = "precision"
+    RECALL = "recall"
+    F1 = "f1"
+    INFORMATION_COEFFICIENT = "ic"
+class DriftDetectionMethod(str, Enum):
+    """Feature drift detection methods."""
+    KOLMOGOROV_SMIRNOV = "ks"
+    WASSERSTEIN = "wasserstein"
+    PSI = "psi"  # Population Stability Index
+class PortfolioMetric(str, Enum):
+    """Portfolio performance metrics."""
+    SHARPE = "sharpe"
+    SORTINO = "sortino"
+    CALMAR = "calmar"
+    MAX_DRAWDOWN = "max_dd"
+    VAR = "var"  # Value at Risk
+    CVAR = "cvar"  # Conditional Value at Risk
+    OMEGA = "omega"
+class TimeFrequency(str, Enum):
+    """Time aggregation frequencies."""
+    DAILY = "daily"
+    WEEKLY = "weekly"
+    MONTHLY = "monthly"
+    QUARTERLY = "quarterly"
+    ANNUAL = "annual"
+class FDRMethod(str, Enum):
+    """False Discovery Rate control methods."""
+    BONFERRONI = "bonferroni"
+    HOLM = "holm"
+    BENJAMINI_HOCHBERG = "bh"
+    BENJAMINI_YEKUTIELI = "by"
+class BayesianPriorDistribution(str, Enum):
+    """Prior distributions for Bayesian analysis."""
+    NORMAL = "normal"
+    STUDENT_T = "student_t"
+    UNIFORM = "uniform"
+class ReportFormat(str, Enum):
+    """Report output formats."""
+    HTML = "html"
+    JSON = "json"
+    PDF = "pdf"
+class ReportTemplate(str, Enum):
+    """Report templates."""
+    FULL = "full"
+    SUMMARY = "summary"
+    DIAGNOSTIC = "diagnostic"
+class ReportTheme(str, Enum):
+    """Report visual themes."""
+    LIGHT = "light"
+    DARK = "dark"
+    PROFESSIONAL = "professional"
+class TableFormat(str, Enum):
+    """Table formatting styles."""
+    STYLED = "styled"
+    PLAIN = "plain"
+    DATATABLES = "datatables"
+class DataFrameExportFormat(str, Enum):
+    """DataFrame serialization formats for JSON."""
+    RECORDS = "records"  # list of dicts
+    SPLIT = "split"  # {index: [...], columns: [...], data: [...]}
+    INDEX = "index"  # {index: {column: value}}
+def validate_positive_int(v: int, field_name: str = "value") -> int:
+    """Validate that an integer is positive.
+    Args:
+        v: Value to validate
+        field_name: Name of field for error messages
+    Returns:
+        Validated value
+    Raises:
+        ValueError: If value is not positive
+    """
+    if v <= 0:
+        raise ValueError(f"{field_name} must be positive (got {v})")
+    return v
+def validate_probability(v: float, field_name: str = "probability") -> float:
+    """Validate that a float is in [0, 1].
+    Args:
+        v: Value to validate
+        field_name: Name of field for error messages
+    Returns:
+        Validated value
+    Raises:
+        ValueError: If value is not in [0, 1]
+    """
+    if not 0.0 <= v <= 1.0:
+        raise ValueError(f"{field_name} must be in [0, 1] (got {v})")
+    return v
+def validate_significance_level(v: float) -> float:
+    """Validate significance level is a standard value.
+    Args:
+        v: Significance level
+    Returns:
+        Validated significance level
+    Raises:
+        ValueError: If not a standard significance level
+    """
+    standard_levels = {0.01, 0.05, 0.10}
+    if v not in standard_levels:
+        raise ValueError(
+            f"Significance level {v} is non-standard. Consider using 0.01, 0.05, or 0.10 for interpretability."
+        )
+    return v
+def validate_min_max_range(
+    min_val: float, max_val: float, field_prefix: str = "range"
+) -> tuple[float, float]:
+    """Validate that min < max.
+    Args:
+        min_val: Minimum value
+        max_val: Maximum value
+        field_prefix: Prefix for error messages
+    Returns:
+        Validated (min, max) tuple
+    Raises:
+        ValueError: If min >= max
+    """
+    if min_val >= max_val:
+        raise ValueError(
+            f"{field_prefix}_min must be < {field_prefix}_max (got {min_val} >= {max_val})"
+        )
+    return min_val, max_val

ml4t/diagnostic/core/__init__.py ADDED Viewed

@@ -0,0 +1,29 @@
+"""Core functionality for ml4t-diagnostic.
+This module contains the fundamental logic for purging, embargo, and sampling
+that underlies all cross-validation splitters.
+"""
+from ml4t.diagnostic.core.purging import (
+    apply_purging_and_embargo,
+    calculate_embargo_indices,
+    calculate_purge_indices,
+)
+from ml4t.diagnostic.core.sampling import (
+    balanced_subsample,
+    block_bootstrap,
+    event_based_sample,
+    sample_weights_by_importance,
+    stratified_sample_time_series,
+)
+__all__: list[str] = [
+    "apply_purging_and_embargo",
+    "balanced_subsample",
+    "calculate_embargo_indices",
+    "calculate_purge_indices",
+    "event_based_sample",
+    "sample_weights_by_importance",
+    "block_bootstrap",
+    "stratified_sample_time_series",
+]

ml4t/diagnostic/core/numba_utils.py ADDED Viewed

@@ -0,0 +1,315 @@
+"""Numba-optimized utility functions for ML4T Diagnostic.
+This module contains JIT-compiled functions for performance-critical operations.
+Numba is used to optimize computationally intensive loops and array operations.
+Note: Numba functions work best with NumPy arrays and simple Python types.
+They cannot handle Pandas objects directly.
+"""
+import numpy as np
+from numba import jit
+@jit(nopython=True, cache=True)
+def calculate_drawdown_numba(
+    cum_returns: np.ndarray,
+) -> tuple[float, int, int, int]:
+    """Numba-optimized maximum drawdown calculation.
+    Parameters
+    ----------
+    cum_returns : np.ndarray
+        Array of cumulative returns
+    Returns
+    -------
+    Tuple[float, int, int, int]
+        (max_drawdown, duration, peak_idx, trough_idx)
+    """
+    n = len(cum_returns)
+    if n == 0:
+        return np.nan, -1, -1, -1
+    max_drawdown = 0.0
+    max_duration = 0
+    peak_idx = 0
+    trough_idx = 0
+    current_peak = cum_returns[0]
+    current_peak_idx = 0
+    for i in range(1, n):
+        # Update peak if necessary
+        if cum_returns[i] > current_peak:
+            current_peak = cum_returns[i]
+            current_peak_idx = i
+        # Calculate current drawdown
+        drawdown = cum_returns[i] - current_peak
+        # Update max drawdown if necessary
+        if drawdown < max_drawdown:
+            max_drawdown = drawdown
+            peak_idx = current_peak_idx
+            trough_idx = i
+            max_duration = i - current_peak_idx
+    return max_drawdown, max_duration, peak_idx, trough_idx
+@jit(nopython=True, cache=True)
+def purge_indices_numba(
+    test_start: int,
+    _test_end: int,
+    label_horizon: int,
+    n_samples: int,
+) -> np.ndarray:
+    """Numba-optimized calculation of purge indices.
+    Parameters
+    ----------
+    test_start : int
+        Start index of test period
+    test_end : int
+        End index of test period
+    label_horizon : int
+        Forward-looking period of labels
+    n_samples : int
+        Total number of samples
+    Returns
+    -------
+    np.ndarray
+        Array of indices to purge
+    """
+    purge_start = max(0, test_start - label_horizon)
+    purge_end = min(test_start, n_samples)
+    if purge_start >= purge_end:
+        return np.empty(0, dtype=np.int64)
+    return np.arange(purge_start, purge_end, dtype=np.int64)
+@jit(nopython=True, cache=True)
+def embargo_indices_numba(
+    test_end: int,
+    embargo_size: int,
+    n_samples: int,
+) -> np.ndarray:
+    """Numba-optimized calculation of embargo indices.
+    Parameters
+    ----------
+    test_end : int
+        End index of test period
+    embargo_size : int
+        Number of samples to embargo after test set
+    n_samples : int
+        Total number of samples
+    Returns
+    -------
+    np.ndarray
+        Array of indices to embargo
+    """
+    embargo_start = test_end
+    embargo_end = min(test_end + embargo_size, n_samples)
+    if embargo_start >= embargo_end:
+        return np.empty(0, dtype=np.int64)
+    return np.arange(embargo_start, embargo_end, dtype=np.int64)
+@jit(nopython=True, cache=True, parallel=True)
+def block_bootstrap_numba(
+    indices: np.ndarray,
+    n_samples: int,
+    sample_length: int,
+    seed: int,
+) -> np.ndarray:
+    """Numba-optimized block bootstrap sampling.
+    Parameters
+    ----------
+    indices : np.ndarray
+        Array of indices to sample from
+    n_samples : int
+        Number of bootstrap samples to generate
+    sample_length : int
+        Length of each sequential sample
+    seed : int
+        Random seed for reproducibility
+    Returns
+    -------
+    np.ndarray
+        Bootstrap sample indices
+    """
+    np.random.seed(seed)
+    n_indices = len(indices)
+    # Handle edge cases
+    if sample_length >= n_indices:
+        if n_samples <= n_indices:
+            return indices[:n_samples].copy()
+        # Repeat indices to meet n_samples requirement
+        repeats = (n_samples // n_indices) + 1
+        result = np.empty(repeats * n_indices, dtype=indices.dtype)
+        for i in range(repeats):
+            result[i * n_indices : (i + 1) * n_indices] = indices
+        return result[:n_samples]
+    # Pre-allocate result array
+    result = np.empty(n_samples, dtype=indices.dtype)
+    filled = 0
+    while filled < n_samples:
+        # Sample a random starting point
+        start_idx = np.random.randint(0, n_indices - sample_length + 1)
+        # Determine how many samples to take
+        samples_to_take = min(sample_length, n_samples - filled)
+        # Copy sequential samples
+        for i in range(samples_to_take):
+            result[filled + i] = indices[start_idx + i]
+        filled += samples_to_take
+    return result
+@jit(nopython=True, cache=True)
+def rolling_sharpe_numba(
+    returns: np.ndarray,
+    window: int,
+    risk_free_rate: float = 0.0,
+    periods_per_year: int = 252,
+) -> np.ndarray:
+    """Numba-optimized rolling Sharpe ratio calculation.
+    Parameters
+    ----------
+    returns : np.ndarray
+        Array of returns
+    window : int
+        Rolling window size
+    risk_free_rate : float
+        Risk-free rate (annualized)
+    periods_per_year : int
+        Number of periods per year for annualization
+    Returns
+    -------
+    np.ndarray
+        Array of rolling Sharpe ratios
+    """
+    n = len(returns)
+    if n < window:
+        return np.full(n, np.nan)
+    result = np.full(n, np.nan)
+    daily_rf = risk_free_rate / periods_per_year
+    sqrt_periods = np.sqrt(periods_per_year)
+    for i in range(window - 1, n):
+        window_returns = returns[i - window + 1 : i + 1]
+        excess_returns = window_returns - daily_rf
+        mean_excess = np.mean(excess_returns)
+        std_excess = np.std(excess_returns)
+        if std_excess > 0:
+            result[i] = mean_excess / std_excess * sqrt_periods
+        else:
+            # If std is zero, check if mean is also zero
+            if abs(mean_excess) < 1e-10:
+                result[i] = 0.0
+            else:
+                result[i] = np.nan
+    return result
+@jit(nopython=True, cache=True, parallel=True)
+def calculate_ic_vectorized(
+    predictions: np.ndarray,
+    returns: np.ndarray,
+    method: int = 0,  # 0=pearson, 1=spearman
+) -> float:
+    """Numba-optimized Information Coefficient calculation.
+    Parameters
+    ----------
+    predictions : np.ndarray
+        Array of predictions
+    returns : np.ndarray
+        Array of returns
+    method : int
+        0 for Pearson, 1 for Spearman
+    Returns
+    -------
+    float
+        Information coefficient
+    """
+    n = len(predictions)
+    if n != len(returns) or n < 2:
+        return np.nan
+    # Remove NaN values
+    valid_mask = ~(np.isnan(predictions) | np.isnan(returns))
+    pred_clean = predictions[valid_mask]
+    ret_clean = returns[valid_mask]
+    if len(pred_clean) < 2:
+        return np.nan
+    if method == 1:  # Spearman
+        # Rank the data
+        pred_clean = _rank_data_numba(pred_clean)
+        ret_clean = _rank_data_numba(ret_clean)
+    # Calculate Pearson correlation
+    pred_mean = np.mean(pred_clean)
+    ret_mean = np.mean(ret_clean)
+    numerator = np.sum((pred_clean - pred_mean) * (ret_clean - ret_mean))
+    denominator = np.sqrt(
+        np.sum((pred_clean - pred_mean) ** 2) * np.sum((ret_clean - ret_mean) ** 2)
+    )
+    if denominator == 0:
+        return 0.0
+    return numerator / denominator
+@jit(nopython=True, cache=True)
+def _rank_data_numba(data: np.ndarray) -> np.ndarray:
+    """Helper function to rank data for Spearman correlation."""
+    n = len(data)
+    indices = np.argsort(data)
+    ranks = np.empty(n)
+    for i in range(n):
+        ranks[indices[i]] = i + 1
+    # Handle ties by averaging ranks
+    sorted_data = data[indices]
+    i = 0
+    while i < n:
+        j = i
+        # Find all equal values
+        while j < n - 1 and sorted_data[j] == sorted_data[j + 1]:
+            j += 1
+        # Average ranks for ties
+        if i != j:
+            avg_rank = (ranks[indices[i]] + ranks[indices[j]]) / 2
+            for k in range(i, j + 1):
+                ranks[indices[k]] = avg_rank
+        i = j + 1
+    return ranks