PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/metrics/monotonicity.py ADDED Viewed

@@ -0,0 +1,226 @@
+"""Monotonicity: Test monotonic relationship between feature values and outcomes.
+Monotonicity is a key property for predictive features - we expect higher
+(or lower) feature values to consistently correspond to higher outcomes.
+"""
+from typing import TYPE_CHECKING, Any, Union
+import numpy as np
+import pandas as pd
+import polars as pl
+from scipy import stats
+from scipy.stats import spearmanr
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+def compute_monotonicity(
+    features: Union[pl.DataFrame, pd.DataFrame, "NDArray[Any]"],
+    outcomes: Union[pl.DataFrame, pd.DataFrame, "NDArray[Any]"],
+    n_quantiles: int = 5,
+    feature_col: str | None = None,
+    outcome_col: str | None = None,
+    method: str = "spearman",
+) -> dict[str, Any]:
+    """Test monotonic relationship between feature values and outcomes.
+    Monotonicity is a key property for predictive features - we expect higher
+    (or lower) feature values to consistently correspond to higher outcomes.
+    Non-monotonic relationships often indicate:
+    1. Feature needs transformation (e.g., absolute value, log)
+    2. Feature has regime-dependent behavior
+    3. Feature is not truly predictive
+    This function bins features into quantiles and checks if mean outcomes
+    increase/decrease monotonically across bins.
+    Parameters
+    ----------
+    features : Union[pl.DataFrame, pd.DataFrame, np.ndarray]
+        Feature values to test
+    outcomes : Union[pl.DataFrame, pd.DataFrame, np.ndarray]
+        Outcome values (typically returns)
+    n_quantiles : int, default 5
+        Number of quantile bins (5 = quintiles, 10 = deciles)
+    feature_col : str | None, default None
+        Column name for features (if DataFrame)
+    outcome_col : str | None, default None
+        Column name for outcomes (if DataFrame)
+    method : str, default "spearman"
+        Correlation method: "spearman" or "pearson"
+    Returns
+    -------
+    dict[str, Any]
+        Dictionary with monotonicity analysis:
+        - correlation: Spearman/Pearson correlation
+        - p_value: Statistical significance of correlation
+        - quantile_means: Mean outcome per quantile
+        - quantile_labels: Quantile labels (Q1, Q2, ...)
+        - is_monotonic: Boolean, True if strictly monotonic
+        - monotonicity_score: Fraction of quantile pairs that are monotonic (0-1)
+        - direction: "increasing", "decreasing", or "non-monotonic"
+        - n_observations: Total observations
+        - n_per_quantile: Observations per quantile
+    Examples
+    --------
+    >>> # Test if momentum predicts returns
+    >>> features = df['momentum']
+    >>> outcomes = df['forward_return']
+    >>> result = compute_monotonicity(features, outcomes, n_quantiles=5)
+    >>>
+    >>> print(f"Correlation: {result['correlation']:.3f}")
+    >>> print(f"P-value: {result['p_value']:.4f}")
+    >>> print(f"Monotonic: {result['is_monotonic']}")
+    >>> print(f"Direction: {result['direction']}")
+    >>> print(f"Quantile means: {result['quantile_means']}")
+    Correlation: 0.156
+    P-value: 0.0001
+    Monotonic: True
+    Direction: increasing
+    Quantile means: [-0.002, 0.001, 0.003, 0.005, 0.008]
+    Notes
+    -----
+    Monotonicity Score:
+    - 1.0: Perfect monotonicity (all adjacent quantiles ordered correctly)
+    - 0.8-1.0: Strong monotonicity (minor violations)
+    - 0.6-0.8: Moderate monotonicity
+    - <0.6: Weak or no monotonicity
+    Common Patterns:
+    - Monotonic increasing: Good positive predictor
+    - Monotonic decreasing: Good negative predictor (consider sign flip)
+    - U-shaped: Consider absolute value or squared feature
+    - Flat: Feature not predictive
+    References
+    ----------
+    .. [1] Kakushadze, Z., & Serur, J. A. (2018). "151 Trading Strategies."
+    """
+    # Extract feature and outcome arrays
+    feature_vals: NDArray[Any]
+    if isinstance(features, pl.DataFrame):
+        if feature_col is None:
+            raise ValueError("feature_col must be specified for DataFrame input")
+        feature_vals = features[feature_col].to_numpy()
+    elif isinstance(features, pd.DataFrame):
+        if feature_col is None:
+            raise ValueError("feature_col must be specified for DataFrame input")
+        feature_vals = features[feature_col].to_numpy()
+    else:
+        feature_vals = np.asarray(features).flatten()
+    outcome_vals: NDArray[Any]
+    if isinstance(outcomes, pl.DataFrame):
+        if outcome_col is None:
+            raise ValueError("outcome_col must be specified for DataFrame input")
+        outcome_vals = outcomes[outcome_col].to_numpy()
+    elif isinstance(outcomes, pd.DataFrame):
+        if outcome_col is None:
+            raise ValueError("outcome_col must be specified for DataFrame input")
+        outcome_vals = outcomes[outcome_col].to_numpy()
+    else:
+        outcome_vals = np.asarray(outcomes).flatten()
+    # Validate inputs
+    if len(feature_vals) != len(outcome_vals):
+        raise ValueError(
+            f"Features ({len(feature_vals)}) and outcomes ({len(outcome_vals)}) must have same length"
+        )
+    # Remove NaN values
+    valid_mask = ~(np.isnan(feature_vals.astype(float)) | np.isnan(outcome_vals.astype(float)))
+    feature_clean = feature_vals[valid_mask]
+    outcome_clean = outcome_vals[valid_mask]
+    n = len(feature_clean)
+    if n < n_quantiles * 2:
+        # Insufficient data for quantile analysis
+        return {
+            "correlation": np.nan,
+            "p_value": np.nan,
+            "quantile_means": [],
+            "quantile_labels": [],
+            "is_monotonic": False,
+            "monotonicity_score": 0.0,
+            "direction": "insufficient_data",
+            "n_observations": n,
+            "n_per_quantile": [],
+        }
+    # Compute correlation
+    if method == "spearman":
+        correlation, p_value = spearmanr(feature_clean, outcome_clean)
+    elif method == "pearson":
+        correlation, p_value = stats.pearsonr(feature_clean, outcome_clean)
+    else:
+        raise ValueError(f"Unknown method: {method}. Use 'spearman' or 'pearson'.")
+    # Create quantile bins
+    quantile_edges = np.linspace(0, 100, n_quantiles + 1)
+    quantile_bins = np.percentile(feature_clean, quantile_edges)
+    # Assign observations to quantiles
+    quantile_assignments = np.digitize(feature_clean, quantile_bins[1:-1])  # 0-indexed bins
+    # Compute mean outcome per quantile
+    quantile_means = []
+    n_per_quantile = []
+    for q in range(n_quantiles):
+        mask = quantile_assignments == q
+        if np.sum(mask) > 0:
+            quantile_means.append(float(np.mean(outcome_clean[mask])))
+            n_per_quantile.append(int(np.sum(mask)))
+        else:
+            quantile_means.append(np.nan)
+            n_per_quantile.append(0)
+    # Check monotonicity
+    # Count how many adjacent pairs are ordered correctly
+    monotonic_pairs = 0
+    total_pairs = 0
+    for i in range(len(quantile_means) - 1):
+        if not (np.isnan(quantile_means[i]) or np.isnan(quantile_means[i + 1])):
+            total_pairs += 1
+            # Check if ordered (either increasing or decreasing)
+            if correlation > 0:
+                # Expect increasing
+                if quantile_means[i + 1] > quantile_means[i]:
+                    monotonic_pairs += 1
+            # Expect decreasing
+            elif quantile_means[i + 1] < quantile_means[i]:
+                monotonic_pairs += 1
+    monotonicity_score = monotonic_pairs / total_pairs if total_pairs > 0 else 0.0
+    # Strict monotonicity check (all pairs ordered correctly)
+    is_monotonic = monotonicity_score == 1.0
+    # Determine direction
+    if is_monotonic:
+        direction = "increasing" if correlation > 0 else "decreasing"
+    elif monotonicity_score >= 0.8:
+        direction = "mostly_" + ("increasing" if correlation > 0 else "decreasing")
+    else:
+        direction = "non_monotonic"
+    # Create quantile labels
+    quantile_labels = [f"Q{i + 1}" for i in range(n_quantiles)]
+    return {
+        "correlation": float(correlation),
+        "p_value": float(p_value),
+        "quantile_means": quantile_means,
+        "quantile_labels": quantile_labels,
+        "is_monotonic": is_monotonic,
+        "monotonicity_score": float(monotonicity_score),
+        "direction": direction,
+        "n_observations": n,
+        "n_per_quantile": n_per_quantile,
+    }

ml4t/diagnostic/evaluation/metrics/risk_adjusted.py ADDED Viewed

@@ -0,0 +1,324 @@
+"""Risk-adjusted performance metrics: Sharpe, Sortino, Maximum Drawdown.
+This module provides standard risk-adjusted return metrics used in portfolio
+and strategy evaluation.
+"""
+from typing import TYPE_CHECKING, Any, Union
+import numpy as np
+import pandas as pd
+import polars as pl
+from ml4t.diagnostic.backends.adapter import DataFrameAdapter
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+def sharpe_ratio(
+    returns: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    risk_free_rate: float = 0.0,
+    annualization_factor: float | None = None,
+    confidence_intervals: bool = False,
+    alpha: float = 0.05,
+    bootstrap_samples: int = 1000,
+    random_state: int | None = None,
+) -> float | dict[str, float]:
+    """Calculate Sharpe Ratio with optional confidence intervals.
+    The Sharpe Ratio measures risk-adjusted returns by dividing excess returns
+    by return volatility. Higher values indicate better risk-adjusted performance.
+    Parameters
+    ----------
+    returns : Union[pl.Series, pd.Series, np.ndarray]
+        Time series of returns
+    risk_free_rate : float, default 0.0
+        Risk-free rate (same frequency as returns)
+    annualization_factor : Optional[float], default None
+        Factor to annualize the ratio. If None, no annualization applied
+    confidence_intervals : bool, default False
+        Whether to compute bootstrap confidence intervals
+    alpha : float, default 0.05
+        Significance level for confidence intervals
+    bootstrap_samples : int, default 1000
+        Number of bootstrap samples for confidence intervals
+    random_state : Optional[int], default None
+        Random seed for reproducible bootstrap samples
+    Returns
+    -------
+    Union[float, dict]
+        If confidence_intervals=False: Sharpe ratio value
+        If confidence_intervals=True: dict with 'sharpe', 'lower_ci', 'upper_ci'
+    Examples
+    --------
+    >>> returns = np.array([0.01, 0.02, -0.01, 0.03, 0.00])
+    >>> sharpe = sharpe_ratio(returns, annualization_factor=252)
+    >>> print(f"Sharpe Ratio: {sharpe:.3f}")
+    >>> # With confidence intervals
+    >>> result = sharpe_ratio(returns, confidence_intervals=True, random_state=42)
+    >>> print(f"Sharpe: {result['sharpe']:.3f}")
+    """
+    if confidence_intervals:
+        return sharpe_ratio_with_ci(
+            returns, risk_free_rate, annualization_factor, alpha, bootstrap_samples, random_state
+        )
+    return _sharpe_ratio_core(returns, risk_free_rate, annualization_factor)
+def _sharpe_ratio_core(
+    returns: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    risk_free_rate: float = 0.0,
+    annualization_factor: float | None = None,
+) -> float:
+    """Calculate Sharpe Ratio (core calculation without confidence intervals).
+    Parameters
+    ----------
+    returns : Union[pl.Series, pd.Series, np.ndarray]
+        Time series of returns
+    risk_free_rate : float, default 0.0
+        Risk-free rate (same frequency as returns)
+    annualization_factor : Optional[float], default None
+        Factor to annualize the ratio
+    Returns
+    -------
+    float
+        Sharpe ratio value
+    """
+    ret_array = DataFrameAdapter.to_numpy(returns).flatten()
+    ret_clean = ret_array[~np.isnan(ret_array)]
+    if len(ret_clean) < 2:
+        return np.nan
+    excess_returns = ret_clean - risk_free_rate
+    mean_excess = np.mean(excess_returns)
+    std_excess = np.std(excess_returns, ddof=1)
+    if std_excess == 0:
+        if mean_excess > 0:
+            return np.inf
+        if mean_excess < 0:
+            return -np.inf
+        return np.nan
+    sharpe = mean_excess / std_excess
+    if annualization_factor is not None and not np.isinf(sharpe) and not np.isnan(sharpe):
+        sharpe *= np.sqrt(annualization_factor)
+    return float(sharpe) if not np.isinf(sharpe) else sharpe
+def sharpe_ratio_with_ci(
+    returns: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    risk_free_rate: float = 0.0,
+    annualization_factor: float | None = None,
+    alpha: float = 0.05,
+    bootstrap_samples: int = 1000,
+    random_state: int | None = None,
+) -> dict[str, float]:
+    """Calculate Sharpe Ratio with bootstrap confidence intervals.
+    Parameters
+    ----------
+    returns : Union[pl.Series, pd.Series, np.ndarray]
+        Time series of returns
+    risk_free_rate : float, default 0.0
+        Risk-free rate (same frequency as returns)
+    annualization_factor : Optional[float], default None
+        Factor to annualize the ratio
+    alpha : float, default 0.05
+        Significance level for confidence intervals
+    bootstrap_samples : int, default 1000
+        Number of bootstrap samples for confidence intervals
+    random_state : Optional[int], default None
+        Random seed for reproducible bootstrap samples
+    Returns
+    -------
+    dict[str, float]
+        Dict with 'sharpe', 'lower_ci', 'upper_ci' keys
+    """
+    sharpe = _sharpe_ratio_core(returns, risk_free_rate, annualization_factor)
+    if np.isnan(sharpe) or np.isinf(sharpe):
+        return {"sharpe": sharpe, "lower_ci": np.nan, "upper_ci": np.nan}
+    ret_array = DataFrameAdapter.to_numpy(returns).flatten()
+    ret_clean = ret_array[~np.isnan(ret_array)]
+    if len(ret_clean) < 10:
+        return {"sharpe": sharpe, "lower_ci": np.nan, "upper_ci": np.nan}
+    if random_state is not None:
+        np.random.seed(random_state)
+    bootstrap_sharpes = []
+    for _ in range(bootstrap_samples):
+        bootstrap_sample = np.random.choice(ret_clean, size=len(ret_clean), replace=True)
+        bootstrap_excess = bootstrap_sample - risk_free_rate
+        bootstrap_mean = np.mean(bootstrap_excess)
+        bootstrap_std = np.std(bootstrap_excess, ddof=1)
+        if bootstrap_std > 0:
+            bs_sharpe = bootstrap_mean / bootstrap_std
+            if annualization_factor is not None:
+                bs_sharpe *= np.sqrt(annualization_factor)
+            bootstrap_sharpes.append(bs_sharpe)
+    if len(bootstrap_sharpes) == 0:
+        return {"sharpe": sharpe, "lower_ci": np.nan, "upper_ci": np.nan}
+    lower_ci = np.percentile(bootstrap_sharpes, (alpha / 2) * 100)
+    upper_ci = np.percentile(bootstrap_sharpes, (1 - alpha / 2) * 100)
+    return {"sharpe": sharpe, "lower_ci": float(lower_ci), "upper_ci": float(upper_ci)}
+def maximum_drawdown(
+    returns: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    cumulative: bool = False,
+) -> dict[str, float]:
+    """Calculate Maximum Drawdown and related statistics.
+    Maximum Drawdown measures the largest peak-to-trough decline in cumulative
+    returns. It represents the worst-case loss an investor would experience.
+    Parameters
+    ----------
+    returns : Union[pl.Series, pd.Series, np.ndarray]
+        Time series of returns (or cumulative returns if cumulative=True)
+    cumulative : bool, default False
+        Whether input is already cumulative returns
+    Returns
+    -------
+    dict
+        Dictionary with 'max_drawdown', 'max_drawdown_duration', 'peak_date', 'trough_date'
+    Examples
+    --------
+    >>> returns = np.array([0.10, -0.05, 0.08, -0.12, 0.03])
+    >>> dd = maximum_drawdown(returns)
+    >>> print(f"Max Drawdown: {dd['max_drawdown']:.3f}")
+    Max Drawdown: -0.102
+    """
+    # Import here to avoid circular dependency
+    from ml4t.diagnostic.core.numba_utils import calculate_drawdown_numba
+    # Convert to numpy array
+    ret_array = DataFrameAdapter.to_numpy(returns).flatten()
+    # Remove NaN values
+    ret_clean = ret_array[~np.isnan(ret_array)]
+    if len(ret_clean) == 0:
+        return {
+            "max_drawdown": np.nan,
+            "max_drawdown_duration": np.nan,
+            "peak_date": np.nan,
+            "trough_date": np.nan,
+        }
+    # Calculate cumulative returns if needed
+    if cumulative:
+        cum_returns = ret_clean
+    else:
+        cum_returns = np.cumprod(1 + ret_clean) - 1  # Compound returns
+    # Use Numba-optimized function
+    max_drawdown_val, dd_duration, peak_idx, trough_idx = calculate_drawdown_numba(cum_returns)
+    # Handle case where no drawdown was found
+    if peak_idx == -1:
+        return {
+            "max_drawdown": 0.0,
+            "max_drawdown_duration": 0,
+            "peak_date": 0,
+            "trough_date": 0,
+        }
+    return {
+        "max_drawdown": float(max_drawdown_val),
+        "max_drawdown_duration": int(dd_duration),
+        "peak_date": int(peak_idx),
+        "trough_date": int(trough_idx),
+    }
+def sortino_ratio(
+    returns: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    target_return: float = 0.0,
+    annualization_factor: float | None = None,
+) -> float:
+    """Calculate Sortino Ratio focusing on downside risk.
+    The Sortino Ratio is similar to Sharpe ratio but only penalizes downside
+    volatility, making it more appropriate for asymmetric return distributions.
+    Parameters
+    ----------
+    returns : Union[pl.Series, pd.Series, np.ndarray]
+        Time series of returns
+    target_return : float, default 0.0
+        Target return threshold (same frequency as returns)
+    annualization_factor : Optional[float], default None
+        Factor to annualize the ratio
+    Returns
+    -------
+    float
+        Sortino ratio value
+    Examples
+    --------
+    >>> returns = np.array([0.01, 0.02, -0.01, 0.03, -0.02])
+    >>> sortino = sortino_ratio(returns, annualization_factor=252)
+    >>> print(f"Sortino Ratio: {sortino:.3f}")
+    Sortino Ratio: 0.894
+    """
+    # Convert to numpy array
+    ret_array = DataFrameAdapter.to_numpy(returns).flatten()
+    # Remove NaN values
+    ret_clean = ret_array[~np.isnan(ret_array)]
+    if len(ret_clean) < 2:
+        return np.nan
+    # Calculate excess returns relative to target
+    excess_returns = ret_clean - target_return
+    # Calculate downside returns (only negative excess returns)
+    downside_returns = excess_returns[excess_returns < 0]
+    if len(downside_returns) == 0:
+        # No downside - infinite Sortino ratio if mean is positive
+        mean_excess = np.mean(excess_returns)
+        if mean_excess > 0:
+            return np.inf
+        if mean_excess < 0:
+            return -np.inf
+        return np.nan
+    # Calculate Sortino ratio
+    mean_excess = np.mean(excess_returns)
+    downside_std = np.sqrt(np.mean(downside_returns**2))  # Downside deviation
+    if downside_std == 0:
+        return np.nan
+    sortino = mean_excess / downside_std
+    # Apply annualization if specified
+    if annualization_factor is not None:
+        sortino *= np.sqrt(annualization_factor)
+    return float(sortino)