PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/evaluation/metrics/importance_analysis.py ADDED Viewed

@@ -0,0 +1,338 @@
+"""Comprehensive ML feature importance analysis comparing multiple methods.
+This module provides a tear sheet function that runs MDI, PFI, MDA, and SHAP
+importance methods and generates a comparison report with consensus ranking.
+"""
+from collections.abc import Callable
+from typing import TYPE_CHECKING, Any, Union
+import numpy as np
+import pandas as pd
+import polars as pl
+from scipy.stats import spearmanr
+from ml4t.diagnostic.evaluation.metrics.importance_classical import (
+    compute_mdi_importance,
+    compute_permutation_importance,
+)
+from ml4t.diagnostic.evaluation.metrics.importance_mda import compute_mda_importance
+from ml4t.diagnostic.evaluation.metrics.importance_shap import compute_shap_importance
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
+def _generate_ml_importance_interpretation(
+    top_features: list[str],
+    method_agreement: dict[str, float],
+    warnings: list[str],
+    n_consensus: int,
+) -> str:
+    """Generate human-readable interpretation of ML importance analysis.
+    Parameters
+    ----------
+    top_features : list[str]
+        Top features from consensus ranking
+    method_agreement : dict[str, float]
+        Pairwise correlations between methods
+    warnings : list[str]
+        List of potential issues detected
+    n_consensus : int
+        Number of features in top 10 across all methods
+    Returns
+    -------
+    str
+        Human-readable interpretation summary
+    """
+    lines = []
+    # Consensus features
+    if n_consensus > 0:
+        lines.append(f"Strong consensus: {n_consensus} features rank in top 10 across all methods")
+        lines.append(f"  Top consensus features: {', '.join(top_features[:5])}")
+    else:
+        lines.append("Weak consensus: Different methods identify different important features")
+    # Method agreement
+    if method_agreement:
+        avg_agreement = float(np.mean(list(method_agreement.values())))
+        if avg_agreement > 0.7:
+            lines.append(f"High agreement between methods (avg correlation: {avg_agreement:.2f})")
+        elif avg_agreement > 0.5:
+            lines.append(
+                f"Moderate agreement between methods (avg correlation: {avg_agreement:.2f})"
+            )
+        else:
+            lines.append(
+                f"Low agreement between methods (avg correlation: {avg_agreement:.2f}) - investigate further"
+            )
+    # Warnings
+    if warnings:
+        lines.append("\nPotential Issues:")
+        for warning in warnings:
+            lines.append(f"  - {warning}")
+    return "\n".join(lines)
+def analyze_ml_importance(
+    model: Any,
+    X: Union[pl.DataFrame, pd.DataFrame, "NDArray[Any]"],
+    y: Union[pl.Series, pd.Series, "NDArray[Any]"],
+    feature_names: list[str] | None = None,
+    methods: list[str] | None = None,
+    scoring: str | Callable | None = None,
+    n_repeats: int = 10,
+    random_state: int | None = 42,
+) -> dict[str, Any]:
+    """Comprehensive ML feature importance analysis comparing multiple methods.
+    **This is a TEAR SHEET function** - it runs multiple importance methods and
+    generates a comparison report with consensus ranking and interpretation.
+    **Use Case**: "Which features does my model rely on? Do different methods agree?"
+    This function replaces 100+ lines of manual comparison code by providing
+    integrated analysis showing:
+    - Individual method results (MDI, PFI, MDA, SHAP)
+    - Consensus ranking (features important across methods)
+    - Method agreement/disagreement analysis
+    - Auto-generated insights and warnings
+    **Why Compare Methods?**
+    Different importance methods measure different aspects:
+    - **MDI** (Mean Decrease Impurity): Fast, but biased toward high-cardinality features
+    - **PFI** (Permutation): Unbiased, measures predictive importance
+    - **MDA** (Mean Decrease Accuracy): Similar to PFI but removes features completely
+    - **SHAP**: Theoretically sound, based on game theory
+    Strong consensus across methods indicates robust feature importance.
+    Disagreement suggests model-specific artifacts or feature interactions.
+    Parameters
+    ----------
+    model : Any
+        Fitted model. Requirements vary by method:
+        - MDI: Must have `feature_importances_` (tree-based models)
+        - PFI, MDA: Must have `predict()` or `score()`
+        - SHAP: Must be compatible with TreeExplainer
+    X : Union[pl.DataFrame, pd.DataFrame, np.ndarray]
+        Feature matrix (n_samples, n_features)
+    y : Union[pl.Series, pd.Series, np.ndarray]
+        Target values (n_samples,)
+    feature_names : list[str] | None, default None
+        Feature names for labeling. If None, uses column names from DataFrame
+        or generates numeric names
+    methods : list[str] | None, default ["mdi", "pfi", "shap"]
+        Which methods to run. Options: "mdi", "pfi", "mda", "shap"
+    scoring : str | Callable | None, default None
+        Scoring metric for PFI and MDA
+    n_repeats : int, default 10
+        Number of permutations for PFI
+    random_state : int | None, default 42
+        Random seed for reproducibility
+    Returns
+    -------
+    dict[str, Any]
+        Comprehensive analysis results:
+        - method_results: Dict of individual method outputs
+        - consensus_ranking: Features ranked by average rank across methods
+        - method_agreement: Spearman correlations between method rankings
+        - top_features_consensus: Features in top 10 for ALL methods
+        - warnings: Detected issues
+        - interpretation: Auto-generated summary
+        - methods_run: Methods successfully executed
+        - methods_failed: Failed methods with error messages
+    Raises
+    ------
+    ValueError
+        If no methods specified or all methods fail
+    Examples
+    --------
+    >>> from sklearn.ensemble import RandomForestClassifier
+    >>> from sklearn.datasets import make_classification
+    >>>
+    >>> # Create synthetic dataset
+    >>> X, y = make_classification(n_samples=1000, n_features=10, random_state=42)
+    >>> model = RandomForestClassifier(n_estimators=50, random_state=42)
+    >>> model.fit(X, y)
+    >>>
+    >>> # Comprehensive importance analysis
+    >>> result = analyze_ml_importance(model, X, y, methods=["mdi", "pfi"])
+    >>>
+    >>> # Quick summary
+    >>> print(result["interpretation"])
+    """
+    if methods is None:
+        methods = ["mdi", "pfi", "shap"]
+    if not methods:
+        raise ValueError("At least one method must be specified")
+    # Extract feature names if not provided
+    if feature_names is None:
+        if isinstance(X, pl.DataFrame | pd.DataFrame):
+            feature_names = list(X.columns)
+        else:
+            # Generate numeric feature names
+            n_features = X.shape[1] if hasattr(X, "shape") else len(X[0])
+            feature_names = [f"f{i}" for i in range(n_features)]
+    # Run each method with try/except for optional dependencies
+    results = {}
+    method_failures = []
+    if "mdi" in methods:
+        try:
+            results["mdi"] = compute_mdi_importance(model, feature_names=feature_names)
+        except Exception as e:
+            method_failures.append(("mdi", str(e)))
+    if "pfi" in methods:
+        try:
+            results["pfi"] = compute_permutation_importance(
+                model,
+                X,
+                y,
+                feature_names=feature_names,
+                scoring=scoring,
+                n_repeats=n_repeats,
+                random_state=random_state,
+            )
+        except Exception as e:
+            method_failures.append(("pfi", str(e)))
+    if "mda" in methods:
+        try:
+            results["mda"] = compute_mda_importance(
+                model, X, y, feature_names=feature_names, scoring=scoring
+            )
+        except Exception as e:
+            method_failures.append(("mda", str(e)))
+    if "shap" in methods:
+        try:
+            results["shap"] = compute_shap_importance(model, X, feature_names=feature_names)
+        except ImportError:
+            method_failures.append(
+                (
+                    "shap",
+                    "shap library not installed. Install with: pip install ml4t-diagnostic[ml]",
+                )
+            )
+        except Exception as e:
+            method_failures.append(("shap", str(e)))
+    # Check if at least one method succeeded
+    if not results:
+        error_msg = "All methods failed:\n" + "\n".join(
+            f"  - {method}: {error}" for method, error in method_failures
+        )
+        raise ValueError(error_msg)
+    # 2. Compute consensus ranking
+    # Convert each method's importance to rankings (1 = most important)
+    rankings = {}
+    for method_name, result in results.items():
+        # Get feature names and importances for this method
+        method_feature_names = result["feature_names"]
+        if method_name == "pfi":
+            importances = result["importances_mean"]
+        elif method_name in ["shap", "mdi", "mda"]:
+            importances = result["importances"]
+        else:
+            # Shouldn't happen, but handle gracefully
+            continue
+        # Create a mapping from feature name to importance
+        feature_to_importance = dict(zip(method_feature_names, importances, strict=False))
+        # Map to our canonical feature_names list (handle missing features)
+        importance_values = np.array(
+            [feature_to_importance.get(fname, 0.0) for fname in feature_names]
+        )
+        # Rank (higher importance = lower rank number, i.e., rank 0 is most important)
+        ranks = np.argsort(np.argsort(importance_values)[::-1])
+        rankings[method_name] = ranks
+    # Average ranks across methods
+    avg_ranks = np.mean(list(rankings.values()), axis=0)
+    consensus_order = np.argsort(avg_ranks)
+    # Get feature names in consensus order
+    consensus_ranking = [feature_names[i] for i in consensus_order]
+    # 3. Compute method agreement (Spearman correlation between rankings)
+    method_agreement = {}
+    method_names = list(rankings.keys())
+    for i, m1 in enumerate(method_names):
+        for m2 in method_names[i + 1 :]:
+            corr, _ = spearmanr(rankings[m1], rankings[m2])
+            method_agreement[f"{m1}_vs_{m2}"] = float(corr)
+    # 4. Identify consensus top features (top 10 in all methods)
+    top_n = 10
+    top_features_by_method = {}
+    for method_name, result in results.items():
+        # Get top N feature names from this method
+        method_top_features = result["feature_names"][:top_n]
+        top_features_by_method[method_name] = set(method_top_features)
+    consensus_top = (
+        set.intersection(*top_features_by_method.values()) if top_features_by_method else set()
+    )
+    # 5. Generate warnings
+    warnings = []
+    # Warning: High MDI but low PFI (possible overfitting)
+    if "mdi" in results and "pfi" in results:
+        mdi_top = set(results["mdi"]["feature_names"][:5])
+        pfi_top = set(results["pfi"]["feature_names"][:5])
+        disagreement = mdi_top - pfi_top
+        if disagreement:
+            warnings.append(
+                f"Features {disagreement} rank high in MDI but not PFI - possible overfitting to tree structure"
+            )
+    # Warning: Low agreement between methods
+    if method_agreement:
+        min_agreement = min(method_agreement.values())
+        if min_agreement < 0.5:
+            warnings.append(
+                f"Low agreement between methods (min correlation: {min_agreement:.2f}) - results may be unreliable"
+            )
+    # Add method failures to warnings
+    if method_failures:
+        for method, error in method_failures:
+            warnings.append(f"Method '{method}' failed: {error}")
+    # 6. Generate interpretation
+    interpretation = _generate_ml_importance_interpretation(
+        consensus_ranking[:10],
+        method_agreement,
+        warnings,
+        len(consensus_top),
+    )
+    return {
+        "method_results": results,
+        "consensus_ranking": consensus_ranking,
+        "method_agreement": method_agreement,
+        "top_features_consensus": list(consensus_top),
+        "warnings": warnings,
+        "interpretation": interpretation,
+        "methods_run": list(results.keys()),
+        "methods_failed": method_failures,
+    }