PyPI - ml4t-diagnostic - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

ml4t-diagnostic 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

ml4t/diagnostic/AGENT.md +25 -0
ml4t/diagnostic/__init__.py +166 -0
ml4t/diagnostic/backends/__init__.py +10 -0
ml4t/diagnostic/backends/adapter.py +192 -0
ml4t/diagnostic/backends/polars_backend.py +899 -0
ml4t/diagnostic/caching/__init__.py +40 -0
ml4t/diagnostic/caching/cache.py +331 -0
ml4t/diagnostic/caching/decorators.py +131 -0
ml4t/diagnostic/caching/smart_cache.py +339 -0
ml4t/diagnostic/config/AGENT.md +24 -0
ml4t/diagnostic/config/README.md +267 -0
ml4t/diagnostic/config/__init__.py +219 -0
ml4t/diagnostic/config/barrier_config.py +277 -0
ml4t/diagnostic/config/base.py +301 -0
ml4t/diagnostic/config/event_config.py +148 -0
ml4t/diagnostic/config/feature_config.py +404 -0
ml4t/diagnostic/config/multi_signal_config.py +55 -0
ml4t/diagnostic/config/portfolio_config.py +215 -0
ml4t/diagnostic/config/report_config.py +391 -0
ml4t/diagnostic/config/sharpe_config.py +202 -0
ml4t/diagnostic/config/signal_config.py +206 -0
ml4t/diagnostic/config/trade_analysis_config.py +310 -0
ml4t/diagnostic/config/validation.py +279 -0
ml4t/diagnostic/core/__init__.py +29 -0
ml4t/diagnostic/core/numba_utils.py +315 -0
ml4t/diagnostic/core/purging.py +372 -0
ml4t/diagnostic/core/sampling.py +471 -0
ml4t/diagnostic/errors/__init__.py +205 -0
ml4t/diagnostic/evaluation/AGENT.md +26 -0
ml4t/diagnostic/evaluation/__init__.py +437 -0
ml4t/diagnostic/evaluation/autocorrelation.py +531 -0
ml4t/diagnostic/evaluation/barrier_analysis.py +1050 -0
ml4t/diagnostic/evaluation/binary_metrics.py +910 -0
ml4t/diagnostic/evaluation/dashboard.py +715 -0
ml4t/diagnostic/evaluation/diagnostic_plots.py +1037 -0
ml4t/diagnostic/evaluation/distribution/__init__.py +499 -0
ml4t/diagnostic/evaluation/distribution/moments.py +299 -0
ml4t/diagnostic/evaluation/distribution/tails.py +777 -0
ml4t/diagnostic/evaluation/distribution/tests.py +470 -0
ml4t/diagnostic/evaluation/drift/__init__.py +139 -0
ml4t/diagnostic/evaluation/drift/analysis.py +432 -0
ml4t/diagnostic/evaluation/drift/domain_classifier.py +517 -0
ml4t/diagnostic/evaluation/drift/population_stability_index.py +310 -0
ml4t/diagnostic/evaluation/drift/wasserstein.py +388 -0
ml4t/diagnostic/evaluation/event_analysis.py +647 -0
ml4t/diagnostic/evaluation/excursion.py +390 -0
ml4t/diagnostic/evaluation/feature_diagnostics.py +873 -0
ml4t/diagnostic/evaluation/feature_outcome.py +666 -0
ml4t/diagnostic/evaluation/framework.py +935 -0
ml4t/diagnostic/evaluation/metric_registry.py +255 -0
ml4t/diagnostic/evaluation/metrics/AGENT.md +23 -0
ml4t/diagnostic/evaluation/metrics/__init__.py +133 -0
ml4t/diagnostic/evaluation/metrics/basic.py +160 -0
ml4t/diagnostic/evaluation/metrics/conditional_ic.py +469 -0
ml4t/diagnostic/evaluation/metrics/feature_outcome.py +475 -0
ml4t/diagnostic/evaluation/metrics/ic_statistics.py +446 -0
ml4t/diagnostic/evaluation/metrics/importance_analysis.py +338 -0
ml4t/diagnostic/evaluation/metrics/importance_classical.py +375 -0
ml4t/diagnostic/evaluation/metrics/importance_mda.py +371 -0
ml4t/diagnostic/evaluation/metrics/importance_shap.py +715 -0
ml4t/diagnostic/evaluation/metrics/information_coefficient.py +527 -0
ml4t/diagnostic/evaluation/metrics/interactions.py +772 -0
ml4t/diagnostic/evaluation/metrics/monotonicity.py +226 -0
ml4t/diagnostic/evaluation/metrics/risk_adjusted.py +324 -0
ml4t/diagnostic/evaluation/multi_signal.py +550 -0
ml4t/diagnostic/evaluation/portfolio_analysis/__init__.py +83 -0
ml4t/diagnostic/evaluation/portfolio_analysis/analysis.py +734 -0
ml4t/diagnostic/evaluation/portfolio_analysis/metrics.py +589 -0
ml4t/diagnostic/evaluation/portfolio_analysis/results.py +334 -0
ml4t/diagnostic/evaluation/report_generation.py +824 -0
ml4t/diagnostic/evaluation/signal_selector.py +452 -0
ml4t/diagnostic/evaluation/stat_registry.py +139 -0
ml4t/diagnostic/evaluation/stationarity/__init__.py +97 -0
ml4t/diagnostic/evaluation/stationarity/analysis.py +518 -0
ml4t/diagnostic/evaluation/stationarity/augmented_dickey_fuller.py +296 -0
ml4t/diagnostic/evaluation/stationarity/kpss_test.py +308 -0
ml4t/diagnostic/evaluation/stationarity/phillips_perron.py +365 -0
ml4t/diagnostic/evaluation/stats/AGENT.md +43 -0
ml4t/diagnostic/evaluation/stats/__init__.py +191 -0
ml4t/diagnostic/evaluation/stats/backtest_overfitting.py +219 -0
ml4t/diagnostic/evaluation/stats/bootstrap.py +228 -0
ml4t/diagnostic/evaluation/stats/deflated_sharpe_ratio.py +591 -0
ml4t/diagnostic/evaluation/stats/false_discovery_rate.py +295 -0
ml4t/diagnostic/evaluation/stats/hac_standard_errors.py +108 -0
ml4t/diagnostic/evaluation/stats/minimum_track_record.py +408 -0
ml4t/diagnostic/evaluation/stats/moments.py +164 -0
ml4t/diagnostic/evaluation/stats/rademacher_adjustment.py +436 -0
ml4t/diagnostic/evaluation/stats/reality_check.py +155 -0
ml4t/diagnostic/evaluation/stats/sharpe_inference.py +219 -0
ml4t/diagnostic/evaluation/themes.py +330 -0
ml4t/diagnostic/evaluation/threshold_analysis.py +957 -0
ml4t/diagnostic/evaluation/trade_analysis.py +1136 -0
ml4t/diagnostic/evaluation/trade_dashboard/__init__.py +32 -0
ml4t/diagnostic/evaluation/trade_dashboard/app.py +315 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/__init__.py +18 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/csv.py +82 -0
ml4t/diagnostic/evaluation/trade_dashboard/export/html.py +276 -0
ml4t/diagnostic/evaluation/trade_dashboard/io.py +166 -0
ml4t/diagnostic/evaluation/trade_dashboard/normalize.py +304 -0
ml4t/diagnostic/evaluation/trade_dashboard/stats.py +386 -0
ml4t/diagnostic/evaluation/trade_dashboard/style.py +79 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/__init__.py +21 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/patterns.py +354 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/shap_analysis.py +280 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/stat_validation.py +186 -0
ml4t/diagnostic/evaluation/trade_dashboard/tabs/worst_trades.py +236 -0
ml4t/diagnostic/evaluation/trade_dashboard/types.py +129 -0
ml4t/diagnostic/evaluation/trade_shap/__init__.py +102 -0
ml4t/diagnostic/evaluation/trade_shap/alignment.py +188 -0
ml4t/diagnostic/evaluation/trade_shap/characterize.py +413 -0
ml4t/diagnostic/evaluation/trade_shap/cluster.py +302 -0
ml4t/diagnostic/evaluation/trade_shap/explain.py +208 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/__init__.py +23 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/generator.py +290 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/matcher.py +251 -0
ml4t/diagnostic/evaluation/trade_shap/hypotheses/templates.yaml +467 -0
ml4t/diagnostic/evaluation/trade_shap/models.py +386 -0
ml4t/diagnostic/evaluation/trade_shap/normalize.py +116 -0
ml4t/diagnostic/evaluation/trade_shap/pipeline.py +263 -0
ml4t/diagnostic/evaluation/trade_shap_dashboard.py +283 -0
ml4t/diagnostic/evaluation/trade_shap_diagnostics.py +588 -0
ml4t/diagnostic/evaluation/validated_cv.py +535 -0
ml4t/diagnostic/evaluation/visualization.py +1050 -0
ml4t/diagnostic/evaluation/volatility/__init__.py +45 -0
ml4t/diagnostic/evaluation/volatility/analysis.py +351 -0
ml4t/diagnostic/evaluation/volatility/arch.py +258 -0
ml4t/diagnostic/evaluation/volatility/garch.py +460 -0
ml4t/diagnostic/integration/__init__.py +48 -0
ml4t/diagnostic/integration/backtest_contract.py +671 -0
ml4t/diagnostic/integration/data_contract.py +316 -0
ml4t/diagnostic/integration/engineer_contract.py +226 -0
ml4t/diagnostic/logging/__init__.py +77 -0
ml4t/diagnostic/logging/logger.py +245 -0
ml4t/diagnostic/logging/performance.py +234 -0
ml4t/diagnostic/logging/progress.py +234 -0
ml4t/diagnostic/logging/wandb.py +412 -0
ml4t/diagnostic/metrics/__init__.py +9 -0
ml4t/diagnostic/metrics/percentiles.py +128 -0
ml4t/diagnostic/py.typed +1 -0
ml4t/diagnostic/reporting/__init__.py +43 -0
ml4t/diagnostic/reporting/base.py +130 -0
ml4t/diagnostic/reporting/html_renderer.py +275 -0
ml4t/diagnostic/reporting/json_renderer.py +51 -0
ml4t/diagnostic/reporting/markdown_renderer.py +117 -0
ml4t/diagnostic/results/AGENT.md +24 -0
ml4t/diagnostic/results/__init__.py +105 -0
ml4t/diagnostic/results/barrier_results/__init__.py +36 -0
ml4t/diagnostic/results/barrier_results/hit_rate.py +304 -0
ml4t/diagnostic/results/barrier_results/precision_recall.py +266 -0
ml4t/diagnostic/results/barrier_results/profit_factor.py +297 -0
ml4t/diagnostic/results/barrier_results/tearsheet.py +397 -0
ml4t/diagnostic/results/barrier_results/time_to_target.py +305 -0
ml4t/diagnostic/results/barrier_results/validation.py +38 -0
ml4t/diagnostic/results/base.py +177 -0
ml4t/diagnostic/results/event_results.py +349 -0
ml4t/diagnostic/results/feature_results.py +787 -0
ml4t/diagnostic/results/multi_signal_results.py +431 -0
ml4t/diagnostic/results/portfolio_results.py +281 -0
ml4t/diagnostic/results/sharpe_results.py +448 -0
ml4t/diagnostic/results/signal_results/__init__.py +74 -0
ml4t/diagnostic/results/signal_results/ic.py +581 -0
ml4t/diagnostic/results/signal_results/irtc.py +110 -0
ml4t/diagnostic/results/signal_results/quantile.py +392 -0
ml4t/diagnostic/results/signal_results/tearsheet.py +456 -0
ml4t/diagnostic/results/signal_results/turnover.py +213 -0
ml4t/diagnostic/results/signal_results/validation.py +147 -0
ml4t/diagnostic/signal/AGENT.md +17 -0
ml4t/diagnostic/signal/__init__.py +69 -0
ml4t/diagnostic/signal/_report.py +152 -0
ml4t/diagnostic/signal/_utils.py +261 -0
ml4t/diagnostic/signal/core.py +275 -0
ml4t/diagnostic/signal/quantile.py +148 -0
ml4t/diagnostic/signal/result.py +214 -0
ml4t/diagnostic/signal/signal_ic.py +129 -0
ml4t/diagnostic/signal/turnover.py +182 -0
ml4t/diagnostic/splitters/AGENT.md +19 -0
ml4t/diagnostic/splitters/__init__.py +36 -0
ml4t/diagnostic/splitters/base.py +501 -0
ml4t/diagnostic/splitters/calendar.py +421 -0
ml4t/diagnostic/splitters/calendar_config.py +91 -0
ml4t/diagnostic/splitters/combinatorial.py +1064 -0
ml4t/diagnostic/splitters/config.py +322 -0
ml4t/diagnostic/splitters/cpcv/__init__.py +57 -0
ml4t/diagnostic/splitters/cpcv/combinations.py +119 -0
ml4t/diagnostic/splitters/cpcv/partitioning.py +263 -0
ml4t/diagnostic/splitters/cpcv/purge_engine.py +379 -0
ml4t/diagnostic/splitters/cpcv/windows.py +190 -0
ml4t/diagnostic/splitters/group_isolation.py +329 -0
ml4t/diagnostic/splitters/persistence.py +316 -0
ml4t/diagnostic/splitters/utils.py +207 -0
ml4t/diagnostic/splitters/walk_forward.py +757 -0
ml4t/diagnostic/utils/__init__.py +42 -0
ml4t/diagnostic/utils/config.py +542 -0
ml4t/diagnostic/utils/dependencies.py +318 -0
ml4t/diagnostic/utils/sessions.py +127 -0
ml4t/diagnostic/validation/__init__.py +54 -0
ml4t/diagnostic/validation/dataframe.py +274 -0
ml4t/diagnostic/validation/returns.py +280 -0
ml4t/diagnostic/validation/timeseries.py +299 -0
ml4t/diagnostic/visualization/AGENT.md +19 -0
ml4t/diagnostic/visualization/__init__.py +223 -0
ml4t/diagnostic/visualization/backtest/__init__.py +98 -0
ml4t/diagnostic/visualization/backtest/cost_attribution.py +762 -0
ml4t/diagnostic/visualization/backtest/executive_summary.py +895 -0
ml4t/diagnostic/visualization/backtest/interactive_controls.py +673 -0
ml4t/diagnostic/visualization/backtest/statistical_validity.py +874 -0
ml4t/diagnostic/visualization/backtest/tearsheet.py +565 -0
ml4t/diagnostic/visualization/backtest/template_system.py +373 -0
ml4t/diagnostic/visualization/backtest/trade_plots.py +1172 -0
ml4t/diagnostic/visualization/barrier_plots.py +782 -0
ml4t/diagnostic/visualization/core.py +1060 -0
ml4t/diagnostic/visualization/dashboards/__init__.py +36 -0
ml4t/diagnostic/visualization/dashboards/base.py +582 -0
ml4t/diagnostic/visualization/dashboards/importance.py +801 -0
ml4t/diagnostic/visualization/dashboards/interaction.py +263 -0
ml4t/diagnostic/visualization/dashboards.py +43 -0
ml4t/diagnostic/visualization/data_extraction/__init__.py +48 -0
ml4t/diagnostic/visualization/data_extraction/importance.py +649 -0
ml4t/diagnostic/visualization/data_extraction/interaction.py +504 -0
ml4t/diagnostic/visualization/data_extraction/types.py +113 -0
ml4t/diagnostic/visualization/data_extraction/validation.py +66 -0
ml4t/diagnostic/visualization/feature_plots.py +888 -0
ml4t/diagnostic/visualization/interaction_plots.py +618 -0
ml4t/diagnostic/visualization/portfolio/__init__.py +41 -0
ml4t/diagnostic/visualization/portfolio/dashboard.py +514 -0
ml4t/diagnostic/visualization/portfolio/drawdown_plots.py +341 -0
ml4t/diagnostic/visualization/portfolio/returns_plots.py +487 -0
ml4t/diagnostic/visualization/portfolio/risk_plots.py +301 -0
ml4t/diagnostic/visualization/report_generation.py +1343 -0
ml4t/diagnostic/visualization/signal/__init__.py +103 -0
ml4t/diagnostic/visualization/signal/dashboard.py +911 -0
ml4t/diagnostic/visualization/signal/event_plots.py +514 -0
ml4t/diagnostic/visualization/signal/ic_plots.py +635 -0
ml4t/diagnostic/visualization/signal/multi_signal_dashboard.py +974 -0
ml4t/diagnostic/visualization/signal/multi_signal_plots.py +603 -0
ml4t/diagnostic/visualization/signal/quantile_plots.py +625 -0
ml4t/diagnostic/visualization/signal/turnover_plots.py +400 -0
ml4t/diagnostic/visualization/trade_shap/__init__.py +90 -0
ml4t_diagnostic-0.1.0a1.dist-info/METADATA +1044 -0
ml4t_diagnostic-0.1.0a1.dist-info/RECORD +242 -0
ml4t_diagnostic-0.1.0a1.dist-info/WHEEL +4 -0
ml4t_diagnostic-0.1.0a1.dist-info/licenses/LICENSE +21 -0

ml4t/diagnostic/logging/wandb.py ADDED Viewed

@@ -0,0 +1,412 @@
+"""Weights & Biases integration for experiment tracking.
+This module provides hooks for logging ml4t-diagnostic experiments to W&B,
+enabling tracking of evaluation metrics, hyperparameters, and
+visualizations across experiments.
+"""
+import numbers
+import warnings
+from typing import Any, SupportsFloat, cast
+import numpy as np
+import pandas as pd
+try:
+    import wandb  # type: ignore[import-not-found,unused-ignore]
+    HAS_WANDB = True
+except ImportError:
+    HAS_WANDB = False
+class WandbLogger:
+    """Logger for Weights & Biases experiment tracking.
+    This class provides a unified interface for logging ml4t-diagnostic
+    experiments to W&B, handling initialization, metric logging,
+    and artifact management.
+    """
+    def __init__(
+        self,
+        project: str | None = None,
+        entity: str | None = None,
+        name: str | None = None,
+        config: dict[str, Any] | None = None,
+        tags: list[str] | None = None,
+        notes: str | None = None,
+        disabled: bool = False,
+    ):
+        """Initialize W&B logger.
+        Parameters
+        ----------
+        project : str, optional
+            W&B project name
+        entity : str, optional
+            W&B entity (team or username)
+        name : str, optional
+            Run name
+        config : dict, optional
+            Configuration dictionary to log
+        tags : list[str], optional
+            Tags for the run
+        notes : str, optional
+            Notes about the run
+        disabled : bool
+            If True, disables W&B logging
+        """
+        self.disabled = disabled or not HAS_WANDB
+        self.run = None
+        if self.disabled:
+            if not HAS_WANDB and not disabled:
+                warnings.warn(
+                    "wandb not installed. Install with: pip install wandb",
+                    stacklevel=2,
+                )
+            return
+        # Initialize W&B run
+        self.run = wandb.init(
+            project=project or "ml4t-diagnostic",
+            entity=entity,
+            name=name,
+            config=config,
+            tags=tags or [],
+            notes=notes,
+            reinit=True,
+        )
+    def log_config(self, config: dict[str, Any]) -> None:
+        """Log configuration parameters.
+        Parameters
+        ----------
+        config : dict
+            Configuration dictionary
+        """
+        if self.disabled or self.run is None:
+            return
+        # Flatten nested config for W&B
+        flat_config = self._flatten_dict(config)
+        wandb.config.update(flat_config)
+    def log_metrics(
+        self,
+        metrics: dict[str, Any],
+        step: int | None = None,
+        prefix: str = "",
+    ) -> None:
+        """Log evaluation metrics.
+        Parameters
+        ----------
+        metrics : dict
+            Metrics to log
+        step : int, optional
+            Step number (e.g., CV fold)
+        prefix : str
+            Prefix for metric names
+        """
+        if self.disabled or self.run is None:
+            return
+        # Prepare metrics for logging
+        log_dict = {}
+        for name, value in metrics.items():
+            key = f"{prefix}{name}" if prefix else name
+            if isinstance(value, dict):
+                # Handle nested metrics (e.g., with confidence intervals)
+                for sub_key, sub_value in value.items():
+                    if isinstance(sub_value, numbers.Number):
+                        log_dict[f"{key}/{sub_key}"] = float(cast(SupportsFloat, sub_value))
+            elif isinstance(value, numbers.Number):
+                log_dict[key] = float(cast(SupportsFloat, value))
+            elif isinstance(value, list | np.ndarray):
+                # Log array statistics
+                if len(value) > 0:
+                    log_dict[f"{key}/mean"] = float(np.mean(value))
+                    log_dict[f"{key}/std"] = float(np.std(value))
+                    log_dict[f"{key}/min"] = float(np.min(value))
+                    log_dict[f"{key}/max"] = float(np.max(value))
+        if step is not None:
+            log_dict["step"] = step
+        wandb.log(log_dict)
+    def log_fold_results(
+        self,
+        fold_idx: int,
+        train_size: int,
+        test_size: int,
+        metrics: dict[str, Any],
+    ) -> None:
+        """Log results from a single CV fold.
+        Parameters
+        ----------
+        fold_idx : int
+            Fold index
+        train_size : int
+            Training set size
+        test_size : int
+            Test set size
+        metrics : dict
+            Fold metrics
+        """
+        if self.disabled or self.run is None:
+            return
+        # Add metrics with fold prefix
+        self.log_metrics(metrics, step=fold_idx, prefix="fold/")
+        # Log fold metadata
+        wandb.log(
+            {
+                "fold/train_size": train_size,
+                "fold/test_size": test_size,
+                "fold/train_test_ratio": train_size / test_size if test_size > 0 else 0,
+            },
+            step=fold_idx,
+        )
+    def log_statistical_tests(self, tests: dict[str, Any]) -> None:
+        """Log statistical test results.
+        Parameters
+        ----------
+        tests : dict
+            Statistical test results
+        """
+        if self.disabled or self.run is None:
+            return
+        log_dict = {}
+        for test_name, result in tests.items():
+            if isinstance(result, dict):
+                for key, value in result.items():
+                    if isinstance(value, numbers.Number):
+                        log_dict[f"stats/{test_name}/{key}"] = float(cast(SupportsFloat, value))
+                    elif key == "significant" and isinstance(value, bool):
+                        log_dict[f"stats/{test_name}/{key}"] = int(value)
+        wandb.log(log_dict)
+    def log_figure(
+        self,
+        figure: Any,
+        name: str,
+        step: int | None = None,
+    ) -> None:
+        """Log a Plotly figure.
+        Parameters
+        ----------
+        figure : plotly.graph_objects.Figure
+            Figure to log
+        name : str
+            Figure name
+        step : int, optional
+            Step number
+        """
+        if self.disabled or self.run is None:
+            return
+        # Convert Plotly figure to W&B
+        wandb.log({f"plots/{name}": figure}, step=step)
+    def log_evaluation_summary(
+        self,
+        result: Any,  # EvaluationResult
+        _predictions: Any | None = None,
+        _returns: Any | None = None,
+    ) -> None:
+        """Log complete evaluation summary.
+        Parameters
+        ----------
+        result : EvaluationResult
+            Evaluation result object
+        predictions : array-like, optional
+            Predictions for additional logging
+        returns : array-like, optional
+            Returns for additional logging
+        """
+        if self.disabled or self.run is None:
+            return
+        # Log summary metrics
+        summary = result.summary()
+        # Log aggregate metrics
+        self.log_metrics(summary["metrics"], prefix="summary/")
+        # Log statistical tests
+        if summary.get("statistical_tests"):
+            self.log_statistical_tests(summary["statistical_tests"])
+        # Log metadata
+        wandb.log(
+            {
+                "summary/tier": result.tier,
+                "summary/n_folds": summary["n_folds"],
+                "summary/splitter": result.splitter_name,
+            },
+        )
+        # Create summary table
+        if result.fold_results:
+            fold_data = []
+            for fold in result.fold_results:
+                fold_row = {"fold": fold.get("fold", 0)}
+                fold_row.update(
+                    {k: v for k, v in fold.items() if isinstance(v, numbers.Number)},
+                )
+                fold_data.append(fold_row)
+            fold_table = wandb.Table(dataframe=pd.DataFrame(fold_data))
+            wandb.log({"tables/fold_results": fold_table})
+    def log_artifact(
+        self,
+        artifact_path: str,
+        name: str,
+        artifact_type: str = "evaluation",
+        metadata: dict[str, Any] | None = None,
+    ) -> None:
+        """Log an artifact (model, dataset, etc.).
+        Parameters
+        ----------
+        artifact_path : str
+            Path to artifact file
+        name : str
+            Artifact name
+        artifact_type : str
+            Type of artifact
+        metadata : dict, optional
+            Additional metadata
+        """
+        if self.disabled or self.run is None:
+            return
+        artifact = wandb.Artifact(
+            name=name,
+            type=artifact_type,
+            metadata=metadata or {},
+        )
+        artifact.add_file(artifact_path)
+        wandb.log_artifact(artifact)
+    def finish(self) -> None:
+        """Finish the W&B run."""
+        if self.disabled or self.run is None:
+            return
+        wandb.finish()
+    def __enter__(self):
+        """Context manager entry."""
+        return self
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        """Context manager exit."""
+        self.finish()
+    @staticmethod
+    def _flatten_dict(
+        d: dict[str, Any],
+        parent_key: str = "",
+        sep: str = "/",
+    ) -> dict[str, Any]:
+        """Flatten nested dictionary."""
+        items: list[tuple[str, Any]] = []
+        for k, v in d.items():
+            new_key = f"{parent_key}{sep}{k}" if parent_key else k
+            if isinstance(v, dict):
+                items.extend(WandbLogger._flatten_dict(v, new_key, sep=sep).items())
+            else:
+                items.append((new_key, v))
+        return dict(items)
+def log_experiment(
+    evaluator: Any,
+    X: Any,
+    y: Any,
+    model: Any,
+    project: str | None = None,
+    config: dict[str, Any] | None = None,
+    tags: list[str] | None = None,
+    **kwargs: Any,
+) -> Any:
+    """Convenience function to run and log an experiment.
+    Parameters
+    ----------
+    evaluator : ml4t-diagnostic.Evaluator
+        Configured evaluator
+    X : array-like
+        Features
+    y : array-like
+        Labels
+    model : estimator
+        Model to evaluate
+    project : str, optional
+        W&B project name
+    config : dict, optional
+        Additional config to log
+    tags : list[str], optional
+        Experiment tags
+    **kwargs : Any
+        Additional arguments passed to evaluate()
+    Returns:
+    -------
+    EvaluationResult
+        Result with W&B logging
+    """
+    if not HAS_WANDB:
+        warnings.warn(
+            "wandb not installed. Running without logging. Install with: pip install wandb",
+            stacklevel=2,
+        )
+        return evaluator.evaluate(X, y, model, **kwargs)
+    # Initialize logger
+    with WandbLogger(project=project, config=config, tags=tags) as logger:
+        # Log evaluator configuration
+        logger.log_config(
+            {
+                "evaluator": {
+                    "tier": evaluator.tier,
+                    "splitter": evaluator.splitter.__class__.__name__,
+                    "metrics": evaluator.metrics,
+                    "statistical_tests": evaluator.statistical_tests,
+                    "confidence_level": evaluator.confidence_level,
+                    "bootstrap_samples": evaluator.bootstrap_samples,
+                },
+            },
+        )
+        # Log model info if available
+        if hasattr(model, "get_params"):
+            logger.log_config({"model": model.get_params()})
+        # Run evaluation
+        result = evaluator.evaluate(X, y, model, **kwargs)
+        # Log results
+        logger.log_evaluation_summary(result)
+        return result

ml4t/diagnostic/metrics/__init__.py ADDED Viewed

@@ -0,0 +1,9 @@
+"""
+Metrics module for ML4T Diagnostic.
+Provides statistical metrics and percentile computation utilities for model evaluation.
+"""
+from ml4t.diagnostic.metrics.percentiles import compute_fold_percentiles
+__all__ = ["compute_fold_percentiles"]

ml4t/diagnostic/metrics/percentiles.py ADDED Viewed

@@ -0,0 +1,128 @@
+"""
+Percentile computation utilities for threshold-based signal generation.
+Provides fast percentile computation from fold-specific predictions using Polars,
+designed to prevent data leakage by computing thresholds from training data only.
+"""
+from collections.abc import Sequence
+import pandas as pd
+import polars as pl
+def compute_fold_percentiles(
+    predictions: pd.DataFrame | pl.DataFrame,
+    percentiles: Sequence[float],
+    fold_col: str = "fold_id",
+    iteration_col: str = "iteration",
+    prediction_col: str = "prediction",
+    verbose: bool = True,
+) -> pd.DataFrame:
+    """
+    Compute percentiles from predictions grouped by fold and iteration.
+    Uses efficient Polars group_by operation to compute percentiles 10-50x faster
+    than nested loops. Designed for threshold-based signal generation where
+    thresholds must be computed from TRAINING predictions only to prevent data leakage.
+    Performance: ~50-100ms for 89M predictions with 26 percentiles (vs 5-10s with loops)
+    Args:
+        predictions: DataFrame with predictions to compute percentiles from
+            Must contain: fold_col, iteration_col, prediction_col
+        percentiles: List of percentiles to compute (e.g., [0.1, 0.5, 1, ..., 99, 99.5, 99.9])
+            Values should be in range [0, 100]
+        fold_col: Name of fold identifier column (default: "fold_id")
+        iteration_col: Name of iteration/checkpoint column (default: "iteration")
+        prediction_col: Name of prediction values column (default: "prediction")
+        verbose: Print progress information (default: True)
+    Returns:
+        DataFrame with columns: [fold_col, iteration_col, p{percentile}, ...]
+        - One row per (fold, iteration) combination
+        - Percentile columns named like "p0.1", "p99.9", etc.
+    Example:
+        >>> # Training predictions: 13 folds × 10 iterations × 687k samples
+        >>> import pandas as pd
+        >>> predictions = pd.DataFrame({
+        ...     'fold_id': [0] * 1000 + [1] * 1000,
+        ...     'iteration': [50] * 500 + [100] * 500 + [50] * 500 + [100] * 500,
+        ...     'prediction': np.random.rand(2000)
+        ... })
+        >>>
+        >>> # Compute percentiles for LONG and SHORT strategies
+        >>> percentiles = [0.1, 0.5, 1, 5, 10, 90, 95, 99, 99.5, 99.9]
+        >>> thresholds = compute_fold_percentiles(predictions, percentiles)
+        >>>
+        >>> # Result: 2 rows (2 folds) × 2 iterations = 4 rows
+        >>> thresholds.shape
+        (4, 12)  # 2 meta columns + 10 percentile columns
+        >>>
+        >>> # Use for signal generation
+        >>> fold_0_iter_100 = thresholds[
+        ...     (thresholds['fold_id'] == 0) & (thresholds['iteration'] == 100)
+        ... ]
+        >>> long_threshold = fold_0_iter_100['p95'].values[0]
+        >>> short_threshold = fold_0_iter_100['p5'].values[0]
+    Methodology:
+        1. Convert predictions to Polars (if pandas)
+        2. Group by (fold_id, iteration)
+        3. Compute all percentiles in single aggregation
+        4. Return as pandas DataFrame
+    Data Leakage Prevention:
+        CRITICAL: This function should ONLY be called on TRAINING predictions.
+        - Training: compute_fold_percentiles(train_predictions) → save thresholds
+        - Validation: Apply saved thresholds to OOS predictions
+        - NEVER: compute_fold_percentiles(val_predictions) → data leakage!
+    Performance Notes:
+        - Polars group_by is 10-50x faster than nested loops
+        - Memory usage: O(n_predictions) for single pass
+        - Time complexity: O(n * log(n)) for sorting within groups
+        - Recommended for predictions > 1M rows
+    """
+    if verbose:
+        print("\nComputing fold-specific percentiles (Fast Polars Method)...")
+    # Convert to Polars if pandas
+    preds_pl = pl.from_pandas(predictions) if isinstance(predictions, pd.DataFrame) else predictions
+    # Validate required columns
+    required_cols = {fold_col, iteration_col, prediction_col}
+    available_cols = set(preds_pl.columns)
+    missing = required_cols - available_cols
+    if missing:
+        raise ValueError(f"Missing required columns: {missing}. Available: {available_cols}")
+    # Convert percentiles to quantiles (0-1 range)
+    quantiles = [p / 100 for p in percentiles]
+    # Compute percentiles with single group_by operation
+    percentiles_df = (
+        preds_pl.group_by([fold_col, iteration_col])
+        .agg(
+            [
+                pl.col(prediction_col).quantile(q, interpolation="linear").alias(f"p{p}")
+                for q, p in zip(quantiles, percentiles, strict=False)
+            ]
+        )
+        .sort([fold_col, iteration_col])
+    )
+    # Convert back to pandas for compatibility
+    result = percentiles_df.to_pandas()
+    if verbose:
+        n_folds = result[fold_col].nunique()
+        n_iterations = result[iteration_col].nunique()
+        print(f"✓ Computed {len(result)} percentile arrays")
+        print(
+            f"✓ Structure: {n_folds} folds × {n_iterations} iterations × {len(percentiles)} percentiles"
+        )
+        print(f"✓ Percentile columns: {sorted([c for c in result.columns if c.startswith('p')])}")
+    return result

ml4t/diagnostic/py.typed ADDED Viewed

	@@ -0,0 +1 @@
1	+ # PEP 561 marker file - this package supports type checking

ml4t/diagnostic/reporting/__init__.py ADDED Viewed

@@ -0,0 +1,43 @@
+"""Report generation module for ML4T Diagnostic results.
+Provides flexible report generation in multiple formats:
+- HTML: Rich, styled reports with tables and charts
+- JSON: Machine-readable structured output
+- Markdown: Human-readable documentation
+Examples:
+    >>> from ml4t.diagnostic.reporting import ReportFactory, ReportFormat
+    >>> from ml4t.diagnostic.results import FeatureDiagnosticsResult
+    >>>
+    >>> # Generate HTML report
+    >>> html_report = ReportFactory.render(result, ReportFormat.HTML)
+    >>>
+    >>> # Generate JSON report
+    >>> json_report = ReportFactory.render(result, ReportFormat.JSON, indent=4)
+    >>>
+    >>> # Generate Markdown report
+    >>> md_report = ReportFactory.render(result, ReportFormat.MARKDOWN)
+    >>>
+    >>> # Save to file
+    >>> generator = ReportFactory.create(ReportFormat.HTML)
+    >>> html = generator.render(result)
+    >>> generator.save(html, "report.html")
+"""
+from ml4t.diagnostic.reporting.base import ReportFactory, ReportFormat, ReportGenerator
+# Import renderers to trigger registration
+from ml4t.diagnostic.reporting.html_renderer import HTMLReportGenerator
+from ml4t.diagnostic.reporting.json_renderer import JSONReportGenerator
+from ml4t.diagnostic.reporting.markdown_renderer import MarkdownReportGenerator
+__all__ = [
+    # Factory and base
+    "ReportFactory",
+    "ReportFormat",
+    "ReportGenerator",
+    # Renderers
+    "HTMLReportGenerator",
+    "JSONReportGenerator",
+    "MarkdownReportGenerator",
+]