PyPI - ins-pricing - Versions diffs - 0.1.6__py3-none-any.whl - Mend

ins-pricing 0.1.6__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (169) hide show

ins_pricing/README.md +60 -0
ins_pricing/__init__.py +102 -0
ins_pricing/governance/README.md +18 -0
ins_pricing/governance/__init__.py +20 -0
ins_pricing/governance/approval.py +93 -0
ins_pricing/governance/audit.py +37 -0
ins_pricing/governance/registry.py +99 -0
ins_pricing/governance/release.py +159 -0
ins_pricing/modelling/BayesOpt.py +146 -0
ins_pricing/modelling/BayesOpt_USAGE.md +925 -0
ins_pricing/modelling/BayesOpt_entry.py +575 -0
ins_pricing/modelling/BayesOpt_incremental.py +731 -0
ins_pricing/modelling/Explain_Run.py +36 -0
ins_pricing/modelling/Explain_entry.py +539 -0
ins_pricing/modelling/Pricing_Run.py +36 -0
ins_pricing/modelling/README.md +33 -0
ins_pricing/modelling/__init__.py +44 -0
ins_pricing/modelling/bayesopt/__init__.py +98 -0
ins_pricing/modelling/bayesopt/config_preprocess.py +303 -0
ins_pricing/modelling/bayesopt/core.py +1476 -0
ins_pricing/modelling/bayesopt/models.py +2196 -0
ins_pricing/modelling/bayesopt/trainers.py +2446 -0
ins_pricing/modelling/bayesopt/utils.py +1021 -0
ins_pricing/modelling/cli_common.py +136 -0
ins_pricing/modelling/explain/__init__.py +55 -0
ins_pricing/modelling/explain/gradients.py +334 -0
ins_pricing/modelling/explain/metrics.py +176 -0
ins_pricing/modelling/explain/permutation.py +155 -0
ins_pricing/modelling/explain/shap_utils.py +146 -0
ins_pricing/modelling/notebook_utils.py +284 -0
ins_pricing/modelling/plotting/__init__.py +45 -0
ins_pricing/modelling/plotting/common.py +63 -0
ins_pricing/modelling/plotting/curves.py +572 -0
ins_pricing/modelling/plotting/diagnostics.py +139 -0
ins_pricing/modelling/plotting/geo.py +362 -0
ins_pricing/modelling/plotting/importance.py +121 -0
ins_pricing/modelling/run_logging.py +133 -0
ins_pricing/modelling/tests/conftest.py +8 -0
ins_pricing/modelling/tests/test_cross_val_generic.py +66 -0
ins_pricing/modelling/tests/test_distributed_utils.py +18 -0
ins_pricing/modelling/tests/test_explain.py +56 -0
ins_pricing/modelling/tests/test_geo_tokens_split.py +49 -0
ins_pricing/modelling/tests/test_graph_cache.py +33 -0
ins_pricing/modelling/tests/test_plotting.py +63 -0
ins_pricing/modelling/tests/test_plotting_library.py +150 -0
ins_pricing/modelling/tests/test_preprocessor.py +48 -0
ins_pricing/modelling/watchdog_run.py +211 -0
ins_pricing/pricing/README.md +44 -0
ins_pricing/pricing/__init__.py +27 -0
ins_pricing/pricing/calibration.py +39 -0
ins_pricing/pricing/data_quality.py +117 -0
ins_pricing/pricing/exposure.py +85 -0
ins_pricing/pricing/factors.py +91 -0
ins_pricing/pricing/monitoring.py +99 -0
ins_pricing/pricing/rate_table.py +78 -0
ins_pricing/production/__init__.py +21 -0
ins_pricing/production/drift.py +30 -0
ins_pricing/production/monitoring.py +143 -0
ins_pricing/production/scoring.py +40 -0
ins_pricing/reporting/README.md +20 -0
ins_pricing/reporting/__init__.py +11 -0
ins_pricing/reporting/report_builder.py +72 -0
ins_pricing/reporting/scheduler.py +45 -0
ins_pricing/setup.py +41 -0
ins_pricing v2/__init__.py +23 -0
ins_pricing v2/governance/__init__.py +20 -0
ins_pricing v2/governance/approval.py +93 -0
ins_pricing v2/governance/audit.py +37 -0
ins_pricing v2/governance/registry.py +99 -0
ins_pricing v2/governance/release.py +159 -0
ins_pricing v2/modelling/Explain_Run.py +36 -0
ins_pricing v2/modelling/Pricing_Run.py +36 -0
ins_pricing v2/modelling/__init__.py +151 -0
ins_pricing v2/modelling/cli_common.py +141 -0
ins_pricing v2/modelling/config.py +249 -0
ins_pricing v2/modelling/config_preprocess.py +254 -0
ins_pricing v2/modelling/core.py +741 -0
ins_pricing v2/modelling/data_container.py +42 -0
ins_pricing v2/modelling/explain/__init__.py +55 -0
ins_pricing v2/modelling/explain/gradients.py +334 -0
ins_pricing v2/modelling/explain/metrics.py +176 -0
ins_pricing v2/modelling/explain/permutation.py +155 -0
ins_pricing v2/modelling/explain/shap_utils.py +146 -0
ins_pricing v2/modelling/features.py +215 -0
ins_pricing v2/modelling/model_manager.py +148 -0
ins_pricing v2/modelling/model_plotting.py +463 -0
ins_pricing v2/modelling/models.py +2203 -0
ins_pricing v2/modelling/notebook_utils.py +294 -0
ins_pricing v2/modelling/plotting/__init__.py +45 -0
ins_pricing v2/modelling/plotting/common.py +63 -0
ins_pricing v2/modelling/plotting/curves.py +572 -0
ins_pricing v2/modelling/plotting/diagnostics.py +139 -0
ins_pricing v2/modelling/plotting/geo.py +362 -0
ins_pricing v2/modelling/plotting/importance.py +121 -0
ins_pricing v2/modelling/run_logging.py +133 -0
ins_pricing v2/modelling/tests/conftest.py +8 -0
ins_pricing v2/modelling/tests/test_cross_val_generic.py +66 -0
ins_pricing v2/modelling/tests/test_distributed_utils.py +18 -0
ins_pricing v2/modelling/tests/test_explain.py +56 -0
ins_pricing v2/modelling/tests/test_geo_tokens_split.py +49 -0
ins_pricing v2/modelling/tests/test_graph_cache.py +33 -0
ins_pricing v2/modelling/tests/test_plotting.py +63 -0
ins_pricing v2/modelling/tests/test_plotting_library.py +150 -0
ins_pricing v2/modelling/tests/test_preprocessor.py +48 -0
ins_pricing v2/modelling/trainers.py +2447 -0
ins_pricing v2/modelling/utils.py +1020 -0
ins_pricing v2/modelling/watchdog_run.py +211 -0
ins_pricing v2/pricing/__init__.py +27 -0
ins_pricing v2/pricing/calibration.py +39 -0
ins_pricing v2/pricing/data_quality.py +117 -0
ins_pricing v2/pricing/exposure.py +85 -0
ins_pricing v2/pricing/factors.py +91 -0
ins_pricing v2/pricing/monitoring.py +99 -0
ins_pricing v2/pricing/rate_table.py +78 -0
ins_pricing v2/production/__init__.py +21 -0
ins_pricing v2/production/drift.py +30 -0
ins_pricing v2/production/monitoring.py +143 -0
ins_pricing v2/production/scoring.py +40 -0
ins_pricing v2/reporting/__init__.py +11 -0
ins_pricing v2/reporting/report_builder.py +72 -0
ins_pricing v2/reporting/scheduler.py +45 -0
ins_pricing v2/scripts/BayesOpt_incremental.py +722 -0
ins_pricing v2/scripts/Explain_entry.py +545 -0
ins_pricing v2/scripts/__init__.py +1 -0
ins_pricing v2/scripts/train.py +568 -0
ins_pricing v2/setup.py +55 -0
ins_pricing v2/smoke_test.py +28 -0
ins_pricing-0.1.6.dist-info/METADATA +78 -0
ins_pricing-0.1.6.dist-info/RECORD +169 -0
ins_pricing-0.1.6.dist-info/WHEEL +5 -0
ins_pricing-0.1.6.dist-info/top_level.txt +4 -0
user_packages/__init__.py +105 -0
user_packages legacy/BayesOpt.py +5659 -0
user_packages legacy/BayesOpt_entry.py +513 -0
user_packages legacy/BayesOpt_incremental.py +685 -0
user_packages legacy/Pricing_Run.py +36 -0
user_packages legacy/Try/BayesOpt Legacy251213.py +3719 -0
user_packages legacy/Try/BayesOpt Legacy251215.py +3758 -0
user_packages legacy/Try/BayesOpt lagecy251201.py +3506 -0
user_packages legacy/Try/BayesOpt lagecy251218.py +3992 -0
user_packages legacy/Try/BayesOpt legacy.py +3280 -0
user_packages legacy/Try/BayesOpt.py +838 -0
user_packages legacy/Try/BayesOptAll.py +1569 -0
user_packages legacy/Try/BayesOptAllPlatform.py +909 -0
user_packages legacy/Try/BayesOptCPUGPU.py +1877 -0
user_packages legacy/Try/BayesOptSearch.py +830 -0
user_packages legacy/Try/BayesOptSearchOrigin.py +829 -0
user_packages legacy/Try/BayesOptV1.py +1911 -0
user_packages legacy/Try/BayesOptV10.py +2973 -0
user_packages legacy/Try/BayesOptV11.py +3001 -0
user_packages legacy/Try/BayesOptV12.py +3001 -0
user_packages legacy/Try/BayesOptV2.py +2065 -0
user_packages legacy/Try/BayesOptV3.py +2209 -0
user_packages legacy/Try/BayesOptV4.py +2342 -0
user_packages legacy/Try/BayesOptV5.py +2372 -0
user_packages legacy/Try/BayesOptV6.py +2759 -0
user_packages legacy/Try/BayesOptV7.py +2832 -0
user_packages legacy/Try/BayesOptV8Codex.py +2731 -0
user_packages legacy/Try/BayesOptV8Gemini.py +2614 -0
user_packages legacy/Try/BayesOptV9.py +2927 -0
user_packages legacy/Try/BayesOpt_entry legacy.py +313 -0
user_packages legacy/Try/ModelBayesOptSearch.py +359 -0
user_packages legacy/Try/ResNetBayesOptSearch.py +249 -0
user_packages legacy/Try/XgbBayesOptSearch.py +121 -0
user_packages legacy/Try/xgbbayesopt.py +523 -0
user_packages legacy/__init__.py +19 -0
user_packages legacy/cli_common.py +124 -0
user_packages legacy/notebook_utils.py +228 -0
user_packages legacy/watchdog_run.py +202 -0

ins_pricing/modelling/Explain_Run.py ADDED Viewed

@@ -0,0 +1,36 @@
+from __future__ import annotations
+import argparse
+from pathlib import Path
+from typing import Optional
+try:
+    from .notebook_utils import run_from_config  # type: ignore
+except Exception:  # pragma: no cover
+    from notebook_utils import run_from_config  # type: ignore
+def run(config_json: str | Path) -> None:
+    """Run explain by config.json (runner.mode=explain)."""
+    run_from_config(config_json)
+def _build_parser() -> argparse.ArgumentParser:
+    parser = argparse.ArgumentParser(
+        description="Explain_Run: run explain by config.json (runner.mode=explain)."
+    )
+    parser.add_argument(
+        "--config-json",
+        required=True,
+        help="Path to config.json (relative paths are resolved from ins_pricing/modelling/ when possible).",
+    )
+    return parser
+def main(argv: Optional[list[str]] = None) -> None:
+    args = _build_parser().parse_args(argv)
+    run(args.config_json)
+if __name__ == "__main__":
+    main()

ins_pricing/modelling/Explain_entry.py ADDED Viewed

@@ -0,0 +1,539 @@
+"""Config-driven explain runner for trained BayesOpt models."""
+from __future__ import annotations
+import argparse
+import json
+from pathlib import Path
+from typing import Any, Dict, List, Optional, Sequence
+import numpy as np
+import pandas as pd
+from sklearn.model_selection import train_test_split
+try:
+    from . import bayesopt as ropt  # type: ignore
+    from .cli_common import (  # type: ignore
+        build_model_names,
+        dedupe_preserve_order,
+        load_config_json,
+        normalize_config_paths,
+        resolve_config_path,
+        resolve_path,
+        set_env,
+    )
+except Exception:  # pragma: no cover
+    try:
+        import bayesopt as ropt  # type: ignore
+        from cli_common import (  # type: ignore
+            build_model_names,
+            dedupe_preserve_order,
+            load_config_json,
+            normalize_config_paths,
+            resolve_config_path,
+            resolve_path,
+            set_env,
+        )
+    except Exception:
+        import ins_pricing.bayesopt as ropt  # type: ignore
+        from ins_pricing.cli_common import (  # type: ignore
+            build_model_names,
+            dedupe_preserve_order,
+            load_config_json,
+            normalize_config_paths,
+            resolve_config_path,
+            resolve_path,
+            set_env,
+        )
+try:
+    from .run_logging import configure_run_logging  # type: ignore
+except Exception:  # pragma: no cover
+    try:
+        from run_logging import configure_run_logging  # type: ignore
+    except Exception:  # pragma: no cover
+        configure_run_logging = None  # type: ignore
+_SUPPORTED_METHODS = {"permutation", "shap", "integrated_gradients"}
+_METHOD_ALIASES = {
+    "ig": "integrated_gradients",
+    "integrated": "integrated_gradients",
+    "intgrad": "integrated_gradients",
+}
+def _safe_name(value: str) -> str:
+    return "".join(ch if ch.isalnum() or ch in "-_." else "_" for ch in str(value))
+def _load_dataset(path: Path) -> pd.DataFrame:
+    raw = pd.read_csv(path, low_memory=False)
+    raw = raw.copy()
+    for col in raw.columns:
+        s = raw[col]
+        if pd.api.types.is_numeric_dtype(s):
+            raw[col] = pd.to_numeric(s, errors="coerce").fillna(0)
+        else:
+            raw[col] = s.astype("object").fillna("<NA>")
+    return raw
+def _resolve_path_value(
+    value: Any,
+    *,
+    model_name: str,
+    base_dir: Path,
+    data_dir: Optional[Path] = None,
+) -> Optional[Path]:
+    if value is None:
+        return None
+    if isinstance(value, dict):
+        value = value.get(model_name)
+    if value is None:
+        return None
+    path_str = str(value)
+    try:
+        path_str = path_str.format(model_name=model_name)
+    except Exception:
+        pass
+    if data_dir is not None and not Path(path_str).is_absolute():
+        candidate = data_dir / path_str
+        if candidate.exists():
+            return candidate.resolve()
+    resolved = resolve_path(path_str, base_dir)
+    if resolved is None:
+        return None
+    return resolved
+def _normalize_methods(raw: Sequence[str]) -> List[str]:
+    methods: List[str] = []
+    for item in raw:
+        key = str(item).strip().lower()
+        if not key:
+            continue
+        key = _METHOD_ALIASES.get(key, key)
+        if key not in _SUPPORTED_METHODS:
+            raise ValueError(f"Unsupported explain method: {item}")
+        methods.append(key)
+    return dedupe_preserve_order(methods)
+def _save_series(series: pd.Series, path: Path) -> None:
+    path.parent.mkdir(parents=True, exist_ok=True)
+    series.to_frame(name="importance").to_csv(path, index=True)
+def _save_df(df: pd.DataFrame, path: Path) -> None:
+    path.parent.mkdir(parents=True, exist_ok=True)
+    df.to_csv(path, index=False)
+def _shap_importance(values: Any, feature_names: Sequence[str]) -> pd.Series:
+    if isinstance(values, list):
+        values = values[0]
+    arr = np.asarray(values)
+    if arr.ndim == 3:
+        arr = arr[0]
+    scores = np.mean(np.abs(arr), axis=0)
+    return pd.Series(scores, index=list(feature_names)).sort_values(ascending=False)
+def _parse_args() -> argparse.Namespace:
+    parser = argparse.ArgumentParser(
+        description="Run explainability (permutation/SHAP/IG) on trained models."
+    )
+    parser.add_argument(
+        "--config-json",
+        required=True,
+        help="Path to config.json (same schema as training).",
+    )
+    parser.add_argument(
+        "--model-keys",
+        nargs="+",
+        default=None,
+        choices=["glm", "xgb", "resn", "ft", "gnn", "all"],
+        help="Model keys to load for explanation (default from config.explain.model_keys).",
+    )
+    parser.add_argument(
+        "--methods",
+        nargs="+",
+        default=None,
+        help="Explain methods: permutation, shap, integrated_gradients (default from config.explain.methods).",
+    )
+    parser.add_argument(
+        "--output-dir",
+        default=None,
+        help="Override output root for loading models/results.",
+    )
+    parser.add_argument(
+        "--eval-path",
+        default=None,
+        help="Override validation CSV path (supports {model_name}).",
+    )
+    parser.add_argument(
+        "--on-train",
+        action="store_true",
+        help="Explain on train split instead of validation/test.",
+    )
+    parser.add_argument(
+        "--save-dir",
+        default=None,
+        help="Override output directory for explanation artifacts.",
+    )
+    return parser.parse_args()
+def _explain_for_model(
+    model: ropt.BayesOptModel,
+    *,
+    model_name: str,
+    model_keys: List[str],
+    methods: List[str],
+    on_train: bool,
+    save_dir: Path,
+    explain_cfg: Dict[str, Any],
+) -> None:
+    perm_cfg = dict(explain_cfg.get("permutation") or {})
+    shap_cfg = dict(explain_cfg.get("shap") or {})
+    ig_cfg = dict(explain_cfg.get("integrated_gradients") or {})
+    perm_metric = perm_cfg.get("metric", explain_cfg.get("metric", "auto"))
+    perm_repeats = int(perm_cfg.get("n_repeats", 5))
+    perm_max_rows = perm_cfg.get("max_rows", 5000)
+    perm_random_state = perm_cfg.get("random_state", None)
+    shap_background = int(shap_cfg.get("n_background", 500))
+    shap_samples = int(shap_cfg.get("n_samples", 200))
+    shap_save_values = bool(shap_cfg.get("save_values", False))
+    ig_steps = int(ig_cfg.get("steps", 50))
+    ig_batch_size = int(ig_cfg.get("batch_size", 256))
+    ig_target = ig_cfg.get("target", None)
+    ig_baseline = ig_cfg.get("baseline", None)
+    ig_baseline_num = ig_cfg.get("baseline_num", None)
+    ig_baseline_geo = ig_cfg.get("baseline_geo", None)
+    ig_save_values = bool(ig_cfg.get("save_values", False))
+    for key in model_keys:
+        trainer = model.trainers.get(key)
+        if trainer is None:
+            print(f"[Explain] Skip {model_name}/{key}: trainer not available.")
+            continue
+        model.load_model(key)
+        trained_model = getattr(model, f"{key}_best", None)
+        if trained_model is None:
+            print(f"[Explain] Skip {model_name}/{key}: model not loaded.")
+            continue
+        if key == "ft" and str(model.config.ft_role) != "model":
+            print(f"[Explain] Skip {model_name}/ft: ft_role != 'model'.")
+            continue
+        for method in methods:
+            if method == "permutation" and key not in {"xgb", "resn", "ft"}:
+                print(f"[Explain] Skip permutation for {model_name}/{key}.")
+                continue
+            if method == "shap" and key not in {"glm", "xgb", "resn", "ft"}:
+                print(f"[Explain] Skip shap for {model_name}/{key}.")
+                continue
+            if method == "integrated_gradients" and key not in {"resn", "ft"}:
+                print(f"[Explain] Skip integrated gradients for {model_name}/{key}.")
+                continue
+            if method == "permutation":
+                try:
+                    result = model.compute_permutation_importance(
+                        key,
+                        on_train=on_train,
+                        metric=perm_metric,
+                        n_repeats=perm_repeats,
+                        max_rows=perm_max_rows,
+                        random_state=perm_random_state,
+                    )
+                except Exception as exc:
+                    print(f"[Explain] permutation failed for {model_name}/{key}: {exc}")
+                    continue
+                out_path = save_dir / f"{_safe_name(model_name)}_{key}_permutation.csv"
+                _save_df(result, out_path)
+                print(f"[Explain] Saved permutation -> {out_path}")
+            if method == "shap":
+                try:
+                    if key == "glm":
+                        shap_result = model.compute_shap_glm(
+                            n_background=shap_background,
+                            n_samples=shap_samples,
+                            on_train=on_train,
+                        )
+                    elif key == "xgb":
+                        shap_result = model.compute_shap_xgb(
+                            n_background=shap_background,
+                            n_samples=shap_samples,
+                            on_train=on_train,
+                        )
+                    elif key == "resn":
+                        shap_result = model.compute_shap_resn(
+                            n_background=shap_background,
+                            n_samples=shap_samples,
+                            on_train=on_train,
+                        )
+                    else:
+                        shap_result = model.compute_shap_ft(
+                            n_background=shap_background,
+                            n_samples=shap_samples,
+                            on_train=on_train,
+                        )
+                except Exception as exc:
+                    print(f"[Explain] shap failed for {model_name}/{key}: {exc}")
+                    continue
+                shap_values = shap_result.get("shap_values")
+                X_explain = shap_result.get("X_explain")
+                feature_names = (
+                    list(X_explain.columns)
+                    if isinstance(X_explain, pd.DataFrame)
+                    else list(model.factor_nmes)
+                )
+                importance = _shap_importance(shap_values, feature_names)
+                out_path = save_dir / f"{_safe_name(model_name)}_{key}_shap_importance.csv"
+                _save_series(importance, out_path)
+                print(f"[Explain] Saved SHAP importance -> {out_path}")
+                if shap_save_values:
+                    values_path = save_dir / f"{_safe_name(model_name)}_{key}_shap_values.npy"
+                    np.save(values_path, np.array(shap_values, dtype=object), allow_pickle=True)
+                    if isinstance(X_explain, pd.DataFrame):
+                        x_path = save_dir / f"{_safe_name(model_name)}_{key}_shap_X.csv"
+                        _save_df(X_explain, x_path)
+                    meta_path = save_dir / f"{_safe_name(model_name)}_{key}_shap_meta.json"
+                    meta = {
+                        "base_value": shap_result.get("base_value"),
+                        "n_samples": int(len(X_explain)) if X_explain is not None else None,
+                    }
+                    meta_path.write_text(json.dumps(meta, indent=2), encoding="utf-8")
+            if method == "integrated_gradients":
+                try:
+                    if key == "resn":
+                        ig_result = model.compute_integrated_gradients_resn(
+                            on_train=on_train,
+                            baseline=ig_baseline,
+                            steps=ig_steps,
+                            batch_size=ig_batch_size,
+                            target=ig_target,
+                        )
+                        series = ig_result.get("importance")
+                        if isinstance(series, pd.Series):
+                            out_path = save_dir / f"{_safe_name(model_name)}_{key}_ig_importance.csv"
+                            _save_series(series, out_path)
+                            print(f"[Explain] Saved IG importance -> {out_path}")
+                        if ig_save_values and "attributions" in ig_result:
+                            attr_path = save_dir / f"{_safe_name(model_name)}_{key}_ig_attributions.npy"
+                            np.save(attr_path, ig_result.get("attributions"))
+                    else:
+                        ig_result = model.compute_integrated_gradients_ft(
+                            on_train=on_train,
+                            baseline_num=ig_baseline_num,
+                            baseline_geo=ig_baseline_geo,
+                            steps=ig_steps,
+                            batch_size=ig_batch_size,
+                            target=ig_target,
+                        )
+                        series_num = ig_result.get("importance_num")
+                        series_geo = ig_result.get("importance_geo")
+                        if isinstance(series_num, pd.Series):
+                            out_path = save_dir / f"{_safe_name(model_name)}_{key}_ig_num_importance.csv"
+                            _save_series(series_num, out_path)
+                            print(f"[Explain] Saved IG num importance -> {out_path}")
+                        if isinstance(series_geo, pd.Series):
+                            out_path = save_dir / f"{_safe_name(model_name)}_{key}_ig_geo_importance.csv"
+                            _save_series(series_geo, out_path)
+                            print(f"[Explain] Saved IG geo importance -> {out_path}")
+                        if ig_save_values:
+                            if ig_result.get("attributions_num") is not None:
+                                attr_path = save_dir / f"{_safe_name(model_name)}_{key}_ig_num_attributions.npy"
+                                np.save(attr_path, ig_result.get("attributions_num"))
+                            if ig_result.get("attributions_geo") is not None:
+                                attr_path = save_dir / f"{_safe_name(model_name)}_{key}_ig_geo_attributions.npy"
+                                np.save(attr_path, ig_result.get("attributions_geo"))
+                except Exception as exc:
+                    print(f"[Explain] integrated gradients failed for {model_name}/{key}: {exc}")
+                    continue
+def explain_from_config(args: argparse.Namespace) -> None:
+    script_dir = Path(__file__).resolve().parent
+    config_path = resolve_config_path(args.config_json, script_dir)
+    cfg = load_config_json(
+        config_path,
+        required_keys=["data_dir", "model_list", "model_categories", "target", "weight"],
+    )
+    cfg = normalize_config_paths(cfg, config_path)
+    set_env(cfg.get("env", {}))
+    data_dir = Path(cfg["data_dir"])
+    data_dir.mkdir(parents=True, exist_ok=True)
+    output_dir = args.output_dir or cfg.get("output_dir")
+    if isinstance(output_dir, str) and output_dir.strip():
+        resolved = resolve_path(output_dir, config_path.parent)
+        if resolved is not None:
+            output_dir = str(resolved)
+    prop_test = cfg.get("prop_test", 0.25)
+    rand_seed = cfg.get("rand_seed", 13)
+    explain_cfg = dict(cfg.get("explain") or {})
+    model_keys = args.model_keys or explain_cfg.get("model_keys") or ["xgb"]
+    if "all" in model_keys:
+        model_keys = ["glm", "xgb", "resn", "ft", "gnn"]
+    model_keys = dedupe_preserve_order([str(x) for x in model_keys])
+    method_list = args.methods or explain_cfg.get("methods") or ["permutation"]
+    methods = _normalize_methods([str(x) for x in method_list])
+    on_train = bool(args.on_train or explain_cfg.get("on_train", False))
+    model_names = build_model_names(cfg["model_list"], cfg["model_categories"])
+    if not model_names:
+        raise ValueError("No model names generated from model_list/model_categories.")
+    save_dir_raw = args.save_dir or explain_cfg.get("save_dir")
+    if save_dir_raw:
+        resolved = resolve_path(str(save_dir_raw), config_path.parent)
+        save_root = resolved if resolved is not None else Path(str(save_dir_raw))
+    else:
+        save_root = None
+    for model_name in model_names:
+        train_path = _resolve_path_value(
+            explain_cfg.get("train_path"),
+            model_name=model_name,
+            base_dir=config_path.parent,
+            data_dir=data_dir,
+        )
+        if train_path is None:
+            train_path = data_dir / f"{model_name}.csv"
+        if not train_path.exists():
+            raise FileNotFoundError(f"Missing training dataset: {train_path}")
+        validation_override = args.eval_path or explain_cfg.get("validation_path") or explain_cfg.get("eval_path")
+        validation_path = _resolve_path_value(
+            validation_override,
+            model_name=model_name,
+            base_dir=config_path.parent,
+            data_dir=data_dir,
+        )
+        raw = _load_dataset(train_path)
+        if validation_path is not None:
+            if not validation_path.exists():
+                raise FileNotFoundError(f"Missing validation dataset: {validation_path}")
+            train_df = raw
+            test_df = _load_dataset(validation_path)
+        else:
+            if float(prop_test) <= 0:
+                train_df = raw
+                test_df = raw.copy()
+            else:
+                train_df, test_df = train_test_split(
+                    raw, test_size=prop_test, random_state=rand_seed
+                )
+        binary_target = cfg.get("binary_target") or cfg.get("binary_resp_nme")
+        feature_list = cfg.get("feature_list")
+        categorical_features = cfg.get("categorical_features")
+        model = ropt.BayesOptModel(
+            train_df,
+            test_df,
+            model_name,
+            cfg["target"],
+            cfg["weight"],
+            feature_list,
+            binary_resp_nme=binary_target,
+            cate_list=categorical_features,
+            prop_test=prop_test,
+            rand_seed=rand_seed,
+            epochs=int(cfg.get("epochs", 50)),
+            use_gpu=bool(cfg.get("use_gpu", True)),
+            output_dir=output_dir,
+            xgb_max_depth_max=int(cfg.get("xgb_max_depth_max", 25)),
+            xgb_n_estimators_max=int(cfg.get("xgb_n_estimators_max", 500)),
+            resn_weight_decay=cfg.get("resn_weight_decay"),
+            final_ensemble=bool(cfg.get("final_ensemble", False)),
+            final_ensemble_k=int(cfg.get("final_ensemble_k", 3)),
+            final_refit=bool(cfg.get("final_refit", True)),
+            optuna_storage=cfg.get("optuna_storage"),
+            optuna_study_prefix=cfg.get("optuna_study_prefix"),
+            best_params_files=cfg.get("best_params_files"),
+            gnn_use_approx_knn=cfg.get("gnn_use_approx_knn", True),
+            gnn_approx_knn_threshold=cfg.get("gnn_approx_knn_threshold", 50000),
+            gnn_graph_cache=cfg.get("gnn_graph_cache"),
+            gnn_max_gpu_knn_nodes=cfg.get("gnn_max_gpu_knn_nodes", 200000),
+            gnn_knn_gpu_mem_ratio=cfg.get("gnn_knn_gpu_mem_ratio", 0.9),
+            gnn_knn_gpu_mem_overhead=cfg.get("gnn_knn_gpu_mem_overhead", 2.0),
+            ft_role=str(cfg.get("ft_role", "model")),
+            ft_feature_prefix=str(cfg.get("ft_feature_prefix", "ft_emb")),
+            ft_num_numeric_tokens=cfg.get("ft_num_numeric_tokens"),
+            infer_categorical_max_unique=int(cfg.get("infer_categorical_max_unique", 50)),
+            infer_categorical_max_ratio=float(cfg.get("infer_categorical_max_ratio", 0.05)),
+            reuse_best_params=bool(cfg.get("reuse_best_params", False)),
+        )
+        model_dir_override = _resolve_path_value(
+            explain_cfg.get("model_dir"),
+            model_name=model_name,
+            base_dir=config_path.parent,
+            data_dir=None,
+        )
+        if model_dir_override is not None:
+            model.output_manager.model_dir = model_dir_override
+        result_dir_override = _resolve_path_value(
+            explain_cfg.get("result_dir") or explain_cfg.get("results_dir"),
+            model_name=model_name,
+            base_dir=config_path.parent,
+            data_dir=None,
+        )
+        if result_dir_override is not None:
+            model.output_manager.result_dir = result_dir_override
+        plot_dir_override = _resolve_path_value(
+            explain_cfg.get("plot_dir"),
+            model_name=model_name,
+            base_dir=config_path.parent,
+            data_dir=None,
+        )
+        if plot_dir_override is not None:
+            model.output_manager.plot_dir = plot_dir_override
+        if save_root is None:
+            save_dir = Path(model.output_manager.result_dir) / "explain"
+        else:
+            save_dir = Path(save_root)
+        save_dir.mkdir(parents=True, exist_ok=True)
+        print(f"\n=== Explain model {model_name} ===")
+        _explain_for_model(
+            model,
+            model_name=model_name,
+            model_keys=model_keys,
+            methods=methods,
+            on_train=on_train,
+            save_dir=save_dir,
+            explain_cfg=explain_cfg,
+        )
+def main() -> None:
+    if configure_run_logging:
+        configure_run_logging(prefix="explain_entry")
+    args = _parse_args()
+    explain_from_config(args)
+if __name__ == "__main__":
+    main()

ins_pricing/modelling/Pricing_Run.py ADDED Viewed

@@ -0,0 +1,36 @@
+from __future__ import annotations
+import argparse
+from pathlib import Path
+from typing import Optional
+try:
+    from .notebook_utils import run_from_config  # type: ignore
+except Exception:  # pragma: no cover
+    from notebook_utils import run_from_config  # type: ignore
+def run(config_json: str | Path) -> None:
+    """Unified entry point: run entry/incremental/watchdog/DDP based on config.json runner."""
+    run_from_config(config_json)
+def _build_parser() -> argparse.ArgumentParser:
+    parser = argparse.ArgumentParser(
+        description="Pricing_Run: run BayesOpt by config.json (entry/incremental/watchdog/DDP)."
+    )
+    parser.add_argument(
+        "--config-json",
+        required=True,
+        help="Path to config.json (relative paths are resolved from ins_pricing/modelling/ when possible).",
+    )
+    return parser
+def main(argv: Optional[list[str]] = None) -> None:
+    args = _build_parser().parse_args(argv)
+    run(args.config_json)
+if __name__ == "__main__":
+    main()

ins_pricing/modelling/README.md ADDED Viewed

@@ -0,0 +1,33 @@
+# ins_pricing
+This directory contains reusable production-grade tooling and training frameworks, with a focus on the BayesOpt series.
+Key contents:
+- `bayesopt/`: core subpackage (data preprocessing, trainers, models, plotting, explainability)
+- `plotting/`: standalone plotting helpers (lift/roc/importance/geo)
+- `explain/`: explainability helpers (Permutation/Integrated Gradients/SHAP)
+- `BayesOpt.py`: compatibility entry point for legacy imports
+- `BayesOpt_entry.py`: batch training CLI
+- `BayesOpt_incremental.py`: incremental training CLI
+- `cli_common.py` / `notebook_utils.py`: shared CLI and notebook utilities
+- `demo/config_template.json` / `demo/config_incremental_template.json`: config templates
+- `Explain_entry.py` / `Explain_Run.py`: explainability entry points (load trained models)
+- `demo/config_explain_template.json` / `demo/Explain_Run.ipynb`: explainability demo
+Note: `modelling/demo/` is kept in the repo only and is not shipped in the PyPI package.
+Common usage:
+- CLI: `python ins_pricing/modelling/BayesOpt_entry.py --config-json ...`
+- Notebook: `from ins_pricing.bayesopt import BayesOptModel`
+Explainability (load trained models under `Results/model` and explain a validation set):
+- CLI: `python ins_pricing/modelling/Explain_entry.py --config-json ins_pricing/modelling/demo/config_explain_template.json`
+- Notebook: open `ins_pricing/modelling/demo/Explain_Run.ipynb` and run it
+Notes:
+- Models load from `output_dir/model` by default (override with `explain.model_dir`).
+- Validation data can be specified via `explain.validation_path`.
+Operational notes:
+- Training outputs are written to `plot/`, `Results/`, and `model/` by default.
+- Keep large data and secrets outside the repo and use environment variables or `.env`.

ins_pricing/modelling/__init__.py ADDED Viewed

@@ -0,0 +1,44 @@
+from __future__ import annotations
+from importlib import import_module
+# Keep imports lazy to avoid hard dependencies when only using lightweight modules.
+__all__ = [
+    "BayesOptConfig",
+    "BayesOptModel",
+    "IOUtils",
+    "TrainingUtils",
+    "free_cuda",
+    "bayesopt",
+    "plotting",
+    "explain",
+]
+_LAZY_ATTRS = {
+    "bayesopt": "ins_pricing.modelling.bayesopt",
+    "plotting": "ins_pricing.modelling.plotting",
+    "explain": "ins_pricing.modelling.explain",
+    "BayesOptConfig": "ins_pricing.modelling.bayesopt.core",
+    "BayesOptModel": "ins_pricing.modelling.bayesopt.core",
+    "IOUtils": "ins_pricing.modelling.bayesopt.utils",
+    "TrainingUtils": "ins_pricing.modelling.bayesopt.utils",
+    "free_cuda": "ins_pricing.modelling.bayesopt.utils",
+}
+def __getattr__(name: str):
+    target = _LAZY_ATTRS.get(name)
+    if not target:
+        raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+    module = import_module(target)
+    if name in {"bayesopt", "plotting", "explain"}:
+        value = module
+    else:
+        value = getattr(module, name)
+    globals()[name] = value
+    return value
+def __dir__() -> list[str]:
+    return sorted(set(__all__) | set(globals().keys()))