PyPI - ins-pricing - Versions diffs - 0.1.11__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

ins-pricing 0.1.11py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (126) hide show

ins_pricing/README.md +9 -6
ins_pricing/__init__.py +3 -11
ins_pricing/cli/BayesOpt_entry.py +24 -0
ins_pricing/{modelling → cli}/BayesOpt_incremental.py +197 -64
ins_pricing/cli/Explain_Run.py +25 -0
ins_pricing/{modelling → cli}/Explain_entry.py +169 -124
ins_pricing/cli/Pricing_Run.py +25 -0
ins_pricing/cli/__init__.py +1 -0
ins_pricing/cli/bayesopt_entry_runner.py +1312 -0
ins_pricing/cli/utils/__init__.py +1 -0
ins_pricing/cli/utils/cli_common.py +320 -0
ins_pricing/cli/utils/cli_config.py +375 -0
ins_pricing/{modelling → cli/utils}/notebook_utils.py +74 -19
{ins_pricing_gemini/modelling → ins_pricing/cli}/watchdog_run.py +2 -2
ins_pricing/{modelling → docs/modelling}/BayesOpt_USAGE.md +69 -49
ins_pricing/docs/modelling/README.md +34 -0
ins_pricing/modelling/__init__.py +57 -6
ins_pricing/modelling/core/__init__.py +1 -0
ins_pricing/modelling/{bayesopt → core/bayesopt}/config_preprocess.py +64 -1
ins_pricing/modelling/{bayesopt → core/bayesopt}/core.py +150 -810
ins_pricing/modelling/core/bayesopt/model_explain_mixin.py +296 -0
ins_pricing/modelling/core/bayesopt/model_plotting_mixin.py +548 -0
ins_pricing/modelling/core/bayesopt/models/__init__.py +27 -0
ins_pricing/modelling/core/bayesopt/models/model_ft_components.py +316 -0
ins_pricing/modelling/core/bayesopt/models/model_ft_trainer.py +808 -0
ins_pricing/modelling/core/bayesopt/models/model_gnn.py +675 -0
ins_pricing/modelling/core/bayesopt/models/model_resn.py +435 -0
ins_pricing/modelling/core/bayesopt/trainers/__init__.py +19 -0
ins_pricing/modelling/core/bayesopt/trainers/trainer_base.py +1020 -0
ins_pricing/modelling/core/bayesopt/trainers/trainer_ft.py +787 -0
ins_pricing/modelling/core/bayesopt/trainers/trainer_glm.py +195 -0
ins_pricing/modelling/core/bayesopt/trainers/trainer_gnn.py +312 -0
ins_pricing/modelling/core/bayesopt/trainers/trainer_resn.py +261 -0
ins_pricing/modelling/core/bayesopt/trainers/trainer_xgb.py +348 -0
ins_pricing/modelling/{bayesopt → core/bayesopt}/utils.py +2 -2
ins_pricing/modelling/core/evaluation.py +115 -0
ins_pricing/production/__init__.py +4 -0
ins_pricing/production/preprocess.py +71 -0
ins_pricing/setup.py +10 -5
{ins_pricing_gemini/modelling/tests → ins_pricing/tests/modelling}/test_plotting.py +2 -2
{ins_pricing-0.1.11.dist-info → ins_pricing-0.2.0.dist-info}/METADATA +4 -4
ins_pricing-0.2.0.dist-info/RECORD +125 -0
{ins_pricing-0.1.11.dist-info → ins_pricing-0.2.0.dist-info}/top_level.txt +0 -1
ins_pricing/modelling/BayesOpt_entry.py +0 -633
ins_pricing/modelling/Explain_Run.py +0 -36
ins_pricing/modelling/Pricing_Run.py +0 -36
ins_pricing/modelling/README.md +0 -33
ins_pricing/modelling/bayesopt/models.py +0 -2196
ins_pricing/modelling/bayesopt/trainers.py +0 -2446
ins_pricing/modelling/cli_common.py +0 -136
ins_pricing/modelling/tests/test_plotting.py +0 -63
ins_pricing/modelling/watchdog_run.py +0 -211
ins_pricing-0.1.11.dist-info/RECORD +0 -169
ins_pricing_gemini/__init__.py +0 -23
ins_pricing_gemini/governance/__init__.py +0 -20
ins_pricing_gemini/governance/approval.py +0 -93
ins_pricing_gemini/governance/audit.py +0 -37
ins_pricing_gemini/governance/registry.py +0 -99
ins_pricing_gemini/governance/release.py +0 -159
ins_pricing_gemini/modelling/Explain_Run.py +0 -36
ins_pricing_gemini/modelling/Pricing_Run.py +0 -36
ins_pricing_gemini/modelling/__init__.py +0 -151
ins_pricing_gemini/modelling/cli_common.py +0 -141
ins_pricing_gemini/modelling/config.py +0 -249
ins_pricing_gemini/modelling/config_preprocess.py +0 -254
ins_pricing_gemini/modelling/core.py +0 -741
ins_pricing_gemini/modelling/data_container.py +0 -42
ins_pricing_gemini/modelling/explain/__init__.py +0 -55
ins_pricing_gemini/modelling/explain/gradients.py +0 -334
ins_pricing_gemini/modelling/explain/metrics.py +0 -176
ins_pricing_gemini/modelling/explain/permutation.py +0 -155
ins_pricing_gemini/modelling/explain/shap_utils.py +0 -146
ins_pricing_gemini/modelling/features.py +0 -215
ins_pricing_gemini/modelling/model_manager.py +0 -148
ins_pricing_gemini/modelling/model_plotting.py +0 -463
ins_pricing_gemini/modelling/models.py +0 -2203
ins_pricing_gemini/modelling/notebook_utils.py +0 -294
ins_pricing_gemini/modelling/plotting/__init__.py +0 -45
ins_pricing_gemini/modelling/plotting/common.py +0 -63
ins_pricing_gemini/modelling/plotting/curves.py +0 -572
ins_pricing_gemini/modelling/plotting/diagnostics.py +0 -139
ins_pricing_gemini/modelling/plotting/geo.py +0 -362
ins_pricing_gemini/modelling/plotting/importance.py +0 -121
ins_pricing_gemini/modelling/run_logging.py +0 -133
ins_pricing_gemini/modelling/tests/conftest.py +0 -8
ins_pricing_gemini/modelling/tests/test_cross_val_generic.py +0 -66
ins_pricing_gemini/modelling/tests/test_distributed_utils.py +0 -18
ins_pricing_gemini/modelling/tests/test_explain.py +0 -56
ins_pricing_gemini/modelling/tests/test_geo_tokens_split.py +0 -49
ins_pricing_gemini/modelling/tests/test_graph_cache.py +0 -33
ins_pricing_gemini/modelling/tests/test_plotting_library.py +0 -150
ins_pricing_gemini/modelling/tests/test_preprocessor.py +0 -48
ins_pricing_gemini/modelling/trainers.py +0 -2447
ins_pricing_gemini/modelling/utils.py +0 -1020
ins_pricing_gemini/pricing/__init__.py +0 -27
ins_pricing_gemini/pricing/calibration.py +0 -39
ins_pricing_gemini/pricing/data_quality.py +0 -117
ins_pricing_gemini/pricing/exposure.py +0 -85
ins_pricing_gemini/pricing/factors.py +0 -91
ins_pricing_gemini/pricing/monitoring.py +0 -99
ins_pricing_gemini/pricing/rate_table.py +0 -78
ins_pricing_gemini/production/__init__.py +0 -21
ins_pricing_gemini/production/drift.py +0 -30
ins_pricing_gemini/production/monitoring.py +0 -143
ins_pricing_gemini/production/scoring.py +0 -40
ins_pricing_gemini/reporting/__init__.py +0 -11
ins_pricing_gemini/reporting/report_builder.py +0 -72
ins_pricing_gemini/reporting/scheduler.py +0 -45
ins_pricing_gemini/scripts/BayesOpt_incremental.py +0 -722
ins_pricing_gemini/scripts/Explain_entry.py +0 -545
ins_pricing_gemini/scripts/__init__.py +0 -1
ins_pricing_gemini/scripts/train.py +0 -568
ins_pricing_gemini/setup.py +0 -55
ins_pricing_gemini/smoke_test.py +0 -28
/ins_pricing/{modelling → cli/utils}/run_logging.py +0 -0
/ins_pricing/modelling/{BayesOpt.py → core/BayesOpt.py} +0 -0
/ins_pricing/modelling/{bayesopt → core/bayesopt}/__init__.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/conftest.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_cross_val_generic.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_distributed_utils.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_explain.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_geo_tokens_split.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_graph_cache.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_plotting_library.py +0 -0
/ins_pricing/{modelling/tests → tests/modelling}/test_preprocessor.py +0 -0
{ins_pricing-0.1.11.dist-info → ins_pricing-0.2.0.dist-info}/WHEEL +0 -0

ins_pricing/modelling/core/bayesopt/model_explain_mixin.py ADDED Viewed

@@ -0,0 +1,296 @@
+from __future__ import annotations
+from typing import Any, Optional
+import numpy as np
+import pandas as pd
+import torch
+import statsmodels.api as sm
+try:
+    from ...explain import gradients as explain_gradients
+    from ...explain import permutation as explain_permutation
+    from ...explain import shap_utils as explain_shap
+except Exception:  # pragma: no cover - optional for legacy imports
+    try:  # best-effort for non-package imports
+        from ins_pricing.explain import gradients as explain_gradients
+        from ins_pricing.explain import permutation as explain_permutation
+        from ins_pricing.explain import shap_utils as explain_shap
+    except Exception:  # pragma: no cover
+        explain_gradients = None
+        explain_permutation = None
+        explain_shap = None
+class BayesOptExplainMixin:
+    def compute_permutation_importance(self,
+                                       model_key: str,
+                                       on_train: bool = True,
+                                       metric: Any = "auto",
+                                       n_repeats: int = 5,
+                                       max_rows: int = 5000,
+                                       random_state: Optional[int] = None):
+        if explain_permutation is None:
+            raise RuntimeError("explain.permutation is not available.")
+        model_key = str(model_key)
+        data = self.train_data if on_train else self.test_data
+        if self.resp_nme not in data.columns:
+            raise RuntimeError("Missing response column for permutation importance.")
+        y = data[self.resp_nme]
+        w = data[self.weight_nme] if self.weight_nme in data.columns else None
+        if model_key == "resn":
+            if self.resn_best is None:
+                raise RuntimeError("ResNet model not trained.")
+            X = self.train_oht_scl_data if on_train else self.test_oht_scl_data
+            if X is None:
+                raise RuntimeError("Missing standardized features for ResNet.")
+            X = X[self.var_nmes]
+            predict_fn = lambda df: self.resn_best.predict(df)
+        elif model_key == "ft":
+            if self.ft_best is None:
+                raise RuntimeError("FT model not trained.")
+            if str(self.config.ft_role) != "model":
+                raise RuntimeError("FT role is not 'model'; FT predictions unavailable.")
+            X = data[self.factor_nmes]
+            geo_tokens = self.train_geo_tokens if on_train else self.test_geo_tokens
+            geo_np = None
+            if geo_tokens is not None:
+                geo_np = geo_tokens.to_numpy(dtype=np.float32, copy=False)
+            predict_fn = lambda df, geo=geo_np: self.ft_best.predict(df, geo_tokens=geo)
+        elif model_key == "xgb":
+            if self.xgb_best is None:
+                raise RuntimeError("XGB model not trained.")
+            X = data[self.factor_nmes]
+            predict_fn = lambda df: self.xgb_best.predict(df)
+        else:
+            raise ValueError("Unsupported model_key for permutation importance.")
+        return explain_permutation.permutation_importance(
+            predict_fn,
+            X,
+            y,
+            sample_weight=w,
+            metric=metric,
+            task_type=self.task_type,
+            n_repeats=n_repeats,
+            random_state=random_state,
+            max_rows=max_rows,
+        )
+    # ========= Deep explainability: Integrated Gradients =========
+    def compute_integrated_gradients_resn(self,
+                                          on_train: bool = True,
+                                          baseline: Any = None,
+                                          steps: int = 50,
+                                          batch_size: int = 256,
+                                          target: Optional[int] = None):
+        if explain_gradients is None:
+            raise RuntimeError("explain.gradients is not available.")
+        if self.resn_best is None:
+            raise RuntimeError("ResNet model not trained.")
+        X = self.train_oht_scl_data if on_train else self.test_oht_scl_data
+        if X is None:
+            raise RuntimeError("Missing standardized features for ResNet.")
+        X = X[self.var_nmes]
+        return explain_gradients.resnet_integrated_gradients(
+            self.resn_best,
+            X,
+            baseline=baseline,
+            steps=steps,
+            batch_size=batch_size,
+            target=target,
+        )
+    def compute_integrated_gradients_ft(self,
+                                        on_train: bool = True,
+                                        geo_tokens: Optional[np.ndarray] = None,
+                                        baseline_num: Any = None,
+                                        baseline_geo: Any = None,
+                                        steps: int = 50,
+                                        batch_size: int = 256,
+                                        target: Optional[int] = None):
+        if explain_gradients is None:
+            raise RuntimeError("explain.gradients is not available.")
+        if self.ft_best is None:
+            raise RuntimeError("FT model not trained.")
+        if str(self.config.ft_role) != "model":
+            raise RuntimeError("FT role is not 'model'; FT explanations unavailable.")
+        data = self.train_data if on_train else self.test_data
+        X = data[self.factor_nmes]
+        if geo_tokens is None and getattr(self.ft_best, "num_geo", 0) > 0:
+            tokens_df = self.train_geo_tokens if on_train else self.test_geo_tokens
+            if tokens_df is not None:
+                geo_tokens = tokens_df.to_numpy(dtype=np.float32, copy=False)
+        return explain_gradients.ft_integrated_gradients(
+            self.ft_best,
+            X,
+            geo_tokens=geo_tokens,
+            baseline_num=baseline_num,
+            baseline_geo=baseline_geo,
+            steps=steps,
+            batch_size=batch_size,
+            target=target,
+        )
+    def _sample_rows(self, data: pd.DataFrame, n: int) -> pd.DataFrame:
+        if len(data) == 0:
+            return data
+        return data.sample(min(len(data), n), random_state=self.rand_seed)
+    @staticmethod
+    def _shap_nsamples(arr: np.ndarray, max_nsamples: int = 300) -> int:
+        min_needed = arr.shape[1] + 2
+        return max(min_needed, min(max_nsamples, arr.shape[0] * arr.shape[1]))
+    def _build_ft_shap_matrix(self, data: pd.DataFrame) -> np.ndarray:
+        matrices = []
+        for col in self.factor_nmes:
+            s = data[col]
+            if col in self.cate_list:
+                cats = pd.Categorical(
+                    s,
+                    categories=self.cat_categories_for_shap[col]
+                )
+                codes = np.asarray(cats.codes, dtype=np.float64).reshape(-1, 1)
+                matrices.append(codes)
+            else:
+                vals = pd.to_numeric(s, errors="coerce")
+                arr = vals.to_numpy(dtype=np.float64, copy=True).reshape(-1, 1)
+                matrices.append(arr)
+        X_mat = np.concatenate(matrices, axis=1)  # Result shape (N, F)
+        return X_mat
+    def _decode_ft_shap_matrix_to_df(self, X_mat: np.ndarray) -> pd.DataFrame:
+        data_dict = {}
+        for j, col in enumerate(self.factor_nmes):
+            col_vals = X_mat[:, j]
+            if col in self.cate_list:
+                cats = self.cat_categories_for_shap[col]
+                codes = np.round(col_vals).astype(int)
+                codes = np.clip(codes, -1, len(cats) - 1)
+                cat_series = pd.Categorical.from_codes(
+                    codes,
+                    categories=cats
+                )
+                data_dict[col] = cat_series
+            else:
+                data_dict[col] = col_vals.astype(float)
+        df = pd.DataFrame(data_dict, columns=self.factor_nmes)
+        for col in self.cate_list:
+            if col in df.columns:
+                df[col] = df[col].astype("category")
+        return df
+    def _build_glm_design(self, data: pd.DataFrame) -> pd.DataFrame:
+        X = data[self.var_nmes]
+        return sm.add_constant(X, has_constant='add')
+    def _compute_shap_core(self,
+                           model_key: str,
+                           n_background: int,
+                           n_samples: int,
+                           on_train: bool,
+                           X_df: pd.DataFrame,
+                           prep_fn,
+                           predict_fn,
+                           cleanup_fn=None):
+        if explain_shap is None:
+            raise RuntimeError("explain.shap_utils is not available.")
+        return explain_shap.compute_shap_core(
+            self,
+            model_key,
+            n_background,
+            n_samples,
+            on_train,
+            X_df=X_df,
+            prep_fn=prep_fn,
+            predict_fn=predict_fn,
+            cleanup_fn=cleanup_fn,
+        )
+    # ========= GLM SHAP explainability =========
+    def compute_shap_glm(self, n_background: int = 500,
+                         n_samples: int = 200,
+                         on_train: bool = True):
+        if explain_shap is None:
+            raise RuntimeError("explain.shap_utils is not available.")
+        self.shap_glm = explain_shap.compute_shap_glm(
+            self,
+            n_background=n_background,
+            n_samples=n_samples,
+            on_train=on_train,
+        )
+        return self.shap_glm
+    # ========= XGBoost SHAP explainability =========
+    def compute_shap_xgb(self, n_background: int = 500,
+                         n_samples: int = 200,
+                         on_train: bool = True):
+        if explain_shap is None:
+            raise RuntimeError("explain.shap_utils is not available.")
+        self.shap_xgb = explain_shap.compute_shap_xgb(
+            self,
+            n_background=n_background,
+            n_samples=n_samples,
+            on_train=on_train,
+        )
+        return self.shap_xgb
+    # ========= ResNet SHAP explainability =========
+    def _resn_predict_wrapper(self, X_np):
+        model = self.resn_best.resnet.to("cpu")
+        with torch.no_grad():
+            X_tensor = torch.tensor(X_np, dtype=torch.float32)
+            y_pred = model(X_tensor).cpu().numpy()
+        y_pred = np.clip(y_pred, 1e-6, None)
+        return y_pred.reshape(-1)
+    def compute_shap_resn(self, n_background: int = 500,
+                          n_samples: int = 200,
+                          on_train: bool = True):
+        if explain_shap is None:
+            raise RuntimeError("explain.shap_utils is not available.")
+        self.shap_resn = explain_shap.compute_shap_resn(
+            self,
+            n_background=n_background,
+            n_samples=n_samples,
+            on_train=on_train,
+        )
+        return self.shap_resn
+    # ========= FT-Transformer SHAP explainability =========
+    def _ft_shap_predict_wrapper(self, X_mat: np.ndarray) -> np.ndarray:
+        df_input = self._decode_ft_shap_matrix_to_df(X_mat)
+        y_pred = self.ft_best.predict(df_input)
+        return np.asarray(y_pred, dtype=np.float64).reshape(-1)
+    def compute_shap_ft(self, n_background: int = 500,
+                        n_samples: int = 200,
+                        on_train: bool = True):
+        if explain_shap is None:
+            raise RuntimeError("explain.shap_utils is not available.")
+        self.shap_ft = explain_shap.compute_shap_ft(
+            self,
+            n_background=n_background,
+            n_samples=n_samples,
+            on_train=on_train,
+        )
+        return self.shap_ft

ins-pricing 0.1.11__py3-none-any.whl → 0.2.0__py3-none-any.whl

ins-pricing 0.1.11py3-none-any.whl → 0.2.0py3-none-any.whl