PyPI - wavetrainer - Versions diffs - 0.0.24__tar.gz → 0.0.25__tar.gz - Mend

wavetrainer 0.0.24tar.gz → 0.0.25tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (60) hide show

{wavetrainer-0.0.24/wavetrainer.egg-info → wavetrainer-0.0.25}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.24
+Version: 0.0.25
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield
@@ -23,6 +23,11 @@ Requires-Dist: venn-abers>=1.4.6
 Requires-Dist: mapie>=0.9.2
 Requires-Dist: pytz>=2025.1
 Requires-Dist: torch>=2.6.0
+Requires-Dist: tabpfn>=2.0.6
+Requires-Dist: tabpfn-extensions>=0.0.4
+Requires-Dist: shap>=0.47.2
+Requires-Dist: hyperopt>=0.2.7
+Requires-Dist: pytest-is-running>=1.5.1
 # wavetrainer
@@ -52,6 +57,11 @@ Python 3.11.6:
 - [mapie](https://mapie.readthedocs.io/en/stable/)
 - [pytz](https://pythonhosted.org/pytz/)
 - [torch](https://pytorch.org/)
+- [tabpfn](https://github.com/PriorLabs/TabPFN)
+- [tabpfn-extensions](https://github.com/PriorLabs/tabpfn-extensions)
+- [shap](https://shap.readthedocs.io/en/latest/)
+- [hyperopt](https://hyperopt.github.io/hyperopt/)
+- [pytest-is-running](https://github.com/adamchainz/pytest-is-running)
 ## Raison D'être :thought_balloon:

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/README.md RENAMED Viewed

@@ -26,6 +26,11 @@ Python 3.11.6:
 - [mapie](https://mapie.readthedocs.io/en/stable/)
 - [pytz](https://pythonhosted.org/pytz/)
 - [torch](https://pytorch.org/)
+- [tabpfn](https://github.com/PriorLabs/TabPFN)
+- [tabpfn-extensions](https://github.com/PriorLabs/tabpfn-extensions)
+- [shap](https://shap.readthedocs.io/en/latest/)
+- [hyperopt](https://hyperopt.github.io/hyperopt/)
+- [pytest-is-running](https://github.com/adamchainz/pytest-is-running)
 ## Raison D'être :thought_balloon:

wavetrainer-0.0.24/wavetrainer.egg-info/requires.txt → wavetrainer-0.0.25/requirements.txt RENAMED Viewed

@@ -10,3 +10,8 @@ venn-abers>=1.4.6
 mapie>=0.9.2
 pytz>=2025.1
 torch>=2.6.0
+tabpfn>=2.0.6
+tabpfn-extensions>=0.0.4
+shap>=0.47.2
+hyperopt>=0.2.7
+pytest-is-running>=1.5.1

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.24',
+    version='0.0.25',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/tests/trainer_test.py RENAMED Viewed

@@ -14,7 +14,7 @@ class TestTrainer(unittest.TestCase):
     def test_trainer(self):
         with tempfile.TemporaryDirectory() as tmpdir:
             trainer = Trainer(tmpdir, walkforward_timedelta=datetime.timedelta(days=7), trials=1)
-            x_data = [i for i in range(100)]
+            x_data = [i for i in range(101)]
             x_index = [datetime.datetime(2022, 1, 1) + datetime.timedelta(days=i) for i in range(len(x_data))]
             df = pd.DataFrame(
                 data={

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.24"
+__VERSION__ = "0.0.25"
 __all__ = ("create",)

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -61,12 +61,17 @@ class CatboostModel(Model):
     def estimator(self) -> Any:
         return self._provide_catboost()
+    @property
+    def supports_importances(self) -> bool:
+        return True
     def pre_fit(
         self,
         df: pd.DataFrame,
         y: pd.Series | pd.DataFrame | None,
         eval_x: pd.DataFrame | None = None,
         eval_y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
     ):
         if y is None:
             raise ValueError("y is null.")
@@ -75,6 +80,7 @@ class CatboostModel(Model):
             EVAL_SET_ARG_KEY: (eval_x, eval_y),
             CAT_FEATURES_ARG_KEY: df.select_dtypes(include="category").columns.tolist(),
             ORIGINAL_X_ARG_KEY: df,
+            "sample_weight": w,
         }
     def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/model/model.py RENAMED Viewed

@@ -1,5 +1,6 @@
 """The prototype model class."""
+# pylint: disable=too-many-arguments,too-many-positional-arguments
 from typing import Any
 import pandas as pd
@@ -24,12 +25,20 @@ class Model(Params, Fit):
         """The estimator backing the model."""
         raise NotImplementedError("estimator not implemented in parent class.")
+    @property
+    def supports_importances(self) -> bool:
+        """Whether this model supports feature importances."""
+        raise NotImplementedError(
+            "supports_importances not implemented in parent class."
+        )
     def pre_fit(
         self,
         df: pd.DataFrame,
         y: pd.Series | pd.DataFrame | None,
         eval_x: pd.DataFrame | None = None,
         eval_y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
     ) -> dict[str, Any]:
         """A call to make sure the model is prepared for the target type."""
         raise NotImplementedError("pre_fit not implemented in parent class.")

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/model/model_router.py RENAMED Viewed

@@ -9,11 +9,13 @@ import pandas as pd
 from .catboost_model import CatboostModel
 from .model import Model
+from .tabpfn_model import TabPFNModel
 _MODEL_ROUTER_FILE = "model_router.json"
 _MODEL_KEY = "model"
 _MODELS = {
     CatboostModel.name(): CatboostModel,
+    TabPFNModel.name(): TabPFNModel,
 }
@@ -39,23 +41,30 @@ class ModelRouter(Model):
             raise ValueError("model is null")
         return model.estimator
+    @property
+    def supports_importances(self) -> bool:
+        model = self._model
+        if model is None:
+            raise ValueError("model is null")
+        return model.supports_importances
     def pre_fit(
         self,
         df: pd.DataFrame,
         y: pd.Series | pd.DataFrame | None,
         eval_x: pd.DataFrame | None = None,
         eval_y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
     ) -> dict[str, Any]:
         model = self._model
         if model is None:
             raise ValueError("model is null")
-        return model.pre_fit(df, y=y, eval_x=eval_x, eval_y=eval_y)
+        return model.pre_fit(df, y=y, eval_x=eval_x, eval_y=eval_y, w=w)
     def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        self._model = _MODELS[
-            trial.suggest_categorical("model", list(_MODELS.keys()))
-        ]()
-        self._model.set_options(trial)
+        model = _MODELS[trial.suggest_categorical("model", list(_MODELS.keys()))]()
+        model.set_options(trial)
+        self._model = model
     def load(self, folder: str) -> None:
         with open(os.path.join(folder, _MODEL_ROUTER_FILE), encoding="utf8") as handle:

wavetrainer-0.0.25/wavetrainer/model/tabpfn_model.py ADDED Viewed

@@ -0,0 +1,145 @@
+"""A model that wraps tabpfn."""
+# pylint: disable=duplicate-code,too-many-arguments,too-many-positional-arguments
+import json
+import os
+import pickle
+from typing import Any, Self
+import optuna
+import pandas as pd
+import pytest_is_running
+import torch
+from tabpfn_extensions.post_hoc_ensembles.sklearn_interface import (  # type: ignore
+    AutoTabPFNClassifier, AutoTabPFNRegressor)
+from ..model_type import ModelType, determine_model_type
+from .model import PREDICTION_COLUMN, PROBABILITY_COLUMN_PREFIX, Model
+_MODEL_FILENAME = "model.pkl"
+_MODEL_PARAMS_FILENAME = "model_params.json"
+_MODEL_TYPE_KEY = "model_type"
+class TabPFNModel(Model):
+    """A class that uses TabPFN as a model."""
+    _tabpfn: AutoTabPFNClassifier | AutoTabPFNRegressor | None
+    _model_type: None | ModelType
+    @classmethod
+    def name(cls) -> str:
+        return "tabpfn"
+    def __init__(self) -> None:
+        super().__init__()
+        self._tabpfn = None
+        self._model_type = None
+    @property
+    def estimator(self) -> Any:
+        return self._provide_tabpfn()
+    @property
+    def supports_importances(self) -> bool:
+        return False
+    def pre_fit(
+        self,
+        df: pd.DataFrame,
+        y: pd.Series | pd.DataFrame | None,
+        eval_x: pd.DataFrame | None = None,
+        eval_y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
+    ):
+        if y is None:
+            raise ValueError("y is null.")
+        self._model_type = determine_model_type(y)
+        return {}
+    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+        pass
+    def load(self, folder: str) -> None:
+        with open(os.path.join(folder, _MODEL_FILENAME), "rb") as f:
+            self._tabpfn = pickle.load(f)
+        with open(
+            os.path.join(folder, _MODEL_PARAMS_FILENAME), encoding="utf8"
+        ) as handle:
+            params = json.load(handle)
+            self._model_type = ModelType(params[_MODEL_TYPE_KEY])
+    def save(self, folder: str) -> None:
+        with open(os.path.join(folder, _MODEL_FILENAME), "wb") as f:
+            pickle.dump(self._tabpfn, f)
+        with open(
+            os.path.join(folder, _MODEL_PARAMS_FILENAME), "w", encoding="utf8"
+        ) as handle:
+            json.dump(
+                {
+                    _MODEL_TYPE_KEY: str(self._model_type),
+                },
+                handle,
+            )
+    def fit(
+        self,
+        df: pd.DataFrame,
+        y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
+        eval_x: pd.DataFrame | None = None,
+        eval_y: pd.Series | pd.DataFrame | None = None,
+    ) -> Self:
+        if y is None:
+            raise ValueError("y is null.")
+        self._model_type = determine_model_type(y)
+        tabpfn = self._provide_tabpfn()
+        tabpfn.fit(df, y)
+        return self
+    def transform(self, df: pd.DataFrame) -> pd.DataFrame:
+        tabpfn = self._provide_tabpfn()
+        if tabpfn is None:
+            raise ValueError("tabpfn is null")
+        pred = tabpfn.predict(df)
+        new_df = pd.DataFrame(
+            index=df.index,
+            data={
+                PREDICTION_COLUMN: pred.flatten(),
+            },
+        )
+        if isinstance(tabpfn, AutoTabPFNClassifier):
+            proba = tabpfn.predict_proba(df)
+            for i in range(proba.shape[1]):
+                new_df[f"{PROBABILITY_COLUMN_PREFIX}{i}"] = proba[:, i]
+        return new_df
+    def _provide_tabpfn(self) -> AutoTabPFNClassifier | AutoTabPFNRegressor:
+        tabpfn = self._tabpfn
+        if tabpfn is None:
+            max_time = 1 if pytest_is_running.is_running() else 120
+            match self._model_type:
+                case ModelType.BINARY:
+                    tabpfn = AutoTabPFNClassifier(
+                        max_time=max_time,
+                        device="cuda" if torch.cuda.is_available() else "cpu",
+                    )
+                case ModelType.REGRESSION:
+                    tabpfn = AutoTabPFNRegressor(
+                        max_time=max_time,
+                        device="cuda" if torch.cuda.is_available() else "cpu",
+                    )
+                case ModelType.BINNED_BINARY:
+                    tabpfn = AutoTabPFNClassifier(
+                        max_time=max_time,
+                        device="cuda" if torch.cuda.is_available() else "cpu",
+                    )
+                case ModelType.MULTI_CLASSIFICATION:
+                    tabpfn = AutoTabPFNClassifier(
+                        max_time=max_time,
+                        device="cuda" if torch.cuda.is_available() else "cpu",
+                    )
+            self._tabpfn = tabpfn
+        if tabpfn is None:
+            raise ValueError("tabpfn is null")
+        return tabpfn

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -12,6 +12,7 @@ from .constant_reducer import ConstantReducer
 from .correlation_reducer import CorrelationReducer
 from .duplicate_reducer import DuplicateReducer
 from .nonnumeric_reducer import NonNumericReducer
+from .pca_reducer import PCAReducer
 from .reducer import Reducer
 from .unseen_reducer import UnseenReducer
@@ -32,6 +33,7 @@ class CombinedReducer(Reducer):
             ConstantReducer(),
             DuplicateReducer(),
             CorrelationReducer(),
+            PCAReducer(),
         ]
     @classmethod
@@ -59,6 +61,8 @@ class CombinedReducer(Reducer):
                     self._reducers.append(NonNumericReducer())
                 elif reducer_name == UnseenReducer.name():
                     self._reducers.append(UnseenReducer())
+                elif reducer_name == PCAReducer.name():
+                    self._reducers.append(PCAReducer())
         for reducer in self._reducers:
             reducer.load(folder)

wavetrainer-0.0.25/wavetrainer/reducer/pca_reducer.py ADDED Viewed

@@ -0,0 +1,60 @@
+"""A reducer that removes low variance columns."""
+import os
+from typing import Self
+import joblib  # type: ignore
+import optuna
+import pandas as pd
+from sklearn.decomposition import PCA  # type: ignore
+from sklearn.preprocessing import StandardScaler  # type: ignore
+from .reducer import Reducer
+_PCA_FILE = "pca.joblib"
+_PCA_SCALER_FILE = "pca_scaler.joblib"
+class PCAReducer(Reducer):
+    """A class that removes low variance columns from a dataframe."""
+    # pylint: disable=too-many-positional-arguments,too-many-arguments
+    def __init__(self):
+        super().__init__()
+        self._scaler = StandardScaler()
+        self._pca = PCA(n_components=300)
+    @classmethod
+    def name(cls) -> str:
+        return "pca"
+    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+        pass
+    def load(self, folder: str) -> None:
+        self._scaler = joblib.load(os.path.join(folder, _PCA_SCALER_FILE))
+        self._pca = joblib.load(os.path.join(folder, _PCA_FILE))
+    def save(self, folder: str) -> None:
+        joblib.dump(self._scaler, os.path.join(folder, _PCA_SCALER_FILE))
+        joblib.dump(self._pca, os.path.join(folder, _PCA_FILE))
+    def fit(
+        self,
+        df: pd.DataFrame,
+        y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
+        eval_x: pd.DataFrame | None = None,
+        eval_y: pd.Series | pd.DataFrame | None = None,
+    ) -> Self:
+        if len(df.columns.values) < self._pca.n_components:  # type: ignore
+            return self
+        x_scaled = self._scaler.fit_transform(df)
+        self._pca.fit(x_scaled)
+        return self
+    def transform(self, df: pd.DataFrame) -> pd.DataFrame:
+        if len(df.columns.values) < self._pca.n_components:  # type: ignore
+            return df
+        return self._pca.transform(df)

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/selector/selector.py RENAMED Viewed

@@ -49,8 +49,10 @@ class Selector(Params, Fit):
         eval_x: pd.DataFrame | None = None,
         eval_y: pd.Series | pd.DataFrame | None = None,
     ) -> Self:
+        if not self._model.supports_importances:
+            return self
         sklearn.set_config(enable_metadata_routing=False)
-        model_kwargs = self._model.pre_fit(df, y=y, eval_x=eval_x, eval_y=eval_y)
+        model_kwargs = self._model.pre_fit(df, y=y, eval_x=eval_x, eval_y=eval_y, w=w)
         if not isinstance(y, pd.Series):
             raise ValueError("y is not a series.")
         if len(df.columns) <= 1:
@@ -65,7 +67,7 @@ class Selector(Params, Fit):
             ),
         )
         try:
-            self._selector.fit(df, y=y, sample_weight=w, **model_kwargs)
+            self._selector.fit(df, y=y, **model_kwargs)
         except ValueError as exc:
             # Catch issues with 1 feature as a reduction target.
             logging.warning(str(exc))
@@ -76,7 +78,8 @@ class Selector(Params, Fit):
             return df
         selector = self._selector
         if selector is None:
-            raise ValueError("selector is null.")
+            logging.warning("selector is null")
+            return df
         try:
             return df[selector.get_feature_names_out()]
         except AttributeError as exc:

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer/trainer.py RENAMED Viewed

@@ -266,7 +266,6 @@ class Trainer(Fit):
                         return float(r2_score(y_test, y_pred[[PREDICTION_COLUMN]]))
                     return float(f1_score(y_test, y_pred[[PREDICTION_COLUMN]]))
                 except WavetrainException as exc:
-                    logging.warning("WE DID NOT END UP TRAINING ANYTHING!!!!!")
                     logging.warning(str(exc))
                     return -1.0
@@ -343,6 +342,8 @@ class Trainer(Fit):
                 test_df = df.iloc[: train_len + count + test_len]
                 test_series = y_series.iloc[: train_len + count + test_len]
+                if len(test_df) <= 2:
+                    continue
                 if test_idx < start_validation_index:

{wavetrainer-0.0.24 → wavetrainer-0.0.25/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.24
+Version: 0.0.25
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield
@@ -23,6 +23,11 @@ Requires-Dist: venn-abers>=1.4.6
 Requires-Dist: mapie>=0.9.2
 Requires-Dist: pytz>=2025.1
 Requires-Dist: torch>=2.6.0
+Requires-Dist: tabpfn>=2.0.6
+Requires-Dist: tabpfn-extensions>=0.0.4
+Requires-Dist: shap>=0.47.2
+Requires-Dist: hyperopt>=0.2.7
+Requires-Dist: pytest-is-running>=1.5.1
 # wavetrainer
@@ -52,6 +57,11 @@ Python 3.11.6:
 - [mapie](https://mapie.readthedocs.io/en/stable/)
 - [pytz](https://pythonhosted.org/pytz/)
 - [torch](https://pytorch.org/)
+- [tabpfn](https://github.com/PriorLabs/TabPFN)
+- [tabpfn-extensions](https://github.com/PriorLabs/tabpfn-extensions)
+- [shap](https://shap.readthedocs.io/en/latest/)
+- [hyperopt](https://hyperopt.github.io/hyperopt/)
+- [pytest-is-running](https://github.com/adamchainz/pytest-is-running)
 ## Raison D'être :thought_balloon:

{wavetrainer-0.0.24 → wavetrainer-0.0.25}/wavetrainer.egg-info/SOURCES.txt RENAMED Viewed

@@ -32,6 +32,7 @@ wavetrainer/model/catboost_model.py
 wavetrainer/model/catboost_regressor_wrap.py
 wavetrainer/model/model.py
 wavetrainer/model/model_router.py
+wavetrainer/model/tabpfn_model.py
 wavetrainer/reducer/__init__.py
 wavetrainer/reducer/base_selector_reducer.py
 wavetrainer/reducer/combined_reducer.py
@@ -39,6 +40,7 @@ wavetrainer/reducer/constant_reducer.py
 wavetrainer/reducer/correlation_reducer.py
 wavetrainer/reducer/duplicate_reducer.py
 wavetrainer/reducer/nonnumeric_reducer.py
+wavetrainer/reducer/pca_reducer.py
 wavetrainer/reducer/reducer.py
 wavetrainer/reducer/unseen_reducer.py
 wavetrainer/selector/__init__.py

wavetrainer-0.0.24/requirements.txt → wavetrainer-0.0.25/wavetrainer.egg-info/requires.txt RENAMED Viewed

@@ -9,4 +9,9 @@ catboost>=1.2.7
 venn-abers>=1.4.6
 mapie>=0.9.2
 pytz>=2025.1
-torch>=2.6.0
+torch>=2.6.0
+tabpfn>=2.0.6
+tabpfn-extensions>=0.0.4
+shap>=0.47.2
+hyperopt>=0.2.7
+pytest-is-running>=1.5.1