PyPI - wavetrainer - Versions diffs - 0.0.42__tar.gz → 0.0.44__tar.gz - Mend

wavetrainer 0.0.42tar.gz → 0.0.44tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (68) hide show

{wavetrainer-0.0.42/wavetrainer.egg-info → wavetrainer-0.0.44}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.42
+Version: 0.0.44
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.42',
+    version='0.0.44',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/tests/trainer_test.py RENAMED Viewed

@@ -40,7 +40,7 @@ class TestTrainer(unittest.TestCase):
     def test_trainer_dt_column(self):
         with tempfile.TemporaryDirectory() as tmpdir:
-            trainer = Trainer(tmpdir, walkforward_timedelta=datetime.timedelta(days=7), trials=1, dt_column="dt_column")
+            trainer = Trainer(tmpdir, walkforward_timedelta=datetime.timedelta(days=7), trials=5, dt_column="dt_column")
             x_data = [i for i in range(100)]
             x_index = [datetime.datetime(2022, 1, 1) + datetime.timedelta(days=i) for i in range(len(x_data))]
             df = pd.DataFrame(

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.42"
+__VERSION__ = "0.0.44"
 __all__ = ("create",)

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/calibrator/calibrator_router.py RENAMED Viewed

@@ -37,6 +37,9 @@ class CalibratorRouter(Calibrator):
         return "router"
     def predictions_as_x(self, y: pd.Series | pd.DataFrame | None = None) -> bool:
+        calibrator = self._calibrator
+        if calibrator is not None:
+            return calibrator.predictions_as_x(None)
         if y is None:
             raise ValueError("y is null")
         if determine_model_type(y) == ModelType.REGRESSION:

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/calibrator/mapie_calibrator.py RENAMED Viewed

@@ -21,7 +21,7 @@ class MAPIECalibrator(Calibrator):
     def __init__(self, model: Model):
         super().__init__(model)
-        self._mapie = MapieRegressor(model.create_estimator(), method="plus")
+        self._mapie = MapieRegressor(model.create_estimator(), method="plus", cv=5)
     @classmethod
     def name(cls) -> str:
@@ -54,19 +54,22 @@ class MAPIECalibrator(Calibrator):
             raise ValueError("mapie is null")
         if y is None:
             raise ValueError("y is null")
-        if len(df) <= 5:
-            return self
-        mapie.fit(df.to_numpy(), y.to_numpy())
+        mapie.fit(self._model.convert_df(df), y)
         return self
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:
         alpha = []
         for potential_alpha in [0.05, 0.32]:
-            if len(df) > int(1.0 / potential_alpha) + 1:
+            if (
+                len(df) > int(1.0 / potential_alpha) + 1
+                and len(df) > int(1.0 / (1.0 - potential_alpha)) + 1
+            ):
                 alpha.append(potential_alpha)
         ret_df = pd.DataFrame(index=df.index)
         if alpha:
-            _, y_pis = self._mapie.predict(df, alpha=alpha)
+            _, y_pis = self._mapie.predict(
+                self._model.convert_df(df), alpha=alpha, allow_infinite_bounds=True
+            )
             for i in range(y_pis.shape[1]):
                 if i >= len(alpha):
                     continue

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/model/catboost/catboost_kwargs.py RENAMED Viewed

@@ -3,6 +3,7 @@
 from typing import Any
 import numpy as np
+import pandas as pd
 from catboost import Pool  # type: ignore
 ORIGINAL_X_ARG_KEY = "original_x"
@@ -12,12 +13,17 @@ CAT_FEATURES_ARG_KEY = "cat_features"
 def handle_fit_kwargs(*args, **kwargs) -> tuple[tuple[Any, ...], dict[str, Any]]:
     """Handles keyword args coming into a catboost fit method."""
+    args_list = list(args)
+    fit_x = args_list[0]
+    cat_features = kwargs.get(CAT_FEATURES_ARG_KEY)
+    if cat_features is None and isinstance(fit_x, pd.DataFrame):
+        cat_features = fit_x.select_dtypes(include="category").columns.tolist()
+    kwargs[CAT_FEATURES_ARG_KEY] = cat_features
     if ORIGINAL_X_ARG_KEY in kwargs:
         df = kwargs[ORIGINAL_X_ARG_KEY]
         eval_x, eval_y = kwargs[EVAL_SET_ARG_KEY]
-        cat_features = kwargs[CAT_FEATURES_ARG_KEY]
-        args_list = list(args)
-        fit_x = args_list[0]
         fix_x_cp = fit_x.copy()
         # Stupid code to ensure eval is feature equivalent to train data
@@ -32,9 +38,6 @@ def handle_fit_kwargs(*args, **kwargs) -> tuple[tuple[Any, ...], dict[str, Any]]
                     included_columns.append(col)
                     break
         # We also need to update cat_features or catboost will yell at us
-        cat_features = list(
-            set(list(kwargs.get(CAT_FEATURES_ARG_KEY, []))) & set(included_columns)
-        )
         args_list[0] = df[included_columns]
         args = tuple(args_list)
@@ -45,7 +48,7 @@ def handle_fit_kwargs(*args, **kwargs) -> tuple[tuple[Any, ...], dict[str, Any]]
                 label=eval_y,
                 cat_features=cat_features,
             )
-        kwargs[CAT_FEATURES_ARG_KEY] = cat_features
         del kwargs[ORIGINAL_X_ARG_KEY]
     return args, kwargs

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/model/catboost/catboost_model.py RENAMED Viewed

@@ -2,12 +2,12 @@
 # pylint: disable=line-too-long
 import json
-import logging
 import os
 from typing import Self
 import optuna
 import pandas as pd
+import pytest_is_running
 import torch
 from catboost import CatBoost, Pool  # type: ignore
@@ -83,12 +83,21 @@ class CatboostModel(Model):
     def create_estimator(self):
         return self._create_catboost()
+    def reset(self):
+        self._catboost = None
+        self._best_iteration = None
+    def convert_df(self, df: pd.DataFrame) -> pd.DataFrame:
+        return df
     def set_options(
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:
         self._iterations = trial.suggest_int(_ITERATIONS_KEY, 100, 10000)
         self._learning_rate = trial.suggest_float(_LEARNING_RATE_KEY, 0.001, 0.3)
-        self._depth = trial.suggest_int(_DEPTH_KEY, 1, 6)
+        self._depth = trial.suggest_int(
+            _DEPTH_KEY, 1, 2 if pytest_is_running.is_running() else 6
+        )
         self._l2_leaf_reg = trial.suggest_float(_L2_LEAF_REG_KEY, 3.0, 50.0)
         self._boosting_type = trial.suggest_categorical(
             _BOOSTING_TYPE_KEY, ["Ordered", "Plain"]
@@ -170,8 +179,6 @@ class CatboostModel(Model):
             metric_period=100,
             eval_set=eval_pool,
         )
-        importances = catboost.get_feature_importance(prettified=True)
-        logging.info("Importances:\n%s", importances)
         self._best_iteration = catboost.get_best_iteration()
         return self

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/model/model.py RENAMED Viewed

@@ -46,3 +46,11 @@ class Model(Params, Fit):
     def create_estimator(self) -> Any:
         """Creates a new estimator."""
         raise NotImplementedError("creates_estimator not implemented in parent class.")
+    def reset(self) -> None:
+        """Resets a model."""
+        raise NotImplementedError("reset not implemented in parent class.")
+    def convert_df(self, df: pd.DataFrame) -> pd.DataFrame:
+        """Converts a dataframe for use with a model."""
+        raise NotImplementedError("convert_df not implemented in parent class.")

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/model/model_router.py RENAMED Viewed

@@ -66,6 +66,18 @@ class ModelRouter(Model):
             raise ValueError("model is null")
         return model.create_estimator()
+    def reset(self):
+        model = self._model
+        if model is None:
+            raise ValueError("model is null")
+        model.reset()
+    def convert_df(self, df: pd.DataFrame) -> pd.DataFrame:
+        model = self._model
+        if model is None:
+            raise ValueError("model is null")
+        return model.convert_df(df)
     def set_options(
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/model/tabpfn/tabpfn_model.py RENAMED Viewed

@@ -56,6 +56,12 @@ class TabPFNModel(Model):
     def create_estimator(self):
         return self._create_tabpfn()
+    def reset(self):
+        pass
+    def convert_df(self, df: pd.DataFrame) -> pd.DataFrame:
+        return df
     def set_options(
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/model/xgboost/xgboost_model.py RENAMED Viewed

@@ -7,6 +7,7 @@ from typing import Self
 import optuna
 import pandas as pd
+import pytest_is_running
 import torch
 from xgboost import XGBClassifier, XGBRegressor
 from xgboost.callback import TrainingCallback
@@ -107,7 +108,11 @@ class XGBoostModel(Model):
     @property
     def feature_importances(self) -> dict[str, float]:
         bst = self._provide_xgboost()
-        return bst.get_booster().get_score(importance_type="weight")  # type: ignore
+        try:
+            return bst.get_booster().get_score(importance_type="weight")  # type: ignore
+        except XGBoostError as exc:
+            print(str(exc))
+            return {}
     def provide_estimator(self):
         return self._provide_xgboost()
@@ -115,6 +120,13 @@ class XGBoostModel(Model):
     def create_estimator(self):
         return self._create_xgboost()
+    def reset(self):
+        self._xgboost = None
+        self._best_iteration = None
+    def convert_df(self, df: pd.DataFrame) -> pd.DataFrame:
+        return _convert_categoricals(df)
     def set_options(
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:
@@ -126,7 +138,9 @@ class XGBoostModel(Model):
         self._subsample = trial.suggest_float(_SUBSAMPLE_KEY, 0.2, 1.0)
         self._colsample_bytree = trial.suggest_float(_COLSAMPLE_BYTREE_KEY, 0.2, 1.0)
         if self._booster in ["gbtree", "dart"]:
-            self._max_depth = trial.suggest_int(_MAX_DEPTH_KEY, 3, 9)
+            self._max_depth = trial.suggest_int(
+                _MAX_DEPTH_KEY, 3, 4 if pytest_is_running.is_running() else 9
+            )
             self._min_child_weight = trial.suggest_int(
                 _MIN_CHILD_WEIGHT_KEY, 2, 10, log=True
             )
@@ -144,7 +158,9 @@ class XGBoostModel(Model):
             )
             self._rate_drop = trial.suggest_float(_RATE_DROP_KEY, 1e-8, 1.0, log=True)
             self._skip_drop = trial.suggest_float(_SKIP_DROP_KEY, 1e-8, 1.0, log=True)
-        self._num_boost_rounds = trial.suggest_int(_NUM_BOOST_ROUNDS_KEY, 100, 10000)
+        self._num_boost_rounds = trial.suggest_int(
+            _NUM_BOOST_ROUNDS_KEY, 100, 110 if pytest_is_running.is_running() else 10000
+        )
         self._early_stopping_rounds = trial.suggest_int(
             _EARLY_STOPPING_ROUNDS_KEY, 50, 500
         )
@@ -275,7 +291,8 @@ class XGBoostModel(Model):
             )
         param = {
             "objective": "binary:logistic",
-            "tree_method": "gpu_hist" if torch.cuda.is_available() else "exact",
+            "tree_method": "hist" if torch.cuda.is_available() else "exact",
+            "device": "cuda" if torch.cuda.is_available() else "cpu",
             # defines booster, gblinear for linear functions.
             "booster": self._booster,
             # L2 regularization weight.

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/reducer/base_selector_reducer.py RENAMED Viewed

@@ -7,7 +7,6 @@ import joblib  # type: ignore
 import optuna
 import pandas as pd
 from feature_engine.selection.base_selector import BaseSelector
-from sklearn.utils.validation import check_is_fitted  # type: ignore
 from .reducer import Reducer
@@ -60,6 +59,4 @@ class BaseSelectorReducer(Reducer):
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:
         if len(df.columns) <= 1:
             return df
-        if not check_is_fitted(self._base_selector):
-            return df
         return self._base_selector.transform(df)

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -1,5 +1,6 @@
 """A reducer that combines all the other reducers."""
+# pylint: disable=line-too-long
 import json
 import logging
 import os
@@ -107,8 +108,8 @@ class CombinedReducer(Reducer):
             removed_columns = before_columns.difference(after_columns)
             if removed_columns:
                 removed_columns_dict[reducer.name()] = list(removed_columns)
-            logging.info(
-                "%s reducer took %f", reducer.name(), time.time() - start_reducer
+            print(
+                f"{reducer.name()} reducer took {time.time() - start_reducer} and removed {len(removed_columns)} features",
             )
         if self._folder is not None:
             with open(

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/reducer/correlation_reducer.py RENAMED Viewed

@@ -37,7 +37,7 @@ class CorrelationReducer(BaseSelectorReducer):
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:
         self._correlation_selector.threshold = trial.suggest_float(
-            _CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
+            _CORRELATION_REDUCER_THRESHOLD, 0.7, 0.99
         )
     def fit(

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/reducer/smart_correlation_reducer.py RENAMED Viewed

@@ -33,7 +33,7 @@ class SmartCorrelationReducer(BaseSelectorReducer):
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:
         self._correlation_selector.threshold = trial.suggest_float(
-            _SMART_CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
+            _SMART_CORRELATION_REDUCER_THRESHOLD, 0.7, 0.99
         )
     def fit(
@@ -48,3 +48,8 @@ class SmartCorrelationReducer(BaseSelectorReducer):
         if len(self._correlation_selector.variables) <= 1:
             return self
         return super().fit(df, y=y, w=w, eval_x=eval_x, eval_y=eval_y)
+    def transform(self, df: pd.DataFrame) -> pd.DataFrame:
+        if len(find_non_categorical_numeric_columns(df)) <= 1:
+            return df
+        return super().transform(df)

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/selector/selector.py RENAMED Viewed

@@ -57,7 +57,8 @@ class Selector(Params, Fit):
             return self
         if not isinstance(y, pd.Series):
             raise ValueError("y is not a series.")
-        if len(df.columns) <= 1:
+        total_columns = len(df.columns)
+        if total_columns <= 1:
             return self
         print(
             f"Performing feature selection with {self._steps} steps and a total ratio of {self._feature_ratio}"
@@ -81,6 +82,9 @@ class Selector(Params, Fit):
             if not current_features:
                 current_features = [list(feature_importances.keys())[0]]
             current_features = current_features[:required_features]
+            print(
+                f"Current Features:\n{pd.Series(data=list(feature_importances.values()), index=list(feature_importances.keys()))}\n"
+            )
         n_features = len(current_features)
         for i in range(self._steps):
@@ -90,16 +94,18 @@ class Selector(Params, Fit):
             ratio_diff = 1.0 - self._feature_ratio
             ratio_step = ratio_diff / float(self._steps)
             current_ratio = 1.0 - (ratio_step * i)
-            n_features = max(1, int(len(df.columns) * current_ratio))
+            n_features = max(1, int(total_columns * current_ratio))
             if n_features >= len(current_features):
                 continue
+            self._model.reset()
             self._model.fit(df, y=y, w=w, eval_x=eval_x, eval_y=eval_y)
             set_current_features(n_features)
             print(f"Reduced features to {len(current_features)}")
             df = df[current_features]
             if eval_x is not None:
                 eval_x = eval_x[current_features]
+        print(f"Final feature count: {len(current_features)}")
         self._selector = current_features

{wavetrainer-0.0.42 → wavetrainer-0.0.44}/wavetrainer/trainer.py RENAMED Viewed

@@ -212,7 +212,7 @@ class Trainer(Fit):
                 folder = os.path.join(
                     self._folder, str(y_series.name), split_idx.isoformat()
                 )
-                new_folder = os.path.exists(folder)
+                new_folder = not os.path.exists(folder)
                 os.makedirs(folder, exist_ok=True)
                 trial_file = os.path.join(folder, _TRIAL_FILENAME)
                 if os.path.exists(trial_file):
@@ -281,13 +281,14 @@ class Trainer(Fit):
                     x_test = selector.transform(x_test)
                     print(f"Selection took {time.time() - start_selector}")
                     start_train = time.time()
-                    x_pred = model.fit_transform(
+                    model.fit(
                         x_train,
                         y=y_train,
                         w=w,
                         eval_x=x_test if not no_evaluation else None,
                         eval_y=y_test if not no_evaluation else None,
                     )
+                    y_pred = model.transform(x_test)
                     print(f"Training took {time.time() - start_train}")
                     # Calibrate
@@ -295,13 +296,12 @@ class Trainer(Fit):
                     calibrator = CalibratorRouter(model)
                     calibrator.set_options(trial, x)
                     calibrator.fit(
-                        x_pred if calibrator.predictions_as_x(y_train) else x_train,
-                        y=y_train,
+                        y_pred if calibrator.predictions_as_x(y_test) else x_test,
+                        y=y_test,
                     )
                     print(f"Calibrating took {time.time() - start_calibrate}")
                     # Output
-                    y_pred = model.transform(x_test)
                     cal_pred = calibrator.transform(
                         y_pred if calibrator.predictions_as_x(y_test) else x_test
                     )
@@ -441,6 +441,8 @@ class Trainer(Fit):
                         if self._max_train_timeout is None
                         else self._max_train_timeout.total_seconds(),
                     )
+                else:
+                    break
                 _fit(study.best_trial, test_df, test_series, True, test_idx, True)
                 last_processed_dt = test_idx
@@ -515,7 +517,9 @@ class Trainer(Fit):
                 x_pred = reducer.transform(group[feature_columns])
                 x_pred = selector.transform(x_pred)
                 y_pred = model.transform(x_pred)
-                y_pred = calibrator.transform(y_pred)
+                y_pred = calibrator.transform(
+                    y_pred if calibrator.predictions_as_x(None) else x_pred
+                )
                 for new_column in y_pred.columns.values:
                     group["_".join([column, new_column])] = y_pred[new_column]
                 return group

{wavetrainer-0.0.42 → wavetrainer-0.0.44/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.42
+Version: 0.0.44
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield