PyPI - wavetrainer - Versions diffs - 0.0.26__tar.gz → 0.0.28__tar.gz - Mend

wavetrainer 0.0.26tar.gz → 0.0.28tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (61) hide show

{wavetrainer-0.0.26/wavetrainer.egg-info → wavetrainer-0.0.28}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.26
+Version: 0.0.28
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.26',
+    version='0.0.28',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.26"
+__VERSION__ = "0.0.28"
 __all__ = ("create",)

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/calibrator/calibrator_router.py RENAMED Viewed

@@ -36,8 +36,13 @@ class CalibratorRouter(Calibrator):
     def name(cls) -> str:
         return "router"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        pass
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        calibrator = self._calibrator
+        if calibrator is None:
+            return
+        calibrator.set_options(trial, df)
     def load(self, folder: str) -> None:
         with open(
@@ -48,11 +53,11 @@ class CalibratorRouter(Calibrator):
         calibrator.load(folder)
         self._calibrator = calibrator
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         calibrator = self._calibrator
         if calibrator is None:
             raise ValueError("calibrator is null.")
-        calibrator.save(folder)
+        calibrator.save(folder, trial)
         with open(
             os.path.join(folder, _CALIBRATOR_ROUTER_FILE), "w", encoding="utf8"
         ) as handle:

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/calibrator/mapie_calibrator.py RENAMED Viewed

@@ -29,13 +29,15 @@ class MAPIECalibrator(Calibrator):
     def name(cls) -> str:
         return "mapie"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         self._mapie = joblib.load(os.path.join(folder, _CALIBRATOR_FILENAME))
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         joblib.dump(self._mapie, os.path.join(folder, _CALIBRATOR_FILENAME))
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/calibrator/vennabers_calibrator.py RENAMED Viewed

@@ -27,13 +27,15 @@ class VennabersCalibrator(Calibrator):
     def name(cls) -> str:
         return "vennabers"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         self._vennabers = joblib.load(os.path.join(folder, _CALIBRATOR_FILENAME))
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         joblib.dump(self._vennabers, os.path.join(folder, _CALIBRATOR_FILENAME))
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/create.py RENAMED Viewed

@@ -15,7 +15,6 @@ def create(
     dt_column: str | None = None,
     max_train_timeout: datetime.timedelta | None = None,
     cutoff_dt: datetime.datetime | None = None,
-    max_features: int | None = None,
 ) -> Trainer:
     """Create a trainer."""
     return Trainer(
@@ -26,5 +25,4 @@ def create(
         dt_column=dt_column,
         max_train_timeout=max_train_timeout,
         cutoff_dt=cutoff_dt,
-        max_features=max_features,
     )

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -26,6 +26,7 @@ _L2_LEAF_REG_KEY = "l2_leaf_reg"
 _BOOSTING_TYPE_KEY = "boosting_type"
 _MODEL_TYPE_KEY = "model_type"
 _EARLY_STOPPING_ROUNDS = "early_stopping_rounds"
+_BEST_ITERATION_KEY = "best_iteration"
 class CatboostModel(Model):
@@ -41,11 +42,16 @@ class CatboostModel(Model):
     _boosting_type: None | str
     _model_type: None | ModelType
     _early_stopping_rounds: None | int
+    _best_iteration: None | int
     @classmethod
     def name(cls) -> str:
         return "catboost"
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        return True
     def __init__(self) -> None:
         super().__init__()
         self._catboost = None
@@ -56,6 +62,7 @@ class CatboostModel(Model):
         self._boosting_type = None
         self._model_type = None
         self._early_stopping_rounds = None
+        self._best_iteration = None
     @property
     def estimator(self) -> Any:
@@ -83,7 +90,9 @@ class CatboostModel(Model):
             "sample_weight": w,
         }
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._iterations = trial.suggest_int(_ITERATIONS_KEY, 100, 10000)
         self._learning_rate = trial.suggest_float(_LEARNING_RATE_KEY, 0.001, 0.3)
         self._depth = trial.suggest_int(_DEPTH_KEY, 1, 10)
@@ -92,6 +101,7 @@ class CatboostModel(Model):
             _BOOSTING_TYPE_KEY, ["Ordered", "Plain"]
         )
         self._early_stopping_rounds = trial.suggest_int(_EARLY_STOPPING_ROUNDS, 10, 500)
+        self._best_iteration = trial.user_attrs.get(_BEST_ITERATION_KEY)
     def load(self, folder: str) -> None:
         with open(
@@ -105,10 +115,11 @@ class CatboostModel(Model):
             self._boosting_type = params[_BOOSTING_TYPE_KEY]
             self._model_type = ModelType(params[_MODEL_TYPE_KEY])
             self._early_stopping_rounds = params[_EARLY_STOPPING_ROUNDS]
+            self._best_iteration = params.get(_BEST_ITERATION_KEY)
         catboost = self._provide_catboost()
         catboost.load_model(os.path.join(folder, _MODEL_FILENAME))
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         with open(
             os.path.join(folder, _MODEL_PARAMS_FILENAME), "w", encoding="utf8"
         ) as handle:
@@ -121,11 +132,13 @@ class CatboostModel(Model):
                     _BOOSTING_TYPE_KEY: self._boosting_type,
                     _MODEL_TYPE_KEY: str(self._model_type),
                     _EARLY_STOPPING_ROUNDS: self._early_stopping_rounds,
+                    _BEST_ITERATION_KEY: self._best_iteration,
                 },
                 handle,
             )
         catboost = self._provide_catboost()
         catboost.save_model(os.path.join(folder, _MODEL_FILENAME))
+        trial.user_attrs[_BEST_ITERATION_KEY] = self._best_iteration
     def fit(
         self,
@@ -137,8 +150,6 @@ class CatboostModel(Model):
     ) -> Self:
         if y is None:
             raise ValueError("y is null.")
-        if eval_x is None:
-            raise ValueError("eval_x is null.")
         self._model_type = determine_model_type(y)
         catboost = self._provide_catboost()
@@ -148,10 +159,14 @@ class CatboostModel(Model):
             weight=w,
             cat_features=df.select_dtypes(include="category").columns.tolist(),
         )
-        eval_pool = Pool(
-            eval_x,
-            label=eval_y,
-            cat_features=eval_x.select_dtypes(include="category").columns.tolist(),
+        eval_pool = (
+            Pool(
+                eval_x,
+                label=eval_y,
+                cat_features=eval_x.select_dtypes(include="category").columns.tolist(),
+            )
+            if eval_x is not None
+            else None
         )
         catboost.fit(
             train_pool,
@@ -162,6 +177,7 @@ class CatboostModel(Model):
         )
         importances = catboost.get_feature_importance(prettified=True)
         logging.info("Importances:\n%s", importances)
+        self._best_iteration = catboost.get_best_iteration()
         return self
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:
@@ -186,10 +202,14 @@ class CatboostModel(Model):
     def _provide_catboost(self) -> CatBoost:
         catboost = self._catboost
         if catboost is None:
+            best_iteration = self._best_iteration
+            iterations = (
+                best_iteration if best_iteration is not None else self._iterations
+            )
             match self._model_type:
                 case ModelType.BINARY:
                     catboost = CatBoostClassifierWrapper(
-                        iterations=self._iterations,
+                        iterations=iterations,
                         learning_rate=self._learning_rate,
                         depth=self._depth,
                         l2_leaf_reg=self._l2_leaf_reg,
@@ -201,7 +221,7 @@ class CatboostModel(Model):
                     )
                 case ModelType.REGRESSION:
                     catboost = CatBoostRegressorWrapper(
-                        iterations=self._iterations,
+                        iterations=iterations,
                         learning_rate=self._learning_rate,
                         depth=self._depth,
                         l2_leaf_reg=self._l2_leaf_reg,
@@ -213,7 +233,7 @@ class CatboostModel(Model):
                     )
                 case ModelType.BINNED_BINARY:
                     catboost = CatBoostClassifierWrapper(
-                        iterations=self._iterations,
+                        iterations=iterations,
                         learning_rate=self._learning_rate,
                         depth=self._depth,
                         l2_leaf_reg=self._l2_leaf_reg,
@@ -225,7 +245,7 @@ class CatboostModel(Model):
                     )
                 case ModelType.MULTI_CLASSIFICATION:
                     catboost = CatBoostClassifierWrapper(
-                        iterations=self._iterations,
+                        iterations=iterations,
                         learning_rate=self._learning_rate,
                         depth=self._depth,
                         l2_leaf_reg=self._l2_leaf_reg,

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/model/model.py RENAMED Viewed

@@ -20,6 +20,11 @@ class Model(Params, Fit):
         """The name of the model."""
         raise NotImplementedError("name not implemented in parent class.")
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        """Whether the model supports the X values."""
+        raise NotImplementedError("supports_x not implemented in parent class.")
     @property
     def estimator(self) -> Any:
         """The estimator backing the model."""

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/model/model_router.py RENAMED Viewed

@@ -34,6 +34,10 @@ class ModelRouter(Model):
     def name(cls) -> str:
         return "router"
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        return True
     @property
     def estimator(self) -> Any:
         model = self._model
@@ -61,9 +65,15 @@ class ModelRouter(Model):
             raise ValueError("model is null")
         return model.pre_fit(df, y=y, eval_x=eval_x, eval_y=eval_y, w=w)
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        model = _MODELS[trial.suggest_categorical("model", list(_MODELS.keys()))]()
-        model.set_options(trial)
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        model = _MODELS[
+            trial.suggest_categorical(
+                "model", [k for k, v in _MODELS.items() if v.supports_x(df)]
+            )
+        ]()
+        model.set_options(trial, df)
         self._model = model
     def load(self, folder: str) -> None:
@@ -73,11 +83,11 @@ class ModelRouter(Model):
         model.load(folder)
         self._model = model
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         model = self._model
         if model is None:
             raise ValueError("model is null")
-        model.save(folder)
+        model.save(folder, trial)
         with open(
             os.path.join(folder, _MODEL_ROUTER_FILE), "w", encoding="utf8"
         ) as handle:

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/model/tabpfn_model.py RENAMED Viewed

@@ -31,6 +31,10 @@ class TabPFNModel(Model):
     def name(cls) -> str:
         return "tabpfn"
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        return len(df.columns.values) < 500
     def __init__(self) -> None:
         super().__init__()
         self._tabpfn = None
@@ -57,7 +61,9 @@ class TabPFNModel(Model):
         self._model_type = determine_model_type(y)
         return {}
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
@@ -69,7 +75,7 @@ class TabPFNModel(Model):
             params = json.load(handle)
             self._model_type = ModelType(params[_MODEL_TYPE_KEY])
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         with open(os.path.join(folder, _MODEL_FILENAME), "wb") as f:
             pickle.dump(self._tabpfn, f)
         with open(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/params.py RENAMED Viewed

@@ -1,12 +1,15 @@
 """A class for loading/saving parameters."""
 import optuna
+import pandas as pd
 class Params:
     """The params prototype class."""
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         """Set the options used in the object."""
         raise NotImplementedError("set_options not implemented in parent class.")
@@ -14,6 +17,6 @@ class Params:
         """Loads the objects from a folder."""
         raise NotImplementedError("load not implemented in parent class.")
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         """Saves the objects into a folder."""
         raise NotImplementedError("save not implemented in parent class.")

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/reducer/base_selector_reducer.py RENAMED Viewed

@@ -32,14 +32,16 @@ class BaseSelectorReducer(Reducer):
         """Whether the class should raise its exception if it encounters it."""
         return True
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         file_path = os.path.join(folder, self._file_name)
         self._base_selector = joblib.load(file_path)
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         file_path = os.path.join(folder, self._file_name)
         joblib.dump(self._base_selector, file_path)

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -12,8 +12,8 @@ from .constant_reducer import ConstantReducer
 from .correlation_reducer import CorrelationReducer
 from .duplicate_reducer import DuplicateReducer
 from .nonnumeric_reducer import NonNumericReducer
-from .pca_reducer import PCAReducer
 from .reducer import Reducer
+from .smart_correlation_reducer import SmartCorrelationReducer
 from .unseen_reducer import UnseenReducer
 _COMBINED_REDUCER_FILE = "combined_reducer.json"
@@ -25,25 +25,26 @@ class CombinedReducer(Reducer):
     # pylint: disable=too-many-positional-arguments,too-many-arguments
-    def __init__(self, max_features: int | None):
+    def __init__(self):
         super().__init__()
-        self._max_features = max_features
         self._reducers = [
             UnseenReducer(),
             NonNumericReducer(),
             ConstantReducer(),
             DuplicateReducer(),
             CorrelationReducer(),
-            PCAReducer(max_features),
+            SmartCorrelationReducer(),
         ]
     @classmethod
     def name(cls) -> str:
         return "combined"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         for reducer in self._reducers:
-            reducer.set_options(trial)
+            reducer.set_options(trial, df)
     def load(self, folder: str) -> None:
         self._reducers = []
@@ -62,12 +63,12 @@ class CombinedReducer(Reducer):
                     self._reducers.append(NonNumericReducer())
                 elif reducer_name == UnseenReducer.name():
                     self._reducers.append(UnseenReducer())
-                elif reducer_name == PCAReducer.name():
-                    self._reducers.append(PCAReducer(self._max_features))
+                elif reducer_name == SmartCorrelationReducer.name():
+                    self._reducers.append(SmartCorrelationReducer())
         for reducer in self._reducers:
             reducer.load(folder)
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         with open(
             os.path.join(folder, _COMBINED_REDUCER_FILE), "w", encoding="utf8"
         ) as handle:
@@ -78,7 +79,7 @@ class CombinedReducer(Reducer):
                 handle,
             )
         for reducer in self._reducers:
-            reducer.save(folder)
+            reducer.save(folder, trial)
     def fit(
         self,

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/reducer/correlation_reducer.py RENAMED Viewed

@@ -1,18 +1,22 @@
 """A reducer that removes correlation features."""
+import optuna
+import pandas as pd
 from feature_engine.selection import DropCorrelatedFeatures
 from .base_selector_reducer import BaseSelectorReducer
 _CORRELATION_REDUCER_FILENAME = "correlation_reducer.joblib"
+_CORRELATION_REDUCER_THRESHOLD = "correlation_reducer_threshold"
 class CorrelationReducer(BaseSelectorReducer):
     """A class that removes correlated values from a dataset."""
     def __init__(self) -> None:
+        self._correlation_selector = DropCorrelatedFeatures(missing_values="ignore")
         super().__init__(
-            DropCorrelatedFeatures(missing_values="ignore"),
+            self._correlation_selector,
             _CORRELATION_REDUCER_FILENAME,
         )
@@ -23,3 +27,10 @@ class CorrelationReducer(BaseSelectorReducer):
     @classmethod
     def should_raise(cls) -> bool:
         return False
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        self._correlation_selector.threshold = trial.suggest_float(
+            _CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
+        )

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/reducer/nonnumeric_reducer.py RENAMED Viewed

@@ -17,13 +17,15 @@ class NonNumericReducer(Reducer):
     def name(cls) -> str:
         return "nonnumeric"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         pass
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         pass
     def fit(

wavetrainer-0.0.28/wavetrainer/reducer/smart_correlation_reducer.py ADDED Viewed

@@ -0,0 +1,32 @@
+"""A reducer that removes correlation features via further heuristics."""
+import optuna
+import pandas as pd
+from feature_engine.selection import SmartCorrelatedSelection
+from .base_selector_reducer import BaseSelectorReducer
+_SMART_CORRELATION_REDUCER_FILENAME = "smart_correlation_reducer.joblib"
+_SMART_CORRELATION_REDUCER_THRESHOLD = "smart_correlation_reducer_threshold"
+class SmartCorrelationReducer(BaseSelectorReducer):
+    """A class that removes smart correlated values from a dataset."""
+    def __init__(self) -> None:
+        self._correlation_selector = SmartCorrelatedSelection(missing_values="ignore")
+        super().__init__(
+            self._correlation_selector,
+            _SMART_CORRELATION_REDUCER_FILENAME,
+        )
+    @classmethod
+    def name(cls) -> str:
+        return "smart_correlation"
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        self._correlation_selector.threshold = trial.suggest_float(
+            _SMART_CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
+        )

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/reducer/unseen_reducer.py RENAMED Viewed

@@ -25,7 +25,9 @@ class UnseenReducer(Reducer):
     def name(cls) -> str:
         return "unseen"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
@@ -34,7 +36,7 @@ class UnseenReducer(Reducer):
         ) as handle:
             self._seen_features = json.load(handle)
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         with open(
             os.path.join(folder, _UNSEEN_REDUCER_FILE), "w", encoding="utf8"
         ) as handle:

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/selector/selector.py RENAMED Viewed

@@ -31,14 +31,16 @@ class Selector(Params, Fit):
         self._steps = 0
         self._selector = None
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._feature_ratio = trial.suggest_float("feature_ratio", 0.0, 1.0)
         self._steps = trial.suggest_int("steps", 1, 10)
     def load(self, folder: str) -> None:
         self._selector = joblib.load(os.path.join(folder, _SELECTOR_FILE))
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         joblib.dump(self._selector, os.path.join(folder, _SELECTOR_FILE))
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/trainer.py RENAMED Viewed

@@ -36,7 +36,6 @@ _TEST_SIZE_KEY = "test_size"
 _VALIDATION_SIZE_KEY = "validation_size"
 _IDX_USR_ATTR_KEY = "idx"
 _DT_COLUMN_KEY = "dt_column"
-_MAX_FEATURES_KEY = "max_features"
 class Trainer(Fit):
@@ -54,7 +53,6 @@ class Trainer(Fit):
         dt_column: str | None = None,
         max_train_timeout: datetime.timedelta | None = None,
         cutoff_dt: datetime.datetime | None = None,
-        max_features: int | None = None,
     ):
         tqdm.tqdm.pandas()
@@ -105,7 +103,6 @@ class Trainer(Fit):
                         )
                 if dt_column is None:
                     dt_column = params[_DT_COLUMN_KEY]
-                max_features = params.get(_MAX_FEATURES_KEY)
         else:
             with open(params_file, "w", encoding="utf8") as handle:
                 validation_size_value = None
@@ -136,7 +133,6 @@ class Trainer(Fit):
                         _TEST_SIZE_KEY: test_size_value,
                         _VALIDATION_SIZE_KEY: validation_size_value,
                         _DT_COLUMN_KEY: dt_column,
-                        _MAX_FEATURES_KEY: max_features,
                     },
                     handle,
                 )
@@ -147,7 +143,6 @@ class Trainer(Fit):
         self._dt_column = dt_column
         self._max_train_timeout = max_train_timeout
         self._cutoff_dt = cutoff_dt
-        self._max_features = max_features
     def _provide_study(self, column: str) -> optuna.Study:
         storage_name = f"sqlite:///{self._folder}/{column}/{_STUDYDB_FILENAME}"
@@ -213,7 +208,7 @@ class Trainer(Fit):
                 try:
                     # Window the data
                     windower = Windower(self._dt_column)
-                    windower.set_options(trial)
+                    windower.set_options(trial, x)
                     x_train = windower.fit_transform(x_train)
                     y_train = y_train[-len(x_train) :]
                     if len(y_train.unique()) <= 1:
@@ -221,25 +216,25 @@ class Trainer(Fit):
                         return -1.0
                     # Perform common reductions
-                    reducer = CombinedReducer(self._max_features)
-                    reducer.set_options(trial)
+                    reducer = CombinedReducer()
+                    reducer.set_options(trial, x)
                     x_train = reducer.fit_transform(x_train)
                     x_test = reducer.transform(x_test)
                     # Calculate the row weights
                     weights = CombinedWeights()
-                    weights.set_options(trial)
+                    weights.set_options(trial, x)
                     w = weights.fit(x_train, y=y_train).transform(y_train.to_frame())[
                         WEIGHTS_COLUMN
                     ]
                     # Create model
                     model = ModelRouter()
-                    model.set_options(trial)
+                    model.set_options(trial, x)
                     # Train
                     selector = Selector(model)
-                    selector.set_options(trial)
+                    selector.set_options(trial, x)
                     selector.fit(x_train, y=y_train, w=w, eval_x=x_test, eval_y=y_test)
                     x_train = selector.transform(x_train)
                     x_test = selector.transform(x_test)
@@ -249,7 +244,7 @@ class Trainer(Fit):
                     # Calibrate
                     calibrator = CalibratorRouter(model)
-                    calibrator.set_options(trial)
+                    calibrator.set_options(trial, x)
                     calibrator.fit(x_pred, y=y_train)
                     if save:
@@ -258,12 +253,12 @@ class Trainer(Fit):
                         )
                         if not os.path.exists(folder):
                             os.mkdir(folder)
-                        windower.save(folder)
-                        reducer.save(folder)
-                        weights.save(folder)
-                        model.save(folder)
-                        selector.save(folder)
-                        calibrator.save(folder)
+                        windower.save(folder, trial)
+                        reducer.save(folder, trial)
+                        weights.save(folder, trial)
+                        model.save(folder, trial)
+                        selector.save(folder, trial)
+                        calibrator.save(folder, trial)
                     y_pred = model.transform(x_test)
                     y_pred = calibrator.transform(y_pred)
@@ -380,6 +375,7 @@ class Trainer(Fit):
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:
         """Predict the expected values of the data."""
+        tqdm.tqdm.pandas(desc="Inferring...")
         input_df = df.copy()
         df = df.reindex(sorted(df.columns), axis=1)
         feature_columns = df.columns.values
@@ -430,7 +426,7 @@ class Trainer(Fit):
                 date_str = dates[-1].isoformat()
                 folder = os.path.join(column_path, date_str)
-                reducer = CombinedReducer(self._max_features)
+                reducer = CombinedReducer()
                 reducer.load(folder)
                 model = ModelRouter()

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/class_weights.py RENAMED Viewed

@@ -27,13 +27,15 @@ class ClassWeights(Weights):
         """The name of the weight class."""
         return "class"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         pass
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         pass
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/combined_weights.py RENAMED Viewed

@@ -23,17 +23,19 @@ class CombinedWeights(Weights):
     def name(cls) -> str:
         return "combined"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         for weights in self._weights:
-            weights.set_options(trial)
+            weights.set_options(trial, df)
     def load(self, folder: str) -> None:
         for weights in self._weights:
             weights.load(folder)
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         for weights in self._weights:
-            weights.save(folder)
+            weights.save(folder, trial)
     def fit(
         self,

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/exponential_weights.py RENAMED Viewed

@@ -19,13 +19,15 @@ class ExponentialWeights(Weights):
         """The name of the weight class."""
         return "exponential"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         pass
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         pass
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/linear_weights.py RENAMED Viewed

@@ -19,13 +19,15 @@ class LinearWeights(Weights):
         """The name of the weight class."""
         return "linear"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         pass
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         pass
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/noop_weights.py RENAMED Viewed

@@ -19,13 +19,15 @@ class NoopWeights(Weights):
         """The name of the weight class."""
         return "noop"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         pass
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         pass
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/sigmoid_weights.py RENAMED Viewed

@@ -20,13 +20,15 @@ class SigmoidWeights(Weights):
         """The name of the weight class."""
         return "sigmoid"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:
         pass
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         pass
     def fit(

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/weights/weights_router.py RENAMED Viewed

@@ -38,7 +38,9 @@ class WeightsRouter(Weights):
     def name(cls) -> str:
         return "router"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._weights = _WEIGHTS[
             trial.suggest_categorical("weights", list(_WEIGHTS.keys()))
         ]()
@@ -54,10 +56,11 @@ class WeightsRouter(Weights):
             weights = _WEIGHTS[params[_WEIGHTS_KEY]]()
         self._weights = weights
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         weights = self._weights
         if weights is None:
             raise ValueError("weights is null")
+        weights.save(folder, trial)
         with open(
             os.path.join(folder, _WEIGHTS_ROUTER_FILE), "w", encoding="utf8"
         ) as handle:

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer/windower/windower.py RENAMED Viewed

@@ -28,7 +28,9 @@ class Windower(Params, Fit):
         self._lookback_ratio = None
         self._dt_column = dt_column
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._lookback_ratio = trial.suggest_float("lookback", 0.1, 1.0)
     def load(self, folder: str) -> None:
@@ -36,7 +38,7 @@ class Windower(Params, Fit):
             params = json.load(handle)
             self._lookback = params[_LOOKBACK_KEY]
-    def save(self, folder: str) -> None:
+    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         with open(os.path.join(folder, _WINDOWER_FILE), "w", encoding="utf8") as handle:
             json.dump(
                 {

{wavetrainer-0.0.26 → wavetrainer-0.0.28/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.26
+Version: 0.0.28
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.26 → wavetrainer-0.0.28}/wavetrainer.egg-info/SOURCES.txt RENAMED Viewed

@@ -40,8 +40,8 @@ wavetrainer/reducer/constant_reducer.py
 wavetrainer/reducer/correlation_reducer.py
 wavetrainer/reducer/duplicate_reducer.py
 wavetrainer/reducer/nonnumeric_reducer.py
-wavetrainer/reducer/pca_reducer.py
 wavetrainer/reducer/reducer.py
+wavetrainer/reducer/smart_correlation_reducer.py
 wavetrainer/reducer/unseen_reducer.py
 wavetrainer/selector/__init__.py
 wavetrainer/selector/selector.py

wavetrainer-0.0.26/wavetrainer/reducer/pca_reducer.py DELETED Viewed

@@ -1,77 +0,0 @@
-"""A reducer that removes low variance columns."""
-import os
-from typing import Self
-import joblib  # type: ignore
-import optuna
-import pandas as pd
-from sklearn.decomposition import PCA  # type: ignore
-from sklearn.preprocessing import StandardScaler  # type: ignore
-from .reducer import Reducer
-_PCA_FILE = "pca.joblib"
-_PCA_SCALER_FILE = "pca_scaler.joblib"
-class PCAReducer(Reducer):
-    """A class that removes low variance columns from a dataframe."""
-    # pylint: disable=too-many-positional-arguments,too-many-arguments
-    def __init__(self, max_features: int | None):
-        super().__init__()
-        self._max_features = max_features
-        if max_features is not None:
-            self._scaler = StandardScaler()
-            self._pca = PCA(n_components=max_features)
-        else:
-            self._scaler = None
-            self._pca = None
-    @classmethod
-    def name(cls) -> str:
-        return "pca"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        pass
-    def load(self, folder: str) -> None:
-        pca_scaler_file = os.path.join(folder, _PCA_SCALER_FILE)
-        pca_file = os.path.join(folder, _PCA_FILE)
-        if os.path.exists(pca_scaler_file):
-            self._scaler = joblib.load(pca_scaler_file)
-        if os.path.exists(pca_file):
-            self._pca = joblib.load(pca_file)
-    def save(self, folder: str) -> None:
-        if self._scaler is not None:
-            joblib.dump(self._scaler, os.path.join(folder, _PCA_SCALER_FILE))
-        if self._pca is not None:
-            joblib.dump(self._pca, os.path.join(folder, _PCA_FILE))
-    def fit(
-        self,
-        df: pd.DataFrame,
-        y: pd.Series | pd.DataFrame | None = None,
-        w: pd.Series | None = None,
-        eval_x: pd.DataFrame | None = None,
-        eval_y: pd.Series | pd.DataFrame | None = None,
-    ) -> Self:
-        pca = self._pca
-        scaler = self._scaler
-        if pca is None or scaler is None:
-            return self
-        if len(df.columns.values) < pca.n_components:  # type: ignore
-            return self
-        x_scaled = scaler.fit_transform(df)
-        pca.fit(x_scaled)
-        return self
-    def transform(self, df: pd.DataFrame) -> pd.DataFrame:
-        if self._pca is None:
-            return df
-        if len(df.columns.values) < self._pca.n_components:  # type: ignore
-            return df
-        return self._pca.transform(df)