PyPI - wavetrainer - Versions diffs - 0.0.27__tar.gz → 0.0.28__tar.gz - Mend

wavetrainer 0.0.27tar.gz → 0.0.28tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (61) hide show

{wavetrainer-0.0.27/wavetrainer.egg-info → wavetrainer-0.0.28}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.27
+Version: 0.0.28
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.27',
+    version='0.0.28',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.27"
+__VERSION__ = "0.0.28"
 __all__ = ("create",)

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/calibrator/calibrator_router.py RENAMED Viewed

@@ -36,8 +36,13 @@ class CalibratorRouter(Calibrator):
     def name(cls) -> str:
         return "router"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        pass
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        calibrator = self._calibrator
+        if calibrator is None:
+            return
+        calibrator.set_options(trial, df)
     def load(self, folder: str) -> None:
         with open(

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/calibrator/mapie_calibrator.py RENAMED Viewed

@@ -29,7 +29,9 @@ class MAPIECalibrator(Calibrator):
     def name(cls) -> str:
         return "mapie"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/calibrator/vennabers_calibrator.py RENAMED Viewed

@@ -27,7 +27,9 @@ class VennabersCalibrator(Calibrator):
     def name(cls) -> str:
         return "vennabers"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/create.py RENAMED Viewed

@@ -15,7 +15,6 @@ def create(
     dt_column: str | None = None,
     max_train_timeout: datetime.timedelta | None = None,
     cutoff_dt: datetime.datetime | None = None,
-    max_features: int | None = None,
 ) -> Trainer:
     """Create a trainer."""
     return Trainer(
@@ -26,5 +25,4 @@ def create(
         dt_column=dt_column,
         max_train_timeout=max_train_timeout,
         cutoff_dt=cutoff_dt,
-        max_features=max_features,
     )

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -48,6 +48,10 @@ class CatboostModel(Model):
     def name(cls) -> str:
         return "catboost"
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        return True
     def __init__(self) -> None:
         super().__init__()
         self._catboost = None
@@ -86,7 +90,9 @@ class CatboostModel(Model):
             "sample_weight": w,
         }
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._iterations = trial.suggest_int(_ITERATIONS_KEY, 100, 10000)
         self._learning_rate = trial.suggest_float(_LEARNING_RATE_KEY, 0.001, 0.3)
         self._depth = trial.suggest_int(_DEPTH_KEY, 1, 10)

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/model/model.py RENAMED Viewed

@@ -20,6 +20,11 @@ class Model(Params, Fit):
         """The name of the model."""
         raise NotImplementedError("name not implemented in parent class.")
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        """Whether the model supports the X values."""
+        raise NotImplementedError("supports_x not implemented in parent class.")
     @property
     def estimator(self) -> Any:
         """The estimator backing the model."""

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/model/model_router.py RENAMED Viewed

@@ -34,6 +34,10 @@ class ModelRouter(Model):
     def name(cls) -> str:
         return "router"
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        return True
     @property
     def estimator(self) -> Any:
         model = self._model
@@ -61,9 +65,15 @@ class ModelRouter(Model):
             raise ValueError("model is null")
         return model.pre_fit(df, y=y, eval_x=eval_x, eval_y=eval_y, w=w)
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        model = _MODELS[trial.suggest_categorical("model", list(_MODELS.keys()))]()
-        model.set_options(trial)
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        model = _MODELS[
+            trial.suggest_categorical(
+                "model", [k for k, v in _MODELS.items() if v.supports_x(df)]
+            )
+        ]()
+        model.set_options(trial, df)
         self._model = model
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/model/tabpfn_model.py RENAMED Viewed

@@ -31,6 +31,10 @@ class TabPFNModel(Model):
     def name(cls) -> str:
         return "tabpfn"
+    @classmethod
+    def supports_x(cls, df: pd.DataFrame) -> bool:
+        return len(df.columns.values) < 500
     def __init__(self) -> None:
         super().__init__()
         self._tabpfn = None
@@ -57,7 +61,9 @@ class TabPFNModel(Model):
         self._model_type = determine_model_type(y)
         return {}
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/params.py RENAMED Viewed

@@ -1,12 +1,15 @@
 """A class for loading/saving parameters."""
 import optuna
+import pandas as pd
 class Params:
     """The params prototype class."""
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         """Set the options used in the object."""
         raise NotImplementedError("set_options not implemented in parent class.")

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/reducer/base_selector_reducer.py RENAMED Viewed

@@ -32,7 +32,9 @@ class BaseSelectorReducer(Reducer):
         """Whether the class should raise its exception if it encounters it."""
         return True
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -12,8 +12,8 @@ from .constant_reducer import ConstantReducer
 from .correlation_reducer import CorrelationReducer
 from .duplicate_reducer import DuplicateReducer
 from .nonnumeric_reducer import NonNumericReducer
-from .pca_reducer import PCAReducer
 from .reducer import Reducer
+from .smart_correlation_reducer import SmartCorrelationReducer
 from .unseen_reducer import UnseenReducer
 _COMBINED_REDUCER_FILE = "combined_reducer.json"
@@ -25,25 +25,26 @@ class CombinedReducer(Reducer):
     # pylint: disable=too-many-positional-arguments,too-many-arguments
-    def __init__(self, max_features: int | None):
+    def __init__(self):
         super().__init__()
-        self._max_features = max_features
         self._reducers = [
             UnseenReducer(),
             NonNumericReducer(),
             ConstantReducer(),
             DuplicateReducer(),
             CorrelationReducer(),
-            PCAReducer(max_features),
+            SmartCorrelationReducer(),
         ]
     @classmethod
     def name(cls) -> str:
         return "combined"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         for reducer in self._reducers:
-            reducer.set_options(trial)
+            reducer.set_options(trial, df)
     def load(self, folder: str) -> None:
         self._reducers = []
@@ -62,8 +63,8 @@ class CombinedReducer(Reducer):
                     self._reducers.append(NonNumericReducer())
                 elif reducer_name == UnseenReducer.name():
                     self._reducers.append(UnseenReducer())
-                elif reducer_name == PCAReducer.name():
-                    self._reducers.append(PCAReducer(self._max_features))
+                elif reducer_name == SmartCorrelationReducer.name():
+                    self._reducers.append(SmartCorrelationReducer())
         for reducer in self._reducers:
             reducer.load(folder)

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/reducer/correlation_reducer.py RENAMED Viewed

@@ -1,18 +1,22 @@
 """A reducer that removes correlation features."""
+import optuna
+import pandas as pd
 from feature_engine.selection import DropCorrelatedFeatures
 from .base_selector_reducer import BaseSelectorReducer
 _CORRELATION_REDUCER_FILENAME = "correlation_reducer.joblib"
+_CORRELATION_REDUCER_THRESHOLD = "correlation_reducer_threshold"
 class CorrelationReducer(BaseSelectorReducer):
     """A class that removes correlated values from a dataset."""
     def __init__(self) -> None:
+        self._correlation_selector = DropCorrelatedFeatures(missing_values="ignore")
         super().__init__(
-            DropCorrelatedFeatures(missing_values="ignore"),
+            self._correlation_selector,
             _CORRELATION_REDUCER_FILENAME,
         )
@@ -23,3 +27,10 @@ class CorrelationReducer(BaseSelectorReducer):
     @classmethod
     def should_raise(cls) -> bool:
         return False
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        self._correlation_selector.threshold = trial.suggest_float(
+            _CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
+        )

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/reducer/nonnumeric_reducer.py RENAMED Viewed

@@ -17,7 +17,9 @@ class NonNumericReducer(Reducer):
     def name(cls) -> str:
         return "nonnumeric"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

wavetrainer-0.0.28/wavetrainer/reducer/smart_correlation_reducer.py ADDED Viewed

@@ -0,0 +1,32 @@
+"""A reducer that removes correlation features via further heuristics."""
+import optuna
+import pandas as pd
+from feature_engine.selection import SmartCorrelatedSelection
+from .base_selector_reducer import BaseSelectorReducer
+_SMART_CORRELATION_REDUCER_FILENAME = "smart_correlation_reducer.joblib"
+_SMART_CORRELATION_REDUCER_THRESHOLD = "smart_correlation_reducer_threshold"
+class SmartCorrelationReducer(BaseSelectorReducer):
+    """A class that removes smart correlated values from a dataset."""
+    def __init__(self) -> None:
+        self._correlation_selector = SmartCorrelatedSelection(missing_values="ignore")
+        super().__init__(
+            self._correlation_selector,
+            _SMART_CORRELATION_REDUCER_FILENAME,
+        )
+    @classmethod
+    def name(cls) -> str:
+        return "smart_correlation"
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        self._correlation_selector.threshold = trial.suggest_float(
+            _SMART_CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
+        )

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/reducer/unseen_reducer.py RENAMED Viewed

@@ -25,7 +25,9 @@ class UnseenReducer(Reducer):
     def name(cls) -> str:
         return "unseen"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/selector/selector.py RENAMED Viewed

@@ -31,7 +31,9 @@ class Selector(Params, Fit):
         self._steps = 0
         self._selector = None
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._feature_ratio = trial.suggest_float("feature_ratio", 0.0, 1.0)
         self._steps = trial.suggest_int("steps", 1, 10)

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/trainer.py RENAMED Viewed

@@ -36,7 +36,6 @@ _TEST_SIZE_KEY = "test_size"
 _VALIDATION_SIZE_KEY = "validation_size"
 _IDX_USR_ATTR_KEY = "idx"
 _DT_COLUMN_KEY = "dt_column"
-_MAX_FEATURES_KEY = "max_features"
 class Trainer(Fit):
@@ -54,7 +53,6 @@ class Trainer(Fit):
         dt_column: str | None = None,
         max_train_timeout: datetime.timedelta | None = None,
         cutoff_dt: datetime.datetime | None = None,
-        max_features: int | None = None,
     ):
         tqdm.tqdm.pandas()
@@ -105,7 +103,6 @@ class Trainer(Fit):
                         )
                 if dt_column is None:
                     dt_column = params[_DT_COLUMN_KEY]
-                max_features = params.get(_MAX_FEATURES_KEY)
         else:
             with open(params_file, "w", encoding="utf8") as handle:
                 validation_size_value = None
@@ -136,7 +133,6 @@ class Trainer(Fit):
                         _TEST_SIZE_KEY: test_size_value,
                         _VALIDATION_SIZE_KEY: validation_size_value,
                         _DT_COLUMN_KEY: dt_column,
-                        _MAX_FEATURES_KEY: max_features,
                     },
                     handle,
                 )
@@ -147,7 +143,6 @@ class Trainer(Fit):
         self._dt_column = dt_column
         self._max_train_timeout = max_train_timeout
         self._cutoff_dt = cutoff_dt
-        self._max_features = max_features
     def _provide_study(self, column: str) -> optuna.Study:
         storage_name = f"sqlite:///{self._folder}/{column}/{_STUDYDB_FILENAME}"
@@ -213,7 +208,7 @@ class Trainer(Fit):
                 try:
                     # Window the data
                     windower = Windower(self._dt_column)
-                    windower.set_options(trial)
+                    windower.set_options(trial, x)
                     x_train = windower.fit_transform(x_train)
                     y_train = y_train[-len(x_train) :]
                     if len(y_train.unique()) <= 1:
@@ -221,25 +216,25 @@ class Trainer(Fit):
                         return -1.0
                     # Perform common reductions
-                    reducer = CombinedReducer(self._max_features)
-                    reducer.set_options(trial)
+                    reducer = CombinedReducer()
+                    reducer.set_options(trial, x)
                     x_train = reducer.fit_transform(x_train)
                     x_test = reducer.transform(x_test)
                     # Calculate the row weights
                     weights = CombinedWeights()
-                    weights.set_options(trial)
+                    weights.set_options(trial, x)
                     w = weights.fit(x_train, y=y_train).transform(y_train.to_frame())[
                         WEIGHTS_COLUMN
                     ]
                     # Create model
                     model = ModelRouter()
-                    model.set_options(trial)
+                    model.set_options(trial, x)
                     # Train
                     selector = Selector(model)
-                    selector.set_options(trial)
+                    selector.set_options(trial, x)
                     selector.fit(x_train, y=y_train, w=w, eval_x=x_test, eval_y=y_test)
                     x_train = selector.transform(x_train)
                     x_test = selector.transform(x_test)
@@ -249,7 +244,7 @@ class Trainer(Fit):
                     # Calibrate
                     calibrator = CalibratorRouter(model)
-                    calibrator.set_options(trial)
+                    calibrator.set_options(trial, x)
                     calibrator.fit(x_pred, y=y_train)
                     if save:
@@ -431,7 +426,7 @@ class Trainer(Fit):
                 date_str = dates[-1].isoformat()
                 folder = os.path.join(column_path, date_str)
-                reducer = CombinedReducer(self._max_features)
+                reducer = CombinedReducer()
                 reducer.load(folder)
                 model = ModelRouter()

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/class_weights.py RENAMED Viewed

@@ -27,7 +27,9 @@ class ClassWeights(Weights):
         """The name of the weight class."""
         return "class"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/combined_weights.py RENAMED Viewed

@@ -23,9 +23,11 @@ class CombinedWeights(Weights):
     def name(cls) -> str:
         return "combined"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         for weights in self._weights:
-            weights.set_options(trial)
+            weights.set_options(trial, df)
     def load(self, folder: str) -> None:
         for weights in self._weights:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/exponential_weights.py RENAMED Viewed

@@ -19,7 +19,9 @@ class ExponentialWeights(Weights):
         """The name of the weight class."""
         return "exponential"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/linear_weights.py RENAMED Viewed

@@ -19,7 +19,9 @@ class LinearWeights(Weights):
         """The name of the weight class."""
         return "linear"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/noop_weights.py RENAMED Viewed

@@ -19,7 +19,9 @@ class NoopWeights(Weights):
         """The name of the weight class."""
         return "noop"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/sigmoid_weights.py RENAMED Viewed

@@ -20,7 +20,9 @@ class SigmoidWeights(Weights):
         """The name of the weight class."""
         return "sigmoid"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         pass
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/weights/weights_router.py RENAMED Viewed

@@ -38,7 +38,9 @@ class WeightsRouter(Weights):
     def name(cls) -> str:
         return "router"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._weights = _WEIGHTS[
             trial.suggest_categorical("weights", list(_WEIGHTS.keys()))
         ]()

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer/windower/windower.py RENAMED Viewed

@@ -28,7 +28,9 @@ class Windower(Params, Fit):
         self._lookback_ratio = None
         self._dt_column = dt_column
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
         self._lookback_ratio = trial.suggest_float("lookback", 0.1, 1.0)
     def load(self, folder: str) -> None:

{wavetrainer-0.0.27 → wavetrainer-0.0.28/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.27
+Version: 0.0.28
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.27 → wavetrainer-0.0.28}/wavetrainer.egg-info/SOURCES.txt RENAMED Viewed

@@ -40,8 +40,8 @@ wavetrainer/reducer/constant_reducer.py
 wavetrainer/reducer/correlation_reducer.py
 wavetrainer/reducer/duplicate_reducer.py
 wavetrainer/reducer/nonnumeric_reducer.py
-wavetrainer/reducer/pca_reducer.py
 wavetrainer/reducer/reducer.py
+wavetrainer/reducer/smart_correlation_reducer.py
 wavetrainer/reducer/unseen_reducer.py
 wavetrainer/selector/__init__.py
 wavetrainer/selector/selector.py

wavetrainer-0.0.27/wavetrainer/reducer/pca_reducer.py DELETED Viewed

@@ -1,77 +0,0 @@
-"""A reducer that removes low variance columns."""
-import os
-from typing import Self
-import joblib  # type: ignore
-import optuna
-import pandas as pd
-from sklearn.decomposition import PCA  # type: ignore
-from sklearn.preprocessing import StandardScaler  # type: ignore
-from .reducer import Reducer
-_PCA_FILE = "pca.joblib"
-_PCA_SCALER_FILE = "pca_scaler.joblib"
-class PCAReducer(Reducer):
-    """A class that removes low variance columns from a dataframe."""
-    # pylint: disable=too-many-positional-arguments,too-many-arguments
-    def __init__(self, max_features: int | None):
-        super().__init__()
-        self._max_features = max_features
-        if max_features is not None:
-            self._scaler = StandardScaler()
-            self._pca = PCA(n_components=max_features)
-        else:
-            self._scaler = None
-            self._pca = None
-    @classmethod
-    def name(cls) -> str:
-        return "pca"
-    def set_options(self, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        pass
-    def load(self, folder: str) -> None:
-        pca_scaler_file = os.path.join(folder, _PCA_SCALER_FILE)
-        pca_file = os.path.join(folder, _PCA_FILE)
-        if os.path.exists(pca_scaler_file):
-            self._scaler = joblib.load(pca_scaler_file)
-        if os.path.exists(pca_file):
-            self._pca = joblib.load(pca_file)
-    def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
-        if self._scaler is not None:
-            joblib.dump(self._scaler, os.path.join(folder, _PCA_SCALER_FILE))
-        if self._pca is not None:
-            joblib.dump(self._pca, os.path.join(folder, _PCA_FILE))
-    def fit(
-        self,
-        df: pd.DataFrame,
-        y: pd.Series | pd.DataFrame | None = None,
-        w: pd.Series | None = None,
-        eval_x: pd.DataFrame | None = None,
-        eval_y: pd.Series | pd.DataFrame | None = None,
-    ) -> Self:
-        pca = self._pca
-        scaler = self._scaler
-        if pca is None or scaler is None:
-            return self
-        if len(df.columns.values) < pca.n_components:  # type: ignore
-            return self
-        x_scaled = scaler.fit_transform(df)
-        pca.fit(x_scaled)
-        return self
-    def transform(self, df: pd.DataFrame) -> pd.DataFrame:
-        if self._pca is None:
-            return df
-        if len(df.columns.values) < self._pca.n_components:  # type: ignore
-            return df
-        return self._pca.transform(df)