PyPI - wavetrainer - Versions diffs - 0.0.29__tar.gz → 0.0.31__tar.gz - Mend

wavetrainer 0.0.29tar.gz → 0.0.31tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (60) hide show

{wavetrainer-0.0.29/wavetrainer.egg-info → wavetrainer-0.0.31}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.29
+Version: 0.0.31
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.29',
+    version='0.0.31',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/tests/trainer_test.py RENAMED Viewed

@@ -58,4 +58,4 @@ class TestTrainer(unittest.TestCase):
             trainer.fit(df, y=y)
             df = trainer.transform(df)
             print("df:")
-            print(df)
+            print(df)

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.29"
+__VERSION__ = "0.0.31"
 __all__ = ("create",)

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -72,6 +72,16 @@ class CatboostModel(Model):
     def supports_importances(self) -> bool:
         return True
+    @property
+    def feature_importances(self) -> dict[str, float]:
+        catboost = self._provide_catboost()
+        importances = catboost.get_feature_importance(prettified=True)
+        if importances is None:
+            raise ValueError("importances is null")
+        feature_ids = importances["Feature Id"].to_list()  # type: ignore
+        importances = importances["Importances"].to_list()  # type: ignore
+        return {feature_ids[x]: importances[x] for x in range(len(feature_ids))}
     def pre_fit(
         self,
         df: pd.DataFrame,
@@ -165,7 +175,7 @@ class CatboostModel(Model):
                 label=eval_y,
                 cat_features=eval_x.select_dtypes(include="category").columns.tolist(),
             )
-            if eval_x is not None
+            if eval_x is not None and self._best_iteration is not None
             else None
         )
         catboost.fit(

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/model/model.py RENAMED Viewed

@@ -37,6 +37,13 @@ class Model(Params, Fit):
             "supports_importances not implemented in parent class."
         )
+    @property
+    def feature_importances(self) -> dict[str, float]:
+        """The feature importances of this model."""
+        raise NotImplementedError(
+            "feature_importances not implemented in parent class."
+        )
     def pre_fit(
         self,
         df: pd.DataFrame,

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/model/model_router.py RENAMED Viewed

@@ -52,6 +52,13 @@ class ModelRouter(Model):
             raise ValueError("model is null")
         return model.supports_importances
+    @property
+    def feature_importances(self) -> dict[str, float]:
+        model = self._model
+        if model is None:
+            raise ValueError("model is null")
+        return model.feature_importances
     def pre_fit(
         self,
         df: pd.DataFrame,

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/model/tabpfn_model.py RENAMED Viewed

@@ -48,6 +48,10 @@ class TabPFNModel(Model):
     def supports_importances(self) -> bool:
         return False
+    @property
+    def feature_importances(self) -> dict[str, float]:
+        return {}
     def pre_fit(
         self,
         df: pd.DataFrame,

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -90,7 +90,16 @@ class CombinedReducer(Reducer):
         eval_y: pd.Series | pd.DataFrame | None = None,
     ) -> Self:
         for reducer in self._reducers:
+            before_columns = set(df.columns.values)
             df = reducer.fit_transform(df)
+            after_columns = set(df.columns.values)
+            removed_columns = before_columns.difference(after_columns)
+            if removed_columns:
+                logging.info(
+                    "Removed columns %s using %s",
+                    ",".join(removed_columns),
+                    reducer.name(),
+                )
         return self
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:

{wavetrainer-0.0.29 → wavetrainer-0.0.31}/wavetrainer/trainer.py RENAMED Viewed

@@ -37,6 +37,14 @@ _TEST_SIZE_KEY = "test_size"
 _VALIDATION_SIZE_KEY = "validation_size"
 _IDX_USR_ATTR_KEY = "idx"
 _DT_COLUMN_KEY = "dt_column"
+_BAD_OUTPUT = -1.0
+def _assign_bin(timestamp, bins: list[datetime.datetime]) -> int:
+    for i in range(len(bins) - 1):
+        if bins[i] <= timestamp < bins[i + 1]:
+            return i
+    return len(bins) - 2  # Assign to last bin if at the end
 class Trainer(Fit):
@@ -202,6 +210,7 @@ class Trainer(Fit):
                 folder = os.path.join(
                     self._folder, str(y_series.name), split_idx.isoformat()
                 )
+                new_folder = os.path.exists(folder)
                 os.makedirs(folder, exist_ok=True)
                 trial_file = os.path.join(folder, _TRIAL_FILENAME)
                 if os.path.exists(trial_file):
@@ -227,8 +236,10 @@ class Trainer(Fit):
                     x_train = windower.fit_transform(x_train)
                     y_train = y_train[-len(x_train) :]
                     if len(y_train.unique()) <= 1:
+                        if new_folder:
+                            os.removedirs(folder)
                         logging.warning("Y train only contains 1 unique datapoint.")
-                        return -1.0
+                        return _BAD_OUTPUT
                     # Perform common reductions
                     reducer = CombinedReducer()
@@ -290,7 +301,9 @@ class Trainer(Fit):
                     return output
                 except WavetrainException as exc:
                     logging.warning(str(exc))
-                    return -1.0
+                    if new_folder:
+                        os.removedirs(folder)
+                    return _BAD_OUTPUT
             start_validation_index = (
                 dt_index.to_list()[-int(len(dt_index) * self._validation_size) - 1]
@@ -332,6 +345,15 @@ class Trainer(Fit):
                     if self._max_train_timeout is None
                     else self._max_train_timeout.total_seconds(),
                 )
+            while study.best_trial.value is None or study.best_trial.value != _BAD_OUTPUT:
+                study.optimize(
+                    test_objective,
+                    n_trials=1,
+                    show_progress_bar=True,
+                    timeout=None
+                    if self._max_train_timeout is None
+                    else self._max_train_timeout.total_seconds(),
+                )
             train_len = len(df[dt_index < start_test_index])
             test_len = len(
@@ -426,12 +448,6 @@ class Trainer(Fit):
                 + [(dt_index.max() + pd.Timedelta(days=1)).to_pydatetime()]
             )
-            def assign_bin(timestamp, bins: list[datetime.datetime]) -> int:
-                for i in range(len(bins) - 1):
-                    if bins[i] <= timestamp < bins[i + 1]:
-                        return i
-                return len(bins) - 2  # Assign to last bin if at the end
             def perform_predictions(
                 group: pd.DataFrame,
                 column_path: str,
@@ -471,7 +487,7 @@ class Trainer(Fit):
             old_index = dt_index.copy()
             df = df.groupby(
-                dt_index.map(functools.partial(assign_bin, bins=bins))
+                dt_index.map(functools.partial(_assign_bin, bins=bins))
             ).progress_apply(  # type: ignore
                 functools.partial(
                     perform_predictions,
@@ -489,3 +505,21 @@ class Trainer(Fit):
             df[col] = input_df[col]
         return df
+    def feature_importances(self) -> dict[str, dict[str, float]]:
+        """Find the feature importances for the rolling models."""
+        feature_importances = {}
+        for column in os.listdir(self._folder):
+            column_path = os.path.join(self._folder, column)
+            if not os.path.isdir(column_path):
+                continue
+            for date_str in os.listdir(column_path):
+                date_path = os.path.join(column_path, date_str)
+                if not os.path.isdir(date_path):
+                    continue
+                model = ModelRouter()
+                model.load(date_path)
+                feature_importances[date_str] = model.feature_importances
+        return feature_importances

{wavetrainer-0.0.29 → wavetrainer-0.0.31/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.29
+Version: 0.0.31
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield