PyPI - wavetrainer - Versions diffs - 0.0.38__tar.gz → 0.0.39__tar.gz - Mend

wavetrainer 0.0.38tar.gz → 0.0.39tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (62) hide show

{wavetrainer-0.0.38/wavetrainer.egg-info → wavetrainer-0.0.39}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.38
+Version: 0.0.39
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.38 → wavetrainer-0.0.39}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.38',
+    version='0.0.39',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.38 → wavetrainer-0.0.39}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.38"
+__VERSION__ = "0.0.39"
 __all__ = ("create",)

{wavetrainer-0.0.38 → wavetrainer-0.0.39}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -148,7 +148,7 @@ class CatboostModel(Model):
             )
         catboost = self._provide_catboost()
         catboost.save_model(os.path.join(folder, _MODEL_FILENAME))
-        trial.user_attrs[_BEST_ITERATION_KEY] = self._best_iteration
+        trial.set_user_attr(_BEST_ITERATION_KEY, self._best_iteration)
     def fit(
         self,
@@ -219,9 +219,10 @@ class CatboostModel(Model):
                 best_iteration if best_iteration is not None else self._iterations
             )
             logging.info(
-                "Creating catboost model with depth %d, boosting type %s",
+                "Creating catboost model with depth %d, boosting type %s, best iteration %d",
                 self._depth,
                 self._boosting_type,
+                best_iteration,
             )
             match self._model_type:
                 case ModelType.BINARY:

{wavetrainer-0.0.38 → wavetrainer-0.0.39}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -3,6 +3,7 @@
 import json
 import logging
 import os
+import time
 from typing import Self
 import optuna
@@ -37,7 +38,7 @@ class CombinedReducer(Reducer):
             DuplicateReducer(),
             CorrelationReducer(),
             SmartCorrelationReducer(),
-            SelectBySingleFeaturePerformanceReducer(),
+            # SelectBySingleFeaturePerformanceReducer(),
         ]
         self._folder = None
@@ -99,12 +100,16 @@ class CombinedReducer(Reducer):
     ) -> Self:
         removed_columns_dict = {}
         for reducer in self._reducers:
+            start_reducer = time.time()
             before_columns = set(df.columns.values)
             df = reducer.fit_transform(df, y=y)
             after_columns = set(df.columns.values)
             removed_columns = before_columns.difference(after_columns)
             if removed_columns:
                 removed_columns_dict[reducer.name()] = list(removed_columns)
+            logging.info(
+                "%s reducer took %f", reducer.name(), time.time() - start_reducer
+            )
         if self._folder is not None:
             with open(
                 os.path.join(self._folder, _REMOVED_COLUMNS_FILE), encoding="utf8"

{wavetrainer-0.0.38 → wavetrainer-0.0.39}/wavetrainer/reducer/select_by_single_feature_performance_reducer.py RENAMED Viewed

@@ -1,5 +1,6 @@
 """A reducer that removes features by their single performance via further heuristics."""
+# pylint: disable=too-many-arguments,too-many-positional-arguments
 from typing import Self
 import optuna
@@ -7,8 +8,8 @@ import pandas as pd
 from feature_engine.selection import SelectBySingleFeaturePerformance
 from sklearn.ensemble import RandomForestClassifier  # type: ignore
-from .base_selector_reducer import BaseSelectorReducer
 from ..model_type import ModelType, determine_model_type
+from .base_selector_reducer import BaseSelectorReducer
 _SINGLE_FEATURE_PERFORMANCE_REDUCER_FILENAME = (
     "single_feature_performance_reducer.joblib"
@@ -23,7 +24,7 @@ class SelectBySingleFeaturePerformanceReducer(BaseSelectorReducer):
     def __init__(self) -> None:
         self._singlefeatureperformance_selector = SelectBySingleFeaturePerformance(
-            RandomForestClassifier(random_state=42), scoring="accuracy"
+            RandomForestClassifier(random_state=42, n_jobs=-1), scoring="accuracy", cv=1
         )
         super().__init__(
             self._singlefeatureperformance_selector,
@@ -53,5 +54,7 @@ class SelectBySingleFeaturePerformanceReducer(BaseSelectorReducer):
         eval_x: pd.DataFrame | None = None,
         eval_y: pd.Series | pd.DataFrame | None = None,
     ) -> Self:
-        self._singlefeatureperformance_selector.scoring = "r2" if determine_model_type(y) == ModelType.REGRESSION else "accuracy"
+        self._singlefeatureperformance_selector.scoring = (
+            "r2" if determine_model_type(y) == ModelType.REGRESSION else "accuracy"  # type: ignore
+        )
         return super().fit(df, y=y, w=w, eval_x=eval_x, eval_y=eval_y)

{wavetrainer-0.0.38 → wavetrainer-0.0.39}/wavetrainer/trainer.py RENAMED Viewed

@@ -6,6 +6,7 @@ import json
 import logging
 import os
 import pickle
+import time
 from typing import Self
 import optuna
@@ -231,6 +232,7 @@ class Trainer(Fit):
                 try:
                     # Window the data
+                    start_windower = time.time()
                     windower = Windower(self._dt_column)
                     windower.set_options(trial, x)
                     x_train = windower.fit_transform(x_train)
@@ -240,25 +242,31 @@ class Trainer(Fit):
                             os.removedirs(folder)
                         logging.warning("Y train only contains 1 unique datapoint.")
                         return _BAD_OUTPUT
+                    logging.info("Windowing took %f", time.time() - start_windower)
                     # Perform common reductions
+                    start_reducer = time.time()
                     reducer = CombinedReducer()
                     reducer.set_options(trial, x)
                     x_train = reducer.fit_transform(x_train, y=y_train)
                     x_test = reducer.transform(x_test)
+                    logging.info("Reducing took %f", time.time() - start_reducer)
                     # Calculate the row weights
+                    start_row_weights = time.time()
                     weights = CombinedWeights()
                     weights.set_options(trial, x)
                     w = weights.fit(x_train, y=y_train).transform(y_train.to_frame())[
                         WEIGHTS_COLUMN
                     ]
+                    logging.info("Row weights took %f", time.time() - start_row_weights)
                     # Create model
                     model = ModelRouter()
                     model.set_options(trial, x)
                     # Train
+                    start_train = time.time()
                     selector = Selector(model)
                     selector.set_options(trial, x)
                     selector.fit(x_train, y=y_train, w=w, eval_x=x_test, eval_y=y_test)
@@ -267,11 +275,14 @@ class Trainer(Fit):
                     x_pred = model.fit_transform(
                         x_train, y=y_train, w=w, eval_x=x_test, eval_y=y_test
                     )
+                    logging.info("Training took %f", time.time() - start_train)
                     # Calibrate
+                    start_calibrate = time.time()
                     calibrator = CalibratorRouter(model)
                     calibrator.set_options(trial, x)
                     calibrator.fit(x_pred, y=y_train)
+                    logging.info("Calibrating took %f", time.time() - start_calibrate)
                     # Output
                     y_pred = model.transform(x_test)
@@ -521,8 +532,11 @@ class Trainer(Fit):
                 date_path = os.path.join(column_path, date_str)
                 if not os.path.isdir(date_path):
                     continue
-                model = ModelRouter()
-                model.load(date_path)
-                feature_importances[date_str] = model.feature_importances
+                try:
+                    model = ModelRouter()
+                    model.load(date_path)
+                    feature_importances[date_str] = model.feature_importances
+                except FileNotFoundError as exc:
+                    logging.warning(str(exc))
         return feature_importances

{wavetrainer-0.0.38 → wavetrainer-0.0.39/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.38
+Version: 0.0.39
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield