PyPI - wavetrainer - Versions diffs - 0.0.31__tar.gz → 0.0.33__tar.gz - Mend

wavetrainer 0.0.31tar.gz → 0.0.33tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (61) hide show

{wavetrainer-0.0.31/wavetrainer.egg-info → wavetrainer-0.0.33}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.31
+Version: 0.0.33
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.31',
+    version='0.0.33',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.31"
+__VERSION__ = "0.0.33"
 __all__ = ("create",)

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -162,6 +162,7 @@ class CatboostModel(Model):
             raise ValueError("y is null.")
         self._model_type = determine_model_type(y)
         catboost = self._provide_catboost()
+        logging.info("Fitting catboost model with depth %d", self._depth)
         train_pool = Pool(
             df,

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -18,6 +18,7 @@ from .unseen_reducer import UnseenReducer
 _COMBINED_REDUCER_FILE = "combined_reducer.json"
 _REDUCERS_KEY = "reducers"
+_REMOVED_COLUMNS_FILE = "combined_reducer_removed_columns.json"
 class CombinedReducer(Reducer):
@@ -35,6 +36,7 @@ class CombinedReducer(Reducer):
             CorrelationReducer(),
             SmartCorrelationReducer(),
         ]
+        self._folder = None
     @classmethod
     def name(cls) -> str:
@@ -67,6 +69,7 @@ class CombinedReducer(Reducer):
                     self._reducers.append(SmartCorrelationReducer())
         for reducer in self._reducers:
             reducer.load(folder)
+        self._folder = folder
     def save(self, folder: str, trial: optuna.Trial | optuna.trial.FrozenTrial) -> None:
         with open(
@@ -89,17 +92,19 @@ class CombinedReducer(Reducer):
         eval_x: pd.DataFrame | None = None,
         eval_y: pd.Series | pd.DataFrame | None = None,
     ) -> Self:
+        removed_columns_dict = {}
         for reducer in self._reducers:
             before_columns = set(df.columns.values)
             df = reducer.fit_transform(df)
             after_columns = set(df.columns.values)
             removed_columns = before_columns.difference(after_columns)
             if removed_columns:
-                logging.info(
-                    "Removed columns %s using %s",
-                    ",".join(removed_columns),
-                    reducer.name(),
-                )
+                removed_columns_dict[reducer.name()] = list(removed_columns)
+        if self._folder is not None:
+            with open(
+                os.path.join(self._folder, _REMOVED_COLUMNS_FILE), encoding="utf8"
+            ) as handle:
+                json.dump(removed_columns_dict, handle)
         return self
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer/reducer/correlation_reducer.py RENAMED Viewed

@@ -1,10 +1,15 @@
 """A reducer that removes correlation features."""
+# pylint: disable=too-many-arguments,too-many-positional-arguments
+from typing import Self
 import optuna
 import pandas as pd
 from feature_engine.selection import DropCorrelatedFeatures
 from .base_selector_reducer import BaseSelectorReducer
+from .non_categorical_numeric_columns import \
+    find_non_categorical_numeric_columns
 _CORRELATION_REDUCER_FILENAME = "correlation_reducer.joblib"
 _CORRELATION_REDUCER_THRESHOLD = "correlation_reducer_threshold"
@@ -34,3 +39,14 @@ class CorrelationReducer(BaseSelectorReducer):
         self._correlation_selector.threshold = trial.suggest_float(
             _CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
         )
+    def fit(
+        self,
+        df: pd.DataFrame,
+        y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
+        eval_x: pd.DataFrame | None = None,
+        eval_y: pd.Series | pd.DataFrame | None = None,
+    ) -> Self:
+        self._correlation_selector.variables = find_non_categorical_numeric_columns(df)
+        return super().fit(df, y=y, w=w, eval_x=eval_x, eval_y=eval_y)

wavetrainer-0.0.33/wavetrainer/reducer/non_categorical_numeric_columns.py ADDED Viewed

@@ -0,0 +1,19 @@
+"""A helper function for retrieving numeric columns without categoricals."""
+import numpy as np
+import pandas as pd
+def find_non_categorical_numeric_columns(df: pd.DataFrame) -> list[str]:
+    """
+    Finds numeric columns in a Pandas DataFrame that are not categorical.
+    Args:
+        df (pd.DataFrame): The input DataFrame.
+    Returns:
+        list: A list of column names that are numeric and not categorical.
+    """
+    numeric_cols = set(df.select_dtypes(include=np.number).columns.tolist())
+    categorical_cols = set(df.select_dtypes(include="category").columns.tolist())
+    return list(numeric_cols.difference(categorical_cols))

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer/reducer/smart_correlation_reducer.py RENAMED Viewed

@@ -1,10 +1,15 @@
 """A reducer that removes correlation features via further heuristics."""
+# pylint: disable=too-many-arguments,too-many-positional-arguments
+from typing import Self
 import optuna
 import pandas as pd
 from feature_engine.selection import SmartCorrelatedSelection
 from .base_selector_reducer import BaseSelectorReducer
+from .non_categorical_numeric_columns import \
+    find_non_categorical_numeric_columns
 _SMART_CORRELATION_REDUCER_FILENAME = "smart_correlation_reducer.joblib"
 _SMART_CORRELATION_REDUCER_THRESHOLD = "smart_correlation_reducer_threshold"
@@ -30,3 +35,14 @@ class SmartCorrelationReducer(BaseSelectorReducer):
         self._correlation_selector.threshold = trial.suggest_float(
             _SMART_CORRELATION_REDUCER_THRESHOLD, 0.1, 0.9
         )
+    def fit(
+        self,
+        df: pd.DataFrame,
+        y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
+        eval_x: pd.DataFrame | None = None,
+        eval_y: pd.Series | pd.DataFrame | None = None,
+    ) -> Self:
+        self._correlation_selector.variables = find_non_categorical_numeric_columns(df)
+        return super().fit(df, y=y, w=w, eval_x=eval_x, eval_y=eval_y)

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer/trainer.py RENAMED Viewed

@@ -37,7 +37,7 @@ _TEST_SIZE_KEY = "test_size"
 _VALIDATION_SIZE_KEY = "validation_size"
 _IDX_USR_ATTR_KEY = "idx"
 _DT_COLUMN_KEY = "dt_column"
-_BAD_OUTPUT = -1.0
+_BAD_OUTPUT = -1000.0
 def _assign_bin(timestamp, bins: list[datetime.datetime]) -> int:
@@ -345,7 +345,10 @@ class Trainer(Fit):
                     if self._max_train_timeout is None
                     else self._max_train_timeout.total_seconds(),
                 )
-            while study.best_trial.value is None or study.best_trial.value != _BAD_OUTPUT:
+            while (
+                study.best_trial.value is None or study.best_trial.value == _BAD_OUTPUT
+            ):
+                logging.info("Performing extra train")
                 study.optimize(
                     test_objective,
                     n_trials=1,
@@ -387,7 +390,7 @@ class Trainer(Fit):
                 test_df = df.iloc[: train_len + count + test_len]
                 test_series = y_series.iloc[: train_len + count + test_len]
-                if len(test_df) <= 2:
+                if len(test_df) <= 3:
                     continue
                 if test_idx < start_validation_index:

{wavetrainer-0.0.31 → wavetrainer-0.0.33/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.31
+Version: 0.0.33
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.31 → wavetrainer-0.0.33}/wavetrainer.egg-info/SOURCES.txt RENAMED Viewed

@@ -39,6 +39,7 @@ wavetrainer/reducer/combined_reducer.py
 wavetrainer/reducer/constant_reducer.py
 wavetrainer/reducer/correlation_reducer.py
 wavetrainer/reducer/duplicate_reducer.py
+wavetrainer/reducer/non_categorical_numeric_columns.py
 wavetrainer/reducer/nonnumeric_reducer.py
 wavetrainer/reducer/reducer.py
 wavetrainer/reducer/smart_correlation_reducer.py