PyPI - wavetrainer - Versions diffs - 0.0.36__tar.gz → 0.0.38__tar.gz - Mend

wavetrainer 0.0.36tar.gz → 0.0.38tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (62) hide show

{wavetrainer-0.0.36/wavetrainer.egg-info → wavetrainer-0.0.38}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.36
+Version: 0.0.38
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/setup.py RENAMED Viewed

@@ -23,7 +23,7 @@ def install_requires() -> typing.List[str]:
 setup(
     name='wavetrainer',
-    version='0.0.36',
+    version='0.0.38',
     description='A library for automatically finding the optimal model within feature and hyperparameter space.',
     long_description=long_description,
     long_description_content_type='text/markdown',

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/__init__.py RENAMED Viewed

@@ -2,5 +2,5 @@
 from .create import create
-__VERSION__ = "0.0.36"
+__VERSION__ = "0.0.38"
 __all__ = ("create",)

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/model/catboost_model.py RENAMED Viewed

@@ -175,9 +175,11 @@ class CatboostModel(Model):
                 label=eval_y,
                 cat_features=eval_x.select_dtypes(include="category").columns.tolist(),
             )
-            if eval_x is not None and self._best_iteration is not None
+            if eval_x is not None
             else None
         )
+        if self._best_iteration is not None:
+            eval_pool = None
         catboost.fit(
             train_pool,
             early_stopping_rounds=self._early_stopping_rounds,

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/model/tabpfn_model.py RENAMED Viewed

@@ -2,6 +2,7 @@
 # pylint: disable=duplicate-code,too-many-arguments,too-many-positional-arguments
 import json
+import logging
 import os
 import pickle
 from typing import Any, Self
@@ -13,6 +14,7 @@ import torch
 from tabpfn_extensions.post_hoc_ensembles.sklearn_interface import (  # type: ignore
     AutoTabPFNClassifier, AutoTabPFNRegressor)
+from ..exceptions import WavetrainException
 from ..model_type import ModelType, determine_model_type
 from .model import PREDICTION_COLUMN, PROBABILITY_COLUMN_PREFIX, Model
@@ -104,7 +106,11 @@ class TabPFNModel(Model):
             raise ValueError("y is null.")
         self._model_type = determine_model_type(y)
         tabpfn = self._provide_tabpfn()
-        tabpfn.fit(df, y)
+        try:
+            tabpfn.fit(df, y)
+        except ValueError as exc:
+            logging.warning(str(exc))
+            raise WavetrainException() from exc
         return self
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/reducer/base_selector_reducer.py RENAMED Viewed

@@ -56,8 +56,8 @@ class BaseSelectorReducer(Reducer):
         if len(df.columns) <= 1:
             return self
         try:
-            self._base_selector.fit(df)  # type: ignore
-        except ValueError as exc:
+            self._base_selector.fit(df, y=y)  # type: ignore
+        except (ValueError, AttributeError) as exc:
             logging.warning(str(exc))
             if self.should_raise():
                 raise WavetrainException() from exc
@@ -66,4 +66,10 @@ class BaseSelectorReducer(Reducer):
     def transform(self, df: pd.DataFrame) -> pd.DataFrame:
         if len(df.columns) <= 1:
             return df
-        return self._base_selector.transform(df)
+        try:
+            return self._base_selector.transform(df)
+        except (ValueError, AttributeError) as exc:
+            logging.warning(str(exc))
+            if self.should_raise():
+                raise WavetrainException() from exc
+            return df

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/reducer/combined_reducer.py RENAMED Viewed

@@ -13,6 +13,8 @@ from .correlation_reducer import CorrelationReducer
 from .duplicate_reducer import DuplicateReducer
 from .nonnumeric_reducer import NonNumericReducer
 from .reducer import Reducer
+from .select_by_single_feature_performance_reducer import \
+    SelectBySingleFeaturePerformanceReducer
 from .smart_correlation_reducer import SmartCorrelationReducer
 from .unseen_reducer import UnseenReducer
@@ -35,6 +37,7 @@ class CombinedReducer(Reducer):
             DuplicateReducer(),
             CorrelationReducer(),
             SmartCorrelationReducer(),
+            SelectBySingleFeaturePerformanceReducer(),
         ]
         self._folder = None
@@ -67,6 +70,8 @@ class CombinedReducer(Reducer):
                     self._reducers.append(UnseenReducer())
                 elif reducer_name == SmartCorrelationReducer.name():
                     self._reducers.append(SmartCorrelationReducer())
+                elif reducer_name == SelectBySingleFeaturePerformanceReducer.name():
+                    self._reducers.append(SelectBySingleFeaturePerformanceReducer())
         for reducer in self._reducers:
             reducer.load(folder)
         self._folder = folder
@@ -95,7 +100,7 @@ class CombinedReducer(Reducer):
         removed_columns_dict = {}
         for reducer in self._reducers:
             before_columns = set(df.columns.values)
-            df = reducer.fit_transform(df)
+            df = reducer.fit_transform(df, y=y)
             after_columns = set(df.columns.values)
             removed_columns = before_columns.difference(after_columns)
             if removed_columns:

wavetrainer-0.0.38/wavetrainer/reducer/select_by_single_feature_performance_reducer.py ADDED Viewed

@@ -0,0 +1,57 @@
+"""A reducer that removes features by their single performance via further heuristics."""
+from typing import Self
+import optuna
+import pandas as pd
+from feature_engine.selection import SelectBySingleFeaturePerformance
+from sklearn.ensemble import RandomForestClassifier  # type: ignore
+from .base_selector_reducer import BaseSelectorReducer
+from ..model_type import ModelType, determine_model_type
+_SINGLE_FEATURE_PERFORMANCE_REDUCER_FILENAME = (
+    "single_feature_performance_reducer.joblib"
+)
+_SINGLE_FEATURE_PERFORMANCE_REDUCER_THRESHOLD = (
+    "single_feature_performance_reducer_threshold"
+)
+class SelectBySingleFeaturePerformanceReducer(BaseSelectorReducer):
+    """A class that removes smart correlated values from a dataset."""
+    def __init__(self) -> None:
+        self._singlefeatureperformance_selector = SelectBySingleFeaturePerformance(
+            RandomForestClassifier(random_state=42), scoring="accuracy"
+        )
+        super().__init__(
+            self._singlefeatureperformance_selector,
+            _SINGLE_FEATURE_PERFORMANCE_REDUCER_FILENAME,
+        )
+    @classmethod
+    def name(cls) -> str:
+        return "single_feature_performance"
+    @classmethod
+    def should_raise(cls) -> bool:
+        return False
+    def set_options(
+        self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
+    ) -> None:
+        self._singlefeatureperformance_selector.threshold = trial.suggest_float(
+            _SINGLE_FEATURE_PERFORMANCE_REDUCER_THRESHOLD, 0.1, 0.9
+        )
+    def fit(
+        self,
+        df: pd.DataFrame,
+        y: pd.Series | pd.DataFrame | None = None,
+        w: pd.Series | None = None,
+        eval_x: pd.DataFrame | None = None,
+        eval_y: pd.Series | pd.DataFrame | None = None,
+    ) -> Self:
+        self._singlefeatureperformance_selector.scoring = "r2" if determine_model_type(y) == ModelType.REGRESSION else "accuracy"
+        return super().fit(df, y=y, w=w, eval_x=eval_x, eval_y=eval_y)

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/reducer/smart_correlation_reducer.py RENAMED Viewed

@@ -29,6 +29,10 @@ class SmartCorrelationReducer(BaseSelectorReducer):
     def name(cls) -> str:
         return "smart_correlation"
+    @classmethod
+    def should_raise(cls) -> bool:
+        return False
     def set_options(
         self, trial: optuna.Trial | optuna.trial.FrozenTrial, df: pd.DataFrame
     ) -> None:

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer/trainer.py RENAMED Viewed

@@ -244,7 +244,7 @@ class Trainer(Fit):
                     # Perform common reductions
                     reducer = CombinedReducer()
                     reducer.set_options(trial, x)
-                    x_train = reducer.fit_transform(x_train)
+                    x_train = reducer.fit_transform(x_train, y=y_train)
                     x_test = reducer.transform(x_test)
                     # Calculate the row weights

{wavetrainer-0.0.36 → wavetrainer-0.0.38/wavetrainer.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: wavetrainer
-Version: 0.0.36
+Version: 0.0.38
 Summary: A library for automatically finding the optimal model within feature and hyperparameter space.
 Home-page: https://github.com/8W9aG/wavetrainer
 Author: Will Sackfield

{wavetrainer-0.0.36 → wavetrainer-0.0.38}/wavetrainer.egg-info/SOURCES.txt RENAMED Viewed

@@ -42,6 +42,7 @@ wavetrainer/reducer/duplicate_reducer.py
 wavetrainer/reducer/non_categorical_numeric_columns.py
 wavetrainer/reducer/nonnumeric_reducer.py
 wavetrainer/reducer/reducer.py
+wavetrainer/reducer/select_by_single_feature_performance_reducer.py
 wavetrainer/reducer/smart_correlation_reducer.py
 wavetrainer/reducer/unseen_reducer.py
 wavetrainer/selector/__init__.py