PyPI - autogluon.timeseries - Versions diffs - 1.2.1b20250224__py3-none-any.whl → 1.4.1b20251215__py3-none-any.whl - Mend

autogluon.timeseries 1.2.1b20250224py3-none-any.whl → 1.4.1b20251215py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of autogluon.timeseries might be problematic. Click here for more details.

Files changed (108) hide show

autogluon/timeseries/models/ensemble/ensemble_selection.py ADDED Viewed

@@ -0,0 +1,167 @@
+import copy
+import numpy as np
+import autogluon.core as ag
+from autogluon.core.models.greedy_ensemble.ensemble_selection import EnsembleSelection
+from autogluon.timeseries import TimeSeriesDataFrame
+from autogluon.timeseries.metrics import TimeSeriesScorer
+from autogluon.timeseries.utils.datetime import get_seasonality
+class TimeSeriesEnsembleSelection(EnsembleSelection):
+    def __init__(
+        self,
+        ensemble_size: int,
+        metric: TimeSeriesScorer,
+        problem_type: str = ag.constants.QUANTILE,
+        sorted_initialization: bool = False,
+        bagging: bool = False,
+        tie_breaker: str = "random",
+        random_state: np.random.RandomState | None = None,
+        prediction_length: int = 1,
+        target: str = "target",
+        **kwargs,
+    ):
+        super().__init__(
+            ensemble_size=ensemble_size,
+            metric=metric,  # type: ignore
+            problem_type=problem_type,
+            sorted_initialization=sorted_initialization,
+            bagging=bagging,
+            tie_breaker=tie_breaker,
+            random_state=random_state,
+            **kwargs,
+        )
+        self.prediction_length = prediction_length
+        self.target = target
+        self.metric: TimeSeriesScorer
+        self.dummy_pred_per_window = []
+        self.scorer_per_window = []
+        self.dummy_pred_per_window: list[TimeSeriesDataFrame] | None
+        self.scorer_per_window: list[TimeSeriesScorer] | None
+        self.data_future_per_window: list[TimeSeriesDataFrame] | None
+    def fit(  # type: ignore
+        self,
+        predictions: list[list[TimeSeriesDataFrame]],
+        labels: list[TimeSeriesDataFrame],
+        time_limit: float | None = None,
+    ):
+        return super().fit(
+            predictions=predictions,  # type: ignore
+            labels=labels,  # type: ignore
+            time_limit=time_limit,
+        )
+    def _fit(  # type: ignore
+        self,
+        predictions: list[list[TimeSeriesDataFrame]],
+        labels: list[TimeSeriesDataFrame],
+        time_limit: float | None = None,
+        sample_weight: list[float] | None = None,
+    ):
+        # Stack predictions for each model into a 3d tensor of shape [num_val_windows, num_rows, num_cols]
+        stacked_predictions = [np.stack(preds) for preds in predictions]
+        self.dummy_pred_per_window = []
+        self.scorer_per_window = []
+        self.data_future_per_window = []
+        seasonal_period = self.metric.seasonal_period
+        if seasonal_period is None:
+            seasonal_period = get_seasonality(labels[0].freq)
+        for window_idx, data in enumerate(labels):
+            dummy_pred = copy.deepcopy(predictions[0][window_idx])
+            # This should never happen; sanity check to make sure that all predictions have the same index
+            assert all(dummy_pred.index.equals(pred[window_idx].index) for pred in predictions)
+            assert all(dummy_pred.columns.equals(pred[window_idx].columns) for pred in predictions)
+            self.dummy_pred_per_window.append(dummy_pred)
+            scorer = copy.deepcopy(self.metric)
+            # Split the observed time series once to avoid repeated computations inside the evaluator
+            data_past = data.slice_by_timestep(None, -self.prediction_length)
+            data_future = data.slice_by_timestep(-self.prediction_length, None)
+            scorer.save_past_metrics(data_past, target=self.target, seasonal_period=seasonal_period)
+            self.scorer_per_window.append(scorer)
+            self.data_future_per_window.append(data_future)
+        super()._fit(
+            predictions=stacked_predictions,
+            labels=data_future,  # type: ignore
+            time_limit=time_limit,
+        )
+        self.dummy_pred_per_window = None
+        self.evaluator_per_window = None
+        self.data_future_per_window = None
+    def _calculate_regret(  # type: ignore
+        self,
+        y_true,
+        y_pred_proba,
+        metric: TimeSeriesScorer,
+        sample_weight=None,
+    ):
+        # Compute average score across all validation windows
+        total_score = 0.0
+        assert self.data_future_per_window is not None
+        assert self.dummy_pred_per_window is not None
+        assert self.scorer_per_window is not None
+        for window_idx, data_future in enumerate(self.data_future_per_window):
+            dummy_pred = self.dummy_pred_per_window[window_idx]
+            dummy_pred[list(dummy_pred.columns)] = y_pred_proba[window_idx]
+            # We use scorer.compute_metric instead of scorer.score to avoid repeated calls to scorer.save_past_metrics
+            metric_value = self.scorer_per_window[window_idx].compute_metric(
+                data_future,
+                dummy_pred,
+                target=self.target,
+            )
+            total_score += metric.sign * metric_value
+        avg_score = total_score / len(self.data_future_per_window)
+        # score: higher is better, regret: lower is better, so we flip the sign
+        return -avg_score
+def fit_time_series_ensemble_selection(
+    data_per_window: list[TimeSeriesDataFrame],
+    predictions_per_window: dict[str, list[TimeSeriesDataFrame]],
+    ensemble_size: int,
+    eval_metric: TimeSeriesScorer,
+    prediction_length: int = 1,
+    target: str = "target",
+    time_limit: float | None = None,
+) -> dict[str, float]:
+    """Fit ensemble selection for time series forecasting and return ensemble weights.
+    Parameters
+    ----------
+    data_per_window:
+        List of ground truth time series data for each validation window.
+    predictions_per_window:
+        Dictionary mapping model names to their predictions for each validation window.
+    ensemble_size:
+        Number of iterations of the ensemble selection algorithm.
+    Returns
+    -------
+    weights:
+        Dictionary mapping the model name to its weight in the ensemble.
+    """
+    ensemble_selection = TimeSeriesEnsembleSelection(
+        ensemble_size=ensemble_size,
+        metric=eval_metric,
+        prediction_length=prediction_length,
+        target=target,
+    )
+    ensemble_selection.fit(
+        predictions=list(predictions_per_window.values()),
+        labels=data_per_window,
+        time_limit=time_limit,
+    )
+    return {model: float(weight) for model, weight in zip(predictions_per_window.keys(), ensemble_selection.weights_)}

autogluon/timeseries/models/ensemble/per_item_greedy.py ADDED Viewed

@@ -0,0 +1,172 @@
+import logging
+import pprint
+import time
+from typing import Any
+import pandas as pd
+from joblib import Parallel, delayed
+from autogluon.timeseries import TimeSeriesDataFrame
+from autogluon.timeseries.utils.constants import AG_DEFAULT_N_JOBS
+from .abstract import AbstractTimeSeriesEnsembleModel
+from .ensemble_selection import fit_time_series_ensemble_selection
+logger = logging.getLogger(__name__)
+class PerItemGreedyEnsemble(AbstractTimeSeriesEnsembleModel):
+    """Per-item greedy ensemble that fits separate weighted ensembles for each individual time series.
+    This ensemble applies the greedy Ensemble Selection algorithm by Caruana et al. [Car2004]_ independently
+    to each time series in the dataset, allowing for customized model combinations that adapt to the
+    specific characteristics of individual series. Each time series gets its own optimal ensemble weights
+    based on predictions for that particular series. If items not seen during training are provided at prediction
+    time, average model weight across the training items will be used for their predictions.
+    The per-item approach is particularly effective for datasets with heterogeneous time series that
+    exhibit different patterns, seasonalities, or noise characteristics.
+    The algorithm uses parallel processing to efficiently fit ensembles across all time series.
+    Other Parameters
+    ----------------
+    ensemble_size : int, default = 100
+        Number of models (with replacement) to include in the ensemble.
+    n_jobs : int or float, default = joblib.cpu_count(only_physical_cores=True)
+        Number of CPU cores used to fit the ensembles in parallel.
+    References
+    ----------
+    .. [Car2004] Caruana, Rich, et al. "Ensemble selection from libraries of models."
+        Proceedings of the twenty-first international conference on Machine learning. 2004.
+    """
+    def __init__(self, name: str | None = None, **kwargs):
+        if name is None:
+            name = "PerItemWeightedEnsemble"
+        super().__init__(name=name, **kwargs)
+        self.weights_df: pd.DataFrame
+        self.average_weight: pd.Series
+    @property
+    def model_names(self) -> list[str]:
+        return list(self.weights_df.columns)
+    def _get_default_hyperparameters(self) -> dict[str, Any]:
+        return {"ensemble_size": 100, "n_jobs": AG_DEFAULT_N_JOBS}
+    def _fit(
+        self,
+        predictions_per_window: dict[str, list[TimeSeriesDataFrame]],
+        data_per_window: list[TimeSeriesDataFrame],
+        model_scores: dict[str, float] | None = None,
+        time_limit: float | None = None,
+    ) -> None:
+        model_names = list(predictions_per_window.keys())
+        item_ids = data_per_window[0].item_ids
+        n_jobs = min(self.get_hyperparameter("n_jobs"), len(item_ids))
+        predictions_per_item = self._split_predictions_per_item(predictions_per_window)
+        data_per_item = self._split_data_per_item(data_per_window)
+        ensemble_selection_kwargs = dict(
+            ensemble_size=self.get_hyperparameter("ensemble_size"),
+            eval_metric=self.eval_metric,
+            prediction_length=self.prediction_length,
+            target=self.target,
+        )
+        time_limit_per_item = None if time_limit is None else time_limit * n_jobs / len(item_ids)
+        end_time = None if time_limit is None else time.time() + time_limit
+        # Fit ensemble for each item in parallel
+        executor = Parallel(n_jobs=n_jobs)
+        weights_per_item = executor(
+            delayed(self._fit_item_ensemble)(
+                data_per_item[item_id],
+                predictions_per_item[item_id],
+                time_limit_per_item=time_limit_per_item,
+                end_time=end_time,
+                **ensemble_selection_kwargs,
+            )
+            for item_id in item_ids
+        )
+        self.weights_df = pd.DataFrame(weights_per_item, index=item_ids, columns=model_names)  # type: ignore
+        self.average_weight = self.weights_df.mean(axis=0)
+        # Drop models with zero average weight
+        if (self.average_weight == 0).any():
+            models_to_keep = self.average_weight[self.average_weight > 0].index
+            self.weights_df = self.weights_df[models_to_keep]
+            self.average_weight = self.average_weight[models_to_keep]
+        weights_for_printing = {model: round(float(weight), 2) for model, weight in self.average_weight.items()}
+        logger.info(f"\tAverage ensemble weights: {pprint.pformat(weights_for_printing, width=200)}")
+    def _split_predictions_per_item(
+        self, predictions_per_window: dict[str, list[TimeSeriesDataFrame]]
+    ) -> dict[str, dict[str, list[TimeSeriesDataFrame]]]:
+        """Build a dictionary mapping item_id -> dict[model_name, list[TimeSeriesDataFrame]]."""
+        item_ids = list(predictions_per_window.values())[0][0].item_ids
+        predictions_per_item = {}
+        for i, item_id in enumerate(item_ids):
+            item_predictions = {}
+            for model_name, preds_per_window in predictions_per_window.items():
+                item_preds_per_window = [
+                    pred.iloc[i * self.prediction_length : (i + 1) * self.prediction_length]
+                    for pred in preds_per_window
+                ]
+                item_predictions[model_name] = item_preds_per_window
+            predictions_per_item[item_id] = item_predictions
+        return predictions_per_item
+    def _split_data_per_item(self, data_per_window: list[TimeSeriesDataFrame]) -> dict[str, list[TimeSeriesDataFrame]]:
+        """Build a dictionary mapping item_id -> ground truth values across all windows."""
+        item_ids = data_per_window[0].item_ids
+        data_per_item = {item_id: [] for item_id in item_ids}
+        for data in data_per_window:
+            indptr = data.get_indptr()
+            for item_idx, item_id in enumerate(item_ids):
+                new_slice = data.iloc[indptr[item_idx] : indptr[item_idx + 1]]
+                data_per_item[item_id].append(new_slice)
+        return data_per_item
+    @staticmethod
+    def _fit_item_ensemble(
+        data_per_window: list[TimeSeriesDataFrame],
+        predictions_per_window: dict[str, list[TimeSeriesDataFrame]],
+        time_limit_per_item: float | None = None,
+        end_time: float | None = None,
+        **ensemble_selection_kwargs,
+    ) -> dict[str, float]:
+        """Fit ensemble for a single item."""
+        if end_time is not None:
+            assert time_limit_per_item is not None
+            time_left = end_time - time.time()
+            time_limit_per_item = min(time_limit_per_item, time_left)
+        return fit_time_series_ensemble_selection(
+            data_per_window, predictions_per_window, time_limit=time_limit_per_item, **ensemble_selection_kwargs
+        )
+    def _predict(self, data: dict[str, TimeSeriesDataFrame], **kwargs) -> TimeSeriesDataFrame:
+        assert all(model in data for model in self.weights_df.columns)
+        item_ids = list(data.values())[0].item_ids
+        unseen_item_ids = set(item_ids) - set(self.weights_df.index)
+        if unseen_item_ids:
+            logger.debug(f"Using average weights for {len(unseen_item_ids)} unseen items")
+        weights = self.weights_df.reindex(item_ids).fillna(self.average_weight)
+        result = None
+        for model_name in self.weights_df.columns:
+            model_pred = data[model_name]
+            model_weights = weights[model_name].to_numpy().repeat(self.prediction_length)
+            weighted_pred = model_pred.to_data_frame().multiply(model_weights, axis=0)
+            result = weighted_pred if result is None else result + weighted_pred
+        return TimeSeriesDataFrame(result)  # type: ignore
+    def remap_base_models(self, model_refit_map: dict[str, str]) -> None:
+        self.weights_df.rename(columns=model_refit_map, inplace=True)

autogluon/timeseries/models/ensemble/weighted/__init__.py ADDED Viewed

@@ -0,0 +1,8 @@
+from .basic import PerformanceWeightedEnsemble, SimpleAverageEnsemble
+from .greedy import GreedyEnsemble
+__all__ = [
+    "SimpleAverageEnsemble",
+    "PerformanceWeightedEnsemble",
+    "GreedyEnsemble",
+]

autogluon/timeseries/models/ensemble/weighted/abstract.py ADDED Viewed

@@ -0,0 +1,45 @@
+import functools
+from abc import ABC
+import numpy as np
+from autogluon.timeseries.dataset import TimeSeriesDataFrame
+from ..abstract import AbstractTimeSeriesEnsembleModel
+class AbstractWeightedTimeSeriesEnsembleModel(AbstractTimeSeriesEnsembleModel, ABC):
+    """Abstract base class for weighted ensemble models that assign global weights to base models.
+    Weighted ensembles combine predictions from multiple base models using learned or computed weights,
+    where each base model receives a single global weight applied across all time series and forecast
+    horizons. The final prediction is computed as a weighted linear combination of base model forecasts.
+    """
+    def __init__(self, name: str | None = None, **kwargs):
+        super().__init__(name=name, **kwargs)
+        self.model_to_weight: dict[str, float] = {}
+    @property
+    def model_names(self) -> list[str]:
+        return list(self.model_to_weight.keys())
+    @property
+    def model_weights(self) -> np.ndarray:
+        return np.array(list(self.model_to_weight.values()), dtype=np.float64)
+    def _predict(self, data: dict[str, TimeSeriesDataFrame], **kwargs) -> TimeSeriesDataFrame:
+        weighted_predictions = [data[model_name] * weight for model_name, weight in self.model_to_weight.items()]
+        return functools.reduce(lambda x, y: x + y, weighted_predictions)
+    def get_info(self) -> dict:
+        info = super().get_info()
+        info["model_weights"] = self.model_to_weight.copy()
+        return info
+    def remap_base_models(self, model_refit_map: dict[str, str]) -> None:
+        updated_weights = {}
+        for model, weight in self.model_to_weight.items():
+            model_full_name = model_refit_map.get(model, model)
+            updated_weights[model_full_name] = weight
+        self.model_to_weight = updated_weights

autogluon/timeseries/models/ensemble/weighted/basic.py ADDED Viewed

@@ -0,0 +1,91 @@
+from typing import Any
+import numpy as np
+from autogluon.timeseries.dataset import TimeSeriesDataFrame
+from .abstract import AbstractWeightedTimeSeriesEnsembleModel
+class SimpleAverageEnsemble(AbstractWeightedTimeSeriesEnsembleModel):
+    """Simple ensemble that assigns equal weights to all base models for uniform averaging.
+    This ensemble computes predictions as the arithmetic mean of all base model forecasts,
+    giving each model equal influence. Simple averaging is robust and often performs well when base
+    models have similar accuracy levels or when validation data is insufficient to reliably
+    estimate performance differences.
+    """
+    def _fit(
+        self,
+        predictions_per_window: dict[str, list[TimeSeriesDataFrame]],
+        data_per_window: list[TimeSeriesDataFrame],
+        model_scores: dict[str, float] | None = None,
+        time_limit: float | None = None,
+    ):
+        self.model_to_weight = {}
+        num_models = len(predictions_per_window)
+        for model_name in predictions_per_window.keys():
+            self.model_to_weight[model_name] = 1.0 / num_models
+class PerformanceWeightedEnsemble(AbstractWeightedTimeSeriesEnsembleModel):
+    """Performance-based weighted ensemble that assigns weights proportional to validation scores.
+    This ensemble computes model weights based on their validation performance, giving higher
+    weights to better-performing models. The weighting scheme transforms validation scores
+    (higher is better) into ensemble weights using configurable transformation functions.
+    .. warning::
+        This ensemble method is deprecated and may be removed in a future version.
+    Other Parameters
+    ----------------
+    weight_scheme : Literal["sq", "inv", "sqrt"], default = "sqrt"
+        Method used to compute the weights as a function of the validation scores.
+        - "sqrt" computes weights in proportion to ``sqrt(1 / S)``. This is the default.
+        - "inv" computes weights in proportion to ``(1 / S)``.
+        - "sq" computes the weights in proportion to ``(1 / S)^2`` as outlined in [PC2020]_.
+    References
+    ----------
+    .. [PC2020] Pawlikowski, Maciej, and Agata Chorowska.
+        "Weighted ensemble of statistical models." International Journal of Forecasting
+        36.1 (2020): 93-97.
+    """
+    def _get_default_hyperparameters(self) -> dict[str, Any]:
+        return {"weight_scheme": "sqrt"}
+    def _fit(
+        self,
+        predictions_per_window: dict[str, list[TimeSeriesDataFrame]],
+        data_per_window: list[TimeSeriesDataFrame],
+        model_scores: dict[str, float] | None = None,
+        time_limit: float | None = None,
+    ):
+        assert model_scores is not None
+        weight_scheme = self.get_hyperparameter("weight_scheme")
+        # drop NaNs
+        model_scores = {k: v for k, v in model_scores.items() if np.isfinite(v)}
+        assert len(model_scores) > 0, (
+            "All models have NaN scores. At least one model must score successfully to fit an ensemble"
+        )
+        assert all(s <= 0 for s in model_scores.values()), (
+            "All model scores must be negative, in higher-is-better format."
+        )
+        score_transform = {
+            "sq": lambda x: np.square(np.reciprocal(x)),
+            "inv": lambda x: np.reciprocal(x),
+            "sqrt": lambda x: np.sqrt(np.reciprocal(x)),
+        }[weight_scheme]
+        self.model_to_weight = {
+            model_name: score_transform(-model_scores[model_name] + 1e-5) for model_name in model_scores.keys()
+        }
+        total_weight = sum(self.model_to_weight.values())
+        self.model_to_weight = {k: v / total_weight for k, v in self.model_to_weight.items()}

autogluon/timeseries/models/ensemble/weighted/greedy.py ADDED Viewed

@@ -0,0 +1,62 @@
+import logging
+import pprint
+from typing import Any
+from autogluon.timeseries import TimeSeriesDataFrame
+from ..ensemble_selection import fit_time_series_ensemble_selection
+from .abstract import AbstractWeightedTimeSeriesEnsembleModel
+logger = logging.getLogger(__name__)
+class GreedyEnsemble(AbstractWeightedTimeSeriesEnsembleModel):
+    """Greedy ensemble selection algorithm that iteratively builds an ensemble by selecting models with
+    replacement.
+    This class implements the Ensemble Selection algorithm by Caruana et al. [Car2004]_, which starts
+    with an empty ensemble and repeatedly adds the model that most improves the ensemble's validation
+    performance. Models can be selected multiple times, allowing the algorithm to assign higher effective
+    weights to better-performing models.
+    Other Parameters
+    ----------------
+    ensemble_size : int, default = 100
+        Number of models (with replacement) to include in the ensemble.
+    References
+    ----------
+    .. [Car2004] Caruana, Rich, et al. "Ensemble selection from libraries of models."
+        Proceedings of the twenty-first international conference on Machine learning. 2004.
+    """
+    def __init__(self, name: str | None = None, **kwargs):
+        if name is None:
+            # FIXME: the name here is kept for backward compatibility. it will be called
+            # GreedyEnsemble in v1.4 once ensemble choices are exposed
+            name = "WeightedEnsemble"
+        super().__init__(name=name, **kwargs)
+    def _get_default_hyperparameters(self) -> dict[str, Any]:
+        return {"ensemble_size": 100}
+    def _fit(
+        self,
+        predictions_per_window: dict[str, list[TimeSeriesDataFrame]],
+        data_per_window: list[TimeSeriesDataFrame],
+        model_scores: dict[str, float] | None = None,
+        time_limit: float | None = None,
+    ):
+        model_to_weight = fit_time_series_ensemble_selection(
+            data_per_window=data_per_window,
+            predictions_per_window=predictions_per_window,
+            ensemble_size=self.get_hyperparameter("ensemble_size"),
+            eval_metric=self.eval_metric,
+            prediction_length=self.prediction_length,
+            target=self.target,
+            time_limit=time_limit,
+        )
+        self.model_to_weight = {model: weight for model, weight in model_to_weight.items() if weight > 0}
+        weights_for_printing = {model: round(float(weight), 2) for model, weight in self.model_to_weight.items()}
+        logger.info(f"\tEnsemble weights: {pprint.pformat(weights_for_printing, width=200)}")

autogluon/timeseries/models/gluonts/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from .torch.models import (
+from .models import (
     DeepARModel,
     DLinearModel,
     PatchTSTModel,

autogluon.timeseries 1.2.1b20250224__py3-none-any.whl → 1.4.1b20251215__py3-none-any.whl

Potentially problematic release.

autogluon.timeseries 1.2.1b20250224py3-none-any.whl → 1.4.1b20251215py3-none-any.whl