PyPI - torchzero - Versions diffs - 0.3.15__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

torchzero 0.3.15py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (187) hide show

tests/test_identical.py +22 -22
tests/test_module_autograd.py +586 -0
tests/test_objective.py +188 -0
tests/test_opts.py +225 -214
tests/test_tensorlist.py +0 -8
tests/test_utils_optimizer.py +0 -1
torchzero/__init__.py +2 -2
torchzero/core/__init__.py +7 -4
torchzero/core/chain.py +20 -23
torchzero/core/functional.py +90 -24
torchzero/core/modular.py +53 -57
torchzero/core/module.py +132 -52
torchzero/core/objective.py +948 -0
torchzero/core/reformulation.py +55 -24
torchzero/core/transform.py +261 -367
torchzero/linalg/__init__.py +11 -0
torchzero/linalg/eigh.py +253 -0
torchzero/linalg/linalg_utils.py +14 -0
torchzero/{utils/linalg → linalg}/linear_operator.py +99 -49
torchzero/linalg/matrix_power.py +28 -0
torchzero/linalg/orthogonalize.py +93 -0
torchzero/{utils/linalg → linalg}/qr.py +16 -2
torchzero/{utils/linalg → linalg}/solve.py +74 -88
torchzero/linalg/svd.py +47 -0
torchzero/linalg/torch_linalg.py +168 -0
torchzero/modules/__init__.py +4 -3
torchzero/modules/adaptive/__init__.py +11 -3
torchzero/modules/adaptive/adagrad.py +167 -217
torchzero/modules/adaptive/adahessian.py +76 -105
torchzero/modules/adaptive/adam.py +53 -76
torchzero/modules/adaptive/adan.py +50 -31
torchzero/modules/adaptive/adaptive_heavyball.py +12 -7
torchzero/modules/adaptive/aegd.py +12 -12
torchzero/modules/adaptive/esgd.py +98 -119
torchzero/modules/adaptive/ggt.py +186 -0
torchzero/modules/adaptive/lion.py +7 -11
torchzero/modules/adaptive/lre_optimizers.py +299 -0
torchzero/modules/adaptive/mars.py +7 -7
torchzero/modules/adaptive/matrix_momentum.py +48 -52
torchzero/modules/adaptive/msam.py +71 -53
torchzero/modules/adaptive/muon.py +67 -129
torchzero/modules/adaptive/natural_gradient.py +63 -41
torchzero/modules/adaptive/orthograd.py +11 -15
torchzero/modules/adaptive/psgd/__init__.py +5 -0
torchzero/modules/adaptive/psgd/_psgd_utils.py +37 -0
torchzero/modules/adaptive/psgd/psgd.py +1390 -0
torchzero/modules/adaptive/psgd/psgd_dense_newton.py +174 -0
torchzero/modules/adaptive/psgd/psgd_kron_newton.py +203 -0
torchzero/modules/adaptive/psgd/psgd_kron_whiten.py +185 -0
torchzero/modules/adaptive/psgd/psgd_lra_newton.py +118 -0
torchzero/modules/adaptive/psgd/psgd_lra_whiten.py +116 -0
torchzero/modules/adaptive/rmsprop.py +83 -75
torchzero/modules/adaptive/rprop.py +48 -47
torchzero/modules/adaptive/sam.py +55 -45
torchzero/modules/adaptive/shampoo.py +149 -130
torchzero/modules/adaptive/soap.py +207 -143
torchzero/modules/adaptive/sophia_h.py +106 -130
torchzero/modules/clipping/clipping.py +22 -25
torchzero/modules/clipping/ema_clipping.py +31 -25
torchzero/modules/clipping/growth_clipping.py +14 -17
torchzero/modules/conjugate_gradient/cg.py +27 -38
torchzero/modules/experimental/__init__.py +7 -6
torchzero/modules/experimental/adanystrom.py +258 -0
torchzero/modules/experimental/common_directions_whiten.py +142 -0
torchzero/modules/experimental/coordinate_momentum.py +36 -0
torchzero/modules/experimental/cubic_adam.py +160 -0
torchzero/modules/experimental/curveball.py +25 -41
torchzero/modules/experimental/eigen_sr1.py +182 -0
torchzero/modules/experimental/eigengrad.py +207 -0
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/higher_order_newton.py +14 -40
torchzero/modules/experimental/l_infinity.py +1 -1
torchzero/modules/experimental/matrix_nag.py +122 -0
torchzero/modules/experimental/newton_solver.py +23 -54
torchzero/modules/experimental/newtonnewton.py +45 -48
torchzero/modules/experimental/reduce_outward_lr.py +7 -7
torchzero/modules/experimental/scipy_newton_cg.py +21 -24
torchzero/modules/experimental/spsa1.py +3 -3
torchzero/modules/experimental/structural_projections.py +1 -4
torchzero/modules/grad_approximation/fdm.py +2 -2
torchzero/modules/grad_approximation/forward_gradient.py +7 -7
torchzero/modules/grad_approximation/grad_approximator.py +23 -16
torchzero/modules/grad_approximation/rfdm.py +24 -21
torchzero/modules/least_squares/gn.py +121 -50
torchzero/modules/line_search/backtracking.py +4 -4
torchzero/modules/line_search/line_search.py +33 -33
torchzero/modules/line_search/strong_wolfe.py +4 -4
torchzero/modules/misc/debug.py +12 -12
torchzero/modules/misc/escape.py +10 -10
torchzero/modules/misc/gradient_accumulation.py +11 -79
torchzero/modules/misc/homotopy.py +16 -8
torchzero/modules/misc/misc.py +121 -123
torchzero/modules/misc/multistep.py +52 -53
torchzero/modules/misc/regularization.py +49 -44
torchzero/modules/misc/split.py +31 -29
torchzero/modules/misc/switch.py +37 -32
torchzero/modules/momentum/averaging.py +14 -14
torchzero/modules/momentum/cautious.py +37 -31
torchzero/modules/momentum/momentum.py +12 -12
torchzero/modules/ops/__init__.py +4 -4
torchzero/modules/ops/accumulate.py +21 -21
torchzero/modules/ops/binary.py +67 -66
torchzero/modules/ops/higher_level.py +20 -20
torchzero/modules/ops/multi.py +44 -41
torchzero/modules/ops/reduce.py +26 -23
torchzero/modules/ops/unary.py +53 -53
torchzero/modules/ops/utility.py +47 -46
torchzero/modules/{functional.py → opt_utils.py} +1 -1
torchzero/modules/projections/galore.py +1 -1
torchzero/modules/projections/projection.py +46 -43
torchzero/modules/quasi_newton/__init__.py +1 -1
torchzero/modules/quasi_newton/damping.py +2 -2
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +1 -1
torchzero/modules/quasi_newton/lbfgs.py +10 -10
torchzero/modules/quasi_newton/lsr1.py +10 -10
torchzero/modules/quasi_newton/quasi_newton.py +54 -39
torchzero/modules/quasi_newton/sg2.py +69 -205
torchzero/modules/restarts/restars.py +39 -37
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/ifn.py +31 -62
torchzero/modules/second_order/inm.py +57 -53
torchzero/modules/second_order/multipoint.py +40 -80
torchzero/modules/second_order/newton.py +165 -196
torchzero/modules/second_order/newton_cg.py +105 -157
torchzero/modules/second_order/nystrom.py +216 -185
torchzero/modules/second_order/rsn.py +132 -125
torchzero/modules/smoothing/laplacian.py +13 -12
torchzero/modules/smoothing/sampling.py +10 -10
torchzero/modules/step_size/adaptive.py +24 -24
torchzero/modules/step_size/lr.py +17 -17
torchzero/modules/termination/termination.py +32 -30
torchzero/modules/trust_region/cubic_regularization.py +3 -3
torchzero/modules/trust_region/levenberg_marquardt.py +25 -28
torchzero/modules/trust_region/trust_cg.py +2 -2
torchzero/modules/trust_region/trust_region.py +27 -22
torchzero/modules/variance_reduction/svrg.py +23 -21
torchzero/modules/weight_decay/__init__.py +2 -1
torchzero/modules/weight_decay/reinit.py +83 -0
torchzero/modules/weight_decay/weight_decay.py +17 -18
torchzero/modules/wrappers/optim_wrapper.py +14 -14
torchzero/modules/zeroth_order/cd.py +10 -7
torchzero/optim/mbs.py +291 -0
torchzero/optim/root.py +3 -3
torchzero/optim/utility/split.py +2 -1
torchzero/optim/wrappers/directsearch.py +27 -63
torchzero/optim/wrappers/fcmaes.py +14 -35
torchzero/optim/wrappers/mads.py +11 -31
torchzero/optim/wrappers/moors.py +66 -0
torchzero/optim/wrappers/nevergrad.py +4 -13
torchzero/optim/wrappers/nlopt.py +31 -25
torchzero/optim/wrappers/optuna.py +8 -13
torchzero/optim/wrappers/pybobyqa.py +124 -0
torchzero/optim/wrappers/scipy/__init__.py +7 -0
torchzero/optim/wrappers/scipy/basin_hopping.py +117 -0
torchzero/optim/wrappers/scipy/brute.py +48 -0
torchzero/optim/wrappers/scipy/differential_evolution.py +80 -0
torchzero/optim/wrappers/scipy/direct.py +69 -0
torchzero/optim/wrappers/scipy/dual_annealing.py +115 -0
torchzero/optim/wrappers/scipy/experimental.py +141 -0
torchzero/optim/wrappers/scipy/minimize.py +151 -0
torchzero/optim/wrappers/scipy/sgho.py +111 -0
torchzero/optim/wrappers/wrapper.py +121 -0
torchzero/utils/__init__.py +7 -25
torchzero/utils/benchmarks/__init__.py +0 -0
torchzero/utils/benchmarks/logistic.py +122 -0
torchzero/utils/compile.py +2 -2
torchzero/utils/derivatives.py +97 -73
torchzero/utils/optimizer.py +4 -77
torchzero/utils/python_tools.py +31 -0
torchzero/utils/tensorlist.py +11 -5
torchzero/utils/thoad_tools.py +68 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/METADATA +1 -1
torchzero-0.4.1.dist-info/RECORD +209 -0
tests/test_vars.py +0 -185
torchzero/core/var.py +0 -376
torchzero/modules/adaptive/lmadagrad.py +0 -186
torchzero/modules/experimental/momentum.py +0 -160
torchzero/optim/wrappers/scipy.py +0 -572
torchzero/utils/linalg/__init__.py +0 -12
torchzero/utils/linalg/matrix_funcs.py +0 -87
torchzero/utils/linalg/orthogonalize.py +0 -12
torchzero/utils/linalg/svd.py +0 -20
torchzero/utils/ops.py +0 -10
torchzero-0.3.15.dist-info/RECORD +0 -175
/torchzero/{utils/linalg → linalg}/benchmark.py +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/WHEEL +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/top_level.txt +0 -0

torchzero/core/transform.py CHANGED Viewed

@@ -1,442 +1,336 @@
 from abc import ABC, abstractmethod
-from collections.abc import Iterable, Mapping, Sequence
-from typing import Any, Literal, final
+from collections.abc import Mapping, Sequence
+from operator import itemgetter
+from typing import Any, final, cast, TYPE_CHECKING
 import torch
-from ..utils import TensorList, set_storage_, vec_to_tensors
-from .chain import Chain
-from .module import Chainable, Module
-from .var import Var
+from .module import Module
+from ..utils import vec_to_tensors, safe_dict_update_
-Target = Literal['grad', 'update', 'closure', 'params_direct', 'params_difference', 'update_difference']
+if TYPE_CHECKING:
+    from .chain import Chainable
+    from .objective import Objective
-class Transform(Module, ABC):
-    """Base class for a transform.
-    This is an abstract class, to use it, subclass it and override ``update_tensors`` and ``apply_tensors`` methods.
+class Transform(Module):
+    """``Transform`` is a ``Module`` with only optional children.
-    A transform is a module that can also be applied manually to an arbitrary sequence of tensors.
-    It has two methods:
+    ``Transform`` if more flexible in that as long as there are no children, it can use a custom list of states
+    and settings instead of ``self.state`` and ``self.setting``.
-    - ``update_tensors`` updates the internal state of this transform, it doesn't modify tensors. \
-            It may be called multiple times before ``apply_tensors``.
-    - ``apply_tensors`` applies this transform to tensors, without modifying the internal state if possible.
+    To use, subclass this and override ``update_states`` and ``apply_states``.
+    """
+    def __init__(self, defaults: dict[str, Any] | None = None, update_freq: int = 1, inner: "Chainable | None" = None):
+        # store update_freq in defaults so that it is scheduleable
+        if defaults is None: defaults = {}
+        safe_dict_update_(defaults, {"__update_freq": update_freq})
+        super().__init__(defaults)
+        self._objective = None
+        if inner is not None:
+            self.set_child("inner", inner)
+    # settings shouldn't mutate, so they are typed as Sequence[Mapping]
+    def update_states(self, objective: "Objective", states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]) -> None:
+        """Updates ``states``. This should not modify ``objective.update``."""
+    @abstractmethod
+    def apply_states(self, objective: "Objective", states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]) -> "Objective":
+        """Updates ``objective`` using ``states``."""
+    def _get_states_settings(self, objective: "Objective") -> tuple[list, tuple]:
+        # itemgetter is faster
+        # but need to make sure it returns a tuple, as if there is a single param, it returns the value
+        getter = itemgetter(*objective.params)
+        is_single = len(objective.params) == 1
+        states = getter(self.state)
+        settings = getter(self.settings)
-    Alternatively, if update-apply structure doesn't make sense for a transform, all logic can be defined within ``apply_tensors``.
+        if is_single:
+            states = [states, ]
+            settings = (settings, )
-    Transform can be applied to tensors corresponding to custom parameters
-    by calling ``keyed_transform_update`` and ``keyed_transform_apply``,
-    parameters will be keys to store per-parameter states, so they should remain the same python objects.
+        else:
+            states = list(states) # itemgetter returns tuple
+        return states, settings
+    @final
+    def update(self, objective:"Objective"):
+        step = self.increment_counter("__step", 0)
+        if step % self.settings[objective.params[0]]["__update_freq"] == 0:
+            states, settings = self._get_states_settings(objective)
+            self.update_states(objective=objective, states=states, settings=settings)
+    @final
+    def apply(self, objective: "Objective"):
-    Alternatively you can manually create a list of state dictionaries per each tensor and pass it to
-    ``transform_update`` and ``transform_apply``.
+        # inner step
+        if "inner" in self.children:
+            inner = self.children["inner"]
+            objective = inner.step(objective)
-    A transform can modify the closure instead of directly modifying update by passing ``target="closure"``.
+        # apply and return
+        states, settings = self._get_states_settings(objective)
+        return self.apply_states(objective=objective, states=states, settings=settings)
-    Args:
-        defaults (dict[str,Any] | None): dict with default values.
-        uses_grad (bool):
-            Set this to True if `transform` method uses the `grad` argument. This will ensure
-            `grad` is always computed and can't be None. Otherwise set to False.
-        target (Target, optional):
-            what to set on var. Defaults to 'update'.
+class TensorTransform(Transform):
+    """``TensorTransform`` is a ``Transform`` that doesn't use ``Objective``, instead it operates
+    on lists of tensors directly.
+    This has a ``concat_params`` setting which is used in quite a few modules, for example it is optional
+    in all full-matrix method like Quasi-Newton or full-matrix Adagrad.
+    To use, subclass this and override one of ``single_tensor_update`` or ``multi_tensor_update``,
+    and one of ``single_tensor_apply`` or ``multi_tensor_apply``.
+    For copying:
+    multi tensor:
+    ```
+    def multi_tensor_initialize(self, tensors, params, grads, loss, states, settings):
+        ...
+    def multi_tensor_update(self, tensors, params, grads, loss, states, settings):
+        ...
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
+        ...
+    ```
+    single tensor:
+    ```
+    def single_tensor_initialize(self, tensor, param, grad, loss, state, setting):
+        ...
+    def single_tensor_update(self, tensor, param, grad, loss, state, setting):
+        ...
+    def single_tensor_apply(self, tensor, param, grad, loss, state, setting):
+        ...
+    ```
     """
     def __init__(
         self,
-        defaults: dict[str,Any] | None,
+        defaults: dict[str, Any] | None = None,
+        update_freq: int = 1,
+        concat_params: bool = False,
         uses_grad: bool = False,
         uses_loss: bool = False,
-        concat_params: bool = False,
-        update_freq: int = 1,
-        inner: Chainable | None = None,
-        target: Target = 'update',
+        inner: "Chainable | None" = None,
     ):
-        super().__init__(defaults)
-        self._target: Target = target
+        super().__init__(defaults, update_freq=update_freq, inner=inner)
+        self._concat_params = concat_params
         self._uses_grad = uses_grad
         self._uses_loss = uses_loss
-        self._concat_params = concat_params
-        self._update_freq = update_freq
-        self._inner = inner
-        self._var = None
-    def update_tensors(
+    # ------------------------------- single tensor ------------------------------ #
+    def single_tensor_initialize(
         self,
-        tensors: list[torch.Tensor],
-        params: list[torch.Tensor],
-        grads: list[torch.Tensor] | None,
-        loss: torch.Tensor | float | None,
-        states: list[dict[str, Any]],
-        settings: Sequence[Mapping[str, Any]],
+        tensor: torch.Tensor,
+        param: torch.Tensor,
+        grad: torch.Tensor | None,
+        loss: torch.Tensor | None,
+        state: dict[str, Any],
+        setting: Mapping[str, Any],
     ) -> None:
-        """update function, this shouldn't be called directly. Updates this module."""
+        """initialize ``state`` before first ``update``.
+        """
-    @abstractmethod
-    def apply_tensors(
+    def single_tensor_update(
+        self,
+        tensor: torch.Tensor,
+        param: torch.Tensor,
+        grad: torch.Tensor | None,
+        loss: torch.Tensor | None,
+        state: dict[str, Any],
+        setting: Mapping[str, Any],
+    ) -> None:
+        """Updates ``state``. This should not modify ``tensor``.
+        """
+    def single_tensor_apply(
+        self,
+        tensor: torch.Tensor,
+        param: torch.Tensor,
+        grad: torch.Tensor | None,
+        loss: torch.Tensor | None,
+        state: dict[str, Any],
+        setting: Mapping[str, Any],
+    ) -> torch.Tensor:
+        """Updates ``tensor`` and returns it. This shouldn't modify ``state`` if possible.
+        """
+        raise NotImplementedError(f"{self.__class__.__name__} doesn't implement `single_tensor_apply`.")
+    # ------------------------------- multi tensor ------------------------------- #
+    def multi_tensor_initialize(
         self,
         tensors: list[torch.Tensor],
         params: list[torch.Tensor],
         grads: list[torch.Tensor] | None,
-        loss: torch.Tensor | float | None,
+        loss: torch.Tensor | None,
         states: list[dict[str, Any]],
         settings: Sequence[Mapping[str, Any]],
-    ) -> Sequence[torch.Tensor]:
-        """apply function, this shouldn't be called directly. Applies the update rule to `tensors` and returns them.
-        If possible, this shouldn't modify the internal state of this transform."""
+    ) -> None:
+        """initialize ``states`` before first ``update``.
+        By default calls ``single_tensor_initialize`` on all tensors.
+        """
+        if grads is None:
+            grads = cast(list, [None] * len(tensors))
-    @final
-    @torch.no_grad
-    def update_transform(
+        for tensor, param, grad, state, setting in zip(tensors, params, grads, states, settings):
+            self.single_tensor_initialize(tensor=tensor, param=param, grad=grad, loss=loss, state=state, setting=setting)
+    def multi_tensor_update(
         self,
         tensors: list[torch.Tensor],
         params: list[torch.Tensor],
         grads: list[torch.Tensor] | None,
-        loss: torch.Tensor | float | None,
+        loss: torch.Tensor | None,
         states: list[dict[str, Any]],
-        settings: Sequence[Mapping[str, Any]] | None,
+        settings: Sequence[Mapping[str, Any]],
     ) -> None:
-        """Updates this transform from an arbitrary sequence of tensors."""
-        if self._concat_params:
-            tensors = [torch.cat([t.ravel() for t in tensors])]
-            params = [torch.cat([p.ravel() for p in params])]
-            grads = [torch.cat([g.ravel() for g in grads])] if grads is not None else None
-        if settings is None:
-            settings = [self.defaults for _ in tensors]
-        step = self.global_state.get('__step', 0) # that way it gets reset correctly
-        self.global_state['__step'] = step + 1
-        num = len(tensors)
-        states = states[:num]
-        settings = settings[:num]
+        """Updates ``states``. This should not modify ``tensor``.
+        By default calls ``single_tensor_update`` on all tensors.
+        """
-        # update transform
-        if step % self._update_freq == 0:
-            self.update_tensors(tensors=tensors, params=params, grads=grads, loss=loss, states=states, settings=settings)
+        if grads is None:
+            grads = cast(list, [None] * len(tensors))
-        # store for transform_apply
-        self.global_state["__tensors"] = tensors
-        self.global_state["__params"] = params
-        self.global_state["__grads"] = grads
+        for tensor, param, grad, state, setting in zip(tensors, params, grads, states, settings):
+            self.single_tensor_update(tensor=tensor, param=param, grad=grad, loss=loss, state=state, setting=setting)
-    @final
-    @torch.no_grad
-    def apply_transform(
+    def multi_tensor_apply(
         self,
         tensors: list[torch.Tensor],
         params: list[torch.Tensor],
         grads: list[torch.Tensor] | None,
-        loss: torch.Tensor | float | None,
+        loss: torch.Tensor | None,
         states: list[dict[str, Any]],
-        settings: Sequence[Mapping[str, Any]] | None,
-    ) -> list[torch.Tensor]:
-        """Applies this transform to an arbitrary sequence of tensors.
-        This can be used after ``transform_update`` has been used at least once."""
-        if settings is None:
-            settings = [self.defaults for _ in tensors]
+        settings: Sequence[Mapping[str, Any]],
+    ) -> Sequence[torch.Tensor]:
+        """Updates ``tensors`` and returns it. This shouldn't modify ``state`` if possible.
+         By default calls ``single_tensor_apply`` on all tensors.
+         """
-        num = len(tensors)
-        states = states[:num]
-        settings = settings[:num]
+        if grads is None:
+            grads = cast(list, [None] * len(tensors))
-        un_tensors = tensors
-        un_params = params
-        un_grads = grads
+        ret = []
+        for tensor, param, grad, state, setting in zip(tensors, params, grads, states, settings):
+            u = self.single_tensor_apply(tensor=tensor, param=param, grad=grad, loss=loss, state=state, setting=setting)
+            ret.append(u)
-        tensors = self.global_state.pop("__tensors")
-        params  = self.global_state.pop("__params")
-        grads   = self.global_state.pop("__grads")
+        return ret
-        # step with inner
-        if self._inner is not None:
-            tensors = apply_transform(self._inner, tensors=un_tensors, params=un_params, grads=un_grads, var=self._var)
-            if self._concat_params:
-                tensors = [torch.cat([t.ravel() for t in tensors])]
+    def _get_grads_loss(self, objective: "Objective"):
+        """evaluates grads and loss only if needed"""
-        # apply transform
-        tensors = list(self.apply_tensors(tensors=tensors, params=params, grads=grads, loss=loss, states=states, settings=settings))
+        if self._uses_grad: grads = objective.get_grads()
+        else: grads = None # better explicitly set to None rather than objective.grads because it shouldn't be used
-        if self._concat_params:
-            tensors = vec_to_tensors(vec=tensors[0], reference=un_tensors)
+        if self._uses_loss: loss = objective.get_loss(backward=True)
+        else: loss = None
-        return tensors
+        return grads, loss
-    def _get_keyed_states_settings(self, params: list[torch.Tensor]):
-        if self._concat_params:
-            p = params[0]
-            states = [self.state[p]]
-            settings = [self.settings[p]]
+    @torch.no_grad
+    def _get_cat_updates_params_grads(self, objective: "Objective", grads: list[torch.Tensor] | None):
+        assert self._concat_params
-        else:
-            states = []
-            settings = []
-            for p in params:
-                states.append(self.state[p])
-                settings.append(self.settings[p])
+        cat_updates = [torch.cat([u.ravel() for u in objective.get_updates()])]
+        cat_params = [torch.cat([p.ravel() for p in objective.params])]
-        return states, settings
+        if grads is None: cat_grads = None
+        else: cat_grads = [torch.cat([g.ravel() for g in grads])]
-    @final
-    @torch.no_grad
-    def keyed_transform_update(
-        self,
-        tensors: list[torch.Tensor],
-        params: list[torch.Tensor],
-        grads: list[torch.Tensor] | None,
-        loss: torch.Tensor | float | None,
-    ):
-        """`params` will be used as keys and need to always point to same tensor objects.`"""
-        states, settings = self._get_keyed_states_settings(params)
-        self.update_transform(tensors=tensors, params=params, grads=grads, loss=loss, states=states, settings=settings)
+        return cat_updates, cat_params, cat_grads
+    def _gather_tensors(self, objective: "Objective", states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]):
+        """returns everything for ``multi_tensor_*``. Concatenates if ```self._concat_params``.
+        evaluates grads and loss if ``self._uses_grad`` and ``self._uses_loss``"""
-    @final
-    @torch.no_grad
-    def keyed_transform_apply(
-        self,
-        tensors: list[torch.Tensor],
-        params: list[torch.Tensor],
-        grads: list[torch.Tensor] | None,
-        loss: torch.Tensor | float | None,
-    ):
-        """`params` will be used as keys and need to always point to same tensor objects.`"""
-        states, settings = self._get_keyed_states_settings(params)
-        return self.apply_transform(tensors=tensors, params=params, grads=grads, loss=loss, states=states, settings=settings)
+        # evaluate grads and loss if `self._uses_grad` and `self._uses_loss`
+        grads, loss = self._get_grads_loss(objective)
+        # gather all things
+        # concatenate everything to a vec if `self._concat_params`
+        if self._concat_params:
+            tensors, params, grads = self._get_cat_updates_params_grads(objective, grads)
+            states = [states[0]]; settings = [settings[0]]
-    def pre_step(self, var: Var) -> None:
-        """Logic to run pre-transform, this way transform has access to  Var."""
-    def post_step(self, var: Var) -> None:
-        """Logic to run post-transform, this way transform has access to  Var."""
+        # or take original values
+        else:
+            tensors=objective.get_updates()
+            params = objective.params
-    def update(self, var: Var):
-        if self._target != 'update':
-            raise ValueError("Target must be 'update' to use `update` and `apply` methods. "
-                             f"With {self._target = } only `step` method can be used.")
+        return tensors, params, grads, loss, states, settings
-        # var may change, therefore current params and grads have to be extracted and passed explicitly
-        update = var.get_update() # this sets loss
-        if self._uses_grad: var.get_grad()
-        if self._uses_loss: var.get_loss(False)
-        params=var.params
-        self.pre_step(var)
+    @final
+    def update_states(self, objective: "Objective", states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]) -> None:
+        tensors, params, grads, loss, states, settings = self._gather_tensors(objective, states, settings)
+        # initialize before the first update
+        num_updates = self.increment_counter("__num_updates", 0)
+        if num_updates == 0:
+            self.multi_tensor_initialize(
+                tensors=tensors,
+                params=params,
+                grads=grads,
+                loss=loss,
+                states=states,
+                settings=settings
+            )
         # update
-        self._var = var
-        self.keyed_transform_update(update, params, var.grad, var.loss)
-        self._var = None
-    def apply(self, var: Var):
-        if self._target != 'update':
-            raise ValueError("Target must be 'update' to use `update` and `apply` methods. "
-                             f"With {self._target = } only `step` method can be used.")
+        self.multi_tensor_update(
+            tensors=tensors,
+            params=params,
+            grads=grads,
+            loss=loss,
+            states=states,
+            settings=settings
+        )
-        # var may change, therefore current params and grads have to be extracted and passed explicitly
-        update = var.get_update() # this sets loss
-        if self._uses_grad: var.get_grad()
-        if self._uses_loss: var.get_loss(False)
-        params=var.params
+    @final
+    def apply_states(self, objective: "Objective", states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]) -> "Objective":
+        tensors, params, grads, loss, states, settings = self._gather_tensors(objective, states, settings)
+        # note: _gather tensors will re-cat again if `_concat_params`, this is necessary because objective
+        # may have been modified in functional logic, there is no way to know if that happened
         # apply
-        self._var = var
-        var.update = self.keyed_transform_apply(update, params, var.grad, var.loss)
-        self._var = None
-        self.post_step(var)
-        return var
-    def step(self, var: Var) -> Var:
-        # var may change, therefore current params and grads have to be extracted and passed explicitly
-        if self._target in ('update', 'update_difference'): var.get_update() # this sets loss
-        if self._uses_grad or self._target == 'grad': var.get_grad()
-        if self._uses_loss: var.get_loss(False)
-        params=var.params
-        self.pre_step(var)
-        self._var = var
-        # ---------------------------------- update ---------------------------------- #
-        if self._target == 'update':
-            update = var.get_update()
-            self.keyed_transform_update(update, params, var.grad, var.loss)
-            var.update = list(self.keyed_transform_apply(update, params, var.grad, var.loss))
-            self._var = None
-            return var
-        # ----------------------------------- grad ----------------------------------- #
-        if self._target == 'grad':
-            grad = var.get_grad()
-            self.keyed_transform_update(grad, params, grad, var.loss)
-            var.grad = list(self.keyed_transform_apply(grad, params, grad, var.loss))
-            self._var = None
-            return var
-        # ------------------------------- params_direct ------------------------------ #
-        if self._target == 'params_direct':
-            self.keyed_transform_update(var.params, params, var.grad, var.loss)
-            new_params = self.keyed_transform_apply(var.params, params, var.grad, var.loss)
-            for p, new_p in zip(var.params, new_params): set_storage_(p, new_p)
-            self._var = None
-            return var
-        # ----------------------------- params_differnce ----------------------------- #
-        if self._target == 'params_difference':
-            p_clone = [p.clone() for p in var.params]
-            self.keyed_transform_update(p_clone, params, var.grad, var.loss)
-            new_params = tuple(self.keyed_transform_apply(p_clone, params, var.grad, var.loss))
-            var.update = list(torch._foreach_sub(var.params, new_params))
-            self._var = None
-            return var
-        # ----------------------------- update_difference ---------------------------- #
-        if self._target == 'update_difference':
-            update = var.get_update()
-            u_clone = [u.clone() for u in update]
-            self.keyed_transform_update(u_clone, params, var.grad, var.loss)
-            new_update = tuple(self.keyed_transform_apply(u_clone, params, var.grad, var.loss))
-            var.update = list(torch._foreach_sub(update, new_update))
-            self._var = None
-            return var
-        # ---------------------------------- closure --------------------------------- #
-        if self._target == 'closure':
-            original_closure = var.closure
-            if original_closure is None: raise ValueError('Target = "closure", but closure is None')
-            params = var.params
-            parent_var = self._var
-            def transformed_closure(backward=True):
-                if backward:
-                    loss = original_closure()
-                    current_grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
-                    self._var = parent_var
-                    self.keyed_transform_update(current_grad, params, var.grad, var.loss)
-                    transformed_grad = list(self.keyed_transform_apply(current_grad, params, var.grad, var.loss))
-                    self._var = None
-                    for p, g in zip(params, transformed_grad):
-                        p.grad = g
-                else:
-                    loss = original_closure(False)
-                return loss
-            var.closure = transformed_closure
-            self.post_step(var)
-            self._var = None
-            return var
-        # ---------------------------------- invalid --------------------------------- #
-        raise ValueError(f'Invalid target: {self._target}')
-class TensorwiseTransform(Transform, ABC):
-    """Base class for a parameter-wise transform.
-    This is an abstract class, to use it, subclass it and override `update_tensor` and `apply_tensor`.
-    Args:
-        defaults (dict[str,Any] | None): dict with default values.
-        uses_grad (bool):
-            Set this to True if `transform` method uses the `grad` argument. This will ensure
-            `grad` is always computed and can't be None. Otherwise set to False.
-        target (Target, optional):
-            what to set on var. Defaults to 'update'.
-    """
-    def __init__(
-        self,
-        defaults: dict[str,Any] | None,
-        uses_grad: bool = False,
-        uses_loss: bool = False,
-        concat_params: bool = False,
-        update_freq: int = 1,
-        inner: Chainable | None = None,
-        target: Target = 'update',
-    ):
-        super().__init__(
-            defaults=defaults,
-            uses_grad=uses_grad,
-            concat_params=concat_params,
-            update_freq=update_freq,
-            uses_loss=uses_loss,
-            inner=inner,
-            target=target,
+        ret = self.multi_tensor_apply(
+            tensors=tensors,
+            params=params,
+            grads=grads,
+            loss=loss,
+            states=states,
+            settings=settings
         )
-    def update_tensor(
-        self,
-        tensor: torch.Tensor,
-        param: torch.Tensor,
-        grad: torch.Tensor | None,
-        loss: torch.Tensor | float | None,
-        state: dict[str, Any],
-        setting: Mapping[str, Any],
-    ) -> None:
-        """Updates this transform. By default does nothing - if logic is in `apply` method."""
+        # uncat if needed and set objective.updates and return objective
+        if self._concat_params:
+            objective.updates = vec_to_tensors(ret[0], objective.params)
-    @abstractmethod
-    def apply_tensor(
-        self,
-        tensor: torch.Tensor,
-        param: torch.Tensor,
-        grad: torch.Tensor | None,
-        loss: torch.Tensor | float | None,
-        state: dict[str, Any],
-        setting: Mapping[str, Any],
-    ) -> torch.Tensor:
-        """Applies the update rule to `tensor`."""
+        else:
+            objective.updates = list(ret)
-    @final
-    def update_tensors(self, tensors, params, grads, loss, states, settings):
-        if grads is None: grads = [None]*len(tensors)
-        for t,p,g,state,setting in zip(tensors, params, grads, states, settings):
-            self.update_tensor(t, p, g, loss, state, setting)
+        return objective
-    @final
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
-        applied = []
-        if grads is None: grads = [None]*len(tensors)
-        for t,p,g,state,setting in zip(tensors, params, grads, states, settings):
-            applied.append(self.apply_tensor(t, p, g, loss, state, setting))
-        return applied
-def apply_transform(
-    tfm: Chainable,
-    tensors: list[torch.Tensor],
-    params: list[torch.Tensor],
-    grads: list[torch.Tensor] | None,
-    loss: torch.Tensor | float | None = None,
-    var: Var | None = None,
-    current_step: int = 0,
-):
-    if var is None:
-        var = Var(params=params, closure=None, model=None, current_step=current_step)
-        var.loss = loss
-    if isinstance(tfm, Transform) and tfm._target == 'update':
-        if tfm._uses_grad and grads is None: grads = var.get_grad()
-        tfm.keyed_transform_update(tensors, params, grads, loss)
-        return list(tfm.keyed_transform_apply(tensors, params, grads, loss))
-    if isinstance(tfm, Chain): tfm = tfm.get_children_sequence() # pyright: ignore[reportAssignmentType]
-    if isinstance(tfm, Sequence):
-        for module in tfm:
-            tensors = apply_transform(module, tensors=tensors, params=params, grads=grads, var=var)
-        return tensors
-    if isinstance(tfm, Module):
-        cvar = var.clone(clone_update=False)
-        cvar.update = tensors
-        cvar = tfm.step(cvar)
-        var.update_attrs_from_clone_(cvar)
-        assert cvar.update is not None
-        return cvar.update
-    raise TypeError(type(tfm))
+    # make sure _concat_params, _uses_grad and _uses_loss are saved in `state_dict`
+    def _extra_pack(self):
+        return {
+            "__concat_params": self._concat_params,
+            "__uses_grad": self._uses_grad,
+            "__uses_loss": self._uses_loss,
+        }
+    def _extra_unpack(self, d):
+        self._concat_params = d["__concat_params"]
+        self._uses_grad = d["__uses_grad"]
+        self._uses_loss = d["__uses_loss"]

torchzero 0.3.15__py3-none-any.whl → 0.4.1__py3-none-any.whl

torchzero 0.3.15py3-none-any.whl → 0.4.1py3-none-any.whl