PyPI - torchzero - Versions diffs - 0.3.10__py3-none-any.whl → 0.3.13__py3-none-any.whl - Mend

torchzero 0.3.10py3-none-any.whl → 0.3.13py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (182) hide show

tests/test_identical.py +2 -3
tests/test_opts.py +140 -100
tests/test_tensorlist.py +8 -7
tests/test_vars.py +1 -0
torchzero/__init__.py +1 -1
torchzero/core/__init__.py +2 -2
torchzero/core/module.py +335 -50
torchzero/core/reformulation.py +65 -0
torchzero/core/transform.py +197 -70
torchzero/modules/__init__.py +13 -4
torchzero/modules/adaptive/__init__.py +30 -0
torchzero/modules/adaptive/adagrad.py +356 -0
torchzero/modules/adaptive/adahessian.py +224 -0
torchzero/modules/{optimizers → adaptive}/adam.py +6 -8
torchzero/modules/adaptive/adan.py +96 -0
torchzero/modules/adaptive/adaptive_heavyball.py +54 -0
torchzero/modules/adaptive/aegd.py +54 -0
torchzero/modules/adaptive/esgd.py +171 -0
torchzero/modules/{optimizers → adaptive}/lion.py +1 -1
torchzero/modules/{experimental/spectral.py → adaptive/lmadagrad.py} +94 -71
torchzero/modules/adaptive/mars.py +79 -0
torchzero/modules/adaptive/matrix_momentum.py +146 -0
torchzero/modules/adaptive/msam.py +188 -0
torchzero/modules/{optimizers → adaptive}/muon.py +29 -5
torchzero/modules/adaptive/natural_gradient.py +175 -0
torchzero/modules/{optimizers → adaptive}/orthograd.py +1 -1
torchzero/modules/{optimizers → adaptive}/rmsprop.py +7 -4
torchzero/modules/{optimizers → adaptive}/rprop.py +42 -10
torchzero/modules/adaptive/sam.py +163 -0
torchzero/modules/{optimizers → adaptive}/shampoo.py +47 -9
torchzero/modules/{optimizers → adaptive}/soap.py +52 -65
torchzero/modules/adaptive/sophia_h.py +185 -0
torchzero/modules/clipping/clipping.py +115 -25
torchzero/modules/clipping/ema_clipping.py +31 -17
torchzero/modules/clipping/growth_clipping.py +8 -7
torchzero/modules/conjugate_gradient/__init__.py +11 -0
torchzero/modules/conjugate_gradient/cg.py +355 -0
torchzero/modules/experimental/__init__.py +13 -19
torchzero/modules/{projections → experimental}/dct.py +11 -11
torchzero/modules/{projections → experimental}/fft.py +10 -10
torchzero/modules/experimental/gradmin.py +4 -3
torchzero/modules/experimental/l_infinity.py +111 -0
torchzero/modules/{momentum/experimental.py → experimental/momentum.py} +5 -42
torchzero/modules/experimental/newton_solver.py +79 -17
torchzero/modules/experimental/newtonnewton.py +32 -15
torchzero/modules/experimental/reduce_outward_lr.py +4 -4
torchzero/modules/experimental/scipy_newton_cg.py +105 -0
torchzero/modules/{projections/structural.py → experimental/structural_projections.py} +13 -55
torchzero/modules/functional.py +52 -6
torchzero/modules/grad_approximation/fdm.py +30 -4
torchzero/modules/grad_approximation/forward_gradient.py +16 -4
torchzero/modules/grad_approximation/grad_approximator.py +51 -10
torchzero/modules/grad_approximation/rfdm.py +321 -52
torchzero/modules/higher_order/__init__.py +1 -1
torchzero/modules/higher_order/higher_order_newton.py +164 -93
torchzero/modules/least_squares/__init__.py +1 -0
torchzero/modules/least_squares/gn.py +161 -0
torchzero/modules/line_search/__init__.py +4 -4
torchzero/modules/line_search/_polyinterp.py +289 -0
torchzero/modules/line_search/adaptive.py +124 -0
torchzero/modules/line_search/backtracking.py +95 -57
torchzero/modules/line_search/line_search.py +171 -22
torchzero/modules/line_search/scipy.py +3 -3
torchzero/modules/line_search/strong_wolfe.py +327 -199
torchzero/modules/misc/__init__.py +35 -0
torchzero/modules/misc/debug.py +48 -0
torchzero/modules/misc/escape.py +62 -0
torchzero/modules/misc/gradient_accumulation.py +136 -0
torchzero/modules/misc/homotopy.py +59 -0
torchzero/modules/misc/misc.py +383 -0
torchzero/modules/misc/multistep.py +194 -0
torchzero/modules/misc/regularization.py +167 -0
torchzero/modules/misc/split.py +123 -0
torchzero/modules/{ops → misc}/switch.py +45 -4
torchzero/modules/momentum/__init__.py +1 -5
torchzero/modules/momentum/averaging.py +9 -9
torchzero/modules/momentum/cautious.py +51 -19
torchzero/modules/momentum/momentum.py +37 -2
torchzero/modules/ops/__init__.py +11 -31
torchzero/modules/ops/accumulate.py +6 -10
torchzero/modules/ops/binary.py +81 -34
torchzero/modules/{momentum/ema.py → ops/higher_level.py} +16 -39
torchzero/modules/ops/multi.py +82 -21
torchzero/modules/ops/reduce.py +16 -8
torchzero/modules/ops/unary.py +29 -13
torchzero/modules/ops/utility.py +30 -18
torchzero/modules/projections/__init__.py +2 -4
torchzero/modules/projections/cast.py +51 -0
torchzero/modules/projections/galore.py +3 -1
torchzero/modules/projections/projection.py +190 -96
torchzero/modules/quasi_newton/__init__.py +9 -14
torchzero/modules/quasi_newton/damping.py +105 -0
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +167 -0
torchzero/modules/quasi_newton/lbfgs.py +286 -173
torchzero/modules/quasi_newton/lsr1.py +185 -106
torchzero/modules/quasi_newton/quasi_newton.py +816 -268
torchzero/modules/restarts/__init__.py +7 -0
torchzero/modules/restarts/restars.py +252 -0
torchzero/modules/second_order/__init__.py +3 -2
torchzero/modules/second_order/multipoint.py +238 -0
torchzero/modules/second_order/newton.py +292 -68
torchzero/modules/second_order/newton_cg.py +365 -15
torchzero/modules/second_order/nystrom.py +104 -1
torchzero/modules/smoothing/__init__.py +1 -1
torchzero/modules/smoothing/laplacian.py +14 -4
torchzero/modules/smoothing/sampling.py +300 -0
torchzero/modules/step_size/__init__.py +2 -0
torchzero/modules/step_size/adaptive.py +387 -0
torchzero/modules/step_size/lr.py +154 -0
torchzero/modules/termination/__init__.py +14 -0
torchzero/modules/termination/termination.py +207 -0
torchzero/modules/trust_region/__init__.py +5 -0
torchzero/modules/trust_region/cubic_regularization.py +170 -0
torchzero/modules/trust_region/dogleg.py +92 -0
torchzero/modules/trust_region/levenberg_marquardt.py +128 -0
torchzero/modules/trust_region/trust_cg.py +97 -0
torchzero/modules/trust_region/trust_region.py +350 -0
torchzero/modules/variance_reduction/__init__.py +1 -0
torchzero/modules/variance_reduction/svrg.py +208 -0
torchzero/modules/weight_decay/__init__.py +1 -1
torchzero/modules/weight_decay/weight_decay.py +94 -11
torchzero/modules/wrappers/optim_wrapper.py +29 -1
torchzero/modules/zeroth_order/__init__.py +1 -0
torchzero/modules/zeroth_order/cd.py +359 -0
torchzero/optim/root.py +65 -0
torchzero/optim/utility/split.py +8 -8
torchzero/optim/wrappers/directsearch.py +39 -3
torchzero/optim/wrappers/fcmaes.py +24 -15
torchzero/optim/wrappers/mads.py +5 -6
torchzero/optim/wrappers/nevergrad.py +16 -1
torchzero/optim/wrappers/nlopt.py +0 -2
torchzero/optim/wrappers/optuna.py +3 -3
torchzero/optim/wrappers/scipy.py +86 -25
torchzero/utils/__init__.py +40 -4
torchzero/utils/compile.py +1 -1
torchzero/utils/derivatives.py +126 -114
torchzero/utils/linalg/__init__.py +9 -2
torchzero/utils/linalg/linear_operator.py +329 -0
torchzero/utils/linalg/matrix_funcs.py +2 -2
torchzero/utils/linalg/orthogonalize.py +2 -1
torchzero/utils/linalg/qr.py +2 -2
torchzero/utils/linalg/solve.py +369 -58
torchzero/utils/metrics.py +83 -0
torchzero/utils/numberlist.py +2 -0
torchzero/utils/python_tools.py +16 -0
torchzero/utils/tensorlist.py +134 -51
torchzero/utils/torch_tools.py +9 -4
torchzero-0.3.13.dist-info/METADATA +14 -0
torchzero-0.3.13.dist-info/RECORD +166 -0
{torchzero-0.3.10.dist-info → torchzero-0.3.13.dist-info}/top_level.txt +0 -1
docs/source/conf.py +0 -57
torchzero/modules/experimental/absoap.py +0 -250
torchzero/modules/experimental/adadam.py +0 -112
torchzero/modules/experimental/adamY.py +0 -125
torchzero/modules/experimental/adasoap.py +0 -172
torchzero/modules/experimental/diagonal_higher_order_newton.py +0 -225
torchzero/modules/experimental/eigendescent.py +0 -117
torchzero/modules/experimental/etf.py +0 -172
torchzero/modules/experimental/soapy.py +0 -163
torchzero/modules/experimental/structured_newton.py +0 -111
torchzero/modules/experimental/subspace_preconditioners.py +0 -138
torchzero/modules/experimental/tada.py +0 -38
torchzero/modules/line_search/trust_region.py +0 -73
torchzero/modules/lr/__init__.py +0 -2
torchzero/modules/lr/adaptive.py +0 -93
torchzero/modules/lr/lr.py +0 -63
torchzero/modules/momentum/matrix_momentum.py +0 -166
torchzero/modules/ops/debug.py +0 -25
torchzero/modules/ops/misc.py +0 -418
torchzero/modules/ops/split.py +0 -75
torchzero/modules/optimizers/__init__.py +0 -18
torchzero/modules/optimizers/adagrad.py +0 -155
torchzero/modules/optimizers/sophia_h.py +0 -129
torchzero/modules/quasi_newton/cg.py +0 -268
torchzero/modules/quasi_newton/experimental/__init__.py +0 -1
torchzero/modules/quasi_newton/experimental/modular_lbfgs.py +0 -266
torchzero/modules/quasi_newton/olbfgs.py +0 -196
torchzero/modules/smoothing/gaussian.py +0 -164
torchzero-0.3.10.dist-info/METADATA +0 -379
torchzero-0.3.10.dist-info/RECORD +0 -139
torchzero-0.3.10.dist-info/licenses/LICENSE +0 -21
{torchzero-0.3.10.dist-info → torchzero-0.3.13.dist-info}/WHEEL +0 -0

torchzero/modules/projections/cast.py ADDED Viewed

@@ -0,0 +1,51 @@
+import torch
+from .projection import ProjectionBase
+from ...core import Chainable
+class To(ProjectionBase):
+    """Cast modules to specified device and dtype"""
+    def __init__(self, modules: Chainable, dtype: torch.dtype | None, device:torch.types.Device | None = None):
+        defaults = dict(dtype=dtype, device=device)
+        super().__init__(modules, project_update=True, project_params=True, project_grad=True, defaults=defaults)
+    @torch.no_grad
+    def project(self, tensors, params, grads, loss, states, settings, current):
+        casted = []
+        for tensor, state, setting in zip(tensors,states, settings):
+            state['dtype'] = tensor.dtype
+            state['device'] = tensor.device
+            tensor = tensor.to(dtype=setting['dtype'], device=setting['device'])
+            casted.append(tensor)
+        return casted
+    @torch.no_grad
+    def unproject(self, projected_tensors, params, grads, loss, states, settings, current):
+        uncasted = []
+        for tensor, state in zip(projected_tensors, states):
+            tensor = tensor.to(dtype=state['dtype'], device=state['device'])
+            uncasted.append(tensor)
+        return uncasted
+class ViewAsReal(ProjectionBase):
+    """View complex tensors as real tensors. Doesn't affect tensors that are already."""
+    def __init__(self, modules: Chainable):
+        super().__init__(modules, project_update=True, project_params=True, project_grad=True, defaults=None)
+    @torch.no_grad
+    def project(self, tensors, params, grads, loss, states, settings, current):
+        views = []
+        for tensor, state in zip(tensors,states):
+            is_complex = torch.is_complex(tensor)
+            state['is_complex'] = is_complex
+            if is_complex: tensor = torch.view_as_real(tensor)
+            views.append(tensor)
+        return views
+    @torch.no_grad
+    def unproject(self, projected_tensors, params, grads, loss, states, settings, current):
+        un_views = []
+        for tensor, state in zip(projected_tensors, states):
+            if state['is_complex']: tensor = torch.view_as_complex(tensor)
+            un_views.append(tensor)
+        return un_views

torchzero/modules/projections/galore.py CHANGED Viewed

@@ -7,4 +7,6 @@ from typing import Any, Literal
 import torch
 from ...core import Chainable, Module, Var
-from .projection import Projection
+from .projection import ProjectionBase
+# TODO

torchzero/modules/projections/projection.py CHANGED Viewed

@@ -1,29 +1,35 @@
 import math
-from functools import partial
+import warnings
 from abc import ABC, abstractmethod
-from collections.abc import Iterable
+from collections import ChainMap, defaultdict
+from collections.abc import Iterable, Mapping, Sequence
+from functools import partial
 from typing import Any, Literal
-import warnings
 import torch
 from ...core import Chainable, Module, Var
-from ...utils import vec_to_tensors
+from ...utils import set_storage_, vec_to_tensors
-def _make_projected_closure(closure, var: Var, projection: "Projection",
+def _make_projected_closure(closure, project_fn, unproject_fn,
                            params: list[torch.Tensor], projected_params: list[torch.Tensor]):
     def projected_closure(backward=True):
-        unprojected_params = projection.unproject(projected_params, var, current='params')
+        # unproject projected params
+        unprojected_params = unproject_fn(projected_tensors=projected_params, current='params')
+        # set actual model parameters to suggested parameters
         with torch.no_grad():
             for p, new_p in zip(params, unprojected_params):
                 p.set_(new_p) # pyright: ignore[reportArgumentType]
+        # evaluate closure with suggested parameters
         if backward:
             loss = closure()
             grads = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
-            projected_grads = projection.project(grads, var, current='grads')
+            # project gradients on backward and set to projected parameter .grad attributes
+            projected_grads = project_fn(grads, current='grads')
             for p, g in zip(projected_params, projected_grads):
                 p.grad = g
@@ -34,27 +40,44 @@ def _make_projected_closure(closure, var: Var, projection: "Projection",
     return projected_closure
-def _projected_get_grad_override(
-    retain_graph: bool | None = None,
-    create_graph: bool = False,
-    projection: Any = ...,
-    unprojected_var: Any = ...,
-    self: Any = ...,
-):
-    assert isinstance(projection, Projection)
-    assert isinstance(unprojected_var, Var)
-    assert isinstance(self, Var)
-    if self.grad is not None: return self.grad
-    grads = unprojected_var.get_grad(retain_graph, create_graph)
-    projected_grads = list(projection.project(grads, self, current='grads'))
-    self.grad = projected_grads
-    for p, g in zip(self.params, projected_grads):
-        p.grad = g
-    return self.grad
-class Projection(Module, ABC):
+class _FakeProjectedClosure:
+    """This is used when project_params is False. Then the closure is meant to only be used to evaluate the initial gradient.
+    It should just evaluate original closure, project the gradients, and set them to fake params.
+    I made it into a class so that it can know and raise when it evaluates closure more than once.
+    """
+    __slots__ = ('closure', 'project_fn', 'params', 'fake_params', 'evaluated')
+    def __init__(self, closure, project_fn, params: list[torch.Tensor], fake_params: list[torch.Tensor]):
+        self.closure = closure
+        self.project_fn = project_fn
+        self.params = params
+        self.fake_params = fake_params
+        self.evaluated = False
+    def __call__(self, backward: bool = True):
+        if self.evaluated:
+            raise RuntimeError("set project_params to True if projected modules require closure.")
+        self.evaluated = True
+        # evaluate closure with suggested parameters
+        if backward:
+            loss = self.closure()
+            grads = [p.grad if p.grad is not None else torch.zeros_like(p) for p in self.params]
+            # project gradients on backward and set to projected parameter .grad attributes
+            projected_grads = self.project_fn(grads, current='grads')
+            for p, g in zip(self.fake_params, projected_grads):
+                p.grad = g
+        else:
+            loss = self.closure(False)
+        return loss
+class ProjectionBase(Module, ABC):
     """
     Base class for projections.
     This is an abstract class, to use it, subclass it and override `project` and `unproject`.
@@ -84,52 +107,120 @@ class Projection(Module, ABC):
         self._project_grad = project_grad
         self._projected_params = None
+        self._states: dict[str, list[dict[str, Any]]] = {}
+        """per-parameter states for each projection target"""
     @abstractmethod
-    def project(self, tensors: list[torch.Tensor], var: Var, current: Literal['params', 'grads', 'update']) -> Iterable[torch.Tensor]:
+    def project(
+        self,
+        tensors: list[torch.Tensor],
+        params: list[torch.Tensor],
+        grads: list[torch.Tensor] | None,
+        loss: torch.Tensor | None,
+        states: list[dict[str, Any]],
+        settings: list[ChainMap[str, Any]],
+        current: str,
+    ) -> Iterable[torch.Tensor]:
         """projects `tensors`. Note that this can be called multiple times per step with `params`, `grads`, and `update`."""
     @abstractmethod
-    def unproject(self, tensors: list[torch.Tensor], var: Var, current: Literal['params', 'grads', 'update']) -> Iterable[torch.Tensor]:
-        """unprojects `tensors`. Note that this can be called multiple times per step with `params`, `grads`, and `update`."""
+    def unproject(
+        self,
+        projected_tensors: list[torch.Tensor],
+        params: list[torch.Tensor],
+        grads: list[torch.Tensor] | None,
+        loss: torch.Tensor | None,
+        states: list[dict[str, Any]],
+        settings: list[ChainMap[str, Any]],
+        current: str,
+    ) -> Iterable[torch.Tensor]:
+        """unprojects `tensors`. Note that this can be called multiple times per step with `params`, `grads`, and `update`.
+        Args:
+            projected_tensors (list[torch.Tensor]): projected tensors to unproject.
+            params (list[torch.Tensor]): original, unprojected parameters.
+            grads (list[torch.Tensor] | None): original, unprojected gradients
+            loss (torch.Tensor | None): loss at initial point.
+            states (list[dict[str, Any]]): list of state dictionaries per each UNPROJECTED tensor.
+            settings (list[ChainMap[str, Any]]): list of setting dictionaries per each UNPROJECTED tensor.
+            current (str): string representing what is being unprojected, e.g. "params", "grads" or "update".
+        Returns:
+            Iterable[torch.Tensor]: unprojected tensors of the same shape as params
+        """
     @torch.no_grad
     def step(self, var: Var):
-        projected_var = var.clone(clone_update=False)
+        params = var.params
+        settings = [self.settings[p] for p in params]
+        def _project(tensors: list[torch.Tensor], current: Literal['params', 'grads', 'update']):
+            states = self._states.setdefault(current, [{} for _ in params])
+            return list(self.project(
+                tensors=tensors,
+                params=params,
+                grads=var.grad,
+                loss=var.loss,
+                states=states,
+                settings=settings,
+                current=current,
+            ))
+        projected_var = var.clone(clone_update=False, parent=var)
+        closure = var.closure
+        # if this is True, update and grad were projected simultaneously under current="grads"
+        # so update will have to be unprojected with current="grads"
         update_is_grad = False
-        # closure will calculate projected update and grad if needed
-        if self._project_params and var.closure is not None:
-            if self._project_update and var.update is not None: projected_var.update = list(self.project(var.update, var=var, current='update'))
+        # if closure is provided and project_params=True, make new closure that evaluates projected params
+        # that also means projected modules can evaluate grad/update at will, it shouldn't be computed here
+        # but if it has already been computed, it should be projected
+        if self._project_params and closure is not None:
+            if self._project_update and var.update is not None:
+                # project update only if it already exists
+                projected_var.update = _project(var.update, current='update')
             else:
+                # update will be set to gradients on var.get_grad()
+                # therefore projection will happen with current="grads"
                 update_is_grad = True
-            if self._project_grad and var.grad is not None: projected_var.grad = list(self.project(var.grad, var=var, current='grads'))
-        # project update and grad, unprojected attributes are deleted
+            # project grad only if it already exists
+            if self._project_grad and var.grad is not None:
+                projected_var.grad = _project(var.grad, current='grads')
+        # otherwise update/grad needs to be calculated and projected here
         else:
             if self._project_update:
                 if var.update is None:
                     # update is None, meaning it will be set to `grad`.
                     # we can project grad and use it for update
                     grad = var.get_grad()
-                    projected_var.grad = list(self.project(grad, var=var, current='grads'))
-                    if self._project_grad: projected_var.update = [g.clone() for g in projected_var.grad]
-                    else: projected_var.update = projected_var.grad.copy() # don't clone because grad shouldn't be used
+                    projected_var.grad = _project(grad, current='grads')
+                    projected_var.update = [g.clone() for g in projected_var.grad]
                     del var.update
                     update_is_grad = True
                 else:
+                    # update exists so it needs to be projected
                     update = var.get_update()
-                    projected_var.update = list(self.project(update, var=var, current='update'))
+                    projected_var.update = _project(update, current='update')
                     del update, var.update
             if self._project_grad and projected_var.grad is None:
+                # projected_vars.grad may have been projected simultaneously with update
+                # but if that didn't happen, it is projected here
                 grad = var.get_grad()
-                projected_var.grad = list(self.project(grad, var=var, current='grads'))
+                projected_var.grad = _project(grad, current='grads')
         original_params = None
         if self._project_params:
             original_params = [p.clone() for p in var.params]
-            projected_params = self.project(var.params, var=var, current='params')
+            projected_params = _project(var.params, current='params')
         else:
             # make fake params for correct shapes and state storage
@@ -146,49 +237,57 @@ class Projection(Module, ABC):
             for empty_p, new_p in zip(self._projected_params, projected_params):
                 empty_p.set_(new_p.view_as(new_p).requires_grad_()) # pyright: ignore[reportArgumentType]
+        projected_params = self._projected_params
+        # projected_settings = [self.settings[p] for p in projected_params]
+        def _unproject(projected_tensors: list[torch.Tensor], current: Literal['params', 'grads', 'update']):
+            states = self._states.setdefault(current, [{} for _ in params])
+            return list(self.unproject(
+                projected_tensors=projected_tensors,
+                params=params,
+                grads=var.grad,
+                loss=var.loss,
+                states=states,
+                settings=settings,
+                current=current,
+            ))
         # project closure
         if self._project_params:
-            closure = var.closure; params = var.params
-            projected_var.closure = _make_projected_closure(closure, var=var, projection=self, params=params,
-                                                             projected_params=self._projected_params)
+            projected_var.closure = _make_projected_closure(closure, project_fn=_project, unproject_fn=_unproject,
+                                                            params=params, projected_params=projected_params)
+        elif closure is not None:
+            projected_var.closure = _FakeProjectedClosure(closure, project_fn=_project,
+                                                          params=params, fake_params=projected_params)
         else:
             projected_var.closure = None
-        # step
-        projected_var.params = self._projected_params
-        projected_var.get_grad = partial(
-            _projected_get_grad_override,
-            projection=self,
-            unprojected_var=var,
-            self=projected_var,
-        )
+        # ----------------------------------- step ----------------------------------- #
+        projected_var.params = projected_params
         projected_var = self.children['modules'].step(projected_var)
         # empty fake params storage
         # this doesn't affect update/grad because it is a different python object, set_ changes storage on an object
         if not self._project_params:
             for p in self._projected_params:
-                p.set_(torch.empty(0, device=p.device, dtype=p.dtype)) # pyright: ignore[reportArgumentType]
+                set_storage_(p, torch.empty(0, device=p.device, dtype=p.dtype))
-        # unproject
+        # --------------------------------- unproject -------------------------------- #
         unprojected_var = projected_var.clone(clone_update=False)
         unprojected_var.closure = var.closure
         unprojected_var.params = var.params
-        unprojected_var.grad = var.grad
+        unprojected_var.grad = var.grad # this may also be set by projected_var since it has var as parent
         if self._project_update:
             assert projected_var.update is not None
-            unprojected_var.update = list(self.unproject(projected_var.update, var=var, current='grads' if update_is_grad else 'update'))
+            unprojected_var.update = _unproject(projected_var.update, current='grads' if update_is_grad else 'update')
             del projected_var.update
-        # unprojecting grad doesn't make sense?
-        # if self._project_grad:
-        #     assert projected_var.grad is not None
-        #     unprojected_var.grad = list(self.unproject(projected_var.grad, var=var))
         del projected_var
+        # original params are stored if params are projected
         if original_params is not None:
             for p, o in zip(unprojected_var.params, original_params):
                 p.set_(o) # pyright: ignore[reportArgumentType]
@@ -197,48 +296,43 @@ class Projection(Module, ABC):
-class FlipConcatProjection(Projection):
-    """
-    for testing
-    """
-    def __init__(self, modules: Chainable, project_update=True, project_params=False, project_grad=False):
-        super().__init__(modules, project_update=project_update, project_params=project_params, project_grad=project_grad)
-    @torch.no_grad
-    def project(self, tensors, var, current):
-        return [torch.cat([u.view(-1) for u in tensors], dim=-1).flip(0)]
-    @torch.no_grad
-    def unproject(self, tensors, var, current):
-        return vec_to_tensors(vec=tensors[0].flip(0), reference=var.params)
-class NoopProjection(Projection):
-    """an example projection which doesn't do anything for testing"""
-    def __init__(self, modules: Chainable, project_update=True, project_params=False, project_grad=False):
+# basic examples
+class VectorProjection(ProjectionBase):
+    """projection that concatenates all parameters into a vector"""
+    def __init__(
+        self,
+        modules: Chainable,
+        project_update=True,
+        project_params=True,
+        project_grad=True,
+    ):
         super().__init__(modules, project_update=project_update, project_params=project_params, project_grad=project_grad)
     @torch.no_grad
-    def project(self, tensors, var, current):
-        return tensors
+    def project(self, tensors, params, grads, loss, states, settings, current):
+        return [torch.cat([t.ravel() for t in tensors])]
     @torch.no_grad
-    def unproject(self, tensors, var, current):
-        return tensors
+    def unproject(self, projected_tensors, params, grads, loss, states, settings, current):
+        return vec_to_tensors(vec=projected_tensors[0], reference=params)
-class MultipyProjection(Projection):
-    """an example projection which multiplies everything by 2"""
-    def __init__(self, modules: Chainable, project_update=True, project_params=False, project_grad=False):
+class ScalarProjection(ProjectionBase):
+    """projetion that splits all parameters into individual scalars"""
+    def __init__(
+        self,
+        modules: Chainable,
+        project_update=True,
+        project_params=True,
+        project_grad=True,
+    ):
         super().__init__(modules, project_update=project_update, project_params=project_params, project_grad=project_grad)
     @torch.no_grad
-    def project(self, tensors, var, current):
-        return torch._foreach_mul(tensors, 2)
+    def project(self, tensors, params, grads, loss, states, settings, current):
+        return [s for t in tensors for s in t.ravel().unbind(0)]
     @torch.no_grad
-    def unproject(self, tensors, var, current):
-        return torch._foreach_div(tensors, 2)
+    def unproject(self, projected_tensors, params, grads, loss, states, settings, current):
+        return vec_to_tensors(vec=torch.stack(projected_tensors), reference=params)

torchzero/modules/quasi_newton/__init__.py CHANGED Viewed

@@ -1,28 +1,22 @@
-from .cg import (
-    ConjugateDescent,
-    DaiYuan,
-    FletcherReeves,
-    HagerZhang,
-    HestenesStiefel,
-    HybridHS_DY,
-    LiuStorey,
-    PolakRibiere,
-    ProjectedGradientMethod,
+from .diagonal_quasi_newton import (
+    DNRTR,
+    DiagonalBFGS,
+    DiagonalQuasiCauchi,
+    DiagonalSR1,
+    DiagonalWeightedQuasiCauchi,
+    NewDQN,
 )
 from .lbfgs import LBFGS
 from .lsr1 import LSR1
-from .olbfgs import OnlineLBFGS
-# from .experimental import ModularLBFGS
 from .quasi_newton import (
     BFGS,
     DFP,
+    ICUM,
     PSB,
     SR1,
     SSVM,
     BroydenBad,
     BroydenGood,
-    ColumnUpdatingMethod,
     FletcherVMM,
     GradientCorrection,
     Greenstadt1,
@@ -32,5 +26,6 @@ from .quasi_newton import (
     NewSSM,
     Pearson,
     ProjectedNewtonRaphson,
+    ShorR,
     ThomasOptimalMethod,
 )

torchzero/modules/quasi_newton/damping.py ADDED Viewed

@@ -0,0 +1,105 @@
+import math
+from typing import Literal, Protocol, overload
+import torch
+from ...utils import TensorList
+from ...utils.linalg.linear_operator import DenseInverse, LinearOperator
+from ..functional import safe_clip
+class DampingStrategy(Protocol):
+    def __call__(
+        self,
+        s: torch.Tensor,
+        y: torch.Tensor,
+        g: torch.Tensor,
+        H: LinearOperator,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return s, y
+def _sy_Hs_sHs(s:torch.Tensor, y:torch.Tensor, H:LinearOperator):
+    if isinstance(H, DenseInverse):
+        Hs = H.solve(y)
+        sHs = y.dot(Hs)
+    else:
+        Hs = H.matvec(s)
+        sHs = s.dot(Hs)
+    return s.dot(y), Hs, sHs
+def powell_damping(s:torch.Tensor, y:torch.Tensor, g:torch.Tensor, H:LinearOperator, u=0.2):
+    # here H is hessian! not the inverse
+    sy, Hs, sHs = _sy_Hs_sHs(s, y, H)
+    if sy < u*sHs:
+        phi = ((1-u) * sHs) / safe_clip((sHs - sy))
+        s = phi * s + (1 - phi) * Hs
+    return s, y
+def double_damping(s:torch.Tensor, y:torch.Tensor, g:torch.Tensor, H:LinearOperator, u1=0.2, u2=1/3):
+    # Goldfarb, Donald, Yi Ren, and Achraf Bahamou. "Practical quasi-newton methods for training deep neural networks." Advances in Neural Information Processing Systems 33 (2020): 2386-2396.
+    # Powell’s damping on H
+    sy, Hs, sHs = _sy_Hs_sHs(s, y, H)
+    if sy < u1*sHs:
+        phi = ((1-u1) * sHs) / safe_clip(sHs - sy)
+        s = phi * s + (1 - phi) * Hs
+    # Powell’s damping with B = I
+    sy = s.dot(y)
+    ss = s.dot(s)
+    if sy < u2*ss:
+        phi = ((1-u2) * ss) / safe_clip(ss - sy)
+        y = phi * y + (1 - phi) * s
+    return s, y
+_DAMPING_KEYS = Literal["powell", "double"]
+_DAMPING_STRATEGIES: dict[_DAMPING_KEYS, DampingStrategy] = {
+    "powell": powell_damping,
+    "double": double_damping,
+}
+DampingStrategyType = _DAMPING_KEYS | DampingStrategy | None
+@overload
+def apply_damping(
+    strategy: DampingStrategyType,
+    s: torch.Tensor,
+    y: torch.Tensor,
+    g: torch.Tensor,
+    H: LinearOperator,
+) -> tuple[torch.Tensor, torch.Tensor]: ...
+@overload
+def apply_damping(
+    strategy: DampingStrategyType,
+    s: TensorList,
+    y: TensorList,
+    g: TensorList,
+    H: LinearOperator,
+) -> tuple[TensorList, TensorList]: ...
+def apply_damping(
+    strategy: DampingStrategyType,
+    s,
+    y,
+    g,
+    H: LinearOperator,
+):
+    if strategy is None: return s, y
+    if isinstance(strategy, str): strategy = _DAMPING_STRATEGIES[strategy]
+    if isinstance(s, TensorList):
+        assert isinstance(y, TensorList) and isinstance(g, TensorList)
+        s_vec, y_vec = strategy(s.to_vec(), y.to_vec(), g.to_vec(), H)
+        return s.from_vec(s_vec), y.from_vec(y_vec)
+    assert isinstance(y, torch.Tensor) and isinstance(g, torch.Tensor)
+    return strategy(s, y, g, H)

torchzero 0.3.10__py3-none-any.whl → 0.3.13__py3-none-any.whl

torchzero 0.3.10py3-none-any.whl → 0.3.13py3-none-any.whl