PyPI - torchzero - Versions diffs - 0.3.15__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

torchzero 0.3.15py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (187) hide show

tests/test_identical.py +22 -22
tests/test_module_autograd.py +586 -0
tests/test_objective.py +188 -0
tests/test_opts.py +225 -214
tests/test_tensorlist.py +0 -8
tests/test_utils_optimizer.py +0 -1
torchzero/__init__.py +2 -2
torchzero/core/__init__.py +7 -4
torchzero/core/chain.py +20 -23
torchzero/core/functional.py +90 -24
torchzero/core/modular.py +53 -57
torchzero/core/module.py +132 -52
torchzero/core/objective.py +948 -0
torchzero/core/reformulation.py +55 -24
torchzero/core/transform.py +261 -367
torchzero/linalg/__init__.py +11 -0
torchzero/linalg/eigh.py +253 -0
torchzero/linalg/linalg_utils.py +14 -0
torchzero/{utils/linalg → linalg}/linear_operator.py +99 -49
torchzero/linalg/matrix_power.py +28 -0
torchzero/linalg/orthogonalize.py +93 -0
torchzero/{utils/linalg → linalg}/qr.py +16 -2
torchzero/{utils/linalg → linalg}/solve.py +74 -88
torchzero/linalg/svd.py +47 -0
torchzero/linalg/torch_linalg.py +168 -0
torchzero/modules/__init__.py +4 -3
torchzero/modules/adaptive/__init__.py +11 -3
torchzero/modules/adaptive/adagrad.py +167 -217
torchzero/modules/adaptive/adahessian.py +76 -105
torchzero/modules/adaptive/adam.py +53 -76
torchzero/modules/adaptive/adan.py +50 -31
torchzero/modules/adaptive/adaptive_heavyball.py +12 -7
torchzero/modules/adaptive/aegd.py +12 -12
torchzero/modules/adaptive/esgd.py +98 -119
torchzero/modules/adaptive/ggt.py +186 -0
torchzero/modules/adaptive/lion.py +7 -11
torchzero/modules/adaptive/lre_optimizers.py +299 -0
torchzero/modules/adaptive/mars.py +7 -7
torchzero/modules/adaptive/matrix_momentum.py +48 -52
torchzero/modules/adaptive/msam.py +71 -53
torchzero/modules/adaptive/muon.py +67 -129
torchzero/modules/adaptive/natural_gradient.py +63 -41
torchzero/modules/adaptive/orthograd.py +11 -15
torchzero/modules/adaptive/psgd/__init__.py +5 -0
torchzero/modules/adaptive/psgd/_psgd_utils.py +37 -0
torchzero/modules/adaptive/psgd/psgd.py +1390 -0
torchzero/modules/adaptive/psgd/psgd_dense_newton.py +174 -0
torchzero/modules/adaptive/psgd/psgd_kron_newton.py +203 -0
torchzero/modules/adaptive/psgd/psgd_kron_whiten.py +185 -0
torchzero/modules/adaptive/psgd/psgd_lra_newton.py +118 -0
torchzero/modules/adaptive/psgd/psgd_lra_whiten.py +116 -0
torchzero/modules/adaptive/rmsprop.py +83 -75
torchzero/modules/adaptive/rprop.py +48 -47
torchzero/modules/adaptive/sam.py +55 -45
torchzero/modules/adaptive/shampoo.py +149 -130
torchzero/modules/adaptive/soap.py +207 -143
torchzero/modules/adaptive/sophia_h.py +106 -130
torchzero/modules/clipping/clipping.py +22 -25
torchzero/modules/clipping/ema_clipping.py +31 -25
torchzero/modules/clipping/growth_clipping.py +14 -17
torchzero/modules/conjugate_gradient/cg.py +27 -38
torchzero/modules/experimental/__init__.py +7 -6
torchzero/modules/experimental/adanystrom.py +258 -0
torchzero/modules/experimental/common_directions_whiten.py +142 -0
torchzero/modules/experimental/coordinate_momentum.py +36 -0
torchzero/modules/experimental/cubic_adam.py +160 -0
torchzero/modules/experimental/curveball.py +25 -41
torchzero/modules/experimental/eigen_sr1.py +182 -0
torchzero/modules/experimental/eigengrad.py +207 -0
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/higher_order_newton.py +14 -40
torchzero/modules/experimental/l_infinity.py +1 -1
torchzero/modules/experimental/matrix_nag.py +122 -0
torchzero/modules/experimental/newton_solver.py +23 -54
torchzero/modules/experimental/newtonnewton.py +45 -48
torchzero/modules/experimental/reduce_outward_lr.py +7 -7
torchzero/modules/experimental/scipy_newton_cg.py +21 -24
torchzero/modules/experimental/spsa1.py +3 -3
torchzero/modules/experimental/structural_projections.py +1 -4
torchzero/modules/grad_approximation/fdm.py +2 -2
torchzero/modules/grad_approximation/forward_gradient.py +7 -7
torchzero/modules/grad_approximation/grad_approximator.py +23 -16
torchzero/modules/grad_approximation/rfdm.py +24 -21
torchzero/modules/least_squares/gn.py +121 -50
torchzero/modules/line_search/backtracking.py +4 -4
torchzero/modules/line_search/line_search.py +33 -33
torchzero/modules/line_search/strong_wolfe.py +4 -4
torchzero/modules/misc/debug.py +12 -12
torchzero/modules/misc/escape.py +10 -10
torchzero/modules/misc/gradient_accumulation.py +11 -79
torchzero/modules/misc/homotopy.py +16 -8
torchzero/modules/misc/misc.py +121 -123
torchzero/modules/misc/multistep.py +52 -53
torchzero/modules/misc/regularization.py +49 -44
torchzero/modules/misc/split.py +31 -29
torchzero/modules/misc/switch.py +37 -32
torchzero/modules/momentum/averaging.py +14 -14
torchzero/modules/momentum/cautious.py +37 -31
torchzero/modules/momentum/momentum.py +12 -12
torchzero/modules/ops/__init__.py +4 -4
torchzero/modules/ops/accumulate.py +21 -21
torchzero/modules/ops/binary.py +67 -66
torchzero/modules/ops/higher_level.py +20 -20
torchzero/modules/ops/multi.py +44 -41
torchzero/modules/ops/reduce.py +26 -23
torchzero/modules/ops/unary.py +53 -53
torchzero/modules/ops/utility.py +47 -46
torchzero/modules/{functional.py → opt_utils.py} +1 -1
torchzero/modules/projections/galore.py +1 -1
torchzero/modules/projections/projection.py +46 -43
torchzero/modules/quasi_newton/__init__.py +1 -1
torchzero/modules/quasi_newton/damping.py +2 -2
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +1 -1
torchzero/modules/quasi_newton/lbfgs.py +10 -10
torchzero/modules/quasi_newton/lsr1.py +10 -10
torchzero/modules/quasi_newton/quasi_newton.py +54 -39
torchzero/modules/quasi_newton/sg2.py +69 -205
torchzero/modules/restarts/restars.py +39 -37
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/ifn.py +31 -62
torchzero/modules/second_order/inm.py +57 -53
torchzero/modules/second_order/multipoint.py +40 -80
torchzero/modules/second_order/newton.py +165 -196
torchzero/modules/second_order/newton_cg.py +105 -157
torchzero/modules/second_order/nystrom.py +216 -185
torchzero/modules/second_order/rsn.py +132 -125
torchzero/modules/smoothing/laplacian.py +13 -12
torchzero/modules/smoothing/sampling.py +10 -10
torchzero/modules/step_size/adaptive.py +24 -24
torchzero/modules/step_size/lr.py +17 -17
torchzero/modules/termination/termination.py +32 -30
torchzero/modules/trust_region/cubic_regularization.py +3 -3
torchzero/modules/trust_region/levenberg_marquardt.py +25 -28
torchzero/modules/trust_region/trust_cg.py +2 -2
torchzero/modules/trust_region/trust_region.py +27 -22
torchzero/modules/variance_reduction/svrg.py +23 -21
torchzero/modules/weight_decay/__init__.py +2 -1
torchzero/modules/weight_decay/reinit.py +83 -0
torchzero/modules/weight_decay/weight_decay.py +17 -18
torchzero/modules/wrappers/optim_wrapper.py +14 -14
torchzero/modules/zeroth_order/cd.py +10 -7
torchzero/optim/mbs.py +291 -0
torchzero/optim/root.py +3 -3
torchzero/optim/utility/split.py +2 -1
torchzero/optim/wrappers/directsearch.py +27 -63
torchzero/optim/wrappers/fcmaes.py +14 -35
torchzero/optim/wrappers/mads.py +11 -31
torchzero/optim/wrappers/moors.py +66 -0
torchzero/optim/wrappers/nevergrad.py +4 -13
torchzero/optim/wrappers/nlopt.py +31 -25
torchzero/optim/wrappers/optuna.py +8 -13
torchzero/optim/wrappers/pybobyqa.py +124 -0
torchzero/optim/wrappers/scipy/__init__.py +7 -0
torchzero/optim/wrappers/scipy/basin_hopping.py +117 -0
torchzero/optim/wrappers/scipy/brute.py +48 -0
torchzero/optim/wrappers/scipy/differential_evolution.py +80 -0
torchzero/optim/wrappers/scipy/direct.py +69 -0
torchzero/optim/wrappers/scipy/dual_annealing.py +115 -0
torchzero/optim/wrappers/scipy/experimental.py +141 -0
torchzero/optim/wrappers/scipy/minimize.py +151 -0
torchzero/optim/wrappers/scipy/sgho.py +111 -0
torchzero/optim/wrappers/wrapper.py +121 -0
torchzero/utils/__init__.py +7 -25
torchzero/utils/benchmarks/__init__.py +0 -0
torchzero/utils/benchmarks/logistic.py +122 -0
torchzero/utils/compile.py +2 -2
torchzero/utils/derivatives.py +97 -73
torchzero/utils/optimizer.py +4 -77
torchzero/utils/python_tools.py +31 -0
torchzero/utils/tensorlist.py +11 -5
torchzero/utils/thoad_tools.py +68 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/METADATA +1 -1
torchzero-0.4.1.dist-info/RECORD +209 -0
tests/test_vars.py +0 -185
torchzero/core/var.py +0 -376
torchzero/modules/adaptive/lmadagrad.py +0 -186
torchzero/modules/experimental/momentum.py +0 -160
torchzero/optim/wrappers/scipy.py +0 -572
torchzero/utils/linalg/__init__.py +0 -12
torchzero/utils/linalg/matrix_funcs.py +0 -87
torchzero/utils/linalg/orthogonalize.py +0 -12
torchzero/utils/linalg/svd.py +0 -20
torchzero/utils/ops.py +0 -10
torchzero-0.3.15.dist-info/RECORD +0 -175
/torchzero/{utils/linalg → linalg}/benchmark.py +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/WHEEL +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/top_level.txt +0 -0

torchzero/modules/experimental/spsa1.py CHANGED Viewed

@@ -38,15 +38,15 @@ class SPSA1(GradApproximator):
         super().__init__(defaults, target=target)
-    def pre_step(self, var):
+    def pre_step(self, objective):
         if self.defaults['pre_generate']:
-            params = TensorList(var.params)
+            params = TensorList(objective.params)
             generator = self.get_generator(params[0].device, self.defaults['seed'])
             n_samples = self.defaults['n_samples']
-            h = self.get_settings(var.params, 'h')
+            h = self.get_settings(objective.params, 'h')
             perturbations = [params.rademacher_like(generator=generator) for _ in range(n_samples)]
             torch._foreach_mul_([p for l in perturbations for p in l], [v for vv in h for v in [vv]*n_samples])

torchzero/modules/experimental/structural_projections.py CHANGED Viewed

@@ -1,11 +1,8 @@
 import math
-import numpy as np
 import torch
 from ...core import Chainable
-from ...utils import vec_to_tensors, TensorList
-from ..adaptive.shampoo import _merge_small_dims
+from ...utils import vec_to_tensors
 from ..projections import ProjectionBase

torchzero/modules/grad_approximation/fdm.py CHANGED Viewed

@@ -106,12 +106,12 @@ class FDM(GradApproximator):
     plain FDM:
     ```python
-    fdm = tz.Modular(model.parameters(), tz.m.FDM(), tz.m.LR(1e-2))
+    fdm = tz.Optimizer(model.parameters(), tz.m.FDM(), tz.m.LR(1e-2))
     ```
     Any gradient-based method can use FDM-estimated gradients.
     ```python
-    fdm_ncg = tz.Modular(
+    fdm_ncg = tz.Optimizer(
         model.parameters(),
         tz.m.FDM(),
         # set hvp_method to "forward" so that it

torchzero/modules/grad_approximation/forward_gradient.py CHANGED Viewed

@@ -52,11 +52,11 @@ class ForwardGradient(RandomizedFDM):
         params = TensorList(params)
         loss_approx = None
-        settings = self.settings[params[0]]
-        n_samples = settings['n_samples']
-        jvp_method = settings['jvp_method']
-        h = settings['h']
-        distribution = settings['distribution']
+        fs = self.settings[params[0]]
+        n_samples = fs['n_samples']
+        jvp_method = fs['jvp_method']
+        h = fs['h']
+        distribution = fs['distribution']
         default = [None]*n_samples
         perturbations = list(zip(*(self.state[p].get('perturbations', default) for p in params)))
         generator = self.get_generator(params[0].device, self.defaults['seed'])
@@ -74,10 +74,10 @@ class ForwardGradient(RandomizedFDM):
                     loss, d = jvp(partial(closure, False), params=params, tangent=prt)
             elif jvp_method == 'forward':
-                loss, d = jvp_fd_forward(partial(closure, False), params=params, tangent=prt, v_0=loss, normalize=True, h=h)
+                loss, d = jvp_fd_forward(partial(closure, False), params=params, tangent=prt, v_0=loss, h=h)
             elif jvp_method == 'central':
-                loss_approx, d = jvp_fd_central(partial(closure, False), params=params, tangent=prt, normalize=True, h=h)
+                loss_approx, d = jvp_fd_central(partial(closure, False), params=params, tangent=prt, h=h)
             else: raise ValueError(jvp_method)

torchzero/modules/grad_approximation/grad_approximator.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import Any, Literal
 import torch
-from ...core import Module, Var
+from ...core import Module, Objective
 GradTarget = Literal['update', 'grad', 'closure']
 _Scalar = torch.Tensor | float
@@ -62,24 +62,25 @@ class GradApproximator(Module, ABC):
             return spsa_grads, None, loss_plus
     ```
     """
-    def __init__(self, defaults: dict[str, Any] | None = None, target: GradTarget = 'closure'):
+    def __init__(self, defaults: dict[str, Any] | None = None, return_approx_loss:bool=False, target: GradTarget = 'closure'):
         super().__init__(defaults)
         self._target: GradTarget = target
+        self._return_approx_loss = return_approx_loss
     @abstractmethod
     def approximate(self, closure: Callable, params: list[torch.Tensor], loss: torch.Tensor | None) -> tuple[Iterable[torch.Tensor], torch.Tensor | None, torch.Tensor | None]:
         """Returns a tuple: ``(grad, loss, loss_approx)``, make sure this resets parameters to their original values!"""
-    def pre_step(self, var: Var) -> None:
+    def pre_step(self, objective: Objective) -> None:
         """This runs once before each step, whereas `approximate` may run multiple times per step if further modules
         evaluate gradients at multiple points. This is useful for example to pre-generate new random perturbations."""
     @torch.no_grad
-    def step(self, var):
-        self.pre_step(var)
+    def update(self, objective):
+        self.pre_step(objective)
-        if var.closure is None: raise RuntimeError("Gradient approximation requires closure")
-        params, closure, loss = var.params, var.closure, var.loss
+        if objective.closure is None: raise RuntimeError("Gradient approximation requires closure")
+        params, closure, loss = objective.params, objective.closure, objective.loss
         if self._target == 'closure':
@@ -88,20 +89,26 @@ class GradApproximator(Module, ABC):
                     # set loss to None because closure might be evaluated at different points
                     grad, l, l_approx = self.approximate(closure=closure, params=params, loss=None)
                     for p, g in zip(params, grad): p.grad = g
-                    return l if l is not None else closure(False)
+                    if l is not None: return l
+                    if self._return_approx_loss and l_approx is not None: return l_approx
+                    return closure(False)
                 return closure(False)
-            var.closure = approx_closure
-            return var
+            objective.closure = approx_closure
+            return
         # if var.grad is not None:
         #     warnings.warn('Using grad approximator when `var.grad` is already set.')
-        grad,loss,loss_approx = self.approximate(closure=closure, params=params, loss=loss)
-        if loss_approx is not None: var.loss_approx = loss_approx
-        if loss is not None: var.loss = var.loss_approx = loss
-        if self._target == 'grad': var.grad = list(grad)
-        elif self._target == 'update': var.update = list(grad)
+        grad, loss, loss_approx = self.approximate(closure=closure, params=params, loss=loss)
+        if loss_approx is not None: objective.loss_approx = loss_approx
+        if loss is not None: objective.loss = objective.loss_approx = loss
+        if self._target == 'grad': objective.grads = list(grad)
+        elif self._target == 'update': objective.updates = list(grad)
         else: raise ValueError(self._target)
-        return var
+        return
+    def apply(self, objective):
+        return objective
 _FD_Formula = Literal['forward', 'forward2', 'backward', 'backward2', 'central', 'central2', 'central3', 'forward3', 'backward3', 'central4', 'forward4', 'forward5', 'bspsa4']

torchzero/modules/grad_approximation/rfdm.py CHANGED Viewed

@@ -174,9 +174,9 @@ class RandomizedFDM(GradApproximator):
     SPSA is randomized FDM with rademacher distribution and central formula.
     ```py
-    spsa = tz.Modular(
+    spsa = tz.Optimizer(
         model.parameters(),
-        tz.m.RandomizedFDM(formula="central", distribution="rademacher"),
+        tz.m.RandomizedFDM(formula="fd_central", distribution="rademacher"),
         tz.m.LR(1e-2)
     )
     ```
@@ -185,9 +185,9 @@ class RandomizedFDM(GradApproximator):
     RDSA is randomized FDM with usually gaussian distribution and central formula.
     ```
-    rdsa = tz.Modular(
+    rdsa = tz.Optimizer(
         model.parameters(),
-        tz.m.RandomizedFDM(formula="central", distribution="gaussian"),
+        tz.m.RandomizedFDM(formula="fd_central", distribution="gaussian"),
         tz.m.LR(1e-2)
     )
     ```
@@ -196,7 +196,7 @@ class RandomizedFDM(GradApproximator):
     GS uses many gaussian samples with possibly a larger finite difference step size.
     ```
-    gs = tz.Modular(
+    gs = tz.Optimizer(
         model.parameters(),
         tz.m.RandomizedFDM(n_samples=100, distribution="gaussian", formula="forward2", h=1e-1),
         tz.m.NewtonCG(hvp_method="forward"),
@@ -208,7 +208,7 @@ class RandomizedFDM(GradApproximator):
     Momentum might help by reducing the variance of the estimated gradients.
     ```
-    momentum_spsa = tz.Modular(
+    momentum_spsa = tz.Optimizer(
         model.parameters(),
         tz.m.RandomizedFDM(),
         tz.m.HeavyBall(0.9),
@@ -223,23 +223,24 @@ class RandomizedFDM(GradApproximator):
         n_samples: int = 1,
         formula: _FD_Formula = "central",
         distribution: Distributions = "rademacher",
-        pre_generate = True,
+        pre_generate: bool = True,
+        return_approx_loss: bool = False,
         seed: int | None | torch.Generator = None,
         target: GradTarget = "closure",
     ):
         defaults = dict(h=h, formula=formula, n_samples=n_samples, distribution=distribution, pre_generate=pre_generate, seed=seed)
-        super().__init__(defaults, target=target)
+        super().__init__(defaults, return_approx_loss=return_approx_loss, target=target)
-    def pre_step(self, var):
-        h = self.get_settings(var.params, 'h')
+    def pre_step(self, objective):
+        h = self.get_settings(objective.params, 'h')
         pre_generate = self.defaults['pre_generate']
         if pre_generate:
             n_samples = self.defaults['n_samples']
             distribution = self.defaults['distribution']
-            params = TensorList(var.params)
+            params = TensorList(objective.params)
             generator = self.get_generator(params[0].device, self.defaults['seed'])
             perturbations = [params.sample_like(distribution=distribution, variance=1, generator=generator) for _ in range(n_samples)]
@@ -346,11 +347,12 @@ class RDSA(RandomizedFDM):
         n_samples: int = 1,
         formula: _FD_Formula = "central2",
         distribution: Distributions = "gaussian",
-        pre_generate = True,
+        pre_generate: bool = True,
+        return_approx_loss: bool = False,
         target: GradTarget = "closure",
         seed: int | None | torch.Generator = None,
     ):
-        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed)
+        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed, return_approx_loss=return_approx_loss)
 class GaussianSmoothing(RandomizedFDM):
     """
@@ -380,11 +382,12 @@ class GaussianSmoothing(RandomizedFDM):
         n_samples: int = 100,
         formula: _FD_Formula = "forward2",
         distribution: Distributions = "gaussian",
-        pre_generate = True,
+        pre_generate: bool = True,
+        return_approx_loss: bool = False,
         target: GradTarget = "closure",
         seed: int | None | torch.Generator = None,
     ):
-        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed)
+        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed, return_approx_loss=return_approx_loss)
 class MeZO(GradApproximator):
     """Gradient approximation via memory-efficient zeroth order optimizer (MeZO) - https://arxiv.org/abs/2305.17333.
@@ -406,10 +409,10 @@ class MeZO(GradApproximator):
     """
     def __init__(self, h: float=1e-3, n_samples: int = 1, formula: _FD_Formula = 'central2',
-                 distribution: Distributions = 'rademacher', target: GradTarget = 'closure'):
+                 distribution: Distributions = 'rademacher', return_approx_loss: bool = False, target: GradTarget = 'closure'):
         defaults = dict(h=h, formula=formula, n_samples=n_samples, distribution=distribution)
-        super().__init__(defaults, target=target)
+        super().__init__(defaults, return_approx_loss=return_approx_loss, target=target)
     def _seeded_perturbation(self, params: list[torch.Tensor], distribution, seed, h):
         prt = TensorList(params).sample_like(
@@ -419,19 +422,19 @@ class MeZO(GradApproximator):
         )
         return prt
-    def pre_step(self, var):
-        h = NumberList(self.settings[p]['h'] for p in var.params)
+    def pre_step(self, objective):
+        h = NumberList(self.settings[p]['h'] for p in objective.params)
         n_samples = self.defaults['n_samples']
         distribution = self.defaults['distribution']
-        step = var.current_step
+        step = objective.current_step
         # create functions that generate a deterministic perturbation from seed based on current step
         prt_fns = []
         for i in range(n_samples):
-            prt_fn = partial(self._seeded_perturbation, params=var.params, distribution=distribution, seed=1_000_000*step + i, h=h)
+            prt_fn = partial(self._seeded_perturbation, params=objective.params, distribution=distribution, seed=1_000_000*step + i, h=h)
             prt_fns.append(prt_fn)
         self.global_state['prt_fns'] = prt_fns

torchzero/modules/least_squares/gn.py CHANGED Viewed

@@ -1,28 +1,31 @@
 import torch
-from ...core import Module
-from ...utils.derivatives import jacobian_wrt, flatten_jacobian
+from ...core import Chainable, Transform
+from ...linalg import linear_operator
 from ...utils import vec_to_tensors
-from ...utils.linalg import linear_operator
-class SumOfSquares(Module):
+from ...utils.derivatives import flatten_jacobian, jacobian_wrt
+class SumOfSquares(Transform):
     """Sets loss to be the sum of squares of values returned by the closure.
     This is meant to be used to test least squares methods against ordinary minimization methods.
     To use this, the closure should return a vector of values to minimize sum of squares of.
-    Please add the `backward` argument, it will always be False but it is required.
+    Please add the ``backward`` argument, it will always be False but it is required.
     """
     def __init__(self):
         super().__init__()
     @torch.no_grad
-    def step(self, var):
-        closure = var.closure
+    def update_states(self, objective, states, settings):
+        closure = objective.closure
         if closure is not None:
             def sos_closure(backward=True):
                 if backward:
-                    var.zero_grad()
+                    objective.zero_grad()
                     with torch.enable_grad():
                         loss = closure(False)
                         loss = loss.pow(2).sum()
@@ -32,18 +35,19 @@ class SumOfSquares(Module):
                 loss = closure(False)
                 return loss.pow(2).sum()
-            var.closure = sos_closure
-        if var.loss is not None:
-            var.loss = var.loss.pow(2).sum()
+            objective.closure = sos_closure
-        if var.loss_approx is not None:
-            var.loss_approx = var.loss_approx.pow(2).sum()
+        if objective.loss is not None:
+            objective.loss = objective.loss.pow(2).sum()
-        return var
+        if objective.loss_approx is not None:
+            objective.loss_approx = objective.loss_approx.pow(2).sum()
+    @torch.no_grad
+    def apply_states(self, objective, states, settings):
+        return objective
-class GaussNewton(Module):
+class GaussNewton(Transform):
     """Gauss-newton method.
     To use this, the closure should return a vector of values to minimize sum of squares of.
@@ -57,6 +61,9 @@ class GaussNewton(Module):
     Args:
         reg (float, optional): regularization parameter. Defaults to 1e-8.
+        update_freq (int, optional):
+            frequency of computing the jacobian. When jacobian is not computed, only residuals are computed and updated.
+            Defaults to 1.
         batched (bool, optional): whether to use vmapping. Defaults to True.
     Examples:
@@ -68,7 +75,7 @@ class GaussNewton(Module):
         return torch.stack([(1 - x1), 100 * (x2 - x1**2)])
     X = torch.tensor([-1.1, 2.5], requires_grad=True)
-    opt = tz.Modular([X], tz.m.GaussNewton(), tz.m.Backtracking())
+    opt = tz.Optimizer([X], tz.m.GaussNewton(), tz.m.Backtracking())
     # define the closure for line search
     def closure(backward=True):
@@ -86,7 +93,7 @@ class GaussNewton(Module):
     y = torch.randn(64, 10)
     model = nn.Sequential(nn.Linear(20, 64), nn.ELU(), nn.Linear(64, 10))
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.TrustCG(tz.m.GaussNewton()),
     )
@@ -101,35 +108,62 @@ class GaussNewton(Module):
             print(f'{losses.mean() = }')
     ```
     """
-    def __init__(self, reg:float = 1e-8, batched:bool=True, ):
-        super().__init__(defaults=dict(batched=batched, reg=reg))
+    def __init__(self, reg:float = 1e-8, update_freq: int= 1, batched:bool=True, inner: Chainable | None = None):
+        defaults=dict(update_freq=update_freq,batched=batched, reg=reg)
+        super().__init__(defaults=defaults)
+        if inner is not None: self.set_child('inner', inner)
     @torch.no_grad
-    def update(self, var):
-        params = var.params
-        batched = self.defaults['batched']
+    def update_states(self, objective, states, settings):
+        fs = settings[0]
+        params = objective.params
+        closure = objective.closure
+        batched = fs['batched']
+        update_freq = fs['update_freq']
+        # compute residuals
+        r = objective.loss
+        if r is None:
+            assert closure is not None
+            with torch.enable_grad():
+                r = objective.get_loss(backward=False) # n_residuals
+                assert isinstance(r, torch.Tensor)
+        # set sum of squares scalar loss and it's gradient to objective
+        objective.loss = r.pow(2).sum()
+        step = self.increment_counter("step", start=0)
+        if step % update_freq == 0:
+            # compute jacobian
+            with torch.enable_grad():
+                J_list = jacobian_wrt([r.ravel()], params, batched=batched)
+            J = self.global_state["J"] = flatten_jacobian(J_list) # (n_residuals, ndim)
-        closure = var.closure
-        assert closure is not None
+        else:
+            J = self.global_state["J"]
-        # gauss newton direction
-        with torch.enable_grad():
-            f = var.get_loss(backward=False) # n_out
-            assert isinstance(f, torch.Tensor)
-            G_list = jacobian_wrt([f.ravel()], params, batched=batched)
+        Jr = J.T @ r.detach() # (ndim)
-        var.loss = f.pow(2).sum()
+        # if there are more residuals, solve (J^T J)x = J^T r, so we need Jr
+        # otherwise solve (J J^T)z = r and set x = J^T z, so we need r
+        n_residuals, ndim = J.shape
+        if n_residuals >= ndim or "inner" in self.children:
+            self.global_state["Jr"] = Jr
-        G = self.global_state["G"] = flatten_jacobian(G_list) # (n_out, ndim)
-        Gtf = G.T @ f.detach() # (ndim)
-        self.global_state["Gtf"] = Gtf
-        var.grad = vec_to_tensors(Gtf, var.params)
+        else:
+            self.global_state["r"] = r
+        objective.grads = vec_to_tensors(Jr, objective.params)
         # set closure to calculate sum of squares for line searches etc
-        if var.closure is not None:
+        if closure is not None:
             def sos_closure(backward=True):
                 if backward:
-                    var.zero_grad()
+                    objective.zero_grad()
                     with torch.enable_grad():
                         loss = closure(False).pow(2).sum()
                         loss.backward()
@@ -138,24 +172,61 @@ class GaussNewton(Module):
                 loss = closure(False).pow(2).sum()
                 return loss
-            var.closure = sos_closure
+            objective.closure = sos_closure
     @torch.no_grad
-    def apply(self, var):
-        reg = self.defaults['reg']
+    def apply_states(self, objective, states, settings):
+        fs = settings[0]
+        reg = fs['reg']
+        J: torch.Tensor = self.global_state['J']
+        nresiduals, ndim = J.shape
+        if nresiduals >= ndim or "inner" in self.children:
+            # (J^T J)v = J^T r
+            Jr: torch.Tensor = self.global_state['Jr']
+            # inner step
+            if "inner" in self.children:
+                # var.grad is set to unflattened Jr
+                assert objective.grads is not None
+                objective = self.inner_step("inner", objective, must_exist=True)
+                Jr_list = objective.get_updates()
+                Jr = torch.cat([t.ravel() for t in Jr_list])
+            JtJ = J.T @ J # (ndim, ndim)
+            if reg != 0:
+                JtJ.add_(torch.eye(JtJ.size(0), device=JtJ.device, dtype=JtJ.dtype).mul_(reg))
+            if nresiduals >= ndim:
+                v, info = torch.linalg.solve_ex(JtJ, Jr) # pylint:disable=not-callable
+            else:
+                v = torch.linalg.lstsq(JtJ, Jr).solution # pylint:disable=not-callable
+            objective.updates = vec_to_tensors(v, objective.params)
+            return objective
+        # else:
+        # solve (J J^T)z = r and set v = J^T z
+        # we need (J^T J)v = J^T r
+        # if z is solution to (G G^T)z = r, and v = J^T z
+        # then (J^T J)v = (J^T J) (J^T z) = J^T (J J^T) z = J^T r
+        # therefore (J^T J)v = J^T r
+        # also this gives a minimum norm solution
-        G = self.global_state['G']
-        Gtf = self.global_state['Gtf']
+        r = self.global_state['r']
-        GtG = G.T @ G # (ndim, ndim)
+        JJT = J @ J.T # (nresiduals, nresiduals)
         if reg != 0:
-            GtG.add_(torch.eye(GtG.size(0), device=GtG.device, dtype=GtG.dtype).mul_(reg))
+            JJT.add_(torch.eye(JJT.size(0), device=JJT.device, dtype=JJT.dtype).mul_(reg))
-        v = torch.linalg.lstsq(GtG, Gtf).solution # pylint:disable=not-callable
+        z, info = torch.linalg.solve_ex(JJT, r) # pylint:disable=not-callable
+        v = J.T @ z
-        var.update = vec_to_tensors(v, var.params)
-        return var
+        objective.updates = vec_to_tensors(v, objective.params)
+        return objective
-    def get_H(self, var):
-        G = self.global_state['G']
-        return linear_operator.AtA(G)
+    def get_H(self, objective=...):
+        J = self.global_state['J']
+        return linear_operator.AtA(J)

torchzero/modules/line_search/backtracking.py CHANGED Viewed

@@ -77,7 +77,7 @@ class Backtracking(LineSearchBase):
     Gradient descent with backtracking line search:
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.Backtracking()
     )
@@ -85,7 +85,7 @@ class Backtracking(LineSearchBase):
     L-BFGS with backtracking line search:
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LBFGS(),
         tz.m.Backtracking()
@@ -117,7 +117,7 @@ class Backtracking(LineSearchBase):
         # # directional derivative
         if c == 0: d = 0
-        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grad(), var.get_update()))
+        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grads(), var.get_updates()))
         # scale init
         init_scale = self.global_state.get('init_scale', 1)
@@ -199,7 +199,7 @@ class AdaptiveBacktracking(LineSearchBase):
         # directional derivative (0 if c = 0 because it is not needed)
         if c == 0: d = 0
-        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grad(), update))
+        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grads(), update))
         # scale beta
         beta = beta * self.global_state['beta_scale']

torchzero 0.3.15__py3-none-any.whl → 0.4.1__py3-none-any.whl

torchzero 0.3.15py3-none-any.whl → 0.4.1py3-none-any.whl