PyPI - torchzero - Versions diffs - 0.3.15__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

torchzero 0.3.15py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (163) hide show

tests/test_identical.py +2 -2
tests/test_module_autograd.py +586 -0
tests/test_objective.py +188 -0
tests/test_opts.py +43 -33
tests/test_tensorlist.py +0 -8
tests/test_utils_optimizer.py +0 -1
torchzero/__init__.py +1 -1
torchzero/core/__init__.py +7 -4
torchzero/core/chain.py +20 -23
torchzero/core/functional.py +90 -24
torchzero/core/modular.py +48 -52
torchzero/core/module.py +130 -50
torchzero/core/objective.py +948 -0
torchzero/core/reformulation.py +55 -24
torchzero/core/transform.py +261 -367
torchzero/linalg/__init__.py +10 -0
torchzero/linalg/eigh.py +34 -0
torchzero/linalg/linalg_utils.py +14 -0
torchzero/{utils/linalg → linalg}/linear_operator.py +99 -49
torchzero/linalg/matrix_power.py +28 -0
torchzero/linalg/orthogonalize.py +95 -0
torchzero/{utils/linalg → linalg}/qr.py +4 -2
torchzero/{utils/linalg → linalg}/solve.py +76 -88
torchzero/linalg/svd.py +20 -0
torchzero/linalg/torch_linalg.py +168 -0
torchzero/modules/adaptive/__init__.py +1 -1
torchzero/modules/adaptive/adagrad.py +163 -213
torchzero/modules/adaptive/adahessian.py +74 -103
torchzero/modules/adaptive/adam.py +53 -76
torchzero/modules/adaptive/adan.py +49 -30
torchzero/modules/adaptive/adaptive_heavyball.py +11 -6
torchzero/modules/adaptive/aegd.py +12 -12
torchzero/modules/adaptive/esgd.py +98 -119
torchzero/modules/adaptive/lion.py +5 -10
torchzero/modules/adaptive/lmadagrad.py +87 -32
torchzero/modules/adaptive/mars.py +5 -5
torchzero/modules/adaptive/matrix_momentum.py +47 -51
torchzero/modules/adaptive/msam.py +70 -52
torchzero/modules/adaptive/muon.py +59 -124
torchzero/modules/adaptive/natural_gradient.py +33 -28
torchzero/modules/adaptive/orthograd.py +11 -15
torchzero/modules/adaptive/rmsprop.py +83 -75
torchzero/modules/adaptive/rprop.py +48 -47
torchzero/modules/adaptive/sam.py +55 -45
torchzero/modules/adaptive/shampoo.py +123 -129
torchzero/modules/adaptive/soap.py +207 -143
torchzero/modules/adaptive/sophia_h.py +106 -130
torchzero/modules/clipping/clipping.py +15 -18
torchzero/modules/clipping/ema_clipping.py +31 -25
torchzero/modules/clipping/growth_clipping.py +14 -17
torchzero/modules/conjugate_gradient/cg.py +26 -37
torchzero/modules/experimental/__init__.py +2 -6
torchzero/modules/experimental/coordinate_momentum.py +36 -0
torchzero/modules/experimental/curveball.py +25 -41
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/higher_order_newton.py +14 -40
torchzero/modules/experimental/newton_solver.py +22 -53
torchzero/modules/experimental/newtonnewton.py +15 -12
torchzero/modules/experimental/reduce_outward_lr.py +7 -7
torchzero/modules/experimental/scipy_newton_cg.py +21 -24
torchzero/modules/experimental/spsa1.py +3 -3
torchzero/modules/experimental/structural_projections.py +1 -4
torchzero/modules/functional.py +1 -1
torchzero/modules/grad_approximation/forward_gradient.py +7 -7
torchzero/modules/grad_approximation/grad_approximator.py +23 -16
torchzero/modules/grad_approximation/rfdm.py +20 -17
torchzero/modules/least_squares/gn.py +90 -42
torchzero/modules/line_search/backtracking.py +2 -2
torchzero/modules/line_search/line_search.py +32 -32
torchzero/modules/line_search/strong_wolfe.py +2 -2
torchzero/modules/misc/debug.py +12 -12
torchzero/modules/misc/escape.py +10 -10
torchzero/modules/misc/gradient_accumulation.py +10 -78
torchzero/modules/misc/homotopy.py +16 -8
torchzero/modules/misc/misc.py +120 -122
torchzero/modules/misc/multistep.py +50 -48
torchzero/modules/misc/regularization.py +49 -44
torchzero/modules/misc/split.py +30 -28
torchzero/modules/misc/switch.py +37 -32
torchzero/modules/momentum/averaging.py +14 -14
torchzero/modules/momentum/cautious.py +34 -28
torchzero/modules/momentum/momentum.py +11 -11
torchzero/modules/ops/__init__.py +4 -4
torchzero/modules/ops/accumulate.py +21 -21
torchzero/modules/ops/binary.py +67 -66
torchzero/modules/ops/higher_level.py +19 -19
torchzero/modules/ops/multi.py +44 -41
torchzero/modules/ops/reduce.py +26 -23
torchzero/modules/ops/unary.py +53 -53
torchzero/modules/ops/utility.py +47 -46
torchzero/modules/projections/galore.py +1 -1
torchzero/modules/projections/projection.py +43 -43
torchzero/modules/quasi_newton/damping.py +1 -1
torchzero/modules/quasi_newton/lbfgs.py +7 -7
torchzero/modules/quasi_newton/lsr1.py +7 -7
torchzero/modules/quasi_newton/quasi_newton.py +10 -10
torchzero/modules/quasi_newton/sg2.py +19 -19
torchzero/modules/restarts/restars.py +26 -24
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/ifn.py +31 -62
torchzero/modules/second_order/inm.py +49 -53
torchzero/modules/second_order/multipoint.py +40 -80
torchzero/modules/second_order/newton.py +57 -90
torchzero/modules/second_order/newton_cg.py +102 -154
torchzero/modules/second_order/nystrom.py +157 -177
torchzero/modules/second_order/rsn.py +106 -96
torchzero/modules/smoothing/laplacian.py +13 -12
torchzero/modules/smoothing/sampling.py +11 -10
torchzero/modules/step_size/adaptive.py +23 -23
torchzero/modules/step_size/lr.py +15 -15
torchzero/modules/termination/termination.py +32 -30
torchzero/modules/trust_region/cubic_regularization.py +2 -2
torchzero/modules/trust_region/levenberg_marquardt.py +25 -28
torchzero/modules/trust_region/trust_cg.py +1 -1
torchzero/modules/trust_region/trust_region.py +27 -22
torchzero/modules/variance_reduction/svrg.py +21 -18
torchzero/modules/weight_decay/__init__.py +2 -1
torchzero/modules/weight_decay/reinit.py +83 -0
torchzero/modules/weight_decay/weight_decay.py +12 -13
torchzero/modules/wrappers/optim_wrapper.py +10 -10
torchzero/modules/zeroth_order/cd.py +9 -6
torchzero/optim/root.py +3 -3
torchzero/optim/utility/split.py +2 -1
torchzero/optim/wrappers/directsearch.py +27 -63
torchzero/optim/wrappers/fcmaes.py +14 -35
torchzero/optim/wrappers/mads.py +11 -31
torchzero/optim/wrappers/moors.py +66 -0
torchzero/optim/wrappers/nevergrad.py +4 -4
torchzero/optim/wrappers/nlopt.py +31 -25
torchzero/optim/wrappers/optuna.py +6 -13
torchzero/optim/wrappers/pybobyqa.py +124 -0
torchzero/optim/wrappers/scipy/__init__.py +7 -0
torchzero/optim/wrappers/scipy/basin_hopping.py +117 -0
torchzero/optim/wrappers/scipy/brute.py +48 -0
torchzero/optim/wrappers/scipy/differential_evolution.py +80 -0
torchzero/optim/wrappers/scipy/direct.py +69 -0
torchzero/optim/wrappers/scipy/dual_annealing.py +115 -0
torchzero/optim/wrappers/scipy/experimental.py +141 -0
torchzero/optim/wrappers/scipy/minimize.py +151 -0
torchzero/optim/wrappers/scipy/sgho.py +111 -0
torchzero/optim/wrappers/wrapper.py +121 -0
torchzero/utils/__init__.py +7 -25
torchzero/utils/compile.py +2 -2
torchzero/utils/derivatives.py +93 -69
torchzero/utils/optimizer.py +4 -77
torchzero/utils/python_tools.py +31 -0
torchzero/utils/tensorlist.py +11 -5
torchzero/utils/thoad_tools.py +68 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.0.dist-info}/METADATA +1 -1
torchzero-0.4.0.dist-info/RECORD +191 -0
tests/test_vars.py +0 -185
torchzero/core/var.py +0 -376
torchzero/modules/experimental/momentum.py +0 -160
torchzero/optim/wrappers/scipy.py +0 -572
torchzero/utils/linalg/__init__.py +0 -12
torchzero/utils/linalg/matrix_funcs.py +0 -87
torchzero/utils/linalg/orthogonalize.py +0 -12
torchzero/utils/linalg/svd.py +0 -20
torchzero/utils/ops.py +0 -10
torchzero-0.3.15.dist-info/RECORD +0 -175
/torchzero/{utils/linalg → linalg}/benchmark.py +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.0.dist-info}/WHEEL +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.0.dist-info}/top_level.txt +0 -0

torchzero/modules/experimental/scipy_newton_cg.py CHANGED Viewed

@@ -3,10 +3,9 @@ from typing import Literal, overload
 import torch
 from scipy.sparse.linalg import LinearOperator, gcrotmk
-from ...core import Chainable, Module, apply_transform
-from ...utils import NumberList, TensorList, as_tensorlist, generic_vector_norm, vec_to_tensors
-from ...utils.derivatives import hvp, hvp_fd_central, hvp_fd_forward
-from ...utils.linalg.solve import cg, minres
+from ...core import Chainable, Module, step
+from ...utils import TensorList, vec_to_tensors
+from ...utils.derivatives import hvp_fd_central, hvp_fd_forward
 class ScipyNewtonCG(Module):
@@ -14,7 +13,7 @@ class ScipyNewtonCG(Module):
     def __init__(
         self,
         solver = gcrotmk,
-        hvp_method: Literal["forward", "central", "autograd"] = "autograd",
+        hvp_method: Literal["fd_forward", "fd_central", "autograd"] = "autograd",
         h: float = 1e-3,
         warm_start=False,
         inner: Chainable | None = None,
@@ -33,47 +32,47 @@ class ScipyNewtonCG(Module):
         self._kwargs = kwargs
     @torch.no_grad
-    def step(self, var):
-        params = TensorList(var.params)
-        closure = var.closure
+    def apply(self, objective):
+        params = TensorList(objective.params)
+        closure = objective.closure
         if closure is None: raise RuntimeError('NewtonCG requires closure')
-        settings = self.settings[params[0]]
-        hvp_method = settings['hvp_method']
-        solver = settings['solver']
-        h = settings['h']
-        warm_start = settings['warm_start']
+        fs = self.settings[params[0]]
+        hvp_method = fs['hvp_method']
+        solver = fs['solver']
+        h = fs['h']
+        warm_start = fs['warm_start']
         self._num_hvps_last_step = 0
         # ---------------------- Hessian vector product function --------------------- #
         device = params[0].device; dtype=params[0].dtype
         if hvp_method == 'autograd':
-            grad = var.get_grad(create_graph=True)
+            grad = objective.get_grads(create_graph=True)
             def H_mm(x_np):
                 self._num_hvps_last_step += 1
                 x = vec_to_tensors(torch.as_tensor(x_np, device=device, dtype=dtype), grad)
                 with torch.enable_grad():
-                    Hvp = TensorList(hvp(params, grad, x, retain_graph=True))
+                    Hvp = TensorList(torch.autograd.grad(grad, params, x, retain_graph=True))
                 return torch.cat([t.ravel() for t in Hvp]).numpy(force=True)
         else:
             with torch.enable_grad():
-                grad = var.get_grad()
+                grad = objective.get_grads()
             if hvp_method == 'forward':
                 def H_mm(x_np):
                     self._num_hvps_last_step += 1
                     x = vec_to_tensors(torch.as_tensor(x_np, device=device, dtype=dtype), grad)
-                    Hvp = TensorList(hvp_fd_forward(closure, params, x, h=h, g_0=grad, normalize=True)[1])
+                    Hvp = TensorList(hvp_fd_forward(closure, params, x, h=h, g_0=grad)[1])
                     return torch.cat([t.ravel() for t in Hvp]).numpy(force=True)
             elif hvp_method == 'central':
                 def H_mm(x_np):
                     self._num_hvps_last_step += 1
                     x = vec_to_tensors(torch.as_tensor(x_np, device=device, dtype=dtype), grad)
-                    Hvp = TensorList(hvp_fd_central(closure, params, x, h=h, normalize=True)[1])
+                    Hvp = TensorList(hvp_fd_central(closure, params, x, h=h)[1])
                     return torch.cat([t.ravel() for t in Hvp]).numpy(force=True)
             else:
@@ -83,10 +82,8 @@ class ScipyNewtonCG(Module):
         H = LinearOperator(shape=(ndim,ndim), matvec=H_mm, rmatvec=H_mm) # type:ignore
         # -------------------------------- inner step -------------------------------- #
-        b = var.get_update()
-        if 'inner' in self.children:
-            b = apply_transform(self.children['inner'], b, params=params, grads=grad, var=var)
-        b = as_tensorlist(b)
+        objective = self.inner_step("inner", objective, must_exist=False)
+        b = TensorList(objective.get_updates())
         # ---------------------------------- run cg ---------------------------------- #
         x0 = None
@@ -98,8 +95,8 @@ class ScipyNewtonCG(Module):
         if warm_start:
             self.global_state['x_prev'] = x_np
-        var.update = vec_to_tensors(torch.as_tensor(x_np, device=device, dtype=dtype), params)
+        objective.updates = vec_to_tensors(torch.as_tensor(x_np, device=device, dtype=dtype), params)
         self._num_hvps += self._num_hvps_last_step
-        return var
+        return objective

torchzero/modules/experimental/spsa1.py CHANGED Viewed

@@ -38,15 +38,15 @@ class SPSA1(GradApproximator):
         super().__init__(defaults, target=target)
-    def pre_step(self, var):
+    def pre_step(self, objective):
         if self.defaults['pre_generate']:
-            params = TensorList(var.params)
+            params = TensorList(objective.params)
             generator = self.get_generator(params[0].device, self.defaults['seed'])
             n_samples = self.defaults['n_samples']
-            h = self.get_settings(var.params, 'h')
+            h = self.get_settings(objective.params, 'h')
             perturbations = [params.rademacher_like(generator=generator) for _ in range(n_samples)]
             torch._foreach_mul_([p for l in perturbations for p in l], [v for vv in h for v in [vv]*n_samples])

torchzero/modules/experimental/structural_projections.py CHANGED Viewed

@@ -1,11 +1,8 @@
 import math
-import numpy as np
 import torch
 from ...core import Chainable
-from ...utils import vec_to_tensors, TensorList
-from ..adaptive.shampoo import _merge_small_dims
+from ...utils import vec_to_tensors
 from ..projections import ProjectionBase

torchzero/modules/functional.py CHANGED Viewed

@@ -30,7 +30,7 @@ def debiased_step_size(
     pow: float = 2,
     alpha: float | NumberList = 1,
 ):
-    """returns multiplier to step size"""
+    """returns multiplier to step size, step starts from 1"""
     if isinstance(beta1, NumberList): beta1 = beta1.fill_none(0)
     if isinstance(beta2, NumberList): beta2 = beta2.fill_none(0)

torchzero/modules/grad_approximation/forward_gradient.py CHANGED Viewed

@@ -52,11 +52,11 @@ class ForwardGradient(RandomizedFDM):
         params = TensorList(params)
         loss_approx = None
-        settings = self.settings[params[0]]
-        n_samples = settings['n_samples']
-        jvp_method = settings['jvp_method']
-        h = settings['h']
-        distribution = settings['distribution']
+        fs = self.settings[params[0]]
+        n_samples = fs['n_samples']
+        jvp_method = fs['jvp_method']
+        h = fs['h']
+        distribution = fs['distribution']
         default = [None]*n_samples
         perturbations = list(zip(*(self.state[p].get('perturbations', default) for p in params)))
         generator = self.get_generator(params[0].device, self.defaults['seed'])
@@ -74,10 +74,10 @@ class ForwardGradient(RandomizedFDM):
                     loss, d = jvp(partial(closure, False), params=params, tangent=prt)
             elif jvp_method == 'forward':
-                loss, d = jvp_fd_forward(partial(closure, False), params=params, tangent=prt, v_0=loss, normalize=True, h=h)
+                loss, d = jvp_fd_forward(partial(closure, False), params=params, tangent=prt, v_0=loss, h=h)
             elif jvp_method == 'central':
-                loss_approx, d = jvp_fd_central(partial(closure, False), params=params, tangent=prt, normalize=True, h=h)
+                loss_approx, d = jvp_fd_central(partial(closure, False), params=params, tangent=prt, h=h)
             else: raise ValueError(jvp_method)

torchzero/modules/grad_approximation/grad_approximator.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import Any, Literal
 import torch
-from ...core import Module, Var
+from ...core import Module, Objective
 GradTarget = Literal['update', 'grad', 'closure']
 _Scalar = torch.Tensor | float
@@ -62,24 +62,25 @@ class GradApproximator(Module, ABC):
             return spsa_grads, None, loss_plus
     ```
     """
-    def __init__(self, defaults: dict[str, Any] | None = None, target: GradTarget = 'closure'):
+    def __init__(self, defaults: dict[str, Any] | None = None, return_approx_loss:bool=False, target: GradTarget = 'closure'):
         super().__init__(defaults)
         self._target: GradTarget = target
+        self._return_approx_loss = return_approx_loss
     @abstractmethod
     def approximate(self, closure: Callable, params: list[torch.Tensor], loss: torch.Tensor | None) -> tuple[Iterable[torch.Tensor], torch.Tensor | None, torch.Tensor | None]:
         """Returns a tuple: ``(grad, loss, loss_approx)``, make sure this resets parameters to their original values!"""
-    def pre_step(self, var: Var) -> None:
+    def pre_step(self, objective: Objective) -> None:
         """This runs once before each step, whereas `approximate` may run multiple times per step if further modules
         evaluate gradients at multiple points. This is useful for example to pre-generate new random perturbations."""
     @torch.no_grad
-    def step(self, var):
-        self.pre_step(var)
+    def update(self, objective):
+        self.pre_step(objective)
-        if var.closure is None: raise RuntimeError("Gradient approximation requires closure")
-        params, closure, loss = var.params, var.closure, var.loss
+        if objective.closure is None: raise RuntimeError("Gradient approximation requires closure")
+        params, closure, loss = objective.params, objective.closure, objective.loss
         if self._target == 'closure':
@@ -88,20 +89,26 @@ class GradApproximator(Module, ABC):
                     # set loss to None because closure might be evaluated at different points
                     grad, l, l_approx = self.approximate(closure=closure, params=params, loss=None)
                     for p, g in zip(params, grad): p.grad = g
-                    return l if l is not None else closure(False)
+                    if l is not None: return l
+                    if self._return_approx_loss and l_approx is not None: return l_approx
+                    return closure(False)
                 return closure(False)
-            var.closure = approx_closure
-            return var
+            objective.closure = approx_closure
+            return
         # if var.grad is not None:
         #     warnings.warn('Using grad approximator when `var.grad` is already set.')
-        grad,loss,loss_approx = self.approximate(closure=closure, params=params, loss=loss)
-        if loss_approx is not None: var.loss_approx = loss_approx
-        if loss is not None: var.loss = var.loss_approx = loss
-        if self._target == 'grad': var.grad = list(grad)
-        elif self._target == 'update': var.update = list(grad)
+        grad, loss, loss_approx = self.approximate(closure=closure, params=params, loss=loss)
+        if loss_approx is not None: objective.loss_approx = loss_approx
+        if loss is not None: objective.loss = objective.loss_approx = loss
+        if self._target == 'grad': objective.grads = list(grad)
+        elif self._target == 'update': objective.updates = list(grad)
         else: raise ValueError(self._target)
-        return var
+        return
+    def apply(self, objective):
+        return objective
 _FD_Formula = Literal['forward', 'forward2', 'backward', 'backward2', 'central', 'central2', 'central3', 'forward3', 'backward3', 'central4', 'forward4', 'forward5', 'bspsa4']

torchzero/modules/grad_approximation/rfdm.py CHANGED Viewed

@@ -176,7 +176,7 @@ class RandomizedFDM(GradApproximator):
     ```py
     spsa = tz.Modular(
         model.parameters(),
-        tz.m.RandomizedFDM(formula="central", distribution="rademacher"),
+        tz.m.RandomizedFDM(formula="fd_central", distribution="rademacher"),
         tz.m.LR(1e-2)
     )
     ```
@@ -187,7 +187,7 @@ class RandomizedFDM(GradApproximator):
     ```
     rdsa = tz.Modular(
         model.parameters(),
-        tz.m.RandomizedFDM(formula="central", distribution="gaussian"),
+        tz.m.RandomizedFDM(formula="fd_central", distribution="gaussian"),
         tz.m.LR(1e-2)
     )
     ```
@@ -223,23 +223,24 @@ class RandomizedFDM(GradApproximator):
         n_samples: int = 1,
         formula: _FD_Formula = "central",
         distribution: Distributions = "rademacher",
-        pre_generate = True,
+        pre_generate: bool = True,
+        return_approx_loss: bool = False,
         seed: int | None | torch.Generator = None,
         target: GradTarget = "closure",
     ):
         defaults = dict(h=h, formula=formula, n_samples=n_samples, distribution=distribution, pre_generate=pre_generate, seed=seed)
-        super().__init__(defaults, target=target)
+        super().__init__(defaults, return_approx_loss=return_approx_loss, target=target)
-    def pre_step(self, var):
-        h = self.get_settings(var.params, 'h')
+    def pre_step(self, objective):
+        h = self.get_settings(objective.params, 'h')
         pre_generate = self.defaults['pre_generate']
         if pre_generate:
             n_samples = self.defaults['n_samples']
             distribution = self.defaults['distribution']
-            params = TensorList(var.params)
+            params = TensorList(objective.params)
             generator = self.get_generator(params[0].device, self.defaults['seed'])
             perturbations = [params.sample_like(distribution=distribution, variance=1, generator=generator) for _ in range(n_samples)]
@@ -346,11 +347,12 @@ class RDSA(RandomizedFDM):
         n_samples: int = 1,
         formula: _FD_Formula = "central2",
         distribution: Distributions = "gaussian",
-        pre_generate = True,
+        pre_generate: bool = True,
+        return_approx_loss: bool = False,
         target: GradTarget = "closure",
         seed: int | None | torch.Generator = None,
     ):
-        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed)
+        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed, return_approx_loss=return_approx_loss)
 class GaussianSmoothing(RandomizedFDM):
     """
@@ -380,11 +382,12 @@ class GaussianSmoothing(RandomizedFDM):
         n_samples: int = 100,
         formula: _FD_Formula = "forward2",
         distribution: Distributions = "gaussian",
-        pre_generate = True,
+        pre_generate: bool = True,
+        return_approx_loss: bool = False,
         target: GradTarget = "closure",
         seed: int | None | torch.Generator = None,
     ):
-        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed)
+        super().__init__(h=h, n_samples=n_samples,formula=formula,distribution=distribution,pre_generate=pre_generate,target=target,seed=seed, return_approx_loss=return_approx_loss)
 class MeZO(GradApproximator):
     """Gradient approximation via memory-efficient zeroth order optimizer (MeZO) - https://arxiv.org/abs/2305.17333.
@@ -406,10 +409,10 @@ class MeZO(GradApproximator):
     """
     def __init__(self, h: float=1e-3, n_samples: int = 1, formula: _FD_Formula = 'central2',
-                 distribution: Distributions = 'rademacher', target: GradTarget = 'closure'):
+                 distribution: Distributions = 'rademacher', return_approx_loss: bool = False, target: GradTarget = 'closure'):
         defaults = dict(h=h, formula=formula, n_samples=n_samples, distribution=distribution)
-        super().__init__(defaults, target=target)
+        super().__init__(defaults, return_approx_loss=return_approx_loss, target=target)
     def _seeded_perturbation(self, params: list[torch.Tensor], distribution, seed, h):
         prt = TensorList(params).sample_like(
@@ -419,19 +422,19 @@ class MeZO(GradApproximator):
         )
         return prt
-    def pre_step(self, var):
-        h = NumberList(self.settings[p]['h'] for p in var.params)
+    def pre_step(self, objective):
+        h = NumberList(self.settings[p]['h'] for p in objective.params)
         n_samples = self.defaults['n_samples']
         distribution = self.defaults['distribution']
-        step = var.current_step
+        step = objective.current_step
         # create functions that generate a deterministic perturbation from seed based on current step
         prt_fns = []
         for i in range(n_samples):
-            prt_fn = partial(self._seeded_perturbation, params=var.params, distribution=distribution, seed=1_000_000*step + i, h=h)
+            prt_fn = partial(self._seeded_perturbation, params=objective.params, distribution=distribution, seed=1_000_000*step + i, h=h)
             prt_fns.append(prt_fn)
         self.global_state['prt_fns'] = prt_fns

torchzero/modules/least_squares/gn.py CHANGED Viewed

@@ -1,28 +1,31 @@
 import torch
-from ...core import Module
-from ...utils.derivatives import jacobian_wrt, flatten_jacobian
+from ...core import Chainable, Module, step
+from ...linalg import linear_operator
 from ...utils import vec_to_tensors
-from ...utils.linalg import linear_operator
+from ...utils.derivatives import flatten_jacobian, jacobian_wrt
 class SumOfSquares(Module):
     """Sets loss to be the sum of squares of values returned by the closure.
     This is meant to be used to test least squares methods against ordinary minimization methods.
     To use this, the closure should return a vector of values to minimize sum of squares of.
-    Please add the `backward` argument, it will always be False but it is required.
+    Please add the ``backward`` argument, it will always be False but it is required.
     """
     def __init__(self):
         super().__init__()
     @torch.no_grad
-    def step(self, var):
-        closure = var.closure
+    def update(self, objective):
+        closure = objective.closure
         if closure is not None:
             def sos_closure(backward=True):
                 if backward:
-                    var.zero_grad()
+                    objective.zero_grad()
                     with torch.enable_grad():
                         loss = closure(False)
                         loss = loss.pow(2).sum()
@@ -32,16 +35,13 @@ class SumOfSquares(Module):
                 loss = closure(False)
                 return loss.pow(2).sum()
-            var.closure = sos_closure
-        if var.loss is not None:
-            var.loss = var.loss.pow(2).sum()
+            objective.closure = sos_closure
-        if var.loss_approx is not None:
-            var.loss_approx = var.loss_approx.pow(2).sum()
-        return var
+        if objective.loss is not None:
+            objective.loss = objective.loss.pow(2).sum()
+        if objective.loss_approx is not None:
+            objective.loss_approx = objective.loss_approx.pow(2).sum()
 class GaussNewton(Module):
     """Gauss-newton method.
@@ -101,35 +101,45 @@ class GaussNewton(Module):
             print(f'{losses.mean() = }')
     ```
     """
-    def __init__(self, reg:float = 1e-8, batched:bool=True, ):
+    def __init__(self, reg:float = 1e-8, batched:bool=True, inner: Chainable | None = None):
         super().__init__(defaults=dict(batched=batched, reg=reg))
+        if inner is not None: self.set_child('inner', inner)
     @torch.no_grad
-    def update(self, var):
-        params = var.params
+    def update(self, objective):
+        params = objective.params
         batched = self.defaults['batched']
-        closure = var.closure
+        closure = objective.closure
         assert closure is not None
         # gauss newton direction
         with torch.enable_grad():
-            f = var.get_loss(backward=False) # n_out
-            assert isinstance(f, torch.Tensor)
-            G_list = jacobian_wrt([f.ravel()], params, batched=batched)
+            r = objective.get_loss(backward=False) # nresiduals
+            assert isinstance(r, torch.Tensor)
+            J_list = jacobian_wrt([r.ravel()], params, batched=batched)
+        objective.loss = r.pow(2).sum()
+        J = self.global_state["J"] = flatten_jacobian(J_list) # (nresiduals, ndim)
+        Jr = J.T @ r.detach() # (ndim)
+        # if there are more residuals, solve (J^T J)x = J^T r, so we need Jr
+        # otherwise solve (J J^T)z = r and set x = J^T z, so we need r
+        nresiduals, ndim = J.shape
+        if nresiduals >= ndim or "inner" in self.children:
+            self.global_state["Jr"] = Jr
-        var.loss = f.pow(2).sum()
+        else:
+            self.global_state["r"] = r
-        G = self.global_state["G"] = flatten_jacobian(G_list) # (n_out, ndim)
-        Gtf = G.T @ f.detach() # (ndim)
-        self.global_state["Gtf"] = Gtf
-        var.grad = vec_to_tensors(Gtf, var.params)
+        objective.grads = vec_to_tensors(Jr, objective.params)
         # set closure to calculate sum of squares for line searches etc
-        if var.closure is not None:
+        if objective.closure is not None:
             def sos_closure(backward=True):
                 if backward:
-                    var.zero_grad()
+                    objective.zero_grad()
                     with torch.enable_grad():
                         loss = closure(False).pow(2).sum()
                         loss.backward()
@@ -138,24 +148,62 @@ class GaussNewton(Module):
                 loss = closure(False).pow(2).sum()
                 return loss
-            var.closure = sos_closure
+            objective.closure = sos_closure
     @torch.no_grad
-    def apply(self, var):
+    def apply(self, objective):
         reg = self.defaults['reg']
-        G = self.global_state['G']
-        Gtf = self.global_state['Gtf']
+        J: torch.Tensor = self.global_state['J']
+        nresiduals, ndim = J.shape
+        if nresiduals >= ndim or "inner" in self.children:
+            # (J^T J)v = J^T r
+            Jr: torch.Tensor = self.global_state['Jr']
+            # inner step
+            if "inner" in self.children:
+                # var.grad is set to unflattened Jr
+                assert objective.grads is not None
+                objective = self.inner_step("inner", objective, must_exist=True)
+                Jr_list = objective.get_updates()
+                Jr = torch.cat([t.ravel() for t in Jr_list])
+            JJ = J.T @ J # (ndim, ndim)
+            if reg != 0:
+                JJ.add_(torch.eye(JJ.size(0), device=JJ.device, dtype=JJ.dtype).mul_(reg))
+            if nresiduals >= ndim:
+                v, info = torch.linalg.solve_ex(JJ, Jr) # pylint:disable=not-callable
+            else:
+                v = torch.linalg.lstsq(JJ, Jr).solution # pylint:disable=not-callable
+            objective.updates = vec_to_tensors(v, objective.params)
+            return objective
+        else:
+            # solve (J J^T)z = r and set v = J^T z
+            # derivation
+            # we need (J^T J)v = J^T r
+            # suppose z is solution to (G G^T)z = r, and v = J^T z
+            # if v = J^T z, then (J^T J)v = (J^T J) (J^T z) = J^T (J J^T) z = J^T r
+            # therefore with our presuppositions (J^T J)v = J^T r
+            # also this gives a minimum norm solution
+            r = self.global_state['r']
-        GtG = G.T @ G # (ndim, ndim)
-        if reg != 0:
-            GtG.add_(torch.eye(GtG.size(0), device=GtG.device, dtype=GtG.dtype).mul_(reg))
+            JJT = J @ J.T # (nresiduals, nresiduals)
+            if reg != 0:
+                JJT.add_(torch.eye(JJT.size(0), device=JJT.device, dtype=JJT.dtype).mul_(reg))
-        v = torch.linalg.lstsq(GtG, Gtf).solution # pylint:disable=not-callable
+            z, info = torch.linalg.solve_ex(JJT, r) # pylint:disable=not-callable
+            v = J.T @ z
-        var.update = vec_to_tensors(v, var.params)
-        return var
+            objective.updates = vec_to_tensors(v, objective.params)
+            return objective
-    def get_H(self, var):
-        G = self.global_state['G']
-        return linear_operator.AtA(G)
+    def get_H(self, objective=...):
+        J = self.global_state['J']
+        return linear_operator.AtA(J)

torchzero/modules/line_search/backtracking.py CHANGED Viewed

@@ -117,7 +117,7 @@ class Backtracking(LineSearchBase):
         # # directional derivative
         if c == 0: d = 0
-        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grad(), var.get_update()))
+        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grads(), var.get_updates()))
         # scale init
         init_scale = self.global_state.get('init_scale', 1)
@@ -199,7 +199,7 @@ class AdaptiveBacktracking(LineSearchBase):
         # directional derivative (0 if c = 0 because it is not needed)
         if c == 0: d = 0
-        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grad(), update))
+        else: d = -sum(t.sum() for t in torch._foreach_mul(var.get_grads(), update))
         # scale beta
         beta = beta * self.global_state['beta_scale']

torchzero 0.3.15__py3-none-any.whl → 0.4.0__py3-none-any.whl

torchzero 0.3.15py3-none-any.whl → 0.4.0py3-none-any.whl