PyPI - torchzero - Versions diffs - 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl - Mend

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (153) hide show

docs/source/conf.py +6 -4
docs/source/docstring template.py +46 -0
tests/test_identical.py +2 -3
tests/test_opts.py +115 -68
tests/test_tensorlist.py +2 -2
tests/test_vars.py +62 -61
torchzero/core/__init__.py +2 -3
torchzero/core/module.py +185 -53
torchzero/core/transform.py +327 -159
torchzero/modules/__init__.py +3 -1
torchzero/modules/clipping/clipping.py +120 -23
torchzero/modules/clipping/ema_clipping.py +37 -22
torchzero/modules/clipping/growth_clipping.py +20 -21
torchzero/modules/experimental/__init__.py +30 -4
torchzero/modules/experimental/absoap.py +53 -156
torchzero/modules/experimental/adadam.py +22 -15
torchzero/modules/experimental/adamY.py +21 -25
torchzero/modules/experimental/adam_lambertw.py +149 -0
torchzero/modules/{line_search/trust_region.py → experimental/adaptive_step_size.py} +37 -8
torchzero/modules/experimental/adasoap.py +24 -129
torchzero/modules/experimental/cosine.py +214 -0
torchzero/modules/experimental/cubic_adam.py +97 -0
torchzero/modules/experimental/curveball.py +12 -12
torchzero/modules/{projections → experimental}/dct.py +11 -11
torchzero/modules/experimental/eigendescent.py +120 -0
torchzero/modules/experimental/etf.py +195 -0
torchzero/modules/experimental/exp_adam.py +113 -0
torchzero/modules/experimental/expanded_lbfgs.py +141 -0
torchzero/modules/{projections → experimental}/fft.py +10 -10
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/hnewton.py +85 -0
torchzero/modules/{quasi_newton/experimental → experimental}/modular_lbfgs.py +49 -50
torchzero/modules/experimental/newton_solver.py +11 -11
torchzero/modules/experimental/newtonnewton.py +92 -0
torchzero/modules/experimental/parabolic_search.py +220 -0
torchzero/modules/experimental/reduce_outward_lr.py +10 -7
torchzero/modules/{projections/structural.py → experimental/structural_projections.py} +12 -54
torchzero/modules/experimental/subspace_preconditioners.py +20 -10
torchzero/modules/experimental/tensor_adagrad.py +42 -0
torchzero/modules/functional.py +12 -2
torchzero/modules/grad_approximation/fdm.py +31 -4
torchzero/modules/grad_approximation/forward_gradient.py +17 -7
torchzero/modules/grad_approximation/grad_approximator.py +69 -24
torchzero/modules/grad_approximation/rfdm.py +310 -50
torchzero/modules/higher_order/__init__.py +1 -0
torchzero/modules/higher_order/higher_order_newton.py +319 -0
torchzero/modules/line_search/__init__.py +4 -4
torchzero/modules/line_search/adaptive.py +99 -0
torchzero/modules/line_search/backtracking.py +75 -31
torchzero/modules/line_search/line_search.py +107 -49
torchzero/modules/line_search/polynomial.py +233 -0
torchzero/modules/line_search/scipy.py +20 -5
torchzero/modules/line_search/strong_wolfe.py +52 -36
torchzero/modules/misc/__init__.py +27 -0
torchzero/modules/misc/debug.py +48 -0
torchzero/modules/misc/escape.py +60 -0
torchzero/modules/misc/gradient_accumulation.py +70 -0
torchzero/modules/misc/misc.py +316 -0
torchzero/modules/misc/multistep.py +158 -0
torchzero/modules/misc/regularization.py +171 -0
torchzero/modules/misc/split.py +103 -0
torchzero/modules/{ops → misc}/switch.py +48 -7
torchzero/modules/momentum/__init__.py +1 -1
torchzero/modules/momentum/averaging.py +25 -10
torchzero/modules/momentum/cautious.py +115 -40
torchzero/modules/momentum/ema.py +92 -41
torchzero/modules/momentum/experimental.py +21 -13
torchzero/modules/momentum/matrix_momentum.py +145 -76
torchzero/modules/momentum/momentum.py +25 -4
torchzero/modules/ops/__init__.py +3 -31
torchzero/modules/ops/accumulate.py +51 -25
torchzero/modules/ops/binary.py +108 -62
torchzero/modules/ops/multi.py +95 -34
torchzero/modules/ops/reduce.py +31 -23
torchzero/modules/ops/unary.py +37 -21
torchzero/modules/ops/utility.py +53 -45
torchzero/modules/optimizers/__init__.py +12 -3
torchzero/modules/optimizers/adagrad.py +48 -29
torchzero/modules/optimizers/adahessian.py +223 -0
torchzero/modules/optimizers/adam.py +35 -37
torchzero/modules/optimizers/adan.py +110 -0
torchzero/modules/optimizers/adaptive_heavyball.py +57 -0
torchzero/modules/optimizers/esgd.py +171 -0
torchzero/modules/optimizers/ladagrad.py +183 -0
torchzero/modules/optimizers/lion.py +4 -4
torchzero/modules/optimizers/mars.py +91 -0
torchzero/modules/optimizers/msam.py +186 -0
torchzero/modules/optimizers/muon.py +32 -7
torchzero/modules/optimizers/orthograd.py +4 -5
torchzero/modules/optimizers/rmsprop.py +19 -19
torchzero/modules/optimizers/rprop.py +89 -52
torchzero/modules/optimizers/sam.py +163 -0
torchzero/modules/optimizers/shampoo.py +55 -27
torchzero/modules/optimizers/soap.py +40 -37
torchzero/modules/optimizers/sophia_h.py +82 -25
torchzero/modules/projections/__init__.py +2 -4
torchzero/modules/projections/cast.py +51 -0
torchzero/modules/projections/galore.py +4 -2
torchzero/modules/projections/projection.py +212 -118
torchzero/modules/quasi_newton/__init__.py +44 -5
torchzero/modules/quasi_newton/cg.py +190 -39
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +163 -0
torchzero/modules/quasi_newton/lbfgs.py +154 -97
torchzero/modules/quasi_newton/lsr1.py +102 -58
torchzero/modules/quasi_newton/quasi_newton.py +1032 -177
torchzero/modules/quasi_newton/trust_region.py +397 -0
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/newton.py +245 -54
torchzero/modules/second_order/newton_cg.py +311 -21
torchzero/modules/second_order/nystrom.py +124 -21
torchzero/modules/smoothing/gaussian.py +55 -21
torchzero/modules/smoothing/laplacian.py +20 -12
torchzero/modules/step_size/__init__.py +2 -0
torchzero/modules/step_size/adaptive.py +122 -0
torchzero/modules/step_size/lr.py +154 -0
torchzero/modules/weight_decay/__init__.py +1 -1
torchzero/modules/weight_decay/weight_decay.py +126 -10
torchzero/modules/wrappers/optim_wrapper.py +40 -12
torchzero/optim/wrappers/directsearch.py +281 -0
torchzero/optim/wrappers/fcmaes.py +105 -0
torchzero/optim/wrappers/mads.py +89 -0
torchzero/optim/wrappers/nevergrad.py +20 -5
torchzero/optim/wrappers/nlopt.py +28 -14
torchzero/optim/wrappers/optuna.py +70 -0
torchzero/optim/wrappers/scipy.py +167 -16
torchzero/utils/__init__.py +3 -7
torchzero/utils/derivatives.py +5 -4
torchzero/utils/linalg/__init__.py +1 -1
torchzero/utils/linalg/solve.py +251 -12
torchzero/utils/numberlist.py +2 -0
torchzero/utils/optimizer.py +55 -74
torchzero/utils/python_tools.py +27 -4
torchzero/utils/tensorlist.py +40 -28
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/METADATA +76 -51
torchzero-0.3.11.dist-info/RECORD +159 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/WHEEL +1 -1
torchzero/core/preconditioner.py +0 -138
torchzero/modules/experimental/algebraic_newton.py +0 -145
torchzero/modules/experimental/soapy.py +0 -290
torchzero/modules/experimental/spectral.py +0 -288
torchzero/modules/experimental/structured_newton.py +0 -111
torchzero/modules/experimental/tropical_newton.py +0 -136
torchzero/modules/lr/__init__.py +0 -2
torchzero/modules/lr/lr.py +0 -59
torchzero/modules/lr/step_size.py +0 -97
torchzero/modules/ops/debug.py +0 -25
torchzero/modules/ops/misc.py +0 -419
torchzero/modules/ops/split.py +0 -75
torchzero/modules/quasi_newton/experimental/__init__.py +0 -1
torchzero/modules/quasi_newton/olbfgs.py +0 -196
torchzero-0.3.9.dist-info/RECORD +0 -131
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/licenses/LICENSE +0 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/top_level.txt +0 -0

torchzero/modules/experimental/hnewton.py ADDED Viewed

@@ -0,0 +1,85 @@
+from collections import deque
+import torch
+from ...core import TensorwiseTransform
+def eigh_solve(H: torch.Tensor, g: torch.Tensor):
+    try:
+        L, Q = torch.linalg.eigh(H) # pylint:disable=not-callable
+        return Q @ ((Q.mH @ g) / L)
+    except torch.linalg.LinAlgError:
+        return None
+class HNewton(TensorwiseTransform):
+    """This treats gradient differences as Hvps with vectors being parameter differences, using past gradients that are close to each other. Basically this is another limited memory quasi newton method to test.
+    .. warning::
+        Experimental.
+    """
+    def __init__(self, history_size: int, window_size: int, reg: float=0, tol: float = 1e-8, concat_params:bool=True, inner=None):
+        defaults = dict(history_size=history_size, window_size=window_size, reg=reg, tol=tol)
+        super().__init__(defaults, uses_grad=False, concat_params=concat_params, inner=inner)
+    def update_tensor(self, tensor, param, grad, loss, state, setting):
+        history_size = setting['history_size']
+        if 'param_history' not in state:
+            state['param_history'] = deque(maxlen=history_size)
+            state['grad_history'] = deque(maxlen=history_size)
+        param_history: deque = state['param_history']
+        grad_history: deque = state['grad_history']
+        param_history.append(param.ravel())
+        grad_history.append(tensor.ravel())
+    def apply_tensor(self, tensor, param, grad, loss, state, setting):
+        window_size = setting['window_size']
+        reg = setting['reg']
+        tol = setting['tol']
+        param_history: deque = state['param_history']
+        grad_history: deque = state['grad_history']
+        g = tensor.ravel()
+        n = len(param_history)
+        s_list = []
+        y_list = []
+        for i in range(n):
+            for j in range(i):
+                if i - j <= window_size:
+                    p_i, g_i = param_history[i], grad_history[i]
+                    p_j, g_j = param_history[j], grad_history[j]
+                    s = p_i - p_j # vec in hvp
+                    y = g_i - g_j # hvp
+                    if s.dot(y) > tol:
+                        s_list.append(s)
+                        y_list.append(y)
+        if len(s_list) < 1:
+            scale = (1 / tensor.abs().sum()).clip(min=torch.finfo(tensor.dtype).eps, max=1)
+            tensor.mul_(scale)
+            return tensor
+        S = torch.stack(s_list, 1)
+        Y = torch.stack(y_list, 1)
+        B = S.T @ Y
+        if reg != 0: B.add_(torch.eye(B.size(0), device=B.device, dtype=B.dtype).mul_(reg))
+        g_proj = g @ S
+        newton_proj, info = torch.linalg.solve_ex(B, g_proj) # pylint:disable=not-callable
+        if info != 0:
+            newton_proj = -torch.linalg.lstsq(B, g_proj).solution # pylint:disable=not-callable
+        newton = S @ newton_proj
+        return newton.view_as(tensor)
+        # scale = (1 / tensor.abs().sum()).clip(min=torch.finfo(tensor.dtype).eps, max=1)
+        # tensor.mul_(scale)
+        # return tensor

torchzero/modules/{quasi_newton/experimental → experimental}/modular_lbfgs.py RENAMED Viewed

@@ -4,8 +4,8 @@ from typing import Any
 import torch
-from ....core import Chainable, Module, Transform, Vars, apply, maybe_chain
-from ....utils import NumberList, TensorList, as_tensorlist
+from ...core import Chainable, Module, Transform, Var, apply_transform, maybe_chain
+from ...utils import NumberList, TensorList, as_tensorlist
 def _adaptive_damping(
@@ -28,7 +28,7 @@ def _adaptive_damping(
 def lbfgs(
     tensors_: TensorList,
-    vars: Vars,
+    var: Var,
     s_history: deque[TensorList],
     y_history: deque[TensorList],
     sy_history: deque[torch.Tensor],
@@ -43,58 +43,57 @@ def lbfgs(
         if scale < 1e-5: scale = 1 / tensors_.abs().mean()
         return tensors_.mul_(min(1.0, scale)) # pyright: ignore[reportArgumentType]
-    else:
-        # 1st loop
-        alpha_list = []
-        q = tensors_.clone()
-        for s_i, y_i, ys_i in zip(reversed(s_history), reversed(y_history), reversed(sy_history)):
-            p_i = 1 / ys_i # this is also denoted as ρ (rho)
-            alpha = p_i * s_i.dot(q)
-            alpha_list.append(alpha)
-            q.sub_(y_i, alpha=alpha) # pyright: ignore[reportArgumentType]
-        # calculate z
-        # s.y/y.y is also this weird y-looking symbol I couldn't find
-        # z is it times q
-        # actually H0 = (s.y/y.y) * I, and z = H0 @ q
-        z = q * (ys_k / (y_k.dot(y_k)))
-        if z_tfm is not None:
-            z = TensorList(apply(z_tfm, tensors=z, params=vars.params, grads=vars.grad, vars=vars))
-        # 2nd loop
-        for s_i, y_i, ys_i, alpha_i in zip(s_history, y_history, sy_history, reversed(alpha_list)):
-            p_i = 1 / ys_i
-            beta_i = p_i * y_i.dot(z)
-            z.add_(s_i, alpha = alpha_i - beta_i)
-        return z
+    # 1st loop
+    alpha_list = []
+    q = tensors_.clone()
+    for s_i, y_i, ys_i in zip(reversed(s_history), reversed(y_history), reversed(sy_history)):
+        p_i = 1 / ys_i # this is also denoted as ρ (rho)
+        alpha = p_i * s_i.dot(q)
+        alpha_list.append(alpha)
+        q.sub_(y_i, alpha=alpha) # pyright: ignore[reportArgumentType]
+    # calculate z
+    # s.y/y.y is also this weird y-looking symbol I couldn't find
+    # z is it times q
+    # actually H0 = (s.y/y.y) * I, and z = H0 @ q
+    z = q * (ys_k / (y_k.dot(y_k)))
+    if z_tfm is not None:
+        z = TensorList(apply_transform(z_tfm, tensors=z, params=var.params, grads=var.grad, var=var))
+    # 2nd loop
+    for s_i, y_i, ys_i, alpha_i in zip(s_history, y_history, sy_history, reversed(alpha_list)):
+        p_i = 1 / ys_i
+        beta_i = p_i * y_i.dot(z)
+        z.add_(s_i, alpha = alpha_i - beta_i)
+    return z
 def _apply_tfms_into_history(
     self: Module,
     params: list[torch.Tensor],
-    vars: Vars,
+    var: Var,
     update: list[torch.Tensor],
 ):
     if 'params_history_tfm' in self.children:
-        params = apply(self.children['params_history_tfm'], tensors=as_tensorlist(params).clone(), params=params, grads=vars.grad, vars=vars)
+        params = apply_transform(self.children['params_history_tfm'], tensors=as_tensorlist(params).clone(), params=params, grads=var.grad, var=var)
     if 'grad_history_tfm' in self.children:
-        update = apply(self.children['grad_history_tfm'], tensors=as_tensorlist(update).clone(), params=params, grads=vars.grad, vars=vars)
+        update = apply_transform(self.children['grad_history_tfm'], tensors=as_tensorlist(update).clone(), params=params, grads=var.grad, var=var)
     return params, update
 def _apply_tfms_into_precond(
     self: Module,
     params: list[torch.Tensor],
-    vars: Vars,
+    var: Var,
     update: list[torch.Tensor],
 ):
     if 'params_precond_tfm' in self.children:
-        params = apply(self.children['params_precond_tfm'], tensors=as_tensorlist(params).clone(), params=params, grads=vars.grad, vars=vars)
+        params = apply_transform(self.children['params_precond_tfm'], tensors=as_tensorlist(params).clone(), params=params, grads=var.grad, var=var)
     if 'grad_precond_tfm' in self.children:
-        update = apply(self.children['grad_precond_tfm'], tensors=update, params=params, grads=vars.grad, vars=vars)
+        update = apply_transform(self.children['grad_precond_tfm'], tensors=update, params=params, grads=var.grad, var=var)
     return params, update
@@ -165,9 +164,9 @@ class ModularLBFGS(Module):
         self.global_state['sy_history'].clear()
     @torch.no_grad
-    def step(self, vars):
-        params = as_tensorlist(vars.params)
-        update = as_tensorlist(vars.get_update())
+    def step(self, var):
+        params = as_tensorlist(var.params)
+        update = as_tensorlist(var.get_update())
         step = self.global_state.get('step', 0)
         self.global_state['step'] = step + 1
@@ -186,11 +185,11 @@ class ModularLBFGS(Module):
         params_h, update_h = _apply_tfms_into_history(
             self,
             params=params,
-            vars=vars,
+            var=var,
             update=update,
         )
-        prev_params_h, prev_grad_h = self.get_state('prev_params_h', 'prev_grad_h', params=params, cls=TensorList)
+        prev_params_h, prev_grad_h = self.get_state(params, 'prev_params_h', 'prev_grad_h', cls=TensorList)
         # 1st step - there are no previous params and grads, `lbfgs` will do normalized SGD step
         if step == 0:
@@ -217,16 +216,16 @@ class ModularLBFGS(Module):
         # step with inner module before applying preconditioner
         if 'update_precond_tfm' in self.children:
             update_precond_tfm = self.children['update_precond_tfm']
-            inner_vars = update_precond_tfm.step(vars.clone(clone_update=True))
-            vars.update_attrs_from_clone_(inner_vars)
-            tensors = inner_vars.update
+            inner_var = update_precond_tfm.step(var.clone(clone_update=True))
+            var.update_attrs_from_clone_(inner_var)
+            tensors = inner_var.update
             assert tensors is not None
         else:
             tensors = update.clone()
         # transforms into preconditioner
-        params_p, update_p = _apply_tfms_into_precond(self, params=params, vars=vars, update=update)
-        prev_params_p, prev_grad_p = self.get_state('prev_params_p', 'prev_grad_p', params=params, cls=TensorList)
+        params_p, update_p = _apply_tfms_into_precond(self, params=params, var=var, update=update)
+        prev_params_p, prev_grad_p = self.get_state(params, 'prev_params_p', 'prev_grad_p', cls=TensorList)
         if step == 0:
             s_k_p = None; y_k_p = None; ys_k_p = None
@@ -245,13 +244,13 @@ class ModularLBFGS(Module):
         # tolerance on gradient difference to avoid exploding after converging
         if tol is not None:
             if y_k_p is not None and y_k_p.abs().global_max() <= tol:
-                vars.update = update # may have been updated by inner module, probably makes sense to use it here?
-                return vars
+                var.update = update # may have been updated by inner module, probably makes sense to use it here?
+                return var
         # precondition
         dir = lbfgs(
             tensors_=as_tensorlist(tensors),
-            vars=vars,
+            var=var,
             s_history=s_history,
             y_history=y_history,
             sy_history=sy_history,
@@ -260,7 +259,7 @@ class ModularLBFGS(Module):
             z_tfm=self.children.get('z_tfm', None),
         )
-        vars.update = dir
+        var.update = dir
-        return vars
+        return var

torchzero/modules/experimental/newton_solver.py CHANGED Viewed

@@ -3,13 +3,13 @@ from typing import Any, Literal, overload
 import torch
-from ...core import Chainable, Module, apply, Modular
+from ...core import Chainable, Module, apply_transform, Modular
 from ...utils import TensorList, as_tensorlist
 from ...utils.derivatives import hvp
 from ..quasi_newton import LBFGS
 class NewtonSolver(Module):
-    """Matrix free newton via with any custom solver (usually it is better to just use NewtonCG or NystromPCG is even better)"""
+    """Matrix free newton via with any custom solver (this is for testing, use NewtonCG or NystromPCG)"""
     def __init__(
         self,
         solver: Callable[[list[torch.Tensor]], Any] = lambda p: Modular(p, LBFGS()),
@@ -26,9 +26,9 @@ class NewtonSolver(Module):
             self.set_child('inner', inner)
     @torch.no_grad
-    def step(self, vars):
-        params = TensorList(vars.params)
-        closure = vars.closure
+    def step(self, var):
+        params = TensorList(var.params)
+        closure = var.closure
         if closure is None: raise RuntimeError('NewtonCG requires closure')
         settings = self.settings[params[0]]
@@ -39,7 +39,7 @@ class NewtonSolver(Module):
         warm_start = settings['warm_start']
         # ---------------------- Hessian vector product function --------------------- #
-        grad = vars.get_grad(create_graph=True)
+        grad = var.get_grad(create_graph=True)
         def H_mm(x):
             with torch.enable_grad():
@@ -50,11 +50,11 @@ class NewtonSolver(Module):
         # -------------------------------- inner step -------------------------------- #
         b = as_tensorlist(grad)
         if 'inner' in self.children:
-            b = as_tensorlist(apply(self.children['inner'], [g.clone() for g in grad], params=params, grads=grad, vars=vars))
+            b = as_tensorlist(apply_transform(self.children['inner'], [g.clone() for g in grad], params=params, grads=grad, var=var))
         # ---------------------------------- run cg ---------------------------------- #
         x0 = None
-        if warm_start: x0 = self.get_state('prev_x', params=params, cls=TensorList) # initialized to 0 which is default anyway
+        if warm_start: x0 = self.get_state(params, 'prev_x', cls=TensorList) # initialized to 0 which is default anyway
         if x0 is None: x = b.zeros_like().requires_grad_(True)
         else: x = x0.clone().requires_grad_(True)
@@ -76,13 +76,13 @@ class NewtonSolver(Module):
                 assert loss is not None
                 if min(loss, loss/initial_loss) < tol: break
-        print(f'{loss = }')
+        # print(f'{loss = }')
         if warm_start:
             assert x0 is not None
             x0.copy_(x)
-        vars.update = x.detach()
-        return vars
+        var.update = x.detach()
+        return var

torchzero/modules/experimental/newtonnewton.py ADDED Viewed

@@ -0,0 +1,92 @@
+import itertools
+import warnings
+from collections.abc import Callable
+from contextlib import nullcontext
+from functools import partial
+from typing import Literal
+import torch
+from ...core import Chainable, Module, apply_transform
+from ...utils import TensorList, vec_to_tensors
+from ...utils.derivatives import (
+    hessian_list_to_mat,
+    jacobian_wrt,
+)
+from ..second_order.newton import (
+    cholesky_solve,
+    eigh_solve,
+    least_squares_solve,
+    lu_solve,
+)
+class NewtonNewton(Module):
+    """Applies Newton-like preconditioning to Newton step.
+    This is a method that I thought of and then it worked. Here is how it works:
+    1. Calculate newton step by solving Hx=g
+    2. Calculate jacobian of x wrt parameters and call it H2
+    3. Solve H2 x2 = x for x2.
+    4. Optionally, repeat (if order is higher than 3.)
+    Memory is n^order. It tends to converge faster on convex functions, but can be unstable on non-convex. Orders higher than 3 are usually too unsable and have little benefit.
+    3rd order variant can minimize some convex functions with up to 100 variables in less time than Newton's method,
+    this is if pytorch can vectorize hessian computation efficiently.
+    """
+    def __init__(
+        self,
+        reg: float = 1e-6,
+        order: int = 3,
+        search_negative: bool = False,
+        vectorize: bool = True,
+        eigval_tfm: Callable[[torch.Tensor], torch.Tensor] | None = None,
+    ):
+        defaults = dict(order=order, reg=reg, vectorize=vectorize, eigval_tfm=eigval_tfm, search_negative=search_negative)
+        super().__init__(defaults)
+    @torch.no_grad
+    def step(self, var):
+        params = TensorList(var.params)
+        closure = var.closure
+        if closure is None: raise RuntimeError('NewtonCG requires closure')
+        settings = self.settings[params[0]]
+        reg = settings['reg']
+        vectorize = settings['vectorize']
+        order = settings['order']
+        search_negative = settings['search_negative']
+        eigval_tfm = settings['eigval_tfm']
+        # ------------------------ calculate grad and hessian ------------------------ #
+        with torch.enable_grad():
+            loss = var.loss = var.loss_approx = closure(False)
+            g_list = torch.autograd.grad(loss, params, create_graph=True)
+            var.grad = list(g_list)
+            xp = torch.cat([t.ravel() for t in g_list])
+            I = torch.eye(xp.numel(), dtype=xp.dtype, device=xp.device)
+            for o in range(2, order + 1):
+                is_last = o == order
+                H_list = jacobian_wrt([xp], params, create_graph=not is_last, batched=vectorize)
+                with torch.no_grad() if is_last else nullcontext():
+                    H = hessian_list_to_mat(H_list)
+                    if reg != 0: H = H + I * reg
+                    x = None
+                    if search_negative or (is_last and eigval_tfm is not None):
+                        x = eigh_solve(H, xp, eigval_tfm, search_negative=search_negative)
+                    if x is None: x = cholesky_solve(H, xp)
+                    if x is None: x = lu_solve(H, xp)
+                    if x is None: x = least_squares_solve(H, xp)
+                    xp = x.squeeze()
+        var.update = vec_to_tensors(xp.nan_to_num_(0,0,0), params)
+        return var

torchzero/modules/experimental/parabolic_search.py ADDED Viewed

@@ -0,0 +1,220 @@
+import math
+from collections.abc import Mapping
+from operator import itemgetter
+import torch
+from ...core import Module
+from ...utils import TensorList
+def adaptive_tracking(
+    f,
+    f_0,
+    f_1,
+    t_0,
+    maxiter: int
+):
+    t = t_0
+    f_t = f(t)
+    # backtrack
+    if f_t > f_0:
+        if f_1 > f_0: t = min(0.5, t_0/2)
+        while f_t > f_0:
+            maxiter -= 1
+            if maxiter < 0: return 0, f_0
+            t = t/2
+            f_t = f(t) if t!=1 else f_1
+        return t, f_t
+    # forwardtrack
+    f_prev = f_t
+    t *= 2
+    f_t = f(t)
+    if f_prev < f_t: return t/2, f_prev
+    while f_prev >= f_t:
+        maxiter -= 1
+        if maxiter < 0: return t, f_t
+        f_prev = f_t
+        t *= 2
+        f_t = f(t)
+    return t/2, f_prev
+class ParabolaSearch(Module):
+    """"""
+    def __init__(
+        self,
+        step_size: float = 1e-2,
+        adaptive: bool=True,
+        normalize: bool=False,
+        # method: str | None = None,
+        maxiter: int | None = 10,
+        # bracket=None,
+        # bounds=None,
+        # tol: float | None = None,
+        # options=None,
+    ):
+        if normalize and adaptive: raise ValueError("pick either normalize or adaptive")
+        defaults = dict(step_size=step_size, adaptive=adaptive, normalize=normalize, maxiter=maxiter)
+        super().__init__(defaults)
+        import scipy.optimize
+        self.scopt = scipy.optimize
+    @torch.no_grad
+    def step(self, var):
+        x_0 = TensorList(var.params)
+        closure = var.closure
+        assert closure is not None
+        settings = self.settings[x_0[0]]
+        step_size = settings['step_size']
+        adaptive = settings['adaptive']
+        normalize = settings['normalize']
+        maxiter = settings['maxiter']
+        if normalize and adaptive: raise ValueError("pick either normalize or adaptive")
+        grad = TensorList(var.get_grad())
+        f_0 = var.get_loss(False)
+        scale = 1
+        if normalize: grad = grad/grad.abs().mean().clip(min=1e-8)
+        if adaptive: scale = grad.abs().mean().clip(min=1e-8)
+        # make step
+        v_0 = grad * (step_size/scale)
+        x_0 -= v_0
+        with torch.enable_grad():
+            f_1 = closure()
+            grad = x_0.grad
+        x_0 += v_0
+        if normalize: grad = grad/grad.abs().mean().clip(min=1e-8)
+        v_1 = grad * (step_size/scale)
+        a = v_1 - v_0
+        def parabolic_objective(t: float):
+            nonlocal x_0
+            step = v_0*t + 0.5*a*t**2
+            x_0 -= step
+            value = closure(False)
+            x_0 += step
+            return value.detach().cpu()
+        prev_t = self.global_state.get('prev_t', 2)
+        t, f = adaptive_tracking(parabolic_objective, f_0=f_0, f_1=f_1, t_0=prev_t, maxiter=maxiter)
+        self.global_state['prev_t'] = t
+        # method, bracket, bounds, tol, options, maxiter = itemgetter(
+        #     'method', 'bracket', 'bounds', 'tol', 'options', 'maxiter')(self.settings[var.params[0]])
+        # if maxiter is not None:
+        #     options = dict(options) if isinstance(options, Mapping) else {}
+        #     options['maxiter'] = maxiter
+        # res = self.scopt.minimize_scalar(parabolic_objective, method=method, bracket=bracket, bounds=bounds, tol=tol, options=options)
+        # t = res.x
+        var.update = v_0*t + 0.5*a*t**2
+        return var
+class CubicParabolaSearch(Module):
+    """"""
+    def __init__(
+        self,
+        step_size: float = 1e-2,
+        adaptive: bool=True,
+        normalize: bool=False,
+        # method: str | None = None,
+        maxiter: int | None = 10,
+        # bracket=None,
+        # bounds=None,
+        # tol: float | None = None,
+        # options=None,
+    ):
+        if normalize and adaptive: raise ValueError("pick either normalize or adaptive")
+        defaults = dict(step_size=step_size, adaptive=adaptive, normalize=normalize, maxiter=maxiter)
+        super().__init__(defaults)
+        import scipy.optimize
+        self.scopt = scipy.optimize
+    @torch.no_grad
+    def step(self, var):
+        x_0 = TensorList(var.params)
+        closure = var.closure
+        assert closure is not None
+        settings = self.settings[x_0[0]]
+        step_size = settings['step_size']
+        adaptive = settings['adaptive']
+        maxiter = settings['maxiter']
+        normalize = settings['normalize']
+        if normalize and adaptive: raise ValueError("pick either normalize or adaptive")
+        grad = TensorList(var.get_grad())
+        f_0 = var.get_loss(False)
+        scale = 1
+        if normalize: grad = grad/grad.abs().mean().clip(min=1e-8)
+        if adaptive: scale = grad.abs().mean().clip(min=1e-8)
+        # make step
+        v_0 = grad * (step_size/scale)
+        x_0 -= v_0
+        with torch.enable_grad():
+            f_1 = closure()
+            grad = x_0.grad
+        if normalize: grad = grad/grad.abs().mean().clip(min=1e-8)
+        v_1 = grad * (step_size/scale)
+        a_0 = v_1 - v_0
+        # make another step
+        x_0 -= v_1
+        with torch.enable_grad():
+            f_2 = closure()
+            grad = x_0.grad
+        if normalize: grad = grad/grad.abs().mean().clip(min=1e-8)
+        v_2 = grad * (step_size/scale)
+        a_1 = v_2 - v_1
+        j = a_1 - a_0
+        x_0 += v_0
+        x_0 += v_1
+        def parabolic_objective(t: float):
+            nonlocal x_0
+            step = v_0*t + (1/2)*a_0*t**2 + (1/6)*j*t**3
+            x_0 -= step
+            value = closure(False)
+            x_0 += step
+            return value
+        prev_t = self.global_state.get('prev_t', 2)
+        t, f = adaptive_tracking(parabolic_objective, f_0=f_0, f_1=f_1, t_0=prev_t, maxiter=maxiter)
+        self.global_state['prev_t'] = t
+        # method, bracket, bounds, tol, options, maxiter = itemgetter(
+        #     'method', 'bracket', 'bounds', 'tol', 'options', 'maxiter')(self.settings[var.params[0]])
+        # if maxiter is not None:
+        #     options = dict(options) if isinstance(options, Mapping) else {}
+        #     options['maxiter'] = maxiter
+        # res = self.scopt.minimize_scalar(parabolic_objective, method=method, bracket=bracket, bounds=bounds, tol=tol, options=options)
+        # t = res.x
+        var.update = v_0*t + (1/2)*a_0*t**2 + (1/6)*j*t**3
+        return var

torchzero 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl