PyPI - torchzero - Versions diffs - 0.3.15__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

torchzero 0.3.15py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (187) hide show

tests/test_identical.py +22 -22
tests/test_module_autograd.py +586 -0
tests/test_objective.py +188 -0
tests/test_opts.py +225 -214
tests/test_tensorlist.py +0 -8
tests/test_utils_optimizer.py +0 -1
torchzero/__init__.py +2 -2
torchzero/core/__init__.py +7 -4
torchzero/core/chain.py +20 -23
torchzero/core/functional.py +90 -24
torchzero/core/modular.py +53 -57
torchzero/core/module.py +132 -52
torchzero/core/objective.py +948 -0
torchzero/core/reformulation.py +55 -24
torchzero/core/transform.py +261 -367
torchzero/linalg/__init__.py +11 -0
torchzero/linalg/eigh.py +253 -0
torchzero/linalg/linalg_utils.py +14 -0
torchzero/{utils/linalg → linalg}/linear_operator.py +99 -49
torchzero/linalg/matrix_power.py +28 -0
torchzero/linalg/orthogonalize.py +93 -0
torchzero/{utils/linalg → linalg}/qr.py +16 -2
torchzero/{utils/linalg → linalg}/solve.py +74 -88
torchzero/linalg/svd.py +47 -0
torchzero/linalg/torch_linalg.py +168 -0
torchzero/modules/__init__.py +4 -3
torchzero/modules/adaptive/__init__.py +11 -3
torchzero/modules/adaptive/adagrad.py +167 -217
torchzero/modules/adaptive/adahessian.py +76 -105
torchzero/modules/adaptive/adam.py +53 -76
torchzero/modules/adaptive/adan.py +50 -31
torchzero/modules/adaptive/adaptive_heavyball.py +12 -7
torchzero/modules/adaptive/aegd.py +12 -12
torchzero/modules/adaptive/esgd.py +98 -119
torchzero/modules/adaptive/ggt.py +186 -0
torchzero/modules/adaptive/lion.py +7 -11
torchzero/modules/adaptive/lre_optimizers.py +299 -0
torchzero/modules/adaptive/mars.py +7 -7
torchzero/modules/adaptive/matrix_momentum.py +48 -52
torchzero/modules/adaptive/msam.py +71 -53
torchzero/modules/adaptive/muon.py +67 -129
torchzero/modules/adaptive/natural_gradient.py +63 -41
torchzero/modules/adaptive/orthograd.py +11 -15
torchzero/modules/adaptive/psgd/__init__.py +5 -0
torchzero/modules/adaptive/psgd/_psgd_utils.py +37 -0
torchzero/modules/adaptive/psgd/psgd.py +1390 -0
torchzero/modules/adaptive/psgd/psgd_dense_newton.py +174 -0
torchzero/modules/adaptive/psgd/psgd_kron_newton.py +203 -0
torchzero/modules/adaptive/psgd/psgd_kron_whiten.py +185 -0
torchzero/modules/adaptive/psgd/psgd_lra_newton.py +118 -0
torchzero/modules/adaptive/psgd/psgd_lra_whiten.py +116 -0
torchzero/modules/adaptive/rmsprop.py +83 -75
torchzero/modules/adaptive/rprop.py +48 -47
torchzero/modules/adaptive/sam.py +55 -45
torchzero/modules/adaptive/shampoo.py +149 -130
torchzero/modules/adaptive/soap.py +207 -143
torchzero/modules/adaptive/sophia_h.py +106 -130
torchzero/modules/clipping/clipping.py +22 -25
torchzero/modules/clipping/ema_clipping.py +31 -25
torchzero/modules/clipping/growth_clipping.py +14 -17
torchzero/modules/conjugate_gradient/cg.py +27 -38
torchzero/modules/experimental/__init__.py +7 -6
torchzero/modules/experimental/adanystrom.py +258 -0
torchzero/modules/experimental/common_directions_whiten.py +142 -0
torchzero/modules/experimental/coordinate_momentum.py +36 -0
torchzero/modules/experimental/cubic_adam.py +160 -0
torchzero/modules/experimental/curveball.py +25 -41
torchzero/modules/experimental/eigen_sr1.py +182 -0
torchzero/modules/experimental/eigengrad.py +207 -0
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/higher_order_newton.py +14 -40
torchzero/modules/experimental/l_infinity.py +1 -1
torchzero/modules/experimental/matrix_nag.py +122 -0
torchzero/modules/experimental/newton_solver.py +23 -54
torchzero/modules/experimental/newtonnewton.py +45 -48
torchzero/modules/experimental/reduce_outward_lr.py +7 -7
torchzero/modules/experimental/scipy_newton_cg.py +21 -24
torchzero/modules/experimental/spsa1.py +3 -3
torchzero/modules/experimental/structural_projections.py +1 -4
torchzero/modules/grad_approximation/fdm.py +2 -2
torchzero/modules/grad_approximation/forward_gradient.py +7 -7
torchzero/modules/grad_approximation/grad_approximator.py +23 -16
torchzero/modules/grad_approximation/rfdm.py +24 -21
torchzero/modules/least_squares/gn.py +121 -50
torchzero/modules/line_search/backtracking.py +4 -4
torchzero/modules/line_search/line_search.py +33 -33
torchzero/modules/line_search/strong_wolfe.py +4 -4
torchzero/modules/misc/debug.py +12 -12
torchzero/modules/misc/escape.py +10 -10
torchzero/modules/misc/gradient_accumulation.py +11 -79
torchzero/modules/misc/homotopy.py +16 -8
torchzero/modules/misc/misc.py +121 -123
torchzero/modules/misc/multistep.py +52 -53
torchzero/modules/misc/regularization.py +49 -44
torchzero/modules/misc/split.py +31 -29
torchzero/modules/misc/switch.py +37 -32
torchzero/modules/momentum/averaging.py +14 -14
torchzero/modules/momentum/cautious.py +37 -31
torchzero/modules/momentum/momentum.py +12 -12
torchzero/modules/ops/__init__.py +4 -4
torchzero/modules/ops/accumulate.py +21 -21
torchzero/modules/ops/binary.py +67 -66
torchzero/modules/ops/higher_level.py +20 -20
torchzero/modules/ops/multi.py +44 -41
torchzero/modules/ops/reduce.py +26 -23
torchzero/modules/ops/unary.py +53 -53
torchzero/modules/ops/utility.py +47 -46
torchzero/modules/{functional.py → opt_utils.py} +1 -1
torchzero/modules/projections/galore.py +1 -1
torchzero/modules/projections/projection.py +46 -43
torchzero/modules/quasi_newton/__init__.py +1 -1
torchzero/modules/quasi_newton/damping.py +2 -2
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +1 -1
torchzero/modules/quasi_newton/lbfgs.py +10 -10
torchzero/modules/quasi_newton/lsr1.py +10 -10
torchzero/modules/quasi_newton/quasi_newton.py +54 -39
torchzero/modules/quasi_newton/sg2.py +69 -205
torchzero/modules/restarts/restars.py +39 -37
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/ifn.py +31 -62
torchzero/modules/second_order/inm.py +57 -53
torchzero/modules/second_order/multipoint.py +40 -80
torchzero/modules/second_order/newton.py +165 -196
torchzero/modules/second_order/newton_cg.py +105 -157
torchzero/modules/second_order/nystrom.py +216 -185
torchzero/modules/second_order/rsn.py +132 -125
torchzero/modules/smoothing/laplacian.py +13 -12
torchzero/modules/smoothing/sampling.py +10 -10
torchzero/modules/step_size/adaptive.py +24 -24
torchzero/modules/step_size/lr.py +17 -17
torchzero/modules/termination/termination.py +32 -30
torchzero/modules/trust_region/cubic_regularization.py +3 -3
torchzero/modules/trust_region/levenberg_marquardt.py +25 -28
torchzero/modules/trust_region/trust_cg.py +2 -2
torchzero/modules/trust_region/trust_region.py +27 -22
torchzero/modules/variance_reduction/svrg.py +23 -21
torchzero/modules/weight_decay/__init__.py +2 -1
torchzero/modules/weight_decay/reinit.py +83 -0
torchzero/modules/weight_decay/weight_decay.py +17 -18
torchzero/modules/wrappers/optim_wrapper.py +14 -14
torchzero/modules/zeroth_order/cd.py +10 -7
torchzero/optim/mbs.py +291 -0
torchzero/optim/root.py +3 -3
torchzero/optim/utility/split.py +2 -1
torchzero/optim/wrappers/directsearch.py +27 -63
torchzero/optim/wrappers/fcmaes.py +14 -35
torchzero/optim/wrappers/mads.py +11 -31
torchzero/optim/wrappers/moors.py +66 -0
torchzero/optim/wrappers/nevergrad.py +4 -13
torchzero/optim/wrappers/nlopt.py +31 -25
torchzero/optim/wrappers/optuna.py +8 -13
torchzero/optim/wrappers/pybobyqa.py +124 -0
torchzero/optim/wrappers/scipy/__init__.py +7 -0
torchzero/optim/wrappers/scipy/basin_hopping.py +117 -0
torchzero/optim/wrappers/scipy/brute.py +48 -0
torchzero/optim/wrappers/scipy/differential_evolution.py +80 -0
torchzero/optim/wrappers/scipy/direct.py +69 -0
torchzero/optim/wrappers/scipy/dual_annealing.py +115 -0
torchzero/optim/wrappers/scipy/experimental.py +141 -0
torchzero/optim/wrappers/scipy/minimize.py +151 -0
torchzero/optim/wrappers/scipy/sgho.py +111 -0
torchzero/optim/wrappers/wrapper.py +121 -0
torchzero/utils/__init__.py +7 -25
torchzero/utils/benchmarks/__init__.py +0 -0
torchzero/utils/benchmarks/logistic.py +122 -0
torchzero/utils/compile.py +2 -2
torchzero/utils/derivatives.py +97 -73
torchzero/utils/optimizer.py +4 -77
torchzero/utils/python_tools.py +31 -0
torchzero/utils/tensorlist.py +11 -5
torchzero/utils/thoad_tools.py +68 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/METADATA +1 -1
torchzero-0.4.1.dist-info/RECORD +209 -0
tests/test_vars.py +0 -185
torchzero/core/var.py +0 -376
torchzero/modules/adaptive/lmadagrad.py +0 -186
torchzero/modules/experimental/momentum.py +0 -160
torchzero/optim/wrappers/scipy.py +0 -572
torchzero/utils/linalg/__init__.py +0 -12
torchzero/utils/linalg/matrix_funcs.py +0 -87
torchzero/utils/linalg/orthogonalize.py +0 -12
torchzero/utils/linalg/svd.py +0 -20
torchzero/utils/ops.py +0 -10
torchzero-0.3.15.dist-info/RECORD +0 -175
/torchzero/{utils/linalg → linalg}/benchmark.py +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/WHEEL +0 -0
{torchzero-0.3.15.dist-info → torchzero-0.4.1.dist-info}/top_level.txt +0 -0

torchzero/modules/quasi_newton/quasi_newton.py CHANGED Viewed

@@ -5,10 +5,10 @@ from typing import Any, Literal
 import torch
-from ...core import Chainable, Module, TensorwiseTransform, Transform
+from ...core import Chainable, Module, TensorTransform, Transform
 from ...utils import TensorList, set_storage_, unpack_states, safe_dict_update_
-from ...utils.linalg import linear_operator
-from ..functional import initial_step_size, safe_clip
+from ...linalg import linear_operator
+from ..opt_utils import initial_step_size, safe_clip
@@ -17,7 +17,7 @@ def _maybe_lerp_(state, key, value: torch.Tensor, beta: float | None):
     elif state[key].shape != value.shape: state[key] = value
     else: state[key].lerp_(value, 1-beta)
-class HessianUpdateStrategy(TensorwiseTransform, ABC):
+class HessianUpdateStrategy(TensorTransform, ABC):
     """Base class for quasi-newton methods that store and update hessian approximation H or inverse B.
     This is an abstract class, to use it, subclass it and override ``update_H`` and/or ``update_B``,
@@ -106,11 +106,12 @@ class HessianUpdateStrategy(TensorwiseTransform, ABC):
         scale_first: bool = False,
         concat_params: bool = True,
         inverse: bool = True,
+        uses_loss: bool = False,
         inner: Chainable | None = None,
     ):
         if defaults is None: defaults = {}
         safe_dict_update_(defaults, dict(init_scale=init_scale, tol=tol, ptol=ptol, ptol_restart=ptol_restart, gtol=gtol, inverse=inverse, beta=beta, restart_interval=restart_interval, scale_first=scale_first))
-        super().__init__(defaults, uses_grad=False, concat_params=concat_params, update_freq=update_freq, inner=inner)
+        super().__init__(defaults, uses_loss=uses_loss, concat_params=concat_params, update_freq=update_freq, inner=inner)
     def reset_for_online(self):
         super().reset_for_online()
@@ -141,23 +142,27 @@ class HessianUpdateStrategy(TensorwiseTransform, ABC):
         return H
     # ------------------------------ common methods ------------------------------ #
-    def auto_initial_scale(self, s:torch.Tensor,y:torch.Tensor) -> torch.Tensor | float:
+    def auto_initial_scale(self, s:torch.Tensor,y:torch.Tensor) -> torch.Tensor | float | None:
         """returns multiplier to B on 2nd step if ``init_scale='auto'``. H should be divided by this!"""
         ys = y.dot(s)
         yy = y.dot(y)
-        if ys != 0 and yy != 0: return yy/ys
-        return 1
+        tiny = torch.finfo(ys.dtype).tiny * 2
+        if ys > tiny and yy > tiny: return yy/ys
+        return None
-    def reset_P(self, P: torch.Tensor, s:torch.Tensor,y:torch.Tensor, inverse:bool, init_scale: Any, state:dict[str,Any]) -> None:
+    def reset_P(self, P: torch.Tensor, s:torch.Tensor, y:torch.Tensor, inverse:bool, init_scale: Any, state:dict[str,Any]) -> None:
         """resets ``P`` which is either B or H"""
         set_storage_(P, self.initialize_P(s.numel(), device=P.device, dtype=P.dtype, is_inverse=inverse))
-        if init_scale == 'auto': init_scale = self.auto_initial_scale(s,y)
-        if init_scale >= 1:
+        if init_scale == 'auto':
+            init_scale = self.auto_initial_scale(s,y)
+            state["scaled"] = init_scale is not None
+        if init_scale is not None and init_scale != 1:
             if inverse: P /= init_scale
             else: P *= init_scale
     @torch.no_grad
-    def update_tensor(self, tensor, param, grad, loss, state, setting):
+    def single_tensor_update(self, tensor, param, grad, loss, state, setting):
         p = param.view(-1); g = tensor.view(-1)
         inverse = setting['inverse']
         M_key = 'H' if inverse else 'B'
@@ -182,6 +187,7 @@ class HessianUpdateStrategy(TensorwiseTransform, ABC):
             state['f_prev'] = loss
             state['p_prev'] = p.clone()
             state['g_prev'] = g.clone()
+            state["scaled"] = False
             return
         state['f'] = loss
@@ -205,9 +211,13 @@ class HessianUpdateStrategy(TensorwiseTransform, ABC):
         if gtol is not None and y.abs().max() <= gtol:
             return
-        if step == 2 and init_scale == 'auto':
-            if inverse: M /= self.auto_initial_scale(s,y)
-            else: M *= self.auto_initial_scale(s,y)
+        # apply automatic initial scale if it hasn't been applied
+        if (not state["scaled"]) and (init_scale == 'auto'):
+            scale = self.auto_initial_scale(s,y)
+            if scale is not None:
+                state["scaled"] = True
+                if inverse: M /= self.auto_initial_scale(s,y)
+                else: M *= self.auto_initial_scale(s,y)
         beta = setting['beta']
         if beta is not None and beta != 0: M = M.clone() # because all of them update it in-place
@@ -223,7 +233,7 @@ class HessianUpdateStrategy(TensorwiseTransform, ABC):
         state['f_prev'] = loss
     @torch.no_grad
-    def apply_tensor(self, tensor, param, grad, loss, state, setting):
+    def single_tensor_apply(self, tensor, param, grad, loss, state, setting):
         step = state['step']
         if setting['scale_first'] and step == 1:
@@ -250,8 +260,8 @@ class HessianUpdateStrategy(TensorwiseTransform, ABC):
         self.global_state.clear()
         return tensor.mul_(initial_step_size(tensor))
-    def get_H(self, var):
-        param = var.params[0]
+    def get_H(self, objective):
+        param = objective.params[0]
         state = self.state[param]
         settings = self.settings[param]
         if "B" in state:
@@ -367,22 +377,21 @@ def bfgs_B_(B:torch.Tensor, s: torch.Tensor, y:torch.Tensor, tol: float):
     B += term1.sub_(term2)
     return B
-def bfgs_H_(H:torch.Tensor, s: torch.Tensor, y:torch.Tensor, tol: float):
+def bfgs_H_(H: torch.Tensor, s: torch.Tensor, y: torch.Tensor, tol: float):
     sy = s.dot(y)
     if sy <= tol: return H
-    sy_sq = safe_clip(sy**2)
-    Hy = H@y
-    scale1 = (sy + y.dot(Hy)) / sy_sq
-    term1 = s.outer(s).mul_(scale1)
+    rho = 1.0 / sy
+    Hy = H @ y
-    num2 = (Hy.outer(s)).add_(s.outer(y @ H))
-    term2 = num2.div_(sy)
+    term1 = (s.outer(s)).mul_(rho * (1 + rho * y.dot(Hy)))
+    term2 = (Hy.outer(s) + s.outer(Hy)).mul_(rho)
-    H += term1.sub_(term2)
+    H.add_(term1).sub_(term2)
     return H
 class BFGS(_InverseHessianUpdateStrategyDefaults):
     """Broyden–Fletcher–Goldfarb–Shanno Quasi-Newton method. This is usually the most stable quasi-newton method.
@@ -428,7 +437,7 @@ class BFGS(_InverseHessianUpdateStrategyDefaults):
     BFGS with backtracking line search:
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.BFGS(),
         tz.m.Backtracking()
@@ -437,7 +446,7 @@ class BFGS(_InverseHessianUpdateStrategyDefaults):
     BFGS with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LevenbergMarquardt(tz.m.BFGS(inverse=False)),
     )
@@ -505,7 +514,7 @@ class SR1(_InverseHessianUpdateStrategyDefaults):
     SR1 with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LevenbergMarquardt(tz.m.SR1(inverse=False)),
     )
@@ -1005,7 +1014,7 @@ def gradient_correction(g: TensorList, s: TensorList, y: TensorList):
     return g - (y * (s.dot(g) / sy))
-class GradientCorrection(Transform):
+class GradientCorrection(TensorTransform):
     """
     Estimates gradient at minima along search direction assuming function is quadratic.
@@ -1015,7 +1024,7 @@ class GradientCorrection(Transform):
     L-BFGS with gradient correction
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LBFGS(inner=tz.m.GradientCorrection()),
         tz.m.Backtracking()
@@ -1027,9 +1036,9 @@ class GradientCorrection(Transform):
     """
     def __init__(self):
-        super().__init__(None, uses_grad=False)
+        super().__init__()
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         if 'p_prev' not in states[0]:
             p_prev = unpack_states(states, tensors, 'p_prev', init=params)
             g_prev = unpack_states(states, tensors, 'g_prev', init=tensors)
@@ -1154,6 +1163,7 @@ class NewSSM(HessianUpdateStrategy):
             scale_first=scale_first,
             concat_params=concat_params,
             inverse=True,
+            uses_loss=True,
             inner=inner,
         )
     def update_H(self, H, s, y, p, g, p_prev, g_prev, state, setting):
@@ -1171,13 +1181,18 @@ class NewSSM(HessianUpdateStrategy):
 # this is supposed to be equivalent (and it is)
 def shor_r_(H:torch.Tensor, y:torch.Tensor, alpha:float):
-    p = H@y
-    #(1-y)^2 (ppT)/(pTq)
-    #term = p.outer(p).div_(p.dot(y).clip(min=1e-32))
-    term = p.outer(p).div_(safe_clip(p.dot(y)))
-    H.sub_(term, alpha=1-alpha**2)
+    Hy = H @ y
+    yHy = safe_clip(y.dot(Hy))
+    term = Hy.outer(Hy).div_(yHy)
+    H.sub_(term, alpha=(1-alpha**2))
     return H
+# def projected_gradient_(H:torch.Tensor, y:torch.Tensor):
+#     Hy = H @ y
+#     yHy = safe_clip(y.dot(Hy))
+#     H -= (Hy.outer(y) @ H).div_(yHy)
+#     return H
 class ShorR(HessianUpdateStrategy):
     """Shor’s r-algorithm.

torchzero/modules/quasi_newton/sg2.py CHANGED Viewed

@@ -1,29 +1,39 @@
 import torch
-from ...core import Module, Chainable, apply_transform
-from ...utils import TensorList, vec_to_tensors
-from ..second_order.newton import _newton_step, _get_H
+from ...core import Chainable, Transform
+from ...utils import TensorList, unpack_dicts, unpack_states, vec_to_tensors_
+from ...linalg.linear_operator import Dense
 def sg2_(
     delta_g: torch.Tensor,
     cd: torch.Tensor,
 ) -> torch.Tensor:
-    """cd is c * perturbation, and must be multiplied by two if hessian estimate is two-sided
-    (or divide delta_g by two)."""
+    """cd is c * perturbation."""
-    M = torch.outer(1.0 / cd, delta_g)
+    M = torch.outer(0.5 / cd, delta_g)
     H_hat = 0.5 * (M + M.T)
     return H_hat
-class SG2(Module):
+class SG2(Transform):
     """second-order stochastic gradient
+    2SPSA (second-order SPSA)
+    ```python
+    opt = tz.Optimizer(
+        model.parameters(),
+        tz.m.SPSA(),
+        tz.m.SG2(),
+        tz.m.LR(1e-2),
+    )
+    ```
     SG2 with line search
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.SG2(),
         tz.m.Backtracking()
@@ -32,9 +42,9 @@ class SG2(Module):
     SG2 with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
-        tz.m.LevenbergMarquardt(tz.m.SG2()),
+        tz.m.LevenbergMarquardt(tz.m.SG2(beta=0.75. n_samples=4)),
     )
     ```
@@ -43,61 +53,51 @@ class SG2(Module):
     def __init__(
         self,
         n_samples: int = 1,
-        h: float = 1e-2,
+        n_first_step_samples: int = 10,
+        start_step: int = 10,
         beta: float | None = None,
-        damping: float = 0,
-        eigval_fn=None,
-        one_sided: bool = False, # one-sided hessian
-        use_lstsq: bool = True,
+        damping: float = 1e-4,
+        h: float = 1e-2,
         seed=None,
+        update_freq: int = 1,
         inner: Chainable | None = None,
     ):
-        defaults = dict(n_samples=n_samples, h=h, beta=beta, damping=damping, eigval_fn=eigval_fn, one_sided=one_sided, seed=seed, use_lstsq=use_lstsq)
-        super().__init__(defaults)
-        if inner is not None: self.set_child('inner', inner)
+        defaults = dict(n_samples=n_samples, h=h, beta=beta, damping=damping, seed=seed, start_step=start_step, n_first_step_samples=n_first_step_samples)
+        super().__init__(defaults, update_freq=update_freq, inner=inner)
     @torch.no_grad
-    def update(self, var):
-        k = self.global_state.get('step', 0) + 1
-        self.global_state["step"] = k
+    def update_states(self, objective, states, settings):
+        fs = settings[0]
+        k = self.increment_counter("step", 0)
-        params = TensorList(var.params)
-        closure = var.closure
+        params = TensorList(objective.params)
+        closure = objective.closure
         if closure is None:
             raise RuntimeError("closure is required for SG2")
         generator = self.get_generator(params[0].device, self.defaults["seed"])
-        h = self.get_settings(params, "h")
+        h = unpack_dicts(settings, "h")
         x_0 = params.clone()
-        n_samples = self.defaults["n_samples"]
+        n_samples = fs["n_samples"]
+        if k == 0: n_samples = fs["n_first_step_samples"]
         H_hat = None
+        # compute new approximation
         for i in range(n_samples):
             # generate perturbation
             cd = params.rademacher_like(generator=generator).mul_(h)
-            # one sided
-            if self.defaults["one_sided"]:
-                g_0 = TensorList(var.get_grad())
-                params.add_(cd)
-                closure()
+            # two sided hessian approximation
+            params.add_(cd)
+            closure()
+            g_p = params.grad.fill_none_(params)
-                g_p = params.grad.fill_none_(params)
-                delta_g = (g_p - g_0) * 2
+            params.copy_(x_0)
+            params.sub_(cd)
+            closure()
+            g_n = params.grad.fill_none_(params)
-            # two sided
-            else:
-                params.add_(cd)
-                closure()
-                g_p = params.grad.fill_none_(params)
-                params.copy_(x_0)
-                params.sub_(cd)
-                closure()
-                g_n = params.grad.fill_none_(params)
-                delta_g = g_p - g_n
+            delta_g = g_p - g_n
             # restore params
             params.set_(x_0)
@@ -114,179 +114,43 @@ class SG2(Module):
         assert H_hat is not None
         if n_samples > 1: H_hat /= n_samples
+        # add damping
+        if fs["damping"] != 0:
+            reg = torch.eye(H_hat.size(0), device=H_hat.device, dtype=H_hat.dtype).mul_(fs["damping"])
+            H_hat += reg
         # update H
         H = self.global_state.get("H", None)
         if H is None: H = H_hat
         else:
-            beta = self.defaults["beta"]
-            if beta is None: beta = k / (k+1)
+            beta = fs["beta"]
+            if beta is None: beta = (k+1) / (k+2)
             H.lerp_(H_hat, 1-beta)
         self.global_state["H"] = H
     @torch.no_grad
-    def apply(self, var):
-        dir = _newton_step(
-            var=var,
-            H = self.global_state["H"],
-            damping = self.defaults["damping"],
-            inner = self.children.get("inner", None),
-            H_tfm=None,
-            eigval_fn=self.defaults["eigval_fn"],
-            use_lstsq=self.defaults["use_lstsq"],
-            g_proj=None,
-        )
-        var.update = vec_to_tensors(dir, var.params)
-        return var
-    def get_H(self,var=...):
-        return _get_H(self.global_state["H"], self.defaults["eigval_fn"])
-# two sided
-# we have g via x + d, x - d
-# H via g(x + d), g(x - d)
-# 1 is x, x+2d
-# 2 is x, x-2d
-# 5 evals in total
-# one sided
-# g via x, x + d
-# 1 is x, x + d
-# 2 is x, x - d
-# 3 evals and can use two sided for g_0
-class SPSA2(Module):
-    """second-order SPSA
-    SPSA2 with line search
-    ```python
-    opt = tz.Modular(
-        model.parameters(),
-        tz.m.SPSA2(),
-        tz.m.Backtracking()
-    )
-    ```
-    SPSA2 with trust region
-    ```python
-    opt = tz.Modular(
-        model.parameters(),
-        tz.m.LevenbergMarquardt(tz.m.SPSA2()),
-    )
-    ```
-    """
-    def __init__(
-        self,
-        n_samples: int = 1,
-        h: float = 1e-2,
-        beta: float | None = None,
-        damping: float = 0,
-        eigval_fn=None,
-        use_lstsq: bool = True,
-        seed=None,
-        inner: Chainable | None = None,
-    ):
-        defaults = dict(n_samples=n_samples, h=h, beta=beta, damping=damping, eigval_fn=eigval_fn, seed=seed, use_lstsq=use_lstsq)
-        super().__init__(defaults)
-        if inner is not None: self.set_child('inner', inner)
-    @torch.no_grad
-    def update(self, var):
-        k = self.global_state.get('step', 0) + 1
-        self.global_state["step"] = k
+    def apply_states(self, objective, states, settings):
+        fs = settings[0]
+        updates = objective.get_updates()
-        params = TensorList(var.params)
-        closure = var.closure
-        if closure is None:
-            raise RuntimeError("closure is required for SPSA2")
+        H: torch.Tensor = self.global_state["H"]
+        k = self.global_state["step"]
+        if k < fs["start_step"]:
+            # don't precondition yet
+            # I guess we can try using trace to scale the update
+            # because it will have horrible scaling otherwise
+            torch._foreach_div_(updates, H.trace())
+            return objective
-        generator = self.get_generator(params[0].device, self.defaults["seed"])
+        b = torch.cat([t.ravel() for t in updates])
+        sol = torch.linalg.lstsq(H, b).solution # pylint:disable=not-callable
-        h = self.get_settings(params, "h")
-        x_0 = params.clone()
-        n_samples = self.defaults["n_samples"]
-        H_hat = None
-        g_0 = None
-        for i in range(n_samples):
-            # perturbations for g and H
-            cd_g = params.rademacher_like(generator=generator).mul_(h)
-            cd_H = params.rademacher_like(generator=generator).mul_(h)
-            # evaluate 4 points
-            x_p = x_0 + cd_g
-            x_n = x_0 - cd_g
+        vec_to_tensors_(sol, updates)
+        return objective
-            params.set_(x_p)
-            f_p = closure(False)
-            params.add_(cd_H)
-            f_pp = closure(False)
+    def get_H(self, objective=...):
+        return Dense(self.global_state["H"])
-            params.set_(x_n)
-            f_n = closure(False)
-            params.add_(cd_H)
-            f_np = closure(False)
-            g_p_vec = (f_pp - f_p) / cd_H
-            g_n_vec = (f_np - f_n) / cd_H
-            delta_g = g_p_vec - g_n_vec
-            # restore params
-            params.set_(x_0)
-            # compute grad
-            g_i = (f_p - f_n) / (2 * cd_g)
-            if g_0 is None: g_0 = g_i
-            else: g_0 += g_i
-            # compute H hat
-            H_i = sg2_(
-                delta_g = delta_g.to_vec().div_(2.0),
-                cd = cd_g.to_vec(), # The interval is measured by the original 'cd'
-            )
-            if H_hat is None: H_hat = H_i
-            else: H_hat += H_i
-        assert g_0 is not None and H_hat is not None
-        if n_samples > 1:
-            g_0 /= n_samples
-            H_hat /= n_samples
-        # set grad to approximated grad
-        var.grad = g_0
-        # update H
-        H = self.global_state.get("H", None)
-        if H is None: H = H_hat
-        else:
-            beta = self.defaults["beta"]
-            if beta is None: beta = k / (k+1)
-            H.lerp_(H_hat, 1-beta)
-        self.global_state["H"] = H
-    @torch.no_grad
-    def apply(self, var):
-        dir = _newton_step(
-            var=var,
-            H = self.global_state["H"],
-            damping = self.defaults["damping"],
-            inner = self.children.get("inner", None),
-            H_tfm=None,
-            eigval_fn=self.defaults["eigval_fn"],
-            use_lstsq=self.defaults["use_lstsq"],
-            g_proj=None,
-        )
-        var.update = vec_to_tensors(dir, var.params)
-        return var
-    def get_H(self,var=...):
-        return _get_H(self.global_state["H"], self.defaults["eigval_fn"])

torchzero 0.3.15__py3-none-any.whl → 0.4.1__py3-none-any.whl

torchzero 0.3.15py3-none-any.whl → 0.4.1py3-none-any.whl