PyPI - torchzero - Versions diffs - 0.4.0__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

torchzero 0.4.0py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (112) hide show

tests/test_identical.py +22 -22
tests/test_opts.py +199 -198
torchzero/__init__.py +1 -1
torchzero/core/__init__.py +1 -1
torchzero/core/functional.py +1 -1
torchzero/core/modular.py +5 -5
torchzero/core/module.py +2 -2
torchzero/core/objective.py +10 -10
torchzero/core/transform.py +1 -1
torchzero/linalg/__init__.py +3 -2
torchzero/linalg/eigh.py +223 -4
torchzero/linalg/orthogonalize.py +2 -4
torchzero/linalg/qr.py +12 -0
torchzero/linalg/solve.py +1 -3
torchzero/linalg/svd.py +47 -20
torchzero/modules/__init__.py +4 -3
torchzero/modules/adaptive/__init__.py +11 -3
torchzero/modules/adaptive/adagrad.py +10 -10
torchzero/modules/adaptive/adahessian.py +2 -2
torchzero/modules/adaptive/adam.py +1 -1
torchzero/modules/adaptive/adan.py +1 -1
torchzero/modules/adaptive/adaptive_heavyball.py +1 -1
torchzero/modules/adaptive/esgd.py +2 -2
torchzero/modules/adaptive/ggt.py +186 -0
torchzero/modules/adaptive/lion.py +2 -1
torchzero/modules/adaptive/lre_optimizers.py +299 -0
torchzero/modules/adaptive/mars.py +2 -2
torchzero/modules/adaptive/matrix_momentum.py +1 -1
torchzero/modules/adaptive/msam.py +4 -4
torchzero/modules/adaptive/muon.py +9 -6
torchzero/modules/adaptive/natural_gradient.py +32 -15
torchzero/modules/adaptive/psgd/__init__.py +5 -0
torchzero/modules/adaptive/psgd/_psgd_utils.py +37 -0
torchzero/modules/adaptive/psgd/psgd.py +1390 -0
torchzero/modules/adaptive/psgd/psgd_dense_newton.py +174 -0
torchzero/modules/adaptive/psgd/psgd_kron_newton.py +203 -0
torchzero/modules/adaptive/psgd/psgd_kron_whiten.py +185 -0
torchzero/modules/adaptive/psgd/psgd_lra_newton.py +118 -0
torchzero/modules/adaptive/psgd/psgd_lra_whiten.py +116 -0
torchzero/modules/adaptive/rprop.py +2 -2
torchzero/modules/adaptive/sam.py +4 -4
torchzero/modules/adaptive/shampoo.py +28 -3
torchzero/modules/adaptive/soap.py +3 -3
torchzero/modules/adaptive/sophia_h.py +2 -2
torchzero/modules/clipping/clipping.py +7 -7
torchzero/modules/conjugate_gradient/cg.py +2 -2
torchzero/modules/experimental/__init__.py +5 -0
torchzero/modules/experimental/adanystrom.py +258 -0
torchzero/modules/experimental/common_directions_whiten.py +142 -0
torchzero/modules/experimental/cubic_adam.py +160 -0
torchzero/modules/experimental/eigen_sr1.py +182 -0
torchzero/modules/experimental/eigengrad.py +207 -0
torchzero/modules/experimental/l_infinity.py +1 -1
torchzero/modules/experimental/matrix_nag.py +122 -0
torchzero/modules/experimental/newton_solver.py +2 -2
torchzero/modules/experimental/newtonnewton.py +34 -40
torchzero/modules/grad_approximation/fdm.py +2 -2
torchzero/modules/grad_approximation/rfdm.py +4 -4
torchzero/modules/least_squares/gn.py +68 -45
torchzero/modules/line_search/backtracking.py +2 -2
torchzero/modules/line_search/line_search.py +1 -1
torchzero/modules/line_search/strong_wolfe.py +2 -2
torchzero/modules/misc/escape.py +1 -1
torchzero/modules/misc/gradient_accumulation.py +1 -1
torchzero/modules/misc/misc.py +1 -1
torchzero/modules/misc/multistep.py +4 -7
torchzero/modules/misc/regularization.py +2 -2
torchzero/modules/misc/split.py +1 -1
torchzero/modules/misc/switch.py +2 -2
torchzero/modules/momentum/cautious.py +3 -3
torchzero/modules/momentum/momentum.py +1 -1
torchzero/modules/ops/higher_level.py +1 -1
torchzero/modules/ops/multi.py +1 -1
torchzero/modules/projections/projection.py +5 -2
torchzero/modules/quasi_newton/__init__.py +1 -1
torchzero/modules/quasi_newton/damping.py +1 -1
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +1 -1
torchzero/modules/quasi_newton/lbfgs.py +3 -3
torchzero/modules/quasi_newton/lsr1.py +3 -3
torchzero/modules/quasi_newton/quasi_newton.py +44 -29
torchzero/modules/quasi_newton/sg2.py +69 -205
torchzero/modules/restarts/restars.py +17 -17
torchzero/modules/second_order/inm.py +33 -25
torchzero/modules/second_order/newton.py +132 -130
torchzero/modules/second_order/newton_cg.py +3 -3
torchzero/modules/second_order/nystrom.py +83 -32
torchzero/modules/second_order/rsn.py +41 -44
torchzero/modules/smoothing/laplacian.py +1 -1
torchzero/modules/smoothing/sampling.py +2 -3
torchzero/modules/step_size/adaptive.py +6 -6
torchzero/modules/step_size/lr.py +2 -2
torchzero/modules/trust_region/cubic_regularization.py +1 -1
torchzero/modules/trust_region/levenberg_marquardt.py +2 -2
torchzero/modules/trust_region/trust_cg.py +1 -1
torchzero/modules/variance_reduction/svrg.py +4 -5
torchzero/modules/weight_decay/reinit.py +2 -2
torchzero/modules/weight_decay/weight_decay.py +5 -5
torchzero/modules/wrappers/optim_wrapper.py +4 -4
torchzero/modules/zeroth_order/cd.py +1 -1
torchzero/optim/mbs.py +291 -0
torchzero/optim/wrappers/nevergrad.py +0 -9
torchzero/optim/wrappers/optuna.py +2 -0
torchzero/utils/benchmarks/__init__.py +0 -0
torchzero/utils/benchmarks/logistic.py +122 -0
torchzero/utils/derivatives.py +4 -4
{torchzero-0.4.0.dist-info → torchzero-0.4.1.dist-info}/METADATA +1 -1
torchzero-0.4.1.dist-info/RECORD +209 -0
torchzero/modules/adaptive/lmadagrad.py +0 -241
torchzero-0.4.0.dist-info/RECORD +0 -191
/torchzero/modules/{functional.py → opt_utils.py} +0 -0
{torchzero-0.4.0.dist-info → torchzero-0.4.1.dist-info}/WHEEL +0 -0
{torchzero-0.4.0.dist-info → torchzero-0.4.1.dist-info}/top_level.txt +0 -0

torchzero/modules/misc/split.py CHANGED Viewed

@@ -81,7 +81,7 @@ class Split(Module):
     Muon with Adam fallback using same hyperparams as https://github.com/KellerJordan/Muon
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.NAG(0.95),
         tz.m.Split(

torchzero/modules/misc/switch.py CHANGED Viewed

@@ -19,7 +19,7 @@ class Alternate(Module):
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.Alternate(
             tz.m.Adam(),
@@ -89,7 +89,7 @@ class Switch(Alternate):
     Start with Adam, switch to L-BFGS after 1000th step and Truncated Newton on 2000th step.
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.Switch(
             [tz.m.Adam(), tz.m.LR(1e-3)],

torchzero/modules/momentum/cautious.py CHANGED Viewed

@@ -57,7 +57,7 @@ class Cautious(TensorTransform):
     Cautious Adam
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         bench.parameters(),
         tz.m.Adam(),
         tz.m.Cautious(),
@@ -173,7 +173,7 @@ class ScaleByGradCosineSimilarity(TensorTransform):
     Scaled Adam
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         bench.parameters(),
         tz.m.Adam(),
         tz.m.ScaleByGradCosineSimilarity(),
@@ -211,7 +211,7 @@ class ScaleModulesByCosineSimilarity(Module):
     Adam scaled by similarity to RMSprop
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         bench.parameters(),
         tz.m.ScaleModulesByCosineSimilarity(
             main = tz.m.Adam(),

torchzero/modules/momentum/momentum.py CHANGED Viewed

@@ -6,7 +6,7 @@ import torch
 from ...core import  TensorTransform
 from ...utils import NumberList, TensorList, unpack_dicts, unpack_states
-from ..functional import debias, ema_
+from ..opt_utils import debias, ema_
 class EMA(TensorTransform):

torchzero/modules/ops/higher_level.py CHANGED Viewed

@@ -6,7 +6,7 @@ import torch
 from ...core import  TensorTransform
 from ...utils import NumberList, TensorList, unpack_dicts, unpack_states
-from ..functional import (
+from ..opt_utils import (
     centered_ema_sq_,
     debias,
     debias_second_momentum,

torchzero/modules/ops/multi.py CHANGED Viewed

@@ -144,7 +144,7 @@ class Graft(MultiOperationBase):
     Shampoo grafted to Adam
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.GraftModules(
             direction = tz.m.Shampoo(),

torchzero/modules/projections/projection.py CHANGED Viewed

@@ -149,8 +149,11 @@ class ProjectionBase(Module, ABC):
             Iterable[torch.Tensor]: unprojected tensors of the same shape as params
         """
+    def update(self, objective: Objective): raise RuntimeError("projections don't support update/apply")
+    def apply(self, objective: Objective): raise RuntimeError("projections don't support update/apply")
     @torch.no_grad
-    def apply(self, objective: Objective):
+    def step(self, objective: Objective):
         params = objective.params
         settings = [self.settings[p] for p in params]
@@ -266,7 +269,7 @@ class ProjectionBase(Module, ABC):
         # ----------------------------------- step ----------------------------------- #
         projected_obj.params = projected_params
-        projected_obj = self.children['modules'].apply(projected_obj)
+        projected_obj = self.children['modules'].step(projected_obj)
         # empty fake params storage
         # this doesn't affect update/grad because it is a different python object, set_ changes storage on an object

torchzero/modules/quasi_newton/__init__.py CHANGED Viewed

@@ -30,4 +30,4 @@ from .quasi_newton import (
     ThomasOptimalMethod,
 )
-from .sg2 import SG2, SPSA2
+from .sg2 import SG2

torchzero/modules/quasi_newton/damping.py CHANGED Viewed

@@ -5,7 +5,7 @@ import torch
 from ...utils import TensorList
 from ...linalg.linear_operator import DenseInverse, LinearOperator
-from ..functional import safe_clip
+from ..opt_utils import safe_clip
 class DampingStrategy(Protocol):

torchzero/modules/quasi_newton/diagonal_quasi_newton.py CHANGED Viewed

@@ -9,7 +9,7 @@ from .quasi_newton import (
     _InverseHessianUpdateStrategyDefaults,
 )
-from ..functional import safe_clip
+from ..opt_utils import safe_clip
 def diagonal_bfgs_H_(H:torch.Tensor, s: torch.Tensor, y:torch.Tensor, tol: float):

torchzero/modules/quasi_newton/lbfgs.py CHANGED Viewed

@@ -7,7 +7,7 @@ import torch
 from ...core import Chainable, TensorTransform
 from ...utils import TensorList, as_tensorlist, unpack_states
 from ...linalg.linear_operator import LinearOperator
-from ..functional import initial_step_size
+from ..opt_utils import initial_step_size
 from .damping import DampingStrategyType, apply_damping
@@ -188,7 +188,7 @@ class LBFGS(TensorTransform):
     L-BFGS with line search
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LBFGS(100),
         tz.m.Backtracking()
@@ -197,7 +197,7 @@ class LBFGS(TensorTransform):
     L-BFGS with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.TrustCG(tz.m.LBFGS())
     )

torchzero/modules/quasi_newton/lsr1.py CHANGED Viewed

@@ -7,7 +7,7 @@ import torch
 from ...core import Chainable, Module, TensorTransform, Objective, step
 from ...utils import NumberList, TensorList, as_tensorlist, generic_finfo_tiny, unpack_states, vec_to_tensors_
 from ...linalg.linear_operator import LinearOperator
-from ..functional import initial_step_size
+from ..opt_utils import initial_step_size
 from .damping import DampingStrategyType, apply_damping
@@ -110,7 +110,7 @@ class LSR1(TensorTransform):
     L-SR1 with line search
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.SR1(),
         tz.m.StrongWolfe(c2=0.1, fallback=True)
@@ -119,7 +119,7 @@ class LSR1(TensorTransform):
     L-SR1 with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.TrustCG(tz.m.LSR1())
     )

torchzero/modules/quasi_newton/quasi_newton.py CHANGED Viewed

@@ -8,7 +8,7 @@ import torch
 from ...core import Chainable, Module, TensorTransform, Transform
 from ...utils import TensorList, set_storage_, unpack_states, safe_dict_update_
 from ...linalg import linear_operator
-from ..functional import initial_step_size, safe_clip
+from ..opt_utils import initial_step_size, safe_clip
@@ -106,11 +106,12 @@ class HessianUpdateStrategy(TensorTransform, ABC):
         scale_first: bool = False,
         concat_params: bool = True,
         inverse: bool = True,
+        uses_loss: bool = False,
         inner: Chainable | None = None,
     ):
         if defaults is None: defaults = {}
         safe_dict_update_(defaults, dict(init_scale=init_scale, tol=tol, ptol=ptol, ptol_restart=ptol_restart, gtol=gtol, inverse=inverse, beta=beta, restart_interval=restart_interval, scale_first=scale_first))
-        super().__init__(defaults, uses_grad=False, concat_params=concat_params, update_freq=update_freq, inner=inner)
+        super().__init__(defaults, uses_loss=uses_loss, concat_params=concat_params, update_freq=update_freq, inner=inner)
     def reset_for_online(self):
         super().reset_for_online()
@@ -141,18 +142,22 @@ class HessianUpdateStrategy(TensorTransform, ABC):
         return H
     # ------------------------------ common methods ------------------------------ #
-    def auto_initial_scale(self, s:torch.Tensor,y:torch.Tensor) -> torch.Tensor | float:
+    def auto_initial_scale(self, s:torch.Tensor,y:torch.Tensor) -> torch.Tensor | float | None:
         """returns multiplier to B on 2nd step if ``init_scale='auto'``. H should be divided by this!"""
         ys = y.dot(s)
         yy = y.dot(y)
-        if ys != 0 and yy != 0: return yy/ys
-        return 1
+        tiny = torch.finfo(ys.dtype).tiny * 2
+        if ys > tiny and yy > tiny: return yy/ys
+        return None
-    def reset_P(self, P: torch.Tensor, s:torch.Tensor,y:torch.Tensor, inverse:bool, init_scale: Any, state:dict[str,Any]) -> None:
+    def reset_P(self, P: torch.Tensor, s:torch.Tensor, y:torch.Tensor, inverse:bool, init_scale: Any, state:dict[str,Any]) -> None:
         """resets ``P`` which is either B or H"""
         set_storage_(P, self.initialize_P(s.numel(), device=P.device, dtype=P.dtype, is_inverse=inverse))
-        if init_scale == 'auto': init_scale = self.auto_initial_scale(s,y)
-        if init_scale >= 1:
+        if init_scale == 'auto':
+            init_scale = self.auto_initial_scale(s,y)
+            state["scaled"] = init_scale is not None
+        if init_scale is not None and init_scale != 1:
             if inverse: P /= init_scale
             else: P *= init_scale
@@ -182,6 +187,7 @@ class HessianUpdateStrategy(TensorTransform, ABC):
             state['f_prev'] = loss
             state['p_prev'] = p.clone()
             state['g_prev'] = g.clone()
+            state["scaled"] = False
             return
         state['f'] = loss
@@ -205,9 +211,13 @@ class HessianUpdateStrategy(TensorTransform, ABC):
         if gtol is not None and y.abs().max() <= gtol:
             return
-        if step == 2 and init_scale == 'auto':
-            if inverse: M /= self.auto_initial_scale(s,y)
-            else: M *= self.auto_initial_scale(s,y)
+        # apply automatic initial scale if it hasn't been applied
+        if (not state["scaled"]) and (init_scale == 'auto'):
+            scale = self.auto_initial_scale(s,y)
+            if scale is not None:
+                state["scaled"] = True
+                if inverse: M /= self.auto_initial_scale(s,y)
+                else: M *= self.auto_initial_scale(s,y)
         beta = setting['beta']
         if beta is not None and beta != 0: M = M.clone() # because all of them update it in-place
@@ -367,22 +377,21 @@ def bfgs_B_(B:torch.Tensor, s: torch.Tensor, y:torch.Tensor, tol: float):
     B += term1.sub_(term2)
     return B
-def bfgs_H_(H:torch.Tensor, s: torch.Tensor, y:torch.Tensor, tol: float):
+def bfgs_H_(H: torch.Tensor, s: torch.Tensor, y: torch.Tensor, tol: float):
     sy = s.dot(y)
     if sy <= tol: return H
-    sy_sq = safe_clip(sy**2)
-    Hy = H@y
-    scale1 = (sy + y.dot(Hy)) / sy_sq
-    term1 = s.outer(s).mul_(scale1)
+    rho = 1.0 / sy
+    Hy = H @ y
-    num2 = (Hy.outer(s)).add_(s.outer(y @ H))
-    term2 = num2.div_(sy)
+    term1 = (s.outer(s)).mul_(rho * (1 + rho * y.dot(Hy)))
+    term2 = (Hy.outer(s) + s.outer(Hy)).mul_(rho)
-    H += term1.sub_(term2)
+    H.add_(term1).sub_(term2)
     return H
 class BFGS(_InverseHessianUpdateStrategyDefaults):
     """Broyden–Fletcher–Goldfarb–Shanno Quasi-Newton method. This is usually the most stable quasi-newton method.
@@ -428,7 +437,7 @@ class BFGS(_InverseHessianUpdateStrategyDefaults):
     BFGS with backtracking line search:
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.BFGS(),
         tz.m.Backtracking()
@@ -437,7 +446,7 @@ class BFGS(_InverseHessianUpdateStrategyDefaults):
     BFGS with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LevenbergMarquardt(tz.m.BFGS(inverse=False)),
     )
@@ -505,7 +514,7 @@ class SR1(_InverseHessianUpdateStrategyDefaults):
     SR1 with trust region
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LevenbergMarquardt(tz.m.SR1(inverse=False)),
     )
@@ -1015,7 +1024,7 @@ class GradientCorrection(TensorTransform):
     L-BFGS with gradient correction
     ```python
-    opt = tz.Modular(
+    opt = tz.Optimizer(
         model.parameters(),
         tz.m.LBFGS(inner=tz.m.GradientCorrection()),
         tz.m.Backtracking()
@@ -1154,6 +1163,7 @@ class NewSSM(HessianUpdateStrategy):
             scale_first=scale_first,
             concat_params=concat_params,
             inverse=True,
+            uses_loss=True,
             inner=inner,
         )
     def update_H(self, H, s, y, p, g, p_prev, g_prev, state, setting):
@@ -1171,13 +1181,18 @@ class NewSSM(HessianUpdateStrategy):
 # this is supposed to be equivalent (and it is)
 def shor_r_(H:torch.Tensor, y:torch.Tensor, alpha:float):
-    p = H@y
-    #(1-y)^2 (ppT)/(pTq)
-    #term = p.outer(p).div_(p.dot(y).clip(min=1e-32))
-    term = p.outer(p).div_(safe_clip(p.dot(y)))
-    H.sub_(term, alpha=1-alpha**2)
+    Hy = H @ y
+    yHy = safe_clip(y.dot(Hy))
+    term = Hy.outer(Hy).div_(yHy)
+    H.sub_(term, alpha=(1-alpha**2))
     return H
+# def projected_gradient_(H:torch.Tensor, y:torch.Tensor):
+#     Hy = H @ y
+#     yHy = safe_clip(y.dot(Hy))
+#     H -= (Hy.outer(y) @ H).div_(yHy)
+#     return H
 class ShorR(HessianUpdateStrategy):
     """Shor’s r-algorithm.

torchzero 0.4.0__py3-none-any.whl → 0.4.1__py3-none-any.whl

torchzero 0.4.0py3-none-any.whl → 0.4.1py3-none-any.whl