PyPI - torchzero - Versions diffs - 0.3.14__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

torchzero 0.3.14py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (169) hide show

tests/test_identical.py +2 -2
tests/test_module_autograd.py +586 -0
tests/test_objective.py +188 -0
tests/test_opts.py +47 -36
tests/test_tensorlist.py +0 -8
tests/test_utils_optimizer.py +0 -1
torchzero/__init__.py +1 -1
torchzero/core/__init__.py +8 -2
torchzero/core/chain.py +47 -0
torchzero/core/functional.py +103 -0
torchzero/core/modular.py +233 -0
torchzero/core/module.py +132 -643
torchzero/core/objective.py +948 -0
torchzero/core/reformulation.py +56 -23
torchzero/core/transform.py +261 -365
torchzero/linalg/__init__.py +10 -0
torchzero/linalg/eigh.py +34 -0
torchzero/linalg/linalg_utils.py +14 -0
torchzero/{utils/linalg → linalg}/linear_operator.py +132 -34
torchzero/linalg/matrix_power.py +28 -0
torchzero/linalg/orthogonalize.py +95 -0
torchzero/{utils/linalg → linalg}/qr.py +4 -2
torchzero/{utils/linalg → linalg}/solve.py +76 -88
torchzero/linalg/svd.py +20 -0
torchzero/linalg/torch_linalg.py +168 -0
torchzero/modules/__init__.py +0 -1
torchzero/modules/adaptive/__init__.py +1 -1
torchzero/modules/adaptive/adagrad.py +163 -213
torchzero/modules/adaptive/adahessian.py +74 -103
torchzero/modules/adaptive/adam.py +53 -76
torchzero/modules/adaptive/adan.py +49 -30
torchzero/modules/adaptive/adaptive_heavyball.py +11 -6
torchzero/modules/adaptive/aegd.py +12 -12
torchzero/modules/adaptive/esgd.py +98 -119
torchzero/modules/adaptive/lion.py +5 -10
torchzero/modules/adaptive/lmadagrad.py +87 -32
torchzero/modules/adaptive/mars.py +5 -5
torchzero/modules/adaptive/matrix_momentum.py +47 -51
torchzero/modules/adaptive/msam.py +70 -52
torchzero/modules/adaptive/muon.py +59 -124
torchzero/modules/adaptive/natural_gradient.py +33 -28
torchzero/modules/adaptive/orthograd.py +11 -15
torchzero/modules/adaptive/rmsprop.py +83 -75
torchzero/modules/adaptive/rprop.py +48 -47
torchzero/modules/adaptive/sam.py +55 -45
torchzero/modules/adaptive/shampoo.py +123 -129
torchzero/modules/adaptive/soap.py +207 -143
torchzero/modules/adaptive/sophia_h.py +106 -130
torchzero/modules/clipping/clipping.py +15 -18
torchzero/modules/clipping/ema_clipping.py +31 -25
torchzero/modules/clipping/growth_clipping.py +14 -17
torchzero/modules/conjugate_gradient/cg.py +26 -37
torchzero/modules/experimental/__init__.py +3 -6
torchzero/modules/experimental/coordinate_momentum.py +36 -0
torchzero/modules/experimental/curveball.py +25 -41
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/{higher_order → experimental}/higher_order_newton.py +14 -40
torchzero/modules/experimental/newton_solver.py +22 -53
torchzero/modules/experimental/newtonnewton.py +20 -17
torchzero/modules/experimental/reduce_outward_lr.py +7 -7
torchzero/modules/experimental/scipy_newton_cg.py +21 -24
torchzero/modules/experimental/spsa1.py +5 -5
torchzero/modules/experimental/structural_projections.py +1 -4
torchzero/modules/functional.py +8 -1
torchzero/modules/grad_approximation/forward_gradient.py +7 -7
torchzero/modules/grad_approximation/grad_approximator.py +23 -16
torchzero/modules/grad_approximation/rfdm.py +20 -17
torchzero/modules/least_squares/gn.py +90 -42
torchzero/modules/line_search/__init__.py +1 -1
torchzero/modules/line_search/_polyinterp.py +3 -1
torchzero/modules/line_search/adaptive.py +3 -3
torchzero/modules/line_search/backtracking.py +3 -3
torchzero/modules/line_search/interpolation.py +160 -0
torchzero/modules/line_search/line_search.py +42 -51
torchzero/modules/line_search/strong_wolfe.py +5 -5
torchzero/modules/misc/debug.py +12 -12
torchzero/modules/misc/escape.py +10 -10
torchzero/modules/misc/gradient_accumulation.py +10 -78
torchzero/modules/misc/homotopy.py +16 -8
torchzero/modules/misc/misc.py +120 -122
torchzero/modules/misc/multistep.py +63 -61
torchzero/modules/misc/regularization.py +49 -44
torchzero/modules/misc/split.py +30 -28
torchzero/modules/misc/switch.py +37 -32
torchzero/modules/momentum/averaging.py +14 -14
torchzero/modules/momentum/cautious.py +34 -28
torchzero/modules/momentum/momentum.py +11 -11
torchzero/modules/ops/__init__.py +4 -4
torchzero/modules/ops/accumulate.py +21 -21
torchzero/modules/ops/binary.py +67 -66
torchzero/modules/ops/higher_level.py +19 -19
torchzero/modules/ops/multi.py +44 -41
torchzero/modules/ops/reduce.py +26 -23
torchzero/modules/ops/unary.py +53 -53
torchzero/modules/ops/utility.py +47 -46
torchzero/modules/projections/galore.py +1 -1
torchzero/modules/projections/projection.py +43 -43
torchzero/modules/quasi_newton/__init__.py +2 -0
torchzero/modules/quasi_newton/damping.py +1 -1
torchzero/modules/quasi_newton/lbfgs.py +7 -7
torchzero/modules/quasi_newton/lsr1.py +7 -7
torchzero/modules/quasi_newton/quasi_newton.py +25 -16
torchzero/modules/quasi_newton/sg2.py +292 -0
torchzero/modules/restarts/restars.py +26 -24
torchzero/modules/second_order/__init__.py +6 -3
torchzero/modules/second_order/ifn.py +58 -0
torchzero/modules/second_order/inm.py +101 -0
torchzero/modules/second_order/multipoint.py +40 -80
torchzero/modules/second_order/newton.py +105 -228
torchzero/modules/second_order/newton_cg.py +102 -154
torchzero/modules/second_order/nystrom.py +158 -178
torchzero/modules/second_order/rsn.py +237 -0
torchzero/modules/smoothing/laplacian.py +13 -12
torchzero/modules/smoothing/sampling.py +11 -10
torchzero/modules/step_size/adaptive.py +23 -23
torchzero/modules/step_size/lr.py +15 -15
torchzero/modules/termination/termination.py +32 -30
torchzero/modules/trust_region/cubic_regularization.py +2 -2
torchzero/modules/trust_region/levenberg_marquardt.py +25 -28
torchzero/modules/trust_region/trust_cg.py +1 -1
torchzero/modules/trust_region/trust_region.py +27 -22
torchzero/modules/variance_reduction/svrg.py +21 -18
torchzero/modules/weight_decay/__init__.py +2 -1
torchzero/modules/weight_decay/reinit.py +83 -0
torchzero/modules/weight_decay/weight_decay.py +12 -13
torchzero/modules/wrappers/optim_wrapper.py +57 -50
torchzero/modules/zeroth_order/cd.py +9 -6
torchzero/optim/root.py +3 -3
torchzero/optim/utility/split.py +2 -1
torchzero/optim/wrappers/directsearch.py +27 -63
torchzero/optim/wrappers/fcmaes.py +14 -35
torchzero/optim/wrappers/mads.py +11 -31
torchzero/optim/wrappers/moors.py +66 -0
torchzero/optim/wrappers/nevergrad.py +4 -4
torchzero/optim/wrappers/nlopt.py +31 -25
torchzero/optim/wrappers/optuna.py +6 -13
torchzero/optim/wrappers/pybobyqa.py +124 -0
torchzero/optim/wrappers/scipy/__init__.py +7 -0
torchzero/optim/wrappers/scipy/basin_hopping.py +117 -0
torchzero/optim/wrappers/scipy/brute.py +48 -0
torchzero/optim/wrappers/scipy/differential_evolution.py +80 -0
torchzero/optim/wrappers/scipy/direct.py +69 -0
torchzero/optim/wrappers/scipy/dual_annealing.py +115 -0
torchzero/optim/wrappers/scipy/experimental.py +141 -0
torchzero/optim/wrappers/scipy/minimize.py +151 -0
torchzero/optim/wrappers/scipy/sgho.py +111 -0
torchzero/optim/wrappers/wrapper.py +121 -0
torchzero/utils/__init__.py +7 -25
torchzero/utils/compile.py +2 -2
torchzero/utils/derivatives.py +112 -88
torchzero/utils/optimizer.py +4 -77
torchzero/utils/python_tools.py +31 -0
torchzero/utils/tensorlist.py +11 -5
torchzero/utils/thoad_tools.py +68 -0
{torchzero-0.3.14.dist-info → torchzero-0.4.0.dist-info}/METADATA +1 -1
torchzero-0.4.0.dist-info/RECORD +191 -0
tests/test_vars.py +0 -185
torchzero/modules/experimental/momentum.py +0 -160
torchzero/modules/higher_order/__init__.py +0 -1
torchzero/optim/wrappers/scipy.py +0 -572
torchzero/utils/linalg/__init__.py +0 -12
torchzero/utils/linalg/matrix_funcs.py +0 -87
torchzero/utils/linalg/orthogonalize.py +0 -12
torchzero/utils/linalg/svd.py +0 -20
torchzero/utils/ops.py +0 -10
torchzero-0.3.14.dist-info/RECORD +0 -167
/torchzero/{utils/linalg → linalg}/benchmark.py +0 -0
{torchzero-0.3.14.dist-info → torchzero-0.4.0.dist-info}/WHEEL +0 -0
{torchzero-0.3.14.dist-info → torchzero-0.4.0.dist-info}/top_level.txt +0 -0

torchzero/modules/misc/homotopy.py CHANGED Viewed

@@ -13,27 +13,27 @@ class HomotopyBase(Module):
         """transform the loss"""
     @torch.no_grad
-    def step(self, var):
-        if var.loss is not None:
-            var.loss = self.loss_transform(var.loss)
+    def apply(self, objective):
+        if objective.loss is not None:
+            objective.loss = self.loss_transform(objective.loss)
-        closure = var.closure
+        closure = objective.closure
         if closure is None: raise RuntimeError("SquareHomotopy requires closure")
         def homotopy_closure(backward=True):
             if backward:
                 with torch.enable_grad():
                     loss = self.loss_transform(closure(False))
-                    grad = torch.autograd.grad(loss, var.params, allow_unused=True)
-                    for p,g in zip(var.params, grad):
+                    grad = torch.autograd.grad(loss, objective.params, allow_unused=True)
+                    for p,g in zip(objective.params, grad):
                         p.grad = g
             else:
                 loss = self.loss_transform(closure(False))
             return loss
-        var.closure = homotopy_closure
-        return var
+        objective.closure = homotopy_closure
+        return objective
 class SquareHomotopy(HomotopyBase):
     def __init__(self): super().__init__()
@@ -57,3 +57,11 @@ class LambdaHomotopy(HomotopyBase):
         super().__init__(defaults)
     def loss_transform(self, loss): return self.defaults['fn'](loss)
+class FixedLossHomotopy(HomotopyBase):
+    def __init__(self, value: float = 1):
+        defaults = dict(value=value)
+        super().__init__(defaults)
+    def loss_transform(self, loss): return loss / loss.detach().clip(min=torch.finfo(loss.dtype).tiny * 2)

torchzero/modules/misc/misc.py CHANGED Viewed

@@ -6,7 +6,7 @@ from typing import Literal
 import torch
-from ...core import Chainable, Module, Target, TensorwiseTransform, Transform, Var
+from ...core import Chainable, Module,  TensorTransform, Transform, Objective
 from ...utils import (
     Distributions,
     Metrics,
@@ -19,15 +19,15 @@ from ...utils import (
 )
-class Previous(TensorwiseTransform):
+class Previous(TensorTransform):
     """Maintains an update from n steps back, for example if n=1, returns previous update"""
-    def __init__(self, n=1, target: Target = 'update'):
+    def __init__(self, n=1):
         defaults = dict(n=n)
-        super().__init__(uses_grad=False, defaults=defaults, target=target)
+        super().__init__(defaults=defaults)
     @torch.no_grad
-    def apply_tensor(self, tensor, param, grad, loss, state, setting):
+    def single_tensor_apply(self, tensor, param, grad, loss, state, setting):
         n = setting['n']
         if 'history' not in state:
@@ -38,13 +38,13 @@ class Previous(TensorwiseTransform):
         return state['history'][0]
-class LastDifference(Transform):
+class LastDifference(TensorTransform):
     """Outputs difference between past two updates."""
-    def __init__(self,target: Target = 'update'):
-        super().__init__({}, target=target)
+    def __init__(self,):
+        super().__init__()
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         prev_tensors = unpack_states(states, tensors, 'prev_tensors') # initialized to 0
         difference = torch._foreach_sub(tensors, prev_tensors)
         for p, c in zip(prev_tensors, tensors): p.set_(c)
@@ -53,16 +53,16 @@ class LastDifference(Transform):
 class LastGradDifference(Module):
     """Outputs difference between past two gradients."""
     def __init__(self):
-        super().__init__({})
+        super().__init__()
     @torch.no_grad
-    def step(self, var):
-        grad = var.get_grad()
-        prev_grad = self.get_state(var.params, 'prev_grad') # initialized to 0
+    def apply(self, objective):
+        grad = objective.get_grads()
+        prev_grad = self.get_state(objective.params, 'prev_grad') # initialized to 0
         difference = torch._foreach_sub(grad, prev_grad)
         for p, c in zip(prev_grad, grad): p.copy_(c)
-        var.update = list(difference)
-        return var
+        objective.updates = list(difference)
+        return objective
 class LastParamDifference(Module):
     """Outputs difference between past two parameters, which is the effective previous update."""
@@ -70,36 +70,36 @@ class LastParamDifference(Module):
         super().__init__({})
     @torch.no_grad
-    def step(self, var):
-        params = var.params
-        prev_params = self.get_state(var.params, 'prev_params') # initialized to 0
+    def apply(self, objective):
+        params = objective.params
+        prev_params = self.get_state(objective.params, 'prev_params') # initialized to 0
         difference = torch._foreach_sub(params, prev_params)
         for p, c in zip(prev_params, params): p.copy_(c)
-        var.update = list(difference)
-        return var
+        objective.updates = list(difference)
+        return objective
-class LastProduct(Transform):
+class LastProduct(TensorTransform):
     """Outputs difference between past two updates."""
-    def __init__(self,target: Target = 'update'):
-        super().__init__({}, uses_grad=False, target=target)
+    def __init__(self):
+        super().__init__()
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         prev = unpack_states(states, tensors, 'prev', init=torch.ones_like) # initialized to 1 for prod
         prod = torch._foreach_mul(tensors, prev)
         for p, c in zip(prev, tensors): p.set_(c)
         return prod
-class LastRatio(Transform):
-    """Outputs ratio between past two updates, the numerator is determined by :code:`numerator` argument."""
-    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', target: Target = 'update'):
+class LastRatio(TensorTransform):
+    """Outputs ratio between past two updates, the numerator is determined by ``numerator`` argument."""
+    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur'):
         defaults = dict(numerator=numerator)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         prev = unpack_states(states, tensors, 'prev', init = torch.ones_like) # initialized to ones
         numerator = settings[0]['numerator']
         if numerator == 'cur': ratio = torch._foreach_div(tensors, prev)
@@ -107,14 +107,14 @@ class LastRatio(Transform):
         for p, c in zip(prev, tensors): p.set_(c)
         return ratio
-class LastAbsoluteRatio(Transform):
-    """Outputs ratio between absolute values of past two updates the numerator is determined by :code:`numerator` argument."""
-    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', eps:float=1e-8, target: Target = 'update'):
+class LastAbsoluteRatio(TensorTransform):
+    """Outputs ratio between absolute values of past two updates the numerator is determined by ``numerator`` argument."""
+    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', eps:float=1e-8):
         defaults = dict(numerator=numerator, eps=eps)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         prev = unpack_states(states, tensors, 'prev', init = torch.ones_like) # initialized to ones
         numerator = settings[0]['numerator']
         eps = NumberList(s['eps'] for s in settings)
@@ -127,139 +127,139 @@ class LastAbsoluteRatio(Transform):
         for p, c in zip(prev, tensors): p.set_(c)
         return ratio
-class GradSign(Transform):
+class GradSign(TensorTransform):
     """Copies gradient sign to update."""
-    def __init__(self, target: Target = 'update'):
-        super().__init__({}, uses_grad=True, target=target)
+    def __init__(self):
+        super().__init__(uses_grad=True)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
         return [t.copysign_(g) for t,g in zip(tensors, grads)]
-class UpdateSign(Transform):
+class UpdateSign(TensorTransform):
     """Outputs gradient with sign copied from the update."""
-    def __init__(self, target: Target = 'update'):
-        super().__init__({}, uses_grad=True, target=target)
+    def __init__(self):
+        super().__init__(uses_grad=True)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
         return [g.copysign(t) for t,g in zip(tensors, grads)] # no in-place
-class GraftToGrad(Transform):
+class GraftToGrad(TensorTransform):
     """Grafts update to the gradient, that is update is rescaled to have the same norm as the gradient."""
-    def __init__(self, tensorwise:bool=False, ord:Metrics=2, eps:float = 1e-6, target: Target = 'update'):
+    def __init__(self, tensorwise:bool=False, ord:Metrics=2, eps:float = 1e-6):
         defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
-        super().__init__(defaults, uses_grad=True, target=target)
+        super().__init__(defaults, uses_grad=True)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
         tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(settings[0])
         return TensorList(tensors).graft_(grads, tensorwise=tensorwise, ord=ord, eps=eps)
-class GraftGradToUpdate(Transform):
+class GraftGradToUpdate(TensorTransform):
     """Outputs gradient grafted to update, that is gradient rescaled to have the same norm as the update."""
-    def __init__(self, tensorwise:bool=False, ord:Metrics=2, eps:float = 1e-6, target: Target = 'update'):
+    def __init__(self, tensorwise:bool=False, ord:Metrics=2, eps:float = 1e-6):
         defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
-        super().__init__(defaults, uses_grad=True, target=target)
+        super().__init__(defaults, uses_grad=True)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
         tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(settings[0])
         return TensorList(grads).graft(tensors, tensorwise=tensorwise, ord=ord, eps=eps)
-class GraftToParams(Transform):
-    """Grafts update to the parameters, that is update is rescaled to have the same norm as the parameters, but no smaller than :code:`eps`."""
-    def __init__(self, tensorwise:bool=False, ord:Metrics=2, eps:float = 1e-4, target: Target = 'update'):
+class GraftToParams(TensorTransform):
+    """Grafts update to the parameters, that is update is rescaled to have the same norm as the parameters, but no smaller than ``eps``."""
+    def __init__(self, tensorwise:bool=False, ord:Metrics=2, eps:float = 1e-4):
         defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(settings[0])
         return TensorList(tensors).graft_(params, tensorwise=tensorwise, ord=ord, eps=eps)
-class Relative(Transform):
-    """Multiplies update by absolute parameter values to make it relative to their magnitude, :code:`min_value` is minimum allowed value to avoid getting stuck at 0."""
-    def __init__(self, min_value:float = 1e-4, target: Target = 'update'):
+class Relative(TensorTransform):
+    """Multiplies update by absolute parameter values to make it relative to their magnitude, ``min_value`` is minimum allowed value to avoid getting stuck at 0."""
+    def __init__(self, min_value:float = 1e-4):
         defaults = dict(min_value=min_value)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         mul = TensorList(params).abs().clamp_([s['min_value'] for s in settings])
         torch._foreach_mul_(tensors, mul)
         return tensors
 class FillLoss(Module):
-    """Outputs tensors filled with loss value times :code:`alpha`"""
+    """Outputs tensors filled with loss value times ``alpha``"""
     def __init__(self, alpha: float = 1, backward: bool = True):
         defaults = dict(alpha=alpha, backward=backward)
         super().__init__(defaults)
     @torch.no_grad
-    def step(self, var):
-        alpha = self.get_settings(var.params, 'alpha')
-        loss = var.get_loss(backward=self.defaults['backward'])
-        var.update = [torch.full_like(p, loss*a) for p,a in zip(var.params, alpha)]
-        return var
-class MulByLoss(Module):
-    """Multiplies update by loss times :code:`alpha`"""
-    def __init__(self, alpha: float = 1, min_value:float = 1e-8, backward: bool = True):
+    def apply(self, objective):
+        alpha = self.get_settings(objective.params, 'alpha')
+        loss = objective.get_loss(backward=self.defaults['backward'])
+        objective.updates = [torch.full_like(p, loss*a) for p,a in zip(objective.params, alpha)]
+        return objective
+class MulByLoss(TensorTransform):
+    """Multiplies update by loss times ``alpha``"""
+    def __init__(self, alpha: float = 1, min_value:float = 1e-16, backward: bool = True):
         defaults = dict(alpha=alpha, min_value=min_value, backward=backward)
-        super().__init__(defaults)
+        super().__init__(defaults, uses_loss=True)
     @torch.no_grad
-    def step(self, var):
-        alpha, min_value = self.get_settings(var.params, 'alpha', 'min_value')
-        loss = var.get_loss(backward=self.defaults['backward'])
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
+        assert loss is not None
+        alpha, min_value = unpack_dicts(settings, 'alpha', 'min_value')
         mul = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
-        torch._foreach_mul_(var.update, mul)
-        return var
+        torch._foreach_mul_(tensors, mul)
+        return tensors
-class DivByLoss(Module):
-    """Divides update by loss times :code:`alpha`"""
-    def __init__(self, alpha: float = 1, min_value:float = 1e-8, backward: bool = True):
+class DivByLoss(TensorTransform):
+    """Divides update by loss times ``alpha``"""
+    def __init__(self, alpha: float = 1, min_value:float = 1e-16, backward: bool = True):
         defaults = dict(alpha=alpha, min_value=min_value, backward=backward)
-        super().__init__(defaults)
+        super().__init__(defaults, uses_loss=True)
     @torch.no_grad
-    def step(self, var):
-        alpha, min_value = self.get_settings(var.params, 'alpha', 'min_value')
-        loss = var.get_loss(backward=self.defaults['backward'])
-        mul = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
-        torch._foreach_div_(var.update, mul)
-        return var
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
+        assert loss is not None
+        alpha, min_value = unpack_dicts(settings, 'alpha', 'min_value')
+        denom = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
+        torch._foreach_div_(tensors, denom)
+        return tensors
-class NoiseSign(Transform):
+class NoiseSign(TensorTransform):
     """Outputs random tensors with sign copied from the update."""
     def __init__(self, distribution:Distributions = 'normal', variance:float | None = None):
         defaults = dict(distribution=distribution, variance=variance)
-        super().__init__(defaults, uses_grad=False)
+        super().__init__(defaults)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         variance = unpack_dicts(settings, 'variance')
         return TensorList(tensors).sample_like(settings[0]['distribution'], variance=variance).copysign_(tensors)
-class HpuEstimate(Transform):
+class HpuEstimate(TensorTransform):
     """returns ``y/||s||``, where ``y`` is difference between current and previous update (gradient), ``s`` is difference between current and previous parameters. The returned tensors are a finite difference approximation to hessian times previous update."""
     def __init__(self):
         defaults = dict()
-        super().__init__(defaults, uses_grad=False)
+        super().__init__(defaults)
     def reset_for_online(self):
         super().reset_for_online()
         self.clear_state_keys('prev_params', 'prev_update')
     @torch.no_grad
-    def update_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_update(self, tensors, params, grads, loss, states, settings):
         prev_params, prev_update = self.get_state(params, 'prev_params', 'prev_update') # initialized to 0
         s = torch._foreach_sub(params, prev_params)
         y = torch._foreach_sub(tensors, prev_update)
@@ -269,50 +269,48 @@ class HpuEstimate(Transform):
         self.store(params, 'y', y)
     @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+    def multi_tensor_apply(self, tensors, params, grads, loss, states, settings):
         return [self.state[p]['y'] for p in params]
 class RandomHvp(Module):
-    """Returns a hessian-vector product with a random vector"""
+    """Returns a hessian-vector product with a random vector, optionally times vector"""
     def __init__(
         self,
         n_samples: int = 1,
         distribution: Distributions = "normal",
         update_freq: int = 1,
-        hvp_method: Literal["autograd", "forward", "central"] = "autograd",
+        zHz: bool = False,
+        hvp_method: Literal["autograd", "fd_forward", "central"] = "autograd",
         h=1e-3,
+        seed: int | None = None
     ):
-        defaults = dict(n_samples=n_samples, distribution=distribution, hvp_method=hvp_method, h=h, update_freq=update_freq)
+        defaults = locals().copy()
+        del defaults['self']
         super().__init__(defaults)
     @torch.no_grad
-    def step(self, var):
-        params = TensorList(var.params)
-        settings = self.settings[params[0]]
-        n_samples = settings['n_samples']
-        distribution = settings['distribution']
-        hvp_method = settings['hvp_method']
-        h = settings['h']
-        update_freq = settings['update_freq']
+    def apply(self, objective):
+        params = TensorList(objective.params)
         step = self.global_state.get('step', 0)
         self.global_state['step'] = step + 1
         D = None
+        update_freq = self.defaults['update_freq']
         if step % update_freq == 0:
-            rgrad = None
-            for i in range(n_samples):
-                u = params.sample_like(distribution=distribution, variance=1)
-                Hvp, rgrad = self.Hvp(u, at_x0=True, var=var, rgrad=rgrad, hvp_method=hvp_method,
-                                    h=h, normalize=True, retain_grad=i < n_samples-1)
-                if D is None: D = Hvp
-                else: torch._foreach_add_(D, Hvp)
+            D, _ = objective.hutchinson_hessian(
+                rgrad = None,
+                at_x0 = True,
+                n_samples = self.defaults['n_samples'],
+                distribution = self.defaults['distribution'],
+                hvp_method = self.defaults['hvp_method'],
+                h = self.defaults['h'],
+                zHz = self.defaults["zHz"],
+                generator = self.get_generator(params[0].device, self.defaults["seed"]),
+            )
-            if n_samples > 1: torch._foreach_div_(D, n_samples)
             if update_freq != 1:
                 assert D is not None
                 D_buf = self.get_state(params, "D", cls=TensorList)
@@ -321,8 +319,8 @@ class RandomHvp(Module):
         if D is None:
             D = self.get_state(params, "D", cls=TensorList)
-        var.update = list(D)
-        return var
+        objective.updates = list(D)
+        return objective
 @torch.no_grad
 def _load_best_parameters(params: Sequence[torch.Tensor], best_params: Sequence[torch.Tensor]):
@@ -370,14 +368,14 @@ class SaveBest(Module):
         super().__init__()
     @torch.no_grad
-    def step(self, var):
-        loss = tofloat(var.get_loss(False))
+    def apply(self, objective):
+        loss = tofloat(objective.get_loss(False))
         lowest_loss = self.global_state.get('lowest_loss', float("inf"))
         if loss < lowest_loss:
             self.global_state['lowest_loss'] = loss
-            best_params = var.attrs['best_params'] = [p.clone() for p in var.params]
-            var.attrs['best_loss'] = loss
-            var.attrs['load_best_params'] = partial(_load_best_parameters, params=var.params, best_params=best_params)
+            best_params = objective.attrs['best_params'] = [p.clone() for p in objective.params]
+            objective.attrs['best_loss'] = loss
+            objective.attrs['load_best_params'] = partial(_load_best_parameters, params=objective.params, best_params=best_params)
-        return var
+        return objective

torchzero 0.3.14__py3-none-any.whl → 0.4.0__py3-none-any.whl

torchzero 0.3.14py3-none-any.whl → 0.4.0py3-none-any.whl