PyPI - torchzero - Versions diffs - 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl - Mend

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (153) hide show

docs/source/conf.py +6 -4
docs/source/docstring template.py +46 -0
tests/test_identical.py +2 -3
tests/test_opts.py +115 -68
tests/test_tensorlist.py +2 -2
tests/test_vars.py +62 -61
torchzero/core/__init__.py +2 -3
torchzero/core/module.py +185 -53
torchzero/core/transform.py +327 -159
torchzero/modules/__init__.py +3 -1
torchzero/modules/clipping/clipping.py +120 -23
torchzero/modules/clipping/ema_clipping.py +37 -22
torchzero/modules/clipping/growth_clipping.py +20 -21
torchzero/modules/experimental/__init__.py +30 -4
torchzero/modules/experimental/absoap.py +53 -156
torchzero/modules/experimental/adadam.py +22 -15
torchzero/modules/experimental/adamY.py +21 -25
torchzero/modules/experimental/adam_lambertw.py +149 -0
torchzero/modules/{line_search/trust_region.py → experimental/adaptive_step_size.py} +37 -8
torchzero/modules/experimental/adasoap.py +24 -129
torchzero/modules/experimental/cosine.py +214 -0
torchzero/modules/experimental/cubic_adam.py +97 -0
torchzero/modules/experimental/curveball.py +12 -12
torchzero/modules/{projections → experimental}/dct.py +11 -11
torchzero/modules/experimental/eigendescent.py +120 -0
torchzero/modules/experimental/etf.py +195 -0
torchzero/modules/experimental/exp_adam.py +113 -0
torchzero/modules/experimental/expanded_lbfgs.py +141 -0
torchzero/modules/{projections → experimental}/fft.py +10 -10
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/hnewton.py +85 -0
torchzero/modules/{quasi_newton/experimental → experimental}/modular_lbfgs.py +49 -50
torchzero/modules/experimental/newton_solver.py +11 -11
torchzero/modules/experimental/newtonnewton.py +92 -0
torchzero/modules/experimental/parabolic_search.py +220 -0
torchzero/modules/experimental/reduce_outward_lr.py +10 -7
torchzero/modules/{projections/structural.py → experimental/structural_projections.py} +12 -54
torchzero/modules/experimental/subspace_preconditioners.py +20 -10
torchzero/modules/experimental/tensor_adagrad.py +42 -0
torchzero/modules/functional.py +12 -2
torchzero/modules/grad_approximation/fdm.py +31 -4
torchzero/modules/grad_approximation/forward_gradient.py +17 -7
torchzero/modules/grad_approximation/grad_approximator.py +69 -24
torchzero/modules/grad_approximation/rfdm.py +310 -50
torchzero/modules/higher_order/__init__.py +1 -0
torchzero/modules/higher_order/higher_order_newton.py +319 -0
torchzero/modules/line_search/__init__.py +4 -4
torchzero/modules/line_search/adaptive.py +99 -0
torchzero/modules/line_search/backtracking.py +75 -31
torchzero/modules/line_search/line_search.py +107 -49
torchzero/modules/line_search/polynomial.py +233 -0
torchzero/modules/line_search/scipy.py +20 -5
torchzero/modules/line_search/strong_wolfe.py +52 -36
torchzero/modules/misc/__init__.py +27 -0
torchzero/modules/misc/debug.py +48 -0
torchzero/modules/misc/escape.py +60 -0
torchzero/modules/misc/gradient_accumulation.py +70 -0
torchzero/modules/misc/misc.py +316 -0
torchzero/modules/misc/multistep.py +158 -0
torchzero/modules/misc/regularization.py +171 -0
torchzero/modules/misc/split.py +103 -0
torchzero/modules/{ops → misc}/switch.py +48 -7
torchzero/modules/momentum/__init__.py +1 -1
torchzero/modules/momentum/averaging.py +25 -10
torchzero/modules/momentum/cautious.py +115 -40
torchzero/modules/momentum/ema.py +92 -41
torchzero/modules/momentum/experimental.py +21 -13
torchzero/modules/momentum/matrix_momentum.py +145 -76
torchzero/modules/momentum/momentum.py +25 -4
torchzero/modules/ops/__init__.py +3 -31
torchzero/modules/ops/accumulate.py +51 -25
torchzero/modules/ops/binary.py +108 -62
torchzero/modules/ops/multi.py +95 -34
torchzero/modules/ops/reduce.py +31 -23
torchzero/modules/ops/unary.py +37 -21
torchzero/modules/ops/utility.py +53 -45
torchzero/modules/optimizers/__init__.py +12 -3
torchzero/modules/optimizers/adagrad.py +48 -29
torchzero/modules/optimizers/adahessian.py +223 -0
torchzero/modules/optimizers/adam.py +35 -37
torchzero/modules/optimizers/adan.py +110 -0
torchzero/modules/optimizers/adaptive_heavyball.py +57 -0
torchzero/modules/optimizers/esgd.py +171 -0
torchzero/modules/optimizers/ladagrad.py +183 -0
torchzero/modules/optimizers/lion.py +4 -4
torchzero/modules/optimizers/mars.py +91 -0
torchzero/modules/optimizers/msam.py +186 -0
torchzero/modules/optimizers/muon.py +32 -7
torchzero/modules/optimizers/orthograd.py +4 -5
torchzero/modules/optimizers/rmsprop.py +19 -19
torchzero/modules/optimizers/rprop.py +89 -52
torchzero/modules/optimizers/sam.py +163 -0
torchzero/modules/optimizers/shampoo.py +55 -27
torchzero/modules/optimizers/soap.py +40 -37
torchzero/modules/optimizers/sophia_h.py +82 -25
torchzero/modules/projections/__init__.py +2 -4
torchzero/modules/projections/cast.py +51 -0
torchzero/modules/projections/galore.py +4 -2
torchzero/modules/projections/projection.py +212 -118
torchzero/modules/quasi_newton/__init__.py +44 -5
torchzero/modules/quasi_newton/cg.py +190 -39
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +163 -0
torchzero/modules/quasi_newton/lbfgs.py +154 -97
torchzero/modules/quasi_newton/lsr1.py +102 -58
torchzero/modules/quasi_newton/quasi_newton.py +1032 -177
torchzero/modules/quasi_newton/trust_region.py +397 -0
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/newton.py +245 -54
torchzero/modules/second_order/newton_cg.py +311 -21
torchzero/modules/second_order/nystrom.py +124 -21
torchzero/modules/smoothing/gaussian.py +55 -21
torchzero/modules/smoothing/laplacian.py +20 -12
torchzero/modules/step_size/__init__.py +2 -0
torchzero/modules/step_size/adaptive.py +122 -0
torchzero/modules/step_size/lr.py +154 -0
torchzero/modules/weight_decay/__init__.py +1 -1
torchzero/modules/weight_decay/weight_decay.py +126 -10
torchzero/modules/wrappers/optim_wrapper.py +40 -12
torchzero/optim/wrappers/directsearch.py +281 -0
torchzero/optim/wrappers/fcmaes.py +105 -0
torchzero/optim/wrappers/mads.py +89 -0
torchzero/optim/wrappers/nevergrad.py +20 -5
torchzero/optim/wrappers/nlopt.py +28 -14
torchzero/optim/wrappers/optuna.py +70 -0
torchzero/optim/wrappers/scipy.py +167 -16
torchzero/utils/__init__.py +3 -7
torchzero/utils/derivatives.py +5 -4
torchzero/utils/linalg/__init__.py +1 -1
torchzero/utils/linalg/solve.py +251 -12
torchzero/utils/numberlist.py +2 -0
torchzero/utils/optimizer.py +55 -74
torchzero/utils/python_tools.py +27 -4
torchzero/utils/tensorlist.py +40 -28
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/METADATA +76 -51
torchzero-0.3.11.dist-info/RECORD +159 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/WHEEL +1 -1
torchzero/core/preconditioner.py +0 -138
torchzero/modules/experimental/algebraic_newton.py +0 -145
torchzero/modules/experimental/soapy.py +0 -290
torchzero/modules/experimental/spectral.py +0 -288
torchzero/modules/experimental/structured_newton.py +0 -111
torchzero/modules/experimental/tropical_newton.py +0 -136
torchzero/modules/lr/__init__.py +0 -2
torchzero/modules/lr/lr.py +0 -59
torchzero/modules/lr/step_size.py +0 -97
torchzero/modules/ops/debug.py +0 -25
torchzero/modules/ops/misc.py +0 -419
torchzero/modules/ops/split.py +0 -75
torchzero/modules/quasi_newton/experimental/__init__.py +0 -1
torchzero/modules/quasi_newton/olbfgs.py +0 -196
torchzero-0.3.9.dist-info/RECORD +0 -131
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/licenses/LICENSE +0 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/top_level.txt +0 -0

torchzero/modules/momentum/cautious.py CHANGED Viewed

@@ -1,3 +1,4 @@
+"""Cautioning related modules"""
 from collections import deque
 from operator import itemgetter
 from typing import Literal
@@ -5,7 +6,7 @@ from typing import Literal
 import torch
 from ...core import Target, Transform, Module, Chainable
-from ...utils import NumberList, TensorList
+from ...utils import NumberList, TensorList, unpack_dicts
 def cautious_(
@@ -54,9 +55,20 @@ class Cautious(Transform):
             "backtrack" - negate them (same as using update magnitude and gradient sign)
-    reference
-        *Cautious Optimizers: Improving Training with One Line of Code.
-        Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu*
+    Examples:
+        Cautious Adam
+        .. code-block:: python
+            opt = tz.Modular(
+                bench.parameters(),
+                tz.m.Adam(),
+                tz.m.Cautious(),
+                tz.m.LR(1e-2)
+            )
+    References:
+        Cautious Optimizers: Improving Training with One Line of Code. Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
     """
     def __init__(
@@ -64,27 +76,33 @@ class Cautious(Transform):
         normalize=False,
         eps=1e-6,
         mode: Literal["zero", "grad", "backtrack"] = "zero",
-        target: Target = "update",
     ):
         defaults = dict(normalize=normalize, eps=eps, mode=mode)
-        super().__init__(defaults, uses_grad=True, target=target)
+        super().__init__(defaults, uses_grad=True)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
-        mode, normalize, eps = itemgetter('mode', 'normalize', 'eps')(self.settings[params[0]])
+        mode, normalize, eps = itemgetter('mode', 'normalize', 'eps')(settings[0])
         return cautious_(TensorList(tensors), TensorList(grads), normalize=normalize, eps=eps, mode=mode)
 class UpdateGradientSignConsistency(Transform):
-    """1 where signs match 0 otherwise"""
-    def __init__(self, normalize = False, eps=1e-6, target: Target = 'update'):
+    """Compares update and gradient signs. Output will have 1s where signs match, and 0s where they don't.
+    Args:
+        normalize (bool, optional):
+            renormalize update after masking. Defaults to False.
+        eps (float, optional): epsilon for normalization. Defaults to 1e-6.
+    """
+    def __init__(self, normalize = False, eps=1e-6):
         defaults = dict(normalize=normalize, eps=eps)
-        super().__init__(defaults, uses_grad=True, target=target)
+        super().__init__(defaults, uses_grad=True)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
-        normalize, eps = itemgetter('normalize', 'eps')(self.settings[params[0]])
+        normalize, eps = itemgetter('normalize', 'eps')(settings[0])
         mask = (TensorList(tensors).mul_(grads)).gt_(0)
         if normalize: mask = mask / mask.global_mean().clip(min = eps) # pyright: ignore[reportOperatorIssue]
@@ -92,6 +110,23 @@ class UpdateGradientSignConsistency(Transform):
         return mask
 class IntermoduleCautious(Module):
+    """Negaties update on :code:`main` module where it's sign doesn't match with output of :code:`compare` module.
+    Args:
+        main (Chainable): main module or sequence of modules whose update will be cautioned.
+        compare (Chainable): modules or sequence of modules to compare the sign to.
+        normalize (bool, optional):
+            renormalize update after masking. Defaults to False.
+        eps (float, optional): epsilon for normalization. Defaults to 1e-6.
+        mode (str, optional):
+            what to do with updates with inconsistent signs.
+            "zero" - set them to zero (as in paper)
+            "grad" - set them to the gradient
+            "backtrack" - negate them (same as using update magnitude and gradient sign)
+    """
     def __init__(
         self,
         main: Chainable,
@@ -100,6 +135,7 @@ class IntermoduleCautious(Module):
         eps=1e-6,
         mode: Literal["zero", "grad", "backtrack"] = "zero",
     ):
         defaults = dict(normalize=normalize, eps=eps, mode=mode)
         super().__init__(defaults)
@@ -107,47 +143,86 @@ class IntermoduleCautious(Module):
         self.set_child('compare', compare)
     @torch.no_grad
-    def step(self, vars):
+    def step(self, var):
         main = self.children['main']
         compare = self.children['compare']
-        main_vars = main.step(vars.clone(clone_update=True))
-        vars.update_attrs_from_clone_(main_vars)
+        main_var = main.step(var.clone(clone_update=True))
+        var.update_attrs_from_clone_(main_var)
-        compare_vars = compare.step(vars.clone(clone_update=True))
-        vars.update_attrs_from_clone_(compare_vars)
+        compare_var = compare.step(var.clone(clone_update=True))
+        var.update_attrs_from_clone_(compare_var)
-        mode, normalize, eps = itemgetter('mode', 'normalize', 'eps')(self.settings[vars.params[0]])
-        vars.update = cautious_(
-            TensorList(main_vars.get_update()),
-            TensorList(compare_vars.get_update()),
+        mode, normalize, eps = itemgetter('mode', 'normalize', 'eps')(self.settings[var.params[0]])
+        var.update = cautious_(
+            TensorList(main_var.get_update()),
+            TensorList(compare_var.get_update()),
             normalize=normalize,
             mode=mode,
             eps=eps,
         )
-        return vars
+        return var
 class ScaleByGradCosineSimilarity(Transform):
+    """Multiplies the update by cosine similarity with gradient.
+    If cosine similarity is negative, naturally the update will be negated as well.
+    Args:
+        eps (float, optional): epsilon for division. Defaults to 1e-6.
+    Examples:
+        Scaled Adam
+        .. code-block:: python
+            opt = tz.Modular(
+                bench.parameters(),
+                tz.m.Adam(),
+                tz.m.ScaleByGradCosineSimilarity(),
+                tz.m.LR(1e-2)
+            )
+    """
     def __init__(
         self,
-        eps=1e-6,
-        target: Target = "update",
+        eps: float = 1e-6,
     ):
         defaults = dict(eps=eps)
-        super().__init__(defaults, uses_grad=True, target=target)
+        super().__init__(defaults, uses_grad=True)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         assert grads is not None
-        eps = self.settings[params[0]]['eps']
+        eps = settings[0]['eps']
         tensors = TensorList(tensors)
         grads = TensorList(grads)
-        cos_sim = (tensors.dot(grads)) / (tensors.global_vector_norm() * grads.global_vector_norm()).clip(min=eps)
+        cos_sim = tensors.dot(grads) / (tensors.global_vector_norm() * grads.global_vector_norm()).clip(min=eps)
         return tensors.mul_(cos_sim)
 class ScaleModulesByCosineSimilarity(Module):
+    """Scales the output of :code:`main` module by it's cosine similarity to the output
+    of :code:`compare` module.
+    Args:
+        main (Chainable): main module or sequence of modules whose update will be scaled.
+        compare (Chainable): module or sequence of modules to compare to
+        eps (float, optional): epsilon for division. Defaults to 1e-6.
+    Example:
+        Adam scaled by similarity to RMSprop
+        .. code-block:: python
+            opt = tz.Modular(
+                bench.parameters(),
+                tz.m.ScaleModulesByCosineSimilarity(
+                    main = tz.m.Adam(),
+                    compare = tz.m.RMSprop(0.999, debiased=True),
+                ),
+                tz.m.LR(1e-2)
+            )
+    """
     def __init__(
         self,
         main: Chainable,
@@ -161,21 +236,21 @@ class ScaleModulesByCosineSimilarity(Module):
         self.set_child('compare', compare)
     @torch.no_grad
-    def step(self, vars):
+    def step(self, var):
         main = self.children['main']
         compare = self.children['compare']
-        main_vars = main.step(vars.clone(clone_update=True))
-        vars.update_attrs_from_clone_(main_vars)
+        main_var = main.step(var.clone(clone_update=True))
+        var.update_attrs_from_clone_(main_var)
-        compare_vars = compare.step(vars.clone(clone_update=True))
-        vars.update_attrs_from_clone_(compare_vars)
+        compare_var = compare.step(var.clone(clone_update=True))
+        var.update_attrs_from_clone_(compare_var)
-        m = TensorList(main_vars.get_update())
-        c = TensorList(compare_vars.get_update())
-        eps = self.settings[vars.params[0]]['eps']
+        m = TensorList(main_var.get_update())
+        c = TensorList(compare_var.get_update())
+        eps = self.settings[var.params[0]]['eps']
-        cos_sim = (m.dot(c)) / (m.global_vector_norm() * c.global_vector_norm()).clip(min=eps)
+        cos_sim = m.dot(c) / (m.global_vector_norm() * c.global_vector_norm()).clip(min=eps)
-        vars.update = m.mul_(cos_sim)
-        return vars
+        var.update = m.mul_(cos_sim)
+        return var

torchzero/modules/momentum/ema.py CHANGED Viewed

@@ -5,18 +5,19 @@ from typing import Literal
 import torch
 from ...core import Target, Transform
-from ...utils import TensorList, NumberList
+from ...utils import TensorList, NumberList, unpack_dicts, unpack_states
 from ..functional import debias, ema_, ema_sq_, sqrt_ema_sq_, centered_ema_sq_, sqrt_centered_ema_sq_, debias_second_momentum
 class EMA(Transform):
-    """Maintains EMA of update.
+    """Maintains an exponential moving average of update.
     Args:
         momentum (float, optional): momentum (beta). Defaults to 0.9.
         dampening (float, optional): momentum dampening. Defaults to 0.
         debiased (bool, optional): whether to debias the EMA like in Adam. Defaults to False.
         lerp (bool, optional): whether to use linear interpolation. Defaults to True.
+        ema_init (str, optional): initial values for the EMA, "zeros" or "update".
         target (Target, optional): target to apply EMA to. Defaults to 'update'.
     """
     def __init__(self, momentum:float=0.9, dampening:float=0, debiased: bool = False, lerp=True, ema_init: Literal['zeros', 'update'] = 'zeros', target: Target = 'update'):
@@ -24,13 +25,14 @@ class EMA(Transform):
         super().__init__(defaults, uses_grad=False, target=target)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        debiased, lerp, ema_init = itemgetter('debiased','lerp','ema_init')(self.settings[params[0]])
+        debiased, lerp, ema_init = itemgetter('debiased','lerp','ema_init')(settings[0])
-        exp_avg = self.get_state('exp_avg', params=params, init=torch.zeros_like if ema_init=='zeros' else tensors, cls=TensorList)
-        momentum, dampening = self.get_settings('momentum','dampening', params=params, cls=NumberList)
+        exp_avg = unpack_states(states, tensors, 'exp_avg',
+                                init=torch.zeros_like if ema_init=='zeros' else tensors, cls=TensorList)
+        momentum, dampening = unpack_dicts(settings, 'momentum','dampening', cls=NumberList)
         exp_avg = ema_(TensorList(tensors), exp_avg_=exp_avg,beta=momentum,dampening=dampening,lerp=lerp)
@@ -39,44 +41,58 @@ class EMA(Transform):
 class EMASquared(Transform):
+    """Maintains an exponential moving average of squared updates.
+    Args:
+        beta (float, optional): momentum value. Defaults to 0.999.
+        amsgrad (bool, optional): whether to maintain maximum of the exponential moving average. Defaults to False.
+        pow (float, optional): power, absolute value is always used. Defaults to 2.
+    """
     EMA_SQ_FN: staticmethod = staticmethod(ema_sq_)
-    def __init__(self, beta:float=0.999, amsgrad=False, pow:float=2, target: Target = 'update'):
+    def __init__(self, beta:float=0.999, amsgrad=False, pow:float=2):
         defaults = dict(beta=beta,pow=pow,amsgrad=amsgrad)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults, uses_grad=False)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         amsgrad, pow = itemgetter('amsgrad', 'pow')(self.settings[params[0]])
-        beta = self.get_settings('beta', params=params, cls=NumberList)
+        beta = NumberList(s['beta'] for s in settings)
         if amsgrad:
-            exp_avg_sq, max_exp_avg_sq = self.get_state('exp_avg_sq', 'max_exp_avg_sq', params=params, cls=TensorList)
+            exp_avg_sq, max_exp_avg_sq = unpack_states(states, tensors, 'exp_avg_sq', 'max_exp_avg_sq', cls=TensorList)
         else:
-            exp_avg_sq = self.get_state('exp_avg_sq', params=params, cls=TensorList)
+            exp_avg_sq = unpack_states(states, tensors, 'exp_avg_sq', cls=TensorList)
             max_exp_avg_sq = None
         return self.EMA_SQ_FN(TensorList(tensors), exp_avg_sq_=exp_avg_sq, beta=beta, max_exp_avg_sq_=max_exp_avg_sq, pow=pow).clone()
 class SqrtEMASquared(Transform):
-    SQRT_EMA_SQ_FN: staticmethod = staticmethod(sqrt_ema_sq_)
+    """Maintains an exponential moving average of squared updates, outputs optionally debiased square root.
-    def __init__(self, beta:float=0.999, amsgrad=False, debiased: bool = False, pow:float=2, target: Target = 'update',):
+    Args:
+        beta (float, optional): momentum value. Defaults to 0.999.
+        amsgrad (bool, optional): whether to maintain maximum of the exponential moving average. Defaults to False.
+        debiased (bool, optional): whether to multiply the output by a debiasing term from the Adam method. Defaults to False.
+        pow (float, optional): power, absolute value is always used. Defaults to 2.
+    """
+    SQRT_EMA_SQ_FN: staticmethod = staticmethod(sqrt_ema_sq_)
+    def __init__(self, beta:float=0.999, amsgrad=False, debiased: bool = False, pow:float=2,):
         defaults = dict(beta=beta,pow=pow,amsgrad=amsgrad,debiased=debiased)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults, uses_grad=False)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        amsgrad, pow, debiased = itemgetter('amsgrad', 'pow', 'debiased')(self.settings[params[0]])
-        beta = self.get_settings('beta', params=params, cls=NumberList)
+        amsgrad, pow, debiased = itemgetter('amsgrad', 'pow', 'debiased')(settings[0])
+        beta = NumberList(s['beta'] for s in settings)
         if amsgrad:
-            exp_avg_sq, max_exp_avg_sq = self.get_state('exp_avg_sq', 'max_exp_avg_sq', params=params, cls=TensorList)
+            exp_avg_sq, max_exp_avg_sq = unpack_states(states, tensors, 'exp_avg_sq', 'max_exp_avg_sq', cls=TensorList)
         else:
-            exp_avg_sq = self.get_state('exp_avg_sq', params=params, cls=TensorList)
+            exp_avg_sq = unpack_states(states, tensors, 'exp_avg_sq', cls=TensorList)
             max_exp_avg_sq = None
         return self.SQRT_EMA_SQ_FN(
@@ -91,47 +107,73 @@ class SqrtEMASquared(Transform):
 class Debias(Transform):
+    """Multiplies the update by an Adam debiasing term based first and/or second momentum.
+    Args:
+        beta1 (float | None, optional):
+            first momentum, should be the same as first momentum used in modules before. Defaults to None.
+        beta2 (float | None, optional):
+            second (squared) momentum, should be the same as second momentum used in modules before. Defaults to None.
+        alpha (float, optional): learning rate. Defaults to 1.
+        pow (float, optional): power, assumes absolute value is used. Defaults to 2.
+        target (Target, optional): target. Defaults to 'update'.
+    """
     def __init__(self, beta1: float | None = None, beta2: float | None = None, alpha: float = 1, pow:float=2, target: Target = 'update',):
         defaults = dict(beta1=beta1, beta2=beta2, alpha=alpha, pow=pow)
         super().__init__(defaults, uses_grad=False, target=target)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        settings = self.settings[params[0]]
-        pow = settings['pow']
-        alpha, beta1, beta2 = self.get_settings('alpha', 'beta1', 'beta2', params=params, cls=NumberList)
+        pow = settings[0]['pow']
+        alpha, beta1, beta2 = unpack_dicts(settings, 'alpha', 'beta1', 'beta2', cls=NumberList)
         return debias(TensorList(tensors), step=step, beta1=beta1, beta2=beta2, alpha=alpha, pow=pow, inplace=True)
 class Debias2(Transform):
+    """Multiplies the update by an Adam debiasing term based on the second momentum.
+    Args:
+        beta (float | None, optional):
+            second (squared) momentum, should be the same as second momentum used in modules before. Defaults to None.
+        pow (float, optional): power, assumes absolute value is used. Defaults to 2.
+        target (Target, optional): target. Defaults to 'update'.
+    """
     def __init__(self, beta: float = 0.999, pow: float = 2, target: Target = 'update',):
         defaults = dict(beta=beta, pow=pow)
         super().__init__(defaults, uses_grad=False, target=target)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        pow = self.settings[params[0]]['pow']
-        beta = self.get_settings('beta', params=params, cls=NumberList)
+        pow = settings[0]['pow']
+        beta = NumberList(s['beta'] for s in settings)
         return debias_second_momentum(TensorList(tensors), step=step, beta=beta, pow=pow, inplace=True)
 class CenteredEMASquared(Transform):
-    def __init__(self, beta: float = 0.99, amsgrad=False, pow:float=2, target: Target = 'update'):
+    """Maintains a centered exponential moving average of squared updates. This also maintains an additional
+    exponential moving average of un-squared updates, square of which is subtracted from the EMA.
+    Args:
+        beta (float, optional): momentum value. Defaults to 0.999.
+        amsgrad (bool, optional): whether to maintain maximum of the exponential moving average. Defaults to False.
+        pow (float, optional): power, absolute value is always used. Defaults to 2.
+    """
+    def __init__(self, beta: float = 0.99, amsgrad=False, pow:float=2):
         defaults = dict(beta=beta, amsgrad=amsgrad, pow=pow)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults, uses_grad=False)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        amsgrad, pow = itemgetter('amsgrad', 'pow')(self.settings[params[0]])
-        beta = self.get_settings('beta', params=params, cls=NumberList)
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+        amsgrad, pow = itemgetter('amsgrad', 'pow')(settings[0])
+        beta = NumberList(s['beta'] for s in settings)
         if amsgrad:
-            exp_avg, exp_avg_sq, max_exp_avg_sq = self.get_state('exp_avg', 'exp_avg_sq', 'max_exp_avg_sq', params=params, cls=TensorList)
+            exp_avg, exp_avg_sq, max_exp_avg_sq = unpack_states(states, tensors, 'exp_avg', 'exp_avg_sq', 'max_exp_avg_sq', cls=TensorList)
         else:
-            exp_avg, exp_avg_sq = self.get_state('exp_avg', 'exp_avg_sq', params=params, cls=TensorList)
+            exp_avg, exp_avg_sq = unpack_states(states, tensors, 'exp_avg', 'exp_avg_sq', cls=TensorList)
             max_exp_avg_sq = None
         return centered_ema_sq_(
@@ -144,21 +186,30 @@ class CenteredEMASquared(Transform):
         ).clone()
 class CenteredSqrtEMASquared(Transform):
-    def __init__(self, beta: float = 0.99, amsgrad=False, debiased: bool = False, pow:float=2, target: Target = 'update'):
+    """Maintains a centered exponential moving average of squared updates, outputs optionally debiased square root.
+    This also maintains an additional exponential moving average of un-squared updates, square of which is subtracted from the EMA.
+    Args:
+        beta (float, optional): momentum value. Defaults to 0.999.
+        amsgrad (bool, optional): whether to maintain maximum of the exponential moving average. Defaults to False.
+        debiased (bool, optional): whether to multiply the output by a debiasing term from the Adam method. Defaults to False.
+        pow (float, optional): power, absolute value is always used. Defaults to 2.
+    """
+    def __init__(self, beta: float = 0.99, amsgrad=False, debiased: bool = False, pow:float=2):
         defaults = dict(beta=beta, amsgrad=amsgrad, debiased=debiased, pow=pow)
-        super().__init__(defaults, uses_grad=False, target=target)
+        super().__init__(defaults, uses_grad=False)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
         step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        amsgrad, pow, debiased = itemgetter('amsgrad', 'pow', 'debiased')(self.settings[params[0]])
-        beta = self.get_settings('beta', params=params, cls=NumberList)
+        amsgrad, pow, debiased = itemgetter('amsgrad', 'pow', 'debiased')(settings[0])
+        beta = NumberList(s['beta'] for s in settings)
         if amsgrad:
-            exp_avg, exp_avg_sq, max_exp_avg_sq = self.get_state('exp_avg', 'exp_avg_sq', 'max_exp_avg_sq', params=params, cls=TensorList)
+            exp_avg, exp_avg_sq, max_exp_avg_sq = unpack_states(states, tensors, 'exp_avg', 'exp_avg_sq', 'max_exp_avg_sq', cls=TensorList)
         else:
-            exp_avg, exp_avg_sq = self.get_state('exp_avg', 'exp_avg_sq', params=params, cls=TensorList)
+            exp_avg, exp_avg_sq = unpack_states(states, tensors, 'exp_avg', 'exp_avg_sq', cls=TensorList)
             max_exp_avg_sq = None
         return sqrt_centered_ema_sq_(

torchzero/modules/momentum/experimental.py CHANGED Viewed

@@ -6,7 +6,7 @@ from typing import Literal
 import torch
 from ...core import Target, Transform
-from ...utils import NumberList, TensorList
+from ...utils import NumberList, TensorList, unpack_states, unpack_dicts
 from ..functional import ema_, ema_sq_, sqrt_ema_sq_
 from .ema import EMASquared, SqrtEMASquared
 from .momentum import nag_
@@ -43,22 +43,22 @@ def precentered_ema_sq_(
     return exp_avg_sq_
 class PrecenteredEMASquared(Transform):
+    """Maintains un-squared EMA, the updates are centered by it before being fed into squared EMA."""
     def __init__(self, beta1:float=0.99, beta2=0.99, min_step: int = 2, amsgrad=False, pow:float=2, target: Target = 'update'):
         defaults = dict(beta1=beta1,beta2=beta2,pow=pow,amsgrad=amsgrad, min_step=min_step)
         super().__init__(defaults, uses_grad=False, target=target)
-        self.current_step = 0
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        self.current_step += 1
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+        step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        beta1, beta2 = self.get_settings('beta1','beta2', params=params, cls=NumberList)
-        amsgrad, pow, min_step = itemgetter('amsgrad', 'pow', 'min_step')(self.settings[params[0]])
+        beta1, beta2 = unpack_dicts(settings, 'beta1','beta2', cls=NumberList)
+        amsgrad, pow, min_step = itemgetter('amsgrad', 'pow', 'min_step')(settings[0])
         if amsgrad:
-            exp_avg, exp_avg_sq, max_exp_avg_sq = self.get_state('exp_avg', 'exp_avg_sq', 'max_exp_avg_sq', params=params, cls=TensorList)
+            exp_avg, exp_avg_sq, max_exp_avg_sq = unpack_states(states, tensors, 'exp_avg', 'exp_avg_sq', 'max_exp_avg_sq', cls=TensorList)
         else:
-            exp_avg, exp_avg_sq = self.get_state('exp_avg', 'exp_avg_sq', params=params, cls=TensorList)
+            exp_avg, exp_avg_sq = unpack_states(states, tensors, 'exp_avg', 'exp_avg_sq', cls=TensorList)
             max_exp_avg_sq = None
         return precentered_ema_sq_(
@@ -67,7 +67,7 @@ class PrecenteredEMASquared(Transform):
             exp_avg_sq_=exp_avg_sq,
             beta1=beta1,
             beta2=beta2,
-            step = self.current_step,
+            step = step,
             min_step=min_step,
             pow=pow,
             max_exp_avg_sq_=max_exp_avg_sq,
@@ -119,9 +119,11 @@ def sqrt_nag_ema_sq_(
                         pow=pow,debiased=debiased,step=step,ema_sq_fn=partial(nag_ema_sq_,lerp=lerp))
 class NesterovEMASquared(EMASquared):
+    """squared momentum with nesterov momentum rule"""
     EMA_SQ_FN = staticmethod(nag_ema_sq_)
 class SqrtNesterovEMASquared(SqrtEMASquared):
+    """square root of squared momentum with nesterov momentum rule"""
     SQRT_EMA_SQ_FN = staticmethod(sqrt_nag_ema_sq_)
@@ -141,14 +143,20 @@ def coordinate_momentum_(
 class CoordinateMomentum(Transform):
+    """Maintains a momentum buffer, on each step each value in the buffer has :code:`p` chance to be updated with the new value.
+    Args:
+        p (float, optional): _description_. Defaults to 0.1.
+        target (Target, optional): _description_. Defaults to 'update'.
+    """
     def __init__(self, p: float = 0.1, target: Target = 'update'):
         defaults = dict(p=p)
         super().__init__(defaults, uses_grad=False, target=target)
     @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        p = self.get_settings('p', params=params, cls=NumberList)
-        velocity = self.get_state('velocity', params=params, cls=TensorList)
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+        p = NumberList(s['p'] for s in settings)
+        velocity = unpack_states(states, tensors, 'velocity', cls=TensorList)
         return coordinate_momentum_(TensorList(tensors), velocity_=velocity, p=p).clone()
@@ -180,7 +188,7 @@ class CoordinateMomentum(Transform):
 #         super().__init__(defaults, uses_grad=False)
 #     @torch.no_grad
-#     def transform(self, tensors, params, grads, vars):
+#     def apply(self, tensors, params, grads, loss, states, settings):
 #         momentum,dampening = self.get_settings('momentum','dampening', params=params, cls=NumberList)
 #         abs,lerp,normalize_velocity = self.first_setting('abs','lerp','normalize_velocity', params=params)
 #         velocity = self.get_state('velocity', params=params, cls=TensorList)

torchzero 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl