PyPI - torchzero - Versions diffs - 0.3.11__py3-none-any.whl → 0.3.14__py3-none-any.whl - Mend

torchzero 0.3.11py3-none-any.whl → 0.3.14py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (164) hide show

tests/test_opts.py +95 -76
tests/test_tensorlist.py +8 -7
torchzero/__init__.py +1 -1
torchzero/core/__init__.py +2 -2
torchzero/core/module.py +229 -72
torchzero/core/reformulation.py +65 -0
torchzero/core/transform.py +44 -24
torchzero/modules/__init__.py +13 -5
torchzero/modules/{optimizers → adaptive}/__init__.py +5 -2
torchzero/modules/adaptive/adagrad.py +356 -0
torchzero/modules/{optimizers → adaptive}/adahessian.py +53 -52
torchzero/modules/{optimizers → adaptive}/adam.py +0 -3
torchzero/modules/{optimizers → adaptive}/adan.py +26 -40
torchzero/modules/{optimizers → adaptive}/adaptive_heavyball.py +3 -6
torchzero/modules/adaptive/aegd.py +54 -0
torchzero/modules/{optimizers → adaptive}/esgd.py +1 -1
torchzero/modules/{optimizers/ladagrad.py → adaptive/lmadagrad.py} +42 -39
torchzero/modules/{optimizers → adaptive}/mars.py +24 -36
torchzero/modules/adaptive/matrix_momentum.py +146 -0
torchzero/modules/{optimizers → adaptive}/msam.py +14 -12
torchzero/modules/{optimizers → adaptive}/muon.py +19 -20
torchzero/modules/adaptive/natural_gradient.py +175 -0
torchzero/modules/{optimizers → adaptive}/rprop.py +0 -2
torchzero/modules/{optimizers → adaptive}/sam.py +1 -1
torchzero/modules/{optimizers → adaptive}/shampoo.py +8 -4
torchzero/modules/{optimizers → adaptive}/soap.py +27 -50
torchzero/modules/{optimizers → adaptive}/sophia_h.py +2 -3
torchzero/modules/clipping/clipping.py +85 -92
torchzero/modules/clipping/ema_clipping.py +5 -5
torchzero/modules/conjugate_gradient/__init__.py +11 -0
torchzero/modules/{quasi_newton → conjugate_gradient}/cg.py +355 -369
torchzero/modules/experimental/__init__.py +9 -32
torchzero/modules/experimental/dct.py +2 -2
torchzero/modules/experimental/fft.py +2 -2
torchzero/modules/experimental/gradmin.py +4 -3
torchzero/modules/experimental/l_infinity.py +111 -0
torchzero/modules/{momentum/experimental.py → experimental/momentum.py} +3 -40
torchzero/modules/experimental/newton_solver.py +79 -17
torchzero/modules/experimental/newtonnewton.py +27 -14
torchzero/modules/experimental/scipy_newton_cg.py +105 -0
torchzero/modules/experimental/spsa1.py +93 -0
torchzero/modules/experimental/structural_projections.py +1 -1
torchzero/modules/functional.py +50 -14
torchzero/modules/grad_approximation/__init__.py +1 -1
torchzero/modules/grad_approximation/fdm.py +19 -20
torchzero/modules/grad_approximation/forward_gradient.py +6 -7
torchzero/modules/grad_approximation/grad_approximator.py +43 -47
torchzero/modules/grad_approximation/rfdm.py +114 -175
torchzero/modules/higher_order/__init__.py +1 -1
torchzero/modules/higher_order/higher_order_newton.py +31 -23
torchzero/modules/least_squares/__init__.py +1 -0
torchzero/modules/least_squares/gn.py +161 -0
torchzero/modules/line_search/__init__.py +2 -2
torchzero/modules/line_search/_polyinterp.py +289 -0
torchzero/modules/line_search/adaptive.py +69 -44
torchzero/modules/line_search/backtracking.py +83 -70
torchzero/modules/line_search/line_search.py +159 -68
torchzero/modules/line_search/scipy.py +16 -4
torchzero/modules/line_search/strong_wolfe.py +319 -220
torchzero/modules/misc/__init__.py +8 -0
torchzero/modules/misc/debug.py +4 -4
torchzero/modules/misc/escape.py +9 -7
torchzero/modules/misc/gradient_accumulation.py +88 -22
torchzero/modules/misc/homotopy.py +59 -0
torchzero/modules/misc/misc.py +82 -15
torchzero/modules/misc/multistep.py +47 -11
torchzero/modules/misc/regularization.py +5 -9
torchzero/modules/misc/split.py +55 -35
torchzero/modules/misc/switch.py +1 -1
torchzero/modules/momentum/__init__.py +1 -5
torchzero/modules/momentum/averaging.py +3 -3
torchzero/modules/momentum/cautious.py +42 -47
torchzero/modules/momentum/momentum.py +35 -1
torchzero/modules/ops/__init__.py +9 -1
torchzero/modules/ops/binary.py +9 -8
torchzero/modules/{momentum/ema.py → ops/higher_level.py} +10 -33
torchzero/modules/ops/multi.py +15 -15
torchzero/modules/ops/reduce.py +1 -1
torchzero/modules/ops/utility.py +12 -8
torchzero/modules/projections/projection.py +4 -4
torchzero/modules/quasi_newton/__init__.py +1 -16
torchzero/modules/quasi_newton/damping.py +105 -0
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +167 -163
torchzero/modules/quasi_newton/lbfgs.py +256 -200
torchzero/modules/quasi_newton/lsr1.py +167 -132
torchzero/modules/quasi_newton/quasi_newton.py +346 -446
torchzero/modules/restarts/__init__.py +7 -0
torchzero/modules/restarts/restars.py +253 -0
torchzero/modules/second_order/__init__.py +2 -1
torchzero/modules/second_order/multipoint.py +238 -0
torchzero/modules/second_order/newton.py +133 -88
torchzero/modules/second_order/newton_cg.py +207 -170
torchzero/modules/smoothing/__init__.py +1 -1
torchzero/modules/smoothing/sampling.py +300 -0
torchzero/modules/step_size/__init__.py +1 -1
torchzero/modules/step_size/adaptive.py +312 -47
torchzero/modules/termination/__init__.py +14 -0
torchzero/modules/termination/termination.py +207 -0
torchzero/modules/trust_region/__init__.py +5 -0
torchzero/modules/trust_region/cubic_regularization.py +170 -0
torchzero/modules/trust_region/dogleg.py +92 -0
torchzero/modules/trust_region/levenberg_marquardt.py +128 -0
torchzero/modules/trust_region/trust_cg.py +99 -0
torchzero/modules/trust_region/trust_region.py +350 -0
torchzero/modules/variance_reduction/__init__.py +1 -0
torchzero/modules/variance_reduction/svrg.py +208 -0
torchzero/modules/weight_decay/weight_decay.py +65 -64
torchzero/modules/zeroth_order/__init__.py +1 -0
torchzero/modules/zeroth_order/cd.py +122 -0
torchzero/optim/root.py +65 -0
torchzero/optim/utility/split.py +8 -8
torchzero/optim/wrappers/directsearch.py +0 -1
torchzero/optim/wrappers/fcmaes.py +3 -2
torchzero/optim/wrappers/nlopt.py +0 -2
torchzero/optim/wrappers/optuna.py +2 -2
torchzero/optim/wrappers/scipy.py +81 -22
torchzero/utils/__init__.py +40 -4
torchzero/utils/compile.py +1 -1
torchzero/utils/derivatives.py +123 -111
torchzero/utils/linalg/__init__.py +9 -2
torchzero/utils/linalg/linear_operator.py +329 -0
torchzero/utils/linalg/matrix_funcs.py +2 -2
torchzero/utils/linalg/orthogonalize.py +2 -1
torchzero/utils/linalg/qr.py +2 -2
torchzero/utils/linalg/solve.py +226 -154
torchzero/utils/metrics.py +83 -0
torchzero/utils/optimizer.py +2 -2
torchzero/utils/python_tools.py +7 -0
torchzero/utils/tensorlist.py +105 -34
torchzero/utils/torch_tools.py +9 -4
torchzero-0.3.14.dist-info/METADATA +14 -0
torchzero-0.3.14.dist-info/RECORD +167 -0
{torchzero-0.3.11.dist-info → torchzero-0.3.14.dist-info}/top_level.txt +0 -1
docs/source/conf.py +0 -59
docs/source/docstring template.py +0 -46
torchzero/modules/experimental/absoap.py +0 -253
torchzero/modules/experimental/adadam.py +0 -118
torchzero/modules/experimental/adamY.py +0 -131
torchzero/modules/experimental/adam_lambertw.py +0 -149
torchzero/modules/experimental/adaptive_step_size.py +0 -90
torchzero/modules/experimental/adasoap.py +0 -177
torchzero/modules/experimental/cosine.py +0 -214
torchzero/modules/experimental/cubic_adam.py +0 -97
torchzero/modules/experimental/eigendescent.py +0 -120
torchzero/modules/experimental/etf.py +0 -195
torchzero/modules/experimental/exp_adam.py +0 -113
torchzero/modules/experimental/expanded_lbfgs.py +0 -141
torchzero/modules/experimental/hnewton.py +0 -85
torchzero/modules/experimental/modular_lbfgs.py +0 -265
torchzero/modules/experimental/parabolic_search.py +0 -220
torchzero/modules/experimental/subspace_preconditioners.py +0 -145
torchzero/modules/experimental/tensor_adagrad.py +0 -42
torchzero/modules/line_search/polynomial.py +0 -233
torchzero/modules/momentum/matrix_momentum.py +0 -193
torchzero/modules/optimizers/adagrad.py +0 -165
torchzero/modules/quasi_newton/trust_region.py +0 -397
torchzero/modules/smoothing/gaussian.py +0 -198
torchzero-0.3.11.dist-info/METADATA +0 -404
torchzero-0.3.11.dist-info/RECORD +0 -159
torchzero-0.3.11.dist-info/licenses/LICENSE +0 -21
/torchzero/modules/{optimizers → adaptive}/lion.py +0 -0
/torchzero/modules/{optimizers → adaptive}/orthograd.py +0 -0
/torchzero/modules/{optimizers → adaptive}/rmsprop.py +0 -0
{torchzero-0.3.11.dist-info → torchzero-0.3.14.dist-info}/WHEEL +0 -0

torchzero/modules/misc/switch.py CHANGED Viewed

@@ -53,7 +53,7 @@ class Alternate(Module):
         var = module.step(var.clone(clone_update=False))
         # number of steps until next module
-        steps = self.settings[var.params[0]]['steps']
+        steps = self.defaults['steps']
         if isinstance(steps, int): steps = [steps]*len(self.children)
         if 'steps_to_next' not in self.global_state:

torchzero/modules/momentum/__init__.py CHANGED Viewed

@@ -6,9 +6,5 @@ from .cautious import (
     ScaleModulesByCosineSimilarity,
     UpdateGradientSignConsistency,
 )
-from .ema import EMA, Debias, Debias2, EMASquared, SqrtEMASquared, CenteredEMASquared, CenteredSqrtEMASquared
-from .experimental import CoordinateMomentum
-# from .matrix_momentum import MatrixMomentum
-from .momentum import NAG, HeavyBall
-from .matrix_momentum import MatrixMomentum, AdaptiveMatrixMomentum
+from .momentum import NAG, HeavyBall, EMA

torchzero/modules/momentum/averaging.py CHANGED Viewed

@@ -10,7 +10,7 @@ from ...utils import tolist
 class Averaging(TensorwiseTransform):
-    """Average of past :code:`history_size` updates.
+    """Average of past ``history_size`` updates.
     Args:
         history_size (int): Number of past updates to average
@@ -35,7 +35,7 @@ class Averaging(TensorwiseTransform):
         return average / len(history)
 class WeightedAveraging(TensorwiseTransform):
-    """Weighted average of past :code:`len(weights)` updates.
+    """Weighted average of past ``len(weights)`` updates.
     Args:
         weights (Sequence[float]): a sequence of weights from oldest to newest.
@@ -69,7 +69,7 @@ class WeightedAveraging(TensorwiseTransform):
 class MedianAveraging(TensorwiseTransform):
-    """Median of past :code:`history_size` updates.
+    """Median of past ``history_size`` updates.
     Args:
         history_size (int): Number of past updates to average

torchzero/modules/momentum/cautious.py CHANGED Viewed

@@ -48,24 +48,22 @@ class Cautious(Transform):
         eps (float, optional): epsilon for normalization. Defaults to 1e-6.
         mode (str, optional):
             what to do with updates with inconsistent signs.
+            - "zero" - set them to zero (as in paper)
+            - "grad" - set them to the gradient (same as using update magnitude and gradient sign)
+            - "backtrack" - negate them
-            "zero" - set them to zero (as in paper)
+    ## Examples:
-            "grad" - set them to the gradient
+    Cautious Adam
-            "backtrack" - negate them (same as using update magnitude and gradient sign)
-    Examples:
-        Cautious Adam
-        .. code-block:: python
-            opt = tz.Modular(
-                bench.parameters(),
-                tz.m.Adam(),
-                tz.m.Cautious(),
-                tz.m.LR(1e-2)
-            )
+    ```python
+    opt = tz.Modular(
+        bench.parameters(),
+        tz.m.Adam(),
+        tz.m.Cautious(),
+        tz.m.LR(1e-2)
+    )
+    ```
     References:
         Cautious Optimizers: Improving Training with One Line of Code. Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
@@ -120,12 +118,9 @@ class IntermoduleCautious(Module):
         eps (float, optional): epsilon for normalization. Defaults to 1e-6.
         mode (str, optional):
             what to do with updates with inconsistent signs.
-            "zero" - set them to zero (as in paper)
-            "grad" - set them to the gradient
-            "backtrack" - negate them (same as using update magnitude and gradient sign)
+            - "zero" - set them to zero (as in paper)
+            - "grad" - set them to the gradient (same as using update magnitude and gradient sign)
+            - "backtrack" - negate them
     """
     def __init__(
         self,
@@ -153,7 +148,7 @@ class IntermoduleCautious(Module):
         compare_var = compare.step(var.clone(clone_update=True))
         var.update_attrs_from_clone_(compare_var)
-        mode, normalize, eps = itemgetter('mode', 'normalize', 'eps')(self.settings[var.params[0]])
+        mode, normalize, eps = itemgetter('mode', 'normalize', 'eps')(self.defaults)
         var.update = cautious_(
             TensorList(main_var.get_update()),
             TensorList(compare_var.get_update()),
@@ -171,17 +166,17 @@ class ScaleByGradCosineSimilarity(Transform):
     Args:
         eps (float, optional): epsilon for division. Defaults to 1e-6.
-    Examples:
-        Scaled Adam
-        .. code-block:: python
-            opt = tz.Modular(
-                bench.parameters(),
-                tz.m.Adam(),
-                tz.m.ScaleByGradCosineSimilarity(),
-                tz.m.LR(1e-2)
-            )
+    ## Examples:
+    Scaled Adam
+    ```python
+    opt = tz.Modular(
+        bench.parameters(),
+        tz.m.Adam(),
+        tz.m.ScaleByGradCosineSimilarity(),
+        tz.m.LR(1e-2)
+    )
+    ```
     """
     def __init__(
         self,
@@ -209,19 +204,19 @@ class ScaleModulesByCosineSimilarity(Module):
         compare (Chainable): module or sequence of modules to compare to
         eps (float, optional): epsilon for division. Defaults to 1e-6.
-    Example:
-        Adam scaled by similarity to RMSprop
-        .. code-block:: python
-            opt = tz.Modular(
-                bench.parameters(),
-                tz.m.ScaleModulesByCosineSimilarity(
-                    main = tz.m.Adam(),
-                    compare = tz.m.RMSprop(0.999, debiased=True),
-                ),
-                tz.m.LR(1e-2)
-            )
+    ## Examples:
+    Adam scaled by similarity to RMSprop
+    ```python
+    opt = tz.Modular(
+        bench.parameters(),
+        tz.m.ScaleModulesByCosineSimilarity(
+            main = tz.m.Adam(),
+            compare = tz.m.RMSprop(0.999, debiased=True),
+        ),
+        tz.m.LR(1e-2)
+    )
+    ```
     """
     def __init__(
         self,
@@ -248,7 +243,7 @@ class ScaleModulesByCosineSimilarity(Module):
         m = TensorList(main_var.get_update())
         c = TensorList(compare_var.get_update())
-        eps = self.settings[var.params[0]]['eps']
+        eps = self.defaults['eps']
         cos_sim = m.dot(c) / (m.global_vector_norm() * c.global_vector_norm()).clip(min=eps)

torchzero/modules/momentum/momentum.py CHANGED Viewed

@@ -1,10 +1,44 @@
+from collections import deque
+from operator import itemgetter
 from typing import Literal
 import torch
 from ...core import Target, Transform
 from ...utils import NumberList, TensorList, unpack_dicts, unpack_states
-from .ema import EMA
+from ..functional import debias, ema_
+class EMA(Transform):
+    """Maintains an exponential moving average of update.
+    Args:
+        momentum (float, optional): momentum (beta). Defaults to 0.9.
+        dampening (float, optional): momentum dampening. Defaults to 0.
+        debiased (bool, optional): whether to debias the EMA like in Adam. Defaults to False.
+        lerp (bool, optional): whether to use linear interpolation. Defaults to True.
+        ema_init (str, optional): initial values for the EMA, "zeros" or "update".
+        target (Target, optional): target to apply EMA to. Defaults to 'update'.
+    """
+    def __init__(self, momentum:float=0.9, dampening:float=0, debiased: bool = False, lerp=True, ema_init: Literal['zeros', 'update'] = 'zeros', target: Target = 'update'):
+        defaults = dict(momentum=momentum,dampening=dampening,debiased=debiased,lerp=lerp,ema_init=ema_init)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def apply_tensors(self, tensors, params, grads, loss, states, settings):
+        step = self.global_state['step'] = self.global_state.get('step', 0) + 1
+        debiased, lerp, ema_init = itemgetter('debiased','lerp','ema_init')(settings[0])
+        exp_avg = unpack_states(states, tensors, 'exp_avg',
+                                init=torch.zeros_like if ema_init=='zeros' else tensors, cls=TensorList)
+        momentum, dampening = unpack_dicts(settings, 'momentum','dampening', cls=NumberList)
+        exp_avg = ema_(TensorList(tensors), exp_avg_=exp_avg,beta=momentum,dampening=dampening,lerp=lerp)
+        if debiased: return debias(exp_avg, step=step, beta1=momentum, alpha=1, inplace=False)
+        else: return exp_avg.clone() # this has exp_avg storage so needs to be cloned
 class HeavyBall(EMA):

torchzero/modules/ops/__init__.py CHANGED Viewed

@@ -27,6 +27,14 @@ from .binary import (
     Sub,
     Threshold,
 )
+from .higher_level import (
+    CenteredEMASquared,
+    CenteredSqrtEMASquared,
+    Debias,
+    Debias2,
+    EMASquared,
+    SqrtEMASquared,
+)
 from .multi import (
     ClipModules,
     DivModules,
@@ -64,7 +72,7 @@ from .utility import (
     Grad,
     GradToNone,
     Identity,
-    NoOp,
+    Noop,
     Ones,
     Params,
     Randn,

torchzero/modules/ops/binary.py CHANGED Viewed

@@ -57,8 +57,8 @@ class Add(BinaryOperationBase):
     @torch.no_grad
     def transform(self, var, update: list[torch.Tensor], other: float | list[torch.Tensor]):
-        if isinstance(other, (int,float)): torch._foreach_add_(update, other * self.settings[var.params[0]]['alpha'])
-        else: torch._foreach_add_(update, other, alpha=self.settings[var.params[0]]['alpha'])
+        if isinstance(other, (int,float)): torch._foreach_add_(update, other * self.defaults['alpha'])
+        else: torch._foreach_add_(update, other, alpha=self.defaults['alpha'])
         return update
 class Sub(BinaryOperationBase):
@@ -72,8 +72,8 @@ class Sub(BinaryOperationBase):
     @torch.no_grad
     def transform(self, var, update: list[torch.Tensor], other: float | list[torch.Tensor]):
-        if isinstance(other, (int,float)): torch._foreach_sub_(update, other * self.settings[var.params[0]]['alpha'])
-        else: torch._foreach_sub_(update, other, alpha=self.settings[var.params[0]]['alpha'])
+        if isinstance(other, (int,float)): torch._foreach_sub_(update, other * self.defaults['alpha'])
+        else: torch._foreach_sub_(update, other, alpha=self.defaults['alpha'])
         return update
 class RSub(BinaryOperationBase):
@@ -219,7 +219,7 @@ class Graft(BinaryOperationBase):
     @torch.no_grad
     def transform(self, var, update: list[torch.Tensor], magnitude: list[torch.Tensor]):
-        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[var.params[0]])
+        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.defaults)
         return TensorList(update).graft_(magnitude, tensorwise=tensorwise, ord=ord, eps=eps)
 class RGraft(BinaryOperationBase):
@@ -231,7 +231,7 @@ class RGraft(BinaryOperationBase):
     @torch.no_grad
     def transform(self, var, update: list[torch.Tensor], direction: list[torch.Tensor]):
-        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[var.params[0]])
+        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.defaults)
         return TensorList(direction).graft_(update, tensorwise=tensorwise, ord=ord, eps=eps)
 GraftToUpdate = RGraft
@@ -265,7 +265,8 @@ class GramSchimdt(BinaryOperationBase):
     @torch.no_grad
     def transform(self, var, update: list[torch.Tensor], other: list[torch.Tensor]):
         update = TensorList(update); other = TensorList(other)
-        return update - (other*update) / ((other*other) + 1e-8)
+        min = torch.finfo(update[0].dtype).tiny * 2
+        return update - (other*update) / (other*other).clip(min=min)
 class Threshold(BinaryOperationBase):
@@ -276,7 +277,7 @@ class Threshold(BinaryOperationBase):
     @torch.no_grad
     def transform(self, var, update: list[torch.Tensor], threshold: list[torch.Tensor] | float, value: list[torch.Tensor] | float):
-        update_above = self.settings[var.params[0]]['update_above']
+        update_above = self.defaults['update_above']
         update = TensorList(update)
         if update_above:
             if isinstance(value, list): return update.where_(update>threshold, value)

torchzero/modules/{momentum/ema.py → ops/higher_level.py} RENAMED Viewed

@@ -5,39 +5,16 @@ from typing import Literal
 import torch
 from ...core import Target, Transform
-from ...utils import TensorList, NumberList, unpack_dicts, unpack_states
-from ..functional import debias, ema_, ema_sq_, sqrt_ema_sq_, centered_ema_sq_, sqrt_centered_ema_sq_, debias_second_momentum
-class EMA(Transform):
-    """Maintains an exponential moving average of update.
-    Args:
-        momentum (float, optional): momentum (beta). Defaults to 0.9.
-        dampening (float, optional): momentum dampening. Defaults to 0.
-        debiased (bool, optional): whether to debias the EMA like in Adam. Defaults to False.
-        lerp (bool, optional): whether to use linear interpolation. Defaults to True.
-        ema_init (str, optional): initial values for the EMA, "zeros" or "update".
-        target (Target, optional): target to apply EMA to. Defaults to 'update'.
-    """
-    def __init__(self, momentum:float=0.9, dampening:float=0, debiased: bool = False, lerp=True, ema_init: Literal['zeros', 'update'] = 'zeros', target: Target = 'update'):
-        defaults = dict(momentum=momentum,dampening=dampening,debiased=debiased,lerp=lerp,ema_init=ema_init)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def apply_tensors(self, tensors, params, grads, loss, states, settings):
-        step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        debiased, lerp, ema_init = itemgetter('debiased','lerp','ema_init')(settings[0])
-        exp_avg = unpack_states(states, tensors, 'exp_avg',
-                                init=torch.zeros_like if ema_init=='zeros' else tensors, cls=TensorList)
-        momentum, dampening = unpack_dicts(settings, 'momentum','dampening', cls=NumberList)
-        exp_avg = ema_(TensorList(tensors), exp_avg_=exp_avg,beta=momentum,dampening=dampening,lerp=lerp)
-        if debiased: return debias(exp_avg, step=step, beta1=momentum, alpha=1, inplace=False)
-        else: return exp_avg.clone() # this has exp_avg storage so needs to be cloned
+from ...utils import NumberList, TensorList, unpack_dicts, unpack_states
+from ..functional import (
+    centered_ema_sq_,
+    debias,
+    debias_second_momentum,
+    ema_,
+    ema_sq_,
+    sqrt_centered_ema_sq_,
+    sqrt_ema_sq_,
+)
 class EMASquared(Transform):

torchzero/modules/ops/multi.py CHANGED Viewed

@@ -8,7 +8,7 @@ from typing import Any, Literal
 import torch
 from ...core import Chainable, Module, Target, Var, maybe_chain
-from ...utils import TensorList, tensorlist
+from ...utils import TensorList, tensorlist, Metrics
 class MultiOperationBase(Module, ABC):
@@ -59,7 +59,7 @@ class SubModules(MultiOperationBase):
     @torch.no_grad
     def transform(self, var: Var, input: float | list[torch.Tensor], other: float | list[torch.Tensor]) -> list[torch.Tensor]:
-        alpha = self.settings[var.params[0]]['alpha']
+        alpha = self.defaults['alpha']
         if isinstance(input, (int,float)):
             assert isinstance(other, list)
@@ -112,7 +112,7 @@ class LerpModules(MultiOperationBase):
     @torch.no_grad
     def transform(self, var: Var, input: list[torch.Tensor], end: list[torch.Tensor]) -> list[torch.Tensor]:
-        torch._foreach_lerp_(input, end, weight=self.settings[var.params[0]]['weight'])
+        torch._foreach_lerp_(input, end, weight=self.defaults['weight'])
         return input
 class ClipModules(MultiOperationBase):
@@ -154,45 +154,45 @@ class GraftModules(MultiOperationBase):
     Reference:
         Agarwal, N., Anil, R., Hazan, E., Koren, T., & Zhang, C. (2020). Disentangling adaptive gradient methods from learning rates. arXiv preprint arXiv:2002.11803. https://arxiv.org/pdf/2002.11803
     """
-    def __init__(self, direction: Chainable, magnitude: Chainable, tensorwise:bool=True, ord:float=2, eps:float = 1e-6, strength:float=1):
+    def __init__(self, direction: Chainable, magnitude: Chainable, tensorwise:bool=True, ord:Metrics=2, eps:float = 1e-6, strength:float=1):
         defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps, strength=strength)
         super().__init__(defaults, direction=direction, magnitude=magnitude)
     @torch.no_grad
     def transform(self, var, magnitude: list[torch.Tensor], direction:list[torch.Tensor]):
-        tensorwise, ord, eps, strength = itemgetter('tensorwise','ord','eps', 'strength')(self.settings[var.params[0]])
+        tensorwise, ord, eps, strength = itemgetter('tensorwise','ord','eps', 'strength')(self.defaults)
         return TensorList(direction).graft_(magnitude, tensorwise=tensorwise, ord=ord, eps=eps, strength=strength)
 class MultiplyByModuleNorm(MultiOperationBase):
     """Outputs :code:`input` multiplied by norm of the :code:`norm` output."""
-    def __init__(self, input: Chainable, norm: Chainable, tensorwise:bool=True, ord:float|Literal['mean_abs']=2):
+    def __init__(self, input: Chainable, norm: Chainable, tensorwise:bool=True, ord:Metrics=2):
         defaults = dict(tensorwise=tensorwise, ord=ord)
         super().__init__(defaults, input=input, norm=norm)
     @torch.no_grad
     def transform(self, var, input: list[torch.Tensor], norm:list[torch.Tensor]):
-        tensorwise, ord = itemgetter('tensorwise','ord')(self.settings[var.params[0]])
+        tensorwise, ord = itemgetter('tensorwise','ord')(self.defaults)
         if tensorwise:
-            if ord == 'mean_abs': n = [t.mean() for t in torch._foreach_abs(norm)]
-            else: n = torch._foreach_norm(norm, ord)
-        else: n = TensorList(norm).global_vector_norm(ord)
+            n = TensorList(norm).metric(ord)
+        else:
+            n = TensorList(norm).global_metric(ord)
         torch._foreach_mul_(input, n)
         return input
 class DivideByModuleNorm(MultiOperationBase):
     """Outputs :code:`input` divided by norm of the :code:`norm` output."""
-    def __init__(self, input: Chainable, norm: Chainable, tensorwise:bool=True, ord:float|Literal['mean_abs']=2):
+    def __init__(self, input: Chainable, norm: Chainable, tensorwise:bool=True, ord:Metrics=2):
         defaults = dict(tensorwise=tensorwise, ord=ord)
         super().__init__(defaults, input=input, norm=norm)
     @torch.no_grad
     def transform(self, var, input: list[torch.Tensor], norm:list[torch.Tensor]):
-        tensorwise, ord = itemgetter('tensorwise','ord')(self.settings[var.params[0]])
+        tensorwise, ord = itemgetter('tensorwise','ord')(self.defaults)
         if tensorwise:
-            if ord == 'mean_abs': n = [t.mean().clip(min=1e-8) for t in torch._foreach_abs(norm)]
-            else: n = torch._foreach_clamp_min(torch._foreach_norm(norm, ord), 1e-8)
-        else: n = TensorList(norm).global_vector_norm(ord).clip(min=1e-8)
+            n = TensorList(norm).metric(ord)
+        else:
+            n = TensorList(norm).global_metric(ord)
         torch._foreach_div_(input, n)
         return input

torchzero/modules/ops/reduce.py CHANGED Viewed

@@ -81,7 +81,7 @@ class WeightedSum(ReduceOperationBase):
     @torch.no_grad
     def transform(self, var: Var, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
         sorted_inputs = sorted(inputs, key=lambda x: isinstance(x, float))
-        weights = self.settings[var.params[0]]['weights']
+        weights = self.defaults['weights']
         sum = cast(list, sorted_inputs[0])
         torch._foreach_mul_(sum, weights[0])
         if len(sorted_inputs) > 1:

torchzero/modules/ops/utility.py CHANGED Viewed

@@ -4,7 +4,7 @@ import torch
 from ...core import Module, Target, Transform
 from ...utils.tensorlist import Distributions, TensorList
+from ...utils.linalg.linear_operator import ScaledIdentity
 class Clone(Module):
     """Clones input. May be useful to store some intermediate result and make sure it doesn't get affected by in-place operations"""
@@ -64,15 +64,15 @@ class Fill(Module):
 class RandomSample(Module):
     """Outputs tensors filled with random numbers from distribution depending on value of :code:`distribution`."""
-    def __init__(self, eps: float = 1, distribution: Distributions = 'normal'):
-        defaults = dict(eps=eps, distribution=distribution)
+    def __init__(self, distribution: Distributions = 'normal', variance:float | None = None):
+        defaults = dict(distribution=distribution, variance=variance)
         super().__init__(defaults)
     @torch.no_grad
     def step(self, var):
-        var.update = TensorList(var.params).sample_like(
-            eps=[self.settings[p]['eps'] for p in var.params], distribution=self.settings[var.params[0]]['distribution']
-        )
+        distribution = self.defaults['distribution']
+        variance = self.get_settings(var.params, 'variance')
+        var.update = TensorList(var.params).sample_like(distribution=distribution, variance=variance)
         return var
 class Randn(Module):
@@ -112,9 +112,13 @@ class UpdateToNone(Module):
         return var
 class Identity(Module):
-    """A placeholder identity operator that is argument-insensitive."""
+    """Identity operator that is argument-insensitive. This also can be used as identity hessian for trust region methods."""
     def __init__(self, *args, **kwargs): super().__init__()
     def step(self, var): return var
+    def get_H(self, var):
+        n = sum(p.numel() for p in var.params)
+        p = var.params[0]
+        return ScaledIdentity(shape=(n,n), device=p.device, dtype=p.dtype)
-NoOp = Identity
+Noop = Identity
 """A placeholder identity operator that is argument-insensitive."""

torchzero/modules/projections/projection.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import math
 import warnings
 from abc import ABC, abstractmethod
-from collections import defaultdict, ChainMap
+from collections import ChainMap, defaultdict
 from collections.abc import Iterable, Mapping, Sequence
 from functools import partial
 from typing import Any, Literal
@@ -9,7 +9,7 @@ from typing import Any, Literal
 import torch
 from ...core import Chainable, Module, Var
-from ...utils import vec_to_tensors, set_storage_
+from ...utils import set_storage_, vec_to_tensors
 def _make_projected_closure(closure, project_fn, unproject_fn,
@@ -166,7 +166,7 @@ class ProjectionBase(Module, ABC):
                 current=current,
             ))
-        projected_var = var.clone(clone_update=False)
+        projected_var = var.clone(clone_update=False, parent=var)
         closure = var.closure
@@ -278,7 +278,7 @@ class ProjectionBase(Module, ABC):
         unprojected_var = projected_var.clone(clone_update=False)
         unprojected_var.closure = var.closure
         unprojected_var.params = var.params
-        unprojected_var.grad = var.grad
+        unprojected_var.grad = var.grad # this may also be set by projected_var since it has var as parent
         if self._project_update:
             assert projected_var.update is not None

torchzero/modules/quasi_newton/__init__.py CHANGED Viewed

@@ -1,14 +1,3 @@
-from .cg import (
-    ConjugateDescent,
-    DaiYuan,
-    FletcherReeves,
-    HagerZhang,
-    HestenesStiefel,
-    HybridHS_DY,
-    LiuStorey,
-    PolakRibiere,
-    ProjectedGradientMethod,
-)
 from .diagonal_quasi_newton import (
     DNRTR,
     DiagonalBFGS,
@@ -19,9 +8,6 @@ from .diagonal_quasi_newton import (
 )
 from .lbfgs import LBFGS
 from .lsr1 import LSR1
-# from .olbfgs import OnlineLBFGS
-# from .experimental import ModularLBFGS
 from .quasi_newton import (
     BFGS,
     DFP,
@@ -40,7 +26,6 @@ from .quasi_newton import (
     NewSSM,
     Pearson,
     ProjectedNewtonRaphson,
-    ThomasOptimalMethod,
     ShorR,
+    ThomasOptimalMethod,
 )
-from .trust_region import CubicRegularization, TrustCG, TrustRegionBase

torchzero 0.3.11__py3-none-any.whl → 0.3.14__py3-none-any.whl

torchzero 0.3.11py3-none-any.whl → 0.3.14py3-none-any.whl