PyPI - torchzero - Versions diffs - 0.1.8__py3-none-any.whl → 0.3.2__py3-none-any.whl - Mend

torchzero 0.1.8py3-none-any.whl → 0.3.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (200) hide show

docs/source/conf.py +57 -0
tests/test_identical.py +230 -0
tests/test_module.py +50 -0
tests/test_opts.py +884 -0
tests/test_tensorlist.py +1787 -0
tests/test_utils_optimizer.py +170 -0
tests/test_vars.py +184 -0
torchzero/__init__.py +4 -4
torchzero/core/__init__.py +3 -13
torchzero/core/module.py +629 -510
torchzero/core/preconditioner.py +137 -0
torchzero/core/transform.py +252 -0
torchzero/modules/__init__.py +13 -21
torchzero/modules/clipping/__init__.py +3 -0
torchzero/modules/clipping/clipping.py +320 -0
torchzero/modules/clipping/ema_clipping.py +135 -0
torchzero/modules/clipping/growth_clipping.py +187 -0
torchzero/modules/experimental/__init__.py +13 -18
torchzero/modules/experimental/absoap.py +350 -0
torchzero/modules/experimental/adadam.py +111 -0
torchzero/modules/experimental/adamY.py +135 -0
torchzero/modules/experimental/adasoap.py +282 -0
torchzero/modules/experimental/algebraic_newton.py +145 -0
torchzero/modules/experimental/curveball.py +89 -0
torchzero/modules/experimental/dsoap.py +290 -0
torchzero/modules/experimental/gradmin.py +85 -0
torchzero/modules/experimental/reduce_outward_lr.py +35 -0
torchzero/modules/experimental/spectral.py +286 -0
torchzero/modules/experimental/subspace_preconditioners.py +128 -0
torchzero/modules/experimental/tropical_newton.py +136 -0
torchzero/modules/functional.py +209 -0
torchzero/modules/grad_approximation/__init__.py +4 -0
torchzero/modules/grad_approximation/fdm.py +120 -0
torchzero/modules/grad_approximation/forward_gradient.py +81 -0
torchzero/modules/grad_approximation/grad_approximator.py +66 -0
torchzero/modules/grad_approximation/rfdm.py +259 -0
torchzero/modules/line_search/__init__.py +5 -30
torchzero/modules/line_search/backtracking.py +186 -0
torchzero/modules/line_search/line_search.py +181 -0
torchzero/modules/line_search/scipy.py +37 -0
torchzero/modules/line_search/strong_wolfe.py +260 -0
torchzero/modules/line_search/trust_region.py +61 -0
torchzero/modules/lr/__init__.py +2 -0
torchzero/modules/lr/lr.py +59 -0
torchzero/modules/lr/step_size.py +97 -0
torchzero/modules/momentum/__init__.py +14 -4
torchzero/modules/momentum/averaging.py +78 -0
torchzero/modules/momentum/cautious.py +181 -0
torchzero/modules/momentum/ema.py +173 -0
torchzero/modules/momentum/experimental.py +189 -0
torchzero/modules/momentum/matrix_momentum.py +124 -0
torchzero/modules/momentum/momentum.py +43 -106
torchzero/modules/ops/__init__.py +103 -0
torchzero/modules/ops/accumulate.py +65 -0
torchzero/modules/ops/binary.py +240 -0
torchzero/modules/ops/debug.py +25 -0
torchzero/modules/ops/misc.py +419 -0
torchzero/modules/ops/multi.py +137 -0
torchzero/modules/ops/reduce.py +149 -0
torchzero/modules/ops/split.py +75 -0
torchzero/modules/ops/switch.py +68 -0
torchzero/modules/ops/unary.py +115 -0
torchzero/modules/ops/utility.py +112 -0
torchzero/modules/optimizers/__init__.py +18 -10
torchzero/modules/optimizers/adagrad.py +146 -49
torchzero/modules/optimizers/adam.py +112 -118
torchzero/modules/optimizers/lion.py +18 -11
torchzero/modules/optimizers/muon.py +222 -0
torchzero/modules/optimizers/orthograd.py +55 -0
torchzero/modules/optimizers/rmsprop.py +103 -51
torchzero/modules/optimizers/rprop.py +342 -99
torchzero/modules/optimizers/shampoo.py +197 -0
torchzero/modules/optimizers/soap.py +286 -0
torchzero/modules/optimizers/sophia_h.py +129 -0
torchzero/modules/projections/__init__.py +5 -0
torchzero/modules/projections/dct.py +73 -0
torchzero/modules/projections/fft.py +73 -0
torchzero/modules/projections/galore.py +10 -0
torchzero/modules/projections/projection.py +218 -0
torchzero/modules/projections/structural.py +151 -0
torchzero/modules/quasi_newton/__init__.py +7 -4
torchzero/modules/quasi_newton/cg.py +218 -0
torchzero/modules/quasi_newton/experimental/__init__.py +1 -0
torchzero/modules/quasi_newton/experimental/modular_lbfgs.py +265 -0
torchzero/modules/quasi_newton/lbfgs.py +228 -0
torchzero/modules/quasi_newton/lsr1.py +170 -0
torchzero/modules/quasi_newton/olbfgs.py +196 -0
torchzero/modules/quasi_newton/quasi_newton.py +475 -0
torchzero/modules/second_order/__init__.py +3 -4
torchzero/modules/second_order/newton.py +142 -165
torchzero/modules/second_order/newton_cg.py +84 -0
torchzero/modules/second_order/nystrom.py +168 -0
torchzero/modules/smoothing/__init__.py +2 -5
torchzero/modules/smoothing/gaussian.py +164 -0
torchzero/modules/smoothing/{laplacian_smoothing.py → laplacian.py} +115 -128
torchzero/modules/weight_decay/__init__.py +1 -0
torchzero/modules/weight_decay/weight_decay.py +52 -0
torchzero/modules/wrappers/__init__.py +1 -0
torchzero/modules/wrappers/optim_wrapper.py +91 -0
torchzero/optim/__init__.py +2 -10
torchzero/optim/utility/__init__.py +1 -0
torchzero/optim/utility/split.py +45 -0
torchzero/optim/wrappers/nevergrad.py +2 -28
torchzero/optim/wrappers/nlopt.py +31 -16
torchzero/optim/wrappers/scipy.py +79 -156
torchzero/utils/__init__.py +27 -0
torchzero/utils/compile.py +175 -37
torchzero/utils/derivatives.py +513 -99
torchzero/utils/linalg/__init__.py +5 -0
torchzero/utils/linalg/matrix_funcs.py +87 -0
torchzero/utils/linalg/orthogonalize.py +11 -0
torchzero/utils/linalg/qr.py +71 -0
torchzero/utils/linalg/solve.py +168 -0
torchzero/utils/linalg/svd.py +20 -0
torchzero/utils/numberlist.py +132 -0
torchzero/utils/ops.py +10 -0
torchzero/utils/optimizer.py +284 -0
torchzero/utils/optuna_tools.py +40 -0
torchzero/utils/params.py +149 -0
torchzero/utils/python_tools.py +40 -25
torchzero/utils/tensorlist.py +1081 -0
torchzero/utils/torch_tools.py +48 -12
torchzero-0.3.2.dist-info/METADATA +379 -0
torchzero-0.3.2.dist-info/RECORD +128 -0
{torchzero-0.1.8.dist-info → torchzero-0.3.2.dist-info}/WHEEL +1 -1
{torchzero-0.1.8.dist-info → torchzero-0.3.2.dist-info/licenses}/LICENSE +0 -0
torchzero-0.3.2.dist-info/top_level.txt +3 -0
torchzero/core/tensorlist_optimizer.py +0 -219
torchzero/modules/adaptive/__init__.py +0 -4
torchzero/modules/adaptive/adaptive.py +0 -192
torchzero/modules/experimental/experimental.py +0 -294
torchzero/modules/experimental/quad_interp.py +0 -104
torchzero/modules/experimental/subspace.py +0 -259
torchzero/modules/gradient_approximation/__init__.py +0 -7
torchzero/modules/gradient_approximation/_fd_formulas.py +0 -3
torchzero/modules/gradient_approximation/base_approximator.py +0 -105
torchzero/modules/gradient_approximation/fdm.py +0 -125
torchzero/modules/gradient_approximation/forward_gradient.py +0 -163
torchzero/modules/gradient_approximation/newton_fdm.py +0 -198
torchzero/modules/gradient_approximation/rfdm.py +0 -125
torchzero/modules/line_search/armijo.py +0 -56
torchzero/modules/line_search/base_ls.py +0 -139
torchzero/modules/line_search/directional_newton.py +0 -217
torchzero/modules/line_search/grid_ls.py +0 -158
torchzero/modules/line_search/scipy_minimize_scalar.py +0 -62
torchzero/modules/meta/__init__.py +0 -12
torchzero/modules/meta/alternate.py +0 -65
torchzero/modules/meta/grafting.py +0 -195
torchzero/modules/meta/optimizer_wrapper.py +0 -173
torchzero/modules/meta/return_overrides.py +0 -46
torchzero/modules/misc/__init__.py +0 -10
torchzero/modules/misc/accumulate.py +0 -43
torchzero/modules/misc/basic.py +0 -115
torchzero/modules/misc/lr.py +0 -96
torchzero/modules/misc/multistep.py +0 -51
torchzero/modules/misc/on_increase.py +0 -53
torchzero/modules/operations/__init__.py +0 -29
torchzero/modules/operations/multi.py +0 -298
torchzero/modules/operations/reduction.py +0 -134
torchzero/modules/operations/singular.py +0 -113
torchzero/modules/optimizers/sgd.py +0 -54
torchzero/modules/orthogonalization/__init__.py +0 -2
torchzero/modules/orthogonalization/newtonschulz.py +0 -159
torchzero/modules/orthogonalization/svd.py +0 -86
torchzero/modules/regularization/__init__.py +0 -22
torchzero/modules/regularization/dropout.py +0 -34
torchzero/modules/regularization/noise.py +0 -77
torchzero/modules/regularization/normalization.py +0 -328
torchzero/modules/regularization/ortho_grad.py +0 -78
torchzero/modules/regularization/weight_decay.py +0 -92
torchzero/modules/scheduling/__init__.py +0 -2
torchzero/modules/scheduling/lr_schedulers.py +0 -131
torchzero/modules/scheduling/step_size.py +0 -80
torchzero/modules/smoothing/gaussian_smoothing.py +0 -90
torchzero/modules/weight_averaging/__init__.py +0 -2
torchzero/modules/weight_averaging/ema.py +0 -72
torchzero/modules/weight_averaging/swa.py +0 -171
torchzero/optim/experimental/__init__.py +0 -20
torchzero/optim/experimental/experimental.py +0 -343
torchzero/optim/experimental/ray_search.py +0 -83
torchzero/optim/first_order/__init__.py +0 -18
torchzero/optim/first_order/cautious.py +0 -158
torchzero/optim/first_order/forward_gradient.py +0 -70
torchzero/optim/first_order/optimizers.py +0 -570
torchzero/optim/modular.py +0 -148
torchzero/optim/quasi_newton/__init__.py +0 -1
torchzero/optim/quasi_newton/directional_newton.py +0 -58
torchzero/optim/second_order/__init__.py +0 -1
torchzero/optim/second_order/newton.py +0 -94
torchzero/optim/zeroth_order/__init__.py +0 -4
torchzero/optim/zeroth_order/fdm.py +0 -87
torchzero/optim/zeroth_order/newton_fdm.py +0 -146
torchzero/optim/zeroth_order/rfdm.py +0 -217
torchzero/optim/zeroth_order/rs.py +0 -85
torchzero/random/__init__.py +0 -1
torchzero/random/random.py +0 -46
torchzero/tensorlist.py +0 -826
torchzero-0.1.8.dist-info/METADATA +0 -130
torchzero-0.1.8.dist-info/RECORD +0 -104
torchzero-0.1.8.dist-info/top_level.txt +0 -1

torchzero/modules/ops/debug.py ADDED Viewed

@@ -0,0 +1,25 @@
+from collections import deque
+import torch
+from ...core import Module
+from ...utils.tensorlist import Distributions
+class PrintUpdate(Module):
+    def __init__(self, text = 'update = ', print_fn = print):
+        defaults = dict(text=text, print_fn=print_fn)
+        super().__init__(defaults)
+    def step(self, vars):
+        self.settings[vars.params[0]]["print_fn"](f'{self.settings[vars.params[0]]["text"]}{vars.update}')
+        return vars
+class PrintShape(Module):
+    def __init__(self, text = 'shapes = ', print_fn = print):
+        defaults = dict(text=text, print_fn=print_fn)
+        super().__init__(defaults)
+    def step(self, vars):
+        shapes = [u.shape for u in vars.update] if vars.update is not None else None
+        self.settings[vars.params[0]]["print_fn"](f'{self.settings[vars.params[0]]["text"]}{shapes}')
+        return vars

torchzero/modules/ops/misc.py ADDED Viewed

@@ -0,0 +1,419 @@
+from collections import deque
+from collections.abc import Iterable
+from operator import itemgetter
+from typing import Literal
+import torch
+from ...core import Chainable, Module, TensorwiseTransform, Target, Transform, Vars
+from ...utils import Distributions, NumberList, TensorList
+class Previous(TensorwiseTransform):
+    """Maintains an update from n steps back, for example if n=1, returns previous update"""
+    def __init__(self, n=1, target: Target = 'update'):
+        defaults = dict(n=n)
+        super().__init__(uses_grad=False, defaults=defaults, target=target)
+    @torch.no_grad
+    def transform(self, tensor, param, grad, vars):
+        n = self.settings[param]['n']
+        state = self.state[param]
+        if 'history' not in state:
+            state['history'] = deque(maxlen=n+1)
+        state['history'].append(tensor)
+        return state['history'][0]
+class LastDifference(Transform):
+    """Difference between past two updates."""
+    def __init__(self,target: Target = 'update'):
+        super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        prev_target = self.get_state('prev_target', params=params) # initialized to 0
+        difference = torch._foreach_sub(tensors, prev_target)
+        for p, c in zip(prev_target, tensors): p.set_(c)
+        return difference
+class LastGradDifference(Module):
+    """Difference between past two grads."""
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        grad = vars.get_grad()
+        prev_grad = self.get_state('prev_grad', params=vars.params) # initialized to 0
+        difference = torch._foreach_sub(grad, prev_grad)
+        for p, c in zip(prev_grad, grad): p.set_(c)
+        vars.update = list(difference)
+        return vars
+class LastProduct(Transform):
+    """Difference between past two updates."""
+    def __init__(self,target: Target = 'update'):
+        super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        prev_target = self.get_state('prev_target', params=params, init=torch.ones_like) # initialized to 1 for prod
+        prod = torch._foreach_mul(tensors, prev_target)
+        for p, c in zip(prev_target, tensors): p.set_(c)
+        return prod
+class LastRatio(Transform):
+    """Ratio between past two updates."""
+    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', target: Target = 'update'):
+        defaults = dict(numerator=numerator)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        prev_target = self.get_state('prev_target', params=params, init = torch.ones_like) # initialized to ones
+        numerator = self.settings[params[0]]['numerator']
+        if numerator == 'cur': ratio = torch._foreach_div(tensors, prev_target)
+        else: ratio = torch._foreach_div(prev_target, tensors)
+        for p, c in zip(prev_target, tensors): p.set_(c)
+        return ratio
+class LastAbsoluteRatio(Transform):
+    """Ratio between absolute values of past two updates."""
+    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', eps:float=1e-8, target: Target = 'update'):
+        defaults = dict(numerator=numerator, eps=eps)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        prev_target = self.get_state('prev_target', params=params, init = torch.ones_like) # initialized to 0
+        numerator = self.settings[params[0]]['numerator']
+        eps = self.get_settings('eps', params=params, cls = NumberList)
+        torch._foreach_abs_(tensors)
+        torch._foreach_clamp_min_(prev_target, eps)
+        if numerator == 'cur': ratio = torch._foreach_div(tensors, prev_target)
+        else: ratio = torch._foreach_div(prev_target, tensors)
+        for p, c in zip(prev_target, tensors): p.set_(c)
+        return ratio
+class GradSign(Transform):
+    """copy gradient sign to update."""
+    def __init__(self, target: Target = 'update'):
+        super().__init__({}, uses_grad=True, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        assert grads is not None
+        return [t.copysign_(g) for t,g in zip(tensors, grads)]
+class UpdateSign(Transform):
+    """use per-weight magnitudes from grad while using sign from update."""
+    def __init__(self, target: Target = 'update'):
+        super().__init__({}, uses_grad=True, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        assert grads is not None
+        return [g.copysign(t) for t,g in zip(tensors, grads)] # no in-place
+class GraftToGrad(Transform):
+    """use gradient norm and update direction."""
+    def __init__(self, tensorwise:bool=False, ord:float=2, eps:float = 1e-6, target: Target = 'update'):
+        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
+        super().__init__(defaults, uses_grad=True, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        assert grads is not None
+        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[params[0]])
+        return TensorList(tensors).graft_(grads, tensorwise=tensorwise, ord=ord, eps=eps)
+class GraftGradToUpdate(Transform):
+    """use update norm and gradient direction."""
+    def __init__(self, tensorwise:bool=False, ord:float=2, eps:float = 1e-6, target: Target = 'update'):
+        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
+        super().__init__(defaults, uses_grad=True, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        assert grads is not None
+        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[params[0]])
+        return TensorList(grads).graft(tensors, tensorwise=tensorwise, ord=ord, eps=eps)
+class GraftToParams(Transform):
+    """makes update norm be set to parameter norm, but norm won't go below eps"""
+    def __init__(self, tensorwise:bool=False, ord:float=2, eps:float = 1e-4, target: Target = 'update'):
+        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[params[0]])
+        return TensorList(tensors).graft_(params, tensorwise=tensorwise, ord=ord, eps=eps)
+class Relative(Transform):
+    """multiplies update by absolute parameter values to make it relative to their magnitude, min_value is minimum value to avoid getting stuck at 0"""
+    def __init__(self, min_value:float = 1e-4, target: Target = 'update'):
+        defaults = dict(min_value=min_value)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        mul = TensorList(params).abs().clamp_(self.get_settings('min_value', params=params))
+        torch._foreach_mul_(tensors, mul)
+        return tensors
+class FillLoss(Module):
+    """makes tensors filled with loss value times alpha"""
+    def __init__(self, alpha: float = 1, backward: bool = True):
+        defaults = dict(alpha=alpha, backward=backward)
+        super().__init__(defaults)
+    @torch.no_grad
+    def step(self, vars):
+        alpha = self.get_settings('alpha', params=vars.params)
+        loss = vars.get_loss(backward=self.settings[vars.params[0]]['backward'])
+        vars.update = [torch.full_like(p, loss*a) for p,a in zip(vars.params, alpha)]
+        return vars
+class MulByLoss(Transform):
+    """multiplies update by loss times alpha"""
+    def __init__(self, alpha: float = 1, min_value:float = 1e-8, backward: bool = True, target: Target = 'update'):
+        defaults = dict(alpha=alpha, min_value=min_value, backward=backward)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars): #vars used for loss
+        alpha, min_value = self.get_settings('alpha', 'min_value', params=params)
+        loss = vars.get_loss(backward=self.settings[params[0]]['backward'])
+        mul = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
+        torch._foreach_mul_(tensors, mul)
+        return tensors
+class DivByLoss(Transform):
+    """divides update by loss times alpha"""
+    def __init__(self, alpha: float = 1, min_value:float = 1e-8, backward: bool = True, target: Target = 'update'):
+        defaults = dict(alpha=alpha, min_value=min_value, backward=backward)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars): #vars used for loss
+        alpha, min_value = self.get_settings('alpha', 'min_value', params=params)
+        loss = vars.get_loss(backward=self.settings[params[0]]['backward'])
+        mul = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
+        torch._foreach_div_(tensors, mul)
+        return tensors
+def _sequential_step(self: Module, vars: Vars, sequential: bool):
+    params = vars.params
+    steps = self.settings[params[0]]['steps']
+    if sequential: modules = self.get_children_sequence()
+    else: modules = [self.children['module']] * steps
+    if vars.closure is None and len(modules) > 1: raise ValueError('Multistep and Sequential require closure')
+    # store original params unless this is last module and can update params directly
+    params_before_steps = None if (vars.is_last and vars.last_module_lrs is None) else [p.clone() for p in params]
+    # first step - pass vars as usual
+    vars = modules[0].step(vars)
+    new_vars = vars
+    # subsequent steps - update parameters and create new vars
+    if len(modules) > 1:
+        for m in modules[1:]:
+            # update params
+            if (not new_vars.skip_update):
+                if new_vars.last_module_lrs is not None:
+                    torch._foreach_mul_(new_vars.get_update(), new_vars.last_module_lrs)
+                torch._foreach_sub_(params, new_vars.get_update())
+            # create new vars since we are at a new point, that means grad, update and loss will be None
+            new_vars = Vars(params=new_vars.params, closure=new_vars.closure,
+                            model=new_vars.model, current_step=new_vars.current_step + 1)
+            # step
+            new_vars = m.step(new_vars)
+        # final parameter update
+        if (not new_vars.skip_update):
+            if new_vars.last_module_lrs is not None:
+                torch._foreach_mul_(new_vars.get_update(), new_vars.last_module_lrs)
+            torch._foreach_sub_(params, new_vars.get_update())
+    # if last module, update is applied so return new vars
+    if params_before_steps is None:
+        new_vars.stop = True
+        new_vars.skip_update = True
+        return new_vars
+    # otherwise use parameter difference as update
+    vars.update = list(torch._foreach_sub(params_before_steps, params))
+    for p, bef in zip(params, params_before_steps):
+        p.set_(bef) # pyright:ignore[reportArgumentType]
+    return vars
+class Multistep(Module):
+    def __init__(self, module: Chainable, steps: int):
+        defaults = dict(steps=steps)
+        super().__init__(defaults)
+        self.set_child('module', module)
+    @torch.no_grad
+    def step(self, vars):
+        return _sequential_step(self, vars, sequential=False)
+class Sequential(Module):
+    def __init__(self, modules: Iterable[Chainable], steps: int):
+        defaults = dict(steps=steps)
+        super().__init__(defaults)
+        self.set_children_sequence(modules)
+    @torch.no_grad
+    def step(self, vars):
+        return _sequential_step(self, vars, sequential=True)
+class GradientAccumulation(Module):
+    """gradient accumulation"""
+    def __init__(self, modules: Chainable, n: int, mean=True, stop=True):
+        defaults = dict(n=n, mean=mean, stop=stop)
+        super().__init__(defaults)
+        self.set_child('modules', modules)
+    @torch.no_grad
+    def step(self, vars):
+        accumulator = self.get_state('accumulator', params=vars.params)
+        settings = self.settings[vars.params[0]]
+        n = settings['n']; mean = settings['mean']; stop = settings['stop']
+        step = self.global_state['step'] = self.global_state.get('step', 0) + 1
+        # add update to accumulator
+        torch._foreach_add_(accumulator, vars.get_update())
+        # step with accumulated updates
+        if step % n == 0:
+            if mean:
+                torch._foreach_div_(accumulator, n)
+            vars.update = [a.clone() for a in accumulator]
+            vars = self.children['modules'].step(vars)
+            # zero accumulator
+            torch._foreach_zero_(accumulator)
+        else:
+            # prevent update
+            if stop:
+                vars.stop=True
+                vars.skip_update=True
+        return vars
+class Dropout(Transform):
+    def __init__(self, p: float = 0.5, graft: bool=False, target: Target = 'update'):
+        defaults = dict(p=p, graft=graft)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        tensors = TensorList(tensors)
+        p = self.get_settings('p', params=params, cls=NumberList)
+        graft = self.settings[params[0]]['graft']
+        if graft:
+            target_norm = tensors.global_vector_norm()
+            tensors.mul_(tensors.rademacher_like(1-p).add_(1).div_(2))
+            return tensors.mul_(target_norm / tensors.global_vector_norm()) # graft
+        return tensors.mul_(tensors.rademacher_like(1-p).add_(1).div_(2))
+class WeightDropout(Module):
+    """Applies dropout directly to weights."""
+    def __init__(self, p: float = 0.5, graft: bool = True):
+        defaults = dict(p=p, graft=graft)
+        super().__init__(defaults)
+    @torch.no_grad
+    def step(self, vars):
+        closure = vars.closure
+        if closure is None: raise RuntimeError('WeightDropout requires closure')
+        params = TensorList(vars.params)
+        p = self.get_settings('p', params=params)
+        mask = params.rademacher_like(p).add_(1).div_(2).as_bool()
+        @torch.no_grad
+        def dropout_closure(backward=True):
+            orig_params = params.clone()
+            params.mul_(mask)
+            if backward:
+                with torch.enable_grad(): loss = closure()
+            else:
+                loss = closure(False)
+            params.copy_(orig_params)
+            return loss
+        vars.closure = dropout_closure
+        return vars
+class NoiseSign(Transform):
+    """uses random vector with update sign"""
+    def __init__(self, distribution:Distributions = 'normal', alpha = 1):
+        defaults = dict(distribution=distribution, alpha=alpha)
+        super().__init__(defaults, uses_grad=False)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        alpha = self.get_settings('alpha', params=params)
+        distribution = self.settings[params[0]]['distribution']
+        return TensorList(tensors).sample_like(alpha, distribution).copysign_(tensors)
+class NegateOnLossIncrease(Module):
+    def __init__(self, backtrack=True):
+        defaults = dict(backtrack=backtrack)
+        super().__init__(defaults=defaults)
+    @torch.no_grad
+    def step(self, vars):
+        closure = vars.closure
+        if closure is None: raise RuntimeError('NegateOnLossIncrease requires closure')
+        backtrack = self.settings[vars.params[0]]['backtrack']
+        update = vars.get_update()
+        f_0 = vars.get_loss(backward=False)
+        torch._foreach_sub_(vars.params, update)
+        f_1 = closure(False)
+        if f_1 <= f_0:
+            if vars.is_last and vars.last_module_lrs is None:
+                vars.stop = True
+                vars.skip_update = True
+                return vars
+            torch._foreach_add_(vars.params, update)
+            return vars
+        torch._foreach_add_(vars.params, update)
+        if backtrack:
+            torch._foreach_neg_(vars.update)
+        else:
+            torch._foreach_zero_(vars.update)
+        return vars

torchzero/modules/ops/multi.py ADDED Viewed

@@ -0,0 +1,137 @@
+#pyright: reportIncompatibleMethodOverride=false
+""""""
+from abc import ABC, abstractmethod
+from collections.abc import Iterable, Sequence
+from operator import itemgetter
+from typing import Any
+import torch
+from ...core import Chainable, Module, Target, Vars, maybe_chain
+from ...utils import TensorList, tensorlist
+class MultiOperation(Module, ABC):
+    """Base class for operations that use operands. This is an abstract class, subclass it and override `transform` method to use it."""
+    def __init__(self, defaults: dict[str, Any] | None, **operands: Chainable | Any):
+        super().__init__(defaults=defaults)
+        self.operands = {}
+        for k,v in operands.items():
+            if isinstance(v, (Module, Sequence)):
+                self.set_child(k, v)
+                self.operands[k] = self.children[k]
+            else:
+                self.operands[k] = v
+        if not self.children:
+            raise ValueError('At least one operand must be a module')
+    @abstractmethod
+    def transform(self, vars: Vars, **operands: Any | list[torch.Tensor]) -> list[torch.Tensor]:
+        """applies the operation to operands"""
+        raise NotImplementedError
+    @torch.no_grad
+    def step(self, vars: Vars) -> Vars:
+        # pass cloned update to all module operands
+        processed_operands: dict[str, Any | list[torch.Tensor]] = self.operands.copy()
+        for k,v in self.operands.items():
+            if k in self.children:
+                v: Module
+                updated_vars = v.step(vars.clone(clone_update=True))
+                processed_operands[k] = updated_vars.get_update()
+                vars.update_attrs_from_clone_(updated_vars) # update loss, grad, etc if this module calculated them
+        transformed = self.transform(vars, **processed_operands)
+        vars.update = transformed
+        return vars
+class SubModules(MultiOperation):
+    def __init__(self, input: Chainable | float, other: Chainable | float, alpha: float = 1):
+        defaults = dict(alpha=alpha)
+        super().__init__(defaults, input=input, other=other)
+    @torch.no_grad
+    def transform(self, vars: Vars, input: float | list[torch.Tensor], other: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        alpha = self.settings[vars.params[0]]['alpha']
+        if isinstance(input, (int,float)):
+            assert isinstance(other, list)
+            return input - TensorList(other).mul_(alpha)
+        if isinstance(other, (int, float)): torch._foreach_sub_(input, other * alpha)
+        else: torch._foreach_sub_(input, other, alpha=alpha)
+        return input
+class DivModules(MultiOperation):
+    def __init__(self, input: Chainable | float, other: Chainable | float):
+        defaults = {}
+        super().__init__(defaults, input=input, other=other)
+    @torch.no_grad
+    def transform(self, vars: Vars, input: float | list[torch.Tensor], other: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        if isinstance(input, (int,float)):
+            assert isinstance(other, list)
+            return input / TensorList(other)
+        torch._foreach_div_(input, other)
+        return input
+class PowModules(MultiOperation):
+    def __init__(self, input: Chainable | float, exponent: Chainable | float):
+        defaults = {}
+        super().__init__(defaults, input=input, exponent=exponent)
+    @torch.no_grad
+    def transform(self, vars: Vars, input: float | list[torch.Tensor], exponent: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        if isinstance(input, (int,float)):
+            assert isinstance(exponent, list)
+            return input ** TensorList(exponent)
+        torch._foreach_div_(input, exponent)
+        return input
+class LerpModules(MultiOperation):
+    def __init__(self, input: Chainable, end: Chainable, weight: float):
+        defaults = dict(weight=weight)
+        super().__init__(defaults, input=input, end=end)
+    @torch.no_grad
+    def transform(self, vars: Vars, input: list[torch.Tensor], end: list[torch.Tensor]) -> list[torch.Tensor]:
+        torch._foreach_lerp_(input, end, weight=self.settings[vars.params[0]]['weight'])
+        return input
+class ClipModules(MultiOperation):
+    def __init__(self, input: Chainable, min: float | Chainable | None = None, max: float | Chainable | None = None):
+        defaults = {}
+        super().__init__(defaults, input=input, min=min, max=max)
+    @torch.no_grad
+    def transform(self, vars: Vars, input: list[torch.Tensor], min: float | list[torch.Tensor], max: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        return TensorList(input).clamp_(min=min, max=max)
+class GraftModules(MultiOperation):
+    def __init__(self, direction: Chainable, magnitude: Chainable, tensorwise:bool=True, ord:float=2, eps:float = 1e-6, strength:float=1):
+        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps, strength=strength)
+        super().__init__(defaults, direction=direction, magnitude=magnitude)
+    @torch.no_grad
+    def transform(self, vars, magnitude: list[torch.Tensor], direction:list[torch.Tensor]):
+        tensorwise, ord, eps, strength = itemgetter('tensorwise','ord','eps', 'strength')(self.settings[vars.params[0]])
+        return TensorList(direction).graft_(magnitude, tensorwise=tensorwise, ord=ord, eps=eps, strength=strength)
+class Where(MultiOperation):
+    def __init__(self, condition: Chainable, input: Chainable | float, other: Chainable | float):
+        super().__init__({}, condition=condition, input=input, other=other)
+    @torch.no_grad
+    def transform(self, vars, condition: list[torch.Tensor], input: list[torch.Tensor] | float, other: list[torch.Tensor] | float):
+        return tensorlist.where(TensorList(condition).as_bool(), input, other)

torchzero 0.1.8__py3-none-any.whl → 0.3.2__py3-none-any.whl

torchzero 0.1.8py3-none-any.whl → 0.3.2py3-none-any.whl