PyPI - torchzero - Versions diffs - 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl - Mend

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (153) hide show

docs/source/conf.py +6 -4
docs/source/docstring template.py +46 -0
tests/test_identical.py +2 -3
tests/test_opts.py +115 -68
tests/test_tensorlist.py +2 -2
tests/test_vars.py +62 -61
torchzero/core/__init__.py +2 -3
torchzero/core/module.py +185 -53
torchzero/core/transform.py +327 -159
torchzero/modules/__init__.py +3 -1
torchzero/modules/clipping/clipping.py +120 -23
torchzero/modules/clipping/ema_clipping.py +37 -22
torchzero/modules/clipping/growth_clipping.py +20 -21
torchzero/modules/experimental/__init__.py +30 -4
torchzero/modules/experimental/absoap.py +53 -156
torchzero/modules/experimental/adadam.py +22 -15
torchzero/modules/experimental/adamY.py +21 -25
torchzero/modules/experimental/adam_lambertw.py +149 -0
torchzero/modules/{line_search/trust_region.py → experimental/adaptive_step_size.py} +37 -8
torchzero/modules/experimental/adasoap.py +24 -129
torchzero/modules/experimental/cosine.py +214 -0
torchzero/modules/experimental/cubic_adam.py +97 -0
torchzero/modules/experimental/curveball.py +12 -12
torchzero/modules/{projections → experimental}/dct.py +11 -11
torchzero/modules/experimental/eigendescent.py +120 -0
torchzero/modules/experimental/etf.py +195 -0
torchzero/modules/experimental/exp_adam.py +113 -0
torchzero/modules/experimental/expanded_lbfgs.py +141 -0
torchzero/modules/{projections → experimental}/fft.py +10 -10
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/hnewton.py +85 -0
torchzero/modules/{quasi_newton/experimental → experimental}/modular_lbfgs.py +49 -50
torchzero/modules/experimental/newton_solver.py +11 -11
torchzero/modules/experimental/newtonnewton.py +92 -0
torchzero/modules/experimental/parabolic_search.py +220 -0
torchzero/modules/experimental/reduce_outward_lr.py +10 -7
torchzero/modules/{projections/structural.py → experimental/structural_projections.py} +12 -54
torchzero/modules/experimental/subspace_preconditioners.py +20 -10
torchzero/modules/experimental/tensor_adagrad.py +42 -0
torchzero/modules/functional.py +12 -2
torchzero/modules/grad_approximation/fdm.py +31 -4
torchzero/modules/grad_approximation/forward_gradient.py +17 -7
torchzero/modules/grad_approximation/grad_approximator.py +69 -24
torchzero/modules/grad_approximation/rfdm.py +310 -50
torchzero/modules/higher_order/__init__.py +1 -0
torchzero/modules/higher_order/higher_order_newton.py +319 -0
torchzero/modules/line_search/__init__.py +4 -4
torchzero/modules/line_search/adaptive.py +99 -0
torchzero/modules/line_search/backtracking.py +75 -31
torchzero/modules/line_search/line_search.py +107 -49
torchzero/modules/line_search/polynomial.py +233 -0
torchzero/modules/line_search/scipy.py +20 -5
torchzero/modules/line_search/strong_wolfe.py +52 -36
torchzero/modules/misc/__init__.py +27 -0
torchzero/modules/misc/debug.py +48 -0
torchzero/modules/misc/escape.py +60 -0
torchzero/modules/misc/gradient_accumulation.py +70 -0
torchzero/modules/misc/misc.py +316 -0
torchzero/modules/misc/multistep.py +158 -0
torchzero/modules/misc/regularization.py +171 -0
torchzero/modules/misc/split.py +103 -0
torchzero/modules/{ops → misc}/switch.py +48 -7
torchzero/modules/momentum/__init__.py +1 -1
torchzero/modules/momentum/averaging.py +25 -10
torchzero/modules/momentum/cautious.py +115 -40
torchzero/modules/momentum/ema.py +92 -41
torchzero/modules/momentum/experimental.py +21 -13
torchzero/modules/momentum/matrix_momentum.py +145 -76
torchzero/modules/momentum/momentum.py +25 -4
torchzero/modules/ops/__init__.py +3 -31
torchzero/modules/ops/accumulate.py +51 -25
torchzero/modules/ops/binary.py +108 -62
torchzero/modules/ops/multi.py +95 -34
torchzero/modules/ops/reduce.py +31 -23
torchzero/modules/ops/unary.py +37 -21
torchzero/modules/ops/utility.py +53 -45
torchzero/modules/optimizers/__init__.py +12 -3
torchzero/modules/optimizers/adagrad.py +48 -29
torchzero/modules/optimizers/adahessian.py +223 -0
torchzero/modules/optimizers/adam.py +35 -37
torchzero/modules/optimizers/adan.py +110 -0
torchzero/modules/optimizers/adaptive_heavyball.py +57 -0
torchzero/modules/optimizers/esgd.py +171 -0
torchzero/modules/optimizers/ladagrad.py +183 -0
torchzero/modules/optimizers/lion.py +4 -4
torchzero/modules/optimizers/mars.py +91 -0
torchzero/modules/optimizers/msam.py +186 -0
torchzero/modules/optimizers/muon.py +32 -7
torchzero/modules/optimizers/orthograd.py +4 -5
torchzero/modules/optimizers/rmsprop.py +19 -19
torchzero/modules/optimizers/rprop.py +89 -52
torchzero/modules/optimizers/sam.py +163 -0
torchzero/modules/optimizers/shampoo.py +55 -27
torchzero/modules/optimizers/soap.py +40 -37
torchzero/modules/optimizers/sophia_h.py +82 -25
torchzero/modules/projections/__init__.py +2 -4
torchzero/modules/projections/cast.py +51 -0
torchzero/modules/projections/galore.py +4 -2
torchzero/modules/projections/projection.py +212 -118
torchzero/modules/quasi_newton/__init__.py +44 -5
torchzero/modules/quasi_newton/cg.py +190 -39
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +163 -0
torchzero/modules/quasi_newton/lbfgs.py +154 -97
torchzero/modules/quasi_newton/lsr1.py +102 -58
torchzero/modules/quasi_newton/quasi_newton.py +1032 -177
torchzero/modules/quasi_newton/trust_region.py +397 -0
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/newton.py +245 -54
torchzero/modules/second_order/newton_cg.py +311 -21
torchzero/modules/second_order/nystrom.py +124 -21
torchzero/modules/smoothing/gaussian.py +55 -21
torchzero/modules/smoothing/laplacian.py +20 -12
torchzero/modules/step_size/__init__.py +2 -0
torchzero/modules/step_size/adaptive.py +122 -0
torchzero/modules/step_size/lr.py +154 -0
torchzero/modules/weight_decay/__init__.py +1 -1
torchzero/modules/weight_decay/weight_decay.py +126 -10
torchzero/modules/wrappers/optim_wrapper.py +40 -12
torchzero/optim/wrappers/directsearch.py +281 -0
torchzero/optim/wrappers/fcmaes.py +105 -0
torchzero/optim/wrappers/mads.py +89 -0
torchzero/optim/wrappers/nevergrad.py +20 -5
torchzero/optim/wrappers/nlopt.py +28 -14
torchzero/optim/wrappers/optuna.py +70 -0
torchzero/optim/wrappers/scipy.py +167 -16
torchzero/utils/__init__.py +3 -7
torchzero/utils/derivatives.py +5 -4
torchzero/utils/linalg/__init__.py +1 -1
torchzero/utils/linalg/solve.py +251 -12
torchzero/utils/numberlist.py +2 -0
torchzero/utils/optimizer.py +55 -74
torchzero/utils/python_tools.py +27 -4
torchzero/utils/tensorlist.py +40 -28
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/METADATA +76 -51
torchzero-0.3.11.dist-info/RECORD +159 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/WHEEL +1 -1
torchzero/core/preconditioner.py +0 -138
torchzero/modules/experimental/algebraic_newton.py +0 -145
torchzero/modules/experimental/soapy.py +0 -290
torchzero/modules/experimental/spectral.py +0 -288
torchzero/modules/experimental/structured_newton.py +0 -111
torchzero/modules/experimental/tropical_newton.py +0 -136
torchzero/modules/lr/__init__.py +0 -2
torchzero/modules/lr/lr.py +0 -59
torchzero/modules/lr/step_size.py +0 -97
torchzero/modules/ops/debug.py +0 -25
torchzero/modules/ops/misc.py +0 -419
torchzero/modules/ops/split.py +0 -75
torchzero/modules/quasi_newton/experimental/__init__.py +0 -1
torchzero/modules/quasi_newton/olbfgs.py +0 -196
torchzero-0.3.9.dist-info/RECORD +0 -131
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/licenses/LICENSE +0 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/top_level.txt +0 -0

torchzero/modules/ops/debug.py DELETED Viewed

@@ -1,25 +0,0 @@
-from collections import deque
-import torch
-from ...core import Module
-from ...utils.tensorlist import Distributions
-class PrintUpdate(Module):
-    def __init__(self, text = 'update = ', print_fn = print):
-        defaults = dict(text=text, print_fn=print_fn)
-        super().__init__(defaults)
-    def step(self, vars):
-        self.settings[vars.params[0]]["print_fn"](f'{self.settings[vars.params[0]]["text"]}{vars.update}')
-        return vars
-class PrintShape(Module):
-    def __init__(self, text = 'shapes = ', print_fn = print):
-        defaults = dict(text=text, print_fn=print_fn)
-        super().__init__(defaults)
-    def step(self, vars):
-        shapes = [u.shape for u in vars.update] if vars.update is not None else None
-        self.settings[vars.params[0]]["print_fn"](f'{self.settings[vars.params[0]]["text"]}{shapes}')
-        return vars

torchzero/modules/ops/misc.py DELETED Viewed

@@ -1,419 +0,0 @@
-from collections import deque
-from collections.abc import Iterable
-from operator import itemgetter
-from typing import Literal
-import torch
-from ...core import Chainable, Module, TensorwiseTransform, Target, Transform, Vars
-from ...utils import Distributions, NumberList, TensorList
-class Previous(TensorwiseTransform):
-    """Maintains an update from n steps back, for example if n=1, returns previous update"""
-    def __init__(self, n=1, target: Target = 'update'):
-        defaults = dict(n=n)
-        super().__init__(uses_grad=False, defaults=defaults, target=target)
-    @torch.no_grad
-    def transform(self, tensor, param, grad, vars):
-        n = self.settings[param]['n']
-        state = self.state[param]
-        if 'history' not in state:
-            state['history'] = deque(maxlen=n+1)
-        state['history'].append(tensor)
-        return state['history'][0]
-class LastDifference(Transform):
-    """Difference between past two updates."""
-    def __init__(self,target: Target = 'update'):
-        super().__init__({}, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        prev_target = self.get_state('prev_target', params=params) # initialized to 0
-        difference = torch._foreach_sub(tensors, prev_target)
-        for p, c in zip(prev_target, tensors): p.set_(c)
-        return difference
-class LastGradDifference(Module):
-    """Difference between past two grads."""
-    def __init__(self):
-        super().__init__({})
-    @torch.no_grad
-    def step(self, vars):
-        grad = vars.get_grad()
-        prev_grad = self.get_state('prev_grad', params=vars.params) # initialized to 0
-        difference = torch._foreach_sub(grad, prev_grad)
-        for p, c in zip(prev_grad, grad): p.set_(c)
-        vars.update = list(difference)
-        return vars
-class LastProduct(Transform):
-    """Difference between past two updates."""
-    def __init__(self,target: Target = 'update'):
-        super().__init__({}, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        prev_target = self.get_state('prev_target', params=params, init=torch.ones_like) # initialized to 1 for prod
-        prod = torch._foreach_mul(tensors, prev_target)
-        for p, c in zip(prev_target, tensors): p.set_(c)
-        return prod
-class LastRatio(Transform):
-    """Ratio between past two updates."""
-    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', target: Target = 'update'):
-        defaults = dict(numerator=numerator)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        prev_target = self.get_state('prev_target', params=params, init = torch.ones_like) # initialized to ones
-        numerator = self.settings[params[0]]['numerator']
-        if numerator == 'cur': ratio = torch._foreach_div(tensors, prev_target)
-        else: ratio = torch._foreach_div(prev_target, tensors)
-        for p, c in zip(prev_target, tensors): p.set_(c)
-        return ratio
-class LastAbsoluteRatio(Transform):
-    """Ratio between absolute values of past two updates."""
-    def __init__(self, numerator: Literal['cur', 'prev'] = 'cur', eps:float=1e-8, target: Target = 'update'):
-        defaults = dict(numerator=numerator, eps=eps)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        prev_target = self.get_state('prev_target', params=params, init = torch.ones_like) # initialized to 0
-        numerator = self.settings[params[0]]['numerator']
-        eps = self.get_settings('eps', params=params, cls = NumberList)
-        torch._foreach_abs_(tensors)
-        torch._foreach_clamp_min_(prev_target, eps)
-        if numerator == 'cur': ratio = torch._foreach_div(tensors, prev_target)
-        else: ratio = torch._foreach_div(prev_target, tensors)
-        for p, c in zip(prev_target, tensors): p.set_(c)
-        return ratio
-class GradSign(Transform):
-    """copy gradient sign to update."""
-    def __init__(self, target: Target = 'update'):
-        super().__init__({}, uses_grad=True, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        assert grads is not None
-        return [t.copysign_(g) for t,g in zip(tensors, grads)]
-class UpdateSign(Transform):
-    """use per-weight magnitudes from grad while using sign from update."""
-    def __init__(self, target: Target = 'update'):
-        super().__init__({}, uses_grad=True, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        assert grads is not None
-        return [g.copysign(t) for t,g in zip(tensors, grads)] # no in-place
-class GraftToGrad(Transform):
-    """use gradient norm and update direction."""
-    def __init__(self, tensorwise:bool=False, ord:float=2, eps:float = 1e-6, target: Target = 'update'):
-        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
-        super().__init__(defaults, uses_grad=True, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        assert grads is not None
-        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[params[0]])
-        return TensorList(tensors).graft_(grads, tensorwise=tensorwise, ord=ord, eps=eps)
-class GraftGradToUpdate(Transform):
-    """use update norm and gradient direction."""
-    def __init__(self, tensorwise:bool=False, ord:float=2, eps:float = 1e-6, target: Target = 'update'):
-        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
-        super().__init__(defaults, uses_grad=True, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        assert grads is not None
-        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[params[0]])
-        return TensorList(grads).graft(tensors, tensorwise=tensorwise, ord=ord, eps=eps)
-class GraftToParams(Transform):
-    """makes update norm be set to parameter norm, but norm won't go below eps"""
-    def __init__(self, tensorwise:bool=False, ord:float=2, eps:float = 1e-4, target: Target = 'update'):
-        defaults = dict(tensorwise=tensorwise, ord=ord, eps=eps)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        tensorwise, ord, eps = itemgetter('tensorwise','ord','eps')(self.settings[params[0]])
-        return TensorList(tensors).graft_(params, tensorwise=tensorwise, ord=ord, eps=eps)
-class Relative(Transform):
-    """multiplies update by absolute parameter values to make it relative to their magnitude, min_value is minimum value to avoid getting stuck at 0"""
-    def __init__(self, min_value:float = 1e-4, target: Target = 'update'):
-        defaults = dict(min_value=min_value)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        mul = TensorList(params).abs().clamp_(self.get_settings('min_value', params=params))
-        torch._foreach_mul_(tensors, mul)
-        return tensors
-class FillLoss(Module):
-    """makes tensors filled with loss value times alpha"""
-    def __init__(self, alpha: float = 1, backward: bool = True):
-        defaults = dict(alpha=alpha, backward=backward)
-        super().__init__(defaults)
-    @torch.no_grad
-    def step(self, vars):
-        alpha = self.get_settings('alpha', params=vars.params)
-        loss = vars.get_loss(backward=self.settings[vars.params[0]]['backward'])
-        vars.update = [torch.full_like(p, loss*a) for p,a in zip(vars.params, alpha)]
-        return vars
-class MulByLoss(Transform):
-    """multiplies update by loss times alpha"""
-    def __init__(self, alpha: float = 1, min_value:float = 1e-8, backward: bool = True, target: Target = 'update'):
-        defaults = dict(alpha=alpha, min_value=min_value, backward=backward)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars): #vars used for loss
-        alpha, min_value = self.get_settings('alpha', 'min_value', params=params)
-        loss = vars.get_loss(backward=self.settings[params[0]]['backward'])
-        mul = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
-        torch._foreach_mul_(tensors, mul)
-        return tensors
-class DivByLoss(Transform):
-    """divides update by loss times alpha"""
-    def __init__(self, alpha: float = 1, min_value:float = 1e-8, backward: bool = True, target: Target = 'update'):
-        defaults = dict(alpha=alpha, min_value=min_value, backward=backward)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars): #vars used for loss
-        alpha, min_value = self.get_settings('alpha', 'min_value', params=params)
-        loss = vars.get_loss(backward=self.settings[params[0]]['backward'])
-        mul = [max(loss*a, mv) for a,mv in zip(alpha, min_value)]
-        torch._foreach_div_(tensors, mul)
-        return tensors
-def _sequential_step(self: Module, vars: Vars, sequential: bool):
-    params = vars.params
-    steps = self.settings[params[0]]['steps']
-    if sequential: modules = self.get_children_sequence()
-    else: modules = [self.children['module']] * steps
-    if vars.closure is None and len(modules) > 1: raise ValueError('Multistep and Sequential require closure')
-    # store original params unless this is last module and can update params directly
-    params_before_steps = None if (vars.is_last and vars.last_module_lrs is None) else [p.clone() for p in params]
-    # first step - pass vars as usual
-    vars = modules[0].step(vars)
-    new_vars = vars
-    # subsequent steps - update parameters and create new vars
-    if len(modules) > 1:
-        for m in modules[1:]:
-            # update params
-            if (not new_vars.skip_update):
-                if new_vars.last_module_lrs is not None:
-                    torch._foreach_mul_(new_vars.get_update(), new_vars.last_module_lrs)
-                torch._foreach_sub_(params, new_vars.get_update())
-            # create new vars since we are at a new point, that means grad, update and loss will be None
-            new_vars = Vars(params=new_vars.params, closure=new_vars.closure,
-                            model=new_vars.model, current_step=new_vars.current_step + 1)
-            # step
-            new_vars = m.step(new_vars)
-        # final parameter update
-        if (not new_vars.skip_update):
-            if new_vars.last_module_lrs is not None:
-                torch._foreach_mul_(new_vars.get_update(), new_vars.last_module_lrs)
-            torch._foreach_sub_(params, new_vars.get_update())
-    # if last module, update is applied so return new vars
-    if params_before_steps is None:
-        new_vars.stop = True
-        new_vars.skip_update = True
-        return new_vars
-    # otherwise use parameter difference as update
-    vars.update = list(torch._foreach_sub(params_before_steps, params))
-    for p, bef in zip(params, params_before_steps):
-        p.set_(bef) # pyright:ignore[reportArgumentType]
-    return vars
-class Multistep(Module):
-    def __init__(self, module: Chainable, steps: int):
-        defaults = dict(steps=steps)
-        super().__init__(defaults)
-        self.set_child('module', module)
-    @torch.no_grad
-    def step(self, vars):
-        return _sequential_step(self, vars, sequential=False)
-class Sequential(Module):
-    def __init__(self, modules: Iterable[Chainable], steps: int):
-        defaults = dict(steps=steps)
-        super().__init__(defaults)
-        self.set_children_sequence(modules)
-    @torch.no_grad
-    def step(self, vars):
-        return _sequential_step(self, vars, sequential=True)
-class GradientAccumulation(Module):
-    """gradient accumulation"""
-    def __init__(self, modules: Chainable, n: int, mean=True, stop=True):
-        defaults = dict(n=n, mean=mean, stop=stop)
-        super().__init__(defaults)
-        self.set_child('modules', modules)
-    @torch.no_grad
-    def step(self, vars):
-        accumulator = self.get_state('accumulator', params=vars.params)
-        settings = self.settings[vars.params[0]]
-        n = settings['n']; mean = settings['mean']; stop = settings['stop']
-        step = self.global_state['step'] = self.global_state.get('step', 0) + 1
-        # add update to accumulator
-        torch._foreach_add_(accumulator, vars.get_update())
-        # step with accumulated updates
-        if step % n == 0:
-            if mean:
-                torch._foreach_div_(accumulator, n)
-            vars.update = [a.clone() for a in accumulator]
-            vars = self.children['modules'].step(vars)
-            # zero accumulator
-            torch._foreach_zero_(accumulator)
-        else:
-            # prevent update
-            if stop:
-                vars.stop=True
-                vars.skip_update=True
-        return vars
-class Dropout(Transform):
-    def __init__(self, p: float = 0.5, graft: bool=False, target: Target = 'update'):
-        defaults = dict(p=p, graft=graft)
-        super().__init__(defaults, uses_grad=False, target=target)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        tensors = TensorList(tensors)
-        p = self.get_settings('p', params=params, cls=NumberList)
-        graft = self.settings[params[0]]['graft']
-        if graft:
-            target_norm = tensors.global_vector_norm()
-            tensors.mul_(tensors.rademacher_like(1-p).add_(1).div_(2))
-            return tensors.mul_(target_norm / tensors.global_vector_norm()) # graft
-        return tensors.mul_(tensors.rademacher_like(1-p).add_(1).div_(2))
-class WeightDropout(Module):
-    """Applies dropout directly to weights."""
-    def __init__(self, p: float = 0.5, graft: bool = True):
-        defaults = dict(p=p, graft=graft)
-        super().__init__(defaults)
-    @torch.no_grad
-    def step(self, vars):
-        closure = vars.closure
-        if closure is None: raise RuntimeError('WeightDropout requires closure')
-        params = TensorList(vars.params)
-        p = self.get_settings('p', params=params)
-        mask = params.rademacher_like(p).add_(1).div_(2).as_bool()
-        @torch.no_grad
-        def dropout_closure(backward=True):
-            orig_params = params.clone()
-            params.mul_(mask)
-            if backward:
-                with torch.enable_grad(): loss = closure()
-            else:
-                loss = closure(False)
-            params.copy_(orig_params)
-            return loss
-        vars.closure = dropout_closure
-        return vars
-class NoiseSign(Transform):
-    """uses random vector with update sign"""
-    def __init__(self, distribution:Distributions = 'normal', alpha = 1):
-        defaults = dict(distribution=distribution, alpha=alpha)
-        super().__init__(defaults, uses_grad=False)
-    @torch.no_grad
-    def transform(self, tensors, params, grads, vars):
-        alpha = self.get_settings('alpha', params=params)
-        distribution = self.settings[params[0]]['distribution']
-        return TensorList(tensors).sample_like(alpha, distribution).copysign_(tensors)
-class NegateOnLossIncrease(Module):
-    def __init__(self, backtrack=True):
-        defaults = dict(backtrack=backtrack)
-        super().__init__(defaults=defaults)
-    @torch.no_grad
-    def step(self, vars):
-        closure = vars.closure
-        if closure is None: raise RuntimeError('NegateOnLossIncrease requires closure')
-        backtrack = self.settings[vars.params[0]]['backtrack']
-        update = vars.get_update()
-        f_0 = vars.get_loss(backward=False)
-        torch._foreach_sub_(vars.params, update)
-        f_1 = closure(False)
-        if f_1 <= f_0:
-            if vars.is_last and vars.last_module_lrs is None:
-                vars.stop = True
-                vars.skip_update = True
-                return vars
-            torch._foreach_add_(vars.params, update)
-            return vars
-        torch._foreach_add_(vars.params, update)
-        if backtrack:
-            torch._foreach_neg_(vars.update)
-        else:
-            torch._foreach_zero_(vars.update)
-        return vars

torchzero/modules/ops/split.py DELETED Viewed

@@ -1,75 +0,0 @@
-from collections.abc import Callable
-from typing import cast
-import torch
-from ...core import Chainable, Module, Vars
-def _split(
-    module: Module,
-    idxs,
-    params,
-    vars: Vars,
-):
-    split_params = [p for i,p in enumerate(params) if i in idxs]
-    split_grad = None
-    if vars.grad is not None:
-        split_grad = [g for i,g in enumerate(vars.grad) if i in idxs]
-    split_update = None
-    if vars.update is not None:
-        split_update = [u for i,u in enumerate(vars.update) if i in idxs]
-    split_vars = vars.clone(clone_update=False)
-    split_vars.params = split_params
-    split_vars.grad = split_grad
-    split_vars.update = split_update
-    split_vars = module.step(split_vars)
-    if (vars.grad is None) and (split_vars.grad is not None):
-        vars.grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
-    if split_vars.update is not None:
-        if vars.update is None:
-            if vars.grad is None: vars.update = [cast(torch.Tensor, None) for _ in vars.params]
-            else: vars.update = [g.clone() for g in vars.grad]
-        for idx, u in zip(idxs, split_vars.update):
-            vars.update[idx] = u
-    vars.update_attrs_from_clone_(split_vars)
-    return vars
-class Split(Module):
-    """Apply `true` modules to all parameters filtered by `filter`, apply `false` modules to all other parameters."""
-    def __init__(self, filter: Callable[[torch.Tensor], bool], true: Chainable | None, false: Chainable | None):
-        defaults = dict(filter=filter)
-        super().__init__(defaults)
-        if true is not None: self.set_child('true', true)
-        if false is not None: self.set_child('false', false)
-    def step(self, vars):
-        params = vars.params
-        filter = self.settings[params[0]]['filter']
-        true_idxs = []
-        false_idxs = []
-        for i,p in enumerate(params):
-            if filter(p): true_idxs.append(i)
-            else: false_idxs.append(i)
-        if 'true' in self.children:
-            true = self.children['true']
-            vars = _split(true, idxs=true_idxs, params=params, vars=vars)
-        if 'false' in self.children:
-            false = self.children['false']
-            vars = _split(false, idxs=false_idxs, params=params, vars=vars)
-        return vars

torchzero/modules/quasi_newton/experimental/__init__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- from .modular_lbfgs import ModularLBFGS

torchzero 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl