PyPI - torchzero - Versions diffs - 0.1.7__py3-none-any.whl → 0.3.1__py3-none-any.whl - Mend

torchzero 0.1.7py3-none-any.whl → 0.3.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (200) hide show

docs/source/conf.py +57 -0
tests/test_identical.py +230 -0
tests/test_module.py +50 -0
tests/test_opts.py +884 -0
tests/test_tensorlist.py +1787 -0
tests/test_utils_optimizer.py +170 -0
tests/test_vars.py +184 -0
torchzero/__init__.py +4 -4
torchzero/core/__init__.py +3 -13
torchzero/core/module.py +629 -494
torchzero/core/preconditioner.py +137 -0
torchzero/core/transform.py +252 -0
torchzero/modules/__init__.py +13 -21
torchzero/modules/clipping/__init__.py +3 -0
torchzero/modules/clipping/clipping.py +320 -0
torchzero/modules/clipping/ema_clipping.py +135 -0
torchzero/modules/clipping/growth_clipping.py +187 -0
torchzero/modules/experimental/__init__.py +13 -18
torchzero/modules/experimental/absoap.py +350 -0
torchzero/modules/experimental/adadam.py +111 -0
torchzero/modules/experimental/adamY.py +135 -0
torchzero/modules/experimental/adasoap.py +282 -0
torchzero/modules/experimental/algebraic_newton.py +145 -0
torchzero/modules/experimental/curveball.py +89 -0
torchzero/modules/experimental/dsoap.py +290 -0
torchzero/modules/experimental/gradmin.py +85 -0
torchzero/modules/experimental/reduce_outward_lr.py +35 -0
torchzero/modules/experimental/spectral.py +286 -0
torchzero/modules/experimental/subspace_preconditioners.py +128 -0
torchzero/modules/experimental/tropical_newton.py +136 -0
torchzero/modules/functional.py +209 -0
torchzero/modules/grad_approximation/__init__.py +4 -0
torchzero/modules/grad_approximation/fdm.py +120 -0
torchzero/modules/grad_approximation/forward_gradient.py +81 -0
torchzero/modules/grad_approximation/grad_approximator.py +66 -0
torchzero/modules/grad_approximation/rfdm.py +259 -0
torchzero/modules/line_search/__init__.py +5 -30
torchzero/modules/line_search/backtracking.py +186 -0
torchzero/modules/line_search/line_search.py +181 -0
torchzero/modules/line_search/scipy.py +37 -0
torchzero/modules/line_search/strong_wolfe.py +260 -0
torchzero/modules/line_search/trust_region.py +61 -0
torchzero/modules/lr/__init__.py +2 -0
torchzero/modules/lr/lr.py +59 -0
torchzero/modules/lr/step_size.py +97 -0
torchzero/modules/momentum/__init__.py +14 -4
torchzero/modules/momentum/averaging.py +78 -0
torchzero/modules/momentum/cautious.py +181 -0
torchzero/modules/momentum/ema.py +173 -0
torchzero/modules/momentum/experimental.py +189 -0
torchzero/modules/momentum/matrix_momentum.py +124 -0
torchzero/modules/momentum/momentum.py +43 -106
torchzero/modules/ops/__init__.py +103 -0
torchzero/modules/ops/accumulate.py +65 -0
torchzero/modules/ops/binary.py +240 -0
torchzero/modules/ops/debug.py +25 -0
torchzero/modules/ops/misc.py +419 -0
torchzero/modules/ops/multi.py +137 -0
torchzero/modules/ops/reduce.py +149 -0
torchzero/modules/ops/split.py +75 -0
torchzero/modules/ops/switch.py +68 -0
torchzero/modules/ops/unary.py +115 -0
torchzero/modules/ops/utility.py +112 -0
torchzero/modules/optimizers/__init__.py +18 -10
torchzero/modules/optimizers/adagrad.py +146 -49
torchzero/modules/optimizers/adam.py +112 -118
torchzero/modules/optimizers/lion.py +18 -11
torchzero/modules/optimizers/muon.py +222 -0
torchzero/modules/optimizers/orthograd.py +55 -0
torchzero/modules/optimizers/rmsprop.py +103 -51
torchzero/modules/optimizers/rprop.py +342 -99
torchzero/modules/optimizers/shampoo.py +197 -0
torchzero/modules/optimizers/soap.py +286 -0
torchzero/modules/optimizers/sophia_h.py +129 -0
torchzero/modules/projections/__init__.py +5 -0
torchzero/modules/projections/dct.py +73 -0
torchzero/modules/projections/fft.py +73 -0
torchzero/modules/projections/galore.py +10 -0
torchzero/modules/projections/projection.py +218 -0
torchzero/modules/projections/structural.py +151 -0
torchzero/modules/quasi_newton/__init__.py +7 -4
torchzero/modules/quasi_newton/cg.py +218 -0
torchzero/modules/quasi_newton/experimental/__init__.py +1 -0
torchzero/modules/quasi_newton/experimental/modular_lbfgs.py +265 -0
torchzero/modules/quasi_newton/lbfgs.py +228 -0
torchzero/modules/quasi_newton/lsr1.py +170 -0
torchzero/modules/quasi_newton/olbfgs.py +196 -0
torchzero/modules/quasi_newton/quasi_newton.py +475 -0
torchzero/modules/second_order/__init__.py +3 -4
torchzero/modules/second_order/newton.py +142 -165
torchzero/modules/second_order/newton_cg.py +84 -0
torchzero/modules/second_order/nystrom.py +168 -0
torchzero/modules/smoothing/__init__.py +2 -5
torchzero/modules/smoothing/gaussian.py +164 -0
torchzero/modules/smoothing/{laplacian_smoothing.py → laplacian.py} +115 -128
torchzero/modules/weight_decay/__init__.py +1 -0
torchzero/modules/weight_decay/weight_decay.py +52 -0
torchzero/modules/wrappers/__init__.py +1 -0
torchzero/modules/wrappers/optim_wrapper.py +91 -0
torchzero/optim/__init__.py +2 -10
torchzero/optim/utility/__init__.py +1 -0
torchzero/optim/utility/split.py +45 -0
torchzero/optim/wrappers/nevergrad.py +2 -28
torchzero/optim/wrappers/nlopt.py +31 -16
torchzero/optim/wrappers/scipy.py +79 -156
torchzero/utils/__init__.py +27 -0
torchzero/utils/compile.py +175 -37
torchzero/utils/derivatives.py +513 -99
torchzero/utils/linalg/__init__.py +5 -0
torchzero/utils/linalg/matrix_funcs.py +87 -0
torchzero/utils/linalg/orthogonalize.py +11 -0
torchzero/utils/linalg/qr.py +71 -0
torchzero/utils/linalg/solve.py +168 -0
torchzero/utils/linalg/svd.py +20 -0
torchzero/utils/numberlist.py +132 -0
torchzero/utils/ops.py +10 -0
torchzero/utils/optimizer.py +284 -0
torchzero/utils/optuna_tools.py +40 -0
torchzero/utils/params.py +149 -0
torchzero/utils/python_tools.py +40 -25
torchzero/utils/tensorlist.py +1081 -0
torchzero/utils/torch_tools.py +48 -12
torchzero-0.3.1.dist-info/METADATA +379 -0
torchzero-0.3.1.dist-info/RECORD +128 -0
{torchzero-0.1.7.dist-info → torchzero-0.3.1.dist-info}/WHEEL +1 -1
{torchzero-0.1.7.dist-info → torchzero-0.3.1.dist-info/licenses}/LICENSE +0 -0
torchzero-0.3.1.dist-info/top_level.txt +3 -0
torchzero/core/tensorlist_optimizer.py +0 -219
torchzero/modules/adaptive/__init__.py +0 -4
torchzero/modules/adaptive/adaptive.py +0 -192
torchzero/modules/experimental/experimental.py +0 -294
torchzero/modules/experimental/quad_interp.py +0 -104
torchzero/modules/experimental/subspace.py +0 -259
torchzero/modules/gradient_approximation/__init__.py +0 -7
torchzero/modules/gradient_approximation/_fd_formulas.py +0 -3
torchzero/modules/gradient_approximation/base_approximator.py +0 -105
torchzero/modules/gradient_approximation/fdm.py +0 -125
torchzero/modules/gradient_approximation/forward_gradient.py +0 -163
torchzero/modules/gradient_approximation/newton_fdm.py +0 -198
torchzero/modules/gradient_approximation/rfdm.py +0 -125
torchzero/modules/line_search/armijo.py +0 -56
torchzero/modules/line_search/base_ls.py +0 -139
torchzero/modules/line_search/directional_newton.py +0 -217
torchzero/modules/line_search/grid_ls.py +0 -158
torchzero/modules/line_search/scipy_minimize_scalar.py +0 -62
torchzero/modules/meta/__init__.py +0 -12
torchzero/modules/meta/alternate.py +0 -65
torchzero/modules/meta/grafting.py +0 -195
torchzero/modules/meta/optimizer_wrapper.py +0 -173
torchzero/modules/meta/return_overrides.py +0 -46
torchzero/modules/misc/__init__.py +0 -10
torchzero/modules/misc/accumulate.py +0 -43
torchzero/modules/misc/basic.py +0 -115
torchzero/modules/misc/lr.py +0 -96
torchzero/modules/misc/multistep.py +0 -51
torchzero/modules/misc/on_increase.py +0 -53
torchzero/modules/operations/__init__.py +0 -29
torchzero/modules/operations/multi.py +0 -298
torchzero/modules/operations/reduction.py +0 -134
torchzero/modules/operations/singular.py +0 -113
torchzero/modules/optimizers/sgd.py +0 -54
torchzero/modules/orthogonalization/__init__.py +0 -2
torchzero/modules/orthogonalization/newtonschulz.py +0 -159
torchzero/modules/orthogonalization/svd.py +0 -86
torchzero/modules/regularization/__init__.py +0 -22
torchzero/modules/regularization/dropout.py +0 -34
torchzero/modules/regularization/noise.py +0 -77
torchzero/modules/regularization/normalization.py +0 -328
torchzero/modules/regularization/ortho_grad.py +0 -78
torchzero/modules/regularization/weight_decay.py +0 -92
torchzero/modules/scheduling/__init__.py +0 -2
torchzero/modules/scheduling/lr_schedulers.py +0 -131
torchzero/modules/scheduling/step_size.py +0 -80
torchzero/modules/smoothing/gaussian_smoothing.py +0 -90
torchzero/modules/weight_averaging/__init__.py +0 -2
torchzero/modules/weight_averaging/ema.py +0 -72
torchzero/modules/weight_averaging/swa.py +0 -171
torchzero/optim/experimental/__init__.py +0 -20
torchzero/optim/experimental/experimental.py +0 -343
torchzero/optim/experimental/ray_search.py +0 -83
torchzero/optim/first_order/__init__.py +0 -18
torchzero/optim/first_order/cautious.py +0 -158
torchzero/optim/first_order/forward_gradient.py +0 -70
torchzero/optim/first_order/optimizers.py +0 -570
torchzero/optim/modular.py +0 -132
torchzero/optim/quasi_newton/__init__.py +0 -1
torchzero/optim/quasi_newton/directional_newton.py +0 -58
torchzero/optim/second_order/__init__.py +0 -1
torchzero/optim/second_order/newton.py +0 -94
torchzero/optim/zeroth_order/__init__.py +0 -4
torchzero/optim/zeroth_order/fdm.py +0 -87
torchzero/optim/zeroth_order/newton_fdm.py +0 -146
torchzero/optim/zeroth_order/rfdm.py +0 -217
torchzero/optim/zeroth_order/rs.py +0 -85
torchzero/random/__init__.py +0 -1
torchzero/random/random.py +0 -46
torchzero/tensorlist.py +0 -826
torchzero-0.1.7.dist-info/METADATA +0 -120
torchzero-0.1.7.dist-info/RECORD +0 -104
torchzero-0.1.7.dist-info/top_level.txt +0 -1

torchzero/modules/ops/reduce.py ADDED Viewed

@@ -0,0 +1,149 @@
+""""""
+from abc import ABC, abstractmethod
+from collections.abc import Iterable,Sequence
+from typing import Any, cast
+import torch
+from ...core import Chainable, Module, Target, Vars, maybe_chain
+class ReduceOperation(Module, ABC):
+    """Base class for reduction operations like Sum, Prod, Maximum. This is an abstract class, subclass it and override `transform` method to use it."""
+    def __init__(self, defaults: dict[str, Any] | None, *operands: Chainable | Any):
+        super().__init__(defaults=defaults)
+        self.operands = []
+        for i, v in enumerate(operands):
+            if isinstance(v, (Module, Sequence)):
+                self.set_child(f'operand_{i}', v)
+                self.operands.append(self.children[f'operand_{i}'])
+            else:
+                self.operands.append(v)
+        if not self.children:
+            raise ValueError('At least one operand must be a module')
+    @abstractmethod
+    def transform(self, vars: Vars, *operands: Any | list[torch.Tensor]) -> list[torch.Tensor]:
+        """applies the operation to operands"""
+        raise NotImplementedError
+    @torch.no_grad
+    def step(self, vars: Vars) -> Vars:
+        # pass cloned update to all module operands
+        processed_operands: list[Any | list[torch.Tensor]] = self.operands.copy()
+        for i, v in enumerate(self.operands):
+            if f'operand_{i}' in self.children:
+                v: Module
+                updated_vars = v.step(vars.clone(clone_update=True))
+                processed_operands[i] = updated_vars.get_update()
+                vars.update_attrs_from_clone_(updated_vars) # update loss, grad, etc if this module calculated them
+        transformed = self.transform(vars, *processed_operands)
+        vars.update = transformed
+        return vars
+class Sum(ReduceOperation):
+    USE_MEAN = False
+    def __init__(self, *inputs: Chainable | float):
+        super().__init__({}, *inputs)
+    @torch.no_grad
+    def transform(self, vars: Vars, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        sorted_inputs = sorted(inputs, key=lambda x: isinstance(x, float))
+        sum = cast(list, sorted_inputs[0])
+        if len(sorted_inputs) > 1:
+            for v in sorted_inputs[1:]:
+                torch._foreach_add_(sum, v)
+        if self.USE_MEAN and len(sorted_inputs) > 1: torch._foreach_div_(sum, len(sorted_inputs))
+        return sum
+class Mean(Sum):
+    USE_MEAN = True
+class WeightedSum(ReduceOperation):
+    USE_MEAN = False
+    def __init__(self, *inputs: Chainable | float, weights: Iterable[float]):
+        weights = list(weights)
+        if len(inputs) != len(weights):
+            raise ValueError(f'Number of inputs {len(inputs)} must match number of weights {len(weights)}')
+        defaults = dict(weights=weights)
+        super().__init__(defaults=defaults, *inputs)
+    @torch.no_grad
+    def transform(self, vars: Vars, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        sorted_inputs = sorted(inputs, key=lambda x: isinstance(x, float))
+        weights = self.settings[vars.params[0]]['weights']
+        sum = cast(list, sorted_inputs[0])
+        torch._foreach_mul_(sum, weights[0])
+        if len(sorted_inputs) > 1:
+            for v, w in zip(sorted_inputs[1:], weights[1:]):
+                if isinstance(v, (int, float)): torch._foreach_add_(sum, v*w)
+                else: torch._foreach_add_(sum, v, alpha=w)
+        if self.USE_MEAN and len(sorted_inputs) > 1: torch._foreach_div_(sum, len(sorted_inputs))
+        return sum
+class WeightedMean(WeightedSum):
+    USE_MEAN = True
+class Median(ReduceOperation):
+    def __init__(self, *inputs: Chainable | float):
+        super().__init__({}, *inputs)
+    @torch.no_grad
+    def transform(self, vars: Vars, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        res = []
+        lists = [i for i in inputs if isinstance(i, list)]
+        floats = [i for i in inputs if isinstance(i, (int,float))]
+        for tensors in zip(*lists):
+            res.append(torch.median(torch.stack(tensors + tuple(torch.full_like(tensors[0], f) for f in floats)), dim=0))
+        return res
+class Prod(ReduceOperation):
+    def __init__(self, *inputs: Chainable | float):
+        super().__init__({}, *inputs)
+    @torch.no_grad
+    def transform(self, vars: Vars, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        sorted_inputs = sorted(inputs, key=lambda x: isinstance(x, float))
+        prod = cast(list, sorted_inputs[0])
+        if len(sorted_inputs) > 1:
+            for v in sorted_inputs[1:]:
+                torch._foreach_mul_(prod, v)
+        return prod
+class MaximumModules(ReduceOperation):
+    def __init__(self, *inputs: Chainable | float):
+        super().__init__({}, *inputs)
+    @torch.no_grad
+    def transform(self, vars: Vars, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        sorted_inputs = sorted(inputs, key=lambda x: isinstance(x, float))
+        maximum = cast(list, sorted_inputs[0])
+        if len(sorted_inputs) > 1:
+            for v in sorted_inputs[1:]:
+                torch._foreach_maximum_(maximum, v)
+        return maximum
+class MinimumModules(ReduceOperation):
+    def __init__(self, *inputs: Chainable | float):
+        super().__init__({}, *inputs)
+    @torch.no_grad
+    def transform(self, vars: Vars, *inputs: float | list[torch.Tensor]) -> list[torch.Tensor]:
+        sorted_inputs = sorted(inputs, key=lambda x: isinstance(x, float))
+        minimum = cast(list, sorted_inputs[0])
+        if len(sorted_inputs) > 1:
+            for v in sorted_inputs[1:]:
+                torch._foreach_minimum_(minimum, v)
+        return minimum

torchzero/modules/ops/split.py ADDED Viewed

@@ -0,0 +1,75 @@
+from collections.abc import Callable
+from typing import cast
+import torch
+from ...core import Chainable, Module, Vars
+def _split(
+    module: Module,
+    idxs,
+    params,
+    vars: Vars,
+):
+    split_params = [p for i,p in enumerate(params) if i in idxs]
+    split_grad = None
+    if vars.grad is not None:
+        split_grad = [g for i,g in enumerate(vars.grad) if i in idxs]
+    split_update = None
+    if vars.update is not None:
+        split_update = [u for i,u in enumerate(vars.update) if i in idxs]
+    split_vars = vars.clone(clone_update=False)
+    split_vars.params = split_params
+    split_vars.grad = split_grad
+    split_vars.update = split_update
+    split_vars = module.step(split_vars)
+    if (vars.grad is None) and (split_vars.grad is not None):
+        vars.grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
+    if split_vars.update is not None:
+        if vars.update is None:
+            if vars.grad is None: vars.update = [cast(torch.Tensor, None) for _ in vars.params]
+            else: vars.update = [g.clone() for g in vars.grad]
+        for idx, u in zip(idxs, split_vars.update):
+            vars.update[idx] = u
+    vars.update_attrs_from_clone_(split_vars)
+    return vars
+class Split(Module):
+    """Apply `true` modules to all parameters filtered by `filter`, apply `false` modules to all other parameters."""
+    def __init__(self, filter: Callable[[torch.Tensor], bool], true: Chainable | None, false: Chainable | None):
+        defaults = dict(filter=filter)
+        super().__init__(defaults)
+        if true is not None: self.set_child('true', true)
+        if false is not None: self.set_child('false', false)
+    def step(self, vars):
+        params = vars.params
+        filter = self.settings[params[0]]['filter']
+        true_idxs = []
+        false_idxs = []
+        for i,p in enumerate(params):
+            if filter(p): true_idxs.append(i)
+            else: false_idxs.append(i)
+        if 'true' in self.children:
+            true = self.children['true']
+            vars = _split(true, idxs=true_idxs, params=params, vars=vars)
+        if 'false' in self.children:
+            false = self.children['false']
+            vars = _split(false, idxs=false_idxs, params=params, vars=vars)
+        return vars

torchzero/modules/ops/switch.py ADDED Viewed

@@ -0,0 +1,68 @@
+from collections.abc import Iterable, Sequence
+from typing import Any
+import torch
+from ...core import Chainable, Module
+class Alternate(Module):
+    """alternate between stepping with `modules`"""
+    LOOP = True
+    def __init__(self, *modules: Chainable, steps: int | Iterable[int] = 1):
+        if isinstance(steps, Iterable):
+            steps = list(steps)
+            if len(steps) != len(modules):
+                raise ValueError(f"steps must be the same length as modules, got {len(modules) = }, {len(steps) = }")
+        defaults = dict(steps=steps)
+        super().__init__(defaults)
+        self.set_children_sequence(modules)
+        self.global_state['current_module_idx'] = 0
+        self.global_state['steps_to_next'] = steps[0] if isinstance(steps, list) else steps
+    @torch.no_grad
+    def step(self, vars):
+        # get current module
+        current_module_idx = self.global_state.setdefault('current_module_idx', 0)
+        module = self.children[f'module_{current_module_idx}']
+        # step
+        vars = module.step(vars.clone(clone_update=False))
+        # number of steps until next module
+        steps = self.settings[vars.params[0]]['steps']
+        if isinstance(steps, int): steps = [steps]*len(self.children)
+        if 'steps_to_next' not in self.global_state:
+            self.global_state['steps_to_next'] = steps[0] if isinstance(steps, list) else steps
+        self.global_state['steps_to_next'] -= 1
+        # switch to next module
+        if self.global_state['steps_to_next'] == 0:
+            self.global_state['current_module_idx'] += 1
+            # loop to first module (or keep using last module on Switch)
+            if self.global_state['current_module_idx'] > len(self.children) - 1:
+                if self.LOOP: self.global_state['current_module_idx'] = 0
+                else: self.global_state['current_module_idx'] = len(self.children) - 1
+            self.global_state['steps_to_next'] = steps[self.global_state['current_module_idx']]
+        return vars
+class Switch(Alternate):
+    """switch to next module after some steps"""
+    LOOP = False
+    def __init__(self, *modules: Chainable, steps: int | Iterable[int]):
+        if isinstance(steps, Iterable):
+            steps = list(steps)
+            if len(steps) != len(modules) - 1:
+                raise ValueError(f"steps must be the same length as modules, got {len(modules) = }, {len(steps) = }")
+            steps.append(1)
+        super().__init__(*modules, steps=steps)

torchzero/modules/ops/unary.py ADDED Viewed

@@ -0,0 +1,115 @@
+from collections import deque
+import torch
+from ...core import TensorwiseTransform, Target, Transform
+from ...utils import TensorList
+class UnaryLambda(Transform):
+    def __init__(self, fn, target: "Target" = 'update'):
+        defaults = dict(fn=fn)
+        super().__init__(defaults=defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        return self.settings[params[0]]['fn'](tensors)
+class UnaryParameterwiseLambda(TensorwiseTransform):
+    def __init__(self, fn, target: "Target" = 'update'):
+        defaults = dict(fn=fn)
+        super().__init__(uses_grad=False, defaults=defaults, target=target)
+    @torch.no_grad
+    def transform(self, tensor, param, grad, vars):
+        return self.settings[param]['fn'](tensor)
+class CustomUnaryOperation(Transform):
+    def __init__(self, name: str, target: "Target" = 'update'):
+        defaults = dict(name=name)
+        super().__init__(defaults=defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        return getattr(tensors, self.settings[params[0]]['name'])()
+class Abs(Transform):
+    def __init__(self, target: "Target" = 'update'): super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        torch._foreach_abs_(tensors)
+        return tensors
+class Sign(Transform):
+    def __init__(self, target: "Target" = 'update'): super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        torch._foreach_sign_(tensors)
+        return tensors
+class Exp(Transform):
+    def __init__(self, target: "Target" = 'update'): super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        torch._foreach_exp_(tensors)
+        return tensors
+class Sqrt(Transform):
+    def __init__(self, target: "Target" = 'update'): super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        torch._foreach_sqrt_(tensors)
+        return tensors
+class Reciprocal(Transform):
+    def __init__(self, eps = 0, target: "Target" = 'update'):
+        defaults = dict(eps = eps)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        eps = self.get_settings('eps', params=params)
+        if any(e != 0 for e in eps): torch._foreach_add_(tensors, eps)
+        torch._foreach_reciprocal_(tensors)
+        return tensors
+class Negate(Transform):
+    def __init__(self, target: "Target" = 'update'): super().__init__({}, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        torch._foreach_neg_(tensors)
+        return tensors
+class NanToNum(Transform):
+    """Convert `nan`, `inf` and `-inf` to numbers.
+    Args:
+        nan (optional): the value to replace NaNs with. Default is zero.
+        posinf (optional): if a Number, the value to replace positive infinity values with.
+            If None, positive infinity values are replaced with the greatest finite value
+            representable by input's dtype. Default is None.
+        neginf (optional): if a Number, the value to replace negative infinity values with.
+            If None, negative infinity values are replaced with the lowest finite value
+            representable by input's dtype. Default is None.
+    """
+    def __init__(self, nan=None, posinf=None, neginf=None, target: "Target" = 'update'):
+        defaults = dict(nan=nan, posinf=posinf, neginf=neginf)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        nan, posinf, neginf = self.get_settings('nan', 'posinf', 'neginf', params=params)
+        return [t.nan_to_num_(nan_i, posinf_i, neginf_i) for t, nan_i, posinf_i, neginf_i in zip(tensors, nan, posinf, neginf)]
+class Rescale(Transform):
+    """rescale update to (min, max) range"""
+    def __init__(self, min: float, max: float, tensorwise: bool = False, eps:float=1e-8, target: "Target" = 'update'):
+        defaults = dict(min=min, max=max, eps=eps, tensorwise=tensorwise)
+        super().__init__(defaults, uses_grad=False, target=target)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        min,max = self.get_settings('min','max', params=params)
+        tensorwise = self.settings[params[0]]['tensorwise']
+        dim = None if tensorwise else 'global'
+        return TensorList(tensors).rescale(min=min, max=max, eps=self.settings[params[0]]['eps'], dim=dim)

torchzero/modules/ops/utility.py ADDED Viewed

@@ -0,0 +1,112 @@
+from collections import deque
+import torch
+from ...core import Module, Target, Transform
+from ...utils.tensorlist import Distributions, TensorList
+class Clone(Transform):
+    def __init__(self): super().__init__({}, uses_grad=False)
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars): return [t.clone() for t in tensors]
+class Grad(Module):
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [g.clone() for g in vars.get_grad()]
+        return vars
+class Params(Module):
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [p.clone() for p in vars.params]
+        return vars
+class Update(Module):
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [u.clone() for u in vars.get_update()]
+        return vars
+class Zeros(Module):
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [torch.zeros_like(p) for p in vars.params]
+        return vars
+class Ones(Module):
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [torch.ones_like(p) for p in vars.params]
+        return vars
+class Fill(Module):
+    def __init__(self, value: float):
+        defaults = dict(value=value)
+        super().__init__(defaults)
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [torch.full_like(p, self.settings[p]['value']) for p in vars.params]
+        return vars
+class RandomSample(Module):
+    def __init__(self, eps: float = 1, distribution: Distributions = 'normal'):
+        defaults = dict(eps=eps, distribution=distribution)
+        super().__init__(defaults)
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = TensorList(vars.params).sample_like(
+            eps=self.get_settings('eps',params=vars.params), distribution=self.settings[vars.params[0]]['distribution']
+        )
+        return vars
+class Randn(Module):
+    def __init__(self):
+        super().__init__({})
+    @torch.no_grad
+    def step(self, vars):
+        vars.update = [torch.randn_like(p) for p in vars.params]
+        return vars
+class Uniform(Module):
+    def __init__(self, low: float, high: float):
+        defaults = dict(low=low, high=high)
+        super().__init__(defaults)
+    @torch.no_grad
+    def step(self, vars):
+        low,high = self.get_settings('low','high', params=vars.params)
+        vars.update = [torch.empty_like(t).uniform_(l,h) for t,l,h in zip(vars.params, low, high)]
+        return vars
+class GradToNone(Module):
+    def __init__(self): super().__init__()
+    def step(self, vars):
+        vars.grad = None
+        return vars
+class UpdateToNone(Module):
+    def __init__(self): super().__init__()
+    def step(self, vars):
+        vars.update = None
+        return vars
+class Identity(Module):
+    def __init__(self, *args, **kwargs): super().__init__()
+    def step(self, vars): return vars
+NoOp = Identity

torchzero/modules/optimizers/__init__.py CHANGED Viewed

@@ -1,10 +1,18 @@
-r"""
-This include various optimizers as composable modules.
-"""
-# from .adam import Adam
-from .sgd import SGD
-from .rprop import Rprop
-from .rmsprop import RMSProp
-from .adagrad import Adagrad
-from .adam import Adam
-from .lion import Lion
+from .adagrad import Adagrad, FullMatrixAdagrad
+from .adam import Adam
+from .lion import Lion
+from .muon import DualNormCorrection, MuonAdjustLR, Orthogonalize, orthogonalize_grads_
+from .rmsprop import RMSprop
+from .rprop import (
+    BacktrackOnSignChange,
+    Rprop,
+    ScaleLRBySignChange,
+    SignConsistencyLRs,
+    SignConsistencyMask,
+)
+from .shampoo import Shampoo
+from .soap import SOAP
+from .orthograd import OrthoGrad, orthograd_
+from .sophia_h import SophiaH
+# from .curveball import CurveBall
+# from .spectral import SpectralPreconditioner

torchzero 0.1.7__py3-none-any.whl → 0.3.1__py3-none-any.whl

torchzero 0.1.7py3-none-any.whl → 0.3.1py3-none-any.whl