PyPI - torchzero - Versions diffs - 0.1.8__py3-none-any.whl → 0.3.1__py3-none-any.whl - Mend

torchzero 0.1.8py3-none-any.whl → 0.3.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (200) hide show

docs/source/conf.py +57 -0
tests/test_identical.py +230 -0
tests/test_module.py +50 -0
tests/test_opts.py +884 -0
tests/test_tensorlist.py +1787 -0
tests/test_utils_optimizer.py +170 -0
tests/test_vars.py +184 -0
torchzero/__init__.py +4 -4
torchzero/core/__init__.py +3 -13
torchzero/core/module.py +629 -510
torchzero/core/preconditioner.py +137 -0
torchzero/core/transform.py +252 -0
torchzero/modules/__init__.py +13 -21
torchzero/modules/clipping/__init__.py +3 -0
torchzero/modules/clipping/clipping.py +320 -0
torchzero/modules/clipping/ema_clipping.py +135 -0
torchzero/modules/clipping/growth_clipping.py +187 -0
torchzero/modules/experimental/__init__.py +13 -18
torchzero/modules/experimental/absoap.py +350 -0
torchzero/modules/experimental/adadam.py +111 -0
torchzero/modules/experimental/adamY.py +135 -0
torchzero/modules/experimental/adasoap.py +282 -0
torchzero/modules/experimental/algebraic_newton.py +145 -0
torchzero/modules/experimental/curveball.py +89 -0
torchzero/modules/experimental/dsoap.py +290 -0
torchzero/modules/experimental/gradmin.py +85 -0
torchzero/modules/experimental/reduce_outward_lr.py +35 -0
torchzero/modules/experimental/spectral.py +286 -0
torchzero/modules/experimental/subspace_preconditioners.py +128 -0
torchzero/modules/experimental/tropical_newton.py +136 -0
torchzero/modules/functional.py +209 -0
torchzero/modules/grad_approximation/__init__.py +4 -0
torchzero/modules/grad_approximation/fdm.py +120 -0
torchzero/modules/grad_approximation/forward_gradient.py +81 -0
torchzero/modules/grad_approximation/grad_approximator.py +66 -0
torchzero/modules/grad_approximation/rfdm.py +259 -0
torchzero/modules/line_search/__init__.py +5 -30
torchzero/modules/line_search/backtracking.py +186 -0
torchzero/modules/line_search/line_search.py +181 -0
torchzero/modules/line_search/scipy.py +37 -0
torchzero/modules/line_search/strong_wolfe.py +260 -0
torchzero/modules/line_search/trust_region.py +61 -0
torchzero/modules/lr/__init__.py +2 -0
torchzero/modules/lr/lr.py +59 -0
torchzero/modules/lr/step_size.py +97 -0
torchzero/modules/momentum/__init__.py +14 -4
torchzero/modules/momentum/averaging.py +78 -0
torchzero/modules/momentum/cautious.py +181 -0
torchzero/modules/momentum/ema.py +173 -0
torchzero/modules/momentum/experimental.py +189 -0
torchzero/modules/momentum/matrix_momentum.py +124 -0
torchzero/modules/momentum/momentum.py +43 -106
torchzero/modules/ops/__init__.py +103 -0
torchzero/modules/ops/accumulate.py +65 -0
torchzero/modules/ops/binary.py +240 -0
torchzero/modules/ops/debug.py +25 -0
torchzero/modules/ops/misc.py +419 -0
torchzero/modules/ops/multi.py +137 -0
torchzero/modules/ops/reduce.py +149 -0
torchzero/modules/ops/split.py +75 -0
torchzero/modules/ops/switch.py +68 -0
torchzero/modules/ops/unary.py +115 -0
torchzero/modules/ops/utility.py +112 -0
torchzero/modules/optimizers/__init__.py +18 -10
torchzero/modules/optimizers/adagrad.py +146 -49
torchzero/modules/optimizers/adam.py +112 -118
torchzero/modules/optimizers/lion.py +18 -11
torchzero/modules/optimizers/muon.py +222 -0
torchzero/modules/optimizers/orthograd.py +55 -0
torchzero/modules/optimizers/rmsprop.py +103 -51
torchzero/modules/optimizers/rprop.py +342 -99
torchzero/modules/optimizers/shampoo.py +197 -0
torchzero/modules/optimizers/soap.py +286 -0
torchzero/modules/optimizers/sophia_h.py +129 -0
torchzero/modules/projections/__init__.py +5 -0
torchzero/modules/projections/dct.py +73 -0
torchzero/modules/projections/fft.py +73 -0
torchzero/modules/projections/galore.py +10 -0
torchzero/modules/projections/projection.py +218 -0
torchzero/modules/projections/structural.py +151 -0
torchzero/modules/quasi_newton/__init__.py +7 -4
torchzero/modules/quasi_newton/cg.py +218 -0
torchzero/modules/quasi_newton/experimental/__init__.py +1 -0
torchzero/modules/quasi_newton/experimental/modular_lbfgs.py +265 -0
torchzero/modules/quasi_newton/lbfgs.py +228 -0
torchzero/modules/quasi_newton/lsr1.py +170 -0
torchzero/modules/quasi_newton/olbfgs.py +196 -0
torchzero/modules/quasi_newton/quasi_newton.py +475 -0
torchzero/modules/second_order/__init__.py +3 -4
torchzero/modules/second_order/newton.py +142 -165
torchzero/modules/second_order/newton_cg.py +84 -0
torchzero/modules/second_order/nystrom.py +168 -0
torchzero/modules/smoothing/__init__.py +2 -5
torchzero/modules/smoothing/gaussian.py +164 -0
torchzero/modules/smoothing/{laplacian_smoothing.py → laplacian.py} +115 -128
torchzero/modules/weight_decay/__init__.py +1 -0
torchzero/modules/weight_decay/weight_decay.py +52 -0
torchzero/modules/wrappers/__init__.py +1 -0
torchzero/modules/wrappers/optim_wrapper.py +91 -0
torchzero/optim/__init__.py +2 -10
torchzero/optim/utility/__init__.py +1 -0
torchzero/optim/utility/split.py +45 -0
torchzero/optim/wrappers/nevergrad.py +2 -28
torchzero/optim/wrappers/nlopt.py +31 -16
torchzero/optim/wrappers/scipy.py +79 -156
torchzero/utils/__init__.py +27 -0
torchzero/utils/compile.py +175 -37
torchzero/utils/derivatives.py +513 -99
torchzero/utils/linalg/__init__.py +5 -0
torchzero/utils/linalg/matrix_funcs.py +87 -0
torchzero/utils/linalg/orthogonalize.py +11 -0
torchzero/utils/linalg/qr.py +71 -0
torchzero/utils/linalg/solve.py +168 -0
torchzero/utils/linalg/svd.py +20 -0
torchzero/utils/numberlist.py +132 -0
torchzero/utils/ops.py +10 -0
torchzero/utils/optimizer.py +284 -0
torchzero/utils/optuna_tools.py +40 -0
torchzero/utils/params.py +149 -0
torchzero/utils/python_tools.py +40 -25
torchzero/utils/tensorlist.py +1081 -0
torchzero/utils/torch_tools.py +48 -12
torchzero-0.3.1.dist-info/METADATA +379 -0
torchzero-0.3.1.dist-info/RECORD +128 -0
{torchzero-0.1.8.dist-info → torchzero-0.3.1.dist-info}/WHEEL +1 -1
{torchzero-0.1.8.dist-info → torchzero-0.3.1.dist-info/licenses}/LICENSE +0 -0
torchzero-0.3.1.dist-info/top_level.txt +3 -0
torchzero/core/tensorlist_optimizer.py +0 -219
torchzero/modules/adaptive/__init__.py +0 -4
torchzero/modules/adaptive/adaptive.py +0 -192
torchzero/modules/experimental/experimental.py +0 -294
torchzero/modules/experimental/quad_interp.py +0 -104
torchzero/modules/experimental/subspace.py +0 -259
torchzero/modules/gradient_approximation/__init__.py +0 -7
torchzero/modules/gradient_approximation/_fd_formulas.py +0 -3
torchzero/modules/gradient_approximation/base_approximator.py +0 -105
torchzero/modules/gradient_approximation/fdm.py +0 -125
torchzero/modules/gradient_approximation/forward_gradient.py +0 -163
torchzero/modules/gradient_approximation/newton_fdm.py +0 -198
torchzero/modules/gradient_approximation/rfdm.py +0 -125
torchzero/modules/line_search/armijo.py +0 -56
torchzero/modules/line_search/base_ls.py +0 -139
torchzero/modules/line_search/directional_newton.py +0 -217
torchzero/modules/line_search/grid_ls.py +0 -158
torchzero/modules/line_search/scipy_minimize_scalar.py +0 -62
torchzero/modules/meta/__init__.py +0 -12
torchzero/modules/meta/alternate.py +0 -65
torchzero/modules/meta/grafting.py +0 -195
torchzero/modules/meta/optimizer_wrapper.py +0 -173
torchzero/modules/meta/return_overrides.py +0 -46
torchzero/modules/misc/__init__.py +0 -10
torchzero/modules/misc/accumulate.py +0 -43
torchzero/modules/misc/basic.py +0 -115
torchzero/modules/misc/lr.py +0 -96
torchzero/modules/misc/multistep.py +0 -51
torchzero/modules/misc/on_increase.py +0 -53
torchzero/modules/operations/__init__.py +0 -29
torchzero/modules/operations/multi.py +0 -298
torchzero/modules/operations/reduction.py +0 -134
torchzero/modules/operations/singular.py +0 -113
torchzero/modules/optimizers/sgd.py +0 -54
torchzero/modules/orthogonalization/__init__.py +0 -2
torchzero/modules/orthogonalization/newtonschulz.py +0 -159
torchzero/modules/orthogonalization/svd.py +0 -86
torchzero/modules/regularization/__init__.py +0 -22
torchzero/modules/regularization/dropout.py +0 -34
torchzero/modules/regularization/noise.py +0 -77
torchzero/modules/regularization/normalization.py +0 -328
torchzero/modules/regularization/ortho_grad.py +0 -78
torchzero/modules/regularization/weight_decay.py +0 -92
torchzero/modules/scheduling/__init__.py +0 -2
torchzero/modules/scheduling/lr_schedulers.py +0 -131
torchzero/modules/scheduling/step_size.py +0 -80
torchzero/modules/smoothing/gaussian_smoothing.py +0 -90
torchzero/modules/weight_averaging/__init__.py +0 -2
torchzero/modules/weight_averaging/ema.py +0 -72
torchzero/modules/weight_averaging/swa.py +0 -171
torchzero/optim/experimental/__init__.py +0 -20
torchzero/optim/experimental/experimental.py +0 -343
torchzero/optim/experimental/ray_search.py +0 -83
torchzero/optim/first_order/__init__.py +0 -18
torchzero/optim/first_order/cautious.py +0 -158
torchzero/optim/first_order/forward_gradient.py +0 -70
torchzero/optim/first_order/optimizers.py +0 -570
torchzero/optim/modular.py +0 -148
torchzero/optim/quasi_newton/__init__.py +0 -1
torchzero/optim/quasi_newton/directional_newton.py +0 -58
torchzero/optim/second_order/__init__.py +0 -1
torchzero/optim/second_order/newton.py +0 -94
torchzero/optim/zeroth_order/__init__.py +0 -4
torchzero/optim/zeroth_order/fdm.py +0 -87
torchzero/optim/zeroth_order/newton_fdm.py +0 -146
torchzero/optim/zeroth_order/rfdm.py +0 -217
torchzero/optim/zeroth_order/rs.py +0 -85
torchzero/random/__init__.py +0 -1
torchzero/random/random.py +0 -46
torchzero/tensorlist.py +0 -826
torchzero-0.1.8.dist-info/METADATA +0 -130
torchzero-0.1.8.dist-info/RECORD +0 -104
torchzero-0.1.8.dist-info/top_level.txt +0 -1

torchzero/core/preconditioner.py ADDED Viewed

@@ -0,0 +1,137 @@
+from abc import ABC, abstractmethod
+from collections import ChainMap, defaultdict
+from collections.abc import Mapping, Sequence
+from typing import Any, overload, final
+import torch
+from .module import Module, Chainable, Vars
+from .transform import apply, Transform, Target
+from ..utils import TensorList, vec_to_tensors
+class Preconditioner(Transform):
+    """Abstract class for a preconditioner."""
+    def __init__(
+        self,
+        defaults: dict | None,
+        uses_grad: bool,
+        concat_params: bool = False,
+        update_freq: int = 1,
+        scale_first: bool = False,
+        inner: Chainable | None = None,
+        target: Target = "update",
+    ):
+        if defaults is None: defaults = {}
+        defaults.update(dict(__update_freq=update_freq, __concat_params=concat_params, __scale_first=scale_first))
+        super().__init__(defaults, uses_grad=uses_grad, target=target)
+        if inner is not None:
+            self.set_child('inner', inner)
+    @abstractmethod
+    def update(self, tensors: list[torch.Tensor], params:list[torch.Tensor], grads:list[torch.Tensor] | None, states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]):
+        """updates the preconditioner with `tensors`, any internal state should be stored using `keys`"""
+    @abstractmethod
+    def apply(self, tensors:list[torch.Tensor], params:list[torch.Tensor], grads:list[torch.Tensor] | None, states: list[dict[str, Any]], settings: Sequence[Mapping[str, Any]]) -> list[torch.Tensor]:
+        """applies preconditioner to `tensors`, any internal state should be stored using `keys`"""
+    def _tensor_wise_transform(self, tensors:list[torch.Tensor], params:list[torch.Tensor], grads:list[torch.Tensor] | None, vars:Vars) -> list[torch.Tensor]:
+        step = self.global_state.get('step', 0)
+        states = [self.state[p] for p in params]
+        settings = [self.settings[p] for p in params]
+        global_settings = settings[0]
+        update_freq = global_settings['__update_freq']
+        scale_first = global_settings['__scale_first']
+        scale_factor = 0
+        if scale_first and step == 0:
+            # initial step size guess from pytorch LBFGS
+            scale_factor = TensorList(tensors).abs().sum()
+        # update preconditioner
+        if step % update_freq == 0:
+            self.update(tensors=tensors, params=params, grads=grads, states=states, settings=settings)
+        # step with inner
+        if 'inner' in self.children:
+            tensors = apply(self.children['inner'], tensors=tensors, params=params, grads=grads, vars=vars)
+        # apply preconditioner
+        tensors = self.apply(tensors=tensors, params=params, grads=grads, states=states, settings=settings)
+        # scale initial step, when preconditioner might not have been applied
+        if scale_first and step == 0:
+            torch._foreach_div_(tensors, scale_factor)
+        self.global_state['step'] = step + 1
+        return tensors
+    def _concat_transform(self, tensors:list[torch.Tensor], params:list[torch.Tensor], grads:list[torch.Tensor] | None, vars:Vars) -> list[torch.Tensor]:
+        step = self.global_state.get('step', 0)
+        tensors_vec = torch.cat([t.ravel() for t in tensors])
+        params_vec = torch.cat([p.ravel() for p in params])
+        grads_vec = [torch.cat([g.ravel() for g in grads])] if grads is not None else None
+        states = [self.state[params[0]]]
+        settings = [self.settings[params[0]]]
+        global_settings = settings[0]
+        update_freq = global_settings['__update_freq']
+        scale_first = global_settings['__scale_first']
+        scale_factor = 0
+        if scale_first and step == 0:
+            # initial step size guess from pytorch LBFGS
+            scale_factor = tensors_vec.abs().sum()
+        # update preconditioner
+        if step % update_freq == 0:
+            self.update(tensors=[tensors_vec], params=[params_vec], grads=grads_vec, states=states, settings=settings)
+        # step with inner
+        if 'inner' in self.children:
+            tensors = apply(self.children['inner'], tensors=tensors, params=params, grads=grads, vars=vars)
+            tensors_vec = torch.cat([t.ravel() for t in tensors]) # have to recat
+        # apply preconditioner
+        tensors_vec = self.apply(tensors=[tensors_vec], params=[params_vec], grads=grads_vec, states=states, settings=settings)[0]
+        # scale initial step, when preconditioner might not have been applied
+        if scale_first and step == 0:
+            if scale_factor >= torch.finfo(tensors_vec.dtype).eps:
+                tensors_vec /= scale_factor
+        tensors = vec_to_tensors(vec=tensors_vec, reference=tensors)
+        self.global_state['step'] = step + 1
+        return tensors
+    @torch.no_grad
+    def transform(self, tensors, params, grads, vars):
+        concat_params = self.settings[params[0]]['__concat_params']
+        if concat_params: return self._concat_transform(tensors, params, grads, vars)
+        return self._tensor_wise_transform(tensors, params, grads, vars)
+class TensorwisePreconditioner(Preconditioner, ABC):
+    @abstractmethod
+    def update_tensor(self, tensor: torch.Tensor, param:torch.Tensor, grad: torch.Tensor | None, state: dict[str, Any], settings: Mapping[str, Any]):
+        """update preconditioner with `tensor`"""
+    @abstractmethod
+    def apply_tensor(self, tensor: torch.Tensor, param:torch.Tensor, grad: torch.Tensor | None, state: dict[str, Any], settings: Mapping[str, Any]) -> torch.Tensor:
+        """apply preconditioner to `tensor`"""
+    @final
+    def update(self, tensors, params, grads, states, settings):
+        if grads is None: grads = [None]*len(tensors)
+        for t,p,g,state,setting in zip(tensors, params, grads, states, settings):
+            self.update_tensor(t, p, g, state, setting)
+    @final
+    def apply(self, tensors, params, grads, states, settings):
+        preconditioned = []
+        if grads is None: grads = [None]*len(tensors)
+        for t,p,g,state,setting in zip(tensors, params, grads, states, settings):
+            preconditioned.append(self.apply_tensor(t, p, g, state, setting))
+        return preconditioned

torchzero/core/transform.py ADDED Viewed

@@ -0,0 +1,252 @@
+from abc import ABC, abstractmethod
+from collections.abc import Iterable, Sequence
+from typing import Any, Literal
+import torch
+from ..utils import set_storage_
+from .module import Module, Vars, Chain, Chainable
+Target = Literal['grad', 'update', 'closure', 'params_direct', 'params_difference', 'update_difference']
+class Transform(Module, ABC):
+    """Base class for a transform.
+    This is an abstract class, to use it, subclass it and override `transform`.
+    Args:
+        defaults (dict[str,Any] | None): dict with default values.
+        uses_grad (bool):
+            Set this to True if `transform` method uses the `grad` argument. This will ensure
+            `grad` is always computed and can't be None. Otherwise set to False.
+        target (Target, optional):
+            what to set on vars. Defaults to 'update'.
+    """
+    def __init__(self, defaults: dict[str,Any] | None, uses_grad: bool, target: Target = 'update'):
+        super().__init__(defaults)
+        self._target: Target = target
+        self._uses_grad = uses_grad
+    @abstractmethod
+    def transform(self, tensors: list[torch.Tensor], params: list[torch.Tensor], grads: list[torch.Tensor] | None, vars: Vars) -> Iterable[torch.Tensor]:
+        """applies the update rule to `target`."""
+    def step(self, vars: Vars) -> Vars:
+        # vars may change, therefore current params and grads have to be extracted and passed explicitly
+        if self._uses_grad: vars.get_grad()
+        params=vars.params; grad = vars.grad
+        # ---------------------------------- update ---------------------------------- #
+        if self._target == 'update':
+            vars.update = list(self.transform(vars.get_update(), params, grad, vars))
+            return vars
+        # ----------------------------------- grad ----------------------------------- #
+        if self._target == 'grad':
+            vars.grad = list(self.transform(vars.get_grad(), params, grad, vars))
+            return vars
+        # ------------------------------- params_direct ------------------------------ #
+        if self._target == 'params_direct':
+            new_params = self.transform(vars.params, params, grad, vars)
+            for p, new_p in zip(vars.params, new_params): set_storage_(p, new_p)
+            return vars
+        # ----------------------------- params_differnce ----------------------------- #
+        if self._target == 'params_difference':
+            new_params = tuple(self.transform([p.clone() for p in vars.params], params, grad, vars))
+            vars.update = list(torch._foreach_sub(vars.params, new_params))
+            return vars
+        # ----------------------------- update_difference ---------------------------- #
+        if self._target == 'update_difference':
+            update = vars.get_update()
+            new_update = tuple(self.transform([u.clone() for u in update], params, grad, vars))
+            vars.update = list(torch._foreach_sub(update, new_update))
+            return vars
+        # ---------------------------------- closure --------------------------------- #
+        if self._target == 'closure':
+            original_closure = vars.closure
+            if original_closure is None: raise ValueError('Target = "closure", but closure is None')
+            params = vars.params
+            def transformed_closure(backward=True):
+                if backward:
+                    loss = original_closure()
+                    current_grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
+                    transformed_grad = list(self.transform(current_grad, params, grad, vars))
+                    for p, g in zip(params, transformed_grad):
+                        p.grad = g
+                else:
+                    loss = original_closure(False)
+                return loss
+            vars.closure = transformed_closure
+            return vars
+        # ---------------------------------- invalid --------------------------------- #
+        raise ValueError(f'Invalid target: {self._target}')
+class TensorwiseTransform(Module, ABC):
+    """Base class for a parameter-wise transform.
+    This is an abstract class, to use it, subclass it and override `transform`.
+    Args:
+        defaults (dict[str,Any] | None): dict with default values.
+        uses_grad (bool):
+            Set this to True if `transform` method uses the `grad` argument. This will ensure
+            `grad` is always computed and can't be None. Otherwise set to False.
+        target (Target, optional):
+            what to set on vars. Defaults to 'update'.
+    """
+    def __init__(self, defaults: dict[str,Any] | None, uses_grad: bool, target: Target = 'update'):
+        super().__init__(defaults)
+        self._target: Target = target
+        self._uses_grad: bool = uses_grad
+    @abstractmethod
+    def transform(
+        self,
+        tensor: torch.Tensor,
+        param: torch.Tensor,
+        grad: torch.Tensor | None,
+        vars: Vars,
+    ) -> torch.Tensor:
+        """applies the update rule to `target`"""
+    def step(self, vars: Vars) -> Vars:
+        params = vars.params
+        if self._uses_grad and vars.grad is None: vars.get_grad()
+        # ---------------------------------- update ---------------------------------- #
+        if self._target == 'update':
+            update = vars.get_update()
+            grad = vars.grad if vars.grad is not None else [None] * len(params)
+            transformed_update = []
+            for p, g, u in zip(params, grad, update):
+                # settings = self.settings[p] # couldn't make typing work with this
+                #, self.transform(target=u, param=p, grad=g, vars=vars, **{k:settings[k] for k in self.defaults})
+                transformed_update.append(self.transform(tensor=u, param=p, grad=g, vars=vars))
+            vars.update = transformed_update
+            return vars
+        # ----------------------------------- grad ----------------------------------- #
+        if self._target == 'grad':
+            grad = vars.get_grad()
+            transformed_grad = []
+            for p, g in zip(params, grad):
+                transformed_grad.append(self.transform(tensor=g, param=p, grad=g, vars=vars))
+            vars.grad = transformed_grad
+            return vars
+        # ------------------------------- params_direct ------------------------------ #
+        if self._target == 'params_direct':
+            grad = vars.grad if vars.grad is not None else [None] * len(params)
+            for p, g in zip(params, grad):
+                set_storage_(p, self.transform(tensor=p, param=p, grad=g, vars=vars))
+            return vars
+        # ----------------------------- params_difference ---------------------------- #
+        if self._target == 'params_difference':
+            grad = vars.grad if vars.grad is not None else [None] * len(params)
+            transformed_params = []
+            for p, g in zip(params, grad):
+                transformed_params.append(
+                    self.transform(tensor=p.clone(), param=p, grad=g, vars=vars)
+                )
+            vars.update = list(torch._foreach_sub(params, transformed_params))
+            return vars
+        # ----------------------------- update_difference ---------------------------- #
+        if self._target == 'update_difference':
+            update = vars.get_update()
+            grad = vars.grad if vars.grad is not None else [None] * len(params)
+            transformed_update = []
+            for p, g, u in zip(params, grad, update):
+                transformed_update.append(
+                    self.transform(tensor=u.clone(), param=p, grad=g, vars=vars)
+                )
+            vars.update = list(torch._foreach_sub(update, transformed_update))
+            return vars
+        # ---------------------------------- closure --------------------------------- #
+        if self._target == 'closure':
+            original_closure = vars.closure
+            if original_closure is None: raise ValueError('Target = "closure", but closure is None')
+            params = vars.params
+            def transformed_closure(backward=True):
+                if backward:
+                    loss = original_closure()
+                    grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
+                    transformed_grad = []
+                    for p, g in zip(params, grad):
+                        transformed_grad.append(self.transform(tensor=g, param=p, grad=g, vars=vars))
+                    for p, g in zip(params, transformed_grad):
+                        p.grad = g
+                else:
+                    loss = original_closure(False)
+                return loss
+            vars.closure = transformed_closure
+            return vars
+        # ---------------------------------- invalid --------------------------------- #
+        raise ValueError(f'Invalid target: {self._target}')
+def apply(
+    tfm: Chainable,
+    tensors: list[torch.Tensor],
+    params: list[torch.Tensor],
+    grads: list[torch.Tensor] | None,
+    vars: Vars | None = None,
+    current_step: int = 0,
+):
+    if vars is None: vars = Vars(params=params, closure=None, model=None, current_step=current_step)
+    if isinstance(tfm, Transform):
+        if tfm._uses_grad and grads is None: grads = vars.get_grad()
+        return list(tfm.transform(tensors, params, grads, vars))
+    if isinstance(tfm, TensorwiseTransform):
+        grads_list = grads
+        if grads_list is None:
+            if tfm._uses_grad: grads_list = vars.get_grad()
+            else: grads_list = [None] * len(tensors)
+        return [tfm.transform(t, p, g, vars) for t,p,g in zip(tensors,params,grads_list)]
+    if isinstance(tfm, Chain): tfm = tfm.get_children_sequence() # pyright: ignore[reportAssignmentType]
+    if isinstance(tfm, Sequence):
+        for module in tfm:
+            tensors = apply(module, tensors=tensors, params=params, grads=grads, vars=vars)
+        return tensors
+    if isinstance(tfm, Module):
+        cvars = vars.clone(clone_update=False)
+        cvars.update = tensors
+        cvars = tfm.step(cvars)
+        vars.update_attrs_from_clone_(cvars)
+        assert cvars.update is not None
+        return cvars.update
+    raise TypeError(type(tfm))

torchzero/modules/__init__.py CHANGED Viewed

@@ -1,21 +1,13 @@
-r"""
-This submodule contains composable optimizer "building blocks".
-"""
-from ..core.module import OptimizerModule
-from . import experimental
-from .adaptive import *
-from .gradient_approximation import *
-from .line_search import *
-from .meta import *
-from .misc import *
-from .momentum import *
-from .operations import *
-from .optimizers import *
-from .orthogonalization import *
-from .quasi_newton import *
-from .regularization import *
-from .scheduling import *
-from .second_order import *
-from .smoothing import *
-from .weight_averaging import *
+from .clipping import *
+from .grad_approximation import *
+from .line_search import *
+from .lr import *
+from .momentum import *
+from .ops import *
+from .optimizers import *
+from .projections import *
+from .quasi_newton import *
+from .smoothing import *
+from .weight_decay import *
+from .wrappers import *
+from .second_order import *

torchzero/modules/clipping/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+from .clipping import ClipValue, ClipNorm, Normalize, clip_grad_norm_, clip_grad_value_, normalize_grads_, Centralize
+from .growth_clipping import ClipNormGrowth, ClipValueGrowth
+from .ema_clipping import ClipNormByEMA, NormalizeByEMA, ClipValueByEMA

torchzero 0.1.8__py3-none-any.whl → 0.3.1__py3-none-any.whl

torchzero 0.1.8py3-none-any.whl → 0.3.1py3-none-any.whl