PyPI - torchzero - Versions diffs - 0.1.8__py3-none-any.whl → 0.3.2__py3-none-any.whl - Mend

torchzero 0.1.8py3-none-any.whl → 0.3.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (200) hide show

docs/source/conf.py +57 -0
tests/test_identical.py +230 -0
tests/test_module.py +50 -0
tests/test_opts.py +884 -0
tests/test_tensorlist.py +1787 -0
tests/test_utils_optimizer.py +170 -0
tests/test_vars.py +184 -0
torchzero/__init__.py +4 -4
torchzero/core/__init__.py +3 -13
torchzero/core/module.py +629 -510
torchzero/core/preconditioner.py +137 -0
torchzero/core/transform.py +252 -0
torchzero/modules/__init__.py +13 -21
torchzero/modules/clipping/__init__.py +3 -0
torchzero/modules/clipping/clipping.py +320 -0
torchzero/modules/clipping/ema_clipping.py +135 -0
torchzero/modules/clipping/growth_clipping.py +187 -0
torchzero/modules/experimental/__init__.py +13 -18
torchzero/modules/experimental/absoap.py +350 -0
torchzero/modules/experimental/adadam.py +111 -0
torchzero/modules/experimental/adamY.py +135 -0
torchzero/modules/experimental/adasoap.py +282 -0
torchzero/modules/experimental/algebraic_newton.py +145 -0
torchzero/modules/experimental/curveball.py +89 -0
torchzero/modules/experimental/dsoap.py +290 -0
torchzero/modules/experimental/gradmin.py +85 -0
torchzero/modules/experimental/reduce_outward_lr.py +35 -0
torchzero/modules/experimental/spectral.py +286 -0
torchzero/modules/experimental/subspace_preconditioners.py +128 -0
torchzero/modules/experimental/tropical_newton.py +136 -0
torchzero/modules/functional.py +209 -0
torchzero/modules/grad_approximation/__init__.py +4 -0
torchzero/modules/grad_approximation/fdm.py +120 -0
torchzero/modules/grad_approximation/forward_gradient.py +81 -0
torchzero/modules/grad_approximation/grad_approximator.py +66 -0
torchzero/modules/grad_approximation/rfdm.py +259 -0
torchzero/modules/line_search/__init__.py +5 -30
torchzero/modules/line_search/backtracking.py +186 -0
torchzero/modules/line_search/line_search.py +181 -0
torchzero/modules/line_search/scipy.py +37 -0
torchzero/modules/line_search/strong_wolfe.py +260 -0
torchzero/modules/line_search/trust_region.py +61 -0
torchzero/modules/lr/__init__.py +2 -0
torchzero/modules/lr/lr.py +59 -0
torchzero/modules/lr/step_size.py +97 -0
torchzero/modules/momentum/__init__.py +14 -4
torchzero/modules/momentum/averaging.py +78 -0
torchzero/modules/momentum/cautious.py +181 -0
torchzero/modules/momentum/ema.py +173 -0
torchzero/modules/momentum/experimental.py +189 -0
torchzero/modules/momentum/matrix_momentum.py +124 -0
torchzero/modules/momentum/momentum.py +43 -106
torchzero/modules/ops/__init__.py +103 -0
torchzero/modules/ops/accumulate.py +65 -0
torchzero/modules/ops/binary.py +240 -0
torchzero/modules/ops/debug.py +25 -0
torchzero/modules/ops/misc.py +419 -0
torchzero/modules/ops/multi.py +137 -0
torchzero/modules/ops/reduce.py +149 -0
torchzero/modules/ops/split.py +75 -0
torchzero/modules/ops/switch.py +68 -0
torchzero/modules/ops/unary.py +115 -0
torchzero/modules/ops/utility.py +112 -0
torchzero/modules/optimizers/__init__.py +18 -10
torchzero/modules/optimizers/adagrad.py +146 -49
torchzero/modules/optimizers/adam.py +112 -118
torchzero/modules/optimizers/lion.py +18 -11
torchzero/modules/optimizers/muon.py +222 -0
torchzero/modules/optimizers/orthograd.py +55 -0
torchzero/modules/optimizers/rmsprop.py +103 -51
torchzero/modules/optimizers/rprop.py +342 -99
torchzero/modules/optimizers/shampoo.py +197 -0
torchzero/modules/optimizers/soap.py +286 -0
torchzero/modules/optimizers/sophia_h.py +129 -0
torchzero/modules/projections/__init__.py +5 -0
torchzero/modules/projections/dct.py +73 -0
torchzero/modules/projections/fft.py +73 -0
torchzero/modules/projections/galore.py +10 -0
torchzero/modules/projections/projection.py +218 -0
torchzero/modules/projections/structural.py +151 -0
torchzero/modules/quasi_newton/__init__.py +7 -4
torchzero/modules/quasi_newton/cg.py +218 -0
torchzero/modules/quasi_newton/experimental/__init__.py +1 -0
torchzero/modules/quasi_newton/experimental/modular_lbfgs.py +265 -0
torchzero/modules/quasi_newton/lbfgs.py +228 -0
torchzero/modules/quasi_newton/lsr1.py +170 -0
torchzero/modules/quasi_newton/olbfgs.py +196 -0
torchzero/modules/quasi_newton/quasi_newton.py +475 -0
torchzero/modules/second_order/__init__.py +3 -4
torchzero/modules/second_order/newton.py +142 -165
torchzero/modules/second_order/newton_cg.py +84 -0
torchzero/modules/second_order/nystrom.py +168 -0
torchzero/modules/smoothing/__init__.py +2 -5
torchzero/modules/smoothing/gaussian.py +164 -0
torchzero/modules/smoothing/{laplacian_smoothing.py → laplacian.py} +115 -128
torchzero/modules/weight_decay/__init__.py +1 -0
torchzero/modules/weight_decay/weight_decay.py +52 -0
torchzero/modules/wrappers/__init__.py +1 -0
torchzero/modules/wrappers/optim_wrapper.py +91 -0
torchzero/optim/__init__.py +2 -10
torchzero/optim/utility/__init__.py +1 -0
torchzero/optim/utility/split.py +45 -0
torchzero/optim/wrappers/nevergrad.py +2 -28
torchzero/optim/wrappers/nlopt.py +31 -16
torchzero/optim/wrappers/scipy.py +79 -156
torchzero/utils/__init__.py +27 -0
torchzero/utils/compile.py +175 -37
torchzero/utils/derivatives.py +513 -99
torchzero/utils/linalg/__init__.py +5 -0
torchzero/utils/linalg/matrix_funcs.py +87 -0
torchzero/utils/linalg/orthogonalize.py +11 -0
torchzero/utils/linalg/qr.py +71 -0
torchzero/utils/linalg/solve.py +168 -0
torchzero/utils/linalg/svd.py +20 -0
torchzero/utils/numberlist.py +132 -0
torchzero/utils/ops.py +10 -0
torchzero/utils/optimizer.py +284 -0
torchzero/utils/optuna_tools.py +40 -0
torchzero/utils/params.py +149 -0
torchzero/utils/python_tools.py +40 -25
torchzero/utils/tensorlist.py +1081 -0
torchzero/utils/torch_tools.py +48 -12
torchzero-0.3.2.dist-info/METADATA +379 -0
torchzero-0.3.2.dist-info/RECORD +128 -0
{torchzero-0.1.8.dist-info → torchzero-0.3.2.dist-info}/WHEEL +1 -1
{torchzero-0.1.8.dist-info → torchzero-0.3.2.dist-info/licenses}/LICENSE +0 -0
torchzero-0.3.2.dist-info/top_level.txt +3 -0
torchzero/core/tensorlist_optimizer.py +0 -219
torchzero/modules/adaptive/__init__.py +0 -4
torchzero/modules/adaptive/adaptive.py +0 -192
torchzero/modules/experimental/experimental.py +0 -294
torchzero/modules/experimental/quad_interp.py +0 -104
torchzero/modules/experimental/subspace.py +0 -259
torchzero/modules/gradient_approximation/__init__.py +0 -7
torchzero/modules/gradient_approximation/_fd_formulas.py +0 -3
torchzero/modules/gradient_approximation/base_approximator.py +0 -105
torchzero/modules/gradient_approximation/fdm.py +0 -125
torchzero/modules/gradient_approximation/forward_gradient.py +0 -163
torchzero/modules/gradient_approximation/newton_fdm.py +0 -198
torchzero/modules/gradient_approximation/rfdm.py +0 -125
torchzero/modules/line_search/armijo.py +0 -56
torchzero/modules/line_search/base_ls.py +0 -139
torchzero/modules/line_search/directional_newton.py +0 -217
torchzero/modules/line_search/grid_ls.py +0 -158
torchzero/modules/line_search/scipy_minimize_scalar.py +0 -62
torchzero/modules/meta/__init__.py +0 -12
torchzero/modules/meta/alternate.py +0 -65
torchzero/modules/meta/grafting.py +0 -195
torchzero/modules/meta/optimizer_wrapper.py +0 -173
torchzero/modules/meta/return_overrides.py +0 -46
torchzero/modules/misc/__init__.py +0 -10
torchzero/modules/misc/accumulate.py +0 -43
torchzero/modules/misc/basic.py +0 -115
torchzero/modules/misc/lr.py +0 -96
torchzero/modules/misc/multistep.py +0 -51
torchzero/modules/misc/on_increase.py +0 -53
torchzero/modules/operations/__init__.py +0 -29
torchzero/modules/operations/multi.py +0 -298
torchzero/modules/operations/reduction.py +0 -134
torchzero/modules/operations/singular.py +0 -113
torchzero/modules/optimizers/sgd.py +0 -54
torchzero/modules/orthogonalization/__init__.py +0 -2
torchzero/modules/orthogonalization/newtonschulz.py +0 -159
torchzero/modules/orthogonalization/svd.py +0 -86
torchzero/modules/regularization/__init__.py +0 -22
torchzero/modules/regularization/dropout.py +0 -34
torchzero/modules/regularization/noise.py +0 -77
torchzero/modules/regularization/normalization.py +0 -328
torchzero/modules/regularization/ortho_grad.py +0 -78
torchzero/modules/regularization/weight_decay.py +0 -92
torchzero/modules/scheduling/__init__.py +0 -2
torchzero/modules/scheduling/lr_schedulers.py +0 -131
torchzero/modules/scheduling/step_size.py +0 -80
torchzero/modules/smoothing/gaussian_smoothing.py +0 -90
torchzero/modules/weight_averaging/__init__.py +0 -2
torchzero/modules/weight_averaging/ema.py +0 -72
torchzero/modules/weight_averaging/swa.py +0 -171
torchzero/optim/experimental/__init__.py +0 -20
torchzero/optim/experimental/experimental.py +0 -343
torchzero/optim/experimental/ray_search.py +0 -83
torchzero/optim/first_order/__init__.py +0 -18
torchzero/optim/first_order/cautious.py +0 -158
torchzero/optim/first_order/forward_gradient.py +0 -70
torchzero/optim/first_order/optimizers.py +0 -570
torchzero/optim/modular.py +0 -148
torchzero/optim/quasi_newton/__init__.py +0 -1
torchzero/optim/quasi_newton/directional_newton.py +0 -58
torchzero/optim/second_order/__init__.py +0 -1
torchzero/optim/second_order/newton.py +0 -94
torchzero/optim/zeroth_order/__init__.py +0 -4
torchzero/optim/zeroth_order/fdm.py +0 -87
torchzero/optim/zeroth_order/newton_fdm.py +0 -146
torchzero/optim/zeroth_order/rfdm.py +0 -217
torchzero/optim/zeroth_order/rs.py +0 -85
torchzero/random/__init__.py +0 -1
torchzero/random/random.py +0 -46
torchzero/tensorlist.py +0 -826
torchzero-0.1.8.dist-info/METADATA +0 -130
torchzero-0.1.8.dist-info/RECORD +0 -104
torchzero-0.1.8.dist-info/top_level.txt +0 -1

tests/test_utils_optimizer.py ADDED Viewed

@@ -0,0 +1,170 @@
+from collections.abc import Iterable
+from typing import Any
+from functools import partial
+import pytest
+import torch
+from torchzero.utils.optimizer import (
+    Optimizer,
+    get_group_vals,
+    get_params,
+    get_state_vals,
+)
+def _assert_same_storage_(seq1: Iterable[torch.Tensor], seq2: Iterable[torch.Tensor]):
+    seq1=tuple(seq1)
+    seq2=tuple(seq2)
+    assert len(seq1) == len(seq2), f'lengths do not match: {len(seq1)} != {len(seq2)}'
+    for t1, t2 in zip(seq1, seq2):
+        assert t1 is t2
+def _assert_equals_different_storage_(seq1: Iterable[torch.Tensor], seq2: Iterable[torch.Tensor]):
+    seq1=tuple(seq1)
+    seq2=tuple(seq2)
+    assert len(seq1) == len(seq2), f'lengths do not match: {len(seq1)} != {len(seq2)}'
+    for t1, t2 in zip(seq1, seq2):
+        assert t1 is not t2
+        assert (t1 == t2).all()
+def test_assert_compare_tensors():
+    t1 = [torch.randn(1, 3) for _ in range(10)]
+    t2 = [torch.randn(1, 3) for _ in range(10)]
+    _assert_same_storage_(t1, t1)
+    _assert_same_storage_(t2, t2)
+    with pytest.raises(AssertionError):
+        _assert_same_storage_(t1, t2)
+def test_get_params():
+    param_groups = [
+        {'params': [torch.randn(1, 1, requires_grad=True), torch.randn(1, 2, requires_grad=True)]},
+        {'params': [torch.randn(2, 1, requires_grad=True), torch.randn(2, 2, requires_grad=False)], "lr": 0.1},
+        {'params': [torch.randn(3, 1, requires_grad=False)], 'lr': 0.001, 'betas': (0.9, 0.99)},
+    ]
+    param_groups[0]['params'][0].grad = torch.randn(1, 1)
+    params = get_params(param_groups, mode = 'requires_grad', cls = list)
+    _assert_same_storage_(params, [*param_groups[0]['params'], param_groups[1]['params'][0]])
+    params = get_params(param_groups, mode = 'has_grad', cls = list)
+    _assert_same_storage_(params, [param_groups[0]['params'][0]])
+    params = get_params(param_groups, mode = 'all', cls = list)
+    _assert_same_storage_(params, [*param_groups[0]['params'], *param_groups[1]['params'], *param_groups[2]['params']])
+def test_get_group_vals():
+    param_groups = [
+        {'params': [torch.randn(2, 1, requires_grad=True), torch.randn(2, 2, requires_grad=True)], "lr": 0.1, 'beta': 0.95, 'eps': 1e-8},
+        {'params': [torch.randn(1, 1, requires_grad=True), torch.randn(1, 2, requires_grad=False)], 'lr': 0.01, 'beta': 0.99, 'eps': 1e-7},
+        {'params': [torch.randn(3, 1, requires_grad=False)], 'lr': 0.001, 'beta': 0.999, 'eps': 1e-6},
+    ]
+    param_groups[0]['params'][0].grad = torch.randn(2, 1)
+    lr = get_group_vals(param_groups, 'lr', mode = 'requires_grad', cls = list)
+    assert lr == [0.1, 0.1, 0.01], lr
+    lr, beta = get_group_vals(param_groups, 'lr', 'beta', mode = 'requires_grad', cls = list)
+    assert lr == [0.1, 0.1, 0.01], lr
+    assert beta == [0.95, 0.95, 0.99], beta
+    lr, beta, eps = get_group_vals(param_groups, ('lr', 'beta', 'eps'), mode = 'requires_grad', cls = list)
+    assert lr == [0.1, 0.1, 0.01], lr
+    assert beta == [0.95, 0.95, 0.99], beta
+    assert eps == [1e-8, 1e-8, 1e-7], eps
+    lr = get_group_vals(param_groups, 'lr', mode = 'has_grad', cls = list)
+    assert lr == [0.1], lr
+    lr, beta, eps = get_group_vals(param_groups, 'lr', 'beta', 'eps', mode = 'all', cls = list)
+    assert lr == [0.1, 0.1, 0.01, 0.01, 0.001], lr
+    assert beta == [0.95, 0.95, 0.99, 0.99, 0.999], beta
+    assert eps == [1e-8, 1e-8, 1e-7, 1e-7, 1e-6], eps
+def test_get_state_vals():
+    # accessing state values of a single parameter, which acts as the key, so no tensors are passed
+    tensor = torch.randn(3,3)
+    state = {tensor: {'exp_avg': torch.ones_like(tensor)}}
+    existing_cov_exp_avg = state[tensor]['exp_avg']
+    cov_exp_avg, cov_exp_avg_sq = get_state_vals(state, [tensor], ('exp_avg', 'exp_avg_sq'), init = [torch.zeros_like, lambda x: torch.full_like(x, 2)])
+    assert torch.allclose(cov_exp_avg[0], torch.ones_like(tensor))
+    assert torch.allclose(cov_exp_avg_sq[0], torch.full_like(tensor, 2))
+    assert cov_exp_avg[0] is existing_cov_exp_avg
+    assert state[tensor]['exp_avg'] is existing_cov_exp_avg
+    assert state[tensor]['exp_avg_sq'] is cov_exp_avg_sq[0]
+    # accessing state values of multiple parameters
+    parameters = [torch.randn(i,2) for i in range(1, 11)]
+    state = {p: {} for p in parameters}
+    exp_avgs = get_state_vals(state, parameters, 'exp_avg', cls=list)
+    assert isinstance(exp_avgs, list), type(exp_avgs)
+    assert len(exp_avgs) == 10, len(exp_avgs)
+    assert all(torch.allclose(a, torch.zeros_like(parameters[i])) for i, a in enumerate(exp_avgs))
+    exp_avgs2 = get_state_vals(state, parameters, 'exp_avg', cls=list)
+    _assert_same_storage_(exp_avgs, exp_avgs2)
+    # per-parameter inits
+    parameters = [torch.full((i,2), fill_value=i**2) for i in range(1, 11)]
+    state = {p: {} for p in parameters}
+    exp_avgs = get_state_vals(state, parameters, 'exp_avg', init = [partial(torch.full_like, fill_value=i) for i in range(10)], cls=list)
+    assert isinstance(exp_avgs, list), type(exp_avgs)
+    assert len(exp_avgs) == 10, len(exp_avgs)
+    assert all(torch.allclose(a, torch.full_like(parameters[i], i)) for i, a in enumerate(exp_avgs)), exp_avgs
+    exp_avgs2 = get_state_vals(state, parameters, 'exp_avg', cls=list)
+    _assert_same_storage_(exp_avgs, exp_avgs2)
+    # per-parmeter init with a list
+    parameters = [torch.full((i,2), fill_value=i**2) for i in range(1, 11)]
+    state = {p: {} for p in parameters}
+    inits = [torch.full([i], fill_value=i) for i in range(1, 11)]
+    exp_avgs = get_state_vals(state, parameters, 'exp_avg', init = inits, cls=list)
+    assert isinstance(exp_avgs, list), type(exp_avgs)
+    assert len(exp_avgs) == 10, len(exp_avgs)
+    _assert_equals_different_storage_(inits, exp_avgs) # inits are cloned
+    exp_avgs2 = get_state_vals(state, parameters, 'exp_avg', cls=list)
+    _assert_same_storage_(exp_avgs, exp_avgs2)
+    # init with a value
+    parameters = [torch.full((i,2), fill_value=i**2) for i in range(1, 11)]
+    state = {p: {} for p in parameters}
+    inits = 1
+    exp_avgs = get_state_vals(state, parameters, 'exp_avg', init = inits, cls=list)
+    assert isinstance(exp_avgs, list), type(exp_avgs)
+    assert len(exp_avgs) == 10, len(exp_avgs)
+    assert all(v==1 for v in exp_avgs), exp_avgs
+    assert exp_avgs == get_state_vals(state, parameters, 'exp_avg', cls=list) # no init because already initialized
+    # accessing multiple keys
+    parameters = [torch.randn(i,2) for i in range(1,11)]
+    state = {p: {} for p in parameters}
+    exp_avgs, exp_avg_sqs, max_avgs = get_state_vals(state, parameters, 'exp_avg', 'exp_avg_sq', 'max_avg', cls=list)
+    assert len(exp_avgs) == len(exp_avg_sqs) == len(max_avgs) == 10
+    assert isinstance(exp_avgs, list), type(exp_avgs)
+    assert isinstance(exp_avg_sqs, list), type(exp_avg_sqs)
+    assert isinstance(max_avgs, list), type(max_avgs)
+    assert all(torch.allclose(a, torch.zeros_like(parameters[i])) for i, a in enumerate(exp_avgs))
+    assert all(torch.allclose(a, torch.zeros_like(parameters[i])) for i, a in enumerate(exp_avg_sqs))
+    assert all(torch.allclose(a, torch.zeros_like(parameters[i])) for i, a in enumerate(max_avgs))
+    exp_avgs2 = get_state_vals(state, parameters, 'exp_avg', cls=list)
+    exp_avg_sqs2 = get_state_vals(state, parameters, 'exp_avg_sq', cls=list)
+    max_avgs2 = get_state_vals(state, parameters, 'max_avg', cls=list)
+    _assert_same_storage_(exp_avgs, exp_avgs2)
+    _assert_same_storage_(exp_avg_sqs, exp_avg_sqs2)
+    _assert_same_storage_(max_avgs, max_avgs2)
+    # per-key init
+    parameters = [torch.randn(i,2) for i in range(1,11)]
+    state = {p: {} for p in parameters}
+    exp_avgs, exp_avg_sqs, max_avgs = get_state_vals(state, parameters, 'exp_avg', 'exp_avg_sq', 'max_avg', init=(4,5,5.5), cls=list)
+    assert len(exp_avgs) == len(exp_avg_sqs) == len(max_avgs) == 10
+    assert isinstance(exp_avgs, list), type(exp_avgs)
+    assert isinstance(exp_avg_sqs, list), type(exp_avg_sqs)
+    assert isinstance(max_avgs, list), type(max_avgs)
+    assert all(v==4 for v in exp_avgs), exp_avgs
+    assert all(v==5 for v in exp_avg_sqs), exp_avg_sqs
+    assert all(v==5.5 for v in max_avgs), max_avgs
+    assert exp_avgs == get_state_vals(state, parameters, 'exp_avg', cls=list)
+    assert exp_avg_sqs == get_state_vals(state, parameters, 'exp_avg_sq', cls=list)
+    assert max_avgs == get_state_vals(state, parameters, 'max_avg', cls=list)

tests/test_vars.py ADDED Viewed

@@ -0,0 +1,184 @@
+import pytest
+import torch
+from torchzero.core.module import Vars
+from torchzero.utils.tensorlist import TensorList
+@torch.no_grad
+def test_vars_get_loss():
+    # ---------------------------- test that it works ---------------------------- #
+    params = [torch.tensor(2.0, requires_grad=True)]
+    evaluated = False
+    def closure_1(backward=True):
+        assert not backward, 'backward = True'
+        # ensure closure only evaluates once
+        nonlocal evaluated
+        assert evaluated is False, 'closure was evaluated twice'
+        evaluated = True
+        loss = params[0]**2
+        if backward:
+            params[0].grad = None
+            loss.backward()
+        else:
+            assert not loss.requires_grad, "loss requires grad with backward=False"
+        return loss
+    vars = Vars(params=params, closure=closure_1, model=None, current_step=0)
+    assert vars.loss is None, vars.loss
+    assert (loss := vars.get_loss(backward=False)) == 4.0, loss
+    assert evaluated, evaluated
+    assert loss is vars.loss
+    assert vars.loss == 4.0
+    assert vars.loss_approx == 4.0
+    assert vars.grad is None, vars.grad
+    # reevaluate, which should just return already evaluated loss
+    assert (loss := vars.get_loss(backward=False)) == 4.0, loss
+    assert vars.grad is None, vars.grad
+    # ----------------------- test that backward=True works ---------------------- #
+    params = [torch.tensor(3.0, requires_grad=True)]
+    evaluated = False
+    def closure_2(backward=True):
+        # ensure closure only evaluates once
+        nonlocal evaluated
+        assert evaluated is False, 'closure was evaluated twice'
+        evaluated = True
+        loss = params[0] * 2
+        if backward:
+            assert loss.requires_grad, "loss does not require grad so `with torch.enable_grad()` context didn't work"
+            params[0].grad = None
+            loss.backward()
+        else:
+            assert not loss.requires_grad, "loss requires grad with backward=False"
+        return loss
+    vars = Vars(params=params, closure=closure_2, model=None, current_step=0)
+    assert vars.grad is None, vars.grad
+    assert (loss := vars.get_loss(backward=True)) == 6.0, loss
+    assert vars.grad is not None
+    assert vars.grad[0] == 2.0, vars.grad
+    # reevaluate, which should just return already evaluated loss
+    assert (loss := vars.get_loss(backward=True)) == 6.0, loss
+    assert vars.grad[0] == 2.0, vars.grad
+    # get grad, which should just return already evaluated grad
+    assert (grad := vars.get_grad())[0] == 2.0, grad
+    assert grad is vars.grad, grad
+    # get update, which should create and return cloned grad
+    assert vars.update is None
+    assert (update := vars.get_update())[0] == 2.0, update
+    assert update is vars.update
+    assert update is not vars.grad
+    assert vars.grad is not None
+    assert update[0] == vars.grad[0]
+@torch.no_grad
+def test_vars_get_grad():
+    params = [torch.tensor(2.0, requires_grad=True)]
+    evaluated = False
+    def closure(backward=True):
+        # ensure closure only evaluates once
+        nonlocal evaluated
+        assert evaluated is False, 'closure was evaluated twice'
+        evaluated = True
+        loss = params[0]**2
+        if backward:
+            assert loss.requires_grad, "loss does not require grad so `with torch.enable_grad()` context didn't work"
+            params[0].grad = None
+            loss.backward()
+        else:
+            assert not loss.requires_grad, "loss requires grad with backward=False"
+        return loss
+    vars = Vars(params=params, closure=closure, model=None, current_step=0)
+    assert (grad := vars.get_grad())[0] == 4.0, grad
+    assert grad is vars.grad
+    assert vars.loss == 4.0
+    assert (loss := vars.get_loss(backward=False)) == 4.0, loss
+    assert (loss := vars.get_loss(backward=True)) == 4.0, loss
+    assert vars.loss_approx == 4.0
+    assert vars.update is None, vars.update
+    assert (update := vars.get_update())[0] == 4.0, update
+@torch.no_grad
+def test_vars_get_update():
+    params = [torch.tensor(2.0, requires_grad=True)]
+    evaluated = False
+    def closure(backward=True):
+        # ensure closure only evaluates once
+        nonlocal evaluated
+        assert evaluated is False, 'closure was evaluated twice'
+        evaluated = True
+        loss = params[0]**2
+        if backward:
+            assert loss.requires_grad, "loss does not require grad so `with torch.enable_grad()` context didn't work"
+            params[0].grad = None
+            loss.backward()
+        else:
+            assert not loss.requires_grad, "loss requires grad with backward=False"
+        return loss
+    vars = Vars(params=params, closure=closure, model=None, current_step=0)
+    assert vars.update is None, vars.update
+    assert (update := vars.get_update())[0] == 4.0, update
+    assert update is vars.update
+    assert (grad := vars.get_grad())[0] == 4.0, grad
+    assert grad is vars.grad
+    assert grad is not update
+    assert vars.loss == 4.0
+    assert (loss := vars.get_loss(backward=False)) == 4.0, loss
+    assert (loss := vars.get_loss(backward=True)) == 4.0, loss
+    assert vars.loss_approx == 4.0
+    assert (update := vars.get_update())[0] == 4.0, update
+def _assert_vars_are_same_(v1: Vars, v2: Vars, clone_update: bool):
+    for k,v in v1.__dict__.items():
+        if not k.startswith('__'):
+            # if k == 'post_step_hooks': continue
+            if k == 'update' and clone_update:
+                if v1.update is None or v2.update is None:
+                    assert v1.update is None and v2.update is None, f'{k} is not the same, {v1 = }, {v2 = }'
+                else:
+                    assert (TensorList(v1.update) == TensorList(v2.update)).global_all()
+                    assert v1.update is not v2.update
+            else:
+                assert getattr(v2, k) is v, f'{k} is not the same, {v1 = }, {v2 = }'
+def test_vars_clone():
+    model = torch.nn.Sequential(torch.nn.Linear(2,2), torch.nn.Linear(2,4))
+    def closure(backward): return 1
+    vars = Vars(params=list(model.parameters()), closure=closure, model=model, current_step=0)
+    _assert_vars_are_same_(vars, vars.clone(clone_update=False), clone_update=False)
+    _assert_vars_are_same_(vars, vars.clone(clone_update=True), clone_update=True)
+    vars.grad = TensorList(torch.randn(5))
+    _assert_vars_are_same_(vars, vars.clone(clone_update=False), clone_update=False)
+    _assert_vars_are_same_(vars, vars.clone(clone_update=True), clone_update=True)
+    vars.update = TensorList(torch.randn(5) * 2)
+    vars.loss = torch.randn(1)
+    vars.loss_approx = vars.loss
+    _assert_vars_are_same_(vars, vars.clone(clone_update=False), clone_update=False)
+    _assert_vars_are_same_(vars, vars.clone(clone_update=True), clone_update=True)

torchzero/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from . import tensorlist as tl # this needs to be imported first to avoid circular imports
-from .tensorlist import TensorList
-from . import optim, modules as m, core, random
-from .optim import Modular
+from . import core, optim, utils
+from .core import Modular
+from .utils import compile
+from . import modules as m

torchzero/core/__init__.py CHANGED Viewed

@@ -1,13 +1,3 @@
-import sys
-from .module import (
-    OptimizationVars,
-    OptimizerModule,
-    _Chain,
-    _Chainable,
-    _get_loss,
-    _ScalarLoss,
-    _Targets,
-)
-from .tensorlist_optimizer import TensorListOptimizer, ParamsT, _ClosureType, _maybe_pass_backward
+from .module import Vars, Module, Modular, Chain, maybe_chain, Chainable
+from .transform import Transform, TensorwiseTransform, Target, apply
+from .preconditioner import Preconditioner, TensorwisePreconditioner

torchzero 0.1.8__py3-none-any.whl → 0.3.2__py3-none-any.whl

torchzero 0.1.8py3-none-any.whl → 0.3.2py3-none-any.whl