PyPI - torchzero - Versions diffs - 0.1.8__py3-none-any.whl → 0.3.1__py3-none-any.whl - Mend

torchzero 0.1.8py3-none-any.whl → 0.3.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (200) hide show

docs/source/conf.py +57 -0
tests/test_identical.py +230 -0
tests/test_module.py +50 -0
tests/test_opts.py +884 -0
tests/test_tensorlist.py +1787 -0
tests/test_utils_optimizer.py +170 -0
tests/test_vars.py +184 -0
torchzero/__init__.py +4 -4
torchzero/core/__init__.py +3 -13
torchzero/core/module.py +629 -510
torchzero/core/preconditioner.py +137 -0
torchzero/core/transform.py +252 -0
torchzero/modules/__init__.py +13 -21
torchzero/modules/clipping/__init__.py +3 -0
torchzero/modules/clipping/clipping.py +320 -0
torchzero/modules/clipping/ema_clipping.py +135 -0
torchzero/modules/clipping/growth_clipping.py +187 -0
torchzero/modules/experimental/__init__.py +13 -18
torchzero/modules/experimental/absoap.py +350 -0
torchzero/modules/experimental/adadam.py +111 -0
torchzero/modules/experimental/adamY.py +135 -0
torchzero/modules/experimental/adasoap.py +282 -0
torchzero/modules/experimental/algebraic_newton.py +145 -0
torchzero/modules/experimental/curveball.py +89 -0
torchzero/modules/experimental/dsoap.py +290 -0
torchzero/modules/experimental/gradmin.py +85 -0
torchzero/modules/experimental/reduce_outward_lr.py +35 -0
torchzero/modules/experimental/spectral.py +286 -0
torchzero/modules/experimental/subspace_preconditioners.py +128 -0
torchzero/modules/experimental/tropical_newton.py +136 -0
torchzero/modules/functional.py +209 -0
torchzero/modules/grad_approximation/__init__.py +4 -0
torchzero/modules/grad_approximation/fdm.py +120 -0
torchzero/modules/grad_approximation/forward_gradient.py +81 -0
torchzero/modules/grad_approximation/grad_approximator.py +66 -0
torchzero/modules/grad_approximation/rfdm.py +259 -0
torchzero/modules/line_search/__init__.py +5 -30
torchzero/modules/line_search/backtracking.py +186 -0
torchzero/modules/line_search/line_search.py +181 -0
torchzero/modules/line_search/scipy.py +37 -0
torchzero/modules/line_search/strong_wolfe.py +260 -0
torchzero/modules/line_search/trust_region.py +61 -0
torchzero/modules/lr/__init__.py +2 -0
torchzero/modules/lr/lr.py +59 -0
torchzero/modules/lr/step_size.py +97 -0
torchzero/modules/momentum/__init__.py +14 -4
torchzero/modules/momentum/averaging.py +78 -0
torchzero/modules/momentum/cautious.py +181 -0
torchzero/modules/momentum/ema.py +173 -0
torchzero/modules/momentum/experimental.py +189 -0
torchzero/modules/momentum/matrix_momentum.py +124 -0
torchzero/modules/momentum/momentum.py +43 -106
torchzero/modules/ops/__init__.py +103 -0
torchzero/modules/ops/accumulate.py +65 -0
torchzero/modules/ops/binary.py +240 -0
torchzero/modules/ops/debug.py +25 -0
torchzero/modules/ops/misc.py +419 -0
torchzero/modules/ops/multi.py +137 -0
torchzero/modules/ops/reduce.py +149 -0
torchzero/modules/ops/split.py +75 -0
torchzero/modules/ops/switch.py +68 -0
torchzero/modules/ops/unary.py +115 -0
torchzero/modules/ops/utility.py +112 -0
torchzero/modules/optimizers/__init__.py +18 -10
torchzero/modules/optimizers/adagrad.py +146 -49
torchzero/modules/optimizers/adam.py +112 -118
torchzero/modules/optimizers/lion.py +18 -11
torchzero/modules/optimizers/muon.py +222 -0
torchzero/modules/optimizers/orthograd.py +55 -0
torchzero/modules/optimizers/rmsprop.py +103 -51
torchzero/modules/optimizers/rprop.py +342 -99
torchzero/modules/optimizers/shampoo.py +197 -0
torchzero/modules/optimizers/soap.py +286 -0
torchzero/modules/optimizers/sophia_h.py +129 -0
torchzero/modules/projections/__init__.py +5 -0
torchzero/modules/projections/dct.py +73 -0
torchzero/modules/projections/fft.py +73 -0
torchzero/modules/projections/galore.py +10 -0
torchzero/modules/projections/projection.py +218 -0
torchzero/modules/projections/structural.py +151 -0
torchzero/modules/quasi_newton/__init__.py +7 -4
torchzero/modules/quasi_newton/cg.py +218 -0
torchzero/modules/quasi_newton/experimental/__init__.py +1 -0
torchzero/modules/quasi_newton/experimental/modular_lbfgs.py +265 -0
torchzero/modules/quasi_newton/lbfgs.py +228 -0
torchzero/modules/quasi_newton/lsr1.py +170 -0
torchzero/modules/quasi_newton/olbfgs.py +196 -0
torchzero/modules/quasi_newton/quasi_newton.py +475 -0
torchzero/modules/second_order/__init__.py +3 -4
torchzero/modules/second_order/newton.py +142 -165
torchzero/modules/second_order/newton_cg.py +84 -0
torchzero/modules/second_order/nystrom.py +168 -0
torchzero/modules/smoothing/__init__.py +2 -5
torchzero/modules/smoothing/gaussian.py +164 -0
torchzero/modules/smoothing/{laplacian_smoothing.py → laplacian.py} +115 -128
torchzero/modules/weight_decay/__init__.py +1 -0
torchzero/modules/weight_decay/weight_decay.py +52 -0
torchzero/modules/wrappers/__init__.py +1 -0
torchzero/modules/wrappers/optim_wrapper.py +91 -0
torchzero/optim/__init__.py +2 -10
torchzero/optim/utility/__init__.py +1 -0
torchzero/optim/utility/split.py +45 -0
torchzero/optim/wrappers/nevergrad.py +2 -28
torchzero/optim/wrappers/nlopt.py +31 -16
torchzero/optim/wrappers/scipy.py +79 -156
torchzero/utils/__init__.py +27 -0
torchzero/utils/compile.py +175 -37
torchzero/utils/derivatives.py +513 -99
torchzero/utils/linalg/__init__.py +5 -0
torchzero/utils/linalg/matrix_funcs.py +87 -0
torchzero/utils/linalg/orthogonalize.py +11 -0
torchzero/utils/linalg/qr.py +71 -0
torchzero/utils/linalg/solve.py +168 -0
torchzero/utils/linalg/svd.py +20 -0
torchzero/utils/numberlist.py +132 -0
torchzero/utils/ops.py +10 -0
torchzero/utils/optimizer.py +284 -0
torchzero/utils/optuna_tools.py +40 -0
torchzero/utils/params.py +149 -0
torchzero/utils/python_tools.py +40 -25
torchzero/utils/tensorlist.py +1081 -0
torchzero/utils/torch_tools.py +48 -12
torchzero-0.3.1.dist-info/METADATA +379 -0
torchzero-0.3.1.dist-info/RECORD +128 -0
{torchzero-0.1.8.dist-info → torchzero-0.3.1.dist-info}/WHEEL +1 -1
{torchzero-0.1.8.dist-info → torchzero-0.3.1.dist-info/licenses}/LICENSE +0 -0
torchzero-0.3.1.dist-info/top_level.txt +3 -0
torchzero/core/tensorlist_optimizer.py +0 -219
torchzero/modules/adaptive/__init__.py +0 -4
torchzero/modules/adaptive/adaptive.py +0 -192
torchzero/modules/experimental/experimental.py +0 -294
torchzero/modules/experimental/quad_interp.py +0 -104
torchzero/modules/experimental/subspace.py +0 -259
torchzero/modules/gradient_approximation/__init__.py +0 -7
torchzero/modules/gradient_approximation/_fd_formulas.py +0 -3
torchzero/modules/gradient_approximation/base_approximator.py +0 -105
torchzero/modules/gradient_approximation/fdm.py +0 -125
torchzero/modules/gradient_approximation/forward_gradient.py +0 -163
torchzero/modules/gradient_approximation/newton_fdm.py +0 -198
torchzero/modules/gradient_approximation/rfdm.py +0 -125
torchzero/modules/line_search/armijo.py +0 -56
torchzero/modules/line_search/base_ls.py +0 -139
torchzero/modules/line_search/directional_newton.py +0 -217
torchzero/modules/line_search/grid_ls.py +0 -158
torchzero/modules/line_search/scipy_minimize_scalar.py +0 -62
torchzero/modules/meta/__init__.py +0 -12
torchzero/modules/meta/alternate.py +0 -65
torchzero/modules/meta/grafting.py +0 -195
torchzero/modules/meta/optimizer_wrapper.py +0 -173
torchzero/modules/meta/return_overrides.py +0 -46
torchzero/modules/misc/__init__.py +0 -10
torchzero/modules/misc/accumulate.py +0 -43
torchzero/modules/misc/basic.py +0 -115
torchzero/modules/misc/lr.py +0 -96
torchzero/modules/misc/multistep.py +0 -51
torchzero/modules/misc/on_increase.py +0 -53
torchzero/modules/operations/__init__.py +0 -29
torchzero/modules/operations/multi.py +0 -298
torchzero/modules/operations/reduction.py +0 -134
torchzero/modules/operations/singular.py +0 -113
torchzero/modules/optimizers/sgd.py +0 -54
torchzero/modules/orthogonalization/__init__.py +0 -2
torchzero/modules/orthogonalization/newtonschulz.py +0 -159
torchzero/modules/orthogonalization/svd.py +0 -86
torchzero/modules/regularization/__init__.py +0 -22
torchzero/modules/regularization/dropout.py +0 -34
torchzero/modules/regularization/noise.py +0 -77
torchzero/modules/regularization/normalization.py +0 -328
torchzero/modules/regularization/ortho_grad.py +0 -78
torchzero/modules/regularization/weight_decay.py +0 -92
torchzero/modules/scheduling/__init__.py +0 -2
torchzero/modules/scheduling/lr_schedulers.py +0 -131
torchzero/modules/scheduling/step_size.py +0 -80
torchzero/modules/smoothing/gaussian_smoothing.py +0 -90
torchzero/modules/weight_averaging/__init__.py +0 -2
torchzero/modules/weight_averaging/ema.py +0 -72
torchzero/modules/weight_averaging/swa.py +0 -171
torchzero/optim/experimental/__init__.py +0 -20
torchzero/optim/experimental/experimental.py +0 -343
torchzero/optim/experimental/ray_search.py +0 -83
torchzero/optim/first_order/__init__.py +0 -18
torchzero/optim/first_order/cautious.py +0 -158
torchzero/optim/first_order/forward_gradient.py +0 -70
torchzero/optim/first_order/optimizers.py +0 -570
torchzero/optim/modular.py +0 -148
torchzero/optim/quasi_newton/__init__.py +0 -1
torchzero/optim/quasi_newton/directional_newton.py +0 -58
torchzero/optim/second_order/__init__.py +0 -1
torchzero/optim/second_order/newton.py +0 -94
torchzero/optim/zeroth_order/__init__.py +0 -4
torchzero/optim/zeroth_order/fdm.py +0 -87
torchzero/optim/zeroth_order/newton_fdm.py +0 -146
torchzero/optim/zeroth_order/rfdm.py +0 -217
torchzero/optim/zeroth_order/rs.py +0 -85
torchzero/random/__init__.py +0 -1
torchzero/random/random.py +0 -46
torchzero/tensorlist.py +0 -826
torchzero-0.1.8.dist-info/METADATA +0 -130
torchzero-0.1.8.dist-info/RECORD +0 -104
torchzero-0.1.8.dist-info/top_level.txt +0 -1

docs/source/conf.py ADDED Viewed

@@ -0,0 +1,57 @@
+# Configuration file for the Sphinx documentation builder.
+#
+# For the full list of built-in configuration values, see the documentation:
+# https://www.sphinx-doc.org/en/master/usage/configuration.html
+# -- Project information -----------------------------------------------------
+# https://www.sphinx-doc.org/en/master/usage/configuration.html#project-information
+import sys, os
+#sys.path.insert(0, os.path.abspath('.../src'))
+project = 'torchzero'
+copyright = '2024, Ivan Nikishev'
+author = 'Ivan Nikishev'
+# -- General configuration ---------------------------------------------------
+# https://www.sphinx-doc.org/en/master/usage/configuration.html#general-configuration
+# https://sphinx-intro-tutorial.readthedocs.io/en/latest/sphinx_extensions.html
+extensions = [
+    'sphinx.ext.autodoc',
+    'sphinx.ext.autosummary',
+    'sphinx.ext.viewcode',
+    'sphinx.ext.autosectionlabel',
+    'sphinx.ext.githubpages',
+    'sphinx.ext.napoleon',
+    'autoapi.extension',
+    # 'sphinx_rtd_theme',
+]
+autosummary_generate = True
+autoapi_dirs = ['../../src']
+autoapi_type = "python"
+# autoapi_ignore = ["*/tensorlist.py"]
+# https://sphinx-autoapi.readthedocs.io/en/latest/reference/config.html#confval-autoapi_options
+autoapi_options = [
+    "members",
+    "undoc-members",
+    "show-inheritance",
+    "show-module-summary",
+    "imported-members",
+]
+templates_path = ['_templates']
+exclude_patterns = []
+# -- Options for HTML output -------------------------------------------------
+# https://www.sphinx-doc.org/en/master/usage/configuration.html#options-for-html-output
+#html_theme = 'alabaster'
+html_theme = 'furo'
+html_static_path = ['_static']
+# OTHER STUFF I FOUND ON THE INTERNET AND PUT THERE HOPING IT DOES SOMETHING USEFUL
+source_suffix = ['.rst', '.md']
+master_doc = 'index'

tests/test_identical.py ADDED Viewed

@@ -0,0 +1,230 @@
+from collections.abc import Callable, Sequence
+import pytest
+import torch
+import torchzero as tz
+def _booth(x, y):
+    return (x + 2 * y - 7) ** 2 + (2 * x + y - 5) ** 2
+_BOOTH_X0 = torch.tensor([0., -8.])
+def _get_trajectory(opt_fn: Callable, x0: torch.Tensor, merge: bool, use_closure: bool, steps: int):
+    """Returns a Tensor - trajectory of `opt_fn` on the booth function."""
+    trajectory = []
+    if merge:
+        params = x0.clone().requires_grad_()
+        optimizer = opt_fn([params])
+    else:
+        params = [x0[0].clone().requires_grad_(), x0[1].clone().requires_grad_()]
+        optimizer = opt_fn(params)
+    for _ in range(steps):
+        if use_closure:
+            def closure(backward=True):
+                trajectory.append(torch.stack([p.clone() for p in params]))
+                loss = _booth(*params)
+                if backward:
+                    optimizer.zero_grad()
+                    loss.backward()
+                return loss
+            loss = optimizer.step(closure)
+            assert torch.isfinite(loss), f'non-finite loss {loss}'
+            for p in params: assert torch.isfinite(p), f'non-finite params {params}'
+        else:
+            trajectory.append(torch.stack([p.clone() for p in params]))
+            loss = _booth(*params)
+            assert torch.isfinite(loss), f'non-finite loss {loss}'
+            optimizer.zero_grad()
+            loss.backward()
+            optimizer.step()
+            for p in params: assert torch.isfinite(p), f'non-finite params {params}'
+    return torch.stack(trajectory, 0), optimizer
+def _compare_trajectories(opt1, t1:torch.Tensor, opt2, t2:torch.Tensor):
+    assert torch.allclose(t1, t2, rtol=1e-4, atol=1e-6), f'trajectories dont match. opts:\n{opt1}\n{opt2}\ntrajectories:\n{t1}\n{t2}'
+def _assert_identical_opts(opt_fns: Sequence[Callable], merge: bool, use_closure: bool, device, steps: int):
+    """checks that all `opt_fns` have identical trajectories on booth"""
+    x0 = _BOOTH_X0.clone().to(device=device)
+    base_opt = None
+    base_trajectory = None
+    for opt_fn in opt_fns:
+        t, opt = _get_trajectory(opt_fn, x0, merge, use_closure, steps)
+        if base_trajectory is None or base_opt is None:
+            base_trajectory = t
+            base_opt = opt
+        else: _compare_trajectories(base_opt, base_trajectory, opt, t)
+def _assert_identical_merge(opt_fn: Callable, use_closure, device, steps: int):
+    """checks that trajectories match with x and y parameters split and merged"""
+    x0 = _BOOTH_X0.clone().to(device=device)
+    merged, merged_opt = _get_trajectory(opt_fn, x0, merge=True, use_closure=use_closure, steps=steps)
+    unmerged, unmerged_opt = _get_trajectory(opt_fn, x0, merge=False, use_closure=use_closure, steps=steps)
+    _compare_trajectories(merged_opt, merged, unmerged_opt, unmerged)
+def _assert_identical_closure(opt_fn: Callable, merge, device, steps: int):
+    """checks that trajectories match  with and without closure"""
+    x0 = _BOOTH_X0.clone().to(device=device)
+    closure, closure_opt = _get_trajectory(opt_fn, x0, merge=merge, use_closure=True, steps=steps)
+    no_closure, no_closure_opt = _get_trajectory(opt_fn, x0, merge=merge, use_closure=False, steps=steps)
+    _compare_trajectories(closure_opt, closure, no_closure_opt, no_closure)
+def _assert_identical_merge_closure(opt_fn: Callable, device, steps: int):
+    """checks that trajectories match with x and y parameters split and merged and with and without closure"""
+    x0 = _BOOTH_X0.clone().to(device=device)
+    merge_closure, opt_merge_closure = _get_trajectory(opt_fn, x0, merge=True, use_closure=True, steps=steps)
+    merge_no_closure, opt_merge_no_closure = _get_trajectory(opt_fn, x0, merge=True, use_closure=False, steps=steps)
+    no_merge_closure, opt_no_merge_closure = _get_trajectory(opt_fn, x0, merge=False, use_closure=True, steps=steps)
+    no_merge_no_closure, opt_no_merge_no_closure = _get_trajectory(opt_fn, x0, merge=False, use_closure=False, steps=steps)
+    _compare_trajectories(opt_merge_closure, merge_closure, opt_merge_no_closure, merge_no_closure)
+    _compare_trajectories(opt_merge_closure, merge_closure, opt_no_merge_closure, no_merge_closure)
+    _compare_trajectories(opt_merge_closure, merge_closure, opt_no_merge_no_closure, no_merge_no_closure)
+def _assert_identical_device(opt_fn: Callable, merge: bool, use_closure: bool, steps: int):
+    """checks that trajectories match on cpu and cuda."""
+    if not torch.cuda.is_available(): return
+    cpu, cpu_opt = _get_trajectory(opt_fn, _BOOTH_X0.clone().cpu(), merge=merge, use_closure=use_closure, steps=steps)
+    cuda, cuda_opt = _get_trajectory(opt_fn, _BOOTH_X0.clone().cuda(), merge=merge, use_closure=use_closure, steps=steps)
+    _compare_trajectories(cpu_opt, cpu, cuda_opt, cuda.to(cpu))
+@pytest.mark.parametrize('amsgrad', [True, False])
+def test_adam(amsgrad):
+    # torch_fn = lambda p: torch.optim.Adam(p, lr=1, amsgrad=amsgrad)
+    # pytorch applies debiasing separately so it is applied before epsilo
+    tz_fn = lambda p: tz.Modular(p, tz.m.Adam(amsgrad=amsgrad))
+    tz_fn2 = lambda p: tz.Modular(p, tz.m.Adam(amsgrad=amsgrad), tz.m.LR(1)) # test LR fusing
+    tz_fn3 = lambda p: tz.Modular(p, tz.m.Adam(amsgrad=amsgrad), tz.m.LR(1), tz.m.Add(1), tz.m.Sub(1))
+    tz_fn4 = lambda p: tz.Modular(p, tz.m.Adam(amsgrad=amsgrad), tz.m.Add(1), tz.m.Sub(1), tz.m.LR(1))
+    tz_fn5 = lambda p: tz.Modular(p, tz.m.Clone(), tz.m.Adam(amsgrad=amsgrad))
+    tz_fn_ops = lambda p: tz.Modular(
+        p,
+        tz.m.DivModules(
+            tz.m.EMA(0.9, debiased=True),
+            [tz.m.SqrtEMASquared(0.999, debiased=True, amsgrad=amsgrad), tz.m.Add(1e-8)]
+        ))
+    tz_fn_ops2 = lambda p: tz.Modular(
+        p,
+        tz.m.DivModules(
+            [tz.m.EMA(0.9), tz.m.Debias(beta1=0.9)],
+            [tz.m.EMASquared(0.999, amsgrad=amsgrad), tz.m.Sqrt(), tz.m.Debias2(beta=0.999), tz.m.Add(1e-8)]
+        ))
+    tz_fn_ops3 = lambda p: tz.Modular(
+        p,
+        tz.m.DivModules(
+            [tz.m.EMA(0.9), tz.m.Debias(beta1=0.9, beta2=0.999)],
+            [tz.m.EMASquared(0.999, amsgrad=amsgrad), tz.m.Sqrt(), tz.m.Add(1e-8)]
+        ))
+    tz_fn_ops4 = lambda p: tz.Modular(
+        p,
+        tz.m.DivModules(
+            [tz.m.EMA(0.9), tz.m.Debias(beta1=0.9)],
+            [
+                tz.m.Pow(2),
+                tz.m.EMA(0.999),
+                tz.m.AccumulateMaximum() if amsgrad else tz.m.Identity(),
+                tz.m.Sqrt(),
+                tz.m.Debias2(beta=0.999),
+                tz.m.Add(1e-8)]
+        ))
+    tz_fns = (tz_fn, tz_fn2, tz_fn3, tz_fn4, tz_fn5, tz_fn_ops, tz_fn_ops2, tz_fn_ops3, tz_fn_ops4)
+    _assert_identical_opts(tz_fns, merge=True, use_closure=True, device='cpu', steps=10)
+    for fn in tz_fns:
+        _assert_identical_merge_closure(fn, device='cpu', steps=10)
+        _assert_identical_device(fn, merge=True, use_closure=True, steps=10)
+@pytest.mark.parametrize('beta1', [0.5, 0.9])
+@pytest.mark.parametrize('beta2', [0.99, 0.999])
+@pytest.mark.parametrize('eps', [1e-1, 1e-8])
+@pytest.mark.parametrize('amsgrad', [True, False])
+@pytest.mark.parametrize('lr', [0.1, 1])
+def test_adam_hyperparams(beta1, beta2, eps, amsgrad, lr):
+    tz_fn = lambda p: tz.Modular(p, tz.m.Adam(beta1, beta2, eps, amsgrad=amsgrad), tz.m.LR(lr))
+    tz_fn2 = lambda p: tz.Modular(p, tz.m.Adam(beta1, beta2, eps, amsgrad=amsgrad, alpha=lr))
+    _assert_identical_opts([tz_fn, tz_fn2], merge=True, use_closure=True, device='cpu', steps=10)
+@pytest.mark.parametrize('centered', [True, False])
+def test_rmsprop(centered):
+    torch_fn = lambda p: torch.optim.RMSprop(p, 1, centered=centered)
+    tz_fn = lambda p: tz.Modular(p, tz.m.RMSprop(centered=centered, init='zeros'))
+    tz_fn2 = lambda p: tz.Modular(
+        p,
+        tz.m.Div([tz.m.CenteredSqrtEMASquared(0.99) if centered else tz.m.SqrtEMASquared(0.99), tz.m.Add(1e-8)]),
+    )
+    tz_fn3 = lambda p: tz.Modular(
+        p,
+        tz.m.Div([tz.m.CenteredEMASquared(0.99) if centered else tz.m.EMASquared(0.99), tz.m.Sqrt(), tz.m.Add(1e-8)]),
+    )
+    tz_fns = (tz_fn, tz_fn2, tz_fn3)
+    _assert_identical_opts([torch_fn, *tz_fns], merge=True, use_closure=True, device='cpu', steps=10)
+    for fn in tz_fns:
+        _assert_identical_merge_closure(fn, device='cpu', steps=10)
+        _assert_identical_device(fn, merge=True, use_closure=True, steps=10)
+@pytest.mark.parametrize('beta', [0.5, 0.9])
+@pytest.mark.parametrize('eps', [1e-1, 1e-8])
+@pytest.mark.parametrize('centered', [True, False])
+@pytest.mark.parametrize('lr', [0.1, 1])
+def test_rmsprop_hyperparams(beta, eps, centered, lr):
+    tz_fn = lambda p: tz.Modular(p, tz.m.RMSprop(beta, eps, centered, init='zeros'), tz.m.LR(lr))
+    torch_fn = lambda p: torch.optim.RMSprop(p, lr, beta, eps=eps, centered=centered)
+    _assert_identical_opts([torch_fn, tz_fn], merge=True, use_closure=True, device='cpu', steps=10)
+@pytest.mark.parametrize('nplus', (1.2, 2))
+@pytest.mark.parametrize('nminus', (0.5, 0.9))
+@pytest.mark.parametrize('lb', [1e-8, 1])
+@pytest.mark.parametrize('ub', [50, 1.5])
+@pytest.mark.parametrize('lr', [0.1, 1])
+def test_rprop(nplus, nminus, lb, ub, lr):
+    tz_fn = lambda p: tz.Modular(p, tz.m.LR(lr), tz.m.Rprop(nplus, nminus, lb, ub, alpha=lr, backtrack=False))
+    torch_fn = lambda p: torch.optim.Rprop(p, lr, (nminus, nplus), (lb, ub))
+    _assert_identical_opts([torch_fn, tz_fn], merge=True, use_closure=True, device='cpu', steps=30)
+    _assert_identical_merge_closure(tz_fn, 'cpu', 30)
+    _assert_identical_device(tz_fn, merge=True, use_closure=True, steps=10)
+def test_adagrad():
+    torch_fn = lambda p: torch.optim.Adagrad(p, 1)
+    tz_fn = lambda p: tz.Modular(p, tz.m.Adagrad(), tz.m.LR(1))
+    tz_fn2 = lambda p: tz.Modular(
+        p,
+        tz.m.Div([tz.m.Pow(2), tz.m.AccumulateSum(), tz.m.Sqrt(), tz.m.Add(1e-10)]),
+    )
+    tz_fns = (tz_fn, tz_fn2)
+    _assert_identical_opts([torch_fn, *tz_fns], merge=True, use_closure=True, device='cpu', steps=10)
+    for fn in tz_fns:
+        _assert_identical_merge_closure(fn, device='cpu', steps=10)
+        _assert_identical_device(fn, merge=True, use_closure=True, steps=10)
+@pytest.mark.parametrize('initial_accumulator_value', [0, 1])
+@pytest.mark.parametrize('eps', [1e-2, 1e-10])
+@pytest.mark.parametrize('lr', [0.1, 1])
+def test_adagrad_hyperparams(initial_accumulator_value, eps, lr):
+    torch_fn = lambda p: torch.optim.Adagrad(p, lr, initial_accumulator_value=initial_accumulator_value, eps=eps)
+    tz_fn1 = lambda p: tz.Modular(p, tz.m.Adagrad(initial_accumulator_value=initial_accumulator_value, eps=eps), tz.m.LR(lr))
+    tz_fn2 = lambda p: tz.Modular(p, tz.m.Adagrad(initial_accumulator_value=initial_accumulator_value, eps=eps, alpha=lr))
+    _assert_identical_opts([torch_fn, tz_fn1, tz_fn2], merge=True, use_closure=True, device='cpu', steps=10)
+@pytest.mark.parametrize('tensorwise', [True, False])
+def test_graft(tensorwise):
+    graft1 = lambda p: tz.Modular(p, tz.m.GraftModules(tz.m.LBFGS(), tz.m.RMSprop(), tensorwise=tensorwise), tz.m.LR(1e-1))
+    graft2 = lambda p: tz.Modular(p, tz.m.LBFGS(), tz.m.Graft([tz.m.Grad(), tz.m.RMSprop()], tensorwise=tensorwise), tz.m.LR(1e-1))
+    _assert_identical_opts([graft1, graft2], merge=True, use_closure=True, device='cpu', steps=10)
+    for fn in [graft1, graft2]:
+        if tensorwise: _assert_identical_closure(fn, merge=True, device='cpu', steps=10)
+        else: _assert_identical_merge_closure(fn, device='cpu', steps=10)
+        _assert_identical_device(fn, merge=True, use_closure=True, steps=10)

tests/test_module.py ADDED Viewed

@@ -0,0 +1,50 @@
+from collections.abc import Iterable
+import torch
+from torchzero.core.module import Module, _make_param_groups
+from torchzero.utils.optimizer import get_params
+from torchzero.utils.params import _add_defaults_to_param_groups_
+def _assert_same_storage_(seq1: Iterable[torch.Tensor], seq2: Iterable[torch.Tensor]):
+    seq1=tuple(seq1)
+    seq2=tuple(seq2)
+    assert len(seq1) == len(seq2), f'lengths do not match: {len(seq1)} != {len(seq2)}'
+    for t1, t2 in zip(seq1, seq2):
+        assert t1 is t2
+def test_process_parameters():
+    model = torch.nn.Sequential(torch.nn.Linear(3, 6), torch.nn.Linear(6, 3))
+    # iterable of parameters
+    _assert_same_storage_(model.parameters(), get_params(_make_param_groups(model.parameters(), differentiable=False), 'all'))
+    # named parameters
+    _assert_same_storage_(model.parameters(), get_params(_make_param_groups(model.named_parameters(), differentiable=False), 'all'))
+    # param groups
+    param_groups = [{'params': model[0].parameters(), 'lr': 0.1}, {'params': model[1].parameters()}]
+    _assert_same_storage_(model.parameters(), get_params(_make_param_groups(param_groups, differentiable=False), 'all'))
+    # check that param groups dict is correct
+    param_groups = [
+        {'params': model[0].parameters(), 'lr': 0.1},
+        {'params': model[1].parameters()}
+    ]
+    expected = [
+        {'params': list(model[0].parameters()), 'lr': 0.1},
+        {'params': list(model[1].parameters())}
+    ]
+    assert _make_param_groups(param_groups, differentiable=False) == expected
+    # named params
+    _names = {'param_names': ['weight','bias']}
+    param_groups = [
+        {'params': model[0].named_parameters(), 'lr': 0.1},
+        {'params': model[1].named_parameters()}
+    ]
+    expected = [
+        {'params': list(model[0].parameters()), 'lr': 0.1, **_names},
+        {'params': list(model[1].parameters()), 'lr': 0.01, **_names}
+    ]
+    assert _add_defaults_to_param_groups_(_make_param_groups(param_groups, differentiable=False), {"lr": 0.01}) == expected

torchzero 0.1.8__py3-none-any.whl → 0.3.1__py3-none-any.whl

torchzero 0.1.8py3-none-any.whl → 0.3.1py3-none-any.whl