PyPI - torchzero - Versions diffs - 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl - Mend

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (153) hide show

docs/source/conf.py +6 -4
docs/source/docstring template.py +46 -0
tests/test_identical.py +2 -3
tests/test_opts.py +115 -68
tests/test_tensorlist.py +2 -2
tests/test_vars.py +62 -61
torchzero/core/__init__.py +2 -3
torchzero/core/module.py +185 -53
torchzero/core/transform.py +327 -159
torchzero/modules/__init__.py +3 -1
torchzero/modules/clipping/clipping.py +120 -23
torchzero/modules/clipping/ema_clipping.py +37 -22
torchzero/modules/clipping/growth_clipping.py +20 -21
torchzero/modules/experimental/__init__.py +30 -4
torchzero/modules/experimental/absoap.py +53 -156
torchzero/modules/experimental/adadam.py +22 -15
torchzero/modules/experimental/adamY.py +21 -25
torchzero/modules/experimental/adam_lambertw.py +149 -0
torchzero/modules/{line_search/trust_region.py → experimental/adaptive_step_size.py} +37 -8
torchzero/modules/experimental/adasoap.py +24 -129
torchzero/modules/experimental/cosine.py +214 -0
torchzero/modules/experimental/cubic_adam.py +97 -0
torchzero/modules/experimental/curveball.py +12 -12
torchzero/modules/{projections → experimental}/dct.py +11 -11
torchzero/modules/experimental/eigendescent.py +120 -0
torchzero/modules/experimental/etf.py +195 -0
torchzero/modules/experimental/exp_adam.py +113 -0
torchzero/modules/experimental/expanded_lbfgs.py +141 -0
torchzero/modules/{projections → experimental}/fft.py +10 -10
torchzero/modules/experimental/gradmin.py +2 -2
torchzero/modules/experimental/hnewton.py +85 -0
torchzero/modules/{quasi_newton/experimental → experimental}/modular_lbfgs.py +49 -50
torchzero/modules/experimental/newton_solver.py +11 -11
torchzero/modules/experimental/newtonnewton.py +92 -0
torchzero/modules/experimental/parabolic_search.py +220 -0
torchzero/modules/experimental/reduce_outward_lr.py +10 -7
torchzero/modules/{projections/structural.py → experimental/structural_projections.py} +12 -54
torchzero/modules/experimental/subspace_preconditioners.py +20 -10
torchzero/modules/experimental/tensor_adagrad.py +42 -0
torchzero/modules/functional.py +12 -2
torchzero/modules/grad_approximation/fdm.py +31 -4
torchzero/modules/grad_approximation/forward_gradient.py +17 -7
torchzero/modules/grad_approximation/grad_approximator.py +69 -24
torchzero/modules/grad_approximation/rfdm.py +310 -50
torchzero/modules/higher_order/__init__.py +1 -0
torchzero/modules/higher_order/higher_order_newton.py +319 -0
torchzero/modules/line_search/__init__.py +4 -4
torchzero/modules/line_search/adaptive.py +99 -0
torchzero/modules/line_search/backtracking.py +75 -31
torchzero/modules/line_search/line_search.py +107 -49
torchzero/modules/line_search/polynomial.py +233 -0
torchzero/modules/line_search/scipy.py +20 -5
torchzero/modules/line_search/strong_wolfe.py +52 -36
torchzero/modules/misc/__init__.py +27 -0
torchzero/modules/misc/debug.py +48 -0
torchzero/modules/misc/escape.py +60 -0
torchzero/modules/misc/gradient_accumulation.py +70 -0
torchzero/modules/misc/misc.py +316 -0
torchzero/modules/misc/multistep.py +158 -0
torchzero/modules/misc/regularization.py +171 -0
torchzero/modules/misc/split.py +103 -0
torchzero/modules/{ops → misc}/switch.py +48 -7
torchzero/modules/momentum/__init__.py +1 -1
torchzero/modules/momentum/averaging.py +25 -10
torchzero/modules/momentum/cautious.py +115 -40
torchzero/modules/momentum/ema.py +92 -41
torchzero/modules/momentum/experimental.py +21 -13
torchzero/modules/momentum/matrix_momentum.py +145 -76
torchzero/modules/momentum/momentum.py +25 -4
torchzero/modules/ops/__init__.py +3 -31
torchzero/modules/ops/accumulate.py +51 -25
torchzero/modules/ops/binary.py +108 -62
torchzero/modules/ops/multi.py +95 -34
torchzero/modules/ops/reduce.py +31 -23
torchzero/modules/ops/unary.py +37 -21
torchzero/modules/ops/utility.py +53 -45
torchzero/modules/optimizers/__init__.py +12 -3
torchzero/modules/optimizers/adagrad.py +48 -29
torchzero/modules/optimizers/adahessian.py +223 -0
torchzero/modules/optimizers/adam.py +35 -37
torchzero/modules/optimizers/adan.py +110 -0
torchzero/modules/optimizers/adaptive_heavyball.py +57 -0
torchzero/modules/optimizers/esgd.py +171 -0
torchzero/modules/optimizers/ladagrad.py +183 -0
torchzero/modules/optimizers/lion.py +4 -4
torchzero/modules/optimizers/mars.py +91 -0
torchzero/modules/optimizers/msam.py +186 -0
torchzero/modules/optimizers/muon.py +32 -7
torchzero/modules/optimizers/orthograd.py +4 -5
torchzero/modules/optimizers/rmsprop.py +19 -19
torchzero/modules/optimizers/rprop.py +89 -52
torchzero/modules/optimizers/sam.py +163 -0
torchzero/modules/optimizers/shampoo.py +55 -27
torchzero/modules/optimizers/soap.py +40 -37
torchzero/modules/optimizers/sophia_h.py +82 -25
torchzero/modules/projections/__init__.py +2 -4
torchzero/modules/projections/cast.py +51 -0
torchzero/modules/projections/galore.py +4 -2
torchzero/modules/projections/projection.py +212 -118
torchzero/modules/quasi_newton/__init__.py +44 -5
torchzero/modules/quasi_newton/cg.py +190 -39
torchzero/modules/quasi_newton/diagonal_quasi_newton.py +163 -0
torchzero/modules/quasi_newton/lbfgs.py +154 -97
torchzero/modules/quasi_newton/lsr1.py +102 -58
torchzero/modules/quasi_newton/quasi_newton.py +1032 -177
torchzero/modules/quasi_newton/trust_region.py +397 -0
torchzero/modules/second_order/__init__.py +2 -2
torchzero/modules/second_order/newton.py +245 -54
torchzero/modules/second_order/newton_cg.py +311 -21
torchzero/modules/second_order/nystrom.py +124 -21
torchzero/modules/smoothing/gaussian.py +55 -21
torchzero/modules/smoothing/laplacian.py +20 -12
torchzero/modules/step_size/__init__.py +2 -0
torchzero/modules/step_size/adaptive.py +122 -0
torchzero/modules/step_size/lr.py +154 -0
torchzero/modules/weight_decay/__init__.py +1 -1
torchzero/modules/weight_decay/weight_decay.py +126 -10
torchzero/modules/wrappers/optim_wrapper.py +40 -12
torchzero/optim/wrappers/directsearch.py +281 -0
torchzero/optim/wrappers/fcmaes.py +105 -0
torchzero/optim/wrappers/mads.py +89 -0
torchzero/optim/wrappers/nevergrad.py +20 -5
torchzero/optim/wrappers/nlopt.py +28 -14
torchzero/optim/wrappers/optuna.py +70 -0
torchzero/optim/wrappers/scipy.py +167 -16
torchzero/utils/__init__.py +3 -7
torchzero/utils/derivatives.py +5 -4
torchzero/utils/linalg/__init__.py +1 -1
torchzero/utils/linalg/solve.py +251 -12
torchzero/utils/numberlist.py +2 -0
torchzero/utils/optimizer.py +55 -74
torchzero/utils/python_tools.py +27 -4
torchzero/utils/tensorlist.py +40 -28
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/METADATA +76 -51
torchzero-0.3.11.dist-info/RECORD +159 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/WHEEL +1 -1
torchzero/core/preconditioner.py +0 -138
torchzero/modules/experimental/algebraic_newton.py +0 -145
torchzero/modules/experimental/soapy.py +0 -290
torchzero/modules/experimental/spectral.py +0 -288
torchzero/modules/experimental/structured_newton.py +0 -111
torchzero/modules/experimental/tropical_newton.py +0 -136
torchzero/modules/lr/__init__.py +0 -2
torchzero/modules/lr/lr.py +0 -59
torchzero/modules/lr/step_size.py +0 -97
torchzero/modules/ops/debug.py +0 -25
torchzero/modules/ops/misc.py +0 -419
torchzero/modules/ops/split.py +0 -75
torchzero/modules/quasi_newton/experimental/__init__.py +0 -1
torchzero/modules/quasi_newton/olbfgs.py +0 -196
torchzero-0.3.9.dist-info/RECORD +0 -131
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/licenses/LICENSE +0 -0
{torchzero-0.3.9.dist-info → torchzero-0.3.11.dist-info}/top_level.txt +0 -0

torchzero/modules/line_search/line_search.py CHANGED Viewed

@@ -8,15 +8,16 @@ from typing import Any
 import numpy as np
 import torch
-from ...core import Module, Target, Vars
+from ...core import Module, Target, Var
 from ...utils import tofloat
 class MaxLineSearchItersReached(Exception): pass
-class LineSearch(Module, ABC):
+class LineSearchBase(Module, ABC):
     """Base class for line searches.
     This is an abstract class, to use it, subclass it and override `search`.
     Args:
@@ -26,6 +27,62 @@ class LineSearch(Module, ABC):
             the objective this many times, and step size with the lowest loss value will be used.
             This is useful when passing `make_objective` to an external library which
             doesn't have a maxiter option. Defaults to None.
+    Other useful methods:
+        * `evaluate_step_size` - returns loss with a given scalar step size
+        * `evaluate_step_size_loss_and_derivative` - returns loss and directional derivative with a given scalar step size
+        * `make_objective` - creates a function that accepts a scalar step size and returns loss. This can be passed to a scalar solver, such as scipy.optimize.minimize_scalar.
+        * `make_objective_with_derivative` - creates a function that accepts a scalar step size and returns a tuple with loss and directional derivative. This can be passed to a scalar solver.
+    Examples:
+        #### Basic line search
+        This evaluates all step sizes in a range by using the :code:`self.evaluate_step_size` method.
+        .. code-block:: python
+            class GridLineSearch(LineSearch):
+                def __init__(self, start, end, num):
+                    defaults = dict(start=start,end=end,num=num)
+                    super().__init__(defaults)
+                @torch.no_grad
+                def search(self, update, var):
+                    settings = self.settings[var.params[0]]
+                    start = settings["start"]
+                    end = settings["end"]
+                    num = settings["num"]
+                    lowest_loss = float("inf")
+                    best_step_size = best_step_size
+                    for step_size in torch.linspace(start,end,num):
+                        loss = self.evaluate_step_size(step_size.item(), var=var, backward=False)
+                        if loss < lowest_loss:
+                            lowest_loss = loss
+                            best_step_size = step_size
+                    return best_step_size
+        #### Using external solver via self.make_objective
+        Here we let :code:`scipy.optimize.minimize_scalar` solver find the best step size via :code:`self.make_objective`
+        .. code-block:: python
+            class ScipyMinimizeScalar(LineSearch):
+                def __init__(self, method: str | None = None):
+                    defaults = dict(method=method)
+                    super().__init__(defaults)
+                @torch.no_grad
+                def search(self, update, var):
+                    objective = self.make_objective(var=var)
+                    method = self.settings[var.params[0]]["method"]
+                    res = self.scopt.minimize_scalar(objective, method=method)
+                    return res.x
     """
     def __init__(self, defaults: dict[str, Any] | None, maxiter: int | None = None):
         super().__init__(defaults)
@@ -62,12 +119,12 @@ class LineSearch(Module, ABC):
         if any(a!=0 for a in alpha):
             torch._foreach_add_(params, torch._foreach_mul(update, alpha))
-    def _loss(self, step_size: float, vars: Vars, closure, params: list[torch.Tensor],
+    def _loss(self, step_size: float, var: Var, closure, params: list[torch.Tensor],
               update: list[torch.Tensor], backward:bool=False) -> float:
         # if step_size is 0, we might already know the loss
-        if (vars.loss is not None) and (step_size == 0):
-            return tofloat(vars.loss)
+        if (var.loss is not None) and (step_size == 0):
+            return tofloat(var.loss)
         # check max iter
         if self._maxiter is not None and self._current_iter >= self._maxiter: raise MaxLineSearchItersReached
@@ -85,23 +142,23 @@ class LineSearch(Module, ABC):
             self._lowest_loss = tofloat(loss)
             self._best_step_size = step_size
-        # if evaluated loss at step size 0, set it to vars.loss
+        # if evaluated loss at step size 0, set it to var.loss
         if step_size == 0:
-            vars.loss = loss
-            if backward: vars.grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
+            var.loss = loss
+            if backward: var.grad = [p.grad if p.grad is not None else torch.zeros_like(p) for p in params]
         return tofloat(loss)
-    def _loss_derivative(self, step_size: float, vars: Vars, closure,
+    def _loss_derivative(self, step_size: float, var: Var, closure,
                          params: list[torch.Tensor], update: list[torch.Tensor]):
         # if step_size is 0, we might already know the derivative
-        if (vars.grad is not None) and (step_size == 0):
-            loss = self._loss(step_size=step_size,vars=vars,closure=closure,params=params,update=update,backward=False)
-            derivative = - sum(t.sum() for t in torch._foreach_mul(vars.grad, update))
+        if (var.grad is not None) and (step_size == 0):
+            loss = self._loss(step_size=step_size,var=var,closure=closure,params=params,update=update,backward=False)
+            derivative = - sum(t.sum() for t in torch._foreach_mul(var.grad, update))
         else:
             # loss with a backward pass sets params.grad
-            loss = self._loss(step_size=step_size,vars=vars,closure=closure,params=params,update=update,backward=True)
+            loss = self._loss(step_size=step_size,var=var,closure=closure,params=params,update=update,backward=True)
             # directional derivative
             derivative = - sum(t.sum() for t in torch._foreach_mul([p.grad if p.grad is not None
@@ -109,73 +166,74 @@ class LineSearch(Module, ABC):
         return loss, tofloat(derivative)
-    def evaluate_step_size(self, step_size: float, vars: Vars, backward:bool=False):
-        closure = vars.closure
+    def evaluate_step_size(self, step_size: float, var: Var, backward:bool=False):
+        closure = var.closure
         if closure is None: raise RuntimeError('line search requires closure')
-        return self._loss(step_size=step_size, vars=vars, closure=closure, params=vars.params,update=vars.get_update(),backward=backward)
+        return self._loss(step_size=step_size, var=var, closure=closure, params=var.params,update=var.get_update(),backward=backward)
-    def evaluate_step_size_loss_and_derivative(self, step_size: float, vars: Vars):
-        closure = vars.closure
+    def evaluate_step_size_loss_and_derivative(self, step_size: float, var: Var):
+        closure = var.closure
         if closure is None: raise RuntimeError('line search requires closure')
-        return self._loss_derivative(step_size=step_size, vars=vars, closure=closure, params=vars.params,update=vars.get_update())
+        return self._loss_derivative(step_size=step_size, var=var, closure=closure, params=var.params,update=var.get_update())
-    def make_objective(self, vars: Vars, backward:bool=False):
-        closure = vars.closure
+    def make_objective(self, var: Var, backward:bool=False):
+        closure = var.closure
         if closure is None: raise RuntimeError('line search requires closure')
-        return partial(self._loss, vars=vars, closure=closure, params=vars.params, update=vars.get_update(), backward=backward)
+        return partial(self._loss, var=var, closure=closure, params=var.params, update=var.get_update(), backward=backward)
-    def make_objective_with_derivative(self, vars: Vars):
-        closure = vars.closure
+    def make_objective_with_derivative(self, var: Var):
+        closure = var.closure
         if closure is None: raise RuntimeError('line search requires closure')
-        return partial(self._loss_derivative, vars=vars, closure=closure, params=vars.params, update=vars.get_update())
+        return partial(self._loss_derivative, var=var, closure=closure, params=var.params, update=var.get_update())
     @abstractmethod
-    def search(self, update: list[torch.Tensor], vars: Vars) -> float:
+    def search(self, update: list[torch.Tensor], var: Var) -> float:
         """Finds the step size to use"""
     @torch.no_grad
-    def step(self, vars: Vars) -> Vars:
+    def step(self, var: Var) -> Var:
         self._reset()
-        params = vars.params
-        update = vars.get_update()
+        params = var.params
+        update = var.get_update()
         try:
-            step_size = self.search(update=update, vars=vars)
+            step_size = self.search(update=update, var=var)
         except MaxLineSearchItersReached:
             step_size = self._best_step_size
         # set loss_approx
-        if vars.loss_approx is None: vars.loss_approx = self._lowest_loss
+        if var.loss_approx is None: var.loss_approx = self._lowest_loss
         # this is last module - set step size to found step_size times lr
-        if vars.is_last:
+        if var.is_last:
-            if vars.last_module_lrs is None:
+            if var.last_module_lrs is None:
                 self.set_step_size_(step_size, params=params, update=update)
             else:
-                self._set_per_parameter_step_size_([step_size*lr for lr in vars.last_module_lrs], params=params, update=update)
+                self._set_per_parameter_step_size_([step_size*lr for lr in var.last_module_lrs], params=params, update=update)
-            vars.stop = True; vars.skip_update = True
-            return vars
+            var.stop = True; var.skip_update = True
+            return var
         # revert parameters and multiply update by step size
         self.set_step_size_(0, params=params, update=update)
-        torch._foreach_mul_(vars.update, step_size)
-        return vars
+        torch._foreach_mul_(var.update, step_size)
+        return var
-class GridLineSearch(LineSearch):
-    """Mostly for testing, this is not practical"""
-    def __init__(self, start, end, num):
-        defaults = dict(start=start,end=end,num=num)
-        super().__init__(defaults)
-    @torch.no_grad
-    def search(self, update, vars):
-        start,end,num=itemgetter('start','end','num')(self.settings[vars.params[0]])
+# class GridLineSearch(LineSearch):
+#     """Mostly for testing, this is not practical"""
+#     def __init__(self, start, end, num):
+#         defaults = dict(start=start,end=end,num=num)
+#         super().__init__(defaults)
+#     @torch.no_grad
+#     def search(self, update, var):
+#         start,end,num=itemgetter('start','end','num')(self.settings[var.params[0]])
-        for lr in torch.linspace(start,end,num):
-            self.evaluate_step_size(lr.item(), vars=vars, backward=False)
+#         for lr in torch.linspace(start,end,num):
+#             self.evaluate_step_size(lr.item(), var=var, backward=False)
-        return self._best_step_size
+#         return self._best_step_size

torchzero/modules/line_search/polynomial.py ADDED Viewed

@@ -0,0 +1,233 @@
+import numpy as np
+import torch
+from .line_search import LineSearchBase
+# polynomial interpolation
+# this code is from https://github.com/hjmshi/PyTorch-LBFGS/blob/master/functions/LBFGS.py
+# PyTorch-LBFGS: A PyTorch Implementation of L-BFGS
+def polyinterp(points, x_min_bound=None, x_max_bound=None, plot=False):
+    """
+    Gives the minimizer and minimum of the interpolating polynomial over given points
+    based on function and derivative information. Defaults to bisection if no critical
+    points are valid.
+    Based on polyinterp.m Matlab function in minFunc by Mark Schmidt with some slight
+    modifications.
+    Implemented by: Hao-Jun Michael Shi and Dheevatsa Mudigere
+    Last edited 12/6/18.
+    Inputs:
+        points (nparray): two-dimensional array with each point of form [x f g]
+        x_min_bound (float): minimum value that brackets minimum (default: minimum of points)
+        x_max_bound (float): maximum value that brackets minimum (default: maximum of points)
+        plot (bool): plot interpolating polynomial
+    Outputs:
+        x_sol (float): minimizer of interpolating polynomial
+        F_min (float): minimum of interpolating polynomial
+    Note:
+      . Set f or g to np.nan if they are unknown
+    """
+    no_points = points.shape[0]
+    order = np.sum(1 - np.isnan(points[:, 1:3]).astype('int')) - 1
+    x_min = np.min(points[:, 0])
+    x_max = np.max(points[:, 0])
+    # compute bounds of interpolation area
+    if x_min_bound is None:
+        x_min_bound = x_min
+    if x_max_bound is None:
+        x_max_bound = x_max
+    # explicit formula for quadratic interpolation
+    if no_points == 2 and order == 2 and plot is False:
+        # Solution to quadratic interpolation is given by:
+        # a = -(f1 - f2 - g1(x1 - x2))/(x1 - x2)^2
+        # x_min = x1 - g1/(2a)
+        # if x1 = 0, then is given by:
+        # x_min = - (g1*x2^2)/(2(f2 - f1 - g1*x2))
+        if points[0, 0] == 0:
+            x_sol = -points[0, 2] * points[1, 0] ** 2 / (2 * (points[1, 1] - points[0, 1] - points[0, 2] * points[1, 0]))
+        else:
+            a = -(points[0, 1] - points[1, 1] - points[0, 2] * (points[0, 0] - points[1, 0])) / (points[0, 0] - points[1, 0]) ** 2
+            x_sol = points[0, 0] - points[0, 2]/(2*a)
+        x_sol = np.minimum(np.maximum(x_min_bound, x_sol), x_max_bound)
+    # explicit formula for cubic interpolation
+    elif no_points == 2 and order == 3 and plot is False:
+        # Solution to cubic interpolation is given by:
+        # d1 = g1 + g2 - 3((f1 - f2)/(x1 - x2))
+        # d2 = sqrt(d1^2 - g1*g2)
+        # x_min = x2 - (x2 - x1)*((g2 + d2 - d1)/(g2 - g1 + 2*d2))
+        d1 = points[0, 2] + points[1, 2] - 3 * ((points[0, 1] - points[1, 1]) / (points[0, 0] - points[1, 0]))
+        d2 = np.sqrt(d1 ** 2 - points[0, 2] * points[1, 2])
+        if np.isreal(d2):
+            x_sol = points[1, 0] - (points[1, 0] - points[0, 0]) * ((points[1, 2] + d2 - d1) / (points[1, 2] - points[0, 2] + 2 * d2))
+            x_sol = np.minimum(np.maximum(x_min_bound, x_sol), x_max_bound)
+        else:
+            x_sol = (x_max_bound + x_min_bound)/2
+    # solve linear system
+    else:
+        # define linear constraints
+        A = np.zeros((0, order + 1))
+        b = np.zeros((0, 1))
+        # add linear constraints on function values
+        for i in range(no_points):
+            if not np.isnan(points[i, 1]):
+                constraint = np.zeros((1, order + 1))
+                for j in range(order, -1, -1):
+                    constraint[0, order - j] = points[i, 0] ** j
+                A = np.append(A, constraint, 0)
+                b = np.append(b, points[i, 1])
+        # add linear constraints on gradient values
+        for i in range(no_points):
+            if not np.isnan(points[i, 2]):
+                constraint = np.zeros((1, order + 1))
+                for j in range(order):
+                    constraint[0, j] = (order - j) * points[i, 0] ** (order - j - 1)
+                A = np.append(A, constraint, 0)
+                b = np.append(b, points[i, 2])
+        # check if system is solvable
+        if A.shape[0] != A.shape[1] or np.linalg.matrix_rank(A) != A.shape[0]:
+            x_sol = (x_min_bound + x_max_bound)/2
+            f_min = np.inf
+        else:
+            # solve linear system for interpolating polynomial
+            coeff = np.linalg.solve(A, b)
+            # compute critical points
+            dcoeff = np.zeros(order)
+            for i in range(len(coeff) - 1):
+                dcoeff[i] = coeff[i] * (order - i)
+            crit_pts = np.array([x_min_bound, x_max_bound])
+            crit_pts = np.append(crit_pts, points[:, 0])
+            if not np.isinf(dcoeff).any():
+                roots = np.roots(dcoeff)
+                crit_pts = np.append(crit_pts, roots)
+            # test critical points
+            f_min = np.inf
+            x_sol = (x_min_bound + x_max_bound) / 2 # defaults to bisection
+            for crit_pt in crit_pts:
+                if np.isreal(crit_pt) and crit_pt >= x_min_bound and crit_pt <= x_max_bound:
+                    F_cp = np.polyval(coeff, crit_pt)
+                    if np.isreal(F_cp) and F_cp < f_min:
+                        x_sol = np.real(crit_pt)
+                        f_min = np.real(F_cp)
+            if(plot):
+                import matplotlib.pyplot as plt
+                plt.figure()
+                x = np.arange(x_min_bound, x_max_bound, (x_max_bound - x_min_bound)/10000)
+                f = np.polyval(coeff, x)
+                plt.plot(x, f)
+                plt.plot(x_sol, f_min, 'x')
+    return x_sol
+# class PolynomialLineSearch(LineSearch):
+#     """TODO
+#     Line search via polynomial interpolation.
+#     Args:
+#         init (float, optional): Initial step size. Defaults to 1.0.
+#         c1 (float, optional): Acceptance value for weak wolfe condition. Defaults to 1e-4.
+#         c2 (float, optional): Acceptance value for strong wolfe condition (set to 0.1 for conjugate gradient). Defaults to 0.9.
+#         maxiter (int, optional): Maximum number of line search iterations. Defaults to 25.
+#         maxzoom (int, optional): Maximum number of zoom iterations. Defaults to 10.
+#         expand (float, optional): Expansion factor (multipler to step size when weak condition not satisfied). Defaults to 2.0.
+#         adaptive (bool, optional):
+#             when enabled, if line search failed, initial step size is reduced.
+#             Otherwise it is reset to initial value. Defaults to True.
+#         plus_minus (bool, optional):
+#             If enabled and the direction is not descent direction, performs line search in opposite direction. Defaults to False.
+#     Examples:
+#         Conjugate gradient method with strong wolfe line search. Nocedal, Wright recommend setting c2 to 0.1 for CG.
+#         .. code-block:: python
+#             opt = tz.Modular(
+#                 model.parameters(),
+#                 tz.m.PolakRibiere(),
+#                 tz.m.StrongWolfe(c2=0.1)
+#             )
+#         LBFGS strong wolfe line search:
+#         .. code-block:: python
+#             opt = tz.Modular(
+#                 model.parameters(),
+#                 tz.m.LBFGS(),
+#                 tz.m.StrongWolfe()
+#             )
+#     """
+#     def __init__(
+#         self,
+#         init: float = 1.0,
+#         c1: float = 1e-4,
+#         c2: float = 0.9,
+#         maxiter: int = 25,
+#         maxzoom: int = 10,
+#         # a_max: float = 1e10,
+#         expand: float = 2.0,
+#         adaptive = True,
+#         plus_minus = False,
+#     ):
+#         defaults=dict(init=init,c1=c1,c2=c2,maxiter=maxiter,maxzoom=maxzoom,
+#                       expand=expand, adaptive=adaptive, plus_minus=plus_minus)
+#         super().__init__(defaults=defaults)
+#         self.global_state['initial_scale'] = 1.0
+#         self.global_state['beta_scale'] = 1.0
+#     @torch.no_grad
+#     def search(self, update, var):
+#         objective = self.make_objective_with_derivative(var=var)
+#         init, c1, c2, maxiter, maxzoom, expand, adaptive, plus_minus = itemgetter(
+#             'init', 'c1', 'c2', 'maxiter', 'maxzoom',
+#             'expand', 'adaptive', 'plus_minus')(self.settings[var.params[0]])
+#         f_0, g_0 = objective(0)
+#         step_size,f_a = strong_wolfe(
+#             objective,
+#             f_0=f_0, g_0=g_0,
+#             init=init * self.global_state.setdefault("initial_scale", 1),
+#             c1=c1,
+#             c2=c2,
+#             maxiter=maxiter,
+#             maxzoom=maxzoom,
+#             expand=expand,
+#             plus_minus=plus_minus,
+#         )
+#         if f_a is not None and (f_a > f_0 or _notfinite(f_a)): step_size = None
+#         if step_size is not None and step_size != 0 and not _notfinite(step_size):
+#             self.global_state['initial_scale'] = min(1.0, self.global_state['initial_scale'] * math.sqrt(2))
+#             return step_size
+#         # fallback to backtracking on fail
+#         if adaptive: self.global_state['initial_scale'] *= 0.5
+#         return 0

torchzero/modules/line_search/scipy.py CHANGED Viewed

@@ -3,10 +3,25 @@ from operator import itemgetter
 import torch
-from .line_search import LineSearch
+from .line_search import LineSearchBase
-class ScipyMinimizeScalar(LineSearch):
+class ScipyMinimizeScalar(LineSearchBase):
+    """Line search via :code:`scipy.optimize.minimize_scalar` which implements brent, golden search and bounded brent methods.
+    Args:
+        method (str | None, optional): "brent", "golden" or "bounded". Defaults to None.
+        maxiter (int | None, optional): maximum number of function evaluations the line search is allowed to perform. Defaults to None.
+        bracket (Sequence | None, optional):
+            Either a triple (xa, xb, xc) satisfying xa < xb < xc and func(xb) < func(xa) and  func(xb) < func(xc), or a pair (xa, xb) to be used as initial points for a downhill bracket search. Defaults to None.
+        bounds (Sequence | None, optional):
+            For method ‘bounded’, bounds is mandatory and must have two finite items corresponding to the optimization bounds. Defaults to None.
+        tol (float | None, optional): Tolerance for termination. Defaults to None.
+        options (dict | None, optional): A dictionary of solver options. Defaults to None.
+    For more details on methods and arguments refer to https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize_scalar.html
+    """
     def __init__(
         self,
         method: str | None = None,
@@ -24,10 +39,10 @@ class ScipyMinimizeScalar(LineSearch):
     @torch.no_grad
-    def search(self, update, vars):
-        objective = self.make_objective(vars=vars)
+    def search(self, update, var):
+        objective = self.make_objective(var=var)
         method, bracket, bounds, tol, options, maxiter = itemgetter(
-            'method', 'bracket', 'bounds', 'tol', 'options', 'maxiter')(self.settings[vars.params[0]])
+            'method', 'bracket', 'bounds', 'tol', 'options', 'maxiter')(self.settings[var.params[0]])
         if maxiter is not None:
             options = dict(options) if isinstance(options, Mapping) else {}

torchzero/modules/line_search/strong_wolfe.py CHANGED Viewed

@@ -1,3 +1,4 @@
+"""this needs to be reworked maybe but it also works"""
 import math
 import warnings
 from operator import itemgetter
@@ -5,8 +6,7 @@ from operator import itemgetter
 import torch
 from torch.optim.lbfgs import _cubic_interpolate
-from .line_search import LineSearch
-from .backtracking import backtracking_line_search
+from .line_search import LineSearchBase
 from ...utils import totensor
@@ -182,7 +182,47 @@ def _notfinite(x):
     if isinstance(x, torch.Tensor): return not torch.isfinite(x).all()
     return not math.isfinite(x)
-class StrongWolfe(LineSearch):
+class StrongWolfe(LineSearchBase):
+    """Cubic interpolation line search satisfying Strong Wolfe condition.
+    Args:
+        init (float, optional): Initial step size. Defaults to 1.0.
+        c1 (float, optional): Acceptance value for weak wolfe condition. Defaults to 1e-4.
+        c2 (float, optional): Acceptance value for strong wolfe condition (set to 0.1 for conjugate gradient). Defaults to 0.9.
+        maxiter (int, optional): Maximum number of line search iterations. Defaults to 25.
+        maxzoom (int, optional): Maximum number of zoom iterations. Defaults to 10.
+        expand (float, optional): Expansion factor (multipler to step size when weak condition not satisfied). Defaults to 2.0.
+        use_prev (bool, optional):
+            if True, previous step size is used as the initial step size on the next step.
+        adaptive (bool, optional):
+            when enabled, if line search failed, initial step size is reduced.
+            Otherwise it is reset to initial value. Defaults to True.
+        plus_minus (bool, optional):
+            If enabled and the direction is not descent direction, performs line search in opposite direction. Defaults to False.
+    Examples:
+        Conjugate gradient method with strong wolfe line search. Nocedal, Wright recommend setting c2 to 0.1 for CG.
+        .. code-block:: python
+            opt = tz.Modular(
+                model.parameters(),
+                tz.m.PolakRibiere(),
+                tz.m.StrongWolfe(c2=0.1)
+            )
+        LBFGS strong wolfe line search:
+        .. code-block:: python
+            opt = tz.Modular(
+                model.parameters(),
+                tz.m.LBFGS(),
+                tz.m.StrongWolfe()
+            )
+    """
     def __init__(
         self,
         init: float = 1.0,
@@ -192,26 +232,27 @@ class StrongWolfe(LineSearch):
         maxzoom: int = 10,
         # a_max: float = 1e10,
         expand: float = 2.0,
+        use_prev: bool = False,
         adaptive = True,
-        fallback = False,
         plus_minus = False,
     ):
         defaults=dict(init=init,c1=c1,c2=c2,maxiter=maxiter,maxzoom=maxzoom,
-                      expand=expand, adaptive=adaptive, fallback=fallback, plus_minus=plus_minus)
+                      expand=expand, adaptive=adaptive, plus_minus=plus_minus,use_prev=use_prev)
         super().__init__(defaults=defaults)
         self.global_state['initial_scale'] = 1.0
         self.global_state['beta_scale'] = 1.0
     @torch.no_grad
-    def search(self, update, vars):
-        objective = self.make_objective_with_derivative(vars=vars)
+    def search(self, update, var):
+        objective = self.make_objective_with_derivative(var=var)
-        init, c1, c2, maxiter, maxzoom, expand, adaptive, fallback, plus_minus = itemgetter(
+        init, c1, c2, maxiter, maxzoom, expand, adaptive, plus_minus, use_prev = itemgetter(
             'init', 'c1', 'c2', 'maxiter', 'maxzoom',
-            'expand', 'adaptive', 'fallback', 'plus_minus')(self.settings[vars.params[0]])
+            'expand', 'adaptive', 'plus_minus', 'use_prev')(self.settings[var.params[0]])
         f_0, g_0 = objective(0)
+        if use_prev: init = self.global_state.get('prev_alpha', init)
         step_size,f_a = strong_wolfe(
             objective,
@@ -228,33 +269,8 @@ class StrongWolfe(LineSearch):
         if f_a is not None and (f_a > f_0 or _notfinite(f_a)): step_size = None
         if step_size is not None and step_size != 0 and not _notfinite(step_size):
             self.global_state['initial_scale'] = min(1.0, self.global_state['initial_scale'] * math.sqrt(2))
+            self.global_state['prev_alpha'] = step_size
             return step_size
-        # fallback to backtracking on fail
         if adaptive: self.global_state['initial_scale'] *= 0.5
-        if not fallback: return 0
-        objective = self.make_objective(vars=vars)
-        # # directional derivative
-        g_0 = -sum(t.sum() for t in torch._foreach_mul(vars.get_grad(), vars.get_update()))
-        step_size = backtracking_line_search(
-            objective,
-            g_0,
-            init=init * self.global_state["initial_scale"],
-            beta=0.5 * self.global_state["beta_scale"],
-            c=c1,
-            maxiter=maxiter * 2,
-            a_min=None,
-            try_negative=plus_minus,
-        )
-        # found an alpha that reduces loss
-        if step_size is not None:
-            self.global_state['beta_scale'] = min(1.0, self.global_state.get('beta_scale', 1) * math.sqrt(1.5))
-            return step_size
-        # on fail reduce beta scale value
-        self.global_state['beta_scale'] /= 1.5
-        return 0
+        return 0

torchzero/modules/misc/__init__.py ADDED Viewed

@@ -0,0 +1,27 @@
+from .debug import PrintLoss, PrintParams, PrintShape, PrintUpdate
+from .escape import EscapeAnnealing
+from .gradient_accumulation import GradientAccumulation
+from .misc import (
+    DivByLoss,
+    FillLoss,
+    GradSign,
+    GraftGradToUpdate,
+    GraftToGrad,
+    GraftToParams,
+    HpuEstimate,
+    LastAbsoluteRatio,
+    LastDifference,
+    LastGradDifference,
+    LastProduct,
+    LastRatio,
+    MulByLoss,
+    NoiseSign,
+    Previous,
+    RandomHvp,
+    Relative,
+    UpdateSign,
+)
+from .multistep import Multistep, NegateOnLossIncrease, Online, Sequential
+from .regularization import Dropout, PerturbWeights, WeightDropout
+from .split import Split
+from .switch import Alternate, Switch

torchzero 0.3.9__py3-none-any.whl → 0.3.11__py3-none-any.whl

torchzero 0.3.9py3-none-any.whl → 0.3.11py3-none-any.whl