PyPI - heavyball - Versions diffs - 0.15.0__tar.gz → 0.15.1__tar.gz - Mend

heavyball 0.15.0tar.gz → 0.15.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

{heavyball-0.15.0 → heavyball-0.15.1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: heavyball
-Version: 0.15.0
+Version: 0.15.1
 Summary: Efficient optimizers
 Home-page: https://github.com/clashluke/heavyball
 Author: Lucas Nestler

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball/__init__.py RENAMED Viewed

@@ -1,3 +1,4 @@
+from .cached_psgd_kron import ForeachCachedPSGDKron
 from .delayed_psgd import ForeachDelayedPSGD
 from .foreach_adamw import ForeachAdamW
 from .foreach_adopt import ForeachADOPT
@@ -16,7 +17,28 @@ from .schedule_free_palm_foreach_soap import SFPaLMForeachSOAP
 PalmForEachSoap = PaLMForeachSOAP
+PaLMSOAP = PaLMForeachSOAP
+PaLMSFAdamW = PaLMForeachSFAdamW
+PaLMSFSoap = SFPaLMForeachSOAP
+PaLMForeachSOAP = PaLMForeachSOAP
+PrecondScheduleSFPaLMSOAP = PrecondScheduleSFPaLMSOAP
+SOAP = ForeachSOAP
+SFAdamW = ForeachSFAdamW
+LaProp = ForeachLaProp
+ADOPT = ForeachADOPT
+PrecondScheduleForeachSOAP = PrecondScheduleForeachSOAP
+PrecondSchedulePaLMForeachSOAP = PrecondSchedulePaLMForeachSOAP
+PSGDKron = ForeachPSGDKron
+AdamW = ForeachAdamW
+PurePSGD = ForeachPurePSGD
+PaLMPAdam = ForeachPaLMPAdam
+DelayedPSGD = ForeachDelayedPSGD
+CachedPSGDKron = ForeachCachedPSGDKron
 __all__ = ['PalmForEachSoap', 'PaLMForeachSFAdamW', 'PaLMForeachSOAP', 'SFPaLMForeachSOAP', 'PrecondScheduleSFPaLMSOAP',
            'ForeachSOAP', 'ForeachSFAdamW', 'ForeachLaProp', 'ForeachADOPT', 'PrecondScheduleForeachSOAP',
-           'PrecondSchedulePaLMForeachSOAP', 'ForeachPSGDKron', 'ForeachAdamW', 'ForeachPurePSGD',
-           'ForeachPaLMPAdam', 'ForeachDelayedPSGD']
+           'PrecondSchedulePaLMForeachSOAP', 'ForeachPSGDKron', 'ForeachAdamW', 'ForeachPurePSGD', 'ForeachPaLMPAdam',
+           'ForeachDelayedPSGD', 'ForeachCachedPSGDKron',  #
+           'PaLMSOAP', 'PaLMSFAdamW', 'PaLMSFSoap', 'PaLMSFAdamW', 'PaLMForeachSOAP', 'PrecondScheduleSFPaLMSOAP',
+           'SOAP', 'SFAdamW', 'LaProp', 'ADOPT', 'PSGDKron', 'AdamW', 'PurePSGD', 'PaLMPAdam', 'DelayedPSGD',
+           'CachedPSGDKron']

heavyball-0.15.1/heavyball/cached_psgd_kron.py ADDED Viewed

@@ -0,0 +1,141 @@
+"""
+Originally from Evan Walters and Omead Pooladzandi, 2024
+Modified under Creative Commons Attribution 4.0 International
+Source available at https://github.com/evanatyourservice/kron_torch/blob/97a2b5ee8a1a4c29e4780bbf6c521e545189eff9/kron_torch/kron.py
+"""
+from typing import Optional
+import torch
+from heavyball.utils import einsum_base
+from .utils import update_param_, warmup, psgd_precond_grad, init_Q_exprs, trust_region_clip_, PSGDBase, \
+    precond_update_prob_schedule, split_p_and_g_in_group, line_to_triu, triu_to_line, set_, einsum_base
+class ForeachCachedPSGDKron(PSGDBase):
+    """Implements PSGD Kron from https://github.com/lixilinx/psgd_torch with cached preconditioners.
+    Args:
+        params (iterable): Iterable of parameters to optimize or dicts defining
+            parameter groups.
+        lr (float): Learning rate.
+        b1 (float): Momentum parameter.
+        weight_decay (float): Weight decay (L2 penalty).
+        preconditioner_update_probability (callable or float, optional): Probability of
+            updating the preconditioner. If None, defaults to a schedule that anneals
+            from 1.0 to 0.03 by 4000 steps.
+        max_size_triangular (int): Max size for dim's preconditioner to be triangular.
+        min_ndim_triangular (int): Minimum number of dimensions a layer needs
+            to have triangular preconditioners.
+        memory_save_mode: (string, optional), None, 'one_diag', or 'all_diag', None is default
+            to set all preconditioners to be triangular, 'one_diag' sets the largest
+            or last dim to be diagonal per layer, and 'all_diag' sets all preconditioners
+            to be diagonal.
+        momentum_into_precond_update: (bool), whether to send momentum into preconditioner
+            update instead of raw gradients.
+    """
+    def __init__(self, params, lr=0.001, beta=0.9, weight_decay=0.0, preconditioner_update_probability=None,
+                 max_size_triangular=2048, min_ndim_triangular=2, memory_save_mode=None,
+                 momentum_into_precond_update=True, warmup_steps: int = 1, merge_dims: bool = False,
+                 split: bool = False, clip_fn: Optional[callable] = None, store_triu_as_line: bool = True):
+        if not 0.0 <= lr:
+            raise ValueError(f"Invalid learning rate: {lr}")
+        if not 0.0 <= beta < 1.0:
+            raise ValueError(f"Invalid beta parameter: {beta}")
+        if not 0.0 <= weight_decay:
+            raise ValueError(f"Invalid weight_decay value: {weight_decay}")
+        if preconditioner_update_probability is None:
+            preconditioner_update_probability = precond_update_prob_schedule()
+        if clip_fn is None:
+            clip_fn = lambda x: trust_region_clip_(x, 0.9, 1.5)
+        self.preconditioner_update_probability = preconditioner_update_probability
+        self.clip_fn = clip_fn
+        defaults = dict(lr=lr, beta=beta, weight_decay=weight_decay, max_size_triangular=max_size_triangular,
+                        min_ndim_triangular=min_ndim_triangular, memory_save_mode=memory_save_mode,
+                        momentum_into_precond_update=momentum_into_precond_update, precond_lr=0.1,
+                        # precond lr hardcoded to 0.1
+                        precond_init_scale=1.0,  # precond init scale hardcoded to 1.0
+                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split,
+                        store_triu_as_line=store_triu_as_line)
+        super().__init__(params, defaults)
+        self._prob_step = 0
+    def _step(self, group):
+        # update preconditioners all together
+        update_prob = self.preconditioner_update_probability
+        if callable(update_prob):
+            update_prob = update_prob(self._prob_step)
+        do_update = self.rng.random() < update_prob
+        self._prob_step += 1
+        momentum_into_precond_update = group.get("momentum_into_precond_update", True)
+        precond_init_scale = group['precond_init_scale']
+        max_size_triangular = group['max_size_triangular']
+        min_ndim_triangular = group['min_ndim_triangular']
+        memory_save_mode = group['memory_save_mode']
+        precond_lr = group['precond_lr']
+        weight_decay = group['weight_decay']
+        lr = group['lr']
+        beta = group['beta']
+        store_triu_as_line = group['store_triu_as_line']
+        vals = []
+        for p, g in split_p_and_g_in_group(group):
+            state = self.state_(p)
+            if 'Q' not in state:
+                state["exp_avg"] = torch.zeros_like(g)
+                Q, state["exprs"] = init_Q_exprs(p, precond_init_scale, max_size_triangular, min_ndim_triangular,
+                                                 memory_save_mode, dtype=g.dtype)
+                state['Q'] = triu_to_line(Q) if store_triu_as_line else Q
+                state['Q_cache'] = [torch.empty_like(q) for q in Q]
+                expr = [f'{c.upper()}{c}' if q_.ndim == 2 else c for c, q_ in zip(einsum_base, Q)]
+                expr = ','.join(expr)
+                grad_expr = ''.join(c for c, _ in zip(einsum_base, g.shape))
+                out_expr = ''.join(c.upper() if c.upper() in expr else c for c in grad_expr)
+                expr = f'{expr},{grad_expr}->{out_expr}'
+                state['cache_expr'] = expr
+            vals.append((p, g, state["exp_avg"], state["Q"], state['Q_cache']))
+        if not vals:
+            return
+        p_list, grad_list, exp_avg_list, Q_list, Q_cache_list = zip(*vals)
+        del vals
+        group["step"] += 1
+        torch._foreach_lerp_(exp_avg_list, grad_list, (1 - beta) / (1 - beta ** group["step"]))
+        grad_list, Q_list, Q_cache_list, exp_avg_list = list(grad_list), list(Q_list), list(Q_cache_list), list(
+            exp_avg_list)
+        for i, (p, g) in enumerate(zip(p_list, grad_list)):
+            cached_q = Q_cache_list.pop(0)
+            q_orig = Q_list.pop(0)
+            ea = exp_avg_list.pop(0)
+            if do_update:
+                q = line_to_triu(q_orig) if store_triu_as_line else q_orig
+                self.balance([g], [q])
+                self.do_update([p], [ea if momentum_into_precond_update else g], [q], precond_lr,
+                               [q_orig] if store_triu_as_line else None)
+                for c_, q_ in zip(cached_q, q):
+                    if q_.ndim == 2:
+                        torch.matmul(q_.T.conj(), q_, out=c_)
+                    else:
+                        torch.mul(q_.conj(), q_, out=c_)
+            set_(g, torch.einsum(self.state_(p)['cache_expr'], *cached_q, ea))
+        grad_list = self.clip_fn(grad_list)
+        lr = -warmup(lr, group['step'], group['warmup_steps'])
+        update_param_(p_list, grad_list, lr, weight_decay)

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball/delayed_psgd.py RENAMED Viewed

@@ -38,7 +38,7 @@ class ForeachDelayedPSGD(PSGDBase):
     def __init__(self, params, lr=0.001, beta=0.9, weight_decay=0.0, preconditioner_update_probability=None,
                  max_size_triangular=2048, min_ndim_triangular=2, memory_save_mode=None,
                  momentum_into_precond_update=True, warmup_steps: int = 1, merge_dims: bool = False,
-                 split: bool = False, clip_fn: callable = None):
+                 split: bool = False, clip_fn: callable = None, store_triu_as_line: bool = True):
         if not 0.0 <= lr:
             raise ValueError(f"Invalid learning rate: {lr}")
         if not 0.0 <= beta < 1.0:
@@ -58,7 +58,8 @@ class ForeachDelayedPSGD(PSGDBase):
                         momentum_into_precond_update=momentum_into_precond_update, precond_lr=0.1,
                         # precond lr hardcoded to 0.1
                         precond_init_scale=1.0,  # precond init scale hardcoded to 1.0
-                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split)
+                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split,
+                        store_triu_as_line=store_triu_as_line)
         super().__init__(params, defaults)
         self._prob_step = 0
@@ -80,6 +81,7 @@ class ForeachDelayedPSGD(PSGDBase):
         weight_decay = group['weight_decay']
         lr = group['lr']
         beta = group['beta']
+        store_triu_as_line = group['store_triu_as_line']
         vals = []
@@ -90,7 +92,7 @@ class ForeachDelayedPSGD(PSGDBase):
                 state["exp_avg"] = torch.zeros_like(g)
                 Q, state["exprs"] = init_Q_exprs(p, precond_init_scale, max_size_triangular, min_ndim_triangular,
                                                  memory_save_mode, dtype=g.dtype)
-                state["Q"] = triu_to_line(Q)
+                state["Q"] = triu_to_line(Q) if store_triu_as_line else Q
             vals.append((p, g, state["exp_avg"], state["Q"]))
@@ -108,12 +110,11 @@ class ForeachDelayedPSGD(PSGDBase):
         for i, (p, g) in enumerate(zip(p_list, grad_list)):
             q_orig = Q_list.pop(0)
             ea = exp_avg_list.pop(0)
-            q = line_to_triu(q_orig)
-            self.balance(do_update, [g], [q])
+            q = line_to_triu(q_orig) if store_triu_as_line else q_orig
             new = psgd_precond_grad(q, self.state_(p)["exprs"], ea)
             if do_update:
-                self.do_update([p], [ea if momentum_into_precond_update else g], [q], precond_lr, [q_orig])
+                self.do_update([p], [ea if momentum_into_precond_update else g], [q], precond_lr, [q_orig] if store_triu_as_line else None)
+                self.balance([g], [q])
             set_(g, new)
         grad_list = self.clip_fn(grad_list)

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball/p_adam.py RENAMED Viewed

@@ -5,6 +5,7 @@ Source available at https://github.com/evanatyourservice/kron_torch/blob/97a2b5e
 """
 import torch
+from heavyball.utils import triu_to_line, line_to_triu
 from .utils import update_param_, warmup, psgd_precond_grad, init_Q_exprs, PSGDBase, precond_update_prob_schedule, \
     exp_avg_sq_, beta_debias, split_p_and_g_in_group
@@ -36,7 +37,8 @@ class ForeachPaLMPAdam(PSGDBase):
     def __init__(self, params, lr=0.001, weight_decay=0.0, preconditioner_update_probability=None,
                  max_size_triangular=2048, min_ndim_triangular=2, memory_save_mode=None,
                  momentum_into_precond_update=True, warmup_steps: int = 1, betas=(None, None), beta: float = 0.9,
-                 beta2_scale: float = 0.8, merge_dims: bool = False, split: bool = False, clip_fn: callable = None):
+                 beta2_scale: float = 0.8, merge_dims: bool = False, split: bool = False, clip_fn: callable = None,
+                 store_triu_as_line: bool = True):
         if not 0.0 <= lr:
             raise ValueError(f"Invalid learning rate: {lr}")
         if not 0.0 <= weight_decay:
@@ -57,7 +59,7 @@ class ForeachPaLMPAdam(PSGDBase):
                         # precond lr hardcoded to 0.1
                         precond_init_scale=1.0,  # precond init scale hardcoded to 1.0
                         step=0, warmup_steps=warmup_steps, beta=beta, beta2_scale=beta2_scale, merge_dims=merge_dims,
-                        split=split)
+                        split=split, store_triu_as_line=store_triu_as_line)
         super().__init__(params, defaults)
         self._prob_step = 0
@@ -77,6 +79,7 @@ class ForeachPaLMPAdam(PSGDBase):
         precond_lr = group['precond_lr']
         weight_decay = group['weight_decay']
         lr = group['lr']
+        store_triu_as_line = group['store_triu_as_line']
         vals = []
@@ -86,8 +89,9 @@ class ForeachPaLMPAdam(PSGDBase):
             if 'Q' not in state:
                 state['exp_avg'] = torch.zeros_like(g)
                 state['exp_avg_sq'] = torch.zeros_like(g)
-                state["Q"], state["exprs"] = init_Q_exprs(p, precond_init_scale, max_size_triangular,
+                Q, state["exprs"] = init_Q_exprs(p, precond_init_scale, max_size_triangular,
                                                           min_ndim_triangular, memory_save_mode, dtype=g.dtype)
+                state['Q'] = triu_to_line(Q) if store_triu_as_line else Q
             vals.append((p, g, state["Q"], state['exp_avg'], state['exp_avg_sq']))
@@ -99,15 +103,16 @@ class ForeachPaLMPAdam(PSGDBase):
         group["step"] += 1
-        self.balance(do_update, grad_list, Q_list)
+        Q_triu = [line_to_triu(q) if store_triu_as_line else q for q in Q_list]
         if do_update:
-            self.do_update(p_list, grad_list, Q_list, precond_lr)
+            self.balance(grad_list, Q_triu)
+            self.do_update(p_list, grad_list, Q_triu, precond_lr, Q_list if store_triu_as_line else None)
         torch._foreach_lerp_(exp_avg, grad_list, 1 - beta_debias(group['beta'], group['step']))
         beta2 = 1 - group['step'] ** -group['beta2_scale']
-        for p, Q, g, ea, eas in zip(p_list, Q_list, grad_list, exp_avg, exp_avg_sq):
+        for p, Q, g, ea, eas in zip(p_list, Q_triu, grad_list, exp_avg, exp_avg_sq):
             psgd_precond_grad(Q, self.state_(p)["exprs"], g, inplace=True)
             ea = psgd_precond_grad(Q, self.state_(p)["exprs"], ea)
             exp_avg_sq_(eas, g, beta_debias(beta2, group['step']), 1e-8, out=g)

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball/psgd_kron.py RENAMED Viewed

@@ -38,7 +38,7 @@ class ForeachPSGDKron(PSGDBase):
     def __init__(self, params, lr=0.001, beta=0.9, weight_decay=0.0, preconditioner_update_probability=None,
                  max_size_triangular=2048, min_ndim_triangular=2, memory_save_mode=None,
                  momentum_into_precond_update=True, warmup_steps: int = 1, merge_dims: bool = False,
-                 split: bool = False, clip_fn: Optional[callable] = None):
+                 split: bool = False, clip_fn: Optional[callable] = None, store_triu_as_line: bool = True):
         if not 0.0 <= lr:
             raise ValueError(f"Invalid learning rate: {lr}")
         if not 0.0 <= beta < 1.0:
@@ -58,7 +58,8 @@ class ForeachPSGDKron(PSGDBase):
                         momentum_into_precond_update=momentum_into_precond_update, precond_lr=0.1,
                         # precond lr hardcoded to 0.1
                         precond_init_scale=1.0,  # precond init scale hardcoded to 1.0
-                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split)
+                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split,
+                        store_triu_as_line=store_triu_as_line)
         super().__init__(params, defaults)
         self._prob_step = 0
@@ -80,6 +81,7 @@ class ForeachPSGDKron(PSGDBase):
         weight_decay = group['weight_decay']
         lr = group['lr']
         beta = group['beta']
+        store_triu_as_line = group['store_triu_as_line']
         vals = []
@@ -90,7 +92,7 @@ class ForeachPSGDKron(PSGDBase):
                 state["exp_avg"] = torch.zeros_like(g)
                 Q, state["exprs"] = init_Q_exprs(p, precond_init_scale, max_size_triangular, min_ndim_triangular,
                                                  memory_save_mode, dtype=g.dtype)
-                state['Q'] = triu_to_line(Q)
+                state['Q'] = triu_to_line(Q) if store_triu_as_line else Q
             vals.append((p, g, state["exp_avg"], state["Q"]))
@@ -108,11 +110,11 @@ class ForeachPSGDKron(PSGDBase):
         for i, (p, g) in enumerate(zip(p_list, grad_list)):
             q_orig = Q_list.pop(0)
             ea = exp_avg_list.pop(0)
-            q = line_to_triu(q_orig)
+            q = line_to_triu(q_orig) if store_triu_as_line else q_orig
-            self.balance(do_update, [g], [q])
             if do_update:
-                self.do_update([p], [ea if momentum_into_precond_update else g], [q], precond_lr, [q_orig])
+                self.balance([g], [q])
+                self.do_update([p], [ea if momentum_into_precond_update else g], [q], precond_lr, [q_orig] if store_triu_as_line else None)
             set_(g, psgd_precond_grad(q, self.state_(p)["exprs"], ea))
         grad_list = self.clip_fn(grad_list)

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball/pure_psgd.py RENAMED Viewed

@@ -36,7 +36,7 @@ class ForeachPurePSGD(PSGDBase):
     def __init__(self, params, lr=0.001, weight_decay=0.0, preconditioner_update_probability=None,
                  max_size_triangular=2048, min_ndim_triangular=2, memory_save_mode=None,
                  momentum_into_precond_update=True, warmup_steps: int = 1, merge_dims: bool = False,
-                 split: bool = False, clip_fn: callable = None):
+                 split: bool = False, clip_fn: callable = None, store_triu_as_line: bool = True):
         if not 0.0 <= lr:
             raise ValueError(f"Invalid learning rate: {lr}")
         if not 0.0 <= weight_decay:
@@ -54,7 +54,8 @@ class ForeachPurePSGD(PSGDBase):
                         momentum_into_precond_update=momentum_into_precond_update, precond_lr=0.1,
                         # precond lr hardcoded to 0.1
                         precond_init_scale=1.0,  # precond init scale hardcoded to 1.0
-                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split)
+                        step=0, warmup_steps=warmup_steps, merge_dims=merge_dims, split=split,
+                        store_triu_as_line=store_triu_as_line)
         super().__init__(params, defaults)
         self._prob_step = 0
@@ -74,6 +75,7 @@ class ForeachPurePSGD(PSGDBase):
         precond_lr = group['precond_lr']
         weight_decay = group['weight_decay']
         lr = group['lr']
+        store_triu_as_line = group['store_triu_as_line']
         vals = []
@@ -83,7 +85,7 @@ class ForeachPurePSGD(PSGDBase):
             if 'Q' not in state:
                 Q, state["exprs"] = init_Q_exprs(p, precond_init_scale, max_size_triangular, min_ndim_triangular,
                                                  memory_save_mode, dtype=g.dtype)
-                state['Q'] = triu_to_line(Q)
+                state['Q'] = triu_to_line(Q) if store_triu_as_line else Q
             vals.append((p, g, state["Q"]))
@@ -98,11 +100,11 @@ class ForeachPurePSGD(PSGDBase):
         Q_list = list(Q_list)
         for i, (p, g) in enumerate(zip(p_list, grad_list)):
             q_orig = Q_list.pop(0)
-            q = line_to_triu(q_orig)
+            q = line_to_triu(q_orig) if store_triu_as_line else q_orig
-            self.balance(do_update, [g], [q])
             if do_update:
-                self.do_update([p], [g], [q], precond_lr, [q_orig])
+                self.balance([g], [q])
+                self.do_update([p], [g], [q], precond_lr, [q_orig] if store_triu_as_line else None)
             psgd_precond_grad(q, self.state_(p)["exprs"], g, inplace=True)
         grad_list = self.clip_fn(grad_list)

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball/utils.py RENAMED Viewed

@@ -29,7 +29,7 @@ def decorator(func):
     return _fn
-_einsum_base = string.ascii_lowercase + string.ascii_uppercase
+einsum_base = string.ascii_lowercase + string.ascii_uppercase
 def warmup(lr: float, step: int, warmup_steps: int):
@@ -317,8 +317,8 @@ def compute_ggt(grad, GG, max_precond_dim, precondition_1d, beta):
     for idx, sh in enumerate(grad.shape):
         if sh > max_precond_dim:
             continue
-        b = _einsum_base[idx]
-        g0 = _einsum_base[:grad.dim()]
+        b = einsum_base[idx]
+        g0 = einsum_base[:grad.dim()]
         g1 = g0.replace(b, b.upper())
         outer_product = torch.einsum(f'{g0},{g1}->{b + b.upper()}', grad, grad)
         GG[idx].lerp_(promote(outer_product), 1 - beta)
@@ -374,7 +374,7 @@ def project(grad, Q, back: bool):
     :param back: whether to project to Shampoo eigenbases or back to original space
     :return:
     """
-    param = _einsum_base[:grad.dim()]
+    param = einsum_base[:grad.dim()]
     preconditioners = ",".join([(g + g.upper())[::-1 if back else 1] for m, g in zip(Q, param) if len(m) > 0])
     if preconditioners:
         out = ''.join([c.upper() if c.upper() in preconditioners else c for c in param])
@@ -759,8 +759,8 @@ class PSGDBase(StatefulOptimizer):
         self.rng = random.Random(0x1923213)
         self._tiny = torch.finfo(torch.bfloat16).tiny
-    def balance(self, do_update, grad_list, Q_list):
-        if not do_update or self.rng.random() > 0.01:
+    def balance(self, grad_list, Q_list):
+        if self.rng.random() > 0.01:
             return
         for g, q in zip(grad_list, Q_list):

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: heavyball
-Version: 0.15.0
+Version: 0.15.1
 Summary: Efficient optimizers
 Home-page: https://github.com/clashluke/heavyball
 Author: Lucas Nestler

{heavyball-0.15.0 → heavyball-0.15.1}/heavyball.egg-info/SOURCES.txt RENAMED Viewed

@@ -2,6 +2,7 @@ LICENSE
 README.md
 setup.py
 heavyball/__init__.py
+heavyball/cached_psgd_kron.py
 heavyball/delayed_psgd.py
 heavyball/foreach_adamw.py
 heavyball/foreach_adopt.py

{heavyball-0.15.0 → heavyball-0.15.1}/setup.py RENAMED Viewed

@@ -10,7 +10,7 @@ setuptools.setup(
     name='heavyball',
     license='BSD',
     description='Efficient optimizers',
-    version='0.15.0',
+    version='0.15.1',
     long_description=README,
     url='https://github.com/clashluke/heavyball',
     packages=setuptools.find_packages(),