PyPI - adv-optm - Versions diffs - 0.1.7__py3-none-any.whl → 0.1.8__py3-none-any.whl - Mend

adv-optm 0.1.7py3-none-any.whl → 0.1.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of adv-optm might be problematic. Click here for more details.

Files changed (12) hide show

adv_optm/__init__.py +1 -1
adv_optm/optim/AdamW_adv.py +10 -4
adv_optm/optim/Adopt_adv.py +5 -5
adv_optm/optim/Lion_Prodigy_adv.py +3 -37
adv_optm/optim/Lion_adv.py +6 -39
adv_optm/optim/Prodigy_adv.py +69 -38
{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/METADATA +1 -1
adv_optm-0.1.8.dist-info/RECORD +19 -0
adv_optm-0.1.7.dist-info/RECORD +0 -19
{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/WHEEL +0 -0
{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/licenses/LICENSE +0 -0
{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/top_level.txt +0 -0

adv_optm/__init__.py CHANGED Viewed

@@ -16,4 +16,4 @@ __all__ = [
     "Lion_Prodigy_adv",
 ]
-__version__ = "0.1.7"
+__version__ = "0.1.8"

adv_optm/optim/AdamW_adv.py CHANGED Viewed

@@ -55,7 +55,7 @@ class AdamW_adv(torch.optim.Optimizer):
             the warmup, `alpha` ramps from 0 to its target value. If `None`,
             the scheduler is disabled. (default: None)
         factored (bool): whether to use the factorization or disable it to use
-            the uncompressed optimizer. (default: True)
+            the uncompressed optimizer. (default: False)
     """
     def __init__(
@@ -76,7 +76,7 @@ class AdamW_adv(torch.optim.Optimizer):
         beta3_ema: float = 0.9999,
         alpha: float = 5.0,
         t_alpha: int | None = None,
-        factored: bool = True,
+        factored: bool = False,
     ):
         if not (lr >= 0.0):
             raise ValueError(f"Learning-rate should be >= 0.0. Got {lr}")
@@ -216,7 +216,10 @@ class AdamW_adv(torch.optim.Optimizer):
                 del unpacked_sign_slow
                 mt_slow.mul_(beta3_ema).add_(grad_reshaped, alpha=1.0 - beta3_ema)
-                update = mt + (alpha_t * mt_slow) if beta1 > 0 else grad_reshaped + (alpha_t * mt_slow)
+                if beta1 > 0:
+                    update = torch.add(mt, mt_slow, alpha=alpha_t)
+                else:
+                    update = torch.add(grad_reshaped, mt_slow, alpha=alpha_t)
             else:
                 update = mt.clone() if beta1 > 0 else grad_reshaped.clone()
             del grad_reshaped
@@ -262,7 +265,10 @@ class AdamW_adv(torch.optim.Optimizer):
             if self.use_AdEMAMix:
                 exp_avg_slow = state['exp_avg_slow']
                 exp_avg_slow.mul_(beta3_ema).add_(grad, alpha=1 - beta3_ema)
-                update = exp_avg + (alpha_t * exp_avg_slow) if beta1 > 0 else grad + (alpha_t * exp_avg_slow)
+                if beta1 > 0:
+                    update = torch.add(exp_avg, exp_avg_slow, alpha=alpha_t)
+                else:
+                    update = torch.add(grad, exp_avg_slow, alpha=alpha_t)
             else:
                 update = exp_avg.clone() if beta1 > 0 else grad.clone()

adv_optm/optim/Adopt_adv.py CHANGED Viewed

@@ -63,7 +63,7 @@ class Adopt_adv(torch.optim.Optimizer):
             the scheduler is disabled and the full `alpha` value is used from
             the start. (default: None)
         factored (bool): whether to use the factorization or disable it to use
-            the uncompressed optimizer. (default: True)
+            the uncompressed optimizer. (default: False)
     """
     def __init__(
@@ -84,7 +84,7 @@ class Adopt_adv(torch.optim.Optimizer):
         beta3_ema: float = 0.9999,
         alpha: float = 5.0,
         t_alpha: int | None = None,
-        factored: bool = True,
+        factored: bool = False,
     ):
         if not (lr >= 0.0):
             raise ValueError(f"Learning-rate should be >= 0.0. Got {lr}")
@@ -235,7 +235,7 @@ class Adopt_adv(torch.optim.Optimizer):
             if self.use_AdEMAMix:
                 mt_slow.mul_(beta3_ema).add_(normalized_grad, alpha=1.0 - beta3_ema)
-                update = mt + (alpha_t * mt_slow)
+                update = torch.add(mt, m_slow, alpha=alpha_t)
                 update = update.view(p.shape)
             else:
                 update = mt.view(p.shape)
@@ -295,9 +295,9 @@ class Adopt_adv(torch.optim.Optimizer):
             if self.use_AdEMAMix:
                 m_slow.mul_(beta3_ema).add_(normalized_grad, alpha=1.0 - beta3_ema)
-                update = m + (alpha_t * m_slow)
+                update = torch.add(m, m_slow, alpha=alpha_t)
             else:
-                update = m
+                update = m.clone()
             if self.use_atan2:
                 update.mul_(group['lr'] * 1.2732395447351628)

adv_optm/optim/Lion_Prodigy_adv.py CHANGED Viewed

@@ -33,8 +33,6 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
             (default: 0.0).
         factored (bool): whether to use the factorization or use the
             uncompressed optimizer. (default: True)
-        variance_reduction (bool): whether to use the variance reduction technique
-            from "Convergence Analysis of the Lion Optimizer" (arXiv:2508.12327v1). (default: False).
         d0 (float):
             Initial D estimate for D-adaptation (default 1e-6). Rarely needs changing.
         d_coef (float):
@@ -66,7 +64,6 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
         use_cautious: bool = False,
         clip_threshold: float = 0.0,
         factored: bool = True,
-        variance_reduction: bool = False,
         # prodigy parameters
         beta3: float = None,
         d0: float = 1e-6,
@@ -97,7 +94,6 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
         self.stochastic_rounding = stochastic_rounding
         self.use_cautious = use_cautious
         self.factored = factored
-        self.variance_reduction = variance_reduction
         self.fsdp_in_use = fsdp_in_use
         super().__init__(params, defaults)
         # Global state for accumulating metrics across parameter updates within a single step.
@@ -183,12 +179,8 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
                 state['mv_m_nmf'] = torch.zeros(d2, device=p.device, dtype=dtype)
                 packed_d2 = (d2 + 7) // 8
                 state['sign'] = torch.zeros((d1, packed_d2), dtype=torch.uint8, device=p.device)
-                if self.variance_reduction:
-                    state['prev_grad'] = torch.zeros((d1, d2), device=p.device, dtype=dtype)
             else: # Fallback to standard Lion
                 state['exp_avg'] = torch.zeros_like(p, device=p.device, dtype=dtype)
-                if self.variance_reduction:
-                    state['prev_grad'] = torch.zeros_like(p, device=p.device, dtype=dtype)
         if state['factored']:
             # Factored Path
@@ -215,20 +207,7 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
             update_for_param = signed_update.view(p.shape).mul(self.dlr)
             # Update momentum m_t = β2*m_{t-1} + (1-β2)*lr*g_t
-            if self.variance_reduction:
-                if state['step'] == 1:
-                    exp_avg.copy_(grad_reshaped)
-                else:
-                    # Heuristic Prodigy-STORM update
-                    correction = exp_avg.sub(state['prev_grad'])
-                    grad_alpha = self.d * (1 - self.beta2) + self.beta2
-                    exp_avg.copy_(grad_reshaped).mul_(grad_alpha).add_(correction, alpha=self.beta2)
-                    del correction, grad_alpha
-                state['prev_grad'].copy_(grad_reshaped)
-            else:
-                # Standard Prodigy-Lion
-                alpha = self.d * (1 - self.beta2)
-                exp_avg.mul_(self.beta2).add_(grad_reshaped, alpha=alpha)
+            exp_avg.mul_(self.beta2).add_(grad_reshaped, alpha=self.d * (1 - self.beta2))
             del grad_reshaped
             # Compress new momentum m_t and store factors
@@ -254,20 +233,7 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
             update_for_param = signed_update.mul(self.dlr)
             # Update momentum
-            if self.variance_reduction:
-                if state['step'] == 1:
-                    exp_avg.copy_(grad)
-                else:
-                    # Heuristic Prodigy-STORM update
-                    correction = exp_avg.sub(state['prev_grad'])
-                    grad_alpha = self.d * (1 - self.beta2) + self.beta2
-                    exp_avg.copy_(grad).mul_(grad_alpha).add_(correction, alpha=self.beta2)
-                    del grad_alpha, correction
-                state['prev_grad'].copy_(grad)
-            else:
-                # Standard Prodigy-Lion
-                alpha = self.d * (1 - self.beta2)
-                exp_avg.mul_(self.beta2).add_(grad, alpha=alpha)
+            exp_avg.mul_(self.beta2).add_(grad, alpha=self.d * (1 - self.beta2))
         # --- Accumulate Prodigy stats ---
         d0, safeguard_warmup, slice_p = group['d0'], group['safeguard_warmup'], group['slice_p']
@@ -298,7 +264,7 @@ class Lion_Prodigy_adv(torch.optim.Optimizer):
         else:
             p.data.add_(-update_for_param)
-            del update_for_param
+        del update_for_param
     @torch.no_grad()
     def step(self, closure: Optional[callable] = None):

adv_optm/optim/Lion_adv.py CHANGED Viewed

@@ -33,8 +33,6 @@ class Lion_adv(torch.optim.Optimizer):
             (default: 0.0).
         factored (bool): whether to use the factorization or use the
             uncompressed optimizer. (default: True)
-        variance_reduction (bool): whether to use the variance reduction technique
-            from "Convergence Analysis of the Lion Optimizer" (arXiv:2508.12327v1). (default: False).
     """
     def __init__(
@@ -49,7 +47,6 @@ class Lion_adv(torch.optim.Optimizer):
         use_cautious: bool = False,
         clip_threshold: float = 0.0,
         factored: bool = True,
-        variance_reduction: bool = False,
     ):
         if not lr > 0.0:
             raise ValueError(f"Learning rate must be > 0.0, but got {lr}")
@@ -69,7 +66,6 @@ class Lion_adv(torch.optim.Optimizer):
         self.stochastic_rounding = stochastic_rounding
         self.use_cautious = use_cautious
         self.factored = factored
-        self.variance_reduction = variance_reduction
         super().__init__(params, defaults)
     @property
@@ -122,12 +118,8 @@ class Lion_adv(torch.optim.Optimizer):
                 state['mv_m_nmf'] = torch.zeros(d2, device=p.device, dtype=dtype)
                 packed_d2 = (d2 + 7) // 8
                 state['sign'] = torch.zeros((d1, packed_d2), dtype=torch.uint8, device=p.device)
-                if self.variance_reduction:
-                    state['prev_grad'] = torch.zeros((d1, d2), device=p.device, dtype=dtype)
             else: # Fallback to standard Lion
                 state['exp_avg'] = torch.zeros_like(p, device=p.device, dtype=dtype)
-                if self.variance_reduction:
-                    state['prev_grad'] = torch.zeros_like(p, device=p.device, dtype=dtype)
         state['step'] += 1
         beta1, beta2 = group["betas"]
@@ -157,21 +149,9 @@ class Lion_adv(torch.optim.Optimizer):
             # Parameter update
             update_for_param = signed_update.view(p.shape).mul_(lr)
-            # Update momentum
-            if self.variance_reduction:
-                if state['step'] == 1:
-                    exp_avg.copy_(grad_reshaped)
-                else:
-                    # Use the simplified STORM update: m_t = g_t + β₂ * (m_{t-1} - g_{t-1})
-                    correction = exp_avg.sub(state['prev_grad'])
-                    # Calculate the new momentum and store it back into exp_avg
-                    exp_avg.copy_(grad_reshaped).add_(correction, alpha=beta2)
-                    del correction
-                # Update prev_grad for the next iteration
-                state['prev_grad'].copy_(grad_reshaped)
-            else:
-                # Standard Lion momentum update
-                exp_avg.mul_(beta2).add_(grad_reshaped, alpha=1-beta2)
+            # Standard Lion momentum update
+            exp_avg.mul_(beta2).add_(grad_reshaped, alpha=1-beta2)
+            del grad_reshaped
             # Compress new momentum m_t and store factors
             state['sign'] = _pack_bools(exp_avg > 0)
@@ -195,21 +175,8 @@ class Lion_adv(torch.optim.Optimizer):
             update_for_param = signed_update.mul_(lr)
-            # Update momentum
-            if self.variance_reduction:
-                if state['step'] == 1:
-                    exp_avg.copy_(grad)
-                else:
-                    # Use the simplified STORM update: m_t = g_t + β₂ * (m_{t-1} - g_{t-1})
-                    correction = exp_avg.sub(state['prev_grad'])
-                    # Calculate the new momentum and store it back into exp_avg
-                    exp_avg.copy_(grad).add_(correction, alpha=beta2)
-                    del correction
-                # Update prev_grad for the next iteration
-                state['prev_grad'].copy_(grad)
-            else:
-                # Standard Lion momentum update
-                exp_avg.mul_(beta2).add_(grad, alpha=1-beta2)
+            # Standard Lion momentum update
+            exp_avg.mul_(beta2).add_(grad, alpha=1-beta2)
         if group["weight_decay"] != 0:
             if p.dtype == torch.bfloat16 and self.stochastic_rounding:
@@ -225,7 +192,7 @@ class Lion_adv(torch.optim.Optimizer):
         else:
             p.data.add_(-update_for_param)
-            del update_for_param
+        del update_for_param
     @torch.no_grad()
     def step(self, closure: Optional[callable] = None):

adv_optm/optim/Prodigy_adv.py CHANGED Viewed

@@ -64,7 +64,7 @@ class Prodigy_adv(torch.optim.Optimizer):
             more responsive. For large batch sizes, use low values (e.g., 0-1) for
             stability. (default: 100.0)
         factored (bool): whether to use the factorization or disable it to use
-            the uncompressed optimizer. (default: True)
+            the uncompressed optimizer. (default: False)
         d0 (float):
             Initial D estimate for D-adaptation (default 1e-6). Rarely needs changing.
         d_coef (float):
@@ -82,6 +82,9 @@ class Prodigy_adv(torch.optim.Optimizer):
         slice_p (int): Reduce memory usage by calculating LR adaptation statistics on only every
             pth entry of each tensor. For values greater than 1 this an an approximation to standard
             Prodigy. Values ~11 are reasonable (default 11).
+        prodigy_steps (int): If greater than zero, disable Prodigy's stepsize adjustments
+            after the specified optimiser step and release all state memory required by Prodigy
+            (default: 0).
     """
     def __init__(
@@ -103,7 +106,7 @@ class Prodigy_adv(torch.optim.Optimizer):
         t_alpha: int | None = None,
         Simplified_AdEMAMix: bool = False,
         alpha_grad: float = 100.0,
-        factored: bool = True,
+        factored: bool = False,
         # prodigy parameters
         beta3: float = None,
         d0: float = 1e-6,
@@ -112,6 +115,7 @@ class Prodigy_adv(torch.optim.Optimizer):
         safeguard_warmup: bool = False,
         fsdp_in_use: bool = False,
         slice_p: int = 11,
+        prodigy_steps: int = 0,
     ):
         if not (lr >= 0.0):
             raise ValueError(f"Learning-rate should be >= 0.0. Got {lr}")
@@ -121,6 +125,8 @@ class Prodigy_adv(torch.optim.Optimizer):
             raise ValueError(f"Epsilon should be >= 0.0. Got {eps}")
         if not (weight_decay >= 0.0):
             raise ValueError(f"Weight-decay should be >= 0.0. Got {weight_decay}")
+        if not (prodigy_steps >= 0):
+            raise ValueError(f"prodigy_steps should be >= 0. Got {prodigy_steps}")
         if betas[0] == 0.0 and Simplified_AdEMAMix:
             raise ValueError(f"Beta 1 cannot be 0.0 when using Simplified_AdEMAMix. Got {betas[0]}")
         if use_AdEMAMix and Simplified_AdEMAMix:
@@ -132,6 +138,9 @@ class Prodigy_adv(torch.optim.Optimizer):
         if use_atan2 and Simplified_AdEMAMix:
             print("Warning: use_atan2 is incompatible with Simplified_AdEMAMix. Disabling use_atan2.")
             use_atan2 = False
+        if Simplified_AdEMAMix and alpha_grad > 0:
+            # scales d_coef by alpha_grad, this force prodigy to behave well with Simplified_AdEMAMix
+            d_coef = d_coef/alpha_grad
         defaults = {
             "lr": lr, "betas": betas, "eps": eps, "weight_decay": weight_decay,
@@ -140,7 +149,7 @@ class Prodigy_adv(torch.optim.Optimizer):
             "beta3_ema": beta3_ema, "alpha": alpha, "t_alpha": t_alpha,
             "beta3": beta3, "d": d0, "d0": d0, "d_max": d0, "d_numerator": 0.0, "d_coef": d_coef,
             "growth_rate": growth_rate, "safeguard_warmup": safeguard_warmup, "k": 0, "slice_p": slice_p,
-            "fsdp_in_use": fsdp_in_use,
+            "fsdp_in_use": fsdp_in_use, "prodigy_steps": prodigy_steps,
             "alpha_grad": alpha_grad,
         }
         self.stochastic_rounding = stochastic_rounding
@@ -293,7 +302,10 @@ class Prodigy_adv(torch.optim.Optimizer):
                 torch.where(unpacked_sign_slow, mt_slow, -mt_slow, out=mt_slow)
                 del unpacked_sign_slow
                 mt_slow.mul_(beta3_ema).add_(grad_reshaped, alpha=self.d * (1.0 - beta3_ema))
-                update = mt + (alpha_t * mt_slow) if self.beta1 > 0 else grad_reshaped + (alpha_t * mt_slow)
+                if self.beta1 > 0:
+                    update = torch.add(mt, mt_slow, alpha=alpha_t)
+                else:
+                    update = torch.add(grad_reshaped, mt_slow, alpha=alpha_t)
             elif self.Simplified_AdEMAMix:
                 update = torch.add(mt, grad_reshaped, alpha=alpha_grad * self.d)
             else:
@@ -344,7 +356,10 @@ class Prodigy_adv(torch.optim.Optimizer):
             if self.use_AdEMAMix:
                 exp_avg_slow = state['exp_avg_slow']
                 exp_avg_slow.mul_(beta3_ema).add_(grad, alpha=self.d * (1.0 - beta3_ema))
-                update = exp_avg + (alpha_t * exp_avg_slow) if self.beta1 > 0 else grad + (alpha_t * exp_avg_slow)
+                if self.beta1 > 0:
+                    update = torch.add(exp_avg, exp_avg_slow, alpha=alpha_t)
+                else:
+                    update = torch.add(grad, exp_avg_slow, alpha=alpha_t)
             elif self.Simplified_AdEMAMix:
                 update = torch.add(exp_avg, grad, alpha=alpha_grad * self.d)
             else:
@@ -364,19 +379,27 @@ class Prodigy_adv(torch.optim.Optimizer):
             update.mul_(self.dlr)
         # --- Accumulate Prodigy stats ---
-        d0, safeguard_warmup, slice_p = group['d0'], group['safeguard_warmup'], group['slice_p']
-        s, p0 = state['s'], state['p0']
-        grad_flat = grad.flatten().float()
-        p_flat = p.data.flatten().float()
-        p0 = p0.float()
+        prodigy_steps = group['prodigy_steps']
+        if prodigy_steps <= 0 or group['k'] < prodigy_steps:
+            d0, safeguard_warmup, slice_p = group['d0'], group['safeguard_warmup'], group['slice_p']
+            s, p0 = state['s'], state['p0']
+            grad_flat = grad.flatten().float()
+            p_flat = p.data.flatten().float()
+            p0 = p0.float()
-        self.d_numerator += (self.d / d0) * self.dlr * torch.dot(grad_flat[::slice_p], p0.data - p_flat[::slice_p]).item()
+            self.d_numerator += (self.d / d0) * self.dlr * torch.dot(grad_flat[::slice_p], p0.data - p_flat[::slice_p]).item()
-        alpha = ((self.d / d0) * self.d) if safeguard_warmup else ((self.d / d0) * self.dlr)
-        s.mul_(self.beta3).add_(grad_flat[::slice_p], alpha=alpha)
-        self.d_denom += s.abs().sum().item()
+            alpha = ((self.d / d0) * self.d) if safeguard_warmup else ((self.d / d0) * self.dlr)
+            s.mul_(self.beta3).add_(grad_flat[::slice_p], alpha=alpha)
+            self.d_denom += s.abs().sum().item()
-        del s, p0, grad_flat, p_flat, alpha
+            del s, p0, grad_flat, p_flat, alpha
+        else:
+            # Free memory if prodigy_steps is reached
+            if 's' in state:
+                del state['s']
+            if 'p0' in state:
+                del state['p0']
         # Decoupled weight decay
         if group["weight_decay"] != 0:
@@ -413,29 +436,37 @@ class Prodigy_adv(torch.optim.Optimizer):
     def calculate_d(self):
         """Calculates the new `d` based on the accumulated stats."""
         g_group = self.param_groups[0]
-        d_max, d_coef, growth_rate = g_group['d_max'], g_group['d_coef'], g_group['growth_rate']
-        if self.fsdp_in_use and dist.is_available() and dist.is_initialized():
-            # Use the device of the first parameter to avoid hardcoding '.cuda()'
-            device = self.param_groups[0]['params'][0].device
-            dist_tensor = torch.tensor([self.d_numerator, self.d_denom], device=device)
-            dist.all_reduce(dist_tensor, op=dist.ReduceOp.SUM)
-            global_d_numerator = dist_tensor[0].item()
-            global_d_denom = dist_tensor[1].item()
-        else:
-            global_d_numerator = self.d_numerator
-            global_d_denom = self.d_denom
-        d_hat = self.d
-        if global_d_denom > 0:
-            d_hat = d_coef * global_d_numerator / global_d_denom
-            if self.d == g_group['d0']:
-                self.d = max(self.d, d_hat)
-            d_max = max(d_max, d_hat)
-            self.d = min(d_max, self.d * growth_rate)
+        # Only perform d-adaptation if prodigy_steps has not been reached
+        prodigy_active = not (g_group.get('prodigy_steps', 0) > 0 and g_group['k'] >= g_group['prodigy_steps'])
+        if prodigy_active:
+            d_max, d_coef, growth_rate = g_group['d_max'], g_group['d_coef'], g_group['growth_rate']
+            if self.fsdp_in_use and dist.is_available() and dist.is_initialized():
+                # Use the device of the first parameter to avoid hardcoding '.cuda()'
+                device = self.param_groups[0]['params'][0].device
+                dist_tensor = torch.tensor([self.d_numerator, self.d_denom], device=device)
+                dist.all_reduce(dist_tensor, op=dist.ReduceOp.SUM)
+                global_d_numerator = dist_tensor[0].item()
+                global_d_denom = dist_tensor[1].item()
+            else:
+                global_d_numerator = self.d_numerator
+                global_d_denom = self.d_denom
+            d_hat = self.d
+            if global_d_denom > 0:
+                d_hat = d_coef * global_d_numerator / global_d_denom
+                if self.d == g_group['d0']:
+                    self.d = max(self.d, d_hat)
+                d_max = max(d_max, d_hat)
+                self.d = min(d_max, self.d * growth_rate)
+            for group in self.param_groups:
+                group['d_numerator'] = global_d_numerator
+                group['d'] = self.d
+                group['d_max'] = d_max
+        # Increment step counter for all groups, regardless of whether d was updated
         for group in self.param_groups:
-            group['d_numerator'] = global_d_numerator
-            group['d'] = self.d
-            group['d_max'] = d_max
             group['k'] += 1

{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: adv_optm
-Version: 0.1.7
+Version: 0.1.8
 Summary: A family of highly efficient, lightweight yet powerful optimizers.
 Home-page: https://github.com/Koratahiu/Advanced_Optimizers
 Author: Koratahiu

adv_optm-0.1.8.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,19 @@
+adv_optm/__init__.py,sha256=csc19AmU_h7daI3bo4hDVBouMqGiHejfipPIOGFAUQ8,306
+adv_optm/optim/AdamW_adv.py,sha256=Had6kzSBI0eEMiL2yI1wa1nEBoPfgwHQGtnRcDJ8tXI,14078
+adv_optm/optim/Adopt_adv.py,sha256=-iAKhPbEnzdL0Mx96h2BBlJB85TyHdkjULRjWvNbTyY,14833
+adv_optm/optim/Lion_Prodigy_adv.py,sha256=kIAGXoMbDNRg5reKXtUC_vQQ2gyM-NXPB-Pv9zSpiE8,12787
+adv_optm/optim/Lion_adv.py,sha256=05j_j6LIzHW5b79DVwMIf1FZHVNB8xnStNVjlOdVkCE,8256
+adv_optm/optim/Prodigy_adv.py,sha256=U4grKRumzDJRYSI-QHmmZZ7ed_67tyiC3OPSXqJVBx8,21759
+adv_optm/optim/Simplified_AdEMAMix.py,sha256=opIZjnGJ03-DDAIHTZyJBMReVfgusGDb8FZSWMU3-UM,9774
+adv_optm/optim/__init__.py,sha256=pcP865H2j1tut2VfTUhzQh7V8TF_tzPjqFnjMfFed2k,382
+adv_optm/util/BF16_Stochastic_Rounding.py,sha256=Q5H0BcogmE4atP65dLoI21HKSf50lRdsBDfeF6v9Tbg,1548
+adv_optm/util/Effective_Shape.py,sha256=TBvIk1V8IuTbbBsxuekJA4e_v8JlR5Nujtut8RTWAm4,318
+adv_optm/util/NNMF.py,sha256=yRf5IP5Sjq0Uf0DxN0Q8NxEGSdD-f1ULziLVDOjY8K4,639
+adv_optm/util/One_Bit_Boolean.py,sha256=Wat49esdwohuN-OHOFMW8D0aOQgV9cP5Rl8z6yfmpos,1068
+adv_optm/util/OrthoGrad.py,sha256=NzInuBQGy_Ja__M1R9XbvqVaQ0fhGbtGgFE9YON7B3I,707
+adv_optm/util/__init__.py,sha256=qoyIF0jcLjs_vSEcsv36clw5LFNBEbifyXrrVxMH-G4,349
+adv_optm-0.1.8.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
+adv_optm-0.1.8.dist-info/METADATA,sha256=Ydu5_f_d19hoYMf9zvP3eu9ci8XsLWyDuY99JYJVR9o,5846
+adv_optm-0.1.8.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+adv_optm-0.1.8.dist-info/top_level.txt,sha256=iNfBIIzu-lPrQ7jyC56WBCcbkRwitM2nJ15-MRQ_6fg,9
+adv_optm-0.1.8.dist-info/RECORD,,

adv_optm-0.1.7.dist-info/RECORD DELETED Viewed

@@ -1,19 +0,0 @@
-adv_optm/__init__.py,sha256=CZ_tjWWk5d5D8q_R0rcr8vvwlZyY_44zyAcIAmN_SDY,306
-adv_optm/optim/AdamW_adv.py,sha256=ZeNzk2tWbyd2QDI5hp4InwG3iuHHfqLrlhr_VmcQfRM,13884
-adv_optm/optim/Adopt_adv.py,sha256=rzBWfFOPrMuC6vwETsw7QPKmVXcv4IJRDCTj-6eU1Qk,14798
-adv_optm/optim/Lion_Prodigy_adv.py,sha256=JMss9X8lRpIU4E34PfFpWMMal_XNvZ8Yuqc6i7R5wIQ,14588
-adv_optm/optim/Lion_adv.py,sha256=BA4bSEhJiQ7BhGLDRn9nuMlBrLVh-OMscbmSTeGgRmI,10137
-adv_optm/optim/Prodigy_adv.py,sha256=gJL2r32R3xGD62jMR55ZyKxRv0yL70XHxj4FzEJbFc4,20196
-adv_optm/optim/Simplified_AdEMAMix.py,sha256=opIZjnGJ03-DDAIHTZyJBMReVfgusGDb8FZSWMU3-UM,9774
-adv_optm/optim/__init__.py,sha256=pcP865H2j1tut2VfTUhzQh7V8TF_tzPjqFnjMfFed2k,382
-adv_optm/util/BF16_Stochastic_Rounding.py,sha256=Q5H0BcogmE4atP65dLoI21HKSf50lRdsBDfeF6v9Tbg,1548
-adv_optm/util/Effective_Shape.py,sha256=TBvIk1V8IuTbbBsxuekJA4e_v8JlR5Nujtut8RTWAm4,318
-adv_optm/util/NNMF.py,sha256=yRf5IP5Sjq0Uf0DxN0Q8NxEGSdD-f1ULziLVDOjY8K4,639
-adv_optm/util/One_Bit_Boolean.py,sha256=Wat49esdwohuN-OHOFMW8D0aOQgV9cP5Rl8z6yfmpos,1068
-adv_optm/util/OrthoGrad.py,sha256=NzInuBQGy_Ja__M1R9XbvqVaQ0fhGbtGgFE9YON7B3I,707
-adv_optm/util/__init__.py,sha256=qoyIF0jcLjs_vSEcsv36clw5LFNBEbifyXrrVxMH-G4,349
-adv_optm-0.1.7.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
-adv_optm-0.1.7.dist-info/METADATA,sha256=BEKyVG9zVdb9WThOw9YtgWZ_zqDmErumpY5Fr-AkbX0,5846
-adv_optm-0.1.7.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-adv_optm-0.1.7.dist-info/top_level.txt,sha256=iNfBIIzu-lPrQ7jyC56WBCcbkRwitM2nJ15-MRQ_6fg,9
-adv_optm-0.1.7.dist-info/RECORD,,

{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/WHEEL RENAMED Viewed

File without changes

{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{adv_optm-0.1.7.dist-info → adv_optm-0.1.8.dist-info}/top_level.txt RENAMED Viewed

File without changes

adv-optm 0.1.7__py3-none-any.whl → 0.1.8__py3-none-any.whl

Potentially problematic release.

adv-optm 0.1.7py3-none-any.whl → 0.1.8py3-none-any.whl