PyPI - adv-optm - Versions diffs - 1.2.dev18__py3-none-any.whl → 1.2.dev19__py3-none-any.whl - Mend

adv-optm 1.2.dev18py3-none-any.whl → 1.2.dev19py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of adv-optm might be problematic. Click here for more details.

Files changed (8) hide show

adv_optm/__init__.py CHANGED Viewed

@@ -20,4 +20,4 @@ __all__ = [
     "AdaMuon_adv",
 ]
-__version__ = "1.2.dev18"
+__version__ = "1.2.dev19"

adv_optm/optim/AdaMuon_adv.py CHANGED Viewed

@@ -351,11 +351,7 @@ class AdaMuon_adv(torch.optim.Optimizer):
                 mean_squared_update = torch.mean(update.square(), dim=1)
                 v_t.mul_(beta2).add_(mean_squared_update, alpha=1 - beta2)
                 # Normalize update
-                if group['use_atan2']:
-                    a = 1.2732395
-                    update.atan2_(v_t.sqrt().unsqueeze(1)).mul_(a)
-                else:
-                    update.div_(v_t.sqrt().unsqueeze(1).add_(group['eps']))
+                update.div_(v_t.sqrt().unsqueeze(1).add_(group['eps']))
                 # Scale learning rate
                 update_norm = torch.linalg.vector_norm(update)
                 scaled_lr = group['rms_target'] * lr * (p.numel()**0.5) / update_norm.add_(group['eps'])
@@ -460,11 +456,7 @@ class AdaMuon_adv(torch.optim.Optimizer):
                     mean_squared_update = torch.mean(update.square(), dim=1)
                     v_t.mul_(beta2).add_(mean_squared_update, alpha=1 - beta2)
                     # Normalize update
-                    if group['use_atan2']:
-                        a = 1.2732395
-                        update.atan2_(v_t.sqrt().unsqueeze(1)).mul_(a)
-                    else:
-                        update.div_(v_t.sqrt().unsqueeze(1).add_(group['eps']))
+                    update.div_(v_t.sqrt().unsqueeze(1).add_(group['eps']))
                     # Scale learning rate
                     update_norm = torch.linalg.vector_norm(update)
                     scaled_lr = group['rms_target'] * lr * (p.numel()**0.5) / update_norm.add_(group['eps'])

adv_optm/optim/Muon_adv.py CHANGED Viewed

@@ -60,7 +60,6 @@ class Muon_adv(torch.optim.Optimizer):
         normuon_eps (float): Epsilon for NorMuon normalization stability. (default: 1e-8)
         normuon_lr_scale (float): Scaling factor for the NorMuon learning rate.
             (default: 0.2)
-        normuon_atan2 (bool): whether to use the atan2 for NorMuon. (default: False)
         accelerated_ns (bool): If True, enables Chebyshev-accelerated Newton-Schulz, which
             dynamically calculates optimal 3rd-order polynomial coefficients. (default: False)
         cns_a_bound (float): Initial lower bound for singular values for CANS. (default: 1e-4)
@@ -105,7 +104,6 @@ class Muon_adv(torch.optim.Optimizer):
         beta2_normuon: float = 0.95,
         normuon_eps: float = 1e-8,
         normuon_lr_scale: float = 0.2,
-        normuon_atan2: bool = False,
         # CANS
         accelerated_ns: bool = False,
         cns_a_bound: float = 1e-4,
@@ -158,7 +156,6 @@ class Muon_adv(torch.optim.Optimizer):
             # NorMuon
             "normuon_variant": normuon_variant, "beta2_normuon": beta2_normuon,
             "normuon_eps": normuon_eps, "normuon_lr_scale": normuon_lr_scale,
-            "normuon_atan2": normuon_atan2,
             # CANS
             "accelerated_ns": accelerated_ns, "cns_a_bound": cns_a_bound,
             # AdamW_adv defaults
@@ -366,11 +363,7 @@ class Muon_adv(torch.optim.Optimizer):
                 mean_squared_update = torch.mean(update.square(), dim=1)
                 v_t.mul_(beta2_normuon).add_(mean_squared_update, alpha=1 - beta2_normuon)
                 # Normalize update
-                if group['normuon_atan2']:
-                    a = 1.2732395
-                    update.atan2_(v_t.sqrt().unsqueeze(1)).mul_(a)
-                else:
-                    update.div_(v_t.sqrt().unsqueeze(1).add_(group['normuon_eps']))
+                update.div_(v_t.sqrt().unsqueeze(1).add_(group['normuon_eps']))
                 # Scale learning rate
                 update_norm = torch.linalg.vector_norm(update)
@@ -471,11 +464,7 @@ class Muon_adv(torch.optim.Optimizer):
                     mean_squared_update = torch.mean(update.square(), dim=1)
                     v_t.mul_(beta2_normuon).add_(mean_squared_update, alpha=1 - beta2_normuon)
                     # Normalize update
-                    if group['normuon_atan2']:
-                        a = 1.2732395
-                        update.atan2_(v_t.sqrt().unsqueeze(1)).mul_(a)
-                    else:
-                        update.div_(v_t.sqrt().unsqueeze(1).add_(group['normuon_eps']))
+                    update.div_(v_t.sqrt().unsqueeze(1).add_(group['normuon_eps']))
                     # Scale learning rate
                     update_norm = torch.linalg.vector_norm(update)
                     scaled_lr = group['normuon_lr_scale'] * lr * (p.numel()**0.5) / update_norm.add_(group['normuon_eps'])

{adv_optm-1.2.dev18.dist-info → adv_optm-1.2.dev19.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: adv_optm
-Version: 1.2.dev18
+Version: 1.2.dev19
 Summary: A family of highly efficient, lightweight yet powerful optimizers.
 Home-page: https://github.com/Koratahiu/Advanced_Optimizers
 Author: Koratahiu

{adv_optm-1.2.dev18.dist-info → adv_optm-1.2.dev19.dist-info}/RECORD RENAMED Viewed

@@ -1,10 +1,10 @@
-adv_optm/__init__.py,sha256=1UzgEkreoqaobiwUZ8yR-8Fnda7T7XiHQ4PhJKQocy4,380
-adv_optm/optim/AdaMuon_adv.py,sha256=VpNsw2CnU8bZThj9cJJ6HGIATPxv4VkIf3xTsUMXQAY,35027
+adv_optm/__init__.py,sha256=1AKxG--scx5Bl9G08tQcnfzAMaQVSgmW99uy3v2QWMw,380
+adv_optm/optim/AdaMuon_adv.py,sha256=7Had92OcsCiN1E9UJRyrpPV7VzHqmIvS-qM6OEcc24I,34671
 adv_optm/optim/AdamW_adv.py,sha256=jgMuRAfsnUh_2wUEZgYpJX5uwoT_kQjtMs2Xn2vJ3x0,17480
 adv_optm/optim/Adopt_adv.py,sha256=kbAeBG4bXWBvgj_qrE9W67J6c0swpEi4Erj2rfYrMXE,21252
 adv_optm/optim/Lion_Prodigy_adv.py,sha256=LEA3UYJpPeFnmxeniLNv1u2LKKj4ufx3Bq_MLw-nWXk,14617
 adv_optm/optim/Lion_adv.py,sha256=aGNAplZlyXYgVllYcV_s4bK8iC4fv6EizFoWIMNLdBc,8299
-adv_optm/optim/Muon_adv.py,sha256=0D4k8UfMSzITJwQEDfqpceD5H7HQvv0f8uyVKvdvkHo,33704
+adv_optm/optim/Muon_adv.py,sha256=tZY8K3pNBCGk1V09GbK05lJooFw92NfkF7_T548up3Q,33171
 adv_optm/optim/Prodigy_adv.py,sha256=k7f2J_RQpnrUXjwER_XOokISlQWpTSwGG-OL-bjMfBk,26061
 adv_optm/optim/Simplified_AdEMAMix.py,sha256=nEIA3yM11nBooKzHudB5l3x4UdFRBYRwiKVUkGmO0K8,12971
 adv_optm/optim/__init__.py,sha256=hpUWE6CKtt_rvMdgQVb3PtjhfZAvAxTq6hp8H8rIpBo,489
@@ -16,8 +16,8 @@ adv_optm/util/Newton_Schulz.py,sha256=bBboYw_jm5_FMf0Citl79uqNedkHOTjQnUI7rZgLBm
 adv_optm/util/One_Bit_Boolean.py,sha256=Wat49esdwohuN-OHOFMW8D0aOQgV9cP5Rl8z6yfmpos,1068
 adv_optm/util/OrthoGrad.py,sha256=NzInuBQGy_Ja__M1R9XbvqVaQ0fhGbtGgFE9YON7B3I,707
 adv_optm/util/__init__.py,sha256=CXzS703GB4gil85khZi7sgKOnbzXGBOltshIOSPqj18,435
-adv_optm-1.2.dev18.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
-adv_optm-1.2.dev18.dist-info/METADATA,sha256=cfQdGhiRlf_-xnPKqwuCE8PR6faLYx_RC6MrkjYDqI8,14023
-adv_optm-1.2.dev18.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-adv_optm-1.2.dev18.dist-info/top_level.txt,sha256=iNfBIIzu-lPrQ7jyC56WBCcbkRwitM2nJ15-MRQ_6fg,9
-adv_optm-1.2.dev18.dist-info/RECORD,,
+adv_optm-1.2.dev19.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
+adv_optm-1.2.dev19.dist-info/METADATA,sha256=pQm5WuMKvf5Xse10viziVK9ry1UufcYRDwOd55jad8Y,14023
+adv_optm-1.2.dev19.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+adv_optm-1.2.dev19.dist-info/top_level.txt,sha256=iNfBIIzu-lPrQ7jyC56WBCcbkRwitM2nJ15-MRQ_6fg,9
+adv_optm-1.2.dev19.dist-info/RECORD,,

{adv_optm-1.2.dev18.dist-info → adv_optm-1.2.dev19.dist-info}/WHEEL RENAMED Viewed

File without changes

{adv_optm-1.2.dev18.dist-info → adv_optm-1.2.dev19.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{adv_optm-1.2.dev18.dist-info → adv_optm-1.2.dev19.dist-info}/top_level.txt RENAMED Viewed

File without changes

adv-optm 1.2.dev18__py3-none-any.whl → 1.2.dev19__py3-none-any.whl

Potentially problematic release.

adv-optm 1.2.dev18py3-none-any.whl → 1.2.dev19py3-none-any.whl