PyPI - x-transformers - Versions diffs - 1.42.27__tar.gz → 1.42.28__tar.gz - Mend

x-transformers 1.42.27tar.gz → 1.42.28tar.gz

Files changed (22) hide show

{x_transformers-1.42.27/x_transformers.egg-info → x_transformers-1.42.28}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.27
+Version: 1.42.28
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.42.27 → x_transformers-1.42.28}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
   name = 'x-transformers',
   packages = find_packages(exclude=['examples']),
-  version = '1.42.27',
+  version = '1.42.28',
   license='MIT',
   description = 'X-Transformers - Pytorch',
   author = 'Phil Wang',

{x_transformers-1.42.27 → x_transformers-1.42.28}/x_transformers/x_transformers.py RENAMED Viewed

@@ -1077,7 +1077,7 @@ class Attention(Module):
         logit_softclamp_value = 50.,
         neutreno_value_residual = False, # Nguyen et al. https://arxiv.org/abs/2312.00751
         neutreno_alpha = 0.4,
-        learned_value_residual_mix = True,
+        learned_value_residual_mix = False,
         laser = False, # https://arxiv.org/abs/2411.03493v1
         laser_softclamp_value = 15.,
         onnxable = False,
@@ -1584,7 +1584,7 @@ class AttentionLayers(Module):
         unet_skips = False,
         reinject_input = False,              # seen first in DEQ paper https://arxiv.org/abs/1909.01377, but later used in a number of papers trying to achieve depthwise generalization https://arxiv.org/abs/2410.03020v1
         add_value_residual = False,          # resformer from Zhou et al - https://arxiv.org/abs/2410.17897v1
-        learned_value_residual_mix = False,  # seeing big improvements when the value residual mix value is learned per token - credit goes to @faresobeid for taking the first step with learned scalar mix, then @Blinkdl for taking it a step further with data dependent. here we will use per token learned
+        learned_value_residual_mix = True,   # seeing big improvements when the value residual mix value is learned per token - credit goes to @faresobeid for taking the first step with learned scalar mix, then @Blinkdl for taking it a step further with data dependent. here we will use per token learned
         rel_pos_kwargs: dict = dict(),
         **kwargs
     ):

{x_transformers-1.42.27 → x_transformers-1.42.28/x_transformers.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.27
+Version: 1.42.28
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang