PyPI - x-transformers - Versions diffs - 1.42.12__py3-none-any.whl → 1.42.15__py3-none-any.whl - Mend

x-transformers 1.42.12py3-none-any.whl → 1.42.15py3-none-any.whl

Files changed (6) hide show

x_transformers/x_transformers.py CHANGED Viewed

@@ -1072,6 +1072,7 @@ class Attention(Module):
         logit_softclamp_value = 50.,
         neutreno_value_residual = False, # Nguyen et al. https://arxiv.org/abs/2312.00751
         neutreno_alpha = 0.4,
+        learned_value_residual_mix = False,
         onnxable = False,
         attend_sdp_kwargs: dict = dict(
             enable_flash = True,
@@ -1231,6 +1232,14 @@ class Attention(Module):
             self.mem_k = nn.Parameter(torch.randn(kv_heads, num_mem_kv, dim_head))
             self.mem_v = nn.Parameter(torch.randn(kv_heads, num_mem_kv, dim_head))
+        # maybe learned value residual mixer per token
+        self.to_value_residual_mix = nn.Sequential(
+            nn.Linear(dim, 1),
+            nn.Sigmoid(),
+            Rearrange('b n 1 -> b 1 n 1')
+         ) if learned_value_residual_mix else always(0.5)
         # attention on attention
         self.attn_on_attn = on_attn
@@ -1303,7 +1312,8 @@ class Attention(Module):
                 diff_values = repeat(diff_values, 'b h n d -> b (r h) n d', r = h // kv_h)
             else:
                 # https://arxiv.org/abs/2410.17897v1
-                v = 0.5 * (v + value_residual)
+                value_residual_mix = self.to_value_residual_mix(q_input)
+                v = v * value_residual_mix + value_residual * (1. - value_residual_mix)
         # take care of caching
@@ -1541,8 +1551,9 @@ class AttentionLayers(Module):
         use_layerscale = False,
         layerscale_init_value = 0.,
         unet_skips = False,
-        reinject_input = False,         # seen first in DEQ paper https://arxiv.org/abs/1909.01377, but later used in a number of papers trying to achieve depthwise generalization https://arxiv.org/abs/2410.03020v1
-        add_value_residual = False,     # resformer from Zhou et al - https://arxiv.org/abs/2410.17897v1
+        reinject_input = False,              # seen first in DEQ paper https://arxiv.org/abs/1909.01377, but later used in a number of papers trying to achieve depthwise generalization https://arxiv.org/abs/2410.03020v1
+        add_value_residual = False,          # resformer from Zhou et al - https://arxiv.org/abs/2410.17897v1
+        learned_value_residual_mix = False,  # seeing big improvements when the value residual mix value is learned per token - credit goes to @faresobeid for taking the first step with learned scalar mix, then @Blinkdl for taking it a step further with data dependent. here we will use per token learned
         rel_pos_kwargs: dict = dict(),
         **kwargs
     ):
@@ -1786,6 +1797,10 @@ class AttentionLayers(Module):
         self.add_value_residual = add_value_residual
+        is_first_self_attn = True
+        is_first_cross_attn = True
+        learned_value_residual_mix &= add_value_residual
         # iterate and construct layers
         for ind, (layer_type, layer_shift_tokens) in enumerate(zip(self.layer_types, shift_tokens)):
@@ -1801,9 +1816,13 @@ class AttentionLayers(Module):
             # attention, cross attention, feedforward
             if layer_type == 'a':
-                layer = Attention(dim, heads = heads, causal = causal, **attn_kwargs)
+                self_attn_learned_value_residual = learned_value_residual_mix and not is_first_self_attn
+                layer = Attention(dim, heads = heads, causal = causal, learned_value_residual_mix = self_attn_learned_value_residual, **attn_kwargs)
+                is_first_self_attn = False
             elif layer_type == 'c':
-                layer = Attention(dim, heads = heads, **{**attn_kwargs, **cross_attn_kwargs})
+                cross_attn_learned_value_residual = learned_value_residual_mix and not is_first_cross_attn
+                layer = Attention(dim, heads = heads, learned_value_residual_mix = cross_attn_learned_value_residual, **{**attn_kwargs, **cross_attn_kwargs})
+                is_first_cross_attn = False
             elif layer_type == 'f':
                 layer = FeedForward(dim, **ff_kwargs)
                 layer = layer if not macaron else Scale(0.5, layer)

{x_transformers-1.42.12.dist-info → x_transformers-1.42.15.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.12
+Version: 1.42.15
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang
@@ -14,8 +14,7 @@ Classifier: License :: OSI Approved :: MIT License
 Classifier: Programming Language :: Python :: 3.6
 Description-Content-Type: text/markdown
 License-File: LICENSE
-Requires-Dist: torch >=2.0
-Requires-Dist: einx >=0.3.0
-Requires-Dist: einops >=0.8.0
-Requires-Dist: packaging >=21.0
+Requires-Dist: torch>=2.0
+Requires-Dist: einx>=0.3.0
+Requires-Dist: einops>=0.8.0
+Requires-Dist: packaging>=21.0

{x_transformers-1.42.12.dist-info → x_transformers-1.42.15.dist-info}/RECORD RENAMED Viewed

@@ -6,11 +6,11 @@ x_transformers/dpo.py,sha256=xt4OuOWhU8pN3OKN2LZAaC2NC8iiEnchqqcrPWVqf0o,3521
 x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
-x_transformers/x_transformers.py,sha256=VxdA44EYQhVH1Rp7wreJ83I2e0Ea7VN_bFRE-iDXOI8,93833
+x_transformers/x_transformers.py,sha256=-gi7UiCRdp-5y34cUJEMk7uFSi-I7khXxON1gErAKbY,95125
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=7S00kCuab4tWQa-vf-z-XfzADjVj48MoFIr7VSIvttg,8575
-x_transformers-1.42.12.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.42.12.dist-info/METADATA,sha256=fC5MiH_nobMaDrmS3CsSAdQEiBXYxJes18Y9GR8L2Ig,722
-x_transformers-1.42.12.dist-info/WHEEL,sha256=R06PA3UVYHThwHvxuRWMqaGcr-PuniXahwjmQRFMEkY,91
-x_transformers-1.42.12.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.42.12.dist-info/RECORD,,
+x_transformers-1.42.15.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.42.15.dist-info/METADATA,sha256=zqzIQ3mdFjs4WV7IgTu4YYEmFM-6GKWast8twY4__Tg,717
+x_transformers-1.42.15.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+x_transformers-1.42.15.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.42.15.dist-info/RECORD,,

{x_transformers-1.42.12.dist-info → x_transformers-1.42.15.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (75.5.0)
+Generator: setuptools (75.6.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

{x_transformers-1.42.12.dist-info → x_transformers-1.42.15.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.42.12.dist-info → x_transformers-1.42.15.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.42.12__py3-none-any.whl → 1.42.15__py3-none-any.whl

x-transformers 1.42.12py3-none-any.whl → 1.42.15py3-none-any.whl