PyPI - x-transformers - Versions diffs - 1.42.18__py3-none-any.whl → 1.42.20__py3-none-any.whl - Mend

x-transformers 1.42.18py3-none-any.whl → 1.42.20py3-none-any.whl

Files changed (7) hide show

x_transformers/attend.py CHANGED Viewed

@@ -370,7 +370,7 @@ class Attend(Module):
         # convert from bool to float
         if exists(attn_bias):
-            attn_bias = rearrange(attn_bias, 'h i j -> 1 h i j').expand(batch, heads, -1, -1)
+            attn_bias = attn_bias.expand(batch, heads, -1, -1)
             # if mask given, the mask would already contain the causal mask from above logic
             # otherwise, if no mask given but still causal, mask out alibi positional bias to a large negative number

x_transformers/x_transformers.py CHANGED Viewed

@@ -1075,6 +1075,7 @@ class Attention(Module):
         neutreno_value_residual = False, # Nguyen et al. https://arxiv.org/abs/2312.00751
         neutreno_alpha = 0.4,
         learned_value_residual_mix = False,
+        laser = False, # https://arxiv.org/abs/2411.03493v1
         onnxable = False,
         attend_sdp_kwargs: dict = dict(
             enable_flash = True,
@@ -1114,6 +1115,11 @@ class Attention(Module):
         assert not (shared_kv and value_dim_head != dim_head), 'key and value head dimensions must be equal for shared key / values'
         self.to_v = LinearNoBias(dim_kv, v_dim) if not shared_kv else None
+        # enhancing gradients to attention through exponentiated values
+        # todo - compare it to `attn = attn * large_value + attn.detach() * (1. - large_value)`
+        self.laser = laser
         # relations projection from tp-attention
         self.to_r = LinearNoBias(dim, v_dim) if tensor_product else None
@@ -1439,6 +1445,11 @@ class Attention(Module):
             attn_bias = pad_at_dim(attn_bias, (num_mem_kv, 0))
+        if self.laser:
+            values_max = v.amax(dim = -2, keepdim = True).detach() # numerical stability
+            v = v - values_max
+            v = v.exp()
         # attention is all we need
         out, intermediates = self.attend(
@@ -1448,6 +1459,11 @@ class Attention(Module):
             prev_attn = prev_attn
         )
+        # laser
+        if self.laser:
+            out = out.log() + values_max
         # store the values for resformer or Neutreno
         intermediates.values = orig_values

{x_transformers-1.42.18.dist-info → x_transformers-1.42.20.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.18
+Version: 1.42.20
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.42.18.dist-info → x_transformers-1.42.20.dist-info}/RECORD RENAMED Viewed

@@ -1,16 +1,16 @@
 x_transformers/__init__.py,sha256=l0dom8ZYkRzFvnDdgzDboXqrI1tKav3beVE7TN2nHko,844
-x_transformers/attend.py,sha256=SdWlV8Vp5DtpsOzAd0LRhm4VGrJf0lJCGiV2_j_CtoA,17284
+x_transformers/attend.py,sha256=-5BWWhFsp7tvZTdN91Ay5SqOjyj9uOs-122vFvoO6b4,17253
 x_transformers/autoregressive_wrapper.py,sha256=reLCno9Z9pchVU79tBF8OMo21LwSZ67KAeB83jqkyAc,10505
 x_transformers/continuous.py,sha256=p0sCAiH1na236ygwgL1Yyhu36eZBf9cZvoW1JyP_fFE,7073
 x_transformers/dpo.py,sha256=xt4OuOWhU8pN3OKN2LZAaC2NC8iiEnchqqcrPWVqf0o,3521
 x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
-x_transformers/x_transformers.py,sha256=pFVTmAoAbrir7YjTwzC3X2buRSm7PFnWqYyTYePA8Es,95486
+x_transformers/x_transformers.py,sha256=pDYtIGhoo-lFn_ULJETnQz1Z0QYuDsD4ReTlPy__jwo,95993
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=7S00kCuab4tWQa-vf-z-XfzADjVj48MoFIr7VSIvttg,8575
-x_transformers-1.42.18.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.42.18.dist-info/METADATA,sha256=v9YlgCULHqvWhTC3bViadNngzfiyYkzrQa6XRZ0uDa4,739
-x_transformers-1.42.18.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
-x_transformers-1.42.18.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.42.18.dist-info/RECORD,,
+x_transformers-1.42.20.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.42.20.dist-info/METADATA,sha256=J0yBEg7oUfbkJaC3WxfB9Oq4XbGxXA5VjUGd9AHELGk,739
+x_transformers-1.42.20.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+x_transformers-1.42.20.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.42.20.dist-info/RECORD,,

{x_transformers-1.42.18.dist-info → x_transformers-1.42.20.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.42.18.dist-info → x_transformers-1.42.20.dist-info}/WHEEL RENAMED Viewed

File without changes

{x_transformers-1.42.18.dist-info → x_transformers-1.42.20.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.42.18__py3-none-any.whl → 1.42.20__py3-none-any.whl

x-transformers 1.42.18py3-none-any.whl → 1.42.20py3-none-any.whl