PyPI - x-transformers - Versions diffs - 1.42.18__tar.gz → 1.42.20__tar.gz - Mend

x-transformers 1.42.18tar.gz → 1.42.20tar.gz

Files changed (22) hide show

{x_transformers-1.42.18/x_transformers.egg-info → x_transformers-1.42.20}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.18
+Version: 1.42.20
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.42.18 → x_transformers-1.42.20}/README.md RENAMED Viewed

@@ -2352,4 +2352,13 @@ ids_out, num_out, is_number_mask = model.generate(start_ids, start_nums, 17)
 }
 ```
+```bibtex
+@inproceedings{Duvvuri2024LASERAW,
+    title   = {LASER: Attention with Exponential Transformation},
+    author  = {Sai Surya Duvvuri and Inderjit S. Dhillon},
+    year    = {2024},
+    url     = {https://api.semanticscholar.org/CorpusID:273849947}
+}
+```
 *solve intelligence... then use that to solve everything else.* - Demis Hassabis

{x_transformers-1.42.18 → x_transformers-1.42.20}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
   name = 'x-transformers',
   packages = find_packages(exclude=['examples']),
-  version = '1.42.18',
+  version = '1.42.20',
   license='MIT',
   description = 'X-Transformers - Pytorch',
   author = 'Phil Wang',

{x_transformers-1.42.18 → x_transformers-1.42.20}/tests/test_x_transformers.py RENAMED Viewed

@@ -388,7 +388,8 @@ def test_neo_mlp():
     out = mlp(x)
     assert out.shape == (3, 7)
-def test_custom_alibi():
+@pytest.mark.parametrize('flash', (True, False))
+def test_custom_alibi(flash: bool):
     model = TransformerWrapper(
         num_tokens = 20_000,
@@ -397,7 +398,8 @@ def test_custom_alibi():
             dim = 512,
             depth = 2,
             heads = 8,
-            alibi_pos_bias = True
+            alibi_pos_bias = True,
+            attn_flash = flash
         )
     )
@@ -407,7 +409,8 @@ def test_custom_alibi():
     logits = model(x, pos = pos)
-def test_custom_alibi_across_heads():
+@pytest.mark.parametrize('flash', (True, False))
+def test_custom_alibi_across_heads(flash: bool):
     model = Decoder(
         dim = 512,
@@ -417,6 +420,7 @@ def test_custom_alibi_across_heads():
         rel_pos_kwargs = dict(
             slopes = [1, 1]
         ),
+        attn_flash = flash
     )
     x = torch.randn(2, 4, 512)
@@ -516,3 +520,19 @@ def test_to_logits(to_logits):
     output = model(x, to_logits_kwargs=to_logits_kwargs)
     assert output.shape == (2, 1024, 20000)
+def test_laser():
+    model = TransformerWrapper(
+        num_tokens = 20000,
+        max_seq_len = 1024,
+        attn_layers = Decoder(
+            dim = 128,
+            depth = 6,
+            heads = 8,
+            attn_laser = True
+        )
+    )
+    x = torch.randint(0, 20000, (2, 1024))
+    model(x)

{x_transformers-1.42.18 → x_transformers-1.42.20}/x_transformers/attend.py RENAMED Viewed

@@ -370,7 +370,7 @@ class Attend(Module):
         # convert from bool to float
         if exists(attn_bias):
-            attn_bias = rearrange(attn_bias, 'h i j -> 1 h i j').expand(batch, heads, -1, -1)
+            attn_bias = attn_bias.expand(batch, heads, -1, -1)
             # if mask given, the mask would already contain the causal mask from above logic
             # otherwise, if no mask given but still causal, mask out alibi positional bias to a large negative number

{x_transformers-1.42.18 → x_transformers-1.42.20}/x_transformers/x_transformers.py RENAMED Viewed

@@ -1075,6 +1075,7 @@ class Attention(Module):
         neutreno_value_residual = False, # Nguyen et al. https://arxiv.org/abs/2312.00751
         neutreno_alpha = 0.4,
         learned_value_residual_mix = False,
+        laser = False, # https://arxiv.org/abs/2411.03493v1
         onnxable = False,
         attend_sdp_kwargs: dict = dict(
             enable_flash = True,
@@ -1114,6 +1115,11 @@ class Attention(Module):
         assert not (shared_kv and value_dim_head != dim_head), 'key and value head dimensions must be equal for shared key / values'
         self.to_v = LinearNoBias(dim_kv, v_dim) if not shared_kv else None
+        # enhancing gradients to attention through exponentiated values
+        # todo - compare it to `attn = attn * large_value + attn.detach() * (1. - large_value)`
+        self.laser = laser
         # relations projection from tp-attention
         self.to_r = LinearNoBias(dim, v_dim) if tensor_product else None
@@ -1439,6 +1445,11 @@ class Attention(Module):
             attn_bias = pad_at_dim(attn_bias, (num_mem_kv, 0))
+        if self.laser:
+            values_max = v.amax(dim = -2, keepdim = True).detach() # numerical stability
+            v = v - values_max
+            v = v.exp()
         # attention is all we need
         out, intermediates = self.attend(
@@ -1448,6 +1459,11 @@ class Attention(Module):
             prev_attn = prev_attn
         )
+        # laser
+        if self.laser:
+            out = out.log() + values_max
         # store the values for resformer or Neutreno
         intermediates.values = orig_values

{x_transformers-1.42.18 → x_transformers-1.42.20/x_transformers.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.18
+Version: 1.42.20
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang