PyPI - x-transformers - Versions diffs - 1.42.15__tar.gz → 1.42.17__tar.gz - Mend

x-transformers 1.42.15tar.gz → 1.42.17tar.gz

Files changed (22) hide show

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.15
+Version: 1.42.17
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
   name = 'x-transformers',
   packages = find_packages(exclude=['examples']),
-  version = '1.42.15',
+  version = '1.42.17',
   license='MIT',
   description = 'X-Transformers - Pytorch',
   author = 'Phil Wang',

@@ -352,7 +352,10 @@ def test_value_residual(
     model(x)
-def test_forgetting_transformer():
+@pytest.mark.parametrize('has_num_mem_kv', (False, True))
+def test_forgetting_transformer(
+    has_num_mem_kv: bool
+):
     model = TransformerWrapper(
         num_tokens = 20000,
@@ -361,7 +364,8 @@ def test_forgetting_transformer():
             dim = 128,
             depth = 6,
             heads = 8,
-            attn_data_dependent_alibi = False
+            attn_num_mem_kv = 1 if has_num_mem_kv else 0,
+            attn_data_dependent_alibi = True
         )
     )

@@ -1235,9 +1235,9 @@ class Attention(Module):
         # maybe learned value residual mixer per token
         self.to_value_residual_mix = nn.Sequential(
-            nn.Linear(dim, 1),
+            nn.Linear(dim, heads),
             nn.Sigmoid(),
-            Rearrange('b n 1 -> b 1 n 1')
+            Rearrange('b n h -> b h n 1')
          ) if learned_value_residual_mix else always(0.5)
         # attention on attention
@@ -1428,13 +1428,15 @@ class Attention(Module):
             else:
                 attn_bias = rel_pos(i, j)
-            attn_bias = pad_at_dim(attn_bias, (num_mem_kv, 0), value = 0.) # handle memory key / values
+            attn_bias = pad_at_dim(attn_bias, (num_mem_kv, 0)) # handle memory key / values
         # prepare data dependent alibi from forgetting transformers paper, if needed
         if exists(self.data_dependent_alibi):
             attn_bias = self.data_dependent_alibi(x)
+            attn_bias = pad_at_dim(attn_bias, (num_mem_kv, 0))
         # attention is all we need
         out, intermediates = self.attend(

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.15
+Version: 1.42.17
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang