PyPI - x-transformers - Versions diffs - 2.6.5__tar.gz → 2.6.6__tar.gz - Mend

@@ -176,7 +176,7 @@ class Attend(Module):
         softclamp_logits = False,
         logit_softclamp_value = 50.,
         add_zero_kv = False,
-        head_learned_sinks = 0,
+        head_learned_sink = False,
         selective = False,
         hard = False,
         cope = None,
@@ -257,10 +257,10 @@ class Attend(Module):
         # learned sink concatted pre-softmax, working solution from gpt-oss
-        self.has_head_learned_sinks = head_learned_sinks > 0
-        assert not (self.has_head_learned_sinks and flash), f'not supported for flash attention yet'
+        assert not (head_learned_sink and flash), f'not supported for flash attention yet'
-        self.head_attn_sinks = Parameter(torch.zeros(heads, head_learned_sinks)) if self.has_head_learned_sinks else None
+        self.head_learned_sink = head_learned_sink
+        self.head_attn_sink = Parameter(torch.zeros(heads)) if head_learned_sink else None
         # soft clamp attention logit value
@@ -517,10 +517,9 @@ class Attend(Module):
         if self.selective:
             sim = selective_attn(sim)
-        if self.has_head_learned_sinks:
+        if self.head_learned_sink:
             # add learned attention sink
-            num_sinks = self.head_attn_sinks.shape[-1]
-            attn_sink = repeat(self.head_attn_sinks, 'h sinks -> b h i sinks', b = sim.shape[0], i = sim.shape[2])
+            attn_sink = repeat(self.head_attn_sink, 'h -> b h i 1', b = sim.shape[0], i = sim.shape[2])
             sim = cat((attn_sink, sim), dim = -1)
         pre_softmax_attn = sim
@@ -531,9 +530,9 @@ class Attend(Module):
         post_softmax_attn = attn
-        if self.has_head_learned_sinks:
+        if self.head_learned_sink:
             # remove attention sink
-            attn = attn[..., num_sinks:]
+            attn = attn[..., 1:]
         attn = self.attn_dropout(attn)

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: x-transformers
-Version: 2.6.5
+Version: 2.6.6
 Summary: X-Transformers
 Project-URL: Homepage, https://pypi.org/project/x-transformers/
 Project-URL: Repository, https://github.com/lucidrains/x-transformers

@@ -1,6 +1,6 @@
 [project]
 name = "x-transformers"
-version = "2.6.5"
+version = "2.6.6"
 description = "X-Transformers"
 authors = [
     { name = "Phil Wang", email = "lucidrains@gmail.com" }

@@ -1245,7 +1245,7 @@ def test_learned_head_attn_sink():
             dim = 512,
             depth = 12,
             heads = 8,
-            attn_head_learned_sinks = 4
+            attn_head_learned_sink = True
         )
     )

@@ -1319,7 +1319,7 @@ class Attention(Module):
         value_dim_head = None,
         dim_out = None,
         add_zero_kv = False,         # same as add_zero_attn in pytorch
-        head_learned_sinks = 0,
+        head_learned_sink = False,
         rotate_num_heads = None,
         data_dependent_alibi = False,
         data_dependent_alibi_per_row = False,
@@ -1516,7 +1516,7 @@ class Attention(Module):
             selective = selective,
             custom_attn_fn = custom_attn_fn,
             add_zero_kv = add_zero_kv,
-            head_learned_sinks = head_learned_sinks,
+            head_learned_sink = head_learned_sink,
             flash = flash,
             softclamp_logits = softclamp_logits,
             logit_softclamp_value = logit_softclamp_value,

x-transformers 2.6.5__tar.gz → 2.6.6__tar.gz

x-transformers 2.6.5tar.gz → 2.6.6tar.gz