PyPI - x-transformers - Versions diffs - 2.6.3__py3-none-any.whl → 2.6.5__py3-none-any.whl - Mend

x-transformers 2.6.3py3-none-any.whl → 2.6.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

x_transformers/attend.py CHANGED Viewed

@@ -4,8 +4,8 @@ from functools import partial
 from typing import Tuple, Callable
 import torch
-from torch.nn import Module
-from torch import nn, einsum, Tensor
+from torch.nn import Module, Parameter
+from torch import cat, nn, einsum, Tensor
 import torch.nn.functional as F
 from collections import namedtuple
@@ -176,6 +176,7 @@ class Attend(Module):
         softclamp_logits = False,
         logit_softclamp_value = 50.,
         add_zero_kv = False,
+        head_learned_sinks = 0,
         selective = False,
         hard = False,
         cope = None,
@@ -254,6 +255,13 @@ class Attend(Module):
         self.add_zero_kv = add_zero_kv
+        # learned sink concatted pre-softmax, working solution from gpt-oss
+        self.has_head_learned_sinks = head_learned_sinks > 0
+        assert not (self.has_head_learned_sinks and flash), f'not supported for flash attention yet'
+        self.head_attn_sinks = Parameter(torch.zeros(heads, head_learned_sinks)) if self.has_head_learned_sinks else None
         # soft clamp attention logit value
         if softclamp_logits:
@@ -315,10 +323,10 @@ class Attend(Module):
         if self.l2_distance:
             k_norm_sq = k.norm(dim = -1, keepdim = True) ** 2
             k = F.pad(k, (0, 1), value = -1.)
-            k = torch.cat((k, k_norm_sq), dim = -1)
+            k = cat((k, k_norm_sq), dim = -1)
             q_norm_sq = q.norm(dim = -1, keepdim = True) ** 2
-            q = torch.cat((2 * q, q_norm_sq), dim = -1)
+            q = cat((2 * q, q_norm_sq), dim = -1)
             q = F.pad(q, (0, 1), value = -1.)
         # handle scale - by default they scale by dim_head ** -0.5, but need to take care if using cosine sim attention
@@ -509,6 +517,12 @@ class Attend(Module):
         if self.selective:
             sim = selective_attn(sim)
+        if self.has_head_learned_sinks:
+            # add learned attention sink
+            num_sinks = self.head_attn_sinks.shape[-1]
+            attn_sink = repeat(self.head_attn_sinks, 'h sinks -> b h i sinks', b = sim.shape[0], i = sim.shape[2])
+            sim = cat((attn_sink, sim), dim = -1)
         pre_softmax_attn = sim
         attn = self.attn_fn(sim)
@@ -517,6 +531,10 @@ class Attend(Module):
         post_softmax_attn = attn
+        if self.has_head_learned_sinks:
+            # remove attention sink
+            attn = attn[..., num_sinks:]
         attn = self.attn_dropout(attn)
         if exists(self.post_softmax_talking_heads):

x_transformers/x_transformers.py CHANGED Viewed

@@ -1319,6 +1319,7 @@ class Attention(Module):
         value_dim_head = None,
         dim_out = None,
         add_zero_kv = False,         # same as add_zero_attn in pytorch
+        head_learned_sinks = 0,
         rotate_num_heads = None,
         data_dependent_alibi = False,
         data_dependent_alibi_per_row = False,
@@ -1515,6 +1516,7 @@ class Attention(Module):
             selective = selective,
             custom_attn_fn = custom_attn_fn,
             add_zero_kv = add_zero_kv,
+            head_learned_sinks = head_learned_sinks,
             flash = flash,
             softclamp_logits = softclamp_logits,
             logit_softclamp_value = logit_softclamp_value,

{x_transformers-2.6.3.dist-info → x_transformers-2.6.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: x-transformers
-Version: 2.6.3
+Version: 2.6.5
 Summary: X-Transformers
 Project-URL: Homepage, https://pypi.org/project/x-transformers/
 Project-URL: Repository, https://github.com/lucidrains/x-transformers
@@ -2507,4 +2507,14 @@ ids_out, num_out, is_number_mask = model.generate(start_ids, start_nums, 17)
 }
 ```
+```bibtex
+@misc{openai_gpt_oss,
+  author       = {OpenAI},
+  title        = {Introducing gpt-oss},
+  howpublished = {https://openai.com/index/introducing-gpt-oss},
+  month        = {August},
+  year         = {2025}
+}
+```
 *solve intelligence... then use that to solve everything else.* - Demis Hassabis

{x_transformers-2.6.3.dist-info → x_transformers-2.6.5.dist-info}/RECORD RENAMED Viewed

@@ -1,5 +1,5 @@
 x_transformers/__init__.py,sha256=aVuhUU0572TJHW88BVc4yA2tla0Zb8l3NH7W4RZ1AEs,1005
-x_transformers/attend.py,sha256=Ax34Rw56xXAWfFPqtZ_B8iKEW2EfQdbVoc9uFjfeNjA,17404
+x_transformers/attend.py,sha256=DX_qrDkz98Db0eNapbzciJbVp5dsWIFWdpv2LUfebJs,18223
 x_transformers/autoregressive_wrapper.py,sha256=BsGO9xfVYkvynqbU1__tu_S_cxl7gss0YwnkhIa2baY,18401
 x_transformers/belief_state_wrapper.py,sha256=YLUMk6t2MhFBEw5lHDDHJHcoCxTIkHvxTNY__GGZEKU,13374
 x_transformers/continuous.py,sha256=hpb1sSbt3k2LNzzjrjSd8F5xOIbKj7IluV9MBEAFLkw,13031
@@ -9,10 +9,10 @@ x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
 x_transformers/up_wrapper.py,sha256=YC2LN14_7Xx9Wtiek2rtEJ_qHqdfSmKlh3d7Cgxwd80,7073
-x_transformers/x_transformers.py,sha256=B7dv_LuzODwCrTsfDnp28g-_lMnirQE3gteQwSGyW5k,122100
+x_transformers/x_transformers.py,sha256=F_ZR9jysYmkbqKvsZmzXqOP3VznVeivXVOstAwKIdPU,122185
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=AwwYUm8yDAtKQyKJDIhYMsiLTJ_skh3scUFMjp5sda8,8597
-x_transformers-2.6.3.dist-info/METADATA,sha256=DaTrEChlXc_zpUXv-Jw3A4ca4aon0Ons7wl4-wj1XzY,90223
-x_transformers-2.6.3.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-x_transformers-2.6.3.dist-info/licenses/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-2.6.3.dist-info/RECORD,,
+x_transformers-2.6.5.dist-info/METADATA,sha256=yMl0MlBbo7D9dOu_cBQz38iJQ3a6F8PlaPCo5RQXrSA,90445
+x_transformers-2.6.5.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+x_transformers-2.6.5.dist-info/licenses/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-2.6.5.dist-info/RECORD,,

{x_transformers-2.6.3.dist-info → x_transformers-2.6.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{x_transformers-2.6.3.dist-info → x_transformers-2.6.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

x-transformers 2.6.3__py3-none-any.whl → 2.6.5__py3-none-any.whl

x-transformers 2.6.3py3-none-any.whl → 2.6.5py3-none-any.whl