PyPI - x-transformers - Versions diffs - 1.43.5__py3-none-any.whl → 1.44.0__py3-none-any.whl - Mend

x-transformers 1.43.5py3-none-any.whl → 1.44.0py3-none-any.whl

Files changed (6) hide show

x_transformers/x_transformers.py CHANGED Viewed

@@ -2,6 +2,7 @@ from __future__ import annotations
 from typing import Callable
 import math
+from copy import deepcopy
 from random import random, randrange
 from packaging import version
@@ -1136,6 +1137,7 @@ class Attention(Module):
         sigmoid = False,
         selective = False,
         custom_attn_fn: Callable | None = None,
+        hybrid_module: Module | None = None,
         one_kv_head = False,
         kv_heads = None,
         shared_kv = False,
@@ -1335,6 +1337,10 @@ class Attention(Module):
         self.attn_on_attn = on_attn
+        # hybrid module, in same vein as hymba https://www.arxiv.org/abs/2411.13676
+        self.hybrid_module = deepcopy(hybrid_module) if exists(hybrid_module) else None
         # output dimension by default same as input, but can be overridden
         dim_out = default(dim_out, dim)
@@ -1407,6 +1413,16 @@ class Attention(Module):
                 value_residual_mix = self.to_value_residual_mix(q_input)
                 v = v * value_residual_mix + value_residual * (1. - value_residual_mix)
+        # qk normalization
+        if self.qk_norm:
+            qk_l2norm = partial(l2norm, groups = self.qk_norm_groups)
+            q, k = map(qk_l2norm, (q, k))
+            scale = self.qk_norm_scale
+            q = q * self.qk_norm_q_scale
+            k = k * self.qk_norm_k_scale
         # take care of caching
         if exists(cache):
@@ -1427,14 +1443,6 @@ class Attention(Module):
             mem_len = mem.shape[-2] if exists(mem) else 0
             cached_kv = (k[..., mem_len:, :], v[..., mem_len:, :])
-        if self.qk_norm:
-            qk_l2norm = partial(l2norm, groups = self.qk_norm_groups)
-            q, k = map(qk_l2norm, (q, k))
-            scale = self.qk_norm_scale
-            q = q * self.qk_norm_q_scale
-            k = k * self.qk_norm_k_scale
         if exists(rotary_pos_emb):
             freqs, xpos_scale = rotary_pos_emb
             q_xpos_scale, k_xpos_scale = (xpos_scale, xpos_scale ** -1.) if exists(xpos_scale) else (1., 1.)
@@ -1581,6 +1589,12 @@ class Attention(Module):
         out = rearrange(out, 'b h n d -> b n (h d)')
+        # hybrid module
+        if exists(self.hybrid_module):
+            hybrid_out, _ = self.hybrid_module(x)
+            out = 0.5 * (out + hybrid_out)
         # alphafold2 styled gating of the values
         if exists(self.to_v_gate):
@@ -2003,7 +2017,7 @@ class AttentionLayers(Module):
         # determine whether can cache kv
-        self.can_cache_kv = all([module.can_cache_kv for module in self.modules() if isinstance(module, Attention) ])
+        self.can_cache_kv = all([module.can_cache_kv for module in self.modules() if isinstance(module, Attention)])
     def forward(
         self,

{x_transformers-1.43.5.dist-info → x_transformers-1.44.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.43.5
+Version: 1.44.0
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.43.5.dist-info → x_transformers-1.44.0.dist-info}/RECORD RENAMED Viewed

@@ -6,11 +6,11 @@ x_transformers/dpo.py,sha256=xt4OuOWhU8pN3OKN2LZAaC2NC8iiEnchqqcrPWVqf0o,3521
 x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
-x_transformers/x_transformers.py,sha256=z3RH6jvjcxaAVfZoCS0HWrE0Gy55-eXOKtzRt7rRRIw,100811
+x_transformers/x_transformers.py,sha256=BI3RU3XFvwSNDZgoQBrFBSJ4SavJr38rOCCVgHZBTx0,101241
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=7S00kCuab4tWQa-vf-z-XfzADjVj48MoFIr7VSIvttg,8575
-x_transformers-1.43.5.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.43.5.dist-info/METADATA,sha256=crd2xA3NbodKbOz9xY4D1j3XDbTmaY9vwkZZJOGoEw4,738
-x_transformers-1.43.5.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
-x_transformers-1.43.5.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.43.5.dist-info/RECORD,,
+x_transformers-1.44.0.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.44.0.dist-info/METADATA,sha256=MNVwW_pDeKEIHRVEA1XOUNfzFmL706X7Npoh7xc3wIk,738
+x_transformers-1.44.0.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+x_transformers-1.44.0.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.44.0.dist-info/RECORD,,

{x_transformers-1.43.5.dist-info → x_transformers-1.44.0.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.43.5.dist-info → x_transformers-1.44.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{x_transformers-1.43.5.dist-info → x_transformers-1.44.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.43.5__py3-none-any.whl → 1.44.0__py3-none-any.whl

x-transformers 1.43.5py3-none-any.whl → 1.44.0py3-none-any.whl