PyPI - x-transformers - Versions diffs - 1.43.5__py3-none-any.whl → 1.44.1__py3-none-any.whl - Mend

x-transformers 1.43.5py3-none-any.whl → 1.44.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of x-transformers might be problematic. Click here for more details.

Files changed (6) hide show

x_transformers/x_transformers.py CHANGED Viewed

@@ -2,14 +2,16 @@ from __future__ import annotations
 from typing import Callable
 import math
+from copy import deepcopy
 from random import random, randrange
 from packaging import version
 import torch
+from torch.amp import autocast
 import torch.nn.functional as F
 from torch import nn, einsum, Tensor
+from torch.utils._pytree import tree_flatten
 from torch.nn import Module, ModuleList, ModuleDict
-from torch.amp import autocast
 from functools import partial, wraps
 from collections import namedtuple
@@ -1136,6 +1138,8 @@ class Attention(Module):
         sigmoid = False,
         selective = False,
         custom_attn_fn: Callable | None = None,
+        hybrid_module: Module | None = None,
+        hybrid_mask_kwarg: str | None = None,
         one_kv_head = False,
         kv_heads = None,
         shared_kv = False,
@@ -1335,6 +1339,12 @@ class Attention(Module):
         self.attn_on_attn = on_attn
+        # hybrid module, in same vein as hymba https://www.arxiv.org/abs/2411.13676
+        self.hybrid_module = deepcopy(hybrid_module) if exists(hybrid_module) else None
+        self.hybrid_mask_kwarg = hybrid_mask_kwarg # for bidirectional, can forward `mask` into the hybrid module and let it handle variable lengths
         # output dimension by default same as input, but can be overridden
         dim_out = default(dim_out, dim)
@@ -1407,6 +1417,16 @@ class Attention(Module):
                 value_residual_mix = self.to_value_residual_mix(q_input)
                 v = v * value_residual_mix + value_residual * (1. - value_residual_mix)
+        # qk normalization
+        if self.qk_norm:
+            qk_l2norm = partial(l2norm, groups = self.qk_norm_groups)
+            q, k = map(qk_l2norm, (q, k))
+            scale = self.qk_norm_scale
+            q = q * self.qk_norm_q_scale
+            k = k * self.qk_norm_k_scale
         # take care of caching
         if exists(cache):
@@ -1427,14 +1447,6 @@ class Attention(Module):
             mem_len = mem.shape[-2] if exists(mem) else 0
             cached_kv = (k[..., mem_len:, :], v[..., mem_len:, :])
-        if self.qk_norm:
-            qk_l2norm = partial(l2norm, groups = self.qk_norm_groups)
-            q, k = map(qk_l2norm, (q, k))
-            scale = self.qk_norm_scale
-            q = q * self.qk_norm_q_scale
-            k = k * self.qk_norm_k_scale
         if exists(rotary_pos_emb):
             freqs, xpos_scale = rotary_pos_emb
             q_xpos_scale, k_xpos_scale = (xpos_scale, xpos_scale ** -1.) if exists(xpos_scale) else (1., 1.)
@@ -1581,6 +1593,26 @@ class Attention(Module):
         out = rearrange(out, 'b h n d -> b n (h d)')
+        # hybrid module
+        if exists(self.hybrid_module):
+            # hybrid input
+            hybrid_forward_kwargs = dict()
+            if not self.causal and exists(self.hybrid_mask_kwarg):
+                hybrid_forward_kwargs = {self.hybrid_mask_kwarg: mask}
+            # hybrid forward
+            hybrid_outputs = self.hybrid_module(x, **hybrid_forward_kwargs)
+            # handle hybrid out
+            (hybrid_out, *rest_hybrid_outs), _ = tree_flatten(hybrid_outs)
+            out = 0.5 * (out + hybrid_out)
         # alphafold2 styled gating of the values
         if exists(self.to_v_gate):
@@ -2003,7 +2035,7 @@ class AttentionLayers(Module):
         # determine whether can cache kv
-        self.can_cache_kv = all([module.can_cache_kv for module in self.modules() if isinstance(module, Attention) ])
+        self.can_cache_kv = all([module.can_cache_kv for module in self.modules() if isinstance(module, Attention)])
     def forward(
         self,

{x_transformers-1.43.5.dist-info → x_transformers-1.44.1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.43.5
+Version: 1.44.1
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.43.5.dist-info → x_transformers-1.44.1.dist-info}/RECORD RENAMED Viewed

@@ -6,11 +6,11 @@ x_transformers/dpo.py,sha256=xt4OuOWhU8pN3OKN2LZAaC2NC8iiEnchqqcrPWVqf0o,3521
 x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
-x_transformers/x_transformers.py,sha256=z3RH6jvjcxaAVfZoCS0HWrE0Gy55-eXOKtzRt7rRRIw,100811
+x_transformers/x_transformers.py,sha256=yjtB4kV4N9mzHdliIM9MjyA6SoMtvpzc2Z4iU6R9_Uc,101859
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=7S00kCuab4tWQa-vf-z-XfzADjVj48MoFIr7VSIvttg,8575
-x_transformers-1.43.5.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.43.5.dist-info/METADATA,sha256=crd2xA3NbodKbOz9xY4D1j3XDbTmaY9vwkZZJOGoEw4,738
-x_transformers-1.43.5.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
-x_transformers-1.43.5.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.43.5.dist-info/RECORD,,
+x_transformers-1.44.1.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.44.1.dist-info/METADATA,sha256=Zw_Rscb4vNZxlKosWSHSQy4EsICF45U58K0hipxydpQ,738
+x_transformers-1.44.1.dist-info/WHEEL,sha256=A3WOREP4zgxI0fKrHUG8DC8013e3dK3n7a6HDbcEIwE,91
+x_transformers-1.44.1.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.44.1.dist-info/RECORD,,

{x_transformers-1.43.5.dist-info → x_transformers-1.44.1.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (75.6.0)
+Generator: setuptools (75.7.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

{x_transformers-1.43.5.dist-info → x_transformers-1.44.1.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.43.5.dist-info → x_transformers-1.44.1.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.43.5__py3-none-any.whl → 1.44.1__py3-none-any.whl

Potentially problematic release.

x-transformers 1.43.5py3-none-any.whl → 1.44.1py3-none-any.whl