PyPI - x-transformers - Versions diffs - 1.43.4__py3-none-any.whl → 1.44.0__py3-none-any.whl - Mend

x-transformers 1.43.4py3-none-any.whl → 1.44.0py3-none-any.whl

Files changed (6) hide show

x_transformers/x_transformers.py CHANGED Viewed

@@ -2,6 +2,7 @@ from __future__ import annotations
 from typing import Callable
 import math
+from copy import deepcopy
 from random import random, randrange
 from packaging import version
@@ -38,6 +39,7 @@ class LayerIntermediates:
     attn_z_loss:        Tensor | None = None
     mems:               Tensor | None = None
     memory_tokens:      Tensor | None = None
+    logit_entropies:    Tensor | None = None
 LinearNoBias = partial(nn.Linear, bias = False)
@@ -136,6 +138,15 @@ def or_reduce(masks):
         head = head | rest
     return head
+# entropy
+def calc_entropy(
+    t: Tensor,
+    is_prob = False
+):
+    prob = t.softmax(dim = -1) if not is_prob else t
+    return -(prob * log(prob)).sum(dim = -1)
 # auxiliary loss helpers
 def calc_z_loss(
@@ -1126,6 +1137,7 @@ class Attention(Module):
         sigmoid = False,
         selective = False,
         custom_attn_fn: Callable | None = None,
+        hybrid_module: Module | None = None,
         one_kv_head = False,
         kv_heads = None,
         shared_kv = False,
@@ -1325,6 +1337,10 @@ class Attention(Module):
         self.attn_on_attn = on_attn
+        # hybrid module, in same vein as hymba https://www.arxiv.org/abs/2411.13676
+        self.hybrid_module = deepcopy(hybrid_module) if exists(hybrid_module) else None
         # output dimension by default same as input, but can be overridden
         dim_out = default(dim_out, dim)
@@ -1397,6 +1413,16 @@ class Attention(Module):
                 value_residual_mix = self.to_value_residual_mix(q_input)
                 v = v * value_residual_mix + value_residual * (1. - value_residual_mix)
+        # qk normalization
+        if self.qk_norm:
+            qk_l2norm = partial(l2norm, groups = self.qk_norm_groups)
+            q, k = map(qk_l2norm, (q, k))
+            scale = self.qk_norm_scale
+            q = q * self.qk_norm_q_scale
+            k = k * self.qk_norm_k_scale
         # take care of caching
         if exists(cache):
@@ -1417,14 +1443,6 @@ class Attention(Module):
             mem_len = mem.shape[-2] if exists(mem) else 0
             cached_kv = (k[..., mem_len:, :], v[..., mem_len:, :])
-        if self.qk_norm:
-            qk_l2norm = partial(l2norm, groups = self.qk_norm_groups)
-            q, k = map(qk_l2norm, (q, k))
-            scale = self.qk_norm_scale
-            q = q * self.qk_norm_q_scale
-            k = k * self.qk_norm_k_scale
         if exists(rotary_pos_emb):
             freqs, xpos_scale = rotary_pos_emb
             q_xpos_scale, k_xpos_scale = (xpos_scale, xpos_scale ** -1.) if exists(xpos_scale) else (1., 1.)
@@ -1571,6 +1589,12 @@ class Attention(Module):
         out = rearrange(out, 'b h n d -> b n (h d)')
+        # hybrid module
+        if exists(self.hybrid_module):
+            hybrid_out, _ = self.hybrid_module(x)
+            out = 0.5 * (out + hybrid_out)
         # alphafold2 styled gating of the values
         if exists(self.to_v_gate):
@@ -1993,7 +2017,7 @@ class AttentionLayers(Module):
         # determine whether can cache kv
-        self.can_cache_kv = all([module.can_cache_kv for module in self.modules() if isinstance(module, Attention) ])
+        self.can_cache_kv = all([module.can_cache_kv for module in self.modules() if isinstance(module, Attention)])
     def forward(
         self,
@@ -2592,6 +2616,7 @@ class TransformerWrapper(Module):
         return_embeddings = False,
         return_logits_and_embeddings = False,
         return_intermediates = False,
+        return_logit_entropies = False,
         mask = None,
         return_mems = False,
         return_attn = False,
@@ -2809,6 +2834,12 @@ class TransformerWrapper(Module):
         else:
             out = logits
+        # logit entropies
+        if return_logit_entropies:
+            intermediates.logit_entropies = calc_entropy(logits)
+            return_intermediates = True
         # aux loss
         if return_attn_z_loss:

{x_transformers-1.43.4.dist-info → x_transformers-1.44.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.43.4
+Version: 1.44.0
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.43.4.dist-info → x_transformers-1.44.0.dist-info}/RECORD RENAMED Viewed

@@ -6,11 +6,11 @@ x_transformers/dpo.py,sha256=xt4OuOWhU8pN3OKN2LZAaC2NC8iiEnchqqcrPWVqf0o,3521
 x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
-x_transformers/x_transformers.py,sha256=gn0vRtwbjBA67T-Z8tkU-k3Xte0PaMTxZlmzdK8UsFw,100392
+x_transformers/x_transformers.py,sha256=BI3RU3XFvwSNDZgoQBrFBSJ4SavJr38rOCCVgHZBTx0,101241
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=7S00kCuab4tWQa-vf-z-XfzADjVj48MoFIr7VSIvttg,8575
-x_transformers-1.43.4.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.43.4.dist-info/METADATA,sha256=Nlj9DcMqnMxJH-xR4Dwd4aU1U-UQIUshpQaMDcggVes,738
-x_transformers-1.43.4.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
-x_transformers-1.43.4.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.43.4.dist-info/RECORD,,
+x_transformers-1.44.0.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.44.0.dist-info/METADATA,sha256=MNVwW_pDeKEIHRVEA1XOUNfzFmL706X7Npoh7xc3wIk,738
+x_transformers-1.44.0.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+x_transformers-1.44.0.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.44.0.dist-info/RECORD,,

{x_transformers-1.43.4.dist-info → x_transformers-1.44.0.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.43.4.dist-info → x_transformers-1.44.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{x_transformers-1.43.4.dist-info → x_transformers-1.44.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.43.4__py3-none-any.whl → 1.44.0__py3-none-any.whl

x-transformers 1.43.4py3-none-any.whl → 1.44.0py3-none-any.whl