PyPI - x-transformers - Versions diffs - 1.42.24__py3-none-any.whl → 1.42.25__py3-none-any.whl - Mend

x-transformers 1.42.24py3-none-any.whl → 1.42.25py3-none-any.whl

Files changed (6) hide show

x_transformers/x_transformers.py CHANGED Viewed

@@ -1284,6 +1284,7 @@ class Attention(Module):
         rel_pos = None,
         attn_bias = None,
         rotary_pos_emb = None,
+        context_rotary_pos_emb = None,
         pos = None, # for custom alibi positions
         prev_attn = None,
         mem = None,
@@ -1355,11 +1356,19 @@ class Attention(Module):
             q = q * self.qk_norm_q_scale
             k = k * self.qk_norm_k_scale
-        if exists(rotary_pos_emb) and not has_context:
+        if exists(rotary_pos_emb):
             freqs, xpos_scale = rotary_pos_emb
             q_xpos_scale, k_xpos_scale = (xpos_scale, xpos_scale ** -1.) if exists(xpos_scale) else (1., 1.)
             q = apply_rotary_pos_emb(q, freqs, q_xpos_scale)
+            if has_context:
+                # override with `context_rotary_pos_emb` if provided
+                freqs, xpos_scale = context_rotary_pos_emb
+                _, k_xpos_scale = (xpos_scale, xpos_scale ** -1.) if exists(xpos_scale) else (1., 1.)
             k = apply_rotary_pos_emb(k, freqs, k_xpos_scale)
             if self.rotary_embed_values:
@@ -1848,7 +1857,6 @@ class AttentionLayers(Module):
                 layer = Attention(dim, heads = heads, causal = causal, learned_value_residual_mix = self_attn_learned_value_residual, **attn_kwargs)
                 is_first_self_attn = False
             elif layer_type == 'c':
-                cross_attn_learned_value_residual = learned_value_residual_mix and not is_first_cross_attn
                 layer = Attention(dim, heads = heads, **{**attn_kwargs, **cross_attn_kwargs})
                 is_first_cross_attn = False
             elif layer_type == 'f':
@@ -1917,6 +1925,7 @@ class AttentionLayers(Module):
         return_hiddens = False,
         rotary_pos_emb = None,
         pos = None,
+        context_pos = None,
         attn_bias = None,
         condition = None,
         in_attn_cond = None, # https://arxiv.org/abs/2105.04090
@@ -1976,14 +1985,28 @@ class AttentionLayers(Module):
         # rotary positions
-        if not exists(rotary_pos_emb) and exists(self.rotary_pos_emb):
-            maybe_mem = mems[0] # todo - handle edge case where different layers get different memory lengths. don't think this will ever come up but who knows
-            mem_len = maybe_mem.shape[1] if exists(maybe_mem) else 0
+        cross_attn_rotary_pos_emb = dict()
+        if exists(self.rotary_pos_emb):
+            if not exists(rotary_pos_emb):
+                maybe_mem = mems[0] # todo - handle edge case where different layers get different memory lengths. don't think this will ever come up but who knows
+                mem_len = maybe_mem.shape[1] if exists(maybe_mem) else 0
+                if not exists(pos):
+                    pos = torch.arange(x.shape[1] + mem_len, device = x.device) - mem_len
+                rotary_pos_emb = self.rotary_pos_emb(pos)
+            # allow for rotary positions for context if provided
-            if not exists(pos):
-                pos = torch.arange(x.shape[1] + mem_len, device = x.device) - mem_len
+            if exists(context_pos):
+                assert self.cross_attend
+                context_rotary_pos_emb = self.rotary_pos_emb(context_pos)
-            rotary_pos_emb = self.rotary_pos_emb(pos)
+                cross_attn_rotary_pos_emb.update(
+                    rotary_pos_emb = rotary_pos_emb,
+                    context_rotary_pos_emb = context_rotary_pos_emb
+                )
         # assume cached key / values
@@ -2108,7 +2131,7 @@ class AttentionLayers(Module):
             if layer_type == 'a':
                 out, inter = block(x, mask = mask, context_mask = self_attn_kv_mask, attn_mask = attn_mask, rel_pos = self.rel_pos, pos = pos, rotary_pos_emb = rotary_pos_emb, prev_attn = prev_attn, cache = next(iter_attn_cache, None), mem = layer_mem, mem_mask = layer_mem_mask, attn_bias = attn_bias, value_residual = maybe_self_attn_value_residual, return_intermediates = True)
             elif layer_type == 'c':
-                out, inter = block(x, context = context, mask = mask, context_mask = context_mask, prev_attn = prev_cross_attn, cache = next(iter_attn_cache, None), value_residual = maybe_cross_attn_value_residual, return_intermediates = True)
+                out, inter = block(x, context = context, mask = mask, context_mask = context_mask, prev_attn = prev_cross_attn, cache = next(iter_attn_cache, None), value_residual = maybe_cross_attn_value_residual, **cross_attn_rotary_pos_emb, return_intermediates = True)
             elif layer_type == 'f':
                 out = block(x)

{x_transformers-1.42.24.dist-info → x_transformers-1.42.25.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.42.24
+Version: 1.42.25
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.42.24.dist-info → x_transformers-1.42.25.dist-info}/RECORD RENAMED Viewed

@@ -6,11 +6,11 @@ x_transformers/dpo.py,sha256=xt4OuOWhU8pN3OKN2LZAaC2NC8iiEnchqqcrPWVqf0o,3521
 x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
 x_transformers/neo_mlp.py,sha256=XCNnnop9WLarcxap1kGuYc1x8GHvwkZiDRnXOxSl3Po,3452
 x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
-x_transformers/x_transformers.py,sha256=yaC5Jh2sXDRADTjUZHkrJmcJmb4s-aWjrbamVQLAv0s,95928
+x_transformers/x_transformers.py,sha256=tj4s_p46Up89RcIFJF4aZ4iWtt4fpDVHKHqXv23Oekk,96643
 x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
 x_transformers/xval.py,sha256=7S00kCuab4tWQa-vf-z-XfzADjVj48MoFIr7VSIvttg,8575
-x_transformers-1.42.24.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.42.24.dist-info/METADATA,sha256=6gq8sWjWzyazL_0CCyfN05PMNxApuNNLu2AeN3sGYkA,739
-x_transformers-1.42.24.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
-x_transformers-1.42.24.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.42.24.dist-info/RECORD,,
+x_transformers-1.42.25.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.42.25.dist-info/METADATA,sha256=I2JJliI_WRW_0_tQoigduXIaYgDcU4YGdxJJKJ62BHE,739
+x_transformers-1.42.25.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+x_transformers-1.42.25.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.42.25.dist-info/RECORD,,

{x_transformers-1.42.24.dist-info → x_transformers-1.42.25.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.42.24.dist-info → x_transformers-1.42.25.dist-info}/WHEEL RENAMED Viewed

File without changes

{x_transformers-1.42.24.dist-info → x_transformers-1.42.25.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.42.24__py3-none-any.whl → 1.42.25__py3-none-any.whl

x-transformers 1.42.24py3-none-any.whl → 1.42.25py3-none-any.whl