PyPI - x-transformers - Versions diffs - 1.37.3__py3-none-any.whl → 1.37.5__py3-none-any.whl - Mend

x-transformers 1.37.3py3-none-any.whl → 1.37.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

x_transformers/attend.py CHANGED Viewed

@@ -13,7 +13,7 @@ from functools import wraps
 from packaging import version
 from dataclasses import dataclass
-from einops import rearrange, repeat
+from einops import rearrange, repeat, pack, unpack
 # constants
@@ -39,9 +39,16 @@ def default(val, d):
 def compact(arr):
     return [*filter(exists, arr)]
-def softclamp(t, value):
+@torch.jit.script
+def softclamp(t: Tensor, value: float):
     return (t / value).tanh() * value
+def pack_one(t, pattern):
+    return pack([t], pattern)
+def unpack_one(t, ps, pattern):
+    return unpack(t, ps, pattern)[0]
 def once(fn):
     called = False
     @wraps(fn)
@@ -55,6 +62,18 @@ def once(fn):
 print_once = once(print)
+# alternative distance functions
+def qk_l2_distance(q, k):
+    if k.ndim == 3:
+        k = repeat(k, 'b j d -> b h j d', h = q.shape[1])
+    q, packed_shape = pack_one(q, '* i d')
+    k, _ = pack_one(k, '* j d')
+    distance = torch.cdist(q, k)
+    return unpack_one(distance, packed_shape, '* i j')
 # functions for creating causal mask
 # need a special one for onnx cpu (no support for .triu)
@@ -80,6 +99,7 @@ class Attend(Module):
         sparse_topk = None,
         scale = None,
         qk_norm = False,
+        l2_distance = False,
         flash = False,
         softclamp_logits = False,
         logit_softclamp_value = 50.,
@@ -123,6 +143,11 @@ class Attend(Module):
         assert not (flash and sigsoftmax), 'sigsoftmax not available for flash attention'
         self.sigsoftmax = sigsoftmax
+        # l2 distance attention
+        assert not (flash and l2_distance), 'l2 distance attention does not work with flash attention just yet'
+        self.l2_distance = l2_distance
         # add a key / value token composed of zeros
         # in case this helps controlling outliers, proposed by https://www.evanmiller.org/attention-is-off-by-one.html
@@ -325,7 +350,12 @@ class Attend(Module):
         kv_einsum_eq = 'b j d' if k.ndim == 3 else 'b h j d'
-        sim = einsum(f'b h i d, {kv_einsum_eq} -> b h i j', q, k) * scale
+        if not self.l2_distance:
+            sim = einsum(f'b h i d, {kv_einsum_eq} -> b h i j', q, k)
+        else:
+            sim = -qk_l2_distance(q, k)
+        sim = sim * scale
         if exists(prev_attn):
             sim = sim + prev_attn

x_transformers/autoregressive_wrapper.py CHANGED Viewed

@@ -317,7 +317,7 @@ class AutoregressiveWrapper(Module):
             **kwargs
         )
-        loss_fn = F.cross_entropy if not self.net.is_log_prob else F.nll_loss
+        loss_fn = F.cross_entropy if not self.net.output_is_log_prob else F.nll_loss
         loss = loss_fn(
             rearrange(logits, 'b n c -> b c n'),

x_transformers/nonautoregressive_wrapper.py CHANGED Viewed

@@ -309,9 +309,11 @@ class NonAutoregressiveWrapper(nn.Module):
         with context():
             logits = self.net(masked, **kwargs)
+        loss_fn = F.cross_entropy if not self.net.output_is_log_prob else F.nll_loss
         # cross entropy loss
-        loss = F.cross_entropy(
+        loss = loss_fn(
             logits[mask],
             orig_seq[mask]
         )

x_transformers/x_transformers.py CHANGED Viewed

@@ -923,6 +923,7 @@ class Attention(Module):
         qk_norm_groups = 1,
         qk_norm_scale = 10,
         qk_norm_dim_scale = False,
+        l2_distance = False,
         one_kv_head = False,
         kv_heads = None,
         shared_kv = False,
@@ -1037,6 +1038,7 @@ class Attention(Module):
             sparse_topk = sparse_topk,
             qk_norm = qk_norm,
             scale = qk_norm_scale if qk_norm else self.scale,
+            l2_distance = l2_distance,
             add_zero_kv = add_zero_kv,
             flash = flash,
             softclamp_logits = softclamp_logits,
@@ -2078,7 +2080,7 @@ class TransformerWrapper(Module):
         # output type
-        self.is_log_prob = mixture_of_softmax
+        self.output_is_log_prob = mixture_of_softmax
         self.to_mixture = None
         self.combine_mixture = None

x_transformers/xl_autoregressive_wrapper.py CHANGED Viewed

@@ -40,7 +40,7 @@ class XLAutoregressiveWrapper(nn.Module):
         eos_token = None,
         temperature = 1.,
         filter_logits_fn = top_k,
-        filter_thres = 0.9,
+        filter_kwargs: dict = dict(),
         mems = None,
         **kwargs
     ):
@@ -88,7 +88,7 @@ class XLAutoregressiveWrapper(nn.Module):
             mems = cache.mems
             logits = logits[:, -1]
-            filtered_logits = filter_logits_fn(logits, thres = filter_thres)
+            filtered_logits = filter_logits_fn(logits, **filter_kwargs)
             probs = F.softmax(filtered_logits / temperature, dim=-1)
             sample = torch.multinomial(probs, 1)
@@ -131,7 +131,9 @@ class XLAutoregressiveWrapper(nn.Module):
         split_x = x.split(max_seq_len, dim = -1)
         split_labels = labels.split(max_seq_len, dim = -1)
-        loss_weights = tuple(map(lambda t: t.shape[-1] / seq_len, split_x))
+        loss_weights = tuple((t.shape[-1] / seq_len) for t in split_x)
+        loss_fn = F.cross_entropy if not self.net.output_is_log_prob else F.nll_loss
         # go through each chunk and derive weighted losses
@@ -146,7 +148,7 @@ class XLAutoregressiveWrapper(nn.Module):
                 **kwargs
             )
-            loss = F.cross_entropy(
+            loss = loss_fn(
                 rearrange(logits, 'b n c -> b c n'),
                 chunk_labels,
                 ignore_index = ignore_index

{x_transformers-1.37.3.dist-info → x_transformers-1.37.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.37.3
+Version: 1.37.5
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

x_transformers-1.37.5.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,15 @@
+x_transformers/__init__.py,sha256=-MkQrSc37cTVDX7AOykxunYnqVtFlQ7lb0Cse5dsGWU,793
+x_transformers/attend.py,sha256=4RnX1yhWZIf8holucqnYXTIP7U1m40UpP58RZNT_2sM,13128
+x_transformers/autoregressive_wrapper.py,sha256=DOJJCMMDOqDYKWy_IaG5IyKsXD3AW6amzfUgdAADOLY,10500
+x_transformers/continuous.py,sha256=cIVEdhfei258__ziV7kQBrJMxCel54bExBTDrO9rfCI,6450
+x_transformers/dpo.py,sha256=LjvWgCkqTl-UuehrzQ8nkX5guLr4whYwsmm7SKSwdls,3450
+x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
+x_transformers/nonautoregressive_wrapper.py,sha256=2NU58hYMgn-4Jzg3mie-mXb0XH_dCN7fjlzd3K1rLUY,10510
+x_transformers/x_transformers.py,sha256=-2fj6QcDSfMI5lJA_fzOW2mdzdS1C1LD6jMBtGQY48E,83752
+x_transformers/xl_autoregressive_wrapper.py,sha256=CvZMJ6A6PA-Y_bQAhnORwjJBSl6Vjq2IdW5KTdk8NI8,4195
+x_transformers/xval.py,sha256=QE1ltYZTR_eGgIHPP2BrMWVWVLqMW-OpDZh87BSmQEg,8563
+x_transformers-1.37.5.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
+x_transformers-1.37.5.dist-info/METADATA,sha256=zHUhvP1bQjFbMtxnVO9iDESgXpGOQxuBCsm4b6K1w44,661
+x_transformers-1.37.5.dist-info/WHEEL,sha256=GV9aMThwP_4oNCtvEC2ec3qUYutgWeAzklro_0m4WJQ,91
+x_transformers-1.37.5.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
+x_transformers-1.37.5.dist-info/RECORD,,

x_transformers-1.37.3.dist-info/RECORD DELETED Viewed

@@ -1,15 +0,0 @@
-x_transformers/__init__.py,sha256=-MkQrSc37cTVDX7AOykxunYnqVtFlQ7lb0Cse5dsGWU,793
-x_transformers/attend.py,sha256=mV7duZ7ON2puS3-k4ctBifb2rq-jTJqrMbof7tI5jR4,12326
-x_transformers/autoregressive_wrapper.py,sha256=2FN4ZobFcdDGDGWEnUof_geb16dRGSJycZGwG899Pa4,10493
-x_transformers/continuous.py,sha256=cIVEdhfei258__ziV7kQBrJMxCel54bExBTDrO9rfCI,6450
-x_transformers/dpo.py,sha256=LjvWgCkqTl-UuehrzQ8nkX5guLr4whYwsmm7SKSwdls,3450
-x_transformers/multi_input.py,sha256=tCh-fTJDj2ib4SMGtsa-AM8MxKzJAQSwqAXOu3HU2mg,9252
-x_transformers/nonautoregressive_wrapper.py,sha256=ys_p8obc7lTeeodCqvkRKxOXQ1C9T3j5Jwr-JbVgnXk,10432
-x_transformers/x_transformers.py,sha256=gOJBZzOJMu5RkIsxw9TZtde4Sx--D18yX8LjrYIsPbE,83677
-x_transformers/xl_autoregressive_wrapper.py,sha256=DCx4n0_c1tFai4nOqaWVnqx2p9eutsZsDMiMP1ckxNU,4117
-x_transformers/xval.py,sha256=QE1ltYZTR_eGgIHPP2BrMWVWVLqMW-OpDZh87BSmQEg,8563
-x_transformers-1.37.3.dist-info/LICENSE,sha256=As9u198X-U-vph5noInuUfqsAG2zX_oXPHDmdjwlPPY,1066
-x_transformers-1.37.3.dist-info/METADATA,sha256=SIGTCQMrLkyq_aksJAst0iXw9VfFT6QWlGvtUElbTMg,661
-x_transformers-1.37.3.dist-info/WHEEL,sha256=GV9aMThwP_4oNCtvEC2ec3qUYutgWeAzklro_0m4WJQ,91
-x_transformers-1.37.3.dist-info/top_level.txt,sha256=hO6KGpFuGucRNEtRfme4A_rGcM53AKwGP7RVlRIxS5Q,15
-x_transformers-1.37.3.dist-info/RECORD,,

{x_transformers-1.37.3.dist-info → x_transformers-1.37.5.dist-info}/LICENSE RENAMED Viewed

File without changes

{x_transformers-1.37.3.dist-info → x_transformers-1.37.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{x_transformers-1.37.3.dist-info → x_transformers-1.37.5.dist-info}/top_level.txt RENAMED Viewed

File without changes

x-transformers 1.37.3__py3-none-any.whl → 1.37.5__py3-none-any.whl

x-transformers 1.37.3py3-none-any.whl → 1.37.5py3-none-any.whl