PyPI - titans-pytorch - Versions diffs - 0.0.30__tar.gz → 0.0.32__tar.gz - Mend

titans-pytorch 0.0.30tar.gz → 0.0.32tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (19) hide show

{titans_pytorch-0.0.30 → titans_pytorch-0.0.32}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: titans-pytorch
-Version: 0.0.30
+Version: 0.0.32
 Summary: Titans
 Project-URL: Homepage, https://pypi.org/project/titans-pytorch/
 Project-URL: Repository, https://github.com/lucidrains/titans-pytorch

{titans_pytorch-0.0.30 → titans_pytorch-0.0.32}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "titans-pytorch"
-version = "0.0.30"
+version = "0.0.32"
 description = "Titans"
 authors = [
     { name = "Phil Wang", email = "lucidrains@gmail.com" }

{titans_pytorch-0.0.30 → titans_pytorch-0.0.32}/titans_pytorch/mac_transformer.py RENAMED Viewed

@@ -17,6 +17,10 @@ from hyper_connections import get_init_and_expand_reduce_stream_functions
 from axial_positional_embedding import ContinuousAxialPositionalEmbedding
 from rotary_embedding_torch import RotaryEmbedding
+# proposed neural memory
+from titans_pytorch.titans import NeuralMemory
 # constants
 LinearNoBias = partial(Linear, bias = False)
@@ -29,9 +33,33 @@ def exists(v):
 def default(v, d):
     return v if exists(v) else d
+def identity(t):
+    return t
 def round_up_multiple(seq, mult):
     return ceil(seq / mult) * mult
+def pad_and_segment_with_inverse(seq, segment_len):
+    batch, seq_len = seq.shape[:2]
+    need_segment = seq_len >= segment_len
+    if not need_segment:
+        return seq, identity
+    next_seq_len_mult = round_up_multiple(seq_len, segment_len)
+    padding = next_seq_len_mult - seq_len
+    seq = F.pad(seq, (0, 0, 0, padding))
+    seq = rearrange(seq, 'b (w n) d -> (b w) n d', n = segment_len)
+    def inverse(out):
+        out = rearrange(out, '(b w) n d -> b (w n) d', b = batch)
+        return out[:, :-padding]
+    return seq, inverse
 # feedforward and attention
 class GEGLU(Module):
@@ -77,9 +105,6 @@ class SegmentedAttention(Module):
         self.split_heads = Rearrange('b n (h d) -> b h n d', h = heads)
         self.merge_heads = Rearrange('b h n d -> b n (h d)')
-        self.segment_seq = Rearrange('b (n w) d -> (b n) w d', n = total_segment_len)
-        self.merge_seq_back = Rearrange('(b n) w d -> b (n w) d', n = total_segment_len)
         self.persistent_memory = nn.Parameter(torch.zeros(2, heads, num_persist_mem_tokens, dim_head))
     def forward(self, seq):
@@ -91,16 +116,7 @@ class SegmentedAttention(Module):
         # auto pad to multiple
         # todo - get rid of logic with flex attention
-        need_segment = seq_len >= total_segment_len
-        if need_segment:
-            next_seq_len = round_up_multiple(seq_len, total_segment_len)
-            padding = next_seq_len - seq_len
-            if padding > 0:
-                seq = F.pad(seq, (0, 0, 0, padding))
-            seq = self.segment_seq(seq)
+        seq, inverse_segment = pad_and_segment_with_inverse(seq, total_segment_len)
         # attention
@@ -130,10 +146,9 @@ class SegmentedAttention(Module):
         out = self.to_out(out)
-        if need_segment:
-            out = self.merge_seq_back(out)
+        out = inverse_segment(out)
-        return out[:, :seq_len]
+        return out
 # MAC transformer
@@ -150,7 +165,9 @@ class MemoryAsContextTransformer(Module):
         dim_head = 64,
         heads = 8,
         ff_mult = 4,
-        num_residual_streams = 4
+        num_residual_streams = 4,
+        neural_memory_kwargs: dict = dict(),
+        neural_memory_layers: tuple[int, ...] | None = None,
     ):
         super().__init__()
@@ -170,8 +187,25 @@ class MemoryAsContextTransformer(Module):
         init_hyper_conn, self.expand_streams, self.reduce_streams = get_init_and_expand_reduce_stream_functions(num_residual_streams, disable = num_residual_streams == 1)
         self.layers = ModuleList([])
+        self.neural_mem_layers = ModuleList([])
+        layers = tuple(range(1, depth + 1))
+        neural_memory_layers = set(default(neural_memory_layers, layers))
+        for layer in layers:
+            # neural memory
+            mem = None
+            if num_longterm_mem_tokens > 0 and layer in neural_memory_layers:
+                mem = NeuralMemory(dim = dim, chunk_size = num_longterm_mem_tokens)
+                mem = init_hyper_conn(dim = dim, branch = mem)
+            self.neural_mem_layers.append(mem)
+            # attention and feedforward
-        for _ in range(depth):
             attn = SegmentedAttention(
                 dim = dim,
                 dim_head = dim_head,
@@ -207,40 +241,54 @@ class MemoryAsContextTransformer(Module):
         # intersperse longterm memory
-        need_segment = seq_len >= segment_len
-        if need_segment:
-            next_seq_len = round_up_multiple(seq_len, segment_len)
-            padding = next_seq_len - seq_len
-            if padding > 0:
-                x = F.pad(x, (0, 0, 0, padding))
-            x = rearrange(x, 'b (w n) d -> (b w) n d', n = segment_len)
+        x, inverse_segment = pad_and_segment_with_inverse(x, segment_len)
         mems = repeat(self.longterm_mems, 'n d -> b n d', b = x.shape[0])
-        x = torch.cat((mems, x), dim = -2)
+        x = cat((mems, x), dim = -2)
-        if need_segment:
-            x = rearrange(x, '(b w) n d -> b (w n) d', b = batch)
-            x = x[:, :seq_len]
+        x = inverse_segment(x)
         # apply axial positional embedding
         # so intra and inter segment can be more easily discerned by the network
         pos_emb = self.axial_pos_emb((windows, total_segment_len), flatten = True)
-        x = x + pos_emb[:seq_len]
+        x = x + pos_emb[:x.shape[-2]]
         # expand and reduce streams for hyper connections
         x = self.expand_streams(x)
-        for attn, ff in self.layers:
+        for (attn, ff), maybe_neural_mem in zip(self.layers, self.neural_mem_layers):
+            if exists(maybe_neural_mem):
+                batch_streams = x.shape[0]
+                x, inverse_segment = pad_and_segment_with_inverse(x, total_segment_len)
+                longterm_mems, x = x[:, :num_longterm_mem_tokens], x[:, num_longterm_mem_tokens:]
+                longterm_mems = rearrange(longterm_mems, '(b w) n d -> b (w n) d', b = batch_streams)
+                longterm_mems = maybe_neural_mem(longterm_mems)
+                longterm_mems = rearrange(longterm_mems, 'b (w n) d -> (b w) n d', n = num_longterm_mem_tokens)
+                x = cat((longterm_mems, x), dim = -2)
+                x = inverse_segment(x)
             x = attn(x)
             x = ff(x)
         x = self.reduce_streams(x)
+        # excise out the memories
+        x, inverse_segment = pad_and_segment_with_inverse(x, total_segment_len)
+        x = x[:, num_longterm_mem_tokens:]
+        x = inverse_segment(x)
         # to logits
         x = self.norm(x)