PyPI - x-transformers - Versions diffs - 1.43.0__tar.gz → 1.43.2__tar.gz - Mend

x-transformers 1.43.0tar.gz → 1.43.2tar.gz

Files changed (22) hide show

{x_transformers-1.43.0/x_transformers.egg-info → x_transformers-1.43.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.43.0
+Version: 1.43.2
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang

{x_transformers-1.43.0 → x_transformers-1.43.2}/README.md RENAMED Viewed

@@ -2240,7 +2240,7 @@ ids_out, num_out, is_number_mask = model.generate(start_ids, start_nums, 17)
 }
 ```
-```
+```bibtex
 @article{Yang2017BreakingTS,
     title     = {Breaking the Softmax Bottleneck: A High-Rank RNN Language Model},
     author    = {Zhilin Yang and Zihang Dai and Ruslan Salakhutdinov and William W. Cohen},

{x_transformers-1.43.0 → x_transformers-1.43.2}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
   name = 'x-transformers',
   packages = find_packages(exclude=['examples']),
-  version = '1.43.0',
+  version = '1.43.2',
   license='MIT',
   description = 'X-Transformers - Pytorch',
   author = 'Phil Wang',

{x_transformers-1.43.0 → x_transformers-1.43.2}/tests/test_x_transformers.py RENAMED Viewed

@@ -409,7 +409,8 @@ def test_custom_alibi(flash: bool):
     logits = model(x, pos = pos)
-def test_custom_rotary_pos_emb():
+@pytest.mark.parametrize('rotary_xpos', (True, False))
+def test_custom_rotary_pos_emb(rotary_xpos):
     from einops import repeat
     model = TransformerWrapper(
@@ -419,7 +420,8 @@ def test_custom_rotary_pos_emb():
             dim = 512,
             depth = 2,
             heads = 8,
-            rotary_pos_emb = True
+            rotary_pos_emb = True,
+            rotary_xpos = rotary_xpos
         )
     )
@@ -591,7 +593,9 @@ def test_cross_attn_rotary(
       context_mask = context_mask
     )
-def test_hyper_connections():
+@pytest.mark.parametrize('tanh', (True, False))
+def test_hyper_connections(tanh):
     model = TransformerWrapper(
         num_tokens = 20000,
         max_seq_len = 1024,
@@ -599,7 +603,10 @@ def test_hyper_connections():
             dim = 128,
             depth = 6,
             heads = 8,
-            num_residual_streams = 8 # 8 dynamic hyper connection residual streams
+            num_residual_streams = 8, # 8 dynamic hyper connection residual streams
+            residual_fn_kwargs = dict(
+                tanh = tanh
+            )
         )
     )

{x_transformers-1.43.0 → x_transformers-1.43.2}/x_transformers/x_transformers.py RENAMED Viewed

@@ -666,7 +666,7 @@ class RotaryEmbedding(Module):
             return freqs, 1.
         power = (t - (max_pos // 2)) / self.scale_base
-        scale = self.scale ** rearrange(power, 'n -> n 1')
+        scale = self.scale ** rearrange(power, '... n -> ... n 1')
         scale = torch.stack((scale, scale), dim = -1)
         scale = rearrange(scale, '... d r -> ... (d r)')
@@ -870,6 +870,7 @@ class HyperConnection(Module):
         *,
         layer_index,
         num_residual_streams,
+        tanh = True,
         **kwargs
     ):
         """
@@ -878,6 +879,8 @@ class HyperConnection(Module):
         """
         super().__init__()
+        self.act = nn.Tanh() if tanh else nn.Identity()
         self.norm = nn.LayerNorm(dim, bias = False)
         self.num_residual_streams = num_residual_streams
@@ -901,11 +904,11 @@ class HyperConnection(Module):
         normed = self.norm(residuals)
-        wc_weight = (normed @ self.dynamic_alpha_fn).tanh()
+        wc_weight = self.act(normed @ self.dynamic_alpha_fn)
         dynamic_alpha = wc_weight * self.dynamic_alpha_scale
         alpha = dynamic_alpha + self.static_alpha
-        dc_weight = (normed @ self.dynamic_beta_fn).tanh()
+        dc_weight = self.act(normed @ self.dynamic_beta_fn)
         dynamic_beta = dc_weight * self.dynamic_beta_scale
         beta = dynamic_beta + self.static_beta
@@ -1650,9 +1653,10 @@ class AttentionLayers(Module):
         unet_skips = False,
         num_residual_streams = 1,
         reinject_input = False,              # seen first in DEQ paper https://arxiv.org/abs/1909.01377, but later used in a number of papers trying to achieve depthwise generalization https://arxiv.org/abs/2410.03020v1
-        add_value_residual = False,          # resformer from Zhou et al - https://arxiv.org/abs/2410.17897v1
+        add_value_residual = False,          # resformer from Zhou et al - https://arxiv.org/abs/2410.17897v1 - further corroboration by https://arxiv.org/abs/2412.15113 (faster emergence of ICL) - looks like this setting may becoming a necessity for every transformer soon
         learned_value_residual_mix = True,   # seeing big improvements when the value residual mix value is learned per token - credit goes to @faresobeid for taking the first step with learned scalar mix, then @Blinkdl for taking it a step further with data dependent. here we will use per token learned
         rel_pos_kwargs: dict = dict(),
+        residual_fn_kwargs: dict = dict(),
         **kwargs
     ):
         super().__init__()
@@ -1957,7 +1961,7 @@ class AttentionLayers(Module):
             else:
                 residual_fn = Residual
-            residual = residual_fn(dim, layer_index = ind, scale_residual = scale_residual, scale_residual_constant = scale_residual_constant)
+            residual = residual_fn(dim, layer_index = ind, scale_residual = scale_residual, scale_residual_constant = scale_residual_constant, **residual_fn_kwargs)
             # handle unet skip connection

{x_transformers-1.43.0 → x_transformers-1.43.2/x_transformers.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: x-transformers
-Version: 1.43.0
+Version: 1.43.2
 Summary: X-Transformers - Pytorch
 Home-page: https://github.com/lucidrains/x-transformers
 Author: Phil Wang