PyPI - ai-edge-torch-nightly - Versions diffs - 0.3.0.dev20240909__py3-none-any.whl → 0.3.0.dev20240911__py3-none-any.whl - Mend

ai-edge-torch-nightly 0.3.0.dev20240909py3-none-any.whl → 0.3.0.dev20240911py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (36) hide show

ai_edge_torch/generative/examples/{experimental/phi → phi}/phi2.py RENAMED Viewed

@@ -12,26 +12,22 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # ==============================================================================
-# Example of building phi-2 model from the Edge Generative API layers.
-#
-# Note: This is an experimental version of phi2 with external KV cache.
-# Please use with caution.
+"""Example of building a Phi-2 model."""
 import os
-from pathlib import Path
-from typing import Tuple
+import pathlib
+from ai_edge_torch.generative.layers import attention
 from ai_edge_torch.generative.layers import builder
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
 import ai_edge_torch.generative.layers.attention_utils as attn_utils
-from ai_edge_torch.generative.layers.experimental import attention
-from ai_edge_torch.generative.layers.experimental import ekv_cache as kv_utils
 import ai_edge_torch.generative.layers.model_config as cfg
 import ai_edge_torch.generative.utilities.loader as loading_utils
 import numpy as np
 import torch
 from torch import nn
 TENSOR_NAMES = loading_utils.ModelLoader.TensorNames(
     ff_up_proj="model.layers.{}.mlp.fc1",
     ff_down_proj="model.layers.{}.mlp.fc2",
@@ -89,13 +85,17 @@ class Phi2(nn.Module):
       self,
       tokens: torch.Tensor,
       input_pos: torch.Tensor,
-      kv_cache: kv_utils.EKVCache,
-  ) -> Tuple[torch.Tensor, kv_utils.EKVCache]:
+      kv_cache: kv_utils.KVCache,
+  ) -> dict[torch.Tensor, kv_utils.KVCache]:
     _, seq_len = tokens.size()
     assert self.config.max_seq_len >= seq_len, (
         f"Cannot forward sequence of length {seq_len}, max seq length is only"
         f" {self.config.max_seq_len}"
     )
+    assert len(self.transformer_blocks) == len(kv_cache.caches), (
+        "The number of transformer blocks and the number of KV cache entries"
+        " must be the same."
+    )
     cos, sin = self.rope_cache
     cos = cos.index_select(0, input_pos)
@@ -111,11 +111,11 @@ class Phi2(nn.Module):
       x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
       if kv_entry:
         updated_kv_entires.append(kv_entry)
-    updated_kv_cache = kv_utils.EKVCache(tuple(updated_kv_entires))
+    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
     x = self.final_norm(x)
-    res = self.lm_head(x)  # (b, t, vocab_size)
-    return res, updated_kv_cache
+    logits = self.lm_head(x)  # (b, t, vocab_size)
+    return {"logits": logits, "kv_cache": updated_kv_cache}
 def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -169,39 +169,37 @@ def get_fake_model_config(kv_cache_max_len: int = 128) -> cfg.ModelConfig:
   return config
-def build_model(
-    checkpoint_path: str, test_model: bool = False, **kwargs
-) -> nn.Module:
+def build_model(checkpoint_path: str, **kwargs) -> nn.Module:
   """Instantiates the model instance and load checkpoint if provided."""
-  config = (
-      get_fake_model_config(**kwargs)
-      if test_model
-      else get_model_config(**kwargs)
-  )
+  config = get_model_config(**kwargs)
   model = Phi2(config)
-  if checkpoint_path is not None:
-    loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-    loader.load(model)
+  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
+  loader.load(model)
   model.eval()
   return model
-def define_and_run(checkpoint_path: str, test_model: bool = False) -> None:
+def define_and_run(checkpoint_path: str) -> None:
   """Instantiates and runs a Phi-2 model."""
+  current_dir = pathlib.Path(__file__).parent.resolve()
+  phi2_goldens = torch.load(current_dir / "phi2_lm_logits.pt")
   kv_cache_max_len = 1024
-  model = build_model(
-      checkpoint_path, test_model=test_model, kv_cache_max_len=kv_cache_max_len
-  )
+  model = build_model(checkpoint_path, kv_cache_max_len=kv_cache_max_len)
   idx = torch.from_numpy(np.array([[1, 2, 3, 4]]))
   tokens = torch.full((1, kv_cache_max_len), 0, dtype=torch.long, device="cpu")
   tokens[0, :4] = idx
   input_pos = torch.arange(0, kv_cache_max_len)
-  kv = kv_utils.EKVCache.from_model_config(model.config)
-  print("running an inference")
-  print(model.forward(tokens, input_pos, kv))
+  kv = kv_utils.KVCache.from_model_config(model.config)
+  output = model.forward(tokens, input_pos, kv)
+  print("comparing with goldens..")
+  assert torch.allclose(
+      phi2_goldens, output["logits"][0, idx.shape[1] - 1, :], atol=1e-02
+  )
 if __name__ == "__main__":
-  input_checkpoint_path = os.path.join(Path.home(), "Downloads/phi2")
+  input_checkpoint_path = os.path.join(
+      pathlib.Path.home(), "Downloads/llm_data/phi2"
+  )
   define_and_run(input_checkpoint_path)

ai_edge_torch/generative/examples/test_models/toy_model_with_kv_cache.py CHANGED Viewed

@@ -12,14 +12,17 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # ==============================================================================
-# A toy example which has basic transformer block (w/ KV-Cache).
+"""A toy example which has basic transformer block (w/ externalized KV-Cache)."""
 from typing import Tuple
 import ai_edge_torch
 from ai_edge_torch import lowertools
-from ai_edge_torch.generative.layers.attention import TransformerBlock
+from ai_edge_torch.generative.layers import attention
+from ai_edge_torch.generative.layers import builder
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
 import ai_edge_torch.generative.layers.attention_utils as attn_utils
-import ai_edge_torch.generative.layers.builder as builder
 import ai_edge_torch.generative.layers.model_config as cfg
 import torch
 import torch.nn as nn
@@ -27,7 +30,7 @@ import torch.nn as nn
 RoPECache = Tuple[torch.Tensor, torch.Tensor]
-class ToyModelWithKV(torch.nn.Module):
+class ToyModelWithKVCache(torch.nn.Module):
   def __init__(self, config: cfg.ModelConfig) -> None:
     super().__init__()
@@ -36,7 +39,7 @@ class ToyModelWithKV(torch.nn.Module):
     )
     self.tok_embedding = nn.Embedding(config.vocab_size, config.embedding_dim)
     self.transformer_blocks = nn.ModuleList(
-        TransformerBlock(config) for _ in range(config.num_layers)
+        attention.TransformerBlock(config) for _ in range(config.num_layers)
     )
     self.final_norm = builder.build_norm(
         config.embedding_dim,
@@ -57,18 +60,29 @@ class ToyModelWithKV(torch.nn.Module):
     )
     self.config = config
-  @torch.inference_mode
-  def forward(self, idx: torch.Tensor, input_pos: torch.Tensor) -> torch.Tensor:
-    x = self.tok_embedding(idx)
+  def forward(
+      self,
+      tokens: torch.Tensor,
+      input_pos: torch.Tensor,
+      kv_cache: kv_utils.KVCache,
+  ) -> Tuple[torch.Tensor, kv_utils.KVCache]:
+    x = self.tok_embedding(tokens)
     cos, sin = self.rope_cache
     cos = cos.index_select(0, input_pos)
     sin = sin.index_select(0, input_pos)
     mask = self.mask_cache.index_select(2, input_pos)
     mask = mask[:, :, :, : self.config.max_seq_len]
+    updated_kv_entires = []
     for i, block in enumerate(self.transformer_blocks):
-      x = block(x, (cos, sin), mask, input_pos)
+      kv_entry = kv_cache.caches[i] if kv_cache else None
+      x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
+      if kv_entry:
+        updated_kv_entires.append(kv_entry)
     x = self.final_norm(x)
-    return self.lm_head(x)
+    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
+    return {'logits': self.lm_head(x), 'kv_cache': updated_kv_cache}
 def _export_stablehlo_mlir(model, args):
@@ -89,7 +103,7 @@ def get_model_config() -> cfg.ModelConfig:
   config = cfg.ModelConfig(
       vocab_size=150,
       num_layers=2,
-      max_seq_len=500,
+      max_seq_len=100,
       embedding_dim=128,
       attn_config=attn_config,
       ff_config=ff_config,
@@ -102,40 +116,59 @@ def get_model_config() -> cfg.ModelConfig:
 def get_sample_prefill_inputs() -> Tuple[torch.Tensor, torch.Tensor]:
-  idx = torch.unsqueeze(torch.arange(0, 100), 0)
+  tokens = torch.unsqueeze(torch.arange(0, 100), 0)
   input_pos = torch.arange(0, 100)
-  return idx, input_pos
+  return tokens, input_pos
 def get_sample_decode_inputs() -> Tuple[torch.Tensor, torch.Tensor]:
-  idx = torch.tensor([[1]], dtype=torch.long)
-  input_pos = torch.tensor([10], dtype=torch.int64)
-  return idx, input_pos
+  tokens = torch.tensor([[1]], dtype=torch.long)
+  input_pos = torch.tensor([10])
+  return tokens, input_pos
 def define_and_run() -> None:
   dump_mlir = False
   config = get_model_config()
-  model = ToyModelWithKV(config)
+  model = ToyModelWithExternalKV(config)
+  model.eval()
   print('running an inference')
-  idx, input_pos = get_sample_prefill_inputs()
-  decode_idx, decode_input_pos = get_sample_decode_inputs()
-  print(model.forward(idx, input_pos))
+  kv = kv_utils.KVCache.from_model_config(config)
+  tokens, input_pos = get_sample_prefill_inputs()
+  decode_token, decode_input_pos = get_sample_decode_inputs()
+  print(model.forward(tokens, input_pos, kv))
   if dump_mlir:
-    mlir_text = _export_stablehlo_mlir(model, (idx, input_pos))
-    with open('/tmp/toy_model_with_kv.stablehlo.mlir', 'w') as f:
+    mlir_text = _export_stablehlo_mlir(model, (tokens, input_pos, kv))
+    with open('/tmp/toy_model_with_external_kv.stablehlo.mlir', 'w') as f:
       f.write(mlir_text)
   # Convert model to tflite with 2 signatures (prefill + decode).
   print('converting toy model to tflite with 2 signatures (prefill + decode)')
   edge_model = (
-      ai_edge_torch.signature('prefill', model, (idx, input_pos))
-      .signature('decode', model, (decode_idx, decode_input_pos))
+      ai_edge_torch.signature(
+          'prefill',
+          model,
+          sample_kwargs={
+              'tokens': tokens,
+              'input_pos': input_pos,
+              'kv_cache': kv,
+          },
+      )
+      .signature(
+          'decode',
+          model,
+          sample_kwargs={
+              'tokens': decode_token,
+              'input_pos': decode_input_pos,
+              'kv_cache': kv,
+          },
+      )
       .convert()
   )
-  edge_model.export('/tmp/toy_kv_cache.tflite')
+  edge_model.export('/tmp/toy_external_kv_cache.tflite')
 if __name__ == '__main__':

ai_edge_torch/generative/examples/tiny_llama/convert_to_tflite.py CHANGED Viewed

@@ -13,11 +13,14 @@
 # limitations under the License.
 # ==============================================================================
+"""Example of converting TinyLlama model to multi-signature tflite model."""
 import os
-from pathlib import Path
+import pathlib
 import ai_edge_torch
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
 from ai_edge_torch.generative.quantize import quant_recipes
 import torch
@@ -48,20 +51,36 @@ def convert_tiny_llama_to_tflite(
   prefill_input_pos = torch.arange(0, prefill_seq_len)
   decode_token = torch.tensor([[0]], dtype=torch.long)
   decode_input_pos = torch.tensor([0], dtype=torch.int64)
+  kv = kv_utils.KVCache.from_model_config(pytorch_model.config)
   quant_config = quant_recipes.full_int8_dynamic_recipe() if quantize else None
   edge_model = (
       ai_edge_torch.signature(
-          'prefill', pytorch_model, (prefill_tokens, prefill_input_pos)
+          'prefill',
+          pytorch_model,
+          sample_kwargs={
+              'tokens': prefill_tokens,
+              'input_pos': prefill_input_pos,
+              'kv_cache': kv,
+          },
+      )
+      .signature(
+          'decode',
+          pytorch_model,
+          sample_kwargs={
+              'tokens': decode_token,
+              'input_pos': decode_input_pos,
+              'kv_cache': kv,
+          },
       )
-      .signature('decode', pytorch_model, (decode_token, decode_input_pos))
       .convert(quant_config=quant_config)
   )
+  quant_suffix = 'q8' if quantize else 'f32'
   edge_model.export(
-      f'/tmp/tiny_llama_seq{prefill_seq_len}_kv{kv_cache_max_len}.tflite'
+      f'/tmp/tiny_llama_{quant_suffix}_seq{prefill_seq_len}_ekv{kv_cache_max_len}.tflite'
   )
 if __name__ == '__main__':
-  checkpoint_path = os.path.join(Path.home(), 'Downloads/llm_data/tiny_llama')
-  convert_tiny_llama_to_tflite(checkpoint_path)
+  path = os.path.join(pathlib.Path.home(), 'Downloads/llm_data/tiny_llama')
+  convert_tiny_llama_to_tflite(path)

ai_edge_torch/generative/examples/tiny_llama/tiny_llama.py CHANGED Viewed

@@ -12,13 +12,15 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # ==============================================================================
-# Example of building a TinyLlama model from the Edge Generative API layers.
+"""Example of building a TinyLlama model."""
 import os
-from pathlib import Path
+import pathlib
 from ai_edge_torch.generative.layers import attention
 from ai_edge_torch.generative.layers import builder
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
 import ai_edge_torch.generative.layers.attention_utils as attn_utils
 import ai_edge_torch.generative.layers.model_config as cfg
 import ai_edge_torch.generative.utilities.loader as loading_utils
@@ -80,16 +82,22 @@ class TinyLLamma(nn.Module):
     )
     self.config = config
-  # The model's forward function takes in additional k/v cache tensors
-  # and returns the updated k/v cache tensors to the caller.
-  # This can be eliminated if we handle k/v cache updates inside the model itself.
   @torch.inference_mode
-  def forward(self, idx: torch.Tensor, input_pos: torch.Tensor) -> torch.Tensor:
-    _, seq_len = idx.size()
+  def forward(
+      self,
+      tokens: torch.Tensor,
+      input_pos: torch.Tensor,
+      kv_cache: kv_utils.KVCache,
+  ) -> dict[torch.Tensor, kv_utils.KVCache]:
+    _, seq_len = tokens.size()
     assert self.config.max_seq_len >= seq_len, (
         f"Cannot forward sequence of length {seq_len}, max seq length is only"
         f" {self.config.max_seq_len}"
     )
+    assert len(self.transformer_blocks) == len(kv_cache.caches), (
+        "The number of transformer blocks and the number of KV cache entries"
+        " must be the same."
+    )
     cos, sin = self.rope_cache
     cos = cos.index_select(0, input_pos)
@@ -97,16 +105,20 @@ class TinyLLamma(nn.Module):
     mask = self.mask_cache.index_select(2, input_pos)
     mask = mask[:, :, :, : self.config.kv_cache_max]
-    # forward the model itself
-    x = self.tok_embedding(idx)  # token embeddings of shape (b, t, n_embd)
+    # token embeddings of shape (b, t, n_embd)
+    x = self.tok_embedding(tokens)
-    for _, block in enumerate(self.transformer_blocks):
-      x = block(x, (cos, sin), mask, input_pos)
+    updated_kv_entires = []
+    for i, block in enumerate(self.transformer_blocks):
+      kv_entry = kv_cache.caches[i] if kv_cache else None
+      x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
+      if kv_entry:
+        updated_kv_entires.append(kv_entry)
+    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
     x = self.final_norm(x)
-    res = self.lm_head(x)  # (b, t, vocab_size)
-    return res
+    logits = self.lm_head(x)  # (b, t, vocab_size)
+    return {"logits": logits, "kv_cache": updated_kv_cache}
 def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -147,8 +159,8 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
   return config
-def get_fake_model_config() -> cfg.ModelConfig:
-  config = get_model_config()
+def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
+  config = get_model_config(**kwargs)
   config.vocab_size = 128
   config.num_layers = 2
   config.ff_config.intermediate_size = 64
@@ -160,26 +172,30 @@ def build_model(checkpoint_path: str, **kwargs) -> nn.Module:
   model = TinyLLamma(config)
   loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
   loader.load(model)
+  model.eval()
   return model
-def define_and_run() -> None:
+def define_and_run(checkpoint_path: str) -> None:
   """Instantiates and runs a TinyLlama model."""
-  current_dir = Path(__file__).parent.resolve()
+  current_dir = pathlib.Path(__file__).parent.resolve()
   tiny_llama_goldens = torch.load(current_dir / "tiny_llama_lm_logits.pt")
   kv_cache_max_len = 1024
-  checkpoint_path = os.path.join(Path.home(), "Downloads/llm_data/tiny_llama")
   model = build_model(checkpoint_path, kv_cache_max_len=kv_cache_max_len)
   idx = torch.from_numpy(np.array([[1, 2, 3, 4]]))
   tokens = torch.full((1, kv_cache_max_len), 0, dtype=torch.long, device="cpu")
   tokens[0, :4] = idx
   input_pos = torch.arange(0, kv_cache_max_len)
-  lm_logits = model.forward(tokens, input_pos)
+  kv = kv_utils.KVCache.from_model_config(model.config)
+  output = model.forward(tokens, input_pos, kv)
   assert torch.allclose(
-      tiny_llama_goldens, lm_logits[0, idx.shape[1] - 1, :], atol=1e-05
+      tiny_llama_goldens, output["logits"][0, idx.shape[1] - 1, :], atol=1e-02
   )
 if __name__ == "__main__":
-  define_and_run()
+  input_checkpoint_path = os.path.join(
+      pathlib.Path.home(), "Downloads/llm_data/tiny_llama"
+  )
+  define_and_run(input_checkpoint_path)

ai-edge-torch-nightly 0.3.0.dev20240909__py3-none-any.whl → 0.3.0.dev20240911__py3-none-any.whl

ai-edge-torch-nightly 0.3.0.dev20240909py3-none-any.whl → 0.3.0.dev20240911py3-none-any.whl