PyPI - ai-edge-torch-nightly - Versions diffs - 0.3.0.dev20241002__py3-none-any.whl → 0.3.0.dev20241005__py3-none-any.whl - Mend

ai-edge-torch-nightly 0.3.0.dev20241002py3-none-any.whl → 0.3.0.dev20241005py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

ai_edge_torch/generative/examples/qwen/qwen.py CHANGED Viewed

@@ -15,28 +15,10 @@
 """Example of building Qwen 2.5 models."""
-import copy
-from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 import ai_edge_torch.generative.layers.model_config as cfg
-import ai_edge_torch.generative.utilities.loader as loading_utils
-from torch import nn
-TENSOR_NAMES = copy.copy(tiny_llama.TENSOR_NAMES)
-# Qwen re-uses the embedding as the head projection layer.
-TENSOR_NAMES.lm_head = None
-class Qwen(tiny_llama.TinyLlama):
-  """A Qwen model built from the Edge Generative API layers.
-  Qwen 2.5 shares the same architecture as TinyLlama.
-  """
+from ai_edge_torch.generative.utilities import model_builder
-  def __init__(self, config: cfg.ModelConfig):
-    super().__init__(config)
-    # Qwen re-uses the embedding as the head projection layer.
-    self.lm_head.weight.data = self.tok_embedding.weight.data
+TENSOR_NAMES = model_builder.TENSOR_NAMES
 def get_3b_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -119,23 +101,31 @@ def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
   return config
-def _build_model(checkpoint_path: str, config: cfg.ModelConfig) -> nn.Module:
-  model = Qwen(config)
-  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-  # Since embedding and lm-head use the same weight, we need to set strict
-  # to False.
-  loader.load(model, strict=False)
-  model.eval()
-  return model
-def build_3b_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  return _build_model(checkpoint_path, get_3b_model_config(**kwargs))
+def build_3b_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_3b_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )
-def build_1_5b_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  return _build_model(checkpoint_path, get_1_5b_model_config(**kwargs))
+def build_1_5b_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_1_5b_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )
-def build_0_5b_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  return _build_model(checkpoint_path, get_0_5b_model_config(**kwargs))
+def build_0_5b_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_0_5b_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )

ai_edge_torch/generative/examples/smollm/smollm.py CHANGED Viewed

@@ -15,29 +15,10 @@
 """Example of building a SmolLM model."""
-import copy
-from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 import ai_edge_torch.generative.layers.model_config as cfg
-import ai_edge_torch.generative.utilities.loader as loading_utils
-from torch import nn
-TENSOR_NAMES = copy.copy(tiny_llama.TENSOR_NAMES)
-# SmolLM re-uses the embedding as the head projection layer.
-TENSOR_NAMES.lm_head = None
-class SmolLM(tiny_llama.TinyLlama):
-  """A SmolLM model built from the Edge Generative API layers.
+from ai_edge_torch.generative.utilities import model_builder
-  SmolLM shares the same architecture as TinyLlama, but with different model
-  sizes.
-  """
-  def __init__(self, config: cfg.ModelConfig):
-    super().__init__(config)
-    # SmolLM re-uses the embedding as the head projection layer.
-    self.lm_head.weight.data = self.tok_embedding.weight.data
+TENSOR_NAMES = model_builder.TENSOR_NAMES
 def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -91,12 +72,11 @@ def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
   return config
-def build_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  config = get_model_config(**kwargs)
-  model = SmolLM(config)
-  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-  # Since embedding and lm-head use the same weight, we need to set strict
-  # to False.
-  loader.load(model, strict=False)
-  model.eval()
-  return model
+def build_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )

ai_edge_torch/generative/examples/stable_diffusion/clip.py CHANGED Viewed

@@ -75,9 +75,7 @@ class CLIP(nn.Module):
     )
   @torch.inference_mode
-  def forward(self, tokens: torch.LongTensor) -> torch.FloatTensor:
-    tokens = tokens.type(torch.int)
+  def forward(self, tokens: torch.IntTensor) -> torch.FloatTensor:
     state = self.tok_embedding(tokens) + self.tok_embedding_position
     for layer in self.transformer_blocks:
       state = layer(state, mask=self.mask_cache)

ai_edge_torch/generative/examples/stable_diffusion/convert_to_tflite.py CHANGED Viewed

@@ -13,47 +13,54 @@
 # limitations under the License.
 # ==============================================================================
-import argparse
 import os
-from pathlib import Path
-from typing import Optional
+import pathlib
+from absl import app
+from absl import flags
 import ai_edge_torch
-import ai_edge_torch.generative.examples.stable_diffusion.clip as clip
-import ai_edge_torch.generative.examples.stable_diffusion.decoder as decoder
-import ai_edge_torch.generative.examples.stable_diffusion.diffusion as diffusion
-from ai_edge_torch.generative.examples.stable_diffusion.encoder import Encoder
-import ai_edge_torch.generative.examples.stable_diffusion.util as util
+from ai_edge_torch.generative.examples.stable_diffusion import clip
+from ai_edge_torch.generative.examples.stable_diffusion import decoder
+from ai_edge_torch.generative.examples.stable_diffusion import diffusion
+from ai_edge_torch.generative.examples.stable_diffusion import util
 from ai_edge_torch.generative.quantize import quant_recipes
-import ai_edge_torch.generative.utilities.stable_diffusion_loader as stable_diffusion_loader
+from ai_edge_torch.generative.utilities import stable_diffusion_loader
 import torch
-arg_parser = argparse.ArgumentParser()
-arg_parser.add_argument(
-    '--clip_ckpt',
-    type=str,
+_CLIP_CKPT = flags.DEFINE_string(
+    'clip_ckpt',
+    None,
     help='Path to source CLIP model checkpoint',
     required=True,
 )
-arg_parser.add_argument(
-    '--diffusion_ckpt',
-    type=str,
+_DIFFUSION_CKPT = flags.DEFINE_string(
+    'diffusion_ckpt',
+    None,
     help='Path to source diffusion model checkpoint',
     required=True,
 )
-arg_parser.add_argument(
-    '--decoder_ckpt',
-    type=str,
+_DECODER_CKPT = flags.DEFINE_string(
+    'decoder_ckpt',
+    None,
     help='Path to source image decoder model checkpoint',
     required=True,
 )
-arg_parser.add_argument(
-    '--output_dir',
-    type=str,
+_OUTPUT_DIR = flags.DEFINE_string(
+    'output_dir',
+    None,
     help='Path to the converted TF Lite directory.',
     required=True,
 )
+_QUANTIZE = flags.DEFINE_bool(
+    'quantize',
+    help='Whether to quantize the model during conversion.',
+    default=True,
+)
 @torch.inference_mode
 def convert_stable_diffusion_to_tflite(
@@ -111,7 +118,7 @@ def convert_stable_diffusion_to_tflite(
   time_embedding = util.get_time_embedding(timestamp)
   if not os.path.exists(output_dir):
-    Path(output_dir).mkdir(parents=True, exist_ok=True)
+    pathlib.Path(output_dir).mkdir(parents=True, exist_ok=True)
   quant_config = (
       quant_recipes.full_int8_weight_only_recipe() if quantize else None
@@ -142,14 +149,15 @@ def convert_stable_diffusion_to_tflite(
   ).export(f'{output_dir}/decoder.tflite')
-if __name__ == '__main__':
-  args = arg_parser.parse_args()
+def main(_):
   convert_stable_diffusion_to_tflite(
-      output_dir=args.output_dir,
-      clip_ckpt_path=args.clip_ckpt,
-      diffusion_ckpt_path=args.diffusion_ckpt,
-      decoder_ckpt_path=args.decoder_ckpt,
-      image_height=512,
-      image_width=512,
-      quantize=True,
+      output_dir=_OUTPUT_DIR.value,
+      clip_ckpt_path=_CLIP_CKPT.value,
+      diffusion_ckpt_path=_DIFFUSION_CKPT.value,
+      decoder_ckpt_path=_DECODER_CKPT.value,
+      quantize=_QUANTIZE.value,
   )
+if __name__ == '__main__':
+  app.run(main)

ai_edge_torch/generative/examples/tiny_llama/tiny_llama.py CHANGED Viewed

@@ -15,102 +15,10 @@
 """Example of building a TinyLlama model."""
-from ai_edge_torch.generative.layers import attention
-from ai_edge_torch.generative.layers import builder
-from ai_edge_torch.generative.layers import kv_cache as kv_utils
-import ai_edge_torch.generative.layers.attention_utils as attn_utils
 import ai_edge_torch.generative.layers.model_config as cfg
-import ai_edge_torch.generative.utilities.loader as loading_utils
-import torch
-from torch import nn
+from ai_edge_torch.generative.utilities import model_builder
-TENSOR_NAMES = loading_utils.ModelLoader.TensorNames(
-    ff_up_proj="model.layers.{}.mlp.up_proj",
-    ff_down_proj="model.layers.{}.mlp.down_proj",
-    ff_gate_proj="model.layers.{}.mlp.gate_proj",
-    attn_query_proj="model.layers.{}.self_attn.q_proj",
-    attn_key_proj="model.layers.{}.self_attn.k_proj",
-    attn_value_proj="model.layers.{}.self_attn.v_proj",
-    attn_output_proj="model.layers.{}.self_attn.o_proj",
-    pre_attn_norm="model.layers.{}.input_layernorm",
-    post_attn_norm="model.layers.{}.post_attention_layernorm",
-    embedding="model.embed_tokens",
-    final_norm="model.norm",
-    lm_head="lm_head",
-)
-class TinyLlama(nn.Module):
-  """A TinyLlama model built from the Edge Generative API layers."""
-  def __init__(self, config: cfg.ModelConfig):
-    super().__init__()
-    # Construct model layers.
-    self.lm_head = nn.Linear(
-        config.embedding_dim, config.vocab_size, bias=config.lm_head_use_bias
-    )
-    self.tok_embedding = nn.Embedding(
-        config.vocab_size, config.embedding_dim, padding_idx=0
-    )
-    # TinyLlama has only one block config.
-    block_config = config.block_config(0)
-    self.transformer_blocks = nn.ModuleList(
-        attention.TransformerBlock(block_config, config)
-        for _ in range(config.num_layers)
-    )
-    self.final_norm = builder.build_norm(
-        config.embedding_dim,
-        config.final_norm_config,
-    )
-    attn_config = block_config.attn_config
-    self.rope_cache = attn_utils.build_rope_cache(
-        size=config.kv_cache_max,
-        dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=attn_config.rotary_base,
-    )
-    self.mask_cache = attn_utils.build_causal_mask_cache(
-        size=config.kv_cache_max,
-    )
-    self.config = config
-  @torch.inference_mode
-  def forward(
-      self,
-      tokens: torch.Tensor,
-      input_pos: torch.Tensor,
-      kv_cache: kv_utils.KVCache,
-  ) -> dict[torch.Tensor, kv_utils.KVCache]:
-    _, seq_len = tokens.size()
-    assert self.config.max_seq_len >= seq_len, (
-        f"Cannot forward sequence of length {seq_len}, max seq length is only"
-        f" {self.config.max_seq_len}"
-    )
-    assert len(self.transformer_blocks) == len(kv_cache.caches), (
-        "The number of transformer blocks and the number of KV cache entries"
-        " must be the same."
-    )
-    cos, sin = self.rope_cache
-    cos = cos.index_select(0, input_pos)
-    sin = sin.index_select(0, input_pos)
-    mask = self.mask_cache.index_select(2, input_pos)
-    mask = mask[:, :, :, : self.config.kv_cache_max]
-    # token embeddings of shape (b, t, n_embd)
-    x = self.tok_embedding(tokens)
-    updated_kv_entires = []
-    for i, block in enumerate(self.transformer_blocks):
-      kv_entry = kv_cache.caches[i] if kv_cache else None
-      x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
-      if kv_entry:
-        updated_kv_entires.append(kv_entry)
-    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
-    x = self.final_norm(x)
-    logits = self.lm_head(x)  # (b, t, vocab_size)
-    return {"logits": logits, "kv_cache": updated_kv_cache}
+TENSOR_NAMES = model_builder.TENSOR_NAMES_WITH_SEPARATE_LM_HEAD
 def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -150,6 +58,7 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
       kv_cache_max_len=kv_cache_max_len,
       block_configs=block_config,
       final_norm_config=norm_config,
+      lm_head_share_weight_with_embedding=False,
       enable_hlfb=True,
   )
   return config
@@ -164,10 +73,11 @@ def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
   return config
-def build_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  config = get_model_config(**kwargs)
-  model = TinyLlama(config)
-  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-  loader.load(model)
-  model.eval()
-  return model
+def build_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )

ai_edge_torch/generative/layers/model_config.py CHANGED Viewed

@@ -184,8 +184,14 @@ class ModelConfig:
       default_factory=NormalizationConfig
   )
+  # Scale factor of the embedding.
+  embedding_scale: Optional[float] = None
   # Use bias term within LLM's HEAD.
   lm_head_use_bias: bool = False
+  # Whether LLM's HEAD shares the weight of the embedding.
+  lm_head_share_weight_with_embedding: bool = True
   # Whether to turn on high-level function boundary.
   enable_hlfb: bool = False

ai_edge_torch/generative/test/test_loader.py CHANGED Viewed

@@ -19,6 +19,7 @@ import tempfile
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 from ai_edge_torch.generative.utilities import loader as loading_utils
+from ai_edge_torch.generative.utilities import model_builder
 import safetensors.torch
 import torch
@@ -71,7 +72,7 @@ class TestLoader(googletest.TestCase):
       safetensors.torch.save_file(test_weights, file_path)
       cfg = tiny_llama.get_model_config()
       cfg.num_layers = 1
-      model = tiny_llama.TinyLlama(cfg)
+      model = model_builder.DecoderOnlyModel(cfg)
       loader = loading_utils.ModelLoader(file_path, tiny_llama.TENSOR_NAMES)
       # if returns successfully, it means all the tensors were initiallized.

ai_edge_torch/generative/test/test_model_conversion.py CHANGED Viewed

@@ -21,6 +21,7 @@ from ai_edge_torch.generative.examples.test_models import toy_model_with_kv_cach
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 from ai_edge_torch.generative.layers import kv_cache
 from ai_edge_torch.generative.test import utils as test_utils
+from ai_edge_torch.generative.utilities import model_builder
 import numpy as np
 import torch
@@ -42,31 +43,40 @@ class TestModelConversion(googletest.TestCase):
         )
     )
-  def _test_model_with_kv_cache(self, config, pytorch_model):
+  def _get_params(self, enable_hlfb: bool):
+    """Returns a model, edge model and the kwargs to use for testing."""
+    config = toy_model_with_kv_cache.get_model_config()
+    config.enable_hlfb = enable_hlfb
+    pytorch_model = toy_model_with_kv_cache.ToyModelWithKVCache(config).eval()
     tokens, input_pos = torch.tensor([[1]], dtype=torch.int), torch.tensor(
         [10], dtype=torch.int
     )
     kv = kv_cache.KVCache.from_model_config(config)
+    kwargs = {
+        "tokens": tokens,
+        "input_pos": input_pos,
+        "kv_cache": kv,
+    }
     edge_model = ai_edge_torch.convert(
         pytorch_model,
-        sample_kwargs={
-            "tokens": tokens,
-            "input_pos": input_pos,
-            "kv_cache": kv,
-        },
+        sample_kwargs=kwargs,
     )
     edge_model.set_interpreter_builder(
         self._interpreter_builder(edge_model.tflite_model())
     )
+    return pytorch_model, edge_model, kwargs
+  def _test_model_with_kv_cache(self, enable_hlfb: bool):
+    pytorch_model, edge_model, kwargs = self._get_params(enable_hlfb)
     self.assertTrue(
         test_utils.compare_tflite_torch(
             edge_model,
             pytorch_model,
-            tokens,
-            input_pos,
-            kv,
+            kwargs["tokens"],
+            kwargs["input_pos"],
+            kwargs["kv_cache"],
             signature_name="serving_default",
             atol=1e-5,
             rtol=1e-5,
@@ -78,19 +88,31 @@ class TestModelConversion(googletest.TestCase):
       reason="tests with custom ops are not supported on oss",
   )
   def test_toy_model_with_kv_cache(self):
-    config = toy_model_with_kv_cache.get_model_config()
-    pytorch_model = toy_model_with_kv_cache.ToyModelWithKVCache(config).eval()
-    self._test_model_with_kv_cache(config, pytorch_model)
+    self._test_model_with_kv_cache(enable_hlfb=False)
   @googletest.skipIf(
       ai_edge_config.Config.use_torch_xla,
       reason="tests with custom ops are not supported on oss",
   )
   def test_toy_model_with_kv_cache_with_hlfb(self):
-    config = toy_model_with_kv_cache.get_model_config()
-    config.enable_hlfb = True
-    pytorch_model = toy_model_with_kv_cache.ToyModelWithKVCache(config).eval()
-    self._test_model_with_kv_cache(config, pytorch_model)
+    self._test_model_with_kv_cache(enable_hlfb=True)
+  @googletest.skipIf(
+      ai_edge_config.Config.use_torch_xla,
+      reason="tests with custom ops are not supported on oss",
+  )
+  def test_toy_model_has_ekv_op(self):
+    """Tests that the model has the external kv cache op."""
+    _, edge_model, _ = self._get_params(enable_hlfb=True)
+    interpreter_ = interpreter.InterpreterWithCustomOps(
+        custom_op_registerers=["GenAIOpsRegisterer"],
+        model_content=edge_model.tflite_model(),
+        experimental_default_delegate_latest_features=True,
+    )
+    # pylint: disable=protected-access
+    op_names = [op["op_name"] for op in interpreter_._get_ops_details()]
+    self.assertIn("odml.update_external_kv_cache", op_names)
   def _test_multisig_model(self, config, pytorch_model, atol, rtol):
     # prefill
@@ -163,7 +185,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_tiny_llama_multisig(self):
     config = tiny_llama.get_fake_model_config()
-    pytorch_model = tiny_llama.TinyLlama(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_multisig_model(config, pytorch_model, atol=1e-5, rtol=1e-5)

ai_edge_torch/generative/test/test_model_conversion_large.py CHANGED Viewed

@@ -29,6 +29,7 @@ from ai_edge_torch.generative.examples.stable_diffusion import clip as sd_clip
 from ai_edge_torch.generative.examples.stable_diffusion import decoder as sd_decoder
 from ai_edge_torch.generative.examples.stable_diffusion import diffusion as sd_diffusion
 from ai_edge_torch.generative.layers import kv_cache
+from ai_edge_torch.generative.utilities import model_builder
 from ai_edge_torch.generative.test import utils as test_utils
 import numpy as np
 import torch
@@ -90,7 +91,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_gemma1(self):
     config = gemma1.get_fake_model_config()
-    pytorch_model = gemma1.Gemma(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(
         config, pytorch_model, "serving_default", atol=1e-2, rtol=1e-5
     )
@@ -119,7 +120,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_phi2(self):
     config = phi2.get_fake_model_config()
-    pytorch_model = phi2.Phi2(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(
         config, pytorch_model, "serving_default", atol=1e-3, rtol=1e-3
     )
@@ -139,7 +140,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_smollm(self):
     config = smollm.get_fake_model_config()
-    pytorch_model = smollm.SmolLM(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-4, rtol=1e-5)
   @googletest.skipIf(
@@ -148,7 +149,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_openelm(self):
     config = openelm.get_fake_model_config()
-    pytorch_model = openelm.OpenELM(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-4, rtol=1e-5)
   @googletest.skipIf(
@@ -157,7 +158,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_qwen(self):
     config = qwen.get_fake_model_config()
-    pytorch_model = qwen.Qwen(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-3, rtol=1e-5)
   @googletest.skipIf(

ai-edge-torch-nightly 0.3.0.dev20241002__py3-none-any.whl → 0.3.0.dev20241005__py3-none-any.whl

ai-edge-torch-nightly 0.3.0.dev20241002py3-none-any.whl → 0.3.0.dev20241005py3-none-any.whl