PyPI - ai-edge-torch-nightly - Versions diffs - 0.3.0.dev20240926__py3-none-any.whl → 0.3.0.dev20240928__py3-none-any.whl - Mend

ai-edge-torch-nightly 0.3.0.dev20240926py3-none-any.whl → 0.3.0.dev20240928py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (36) hide show

ai_edge_torch/generative/examples/openelm/verify.py CHANGED Viewed

@@ -20,6 +20,7 @@ import pathlib
 from absl import app
 from absl import flags
 from ai_edge_torch.generative.examples.openelm import openelm
+from ai_edge_torch.generative.utilities import transformers_verifier
 from ai_edge_torch.generative.utilities import verifier
 import transformers
@@ -29,15 +30,18 @@ _PROMPTS = flags.DEFINE_multi_string(
     "What is the meaning of life?",
     "The input prompts to generate answers.",
 )
+_MAX_NEW_TOKENS = flags.DEFINE_integer(
+    "max_new_tokens",
+    30,
+    "The maximum size of the generated tokens.",
+)
 def main(_):
   checkpoint = "apple/OpenELM-3B"
   logging.info("Loading the original model from: %s", checkpoint)
-  wrapper_model = verifier.ModelWrapper(
-      model=transformers.AutoModelForCausalLM.from_pretrained(
-          checkpoint, trust_remote_code=True
-      ),
+  original_model = transformers.AutoModelForCausalLM.from_pretrained(
+      checkpoint, trust_remote_code=True
   )
   # Locate the cached dir.
@@ -53,10 +57,13 @@ def main(_):
   tokenizer = transformers.AutoTokenizer.from_pretrained(tokenizer_checkpoint)
   verifier.verify_reauthored_model(
-      original_model=wrapper_model,
-      reauthored_model=reauthored_model,
-      tokenizer=tokenizer,
+      original_model=transformers_verifier.TransformersModelWrapper(
+          original_model
+      ),
+      reauthored_model=verifier.ReauthoredModelWrapper(reauthored_model),
+      tokenizer=verifier.TokenizerWrapper(tokenizer),
       generate_prompts=_PROMPTS.value,
+      max_new_tokens=_MAX_NEW_TOKENS.value,
   )

ai_edge_torch/generative/examples/phi/phi2.py CHANGED Viewed

@@ -65,15 +65,10 @@ class Phi2(nn.Module):
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.kv_cache_max,
         dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=10_000,
-        condense_ratio=1,
-        dtype=torch.float32,
-        device=torch.device("cpu"),
+        base=attn_config.rotary_base,
     )
     self.mask_cache = attn_utils.build_causal_mask_cache(
         size=config.kv_cache_max,
-        dtype=torch.float32,
-        device=torch.device("cpu"),
     )
     self.config = config
@@ -129,6 +124,7 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
       num_heads=32,
       head_dim=80,
       num_query_groups=32,
+      rotary_base=10000,
       rotary_percentage=0.4,
       qkv_use_bias=True,
       output_proj_use_bias=True,

ai_edge_torch/generative/examples/phi/phi3.py CHANGED Viewed

@@ -97,15 +97,15 @@ ROPE_SHORT_FACTOR = [
 ]
-def build_rope_cache(
+def _build_rope_cache(
     size: int,
     dim: int,
-    base: int = 10000,
-    condense_ratio: int = 1,
-    dtype: torch.dtype = torch.float32,
-    device: torch.device = None,
-    theta_factors: torch.Tensor = None,
-    scale: float = 1.0,
+    base: int,
+    condense_ratio: int,
+    dtype: torch.dtype,
+    device: torch.device,
+    theta_factors: torch.Tensor,
+    scale: float,
 ) -> Tuple[torch.Tensor, torch.Tensor]:
   """Precomputes Rotary Positional Embeddings for Phi-3.5 model.
@@ -116,26 +116,20 @@ def build_rope_cache(
   Args:
       size (int): The size of the built cache.
       dim (int): Each sequence's dimmension.
-      base (int, optional): Rope base value. Defaults to 10000.
+      base (int, optional): Rope base value.
       condense_ratio (int, optional): The ratio by which sequence indicies are
-        condensed. Defaults to 1.
-      dtype (torch.dtype, optional): Output tensor's data type. Defaults to
-        torch.float32.
-      device (torch.device, optional): Output tensor's data type. Defaults to
-        None in which case "cpu" is used.
+        condensed.
+      dtype (torch.dtype, optional): Output tensor's data type.
+      device (torch.device, optional): Output tensor's data type.
       theta_factors (torch.Tensor, optional): A tensor of shape (dim,) used to
-        scale the theta values. Defaults to None.
-      scale (float, optional): A float used to scale the rope values. Defaults
-        to 1.0.
+        scale the theta values.
+      scale (float, optional): A float used to scale the rope values.
   Returns:
       Tuple[torch.Tensor, torch.Tensor]: Rope's Cosine and Sine waves.
   """
-  if device is None:
-    device = torch.device('cpu')
   theta = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
-  if theta_factors is not None:
-    theta = theta / theta_factors
+  theta = theta / theta_factors
   seq_idx = torch.arange(size) / condense_ratio
   idx_theta = torch.outer(seq_idx, theta)
   cos = torch.cos(idx_theta).to(dtype=dtype, device=device) * scale
@@ -167,10 +161,10 @@ class Phi3_5Mini(nn.Module):
         config.final_norm_config,
     )
     attn_config = block_config.attn_config
-    self.rope_cache = build_rope_cache(
+    self.rope_cache = _build_rope_cache(
         size=config.kv_cache_max,
         dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=10_000,
+        base=attn_config.rotary_base,
         condense_ratio=1,
         dtype=torch.float32,
         device=torch.device("cpu"),
@@ -181,8 +175,6 @@ class Phi3_5Mini(nn.Module):
     )
     self.mask_cache = attn_utils.build_causal_mask_cache(
         size=config.kv_cache_max,
-        dtype=torch.float32,
-        device=torch.device("cpu"),
     )
     self.config = config
@@ -238,6 +230,7 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
       num_heads=32,
       head_dim=96,
       num_query_groups=32,
+      rotary_base=10000,
       rotary_percentage=1.0,
       qkv_transpose_before_split=True,
   )

ai_edge_torch/generative/examples/phi/verify.py CHANGED Viewed

@@ -19,6 +19,7 @@ import logging
 from absl import app
 from absl import flags
 from ai_edge_torch.generative.examples.phi import phi2
+from ai_edge_torch.generative.utilities import transformers_verifier
 from ai_edge_torch.generative.utilities import verifier
 import kagglehub
 import transformers
@@ -39,12 +40,7 @@ _MAX_NEW_TOKENS = flags.DEFINE_integer(
 def main(_):
   checkpoint = kagglehub.model_download("Microsoft/phi/transformers/2")
   logging.info("Loading the original model from: %s", checkpoint)
-  generation_config = transformers.GenerationConfig.from_pretrained(checkpoint)
-  generation_config.max_new_tokens = _MAX_NEW_TOKENS.value
-  wrapper_model = verifier.ModelWrapper(
-      model=transformers.AutoModelForCausalLM.from_pretrained(checkpoint),
-      hf_generation_config=generation_config,
-  )
+  original_model = transformers.AutoModelForCausalLM.from_pretrained(checkpoint)
   logging.info("Building the reauthored model from: %s", checkpoint)
   reauthored_model = phi2.build_model(checkpoint)
@@ -53,10 +49,13 @@ def main(_):
   tokenizer = transformers.AutoTokenizer.from_pretrained(checkpoint)
   verifier.verify_reauthored_model(
-      original_model=wrapper_model,
-      reauthored_model=reauthored_model,
-      tokenizer=tokenizer,
+      original_model=transformers_verifier.TransformersModelWrapper(
+          original_model
+      ),
+      reauthored_model=verifier.ReauthoredModelWrapper(reauthored_model),
+      tokenizer=verifier.TokenizerWrapper(tokenizer),
       generate_prompts=_PROMPTS.value,
+      max_new_tokens=_MAX_NEW_TOKENS.value,
       atol=1e-03,
   )

ai_edge_torch/generative/examples/phi/verify_phi3.py CHANGED Viewed

@@ -21,6 +21,7 @@ import pathlib
 from absl import app
 from absl import flags
 from ai_edge_torch.generative.examples.phi import phi3
+from ai_edge_torch.generative.utilities import transformers_verifier
 from ai_edge_torch.generative.utilities import verifier
 import transformers
@@ -40,12 +41,7 @@ _MAX_NEW_TOKENS = flags.DEFINE_integer(
 def main(_):
   checkpoint = "microsoft/Phi-3.5-mini-instruct"
   logging.info("Loading the original model from: %s", checkpoint)
-  generation_config = transformers.GenerationConfig.from_pretrained(checkpoint)
-  generation_config.max_new_tokens = _MAX_NEW_TOKENS.value
-  wrapper_model = verifier.ModelWrapper(
-      model=transformers.AutoModelForCausalLM.from_pretrained(checkpoint),
-      hf_generation_config=generation_config,
-  )
+  original_model = transformers.AutoModelForCausalLM.from_pretrained(checkpoint)
   # Locate the cached dir.
   cached_config_file = transformers.utils.cached_file(
@@ -59,10 +55,13 @@ def main(_):
   tokenizer = transformers.AutoTokenizer.from_pretrained(checkpoint)
   verifier.verify_reauthored_model(
-      original_model=wrapper_model,
-      reauthored_model=reauthored_model,
-      tokenizer=tokenizer,
+      original_model=transformers_verifier.TransformersModelWrapper(
+          original_model
+      ),
+      reauthored_model=verifier.ReauthoredModelWrapper(reauthored_model),
+      tokenizer=verifier.TokenizerWrapper(tokenizer),
       generate_prompts=_PROMPTS.value,
+      max_new_tokens=_MAX_NEW_TOKENS.value,
   )

ai_edge_torch/generative/examples/smollm/smollm.py CHANGED Viewed

@@ -54,6 +54,7 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
       num_heads=9,
       head_dim=64,
       num_query_groups=3,
+      rotary_base=10000,
       rotary_percentage=1.0,
   )
   ff_config = cfg.FeedForwardConfig(

ai_edge_torch/generative/examples/smollm/verify.py CHANGED Viewed

@@ -21,6 +21,7 @@ import pathlib
 from absl import app
 from absl import flags
 from ai_edge_torch.generative.examples.smollm import smollm
+from ai_edge_torch.generative.utilities import transformers_verifier
 from ai_edge_torch.generative.utilities import verifier
 import transformers
@@ -30,14 +31,18 @@ _PROMPTS = flags.DEFINE_multi_string(
     "What is the meaning of life?",
     "The input prompts to generate answers.",
 )
+_MAX_NEW_TOKENS = flags.DEFINE_integer(
+    "max_new_tokens",
+    30,
+    "The maximum size of the generated tokens.",
+)
 def main(_):
   checkpoint = "HuggingFaceTB/SmolLM-135M"
   logging.info("Loading the original model from: %s", checkpoint)
-  wrapper_model = verifier.ModelWrapper(
-      model=transformers.AutoModelForCausalLM.from_pretrained(checkpoint),
-  )
+  original_model = transformers.AutoModelForCausalLM.from_pretrained(checkpoint)
   # Locate the cached dir.
   cached_config_file = transformers.utils.cached_file(
       checkpoint, transformers.utils.CONFIG_NAME
@@ -50,10 +55,13 @@ def main(_):
   tokenizer = transformers.AutoTokenizer.from_pretrained(checkpoint)
   verifier.verify_reauthored_model(
-      original_model=wrapper_model,
-      reauthored_model=reauthored_model,
-      tokenizer=tokenizer,
+      original_model=transformers_verifier.TransformersModelWrapper(
+          original_model
+      ),
+      reauthored_model=verifier.ReauthoredModelWrapper(reauthored_model),
+      tokenizer=verifier.TokenizerWrapper(tokenizer),
       generate_prompts=_PROMPTS.value,
+      max_new_tokens=_MAX_NEW_TOKENS.value,
       atol=1e-04,
   )

ai_edge_torch/generative/examples/stable_diffusion/clip.py CHANGED Viewed

@@ -98,6 +98,7 @@ def get_model_config() -> cfg.ModelConfig:
       num_heads=num_heads,
       head_dim=embedding_dim // num_heads,
       num_query_groups=num_query_groups,
+      rotary_base=0,
       rotary_percentage=0.0,
       qkv_use_bias=True,
       qkv_transpose_before_split=True,
@@ -148,6 +149,7 @@ def get_fake_model_config() -> cfg.ModelConfig:
       num_heads=num_heads,
       head_dim=embedding_dim // num_heads,
       num_query_groups=num_query_groups,
+      rotary_base=0,
       rotary_percentage=0.0,
       qkv_use_bias=True,
       qkv_transpose_before_split=True,

ai_edge_torch/generative/examples/stable_diffusion/decoder.py CHANGED Viewed

@@ -295,6 +295,7 @@ def get_model_config() -> unet_cfg.AutoEncoderConfig:
           enable_kv_cache=False,
           qkv_transpose_before_split=True,
           qkv_fused_interleaved=False,
+          rotary_base=0,
           rotary_percentage=0.0,
       ),
       enable_hlfb=False,
@@ -351,6 +352,7 @@ def get_fake_model_config() -> unet_cfg.AutoEncoderConfig:
           enable_kv_cache=False,
           qkv_transpose_before_split=True,
           qkv_fused_interleaved=False,
+          rotary_base=0,
           rotary_percentage=0.0,
       ),
       enable_hlfb=False,

ai_edge_torch/generative/examples/stable_diffusion/diffusion.py CHANGED Viewed

@@ -199,6 +199,7 @@ def build_attention_config(
     num_heads,
     dim,
     num_query_groups,
+    rotary_base=0,
     rotary_percentage=0.0,
     qkv_transpose_before_split=True,
     qkv_use_bias=False,
@@ -211,6 +212,7 @@ def build_attention_config(
       num_heads=num_heads,
       head_dim=dim // num_heads,
       num_query_groups=num_query_groups,
+      rotary_base=rotary_base,
       rotary_percentage=rotary_percentage,
       qkv_transpose_before_split=qkv_transpose_before_split,
       qkv_use_bias=qkv_use_bias,

ai_edge_torch/generative/examples/t5/t5.py CHANGED Viewed

@@ -335,8 +335,6 @@ class T5Decoder(nn.Module):
     self.dec_attn_mask_cache = attn_utils.build_causal_mask_cache(
         size=config.kv_cache_max,
-        dtype=torch.float32,
-        device=torch.device("cpu"),
     )
   @torch.inference_mode

ai_edge_torch/generative/examples/test_models/toy_model.py CHANGED Viewed

@@ -44,13 +44,10 @@ class ToySingleLayerModel(torch.nn.Module):
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.max_seq_len,
         dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=10_000,
-        condense_ratio=1,
-        dtype=torch.float32,
-        device=torch.device('cpu'),
+        base=attn_config.rotary_base,
     )
     self.mask_cache = attn_utils.build_causal_mask_cache(
-        size=config.max_seq_len, dtype=torch.float32, device=torch.device('cpu')
+        size=config.max_seq_len,
     )
     self.config = config
@@ -93,13 +90,10 @@ class ToySingleLayerModelWeightSharing(torch.nn.Module):
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.max_seq_len,
         dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=10_000,
-        condense_ratio=1,
-        dtype=torch.float32,
-        device=torch.device('cpu'),
+        base=attn_config.rotary_base,
     )
     self.mask_cache = attn_utils.build_causal_mask_cache(
-        size=config.max_seq_len, dtype=torch.float32, device=torch.device('cpu')
+        size=config.max_seq_len,
     )
     self.config = config
@@ -124,6 +118,7 @@ def get_model_config() -> cfg.ModelConfig:
       num_heads=32,
       head_dim=4,
       num_query_groups=4,
+      rotary_base=10000,
       rotary_percentage=1.0,
       enable_kv_cache=False,
   )

ai_edge_torch/generative/examples/test_models/toy_model_with_kv_cache.py CHANGED Viewed

@@ -51,13 +51,10 @@ class ToyModelWithKVCache(torch.nn.Module):
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.max_seq_len,
         dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=10_000,
-        condense_ratio=1,
-        dtype=torch.float32,
-        device=torch.device('cpu'),
+        base=attn_config.rotary_base,
     )
     self.mask_cache = attn_utils.build_causal_mask_cache(
-        size=config.max_seq_len, dtype=torch.float32, device=torch.device('cpu')
+        size=config.max_seq_len,
     )
     self.config = config
@@ -91,6 +88,7 @@ def get_model_config() -> cfg.ModelConfig:
       num_heads=32,
       head_dim=4,
       num_query_groups=4,
+      rotary_base=10000,
       rotary_percentage=1.0,
   )
   ff_config = cfg.FeedForwardConfig(

ai_edge_torch/generative/examples/tiny_llama/tiny_llama.py CHANGED Viewed

@@ -67,15 +67,10 @@ class TinyLlama(nn.Module):
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.kv_cache_max,
         dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=10_000,
-        condense_ratio=1,
-        dtype=torch.float32,
-        device=torch.device("cpu"),
+        base=attn_config.rotary_base,
     )
     self.mask_cache = attn_utils.build_causal_mask_cache(
         size=config.kv_cache_max,
-        dtype=torch.float32,
-        device=torch.device("cpu"),
     )
     self.config = config
@@ -132,6 +127,7 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
       num_heads=32,
       head_dim=64,
       num_query_groups=4,
+      rotary_base=10000,
       rotary_percentage=1.0,
   )
   ff_config = cfg.FeedForwardConfig(

ai_edge_torch/generative/examples/tiny_llama/verify.py CHANGED Viewed

@@ -21,6 +21,7 @@ import pathlib
 from absl import app
 from absl import flags
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
+from ai_edge_torch.generative.utilities import transformers_verifier
 from ai_edge_torch.generative.utilities import verifier
 import transformers
@@ -30,16 +31,20 @@ _PROMPTS = flags.DEFINE_multi_string(
     "Show me the program to add 2 and 3.",
     "The input prompts to generate answers.",
 )
+_MAX_NEW_TOKENS = flags.DEFINE_integer(
+    "max_new_tokens",
+    30,
+    "The maximum size of the generated tokens.",
+)
 def main(_):
   checkpoint = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
   logging.info("Loading the original model from: %s", checkpoint)
-  wrapper_model = verifier.ModelWrapper(
-      model=transformers.AutoModelForCausalLM.from_pretrained(
-          checkpoint, trust_remote_code=True
-      ),
+  original_model = transformers.AutoModelForCausalLM.from_pretrained(
+      checkpoint, trust_remote_code=True
   )
   # Locate the cached dir.
   cached_config_file = transformers.utils.cached_file(
       checkpoint, transformers.utils.CONFIG_NAME
@@ -52,10 +57,13 @@ def main(_):
   tokenizer = transformers.AutoTokenizer.from_pretrained(checkpoint)
   verifier.verify_reauthored_model(
-      original_model=wrapper_model,
-      reauthored_model=reauthored_model,
-      tokenizer=tokenizer,
+      original_model=transformers_verifier.TransformersModelWrapper(
+          original_model
+      ),
+      reauthored_model=verifier.ReauthoredModelWrapper(reauthored_model),
+      tokenizer=verifier.TokenizerWrapper(tokenizer),
       generate_prompts=_PROMPTS.value,
+      max_new_tokens=_MAX_NEW_TOKENS.value,
       atol=1e-04,
   )

ai_edge_torch/generative/layers/model_config.py CHANGED Viewed

@@ -83,6 +83,8 @@ class AttentionConfig:
   # Used to determine number of groups in grouped query attention (GQA)
   # https://arxiv.org/pdf/2305.13245.pdf
   num_query_groups: Optional[int]
+  # Base of rotary positional embedding.
+  rotary_base: int = 10_000
   # Percentage of Rotary Positional Embedding added Q and K projections.
   rotary_percentage: Optional[float] = None
   # Whether to transpose the query groups of qkv bundled tensor before

ai_edge_torch/generative/test/test_model_conversion_large.py CHANGED Viewed

@@ -19,6 +19,7 @@ import ai_edge_torch
 from ai_edge_torch import config as ai_edge_config
 from ai_edge_torch.generative.examples.gemma import gemma1
 from ai_edge_torch.generative.examples.gemma import gemma2
+from ai_edge_torch.generative.examples.llama import llama
 from ai_edge_torch.generative.examples.openelm import openelm
 from ai_edge_torch.generative.examples.phi import phi2
 from ai_edge_torch.generative.examples.phi import phi3
@@ -102,6 +103,15 @@ class TestModelConversion(googletest.TestCase):
     pytorch_model = gemma2.Gemma2(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-4, rtol=1e-5)
+  @googletest.skipIf(
+      ai_edge_config.Config.use_torch_xla,
+      reason="tests with custom ops are not supported on oss",
+  )
+  def test_llama(self):
+    config = llama.get_fake_model_config()
+    pytorch_model = llama.Llama(config).eval()
+    self._test_model(config, pytorch_model, "prefill", atol=1e-3, rtol=1e-5)
   @googletest.skipIf(
       ai_edge_config.Config.use_torch_xla,
       reason="tests with custom ops are not supported on oss",

ai_edge_torch/generative/utilities/transformers_verifier.py ADDED Viewed

@@ -0,0 +1,42 @@
+# Copyright 2024 The AI Edge Torch Authors.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""Utilities for the models predefined in HuggingFace transformers."""
+from typing import cast
+from ai_edge_torch.generative.utilities import verifier
+import torch
+import transformers
+class TransformersModelWrapper(verifier.ModelWrapper):
+  """A wrapper for the model predefined in HuggingFace transformers.
+  Verifier expects forward() to return logits while Transformers models return
+  an object with `logits` field.
+  Transformers models get `max_new_tokens` settings for generate() via
+  GenerationConfig.
+  """
+  def forward(self, tokens: torch.Tensor) -> torch.Tensor:
+    return self.model.forward(tokens).logits
+  def generate(
+      self, inputs: torch.Tensor, max_new_tokens: int
+  ) -> torch.IntTensor:
+    gen_config = transformers.GenerationConfig(max_new_tokens=max_new_tokens)
+    return self.model.generate(inputs=inputs, generation_config=gen_config)

ai-edge-torch-nightly 0.3.0.dev20240926__py3-none-any.whl → 0.3.0.dev20240928__py3-none-any.whl

ai-edge-torch-nightly 0.3.0.dev20240926py3-none-any.whl → 0.3.0.dev20240928py3-none-any.whl