PyPI - ai-edge-torch-nightly - Versions diffs - 0.3.0.dev20240930__py3-none-any.whl → 0.3.0.dev20241003__py3-none-any.whl - Mend

ai-edge-torch-nightly 0.3.0.dev20240930py3-none-any.whl → 0.3.0.dev20241003py3-none-any.whl

Files changed (26) hide show

ai_edge_torch/generative/examples/qwen/qwen.py CHANGED Viewed

@@ -15,28 +15,10 @@
 """Example of building Qwen 2.5 models."""
-import copy
-from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 import ai_edge_torch.generative.layers.model_config as cfg
-import ai_edge_torch.generative.utilities.loader as loading_utils
-from torch import nn
-TENSOR_NAMES = copy.copy(tiny_llama.TENSOR_NAMES)
-# Qwen re-uses the embedding as the head projection layer.
-TENSOR_NAMES.lm_head = None
-class Qwen(tiny_llama.TinyLlama):
-  """A Qwen model built from the Edge Generative API layers.
-  Qwen 2.5 shares the same architecture as TinyLlama.
-  """
+from ai_edge_torch.generative.utilities import model_builder
-  def __init__(self, config: cfg.ModelConfig):
-    super().__init__(config)
-    # Qwen re-uses the embedding as the head projection layer.
-    self.lm_head.weight.data = self.tok_embedding.weight.data
+TENSOR_NAMES = model_builder.TENSOR_NAMES
 def get_3b_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -119,23 +101,31 @@ def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
   return config
-def _build_model(checkpoint_path: str, config: cfg.ModelConfig) -> nn.Module:
-  model = Qwen(config)
-  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-  # Since embedding and lm-head use the same weight, we need to set strict
-  # to False.
-  loader.load(model, strict=False)
-  model.eval()
-  return model
-def build_3b_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  return _build_model(checkpoint_path, get_3b_model_config(**kwargs))
+def build_3b_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_3b_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )
-def build_1_5b_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  return _build_model(checkpoint_path, get_1_5b_model_config(**kwargs))
+def build_1_5b_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_1_5b_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )
-def build_0_5b_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  return _build_model(checkpoint_path, get_0_5b_model_config(**kwargs))
+def build_0_5b_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_0_5b_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )

ai_edge_torch/generative/examples/smollm/smollm.py CHANGED Viewed

@@ -15,29 +15,10 @@
 """Example of building a SmolLM model."""
-import copy
-from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 import ai_edge_torch.generative.layers.model_config as cfg
-import ai_edge_torch.generative.utilities.loader as loading_utils
-from torch import nn
-TENSOR_NAMES = copy.copy(tiny_llama.TENSOR_NAMES)
-# SmolLM re-uses the embedding as the head projection layer.
-TENSOR_NAMES.lm_head = None
-class SmolLM(tiny_llama.TinyLlama):
-  """A SmolLM model built from the Edge Generative API layers.
+from ai_edge_torch.generative.utilities import model_builder
-  SmolLM shares the same architecture as TinyLlama, but with different model
-  sizes.
-  """
-  def __init__(self, config: cfg.ModelConfig):
-    super().__init__(config)
-    # SmolLM re-uses the embedding as the head projection layer.
-    self.lm_head.weight.data = self.tok_embedding.weight.data
+TENSOR_NAMES = model_builder.TENSOR_NAMES
 def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -91,12 +72,11 @@ def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
   return config
-def build_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  config = get_model_config(**kwargs)
-  model = SmolLM(config)
-  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-  # Since embedding and lm-head use the same weight, we need to set strict
-  # to False.
-  loader.load(model, strict=False)
-  model.eval()
-  return model
+def build_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )

ai_edge_torch/generative/examples/stable_diffusion/pipeline.py CHANGED Viewed

@@ -180,9 +180,13 @@ def run_tflite_pipeline(
   # Text embedding.
   cond_tokens = model.tokenizer.encode(prompt)
-  cond_context = model.clip(np.array(cond_tokens), signature_name='encode')
+  cond_context = model.clip(
+      np.array(cond_tokens).astype(np.int32), signature_name='encode'
+  )
   uncond_tokens = model.tokenizer.encode(uncond_prompt)
-  uncond_context = model.clip(np.array(uncond_tokens), signature_name='encode')
+  uncond_context = model.clip(
+      np.array(uncond_tokens).astype(np.int32), signature_name='encode'
+  )
   context = np.concatenate([cond_context, uncond_context], axis=0)
   noise_shape = (1, 4, height // 8, width // 8)
@@ -198,7 +202,7 @@ def run_tflite_pipeline(
     input_image_np = util.rescale(input_image, (0, 255), (-1, 1))
     input_image_np = util.move_channel(input_image_np, to='first')
     encoder_noise = np.random.normal(size=noise_shape).astype(np.float32)
-    latents = model.encoder(input_image_np, encoder_noise)
+    latents = model.encoder(input_image_np.astype(np.float32), encoder_noise)
     latents_noise = np.random.normal(size=noise_shape).astype(np.float32)
     sampler.set_strength(strength=strength)
     latents += latents_noise * sampler.initial_scale
@@ -214,7 +218,10 @@ def run_tflite_pipeline(
     input_latents = latents * sampler.get_input_scale()
     input_latents = input_latents.repeat(2, axis=0)
     output = model.diffusion(
-        input_latents, context, time_embedding, signature_name='diffusion'
+        input_latents.astype(np.float32),
+        context.astype(np.float32),
+        time_embedding,
+        signature_name='diffusion',
     )
     output_cond, output_uncond = np.split(output, 2, axis=0)
     output = cfg_scale * (output_cond - output_uncond) + output_uncond
@@ -222,7 +229,7 @@ def run_tflite_pipeline(
     latents = sampler.step(latents, output)
   # Image decoding.
-  images = model.decoder(latents, signature_name='decode')
+  images = model.decoder(latents.astype(np.float32), signature_name='decode')
   images = util.rescale(images, (-1, 1), (0, 255), clamp=True)
   images = util.move_channel(images, to='last')
   if not os.path.exists(output_path):

ai_edge_torch/generative/examples/tiny_llama/tiny_llama.py CHANGED Viewed

@@ -15,102 +15,10 @@
 """Example of building a TinyLlama model."""
-from ai_edge_torch.generative.layers import attention
-from ai_edge_torch.generative.layers import builder
-from ai_edge_torch.generative.layers import kv_cache as kv_utils
-import ai_edge_torch.generative.layers.attention_utils as attn_utils
 import ai_edge_torch.generative.layers.model_config as cfg
-import ai_edge_torch.generative.utilities.loader as loading_utils
-import torch
-from torch import nn
+from ai_edge_torch.generative.utilities import model_builder
-TENSOR_NAMES = loading_utils.ModelLoader.TensorNames(
-    ff_up_proj="model.layers.{}.mlp.up_proj",
-    ff_down_proj="model.layers.{}.mlp.down_proj",
-    ff_gate_proj="model.layers.{}.mlp.gate_proj",
-    attn_query_proj="model.layers.{}.self_attn.q_proj",
-    attn_key_proj="model.layers.{}.self_attn.k_proj",
-    attn_value_proj="model.layers.{}.self_attn.v_proj",
-    attn_output_proj="model.layers.{}.self_attn.o_proj",
-    pre_attn_norm="model.layers.{}.input_layernorm",
-    post_attn_norm="model.layers.{}.post_attention_layernorm",
-    embedding="model.embed_tokens",
-    final_norm="model.norm",
-    lm_head="lm_head",
-)
-class TinyLlama(nn.Module):
-  """A TinyLlama model built from the Edge Generative API layers."""
-  def __init__(self, config: cfg.ModelConfig):
-    super().__init__()
-    # Construct model layers.
-    self.lm_head = nn.Linear(
-        config.embedding_dim, config.vocab_size, bias=config.lm_head_use_bias
-    )
-    self.tok_embedding = nn.Embedding(
-        config.vocab_size, config.embedding_dim, padding_idx=0
-    )
-    # TinyLlama has only one block config.
-    block_config = config.block_config(0)
-    self.transformer_blocks = nn.ModuleList(
-        attention.TransformerBlock(block_config, config)
-        for _ in range(config.num_layers)
-    )
-    self.final_norm = builder.build_norm(
-        config.embedding_dim,
-        config.final_norm_config,
-    )
-    attn_config = block_config.attn_config
-    self.rope_cache = attn_utils.build_rope_cache(
-        size=config.kv_cache_max,
-        dim=int(attn_config.rotary_percentage * attn_config.head_dim),
-        base=attn_config.rotary_base,
-    )
-    self.mask_cache = attn_utils.build_causal_mask_cache(
-        size=config.kv_cache_max,
-    )
-    self.config = config
-  @torch.inference_mode
-  def forward(
-      self,
-      tokens: torch.Tensor,
-      input_pos: torch.Tensor,
-      kv_cache: kv_utils.KVCache,
-  ) -> dict[torch.Tensor, kv_utils.KVCache]:
-    _, seq_len = tokens.size()
-    assert self.config.max_seq_len >= seq_len, (
-        f"Cannot forward sequence of length {seq_len}, max seq length is only"
-        f" {self.config.max_seq_len}"
-    )
-    assert len(self.transformer_blocks) == len(kv_cache.caches), (
-        "The number of transformer blocks and the number of KV cache entries"
-        " must be the same."
-    )
-    cos, sin = self.rope_cache
-    cos = cos.index_select(0, input_pos)
-    sin = sin.index_select(0, input_pos)
-    mask = self.mask_cache.index_select(2, input_pos)
-    mask = mask[:, :, :, : self.config.kv_cache_max]
-    # token embeddings of shape (b, t, n_embd)
-    x = self.tok_embedding(tokens)
-    updated_kv_entires = []
-    for i, block in enumerate(self.transformer_blocks):
-      kv_entry = kv_cache.caches[i] if kv_cache else None
-      x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
-      if kv_entry:
-        updated_kv_entires.append(kv_entry)
-    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
-    x = self.final_norm(x)
-    logits = self.lm_head(x)  # (b, t, vocab_size)
-    return {"logits": logits, "kv_cache": updated_kv_cache}
+TENSOR_NAMES = model_builder.TENSOR_NAMES_WITH_SEPARATE_LM_HEAD
 def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
@@ -150,6 +58,7 @@ def get_model_config(kv_cache_max_len: int = 1024) -> cfg.ModelConfig:
       kv_cache_max_len=kv_cache_max_len,
       block_configs=block_config,
       final_norm_config=norm_config,
+      lm_head_share_weight_with_embedding=False,
       enable_hlfb=True,
   )
   return config
@@ -164,10 +73,11 @@ def get_fake_model_config(**kwargs) -> cfg.ModelConfig:
   return config
-def build_model(checkpoint_path: str, **kwargs) -> nn.Module:
-  config = get_model_config(**kwargs)
-  model = TinyLlama(config)
-  loader = loading_utils.ModelLoader(checkpoint_path, TENSOR_NAMES)
-  loader.load(model)
-  model.eval()
-  return model
+def build_model(
+    checkpoint_path: str, **kwargs
+) -> model_builder.DecoderOnlyModel:
+  return model_builder.build_decoder_only_model(
+      checkpoint_path=checkpoint_path,
+      config=get_model_config(**kwargs),
+      tensor_names=TENSOR_NAMES,
+  )

ai_edge_torch/generative/layers/model_config.py CHANGED Viewed

@@ -184,8 +184,14 @@ class ModelConfig:
       default_factory=NormalizationConfig
   )
+  # Scale factor of the embedding.
+  embedding_scale: Optional[float] = None
   # Use bias term within LLM's HEAD.
   lm_head_use_bias: bool = False
+  # Whether LLM's HEAD shares the weight of the embedding.
+  lm_head_share_weight_with_embedding: bool = True
   # Whether to turn on high-level function boundary.
   enable_hlfb: bool = False

ai_edge_torch/generative/test/test_loader.py CHANGED Viewed

@@ -19,6 +19,7 @@ import tempfile
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 from ai_edge_torch.generative.utilities import loader as loading_utils
+from ai_edge_torch.generative.utilities import model_builder
 import safetensors.torch
 import torch
@@ -71,7 +72,7 @@ class TestLoader(googletest.TestCase):
       safetensors.torch.save_file(test_weights, file_path)
       cfg = tiny_llama.get_model_config()
       cfg.num_layers = 1
-      model = tiny_llama.TinyLlama(cfg)
+      model = model_builder.DecoderOnlyModel(cfg)
       loader = loading_utils.ModelLoader(file_path, tiny_llama.TENSOR_NAMES)
       # if returns successfully, it means all the tensors were initiallized.

ai_edge_torch/generative/test/test_model_conversion.py CHANGED Viewed

@@ -21,6 +21,7 @@ from ai_edge_torch.generative.examples.test_models import toy_model_with_kv_cach
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
 from ai_edge_torch.generative.layers import kv_cache
 from ai_edge_torch.generative.test import utils as test_utils
+from ai_edge_torch.generative.utilities import model_builder
 import numpy as np
 import torch
@@ -163,7 +164,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_tiny_llama_multisig(self):
     config = tiny_llama.get_fake_model_config()
-    pytorch_model = tiny_llama.TinyLlama(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_multisig_model(config, pytorch_model, atol=1e-5, rtol=1e-5)

ai_edge_torch/generative/test/test_model_conversion_large.py CHANGED Viewed

@@ -29,6 +29,7 @@ from ai_edge_torch.generative.examples.stable_diffusion import clip as sd_clip
 from ai_edge_torch.generative.examples.stable_diffusion import decoder as sd_decoder
 from ai_edge_torch.generative.examples.stable_diffusion import diffusion as sd_diffusion
 from ai_edge_torch.generative.layers import kv_cache
+from ai_edge_torch.generative.utilities import model_builder
 from ai_edge_torch.generative.test import utils as test_utils
 import numpy as np
 import torch
@@ -90,7 +91,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_gemma1(self):
     config = gemma1.get_fake_model_config()
-    pytorch_model = gemma1.Gemma(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(
         config, pytorch_model, "serving_default", atol=1e-2, rtol=1e-5
     )
@@ -119,7 +120,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_phi2(self):
     config = phi2.get_fake_model_config()
-    pytorch_model = phi2.Phi2(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(
         config, pytorch_model, "serving_default", atol=1e-3, rtol=1e-3
     )
@@ -131,9 +132,7 @@ class TestModelConversion(googletest.TestCase):
   def test_phi3(self):
     config = phi3.get_fake_model_config()
     pytorch_model = phi3.Phi3_5Mini(config).eval()
-    self._test_model(
-        config, pytorch_model, "prefill", atol=1e-5, rtol=1e-5
-    )
+    self._test_model(config, pytorch_model, "prefill", atol=1e-5, rtol=1e-5)
   @googletest.skipIf(
       ai_edge_config.Config.use_torch_xla,
@@ -141,7 +140,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_smollm(self):
     config = smollm.get_fake_model_config()
-    pytorch_model = smollm.SmolLM(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-4, rtol=1e-5)
   @googletest.skipIf(
@@ -150,7 +149,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_openelm(self):
     config = openelm.get_fake_model_config()
-    pytorch_model = openelm.OpenELM(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-4, rtol=1e-5)
   @googletest.skipIf(
@@ -159,7 +158,7 @@ class TestModelConversion(googletest.TestCase):
   )
   def test_qwen(self):
     config = qwen.get_fake_model_config()
-    pytorch_model = qwen.Qwen(config).eval()
+    pytorch_model = model_builder.DecoderOnlyModel(config).eval()
     self._test_model(config, pytorch_model, "prefill", atol=1e-3, rtol=1e-5)
   @googletest.skipIf(

ai_edge_torch/generative/utilities/model_builder.py ADDED Viewed

@@ -0,0 +1,141 @@
+# Copyright 2024 The AI Edge Torch Authors.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""Utilities to be used for re-authoring transformer models."""
+import copy
+from ai_edge_torch.generative.layers import attention
+from ai_edge_torch.generative.layers import builder
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
+import ai_edge_torch.generative.layers.attention_utils as attn_utils
+import ai_edge_torch.generative.layers.model_config as cfg
+import ai_edge_torch.generative.utilities.loader as loading_utils
+import torch
+from torch import nn
+TENSOR_NAMES = loading_utils.ModelLoader.TensorNames(
+    ff_up_proj="model.layers.{}.mlp.up_proj",
+    ff_down_proj="model.layers.{}.mlp.down_proj",
+    ff_gate_proj="model.layers.{}.mlp.gate_proj",
+    attn_query_proj="model.layers.{}.self_attn.q_proj",
+    attn_key_proj="model.layers.{}.self_attn.k_proj",
+    attn_value_proj="model.layers.{}.self_attn.v_proj",
+    attn_output_proj="model.layers.{}.self_attn.o_proj",
+    pre_attn_norm="model.layers.{}.input_layernorm",
+    post_attn_norm="model.layers.{}.post_attention_layernorm",
+    embedding="model.embed_tokens",
+    final_norm="model.norm",
+)
+TENSOR_NAMES_WITH_SEPARATE_LM_HEAD = copy.copy(TENSOR_NAMES)
+TENSOR_NAMES_WITH_SEPARATE_LM_HEAD.lm_head = "lm_head"
+class DecoderOnlyModel(nn.Module):
+  """A simple decoder-only transformer model built from the Edge Generative API.
+  This model is used for re-authoring. model_config is used to specify the
+  details of model architecture and parameters.
+  It assumes that the attention configs for ROPE, i.e. head_dim, rotary_base,
+  and rotary_percentage are the same for all layers.
+  """
+  def __init__(self, config: cfg.ModelConfig):
+    super().__init__()
+    # Construct model layers.
+    self.tok_embedding = nn.Embedding(
+        config.vocab_size, config.embedding_dim, padding_idx=0
+    )
+    self.lm_head = nn.Linear(
+        config.embedding_dim, config.vocab_size, bias=config.lm_head_use_bias
+    )
+    if config.lm_head_share_weight_with_embedding:
+      self.lm_head.weight.data = self.tok_embedding.weight.data
+    self.transformer_blocks = nn.ModuleList(
+        attention.TransformerBlock(config.block_config(idx), config)
+        for idx in range(config.num_layers)
+    )
+    self.final_norm = builder.build_norm(
+        config.embedding_dim,
+        config.final_norm_config,
+    )
+    # ROPE parameters for all attn_configs are the same. Take the first one.
+    attn_config = config.block_config(0).attn_config
+    self.rope_cache = attn_utils.build_rope_cache(
+        size=config.kv_cache_max,
+        dim=int(attn_config.rotary_percentage * attn_config.head_dim),
+        base=attn_config.rotary_base,
+    )
+    self.mask_cache = attn_utils.build_causal_mask_cache(
+        size=config.kv_cache_max,
+    )
+    self.config = config
+  @torch.inference_mode
+  def forward(
+      self,
+      tokens: torch.Tensor,
+      input_pos: torch.Tensor,
+      kv_cache: kv_utils.KVCache,
+  ) -> dict[torch.Tensor, kv_utils.KVCache]:
+    _, seq_len = tokens.size()
+    assert self.config.max_seq_len >= seq_len, (
+        f"Cannot forward sequence of length {seq_len}, max seq length is only"
+        f" {self.config.max_seq_len}"
+    )
+    assert len(self.transformer_blocks) == len(kv_cache.caches), (
+        "The number of transformer blocks and the number of KV cache entries"
+        " must be the same."
+    )
+    cos, sin = self.rope_cache
+    cos = cos.index_select(0, input_pos)
+    sin = sin.index_select(0, input_pos)
+    mask = self.mask_cache.index_select(2, input_pos)
+    mask = mask[:, :, :, : self.config.kv_cache_max]
+    # token embeddings of shape (b, t, n_embd)
+    x = self.tok_embedding(tokens)
+    if self.config.embedding_scale is not None:
+      x = x * self.config.embedding_scale
+    updated_kv_entires = []
+    for i, block in enumerate(self.transformer_blocks):
+      kv_entry = kv_cache.caches[i] if kv_cache else None
+      x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
+      if kv_entry:
+        updated_kv_entires.append(kv_entry)
+    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
+    x = self.final_norm(x)
+    logits = self.lm_head(x)  # (b, t, vocab_size)
+    return {"logits": logits, "kv_cache": updated_kv_cache}
+def build_decoder_only_model(
+    checkpoint_path: str,
+    config: cfg.ModelConfig,
+    tensor_names: loading_utils.ModelLoader.TensorNames,
+) -> DecoderOnlyModel:
+  transformer = DecoderOnlyModel(config)
+  loader = loading_utils.ModelLoader(checkpoint_path, tensor_names)
+  loader.load(
+      transformer, strict=not config.lm_head_share_weight_with_embedding
+  )
+  transformer.eval()
+  return transformer

ai_edge_torch/lowertools/torch_xla_utils.py CHANGED Viewed

@@ -250,6 +250,7 @@ def merged_bundle_to_tfl_model(
         },
     )
     # Clean up intermediate memory early.
+    del tf_functions
     del tf_module
     del tf_concrete_funcs
     gc.collect()
@@ -271,6 +272,8 @@ def merged_bundle_to_tfl_model(
     conversion_utils.apply_tfl_converter_flags(converter, _tfl_converter_flags)
     tflite_model = converter.convert()
+    del converter
+    gc.collect()
     if (
         quant_config is not None

ai_edge_torch/version.py CHANGED Viewed

@@ -13,4 +13,4 @@
 # limitations under the License.
 # ==============================================================================
-__version__ = "0.3.0.dev20240930"
+__version__ = "0.3.0.dev20241003"

{ai_edge_torch_nightly-0.3.0.dev20240930.dist-info → ai_edge_torch_nightly-0.3.0.dev20241003.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: ai-edge-torch-nightly
-Version: 0.3.0.dev20240930
+Version: 0.3.0.dev20241003
 Summary: Supporting PyTorch models with the Google AI Edge TFLite runtime.
 Home-page: https://github.com/google-ai-edge/ai-edge-torch
 Keywords: On-Device ML,AI,Google,TFLite,PyTorch,LLMs,GenAI

ai-edge-torch-nightly 0.3.0.dev20240930__py3-none-any.whl → 0.3.0.dev20241003__py3-none-any.whl

ai-edge-torch-nightly 0.3.0.dev20240930py3-none-any.whl → 0.3.0.dev20241003py3-none-any.whl