PyPI - ai-edge-torch-nightly - Versions diffs - 0.2.0.dev20240710__py3-none-any.whl → 0.2.0.dev20240711__py3-none-any.whl - Mend

ai-edge-torch-nightly 0.2.0.dev20240710py3-none-any.whl → 0.2.0.dev20240711py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of ai-edge-torch-nightly might be problematic. Click here for more details.

Files changed (16) hide show

ai_edge_torch/generative/examples/stable_diffusion/clip.py CHANGED Viewed

@@ -23,16 +23,17 @@ import ai_edge_torch.generative.layers.model_config as cfg
 import ai_edge_torch.generative.utilities.loader as loading_utils
 TENSOR_NAMES = loading_utils.ModelLoader.TensorNames(
-    ff_up_proj="layers.{}.linear_1",
-    ff_down_proj="layers.{}.linear_2",
-    ff_gate_proj="layers.{}.linear_1",
-    attn_fused_qkv_proj="layers.{}.attention.in_proj",
-    attn_output_proj="layers.{}.attention.out_proj",
-    pre_attn_norm="layers.{}.layernorm_1",
-    pre_ff_norm="layers.{}.layernorm_2",
-    embedding="embedding.token_embedding",
-    embedding_position="embedding.position_value",
-    final_norm="layernorm",
+    ff_up_proj="cond_stage_model.transformer.text_model.encoder.layers.{}.mlp.fc1",
+    ff_down_proj="cond_stage_model.transformer.text_model.encoder.layers.{}.mlp.fc2",
+    attn_query_proj="cond_stage_model.transformer.text_model.encoder.layers.{}.self_attn.q_proj",
+    attn_key_proj="cond_stage_model.transformer.text_model.encoder.layers.{}.self_attn.k_proj",
+    attn_value_proj="cond_stage_model.transformer.text_model.encoder.layers.{}.self_attn.v_proj",
+    attn_output_proj="cond_stage_model.transformer.text_model.encoder.layers.{}.self_attn.out_proj",
+    pre_attn_norm="cond_stage_model.transformer.text_model.encoder.layers.{}.layer_norm1",
+    pre_ff_norm="cond_stage_model.transformer.text_model.encoder.layers.{}.layer_norm2",
+    embedding="cond_stage_model.transformer.text_model.embeddings.token_embedding",
+    embedding_position="cond_stage_model.transformer.text_model.embeddings.position_embedding.weight",
+    final_norm="cond_stage_model.transformer.text_model.final_layer_norm",
     lm_head=None,
 )
@@ -84,6 +85,7 @@ def get_model_config() -> cfg.ModelConfig:
       rotary_percentage=0.0,
       qkv_use_bias=True,
       qkv_transpose_before_split=True,
+      qkv_fused_interleaved=False,
       output_proj_use_bias=True,
       enable_kv_cache=False,
   )

ai_edge_torch/generative/examples/stable_diffusion/convert_to_tflite.py CHANGED Viewed

@@ -13,8 +13,10 @@
 # limitations under the License.
 # ==============================================================================
+import argparse
 import os
 from pathlib import Path
+from typing import Optional
 import torch
@@ -24,14 +26,36 @@ import ai_edge_torch.generative.examples.stable_diffusion.decoder as decoder
 import ai_edge_torch.generative.examples.stable_diffusion.diffusion as diffusion
 from ai_edge_torch.generative.examples.stable_diffusion.encoder import Encoder
 import ai_edge_torch.generative.examples.stable_diffusion.util as util
-import ai_edge_torch.generative.utilities.loader as loading_utils
 import ai_edge_torch.generative.utilities.stable_diffusion_loader as stable_diffusion_loader
+arg_parser = argparse.ArgumentParser()
+arg_parser.add_argument(
+    '--clip_ckpt', type=str, help='Path to source CLIP model checkpoint', required=True
+)
+arg_parser.add_argument(
+    '--diffusion_ckpt',
+    type=str,
+    help='Path to source diffusion model checkpoint',
+    required=True,
+)
+arg_parser.add_argument(
+    '--decoder_ckpt',
+    type=str,
+    help='Path to source image decoder model checkpoint',
+    required=True,
+)
+arg_parser.add_argument(
+    '--output_dir',
+    type=str,
+    help='Path to the converted TF Lite directory.',
+    required=True,
+)
 @torch.inference_mode
 def convert_stable_diffusion_to_tflite(
+    output_dir: str,
     clip_ckpt_path: str,
-    encoder_ckpt_path: str,
     diffusion_ckpt_path: str,
     decoder_ckpt_path: str,
     image_height: int = 512,
@@ -39,23 +63,28 @@ def convert_stable_diffusion_to_tflite(
 ):
   clip_model = clip.CLIP(clip.get_model_config())
-  loader = loading_utils.ModelLoader(clip_ckpt_path, clip.TENSOR_NAMES)
+  loader = stable_diffusion_loader.ClipModelLoader(
+      clip_ckpt_path,
+      clip.TENSOR_NAMES,
+  )
   loader.load(clip_model, strict=False)
-  encoder = Encoder()
-  encoder.load_state_dict(torch.load(encoder_ckpt_path))
   diffusion_model = diffusion.Diffusion(diffusion.get_model_config(2))
   diffusion_loader = stable_diffusion_loader.DiffusionModelLoader(
-      diffusion_ckpt_path, diffusion.TENSORS_NAMES
+      diffusion_ckpt_path, diffusion.TENSOR_NAMES
   )
-  diffusion_loader.load(diffusion_model)
+  diffusion_loader.load(diffusion_model, strict=False)
   decoder_model = decoder.Decoder(decoder.get_model_config())
   decoder_loader = stable_diffusion_loader.AutoEncoderModelLoader(
-      decoder_ckpt_path, decoder.TENSORS_NAMES
+      decoder_ckpt_path, decoder.TENSOR_NAMES
   )
-  decoder_loader.load(decoder_model)
+  decoder_loader.load(decoder_model, strict=False)
+  # TODO(yichunk): enable image encoder conversion
+  # if encoder_ckpt_path is not None:
+  #   encoder = Encoder()
+  #   encoder.load_state_dict(torch.load(encoder_ckpt_path))
   # Tensors used to trace the model graph during conversion.
   n_tokens = 77
@@ -67,50 +96,47 @@ def convert_stable_diffusion_to_tflite(
       (len_prompt, 4, image_height // 8, image_width // 8), 0, dtype=torch.float32
   )
-  input_latents = encoder(input_image, noise)
+  input_latents = torch.zeros_like(noise)
   context_cond = clip_model(prompt_tokens)
   context_uncond = torch.zeros_like(context_cond)
   context = torch.cat([context_cond, context_uncond], axis=0)
   time_embedding = util.get_time_embedding(timestamp)
+  if not os.path.exists(output_dir):
+    Path(output_dir).mkdir(parents=True, exist_ok=True)
+  # TODO(yichunk): convert to multi signature tflite model.
   # CLIP text encoder
   ai_edge_torch.signature('encode', clip_model, (prompt_tokens,)).convert().export(
-      '/tmp/stable_diffusion/clip.tflite'
+      f'{output_dir}/clip.tflite'
   )
-  # TODO(yichunk): convert to multi signature tflite model.
+  # TODO(yichunk): enable image encoder conversion
   # Image encoder
-  ai_edge_torch.signature('encode', encoder, (input_image, noise)).convert().export(
-      '/tmp/stable_diffusion/encoder.tflite'
-  )
+  # ai_edge_torch.signature('encode', encoder, (input_image, noise)).convert().export(
+  #     f'{output_dir}/encoder.tflite'
+  # )
   # Diffusion
   ai_edge_torch.signature(
       'diffusion',
       diffusion_model,
       (torch.repeat_interleave(input_latents, 2, 0), context, time_embedding),
-  ).convert().export('/tmp/stable_diffusion/diffusion.tflite')
+  ).convert().export(f'{output_dir}/diffusion.tflite')
   # Image decoder
   ai_edge_torch.signature('decode', decoder_model, (input_latents,)).convert().export(
-      '/tmp/stable_diffusion/decoder.tflite'
+      f'{output_dir}/decoder.tflite'
   )
 if __name__ == '__main__':
+  args = arg_parser.parse_args()
   convert_stable_diffusion_to_tflite(
-      clip_ckpt_path=os.path.join(
-          Path.home(), 'Downloads/stable_diffusion_data/ckpt/clip.pt'
-      ),
-      encoder_ckpt_path=os.path.join(
-          Path.home(), 'Downloads/stable_diffusion_data/ckpt/encoder.pt'
-      ),
-      diffusion_ckpt_path=os.path.join(
-          Path.home(), 'Downloads/stable_diffusion_data/ckpt/diffusion.pt'
-      ),
-      decoder_ckpt_path=os.path.join(
-          Path.home(), 'Downloads/stable_diffusion_data/ckpt/decoder.pt'
-      ),
+      output_dir=args.output_dir,
+      clip_ckpt_path=args.clip_ckpt,
+      diffusion_ckpt_path=args.diffusion_ckpt,
+      decoder_ckpt_path=args.decoder_ckpt,
       image_height=512,
       image_width=512,
   )

ai_edge_torch/generative/examples/stable_diffusion/decoder.py CHANGED Viewed

@@ -22,29 +22,31 @@ import ai_edge_torch.generative.layers.unet.blocks_2d as blocks_2d
 import ai_edge_torch.generative.layers.unet.model_config as unet_cfg
 import ai_edge_torch.generative.utilities.stable_diffusion_loader as stable_diffusion_loader
-TENSORS_NAMES = stable_diffusion_loader.AutoEncoderModelLoader.TensorNames(
-    post_quant_conv="0",
-    conv_in="1",
+TENSOR_NAMES = stable_diffusion_loader.AutoEncoderModelLoader.TensorNames(
+    post_quant_conv="first_stage_model.post_quant_conv",
+    conv_in="first_stage_model.decoder.conv_in",
     mid_block_tensor_names=stable_diffusion_loader.MidBlockTensorNames(
         residual_block_tensor_names=[
             stable_diffusion_loader.ResidualBlockTensorNames(
-                norm_1="2.groupnorm_1",
-                norm_2="2.groupnorm_2",
-                conv_1="2.conv_1",
-                conv_2="2.conv_2",
+                norm_1="first_stage_model.decoder.mid.block_1.norm1",
+                norm_2="first_stage_model.decoder.mid.block_1.norm2",
+                conv_1="first_stage_model.decoder.mid.block_1.conv1",
+                conv_2="first_stage_model.decoder.mid.block_1.conv2",
             ),
             stable_diffusion_loader.ResidualBlockTensorNames(
-                norm_1="4.groupnorm_1",
-                norm_2="4.groupnorm_2",
-                conv_1="4.conv_1",
-                conv_2="4.conv_2",
+                norm_1="first_stage_model.decoder.mid.block_2.norm1",
+                norm_2="first_stage_model.decoder.mid.block_2.norm2",
+                conv_1="first_stage_model.decoder.mid.block_2.conv1",
+                conv_2="first_stage_model.decoder.mid.block_2.conv2",
             ),
         ],
         attention_block_tensor_names=[
             stable_diffusion_loader.AttentionBlockTensorNames(
-                norm="3.groupnorm",
-                fused_qkv_proj="3.attention.in_proj",
-                output_proj="3.attention.out_proj",
+                norm="first_stage_model.decoder.mid.attn_1.norm",
+                q_proj="first_stage_model.decoder.mid.attn_1.q",
+                k_proj="first_stage_model.decoder.mid.attn_1.k",
+                v_proj="first_stage_model.decoder.mid.attn_1.v",
+                output_proj="first_stage_model.decoder.mid.attn_1.proj_out",
             )
         ],
     ),
@@ -52,99 +54,99 @@ TENSORS_NAMES = stable_diffusion_loader.AutoEncoderModelLoader.TensorNames(
         stable_diffusion_loader.UpDecoderBlockTensorNames(
             residual_block_tensor_names=[
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="5.groupnorm_1",
-                    norm_2="5.groupnorm_2",
-                    conv_1="5.conv_1",
-                    conv_2="5.conv_2",
+                    norm_1="first_stage_model.decoder.up.3.block.0.norm1",
+                    norm_2="first_stage_model.decoder.up.3.block.0.norm2",
+                    conv_1="first_stage_model.decoder.up.3.block.0.conv1",
+                    conv_2="first_stage_model.decoder.up.3.block.0.conv2",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="6.groupnorm_1",
-                    norm_2="6.groupnorm_2",
-                    conv_1="6.conv_1",
-                    conv_2="6.conv_2",
+                    norm_1="first_stage_model.decoder.up.3.block.1.norm1",
+                    norm_2="first_stage_model.decoder.up.3.block.1.norm2",
+                    conv_1="first_stage_model.decoder.up.3.block.1.conv1",
+                    conv_2="first_stage_model.decoder.up.3.block.1.conv2",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="7.groupnorm_1",
-                    norm_2="7.groupnorm_2",
-                    conv_1="7.conv_1",
-                    conv_2="7.conv_2",
+                    norm_1="first_stage_model.decoder.up.3.block.2.norm1",
+                    norm_2="first_stage_model.decoder.up.3.block.2.norm2",
+                    conv_1="first_stage_model.decoder.up.3.block.2.conv1",
+                    conv_2="first_stage_model.decoder.up.3.block.2.conv2",
                 ),
             ],
-            upsample_conv="9",
+            upsample_conv="first_stage_model.decoder.up.3.upsample.conv",
         ),
         stable_diffusion_loader.UpDecoderBlockTensorNames(
             residual_block_tensor_names=[
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="10.groupnorm_1",
-                    norm_2="10.groupnorm_2",
-                    conv_1="10.conv_1",
-                    conv_2="10.conv_2",
+                    norm_1="first_stage_model.decoder.up.2.block.0.norm1",
+                    norm_2="first_stage_model.decoder.up.2.block.0.norm2",
+                    conv_1="first_stage_model.decoder.up.2.block.0.conv1",
+                    conv_2="first_stage_model.decoder.up.2.block.0.conv2",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="11.groupnorm_1",
-                    norm_2="11.groupnorm_2",
-                    conv_1="11.conv_1",
-                    conv_2="11.conv_2",
+                    norm_1="first_stage_model.decoder.up.2.block.1.norm1",
+                    norm_2="first_stage_model.decoder.up.2.block.1.norm2",
+                    conv_1="first_stage_model.decoder.up.2.block.1.conv1",
+                    conv_2="first_stage_model.decoder.up.2.block.1.conv2",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="12.groupnorm_1",
-                    norm_2="12.groupnorm_2",
-                    conv_1="12.conv_1",
-                    conv_2="12.conv_2",
+                    norm_1="first_stage_model.decoder.up.2.block.2.norm1",
+                    norm_2="first_stage_model.decoder.up.2.block.2.norm2",
+                    conv_1="first_stage_model.decoder.up.2.block.2.conv1",
+                    conv_2="first_stage_model.decoder.up.2.block.2.conv2",
                 ),
             ],
-            upsample_conv="14",
+            upsample_conv="first_stage_model.decoder.up.2.upsample.conv",
         ),
         stable_diffusion_loader.UpDecoderBlockTensorNames(
             residual_block_tensor_names=[
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="15.groupnorm_1",
-                    norm_2="15.groupnorm_2",
-                    conv_1="15.conv_1",
-                    conv_2="15.conv_2",
-                    residual_layer="15.residual_layer",
+                    norm_1="first_stage_model.decoder.up.1.block.0.norm1",
+                    norm_2="first_stage_model.decoder.up.1.block.0.norm2",
+                    conv_1="first_stage_model.decoder.up.1.block.0.conv1",
+                    conv_2="first_stage_model.decoder.up.1.block.0.conv2",
+                    residual_layer="first_stage_model.decoder.up.1.block.0.nin_shortcut",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="16.groupnorm_1",
-                    norm_2="16.groupnorm_2",
-                    conv_1="16.conv_1",
-                    conv_2="16.conv_2",
+                    norm_1="first_stage_model.decoder.up.1.block.1.norm1",
+                    norm_2="first_stage_model.decoder.up.1.block.1.norm2",
+                    conv_1="first_stage_model.decoder.up.1.block.1.conv1",
+                    conv_2="first_stage_model.decoder.up.1.block.1.conv2",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="17.groupnorm_1",
-                    norm_2="17.groupnorm_2",
-                    conv_1="17.conv_1",
-                    conv_2="17.conv_2",
+                    norm_1="first_stage_model.decoder.up.1.block.2.norm1",
+                    norm_2="first_stage_model.decoder.up.1.block.2.norm2",
+                    conv_1="first_stage_model.decoder.up.1.block.2.conv1",
+                    conv_2="first_stage_model.decoder.up.1.block.2.conv2",
                 ),
             ],
-            upsample_conv="19",
+            upsample_conv="first_stage_model.decoder.up.1.upsample.conv",
         ),
         stable_diffusion_loader.UpDecoderBlockTensorNames(
             residual_block_tensor_names=[
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="20.groupnorm_1",
-                    norm_2="20.groupnorm_2",
-                    conv_1="20.conv_1",
-                    conv_2="20.conv_2",
-                    residual_layer="20.residual_layer",
+                    norm_1="first_stage_model.decoder.up.0.block.0.norm1",
+                    norm_2="first_stage_model.decoder.up.0.block.0.norm2",
+                    conv_1="first_stage_model.decoder.up.0.block.0.conv1",
+                    conv_2="first_stage_model.decoder.up.0.block.0.conv2",
+                    residual_layer="first_stage_model.decoder.up.0.block.0.nin_shortcut",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="21.groupnorm_1",
-                    norm_2="21.groupnorm_2",
-                    conv_1="21.conv_1",
-                    conv_2="21.conv_2",
+                    norm_1="first_stage_model.decoder.up.0.block.1.norm1",
+                    norm_2="first_stage_model.decoder.up.0.block.1.norm2",
+                    conv_1="first_stage_model.decoder.up.0.block.1.conv1",
+                    conv_2="first_stage_model.decoder.up.0.block.1.conv2",
                 ),
                 stable_diffusion_loader.ResidualBlockTensorNames(
-                    norm_1="22.groupnorm_1",
-                    norm_2="22.groupnorm_2",
-                    conv_1="22.conv_1",
-                    conv_2="22.conv_2",
+                    norm_1="first_stage_model.decoder.up.0.block.2.norm1",
+                    norm_2="first_stage_model.decoder.up.0.block.2.norm2",
+                    conv_1="first_stage_model.decoder.up.0.block.2.conv1",
+                    conv_2="first_stage_model.decoder.up.0.block.2.conv2",
                 ),
             ],
         ),
     ],
-    final_norm="23",
-    conv_out="25",
+    final_norm="first_stage_model.decoder.norm_out",
+    conv_out="first_stage_model.decoder.conv_out",
 )
@@ -288,6 +290,7 @@ def get_model_config() -> unet_cfg.AutoEncoderConfig:
           output_proj_use_bias=True,
           enable_kv_cache=False,
           qkv_transpose_before_split=True,
+          qkv_fused_interleaved=False,
           rotary_percentage=0.0,
       ),
   )

ai_edge_torch/generative/examples/stable_diffusion/diffusion.py CHANGED Viewed

@@ -26,12 +26,12 @@ _down_encoder_blocks_tensor_names = [
     stable_diffusion_loader.DownEncoderBlockTensorNames(
         residual_block_tensor_names=[
             stable_diffusion_loader.ResidualBlockTensorNames(
-                norm_1=f"unet.encoders.{i*3+j+1}.0.groupnorm_feature",
-                conv_1=f"unet.encoders.{i*3+j+1}.0.conv_feature",
-                norm_2=f"unet.encoders.{i*3+j+1}.0.groupnorm_merged",
-                conv_2=f"unet.encoders.{i*3+j+1}.0.conv_merged",
-                time_embedding=f"unet.encoders.{i*3+j+1}.0.linear_time",
-                residual_layer=f"unet.encoders.{i*3+j+1}.0.residual_layer"
+                norm_1=f"model.diffusion_model.input_blocks.{i*3+j+1}.0.in_layers.0",
+                conv_1=f"model.diffusion_model.input_blocks.{i*3+j+1}.0.in_layers.2",
+                norm_2=f"model.diffusion_model.input_blocks.{i*3+j+1}.0.out_layers.0",
+                conv_2=f"model.diffusion_model.input_blocks.{i*3+j+1}.0.out_layers.3",
+                time_embedding=f"model.diffusion_model.input_blocks.{i*3+j+1}.0.emb_layers.1",
+                residual_layer=f"model.diffusion_model.input_blocks.{i*3+j+1}.0.skip_connection"
                 if (i * 3 + j + 1) in [4, 7]
                 else None,
             )
@@ -39,32 +39,36 @@ _down_encoder_blocks_tensor_names = [
         ],
         transformer_block_tensor_names=[
             stable_diffusion_loader.TransformerBlockTensorNames(
-                pre_conv_norm=f"unet.encoders.{i*3+j+1}.1.groupnorm",
-                conv_in=f"unet.encoders.{i*3+j+1}.1.conv_input",
-                conv_out=f"unet.encoders.{i*3+j+1}.1.conv_output",
+                pre_conv_norm=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.norm",
+                conv_in=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.proj_in",
+                conv_out=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.proj_out",
                 self_attention=stable_diffusion_loader.AttentionBlockTensorNames(
-                    norm=f"unet.encoders.{i*3+j+1}.1.layernorm_1",
-                    fused_qkv_proj=f"unet.encoders.{i*3+j+1}.1.attention_1.in_proj",
-                    output_proj=f"unet.encoders.{i*3+j+1}.1.attention_1.out_proj",
+                    norm=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.norm1",
+                    q_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn1.to_q",
+                    k_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn1.to_k",
+                    v_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn1.to_v",
+                    output_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn1.to_out.0",
                 ),
                 cross_attention=stable_diffusion_loader.CrossAttentionBlockTensorNames(
-                    norm=f"unet.encoders.{i*3+j+1}.1.layernorm_2",
-                    q_proj=f"unet.encoders.{i*3+j+1}.1.attention_2.q_proj",
-                    k_proj=f"unet.encoders.{i*3+j+1}.1.attention_2.k_proj",
-                    v_proj=f"unet.encoders.{i*3+j+1}.1.attention_2.v_proj",
-                    output_proj=f"unet.encoders.{i*3+j+1}.1.attention_2.out_proj",
+                    norm=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.norm2",
+                    q_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn2.to_q",
+                    k_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn2.to_k",
+                    v_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn2.to_v",
+                    output_proj=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.attn2.to_out.0",
                 ),
                 feed_forward=stable_diffusion_loader.FeedForwardBlockTensorNames(
-                    norm=f"unet.encoders.{i*3+j+1}.1.layernorm_3",
-                    ge_glu=f"unet.encoders.{i*3+j+1}.1.linear_geglu_1",
-                    w2=f"unet.encoders.{i*3+j+1}.1.linear_geglu_2",
+                    norm=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.norm3",
+                    ge_glu=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.ff.net.0.proj",
+                    w2=f"model.diffusion_model.input_blocks.{i*3+j+1}.1.transformer_blocks.0.ff.net.2",
                 ),
             )
             for j in range(2)
         ]
         if i < 3
         else None,
-        downsample_conv=f"unet.encoders.{i*3+3}.0" if i < 3 else None,
+        downsample_conv=f"model.diffusion_model.input_blocks.{i*3+3}.0.op"
+        if i < 3
+        else None,
     )
     for i in range(4)
 ]
@@ -72,35 +76,37 @@ _down_encoder_blocks_tensor_names = [
 _mid_block_tensor_names = stable_diffusion_loader.MidBlockTensorNames(
     residual_block_tensor_names=[
         stable_diffusion_loader.ResidualBlockTensorNames(
-            norm_1=f"unet.bottleneck.{i}.groupnorm_feature",
-            conv_1=f"unet.bottleneck.{i}.conv_feature",
-            norm_2=f"unet.bottleneck.{i}.groupnorm_merged",
-            conv_2=f"unet.bottleneck.{i}.conv_merged",
-            time_embedding=f"unet.bottleneck.{i}.linear_time",
+            norm_1=f"model.diffusion_model.middle_block.{i}.in_layers.0",
+            conv_1=f"model.diffusion_model.middle_block.{i}.in_layers.2",
+            norm_2=f"model.diffusion_model.middle_block.{i}.out_layers.0",
+            conv_2=f"model.diffusion_model.middle_block.{i}.out_layers.3",
+            time_embedding=f"model.diffusion_model.middle_block.{i}.emb_layers.1",
         )
         for i in [0, 2]
     ],
     transformer_block_tensor_names=[
         stable_diffusion_loader.TransformerBlockTensorNames(
-            pre_conv_norm=f"unet.bottleneck.{i}.groupnorm",
-            conv_in=f"unet.bottleneck.{i}.conv_input",
-            conv_out=f"unet.bottleneck.{i}.conv_output",
+            pre_conv_norm=f"model.diffusion_model.middle_block.{i}.norm",
+            conv_in=f"model.diffusion_model.middle_block.{i}.proj_in",
+            conv_out=f"model.diffusion_model.middle_block.{i}.proj_out",
             self_attention=stable_diffusion_loader.AttentionBlockTensorNames(
-                norm=f"unet.bottleneck.{i}.layernorm_1",
-                fused_qkv_proj=f"unet.bottleneck.{i}.attention_1.in_proj",
-                output_proj=f"unet.bottleneck.{i}.attention_1.out_proj",
+                norm=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.norm1",
+                q_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn1.to_q",
+                k_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn1.to_k",
+                v_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn1.to_v",
+                output_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn1.to_out.0",
             ),
             cross_attention=stable_diffusion_loader.CrossAttentionBlockTensorNames(
-                norm=f"unet.bottleneck.{i}.layernorm_2",
-                q_proj=f"unet.bottleneck.{i}.attention_2.q_proj",
-                k_proj=f"unet.bottleneck.{i}.attention_2.k_proj",
-                v_proj=f"unet.bottleneck.{i}.attention_2.v_proj",
-                output_proj=f"unet.bottleneck.{i}.attention_2.out_proj",
+                norm=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.norm2",
+                q_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn2.to_q",
+                k_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn2.to_k",
+                v_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn2.to_v",
+                output_proj=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.attn2.to_out.0",
             ),
             feed_forward=stable_diffusion_loader.FeedForwardBlockTensorNames(
-                norm=f"unet.bottleneck.{i}.layernorm_3",
-                ge_glu=f"unet.bottleneck.{i}.linear_geglu_1",
-                w2=f"unet.bottleneck.{i}.linear_geglu_2",
+                norm=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.norm3",
+                ge_glu=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.ff.net.0.proj",
+                w2=f"model.diffusion_model.middle_block.{i}.transformer_blocks.0.ff.net.2",
             ),
         )
         for i in [1]
@@ -111,58 +117,59 @@ _up_decoder_blocks_tensor_names = [
     stable_diffusion_loader.SkipUpDecoderBlockTensorNames(
         residual_block_tensor_names=[
             stable_diffusion_loader.ResidualBlockTensorNames(
-                norm_1=f"unet.decoders.{i*3+j}.0.groupnorm_feature",
-                conv_1=f"unet.decoders.{i*3+j}.0.conv_feature",
-                norm_2=f"unet.decoders.{i*3+j}.0.groupnorm_merged",
-                conv_2=f"unet.decoders.{i*3+j}.0.conv_merged",
-                time_embedding=f"unet.decoders.{i*3+j}.0.linear_time",
-                residual_layer=f"unet.decoders.{i*3+j}.0.residual_layer",
+                norm_1=f"model.diffusion_model.output_blocks.{i*3+j}.0.in_layers.0",
+                conv_1=f"model.diffusion_model.output_blocks.{i*3+j}.0.in_layers.2",
+                norm_2=f"model.diffusion_model.output_blocks.{i*3+j}.0.out_layers.0",
+                conv_2=f"model.diffusion_model.output_blocks.{i*3+j}.0.out_layers.3",
+                time_embedding=f"model.diffusion_model.output_blocks.{i*3+j}.0.emb_layers.1",
+                residual_layer=f"model.diffusion_model.output_blocks.{i*3+j}.0.skip_connection",
             )
             for j in range(3)
         ],
         transformer_block_tensor_names=[
             stable_diffusion_loader.TransformerBlockTensorNames(
-                pre_conv_norm=f"unet.decoders.{i*3+j}.1.groupnorm",
-                conv_in=f"unet.decoders.{i*3+j}.1.conv_input",
-                conv_out=f"unet.decoders.{i*3+j}.1.conv_output",
+                pre_conv_norm=f"model.diffusion_model.output_blocks.{i*3+j}.1.norm",
+                conv_in=f"model.diffusion_model.output_blocks.{i*3+j}.1.proj_in",
+                conv_out=f"model.diffusion_model.output_blocks.{i*3+j}.1.proj_out",
                 self_attention=stable_diffusion_loader.AttentionBlockTensorNames(
-                    norm=f"unet.decoders.{i*3+j}.1.layernorm_1",
-                    fused_qkv_proj=f"unet.decoders.{i*3+j}.1.attention_1.in_proj",
-                    output_proj=f"unet.decoders.{i*3+j}.1.attention_1.out_proj",
+                    norm=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.norm1",
+                    q_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn1.to_q",
+                    k_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn1.to_k",
+                    v_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn1.to_v",
+                    output_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn1.to_out.0",
                 ),
                 cross_attention=stable_diffusion_loader.CrossAttentionBlockTensorNames(
-                    norm=f"unet.decoders.{i*3+j}.1.layernorm_2",
-                    q_proj=f"unet.decoders.{i*3+j}.1.attention_2.q_proj",
-                    k_proj=f"unet.decoders.{i*3+j}.1.attention_2.k_proj",
-                    v_proj=f"unet.decoders.{i*3+j}.1.attention_2.v_proj",
-                    output_proj=f"unet.decoders.{i*3+j}.1.attention_2.out_proj",
+                    norm=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.norm2",
+                    q_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn2.to_q",
+                    k_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn2.to_k",
+                    v_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn2.to_v",
+                    output_proj=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.attn2.to_out.0",
                 ),
                 feed_forward=stable_diffusion_loader.FeedForwardBlockTensorNames(
-                    norm=f"unet.decoders.{i*3+j}.1.layernorm_3",
-                    ge_glu=f"unet.decoders.{i*3+j}.1.linear_geglu_1",
-                    w2=f"unet.decoders.{i*3+j}.1.linear_geglu_2",
+                    norm=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.norm3",
+                    ge_glu=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.ff.net.0.proj",
+                    w2=f"model.diffusion_model.output_blocks.{i*3+j}.1.transformer_blocks.0.ff.net.2",
                 ),
             )
             for j in range(3)
         ]
         if i > 0
         else None,
-        upsample_conv=f"unet.decoders.{i*3+2}.2.conv"
+        upsample_conv=f"model.diffusion_model.output_blocks.{i*3+2}.2.conv"
         if 0 < i < 3
-        else (f"unet.decoders.2.1.conv" if i == 0 else None),
+        else (f"model.diffusion_model.output_blocks.2.1.conv" if i == 0 else None),
     )
     for i in range(4)
 ]
-TENSORS_NAMES = stable_diffusion_loader.DiffusionModelLoader.TensorNames(
+TENSOR_NAMES = stable_diffusion_loader.DiffusionModelLoader.TensorNames(
     time_embedding=stable_diffusion_loader.TimeEmbeddingTensorNames(
-        w1="time_embedding.linear_1",
-        w2="time_embedding.linear_2",
+        w1="model.diffusion_model.time_embed.0",
+        w2="model.diffusion_model.time_embed.2",
     ),
-    conv_in="unet.encoders.0.0",
-    conv_out="final.conv",
-    final_norm="final.groupnorm",
+    conv_in="model.diffusion_model.input_blocks.0.0",
+    conv_out="model.diffusion_model.out.2",
+    final_norm="model.diffusion_model.out.0",
     down_encoder_blocks_tensor_names=_down_encoder_blocks_tensor_names,
     mid_block_tensor_names=_mid_block_tensor_names,
     up_decoder_blocks_tensor_names=_up_decoder_blocks_tensor_names,
@@ -249,6 +256,7 @@ class Diffusion(nn.Module):
         qkv_use_bias=False,
         output_proj_use_bias=True,
         enable_kv_cache=False,
+        qkv_fused_interleaved=False,
     )
     # Down encoders.
@@ -280,7 +288,7 @@ class Diffusion(nn.Module):
                         stride=2,
                         padding=config.downsample_padding,
                     ),
-                    transformer_block_config=unet_cfg.TransformerBlock2Dconfig(
+                    transformer_block_config=unet_cfg.TransformerBlock2DConfig(
                         attention_block_config=unet_cfg.AttentionBlock2DConfig(
                             dim=output_channel,
                             attention_batch_size=config.transformer_batch_size,
@@ -340,7 +348,7 @@ class Diffusion(nn.Module):
             ),
             num_layers=config.mid_block_layers,
             time_embedding_channels=config.time_embedding_blocks_dim,
-            transformer_block_config=unet_cfg.TransformerBlock2Dconfig(
+            transformer_block_config=unet_cfg.TransformerBlock2DConfig(
                 attention_block_config=unet_cfg.AttentionBlock2DConfig(
                     dim=mid_block_channels,
                     attention_batch_size=config.transformer_batch_size,
@@ -401,7 +409,7 @@ class Diffusion(nn.Module):
                         mode=unet_cfg.SamplingType.NEAREST,
                         scale_factor=2,
                     ),
-                    transformer_block_config=unet_cfg.TransformerBlock2Dconfig(
+                    transformer_block_config=unet_cfg.TransformerBlock2DConfig(
                         attention_block_config=unet_cfg.AttentionBlock2DConfig(
                             dim=output_channel,
                             attention_batch_size=config.transformer_batch_size,

ai_edge_torch/generative/examples/stable_diffusion/pipeline.py CHANGED Viewed

@@ -167,7 +167,7 @@ def run_tflite_pipeline(
   if input_image:
     if not hasattr(model, 'encoder'):
       raise AttributeError(
-          'Stable Diffusion must be initilaized with encoder to accept input_image.'
+          'Stable Diffusion must be initialized with encoder to accept input_image.'
       )
     input_image = input_image.resize((width, height))
     input_image_np = np.array(input_image).astype(np.float32)

ai_edge_torch/generative/examples/t5/t5_attention.py CHANGED Viewed

@@ -27,6 +27,8 @@ import ai_edge_torch.generative.layers.model_config as cfg
 from ai_edge_torch.generative.layers.scaled_dot_product_attention import scaled_dot_product_attention  # NOQA
 from ai_edge_torch.generative.layers.scaled_dot_product_attention import scaled_dot_product_attention_with_hlfb  # NOQA
+BATCH_SIZE = 1
 class EncoderDecoderBlock(nn.Module):
@@ -44,6 +46,7 @@ class EncoderDecoderBlock(nn.Module):
     super().__init__()
     self.atten_func = T5Attention(
+        BATCH_SIZE,
         config.embedding_dim,
         config.attn_config,
         config.pre_attention_norm_config,
@@ -54,6 +57,7 @@ class EncoderDecoderBlock(nn.Module):
     # For a decoder, we add a cross attention.
     if config.is_decoder:
       self.cross_atten_func = T5Attention(
+          BATCH_SIZE,
           config.embedding_dim,
           config.attn_config,
           config.pre_attention_norm_config,
@@ -127,6 +131,7 @@ class T5Attention(CrossAttention):
   def __init__(
       self,
+      batch: int,
       dim: int,
       config: cfg.AttentionConfig,
       norm_config: cfg.NormalizationConfig,
@@ -144,7 +149,7 @@ class T5Attention(CrossAttention):
       enable_hlfb (bool): whether hlfb is enabled or not.
       has_relative_attention_bias (bool): whether we compute relative bias.
     """
-    super().__init__(dim, dim, config, kv_cache_max, enable_hlfb)
+    super().__init__(batch, dim, dim, config, kv_cache_max, enable_hlfb)
     self.pre_atten_norm = builder.build_norm(dim, norm_config)
     self.has_relative_attention_bias = has_relative_attention_bias

ai_edge_torch/generative/layers/model_config.py CHANGED Viewed

@@ -68,6 +68,10 @@ class AttentionConfig:
   qkv_transpose_before_split: bool = False
   # Whether to use bias with Query, Key, and Value projection.
   qkv_use_bias: bool = False
+  # Whether the fused q, k, v projection weights interleaves q, k, v heads.
+  # If True, the projection weights are in format [q_head_0, k_head_0, v_head_0, q_head_1, k_head_1, v_head_1, ...]
+  # If False, the projection weights are in format [q_head_0, q_head_1, ..., k_head_0, k_head_1, ... v_head_0, v_head_1, ...]
+  qkv_fused_interleaved: bool = True
   # Whether to use bias with attention output projection.
   output_proj_use_bias: bool = False
   enable_kv_cache: bool = True

ai_edge_torch/generative/layers/unet/blocks_2d.py CHANGED Viewed

@@ -272,7 +272,7 @@ class TransformerBlock2D(nn.Module):
   """
-  def __init__(self, config: unet_cfg.TransformerBlock2Dconfig):
+  def __init__(self, config: unet_cfg.TransformerBlock2DConfig):
     """Initialize an instance of the TransformerBlock2D.
     Args:

ai_edge_torch/generative/layers/unet/model_config.py CHANGED Viewed

@@ -85,7 +85,7 @@ class FeedForwardBlock2DConfig:
 @dataclass
-class TransformerBlock2Dconfig:
+class TransformerBlock2DConfig:
   pre_conv_normalization_config: layers_cfg.NormalizationConfig
   attention_block_config: AttentionBlock2DConfig
   cross_attention_block_config: CrossAttentionBlock2DConfig
@@ -108,7 +108,7 @@ class UpDecoderBlock2DConfig:
   # Optional sampling config if add_upsample is True.
   sampling_config: Optional[UpSamplingConfig] = None
   # Optional config of transformer blocks interleaved with residual blocks
-  transformer_block_config: Optional[TransformerBlock2Dconfig] = None
+  transformer_block_config: Optional[TransformerBlock2DConfig] = None
   # Optional dimension of context tensor if context tensor is given as input.
   context_dim: Optional[int] = None
@@ -131,7 +131,7 @@ class SkipUpDecoderBlock2DConfig:
   # Optional sampling config if add_upsample is True.
   sampling_config: Optional[UpSamplingConfig] = None
   # Optional config of transformer blocks interleaved with residual blocks
-  transformer_block_config: Optional[TransformerBlock2Dconfig] = None
+  transformer_block_config: Optional[TransformerBlock2DConfig] = None
   # Optional dimension of context tensor if context tensor is given as input.
   context_dim: Optional[int] = None
@@ -152,7 +152,7 @@ class DownEncoderBlock2DConfig:
   # Optional sampling config if add_upsample is True.
   sampling_config: Optional[DownSamplingConfig] = None
   # Optional config of transformer blocks interleaved with residual blocks
-  transformer_block_config: Optional[TransformerBlock2Dconfig] = None
+  transformer_block_config: Optional[TransformerBlock2DConfig] = None
   # Optional dimension of context tensor if context tensor is given as input.
   context_dim: Optional[int] = None
@@ -168,7 +168,7 @@ class MidBlock2DConfig:
   # Optional config of attention blocks interleaved with residual blocks
   attention_block_config: Optional[AttentionBlock2DConfig] = None
   # Optional config of transformer blocks interleaved with residual blocks
-  transformer_block_config: Optional[TransformerBlock2Dconfig] = None
+  transformer_block_config: Optional[TransformerBlock2DConfig] = None
   # Optional dimension of context tensor if context tensor is given as input.
   context_dim: Optional[int] = None

ai_edge_torch/generative/utilities/loader.py CHANGED Viewed

@@ -317,9 +317,12 @@ class ModelLoader:
       k: torch.Tensor,
       v: torch.Tensor,
   ) -> torch.Tensor:
-    q_per_kv = config.attn_config.num_heads // config.attn_config.num_query_groups
-    qs = torch.split(q, config.head_dim * q_per_kv)
-    ks = torch.split(k, config.head_dim)
-    vs = torch.split(v, config.head_dim)
-    cycled = [t for group in zip(qs, ks, vs) for t in group]
-    return torch.cat(cycled)
+    if config.attn_config.qkv_fused_interleaved:
+      q_per_kv = config.attn_config.num_heads // config.attn_config.num_query_groups
+      qs = torch.split(q, config.head_dim * q_per_kv)
+      ks = torch.split(k, config.head_dim)
+      vs = torch.split(v, config.head_dim)
+      cycled = [t for group in zip(qs, ks, vs) for t in group]
+      return torch.cat(cycled)
+    else:
+      return torch.cat([q, k, v], dim=0)

ai_edge_torch/generative/utilities/stable_diffusion_loader.py CHANGED Viewed

@@ -37,6 +37,9 @@ class ResidualBlockTensorNames:
 class AttentionBlockTensorNames:
   norm: str = None
   fused_qkv_proj: str = None
+  q_proj: str = None
+  k_proj: str = None
+  v_proj: str = None
   output_proj: str = None
@@ -106,12 +109,21 @@ def _map_to_converted_state(
     state_param: str,
     converted_state: Dict[str, torch.Tensor],
     converted_state_param: str,
+    squeeze_dims: bool = False,
 ):
   converted_state[f"{converted_state_param}.weight"] = state.pop(
       f"{state_param}.weight"
   )
+  if squeeze_dims:
+    converted_state[f"{converted_state_param}.weight"] = torch.squeeze(
+        converted_state[f"{converted_state_param}.weight"]
+    )
   if f"{state_param}.bias" in state:
     converted_state[f"{converted_state_param}.bias"] = state.pop(f"{state_param}.bias")
+    if squeeze_dims:
+      converted_state[f"{converted_state_param}.bias"] = torch.squeeze(
+          converted_state[f"{converted_state_param}.bias"]
+      )
 class BaseLoader(loader.ModelLoader):
@@ -179,17 +191,65 @@ class BaseLoader(loader.ModelLoader):
           f"{converted_state_param_prefix}.norm",
       )
     attention_layer_prefix = f"{converted_state_param_prefix}.attention"
-    _map_to_converted_state(
-        state,
-        tensor_names.fused_qkv_proj,
-        converted_state,
-        f"{attention_layer_prefix}.qkv_projection",
-    )
+    if tensor_names.fused_qkv_proj is not None:
+      _map_to_converted_state(
+          state,
+          tensor_names.fused_qkv_proj,
+          converted_state,
+          f"{attention_layer_prefix}.qkv_projection",
+      )
+    else:
+      _map_to_converted_state(
+          state,
+          tensor_names.q_proj,
+          converted_state,
+          f"{attention_layer_prefix}.q_projection",
+          squeeze_dims=True,
+      )
+      _map_to_converted_state(
+          state,
+          tensor_names.k_proj,
+          converted_state,
+          f"{attention_layer_prefix}.k_projection",
+          squeeze_dims=True,
+      )
+      _map_to_converted_state(
+          state,
+          tensor_names.v_proj,
+          converted_state,
+          f"{attention_layer_prefix}.v_projection",
+          squeeze_dims=True,
+      )
+      converted_state[f"{attention_layer_prefix}.qkv_projection.weight"] = torch.concat(
+          [
+              converted_state[f"{attention_layer_prefix}.q_projection.weight"],
+              converted_state[f"{attention_layer_prefix}.k_projection.weight"],
+              converted_state[f"{attention_layer_prefix}.v_projection.weight"],
+          ],
+          axis=0,
+      )
+      del converted_state[f"{attention_layer_prefix}.q_projection.weight"]
+      del converted_state[f"{attention_layer_prefix}.k_projection.weight"]
+      del converted_state[f"{attention_layer_prefix}.v_projection.weight"]
+      if config.attention_config.qkv_use_bias:
+        converted_state[f"{attention_layer_prefix}.qkv_projection.bias"] = torch.concat(
+            [
+                converted_state[f"{attention_layer_prefix}.q_projection.bias"],
+                converted_state[f"{attention_layer_prefix}.k_projection.bias"],
+                converted_state[f"{attention_layer_prefix}.v_projection.bias"],
+            ],
+            axis=0,
+        )
+        del converted_state[f"{attention_layer_prefix}.q_projection.bias"]
+        del converted_state[f"{attention_layer_prefix}.k_projection.bias"]
+        del converted_state[f"{attention_layer_prefix}.v_projection.bias"]
     _map_to_converted_state(
         state,
         tensor_names.output_proj,
         converted_state,
         f"{attention_layer_prefix}.output_projection",
+        squeeze_dims=True,
     )
   def _map_cross_attention_block(
@@ -269,7 +329,7 @@ class BaseLoader(loader.ModelLoader):
       converted_state: Dict[str, torch.Tensor],
       tensor_names: TransformerBlockTensorNames,
       converted_state_param_prefix: str,
-      config: unet_config.TransformerBlock2Dconfig,
+      config: unet_config.TransformerBlock2DConfig,
   ):
     _map_to_converted_state(
         state,
@@ -482,6 +542,10 @@ class BaseLoader(loader.ModelLoader):
       )
+# Alias class name for better code reading.
+ClipModelLoader = BaseLoader
 class AutoEncoderModelLoader(BaseLoader):
   @dataclass
@@ -668,7 +732,7 @@ class DiffusionModelLoader(BaseLoader):
                 stride=2,
                 padding=config.downsample_padding,
             ),
-            transformer_block_config=unet_config.TransformerBlock2Dconfig(
+            transformer_block_config=unet_config.TransformerBlock2DConfig(
                 attention_block_config=unet_config.AttentionBlock2DConfig(
                     dim=output_channel,
                     normalization_config=config.transformer_norm_config,
@@ -726,7 +790,7 @@ class DiffusionModelLoader(BaseLoader):
         ),
         num_layers=config.mid_block_layers,
         time_embedding_channels=config.time_embedding_blocks_dim,
-        transformer_block_config=unet_config.TransformerBlock2Dconfig(
+        transformer_block_config=unet_config.TransformerBlock2DConfig(
             attention_block_config=unet_config.AttentionBlock2DConfig(
                 dim=mid_block_channels,
                 normalization_config=config.transformer_norm_config,
@@ -789,7 +853,7 @@ class DiffusionModelLoader(BaseLoader):
                 mode=unet_config.SamplingType.NEAREST,
                 scale_factor=2,
             ),
-            transformer_block_config=unet_config.TransformerBlock2Dconfig(
+            transformer_block_config=unet_config.TransformerBlock2DConfig(
                 attention_block_config=unet_config.AttentionBlock2DConfig(
                     dim=output_channel,
                     normalization_config=config.transformer_norm_config,

{ai_edge_torch_nightly-0.2.0.dev20240710.dist-info → ai_edge_torch_nightly-0.2.0.dev20240711.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: ai-edge-torch-nightly
-Version: 0.2.0.dev20240710
+Version: 0.2.0.dev20240711
 Summary: Supporting PyTorch models with the Google AI Edge TFLite runtime.
 Home-page: https://github.com/google-ai-edge/ai-edge-torch
 Keywords: On-Device ML,AI,Google,TFLite,PyTorch,LLMs,GenAI

{ai_edge_torch_nightly-0.2.0.dev20240710.dist-info → ai_edge_torch_nightly-0.2.0.dev20240711.dist-info}/RECORD RENAMED Viewed

@@ -43,12 +43,12 @@ ai_edge_torch/generative/examples/phi2/convert_to_tflite.py,sha256=uF1A2EX8xYie3
 ai_edge_torch/generative/examples/phi2/phi2.py,sha256=PMhKC6JCAMYSj2F3UmWHWK4rTcXD-B6PuehaoDccRqk,5562
 ai_edge_torch/generative/examples/stable_diffusion/__init__.py,sha256=hHLluseD2R0Hh4W6XZRIXY_dRQeYudjsrKGf6LZz65g,671
 ai_edge_torch/generative/examples/stable_diffusion/attention.py,sha256=Lo4Dq7a3Kg-lyH56iqGtqCo5UaClQHRCTDdNagXGTo8,3535
-ai_edge_torch/generative/examples/stable_diffusion/clip.py,sha256=qU1wVEcn_biwCuDguZljhlLGzpLIqgqC31Dh_lXquQc,3720
-ai_edge_torch/generative/examples/stable_diffusion/convert_to_tflite.py,sha256=wVEjsKd5JCIiYf5GF19rOXs2NHscZh0D69mxaS4f0Sk,4182
-ai_edge_torch/generative/examples/stable_diffusion/decoder.py,sha256=RgxedILk7iNMb0mhE4VkCs6d7BnFzYhR3vspUkC0-1o,11425
-ai_edge_torch/generative/examples/stable_diffusion/diffusion.py,sha256=sRevfsmCun7zbceJbOstLKNUsLwzQDsGm7Mi2JmlREg,26021
+ai_edge_torch/generative/examples/stable_diffusion/clip.py,sha256=P-cUUQaQKGKV2p-7hvLJ--RpCIA7gk8WCDRgg0pNtd0,4331
+ai_edge_torch/generative/examples/stable_diffusion/convert_to_tflite.py,sha256=XwV1z7cVkQ947k_ERftEeL8n0NUFCJAltLtqDVfzYGI,4704
+ai_edge_torch/generative/examples/stable_diffusion/decoder.py,sha256=xHcmOZaW7hoWlEEEqtB4FWoHMw5AsGHPHXMNiXEfviY,13814
+ai_edge_torch/generative/examples/stable_diffusion/diffusion.py,sha256=G-MgiEM_PpegNMePBPuNQDeUfjk42EYrVZAyJHC54AY,28468
 ai_edge_torch/generative/examples/stable_diffusion/encoder.py,sha256=mgbxkeFDMkNIGmnbcFTIFPu8EWKokghiviYIOB2lE3Q,3437
-ai_edge_torch/generative/examples/stable_diffusion/pipeline.py,sha256=FCbnwlkpYYb-tF7KscbSYjNEdg7XnuLju1cDuIRoQv8,8277
+ai_edge_torch/generative/examples/stable_diffusion/pipeline.py,sha256=AopJ-KE74lzq4QJUP_hYeiXvGth7uWv7nNKqkhtcoF8,8277
 ai_edge_torch/generative/examples/stable_diffusion/tokenizer.py,sha256=r9RqbyNvuvXOGu3ojtl7ZmbC7o4Pt8aUKAhN1yCdtEc,3397
 ai_edge_torch/generative/examples/stable_diffusion/util.py,sha256=NFpOfA4KN0JpShm5QvuYbQYZ844NzexWD8nV3WjMOZM,2397
 ai_edge_torch/generative/examples/stable_diffusion/samplers/__init__.py,sha256=uQWKzCD_49ackNFrt50H04dkDXxfAwUCtMWWQre5SVE,830
@@ -59,7 +59,7 @@ ai_edge_torch/generative/examples/stable_diffusion/samplers/sampler.py,sha256=5i
 ai_edge_torch/generative/examples/t5/__init__.py,sha256=hHLluseD2R0Hh4W6XZRIXY_dRQeYudjsrKGf6LZz65g,671
 ai_edge_torch/generative/examples/t5/convert_to_tflite.py,sha256=7RwaZQaKhFt3zKAUbFjq95CSYhL1nd9BVSbSRNJp4-4,4529
 ai_edge_torch/generative/examples/t5/t5.py,sha256=L6YrVzUEzP-Imb8W28LdukFGrx1aWSzz1kyYK_9RFZM,21087
-ai_edge_torch/generative/examples/t5/t5_attention.py,sha256=rkMwi-NJGBXHm5S57Rsj1LbcoVdyRkS7GmIBuU6F_2E,8274
+ai_edge_torch/generative/examples/t5/t5_attention.py,sha256=KaGzCAViNOpJIQbRF-ItouuVPqI9nroWRRGN-KFYKZs,8357
 ai_edge_torch/generative/examples/test_models/__init__.py,sha256=hHLluseD2R0Hh4W6XZRIXY_dRQeYudjsrKGf6LZz65g,671
 ai_edge_torch/generative/examples/test_models/toy_model.py,sha256=Sf3ZMYv-iuMRKAKLow47qth8vTF1zl6i8TxJ9uT_StU,3885
 ai_edge_torch/generative/examples/test_models/toy_model_with_external_kv_cache.py,sha256=zwCmCnhr-vhBwHqv9i7xMasdBGVNqAGxZvWsncsJn58,5543
@@ -75,14 +75,14 @@ ai_edge_torch/generative/layers/attention_utils.py,sha256=hXhuyKblPPxKIRzlAf1YNl
 ai_edge_torch/generative/layers/builder.py,sha256=jAyrR5hsSI0aimKZumyvxdJ1GovERIfsK0g-dezX2gs,4163
 ai_edge_torch/generative/layers/feed_forward.py,sha256=4j2QaSCw59Jkk_ixKDpKEj7FLRauzuExTiSNRzAjAhE,2820
 ai_edge_torch/generative/layers/kv_cache.py,sha256=4uiZLO3om5G3--kT04Jt0esEYznbkJ7QLzSHfb8mjc4,3090
-ai_edge_torch/generative/layers/model_config.py,sha256=aQLtOPdGpehfnb4aGO-iILLAsRU5t7j6opyezPEUY_w,4673
+ai_edge_torch/generative/layers/model_config.py,sha256=s6aIBib_LhjZC3p1pRxjcg3mf1BUrGqPQdsb6G83U-c,5028
 ai_edge_torch/generative/layers/normalization.py,sha256=M27eW3TcNK20oaXClXtfnu0lLWrAGrSKSsbegRWnj3c,1867
 ai_edge_torch/generative/layers/rotary_position_embedding.py,sha256=12SsCuoRuLNCwnFGe_pHDOZEBwBcqXs87Aj0PaWWw4E,1383
 ai_edge_torch/generative/layers/scaled_dot_product_attention.py,sha256=dYafGC205QE5CLIbBTCI-7eVvEGZEHzs1toPEhemeDs,3391
 ai_edge_torch/generative/layers/unet/__init__.py,sha256=hHLluseD2R0Hh4W6XZRIXY_dRQeYudjsrKGf6LZz65g,671
-ai_edge_torch/generative/layers/unet/blocks_2d.py,sha256=H45wsXA6iJi_Mjd66NiQrh7i1fx05r9o_FI-fSnhVts,26538
+ai_edge_torch/generative/layers/unet/blocks_2d.py,sha256=T70veX57CC9uNidwzoVGzOu-CwzcYMBr1Zk_0bq5UlM,26538
 ai_edge_torch/generative/layers/unet/builder.py,sha256=NmJiZ2-e1wbv9jnvI3VCyUJlONV5ZAOz-RTc7ipAZ5U,1872
-ai_edge_torch/generative/layers/unet/model_config.py,sha256=FrIO-CR8aRIV2i8aFqom_4S7WCEDLMyYwo6U0oFyn7A,9097
+ai_edge_torch/generative/layers/unet/model_config.py,sha256=GU12QEJwO6ukveMR9JRsrhE0YIPKuhk1U81CylmOQTA,9097
 ai_edge_torch/generative/quantize/__init__.py,sha256=hHLluseD2R0Hh4W6XZRIXY_dRQeYudjsrKGf6LZz65g,671
 ai_edge_torch/generative/quantize/example.py,sha256=Oy-Ss1oKXMu5RVOGt8QiUwKtrHEfhbVjTXXjxPcOqDA,1536
 ai_edge_torch/generative/quantize/quant_attrs.py,sha256=n1Fm8BFC8gJa_oiwwAOOghJyHtOXYZ4q-5ZRy4pHrIw,1957
@@ -97,8 +97,8 @@ ai_edge_torch/generative/test/loader_test.py,sha256=N88CbrLW7Q2x1EyurwdXQ6YjsA-y
 ai_edge_torch/generative/test/test_model_conversion.py,sha256=LsPTrLC1I4JW2GowTS3V9Eu257vLHr2Yj5f_qaFUX84,7589
 ai_edge_torch/generative/test/test_quantize.py,sha256=TxZwe2cCTfwq9t2thBuYiLdp5Xu2cspCbQgziZ3Oo7k,5269
 ai_edge_torch/generative/utilities/__init__.py,sha256=-_jxnnFnCgnTU4oTm4MnRsvL5lqhomBNdFBbqfmfHPo,720
-ai_edge_torch/generative/utilities/loader.py,sha256=Hs92478j1g4jQGvbdP1aWvOy907HjwqQZE-NFy6HELo,11326
-ai_edge_torch/generative/utilities/stable_diffusion_loader.py,sha256=7ChqrnthD7I-Be6vkRvYTRhbGQ3tqMbikLpjY5HpSzE,30890
+ai_edge_torch/generative/utilities/loader.py,sha256=NTaCrU2qmeJpqdAau13ZgyeOpwATqhZB68GY0LZjU6A,11438
+ai_edge_torch/generative/utilities/stable_diffusion_loader.py,sha256=zixjZryUaCSDKmfPkQvYwbPJhUyTmZ4AK_lWN8iFo68,33324
 ai_edge_torch/generative/utilities/t5_loader.py,sha256=h1FQzt4x8wiQMX4NzYNVIaJGLr_YKH0sojBvy0amexM,16503
 ai_edge_torch/hlfb/__init__.py,sha256=rrje8a2iuKboBoV96bVq7nlS9HsnuEMbHE5JiWmCxFA,752
 ai_edge_torch/hlfb/mark_pattern/__init__.py,sha256=2VXnHcGf23VOuP-1GriGIpuL98leBB8twp_qaScMnmc,4799
@@ -114,8 +114,8 @@ ai_edge_torch/quantize/quant_config.py,sha256=eO9Ra160ITjQSyRBEGy6nNIVH3gYacSWDd
 ai_edge_torch/testing/__init__.py,sha256=hHLluseD2R0Hh4W6XZRIXY_dRQeYudjsrKGf6LZz65g,671
 ai_edge_torch/testing/model_coverage/__init__.py,sha256=5P8J6Zk5YYtDvTBucFvB9NGSRI7Gw_24WnrbhXgycEE,765
 ai_edge_torch/testing/model_coverage/model_coverage.py,sha256=EIyKz-HY70DguWuSrJal8LpYXQ5ZSEUf3ZrVl7jikFM,4286
-ai_edge_torch_nightly-0.2.0.dev20240710.dist-info/LICENSE,sha256=z8d0m5b2O9McPEK1xHG_dWgUBT6EfBDz6wA0F7xSPTA,11358
-ai_edge_torch_nightly-0.2.0.dev20240710.dist-info/METADATA,sha256=6ask_HCsla1Tzx5_ORpPGrdvtwYAwS6BB3jNV31Jo9g,1745
-ai_edge_torch_nightly-0.2.0.dev20240710.dist-info/WHEEL,sha256=GJ7t_kWBFywbagK5eo9IoUwLW6oyOeTKmQ-9iHFVNxQ,92
-ai_edge_torch_nightly-0.2.0.dev20240710.dist-info/top_level.txt,sha256=5KXRaF2hwkApYxf7Y8y_tVb9aulGTlbOoNdbx1aKRkE,14
-ai_edge_torch_nightly-0.2.0.dev20240710.dist-info/RECORD,,
+ai_edge_torch_nightly-0.2.0.dev20240711.dist-info/LICENSE,sha256=z8d0m5b2O9McPEK1xHG_dWgUBT6EfBDz6wA0F7xSPTA,11358
+ai_edge_torch_nightly-0.2.0.dev20240711.dist-info/METADATA,sha256=GftPz7zSGYCaTvO4gntWftMbj0NCSh4OXJEe1epdBCU,1745
+ai_edge_torch_nightly-0.2.0.dev20240711.dist-info/WHEEL,sha256=GJ7t_kWBFywbagK5eo9IoUwLW6oyOeTKmQ-9iHFVNxQ,92
+ai_edge_torch_nightly-0.2.0.dev20240711.dist-info/top_level.txt,sha256=5KXRaF2hwkApYxf7Y8y_tVb9aulGTlbOoNdbx1aKRkE,14
+ai_edge_torch_nightly-0.2.0.dev20240711.dist-info/RECORD,,

{ai_edge_torch_nightly-0.2.0.dev20240710.dist-info → ai_edge_torch_nightly-0.2.0.dev20240711.dist-info}/LICENSE RENAMED Viewed

File without changes

{ai_edge_torch_nightly-0.2.0.dev20240710.dist-info → ai_edge_torch_nightly-0.2.0.dev20240711.dist-info}/WHEEL RENAMED Viewed

File without changes

{ai_edge_torch_nightly-0.2.0.dev20240710.dist-info → ai_edge_torch_nightly-0.2.0.dev20240711.dist-info}/top_level.txt RENAMED Viewed

File without changes

ai-edge-torch-nightly 0.2.0.dev20240710__py3-none-any.whl → 0.2.0.dev20240711__py3-none-any.whl

Potentially problematic release.

ai-edge-torch-nightly 0.2.0.dev20240710py3-none-any.whl → 0.2.0.dev20240711py3-none-any.whl