PyPI - ai-edge-torch-nightly - Versions diffs - 0.3.0.dev20240910__py3-none-any.whl → 0.3.0.dev20240914__py3-none-any.whl - Mend

ai-edge-torch-nightly 0.3.0.dev20240910py3-none-any.whl → 0.3.0.dev20240914py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (68) hide show

ai_edge_torch/generative/examples/t5/t5.py CHANGED Viewed

@@ -52,9 +52,15 @@ class T5Stack(nn.Module):
     self.config = config
     self.embed_tokens = embed_tokens
     self.is_decoder = config.is_decoder
+    # T5 has only one block config.
+    block_config = config.block_config(0)
     self.transformer_blocks = nn.ModuleList([
-        EncoderDecoderBlock(config, has_relative_attention_bias=bool(i == 0))
-        for i in range(config.num_layers)
+        EncoderDecoderBlock(
+            block_config,
+            config,
+            has_relative_attention_bias=bool(idx == 0),
+        )
+        for idx in range(config.num_layers)
     ])
     self.final_norm = builder.build_norm(
         config.embedding_dim, config.final_norm_config
@@ -73,13 +79,11 @@ class T5Stack(nn.Module):
           torch.Tensor
       ] = None,  # should be for decoder case
   ):
-    input_shape = input_ids.size()
     inputs_embeds = self.embed_tokens(input_ids)
-    batch_size, seq_length = input_shape
     hidden_states = inputs_embeds
     position_bias = None
     encoder_decoder_position_bias = None
-    for i, layer_module in enumerate(self.transformer_blocks):
+    for _, layer_module in enumerate(self.transformer_blocks):
       # EncoderDecoderBlock.forward
       hidden_states, position_bias, encoder_decoder_position_bias = (
           layer_module(
@@ -111,7 +115,8 @@ class T5(nn.Module):
     encoder_config = copy.deepcopy(config)
     encoder_config.is_decoder = False
-    encoder_config.attn_config.enable_kv_cache = False
+    # T5 has only one block config.
+    encoder_config.block_config(0).attn_config.enable_kv_cache = False
     self.encoder = T5Stack(encoder_config, self.tok_embedding)
     decoder_config = copy.deepcopy(config)
@@ -137,20 +142,22 @@ class T5(nn.Module):
         device=torch.device("cpu"),
     )
+    # T5 has only one block config.
+    attn_config = config.block_config(0).attn_config
     self.enc_rel_pos_mask = attn_utils.build_relative_position_buckets(
         bidirectional=True,
         query_length=config.kv_cache_max,
         key_length=config.kv_cache_max,
-        num_buckets=config.attn_config.relative_attention_num_buckets,
-        max_distance=config.attn_config.relative_attention_max_distance,
+        num_buckets=attn_config.relative_attention_num_buckets,
+        max_distance=attn_config.relative_attention_max_distance,
     )
     self.dec_rel_pos_mask = attn_utils.build_relative_position_buckets(
         bidirectional=False,
         query_length=config.kv_cache_max,
         key_length=config.kv_cache_max,
-        num_buckets=config.attn_config.relative_attention_num_buckets,
-        max_distance=config.attn_config.relative_attention_max_distance,
+        num_buckets=attn_config.relative_attention_num_buckets,
+        max_distance=attn_config.relative_attention_max_distance,
     )
   @torch.inference_mode
@@ -230,7 +237,8 @@ class T5Encoder(nn.Module):
     encoder_config = copy.deepcopy(config)
     encoder_config.is_decoder = False
-    encoder_config.attn_config.enable_kv_cache = False
+    # T5 has only one block config.
+    encoder_config.block_config(0).attn_config.enable_kv_cache = False
     self.encoder = T5Stack(encoder_config, self.tok_embedding)
     self.enc_attn_mask_cache = (
@@ -243,12 +251,14 @@ class T5Encoder(nn.Module):
         .unsqueeze(0)
     )
+    # T5 has only one block config.
+    attn_config = config.block_config(0).attn_config
     self.enc_rel_pos_mask = attn_utils.build_relative_position_buckets(
         bidirectional=True,
         query_length=config.kv_cache_max,
         key_length=config.kv_cache_max,
-        num_buckets=config.attn_config.relative_attention_num_buckets,
-        max_distance=config.attn_config.relative_attention_max_distance,
+        num_buckets=attn_config.relative_attention_num_buckets,
+        max_distance=attn_config.relative_attention_max_distance,
     )
   @torch.inference_mode
@@ -313,12 +323,14 @@ class T5Decoder(nn.Module):
         .unsqueeze(0)
     )
+    # T5 has only one block config.
+    attn_config = config.block_config(0).attn_config
     self.enc_rel_pos_mask = attn_utils.build_relative_position_buckets(
         bidirectional=True,
         query_length=config.kv_cache_max,
         key_length=config.kv_cache_max,
-        num_buckets=config.attn_config.relative_attention_num_buckets,
-        max_distance=config.attn_config.relative_attention_max_distance,
+        num_buckets=attn_config.relative_attention_num_buckets,
+        max_distance=attn_config.relative_attention_max_distance,
     )
     self.dec_attn_mask_cache = attn_utils.build_causal_mask_cache(
@@ -386,19 +398,20 @@ def get_model_config_t5() -> cfg.ModelConfig:
       type=cfg.NormalizationType.RMS_NORM,
       epsilon=1e-6,
   )
-  config = cfg.ModelConfig(
-      vocab_size=32128,
-      num_layers=12,
-      max_seq_len=512,
-      embedding_dim=768,
+  block_config = cfg.TransformerBlockConfig(
       attn_config=attn_config,
       relative_attention=True,
       ff_config=ff_config,
       pre_attention_norm_config=norm_config,
       post_attention_norm_config=norm_config,
+  )
+  config = cfg.ModelConfig(
+      vocab_size=32128,
+      num_layers=12,
+      max_seq_len=512,
+      embedding_dim=768,
+      block_configs=block_config,
       final_norm_config=norm_config,
-      parallel_residual=False,
       lm_head_use_bias=False,
       enable_hlfb=True,
   )
@@ -588,12 +601,12 @@ def define_and_run_t5(checkpoint_path: str) -> None:
   model = build_t5_model(checkpoint_path)
   idx = get_sample_encoder_input_ids()
-  tokens = torch.full((1, 512), 0, dtype=torch.long, device="cpu")
+  tokens = torch.full((1, 512), 0, dtype=torch.int, device="cpu")
   tokens[0, :77] = idx
-  input_pos = torch.arange(0, 512)
+  input_pos = torch.arange(0, 512, dtype=torch.int)
-  decode_d_token = torch.tensor([[0]], dtype=torch.int64)
-  decode_d_input_pos = torch.tensor([0], dtype=torch.int64)
+  decode_d_token = torch.tensor([[0]], dtype=torch.int)
+  decode_d_input_pos = torch.tensor([0], dtype=torch.int)
   pad_mask = torch.zeros([model.config.kv_cache_max], dtype=torch.float32)
   pad_mask[77:] = float("-inf")
   lm_logits = model.forward(
@@ -620,12 +633,12 @@ def define_and_run_t5_split(checkpoint_path: str) -> None:
   )
   idx = get_sample_encoder_input_ids()
-  tokens = torch.full((1, 512), 0, dtype=torch.long, device="cpu")
+  tokens = torch.full((1, 512), 0, dtype=torch.int, device="cpu")
   tokens[0, :77] = idx
-  input_pos = torch.arange(0, 512)
+  input_pos = torch.arange(0, 512, dtype=torch.int)
-  decode_d_token = torch.tensor([[0]], dtype=torch.int64)
-  decode_d_input_pos = torch.tensor([0], dtype=torch.int64)
+  decode_d_token = torch.tensor([[0]], dtype=torch.int)
+  decode_d_input_pos = torch.tensor([0], dtype=torch.int)
   pad_mask = torch.zeros(
       [t5_encoder_model.config.kv_cache_max], dtype=torch.float32
   )

ai_edge_torch/generative/examples/t5/t5_attention.py CHANGED Viewed

@@ -24,7 +24,6 @@ from ai_edge_torch.generative.layers.scaled_dot_product_attention import scaled_
 from ai_edge_torch.generative.layers.scaled_dot_product_attention import scaled_dot_product_attention_with_hlfb  # NOQA
 import torch
 from torch import nn
-import torch.nn.functional as F
 BATCH_SIZE = 1
@@ -32,13 +31,18 @@ BATCH_SIZE = 1
 class EncoderDecoderBlock(nn.Module):
   def __init__(
-      self, config: cfg.ModelConfig, has_relative_attention_bias: bool = False
+      self,
+      config: cfg.TransformerBlockConfig,
+      model_config: cfg.ModelConfig,
+      has_relative_attention_bias: bool = False,
   ) -> None:
     """Initialize an instance of the EncoderDecoderBlock.
     Args:
-      config (cfg.ModelConfig): the configuration object for this transformer
-        block.
+      config (cfg.TransformerBlockConfig): the configuration object for this
+        transformer block.
+      model_config (cfg.ModelConfig): the configuration object for the model
+        this transformer block belongs to.
       has_relative_attention_bias (bool): whether the self attention block has
         relative bias.
     """
@@ -46,22 +50,22 @@ class EncoderDecoderBlock(nn.Module):
     super().__init__()
     self.atten_func = T5Attention(
         BATCH_SIZE,
-        config.embedding_dim,
+        model_config.embedding_dim,
         config.attn_config,
         config.pre_attention_norm_config,
-        config.kv_cache_max,
-        config.enable_hlfb,
+        model_config.kv_cache_max,
+        model_config.enable_hlfb,
         has_relative_attention_bias=has_relative_attention_bias,
     )
     # For a decoder, we add a cross attention.
-    if config.is_decoder:
+    if model_config.is_decoder:
       self.cross_atten_func = T5Attention(
           BATCH_SIZE,
-          config.embedding_dim,
+          model_config.embedding_dim,
           config.attn_config,
           config.pre_attention_norm_config,
-          config.kv_cache_max,
-          config.enable_hlfb,
+          model_config.kv_cache_max,
+          model_config.enable_hlfb,
           # Cross Attention does not have relative attention bias.
           has_relative_attention_bias=False,
       )
@@ -69,9 +73,10 @@ class EncoderDecoderBlock(nn.Module):
       self.cross_atten_func = None
     self.post_atten_norm = builder.build_norm(
-        config.embedding_dim, config.post_attention_norm_config
+        model_config.embedding_dim,
+        config.post_attention_norm_config,
     )
-    self.ff = builder.build_ff(config.embedding_dim, config.ff_config)
+    self.ff = builder.build_ff(model_config.embedding_dim, config.ff_config)
     self.config = config
   def forward(

ai_edge_torch/generative/examples/test_models/toy_model.py CHANGED Viewed

@@ -20,7 +20,6 @@ from ai_edge_torch.generative.layers.attention import TransformerBlock
 import ai_edge_torch.generative.layers.attention_utils as attn_utils
 import ai_edge_torch.generative.layers.builder as builder
 import ai_edge_torch.generative.layers.model_config as cfg
-import numpy as np
 import torch
 import torch.nn as nn
@@ -36,16 +35,16 @@ class ToySingleLayerModel(torch.nn.Module):
         config.embedding_dim, config.vocab_size, bias=config.lm_head_use_bias
     )
     self.tok_embedding = nn.Embedding(config.vocab_size, config.embedding_dim)
-    self.transformer_block = TransformerBlock(config)
+    self.transformer_block = TransformerBlock(config.block_config(0), config)
     self.final_norm = builder.build_norm(
         config.embedding_dim,
         config.final_norm_config,
     )
+    # Toy model has only one block config.
+    attn_config = config.block_config(0).attn_config
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.max_seq_len,
-        dim=int(
-            config.attn_config.rotary_percentage * config.attn_config.head_dim
-        ),
+        dim=int(attn_config.rotary_percentage * attn_config.head_dim),
         base=10_000,
         condense_ratio=1,
         dtype=torch.float32,
@@ -85,16 +84,16 @@ class ToySingleLayerModelWeightSharing(torch.nn.Module):
         bias=config.lm_head_use_bias,
     )
     self.lm_head.weight.data = self.tok_embedding.weight.data
-    self.transformer_block = TransformerBlock(config)
+    self.transformer_block = TransformerBlock(config.block_config(0), config)
     self.final_norm = builder.build_norm(
         config.embedding_dim,
         config.final_norm_config,
     )
+    # Toy model has only one block config.
+    attn_config = config.block_config(0).attn_config
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.max_seq_len,
-        dim=int(
-            config.attn_config.rotary_percentage * config.attn_config.head_dim
-        ),
+        dim=int(attn_config.rotary_percentage * attn_config.head_dim),
         base=10_000,
         condense_ratio=1,
         dtype=torch.float32,
@@ -135,15 +134,18 @@ def get_model_config() -> cfg.ModelConfig:
       intermediate_size=256,
   )
   norm_config = cfg.NormalizationConfig(type=cfg.NormalizationType.RMS_NORM)
+  block_config = cfg.TransformerBlockConfig(
+      attn_config=attn_config,
+      ff_config=ff_config,
+      pre_attention_norm_config=norm_config,
+      post_attention_norm_config=norm_config,
+  )
   config = cfg.ModelConfig(
       vocab_size=400,
       num_layers=1,
       max_seq_len=KV_CACHE_MAX_LEN,
       embedding_dim=128,
-      attn_config=attn_config,
-      ff_config=ff_config,
-      pre_attention_norm_config=norm_config,
-      post_attention_norm_config=norm_config,
+      block_configs=block_config,
       final_norm_config=norm_config,
   )
   return config

ai_edge_torch/generative/examples/test_models/toy_model_with_kv_cache.py CHANGED Viewed

@@ -12,14 +12,17 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # ==============================================================================
-# A toy example which has basic transformer block (w/ KV-Cache).
+"""A toy example which has basic transformer block (w/ externalized KV-Cache)."""
 from typing import Tuple
 import ai_edge_torch
 from ai_edge_torch import lowertools
-from ai_edge_torch.generative.layers.attention import TransformerBlock
+from ai_edge_torch.generative.layers import attention
+from ai_edge_torch.generative.layers import builder
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
 import ai_edge_torch.generative.layers.attention_utils as attn_utils
-import ai_edge_torch.generative.layers.builder as builder
 import ai_edge_torch.generative.layers.model_config as cfg
 import torch
 import torch.nn as nn
@@ -27,7 +30,7 @@ import torch.nn as nn
 RoPECache = Tuple[torch.Tensor, torch.Tensor]
-class ToyModelWithKV(torch.nn.Module):
+class ToyModelWithKVCache(torch.nn.Module):
   def __init__(self, config: cfg.ModelConfig) -> None:
     super().__init__()
@@ -35,18 +38,20 @@ class ToyModelWithKV(torch.nn.Module):
         config.embedding_dim, config.vocab_size, bias=config.lm_head_use_bias
     )
     self.tok_embedding = nn.Embedding(config.vocab_size, config.embedding_dim)
+    # Toy model has only one block config.
+    block_config = config.block_config(0)
     self.transformer_blocks = nn.ModuleList(
-        TransformerBlock(config) for _ in range(config.num_layers)
+        attention.TransformerBlock(block_config, config)
+        for _ in range(config.num_layers)
     )
     self.final_norm = builder.build_norm(
         config.embedding_dim,
         config.final_norm_config,
     )
+    attn_config = block_config.attn_config
     self.rope_cache = attn_utils.build_rope_cache(
         size=config.max_seq_len,
-        dim=int(
-            config.attn_config.rotary_percentage * config.attn_config.head_dim
-        ),
+        dim=int(attn_config.rotary_percentage * attn_config.head_dim),
         base=10_000,
         condense_ratio=1,
         dtype=torch.float32,
@@ -57,18 +62,29 @@ class ToyModelWithKV(torch.nn.Module):
     )
     self.config = config
-  @torch.inference_mode
-  def forward(self, idx: torch.Tensor, input_pos: torch.Tensor) -> torch.Tensor:
-    x = self.tok_embedding(idx)
+  def forward(
+      self,
+      tokens: torch.Tensor,
+      input_pos: torch.Tensor,
+      kv_cache: kv_utils.KVCache,
+  ) -> Tuple[torch.Tensor, kv_utils.KVCache]:
+    x = self.tok_embedding(tokens)
     cos, sin = self.rope_cache
     cos = cos.index_select(0, input_pos)
     sin = sin.index_select(0, input_pos)
     mask = self.mask_cache.index_select(2, input_pos)
     mask = mask[:, :, :, : self.config.max_seq_len]
+    updated_kv_entires = []
     for i, block in enumerate(self.transformer_blocks):
-      x = block(x, (cos, sin), mask, input_pos)
+      kv_entry = kv_cache.caches[i] if kv_cache else None
+      x, kv_entry = block(x, (cos, sin), mask, input_pos, kv_entry)
+      if kv_entry:
+        updated_kv_entires.append(kv_entry)
     x = self.final_norm(x)
-    return self.lm_head(x)
+    updated_kv_cache = kv_utils.KVCache(tuple(updated_kv_entires))
+    return {'logits': self.lm_head(x), 'kv_cache': updated_kv_cache}
 def _export_stablehlo_mlir(model, args):
@@ -78,7 +94,10 @@ def _export_stablehlo_mlir(model, args):
 def get_model_config() -> cfg.ModelConfig:
   attn_config = cfg.AttentionConfig(
-      num_heads=32, head_dim=4, num_query_groups=4, rotary_percentage=1.0
+      num_heads=32,
+      head_dim=4,
+      num_query_groups=4,
+      rotary_percentage=1.0,
   )
   ff_config = cfg.FeedForwardConfig(
       type=cfg.FeedForwardType.GATED,
@@ -86,15 +105,18 @@ def get_model_config() -> cfg.ModelConfig:
       intermediate_size=256,
   )
   norm_config = cfg.NormalizationConfig(type=cfg.NormalizationType.RMS_NORM)
-  config = cfg.ModelConfig(
-      vocab_size=150,
-      num_layers=2,
-      max_seq_len=500,
-      embedding_dim=128,
+  block_config = cfg.TransformerBlockConfig(
       attn_config=attn_config,
       ff_config=ff_config,
       pre_attention_norm_config=norm_config,
       post_attention_norm_config=norm_config,
+  )
+  config = cfg.ModelConfig(
+      vocab_size=150,
+      num_layers=2,
+      max_seq_len=100,
+      embedding_dim=128,
+      block_configs=block_config,
       final_norm_config=norm_config,
       enable_hlfb=True,
   )
@@ -102,40 +124,59 @@ def get_model_config() -> cfg.ModelConfig:
 def get_sample_prefill_inputs() -> Tuple[torch.Tensor, torch.Tensor]:
-  idx = torch.unsqueeze(torch.arange(0, 100), 0)
-  input_pos = torch.arange(0, 100)
-  return idx, input_pos
+  tokens = torch.unsqueeze(torch.arange(0, 100, dtype=torch.int), 0)
+  input_pos = torch.arange(0, 100, dtype=torch.int)
+  return tokens, input_pos
 def get_sample_decode_inputs() -> Tuple[torch.Tensor, torch.Tensor]:
-  idx = torch.tensor([[1]], dtype=torch.long)
-  input_pos = torch.tensor([10], dtype=torch.int64)
-  return idx, input_pos
+  tokens = torch.tensor([[1]], dtype=torch.int)
+  input_pos = torch.tensor([10])
+  return tokens, input_pos
 def define_and_run() -> None:
   dump_mlir = False
   config = get_model_config()
-  model = ToyModelWithKV(config)
+  model = ToyModelWithExternalKV(config)
+  model.eval()
   print('running an inference')
-  idx, input_pos = get_sample_prefill_inputs()
-  decode_idx, decode_input_pos = get_sample_decode_inputs()
-  print(model.forward(idx, input_pos))
+  kv = kv_utils.KVCache.from_model_config(config)
+  tokens, input_pos = get_sample_prefill_inputs()
+  decode_token, decode_input_pos = get_sample_decode_inputs()
+  print(model.forward(tokens, input_pos, kv))
   if dump_mlir:
-    mlir_text = _export_stablehlo_mlir(model, (idx, input_pos))
-    with open('/tmp/toy_model_with_kv.stablehlo.mlir', 'w') as f:
+    mlir_text = _export_stablehlo_mlir(model, (tokens, input_pos, kv))
+    with open('/tmp/toy_model_with_external_kv.stablehlo.mlir', 'w') as f:
       f.write(mlir_text)
   # Convert model to tflite with 2 signatures (prefill + decode).
   print('converting toy model to tflite with 2 signatures (prefill + decode)')
   edge_model = (
-      ai_edge_torch.signature('prefill', model, (idx, input_pos))
-      .signature('decode', model, (decode_idx, decode_input_pos))
+      ai_edge_torch.signature(
+          'prefill',
+          model,
+          sample_kwargs={
+              'tokens': tokens,
+              'input_pos': input_pos,
+              'kv_cache': kv,
+          },
+      )
+      .signature(
+          'decode',
+          model,
+          sample_kwargs={
+              'tokens': decode_token,
+              'input_pos': decode_input_pos,
+              'kv_cache': kv,
+          },
+      )
       .convert()
   )
-  edge_model.export('/tmp/toy_kv_cache.tflite')
+  edge_model.export('/tmp/toy_external_kv_cache.tflite')
 if __name__ == '__main__':

ai_edge_torch/generative/examples/tiny_llama/convert_to_tflite.py CHANGED Viewed

@@ -13,11 +13,14 @@
 # limitations under the License.
 # ==============================================================================
+"""Example of converting TinyLlama model to multi-signature tflite model."""
 import os
-from pathlib import Path
+import pathlib
 import ai_edge_torch
 from ai_edge_torch.generative.examples.tiny_llama import tiny_llama
+from ai_edge_torch.generative.layers import kv_cache as kv_utils
 from ai_edge_torch.generative.quantize import quant_recipes
 import torch
@@ -44,24 +47,40 @@ def convert_tiny_llama_to_tflite(
       checkpoint_path, kv_cache_max_len=kv_cache_max_len
   )
   # Tensors used to trace the model graph during conversion.
-  prefill_tokens = torch.full((1, prefill_seq_len), 0, dtype=torch.long)
-  prefill_input_pos = torch.arange(0, prefill_seq_len)
-  decode_token = torch.tensor([[0]], dtype=torch.long)
-  decode_input_pos = torch.tensor([0], dtype=torch.int64)
+  prefill_tokens = torch.full((1, prefill_seq_len), 0, dtype=torch.int)
+  prefill_input_pos = torch.arange(0, prefill_seq_len, dtype=torch.int)
+  decode_token = torch.tensor([[0]], dtype=torch.int)
+  decode_input_pos = torch.tensor([0], dtype=torch.int)
+  kv = kv_utils.KVCache.from_model_config(pytorch_model.config)
   quant_config = quant_recipes.full_int8_dynamic_recipe() if quantize else None
   edge_model = (
       ai_edge_torch.signature(
-          'prefill', pytorch_model, (prefill_tokens, prefill_input_pos)
+          'prefill',
+          pytorch_model,
+          sample_kwargs={
+              'tokens': prefill_tokens,
+              'input_pos': prefill_input_pos,
+              'kv_cache': kv,
+          },
+      )
+      .signature(
+          'decode',
+          pytorch_model,
+          sample_kwargs={
+              'tokens': decode_token,
+              'input_pos': decode_input_pos,
+              'kv_cache': kv,
+          },
       )
-      .signature('decode', pytorch_model, (decode_token, decode_input_pos))
       .convert(quant_config=quant_config)
   )
+  quant_suffix = 'q8' if quantize else 'f32'
   edge_model.export(
-      f'/tmp/tiny_llama_seq{prefill_seq_len}_kv{kv_cache_max_len}.tflite'
+      f'/tmp/tiny_llama_{quant_suffix}_seq{prefill_seq_len}_ekv{kv_cache_max_len}.tflite'
   )
 if __name__ == '__main__':
-  checkpoint_path = os.path.join(Path.home(), 'Downloads/llm_data/tiny_llama')
-  convert_tiny_llama_to_tflite(checkpoint_path)
+  path = os.path.join(pathlib.Path.home(), 'Downloads/llm_data/tiny_llama')
+  convert_tiny_llama_to_tflite(path)

ai-edge-torch-nightly 0.3.0.dev20240910__py3-none-any.whl → 0.3.0.dev20240914__py3-none-any.whl

ai-edge-torch-nightly 0.3.0.dev20240910py3-none-any.whl → 0.3.0.dev20240914py3-none-any.whl