PyPI - keras-hub-nightly - Versions diffs - 0.15.0.dev20240823171555__py3-none-any.whl - Mend

keras-hub-nightly 0.15.0.dev20240823171555__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (297) hide show

keras_hub/__init__.py +52 -0
keras_hub/api/__init__.py +27 -0
keras_hub/api/layers/__init__.py +47 -0
keras_hub/api/metrics/__init__.py +24 -0
keras_hub/api/models/__init__.py +249 -0
keras_hub/api/samplers/__init__.py +29 -0
keras_hub/api/tokenizers/__init__.py +35 -0
keras_hub/src/__init__.py +13 -0
keras_hub/src/api_export.py +53 -0
keras_hub/src/layers/__init__.py +13 -0
keras_hub/src/layers/modeling/__init__.py +13 -0
keras_hub/src/layers/modeling/alibi_bias.py +143 -0
keras_hub/src/layers/modeling/cached_multi_head_attention.py +137 -0
keras_hub/src/layers/modeling/f_net_encoder.py +200 -0
keras_hub/src/layers/modeling/masked_lm_head.py +239 -0
keras_hub/src/layers/modeling/position_embedding.py +123 -0
keras_hub/src/layers/modeling/reversible_embedding.py +311 -0
keras_hub/src/layers/modeling/rotary_embedding.py +169 -0
keras_hub/src/layers/modeling/sine_position_encoding.py +108 -0
keras_hub/src/layers/modeling/token_and_position_embedding.py +150 -0
keras_hub/src/layers/modeling/transformer_decoder.py +496 -0
keras_hub/src/layers/modeling/transformer_encoder.py +262 -0
keras_hub/src/layers/modeling/transformer_layer_utils.py +106 -0
keras_hub/src/layers/preprocessing/__init__.py +13 -0
keras_hub/src/layers/preprocessing/masked_lm_mask_generator.py +220 -0
keras_hub/src/layers/preprocessing/multi_segment_packer.py +319 -0
keras_hub/src/layers/preprocessing/preprocessing_layer.py +62 -0
keras_hub/src/layers/preprocessing/random_deletion.py +271 -0
keras_hub/src/layers/preprocessing/random_swap.py +267 -0
keras_hub/src/layers/preprocessing/start_end_packer.py +219 -0
keras_hub/src/metrics/__init__.py +13 -0
keras_hub/src/metrics/bleu.py +394 -0
keras_hub/src/metrics/edit_distance.py +197 -0
keras_hub/src/metrics/perplexity.py +181 -0
keras_hub/src/metrics/rouge_base.py +204 -0
keras_hub/src/metrics/rouge_l.py +97 -0
keras_hub/src/metrics/rouge_n.py +125 -0
keras_hub/src/models/__init__.py +13 -0
keras_hub/src/models/albert/__init__.py +20 -0
keras_hub/src/models/albert/albert_backbone.py +267 -0
keras_hub/src/models/albert/albert_classifier.py +202 -0
keras_hub/src/models/albert/albert_masked_lm.py +129 -0
keras_hub/src/models/albert/albert_masked_lm_preprocessor.py +194 -0
keras_hub/src/models/albert/albert_preprocessor.py +206 -0
keras_hub/src/models/albert/albert_presets.py +70 -0
keras_hub/src/models/albert/albert_tokenizer.py +119 -0
keras_hub/src/models/backbone.py +311 -0
keras_hub/src/models/bart/__init__.py +20 -0
keras_hub/src/models/bart/bart_backbone.py +261 -0
keras_hub/src/models/bart/bart_preprocessor.py +276 -0
keras_hub/src/models/bart/bart_presets.py +74 -0
keras_hub/src/models/bart/bart_seq_2_seq_lm.py +490 -0
keras_hub/src/models/bart/bart_seq_2_seq_lm_preprocessor.py +262 -0
keras_hub/src/models/bart/bart_tokenizer.py +124 -0
keras_hub/src/models/bert/__init__.py +23 -0
keras_hub/src/models/bert/bert_backbone.py +227 -0
keras_hub/src/models/bert/bert_classifier.py +183 -0
keras_hub/src/models/bert/bert_masked_lm.py +131 -0
keras_hub/src/models/bert/bert_masked_lm_preprocessor.py +198 -0
keras_hub/src/models/bert/bert_preprocessor.py +184 -0
keras_hub/src/models/bert/bert_presets.py +147 -0
keras_hub/src/models/bert/bert_tokenizer.py +112 -0
keras_hub/src/models/bloom/__init__.py +20 -0
keras_hub/src/models/bloom/bloom_attention.py +186 -0
keras_hub/src/models/bloom/bloom_backbone.py +173 -0
keras_hub/src/models/bloom/bloom_causal_lm.py +298 -0
keras_hub/src/models/bloom/bloom_causal_lm_preprocessor.py +176 -0
keras_hub/src/models/bloom/bloom_decoder.py +206 -0
keras_hub/src/models/bloom/bloom_preprocessor.py +185 -0
keras_hub/src/models/bloom/bloom_presets.py +121 -0
keras_hub/src/models/bloom/bloom_tokenizer.py +116 -0
keras_hub/src/models/causal_lm.py +383 -0
keras_hub/src/models/classifier.py +109 -0
keras_hub/src/models/csp_darknet/__init__.py +13 -0
keras_hub/src/models/csp_darknet/csp_darknet_backbone.py +410 -0
keras_hub/src/models/csp_darknet/csp_darknet_image_classifier.py +133 -0
keras_hub/src/models/deberta_v3/__init__.py +24 -0
keras_hub/src/models/deberta_v3/deberta_v3_backbone.py +210 -0
keras_hub/src/models/deberta_v3/deberta_v3_classifier.py +228 -0
keras_hub/src/models/deberta_v3/deberta_v3_masked_lm.py +135 -0
keras_hub/src/models/deberta_v3/deberta_v3_masked_lm_preprocessor.py +191 -0
keras_hub/src/models/deberta_v3/deberta_v3_preprocessor.py +206 -0
keras_hub/src/models/deberta_v3/deberta_v3_presets.py +82 -0
keras_hub/src/models/deberta_v3/deberta_v3_tokenizer.py +155 -0
keras_hub/src/models/deberta_v3/disentangled_attention_encoder.py +227 -0
keras_hub/src/models/deberta_v3/disentangled_self_attention.py +412 -0
keras_hub/src/models/deberta_v3/relative_embedding.py +94 -0
keras_hub/src/models/densenet/__init__.py +13 -0
keras_hub/src/models/densenet/densenet_backbone.py +210 -0
keras_hub/src/models/densenet/densenet_image_classifier.py +131 -0
keras_hub/src/models/distil_bert/__init__.py +26 -0
keras_hub/src/models/distil_bert/distil_bert_backbone.py +187 -0
keras_hub/src/models/distil_bert/distil_bert_classifier.py +208 -0
keras_hub/src/models/distil_bert/distil_bert_masked_lm.py +137 -0
keras_hub/src/models/distil_bert/distil_bert_masked_lm_preprocessor.py +194 -0
keras_hub/src/models/distil_bert/distil_bert_preprocessor.py +175 -0
keras_hub/src/models/distil_bert/distil_bert_presets.py +57 -0
keras_hub/src/models/distil_bert/distil_bert_tokenizer.py +114 -0
keras_hub/src/models/electra/__init__.py +20 -0
keras_hub/src/models/electra/electra_backbone.py +247 -0
keras_hub/src/models/electra/electra_preprocessor.py +154 -0
keras_hub/src/models/electra/electra_presets.py +95 -0
keras_hub/src/models/electra/electra_tokenizer.py +104 -0
keras_hub/src/models/f_net/__init__.py +20 -0
keras_hub/src/models/f_net/f_net_backbone.py +236 -0
keras_hub/src/models/f_net/f_net_classifier.py +154 -0
keras_hub/src/models/f_net/f_net_masked_lm.py +132 -0
keras_hub/src/models/f_net/f_net_masked_lm_preprocessor.py +196 -0
keras_hub/src/models/f_net/f_net_preprocessor.py +177 -0
keras_hub/src/models/f_net/f_net_presets.py +43 -0
keras_hub/src/models/f_net/f_net_tokenizer.py +95 -0
keras_hub/src/models/falcon/__init__.py +20 -0
keras_hub/src/models/falcon/falcon_attention.py +156 -0
keras_hub/src/models/falcon/falcon_backbone.py +164 -0
keras_hub/src/models/falcon/falcon_causal_lm.py +291 -0
keras_hub/src/models/falcon/falcon_causal_lm_preprocessor.py +173 -0
keras_hub/src/models/falcon/falcon_preprocessor.py +187 -0
keras_hub/src/models/falcon/falcon_presets.py +30 -0
keras_hub/src/models/falcon/falcon_tokenizer.py +110 -0
keras_hub/src/models/falcon/falcon_transformer_decoder.py +255 -0
keras_hub/src/models/feature_pyramid_backbone.py +73 -0
keras_hub/src/models/gemma/__init__.py +20 -0
keras_hub/src/models/gemma/gemma_attention.py +250 -0
keras_hub/src/models/gemma/gemma_backbone.py +316 -0
keras_hub/src/models/gemma/gemma_causal_lm.py +448 -0
keras_hub/src/models/gemma/gemma_causal_lm_preprocessor.py +167 -0
keras_hub/src/models/gemma/gemma_decoder_block.py +241 -0
keras_hub/src/models/gemma/gemma_preprocessor.py +191 -0
keras_hub/src/models/gemma/gemma_presets.py +248 -0
keras_hub/src/models/gemma/gemma_tokenizer.py +103 -0
keras_hub/src/models/gemma/rms_normalization.py +40 -0
keras_hub/src/models/gpt2/__init__.py +20 -0
keras_hub/src/models/gpt2/gpt2_backbone.py +199 -0
keras_hub/src/models/gpt2/gpt2_causal_lm.py +437 -0
keras_hub/src/models/gpt2/gpt2_causal_lm_preprocessor.py +173 -0
keras_hub/src/models/gpt2/gpt2_preprocessor.py +187 -0
keras_hub/src/models/gpt2/gpt2_presets.py +82 -0
keras_hub/src/models/gpt2/gpt2_tokenizer.py +110 -0
keras_hub/src/models/gpt_neo_x/__init__.py +13 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_attention.py +251 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_backbone.py +175 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_causal_lm.py +201 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_causal_lm_preprocessor.py +141 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_decoder.py +258 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_preprocessor.py +145 -0
keras_hub/src/models/gpt_neo_x/gpt_neo_x_tokenizer.py +88 -0
keras_hub/src/models/image_classifier.py +90 -0
keras_hub/src/models/llama/__init__.py +20 -0
keras_hub/src/models/llama/llama_attention.py +225 -0
keras_hub/src/models/llama/llama_backbone.py +188 -0
keras_hub/src/models/llama/llama_causal_lm.py +327 -0
keras_hub/src/models/llama/llama_causal_lm_preprocessor.py +170 -0
keras_hub/src/models/llama/llama_decoder.py +246 -0
keras_hub/src/models/llama/llama_layernorm.py +48 -0
keras_hub/src/models/llama/llama_preprocessor.py +189 -0
keras_hub/src/models/llama/llama_presets.py +80 -0
keras_hub/src/models/llama/llama_tokenizer.py +84 -0
keras_hub/src/models/llama3/__init__.py +20 -0
keras_hub/src/models/llama3/llama3_backbone.py +84 -0
keras_hub/src/models/llama3/llama3_causal_lm.py +46 -0
keras_hub/src/models/llama3/llama3_causal_lm_preprocessor.py +173 -0
keras_hub/src/models/llama3/llama3_preprocessor.py +21 -0
keras_hub/src/models/llama3/llama3_presets.py +69 -0
keras_hub/src/models/llama3/llama3_tokenizer.py +63 -0
keras_hub/src/models/masked_lm.py +101 -0
keras_hub/src/models/mistral/__init__.py +20 -0
keras_hub/src/models/mistral/mistral_attention.py +238 -0
keras_hub/src/models/mistral/mistral_backbone.py +203 -0
keras_hub/src/models/mistral/mistral_causal_lm.py +328 -0
keras_hub/src/models/mistral/mistral_causal_lm_preprocessor.py +175 -0
keras_hub/src/models/mistral/mistral_layer_norm.py +48 -0
keras_hub/src/models/mistral/mistral_preprocessor.py +190 -0
keras_hub/src/models/mistral/mistral_presets.py +48 -0
keras_hub/src/models/mistral/mistral_tokenizer.py +82 -0
keras_hub/src/models/mistral/mistral_transformer_decoder.py +265 -0
keras_hub/src/models/mix_transformer/__init__.py +13 -0
keras_hub/src/models/mix_transformer/mix_transformer_backbone.py +181 -0
keras_hub/src/models/mix_transformer/mix_transformer_classifier.py +133 -0
keras_hub/src/models/mix_transformer/mix_transformer_layers.py +300 -0
keras_hub/src/models/opt/__init__.py +20 -0
keras_hub/src/models/opt/opt_backbone.py +173 -0
keras_hub/src/models/opt/opt_causal_lm.py +301 -0
keras_hub/src/models/opt/opt_causal_lm_preprocessor.py +177 -0
keras_hub/src/models/opt/opt_preprocessor.py +188 -0
keras_hub/src/models/opt/opt_presets.py +72 -0
keras_hub/src/models/opt/opt_tokenizer.py +116 -0
keras_hub/src/models/pali_gemma/__init__.py +23 -0
keras_hub/src/models/pali_gemma/pali_gemma_backbone.py +277 -0
keras_hub/src/models/pali_gemma/pali_gemma_causal_lm.py +313 -0
keras_hub/src/models/pali_gemma/pali_gemma_causal_lm_preprocessor.py +147 -0
keras_hub/src/models/pali_gemma/pali_gemma_decoder_block.py +160 -0
keras_hub/src/models/pali_gemma/pali_gemma_presets.py +78 -0
keras_hub/src/models/pali_gemma/pali_gemma_tokenizer.py +79 -0
keras_hub/src/models/pali_gemma/pali_gemma_vit.py +566 -0
keras_hub/src/models/phi3/__init__.py +20 -0
keras_hub/src/models/phi3/phi3_attention.py +260 -0
keras_hub/src/models/phi3/phi3_backbone.py +224 -0
keras_hub/src/models/phi3/phi3_causal_lm.py +218 -0
keras_hub/src/models/phi3/phi3_causal_lm_preprocessor.py +173 -0
keras_hub/src/models/phi3/phi3_decoder.py +260 -0
keras_hub/src/models/phi3/phi3_layernorm.py +48 -0
keras_hub/src/models/phi3/phi3_preprocessor.py +190 -0
keras_hub/src/models/phi3/phi3_presets.py +50 -0
keras_hub/src/models/phi3/phi3_rotary_embedding.py +137 -0
keras_hub/src/models/phi3/phi3_tokenizer.py +94 -0
keras_hub/src/models/preprocessor.py +207 -0
keras_hub/src/models/resnet/__init__.py +13 -0
keras_hub/src/models/resnet/resnet_backbone.py +612 -0
keras_hub/src/models/resnet/resnet_image_classifier.py +136 -0
keras_hub/src/models/roberta/__init__.py +20 -0
keras_hub/src/models/roberta/roberta_backbone.py +184 -0
keras_hub/src/models/roberta/roberta_classifier.py +209 -0
keras_hub/src/models/roberta/roberta_masked_lm.py +136 -0
keras_hub/src/models/roberta/roberta_masked_lm_preprocessor.py +198 -0
keras_hub/src/models/roberta/roberta_preprocessor.py +192 -0
keras_hub/src/models/roberta/roberta_presets.py +43 -0
keras_hub/src/models/roberta/roberta_tokenizer.py +132 -0
keras_hub/src/models/seq_2_seq_lm.py +54 -0
keras_hub/src/models/t5/__init__.py +20 -0
keras_hub/src/models/t5/t5_backbone.py +261 -0
keras_hub/src/models/t5/t5_layer_norm.py +35 -0
keras_hub/src/models/t5/t5_multi_head_attention.py +324 -0
keras_hub/src/models/t5/t5_presets.py +95 -0
keras_hub/src/models/t5/t5_tokenizer.py +100 -0
keras_hub/src/models/t5/t5_transformer_layer.py +178 -0
keras_hub/src/models/task.py +419 -0
keras_hub/src/models/vgg/__init__.py +13 -0
keras_hub/src/models/vgg/vgg_backbone.py +158 -0
keras_hub/src/models/vgg/vgg_image_classifier.py +124 -0
keras_hub/src/models/vit_det/__init__.py +13 -0
keras_hub/src/models/vit_det/vit_det_backbone.py +204 -0
keras_hub/src/models/vit_det/vit_layers.py +565 -0
keras_hub/src/models/whisper/__init__.py +20 -0
keras_hub/src/models/whisper/whisper_audio_feature_extractor.py +260 -0
keras_hub/src/models/whisper/whisper_backbone.py +305 -0
keras_hub/src/models/whisper/whisper_cached_multi_head_attention.py +153 -0
keras_hub/src/models/whisper/whisper_decoder.py +141 -0
keras_hub/src/models/whisper/whisper_encoder.py +106 -0
keras_hub/src/models/whisper/whisper_preprocessor.py +326 -0
keras_hub/src/models/whisper/whisper_presets.py +148 -0
keras_hub/src/models/whisper/whisper_tokenizer.py +163 -0
keras_hub/src/models/xlm_roberta/__init__.py +26 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_backbone.py +81 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_classifier.py +225 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_masked_lm.py +141 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_masked_lm_preprocessor.py +195 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_preprocessor.py +205 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_presets.py +43 -0
keras_hub/src/models/xlm_roberta/xlm_roberta_tokenizer.py +191 -0
keras_hub/src/models/xlnet/__init__.py +13 -0
keras_hub/src/models/xlnet/relative_attention.py +459 -0
keras_hub/src/models/xlnet/xlnet_backbone.py +222 -0
keras_hub/src/models/xlnet/xlnet_content_and_query_embedding.py +133 -0
keras_hub/src/models/xlnet/xlnet_encoder.py +378 -0
keras_hub/src/samplers/__init__.py +13 -0
keras_hub/src/samplers/beam_sampler.py +207 -0
keras_hub/src/samplers/contrastive_sampler.py +231 -0
keras_hub/src/samplers/greedy_sampler.py +50 -0
keras_hub/src/samplers/random_sampler.py +77 -0
keras_hub/src/samplers/sampler.py +237 -0
keras_hub/src/samplers/serialization.py +97 -0
keras_hub/src/samplers/top_k_sampler.py +92 -0
keras_hub/src/samplers/top_p_sampler.py +113 -0
keras_hub/src/tests/__init__.py +13 -0
keras_hub/src/tests/test_case.py +608 -0
keras_hub/src/tokenizers/__init__.py +13 -0
keras_hub/src/tokenizers/byte_pair_tokenizer.py +638 -0
keras_hub/src/tokenizers/byte_tokenizer.py +299 -0
keras_hub/src/tokenizers/sentence_piece_tokenizer.py +267 -0
keras_hub/src/tokenizers/sentence_piece_tokenizer_trainer.py +150 -0
keras_hub/src/tokenizers/tokenizer.py +235 -0
keras_hub/src/tokenizers/unicode_codepoint_tokenizer.py +355 -0
keras_hub/src/tokenizers/word_piece_tokenizer.py +544 -0
keras_hub/src/tokenizers/word_piece_tokenizer_trainer.py +176 -0
keras_hub/src/utils/__init__.py +13 -0
keras_hub/src/utils/keras_utils.py +130 -0
keras_hub/src/utils/pipeline_model.py +293 -0
keras_hub/src/utils/preset_utils.py +621 -0
keras_hub/src/utils/python_utils.py +21 -0
keras_hub/src/utils/tensor_utils.py +206 -0
keras_hub/src/utils/timm/__init__.py +13 -0
keras_hub/src/utils/timm/convert.py +37 -0
keras_hub/src/utils/timm/convert_resnet.py +171 -0
keras_hub/src/utils/transformers/__init__.py +13 -0
keras_hub/src/utils/transformers/convert.py +101 -0
keras_hub/src/utils/transformers/convert_bert.py +173 -0
keras_hub/src/utils/transformers/convert_distilbert.py +184 -0
keras_hub/src/utils/transformers/convert_gemma.py +187 -0
keras_hub/src/utils/transformers/convert_gpt2.py +186 -0
keras_hub/src/utils/transformers/convert_llama3.py +136 -0
keras_hub/src/utils/transformers/convert_pali_gemma.py +303 -0
keras_hub/src/utils/transformers/safetensor_utils.py +97 -0
keras_hub/src/version_utils.py +23 -0
keras_hub_nightly-0.15.0.dev20240823171555.dist-info/METADATA +34 -0
keras_hub_nightly-0.15.0.dev20240823171555.dist-info/RECORD +297 -0
keras_hub_nightly-0.15.0.dev20240823171555.dist-info/WHEEL +5 -0
keras_hub_nightly-0.15.0.dev20240823171555.dist-info/top_level.txt +1 -0

keras_hub/src/utils/transformers/convert_gpt2.py ADDED Viewed

@@ -0,0 +1,186 @@
+# Copyright 2024 The KerasHub Authors
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     https://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import numpy as np
+from keras_hub.src.utils.preset_utils import HF_CONFIG_FILE
+from keras_hub.src.utils.preset_utils import get_file
+from keras_hub.src.utils.preset_utils import jax_memory_cleanup
+from keras_hub.src.utils.preset_utils import load_config
+from keras_hub.src.utils.transformers.safetensor_utils import SafetensorLoader
+def convert_backbone_config(transformers_config):
+    return {
+        "vocabulary_size": transformers_config["vocab_size"],
+        "num_layers": transformers_config["n_layer"],
+        "num_heads": transformers_config["n_head"],
+        "hidden_dim": transformers_config["n_embd"],
+        "intermediate_dim": transformers_config["n_embd"] * 4,
+        "dropout": transformers_config["resid_pdrop"],
+        "max_sequence_length": transformers_config["n_positions"],
+    }
+def convert_weights(backbone, loader, transformers_config):
+    # Embeddings
+    loader.port_weight(
+        keras_variable=backbone.token_embedding.embeddings,
+        hf_weight_key="wte.weight",
+    )
+    loader.port_weight(
+        keras_variable=backbone.position_embedding.position_embeddings,
+        hf_weight_key="wpe.weight",
+    )
+    # Attention blocks
+    for index in range(backbone.num_layers):
+        decoder_layer = backbone.transformer_layers[index]
+        # Norm layers
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer_norm.gamma,
+            hf_weight_key=f"h.{index}.ln_1.weight",
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer_norm.beta,
+            hf_weight_key=f"h.{index}.ln_1.bias",
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_layer_norm.gamma,
+            hf_weight_key=f"h.{index}.ln_2.weight",
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_layer_norm.beta,
+            hf_weight_key=f"h.{index}.ln_2.bias",
+        )
+        # Attention layers
+        n_embd = transformers_config["n_embd"]
+        # Query
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.query_dense.kernel,
+            hf_weight_key=f"h.{index}.attn.c_attn.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor[:, :n_embd], keras_shape
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.query_dense.bias,
+            hf_weight_key=f"h.{index}.attn.c_attn.bias",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor[:n_embd], keras_shape
+            ),
+        )
+        # Key
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.key_dense.kernel,
+            hf_weight_key=f"h.{index}.attn.c_attn.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor[:, n_embd : 2 * n_embd], keras_shape
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.key_dense.bias,
+            hf_weight_key=f"h.{index}.attn.c_attn.bias",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor[n_embd : 2 * n_embd], keras_shape
+            ),
+        )
+        # Value
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.value_dense.kernel,
+            hf_weight_key=f"h.{index}.attn.c_attn.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor[:, 2 * n_embd :], keras_shape
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.value_dense.bias,
+            hf_weight_key=f"h.{index}.attn.c_attn.bias",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor[2 * n_embd :], keras_shape
+            ),
+        )
+        # Output
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.output_dense.kernel,
+            hf_weight_key=f"h.{index}.attn.c_proj.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor, keras_shape
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer.output_dense.bias,
+            hf_weight_key=f"h.{index}.attn.c_proj.bias",
+        )
+        # MLP layers
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_intermediate_dense.kernel,
+            hf_weight_key=f"h.{index}.mlp.c_fc.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor, keras_shape
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_intermediate_dense.bias,
+            hf_weight_key=f"h.{index}.mlp.c_fc.bias",
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_output_dense.kernel,
+            hf_weight_key=f"h.{index}.mlp.c_proj.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.reshape(
+                hf_tensor, keras_shape
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_output_dense.bias,
+            hf_weight_key=f"h.{index}.mlp.c_proj.bias",
+        )
+    # Normalization
+    loader.port_weight(
+        keras_variable=backbone.layer_norm.gamma,
+        hf_weight_key="ln_f.weight",
+    )
+    loader.port_weight(
+        keras_variable=backbone.layer_norm.beta,
+        hf_weight_key="ln_f.bias",
+    )
+    return backbone
+def load_gpt2_backbone(cls, preset, load_weights):
+    transformers_config = load_config(preset, HF_CONFIG_FILE)
+    keras_config = convert_backbone_config(transformers_config)
+    backbone = cls(**keras_config)
+    if load_weights:
+        jax_memory_cleanup(backbone)
+        with SafetensorLoader(preset) as loader:
+            convert_weights(backbone, loader, transformers_config)
+    return backbone
+def load_gpt2_tokenizer(cls, preset):
+    vocab_file = get_file(preset, "vocab.json")
+    merges_file = get_file(preset, "merges.txt")
+    return cls(
+        vocabulary=vocab_file,
+        merges=merges_file,
+    )

keras_hub/src/utils/transformers/convert_llama3.py ADDED Viewed

@@ -0,0 +1,136 @@
+# Copyright 2024 The KerasHub Authors
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     https://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import numpy as np
+from keras_hub.src.utils.preset_utils import HF_CONFIG_FILE
+from keras_hub.src.utils.preset_utils import jax_memory_cleanup
+from keras_hub.src.utils.preset_utils import load_config
+from keras_hub.src.utils.transformers.safetensor_utils import SafetensorLoader
+def convert_backbone_config(transformers_config):
+    return {
+        "vocabulary_size": transformers_config["vocab_size"],
+        "num_layers": transformers_config["num_hidden_layers"],
+        "num_query_heads": transformers_config["num_attention_heads"],
+        "hidden_dim": transformers_config["hidden_size"],
+        "intermediate_dim": transformers_config["intermediate_size"],
+        "num_key_value_heads": transformers_config["num_key_value_heads"],
+    }
+def convert_weights(backbone, loader, transformers_config):
+    loader.port_weight(
+        keras_variable=backbone.get_layer("token_embedding").embeddings,
+        hf_weight_key="model.embed_tokens.weight",
+    )
+    loader.port_weight(
+        keras_variable=backbone.get_layer("token_embedding").reverse_embeddings,
+        hf_weight_key="lm_head.weight",
+        # rearrange_pattern="b a -> a b",
+        hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+    )
+    def transpose_and_reshape(x, shape):
+        return np.reshape(np.transpose(x), shape)
+    # Attention blocks
+    for i in range(backbone.num_layers):
+        decoder_layer = backbone.get_layer(f"transformer_layer_{i}")
+        # Norm layers
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layernorm.scale,
+            hf_weight_key=f"model.layers.{i}.input_layernorm.weight",
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_layernorm.scale,
+            hf_weight_key=f"model.layers.{i}.post_attention_layernorm.weight",
+        )
+        # Attention layers
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer._query_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.self_attn.q_proj.weight",
+            hook_fn=transpose_and_reshape,
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer._key_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.self_attn.k_proj.weight",
+            hook_fn=transpose_and_reshape,
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer._value_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.self_attn.v_proj.weight",
+            hook_fn=transpose_and_reshape,
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._self_attention_layer._output_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.self_attn.o_proj.weight",
+            # rearrange_patterns="c (a b) -> a b c",
+            # rearrange_dims={"a": backbone.num_query_heads},
+            hook_fn=transpose_and_reshape,
+        )
+        # MLP layers
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_gate_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.mlp.gate_proj.weight",
+            # rearrange_patterns="b a -> a b",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_intermediate_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.mlp.up_proj.weight",
+            # rearrange_patterns="b a -> a b",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer._feedforward_output_dense.kernel,
+            hf_weight_key=f"model.layers.{i}.mlp.down_proj.weight",
+            # rearrange_patterns="b a -> a b",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+    # Final normalization layer
+    loader.port_weight(
+        keras_variable=backbone.get_layer("sequence_output_layernorm").scale,
+        hf_weight_key="model.norm.weight",
+    )
+    return backbone
+def load_llama3_backbone(cls, preset, load_weights):
+    transformers_config = load_config(preset, HF_CONFIG_FILE)
+    keras_config = convert_backbone_config(transformers_config)
+    backbone = cls(**keras_config)
+    if load_weights:
+        jax_memory_cleanup(backbone)
+        with SafetensorLoader(preset) as loader:
+            convert_weights(backbone, loader, transformers_config)
+    return backbone
+def load_llama3_tokenizer(cls, preset):
+    tokenizer_config = load_config(preset, "tokenizer.json")
+    vocab = tokenizer_config["model"]["vocab"]
+    merges = tokenizer_config["model"]["merges"]
+    bot = tokenizer_config["added_tokens"][0]  # begin of text
+    eot = tokenizer_config["added_tokens"][1]  # end of text
+    vocab[bot["content"]] = bot["id"]
+    vocab[eot["content"]] = eot["id"]
+    return cls(vocabulary=vocab, merges=merges)

keras_hub/src/utils/transformers/convert_pali_gemma.py ADDED Viewed

@@ -0,0 +1,303 @@
+# Copyright 2024 The KerasHub Authors
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     https://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import numpy as np
+from keras_hub.src.utils.preset_utils import HF_CONFIG_FILE
+from keras_hub.src.utils.preset_utils import get_file
+from keras_hub.src.utils.preset_utils import jax_memory_cleanup
+from keras_hub.src.utils.preset_utils import load_config
+from keras_hub.src.utils.transformers.safetensor_utils import SafetensorLoader
+def convert_backbone_config(transformers_config):
+    text_config = transformers_config["text_config"]
+    vision_config = transformers_config["vision_config"]
+    return {
+        "vocabulary_size": transformers_config["image_token_index"],
+        "image_size": (
+            vision_config["image_size"]
+            if "image_size" in vision_config.keys()
+            else 224
+        ),
+        "num_layers": text_config["num_hidden_layers"],
+        "num_query_heads": text_config["num_attention_heads"],
+        "num_key_value_heads": text_config["num_key_value_heads"],
+        "hidden_dim": text_config["hidden_size"],
+        "intermediate_dim": text_config["intermediate_size"] * 2,
+        "head_dim": text_config["num_image_tokens"],
+        "vit_patch_size": vision_config["patch_size"],
+        "vit_num_heads": vision_config["num_attention_heads"],
+        "vit_hidden_dim": vision_config["hidden_size"],
+        "vit_num_layers": vision_config["num_hidden_layers"],
+        "vit_intermediate_dim": vision_config["intermediate_size"],
+    }
+def convert_weights(backbone, loader, transformers_config):
+    ############################################################################
+    # Image Tower
+    ############################################################################
+    image_encoder = backbone.vit_encoder.get_layer("image_encoder")
+    # Embedding
+    loader.port_weight(
+        keras_variable=image_encoder.vision_embeddings.patch_embedding.bias,
+        hf_weight_key="vision_tower.vision_model.embeddings.patch_embedding.bias",
+    )
+    loader.port_weight(
+        keras_variable=image_encoder.vision_embeddings.patch_embedding.kernel,
+        hf_weight_key="vision_tower.vision_model.embeddings.patch_embedding.weight",
+        hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(2, 3, 1, 0)),
+    )
+    # Positional Embedding
+    loader.port_weight(
+        keras_variable=image_encoder.vision_embeddings.position_embedding.embeddings,
+        hf_weight_key="vision_tower.vision_model.embeddings.position_embedding.weight",
+    )
+    # Normalization
+    loader.port_weight(
+        keras_variable=image_encoder.encoder_layer_norm.gamma,
+        hf_weight_key="vision_tower.vision_model.post_layernorm.weight",
+    )
+    loader.port_weight(
+        keras_variable=image_encoder.encoder_layer_norm.beta,
+        hf_weight_key="vision_tower.vision_model.post_layernorm.bias",
+    )
+    # ResBlocks
+    for index in range(image_encoder.num_layers):
+        block = image_encoder.resblocks[index]
+        loader.port_weight(
+            keras_variable=block.layer_norm_1.beta,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.layer_norm1.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.layer_norm_1.gamma,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.layer_norm1.weight",
+        )
+        loader.port_weight(
+            keras_variable=block.layer_norm_2.beta,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.layer_norm2.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.layer_norm_2.gamma,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.layer_norm2.weight",
+        )
+        loader.port_weight(
+            keras_variable=block.mlp_dense_1.kernel,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.mlp.fc1.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=block.mlp_dense_1.bias,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.mlp.fc1.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.mlp_dense_2.kernel,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.mlp.fc2.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=block.mlp_dense_2.bias,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.mlp.fc2.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.attn.key_proj.bias,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.k_proj.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.attn.key_proj.kernel,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.k_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=block.attn.out_proj.bias,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.out_proj.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.attn.out_proj.kernel,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.out_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=block.attn.query_proj.bias,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.q_proj.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.attn.query_proj.kernel,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.q_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=block.attn.value_proj.bias,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.v_proj.bias",
+        )
+        loader.port_weight(
+            keras_variable=block.attn.value_proj.kernel,
+            hf_weight_key=f"vision_tower.vision_model.encoder.layers.{index}.self_attn.v_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+    # Multi Modal Projection
+    loader.port_weight(
+        keras_variable=backbone.vit_encoder.get_layer(
+            "image_classifier"
+        ).kernel,
+        hf_weight_key="multi_modal_projector.linear.weight",
+        hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+    )
+    loader.port_weight(
+        keras_variable=backbone.vit_encoder.get_layer("image_classifier").bias,
+        hf_weight_key="multi_modal_projector.linear.bias",
+    )
+    ############################################################################
+    # Language Tower
+    ############################################################################
+    for index in range(backbone.num_layers):
+        decoder_layer = backbone.transformer_layers[index]
+        # Norm layers
+        loader.port_weight(
+            keras_variable=decoder_layer.pre_attention_norm.scale,
+            hf_weight_key=f"language_model.model.layers.{index}.input_layernorm.weight",
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer.pre_ffw_norm.scale,
+            hf_weight_key=f"language_model.model.layers.{index}.post_attention_layernorm.weight",
+        )
+        # Attention layers
+        loader.port_weight(
+            keras_variable=decoder_layer.attention.query_dense.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.self_attn.q_proj.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.transpose(
+                np.reshape(
+                    hf_tensor,
+                    (keras_shape[0], keras_shape[2], keras_shape[1]),
+                ),
+                axes=(0, 2, 1),
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer.attention.key_dense.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.self_attn.k_proj.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.transpose(
+                np.reshape(
+                    hf_tensor,
+                    (keras_shape[0], keras_shape[2], keras_shape[1]),
+                ),
+                axes=(0, 2, 1),
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer.attention.value_dense.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.self_attn.v_proj.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.transpose(
+                np.reshape(
+                    hf_tensor,
+                    (keras_shape[0], keras_shape[2], keras_shape[1]),
+                ),
+                axes=(0, 2, 1),
+            ),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer.attention.output_dense.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.self_attn.o_proj.weight",
+            hook_fn=lambda hf_tensor, keras_shape: np.transpose(
+                np.reshape(
+                    hf_tensor,
+                    (keras_shape[2], keras_shape[0], keras_shape[1]),
+                ),
+                axes=(1, 2, 0),
+            ),
+        )
+        # MLP layers
+        loader.port_weight(
+            keras_variable=decoder_layer.gating_ffw.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.mlp.gate_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer.gating_ffw_2.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.mlp.up_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+        loader.port_weight(
+            keras_variable=decoder_layer.ffw_linear.kernel,
+            hf_weight_key=f"language_model.model.layers.{index}.mlp.down_proj.weight",
+            hook_fn=lambda hf_tensor, _: np.transpose(hf_tensor, axes=(1, 0)),
+        )
+    # Normalization
+    loader.port_weight(
+        keras_variable=backbone.layer_norm.scale,
+        hf_weight_key="language_model.model.norm.weight",
+    )
+    # Embedding
+    loader.port_weight(
+        keras_variable=backbone.token_embedding.embeddings,
+        hf_weight_key="language_model.model.embed_tokens.weight",
+        hook_fn=lambda hf_tensor, keras_shape: hf_tensor[: keras_shape[0]],
+    )
+    return backbone
+def load_pali_gemma_backbone(cls, preset, load_weights):
+    transformers_config = load_config(preset, HF_CONFIG_FILE)
+    keras_config = convert_backbone_config(transformers_config)
+    backbone = cls(**keras_config)
+    if load_weights:
+        jax_memory_cleanup(backbone)
+        with SafetensorLoader(preset) as loader:
+            convert_weights(backbone, loader, transformers_config)
+    return backbone
+def load_pali_gemma_tokenizer(cls, preset):
+    """
+    Load the Gemma tokenizer.
+    Args:
+        cls (class): Tokenizer class.
+        preset (str): Preset configuration name.
+    Returns:
+        tokenizer: Initialized tokenizer.
+    """
+    return cls(get_file(preset, "tokenizer.model"))