PyPI - keras-hub-nightly - Versions diffs - 0.16.1.dev202410020340__py3-none-any.whl → 0.19.0.dev202501260345__py3-none-any.whl - Mend

keras-hub-nightly 0.16.1.dev202410020340py3-none-any.whl → 0.19.0.dev202501260345py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (252) hide show

keras_hub/api/layers/__init__.py +21 -3
keras_hub/api/models/__init__.py +71 -12
keras_hub/api/tokenizers/__init__.py +1 -1
keras_hub/src/bounding_box/__init__.py +2 -0
keras_hub/src/bounding_box/converters.py +102 -12
keras_hub/src/layers/modeling/f_net_encoder.py +1 -1
keras_hub/src/layers/modeling/masked_lm_head.py +2 -1
keras_hub/src/layers/modeling/reversible_embedding.py +3 -16
keras_hub/src/layers/modeling/rms_normalization.py +36 -0
keras_hub/src/layers/modeling/rotary_embedding.py +3 -2
keras_hub/src/layers/modeling/token_and_position_embedding.py +1 -1
keras_hub/src/layers/modeling/transformer_decoder.py +8 -6
keras_hub/src/layers/modeling/transformer_encoder.py +29 -7
keras_hub/src/layers/preprocessing/audio_converter.py +3 -7
keras_hub/src/layers/preprocessing/image_converter.py +170 -34
keras_hub/src/metrics/bleu.py +4 -3
keras_hub/src/models/albert/albert_presets.py +4 -12
keras_hub/src/models/albert/albert_text_classifier.py +7 -7
keras_hub/src/models/backbone.py +3 -14
keras_hub/src/models/bart/bart_backbone.py +4 -4
keras_hub/src/models/bart/bart_presets.py +3 -9
keras_hub/src/models/bart/bart_seq_2_seq_lm.py +9 -8
keras_hub/src/models/basnet/__init__.py +5 -0
keras_hub/src/models/basnet/basnet.py +122 -0
keras_hub/src/models/basnet/basnet_backbone.py +366 -0
keras_hub/src/models/basnet/basnet_image_converter.py +8 -0
keras_hub/src/models/basnet/basnet_preprocessor.py +14 -0
keras_hub/src/models/basnet/basnet_presets.py +17 -0
keras_hub/src/models/bert/bert_presets.py +14 -32
keras_hub/src/models/bert/bert_text_classifier.py +3 -3
keras_hub/src/models/bloom/bloom_presets.py +8 -24
keras_hub/src/models/causal_lm.py +56 -12
keras_hub/src/models/clip/__init__.py +5 -0
keras_hub/src/models/clip/clip_backbone.py +286 -0
keras_hub/src/models/clip/clip_encoder_block.py +19 -4
keras_hub/src/models/clip/clip_image_converter.py +8 -0
keras_hub/src/models/clip/clip_presets.py +93 -0
keras_hub/src/models/clip/clip_text_encoder.py +4 -1
keras_hub/src/models/clip/clip_tokenizer.py +18 -3
keras_hub/src/models/clip/clip_vision_embedding.py +101 -0
keras_hub/src/models/clip/clip_vision_encoder.py +159 -0
keras_hub/src/models/csp_darknet/csp_darknet_backbone.py +2 -1
keras_hub/src/models/csp_darknet/csp_darknet_image_classifier.py +0 -109
keras_hub/src/models/deberta_v3/deberta_v3_backbone.py +1 -1
keras_hub/src/models/deberta_v3/deberta_v3_presets.py +5 -15
keras_hub/src/models/deberta_v3/deberta_v3_text_classifier.py +4 -4
keras_hub/src/models/deberta_v3/disentangled_attention_encoder.py +4 -4
keras_hub/src/models/deberta_v3/disentangled_self_attention.py +3 -2
keras_hub/src/models/deberta_v3/relative_embedding.py +1 -1
keras_hub/src/models/deeplab_v3/__init__.py +7 -0
keras_hub/src/models/deeplab_v3/deeplab_v3_backbone.py +200 -0
keras_hub/src/models/deeplab_v3/deeplab_v3_image_converter.py +10 -0
keras_hub/src/models/deeplab_v3/deeplab_v3_image_segmeter_preprocessor.py +16 -0
keras_hub/src/models/deeplab_v3/deeplab_v3_layers.py +215 -0
keras_hub/src/models/deeplab_v3/deeplab_v3_presets.py +17 -0
keras_hub/src/models/deeplab_v3/deeplab_v3_segmenter.py +111 -0
keras_hub/src/models/densenet/densenet_backbone.py +6 -4
keras_hub/src/models/densenet/densenet_image_classifier.py +1 -129
keras_hub/src/models/densenet/densenet_image_converter.py +2 -4
keras_hub/src/models/densenet/densenet_presets.py +9 -15
keras_hub/src/models/distil_bert/distil_bert_masked_lm.py +1 -1
keras_hub/src/models/distil_bert/distil_bert_masked_lm_preprocessor.py +2 -2
keras_hub/src/models/distil_bert/distil_bert_presets.py +5 -10
keras_hub/src/models/distil_bert/distil_bert_text_classifier.py +5 -5
keras_hub/src/models/distil_bert/distil_bert_tokenizer.py +3 -3
keras_hub/src/models/efficientnet/__init__.py +9 -0
keras_hub/src/models/efficientnet/cba.py +141 -0
keras_hub/src/models/efficientnet/efficientnet_backbone.py +160 -61
keras_hub/src/models/efficientnet/efficientnet_image_classifier.py +14 -0
keras_hub/src/models/efficientnet/efficientnet_image_classifier_preprocessor.py +16 -0
keras_hub/src/models/efficientnet/efficientnet_image_converter.py +10 -0
keras_hub/src/models/efficientnet/efficientnet_presets.py +193 -0
keras_hub/src/models/efficientnet/fusedmbconv.py +84 -41
keras_hub/src/models/efficientnet/mbconv.py +53 -22
keras_hub/src/models/electra/electra_backbone.py +2 -2
keras_hub/src/models/electra/electra_presets.py +6 -18
keras_hub/src/models/f_net/f_net_presets.py +2 -6
keras_hub/src/models/f_net/f_net_text_classifier.py +3 -3
keras_hub/src/models/f_net/f_net_text_classifier_preprocessor.py +3 -3
keras_hub/src/models/falcon/falcon_backbone.py +5 -3
keras_hub/src/models/falcon/falcon_causal_lm.py +18 -8
keras_hub/src/models/falcon/falcon_presets.py +1 -3
keras_hub/src/models/falcon/falcon_tokenizer.py +7 -2
keras_hub/src/models/feature_pyramid_backbone.py +1 -1
keras_hub/src/models/flux/__init__.py +5 -0
keras_hub/src/models/flux/flux_layers.py +496 -0
keras_hub/src/models/flux/flux_maths.py +225 -0
keras_hub/src/models/flux/flux_model.py +236 -0
keras_hub/src/models/flux/flux_presets.py +3 -0
keras_hub/src/models/flux/flux_text_to_image.py +146 -0
keras_hub/src/models/flux/flux_text_to_image_preprocessor.py +73 -0
keras_hub/src/models/gemma/gemma_backbone.py +35 -20
keras_hub/src/models/gemma/gemma_causal_lm.py +2 -2
keras_hub/src/models/gemma/gemma_decoder_block.py +3 -1
keras_hub/src/models/gemma/gemma_presets.py +29 -63
keras_hub/src/models/gpt2/gpt2_causal_lm.py +2 -2
keras_hub/src/models/gpt2/gpt2_presets.py +5 -14
keras_hub/src/models/gpt_neo_x/gpt_neo_x_attention.py +2 -1
keras_hub/src/models/gpt_neo_x/gpt_neo_x_causal_lm.py +3 -3
keras_hub/src/models/gpt_neo_x/gpt_neo_x_decoder.py +2 -1
keras_hub/src/models/image_classifier.py +147 -2
keras_hub/src/models/image_classifier_preprocessor.py +6 -3
keras_hub/src/models/image_object_detector.py +87 -0
keras_hub/src/models/image_object_detector_preprocessor.py +57 -0
keras_hub/src/models/image_segmenter.py +0 -5
keras_hub/src/models/image_segmenter_preprocessor.py +29 -4
keras_hub/src/models/image_to_image.py +417 -0
keras_hub/src/models/inpaint.py +520 -0
keras_hub/src/models/llama/llama_backbone.py +138 -12
keras_hub/src/models/llama/llama_causal_lm.py +3 -1
keras_hub/src/models/llama/llama_presets.py +10 -20
keras_hub/src/models/llama3/llama3_backbone.py +12 -11
keras_hub/src/models/llama3/llama3_causal_lm.py +1 -1
keras_hub/src/models/llama3/llama3_presets.py +4 -12
keras_hub/src/models/llama3/llama3_tokenizer.py +25 -2
keras_hub/src/models/mistral/mistral_backbone.py +16 -15
keras_hub/src/models/mistral/mistral_causal_lm.py +6 -4
keras_hub/src/models/mistral/mistral_presets.py +3 -9
keras_hub/src/models/mistral/mistral_transformer_decoder.py +2 -1
keras_hub/src/models/mit/__init__.py +6 -0
keras_hub/src/models/{mix_transformer/mix_transformer_backbone.py → mit/mit_backbone.py} +47 -36
keras_hub/src/models/mit/mit_image_classifier.py +12 -0
keras_hub/src/models/mit/mit_image_classifier_preprocessor.py +12 -0
keras_hub/src/models/mit/mit_image_converter.py +8 -0
keras_hub/src/models/{mix_transformer/mix_transformer_layers.py → mit/mit_layers.py} +20 -13
keras_hub/src/models/mit/mit_presets.py +139 -0
keras_hub/src/models/mobilenet/mobilenet_backbone.py +8 -8
keras_hub/src/models/mobilenet/mobilenet_image_classifier.py +0 -92
keras_hub/src/models/opt/opt_causal_lm.py +2 -2
keras_hub/src/models/opt/opt_presets.py +4 -12
keras_hub/src/models/pali_gemma/pali_gemma_backbone.py +63 -17
keras_hub/src/models/pali_gemma/pali_gemma_causal_lm.py +3 -1
keras_hub/src/models/pali_gemma/pali_gemma_decoder_block.py +21 -23
keras_hub/src/models/pali_gemma/pali_gemma_image_converter.py +2 -4
keras_hub/src/models/pali_gemma/pali_gemma_presets.py +173 -17
keras_hub/src/models/pali_gemma/pali_gemma_vit.py +14 -26
keras_hub/src/models/phi3/phi3_causal_lm.py +3 -1
keras_hub/src/models/phi3/phi3_decoder.py +0 -1
keras_hub/src/models/phi3/phi3_presets.py +2 -6
keras_hub/src/models/phi3/phi3_rotary_embedding.py +1 -1
keras_hub/src/models/preprocessor.py +25 -11
keras_hub/src/models/resnet/resnet_backbone.py +3 -14
keras_hub/src/models/resnet/resnet_image_classifier.py +0 -137
keras_hub/src/models/resnet/resnet_image_converter.py +2 -4
keras_hub/src/models/resnet/resnet_presets.py +127 -18
keras_hub/src/models/retinanet/__init__.py +5 -0
keras_hub/src/models/retinanet/anchor_generator.py +52 -53
keras_hub/src/models/retinanet/feature_pyramid.py +103 -39
keras_hub/src/models/retinanet/non_max_supression.py +1 -0
keras_hub/src/models/retinanet/prediction_head.py +192 -0
keras_hub/src/models/retinanet/retinanet_backbone.py +146 -0
keras_hub/src/models/retinanet/retinanet_image_converter.py +53 -0
keras_hub/src/models/retinanet/retinanet_label_encoder.py +49 -51
keras_hub/src/models/retinanet/retinanet_object_detector.py +381 -0
keras_hub/src/models/retinanet/retinanet_object_detector_preprocessor.py +14 -0
keras_hub/src/models/retinanet/retinanet_presets.py +16 -0
keras_hub/src/models/roberta/roberta_backbone.py +2 -2
keras_hub/src/models/roberta/roberta_presets.py +6 -8
keras_hub/src/models/roberta/roberta_text_classifier.py +3 -3
keras_hub/src/models/sam/__init__.py +5 -0
keras_hub/src/models/sam/sam_backbone.py +2 -3
keras_hub/src/models/sam/sam_image_converter.py +2 -4
keras_hub/src/models/sam/sam_image_segmenter.py +16 -16
keras_hub/src/models/sam/sam_image_segmenter_preprocessor.py +11 -1
keras_hub/src/models/sam/sam_layers.py +5 -3
keras_hub/src/models/sam/sam_presets.py +3 -9
keras_hub/src/models/sam/sam_prompt_encoder.py +4 -2
keras_hub/src/models/sam/sam_transformer.py +5 -4
keras_hub/src/models/segformer/__init__.py +8 -0
keras_hub/src/models/segformer/segformer_backbone.py +167 -0
keras_hub/src/models/segformer/segformer_image_converter.py +8 -0
keras_hub/src/models/segformer/segformer_image_segmenter.py +184 -0
keras_hub/src/models/segformer/segformer_image_segmenter_preprocessor.py +31 -0
keras_hub/src/models/segformer/segformer_presets.py +136 -0
keras_hub/src/models/seq_2_seq_lm_preprocessor.py +1 -1
keras_hub/src/models/stable_diffusion_3/flow_match_euler_discrete_scheduler.py +8 -1
keras_hub/src/models/stable_diffusion_3/mmdit.py +577 -190
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_backbone.py +189 -163
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_image_to_image.py +178 -0
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_inpaint.py +193 -0
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_presets.py +43 -7
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_text_to_image.py +25 -14
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_text_to_image_preprocessor.py +1 -1
keras_hub/src/models/t5/t5_backbone.py +5 -4
keras_hub/src/models/t5/t5_presets.py +47 -19
keras_hub/src/models/task.py +47 -39
keras_hub/src/models/text_classifier.py +2 -2
keras_hub/src/models/text_to_image.py +106 -41
keras_hub/src/models/vae/__init__.py +1 -0
keras_hub/src/models/vae/vae_backbone.py +184 -0
keras_hub/src/models/vae/vae_layers.py +739 -0
keras_hub/src/models/vgg/__init__.py +5 -0
keras_hub/src/models/vgg/vgg_backbone.py +4 -24
keras_hub/src/models/vgg/vgg_image_classifier.py +139 -33
keras_hub/src/models/vgg/vgg_image_classifier_preprocessor.py +12 -0
keras_hub/src/models/vgg/vgg_image_converter.py +8 -0
keras_hub/src/models/vgg/vgg_presets.py +48 -0
keras_hub/src/models/vit/__init__.py +5 -0
keras_hub/src/models/vit/vit_backbone.py +152 -0
keras_hub/src/models/vit/vit_image_classifier.py +187 -0
keras_hub/src/models/vit/vit_image_classifier_preprocessor.py +12 -0
keras_hub/src/models/vit/vit_image_converter.py +73 -0
keras_hub/src/models/vit/vit_layers.py +391 -0
keras_hub/src/models/vit/vit_presets.py +126 -0
keras_hub/src/models/vit_det/vit_det_backbone.py +6 -4
keras_hub/src/models/vit_det/vit_layers.py +3 -3
keras_hub/src/models/whisper/whisper_audio_converter.py +2 -4
keras_hub/src/models/whisper/whisper_backbone.py +6 -5
keras_hub/src/models/whisper/whisper_decoder.py +3 -5
keras_hub/src/models/whisper/whisper_presets.py +10 -30
keras_hub/src/models/xlm_roberta/xlm_roberta_masked_lm.py +1 -1
keras_hub/src/models/xlm_roberta/xlm_roberta_masked_lm_preprocessor.py +2 -2
keras_hub/src/models/xlm_roberta/xlm_roberta_presets.py +2 -6
keras_hub/src/models/xlm_roberta/xlm_roberta_text_classifier.py +4 -4
keras_hub/src/models/xlm_roberta/xlm_roberta_tokenizer.py +2 -1
keras_hub/src/models/xlnet/relative_attention.py +20 -19
keras_hub/src/models/xlnet/xlnet_backbone.py +2 -2
keras_hub/src/models/xlnet/xlnet_content_and_query_embedding.py +3 -5
keras_hub/src/models/xlnet/xlnet_encoder.py +7 -9
keras_hub/src/samplers/contrastive_sampler.py +2 -3
keras_hub/src/samplers/sampler.py +2 -1
keras_hub/src/tests/test_case.py +41 -6
keras_hub/src/tokenizers/byte_pair_tokenizer.py +7 -3
keras_hub/src/tokenizers/byte_tokenizer.py +3 -10
keras_hub/src/tokenizers/sentence_piece_tokenizer.py +2 -9
keras_hub/src/tokenizers/sentence_piece_tokenizer_trainer.py +9 -11
keras_hub/src/tokenizers/tokenizer.py +10 -13
keras_hub/src/tokenizers/unicode_codepoint_tokenizer.py +9 -7
keras_hub/src/tokenizers/word_piece_tokenizer_trainer.py +10 -3
keras_hub/src/utils/keras_utils.py +2 -13
keras_hub/src/utils/pipeline_model.py +3 -3
keras_hub/src/utils/preset_utils.py +196 -144
keras_hub/src/utils/tensor_utils.py +4 -4
keras_hub/src/utils/timm/convert_densenet.py +6 -4
keras_hub/src/utils/timm/convert_efficientnet.py +447 -0
keras_hub/src/utils/timm/convert_resnet.py +1 -1
keras_hub/src/utils/timm/convert_vgg.py +85 -0
keras_hub/src/utils/timm/preset_loader.py +14 -9
keras_hub/src/utils/transformers/convert_llama3.py +21 -5
keras_hub/src/utils/transformers/convert_vit.py +150 -0
keras_hub/src/utils/transformers/preset_loader.py +23 -0
keras_hub/src/utils/transformers/safetensor_utils.py +4 -3
keras_hub/src/version_utils.py +1 -1
{keras_hub_nightly-0.16.1.dev202410020340.dist-info → keras_hub_nightly-0.19.0.dev202501260345.dist-info}/METADATA +86 -68
keras_hub_nightly-0.19.0.dev202501260345.dist-info/RECORD +423 -0
{keras_hub_nightly-0.16.1.dev202410020340.dist-info → keras_hub_nightly-0.19.0.dev202501260345.dist-info}/WHEEL +1 -1
keras_hub/src/layers/preprocessing/resizing_image_converter.py +0 -138
keras_hub/src/models/mix_transformer/__init__.py +0 -0
keras_hub/src/models/mix_transformer/mix_transformer_classifier.py +0 -119
keras_hub/src/models/stable_diffusion_3/vae_image_decoder.py +0 -320
keras_hub_nightly-0.16.1.dev202410020340.dist-info/RECORD +0 -357
{keras_hub_nightly-0.16.1.dev202410020340.dist-info → keras_hub_nightly-0.19.0.dev202501260345.dist-info}/top_level.txt +0 -0

keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_image_to_image.py ADDED Viewed

@@ -0,0 +1,178 @@
+from keras import ops
+from keras_hub.src.api_export import keras_hub_export
+from keras_hub.src.models.image_to_image import ImageToImage
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone import (  # noqa: E501
+    StableDiffusion3Backbone,
+)
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_text_to_image_preprocessor import (  # noqa: E501
+    StableDiffusion3TextToImagePreprocessor,
+)
+@keras_hub_export("keras_hub.models.StableDiffusion3ImageToImage")
+class StableDiffusion3ImageToImage(ImageToImage):
+    """An end-to-end Stable Diffusion 3 model for image-to-image generation.
+    This model has a `generate()` method, which generates images based
+    on a combination of a reference image and a text prompt.
+    Args:
+        backbone: A `keras_hub.models.StableDiffusion3Backbone` instance.
+        preprocessor: A
+            `keras_hub.models.StableDiffusion3TextToImagePreprocessor` instance.
+    Examples:
+    Use `generate()` to do image generation.
+    ```python
+    prompt = (
+        "Astronaut in a jungle, cold color palette, muted colors, "
+        "detailed, 8k"
+    )
+    image_to_image = keras_hub.models.StableDiffusion3ImageToImage.from_preset(
+        "stable_diffusion_3_medium", image_shape=(512, 512, 3)
+    )
+    image_to_image.generate(
+        {
+            "images": np.ones((512, 512, 3), dtype="float32"),
+            "prompts": prompt,
+        }
+    )
+    # Generate with batched prompts.
+    image_to_image.generate(
+        {
+            "images": np.ones((2, 512, 512, 3), dtype="float32"),
+            "prompts": [
+                "cute wallpaper art of a cat",
+                "cute wallpaper art of a dog",
+            ],
+        }
+    )
+    # Generate with different `num_steps`, `guidance_scale` and `strength`.
+    image_to_image.generate(
+        {
+            "images": np.ones((512, 512, 3), dtype="float32"),
+            "prompts": prompt,
+        }
+        num_steps=50,
+        guidance_scale=5.0,
+        strength=0.6,
+    )
+    # Generate with `negative_prompts`.
+    text_to_image.generate(
+        {
+            "images": np.ones((512, 512, 3), dtype="float32"),
+            "prompts": prompt,
+            "negative_prompts": "green color",
+        }
+    )
+    ```
+    """
+    backbone_cls = StableDiffusion3Backbone
+    preprocessor_cls = StableDiffusion3TextToImagePreprocessor
+    def __init__(
+        self,
+        backbone,
+        preprocessor,
+        **kwargs,
+    ):
+        # === Layers ===
+        self.backbone = backbone
+        self.preprocessor = preprocessor
+        # === Functional Model ===
+        inputs = backbone.input
+        outputs = backbone.output
+        super().__init__(
+            inputs=inputs,
+            outputs=outputs,
+            **kwargs,
+        )
+    def fit(self, *args, **kwargs):
+        raise NotImplementedError(
+            "Currently, `fit` is not supported for "
+            "`StableDiffusion3ImageToImage`."
+        )
+    def generate_step(
+        self,
+        images,
+        noises,
+        token_ids,
+        starting_step,
+        num_steps,
+        guidance_scale,
+    ):
+        """A compilable generation function for batched of inputs.
+        This function represents the inner, XLA-compilable, generation function
+        for batched inputs.
+        Args:
+            images: A (batch_size, image_height, image_width, 3) tensor
+                containing the reference images.
+            noises: A (batch_size, latent_height, latent_width, channels) tensor
+                containing the noises to be added to the latents. Typically,
+                this tensor is sampled from the Gaussian distribution.
+            token_ids: A pair of (batch_size, num_tokens) tensor containing the
+                tokens based on the input prompts and negative prompts.
+            starting_step: int. The number of the starting diffusion step.
+            num_steps: int. The number of diffusion steps to take.
+            guidance_scale: float. The classifier free guidance scale defined in
+                [Classifier-Free Diffusion Guidance](
+                https://arxiv.org/abs/2207.12598). Higher scale encourages to
+                generate images that are closely linked to prompts, usually at
+                the expense of lower image quality.
+        """
+        token_ids, negative_token_ids = token_ids
+        # Encode images.
+        latents = self.backbone.encode_image_step(images)
+        # Add noises to latents.
+        latents = self.backbone.add_noise_step(
+            latents, noises, starting_step, num_steps
+        )
+        # Encode inputs.
+        embeddings = self.backbone.encode_text_step(
+            token_ids, negative_token_ids
+        )
+        # Denoise.
+        def body_fun(step, latents):
+            return self.backbone.denoise_step(
+                latents,
+                embeddings,
+                step,
+                num_steps,
+                guidance_scale,
+            )
+        latents = ops.fori_loop(starting_step, num_steps, body_fun, latents)
+        # Decode.
+        return self.backbone.decode_step(latents)
+    def generate(
+        self,
+        inputs,
+        num_steps=50,
+        strength=0.8,
+        guidance_scale=7.0,
+        seed=None,
+    ):
+        return super().generate(
+            inputs,
+            num_steps=num_steps,
+            strength=strength,
+            guidance_scale=guidance_scale,
+            seed=seed,
+        )

keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_inpaint.py ADDED Viewed

@@ -0,0 +1,193 @@
+from keras import ops
+from keras_hub.src.api_export import keras_hub_export
+from keras_hub.src.models.inpaint import Inpaint
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone import (  # noqa: E501
+    StableDiffusion3Backbone,
+)
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_text_to_image_preprocessor import (  # noqa: E501
+    StableDiffusion3TextToImagePreprocessor,
+)
+@keras_hub_export("keras_hub.models.StableDiffusion3Inpaint")
+class StableDiffusion3Inpaint(Inpaint):
+    """An end-to-end Stable Diffusion 3 model for inpaint generation.
+    This model has a `generate()` method, which generates images based
+    on a combination of a reference image, mask and a text prompt.
+    Args:
+        backbone: A `keras_hub.models.StableDiffusion3Backbone` instance.
+        preprocessor: A
+            `keras_hub.models.StableDiffusion3TextToImagePreprocessor` instance.
+    Examples:
+    Use `generate()` to do image generation.
+    ```python
+    reference_image = np.ones((1024, 1024, 3), dtype="float32")
+    reference_mask = np.ones((1024, 1024), dtype="float32")
+    inpaint = keras_hub.models.StableDiffusion3Inpaint.from_preset(
+        "stable_diffusion_3_medium", image_shape=(512, 512, 3)
+    )
+    inpaint.generate(
+        reference_image,
+        reference_mask,
+        "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k",
+    )
+    # Generate with batched prompts.
+    reference_images = np.ones((2, 512, 512, 3), dtype="float32")
+    reference_mask = np.ones((2, 1024, 1024), dtype="float32")
+    inpaint.generate(
+        reference_images,
+        reference_mask,
+        ["cute wallpaper art of a cat", "cute wallpaper art of a dog"]
+    )
+    # Generate with different `num_steps`, `guidance_scale` and `strength`.
+    inpaint.generate(
+        reference_image,
+        reference_mask,
+        "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k",
+        num_steps=50,
+        guidance_scale=5.0,
+        strength=0.6,
+    )
+    ```
+    """
+    backbone_cls = StableDiffusion3Backbone
+    preprocessor_cls = StableDiffusion3TextToImagePreprocessor
+    def __init__(
+        self,
+        backbone,
+        preprocessor,
+        **kwargs,
+    ):
+        # === Layers ===
+        self.backbone = backbone
+        self.preprocessor = preprocessor
+        # === Functional Model ===
+        inputs = backbone.input
+        outputs = backbone.output
+        super().__init__(
+            inputs=inputs,
+            outputs=outputs,
+            **kwargs,
+        )
+    def fit(self, *args, **kwargs):
+        raise NotImplementedError(
+            "Currently, `fit` is not supported for `StableDiffusion3Inpaint`."
+        )
+    def generate_step(
+        self,
+        images,
+        masks,
+        noises,
+        token_ids,
+        starting_step,
+        num_steps,
+        guidance_scale,
+    ):
+        """A compilable generation function for batched of inputs.
+        This function represents the inner, XLA-compilable, generation function
+        for batched inputs.
+        Args:
+            images: A (batch_size, image_height, image_width, 3) tensor
+                containing the reference images.
+            masks: A (batch_size, image_height, image_width) tensor
+                containing the reference masks.
+            noises: A (batch_size, latent_height, latent_width, channels) tensor
+                containing the noises to be added to the latents. Typically,
+                this tensor is sampled from the Gaussian distribution.
+            token_ids: A pair of (batch_size, num_tokens) tensor containing the
+                tokens based on the input prompts and negative prompts.
+            starting_step: int. The number of the starting diffusion step.
+            num_steps: int. The number of diffusion steps to take.
+            guidance_scale: float. The classifier free guidance scale defined in
+                [Classifier-Free Diffusion Guidance](
+                https://arxiv.org/abs/2207.12598). Higher scale encourages to
+                generate images that are closely linked to prompts, usually at
+                the expense of lower image quality.
+        """
+        token_ids, negative_token_ids = token_ids
+        # Get masked images.
+        masks = ops.cast(ops.expand_dims(masks, axis=-1) > 0.5, images.dtype)
+        masks_latent_size = ops.image.resize(
+            masks,
+            (self.backbone.latent_shape[1], self.backbone.latent_shape[2]),
+            interpolation="nearest",
+        )
+        # Encode images.
+        image_latents = self.backbone.encode_image_step(images)
+        # Add noises to latents.
+        latents = self.backbone.add_noise_step(
+            image_latents, noises, starting_step, num_steps
+        )
+        # Encode inputs.
+        embeddings = self.backbone.encode_text_step(
+            token_ids, negative_token_ids
+        )
+        # Denoise.
+        def body_fun(step, latents):
+            latents = self.backbone.denoise_step(
+                latents,
+                embeddings,
+                step,
+                num_steps,
+                guidance_scale,
+            )
+            # Compute the previous latents x_t -> x_t-1.
+            def true_fn():
+                next_step = ops.add(step, 1)
+                return self.backbone.add_noise_step(
+                    image_latents, noises, next_step, num_steps
+                )
+            init_latents = ops.cond(
+                step < ops.subtract(num_steps, 1),
+                true_fn,
+                lambda: ops.cast(image_latents, noises.dtype),
+            )
+            latents = ops.add(
+                ops.multiply(
+                    ops.subtract(1.0, masks_latent_size), init_latents
+                ),
+                ops.multiply(masks_latent_size, latents),
+            )
+            return latents
+        latents = ops.fori_loop(starting_step, num_steps, body_fun, latents)
+        # Decode.
+        return self.backbone.decode_step(latents)
+    def generate(
+        self,
+        inputs,
+        num_steps=50,
+        strength=0.6,
+        guidance_scale=7.0,
+        seed=None,
+    ):
+        return super().generate(
+            inputs,
+            num_steps=num_steps,
+            strength=strength,
+            guidance_scale=guidance_scale,
+            seed=seed,
+        )

keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_presets.py CHANGED Viewed

@@ -5,14 +5,50 @@ backbone_presets = {
         "metadata": {
             "description": (
                 "3 billion parameter, including CLIP L and CLIP G text "
-                "encoders, MMDiT generative model, and VAE decoder. "
+                "encoders, MMDiT generative model, and VAE autoencoder. "
                 "Developed by Stability AI."
             ),
-            "params": 2952806723,
-            "official_name": "StableDiffusion3",
-            "path": "stablediffusion3",
-            "model_card": "https://arxiv.org/abs/2110.00476",
+            "params": 2987080931,
+            "path": "stable_diffusion_3",
         },
-        "kaggle_handle": "kaggle://kerashub/stablediffusion3/keras/stable_diffusion_3_medium/1",
-    }
+        "kaggle_handle": "kaggle://keras/stablediffusion3/keras/stable_diffusion_3_medium/4",
+    },
+    "stable_diffusion_3.5_medium": {
+        "metadata": {
+            "description": (
+                "3 billion parameter, including CLIP L and CLIP G text "
+                "encoders, MMDiT-X generative model, and VAE autoencoder. "
+                "Developed by Stability AI."
+            ),
+            "params": 3371793763,
+            "path": "stable_diffusion_3",
+        },
+        "kaggle_handle": "kaggle://keras/stablediffusion3/keras/stable_diffusion_3.5_medium/1",
+    },
+    "stable_diffusion_3.5_large": {
+        "metadata": {
+            "description": (
+                "9 billion parameter, including CLIP L and CLIP G text "
+                "encoders, MMDiT generative model, and VAE autoencoder. "
+                "Developed by Stability AI."
+            ),
+            "params": 9048410595,
+            "path": "stable_diffusion_3",
+        },
+        "kaggle_handle": "kaggle://keras/stablediffusion-3.5/keras/stable_diffusion_3.5_large/2",
+    },
+    "stable_diffusion_3.5_large_turbo": {
+        "metadata": {
+            "description": (
+                "9 billion parameter, including CLIP L and CLIP G text "
+                "encoders, MMDiT generative model, and VAE autoencoder. "
+                "A timestep-distilled version that eliminates classifier-free "
+                "guidance and uses fewer steps for generation. "
+                "Developed by Stability AI."
+            ),
+            "params": 9048410595,
+            "path": "stable_diffusion_3",
+        },
+        "kaggle_handle": "kaggle://keras/stablediffusion-3.5/keras/stable_diffusion_3.5_large_turbo/2",
+    },
 }

keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_text_to_image.py CHANGED Viewed

@@ -1,10 +1,10 @@
 from keras import ops
 from keras_hub.src.api_export import keras_hub_export
-from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone import (
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone import (  # noqa: E501
     StableDiffusion3Backbone,
 )
-from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_text_to_image_preprocessor import (
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_text_to_image_preprocessor import (  # noqa: E501
     StableDiffusion3TextToImagePreprocessor,
 )
 from keras_hub.src.models.text_to_image import TextToImage
@@ -27,7 +27,7 @@ class StableDiffusion3TextToImage(TextToImage):
     Use `generate()` to do image generation.
     ```python
     text_to_image = keras_hub.models.StableDiffusion3TextToImage.from_preset(
-        "stable_diffusion_3_medium", height=512, width=512
+        "stable_diffusion_3_medium", image_shape=(512, 512, 3)
     )
     text_to_image.generate(
         "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
@@ -38,11 +38,23 @@ class StableDiffusion3TextToImage(TextToImage):
         ["cute wallpaper art of a cat", "cute wallpaper art of a dog"]
     )
-    # Generate with different `num_steps` and `classifier_free_guidance_scale`.
+    # Generate with different `num_steps` and `guidance_scale`.
     text_to_image.generate(
         "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k",
         num_steps=50,
-        classifier_free_guidance_scale=5.0,
+        guidance_scale=5.0,
+    )
+    # Generate with `negative_prompts`.
+    prompt = (
+        "Astronaut in a jungle, cold color palette, muted colors, "
+        "detailed, 8k"
+    )
+    text_to_image.generate(
+        {
+            "prompts": prompt,
+            "negative_prompts": "green color",
+        }
     )
     ```
     """
@@ -79,7 +91,6 @@ class StableDiffusion3TextToImage(TextToImage):
         self,
         latents,
         token_ids,
-        negative_token_ids,
         num_steps,
         guidance_scale,
     ):
@@ -92,10 +103,8 @@ class StableDiffusion3TextToImage(TextToImage):
             latents: A (batch_size, height, width, channels) tensor
                 containing the latents to start generation from. Typically, this
                 tensor is sampled from the Gaussian distribution.
-            token_ids: A (batch_size, num_tokens) tensor containing the
-                tokens based on the input prompts.
-            negative_token_ids: A (batch_size, num_tokens) tensor
-                 containing the negative tokens based on the input prompts.
+            token_ids: A pair of (batch_size, num_tokens) tensor containing the
+                tokens based on the input prompts and negative prompts.
             num_steps: int. The number of diffusion steps to take.
             guidance_scale: float. The classifier free guidance scale defined in
                 [Classifier-Free Diffusion Guidance](
@@ -103,8 +112,12 @@ class StableDiffusion3TextToImage(TextToImage):
                 generate images that are closely linked to prompts, usually at
                 the expense of lower image quality.
         """
-        # Encode inputs.
-        embeddings = self.backbone.encode_step(token_ids, negative_token_ids)
+        token_ids, negative_token_ids = token_ids
+        # Encode prompts.
+        embeddings = self.backbone.encode_text_step(
+            token_ids, negative_token_ids
+        )
         # Denoise.
         def body_fun(step, latents):
@@ -124,14 +137,12 @@ class StableDiffusion3TextToImage(TextToImage):
     def generate(
         self,
         inputs,
-        negative_inputs=None,
         num_steps=28,
         guidance_scale=7.0,
         seed=None,
     ):
         return super().generate(
             inputs,
-            negative_inputs=negative_inputs,
             num_steps=num_steps,
             guidance_scale=guidance_scale,
             seed=seed,

keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_text_to_image_preprocessor.py CHANGED Viewed

@@ -3,7 +3,7 @@ from keras import layers
 from keras_hub.src.api_export import keras_hub_export
 from keras_hub.src.models.preprocessor import Preprocessor
-from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone import (
+from keras_hub.src.models.stable_diffusion_3.stable_diffusion_3_backbone import (  # noqa: E501
     StableDiffusion3Backbone,
 )

keras_hub/src/models/t5/t5_backbone.py CHANGED Viewed

@@ -42,11 +42,12 @@ class T5Backbone(Backbone):
             projections in the multi-head attention layers. Defaults to
             hidden_dim / num_heads.
         dropout: float. Dropout probability for the Transformer layers.
-        activation: activation function (or activation string name). The
-            activation to be used in the inner dense blocks of the
-            Transformer layers. Defaults to `"relu"`.
+        activation: string. The activation function to use in the dense blocks
+            of the Transformer Layers.
         use_gated_activation: boolean. Whether to use activation gating in
-            the inner dense blocks of the Transformer layers.
+            the inner dense blocks of the Transformer layers. When used with
+            the GELU activation function, this is referred to as GEGLU
+            (gated GLU) from https://arxiv.org/pdf/2002.05202.
             The original T5 architecture didn't use gating, but more
             recent versions do. Defaults to `True`.
         layer_norm_epsilon: float. Epsilon factor to be used in the

keras_hub/src/models/t5/t5_presets.py CHANGED Viewed

@@ -1,4 +1,4 @@
-"""XLM-RoBERTa model preset configurations."""
+"""T5 model preset configurations."""
 backbone_presets = {
     "t5_small_multi": {
@@ -8,11 +8,17 @@ backbone_presets = {
                 "Corpus (C4)."
             ),
             "params": 0,
-            "official_name": "T5",
             "path": "t5",
-            "model_card": "https://github.com/google-research/text-to-text-transfer-transformer/blob/main/README.md",
         },
-        "kaggle_handle": "kaggle://keras/t5/keras/t5_small_multi/2",
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_small_multi/3",
+    },
+    "t5_1.1_small": {
+        "metadata": {
+            "description": (""),
+            "params": 60511616,
+            "path": "t5",
+        },
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_1.1_small/2",
     },
     "t5_base_multi": {
         "metadata": {
@@ -21,11 +27,17 @@ backbone_presets = {
                 "Corpus (C4)."
             ),
             "params": 0,
-            "official_name": "T5",
             "path": "t5",
-            "model_card": "https://github.com/google-research/text-to-text-transfer-transformer/blob/main/README.md",
         },
-        "kaggle_handle": "kaggle://keras/t5/keras/t5_base_multi/2",
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_base_multi/3",
+    },
+    "t5_1.1_base": {
+        "metadata": {
+            "description": (""),
+            "params": 247577856,
+            "path": "t5",
+        },
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_1.1_base/2",
     },
     "t5_large_multi": {
         "metadata": {
@@ -34,11 +46,33 @@ backbone_presets = {
                 "Corpus (C4)."
             ),
             "params": 0,
-            "official_name": "T5",
             "path": "t5",
-            "model_card": "https://github.com/google-research/text-to-text-transfer-transformer/blob/main/README.md",
         },
-        "kaggle_handle": "kaggle://keras/t5/keras/t5_large_multi/2",
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_large_multi/3",
+    },
+    "t5_1.1_large": {
+        "metadata": {
+            "description": (""),
+            "params": 750251008,
+            "path": "t5",
+        },
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_1.1_large/2",
+    },
+    "t5_1.1_xl": {
+        "metadata": {
+            "description": (""),
+            "params": 2849757184,
+            "path": "t5",
+        },
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_1.1_xl/2",
+    },
+    "t5_1.1_xxl": {
+        "metadata": {
+            "description": (""),
+            "params": 11135332352,
+            "path": "t5",
+        },
+        "kaggle_handle": "kaggle://keras/t5/keras/t5_1.1_xxl/2",
     },
     "flan_small_multi": {
         "metadata": {
@@ -47,11 +81,9 @@ backbone_presets = {
                 "Corpus (C4)."
             ),
             "params": 0,
-            "official_name": "T5",
             "path": "t5",
-            "model_card": "https://github.com/google-research/text-to-text-transfer-transformer/blob/main/README.md",
         },
-        "kaggle_handle": "kaggle://keras/t5/keras/flan_small_multi/2",
+        "kaggle_handle": "kaggle://keras/t5/keras/flan_small_multi/3",
     },
     "flan_base_multi": {
         "metadata": {
@@ -60,11 +92,9 @@ backbone_presets = {
                 "Corpus (C4)."
             ),
             "params": 0,
-            "official_name": "T5",
             "path": "t5",
-            "model_card": "https://github.com/google-research/text-to-text-transfer-transformer/blob/main/README.md",
         },
-        "kaggle_handle": "kaggle://keras/t5/keras/flan_base_multi/2",
+        "kaggle_handle": "kaggle://keras/t5/keras/flan_base_multi/3",
     },
     "flan_large_multi": {
         "metadata": {
@@ -73,10 +103,8 @@ backbone_presets = {
                 "Corpus (C4)."
             ),
             "params": 0,
-            "official_name": "T5",
             "path": "t5",
-            "model_card": "https://github.com/google-research/text-to-text-transfer-transformer/blob/main/README.md",
         },
-        "kaggle_handle": "kaggle://keras/t5/keras/flan_large_multi/2",
+        "kaggle_handle": "kaggle://keras/t5/keras/flan_large_multi/3",
     },
 }

keras-hub-nightly 0.16.1.dev202410020340__py3-none-any.whl → 0.19.0.dev202501260345__py3-none-any.whl

keras-hub-nightly 0.16.1.dev202410020340py3-none-any.whl → 0.19.0.dev202501260345py3-none-any.whl