PyPI - keras-hub-nightly - Versions diffs - 0.16.1.dev202410200345__py3-none-any.whl → 0.19.0.dev202412070351__py3-none-any.whl - Mend

keras-hub-nightly 0.16.1.dev202410200345py3-none-any.whl → 0.19.0.dev202412070351py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (109) hide show

keras_hub/api/layers/__init__.py +12 -0
keras_hub/api/models/__init__.py +32 -0
keras_hub/src/bounding_box/__init__.py +2 -0
keras_hub/src/bounding_box/converters.py +102 -12
keras_hub/src/layers/modeling/rms_normalization.py +34 -0
keras_hub/src/layers/modeling/transformer_encoder.py +27 -7
keras_hub/src/layers/preprocessing/image_converter.py +5 -0
keras_hub/src/models/albert/albert_presets.py +0 -8
keras_hub/src/models/bart/bart_presets.py +0 -6
keras_hub/src/models/bert/bert_presets.py +0 -20
keras_hub/src/models/bloom/bloom_presets.py +0 -16
keras_hub/src/models/clip/__init__.py +5 -0
keras_hub/src/models/clip/clip_backbone.py +286 -0
keras_hub/src/models/clip/clip_encoder_block.py +19 -4
keras_hub/src/models/clip/clip_image_converter.py +8 -0
keras_hub/src/models/clip/clip_presets.py +93 -0
keras_hub/src/models/clip/clip_text_encoder.py +4 -1
keras_hub/src/models/clip/clip_tokenizer.py +18 -3
keras_hub/src/models/clip/clip_vision_embedding.py +101 -0
keras_hub/src/models/clip/clip_vision_encoder.py +159 -0
keras_hub/src/models/deberta_v3/deberta_v3_presets.py +0 -10
keras_hub/src/models/deeplab_v3/deeplab_v3_presets.py +0 -2
keras_hub/src/models/deeplab_v3/deeplab_v3_segmenter.py +5 -3
keras_hub/src/models/densenet/densenet_backbone.py +1 -1
keras_hub/src/models/densenet/densenet_presets.py +0 -6
keras_hub/src/models/distil_bert/distil_bert_presets.py +0 -6
keras_hub/src/models/efficientnet/__init__.py +9 -0
keras_hub/src/models/efficientnet/cba.py +141 -0
keras_hub/src/models/efficientnet/efficientnet_backbone.py +139 -56
keras_hub/src/models/efficientnet/efficientnet_image_classifier.py +14 -0
keras_hub/src/models/efficientnet/efficientnet_image_classifier_preprocessor.py +16 -0
keras_hub/src/models/efficientnet/efficientnet_image_converter.py +10 -0
keras_hub/src/models/efficientnet/efficientnet_presets.py +192 -0
keras_hub/src/models/efficientnet/fusedmbconv.py +81 -36
keras_hub/src/models/efficientnet/mbconv.py +52 -21
keras_hub/src/models/electra/electra_presets.py +0 -12
keras_hub/src/models/f_net/f_net_presets.py +0 -4
keras_hub/src/models/falcon/falcon_presets.py +0 -2
keras_hub/src/models/flux/__init__.py +5 -0
keras_hub/src/models/flux/flux_layers.py +494 -0
keras_hub/src/models/flux/flux_maths.py +218 -0
keras_hub/src/models/flux/flux_model.py +231 -0
keras_hub/src/models/flux/flux_presets.py +14 -0
keras_hub/src/models/flux/flux_text_to_image.py +142 -0
keras_hub/src/models/flux/flux_text_to_image_preprocessor.py +73 -0
keras_hub/src/models/gemma/gemma_presets.py +0 -40
keras_hub/src/models/gpt2/gpt2_presets.py +0 -9
keras_hub/src/models/image_object_detector.py +87 -0
keras_hub/src/models/image_object_detector_preprocessor.py +57 -0
keras_hub/src/models/image_to_image.py +16 -10
keras_hub/src/models/inpaint.py +20 -13
keras_hub/src/models/llama/llama_backbone.py +1 -1
keras_hub/src/models/llama/llama_presets.py +5 -15
keras_hub/src/models/llama3/llama3_presets.py +0 -8
keras_hub/src/models/mistral/mistral_presets.py +0 -6
keras_hub/src/models/mit/mit_backbone.py +41 -27
keras_hub/src/models/mit/mit_layers.py +9 -7
keras_hub/src/models/mit/mit_presets.py +12 -24
keras_hub/src/models/opt/opt_presets.py +0 -8
keras_hub/src/models/pali_gemma/pali_gemma_backbone.py +61 -11
keras_hub/src/models/pali_gemma/pali_gemma_decoder_block.py +21 -23
keras_hub/src/models/pali_gemma/pali_gemma_presets.py +166 -10
keras_hub/src/models/pali_gemma/pali_gemma_vit.py +12 -11
keras_hub/src/models/phi3/phi3_presets.py +0 -4
keras_hub/src/models/resnet/resnet_presets.py +10 -42
keras_hub/src/models/retinanet/__init__.py +5 -0
keras_hub/src/models/retinanet/anchor_generator.py +52 -53
keras_hub/src/models/retinanet/feature_pyramid.py +99 -36
keras_hub/src/models/retinanet/non_max_supression.py +1 -0
keras_hub/src/models/retinanet/prediction_head.py +192 -0
keras_hub/src/models/retinanet/retinanet_backbone.py +146 -0
keras_hub/src/models/retinanet/retinanet_image_converter.py +53 -0
keras_hub/src/models/retinanet/retinanet_label_encoder.py +49 -51
keras_hub/src/models/retinanet/retinanet_object_detector.py +382 -0
keras_hub/src/models/retinanet/retinanet_object_detector_preprocessor.py +14 -0
keras_hub/src/models/retinanet/retinanet_presets.py +15 -0
keras_hub/src/models/roberta/roberta_presets.py +0 -4
keras_hub/src/models/sam/sam_backbone.py +0 -1
keras_hub/src/models/sam/sam_image_segmenter.py +9 -10
keras_hub/src/models/sam/sam_presets.py +0 -6
keras_hub/src/models/segformer/__init__.py +8 -0
keras_hub/src/models/segformer/segformer_backbone.py +163 -0
keras_hub/src/models/segformer/segformer_image_converter.py +8 -0
keras_hub/src/models/segformer/segformer_image_segmenter.py +171 -0
keras_hub/src/models/segformer/segformer_image_segmenter_preprocessor.py +31 -0
keras_hub/src/models/segformer/segformer_presets.py +124 -0
keras_hub/src/models/stable_diffusion_3/mmdit.py +41 -0
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_backbone.py +38 -21
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_image_to_image.py +3 -3
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_inpaint.py +3 -3
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_presets.py +28 -4
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_text_to_image.py +1 -1
keras_hub/src/models/t5/t5_backbone.py +5 -4
keras_hub/src/models/t5/t5_presets.py +41 -13
keras_hub/src/models/text_to_image.py +13 -5
keras_hub/src/models/vgg/vgg_backbone.py +1 -1
keras_hub/src/models/vgg/vgg_presets.py +0 -8
keras_hub/src/models/whisper/whisper_audio_converter.py +1 -1
keras_hub/src/models/whisper/whisper_presets.py +0 -20
keras_hub/src/models/xlm_roberta/xlm_roberta_presets.py +0 -4
keras_hub/src/tests/test_case.py +25 -0
keras_hub/src/utils/preset_utils.py +17 -4
keras_hub/src/utils/timm/convert_efficientnet.py +449 -0
keras_hub/src/utils/timm/preset_loader.py +3 -0
keras_hub/src/version_utils.py +1 -1
{keras_hub_nightly-0.16.1.dev202410200345.dist-info → keras_hub_nightly-0.19.0.dev202412070351.dist-info}/METADATA +15 -26
{keras_hub_nightly-0.16.1.dev202410200345.dist-info → keras_hub_nightly-0.19.0.dev202412070351.dist-info}/RECORD +109 -76
{keras_hub_nightly-0.16.1.dev202410200345.dist-info → keras_hub_nightly-0.19.0.dev202412070351.dist-info}/WHEEL +1 -1
{keras_hub_nightly-0.16.1.dev202410200345.dist-info → keras_hub_nightly-0.19.0.dev202412070351.dist-info}/top_level.txt +0 -0

keras_hub/src/models/pali_gemma/pali_gemma_presets.py CHANGED Viewed

@@ -8,9 +8,7 @@ backbone_presets = {
                 "image size 224, mix fine tuned, text sequence " "length is 256"
             ),
             "params": 2923335408,
-            "official_name": "PaliGemma",
             "path": "pali_gemma",
-            "model_card": "https://www.kaggle.com/models/google/paligemma",
         },
         "kaggle_handle": "kaggle://keras/paligemma/keras/pali_gemma_3b_mix_224/3",
     },
@@ -20,9 +18,7 @@ backbone_presets = {
                 "image size 448, mix fine tuned, text sequence length is 512"
             ),
             "params": 2924220144,
-            "official_name": "PaliGemma",
             "path": "pali_gemma",
-            "model_card": "https://www.kaggle.com/models/google/paligemma",
         },
         "kaggle_handle": "kaggle://keras/paligemma/keras/pali_gemma_3b_mix_448/3",
     },
@@ -32,9 +28,7 @@ backbone_presets = {
                 "image size 224, pre trained, text sequence length is 128"
             ),
             "params": 2923335408,
-            "official_name": "PaliGemma",
             "path": "pali_gemma",
-            "model_card": "https://www.kaggle.com/models/google/paligemma",
         },
         "kaggle_handle": "kaggle://keras/paligemma/keras/pali_gemma_3b_224/3",
     },
@@ -44,9 +38,7 @@ backbone_presets = {
                 "image size 448, pre trained, text sequence length is 512"
             ),
             "params": 2924220144,
-            "official_name": "PaliGemma",
             "path": "pali_gemma",
-            "model_card": "https://www.kaggle.com/models/google/paligemma",
         },
         "kaggle_handle": "kaggle://keras/paligemma/keras/pali_gemma_3b_448/3",
     },
@@ -56,10 +48,174 @@ backbone_presets = {
                 "image size 896, pre trained, text sequence length " "is 512"
             ),
             "params": 2927759088,
-            "official_name": "PaliGemma",
             "path": "pali_gemma",
-            "model_card": "https://www.kaggle.com/models/google/paligemma",
         },
         "kaggle_handle": "kaggle://keras/paligemma/keras/pali_gemma_3b_896/3",
     },
+    # PaliGemma2
+    "pali_gemma2_3b_ft_docci_448": {
+        "metadata": {
+            "description": (
+                "3 billion parameter, image size 448, 27-layer for "
+                "SigLIP-So400m vision encoder and 26-layer Gemma2 2B lanuage "
+                "model. This model has been fine-tuned on the DOCCI dataset "
+                "for improved descriptions with fine-grained details."
+            ),
+            "params": 3032979696,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_3b_ft_docci_448/1",
+    },
+    "pali_gemma2_10b_ft_docci_448": {
+        "metadata": {
+            "description": (
+                "10 billion parameter, 27-layer for SigLIP-So400m vision "
+                "encoder and 42-layer Gemma2 9B lanuage model. This model has "
+                "been fine-tuned on the DOCCI dataset for improved "
+                "descriptions with fine-grained details."
+            ),
+            "params": 9663294192,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_10b_ft_docci_448/1",
+    },
+    "pali_gemma2_pt_3b_224": {
+        "metadata": {
+            "description": (
+                "3 billion parameter, image size 224, 27-layer for "
+                "SigLIP-So400m vision encoder and 26-layer Gemma2 2B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 3032094960,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_3b_224/1",
+    },
+    "pali_gemma2_pt_3b_448": {
+        "metadata": {
+            "description": (
+                "3 billion parameter, image size 448, 27-layer for "
+                "SigLIP-So400m vision encoder and 26-layer Gemma2 2B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 3032979696,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_3b_448/1",
+    },
+    "pali_gemma2_pt_3b_896": {
+        "metadata": {
+            "description": (
+                "3 billion parameter, image size 896, 27-layer for "
+                "SigLIP-So400m vision encoder and 26-layer Gemma2 2B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 3036518640,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_3b_896/1",
+    },
+    "pali_gemma2_pt_10b_224": {
+        "metadata": {
+            "description": (
+                "10 billion parameter, image size 224, 27-layer for "
+                "SigLIP-So400m vision encoder and 42-layer Gemma2 9B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 9662409456,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_10b_224/1",
+    },
+    "pali_gemma2_pt_10b_448": {
+        "metadata": {
+            "description": (
+                "10 billion parameter, image size 448, 27-layer for "
+                "SigLIP-So400m vision encoder and 42-layer Gemma2 9B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 9663294192,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_10b_448/1",
+    },
+    "pali_gemma2_pt_10b_896": {
+        "metadata": {
+            "description": (
+                "10 billion parameter, image size 896, 27-layer for "
+                "SigLIP-So400m vision encoder and 42-layer Gemma2 9B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 9666833136,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_10b_896/1",
+    },
+    "pali_gemma2_pt_28b_224": {
+        "metadata": {
+            "description": (
+                "28 billion parameter, image size 224, 27-layer for "
+                "SigLIP-So400m vision encoder and 46-layer Gemma2 27B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 9662409456,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_28b_224/1",
+    },
+    "pali_gemma2_pt_28b_448": {
+        "metadata": {
+            "description": (
+                "28 billion parameter, image size 448, 27-layer for "
+                "SigLIP-So400m vision encoder and 46-layer Gemma2 27B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 9663294192,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_28b_448/1",
+    },
+    "pali_gemma2_pt_28b_896": {
+        "metadata": {
+            "description": (
+                "28 billion parameter, image size 896, 27-layer for "
+                "SigLIP-So400m vision encoder and 46-layer Gemma2 27B lanuage "
+                "model. This model has been pre-trained on a mixture of "
+                "datasets."
+            ),
+            "params": 9666833136,
+            "official_name": "PaliGemma2",
+            "path": "pali_gemma2",
+            "model_card": "https://www.kaggle.com/models/google/paligemma-2",
+        },
+        "kaggle_handle": "kaggle://keras/paligemma2/keras/pali_gemma2_pt_28b_896/1",
+    },
 }

keras_hub/src/models/pali_gemma/pali_gemma_vit.py CHANGED Viewed

@@ -12,7 +12,7 @@ class PaliGemmaVitEmbeddings(keras.layers.Layer):
         dtype=None,
         **kwargs,
     ):
-        super().__init__(**kwargs)
+        super().__init__(dtype=dtype, **kwargs)
         self.hidden_dim = hidden_dim
         self.image_size = image_size
         self.patch_size = patch_size
@@ -72,7 +72,7 @@ class PaliGemmaVitAttention(keras.layers.Layer):
         dtype=None,
         **kwargs,
     ):
-        super().__init__(**kwargs)
+        super().__init__(dtype=dtype, **kwargs)
         self.hidden_dim = hidden_dim
         self.num_heads = num_heads
@@ -282,7 +282,7 @@ class PaliGemmaVitEncoder(keras.layers.Layer):
         dtype=None,
         **kwargs,
     ):
-        super().__init__(**kwargs)
+        super().__init__(dtype=dtype, **kwargs)
         self.hidden_dim = hidden_dim
         self.num_layers = num_layers
         self.num_heads = num_heads
@@ -311,25 +311,26 @@ class PaliGemmaVitEncoder(keras.layers.Layer):
             for i in range(self.num_layers)
         ]
-    def build(self, input_shape):
-        self.vision_embeddings.build(input_shape)
+    def build(self, inputs_shape):
+        self.vision_embeddings.build(inputs_shape)
         for block in self.resblocks:
             block.build([None, None, self.hidden_dim])
         self.encoder_layer_norm.build([None, None, self.hidden_dim])
         self.built = True
-    def call(
-        self,
-        x,
-        mask=None,
-    ):
-        x = self.vision_embeddings(x)
+    def call(self, inputs, mask=None):
+        x = self.vision_embeddings(inputs)
         for block in self.resblocks:
             x = block(x, mask=mask)
         x = self.encoder_layer_norm(x)
         return x
     def compute_output_shape(self, inputs_shape):
+        if inputs_shape is None:
+            # Fix the compatibility issue with Keras 3.1 where
+            # `compute_output_spec` fails to propagate `inputs_shape`
+            # correctly, causing it to be `None`.
+            inputs_shape = [None, None, None]
         return [inputs_shape[0], inputs_shape[1], self.hidden_dim]
     def get_config(self):

keras_hub/src/models/phi3/phi3_presets.py CHANGED Viewed

@@ -12,9 +12,7 @@ backbone_presets = {
                 "reasoning-dense properties."
             ),
             "params": 3821079552,
-            "official_name": "Phi-3",
             "path": "phi3",
-            "model_card": "https://huggingface.co/microsoft/Phi-3-mini-4k-instruct",
         },
         "kaggle_handle": "kaggle://keras/phi3/keras/phi3_mini_4k_instruct_en",
     },
@@ -28,9 +26,7 @@ backbone_presets = {
                 "reasoning-dense properties."
             ),
             "params": 3821079552,
-            "official_name": "Phi-3",
             "path": "phi3",
-            "model_card": "https://huggingface.co/microsoft/Phi-3-mini-128k-instruct",
         },
         "kaggle_handle": "kaggle://keras/phi3/keras/phi3_mini_128k_instruct_en",
     },

keras_hub/src/models/resnet/resnet_presets.py CHANGED Viewed

@@ -8,9 +8,7 @@ backbone_presets = {
                 "at a 224x224 resolution."
             ),
             "params": 11186112,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/2110.00476",
         },
         "kaggle_handle": "kaggle://keras/resnetv1/keras/resnet_18_imagenet/2",
     },
@@ -21,9 +19,7 @@ backbone_presets = {
                 "at a 224x224 resolution."
             ),
             "params": 23561152,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/2110.00476",
         },
         "kaggle_handle": "kaggle://keras/resnetv1/keras/resnet_50_imagenet/2",
     },
@@ -34,9 +30,7 @@ backbone_presets = {
                 "at a 224x224 resolution."
             ),
             "params": 42605504,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/2110.00476",
         },
         "kaggle_handle": "kaggle://keras/resnetv1/keras/resnet_101_imagenet/2",
     },
@@ -47,9 +41,7 @@ backbone_presets = {
                 "at a 224x224 resolution."
             ),
             "params": 58295232,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/2110.00476",
         },
         "kaggle_handle": "kaggle://keras/resnetv1/keras/resnet_152_imagenet/2",
     },
@@ -60,9 +52,7 @@ backbone_presets = {
                 "dataset at a 224x224 resolution."
             ),
             "params": 23561152,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/2110.00476",
         },
         "kaggle_handle": "kaggle://keras/resnetv2/keras/resnet_v2_50_imagenet/2",
     },
@@ -73,9 +63,7 @@ backbone_presets = {
                 "dataset at a 224x224 resolution."
             ),
             "params": 42605504,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/2110.00476",
         },
         "kaggle_handle": "kaggle://keras/resnetv2/keras/resnet_v2_101_imagenet/2",
     },
@@ -87,11 +75,9 @@ backbone_presets = {
                 "resolution."
             ),
             "params": 11722824,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_18_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_18_imagenet",
     },
     "resnet_vd_34_imagenet": {
         "metadata": {
@@ -101,11 +87,9 @@ backbone_presets = {
                 "resolution."
             ),
             "params": 21838408,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_34_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_34_imagenet",
     },
     "resnet_vd_50_imagenet": {
         "metadata": {
@@ -115,11 +99,9 @@ backbone_presets = {
                 "resolution."
             ),
             "params": 25629512,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_50_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_50_imagenet",
     },
     "resnet_vd_50_ssld_imagenet": {
         "metadata": {
@@ -129,11 +111,9 @@ backbone_presets = {
                 "resolution with knowledge distillation."
             ),
             "params": 25629512,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_50_ssld_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_50_ssld_imagenet",
     },
     "resnet_vd_50_ssld_v2_imagenet": {
         "metadata": {
@@ -143,11 +123,9 @@ backbone_presets = {
                 "resolution with knowledge distillation and AutoAugment."
             ),
             "params": 25629512,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_50_ssld_v2_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_50_ssld_v2_imagenet",
     },
     "resnet_vd_50_ssld_v2_fix_imagenet": {
         "metadata": {
@@ -158,11 +136,9 @@ backbone_presets = {
                 "additional fine-tuning of the classification head."
             ),
             "params": 25629512,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_50_ssld_v2_fix_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_50_ssld_v2_fix_imagenet",
     },
     "resnet_vd_101_imagenet": {
         "metadata": {
@@ -172,11 +148,9 @@ backbone_presets = {
                 "resolution."
             ),
             "params": 44673864,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_101_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_101_imagenet",
     },
     "resnet_vd_101_ssld_imagenet": {
         "metadata": {
@@ -186,11 +160,9 @@ backbone_presets = {
                 "resolution with knowledge distillation."
             ),
             "params": 44673864,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_101_ssld_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_101_ssld_imagenet",
     },
     "resnet_vd_152_imagenet": {
         "metadata": {
@@ -200,11 +172,9 @@ backbone_presets = {
                 "resolution."
             ),
             "params": 60363592,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_152_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_152_imagenet",
     },
     "resnet_vd_200_imagenet": {
         "metadata": {
@@ -214,10 +184,8 @@ backbone_presets = {
                 "resolution."
             ),
             "params": 74933064,
-            "official_name": "ResNet",
             "path": "resnet",
-            "model_card": "https://arxiv.org/abs/1812.01187",
         },
-        "kaggle_handle": "kaggle://kerashub/resnetvd/keras/resnet_vd_200_imagenet",
+        "kaggle_handle": "kaggle://keras/resnet_vd/keras/resnet_vd_200_imagenet",
     },
 }

keras_hub/src/models/retinanet/__init__.py CHANGED Viewed

@@ -0,0 +1,5 @@
+from keras_hub.src.models.retinanet.retinanet_backbone import RetinaNetBackbone
+from keras_hub.src.models.retinanet.retinanet_presets import backbone_presets
+from keras_hub.src.utils.preset_utils import register_presets
+register_presets(backbone_presets, RetinaNetBackbone)

keras_hub/src/models/retinanet/anchor_generator.py CHANGED Viewed

@@ -3,9 +3,13 @@ import math
 import keras
 from keras import ops
+from keras_hub.src.api_export import keras_hub_export
+# TODO: https://github.com/keras-team/keras-hub/issues/1965
 from keras_hub.src.bounding_box.converters import convert_format
+@keras_hub_export("keras_hub.layers.AnchorGenerator")
 class AnchorGenerator(keras.layers.Layer):
     """Generates anchor boxes for object detection tasks.
@@ -81,6 +85,7 @@ class AnchorGenerator(keras.layers.Layer):
         self.num_scales = num_scales
         self.aspect_ratios = aspect_ratios
         self.anchor_size = anchor_size
+        self.num_base_anchors = num_scales * len(aspect_ratios)
         self.built = True
     def call(self, inputs):
@@ -92,60 +97,61 @@ class AnchorGenerator(keras.layers.Layer):
         image_shape = tuple(image_shape)
-        multilevel_boxes = {}
+        multilevel_anchors = {}
         for level in range(self.min_level, self.max_level + 1):
-            boxes_l = []
             # Calculate the feature map size for this level
             feat_size_y = math.ceil(image_shape[0] / 2**level)
             feat_size_x = math.ceil(image_shape[1] / 2**level)
             # Calculate the stride (step size) for this level
-            stride_y = ops.cast(image_shape[0] / feat_size_y, "float32")
-            stride_x = ops.cast(image_shape[1] / feat_size_x, "float32")
+            stride_y = image_shape[0] // feat_size_y
+            stride_x = image_shape[1] // feat_size_x
             # Generate anchor center points
             # Start from stride/2 to center anchors on pixels
-            cx = ops.arange(stride_x / 2, image_shape[1], stride_x)
-            cy = ops.arange(stride_y / 2, image_shape[0], stride_y)
+            cx = ops.arange(0, feat_size_x, dtype="float32") * stride_x
+            cy = ops.arange(0, feat_size_y, dtype="float32") * stride_y
             # Create a grid of anchor centers
-            cx_grid, cy_grid = ops.meshgrid(cx, cy)
-            for scale in range(self.num_scales):
-                for aspect_ratio in self.aspect_ratios:
-                    # Calculate the intermediate scale factor
-                    intermidate_scale = 2 ** (scale / self.num_scales)
-                    # Calculate the base anchor size for this level and scale
-                    base_anchor_size = (
-                        self.anchor_size * 2**level * intermidate_scale
-                    )
-                    # Adjust anchor dimensions based on aspect ratio
-                    aspect_x = aspect_ratio**0.5
-                    aspect_y = aspect_ratio**-0.5
-                    half_anchor_size_x = base_anchor_size * aspect_x / 2.0
-                    half_anchor_size_y = base_anchor_size * aspect_y / 2.0
-                    # Generate anchor boxes (y1, x1, y2, x2 format)
-                    boxes = ops.stack(
-                        [
-                            cy_grid - half_anchor_size_y,
-                            cx_grid - half_anchor_size_x,
-                            cy_grid + half_anchor_size_y,
-                            cx_grid + half_anchor_size_x,
-                        ],
-                        axis=-1,
-                    )
-                    boxes_l.append(boxes)
-            # Concat anchors on the same level to tensor shape HxWx(Ax4)
-            boxes_l = ops.concatenate(boxes_l, axis=-1)
-            boxes_l = ops.reshape(boxes_l, (-1, 4))
-            # Convert to user defined
-            multilevel_boxes[f"P{level}"] = convert_format(
-                boxes_l,
-                source="yxyx",
+            cy_grid, cx_grid = ops.meshgrid(cy, cx, indexing="ij")
+            cy_grid = ops.reshape(cy_grid, (-1,))
+            cx_grid = ops.reshape(cx_grid, (-1,))
+            shifts = ops.stack((cx_grid, cy_grid, cx_grid, cy_grid), axis=1)
+            sizes = [
+                int(
+                    2**level * self.anchor_size * 2 ** (scale / self.num_scales)
+                )
+                for scale in range(self.num_scales)
+            ]
+            base_anchors = self.generate_base_anchors(
+                sizes=sizes, aspect_ratios=self.aspect_ratios
+            )
+            shifts = ops.reshape(shifts, (-1, 1, 4))
+            base_anchors = ops.reshape(base_anchors, (1, -1, 4))
+            anchors = shifts + base_anchors
+            anchors = ops.reshape(anchors, (-1, 4))
+            multilevel_anchors[f"P{level}"] = convert_format(
+                anchors,
+                source="xyxy",
                 target=self.bounding_box_format,
             )
-        return multilevel_boxes
+        return multilevel_anchors
+    def generate_base_anchors(self, sizes, aspect_ratios):
+        sizes = ops.convert_to_tensor(sizes, dtype="float32")
+        aspect_ratios = ops.convert_to_tensor(aspect_ratios)
+        h_ratios = ops.sqrt(aspect_ratios)
+        w_ratios = 1 / h_ratios
+        ws = ops.reshape(w_ratios[:, None] * sizes[None, :], (-1,))
+        hs = ops.reshape(h_ratios[:, None] * sizes[None, :], (-1,))
+        base_anchors = ops.stack([-1 * ws, -1 * hs, ws, hs], axis=1) / 2
+        base_anchors = ops.round(base_anchors)
+        return base_anchors
     def compute_output_shape(self, input_shape):
         multilevel_boxes_shape = {}
@@ -156,18 +162,11 @@ class AnchorGenerator(keras.layers.Layer):
         for i in range(self.min_level, self.max_level + 1):
             multilevel_boxes_shape[f"P{i}"] = (
-                (image_height // 2 ** (i))
-                * (image_width // 2 ** (i))
-                * self.anchors_per_location,
+                int(
+                    math.ceil(image_height / 2 ** (i))
+                    * math.ceil(image_width // 2 ** (i))
+                    * self.num_base_anchors
+                ),
                 4,
             )
         return multilevel_boxes_shape
-    @property
-    def anchors_per_location(self):
-        """
-        The `anchors_per_location` property returns the number of anchors
-        generated per pixel location, which is equal to
-        `num_scales * len(aspect_ratios)`.
-        """
-        return self.num_scales * len(self.aspect_ratios)

keras-hub-nightly 0.16.1.dev202410200345__py3-none-any.whl → 0.19.0.dev202412070351__py3-none-any.whl

keras-hub-nightly 0.16.1.dev202410200345py3-none-any.whl → 0.19.0.dev202412070351py3-none-any.whl