PyPI - keras-hub-nightly - Versions diffs - 0.22.0.dev202508170419__py3-none-any.whl → 0.24.0.dev202511090424__py3-none-any.whl - Mend

keras-hub-nightly 0.22.0.dev202508170419py3-none-any.whl → 0.24.0.dev202511090424py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of keras-hub-nightly might be problematic. Click here for more details.

Files changed (126) hide show

keras_hub/layers/__init__.py +15 -0
keras_hub/models/__init__.py +93 -0
keras_hub/src/layers/modeling/position_embedding.py +21 -6
keras_hub/src/layers/modeling/reversible_embedding.py +8 -1
keras_hub/src/layers/modeling/rotary_embedding.py +16 -6
keras_hub/src/layers/modeling/sine_position_encoding.py +21 -8
keras_hub/src/layers/modeling/token_and_position_embedding.py +2 -1
keras_hub/src/models/backbone.py +28 -16
keras_hub/src/models/causal_lm.py +37 -0
keras_hub/src/models/causal_lm_preprocessor.py +14 -0
keras_hub/src/models/clip/clip_presets.py +8 -8
keras_hub/src/models/d_fine/__init__.py +5 -0
keras_hub/src/models/d_fine/d_fine_attention.py +461 -0
keras_hub/src/models/d_fine/d_fine_backbone.py +891 -0
keras_hub/src/models/d_fine/d_fine_decoder.py +944 -0
keras_hub/src/models/d_fine/d_fine_encoder.py +365 -0
keras_hub/src/models/d_fine/d_fine_hybrid_encoder.py +642 -0
keras_hub/src/models/d_fine/d_fine_image_converter.py +8 -0
keras_hub/src/models/d_fine/d_fine_layers.py +1828 -0
keras_hub/src/models/d_fine/d_fine_loss.py +938 -0
keras_hub/src/models/d_fine/d_fine_object_detector.py +875 -0
keras_hub/src/models/d_fine/d_fine_object_detector_preprocessor.py +14 -0
keras_hub/src/models/d_fine/d_fine_presets.py +155 -0
keras_hub/src/models/d_fine/d_fine_utils.py +827 -0
keras_hub/src/models/deberta_v3/disentangled_self_attention.py +7 -2
keras_hub/src/models/depth_anything/__init__.py +9 -0
keras_hub/src/models/depth_anything/depth_anything_backbone.py +232 -0
keras_hub/src/models/depth_anything/depth_anything_depth_estimator.py +70 -0
keras_hub/src/models/depth_anything/depth_anything_depth_estimator_preprocessor.py +16 -0
keras_hub/src/models/depth_anything/depth_anything_image_converter.py +10 -0
keras_hub/src/models/depth_anything/depth_anything_layers.py +725 -0
keras_hub/src/models/depth_anything/depth_anything_loss.py +89 -0
keras_hub/src/models/depth_anything/depth_anything_presets.py +41 -0
keras_hub/src/models/depth_anything/interpolate.py +62 -0
keras_hub/src/models/depth_estimator.py +239 -0
keras_hub/src/models/depth_estimator_preprocessor.py +78 -0
keras_hub/src/models/dinov2/dinov2_backbone.py +29 -3
keras_hub/src/models/dinov2/dinov2_layers.py +16 -4
keras_hub/src/models/dinov3/__init__.py +5 -0
keras_hub/src/models/dinov3/dinov3_backbone.py +263 -0
keras_hub/src/models/dinov3/dinov3_image_converter.py +8 -0
keras_hub/src/models/dinov3/dinov3_layers.py +1013 -0
keras_hub/src/models/dinov3/dinov3_presets.py +4 -0
keras_hub/src/models/gemma/gemma_backbone.py +0 -1
keras_hub/src/models/gemma/gemma_presets.py +30 -0
keras_hub/src/models/gemma3/gemma3_attention.py +48 -0
keras_hub/src/models/gemma3/gemma3_backbone.py +4 -1
keras_hub/src/models/gemma3/gemma3_decoder_block.py +12 -0
keras_hub/src/models/gemma3/gemma3_presets.py +39 -0
keras_hub/src/models/hgnetv2/hgnetv2_backbone.py +4 -1
keras_hub/src/models/hgnetv2/hgnetv2_encoder.py +3 -2
keras_hub/src/models/hgnetv2/hgnetv2_layers.py +27 -11
keras_hub/src/models/image_to_image.py +5 -0
keras_hub/src/models/inpaint.py +5 -0
keras_hub/src/models/mobilenetv5/__init__.py +9 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_attention.py +699 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_backbone.py +396 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_blocks.py +890 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_builder.py +436 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_image_classifier.py +157 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_image_classifier_preprocessor.py +16 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_image_converter.py +10 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_layers.py +462 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_presets.py +15 -0
keras_hub/src/models/mobilenetv5/mobilenetv5_utils.py +146 -0
keras_hub/src/models/parseq/__init__.py +5 -0
keras_hub/src/models/parseq/parseq_backbone.py +134 -0
keras_hub/src/models/parseq/parseq_causal_lm.py +466 -0
keras_hub/src/models/parseq/parseq_causal_lm_preprocessor.py +168 -0
keras_hub/src/models/parseq/parseq_decoder.py +418 -0
keras_hub/src/models/parseq/parseq_image_converter.py +8 -0
keras_hub/src/models/parseq/parseq_presets.py +15 -0
keras_hub/src/models/parseq/parseq_tokenizer.py +221 -0
keras_hub/src/models/qwen3_moe/__init__.py +5 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_attention.py +371 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_backbone.py +365 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_causal_lm.py +357 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_causal_lm_preprocessor.py +12 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_decoder.py +672 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_layernorm.py +45 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_presets.py +30 -0
keras_hub/src/models/qwen3_moe/qwen3_moe_tokenizer.py +48 -0
keras_hub/src/models/sam/sam_prompt_encoder.py +3 -1
keras_hub/src/models/siglip/siglip_presets.py +15 -0
keras_hub/src/models/smollm3/smollm3_backbone.py +211 -0
keras_hub/src/models/smollm3/smollm3_causal_lm.py +310 -0
keras_hub/src/models/smollm3/smollm3_causal_lm_preprocessor.py +84 -0
keras_hub/src/models/smollm3/smollm3_layers.py +757 -0
keras_hub/src/models/smollm3/smollm3_tokenizer.py +60 -0
keras_hub/src/models/smollm3/smollm3_utils.py +56 -0
keras_hub/src/models/stable_diffusion_3/stable_diffusion_3_presets.py +3 -3
keras_hub/src/models/t5gemma/__init__.py +5 -0
keras_hub/src/models/t5gemma/t5gemma_attention.py +370 -0
keras_hub/src/models/t5gemma/t5gemma_backbone.py +366 -0
keras_hub/src/models/t5gemma/t5gemma_decoder.py +355 -0
keras_hub/src/models/t5gemma/t5gemma_encoder.py +214 -0
keras_hub/src/models/t5gemma/t5gemma_layers.py +118 -0
keras_hub/src/models/t5gemma/t5gemma_presets.py +374 -0
keras_hub/src/models/t5gemma/t5gemma_seq_2_seq_lm.py +442 -0
keras_hub/src/models/t5gemma/t5gemma_seq_2_seq_lm_preprocessor.py +216 -0
keras_hub/src/models/t5gemma/t5gemma_tokenizer.py +84 -0
keras_hub/src/models/text_to_image.py +5 -0
keras_hub/src/samplers/beam_sampler.py +6 -6
keras_hub/src/samplers/sampler.py +8 -6
keras_hub/src/tests/test_case.py +40 -3
keras_hub/src/tokenizers/tokenizer.py +15 -0
keras_hub/src/utils/openvino_utils.py +141 -0
keras_hub/src/utils/preset_utils.py +58 -2
keras_hub/src/utils/tensor_utils.py +26 -2
keras_hub/src/utils/timm/convert_mobilenetv5.py +321 -0
keras_hub/src/utils/timm/preset_loader.py +8 -4
keras_hub/src/utils/transformers/convert_dinov2.py +1 -0
keras_hub/src/utils/transformers/convert_dinov3.py +106 -0
keras_hub/src/utils/transformers/convert_qwen3_moe.py +216 -0
keras_hub/src/utils/transformers/convert_smollm3.py +139 -0
keras_hub/src/utils/transformers/convert_t5gemma.py +229 -0
keras_hub/src/utils/transformers/convert_vit.py +4 -1
keras_hub/src/utils/transformers/export/gemma.py +49 -4
keras_hub/src/utils/transformers/export/hf_exporter.py +71 -25
keras_hub/src/utils/transformers/preset_loader.py +12 -0
keras_hub/src/version.py +1 -1
keras_hub/tokenizers/__init__.py +15 -0
{keras_hub_nightly-0.22.0.dev202508170419.dist-info → keras_hub_nightly-0.24.0.dev202511090424.dist-info}/METADATA +1 -1
{keras_hub_nightly-0.22.0.dev202508170419.dist-info → keras_hub_nightly-0.24.0.dev202511090424.dist-info}/RECORD +126 -47
{keras_hub_nightly-0.22.0.dev202508170419.dist-info → keras_hub_nightly-0.24.0.dev202511090424.dist-info}/WHEEL +0 -0
{keras_hub_nightly-0.22.0.dev202508170419.dist-info → keras_hub_nightly-0.24.0.dev202511090424.dist-info}/top_level.txt +0 -0

keras_hub/src/utils/timm/convert_mobilenetv5.py ADDED Viewed

@@ -0,0 +1,321 @@
+import types
+import keras
+import numpy as np
+from keras_hub.src.models.mobilenetv5.mobilenetv5_attention import (
+    MobileAttention,
+)
+from keras_hub.src.models.mobilenetv5.mobilenetv5_backbone import (
+    MobileNetV5Backbone,
+)
+from keras_hub.src.models.mobilenetv5.mobilenetv5_blocks import EdgeResidual
+from keras_hub.src.models.mobilenetv5.mobilenetv5_blocks import (
+    UniversalInvertedResidual,
+)
+from keras_hub.src.models.mobilenetv5.mobilenetv5_builder import (
+    convert_arch_def_to_stackwise,
+)
+from keras_hub.src.models.mobilenetv5.mobilenetv5_layers import ConvNormAct
+from keras_hub.src.models.mobilenetv5.mobilenetv5_layers import RmsNorm2d
+backbone_cls = MobileNetV5Backbone
+MODEL_CONFIGS = {
+    "mobilenetv5_300m": {
+        "backbone": convert_arch_def_to_stackwise(
+            [
+                # Stage 0: 128x128 in
+                [
+                    "er_r1_k3_s2_e4_c128",
+                    "er_r1_k3_s1_e4_c128",
+                    "er_r1_k3_s1_e4_c128",
+                ],
+                # Stage 1: 256x256 in
+                [
+                    "uir_r1_a3_k5_s2_e6_c256",
+                    "uir_r1_a5_k0_s1_e4_c256",
+                    "uir_r1_a3_k0_s1_e4_c256",
+                    "uir_r1_a5_k0_s1_e4_c256",
+                    "uir_r1_a3_k0_s1_e4_c256",
+                ],
+                # Stage 2: 640x640 in
+                [
+                    "uir_r1_a5_k5_s2_e6_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a5_k0_s1_e4_c640",
+                    "uir_r1_a0_k0_s1_e1_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                    "mqa_r1_k3_h12_v2_s1_d64_c640",
+                    "uir_r1_a0_k0_s1_e2_c640",
+                ],
+                # Stage 3: 1280x1280 in
+                [
+                    "uir_r1_a5_k5_s2_e6_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                    "mqa_r1_k3_h16_s1_d96_c1280",
+                    "uir_r1_a0_k0_s1_e2_c1280",
+                ],
+            ]
+        ),
+        "stem_size": 64,
+        "num_features": 2048,
+        "norm_layer": "rms_norm",
+        "act_layer": "gelu",
+        "use_msfa": True,
+        "layer_scale_init_value": 1e-5,
+    },
+}
+def convert_head(task, loader, timm_config):
+    pass
+def convert_backbone_config(timm_config):
+    timm_architecture = timm_config["architecture"]
+    if timm_architecture not in MODEL_CONFIGS:
+        raise ValueError(f"Unsupported architecture: {timm_architecture}")
+    config = MODEL_CONFIGS[timm_architecture].copy()
+    backbone_config = config.pop("backbone")
+    backbone_config.update(config)
+    return backbone_config
+def convert_weights(backbone, loader, timm_config):
+    def key_exists(key):
+        try:
+            loader.get_tensor(key)
+            return True
+        except Exception:
+            return False
+    def _port_weights(layer, timm_key, transpose_dims=None):
+        hf_weight_key = f"{timm_key}.weight"
+        if not key_exists(hf_weight_key):
+            return
+        hook_fn = None
+        if transpose_dims:
+            def transpose_hook(x, _):
+                return np.transpose(x, transpose_dims)
+            hook_fn = transpose_hook
+        loader.port_weight(
+            layer.kernel, hf_weight_key=hf_weight_key, hook_fn=hook_fn
+        )
+        if layer.bias is not None:
+            hf_bias_key = f"{timm_key}.bias"
+            if key_exists(hf_bias_key):
+                loader.port_weight(
+                    layer.bias,
+                    hf_weight_key=hf_bias_key,
+                )
+    def _port_bn(layer, timm_prefix):
+        loader.port_weight(layer.gamma, f"{timm_prefix}.weight")
+        loader.port_weight(layer.beta, f"{timm_prefix}.bias")
+        loader.port_weight(layer.moving_mean, f"{timm_prefix}.running_mean")
+        loader.port_weight(layer.moving_variance, f"{timm_prefix}.running_var")
+    def _port_rms_norm(layer, timm_prefix):
+        loader.port_weight(layer.gamma, f"{timm_prefix}.weight")
+    def _port_cna(cna_layer: ConvNormAct, timm_conv_prefix, timm_norm_prefix):
+        if isinstance(cna_layer.conv, keras.layers.DepthwiseConv2D):
+            _port_weights(
+                cna_layer.conv,
+                timm_conv_prefix,
+                transpose_dims=(2, 3, 0, 1),
+            )
+        else:
+            _port_weights(
+                cna_layer.conv,
+                timm_conv_prefix,
+                transpose_dims=(2, 3, 1, 0),
+            )
+        if key_exists(f"{timm_norm_prefix}.running_mean"):
+            _port_bn(cna_layer.norm, timm_norm_prefix)
+        else:
+            _port_rms_norm(cna_layer.norm, timm_norm_prefix)
+    def _port_attn(attn_layer, attn_prefix):
+        _port_weights(
+            attn_layer.query_layers[-1],
+            f"{attn_prefix}.query.proj",
+            (2, 3, 1, 0),
+        )
+        if len(attn_layer.key_layers) > 1:
+            _port_weights(
+                attn_layer.key_layers[0],
+                f"{attn_prefix}.key.down_conv",
+                (2, 3, 0, 1),
+            )
+            key_norm_layer = attn_layer.key_layers[1]
+            if isinstance(key_norm_layer, RmsNorm2d):
+                _port_rms_norm(key_norm_layer, f"{attn_prefix}.key.norm")
+            else:
+                _port_bn(key_norm_layer, f"{attn_prefix}.key.norm")
+        _port_weights(
+            attn_layer.key_layers[-1], f"{attn_prefix}.key.proj", (2, 3, 1, 0)
+        )
+        if len(attn_layer.value_layers) > 1:
+            _port_weights(
+                attn_layer.value_layers[0],
+                f"{attn_prefix}.value.down_conv",
+                (2, 3, 0, 1),
+            )
+            value_norm_layer = attn_layer.value_layers[1]
+            if isinstance(value_norm_layer, RmsNorm2d):
+                _port_rms_norm(value_norm_layer, f"{attn_prefix}.value.norm")
+            else:
+                _port_bn(value_norm_layer, f"{attn_prefix}.value.norm")
+        _port_weights(
+            attn_layer.value_layers[-1],
+            f"{attn_prefix}.value.proj",
+            (2, 3, 1, 0),
+        )
+        _port_weights(
+            attn_layer.output_proj_layers[-2],
+            f"{attn_prefix}.output.proj",
+            (2, 3, 1, 0),
+        )
+    stem_layer = backbone.get_layer("conv_stem")
+    _port_cna(stem_layer, "conv_stem.conv", "conv_stem.bn")
+    block_layers = [
+        layer
+        for layer in backbone.layers
+        if isinstance(
+            layer, (EdgeResidual, UniversalInvertedResidual, MobileAttention)
+        )
+    ]
+    block_counter = 0
+    for stack_idx in range(len(backbone.stackwise_num_blocks)):
+        for block_idx_in_stage in range(
+            backbone.stackwise_num_blocks[stack_idx]
+        ):
+            block = block_layers[block_counter]
+            timm_prefix = f"blocks.{stack_idx}.{block_idx_in_stage}"
+            if isinstance(block, EdgeResidual):
+                _port_cna(
+                    block.conv_exp,
+                    f"{timm_prefix}.conv_exp",
+                    f"{timm_prefix}.bn1",
+                )
+                _port_cna(
+                    block.conv_pwl,
+                    f"{timm_prefix}.conv_pwl",
+                    f"{timm_prefix}.bn2",
+                )
+            elif isinstance(block, UniversalInvertedResidual):
+                if hasattr(block, "dw_start") and not isinstance(
+                    block.dw_start, types.FunctionType
+                ):
+                    _port_cna(
+                        block.dw_start,
+                        f"{timm_prefix}.dw_start.conv",
+                        f"{timm_prefix}.dw_start.bn",
+                    )
+                _port_cna(
+                    block.pw_exp,
+                    f"{timm_prefix}.pw_exp.conv",
+                    f"{timm_prefix}.pw_exp.bn",
+                )
+                if hasattr(block, "dw_mid") and not isinstance(
+                    block.dw_mid, types.FunctionType
+                ):
+                    _port_cna(
+                        block.dw_mid,
+                        f"{timm_prefix}.dw_mid.conv",
+                        f"{timm_prefix}.dw_mid.bn",
+                    )
+                _port_cna(
+                    block.pw_proj,
+                    f"{timm_prefix}.pw_proj.conv",
+                    f"{timm_prefix}.pw_proj.bn",
+                )
+                gamma_key = f"{timm_prefix}.layer_scale.gamma"
+                if key_exists(gamma_key):
+                    loader.port_weight(block.layer_scale.gamma, gamma_key)
+            elif isinstance(block, MobileAttention):
+                _port_rms_norm(block.norm, f"{timm_prefix}.norm")
+                gamma_key = f"{timm_prefix}.layer_scale.gamma"
+                if key_exists(gamma_key):
+                    loader.port_weight(block.layer_scale.gamma, gamma_key)
+                attn_prefix = f"{timm_prefix}.attn"
+                _port_attn(block.attn, attn_prefix)
+            block_counter += 1
+    try:
+        msfa_layer = backbone.get_layer("msfa")
+        ffn = msfa_layer.ffn
+        _port_cna(ffn.pw_exp, "msfa.ffn.pw_exp.conv", "msfa.ffn.pw_exp.bn")
+        _port_cna(ffn.pw_proj, "msfa.ffn.pw_proj.conv", "msfa.ffn.pw_proj.bn")
+        _port_rms_norm(msfa_layer.norm, "msfa.norm")
+    except ValueError:
+        pass

keras_hub/src/utils/timm/preset_loader.py CHANGED Viewed

@@ -7,6 +7,7 @@ from keras_hub.src.utils.timm import convert_cspnet
 from keras_hub.src.utils.timm import convert_densenet
 from keras_hub.src.utils.timm import convert_efficientnet
 from keras_hub.src.utils.timm import convert_mobilenet
+from keras_hub.src.utils.timm import convert_mobilenetv5
 from keras_hub.src.utils.timm import convert_resnet
 from keras_hub.src.utils.timm import convert_vgg
 from keras_hub.src.utils.transformers.safetensor_utils import SafetensorLoader
@@ -22,6 +23,8 @@ class TimmPresetLoader(PresetLoader):
             self.converter = convert_cspnet
         elif architecture.startswith("densenet"):
             self.converter = convert_densenet
+        elif architecture.startswith("mobilenetv5"):
+            self.converter = convert_mobilenetv5
         elif architecture.startswith("mobilenet"):
             self.converter = convert_mobilenet
         elif architecture.startswith("vgg"):
@@ -41,7 +44,8 @@ class TimmPresetLoader(PresetLoader):
         keras_config = self.converter.convert_backbone_config(self.config)
         backbone = cls(**{**keras_config, **kwargs})
         if load_weights:
-            jax_memory_cleanup(backbone)
+            if not self.config["architecture"].startswith("mobilenetv5"):
+                jax_memory_cleanup(backbone)
             # Use prefix="" to avoid using `get_prefixed_key`.
             with SafetensorLoader(self.preset, prefix="") as loader:
                 self.converter.convert_weights(backbone, loader, self.config)
@@ -54,9 +58,9 @@ class TimmPresetLoader(PresetLoader):
             )
         # Support loading the classification head for classifier models.
         kwargs["num_classes"] = self.config["num_classes"]
-        if (
-            "num_features" in self.config
-            and "mobilenet" in self.config["architecture"]
+        if "num_features" in self.config and (
+            "mobilenet" in self.config["architecture"]
+            or "mobilenetv5" in self.config["architecture"]
         ):
             kwargs["num_features"] = self.config["num_features"]

keras_hub/src/utils/transformers/convert_dinov2.py CHANGED Viewed

@@ -29,6 +29,7 @@ def convert_backbone_config(transformers_config):
         "image_shape": (image_size, image_size, 3),
         "position_embedding_shape": (image_size, image_size),
         "antialias_in_interpolation": antialias_in_interpolation,
+        "apply_layernorm": transformers_config.get("apply_layernorm", False),
     }

keras_hub/src/utils/transformers/convert_dinov3.py ADDED Viewed

@@ -0,0 +1,106 @@
+import numpy as np
+from keras_hub.src.models.dinov3.dinov3_backbone import DINOV3Backbone
+backbone_cls = DINOV3Backbone
+def convert_backbone_config(transformers_config):
+    image_size = transformers_config["image_size"]
+    return {
+        "patch_size": transformers_config["patch_size"],
+        "num_layers": transformers_config["num_hidden_layers"],
+        "hidden_dim": transformers_config["hidden_size"],
+        "num_heads": transformers_config["num_attention_heads"],
+        "intermediate_dim": transformers_config["intermediate_size"],
+        "layer_scale_init_value": transformers_config["layerscale_value"],
+        "num_register_tokens": transformers_config["num_register_tokens"],
+        "use_mask_token": True,
+        "hidden_activation": transformers_config["hidden_act"],
+        "use_gated_mlp": transformers_config["use_gated_mlp"],
+        "use_query_bias": transformers_config["query_bias"],
+        "use_key_bias": transformers_config["key_bias"],
+        "use_value_bias": transformers_config["value_bias"],
+        "use_proj_bias": transformers_config["proj_bias"],
+        "use_mlp_bias": transformers_config["mlp_bias"],
+        "attention_dropout": transformers_config["attention_dropout"],
+        "drop_path_rate": transformers_config["drop_path_rate"],
+        "layer_norm_eps": transformers_config["layer_norm_eps"],
+        "image_shape": (image_size, image_size, 3),
+        "rope_theta": transformers_config["rope_theta"],
+        "apply_layernorm": False,
+    }
+def convert_weights(backbone, loader, transformers_config):
+    if not isinstance(backbone, DINOV3Backbone):
+        raise ValueError(
+            "The provided backbone must be an instance of DINOV3Backbone. "
+            f"Received: {type(backbone)}"
+        )
+    def port_ln(keras_variable, weight_key):
+        loader.port_weight(keras_variable.gamma, f"{weight_key}.weight")
+        loader.port_weight(keras_variable.beta, f"{weight_key}.bias")
+    def port_dense(keras_variable, weight_key):
+        loader.port_weight(
+            keras_variable.kernel,
+            f"{weight_key}.weight",
+            hook_fn=lambda x, _: x.T,
+        )
+        if keras_variable.bias is not None:
+            loader.port_weight(keras_variable.bias, f"{weight_key}.bias")
+    # Embedding.
+    loader.port_weight(
+        keras_variable=backbone.embeddings.cls_token,
+        hf_weight_key="embeddings.cls_token",
+    )
+    if backbone.use_mask_token:
+        loader.port_weight(
+            keras_variable=backbone.embeddings.mask_token,
+            hf_weight_key="embeddings.mask_token",
+        )
+    if backbone.num_register_tokens > 0:
+        loader.port_weight(
+            keras_variable=backbone.embeddings.register_tokens,
+            hf_weight_key="embeddings.register_tokens",
+        )
+    loader.port_weight(
+        keras_variable=backbone.embeddings.patch_embeddings.projection.kernel,
+        hf_weight_key="embeddings.patch_embeddings.weight",
+        hook_fn=lambda x, _: np.transpose(x, (2, 3, 1, 0)),
+    )
+    loader.port_weight(
+        keras_variable=backbone.embeddings.patch_embeddings.projection.bias,
+        hf_weight_key="embeddings.patch_embeddings.bias",
+    )
+    # Encoder.
+    for i, layer in enumerate(backbone.encoder.layers):
+        prefix = f"layer.{i}"
+        port_ln(layer.norm1, f"{prefix}.norm1")
+        port_dense(layer.attention.query_dense, f"{prefix}.attention.q_proj")
+        port_dense(layer.attention.key_dense, f"{prefix}.attention.k_proj")
+        port_dense(layer.attention.value_dense, f"{prefix}.attention.v_proj")
+        port_dense(layer.attention.output_dense, f"{prefix}.attention.o_proj")
+        loader.port_weight(
+            keras_variable=layer.layer_scale1.lambda1,
+            hf_weight_key=f"{prefix}.layer_scale1.lambda1",
+        )
+        port_ln(layer.norm2, f"{prefix}.norm2")
+        if backbone.use_gated_mlp:
+            port_dense(layer.mlp.gate_proj, f"{prefix}.mlp.gate_proj")
+            port_dense(layer.mlp.up_proj, f"{prefix}.mlp.up_proj")
+            port_dense(layer.mlp.down_proj, f"{prefix}.mlp.down_proj")
+        else:
+            port_dense(layer.mlp.up_proj, f"{prefix}.mlp.up_proj")
+            port_dense(layer.mlp.down_proj, f"{prefix}.mlp.down_proj")
+        loader.port_weight(
+            keras_variable=layer.layer_scale2.lambda1,
+            hf_weight_key=f"{prefix}.layer_scale2.lambda1",
+        )
+    port_ln(backbone.layernorm, "norm")

keras-hub-nightly 0.22.0.dev202508170419__py3-none-any.whl → 0.24.0.dev202511090424__py3-none-any.whl

Potentially problematic release.

keras-hub-nightly 0.22.0.dev202508170419py3-none-any.whl → 0.24.0.dev202511090424py3-none-any.whl