PyPI - keras-hub-nightly - Versions diffs - 0.22.0.dev202507110420__py3-none-any.whl → 0.22.0.dev202507120419__py3-none-any.whl - Mend

keras-hub-nightly 0.22.0.dev202507110420py3-none-any.whl → 0.22.0.dev202507120419py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

keras_hub/src/models/hgnetv2/hgnetv2_presets.py ADDED Viewed

@@ -0,0 +1,58 @@
+# Metadata for loading pretrained model weights.
+backbone_presets = {
+    "hgnetv2_b4_ssld_stage2_ft_in1k": {
+        "metadata": {
+            "description": (
+                "HGNetV2 B4 model with 2-stage SSLD training, fine-tuned on "
+                "ImageNet-1K."
+            ),
+            "params": 13599072,
+            "path": "hgnetv2",
+        },
+        "kaggle_handle": "",
+    },
+    "hgnetv2_b5_ssld_stage1_in22k_in1k": {
+        "metadata": {
+            "description": (
+                "HGNetV2 B5 model with 1-stage SSLD training, pre-trained on "
+                "ImageNet-22K and fine-tuned on ImageNet-1K."
+            ),
+            "params": 33419680,
+            "path": "hgnetv2",
+        },
+        "kaggle_handle": "",
+    },
+    "hgnetv2_b5_ssld_stage2_ft_in1k": {
+        "metadata": {
+            "description": (
+                "HGNetV2 B5 model with 2-stage SSLD training, fine-tuned on "
+                "ImageNet-1K."
+            ),
+            "params": 33419680,
+            "path": "hgnetv2",
+        },
+        "kaggle_handle": "",
+    },
+    "hgnetv2_b6_ssld_stage1_in22k_in1k": {
+        "metadata": {
+            "description": (
+                "HGNetV2 B6 model with 1-stage SSLD training, pre-trained on "
+                "ImageNet-22K and fine-tuned on ImageNet-1K."
+            ),
+            "params": 69179888,
+            "path": "hgnetv2",
+        },
+        "kaggle_handle": "",
+    },
+    "hgnetv2_b6_ssld_stage2_ft_in1k": {
+        "metadata": {
+            "description": (
+                "HGNetV2 B6 model with 2-stage SSLD training, fine-tuned on "
+                "ImageNet-1K."
+            ),
+            "params": 69179888,
+            "path": "hgnetv2",
+        },
+        "kaggle_handle": "",
+    },
+}

keras_hub/src/models/qwen3/__init__.py ADDED Viewed

@@ -0,0 +1,5 @@
+from keras_hub.src.models.qwen3.qwen3_backbone import Qwen3Backbone
+from keras_hub.src.models.qwen3.qwen3_presets import backbone_presets
+from keras_hub.src.utils.preset_utils import register_presets
+register_presets(backbone_presets, Qwen3Backbone)

keras_hub/src/models/qwen3/qwen3_presets.py ADDED Viewed

@@ -0,0 +1,73 @@
+"""Qwen3 model preset configurations."""
+backbone_presets = {
+    "qwen3_0.6b_en": {
+        "metadata": {
+            "description": (
+                "28-layer Qwen3 model with 596M parameters, optimized for "
+                "efficiency and fast inference on resource-constrained devices."
+            ),
+            "params": 596049920,
+            "path": "qwen-3",
+        },
+        "kaggle_handle": "kaggle://keras/qwen-3/keras/qwen3_0.6b_en/1",
+    },
+    "qwen3_1.7b_en": {
+        "metadata": {
+            "description": (
+                "28-layer Qwen3 model with 1.72B parameters, offering "
+                "a good balance between performance and resource usage."
+            ),
+            "params": 1720574976,
+            "path": "qwen-3",
+        },
+        "kaggle_handle": "kaggle://keras/qwen-3/keras/qwen3_1.7b_en/1",
+    },
+    "qwen3_4b_en": {
+        "metadata": {
+            "description": (
+                "36-layer Qwen3 model with 4.02B parameters, offering improved "
+                "reasoning capabilities and better performance than smaller "
+                "variants."
+            ),
+            "params": 4022468096,
+            "path": "qwen-3",
+        },
+        "kaggle_handle": "kaggle://keras/qwen-3/keras/qwen3_4b_en/1",
+    },
+    "qwen3_8b_en": {
+        "metadata": {
+            "description": (
+                "36-layer Qwen3 model with 8.19B parameters, featuring "
+                "enhanced reasoning, coding, and instruction-following "
+                "capabilities."
+            ),
+            "params": 8190735360,
+            "path": "qwen-3",
+        },
+        "kaggle_handle": "kaggle://keras/qwen-3/keras/qwen3_8b_en/1",
+    },
+    "qwen3_14b_en": {
+        "metadata": {
+            "description": (
+                "40-layer Qwen3 model with 14.77B parameters, featuring "
+                "advanced reasoning, coding, and multilingual capabilities."
+            ),
+            "params": 14768307200,
+            "path": "qwen-3",
+        },
+        "kaggle_handle": "kaggle://keras/qwen-3/keras/qwen3_14b_en/1",
+    },
+    "qwen3_32b_en": {
+        "metadata": {
+            "description": (
+                "64-layer Qwen3 model with 32.76B parameters, featuring "
+                "state-of-the-art performance across reasoning, coding, and "
+                "general language tasks."
+            ),
+            "params": 32762123264,
+            "path": "qwen-3",
+        },
+        "kaggle_handle": "kaggle://keras/qwen-3/keras/qwen3_32b_en/1",
+    },
+}

keras_hub/src/models/qwen_moe/qwen_moe_attention.py CHANGED Viewed

@@ -67,6 +67,7 @@ class QwenMoeAttention(keras.layers.Layer):
         self.rope_scaling_factor = rope_scaling_factor
         self.use_sliding_window_attention = use_sliding_window_attention
         self.sliding_window_size = sliding_window_size
+        self.logit_soft_cap = None
     def build(self, inputs_shape):
         # Einsum variables:

keras_hub/src/utils/keras_utils.py CHANGED Viewed

@@ -71,6 +71,23 @@ def fused_attention_op_available():
             )
             return False
         return True
+    elif (
+        hasattr(keras.config, "is_flash_attention_enabled")
+        and keras.config.backend() == "torch"
+    ):
+        try:
+            from torch.backends.cuda import SDPAParams as SDPAParams
+            from torch.backends.cuda import (
+                can_use_flash_attention as can_use_flash_attention,
+            )
+        except ImportError:
+            logging.warning(
+                "Flash attention is not supported in your current PyTorch "
+                "version. Please update it by following the official guide: "
+                "https://pytorch.org/get-started/locally/"
+            )
+            return False
+        return True
     else:
         return False

keras_hub/src/version.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from keras_hub.src.api_export import keras_hub_export
 # Unique source of truth for the version number.
-__version__ = "0.22.0.dev202507110420"
+__version__ = "0.22.0.dev202507120419"
 @keras_hub_export("keras_hub.version")

{keras_hub_nightly-0.22.0.dev202507110420.dist-info → keras_hub_nightly-0.22.0.dev202507120419.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: keras-hub-nightly
-Version: 0.22.0.dev202507110420
+Version: 0.22.0.dev202507120419
 Summary: Pretrained models for Keras.
 Author-email: Keras team <keras-users@googlegroups.com>
 License-Expression: Apache-2.0

{keras_hub_nightly-0.22.0.dev202507110420.dist-info → keras_hub_nightly-0.22.0.dev202507120419.dist-info}/RECORD RENAMED Viewed

@@ -1,11 +1,11 @@
 keras_hub/__init__.py,sha256=bJbUZkqwhZvTb1Tqx1fbkq6mzBYiEyq-Hin3oQIkhdE,558
-keras_hub/layers/__init__.py,sha256=YQ4bW0_mI39Jqj2yoc8xcnynqoaXV2FBjHJviA9Ffas,5190
+keras_hub/layers/__init__.py,sha256=T1XBtpT0UH9-r0Jc-ljCxtZD_ccapf86ByvUgzdRbvg,5311
 keras_hub/metrics/__init__.py,sha256=KYalsMPBnfwim9BdGHFfJ5WxUKFXOQ1QoKIMT_0lwlM,439
-keras_hub/models/__init__.py,sha256=MLS1BAaqj3feo4_xk2Nh_BgsP-cU0xH5LGCWn8DnOac,27171
+keras_hub/models/__init__.py,sha256=52UNIL7my_9g6ubPtOMDnGYeuGD4SOldfnGTVRMKTeE,27558
 keras_hub/samplers/__init__.py,sha256=aFQIkiqbZpi8vjrPp2MVII4QUfE-eQjra5fMeHsoy7k,886
 keras_hub/src/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 keras_hub/src/api_export.py,sha256=9pQZK27JObxWZ96QPLBp1OBsjWigh1iuV6RglPGMRk0,1499
-keras_hub/src/version.py,sha256=dSWginL7BmQjFR-tqM-dtE5eAT7UEak-TCtuQhEAsto,222
+keras_hub/src/version.py,sha256=rNXZuSfrhzhmJUw9OqMhah7oEZIE1yPYm31UkmVOLyU,222
 keras_hub/src/layers/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 keras_hub/src/layers/modeling/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 keras_hub/src/layers/modeling/alibi_bias.py,sha256=1XBTHI52L_iJDhN_w5ydu_iMhCuTgQAxEPwcLA6BPuk,4411
@@ -193,7 +193,7 @@ keras_hub/src/models/flux/flux_presets.py,sha256=z7C_FbI1_F5YETXuWpc7Yh_0w-5N0eB
 keras_hub/src/models/flux/flux_text_to_image.py,sha256=Rf5dD2EhG0bE8Gyg9sqaA8YEexS1kdraofIkxiZDjvc,4166
 keras_hub/src/models/flux/flux_text_to_image_preprocessor.py,sha256=Fs9jr97QtmRUbRRz1kITpkuhDM2GoV3n0XSFC-qQA14,2252
 keras_hub/src/models/gemma/__init__.py,sha256=rVzOJMJ39bgVlT8UdC0t8PlN2c237GKTBmfHIsbPuOQ,251
-keras_hub/src/models/gemma/gemma_attention.py,sha256=iKSdBRkKEOnryXjz6K-thz70Dgp7LGXo5vYx8D-VMgY,10083
+keras_hub/src/models/gemma/gemma_attention.py,sha256=wmU5FgQu1Ajg-KHKVXTLHWH7pXqN4_zVJTCp_FXMcAs,10095
 keras_hub/src/models/gemma/gemma_backbone.py,sha256=GzAUSArw_pN9dtWQzTVhWDbW-XyWt4GyMcFLn9hwmh0,13391
 keras_hub/src/models/gemma/gemma_causal_lm.py,sha256=3OXaIXlrKqMIuUnBk-bUz-0SYFL-XkkQTWm8qRY2YII,16770
 keras_hub/src/models/gemma/gemma_causal_lm_preprocessor.py,sha256=bpKkEurWIfa6Kp9s4pz84-sBDSA6ZFNHP8nXG1fFQrg,2912
@@ -227,6 +227,14 @@ keras_hub/src/models/gpt_neo_x/gpt_neo_x_causal_lm.py,sha256=HriMXNVjGlFTjCIgfLR
 keras_hub/src/models/gpt_neo_x/gpt_neo_x_causal_lm_preprocessor.py,sha256=YiVz9qBHjQlwKgtUVrgBTFitHcX5pbmhhfHwaulyRxY,1957
 keras_hub/src/models/gpt_neo_x/gpt_neo_x_decoder.py,sha256=hmB81V0SuI6bEsxEuFkYgq58wbcrv1YLvmXGin5T3E0,9732
 keras_hub/src/models/gpt_neo_x/gpt_neo_x_tokenizer.py,sha256=aKso-8yGrynn3tZ5xm2egcXIBQo3__sWZDBtjmS3ZgU,1991
+keras_hub/src/models/hgnetv2/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+keras_hub/src/models/hgnetv2/hgnetv2_backbone.py,sha256=eqVrbU2EyB2ToxK1g2QRW90zd5GyvJ8I7PKVBgqRpfY,7966
+keras_hub/src/models/hgnetv2/hgnetv2_encoder.py,sha256=VL6XCqyXieUPkqXS7fhsAT-EV6jzyN_i31EjsAizgVU,6464
+keras_hub/src/models/hgnetv2/hgnetv2_image_classifier.py,sha256=62Xual9pRBkU6G_RUdCblx68Z827SCA_5q9utCXxwa0,7897
+keras_hub/src/models/hgnetv2/hgnetv2_image_classifier_preprocessor.py,sha256=df7OKvJmz2UqOXrqECvI9QdVMVkVMWhK0go9sltajnI,553
+keras_hub/src/models/hgnetv2/hgnetv2_image_converter.py,sha256=qaGRtDeQwmC0PR69KWC7GzYNdWZ5cHu_exhNzdYyYzM,348
+keras_hub/src/models/hgnetv2/hgnetv2_layers.py,sha256=OMUKW5VWL0xkEQl7RJYGAbTTB7qeqH3FHtMMuiQ0QmI,36418
+keras_hub/src/models/hgnetv2/hgnetv2_presets.py,sha256=azRtaBynFqI1ccmP8_LMG16tjNSSeMvgo_ZFneG-bg8,1767
 keras_hub/src/models/llama/__init__.py,sha256=svVZjGi71R3lVbq0AdbqlXj909mr3Rp9EPXdiO0w0G0,251
 keras_hub/src/models/llama/llama_attention.py,sha256=UFHOWr69vTkOxLdgSUckGaSuUUyqlJ_xYoswWHVnTOU,8977
 keras_hub/src/models/llama/llama_backbone.py,sha256=AT8kUPHEn6DT-aGY838_sZkBhByIdh82DWW8y-Sp3mE,13614
@@ -320,15 +328,17 @@ keras_hub/src/models/qwen/qwen_decoder.py,sha256=utmAvZlU7_nP-6pjGPDinK4JaMzsQSw
 keras_hub/src/models/qwen/qwen_layernorm.py,sha256=DS35r3qd6g5ocL7Nhf_vNzLLMo1aI9VCSmL64dgNOYI,924
 keras_hub/src/models/qwen/qwen_presets.py,sha256=1FkKV6M3yqJz4EP1xa7bEvfIQ721xXT-_ikjWX0xvww,1992
 keras_hub/src/models/qwen/qwen_tokenizer.py,sha256=LCv3IyiDDHqVnM9N3lf5-BE3iwicIh0nKS1hjoPw9lE,1532
+keras_hub/src/models/qwen3/__init__.py,sha256=fdndQouGmfNhB_Rj76A8my5FvpxOvRJ24DoUha-wlgw,251
 keras_hub/src/models/qwen3/qwen3_attention.py,sha256=9zjuzGZa6TzaFgO4ShNCEHMPVb3r6mFZW7vzutbwUGg,13050
 keras_hub/src/models/qwen3/qwen3_backbone.py,sha256=Ylpk_rRWWRxy8irlAPjJU-YrxYGpo8c9lSEO1zZl4gU,7456
 keras_hub/src/models/qwen3/qwen3_causal_lm.py,sha256=cn_4WFVxhlOArtIGAaqkNzIz9Rx8IEWwCVMRFKKk26k,15531
 keras_hub/src/models/qwen3/qwen3_causal_lm_preprocessor.py,sha256=H4g-bgvuhAUnDwjJovydK16Kes38ZFZWPvflrgHqZis,458
 keras_hub/src/models/qwen3/qwen3_decoder.py,sha256=68s9jQj53zFmXE4-SGXKYHu546fXOyi9LUbnKk-HGYY,11595
 keras_hub/src/models/qwen3/qwen3_layernorm.py,sha256=EJxjf7Pr6ufPQnNeuYQxkExzPjPk4PQxqMsoBeSEkDo,1073
+keras_hub/src/models/qwen3/qwen3_presets.py,sha256=ZcsmPFj3Z4TBoa7ZkJK4JN1D6iHHZ6kCrqXxQE8IH_k,2524
 keras_hub/src/models/qwen3/qwen3_tokenizer.py,sha256=LmPtg0vprMchDvYfTj8m5PraXI2QS3-YgdIIpIm5iAs,1448
 keras_hub/src/models/qwen_moe/__init__.py,sha256=5D8GUmVDsJs0J4sVZHcXOLkZf12U96l-WtwyVee4lu8,267
-keras_hub/src/models/qwen_moe/qwen_moe_attention.py,sha256=pE79_iHUm2LGkoWL6zMJw_pNfzIvmyq3yJaiq47W2TY,13242
+keras_hub/src/models/qwen_moe/qwen_moe_attention.py,sha256=o0mcVTDMtElMYq3NSYRCfuYVdF-W8YDSU5ogensrVJg,13277
 keras_hub/src/models/qwen_moe/qwen_moe_backbone.py,sha256=nrfELvIvRLmrgKrUNXci2CrecmeI6bWzJj7HH-RcWJA,15341
 keras_hub/src/models/qwen_moe/qwen_moe_causal_lm.py,sha256=MeP60v7GcN_SmH5_ULRpqgmFVgaYAosSecZiSQVlJvU,13256
 keras_hub/src/models/qwen_moe/qwen_moe_causal_lm_preprocessor.py,sha256=9P6TT7W_fqf4HsXcmlHF-DW_anR-XoDrRN2ZFGA7Ai4,3168
@@ -481,7 +491,7 @@ keras_hub/src/tokenizers/unicode_codepoint_tokenizer.py,sha256=hRv_XxoPIPDpHfO0Z
 keras_hub/src/tokenizers/word_piece_tokenizer.py,sha256=vP6AZgbzsRiuPCt3W_n94nsF7XiERnagWcH_rqJHtVU,19943
 keras_hub/src/tokenizers/word_piece_tokenizer_trainer.py,sha256=cylrs02ZrYQ1TuZr9oyS3NrVbDwGctA3VXbIh1pFJMQ,6743
 keras_hub/src/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-keras_hub/src/utils/keras_utils.py,sha256=2qrh4F-rqceVFSx0-cbsFBfWae5hBXFb_sEtPPcImf4,4628
+keras_hub/src/utils/keras_utils.py,sha256=IWsbg-p-XVLuOkba8PAYNf9zDo4G2RkINLr58p12MhA,5291
 keras_hub/src/utils/pipeline_model.py,sha256=jgzB6NQPSl0KOu08N-TazfOnXnUJbZjH2EXXhx25Ftg,9084
 keras_hub/src/utils/preset_utils.py,sha256=GKYFKK9YcdIrMm0_hC_KTIXgpiMYD6SauMnSRpNsDQo,34975
 keras_hub/src/utils/python_utils.py,sha256=N8nWeO3san4YnGkffRXG3Ix7VEIMTKSN21FX5TuL7G8,202
@@ -518,7 +528,7 @@ keras_hub/src/utils/transformers/preset_loader.py,sha256=K5FzDAtCuXS9rmZc0Zj7UCw
 keras_hub/src/utils/transformers/safetensor_utils.py,sha256=CYUHyA4y-B61r7NDnCsFb4t_UmSwZ1k9L-8gzEd6KRg,3339
 keras_hub/tokenizers/__init__.py,sha256=uMjjm0mzUkRb0e4Ac_JK8aJ9cKGUi5UqmzWoWAFJprE,4164
 keras_hub/utils/__init__.py,sha256=jXPqVGBpJr_PpYmqD8aDG-fRMlxH-ulqCR2SZMn288Y,646
-keras_hub_nightly-0.22.0.dev202507110420.dist-info/METADATA,sha256=bYZi3YvbFAqx9LxRjaliOlGdM8ljETHH2EJpizEjW1I,7393
-keras_hub_nightly-0.22.0.dev202507110420.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-keras_hub_nightly-0.22.0.dev202507110420.dist-info/top_level.txt,sha256=N4J6piIWBKa38A4uV-CnIopnOEf8mHAbkNXafXm_CuA,10
-keras_hub_nightly-0.22.0.dev202507110420.dist-info/RECORD,,
+keras_hub_nightly-0.22.0.dev202507120419.dist-info/METADATA,sha256=FmJeWUJIafpgqRZRIC4nvRMeDHzdClq11rKbpHIffxQ,7393
+keras_hub_nightly-0.22.0.dev202507120419.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+keras_hub_nightly-0.22.0.dev202507120419.dist-info/top_level.txt,sha256=N4J6piIWBKa38A4uV-CnIopnOEf8mHAbkNXafXm_CuA,10
+keras_hub_nightly-0.22.0.dev202507120419.dist-info/RECORD,,

{keras_hub_nightly-0.22.0.dev202507110420.dist-info → keras_hub_nightly-0.22.0.dev202507120419.dist-info}/WHEEL RENAMED Viewed

File without changes

{keras_hub_nightly-0.22.0.dev202507110420.dist-info → keras_hub_nightly-0.22.0.dev202507120419.dist-info}/top_level.txt RENAMED Viewed

File without changes

keras-hub-nightly 0.22.0.dev202507110420__py3-none-any.whl → 0.22.0.dev202507120419__py3-none-any.whl

keras-hub-nightly 0.22.0.dev202507110420py3-none-any.whl → 0.22.0.dev202507120419py3-none-any.whl