PyPI - transformers - Versions diffs - 5.0.0rc2__py3-none-any.whl → 5.1.0__py3-none-any.whl - Mend

transformers 5.0.0rc2py3-none-any.whl → 5.1.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1594) hide show

transformers/__init__.py +11 -37
transformers/activations.py +2 -2
transformers/audio_utils.py +32 -32
transformers/backbone_utils.py +326 -0
transformers/cache_utils.py +26 -126
transformers/cli/chat.py +3 -3
transformers/cli/serve.py +13 -10
transformers/cli/transformers.py +2 -1
transformers/configuration_utils.py +22 -92
transformers/conversion_mapping.py +150 -26
transformers/convert_slow_tokenizer.py +9 -12
transformers/core_model_loading.py +217 -129
transformers/data/processors/glue.py +0 -1
transformers/data/processors/utils.py +0 -1
transformers/data/processors/xnli.py +0 -1
transformers/dependency_versions_check.py +0 -1
transformers/dependency_versions_table.py +10 -11
transformers/distributed/configuration_utils.py +1 -2
transformers/dynamic_module_utils.py +23 -23
transformers/feature_extraction_sequence_utils.py +19 -23
transformers/feature_extraction_utils.py +14 -14
transformers/file_utils.py +0 -2
transformers/generation/candidate_generator.py +2 -4
transformers/generation/configuration_utils.py +54 -39
transformers/generation/continuous_batching/__init__.py +0 -1
transformers/generation/continuous_batching/cache.py +74 -44
transformers/generation/continuous_batching/cache_manager.py +28 -28
transformers/generation/continuous_batching/continuous_api.py +133 -414
transformers/generation/continuous_batching/input_ouputs.py +464 -0
transformers/generation/continuous_batching/requests.py +77 -19
transformers/generation/continuous_batching/scheduler.py +154 -104
transformers/generation/logits_process.py +10 -133
transformers/generation/stopping_criteria.py +1 -2
transformers/generation/streamers.py +0 -1
transformers/generation/utils.py +91 -121
transformers/generation/watermarking.py +2 -3
transformers/hf_argparser.py +9 -13
transformers/hyperparameter_search.py +1 -2
transformers/image_processing_base.py +9 -9
transformers/image_processing_utils.py +11 -15
transformers/image_processing_utils_fast.py +70 -71
transformers/image_transforms.py +73 -42
transformers/image_utils.py +30 -37
transformers/initialization.py +57 -0
transformers/integrations/__init__.py +10 -24
transformers/integrations/accelerate.py +47 -11
transformers/integrations/awq.py +1 -3
transformers/integrations/deepspeed.py +146 -4
transformers/integrations/eetq.py +0 -1
transformers/integrations/executorch.py +2 -6
transformers/integrations/fbgemm_fp8.py +1 -2
transformers/integrations/finegrained_fp8.py +149 -13
transformers/integrations/flash_attention.py +3 -8
transformers/integrations/flex_attention.py +1 -1
transformers/integrations/fp_quant.py +4 -6
transformers/integrations/ggml.py +0 -1
transformers/integrations/hub_kernels.py +18 -7
transformers/integrations/integration_utils.py +2 -3
transformers/integrations/moe.py +226 -106
transformers/integrations/mxfp4.py +52 -40
transformers/integrations/peft.py +488 -176
transformers/integrations/quark.py +2 -4
transformers/integrations/tensor_parallel.py +641 -581
transformers/integrations/torchao.py +4 -6
transformers/loss/loss_lw_detr.py +356 -0
transformers/loss/loss_utils.py +2 -0
transformers/masking_utils.py +199 -59
transformers/model_debugging_utils.py +4 -5
transformers/modelcard.py +14 -192
transformers/modeling_attn_mask_utils.py +19 -19
transformers/modeling_flash_attention_utils.py +28 -29
transformers/modeling_gguf_pytorch_utils.py +5 -5
transformers/modeling_layers.py +21 -22
transformers/modeling_outputs.py +242 -253
transformers/modeling_rope_utils.py +32 -32
transformers/modeling_utils.py +416 -438
transformers/models/__init__.py +10 -0
transformers/models/afmoe/configuration_afmoe.py +40 -33
transformers/models/afmoe/modeling_afmoe.py +38 -41
transformers/models/afmoe/modular_afmoe.py +23 -25
transformers/models/aimv2/configuration_aimv2.py +2 -10
transformers/models/aimv2/modeling_aimv2.py +46 -45
transformers/models/aimv2/modular_aimv2.py +13 -19
transformers/models/albert/configuration_albert.py +8 -2
transformers/models/albert/modeling_albert.py +70 -72
transformers/models/albert/tokenization_albert.py +1 -4
transformers/models/align/configuration_align.py +8 -6
transformers/models/align/modeling_align.py +83 -86
transformers/models/align/processing_align.py +2 -30
transformers/models/altclip/configuration_altclip.py +4 -7
transformers/models/altclip/modeling_altclip.py +106 -103
transformers/models/altclip/processing_altclip.py +2 -15
transformers/models/apertus/__init__.py +0 -1
transformers/models/apertus/configuration_apertus.py +23 -28
transformers/models/apertus/modeling_apertus.py +35 -38
transformers/models/apertus/modular_apertus.py +36 -40
transformers/models/arcee/configuration_arcee.py +25 -30
transformers/models/arcee/modeling_arcee.py +35 -38
transformers/models/arcee/modular_arcee.py +20 -23
transformers/models/aria/configuration_aria.py +31 -44
transformers/models/aria/image_processing_aria.py +25 -27
transformers/models/aria/modeling_aria.py +102 -102
transformers/models/aria/modular_aria.py +111 -124
transformers/models/aria/processing_aria.py +28 -35
transformers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py +0 -1
transformers/models/audio_spectrogram_transformer/feature_extraction_audio_spectrogram_transformer.py +3 -6
transformers/models/audio_spectrogram_transformer/modeling_audio_spectrogram_transformer.py +9 -11
transformers/models/audioflamingo3/__init__.py +0 -1
transformers/models/audioflamingo3/configuration_audioflamingo3.py +0 -1
transformers/models/audioflamingo3/modeling_audioflamingo3.py +60 -52
transformers/models/audioflamingo3/modular_audioflamingo3.py +52 -43
transformers/models/audioflamingo3/processing_audioflamingo3.py +6 -8
transformers/models/auto/auto_factory.py +12 -11
transformers/models/auto/configuration_auto.py +48 -5
transformers/models/auto/feature_extraction_auto.py +5 -7
transformers/models/auto/image_processing_auto.py +30 -39
transformers/models/auto/modeling_auto.py +33 -199
transformers/models/auto/processing_auto.py +11 -19
transformers/models/auto/tokenization_auto.py +38 -37
transformers/models/auto/video_processing_auto.py +7 -8
transformers/models/autoformer/configuration_autoformer.py +4 -7
transformers/models/autoformer/modeling_autoformer.py +100 -101
transformers/models/aya_vision/configuration_aya_vision.py +4 -1
transformers/models/aya_vision/modeling_aya_vision.py +64 -99
transformers/models/aya_vision/modular_aya_vision.py +46 -74
transformers/models/aya_vision/processing_aya_vision.py +25 -53
transformers/models/bamba/configuration_bamba.py +46 -39
transformers/models/bamba/modeling_bamba.py +83 -119
transformers/models/bamba/modular_bamba.py +70 -109
transformers/models/bark/configuration_bark.py +6 -8
transformers/models/bark/generation_configuration_bark.py +3 -5
transformers/models/bark/modeling_bark.py +64 -65
transformers/models/bark/processing_bark.py +19 -41
transformers/models/bart/configuration_bart.py +9 -5
transformers/models/bart/modeling_bart.py +124 -129
transformers/models/barthez/tokenization_barthez.py +1 -4
transformers/models/bartpho/tokenization_bartpho.py +6 -7
transformers/models/beit/configuration_beit.py +2 -15
transformers/models/beit/image_processing_beit.py +53 -56
transformers/models/beit/image_processing_beit_fast.py +11 -12
transformers/models/beit/modeling_beit.py +65 -62
transformers/models/bert/configuration_bert.py +12 -2
transformers/models/bert/modeling_bert.py +117 -152
transformers/models/bert/tokenization_bert.py +2 -4
transformers/models/bert/tokenization_bert_legacy.py +3 -5
transformers/models/bert_generation/configuration_bert_generation.py +17 -2
transformers/models/bert_generation/modeling_bert_generation.py +53 -55
transformers/models/bert_generation/tokenization_bert_generation.py +2 -3
transformers/models/bert_japanese/tokenization_bert_japanese.py +5 -6
transformers/models/bertweet/tokenization_bertweet.py +1 -3
transformers/models/big_bird/configuration_big_bird.py +12 -9
transformers/models/big_bird/modeling_big_bird.py +107 -124
transformers/models/big_bird/tokenization_big_bird.py +1 -4
transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py +9 -9
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +118 -118
transformers/models/biogpt/configuration_biogpt.py +8 -2
transformers/models/biogpt/modeling_biogpt.py +73 -79
transformers/models/biogpt/modular_biogpt.py +60 -66
transformers/models/biogpt/tokenization_biogpt.py +3 -5
transformers/models/bit/configuration_bit.py +2 -5
transformers/models/bit/image_processing_bit.py +21 -24
transformers/models/bit/image_processing_bit_fast.py +0 -1
transformers/models/bit/modeling_bit.py +15 -16
transformers/models/bitnet/configuration_bitnet.py +23 -28
transformers/models/bitnet/modeling_bitnet.py +34 -38
transformers/models/bitnet/modular_bitnet.py +7 -10
transformers/models/blenderbot/configuration_blenderbot.py +8 -5
transformers/models/blenderbot/modeling_blenderbot.py +68 -99
transformers/models/blenderbot/tokenization_blenderbot.py +0 -1
transformers/models/blenderbot_small/configuration_blenderbot_small.py +8 -5
transformers/models/blenderbot_small/modeling_blenderbot_small.py +70 -72
transformers/models/blenderbot_small/tokenization_blenderbot_small.py +1 -3
transformers/models/blip/configuration_blip.py +9 -10
transformers/models/blip/image_processing_blip.py +17 -20
transformers/models/blip/image_processing_blip_fast.py +0 -1
transformers/models/blip/modeling_blip.py +115 -108
transformers/models/blip/modeling_blip_text.py +63 -65
transformers/models/blip/processing_blip.py +5 -36
transformers/models/blip_2/configuration_blip_2.py +2 -2
transformers/models/blip_2/modeling_blip_2.py +145 -121
transformers/models/blip_2/processing_blip_2.py +8 -38
transformers/models/bloom/configuration_bloom.py +5 -2
transformers/models/bloom/modeling_bloom.py +60 -60
transformers/models/blt/configuration_blt.py +94 -86
transformers/models/blt/modeling_blt.py +93 -90
transformers/models/blt/modular_blt.py +127 -69
transformers/models/bridgetower/configuration_bridgetower.py +7 -2
transformers/models/bridgetower/image_processing_bridgetower.py +34 -35
transformers/models/bridgetower/image_processing_bridgetower_fast.py +13 -14
transformers/models/bridgetower/modeling_bridgetower.py +136 -124
transformers/models/bridgetower/processing_bridgetower.py +2 -16
transformers/models/bros/configuration_bros.py +24 -18
transformers/models/bros/modeling_bros.py +78 -80
transformers/models/bros/processing_bros.py +2 -12
transformers/models/byt5/tokenization_byt5.py +4 -6
transformers/models/camembert/configuration_camembert.py +8 -2
transformers/models/camembert/modeling_camembert.py +97 -99
transformers/models/camembert/modular_camembert.py +51 -54
transformers/models/camembert/tokenization_camembert.py +1 -4
transformers/models/canine/configuration_canine.py +4 -2
transformers/models/canine/modeling_canine.py +73 -75
transformers/models/canine/tokenization_canine.py +0 -1
transformers/models/chameleon/configuration_chameleon.py +29 -34
transformers/models/chameleon/image_processing_chameleon.py +21 -24
transformers/models/chameleon/image_processing_chameleon_fast.py +5 -6
transformers/models/chameleon/modeling_chameleon.py +135 -92
transformers/models/chameleon/processing_chameleon.py +16 -41
transformers/models/chinese_clip/configuration_chinese_clip.py +10 -8
transformers/models/chinese_clip/image_processing_chinese_clip.py +21 -24
transformers/models/chinese_clip/image_processing_chinese_clip_fast.py +0 -1
transformers/models/chinese_clip/modeling_chinese_clip.py +93 -95
transformers/models/chinese_clip/processing_chinese_clip.py +2 -15
transformers/models/clap/configuration_clap.py +4 -9
transformers/models/clap/feature_extraction_clap.py +9 -10
transformers/models/clap/modeling_clap.py +109 -111
transformers/models/clap/processing_clap.py +2 -15
transformers/models/clip/configuration_clip.py +4 -2
transformers/models/clip/image_processing_clip.py +21 -24
transformers/models/clip/image_processing_clip_fast.py +9 -1
transformers/models/clip/modeling_clip.py +70 -68
transformers/models/clip/processing_clip.py +2 -14
transformers/models/clip/tokenization_clip.py +2 -5
transformers/models/clipseg/configuration_clipseg.py +4 -2
transformers/models/clipseg/modeling_clipseg.py +113 -112
transformers/models/clipseg/processing_clipseg.py +19 -42
transformers/models/clvp/configuration_clvp.py +15 -5
transformers/models/clvp/feature_extraction_clvp.py +7 -10
transformers/models/clvp/modeling_clvp.py +138 -145
transformers/models/clvp/number_normalizer.py +1 -2
transformers/models/clvp/processing_clvp.py +3 -20
transformers/models/clvp/tokenization_clvp.py +0 -1
transformers/models/code_llama/tokenization_code_llama.py +3 -6
transformers/models/codegen/configuration_codegen.py +4 -4
transformers/models/codegen/modeling_codegen.py +50 -49
transformers/models/codegen/tokenization_codegen.py +5 -6
transformers/models/cohere/configuration_cohere.py +25 -30
transformers/models/cohere/modeling_cohere.py +39 -42
transformers/models/cohere/modular_cohere.py +27 -31
transformers/models/cohere/tokenization_cohere.py +5 -6
transformers/models/cohere2/configuration_cohere2.py +27 -32
transformers/models/cohere2/modeling_cohere2.py +38 -41
transformers/models/cohere2/modular_cohere2.py +48 -52
transformers/models/cohere2_vision/configuration_cohere2_vision.py +5 -1
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +9 -10
transformers/models/cohere2_vision/modeling_cohere2_vision.py +52 -55
transformers/models/cohere2_vision/modular_cohere2_vision.py +41 -43
transformers/models/cohere2_vision/processing_cohere2_vision.py +6 -36
transformers/models/colpali/configuration_colpali.py +0 -1
transformers/models/colpali/modeling_colpali.py +14 -16
transformers/models/colpali/modular_colpali.py +11 -51
transformers/models/colpali/processing_colpali.py +14 -52
transformers/models/colqwen2/modeling_colqwen2.py +27 -28
transformers/models/colqwen2/modular_colqwen2.py +36 -74
transformers/models/colqwen2/processing_colqwen2.py +16 -52
transformers/models/conditional_detr/configuration_conditional_detr.py +19 -47
transformers/models/conditional_detr/image_processing_conditional_detr.py +67 -70
transformers/models/conditional_detr/image_processing_conditional_detr_fast.py +50 -36
transformers/models/conditional_detr/modeling_conditional_detr.py +851 -1001
transformers/models/conditional_detr/modular_conditional_detr.py +901 -5
transformers/models/convbert/configuration_convbert.py +11 -8
transformers/models/convbert/modeling_convbert.py +85 -87
transformers/models/convbert/tokenization_convbert.py +0 -1
transformers/models/convnext/configuration_convnext.py +2 -5
transformers/models/convnext/image_processing_convnext.py +18 -21
transformers/models/convnext/image_processing_convnext_fast.py +7 -8
transformers/models/convnext/modeling_convnext.py +12 -14
transformers/models/convnextv2/configuration_convnextv2.py +2 -5
transformers/models/convnextv2/modeling_convnextv2.py +12 -14
transformers/models/cpm/tokenization_cpm.py +6 -7
transformers/models/cpm/tokenization_cpm_fast.py +3 -5
transformers/models/cpmant/configuration_cpmant.py +4 -1
transformers/models/cpmant/modeling_cpmant.py +38 -40
transformers/models/cpmant/tokenization_cpmant.py +1 -3
transformers/models/csm/configuration_csm.py +58 -66
transformers/models/csm/generation_csm.py +13 -14
transformers/models/csm/modeling_csm.py +81 -84
transformers/models/csm/modular_csm.py +56 -58
transformers/models/csm/processing_csm.py +25 -68
transformers/models/ctrl/configuration_ctrl.py +16 -1
transformers/models/ctrl/modeling_ctrl.py +51 -66
transformers/models/ctrl/tokenization_ctrl.py +0 -1
transformers/models/cvt/configuration_cvt.py +0 -1
transformers/models/cvt/modeling_cvt.py +13 -15
transformers/models/cwm/__init__.py +0 -1
transformers/models/cwm/configuration_cwm.py +8 -12
transformers/models/cwm/modeling_cwm.py +36 -38
transformers/models/cwm/modular_cwm.py +10 -12
transformers/models/d_fine/configuration_d_fine.py +10 -57
transformers/models/d_fine/modeling_d_fine.py +786 -927
transformers/models/d_fine/modular_d_fine.py +339 -417
transformers/models/dab_detr/configuration_dab_detr.py +22 -49
transformers/models/dab_detr/modeling_dab_detr.py +79 -77
transformers/models/dac/configuration_dac.py +0 -1
transformers/models/dac/feature_extraction_dac.py +6 -9
transformers/models/dac/modeling_dac.py +22 -24
transformers/models/data2vec/configuration_data2vec_audio.py +4 -2
transformers/models/data2vec/configuration_data2vec_text.py +11 -3
transformers/models/data2vec/configuration_data2vec_vision.py +0 -1
transformers/models/data2vec/modeling_data2vec_audio.py +55 -59
transformers/models/data2vec/modeling_data2vec_text.py +97 -99
transformers/models/data2vec/modeling_data2vec_vision.py +45 -44
transformers/models/data2vec/modular_data2vec_audio.py +6 -1
transformers/models/data2vec/modular_data2vec_text.py +51 -54
transformers/models/dbrx/configuration_dbrx.py +29 -22
transformers/models/dbrx/modeling_dbrx.py +45 -48
transformers/models/dbrx/modular_dbrx.py +37 -39
transformers/models/deberta/configuration_deberta.py +6 -1
transformers/models/deberta/modeling_deberta.py +57 -60
transformers/models/deberta/tokenization_deberta.py +2 -5
transformers/models/deberta_v2/configuration_deberta_v2.py +6 -1
transformers/models/deberta_v2/modeling_deberta_v2.py +63 -65
transformers/models/deberta_v2/tokenization_deberta_v2.py +1 -4
transformers/models/decision_transformer/configuration_decision_transformer.py +3 -2
transformers/models/decision_transformer/modeling_decision_transformer.py +51 -53
transformers/models/deepseek_v2/configuration_deepseek_v2.py +41 -47
transformers/models/deepseek_v2/modeling_deepseek_v2.py +39 -41
transformers/models/deepseek_v2/modular_deepseek_v2.py +48 -52
transformers/models/deepseek_v3/configuration_deepseek_v3.py +42 -48
transformers/models/deepseek_v3/modeling_deepseek_v3.py +38 -40
transformers/models/deepseek_v3/modular_deepseek_v3.py +10 -10
transformers/models/deepseek_vl/configuration_deepseek_vl.py +6 -3
transformers/models/deepseek_vl/image_processing_deepseek_vl.py +27 -28
transformers/models/deepseek_vl/image_processing_deepseek_vl_fast.py +12 -11
transformers/models/deepseek_vl/modeling_deepseek_vl.py +48 -43
transformers/models/deepseek_vl/modular_deepseek_vl.py +15 -43
transformers/models/deepseek_vl/processing_deepseek_vl.py +10 -41
transformers/models/deepseek_vl_hybrid/configuration_deepseek_vl_hybrid.py +7 -5
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid.py +37 -37
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid_fast.py +22 -22
transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py +100 -56
transformers/models/deepseek_vl_hybrid/modular_deepseek_vl_hybrid.py +141 -109
transformers/models/deepseek_vl_hybrid/processing_deepseek_vl_hybrid.py +12 -44
transformers/models/deformable_detr/configuration_deformable_detr.py +22 -46
transformers/models/deformable_detr/image_processing_deformable_detr.py +59 -61
transformers/models/deformable_detr/image_processing_deformable_detr_fast.py +42 -28
transformers/models/deformable_detr/modeling_deformable_detr.py +454 -652
transformers/models/deformable_detr/modular_deformable_detr.py +1385 -5
transformers/models/deit/configuration_deit.py +0 -1
transformers/models/deit/image_processing_deit.py +18 -21
transformers/models/deit/image_processing_deit_fast.py +0 -1
transformers/models/deit/modeling_deit.py +27 -25
transformers/models/depth_anything/configuration_depth_anything.py +12 -43
transformers/models/depth_anything/modeling_depth_anything.py +10 -11
transformers/models/depth_pro/configuration_depth_pro.py +0 -1
transformers/models/depth_pro/image_processing_depth_pro.py +22 -23
transformers/models/depth_pro/image_processing_depth_pro_fast.py +8 -9
transformers/models/depth_pro/modeling_depth_pro.py +29 -27
transformers/models/detr/configuration_detr.py +18 -50
transformers/models/detr/image_processing_detr.py +64 -66
transformers/models/detr/image_processing_detr_fast.py +33 -34
transformers/models/detr/modeling_detr.py +748 -789
transformers/models/dia/configuration_dia.py +9 -15
transformers/models/dia/feature_extraction_dia.py +6 -9
transformers/models/dia/generation_dia.py +48 -53
transformers/models/dia/modeling_dia.py +68 -71
transformers/models/dia/modular_dia.py +56 -58
transformers/models/dia/processing_dia.py +39 -29
transformers/models/dia/tokenization_dia.py +3 -6
transformers/models/diffllama/configuration_diffllama.py +25 -30
transformers/models/diffllama/modeling_diffllama.py +45 -53
transformers/models/diffllama/modular_diffllama.py +18 -25
transformers/models/dinat/configuration_dinat.py +2 -5
transformers/models/dinat/modeling_dinat.py +47 -48
transformers/models/dinov2/configuration_dinov2.py +2 -5
transformers/models/dinov2/modeling_dinov2.py +20 -21
transformers/models/dinov2_with_registers/configuration_dinov2_with_registers.py +3 -5
transformers/models/dinov2_with_registers/modeling_dinov2_with_registers.py +21 -21
transformers/models/dinov2_with_registers/modular_dinov2_with_registers.py +11 -14
transformers/models/dinov3_convnext/configuration_dinov3_convnext.py +6 -11
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +5 -9
transformers/models/dinov3_vit/configuration_dinov3_vit.py +7 -12
transformers/models/dinov3_vit/image_processing_dinov3_vit_fast.py +7 -8
transformers/models/dinov3_vit/modeling_dinov3_vit.py +19 -22
transformers/models/dinov3_vit/modular_dinov3_vit.py +16 -19
transformers/models/distilbert/configuration_distilbert.py +8 -2
transformers/models/distilbert/modeling_distilbert.py +47 -49
transformers/models/distilbert/tokenization_distilbert.py +0 -1
transformers/models/doge/__init__.py +0 -1
transformers/models/doge/configuration_doge.py +42 -35
transformers/models/doge/modeling_doge.py +46 -49
transformers/models/doge/modular_doge.py +77 -68
transformers/models/donut/configuration_donut_swin.py +0 -1
transformers/models/donut/image_processing_donut.py +26 -29
transformers/models/donut/image_processing_donut_fast.py +9 -14
transformers/models/donut/modeling_donut_swin.py +44 -46
transformers/models/donut/processing_donut.py +5 -26
transformers/models/dots1/configuration_dots1.py +43 -36
transformers/models/dots1/modeling_dots1.py +35 -38
transformers/models/dots1/modular_dots1.py +0 -1
transformers/models/dpr/configuration_dpr.py +19 -2
transformers/models/dpr/modeling_dpr.py +37 -39
transformers/models/dpr/tokenization_dpr.py +7 -9
transformers/models/dpr/tokenization_dpr_fast.py +7 -9
transformers/models/dpt/configuration_dpt.py +23 -66
transformers/models/dpt/image_processing_dpt.py +65 -66
transformers/models/dpt/image_processing_dpt_fast.py +18 -19
transformers/models/dpt/modeling_dpt.py +38 -36
transformers/models/dpt/modular_dpt.py +14 -15
transformers/models/edgetam/configuration_edgetam.py +1 -2
transformers/models/edgetam/modeling_edgetam.py +87 -89
transformers/models/edgetam/modular_edgetam.py +7 -13
transformers/models/edgetam_video/__init__.py +0 -1
transformers/models/edgetam_video/configuration_edgetam_video.py +0 -1
transformers/models/edgetam_video/modeling_edgetam_video.py +126 -128
transformers/models/edgetam_video/modular_edgetam_video.py +25 -27
transformers/models/efficientloftr/configuration_efficientloftr.py +4 -5
transformers/models/efficientloftr/image_processing_efficientloftr.py +14 -16
transformers/models/efficientloftr/image_processing_efficientloftr_fast.py +8 -7
transformers/models/efficientloftr/modeling_efficientloftr.py +46 -38
transformers/models/efficientloftr/modular_efficientloftr.py +1 -3
transformers/models/efficientnet/configuration_efficientnet.py +0 -1
transformers/models/efficientnet/image_processing_efficientnet.py +23 -26
transformers/models/efficientnet/image_processing_efficientnet_fast.py +16 -17
transformers/models/efficientnet/modeling_efficientnet.py +12 -14
transformers/models/electra/configuration_electra.py +13 -3
transformers/models/electra/modeling_electra.py +107 -109
transformers/models/emu3/configuration_emu3.py +17 -17
transformers/models/emu3/image_processing_emu3.py +44 -39
transformers/models/emu3/modeling_emu3.py +143 -109
transformers/models/emu3/modular_emu3.py +109 -73
transformers/models/emu3/processing_emu3.py +18 -43
transformers/models/encodec/configuration_encodec.py +2 -4
transformers/models/encodec/feature_extraction_encodec.py +10 -13
transformers/models/encodec/modeling_encodec.py +25 -29
transformers/models/encoder_decoder/configuration_encoder_decoder.py +12 -2
transformers/models/encoder_decoder/modeling_encoder_decoder.py +37 -43
transformers/models/eomt/configuration_eomt.py +12 -14
transformers/models/eomt/image_processing_eomt.py +53 -55
transformers/models/eomt/image_processing_eomt_fast.py +18 -19
transformers/models/eomt/modeling_eomt.py +19 -21
transformers/models/eomt/modular_eomt.py +28 -30
transformers/models/eomt_dinov3/__init__.py +28 -0
transformers/models/eomt_dinov3/configuration_eomt_dinov3.py +204 -0
transformers/models/eomt_dinov3/modeling_eomt_dinov3.py +1376 -0
transformers/models/eomt_dinov3/modular_eomt_dinov3.py +454 -0
transformers/models/ernie/configuration_ernie.py +24 -3
transformers/models/ernie/modeling_ernie.py +127 -162
transformers/models/ernie/modular_ernie.py +91 -103
transformers/models/ernie4_5/configuration_ernie4_5.py +23 -27
transformers/models/ernie4_5/modeling_ernie4_5.py +35 -37
transformers/models/ernie4_5/modular_ernie4_5.py +1 -3
transformers/models/ernie4_5_moe/configuration_ernie4_5_moe.py +34 -39
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +40 -42
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +7 -9
transformers/models/ernie4_5_vl_moe/configuration_ernie4_5_vl_moe.py +17 -7
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe.py +34 -35
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe_fast.py +6 -7
transformers/models/ernie4_5_vl_moe/modeling_ernie4_5_vl_moe.py +305 -267
transformers/models/ernie4_5_vl_moe/modular_ernie4_5_vl_moe.py +163 -142
transformers/models/ernie4_5_vl_moe/processing_ernie4_5_vl_moe.py +3 -5
transformers/models/ernie4_5_vl_moe/video_processing_ernie4_5_vl_moe.py +17 -18
transformers/models/esm/configuration_esm.py +11 -15
transformers/models/esm/modeling_esm.py +35 -37
transformers/models/esm/modeling_esmfold.py +43 -50
transformers/models/esm/openfold_utils/chunk_utils.py +6 -6
transformers/models/esm/openfold_utils/loss.py +1 -2
transformers/models/esm/openfold_utils/protein.py +15 -16
transformers/models/esm/openfold_utils/tensor_utils.py +6 -6
transformers/models/esm/tokenization_esm.py +2 -4
transformers/models/evolla/configuration_evolla.py +50 -40
transformers/models/evolla/modeling_evolla.py +69 -68
transformers/models/evolla/modular_evolla.py +50 -48
transformers/models/evolla/processing_evolla.py +23 -35
transformers/models/exaone4/configuration_exaone4.py +27 -27
transformers/models/exaone4/modeling_exaone4.py +36 -39
transformers/models/exaone4/modular_exaone4.py +51 -50
transformers/models/exaone_moe/__init__.py +27 -0
transformers/models/exaone_moe/configuration_exaone_moe.py +235 -0
transformers/models/exaone_moe/modeling_exaone_moe.py +665 -0
transformers/models/exaone_moe/modular_exaone_moe.py +373 -0
transformers/models/falcon/configuration_falcon.py +31 -26
transformers/models/falcon/modeling_falcon.py +76 -84
transformers/models/falcon_h1/configuration_falcon_h1.py +57 -51
transformers/models/falcon_h1/modeling_falcon_h1.py +74 -109
transformers/models/falcon_h1/modular_falcon_h1.py +68 -100
transformers/models/falcon_mamba/configuration_falcon_mamba.py +5 -2
transformers/models/falcon_mamba/modeling_falcon_mamba.py +64 -73
transformers/models/falcon_mamba/modular_falcon_mamba.py +14 -13
transformers/models/fast_vlm/configuration_fast_vlm.py +10 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +70 -97
transformers/models/fast_vlm/modular_fast_vlm.py +148 -38
transformers/models/fastspeech2_conformer/configuration_fastspeech2_conformer.py +2 -6
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +45 -47
transformers/models/fastspeech2_conformer/tokenization_fastspeech2_conformer.py +1 -3
transformers/models/flaubert/configuration_flaubert.py +10 -5
transformers/models/flaubert/modeling_flaubert.py +125 -129
transformers/models/flaubert/tokenization_flaubert.py +3 -5
transformers/models/flava/configuration_flava.py +9 -9
transformers/models/flava/image_processing_flava.py +66 -67
transformers/models/flava/image_processing_flava_fast.py +46 -47
transformers/models/flava/modeling_flava.py +144 -135
transformers/models/flava/processing_flava.py +2 -12
transformers/models/flex_olmo/__init__.py +0 -1
transformers/models/flex_olmo/configuration_flex_olmo.py +34 -39
transformers/models/flex_olmo/modeling_flex_olmo.py +41 -43
transformers/models/flex_olmo/modular_flex_olmo.py +46 -51
transformers/models/florence2/configuration_florence2.py +4 -1
transformers/models/florence2/modeling_florence2.py +96 -72
transformers/models/florence2/modular_florence2.py +100 -107
transformers/models/florence2/processing_florence2.py +18 -47
transformers/models/fnet/configuration_fnet.py +6 -2
transformers/models/fnet/modeling_fnet.py +69 -80
transformers/models/fnet/tokenization_fnet.py +0 -1
transformers/models/focalnet/configuration_focalnet.py +2 -5
transformers/models/focalnet/modeling_focalnet.py +49 -48
transformers/models/fsmt/configuration_fsmt.py +12 -17
transformers/models/fsmt/modeling_fsmt.py +47 -48
transformers/models/fsmt/tokenization_fsmt.py +3 -5
transformers/models/funnel/configuration_funnel.py +8 -1
transformers/models/funnel/modeling_funnel.py +91 -93
transformers/models/funnel/tokenization_funnel.py +2 -5
transformers/models/fuyu/configuration_fuyu.py +28 -34
transformers/models/fuyu/image_processing_fuyu.py +29 -31
transformers/models/fuyu/image_processing_fuyu_fast.py +17 -17
transformers/models/fuyu/modeling_fuyu.py +50 -52
transformers/models/fuyu/processing_fuyu.py +9 -36
transformers/models/gemma/configuration_gemma.py +25 -30
transformers/models/gemma/modeling_gemma.py +36 -38
transformers/models/gemma/modular_gemma.py +33 -36
transformers/models/gemma/tokenization_gemma.py +3 -6
transformers/models/gemma2/configuration_gemma2.py +30 -35
transformers/models/gemma2/modeling_gemma2.py +38 -41
transformers/models/gemma2/modular_gemma2.py +63 -67
transformers/models/gemma3/configuration_gemma3.py +53 -48
transformers/models/gemma3/image_processing_gemma3.py +29 -31
transformers/models/gemma3/image_processing_gemma3_fast.py +11 -12
transformers/models/gemma3/modeling_gemma3.py +123 -122
transformers/models/gemma3/modular_gemma3.py +128 -125
transformers/models/gemma3/processing_gemma3.py +5 -5
transformers/models/gemma3n/configuration_gemma3n.py +42 -30
transformers/models/gemma3n/feature_extraction_gemma3n.py +9 -11
transformers/models/gemma3n/modeling_gemma3n.py +166 -147
transformers/models/gemma3n/modular_gemma3n.py +176 -148
transformers/models/gemma3n/processing_gemma3n.py +12 -26
transformers/models/git/configuration_git.py +5 -8
transformers/models/git/modeling_git.py +115 -127
transformers/models/git/processing_git.py +2 -14
transformers/models/glm/configuration_glm.py +26 -30
transformers/models/glm/modeling_glm.py +36 -39
transformers/models/glm/modular_glm.py +4 -7
transformers/models/glm4/configuration_glm4.py +26 -30
transformers/models/glm4/modeling_glm4.py +39 -41
transformers/models/glm4/modular_glm4.py +8 -10
transformers/models/glm46v/configuration_glm46v.py +4 -1
transformers/models/glm46v/image_processing_glm46v.py +40 -38
transformers/models/glm46v/image_processing_glm46v_fast.py +9 -9
transformers/models/glm46v/modeling_glm46v.py +138 -93
transformers/models/glm46v/modular_glm46v.py +5 -3
transformers/models/glm46v/processing_glm46v.py +7 -41
transformers/models/glm46v/video_processing_glm46v.py +9 -11
transformers/models/glm4_moe/configuration_glm4_moe.py +42 -35
transformers/models/glm4_moe/modeling_glm4_moe.py +36 -39
transformers/models/glm4_moe/modular_glm4_moe.py +43 -36
transformers/models/glm4_moe_lite/__init__.py +28 -0
transformers/models/glm4_moe_lite/configuration_glm4_moe_lite.py +233 -0
transformers/models/glm4_moe_lite/modeling_glm4_moe_lite.py +740 -0
transformers/models/glm4_moe_lite/modular_glm4_moe_lite.py +302 -0
transformers/models/glm4v/configuration_glm4v.py +25 -24
transformers/models/glm4v/image_processing_glm4v.py +39 -38
transformers/models/glm4v/image_processing_glm4v_fast.py +8 -9
transformers/models/glm4v/modeling_glm4v.py +249 -210
transformers/models/glm4v/modular_glm4v.py +211 -230
transformers/models/glm4v/processing_glm4v.py +7 -41
transformers/models/glm4v/video_processing_glm4v.py +9 -11
transformers/models/glm4v_moe/configuration_glm4v_moe.py +136 -127
transformers/models/glm4v_moe/modeling_glm4v_moe.py +348 -356
transformers/models/glm4v_moe/modular_glm4v_moe.py +76 -174
transformers/models/glm_image/__init__.py +31 -0
transformers/models/glm_image/configuration_glm_image.py +358 -0
transformers/models/glm_image/image_processing_glm_image.py +503 -0
transformers/models/glm_image/image_processing_glm_image_fast.py +294 -0
transformers/models/glm_image/modeling_glm_image.py +1691 -0
transformers/models/glm_image/modular_glm_image.py +1640 -0
transformers/models/glm_image/processing_glm_image.py +265 -0
transformers/models/glm_ocr/__init__.py +28 -0
transformers/models/glm_ocr/configuration_glm_ocr.py +312 -0
transformers/models/glm_ocr/modeling_glm_ocr.py +1633 -0
transformers/models/glm_ocr/modular_glm_ocr.py +428 -0
transformers/models/glmasr/__init__.py +0 -1
transformers/models/glmasr/configuration_glmasr.py +0 -1
transformers/models/glmasr/modeling_glmasr.py +51 -46
transformers/models/glmasr/modular_glmasr.py +39 -29
transformers/models/glmasr/processing_glmasr.py +7 -8
transformers/models/glpn/configuration_glpn.py +0 -1
transformers/models/glpn/image_processing_glpn.py +11 -12
transformers/models/glpn/image_processing_glpn_fast.py +11 -12
transformers/models/glpn/modeling_glpn.py +14 -14
transformers/models/got_ocr2/configuration_got_ocr2.py +10 -13
transformers/models/got_ocr2/image_processing_got_ocr2.py +22 -24
transformers/models/got_ocr2/image_processing_got_ocr2_fast.py +9 -10
transformers/models/got_ocr2/modeling_got_ocr2.py +69 -77
transformers/models/got_ocr2/modular_got_ocr2.py +60 -52
transformers/models/got_ocr2/processing_got_ocr2.py +42 -63
transformers/models/gpt2/configuration_gpt2.py +13 -2
transformers/models/gpt2/modeling_gpt2.py +111 -113
transformers/models/gpt2/tokenization_gpt2.py +6 -9
transformers/models/gpt_bigcode/configuration_gpt_bigcode.py +7 -2
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +78 -84
transformers/models/gpt_neo/configuration_gpt_neo.py +9 -2
transformers/models/gpt_neo/modeling_gpt_neo.py +66 -71
transformers/models/gpt_neox/configuration_gpt_neox.py +27 -25
transformers/models/gpt_neox/modeling_gpt_neox.py +74 -76
transformers/models/gpt_neox/modular_gpt_neox.py +68 -70
transformers/models/gpt_neox/tokenization_gpt_neox.py +2 -5
transformers/models/gpt_neox_japanese/configuration_gpt_neox_japanese.py +24 -19
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +43 -46
transformers/models/gpt_neox_japanese/tokenization_gpt_neox_japanese.py +1 -3
transformers/models/gpt_oss/configuration_gpt_oss.py +31 -30
transformers/models/gpt_oss/modeling_gpt_oss.py +80 -114
transformers/models/gpt_oss/modular_gpt_oss.py +62 -97
transformers/models/gpt_sw3/tokenization_gpt_sw3.py +4 -4
transformers/models/gptj/configuration_gptj.py +4 -5
transformers/models/gptj/modeling_gptj.py +85 -88
transformers/models/granite/configuration_granite.py +28 -33
transformers/models/granite/modeling_granite.py +43 -45
transformers/models/granite/modular_granite.py +29 -31
transformers/models/granite_speech/configuration_granite_speech.py +0 -1
transformers/models/granite_speech/feature_extraction_granite_speech.py +1 -3
transformers/models/granite_speech/modeling_granite_speech.py +84 -60
transformers/models/granite_speech/processing_granite_speech.py +11 -4
transformers/models/granitemoe/configuration_granitemoe.py +31 -36
transformers/models/granitemoe/modeling_granitemoe.py +39 -41
transformers/models/granitemoe/modular_granitemoe.py +21 -23
transformers/models/granitemoehybrid/__init__.py +0 -1
transformers/models/granitemoehybrid/configuration_granitemoehybrid.py +55 -48
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +82 -118
transformers/models/granitemoehybrid/modular_granitemoehybrid.py +57 -65
transformers/models/granitemoeshared/configuration_granitemoeshared.py +33 -37
transformers/models/granitemoeshared/modeling_granitemoeshared.py +52 -56
transformers/models/granitemoeshared/modular_granitemoeshared.py +19 -21
transformers/models/grounding_dino/configuration_grounding_dino.py +10 -46
transformers/models/grounding_dino/image_processing_grounding_dino.py +60 -62
transformers/models/grounding_dino/image_processing_grounding_dino_fast.py +28 -29
transformers/models/grounding_dino/modeling_grounding_dino.py +161 -181
transformers/models/grounding_dino/modular_grounding_dino.py +2 -3
transformers/models/grounding_dino/processing_grounding_dino.py +10 -38
transformers/models/groupvit/configuration_groupvit.py +4 -2
transformers/models/groupvit/modeling_groupvit.py +98 -92
transformers/models/helium/configuration_helium.py +25 -29
transformers/models/helium/modeling_helium.py +37 -40
transformers/models/helium/modular_helium.py +3 -7
transformers/models/herbert/tokenization_herbert.py +4 -6
transformers/models/hgnet_v2/configuration_hgnet_v2.py +2 -5
transformers/models/hgnet_v2/modeling_hgnet_v2.py +12 -14
transformers/models/hgnet_v2/modular_hgnet_v2.py +13 -17
transformers/models/hiera/configuration_hiera.py +2 -5
transformers/models/hiera/modeling_hiera.py +71 -70
transformers/models/hubert/configuration_hubert.py +4 -2
transformers/models/hubert/modeling_hubert.py +42 -41
transformers/models/hubert/modular_hubert.py +8 -11
transformers/models/hunyuan_v1_dense/configuration_hunyuan_v1_dense.py +26 -31
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +58 -37
transformers/models/hunyuan_v1_dense/modular_hunyuan_v1_dense.py +31 -11
transformers/models/hunyuan_v1_moe/configuration_hunyuan_v1_moe.py +31 -36
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +54 -44
transformers/models/hunyuan_v1_moe/modular_hunyuan_v1_moe.py +27 -15
transformers/models/ibert/configuration_ibert.py +4 -2
transformers/models/ibert/modeling_ibert.py +60 -62
transformers/models/ibert/quant_modules.py +0 -1
transformers/models/idefics/configuration_idefics.py +5 -8
transformers/models/idefics/image_processing_idefics.py +13 -15
transformers/models/idefics/modeling_idefics.py +63 -65
transformers/models/idefics/perceiver.py +1 -3
transformers/models/idefics/processing_idefics.py +32 -48
transformers/models/idefics/vision.py +27 -28
transformers/models/idefics2/configuration_idefics2.py +1 -3
transformers/models/idefics2/image_processing_idefics2.py +31 -32
transformers/models/idefics2/image_processing_idefics2_fast.py +8 -8
transformers/models/idefics2/modeling_idefics2.py +126 -106
transformers/models/idefics2/processing_idefics2.py +10 -68
transformers/models/idefics3/configuration_idefics3.py +1 -4
transformers/models/idefics3/image_processing_idefics3.py +42 -43
transformers/models/idefics3/image_processing_idefics3_fast.py +40 -15
transformers/models/idefics3/modeling_idefics3.py +113 -92
transformers/models/idefics3/processing_idefics3.py +15 -69
transformers/models/ijepa/configuration_ijepa.py +0 -1
transformers/models/ijepa/modeling_ijepa.py +13 -14
transformers/models/ijepa/modular_ijepa.py +5 -7
transformers/models/imagegpt/configuration_imagegpt.py +9 -2
transformers/models/imagegpt/image_processing_imagegpt.py +17 -18
transformers/models/imagegpt/image_processing_imagegpt_fast.py +10 -11
transformers/models/imagegpt/modeling_imagegpt.py +65 -62
transformers/models/informer/configuration_informer.py +6 -9
transformers/models/informer/modeling_informer.py +87 -89
transformers/models/informer/modular_informer.py +13 -16
transformers/models/instructblip/configuration_instructblip.py +2 -2
transformers/models/instructblip/modeling_instructblip.py +104 -79
transformers/models/instructblip/processing_instructblip.py +10 -36
transformers/models/instructblipvideo/configuration_instructblipvideo.py +2 -2
transformers/models/instructblipvideo/modeling_instructblipvideo.py +108 -105
transformers/models/instructblipvideo/modular_instructblipvideo.py +73 -64
transformers/models/instructblipvideo/processing_instructblipvideo.py +14 -33
transformers/models/instructblipvideo/video_processing_instructblipvideo.py +6 -7
transformers/models/internvl/configuration_internvl.py +5 -1
transformers/models/internvl/modeling_internvl.py +76 -98
transformers/models/internvl/modular_internvl.py +45 -59
transformers/models/internvl/processing_internvl.py +12 -45
transformers/models/internvl/video_processing_internvl.py +10 -11
transformers/models/jais2/configuration_jais2.py +25 -29
transformers/models/jais2/modeling_jais2.py +36 -38
transformers/models/jais2/modular_jais2.py +20 -22
transformers/models/jamba/configuration_jamba.py +5 -8
transformers/models/jamba/modeling_jamba.py +47 -50
transformers/models/jamba/modular_jamba.py +40 -41
transformers/models/janus/configuration_janus.py +0 -1
transformers/models/janus/image_processing_janus.py +37 -39
transformers/models/janus/image_processing_janus_fast.py +20 -21
transformers/models/janus/modeling_janus.py +103 -188
transformers/models/janus/modular_janus.py +122 -83
transformers/models/janus/processing_janus.py +17 -43
transformers/models/jetmoe/configuration_jetmoe.py +26 -27
transformers/models/jetmoe/modeling_jetmoe.py +42 -45
transformers/models/jetmoe/modular_jetmoe.py +33 -36
transformers/models/kosmos2/configuration_kosmos2.py +10 -9
transformers/models/kosmos2/modeling_kosmos2.py +199 -178
transformers/models/kosmos2/processing_kosmos2.py +40 -55
transformers/models/kosmos2_5/__init__.py +0 -1
transformers/models/kosmos2_5/configuration_kosmos2_5.py +8 -9
transformers/models/kosmos2_5/image_processing_kosmos2_5.py +10 -12
transformers/models/kosmos2_5/image_processing_kosmos2_5_fast.py +2 -11
transformers/models/kosmos2_5/modeling_kosmos2_5.py +162 -172
transformers/models/kosmos2_5/processing_kosmos2_5.py +8 -29
transformers/models/kyutai_speech_to_text/configuration_kyutai_speech_to_text.py +31 -28
transformers/models/kyutai_speech_to_text/feature_extraction_kyutai_speech_to_text.py +12 -14
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +103 -106
transformers/models/kyutai_speech_to_text/modular_kyutai_speech_to_text.py +20 -22
transformers/models/kyutai_speech_to_text/processing_kyutai_speech_to_text.py +2 -8
transformers/models/lasr/configuration_lasr.py +3 -7
transformers/models/lasr/feature_extraction_lasr.py +10 -12
transformers/models/lasr/modeling_lasr.py +21 -24
transformers/models/lasr/modular_lasr.py +11 -13
transformers/models/lasr/processing_lasr.py +12 -6
transformers/models/lasr/tokenization_lasr.py +2 -4
transformers/models/layoutlm/configuration_layoutlm.py +14 -2
transformers/models/layoutlm/modeling_layoutlm.py +70 -72
transformers/models/layoutlmv2/configuration_layoutlmv2.py +14 -17
transformers/models/layoutlmv2/image_processing_layoutlmv2.py +18 -21
transformers/models/layoutlmv2/image_processing_layoutlmv2_fast.py +7 -8
transformers/models/layoutlmv2/modeling_layoutlmv2.py +48 -50
transformers/models/layoutlmv2/processing_layoutlmv2.py +14 -44
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +63 -74
transformers/models/layoutlmv3/configuration_layoutlmv3.py +16 -19
transformers/models/layoutlmv3/image_processing_layoutlmv3.py +24 -26
transformers/models/layoutlmv3/image_processing_layoutlmv3_fast.py +9 -10
transformers/models/layoutlmv3/modeling_layoutlmv3.py +49 -51
transformers/models/layoutlmv3/processing_layoutlmv3.py +14 -46
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +64 -75
transformers/models/layoutxlm/configuration_layoutxlm.py +14 -17
transformers/models/layoutxlm/modular_layoutxlm.py +0 -1
transformers/models/layoutxlm/processing_layoutxlm.py +14 -44
transformers/models/layoutxlm/tokenization_layoutxlm.py +65 -76
transformers/models/led/configuration_led.py +8 -12
transformers/models/led/modeling_led.py +113 -267
transformers/models/levit/configuration_levit.py +0 -1
transformers/models/levit/image_processing_levit.py +19 -21
transformers/models/levit/image_processing_levit_fast.py +4 -5
transformers/models/levit/modeling_levit.py +17 -19
transformers/models/lfm2/configuration_lfm2.py +27 -30
transformers/models/lfm2/modeling_lfm2.py +46 -48
transformers/models/lfm2/modular_lfm2.py +32 -32
transformers/models/lfm2_moe/__init__.py +0 -1
transformers/models/lfm2_moe/configuration_lfm2_moe.py +6 -9
transformers/models/lfm2_moe/modeling_lfm2_moe.py +48 -49
transformers/models/lfm2_moe/modular_lfm2_moe.py +8 -9
transformers/models/lfm2_vl/configuration_lfm2_vl.py +4 -1
transformers/models/lfm2_vl/image_processing_lfm2_vl_fast.py +43 -20
transformers/models/lfm2_vl/modeling_lfm2_vl.py +73 -61
transformers/models/lfm2_vl/modular_lfm2_vl.py +66 -54
transformers/models/lfm2_vl/processing_lfm2_vl.py +14 -34
transformers/models/lightglue/image_processing_lightglue.py +16 -15
transformers/models/lightglue/image_processing_lightglue_fast.py +8 -7
transformers/models/lightglue/modeling_lightglue.py +31 -33
transformers/models/lightglue/modular_lightglue.py +31 -31
transformers/models/lighton_ocr/__init__.py +28 -0
transformers/models/lighton_ocr/configuration_lighton_ocr.py +128 -0
transformers/models/lighton_ocr/modeling_lighton_ocr.py +463 -0
transformers/models/lighton_ocr/modular_lighton_ocr.py +404 -0
transformers/models/lighton_ocr/processing_lighton_ocr.py +229 -0
transformers/models/lilt/configuration_lilt.py +6 -2
transformers/models/lilt/modeling_lilt.py +53 -55
transformers/models/llama/configuration_llama.py +26 -31
transformers/models/llama/modeling_llama.py +35 -38
transformers/models/llama/tokenization_llama.py +2 -4
transformers/models/llama4/configuration_llama4.py +87 -69
transformers/models/llama4/image_processing_llama4_fast.py +11 -12
transformers/models/llama4/modeling_llama4.py +116 -115
transformers/models/llama4/processing_llama4.py +33 -57
transformers/models/llava/configuration_llava.py +10 -1
transformers/models/llava/image_processing_llava.py +25 -28
transformers/models/llava/image_processing_llava_fast.py +9 -10
transformers/models/llava/modeling_llava.py +73 -102
transformers/models/llava/processing_llava.py +18 -51
transformers/models/llava_next/configuration_llava_next.py +2 -2
transformers/models/llava_next/image_processing_llava_next.py +43 -45
transformers/models/llava_next/image_processing_llava_next_fast.py +11 -12
transformers/models/llava_next/modeling_llava_next.py +103 -104
transformers/models/llava_next/processing_llava_next.py +18 -47
transformers/models/llava_next_video/configuration_llava_next_video.py +10 -7
transformers/models/llava_next_video/modeling_llava_next_video.py +168 -155
transformers/models/llava_next_video/modular_llava_next_video.py +154 -147
transformers/models/llava_next_video/processing_llava_next_video.py +21 -63
transformers/models/llava_next_video/video_processing_llava_next_video.py +0 -1
transformers/models/llava_onevision/configuration_llava_onevision.py +10 -7
transformers/models/llava_onevision/image_processing_llava_onevision.py +40 -42
transformers/models/llava_onevision/image_processing_llava_onevision_fast.py +14 -14
transformers/models/llava_onevision/modeling_llava_onevision.py +170 -166
transformers/models/llava_onevision/modular_llava_onevision.py +156 -152
transformers/models/llava_onevision/processing_llava_onevision.py +21 -53
transformers/models/llava_onevision/video_processing_llava_onevision.py +0 -1
transformers/models/longcat_flash/__init__.py +0 -1
transformers/models/longcat_flash/configuration_longcat_flash.py +39 -45
transformers/models/longcat_flash/modeling_longcat_flash.py +37 -38
transformers/models/longcat_flash/modular_longcat_flash.py +23 -24
transformers/models/longformer/configuration_longformer.py +5 -5
transformers/models/longformer/modeling_longformer.py +99 -101
transformers/models/longt5/configuration_longt5.py +9 -7
transformers/models/longt5/modeling_longt5.py +45 -45
transformers/models/luke/configuration_luke.py +8 -2
transformers/models/luke/modeling_luke.py +179 -181
transformers/models/luke/tokenization_luke.py +99 -105
transformers/{pipelines/deprecated → models/lw_detr}/__init__.py +14 -3
transformers/models/lw_detr/configuration_lw_detr.py +362 -0
transformers/models/lw_detr/modeling_lw_detr.py +1697 -0
transformers/models/lw_detr/modular_lw_detr.py +1609 -0
transformers/models/lxmert/configuration_lxmert.py +16 -1
transformers/models/lxmert/modeling_lxmert.py +63 -74
transformers/models/m2m_100/configuration_m2m_100.py +7 -9
transformers/models/m2m_100/modeling_m2m_100.py +72 -74
transformers/models/m2m_100/tokenization_m2m_100.py +8 -8
transformers/models/mamba/configuration_mamba.py +5 -3
transformers/models/mamba/modeling_mamba.py +61 -70
transformers/models/mamba2/configuration_mamba2.py +5 -8
transformers/models/mamba2/modeling_mamba2.py +66 -79
transformers/models/marian/configuration_marian.py +10 -5
transformers/models/marian/modeling_marian.py +88 -90
transformers/models/marian/tokenization_marian.py +6 -6
transformers/models/markuplm/configuration_markuplm.py +4 -7
transformers/models/markuplm/feature_extraction_markuplm.py +1 -2
transformers/models/markuplm/modeling_markuplm.py +63 -65
transformers/models/markuplm/processing_markuplm.py +31 -38
transformers/models/markuplm/tokenization_markuplm.py +67 -77
transformers/models/mask2former/configuration_mask2former.py +14 -52
transformers/models/mask2former/image_processing_mask2former.py +84 -85
transformers/models/mask2former/image_processing_mask2former_fast.py +36 -36
transformers/models/mask2former/modeling_mask2former.py +108 -104
transformers/models/mask2former/modular_mask2former.py +6 -8
transformers/models/maskformer/configuration_maskformer.py +17 -51
transformers/models/maskformer/configuration_maskformer_swin.py +2 -5
transformers/models/maskformer/image_processing_maskformer.py +84 -85
transformers/models/maskformer/image_processing_maskformer_fast.py +35 -36
transformers/models/maskformer/modeling_maskformer.py +71 -67
transformers/models/maskformer/modeling_maskformer_swin.py +20 -23
transformers/models/mbart/configuration_mbart.py +9 -5
transformers/models/mbart/modeling_mbart.py +120 -119
transformers/models/mbart/tokenization_mbart.py +2 -4
transformers/models/mbart50/tokenization_mbart50.py +3 -5
transformers/models/megatron_bert/configuration_megatron_bert.py +13 -3
transformers/models/megatron_bert/modeling_megatron_bert.py +139 -165
transformers/models/metaclip_2/configuration_metaclip_2.py +4 -1
transformers/models/metaclip_2/modeling_metaclip_2.py +94 -87
transformers/models/metaclip_2/modular_metaclip_2.py +59 -45
transformers/models/mgp_str/configuration_mgp_str.py +0 -1
transformers/models/mgp_str/modeling_mgp_str.py +18 -18
transformers/models/mgp_str/processing_mgp_str.py +3 -20
transformers/models/mgp_str/tokenization_mgp_str.py +1 -3
transformers/models/mimi/configuration_mimi.py +42 -40
transformers/models/mimi/modeling_mimi.py +116 -115
transformers/models/minimax/__init__.py +0 -1
transformers/models/minimax/configuration_minimax.py +40 -47
transformers/models/minimax/modeling_minimax.py +46 -49
transformers/models/minimax/modular_minimax.py +59 -65
transformers/models/minimax_m2/__init__.py +28 -0
transformers/models/minimax_m2/configuration_minimax_m2.py +188 -0
transformers/models/minimax_m2/modeling_minimax_m2.py +704 -0
transformers/models/minimax_m2/modular_minimax_m2.py +346 -0
transformers/models/ministral/configuration_ministral.py +25 -29
transformers/models/ministral/modeling_ministral.py +35 -37
transformers/models/ministral/modular_ministral.py +32 -37
transformers/models/ministral3/configuration_ministral3.py +23 -26
transformers/models/ministral3/modeling_ministral3.py +35 -37
transformers/models/ministral3/modular_ministral3.py +7 -8
transformers/models/mistral/configuration_mistral.py +24 -29
transformers/models/mistral/modeling_mistral.py +35 -37
transformers/models/mistral/modular_mistral.py +14 -15
transformers/models/mistral3/configuration_mistral3.py +4 -1
transformers/models/mistral3/modeling_mistral3.py +79 -82
transformers/models/mistral3/modular_mistral3.py +66 -67
transformers/models/mixtral/configuration_mixtral.py +32 -38
transformers/models/mixtral/modeling_mixtral.py +39 -42
transformers/models/mixtral/modular_mixtral.py +26 -29
transformers/models/mlcd/configuration_mlcd.py +0 -1
transformers/models/mlcd/modeling_mlcd.py +17 -17
transformers/models/mlcd/modular_mlcd.py +16 -16
transformers/models/mllama/configuration_mllama.py +10 -15
transformers/models/mllama/image_processing_mllama.py +23 -25
transformers/models/mllama/image_processing_mllama_fast.py +11 -11
transformers/models/mllama/modeling_mllama.py +100 -103
transformers/models/mllama/processing_mllama.py +6 -55
transformers/models/mluke/tokenization_mluke.py +97 -103
transformers/models/mm_grounding_dino/configuration_mm_grounding_dino.py +10 -46
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +159 -179
transformers/models/mm_grounding_dino/modular_mm_grounding_dino.py +10 -46
transformers/models/mobilebert/configuration_mobilebert.py +4 -2
transformers/models/mobilebert/modeling_mobilebert.py +78 -88
transformers/models/mobilebert/tokenization_mobilebert.py +0 -1
transformers/models/mobilenet_v1/configuration_mobilenet_v1.py +0 -1
transformers/models/mobilenet_v1/image_processing_mobilenet_v1.py +20 -23
transformers/models/mobilenet_v1/image_processing_mobilenet_v1_fast.py +0 -1
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +13 -16
transformers/models/mobilenet_v2/configuration_mobilenet_v2.py +0 -1
transformers/models/mobilenet_v2/image_processing_mobilenet_v2.py +48 -51
transformers/models/mobilenet_v2/image_processing_mobilenet_v2_fast.py +14 -15
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +21 -22
transformers/models/mobilevit/configuration_mobilevit.py +0 -1
transformers/models/mobilevit/image_processing_mobilevit.py +41 -44
transformers/models/mobilevit/image_processing_mobilevit_fast.py +12 -13
transformers/models/mobilevit/modeling_mobilevit.py +21 -21
transformers/models/mobilevitv2/configuration_mobilevitv2.py +0 -1
transformers/models/mobilevitv2/modeling_mobilevitv2.py +21 -22
transformers/models/modernbert/configuration_modernbert.py +76 -51
transformers/models/modernbert/modeling_modernbert.py +188 -943
transformers/models/modernbert/modular_modernbert.py +255 -978
transformers/models/modernbert_decoder/configuration_modernbert_decoder.py +50 -44
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +54 -64
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +92 -92
transformers/models/moonshine/configuration_moonshine.py +34 -31
transformers/models/moonshine/modeling_moonshine.py +70 -72
transformers/models/moonshine/modular_moonshine.py +91 -86
transformers/models/moshi/configuration_moshi.py +46 -23
transformers/models/moshi/modeling_moshi.py +134 -142
transformers/models/mpnet/configuration_mpnet.py +6 -2
transformers/models/mpnet/modeling_mpnet.py +55 -57
transformers/models/mpnet/tokenization_mpnet.py +1 -4
transformers/models/mpt/configuration_mpt.py +17 -9
transformers/models/mpt/modeling_mpt.py +58 -60
transformers/models/mra/configuration_mra.py +8 -2
transformers/models/mra/modeling_mra.py +54 -56
transformers/models/mt5/configuration_mt5.py +9 -6
transformers/models/mt5/modeling_mt5.py +80 -85
transformers/models/musicgen/configuration_musicgen.py +12 -8
transformers/models/musicgen/modeling_musicgen.py +114 -116
transformers/models/musicgen/processing_musicgen.py +3 -21
transformers/models/musicgen_melody/configuration_musicgen_melody.py +15 -8
transformers/models/musicgen_melody/feature_extraction_musicgen_melody.py +8 -9
transformers/models/musicgen_melody/modeling_musicgen_melody.py +113 -126
transformers/models/musicgen_melody/processing_musicgen_melody.py +3 -22
transformers/models/mvp/configuration_mvp.py +8 -5
transformers/models/mvp/modeling_mvp.py +121 -123
transformers/models/myt5/tokenization_myt5.py +8 -10
transformers/models/nanochat/configuration_nanochat.py +5 -8
transformers/models/nanochat/modeling_nanochat.py +36 -39
transformers/models/nanochat/modular_nanochat.py +16 -18
transformers/models/nemotron/configuration_nemotron.py +25 -30
transformers/models/nemotron/modeling_nemotron.py +53 -66
transformers/models/nllb/tokenization_nllb.py +14 -14
transformers/models/nllb_moe/configuration_nllb_moe.py +7 -10
transformers/models/nllb_moe/modeling_nllb_moe.py +70 -72
transformers/models/nougat/image_processing_nougat.py +29 -32
transformers/models/nougat/image_processing_nougat_fast.py +12 -13
transformers/models/nougat/processing_nougat.py +37 -39
transformers/models/nougat/tokenization_nougat.py +5 -7
transformers/models/nystromformer/configuration_nystromformer.py +8 -2
transformers/models/nystromformer/modeling_nystromformer.py +61 -63
transformers/models/olmo/configuration_olmo.py +23 -28
transformers/models/olmo/modeling_olmo.py +35 -38
transformers/models/olmo/modular_olmo.py +8 -12
transformers/models/olmo2/configuration_olmo2.py +27 -32
transformers/models/olmo2/modeling_olmo2.py +36 -39
transformers/models/olmo2/modular_olmo2.py +36 -38
transformers/models/olmo3/__init__.py +0 -1
transformers/models/olmo3/configuration_olmo3.py +30 -34
transformers/models/olmo3/modeling_olmo3.py +35 -38
transformers/models/olmo3/modular_olmo3.py +44 -47
transformers/models/olmoe/configuration_olmoe.py +29 -33
transformers/models/olmoe/modeling_olmoe.py +41 -43
transformers/models/olmoe/modular_olmoe.py +15 -16
transformers/models/omdet_turbo/configuration_omdet_turbo.py +14 -50
transformers/models/omdet_turbo/modeling_omdet_turbo.py +59 -57
transformers/models/omdet_turbo/processing_omdet_turbo.py +19 -67
transformers/models/oneformer/configuration_oneformer.py +11 -51
transformers/models/oneformer/image_processing_oneformer.py +83 -84
transformers/models/oneformer/image_processing_oneformer_fast.py +41 -42
transformers/models/oneformer/modeling_oneformer.py +137 -133
transformers/models/oneformer/processing_oneformer.py +28 -43
transformers/models/openai/configuration_openai.py +16 -1
transformers/models/openai/modeling_openai.py +50 -51
transformers/models/openai/tokenization_openai.py +2 -5
transformers/models/opt/configuration_opt.py +6 -7
transformers/models/opt/modeling_opt.py +79 -80
transformers/models/ovis2/__init__.py +0 -1
transformers/models/ovis2/configuration_ovis2.py +4 -1
transformers/models/ovis2/image_processing_ovis2.py +22 -24
transformers/models/ovis2/image_processing_ovis2_fast.py +9 -10
transformers/models/ovis2/modeling_ovis2.py +99 -142
transformers/models/ovis2/modular_ovis2.py +82 -45
transformers/models/ovis2/processing_ovis2.py +12 -40
transformers/models/owlv2/configuration_owlv2.py +4 -2
transformers/models/owlv2/image_processing_owlv2.py +20 -21
transformers/models/owlv2/image_processing_owlv2_fast.py +12 -13
transformers/models/owlv2/modeling_owlv2.py +122 -114
transformers/models/owlv2/modular_owlv2.py +11 -12
transformers/models/owlv2/processing_owlv2.py +20 -49
transformers/models/owlvit/configuration_owlvit.py +4 -2
transformers/models/owlvit/image_processing_owlvit.py +21 -22
transformers/models/owlvit/image_processing_owlvit_fast.py +2 -3
transformers/models/owlvit/modeling_owlvit.py +121 -113
transformers/models/owlvit/processing_owlvit.py +20 -48
transformers/models/paddleocr_vl/__init__.py +0 -1
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +28 -29
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +34 -35
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +12 -12
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +159 -158
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +148 -119
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +1 -3
transformers/models/paligemma/configuration_paligemma.py +4 -1
transformers/models/paligemma/modeling_paligemma.py +81 -79
transformers/models/paligemma/processing_paligemma.py +13 -66
transformers/models/parakeet/configuration_parakeet.py +3 -8
transformers/models/parakeet/feature_extraction_parakeet.py +10 -12
transformers/models/parakeet/modeling_parakeet.py +21 -25
transformers/models/parakeet/modular_parakeet.py +19 -21
transformers/models/parakeet/processing_parakeet.py +12 -5
transformers/models/parakeet/tokenization_parakeet.py +2 -4
transformers/models/patchtsmixer/configuration_patchtsmixer.py +5 -8
transformers/models/patchtsmixer/modeling_patchtsmixer.py +63 -65
transformers/models/patchtst/configuration_patchtst.py +6 -9
transformers/models/patchtst/modeling_patchtst.py +75 -77
transformers/models/pe_audio/__init__.py +0 -1
transformers/models/pe_audio/configuration_pe_audio.py +14 -16
transformers/models/pe_audio/feature_extraction_pe_audio.py +6 -8
transformers/models/pe_audio/modeling_pe_audio.py +30 -31
transformers/models/pe_audio/modular_pe_audio.py +17 -18
transformers/models/pe_audio/processing_pe_audio.py +0 -1
transformers/models/pe_audio_video/__init__.py +0 -1
transformers/models/pe_audio_video/configuration_pe_audio_video.py +15 -17
transformers/models/pe_audio_video/modeling_pe_audio_video.py +64 -65
transformers/models/pe_audio_video/modular_pe_audio_video.py +56 -57
transformers/models/pe_audio_video/processing_pe_audio_video.py +0 -1
transformers/models/pe_video/__init__.py +0 -1
transformers/models/pe_video/configuration_pe_video.py +14 -16
transformers/models/pe_video/modeling_pe_video.py +57 -46
transformers/models/pe_video/modular_pe_video.py +47 -35
transformers/models/pe_video/video_processing_pe_video.py +2 -4
transformers/models/pegasus/configuration_pegasus.py +8 -6
transformers/models/pegasus/modeling_pegasus.py +67 -69
transformers/models/pegasus/tokenization_pegasus.py +1 -4
transformers/models/pegasus_x/configuration_pegasus_x.py +5 -4
transformers/models/pegasus_x/modeling_pegasus_x.py +53 -55
transformers/models/perceiver/configuration_perceiver.py +0 -1
transformers/models/perceiver/image_processing_perceiver.py +22 -25
transformers/models/perceiver/image_processing_perceiver_fast.py +7 -8
transformers/models/perceiver/modeling_perceiver.py +152 -145
transformers/models/perceiver/tokenization_perceiver.py +3 -6
transformers/models/perception_lm/configuration_perception_lm.py +0 -1
transformers/models/perception_lm/image_processing_perception_lm_fast.py +8 -9
transformers/models/perception_lm/modeling_perception_lm.py +64 -67
transformers/models/perception_lm/modular_perception_lm.py +58 -58
transformers/models/perception_lm/processing_perception_lm.py +13 -47
transformers/models/perception_lm/video_processing_perception_lm.py +0 -1
transformers/models/persimmon/configuration_persimmon.py +23 -28
transformers/models/persimmon/modeling_persimmon.py +44 -47
transformers/models/phi/configuration_phi.py +27 -28
transformers/models/phi/modeling_phi.py +39 -41
transformers/models/phi/modular_phi.py +26 -26
transformers/models/phi3/configuration_phi3.py +32 -37
transformers/models/phi3/modeling_phi3.py +37 -40
transformers/models/phi3/modular_phi3.py +16 -20
transformers/models/phi4_multimodal/configuration_phi4_multimodal.py +36 -39
transformers/models/phi4_multimodal/feature_extraction_phi4_multimodal.py +7 -9
transformers/models/phi4_multimodal/image_processing_phi4_multimodal_fast.py +11 -11
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +100 -117
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +103 -90
transformers/models/phi4_multimodal/processing_phi4_multimodal.py +7 -42
transformers/models/phimoe/configuration_phimoe.py +31 -36
transformers/models/phimoe/modeling_phimoe.py +50 -77
transformers/models/phimoe/modular_phimoe.py +12 -8
transformers/models/phobert/tokenization_phobert.py +4 -6
transformers/models/pix2struct/configuration_pix2struct.py +12 -10
transformers/models/pix2struct/image_processing_pix2struct.py +15 -19
transformers/models/pix2struct/image_processing_pix2struct_fast.py +12 -15
transformers/models/pix2struct/modeling_pix2struct.py +56 -52
transformers/models/pix2struct/processing_pix2struct.py +5 -26
transformers/models/pixio/__init__.py +0 -1
transformers/models/pixio/configuration_pixio.py +2 -5
transformers/models/pixio/modeling_pixio.py +16 -17
transformers/models/pixio/modular_pixio.py +7 -8
transformers/models/pixtral/configuration_pixtral.py +11 -14
transformers/models/pixtral/image_processing_pixtral.py +26 -28
transformers/models/pixtral/image_processing_pixtral_fast.py +10 -11
transformers/models/pixtral/modeling_pixtral.py +31 -37
transformers/models/pixtral/processing_pixtral.py +18 -52
transformers/models/plbart/configuration_plbart.py +8 -6
transformers/models/plbart/modeling_plbart.py +109 -109
transformers/models/plbart/modular_plbart.py +31 -33
transformers/models/plbart/tokenization_plbart.py +4 -5
transformers/models/poolformer/configuration_poolformer.py +0 -1
transformers/models/poolformer/image_processing_poolformer.py +21 -24
transformers/models/poolformer/image_processing_poolformer_fast.py +13 -14
transformers/models/poolformer/modeling_poolformer.py +10 -12
transformers/models/pop2piano/configuration_pop2piano.py +7 -7
transformers/models/pop2piano/feature_extraction_pop2piano.py +6 -9
transformers/models/pop2piano/modeling_pop2piano.py +24 -24
transformers/models/pop2piano/processing_pop2piano.py +25 -33
transformers/models/pop2piano/tokenization_pop2piano.py +15 -23
transformers/models/pp_doclayout_v3/__init__.py +30 -0
transformers/models/pp_doclayout_v3/configuration_pp_doclayout_v3.py +277 -0
transformers/models/pp_doclayout_v3/image_processing_pp_doclayout_v3_fast.py +305 -0
transformers/models/pp_doclayout_v3/modeling_pp_doclayout_v3.py +2083 -0
transformers/models/pp_doclayout_v3/modular_pp_doclayout_v3.py +1549 -0
transformers/models/prompt_depth_anything/configuration_prompt_depth_anything.py +13 -46
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything.py +28 -28
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything_fast.py +20 -21
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +17 -16
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +21 -20
transformers/models/prophetnet/configuration_prophetnet.py +37 -38
transformers/models/prophetnet/modeling_prophetnet.py +121 -153
transformers/models/prophetnet/tokenization_prophetnet.py +14 -16
transformers/models/pvt/configuration_pvt.py +0 -1
transformers/models/pvt/image_processing_pvt.py +24 -27
transformers/models/pvt/image_processing_pvt_fast.py +1 -2
transformers/models/pvt/modeling_pvt.py +19 -21
transformers/models/pvt_v2/configuration_pvt_v2.py +4 -8
transformers/models/pvt_v2/modeling_pvt_v2.py +27 -28
transformers/models/qwen2/configuration_qwen2.py +32 -25
transformers/models/qwen2/modeling_qwen2.py +35 -37
transformers/models/qwen2/modular_qwen2.py +14 -15
transformers/models/qwen2/tokenization_qwen2.py +2 -9
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +36 -27
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +241 -214
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +228 -193
transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py +41 -49
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +28 -34
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +188 -145
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +64 -91
transformers/models/qwen2_5_vl/processing_qwen2_5_vl.py +7 -43
transformers/models/qwen2_audio/configuration_qwen2_audio.py +0 -1
transformers/models/qwen2_audio/modeling_qwen2_audio.py +39 -41
transformers/models/qwen2_audio/processing_qwen2_audio.py +13 -42
transformers/models/qwen2_moe/configuration_qwen2_moe.py +42 -35
transformers/models/qwen2_moe/modeling_qwen2_moe.py +40 -43
transformers/models/qwen2_moe/modular_qwen2_moe.py +10 -13
transformers/models/qwen2_vl/configuration_qwen2_vl.py +28 -33
transformers/models/qwen2_vl/image_processing_qwen2_vl.py +38 -40
transformers/models/qwen2_vl/image_processing_qwen2_vl_fast.py +12 -15
transformers/models/qwen2_vl/modeling_qwen2_vl.py +184 -141
transformers/models/qwen2_vl/processing_qwen2_vl.py +7 -44
transformers/models/qwen2_vl/video_processing_qwen2_vl.py +38 -18
transformers/models/qwen3/configuration_qwen3.py +34 -27
transformers/models/qwen3/modeling_qwen3.py +35 -38
transformers/models/qwen3/modular_qwen3.py +7 -9
transformers/models/qwen3_moe/configuration_qwen3_moe.py +45 -35
transformers/models/qwen3_moe/modeling_qwen3_moe.py +40 -43
transformers/models/qwen3_moe/modular_qwen3_moe.py +10 -13
transformers/models/qwen3_next/configuration_qwen3_next.py +47 -38
transformers/models/qwen3_next/modeling_qwen3_next.py +44 -47
transformers/models/qwen3_next/modular_qwen3_next.py +37 -38
transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py +139 -106
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +266 -206
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +228 -181
transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py +40 -48
transformers/models/qwen3_vl/configuration_qwen3_vl.py +22 -24
transformers/models/qwen3_vl/modeling_qwen3_vl.py +185 -122
transformers/models/qwen3_vl/modular_qwen3_vl.py +153 -139
transformers/models/qwen3_vl/processing_qwen3_vl.py +6 -42
transformers/models/qwen3_vl/video_processing_qwen3_vl.py +10 -12
transformers/models/qwen3_vl_moe/configuration_qwen3_vl_moe.py +27 -30
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +249 -178
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +55 -42
transformers/models/rag/configuration_rag.py +6 -7
transformers/models/rag/modeling_rag.py +119 -121
transformers/models/rag/retrieval_rag.py +3 -5
transformers/models/rag/tokenization_rag.py +0 -50
transformers/models/recurrent_gemma/configuration_recurrent_gemma.py +29 -30
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +35 -39
transformers/models/reformer/configuration_reformer.py +7 -8
transformers/models/reformer/modeling_reformer.py +67 -68
transformers/models/reformer/tokenization_reformer.py +3 -6
transformers/models/regnet/configuration_regnet.py +0 -1
transformers/models/regnet/modeling_regnet.py +7 -9
transformers/models/rembert/configuration_rembert.py +8 -2
transformers/models/rembert/modeling_rembert.py +108 -132
transformers/models/rembert/tokenization_rembert.py +1 -4
transformers/models/resnet/configuration_resnet.py +2 -5
transformers/models/resnet/modeling_resnet.py +14 -15
transformers/models/roberta/configuration_roberta.py +11 -3
transformers/models/roberta/modeling_roberta.py +97 -99
transformers/models/roberta/modular_roberta.py +55 -58
transformers/models/roberta/tokenization_roberta.py +2 -5
transformers/models/roberta/tokenization_roberta_old.py +2 -4
transformers/models/roberta_prelayernorm/configuration_roberta_prelayernorm.py +11 -3
transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py +97 -99
transformers/models/roc_bert/configuration_roc_bert.py +8 -2
transformers/models/roc_bert/modeling_roc_bert.py +125 -162
transformers/models/roc_bert/tokenization_roc_bert.py +88 -94
transformers/models/roformer/configuration_roformer.py +13 -3
transformers/models/roformer/modeling_roformer.py +79 -95
transformers/models/roformer/tokenization_roformer.py +3 -6
transformers/models/roformer/tokenization_utils.py +0 -1
transformers/models/rt_detr/configuration_rt_detr.py +8 -50
transformers/models/rt_detr/configuration_rt_detr_resnet.py +2 -5
transformers/models/rt_detr/image_processing_rt_detr.py +54 -55
transformers/models/rt_detr/image_processing_rt_detr_fast.py +39 -26
transformers/models/rt_detr/modeling_rt_detr.py +643 -804
transformers/models/rt_detr/modeling_rt_detr_resnet.py +4 -7
transformers/models/rt_detr/modular_rt_detr.py +1522 -20
transformers/models/rt_detr_v2/configuration_rt_detr_v2.py +12 -58
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +384 -521
transformers/models/rt_detr_v2/modular_rt_detr_v2.py +27 -70
transformers/models/rwkv/configuration_rwkv.py +2 -4
transformers/models/rwkv/modeling_rwkv.py +29 -54
transformers/models/sam/configuration_sam.py +2 -1
transformers/models/sam/image_processing_sam.py +59 -60
transformers/models/sam/image_processing_sam_fast.py +25 -26
transformers/models/sam/modeling_sam.py +46 -43
transformers/models/sam/processing_sam.py +39 -27
transformers/models/sam2/configuration_sam2.py +1 -2
transformers/models/sam2/image_processing_sam2_fast.py +14 -15
transformers/models/sam2/modeling_sam2.py +96 -94
transformers/models/sam2/modular_sam2.py +85 -94
transformers/models/sam2/processing_sam2.py +31 -47
transformers/models/sam2_video/configuration_sam2_video.py +0 -1
transformers/models/sam2_video/modeling_sam2_video.py +114 -116
transformers/models/sam2_video/modular_sam2_video.py +72 -89
transformers/models/sam2_video/processing_sam2_video.py +49 -66
transformers/models/sam2_video/video_processing_sam2_video.py +1 -4
transformers/models/sam3/configuration_sam3.py +0 -1
transformers/models/sam3/image_processing_sam3_fast.py +17 -20
transformers/models/sam3/modeling_sam3.py +94 -100
transformers/models/sam3/modular_sam3.py +3 -8
transformers/models/sam3/processing_sam3.py +37 -52
transformers/models/sam3_tracker/__init__.py +0 -1
transformers/models/sam3_tracker/configuration_sam3_tracker.py +1 -3
transformers/models/sam3_tracker/modeling_sam3_tracker.py +79 -80
transformers/models/sam3_tracker/modular_sam3_tracker.py +0 -2
transformers/models/sam3_tracker/processing_sam3_tracker.py +31 -48
transformers/models/sam3_tracker_video/__init__.py +0 -1
transformers/models/sam3_tracker_video/configuration_sam3_tracker_video.py +0 -1
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +115 -114
transformers/models/sam3_tracker_video/modular_sam3_tracker_video.py +10 -24
transformers/models/sam3_tracker_video/processing_sam3_tracker_video.py +50 -66
transformers/models/sam3_video/configuration_sam3_video.py +0 -1
transformers/models/sam3_video/modeling_sam3_video.py +56 -45
transformers/models/sam3_video/processing_sam3_video.py +25 -45
transformers/models/sam_hq/__init__.py +1 -1
transformers/models/sam_hq/configuration_sam_hq.py +2 -1
transformers/models/sam_hq/modeling_sam_hq.py +52 -50
transformers/models/sam_hq/modular_sam_hq.py +23 -25
transformers/models/sam_hq/{processing_samhq.py → processing_sam_hq.py} +41 -29
transformers/models/seamless_m4t/configuration_seamless_m4t.py +8 -10
transformers/models/seamless_m4t/feature_extraction_seamless_m4t.py +8 -11
transformers/models/seamless_m4t/modeling_seamless_m4t.py +180 -182
transformers/models/seamless_m4t/processing_seamless_m4t.py +18 -39
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +15 -20
transformers/models/seamless_m4t_v2/configuration_seamless_m4t_v2.py +8 -10
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +193 -195
transformers/models/seed_oss/configuration_seed_oss.py +30 -34
transformers/models/seed_oss/modeling_seed_oss.py +34 -36
transformers/models/seed_oss/modular_seed_oss.py +6 -7
transformers/models/segformer/configuration_segformer.py +0 -10
transformers/models/segformer/image_processing_segformer.py +39 -42
transformers/models/segformer/image_processing_segformer_fast.py +11 -12
transformers/models/segformer/modeling_segformer.py +28 -28
transformers/models/segformer/modular_segformer.py +8 -9
transformers/models/seggpt/configuration_seggpt.py +0 -1
transformers/models/seggpt/image_processing_seggpt.py +38 -41
transformers/models/seggpt/modeling_seggpt.py +48 -38
transformers/models/sew/configuration_sew.py +4 -2
transformers/models/sew/modeling_sew.py +42 -40
transformers/models/sew/modular_sew.py +12 -13
transformers/models/sew_d/configuration_sew_d.py +4 -2
transformers/models/sew_d/modeling_sew_d.py +32 -31
transformers/models/shieldgemma2/configuration_shieldgemma2.py +0 -1
transformers/models/shieldgemma2/modeling_shieldgemma2.py +19 -21
transformers/models/shieldgemma2/processing_shieldgemma2.py +3 -5
transformers/models/siglip/configuration_siglip.py +4 -2
transformers/models/siglip/image_processing_siglip.py +17 -20
transformers/models/siglip/image_processing_siglip_fast.py +0 -1
transformers/models/siglip/modeling_siglip.py +65 -110
transformers/models/siglip/processing_siglip.py +2 -14
transformers/models/siglip/tokenization_siglip.py +6 -7
transformers/models/siglip2/__init__.py +1 -0
transformers/models/siglip2/configuration_siglip2.py +4 -2
transformers/models/siglip2/image_processing_siglip2.py +15 -16
transformers/models/siglip2/image_processing_siglip2_fast.py +6 -7
transformers/models/siglip2/modeling_siglip2.py +89 -130
transformers/models/siglip2/modular_siglip2.py +95 -48
transformers/models/siglip2/processing_siglip2.py +2 -14
transformers/models/siglip2/tokenization_siglip2.py +95 -0
transformers/models/smollm3/configuration_smollm3.py +29 -32
transformers/models/smollm3/modeling_smollm3.py +35 -38
transformers/models/smollm3/modular_smollm3.py +36 -38
transformers/models/smolvlm/configuration_smolvlm.py +2 -4
transformers/models/smolvlm/image_processing_smolvlm.py +42 -43
transformers/models/smolvlm/image_processing_smolvlm_fast.py +41 -15
transformers/models/smolvlm/modeling_smolvlm.py +124 -96
transformers/models/smolvlm/modular_smolvlm.py +50 -39
transformers/models/smolvlm/processing_smolvlm.py +15 -76
transformers/models/smolvlm/video_processing_smolvlm.py +16 -17
transformers/models/solar_open/__init__.py +27 -0
transformers/models/solar_open/configuration_solar_open.py +184 -0
transformers/models/solar_open/modeling_solar_open.py +642 -0
transformers/models/solar_open/modular_solar_open.py +224 -0
transformers/models/speech_encoder_decoder/configuration_speech_encoder_decoder.py +0 -1
transformers/models/speech_encoder_decoder/modeling_speech_encoder_decoder.py +26 -27
transformers/models/speech_to_text/configuration_speech_to_text.py +9 -9
transformers/models/speech_to_text/feature_extraction_speech_to_text.py +10 -13
transformers/models/speech_to_text/modeling_speech_to_text.py +55 -57
transformers/models/speech_to_text/processing_speech_to_text.py +4 -30
transformers/models/speech_to_text/tokenization_speech_to_text.py +5 -6
transformers/models/speecht5/configuration_speecht5.py +7 -9
transformers/models/speecht5/feature_extraction_speecht5.py +16 -37
transformers/models/speecht5/modeling_speecht5.py +172 -174
transformers/models/speecht5/number_normalizer.py +0 -1
transformers/models/speecht5/processing_speecht5.py +3 -37
transformers/models/speecht5/tokenization_speecht5.py +4 -5
transformers/models/splinter/configuration_splinter.py +6 -7
transformers/models/splinter/modeling_splinter.py +62 -59
transformers/models/splinter/tokenization_splinter.py +2 -4
transformers/models/squeezebert/configuration_squeezebert.py +14 -2
transformers/models/squeezebert/modeling_squeezebert.py +60 -62
transformers/models/squeezebert/tokenization_squeezebert.py +0 -1
transformers/models/stablelm/configuration_stablelm.py +28 -29
transformers/models/stablelm/modeling_stablelm.py +44 -47
transformers/models/starcoder2/configuration_starcoder2.py +30 -27
transformers/models/starcoder2/modeling_starcoder2.py +38 -41
transformers/models/starcoder2/modular_starcoder2.py +17 -19
transformers/models/superglue/configuration_superglue.py +7 -3
transformers/models/superglue/image_processing_superglue.py +15 -15
transformers/models/superglue/image_processing_superglue_fast.py +8 -8
transformers/models/superglue/modeling_superglue.py +41 -37
transformers/models/superpoint/image_processing_superpoint.py +15 -15
transformers/models/superpoint/image_processing_superpoint_fast.py +7 -9
transformers/models/superpoint/modeling_superpoint.py +17 -16
transformers/models/swiftformer/configuration_swiftformer.py +0 -1
transformers/models/swiftformer/modeling_swiftformer.py +12 -14
transformers/models/swin/configuration_swin.py +2 -5
transformers/models/swin/modeling_swin.py +69 -78
transformers/models/swin2sr/configuration_swin2sr.py +0 -1
transformers/models/swin2sr/image_processing_swin2sr.py +10 -13
transformers/models/swin2sr/image_processing_swin2sr_fast.py +4 -7
transformers/models/swin2sr/modeling_swin2sr.py +30 -30
transformers/models/swinv2/configuration_swinv2.py +2 -5
transformers/models/swinv2/modeling_swinv2.py +65 -74
transformers/models/switch_transformers/configuration_switch_transformers.py +11 -7
transformers/models/switch_transformers/modeling_switch_transformers.py +35 -36
transformers/models/switch_transformers/modular_switch_transformers.py +32 -33
transformers/models/t5/configuration_t5.py +9 -9
transformers/models/t5/modeling_t5.py +80 -85
transformers/models/t5/tokenization_t5.py +1 -3
transformers/models/t5gemma/configuration_t5gemma.py +43 -59
transformers/models/t5gemma/modeling_t5gemma.py +105 -108
transformers/models/t5gemma/modular_t5gemma.py +128 -142
transformers/models/t5gemma2/configuration_t5gemma2.py +86 -100
transformers/models/t5gemma2/modeling_t5gemma2.py +234 -194
transformers/models/t5gemma2/modular_t5gemma2.py +279 -264
transformers/models/table_transformer/configuration_table_transformer.py +18 -50
transformers/models/table_transformer/modeling_table_transformer.py +73 -101
transformers/models/tapas/configuration_tapas.py +12 -2
transformers/models/tapas/modeling_tapas.py +65 -67
transformers/models/tapas/tokenization_tapas.py +116 -153
transformers/models/textnet/configuration_textnet.py +4 -7
transformers/models/textnet/image_processing_textnet.py +22 -25
transformers/models/textnet/image_processing_textnet_fast.py +8 -9
transformers/models/textnet/modeling_textnet.py +28 -28
transformers/models/time_series_transformer/configuration_time_series_transformer.py +5 -8
transformers/models/time_series_transformer/modeling_time_series_transformer.py +82 -84
transformers/models/timesfm/configuration_timesfm.py +0 -1
transformers/models/timesfm/modeling_timesfm.py +22 -25
transformers/models/timesfm/modular_timesfm.py +21 -24
transformers/models/timesformer/configuration_timesformer.py +0 -1
transformers/models/timesformer/modeling_timesformer.py +13 -16
transformers/models/timm_backbone/configuration_timm_backbone.py +33 -8
transformers/models/timm_backbone/modeling_timm_backbone.py +25 -30
transformers/models/timm_wrapper/configuration_timm_wrapper.py +2 -3
transformers/models/timm_wrapper/image_processing_timm_wrapper.py +4 -5
transformers/models/timm_wrapper/modeling_timm_wrapper.py +22 -19
transformers/models/trocr/configuration_trocr.py +11 -8
transformers/models/trocr/modeling_trocr.py +42 -42
transformers/models/trocr/processing_trocr.py +5 -25
transformers/models/tvp/configuration_tvp.py +10 -36
transformers/models/tvp/image_processing_tvp.py +50 -52
transformers/models/tvp/image_processing_tvp_fast.py +15 -15
transformers/models/tvp/modeling_tvp.py +26 -28
transformers/models/tvp/processing_tvp.py +2 -14
transformers/models/udop/configuration_udop.py +16 -8
transformers/models/udop/modeling_udop.py +73 -72
transformers/models/udop/processing_udop.py +7 -26
transformers/models/udop/tokenization_udop.py +80 -93
transformers/models/umt5/configuration_umt5.py +8 -7
transformers/models/umt5/modeling_umt5.py +87 -84
transformers/models/unispeech/configuration_unispeech.py +4 -2
transformers/models/unispeech/modeling_unispeech.py +54 -53
transformers/models/unispeech/modular_unispeech.py +20 -22
transformers/models/unispeech_sat/configuration_unispeech_sat.py +4 -2
transformers/models/unispeech_sat/modeling_unispeech_sat.py +70 -69
transformers/models/unispeech_sat/modular_unispeech_sat.py +21 -23
transformers/models/univnet/feature_extraction_univnet.py +14 -14
transformers/models/univnet/modeling_univnet.py +7 -8
transformers/models/upernet/configuration_upernet.py +8 -36
transformers/models/upernet/modeling_upernet.py +11 -14
transformers/models/vaultgemma/__init__.py +0 -1
transformers/models/vaultgemma/configuration_vaultgemma.py +29 -33
transformers/models/vaultgemma/modeling_vaultgemma.py +38 -40
transformers/models/vaultgemma/modular_vaultgemma.py +29 -31
transformers/models/video_llama_3/configuration_video_llama_3.py +4 -0
transformers/models/video_llama_3/image_processing_video_llama_3.py +40 -40
transformers/models/video_llama_3/image_processing_video_llama_3_fast.py +12 -14
transformers/models/video_llama_3/modeling_video_llama_3.py +149 -112
transformers/models/video_llama_3/modular_video_llama_3.py +152 -150
transformers/models/video_llama_3/processing_video_llama_3.py +5 -39
transformers/models/video_llama_3/video_processing_video_llama_3.py +45 -24
transformers/models/video_llava/configuration_video_llava.py +4 -1
transformers/models/video_llava/image_processing_video_llava.py +35 -38
transformers/models/video_llava/modeling_video_llava.py +139 -143
transformers/models/video_llava/processing_video_llava.py +38 -78
transformers/models/video_llava/video_processing_video_llava.py +0 -1
transformers/models/videomae/configuration_videomae.py +0 -1
transformers/models/videomae/image_processing_videomae.py +31 -34
transformers/models/videomae/modeling_videomae.py +17 -20
transformers/models/videomae/video_processing_videomae.py +0 -1
transformers/models/vilt/configuration_vilt.py +4 -2
transformers/models/vilt/image_processing_vilt.py +29 -30
transformers/models/vilt/image_processing_vilt_fast.py +15 -16
transformers/models/vilt/modeling_vilt.py +103 -90
transformers/models/vilt/processing_vilt.py +2 -14
transformers/models/vipllava/configuration_vipllava.py +4 -1
transformers/models/vipllava/modeling_vipllava.py +92 -67
transformers/models/vipllava/modular_vipllava.py +78 -54
transformers/models/vision_encoder_decoder/configuration_vision_encoder_decoder.py +0 -1
transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py +28 -27
transformers/models/vision_text_dual_encoder/configuration_vision_text_dual_encoder.py +0 -1
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +45 -41
transformers/models/vision_text_dual_encoder/processing_vision_text_dual_encoder.py +2 -16
transformers/models/visual_bert/configuration_visual_bert.py +6 -2
transformers/models/visual_bert/modeling_visual_bert.py +90 -92
transformers/models/vit/configuration_vit.py +2 -3
transformers/models/vit/image_processing_vit.py +19 -22
transformers/models/vit/image_processing_vit_fast.py +0 -1
transformers/models/vit/modeling_vit.py +20 -20
transformers/models/vit_mae/configuration_vit_mae.py +0 -1
transformers/models/vit_mae/modeling_vit_mae.py +32 -30
transformers/models/vit_msn/configuration_vit_msn.py +0 -1
transformers/models/vit_msn/modeling_vit_msn.py +21 -19
transformers/models/vitdet/configuration_vitdet.py +2 -5
transformers/models/vitdet/modeling_vitdet.py +14 -17
transformers/models/vitmatte/configuration_vitmatte.py +7 -39
transformers/models/vitmatte/image_processing_vitmatte.py +15 -18
transformers/models/vitmatte/image_processing_vitmatte_fast.py +16 -17
transformers/models/vitmatte/modeling_vitmatte.py +10 -12
transformers/models/vitpose/configuration_vitpose.py +7 -47
transformers/models/vitpose/image_processing_vitpose.py +24 -25
transformers/models/vitpose/image_processing_vitpose_fast.py +9 -10
transformers/models/vitpose/modeling_vitpose.py +15 -15
transformers/models/vitpose_backbone/configuration_vitpose_backbone.py +2 -5
transformers/models/vitpose_backbone/modeling_vitpose_backbone.py +13 -16
transformers/models/vits/configuration_vits.py +4 -1
transformers/models/vits/modeling_vits.py +43 -42
transformers/models/vits/tokenization_vits.py +3 -4
transformers/models/vivit/configuration_vivit.py +0 -1
transformers/models/vivit/image_processing_vivit.py +36 -39
transformers/models/vivit/modeling_vivit.py +9 -11
transformers/models/vjepa2/__init__.py +0 -1
transformers/models/vjepa2/configuration_vjepa2.py +0 -1
transformers/models/vjepa2/modeling_vjepa2.py +39 -41
transformers/models/vjepa2/video_processing_vjepa2.py +0 -1
transformers/models/voxtral/__init__.py +0 -1
transformers/models/voxtral/configuration_voxtral.py +0 -2
transformers/models/voxtral/modeling_voxtral.py +41 -48
transformers/models/voxtral/modular_voxtral.py +35 -38
transformers/models/voxtral/processing_voxtral.py +25 -48
transformers/models/wav2vec2/configuration_wav2vec2.py +4 -2
transformers/models/wav2vec2/feature_extraction_wav2vec2.py +7 -10
transformers/models/wav2vec2/modeling_wav2vec2.py +74 -126
transformers/models/wav2vec2/processing_wav2vec2.py +6 -35
transformers/models/wav2vec2/tokenization_wav2vec2.py +20 -332
transformers/models/wav2vec2_bert/configuration_wav2vec2_bert.py +4 -2
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +49 -52
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +45 -48
transformers/models/wav2vec2_bert/processing_wav2vec2_bert.py +6 -35
transformers/models/wav2vec2_conformer/configuration_wav2vec2_conformer.py +4 -2
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +62 -65
transformers/models/wav2vec2_conformer/modular_wav2vec2_conformer.py +15 -18
transformers/models/wav2vec2_phoneme/tokenization_wav2vec2_phoneme.py +16 -17
transformers/models/wav2vec2_with_lm/processing_wav2vec2_with_lm.py +36 -55
transformers/models/wavlm/configuration_wavlm.py +4 -2
transformers/models/wavlm/modeling_wavlm.py +49 -49
transformers/models/wavlm/modular_wavlm.py +4 -5
transformers/models/whisper/configuration_whisper.py +6 -5
transformers/models/whisper/english_normalizer.py +3 -4
transformers/models/whisper/feature_extraction_whisper.py +9 -24
transformers/models/whisper/generation_whisper.py +26 -49
transformers/models/whisper/modeling_whisper.py +71 -73
transformers/models/whisper/processing_whisper.py +3 -20
transformers/models/whisper/tokenization_whisper.py +9 -30
transformers/models/x_clip/configuration_x_clip.py +4 -2
transformers/models/x_clip/modeling_x_clip.py +94 -96
transformers/models/x_clip/processing_x_clip.py +2 -14
transformers/models/xcodec/configuration_xcodec.py +4 -6
transformers/models/xcodec/modeling_xcodec.py +15 -17
transformers/models/xglm/configuration_xglm.py +9 -8
transformers/models/xglm/modeling_xglm.py +49 -55
transformers/models/xglm/tokenization_xglm.py +1 -4
transformers/models/xlm/configuration_xlm.py +10 -8
transformers/models/xlm/modeling_xlm.py +127 -131
transformers/models/xlm/tokenization_xlm.py +3 -5
transformers/models/xlm_roberta/configuration_xlm_roberta.py +11 -3
transformers/models/xlm_roberta/modeling_xlm_roberta.py +96 -98
transformers/models/xlm_roberta/modular_xlm_roberta.py +50 -53
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +1 -4
transformers/models/xlm_roberta_xl/configuration_xlm_roberta_xl.py +10 -2
transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py +97 -99
transformers/models/xlm_roberta_xl/modular_xlm_roberta_xl.py +67 -70
transformers/models/xlnet/configuration_xlnet.py +3 -12
transformers/models/xlnet/modeling_xlnet.py +149 -162
transformers/models/xlnet/tokenization_xlnet.py +1 -4
transformers/models/xlstm/configuration_xlstm.py +8 -12
transformers/models/xlstm/modeling_xlstm.py +61 -96
transformers/models/xmod/configuration_xmod.py +11 -3
transformers/models/xmod/modeling_xmod.py +111 -116
transformers/models/yolos/configuration_yolos.py +0 -1
transformers/models/yolos/image_processing_yolos.py +60 -62
transformers/models/yolos/image_processing_yolos_fast.py +42 -45
transformers/models/yolos/modeling_yolos.py +19 -21
transformers/models/yolos/modular_yolos.py +17 -19
transformers/models/yoso/configuration_yoso.py +8 -2
transformers/models/yoso/modeling_yoso.py +60 -62
transformers/models/youtu/__init__.py +27 -0
transformers/models/youtu/configuration_youtu.py +194 -0
transformers/models/youtu/modeling_youtu.py +619 -0
transformers/models/youtu/modular_youtu.py +254 -0
transformers/models/zamba/configuration_zamba.py +5 -8
transformers/models/zamba/modeling_zamba.py +93 -125
transformers/models/zamba2/configuration_zamba2.py +44 -50
transformers/models/zamba2/modeling_zamba2.py +137 -165
transformers/models/zamba2/modular_zamba2.py +79 -74
transformers/models/zoedepth/configuration_zoedepth.py +17 -41
transformers/models/zoedepth/image_processing_zoedepth.py +28 -29
transformers/models/zoedepth/image_processing_zoedepth_fast.py +20 -21
transformers/models/zoedepth/modeling_zoedepth.py +19 -19
transformers/pipelines/__init__.py +47 -106
transformers/pipelines/any_to_any.py +15 -23
transformers/pipelines/audio_utils.py +1 -2
transformers/pipelines/automatic_speech_recognition.py +0 -2
transformers/pipelines/base.py +13 -17
transformers/pipelines/image_text_to_text.py +1 -2
transformers/pipelines/question_answering.py +4 -43
transformers/pipelines/text_classification.py +1 -14
transformers/pipelines/text_to_audio.py +5 -1
transformers/pipelines/token_classification.py +1 -22
transformers/pipelines/video_classification.py +1 -9
transformers/pipelines/zero_shot_audio_classification.py +0 -1
transformers/pipelines/zero_shot_classification.py +0 -6
transformers/pipelines/zero_shot_image_classification.py +0 -7
transformers/processing_utils.py +128 -137
transformers/pytorch_utils.py +2 -26
transformers/quantizers/base.py +10 -0
transformers/quantizers/quantizer_compressed_tensors.py +7 -5
transformers/quantizers/quantizer_fbgemm_fp8.py +20 -23
transformers/quantizers/quantizer_finegrained_fp8.py +14 -20
transformers/quantizers/quantizer_mxfp4.py +1 -1
transformers/quantizers/quantizer_quark.py +0 -1
transformers/quantizers/quantizer_torchao.py +3 -19
transformers/safetensors_conversion.py +11 -4
transformers/testing_utils.py +6 -65
transformers/tokenization_mistral_common.py +563 -903
transformers/tokenization_python.py +6 -4
transformers/tokenization_utils_base.py +228 -341
transformers/tokenization_utils_sentencepiece.py +5 -6
transformers/tokenization_utils_tokenizers.py +36 -7
transformers/trainer.py +30 -41
transformers/trainer_jit_checkpoint.py +1 -2
transformers/trainer_seq2seq.py +1 -1
transformers/training_args.py +414 -420
transformers/utils/__init__.py +1 -4
transformers/utils/attention_visualizer.py +1 -1
transformers/utils/auto_docstring.py +567 -18
transformers/utils/backbone_utils.py +13 -373
transformers/utils/doc.py +4 -36
transformers/utils/dummy_pt_objects.py +0 -42
transformers/utils/generic.py +70 -34
transformers/utils/import_utils.py +72 -75
transformers/utils/loading_report.py +135 -107
transformers/utils/quantization_config.py +8 -31
transformers/video_processing_utils.py +24 -25
transformers/video_utils.py +21 -23
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/METADATA +120 -239
transformers-5.1.0.dist-info/RECORD +2092 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/WHEEL +1 -1
transformers/pipelines/deprecated/text2text_generation.py +0 -408
transformers/pipelines/image_to_text.py +0 -229
transformers-5.0.0rc2.dist-info/RECORD +0 -2042
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/licenses/LICENSE +0 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/top_level.txt +0 -0

transformers/models/glm_image/modeling_glm_image.py ADDED Viewed

@@ -0,0 +1,1691 @@
+#                🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨
+#           This file was automatically generated from src/transformers/models/glm_image/modular_glm_image.py.
+#               Do NOT edit this file manually as any edits will be overwritten by the generation of
+#             the file from the modular. If any change should be done, please apply the change to the
+#                          modular_glm_image.py file directly. One of our CI enforces this.
+#                🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨🚨
+# Copyright 2025 the HuggingFace Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections.abc import Callable
+from dataclasses import dataclass
+from typing import Any, Optional
+import torch.nn as nn
+import torch.nn.functional as F
+from ...activations import ACT2FN
+from ...cache_utils import Cache, DynamicCache
+from ...generation import GenerationMixin
+from ...integrations import use_kernel_forward_from_hub, use_kernelized_func
+from ...masking_utils import create_causal_mask
+from ...modeling_flash_attention_utils import FlashAttentionKwargs
+from ...modeling_layers import GradientCheckpointingLayer
+from ...modeling_outputs import BaseModelOutputWithPast, BaseModelOutputWithPooling, ModelOutput
+from ...modeling_rope_utils import ROPE_INIT_FUNCTIONS, dynamic_rope_update
+from ...modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
+from ...processing_utils import Unpack
+from ...utils import TransformersKwargs, auto_docstring, can_return_tuple, is_torch_available
+from ...utils.generic import check_model_inputs, maybe_autocast
+from .configuration_glm_image import GlmImageConfig, GlmImageTextConfig, GlmImageVisionConfig, GlmImageVQVAEConfig
+if is_torch_available():
+    import torch
+class GlmImageVisionMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.activation_fn = ACT2FN[config.hidden_act]
+        self.fc1 = nn.Linear(config.hidden_size, config.intermediate_size)
+        self.fc2 = nn.Linear(config.intermediate_size, config.hidden_size)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states = self.fc2(hidden_states)
+        return hidden_states
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+def eager_attention_forward(
+    module: nn.Module,
+    query: torch.Tensor,
+    key: torch.Tensor,
+    value: torch.Tensor,
+    attention_mask: torch.Tensor | None,
+    scaling: float,
+    dropout: float = 0.0,
+    **kwargs: Unpack[TransformersKwargs],
+):
+    key_states = repeat_kv(key, module.num_key_value_groups)
+    value_states = repeat_kv(value, module.num_key_value_groups)
+    attn_weights = torch.matmul(query, key_states.transpose(2, 3)) * scaling
+    if attention_mask is not None:
+        causal_mask = attention_mask[:, :, :, : key_states.shape[-2]]
+        attn_weights = attn_weights + causal_mask
+    attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query.dtype)
+    attn_weights = nn.functional.dropout(attn_weights, p=dropout, training=module.training)
+    attn_output = torch.matmul(attn_weights, value_states)
+    attn_output = attn_output.transpose(1, 2).contiguous()
+    return attn_output, attn_weights
+class GlmImageVisionAttention(nn.Module):
+    def __init__(self, config: GlmImageVisionConfig) -> None:
+        super().__init__()
+        self.dim = config.hidden_size
+        self.num_heads = config.num_heads
+        self.head_dim = self.dim // self.num_heads
+        self.num_key_value_groups = 1  # needed for eager attention
+        self.qkv = nn.Linear(config.hidden_size, config.hidden_size * 3, bias=config.attention_bias)
+        self.proj = nn.Linear(config.hidden_size, config.hidden_size, bias=config.attention_bias)
+        self.scaling = self.head_dim**-0.5
+        self.config = config
+        self.attention_dropout = config.attention_dropout
+        self.is_causal = False
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        **kwargs,
+    ) -> torch.Tensor:
+        seq_length = hidden_states.shape[0]
+        query_states, key_states, value_states = (
+            self.qkv(hidden_states).reshape(seq_length, 3, self.num_heads, -1).permute(1, 0, 2, 3).unbind(0)
+        )
+        query_states = query_states.transpose(0, 1).unsqueeze(0)
+        key_states = key_states.transpose(0, 1).unsqueeze(0)
+        value_states = value_states.transpose(0, 1).unsqueeze(0)
+        attention_interface: Callable = ALL_ATTENTION_FUNCTIONS.get_interface(
+            self.config._attn_implementation, eager_attention_forward
+        )
+        if "flash" in self.config._attn_implementation:
+            # Flash Attention: Use cu_seqlens for variable length attention
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+            attn_output, _ = attention_interface(
+                self,
+                query_states,
+                key_states,
+                value_states,
+                attention_mask=None,
+                scaling=self.scaling,
+                dropout=0.0 if not self.training else self.attention_dropout,
+                cu_seq_lens_q=cu_seqlens,
+                cu_seq_lens_k=cu_seqlens,
+                max_length_q=max_seqlen,
+                max_length_k=max_seqlen,
+                is_causal=False,
+                **kwargs,
+            )
+        else:
+            # Other implementations: Process each chunk separately
+            lengths = cu_seqlens[1:] - cu_seqlens[:-1]
+            splits = [
+                torch.split(tensor, lengths.tolist(), dim=2) for tensor in (query_states, key_states, value_states)
+            ]
+            attn_outputs = [
+                attention_interface(
+                    self,
+                    q,
+                    k,
+                    v,
+                    attention_mask=None,
+                    scaling=self.scaling,
+                    dropout=0.0 if not self.training else self.attention_dropout,
+                    is_causal=False,
+                    **kwargs,
+                )[0]
+                for q, k, v in zip(*splits)
+            ]
+            attn_output = torch.cat(attn_outputs, dim=1)
+        attn_output = attn_output.reshape(seq_length, -1).contiguous()
+        attn_output = self.proj(attn_output)
+        return attn_output
+class GlmImageVisionPatchEmbed(nn.Module):
+    def __init__(self, config: GlmImageVisionConfig) -> None:
+        super().__init__()
+        self.patch_size = config.patch_size
+        self.in_channels = config.in_channels
+        self.embed_dim = config.hidden_size
+        kernel_size = [self.patch_size, self.patch_size]
+        self.proj = nn.Conv2d(self.in_channels, self.embed_dim, kernel_size=kernel_size, stride=kernel_size)
+    def forward(self, hidden_states) -> torch.Tensor:
+        target_dtype = self.proj.weight.dtype
+        hidden_states = hidden_states.view(-1, self.in_channels, self.patch_size, self.patch_size)
+        hidden_states = self.proj(hidden_states.to(dtype=target_dtype)).view(-1, self.embed_dim)
+        return hidden_states
+class GlmImageVisionEmbeddings(nn.Module):
+    def __init__(self, config: GlmImageVisionConfig) -> None:
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+        self.interpolated_method = "bilinear"
+    def forward(self, embeddings, lengths, image_shapes, h_coords, w_coords) -> torch.Tensor:
+        """
+        Forward pass with integrated position encoding adaptation using 2D interpolation.
+        Args:
+            embeddings: Input embeddings tensor
+            lengths (torch.Tensor): Sequence lengths for each image in the batch.
+            image_shapes (torch.Tensor): Tensor of shape [batch_size, 3] representing the image shapes (t, h, w).
+            h_coords (torch.Tensor): Tensor of shape [total_seq] representing the h coordinate for each patch.
+            w_coords (torch.Tensor): Tensor of shape [total_seq] representing the w coordinate for each patch.
+        Returns:
+            torch.Tensor: Embeddings with adapted position encoding added.
+        """
+        # Get position embedding parameters
+        pos_embed_weight = self.position_embedding.weight
+        hidden_size = pos_embed_weight.shape[1]
+        device = pos_embed_weight.device
+        # Convert inputs to tensors if needed
+        if isinstance(lengths, list):
+            lengths = torch.tensor(lengths, device=device, dtype=torch.long)
+        # Prepare 2D position embedding
+        orig_size_sq = pos_embed_weight.shape[0]
+        orig_size = int(orig_size_sq**0.5)
+        pos_embed_2d = (
+            pos_embed_weight.view(orig_size, orig_size, hidden_size)
+            .permute(2, 0, 1)
+            .unsqueeze(0)
+            .to(device=device, dtype=torch.float32)
+        )
+        # Calculate target dimensions for each patch
+        target_h = torch.cat([image_shapes[i, 1].repeat(lengths[i]) for i in range(len(lengths))]).to(
+            device=device, dtype=torch.float32
+        )
+        target_w = torch.cat([image_shapes[i, 2].repeat(lengths[i]) for i in range(len(lengths))]).to(
+            device=device, dtype=torch.float32
+        )
+        # Normalize coordinates to [-1, 1] range for grid_sample
+        norm_w = ((w_coords + 0.5) / target_w) * 2 - 1
+        norm_h = ((h_coords + 0.5) / target_h) * 2 - 1
+        # Create sampling grid
+        grid = torch.stack((norm_w, norm_h), dim=-1).unsqueeze(0).unsqueeze(2)
+        # Perform bicubic interpolation
+        interpolated_embed_fp32 = F.grid_sample(
+            pos_embed_2d, grid, mode=self.interpolated_method, align_corners=False, padding_mode="border"
+        )
+        # Reshape and convert back to original dtype
+        adapted_pos_embed_fp32 = interpolated_embed_fp32.squeeze(0).squeeze(-1).permute(1, 0)
+        adapted_pos_embed = adapted_pos_embed_fp32.to(pos_embed_weight.dtype).to(embeddings.device)
+        # Add adapted position encoding to embeddings
+        embeddings = embeddings + adapted_pos_embed
+        return embeddings
+class GlmImageVisionBlock(GradientCheckpointingLayer):
+    def __init__(self, config: GlmImageVisionConfig) -> None:
+        super().__init__()
+        self.norm1 = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.norm2 = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.attn = GlmImageVisionAttention(config)
+        self.mlp = GlmImageVisionMLP(config)
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        cu_seqlens: torch.Tensor,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> torch.Tensor:
+        r"""
+        cu_seqlens (`torch.Tensor` of shape `(num_images_or_videos + 1,)`):
+            The cumulative sequence lengths of each image or video feature.
+        position_embeddings (`tuple(torch.Tensor, torch.Tensor)` of shape `(num_patches, head_dim // 2)`):
+            The cosine and sine position embeddings for vision attention.
+        """
+        residual = hidden_states
+        hidden_states = self.norm1(hidden_states)
+        hidden_states = self.attn(
+            hidden_states,
+            cu_seqlens=cu_seqlens,
+            **kwargs,
+        )
+        hidden_states = residual + hidden_states
+        residual = hidden_states
+        hidden_states = self.norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+def apply_rotary_pos_emb(q, k, cos, sin, unsqueeze_dim=1):
+    """Applies Rotary Position Embedding to the query and key tensors.
+    Args:
+        q (`torch.Tensor`): The query tensor.
+        k (`torch.Tensor`): The key tensor.
+        cos (`torch.Tensor`): The cosine part of the rotary embedding.
+        sin (`torch.Tensor`): The sine part of the rotary embedding.
+        unsqueeze_dim (`int`, *optional*, defaults to 1):
+            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
+            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
+            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
+            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
+            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
+            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
+    Returns:
+        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
+    """
+    cos = cos.unsqueeze(unsqueeze_dim)
+    sin = sin.unsqueeze(unsqueeze_dim)
+    # Keep half or full tensor for later concatenation
+    rotary_dim = cos.shape[-1]
+    q_rot, q_pass = q[..., :rotary_dim], q[..., rotary_dim:]
+    k_rot, k_pass = k[..., :rotary_dim], k[..., rotary_dim:]
+    # Apply rotary embeddings on the first half or full tensor
+    q_embed = (q_rot * cos) + (rotate_half(q_rot) * sin)
+    k_embed = (k_rot * cos) + (rotate_half(k_rot) * sin)
+    # Concatenate back to full shape
+    q_embed = torch.cat([q_embed, q_pass], dim=-1)
+    k_embed = torch.cat([k_embed, k_pass], dim=-1)
+    return q_embed, k_embed
+@use_kernelized_func(apply_rotary_pos_emb)
+class GlmImageTextAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+    def __init__(self, config: GlmImageTextConfig, layer_idx: int | None = None):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        self.head_dim = getattr(config, "head_dim", config.hidden_size // config.num_attention_heads)
+        self.num_key_value_groups = config.num_attention_heads // config.num_key_value_heads
+        self.scaling = self.head_dim**-0.5
+        self.attention_dropout = config.attention_dropout
+        self.is_causal = True
+        self.q_proj = nn.Linear(
+            config.hidden_size, config.num_attention_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.k_proj = nn.Linear(
+            config.hidden_size, config.num_key_value_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.v_proj = nn.Linear(
+            config.hidden_size, config.num_key_value_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.o_proj = nn.Linear(config.num_attention_heads * self.head_dim, config.hidden_size, bias=False)
+        self.rope_parameters = config.rope_parameters
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_embeddings: tuple[torch.Tensor, torch.Tensor],
+        attention_mask: torch.Tensor | None,
+        past_key_values: Cache | None = None,
+        cache_position: torch.LongTensor | None = None,
+        **kwargs: Unpack[FlashAttentionKwargs],
+    ) -> tuple[torch.Tensor, torch.Tensor | None, tuple[torch.Tensor] | None]:
+        input_shape = hidden_states.shape[:-1]
+        hidden_shape = (*input_shape, -1, self.head_dim)
+        query_states = self.q_proj(hidden_states).view(hidden_shape)
+        key_states = self.k_proj(hidden_states).view(hidden_shape)
+        value_states = self.v_proj(hidden_states).view(hidden_shape)
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+        cos, sin = position_embeddings
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin)
+        if past_key_values is not None:
+            # sin and cos are specific to RoPE models; position_ids needed for the static cache
+            cache_kwargs = {"sin": sin, "cos": cos, "cache_position": cache_position}
+            key_states, value_states = past_key_values.update(key_states, value_states, self.layer_idx, cache_kwargs)
+        attention_interface: Callable = ALL_ATTENTION_FUNCTIONS.get_interface(
+            self.config._attn_implementation, eager_attention_forward
+        )
+        attn_output, attn_weights = attention_interface(
+            self,
+            query_states,
+            key_states,
+            value_states,
+            attention_mask,
+            dropout=0.0 if not self.training else self.attention_dropout,
+            scaling=self.scaling,
+            **kwargs,
+        )
+        attn_output = attn_output.reshape(*input_shape, -1).contiguous()
+        attn_output = self.o_proj(attn_output)
+        return attn_output, attn_weights
+@use_kernel_forward_from_hub("RMSNorm")
+class GlmImageRMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        """
+        GlmImageRMSNorm is equivalent to T5LayerNorm
+        """
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+    def forward(self, hidden_states):
+        input_dtype = hidden_states.dtype
+        hidden_states = hidden_states.to(torch.float32)
+        variance = hidden_states.pow(2).mean(-1, keepdim=True)
+        hidden_states = hidden_states * torch.rsqrt(variance + self.variance_epsilon)
+        return self.weight * hidden_states.to(input_dtype)
+    def extra_repr(self):
+        return f"{tuple(self.weight.shape)}, eps={self.variance_epsilon}"
+class GlmImageTextMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.gate_up_proj = nn.Linear(config.hidden_size, 2 * config.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(config.intermediate_size, config.hidden_size, bias=False)
+        self.activation_fn = ACT2FN[config.hidden_act]
+    def forward(self, hidden_states: torch.FloatTensor) -> torch.FloatTensor:
+        up_states = self.gate_up_proj(hidden_states)
+        gate, up_states = up_states.chunk(2, dim=-1)
+        up_states = up_states * self.activation_fn(gate)
+        return self.down_proj(up_states)
+class GlmImageTextDecoderLayer(GradientCheckpointingLayer):
+    def __init__(self, config: GlmImageTextConfig, layer_idx: int):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = GlmImageTextAttention(config, layer_idx)
+        self.mlp = GlmImageTextMLP(config)
+        self.input_layernorm = GlmImageRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = GlmImageRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_self_attn_layernorm = GlmImageRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_mlp_layernorm = GlmImageRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+    @auto_docstring
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_embeddings: tuple[torch.Tensor, torch.Tensor] | None = None,
+        attention_mask: torch.Tensor | None = None,
+        position_ids: torch.LongTensor | None = None,
+        past_key_values: Cache | None = None,
+        use_cache: bool | None = False,
+        cache_position: torch.LongTensor | None = None,
+        **kwargs,
+    ) -> tuple[torch.FloatTensor, tuple[torch.FloatTensor, torch.FloatTensor] | None]:
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        # Self Attention
+        hidden_states, _ = self.self_attn(
+            hidden_states=hidden_states,
+            position_embeddings=position_embeddings,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            use_cache=use_cache,
+            cache_position=cache_position,
+            **kwargs,
+        )
+        hidden_states = self.post_self_attn_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_mlp_layernorm(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+@auto_docstring
+class GlmImagePreTrainedModel(PreTrainedModel):
+    config: GlmImageConfig
+    base_model_prefix = "model"
+    input_modalities = ("image", "text")
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["GlmImageTextDecoderLayer", "GlmImageVisionBlock"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn = True
+    _supports_sdpa = True
+    _can_compile_fullgraph = True
+    _supports_attention_backend = True
+    _can_record_outputs = {
+        "hidden_states": GlmImageTextDecoderLayer,
+        "attentions": GlmImageTextAttention,
+    }
+    @torch.no_grad()
+    def _init_weights(self, module):
+        super()._init_weights(module)
+@dataclass
+@auto_docstring(
+    custom_intro="""
+    Base class for Llava outputs, with hidden states and attentions.
+    """
+)
+class GlmImageModelOutputWithPast(ModelOutput):
+    r"""
+    past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
+        It is a [`~cache_utils.Cache`] instance. For more details, see our [kv cache guide](https://huggingface.co/docs/transformers/en/kv_cache).
+        Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
+        `past_key_values` input) to speed up sequential decoding.
+    rope_deltas (`torch.LongTensor` of shape `(batch_size, )`, *optional*):
+        The rope index difference between sequence length and multimodal rope.
+    """
+    last_hidden_state: torch.FloatTensor | None = None
+    past_key_values: Cache | None = None
+    hidden_states: tuple[torch.FloatTensor] | None = None
+    attentions: tuple[torch.FloatTensor] | None = None
+    rope_deltas: torch.LongTensor | None = None
+class GlmImageVQVAEVectorQuantizer(nn.Module):
+    """
+    A module for vector quantization using learned embedding vectors.
+    This module implements the quantization process similar to te one described in
+    the VQ-VAE (Vector Quantized Variational AutoEncoder) paper. It quantizes continuous
+    input vectors into discrete codebook vectors, which are learned during training.
+    Current implementation improves over previous ones by avoiding costly matrix multiplications
+    and allowing for post-hoc remapping of indices.
+    """
+    def __init__(self, config: GlmImageVQVAEConfig):
+        super().__init__()
+        self.num_embeddings = config.num_embeddings
+        self.embedding_dim = config.embed_dim
+        self.beta = getattr(config, "beta", 0.25)
+        self.embedding = nn.Embedding(self.num_embeddings, self.embedding_dim)
+    def forward(self, hidden_state: torch.Tensor):
+        hidden_state = hidden_state.permute(0, 2, 3, 1).contiguous()
+        hidden_state_flattened = hidden_state.view(-1, self.embedding_dim)
+        # L2 normalize
+        hidden_state = F.normalize(hidden_state, p=2, dim=-1)
+        hidden_state_flattened = F.normalize(hidden_state_flattened, p=2, dim=-1)
+        embedding = F.normalize(self.embedding.weight, p=2, dim=-1)
+        # distances from z to embeddings e_j (z - e)^2 = z^2 + e^2 - 2 e * z
+        distances = (
+            torch.sum(hidden_state_flattened**2, dim=1, keepdim=True)
+            + torch.sum(embedding**2, dim=1)
+            - 2 * torch.einsum("bd,dn->bn", hidden_state_flattened, embedding.transpose(0, 1))
+        )
+        min_encoding_indices = torch.argmin(distances, dim=1)
+        hidden_state_quant = embedding[min_encoding_indices].view(hidden_state.shape)
+        # compute loss for embedding
+        loss = torch.mean((hidden_state_quant.detach() - hidden_state) ** 2) + self.beta * torch.mean(
+            (hidden_state_quant - hidden_state.detach()) ** 2
+        )
+        # preserve gradients
+        hidden_state_quant = hidden_state + (hidden_state_quant - hidden_state).detach()
+        # reshape back to match original input shape
+        hidden_state_quant = hidden_state_quant.permute(0, 3, 1, 2).contiguous()
+        return hidden_state_quant, loss, min_encoding_indices
+@dataclass
+@auto_docstring
+class GlmImageVQVAEModelOutput(BaseModelOutputWithPooling):
+    r"""
+    quantized_last_hidden_state (`torch.FloatTensor` of shape `(batch_size, num_channels, image_size, image_size)`):
+        Quantized last hidden state from the VQ-VAE model.
+    image_tokens (`torch.FloatTensor` of shape `(batch_size, config.vocab_size`):
+        Indices of the image tokens predicted by the VQ-VAE model.
+    embedding_loss (`torch.FloatTensor`):
+        The embedding loss computed during quantization.
+    """
+    quantized_last_hidden_state: torch.FloatTensor | None = None
+    image_tokens: torch.FloatTensor | None = None
+    embedding_loss: torch.FloatTensor | None = None
+@auto_docstring(
+    custom_intro="""
+    The VQ-VAE model used in GlmImage for encoding/decoding images into discrete tokens.
+    This model follows the "Make-a-scene: Scene-based text-to-image generation with human priors" paper from
+    [ Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, and Yaniv
+    Taigman](https://huggingface.co/papers/2203.13131).
+    """
+)
+class GlmImageVQVAE(GlmImagePreTrainedModel):
+    config: GlmImageVQVAEConfig
+    _no_split_modules = [
+        "GlmImageVQVAEVectorQuantizer",
+    ]
+    _can_record_outputs = {}
+    def __init__(self, config: GlmImageVQVAEConfig):
+        super().__init__(config)
+        self.quantize = GlmImageVQVAEVectorQuantizer(config)
+        self.quant_conv = torch.nn.Conv2d(config.latent_channels, config.embed_dim, 1)
+        self.post_quant_conv = torch.nn.Conv2d(config.embed_dim, config.latent_channels, 1)
+        self.eval()  # GlmImage's VQ model is frozen
+        self.post_init()
+    @check_model_inputs
+    def encode(self, hidden_states) -> GlmImageVQVAEModelOutput:
+        conv_hidden_states = self.quant_conv(hidden_states)
+        quantized_last_hidden_state, emb_loss, indices = self.quantize(conv_hidden_states)
+        return GlmImageVQVAEModelOutput(
+            last_hidden_state=hidden_states,
+            quantized_last_hidden_state=quantized_last_hidden_state,
+            image_tokens=indices,
+            embedding_loss=emb_loss,
+        )
+class GlmImageVisionModel(GlmImagePreTrainedModel):
+    config: GlmImageVisionConfig
+    input_modalities = ("image",)
+    _no_split_modules = ["GlmImageVisionBlock"]
+    _can_record_outputs = {
+        "hidden_states": GlmImageVisionBlock,
+        "attentions": GlmImageVisionAttention,
+    }
+    main_input_name = "pixel_values"
+    def __init__(self, config: GlmImageVisionConfig) -> None:
+        super().__init__(config)
+        self.spatial_merge_size = config.spatial_merge_size
+        self.patch_size = config.patch_size
+        self.embeddings = GlmImageVisionEmbeddings(config)
+        self.patch_embed = GlmImageVisionPatchEmbed(config)
+        head_dim = config.hidden_size // config.num_heads
+        self.blocks = nn.ModuleList([GlmImageVisionBlock(config) for _ in range(config.depth)])
+        self.gradient_checkpointing = False
+        self.head_dim = head_dim
+        self.post_init()
+    def rot_pos_emb(self, grid_thw):
+        pos_ids = []
+        for t, h, w in grid_thw:
+            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+            hpos_ids = hpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            hpos_ids = hpos_ids.permute(0, 2, 1, 3)
+            hpos_ids = hpos_ids.flatten()
+            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+            wpos_ids = wpos_ids.reshape(
+                h // self.spatial_merge_size,
+                self.spatial_merge_size,
+                w // self.spatial_merge_size,
+                self.spatial_merge_size,
+            )
+            wpos_ids = wpos_ids.permute(0, 2, 1, 3)
+            wpos_ids = wpos_ids.flatten()
+            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+        pos_ids = torch.cat(pos_ids, dim=0)
+        return pos_ids
+    @check_model_inputs
+    @auto_docstring
+    def forward(
+        self, pixel_values: torch.Tensor, grid_thw: torch.Tensor, **kwargs: Unpack[TransformersKwargs]
+    ) -> tuple | BaseModelOutputWithPooling:
+        r"""
+        pixel_values (`torch.Tensor` of shape `(total_patches, num_channels * patch_size * patch_size)`):
+            Packed pixel values.
+        grid_thw (`torch.Tensor` of shape `(num_images, 3)`):
+            The temporal, height and width of feature shape of each image.
+        Returns:
+            `torch.Tensor` of shape `(total_patches, hidden_size)`: Hidden states.
+        """
+        hidden_states = self.patch_embed(pixel_values)
+        image_type_ids = self.rot_pos_emb(grid_thw)
+        cu_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]).cumsum(
+            dim=0,
+            dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32,
+        )
+        cu_seqlens = F.pad(cu_seqlens, (1, 0), value=0)
+        seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+        hidden_states = self.embeddings(
+            hidden_states,
+            seqlens,
+            grid_thw,
+            image_type_ids[:, 0].to(hidden_states.device),
+            image_type_ids[:, 1].to(hidden_states.device),
+        )
+        # Transformer blocks (no position_embeddings needed, already added above)
+        for blk in self.blocks:
+            hidden_states = blk(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+            )
+        return BaseModelOutputWithPooling(last_hidden_state=hidden_states)
+class GlmImageTextRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+    def __init__(self, config: GlmImageTextConfig, device=None):
+        super().__init__()
+        self.max_seq_len_cached = config.max_position_embeddings
+        self.original_max_seq_len = config.max_position_embeddings
+        self.config = config
+        self.rope_type = self.config.rope_parameters["rope_type"]
+        rope_init_fn: Callable = self.compute_default_rope_parameters
+        if self.rope_type != "default":
+            rope_init_fn = ROPE_INIT_FUNCTIONS[self.rope_type]
+        inv_freq, self.attention_scaling = rope_init_fn(self.config, device)
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+        self.register_buffer("original_inv_freq", inv_freq.clone(), persistent=False)
+        self.mrope_section = config.rope_parameters.get("mrope_section", [8, 12, 12])
+    @staticmethod
+    def compute_default_rope_parameters(
+        config: GlmImageTextConfig | None = None,
+        device: Optional["torch.device"] = None,
+        seq_len: int | None = None,
+    ) -> tuple["torch.Tensor", float]:
+        """
+        Computes the inverse frequencies according to the original RoPE implementation
+        Args:
+            config ([`~transformers.PreTrainedConfig`]):
+                The model configuration.
+            device (`torch.device`):
+                The device to use for initialization of the inverse frequencies.
+            seq_len (`int`, *optional*):
+                The current sequence length. Unused for this type of RoPE.
+        Returns:
+            Tuple of (`torch.Tensor`, `float`), containing the inverse frequencies for the RoPE embeddings and the
+            post-processing scaling factor applied to the computed cos/sin (unused in this type of RoPE).
+        """
+        base = config.rope_parameters["rope_theta"]
+        partial_rotary_factor = config.rope_parameters.get("partial_rotary_factor", 1.0)
+        head_dim = getattr(config, "head_dim", None) or config.hidden_size // config.num_attention_heads
+        dim = int(head_dim * partial_rotary_factor)
+        attention_factor = 1.0  # Unused in this type of RoPE
+        # Compute the inverse frequencies
+        inv_freq = 1.0 / (
+            base ** (torch.arange(0, dim, 2, dtype=torch.int64).to(device=device, dtype=torch.float) / dim)
+        )
+        return inv_freq, attention_factor
+    @torch.no_grad()
+    @dynamic_rope_update  # power user: used with advanced RoPE types (e.g. dynamic rope)
+    def forward(self, x, position_ids):
+        # In contrast to other models, GLM-V has different position ids for the grids
+        # So we expand the inv_freq to shape (3, ...)
+        inv_freq_expanded = self.inv_freq[None, None, :, None].float().expand(3, position_ids.shape[1], -1, 1)
+        position_ids_expanded = position_ids[:, :, None, :].float()  # shape (3, bs, 1, positions)
+        device_type = x.device.type if isinstance(x.device.type, str) and x.device.type != "mps" else "cpu"
+        with maybe_autocast(device_type=device_type, enabled=False):  # Force float32
+            freqs = (inv_freq_expanded.float() @ position_ids_expanded.float()).transpose(2, 3)
+            freqs = self.apply_mrope(freqs, self.mrope_section)
+            emb = torch.cat((freqs, freqs), dim=-1)
+            cos = emb.cos() * self.attention_scaling
+            sin = emb.sin() * self.attention_scaling
+        return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
+    def apply_mrope(self, freqs, mrope_section):
+        section = mrope_section
+        chunks = freqs.split(section, dim=-1)
+        result = torch.cat([chunk[i % 3] for i, chunk in enumerate(chunks)], dim=-1)
+        return result
+@auto_docstring
+class GlmImageTextModel(GlmImagePreTrainedModel):
+    config: GlmImageTextConfig
+    input_modalities = ("text",)
+    def __init__(self, config: GlmImageTextConfig):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.layers = nn.ModuleList(
+            [GlmImageTextDecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
+        )
+        self.norm = GlmImageRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.rotary_emb = GlmImageTextRotaryEmbedding(config=config)
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+    @auto_docstring
+    @check_model_inputs
+    def forward(
+        self,
+        input_ids: torch.LongTensor | None = None,
+        attention_mask: torch.Tensor | None = None,
+        position_ids: torch.LongTensor | None = None,
+        past_key_values: Cache | None = None,
+        inputs_embeds: torch.FloatTensor | None = None,
+        use_cache: bool | None = None,
+        cache_position: torch.LongTensor | None = None,
+        **kwargs: Unpack[FlashAttentionKwargs],
+    ) -> tuple | BaseModelOutputWithPast:
+        if (input_ids is None) ^ (inputs_embeds is not None):
+            raise ValueError("You must specify exactly one of input_ids or inputs_embeds")
+        # torch.jit.trace() doesn't support cache objects in the output
+        if use_cache and past_key_values is None and not torch.jit.is_tracing():
+            past_key_values = DynamicCache(config=self.config)
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        if cache_position is None:
+            past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
+            cache_position = torch.arange(
+                past_seen_tokens, past_seen_tokens + inputs_embeds.shape[1], device=inputs_embeds.device
+            )
+        # the hard coded `3` is for temporal, height and width.
+        if position_ids is None:
+            position_ids = cache_position.view(1, 1, -1).expand(3, inputs_embeds.shape[0], -1)
+        elif position_ids.ndim == 2:
+            position_ids = position_ids[None, ...].expand(3, position_ids.shape[0], -1)
+        # NOTE: we need to pass text position ids for packing. Qwen2-VL uses 3D positions
+        # where each dim indicates visual spatial positions for temporal/height/width grids.
+        # There are two scenarios when FA2-like packed masking might be activated.
+        # 1. User specifically passed packed `position_ids` and no attention mask.
+        #    In this case we expect the useer to create correct position ids for all 3 grids
+        #    and prepend text-only position ids to it. The final tensor will be [4, bs, seq-len]
+        # 2. User runs forward with no attention mask and no position ids. In this case, position ids
+        #    are prepared by the model (`get_rope_index`) as `[4, bs, seq-len]` tensor. Text-only positions are
+        #    prepended by us when creating positions so that the mask is constructed correctly. NOTE: failing to pass
+        #    text-only positions will cause incorrect mask construction, do not change `prepare_input_for_generation`
+        if position_ids.ndim == 3 and position_ids.shape[0] == 4:
+            text_position_ids = position_ids[0]
+            position_ids = position_ids[1:]
+        else:
+            # If inputs are not packed (usual 3D positions), do not prepare mask from position_ids
+            text_position_ids = None
+        mask_kwargs = {
+            "config": self.config,
+            "input_embeds": inputs_embeds,
+            "attention_mask": attention_mask,
+            "cache_position": cache_position,
+            "past_key_values": past_key_values,
+            "position_ids": text_position_ids,
+        }
+        # Create the masks
+        causal_mask = create_causal_mask(**mask_kwargs)
+        hidden_states = inputs_embeds
+        position_embeddings = self.rotary_emb(hidden_states, position_ids=position_ids)
+        for decoder_layer in self.layers:
+            layer_outputs = decoder_layer(
+                hidden_states,
+                attention_mask=causal_mask,
+                position_ids=text_position_ids,
+                past_key_values=past_key_values,
+                cache_position=cache_position,
+                position_embeddings=position_embeddings,
+                **kwargs,
+            )
+            hidden_states = layer_outputs
+        hidden_states = self.norm(hidden_states)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=past_key_values,
+        )
+@auto_docstring
+class GlmImageModel(GlmImagePreTrainedModel):
+    base_model_prefix = "model"
+    _checkpoint_conversion_mapping = {}
+    # Reference: fix gemma3 grad acc #37208
+    accepts_loss_kwargs = False
+    config: GlmImageConfig
+    _no_split_modules = ["GlmImageTextDecoderLayer", "GlmImageVisionBlock"]
+    def __init__(self, config):
+        super().__init__(config)
+        self.visual = GlmImageVisionModel._from_config(config.vision_config)
+        self.language_model = GlmImageTextModel._from_config(config.text_config)
+        self.rope_deltas = None  # cache rope_deltas here
+        self.vqmodel = GlmImageVQVAE._from_config(config.vq_config)
+        # Per-sample caches for batch processing
+        self._cached_decode_position_ids = None  # shape: [batch_size, 3, max_decode_len]
+        self._prefill_len = None  # prefill sequence length (same for all samples in batch)
+        # Initialize weights and apply final processing
+        self.post_init()
+    def get_input_embeddings(self):
+        return self.language_model.get_input_embeddings()
+    def set_input_embeddings(self, value):
+        self.language_model.set_input_embeddings(value)
+    def get_rope_index(
+        self,
+        input_ids: torch.LongTensor | None = None,
+        image_grid_thw: torch.LongTensor | None = None,
+        images_per_sample: torch.LongTensor | None = None,
+        attention_mask: torch.LongTensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Calculate the 3D rope index for image generation task with full batch support.
+        Args:
+            input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
+                Indices of input sequence tokens in the vocabulary.
+            image_grid_thw (`torch.LongTensor` of shape `(total_images_in_batch, 3)`, *optional*):
+                The temporal, height and width of feature shape of each image.
+                Images are packed across all samples in the batch.
+            images_per_sample (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+                Number of images (including target grids) for each sample in the batch.
+                Used to split image_grid_thw by sample.
+            attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
+                Mask to avoid performing attention on padding token indices.
+        Returns:
+            position_ids (`torch.LongTensor` of shape `(3, batch_size, sequence_length)`):
+                Position IDs for temporal, height, and width dimensions.
+            mrope_position_deltas (`torch.Tensor` of shape `(batch_size, 1)`):
+                Position deltas for multi-modal rotary position embedding.
+        """
+        batch_size, seq_len = input_ids.shape
+        device = input_ids.device
+        dtype = input_ids.dtype
+        image_start_token_id = self.config.image_start_token_id
+        image_end_token_id = self.config.image_end_token_id
+        position_ids = torch.ones(3, batch_size, seq_len, dtype=dtype, device=device)
+        text_positions = torch.arange(seq_len, device=device)[None, :].repeat(3, 1)
+        # Split image_grid_thw by sample if images_per_sample is provided
+        if image_grid_thw is not None and images_per_sample is not None:
+            grids_per_sample = torch.split(image_grid_thw, images_per_sample.tolist())
+        elif image_grid_thw is not None:
+            # Fallback: assume all grids belong to first sample (batch_size=1)
+            grids_per_sample = [image_grid_thw] * batch_size
+        else:
+            grids_per_sample = [None] * batch_size
+        # Per-sample caches for decode stage
+        all_decode_position_ids = []
+        for batch_idx in range(batch_size):
+            curr_input_ids = input_ids[batch_idx]
+            curr_grids = grids_per_sample[batch_idx]
+            if attention_mask is not None and attention_mask.shape[1] == seq_len:
+                valid_mask = attention_mask[batch_idx] == 1
+                curr_input_ids_valid = curr_input_ids[valid_mask]
+            else:
+                # attention_mask may have different length during assisted decoding
+                curr_input_ids_valid = curr_input_ids
+                valid_mask = None
+            # Find image boundaries in this sample
+            image_end_positions = torch.where(curr_input_ids_valid == image_end_token_id)[0]
+            image_start_positions = torch.where(curr_input_ids_valid == image_start_token_id)[0] + 1
+            num_complete_images = len(image_end_positions)
+            current_pos = 0
+            prev_image_end = 0
+            curr_position_ids = []
+            # Process complete images (source images in image-to-image task)
+            for img_idx, (start, end) in enumerate(zip(image_start_positions, image_end_positions)):
+                if curr_grids is None or img_idx >= len(curr_grids):
+                    break
+                grid = curr_grids[img_idx]
+                # grid format is [temporal, height, width]
+                _, height, width = grid.tolist()
+                # Text tokens before this image
+                llm_pos_length = start - prev_image_end
+                llm_position_ids = text_positions[:, current_pos : current_pos + llm_pos_length].to(device=device)
+                current_pos += llm_position_ids.shape[-1]
+                # Image tokens with 2D spatial encoding
+                # For an image with height H and width W:
+                # - position_width cycles [0, 1, ..., W-1] for each row, repeated H times
+                # - position_height stays constant per row, [0]*W, [1]*W, ..., [H-1]*W
+                image_seq_length = height * width
+                position_width = torch.arange(current_pos, current_pos + width, device=device).repeat(height)
+                position_height = torch.arange(current_pos, current_pos + height, device=device).repeat_interleave(
+                    width
+                )
+                position_temporal = torch.full((image_seq_length,), current_pos, device=device, dtype=torch.long)
+                vision_position_ids = torch.stack([position_temporal, position_height, position_width], dim=0)
+                current_pos += max(height, width)
+                prev_image_end = end
+                curr_position_ids.append(torch.cat([llm_position_ids, vision_position_ids], dim=-1))
+            # Remaining text tokens (including the final image_start token for generation)
+            end_position = len(curr_input_ids_valid) - prev_image_end
+            llm_position_ids = text_positions[:, current_pos : current_pos + end_position].to(device=device)
+            current_pos += llm_position_ids.shape[-1]
+            curr_position_ids.append(llm_position_ids)
+            # Concatenate all position ids for this sample
+            curr_position_ids = torch.cat(curr_position_ids, dim=-1)
+            # Store in the main position_ids tensor
+            if valid_mask is not None:
+                position_ids[:, batch_idx, valid_mask] = curr_position_ids
+            else:
+                position_ids[:, batch_idx, :] = curr_position_ids
+            # Build decode position ids for this sample
+            if curr_grids is not None and len(curr_grids) > 0:
+                num_decode_grids = len(curr_grids) - num_complete_images
+                num_decode_grids = max(num_decode_grids, 0)
+                decode_pos = current_pos
+                decode_temporal_list = []
+                decode_height_list = []
+                decode_width_list = []
+                for i in range(1, num_decode_grids + 1):
+                    grid_idx = -i
+                    h = curr_grids[grid_idx, 1].item()
+                    w = curr_grids[grid_idx, 2].item()
+                    total_tokens = h * w
+                    h_indices = torch.arange(h, device=device).unsqueeze(1).expand(h, w).flatten()
+                    w_indices = torch.arange(w, device=device).unsqueeze(0).expand(h, w).flatten()
+                    decode_temporal_list.append(
+                        torch.full((total_tokens,), decode_pos, device=device, dtype=torch.long)
+                    )
+                    decode_height_list.append(decode_pos + h_indices)
+                    decode_width_list.append(decode_pos + w_indices)
+                    decode_pos = decode_pos + max(h, w)
+                # End marker
+                decode_temporal_list.append(torch.tensor([decode_pos], device=device, dtype=torch.long))
+                decode_height_list.append(torch.tensor([decode_pos], device=device, dtype=torch.long))
+                decode_width_list.append(torch.tensor([decode_pos], device=device, dtype=torch.long))
+                sample_decode_pos_ids = torch.stack(
+                    [
+                        torch.cat(decode_temporal_list, dim=0),
+                        torch.cat(decode_height_list, dim=0),
+                        torch.cat(decode_width_list, dim=0),
+                    ],
+                    dim=0,
+                )
+                all_decode_position_ids.append(sample_decode_pos_ids)
+        # Store prefill length (same for all samples since input_ids is padded to same length)
+        self._prefill_len = seq_len
+        # Pad decode position ids to same length and stack
+        if all_decode_position_ids:
+            max_decode_len = max(x.shape[1] for x in all_decode_position_ids)
+            padded_decode_pos_ids = [
+                F.pad(pos_ids, (0, max_decode_len - pos_ids.shape[1]), mode="replicate")
+                for pos_ids in all_decode_position_ids
+            ]
+            self._cached_decode_position_ids = torch.stack(padded_decode_pos_ids, dim=0)  # [batch, 3, max_decode_len]
+        else:
+            self._cached_decode_position_ids = None
+        mrope_position_deltas = torch.zeros([batch_size, 1], dtype=dtype, device=device)
+        return position_ids, mrope_position_deltas
+    @can_return_tuple
+    @auto_docstring
+    def get_image_features(
+        self,
+        pixel_values: torch.FloatTensor,
+        image_grid_thw: torch.LongTensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> tuple | BaseModelOutputWithPooling:
+        r"""
+        pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, image_size, image_size)`):
+            The tensors corresponding to the input images.
+        image_grid_thw (`torch.LongTensor` of shape `(num_images, 3)`, *optional*):
+            The temporal, height and width of feature shape of each image in LLM.
+        """
+        pixel_values = pixel_values.type(self.visual.dtype)
+        vision_outputs = self.visual(pixel_values, grid_thw=image_grid_thw, return_dict=True, **kwargs)
+        split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()
+        image_embeds = torch.split(vision_outputs.last_hidden_state, split_sizes)
+        vision_outputs.pooler_output = image_embeds
+        return vision_outputs
+    def get_placeholder_mask(
+        self,
+        input_ids: torch.LongTensor,
+        image_ids: torch.LongTensor,
+    ):
+        """
+        Replace image placeholder tokens in input_ids with actual image token ids from VQVAE.
+        Args:
+            input_ids (`torch.LongTensor` of shape `(batch_size, seq_len)`):
+                Input token ids with image placeholders.
+            image_ids (`torch.LongTensor` of shape `(num_images, num_tokens_per_image)` or flattened):
+                Discrete token indices from the VQVAE codebook.
+        Returns:
+            special_image_mask (`torch.LongTensor` of shape `(batch_size, seq_len)`):
+                Mask indicating positions in input ids that will be replaced by actual image tokens.
+        """
+        special_image_mask = input_ids == self.config.image_token_id
+        n_placeholder_tokens = special_image_mask.sum().item()
+        n_image_tokens = image_ids.shape[0]
+        if n_placeholder_tokens != n_image_tokens:
+            raise ValueError(
+                f"Number of image placeholder tokens ({n_placeholder_tokens}) does not match "
+                f"number of image tokens from VQVAE ({n_image_tokens})"
+            )
+        return special_image_mask
+    @auto_docstring
+    @can_return_tuple
+    def forward(
+        self,
+        input_ids: torch.LongTensor | None = None,
+        attention_mask: torch.Tensor | None = None,
+        position_ids: torch.LongTensor | None = None,
+        past_key_values: Cache | None = None,
+        inputs_embeds: torch.FloatTensor | None = None,
+        pixel_values: torch.Tensor | None = None,
+        image_grid_thw: torch.LongTensor | None = None,
+        images_per_sample: torch.LongTensor | None = None,
+        rope_deltas: torch.LongTensor | None = None,
+        cache_position: torch.LongTensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> tuple | GlmImageModelOutputWithPast:
+        r"""
+        image_grid_thw (`torch.LongTensor` of shape `(total_images_in_batch, 3)`, *optional*):
+            The temporal, height and width of feature shape of each image in LLM.
+            Images are packed across all samples in the batch.
+        images_per_sample (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Number of images (including target grids) for each sample in the batch.
+        rope_deltas (`torch.LongTensor` of shape `(batch_size, )`, *optional*):
+            The rope index difference between sequence length and multimodal rope.
+        """
+        if (input_ids is None) ^ (inputs_embeds is not None):
+            raise ValueError("You must specify exactly one of input_ids or inputs_embeds")
+        batch_size = input_ids.shape[0] if input_ids is not None else inputs_embeds.shape[0]
+        if pixel_values is not None:
+            # Process source images (image-to-image mode)
+            # Source images are identified by counting image_end_token_id in input_ids
+            # Note: We must exclude padding tokens since pad_token_id == image_end_token_id
+            if images_per_sample is not None:
+                grids_per_sample = torch.split(image_grid_thw, images_per_sample.tolist())
+                # Create mask for non-padding tokens (attention_mask=1 means non-padding)
+                # Handle 4D attention mask (from static cache) by extracting diagonal
+                if attention_mask is not None and attention_mask.ndim == 4:
+                    non_pad_mask = torch.diagonal(attention_mask[:, 0], dim1=1, dim2=2)
+                    if non_pad_mask.dtype.is_floating_point:
+                        non_pad_mask = non_pad_mask / torch.finfo(non_pad_mask.dtype).min
+                        non_pad_mask = (1.0 - non_pad_mask).int()
+                    # Only keep columns matching input_ids length
+                    non_pad_mask = non_pad_mask[:, -input_ids.shape[1] :]
+                else:
+                    non_pad_mask = attention_mask if attention_mask is not None else torch.ones_like(input_ids)
+                source_grids_list = []
+                for sample_idx in range(batch_size):
+                    is_image_end = input_ids[sample_idx] == self.config.image_end_token_id
+                    is_non_pad = non_pad_mask[sample_idx] == 1
+                    num_source = (is_image_end & is_non_pad).sum().item()
+                    if num_source > 0:
+                        source_grids_list.append(grids_per_sample[sample_idx][:num_source])
+                if len(source_grids_list) == 0:
+                    raise ValueError(
+                        "pixel_values provided but no source images found in input_ids. "
+                        "Ensure input_ids contains image_end_token_id for each source image."
+                    )
+                source_grids = torch.cat(source_grids_list, dim=0)
+            else:
+                # Fallback for batch_size=1: all but last grid are source images
+                source_grids = image_grid_thw[:-1]
+            image_features = self.get_image_features(pixel_values, source_grids, return_dict=True)
+            image_embeds = torch.cat(image_features.pooler_output, dim=0)
+            image_ids = self.get_image_tokens(image_embeds, source_grids)
+            image_ids = image_ids.view(-1).to(input_ids.device)
+            special_image_mask = self.get_placeholder_mask(input_ids, image_ids)
+            input_ids = input_ids.masked_scatter(special_image_mask, image_ids)
+        if inputs_embeds is None:
+            inputs_embeds = self.get_input_embeddings()(input_ids)
+        if position_ids is None:
+            attention_mask_2d = attention_mask
+            if attention_mask is not None and attention_mask.ndim == 4:
+                attention_mask_2d = torch.diagonal(attention_mask[:, 0], dim1=1, dim2=2)
+                # Only apply conversion for floating point tensors (inverted masks)
+                if attention_mask_2d.dtype.is_floating_point:
+                    attention_mask_2d = attention_mask_2d / torch.finfo(attention_mask_2d.dtype).min
+                    attention_mask_2d = (1.0 - attention_mask_2d).int()
+            # Calculate RoPE index once per generation in the pre-fill stage only.
+            is_prefill_stage = (input_ids is not None and input_ids.shape[1] != 1) or (
+                inputs_embeds is not None and inputs_embeds.shape[1] != 1
+            )
+            if is_prefill_stage or self.rope_deltas is None:
+                position_ids, rope_deltas = self.get_rope_index(
+                    input_ids,
+                    image_grid_thw,
+                    images_per_sample=images_per_sample,
+                    attention_mask=attention_mask_2d,
+                )
+                self.rope_deltas = rope_deltas
+            # then use the prev pre-calculated rope-deltas to get the correct position ids
+            else:
+                batch_size, seq_length, _ = inputs_embeds.shape
+                # Per-sample decode position lookup
+                # _cached_decode_position_ids shape: [batch_size, 3, max_decode_len]
+                if self._cached_decode_position_ids is not None:
+                    step = cache_position[0].item() - self._prefill_len
+                    # Get position ids for all samples at once, then transpose to [3, batch_size, seq_length]
+                    position_ids = self._cached_decode_position_ids[:, :, step : step + seq_length].permute(1, 0, 2)
+                else:
+                    # Fallback for text-to-image or cases without cached decode positions
+                    # Use simple incremental positions
+                    start_pos = cache_position[0].item()
+                    position_ids = torch.arange(
+                        start_pos, start_pos + seq_length, device=inputs_embeds.device, dtype=torch.long
+                    )
+                    position_ids = position_ids.unsqueeze(0).repeat(3, batch_size, 1)
+        outputs = self.language_model(
+            input_ids=None,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            cache_position=cache_position,
+            **kwargs,
+        )
+        return GlmImageModelOutputWithPast(
+            last_hidden_state=outputs.last_hidden_state,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+            rope_deltas=self.rope_deltas,
+        )
+    def get_image_tokens(
+        self,
+        hidden_states: torch.FloatTensor,
+        image_grid_thw: torch.LongTensor,
+    ) -> torch.LongTensor:
+        """
+        Tokenizes image features into discrete tokens with VQVAE module.
+        Args:
+            hidden_states (`torch.FloatTensor` of shape `(total_patches, hidden_size)`):
+                The packed image features from vision encoder.
+            image_grid_thw (`torch.LongTensor` of shape `(num_images, 3)`):
+                The temporal, height and width of feature shape of each image.
+        Returns:
+            image_tokens (`torch.LongTensor` of shape `(total_patches,)`):
+                Discrete token indices from the VQVAE codebook.
+        """
+        hidden_size = hidden_states.shape[-1]
+        split_sizes = (image_grid_thw.prod(dim=-1)).tolist()
+        hidden_states_list = torch.split(hidden_states, split_sizes, dim=0)
+        all_image_toks = []
+        for i, hs in enumerate(hidden_states_list):
+            grid_t, grid_h, grid_w = image_grid_thw[i].tolist()
+            hs = hs.view(grid_t, grid_h, grid_w, hidden_size)
+            hs = hs.permute(0, 3, 1, 2).contiguous()
+            vqmodel_outputs: GlmImageVQVAEModelOutput = self.vqmodel.encode(hs)
+            all_image_toks.append(vqmodel_outputs.image_tokens)
+        return torch.cat(all_image_toks, dim=0)
+@dataclass
+@auto_docstring(
+    custom_intro="""
+    Base class for GlmImage causal language model (or autoregressive) outputs.
+    """
+)
+class GlmImageCausalLMOutputWithPast(ModelOutput):
+    r"""
+    loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
+        Language modeling loss (for next-token prediction).
+    logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.vocab_size)`):
+        Prediction scores of the language modeling head (scores for each vocabulary token before SoftMax).
+    past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
+        It is a [`~cache_utils.Cache`] instance. For more details, see our [kv cache guide](https://huggingface.co/docs/transformers/en/kv_cache).
+        Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
+        `past_key_values` input) to speed up sequential decoding.
+    rope_deltas (`torch.LongTensor` of shape `(batch_size, )`, *optional*):
+        The rope index difference between sequence length and multimodal rope.
+    """
+    loss: torch.FloatTensor | None = None
+    logits: torch.FloatTensor | None = None
+    past_key_values: Cache | None = None
+    hidden_states: tuple[torch.FloatTensor] | None = None
+    attentions: tuple[torch.FloatTensor] | None = None
+    rope_deltas: torch.LongTensor | None = None
+class GlmImageForConditionalGeneration(GlmImagePreTrainedModel, GenerationMixin):
+    _checkpoint_conversion_mapping = {}
+    _tied_weights_keys = {}
+    # Reference: fix gemma3 grad acc #37208
+    accepts_loss_kwargs = False
+    base_model_prefix = "model"
+    config: GlmImageConfig
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = GlmImageModel(config)
+        self.lm_head = nn.Linear(config.text_config.hidden_size, config.text_config.vision_vocab_size, bias=False)
+        # Initialize weights and apply final processing
+        self.post_init()
+    @auto_docstring
+    def get_image_features(
+        self,
+        pixel_values: torch.FloatTensor,
+        image_grid_thw: torch.LongTensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> tuple | BaseModelOutputWithPooling:
+        r"""
+        pixel_values (`torch.FloatTensor` of shape `(batch_size, num_channels, image_size, image_size)`):
+            The tensors corresponding to the input images.
+        image_grid_thw (`torch.LongTensor` of shape `(num_images, 3)`, *optional*):
+            The temporal, height and width of feature shape of each image in LLM.
+        """
+        return self.model.get_image_features(pixel_values, image_grid_thw, **kwargs)
+    def get_image_tokens(self, hidden_states: torch.FloatTensor, image_grid_thw: torch.LongTensor | None = None):
+        return self.model.get_image_tokens(hidden_states, image_grid_thw)
+    def forward(
+        self,
+        input_ids: torch.LongTensor | None = None,
+        attention_mask: torch.Tensor | None = None,
+        position_ids: torch.LongTensor | None = None,
+        past_key_values: Cache | None = None,
+        inputs_embeds: torch.FloatTensor | None = None,
+        labels: torch.LongTensor | None = None,
+        pixel_values: torch.Tensor | None = None,
+        image_grid_thw: torch.LongTensor | None = None,
+        images_per_sample: torch.LongTensor | None = None,
+        cache_position: torch.LongTensor | None = None,
+        logits_to_keep: int | torch.Tensor = 0,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> tuple | GlmImageCausalLMOutputWithPast:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+        image_grid_thw (`torch.LongTensor` of shape `(total_images_in_batch, 3)`, *optional*):
+            The temporal, height and width of feature shape of each image in LLM.
+            Images are packed across all samples in the batch.
+        images_per_sample (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Number of images (including target grids) for each sample in the batch.
+        Example:
+        ```python
+        >>> from PIL import Image
+        >>> import httpx
+        >>> from io import BytesIO
+        >>> from transformers import AutoProcessor, GlmImageForConditionalGeneration
+        >>> model = GlmImageForConditionalGeneration.from_pretrained("zai-org/GLM-Image")
+        >>> processor = AutoProcessor.from_pretrained("zai-org/GLM-Image")
+        >>> messages = [
+            {
+                "role": "user",
+                "content": [
+                    {"type": "image"},
+                    {"type": "text", "text": "Add a truck of this photo.<sop>28 40<eop>"},
+                ],
+            },
+        ]
+        >>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
+        >>> with httpx.stream("GET", url) as response:
+        ...     image = Image.open(BytesIO(response.read()))
+        >>> text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+        >>> inputs = processor(text=[text], images=[image], vision_infos=[vision_infos])
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        "The image shows a street scene with a red stop sign in the foreground. In the background, there is a large red gate with Chinese characters ..."
+        ```"""
+        outputs = self.model(
+            input_ids=input_ids,
+            pixel_values=pixel_values,
+            image_grid_thw=image_grid_thw,
+            images_per_sample=images_per_sample,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            cache_position=cache_position,
+            **kwargs,
+        )
+        hidden_states = outputs[0]
+        # Only compute necessary logits, and do not upcast them to float if we are not computing the loss
+        slice_indices = slice(-logits_to_keep, None) if isinstance(logits_to_keep, int) else logits_to_keep
+        logits = self.lm_head(hidden_states[:, slice_indices, :])
+        loss = None
+        if labels is not None:
+            loss = self.loss_function(logits=logits, labels=labels, vocab_size=self.config.text_config.vocab_size)
+        return GlmImageCausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+            rope_deltas=outputs.rope_deltas,
+        )
+    def prepare_inputs_for_generation(
+        self,
+        input_ids,
+        past_key_values=None,
+        attention_mask=None,
+        inputs_embeds=None,
+        cache_position=None,
+        position_ids=None,
+        use_cache=True,
+        pixel_values=None,
+        image_grid_thw=None,
+        images_per_sample=None,
+        is_first_iteration=False,
+        **kwargs,
+    ):
+        model_inputs = super().prepare_inputs_for_generation(
+            input_ids,
+            past_key_values=past_key_values,
+            attention_mask=attention_mask,
+            inputs_embeds=inputs_embeds,
+            cache_position=cache_position,
+            position_ids=position_ids,
+            pixel_values=pixel_values,
+            image_grid_thw=image_grid_thw,
+            is_first_iteration=is_first_iteration,
+            use_cache=use_cache,
+            **kwargs,
+        )
+        model_inputs["position_ids"] = None
+        model_inputs["images_per_sample"] = images_per_sample
+        if not is_first_iteration and use_cache:
+            model_inputs["pixel_values"] = None
+        return model_inputs
+    def _get_image_nums(
+        self,
+        input_ids: torch.LongTensor | None,
+    ) -> torch.Tensor:
+        """
+        Get the number of images for each sample.
+        For GLM-Image, only input_ids allow us to get the number of images.
+        Returns:
+            image_counts (`torch.LongTensor` of shape `(batch_size,)`)
+        """
+        is_image = input_ids == self.config.image_start_token_id
+        return is_image.sum(dim=1)
+    def _expand_inputs_for_generation(
+        self,
+        expand_size: int = 1,
+        is_encoder_decoder: bool = False,
+        input_ids: torch.LongTensor | None = None,
+        **model_kwargs,
+    ) -> tuple[torch.LongTensor, dict[str, Any]]:
+        # Overwritten -- Support for expanding tensors without a batch size dimension
+        # e.g., pixel_values, image_grid_thw
+        # pixel_values.shape[0] is sum(seqlen_images for samples)
+        # image_grid_thw.shape[0] is sum(num_images for samples)
+        if expand_size == 1:
+            return input_ids, model_kwargs
+        visual_keys = ["pixel_values", "image_grid_thw", "images_per_sample"]
+        def _expand_dict_for_generation_visual(dict_to_expand):
+            image_grid_thw = model_kwargs.get("image_grid_thw", None)
+            if image_grid_thw is None:
+                return dict_to_expand
+            images_per_sample = model_kwargs.get("images_per_sample", None)
+            # Use images_per_sample if available
+            if images_per_sample is not None:
+                image_nums = images_per_sample.tolist()
+            elif input_ids is not None:
+                # Try to infer from image_grid_thw / batch_size
+                batch_size = input_ids.shape[0]
+                total_grids = image_grid_thw.shape[0]
+                if total_grids % batch_size == 0:
+                    grids_per_sample = total_grids // batch_size
+                    image_nums = [grids_per_sample] * batch_size
+                else:
+                    # Cannot evenly distribute grids - fall back to simple repeat_interleave
+                    # This handles test cases where image_grid_thw has (batch_size + 1) rows
+                    dict_to_expand["image_grid_thw"] = image_grid_thw.repeat_interleave(expand_size, dim=0)
+                    if dict_to_expand.get("pixel_values") is not None:
+                        dict_to_expand["pixel_values"] = dict_to_expand["pixel_values"].repeat_interleave(
+                            expand_size, dim=0
+                        )
+                    return dict_to_expand
+            else:
+                image_nums = self._get_image_nums(input_ids).tolist()
+            # Get source image counts per sample from image_end_token_id count
+            source_image_nums = [
+                (input_ids[batch_idx] == self.config.image_end_token_id).sum().item()
+                for batch_idx in range(len(image_nums))
+            ]
+            def _repeat_interleave_samples(x, lengths, repeat_times):
+                samples = torch.split(x, lengths)
+                repeat_args = [repeat_times] + [1] * (x.dim() - 1)
+                result = torch.cat([sample.repeat(*repeat_args) for sample in samples], dim=0)
+                return result
+            for key in dict_to_expand:
+                if key == "pixel_values":
+                    # Split images into samples based on source image counts
+                    if sum(source_image_nums) > 0:
+                        # Split grids by sample to compute pixel counts
+                        grids_per_sample = torch.split(image_grid_thw, image_nums)
+                        lengths = []
+                        for batch_idx, sample_grids in enumerate(grids_per_sample):
+                            num_source = source_image_nums[batch_idx]
+                            if num_source > 0:
+                                source_grids = sample_grids[:num_source]
+                                lengths.append(torch.prod(source_grids, dim=1).sum().item())
+                            else:
+                                lengths.append(0)
+                        dict_to_expand[key] = _repeat_interleave_samples(
+                            dict_to_expand[key], lengths=lengths, repeat_times=expand_size
+                        )
+                elif key == "image_grid_thw":
+                    # Expand all grids (source + target) per sample
+                    dict_to_expand[key] = _repeat_interleave_samples(
+                        dict_to_expand[key], lengths=image_nums, repeat_times=expand_size
+                    )
+                elif key == "images_per_sample":
+                    # Simply repeat the counts
+                    if dict_to_expand.get(key) is not None:
+                        dict_to_expand[key] = dict_to_expand[key].repeat_interleave(expand_size, dim=0)
+            return dict_to_expand
+        def _expand_dict_for_generation(dict_to_expand):
+            for key in dict_to_expand:
+                if (
+                    key != "cache_position"
+                    and dict_to_expand[key] is not None
+                    and isinstance(dict_to_expand[key], torch.Tensor)
+                    and key not in visual_keys
+                ):
+                    dict_to_expand[key] = dict_to_expand[key].repeat_interleave(expand_size, dim=0)
+            return dict_to_expand
+        model_kwargs = _expand_dict_for_generation_visual(model_kwargs)
+        if input_ids is not None:
+            input_ids = input_ids.repeat_interleave(expand_size, dim=0)
+        model_kwargs = _expand_dict_for_generation(model_kwargs)
+        if is_encoder_decoder:
+            if model_kwargs.get("encoder_outputs") is None:
+                raise ValueError("If `is_encoder_decoder` is True, make sure that `encoder_outputs` is defined.")
+            model_kwargs["encoder_outputs"] = _expand_dict_for_generation(model_kwargs["encoder_outputs"])
+        return input_ids, model_kwargs
+__all__ = [
+    "GlmImagePreTrainedModel",
+    "GlmImageVQVAE",
+    "GlmImageVisionModel",
+    "GlmImageTextModel",
+    "GlmImageModel",
+    "GlmImageForConditionalGeneration",
+]

transformers 5.0.0rc2__py3-none-any.whl → 5.1.0__py3-none-any.whl

transformers 5.0.0rc2py3-none-any.whl → 5.1.0py3-none-any.whl