PyPI - transformers - Versions diffs - 5.0.0__py3-none-any.whl → 5.0.0rc0__py3-none-any.whl - Mend

transformers 5.0.0py3-none-any.whl → 5.0.0rc0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1606) hide show

transformers/__init__.py +36 -55
transformers/activations.py +1 -1
transformers/audio_utils.py +33 -32
transformers/cache_utils.py +139 -32
transformers/cli/chat.py +3 -3
transformers/cli/serve.py +19 -49
transformers/cli/transformers.py +1 -2
transformers/configuration_utils.py +155 -129
transformers/conversion_mapping.py +22 -158
transformers/convert_slow_tokenizer.py +17 -227
transformers/core_model_loading.py +185 -528
transformers/data/data_collator.py +4 -12
transformers/data/processors/glue.py +1 -0
transformers/data/processors/utils.py +1 -0
transformers/data/processors/xnli.py +1 -0
transformers/dependency_versions_check.py +1 -0
transformers/dependency_versions_table.py +7 -5
transformers/distributed/configuration_utils.py +2 -1
transformers/dynamic_module_utils.py +25 -24
transformers/feature_extraction_sequence_utils.py +23 -19
transformers/feature_extraction_utils.py +33 -64
transformers/file_utils.py +1 -0
transformers/generation/__init__.py +1 -11
transformers/generation/candidate_generator.py +33 -80
transformers/generation/configuration_utils.py +133 -189
transformers/generation/continuous_batching/__init__.py +1 -4
transformers/generation/continuous_batching/cache.py +25 -83
transformers/generation/continuous_batching/cache_manager.py +45 -155
transformers/generation/continuous_batching/continuous_api.py +147 -270
transformers/generation/continuous_batching/requests.py +3 -51
transformers/generation/continuous_batching/scheduler.py +105 -160
transformers/generation/logits_process.py +128 -0
transformers/generation/stopping_criteria.py +1 -1
transformers/generation/streamers.py +1 -0
transformers/generation/utils.py +123 -122
transformers/generation/watermarking.py +6 -8
transformers/hf_argparser.py +13 -9
transformers/hyperparameter_search.py +2 -1
transformers/image_processing_base.py +23 -12
transformers/image_processing_utils.py +15 -11
transformers/image_processing_utils_fast.py +75 -85
transformers/image_transforms.py +42 -73
transformers/image_utils.py +32 -30
transformers/initialization.py +0 -37
transformers/integrations/__init__.py +2 -16
transformers/integrations/accelerate.py +113 -58
transformers/integrations/aqlm.py +66 -36
transformers/integrations/awq.py +516 -45
transformers/integrations/bitnet.py +105 -47
transformers/integrations/bitsandbytes.py +202 -91
transformers/integrations/deepspeed.py +4 -161
transformers/integrations/eetq.py +82 -84
transformers/integrations/executorch.py +1 -1
transformers/integrations/fbgemm_fp8.py +145 -190
transformers/integrations/finegrained_fp8.py +215 -249
transformers/integrations/flash_attention.py +3 -3
transformers/integrations/flex_attention.py +1 -1
transformers/integrations/fp_quant.py +0 -90
transformers/integrations/ggml.py +2 -11
transformers/integrations/higgs.py +62 -37
transformers/integrations/hub_kernels.py +8 -65
transformers/integrations/integration_utils.py +3 -47
transformers/integrations/mistral.py +0 -12
transformers/integrations/mxfp4.py +80 -33
transformers/integrations/peft.py +191 -483
transformers/integrations/quanto.py +56 -77
transformers/integrations/spqr.py +90 -42
transformers/integrations/tensor_parallel.py +221 -167
transformers/integrations/torchao.py +43 -35
transformers/integrations/vptq.py +59 -40
transformers/kernels/__init__.py +0 -0
transformers/{models/pe_audio_video/processing_pe_audio_video.py → kernels/falcon_mamba/__init__.py} +3 -12
transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py +529 -0
transformers/loss/loss_utils.py +0 -2
transformers/masking_utils.py +55 -51
transformers/model_debugging_utils.py +5 -4
transformers/modelcard.py +194 -15
transformers/modeling_attn_mask_utils.py +19 -19
transformers/modeling_flash_attention_utils.py +27 -27
transformers/modeling_gguf_pytorch_utils.py +24 -79
transformers/modeling_layers.py +22 -21
transformers/modeling_outputs.py +253 -242
transformers/modeling_rope_utils.py +117 -138
transformers/modeling_utils.py +739 -850
transformers/models/__init__.py +0 -27
transformers/models/afmoe/configuration_afmoe.py +33 -40
transformers/models/afmoe/modeling_afmoe.py +54 -42
transformers/models/afmoe/modular_afmoe.py +33 -23
transformers/models/aimv2/configuration_aimv2.py +10 -2
transformers/models/aimv2/modeling_aimv2.py +42 -47
transformers/models/aimv2/modular_aimv2.py +19 -17
transformers/models/albert/configuration_albert.py +2 -8
transformers/models/albert/modeling_albert.py +69 -70
transformers/models/albert/tokenization_albert.py +14 -5
transformers/models/align/configuration_align.py +6 -8
transformers/models/align/modeling_align.py +89 -94
transformers/models/align/processing_align.py +30 -2
transformers/models/altclip/configuration_altclip.py +7 -4
transformers/models/altclip/modeling_altclip.py +103 -114
transformers/models/altclip/processing_altclip.py +15 -2
transformers/models/apertus/__init__.py +1 -0
transformers/models/apertus/configuration_apertus.py +28 -23
transformers/models/apertus/modeling_apertus.py +40 -39
transformers/models/apertus/modular_apertus.py +38 -37
transformers/models/arcee/configuration_arcee.py +30 -25
transformers/models/arcee/modeling_arcee.py +39 -36
transformers/models/arcee/modular_arcee.py +23 -20
transformers/models/aria/configuration_aria.py +44 -31
transformers/models/aria/image_processing_aria.py +27 -25
transformers/models/aria/modeling_aria.py +106 -110
transformers/models/aria/modular_aria.py +127 -118
transformers/models/aria/processing_aria.py +35 -28
transformers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py +1 -0
transformers/models/audio_spectrogram_transformer/feature_extraction_audio_spectrogram_transformer.py +6 -3
transformers/models/audio_spectrogram_transformer/modeling_audio_spectrogram_transformer.py +8 -6
transformers/models/audioflamingo3/__init__.py +1 -0
transformers/models/audioflamingo3/configuration_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/modeling_audioflamingo3.py +49 -58
transformers/models/audioflamingo3/modular_audioflamingo3.py +43 -53
transformers/models/audioflamingo3/processing_audioflamingo3.py +30 -33
transformers/models/auto/auto_factory.py +7 -6
transformers/models/auto/configuration_auto.py +5 -66
transformers/models/auto/feature_extraction_auto.py +10 -14
transformers/models/auto/image_processing_auto.py +41 -32
transformers/models/auto/modeling_auto.py +188 -46
transformers/models/auto/processing_auto.py +11 -24
transformers/models/auto/tokenization_auto.py +588 -171
transformers/models/auto/video_processing_auto.py +10 -12
transformers/models/autoformer/configuration_autoformer.py +7 -4
transformers/models/autoformer/modeling_autoformer.py +101 -104
transformers/models/aya_vision/configuration_aya_vision.py +1 -4
transformers/models/aya_vision/modeling_aya_vision.py +102 -71
transformers/models/aya_vision/modular_aya_vision.py +74 -46
transformers/models/aya_vision/processing_aya_vision.py +53 -25
transformers/models/bamba/configuration_bamba.py +39 -34
transformers/models/bamba/modeling_bamba.py +86 -82
transformers/models/bamba/modular_bamba.py +72 -70
transformers/models/bark/configuration_bark.py +8 -6
transformers/models/bark/generation_configuration_bark.py +5 -3
transformers/models/bark/modeling_bark.py +57 -54
transformers/models/bark/processing_bark.py +41 -19
transformers/models/bart/configuration_bart.py +6 -9
transformers/models/bart/modeling_bart.py +126 -135
transformers/models/barthez/tokenization_barthez.py +11 -3
transformers/models/bartpho/tokenization_bartpho.py +7 -6
transformers/models/beit/configuration_beit.py +11 -0
transformers/models/beit/image_processing_beit.py +56 -53
transformers/models/beit/image_processing_beit_fast.py +12 -10
transformers/models/beit/modeling_beit.py +60 -69
transformers/models/bert/configuration_bert.py +2 -12
transformers/models/bert/modeling_bert.py +122 -114
transformers/models/bert/tokenization_bert.py +23 -8
transformers/models/bert/tokenization_bert_legacy.py +5 -3
transformers/models/bert_generation/configuration_bert_generation.py +2 -17
transformers/models/bert_generation/modeling_bert_generation.py +49 -49
transformers/models/bert_generation/tokenization_bert_generation.py +3 -2
transformers/models/bert_japanese/tokenization_bert_japanese.py +6 -5
transformers/models/bertweet/tokenization_bertweet.py +3 -1
transformers/models/big_bird/configuration_big_bird.py +9 -12
transformers/models/big_bird/modeling_big_bird.py +109 -116
transformers/models/big_bird/tokenization_big_bird.py +43 -16
transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py +9 -9
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +117 -130
transformers/models/biogpt/configuration_biogpt.py +2 -8
transformers/models/biogpt/modeling_biogpt.py +76 -72
transformers/models/biogpt/modular_biogpt.py +66 -62
transformers/models/biogpt/tokenization_biogpt.py +5 -3
transformers/models/bit/configuration_bit.py +1 -0
transformers/models/bit/image_processing_bit.py +24 -21
transformers/models/bit/image_processing_bit_fast.py +1 -0
transformers/models/bit/modeling_bit.py +12 -25
transformers/models/bitnet/configuration_bitnet.py +28 -23
transformers/models/bitnet/modeling_bitnet.py +39 -36
transformers/models/bitnet/modular_bitnet.py +6 -4
transformers/models/blenderbot/configuration_blenderbot.py +5 -8
transformers/models/blenderbot/modeling_blenderbot.py +96 -77
transformers/models/blenderbot/tokenization_blenderbot.py +24 -18
transformers/models/blenderbot_small/configuration_blenderbot_small.py +5 -8
transformers/models/blenderbot_small/modeling_blenderbot_small.py +69 -79
transformers/models/blenderbot_small/tokenization_blenderbot_small.py +3 -1
transformers/models/blip/configuration_blip.py +10 -9
transformers/models/blip/image_processing_blip.py +20 -17
transformers/models/blip/image_processing_blip_fast.py +1 -0
transformers/models/blip/modeling_blip.py +108 -117
transformers/models/blip/modeling_blip_text.py +65 -73
transformers/models/blip/processing_blip.py +36 -5
transformers/models/blip_2/configuration_blip_2.py +2 -2
transformers/models/blip_2/modeling_blip_2.py +118 -146
transformers/models/blip_2/processing_blip_2.py +38 -8
transformers/models/bloom/configuration_bloom.py +2 -5
transformers/models/bloom/modeling_bloom.py +104 -77
transformers/models/blt/configuration_blt.py +86 -94
transformers/models/blt/modeling_blt.py +81 -238
transformers/models/blt/modular_blt.py +65 -228
transformers/models/bridgetower/configuration_bridgetower.py +2 -7
transformers/models/bridgetower/image_processing_bridgetower.py +35 -34
transformers/models/bridgetower/image_processing_bridgetower_fast.py +16 -13
transformers/models/bridgetower/modeling_bridgetower.py +119 -141
transformers/models/bridgetower/processing_bridgetower.py +16 -2
transformers/models/bros/configuration_bros.py +18 -24
transformers/models/bros/modeling_bros.py +80 -90
transformers/models/bros/processing_bros.py +12 -2
transformers/models/byt5/tokenization_byt5.py +6 -4
transformers/models/camembert/configuration_camembert.py +2 -8
transformers/models/camembert/modeling_camembert.py +195 -196
transformers/models/camembert/modular_camembert.py +54 -51
transformers/models/camembert/tokenization_camembert.py +13 -6
transformers/models/canine/configuration_canine.py +2 -4
transformers/models/canine/modeling_canine.py +75 -84
transformers/models/canine/tokenization_canine.py +1 -2
transformers/models/chameleon/configuration_chameleon.py +34 -29
transformers/models/chameleon/image_processing_chameleon.py +24 -21
transformers/models/chameleon/image_processing_chameleon_fast.py +6 -5
transformers/models/chameleon/modeling_chameleon.py +93 -142
transformers/models/chameleon/processing_chameleon.py +41 -16
transformers/models/chinese_clip/configuration_chinese_clip.py +8 -10
transformers/models/chinese_clip/image_processing_chinese_clip.py +24 -21
transformers/models/chinese_clip/image_processing_chinese_clip_fast.py +1 -0
transformers/models/chinese_clip/modeling_chinese_clip.py +92 -96
transformers/models/chinese_clip/processing_chinese_clip.py +15 -2
transformers/models/clap/configuration_clap.py +9 -4
transformers/models/clap/feature_extraction_clap.py +12 -11
transformers/models/clap/modeling_clap.py +123 -136
transformers/models/clap/processing_clap.py +15 -2
transformers/models/clip/configuration_clip.py +2 -4
transformers/models/clip/image_processing_clip.py +24 -21
transformers/models/clip/image_processing_clip_fast.py +1 -9
transformers/models/clip/modeling_clip.py +65 -65
transformers/models/clip/processing_clip.py +14 -2
transformers/models/clip/tokenization_clip.py +46 -21
transformers/models/clipseg/configuration_clipseg.py +2 -4
transformers/models/clipseg/modeling_clipseg.py +109 -119
transformers/models/clipseg/processing_clipseg.py +42 -19
transformers/models/clvp/configuration_clvp.py +5 -15
transformers/models/clvp/feature_extraction_clvp.py +10 -7
transformers/models/clvp/modeling_clvp.py +146 -155
transformers/models/clvp/number_normalizer.py +2 -1
transformers/models/clvp/processing_clvp.py +20 -3
transformers/models/clvp/tokenization_clvp.py +64 -1
transformers/models/code_llama/tokenization_code_llama.py +44 -18
transformers/models/codegen/configuration_codegen.py +4 -4
transformers/models/codegen/modeling_codegen.py +53 -63
transformers/models/codegen/tokenization_codegen.py +47 -17
transformers/models/cohere/configuration_cohere.py +30 -25
transformers/models/cohere/modeling_cohere.py +42 -40
transformers/models/cohere/modular_cohere.py +29 -26
transformers/models/cohere/tokenization_cohere.py +46 -15
transformers/models/cohere2/configuration_cohere2.py +32 -31
transformers/models/cohere2/modeling_cohere2.py +44 -42
transformers/models/cohere2/modular_cohere2.py +54 -54
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +14 -13
transformers/models/cohere2_vision/modeling_cohere2_vision.py +58 -59
transformers/models/cohere2_vision/modular_cohere2_vision.py +46 -45
transformers/models/cohere2_vision/processing_cohere2_vision.py +36 -6
transformers/models/colpali/configuration_colpali.py +1 -0
transformers/models/colpali/modeling_colpali.py +16 -14
transformers/models/colpali/modular_colpali.py +51 -11
transformers/models/colpali/processing_colpali.py +52 -14
transformers/models/colqwen2/modeling_colqwen2.py +28 -28
transformers/models/colqwen2/modular_colqwen2.py +74 -37
transformers/models/colqwen2/processing_colqwen2.py +52 -16
transformers/models/conditional_detr/configuration_conditional_detr.py +2 -1
transformers/models/conditional_detr/image_processing_conditional_detr.py +70 -67
transformers/models/conditional_detr/image_processing_conditional_detr_fast.py +36 -36
transformers/models/conditional_detr/modeling_conditional_detr.py +87 -99
transformers/models/conditional_detr/modular_conditional_detr.py +3 -49
transformers/models/convbert/configuration_convbert.py +8 -11
transformers/models/convbert/modeling_convbert.py +87 -94
transformers/models/convbert/tokenization_convbert.py +1 -0
transformers/models/convnext/configuration_convnext.py +1 -0
transformers/models/convnext/image_processing_convnext.py +23 -20
transformers/models/convnext/image_processing_convnext_fast.py +21 -16
transformers/models/convnext/modeling_convnext.py +12 -9
transformers/models/convnextv2/configuration_convnextv2.py +1 -0
transformers/models/convnextv2/modeling_convnextv2.py +12 -9
transformers/models/cpm/tokenization_cpm.py +7 -6
transformers/models/cpm/tokenization_cpm_fast.py +5 -3
transformers/models/cpmant/configuration_cpmant.py +1 -4
transformers/models/cpmant/modeling_cpmant.py +40 -38
transformers/models/cpmant/tokenization_cpmant.py +3 -1
transformers/models/csm/configuration_csm.py +66 -58
transformers/models/csm/generation_csm.py +35 -31
transformers/models/csm/modeling_csm.py +85 -85
transformers/models/csm/modular_csm.py +58 -58
transformers/models/csm/processing_csm.py +68 -25
transformers/models/ctrl/configuration_ctrl.py +1 -16
transformers/models/ctrl/modeling_ctrl.py +44 -54
transformers/models/ctrl/tokenization_ctrl.py +1 -0
transformers/models/cvt/configuration_cvt.py +1 -0
transformers/models/cvt/modeling_cvt.py +16 -20
transformers/models/cwm/__init__.py +1 -0
transformers/models/cwm/configuration_cwm.py +12 -8
transformers/models/cwm/modeling_cwm.py +39 -37
transformers/models/cwm/modular_cwm.py +12 -10
transformers/models/d_fine/configuration_d_fine.py +5 -7
transformers/models/d_fine/modeling_d_fine.py +128 -138
transformers/models/d_fine/modular_d_fine.py +18 -33
transformers/models/dab_detr/configuration_dab_detr.py +3 -6
transformers/models/dab_detr/modeling_dab_detr.py +75 -81
transformers/models/dac/configuration_dac.py +1 -0
transformers/models/dac/feature_extraction_dac.py +9 -6
transformers/models/dac/modeling_dac.py +26 -24
transformers/models/data2vec/configuration_data2vec_audio.py +2 -4
transformers/models/data2vec/configuration_data2vec_text.py +3 -11
transformers/models/data2vec/configuration_data2vec_vision.py +1 -0
transformers/models/data2vec/modeling_data2vec_audio.py +56 -57
transformers/models/data2vec/modeling_data2vec_text.py +93 -98
transformers/models/data2vec/modeling_data2vec_vision.py +45 -49
transformers/models/data2vec/modular_data2vec_audio.py +1 -6
transformers/models/data2vec/modular_data2vec_text.py +54 -58
transformers/models/dbrx/configuration_dbrx.py +22 -36
transformers/models/dbrx/modeling_dbrx.py +45 -42
transformers/models/dbrx/modular_dbrx.py +33 -31
transformers/models/deberta/configuration_deberta.py +1 -6
transformers/models/deberta/modeling_deberta.py +60 -64
transformers/models/deberta/tokenization_deberta.py +21 -9
transformers/models/deberta_v2/configuration_deberta_v2.py +1 -6
transformers/models/deberta_v2/modeling_deberta_v2.py +65 -71
transformers/models/deberta_v2/tokenization_deberta_v2.py +29 -11
transformers/models/decision_transformer/configuration_decision_transformer.py +2 -3
transformers/models/decision_transformer/modeling_decision_transformer.py +56 -60
transformers/models/deepseek_v2/configuration_deepseek_v2.py +44 -39
transformers/models/deepseek_v2/modeling_deepseek_v2.py +43 -43
transformers/models/deepseek_v2/modular_deepseek_v2.py +49 -48
transformers/models/deepseek_v3/configuration_deepseek_v3.py +45 -40
transformers/models/deepseek_v3/modeling_deepseek_v3.py +42 -45
transformers/models/deepseek_v3/modular_deepseek_v3.py +9 -14
transformers/models/deepseek_vl/configuration_deepseek_vl.py +3 -2
transformers/models/deepseek_vl/image_processing_deepseek_vl.py +26 -25
transformers/models/deepseek_vl/image_processing_deepseek_vl_fast.py +10 -10
transformers/models/deepseek_vl/modeling_deepseek_vl.py +48 -57
transformers/models/deepseek_vl/modular_deepseek_vl.py +43 -14
transformers/models/deepseek_vl/processing_deepseek_vl.py +41 -10
transformers/models/deepseek_vl_hybrid/configuration_deepseek_vl_hybrid.py +5 -3
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid.py +35 -35
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid_fast.py +24 -20
transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py +61 -109
transformers/models/deepseek_vl_hybrid/modular_deepseek_vl_hybrid.py +118 -146
transformers/models/deepseek_vl_hybrid/processing_deepseek_vl_hybrid.py +44 -12
transformers/models/deformable_detr/configuration_deformable_detr.py +3 -2
transformers/models/deformable_detr/image_processing_deformable_detr.py +61 -59
transformers/models/deformable_detr/image_processing_deformable_detr_fast.py +28 -28
transformers/models/deformable_detr/modeling_deformable_detr.py +82 -88
transformers/models/deformable_detr/modular_deformable_detr.py +3 -1
transformers/models/deit/configuration_deit.py +1 -0
transformers/models/deit/image_processing_deit.py +21 -18
transformers/models/deit/image_processing_deit_fast.py +1 -0
transformers/models/deit/modeling_deit.py +22 -24
transformers/models/depth_anything/configuration_depth_anything.py +4 -2
transformers/models/depth_anything/modeling_depth_anything.py +10 -10
transformers/models/depth_pro/configuration_depth_pro.py +1 -0
transformers/models/depth_pro/image_processing_depth_pro.py +23 -22
transformers/models/depth_pro/image_processing_depth_pro_fast.py +10 -8
transformers/models/depth_pro/modeling_depth_pro.py +27 -31
transformers/models/detr/configuration_detr.py +2 -1
transformers/models/detr/image_processing_detr.py +66 -64
transformers/models/detr/image_processing_detr_fast.py +34 -33
transformers/models/detr/modeling_detr.py +79 -95
transformers/models/dia/configuration_dia.py +15 -9
transformers/models/dia/feature_extraction_dia.py +9 -6
transformers/models/dia/generation_dia.py +50 -48
transformers/models/dia/modeling_dia.py +69 -78
transformers/models/dia/modular_dia.py +56 -64
transformers/models/dia/processing_dia.py +29 -39
transformers/models/dia/tokenization_dia.py +6 -3
transformers/models/diffllama/configuration_diffllama.py +30 -25
transformers/models/diffllama/modeling_diffllama.py +49 -46
transformers/models/diffllama/modular_diffllama.py +19 -17
transformers/models/dinat/configuration_dinat.py +1 -0
transformers/models/dinat/modeling_dinat.py +44 -47
transformers/models/dinov2/configuration_dinov2.py +1 -0
transformers/models/dinov2/modeling_dinov2.py +15 -15
transformers/models/dinov2_with_registers/configuration_dinov2_with_registers.py +1 -1
transformers/models/dinov2_with_registers/modeling_dinov2_with_registers.py +15 -16
transformers/models/dinov2_with_registers/modular_dinov2_with_registers.py +9 -9
transformers/models/dinov3_convnext/configuration_dinov3_convnext.py +7 -4
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +6 -3
transformers/models/dinov3_vit/configuration_dinov3_vit.py +8 -5
transformers/models/dinov3_vit/image_processing_dinov3_vit_fast.py +9 -7
transformers/models/dinov3_vit/modeling_dinov3_vit.py +18 -19
transformers/models/dinov3_vit/modular_dinov3_vit.py +15 -16
transformers/models/distilbert/configuration_distilbert.py +2 -8
transformers/models/distilbert/modeling_distilbert.py +55 -55
transformers/models/distilbert/tokenization_distilbert.py +1 -13
transformers/models/doge/__init__.py +1 -0
transformers/models/doge/configuration_doge.py +32 -39
transformers/models/doge/modeling_doge.py +49 -45
transformers/models/doge/modular_doge.py +63 -71
transformers/models/donut/configuration_donut_swin.py +1 -0
transformers/models/donut/image_processing_donut.py +29 -26
transformers/models/donut/image_processing_donut_fast.py +15 -9
transformers/models/donut/modeling_donut_swin.py +58 -62
transformers/models/donut/processing_donut.py +26 -5
transformers/models/dots1/configuration_dots1.py +33 -41
transformers/models/dots1/modeling_dots1.py +45 -54
transformers/models/dots1/modular_dots1.py +4 -5
transformers/models/dpr/configuration_dpr.py +2 -19
transformers/models/dpr/modeling_dpr.py +39 -42
transformers/models/dpr/tokenization_dpr.py +9 -19
transformers/models/dpr/tokenization_dpr_fast.py +9 -7
transformers/models/dpt/configuration_dpt.py +2 -1
transformers/models/dpt/image_processing_dpt.py +66 -65
transformers/models/dpt/image_processing_dpt_fast.py +20 -18
transformers/models/dpt/modeling_dpt.py +30 -32
transformers/models/dpt/modular_dpt.py +17 -15
transformers/models/edgetam/configuration_edgetam.py +3 -2
transformers/models/edgetam/modeling_edgetam.py +86 -86
transformers/models/edgetam/modular_edgetam.py +26 -21
transformers/models/edgetam_video/__init__.py +1 -0
transformers/models/edgetam_video/configuration_edgetam_video.py +1 -0
transformers/models/edgetam_video/modeling_edgetam_video.py +158 -169
transformers/models/edgetam_video/modular_edgetam_video.py +37 -30
transformers/models/efficientloftr/configuration_efficientloftr.py +5 -4
transformers/models/efficientloftr/image_processing_efficientloftr.py +16 -14
transformers/models/efficientloftr/image_processing_efficientloftr_fast.py +9 -9
transformers/models/efficientloftr/modeling_efficientloftr.py +38 -59
transformers/models/efficientloftr/modular_efficientloftr.py +3 -1
transformers/models/efficientnet/configuration_efficientnet.py +1 -0
transformers/models/efficientnet/image_processing_efficientnet.py +32 -28
transformers/models/efficientnet/image_processing_efficientnet_fast.py +19 -17
transformers/models/efficientnet/modeling_efficientnet.py +15 -19
transformers/models/electra/configuration_electra.py +3 -13
transformers/models/electra/modeling_electra.py +103 -108
transformers/models/emu3/configuration_emu3.py +17 -13
transformers/models/emu3/image_processing_emu3.py +39 -44
transformers/models/emu3/modeling_emu3.py +108 -148
transformers/models/emu3/modular_emu3.py +73 -115
transformers/models/emu3/processing_emu3.py +43 -18
transformers/models/encodec/configuration_encodec.py +4 -2
transformers/models/encodec/feature_extraction_encodec.py +13 -10
transformers/models/encodec/modeling_encodec.py +29 -39
transformers/models/encoder_decoder/configuration_encoder_decoder.py +2 -12
transformers/models/encoder_decoder/modeling_encoder_decoder.py +43 -37
transformers/models/eomt/configuration_eomt.py +1 -0
transformers/models/eomt/image_processing_eomt.py +56 -66
transformers/models/eomt/image_processing_eomt_fast.py +33 -76
transformers/models/eomt/modeling_eomt.py +18 -23
transformers/models/eomt/modular_eomt.py +13 -18
transformers/models/ernie/configuration_ernie.py +3 -24
transformers/models/ernie/modeling_ernie.py +132 -127
transformers/models/ernie/modular_ernie.py +103 -97
transformers/models/ernie4_5/configuration_ernie4_5.py +27 -23
transformers/models/ernie4_5/modeling_ernie4_5.py +38 -36
transformers/models/ernie4_5/modular_ernie4_5.py +4 -3
transformers/models/ernie4_5_moe/configuration_ernie4_5_moe.py +36 -32
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +55 -56
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +46 -18
transformers/models/esm/configuration_esm.py +15 -11
transformers/models/esm/modeling_esm.py +34 -38
transformers/models/esm/modeling_esmfold.py +49 -53
transformers/models/esm/openfold_utils/chunk_utils.py +6 -6
transformers/models/esm/openfold_utils/loss.py +2 -1
transformers/models/esm/openfold_utils/protein.py +16 -15
transformers/models/esm/openfold_utils/tensor_utils.py +6 -6
transformers/models/esm/tokenization_esm.py +4 -2
transformers/models/evolla/configuration_evolla.py +40 -50
transformers/models/evolla/modeling_evolla.py +66 -71
transformers/models/evolla/modular_evolla.py +47 -53
transformers/models/evolla/processing_evolla.py +35 -23
transformers/models/exaone4/configuration_exaone4.py +25 -23
transformers/models/exaone4/modeling_exaone4.py +38 -35
transformers/models/exaone4/modular_exaone4.py +46 -44
transformers/models/falcon/configuration_falcon.py +26 -31
transformers/models/falcon/modeling_falcon.py +80 -82
transformers/models/falcon_h1/configuration_falcon_h1.py +51 -45
transformers/models/falcon_h1/modeling_falcon_h1.py +82 -85
transformers/models/falcon_h1/modular_falcon_h1.py +51 -56
transformers/models/falcon_mamba/configuration_falcon_mamba.py +2 -1
transformers/models/falcon_mamba/modeling_falcon_mamba.py +82 -75
transformers/models/falcon_mamba/modular_falcon_mamba.py +45 -28
transformers/models/fastspeech2_conformer/configuration_fastspeech2_conformer.py +6 -2
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +60 -76
transformers/models/fastspeech2_conformer/tokenization_fastspeech2_conformer.py +3 -2
transformers/models/flaubert/configuration_flaubert.py +5 -10
transformers/models/flaubert/modeling_flaubert.py +143 -145
transformers/models/flaubert/tokenization_flaubert.py +5 -3
transformers/models/flava/configuration_flava.py +6 -5
transformers/models/flava/image_processing_flava.py +67 -66
transformers/models/flava/image_processing_flava_fast.py +49 -46
transformers/models/flava/modeling_flava.py +136 -153
transformers/models/flava/processing_flava.py +12 -2
transformers/models/flex_olmo/__init__.py +1 -0
transformers/models/flex_olmo/configuration_flex_olmo.py +32 -28
transformers/models/flex_olmo/modeling_flex_olmo.py +47 -47
transformers/models/flex_olmo/modular_flex_olmo.py +44 -40
transformers/models/florence2/configuration_florence2.py +1 -0
transformers/models/florence2/modeling_florence2.py +69 -111
transformers/models/florence2/modular_florence2.py +101 -104
transformers/models/florence2/processing_florence2.py +47 -18
transformers/models/fnet/configuration_fnet.py +2 -6
transformers/models/fnet/modeling_fnet.py +80 -83
transformers/models/fnet/tokenization_fnet.py +1 -0
transformers/models/focalnet/configuration_focalnet.py +1 -0
transformers/models/focalnet/modeling_focalnet.py +45 -51
transformers/models/fsmt/configuration_fsmt.py +17 -12
transformers/models/fsmt/modeling_fsmt.py +48 -49
transformers/models/fsmt/tokenization_fsmt.py +5 -3
transformers/models/funnel/configuration_funnel.py +1 -8
transformers/models/funnel/modeling_funnel.py +93 -99
transformers/models/funnel/tokenization_funnel.py +27 -17
transformers/models/fuyu/configuration_fuyu.py +34 -28
transformers/models/fuyu/image_processing_fuyu.py +31 -29
transformers/models/fuyu/image_processing_fuyu_fast.py +17 -17
transformers/models/fuyu/modeling_fuyu.py +53 -53
transformers/models/fuyu/processing_fuyu.py +34 -23
transformers/models/gemma/configuration_gemma.py +30 -25
transformers/models/gemma/modeling_gemma.py +50 -46
transformers/models/gemma/modular_gemma.py +47 -42
transformers/models/gemma/tokenization_gemma.py +30 -10
transformers/models/gemma2/configuration_gemma2.py +35 -30
transformers/models/gemma2/modeling_gemma2.py +42 -39
transformers/models/gemma2/modular_gemma2.py +66 -63
transformers/models/gemma3/configuration_gemma3.py +44 -44
transformers/models/gemma3/image_processing_gemma3.py +31 -29
transformers/models/gemma3/image_processing_gemma3_fast.py +13 -11
transformers/models/gemma3/modeling_gemma3.py +207 -159
transformers/models/gemma3/modular_gemma3.py +204 -153
transformers/models/gemma3/processing_gemma3.py +5 -5
transformers/models/gemma3n/configuration_gemma3n.py +26 -36
transformers/models/gemma3n/feature_extraction_gemma3n.py +11 -9
transformers/models/gemma3n/modeling_gemma3n.py +356 -222
transformers/models/gemma3n/modular_gemma3n.py +207 -230
transformers/models/gemma3n/processing_gemma3n.py +26 -12
transformers/models/git/configuration_git.py +8 -5
transformers/models/git/modeling_git.py +204 -266
transformers/models/git/processing_git.py +14 -2
transformers/models/glm/configuration_glm.py +28 -24
transformers/models/glm/modeling_glm.py +40 -37
transformers/models/glm/modular_glm.py +7 -4
transformers/models/glm4/configuration_glm4.py +28 -24
transformers/models/glm4/modeling_glm4.py +42 -40
transformers/models/glm4/modular_glm4.py +10 -8
transformers/models/glm46v/configuration_glm46v.py +1 -0
transformers/models/glm46v/image_processing_glm46v.py +40 -35
transformers/models/glm46v/image_processing_glm46v_fast.py +9 -9
transformers/models/glm46v/modeling_glm46v.py +90 -137
transformers/models/glm46v/modular_glm46v.py +3 -4
transformers/models/glm46v/processing_glm46v.py +41 -7
transformers/models/glm46v/video_processing_glm46v.py +11 -9
transformers/models/glm4_moe/configuration_glm4_moe.py +32 -40
transformers/models/glm4_moe/modeling_glm4_moe.py +42 -45
transformers/models/glm4_moe/modular_glm4_moe.py +34 -42
transformers/models/glm4v/configuration_glm4v.py +20 -18
transformers/models/glm4v/image_processing_glm4v.py +40 -34
transformers/models/glm4v/image_processing_glm4v_fast.py +9 -8
transformers/models/glm4v/modeling_glm4v.py +205 -254
transformers/models/glm4v/modular_glm4v.py +224 -210
transformers/models/glm4v/processing_glm4v.py +41 -7
transformers/models/glm4v/video_processing_glm4v.py +11 -9
transformers/models/glm4v_moe/configuration_glm4v_moe.py +125 -136
transformers/models/glm4v_moe/modeling_glm4v_moe.py +368 -377
transformers/models/glm4v_moe/modular_glm4v_moe.py +169 -83
transformers/models/glpn/configuration_glpn.py +1 -0
transformers/models/glpn/image_processing_glpn.py +12 -11
transformers/models/glpn/image_processing_glpn_fast.py +13 -11
transformers/models/glpn/modeling_glpn.py +14 -16
transformers/models/got_ocr2/configuration_got_ocr2.py +12 -4
transformers/models/got_ocr2/image_processing_got_ocr2.py +24 -22
transformers/models/got_ocr2/image_processing_got_ocr2_fast.py +11 -9
transformers/models/got_ocr2/modeling_got_ocr2.py +80 -77
transformers/models/got_ocr2/modular_got_ocr2.py +51 -54
transformers/models/got_ocr2/processing_got_ocr2.py +63 -42
transformers/models/gpt2/configuration_gpt2.py +2 -13
transformers/models/gpt2/modeling_gpt2.py +115 -120
transformers/models/gpt2/tokenization_gpt2.py +46 -15
transformers/models/gpt_bigcode/configuration_gpt_bigcode.py +2 -5
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +89 -79
transformers/models/gpt_neo/configuration_gpt_neo.py +2 -9
transformers/models/gpt_neo/modeling_gpt_neo.py +67 -83
transformers/models/gpt_neox/configuration_gpt_neox.py +25 -25
transformers/models/gpt_neox/modeling_gpt_neox.py +75 -76
transformers/models/gpt_neox/modular_gpt_neox.py +66 -67
transformers/models/gpt_neox/tokenization_gpt_neox.py +51 -9
transformers/models/gpt_neox_japanese/configuration_gpt_neox_japanese.py +19 -24
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +47 -46
transformers/models/gpt_neox_japanese/tokenization_gpt_neox_japanese.py +3 -1
transformers/models/gpt_oss/configuration_gpt_oss.py +28 -46
transformers/models/gpt_oss/modeling_gpt_oss.py +121 -83
transformers/models/gpt_oss/modular_gpt_oss.py +103 -64
transformers/models/gpt_sw3/tokenization_gpt_sw3.py +4 -4
transformers/models/gptj/configuration_gptj.py +4 -4
transformers/models/gptj/modeling_gptj.py +87 -101
transformers/models/granite/configuration_granite.py +33 -28
transformers/models/granite/modeling_granite.py +46 -44
transformers/models/granite/modular_granite.py +31 -29
transformers/models/granite_speech/configuration_granite_speech.py +1 -0
transformers/models/granite_speech/feature_extraction_granite_speech.py +3 -1
transformers/models/granite_speech/modeling_granite_speech.py +52 -82
transformers/models/granite_speech/processing_granite_speech.py +4 -11
transformers/models/granitemoe/configuration_granitemoe.py +36 -31
transformers/models/granitemoe/modeling_granitemoe.py +46 -41
transformers/models/granitemoe/modular_granitemoe.py +27 -22
transformers/models/granitemoehybrid/__init__.py +1 -0
transformers/models/granitemoehybrid/configuration_granitemoehybrid.py +47 -46
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +93 -97
transformers/models/granitemoehybrid/modular_granitemoehybrid.py +21 -54
transformers/models/granitemoeshared/configuration_granitemoeshared.py +37 -33
transformers/models/granitemoeshared/modeling_granitemoeshared.py +61 -54
transformers/models/granitemoeshared/modular_granitemoeshared.py +21 -19
transformers/models/grounding_dino/configuration_grounding_dino.py +4 -6
transformers/models/grounding_dino/image_processing_grounding_dino.py +62 -60
transformers/models/grounding_dino/image_processing_grounding_dino_fast.py +29 -28
transformers/models/grounding_dino/modeling_grounding_dino.py +140 -155
transformers/models/grounding_dino/modular_grounding_dino.py +3 -2
transformers/models/grounding_dino/processing_grounding_dino.py +38 -10
transformers/models/groupvit/configuration_groupvit.py +2 -4
transformers/models/groupvit/modeling_groupvit.py +93 -107
transformers/models/helium/configuration_helium.py +29 -25
transformers/models/helium/modeling_helium.py +40 -38
transformers/models/helium/modular_helium.py +7 -3
transformers/models/herbert/tokenization_herbert.py +28 -10
transformers/models/hgnet_v2/configuration_hgnet_v2.py +1 -0
transformers/models/hgnet_v2/modeling_hgnet_v2.py +10 -24
transformers/models/hgnet_v2/modular_hgnet_v2.py +10 -24
transformers/models/hiera/configuration_hiera.py +1 -0
transformers/models/hiera/modeling_hiera.py +66 -72
transformers/models/hubert/configuration_hubert.py +2 -4
transformers/models/hubert/modeling_hubert.py +37 -42
transformers/models/hubert/modular_hubert.py +11 -13
transformers/models/hunyuan_v1_dense/configuration_hunyuan_v1_dense.py +31 -26
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +38 -35
transformers/models/hunyuan_v1_dense/modular_hunyuan_v1_dense.py +6 -4
transformers/models/hunyuan_v1_moe/__init__.py +1 -1
transformers/models/hunyuan_v1_moe/configuration_hunyuan_v1_moe.py +36 -31
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +42 -47
transformers/models/hunyuan_v1_moe/modular_hunyuan_v1_moe.py +9 -9
transformers/models/ibert/configuration_ibert.py +2 -4
transformers/models/ibert/modeling_ibert.py +62 -82
transformers/models/ibert/quant_modules.py +1 -0
transformers/models/idefics/configuration_idefics.py +8 -5
transformers/models/idefics/image_processing_idefics.py +15 -13
transformers/models/idefics/modeling_idefics.py +82 -75
transformers/models/idefics/perceiver.py +3 -1
transformers/models/idefics/processing_idefics.py +48 -32
transformers/models/idefics/vision.py +25 -24
transformers/models/idefics2/configuration_idefics2.py +3 -1
transformers/models/idefics2/image_processing_idefics2.py +32 -31
transformers/models/idefics2/image_processing_idefics2_fast.py +8 -8
transformers/models/idefics2/modeling_idefics2.py +101 -127
transformers/models/idefics2/processing_idefics2.py +68 -10
transformers/models/idefics3/configuration_idefics3.py +4 -1
transformers/models/idefics3/image_processing_idefics3.py +43 -42
transformers/models/idefics3/image_processing_idefics3_fast.py +15 -40
transformers/models/idefics3/modeling_idefics3.py +90 -115
transformers/models/idefics3/processing_idefics3.py +69 -15
transformers/models/ijepa/configuration_ijepa.py +1 -0
transformers/models/ijepa/modeling_ijepa.py +11 -10
transformers/models/ijepa/modular_ijepa.py +7 -5
transformers/models/imagegpt/configuration_imagegpt.py +2 -9
transformers/models/imagegpt/image_processing_imagegpt.py +18 -17
transformers/models/imagegpt/image_processing_imagegpt_fast.py +16 -11
transformers/models/imagegpt/modeling_imagegpt.py +65 -76
transformers/models/informer/configuration_informer.py +9 -6
transformers/models/informer/modeling_informer.py +86 -88
transformers/models/informer/modular_informer.py +16 -14
transformers/models/instructblip/configuration_instructblip.py +2 -2
transformers/models/instructblip/modeling_instructblip.py +63 -103
transformers/models/instructblip/processing_instructblip.py +36 -10
transformers/models/instructblipvideo/configuration_instructblipvideo.py +2 -2
transformers/models/instructblipvideo/modeling_instructblipvideo.py +139 -157
transformers/models/instructblipvideo/modular_instructblipvideo.py +64 -73
transformers/models/instructblipvideo/processing_instructblipvideo.py +33 -14
transformers/models/instructblipvideo/video_processing_instructblipvideo.py +8 -6
transformers/models/internvl/configuration_internvl.py +1 -0
transformers/models/internvl/modeling_internvl.py +106 -85
transformers/models/internvl/modular_internvl.py +67 -47
transformers/models/internvl/processing_internvl.py +45 -12
transformers/models/internvl/video_processing_internvl.py +12 -10
transformers/models/jamba/configuration_jamba.py +8 -5
transformers/models/jamba/modeling_jamba.py +66 -68
transformers/models/jamba/modular_jamba.py +55 -54
transformers/models/janus/configuration_janus.py +1 -0
transformers/models/janus/image_processing_janus.py +37 -35
transformers/models/janus/image_processing_janus_fast.py +20 -18
transformers/models/janus/modeling_janus.py +191 -115
transformers/models/janus/modular_janus.py +84 -133
transformers/models/janus/processing_janus.py +43 -17
transformers/models/jetmoe/configuration_jetmoe.py +26 -24
transformers/models/jetmoe/modeling_jetmoe.py +46 -43
transformers/models/jetmoe/modular_jetmoe.py +33 -31
transformers/models/kosmos2/configuration_kosmos2.py +9 -10
transformers/models/kosmos2/modeling_kosmos2.py +173 -208
transformers/models/kosmos2/processing_kosmos2.py +55 -40
transformers/models/kosmos2_5/__init__.py +1 -0
transformers/models/kosmos2_5/configuration_kosmos2_5.py +9 -8
transformers/models/kosmos2_5/image_processing_kosmos2_5.py +12 -10
transformers/models/kosmos2_5/image_processing_kosmos2_5_fast.py +13 -4
transformers/models/kosmos2_5/modeling_kosmos2_5.py +118 -132
transformers/models/kosmos2_5/processing_kosmos2_5.py +29 -8
transformers/models/kyutai_speech_to_text/configuration_kyutai_speech_to_text.py +28 -31
transformers/models/kyutai_speech_to_text/feature_extraction_kyutai_speech_to_text.py +14 -12
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +100 -110
transformers/models/kyutai_speech_to_text/modular_kyutai_speech_to_text.py +22 -28
transformers/models/kyutai_speech_to_text/processing_kyutai_speech_to_text.py +8 -2
transformers/models/layoutlm/configuration_layoutlm.py +2 -14
transformers/models/layoutlm/modeling_layoutlm.py +72 -77
transformers/models/layoutlmv2/configuration_layoutlmv2.py +17 -14
transformers/models/layoutlmv2/image_processing_layoutlmv2.py +21 -18
transformers/models/layoutlmv2/image_processing_layoutlmv2_fast.py +9 -7
transformers/models/layoutlmv2/modeling_layoutlmv2.py +50 -64
transformers/models/layoutlmv2/processing_layoutlmv2.py +44 -14
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +126 -73
transformers/models/layoutlmv3/configuration_layoutlmv3.py +19 -16
transformers/models/layoutlmv3/image_processing_layoutlmv3.py +26 -24
transformers/models/layoutlmv3/image_processing_layoutlmv3_fast.py +11 -9
transformers/models/layoutlmv3/modeling_layoutlmv3.py +56 -82
transformers/models/layoutlmv3/processing_layoutlmv3.py +46 -14
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +134 -74
transformers/models/layoutxlm/configuration_layoutxlm.py +17 -14
transformers/models/layoutxlm/modular_layoutxlm.py +1 -0
transformers/models/layoutxlm/processing_layoutxlm.py +44 -14
transformers/models/layoutxlm/tokenization_layoutxlm.py +113 -77
transformers/models/led/configuration_led.py +12 -8
transformers/models/led/modeling_led.py +266 -124
transformers/models/levit/configuration_levit.py +1 -0
transformers/models/levit/image_processing_levit.py +21 -19
transformers/models/levit/image_processing_levit_fast.py +5 -4
transformers/models/levit/modeling_levit.py +19 -38
transformers/models/lfm2/configuration_lfm2.py +30 -27
transformers/models/lfm2/modeling_lfm2.py +50 -47
transformers/models/lfm2/modular_lfm2.py +30 -29
transformers/models/lfm2_moe/__init__.py +1 -0
transformers/models/lfm2_moe/configuration_lfm2_moe.py +9 -6
transformers/models/lfm2_moe/modeling_lfm2_moe.py +53 -61
transformers/models/lfm2_moe/modular_lfm2_moe.py +37 -13
transformers/models/lfm2_vl/configuration_lfm2_vl.py +1 -4
transformers/models/lfm2_vl/image_processing_lfm2_vl_fast.py +12 -41
transformers/models/lfm2_vl/modeling_lfm2_vl.py +66 -84
transformers/models/lfm2_vl/modular_lfm2_vl.py +56 -70
transformers/models/lfm2_vl/processing_lfm2_vl.py +76 -96
transformers/models/lightglue/image_processing_lightglue.py +15 -16
transformers/models/lightglue/image_processing_lightglue_fast.py +9 -9
transformers/models/lightglue/modeling_lightglue.py +31 -31
transformers/models/lightglue/modular_lightglue.py +28 -29
transformers/models/lilt/configuration_lilt.py +2 -6
transformers/models/lilt/modeling_lilt.py +70 -76
transformers/models/llama/configuration_llama.py +31 -26
transformers/models/llama/modeling_llama.py +39 -36
transformers/models/llama/tokenization_llama.py +44 -14
transformers/models/llama4/configuration_llama4.py +30 -27
transformers/models/llama4/image_processing_llama4_fast.py +14 -12
transformers/models/llama4/modeling_llama4.py +113 -120
transformers/models/llama4/processing_llama4.py +57 -33
transformers/models/llava/configuration_llava.py +1 -10
transformers/models/llava/image_processing_llava.py +28 -25
transformers/models/llava/image_processing_llava_fast.py +11 -9
transformers/models/llava/modeling_llava.py +109 -85
transformers/models/llava/processing_llava.py +51 -18
transformers/models/llava_next/configuration_llava_next.py +2 -2
transformers/models/llava_next/image_processing_llava_next.py +45 -43
transformers/models/llava_next/image_processing_llava_next_fast.py +13 -11
transformers/models/llava_next/modeling_llava_next.py +107 -110
transformers/models/llava_next/processing_llava_next.py +47 -18
transformers/models/llava_next_video/configuration_llava_next_video.py +7 -4
transformers/models/llava_next_video/modeling_llava_next_video.py +158 -175
transformers/models/llava_next_video/modular_llava_next_video.py +150 -155
transformers/models/llava_next_video/processing_llava_next_video.py +63 -21
transformers/models/llava_next_video/video_processing_llava_next_video.py +1 -0
transformers/models/llava_onevision/configuration_llava_onevision.py +7 -4
transformers/models/llava_onevision/image_processing_llava_onevision.py +42 -40
transformers/models/llava_onevision/image_processing_llava_onevision_fast.py +15 -14
transformers/models/llava_onevision/modeling_llava_onevision.py +169 -177
transformers/models/llava_onevision/modular_llava_onevision.py +156 -163
transformers/models/llava_onevision/processing_llava_onevision.py +53 -21
transformers/models/llava_onevision/video_processing_llava_onevision.py +1 -0
transformers/models/longcat_flash/__init__.py +1 -0
transformers/models/longcat_flash/configuration_longcat_flash.py +42 -37
transformers/models/longcat_flash/modeling_longcat_flash.py +36 -36
transformers/models/longcat_flash/modular_longcat_flash.py +21 -21
transformers/models/longformer/configuration_longformer.py +5 -5
transformers/models/longformer/modeling_longformer.py +101 -105
transformers/models/longt5/configuration_longt5.py +7 -9
transformers/models/longt5/modeling_longt5.py +49 -49
transformers/models/luke/configuration_luke.py +2 -8
transformers/models/luke/modeling_luke.py +181 -188
transformers/models/luke/tokenization_luke.py +140 -107
transformers/models/lxmert/configuration_lxmert.py +1 -16
transformers/models/lxmert/modeling_lxmert.py +74 -65
transformers/models/m2m_100/configuration_m2m_100.py +9 -7
transformers/models/m2m_100/modeling_m2m_100.py +71 -83
transformers/models/m2m_100/tokenization_m2m_100.py +8 -8
transformers/models/mamba/configuration_mamba.py +2 -1
transformers/models/mamba/modeling_mamba.py +66 -58
transformers/models/mamba2/configuration_mamba2.py +8 -5
transformers/models/mamba2/modeling_mamba2.py +69 -68
transformers/models/marian/configuration_marian.py +5 -10
transformers/models/marian/modeling_marian.py +87 -93
transformers/models/marian/tokenization_marian.py +6 -6
transformers/models/markuplm/configuration_markuplm.py +7 -4
transformers/models/markuplm/feature_extraction_markuplm.py +2 -1
transformers/models/markuplm/modeling_markuplm.py +70 -69
transformers/models/markuplm/processing_markuplm.py +38 -31
transformers/models/markuplm/tokenization_markuplm.py +136 -93
transformers/models/mask2former/configuration_mask2former.py +8 -5
transformers/models/mask2former/image_processing_mask2former.py +85 -84
transformers/models/mask2former/image_processing_mask2former_fast.py +40 -37
transformers/models/mask2former/modeling_mask2former.py +103 -118
transformers/models/mask2former/modular_mask2former.py +8 -6
transformers/models/maskformer/configuration_maskformer.py +9 -6
transformers/models/maskformer/configuration_maskformer_swin.py +1 -0
transformers/models/maskformer/image_processing_maskformer.py +85 -84
transformers/models/maskformer/image_processing_maskformer_fast.py +40 -36
transformers/models/maskformer/modeling_maskformer.py +65 -79
transformers/models/maskformer/modeling_maskformer_swin.py +32 -36
transformers/models/mbart/configuration_mbart.py +4 -9
transformers/models/mbart/modeling_mbart.py +116 -131
transformers/models/mbart/tokenization_mbart.py +54 -11
transformers/models/mbart50/tokenization_mbart50.py +13 -8
transformers/models/megatron_bert/configuration_megatron_bert.py +3 -13
transformers/models/megatron_bert/modeling_megatron_bert.py +150 -148
transformers/models/metaclip_2/configuration_metaclip_2.py +1 -4
transformers/models/metaclip_2/modeling_metaclip_2.py +84 -91
transformers/models/metaclip_2/modular_metaclip_2.py +45 -61
transformers/models/mgp_str/configuration_mgp_str.py +1 -0
transformers/models/mgp_str/modeling_mgp_str.py +18 -20
transformers/models/mgp_str/processing_mgp_str.py +20 -3
transformers/models/mgp_str/tokenization_mgp_str.py +3 -1
transformers/models/mimi/configuration_mimi.py +40 -42
transformers/models/mimi/modeling_mimi.py +113 -142
transformers/models/minimax/__init__.py +1 -0
transformers/models/minimax/configuration_minimax.py +43 -37
transformers/models/minimax/modeling_minimax.py +51 -61
transformers/models/minimax/modular_minimax.py +62 -68
transformers/models/ministral/configuration_ministral.py +29 -25
transformers/models/ministral/modeling_ministral.py +38 -36
transformers/models/ministral/modular_ministral.py +37 -32
transformers/models/ministral3/configuration_ministral3.py +27 -24
transformers/models/ministral3/modeling_ministral3.py +37 -36
transformers/models/ministral3/modular_ministral3.py +5 -4
transformers/models/mistral/configuration_mistral.py +29 -24
transformers/models/mistral/modeling_mistral.py +37 -36
transformers/models/mistral/modular_mistral.py +12 -11
transformers/models/mistral3/configuration_mistral3.py +1 -4
transformers/models/mistral3/modeling_mistral3.py +86 -89
transformers/models/mistral3/modular_mistral3.py +68 -69
transformers/models/mixtral/configuration_mixtral.py +34 -29
transformers/models/mixtral/modeling_mixtral.py +45 -50
transformers/models/mixtral/modular_mixtral.py +31 -32
transformers/models/mlcd/configuration_mlcd.py +1 -0
transformers/models/mlcd/modeling_mlcd.py +14 -20
transformers/models/mlcd/modular_mlcd.py +13 -17
transformers/models/mllama/configuration_mllama.py +15 -10
transformers/models/mllama/image_processing_mllama.py +25 -23
transformers/models/mllama/image_processing_mllama_fast.py +11 -11
transformers/models/mllama/modeling_mllama.py +94 -105
transformers/models/mllama/processing_mllama.py +55 -6
transformers/models/mluke/tokenization_mluke.py +107 -101
transformers/models/mm_grounding_dino/configuration_mm_grounding_dino.py +3 -5
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +140 -155
transformers/models/mm_grounding_dino/modular_mm_grounding_dino.py +3 -5
transformers/models/mobilebert/configuration_mobilebert.py +2 -4
transformers/models/mobilebert/modeling_mobilebert.py +85 -77
transformers/models/mobilebert/tokenization_mobilebert.py +1 -0
transformers/models/mobilenet_v1/configuration_mobilenet_v1.py +1 -0
transformers/models/mobilenet_v1/image_processing_mobilenet_v1.py +23 -20
transformers/models/mobilenet_v1/image_processing_mobilenet_v1_fast.py +1 -0
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +16 -15
transformers/models/mobilenet_v2/configuration_mobilenet_v2.py +1 -0
transformers/models/mobilenet_v2/image_processing_mobilenet_v2.py +51 -48
transformers/models/mobilenet_v2/image_processing_mobilenet_v2_fast.py +15 -13
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +22 -24
transformers/models/mobilevit/configuration_mobilevit.py +1 -0
transformers/models/mobilevit/image_processing_mobilevit.py +49 -46
transformers/models/mobilevit/image_processing_mobilevit_fast.py +14 -12
transformers/models/mobilevit/modeling_mobilevit.py +21 -28
transformers/models/mobilevitv2/configuration_mobilevitv2.py +1 -0
transformers/models/mobilevitv2/modeling_mobilevitv2.py +22 -28
transformers/models/modernbert/configuration_modernbert.py +42 -44
transformers/models/modernbert/modeling_modernbert.py +133 -145
transformers/models/modernbert/modular_modernbert.py +170 -186
transformers/models/modernbert_decoder/configuration_modernbert_decoder.py +40 -40
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +57 -62
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +86 -94
transformers/models/moonshine/configuration_moonshine.py +31 -34
transformers/models/moonshine/modeling_moonshine.py +71 -71
transformers/models/moonshine/modular_moonshine.py +83 -88
transformers/models/moshi/configuration_moshi.py +23 -46
transformers/models/moshi/modeling_moshi.py +187 -157
transformers/models/mpnet/configuration_mpnet.py +2 -6
transformers/models/mpnet/modeling_mpnet.py +57 -62
transformers/models/mpnet/tokenization_mpnet.py +15 -4
transformers/models/mpt/configuration_mpt.py +9 -5
transformers/models/mpt/modeling_mpt.py +60 -60
transformers/models/mra/configuration_mra.py +2 -8
transformers/models/mra/modeling_mra.py +57 -64
transformers/models/mt5/configuration_mt5.py +8 -10
transformers/models/mt5/modeling_mt5.py +95 -87
transformers/models/musicgen/configuration_musicgen.py +8 -12
transformers/models/musicgen/modeling_musicgen.py +122 -118
transformers/models/musicgen/processing_musicgen.py +21 -3
transformers/models/musicgen_melody/configuration_musicgen_melody.py +8 -15
transformers/models/musicgen_melody/feature_extraction_musicgen_melody.py +9 -8
transformers/models/musicgen_melody/modeling_musicgen_melody.py +123 -117
transformers/models/musicgen_melody/processing_musicgen_melody.py +22 -3
transformers/models/mvp/configuration_mvp.py +5 -8
transformers/models/mvp/modeling_mvp.py +123 -135
transformers/models/myt5/tokenization_myt5.py +10 -8
transformers/models/nanochat/configuration_nanochat.py +8 -5
transformers/models/nanochat/modeling_nanochat.py +40 -37
transformers/models/nanochat/modular_nanochat.py +14 -12
transformers/models/nemotron/configuration_nemotron.py +30 -25
transformers/models/nemotron/modeling_nemotron.py +57 -56
transformers/models/nllb/tokenization_nllb.py +28 -12
transformers/models/nllb_moe/configuration_nllb_moe.py +9 -7
transformers/models/nllb_moe/modeling_nllb_moe.py +69 -77
transformers/models/nougat/image_processing_nougat.py +32 -29
transformers/models/nougat/image_processing_nougat_fast.py +14 -12
transformers/models/nougat/processing_nougat.py +39 -37
transformers/models/nougat/tokenization_nougat.py +73 -18
transformers/models/nystromformer/configuration_nystromformer.py +2 -8
transformers/models/nystromformer/modeling_nystromformer.py +63 -74
transformers/models/olmo/configuration_olmo.py +28 -23
transformers/models/olmo/modeling_olmo.py +39 -36
transformers/models/olmo/modular_olmo.py +11 -7
transformers/models/olmo2/configuration_olmo2.py +28 -23
transformers/models/olmo2/modeling_olmo2.py +41 -37
transformers/models/olmo2/modular_olmo2.py +32 -29
transformers/models/olmo3/__init__.py +1 -0
transformers/models/olmo3/configuration_olmo3.py +30 -26
transformers/models/olmo3/modeling_olmo3.py +39 -36
transformers/models/olmo3/modular_olmo3.py +40 -37
transformers/models/olmoe/configuration_olmoe.py +33 -29
transformers/models/olmoe/modeling_olmoe.py +46 -52
transformers/models/olmoe/modular_olmoe.py +15 -16
transformers/models/omdet_turbo/configuration_omdet_turbo.py +4 -2
transformers/models/omdet_turbo/modeling_omdet_turbo.py +47 -53
transformers/models/omdet_turbo/processing_omdet_turbo.py +67 -19
transformers/models/oneformer/configuration_oneformer.py +8 -5
transformers/models/oneformer/image_processing_oneformer.py +84 -83
transformers/models/oneformer/image_processing_oneformer_fast.py +42 -41
transformers/models/oneformer/modeling_oneformer.py +171 -147
transformers/models/oneformer/processing_oneformer.py +43 -28
transformers/models/openai/configuration_openai.py +1 -16
transformers/models/openai/modeling_openai.py +51 -65
transformers/models/openai/tokenization_openai.py +47 -8
transformers/models/opt/configuration_opt.py +7 -6
transformers/models/opt/modeling_opt.py +76 -78
transformers/models/ovis2/__init__.py +1 -0
transformers/models/ovis2/configuration_ovis2.py +1 -0
transformers/models/ovis2/image_processing_ovis2.py +24 -22
transformers/models/ovis2/image_processing_ovis2_fast.py +11 -9
transformers/models/ovis2/modeling_ovis2.py +142 -111
transformers/models/ovis2/modular_ovis2.py +45 -90
transformers/models/ovis2/processing_ovis2.py +40 -12
transformers/models/owlv2/configuration_owlv2.py +2 -4
transformers/models/owlv2/image_processing_owlv2.py +21 -20
transformers/models/owlv2/image_processing_owlv2_fast.py +15 -12
transformers/models/owlv2/modeling_owlv2.py +117 -133
transformers/models/owlv2/modular_owlv2.py +14 -11
transformers/models/owlv2/processing_owlv2.py +49 -20
transformers/models/owlvit/configuration_owlvit.py +2 -4
transformers/models/owlvit/image_processing_owlvit.py +22 -21
transformers/models/owlvit/image_processing_owlvit_fast.py +3 -2
transformers/models/owlvit/modeling_owlvit.py +116 -132
transformers/models/owlvit/processing_owlvit.py +48 -20
transformers/models/paligemma/configuration_paligemma.py +1 -4
transformers/models/paligemma/modeling_paligemma.py +93 -103
transformers/models/paligemma/processing_paligemma.py +66 -13
transformers/models/parakeet/configuration_parakeet.py +14 -7
transformers/models/parakeet/feature_extraction_parakeet.py +12 -10
transformers/models/parakeet/modeling_parakeet.py +28 -32
transformers/models/parakeet/modular_parakeet.py +20 -23
transformers/models/parakeet/processing_parakeet.py +5 -13
transformers/models/parakeet/{tokenization_parakeet.py → tokenization_parakeet_fast.py} +7 -5
transformers/models/patchtsmixer/configuration_patchtsmixer.py +8 -5
transformers/models/patchtsmixer/modeling_patchtsmixer.py +62 -70
transformers/models/patchtst/configuration_patchtst.py +9 -6
transformers/models/patchtst/modeling_patchtst.py +80 -97
transformers/models/pegasus/configuration_pegasus.py +5 -8
transformers/models/pegasus/modeling_pegasus.py +66 -72
transformers/models/pegasus/tokenization_pegasus.py +45 -15
transformers/models/pegasus_x/configuration_pegasus_x.py +4 -5
transformers/models/pegasus_x/modeling_pegasus_x.py +52 -55
transformers/models/perceiver/configuration_perceiver.py +1 -0
transformers/models/perceiver/image_processing_perceiver.py +25 -22
transformers/models/perceiver/image_processing_perceiver_fast.py +9 -7
transformers/models/perceiver/modeling_perceiver.py +146 -165
transformers/models/perceiver/tokenization_perceiver.py +6 -3
transformers/models/perception_lm/configuration_perception_lm.py +1 -0
transformers/models/perception_lm/image_processing_perception_lm_fast.py +10 -8
transformers/models/perception_lm/modeling_perception_lm.py +70 -71
transformers/models/perception_lm/modular_perception_lm.py +61 -65
transformers/models/perception_lm/processing_perception_lm.py +47 -13
transformers/models/perception_lm/video_processing_perception_lm.py +1 -0
transformers/models/persimmon/configuration_persimmon.py +28 -23
transformers/models/persimmon/modeling_persimmon.py +45 -43
transformers/models/phi/configuration_phi.py +28 -23
transformers/models/phi/modeling_phi.py +43 -40
transformers/models/phi/modular_phi.py +24 -23
transformers/models/phi3/configuration_phi3.py +33 -28
transformers/models/phi3/modeling_phi3.py +38 -36
transformers/models/phi3/modular_phi3.py +17 -13
transformers/models/phi4_multimodal/configuration_phi4_multimodal.py +33 -30
transformers/models/phi4_multimodal/feature_extraction_phi4_multimodal.py +9 -7
transformers/models/phi4_multimodal/image_processing_phi4_multimodal_fast.py +11 -11
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +78 -95
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +80 -98
transformers/models/phi4_multimodal/processing_phi4_multimodal.py +44 -7
transformers/models/phimoe/configuration_phimoe.py +36 -31
transformers/models/phimoe/modeling_phimoe.py +45 -50
transformers/models/phimoe/modular_phimoe.py +4 -3
transformers/models/phobert/tokenization_phobert.py +6 -4
transformers/models/pix2struct/configuration_pix2struct.py +10 -12
transformers/models/pix2struct/image_processing_pix2struct.py +19 -15
transformers/models/pix2struct/image_processing_pix2struct_fast.py +15 -12
transformers/models/pix2struct/modeling_pix2struct.py +52 -58
transformers/models/pix2struct/processing_pix2struct.py +30 -5
transformers/models/pixtral/configuration_pixtral.py +14 -11
transformers/models/pixtral/image_processing_pixtral.py +28 -26
transformers/models/pixtral/image_processing_pixtral_fast.py +11 -10
transformers/models/pixtral/modeling_pixtral.py +34 -28
transformers/models/pixtral/processing_pixtral.py +53 -21
transformers/models/plbart/configuration_plbart.py +5 -8
transformers/models/plbart/modeling_plbart.py +106 -119
transformers/models/plbart/modular_plbart.py +33 -39
transformers/models/plbart/tokenization_plbart.py +7 -4
transformers/models/poolformer/configuration_poolformer.py +1 -0
transformers/models/poolformer/image_processing_poolformer.py +24 -21
transformers/models/poolformer/image_processing_poolformer_fast.py +15 -13
transformers/models/poolformer/modeling_poolformer.py +13 -23
transformers/models/pop2piano/configuration_pop2piano.py +8 -7
transformers/models/pop2piano/feature_extraction_pop2piano.py +9 -6
transformers/models/pop2piano/modeling_pop2piano.py +24 -26
transformers/models/pop2piano/processing_pop2piano.py +33 -25
transformers/models/pop2piano/tokenization_pop2piano.py +23 -15
transformers/models/prompt_depth_anything/configuration_prompt_depth_anything.py +3 -3
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything.py +28 -28
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything_fast.py +21 -20
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +13 -16
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +13 -16
transformers/models/prophetnet/configuration_prophetnet.py +38 -37
transformers/models/prophetnet/modeling_prophetnet.py +131 -114
transformers/models/prophetnet/tokenization_prophetnet.py +16 -14
transformers/models/pvt/configuration_pvt.py +1 -0
transformers/models/pvt/image_processing_pvt.py +27 -24
transformers/models/pvt/image_processing_pvt_fast.py +2 -1
transformers/models/pvt/modeling_pvt.py +21 -21
transformers/models/pvt_v2/configuration_pvt_v2.py +4 -2
transformers/models/pvt_v2/modeling_pvt_v2.py +25 -28
transformers/models/qwen2/configuration_qwen2.py +25 -32
transformers/models/qwen2/modeling_qwen2.py +38 -36
transformers/models/qwen2/modular_qwen2.py +12 -11
transformers/models/qwen2/tokenization_qwen2.py +23 -12
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +26 -32
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +277 -340
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +211 -278
transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py +49 -41
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +35 -29
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +148 -203
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +118 -93
transformers/models/qwen2_5_vl/processing_qwen2_5_vl.py +43 -7
transformers/models/qwen2_audio/configuration_qwen2_audio.py +1 -0
transformers/models/qwen2_audio/modeling_qwen2_audio.py +40 -40
transformers/models/qwen2_audio/processing_qwen2_audio.py +42 -13
transformers/models/qwen2_moe/configuration_qwen2_moe.py +35 -42
transformers/models/qwen2_moe/modeling_qwen2_moe.py +46 -51
transformers/models/qwen2_moe/modular_qwen2_moe.py +10 -7
transformers/models/qwen2_vl/configuration_qwen2_vl.py +34 -29
transformers/models/qwen2_vl/image_processing_qwen2_vl.py +42 -41
transformers/models/qwen2_vl/image_processing_qwen2_vl_fast.py +15 -12
transformers/models/qwen2_vl/modeling_qwen2_vl.py +153 -199
transformers/models/qwen2_vl/processing_qwen2_vl.py +44 -7
transformers/models/qwen2_vl/video_processing_qwen2_vl.py +18 -38
transformers/models/qwen3/configuration_qwen3.py +27 -34
transformers/models/qwen3/modeling_qwen3.py +39 -36
transformers/models/qwen3/modular_qwen3.py +6 -4
transformers/models/qwen3_moe/configuration_qwen3_moe.py +32 -39
transformers/models/qwen3_moe/modeling_qwen3_moe.py +46 -51
transformers/models/qwen3_moe/modular_qwen3_moe.py +13 -10
transformers/models/qwen3_next/configuration_qwen3_next.py +35 -45
transformers/models/qwen3_next/modeling_qwen3_next.py +51 -47
transformers/models/qwen3_next/modular_qwen3_next.py +35 -34
transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py +101 -135
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +252 -355
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +196 -250
transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py +48 -40
transformers/models/qwen3_vl/configuration_qwen3_vl.py +29 -27
transformers/models/qwen3_vl/modeling_qwen3_vl.py +155 -233
transformers/models/qwen3_vl/modular_qwen3_vl.py +179 -206
transformers/models/qwen3_vl/processing_qwen3_vl.py +42 -6
transformers/models/qwen3_vl/video_processing_qwen3_vl.py +12 -10
transformers/models/qwen3_vl_moe/configuration_qwen3_vl_moe.py +30 -23
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +303 -358
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +124 -87
transformers/models/rag/configuration_rag.py +15 -6
transformers/models/rag/modeling_rag.py +130 -127
transformers/models/rag/retrieval_rag.py +5 -3
transformers/models/rag/tokenization_rag.py +50 -0
transformers/models/recurrent_gemma/configuration_recurrent_gemma.py +30 -29
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +42 -53
transformers/models/reformer/configuration_reformer.py +8 -7
transformers/models/reformer/modeling_reformer.py +69 -80
transformers/models/reformer/tokenization_reformer.py +31 -11
transformers/models/regnet/configuration_regnet.py +1 -0
transformers/models/regnet/modeling_regnet.py +8 -15
transformers/models/rembert/configuration_rembert.py +2 -8
transformers/models/rembert/modeling_rembert.py +111 -121
transformers/models/rembert/tokenization_rembert.py +12 -2
transformers/models/resnet/configuration_resnet.py +1 -0
transformers/models/resnet/modeling_resnet.py +13 -27
transformers/models/roberta/configuration_roberta.py +3 -11
transformers/models/roberta/modeling_roberta.py +93 -94
transformers/models/roberta/modular_roberta.py +58 -58
transformers/models/roberta/tokenization_roberta.py +29 -17
transformers/models/roberta/tokenization_roberta_old.py +4 -2
transformers/models/roberta_prelayernorm/configuration_roberta_prelayernorm.py +3 -11
transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py +93 -94
transformers/models/roc_bert/configuration_roc_bert.py +2 -8
transformers/models/roc_bert/modeling_roc_bert.py +121 -122
transformers/models/roc_bert/tokenization_roc_bert.py +94 -88
transformers/models/roformer/configuration_roformer.py +3 -13
transformers/models/roformer/modeling_roformer.py +81 -85
transformers/models/roformer/tokenization_roformer.py +412 -74
transformers/models/roformer/tokenization_roformer_fast.py +160 -0
transformers/models/roformer/tokenization_utils.py +1 -0
transformers/models/rt_detr/configuration_rt_detr.py +2 -1
transformers/models/rt_detr/configuration_rt_detr_resnet.py +1 -0
transformers/models/rt_detr/image_processing_rt_detr.py +55 -54
transformers/models/rt_detr/image_processing_rt_detr_fast.py +26 -26
transformers/models/rt_detr/modeling_rt_detr.py +90 -99
transformers/models/rt_detr/modeling_rt_detr_resnet.py +6 -13
transformers/models/rt_detr/modular_rt_detr.py +16 -16
transformers/models/rt_detr_v2/configuration_rt_detr_v2.py +4 -6
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +90 -101
transformers/models/rt_detr_v2/modular_rt_detr_v2.py +12 -19
transformers/models/rwkv/configuration_rwkv.py +4 -2
transformers/models/rwkv/modeling_rwkv.py +32 -31
transformers/models/sam/configuration_sam.py +1 -3
transformers/models/sam/image_processing_sam.py +60 -59
transformers/models/sam/image_processing_sam_fast.py +27 -25
transformers/models/sam/modeling_sam.py +41 -47
transformers/models/sam/processing_sam.py +27 -39
transformers/models/sam2/configuration_sam2.py +3 -2
transformers/models/sam2/image_processing_sam2_fast.py +15 -14
transformers/models/sam2/modeling_sam2.py +90 -96
transformers/models/sam2/modular_sam2.py +91 -86
transformers/models/sam2/processing_sam2.py +47 -31
transformers/models/sam2_video/configuration_sam2_video.py +1 -0
transformers/models/sam2_video/modeling_sam2_video.py +144 -151
transformers/models/sam2_video/modular_sam2_video.py +104 -101
transformers/models/sam2_video/processing_sam2_video.py +66 -49
transformers/models/sam2_video/video_processing_sam2_video.py +4 -1
transformers/models/sam3/configuration_sam3.py +2 -21
transformers/models/sam3/image_processing_sam3_fast.py +20 -17
transformers/models/sam3/modeling_sam3.py +170 -184
transformers/models/sam3/modular_sam3.py +8 -3
transformers/models/sam3/processing_sam3.py +52 -37
transformers/models/sam3_tracker/__init__.py +1 -0
transformers/models/sam3_tracker/configuration_sam3_tracker.py +3 -1
transformers/models/sam3_tracker/modeling_sam3_tracker.py +77 -82
transformers/models/sam3_tracker/modular_sam3_tracker.py +3 -8
transformers/models/sam3_tracker/processing_sam3_tracker.py +48 -31
transformers/models/sam3_tracker_video/__init__.py +1 -0
transformers/models/sam3_tracker_video/configuration_sam3_tracker_video.py +1 -25
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +122 -135
transformers/models/sam3_tracker_video/modular_sam3_tracker_video.py +26 -35
transformers/models/sam3_tracker_video/processing_sam3_tracker_video.py +66 -50
transformers/models/sam3_video/configuration_sam3_video.py +1 -14
transformers/models/sam3_video/modeling_sam3_video.py +34 -33
transformers/models/sam3_video/processing_sam3_video.py +46 -26
transformers/models/sam_hq/__init__.py +1 -1
transformers/models/sam_hq/configuration_sam_hq.py +1 -3
transformers/models/sam_hq/modeling_sam_hq.py +69 -74
transformers/models/sam_hq/modular_sam_hq.py +25 -23
transformers/models/sam_hq/{processing_sam_hq.py → processing_samhq.py} +29 -41
transformers/models/seamless_m4t/configuration_seamless_m4t.py +10 -8
transformers/models/seamless_m4t/feature_extraction_seamless_m4t.py +11 -8
transformers/models/seamless_m4t/modeling_seamless_m4t.py +194 -212
transformers/models/seamless_m4t/processing_seamless_m4t.py +39 -18
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +77 -40
transformers/models/seamless_m4t_v2/configuration_seamless_m4t_v2.py +10 -8
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +196 -204
transformers/models/seed_oss/configuration_seed_oss.py +32 -28
transformers/models/seed_oss/modeling_seed_oss.py +35 -33
transformers/models/seed_oss/modular_seed_oss.py +4 -3
transformers/models/segformer/configuration_segformer.py +10 -0
transformers/models/segformer/image_processing_segformer.py +42 -39
transformers/models/segformer/image_processing_segformer_fast.py +12 -10
transformers/models/segformer/modeling_segformer.py +31 -34
transformers/models/segformer/modular_segformer.py +10 -8
transformers/models/seggpt/configuration_seggpt.py +1 -0
transformers/models/seggpt/image_processing_seggpt.py +41 -38
transformers/models/seggpt/modeling_seggpt.py +38 -50
transformers/models/sew/configuration_sew.py +2 -4
transformers/models/sew/modeling_sew.py +36 -38
transformers/models/sew/modular_sew.py +13 -13
transformers/models/sew_d/configuration_sew_d.py +2 -4
transformers/models/sew_d/modeling_sew_d.py +30 -31
transformers/models/shieldgemma2/configuration_shieldgemma2.py +1 -0
transformers/models/shieldgemma2/modeling_shieldgemma2.py +17 -16
transformers/models/shieldgemma2/processing_shieldgemma2.py +5 -3
transformers/models/siglip/configuration_siglip.py +2 -4
transformers/models/siglip/image_processing_siglip.py +20 -17
transformers/models/siglip/image_processing_siglip_fast.py +1 -0
transformers/models/siglip/modeling_siglip.py +75 -84
transformers/models/siglip/processing_siglip.py +14 -2
transformers/models/siglip/tokenization_siglip.py +7 -6
transformers/models/siglip2/configuration_siglip2.py +2 -5
transformers/models/siglip2/image_processing_siglip2.py +16 -15
transformers/models/siglip2/image_processing_siglip2_fast.py +7 -6
transformers/models/siglip2/modeling_siglip2.py +129 -143
transformers/models/siglip2/modular_siglip2.py +46 -47
transformers/models/siglip2/processing_siglip2.py +14 -2
transformers/models/smollm3/configuration_smollm3.py +32 -29
transformers/models/smollm3/modeling_smollm3.py +39 -36
transformers/models/smollm3/modular_smollm3.py +35 -33
transformers/models/smolvlm/configuration_smolvlm.py +4 -2
transformers/models/smolvlm/image_processing_smolvlm.py +43 -42
transformers/models/smolvlm/image_processing_smolvlm_fast.py +15 -41
transformers/models/smolvlm/modeling_smolvlm.py +94 -126
transformers/models/smolvlm/modular_smolvlm.py +39 -50
transformers/models/smolvlm/processing_smolvlm.py +83 -15
transformers/models/smolvlm/video_processing_smolvlm.py +18 -16
transformers/models/speech_encoder_decoder/configuration_speech_encoder_decoder.py +1 -0
transformers/models/speech_encoder_decoder/modeling_speech_encoder_decoder.py +27 -26
transformers/models/speech_to_text/configuration_speech_to_text.py +9 -9
transformers/models/speech_to_text/feature_extraction_speech_to_text.py +13 -10
transformers/models/speech_to_text/modeling_speech_to_text.py +54 -66
transformers/models/speech_to_text/processing_speech_to_text.py +30 -4
transformers/models/speech_to_text/tokenization_speech_to_text.py +6 -5
transformers/models/speecht5/configuration_speecht5.py +9 -7
transformers/models/speecht5/feature_extraction_speecht5.py +37 -16
transformers/models/speecht5/modeling_speecht5.py +175 -213
transformers/models/speecht5/number_normalizer.py +1 -0
transformers/models/speecht5/processing_speecht5.py +37 -3
transformers/models/speecht5/tokenization_speecht5.py +5 -4
transformers/models/splinter/configuration_splinter.py +7 -6
transformers/models/splinter/modeling_splinter.py +59 -71
transformers/models/splinter/tokenization_splinter.py +30 -9
transformers/models/squeezebert/configuration_squeezebert.py +2 -14
transformers/models/squeezebert/modeling_squeezebert.py +62 -68
transformers/models/squeezebert/tokenization_squeezebert.py +1 -0
transformers/models/stablelm/configuration_stablelm.py +29 -24
transformers/models/stablelm/modeling_stablelm.py +45 -44
transformers/models/starcoder2/configuration_starcoder2.py +27 -30
transformers/models/starcoder2/modeling_starcoder2.py +41 -39
transformers/models/starcoder2/modular_starcoder2.py +16 -14
transformers/models/superglue/configuration_superglue.py +3 -7
transformers/models/superglue/image_processing_superglue.py +15 -15
transformers/models/superglue/image_processing_superglue_fast.py +10 -9
transformers/models/superglue/modeling_superglue.py +37 -42
transformers/models/superpoint/image_processing_superpoint.py +15 -15
transformers/models/superpoint/image_processing_superpoint_fast.py +11 -8
transformers/models/superpoint/modeling_superpoint.py +16 -18
transformers/models/swiftformer/configuration_swiftformer.py +1 -0
transformers/models/swiftformer/modeling_swiftformer.py +14 -18
transformers/models/swin/configuration_swin.py +1 -0
transformers/models/swin/modeling_swin.py +86 -86
transformers/models/swin2sr/configuration_swin2sr.py +1 -0
transformers/models/swin2sr/image_processing_swin2sr.py +13 -10
transformers/models/swin2sr/image_processing_swin2sr_fast.py +8 -4
transformers/models/swin2sr/modeling_swin2sr.py +63 -81
transformers/models/swinv2/configuration_swinv2.py +1 -0
transformers/models/swinv2/modeling_swinv2.py +104 -108
transformers/models/switch_transformers/configuration_switch_transformers.py +7 -11
transformers/models/switch_transformers/modeling_switch_transformers.py +44 -37
transformers/models/switch_transformers/modular_switch_transformers.py +41 -34
transformers/models/t5/configuration_t5.py +8 -14
transformers/models/t5/modeling_t5.py +92 -88
transformers/models/t5/tokenization_t5.py +9 -3
transformers/models/t5gemma/configuration_t5gemma.py +41 -43
transformers/models/t5gemma/modeling_t5gemma.py +107 -104
transformers/models/t5gemma/modular_t5gemma.py +120 -124
transformers/models/t5gemma2/configuration_t5gemma2.py +120 -80
transformers/models/t5gemma2/modeling_t5gemma2.py +125 -141
transformers/models/t5gemma2/modular_t5gemma2.py +104 -393
transformers/models/table_transformer/configuration_table_transformer.py +2 -1
transformers/models/table_transformer/modeling_table_transformer.py +49 -51
transformers/models/tapas/configuration_tapas.py +2 -12
transformers/models/tapas/modeling_tapas.py +67 -68
transformers/models/tapas/tokenization_tapas.py +153 -115
transformers/models/textnet/configuration_textnet.py +1 -0
transformers/models/textnet/image_processing_textnet.py +25 -22
transformers/models/textnet/image_processing_textnet_fast.py +10 -8
transformers/models/textnet/modeling_textnet.py +16 -28
transformers/models/time_series_transformer/configuration_time_series_transformer.py +8 -5
transformers/models/time_series_transformer/modeling_time_series_transformer.py +81 -83
transformers/models/timesfm/configuration_timesfm.py +1 -0
transformers/models/timesfm/modeling_timesfm.py +22 -33
transformers/models/timesfm/modular_timesfm.py +21 -32
transformers/models/timesformer/configuration_timesformer.py +1 -0
transformers/models/timesformer/modeling_timesformer.py +16 -15
transformers/models/timm_backbone/configuration_timm_backbone.py +1 -0
transformers/models/timm_backbone/modeling_timm_backbone.py +15 -17
transformers/models/timm_wrapper/configuration_timm_wrapper.py +3 -5
transformers/models/timm_wrapper/image_processing_timm_wrapper.py +5 -4
transformers/models/timm_wrapper/modeling_timm_wrapper.py +29 -34
transformers/models/trocr/configuration_trocr.py +8 -11
transformers/models/trocr/modeling_trocr.py +44 -45
transformers/models/trocr/processing_trocr.py +25 -5
transformers/models/tvp/configuration_tvp.py +2 -5
transformers/models/tvp/image_processing_tvp.py +52 -50
transformers/models/tvp/image_processing_tvp_fast.py +15 -15
transformers/models/tvp/modeling_tvp.py +27 -27
transformers/models/tvp/processing_tvp.py +14 -2
transformers/models/udop/configuration_udop.py +7 -16
transformers/models/udop/modeling_udop.py +73 -71
transformers/models/udop/processing_udop.py +26 -7
transformers/models/udop/tokenization_udop.py +105 -84
transformers/models/umt5/configuration_umt5.py +7 -8
transformers/models/umt5/modeling_umt5.py +90 -94
transformers/models/unispeech/configuration_unispeech.py +2 -4
transformers/models/unispeech/modeling_unispeech.py +49 -51
transformers/models/unispeech/modular_unispeech.py +22 -22
transformers/models/unispeech_sat/configuration_unispeech_sat.py +2 -4
transformers/models/unispeech_sat/modeling_unispeech_sat.py +65 -69
transformers/models/unispeech_sat/modular_unispeech_sat.py +23 -23
transformers/models/univnet/feature_extraction_univnet.py +14 -14
transformers/models/univnet/modeling_univnet.py +8 -8
transformers/models/upernet/configuration_upernet.py +1 -0
transformers/models/upernet/modeling_upernet.py +13 -11
transformers/models/vaultgemma/__init__.py +1 -0
transformers/models/vaultgemma/configuration_vaultgemma.py +33 -29
transformers/models/vaultgemma/modeling_vaultgemma.py +41 -39
transformers/models/vaultgemma/modular_vaultgemma.py +31 -29
transformers/models/video_llama_3/configuration_video_llama_3.py +0 -4
transformers/models/video_llama_3/image_processing_video_llama_3.py +42 -43
transformers/models/video_llama_3/image_processing_video_llama_3_fast.py +14 -12
transformers/models/video_llama_3/modeling_video_llama_3.py +109 -157
transformers/models/video_llama_3/modular_video_llama_3.py +146 -155
transformers/models/video_llama_3/processing_video_llama_3.py +39 -5
transformers/models/video_llama_3/video_processing_video_llama_3.py +23 -42
transformers/models/video_llava/configuration_video_llava.py +1 -4
transformers/models/video_llava/image_processing_video_llava.py +38 -35
transformers/models/video_llava/modeling_video_llava.py +146 -146
transformers/models/video_llava/processing_video_llava.py +78 -38
transformers/models/video_llava/video_processing_video_llava.py +1 -0
transformers/models/videomae/configuration_videomae.py +1 -0
transformers/models/videomae/image_processing_videomae.py +34 -31
transformers/models/videomae/modeling_videomae.py +17 -14
transformers/models/videomae/video_processing_videomae.py +1 -0
transformers/models/vilt/configuration_vilt.py +4 -6
transformers/models/vilt/image_processing_vilt.py +30 -29
transformers/models/vilt/image_processing_vilt_fast.py +16 -15
transformers/models/vilt/modeling_vilt.py +90 -116
transformers/models/vilt/processing_vilt.py +14 -2
transformers/models/vipllava/configuration_vipllava.py +1 -4
transformers/models/vipllava/modeling_vipllava.py +70 -99
transformers/models/vipllava/modular_vipllava.py +54 -78
transformers/models/vision_encoder_decoder/configuration_vision_encoder_decoder.py +1 -0
transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py +27 -28
transformers/models/vision_text_dual_encoder/configuration_vision_text_dual_encoder.py +1 -0
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +41 -46
transformers/models/vision_text_dual_encoder/processing_vision_text_dual_encoder.py +16 -2
transformers/models/visual_bert/configuration_visual_bert.py +2 -6
transformers/models/visual_bert/modeling_visual_bert.py +92 -98
transformers/models/vit/configuration_vit.py +1 -0
transformers/models/vit/image_processing_vit.py +22 -19
transformers/models/vit/image_processing_vit_fast.py +1 -0
transformers/models/vit/modeling_vit.py +17 -17
transformers/models/vit_mae/configuration_vit_mae.py +1 -0
transformers/models/vit_mae/modeling_vit_mae.py +27 -29
transformers/models/vit_msn/configuration_vit_msn.py +1 -0
transformers/models/vit_msn/modeling_vit_msn.py +16 -18
transformers/models/vitdet/configuration_vitdet.py +1 -0
transformers/models/vitdet/modeling_vitdet.py +14 -14
transformers/models/vitmatte/configuration_vitmatte.py +5 -2
transformers/models/vitmatte/image_processing_vitmatte.py +18 -15
transformers/models/vitmatte/image_processing_vitmatte_fast.py +18 -16
transformers/models/vitmatte/modeling_vitmatte.py +11 -14
transformers/models/vitpose/configuration_vitpose.py +7 -4
transformers/models/vitpose/image_processing_vitpose.py +25 -24
transformers/models/vitpose/image_processing_vitpose_fast.py +11 -9
transformers/models/vitpose/modeling_vitpose.py +14 -14
transformers/models/vitpose_backbone/configuration_vitpose_backbone.py +1 -0
transformers/models/vitpose_backbone/modeling_vitpose_backbone.py +10 -8
transformers/models/vits/configuration_vits.py +1 -4
transformers/models/vits/modeling_vits.py +42 -44
transformers/models/vits/tokenization_vits.py +4 -3
transformers/models/vivit/configuration_vivit.py +1 -0
transformers/models/vivit/image_processing_vivit.py +39 -36
transformers/models/vivit/modeling_vivit.py +8 -6
transformers/models/vjepa2/__init__.py +1 -0
transformers/models/vjepa2/configuration_vjepa2.py +1 -0
transformers/models/vjepa2/modeling_vjepa2.py +32 -31
transformers/models/vjepa2/video_processing_vjepa2.py +1 -0
transformers/models/voxtral/__init__.py +1 -0
transformers/models/voxtral/configuration_voxtral.py +2 -0
transformers/models/voxtral/modeling_voxtral.py +47 -40
transformers/models/voxtral/modular_voxtral.py +40 -37
transformers/models/voxtral/processing_voxtral.py +48 -25
transformers/models/wav2vec2/configuration_wav2vec2.py +2 -4
transformers/models/wav2vec2/feature_extraction_wav2vec2.py +10 -7
transformers/models/wav2vec2/modeling_wav2vec2.py +121 -73
transformers/models/wav2vec2/processing_wav2vec2.py +35 -6
transformers/models/wav2vec2/tokenization_wav2vec2.py +332 -20
transformers/models/wav2vec2_bert/configuration_wav2vec2_bert.py +2 -4
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +62 -70
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +48 -57
transformers/models/wav2vec2_bert/processing_wav2vec2_bert.py +35 -6
transformers/models/wav2vec2_conformer/configuration_wav2vec2_conformer.py +2 -4
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +77 -90
transformers/models/wav2vec2_conformer/modular_wav2vec2_conformer.py +30 -37
transformers/models/wav2vec2_phoneme/tokenization_wav2vec2_phoneme.py +17 -16
transformers/models/wav2vec2_with_lm/processing_wav2vec2_with_lm.py +55 -36
transformers/models/wavlm/configuration_wavlm.py +2 -4
transformers/models/wavlm/modeling_wavlm.py +48 -50
transformers/models/wavlm/modular_wavlm.py +5 -4
transformers/models/whisper/configuration_whisper.py +5 -6
transformers/models/whisper/english_normalizer.py +4 -3
transformers/models/whisper/feature_extraction_whisper.py +24 -9
transformers/models/whisper/generation_whisper.py +48 -26
transformers/models/whisper/modeling_whisper.py +73 -79
transformers/models/whisper/processing_whisper.py +20 -3
transformers/models/whisper/tokenization_whisper.py +43 -11
transformers/models/x_clip/configuration_x_clip.py +2 -4
transformers/models/x_clip/modeling_x_clip.py +93 -96
transformers/models/x_clip/processing_x_clip.py +14 -2
transformers/models/xcodec/configuration_xcodec.py +6 -4
transformers/models/xcodec/modeling_xcodec.py +17 -20
transformers/models/xglm/configuration_xglm.py +8 -9
transformers/models/xglm/modeling_xglm.py +55 -60
transformers/models/xglm/tokenization_xglm.py +11 -3
transformers/models/xlm/configuration_xlm.py +8 -10
transformers/models/xlm/modeling_xlm.py +144 -144
transformers/models/xlm/tokenization_xlm.py +5 -3
transformers/models/xlm_roberta/configuration_xlm_roberta.py +3 -11
transformers/models/xlm_roberta/modeling_xlm_roberta.py +194 -195
transformers/models/xlm_roberta/modular_xlm_roberta.py +53 -50
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +18 -8
transformers/models/xlm_roberta_xl/configuration_xlm_roberta_xl.py +2 -10
transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py +93 -94
transformers/models/xlm_roberta_xl/modular_xlm_roberta_xl.py +70 -67
transformers/models/xlnet/configuration_xlnet.py +12 -3
transformers/models/xlnet/modeling_xlnet.py +163 -152
transformers/models/xlnet/tokenization_xlnet.py +9 -2
transformers/models/xlstm/configuration_xlstm.py +12 -8
transformers/models/xlstm/modeling_xlstm.py +65 -62
transformers/models/xmod/configuration_xmod.py +3 -11
transformers/models/xmod/modeling_xmod.py +110 -108
transformers/models/yolos/configuration_yolos.py +1 -0
transformers/models/yolos/image_processing_yolos.py +62 -60
transformers/models/yolos/image_processing_yolos_fast.py +45 -42
transformers/models/yolos/modeling_yolos.py +16 -16
transformers/models/yolos/modular_yolos.py +19 -17
transformers/models/yoso/configuration_yoso.py +2 -8
transformers/models/yoso/modeling_yoso.py +63 -70
transformers/models/zamba/configuration_zamba.py +8 -5
transformers/models/zamba/modeling_zamba.py +78 -81
transformers/models/zamba2/configuration_zamba2.py +50 -44
transformers/models/zamba2/modeling_zamba2.py +97 -97
transformers/models/zamba2/modular_zamba2.py +48 -46
transformers/models/zoedepth/configuration_zoedepth.py +2 -1
transformers/models/zoedepth/image_processing_zoedepth.py +29 -28
transformers/models/zoedepth/image_processing_zoedepth_fast.py +24 -21
transformers/models/zoedepth/modeling_zoedepth.py +18 -26
transformers/pipelines/__init__.py +114 -57
transformers/pipelines/any_to_any.py +22 -14
transformers/pipelines/audio_utils.py +2 -1
transformers/pipelines/automatic_speech_recognition.py +12 -20
transformers/pipelines/base.py +27 -15
transformers/{models/pe_audio/processing_pe_audio.py → pipelines/deprecated/__init__.py} +3 -10
transformers/pipelines/deprecated/text2text_generation.py +408 -0
transformers/pipelines/document_question_answering.py +2 -4
transformers/pipelines/image_text_to_text.py +1 -0
transformers/pipelines/image_to_text.py +229 -0
transformers/pipelines/question_answering.py +44 -5
transformers/pipelines/text_classification.py +14 -1
transformers/pipelines/text_generation.py +1 -1
transformers/pipelines/text_to_audio.py +2 -2
transformers/pipelines/token_classification.py +22 -1
transformers/pipelines/video_classification.py +9 -1
transformers/pipelines/zero_shot_audio_classification.py +1 -0
transformers/pipelines/zero_shot_classification.py +6 -0
transformers/pipelines/zero_shot_image_classification.py +7 -0
transformers/processing_utils.py +145 -230
transformers/quantizers/auto.py +4 -2
transformers/quantizers/base.py +173 -53
transformers/quantizers/quantizer_aqlm.py +23 -2
transformers/quantizers/quantizer_auto_round.py +12 -2
transformers/quantizers/quantizer_awq.py +89 -20
transformers/quantizers/quantizer_bitnet.py +14 -4
transformers/quantizers/quantizer_bnb_4bit.py +155 -18
transformers/quantizers/quantizer_bnb_8bit.py +110 -24
transformers/quantizers/quantizer_compressed_tensors.py +9 -2
transformers/quantizers/quantizer_eetq.py +74 -16
transformers/quantizers/quantizer_fbgemm_fp8.py +138 -38
transformers/quantizers/quantizer_finegrained_fp8.py +113 -26
transformers/quantizers/quantizer_fp_quant.py +82 -52
transformers/quantizers/quantizer_gptq.py +28 -8
transformers/quantizers/quantizer_higgs.py +60 -42
transformers/quantizers/quantizer_hqq.py +153 -144
transformers/quantizers/quantizer_mxfp4.py +194 -14
transformers/quantizers/quantizer_quanto.py +79 -35
transformers/quantizers/quantizer_quark.py +18 -36
transformers/quantizers/quantizer_spqr.py +12 -4
transformers/quantizers/quantizer_torchao.py +325 -50
transformers/quantizers/quantizer_vptq.py +27 -4
transformers/quantizers/quantizers_utils.py +0 -20
transformers/safetensors_conversion.py +3 -9
transformers/testing_utils.py +82 -326
transformers/tokenization_mistral_common.py +903 -568
transformers/tokenization_utils_base.py +340 -220
transformers/tokenization_utils_sentencepiece.py +6 -5
transformers/tokenization_utils_tokenizers.py +113 -226
transformers/trainer.py +53 -60
transformers/trainer_callback.py +0 -8
transformers/trainer_seq2seq.py +1 -5
transformers/trainer_utils.py +1 -1
transformers/training_args.py +41 -77
transformers/utils/__init__.py +4 -8
transformers/utils/attention_visualizer.py +5 -5
transformers/utils/auto_docstring.py +37 -599
transformers/utils/doc.py +36 -4
transformers/utils/dummy_pt_objects.py +42 -0
transformers/utils/generic.py +28 -111
transformers/utils/hub.py +15 -5
transformers/utils/import_utils.py +32 -165
transformers/utils/kernel_config.py +19 -74
transformers/utils/loading_report.py +15 -25
transformers/utils/quantization_config.py +241 -72
transformers/video_processing_utils.py +39 -41
transformers/video_utils.py +22 -18
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/METADATA +236 -284
transformers-5.0.0rc0.dist-info/RECORD +1987 -0
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/WHEEL +1 -1
transformers/integrations/moe.py +0 -360
transformers/integrations/quark.py +0 -53
transformers/loss/loss_lw_detr.py +0 -356
transformers/models/ernie4_5_vl_moe/__init__.py +0 -31
transformers/models/ernie4_5_vl_moe/configuration_ernie4_5_vl_moe.py +0 -340
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe.py +0 -455
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe_fast.py +0 -231
transformers/models/ernie4_5_vl_moe/modeling_ernie4_5_vl_moe.py +0 -1936
transformers/models/ernie4_5_vl_moe/modular_ernie4_5_vl_moe.py +0 -1925
transformers/models/ernie4_5_vl_moe/processing_ernie4_5_vl_moe.py +0 -249
transformers/models/ernie4_5_vl_moe/video_processing_ernie4_5_vl_moe.py +0 -593
transformers/models/fast_vlm/__init__.py +0 -27
transformers/models/fast_vlm/configuration_fast_vlm.py +0 -137
transformers/models/fast_vlm/modeling_fast_vlm.py +0 -432
transformers/models/fast_vlm/modular_fast_vlm.py +0 -373
transformers/models/glm4_moe_lite/__init__.py +0 -28
transformers/models/glm4_moe_lite/configuration_glm4_moe_lite.py +0 -233
transformers/models/glm4_moe_lite/modeling_glm4_moe_lite.py +0 -740
transformers/models/glm4_moe_lite/modular_glm4_moe_lite.py +0 -302
transformers/models/glm_image/__init__.py +0 -31
transformers/models/glm_image/configuration_glm_image.py +0 -351
transformers/models/glm_image/image_processing_glm_image.py +0 -503
transformers/models/glm_image/image_processing_glm_image_fast.py +0 -294
transformers/models/glm_image/modeling_glm_image.py +0 -1642
transformers/models/glm_image/modular_glm_image.py +0 -1531
transformers/models/glm_image/processing_glm_image.py +0 -217
transformers/models/glmasr/__init__.py +0 -29
transformers/models/glmasr/configuration_glmasr.py +0 -196
transformers/models/glmasr/modeling_glmasr.py +0 -517
transformers/models/glmasr/modular_glmasr.py +0 -443
transformers/models/glmasr/processing_glmasr.py +0 -331
transformers/models/jais2/__init__.py +0 -27
transformers/models/jais2/configuration_jais2.py +0 -148
transformers/models/jais2/modeling_jais2.py +0 -484
transformers/models/jais2/modular_jais2.py +0 -194
transformers/models/lasr/__init__.py +0 -29
transformers/models/lasr/configuration_lasr.py +0 -244
transformers/models/lasr/feature_extraction_lasr.py +0 -275
transformers/models/lasr/modeling_lasr.py +0 -727
transformers/models/lasr/modular_lasr.py +0 -574
transformers/models/lasr/processing_lasr.py +0 -100
transformers/models/lasr/tokenization_lasr.py +0 -184
transformers/models/lighton_ocr/__init__.py +0 -28
transformers/models/lighton_ocr/configuration_lighton_ocr.py +0 -128
transformers/models/lighton_ocr/modeling_lighton_ocr.py +0 -463
transformers/models/lighton_ocr/modular_lighton_ocr.py +0 -404
transformers/models/lighton_ocr/processing_lighton_ocr.py +0 -229
transformers/models/lw_detr/__init__.py +0 -27
transformers/models/lw_detr/configuration_lw_detr.py +0 -374
transformers/models/lw_detr/modeling_lw_detr.py +0 -1702
transformers/models/lw_detr/modular_lw_detr.py +0 -1615
transformers/models/minimax_m2/__init__.py +0 -28
transformers/models/minimax_m2/configuration_minimax_m2.py +0 -188
transformers/models/minimax_m2/modeling_minimax_m2.py +0 -704
transformers/models/minimax_m2/modular_minimax_m2.py +0 -346
transformers/models/paddleocr_vl/__init__.py +0 -31
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +0 -335
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +0 -503
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +0 -209
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +0 -1683
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +0 -1380
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +0 -133
transformers/models/pe_audio/__init__.py +0 -29
transformers/models/pe_audio/configuration_pe_audio.py +0 -204
transformers/models/pe_audio/feature_extraction_pe_audio.py +0 -160
transformers/models/pe_audio/modeling_pe_audio.py +0 -819
transformers/models/pe_audio/modular_pe_audio.py +0 -298
transformers/models/pe_audio_video/__init__.py +0 -28
transformers/models/pe_audio_video/configuration_pe_audio_video.py +0 -223
transformers/models/pe_audio_video/modeling_pe_audio_video.py +0 -971
transformers/models/pe_audio_video/modular_pe_audio_video.py +0 -763
transformers/models/pe_video/__init__.py +0 -29
transformers/models/pe_video/configuration_pe_video.py +0 -209
transformers/models/pe_video/modeling_pe_video.py +0 -647
transformers/models/pe_video/modular_pe_video.py +0 -231
transformers/models/pe_video/processing_pe_video.py +0 -10
transformers/models/pe_video/video_processing_pe_video.py +0 -64
transformers/models/pixio/__init__.py +0 -29
transformers/models/pixio/configuration_pixio.py +0 -150
transformers/models/pixio/modeling_pixio.py +0 -507
transformers/models/pixio/modular_pixio.py +0 -403
transformers/models/solar_open/__init__.py +0 -27
transformers/models/solar_open/configuration_solar_open.py +0 -184
transformers/models/solar_open/modeling_solar_open.py +0 -642
transformers/models/solar_open/modular_solar_open.py +0 -224
transformers/trainer_jit_checkpoint.py +0 -125
transformers-5.0.0.dist-info/RECORD +0 -2068
{transformers-5.0.0.dist-info/licenses → transformers-5.0.0rc0.dist-info}/LICENSE +0 -0
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/top_level.txt +0 -0

transformers/models/lw_detr/modular_lw_detr.py DELETED Viewed

@@ -1,1615 +0,0 @@
-# Copyright 2026 The HuggingFace Inc. team. All rights reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-import math
-from collections.abc import Callable
-from dataclasses import dataclass
-from typing import Any
-import torch
-from torch import nn
-from ... import initialization as init
-from ...activations import ACT2FN
-from ...configuration_utils import PreTrainedConfig
-from ...modeling_layers import GradientCheckpointingLayer
-from ...modeling_outputs import BackboneOutput
-from ...modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
-from ...processing_utils import Unpack
-from ...pytorch_utils import meshgrid
-from ...utils import ModelOutput, TransformersKwargs, auto_docstring, logging
-from ...utils.generic import check_model_inputs
-from ..auto.configuration_auto import AutoConfig
-from ..convnext.modeling_convnext import ConvNextLayerNorm
-from ..dab_detr.modeling_dab_detr import gen_sine_position_embeddings
-from ..deformable_detr.modeling_deformable_detr import (
-    DeformableDetrDecoderOutput,
-    DeformableDetrForObjectDetection,
-    DeformableDetrMLPPredictionHead,
-    DeformableDetrModel,
-    DeformableDetrMultiscaleDeformableAttention,
-)
-from ..llama.modeling_llama import eager_attention_forward
-from ..rt_detr.configuration_rt_detr import CONFIG_MAPPING
-from ..rt_detr.modeling_rt_detr import RTDetrConvNormLayer
-from ..vit.modeling_vit import ViTAttention, ViTEncoder, ViTSelfAttention
-from ..vitdet.configuration_vitdet import VitDetConfig
-from ..vitdet.modeling_vitdet import (
-    VitDetBackbone,
-    VitDetEmbeddings,
-    VitDetMlp,
-    VitDetPreTrainedModel,
-)
-logger = logging.get_logger(__name__)
-class LwDetrViTConfig(VitDetConfig):
-    r"""
-    This is the configuration class to store the configuration of a [`LwDetrViTModel`]. It is used to instantiate an
-    LW-DETR ViT model according to the specified arguments, defining the model architecture. Instantiating a configuration
-    with the defaults will yield a similar configuration to that of the LW-DETR ViT
-    [AnnaZhang/lwdetr_small_60e_coco](https://huggingface.co/AnnaZhang/lwdetr_small_60e_coco) architecture.
-    LW-DETR ViT is the Vision Transformer backbone used in the LW-DETR model for real-time object detection. It features
-    interleaved window and global attention mechanisms to reduce computational complexity while maintaining high performance.
-    The model uses a window-major feature map organization for efficient attention computation.
-    Configuration objects inherit from [`VitDetConfig`] and can be used to control the model outputs. Read the
-    documentation from [`VitDetConfig`] for more information.
-    Args:
-        hidden_size (`int`, *optional*, defaults to 768):
-            Dimensionality of the encoder layers and the pooler layer.
-        num_hidden_layers (`int`, *optional*, defaults to 12):
-            Number of hidden layers in the Transformer encoder.
-        num_attention_heads (`int`, *optional*, defaults to 12):
-            Number of attention heads for each attention layer in the Transformer encoder.
-        mlp_ratio (`int`, *optional*, defaults to 4):
-            Ratio of mlp hidden dim to embedding dim.
-        hidden_act (`str` or `function`, *optional*, defaults to `"gelu"`):
-            The non-linear activation function (function or string) in the encoder and pooler. If string, `"gelu"`,
-            `"relu"`, `"selu"` and `"gelu_new"` are supported.
-        dropout_prob (`float`, *optional*, defaults to 0.0):
-            The dropout probability for all fully connected layers in the embeddings, encoder, and pooler.
-        initializer_range (`float`, *optional*, defaults to 0.02):
-            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
-        layer_norm_eps (`float`, *optional*, defaults to 1e-06):
-            The epsilon used by the layer normalization layers.
-        image_size (`int`, *optional*, defaults to 256):
-            The size (resolution) of each image.
-        pretrain_image_size (`int`, *optional*, defaults to 224):
-            The size (resolution) of each image during pretraining.
-        patch_size (`int`, *optional*, defaults to 16):
-            The size (resolution) of each patch.
-        num_channels (`int`, *optional*, defaults to 3):
-            The number of input channels.
-        qkv_bias (`bool`, *optional*, defaults to `True`):
-            Whether to add a bias to the queries, keys and values.
-        window_block_indices (`list[int]`, *optional*, defaults to `[]`):
-            List of indices of blocks that should have window attention instead of regular global self-attention.
-        use_absolute_position_embeddings (`bool`, *optional*, defaults to `True`):
-            Whether to add absolute position embeddings to the patch embeddings.
-        out_features (`list[str]`, *optional*):
-            If used as backbone, list of features to output. Can be any of `"stem"`, `"stage1"`, `"stage2"`, etc.
-            (depending on how many stages the model has). If unset and `out_indices` is set, will default to the
-            corresponding stages. If unset and `out_indices` is unset, will default to the last stage. Must be in the
-            same order as defined in the `stage_names` attribute.
-        out_indices (`list[int]`, *optional*):
-            If used as backbone, list of indices of features to output. Can be any of 0, 1, 2, etc. (depending on how
-            many stages the model has). If unset and `out_features` is set, will default to the corresponding stages.
-            If unset and `out_features` is unset, will default to the last stage. Must be in the
-            same order as defined in the `stage_names` attribute.
-        cae_init_values (`float`, *optional*, defaults to 0.1):
-            Initialization value for CAE parameters when `use_cae` is enabled.
-        num_windows (`int`, *optional*, defaults to 16):
-            Number of windows for window-based attention. Must be a perfect square and the image size must be
-            divisible by the square root of this value. This enables efficient window-major feature map organization.
-    Example:
-    ```python
-    >>> from transformers import LwDetrViTConfig, LwDetrViTModel
-    >>> # Initializing a LW-DETR ViT configuration
-    >>> configuration = LwDetrViTConfig()
-    >>> # Initializing a model (with random weights) from the configuration
-    >>> model = LwDetrViTModel(configuration)
-    >>> # Accessing the model configuration
-    >>> configuration = model.config
-    ```"""
-    model_type = "lw_detr_vit"
-    def __init__(
-        self,
-        hidden_size=768,
-        num_hidden_layers=12,
-        num_attention_heads=12,
-        mlp_ratio=4,
-        hidden_act="gelu",
-        dropout_prob=0.0,
-        initializer_range=0.02,
-        layer_norm_eps=1e-6,
-        image_size=256,
-        pretrain_image_size=224,
-        patch_size=16,
-        num_channels=3,
-        qkv_bias=True,
-        window_block_indices=[],
-        use_absolute_position_embeddings=True,
-        out_features=None,
-        out_indices=None,
-        cae_init_values: float = 0.1,
-        num_windows=16,
-        **kwargs,
-    ):
-        super().__init__(
-            hidden_size=hidden_size,
-            num_hidden_layers=num_hidden_layers,
-            num_attention_heads=num_attention_heads,
-            mlp_ratio=mlp_ratio,
-            hidden_act=hidden_act,
-            dropout_prob=dropout_prob,
-            initializer_range=initializer_range,
-            layer_norm_eps=layer_norm_eps,
-            image_size=image_size,
-            pretrain_image_size=pretrain_image_size,
-            patch_size=patch_size,
-            num_channels=num_channels,
-            qkv_bias=qkv_bias,
-            window_block_indices=window_block_indices,
-            use_absolute_position_embeddings=use_absolute_position_embeddings,
-            out_features=out_features,
-            out_indices=out_indices,
-            **kwargs,
-        )
-        del self.residual_block_indices
-        del self.use_relative_position_embeddings
-        del self.window_size
-        del self.drop_path_rate
-        self.cae_init_values = cae_init_values
-        if num_windows % math.sqrt(num_windows) != 0:
-            raise ValueError(
-                f"`num_windows` has to be a perfect square, where num_windows % math.sqrt(num_windows) != 0, but got {num_windows}."
-            )
-        if image_size / num_windows % math.sqrt(num_windows) != 0:
-            raise ValueError(
-                f"`image_size` has to be divisible by `num_windows`, where image_size / num_windows % math.sqrt(num_windows) != 0,but got {image_size} and {num_windows}."
-            )
-        self.num_windows = num_windows
-        self.num_windows_side = int(math.sqrt(num_windows))
-class LwDetrConfig(PreTrainedConfig):
-    r"""
-    This is the configuration class to store the configuration of a [`LwDetrModel`]. It is used to instantiate
-    a LW-DETR model according to the specified arguments, defining the model architecture. Instantiating a
-    configuration with the defaults will yield a similar configuration to that of the LW-DETR
-    [AnnaZhang/lwdetr_small_60e_coco](https://huggingface.co/AnnaZhang/lwdetr_small_60e_coco) architecture.
-    LW-DETR (Lightweight Detection Transformer) is a transformer-based object detection model designed for real-time
-    detection tasks. It replaces traditional CNN-based detectors like YOLO with a more efficient transformer architecture
-    that achieves competitive performance while being computationally lightweight.
-    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
-    documentation from [`PretrainedConfig`] for more information.
-    Args:
-        backbone_config (`PretrainedConfig` or `dict`, *optional*):
-            The configuration of the backbone model. If not provided, will default to `LwDetrViTConfig` with
-            a small ViT architecture optimized for detection tasks.
-        projector_scale_factors (`list[float]`, *optional*, defaults to `[]`):
-            Scale factors for the feature pyramid network. Each scale factor determines the resolution of features
-            at different levels. Supported values are 0.5, 1.0, and 2.0.
-        hidden_expansion (`float`, *optional*, defaults to 0.5):
-            Expansion factor for hidden dimensions in the projector layers.
-        c2f_num_blocks (`int`, *optional*, defaults to 3):
-            Number of blocks in the C2F layer.
-        activation_function (`str`, *optional*, defaults to `"silu"`):
-            The non-linear activation function in the projector. Supported values are `"silu"`, `"relu"`, `"gelu"`.
-        batch_norm_eps (`float`, *optional*, defaults to 1e-05):
-            The epsilon value for batch normalization layers.
-        d_model (`int`, *optional*, defaults to 256):
-            Dimension of the model layers and the number of expected features in the decoder inputs.
-        dropout (`float`, *optional*, defaults to 0.1):
-            The dropout probability for all fully connected layers in the embeddings, encoder, and pooler.
-        decoder_ffn_dim (`int`, *optional*, defaults to 2048):
-            Dimension of the "intermediate" (often named feed-forward) layer in decoder.
-        decoder_n_points (`int`, *optional*, defaults to 4):
-            The number of sampled keys in each feature level for each attention head in the decoder.
-        decoder_layers (`int`, *optional*, defaults to 3):
-            Number of decoder layers in the transformer.
-        decoder_self_attention_heads (`int`, *optional*, defaults to 8):
-            Number of attention heads for each attention layer in the decoder self-attention.
-        decoder_cross_attention_heads (`int`, *optional*, defaults to 16):
-            Number of attention heads for each attention layer in the decoder cross-attention.
-        decoder_activation_function (`str`, *optional*, defaults to `"relu"`):
-            The non-linear activation function in the decoder. Supported values are `"relu"`, `"silu"`, `"gelu"`.
-        num_queries (`int`, *optional*, defaults to 300):
-            Number of object queries, i.e. detection slots. This is the maximal number of objects
-            [`LwDetrModel`] can detect in a single image.
-        attention_bias (`bool`, *optional*, defaults to `True`):
-            Whether to add bias to the attention layers.
-        attention_dropout (`float`, *optional*, defaults to 0.0):
-            The dropout ratio for the attention probabilities.
-        activation_dropout (`float`, *optional*, defaults to 0.0):
-            The dropout ratio for activations inside the fully connected layer.
-        group_detr (`int`, *optional*, defaults to 13):
-            Number of groups for Group DETR attention mechanism, which helps reduce computational complexity.
-        init_std (`float`, *optional*, defaults to 0.02):
-            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
-        disable_custom_kernels (`bool`, *optional*, defaults to `True`):
-            Disable the use of custom CUDA and CPU kernels. This option is necessary for the ONNX export, as custom
-            kernels are not supported by PyTorch ONNX export.
-        class_cost (`float`, *optional*, defaults to 2):
-            Relative weight of the classification error in the Hungarian matching cost.
-        bbox_cost (`float`, *optional*, defaults to 5):
-            Relative weight of the L1 error of the bounding box coordinates in the Hungarian matching cost.
-        giou_cost (`float`, *optional*, defaults to 2):
-            Relative weight of the generalized IoU loss of the bounding box in the Hungarian matching cost.
-        mask_loss_coefficient (`float`, *optional*, defaults to 1):
-            Relative weight of the Focal loss in the panoptic segmentation loss.
-        dice_loss_coefficient (`float`, *optional*, defaults to 1):
-            Relative weight of the DICE/F-1 loss in the panoptic segmentation loss.
-        bbox_loss_coefficient (`float`, *optional*, defaults to 5):
-            Relative weight of the L1 bounding box loss in the object detection loss.
-        giou_loss_coefficient (`float`, *optional*, defaults to 2):
-            Relative weight of the generalized IoU loss in the object detection loss.
-        eos_coefficient (`float`, *optional*, defaults to 0.1):
-            Relative classification weight of the 'no-object' class in the object detection loss.
-        focal_alpha (`float`, *optional*, defaults to 0.25):
-            Alpha parameter in the focal loss.
-        auxiliary_loss (`bool`, *optional*, defaults to `True`):
-            Whether auxiliary decoding losses (loss at each decoder layer) are to be used.
-    Examples:
-    ```python
-    >>> from transformers import LwDetrConfig, LwDetrModel
-    >>> # Initializing a LW-DETR AnnaZhang/lwdetr_small_60e_coco style configuration
-    >>> configuration = LwDetrConfig()
-    >>> # Initializing a model (with random weights) from the AnnaZhang/lwdetr_small_60e_coco style configuration
-    >>> model = LwDetrModel(configuration)
-    >>> # Accessing the model configuration
-    >>> configuration = model.config
-    ```"""
-    model_type = "lw_detr"
-    sub_configs = {"backbone_config": AutoConfig}
-    def __init__(
-        self,
-        # backbone
-        backbone_config=None,
-        # projector
-        projector_scale_factors: list[float] = [],
-        hidden_expansion=0.5,
-        c2f_num_blocks=3,
-        activation_function="silu",
-        batch_norm_eps=1e-5,
-        # decoder
-        d_model=256,
-        dropout=0.1,
-        decoder_ffn_dim=2048,
-        decoder_n_points=4,
-        decoder_layers: int = 3,
-        decoder_self_attention_heads: int = 8,
-        decoder_cross_attention_heads: int = 16,
-        decoder_activation_function="relu",
-        # model
-        num_queries=300,
-        attention_bias=True,
-        attention_dropout=0.0,
-        activation_dropout=0.0,
-        group_detr: int = 13,
-        init_std=0.02,
-        disable_custom_kernels=True,
-        # loss
-        class_cost=2,
-        bbox_cost=5,
-        giou_cost=2,
-        mask_loss_coefficient=1,
-        dice_loss_coefficient=1,
-        bbox_loss_coefficient=5,
-        giou_loss_coefficient=2,
-        eos_coefficient=0.1,
-        focal_alpha=0.25,
-        auxiliary_loss=True,
-        **kwargs,
-    ):
-        self.batch_norm_eps = batch_norm_eps
-        # backbone
-        if backbone_config is None:
-            logger.info(
-                "`backbone_config` and `backbone` are `None`. Initializing the config with the default `LwDetrViT` backbone."
-            )
-            backbone_config = LwDetrViTConfig(
-                image_size=1024,
-                hidden_size=192,
-                num_hidden_layers=10,
-                num_attention_heads=12,
-                window_block_indices=[0, 1, 3, 6, 7, 9],
-                out_indices=[2, 4, 5, 9],
-                **kwargs,
-            )
-        elif isinstance(backbone_config, dict):
-            backbone_model_type = backbone_config.pop("model_type")
-            config_class = CONFIG_MAPPING[backbone_model_type]
-            backbone_config = config_class.from_dict(backbone_config)
-        self.backbone_config = backbone_config
-        # projector
-        self.projector_scale_factors = projector_scale_factors
-        for scale in projector_scale_factors:
-            if scale not in [0.5, 1.0, 2.0]:
-                raise ValueError(f"Unsupported scale factor: {scale}")
-        self.projector_in_channels = [d_model] * len(projector_scale_factors)
-        self.projector_out_channels = d_model
-        self.activation_function = activation_function
-        self.hidden_expansion = hidden_expansion
-        self.c2f_num_blocks = c2f_num_blocks
-        # decoder
-        self.d_model = d_model
-        self.dropout = dropout
-        self.num_queries = num_queries
-        self.decoder_ffn_dim = decoder_ffn_dim
-        self.num_feature_levels = len(self.projector_scale_factors)
-        self.decoder_n_points = decoder_n_points
-        self.decoder_layers = decoder_layers
-        self.decoder_activation_function = decoder_activation_function
-        self.decoder_self_attention_heads = decoder_self_attention_heads
-        self.decoder_cross_attention_heads = decoder_cross_attention_heads
-        self.attention_bias = attention_bias
-        self.attention_dropout = attention_dropout
-        self.activation_dropout = activation_dropout
-        # model
-        self.init_std = init_std
-        self.group_detr = group_detr
-        # Loss
-        self.auxiliary_loss = auxiliary_loss
-        # Hungarian matcher
-        self.class_cost = class_cost
-        self.bbox_cost = bbox_cost
-        self.giou_cost = giou_cost
-        # Loss coefficients
-        self.dice_loss_coefficient = dice_loss_coefficient
-        self.bbox_loss_coefficient = bbox_loss_coefficient
-        self.giou_loss_coefficient = giou_loss_coefficient
-        self.eos_coefficient = eos_coefficient
-        self.focal_alpha = focal_alpha
-        self.disable_custom_kernels = disable_custom_kernels
-        super().__init__(**kwargs)
-class LwDetrViTSelfAttention(ViTSelfAttention):
-    def __init__(self, config: LwDetrViTConfig):
-        super().__init__(config)
-        del self.key
-        self.key = nn.Linear(config.hidden_size, self.all_head_size, bias=False)
-        self.num_key_value_groups = 1
-        self.dropout_prob = config.dropout_prob
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        batch_size = hidden_states.shape[0]
-        new_shape = batch_size, -1, self.num_attention_heads, self.attention_head_size
-        key_layer = self.key(hidden_states).view(*new_shape).transpose(1, 2)
-        value_layer = self.value(hidden_states).view(*new_shape).transpose(1, 2)
-        query_layer = self.query(hidden_states).view(*new_shape).transpose(1, 2)
-        attention_interface: Callable = eager_attention_forward
-        if self.config._attn_implementation != "eager":
-            attention_interface = ALL_ATTENTION_FUNCTIONS[self.config._attn_implementation]
-        context_layer, attention_probs = attention_interface(
-            self,
-            query_layer,
-            key_layer,
-            value_layer,
-            None,
-            is_causal=self.is_causal,
-            scaling=self.scaling,
-            dropout=0.0 if not self.training else self.dropout_prob,
-            **kwargs,
-        )
-        new_context_layer_shape = context_layer.size()[:-2] + (self.all_head_size,)
-        context_layer = context_layer.reshape(new_context_layer_shape)
-        return context_layer, attention_probs
-class LwDetrViTAttention(ViTAttention):
-    def __init__(self, config: LwDetrViTConfig):
-        """
-        Args:
-            config (`LwDetrViTConfig`):
-                Model configuration.
-        """
-        super().__init__(config)
-        self.attention = LwDetrViTSelfAttention(config)
-        self.output = nn.Linear(config.hidden_size, config.hidden_size)
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> torch.Tensor:
-        self_attn_output, _ = self.attention(hidden_states, **kwargs)
-        output = self.output(self_attn_output)
-        return output
-class LwDetrViTMlp(VitDetMlp):
-    pass
-class LwDetrViTLayer(GradientCheckpointingLayer):
-    def __init__(
-        self,
-        config: LwDetrViTConfig,
-        layer_idx,
-    ) -> None:
-        super().__init__()
-        dim = config.hidden_size
-        self.attention = LwDetrViTAttention(config)
-        self.intermediate = LwDetrViTMlp(config=config, in_features=dim, hidden_features=int(dim * config.mlp_ratio))
-        self.layernorm_before = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
-        self.layernorm_after = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
-        self.gamma_1 = nn.Parameter(torch.Tensor(dim), requires_grad=True)
-        self.gamma_2 = nn.Parameter(torch.Tensor(dim), requires_grad=True)
-        self.window = layer_idx in config.window_block_indices
-        self.num_windows = config.num_windows
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> torch.Tensor:
-        batch_size, seq_len, channels = hidden_states.shape
-        hidden_states_norm = self.layernorm_before(hidden_states)
-        if not self.window:
-            hidden_states_norm = hidden_states_norm.reshape(
-                batch_size // self.num_windows, self.num_windows * seq_len, channels
-            )
-        attention_output = self.attention(hidden_states_norm, **kwargs)
-        attention_output = attention_output * self.gamma_1
-        if not self.window:
-            attention_output = attention_output.reshape(batch_size, seq_len, channels)
-        hidden_states = hidden_states + attention_output
-        layer_output = self.layernorm_after(hidden_states)
-        layer_output = self.intermediate(layer_output)
-        layer_output = layer_output * self.gamma_2
-        hidden_states = hidden_states + layer_output
-        return hidden_states
-class LwDetrViTEncoder(ViTEncoder):
-    def __init__(self, config: LwDetrViTConfig) -> None:
-        super().__init__(config)
-        self.layer = nn.ModuleList([LwDetrViTLayer(config, i) for i in range(config.num_hidden_layers)])
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> list[torch.Tensor]:
-        list_hidden_states = [hidden_states]
-        for i, layer_module in enumerate(self.layer):
-            hidden_states = layer_module(hidden_states, **kwargs)
-            list_hidden_states.append(hidden_states)
-        return list_hidden_states
-class LwDetrViTEmbeddings(VitDetEmbeddings):
-    pass
-class LwDetrViTPreTrainedModel(VitDetPreTrainedModel):
-    config: LwDetrViTConfig
-    base_model_prefix = "lw_detr_vit"
-    main_input_name = "pixel_values"
-    supports_gradient_checkpointing = True
-    _no_split_modules = ["LwDetrViTEmbeddings", "LwDetrViTLayer"]
-    _supports_sdpa = True
-    _supports_flash_attn = True
-    _supports_flex_attn = True
-    _supports_attention_backend = True
-    _can_record_outputs = {
-        "hidden_states": LwDetrViTLayer,
-        "attentions": LwDetrViTSelfAttention,
-    }
-    def _init_weights(self, module) -> None:
-        """Initialize the weights"""
-        if isinstance(module, (nn.Linear, nn.Conv2d)):
-            init.trunc_normal_(module.weight, mean=0.0, std=self.config.initializer_range)
-            if module.bias is not None:
-                init.zeros_(module.bias)
-        elif isinstance(module, nn.LayerNorm):
-            init.zeros_(module.bias)
-            init.ones_(module.weight)
-        elif isinstance(module, LwDetrViTEmbeddings):
-            init.trunc_normal_(module.position_embeddings, mean=0.0, std=self.config.initializer_range)
-        if isinstance(module, LwDetrViTLayer):
-            nn.init.constant_(module.gamma_1, self.config.cae_init_values)
-            nn.init.constant_(module.gamma_2, self.config.cae_init_values)
-@auto_docstring()
-class LwDetrViTBackbone(VitDetBackbone):
-    @check_model_inputs
-    @auto_docstring
-    def forward(self, pixel_values: torch.Tensor, **kwargs: Unpack[TransformersKwargs]) -> BackboneOutput:
-        r"""
-        Examples:
-        ```python
-        >>> from transformers import LwDetrViTConfig, LwDetrViTBackbone
-        >>> import torch
-        >>> config = LwDetrViTConfig()
-        >>> model = LwDetrViTBackbone(config)
-        >>> pixel_values = torch.randn(1, 3, 224, 224)
-        >>> with torch.no_grad():
-        ...     outputs = model(pixel_values)
-        >>> feature_maps = outputs.feature_maps
-        >>> list(feature_maps[-1].shape)
-        [1, 768, 14, 14]
-        ```"""
-        embedding_output = self.embeddings(pixel_values)
-        batch_size, channels, height, width = embedding_output.shape
-        # (batch_size, channels, height, width) -> (batch_size, height, width, channels)
-        hidden_states = embedding_output.permute(0, 2, 3, 1)
-        window_height = height // self.config.num_windows_side
-        window_width = width // self.config.num_windows_side
-        # (batch_size, height, width, channels) -> (batch_size*num_windows_side**2, window_height*window_width, channels)
-        hidden_states = (
-            hidden_states.reshape(
-                batch_size,
-                self.config.num_windows_side,
-                window_height,
-                self.config.num_windows_side,
-                window_width,
-                channels,
-            )
-            .permute(0, 1, 3, 2, 4, 5)
-            .reshape(batch_size * self.config.num_windows_side**2, window_height * window_width, channels)
-        )
-        hidden_states = self.encoder(hidden_states, **kwargs)
-        feature_maps = ()
-        for stage, hidden_state in zip(self.stage_names, hidden_states):
-            if stage in self.out_features:
-                hidden_state = (
-                    hidden_state.reshape(
-                        batch_size,
-                        self.config.num_windows_side,
-                        self.config.num_windows_side,
-                        window_height,
-                        window_width,
-                        channels,
-                    )
-                    .permute(0, 5, 1, 3, 2, 4)
-                    .reshape(batch_size, channels, height, width)
-                )
-                feature_maps += (hidden_state,)
-        return BackboneOutput(feature_maps=feature_maps)
-class LwDetrConvNormLayer(RTDetrConvNormLayer):
-    def __init__(
-        self,
-        config: LwDetrConfig,
-        in_channels: int,
-        out_channels: int,
-        kernel_size: int,
-        stride: int,
-        activation: str | None = None,
-    ):
-        super().__init__(config, in_channels, out_channels, kernel_size, stride, activation)
-        self.conv = nn.Conv2d(
-            in_channels,
-            out_channels,
-            kernel_size,
-            stride,
-            padding=kernel_size // 2,
-            bias=False,
-        )
-class LwDetrRepVggBlock(nn.Module):
-    def __init__(self, config: LwDetrConfig):
-        super().__init__()
-        hidden_channels = int(config.d_model * config.hidden_expansion)
-        self.conv1 = LwDetrConvNormLayer(
-            config, hidden_channels, hidden_channels, 3, 1, activation=config.activation_function
-        )
-        self.conv2 = LwDetrConvNormLayer(
-            config, hidden_channels, hidden_channels, 3, 1, activation=config.activation_function
-        )
-    def forward(self, x: torch.Tensor) -> torch.Tensor:
-        y = self.conv1(x)
-        y = self.conv2(y)
-        return y
-class LwDetrC2FLayer(nn.Module):
-    # Inspired by RTDetrCSPRepLayer
-    def __init__(self, config: LwDetrConfig, in_channels: int):
-        super().__init__()
-        num_blocks = config.c2f_num_blocks
-        activation = config.activation_function
-        out_channels = config.d_model
-        self.hidden_channels = int(out_channels * config.hidden_expansion)
-        conv1_out_channels = 2 * self.hidden_channels
-        self.conv1 = LwDetrConvNormLayer(config, in_channels, conv1_out_channels, 1, 1, activation=activation)
-        conv2_in_channels = (2 + num_blocks) * self.hidden_channels
-        self.conv2 = LwDetrConvNormLayer(config, conv2_in_channels, out_channels, 1, 1, activation=activation)
-        self.bottlenecks = nn.ModuleList(LwDetrRepVggBlock(config) for _ in range(num_blocks))
-    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
-        hidden_states = self.conv1(hidden_states)
-        all_hidden_states = list(hidden_states.split(self.hidden_channels, 1))
-        hidden_states = all_hidden_states[-1]
-        for bottleneck in self.bottlenecks:
-            hidden_states = bottleneck(hidden_states)
-            all_hidden_states.append(hidden_states)
-        hidden_states = torch.cat(all_hidden_states, 1)
-        hidden_states = self.conv2(hidden_states)
-        return hidden_states
-class LwDetrLayerNorm(ConvNextLayerNorm):
-    pass
-class LwDetrSamplingLayer(nn.Module):
-    def __init__(self, config: LwDetrConfig, channel_size: int, scale: float):
-        super().__init__()
-        self.scale = scale
-        self.channel_size = channel_size
-        layers = []
-        if scale == 2.0:
-            if channel_size > 512:
-                layers.append(LwDetrConvNormLayer(config, channel_size, channel_size // 2, 1, 1, activation="relu"))
-                layers.append(nn.ConvTranspose2d(channel_size // 2, channel_size // 4, kernel_size=2, stride=2))
-            else:
-                layers.append(nn.ConvTranspose2d(channel_size, channel_size // 2, 2, 2))
-        elif scale == 0.5:
-            layers.append(LwDetrConvNormLayer(config, channel_size, channel_size, 3, 2, activation="relu"))
-        self.layers = nn.ModuleList(layers)
-    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
-        for layer in self.layers:
-            hidden_states = layer(hidden_states)
-        return hidden_states
-class LwDetrScaleProjector(nn.Module):
-    def __init__(self, config: LwDetrConfig, scale: float):
-        super().__init__()
-        intermediate_dims = [config.backbone_config.hidden_size] * len(config.backbone_config.out_indices)
-        sampling_layers = []
-        for channel_size in intermediate_dims:
-            sampling_layers.append(LwDetrSamplingLayer(config, channel_size, scale))
-        self.sampling_layers = nn.ModuleList(sampling_layers)
-        intermediate_dim = intermediate_dims[-1]
-        if scale == 2.0:
-            if intermediate_dim > 512:
-                intermediate_dim = intermediate_dim // 4
-            else:
-                intermediate_dim = intermediate_dim // 2
-        projector_input_dim = intermediate_dim * len(intermediate_dims)
-        self.projector_layer = LwDetrC2FLayer(config, projector_input_dim)
-        self.layer_norm = LwDetrLayerNorm(config.d_model, data_format="channels_first")
-    def forward(self, hidden_states_tuple: tuple[torch.Tensor]) -> torch.Tensor:
-        sampled_hidden_states = []
-        for sampling_layer, hidden_states in zip(self.sampling_layers, hidden_states_tuple):
-            hidden_states = sampling_layer(hidden_states)
-            sampled_hidden_states.append(hidden_states)
-        hidden_states = torch.cat(sampled_hidden_states, dim=1)
-        hidden_states = self.projector_layer(hidden_states)
-        hidden_states = self.layer_norm(hidden_states)
-        return hidden_states
-class LwDetrMultiScaleProjector(nn.Module):
-    def __init__(self, config: LwDetrConfig):
-        super().__init__()
-        self.config = config
-        scale_factors = config.projector_scale_factors
-        self.scale_layers = nn.ModuleList([LwDetrScaleProjector(config, scale) for scale in scale_factors])
-    def forward(self, hidden_states: tuple[torch.Tensor]) -> list[torch.Tensor]:
-        output_hidden_states = []
-        for scale_layer in self.scale_layers:
-            output_hidden_states.append(scale_layer(hidden_states))
-        return output_hidden_states
-class LwDetrConvEncoder(nn.Module):
-    def __init__(self, config: LwDetrConfig):
-        super().__init__()
-        self.backbone = LwDetrViTBackbone(config.backbone_config)
-        self.projector = LwDetrMultiScaleProjector(config)
-    def forward(self, pixel_values: torch.Tensor, pixel_mask: torch.Tensor):
-        # send pixel_values through the model to get list of feature maps
-        features = self.backbone(pixel_values).feature_maps
-        features = self.projector(features)
-        out = []
-        for feature_map in features:
-            # downsample pixel_mask to match shape of corresponding feature_map
-            mask = nn.functional.interpolate(pixel_mask[None].float(), size=feature_map.shape[-2:]).to(torch.bool)[0]
-            out.append((feature_map, mask))
-        return out
-class LwDetrAttention(nn.Module):
-    def __init__(self, config: LwDetrConfig, layer_idx: int):
-        super().__init__()
-        self.config = config
-        self.layer_idx = layer_idx
-        self.head_dim = getattr(config, "head_dim", config.d_model // config.decoder_self_attention_heads)
-        self.scaling = self.head_dim**-0.5
-        self.attention_dropout = config.attention_dropout
-        self.is_causal = False
-        self.num_key_value_groups = 1
-        self.q_proj = nn.Linear(
-            config.d_model, config.decoder_self_attention_heads * self.head_dim, bias=config.attention_bias
-        )
-        self.k_proj = nn.Linear(
-            config.d_model, config.decoder_self_attention_heads * self.head_dim, bias=config.attention_bias
-        )
-        self.v_proj = nn.Linear(
-            config.d_model, config.decoder_self_attention_heads * self.head_dim, bias=config.attention_bias
-        )
-        self.o_proj = nn.Linear(
-            config.decoder_self_attention_heads * self.head_dim, config.d_model, bias=config.attention_bias
-        )
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        position_embeddings: torch.Tensor | None = None,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        batch_size, seq_len, _ = hidden_states.shape
-        input_shape = hidden_states.shape[:-1]
-        hidden_shape = (*input_shape, -1, self.head_dim)
-        hidden_states_original = hidden_states
-        if position_embeddings is not None:
-            hidden_states = hidden_states if position_embeddings is None else hidden_states + position_embeddings
-        if self.training:
-            # at training, we use group detr technique to add more supervision by using multiple weight-sharing decoders at once for faster convergence
-            # at inference, we only use one decoder
-            hidden_states_original = torch.cat(
-                hidden_states_original.split(seq_len // self.config.group_detr, dim=1), dim=0
-            )
-            hidden_states = torch.cat(hidden_states.split(seq_len // self.config.group_detr, dim=1), dim=0)
-        query_states = self.q_proj(hidden_states).view(hidden_shape).transpose(1, 2)
-        key_states = self.k_proj(hidden_states).view(hidden_shape).transpose(1, 2)
-        value_states = self.v_proj(hidden_states_original).view(hidden_shape).transpose(1, 2)
-        attention_interface: Callable = eager_attention_forward
-        if self.config._attn_implementation != "eager":
-            attention_interface = ALL_ATTENTION_FUNCTIONS[self.config._attn_implementation]
-        attn_output, attn_weights = attention_interface(
-            self,
-            query_states,
-            key_states,
-            value_states,
-            attention_mask=None,
-            dropout=0.0 if not self.training else self.attention_dropout,
-            scaling=self.scaling,
-            **kwargs,
-        )
-        attn_output = attn_output.reshape(*input_shape, -1).contiguous()
-        attn_output = self.o_proj(attn_output)
-        if self.training:
-            attn_output = torch.cat(torch.split(attn_output, batch_size, dim=0), dim=1)
-        return attn_output, attn_weights
-class LwDetrMultiscaleDeformableAttention(DeformableDetrMultiscaleDeformableAttention):
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        attention_mask: torch.Tensor | None = None,
-        encoder_hidden_states=None,
-        encoder_attention_mask=None,
-        position_embeddings: torch.Tensor | None = None,
-        reference_points=None,
-        spatial_shapes=None,
-        spatial_shapes_list=None,
-        level_start_index=None,
-        **kwargs: Unpack[TransformersKwargs],
-    ):
-        return super().forward(
-            hidden_states=hidden_states,
-            attention_mask=attention_mask,
-            encoder_hidden_states=encoder_hidden_states,
-            encoder_attention_mask=encoder_attention_mask,
-            position_embeddings=position_embeddings,
-            reference_points=reference_points,
-            spatial_shapes=spatial_shapes,
-            spatial_shapes_list=spatial_shapes_list,
-            level_start_index=level_start_index,
-            **kwargs,
-        )
-class LwDetrMLP(nn.Module):
-    def __init__(self, config: LwDetrConfig):
-        super().__init__()
-        self.dropout = config.dropout
-        self.activation_fn = ACT2FN[config.decoder_activation_function]
-        self.fc1 = nn.Linear(config.d_model, config.decoder_ffn_dim)
-        self.fc2 = nn.Linear(config.decoder_ffn_dim, config.d_model)
-    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
-        residual = hidden_states
-        hidden_states = self.fc1(hidden_states)
-        hidden_states = self.activation_fn(hidden_states)
-        hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
-        hidden_states = self.fc2(hidden_states)
-        hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
-        hidden_states = residual + hidden_states
-        return hidden_states
-class LwDetrDecoderLayer(GradientCheckpointingLayer):
-    def __init__(self, config: LwDetrConfig, layer_idx: int):
-        nn.Module.__init__(self)
-        # self-attention
-        self.self_attn = LwDetrAttention(config, layer_idx=layer_idx)
-        self.dropout = config.dropout
-        self.activation_fn = ACT2FN[config.decoder_activation_function]
-        self.activation_dropout = config.activation_dropout
-        self.self_attn_layer_norm = nn.LayerNorm(config.d_model)
-        # cross-attention
-        self.cross_attn = LwDetrMultiscaleDeformableAttention(
-            config,
-            num_heads=config.decoder_cross_attention_heads,
-            n_points=config.decoder_n_points,
-        )
-        self.cross_attn_layer_norm = nn.LayerNorm(config.d_model)
-        # mlp
-        self.mlp = LwDetrMLP(config)
-        self.layer_norm = nn.LayerNorm(config.d_model)
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        position_embeddings: torch.Tensor | None = None,
-        reference_points=None,
-        spatial_shapes=None,
-        spatial_shapes_list=None,
-        level_start_index=None,
-        encoder_hidden_states: torch.Tensor | None = None,
-        encoder_attention_mask: torch.Tensor | None = None,
-        **kwargs: Unpack[TransformersKwargs],
-    ):
-        self_attention_output, self_attn_weights = self.self_attn(
-            hidden_states, position_embeddings=position_embeddings, **kwargs
-        )
-        self_attention_output = nn.functional.dropout(self_attention_output, p=self.dropout, training=self.training)
-        hidden_states = hidden_states + self_attention_output
-        hidden_states = self.self_attn_layer_norm(hidden_states)
-        cross_attention_output, cross_attn_weights = self.cross_attn(
-            hidden_states=hidden_states,
-            attention_mask=encoder_attention_mask,
-            encoder_hidden_states=encoder_hidden_states,
-            encoder_attention_mask=encoder_attention_mask,
-            position_embeddings=position_embeddings,
-            reference_points=reference_points,
-            spatial_shapes=spatial_shapes,
-            spatial_shapes_list=spatial_shapes_list,
-            level_start_index=level_start_index,
-            **kwargs,
-        )
-        cross_attention_output = nn.functional.dropout(cross_attention_output, p=self.dropout, training=self.training)
-        hidden_states = hidden_states + cross_attention_output
-        hidden_states = self.cross_attn_layer_norm(hidden_states)
-        hidden_states = self.mlp(hidden_states)
-        hidden_states = self.layer_norm(hidden_states)
-        return hidden_states
-@auto_docstring
-class LwDetrPreTrainedModel(PreTrainedModel):
-    config: LwDetrConfig
-    base_model_prefix = "model"
-    main_input_name = "pixel_values"
-    _no_split_modules = [
-        r"LwDetrConvEncoder",
-        r"LwDetrDecoderLayer",
-    ]
-    _supports_sdpa = True
-    _supports_flash_attn = True
-    _supports_flex_attn = True
-    _supports_attention_backend = True
-    _can_record_outputs = {
-        "attentions": [LwDetrAttention, LwDetrMultiscaleDeformableAttention],
-        "hidden_states": [LwDetrDecoderLayer],
-    }
-    @torch.no_grad()
-    def _init_weights(self, module):
-        super()._init_weights(module)
-        if isinstance(module, LwDetrMultiscaleDeformableAttention):
-            init.constant_(module.sampling_offsets.weight, 0.0)
-            thetas = torch.arange(module.n_heads, dtype=torch.int64).float() * (2.0 * math.pi / module.n_heads)
-            grid_init = torch.stack([thetas.cos(), thetas.sin()], -1)
-            grid_init = (
-                (grid_init / grid_init.abs().max(-1, keepdim=True)[0])
-                .view(module.n_heads, 1, 1, 2)
-                .repeat(1, module.n_levels, module.n_points, 1)
-            )
-            for i in range(module.n_points):
-                grid_init[:, :, i, :] *= i + 1
-            init.copy_(module.sampling_offsets.bias, grid_init.view(-1))
-            init.constant_(module.attention_weights.weight, 0.0)
-            init.constant_(module.attention_weights.bias, 0.0)
-            init.xavier_uniform_(module.value_proj.weight)
-            init.constant_(module.value_proj.bias, 0.0)
-            init.xavier_uniform_(module.output_proj.weight)
-            init.constant_(module.output_proj.bias, 0.0)
-        if hasattr(module, "level_embed"):
-            init.normal_(module.level_embed)
-        if hasattr(module, "refpoint_embed") and module.refpoint_embed is not None:
-            init.constant_(module.refpoint_embed.weight, 0)
-        if hasattr(module, "class_embed") and module.class_embed is not None:
-            prior_prob = 0.01
-            bias_value = -math.log((1 - prior_prob) / prior_prob)
-            init.constant_(module.class_embed.bias, bias_value)
-        if hasattr(module, "bbox_embed") and module.bbox_embed is not None:
-            init.constant_(module.bbox_embed.layers[-1].weight, 0)
-            init.constant_(module.bbox_embed.layers[-1].bias, 0)
-def refine_bboxes(reference_points, deltas):
-    reference_points = reference_points.to(deltas.device)
-    new_reference_points_cxcy = deltas[..., :2] * reference_points[..., 2:] + reference_points[..., :2]
-    new_reference_points_wh = deltas[..., 2:].exp() * reference_points[..., 2:]
-    new_reference_points = torch.cat((new_reference_points_cxcy, new_reference_points_wh), -1)
-    return new_reference_points
-@dataclass
-@auto_docstring(
-    custom_intro="""
-    Base class for outputs of the LwDetrDecoder. This class adds two attributes to
-    BaseModelOutputWithCrossAttentions, namely:
-    - a stacked tensor of intermediate decoder hidden states (i.e. the output of each decoder layer)
-    - a stacked tensor of intermediate reference points.
-    """
-)
-class LwDetrDecoderOutput(DeformableDetrDecoderOutput):
-    pass
-class LwDetrDecoder(LwDetrPreTrainedModel):
-    """
-    Transformer decoder consisting of *config.decoder_layers* layers. Each layer is a [`DeformableDetrDecoderLayer`].
-    The decoder updates the query embeddings through multiple self-attention and deformable cross-attention layers.
-    Some tweaks for LwDetr:
-    - it uses group detr technique at training for faster convergence.
-    Args:
-        config: LwDetrConfig
-    """
-    def __init__(self, config: LwDetrConfig):
-        super().__init__(config)
-        self.dropout = config.dropout
-        self.layers = nn.ModuleList([LwDetrDecoderLayer(config, i) for i in range(config.decoder_layers)])
-        self.layernorm = nn.LayerNorm(config.d_model)
-        self.gradient_checkpointing = False
-        self.ref_point_head = LwDetrMLPPredictionHead(2 * config.d_model, config.d_model, config.d_model, num_layers=2)
-        self.post_init()
-    def get_reference(self, reference_points, valid_ratios):
-        # batch_size, num_queries, batch_size, 4
-        obj_center = reference_points[..., :4]
-        # batch_size, num_queries, num_levels, 4
-        reference_points_inputs = obj_center[:, :, None] * torch.cat([valid_ratios, valid_ratios], -1)[:, None]
-        # batch_size, num_queries, d_model * 2
-        query_sine_embed = gen_sine_position_embeddings(reference_points_inputs[:, :, 0, :], self.config.d_model)
-        # batch_size, num_queries, d_model
-        query_pos = self.ref_point_head(query_sine_embed)
-        return reference_points_inputs, query_pos
-    def forward(
-        self,
-        inputs_embeds: torch.Tensor | None = None,
-        reference_points: torch.Tensor | None = None,
-        spatial_shapes: torch.Tensor | None = None,
-        spatial_shapes_list: torch.Tensor | None = None,
-        level_start_index: torch.Tensor | None = None,
-        valid_ratios: torch.Tensor | None = None,
-        encoder_hidden_states: torch.Tensor | None = None,
-        encoder_attention_mask: torch.Tensor | None = None,
-        **kwargs: Unpack[TransformersKwargs],
-    ):
-        intermediate = ()
-        intermediate_reference_points = (reference_points,)
-        if inputs_embeds is not None:
-            hidden_states = inputs_embeds
-        reference_points_inputs, query_pos = self.get_reference(reference_points, valid_ratios)
-        for idx, decoder_layer in enumerate(self.layers):
-            hidden_states = decoder_layer(
-                hidden_states,
-                encoder_hidden_states=encoder_hidden_states,
-                encoder_attention_mask=encoder_attention_mask,
-                position_embeddings=query_pos,
-                reference_points=reference_points_inputs,
-                spatial_shapes=spatial_shapes,
-                spatial_shapes_list=spatial_shapes_list,
-                level_start_index=level_start_index,
-                **kwargs,
-            )
-            intermediate_hidden_states = self.layernorm(hidden_states)
-            intermediate += (intermediate_hidden_states,)
-        intermediate = torch.stack(intermediate)
-        last_hidden_state = intermediate[-1]
-        intermediate_reference_points = torch.stack(intermediate_reference_points)
-        return LwDetrDecoderOutput(
-            last_hidden_state=last_hidden_state,
-            intermediate_hidden_states=intermediate,
-            intermediate_reference_points=intermediate_reference_points,
-        )
-@dataclass
-@auto_docstring(
-    custom_intro="""
-    Base class for outputs of the LwDetr backbone-decoder model.
-    """
-)
-class LwDetrModelOutput(ModelOutput):
-    r"""
-    init_reference_points (`torch.FloatTensor` of shape  `(batch_size, num_queries, 4)`):
-        Initial reference points sent through the Transformer decoder.
-    intermediate_hidden_states (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, hidden_size)`):
-        Stacked intermediate hidden states (output of each layer of the decoder).
-    intermediate_reference_points (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, 4)`):
-        Stacked intermediate reference points (reference points of each layer of the decoder).
-    enc_outputs_class (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_labels)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
-        Predicted bounding boxes scores where the top `config.two_stage_num_proposals` scoring bounding boxes are
-        picked as region proposals in the first stage. Output of bounding box binary classification (i.e.
-        foreground and background).
-    enc_outputs_coord_logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, 4)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
-        Logits of predicted bounding boxes coordinates in the first stage.
-    """
-    init_reference_points: torch.FloatTensor | None = None
-    last_hidden_state: torch.FloatTensor | None = None
-    intermediate_hidden_states: torch.FloatTensor | None = None
-    intermediate_reference_points: torch.FloatTensor | None = None
-    enc_outputs_class: torch.FloatTensor | None = None
-    enc_outputs_coord_logits: torch.FloatTensor | None = None
-@auto_docstring(
-    custom_intro="""
-    The bare LW Detr Model (consisting of a backbone and decoder Transformer) outputting raw
-    hidden-states without any specific head on top.
-    """
-)
-class LwDetrModel(DeformableDetrModel):
-    def __init__(self, config: LwDetrConfig):
-        LwDetrPreTrainedModel.__init__(config)
-        # Create backbone + positional encoding
-        self.backbone = LwDetrConvEncoder(config)
-        self.group_detr = config.group_detr
-        self.num_queries = config.num_queries
-        hidden_dim = config.d_model
-        self.reference_point_embed = nn.Embedding(self.num_queries * self.group_detr, 4)
-        self.query_feat = nn.Embedding(self.num_queries * self.group_detr, hidden_dim)
-        self.decoder = LwDetrDecoder(config)
-        self.enc_output = nn.ModuleList([nn.Linear(hidden_dim, hidden_dim) for _ in range(self.group_detr)])
-        self.enc_output_norm = nn.ModuleList([nn.LayerNorm(hidden_dim) for _ in range(self.group_detr)])
-        # Should normally be None and then instantiated in the ForObjectDetection class
-        self.enc_out_bbox_embed = nn.ModuleList(
-            [LwDetrMLPPredictionHead(config.d_model, config.d_model, 4, num_layers=3) for _ in range(self.group_detr)]
-        )
-        self.enc_out_class_embed = nn.ModuleList(
-            [nn.Linear(config.d_model, config.num_labels) for _ in range(self.group_detr)]
-        )
-        self.post_init()
-    def gen_encoder_output_proposals(self, enc_output, padding_mask, spatial_shapes):
-        """Generate the encoder output proposals from encoded enc_output.
-        Args:
-            enc_output (Tensor[batch_size, sequence_length, hidden_size]): Output of the encoder.
-            padding_mask (Tensor[batch_size, sequence_length]): Padding mask for `enc_output`.
-            spatial_shapes (list[tuple[int, int]]): Spatial shapes of the feature maps.
-        Returns:
-            `tuple(torch.FloatTensor)`: A tuple of feature map and bbox prediction.
-                - object_query (Tensor[batch_size, sequence_length, hidden_size]): Object query features. Later used to
-                  directly predict a bounding box. (without the need of a decoder)
-                - output_proposals (Tensor[batch_size, sequence_length, 4]): Normalized proposals, after an inverse
-                  sigmoid.
-        """
-        batch_size = enc_output.shape[0]
-        proposals = []
-        _cur = 0
-        for level, (height, width) in enumerate(spatial_shapes):
-            mask_flatten_ = padding_mask[:, _cur : (_cur + height * width)].view(batch_size, height, width, 1)
-            valid_height = torch.sum(~mask_flatten_[:, :, 0, 0], 1)
-            valid_width = torch.sum(~mask_flatten_[:, 0, :, 0], 1)
-            grid_y, grid_x = meshgrid(
-                torch.linspace(
-                    0,
-                    height - 1,
-                    height,
-                    dtype=enc_output.dtype,
-                    device=enc_output.device,
-                ),
-                torch.linspace(
-                    0,
-                    width - 1,
-                    width,
-                    dtype=enc_output.dtype,
-                    device=enc_output.device,
-                ),
-                indexing="ij",
-            )
-            grid = torch.cat([grid_x.unsqueeze(-1), grid_y.unsqueeze(-1)], -1)
-            scale = torch.cat([valid_width.unsqueeze(-1), valid_height.unsqueeze(-1)], 1).view(batch_size, 1, 1, 2)
-            grid = (grid.unsqueeze(0).expand(batch_size, -1, -1, -1) + 0.5) / scale
-            width_height = torch.ones_like(grid) * 0.05 * (2.0**level)
-            proposal = torch.cat((grid, width_height), -1).view(batch_size, -1, 4)
-            proposals.append(proposal)
-            _cur += height * width
-        output_proposals = torch.cat(proposals, 1)
-        output_proposals_valid = ((output_proposals > 0.01) & (output_proposals < 0.99)).all(-1, keepdim=True)
-        output_proposals = output_proposals.masked_fill(padding_mask.unsqueeze(-1), float("inf"))
-        output_proposals = output_proposals.masked_fill(~output_proposals_valid, float("inf"))
-        # assign each pixel as an object query
-        object_query = enc_output
-        object_query = object_query.masked_fill(padding_mask.unsqueeze(-1), float(0))
-        object_query = object_query.masked_fill(~output_proposals_valid, float(0))
-        return object_query, output_proposals
-    @check_model_inputs
-    @auto_docstring
-    def forward(
-        self,
-        pixel_values: torch.FloatTensor = None,
-        pixel_mask: torch.LongTensor | None = None,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> LwDetrModelOutput:
-        r"""
-        Examples:
-        ```python
-        >>> from transformers import AutoImageProcessor, DeformableDetrModel
-        >>> from PIL import Image
-        >>> import httpx
-        >>> from io import BytesIO
-        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
-        >>> with httpx.stream("GET", url) as response:
-        ...     image = Image.open(BytesIO(response.read()))
-        >>> image_processor = AutoImageProcessor.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
-        >>> model = DeformableDetrModel.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
-        >>> inputs = image_processor(images=image, return_tensors="pt")
-        >>> outputs = model(**inputs)
-        >>> last_hidden_states = outputs.last_hidden_state
-        >>> list(last_hidden_states.shape)
-        [1, 300, 256]
-        ```"""
-        batch_size, num_channels, height, width = pixel_values.shape
-        device = pixel_values.device
-        if pixel_mask is None:
-            pixel_mask = torch.ones(((batch_size, height, width)), dtype=torch.long, device=device)
-        # Extract multi-scale feature maps of same resolution `config.d_model` (cf Figure 4 in paper)
-        # First, sent pixel_values + pixel_mask through Backbone to obtain the features
-        # which is a list of tuples
-        features = self.backbone(pixel_values, pixel_mask)
-        # Then, apply 1x1 convolution to reduce the channel dimension to d_model (256 by default)
-        sources = []
-        masks = []
-        for level, (source, mask) in enumerate(features):
-            sources.append(source)
-            masks.append(mask)
-            if mask is None:
-                raise ValueError("No attention mask was provided")
-        if self.training:
-            reference_points = self.reference_point_embed.weight
-            query_feat = self.query_feat.weight
-        else:
-            # only use one group in inference
-            reference_points = self.reference_point_embed.weight[: self.num_queries]
-            query_feat = self.query_feat.weight[: self.num_queries]
-        # Prepare encoder inputs (by flattening)
-        source_flatten = []
-        mask_flatten = []
-        spatial_shapes_list = []
-        for source, mask in zip(sources, masks):
-            batch_size, num_channels, height, width = source.shape
-            spatial_shape = (height, width)
-            spatial_shapes_list.append(spatial_shape)
-            source = source.flatten(2).transpose(1, 2)
-            mask = mask.flatten(1)
-            source_flatten.append(source)
-            mask_flatten.append(mask)
-        source_flatten = torch.cat(source_flatten, 1)
-        mask_flatten = torch.cat(mask_flatten, 1)
-        spatial_shapes = torch.as_tensor(spatial_shapes_list, dtype=torch.long, device=source_flatten.device)
-        level_start_index = torch.cat((spatial_shapes.new_zeros((1,)), spatial_shapes.prod(1).cumsum(0)[:-1]))
-        valid_ratios = torch.stack([self.get_valid_ratio(m, dtype=source_flatten.dtype) for m in masks], 1)
-        target = query_feat.unsqueeze(0).expand(batch_size, -1, -1)
-        reference_points = reference_points.unsqueeze(0).expand(batch_size, -1, -1)
-        object_query_embedding, output_proposals = self.gen_encoder_output_proposals(
-            source_flatten, ~mask_flatten, spatial_shapes_list
-        )
-        group_detr = self.group_detr if self.training else 1
-        topk = self.num_queries
-        topk_coords_logits = []
-        topk_coords_logits_undetach = []
-        object_query_undetach = []
-        for group_id in range(group_detr):
-            group_object_query = self.enc_output[group_id](object_query_embedding)
-            group_object_query = self.enc_output_norm[group_id](group_object_query)
-            group_enc_outputs_class = self.enc_out_class_embed[group_id](group_object_query)
-            group_delta_bbox = self.enc_out_bbox_embed[group_id](group_object_query)
-            group_enc_outputs_coord = refine_bboxes(output_proposals, group_delta_bbox)
-            group_topk_proposals = torch.topk(group_enc_outputs_class.max(-1)[0], topk, dim=1)[1]
-            group_topk_coords_logits_undetach = torch.gather(
-                group_enc_outputs_coord,
-                1,
-                group_topk_proposals.unsqueeze(-1).repeat(1, 1, 4),
-            )
-            group_topk_coords_logits = group_topk_coords_logits_undetach.detach()
-            group_object_query_undetach = torch.gather(
-                group_object_query, 1, group_topk_proposals.unsqueeze(-1).repeat(1, 1, self.config.d_model)
-            )
-            topk_coords_logits.append(group_topk_coords_logits)
-            topk_coords_logits_undetach.append(group_topk_coords_logits_undetach)
-            object_query_undetach.append(group_object_query_undetach)
-        topk_coords_logits = torch.cat(topk_coords_logits, 1)
-        topk_coords_logits_undetach = torch.cat(topk_coords_logits_undetach, 1)
-        object_query_undetach = torch.cat(object_query_undetach, 1)
-        enc_outputs_class = object_query_undetach
-        enc_outputs_coord_logits = topk_coords_logits
-        reference_points = refine_bboxes(topk_coords_logits_undetach, reference_points)
-        init_reference_points = reference_points
-        decoder_outputs = self.decoder(
-            inputs_embeds=target,
-            reference_points=reference_points,
-            spatial_shapes=spatial_shapes,
-            spatial_shapes_list=spatial_shapes_list,
-            level_start_index=level_start_index,
-            valid_ratios=valid_ratios,
-            encoder_hidden_states=source_flatten,
-            encoder_attention_mask=mask_flatten,
-            **kwargs,
-        )
-        return LwDetrModelOutput(
-            init_reference_points=init_reference_points,
-            last_hidden_state=decoder_outputs.last_hidden_state,
-            intermediate_hidden_states=decoder_outputs.intermediate_hidden_states,
-            intermediate_reference_points=decoder_outputs.intermediate_reference_points,
-            enc_outputs_class=enc_outputs_class,
-            enc_outputs_coord_logits=enc_outputs_coord_logits,
-        )
-class LwDetrMLPPredictionHead(DeformableDetrMLPPredictionHead):
-    pass
-@dataclass
-@auto_docstring(
-    custom_intro="""
-    Output type of [`LwDetrForObjectDetection`].
-    """
-)
-class LwDetrObjectDetectionOutput(ModelOutput):
-    r"""
-    loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` are provided)):
-        Total loss as a linear combination of a negative log-likehood (cross-entropy) for class prediction and a
-        bounding box loss. The latter is defined as a linear combination of the L1 loss and the generalized
-        scale-invariant IoU loss.
-    loss_dict (`Dict`, *optional*):
-        A dictionary containing the individual losses. Useful for logging.
-    logits (`torch.FloatTensor` of shape `(batch_size, num_queries, num_classes + 1)`):
-        Classification logits (including no-object) for all queries.
-    pred_boxes (`torch.FloatTensor` of shape `(batch_size, num_queries, 4)`):
-        Normalized boxes coordinates for all queries, represented as (center_x, center_y, width, height). These
-        values are normalized in [0, 1], relative to the size of each individual image in the batch (disregarding
-        possible padding). You can use [`~DeformableDetrProcessor.post_process_object_detection`] to retrieve the
-        unnormalized bounding boxes.
-    auxiliary_outputs (`list[Dict]`, *optional*):
-        Optional, only returned when auxiliary losses are activated (i.e. `config.auxiliary_loss` is set to `True`)
-        and labels are provided. It is a list of dictionaries containing the two above keys (`logits` and
-        `pred_boxes`) for each decoder layer.
-    init_reference_points (`torch.FloatTensor` of shape  `(batch_size, num_queries, 4)`):
-        Initial reference points sent through the Transformer decoder.
-    intermediate_hidden_states (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, hidden_size)`):
-        Stacked intermediate hidden states (output of each layer of the decoder).
-    intermediate_reference_points (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, 4)`):
-        Stacked intermediate reference points (reference points of each layer of the decoder).
-    enc_outputs_class (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_labels)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
-        Predicted bounding boxes scores where the top `config.two_stage_num_proposals` scoring bounding boxes are
-        picked as region proposals in the first stage. Output of bounding box binary classification (i.e.
-        foreground and background).
-    enc_outputs_coord_logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, 4)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
-        Logits of predicted bounding boxes coordinates in the first stage.
-    """
-    loss: torch.FloatTensor | None = None
-    loss_dict: dict | None = None
-    logits: torch.FloatTensor | None = None
-    pred_boxes: torch.FloatTensor | None = None
-    auxiliary_outputs: list[dict] | None = None
-    init_reference_points: torch.FloatTensor | None = None
-    last_hidden_state: torch.FloatTensor | None = None
-    intermediate_hidden_states: torch.FloatTensor | None = None
-    intermediate_reference_points: torch.FloatTensor | None = None
-    enc_outputs_class: Any = None
-    enc_outputs_coord_logits: torch.FloatTensor | None = None
-@auto_docstring(
-    custom_intro="""
-    LW DETR Model (consisting of a backbone and decoder Transformer) with object detection heads on
-    top, for tasks such as COCO detection.
-    """
-)
-class LwDetrForObjectDetection(DeformableDetrForObjectDetection):
-    _tied_weights_keys = None
-    def __init__(self, config: LwDetrConfig):
-        PreTrainedModel.__init__(self, config)
-        self.model = LwDetrModel(config)
-        self.class_embed = nn.Linear(config.d_model, config.num_labels)
-        self.bbox_embed = LwDetrMLPPredictionHead(config.d_model, config.d_model, 4, num_layers=3)
-        self.post_init()
-    @check_model_inputs
-    @auto_docstring
-    def forward(
-        self,
-        pixel_values: torch.FloatTensor = None,
-        pixel_mask: torch.LongTensor | None = None,
-        labels: list[dict] | None = None,
-        **kwargs: Unpack[TransformersKwargs],
-    ) -> LwDetrObjectDetectionOutput:
-        r"""
-        decoder_attention_mask (`torch.FloatTensor` of shape `(batch_size, num_queries)`, *optional*):
-            Not used by default. Can be used to mask object queries.
-        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
-            Optionally, instead of passing the flattened feature map (output of the backbone + projection layer), you
-            can choose to directly pass a flattened representation of an image.
-        decoder_inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_queries, hidden_size)`, *optional*):
-            Optionally, instead of initializing the queries with a tensor of zeros, you can choose to directly pass an
-            embedded representation.
-        labels (`list[Dict]` of len `(batch_size,)`, *optional*):
-            Labels for computing the bipartite matching loss. List of dicts, each dictionary containing at least the
-            following 2 keys: 'class_labels' and 'boxes' (the class labels and bounding boxes of an image in the batch
-            respectively). The class labels themselves should be a `torch.LongTensor` of len `(number of bounding boxes
-            in the image,)` and the boxes a `torch.FloatTensor` of shape `(number of bounding boxes in the image, 4)`.
-        Examples:
-        ```python
-        >>> from transformers import AutoImageProcessor, LwDetrForObjectDetection
-        >>> from PIL import Image
-        >>> import httpx
-        >>> from io import BytesIO
-        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
-        >>> with httpx.stream("GET", url) as response:
-        ...     image = Image.open(BytesIO(response.read()))
-        >>> image_processor = AutoImageProcessor.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
-        >>> model = LwDetrForObjectDetection.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
-        >>> inputs = image_processor(images=image, return_tensors="pt")
-        >>> outputs = model(**inputs)
-        >>> # convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
-        >>> target_sizes = torch.tensor([image.size[::-1]])
-        >>> results = image_processor.post_process_object_detection(outputs, threshold=0.5, target_sizes=target_sizes)[
-        ...     0
-        ... ]
-        >>> for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
-        ...     box = [round(i, 2) for i in box.tolist()]
-        ...     print(
-        ...         f"Detected {model.config.id2label[label.item()]} with confidence "
-        ...         f"{round(score.item(), 3)} at location {box}"
-        ...     )
-        Detected cat with confidence 0.8 at location [16.5, 52.84, 318.25, 470.78]
-        Detected cat with confidence 0.789 at location [342.19, 24.3, 640.02, 372.25]
-        Detected remote with confidence 0.633 at location [40.79, 72.78, 176.76, 117.25]
-        ```"""
-        outputs = self.model(
-            pixel_values,
-            pixel_mask=pixel_mask,
-            **kwargs,
-        )
-        last_hidden_states = outputs.last_hidden_state
-        intermediate_reference_points = outputs.intermediate_reference_points
-        enc_outputs_class_logits = outputs.enc_outputs_class
-        enc_outputs_boxes_logits = outputs.enc_outputs_coord_logits
-        logits = self.class_embed(last_hidden_states)
-        pred_boxes_delta = self.bbox_embed(last_hidden_states)
-        pred_boxes = refine_bboxes(intermediate_reference_points[-1], pred_boxes_delta)
-        enc_outputs_class_logits_list = enc_outputs_class_logits.split(self.config.num_queries, dim=1)
-        pred_class = []
-        group_detr = self.config.group_detr if self.training else 1
-        for group_index in range(group_detr):
-            group_pred_class = self.model.enc_out_class_embed[group_index](enc_outputs_class_logits_list[group_index])
-            pred_class.append(group_pred_class)
-        enc_outputs_class_logits = torch.cat(pred_class, dim=1)
-        loss, loss_dict, auxiliary_outputs = None, None, None
-        if labels is not None:
-            outputs_class, outputs_coord = None, None
-            if self.config.auxiliary_loss:
-                intermediate_hidden_states = outputs.intermediate_hidden_states
-                outputs_coord_delta = self.bbox_embed(intermediate_hidden_states)
-                outputs_coord = refine_bboxes(intermediate_reference_points, outputs_coord_delta)
-                outputs_class = self.class_embed(intermediate_hidden_states)
-            loss, loss_dict, auxiliary_outputs = self.loss_function(
-                logits,
-                labels,
-                self.device,
-                pred_boxes,
-                self.config,
-                outputs_class,
-                outputs_coord,
-                enc_outputs_class_logits,
-                enc_outputs_boxes_logits,
-            )
-        return LwDetrObjectDetectionOutput(
-            loss=loss,
-            loss_dict=loss_dict,
-            logits=logits,
-            pred_boxes=pred_boxes,
-            auxiliary_outputs=auxiliary_outputs,
-            last_hidden_state=outputs.last_hidden_state,
-            intermediate_hidden_states=outputs.intermediate_hidden_states,
-            intermediate_reference_points=outputs.intermediate_reference_points,
-            init_reference_points=outputs.init_reference_points,
-            enc_outputs_class=enc_outputs_class_logits,
-            enc_outputs_coord_logits=enc_outputs_boxes_logits,
-        )
-__all__ = [
-    "LwDetrConfig",
-    "LwDetrPreTrainedModel",
-    "LwDetrModel",
-    "LwDetrForObjectDetection",
-    "LwDetrViTConfig",
-    "LwDetrViTPreTrainedModel",
-    "LwDetrViTBackbone",
-]

transformers 5.0.0__py3-none-any.whl → 5.0.0rc0__py3-none-any.whl

transformers 5.0.0py3-none-any.whl → 5.0.0rc0py3-none-any.whl