PyPI - transformers - Versions diffs - 5.0.0rc2__py3-none-any.whl → 5.1.0__py3-none-any.whl - Mend

transformers 5.0.0rc2py3-none-any.whl → 5.1.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1594) hide show

transformers/__init__.py +11 -37
transformers/activations.py +2 -2
transformers/audio_utils.py +32 -32
transformers/backbone_utils.py +326 -0
transformers/cache_utils.py +26 -126
transformers/cli/chat.py +3 -3
transformers/cli/serve.py +13 -10
transformers/cli/transformers.py +2 -1
transformers/configuration_utils.py +22 -92
transformers/conversion_mapping.py +150 -26
transformers/convert_slow_tokenizer.py +9 -12
transformers/core_model_loading.py +217 -129
transformers/data/processors/glue.py +0 -1
transformers/data/processors/utils.py +0 -1
transformers/data/processors/xnli.py +0 -1
transformers/dependency_versions_check.py +0 -1
transformers/dependency_versions_table.py +10 -11
transformers/distributed/configuration_utils.py +1 -2
transformers/dynamic_module_utils.py +23 -23
transformers/feature_extraction_sequence_utils.py +19 -23
transformers/feature_extraction_utils.py +14 -14
transformers/file_utils.py +0 -2
transformers/generation/candidate_generator.py +2 -4
transformers/generation/configuration_utils.py +54 -39
transformers/generation/continuous_batching/__init__.py +0 -1
transformers/generation/continuous_batching/cache.py +74 -44
transformers/generation/continuous_batching/cache_manager.py +28 -28
transformers/generation/continuous_batching/continuous_api.py +133 -414
transformers/generation/continuous_batching/input_ouputs.py +464 -0
transformers/generation/continuous_batching/requests.py +77 -19
transformers/generation/continuous_batching/scheduler.py +154 -104
transformers/generation/logits_process.py +10 -133
transformers/generation/stopping_criteria.py +1 -2
transformers/generation/streamers.py +0 -1
transformers/generation/utils.py +91 -121
transformers/generation/watermarking.py +2 -3
transformers/hf_argparser.py +9 -13
transformers/hyperparameter_search.py +1 -2
transformers/image_processing_base.py +9 -9
transformers/image_processing_utils.py +11 -15
transformers/image_processing_utils_fast.py +70 -71
transformers/image_transforms.py +73 -42
transformers/image_utils.py +30 -37
transformers/initialization.py +57 -0
transformers/integrations/__init__.py +10 -24
transformers/integrations/accelerate.py +47 -11
transformers/integrations/awq.py +1 -3
transformers/integrations/deepspeed.py +146 -4
transformers/integrations/eetq.py +0 -1
transformers/integrations/executorch.py +2 -6
transformers/integrations/fbgemm_fp8.py +1 -2
transformers/integrations/finegrained_fp8.py +149 -13
transformers/integrations/flash_attention.py +3 -8
transformers/integrations/flex_attention.py +1 -1
transformers/integrations/fp_quant.py +4 -6
transformers/integrations/ggml.py +0 -1
transformers/integrations/hub_kernels.py +18 -7
transformers/integrations/integration_utils.py +2 -3
transformers/integrations/moe.py +226 -106
transformers/integrations/mxfp4.py +52 -40
transformers/integrations/peft.py +488 -176
transformers/integrations/quark.py +2 -4
transformers/integrations/tensor_parallel.py +641 -581
transformers/integrations/torchao.py +4 -6
transformers/loss/loss_lw_detr.py +356 -0
transformers/loss/loss_utils.py +2 -0
transformers/masking_utils.py +199 -59
transformers/model_debugging_utils.py +4 -5
transformers/modelcard.py +14 -192
transformers/modeling_attn_mask_utils.py +19 -19
transformers/modeling_flash_attention_utils.py +28 -29
transformers/modeling_gguf_pytorch_utils.py +5 -5
transformers/modeling_layers.py +21 -22
transformers/modeling_outputs.py +242 -253
transformers/modeling_rope_utils.py +32 -32
transformers/modeling_utils.py +416 -438
transformers/models/__init__.py +10 -0
transformers/models/afmoe/configuration_afmoe.py +40 -33
transformers/models/afmoe/modeling_afmoe.py +38 -41
transformers/models/afmoe/modular_afmoe.py +23 -25
transformers/models/aimv2/configuration_aimv2.py +2 -10
transformers/models/aimv2/modeling_aimv2.py +46 -45
transformers/models/aimv2/modular_aimv2.py +13 -19
transformers/models/albert/configuration_albert.py +8 -2
transformers/models/albert/modeling_albert.py +70 -72
transformers/models/albert/tokenization_albert.py +1 -4
transformers/models/align/configuration_align.py +8 -6
transformers/models/align/modeling_align.py +83 -86
transformers/models/align/processing_align.py +2 -30
transformers/models/altclip/configuration_altclip.py +4 -7
transformers/models/altclip/modeling_altclip.py +106 -103
transformers/models/altclip/processing_altclip.py +2 -15
transformers/models/apertus/__init__.py +0 -1
transformers/models/apertus/configuration_apertus.py +23 -28
transformers/models/apertus/modeling_apertus.py +35 -38
transformers/models/apertus/modular_apertus.py +36 -40
transformers/models/arcee/configuration_arcee.py +25 -30
transformers/models/arcee/modeling_arcee.py +35 -38
transformers/models/arcee/modular_arcee.py +20 -23
transformers/models/aria/configuration_aria.py +31 -44
transformers/models/aria/image_processing_aria.py +25 -27
transformers/models/aria/modeling_aria.py +102 -102
transformers/models/aria/modular_aria.py +111 -124
transformers/models/aria/processing_aria.py +28 -35
transformers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py +0 -1
transformers/models/audio_spectrogram_transformer/feature_extraction_audio_spectrogram_transformer.py +3 -6
transformers/models/audio_spectrogram_transformer/modeling_audio_spectrogram_transformer.py +9 -11
transformers/models/audioflamingo3/__init__.py +0 -1
transformers/models/audioflamingo3/configuration_audioflamingo3.py +0 -1
transformers/models/audioflamingo3/modeling_audioflamingo3.py +60 -52
transformers/models/audioflamingo3/modular_audioflamingo3.py +52 -43
transformers/models/audioflamingo3/processing_audioflamingo3.py +6 -8
transformers/models/auto/auto_factory.py +12 -11
transformers/models/auto/configuration_auto.py +48 -5
transformers/models/auto/feature_extraction_auto.py +5 -7
transformers/models/auto/image_processing_auto.py +30 -39
transformers/models/auto/modeling_auto.py +33 -199
transformers/models/auto/processing_auto.py +11 -19
transformers/models/auto/tokenization_auto.py +38 -37
transformers/models/auto/video_processing_auto.py +7 -8
transformers/models/autoformer/configuration_autoformer.py +4 -7
transformers/models/autoformer/modeling_autoformer.py +100 -101
transformers/models/aya_vision/configuration_aya_vision.py +4 -1
transformers/models/aya_vision/modeling_aya_vision.py +64 -99
transformers/models/aya_vision/modular_aya_vision.py +46 -74
transformers/models/aya_vision/processing_aya_vision.py +25 -53
transformers/models/bamba/configuration_bamba.py +46 -39
transformers/models/bamba/modeling_bamba.py +83 -119
transformers/models/bamba/modular_bamba.py +70 -109
transformers/models/bark/configuration_bark.py +6 -8
transformers/models/bark/generation_configuration_bark.py +3 -5
transformers/models/bark/modeling_bark.py +64 -65
transformers/models/bark/processing_bark.py +19 -41
transformers/models/bart/configuration_bart.py +9 -5
transformers/models/bart/modeling_bart.py +124 -129
transformers/models/barthez/tokenization_barthez.py +1 -4
transformers/models/bartpho/tokenization_bartpho.py +6 -7
transformers/models/beit/configuration_beit.py +2 -15
transformers/models/beit/image_processing_beit.py +53 -56
transformers/models/beit/image_processing_beit_fast.py +11 -12
transformers/models/beit/modeling_beit.py +65 -62
transformers/models/bert/configuration_bert.py +12 -2
transformers/models/bert/modeling_bert.py +117 -152
transformers/models/bert/tokenization_bert.py +2 -4
transformers/models/bert/tokenization_bert_legacy.py +3 -5
transformers/models/bert_generation/configuration_bert_generation.py +17 -2
transformers/models/bert_generation/modeling_bert_generation.py +53 -55
transformers/models/bert_generation/tokenization_bert_generation.py +2 -3
transformers/models/bert_japanese/tokenization_bert_japanese.py +5 -6
transformers/models/bertweet/tokenization_bertweet.py +1 -3
transformers/models/big_bird/configuration_big_bird.py +12 -9
transformers/models/big_bird/modeling_big_bird.py +107 -124
transformers/models/big_bird/tokenization_big_bird.py +1 -4
transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py +9 -9
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +118 -118
transformers/models/biogpt/configuration_biogpt.py +8 -2
transformers/models/biogpt/modeling_biogpt.py +73 -79
transformers/models/biogpt/modular_biogpt.py +60 -66
transformers/models/biogpt/tokenization_biogpt.py +3 -5
transformers/models/bit/configuration_bit.py +2 -5
transformers/models/bit/image_processing_bit.py +21 -24
transformers/models/bit/image_processing_bit_fast.py +0 -1
transformers/models/bit/modeling_bit.py +15 -16
transformers/models/bitnet/configuration_bitnet.py +23 -28
transformers/models/bitnet/modeling_bitnet.py +34 -38
transformers/models/bitnet/modular_bitnet.py +7 -10
transformers/models/blenderbot/configuration_blenderbot.py +8 -5
transformers/models/blenderbot/modeling_blenderbot.py +68 -99
transformers/models/blenderbot/tokenization_blenderbot.py +0 -1
transformers/models/blenderbot_small/configuration_blenderbot_small.py +8 -5
transformers/models/blenderbot_small/modeling_blenderbot_small.py +70 -72
transformers/models/blenderbot_small/tokenization_blenderbot_small.py +1 -3
transformers/models/blip/configuration_blip.py +9 -10
transformers/models/blip/image_processing_blip.py +17 -20
transformers/models/blip/image_processing_blip_fast.py +0 -1
transformers/models/blip/modeling_blip.py +115 -108
transformers/models/blip/modeling_blip_text.py +63 -65
transformers/models/blip/processing_blip.py +5 -36
transformers/models/blip_2/configuration_blip_2.py +2 -2
transformers/models/blip_2/modeling_blip_2.py +145 -121
transformers/models/blip_2/processing_blip_2.py +8 -38
transformers/models/bloom/configuration_bloom.py +5 -2
transformers/models/bloom/modeling_bloom.py +60 -60
transformers/models/blt/configuration_blt.py +94 -86
transformers/models/blt/modeling_blt.py +93 -90
transformers/models/blt/modular_blt.py +127 -69
transformers/models/bridgetower/configuration_bridgetower.py +7 -2
transformers/models/bridgetower/image_processing_bridgetower.py +34 -35
transformers/models/bridgetower/image_processing_bridgetower_fast.py +13 -14
transformers/models/bridgetower/modeling_bridgetower.py +136 -124
transformers/models/bridgetower/processing_bridgetower.py +2 -16
transformers/models/bros/configuration_bros.py +24 -18
transformers/models/bros/modeling_bros.py +78 -80
transformers/models/bros/processing_bros.py +2 -12
transformers/models/byt5/tokenization_byt5.py +4 -6
transformers/models/camembert/configuration_camembert.py +8 -2
transformers/models/camembert/modeling_camembert.py +97 -99
transformers/models/camembert/modular_camembert.py +51 -54
transformers/models/camembert/tokenization_camembert.py +1 -4
transformers/models/canine/configuration_canine.py +4 -2
transformers/models/canine/modeling_canine.py +73 -75
transformers/models/canine/tokenization_canine.py +0 -1
transformers/models/chameleon/configuration_chameleon.py +29 -34
transformers/models/chameleon/image_processing_chameleon.py +21 -24
transformers/models/chameleon/image_processing_chameleon_fast.py +5 -6
transformers/models/chameleon/modeling_chameleon.py +135 -92
transformers/models/chameleon/processing_chameleon.py +16 -41
transformers/models/chinese_clip/configuration_chinese_clip.py +10 -8
transformers/models/chinese_clip/image_processing_chinese_clip.py +21 -24
transformers/models/chinese_clip/image_processing_chinese_clip_fast.py +0 -1
transformers/models/chinese_clip/modeling_chinese_clip.py +93 -95
transformers/models/chinese_clip/processing_chinese_clip.py +2 -15
transformers/models/clap/configuration_clap.py +4 -9
transformers/models/clap/feature_extraction_clap.py +9 -10
transformers/models/clap/modeling_clap.py +109 -111
transformers/models/clap/processing_clap.py +2 -15
transformers/models/clip/configuration_clip.py +4 -2
transformers/models/clip/image_processing_clip.py +21 -24
transformers/models/clip/image_processing_clip_fast.py +9 -1
transformers/models/clip/modeling_clip.py +70 -68
transformers/models/clip/processing_clip.py +2 -14
transformers/models/clip/tokenization_clip.py +2 -5
transformers/models/clipseg/configuration_clipseg.py +4 -2
transformers/models/clipseg/modeling_clipseg.py +113 -112
transformers/models/clipseg/processing_clipseg.py +19 -42
transformers/models/clvp/configuration_clvp.py +15 -5
transformers/models/clvp/feature_extraction_clvp.py +7 -10
transformers/models/clvp/modeling_clvp.py +138 -145
transformers/models/clvp/number_normalizer.py +1 -2
transformers/models/clvp/processing_clvp.py +3 -20
transformers/models/clvp/tokenization_clvp.py +0 -1
transformers/models/code_llama/tokenization_code_llama.py +3 -6
transformers/models/codegen/configuration_codegen.py +4 -4
transformers/models/codegen/modeling_codegen.py +50 -49
transformers/models/codegen/tokenization_codegen.py +5 -6
transformers/models/cohere/configuration_cohere.py +25 -30
transformers/models/cohere/modeling_cohere.py +39 -42
transformers/models/cohere/modular_cohere.py +27 -31
transformers/models/cohere/tokenization_cohere.py +5 -6
transformers/models/cohere2/configuration_cohere2.py +27 -32
transformers/models/cohere2/modeling_cohere2.py +38 -41
transformers/models/cohere2/modular_cohere2.py +48 -52
transformers/models/cohere2_vision/configuration_cohere2_vision.py +5 -1
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +9 -10
transformers/models/cohere2_vision/modeling_cohere2_vision.py +52 -55
transformers/models/cohere2_vision/modular_cohere2_vision.py +41 -43
transformers/models/cohere2_vision/processing_cohere2_vision.py +6 -36
transformers/models/colpali/configuration_colpali.py +0 -1
transformers/models/colpali/modeling_colpali.py +14 -16
transformers/models/colpali/modular_colpali.py +11 -51
transformers/models/colpali/processing_colpali.py +14 -52
transformers/models/colqwen2/modeling_colqwen2.py +27 -28
transformers/models/colqwen2/modular_colqwen2.py +36 -74
transformers/models/colqwen2/processing_colqwen2.py +16 -52
transformers/models/conditional_detr/configuration_conditional_detr.py +19 -47
transformers/models/conditional_detr/image_processing_conditional_detr.py +67 -70
transformers/models/conditional_detr/image_processing_conditional_detr_fast.py +50 -36
transformers/models/conditional_detr/modeling_conditional_detr.py +851 -1001
transformers/models/conditional_detr/modular_conditional_detr.py +901 -5
transformers/models/convbert/configuration_convbert.py +11 -8
transformers/models/convbert/modeling_convbert.py +85 -87
transformers/models/convbert/tokenization_convbert.py +0 -1
transformers/models/convnext/configuration_convnext.py +2 -5
transformers/models/convnext/image_processing_convnext.py +18 -21
transformers/models/convnext/image_processing_convnext_fast.py +7 -8
transformers/models/convnext/modeling_convnext.py +12 -14
transformers/models/convnextv2/configuration_convnextv2.py +2 -5
transformers/models/convnextv2/modeling_convnextv2.py +12 -14
transformers/models/cpm/tokenization_cpm.py +6 -7
transformers/models/cpm/tokenization_cpm_fast.py +3 -5
transformers/models/cpmant/configuration_cpmant.py +4 -1
transformers/models/cpmant/modeling_cpmant.py +38 -40
transformers/models/cpmant/tokenization_cpmant.py +1 -3
transformers/models/csm/configuration_csm.py +58 -66
transformers/models/csm/generation_csm.py +13 -14
transformers/models/csm/modeling_csm.py +81 -84
transformers/models/csm/modular_csm.py +56 -58
transformers/models/csm/processing_csm.py +25 -68
transformers/models/ctrl/configuration_ctrl.py +16 -1
transformers/models/ctrl/modeling_ctrl.py +51 -66
transformers/models/ctrl/tokenization_ctrl.py +0 -1
transformers/models/cvt/configuration_cvt.py +0 -1
transformers/models/cvt/modeling_cvt.py +13 -15
transformers/models/cwm/__init__.py +0 -1
transformers/models/cwm/configuration_cwm.py +8 -12
transformers/models/cwm/modeling_cwm.py +36 -38
transformers/models/cwm/modular_cwm.py +10 -12
transformers/models/d_fine/configuration_d_fine.py +10 -57
transformers/models/d_fine/modeling_d_fine.py +786 -927
transformers/models/d_fine/modular_d_fine.py +339 -417
transformers/models/dab_detr/configuration_dab_detr.py +22 -49
transformers/models/dab_detr/modeling_dab_detr.py +79 -77
transformers/models/dac/configuration_dac.py +0 -1
transformers/models/dac/feature_extraction_dac.py +6 -9
transformers/models/dac/modeling_dac.py +22 -24
transformers/models/data2vec/configuration_data2vec_audio.py +4 -2
transformers/models/data2vec/configuration_data2vec_text.py +11 -3
transformers/models/data2vec/configuration_data2vec_vision.py +0 -1
transformers/models/data2vec/modeling_data2vec_audio.py +55 -59
transformers/models/data2vec/modeling_data2vec_text.py +97 -99
transformers/models/data2vec/modeling_data2vec_vision.py +45 -44
transformers/models/data2vec/modular_data2vec_audio.py +6 -1
transformers/models/data2vec/modular_data2vec_text.py +51 -54
transformers/models/dbrx/configuration_dbrx.py +29 -22
transformers/models/dbrx/modeling_dbrx.py +45 -48
transformers/models/dbrx/modular_dbrx.py +37 -39
transformers/models/deberta/configuration_deberta.py +6 -1
transformers/models/deberta/modeling_deberta.py +57 -60
transformers/models/deberta/tokenization_deberta.py +2 -5
transformers/models/deberta_v2/configuration_deberta_v2.py +6 -1
transformers/models/deberta_v2/modeling_deberta_v2.py +63 -65
transformers/models/deberta_v2/tokenization_deberta_v2.py +1 -4
transformers/models/decision_transformer/configuration_decision_transformer.py +3 -2
transformers/models/decision_transformer/modeling_decision_transformer.py +51 -53
transformers/models/deepseek_v2/configuration_deepseek_v2.py +41 -47
transformers/models/deepseek_v2/modeling_deepseek_v2.py +39 -41
transformers/models/deepseek_v2/modular_deepseek_v2.py +48 -52
transformers/models/deepseek_v3/configuration_deepseek_v3.py +42 -48
transformers/models/deepseek_v3/modeling_deepseek_v3.py +38 -40
transformers/models/deepseek_v3/modular_deepseek_v3.py +10 -10
transformers/models/deepseek_vl/configuration_deepseek_vl.py +6 -3
transformers/models/deepseek_vl/image_processing_deepseek_vl.py +27 -28
transformers/models/deepseek_vl/image_processing_deepseek_vl_fast.py +12 -11
transformers/models/deepseek_vl/modeling_deepseek_vl.py +48 -43
transformers/models/deepseek_vl/modular_deepseek_vl.py +15 -43
transformers/models/deepseek_vl/processing_deepseek_vl.py +10 -41
transformers/models/deepseek_vl_hybrid/configuration_deepseek_vl_hybrid.py +7 -5
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid.py +37 -37
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid_fast.py +22 -22
transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py +100 -56
transformers/models/deepseek_vl_hybrid/modular_deepseek_vl_hybrid.py +141 -109
transformers/models/deepseek_vl_hybrid/processing_deepseek_vl_hybrid.py +12 -44
transformers/models/deformable_detr/configuration_deformable_detr.py +22 -46
transformers/models/deformable_detr/image_processing_deformable_detr.py +59 -61
transformers/models/deformable_detr/image_processing_deformable_detr_fast.py +42 -28
transformers/models/deformable_detr/modeling_deformable_detr.py +454 -652
transformers/models/deformable_detr/modular_deformable_detr.py +1385 -5
transformers/models/deit/configuration_deit.py +0 -1
transformers/models/deit/image_processing_deit.py +18 -21
transformers/models/deit/image_processing_deit_fast.py +0 -1
transformers/models/deit/modeling_deit.py +27 -25
transformers/models/depth_anything/configuration_depth_anything.py +12 -43
transformers/models/depth_anything/modeling_depth_anything.py +10 -11
transformers/models/depth_pro/configuration_depth_pro.py +0 -1
transformers/models/depth_pro/image_processing_depth_pro.py +22 -23
transformers/models/depth_pro/image_processing_depth_pro_fast.py +8 -9
transformers/models/depth_pro/modeling_depth_pro.py +29 -27
transformers/models/detr/configuration_detr.py +18 -50
transformers/models/detr/image_processing_detr.py +64 -66
transformers/models/detr/image_processing_detr_fast.py +33 -34
transformers/models/detr/modeling_detr.py +748 -789
transformers/models/dia/configuration_dia.py +9 -15
transformers/models/dia/feature_extraction_dia.py +6 -9
transformers/models/dia/generation_dia.py +48 -53
transformers/models/dia/modeling_dia.py +68 -71
transformers/models/dia/modular_dia.py +56 -58
transformers/models/dia/processing_dia.py +39 -29
transformers/models/dia/tokenization_dia.py +3 -6
transformers/models/diffllama/configuration_diffllama.py +25 -30
transformers/models/diffllama/modeling_diffllama.py +45 -53
transformers/models/diffllama/modular_diffllama.py +18 -25
transformers/models/dinat/configuration_dinat.py +2 -5
transformers/models/dinat/modeling_dinat.py +47 -48
transformers/models/dinov2/configuration_dinov2.py +2 -5
transformers/models/dinov2/modeling_dinov2.py +20 -21
transformers/models/dinov2_with_registers/configuration_dinov2_with_registers.py +3 -5
transformers/models/dinov2_with_registers/modeling_dinov2_with_registers.py +21 -21
transformers/models/dinov2_with_registers/modular_dinov2_with_registers.py +11 -14
transformers/models/dinov3_convnext/configuration_dinov3_convnext.py +6 -11
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +5 -9
transformers/models/dinov3_vit/configuration_dinov3_vit.py +7 -12
transformers/models/dinov3_vit/image_processing_dinov3_vit_fast.py +7 -8
transformers/models/dinov3_vit/modeling_dinov3_vit.py +19 -22
transformers/models/dinov3_vit/modular_dinov3_vit.py +16 -19
transformers/models/distilbert/configuration_distilbert.py +8 -2
transformers/models/distilbert/modeling_distilbert.py +47 -49
transformers/models/distilbert/tokenization_distilbert.py +0 -1
transformers/models/doge/__init__.py +0 -1
transformers/models/doge/configuration_doge.py +42 -35
transformers/models/doge/modeling_doge.py +46 -49
transformers/models/doge/modular_doge.py +77 -68
transformers/models/donut/configuration_donut_swin.py +0 -1
transformers/models/donut/image_processing_donut.py +26 -29
transformers/models/donut/image_processing_donut_fast.py +9 -14
transformers/models/donut/modeling_donut_swin.py +44 -46
transformers/models/donut/processing_donut.py +5 -26
transformers/models/dots1/configuration_dots1.py +43 -36
transformers/models/dots1/modeling_dots1.py +35 -38
transformers/models/dots1/modular_dots1.py +0 -1
transformers/models/dpr/configuration_dpr.py +19 -2
transformers/models/dpr/modeling_dpr.py +37 -39
transformers/models/dpr/tokenization_dpr.py +7 -9
transformers/models/dpr/tokenization_dpr_fast.py +7 -9
transformers/models/dpt/configuration_dpt.py +23 -66
transformers/models/dpt/image_processing_dpt.py +65 -66
transformers/models/dpt/image_processing_dpt_fast.py +18 -19
transformers/models/dpt/modeling_dpt.py +38 -36
transformers/models/dpt/modular_dpt.py +14 -15
transformers/models/edgetam/configuration_edgetam.py +1 -2
transformers/models/edgetam/modeling_edgetam.py +87 -89
transformers/models/edgetam/modular_edgetam.py +7 -13
transformers/models/edgetam_video/__init__.py +0 -1
transformers/models/edgetam_video/configuration_edgetam_video.py +0 -1
transformers/models/edgetam_video/modeling_edgetam_video.py +126 -128
transformers/models/edgetam_video/modular_edgetam_video.py +25 -27
transformers/models/efficientloftr/configuration_efficientloftr.py +4 -5
transformers/models/efficientloftr/image_processing_efficientloftr.py +14 -16
transformers/models/efficientloftr/image_processing_efficientloftr_fast.py +8 -7
transformers/models/efficientloftr/modeling_efficientloftr.py +46 -38
transformers/models/efficientloftr/modular_efficientloftr.py +1 -3
transformers/models/efficientnet/configuration_efficientnet.py +0 -1
transformers/models/efficientnet/image_processing_efficientnet.py +23 -26
transformers/models/efficientnet/image_processing_efficientnet_fast.py +16 -17
transformers/models/efficientnet/modeling_efficientnet.py +12 -14
transformers/models/electra/configuration_electra.py +13 -3
transformers/models/electra/modeling_electra.py +107 -109
transformers/models/emu3/configuration_emu3.py +17 -17
transformers/models/emu3/image_processing_emu3.py +44 -39
transformers/models/emu3/modeling_emu3.py +143 -109
transformers/models/emu3/modular_emu3.py +109 -73
transformers/models/emu3/processing_emu3.py +18 -43
transformers/models/encodec/configuration_encodec.py +2 -4
transformers/models/encodec/feature_extraction_encodec.py +10 -13
transformers/models/encodec/modeling_encodec.py +25 -29
transformers/models/encoder_decoder/configuration_encoder_decoder.py +12 -2
transformers/models/encoder_decoder/modeling_encoder_decoder.py +37 -43
transformers/models/eomt/configuration_eomt.py +12 -14
transformers/models/eomt/image_processing_eomt.py +53 -55
transformers/models/eomt/image_processing_eomt_fast.py +18 -19
transformers/models/eomt/modeling_eomt.py +19 -21
transformers/models/eomt/modular_eomt.py +28 -30
transformers/models/eomt_dinov3/__init__.py +28 -0
transformers/models/eomt_dinov3/configuration_eomt_dinov3.py +204 -0
transformers/models/eomt_dinov3/modeling_eomt_dinov3.py +1376 -0
transformers/models/eomt_dinov3/modular_eomt_dinov3.py +454 -0
transformers/models/ernie/configuration_ernie.py +24 -3
transformers/models/ernie/modeling_ernie.py +127 -162
transformers/models/ernie/modular_ernie.py +91 -103
transformers/models/ernie4_5/configuration_ernie4_5.py +23 -27
transformers/models/ernie4_5/modeling_ernie4_5.py +35 -37
transformers/models/ernie4_5/modular_ernie4_5.py +1 -3
transformers/models/ernie4_5_moe/configuration_ernie4_5_moe.py +34 -39
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +40 -42
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +7 -9
transformers/models/ernie4_5_vl_moe/configuration_ernie4_5_vl_moe.py +17 -7
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe.py +34 -35
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe_fast.py +6 -7
transformers/models/ernie4_5_vl_moe/modeling_ernie4_5_vl_moe.py +305 -267
transformers/models/ernie4_5_vl_moe/modular_ernie4_5_vl_moe.py +163 -142
transformers/models/ernie4_5_vl_moe/processing_ernie4_5_vl_moe.py +3 -5
transformers/models/ernie4_5_vl_moe/video_processing_ernie4_5_vl_moe.py +17 -18
transformers/models/esm/configuration_esm.py +11 -15
transformers/models/esm/modeling_esm.py +35 -37
transformers/models/esm/modeling_esmfold.py +43 -50
transformers/models/esm/openfold_utils/chunk_utils.py +6 -6
transformers/models/esm/openfold_utils/loss.py +1 -2
transformers/models/esm/openfold_utils/protein.py +15 -16
transformers/models/esm/openfold_utils/tensor_utils.py +6 -6
transformers/models/esm/tokenization_esm.py +2 -4
transformers/models/evolla/configuration_evolla.py +50 -40
transformers/models/evolla/modeling_evolla.py +69 -68
transformers/models/evolla/modular_evolla.py +50 -48
transformers/models/evolla/processing_evolla.py +23 -35
transformers/models/exaone4/configuration_exaone4.py +27 -27
transformers/models/exaone4/modeling_exaone4.py +36 -39
transformers/models/exaone4/modular_exaone4.py +51 -50
transformers/models/exaone_moe/__init__.py +27 -0
transformers/models/exaone_moe/configuration_exaone_moe.py +235 -0
transformers/models/exaone_moe/modeling_exaone_moe.py +665 -0
transformers/models/exaone_moe/modular_exaone_moe.py +373 -0
transformers/models/falcon/configuration_falcon.py +31 -26
transformers/models/falcon/modeling_falcon.py +76 -84
transformers/models/falcon_h1/configuration_falcon_h1.py +57 -51
transformers/models/falcon_h1/modeling_falcon_h1.py +74 -109
transformers/models/falcon_h1/modular_falcon_h1.py +68 -100
transformers/models/falcon_mamba/configuration_falcon_mamba.py +5 -2
transformers/models/falcon_mamba/modeling_falcon_mamba.py +64 -73
transformers/models/falcon_mamba/modular_falcon_mamba.py +14 -13
transformers/models/fast_vlm/configuration_fast_vlm.py +10 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +70 -97
transformers/models/fast_vlm/modular_fast_vlm.py +148 -38
transformers/models/fastspeech2_conformer/configuration_fastspeech2_conformer.py +2 -6
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +45 -47
transformers/models/fastspeech2_conformer/tokenization_fastspeech2_conformer.py +1 -3
transformers/models/flaubert/configuration_flaubert.py +10 -5
transformers/models/flaubert/modeling_flaubert.py +125 -129
transformers/models/flaubert/tokenization_flaubert.py +3 -5
transformers/models/flava/configuration_flava.py +9 -9
transformers/models/flava/image_processing_flava.py +66 -67
transformers/models/flava/image_processing_flava_fast.py +46 -47
transformers/models/flava/modeling_flava.py +144 -135
transformers/models/flava/processing_flava.py +2 -12
transformers/models/flex_olmo/__init__.py +0 -1
transformers/models/flex_olmo/configuration_flex_olmo.py +34 -39
transformers/models/flex_olmo/modeling_flex_olmo.py +41 -43
transformers/models/flex_olmo/modular_flex_olmo.py +46 -51
transformers/models/florence2/configuration_florence2.py +4 -1
transformers/models/florence2/modeling_florence2.py +96 -72
transformers/models/florence2/modular_florence2.py +100 -107
transformers/models/florence2/processing_florence2.py +18 -47
transformers/models/fnet/configuration_fnet.py +6 -2
transformers/models/fnet/modeling_fnet.py +69 -80
transformers/models/fnet/tokenization_fnet.py +0 -1
transformers/models/focalnet/configuration_focalnet.py +2 -5
transformers/models/focalnet/modeling_focalnet.py +49 -48
transformers/models/fsmt/configuration_fsmt.py +12 -17
transformers/models/fsmt/modeling_fsmt.py +47 -48
transformers/models/fsmt/tokenization_fsmt.py +3 -5
transformers/models/funnel/configuration_funnel.py +8 -1
transformers/models/funnel/modeling_funnel.py +91 -93
transformers/models/funnel/tokenization_funnel.py +2 -5
transformers/models/fuyu/configuration_fuyu.py +28 -34
transformers/models/fuyu/image_processing_fuyu.py +29 -31
transformers/models/fuyu/image_processing_fuyu_fast.py +17 -17
transformers/models/fuyu/modeling_fuyu.py +50 -52
transformers/models/fuyu/processing_fuyu.py +9 -36
transformers/models/gemma/configuration_gemma.py +25 -30
transformers/models/gemma/modeling_gemma.py +36 -38
transformers/models/gemma/modular_gemma.py +33 -36
transformers/models/gemma/tokenization_gemma.py +3 -6
transformers/models/gemma2/configuration_gemma2.py +30 -35
transformers/models/gemma2/modeling_gemma2.py +38 -41
transformers/models/gemma2/modular_gemma2.py +63 -67
transformers/models/gemma3/configuration_gemma3.py +53 -48
transformers/models/gemma3/image_processing_gemma3.py +29 -31
transformers/models/gemma3/image_processing_gemma3_fast.py +11 -12
transformers/models/gemma3/modeling_gemma3.py +123 -122
transformers/models/gemma3/modular_gemma3.py +128 -125
transformers/models/gemma3/processing_gemma3.py +5 -5
transformers/models/gemma3n/configuration_gemma3n.py +42 -30
transformers/models/gemma3n/feature_extraction_gemma3n.py +9 -11
transformers/models/gemma3n/modeling_gemma3n.py +166 -147
transformers/models/gemma3n/modular_gemma3n.py +176 -148
transformers/models/gemma3n/processing_gemma3n.py +12 -26
transformers/models/git/configuration_git.py +5 -8
transformers/models/git/modeling_git.py +115 -127
transformers/models/git/processing_git.py +2 -14
transformers/models/glm/configuration_glm.py +26 -30
transformers/models/glm/modeling_glm.py +36 -39
transformers/models/glm/modular_glm.py +4 -7
transformers/models/glm4/configuration_glm4.py +26 -30
transformers/models/glm4/modeling_glm4.py +39 -41
transformers/models/glm4/modular_glm4.py +8 -10
transformers/models/glm46v/configuration_glm46v.py +4 -1
transformers/models/glm46v/image_processing_glm46v.py +40 -38
transformers/models/glm46v/image_processing_glm46v_fast.py +9 -9
transformers/models/glm46v/modeling_glm46v.py +138 -93
transformers/models/glm46v/modular_glm46v.py +5 -3
transformers/models/glm46v/processing_glm46v.py +7 -41
transformers/models/glm46v/video_processing_glm46v.py +9 -11
transformers/models/glm4_moe/configuration_glm4_moe.py +42 -35
transformers/models/glm4_moe/modeling_glm4_moe.py +36 -39
transformers/models/glm4_moe/modular_glm4_moe.py +43 -36
transformers/models/glm4_moe_lite/__init__.py +28 -0
transformers/models/glm4_moe_lite/configuration_glm4_moe_lite.py +233 -0
transformers/models/glm4_moe_lite/modeling_glm4_moe_lite.py +740 -0
transformers/models/glm4_moe_lite/modular_glm4_moe_lite.py +302 -0
transformers/models/glm4v/configuration_glm4v.py +25 -24
transformers/models/glm4v/image_processing_glm4v.py +39 -38
transformers/models/glm4v/image_processing_glm4v_fast.py +8 -9
transformers/models/glm4v/modeling_glm4v.py +249 -210
transformers/models/glm4v/modular_glm4v.py +211 -230
transformers/models/glm4v/processing_glm4v.py +7 -41
transformers/models/glm4v/video_processing_glm4v.py +9 -11
transformers/models/glm4v_moe/configuration_glm4v_moe.py +136 -127
transformers/models/glm4v_moe/modeling_glm4v_moe.py +348 -356
transformers/models/glm4v_moe/modular_glm4v_moe.py +76 -174
transformers/models/glm_image/__init__.py +31 -0
transformers/models/glm_image/configuration_glm_image.py +358 -0
transformers/models/glm_image/image_processing_glm_image.py +503 -0
transformers/models/glm_image/image_processing_glm_image_fast.py +294 -0
transformers/models/glm_image/modeling_glm_image.py +1691 -0
transformers/models/glm_image/modular_glm_image.py +1640 -0
transformers/models/glm_image/processing_glm_image.py +265 -0
transformers/models/glm_ocr/__init__.py +28 -0
transformers/models/glm_ocr/configuration_glm_ocr.py +312 -0
transformers/models/glm_ocr/modeling_glm_ocr.py +1633 -0
transformers/models/glm_ocr/modular_glm_ocr.py +428 -0
transformers/models/glmasr/__init__.py +0 -1
transformers/models/glmasr/configuration_glmasr.py +0 -1
transformers/models/glmasr/modeling_glmasr.py +51 -46
transformers/models/glmasr/modular_glmasr.py +39 -29
transformers/models/glmasr/processing_glmasr.py +7 -8
transformers/models/glpn/configuration_glpn.py +0 -1
transformers/models/glpn/image_processing_glpn.py +11 -12
transformers/models/glpn/image_processing_glpn_fast.py +11 -12
transformers/models/glpn/modeling_glpn.py +14 -14
transformers/models/got_ocr2/configuration_got_ocr2.py +10 -13
transformers/models/got_ocr2/image_processing_got_ocr2.py +22 -24
transformers/models/got_ocr2/image_processing_got_ocr2_fast.py +9 -10
transformers/models/got_ocr2/modeling_got_ocr2.py +69 -77
transformers/models/got_ocr2/modular_got_ocr2.py +60 -52
transformers/models/got_ocr2/processing_got_ocr2.py +42 -63
transformers/models/gpt2/configuration_gpt2.py +13 -2
transformers/models/gpt2/modeling_gpt2.py +111 -113
transformers/models/gpt2/tokenization_gpt2.py +6 -9
transformers/models/gpt_bigcode/configuration_gpt_bigcode.py +7 -2
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +78 -84
transformers/models/gpt_neo/configuration_gpt_neo.py +9 -2
transformers/models/gpt_neo/modeling_gpt_neo.py +66 -71
transformers/models/gpt_neox/configuration_gpt_neox.py +27 -25
transformers/models/gpt_neox/modeling_gpt_neox.py +74 -76
transformers/models/gpt_neox/modular_gpt_neox.py +68 -70
transformers/models/gpt_neox/tokenization_gpt_neox.py +2 -5
transformers/models/gpt_neox_japanese/configuration_gpt_neox_japanese.py +24 -19
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +43 -46
transformers/models/gpt_neox_japanese/tokenization_gpt_neox_japanese.py +1 -3
transformers/models/gpt_oss/configuration_gpt_oss.py +31 -30
transformers/models/gpt_oss/modeling_gpt_oss.py +80 -114
transformers/models/gpt_oss/modular_gpt_oss.py +62 -97
transformers/models/gpt_sw3/tokenization_gpt_sw3.py +4 -4
transformers/models/gptj/configuration_gptj.py +4 -5
transformers/models/gptj/modeling_gptj.py +85 -88
transformers/models/granite/configuration_granite.py +28 -33
transformers/models/granite/modeling_granite.py +43 -45
transformers/models/granite/modular_granite.py +29 -31
transformers/models/granite_speech/configuration_granite_speech.py +0 -1
transformers/models/granite_speech/feature_extraction_granite_speech.py +1 -3
transformers/models/granite_speech/modeling_granite_speech.py +84 -60
transformers/models/granite_speech/processing_granite_speech.py +11 -4
transformers/models/granitemoe/configuration_granitemoe.py +31 -36
transformers/models/granitemoe/modeling_granitemoe.py +39 -41
transformers/models/granitemoe/modular_granitemoe.py +21 -23
transformers/models/granitemoehybrid/__init__.py +0 -1
transformers/models/granitemoehybrid/configuration_granitemoehybrid.py +55 -48
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +82 -118
transformers/models/granitemoehybrid/modular_granitemoehybrid.py +57 -65
transformers/models/granitemoeshared/configuration_granitemoeshared.py +33 -37
transformers/models/granitemoeshared/modeling_granitemoeshared.py +52 -56
transformers/models/granitemoeshared/modular_granitemoeshared.py +19 -21
transformers/models/grounding_dino/configuration_grounding_dino.py +10 -46
transformers/models/grounding_dino/image_processing_grounding_dino.py +60 -62
transformers/models/grounding_dino/image_processing_grounding_dino_fast.py +28 -29
transformers/models/grounding_dino/modeling_grounding_dino.py +161 -181
transformers/models/grounding_dino/modular_grounding_dino.py +2 -3
transformers/models/grounding_dino/processing_grounding_dino.py +10 -38
transformers/models/groupvit/configuration_groupvit.py +4 -2
transformers/models/groupvit/modeling_groupvit.py +98 -92
transformers/models/helium/configuration_helium.py +25 -29
transformers/models/helium/modeling_helium.py +37 -40
transformers/models/helium/modular_helium.py +3 -7
transformers/models/herbert/tokenization_herbert.py +4 -6
transformers/models/hgnet_v2/configuration_hgnet_v2.py +2 -5
transformers/models/hgnet_v2/modeling_hgnet_v2.py +12 -14
transformers/models/hgnet_v2/modular_hgnet_v2.py +13 -17
transformers/models/hiera/configuration_hiera.py +2 -5
transformers/models/hiera/modeling_hiera.py +71 -70
transformers/models/hubert/configuration_hubert.py +4 -2
transformers/models/hubert/modeling_hubert.py +42 -41
transformers/models/hubert/modular_hubert.py +8 -11
transformers/models/hunyuan_v1_dense/configuration_hunyuan_v1_dense.py +26 -31
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +58 -37
transformers/models/hunyuan_v1_dense/modular_hunyuan_v1_dense.py +31 -11
transformers/models/hunyuan_v1_moe/configuration_hunyuan_v1_moe.py +31 -36
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +54 -44
transformers/models/hunyuan_v1_moe/modular_hunyuan_v1_moe.py +27 -15
transformers/models/ibert/configuration_ibert.py +4 -2
transformers/models/ibert/modeling_ibert.py +60 -62
transformers/models/ibert/quant_modules.py +0 -1
transformers/models/idefics/configuration_idefics.py +5 -8
transformers/models/idefics/image_processing_idefics.py +13 -15
transformers/models/idefics/modeling_idefics.py +63 -65
transformers/models/idefics/perceiver.py +1 -3
transformers/models/idefics/processing_idefics.py +32 -48
transformers/models/idefics/vision.py +27 -28
transformers/models/idefics2/configuration_idefics2.py +1 -3
transformers/models/idefics2/image_processing_idefics2.py +31 -32
transformers/models/idefics2/image_processing_idefics2_fast.py +8 -8
transformers/models/idefics2/modeling_idefics2.py +126 -106
transformers/models/idefics2/processing_idefics2.py +10 -68
transformers/models/idefics3/configuration_idefics3.py +1 -4
transformers/models/idefics3/image_processing_idefics3.py +42 -43
transformers/models/idefics3/image_processing_idefics3_fast.py +40 -15
transformers/models/idefics3/modeling_idefics3.py +113 -92
transformers/models/idefics3/processing_idefics3.py +15 -69
transformers/models/ijepa/configuration_ijepa.py +0 -1
transformers/models/ijepa/modeling_ijepa.py +13 -14
transformers/models/ijepa/modular_ijepa.py +5 -7
transformers/models/imagegpt/configuration_imagegpt.py +9 -2
transformers/models/imagegpt/image_processing_imagegpt.py +17 -18
transformers/models/imagegpt/image_processing_imagegpt_fast.py +10 -11
transformers/models/imagegpt/modeling_imagegpt.py +65 -62
transformers/models/informer/configuration_informer.py +6 -9
transformers/models/informer/modeling_informer.py +87 -89
transformers/models/informer/modular_informer.py +13 -16
transformers/models/instructblip/configuration_instructblip.py +2 -2
transformers/models/instructblip/modeling_instructblip.py +104 -79
transformers/models/instructblip/processing_instructblip.py +10 -36
transformers/models/instructblipvideo/configuration_instructblipvideo.py +2 -2
transformers/models/instructblipvideo/modeling_instructblipvideo.py +108 -105
transformers/models/instructblipvideo/modular_instructblipvideo.py +73 -64
transformers/models/instructblipvideo/processing_instructblipvideo.py +14 -33
transformers/models/instructblipvideo/video_processing_instructblipvideo.py +6 -7
transformers/models/internvl/configuration_internvl.py +5 -1
transformers/models/internvl/modeling_internvl.py +76 -98
transformers/models/internvl/modular_internvl.py +45 -59
transformers/models/internvl/processing_internvl.py +12 -45
transformers/models/internvl/video_processing_internvl.py +10 -11
transformers/models/jais2/configuration_jais2.py +25 -29
transformers/models/jais2/modeling_jais2.py +36 -38
transformers/models/jais2/modular_jais2.py +20 -22
transformers/models/jamba/configuration_jamba.py +5 -8
transformers/models/jamba/modeling_jamba.py +47 -50
transformers/models/jamba/modular_jamba.py +40 -41
transformers/models/janus/configuration_janus.py +0 -1
transformers/models/janus/image_processing_janus.py +37 -39
transformers/models/janus/image_processing_janus_fast.py +20 -21
transformers/models/janus/modeling_janus.py +103 -188
transformers/models/janus/modular_janus.py +122 -83
transformers/models/janus/processing_janus.py +17 -43
transformers/models/jetmoe/configuration_jetmoe.py +26 -27
transformers/models/jetmoe/modeling_jetmoe.py +42 -45
transformers/models/jetmoe/modular_jetmoe.py +33 -36
transformers/models/kosmos2/configuration_kosmos2.py +10 -9
transformers/models/kosmos2/modeling_kosmos2.py +199 -178
transformers/models/kosmos2/processing_kosmos2.py +40 -55
transformers/models/kosmos2_5/__init__.py +0 -1
transformers/models/kosmos2_5/configuration_kosmos2_5.py +8 -9
transformers/models/kosmos2_5/image_processing_kosmos2_5.py +10 -12
transformers/models/kosmos2_5/image_processing_kosmos2_5_fast.py +2 -11
transformers/models/kosmos2_5/modeling_kosmos2_5.py +162 -172
transformers/models/kosmos2_5/processing_kosmos2_5.py +8 -29
transformers/models/kyutai_speech_to_text/configuration_kyutai_speech_to_text.py +31 -28
transformers/models/kyutai_speech_to_text/feature_extraction_kyutai_speech_to_text.py +12 -14
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +103 -106
transformers/models/kyutai_speech_to_text/modular_kyutai_speech_to_text.py +20 -22
transformers/models/kyutai_speech_to_text/processing_kyutai_speech_to_text.py +2 -8
transformers/models/lasr/configuration_lasr.py +3 -7
transformers/models/lasr/feature_extraction_lasr.py +10 -12
transformers/models/lasr/modeling_lasr.py +21 -24
transformers/models/lasr/modular_lasr.py +11 -13
transformers/models/lasr/processing_lasr.py +12 -6
transformers/models/lasr/tokenization_lasr.py +2 -4
transformers/models/layoutlm/configuration_layoutlm.py +14 -2
transformers/models/layoutlm/modeling_layoutlm.py +70 -72
transformers/models/layoutlmv2/configuration_layoutlmv2.py +14 -17
transformers/models/layoutlmv2/image_processing_layoutlmv2.py +18 -21
transformers/models/layoutlmv2/image_processing_layoutlmv2_fast.py +7 -8
transformers/models/layoutlmv2/modeling_layoutlmv2.py +48 -50
transformers/models/layoutlmv2/processing_layoutlmv2.py +14 -44
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +63 -74
transformers/models/layoutlmv3/configuration_layoutlmv3.py +16 -19
transformers/models/layoutlmv3/image_processing_layoutlmv3.py +24 -26
transformers/models/layoutlmv3/image_processing_layoutlmv3_fast.py +9 -10
transformers/models/layoutlmv3/modeling_layoutlmv3.py +49 -51
transformers/models/layoutlmv3/processing_layoutlmv3.py +14 -46
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +64 -75
transformers/models/layoutxlm/configuration_layoutxlm.py +14 -17
transformers/models/layoutxlm/modular_layoutxlm.py +0 -1
transformers/models/layoutxlm/processing_layoutxlm.py +14 -44
transformers/models/layoutxlm/tokenization_layoutxlm.py +65 -76
transformers/models/led/configuration_led.py +8 -12
transformers/models/led/modeling_led.py +113 -267
transformers/models/levit/configuration_levit.py +0 -1
transformers/models/levit/image_processing_levit.py +19 -21
transformers/models/levit/image_processing_levit_fast.py +4 -5
transformers/models/levit/modeling_levit.py +17 -19
transformers/models/lfm2/configuration_lfm2.py +27 -30
transformers/models/lfm2/modeling_lfm2.py +46 -48
transformers/models/lfm2/modular_lfm2.py +32 -32
transformers/models/lfm2_moe/__init__.py +0 -1
transformers/models/lfm2_moe/configuration_lfm2_moe.py +6 -9
transformers/models/lfm2_moe/modeling_lfm2_moe.py +48 -49
transformers/models/lfm2_moe/modular_lfm2_moe.py +8 -9
transformers/models/lfm2_vl/configuration_lfm2_vl.py +4 -1
transformers/models/lfm2_vl/image_processing_lfm2_vl_fast.py +43 -20
transformers/models/lfm2_vl/modeling_lfm2_vl.py +73 -61
transformers/models/lfm2_vl/modular_lfm2_vl.py +66 -54
transformers/models/lfm2_vl/processing_lfm2_vl.py +14 -34
transformers/models/lightglue/image_processing_lightglue.py +16 -15
transformers/models/lightglue/image_processing_lightglue_fast.py +8 -7
transformers/models/lightglue/modeling_lightglue.py +31 -33
transformers/models/lightglue/modular_lightglue.py +31 -31
transformers/models/lighton_ocr/__init__.py +28 -0
transformers/models/lighton_ocr/configuration_lighton_ocr.py +128 -0
transformers/models/lighton_ocr/modeling_lighton_ocr.py +463 -0
transformers/models/lighton_ocr/modular_lighton_ocr.py +404 -0
transformers/models/lighton_ocr/processing_lighton_ocr.py +229 -0
transformers/models/lilt/configuration_lilt.py +6 -2
transformers/models/lilt/modeling_lilt.py +53 -55
transformers/models/llama/configuration_llama.py +26 -31
transformers/models/llama/modeling_llama.py +35 -38
transformers/models/llama/tokenization_llama.py +2 -4
transformers/models/llama4/configuration_llama4.py +87 -69
transformers/models/llama4/image_processing_llama4_fast.py +11 -12
transformers/models/llama4/modeling_llama4.py +116 -115
transformers/models/llama4/processing_llama4.py +33 -57
transformers/models/llava/configuration_llava.py +10 -1
transformers/models/llava/image_processing_llava.py +25 -28
transformers/models/llava/image_processing_llava_fast.py +9 -10
transformers/models/llava/modeling_llava.py +73 -102
transformers/models/llava/processing_llava.py +18 -51
transformers/models/llava_next/configuration_llava_next.py +2 -2
transformers/models/llava_next/image_processing_llava_next.py +43 -45
transformers/models/llava_next/image_processing_llava_next_fast.py +11 -12
transformers/models/llava_next/modeling_llava_next.py +103 -104
transformers/models/llava_next/processing_llava_next.py +18 -47
transformers/models/llava_next_video/configuration_llava_next_video.py +10 -7
transformers/models/llava_next_video/modeling_llava_next_video.py +168 -155
transformers/models/llava_next_video/modular_llava_next_video.py +154 -147
transformers/models/llava_next_video/processing_llava_next_video.py +21 -63
transformers/models/llava_next_video/video_processing_llava_next_video.py +0 -1
transformers/models/llava_onevision/configuration_llava_onevision.py +10 -7
transformers/models/llava_onevision/image_processing_llava_onevision.py +40 -42
transformers/models/llava_onevision/image_processing_llava_onevision_fast.py +14 -14
transformers/models/llava_onevision/modeling_llava_onevision.py +170 -166
transformers/models/llava_onevision/modular_llava_onevision.py +156 -152
transformers/models/llava_onevision/processing_llava_onevision.py +21 -53
transformers/models/llava_onevision/video_processing_llava_onevision.py +0 -1
transformers/models/longcat_flash/__init__.py +0 -1
transformers/models/longcat_flash/configuration_longcat_flash.py +39 -45
transformers/models/longcat_flash/modeling_longcat_flash.py +37 -38
transformers/models/longcat_flash/modular_longcat_flash.py +23 -24
transformers/models/longformer/configuration_longformer.py +5 -5
transformers/models/longformer/modeling_longformer.py +99 -101
transformers/models/longt5/configuration_longt5.py +9 -7
transformers/models/longt5/modeling_longt5.py +45 -45
transformers/models/luke/configuration_luke.py +8 -2
transformers/models/luke/modeling_luke.py +179 -181
transformers/models/luke/tokenization_luke.py +99 -105
transformers/{pipelines/deprecated → models/lw_detr}/__init__.py +14 -3
transformers/models/lw_detr/configuration_lw_detr.py +362 -0
transformers/models/lw_detr/modeling_lw_detr.py +1697 -0
transformers/models/lw_detr/modular_lw_detr.py +1609 -0
transformers/models/lxmert/configuration_lxmert.py +16 -1
transformers/models/lxmert/modeling_lxmert.py +63 -74
transformers/models/m2m_100/configuration_m2m_100.py +7 -9
transformers/models/m2m_100/modeling_m2m_100.py +72 -74
transformers/models/m2m_100/tokenization_m2m_100.py +8 -8
transformers/models/mamba/configuration_mamba.py +5 -3
transformers/models/mamba/modeling_mamba.py +61 -70
transformers/models/mamba2/configuration_mamba2.py +5 -8
transformers/models/mamba2/modeling_mamba2.py +66 -79
transformers/models/marian/configuration_marian.py +10 -5
transformers/models/marian/modeling_marian.py +88 -90
transformers/models/marian/tokenization_marian.py +6 -6
transformers/models/markuplm/configuration_markuplm.py +4 -7
transformers/models/markuplm/feature_extraction_markuplm.py +1 -2
transformers/models/markuplm/modeling_markuplm.py +63 -65
transformers/models/markuplm/processing_markuplm.py +31 -38
transformers/models/markuplm/tokenization_markuplm.py +67 -77
transformers/models/mask2former/configuration_mask2former.py +14 -52
transformers/models/mask2former/image_processing_mask2former.py +84 -85
transformers/models/mask2former/image_processing_mask2former_fast.py +36 -36
transformers/models/mask2former/modeling_mask2former.py +108 -104
transformers/models/mask2former/modular_mask2former.py +6 -8
transformers/models/maskformer/configuration_maskformer.py +17 -51
transformers/models/maskformer/configuration_maskformer_swin.py +2 -5
transformers/models/maskformer/image_processing_maskformer.py +84 -85
transformers/models/maskformer/image_processing_maskformer_fast.py +35 -36
transformers/models/maskformer/modeling_maskformer.py +71 -67
transformers/models/maskformer/modeling_maskformer_swin.py +20 -23
transformers/models/mbart/configuration_mbart.py +9 -5
transformers/models/mbart/modeling_mbart.py +120 -119
transformers/models/mbart/tokenization_mbart.py +2 -4
transformers/models/mbart50/tokenization_mbart50.py +3 -5
transformers/models/megatron_bert/configuration_megatron_bert.py +13 -3
transformers/models/megatron_bert/modeling_megatron_bert.py +139 -165
transformers/models/metaclip_2/configuration_metaclip_2.py +4 -1
transformers/models/metaclip_2/modeling_metaclip_2.py +94 -87
transformers/models/metaclip_2/modular_metaclip_2.py +59 -45
transformers/models/mgp_str/configuration_mgp_str.py +0 -1
transformers/models/mgp_str/modeling_mgp_str.py +18 -18
transformers/models/mgp_str/processing_mgp_str.py +3 -20
transformers/models/mgp_str/tokenization_mgp_str.py +1 -3
transformers/models/mimi/configuration_mimi.py +42 -40
transformers/models/mimi/modeling_mimi.py +116 -115
transformers/models/minimax/__init__.py +0 -1
transformers/models/minimax/configuration_minimax.py +40 -47
transformers/models/minimax/modeling_minimax.py +46 -49
transformers/models/minimax/modular_minimax.py +59 -65
transformers/models/minimax_m2/__init__.py +28 -0
transformers/models/minimax_m2/configuration_minimax_m2.py +188 -0
transformers/models/minimax_m2/modeling_minimax_m2.py +704 -0
transformers/models/minimax_m2/modular_minimax_m2.py +346 -0
transformers/models/ministral/configuration_ministral.py +25 -29
transformers/models/ministral/modeling_ministral.py +35 -37
transformers/models/ministral/modular_ministral.py +32 -37
transformers/models/ministral3/configuration_ministral3.py +23 -26
transformers/models/ministral3/modeling_ministral3.py +35 -37
transformers/models/ministral3/modular_ministral3.py +7 -8
transformers/models/mistral/configuration_mistral.py +24 -29
transformers/models/mistral/modeling_mistral.py +35 -37
transformers/models/mistral/modular_mistral.py +14 -15
transformers/models/mistral3/configuration_mistral3.py +4 -1
transformers/models/mistral3/modeling_mistral3.py +79 -82
transformers/models/mistral3/modular_mistral3.py +66 -67
transformers/models/mixtral/configuration_mixtral.py +32 -38
transformers/models/mixtral/modeling_mixtral.py +39 -42
transformers/models/mixtral/modular_mixtral.py +26 -29
transformers/models/mlcd/configuration_mlcd.py +0 -1
transformers/models/mlcd/modeling_mlcd.py +17 -17
transformers/models/mlcd/modular_mlcd.py +16 -16
transformers/models/mllama/configuration_mllama.py +10 -15
transformers/models/mllama/image_processing_mllama.py +23 -25
transformers/models/mllama/image_processing_mllama_fast.py +11 -11
transformers/models/mllama/modeling_mllama.py +100 -103
transformers/models/mllama/processing_mllama.py +6 -55
transformers/models/mluke/tokenization_mluke.py +97 -103
transformers/models/mm_grounding_dino/configuration_mm_grounding_dino.py +10 -46
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +159 -179
transformers/models/mm_grounding_dino/modular_mm_grounding_dino.py +10 -46
transformers/models/mobilebert/configuration_mobilebert.py +4 -2
transformers/models/mobilebert/modeling_mobilebert.py +78 -88
transformers/models/mobilebert/tokenization_mobilebert.py +0 -1
transformers/models/mobilenet_v1/configuration_mobilenet_v1.py +0 -1
transformers/models/mobilenet_v1/image_processing_mobilenet_v1.py +20 -23
transformers/models/mobilenet_v1/image_processing_mobilenet_v1_fast.py +0 -1
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +13 -16
transformers/models/mobilenet_v2/configuration_mobilenet_v2.py +0 -1
transformers/models/mobilenet_v2/image_processing_mobilenet_v2.py +48 -51
transformers/models/mobilenet_v2/image_processing_mobilenet_v2_fast.py +14 -15
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +21 -22
transformers/models/mobilevit/configuration_mobilevit.py +0 -1
transformers/models/mobilevit/image_processing_mobilevit.py +41 -44
transformers/models/mobilevit/image_processing_mobilevit_fast.py +12 -13
transformers/models/mobilevit/modeling_mobilevit.py +21 -21
transformers/models/mobilevitv2/configuration_mobilevitv2.py +0 -1
transformers/models/mobilevitv2/modeling_mobilevitv2.py +21 -22
transformers/models/modernbert/configuration_modernbert.py +76 -51
transformers/models/modernbert/modeling_modernbert.py +188 -943
transformers/models/modernbert/modular_modernbert.py +255 -978
transformers/models/modernbert_decoder/configuration_modernbert_decoder.py +50 -44
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +54 -64
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +92 -92
transformers/models/moonshine/configuration_moonshine.py +34 -31
transformers/models/moonshine/modeling_moonshine.py +70 -72
transformers/models/moonshine/modular_moonshine.py +91 -86
transformers/models/moshi/configuration_moshi.py +46 -23
transformers/models/moshi/modeling_moshi.py +134 -142
transformers/models/mpnet/configuration_mpnet.py +6 -2
transformers/models/mpnet/modeling_mpnet.py +55 -57
transformers/models/mpnet/tokenization_mpnet.py +1 -4
transformers/models/mpt/configuration_mpt.py +17 -9
transformers/models/mpt/modeling_mpt.py +58 -60
transformers/models/mra/configuration_mra.py +8 -2
transformers/models/mra/modeling_mra.py +54 -56
transformers/models/mt5/configuration_mt5.py +9 -6
transformers/models/mt5/modeling_mt5.py +80 -85
transformers/models/musicgen/configuration_musicgen.py +12 -8
transformers/models/musicgen/modeling_musicgen.py +114 -116
transformers/models/musicgen/processing_musicgen.py +3 -21
transformers/models/musicgen_melody/configuration_musicgen_melody.py +15 -8
transformers/models/musicgen_melody/feature_extraction_musicgen_melody.py +8 -9
transformers/models/musicgen_melody/modeling_musicgen_melody.py +113 -126
transformers/models/musicgen_melody/processing_musicgen_melody.py +3 -22
transformers/models/mvp/configuration_mvp.py +8 -5
transformers/models/mvp/modeling_mvp.py +121 -123
transformers/models/myt5/tokenization_myt5.py +8 -10
transformers/models/nanochat/configuration_nanochat.py +5 -8
transformers/models/nanochat/modeling_nanochat.py +36 -39
transformers/models/nanochat/modular_nanochat.py +16 -18
transformers/models/nemotron/configuration_nemotron.py +25 -30
transformers/models/nemotron/modeling_nemotron.py +53 -66
transformers/models/nllb/tokenization_nllb.py +14 -14
transformers/models/nllb_moe/configuration_nllb_moe.py +7 -10
transformers/models/nllb_moe/modeling_nllb_moe.py +70 -72
transformers/models/nougat/image_processing_nougat.py +29 -32
transformers/models/nougat/image_processing_nougat_fast.py +12 -13
transformers/models/nougat/processing_nougat.py +37 -39
transformers/models/nougat/tokenization_nougat.py +5 -7
transformers/models/nystromformer/configuration_nystromformer.py +8 -2
transformers/models/nystromformer/modeling_nystromformer.py +61 -63
transformers/models/olmo/configuration_olmo.py +23 -28
transformers/models/olmo/modeling_olmo.py +35 -38
transformers/models/olmo/modular_olmo.py +8 -12
transformers/models/olmo2/configuration_olmo2.py +27 -32
transformers/models/olmo2/modeling_olmo2.py +36 -39
transformers/models/olmo2/modular_olmo2.py +36 -38
transformers/models/olmo3/__init__.py +0 -1
transformers/models/olmo3/configuration_olmo3.py +30 -34
transformers/models/olmo3/modeling_olmo3.py +35 -38
transformers/models/olmo3/modular_olmo3.py +44 -47
transformers/models/olmoe/configuration_olmoe.py +29 -33
transformers/models/olmoe/modeling_olmoe.py +41 -43
transformers/models/olmoe/modular_olmoe.py +15 -16
transformers/models/omdet_turbo/configuration_omdet_turbo.py +14 -50
transformers/models/omdet_turbo/modeling_omdet_turbo.py +59 -57
transformers/models/omdet_turbo/processing_omdet_turbo.py +19 -67
transformers/models/oneformer/configuration_oneformer.py +11 -51
transformers/models/oneformer/image_processing_oneformer.py +83 -84
transformers/models/oneformer/image_processing_oneformer_fast.py +41 -42
transformers/models/oneformer/modeling_oneformer.py +137 -133
transformers/models/oneformer/processing_oneformer.py +28 -43
transformers/models/openai/configuration_openai.py +16 -1
transformers/models/openai/modeling_openai.py +50 -51
transformers/models/openai/tokenization_openai.py +2 -5
transformers/models/opt/configuration_opt.py +6 -7
transformers/models/opt/modeling_opt.py +79 -80
transformers/models/ovis2/__init__.py +0 -1
transformers/models/ovis2/configuration_ovis2.py +4 -1
transformers/models/ovis2/image_processing_ovis2.py +22 -24
transformers/models/ovis2/image_processing_ovis2_fast.py +9 -10
transformers/models/ovis2/modeling_ovis2.py +99 -142
transformers/models/ovis2/modular_ovis2.py +82 -45
transformers/models/ovis2/processing_ovis2.py +12 -40
transformers/models/owlv2/configuration_owlv2.py +4 -2
transformers/models/owlv2/image_processing_owlv2.py +20 -21
transformers/models/owlv2/image_processing_owlv2_fast.py +12 -13
transformers/models/owlv2/modeling_owlv2.py +122 -114
transformers/models/owlv2/modular_owlv2.py +11 -12
transformers/models/owlv2/processing_owlv2.py +20 -49
transformers/models/owlvit/configuration_owlvit.py +4 -2
transformers/models/owlvit/image_processing_owlvit.py +21 -22
transformers/models/owlvit/image_processing_owlvit_fast.py +2 -3
transformers/models/owlvit/modeling_owlvit.py +121 -113
transformers/models/owlvit/processing_owlvit.py +20 -48
transformers/models/paddleocr_vl/__init__.py +0 -1
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +28 -29
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +34 -35
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +12 -12
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +159 -158
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +148 -119
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +1 -3
transformers/models/paligemma/configuration_paligemma.py +4 -1
transformers/models/paligemma/modeling_paligemma.py +81 -79
transformers/models/paligemma/processing_paligemma.py +13 -66
transformers/models/parakeet/configuration_parakeet.py +3 -8
transformers/models/parakeet/feature_extraction_parakeet.py +10 -12
transformers/models/parakeet/modeling_parakeet.py +21 -25
transformers/models/parakeet/modular_parakeet.py +19 -21
transformers/models/parakeet/processing_parakeet.py +12 -5
transformers/models/parakeet/tokenization_parakeet.py +2 -4
transformers/models/patchtsmixer/configuration_patchtsmixer.py +5 -8
transformers/models/patchtsmixer/modeling_patchtsmixer.py +63 -65
transformers/models/patchtst/configuration_patchtst.py +6 -9
transformers/models/patchtst/modeling_patchtst.py +75 -77
transformers/models/pe_audio/__init__.py +0 -1
transformers/models/pe_audio/configuration_pe_audio.py +14 -16
transformers/models/pe_audio/feature_extraction_pe_audio.py +6 -8
transformers/models/pe_audio/modeling_pe_audio.py +30 -31
transformers/models/pe_audio/modular_pe_audio.py +17 -18
transformers/models/pe_audio/processing_pe_audio.py +0 -1
transformers/models/pe_audio_video/__init__.py +0 -1
transformers/models/pe_audio_video/configuration_pe_audio_video.py +15 -17
transformers/models/pe_audio_video/modeling_pe_audio_video.py +64 -65
transformers/models/pe_audio_video/modular_pe_audio_video.py +56 -57
transformers/models/pe_audio_video/processing_pe_audio_video.py +0 -1
transformers/models/pe_video/__init__.py +0 -1
transformers/models/pe_video/configuration_pe_video.py +14 -16
transformers/models/pe_video/modeling_pe_video.py +57 -46
transformers/models/pe_video/modular_pe_video.py +47 -35
transformers/models/pe_video/video_processing_pe_video.py +2 -4
transformers/models/pegasus/configuration_pegasus.py +8 -6
transformers/models/pegasus/modeling_pegasus.py +67 -69
transformers/models/pegasus/tokenization_pegasus.py +1 -4
transformers/models/pegasus_x/configuration_pegasus_x.py +5 -4
transformers/models/pegasus_x/modeling_pegasus_x.py +53 -55
transformers/models/perceiver/configuration_perceiver.py +0 -1
transformers/models/perceiver/image_processing_perceiver.py +22 -25
transformers/models/perceiver/image_processing_perceiver_fast.py +7 -8
transformers/models/perceiver/modeling_perceiver.py +152 -145
transformers/models/perceiver/tokenization_perceiver.py +3 -6
transformers/models/perception_lm/configuration_perception_lm.py +0 -1
transformers/models/perception_lm/image_processing_perception_lm_fast.py +8 -9
transformers/models/perception_lm/modeling_perception_lm.py +64 -67
transformers/models/perception_lm/modular_perception_lm.py +58 -58
transformers/models/perception_lm/processing_perception_lm.py +13 -47
transformers/models/perception_lm/video_processing_perception_lm.py +0 -1
transformers/models/persimmon/configuration_persimmon.py +23 -28
transformers/models/persimmon/modeling_persimmon.py +44 -47
transformers/models/phi/configuration_phi.py +27 -28
transformers/models/phi/modeling_phi.py +39 -41
transformers/models/phi/modular_phi.py +26 -26
transformers/models/phi3/configuration_phi3.py +32 -37
transformers/models/phi3/modeling_phi3.py +37 -40
transformers/models/phi3/modular_phi3.py +16 -20
transformers/models/phi4_multimodal/configuration_phi4_multimodal.py +36 -39
transformers/models/phi4_multimodal/feature_extraction_phi4_multimodal.py +7 -9
transformers/models/phi4_multimodal/image_processing_phi4_multimodal_fast.py +11 -11
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +100 -117
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +103 -90
transformers/models/phi4_multimodal/processing_phi4_multimodal.py +7 -42
transformers/models/phimoe/configuration_phimoe.py +31 -36
transformers/models/phimoe/modeling_phimoe.py +50 -77
transformers/models/phimoe/modular_phimoe.py +12 -8
transformers/models/phobert/tokenization_phobert.py +4 -6
transformers/models/pix2struct/configuration_pix2struct.py +12 -10
transformers/models/pix2struct/image_processing_pix2struct.py +15 -19
transformers/models/pix2struct/image_processing_pix2struct_fast.py +12 -15
transformers/models/pix2struct/modeling_pix2struct.py +56 -52
transformers/models/pix2struct/processing_pix2struct.py +5 -26
transformers/models/pixio/__init__.py +0 -1
transformers/models/pixio/configuration_pixio.py +2 -5
transformers/models/pixio/modeling_pixio.py +16 -17
transformers/models/pixio/modular_pixio.py +7 -8
transformers/models/pixtral/configuration_pixtral.py +11 -14
transformers/models/pixtral/image_processing_pixtral.py +26 -28
transformers/models/pixtral/image_processing_pixtral_fast.py +10 -11
transformers/models/pixtral/modeling_pixtral.py +31 -37
transformers/models/pixtral/processing_pixtral.py +18 -52
transformers/models/plbart/configuration_plbart.py +8 -6
transformers/models/plbart/modeling_plbart.py +109 -109
transformers/models/plbart/modular_plbart.py +31 -33
transformers/models/plbart/tokenization_plbart.py +4 -5
transformers/models/poolformer/configuration_poolformer.py +0 -1
transformers/models/poolformer/image_processing_poolformer.py +21 -24
transformers/models/poolformer/image_processing_poolformer_fast.py +13 -14
transformers/models/poolformer/modeling_poolformer.py +10 -12
transformers/models/pop2piano/configuration_pop2piano.py +7 -7
transformers/models/pop2piano/feature_extraction_pop2piano.py +6 -9
transformers/models/pop2piano/modeling_pop2piano.py +24 -24
transformers/models/pop2piano/processing_pop2piano.py +25 -33
transformers/models/pop2piano/tokenization_pop2piano.py +15 -23
transformers/models/pp_doclayout_v3/__init__.py +30 -0
transformers/models/pp_doclayout_v3/configuration_pp_doclayout_v3.py +277 -0
transformers/models/pp_doclayout_v3/image_processing_pp_doclayout_v3_fast.py +305 -0
transformers/models/pp_doclayout_v3/modeling_pp_doclayout_v3.py +2083 -0
transformers/models/pp_doclayout_v3/modular_pp_doclayout_v3.py +1549 -0
transformers/models/prompt_depth_anything/configuration_prompt_depth_anything.py +13 -46
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything.py +28 -28
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything_fast.py +20 -21
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +17 -16
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +21 -20
transformers/models/prophetnet/configuration_prophetnet.py +37 -38
transformers/models/prophetnet/modeling_prophetnet.py +121 -153
transformers/models/prophetnet/tokenization_prophetnet.py +14 -16
transformers/models/pvt/configuration_pvt.py +0 -1
transformers/models/pvt/image_processing_pvt.py +24 -27
transformers/models/pvt/image_processing_pvt_fast.py +1 -2
transformers/models/pvt/modeling_pvt.py +19 -21
transformers/models/pvt_v2/configuration_pvt_v2.py +4 -8
transformers/models/pvt_v2/modeling_pvt_v2.py +27 -28
transformers/models/qwen2/configuration_qwen2.py +32 -25
transformers/models/qwen2/modeling_qwen2.py +35 -37
transformers/models/qwen2/modular_qwen2.py +14 -15
transformers/models/qwen2/tokenization_qwen2.py +2 -9
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +36 -27
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +241 -214
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +228 -193
transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py +41 -49
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +28 -34
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +188 -145
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +64 -91
transformers/models/qwen2_5_vl/processing_qwen2_5_vl.py +7 -43
transformers/models/qwen2_audio/configuration_qwen2_audio.py +0 -1
transformers/models/qwen2_audio/modeling_qwen2_audio.py +39 -41
transformers/models/qwen2_audio/processing_qwen2_audio.py +13 -42
transformers/models/qwen2_moe/configuration_qwen2_moe.py +42 -35
transformers/models/qwen2_moe/modeling_qwen2_moe.py +40 -43
transformers/models/qwen2_moe/modular_qwen2_moe.py +10 -13
transformers/models/qwen2_vl/configuration_qwen2_vl.py +28 -33
transformers/models/qwen2_vl/image_processing_qwen2_vl.py +38 -40
transformers/models/qwen2_vl/image_processing_qwen2_vl_fast.py +12 -15
transformers/models/qwen2_vl/modeling_qwen2_vl.py +184 -141
transformers/models/qwen2_vl/processing_qwen2_vl.py +7 -44
transformers/models/qwen2_vl/video_processing_qwen2_vl.py +38 -18
transformers/models/qwen3/configuration_qwen3.py +34 -27
transformers/models/qwen3/modeling_qwen3.py +35 -38
transformers/models/qwen3/modular_qwen3.py +7 -9
transformers/models/qwen3_moe/configuration_qwen3_moe.py +45 -35
transformers/models/qwen3_moe/modeling_qwen3_moe.py +40 -43
transformers/models/qwen3_moe/modular_qwen3_moe.py +10 -13
transformers/models/qwen3_next/configuration_qwen3_next.py +47 -38
transformers/models/qwen3_next/modeling_qwen3_next.py +44 -47
transformers/models/qwen3_next/modular_qwen3_next.py +37 -38
transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py +139 -106
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +266 -206
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +228 -181
transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py +40 -48
transformers/models/qwen3_vl/configuration_qwen3_vl.py +22 -24
transformers/models/qwen3_vl/modeling_qwen3_vl.py +185 -122
transformers/models/qwen3_vl/modular_qwen3_vl.py +153 -139
transformers/models/qwen3_vl/processing_qwen3_vl.py +6 -42
transformers/models/qwen3_vl/video_processing_qwen3_vl.py +10 -12
transformers/models/qwen3_vl_moe/configuration_qwen3_vl_moe.py +27 -30
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +249 -178
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +55 -42
transformers/models/rag/configuration_rag.py +6 -7
transformers/models/rag/modeling_rag.py +119 -121
transformers/models/rag/retrieval_rag.py +3 -5
transformers/models/rag/tokenization_rag.py +0 -50
transformers/models/recurrent_gemma/configuration_recurrent_gemma.py +29 -30
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +35 -39
transformers/models/reformer/configuration_reformer.py +7 -8
transformers/models/reformer/modeling_reformer.py +67 -68
transformers/models/reformer/tokenization_reformer.py +3 -6
transformers/models/regnet/configuration_regnet.py +0 -1
transformers/models/regnet/modeling_regnet.py +7 -9
transformers/models/rembert/configuration_rembert.py +8 -2
transformers/models/rembert/modeling_rembert.py +108 -132
transformers/models/rembert/tokenization_rembert.py +1 -4
transformers/models/resnet/configuration_resnet.py +2 -5
transformers/models/resnet/modeling_resnet.py +14 -15
transformers/models/roberta/configuration_roberta.py +11 -3
transformers/models/roberta/modeling_roberta.py +97 -99
transformers/models/roberta/modular_roberta.py +55 -58
transformers/models/roberta/tokenization_roberta.py +2 -5
transformers/models/roberta/tokenization_roberta_old.py +2 -4
transformers/models/roberta_prelayernorm/configuration_roberta_prelayernorm.py +11 -3
transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py +97 -99
transformers/models/roc_bert/configuration_roc_bert.py +8 -2
transformers/models/roc_bert/modeling_roc_bert.py +125 -162
transformers/models/roc_bert/tokenization_roc_bert.py +88 -94
transformers/models/roformer/configuration_roformer.py +13 -3
transformers/models/roformer/modeling_roformer.py +79 -95
transformers/models/roformer/tokenization_roformer.py +3 -6
transformers/models/roformer/tokenization_utils.py +0 -1
transformers/models/rt_detr/configuration_rt_detr.py +8 -50
transformers/models/rt_detr/configuration_rt_detr_resnet.py +2 -5
transformers/models/rt_detr/image_processing_rt_detr.py +54 -55
transformers/models/rt_detr/image_processing_rt_detr_fast.py +39 -26
transformers/models/rt_detr/modeling_rt_detr.py +643 -804
transformers/models/rt_detr/modeling_rt_detr_resnet.py +4 -7
transformers/models/rt_detr/modular_rt_detr.py +1522 -20
transformers/models/rt_detr_v2/configuration_rt_detr_v2.py +12 -58
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +384 -521
transformers/models/rt_detr_v2/modular_rt_detr_v2.py +27 -70
transformers/models/rwkv/configuration_rwkv.py +2 -4
transformers/models/rwkv/modeling_rwkv.py +29 -54
transformers/models/sam/configuration_sam.py +2 -1
transformers/models/sam/image_processing_sam.py +59 -60
transformers/models/sam/image_processing_sam_fast.py +25 -26
transformers/models/sam/modeling_sam.py +46 -43
transformers/models/sam/processing_sam.py +39 -27
transformers/models/sam2/configuration_sam2.py +1 -2
transformers/models/sam2/image_processing_sam2_fast.py +14 -15
transformers/models/sam2/modeling_sam2.py +96 -94
transformers/models/sam2/modular_sam2.py +85 -94
transformers/models/sam2/processing_sam2.py +31 -47
transformers/models/sam2_video/configuration_sam2_video.py +0 -1
transformers/models/sam2_video/modeling_sam2_video.py +114 -116
transformers/models/sam2_video/modular_sam2_video.py +72 -89
transformers/models/sam2_video/processing_sam2_video.py +49 -66
transformers/models/sam2_video/video_processing_sam2_video.py +1 -4
transformers/models/sam3/configuration_sam3.py +0 -1
transformers/models/sam3/image_processing_sam3_fast.py +17 -20
transformers/models/sam3/modeling_sam3.py +94 -100
transformers/models/sam3/modular_sam3.py +3 -8
transformers/models/sam3/processing_sam3.py +37 -52
transformers/models/sam3_tracker/__init__.py +0 -1
transformers/models/sam3_tracker/configuration_sam3_tracker.py +1 -3
transformers/models/sam3_tracker/modeling_sam3_tracker.py +79 -80
transformers/models/sam3_tracker/modular_sam3_tracker.py +0 -2
transformers/models/sam3_tracker/processing_sam3_tracker.py +31 -48
transformers/models/sam3_tracker_video/__init__.py +0 -1
transformers/models/sam3_tracker_video/configuration_sam3_tracker_video.py +0 -1
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +115 -114
transformers/models/sam3_tracker_video/modular_sam3_tracker_video.py +10 -24
transformers/models/sam3_tracker_video/processing_sam3_tracker_video.py +50 -66
transformers/models/sam3_video/configuration_sam3_video.py +0 -1
transformers/models/sam3_video/modeling_sam3_video.py +56 -45
transformers/models/sam3_video/processing_sam3_video.py +25 -45
transformers/models/sam_hq/__init__.py +1 -1
transformers/models/sam_hq/configuration_sam_hq.py +2 -1
transformers/models/sam_hq/modeling_sam_hq.py +52 -50
transformers/models/sam_hq/modular_sam_hq.py +23 -25
transformers/models/sam_hq/{processing_samhq.py → processing_sam_hq.py} +41 -29
transformers/models/seamless_m4t/configuration_seamless_m4t.py +8 -10
transformers/models/seamless_m4t/feature_extraction_seamless_m4t.py +8 -11
transformers/models/seamless_m4t/modeling_seamless_m4t.py +180 -182
transformers/models/seamless_m4t/processing_seamless_m4t.py +18 -39
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +15 -20
transformers/models/seamless_m4t_v2/configuration_seamless_m4t_v2.py +8 -10
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +193 -195
transformers/models/seed_oss/configuration_seed_oss.py +30 -34
transformers/models/seed_oss/modeling_seed_oss.py +34 -36
transformers/models/seed_oss/modular_seed_oss.py +6 -7
transformers/models/segformer/configuration_segformer.py +0 -10
transformers/models/segformer/image_processing_segformer.py +39 -42
transformers/models/segformer/image_processing_segformer_fast.py +11 -12
transformers/models/segformer/modeling_segformer.py +28 -28
transformers/models/segformer/modular_segformer.py +8 -9
transformers/models/seggpt/configuration_seggpt.py +0 -1
transformers/models/seggpt/image_processing_seggpt.py +38 -41
transformers/models/seggpt/modeling_seggpt.py +48 -38
transformers/models/sew/configuration_sew.py +4 -2
transformers/models/sew/modeling_sew.py +42 -40
transformers/models/sew/modular_sew.py +12 -13
transformers/models/sew_d/configuration_sew_d.py +4 -2
transformers/models/sew_d/modeling_sew_d.py +32 -31
transformers/models/shieldgemma2/configuration_shieldgemma2.py +0 -1
transformers/models/shieldgemma2/modeling_shieldgemma2.py +19 -21
transformers/models/shieldgemma2/processing_shieldgemma2.py +3 -5
transformers/models/siglip/configuration_siglip.py +4 -2
transformers/models/siglip/image_processing_siglip.py +17 -20
transformers/models/siglip/image_processing_siglip_fast.py +0 -1
transformers/models/siglip/modeling_siglip.py +65 -110
transformers/models/siglip/processing_siglip.py +2 -14
transformers/models/siglip/tokenization_siglip.py +6 -7
transformers/models/siglip2/__init__.py +1 -0
transformers/models/siglip2/configuration_siglip2.py +4 -2
transformers/models/siglip2/image_processing_siglip2.py +15 -16
transformers/models/siglip2/image_processing_siglip2_fast.py +6 -7
transformers/models/siglip2/modeling_siglip2.py +89 -130
transformers/models/siglip2/modular_siglip2.py +95 -48
transformers/models/siglip2/processing_siglip2.py +2 -14
transformers/models/siglip2/tokenization_siglip2.py +95 -0
transformers/models/smollm3/configuration_smollm3.py +29 -32
transformers/models/smollm3/modeling_smollm3.py +35 -38
transformers/models/smollm3/modular_smollm3.py +36 -38
transformers/models/smolvlm/configuration_smolvlm.py +2 -4
transformers/models/smolvlm/image_processing_smolvlm.py +42 -43
transformers/models/smolvlm/image_processing_smolvlm_fast.py +41 -15
transformers/models/smolvlm/modeling_smolvlm.py +124 -96
transformers/models/smolvlm/modular_smolvlm.py +50 -39
transformers/models/smolvlm/processing_smolvlm.py +15 -76
transformers/models/smolvlm/video_processing_smolvlm.py +16 -17
transformers/models/solar_open/__init__.py +27 -0
transformers/models/solar_open/configuration_solar_open.py +184 -0
transformers/models/solar_open/modeling_solar_open.py +642 -0
transformers/models/solar_open/modular_solar_open.py +224 -0
transformers/models/speech_encoder_decoder/configuration_speech_encoder_decoder.py +0 -1
transformers/models/speech_encoder_decoder/modeling_speech_encoder_decoder.py +26 -27
transformers/models/speech_to_text/configuration_speech_to_text.py +9 -9
transformers/models/speech_to_text/feature_extraction_speech_to_text.py +10 -13
transformers/models/speech_to_text/modeling_speech_to_text.py +55 -57
transformers/models/speech_to_text/processing_speech_to_text.py +4 -30
transformers/models/speech_to_text/tokenization_speech_to_text.py +5 -6
transformers/models/speecht5/configuration_speecht5.py +7 -9
transformers/models/speecht5/feature_extraction_speecht5.py +16 -37
transformers/models/speecht5/modeling_speecht5.py +172 -174
transformers/models/speecht5/number_normalizer.py +0 -1
transformers/models/speecht5/processing_speecht5.py +3 -37
transformers/models/speecht5/tokenization_speecht5.py +4 -5
transformers/models/splinter/configuration_splinter.py +6 -7
transformers/models/splinter/modeling_splinter.py +62 -59
transformers/models/splinter/tokenization_splinter.py +2 -4
transformers/models/squeezebert/configuration_squeezebert.py +14 -2
transformers/models/squeezebert/modeling_squeezebert.py +60 -62
transformers/models/squeezebert/tokenization_squeezebert.py +0 -1
transformers/models/stablelm/configuration_stablelm.py +28 -29
transformers/models/stablelm/modeling_stablelm.py +44 -47
transformers/models/starcoder2/configuration_starcoder2.py +30 -27
transformers/models/starcoder2/modeling_starcoder2.py +38 -41
transformers/models/starcoder2/modular_starcoder2.py +17 -19
transformers/models/superglue/configuration_superglue.py +7 -3
transformers/models/superglue/image_processing_superglue.py +15 -15
transformers/models/superglue/image_processing_superglue_fast.py +8 -8
transformers/models/superglue/modeling_superglue.py +41 -37
transformers/models/superpoint/image_processing_superpoint.py +15 -15
transformers/models/superpoint/image_processing_superpoint_fast.py +7 -9
transformers/models/superpoint/modeling_superpoint.py +17 -16
transformers/models/swiftformer/configuration_swiftformer.py +0 -1
transformers/models/swiftformer/modeling_swiftformer.py +12 -14
transformers/models/swin/configuration_swin.py +2 -5
transformers/models/swin/modeling_swin.py +69 -78
transformers/models/swin2sr/configuration_swin2sr.py +0 -1
transformers/models/swin2sr/image_processing_swin2sr.py +10 -13
transformers/models/swin2sr/image_processing_swin2sr_fast.py +4 -7
transformers/models/swin2sr/modeling_swin2sr.py +30 -30
transformers/models/swinv2/configuration_swinv2.py +2 -5
transformers/models/swinv2/modeling_swinv2.py +65 -74
transformers/models/switch_transformers/configuration_switch_transformers.py +11 -7
transformers/models/switch_transformers/modeling_switch_transformers.py +35 -36
transformers/models/switch_transformers/modular_switch_transformers.py +32 -33
transformers/models/t5/configuration_t5.py +9 -9
transformers/models/t5/modeling_t5.py +80 -85
transformers/models/t5/tokenization_t5.py +1 -3
transformers/models/t5gemma/configuration_t5gemma.py +43 -59
transformers/models/t5gemma/modeling_t5gemma.py +105 -108
transformers/models/t5gemma/modular_t5gemma.py +128 -142
transformers/models/t5gemma2/configuration_t5gemma2.py +86 -100
transformers/models/t5gemma2/modeling_t5gemma2.py +234 -194
transformers/models/t5gemma2/modular_t5gemma2.py +279 -264
transformers/models/table_transformer/configuration_table_transformer.py +18 -50
transformers/models/table_transformer/modeling_table_transformer.py +73 -101
transformers/models/tapas/configuration_tapas.py +12 -2
transformers/models/tapas/modeling_tapas.py +65 -67
transformers/models/tapas/tokenization_tapas.py +116 -153
transformers/models/textnet/configuration_textnet.py +4 -7
transformers/models/textnet/image_processing_textnet.py +22 -25
transformers/models/textnet/image_processing_textnet_fast.py +8 -9
transformers/models/textnet/modeling_textnet.py +28 -28
transformers/models/time_series_transformer/configuration_time_series_transformer.py +5 -8
transformers/models/time_series_transformer/modeling_time_series_transformer.py +82 -84
transformers/models/timesfm/configuration_timesfm.py +0 -1
transformers/models/timesfm/modeling_timesfm.py +22 -25
transformers/models/timesfm/modular_timesfm.py +21 -24
transformers/models/timesformer/configuration_timesformer.py +0 -1
transformers/models/timesformer/modeling_timesformer.py +13 -16
transformers/models/timm_backbone/configuration_timm_backbone.py +33 -8
transformers/models/timm_backbone/modeling_timm_backbone.py +25 -30
transformers/models/timm_wrapper/configuration_timm_wrapper.py +2 -3
transformers/models/timm_wrapper/image_processing_timm_wrapper.py +4 -5
transformers/models/timm_wrapper/modeling_timm_wrapper.py +22 -19
transformers/models/trocr/configuration_trocr.py +11 -8
transformers/models/trocr/modeling_trocr.py +42 -42
transformers/models/trocr/processing_trocr.py +5 -25
transformers/models/tvp/configuration_tvp.py +10 -36
transformers/models/tvp/image_processing_tvp.py +50 -52
transformers/models/tvp/image_processing_tvp_fast.py +15 -15
transformers/models/tvp/modeling_tvp.py +26 -28
transformers/models/tvp/processing_tvp.py +2 -14
transformers/models/udop/configuration_udop.py +16 -8
transformers/models/udop/modeling_udop.py +73 -72
transformers/models/udop/processing_udop.py +7 -26
transformers/models/udop/tokenization_udop.py +80 -93
transformers/models/umt5/configuration_umt5.py +8 -7
transformers/models/umt5/modeling_umt5.py +87 -84
transformers/models/unispeech/configuration_unispeech.py +4 -2
transformers/models/unispeech/modeling_unispeech.py +54 -53
transformers/models/unispeech/modular_unispeech.py +20 -22
transformers/models/unispeech_sat/configuration_unispeech_sat.py +4 -2
transformers/models/unispeech_sat/modeling_unispeech_sat.py +70 -69
transformers/models/unispeech_sat/modular_unispeech_sat.py +21 -23
transformers/models/univnet/feature_extraction_univnet.py +14 -14
transformers/models/univnet/modeling_univnet.py +7 -8
transformers/models/upernet/configuration_upernet.py +8 -36
transformers/models/upernet/modeling_upernet.py +11 -14
transformers/models/vaultgemma/__init__.py +0 -1
transformers/models/vaultgemma/configuration_vaultgemma.py +29 -33
transformers/models/vaultgemma/modeling_vaultgemma.py +38 -40
transformers/models/vaultgemma/modular_vaultgemma.py +29 -31
transformers/models/video_llama_3/configuration_video_llama_3.py +4 -0
transformers/models/video_llama_3/image_processing_video_llama_3.py +40 -40
transformers/models/video_llama_3/image_processing_video_llama_3_fast.py +12 -14
transformers/models/video_llama_3/modeling_video_llama_3.py +149 -112
transformers/models/video_llama_3/modular_video_llama_3.py +152 -150
transformers/models/video_llama_3/processing_video_llama_3.py +5 -39
transformers/models/video_llama_3/video_processing_video_llama_3.py +45 -24
transformers/models/video_llava/configuration_video_llava.py +4 -1
transformers/models/video_llava/image_processing_video_llava.py +35 -38
transformers/models/video_llava/modeling_video_llava.py +139 -143
transformers/models/video_llava/processing_video_llava.py +38 -78
transformers/models/video_llava/video_processing_video_llava.py +0 -1
transformers/models/videomae/configuration_videomae.py +0 -1
transformers/models/videomae/image_processing_videomae.py +31 -34
transformers/models/videomae/modeling_videomae.py +17 -20
transformers/models/videomae/video_processing_videomae.py +0 -1
transformers/models/vilt/configuration_vilt.py +4 -2
transformers/models/vilt/image_processing_vilt.py +29 -30
transformers/models/vilt/image_processing_vilt_fast.py +15 -16
transformers/models/vilt/modeling_vilt.py +103 -90
transformers/models/vilt/processing_vilt.py +2 -14
transformers/models/vipllava/configuration_vipllava.py +4 -1
transformers/models/vipllava/modeling_vipllava.py +92 -67
transformers/models/vipllava/modular_vipllava.py +78 -54
transformers/models/vision_encoder_decoder/configuration_vision_encoder_decoder.py +0 -1
transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py +28 -27
transformers/models/vision_text_dual_encoder/configuration_vision_text_dual_encoder.py +0 -1
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +45 -41
transformers/models/vision_text_dual_encoder/processing_vision_text_dual_encoder.py +2 -16
transformers/models/visual_bert/configuration_visual_bert.py +6 -2
transformers/models/visual_bert/modeling_visual_bert.py +90 -92
transformers/models/vit/configuration_vit.py +2 -3
transformers/models/vit/image_processing_vit.py +19 -22
transformers/models/vit/image_processing_vit_fast.py +0 -1
transformers/models/vit/modeling_vit.py +20 -20
transformers/models/vit_mae/configuration_vit_mae.py +0 -1
transformers/models/vit_mae/modeling_vit_mae.py +32 -30
transformers/models/vit_msn/configuration_vit_msn.py +0 -1
transformers/models/vit_msn/modeling_vit_msn.py +21 -19
transformers/models/vitdet/configuration_vitdet.py +2 -5
transformers/models/vitdet/modeling_vitdet.py +14 -17
transformers/models/vitmatte/configuration_vitmatte.py +7 -39
transformers/models/vitmatte/image_processing_vitmatte.py +15 -18
transformers/models/vitmatte/image_processing_vitmatte_fast.py +16 -17
transformers/models/vitmatte/modeling_vitmatte.py +10 -12
transformers/models/vitpose/configuration_vitpose.py +7 -47
transformers/models/vitpose/image_processing_vitpose.py +24 -25
transformers/models/vitpose/image_processing_vitpose_fast.py +9 -10
transformers/models/vitpose/modeling_vitpose.py +15 -15
transformers/models/vitpose_backbone/configuration_vitpose_backbone.py +2 -5
transformers/models/vitpose_backbone/modeling_vitpose_backbone.py +13 -16
transformers/models/vits/configuration_vits.py +4 -1
transformers/models/vits/modeling_vits.py +43 -42
transformers/models/vits/tokenization_vits.py +3 -4
transformers/models/vivit/configuration_vivit.py +0 -1
transformers/models/vivit/image_processing_vivit.py +36 -39
transformers/models/vivit/modeling_vivit.py +9 -11
transformers/models/vjepa2/__init__.py +0 -1
transformers/models/vjepa2/configuration_vjepa2.py +0 -1
transformers/models/vjepa2/modeling_vjepa2.py +39 -41
transformers/models/vjepa2/video_processing_vjepa2.py +0 -1
transformers/models/voxtral/__init__.py +0 -1
transformers/models/voxtral/configuration_voxtral.py +0 -2
transformers/models/voxtral/modeling_voxtral.py +41 -48
transformers/models/voxtral/modular_voxtral.py +35 -38
transformers/models/voxtral/processing_voxtral.py +25 -48
transformers/models/wav2vec2/configuration_wav2vec2.py +4 -2
transformers/models/wav2vec2/feature_extraction_wav2vec2.py +7 -10
transformers/models/wav2vec2/modeling_wav2vec2.py +74 -126
transformers/models/wav2vec2/processing_wav2vec2.py +6 -35
transformers/models/wav2vec2/tokenization_wav2vec2.py +20 -332
transformers/models/wav2vec2_bert/configuration_wav2vec2_bert.py +4 -2
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +49 -52
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +45 -48
transformers/models/wav2vec2_bert/processing_wav2vec2_bert.py +6 -35
transformers/models/wav2vec2_conformer/configuration_wav2vec2_conformer.py +4 -2
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +62 -65
transformers/models/wav2vec2_conformer/modular_wav2vec2_conformer.py +15 -18
transformers/models/wav2vec2_phoneme/tokenization_wav2vec2_phoneme.py +16 -17
transformers/models/wav2vec2_with_lm/processing_wav2vec2_with_lm.py +36 -55
transformers/models/wavlm/configuration_wavlm.py +4 -2
transformers/models/wavlm/modeling_wavlm.py +49 -49
transformers/models/wavlm/modular_wavlm.py +4 -5
transformers/models/whisper/configuration_whisper.py +6 -5
transformers/models/whisper/english_normalizer.py +3 -4
transformers/models/whisper/feature_extraction_whisper.py +9 -24
transformers/models/whisper/generation_whisper.py +26 -49
transformers/models/whisper/modeling_whisper.py +71 -73
transformers/models/whisper/processing_whisper.py +3 -20
transformers/models/whisper/tokenization_whisper.py +9 -30
transformers/models/x_clip/configuration_x_clip.py +4 -2
transformers/models/x_clip/modeling_x_clip.py +94 -96
transformers/models/x_clip/processing_x_clip.py +2 -14
transformers/models/xcodec/configuration_xcodec.py +4 -6
transformers/models/xcodec/modeling_xcodec.py +15 -17
transformers/models/xglm/configuration_xglm.py +9 -8
transformers/models/xglm/modeling_xglm.py +49 -55
transformers/models/xglm/tokenization_xglm.py +1 -4
transformers/models/xlm/configuration_xlm.py +10 -8
transformers/models/xlm/modeling_xlm.py +127 -131
transformers/models/xlm/tokenization_xlm.py +3 -5
transformers/models/xlm_roberta/configuration_xlm_roberta.py +11 -3
transformers/models/xlm_roberta/modeling_xlm_roberta.py +96 -98
transformers/models/xlm_roberta/modular_xlm_roberta.py +50 -53
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +1 -4
transformers/models/xlm_roberta_xl/configuration_xlm_roberta_xl.py +10 -2
transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py +97 -99
transformers/models/xlm_roberta_xl/modular_xlm_roberta_xl.py +67 -70
transformers/models/xlnet/configuration_xlnet.py +3 -12
transformers/models/xlnet/modeling_xlnet.py +149 -162
transformers/models/xlnet/tokenization_xlnet.py +1 -4
transformers/models/xlstm/configuration_xlstm.py +8 -12
transformers/models/xlstm/modeling_xlstm.py +61 -96
transformers/models/xmod/configuration_xmod.py +11 -3
transformers/models/xmod/modeling_xmod.py +111 -116
transformers/models/yolos/configuration_yolos.py +0 -1
transformers/models/yolos/image_processing_yolos.py +60 -62
transformers/models/yolos/image_processing_yolos_fast.py +42 -45
transformers/models/yolos/modeling_yolos.py +19 -21
transformers/models/yolos/modular_yolos.py +17 -19
transformers/models/yoso/configuration_yoso.py +8 -2
transformers/models/yoso/modeling_yoso.py +60 -62
transformers/models/youtu/__init__.py +27 -0
transformers/models/youtu/configuration_youtu.py +194 -0
transformers/models/youtu/modeling_youtu.py +619 -0
transformers/models/youtu/modular_youtu.py +254 -0
transformers/models/zamba/configuration_zamba.py +5 -8
transformers/models/zamba/modeling_zamba.py +93 -125
transformers/models/zamba2/configuration_zamba2.py +44 -50
transformers/models/zamba2/modeling_zamba2.py +137 -165
transformers/models/zamba2/modular_zamba2.py +79 -74
transformers/models/zoedepth/configuration_zoedepth.py +17 -41
transformers/models/zoedepth/image_processing_zoedepth.py +28 -29
transformers/models/zoedepth/image_processing_zoedepth_fast.py +20 -21
transformers/models/zoedepth/modeling_zoedepth.py +19 -19
transformers/pipelines/__init__.py +47 -106
transformers/pipelines/any_to_any.py +15 -23
transformers/pipelines/audio_utils.py +1 -2
transformers/pipelines/automatic_speech_recognition.py +0 -2
transformers/pipelines/base.py +13 -17
transformers/pipelines/image_text_to_text.py +1 -2
transformers/pipelines/question_answering.py +4 -43
transformers/pipelines/text_classification.py +1 -14
transformers/pipelines/text_to_audio.py +5 -1
transformers/pipelines/token_classification.py +1 -22
transformers/pipelines/video_classification.py +1 -9
transformers/pipelines/zero_shot_audio_classification.py +0 -1
transformers/pipelines/zero_shot_classification.py +0 -6
transformers/pipelines/zero_shot_image_classification.py +0 -7
transformers/processing_utils.py +128 -137
transformers/pytorch_utils.py +2 -26
transformers/quantizers/base.py +10 -0
transformers/quantizers/quantizer_compressed_tensors.py +7 -5
transformers/quantizers/quantizer_fbgemm_fp8.py +20 -23
transformers/quantizers/quantizer_finegrained_fp8.py +14 -20
transformers/quantizers/quantizer_mxfp4.py +1 -1
transformers/quantizers/quantizer_quark.py +0 -1
transformers/quantizers/quantizer_torchao.py +3 -19
transformers/safetensors_conversion.py +11 -4
transformers/testing_utils.py +6 -65
transformers/tokenization_mistral_common.py +563 -903
transformers/tokenization_python.py +6 -4
transformers/tokenization_utils_base.py +228 -341
transformers/tokenization_utils_sentencepiece.py +5 -6
transformers/tokenization_utils_tokenizers.py +36 -7
transformers/trainer.py +30 -41
transformers/trainer_jit_checkpoint.py +1 -2
transformers/trainer_seq2seq.py +1 -1
transformers/training_args.py +414 -420
transformers/utils/__init__.py +1 -4
transformers/utils/attention_visualizer.py +1 -1
transformers/utils/auto_docstring.py +567 -18
transformers/utils/backbone_utils.py +13 -373
transformers/utils/doc.py +4 -36
transformers/utils/dummy_pt_objects.py +0 -42
transformers/utils/generic.py +70 -34
transformers/utils/import_utils.py +72 -75
transformers/utils/loading_report.py +135 -107
transformers/utils/quantization_config.py +8 -31
transformers/video_processing_utils.py +24 -25
transformers/video_utils.py +21 -23
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/METADATA +120 -239
transformers-5.1.0.dist-info/RECORD +2092 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/WHEEL +1 -1
transformers/pipelines/deprecated/text2text_generation.py +0 -408
transformers/pipelines/image_to_text.py +0 -229
transformers-5.0.0rc2.dist-info/RECORD +0 -2042
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/licenses/LICENSE +0 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/top_level.txt +0 -0

transformers/models/lw_detr/modular_lw_detr.py ADDED Viewed

@@ -0,0 +1,1609 @@
+# Copyright 2026 The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import math
+from collections.abc import Callable
+from dataclasses import dataclass
+from typing import Any
+import torch
+from torch import nn
+from ... import initialization as init
+from ...activations import ACT2FN
+from ...backbone_utils import consolidate_backbone_kwargs_to_config
+from ...configuration_utils import PreTrainedConfig
+from ...modeling_layers import GradientCheckpointingLayer
+from ...modeling_outputs import BackboneOutput
+from ...modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
+from ...processing_utils import Unpack
+from ...pytorch_utils import meshgrid
+from ...utils import ModelOutput, TransformersKwargs, auto_docstring, logging
+from ...utils.generic import check_model_inputs
+from ..auto import AutoConfig
+from ..convnext.modeling_convnext import ConvNextLayerNorm
+from ..dab_detr.modeling_dab_detr import gen_sine_position_embeddings
+from ..deformable_detr.modeling_deformable_detr import (
+    DeformableDetrDecoderOutput,
+    DeformableDetrForObjectDetection,
+    DeformableDetrMLPPredictionHead,
+    DeformableDetrModel,
+    DeformableDetrMultiscaleDeformableAttention,
+)
+from ..llama.modeling_llama import eager_attention_forward
+from ..rt_detr.modeling_rt_detr import RTDetrConvNormLayer
+from ..vit.modeling_vit import ViTAttention, ViTEncoder, ViTSelfAttention
+from ..vitdet.configuration_vitdet import VitDetConfig
+from ..vitdet.modeling_vitdet import (
+    VitDetBackbone,
+    VitDetEmbeddings,
+    VitDetMlp,
+    VitDetPreTrainedModel,
+)
+logger = logging.get_logger(__name__)
+class LwDetrViTConfig(VitDetConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`LwDetrViTModel`]. It is used to instantiate an
+    LW-DETR ViT model according to the specified arguments, defining the model architecture. Instantiating a configuration
+    with the defaults will yield a similar configuration to that of the LW-DETR ViT
+    [AnnaZhang/lwdetr_small_60e_coco](https://huggingface.co/AnnaZhang/lwdetr_small_60e_coco) architecture.
+    LW-DETR ViT is the Vision Transformer backbone used in the LW-DETR model for real-time object detection. It features
+    interleaved window and global attention mechanisms to reduce computational complexity while maintaining high performance.
+    The model uses a window-major feature map organization for efficient attention computation.
+    Configuration objects inherit from [`VitDetConfig`] and can be used to control the model outputs. Read the
+    documentation from [`VitDetConfig`] for more information.
+    Args:
+        hidden_size (`int`, *optional*, defaults to 768):
+            Dimensionality of the encoder layers and the pooler layer.
+        num_hidden_layers (`int`, *optional*, defaults to 12):
+            Number of hidden layers in the Transformer encoder.
+        num_attention_heads (`int`, *optional*, defaults to 12):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        mlp_ratio (`int`, *optional*, defaults to 4):
+            Ratio of mlp hidden dim to embedding dim.
+        hidden_act (`str` or `function`, *optional*, defaults to `"gelu"`):
+            The non-linear activation function (function or string) in the encoder and pooler. If string, `"gelu"`,
+            `"relu"`, `"selu"` and `"gelu_new"` are supported.
+        dropout_prob (`float`, *optional*, defaults to 0.0):
+            The dropout probability for all fully connected layers in the embeddings, encoder, and pooler.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        layer_norm_eps (`float`, *optional*, defaults to 1e-06):
+            The epsilon used by the layer normalization layers.
+        image_size (`int`, *optional*, defaults to 256):
+            The size (resolution) of each image.
+        pretrain_image_size (`int`, *optional*, defaults to 224):
+            The size (resolution) of each image during pretraining.
+        patch_size (`int`, *optional*, defaults to 16):
+            The size (resolution) of each patch.
+        num_channels (`int`, *optional*, defaults to 3):
+            The number of input channels.
+        qkv_bias (`bool`, *optional*, defaults to `True`):
+            Whether to add a bias to the queries, keys and values.
+        window_block_indices (`list[int]`, *optional*, defaults to `[]`):
+            List of indices of blocks that should have window attention instead of regular global self-attention.
+        use_absolute_position_embeddings (`bool`, *optional*, defaults to `True`):
+            Whether to add absolute position embeddings to the patch embeddings.
+        out_features (`list[str]`, *optional*):
+            If used as backbone, list of features to output. Can be any of `"stem"`, `"stage1"`, `"stage2"`, etc.
+            (depending on how many stages the model has). If unset and `out_indices` is set, will default to the
+            corresponding stages. If unset and `out_indices` is unset, will default to the last stage. Must be in the
+            same order as defined in the `stage_names` attribute.
+        out_indices (`list[int]`, *optional*):
+            If used as backbone, list of indices of features to output. Can be any of 0, 1, 2, etc. (depending on how
+            many stages the model has). If unset and `out_features` is set, will default to the corresponding stages.
+            If unset and `out_features` is unset, will default to the last stage. Must be in the
+            same order as defined in the `stage_names` attribute.
+        cae_init_values (`float`, *optional*, defaults to 0.1):
+            Initialization value for CAE parameters when `use_cae` is enabled.
+        num_windows (`int`, *optional*, defaults to 16):
+            Number of windows for window-based attention. Must be a perfect square and the image size must be
+            divisible by the square root of this value. This enables efficient window-major feature map organization.
+    Example:
+    ```python
+    >>> from transformers import LwDetrViTConfig, LwDetrViTModel
+    >>> # Initializing a LW-DETR ViT configuration
+    >>> configuration = LwDetrViTConfig()
+    >>> # Initializing a model (with random weights) from the configuration
+    >>> model = LwDetrViTModel(configuration)
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+    model_type = "lw_detr_vit"
+    def __init__(
+        self,
+        hidden_size=768,
+        num_hidden_layers=12,
+        num_attention_heads=12,
+        mlp_ratio=4,
+        hidden_act="gelu",
+        dropout_prob=0.0,
+        initializer_range=0.02,
+        layer_norm_eps=1e-6,
+        image_size=256,
+        pretrain_image_size=224,
+        patch_size=16,
+        num_channels=3,
+        qkv_bias=True,
+        window_block_indices=[],
+        use_absolute_position_embeddings=True,
+        out_features=None,
+        out_indices=None,
+        cae_init_values: float = 0.1,
+        num_windows=16,
+        **kwargs,
+    ):
+        super().__init__(
+            hidden_size=hidden_size,
+            num_hidden_layers=num_hidden_layers,
+            num_attention_heads=num_attention_heads,
+            mlp_ratio=mlp_ratio,
+            hidden_act=hidden_act,
+            dropout_prob=dropout_prob,
+            initializer_range=initializer_range,
+            layer_norm_eps=layer_norm_eps,
+            image_size=image_size,
+            pretrain_image_size=pretrain_image_size,
+            patch_size=patch_size,
+            num_channels=num_channels,
+            qkv_bias=qkv_bias,
+            window_block_indices=window_block_indices,
+            use_absolute_position_embeddings=use_absolute_position_embeddings,
+            out_features=out_features,
+            out_indices=out_indices,
+            **kwargs,
+        )
+        del self.residual_block_indices
+        del self.use_relative_position_embeddings
+        del self.window_size
+        del self.drop_path_rate
+        self.cae_init_values = cae_init_values
+        if num_windows % math.sqrt(num_windows) != 0:
+            raise ValueError(
+                f"`num_windows` has to be a perfect square, where num_windows % math.sqrt(num_windows) != 0, but got {num_windows}."
+            )
+        if image_size / num_windows % math.sqrt(num_windows) != 0:
+            raise ValueError(
+                f"`image_size` has to be divisible by `num_windows`, where image_size / num_windows % math.sqrt(num_windows) != 0,but got {image_size} and {num_windows}."
+            )
+        self.num_windows = num_windows
+        self.num_windows_side = int(math.sqrt(num_windows))
+class LwDetrConfig(PreTrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`LwDetrModel`]. It is used to instantiate
+    a LW-DETR model according to the specified arguments, defining the model architecture. Instantiating a
+    configuration with the defaults will yield a similar configuration to that of the LW-DETR
+    [AnnaZhang/lwdetr_small_60e_coco](https://huggingface.co/AnnaZhang/lwdetr_small_60e_coco) architecture.
+    LW-DETR (Lightweight Detection Transformer) is a transformer-based object detection model designed for real-time
+    detection tasks. It replaces traditional CNN-based detectors like YOLO with a more efficient transformer architecture
+    that achieves competitive performance while being computationally lightweight.
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+    Args:
+        backbone_config (`PretrainedConfig` or `dict`, *optional*):
+            The configuration of the backbone model. If not provided, will default to `LwDetrViTConfig` with
+            a small ViT architecture optimized for detection tasks.
+        projector_scale_factors (`list[float]`, *optional*, defaults to `[]`):
+            Scale factors for the feature pyramid network. Each scale factor determines the resolution of features
+            at different levels. Supported values are 0.5, 1.0, and 2.0.
+        hidden_expansion (`float`, *optional*, defaults to 0.5):
+            Expansion factor for hidden dimensions in the projector layers.
+        c2f_num_blocks (`int`, *optional*, defaults to 3):
+            Number of blocks in the C2F layer.
+        activation_function (`str`, *optional*, defaults to `"silu"`):
+            The non-linear activation function in the projector. Supported values are `"silu"`, `"relu"`, `"gelu"`.
+        batch_norm_eps (`float`, *optional*, defaults to 1e-05):
+            The epsilon value for batch normalization layers.
+        d_model (`int`, *optional*, defaults to 256):
+            Dimension of the model layers and the number of expected features in the decoder inputs.
+        dropout (`float`, *optional*, defaults to 0.1):
+            The dropout probability for all fully connected layers in the embeddings, encoder, and pooler.
+        decoder_ffn_dim (`int`, *optional*, defaults to 2048):
+            Dimension of the "intermediate" (often named feed-forward) layer in decoder.
+        decoder_n_points (`int`, *optional*, defaults to 4):
+            The number of sampled keys in each feature level for each attention head in the decoder.
+        decoder_layers (`int`, *optional*, defaults to 3):
+            Number of decoder layers in the transformer.
+        decoder_self_attention_heads (`int`, *optional*, defaults to 8):
+            Number of attention heads for each attention layer in the decoder self-attention.
+        decoder_cross_attention_heads (`int`, *optional*, defaults to 16):
+            Number of attention heads for each attention layer in the decoder cross-attention.
+        decoder_activation_function (`str`, *optional*, defaults to `"relu"`):
+            The non-linear activation function in the decoder. Supported values are `"relu"`, `"silu"`, `"gelu"`.
+        num_queries (`int`, *optional*, defaults to 300):
+            Number of object queries, i.e. detection slots. This is the maximal number of objects
+            [`LwDetrModel`] can detect in a single image.
+        attention_bias (`bool`, *optional*, defaults to `True`):
+            Whether to add bias to the attention layers.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+        activation_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for activations inside the fully connected layer.
+        group_detr (`int`, *optional*, defaults to 13):
+            Number of groups for Group DETR attention mechanism, which helps reduce computational complexity.
+        init_std (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        disable_custom_kernels (`bool`, *optional*, defaults to `True`):
+            Disable the use of custom CUDA and CPU kernels. This option is necessary for the ONNX export, as custom
+            kernels are not supported by PyTorch ONNX export.
+        class_cost (`float`, *optional*, defaults to 2):
+            Relative weight of the classification error in the Hungarian matching cost.
+        bbox_cost (`float`, *optional*, defaults to 5):
+            Relative weight of the L1 error of the bounding box coordinates in the Hungarian matching cost.
+        giou_cost (`float`, *optional*, defaults to 2):
+            Relative weight of the generalized IoU loss of the bounding box in the Hungarian matching cost.
+        mask_loss_coefficient (`float`, *optional*, defaults to 1):
+            Relative weight of the Focal loss in the panoptic segmentation loss.
+        dice_loss_coefficient (`float`, *optional*, defaults to 1):
+            Relative weight of the DICE/F-1 loss in the panoptic segmentation loss.
+        bbox_loss_coefficient (`float`, *optional*, defaults to 5):
+            Relative weight of the L1 bounding box loss in the object detection loss.
+        giou_loss_coefficient (`float`, *optional*, defaults to 2):
+            Relative weight of the generalized IoU loss in the object detection loss.
+        eos_coefficient (`float`, *optional*, defaults to 0.1):
+            Relative classification weight of the 'no-object' class in the object detection loss.
+        focal_alpha (`float`, *optional*, defaults to 0.25):
+            Alpha parameter in the focal loss.
+        auxiliary_loss (`bool`, *optional*, defaults to `True`):
+            Whether auxiliary decoding losses (loss at each decoder layer) are to be used.
+    Examples:
+    ```python
+    >>> from transformers import LwDetrConfig, LwDetrModel
+    >>> # Initializing a LW-DETR AnnaZhang/lwdetr_small_60e_coco style configuration
+    >>> configuration = LwDetrConfig()
+    >>> # Initializing a model (with random weights) from the AnnaZhang/lwdetr_small_60e_coco style configuration
+    >>> model = LwDetrModel(configuration)
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+    model_type = "lw_detr"
+    sub_configs = {"backbone_config": AutoConfig}
+    def __init__(
+        self,
+        # backbone
+        backbone_config=None,
+        # projector
+        projector_scale_factors: list[float] = [],
+        hidden_expansion=0.5,
+        c2f_num_blocks=3,
+        activation_function="silu",
+        batch_norm_eps=1e-5,
+        # decoder
+        d_model=256,
+        dropout=0.1,
+        decoder_ffn_dim=2048,
+        decoder_n_points=4,
+        decoder_layers: int = 3,
+        decoder_self_attention_heads: int = 8,
+        decoder_cross_attention_heads: int = 16,
+        decoder_activation_function="relu",
+        # model
+        num_queries=300,
+        attention_bias=True,
+        attention_dropout=0.0,
+        activation_dropout=0.0,
+        group_detr: int = 13,
+        init_std=0.02,
+        disable_custom_kernels=True,
+        # loss
+        class_cost=2,
+        bbox_cost=5,
+        giou_cost=2,
+        mask_loss_coefficient=1,
+        dice_loss_coefficient=1,
+        bbox_loss_coefficient=5,
+        giou_loss_coefficient=2,
+        eos_coefficient=0.1,
+        focal_alpha=0.25,
+        auxiliary_loss=True,
+        **kwargs,
+    ):
+        self.batch_norm_eps = batch_norm_eps
+        backbone_config, kwargs = consolidate_backbone_kwargs_to_config(
+            backbone_config=backbone_config,
+            default_config_type="lw_detr_vit",
+            default_config_kwargs={
+                "image_size": 1024,
+                "hidden_size": 192,
+                "num_hidden_layers": 10,
+                "window_block_indices": [0, 1, 3, 6, 7, 9],
+                "out_indices": [2, 4, 5, 9],
+            },
+            **kwargs,
+        )
+        self.backbone_config = backbone_config
+        # projector
+        self.projector_scale_factors = projector_scale_factors
+        for scale in projector_scale_factors:
+            if scale not in [0.5, 1.0, 2.0]:
+                raise ValueError(f"Unsupported scale factor: {scale}")
+        self.projector_in_channels = [d_model] * len(projector_scale_factors)
+        self.projector_out_channels = d_model
+        self.activation_function = activation_function
+        self.hidden_expansion = hidden_expansion
+        self.c2f_num_blocks = c2f_num_blocks
+        # decoder
+        self.d_model = d_model
+        self.dropout = dropout
+        self.num_queries = num_queries
+        self.decoder_ffn_dim = decoder_ffn_dim
+        self.num_feature_levels = len(self.projector_scale_factors)
+        self.decoder_n_points = decoder_n_points
+        self.decoder_layers = decoder_layers
+        self.decoder_activation_function = decoder_activation_function
+        self.decoder_self_attention_heads = decoder_self_attention_heads
+        self.decoder_cross_attention_heads = decoder_cross_attention_heads
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+        self.activation_dropout = activation_dropout
+        # model
+        self.init_std = init_std
+        self.group_detr = group_detr
+        # Loss
+        self.auxiliary_loss = auxiliary_loss
+        # Hungarian matcher
+        self.class_cost = class_cost
+        self.bbox_cost = bbox_cost
+        self.giou_cost = giou_cost
+        # Loss coefficients
+        self.dice_loss_coefficient = dice_loss_coefficient
+        self.bbox_loss_coefficient = bbox_loss_coefficient
+        self.giou_loss_coefficient = giou_loss_coefficient
+        self.eos_coefficient = eos_coefficient
+        self.focal_alpha = focal_alpha
+        self.disable_custom_kernels = disable_custom_kernels
+        super().__init__(**kwargs)
+class LwDetrViTSelfAttention(ViTSelfAttention):
+    def __init__(self, config: LwDetrViTConfig):
+        super().__init__(config)
+        del self.key
+        self.key = nn.Linear(config.hidden_size, self.all_head_size, bias=False)
+        self.num_key_value_groups = 1
+        self.dropout_prob = config.dropout_prob
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        batch_size = hidden_states.shape[0]
+        new_shape = batch_size, -1, self.num_attention_heads, self.attention_head_size
+        key_layer = self.key(hidden_states).view(*new_shape).transpose(1, 2)
+        value_layer = self.value(hidden_states).view(*new_shape).transpose(1, 2)
+        query_layer = self.query(hidden_states).view(*new_shape).transpose(1, 2)
+        attention_interface: Callable = ALL_ATTENTION_FUNCTIONS.get_interface(
+            self.config._attn_implementation, eager_attention_forward
+        )
+        context_layer, attention_probs = attention_interface(
+            self,
+            query_layer,
+            key_layer,
+            value_layer,
+            None,
+            is_causal=self.is_causal,
+            scaling=self.scaling,
+            dropout=0.0 if not self.training else self.dropout_prob,
+            **kwargs,
+        )
+        new_context_layer_shape = context_layer.size()[:-2] + (self.all_head_size,)
+        context_layer = context_layer.reshape(new_context_layer_shape)
+        return context_layer, attention_probs
+class LwDetrViTAttention(ViTAttention):
+    def __init__(self, config: LwDetrViTConfig):
+        """
+        Args:
+            config (`LwDetrViTConfig`):
+                Model configuration.
+        """
+        super().__init__(config)
+        self.attention = LwDetrViTSelfAttention(config)
+        self.output = nn.Linear(config.hidden_size, config.hidden_size)
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> torch.Tensor:
+        self_attn_output, _ = self.attention(hidden_states, **kwargs)
+        output = self.output(self_attn_output)
+        return output
+class LwDetrViTMlp(VitDetMlp):
+    pass
+class LwDetrViTLayer(GradientCheckpointingLayer):
+    def __init__(
+        self,
+        config: LwDetrViTConfig,
+        layer_idx,
+    ) -> None:
+        super().__init__()
+        dim = config.hidden_size
+        self.attention = LwDetrViTAttention(config)
+        self.intermediate = LwDetrViTMlp(config=config, in_features=dim, hidden_features=int(dim * config.mlp_ratio))
+        self.layernorm_before = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.layernorm_after = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.gamma_1 = nn.Parameter(torch.Tensor(dim), requires_grad=True)
+        self.gamma_2 = nn.Parameter(torch.Tensor(dim), requires_grad=True)
+        self.window = layer_idx in config.window_block_indices
+        self.num_windows = config.num_windows
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> torch.Tensor:
+        batch_size, seq_len, channels = hidden_states.shape
+        hidden_states_norm = self.layernorm_before(hidden_states)
+        if not self.window:
+            hidden_states_norm = hidden_states_norm.reshape(
+                batch_size // self.num_windows, self.num_windows * seq_len, channels
+            )
+        attention_output = self.attention(hidden_states_norm, **kwargs)
+        attention_output = attention_output * self.gamma_1
+        if not self.window:
+            attention_output = attention_output.reshape(batch_size, seq_len, channels)
+        hidden_states = hidden_states + attention_output
+        layer_output = self.layernorm_after(hidden_states)
+        layer_output = self.intermediate(layer_output)
+        layer_output = layer_output * self.gamma_2
+        hidden_states = hidden_states + layer_output
+        return hidden_states
+class LwDetrViTEncoder(ViTEncoder):
+    def __init__(self, config: LwDetrViTConfig) -> None:
+        super().__init__(config)
+        self.layer = nn.ModuleList([LwDetrViTLayer(config, i) for i in range(config.num_hidden_layers)])
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> list[torch.Tensor]:
+        list_hidden_states = [hidden_states]
+        for i, layer_module in enumerate(self.layer):
+            hidden_states = layer_module(hidden_states, **kwargs)
+            list_hidden_states.append(hidden_states)
+        return list_hidden_states
+class LwDetrViTEmbeddings(VitDetEmbeddings):
+    pass
+class LwDetrViTPreTrainedModel(VitDetPreTrainedModel):
+    config: LwDetrViTConfig
+    base_model_prefix = "lw_detr_vit"
+    main_input_name = "pixel_values"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["LwDetrViTEmbeddings", "LwDetrViTLayer"]
+    _supports_sdpa = True
+    _supports_flash_attn = True
+    _supports_flex_attn = True
+    _supports_attention_backend = True
+    _can_record_outputs = {
+        "hidden_states": LwDetrViTLayer,
+        "attentions": LwDetrViTSelfAttention,
+    }
+    def _init_weights(self, module) -> None:
+        """Initialize the weights"""
+        if isinstance(module, (nn.Linear, nn.Conv2d)):
+            init.trunc_normal_(module.weight, mean=0.0, std=self.config.initializer_range)
+            if module.bias is not None:
+                init.zeros_(module.bias)
+        elif isinstance(module, nn.LayerNorm):
+            init.zeros_(module.bias)
+            init.ones_(module.weight)
+        elif isinstance(module, LwDetrViTEmbeddings):
+            init.trunc_normal_(module.position_embeddings, mean=0.0, std=self.config.initializer_range)
+        if isinstance(module, LwDetrViTLayer):
+            nn.init.constant_(module.gamma_1, self.config.cae_init_values)
+            nn.init.constant_(module.gamma_2, self.config.cae_init_values)
+@auto_docstring()
+class LwDetrViTBackbone(VitDetBackbone):
+    @check_model_inputs
+    @auto_docstring
+    def forward(self, pixel_values: torch.Tensor, **kwargs: Unpack[TransformersKwargs]) -> BackboneOutput:
+        r"""
+        Examples:
+        ```python
+        >>> from transformers import LwDetrViTConfig, LwDetrViTBackbone
+        >>> import torch
+        >>> config = LwDetrViTConfig()
+        >>> model = LwDetrViTBackbone(config)
+        >>> pixel_values = torch.randn(1, 3, 224, 224)
+        >>> with torch.no_grad():
+        ...     outputs = model(pixel_values)
+        >>> feature_maps = outputs.feature_maps
+        >>> list(feature_maps[-1].shape)
+        [1, 768, 14, 14]
+        ```"""
+        embedding_output = self.embeddings(pixel_values)
+        batch_size, channels, height, width = embedding_output.shape
+        # (batch_size, channels, height, width) -> (batch_size, height, width, channels)
+        hidden_states = embedding_output.permute(0, 2, 3, 1)
+        window_height = height // self.config.num_windows_side
+        window_width = width // self.config.num_windows_side
+        # (batch_size, height, width, channels) -> (batch_size*num_windows_side**2, window_height*window_width, channels)
+        hidden_states = (
+            hidden_states.reshape(
+                batch_size,
+                self.config.num_windows_side,
+                window_height,
+                self.config.num_windows_side,
+                window_width,
+                channels,
+            )
+            .permute(0, 1, 3, 2, 4, 5)
+            .reshape(batch_size * self.config.num_windows_side**2, window_height * window_width, channels)
+        )
+        hidden_states = self.encoder(hidden_states, **kwargs)
+        feature_maps = ()
+        for stage, hidden_state in zip(self.stage_names, hidden_states):
+            if stage in self.out_features:
+                hidden_state = (
+                    hidden_state.reshape(
+                        batch_size,
+                        self.config.num_windows_side,
+                        self.config.num_windows_side,
+                        window_height,
+                        window_width,
+                        channels,
+                    )
+                    .permute(0, 5, 1, 3, 2, 4)
+                    .reshape(batch_size, channels, height, width)
+                )
+                feature_maps += (hidden_state,)
+        return BackboneOutput(feature_maps=feature_maps)
+class LwDetrConvNormLayer(RTDetrConvNormLayer):
+    def __init__(
+        self,
+        config: LwDetrConfig,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int,
+        activation: str | None = None,
+    ):
+        super().__init__(config, in_channels, out_channels, kernel_size, stride, activation)
+        self.conv = nn.Conv2d(
+            in_channels,
+            out_channels,
+            kernel_size,
+            stride,
+            padding=kernel_size // 2,
+            bias=False,
+        )
+class LwDetrRepVggBlock(nn.Module):
+    def __init__(self, config: LwDetrConfig):
+        super().__init__()
+        hidden_channels = int(config.d_model * config.hidden_expansion)
+        self.conv1 = LwDetrConvNormLayer(
+            config, hidden_channels, hidden_channels, 3, 1, activation=config.activation_function
+        )
+        self.conv2 = LwDetrConvNormLayer(
+            config, hidden_channels, hidden_channels, 3, 1, activation=config.activation_function
+        )
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        y = self.conv1(x)
+        y = self.conv2(y)
+        return y
+class LwDetrC2FLayer(nn.Module):
+    # Inspired by RTDetrCSPRepLayer
+    def __init__(self, config: LwDetrConfig, in_channels: int):
+        super().__init__()
+        num_blocks = config.c2f_num_blocks
+        activation = config.activation_function
+        out_channels = config.d_model
+        self.hidden_channels = int(out_channels * config.hidden_expansion)
+        conv1_out_channels = 2 * self.hidden_channels
+        self.conv1 = LwDetrConvNormLayer(config, in_channels, conv1_out_channels, 1, 1, activation=activation)
+        conv2_in_channels = (2 + num_blocks) * self.hidden_channels
+        self.conv2 = LwDetrConvNormLayer(config, conv2_in_channels, out_channels, 1, 1, activation=activation)
+        self.bottlenecks = nn.ModuleList(LwDetrRepVggBlock(config) for _ in range(num_blocks))
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.conv1(hidden_states)
+        all_hidden_states = list(hidden_states.split(self.hidden_channels, 1))
+        hidden_states = all_hidden_states[-1]
+        for bottleneck in self.bottlenecks:
+            hidden_states = bottleneck(hidden_states)
+            all_hidden_states.append(hidden_states)
+        hidden_states = torch.cat(all_hidden_states, 1)
+        hidden_states = self.conv2(hidden_states)
+        return hidden_states
+class LwDetrLayerNorm(ConvNextLayerNorm):
+    pass
+class LwDetrSamplingLayer(nn.Module):
+    def __init__(self, config: LwDetrConfig, channel_size: int, scale: float):
+        super().__init__()
+        self.scale = scale
+        self.channel_size = channel_size
+        layers = []
+        if scale == 2.0:
+            if channel_size > 512:
+                layers.append(LwDetrConvNormLayer(config, channel_size, channel_size // 2, 1, 1, activation="relu"))
+                layers.append(nn.ConvTranspose2d(channel_size // 2, channel_size // 4, kernel_size=2, stride=2))
+            else:
+                layers.append(nn.ConvTranspose2d(channel_size, channel_size // 2, 2, 2))
+        elif scale == 0.5:
+            layers.append(LwDetrConvNormLayer(config, channel_size, channel_size, 3, 2, activation="relu"))
+        self.layers = nn.ModuleList(layers)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        for layer in self.layers:
+            hidden_states = layer(hidden_states)
+        return hidden_states
+class LwDetrScaleProjector(nn.Module):
+    def __init__(self, config: LwDetrConfig, scale: float):
+        super().__init__()
+        intermediate_dims = [config.backbone_config.hidden_size] * len(config.backbone_config.out_indices)
+        sampling_layers = []
+        for channel_size in intermediate_dims:
+            sampling_layers.append(LwDetrSamplingLayer(config, channel_size, scale))
+        self.sampling_layers = nn.ModuleList(sampling_layers)
+        intermediate_dim = intermediate_dims[-1]
+        if scale == 2.0:
+            if intermediate_dim > 512:
+                intermediate_dim = intermediate_dim // 4
+            else:
+                intermediate_dim = intermediate_dim // 2
+        projector_input_dim = intermediate_dim * len(intermediate_dims)
+        self.projector_layer = LwDetrC2FLayer(config, projector_input_dim)
+        self.layer_norm = LwDetrLayerNorm(config.d_model, data_format="channels_first")
+    def forward(self, hidden_states_tuple: tuple[torch.Tensor]) -> torch.Tensor:
+        sampled_hidden_states = []
+        for sampling_layer, hidden_states in zip(self.sampling_layers, hidden_states_tuple):
+            hidden_states = sampling_layer(hidden_states)
+            sampled_hidden_states.append(hidden_states)
+        hidden_states = torch.cat(sampled_hidden_states, dim=1)
+        hidden_states = self.projector_layer(hidden_states)
+        hidden_states = self.layer_norm(hidden_states)
+        return hidden_states
+class LwDetrMultiScaleProjector(nn.Module):
+    def __init__(self, config: LwDetrConfig):
+        super().__init__()
+        self.config = config
+        scale_factors = config.projector_scale_factors
+        self.scale_layers = nn.ModuleList([LwDetrScaleProjector(config, scale) for scale in scale_factors])
+    def forward(self, hidden_states: tuple[torch.Tensor]) -> list[torch.Tensor]:
+        output_hidden_states = []
+        for scale_layer in self.scale_layers:
+            output_hidden_states.append(scale_layer(hidden_states))
+        return output_hidden_states
+class LwDetrConvEncoder(nn.Module):
+    def __init__(self, config: LwDetrConfig):
+        super().__init__()
+        self.backbone = LwDetrViTBackbone(config.backbone_config)
+        self.projector = LwDetrMultiScaleProjector(config)
+    def forward(self, pixel_values: torch.Tensor, pixel_mask: torch.Tensor):
+        # send pixel_values through the model to get list of feature maps
+        features = self.backbone(pixel_values).feature_maps
+        features = self.projector(features)
+        out = []
+        for feature_map in features:
+            # downsample pixel_mask to match shape of corresponding feature_map
+            mask = nn.functional.interpolate(pixel_mask[None].float(), size=feature_map.shape[-2:]).to(torch.bool)[0]
+            out.append((feature_map, mask))
+        return out
+class LwDetrAttention(nn.Module):
+    def __init__(self, config: LwDetrConfig, layer_idx: int):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        self.head_dim = getattr(config, "head_dim", config.d_model // config.decoder_self_attention_heads)
+        self.scaling = self.head_dim**-0.5
+        self.attention_dropout = config.attention_dropout
+        self.is_causal = False
+        self.num_key_value_groups = 1
+        self.q_proj = nn.Linear(
+            config.d_model, config.decoder_self_attention_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.k_proj = nn.Linear(
+            config.d_model, config.decoder_self_attention_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.v_proj = nn.Linear(
+            config.d_model, config.decoder_self_attention_heads * self.head_dim, bias=config.attention_bias
+        )
+        self.o_proj = nn.Linear(
+            config.decoder_self_attention_heads * self.head_dim, config.d_model, bias=config.attention_bias
+        )
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_embeddings: torch.Tensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        batch_size, seq_len, _ = hidden_states.shape
+        input_shape = hidden_states.shape[:-1]
+        hidden_shape = (*input_shape, -1, self.head_dim)
+        hidden_states_original = hidden_states
+        if position_embeddings is not None:
+            hidden_states = hidden_states if position_embeddings is None else hidden_states + position_embeddings
+        if self.training:
+            # at training, we use group detr technique to add more supervision by using multiple weight-sharing decoders at once for faster convergence
+            # at inference, we only use one decoder
+            hidden_states_original = torch.cat(
+                hidden_states_original.split(seq_len // self.config.group_detr, dim=1), dim=0
+            )
+            hidden_states = torch.cat(hidden_states.split(seq_len // self.config.group_detr, dim=1), dim=0)
+        query_states = self.q_proj(hidden_states).view(hidden_shape).transpose(1, 2)
+        key_states = self.k_proj(hidden_states).view(hidden_shape).transpose(1, 2)
+        value_states = self.v_proj(hidden_states_original).view(hidden_shape).transpose(1, 2)
+        attention_interface: Callable = ALL_ATTENTION_FUNCTIONS.get_interface(
+            self.config._attn_implementation, eager_attention_forward
+        )
+        attn_output, attn_weights = attention_interface(
+            self,
+            query_states,
+            key_states,
+            value_states,
+            attention_mask=None,
+            dropout=0.0 if not self.training else self.attention_dropout,
+            scaling=self.scaling,
+            **kwargs,
+        )
+        attn_output = attn_output.reshape(*input_shape, -1).contiguous()
+        attn_output = self.o_proj(attn_output)
+        if self.training:
+            attn_output = torch.cat(torch.split(attn_output, batch_size, dim=0), dim=1)
+        return attn_output, attn_weights
+class LwDetrMultiscaleDeformableAttention(DeformableDetrMultiscaleDeformableAttention):
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: torch.Tensor | None = None,
+        encoder_hidden_states=None,
+        encoder_attention_mask=None,
+        position_embeddings: torch.Tensor | None = None,
+        reference_points=None,
+        spatial_shapes=None,
+        spatial_shapes_list=None,
+        level_start_index=None,
+        **kwargs: Unpack[TransformersKwargs],
+    ):
+        return super().forward(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            position_embeddings=position_embeddings,
+            reference_points=reference_points,
+            spatial_shapes=spatial_shapes,
+            spatial_shapes_list=spatial_shapes_list,
+            level_start_index=level_start_index,
+            **kwargs,
+        )
+class LwDetrMLP(nn.Module):
+    def __init__(self, config: LwDetrConfig):
+        super().__init__()
+        self.dropout = config.dropout
+        self.activation_fn = ACT2FN[config.decoder_activation_function]
+        self.fc1 = nn.Linear(config.d_model, config.decoder_ffn_dim)
+        self.fc2 = nn.Linear(config.decoder_ffn_dim, config.d_model)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
+        hidden_states = self.fc2(hidden_states)
+        hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
+        hidden_states = residual + hidden_states
+        return hidden_states
+class LwDetrDecoderLayer(GradientCheckpointingLayer):
+    def __init__(self, config: LwDetrConfig, layer_idx: int):
+        nn.Module.__init__(self)
+        # self-attention
+        self.self_attn = LwDetrAttention(config, layer_idx=layer_idx)
+        self.dropout = config.dropout
+        self.activation_fn = ACT2FN[config.decoder_activation_function]
+        self.activation_dropout = config.activation_dropout
+        self.self_attn_layer_norm = nn.LayerNorm(config.d_model)
+        # cross-attention
+        self.cross_attn = LwDetrMultiscaleDeformableAttention(
+            config,
+            num_heads=config.decoder_cross_attention_heads,
+            n_points=config.decoder_n_points,
+        )
+        self.cross_attn_layer_norm = nn.LayerNorm(config.d_model)
+        # mlp
+        self.mlp = LwDetrMLP(config)
+        self.layer_norm = nn.LayerNorm(config.d_model)
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_embeddings: torch.Tensor | None = None,
+        reference_points=None,
+        spatial_shapes=None,
+        spatial_shapes_list=None,
+        level_start_index=None,
+        encoder_hidden_states: torch.Tensor | None = None,
+        encoder_attention_mask: torch.Tensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ):
+        self_attention_output, self_attn_weights = self.self_attn(
+            hidden_states, position_embeddings=position_embeddings, **kwargs
+        )
+        self_attention_output = nn.functional.dropout(self_attention_output, p=self.dropout, training=self.training)
+        hidden_states = hidden_states + self_attention_output
+        hidden_states = self.self_attn_layer_norm(hidden_states)
+        cross_attention_output, cross_attn_weights = self.cross_attn(
+            hidden_states=hidden_states,
+            attention_mask=encoder_attention_mask,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            position_embeddings=position_embeddings,
+            reference_points=reference_points,
+            spatial_shapes=spatial_shapes,
+            spatial_shapes_list=spatial_shapes_list,
+            level_start_index=level_start_index,
+            **kwargs,
+        )
+        cross_attention_output = nn.functional.dropout(cross_attention_output, p=self.dropout, training=self.training)
+        hidden_states = hidden_states + cross_attention_output
+        hidden_states = self.cross_attn_layer_norm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.layer_norm(hidden_states)
+        return hidden_states
+@auto_docstring
+class LwDetrPreTrainedModel(PreTrainedModel):
+    config: LwDetrConfig
+    base_model_prefix = "model"
+    main_input_name = "pixel_values"
+    _no_split_modules = [
+        r"LwDetrConvEncoder",
+        r"LwDetrDecoderLayer",
+    ]
+    _supports_sdpa = True
+    _supports_flash_attn = True
+    _supports_flex_attn = True
+    _supports_attention_backend = True
+    _can_record_outputs = {
+        "attentions": [LwDetrAttention, LwDetrMultiscaleDeformableAttention],
+        "hidden_states": [LwDetrDecoderLayer],
+    }
+    @torch.no_grad()
+    def _init_weights(self, module):
+        super()._init_weights(module)
+        if isinstance(module, LwDetrMultiscaleDeformableAttention):
+            init.constant_(module.sampling_offsets.weight, 0.0)
+            thetas = torch.arange(module.n_heads, dtype=torch.int64).float() * (2.0 * math.pi / module.n_heads)
+            grid_init = torch.stack([thetas.cos(), thetas.sin()], -1)
+            grid_init = (
+                (grid_init / grid_init.abs().max(-1, keepdim=True)[0])
+                .view(module.n_heads, 1, 1, 2)
+                .repeat(1, module.n_levels, module.n_points, 1)
+            )
+            for i in range(module.n_points):
+                grid_init[:, :, i, :] *= i + 1
+            init.copy_(module.sampling_offsets.bias, grid_init.view(-1))
+            init.constant_(module.attention_weights.weight, 0.0)
+            init.constant_(module.attention_weights.bias, 0.0)
+            init.xavier_uniform_(module.value_proj.weight)
+            init.constant_(module.value_proj.bias, 0.0)
+            init.xavier_uniform_(module.output_proj.weight)
+            init.constant_(module.output_proj.bias, 0.0)
+        if hasattr(module, "level_embed"):
+            init.normal_(module.level_embed)
+        if hasattr(module, "refpoint_embed") and module.refpoint_embed is not None:
+            init.constant_(module.refpoint_embed.weight, 0)
+        if hasattr(module, "class_embed") and module.class_embed is not None:
+            prior_prob = 0.01
+            bias_value = -math.log((1 - prior_prob) / prior_prob)
+            init.constant_(module.class_embed.bias, bias_value)
+        if hasattr(module, "bbox_embed") and module.bbox_embed is not None:
+            init.constant_(module.bbox_embed.layers[-1].weight, 0)
+            init.constant_(module.bbox_embed.layers[-1].bias, 0)
+def refine_bboxes(reference_points, deltas):
+    reference_points = reference_points.to(deltas.device)
+    new_reference_points_cxcy = deltas[..., :2] * reference_points[..., 2:] + reference_points[..., :2]
+    new_reference_points_wh = deltas[..., 2:].exp() * reference_points[..., 2:]
+    new_reference_points = torch.cat((new_reference_points_cxcy, new_reference_points_wh), -1)
+    return new_reference_points
+@dataclass
+@auto_docstring(
+    custom_intro="""
+    Base class for outputs of the LwDetrDecoder. This class adds two attributes to
+    BaseModelOutputWithCrossAttentions, namely:
+    - a stacked tensor of intermediate decoder hidden states (i.e. the output of each decoder layer)
+    - a stacked tensor of intermediate reference points.
+    """
+)
+class LwDetrDecoderOutput(DeformableDetrDecoderOutput):
+    pass
+class LwDetrDecoder(LwDetrPreTrainedModel):
+    """
+    Transformer decoder consisting of *config.decoder_layers* layers. Each layer is a [`DeformableDetrDecoderLayer`].
+    The decoder updates the query embeddings through multiple self-attention and deformable cross-attention layers.
+    Some tweaks for LwDetr:
+    - it uses group detr technique at training for faster convergence.
+    Args:
+        config: LwDetrConfig
+    """
+    def __init__(self, config: LwDetrConfig):
+        super().__init__(config)
+        self.dropout = config.dropout
+        self.layers = nn.ModuleList([LwDetrDecoderLayer(config, i) for i in range(config.decoder_layers)])
+        self.layernorm = nn.LayerNorm(config.d_model)
+        self.gradient_checkpointing = False
+        self.ref_point_head = LwDetrMLPPredictionHead(2 * config.d_model, config.d_model, config.d_model, num_layers=2)
+        self.post_init()
+    def get_reference(self, reference_points, valid_ratios):
+        # batch_size, num_queries, batch_size, 4
+        obj_center = reference_points[..., :4]
+        # batch_size, num_queries, num_levels, 4
+        reference_points_inputs = obj_center[:, :, None] * torch.cat([valid_ratios, valid_ratios], -1)[:, None]
+        # batch_size, num_queries, d_model * 2
+        query_sine_embed = gen_sine_position_embeddings(reference_points_inputs[:, :, 0, :], self.config.d_model)
+        # batch_size, num_queries, d_model
+        query_pos = self.ref_point_head(query_sine_embed)
+        return reference_points_inputs, query_pos
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor | None = None,
+        reference_points: torch.Tensor | None = None,
+        spatial_shapes: torch.Tensor | None = None,
+        spatial_shapes_list: torch.Tensor | None = None,
+        level_start_index: torch.Tensor | None = None,
+        valid_ratios: torch.Tensor | None = None,
+        encoder_hidden_states: torch.Tensor | None = None,
+        encoder_attention_mask: torch.Tensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ):
+        intermediate = ()
+        intermediate_reference_points = (reference_points,)
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        reference_points_inputs, query_pos = self.get_reference(reference_points, valid_ratios)
+        for idx, decoder_layer in enumerate(self.layers):
+            hidden_states = decoder_layer(
+                hidden_states,
+                encoder_hidden_states=encoder_hidden_states,
+                encoder_attention_mask=encoder_attention_mask,
+                position_embeddings=query_pos,
+                reference_points=reference_points_inputs,
+                spatial_shapes=spatial_shapes,
+                spatial_shapes_list=spatial_shapes_list,
+                level_start_index=level_start_index,
+                **kwargs,
+            )
+            intermediate_hidden_states = self.layernorm(hidden_states)
+            intermediate += (intermediate_hidden_states,)
+        intermediate = torch.stack(intermediate)
+        last_hidden_state = intermediate[-1]
+        intermediate_reference_points = torch.stack(intermediate_reference_points)
+        return LwDetrDecoderOutput(
+            last_hidden_state=last_hidden_state,
+            intermediate_hidden_states=intermediate,
+            intermediate_reference_points=intermediate_reference_points,
+        )
+@dataclass
+@auto_docstring(
+    custom_intro="""
+    Base class for outputs of the LwDetr backbone-decoder model.
+    """
+)
+class LwDetrModelOutput(ModelOutput):
+    r"""
+    init_reference_points (`torch.FloatTensor` of shape  `(batch_size, num_queries, 4)`):
+        Initial reference points sent through the Transformer decoder.
+    intermediate_hidden_states (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, hidden_size)`):
+        Stacked intermediate hidden states (output of each layer of the decoder).
+    intermediate_reference_points (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, 4)`):
+        Stacked intermediate reference points (reference points of each layer of the decoder).
+    enc_outputs_class (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_labels)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
+        Predicted bounding boxes scores where the top `config.two_stage_num_proposals` scoring bounding boxes are
+        picked as region proposals in the first stage. Output of bounding box binary classification (i.e.
+        foreground and background).
+    enc_outputs_coord_logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, 4)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
+        Logits of predicted bounding boxes coordinates in the first stage.
+    """
+    init_reference_points: torch.FloatTensor | None = None
+    last_hidden_state: torch.FloatTensor | None = None
+    intermediate_hidden_states: torch.FloatTensor | None = None
+    intermediate_reference_points: torch.FloatTensor | None = None
+    enc_outputs_class: torch.FloatTensor | None = None
+    enc_outputs_coord_logits: torch.FloatTensor | None = None
+@auto_docstring(
+    custom_intro="""
+    The bare LW Detr Model (consisting of a backbone and decoder Transformer) outputting raw
+    hidden-states without any specific head on top.
+    """
+)
+class LwDetrModel(DeformableDetrModel):
+    def __init__(self, config: LwDetrConfig):
+        LwDetrPreTrainedModel.__init__(config)
+        # Create backbone + positional encoding
+        self.backbone = LwDetrConvEncoder(config)
+        self.group_detr = config.group_detr
+        self.num_queries = config.num_queries
+        hidden_dim = config.d_model
+        self.reference_point_embed = nn.Embedding(self.num_queries * self.group_detr, 4)
+        self.query_feat = nn.Embedding(self.num_queries * self.group_detr, hidden_dim)
+        self.decoder = LwDetrDecoder(config)
+        self.enc_output = nn.ModuleList([nn.Linear(hidden_dim, hidden_dim) for _ in range(self.group_detr)])
+        self.enc_output_norm = nn.ModuleList([nn.LayerNorm(hidden_dim) for _ in range(self.group_detr)])
+        # Should normally be None and then instantiated in the ForObjectDetection class
+        self.enc_out_bbox_embed = nn.ModuleList(
+            [LwDetrMLPPredictionHead(config.d_model, config.d_model, 4, num_layers=3) for _ in range(self.group_detr)]
+        )
+        self.enc_out_class_embed = nn.ModuleList(
+            [nn.Linear(config.d_model, config.num_labels) for _ in range(self.group_detr)]
+        )
+        self.post_init()
+    def gen_encoder_output_proposals(self, enc_output, padding_mask, spatial_shapes):
+        """Generate the encoder output proposals from encoded enc_output.
+        Args:
+            enc_output (Tensor[batch_size, sequence_length, hidden_size]): Output of the encoder.
+            padding_mask (Tensor[batch_size, sequence_length]): Padding mask for `enc_output`.
+            spatial_shapes (list[tuple[int, int]]): Spatial shapes of the feature maps.
+        Returns:
+            `tuple(torch.FloatTensor)`: A tuple of feature map and bbox prediction.
+                - object_query (Tensor[batch_size, sequence_length, hidden_size]): Object query features. Later used to
+                  directly predict a bounding box. (without the need of a decoder)
+                - output_proposals (Tensor[batch_size, sequence_length, 4]): Normalized proposals, after an inverse
+                  sigmoid.
+        """
+        batch_size = enc_output.shape[0]
+        proposals = []
+        _cur = 0
+        for level, (height, width) in enumerate(spatial_shapes):
+            mask_flatten_ = padding_mask[:, _cur : (_cur + height * width)].view(batch_size, height, width, 1)
+            valid_height = torch.sum(~mask_flatten_[:, :, 0, 0], 1)
+            valid_width = torch.sum(~mask_flatten_[:, 0, :, 0], 1)
+            grid_y, grid_x = meshgrid(
+                torch.linspace(
+                    0,
+                    height - 1,
+                    height,
+                    dtype=enc_output.dtype,
+                    device=enc_output.device,
+                ),
+                torch.linspace(
+                    0,
+                    width - 1,
+                    width,
+                    dtype=enc_output.dtype,
+                    device=enc_output.device,
+                ),
+                indexing="ij",
+            )
+            grid = torch.cat([grid_x.unsqueeze(-1), grid_y.unsqueeze(-1)], -1)
+            scale = torch.cat([valid_width.unsqueeze(-1), valid_height.unsqueeze(-1)], 1).view(batch_size, 1, 1, 2)
+            grid = (grid.unsqueeze(0).expand(batch_size, -1, -1, -1) + 0.5) / scale
+            width_height = torch.ones_like(grid) * 0.05 * (2.0**level)
+            proposal = torch.cat((grid, width_height), -1).view(batch_size, -1, 4)
+            proposals.append(proposal)
+            _cur += height * width
+        output_proposals = torch.cat(proposals, 1)
+        output_proposals_valid = ((output_proposals > 0.01) & (output_proposals < 0.99)).all(-1, keepdim=True)
+        output_proposals = output_proposals.masked_fill(padding_mask.unsqueeze(-1), float("inf"))
+        output_proposals = output_proposals.masked_fill(~output_proposals_valid, float("inf"))
+        # assign each pixel as an object query
+        object_query = enc_output
+        object_query = object_query.masked_fill(padding_mask.unsqueeze(-1), float(0))
+        object_query = object_query.masked_fill(~output_proposals_valid, float(0))
+        return object_query, output_proposals
+    @check_model_inputs
+    @auto_docstring
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor = None,
+        pixel_mask: torch.LongTensor | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> LwDetrModelOutput:
+        r"""
+        Examples:
+        ```python
+        >>> from transformers import AutoImageProcessor, DeformableDetrModel
+        >>> from PIL import Image
+        >>> import httpx
+        >>> from io import BytesIO
+        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
+        >>> with httpx.stream("GET", url) as response:
+        ...     image = Image.open(BytesIO(response.read()))
+        >>> image_processor = AutoImageProcessor.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
+        >>> model = DeformableDetrModel.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
+        >>> inputs = image_processor(images=image, return_tensors="pt")
+        >>> outputs = model(**inputs)
+        >>> last_hidden_states = outputs.last_hidden_state
+        >>> list(last_hidden_states.shape)
+        [1, 300, 256]
+        ```"""
+        batch_size, num_channels, height, width = pixel_values.shape
+        device = pixel_values.device
+        if pixel_mask is None:
+            pixel_mask = torch.ones(((batch_size, height, width)), dtype=torch.long, device=device)
+        # Extract multi-scale feature maps of same resolution `config.d_model` (cf Figure 4 in paper)
+        # First, sent pixel_values + pixel_mask through Backbone to obtain the features
+        # which is a list of tuples
+        features = self.backbone(pixel_values, pixel_mask)
+        # Then, apply 1x1 convolution to reduce the channel dimension to d_model (256 by default)
+        sources = []
+        masks = []
+        for level, (source, mask) in enumerate(features):
+            sources.append(source)
+            masks.append(mask)
+            if mask is None:
+                raise ValueError("No attention mask was provided")
+        if self.training:
+            reference_points = self.reference_point_embed.weight
+            query_feat = self.query_feat.weight
+        else:
+            # only use one group in inference
+            reference_points = self.reference_point_embed.weight[: self.num_queries]
+            query_feat = self.query_feat.weight[: self.num_queries]
+        # Prepare encoder inputs (by flattening)
+        source_flatten = []
+        mask_flatten = []
+        spatial_shapes_list = []
+        for source, mask in zip(sources, masks):
+            batch_size, num_channels, height, width = source.shape
+            spatial_shape = (height, width)
+            spatial_shapes_list.append(spatial_shape)
+            source = source.flatten(2).transpose(1, 2)
+            mask = mask.flatten(1)
+            source_flatten.append(source)
+            mask_flatten.append(mask)
+        source_flatten = torch.cat(source_flatten, 1)
+        mask_flatten = torch.cat(mask_flatten, 1)
+        spatial_shapes = torch.as_tensor(spatial_shapes_list, dtype=torch.long, device=source_flatten.device)
+        level_start_index = torch.cat((spatial_shapes.new_zeros((1,)), spatial_shapes.prod(1).cumsum(0)[:-1]))
+        valid_ratios = torch.stack([self.get_valid_ratio(m, dtype=source_flatten.dtype) for m in masks], 1)
+        target = query_feat.unsqueeze(0).expand(batch_size, -1, -1)
+        reference_points = reference_points.unsqueeze(0).expand(batch_size, -1, -1)
+        object_query_embedding, output_proposals = self.gen_encoder_output_proposals(
+            source_flatten, ~mask_flatten, spatial_shapes_list
+        )
+        group_detr = self.group_detr if self.training else 1
+        topk = self.num_queries
+        topk_coords_logits = []
+        topk_coords_logits_undetach = []
+        object_query_undetach = []
+        for group_id in range(group_detr):
+            group_object_query = self.enc_output[group_id](object_query_embedding)
+            group_object_query = self.enc_output_norm[group_id](group_object_query)
+            group_enc_outputs_class = self.enc_out_class_embed[group_id](group_object_query)
+            group_delta_bbox = self.enc_out_bbox_embed[group_id](group_object_query)
+            group_enc_outputs_coord = refine_bboxes(output_proposals, group_delta_bbox)
+            group_topk_proposals = torch.topk(group_enc_outputs_class.max(-1)[0], topk, dim=1)[1]
+            group_topk_coords_logits_undetach = torch.gather(
+                group_enc_outputs_coord,
+                1,
+                group_topk_proposals.unsqueeze(-1).repeat(1, 1, 4),
+            )
+            group_topk_coords_logits = group_topk_coords_logits_undetach.detach()
+            group_object_query_undetach = torch.gather(
+                group_object_query, 1, group_topk_proposals.unsqueeze(-1).repeat(1, 1, self.config.d_model)
+            )
+            topk_coords_logits.append(group_topk_coords_logits)
+            topk_coords_logits_undetach.append(group_topk_coords_logits_undetach)
+            object_query_undetach.append(group_object_query_undetach)
+        topk_coords_logits = torch.cat(topk_coords_logits, 1)
+        topk_coords_logits_undetach = torch.cat(topk_coords_logits_undetach, 1)
+        object_query_undetach = torch.cat(object_query_undetach, 1)
+        enc_outputs_class = object_query_undetach
+        enc_outputs_coord_logits = topk_coords_logits
+        reference_points = refine_bboxes(topk_coords_logits_undetach, reference_points)
+        init_reference_points = reference_points
+        decoder_outputs = self.decoder(
+            inputs_embeds=target,
+            reference_points=reference_points,
+            spatial_shapes=spatial_shapes,
+            spatial_shapes_list=spatial_shapes_list,
+            level_start_index=level_start_index,
+            valid_ratios=valid_ratios,
+            encoder_hidden_states=source_flatten,
+            encoder_attention_mask=mask_flatten,
+            **kwargs,
+        )
+        return LwDetrModelOutput(
+            init_reference_points=init_reference_points,
+            last_hidden_state=decoder_outputs.last_hidden_state,
+            intermediate_hidden_states=decoder_outputs.intermediate_hidden_states,
+            intermediate_reference_points=decoder_outputs.intermediate_reference_points,
+            enc_outputs_class=enc_outputs_class,
+            enc_outputs_coord_logits=enc_outputs_coord_logits,
+        )
+class LwDetrMLPPredictionHead(DeformableDetrMLPPredictionHead):
+    pass
+@dataclass
+@auto_docstring(
+    custom_intro="""
+    Output type of [`LwDetrForObjectDetection`].
+    """
+)
+class LwDetrObjectDetectionOutput(ModelOutput):
+    r"""
+    loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` are provided)):
+        Total loss as a linear combination of a negative log-likehood (cross-entropy) for class prediction and a
+        bounding box loss. The latter is defined as a linear combination of the L1 loss and the generalized
+        scale-invariant IoU loss.
+    loss_dict (`Dict`, *optional*):
+        A dictionary containing the individual losses. Useful for logging.
+    logits (`torch.FloatTensor` of shape `(batch_size, num_queries, num_classes + 1)`):
+        Classification logits (including no-object) for all queries.
+    pred_boxes (`torch.FloatTensor` of shape `(batch_size, num_queries, 4)`):
+        Normalized boxes coordinates for all queries, represented as (center_x, center_y, width, height). These
+        values are normalized in [0, 1], relative to the size of each individual image in the batch (disregarding
+        possible padding). You can use [`~DeformableDetrProcessor.post_process_object_detection`] to retrieve the
+        unnormalized bounding boxes.
+    auxiliary_outputs (`list[Dict]`, *optional*):
+        Optional, only returned when auxiliary losses are activated (i.e. `config.auxiliary_loss` is set to `True`)
+        and labels are provided. It is a list of dictionaries containing the two above keys (`logits` and
+        `pred_boxes`) for each decoder layer.
+    init_reference_points (`torch.FloatTensor` of shape  `(batch_size, num_queries, 4)`):
+        Initial reference points sent through the Transformer decoder.
+    intermediate_hidden_states (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, hidden_size)`):
+        Stacked intermediate hidden states (output of each layer of the decoder).
+    intermediate_reference_points (`torch.FloatTensor` of shape `(batch_size, config.decoder_layers, num_queries, 4)`):
+        Stacked intermediate reference points (reference points of each layer of the decoder).
+    enc_outputs_class (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.num_labels)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
+        Predicted bounding boxes scores where the top `config.two_stage_num_proposals` scoring bounding boxes are
+        picked as region proposals in the first stage. Output of bounding box binary classification (i.e.
+        foreground and background).
+    enc_outputs_coord_logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, 4)`, *optional*, returned when `config.with_box_refine=True` and `config.two_stage=True`):
+        Logits of predicted bounding boxes coordinates in the first stage.
+    """
+    loss: torch.FloatTensor | None = None
+    loss_dict: dict | None = None
+    logits: torch.FloatTensor | None = None
+    pred_boxes: torch.FloatTensor | None = None
+    auxiliary_outputs: list[dict] | None = None
+    init_reference_points: torch.FloatTensor | None = None
+    last_hidden_state: torch.FloatTensor | None = None
+    intermediate_hidden_states: torch.FloatTensor | None = None
+    intermediate_reference_points: torch.FloatTensor | None = None
+    enc_outputs_class: Any = None
+    enc_outputs_coord_logits: torch.FloatTensor | None = None
+@auto_docstring(
+    custom_intro="""
+    LW DETR Model (consisting of a backbone and decoder Transformer) with object detection heads on
+    top, for tasks such as COCO detection.
+    """
+)
+class LwDetrForObjectDetection(DeformableDetrForObjectDetection):
+    _tied_weights_keys = None
+    def __init__(self, config: LwDetrConfig):
+        PreTrainedModel.__init__(self, config)
+        self.model = LwDetrModel(config)
+        self.class_embed = nn.Linear(config.d_model, config.num_labels)
+        self.bbox_embed = LwDetrMLPPredictionHead(config.d_model, config.d_model, 4, num_layers=3)
+        self.post_init()
+    @check_model_inputs
+    @auto_docstring
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor = None,
+        pixel_mask: torch.LongTensor | None = None,
+        labels: list[dict] | None = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> LwDetrObjectDetectionOutput:
+        r"""
+        decoder_attention_mask (`torch.FloatTensor` of shape `(batch_size, num_queries)`, *optional*):
+            Not used by default. Can be used to mask object queries.
+        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Optionally, instead of passing the flattened feature map (output of the backbone + projection layer), you
+            can choose to directly pass a flattened representation of an image.
+        decoder_inputs_embeds (`torch.FloatTensor` of shape `(batch_size, num_queries, hidden_size)`, *optional*):
+            Optionally, instead of initializing the queries with a tensor of zeros, you can choose to directly pass an
+            embedded representation.
+        labels (`list[Dict]` of len `(batch_size,)`, *optional*):
+            Labels for computing the bipartite matching loss. List of dicts, each dictionary containing at least the
+            following 2 keys: 'class_labels' and 'boxes' (the class labels and bounding boxes of an image in the batch
+            respectively). The class labels themselves should be a `torch.LongTensor` of len `(number of bounding boxes
+            in the image,)` and the boxes a `torch.FloatTensor` of shape `(number of bounding boxes in the image, 4)`.
+        Examples:
+        ```python
+        >>> from transformers import AutoImageProcessor, LwDetrForObjectDetection
+        >>> from PIL import Image
+        >>> import httpx
+        >>> from io import BytesIO
+        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
+        >>> with httpx.stream("GET", url) as response:
+        ...     image = Image.open(BytesIO(response.read()))
+        >>> image_processor = AutoImageProcessor.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
+        >>> model = LwDetrForObjectDetection.from_pretrained("AnnaZhang/lwdetr_small_60e_coco")
+        >>> inputs = image_processor(images=image, return_tensors="pt")
+        >>> outputs = model(**inputs)
+        >>> # convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
+        >>> target_sizes = torch.tensor([image.size[::-1]])
+        >>> results = image_processor.post_process_object_detection(outputs, threshold=0.5, target_sizes=target_sizes)[
+        ...     0
+        ... ]
+        >>> for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
+        ...     box = [round(i, 2) for i in box.tolist()]
+        ...     print(
+        ...         f"Detected {model.config.id2label[label.item()]} with confidence "
+        ...         f"{round(score.item(), 3)} at location {box}"
+        ...     )
+        Detected cat with confidence 0.8 at location [16.5, 52.84, 318.25, 470.78]
+        Detected cat with confidence 0.789 at location [342.19, 24.3, 640.02, 372.25]
+        Detected remote with confidence 0.633 at location [40.79, 72.78, 176.76, 117.25]
+        ```"""
+        outputs = self.model(
+            pixel_values,
+            pixel_mask=pixel_mask,
+            **kwargs,
+        )
+        last_hidden_states = outputs.last_hidden_state
+        intermediate_reference_points = outputs.intermediate_reference_points
+        enc_outputs_class_logits = outputs.enc_outputs_class
+        enc_outputs_boxes_logits = outputs.enc_outputs_coord_logits
+        logits = self.class_embed(last_hidden_states)
+        pred_boxes_delta = self.bbox_embed(last_hidden_states)
+        pred_boxes = refine_bboxes(intermediate_reference_points[-1], pred_boxes_delta)
+        enc_outputs_class_logits_list = enc_outputs_class_logits.split(self.config.num_queries, dim=1)
+        pred_class = []
+        group_detr = self.config.group_detr if self.training else 1
+        for group_index in range(group_detr):
+            group_pred_class = self.model.enc_out_class_embed[group_index](enc_outputs_class_logits_list[group_index])
+            pred_class.append(group_pred_class)
+        enc_outputs_class_logits = torch.cat(pred_class, dim=1)
+        loss, loss_dict, auxiliary_outputs = None, None, None
+        if labels is not None:
+            outputs_class, outputs_coord = None, None
+            if self.config.auxiliary_loss:
+                intermediate_hidden_states = outputs.intermediate_hidden_states
+                outputs_coord_delta = self.bbox_embed(intermediate_hidden_states)
+                outputs_coord = refine_bboxes(intermediate_reference_points, outputs_coord_delta)
+                outputs_class = self.class_embed(intermediate_hidden_states)
+            loss, loss_dict, auxiliary_outputs = self.loss_function(
+                logits,
+                labels,
+                self.device,
+                pred_boxes,
+                self.config,
+                outputs_class,
+                outputs_coord,
+                enc_outputs_class_logits,
+                enc_outputs_boxes_logits,
+            )
+        return LwDetrObjectDetectionOutput(
+            loss=loss,
+            loss_dict=loss_dict,
+            logits=logits,
+            pred_boxes=pred_boxes,
+            auxiliary_outputs=auxiliary_outputs,
+            last_hidden_state=outputs.last_hidden_state,
+            intermediate_hidden_states=outputs.intermediate_hidden_states,
+            intermediate_reference_points=outputs.intermediate_reference_points,
+            init_reference_points=outputs.init_reference_points,
+            enc_outputs_class=enc_outputs_class_logits,
+            enc_outputs_coord_logits=enc_outputs_boxes_logits,
+        )
+__all__ = [
+    "LwDetrConfig",
+    "LwDetrPreTrainedModel",
+    "LwDetrModel",
+    "LwDetrForObjectDetection",
+    "LwDetrViTConfig",
+    "LwDetrViTPreTrainedModel",
+    "LwDetrViTBackbone",
+]

transformers 5.0.0rc2__py3-none-any.whl → 5.1.0__py3-none-any.whl

transformers 5.0.0rc2py3-none-any.whl → 5.1.0py3-none-any.whl