PyPI - transformers - Versions diffs - 5.0.0rc2__py3-none-any.whl → 5.1.0__py3-none-any.whl - Mend

transformers 5.0.0rc2py3-none-any.whl → 5.1.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1594) hide show

transformers/__init__.py +11 -37
transformers/activations.py +2 -2
transformers/audio_utils.py +32 -32
transformers/backbone_utils.py +326 -0
transformers/cache_utils.py +26 -126
transformers/cli/chat.py +3 -3
transformers/cli/serve.py +13 -10
transformers/cli/transformers.py +2 -1
transformers/configuration_utils.py +22 -92
transformers/conversion_mapping.py +150 -26
transformers/convert_slow_tokenizer.py +9 -12
transformers/core_model_loading.py +217 -129
transformers/data/processors/glue.py +0 -1
transformers/data/processors/utils.py +0 -1
transformers/data/processors/xnli.py +0 -1
transformers/dependency_versions_check.py +0 -1
transformers/dependency_versions_table.py +10 -11
transformers/distributed/configuration_utils.py +1 -2
transformers/dynamic_module_utils.py +23 -23
transformers/feature_extraction_sequence_utils.py +19 -23
transformers/feature_extraction_utils.py +14 -14
transformers/file_utils.py +0 -2
transformers/generation/candidate_generator.py +2 -4
transformers/generation/configuration_utils.py +54 -39
transformers/generation/continuous_batching/__init__.py +0 -1
transformers/generation/continuous_batching/cache.py +74 -44
transformers/generation/continuous_batching/cache_manager.py +28 -28
transformers/generation/continuous_batching/continuous_api.py +133 -414
transformers/generation/continuous_batching/input_ouputs.py +464 -0
transformers/generation/continuous_batching/requests.py +77 -19
transformers/generation/continuous_batching/scheduler.py +154 -104
transformers/generation/logits_process.py +10 -133
transformers/generation/stopping_criteria.py +1 -2
transformers/generation/streamers.py +0 -1
transformers/generation/utils.py +91 -121
transformers/generation/watermarking.py +2 -3
transformers/hf_argparser.py +9 -13
transformers/hyperparameter_search.py +1 -2
transformers/image_processing_base.py +9 -9
transformers/image_processing_utils.py +11 -15
transformers/image_processing_utils_fast.py +70 -71
transformers/image_transforms.py +73 -42
transformers/image_utils.py +30 -37
transformers/initialization.py +57 -0
transformers/integrations/__init__.py +10 -24
transformers/integrations/accelerate.py +47 -11
transformers/integrations/awq.py +1 -3
transformers/integrations/deepspeed.py +146 -4
transformers/integrations/eetq.py +0 -1
transformers/integrations/executorch.py +2 -6
transformers/integrations/fbgemm_fp8.py +1 -2
transformers/integrations/finegrained_fp8.py +149 -13
transformers/integrations/flash_attention.py +3 -8
transformers/integrations/flex_attention.py +1 -1
transformers/integrations/fp_quant.py +4 -6
transformers/integrations/ggml.py +0 -1
transformers/integrations/hub_kernels.py +18 -7
transformers/integrations/integration_utils.py +2 -3
transformers/integrations/moe.py +226 -106
transformers/integrations/mxfp4.py +52 -40
transformers/integrations/peft.py +488 -176
transformers/integrations/quark.py +2 -4
transformers/integrations/tensor_parallel.py +641 -581
transformers/integrations/torchao.py +4 -6
transformers/loss/loss_lw_detr.py +356 -0
transformers/loss/loss_utils.py +2 -0
transformers/masking_utils.py +199 -59
transformers/model_debugging_utils.py +4 -5
transformers/modelcard.py +14 -192
transformers/modeling_attn_mask_utils.py +19 -19
transformers/modeling_flash_attention_utils.py +28 -29
transformers/modeling_gguf_pytorch_utils.py +5 -5
transformers/modeling_layers.py +21 -22
transformers/modeling_outputs.py +242 -253
transformers/modeling_rope_utils.py +32 -32
transformers/modeling_utils.py +416 -438
transformers/models/__init__.py +10 -0
transformers/models/afmoe/configuration_afmoe.py +40 -33
transformers/models/afmoe/modeling_afmoe.py +38 -41
transformers/models/afmoe/modular_afmoe.py +23 -25
transformers/models/aimv2/configuration_aimv2.py +2 -10
transformers/models/aimv2/modeling_aimv2.py +46 -45
transformers/models/aimv2/modular_aimv2.py +13 -19
transformers/models/albert/configuration_albert.py +8 -2
transformers/models/albert/modeling_albert.py +70 -72
transformers/models/albert/tokenization_albert.py +1 -4
transformers/models/align/configuration_align.py +8 -6
transformers/models/align/modeling_align.py +83 -86
transformers/models/align/processing_align.py +2 -30
transformers/models/altclip/configuration_altclip.py +4 -7
transformers/models/altclip/modeling_altclip.py +106 -103
transformers/models/altclip/processing_altclip.py +2 -15
transformers/models/apertus/__init__.py +0 -1
transformers/models/apertus/configuration_apertus.py +23 -28
transformers/models/apertus/modeling_apertus.py +35 -38
transformers/models/apertus/modular_apertus.py +36 -40
transformers/models/arcee/configuration_arcee.py +25 -30
transformers/models/arcee/modeling_arcee.py +35 -38
transformers/models/arcee/modular_arcee.py +20 -23
transformers/models/aria/configuration_aria.py +31 -44
transformers/models/aria/image_processing_aria.py +25 -27
transformers/models/aria/modeling_aria.py +102 -102
transformers/models/aria/modular_aria.py +111 -124
transformers/models/aria/processing_aria.py +28 -35
transformers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py +0 -1
transformers/models/audio_spectrogram_transformer/feature_extraction_audio_spectrogram_transformer.py +3 -6
transformers/models/audio_spectrogram_transformer/modeling_audio_spectrogram_transformer.py +9 -11
transformers/models/audioflamingo3/__init__.py +0 -1
transformers/models/audioflamingo3/configuration_audioflamingo3.py +0 -1
transformers/models/audioflamingo3/modeling_audioflamingo3.py +60 -52
transformers/models/audioflamingo3/modular_audioflamingo3.py +52 -43
transformers/models/audioflamingo3/processing_audioflamingo3.py +6 -8
transformers/models/auto/auto_factory.py +12 -11
transformers/models/auto/configuration_auto.py +48 -5
transformers/models/auto/feature_extraction_auto.py +5 -7
transformers/models/auto/image_processing_auto.py +30 -39
transformers/models/auto/modeling_auto.py +33 -199
transformers/models/auto/processing_auto.py +11 -19
transformers/models/auto/tokenization_auto.py +38 -37
transformers/models/auto/video_processing_auto.py +7 -8
transformers/models/autoformer/configuration_autoformer.py +4 -7
transformers/models/autoformer/modeling_autoformer.py +100 -101
transformers/models/aya_vision/configuration_aya_vision.py +4 -1
transformers/models/aya_vision/modeling_aya_vision.py +64 -99
transformers/models/aya_vision/modular_aya_vision.py +46 -74
transformers/models/aya_vision/processing_aya_vision.py +25 -53
transformers/models/bamba/configuration_bamba.py +46 -39
transformers/models/bamba/modeling_bamba.py +83 -119
transformers/models/bamba/modular_bamba.py +70 -109
transformers/models/bark/configuration_bark.py +6 -8
transformers/models/bark/generation_configuration_bark.py +3 -5
transformers/models/bark/modeling_bark.py +64 -65
transformers/models/bark/processing_bark.py +19 -41
transformers/models/bart/configuration_bart.py +9 -5
transformers/models/bart/modeling_bart.py +124 -129
transformers/models/barthez/tokenization_barthez.py +1 -4
transformers/models/bartpho/tokenization_bartpho.py +6 -7
transformers/models/beit/configuration_beit.py +2 -15
transformers/models/beit/image_processing_beit.py +53 -56
transformers/models/beit/image_processing_beit_fast.py +11 -12
transformers/models/beit/modeling_beit.py +65 -62
transformers/models/bert/configuration_bert.py +12 -2
transformers/models/bert/modeling_bert.py +117 -152
transformers/models/bert/tokenization_bert.py +2 -4
transformers/models/bert/tokenization_bert_legacy.py +3 -5
transformers/models/bert_generation/configuration_bert_generation.py +17 -2
transformers/models/bert_generation/modeling_bert_generation.py +53 -55
transformers/models/bert_generation/tokenization_bert_generation.py +2 -3
transformers/models/bert_japanese/tokenization_bert_japanese.py +5 -6
transformers/models/bertweet/tokenization_bertweet.py +1 -3
transformers/models/big_bird/configuration_big_bird.py +12 -9
transformers/models/big_bird/modeling_big_bird.py +107 -124
transformers/models/big_bird/tokenization_big_bird.py +1 -4
transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py +9 -9
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +118 -118
transformers/models/biogpt/configuration_biogpt.py +8 -2
transformers/models/biogpt/modeling_biogpt.py +73 -79
transformers/models/biogpt/modular_biogpt.py +60 -66
transformers/models/biogpt/tokenization_biogpt.py +3 -5
transformers/models/bit/configuration_bit.py +2 -5
transformers/models/bit/image_processing_bit.py +21 -24
transformers/models/bit/image_processing_bit_fast.py +0 -1
transformers/models/bit/modeling_bit.py +15 -16
transformers/models/bitnet/configuration_bitnet.py +23 -28
transformers/models/bitnet/modeling_bitnet.py +34 -38
transformers/models/bitnet/modular_bitnet.py +7 -10
transformers/models/blenderbot/configuration_blenderbot.py +8 -5
transformers/models/blenderbot/modeling_blenderbot.py +68 -99
transformers/models/blenderbot/tokenization_blenderbot.py +0 -1
transformers/models/blenderbot_small/configuration_blenderbot_small.py +8 -5
transformers/models/blenderbot_small/modeling_blenderbot_small.py +70 -72
transformers/models/blenderbot_small/tokenization_blenderbot_small.py +1 -3
transformers/models/blip/configuration_blip.py +9 -10
transformers/models/blip/image_processing_blip.py +17 -20
transformers/models/blip/image_processing_blip_fast.py +0 -1
transformers/models/blip/modeling_blip.py +115 -108
transformers/models/blip/modeling_blip_text.py +63 -65
transformers/models/blip/processing_blip.py +5 -36
transformers/models/blip_2/configuration_blip_2.py +2 -2
transformers/models/blip_2/modeling_blip_2.py +145 -121
transformers/models/blip_2/processing_blip_2.py +8 -38
transformers/models/bloom/configuration_bloom.py +5 -2
transformers/models/bloom/modeling_bloom.py +60 -60
transformers/models/blt/configuration_blt.py +94 -86
transformers/models/blt/modeling_blt.py +93 -90
transformers/models/blt/modular_blt.py +127 -69
transformers/models/bridgetower/configuration_bridgetower.py +7 -2
transformers/models/bridgetower/image_processing_bridgetower.py +34 -35
transformers/models/bridgetower/image_processing_bridgetower_fast.py +13 -14
transformers/models/bridgetower/modeling_bridgetower.py +136 -124
transformers/models/bridgetower/processing_bridgetower.py +2 -16
transformers/models/bros/configuration_bros.py +24 -18
transformers/models/bros/modeling_bros.py +78 -80
transformers/models/bros/processing_bros.py +2 -12
transformers/models/byt5/tokenization_byt5.py +4 -6
transformers/models/camembert/configuration_camembert.py +8 -2
transformers/models/camembert/modeling_camembert.py +97 -99
transformers/models/camembert/modular_camembert.py +51 -54
transformers/models/camembert/tokenization_camembert.py +1 -4
transformers/models/canine/configuration_canine.py +4 -2
transformers/models/canine/modeling_canine.py +73 -75
transformers/models/canine/tokenization_canine.py +0 -1
transformers/models/chameleon/configuration_chameleon.py +29 -34
transformers/models/chameleon/image_processing_chameleon.py +21 -24
transformers/models/chameleon/image_processing_chameleon_fast.py +5 -6
transformers/models/chameleon/modeling_chameleon.py +135 -92
transformers/models/chameleon/processing_chameleon.py +16 -41
transformers/models/chinese_clip/configuration_chinese_clip.py +10 -8
transformers/models/chinese_clip/image_processing_chinese_clip.py +21 -24
transformers/models/chinese_clip/image_processing_chinese_clip_fast.py +0 -1
transformers/models/chinese_clip/modeling_chinese_clip.py +93 -95
transformers/models/chinese_clip/processing_chinese_clip.py +2 -15
transformers/models/clap/configuration_clap.py +4 -9
transformers/models/clap/feature_extraction_clap.py +9 -10
transformers/models/clap/modeling_clap.py +109 -111
transformers/models/clap/processing_clap.py +2 -15
transformers/models/clip/configuration_clip.py +4 -2
transformers/models/clip/image_processing_clip.py +21 -24
transformers/models/clip/image_processing_clip_fast.py +9 -1
transformers/models/clip/modeling_clip.py +70 -68
transformers/models/clip/processing_clip.py +2 -14
transformers/models/clip/tokenization_clip.py +2 -5
transformers/models/clipseg/configuration_clipseg.py +4 -2
transformers/models/clipseg/modeling_clipseg.py +113 -112
transformers/models/clipseg/processing_clipseg.py +19 -42
transformers/models/clvp/configuration_clvp.py +15 -5
transformers/models/clvp/feature_extraction_clvp.py +7 -10
transformers/models/clvp/modeling_clvp.py +138 -145
transformers/models/clvp/number_normalizer.py +1 -2
transformers/models/clvp/processing_clvp.py +3 -20
transformers/models/clvp/tokenization_clvp.py +0 -1
transformers/models/code_llama/tokenization_code_llama.py +3 -6
transformers/models/codegen/configuration_codegen.py +4 -4
transformers/models/codegen/modeling_codegen.py +50 -49
transformers/models/codegen/tokenization_codegen.py +5 -6
transformers/models/cohere/configuration_cohere.py +25 -30
transformers/models/cohere/modeling_cohere.py +39 -42
transformers/models/cohere/modular_cohere.py +27 -31
transformers/models/cohere/tokenization_cohere.py +5 -6
transformers/models/cohere2/configuration_cohere2.py +27 -32
transformers/models/cohere2/modeling_cohere2.py +38 -41
transformers/models/cohere2/modular_cohere2.py +48 -52
transformers/models/cohere2_vision/configuration_cohere2_vision.py +5 -1
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +9 -10
transformers/models/cohere2_vision/modeling_cohere2_vision.py +52 -55
transformers/models/cohere2_vision/modular_cohere2_vision.py +41 -43
transformers/models/cohere2_vision/processing_cohere2_vision.py +6 -36
transformers/models/colpali/configuration_colpali.py +0 -1
transformers/models/colpali/modeling_colpali.py +14 -16
transformers/models/colpali/modular_colpali.py +11 -51
transformers/models/colpali/processing_colpali.py +14 -52
transformers/models/colqwen2/modeling_colqwen2.py +27 -28
transformers/models/colqwen2/modular_colqwen2.py +36 -74
transformers/models/colqwen2/processing_colqwen2.py +16 -52
transformers/models/conditional_detr/configuration_conditional_detr.py +19 -47
transformers/models/conditional_detr/image_processing_conditional_detr.py +67 -70
transformers/models/conditional_detr/image_processing_conditional_detr_fast.py +50 -36
transformers/models/conditional_detr/modeling_conditional_detr.py +851 -1001
transformers/models/conditional_detr/modular_conditional_detr.py +901 -5
transformers/models/convbert/configuration_convbert.py +11 -8
transformers/models/convbert/modeling_convbert.py +85 -87
transformers/models/convbert/tokenization_convbert.py +0 -1
transformers/models/convnext/configuration_convnext.py +2 -5
transformers/models/convnext/image_processing_convnext.py +18 -21
transformers/models/convnext/image_processing_convnext_fast.py +7 -8
transformers/models/convnext/modeling_convnext.py +12 -14
transformers/models/convnextv2/configuration_convnextv2.py +2 -5
transformers/models/convnextv2/modeling_convnextv2.py +12 -14
transformers/models/cpm/tokenization_cpm.py +6 -7
transformers/models/cpm/tokenization_cpm_fast.py +3 -5
transformers/models/cpmant/configuration_cpmant.py +4 -1
transformers/models/cpmant/modeling_cpmant.py +38 -40
transformers/models/cpmant/tokenization_cpmant.py +1 -3
transformers/models/csm/configuration_csm.py +58 -66
transformers/models/csm/generation_csm.py +13 -14
transformers/models/csm/modeling_csm.py +81 -84
transformers/models/csm/modular_csm.py +56 -58
transformers/models/csm/processing_csm.py +25 -68
transformers/models/ctrl/configuration_ctrl.py +16 -1
transformers/models/ctrl/modeling_ctrl.py +51 -66
transformers/models/ctrl/tokenization_ctrl.py +0 -1
transformers/models/cvt/configuration_cvt.py +0 -1
transformers/models/cvt/modeling_cvt.py +13 -15
transformers/models/cwm/__init__.py +0 -1
transformers/models/cwm/configuration_cwm.py +8 -12
transformers/models/cwm/modeling_cwm.py +36 -38
transformers/models/cwm/modular_cwm.py +10 -12
transformers/models/d_fine/configuration_d_fine.py +10 -57
transformers/models/d_fine/modeling_d_fine.py +786 -927
transformers/models/d_fine/modular_d_fine.py +339 -417
transformers/models/dab_detr/configuration_dab_detr.py +22 -49
transformers/models/dab_detr/modeling_dab_detr.py +79 -77
transformers/models/dac/configuration_dac.py +0 -1
transformers/models/dac/feature_extraction_dac.py +6 -9
transformers/models/dac/modeling_dac.py +22 -24
transformers/models/data2vec/configuration_data2vec_audio.py +4 -2
transformers/models/data2vec/configuration_data2vec_text.py +11 -3
transformers/models/data2vec/configuration_data2vec_vision.py +0 -1
transformers/models/data2vec/modeling_data2vec_audio.py +55 -59
transformers/models/data2vec/modeling_data2vec_text.py +97 -99
transformers/models/data2vec/modeling_data2vec_vision.py +45 -44
transformers/models/data2vec/modular_data2vec_audio.py +6 -1
transformers/models/data2vec/modular_data2vec_text.py +51 -54
transformers/models/dbrx/configuration_dbrx.py +29 -22
transformers/models/dbrx/modeling_dbrx.py +45 -48
transformers/models/dbrx/modular_dbrx.py +37 -39
transformers/models/deberta/configuration_deberta.py +6 -1
transformers/models/deberta/modeling_deberta.py +57 -60
transformers/models/deberta/tokenization_deberta.py +2 -5
transformers/models/deberta_v2/configuration_deberta_v2.py +6 -1
transformers/models/deberta_v2/modeling_deberta_v2.py +63 -65
transformers/models/deberta_v2/tokenization_deberta_v2.py +1 -4
transformers/models/decision_transformer/configuration_decision_transformer.py +3 -2
transformers/models/decision_transformer/modeling_decision_transformer.py +51 -53
transformers/models/deepseek_v2/configuration_deepseek_v2.py +41 -47
transformers/models/deepseek_v2/modeling_deepseek_v2.py +39 -41
transformers/models/deepseek_v2/modular_deepseek_v2.py +48 -52
transformers/models/deepseek_v3/configuration_deepseek_v3.py +42 -48
transformers/models/deepseek_v3/modeling_deepseek_v3.py +38 -40
transformers/models/deepseek_v3/modular_deepseek_v3.py +10 -10
transformers/models/deepseek_vl/configuration_deepseek_vl.py +6 -3
transformers/models/deepseek_vl/image_processing_deepseek_vl.py +27 -28
transformers/models/deepseek_vl/image_processing_deepseek_vl_fast.py +12 -11
transformers/models/deepseek_vl/modeling_deepseek_vl.py +48 -43
transformers/models/deepseek_vl/modular_deepseek_vl.py +15 -43
transformers/models/deepseek_vl/processing_deepseek_vl.py +10 -41
transformers/models/deepseek_vl_hybrid/configuration_deepseek_vl_hybrid.py +7 -5
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid.py +37 -37
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid_fast.py +22 -22
transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py +100 -56
transformers/models/deepseek_vl_hybrid/modular_deepseek_vl_hybrid.py +141 -109
transformers/models/deepseek_vl_hybrid/processing_deepseek_vl_hybrid.py +12 -44
transformers/models/deformable_detr/configuration_deformable_detr.py +22 -46
transformers/models/deformable_detr/image_processing_deformable_detr.py +59 -61
transformers/models/deformable_detr/image_processing_deformable_detr_fast.py +42 -28
transformers/models/deformable_detr/modeling_deformable_detr.py +454 -652
transformers/models/deformable_detr/modular_deformable_detr.py +1385 -5
transformers/models/deit/configuration_deit.py +0 -1
transformers/models/deit/image_processing_deit.py +18 -21
transformers/models/deit/image_processing_deit_fast.py +0 -1
transformers/models/deit/modeling_deit.py +27 -25
transformers/models/depth_anything/configuration_depth_anything.py +12 -43
transformers/models/depth_anything/modeling_depth_anything.py +10 -11
transformers/models/depth_pro/configuration_depth_pro.py +0 -1
transformers/models/depth_pro/image_processing_depth_pro.py +22 -23
transformers/models/depth_pro/image_processing_depth_pro_fast.py +8 -9
transformers/models/depth_pro/modeling_depth_pro.py +29 -27
transformers/models/detr/configuration_detr.py +18 -50
transformers/models/detr/image_processing_detr.py +64 -66
transformers/models/detr/image_processing_detr_fast.py +33 -34
transformers/models/detr/modeling_detr.py +748 -789
transformers/models/dia/configuration_dia.py +9 -15
transformers/models/dia/feature_extraction_dia.py +6 -9
transformers/models/dia/generation_dia.py +48 -53
transformers/models/dia/modeling_dia.py +68 -71
transformers/models/dia/modular_dia.py +56 -58
transformers/models/dia/processing_dia.py +39 -29
transformers/models/dia/tokenization_dia.py +3 -6
transformers/models/diffllama/configuration_diffllama.py +25 -30
transformers/models/diffllama/modeling_diffllama.py +45 -53
transformers/models/diffllama/modular_diffllama.py +18 -25
transformers/models/dinat/configuration_dinat.py +2 -5
transformers/models/dinat/modeling_dinat.py +47 -48
transformers/models/dinov2/configuration_dinov2.py +2 -5
transformers/models/dinov2/modeling_dinov2.py +20 -21
transformers/models/dinov2_with_registers/configuration_dinov2_with_registers.py +3 -5
transformers/models/dinov2_with_registers/modeling_dinov2_with_registers.py +21 -21
transformers/models/dinov2_with_registers/modular_dinov2_with_registers.py +11 -14
transformers/models/dinov3_convnext/configuration_dinov3_convnext.py +6 -11
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +5 -9
transformers/models/dinov3_vit/configuration_dinov3_vit.py +7 -12
transformers/models/dinov3_vit/image_processing_dinov3_vit_fast.py +7 -8
transformers/models/dinov3_vit/modeling_dinov3_vit.py +19 -22
transformers/models/dinov3_vit/modular_dinov3_vit.py +16 -19
transformers/models/distilbert/configuration_distilbert.py +8 -2
transformers/models/distilbert/modeling_distilbert.py +47 -49
transformers/models/distilbert/tokenization_distilbert.py +0 -1
transformers/models/doge/__init__.py +0 -1
transformers/models/doge/configuration_doge.py +42 -35
transformers/models/doge/modeling_doge.py +46 -49
transformers/models/doge/modular_doge.py +77 -68
transformers/models/donut/configuration_donut_swin.py +0 -1
transformers/models/donut/image_processing_donut.py +26 -29
transformers/models/donut/image_processing_donut_fast.py +9 -14
transformers/models/donut/modeling_donut_swin.py +44 -46
transformers/models/donut/processing_donut.py +5 -26
transformers/models/dots1/configuration_dots1.py +43 -36
transformers/models/dots1/modeling_dots1.py +35 -38
transformers/models/dots1/modular_dots1.py +0 -1
transformers/models/dpr/configuration_dpr.py +19 -2
transformers/models/dpr/modeling_dpr.py +37 -39
transformers/models/dpr/tokenization_dpr.py +7 -9
transformers/models/dpr/tokenization_dpr_fast.py +7 -9
transformers/models/dpt/configuration_dpt.py +23 -66
transformers/models/dpt/image_processing_dpt.py +65 -66
transformers/models/dpt/image_processing_dpt_fast.py +18 -19
transformers/models/dpt/modeling_dpt.py +38 -36
transformers/models/dpt/modular_dpt.py +14 -15
transformers/models/edgetam/configuration_edgetam.py +1 -2
transformers/models/edgetam/modeling_edgetam.py +87 -89
transformers/models/edgetam/modular_edgetam.py +7 -13
transformers/models/edgetam_video/__init__.py +0 -1
transformers/models/edgetam_video/configuration_edgetam_video.py +0 -1
transformers/models/edgetam_video/modeling_edgetam_video.py +126 -128
transformers/models/edgetam_video/modular_edgetam_video.py +25 -27
transformers/models/efficientloftr/configuration_efficientloftr.py +4 -5
transformers/models/efficientloftr/image_processing_efficientloftr.py +14 -16
transformers/models/efficientloftr/image_processing_efficientloftr_fast.py +8 -7
transformers/models/efficientloftr/modeling_efficientloftr.py +46 -38
transformers/models/efficientloftr/modular_efficientloftr.py +1 -3
transformers/models/efficientnet/configuration_efficientnet.py +0 -1
transformers/models/efficientnet/image_processing_efficientnet.py +23 -26
transformers/models/efficientnet/image_processing_efficientnet_fast.py +16 -17
transformers/models/efficientnet/modeling_efficientnet.py +12 -14
transformers/models/electra/configuration_electra.py +13 -3
transformers/models/electra/modeling_electra.py +107 -109
transformers/models/emu3/configuration_emu3.py +17 -17
transformers/models/emu3/image_processing_emu3.py +44 -39
transformers/models/emu3/modeling_emu3.py +143 -109
transformers/models/emu3/modular_emu3.py +109 -73
transformers/models/emu3/processing_emu3.py +18 -43
transformers/models/encodec/configuration_encodec.py +2 -4
transformers/models/encodec/feature_extraction_encodec.py +10 -13
transformers/models/encodec/modeling_encodec.py +25 -29
transformers/models/encoder_decoder/configuration_encoder_decoder.py +12 -2
transformers/models/encoder_decoder/modeling_encoder_decoder.py +37 -43
transformers/models/eomt/configuration_eomt.py +12 -14
transformers/models/eomt/image_processing_eomt.py +53 -55
transformers/models/eomt/image_processing_eomt_fast.py +18 -19
transformers/models/eomt/modeling_eomt.py +19 -21
transformers/models/eomt/modular_eomt.py +28 -30
transformers/models/eomt_dinov3/__init__.py +28 -0
transformers/models/eomt_dinov3/configuration_eomt_dinov3.py +204 -0
transformers/models/eomt_dinov3/modeling_eomt_dinov3.py +1376 -0
transformers/models/eomt_dinov3/modular_eomt_dinov3.py +454 -0
transformers/models/ernie/configuration_ernie.py +24 -3
transformers/models/ernie/modeling_ernie.py +127 -162
transformers/models/ernie/modular_ernie.py +91 -103
transformers/models/ernie4_5/configuration_ernie4_5.py +23 -27
transformers/models/ernie4_5/modeling_ernie4_5.py +35 -37
transformers/models/ernie4_5/modular_ernie4_5.py +1 -3
transformers/models/ernie4_5_moe/configuration_ernie4_5_moe.py +34 -39
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +40 -42
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +7 -9
transformers/models/ernie4_5_vl_moe/configuration_ernie4_5_vl_moe.py +17 -7
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe.py +34 -35
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe_fast.py +6 -7
transformers/models/ernie4_5_vl_moe/modeling_ernie4_5_vl_moe.py +305 -267
transformers/models/ernie4_5_vl_moe/modular_ernie4_5_vl_moe.py +163 -142
transformers/models/ernie4_5_vl_moe/processing_ernie4_5_vl_moe.py +3 -5
transformers/models/ernie4_5_vl_moe/video_processing_ernie4_5_vl_moe.py +17 -18
transformers/models/esm/configuration_esm.py +11 -15
transformers/models/esm/modeling_esm.py +35 -37
transformers/models/esm/modeling_esmfold.py +43 -50
transformers/models/esm/openfold_utils/chunk_utils.py +6 -6
transformers/models/esm/openfold_utils/loss.py +1 -2
transformers/models/esm/openfold_utils/protein.py +15 -16
transformers/models/esm/openfold_utils/tensor_utils.py +6 -6
transformers/models/esm/tokenization_esm.py +2 -4
transformers/models/evolla/configuration_evolla.py +50 -40
transformers/models/evolla/modeling_evolla.py +69 -68
transformers/models/evolla/modular_evolla.py +50 -48
transformers/models/evolla/processing_evolla.py +23 -35
transformers/models/exaone4/configuration_exaone4.py +27 -27
transformers/models/exaone4/modeling_exaone4.py +36 -39
transformers/models/exaone4/modular_exaone4.py +51 -50
transformers/models/exaone_moe/__init__.py +27 -0
transformers/models/exaone_moe/configuration_exaone_moe.py +235 -0
transformers/models/exaone_moe/modeling_exaone_moe.py +665 -0
transformers/models/exaone_moe/modular_exaone_moe.py +373 -0
transformers/models/falcon/configuration_falcon.py +31 -26
transformers/models/falcon/modeling_falcon.py +76 -84
transformers/models/falcon_h1/configuration_falcon_h1.py +57 -51
transformers/models/falcon_h1/modeling_falcon_h1.py +74 -109
transformers/models/falcon_h1/modular_falcon_h1.py +68 -100
transformers/models/falcon_mamba/configuration_falcon_mamba.py +5 -2
transformers/models/falcon_mamba/modeling_falcon_mamba.py +64 -73
transformers/models/falcon_mamba/modular_falcon_mamba.py +14 -13
transformers/models/fast_vlm/configuration_fast_vlm.py +10 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +70 -97
transformers/models/fast_vlm/modular_fast_vlm.py +148 -38
transformers/models/fastspeech2_conformer/configuration_fastspeech2_conformer.py +2 -6
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +45 -47
transformers/models/fastspeech2_conformer/tokenization_fastspeech2_conformer.py +1 -3
transformers/models/flaubert/configuration_flaubert.py +10 -5
transformers/models/flaubert/modeling_flaubert.py +125 -129
transformers/models/flaubert/tokenization_flaubert.py +3 -5
transformers/models/flava/configuration_flava.py +9 -9
transformers/models/flava/image_processing_flava.py +66 -67
transformers/models/flava/image_processing_flava_fast.py +46 -47
transformers/models/flava/modeling_flava.py +144 -135
transformers/models/flava/processing_flava.py +2 -12
transformers/models/flex_olmo/__init__.py +0 -1
transformers/models/flex_olmo/configuration_flex_olmo.py +34 -39
transformers/models/flex_olmo/modeling_flex_olmo.py +41 -43
transformers/models/flex_olmo/modular_flex_olmo.py +46 -51
transformers/models/florence2/configuration_florence2.py +4 -1
transformers/models/florence2/modeling_florence2.py +96 -72
transformers/models/florence2/modular_florence2.py +100 -107
transformers/models/florence2/processing_florence2.py +18 -47
transformers/models/fnet/configuration_fnet.py +6 -2
transformers/models/fnet/modeling_fnet.py +69 -80
transformers/models/fnet/tokenization_fnet.py +0 -1
transformers/models/focalnet/configuration_focalnet.py +2 -5
transformers/models/focalnet/modeling_focalnet.py +49 -48
transformers/models/fsmt/configuration_fsmt.py +12 -17
transformers/models/fsmt/modeling_fsmt.py +47 -48
transformers/models/fsmt/tokenization_fsmt.py +3 -5
transformers/models/funnel/configuration_funnel.py +8 -1
transformers/models/funnel/modeling_funnel.py +91 -93
transformers/models/funnel/tokenization_funnel.py +2 -5
transformers/models/fuyu/configuration_fuyu.py +28 -34
transformers/models/fuyu/image_processing_fuyu.py +29 -31
transformers/models/fuyu/image_processing_fuyu_fast.py +17 -17
transformers/models/fuyu/modeling_fuyu.py +50 -52
transformers/models/fuyu/processing_fuyu.py +9 -36
transformers/models/gemma/configuration_gemma.py +25 -30
transformers/models/gemma/modeling_gemma.py +36 -38
transformers/models/gemma/modular_gemma.py +33 -36
transformers/models/gemma/tokenization_gemma.py +3 -6
transformers/models/gemma2/configuration_gemma2.py +30 -35
transformers/models/gemma2/modeling_gemma2.py +38 -41
transformers/models/gemma2/modular_gemma2.py +63 -67
transformers/models/gemma3/configuration_gemma3.py +53 -48
transformers/models/gemma3/image_processing_gemma3.py +29 -31
transformers/models/gemma3/image_processing_gemma3_fast.py +11 -12
transformers/models/gemma3/modeling_gemma3.py +123 -122
transformers/models/gemma3/modular_gemma3.py +128 -125
transformers/models/gemma3/processing_gemma3.py +5 -5
transformers/models/gemma3n/configuration_gemma3n.py +42 -30
transformers/models/gemma3n/feature_extraction_gemma3n.py +9 -11
transformers/models/gemma3n/modeling_gemma3n.py +166 -147
transformers/models/gemma3n/modular_gemma3n.py +176 -148
transformers/models/gemma3n/processing_gemma3n.py +12 -26
transformers/models/git/configuration_git.py +5 -8
transformers/models/git/modeling_git.py +115 -127
transformers/models/git/processing_git.py +2 -14
transformers/models/glm/configuration_glm.py +26 -30
transformers/models/glm/modeling_glm.py +36 -39
transformers/models/glm/modular_glm.py +4 -7
transformers/models/glm4/configuration_glm4.py +26 -30
transformers/models/glm4/modeling_glm4.py +39 -41
transformers/models/glm4/modular_glm4.py +8 -10
transformers/models/glm46v/configuration_glm46v.py +4 -1
transformers/models/glm46v/image_processing_glm46v.py +40 -38
transformers/models/glm46v/image_processing_glm46v_fast.py +9 -9
transformers/models/glm46v/modeling_glm46v.py +138 -93
transformers/models/glm46v/modular_glm46v.py +5 -3
transformers/models/glm46v/processing_glm46v.py +7 -41
transformers/models/glm46v/video_processing_glm46v.py +9 -11
transformers/models/glm4_moe/configuration_glm4_moe.py +42 -35
transformers/models/glm4_moe/modeling_glm4_moe.py +36 -39
transformers/models/glm4_moe/modular_glm4_moe.py +43 -36
transformers/models/glm4_moe_lite/__init__.py +28 -0
transformers/models/glm4_moe_lite/configuration_glm4_moe_lite.py +233 -0
transformers/models/glm4_moe_lite/modeling_glm4_moe_lite.py +740 -0
transformers/models/glm4_moe_lite/modular_glm4_moe_lite.py +302 -0
transformers/models/glm4v/configuration_glm4v.py +25 -24
transformers/models/glm4v/image_processing_glm4v.py +39 -38
transformers/models/glm4v/image_processing_glm4v_fast.py +8 -9
transformers/models/glm4v/modeling_glm4v.py +249 -210
transformers/models/glm4v/modular_glm4v.py +211 -230
transformers/models/glm4v/processing_glm4v.py +7 -41
transformers/models/glm4v/video_processing_glm4v.py +9 -11
transformers/models/glm4v_moe/configuration_glm4v_moe.py +136 -127
transformers/models/glm4v_moe/modeling_glm4v_moe.py +348 -356
transformers/models/glm4v_moe/modular_glm4v_moe.py +76 -174
transformers/models/glm_image/__init__.py +31 -0
transformers/models/glm_image/configuration_glm_image.py +358 -0
transformers/models/glm_image/image_processing_glm_image.py +503 -0
transformers/models/glm_image/image_processing_glm_image_fast.py +294 -0
transformers/models/glm_image/modeling_glm_image.py +1691 -0
transformers/models/glm_image/modular_glm_image.py +1640 -0
transformers/models/glm_image/processing_glm_image.py +265 -0
transformers/models/glm_ocr/__init__.py +28 -0
transformers/models/glm_ocr/configuration_glm_ocr.py +312 -0
transformers/models/glm_ocr/modeling_glm_ocr.py +1633 -0
transformers/models/glm_ocr/modular_glm_ocr.py +428 -0
transformers/models/glmasr/__init__.py +0 -1
transformers/models/glmasr/configuration_glmasr.py +0 -1
transformers/models/glmasr/modeling_glmasr.py +51 -46
transformers/models/glmasr/modular_glmasr.py +39 -29
transformers/models/glmasr/processing_glmasr.py +7 -8
transformers/models/glpn/configuration_glpn.py +0 -1
transformers/models/glpn/image_processing_glpn.py +11 -12
transformers/models/glpn/image_processing_glpn_fast.py +11 -12
transformers/models/glpn/modeling_glpn.py +14 -14
transformers/models/got_ocr2/configuration_got_ocr2.py +10 -13
transformers/models/got_ocr2/image_processing_got_ocr2.py +22 -24
transformers/models/got_ocr2/image_processing_got_ocr2_fast.py +9 -10
transformers/models/got_ocr2/modeling_got_ocr2.py +69 -77
transformers/models/got_ocr2/modular_got_ocr2.py +60 -52
transformers/models/got_ocr2/processing_got_ocr2.py +42 -63
transformers/models/gpt2/configuration_gpt2.py +13 -2
transformers/models/gpt2/modeling_gpt2.py +111 -113
transformers/models/gpt2/tokenization_gpt2.py +6 -9
transformers/models/gpt_bigcode/configuration_gpt_bigcode.py +7 -2
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +78 -84
transformers/models/gpt_neo/configuration_gpt_neo.py +9 -2
transformers/models/gpt_neo/modeling_gpt_neo.py +66 -71
transformers/models/gpt_neox/configuration_gpt_neox.py +27 -25
transformers/models/gpt_neox/modeling_gpt_neox.py +74 -76
transformers/models/gpt_neox/modular_gpt_neox.py +68 -70
transformers/models/gpt_neox/tokenization_gpt_neox.py +2 -5
transformers/models/gpt_neox_japanese/configuration_gpt_neox_japanese.py +24 -19
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +43 -46
transformers/models/gpt_neox_japanese/tokenization_gpt_neox_japanese.py +1 -3
transformers/models/gpt_oss/configuration_gpt_oss.py +31 -30
transformers/models/gpt_oss/modeling_gpt_oss.py +80 -114
transformers/models/gpt_oss/modular_gpt_oss.py +62 -97
transformers/models/gpt_sw3/tokenization_gpt_sw3.py +4 -4
transformers/models/gptj/configuration_gptj.py +4 -5
transformers/models/gptj/modeling_gptj.py +85 -88
transformers/models/granite/configuration_granite.py +28 -33
transformers/models/granite/modeling_granite.py +43 -45
transformers/models/granite/modular_granite.py +29 -31
transformers/models/granite_speech/configuration_granite_speech.py +0 -1
transformers/models/granite_speech/feature_extraction_granite_speech.py +1 -3
transformers/models/granite_speech/modeling_granite_speech.py +84 -60
transformers/models/granite_speech/processing_granite_speech.py +11 -4
transformers/models/granitemoe/configuration_granitemoe.py +31 -36
transformers/models/granitemoe/modeling_granitemoe.py +39 -41
transformers/models/granitemoe/modular_granitemoe.py +21 -23
transformers/models/granitemoehybrid/__init__.py +0 -1
transformers/models/granitemoehybrid/configuration_granitemoehybrid.py +55 -48
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +82 -118
transformers/models/granitemoehybrid/modular_granitemoehybrid.py +57 -65
transformers/models/granitemoeshared/configuration_granitemoeshared.py +33 -37
transformers/models/granitemoeshared/modeling_granitemoeshared.py +52 -56
transformers/models/granitemoeshared/modular_granitemoeshared.py +19 -21
transformers/models/grounding_dino/configuration_grounding_dino.py +10 -46
transformers/models/grounding_dino/image_processing_grounding_dino.py +60 -62
transformers/models/grounding_dino/image_processing_grounding_dino_fast.py +28 -29
transformers/models/grounding_dino/modeling_grounding_dino.py +161 -181
transformers/models/grounding_dino/modular_grounding_dino.py +2 -3
transformers/models/grounding_dino/processing_grounding_dino.py +10 -38
transformers/models/groupvit/configuration_groupvit.py +4 -2
transformers/models/groupvit/modeling_groupvit.py +98 -92
transformers/models/helium/configuration_helium.py +25 -29
transformers/models/helium/modeling_helium.py +37 -40
transformers/models/helium/modular_helium.py +3 -7
transformers/models/herbert/tokenization_herbert.py +4 -6
transformers/models/hgnet_v2/configuration_hgnet_v2.py +2 -5
transformers/models/hgnet_v2/modeling_hgnet_v2.py +12 -14
transformers/models/hgnet_v2/modular_hgnet_v2.py +13 -17
transformers/models/hiera/configuration_hiera.py +2 -5
transformers/models/hiera/modeling_hiera.py +71 -70
transformers/models/hubert/configuration_hubert.py +4 -2
transformers/models/hubert/modeling_hubert.py +42 -41
transformers/models/hubert/modular_hubert.py +8 -11
transformers/models/hunyuan_v1_dense/configuration_hunyuan_v1_dense.py +26 -31
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +58 -37
transformers/models/hunyuan_v1_dense/modular_hunyuan_v1_dense.py +31 -11
transformers/models/hunyuan_v1_moe/configuration_hunyuan_v1_moe.py +31 -36
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +54 -44
transformers/models/hunyuan_v1_moe/modular_hunyuan_v1_moe.py +27 -15
transformers/models/ibert/configuration_ibert.py +4 -2
transformers/models/ibert/modeling_ibert.py +60 -62
transformers/models/ibert/quant_modules.py +0 -1
transformers/models/idefics/configuration_idefics.py +5 -8
transformers/models/idefics/image_processing_idefics.py +13 -15
transformers/models/idefics/modeling_idefics.py +63 -65
transformers/models/idefics/perceiver.py +1 -3
transformers/models/idefics/processing_idefics.py +32 -48
transformers/models/idefics/vision.py +27 -28
transformers/models/idefics2/configuration_idefics2.py +1 -3
transformers/models/idefics2/image_processing_idefics2.py +31 -32
transformers/models/idefics2/image_processing_idefics2_fast.py +8 -8
transformers/models/idefics2/modeling_idefics2.py +126 -106
transformers/models/idefics2/processing_idefics2.py +10 -68
transformers/models/idefics3/configuration_idefics3.py +1 -4
transformers/models/idefics3/image_processing_idefics3.py +42 -43
transformers/models/idefics3/image_processing_idefics3_fast.py +40 -15
transformers/models/idefics3/modeling_idefics3.py +113 -92
transformers/models/idefics3/processing_idefics3.py +15 -69
transformers/models/ijepa/configuration_ijepa.py +0 -1
transformers/models/ijepa/modeling_ijepa.py +13 -14
transformers/models/ijepa/modular_ijepa.py +5 -7
transformers/models/imagegpt/configuration_imagegpt.py +9 -2
transformers/models/imagegpt/image_processing_imagegpt.py +17 -18
transformers/models/imagegpt/image_processing_imagegpt_fast.py +10 -11
transformers/models/imagegpt/modeling_imagegpt.py +65 -62
transformers/models/informer/configuration_informer.py +6 -9
transformers/models/informer/modeling_informer.py +87 -89
transformers/models/informer/modular_informer.py +13 -16
transformers/models/instructblip/configuration_instructblip.py +2 -2
transformers/models/instructblip/modeling_instructblip.py +104 -79
transformers/models/instructblip/processing_instructblip.py +10 -36
transformers/models/instructblipvideo/configuration_instructblipvideo.py +2 -2
transformers/models/instructblipvideo/modeling_instructblipvideo.py +108 -105
transformers/models/instructblipvideo/modular_instructblipvideo.py +73 -64
transformers/models/instructblipvideo/processing_instructblipvideo.py +14 -33
transformers/models/instructblipvideo/video_processing_instructblipvideo.py +6 -7
transformers/models/internvl/configuration_internvl.py +5 -1
transformers/models/internvl/modeling_internvl.py +76 -98
transformers/models/internvl/modular_internvl.py +45 -59
transformers/models/internvl/processing_internvl.py +12 -45
transformers/models/internvl/video_processing_internvl.py +10 -11
transformers/models/jais2/configuration_jais2.py +25 -29
transformers/models/jais2/modeling_jais2.py +36 -38
transformers/models/jais2/modular_jais2.py +20 -22
transformers/models/jamba/configuration_jamba.py +5 -8
transformers/models/jamba/modeling_jamba.py +47 -50
transformers/models/jamba/modular_jamba.py +40 -41
transformers/models/janus/configuration_janus.py +0 -1
transformers/models/janus/image_processing_janus.py +37 -39
transformers/models/janus/image_processing_janus_fast.py +20 -21
transformers/models/janus/modeling_janus.py +103 -188
transformers/models/janus/modular_janus.py +122 -83
transformers/models/janus/processing_janus.py +17 -43
transformers/models/jetmoe/configuration_jetmoe.py +26 -27
transformers/models/jetmoe/modeling_jetmoe.py +42 -45
transformers/models/jetmoe/modular_jetmoe.py +33 -36
transformers/models/kosmos2/configuration_kosmos2.py +10 -9
transformers/models/kosmos2/modeling_kosmos2.py +199 -178
transformers/models/kosmos2/processing_kosmos2.py +40 -55
transformers/models/kosmos2_5/__init__.py +0 -1
transformers/models/kosmos2_5/configuration_kosmos2_5.py +8 -9
transformers/models/kosmos2_5/image_processing_kosmos2_5.py +10 -12
transformers/models/kosmos2_5/image_processing_kosmos2_5_fast.py +2 -11
transformers/models/kosmos2_5/modeling_kosmos2_5.py +162 -172
transformers/models/kosmos2_5/processing_kosmos2_5.py +8 -29
transformers/models/kyutai_speech_to_text/configuration_kyutai_speech_to_text.py +31 -28
transformers/models/kyutai_speech_to_text/feature_extraction_kyutai_speech_to_text.py +12 -14
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +103 -106
transformers/models/kyutai_speech_to_text/modular_kyutai_speech_to_text.py +20 -22
transformers/models/kyutai_speech_to_text/processing_kyutai_speech_to_text.py +2 -8
transformers/models/lasr/configuration_lasr.py +3 -7
transformers/models/lasr/feature_extraction_lasr.py +10 -12
transformers/models/lasr/modeling_lasr.py +21 -24
transformers/models/lasr/modular_lasr.py +11 -13
transformers/models/lasr/processing_lasr.py +12 -6
transformers/models/lasr/tokenization_lasr.py +2 -4
transformers/models/layoutlm/configuration_layoutlm.py +14 -2
transformers/models/layoutlm/modeling_layoutlm.py +70 -72
transformers/models/layoutlmv2/configuration_layoutlmv2.py +14 -17
transformers/models/layoutlmv2/image_processing_layoutlmv2.py +18 -21
transformers/models/layoutlmv2/image_processing_layoutlmv2_fast.py +7 -8
transformers/models/layoutlmv2/modeling_layoutlmv2.py +48 -50
transformers/models/layoutlmv2/processing_layoutlmv2.py +14 -44
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +63 -74
transformers/models/layoutlmv3/configuration_layoutlmv3.py +16 -19
transformers/models/layoutlmv3/image_processing_layoutlmv3.py +24 -26
transformers/models/layoutlmv3/image_processing_layoutlmv3_fast.py +9 -10
transformers/models/layoutlmv3/modeling_layoutlmv3.py +49 -51
transformers/models/layoutlmv3/processing_layoutlmv3.py +14 -46
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +64 -75
transformers/models/layoutxlm/configuration_layoutxlm.py +14 -17
transformers/models/layoutxlm/modular_layoutxlm.py +0 -1
transformers/models/layoutxlm/processing_layoutxlm.py +14 -44
transformers/models/layoutxlm/tokenization_layoutxlm.py +65 -76
transformers/models/led/configuration_led.py +8 -12
transformers/models/led/modeling_led.py +113 -267
transformers/models/levit/configuration_levit.py +0 -1
transformers/models/levit/image_processing_levit.py +19 -21
transformers/models/levit/image_processing_levit_fast.py +4 -5
transformers/models/levit/modeling_levit.py +17 -19
transformers/models/lfm2/configuration_lfm2.py +27 -30
transformers/models/lfm2/modeling_lfm2.py +46 -48
transformers/models/lfm2/modular_lfm2.py +32 -32
transformers/models/lfm2_moe/__init__.py +0 -1
transformers/models/lfm2_moe/configuration_lfm2_moe.py +6 -9
transformers/models/lfm2_moe/modeling_lfm2_moe.py +48 -49
transformers/models/lfm2_moe/modular_lfm2_moe.py +8 -9
transformers/models/lfm2_vl/configuration_lfm2_vl.py +4 -1
transformers/models/lfm2_vl/image_processing_lfm2_vl_fast.py +43 -20
transformers/models/lfm2_vl/modeling_lfm2_vl.py +73 -61
transformers/models/lfm2_vl/modular_lfm2_vl.py +66 -54
transformers/models/lfm2_vl/processing_lfm2_vl.py +14 -34
transformers/models/lightglue/image_processing_lightglue.py +16 -15
transformers/models/lightglue/image_processing_lightglue_fast.py +8 -7
transformers/models/lightglue/modeling_lightglue.py +31 -33
transformers/models/lightglue/modular_lightglue.py +31 -31
transformers/models/lighton_ocr/__init__.py +28 -0
transformers/models/lighton_ocr/configuration_lighton_ocr.py +128 -0
transformers/models/lighton_ocr/modeling_lighton_ocr.py +463 -0
transformers/models/lighton_ocr/modular_lighton_ocr.py +404 -0
transformers/models/lighton_ocr/processing_lighton_ocr.py +229 -0
transformers/models/lilt/configuration_lilt.py +6 -2
transformers/models/lilt/modeling_lilt.py +53 -55
transformers/models/llama/configuration_llama.py +26 -31
transformers/models/llama/modeling_llama.py +35 -38
transformers/models/llama/tokenization_llama.py +2 -4
transformers/models/llama4/configuration_llama4.py +87 -69
transformers/models/llama4/image_processing_llama4_fast.py +11 -12
transformers/models/llama4/modeling_llama4.py +116 -115
transformers/models/llama4/processing_llama4.py +33 -57
transformers/models/llava/configuration_llava.py +10 -1
transformers/models/llava/image_processing_llava.py +25 -28
transformers/models/llava/image_processing_llava_fast.py +9 -10
transformers/models/llava/modeling_llava.py +73 -102
transformers/models/llava/processing_llava.py +18 -51
transformers/models/llava_next/configuration_llava_next.py +2 -2
transformers/models/llava_next/image_processing_llava_next.py +43 -45
transformers/models/llava_next/image_processing_llava_next_fast.py +11 -12
transformers/models/llava_next/modeling_llava_next.py +103 -104
transformers/models/llava_next/processing_llava_next.py +18 -47
transformers/models/llava_next_video/configuration_llava_next_video.py +10 -7
transformers/models/llava_next_video/modeling_llava_next_video.py +168 -155
transformers/models/llava_next_video/modular_llava_next_video.py +154 -147
transformers/models/llava_next_video/processing_llava_next_video.py +21 -63
transformers/models/llava_next_video/video_processing_llava_next_video.py +0 -1
transformers/models/llava_onevision/configuration_llava_onevision.py +10 -7
transformers/models/llava_onevision/image_processing_llava_onevision.py +40 -42
transformers/models/llava_onevision/image_processing_llava_onevision_fast.py +14 -14
transformers/models/llava_onevision/modeling_llava_onevision.py +170 -166
transformers/models/llava_onevision/modular_llava_onevision.py +156 -152
transformers/models/llava_onevision/processing_llava_onevision.py +21 -53
transformers/models/llava_onevision/video_processing_llava_onevision.py +0 -1
transformers/models/longcat_flash/__init__.py +0 -1
transformers/models/longcat_flash/configuration_longcat_flash.py +39 -45
transformers/models/longcat_flash/modeling_longcat_flash.py +37 -38
transformers/models/longcat_flash/modular_longcat_flash.py +23 -24
transformers/models/longformer/configuration_longformer.py +5 -5
transformers/models/longformer/modeling_longformer.py +99 -101
transformers/models/longt5/configuration_longt5.py +9 -7
transformers/models/longt5/modeling_longt5.py +45 -45
transformers/models/luke/configuration_luke.py +8 -2
transformers/models/luke/modeling_luke.py +179 -181
transformers/models/luke/tokenization_luke.py +99 -105
transformers/{pipelines/deprecated → models/lw_detr}/__init__.py +14 -3
transformers/models/lw_detr/configuration_lw_detr.py +362 -0
transformers/models/lw_detr/modeling_lw_detr.py +1697 -0
transformers/models/lw_detr/modular_lw_detr.py +1609 -0
transformers/models/lxmert/configuration_lxmert.py +16 -1
transformers/models/lxmert/modeling_lxmert.py +63 -74
transformers/models/m2m_100/configuration_m2m_100.py +7 -9
transformers/models/m2m_100/modeling_m2m_100.py +72 -74
transformers/models/m2m_100/tokenization_m2m_100.py +8 -8
transformers/models/mamba/configuration_mamba.py +5 -3
transformers/models/mamba/modeling_mamba.py +61 -70
transformers/models/mamba2/configuration_mamba2.py +5 -8
transformers/models/mamba2/modeling_mamba2.py +66 -79
transformers/models/marian/configuration_marian.py +10 -5
transformers/models/marian/modeling_marian.py +88 -90
transformers/models/marian/tokenization_marian.py +6 -6
transformers/models/markuplm/configuration_markuplm.py +4 -7
transformers/models/markuplm/feature_extraction_markuplm.py +1 -2
transformers/models/markuplm/modeling_markuplm.py +63 -65
transformers/models/markuplm/processing_markuplm.py +31 -38
transformers/models/markuplm/tokenization_markuplm.py +67 -77
transformers/models/mask2former/configuration_mask2former.py +14 -52
transformers/models/mask2former/image_processing_mask2former.py +84 -85
transformers/models/mask2former/image_processing_mask2former_fast.py +36 -36
transformers/models/mask2former/modeling_mask2former.py +108 -104
transformers/models/mask2former/modular_mask2former.py +6 -8
transformers/models/maskformer/configuration_maskformer.py +17 -51
transformers/models/maskformer/configuration_maskformer_swin.py +2 -5
transformers/models/maskformer/image_processing_maskformer.py +84 -85
transformers/models/maskformer/image_processing_maskformer_fast.py +35 -36
transformers/models/maskformer/modeling_maskformer.py +71 -67
transformers/models/maskformer/modeling_maskformer_swin.py +20 -23
transformers/models/mbart/configuration_mbart.py +9 -5
transformers/models/mbart/modeling_mbart.py +120 -119
transformers/models/mbart/tokenization_mbart.py +2 -4
transformers/models/mbart50/tokenization_mbart50.py +3 -5
transformers/models/megatron_bert/configuration_megatron_bert.py +13 -3
transformers/models/megatron_bert/modeling_megatron_bert.py +139 -165
transformers/models/metaclip_2/configuration_metaclip_2.py +4 -1
transformers/models/metaclip_2/modeling_metaclip_2.py +94 -87
transformers/models/metaclip_2/modular_metaclip_2.py +59 -45
transformers/models/mgp_str/configuration_mgp_str.py +0 -1
transformers/models/mgp_str/modeling_mgp_str.py +18 -18
transformers/models/mgp_str/processing_mgp_str.py +3 -20
transformers/models/mgp_str/tokenization_mgp_str.py +1 -3
transformers/models/mimi/configuration_mimi.py +42 -40
transformers/models/mimi/modeling_mimi.py +116 -115
transformers/models/minimax/__init__.py +0 -1
transformers/models/minimax/configuration_minimax.py +40 -47
transformers/models/minimax/modeling_minimax.py +46 -49
transformers/models/minimax/modular_minimax.py +59 -65
transformers/models/minimax_m2/__init__.py +28 -0
transformers/models/minimax_m2/configuration_minimax_m2.py +188 -0
transformers/models/minimax_m2/modeling_minimax_m2.py +704 -0
transformers/models/minimax_m2/modular_minimax_m2.py +346 -0
transformers/models/ministral/configuration_ministral.py +25 -29
transformers/models/ministral/modeling_ministral.py +35 -37
transformers/models/ministral/modular_ministral.py +32 -37
transformers/models/ministral3/configuration_ministral3.py +23 -26
transformers/models/ministral3/modeling_ministral3.py +35 -37
transformers/models/ministral3/modular_ministral3.py +7 -8
transformers/models/mistral/configuration_mistral.py +24 -29
transformers/models/mistral/modeling_mistral.py +35 -37
transformers/models/mistral/modular_mistral.py +14 -15
transformers/models/mistral3/configuration_mistral3.py +4 -1
transformers/models/mistral3/modeling_mistral3.py +79 -82
transformers/models/mistral3/modular_mistral3.py +66 -67
transformers/models/mixtral/configuration_mixtral.py +32 -38
transformers/models/mixtral/modeling_mixtral.py +39 -42
transformers/models/mixtral/modular_mixtral.py +26 -29
transformers/models/mlcd/configuration_mlcd.py +0 -1
transformers/models/mlcd/modeling_mlcd.py +17 -17
transformers/models/mlcd/modular_mlcd.py +16 -16
transformers/models/mllama/configuration_mllama.py +10 -15
transformers/models/mllama/image_processing_mllama.py +23 -25
transformers/models/mllama/image_processing_mllama_fast.py +11 -11
transformers/models/mllama/modeling_mllama.py +100 -103
transformers/models/mllama/processing_mllama.py +6 -55
transformers/models/mluke/tokenization_mluke.py +97 -103
transformers/models/mm_grounding_dino/configuration_mm_grounding_dino.py +10 -46
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +159 -179
transformers/models/mm_grounding_dino/modular_mm_grounding_dino.py +10 -46
transformers/models/mobilebert/configuration_mobilebert.py +4 -2
transformers/models/mobilebert/modeling_mobilebert.py +78 -88
transformers/models/mobilebert/tokenization_mobilebert.py +0 -1
transformers/models/mobilenet_v1/configuration_mobilenet_v1.py +0 -1
transformers/models/mobilenet_v1/image_processing_mobilenet_v1.py +20 -23
transformers/models/mobilenet_v1/image_processing_mobilenet_v1_fast.py +0 -1
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +13 -16
transformers/models/mobilenet_v2/configuration_mobilenet_v2.py +0 -1
transformers/models/mobilenet_v2/image_processing_mobilenet_v2.py +48 -51
transformers/models/mobilenet_v2/image_processing_mobilenet_v2_fast.py +14 -15
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +21 -22
transformers/models/mobilevit/configuration_mobilevit.py +0 -1
transformers/models/mobilevit/image_processing_mobilevit.py +41 -44
transformers/models/mobilevit/image_processing_mobilevit_fast.py +12 -13
transformers/models/mobilevit/modeling_mobilevit.py +21 -21
transformers/models/mobilevitv2/configuration_mobilevitv2.py +0 -1
transformers/models/mobilevitv2/modeling_mobilevitv2.py +21 -22
transformers/models/modernbert/configuration_modernbert.py +76 -51
transformers/models/modernbert/modeling_modernbert.py +188 -943
transformers/models/modernbert/modular_modernbert.py +255 -978
transformers/models/modernbert_decoder/configuration_modernbert_decoder.py +50 -44
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +54 -64
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +92 -92
transformers/models/moonshine/configuration_moonshine.py +34 -31
transformers/models/moonshine/modeling_moonshine.py +70 -72
transformers/models/moonshine/modular_moonshine.py +91 -86
transformers/models/moshi/configuration_moshi.py +46 -23
transformers/models/moshi/modeling_moshi.py +134 -142
transformers/models/mpnet/configuration_mpnet.py +6 -2
transformers/models/mpnet/modeling_mpnet.py +55 -57
transformers/models/mpnet/tokenization_mpnet.py +1 -4
transformers/models/mpt/configuration_mpt.py +17 -9
transformers/models/mpt/modeling_mpt.py +58 -60
transformers/models/mra/configuration_mra.py +8 -2
transformers/models/mra/modeling_mra.py +54 -56
transformers/models/mt5/configuration_mt5.py +9 -6
transformers/models/mt5/modeling_mt5.py +80 -85
transformers/models/musicgen/configuration_musicgen.py +12 -8
transformers/models/musicgen/modeling_musicgen.py +114 -116
transformers/models/musicgen/processing_musicgen.py +3 -21
transformers/models/musicgen_melody/configuration_musicgen_melody.py +15 -8
transformers/models/musicgen_melody/feature_extraction_musicgen_melody.py +8 -9
transformers/models/musicgen_melody/modeling_musicgen_melody.py +113 -126
transformers/models/musicgen_melody/processing_musicgen_melody.py +3 -22
transformers/models/mvp/configuration_mvp.py +8 -5
transformers/models/mvp/modeling_mvp.py +121 -123
transformers/models/myt5/tokenization_myt5.py +8 -10
transformers/models/nanochat/configuration_nanochat.py +5 -8
transformers/models/nanochat/modeling_nanochat.py +36 -39
transformers/models/nanochat/modular_nanochat.py +16 -18
transformers/models/nemotron/configuration_nemotron.py +25 -30
transformers/models/nemotron/modeling_nemotron.py +53 -66
transformers/models/nllb/tokenization_nllb.py +14 -14
transformers/models/nllb_moe/configuration_nllb_moe.py +7 -10
transformers/models/nllb_moe/modeling_nllb_moe.py +70 -72
transformers/models/nougat/image_processing_nougat.py +29 -32
transformers/models/nougat/image_processing_nougat_fast.py +12 -13
transformers/models/nougat/processing_nougat.py +37 -39
transformers/models/nougat/tokenization_nougat.py +5 -7
transformers/models/nystromformer/configuration_nystromformer.py +8 -2
transformers/models/nystromformer/modeling_nystromformer.py +61 -63
transformers/models/olmo/configuration_olmo.py +23 -28
transformers/models/olmo/modeling_olmo.py +35 -38
transformers/models/olmo/modular_olmo.py +8 -12
transformers/models/olmo2/configuration_olmo2.py +27 -32
transformers/models/olmo2/modeling_olmo2.py +36 -39
transformers/models/olmo2/modular_olmo2.py +36 -38
transformers/models/olmo3/__init__.py +0 -1
transformers/models/olmo3/configuration_olmo3.py +30 -34
transformers/models/olmo3/modeling_olmo3.py +35 -38
transformers/models/olmo3/modular_olmo3.py +44 -47
transformers/models/olmoe/configuration_olmoe.py +29 -33
transformers/models/olmoe/modeling_olmoe.py +41 -43
transformers/models/olmoe/modular_olmoe.py +15 -16
transformers/models/omdet_turbo/configuration_omdet_turbo.py +14 -50
transformers/models/omdet_turbo/modeling_omdet_turbo.py +59 -57
transformers/models/omdet_turbo/processing_omdet_turbo.py +19 -67
transformers/models/oneformer/configuration_oneformer.py +11 -51
transformers/models/oneformer/image_processing_oneformer.py +83 -84
transformers/models/oneformer/image_processing_oneformer_fast.py +41 -42
transformers/models/oneformer/modeling_oneformer.py +137 -133
transformers/models/oneformer/processing_oneformer.py +28 -43
transformers/models/openai/configuration_openai.py +16 -1
transformers/models/openai/modeling_openai.py +50 -51
transformers/models/openai/tokenization_openai.py +2 -5
transformers/models/opt/configuration_opt.py +6 -7
transformers/models/opt/modeling_opt.py +79 -80
transformers/models/ovis2/__init__.py +0 -1
transformers/models/ovis2/configuration_ovis2.py +4 -1
transformers/models/ovis2/image_processing_ovis2.py +22 -24
transformers/models/ovis2/image_processing_ovis2_fast.py +9 -10
transformers/models/ovis2/modeling_ovis2.py +99 -142
transformers/models/ovis2/modular_ovis2.py +82 -45
transformers/models/ovis2/processing_ovis2.py +12 -40
transformers/models/owlv2/configuration_owlv2.py +4 -2
transformers/models/owlv2/image_processing_owlv2.py +20 -21
transformers/models/owlv2/image_processing_owlv2_fast.py +12 -13
transformers/models/owlv2/modeling_owlv2.py +122 -114
transformers/models/owlv2/modular_owlv2.py +11 -12
transformers/models/owlv2/processing_owlv2.py +20 -49
transformers/models/owlvit/configuration_owlvit.py +4 -2
transformers/models/owlvit/image_processing_owlvit.py +21 -22
transformers/models/owlvit/image_processing_owlvit_fast.py +2 -3
transformers/models/owlvit/modeling_owlvit.py +121 -113
transformers/models/owlvit/processing_owlvit.py +20 -48
transformers/models/paddleocr_vl/__init__.py +0 -1
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +28 -29
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +34 -35
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +12 -12
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +159 -158
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +148 -119
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +1 -3
transformers/models/paligemma/configuration_paligemma.py +4 -1
transformers/models/paligemma/modeling_paligemma.py +81 -79
transformers/models/paligemma/processing_paligemma.py +13 -66
transformers/models/parakeet/configuration_parakeet.py +3 -8
transformers/models/parakeet/feature_extraction_parakeet.py +10 -12
transformers/models/parakeet/modeling_parakeet.py +21 -25
transformers/models/parakeet/modular_parakeet.py +19 -21
transformers/models/parakeet/processing_parakeet.py +12 -5
transformers/models/parakeet/tokenization_parakeet.py +2 -4
transformers/models/patchtsmixer/configuration_patchtsmixer.py +5 -8
transformers/models/patchtsmixer/modeling_patchtsmixer.py +63 -65
transformers/models/patchtst/configuration_patchtst.py +6 -9
transformers/models/patchtst/modeling_patchtst.py +75 -77
transformers/models/pe_audio/__init__.py +0 -1
transformers/models/pe_audio/configuration_pe_audio.py +14 -16
transformers/models/pe_audio/feature_extraction_pe_audio.py +6 -8
transformers/models/pe_audio/modeling_pe_audio.py +30 -31
transformers/models/pe_audio/modular_pe_audio.py +17 -18
transformers/models/pe_audio/processing_pe_audio.py +0 -1
transformers/models/pe_audio_video/__init__.py +0 -1
transformers/models/pe_audio_video/configuration_pe_audio_video.py +15 -17
transformers/models/pe_audio_video/modeling_pe_audio_video.py +64 -65
transformers/models/pe_audio_video/modular_pe_audio_video.py +56 -57
transformers/models/pe_audio_video/processing_pe_audio_video.py +0 -1
transformers/models/pe_video/__init__.py +0 -1
transformers/models/pe_video/configuration_pe_video.py +14 -16
transformers/models/pe_video/modeling_pe_video.py +57 -46
transformers/models/pe_video/modular_pe_video.py +47 -35
transformers/models/pe_video/video_processing_pe_video.py +2 -4
transformers/models/pegasus/configuration_pegasus.py +8 -6
transformers/models/pegasus/modeling_pegasus.py +67 -69
transformers/models/pegasus/tokenization_pegasus.py +1 -4
transformers/models/pegasus_x/configuration_pegasus_x.py +5 -4
transformers/models/pegasus_x/modeling_pegasus_x.py +53 -55
transformers/models/perceiver/configuration_perceiver.py +0 -1
transformers/models/perceiver/image_processing_perceiver.py +22 -25
transformers/models/perceiver/image_processing_perceiver_fast.py +7 -8
transformers/models/perceiver/modeling_perceiver.py +152 -145
transformers/models/perceiver/tokenization_perceiver.py +3 -6
transformers/models/perception_lm/configuration_perception_lm.py +0 -1
transformers/models/perception_lm/image_processing_perception_lm_fast.py +8 -9
transformers/models/perception_lm/modeling_perception_lm.py +64 -67
transformers/models/perception_lm/modular_perception_lm.py +58 -58
transformers/models/perception_lm/processing_perception_lm.py +13 -47
transformers/models/perception_lm/video_processing_perception_lm.py +0 -1
transformers/models/persimmon/configuration_persimmon.py +23 -28
transformers/models/persimmon/modeling_persimmon.py +44 -47
transformers/models/phi/configuration_phi.py +27 -28
transformers/models/phi/modeling_phi.py +39 -41
transformers/models/phi/modular_phi.py +26 -26
transformers/models/phi3/configuration_phi3.py +32 -37
transformers/models/phi3/modeling_phi3.py +37 -40
transformers/models/phi3/modular_phi3.py +16 -20
transformers/models/phi4_multimodal/configuration_phi4_multimodal.py +36 -39
transformers/models/phi4_multimodal/feature_extraction_phi4_multimodal.py +7 -9
transformers/models/phi4_multimodal/image_processing_phi4_multimodal_fast.py +11 -11
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +100 -117
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +103 -90
transformers/models/phi4_multimodal/processing_phi4_multimodal.py +7 -42
transformers/models/phimoe/configuration_phimoe.py +31 -36
transformers/models/phimoe/modeling_phimoe.py +50 -77
transformers/models/phimoe/modular_phimoe.py +12 -8
transformers/models/phobert/tokenization_phobert.py +4 -6
transformers/models/pix2struct/configuration_pix2struct.py +12 -10
transformers/models/pix2struct/image_processing_pix2struct.py +15 -19
transformers/models/pix2struct/image_processing_pix2struct_fast.py +12 -15
transformers/models/pix2struct/modeling_pix2struct.py +56 -52
transformers/models/pix2struct/processing_pix2struct.py +5 -26
transformers/models/pixio/__init__.py +0 -1
transformers/models/pixio/configuration_pixio.py +2 -5
transformers/models/pixio/modeling_pixio.py +16 -17
transformers/models/pixio/modular_pixio.py +7 -8
transformers/models/pixtral/configuration_pixtral.py +11 -14
transformers/models/pixtral/image_processing_pixtral.py +26 -28
transformers/models/pixtral/image_processing_pixtral_fast.py +10 -11
transformers/models/pixtral/modeling_pixtral.py +31 -37
transformers/models/pixtral/processing_pixtral.py +18 -52
transformers/models/plbart/configuration_plbart.py +8 -6
transformers/models/plbart/modeling_plbart.py +109 -109
transformers/models/plbart/modular_plbart.py +31 -33
transformers/models/plbart/tokenization_plbart.py +4 -5
transformers/models/poolformer/configuration_poolformer.py +0 -1
transformers/models/poolformer/image_processing_poolformer.py +21 -24
transformers/models/poolformer/image_processing_poolformer_fast.py +13 -14
transformers/models/poolformer/modeling_poolformer.py +10 -12
transformers/models/pop2piano/configuration_pop2piano.py +7 -7
transformers/models/pop2piano/feature_extraction_pop2piano.py +6 -9
transformers/models/pop2piano/modeling_pop2piano.py +24 -24
transformers/models/pop2piano/processing_pop2piano.py +25 -33
transformers/models/pop2piano/tokenization_pop2piano.py +15 -23
transformers/models/pp_doclayout_v3/__init__.py +30 -0
transformers/models/pp_doclayout_v3/configuration_pp_doclayout_v3.py +277 -0
transformers/models/pp_doclayout_v3/image_processing_pp_doclayout_v3_fast.py +305 -0
transformers/models/pp_doclayout_v3/modeling_pp_doclayout_v3.py +2083 -0
transformers/models/pp_doclayout_v3/modular_pp_doclayout_v3.py +1549 -0
transformers/models/prompt_depth_anything/configuration_prompt_depth_anything.py +13 -46
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything.py +28 -28
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything_fast.py +20 -21
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +17 -16
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +21 -20
transformers/models/prophetnet/configuration_prophetnet.py +37 -38
transformers/models/prophetnet/modeling_prophetnet.py +121 -153
transformers/models/prophetnet/tokenization_prophetnet.py +14 -16
transformers/models/pvt/configuration_pvt.py +0 -1
transformers/models/pvt/image_processing_pvt.py +24 -27
transformers/models/pvt/image_processing_pvt_fast.py +1 -2
transformers/models/pvt/modeling_pvt.py +19 -21
transformers/models/pvt_v2/configuration_pvt_v2.py +4 -8
transformers/models/pvt_v2/modeling_pvt_v2.py +27 -28
transformers/models/qwen2/configuration_qwen2.py +32 -25
transformers/models/qwen2/modeling_qwen2.py +35 -37
transformers/models/qwen2/modular_qwen2.py +14 -15
transformers/models/qwen2/tokenization_qwen2.py +2 -9
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +36 -27
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +241 -214
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +228 -193
transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py +41 -49
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +28 -34
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +188 -145
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +64 -91
transformers/models/qwen2_5_vl/processing_qwen2_5_vl.py +7 -43
transformers/models/qwen2_audio/configuration_qwen2_audio.py +0 -1
transformers/models/qwen2_audio/modeling_qwen2_audio.py +39 -41
transformers/models/qwen2_audio/processing_qwen2_audio.py +13 -42
transformers/models/qwen2_moe/configuration_qwen2_moe.py +42 -35
transformers/models/qwen2_moe/modeling_qwen2_moe.py +40 -43
transformers/models/qwen2_moe/modular_qwen2_moe.py +10 -13
transformers/models/qwen2_vl/configuration_qwen2_vl.py +28 -33
transformers/models/qwen2_vl/image_processing_qwen2_vl.py +38 -40
transformers/models/qwen2_vl/image_processing_qwen2_vl_fast.py +12 -15
transformers/models/qwen2_vl/modeling_qwen2_vl.py +184 -141
transformers/models/qwen2_vl/processing_qwen2_vl.py +7 -44
transformers/models/qwen2_vl/video_processing_qwen2_vl.py +38 -18
transformers/models/qwen3/configuration_qwen3.py +34 -27
transformers/models/qwen3/modeling_qwen3.py +35 -38
transformers/models/qwen3/modular_qwen3.py +7 -9
transformers/models/qwen3_moe/configuration_qwen3_moe.py +45 -35
transformers/models/qwen3_moe/modeling_qwen3_moe.py +40 -43
transformers/models/qwen3_moe/modular_qwen3_moe.py +10 -13
transformers/models/qwen3_next/configuration_qwen3_next.py +47 -38
transformers/models/qwen3_next/modeling_qwen3_next.py +44 -47
transformers/models/qwen3_next/modular_qwen3_next.py +37 -38
transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py +139 -106
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +266 -206
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +228 -181
transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py +40 -48
transformers/models/qwen3_vl/configuration_qwen3_vl.py +22 -24
transformers/models/qwen3_vl/modeling_qwen3_vl.py +185 -122
transformers/models/qwen3_vl/modular_qwen3_vl.py +153 -139
transformers/models/qwen3_vl/processing_qwen3_vl.py +6 -42
transformers/models/qwen3_vl/video_processing_qwen3_vl.py +10 -12
transformers/models/qwen3_vl_moe/configuration_qwen3_vl_moe.py +27 -30
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +249 -178
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +55 -42
transformers/models/rag/configuration_rag.py +6 -7
transformers/models/rag/modeling_rag.py +119 -121
transformers/models/rag/retrieval_rag.py +3 -5
transformers/models/rag/tokenization_rag.py +0 -50
transformers/models/recurrent_gemma/configuration_recurrent_gemma.py +29 -30
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +35 -39
transformers/models/reformer/configuration_reformer.py +7 -8
transformers/models/reformer/modeling_reformer.py +67 -68
transformers/models/reformer/tokenization_reformer.py +3 -6
transformers/models/regnet/configuration_regnet.py +0 -1
transformers/models/regnet/modeling_regnet.py +7 -9
transformers/models/rembert/configuration_rembert.py +8 -2
transformers/models/rembert/modeling_rembert.py +108 -132
transformers/models/rembert/tokenization_rembert.py +1 -4
transformers/models/resnet/configuration_resnet.py +2 -5
transformers/models/resnet/modeling_resnet.py +14 -15
transformers/models/roberta/configuration_roberta.py +11 -3
transformers/models/roberta/modeling_roberta.py +97 -99
transformers/models/roberta/modular_roberta.py +55 -58
transformers/models/roberta/tokenization_roberta.py +2 -5
transformers/models/roberta/tokenization_roberta_old.py +2 -4
transformers/models/roberta_prelayernorm/configuration_roberta_prelayernorm.py +11 -3
transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py +97 -99
transformers/models/roc_bert/configuration_roc_bert.py +8 -2
transformers/models/roc_bert/modeling_roc_bert.py +125 -162
transformers/models/roc_bert/tokenization_roc_bert.py +88 -94
transformers/models/roformer/configuration_roformer.py +13 -3
transformers/models/roformer/modeling_roformer.py +79 -95
transformers/models/roformer/tokenization_roformer.py +3 -6
transformers/models/roformer/tokenization_utils.py +0 -1
transformers/models/rt_detr/configuration_rt_detr.py +8 -50
transformers/models/rt_detr/configuration_rt_detr_resnet.py +2 -5
transformers/models/rt_detr/image_processing_rt_detr.py +54 -55
transformers/models/rt_detr/image_processing_rt_detr_fast.py +39 -26
transformers/models/rt_detr/modeling_rt_detr.py +643 -804
transformers/models/rt_detr/modeling_rt_detr_resnet.py +4 -7
transformers/models/rt_detr/modular_rt_detr.py +1522 -20
transformers/models/rt_detr_v2/configuration_rt_detr_v2.py +12 -58
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +384 -521
transformers/models/rt_detr_v2/modular_rt_detr_v2.py +27 -70
transformers/models/rwkv/configuration_rwkv.py +2 -4
transformers/models/rwkv/modeling_rwkv.py +29 -54
transformers/models/sam/configuration_sam.py +2 -1
transformers/models/sam/image_processing_sam.py +59 -60
transformers/models/sam/image_processing_sam_fast.py +25 -26
transformers/models/sam/modeling_sam.py +46 -43
transformers/models/sam/processing_sam.py +39 -27
transformers/models/sam2/configuration_sam2.py +1 -2
transformers/models/sam2/image_processing_sam2_fast.py +14 -15
transformers/models/sam2/modeling_sam2.py +96 -94
transformers/models/sam2/modular_sam2.py +85 -94
transformers/models/sam2/processing_sam2.py +31 -47
transformers/models/sam2_video/configuration_sam2_video.py +0 -1
transformers/models/sam2_video/modeling_sam2_video.py +114 -116
transformers/models/sam2_video/modular_sam2_video.py +72 -89
transformers/models/sam2_video/processing_sam2_video.py +49 -66
transformers/models/sam2_video/video_processing_sam2_video.py +1 -4
transformers/models/sam3/configuration_sam3.py +0 -1
transformers/models/sam3/image_processing_sam3_fast.py +17 -20
transformers/models/sam3/modeling_sam3.py +94 -100
transformers/models/sam3/modular_sam3.py +3 -8
transformers/models/sam3/processing_sam3.py +37 -52
transformers/models/sam3_tracker/__init__.py +0 -1
transformers/models/sam3_tracker/configuration_sam3_tracker.py +1 -3
transformers/models/sam3_tracker/modeling_sam3_tracker.py +79 -80
transformers/models/sam3_tracker/modular_sam3_tracker.py +0 -2
transformers/models/sam3_tracker/processing_sam3_tracker.py +31 -48
transformers/models/sam3_tracker_video/__init__.py +0 -1
transformers/models/sam3_tracker_video/configuration_sam3_tracker_video.py +0 -1
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +115 -114
transformers/models/sam3_tracker_video/modular_sam3_tracker_video.py +10 -24
transformers/models/sam3_tracker_video/processing_sam3_tracker_video.py +50 -66
transformers/models/sam3_video/configuration_sam3_video.py +0 -1
transformers/models/sam3_video/modeling_sam3_video.py +56 -45
transformers/models/sam3_video/processing_sam3_video.py +25 -45
transformers/models/sam_hq/__init__.py +1 -1
transformers/models/sam_hq/configuration_sam_hq.py +2 -1
transformers/models/sam_hq/modeling_sam_hq.py +52 -50
transformers/models/sam_hq/modular_sam_hq.py +23 -25
transformers/models/sam_hq/{processing_samhq.py → processing_sam_hq.py} +41 -29
transformers/models/seamless_m4t/configuration_seamless_m4t.py +8 -10
transformers/models/seamless_m4t/feature_extraction_seamless_m4t.py +8 -11
transformers/models/seamless_m4t/modeling_seamless_m4t.py +180 -182
transformers/models/seamless_m4t/processing_seamless_m4t.py +18 -39
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +15 -20
transformers/models/seamless_m4t_v2/configuration_seamless_m4t_v2.py +8 -10
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +193 -195
transformers/models/seed_oss/configuration_seed_oss.py +30 -34
transformers/models/seed_oss/modeling_seed_oss.py +34 -36
transformers/models/seed_oss/modular_seed_oss.py +6 -7
transformers/models/segformer/configuration_segformer.py +0 -10
transformers/models/segformer/image_processing_segformer.py +39 -42
transformers/models/segformer/image_processing_segformer_fast.py +11 -12
transformers/models/segformer/modeling_segformer.py +28 -28
transformers/models/segformer/modular_segformer.py +8 -9
transformers/models/seggpt/configuration_seggpt.py +0 -1
transformers/models/seggpt/image_processing_seggpt.py +38 -41
transformers/models/seggpt/modeling_seggpt.py +48 -38
transformers/models/sew/configuration_sew.py +4 -2
transformers/models/sew/modeling_sew.py +42 -40
transformers/models/sew/modular_sew.py +12 -13
transformers/models/sew_d/configuration_sew_d.py +4 -2
transformers/models/sew_d/modeling_sew_d.py +32 -31
transformers/models/shieldgemma2/configuration_shieldgemma2.py +0 -1
transformers/models/shieldgemma2/modeling_shieldgemma2.py +19 -21
transformers/models/shieldgemma2/processing_shieldgemma2.py +3 -5
transformers/models/siglip/configuration_siglip.py +4 -2
transformers/models/siglip/image_processing_siglip.py +17 -20
transformers/models/siglip/image_processing_siglip_fast.py +0 -1
transformers/models/siglip/modeling_siglip.py +65 -110
transformers/models/siglip/processing_siglip.py +2 -14
transformers/models/siglip/tokenization_siglip.py +6 -7
transformers/models/siglip2/__init__.py +1 -0
transformers/models/siglip2/configuration_siglip2.py +4 -2
transformers/models/siglip2/image_processing_siglip2.py +15 -16
transformers/models/siglip2/image_processing_siglip2_fast.py +6 -7
transformers/models/siglip2/modeling_siglip2.py +89 -130
transformers/models/siglip2/modular_siglip2.py +95 -48
transformers/models/siglip2/processing_siglip2.py +2 -14
transformers/models/siglip2/tokenization_siglip2.py +95 -0
transformers/models/smollm3/configuration_smollm3.py +29 -32
transformers/models/smollm3/modeling_smollm3.py +35 -38
transformers/models/smollm3/modular_smollm3.py +36 -38
transformers/models/smolvlm/configuration_smolvlm.py +2 -4
transformers/models/smolvlm/image_processing_smolvlm.py +42 -43
transformers/models/smolvlm/image_processing_smolvlm_fast.py +41 -15
transformers/models/smolvlm/modeling_smolvlm.py +124 -96
transformers/models/smolvlm/modular_smolvlm.py +50 -39
transformers/models/smolvlm/processing_smolvlm.py +15 -76
transformers/models/smolvlm/video_processing_smolvlm.py +16 -17
transformers/models/solar_open/__init__.py +27 -0
transformers/models/solar_open/configuration_solar_open.py +184 -0
transformers/models/solar_open/modeling_solar_open.py +642 -0
transformers/models/solar_open/modular_solar_open.py +224 -0
transformers/models/speech_encoder_decoder/configuration_speech_encoder_decoder.py +0 -1
transformers/models/speech_encoder_decoder/modeling_speech_encoder_decoder.py +26 -27
transformers/models/speech_to_text/configuration_speech_to_text.py +9 -9
transformers/models/speech_to_text/feature_extraction_speech_to_text.py +10 -13
transformers/models/speech_to_text/modeling_speech_to_text.py +55 -57
transformers/models/speech_to_text/processing_speech_to_text.py +4 -30
transformers/models/speech_to_text/tokenization_speech_to_text.py +5 -6
transformers/models/speecht5/configuration_speecht5.py +7 -9
transformers/models/speecht5/feature_extraction_speecht5.py +16 -37
transformers/models/speecht5/modeling_speecht5.py +172 -174
transformers/models/speecht5/number_normalizer.py +0 -1
transformers/models/speecht5/processing_speecht5.py +3 -37
transformers/models/speecht5/tokenization_speecht5.py +4 -5
transformers/models/splinter/configuration_splinter.py +6 -7
transformers/models/splinter/modeling_splinter.py +62 -59
transformers/models/splinter/tokenization_splinter.py +2 -4
transformers/models/squeezebert/configuration_squeezebert.py +14 -2
transformers/models/squeezebert/modeling_squeezebert.py +60 -62
transformers/models/squeezebert/tokenization_squeezebert.py +0 -1
transformers/models/stablelm/configuration_stablelm.py +28 -29
transformers/models/stablelm/modeling_stablelm.py +44 -47
transformers/models/starcoder2/configuration_starcoder2.py +30 -27
transformers/models/starcoder2/modeling_starcoder2.py +38 -41
transformers/models/starcoder2/modular_starcoder2.py +17 -19
transformers/models/superglue/configuration_superglue.py +7 -3
transformers/models/superglue/image_processing_superglue.py +15 -15
transformers/models/superglue/image_processing_superglue_fast.py +8 -8
transformers/models/superglue/modeling_superglue.py +41 -37
transformers/models/superpoint/image_processing_superpoint.py +15 -15
transformers/models/superpoint/image_processing_superpoint_fast.py +7 -9
transformers/models/superpoint/modeling_superpoint.py +17 -16
transformers/models/swiftformer/configuration_swiftformer.py +0 -1
transformers/models/swiftformer/modeling_swiftformer.py +12 -14
transformers/models/swin/configuration_swin.py +2 -5
transformers/models/swin/modeling_swin.py +69 -78
transformers/models/swin2sr/configuration_swin2sr.py +0 -1
transformers/models/swin2sr/image_processing_swin2sr.py +10 -13
transformers/models/swin2sr/image_processing_swin2sr_fast.py +4 -7
transformers/models/swin2sr/modeling_swin2sr.py +30 -30
transformers/models/swinv2/configuration_swinv2.py +2 -5
transformers/models/swinv2/modeling_swinv2.py +65 -74
transformers/models/switch_transformers/configuration_switch_transformers.py +11 -7
transformers/models/switch_transformers/modeling_switch_transformers.py +35 -36
transformers/models/switch_transformers/modular_switch_transformers.py +32 -33
transformers/models/t5/configuration_t5.py +9 -9
transformers/models/t5/modeling_t5.py +80 -85
transformers/models/t5/tokenization_t5.py +1 -3
transformers/models/t5gemma/configuration_t5gemma.py +43 -59
transformers/models/t5gemma/modeling_t5gemma.py +105 -108
transformers/models/t5gemma/modular_t5gemma.py +128 -142
transformers/models/t5gemma2/configuration_t5gemma2.py +86 -100
transformers/models/t5gemma2/modeling_t5gemma2.py +234 -194
transformers/models/t5gemma2/modular_t5gemma2.py +279 -264
transformers/models/table_transformer/configuration_table_transformer.py +18 -50
transformers/models/table_transformer/modeling_table_transformer.py +73 -101
transformers/models/tapas/configuration_tapas.py +12 -2
transformers/models/tapas/modeling_tapas.py +65 -67
transformers/models/tapas/tokenization_tapas.py +116 -153
transformers/models/textnet/configuration_textnet.py +4 -7
transformers/models/textnet/image_processing_textnet.py +22 -25
transformers/models/textnet/image_processing_textnet_fast.py +8 -9
transformers/models/textnet/modeling_textnet.py +28 -28
transformers/models/time_series_transformer/configuration_time_series_transformer.py +5 -8
transformers/models/time_series_transformer/modeling_time_series_transformer.py +82 -84
transformers/models/timesfm/configuration_timesfm.py +0 -1
transformers/models/timesfm/modeling_timesfm.py +22 -25
transformers/models/timesfm/modular_timesfm.py +21 -24
transformers/models/timesformer/configuration_timesformer.py +0 -1
transformers/models/timesformer/modeling_timesformer.py +13 -16
transformers/models/timm_backbone/configuration_timm_backbone.py +33 -8
transformers/models/timm_backbone/modeling_timm_backbone.py +25 -30
transformers/models/timm_wrapper/configuration_timm_wrapper.py +2 -3
transformers/models/timm_wrapper/image_processing_timm_wrapper.py +4 -5
transformers/models/timm_wrapper/modeling_timm_wrapper.py +22 -19
transformers/models/trocr/configuration_trocr.py +11 -8
transformers/models/trocr/modeling_trocr.py +42 -42
transformers/models/trocr/processing_trocr.py +5 -25
transformers/models/tvp/configuration_tvp.py +10 -36
transformers/models/tvp/image_processing_tvp.py +50 -52
transformers/models/tvp/image_processing_tvp_fast.py +15 -15
transformers/models/tvp/modeling_tvp.py +26 -28
transformers/models/tvp/processing_tvp.py +2 -14
transformers/models/udop/configuration_udop.py +16 -8
transformers/models/udop/modeling_udop.py +73 -72
transformers/models/udop/processing_udop.py +7 -26
transformers/models/udop/tokenization_udop.py +80 -93
transformers/models/umt5/configuration_umt5.py +8 -7
transformers/models/umt5/modeling_umt5.py +87 -84
transformers/models/unispeech/configuration_unispeech.py +4 -2
transformers/models/unispeech/modeling_unispeech.py +54 -53
transformers/models/unispeech/modular_unispeech.py +20 -22
transformers/models/unispeech_sat/configuration_unispeech_sat.py +4 -2
transformers/models/unispeech_sat/modeling_unispeech_sat.py +70 -69
transformers/models/unispeech_sat/modular_unispeech_sat.py +21 -23
transformers/models/univnet/feature_extraction_univnet.py +14 -14
transformers/models/univnet/modeling_univnet.py +7 -8
transformers/models/upernet/configuration_upernet.py +8 -36
transformers/models/upernet/modeling_upernet.py +11 -14
transformers/models/vaultgemma/__init__.py +0 -1
transformers/models/vaultgemma/configuration_vaultgemma.py +29 -33
transformers/models/vaultgemma/modeling_vaultgemma.py +38 -40
transformers/models/vaultgemma/modular_vaultgemma.py +29 -31
transformers/models/video_llama_3/configuration_video_llama_3.py +4 -0
transformers/models/video_llama_3/image_processing_video_llama_3.py +40 -40
transformers/models/video_llama_3/image_processing_video_llama_3_fast.py +12 -14
transformers/models/video_llama_3/modeling_video_llama_3.py +149 -112
transformers/models/video_llama_3/modular_video_llama_3.py +152 -150
transformers/models/video_llama_3/processing_video_llama_3.py +5 -39
transformers/models/video_llama_3/video_processing_video_llama_3.py +45 -24
transformers/models/video_llava/configuration_video_llava.py +4 -1
transformers/models/video_llava/image_processing_video_llava.py +35 -38
transformers/models/video_llava/modeling_video_llava.py +139 -143
transformers/models/video_llava/processing_video_llava.py +38 -78
transformers/models/video_llava/video_processing_video_llava.py +0 -1
transformers/models/videomae/configuration_videomae.py +0 -1
transformers/models/videomae/image_processing_videomae.py +31 -34
transformers/models/videomae/modeling_videomae.py +17 -20
transformers/models/videomae/video_processing_videomae.py +0 -1
transformers/models/vilt/configuration_vilt.py +4 -2
transformers/models/vilt/image_processing_vilt.py +29 -30
transformers/models/vilt/image_processing_vilt_fast.py +15 -16
transformers/models/vilt/modeling_vilt.py +103 -90
transformers/models/vilt/processing_vilt.py +2 -14
transformers/models/vipllava/configuration_vipllava.py +4 -1
transformers/models/vipllava/modeling_vipllava.py +92 -67
transformers/models/vipllava/modular_vipllava.py +78 -54
transformers/models/vision_encoder_decoder/configuration_vision_encoder_decoder.py +0 -1
transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py +28 -27
transformers/models/vision_text_dual_encoder/configuration_vision_text_dual_encoder.py +0 -1
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +45 -41
transformers/models/vision_text_dual_encoder/processing_vision_text_dual_encoder.py +2 -16
transformers/models/visual_bert/configuration_visual_bert.py +6 -2
transformers/models/visual_bert/modeling_visual_bert.py +90 -92
transformers/models/vit/configuration_vit.py +2 -3
transformers/models/vit/image_processing_vit.py +19 -22
transformers/models/vit/image_processing_vit_fast.py +0 -1
transformers/models/vit/modeling_vit.py +20 -20
transformers/models/vit_mae/configuration_vit_mae.py +0 -1
transformers/models/vit_mae/modeling_vit_mae.py +32 -30
transformers/models/vit_msn/configuration_vit_msn.py +0 -1
transformers/models/vit_msn/modeling_vit_msn.py +21 -19
transformers/models/vitdet/configuration_vitdet.py +2 -5
transformers/models/vitdet/modeling_vitdet.py +14 -17
transformers/models/vitmatte/configuration_vitmatte.py +7 -39
transformers/models/vitmatte/image_processing_vitmatte.py +15 -18
transformers/models/vitmatte/image_processing_vitmatte_fast.py +16 -17
transformers/models/vitmatte/modeling_vitmatte.py +10 -12
transformers/models/vitpose/configuration_vitpose.py +7 -47
transformers/models/vitpose/image_processing_vitpose.py +24 -25
transformers/models/vitpose/image_processing_vitpose_fast.py +9 -10
transformers/models/vitpose/modeling_vitpose.py +15 -15
transformers/models/vitpose_backbone/configuration_vitpose_backbone.py +2 -5
transformers/models/vitpose_backbone/modeling_vitpose_backbone.py +13 -16
transformers/models/vits/configuration_vits.py +4 -1
transformers/models/vits/modeling_vits.py +43 -42
transformers/models/vits/tokenization_vits.py +3 -4
transformers/models/vivit/configuration_vivit.py +0 -1
transformers/models/vivit/image_processing_vivit.py +36 -39
transformers/models/vivit/modeling_vivit.py +9 -11
transformers/models/vjepa2/__init__.py +0 -1
transformers/models/vjepa2/configuration_vjepa2.py +0 -1
transformers/models/vjepa2/modeling_vjepa2.py +39 -41
transformers/models/vjepa2/video_processing_vjepa2.py +0 -1
transformers/models/voxtral/__init__.py +0 -1
transformers/models/voxtral/configuration_voxtral.py +0 -2
transformers/models/voxtral/modeling_voxtral.py +41 -48
transformers/models/voxtral/modular_voxtral.py +35 -38
transformers/models/voxtral/processing_voxtral.py +25 -48
transformers/models/wav2vec2/configuration_wav2vec2.py +4 -2
transformers/models/wav2vec2/feature_extraction_wav2vec2.py +7 -10
transformers/models/wav2vec2/modeling_wav2vec2.py +74 -126
transformers/models/wav2vec2/processing_wav2vec2.py +6 -35
transformers/models/wav2vec2/tokenization_wav2vec2.py +20 -332
transformers/models/wav2vec2_bert/configuration_wav2vec2_bert.py +4 -2
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +49 -52
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +45 -48
transformers/models/wav2vec2_bert/processing_wav2vec2_bert.py +6 -35
transformers/models/wav2vec2_conformer/configuration_wav2vec2_conformer.py +4 -2
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +62 -65
transformers/models/wav2vec2_conformer/modular_wav2vec2_conformer.py +15 -18
transformers/models/wav2vec2_phoneme/tokenization_wav2vec2_phoneme.py +16 -17
transformers/models/wav2vec2_with_lm/processing_wav2vec2_with_lm.py +36 -55
transformers/models/wavlm/configuration_wavlm.py +4 -2
transformers/models/wavlm/modeling_wavlm.py +49 -49
transformers/models/wavlm/modular_wavlm.py +4 -5
transformers/models/whisper/configuration_whisper.py +6 -5
transformers/models/whisper/english_normalizer.py +3 -4
transformers/models/whisper/feature_extraction_whisper.py +9 -24
transformers/models/whisper/generation_whisper.py +26 -49
transformers/models/whisper/modeling_whisper.py +71 -73
transformers/models/whisper/processing_whisper.py +3 -20
transformers/models/whisper/tokenization_whisper.py +9 -30
transformers/models/x_clip/configuration_x_clip.py +4 -2
transformers/models/x_clip/modeling_x_clip.py +94 -96
transformers/models/x_clip/processing_x_clip.py +2 -14
transformers/models/xcodec/configuration_xcodec.py +4 -6
transformers/models/xcodec/modeling_xcodec.py +15 -17
transformers/models/xglm/configuration_xglm.py +9 -8
transformers/models/xglm/modeling_xglm.py +49 -55
transformers/models/xglm/tokenization_xglm.py +1 -4
transformers/models/xlm/configuration_xlm.py +10 -8
transformers/models/xlm/modeling_xlm.py +127 -131
transformers/models/xlm/tokenization_xlm.py +3 -5
transformers/models/xlm_roberta/configuration_xlm_roberta.py +11 -3
transformers/models/xlm_roberta/modeling_xlm_roberta.py +96 -98
transformers/models/xlm_roberta/modular_xlm_roberta.py +50 -53
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +1 -4
transformers/models/xlm_roberta_xl/configuration_xlm_roberta_xl.py +10 -2
transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py +97 -99
transformers/models/xlm_roberta_xl/modular_xlm_roberta_xl.py +67 -70
transformers/models/xlnet/configuration_xlnet.py +3 -12
transformers/models/xlnet/modeling_xlnet.py +149 -162
transformers/models/xlnet/tokenization_xlnet.py +1 -4
transformers/models/xlstm/configuration_xlstm.py +8 -12
transformers/models/xlstm/modeling_xlstm.py +61 -96
transformers/models/xmod/configuration_xmod.py +11 -3
transformers/models/xmod/modeling_xmod.py +111 -116
transformers/models/yolos/configuration_yolos.py +0 -1
transformers/models/yolos/image_processing_yolos.py +60 -62
transformers/models/yolos/image_processing_yolos_fast.py +42 -45
transformers/models/yolos/modeling_yolos.py +19 -21
transformers/models/yolos/modular_yolos.py +17 -19
transformers/models/yoso/configuration_yoso.py +8 -2
transformers/models/yoso/modeling_yoso.py +60 -62
transformers/models/youtu/__init__.py +27 -0
transformers/models/youtu/configuration_youtu.py +194 -0
transformers/models/youtu/modeling_youtu.py +619 -0
transformers/models/youtu/modular_youtu.py +254 -0
transformers/models/zamba/configuration_zamba.py +5 -8
transformers/models/zamba/modeling_zamba.py +93 -125
transformers/models/zamba2/configuration_zamba2.py +44 -50
transformers/models/zamba2/modeling_zamba2.py +137 -165
transformers/models/zamba2/modular_zamba2.py +79 -74
transformers/models/zoedepth/configuration_zoedepth.py +17 -41
transformers/models/zoedepth/image_processing_zoedepth.py +28 -29
transformers/models/zoedepth/image_processing_zoedepth_fast.py +20 -21
transformers/models/zoedepth/modeling_zoedepth.py +19 -19
transformers/pipelines/__init__.py +47 -106
transformers/pipelines/any_to_any.py +15 -23
transformers/pipelines/audio_utils.py +1 -2
transformers/pipelines/automatic_speech_recognition.py +0 -2
transformers/pipelines/base.py +13 -17
transformers/pipelines/image_text_to_text.py +1 -2
transformers/pipelines/question_answering.py +4 -43
transformers/pipelines/text_classification.py +1 -14
transformers/pipelines/text_to_audio.py +5 -1
transformers/pipelines/token_classification.py +1 -22
transformers/pipelines/video_classification.py +1 -9
transformers/pipelines/zero_shot_audio_classification.py +0 -1
transformers/pipelines/zero_shot_classification.py +0 -6
transformers/pipelines/zero_shot_image_classification.py +0 -7
transformers/processing_utils.py +128 -137
transformers/pytorch_utils.py +2 -26
transformers/quantizers/base.py +10 -0
transformers/quantizers/quantizer_compressed_tensors.py +7 -5
transformers/quantizers/quantizer_fbgemm_fp8.py +20 -23
transformers/quantizers/quantizer_finegrained_fp8.py +14 -20
transformers/quantizers/quantizer_mxfp4.py +1 -1
transformers/quantizers/quantizer_quark.py +0 -1
transformers/quantizers/quantizer_torchao.py +3 -19
transformers/safetensors_conversion.py +11 -4
transformers/testing_utils.py +6 -65
transformers/tokenization_mistral_common.py +563 -903
transformers/tokenization_python.py +6 -4
transformers/tokenization_utils_base.py +228 -341
transformers/tokenization_utils_sentencepiece.py +5 -6
transformers/tokenization_utils_tokenizers.py +36 -7
transformers/trainer.py +30 -41
transformers/trainer_jit_checkpoint.py +1 -2
transformers/trainer_seq2seq.py +1 -1
transformers/training_args.py +414 -420
transformers/utils/__init__.py +1 -4
transformers/utils/attention_visualizer.py +1 -1
transformers/utils/auto_docstring.py +567 -18
transformers/utils/backbone_utils.py +13 -373
transformers/utils/doc.py +4 -36
transformers/utils/dummy_pt_objects.py +0 -42
transformers/utils/generic.py +70 -34
transformers/utils/import_utils.py +72 -75
transformers/utils/loading_report.py +135 -107
transformers/utils/quantization_config.py +8 -31
transformers/video_processing_utils.py +24 -25
transformers/video_utils.py +21 -23
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/METADATA +120 -239
transformers-5.1.0.dist-info/RECORD +2092 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/WHEEL +1 -1
transformers/pipelines/deprecated/text2text_generation.py +0 -408
transformers/pipelines/image_to_text.py +0 -229
transformers-5.0.0rc2.dist-info/RECORD +0 -2042
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/licenses/LICENSE +0 -0
{transformers-5.0.0rc2.dist-info → transformers-5.1.0.dist-info}/top_level.txt +0 -0

transformers/generation/configuration_utils.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# coding=utf-8
 # Copyright 2022 The HuggingFace Inc. team.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -101,6 +100,10 @@ class GenerationConfig(PushToHubMixin):
     </Tip>
+    Note: the configuration field that are still `None` will be overriden by `GenerationConfig._get_default_generation_params()`
+    during the generation loop. If you want to use different values for these fields, make sure to explicitly set them in the
+    generation config.
     Arg:
         > Parameters that control the length of the output
@@ -129,14 +132,14 @@ class GenerationConfig(PushToHubMixin):
         > Parameters that control the generation strategy used
-        do_sample (`bool`, defaults to `False`):
+        do_sample (`bool`):
             Whether or not to use sampling ; use greedy decoding otherwise.
         num_beams (`int`, *optional*):
             Number of beams for beam search. 1 means no beam search.
         > Parameters that control the cache
-        use_cache (`bool`, defaults to `True`):
+        use_cache (`bool`):
             Whether or not the model should use the past last key/values attentions (if applicable to the model) to
             speed up decoding.
         cache_implementation (`str`, *optional*):
@@ -206,7 +209,7 @@ class GenerationConfig(PushToHubMixin):
         bad_words_ids (`list[list[int]]`, *optional*):
             List of list of token ids that are not allowed to be generated. Check
             [`~generation.NoBadWordsLogitsProcessor`] for further documentation and examples.
-        renormalize_logits (`bool`, defaults to `False`):
+        renormalize_logits (`bool`):
             Whether to renormalize the logits after applying all the logits processors (including the custom
             ones). It's highly recommended to set this flag to `True` as the search algorithms suppose the score logits
             are normalized but some logit processors break the normalization.
@@ -217,7 +220,7 @@ class GenerationConfig(PushToHubMixin):
         forced_eos_token_id (`int` or list[int]`, *optional*, defaults to `model.config.forced_eos_token_id`):
             The id of the token to force as the last generated token when `max_length` is reached. Optionally, use a
             list to set multiple *end-of-sequence* tokens.
-        remove_invalid_values (`bool`, defaults to `model.config.remove_invalid_values`):
+        remove_invalid_values (`bool`):
             Whether to remove possible *nan* and *inf* outputs of the model to prevent the generation method to crash.
             Note that using `remove_invalid_values` can slow down generation.
         exponential_decay_length_penalty (`tuple(int, float)`, *optional*):
@@ -234,7 +237,7 @@ class GenerationConfig(PushToHubMixin):
             Dictionary that maps a sequence of tokens to its bias term. Positive biases increase the odds of the
             sequence being selected, while negative biases do the opposite. Check
             [`~generation.SequenceBiasLogitsProcessor`] for further documentation and examples.
-        token_healing (`bool`, defaults to `False`):
+        token_healing (`bool`):
             Heal tail tokens of prompts by replacing them with their appropriate extensions.
             This enhances the quality of completions for prompts affected by greedy tokenization bias.
         guidance_scale (`float`, *optional*):
@@ -248,20 +251,20 @@ class GenerationConfig(PushToHubMixin):
         > Parameters that define the output variables of generate
-        num_return_sequences (`int`, *optional*, defaults to 1):
+        num_return_sequences (`int`, *optional*):
             The number of independently computed returned sequences for each element in the batch.
-        output_attentions (`bool`, defaults to `False`):
+        output_attentions (`bool`):
             Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
             tensors for more details.
-        output_hidden_states (`bool`, defaults to `False`):
+        output_hidden_states (`bool`):
             Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
             more details.
-        output_scores (`bool`, defaults to `False`):
+        output_scores (`bool`):
             Whether or not to return the prediction scores. See `scores` under returned tensors for more details.
-        output_logits (`bool`, defaults to `False`):
+        output_logits (`bool`):
             Whether or not to return the unprocessed prediction logit scores. See `logits` under returned tensors for
             more details.
-        return_dict_in_generate (`bool`, defaults to `False`):
+        return_dict_in_generate (`bool`):
             Whether or not to return a [`~utils.ModelOutput`], as opposed to returning exclusively the generated
             sequence. This flag must be set to `True` to return the generation cache (when `use_cache` is `True`)
             or optional outputs (see flags starting with `output_`)
@@ -286,7 +289,7 @@ class GenerationConfig(PushToHubMixin):
             (e.g. multilingual models with different target languages in one batch)
         > Generation parameters exclusive to assistant generation
-        is_assistant (`bool`, defaults to `False`):
+        is_assistant (`bool`):
             Whether the model is an assistant (draft) model.
         num_assistant_tokens (`int`, *optional*):
             Defines the number of _speculative tokens_ that shall be generated by the assistant model before being
@@ -327,7 +330,7 @@ class GenerationConfig(PushToHubMixin):
         compile_config (CompileConfig, *optional*):
             If using a compilable cache, this controls how `generate` will `compile` the forward pass for faster
             inference.
-        disable_compile (`bool`, defaults to `False`):
+        disable_compile (`bool`):
             Whether to disable the automatic compilation of the forward pass. Automatic compilation happens when
             specific criteria are met, including using a compilable cache. Please open an issue if you find the
             need to use this flag.
@@ -346,11 +349,11 @@ class GenerationConfig(PushToHubMixin):
         self.stop_strings = kwargs.pop("stop_strings", None)
         # Parameters that control the generation strategy used
-        self.do_sample = kwargs.pop("do_sample", False)
+        self.do_sample = kwargs.pop("do_sample", None)
         self.num_beams = kwargs.pop("num_beams", None)
         # Parameters that control the cache
-        self.use_cache = kwargs.pop("use_cache", True)
+        self.use_cache = kwargs.pop("use_cache", None)
         self.cache_implementation = kwargs.pop("cache_implementation", None)
         self.cache_config = kwargs.pop("cache_config", None)
@@ -368,15 +371,15 @@ class GenerationConfig(PushToHubMixin):
         self.length_penalty = kwargs.pop("length_penalty", None)
         self.no_repeat_ngram_size = kwargs.pop("no_repeat_ngram_size", None)
         self.bad_words_ids = kwargs.pop("bad_words_ids", None)
-        self.renormalize_logits = kwargs.pop("renormalize_logits", False)
+        self.renormalize_logits = kwargs.pop("renormalize_logits", None)
         self.forced_bos_token_id = kwargs.pop("forced_bos_token_id", None)
         self.forced_eos_token_id = kwargs.pop("forced_eos_token_id", None)
-        self.remove_invalid_values = kwargs.pop("remove_invalid_values", False)
+        self.remove_invalid_values = kwargs.pop("remove_invalid_values", None)
         self.exponential_decay_length_penalty = kwargs.pop("exponential_decay_length_penalty", None)
         self.suppress_tokens = kwargs.pop("suppress_tokens", None)
         self.begin_suppress_tokens = kwargs.pop("begin_suppress_tokens", None)
         self.sequence_bias = kwargs.pop("sequence_bias", None)
-        self.token_healing = kwargs.pop("token_healing", False)
+        self.token_healing = kwargs.pop("token_healing", None)
         self.guidance_scale = kwargs.pop("guidance_scale", None)
         self.watermarking_config = kwargs.pop("watermarking_config", None)
@@ -384,12 +387,12 @@ class GenerationConfig(PushToHubMixin):
             self.watermarking_config = WatermarkingConfig.from_dict(self.watermarking_config)
         # Parameters that define the output variables of `generate`
-        self.num_return_sequences = kwargs.pop("num_return_sequences", 1)
-        self.output_attentions = kwargs.pop("output_attentions", False)
-        self.output_hidden_states = kwargs.pop("output_hidden_states", False)
-        self.output_scores = kwargs.pop("output_scores", False)
-        self.output_logits = kwargs.pop("output_logits", False)
-        self.return_dict_in_generate = kwargs.pop("return_dict_in_generate", False)
+        self.num_return_sequences = kwargs.pop("num_return_sequences", None)
+        self.output_attentions = kwargs.pop("output_attentions", None)
+        self.output_hidden_states = kwargs.pop("output_hidden_states", None)
+        self.output_scores = kwargs.pop("output_scores", None)
+        self.output_logits = kwargs.pop("output_logits", None)
+        self.return_dict_in_generate = kwargs.pop("return_dict_in_generate", None)
         # Special tokens that can be used at generation time
         self.pad_token_id = kwargs.pop("pad_token_id", None)
@@ -401,7 +404,7 @@ class GenerationConfig(PushToHubMixin):
         self.decoder_start_token_id = kwargs.pop("decoder_start_token_id", None)
         # Assistant generation
-        self.is_assistant = kwargs.pop("is_assistant", False)
+        self.is_assistant = kwargs.pop("is_assistant", None)
         self.num_assistant_tokens = kwargs.pop("num_assistant_tokens", None)
         self.num_assistant_tokens_schedule = kwargs.pop("num_assistant_tokens_schedule", None)
         self.assistant_confidence_threshold = kwargs.pop("assistant_confidence_threshold", None)
@@ -413,7 +416,7 @@ class GenerationConfig(PushToHubMixin):
         # Performance
         self.compile_config = kwargs.pop("compile_config", None)
-        self.disable_compile = kwargs.pop("disable_compile", False)
+        self.disable_compile = kwargs.pop("disable_compile", None)
         # Deprecated (moved to the Hub). TODO remove for v5
         self.low_memory = kwargs.pop("low_memory", None)
@@ -483,7 +486,7 @@ class GenerationConfig(PushToHubMixin):
         if self.constraints is not None or self.force_words_ids is not None:
             generation_mode = GenerationMode.CONSTRAINED_BEAM_SEARCH
         elif self.num_beams is None or self.num_beams == 1:
-            if not self.do_sample:
+            if self.do_sample is not True:
                 if (
                     self.top_k is not None
                     and self.top_k > 1
@@ -498,7 +501,7 @@ class GenerationConfig(PushToHubMixin):
         else:
             if self.num_beam_groups is not None and self.num_beam_groups > 1:
                 generation_mode = GenerationMode.GROUP_BEAM_SEARCH
-            elif self.do_sample:
+            elif self.do_sample is True:
                 generation_mode = GenerationMode.BEAM_SAMPLE
             else:
                 generation_mode = GenerationMode.BEAM_SEARCH
@@ -537,6 +540,7 @@ class GenerationConfig(PushToHubMixin):
             "max_length": 20,
             "min_length": 0,
             "do_sample": False,
+            "use_cache": True,
             "early_stopping": False,
             "num_beams": 1,
             "temperature": 1.0,
@@ -616,7 +620,10 @@ class GenerationConfig(PushToHubMixin):
         # 2. Validation of attribute combinations
         # 2.1. detect sampling-only parameterization when not in sampling mode
-        if not self.do_sample:
+        # Note that we check `is not True` in purpose. Boolean fields can also be `None` so we
+        # have to be explicit. Value of `None` is same as having `False`, i.e. the default value
+        if self.do_sample is not True:
             greedy_wrong_parameter_msg = (
                 "`do_sample` is set not to set `True`. However, `{flag_name}` is set to `{flag_value}` -- this flag is only "
                 "used in sample-based generation modes. You should set `do_sample=True` or unset `{flag_name}`."
@@ -662,21 +669,25 @@ class GenerationConfig(PushToHubMixin):
                 )
         # 2.4. check `num_return_sequences`
-        if self.num_return_sequences > 1:
+        if self.num_return_sequences is not None and self.num_return_sequences > 1:
             if self.num_beams is None or self.num_beams == 1:
                 if not self.do_sample:
                     raise ValueError(
                         "Greedy methods (do_sample != True) without beam search do not support "
                         f"`num_return_sequences` different than 1 (got {self.num_return_sequences})."
                     )
-            elif self.num_beams is not None and self.num_return_sequences > self.num_beams:
+            elif (
+                self.num_beams is not None
+                and self.num_return_sequences is not None
+                and self.num_return_sequences > self.num_beams
+            ):
                 raise ValueError(
                     f"`num_return_sequences` ({self.num_return_sequences}) has to be smaller or equal to `num_beams` "
                     f"({self.num_beams})."
                 )
         # 2.5. check cache-related arguments
-        if not self.use_cache:
+        if self.use_cache is False:
             # In this case, all cache-related arguments should be unset. However, since `use_cache=False` is often used
             # passed to `generate` directly to hot-fix cache issues, let's raise a warning instead of an error
             # (otherwise a user might need to overwrite several parameters).
@@ -691,9 +702,9 @@ class GenerationConfig(PushToHubMixin):
                     )
         # 2.6. other incorrect combinations
-        if not self.return_dict_in_generate:
+        if self.return_dict_in_generate is not True:
             for extra_output_flag in self.extra_output_flags:
-                if getattr(self, extra_output_flag):
+                if getattr(self, extra_output_flag) is True:
                     minor_issues[extra_output_flag] = (
                         f"`return_dict_in_generate` is NOT set to `True`, but `{extra_output_flag}` is. When "
                         f"`return_dict_in_generate` is not `True`, `{extra_output_flag}` is ignored."
@@ -1182,7 +1193,7 @@ class GenerationConfig(PushToHubMixin):
         generation_config._original_object_hash = hash(generation_config)
         return generation_config
-    def update(self, defaults_only=False, **kwargs):
+    def update(self, defaults_only=False, allow_custom_entries=False, **kwargs):
         """
         Updates attributes of this class instance with attributes from `kwargs` if they match existing attributes,
         returning all the unused kwargs.
@@ -1190,6 +1201,8 @@ class GenerationConfig(PushToHubMixin):
         Args:
             defaults_only (`bool`, *optional*, defaults to `False`):
                 Whether to update all keys in config with `kwargs` or only those that are set to `None` (i.e. default value).
+            allow_custom_entries (`bool`, *optional*, defaults to `False`):
+                Whether to allow updating custom entries into the config with `kwargs` if not present in the current config.
             kwargs (`dict[str, Any]`):
                 Dictionary of attributes to tentatively update this class.
@@ -1198,7 +1211,10 @@ class GenerationConfig(PushToHubMixin):
         """
         to_remove = []
         for key, value in kwargs.items():
-            if hasattr(self, key):
+            if allow_custom_entries and not hasattr(self, key):
+                setattr(self, key, value)
+                to_remove.append(key)
+            elif hasattr(self, key):
                 if not defaults_only or getattr(self, key) is None:
                     setattr(self, key, value)
                     to_remove.append(key)
@@ -1261,8 +1277,7 @@ class BaseWatermarkingConfig(ABC):
         return output
     def __iter__(self):
-        for attr, value in copy.deepcopy(self.__dict__).items():
-            yield attr, value
+        yield from copy.deepcopy(self.__dict__).items()
     def __repr__(self):
         return f"{self.__class__.__name__} {self.to_json_string()}"

transformers/generation/continuous_batching/__init__.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# coding=utf-8
 # Copyright 2025 The HuggingFace Inc. team
 #
 # Licensed under the Apache License, Version 2.0 (the "License");

transformers/generation/continuous_batching/cache.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# coding=utf-8
 # Copyright 2025 The HuggingFace Inc. team.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -18,6 +17,7 @@ import torch
 from ...configuration_utils import PreTrainedConfig
 from ...generation.configuration_utils import GenerationConfig
+from ...utils.generic import is_flash_attention_requested
 from ...utils.metrics import attach_tracer, traced
 from .cache_manager import BlockManager, CacheAllocator, FullAttentionCacheAllocator, SlidingAttentionCacheAllocator
 from .requests import RequestState, get_device_and_memory_breakdown, logger
@@ -118,7 +118,7 @@ class PagedAttentionCache:
         self,
         config: PreTrainedConfig,
         generation_config: GenerationConfig,
-        device: torch.device,
+        device: torch.device | str,
         dtype: torch.dtype = torch.float16,
         tp_size: int | None = None,
         allow_block_sharing: bool = True,
@@ -173,7 +173,7 @@ class PagedAttentionCache:
         # Infer number of blocks and max batch tokens
         page_size = self.head_dim * self.num_key_value_heads
-        if "flash" in self.config._attn_implementation:
+        if is_flash_attention_requested(self.config):
             num_attention_masks = 0  # only used to compute the default memory footprint args
         elif "sliding_attention" in group_types:
             # TODO: when we generalize to allow for block-attn, we can use `num_attention_masks=sum(set(group_types))`
@@ -201,6 +201,7 @@ class PagedAttentionCache:
         # Add the inferred attributes to the class
         self.num_blocks = num_blocks
         self.max_batch_tokens = max_batch_tokens
+        self.num_pages = self.num_blocks * self.block_size
         logger.info(
             f"PagedAttentionCache initialized with {self.num_blocks = }, {self.block_size = }, {page_size = }, "
             f"{self.max_batch_tokens = } {num_attention_masks = }"
@@ -223,11 +224,18 @@ class PagedAttentionCache:
         # Block management data structures
         self.allow_block_sharing = allow_block_sharing
         self.group_cache_managers: list[CacheAllocator] = []
+        self.num_full_attention_groups = 0
+        self.num_sliding_attention_groups = 0
+        self.max_sliding_window_blocks_per_request = 0
         for i, group_type in enumerate(group_types):
             if group_type == "full_attention":
                 cm = FullAttentionCacheAllocator(i, self.block_size, allow_block_sharing=allow_block_sharing)
+                self.num_full_attention_groups += 1
             elif group_type == "sliding_attention":
                 cm = SlidingAttentionCacheAllocator(i, self.block_size, config.sliding_window)
+                self.num_sliding_attention_groups += 1
+                self.max_sliding_window_blocks_per_request = cm._max_blocks_per_request
             else:
                 raise ValueError(f"Invalid group type: {group_type}")
             self.group_cache_managers.append(cm)
@@ -238,16 +246,38 @@ class PagedAttentionCache:
         self.blocks_to_complete: dict[str, int] = {}
         self._total_prefix_length: int = 0  # a counter to measure the impact of prefix sharing, also used in tests
+    def will_allocation_be_successful(self, num_requested_blocks: int, allocated_blocks: int) -> bool:
+        """Returns a boolean indicating if the allocation of (num_requested_blocks) blocks will be successful. The
+        number of newly allocated blocks needed is predicted by the following rules:
+        - for full attention groups: since there is no sliding window for full attention layers, one requested block is
+            always equivalent to one newly allocated block for EACH full attention group
+        - for sliding window groups: because of the sliding window, the number of blocks allocated to a request is
+            capped. Using the number of already (allocated_blocks) we can compute the number of new blocks to actually
+            allocate to the request, which can be lower than the number of requested blocks. That number is the same for
+            all sliding window groups, as only one sliding window size is supported.
+        """
+        # This is not in a branch, because it is very rare to have zero full attention layer
+        needed_blocks = num_requested_blocks * self.num_full_attention_groups
+        # Only take this branch if the model has sliding window attention layers
+        if self.num_sliding_attention_groups:
+            blocks_left = max(self.max_sliding_window_blocks_per_request - allocated_blocks, 0)
+            needed_blocks += min(blocks_left, num_requested_blocks) * self.num_sliding_attention_groups
+        return needed_blocks <= self.get_num_free_blocks()
     @traced
-    def allocate_blocks(self, n_blocks: int, state: RequestState) -> int:
+    def allocate_blocks(self, n_blocks: int, request_id: str, allocated_blocks: int) -> int | None:
         """Allocate cache blocks across all layer groups for a given request. Actual allocation is done by the cache
         managers, and this method only returns the maximum number of blocks actually allocated across all managers."""
+        # First check allocation will be successful before starting, to avoid partial allocations
+        if not self.will_allocation_be_successful(n_blocks, allocated_blocks):
+            return None
+        # Allocate blocks across all cache managers
         max_allocated = 0
         for cm in self.group_cache_managers:
-            allocated = cm.allocate_blocks(n_blocks, state.request_id, self._block_manager)
-            if allocated is None:
-                return None
-            max_allocated = max(max_allocated, allocated)
+            num_allocated_blocks = cm.allocate_blocks(n_blocks, request_id, self._block_manager)
+            if num_allocated_blocks is None:
+                raise ValueError(f"Failed to allocate {n_blocks} blocks for request {request_id}")
+            max_allocated = max(max_allocated, num_allocated_blocks)
         return max_allocated
     @traced
@@ -262,35 +292,33 @@ class PagedAttentionCache:
         return self._block_manager.num_free_blocks
     @traced
-    def extend_read_indices(
-        self, request_id: str, past_length: int, query_length: int, read_index: list[list[int]]
+    def extend_read_and_write_indices(
+        self,
+        request_id: str,
+        past_length: int,
+        query_length: int,
+        read_index: list[list[int]],
+        write_index: list[list[int]],
     ) -> None:
         """Retrieve physical cache indices for reading KV states in the cache across all layer groups. This method
         coordinates with all cache managers to build the complete set of read indices needed for attention computation.
         """
-        for cm, read_indices in zip(self.group_cache_managers, read_index):
+        for cm, read_indices, write_indices in zip(self.group_cache_managers, read_index, write_index):
             indices = cm.get_read_indices(request_id, past_length, query_length)
             read_indices.extend(indices)
-    @traced
-    def extend_write_indices(
-        self, request_id: str, past_length: int, query_length: int, write_index: list[list[int]]
-    ) -> None:
-        """Retrieve physical cache indices for writing new KV states to the cache across all layer groups. This method
-        coordinates with all cache managers to build the complete set of write indices needed to store computed KV
-        states."""
-        for cm, write_indices in zip(self.group_cache_managers, write_index):
             indices = cm.get_write_indices(request_id, past_length, query_length)
             write_indices.extend(indices)
     @traced
-    def get_seqlens_k(self, request_id: str, past_length: int, query_length: int) -> dict[str, int]:
+    def get_seqlens_k(self, past_length: int, query_length: int) -> dict[str, int]:
         """Retrieve the key sequence length for the given request_id across all layer types. Returns a dictionary of
         layer types to their corresponding key sequence lengths."""
         seqlens_k = {}
-        for cm in self.group_cache_managers:
-            attn_type, seqlen_k = cm.get_seqlens_k(request_id, past_length, query_length)
-            seqlens_k[attn_type] = seqlen_k
+        if self.num_full_attention_groups > 0:
+            seqlens_k["full_attention"] = past_length + query_length
+        if self.num_sliding_attention_groups > 0:
+            seqlens_k["sliding_attention"] = query_length + min(past_length, self.config.sliding_window - 1)
+        # NOTE: when we add more attention types / different sliding windows, we can go back to looping over CMs
         return seqlens_k
     @traced
@@ -388,10 +416,10 @@ class PagedAttentionCache:
                     prompt_ids=(state.initial_tokens + state.generated_tokens),
                 )
-    def copy_cache(self, source_blocks: list[int], forked_blocks: list[int]) -> None:
+    def copy_cache(self, list_source_blocks: list[int], list_forked_blocks: list[int]) -> None:
         """Copy the cache from the source blocks to the forked blocks."""
-        source_blocks = torch.tensor(source_blocks, device=self.device, dtype=torch.int32)
-        forked_blocks = torch.tensor(forked_blocks, device=self.device, dtype=torch.int32)
+        source_blocks = torch.tensor(list_source_blocks, device=self.device, dtype=torch.int32)
+        forked_blocks = torch.tensor(list_forked_blocks, device=self.device, dtype=torch.int32)
         for key_cache, value_cache in zip(self.key_cache, self.value_cache):
             key_cache = key_cache.view(-1, self.block_size, self.num_key_value_heads, self.head_dim)
             value_cache = value_cache.view(-1, self.block_size, self.num_key_value_heads, self.head_dim)
@@ -505,24 +533,26 @@ class PagedAttentionMemoryHandler:
         where we already simplified int32_size = 4.
         """
-        # If neither num_blocks nor max_batch_tokens are provided, we use a second-order polynomial
-        if num_blocks is None and max_batch_tokens is None:
-            num_blocks, max_batch_tokens = self.compute_num_blocks_and_max_batch_tokens(
-                max_memory_percent, cache_dtype
-            )
-        # If only num_blocks is provided, we infer the max_batch_tokens
-        elif num_blocks is not None and max_batch_tokens is None:
+        if num_blocks is None:
+            if max_batch_tokens is None:
+                # If neither num_blocks nor max_batch_tokens are provided, we use a second-order polynomial
+                num_blocks, max_batch_tokens = self.compute_num_blocks_and_max_batch_tokens(
+                    max_memory_percent, cache_dtype
+                )
+            else:
+                # If only max_batch_tokens is provided, we infer the num_blocks
+                num_blocks = self.compute_num_blocks(max_batch_tokens, max_memory_percent, cache_dtype)
+        elif max_batch_tokens is None:
+            # If only num_blocks is provided, we infer the max_batch_tokens
             max_batch_tokens = self.compute_max_batch_tokens(num_blocks, max_memory_percent, cache_dtype)
-        # If only max_batch_tokens is provided, we infer the num_blocks
-        elif max_batch_tokens is not None and num_blocks is None:
-            num_blocks = self.compute_num_blocks(max_batch_tokens, max_memory_percent, cache_dtype)
+        else:
+            # If both num_blocks and max_batch_tokens are provided, we use them (useless, but helps with typing)
+            max_batch_tokens = max_batch_tokens
         # We check if the memory footprint is too large in all cases
         available_memory = self.get_available_memory(max_memory_percent)
         memory_footprint = self.compute_memory_footprint(
-            max_batch_tokens=max_batch_tokens,
-            num_blocks=num_blocks,
-            cache_dtype=cache_dtype,
+            max_batch_tokens=max_batch_tokens, num_blocks=num_blocks, cache_dtype=cache_dtype
         )
         if memory_footprint > available_memory:
             raise MemoryError(f"Memory footprint {memory_footprint} is more than available memory {available_memory}")
@@ -641,10 +671,10 @@ class PagedAttentionMemoryHandler:
     def compute_memory_footprint(
         self,
-        num_blocks: int | None = None,
-        max_batch_tokens: int | None = None,
-        cache_dtype: torch.dtype = torch.float16,
-    ) -> tuple[int, int, int]:
+        num_blocks: int,
+        max_batch_tokens: int,
+        cache_dtype: torch.dtype,
+    ) -> int:
         """Calculate the memory footprint breakdown for a given number of blocks and maximum batch tokens. The memory
         footprint is given by:

transformers/generation/continuous_batching/cache_manager.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# coding=utf-8
 # Copyright 2025 The HuggingFace Inc. team.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -100,7 +99,8 @@ class BlockManager:
         for _ in range(block_to_uninitialize):
             id_to_uninitialize = self._init_block_ids.popitem()[0]
             block = self._id_to_block[id_to_uninitialize]
-            self._hash_to_id.pop(block.hash)
+            # Since the block is initialized it must have a hash, thus no need to check .hash is not None
+            self._hash_to_id.pop(block.hash)  # ty:ignore[invalid-argument-type]
             self._uninit_block_ids.append(id_to_uninitialize)
         return True
@@ -125,7 +125,7 @@ class BlockManager:
     def fork_blocks(
         self, parent_blocks: list[int], num_forks: int, shareable: bool, group_id: int
-    ) -> tuple[list[list[int]], list[int], list[int]]:
+    ) -> tuple[list[list[int]] | None, list[int], list[int]]:
         """Fork a given list of (parent_blocks) as many times as (num_forks). If the blocks are (shareable), we use
         reference on the blocks that are complete. Otherwise, we allocate new blocks and keep track of their indices to
         later copy the physical cache. For instance, when forking 4 blocks for 2 children:
@@ -207,6 +207,15 @@ class BlockManager:
         else:
             self._uninit_block_ids.extend(blocks)
+    def uninitialize_unshared_block(self, block_id: int) -> None:
+        """Marks a block as uninitialized. Raises an error if the block has more than one reference."""
+        # Make sure the block has only one reference and remove it from the block table
+        block = self._id_to_block.pop(block_id)
+        if block.ref_count > 1:
+            raise RuntimeError(f"Block {block_id} has more than one reference: {block.ref_count = }")
+        # Add the block to the uninitialized blocks queue
+        self._uninit_block_ids.append(block_id)
     def mark_shareable_blocks_as_complete(
         self, num_complete_blocks: int, allocated_blocks: list[int], prompt_ids: list[int]
     ) -> None:
@@ -242,13 +251,17 @@ class BlockManager:
             block.hash = self.compute_hash(parent_hash, tokens, block.group_id)
             existing_block_id = self._hash_to_id.get(block.hash)
-            # If the block hash is already in the hash to id mapping, we reference the existing block instead
+            # If their was a different block with the same hash, we reference the existing block instead
             if existing_block_id is not None:
-                logger.debug(f"Found existing block {existing_block_id} for block {block.id}")
-                allocated_blocks[i] = existing_block_id
-                self._id_to_block[existing_block_id].ref_count += 1
-                new_parent_id = existing_block_id
-                self.free_blocks([block.id], shareable=True)
+                if existing_block_id == block.id:
+                    # This should not happen, but is not a problem in itself, so we just log a warning
+                    logger.warning(f"Block {block.id} was marked as complete more than once")
+                else:
+                    logger.debug(f"Found existing block {existing_block_id} for block {block.id}")
+                    allocated_blocks[i] = existing_block_id
+                    new_parent_id = existing_block_id
+                    self.increase_ref_count(existing_block_id)
+                    self.uninitialize_unshared_block(block.id)
             # Otherwise, we add the completed block to the hash table
             else:
@@ -295,10 +308,6 @@ class CacheAllocator(ABC):
     def get_write_indices(self, request_id: str, past_length: int, query_length: int) -> list[int]:
         """Returns the physical indices of where to write request_id's cache in the cache tensor."""
-    @abstractmethod
-    def get_seqlens_k(self, request_id: str, past_length: int, query_length: int) -> tuple[str, int]:
-        """Returns the attention type of the cache allocator and the key sequence length for the given request_id."""
     def fork_blocks(
         self, parent_request_id: str, children_request_ids: list[str], block_manager: BlockManager
     ) -> tuple[list[int], list[int]]:
@@ -349,16 +358,17 @@ class FullAttentionCacheAllocator(CacheAllocator):
         allocated if successful and None otherwise. For group of full attention layers, we always allocate the number of
         requested blocks."""
         # Make sure the request_id is in the block table and get the first block id
-        if request_id not in self.block_table:
-            self.block_table[request_id] = []  # TODO: check the impact of making this a deque
-            last_block_id = None
+        block_table = self.block_table.get(request_id, [])
+        if block_table:
+            last_block_id = block_table[-1]
         else:
-            last_block_id = self.block_table[request_id][-1]
+            self.block_table[request_id] = block_table  # TODO: check the impact of making this a deque
+            last_block_id = None
         # Actual allocation, return early if failed
         allocated_blocks = block_manager.get_free_blocks(n_blocks, last_block_id, self.uses_block_sharing, self._index)
         if allocated_blocks is None:
             return None
-        self.block_table[request_id].extend(allocated_blocks)
+        block_table.extend(allocated_blocks)
         return n_blocks
     def get_read_indices(self, request_id: str, past_length: int, query_length: int) -> list[int]:
@@ -392,11 +402,6 @@ class FullAttentionCacheAllocator(CacheAllocator):
             physical_indices.append(physical_index)
         return physical_indices
-    def get_seqlens_k(self, request_id: str, past_length: int, query_length: int) -> tuple[str, int]:
-        """Returns the attention type of the cache allocator and the key sequence length for the given request_id."""
-        seqlens_k = past_length + query_length
-        return "full_attention", seqlens_k
 class SlidingAttentionCacheAllocator(CacheAllocator):
     """Cache manager for sliding window attention layers."""
@@ -483,8 +488,3 @@ class SlidingAttentionCacheAllocator(CacheAllocator):
         if padding_length > 0:
             physical_indices = [-1] * padding_length + physical_indices
         return physical_indices
-    def get_seqlens_k(self, request_id: str, past_length: int, query_length: int) -> tuple[str, int]:
-        """Returns the attention type of the cache allocator and the key sequence length for the given request_id."""
-        seqlens_k = query_length + min(past_length, self.sliding_window - 1)
-        return "sliding_attention", seqlens_k

transformers 5.0.0rc2__py3-none-any.whl → 5.1.0__py3-none-any.whl

transformers 5.0.0rc2py3-none-any.whl → 5.1.0py3-none-any.whl