PyPI - transformers - Versions diffs - 5.0.0__py3-none-any.whl → 5.0.0rc0__py3-none-any.whl - Mend

transformers 5.0.0py3-none-any.whl → 5.0.0rc0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1606) hide show

transformers/__init__.py +36 -55
transformers/activations.py +1 -1
transformers/audio_utils.py +33 -32
transformers/cache_utils.py +139 -32
transformers/cli/chat.py +3 -3
transformers/cli/serve.py +19 -49
transformers/cli/transformers.py +1 -2
transformers/configuration_utils.py +155 -129
transformers/conversion_mapping.py +22 -158
transformers/convert_slow_tokenizer.py +17 -227
transformers/core_model_loading.py +185 -528
transformers/data/data_collator.py +4 -12
transformers/data/processors/glue.py +1 -0
transformers/data/processors/utils.py +1 -0
transformers/data/processors/xnli.py +1 -0
transformers/dependency_versions_check.py +1 -0
transformers/dependency_versions_table.py +7 -5
transformers/distributed/configuration_utils.py +2 -1
transformers/dynamic_module_utils.py +25 -24
transformers/feature_extraction_sequence_utils.py +23 -19
transformers/feature_extraction_utils.py +33 -64
transformers/file_utils.py +1 -0
transformers/generation/__init__.py +1 -11
transformers/generation/candidate_generator.py +33 -80
transformers/generation/configuration_utils.py +133 -189
transformers/generation/continuous_batching/__init__.py +1 -4
transformers/generation/continuous_batching/cache.py +25 -83
transformers/generation/continuous_batching/cache_manager.py +45 -155
transformers/generation/continuous_batching/continuous_api.py +147 -270
transformers/generation/continuous_batching/requests.py +3 -51
transformers/generation/continuous_batching/scheduler.py +105 -160
transformers/generation/logits_process.py +128 -0
transformers/generation/stopping_criteria.py +1 -1
transformers/generation/streamers.py +1 -0
transformers/generation/utils.py +123 -122
transformers/generation/watermarking.py +6 -8
transformers/hf_argparser.py +13 -9
transformers/hyperparameter_search.py +2 -1
transformers/image_processing_base.py +23 -12
transformers/image_processing_utils.py +15 -11
transformers/image_processing_utils_fast.py +75 -85
transformers/image_transforms.py +42 -73
transformers/image_utils.py +32 -30
transformers/initialization.py +0 -37
transformers/integrations/__init__.py +2 -16
transformers/integrations/accelerate.py +113 -58
transformers/integrations/aqlm.py +66 -36
transformers/integrations/awq.py +516 -45
transformers/integrations/bitnet.py +105 -47
transformers/integrations/bitsandbytes.py +202 -91
transformers/integrations/deepspeed.py +4 -161
transformers/integrations/eetq.py +82 -84
transformers/integrations/executorch.py +1 -1
transformers/integrations/fbgemm_fp8.py +145 -190
transformers/integrations/finegrained_fp8.py +215 -249
transformers/integrations/flash_attention.py +3 -3
transformers/integrations/flex_attention.py +1 -1
transformers/integrations/fp_quant.py +0 -90
transformers/integrations/ggml.py +2 -11
transformers/integrations/higgs.py +62 -37
transformers/integrations/hub_kernels.py +8 -65
transformers/integrations/integration_utils.py +3 -47
transformers/integrations/mistral.py +0 -12
transformers/integrations/mxfp4.py +80 -33
transformers/integrations/peft.py +191 -483
transformers/integrations/quanto.py +56 -77
transformers/integrations/spqr.py +90 -42
transformers/integrations/tensor_parallel.py +221 -167
transformers/integrations/torchao.py +43 -35
transformers/integrations/vptq.py +59 -40
transformers/kernels/__init__.py +0 -0
transformers/{models/pe_audio_video/processing_pe_audio_video.py → kernels/falcon_mamba/__init__.py} +3 -12
transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py +529 -0
transformers/loss/loss_utils.py +0 -2
transformers/masking_utils.py +55 -51
transformers/model_debugging_utils.py +5 -4
transformers/modelcard.py +194 -15
transformers/modeling_attn_mask_utils.py +19 -19
transformers/modeling_flash_attention_utils.py +27 -27
transformers/modeling_gguf_pytorch_utils.py +24 -79
transformers/modeling_layers.py +22 -21
transformers/modeling_outputs.py +253 -242
transformers/modeling_rope_utils.py +117 -138
transformers/modeling_utils.py +739 -850
transformers/models/__init__.py +0 -27
transformers/models/afmoe/configuration_afmoe.py +33 -40
transformers/models/afmoe/modeling_afmoe.py +54 -42
transformers/models/afmoe/modular_afmoe.py +33 -23
transformers/models/aimv2/configuration_aimv2.py +10 -2
transformers/models/aimv2/modeling_aimv2.py +42 -47
transformers/models/aimv2/modular_aimv2.py +19 -17
transformers/models/albert/configuration_albert.py +2 -8
transformers/models/albert/modeling_albert.py +69 -70
transformers/models/albert/tokenization_albert.py +14 -5
transformers/models/align/configuration_align.py +6 -8
transformers/models/align/modeling_align.py +89 -94
transformers/models/align/processing_align.py +30 -2
transformers/models/altclip/configuration_altclip.py +7 -4
transformers/models/altclip/modeling_altclip.py +103 -114
transformers/models/altclip/processing_altclip.py +15 -2
transformers/models/apertus/__init__.py +1 -0
transformers/models/apertus/configuration_apertus.py +28 -23
transformers/models/apertus/modeling_apertus.py +40 -39
transformers/models/apertus/modular_apertus.py +38 -37
transformers/models/arcee/configuration_arcee.py +30 -25
transformers/models/arcee/modeling_arcee.py +39 -36
transformers/models/arcee/modular_arcee.py +23 -20
transformers/models/aria/configuration_aria.py +44 -31
transformers/models/aria/image_processing_aria.py +27 -25
transformers/models/aria/modeling_aria.py +106 -110
transformers/models/aria/modular_aria.py +127 -118
transformers/models/aria/processing_aria.py +35 -28
transformers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py +1 -0
transformers/models/audio_spectrogram_transformer/feature_extraction_audio_spectrogram_transformer.py +6 -3
transformers/models/audio_spectrogram_transformer/modeling_audio_spectrogram_transformer.py +8 -6
transformers/models/audioflamingo3/__init__.py +1 -0
transformers/models/audioflamingo3/configuration_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/modeling_audioflamingo3.py +49 -58
transformers/models/audioflamingo3/modular_audioflamingo3.py +43 -53
transformers/models/audioflamingo3/processing_audioflamingo3.py +30 -33
transformers/models/auto/auto_factory.py +7 -6
transformers/models/auto/configuration_auto.py +5 -66
transformers/models/auto/feature_extraction_auto.py +10 -14
transformers/models/auto/image_processing_auto.py +41 -32
transformers/models/auto/modeling_auto.py +188 -46
transformers/models/auto/processing_auto.py +11 -24
transformers/models/auto/tokenization_auto.py +588 -171
transformers/models/auto/video_processing_auto.py +10 -12
transformers/models/autoformer/configuration_autoformer.py +7 -4
transformers/models/autoformer/modeling_autoformer.py +101 -104
transformers/models/aya_vision/configuration_aya_vision.py +1 -4
transformers/models/aya_vision/modeling_aya_vision.py +102 -71
transformers/models/aya_vision/modular_aya_vision.py +74 -46
transformers/models/aya_vision/processing_aya_vision.py +53 -25
transformers/models/bamba/configuration_bamba.py +39 -34
transformers/models/bamba/modeling_bamba.py +86 -82
transformers/models/bamba/modular_bamba.py +72 -70
transformers/models/bark/configuration_bark.py +8 -6
transformers/models/bark/generation_configuration_bark.py +5 -3
transformers/models/bark/modeling_bark.py +57 -54
transformers/models/bark/processing_bark.py +41 -19
transformers/models/bart/configuration_bart.py +6 -9
transformers/models/bart/modeling_bart.py +126 -135
transformers/models/barthez/tokenization_barthez.py +11 -3
transformers/models/bartpho/tokenization_bartpho.py +7 -6
transformers/models/beit/configuration_beit.py +11 -0
transformers/models/beit/image_processing_beit.py +56 -53
transformers/models/beit/image_processing_beit_fast.py +12 -10
transformers/models/beit/modeling_beit.py +60 -69
transformers/models/bert/configuration_bert.py +2 -12
transformers/models/bert/modeling_bert.py +122 -114
transformers/models/bert/tokenization_bert.py +23 -8
transformers/models/bert/tokenization_bert_legacy.py +5 -3
transformers/models/bert_generation/configuration_bert_generation.py +2 -17
transformers/models/bert_generation/modeling_bert_generation.py +49 -49
transformers/models/bert_generation/tokenization_bert_generation.py +3 -2
transformers/models/bert_japanese/tokenization_bert_japanese.py +6 -5
transformers/models/bertweet/tokenization_bertweet.py +3 -1
transformers/models/big_bird/configuration_big_bird.py +9 -12
transformers/models/big_bird/modeling_big_bird.py +109 -116
transformers/models/big_bird/tokenization_big_bird.py +43 -16
transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py +9 -9
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +117 -130
transformers/models/biogpt/configuration_biogpt.py +2 -8
transformers/models/biogpt/modeling_biogpt.py +76 -72
transformers/models/biogpt/modular_biogpt.py +66 -62
transformers/models/biogpt/tokenization_biogpt.py +5 -3
transformers/models/bit/configuration_bit.py +1 -0
transformers/models/bit/image_processing_bit.py +24 -21
transformers/models/bit/image_processing_bit_fast.py +1 -0
transformers/models/bit/modeling_bit.py +12 -25
transformers/models/bitnet/configuration_bitnet.py +28 -23
transformers/models/bitnet/modeling_bitnet.py +39 -36
transformers/models/bitnet/modular_bitnet.py +6 -4
transformers/models/blenderbot/configuration_blenderbot.py +5 -8
transformers/models/blenderbot/modeling_blenderbot.py +96 -77
transformers/models/blenderbot/tokenization_blenderbot.py +24 -18
transformers/models/blenderbot_small/configuration_blenderbot_small.py +5 -8
transformers/models/blenderbot_small/modeling_blenderbot_small.py +69 -79
transformers/models/blenderbot_small/tokenization_blenderbot_small.py +3 -1
transformers/models/blip/configuration_blip.py +10 -9
transformers/models/blip/image_processing_blip.py +20 -17
transformers/models/blip/image_processing_blip_fast.py +1 -0
transformers/models/blip/modeling_blip.py +108 -117
transformers/models/blip/modeling_blip_text.py +65 -73
transformers/models/blip/processing_blip.py +36 -5
transformers/models/blip_2/configuration_blip_2.py +2 -2
transformers/models/blip_2/modeling_blip_2.py +118 -146
transformers/models/blip_2/processing_blip_2.py +38 -8
transformers/models/bloom/configuration_bloom.py +2 -5
transformers/models/bloom/modeling_bloom.py +104 -77
transformers/models/blt/configuration_blt.py +86 -94
transformers/models/blt/modeling_blt.py +81 -238
transformers/models/blt/modular_blt.py +65 -228
transformers/models/bridgetower/configuration_bridgetower.py +2 -7
transformers/models/bridgetower/image_processing_bridgetower.py +35 -34
transformers/models/bridgetower/image_processing_bridgetower_fast.py +16 -13
transformers/models/bridgetower/modeling_bridgetower.py +119 -141
transformers/models/bridgetower/processing_bridgetower.py +16 -2
transformers/models/bros/configuration_bros.py +18 -24
transformers/models/bros/modeling_bros.py +80 -90
transformers/models/bros/processing_bros.py +12 -2
transformers/models/byt5/tokenization_byt5.py +6 -4
transformers/models/camembert/configuration_camembert.py +2 -8
transformers/models/camembert/modeling_camembert.py +195 -196
transformers/models/camembert/modular_camembert.py +54 -51
transformers/models/camembert/tokenization_camembert.py +13 -6
transformers/models/canine/configuration_canine.py +2 -4
transformers/models/canine/modeling_canine.py +75 -84
transformers/models/canine/tokenization_canine.py +1 -2
transformers/models/chameleon/configuration_chameleon.py +34 -29
transformers/models/chameleon/image_processing_chameleon.py +24 -21
transformers/models/chameleon/image_processing_chameleon_fast.py +6 -5
transformers/models/chameleon/modeling_chameleon.py +93 -142
transformers/models/chameleon/processing_chameleon.py +41 -16
transformers/models/chinese_clip/configuration_chinese_clip.py +8 -10
transformers/models/chinese_clip/image_processing_chinese_clip.py +24 -21
transformers/models/chinese_clip/image_processing_chinese_clip_fast.py +1 -0
transformers/models/chinese_clip/modeling_chinese_clip.py +92 -96
transformers/models/chinese_clip/processing_chinese_clip.py +15 -2
transformers/models/clap/configuration_clap.py +9 -4
transformers/models/clap/feature_extraction_clap.py +12 -11
transformers/models/clap/modeling_clap.py +123 -136
transformers/models/clap/processing_clap.py +15 -2
transformers/models/clip/configuration_clip.py +2 -4
transformers/models/clip/image_processing_clip.py +24 -21
transformers/models/clip/image_processing_clip_fast.py +1 -9
transformers/models/clip/modeling_clip.py +65 -65
transformers/models/clip/processing_clip.py +14 -2
transformers/models/clip/tokenization_clip.py +46 -21
transformers/models/clipseg/configuration_clipseg.py +2 -4
transformers/models/clipseg/modeling_clipseg.py +109 -119
transformers/models/clipseg/processing_clipseg.py +42 -19
transformers/models/clvp/configuration_clvp.py +5 -15
transformers/models/clvp/feature_extraction_clvp.py +10 -7
transformers/models/clvp/modeling_clvp.py +146 -155
transformers/models/clvp/number_normalizer.py +2 -1
transformers/models/clvp/processing_clvp.py +20 -3
transformers/models/clvp/tokenization_clvp.py +64 -1
transformers/models/code_llama/tokenization_code_llama.py +44 -18
transformers/models/codegen/configuration_codegen.py +4 -4
transformers/models/codegen/modeling_codegen.py +53 -63
transformers/models/codegen/tokenization_codegen.py +47 -17
transformers/models/cohere/configuration_cohere.py +30 -25
transformers/models/cohere/modeling_cohere.py +42 -40
transformers/models/cohere/modular_cohere.py +29 -26
transformers/models/cohere/tokenization_cohere.py +46 -15
transformers/models/cohere2/configuration_cohere2.py +32 -31
transformers/models/cohere2/modeling_cohere2.py +44 -42
transformers/models/cohere2/modular_cohere2.py +54 -54
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +14 -13
transformers/models/cohere2_vision/modeling_cohere2_vision.py +58 -59
transformers/models/cohere2_vision/modular_cohere2_vision.py +46 -45
transformers/models/cohere2_vision/processing_cohere2_vision.py +36 -6
transformers/models/colpali/configuration_colpali.py +1 -0
transformers/models/colpali/modeling_colpali.py +16 -14
transformers/models/colpali/modular_colpali.py +51 -11
transformers/models/colpali/processing_colpali.py +52 -14
transformers/models/colqwen2/modeling_colqwen2.py +28 -28
transformers/models/colqwen2/modular_colqwen2.py +74 -37
transformers/models/colqwen2/processing_colqwen2.py +52 -16
transformers/models/conditional_detr/configuration_conditional_detr.py +2 -1
transformers/models/conditional_detr/image_processing_conditional_detr.py +70 -67
transformers/models/conditional_detr/image_processing_conditional_detr_fast.py +36 -36
transformers/models/conditional_detr/modeling_conditional_detr.py +87 -99
transformers/models/conditional_detr/modular_conditional_detr.py +3 -49
transformers/models/convbert/configuration_convbert.py +8 -11
transformers/models/convbert/modeling_convbert.py +87 -94
transformers/models/convbert/tokenization_convbert.py +1 -0
transformers/models/convnext/configuration_convnext.py +1 -0
transformers/models/convnext/image_processing_convnext.py +23 -20
transformers/models/convnext/image_processing_convnext_fast.py +21 -16
transformers/models/convnext/modeling_convnext.py +12 -9
transformers/models/convnextv2/configuration_convnextv2.py +1 -0
transformers/models/convnextv2/modeling_convnextv2.py +12 -9
transformers/models/cpm/tokenization_cpm.py +7 -6
transformers/models/cpm/tokenization_cpm_fast.py +5 -3
transformers/models/cpmant/configuration_cpmant.py +1 -4
transformers/models/cpmant/modeling_cpmant.py +40 -38
transformers/models/cpmant/tokenization_cpmant.py +3 -1
transformers/models/csm/configuration_csm.py +66 -58
transformers/models/csm/generation_csm.py +35 -31
transformers/models/csm/modeling_csm.py +85 -85
transformers/models/csm/modular_csm.py +58 -58
transformers/models/csm/processing_csm.py +68 -25
transformers/models/ctrl/configuration_ctrl.py +1 -16
transformers/models/ctrl/modeling_ctrl.py +44 -54
transformers/models/ctrl/tokenization_ctrl.py +1 -0
transformers/models/cvt/configuration_cvt.py +1 -0
transformers/models/cvt/modeling_cvt.py +16 -20
transformers/models/cwm/__init__.py +1 -0
transformers/models/cwm/configuration_cwm.py +12 -8
transformers/models/cwm/modeling_cwm.py +39 -37
transformers/models/cwm/modular_cwm.py +12 -10
transformers/models/d_fine/configuration_d_fine.py +5 -7
transformers/models/d_fine/modeling_d_fine.py +128 -138
transformers/models/d_fine/modular_d_fine.py +18 -33
transformers/models/dab_detr/configuration_dab_detr.py +3 -6
transformers/models/dab_detr/modeling_dab_detr.py +75 -81
transformers/models/dac/configuration_dac.py +1 -0
transformers/models/dac/feature_extraction_dac.py +9 -6
transformers/models/dac/modeling_dac.py +26 -24
transformers/models/data2vec/configuration_data2vec_audio.py +2 -4
transformers/models/data2vec/configuration_data2vec_text.py +3 -11
transformers/models/data2vec/configuration_data2vec_vision.py +1 -0
transformers/models/data2vec/modeling_data2vec_audio.py +56 -57
transformers/models/data2vec/modeling_data2vec_text.py +93 -98
transformers/models/data2vec/modeling_data2vec_vision.py +45 -49
transformers/models/data2vec/modular_data2vec_audio.py +1 -6
transformers/models/data2vec/modular_data2vec_text.py +54 -58
transformers/models/dbrx/configuration_dbrx.py +22 -36
transformers/models/dbrx/modeling_dbrx.py +45 -42
transformers/models/dbrx/modular_dbrx.py +33 -31
transformers/models/deberta/configuration_deberta.py +1 -6
transformers/models/deberta/modeling_deberta.py +60 -64
transformers/models/deberta/tokenization_deberta.py +21 -9
transformers/models/deberta_v2/configuration_deberta_v2.py +1 -6
transformers/models/deberta_v2/modeling_deberta_v2.py +65 -71
transformers/models/deberta_v2/tokenization_deberta_v2.py +29 -11
transformers/models/decision_transformer/configuration_decision_transformer.py +2 -3
transformers/models/decision_transformer/modeling_decision_transformer.py +56 -60
transformers/models/deepseek_v2/configuration_deepseek_v2.py +44 -39
transformers/models/deepseek_v2/modeling_deepseek_v2.py +43 -43
transformers/models/deepseek_v2/modular_deepseek_v2.py +49 -48
transformers/models/deepseek_v3/configuration_deepseek_v3.py +45 -40
transformers/models/deepseek_v3/modeling_deepseek_v3.py +42 -45
transformers/models/deepseek_v3/modular_deepseek_v3.py +9 -14
transformers/models/deepseek_vl/configuration_deepseek_vl.py +3 -2
transformers/models/deepseek_vl/image_processing_deepseek_vl.py +26 -25
transformers/models/deepseek_vl/image_processing_deepseek_vl_fast.py +10 -10
transformers/models/deepseek_vl/modeling_deepseek_vl.py +48 -57
transformers/models/deepseek_vl/modular_deepseek_vl.py +43 -14
transformers/models/deepseek_vl/processing_deepseek_vl.py +41 -10
transformers/models/deepseek_vl_hybrid/configuration_deepseek_vl_hybrid.py +5 -3
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid.py +35 -35
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid_fast.py +24 -20
transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py +61 -109
transformers/models/deepseek_vl_hybrid/modular_deepseek_vl_hybrid.py +118 -146
transformers/models/deepseek_vl_hybrid/processing_deepseek_vl_hybrid.py +44 -12
transformers/models/deformable_detr/configuration_deformable_detr.py +3 -2
transformers/models/deformable_detr/image_processing_deformable_detr.py +61 -59
transformers/models/deformable_detr/image_processing_deformable_detr_fast.py +28 -28
transformers/models/deformable_detr/modeling_deformable_detr.py +82 -88
transformers/models/deformable_detr/modular_deformable_detr.py +3 -1
transformers/models/deit/configuration_deit.py +1 -0
transformers/models/deit/image_processing_deit.py +21 -18
transformers/models/deit/image_processing_deit_fast.py +1 -0
transformers/models/deit/modeling_deit.py +22 -24
transformers/models/depth_anything/configuration_depth_anything.py +4 -2
transformers/models/depth_anything/modeling_depth_anything.py +10 -10
transformers/models/depth_pro/configuration_depth_pro.py +1 -0
transformers/models/depth_pro/image_processing_depth_pro.py +23 -22
transformers/models/depth_pro/image_processing_depth_pro_fast.py +10 -8
transformers/models/depth_pro/modeling_depth_pro.py +27 -31
transformers/models/detr/configuration_detr.py +2 -1
transformers/models/detr/image_processing_detr.py +66 -64
transformers/models/detr/image_processing_detr_fast.py +34 -33
transformers/models/detr/modeling_detr.py +79 -95
transformers/models/dia/configuration_dia.py +15 -9
transformers/models/dia/feature_extraction_dia.py +9 -6
transformers/models/dia/generation_dia.py +50 -48
transformers/models/dia/modeling_dia.py +69 -78
transformers/models/dia/modular_dia.py +56 -64
transformers/models/dia/processing_dia.py +29 -39
transformers/models/dia/tokenization_dia.py +6 -3
transformers/models/diffllama/configuration_diffllama.py +30 -25
transformers/models/diffllama/modeling_diffllama.py +49 -46
transformers/models/diffllama/modular_diffllama.py +19 -17
transformers/models/dinat/configuration_dinat.py +1 -0
transformers/models/dinat/modeling_dinat.py +44 -47
transformers/models/dinov2/configuration_dinov2.py +1 -0
transformers/models/dinov2/modeling_dinov2.py +15 -15
transformers/models/dinov2_with_registers/configuration_dinov2_with_registers.py +1 -1
transformers/models/dinov2_with_registers/modeling_dinov2_with_registers.py +15 -16
transformers/models/dinov2_with_registers/modular_dinov2_with_registers.py +9 -9
transformers/models/dinov3_convnext/configuration_dinov3_convnext.py +7 -4
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +6 -3
transformers/models/dinov3_vit/configuration_dinov3_vit.py +8 -5
transformers/models/dinov3_vit/image_processing_dinov3_vit_fast.py +9 -7
transformers/models/dinov3_vit/modeling_dinov3_vit.py +18 -19
transformers/models/dinov3_vit/modular_dinov3_vit.py +15 -16
transformers/models/distilbert/configuration_distilbert.py +2 -8
transformers/models/distilbert/modeling_distilbert.py +55 -55
transformers/models/distilbert/tokenization_distilbert.py +1 -13
transformers/models/doge/__init__.py +1 -0
transformers/models/doge/configuration_doge.py +32 -39
transformers/models/doge/modeling_doge.py +49 -45
transformers/models/doge/modular_doge.py +63 -71
transformers/models/donut/configuration_donut_swin.py +1 -0
transformers/models/donut/image_processing_donut.py +29 -26
transformers/models/donut/image_processing_donut_fast.py +15 -9
transformers/models/donut/modeling_donut_swin.py +58 -62
transformers/models/donut/processing_donut.py +26 -5
transformers/models/dots1/configuration_dots1.py +33 -41
transformers/models/dots1/modeling_dots1.py +45 -54
transformers/models/dots1/modular_dots1.py +4 -5
transformers/models/dpr/configuration_dpr.py +2 -19
transformers/models/dpr/modeling_dpr.py +39 -42
transformers/models/dpr/tokenization_dpr.py +9 -19
transformers/models/dpr/tokenization_dpr_fast.py +9 -7
transformers/models/dpt/configuration_dpt.py +2 -1
transformers/models/dpt/image_processing_dpt.py +66 -65
transformers/models/dpt/image_processing_dpt_fast.py +20 -18
transformers/models/dpt/modeling_dpt.py +30 -32
transformers/models/dpt/modular_dpt.py +17 -15
transformers/models/edgetam/configuration_edgetam.py +3 -2
transformers/models/edgetam/modeling_edgetam.py +86 -86
transformers/models/edgetam/modular_edgetam.py +26 -21
transformers/models/edgetam_video/__init__.py +1 -0
transformers/models/edgetam_video/configuration_edgetam_video.py +1 -0
transformers/models/edgetam_video/modeling_edgetam_video.py +158 -169
transformers/models/edgetam_video/modular_edgetam_video.py +37 -30
transformers/models/efficientloftr/configuration_efficientloftr.py +5 -4
transformers/models/efficientloftr/image_processing_efficientloftr.py +16 -14
transformers/models/efficientloftr/image_processing_efficientloftr_fast.py +9 -9
transformers/models/efficientloftr/modeling_efficientloftr.py +38 -59
transformers/models/efficientloftr/modular_efficientloftr.py +3 -1
transformers/models/efficientnet/configuration_efficientnet.py +1 -0
transformers/models/efficientnet/image_processing_efficientnet.py +32 -28
transformers/models/efficientnet/image_processing_efficientnet_fast.py +19 -17
transformers/models/efficientnet/modeling_efficientnet.py +15 -19
transformers/models/electra/configuration_electra.py +3 -13
transformers/models/electra/modeling_electra.py +103 -108
transformers/models/emu3/configuration_emu3.py +17 -13
transformers/models/emu3/image_processing_emu3.py +39 -44
transformers/models/emu3/modeling_emu3.py +108 -148
transformers/models/emu3/modular_emu3.py +73 -115
transformers/models/emu3/processing_emu3.py +43 -18
transformers/models/encodec/configuration_encodec.py +4 -2
transformers/models/encodec/feature_extraction_encodec.py +13 -10
transformers/models/encodec/modeling_encodec.py +29 -39
transformers/models/encoder_decoder/configuration_encoder_decoder.py +2 -12
transformers/models/encoder_decoder/modeling_encoder_decoder.py +43 -37
transformers/models/eomt/configuration_eomt.py +1 -0
transformers/models/eomt/image_processing_eomt.py +56 -66
transformers/models/eomt/image_processing_eomt_fast.py +33 -76
transformers/models/eomt/modeling_eomt.py +18 -23
transformers/models/eomt/modular_eomt.py +13 -18
transformers/models/ernie/configuration_ernie.py +3 -24
transformers/models/ernie/modeling_ernie.py +132 -127
transformers/models/ernie/modular_ernie.py +103 -97
transformers/models/ernie4_5/configuration_ernie4_5.py +27 -23
transformers/models/ernie4_5/modeling_ernie4_5.py +38 -36
transformers/models/ernie4_5/modular_ernie4_5.py +4 -3
transformers/models/ernie4_5_moe/configuration_ernie4_5_moe.py +36 -32
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +55 -56
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +46 -18
transformers/models/esm/configuration_esm.py +15 -11
transformers/models/esm/modeling_esm.py +34 -38
transformers/models/esm/modeling_esmfold.py +49 -53
transformers/models/esm/openfold_utils/chunk_utils.py +6 -6
transformers/models/esm/openfold_utils/loss.py +2 -1
transformers/models/esm/openfold_utils/protein.py +16 -15
transformers/models/esm/openfold_utils/tensor_utils.py +6 -6
transformers/models/esm/tokenization_esm.py +4 -2
transformers/models/evolla/configuration_evolla.py +40 -50
transformers/models/evolla/modeling_evolla.py +66 -71
transformers/models/evolla/modular_evolla.py +47 -53
transformers/models/evolla/processing_evolla.py +35 -23
transformers/models/exaone4/configuration_exaone4.py +25 -23
transformers/models/exaone4/modeling_exaone4.py +38 -35
transformers/models/exaone4/modular_exaone4.py +46 -44
transformers/models/falcon/configuration_falcon.py +26 -31
transformers/models/falcon/modeling_falcon.py +80 -82
transformers/models/falcon_h1/configuration_falcon_h1.py +51 -45
transformers/models/falcon_h1/modeling_falcon_h1.py +82 -85
transformers/models/falcon_h1/modular_falcon_h1.py +51 -56
transformers/models/falcon_mamba/configuration_falcon_mamba.py +2 -1
transformers/models/falcon_mamba/modeling_falcon_mamba.py +82 -75
transformers/models/falcon_mamba/modular_falcon_mamba.py +45 -28
transformers/models/fastspeech2_conformer/configuration_fastspeech2_conformer.py +6 -2
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +60 -76
transformers/models/fastspeech2_conformer/tokenization_fastspeech2_conformer.py +3 -2
transformers/models/flaubert/configuration_flaubert.py +5 -10
transformers/models/flaubert/modeling_flaubert.py +143 -145
transformers/models/flaubert/tokenization_flaubert.py +5 -3
transformers/models/flava/configuration_flava.py +6 -5
transformers/models/flava/image_processing_flava.py +67 -66
transformers/models/flava/image_processing_flava_fast.py +49 -46
transformers/models/flava/modeling_flava.py +136 -153
transformers/models/flava/processing_flava.py +12 -2
transformers/models/flex_olmo/__init__.py +1 -0
transformers/models/flex_olmo/configuration_flex_olmo.py +32 -28
transformers/models/flex_olmo/modeling_flex_olmo.py +47 -47
transformers/models/flex_olmo/modular_flex_olmo.py +44 -40
transformers/models/florence2/configuration_florence2.py +1 -0
transformers/models/florence2/modeling_florence2.py +69 -111
transformers/models/florence2/modular_florence2.py +101 -104
transformers/models/florence2/processing_florence2.py +47 -18
transformers/models/fnet/configuration_fnet.py +2 -6
transformers/models/fnet/modeling_fnet.py +80 -83
transformers/models/fnet/tokenization_fnet.py +1 -0
transformers/models/focalnet/configuration_focalnet.py +1 -0
transformers/models/focalnet/modeling_focalnet.py +45 -51
transformers/models/fsmt/configuration_fsmt.py +17 -12
transformers/models/fsmt/modeling_fsmt.py +48 -49
transformers/models/fsmt/tokenization_fsmt.py +5 -3
transformers/models/funnel/configuration_funnel.py +1 -8
transformers/models/funnel/modeling_funnel.py +93 -99
transformers/models/funnel/tokenization_funnel.py +27 -17
transformers/models/fuyu/configuration_fuyu.py +34 -28
transformers/models/fuyu/image_processing_fuyu.py +31 -29
transformers/models/fuyu/image_processing_fuyu_fast.py +17 -17
transformers/models/fuyu/modeling_fuyu.py +53 -53
transformers/models/fuyu/processing_fuyu.py +34 -23
transformers/models/gemma/configuration_gemma.py +30 -25
transformers/models/gemma/modeling_gemma.py +50 -46
transformers/models/gemma/modular_gemma.py +47 -42
transformers/models/gemma/tokenization_gemma.py +30 -10
transformers/models/gemma2/configuration_gemma2.py +35 -30
transformers/models/gemma2/modeling_gemma2.py +42 -39
transformers/models/gemma2/modular_gemma2.py +66 -63
transformers/models/gemma3/configuration_gemma3.py +44 -44
transformers/models/gemma3/image_processing_gemma3.py +31 -29
transformers/models/gemma3/image_processing_gemma3_fast.py +13 -11
transformers/models/gemma3/modeling_gemma3.py +207 -159
transformers/models/gemma3/modular_gemma3.py +204 -153
transformers/models/gemma3/processing_gemma3.py +5 -5
transformers/models/gemma3n/configuration_gemma3n.py +26 -36
transformers/models/gemma3n/feature_extraction_gemma3n.py +11 -9
transformers/models/gemma3n/modeling_gemma3n.py +356 -222
transformers/models/gemma3n/modular_gemma3n.py +207 -230
transformers/models/gemma3n/processing_gemma3n.py +26 -12
transformers/models/git/configuration_git.py +8 -5
transformers/models/git/modeling_git.py +204 -266
transformers/models/git/processing_git.py +14 -2
transformers/models/glm/configuration_glm.py +28 -24
transformers/models/glm/modeling_glm.py +40 -37
transformers/models/glm/modular_glm.py +7 -4
transformers/models/glm4/configuration_glm4.py +28 -24
transformers/models/glm4/modeling_glm4.py +42 -40
transformers/models/glm4/modular_glm4.py +10 -8
transformers/models/glm46v/configuration_glm46v.py +1 -0
transformers/models/glm46v/image_processing_glm46v.py +40 -35
transformers/models/glm46v/image_processing_glm46v_fast.py +9 -9
transformers/models/glm46v/modeling_glm46v.py +90 -137
transformers/models/glm46v/modular_glm46v.py +3 -4
transformers/models/glm46v/processing_glm46v.py +41 -7
transformers/models/glm46v/video_processing_glm46v.py +11 -9
transformers/models/glm4_moe/configuration_glm4_moe.py +32 -40
transformers/models/glm4_moe/modeling_glm4_moe.py +42 -45
transformers/models/glm4_moe/modular_glm4_moe.py +34 -42
transformers/models/glm4v/configuration_glm4v.py +20 -18
transformers/models/glm4v/image_processing_glm4v.py +40 -34
transformers/models/glm4v/image_processing_glm4v_fast.py +9 -8
transformers/models/glm4v/modeling_glm4v.py +205 -254
transformers/models/glm4v/modular_glm4v.py +224 -210
transformers/models/glm4v/processing_glm4v.py +41 -7
transformers/models/glm4v/video_processing_glm4v.py +11 -9
transformers/models/glm4v_moe/configuration_glm4v_moe.py +125 -136
transformers/models/glm4v_moe/modeling_glm4v_moe.py +368 -377
transformers/models/glm4v_moe/modular_glm4v_moe.py +169 -83
transformers/models/glpn/configuration_glpn.py +1 -0
transformers/models/glpn/image_processing_glpn.py +12 -11
transformers/models/glpn/image_processing_glpn_fast.py +13 -11
transformers/models/glpn/modeling_glpn.py +14 -16
transformers/models/got_ocr2/configuration_got_ocr2.py +12 -4
transformers/models/got_ocr2/image_processing_got_ocr2.py +24 -22
transformers/models/got_ocr2/image_processing_got_ocr2_fast.py +11 -9
transformers/models/got_ocr2/modeling_got_ocr2.py +80 -77
transformers/models/got_ocr2/modular_got_ocr2.py +51 -54
transformers/models/got_ocr2/processing_got_ocr2.py +63 -42
transformers/models/gpt2/configuration_gpt2.py +2 -13
transformers/models/gpt2/modeling_gpt2.py +115 -120
transformers/models/gpt2/tokenization_gpt2.py +46 -15
transformers/models/gpt_bigcode/configuration_gpt_bigcode.py +2 -5
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +89 -79
transformers/models/gpt_neo/configuration_gpt_neo.py +2 -9
transformers/models/gpt_neo/modeling_gpt_neo.py +67 -83
transformers/models/gpt_neox/configuration_gpt_neox.py +25 -25
transformers/models/gpt_neox/modeling_gpt_neox.py +75 -76
transformers/models/gpt_neox/modular_gpt_neox.py +66 -67
transformers/models/gpt_neox/tokenization_gpt_neox.py +51 -9
transformers/models/gpt_neox_japanese/configuration_gpt_neox_japanese.py +19 -24
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +47 -46
transformers/models/gpt_neox_japanese/tokenization_gpt_neox_japanese.py +3 -1
transformers/models/gpt_oss/configuration_gpt_oss.py +28 -46
transformers/models/gpt_oss/modeling_gpt_oss.py +121 -83
transformers/models/gpt_oss/modular_gpt_oss.py +103 -64
transformers/models/gpt_sw3/tokenization_gpt_sw3.py +4 -4
transformers/models/gptj/configuration_gptj.py +4 -4
transformers/models/gptj/modeling_gptj.py +87 -101
transformers/models/granite/configuration_granite.py +33 -28
transformers/models/granite/modeling_granite.py +46 -44
transformers/models/granite/modular_granite.py +31 -29
transformers/models/granite_speech/configuration_granite_speech.py +1 -0
transformers/models/granite_speech/feature_extraction_granite_speech.py +3 -1
transformers/models/granite_speech/modeling_granite_speech.py +52 -82
transformers/models/granite_speech/processing_granite_speech.py +4 -11
transformers/models/granitemoe/configuration_granitemoe.py +36 -31
transformers/models/granitemoe/modeling_granitemoe.py +46 -41
transformers/models/granitemoe/modular_granitemoe.py +27 -22
transformers/models/granitemoehybrid/__init__.py +1 -0
transformers/models/granitemoehybrid/configuration_granitemoehybrid.py +47 -46
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +93 -97
transformers/models/granitemoehybrid/modular_granitemoehybrid.py +21 -54
transformers/models/granitemoeshared/configuration_granitemoeshared.py +37 -33
transformers/models/granitemoeshared/modeling_granitemoeshared.py +61 -54
transformers/models/granitemoeshared/modular_granitemoeshared.py +21 -19
transformers/models/grounding_dino/configuration_grounding_dino.py +4 -6
transformers/models/grounding_dino/image_processing_grounding_dino.py +62 -60
transformers/models/grounding_dino/image_processing_grounding_dino_fast.py +29 -28
transformers/models/grounding_dino/modeling_grounding_dino.py +140 -155
transformers/models/grounding_dino/modular_grounding_dino.py +3 -2
transformers/models/grounding_dino/processing_grounding_dino.py +38 -10
transformers/models/groupvit/configuration_groupvit.py +2 -4
transformers/models/groupvit/modeling_groupvit.py +93 -107
transformers/models/helium/configuration_helium.py +29 -25
transformers/models/helium/modeling_helium.py +40 -38
transformers/models/helium/modular_helium.py +7 -3
transformers/models/herbert/tokenization_herbert.py +28 -10
transformers/models/hgnet_v2/configuration_hgnet_v2.py +1 -0
transformers/models/hgnet_v2/modeling_hgnet_v2.py +10 -24
transformers/models/hgnet_v2/modular_hgnet_v2.py +10 -24
transformers/models/hiera/configuration_hiera.py +1 -0
transformers/models/hiera/modeling_hiera.py +66 -72
transformers/models/hubert/configuration_hubert.py +2 -4
transformers/models/hubert/modeling_hubert.py +37 -42
transformers/models/hubert/modular_hubert.py +11 -13
transformers/models/hunyuan_v1_dense/configuration_hunyuan_v1_dense.py +31 -26
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +38 -35
transformers/models/hunyuan_v1_dense/modular_hunyuan_v1_dense.py +6 -4
transformers/models/hunyuan_v1_moe/__init__.py +1 -1
transformers/models/hunyuan_v1_moe/configuration_hunyuan_v1_moe.py +36 -31
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +42 -47
transformers/models/hunyuan_v1_moe/modular_hunyuan_v1_moe.py +9 -9
transformers/models/ibert/configuration_ibert.py +2 -4
transformers/models/ibert/modeling_ibert.py +62 -82
transformers/models/ibert/quant_modules.py +1 -0
transformers/models/idefics/configuration_idefics.py +8 -5
transformers/models/idefics/image_processing_idefics.py +15 -13
transformers/models/idefics/modeling_idefics.py +82 -75
transformers/models/idefics/perceiver.py +3 -1
transformers/models/idefics/processing_idefics.py +48 -32
transformers/models/idefics/vision.py +25 -24
transformers/models/idefics2/configuration_idefics2.py +3 -1
transformers/models/idefics2/image_processing_idefics2.py +32 -31
transformers/models/idefics2/image_processing_idefics2_fast.py +8 -8
transformers/models/idefics2/modeling_idefics2.py +101 -127
transformers/models/idefics2/processing_idefics2.py +68 -10
transformers/models/idefics3/configuration_idefics3.py +4 -1
transformers/models/idefics3/image_processing_idefics3.py +43 -42
transformers/models/idefics3/image_processing_idefics3_fast.py +15 -40
transformers/models/idefics3/modeling_idefics3.py +90 -115
transformers/models/idefics3/processing_idefics3.py +69 -15
transformers/models/ijepa/configuration_ijepa.py +1 -0
transformers/models/ijepa/modeling_ijepa.py +11 -10
transformers/models/ijepa/modular_ijepa.py +7 -5
transformers/models/imagegpt/configuration_imagegpt.py +2 -9
transformers/models/imagegpt/image_processing_imagegpt.py +18 -17
transformers/models/imagegpt/image_processing_imagegpt_fast.py +16 -11
transformers/models/imagegpt/modeling_imagegpt.py +65 -76
transformers/models/informer/configuration_informer.py +9 -6
transformers/models/informer/modeling_informer.py +86 -88
transformers/models/informer/modular_informer.py +16 -14
transformers/models/instructblip/configuration_instructblip.py +2 -2
transformers/models/instructblip/modeling_instructblip.py +63 -103
transformers/models/instructblip/processing_instructblip.py +36 -10
transformers/models/instructblipvideo/configuration_instructblipvideo.py +2 -2
transformers/models/instructblipvideo/modeling_instructblipvideo.py +139 -157
transformers/models/instructblipvideo/modular_instructblipvideo.py +64 -73
transformers/models/instructblipvideo/processing_instructblipvideo.py +33 -14
transformers/models/instructblipvideo/video_processing_instructblipvideo.py +8 -6
transformers/models/internvl/configuration_internvl.py +1 -0
transformers/models/internvl/modeling_internvl.py +106 -85
transformers/models/internvl/modular_internvl.py +67 -47
transformers/models/internvl/processing_internvl.py +45 -12
transformers/models/internvl/video_processing_internvl.py +12 -10
transformers/models/jamba/configuration_jamba.py +8 -5
transformers/models/jamba/modeling_jamba.py +66 -68
transformers/models/jamba/modular_jamba.py +55 -54
transformers/models/janus/configuration_janus.py +1 -0
transformers/models/janus/image_processing_janus.py +37 -35
transformers/models/janus/image_processing_janus_fast.py +20 -18
transformers/models/janus/modeling_janus.py +191 -115
transformers/models/janus/modular_janus.py +84 -133
transformers/models/janus/processing_janus.py +43 -17
transformers/models/jetmoe/configuration_jetmoe.py +26 -24
transformers/models/jetmoe/modeling_jetmoe.py +46 -43
transformers/models/jetmoe/modular_jetmoe.py +33 -31
transformers/models/kosmos2/configuration_kosmos2.py +9 -10
transformers/models/kosmos2/modeling_kosmos2.py +173 -208
transformers/models/kosmos2/processing_kosmos2.py +55 -40
transformers/models/kosmos2_5/__init__.py +1 -0
transformers/models/kosmos2_5/configuration_kosmos2_5.py +9 -8
transformers/models/kosmos2_5/image_processing_kosmos2_5.py +12 -10
transformers/models/kosmos2_5/image_processing_kosmos2_5_fast.py +13 -4
transformers/models/kosmos2_5/modeling_kosmos2_5.py +118 -132
transformers/models/kosmos2_5/processing_kosmos2_5.py +29 -8
transformers/models/kyutai_speech_to_text/configuration_kyutai_speech_to_text.py +28 -31
transformers/models/kyutai_speech_to_text/feature_extraction_kyutai_speech_to_text.py +14 -12
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +100 -110
transformers/models/kyutai_speech_to_text/modular_kyutai_speech_to_text.py +22 -28
transformers/models/kyutai_speech_to_text/processing_kyutai_speech_to_text.py +8 -2
transformers/models/layoutlm/configuration_layoutlm.py +2 -14
transformers/models/layoutlm/modeling_layoutlm.py +72 -77
transformers/models/layoutlmv2/configuration_layoutlmv2.py +17 -14
transformers/models/layoutlmv2/image_processing_layoutlmv2.py +21 -18
transformers/models/layoutlmv2/image_processing_layoutlmv2_fast.py +9 -7
transformers/models/layoutlmv2/modeling_layoutlmv2.py +50 -64
transformers/models/layoutlmv2/processing_layoutlmv2.py +44 -14
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +126 -73
transformers/models/layoutlmv3/configuration_layoutlmv3.py +19 -16
transformers/models/layoutlmv3/image_processing_layoutlmv3.py +26 -24
transformers/models/layoutlmv3/image_processing_layoutlmv3_fast.py +11 -9
transformers/models/layoutlmv3/modeling_layoutlmv3.py +56 -82
transformers/models/layoutlmv3/processing_layoutlmv3.py +46 -14
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +134 -74
transformers/models/layoutxlm/configuration_layoutxlm.py +17 -14
transformers/models/layoutxlm/modular_layoutxlm.py +1 -0
transformers/models/layoutxlm/processing_layoutxlm.py +44 -14
transformers/models/layoutxlm/tokenization_layoutxlm.py +113 -77
transformers/models/led/configuration_led.py +12 -8
transformers/models/led/modeling_led.py +266 -124
transformers/models/levit/configuration_levit.py +1 -0
transformers/models/levit/image_processing_levit.py +21 -19
transformers/models/levit/image_processing_levit_fast.py +5 -4
transformers/models/levit/modeling_levit.py +19 -38
transformers/models/lfm2/configuration_lfm2.py +30 -27
transformers/models/lfm2/modeling_lfm2.py +50 -47
transformers/models/lfm2/modular_lfm2.py +30 -29
transformers/models/lfm2_moe/__init__.py +1 -0
transformers/models/lfm2_moe/configuration_lfm2_moe.py +9 -6
transformers/models/lfm2_moe/modeling_lfm2_moe.py +53 -61
transformers/models/lfm2_moe/modular_lfm2_moe.py +37 -13
transformers/models/lfm2_vl/configuration_lfm2_vl.py +1 -4
transformers/models/lfm2_vl/image_processing_lfm2_vl_fast.py +12 -41
transformers/models/lfm2_vl/modeling_lfm2_vl.py +66 -84
transformers/models/lfm2_vl/modular_lfm2_vl.py +56 -70
transformers/models/lfm2_vl/processing_lfm2_vl.py +76 -96
transformers/models/lightglue/image_processing_lightglue.py +15 -16
transformers/models/lightglue/image_processing_lightglue_fast.py +9 -9
transformers/models/lightglue/modeling_lightglue.py +31 -31
transformers/models/lightglue/modular_lightglue.py +28 -29
transformers/models/lilt/configuration_lilt.py +2 -6
transformers/models/lilt/modeling_lilt.py +70 -76
transformers/models/llama/configuration_llama.py +31 -26
transformers/models/llama/modeling_llama.py +39 -36
transformers/models/llama/tokenization_llama.py +44 -14
transformers/models/llama4/configuration_llama4.py +30 -27
transformers/models/llama4/image_processing_llama4_fast.py +14 -12
transformers/models/llama4/modeling_llama4.py +113 -120
transformers/models/llama4/processing_llama4.py +57 -33
transformers/models/llava/configuration_llava.py +1 -10
transformers/models/llava/image_processing_llava.py +28 -25
transformers/models/llava/image_processing_llava_fast.py +11 -9
transformers/models/llava/modeling_llava.py +109 -85
transformers/models/llava/processing_llava.py +51 -18
transformers/models/llava_next/configuration_llava_next.py +2 -2
transformers/models/llava_next/image_processing_llava_next.py +45 -43
transformers/models/llava_next/image_processing_llava_next_fast.py +13 -11
transformers/models/llava_next/modeling_llava_next.py +107 -110
transformers/models/llava_next/processing_llava_next.py +47 -18
transformers/models/llava_next_video/configuration_llava_next_video.py +7 -4
transformers/models/llava_next_video/modeling_llava_next_video.py +158 -175
transformers/models/llava_next_video/modular_llava_next_video.py +150 -155
transformers/models/llava_next_video/processing_llava_next_video.py +63 -21
transformers/models/llava_next_video/video_processing_llava_next_video.py +1 -0
transformers/models/llava_onevision/configuration_llava_onevision.py +7 -4
transformers/models/llava_onevision/image_processing_llava_onevision.py +42 -40
transformers/models/llava_onevision/image_processing_llava_onevision_fast.py +15 -14
transformers/models/llava_onevision/modeling_llava_onevision.py +169 -177
transformers/models/llava_onevision/modular_llava_onevision.py +156 -163
transformers/models/llava_onevision/processing_llava_onevision.py +53 -21
transformers/models/llava_onevision/video_processing_llava_onevision.py +1 -0
transformers/models/longcat_flash/__init__.py +1 -0
transformers/models/longcat_flash/configuration_longcat_flash.py +42 -37
transformers/models/longcat_flash/modeling_longcat_flash.py +36 -36
transformers/models/longcat_flash/modular_longcat_flash.py +21 -21
transformers/models/longformer/configuration_longformer.py +5 -5
transformers/models/longformer/modeling_longformer.py +101 -105
transformers/models/longt5/configuration_longt5.py +7 -9
transformers/models/longt5/modeling_longt5.py +49 -49
transformers/models/luke/configuration_luke.py +2 -8
transformers/models/luke/modeling_luke.py +181 -188
transformers/models/luke/tokenization_luke.py +140 -107
transformers/models/lxmert/configuration_lxmert.py +1 -16
transformers/models/lxmert/modeling_lxmert.py +74 -65
transformers/models/m2m_100/configuration_m2m_100.py +9 -7
transformers/models/m2m_100/modeling_m2m_100.py +71 -83
transformers/models/m2m_100/tokenization_m2m_100.py +8 -8
transformers/models/mamba/configuration_mamba.py +2 -1
transformers/models/mamba/modeling_mamba.py +66 -58
transformers/models/mamba2/configuration_mamba2.py +8 -5
transformers/models/mamba2/modeling_mamba2.py +69 -68
transformers/models/marian/configuration_marian.py +5 -10
transformers/models/marian/modeling_marian.py +87 -93
transformers/models/marian/tokenization_marian.py +6 -6
transformers/models/markuplm/configuration_markuplm.py +7 -4
transformers/models/markuplm/feature_extraction_markuplm.py +2 -1
transformers/models/markuplm/modeling_markuplm.py +70 -69
transformers/models/markuplm/processing_markuplm.py +38 -31
transformers/models/markuplm/tokenization_markuplm.py +136 -93
transformers/models/mask2former/configuration_mask2former.py +8 -5
transformers/models/mask2former/image_processing_mask2former.py +85 -84
transformers/models/mask2former/image_processing_mask2former_fast.py +40 -37
transformers/models/mask2former/modeling_mask2former.py +103 -118
transformers/models/mask2former/modular_mask2former.py +8 -6
transformers/models/maskformer/configuration_maskformer.py +9 -6
transformers/models/maskformer/configuration_maskformer_swin.py +1 -0
transformers/models/maskformer/image_processing_maskformer.py +85 -84
transformers/models/maskformer/image_processing_maskformer_fast.py +40 -36
transformers/models/maskformer/modeling_maskformer.py +65 -79
transformers/models/maskformer/modeling_maskformer_swin.py +32 -36
transformers/models/mbart/configuration_mbart.py +4 -9
transformers/models/mbart/modeling_mbart.py +116 -131
transformers/models/mbart/tokenization_mbart.py +54 -11
transformers/models/mbart50/tokenization_mbart50.py +13 -8
transformers/models/megatron_bert/configuration_megatron_bert.py +3 -13
transformers/models/megatron_bert/modeling_megatron_bert.py +150 -148
transformers/models/metaclip_2/configuration_metaclip_2.py +1 -4
transformers/models/metaclip_2/modeling_metaclip_2.py +84 -91
transformers/models/metaclip_2/modular_metaclip_2.py +45 -61
transformers/models/mgp_str/configuration_mgp_str.py +1 -0
transformers/models/mgp_str/modeling_mgp_str.py +18 -20
transformers/models/mgp_str/processing_mgp_str.py +20 -3
transformers/models/mgp_str/tokenization_mgp_str.py +3 -1
transformers/models/mimi/configuration_mimi.py +40 -42
transformers/models/mimi/modeling_mimi.py +113 -142
transformers/models/minimax/__init__.py +1 -0
transformers/models/minimax/configuration_minimax.py +43 -37
transformers/models/minimax/modeling_minimax.py +51 -61
transformers/models/minimax/modular_minimax.py +62 -68
transformers/models/ministral/configuration_ministral.py +29 -25
transformers/models/ministral/modeling_ministral.py +38 -36
transformers/models/ministral/modular_ministral.py +37 -32
transformers/models/ministral3/configuration_ministral3.py +27 -24
transformers/models/ministral3/modeling_ministral3.py +37 -36
transformers/models/ministral3/modular_ministral3.py +5 -4
transformers/models/mistral/configuration_mistral.py +29 -24
transformers/models/mistral/modeling_mistral.py +37 -36
transformers/models/mistral/modular_mistral.py +12 -11
transformers/models/mistral3/configuration_mistral3.py +1 -4
transformers/models/mistral3/modeling_mistral3.py +86 -89
transformers/models/mistral3/modular_mistral3.py +68 -69
transformers/models/mixtral/configuration_mixtral.py +34 -29
transformers/models/mixtral/modeling_mixtral.py +45 -50
transformers/models/mixtral/modular_mixtral.py +31 -32
transformers/models/mlcd/configuration_mlcd.py +1 -0
transformers/models/mlcd/modeling_mlcd.py +14 -20
transformers/models/mlcd/modular_mlcd.py +13 -17
transformers/models/mllama/configuration_mllama.py +15 -10
transformers/models/mllama/image_processing_mllama.py +25 -23
transformers/models/mllama/image_processing_mllama_fast.py +11 -11
transformers/models/mllama/modeling_mllama.py +94 -105
transformers/models/mllama/processing_mllama.py +55 -6
transformers/models/mluke/tokenization_mluke.py +107 -101
transformers/models/mm_grounding_dino/configuration_mm_grounding_dino.py +3 -5
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +140 -155
transformers/models/mm_grounding_dino/modular_mm_grounding_dino.py +3 -5
transformers/models/mobilebert/configuration_mobilebert.py +2 -4
transformers/models/mobilebert/modeling_mobilebert.py +85 -77
transformers/models/mobilebert/tokenization_mobilebert.py +1 -0
transformers/models/mobilenet_v1/configuration_mobilenet_v1.py +1 -0
transformers/models/mobilenet_v1/image_processing_mobilenet_v1.py +23 -20
transformers/models/mobilenet_v1/image_processing_mobilenet_v1_fast.py +1 -0
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +16 -15
transformers/models/mobilenet_v2/configuration_mobilenet_v2.py +1 -0
transformers/models/mobilenet_v2/image_processing_mobilenet_v2.py +51 -48
transformers/models/mobilenet_v2/image_processing_mobilenet_v2_fast.py +15 -13
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +22 -24
transformers/models/mobilevit/configuration_mobilevit.py +1 -0
transformers/models/mobilevit/image_processing_mobilevit.py +49 -46
transformers/models/mobilevit/image_processing_mobilevit_fast.py +14 -12
transformers/models/mobilevit/modeling_mobilevit.py +21 -28
transformers/models/mobilevitv2/configuration_mobilevitv2.py +1 -0
transformers/models/mobilevitv2/modeling_mobilevitv2.py +22 -28
transformers/models/modernbert/configuration_modernbert.py +42 -44
transformers/models/modernbert/modeling_modernbert.py +133 -145
transformers/models/modernbert/modular_modernbert.py +170 -186
transformers/models/modernbert_decoder/configuration_modernbert_decoder.py +40 -40
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +57 -62
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +86 -94
transformers/models/moonshine/configuration_moonshine.py +31 -34
transformers/models/moonshine/modeling_moonshine.py +71 -71
transformers/models/moonshine/modular_moonshine.py +83 -88
transformers/models/moshi/configuration_moshi.py +23 -46
transformers/models/moshi/modeling_moshi.py +187 -157
transformers/models/mpnet/configuration_mpnet.py +2 -6
transformers/models/mpnet/modeling_mpnet.py +57 -62
transformers/models/mpnet/tokenization_mpnet.py +15 -4
transformers/models/mpt/configuration_mpt.py +9 -5
transformers/models/mpt/modeling_mpt.py +60 -60
transformers/models/mra/configuration_mra.py +2 -8
transformers/models/mra/modeling_mra.py +57 -64
transformers/models/mt5/configuration_mt5.py +8 -10
transformers/models/mt5/modeling_mt5.py +95 -87
transformers/models/musicgen/configuration_musicgen.py +8 -12
transformers/models/musicgen/modeling_musicgen.py +122 -118
transformers/models/musicgen/processing_musicgen.py +21 -3
transformers/models/musicgen_melody/configuration_musicgen_melody.py +8 -15
transformers/models/musicgen_melody/feature_extraction_musicgen_melody.py +9 -8
transformers/models/musicgen_melody/modeling_musicgen_melody.py +123 -117
transformers/models/musicgen_melody/processing_musicgen_melody.py +22 -3
transformers/models/mvp/configuration_mvp.py +5 -8
transformers/models/mvp/modeling_mvp.py +123 -135
transformers/models/myt5/tokenization_myt5.py +10 -8
transformers/models/nanochat/configuration_nanochat.py +8 -5
transformers/models/nanochat/modeling_nanochat.py +40 -37
transformers/models/nanochat/modular_nanochat.py +14 -12
transformers/models/nemotron/configuration_nemotron.py +30 -25
transformers/models/nemotron/modeling_nemotron.py +57 -56
transformers/models/nllb/tokenization_nllb.py +28 -12
transformers/models/nllb_moe/configuration_nllb_moe.py +9 -7
transformers/models/nllb_moe/modeling_nllb_moe.py +69 -77
transformers/models/nougat/image_processing_nougat.py +32 -29
transformers/models/nougat/image_processing_nougat_fast.py +14 -12
transformers/models/nougat/processing_nougat.py +39 -37
transformers/models/nougat/tokenization_nougat.py +73 -18
transformers/models/nystromformer/configuration_nystromformer.py +2 -8
transformers/models/nystromformer/modeling_nystromformer.py +63 -74
transformers/models/olmo/configuration_olmo.py +28 -23
transformers/models/olmo/modeling_olmo.py +39 -36
transformers/models/olmo/modular_olmo.py +11 -7
transformers/models/olmo2/configuration_olmo2.py +28 -23
transformers/models/olmo2/modeling_olmo2.py +41 -37
transformers/models/olmo2/modular_olmo2.py +32 -29
transformers/models/olmo3/__init__.py +1 -0
transformers/models/olmo3/configuration_olmo3.py +30 -26
transformers/models/olmo3/modeling_olmo3.py +39 -36
transformers/models/olmo3/modular_olmo3.py +40 -37
transformers/models/olmoe/configuration_olmoe.py +33 -29
transformers/models/olmoe/modeling_olmoe.py +46 -52
transformers/models/olmoe/modular_olmoe.py +15 -16
transformers/models/omdet_turbo/configuration_omdet_turbo.py +4 -2
transformers/models/omdet_turbo/modeling_omdet_turbo.py +47 -53
transformers/models/omdet_turbo/processing_omdet_turbo.py +67 -19
transformers/models/oneformer/configuration_oneformer.py +8 -5
transformers/models/oneformer/image_processing_oneformer.py +84 -83
transformers/models/oneformer/image_processing_oneformer_fast.py +42 -41
transformers/models/oneformer/modeling_oneformer.py +171 -147
transformers/models/oneformer/processing_oneformer.py +43 -28
transformers/models/openai/configuration_openai.py +1 -16
transformers/models/openai/modeling_openai.py +51 -65
transformers/models/openai/tokenization_openai.py +47 -8
transformers/models/opt/configuration_opt.py +7 -6
transformers/models/opt/modeling_opt.py +76 -78
transformers/models/ovis2/__init__.py +1 -0
transformers/models/ovis2/configuration_ovis2.py +1 -0
transformers/models/ovis2/image_processing_ovis2.py +24 -22
transformers/models/ovis2/image_processing_ovis2_fast.py +11 -9
transformers/models/ovis2/modeling_ovis2.py +142 -111
transformers/models/ovis2/modular_ovis2.py +45 -90
transformers/models/ovis2/processing_ovis2.py +40 -12
transformers/models/owlv2/configuration_owlv2.py +2 -4
transformers/models/owlv2/image_processing_owlv2.py +21 -20
transformers/models/owlv2/image_processing_owlv2_fast.py +15 -12
transformers/models/owlv2/modeling_owlv2.py +117 -133
transformers/models/owlv2/modular_owlv2.py +14 -11
transformers/models/owlv2/processing_owlv2.py +49 -20
transformers/models/owlvit/configuration_owlvit.py +2 -4
transformers/models/owlvit/image_processing_owlvit.py +22 -21
transformers/models/owlvit/image_processing_owlvit_fast.py +3 -2
transformers/models/owlvit/modeling_owlvit.py +116 -132
transformers/models/owlvit/processing_owlvit.py +48 -20
transformers/models/paligemma/configuration_paligemma.py +1 -4
transformers/models/paligemma/modeling_paligemma.py +93 -103
transformers/models/paligemma/processing_paligemma.py +66 -13
transformers/models/parakeet/configuration_parakeet.py +14 -7
transformers/models/parakeet/feature_extraction_parakeet.py +12 -10
transformers/models/parakeet/modeling_parakeet.py +28 -32
transformers/models/parakeet/modular_parakeet.py +20 -23
transformers/models/parakeet/processing_parakeet.py +5 -13
transformers/models/parakeet/{tokenization_parakeet.py → tokenization_parakeet_fast.py} +7 -5
transformers/models/patchtsmixer/configuration_patchtsmixer.py +8 -5
transformers/models/patchtsmixer/modeling_patchtsmixer.py +62 -70
transformers/models/patchtst/configuration_patchtst.py +9 -6
transformers/models/patchtst/modeling_patchtst.py +80 -97
transformers/models/pegasus/configuration_pegasus.py +5 -8
transformers/models/pegasus/modeling_pegasus.py +66 -72
transformers/models/pegasus/tokenization_pegasus.py +45 -15
transformers/models/pegasus_x/configuration_pegasus_x.py +4 -5
transformers/models/pegasus_x/modeling_pegasus_x.py +52 -55
transformers/models/perceiver/configuration_perceiver.py +1 -0
transformers/models/perceiver/image_processing_perceiver.py +25 -22
transformers/models/perceiver/image_processing_perceiver_fast.py +9 -7
transformers/models/perceiver/modeling_perceiver.py +146 -165
transformers/models/perceiver/tokenization_perceiver.py +6 -3
transformers/models/perception_lm/configuration_perception_lm.py +1 -0
transformers/models/perception_lm/image_processing_perception_lm_fast.py +10 -8
transformers/models/perception_lm/modeling_perception_lm.py +70 -71
transformers/models/perception_lm/modular_perception_lm.py +61 -65
transformers/models/perception_lm/processing_perception_lm.py +47 -13
transformers/models/perception_lm/video_processing_perception_lm.py +1 -0
transformers/models/persimmon/configuration_persimmon.py +28 -23
transformers/models/persimmon/modeling_persimmon.py +45 -43
transformers/models/phi/configuration_phi.py +28 -23
transformers/models/phi/modeling_phi.py +43 -40
transformers/models/phi/modular_phi.py +24 -23
transformers/models/phi3/configuration_phi3.py +33 -28
transformers/models/phi3/modeling_phi3.py +38 -36
transformers/models/phi3/modular_phi3.py +17 -13
transformers/models/phi4_multimodal/configuration_phi4_multimodal.py +33 -30
transformers/models/phi4_multimodal/feature_extraction_phi4_multimodal.py +9 -7
transformers/models/phi4_multimodal/image_processing_phi4_multimodal_fast.py +11 -11
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +78 -95
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +80 -98
transformers/models/phi4_multimodal/processing_phi4_multimodal.py +44 -7
transformers/models/phimoe/configuration_phimoe.py +36 -31
transformers/models/phimoe/modeling_phimoe.py +45 -50
transformers/models/phimoe/modular_phimoe.py +4 -3
transformers/models/phobert/tokenization_phobert.py +6 -4
transformers/models/pix2struct/configuration_pix2struct.py +10 -12
transformers/models/pix2struct/image_processing_pix2struct.py +19 -15
transformers/models/pix2struct/image_processing_pix2struct_fast.py +15 -12
transformers/models/pix2struct/modeling_pix2struct.py +52 -58
transformers/models/pix2struct/processing_pix2struct.py +30 -5
transformers/models/pixtral/configuration_pixtral.py +14 -11
transformers/models/pixtral/image_processing_pixtral.py +28 -26
transformers/models/pixtral/image_processing_pixtral_fast.py +11 -10
transformers/models/pixtral/modeling_pixtral.py +34 -28
transformers/models/pixtral/processing_pixtral.py +53 -21
transformers/models/plbart/configuration_plbart.py +5 -8
transformers/models/plbart/modeling_plbart.py +106 -119
transformers/models/plbart/modular_plbart.py +33 -39
transformers/models/plbart/tokenization_plbart.py +7 -4
transformers/models/poolformer/configuration_poolformer.py +1 -0
transformers/models/poolformer/image_processing_poolformer.py +24 -21
transformers/models/poolformer/image_processing_poolformer_fast.py +15 -13
transformers/models/poolformer/modeling_poolformer.py +13 -23
transformers/models/pop2piano/configuration_pop2piano.py +8 -7
transformers/models/pop2piano/feature_extraction_pop2piano.py +9 -6
transformers/models/pop2piano/modeling_pop2piano.py +24 -26
transformers/models/pop2piano/processing_pop2piano.py +33 -25
transformers/models/pop2piano/tokenization_pop2piano.py +23 -15
transformers/models/prompt_depth_anything/configuration_prompt_depth_anything.py +3 -3
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything.py +28 -28
transformers/models/prompt_depth_anything/image_processing_prompt_depth_anything_fast.py +21 -20
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +13 -16
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +13 -16
transformers/models/prophetnet/configuration_prophetnet.py +38 -37
transformers/models/prophetnet/modeling_prophetnet.py +131 -114
transformers/models/prophetnet/tokenization_prophetnet.py +16 -14
transformers/models/pvt/configuration_pvt.py +1 -0
transformers/models/pvt/image_processing_pvt.py +27 -24
transformers/models/pvt/image_processing_pvt_fast.py +2 -1
transformers/models/pvt/modeling_pvt.py +21 -21
transformers/models/pvt_v2/configuration_pvt_v2.py +4 -2
transformers/models/pvt_v2/modeling_pvt_v2.py +25 -28
transformers/models/qwen2/configuration_qwen2.py +25 -32
transformers/models/qwen2/modeling_qwen2.py +38 -36
transformers/models/qwen2/modular_qwen2.py +12 -11
transformers/models/qwen2/tokenization_qwen2.py +23 -12
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +26 -32
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +277 -340
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +211 -278
transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py +49 -41
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +35 -29
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +148 -203
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +118 -93
transformers/models/qwen2_5_vl/processing_qwen2_5_vl.py +43 -7
transformers/models/qwen2_audio/configuration_qwen2_audio.py +1 -0
transformers/models/qwen2_audio/modeling_qwen2_audio.py +40 -40
transformers/models/qwen2_audio/processing_qwen2_audio.py +42 -13
transformers/models/qwen2_moe/configuration_qwen2_moe.py +35 -42
transformers/models/qwen2_moe/modeling_qwen2_moe.py +46 -51
transformers/models/qwen2_moe/modular_qwen2_moe.py +10 -7
transformers/models/qwen2_vl/configuration_qwen2_vl.py +34 -29
transformers/models/qwen2_vl/image_processing_qwen2_vl.py +42 -41
transformers/models/qwen2_vl/image_processing_qwen2_vl_fast.py +15 -12
transformers/models/qwen2_vl/modeling_qwen2_vl.py +153 -199
transformers/models/qwen2_vl/processing_qwen2_vl.py +44 -7
transformers/models/qwen2_vl/video_processing_qwen2_vl.py +18 -38
transformers/models/qwen3/configuration_qwen3.py +27 -34
transformers/models/qwen3/modeling_qwen3.py +39 -36
transformers/models/qwen3/modular_qwen3.py +6 -4
transformers/models/qwen3_moe/configuration_qwen3_moe.py +32 -39
transformers/models/qwen3_moe/modeling_qwen3_moe.py +46 -51
transformers/models/qwen3_moe/modular_qwen3_moe.py +13 -10
transformers/models/qwen3_next/configuration_qwen3_next.py +35 -45
transformers/models/qwen3_next/modeling_qwen3_next.py +51 -47
transformers/models/qwen3_next/modular_qwen3_next.py +35 -34
transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py +101 -135
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +252 -355
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +196 -250
transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py +48 -40
transformers/models/qwen3_vl/configuration_qwen3_vl.py +29 -27
transformers/models/qwen3_vl/modeling_qwen3_vl.py +155 -233
transformers/models/qwen3_vl/modular_qwen3_vl.py +179 -206
transformers/models/qwen3_vl/processing_qwen3_vl.py +42 -6
transformers/models/qwen3_vl/video_processing_qwen3_vl.py +12 -10
transformers/models/qwen3_vl_moe/configuration_qwen3_vl_moe.py +30 -23
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +303 -358
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +124 -87
transformers/models/rag/configuration_rag.py +15 -6
transformers/models/rag/modeling_rag.py +130 -127
transformers/models/rag/retrieval_rag.py +5 -3
transformers/models/rag/tokenization_rag.py +50 -0
transformers/models/recurrent_gemma/configuration_recurrent_gemma.py +30 -29
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +42 -53
transformers/models/reformer/configuration_reformer.py +8 -7
transformers/models/reformer/modeling_reformer.py +69 -80
transformers/models/reformer/tokenization_reformer.py +31 -11
transformers/models/regnet/configuration_regnet.py +1 -0
transformers/models/regnet/modeling_regnet.py +8 -15
transformers/models/rembert/configuration_rembert.py +2 -8
transformers/models/rembert/modeling_rembert.py +111 -121
transformers/models/rembert/tokenization_rembert.py +12 -2
transformers/models/resnet/configuration_resnet.py +1 -0
transformers/models/resnet/modeling_resnet.py +13 -27
transformers/models/roberta/configuration_roberta.py +3 -11
transformers/models/roberta/modeling_roberta.py +93 -94
transformers/models/roberta/modular_roberta.py +58 -58
transformers/models/roberta/tokenization_roberta.py +29 -17
transformers/models/roberta/tokenization_roberta_old.py +4 -2
transformers/models/roberta_prelayernorm/configuration_roberta_prelayernorm.py +3 -11
transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py +93 -94
transformers/models/roc_bert/configuration_roc_bert.py +2 -8
transformers/models/roc_bert/modeling_roc_bert.py +121 -122
transformers/models/roc_bert/tokenization_roc_bert.py +94 -88
transformers/models/roformer/configuration_roformer.py +3 -13
transformers/models/roformer/modeling_roformer.py +81 -85
transformers/models/roformer/tokenization_roformer.py +412 -74
transformers/models/roformer/tokenization_roformer_fast.py +160 -0
transformers/models/roformer/tokenization_utils.py +1 -0
transformers/models/rt_detr/configuration_rt_detr.py +2 -1
transformers/models/rt_detr/configuration_rt_detr_resnet.py +1 -0
transformers/models/rt_detr/image_processing_rt_detr.py +55 -54
transformers/models/rt_detr/image_processing_rt_detr_fast.py +26 -26
transformers/models/rt_detr/modeling_rt_detr.py +90 -99
transformers/models/rt_detr/modeling_rt_detr_resnet.py +6 -13
transformers/models/rt_detr/modular_rt_detr.py +16 -16
transformers/models/rt_detr_v2/configuration_rt_detr_v2.py +4 -6
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +90 -101
transformers/models/rt_detr_v2/modular_rt_detr_v2.py +12 -19
transformers/models/rwkv/configuration_rwkv.py +4 -2
transformers/models/rwkv/modeling_rwkv.py +32 -31
transformers/models/sam/configuration_sam.py +1 -3
transformers/models/sam/image_processing_sam.py +60 -59
transformers/models/sam/image_processing_sam_fast.py +27 -25
transformers/models/sam/modeling_sam.py +41 -47
transformers/models/sam/processing_sam.py +27 -39
transformers/models/sam2/configuration_sam2.py +3 -2
transformers/models/sam2/image_processing_sam2_fast.py +15 -14
transformers/models/sam2/modeling_sam2.py +90 -96
transformers/models/sam2/modular_sam2.py +91 -86
transformers/models/sam2/processing_sam2.py +47 -31
transformers/models/sam2_video/configuration_sam2_video.py +1 -0
transformers/models/sam2_video/modeling_sam2_video.py +144 -151
transformers/models/sam2_video/modular_sam2_video.py +104 -101
transformers/models/sam2_video/processing_sam2_video.py +66 -49
transformers/models/sam2_video/video_processing_sam2_video.py +4 -1
transformers/models/sam3/configuration_sam3.py +2 -21
transformers/models/sam3/image_processing_sam3_fast.py +20 -17
transformers/models/sam3/modeling_sam3.py +170 -184
transformers/models/sam3/modular_sam3.py +8 -3
transformers/models/sam3/processing_sam3.py +52 -37
transformers/models/sam3_tracker/__init__.py +1 -0
transformers/models/sam3_tracker/configuration_sam3_tracker.py +3 -1
transformers/models/sam3_tracker/modeling_sam3_tracker.py +77 -82
transformers/models/sam3_tracker/modular_sam3_tracker.py +3 -8
transformers/models/sam3_tracker/processing_sam3_tracker.py +48 -31
transformers/models/sam3_tracker_video/__init__.py +1 -0
transformers/models/sam3_tracker_video/configuration_sam3_tracker_video.py +1 -25
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +122 -135
transformers/models/sam3_tracker_video/modular_sam3_tracker_video.py +26 -35
transformers/models/sam3_tracker_video/processing_sam3_tracker_video.py +66 -50
transformers/models/sam3_video/configuration_sam3_video.py +1 -14
transformers/models/sam3_video/modeling_sam3_video.py +34 -33
transformers/models/sam3_video/processing_sam3_video.py +46 -26
transformers/models/sam_hq/__init__.py +1 -1
transformers/models/sam_hq/configuration_sam_hq.py +1 -3
transformers/models/sam_hq/modeling_sam_hq.py +69 -74
transformers/models/sam_hq/modular_sam_hq.py +25 -23
transformers/models/sam_hq/{processing_sam_hq.py → processing_samhq.py} +29 -41
transformers/models/seamless_m4t/configuration_seamless_m4t.py +10 -8
transformers/models/seamless_m4t/feature_extraction_seamless_m4t.py +11 -8
transformers/models/seamless_m4t/modeling_seamless_m4t.py +194 -212
transformers/models/seamless_m4t/processing_seamless_m4t.py +39 -18
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +77 -40
transformers/models/seamless_m4t_v2/configuration_seamless_m4t_v2.py +10 -8
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +196 -204
transformers/models/seed_oss/configuration_seed_oss.py +32 -28
transformers/models/seed_oss/modeling_seed_oss.py +35 -33
transformers/models/seed_oss/modular_seed_oss.py +4 -3
transformers/models/segformer/configuration_segformer.py +10 -0
transformers/models/segformer/image_processing_segformer.py +42 -39
transformers/models/segformer/image_processing_segformer_fast.py +12 -10
transformers/models/segformer/modeling_segformer.py +31 -34
transformers/models/segformer/modular_segformer.py +10 -8
transformers/models/seggpt/configuration_seggpt.py +1 -0
transformers/models/seggpt/image_processing_seggpt.py +41 -38
transformers/models/seggpt/modeling_seggpt.py +38 -50
transformers/models/sew/configuration_sew.py +2 -4
transformers/models/sew/modeling_sew.py +36 -38
transformers/models/sew/modular_sew.py +13 -13
transformers/models/sew_d/configuration_sew_d.py +2 -4
transformers/models/sew_d/modeling_sew_d.py +30 -31
transformers/models/shieldgemma2/configuration_shieldgemma2.py +1 -0
transformers/models/shieldgemma2/modeling_shieldgemma2.py +17 -16
transformers/models/shieldgemma2/processing_shieldgemma2.py +5 -3
transformers/models/siglip/configuration_siglip.py +2 -4
transformers/models/siglip/image_processing_siglip.py +20 -17
transformers/models/siglip/image_processing_siglip_fast.py +1 -0
transformers/models/siglip/modeling_siglip.py +75 -84
transformers/models/siglip/processing_siglip.py +14 -2
transformers/models/siglip/tokenization_siglip.py +7 -6
transformers/models/siglip2/configuration_siglip2.py +2 -5
transformers/models/siglip2/image_processing_siglip2.py +16 -15
transformers/models/siglip2/image_processing_siglip2_fast.py +7 -6
transformers/models/siglip2/modeling_siglip2.py +129 -143
transformers/models/siglip2/modular_siglip2.py +46 -47
transformers/models/siglip2/processing_siglip2.py +14 -2
transformers/models/smollm3/configuration_smollm3.py +32 -29
transformers/models/smollm3/modeling_smollm3.py +39 -36
transformers/models/smollm3/modular_smollm3.py +35 -33
transformers/models/smolvlm/configuration_smolvlm.py +4 -2
transformers/models/smolvlm/image_processing_smolvlm.py +43 -42
transformers/models/smolvlm/image_processing_smolvlm_fast.py +15 -41
transformers/models/smolvlm/modeling_smolvlm.py +94 -126
transformers/models/smolvlm/modular_smolvlm.py +39 -50
transformers/models/smolvlm/processing_smolvlm.py +83 -15
transformers/models/smolvlm/video_processing_smolvlm.py +18 -16
transformers/models/speech_encoder_decoder/configuration_speech_encoder_decoder.py +1 -0
transformers/models/speech_encoder_decoder/modeling_speech_encoder_decoder.py +27 -26
transformers/models/speech_to_text/configuration_speech_to_text.py +9 -9
transformers/models/speech_to_text/feature_extraction_speech_to_text.py +13 -10
transformers/models/speech_to_text/modeling_speech_to_text.py +54 -66
transformers/models/speech_to_text/processing_speech_to_text.py +30 -4
transformers/models/speech_to_text/tokenization_speech_to_text.py +6 -5
transformers/models/speecht5/configuration_speecht5.py +9 -7
transformers/models/speecht5/feature_extraction_speecht5.py +37 -16
transformers/models/speecht5/modeling_speecht5.py +175 -213
transformers/models/speecht5/number_normalizer.py +1 -0
transformers/models/speecht5/processing_speecht5.py +37 -3
transformers/models/speecht5/tokenization_speecht5.py +5 -4
transformers/models/splinter/configuration_splinter.py +7 -6
transformers/models/splinter/modeling_splinter.py +59 -71
transformers/models/splinter/tokenization_splinter.py +30 -9
transformers/models/squeezebert/configuration_squeezebert.py +2 -14
transformers/models/squeezebert/modeling_squeezebert.py +62 -68
transformers/models/squeezebert/tokenization_squeezebert.py +1 -0
transformers/models/stablelm/configuration_stablelm.py +29 -24
transformers/models/stablelm/modeling_stablelm.py +45 -44
transformers/models/starcoder2/configuration_starcoder2.py +27 -30
transformers/models/starcoder2/modeling_starcoder2.py +41 -39
transformers/models/starcoder2/modular_starcoder2.py +16 -14
transformers/models/superglue/configuration_superglue.py +3 -7
transformers/models/superglue/image_processing_superglue.py +15 -15
transformers/models/superglue/image_processing_superglue_fast.py +10 -9
transformers/models/superglue/modeling_superglue.py +37 -42
transformers/models/superpoint/image_processing_superpoint.py +15 -15
transformers/models/superpoint/image_processing_superpoint_fast.py +11 -8
transformers/models/superpoint/modeling_superpoint.py +16 -18
transformers/models/swiftformer/configuration_swiftformer.py +1 -0
transformers/models/swiftformer/modeling_swiftformer.py +14 -18
transformers/models/swin/configuration_swin.py +1 -0
transformers/models/swin/modeling_swin.py +86 -86
transformers/models/swin2sr/configuration_swin2sr.py +1 -0
transformers/models/swin2sr/image_processing_swin2sr.py +13 -10
transformers/models/swin2sr/image_processing_swin2sr_fast.py +8 -4
transformers/models/swin2sr/modeling_swin2sr.py +63 -81
transformers/models/swinv2/configuration_swinv2.py +1 -0
transformers/models/swinv2/modeling_swinv2.py +104 -108
transformers/models/switch_transformers/configuration_switch_transformers.py +7 -11
transformers/models/switch_transformers/modeling_switch_transformers.py +44 -37
transformers/models/switch_transformers/modular_switch_transformers.py +41 -34
transformers/models/t5/configuration_t5.py +8 -14
transformers/models/t5/modeling_t5.py +92 -88
transformers/models/t5/tokenization_t5.py +9 -3
transformers/models/t5gemma/configuration_t5gemma.py +41 -43
transformers/models/t5gemma/modeling_t5gemma.py +107 -104
transformers/models/t5gemma/modular_t5gemma.py +120 -124
transformers/models/t5gemma2/configuration_t5gemma2.py +120 -80
transformers/models/t5gemma2/modeling_t5gemma2.py +125 -141
transformers/models/t5gemma2/modular_t5gemma2.py +104 -393
transformers/models/table_transformer/configuration_table_transformer.py +2 -1
transformers/models/table_transformer/modeling_table_transformer.py +49 -51
transformers/models/tapas/configuration_tapas.py +2 -12
transformers/models/tapas/modeling_tapas.py +67 -68
transformers/models/tapas/tokenization_tapas.py +153 -115
transformers/models/textnet/configuration_textnet.py +1 -0
transformers/models/textnet/image_processing_textnet.py +25 -22
transformers/models/textnet/image_processing_textnet_fast.py +10 -8
transformers/models/textnet/modeling_textnet.py +16 -28
transformers/models/time_series_transformer/configuration_time_series_transformer.py +8 -5
transformers/models/time_series_transformer/modeling_time_series_transformer.py +81 -83
transformers/models/timesfm/configuration_timesfm.py +1 -0
transformers/models/timesfm/modeling_timesfm.py +22 -33
transformers/models/timesfm/modular_timesfm.py +21 -32
transformers/models/timesformer/configuration_timesformer.py +1 -0
transformers/models/timesformer/modeling_timesformer.py +16 -15
transformers/models/timm_backbone/configuration_timm_backbone.py +1 -0
transformers/models/timm_backbone/modeling_timm_backbone.py +15 -17
transformers/models/timm_wrapper/configuration_timm_wrapper.py +3 -5
transformers/models/timm_wrapper/image_processing_timm_wrapper.py +5 -4
transformers/models/timm_wrapper/modeling_timm_wrapper.py +29 -34
transformers/models/trocr/configuration_trocr.py +8 -11
transformers/models/trocr/modeling_trocr.py +44 -45
transformers/models/trocr/processing_trocr.py +25 -5
transformers/models/tvp/configuration_tvp.py +2 -5
transformers/models/tvp/image_processing_tvp.py +52 -50
transformers/models/tvp/image_processing_tvp_fast.py +15 -15
transformers/models/tvp/modeling_tvp.py +27 -27
transformers/models/tvp/processing_tvp.py +14 -2
transformers/models/udop/configuration_udop.py +7 -16
transformers/models/udop/modeling_udop.py +73 -71
transformers/models/udop/processing_udop.py +26 -7
transformers/models/udop/tokenization_udop.py +105 -84
transformers/models/umt5/configuration_umt5.py +7 -8
transformers/models/umt5/modeling_umt5.py +90 -94
transformers/models/unispeech/configuration_unispeech.py +2 -4
transformers/models/unispeech/modeling_unispeech.py +49 -51
transformers/models/unispeech/modular_unispeech.py +22 -22
transformers/models/unispeech_sat/configuration_unispeech_sat.py +2 -4
transformers/models/unispeech_sat/modeling_unispeech_sat.py +65 -69
transformers/models/unispeech_sat/modular_unispeech_sat.py +23 -23
transformers/models/univnet/feature_extraction_univnet.py +14 -14
transformers/models/univnet/modeling_univnet.py +8 -8
transformers/models/upernet/configuration_upernet.py +1 -0
transformers/models/upernet/modeling_upernet.py +13 -11
transformers/models/vaultgemma/__init__.py +1 -0
transformers/models/vaultgemma/configuration_vaultgemma.py +33 -29
transformers/models/vaultgemma/modeling_vaultgemma.py +41 -39
transformers/models/vaultgemma/modular_vaultgemma.py +31 -29
transformers/models/video_llama_3/configuration_video_llama_3.py +0 -4
transformers/models/video_llama_3/image_processing_video_llama_3.py +42 -43
transformers/models/video_llama_3/image_processing_video_llama_3_fast.py +14 -12
transformers/models/video_llama_3/modeling_video_llama_3.py +109 -157
transformers/models/video_llama_3/modular_video_llama_3.py +146 -155
transformers/models/video_llama_3/processing_video_llama_3.py +39 -5
transformers/models/video_llama_3/video_processing_video_llama_3.py +23 -42
transformers/models/video_llava/configuration_video_llava.py +1 -4
transformers/models/video_llava/image_processing_video_llava.py +38 -35
transformers/models/video_llava/modeling_video_llava.py +146 -146
transformers/models/video_llava/processing_video_llava.py +78 -38
transformers/models/video_llava/video_processing_video_llava.py +1 -0
transformers/models/videomae/configuration_videomae.py +1 -0
transformers/models/videomae/image_processing_videomae.py +34 -31
transformers/models/videomae/modeling_videomae.py +17 -14
transformers/models/videomae/video_processing_videomae.py +1 -0
transformers/models/vilt/configuration_vilt.py +4 -6
transformers/models/vilt/image_processing_vilt.py +30 -29
transformers/models/vilt/image_processing_vilt_fast.py +16 -15
transformers/models/vilt/modeling_vilt.py +90 -116
transformers/models/vilt/processing_vilt.py +14 -2
transformers/models/vipllava/configuration_vipllava.py +1 -4
transformers/models/vipllava/modeling_vipllava.py +70 -99
transformers/models/vipllava/modular_vipllava.py +54 -78
transformers/models/vision_encoder_decoder/configuration_vision_encoder_decoder.py +1 -0
transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py +27 -28
transformers/models/vision_text_dual_encoder/configuration_vision_text_dual_encoder.py +1 -0
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +41 -46
transformers/models/vision_text_dual_encoder/processing_vision_text_dual_encoder.py +16 -2
transformers/models/visual_bert/configuration_visual_bert.py +2 -6
transformers/models/visual_bert/modeling_visual_bert.py +92 -98
transformers/models/vit/configuration_vit.py +1 -0
transformers/models/vit/image_processing_vit.py +22 -19
transformers/models/vit/image_processing_vit_fast.py +1 -0
transformers/models/vit/modeling_vit.py +17 -17
transformers/models/vit_mae/configuration_vit_mae.py +1 -0
transformers/models/vit_mae/modeling_vit_mae.py +27 -29
transformers/models/vit_msn/configuration_vit_msn.py +1 -0
transformers/models/vit_msn/modeling_vit_msn.py +16 -18
transformers/models/vitdet/configuration_vitdet.py +1 -0
transformers/models/vitdet/modeling_vitdet.py +14 -14
transformers/models/vitmatte/configuration_vitmatte.py +5 -2
transformers/models/vitmatte/image_processing_vitmatte.py +18 -15
transformers/models/vitmatte/image_processing_vitmatte_fast.py +18 -16
transformers/models/vitmatte/modeling_vitmatte.py +11 -14
transformers/models/vitpose/configuration_vitpose.py +7 -4
transformers/models/vitpose/image_processing_vitpose.py +25 -24
transformers/models/vitpose/image_processing_vitpose_fast.py +11 -9
transformers/models/vitpose/modeling_vitpose.py +14 -14
transformers/models/vitpose_backbone/configuration_vitpose_backbone.py +1 -0
transformers/models/vitpose_backbone/modeling_vitpose_backbone.py +10 -8
transformers/models/vits/configuration_vits.py +1 -4
transformers/models/vits/modeling_vits.py +42 -44
transformers/models/vits/tokenization_vits.py +4 -3
transformers/models/vivit/configuration_vivit.py +1 -0
transformers/models/vivit/image_processing_vivit.py +39 -36
transformers/models/vivit/modeling_vivit.py +8 -6
transformers/models/vjepa2/__init__.py +1 -0
transformers/models/vjepa2/configuration_vjepa2.py +1 -0
transformers/models/vjepa2/modeling_vjepa2.py +32 -31
transformers/models/vjepa2/video_processing_vjepa2.py +1 -0
transformers/models/voxtral/__init__.py +1 -0
transformers/models/voxtral/configuration_voxtral.py +2 -0
transformers/models/voxtral/modeling_voxtral.py +47 -40
transformers/models/voxtral/modular_voxtral.py +40 -37
transformers/models/voxtral/processing_voxtral.py +48 -25
transformers/models/wav2vec2/configuration_wav2vec2.py +2 -4
transformers/models/wav2vec2/feature_extraction_wav2vec2.py +10 -7
transformers/models/wav2vec2/modeling_wav2vec2.py +121 -73
transformers/models/wav2vec2/processing_wav2vec2.py +35 -6
transformers/models/wav2vec2/tokenization_wav2vec2.py +332 -20
transformers/models/wav2vec2_bert/configuration_wav2vec2_bert.py +2 -4
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +62 -70
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +48 -57
transformers/models/wav2vec2_bert/processing_wav2vec2_bert.py +35 -6
transformers/models/wav2vec2_conformer/configuration_wav2vec2_conformer.py +2 -4
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +77 -90
transformers/models/wav2vec2_conformer/modular_wav2vec2_conformer.py +30 -37
transformers/models/wav2vec2_phoneme/tokenization_wav2vec2_phoneme.py +17 -16
transformers/models/wav2vec2_with_lm/processing_wav2vec2_with_lm.py +55 -36
transformers/models/wavlm/configuration_wavlm.py +2 -4
transformers/models/wavlm/modeling_wavlm.py +48 -50
transformers/models/wavlm/modular_wavlm.py +5 -4
transformers/models/whisper/configuration_whisper.py +5 -6
transformers/models/whisper/english_normalizer.py +4 -3
transformers/models/whisper/feature_extraction_whisper.py +24 -9
transformers/models/whisper/generation_whisper.py +48 -26
transformers/models/whisper/modeling_whisper.py +73 -79
transformers/models/whisper/processing_whisper.py +20 -3
transformers/models/whisper/tokenization_whisper.py +43 -11
transformers/models/x_clip/configuration_x_clip.py +2 -4
transformers/models/x_clip/modeling_x_clip.py +93 -96
transformers/models/x_clip/processing_x_clip.py +14 -2
transformers/models/xcodec/configuration_xcodec.py +6 -4
transformers/models/xcodec/modeling_xcodec.py +17 -20
transformers/models/xglm/configuration_xglm.py +8 -9
transformers/models/xglm/modeling_xglm.py +55 -60
transformers/models/xglm/tokenization_xglm.py +11 -3
transformers/models/xlm/configuration_xlm.py +8 -10
transformers/models/xlm/modeling_xlm.py +144 -144
transformers/models/xlm/tokenization_xlm.py +5 -3
transformers/models/xlm_roberta/configuration_xlm_roberta.py +3 -11
transformers/models/xlm_roberta/modeling_xlm_roberta.py +194 -195
transformers/models/xlm_roberta/modular_xlm_roberta.py +53 -50
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +18 -8
transformers/models/xlm_roberta_xl/configuration_xlm_roberta_xl.py +2 -10
transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py +93 -94
transformers/models/xlm_roberta_xl/modular_xlm_roberta_xl.py +70 -67
transformers/models/xlnet/configuration_xlnet.py +12 -3
transformers/models/xlnet/modeling_xlnet.py +163 -152
transformers/models/xlnet/tokenization_xlnet.py +9 -2
transformers/models/xlstm/configuration_xlstm.py +12 -8
transformers/models/xlstm/modeling_xlstm.py +65 -62
transformers/models/xmod/configuration_xmod.py +3 -11
transformers/models/xmod/modeling_xmod.py +110 -108
transformers/models/yolos/configuration_yolos.py +1 -0
transformers/models/yolos/image_processing_yolos.py +62 -60
transformers/models/yolos/image_processing_yolos_fast.py +45 -42
transformers/models/yolos/modeling_yolos.py +16 -16
transformers/models/yolos/modular_yolos.py +19 -17
transformers/models/yoso/configuration_yoso.py +2 -8
transformers/models/yoso/modeling_yoso.py +63 -70
transformers/models/zamba/configuration_zamba.py +8 -5
transformers/models/zamba/modeling_zamba.py +78 -81
transformers/models/zamba2/configuration_zamba2.py +50 -44
transformers/models/zamba2/modeling_zamba2.py +97 -97
transformers/models/zamba2/modular_zamba2.py +48 -46
transformers/models/zoedepth/configuration_zoedepth.py +2 -1
transformers/models/zoedepth/image_processing_zoedepth.py +29 -28
transformers/models/zoedepth/image_processing_zoedepth_fast.py +24 -21
transformers/models/zoedepth/modeling_zoedepth.py +18 -26
transformers/pipelines/__init__.py +114 -57
transformers/pipelines/any_to_any.py +22 -14
transformers/pipelines/audio_utils.py +2 -1
transformers/pipelines/automatic_speech_recognition.py +12 -20
transformers/pipelines/base.py +27 -15
transformers/{models/pe_audio/processing_pe_audio.py → pipelines/deprecated/__init__.py} +3 -10
transformers/pipelines/deprecated/text2text_generation.py +408 -0
transformers/pipelines/document_question_answering.py +2 -4
transformers/pipelines/image_text_to_text.py +1 -0
transformers/pipelines/image_to_text.py +229 -0
transformers/pipelines/question_answering.py +44 -5
transformers/pipelines/text_classification.py +14 -1
transformers/pipelines/text_generation.py +1 -1
transformers/pipelines/text_to_audio.py +2 -2
transformers/pipelines/token_classification.py +22 -1
transformers/pipelines/video_classification.py +9 -1
transformers/pipelines/zero_shot_audio_classification.py +1 -0
transformers/pipelines/zero_shot_classification.py +6 -0
transformers/pipelines/zero_shot_image_classification.py +7 -0
transformers/processing_utils.py +145 -230
transformers/quantizers/auto.py +4 -2
transformers/quantizers/base.py +173 -53
transformers/quantizers/quantizer_aqlm.py +23 -2
transformers/quantizers/quantizer_auto_round.py +12 -2
transformers/quantizers/quantizer_awq.py +89 -20
transformers/quantizers/quantizer_bitnet.py +14 -4
transformers/quantizers/quantizer_bnb_4bit.py +155 -18
transformers/quantizers/quantizer_bnb_8bit.py +110 -24
transformers/quantizers/quantizer_compressed_tensors.py +9 -2
transformers/quantizers/quantizer_eetq.py +74 -16
transformers/quantizers/quantizer_fbgemm_fp8.py +138 -38
transformers/quantizers/quantizer_finegrained_fp8.py +113 -26
transformers/quantizers/quantizer_fp_quant.py +82 -52
transformers/quantizers/quantizer_gptq.py +28 -8
transformers/quantizers/quantizer_higgs.py +60 -42
transformers/quantizers/quantizer_hqq.py +153 -144
transformers/quantizers/quantizer_mxfp4.py +194 -14
transformers/quantizers/quantizer_quanto.py +79 -35
transformers/quantizers/quantizer_quark.py +18 -36
transformers/quantizers/quantizer_spqr.py +12 -4
transformers/quantizers/quantizer_torchao.py +325 -50
transformers/quantizers/quantizer_vptq.py +27 -4
transformers/quantizers/quantizers_utils.py +0 -20
transformers/safetensors_conversion.py +3 -9
transformers/testing_utils.py +82 -326
transformers/tokenization_mistral_common.py +903 -568
transformers/tokenization_utils_base.py +340 -220
transformers/tokenization_utils_sentencepiece.py +6 -5
transformers/tokenization_utils_tokenizers.py +113 -226
transformers/trainer.py +53 -60
transformers/trainer_callback.py +0 -8
transformers/trainer_seq2seq.py +1 -5
transformers/trainer_utils.py +1 -1
transformers/training_args.py +41 -77
transformers/utils/__init__.py +4 -8
transformers/utils/attention_visualizer.py +5 -5
transformers/utils/auto_docstring.py +37 -599
transformers/utils/doc.py +36 -4
transformers/utils/dummy_pt_objects.py +42 -0
transformers/utils/generic.py +28 -111
transformers/utils/hub.py +15 -5
transformers/utils/import_utils.py +32 -165
transformers/utils/kernel_config.py +19 -74
transformers/utils/loading_report.py +15 -25
transformers/utils/quantization_config.py +241 -72
transformers/video_processing_utils.py +39 -41
transformers/video_utils.py +22 -18
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/METADATA +236 -284
transformers-5.0.0rc0.dist-info/RECORD +1987 -0
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/WHEEL +1 -1
transformers/integrations/moe.py +0 -360
transformers/integrations/quark.py +0 -53
transformers/loss/loss_lw_detr.py +0 -356
transformers/models/ernie4_5_vl_moe/__init__.py +0 -31
transformers/models/ernie4_5_vl_moe/configuration_ernie4_5_vl_moe.py +0 -340
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe.py +0 -455
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe_fast.py +0 -231
transformers/models/ernie4_5_vl_moe/modeling_ernie4_5_vl_moe.py +0 -1936
transformers/models/ernie4_5_vl_moe/modular_ernie4_5_vl_moe.py +0 -1925
transformers/models/ernie4_5_vl_moe/processing_ernie4_5_vl_moe.py +0 -249
transformers/models/ernie4_5_vl_moe/video_processing_ernie4_5_vl_moe.py +0 -593
transformers/models/fast_vlm/__init__.py +0 -27
transformers/models/fast_vlm/configuration_fast_vlm.py +0 -137
transformers/models/fast_vlm/modeling_fast_vlm.py +0 -432
transformers/models/fast_vlm/modular_fast_vlm.py +0 -373
transformers/models/glm4_moe_lite/__init__.py +0 -28
transformers/models/glm4_moe_lite/configuration_glm4_moe_lite.py +0 -233
transformers/models/glm4_moe_lite/modeling_glm4_moe_lite.py +0 -740
transformers/models/glm4_moe_lite/modular_glm4_moe_lite.py +0 -302
transformers/models/glm_image/__init__.py +0 -31
transformers/models/glm_image/configuration_glm_image.py +0 -351
transformers/models/glm_image/image_processing_glm_image.py +0 -503
transformers/models/glm_image/image_processing_glm_image_fast.py +0 -294
transformers/models/glm_image/modeling_glm_image.py +0 -1642
transformers/models/glm_image/modular_glm_image.py +0 -1531
transformers/models/glm_image/processing_glm_image.py +0 -217
transformers/models/glmasr/__init__.py +0 -29
transformers/models/glmasr/configuration_glmasr.py +0 -196
transformers/models/glmasr/modeling_glmasr.py +0 -517
transformers/models/glmasr/modular_glmasr.py +0 -443
transformers/models/glmasr/processing_glmasr.py +0 -331
transformers/models/jais2/__init__.py +0 -27
transformers/models/jais2/configuration_jais2.py +0 -148
transformers/models/jais2/modeling_jais2.py +0 -484
transformers/models/jais2/modular_jais2.py +0 -194
transformers/models/lasr/__init__.py +0 -29
transformers/models/lasr/configuration_lasr.py +0 -244
transformers/models/lasr/feature_extraction_lasr.py +0 -275
transformers/models/lasr/modeling_lasr.py +0 -727
transformers/models/lasr/modular_lasr.py +0 -574
transformers/models/lasr/processing_lasr.py +0 -100
transformers/models/lasr/tokenization_lasr.py +0 -184
transformers/models/lighton_ocr/__init__.py +0 -28
transformers/models/lighton_ocr/configuration_lighton_ocr.py +0 -128
transformers/models/lighton_ocr/modeling_lighton_ocr.py +0 -463
transformers/models/lighton_ocr/modular_lighton_ocr.py +0 -404
transformers/models/lighton_ocr/processing_lighton_ocr.py +0 -229
transformers/models/lw_detr/__init__.py +0 -27
transformers/models/lw_detr/configuration_lw_detr.py +0 -374
transformers/models/lw_detr/modeling_lw_detr.py +0 -1702
transformers/models/lw_detr/modular_lw_detr.py +0 -1615
transformers/models/minimax_m2/__init__.py +0 -28
transformers/models/minimax_m2/configuration_minimax_m2.py +0 -188
transformers/models/minimax_m2/modeling_minimax_m2.py +0 -704
transformers/models/minimax_m2/modular_minimax_m2.py +0 -346
transformers/models/paddleocr_vl/__init__.py +0 -31
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +0 -335
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +0 -503
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +0 -209
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +0 -1683
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +0 -1380
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +0 -133
transformers/models/pe_audio/__init__.py +0 -29
transformers/models/pe_audio/configuration_pe_audio.py +0 -204
transformers/models/pe_audio/feature_extraction_pe_audio.py +0 -160
transformers/models/pe_audio/modeling_pe_audio.py +0 -819
transformers/models/pe_audio/modular_pe_audio.py +0 -298
transformers/models/pe_audio_video/__init__.py +0 -28
transformers/models/pe_audio_video/configuration_pe_audio_video.py +0 -223
transformers/models/pe_audio_video/modeling_pe_audio_video.py +0 -971
transformers/models/pe_audio_video/modular_pe_audio_video.py +0 -763
transformers/models/pe_video/__init__.py +0 -29
transformers/models/pe_video/configuration_pe_video.py +0 -209
transformers/models/pe_video/modeling_pe_video.py +0 -647
transformers/models/pe_video/modular_pe_video.py +0 -231
transformers/models/pe_video/processing_pe_video.py +0 -10
transformers/models/pe_video/video_processing_pe_video.py +0 -64
transformers/models/pixio/__init__.py +0 -29
transformers/models/pixio/configuration_pixio.py +0 -150
transformers/models/pixio/modeling_pixio.py +0 -507
transformers/models/pixio/modular_pixio.py +0 -403
transformers/models/solar_open/__init__.py +0 -27
transformers/models/solar_open/configuration_solar_open.py +0 -184
transformers/models/solar_open/modeling_solar_open.py +0 -642
transformers/models/solar_open/modular_solar_open.py +0 -224
transformers/trainer_jit_checkpoint.py +0 -125
transformers-5.0.0.dist-info/RECORD +0 -2068
{transformers-5.0.0.dist-info/licenses → transformers-5.0.0rc0.dist-info}/LICENSE +0 -0
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0.dist-info → transformers-5.0.0rc0.dist-info}/top_level.txt +0 -0

transformers/models/auto/tokenization_auto.py CHANGED Viewed

@@ -1,3 +1,4 @@
+# coding=utf-8
 # Copyright 2018 The HuggingFace Inc. team.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -14,17 +15,19 @@
 """Auto Tokenizer class."""
 import importlib
+import inspect
 import json
 import os
 from collections import OrderedDict
-from typing import Any
+from typing import Any, Optional, Union
 from transformers.utils.import_utils import is_mistral_common_available
 from ...configuration_utils import PreTrainedConfig
 from ...dynamic_module_utils import get_class_from_dynamic_module, resolve_trust_remote_code
 from ...modeling_gguf_pytorch_utils import load_gguf_checkpoint
-from ...tokenization_utils_base import TOKENIZER_CONFIG_FILE
+from ...tokenization_python import PreTrainedTokenizer, PythonBackend
+from ...tokenization_utils_base import TOKENIZER_CONFIG_FILE, find_sentencepiece_model_file, load_vocab_and_merges
 from ...utils import (
     extract_commit_hash,
     is_g2p_en_available,
@@ -32,7 +35,7 @@ from ...utils import (
     is_tokenizers_available,
     logging,
 )
-from ...utils.hub import cached_file
+from ...utils.hub import cached_file, has_file
 from ..encoder_decoder import EncoderDecoderConfig
 from .auto_factory import _LazyAutoMapping
 from .configuration_auto import (
@@ -60,12 +63,13 @@ logger = logging.get_logger(__name__)
 REGISTERED_TOKENIZER_CLASSES: dict[str, type[Any]] = {}
 REGISTERED_FAST_ALIASES: dict[str, type[Any]] = {}
-TOKENIZER_MAPPING_NAMES = OrderedDict[str, str | None](
+TOKENIZER_MAPPING_NAMES = OrderedDict[str, Optional[str]](
     [
-        ("aimv2", "CLIPTokenizer" if is_tokenizers_available() else None),
+        ("aimv2", "CLIPTokenizerFast" if is_tokenizers_available() else None),
         ("albert", "AlbertTokenizer" if is_tokenizers_available() else None),
         ("align", "BertTokenizer" if is_tokenizers_available() else None),
-        ("audioflamingo3", "Qwen2Tokenizer" if is_tokenizers_available() else None),
+        ("arcee", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("aria", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("aya_vision", "CohereTokenizer" if is_tokenizers_available() else None),
         ("bark", "BertTokenizer" if is_tokenizers_available() else None),
         ("bart", "RobertaTokenizer" if is_tokenizers_available() else None),
@@ -78,15 +82,19 @@ TOKENIZER_MAPPING_NAMES = OrderedDict[str, str | None](
         ("big_bird", "BigBirdTokenizer" if is_tokenizers_available() else None),
         ("bigbird_pegasus", "PegasusTokenizer" if is_tokenizers_available() else None),
         ("biogpt", "BioGptTokenizer"),
+        ("bitnet", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("blenderbot", "BlenderbotTokenizer" if is_tokenizers_available() else None),
         ("blenderbot-small", "BlenderbotSmallTokenizer"),
         ("blip", "BertTokenizer" if is_tokenizers_available() else None),
         ("blip-2", "GPT2Tokenizer" if is_tokenizers_available() else None),
+        ("bloom", "TokenizersBackend" if is_tokenizers_available() else None),
+        ("blt", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("bridgetower", "RobertaTokenizer"),
         ("bros", "BertTokenizer" if is_tokenizers_available() else None),
         ("byt5", "ByT5Tokenizer"),
         ("camembert", "CamembertTokenizer" if is_tokenizers_available() else None),
         ("canine", "CanineTokenizer"),
+        ("chameleon", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("chinese_clip", "BertTokenizer" if is_tokenizers_available() else None),
         ("clap", "RobertaTokenizer"),
         ("clip", "CLIPTokenizer" if is_tokenizers_available() else None),
@@ -96,231 +104,265 @@ TOKENIZER_MAPPING_NAMES = OrderedDict[str, str | None](
         ("codegen", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("cohere", "CohereTokenizer" if is_tokenizers_available() else None),
         ("cohere2", "CohereTokenizer" if is_tokenizers_available() else None),
-        ("colqwen2", "Qwen2Tokenizer" if is_tokenizers_available() else None),
+        ("colpali", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("colqwen2", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
         ("convbert", "BertTokenizer" if is_tokenizers_available() else None),
         ("cpm", "CpmTokenizer" if is_tokenizers_available() else None),
         ("cpmant", "CpmAntTokenizer"),
+        ("csm", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("ctrl", "CTRLTokenizer"),
         ("data2vec-audio", "Wav2Vec2CTCTokenizer"),
         ("data2vec-text", "RobertaTokenizer"),
         ("dbrx", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("deberta", "DebertaTokenizer" if is_tokenizers_available() else None),
         ("deberta-v2", "DebertaV2Tokenizer" if is_tokenizers_available() else None),
+        ("deepseek_v2", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("deepseek_v3", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("deepseek_vl", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("deepseek_vl_hybrid", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("dia", "DiaTokenizer"),
+        ("diffllama", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("distilbert", "BertTokenizer" if is_tokenizers_available() else None),
-        ("dpr", "DPRQuestionEncoderTokenizer" if is_tokenizers_available() else None),
+        ("dpr", "DPRQuestionEncoderTokenizerFast" if is_tokenizers_available() else None),
         ("electra", "BertTokenizer" if is_tokenizers_available() else None),
         ("emu3", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("ernie", "BertTokenizer" if is_tokenizers_available() else None),
+        ("ernie4_5", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("ernie4_5_moe", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("esm", "EsmTokenizer"),
         ("exaone4", "GPT2Tokenizer" if is_tokenizers_available() else None),
-        ("falcon_mamba", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
+        ("falcon", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("falcon_mamba", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
         ("fastspeech2_conformer", "FastSpeech2ConformerTokenizer" if is_g2p_en_available() else None),
         ("flaubert", "FlaubertTokenizer"),
         ("flava", "BertTokenizer" if is_tokenizers_available() else None),
         ("flex_olmo", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("florence2", "BartTokenizer" if is_tokenizers_available() else None),
-        ("fnet", "FNetTokenizer" if is_tokenizers_available() else None),
+        ("fnet", "FNetTokenizerFast" if is_tokenizers_available() else None),
         ("fsmt", "FSMTTokenizer"),
         ("funnel", "FunnelTokenizer" if is_tokenizers_available() else None),
-        ("gemma", "GemmaTokenizer" if is_tokenizers_available() else None),
-        ("gemma2", "GemmaTokenizer" if is_tokenizers_available() else None),
-        ("gemma3", "GemmaTokenizer" if is_tokenizers_available() else None),
-        ("gemma3_text", "GemmaTokenizer" if is_tokenizers_available() else None),
-        ("gemma3n", "GemmaTokenizer" if is_tokenizers_available() else None),
-        ("gemma3n_text", "GemmaTokenizer" if is_tokenizers_available() else None),
+        ("gemma", "GemmaTokenizerFast" if is_tokenizers_available() else None),
+        ("gemma2", "GemmaTokenizerFast" if is_tokenizers_available() else None),
+        ("gemma3", "GemmaTokenizerFast" if is_tokenizers_available() else None),
+        ("gemma3_text", "GemmaTokenizerFast" if is_tokenizers_available() else None),
+        ("gemma3n", "GemmaTokenizerFast" if is_tokenizers_available() else None),
+        ("gemma3n_text", "GemmaTokenizerFast" if is_tokenizers_available() else None),
         ("git", "BertTokenizer" if is_tokenizers_available() else None),
-        ("glm", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glm4", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glm4_moe", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glm4_moe_lite", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glm4v", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glm4v_moe", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glm_image", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("glmasr", "TokenizersBackend" if is_tokenizers_available() else None),
-        ("got_ocr2", "TokenizersBackend" if is_tokenizers_available() else None),
+        ("glm", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("glm4", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("glm4_moe", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("glm4v", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("glm4v_moe", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("got_ocr2", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("gpt-sw3", "GPTSw3Tokenizer" if is_sentencepiece_available() else None),
         ("gpt2", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("gpt_bigcode", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("gpt_neo", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("gpt_neox", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
         ("gpt_neox_japanese", "GPTNeoXJapaneseTokenizer"),
+        ("gpt_oss", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("gptj", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("granite", "GPT2Tokenizer"),
         ("granitemoe", "GPT2Tokenizer"),
         ("granitemoehybrid", "GPT2Tokenizer"),
         ("granitemoeshared", "GPT2Tokenizer"),
         ("grounding-dino", "BertTokenizer" if is_tokenizers_available() else None),
-        ("groupvit", "CLIPTokenizer" if is_tokenizers_available() else None),
+        ("groupvit", "CLIPTokenizerFast" if is_tokenizers_available() else None),
+        ("helium", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("herbert", "HerbertTokenizer" if is_tokenizers_available() else None),
         ("hubert", "Wav2Vec2CTCTokenizer"),
         ("ibert", "RobertaTokenizer"),
-        ("idefics", "LlamaTokenizer" if is_tokenizers_available() else None),
-        ("idefics2", "LlamaTokenizer" if is_tokenizers_available() else None),
+        ("idefics", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("idefics2", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("idefics3", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("instructblip", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("instructblipvideo", "GPT2Tokenizer" if is_tokenizers_available() else None),
-        ("internvl", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("jais2", "GPT2Tokenizer" if is_tokenizers_available() else None),
+        ("internvl", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("jamba", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("janus", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("jetmoe", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("kosmos-2", "XLMRobertaTokenizer" if is_tokenizers_available() else None),
-        ("lasr_ctc", "ParakeetTokenizer" if is_tokenizers_available() else None),
-        ("lasr_encoder", "ParakeetTokenizer" if is_tokenizers_available() else None),
+        ("kosmos-2.5", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("layoutlm", "BertTokenizer" if is_tokenizers_available() else None),
         ("layoutlmv2", "LayoutLMv2Tokenizer" if is_tokenizers_available() else None),
         ("layoutlmv3", "LayoutLMv3Tokenizer" if is_tokenizers_available() else None),
         ("layoutxlm", "LayoutXLMTokenizer" if is_tokenizers_available() else None),
         ("led", "LEDTokenizer" if is_tokenizers_available() else None),
-        ("lighton_ocr", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("lfm2_vl", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("lilt", "RobertaTokenizer" if is_tokenizers_available() else None),
+        ("llama", "LlamaTokenizer" if is_tokenizers_available() else None),
+        ("llama4", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("llama4_text", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("llava", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("llava_next", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("llava_next_video", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("llava_onevision", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("longformer", "RobertaTokenizer" if is_tokenizers_available() else None),
         ("longt5", "T5Tokenizer" if is_tokenizers_available() else None),
         ("luke", "LukeTokenizer"),
         ("lxmert", "LxmertTokenizer" if is_tokenizers_available() else None),
         ("m2m_100", "M2M100Tokenizer" if is_sentencepiece_available() else None),
-        ("mamba", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
-        ("mamba2", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
+        ("mamba", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
+        ("mamba2", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
         ("marian", "MarianTokenizer" if is_sentencepiece_available() else None),
-        ("markuplm", "MarkupLMTokenizer" if is_tokenizers_available() else None),
         ("mbart", "MBartTokenizer" if is_tokenizers_available() else None),
         ("mbart50", "MBart50Tokenizer" if is_tokenizers_available() else None),
         ("mega", "RobertaTokenizer"),
         ("megatron-bert", "BertTokenizer" if is_tokenizers_available() else None),
-        ("metaclip_2", "XLMRobertaTokenizer" if is_tokenizers_available() else None),
+        ("metaclip_2", "XLMRobertaTokenizerFast" if is_tokenizers_available() else None),
         ("mgp-str", "MgpstrTokenizer"),
+        ("minimax", "GPT2Tokenizer" if is_tokenizers_available() else None),
         (
             "ministral3",
-            "MistralCommonBackend"
-            if is_mistral_common_available()
-            else ("TokenizersBackend" if is_tokenizers_available() else None),
+            (
+                "MistralCommonBackend"
+                if is_mistral_common_available()
+                else ("LlamaTokenizer" if is_sentencepiece_available() else None),
+                "LlamaTokenizerFast" if is_tokenizers_available() and not is_mistral_common_available() else None,
+            ),
         ),
         (
             "mistral",
             "MistralCommonBackend"
             if is_mistral_common_available()
-            else ("TokenizersBackend" if is_tokenizers_available() else None),
+            else ("LlamaTokenizerFast" if is_tokenizers_available() else None),
         ),
         (
             "mistral3",
-            "MistralCommonBackend"
-            if is_mistral_common_available()
-            else ("TokenizersBackend" if is_tokenizers_available() else None),
+            (
+                "MistralCommonBackend"
+                if is_mistral_common_available()
+                else ("LlamaTokenizer" if is_sentencepiece_available() else None),
+                "LlamaTokenizerFast" if is_tokenizers_available() and not is_mistral_common_available() else None,
+            ),
         ),
         (
             "mixtral",
             "MistralCommonBackend"
             if is_mistral_common_available()
-            else ("TokenizersBackend" if is_tokenizers_available() else None),
+            else ("LlamaTokenizerFast" if is_tokenizers_available() else None),
         ),
+        ("mllama", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("mluke", "MLukeTokenizer" if is_sentencepiece_available() else None),
         ("mm-grounding-dino", "BertTokenizer" if is_tokenizers_available() else None),
         ("mobilebert", "MobileBertTokenizer" if is_tokenizers_available() else None),
+        ("modernbert", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("moonshine", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
+        ("moshi", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("mpnet", "MPNetTokenizer" if is_tokenizers_available() else None),
-        ("mpt", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
+        ("mpt", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
         ("mra", "RobertaTokenizer"),
         ("mt5", "T5Tokenizer" if is_tokenizers_available() else None),
         ("musicgen", "T5Tokenizer" if is_tokenizers_available() else None),
         ("musicgen_melody", "T5Tokenizer" if is_tokenizers_available() else None),
         ("mvp", "MvpTokenizer" if is_tokenizers_available() else None),
         ("myt5", "MyT5Tokenizer"),
+        ("nemotron", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("nezha", "BertTokenizer" if is_tokenizers_available() else None),
         ("nllb", "NllbTokenizer" if is_tokenizers_available() else None),
         ("nllb-moe", "NllbTokenizer" if is_tokenizers_available() else None),
         ("nougat", "NougatTokenizer" if is_tokenizers_available() else None),
-        ("nystromformer", "AlbertTokenizer" if is_tokenizers_available() else None),
-        ("olmo", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
-        ("olmo2", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
+        ("nystromformer", "AlbertTokenizerFast" if is_tokenizers_available() else None),
+        ("olmo", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
+        ("olmo2", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
         ("olmo3", "GPT2Tokenizer" if is_tokenizers_available() else None),
-        ("olmoe", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
-        ("omdet-turbo", "CLIPTokenizer" if is_tokenizers_available() else None),
-        ("oneformer", "CLIPTokenizer" if is_tokenizers_available() else None),
+        ("olmoe", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
+        ("omdet-turbo", "CLIPTokenizerFast" if is_tokenizers_available() else None),
+        ("oneformer", "CLIPTokenizerFast" if is_tokenizers_available() else None),
         ("openai-gpt", "OpenAIGPTTokenizer" if is_tokenizers_available() else None),
         ("opt", "GPT2Tokenizer" if is_tokenizers_available() else None),
-        ("ovis2", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("owlv2", "CLIPTokenizer" if is_tokenizers_available() else None),
-        ("owlvit", "CLIPTokenizer" if is_tokenizers_available() else None),
+        ("ovis2", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("owlv2", "CLIPTokenizerFast" if is_tokenizers_available() else None),
+        ("owlvit", "CLIPTokenizerFast" if is_tokenizers_available() else None),
+        ("paligemma", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("pegasus", "PegasusTokenizer" if is_tokenizers_available() else None),
         ("pegasus_x", "PegasusTokenizer" if is_tokenizers_available() else None),
         ("perceiver", "PerceiverTokenizer"),
+        ("persimmon", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("phi", "GPT2Tokenizer" if is_tokenizers_available() else None),
+        ("phi3", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("phimoe", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("phobert", "PhobertTokenizer"),
         ("pix2struct", "T5Tokenizer" if is_tokenizers_available() else None),
         (
             "pixtral",
             "MistralCommonBackend"
             if is_mistral_common_available()
-            else ("TokenizersBackend" if is_tokenizers_available() else None),
+            else ("PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ),
         ("plbart", "PLBartTokenizer" if is_tokenizers_available() else None),
         ("prophetnet", "ProphetNetTokenizer"),
         ("qdqbert", "BertTokenizer" if is_tokenizers_available() else None),
-        ("qwen2", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen2_5_omni", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen2_5_vl", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen2_audio", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen2_moe", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen2_vl", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen3", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen3_moe", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen3_next", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen3_omni_moe", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen3_vl", "Qwen2Tokenizer" if is_tokenizers_available() else None),
-        ("qwen3_vl_moe", "Qwen2Tokenizer" if is_tokenizers_available() else None),
+        ("qwen2", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen2_5_omni", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen2_5_vl", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen2_audio", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen2_moe", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen2_vl", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen3", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen3_moe", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen3_next", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen3_omni_moe", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen3_vl", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
+        ("qwen3_vl_moe", "Qwen2TokenizerFast" if is_tokenizers_available() else None),
         ("rag", "RagTokenizer"),
         ("realm", "BertTokenizer" if is_tokenizers_available() else None),
-        ("recurrent_gemma", "GemmaTokenizer" if is_tokenizers_available() else None),
+        ("recurrent_gemma", "GemmaTokenizerFast" if is_tokenizers_available() else None),
         ("reformer", "ReformerTokenizer" if is_tokenizers_available() else None),
         ("rembert", "RemBertTokenizer" if is_tokenizers_available() else None),
         ("retribert", "BertTokenizer" if is_tokenizers_available() else None),
         ("roberta", "RobertaTokenizer"),
         ("roberta-prelayernorm", "RobertaTokenizer"),
         ("roc_bert", "RoCBertTokenizer"),
-        ("roformer", "RoFormerTokenizer" if is_tokenizers_available() else None),
-        ("rwkv", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
-        ("sam3", "CLIPTokenizer" if is_tokenizers_available() else None),
-        ("sam3_video", "CLIPTokenizer" if is_tokenizers_available() else None),
+        ("roformer", "RoFormerTokenizerFast" if is_tokenizers_available() else None),
+        ("rwkv", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
         ("seamless_m4t", "SeamlessM4TTokenizer" if is_tokenizers_available() else None),
         ("seamless_m4t_v2", "SeamlessM4TTokenizer" if is_tokenizers_available() else None),
-        ("shieldgemma2", "GemmaTokenizer" if is_tokenizers_available() else None),
+        ("shieldgemma2", "GemmaTokenizerFast" if is_tokenizers_available() else None),
         ("siglip", "SiglipTokenizer" if is_sentencepiece_available() else None),
-        ("siglip2", "GemmaTokenizer" if is_tokenizers_available() else None),
+        ("siglip2", "GemmaTokenizerFast" if is_tokenizers_available() else None),
+        ("smollm3", "PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ("speech_to_text", "Speech2TextTokenizer" if is_sentencepiece_available() else None),
         ("speecht5", "SpeechT5Tokenizer" if is_sentencepiece_available() else None),
         ("splinter", "SplinterTokenizer"),
         ("squeezebert", "BertTokenizer" if is_tokenizers_available() else None),
-        ("stablelm", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
+        ("stablelm", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
         ("starcoder2", "GPT2Tokenizer" if is_tokenizers_available() else None),
         ("switch_transformers", "T5Tokenizer" if is_tokenizers_available() else None),
         ("t5", "T5Tokenizer" if is_tokenizers_available() else None),
-        ("t5gemma", "GemmaTokenizer" if is_tokenizers_available() else None),
+        ("t5gemma", "GemmaTokenizerFast" if is_tokenizers_available() else None),
         ("tapas", "TapasTokenizer"),
         ("trocr", "XLMRobertaTokenizer" if is_tokenizers_available() else None),
         ("tvp", "BertTokenizer" if is_tokenizers_available() else None),
         ("udop", "UdopTokenizer" if is_tokenizers_available() else None),
         ("umt5", "T5Tokenizer" if is_tokenizers_available() else None),
-        ("unispeech", "Wav2Vec2CTCTokenizer"),
-        ("unispeech-sat", "Wav2Vec2CTCTokenizer"),
+        ("video_llava", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("vilt", "BertTokenizer" if is_tokenizers_available() else None),
+        ("vipllava", "LlamaTokenizerFast" if is_tokenizers_available() else None),
         ("visual_bert", "BertTokenizer" if is_tokenizers_available() else None),
         ("vits", "VitsTokenizer"),
         (
             "voxtral",
             "MistralCommonBackend"
             if is_mistral_common_available()
-            else ("TokenizersBackend" if is_tokenizers_available() else None),
+            else ("PreTrainedTokenizerFast" if is_tokenizers_available() else None),
         ),
         ("wav2vec2", "Wav2Vec2CTCTokenizer"),
         ("wav2vec2-bert", "Wav2Vec2CTCTokenizer"),
         ("wav2vec2-conformer", "Wav2Vec2CTCTokenizer"),
         ("wav2vec2_phoneme", "Wav2Vec2PhonemeCTCTokenizer"),
         ("whisper", "WhisperTokenizer" if is_tokenizers_available() else None),
-        ("xclip", "CLIPTokenizer" if is_tokenizers_available() else None),
+        ("xclip", "CLIPTokenizerFast" if is_tokenizers_available() else None),
         ("xglm", "XGLMTokenizer" if is_tokenizers_available() else None),
         ("xlm", "XLMTokenizer"),
         ("xlm-roberta", "XLMRobertaTokenizer" if is_tokenizers_available() else None),
         ("xlm-roberta-xl", "XLMRobertaTokenizer" if is_tokenizers_available() else None),
         ("xlnet", "XLNetTokenizer" if is_tokenizers_available() else None),
-        ("xlstm", "GPTNeoXTokenizer" if is_tokenizers_available() else None),
-        ("xmod", "XLMRobertaTokenizer" if is_tokenizers_available() else None),
+        ("xlstm", "GPTNeoXTokenizerFast" if is_tokenizers_available() else None),
+        ("xmod", "XLMRobertaTokenizerFast" if is_tokenizers_available() else None),
         ("yoso", "AlbertTokenizer" if is_tokenizers_available() else None),
+        ("zamba", "LlamaTokenizerFast" if is_tokenizers_available() else None),
+        ("zamba2", "LlamaTokenizerFast" if is_tokenizers_available() else None),
     ]
 )
@@ -346,18 +388,14 @@ def load_merges(merges_file):
     return merges
-def tokenizer_class_from_name(class_name: str) -> type[Any] | None:
-    # Bloom tokenizer classes were removed but should map to the fast backend for BC
-    if class_name in {"BloomTokenizer", "BloomTokenizerFast"}:
-        return TokenizersBackend
+def tokenizer_class_from_name(class_name: str) -> Union[type[Any], None]:
     if class_name in REGISTERED_FAST_ALIASES:
         return REGISTERED_FAST_ALIASES[class_name]
     if class_name in REGISTERED_TOKENIZER_CLASSES:
         return REGISTERED_TOKENIZER_CLASSES[class_name]
-    if class_name == "TokenizersBackend":
+    if class_name == "PreTrainedTokenizerFast":
         return TokenizersBackend
     # V5: TOKENIZER_MAPPING_NAMES now maps to single strings, not tuples
@@ -366,7 +404,7 @@ def tokenizer_class_from_name(class_name: str) -> type[Any] | None:
             module_name = model_type_to_module_name(module_name)
             if (
                 module_name in ["mistral", "mistral3", "mixtral", "ministral", "ministral3", "pixtral", "voxtral"]
-                and class_name == "MistralCommonBackend"
+                and class_name == "MistralCommonTokenizer"
             ):
                 module = importlib.import_module(".tokenization_mistral_common", "transformers")
             else:
@@ -390,13 +428,409 @@ def tokenizer_class_from_name(class_name: str) -> type[Any] | None:
     return None
+def _find_sentencepiece_model_file(pretrained_model_name_or_path, **kwargs):
+    # Delegate to shared helper to avoid duplication
+    return find_sentencepiece_model_file(pretrained_model_name_or_path, **kwargs)
+def _load_tokenizers_backend(tokenizer_class, pretrained_model_name_or_path, inputs, kwargs):
+    """
+    Load a tokenizer using only the tokenizers backend (no SentencePiece fallback).
+    This function attempts to load with the following priority:
+    1. If tokenizer.json exists, load directly
+    2. If any .model file (SPM) exists, try extracting vocab and merges
+    3. If vocab.json and merges.txt exist, load with those
+    4. If vocab.txt exists (WordPiece models), load with that
+    Args:
+        tokenizer_class: The tokenizer class to instantiate
+        pretrained_model_name_or_path: Path or model id
+        inputs: Additional positional arguments for tokenizer init
+        kwargs: Additional keyword arguments
+    Returns:
+        An instantiated tokenizer object
+    Raises:
+        ValueError: If tokenizer could not be loaded with tokenizers backend
+    """
+    files_loaded = []
+    # Try tokenizer.json first
+    try:
+        tokenizer_json_exists = has_file(
+            pretrained_model_name_or_path,
+            "tokenizer.json",
+            revision=kwargs.get("revision"),
+            token=kwargs.get("token"),
+            cache_dir=kwargs.get("cache_dir"),
+            local_files_only=kwargs.get("local_files_only", False),
+        )
+    except Exception:
+        tokenizer_json_exists = False
+    if tokenizer_json_exists:
+        files_loaded.append("tokenizer.json")
+        kwargs["backend"] = "tokenizers"
+        kwargs["files_loaded"] = files_loaded
+        # Some old models have uploaded a tokenizer.json but haven't updated tokenizer_config.json to point to the correct tokenizer class
+        tokenizer_class = (
+            TokenizersBackend
+            if tokenizer_class.__name__ in ("PythonBackend", "PreTrainedTokenizer")
+            else tokenizer_class
+        )
+        return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+    # Try tekken.json (Mistral format)
+    try:
+        if has_file(
+            pretrained_model_name_or_path,
+            "tekken.json",
+            revision=kwargs.get("revision"),
+            token=kwargs.get("token"),
+            cache_dir=kwargs.get("cache_dir"),
+            local_files_only=kwargs.get("local_files_only", False),
+        ):
+            from ...integrations.mistral import convert_tekken_tokenizer
+            tekken_file = cached_file(
+                pretrained_model_name_or_path,
+                "tekken.json",
+                **{
+                    k: v
+                    for k, v in kwargs.items()
+                    if k
+                    in ["cache_dir", "force_download", "proxies", "token", "revision", "local_files_only", "subfolder"]
+                },
+            )
+            if tekken_file is not None:
+                files_loaded.append("tekken.json")
+                kwargs["backend"] = "tokenizers"
+                kwargs["files_loaded"] = files_loaded
+                return convert_tekken_tokenizer(tekken_file)
+    except (ImportError, Exception):
+        pass
+    # Try extracting from SentencePiece model
+    spm_file = _find_sentencepiece_model_file(pretrained_model_name_or_path, **kwargs)
+    if spm_file is not None:
+        try:
+            resolved_spm = cached_file(
+                pretrained_model_name_or_path,
+                spm_file,
+                cache_dir=kwargs.get("cache_dir"),
+                force_download=kwargs.get("force_download", False),
+                proxies=kwargs.get("proxies"),
+                token=kwargs.get("token"),
+                revision=kwargs.get("revision"),
+                local_files_only=kwargs.get("local_files_only", False),
+                subfolder=kwargs.get("subfolder", ""),
+            )
+        except Exception:
+            resolved_spm = None
+        if resolved_spm is not None:
+            try:
+                from ...tokenization_utils_sentencepiece import SentencePieceExtractor
+                fast_sig = inspect.signature(getattr(tokenizer_class, "__init__", tokenizer_class))
+                if "vocab" in fast_sig.parameters:
+                    try:
+                        vocab_ids, vocab_scores, merges = SentencePieceExtractor(resolved_spm).extract()
+                        files_loaded.append(spm_file)
+                        kwargs["backend"] = "tokenizers"
+                        kwargs["files_loaded"] = files_loaded
+                        # If tokenizer needs both vocab and merges (BPE models)
+                        if "merges" in fast_sig.parameters:
+                            return tokenizer_class.from_pretrained(
+                                pretrained_model_name_or_path, *inputs, vocab=vocab_scores, merges=merges, **kwargs
+                            )
+                        # If tokenizer only needs vocab (Unigram models like NLLB, SeamlessM4T)
+                        else:
+                            return tokenizer_class.from_pretrained(
+                                pretrained_model_name_or_path, *inputs, vocab=vocab_scores, **kwargs
+                            )
+                    except Exception:
+                        pass
+            except ImportError as e:
+                if "sentencepiece" in str(e).lower() or "SentencePiece" in str(e):
+                    raise ImportError(
+                        f"This checkpoint only contains a SentencePiece model file ({spm_file}), but the `sentencepiece` library is not installed. "
+                        f"Please install sentencepiece to load this tokenizer: `pip install sentencepiece`"
+                    ) from e
+                raise
+            except Exception:
+                pass
+    vocab, merges, loaded = load_vocab_and_merges(pretrained_model_name_or_path, **kwargs)
+    if vocab is not None:
+        files_loaded.extend(loaded)
+        if issubclass(tokenizer_class, PreTrainedTokenizer):
+            kwargs["backend"] = "python"
+        else:
+            kwargs["backend"] = "tokenizers"
+        kwargs["files_loaded"] = files_loaded
+        if merges is not None:
+            return tokenizer_class.from_pretrained(
+                pretrained_model_name_or_path, *inputs, vocab=vocab, merges=merges, **kwargs
+            )
+        else:
+            return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, vocab=vocab, **kwargs)
+    # Try vocab.txt (WordPiece models like SplinterTokenizer)
+    try:
+        resolved_vocab_txt = cached_file(
+            pretrained_model_name_or_path,
+            "vocab.txt",
+            cache_dir=kwargs.get("cache_dir"),
+            force_download=kwargs.get("force_download", False),
+            proxies=kwargs.get("proxies"),
+            token=kwargs.get("token"),
+            revision=kwargs.get("revision"),
+            local_files_only=kwargs.get("local_files_only", False),
+            subfolder=kwargs.get("subfolder", ""),
+        )
+    except Exception:
+        resolved_vocab_txt = None
+    if resolved_vocab_txt is not None:
+        try:
+            fast_sig = inspect.signature(getattr(tokenizer_class, "__init__", tokenizer_class))
+            if "vocab" in fast_sig.parameters:
+                # Load vocab.txt: each line is a token, line number is the ID
+                vocab = OrderedDict()
+                with open(resolved_vocab_txt, "r", encoding="utf-8") as reader:
+                    tokens = reader.readlines()
+                for index, token in enumerate(tokens):
+                    token = token.rstrip("\n")
+                    vocab[token] = index
+                files_loaded.append("vocab.txt")
+                kwargs["backend"] = "tokenizers"
+                kwargs["files_loaded"] = files_loaded
+                return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, vocab=vocab, **kwargs)
+        except Exception:
+            pass
+    # If all methods failed, raise an error
+    raise ValueError(
+        f"Could not load tokenizer from {pretrained_model_name_or_path} using tokenizers backend. "
+        "No tokenizer.json, tekken.json, vocab.json+merges.txt, vocab.txt, or compatible SentencePiece model found."
+    )
+def _try_load_tokenizer_with_fallbacks(tokenizer_class, pretrained_model_name_or_path, inputs, kwargs):
+    """
+    Try to load a tokenizer with backend selection.
+    This function routes to the appropriate backend based on the 'backend' parameter:
+    - "tokenizers" (default): Uses HuggingFace tokenizers library backend
+    - "sentencepiece": Uses SentencePiece backend
+    For the tokenizers backend, attempts to load with the following priority:
+    1. If tokenizer.json exists, load directly
+    2. If any .model file (SPM) exists, try extracting vocab and merges
+    3. If vocab.json and merges.txt exist, load with those
+    4. Fallback to SentencePieceBackend if available
+    Args:
+        tokenizer_class: The tokenizer class to instantiate (can be None)
+        pretrained_model_name_or_path: Path or model id
+        inputs: Additional positional arguments for tokenizer init
+        kwargs: Additional keyword arguments (may include 'backend' parameter, defaults to "tokenizers")
+    Returns:
+        An instantiated tokenizer object
+    Raises:
+        ValueError: If no tokenizer could be loaded
+    """
+    # Extract the backend parameter - default to "tokenizers" to prioritize tokenizers backend
+    backend = kwargs.pop("backend", "tokenizers")
+    # Validate backend parameter
+    if backend not in ["sentencepiece", "tokenizers"]:
+        logger.warning(
+            f"Invalid backend '{backend}' specified. Valid options are 'tokenizers' or 'sentencepiece'. "
+            "Defaulting to 'tokenizers' backend."
+        )
+        backend = "tokenizers"
+    # Route to SentencePiece backend if requested
+    if backend == "sentencepiece":
+        if SentencePieceBackend is None:
+            raise ValueError(
+                "SentencePiece backend was requested but sentencepiece is not installed. "
+                "Please install it with: pip install sentencepiece"
+            )
+        logger.info("Loading tokenizer with SentencePiece backend")
+        # Track files loaded for SentencePiece backend
+        spm_file = _find_sentencepiece_model_file(pretrained_model_name_or_path, **kwargs)
+        files_loaded = [spm_file] if spm_file else []
+        kwargs["backend"] = "sentencepiece"
+        kwargs["files_loaded"] = files_loaded
+        # Resolve the SPM file path and pass it as vocab_file
+        if spm_file is not None:
+            resolved_vocab_file = cached_file(
+                pretrained_model_name_or_path,
+                spm_file,
+                cache_dir=kwargs.get("cache_dir"),
+                force_download=kwargs.get("force_download", False),
+                proxies=kwargs.get("proxies"),
+                token=kwargs.get("token"),
+                revision=kwargs.get("revision"),
+                local_files_only=kwargs.get("local_files_only", False),
+                subfolder=kwargs.get("subfolder", ""),
+            )
+            kwargs["vocab_file"] = resolved_vocab_file
+        if isinstance(tokenizer_class, type) and issubclass(tokenizer_class, SentencePieceBackend):
+            logger.info("Loading tokenizer with SentencePiece backend using tokenizer class")
+            return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+        return SentencePieceBackend.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+    # Route to tokenizers backend (default)
+    if backend == "tokenizers":
+        if tokenizer_class is not None:
+            # Check if tokenizer_class inherits from PreTrainedTokenizer (but not from TokenizersBackend/SentencePieceBackend)
+            # These are edge cases with custom logic (e.g., BioGptTokenizer with Moses tokenization)
+            from ...tokenization_python import PreTrainedTokenizer
+            # Build list of backend classes to check against
+            backend_classes = [TokenizersBackend] if TokenizersBackend else []
+            if SentencePieceBackend:
+                backend_classes.append(SentencePieceBackend)
+            # Check if it's a custom PreTrainedTokenizer (not a backend class)
+            is_custom_pre_trained = (
+                isinstance(tokenizer_class, type)
+                and issubclass(tokenizer_class, PreTrainedTokenizer)
+                and not any(issubclass(tokenizer_class, bc) for bc in backend_classes)
+                and tokenizer_class.__name__ not in ("PythonBackend", "PreTrainedTokenizer")
+            )
+            # Check if it's a completely custom tokenizer (not PreTrainedTokenizer, not backend class)
+            # e.g., MistralCommonBackend which has its own from_pretrained logic
+            inherits_from_backend = isinstance(tokenizer_class, type) and any(
+                bc and issubclass(tokenizer_class, bc) for bc in backend_classes
+            )
+            is_completely_custom = (
+                isinstance(tokenizer_class, type)
+                and not issubclass(tokenizer_class, PythonBackend)
+                and not inherits_from_backend
+            )
+            if is_custom_pre_trained:
+                logger.info("Loading tokenizer with custom PreTrainedTokenizer backend (edge case)")
+                # Track the backend type for custom tokenizers
+                kwargs["backend"] = "custom"
+                kwargs["files_loaded"] = []  # Custom tokenizers may load various files
+                return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+            if is_completely_custom:
+                # For completely custom tokenizers (like MistralCommonBackend), try calling from_pretrained directly
+                logger.info("Loading tokenizer with custom tokenizer class (non-PreTrainedTokenizer)")
+                # Filter out AutoTokenizer-specific kwargs that custom tokenizers don't accept
+                custom_kwargs = {k: v for k, v in kwargs.items() if k not in ["backend", "files_loaded"]}
+                custom_kwargs["_from_auto"] = True  # Signal that this is called from AutoTokenizer
+                return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **custom_kwargs)
+            if TokenizersBackend is None:
+                raise ValueError(
+                    "Tokenizers backend is the default but tokenizers library is not installed. "
+                    "Please install it with: pip install tokenizers"
+                )
+            logger.info("Loading tokenizer with tokenizers backend")
+            try:
+                return _load_tokenizers_backend(tokenizer_class, pretrained_model_name_or_path, inputs, kwargs)
+            except ValueError as e:
+                # If tokenizers backend fails, try falling back to SentencePiece backend if available
+                spm_file = _find_sentencepiece_model_file(pretrained_model_name_or_path, **kwargs)
+                if spm_file is not None and SentencePieceBackend is not None:
+                    logger.info(
+                        f"Tokenizers backend failed: {e}. "
+                        f"Falling back to SentencePieceBackend since {spm_file} file was found."
+                    )
+                    files_loaded = [spm_file]
+                    kwargs["backend"] = "sentencepiece"
+                    kwargs["files_loaded"] = files_loaded
+                    # Resolve the SPM file path and pass it as vocab_file
+                    resolved_vocab_file = cached_file(
+                        pretrained_model_name_or_path,
+                        spm_file,
+                        cache_dir=kwargs.get("cache_dir"),
+                        force_download=kwargs.get("force_download", False),
+                        proxies=kwargs.get("proxies"),
+                        token=kwargs.get("token"),
+                        revision=kwargs.get("revision"),
+                        local_files_only=kwargs.get("local_files_only", False),
+                        subfolder=kwargs.get("subfolder", ""),
+                    )
+                    kwargs["vocab_file"] = resolved_vocab_file
+                    if tokenizer_class is not None and issubclass(tokenizer_class, SentencePieceBackend):
+                        logger.info(
+                            "Falling back to SentencePiece backend using tokenizer class that inherits from SentencePieceBackend."
+                        )
+                        return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+                    return SentencePieceBackend.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+                # If no fallback available, try calling tokenizer class directly as last resort
+                if hasattr(tokenizer_class, "from_pretrained"):
+                    logger.info(
+                        f"Tokenizers backend failed: {e}. Trying to load tokenizer directly from tokenizer class."
+                    )
+                    # Filter out AutoTokenizer-specific kwargs that custom tokenizers don't accept
+                    custom_kwargs = {k: v for k, v in kwargs.items() if k not in ["backend", "files_loaded"]}
+                    custom_kwargs["_from_auto"] = True  # Signal that this is called from AutoTokenizer
+                    return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **custom_kwargs)
+                # Re-raise if no fallback options available
+                raise
+        # If no tokenizer class but tokenizers backend requested, fall back to SentencePiece if available
+        spm_file = _find_sentencepiece_model_file(pretrained_model_name_or_path, **kwargs)
+        if spm_file is not None and SentencePieceBackend is not None:
+            logger.info(
+                f"Tokenizers backend was requested but no tokenizer class found. "
+                f"Falling back to SentencePieceBackend since {spm_file} file was found."
+            )
+            files_loaded = [spm_file]
+            kwargs["backend"] = "sentencepiece"
+            kwargs["files_loaded"] = files_loaded
+            # Resolve the SPM file path and pass it as vocab_file
+            resolved_vocab_file = cached_file(
+                pretrained_model_name_or_path,
+                spm_file,
+                cache_dir=kwargs.get("cache_dir"),
+                force_download=kwargs.get("force_download", False),
+                proxies=kwargs.get("proxies"),
+                token=kwargs.get("token"),
+                revision=kwargs.get("revision"),
+                local_files_only=kwargs.get("local_files_only", False),
+                subfolder=kwargs.get("subfolder", ""),
+            )
+            kwargs["vocab_file"] = resolved_vocab_file
+            if (
+                tokenizer_class is not None
+                and SentencePieceBackend is not None
+                and issubclass(tokenizer_class, SentencePieceBackend)
+            ):
+                logger.info(
+                    "Falling back to SentencePiece backend using tokenizer class that inherits from SentencePieceBackend."
+                )
+                return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+            return SentencePieceBackend.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+        raise ValueError(
+            f"Could not load tokenizer from {pretrained_model_name_or_path}. "
+            "No tokenizer class could be determined and no SentencePiece model found."
+        )
 def get_tokenizer_config(
-    pretrained_model_name_or_path: str | os.PathLike[str],
-    cache_dir: str | os.PathLike[str] | None = None,
+    pretrained_model_name_or_path: Union[str, os.PathLike[str]],
+    cache_dir: Optional[Union[str, os.PathLike[str]]] = None,
     force_download: bool = False,
-    proxies: dict[str, str] | None = None,
-    token: bool | str | None = None,
-    revision: str | None = None,
+    proxies: Optional[dict[str, str]] = None,
+    token: Optional[Union[bool, str]] = None,
+    revision: Optional[str] = None,
     local_files_only: bool = False,
     subfolder: str = "",
     **kwargs,
@@ -504,7 +938,7 @@ class AutoTokenizer:
     @replace_list_option_in_docstrings(TOKENIZER_MAPPING_NAMES)
     def from_pretrained(
         cls, pretrained_model_name_or_path, *inputs, **kwargs
-    ) -> TokenizersBackend | SentencePieceBackend:
+    ) -> Union[TokenizersBackend, SentencePieceBackend]:
         r"""
         Instantiate one of the tokenizer classes of the library from a pretrained model vocabulary.
@@ -582,6 +1016,18 @@ class AutoTokenizer:
         >>> # Explicitly use the sentencepiece backend
         >>> tokenizer = AutoTokenizer.from_pretrained("hf-internal-testing/llama-tokenizer", backend="sentencepiece")
         ```"""
+        use_auth_token = kwargs.pop("use_auth_token", None)
+        if use_auth_token is not None:
+            logger.warning(
+                "The `use_auth_token` argument is deprecated and will be removed in v5 of Transformers. Please use `token` instead.",
+                FutureWarning,
+            )
+            if kwargs.get("token") is not None:
+                raise ValueError(
+                    "`token` and `use_auth_token` are both specified. Please set only the argument `token`."
+                )
+            kwargs["token"] = use_auth_token
         config = kwargs.pop("config", None)
         kwargs["_from_auto"] = True
@@ -608,25 +1054,11 @@ class AutoTokenizer:
             return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
-        if gguf_file:
-            gguf_path = cached_file(pretrained_model_name_or_path, gguf_file, **kwargs)
-            config_dict = load_gguf_checkpoint(gguf_path, return_tensors=False)["config"]
-            config = AutoConfig.for_model(**config_dict)
-        elif config is None:
-            try:
-                config = AutoConfig.from_pretrained(
-                    pretrained_model_name_or_path, trust_remote_code=trust_remote_code, **kwargs
-                )
-            except Exception:
-                config = PreTrainedConfig.from_pretrained(pretrained_model_name_or_path, **kwargs)
-        config_model_type = config.model_type
         # Next, let's try to use the tokenizer_config file to get the tokenizer class.
         tokenizer_config = get_tokenizer_config(pretrained_model_name_or_path, **kwargs)
-        tokenizer_config_class = tokenizer_config.get("tokenizer_class", None)
-        # Check for auto_map early to handle dynamic tokenizers properly
+        if "_commit_hash" in tokenizer_config:
+            kwargs["_commit_hash"] = tokenizer_config["_commit_hash"]
+        config_tokenizer_class = tokenizer_config.get("tokenizer_class")
         tokenizer_auto_map = None
         if "auto_map" in tokenizer_config:
             if isinstance(tokenizer_config["auto_map"], (tuple, list)):
@@ -635,36 +1067,34 @@ class AutoTokenizer:
             else:
                 tokenizer_auto_map = tokenizer_config["auto_map"].get("AutoTokenizer", None)
-        # if there is a config, we can check that the tokenizer class != than model class and can thus assume we need to use TokenizersBackend
-        # Skip this early exit if auto_map is present (custom tokenizer with trust_remote_code)
+        # If that did not work, let's try to use the config.
+        if config_tokenizer_class is None:
+            if not isinstance(config, PreTrainedConfig):
+                if gguf_file:
+                    gguf_path = cached_file(pretrained_model_name_or_path, gguf_file, **kwargs)
+                    config_dict = load_gguf_checkpoint(gguf_path, return_tensors=False)["config"]
+                    config = AutoConfig.for_model(**config_dict)
+                else:
+                    config = AutoConfig.from_pretrained(
+                        pretrained_model_name_or_path, trust_remote_code=trust_remote_code, **kwargs
+                    )
+            config_tokenizer_class = config.tokenizer_class
+            if hasattr(config, "auto_map") and "AutoTokenizer" in config.auto_map:
+                tokenizer_auto_map = config.auto_map["AutoTokenizer"]
         if (
-            tokenizer_auto_map is None
-            and tokenizer_config_class is not None
-            and config_model_type is not None
-            and config_model_type != ""
-            and TOKENIZER_MAPPING_NAMES.get(config_model_type, "").replace("Fast", "")
-            != tokenizer_config_class.replace("Fast", "")
+            config_tokenizer_class is not None
+            and config_tokenizer_class != "PreTrainedTokenizerFast"
+            and "Fast" in config_tokenizer_class
         ):
-            # new model, but we ignore it unless the model type is the same
-            try:
-                return TokenizersBackend.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
-            except Exception:
-                return tokenizer_class_from_name(tokenizer_config_class).from_pretrained(
-                    pretrained_model_name_or_path, *inputs, **kwargs
-                )
-        if "_commit_hash" in tokenizer_config:
-            kwargs["_commit_hash"] = tokenizer_config["_commit_hash"]
-        if tokenizer_config_class:
-            tokenizer_config_class = tokenizer_config_class.replace("Fast", "")
+            config_tokenizer_class = config_tokenizer_class[:-4]
         has_remote_code = tokenizer_auto_map is not None
         has_local_code = type(config) in TOKENIZER_MAPPING or (
-            tokenizer_config_class is not None
+            config_tokenizer_class is not None
             and (
-                tokenizer_class_from_name(tokenizer_config_class) is not None
-                or tokenizer_class_from_name(tokenizer_config_class + "Fast") is not None
+                tokenizer_class_from_name(config_tokenizer_class) is not None
+                or tokenizer_class_from_name(config_tokenizer_class + "Fast") is not None
             )
         )
         if has_remote_code:
@@ -688,24 +1118,17 @@ class AutoTokenizer:
             return tokenizer_class.from_pretrained(
                 pretrained_model_name_or_path, *inputs, trust_remote_code=trust_remote_code, **kwargs
             )
-        elif tokenizer_config_class is not None:
-            tokenizer_class_candidate = tokenizer_config_class
-            tokenizer_class = tokenizer_class_from_name(tokenizer_class_candidate)
-            if tokenizer_class is None and not tokenizer_class_candidate.endswith("Fast"):
-                tokenizer_class = tokenizer_class_from_name(tokenizer_class_candidate + "Fast")
-            if tokenizer_class is not None and tokenizer_class.__name__ == "PythonBackend":
-                tokenizer_class = TokenizersBackend
-            # Fallback to TokenizersBackend if the class wasn't found
-            if tokenizer_class is None:
-                tokenizer_class = TokenizersBackend
+        elif config_tokenizer_class is not None:
+            fast_tokenizer_class = None
+            if fast_tokenizer_class is None:
+                tokenizer_class_candidate = config_tokenizer_class
+                tokenizer_class = tokenizer_class_from_name(tokenizer_class_candidate)
+                if tokenizer_class is None and not tokenizer_class_candidate.endswith("Fast"):
+                    tokenizer_class = tokenizer_class_from_name(tokenizer_class_candidate + "Fast")
+            else:
+                tokenizer_class = fast_tokenizer_class
-            return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
-        elif getattr(config, "tokenizer_class", None):
-            _class = config.tokenizer_class
-            if "PreTrainedTokenizerFast" not in _class:
-                _class = _class.replace("Fast", "")
-            tokenizer_class = tokenizer_class_from_name(_class)
-            return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+            return _try_load_tokenizer_with_fallbacks(tokenizer_class, pretrained_model_name_or_path, inputs, kwargs)
         # Otherwise we have to be creative.
         # if model is an encoder decoder, the encoder tokenizer class is used by default
@@ -719,25 +1142,19 @@ class AutoTokenizer:
                 )
             config = config.encoder
-        model_type = config_class_to_model_type(type(config).__name__) or getattr(config, "model_type", None)
+        model_type = config_class_to_model_type(type(config).__name__)
         if model_type is not None:
-            tokenizer_class = TOKENIZER_MAPPING.get(type(config), TokenizersBackend)
-            if tokenizer_class is not None:
-                return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+            tokenizer_class = TOKENIZER_MAPPING[type(config)]
-        # Fallback: try tokenizer_class from tokenizer_config.json
-        tokenizer_config_class = tokenizer_config.get("tokenizer_class", None)
-        if tokenizer_config_class is not None:
-            if tokenizer_config_class != "TokenizersBackend" and "Fast" in tokenizer_config_class:
-                tokenizer_config_class = tokenizer_config_class[:-4]
-            tokenizer_class = tokenizer_class_from_name(tokenizer_config_class)
-            if tokenizer_class is None and not tokenizer_config_class.endswith("Fast"):
-                tokenizer_class = tokenizer_class_from_name(tokenizer_config_class + "Fast")
-            if tokenizer_class is not None and tokenizer_class.__name__ == "PythonBackend":
-                tokenizer_class = TokenizersBackend
-            if tokenizer_class is None:
-                tokenizer_class = TokenizersBackend
-            return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
+            if tokenizer_class is not None:
+                return _try_load_tokenizer_with_fallbacks(
+                    tokenizer_class, pretrained_model_name_or_path, inputs, kwargs
+                )
+            else:
+                raise ValueError(
+                    "This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed "
+                    "in order to use this tokenizer."
+                )
         raise ValueError(
             f"Unrecognized configuration class {config.__class__} to build an AutoTokenizer.\n"

transformers 5.0.0__py3-none-any.whl → 5.0.0rc0__py3-none-any.whl

transformers 5.0.0py3-none-any.whl → 5.0.0rc0py3-none-any.whl