PyPI - transformers - Versions diffs - 5.0.0rc0__py3-none-any.whl → 5.0.0rc2__py3-none-any.whl - Mend

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (835) hide show

transformers/__init__.py +49 -3
transformers/activations.py +1 -1
transformers/audio_utils.py +0 -1
transformers/cache_utils.py +17 -15
transformers/cli/serve.py +47 -17
transformers/configuration_utils.py +114 -70
transformers/conversion_mapping.py +83 -7
transformers/convert_slow_tokenizer.py +225 -10
transformers/core_model_loading.py +374 -147
transformers/data/data_collator.py +12 -4
transformers/dependency_versions_table.py +2 -3
transformers/dynamic_module_utils.py +1 -2
transformers/feature_extraction_utils.py +55 -24
transformers/file_utils.py +0 -1
transformers/generation/__init__.py +11 -1
transformers/generation/candidate_generator.py +79 -31
transformers/generation/configuration_utils.py +165 -124
transformers/generation/continuous_batching/__init__.py +4 -0
transformers/generation/continuous_batching/cache.py +47 -18
transformers/generation/continuous_batching/cache_manager.py +131 -34
transformers/generation/continuous_batching/continuous_api.py +228 -136
transformers/generation/continuous_batching/requests.py +28 -1
transformers/generation/continuous_batching/scheduler.py +11 -4
transformers/generation/stopping_criteria.py +1 -1
transformers/generation/utils.py +108 -110
transformers/generation/watermarking.py +8 -5
transformers/image_processing_base.py +3 -14
transformers/image_processing_utils_fast.py +15 -4
transformers/initialization.py +37 -0
transformers/integrations/__init__.py +16 -2
transformers/integrations/accelerate.py +58 -113
transformers/integrations/aqlm.py +36 -66
transformers/integrations/awq.py +46 -515
transformers/integrations/bitnet.py +47 -105
transformers/integrations/bitsandbytes.py +91 -202
transformers/integrations/deepspeed.py +18 -2
transformers/integrations/eetq.py +84 -81
transformers/integrations/fbgemm_fp8.py +191 -145
transformers/integrations/finegrained_fp8.py +241 -208
transformers/integrations/flash_attention.py +2 -2
transformers/integrations/fp_quant.py +92 -0
transformers/integrations/ggml.py +11 -1
transformers/integrations/higgs.py +37 -62
transformers/integrations/hub_kernels.py +65 -8
transformers/integrations/integration_utils.py +45 -0
transformers/integrations/mistral.py +12 -0
transformers/integrations/moe.py +240 -0
transformers/integrations/mxfp4.py +28 -74
transformers/integrations/peft.py +12 -29
transformers/integrations/quanto.py +77 -56
transformers/integrations/quark.py +55 -0
transformers/integrations/spqr.py +42 -90
transformers/integrations/tensor_parallel.py +167 -221
transformers/integrations/torchao.py +32 -38
transformers/integrations/vptq.py +40 -59
transformers/modelcard.py +1 -2
transformers/modeling_gguf_pytorch_utils.py +74 -19
transformers/modeling_rope_utils.py +107 -86
transformers/modeling_utils.py +611 -527
transformers/models/__init__.py +22 -0
transformers/models/afmoe/modeling_afmoe.py +10 -19
transformers/models/afmoe/modular_afmoe.py +5 -13
transformers/models/aimv2/modeling_aimv2.py +4 -0
transformers/models/aimv2/modular_aimv2.py +4 -0
transformers/models/albert/modeling_albert.py +3 -0
transformers/models/albert/tokenization_albert.py +6 -12
transformers/models/align/modeling_align.py +14 -6
transformers/models/altclip/modeling_altclip.py +11 -3
transformers/models/apertus/modeling_apertus.py +8 -6
transformers/models/apertus/modular_apertus.py +4 -1
transformers/models/arcee/modeling_arcee.py +5 -5
transformers/models/aria/modeling_aria.py +12 -8
transformers/models/aria/modular_aria.py +7 -3
transformers/models/audioflamingo3/modeling_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/modular_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/processing_audioflamingo3.py +27 -22
transformers/models/auto/auto_factory.py +1 -1
transformers/models/auto/configuration_auto.py +38 -0
transformers/models/auto/feature_extraction_auto.py +9 -3
transformers/models/auto/image_processing_auto.py +5 -2
transformers/models/auto/modeling_auto.py +37 -0
transformers/models/auto/processing_auto.py +22 -10
transformers/models/auto/tokenization_auto.py +147 -566
transformers/models/auto/video_processing_auto.py +5 -2
transformers/models/autoformer/modeling_autoformer.py +4 -0
transformers/models/aya_vision/modeling_aya_vision.py +7 -3
transformers/models/bamba/modeling_bamba.py +21 -21
transformers/models/bamba/modular_bamba.py +17 -16
transformers/models/bark/modeling_bark.py +11 -0
transformers/models/bart/configuration_bart.py +0 -1
transformers/models/bart/modeling_bart.py +14 -0
transformers/models/barthez/tokenization_barthez.py +5 -10
transformers/models/beit/image_processing_beit_fast.py +0 -1
transformers/models/beit/modeling_beit.py +6 -1
transformers/models/bert/modeling_bert.py +3 -0
transformers/models/bert/tokenization_bert.py +8 -21
transformers/models/bert_generation/modeling_bert_generation.py +2 -0
transformers/models/big_bird/modeling_big_bird.py +9 -0
transformers/models/big_bird/tokenization_big_bird.py +18 -42
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +15 -2
transformers/models/biogpt/modeling_biogpt.py +2 -0
transformers/models/biogpt/modular_biogpt.py +2 -0
transformers/models/bit/modeling_bit.py +16 -3
transformers/models/bitnet/modeling_bitnet.py +5 -5
transformers/models/blenderbot/modeling_blenderbot.py +12 -0
transformers/models/blenderbot/tokenization_blenderbot.py +18 -23
transformers/models/blenderbot_small/modeling_blenderbot_small.py +12 -0
transformers/models/blip/modeling_blip.py +2 -0
transformers/models/blip/modeling_blip_text.py +10 -0
transformers/models/blip_2/modeling_blip_2.py +4 -1
transformers/models/bloom/modeling_bloom.py +17 -44
transformers/models/blt/modeling_blt.py +164 -4
transformers/models/blt/modular_blt.py +170 -5
transformers/models/bridgetower/image_processing_bridgetower_fast.py +0 -2
transformers/models/bridgetower/modeling_bridgetower.py +11 -1
transformers/models/bros/modeling_bros.py +12 -0
transformers/models/camembert/modeling_camembert.py +109 -106
transformers/models/camembert/tokenization_camembert.py +8 -12
transformers/models/canine/modeling_canine.py +11 -0
transformers/models/canine/tokenization_canine.py +2 -0
transformers/models/chameleon/modeling_chameleon.py +11 -5
transformers/models/chinese_clip/modeling_chinese_clip.py +9 -3
transformers/models/clap/feature_extraction_clap.py +2 -2
transformers/models/clap/modeling_clap.py +30 -15
transformers/models/clip/modeling_clip.py +2 -0
transformers/models/clip/tokenization_clip.py +22 -44
transformers/models/clipseg/modeling_clipseg.py +9 -0
transformers/models/clvp/modeling_clvp.py +19 -3
transformers/models/clvp/tokenization_clvp.py +1 -63
transformers/models/code_llama/tokenization_code_llama.py +20 -43
transformers/models/codegen/modeling_codegen.py +13 -4
transformers/models/codegen/tokenization_codegen.py +14 -43
transformers/models/cohere/modeling_cohere.py +5 -4
transformers/models/cohere/modular_cohere.py +2 -1
transformers/models/cohere/tokenization_cohere.py +12 -42
transformers/models/cohere2/modeling_cohere2.py +8 -7
transformers/models/cohere2/modular_cohere2.py +5 -5
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +4 -4
transformers/models/cohere2_vision/modeling_cohere2_vision.py +7 -3
transformers/models/cohere2_vision/modular_cohere2_vision.py +4 -3
transformers/models/colqwen2/modeling_colqwen2.py +1 -0
transformers/models/colqwen2/modular_colqwen2.py +1 -0
transformers/models/conditional_detr/configuration_conditional_detr.py +1 -1
transformers/models/conditional_detr/modeling_conditional_detr.py +9 -1
transformers/models/convbert/modeling_convbert.py +9 -0
transformers/models/convnext/image_processing_convnext.py +2 -2
transformers/models/convnext/image_processing_convnext_fast.py +9 -13
transformers/models/convnext/modeling_convnext.py +2 -4
transformers/models/convnextv2/modeling_convnextv2.py +2 -4
transformers/models/csm/generation_csm.py +19 -22
transformers/models/csm/modeling_csm.py +7 -4
transformers/models/csm/modular_csm.py +2 -0
transformers/models/ctrl/modeling_ctrl.py +15 -2
transformers/models/cvt/modeling_cvt.py +7 -1
transformers/models/cwm/modeling_cwm.py +5 -5
transformers/models/d_fine/configuration_d_fine.py +3 -4
transformers/models/d_fine/modeling_d_fine.py +48 -39
transformers/models/d_fine/modular_d_fine.py +16 -4
transformers/models/dab_detr/configuration_dab_detr.py +2 -2
transformers/models/dab_detr/modeling_dab_detr.py +5 -1
transformers/models/dac/modeling_dac.py +6 -6
transformers/models/data2vec/modeling_data2vec_audio.py +5 -0
transformers/models/data2vec/modeling_data2vec_text.py +7 -0
transformers/models/data2vec/modeling_data2vec_vision.py +4 -1
transformers/models/data2vec/modular_data2vec_text.py +7 -0
transformers/models/dbrx/configuration_dbrx.py +9 -1
transformers/models/dbrx/modeling_dbrx.py +3 -3
transformers/models/deberta/modeling_deberta.py +7 -0
transformers/models/deberta/tokenization_deberta.py +11 -20
transformers/models/deberta_v2/modeling_deberta_v2.py +8 -0
transformers/models/deberta_v2/tokenization_deberta_v2.py +13 -28
transformers/models/decision_transformer/modeling_decision_transformer.py +12 -6
transformers/models/deepseek_v2/modeling_deepseek_v2.py +9 -7
transformers/models/deepseek_v2/modular_deepseek_v2.py +6 -4
transformers/models/deepseek_v3/modeling_deepseek_v3.py +12 -7
transformers/models/deepseek_v3/modular_deepseek_v3.py +7 -2
transformers/models/deepseek_vl/image_processing_deepseek_vl_fast.py +0 -1
transformers/models/deepseek_vl/modeling_deepseek_vl.py +9 -5
transformers/models/deepseek_vl/modular_deepseek_vl.py +3 -0
transformers/models/deepseek_vl_hybrid/image_processing_deepseek_vl_hybrid_fast.py +0 -4
transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py +9 -5
transformers/models/deepseek_vl_hybrid/modular_deepseek_vl_hybrid.py +9 -9
transformers/models/deformable_detr/configuration_deformable_detr.py +2 -2
transformers/models/deformable_detr/modeling_deformable_detr.py +5 -1
transformers/models/depth_anything/configuration_depth_anything.py +2 -3
transformers/models/depth_anything/modeling_depth_anything.py +1 -0
transformers/models/depth_pro/image_processing_depth_pro_fast.py +0 -1
transformers/models/depth_pro/modeling_depth_pro.py +2 -0
transformers/models/detr/configuration_detr.py +1 -1
transformers/models/detr/modeling_detr.py +13 -1
transformers/models/dia/generation_dia.py +3 -10
transformers/models/dia/modeling_dia.py +16 -4
transformers/models/dia/modular_dia.py +11 -1
transformers/models/dia/processing_dia.py +1 -1
transformers/models/diffllama/modeling_diffllama.py +5 -5
transformers/models/diffllama/modular_diffllama.py +2 -2
transformers/models/dinat/modeling_dinat.py +3 -0
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +1 -1
transformers/models/dinov3_vit/image_processing_dinov3_vit_fast.py +0 -1
transformers/models/dinov3_vit/modeling_dinov3_vit.py +5 -2
transformers/models/dinov3_vit/modular_dinov3_vit.py +5 -2
transformers/models/distilbert/modeling_distilbert.py +11 -9
transformers/models/distilbert/tokenization_distilbert.py +13 -0
transformers/models/doge/modeling_doge.py +3 -4
transformers/models/doge/modular_doge.py +0 -1
transformers/models/donut/image_processing_donut_fast.py +0 -1
transformers/models/donut/modeling_donut_swin.py +18 -12
transformers/models/dots1/modeling_dots1.py +23 -11
transformers/models/dots1/modular_dots1.py +5 -3
transformers/models/dpr/modeling_dpr.py +5 -0
transformers/models/dpr/tokenization_dpr.py +12 -0
transformers/models/dpt/configuration_dpt.py +1 -1
transformers/models/dpt/image_processing_dpt_fast.py +1 -2
transformers/models/dpt/modular_dpt.py +1 -2
transformers/models/edgetam/configuration_edgetam.py +1 -1
transformers/models/edgetam/modeling_edgetam.py +6 -3
transformers/models/edgetam/modular_edgetam.py +15 -14
transformers/models/edgetam_video/modeling_edgetam_video.py +56 -43
transformers/models/edgetam_video/modular_edgetam_video.py +14 -19
transformers/models/efficientloftr/image_processing_efficientloftr_fast.py +1 -2
transformers/models/efficientloftr/modeling_efficientloftr.py +16 -3
transformers/models/efficientnet/image_processing_efficientnet.py +5 -6
transformers/models/efficientnet/image_processing_efficientnet_fast.py +1 -2
transformers/models/efficientnet/modeling_efficientnet.py +7 -1
transformers/models/electra/modeling_electra.py +7 -0
transformers/models/emu3/modeling_emu3.py +12 -6
transformers/models/emu3/modular_emu3.py +7 -1
transformers/models/encodec/modeling_encodec.py +14 -0
transformers/models/eomt/image_processing_eomt.py +13 -1
transformers/models/eomt/image_processing_eomt_fast.py +60 -16
transformers/models/eomt/modeling_eomt.py +7 -0
transformers/models/eomt/modular_eomt.py +7 -0
transformers/models/ernie/modeling_ernie.py +6 -0
transformers/models/ernie/modular_ernie.py +6 -0
transformers/models/ernie4_5/modeling_ernie4_5.py +5 -5
transformers/models/ernie4_5/modular_ernie4_5.py +2 -1
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +20 -17
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +11 -37
transformers/models/ernie4_5_vl_moe/__init__.py +31 -0
transformers/models/ernie4_5_vl_moe/configuration_ernie4_5_vl_moe.py +330 -0
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe.py +456 -0
transformers/models/ernie4_5_vl_moe/image_processing_ernie4_5_vl_moe_fast.py +232 -0
transformers/models/ernie4_5_vl_moe/modeling_ernie4_5_vl_moe.py +1898 -0
transformers/models/ernie4_5_vl_moe/modular_ernie4_5_vl_moe.py +1904 -0
transformers/models/ernie4_5_vl_moe/processing_ernie4_5_vl_moe.py +251 -0
transformers/models/ernie4_5_vl_moe/video_processing_ernie4_5_vl_moe.py +594 -0
transformers/models/esm/modeling_esm.py +6 -0
transformers/models/esm/modeling_esmfold.py +11 -5
transformers/models/evolla/modeling_evolla.py +13 -5
transformers/models/evolla/modular_evolla.py +8 -0
transformers/models/exaone4/modeling_exaone4.py +3 -3
transformers/models/exaone4/modular_exaone4.py +0 -1
transformers/models/falcon/modeling_falcon.py +9 -4
transformers/models/falcon_h1/modeling_falcon_h1.py +32 -26
transformers/models/falcon_h1/modular_falcon_h1.py +7 -2
transformers/models/falcon_mamba/modeling_falcon_mamba.py +31 -37
transformers/models/falcon_mamba/modular_falcon_mamba.py +19 -33
transformers/models/fast_vlm/__init__.py +27 -0
transformers/models/fast_vlm/configuration_fast_vlm.py +137 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +459 -0
transformers/models/fast_vlm/modular_fast_vlm.py +273 -0
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +31 -13
transformers/models/fastspeech2_conformer/tokenization_fastspeech2_conformer.py +1 -0
transformers/models/flaubert/modeling_flaubert.py +21 -15
transformers/models/flava/image_processing_flava_fast.py +0 -2
transformers/models/flava/modeling_flava.py +10 -2
transformers/models/flex_olmo/modeling_flex_olmo.py +10 -8
transformers/models/florence2/modeling_florence2.py +22 -4
transformers/models/florence2/modular_florence2.py +15 -1
transformers/models/fnet/modeling_fnet.py +14 -0
transformers/models/focalnet/modeling_focalnet.py +4 -0
transformers/models/fsmt/modeling_fsmt.py +2 -0
transformers/models/funnel/modeling_funnel.py +8 -0
transformers/models/funnel/tokenization_funnel.py +17 -24
transformers/models/fuyu/image_processing_fuyu.py +1 -1
transformers/models/fuyu/modeling_fuyu.py +3 -1
transformers/models/fuyu/processing_fuyu.py +19 -3
transformers/models/gemma/modeling_gemma.py +14 -16
transformers/models/gemma/modular_gemma.py +9 -11
transformers/models/gemma/tokenization_gemma.py +10 -27
transformers/models/gemma2/modeling_gemma2.py +5 -5
transformers/models/gemma2/modular_gemma2.py +3 -2
transformers/models/gemma3/image_processing_gemma3_fast.py +0 -1
transformers/models/gemma3/modeling_gemma3.py +42 -91
transformers/models/gemma3/modular_gemma3.py +38 -87
transformers/models/gemma3n/configuration_gemma3n.py +3 -0
transformers/models/gemma3n/modeling_gemma3n.py +65 -218
transformers/models/gemma3n/modular_gemma3n.py +68 -68
transformers/models/git/modeling_git.py +183 -126
transformers/models/glm/modeling_glm.py +5 -5
transformers/models/glm4/modeling_glm4.py +5 -5
transformers/models/glm46v/image_processing_glm46v.py +0 -4
transformers/models/glm46v/modeling_glm46v.py +3 -1
transformers/models/glm46v/modular_glm46v.py +3 -0
transformers/models/glm4_moe/modeling_glm4_moe.py +13 -7
transformers/models/glm4_moe/modular_glm4_moe.py +1 -1
transformers/models/glm4v/configuration_glm4v.py +3 -1
transformers/models/glm4v/image_processing_glm4v.py +0 -4
transformers/models/glm4v/modeling_glm4v.py +18 -8
transformers/models/glm4v/modular_glm4v.py +17 -7
transformers/models/glm4v_moe/configuration_glm4v_moe.py +3 -1
transformers/models/glm4v_moe/modeling_glm4v_moe.py +44 -27
transformers/models/glm4v_moe/modular_glm4v_moe.py +13 -1
transformers/models/glmasr/__init__.py +30 -0
transformers/models/glmasr/configuration_glmasr.py +197 -0
transformers/models/glmasr/modeling_glmasr.py +512 -0
transformers/models/glmasr/modular_glmasr.py +433 -0
transformers/models/glmasr/processing_glmasr.py +332 -0
transformers/models/glpn/image_processing_glpn_fast.py +0 -1
transformers/models/glpn/modeling_glpn.py +2 -0
transformers/models/got_ocr2/image_processing_got_ocr2_fast.py +0 -1
transformers/models/got_ocr2/modeling_got_ocr2.py +8 -3
transformers/models/gpt2/modeling_gpt2.py +13 -6
transformers/models/gpt2/tokenization_gpt2.py +16 -44
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +4 -8
transformers/models/gpt_neo/modeling_gpt_neo.py +19 -3
transformers/models/gpt_neox/modeling_gpt_neox.py +6 -3
transformers/models/gpt_neox/modular_gpt_neox.py +3 -0
transformers/models/gpt_neox/tokenization_gpt_neox.py +10 -49
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +4 -2
transformers/models/gpt_oss/configuration_gpt_oss.py +17 -0
transformers/models/gpt_oss/modeling_gpt_oss.py +10 -14
transformers/models/gpt_oss/modular_gpt_oss.py +8 -12
transformers/models/gptj/modeling_gptj.py +18 -6
transformers/models/granite/modeling_granite.py +5 -5
transformers/models/granite_speech/modeling_granite_speech.py +15 -1
transformers/models/granitemoe/modeling_granitemoe.py +6 -9
transformers/models/granitemoe/modular_granitemoe.py +1 -4
transformers/models/granitemoehybrid/configuration_granitemoehybrid.py +4 -0
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +36 -28
transformers/models/granitemoehybrid/modular_granitemoehybrid.py +12 -2
transformers/models/granitemoeshared/modeling_granitemoeshared.py +6 -9
transformers/models/grounding_dino/configuration_grounding_dino.py +2 -3
transformers/models/grounding_dino/modeling_grounding_dino.py +8 -4
transformers/models/groupvit/modeling_groupvit.py +9 -1
transformers/models/helium/modeling_helium.py +5 -4
transformers/models/herbert/tokenization_herbert.py +9 -25
transformers/models/hgnet_v2/modeling_hgnet_v2.py +16 -1
transformers/models/hgnet_v2/modular_hgnet_v2.py +16 -1
transformers/models/hiera/modeling_hiera.py +4 -0
transformers/models/hubert/modeling_hubert.py +7 -0
transformers/models/hubert/modular_hubert.py +5 -0
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +5 -5
transformers/models/hunyuan_v1_dense/modular_hunyuan_v1_dense.py +1 -1
transformers/models/hunyuan_v1_moe/__init__.py +1 -1
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +15 -7
transformers/models/hunyuan_v1_moe/modular_hunyuan_v1_moe.py +4 -2
transformers/models/ibert/modeling_ibert.py +22 -0
transformers/models/idefics/modeling_idefics.py +15 -21
transformers/models/idefics2/modeling_idefics2.py +7 -1
transformers/models/idefics3/modeling_idefics3.py +5 -1
transformers/models/imagegpt/image_processing_imagegpt_fast.py +1 -5
transformers/models/imagegpt/modeling_imagegpt.py +11 -3
transformers/models/informer/modeling_informer.py +4 -0
transformers/models/informer/modular_informer.py +1 -0
transformers/models/instructblip/modeling_instructblip.py +2 -0
transformers/models/instructblipvideo/modeling_instructblipvideo.py +52 -50
transformers/models/instructblipvideo/video_processing_instructblipvideo.py +0 -1
transformers/models/internvl/modeling_internvl.py +13 -12
transformers/models/internvl/modular_internvl.py +7 -13
transformers/models/internvl/video_processing_internvl.py +0 -1
transformers/models/jais2/__init__.py +27 -0
transformers/models/jais2/configuration_jais2.py +152 -0
transformers/models/jais2/modeling_jais2.py +486 -0
transformers/models/jais2/modular_jais2.py +196 -0
transformers/models/jamba/modeling_jamba.py +25 -20
transformers/models/jamba/modular_jamba.py +17 -17
transformers/models/janus/image_processing_janus_fast.py +0 -1
transformers/models/janus/modeling_janus.py +16 -7
transformers/models/janus/modular_janus.py +17 -7
transformers/models/jetmoe/modeling_jetmoe.py +4 -4
transformers/models/jetmoe/modular_jetmoe.py +1 -0
transformers/models/kosmos2/modeling_kosmos2.py +15 -2
transformers/models/kosmos2_5/image_processing_kosmos2_5_fast.py +2 -2
transformers/models/kosmos2_5/modeling_kosmos2_5.py +10 -1
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +12 -4
transformers/models/kyutai_speech_to_text/modular_kyutai_speech_to_text.py +9 -1
transformers/models/lasr/__init__.py +29 -0
transformers/models/lasr/configuration_lasr.py +248 -0
transformers/models/lasr/feature_extraction_lasr.py +277 -0
transformers/models/lasr/modeling_lasr.py +730 -0
transformers/models/lasr/modular_lasr.py +576 -0
transformers/models/lasr/processing_lasr.py +94 -0
transformers/models/lasr/tokenization_lasr.py +186 -0
transformers/models/layoutlm/modeling_layoutlm.py +10 -3
transformers/models/layoutlmv2/image_processing_layoutlmv2_fast.py +0 -1
transformers/models/layoutlmv2/modeling_layoutlmv2.py +16 -0
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +11 -53
transformers/models/layoutlmv3/image_processing_layoutlmv3_fast.py +0 -1
transformers/models/layoutlmv3/modeling_layoutlmv3.py +33 -5
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +12 -61
transformers/models/layoutxlm/tokenization_layoutxlm.py +13 -38
transformers/models/led/modeling_led.py +12 -0
transformers/models/levit/modeling_levit.py +21 -0
transformers/models/lfm2/modeling_lfm2.py +5 -6
transformers/models/lfm2/modular_lfm2.py +0 -1
transformers/models/lfm2_moe/modeling_lfm2_moe.py +17 -8
transformers/models/lfm2_moe/modular_lfm2_moe.py +5 -28
transformers/models/lfm2_vl/configuration_lfm2_vl.py +4 -0
transformers/models/lfm2_vl/modeling_lfm2_vl.py +11 -5
transformers/models/lfm2_vl/modular_lfm2_vl.py +4 -2
transformers/models/lfm2_vl/processing_lfm2_vl.py +82 -42
transformers/models/lightglue/image_processing_lightglue_fast.py +1 -2
transformers/models/lightglue/modeling_lightglue.py +3 -1
transformers/models/lightglue/modular_lightglue.py +1 -0
transformers/models/lilt/modeling_lilt.py +23 -15
transformers/models/llama/modeling_llama.py +5 -5
transformers/models/llama/tokenization_llama.py +15 -43
transformers/models/llama4/image_processing_llama4_fast.py +1 -2
transformers/models/llama4/modeling_llama4.py +11 -6
transformers/models/llava/image_processing_llava_fast.py +0 -1
transformers/models/llava/modeling_llava.py +12 -7
transformers/models/llava_next/image_processing_llava_next_fast.py +0 -1
transformers/models/llava_next/modeling_llava_next.py +7 -3
transformers/models/llava_next_video/modeling_llava_next_video.py +7 -3
transformers/models/llava_next_video/modular_llava_next_video.py +7 -3
transformers/models/llava_onevision/image_processing_llava_onevision_fast.py +0 -1
transformers/models/llava_onevision/modeling_llava_onevision.py +7 -3
transformers/models/llava_onevision/modular_llava_onevision.py +7 -4
transformers/models/longcat_flash/modeling_longcat_flash.py +6 -5
transformers/models/longcat_flash/modular_longcat_flash.py +3 -2
transformers/models/longformer/modeling_longformer.py +6 -0
transformers/models/longt5/modeling_longt5.py +4 -4
transformers/models/luke/modeling_luke.py +9 -0
transformers/models/luke/tokenization_luke.py +11 -38
transformers/models/lxmert/modeling_lxmert.py +2 -0
transformers/models/m2m_100/modeling_m2m_100.py +14 -0
transformers/models/mamba/modeling_mamba.py +16 -23
transformers/models/mamba2/modeling_mamba2.py +24 -23
transformers/models/marian/configuration_marian.py +1 -1
transformers/models/marian/modeling_marian.py +8 -0
transformers/models/markuplm/modeling_markuplm.py +9 -8
transformers/models/markuplm/tokenization_markuplm.py +28 -61
transformers/models/mask2former/configuration_mask2former.py +3 -3
transformers/models/mask2former/image_processing_mask2former_fast.py +1 -4
transformers/models/mask2former/modeling_mask2former.py +11 -0
transformers/models/maskformer/configuration_maskformer.py +3 -3
transformers/models/maskformer/image_processing_maskformer_fast.py +1 -4
transformers/models/maskformer/modeling_maskformer.py +11 -1
transformers/models/maskformer/modeling_maskformer_swin.py +21 -15
transformers/models/mbart/configuration_mbart.py +1 -0
transformers/models/mbart/modeling_mbart.py +14 -0
transformers/models/mbart/tokenization_mbart.py +11 -52
transformers/models/mbart50/tokenization_mbart50.py +7 -10
transformers/models/megatron_bert/modeling_megatron_bert.py +9 -0
transformers/models/metaclip_2/modeling_metaclip_2.py +2 -0
transformers/models/metaclip_2/modular_metaclip_2.py +2 -0
transformers/models/mgp_str/modeling_mgp_str.py +2 -0
transformers/models/mimi/modeling_mimi.py +28 -5
transformers/models/minimax/modeling_minimax.py +19 -6
transformers/models/minimax/modular_minimax.py +12 -1
transformers/models/ministral/modeling_ministral.py +5 -5
transformers/models/ministral3/configuration_ministral3.py +1 -1
transformers/models/ministral3/modeling_ministral3.py +5 -4
transformers/models/mistral/modeling_mistral.py +5 -4
transformers/models/mistral3/modeling_mistral3.py +10 -4
transformers/models/mistral3/modular_mistral3.py +3 -1
transformers/models/mixtral/modeling_mixtral.py +15 -7
transformers/models/mixtral/modular_mixtral.py +6 -2
transformers/models/mlcd/modeling_mlcd.py +6 -0
transformers/models/mlcd/modular_mlcd.py +4 -0
transformers/models/mllama/modeling_mllama.py +15 -4
transformers/models/mluke/tokenization_mluke.py +6 -6
transformers/models/mm_grounding_dino/configuration_mm_grounding_dino.py +1 -2
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +8 -4
transformers/models/mm_grounding_dino/modular_mm_grounding_dino.py +1 -2
transformers/models/mobilebert/modeling_mobilebert.py +2 -0
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +2 -0
transformers/models/mobilenet_v2/image_processing_mobilenet_v2_fast.py +0 -1
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +3 -0
transformers/models/mobilevit/image_processing_mobilevit.py +5 -5
transformers/models/mobilevit/image_processing_mobilevit_fast.py +1 -2
transformers/models/mobilevit/modeling_mobilevit.py +7 -0
transformers/models/mobilevitv2/modeling_mobilevitv2.py +7 -0
transformers/models/modernbert/modeling_modernbert.py +16 -2
transformers/models/modernbert/modular_modernbert.py +14 -1
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +17 -10
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +15 -8
transformers/models/moonshine/modeling_moonshine.py +5 -3
transformers/models/moshi/modeling_moshi.py +26 -53
transformers/models/mpnet/modeling_mpnet.py +7 -0
transformers/models/mpnet/tokenization_mpnet.py +5 -13
transformers/models/mpt/modeling_mpt.py +2 -0
transformers/models/mra/modeling_mra.py +10 -1
transformers/models/mt5/configuration_mt5.py +2 -3
transformers/models/mt5/modeling_mt5.py +7 -10
transformers/models/musicgen/modeling_musicgen.py +7 -9
transformers/models/musicgen_melody/modeling_musicgen_melody.py +7 -0
transformers/models/mvp/modeling_mvp.py +14 -0
transformers/models/nanochat/modeling_nanochat.py +5 -5
transformers/models/nemotron/modeling_nemotron.py +7 -5
transformers/models/nllb/tokenization_nllb.py +8 -22
transformers/models/nllb_moe/configuration_nllb_moe.py +1 -0
transformers/models/nllb_moe/modeling_nllb_moe.py +10 -0
transformers/models/nougat/image_processing_nougat_fast.py +0 -1
transformers/models/nougat/tokenization_nougat.py +15 -68
transformers/models/nystromformer/modeling_nystromformer.py +13 -0
transformers/models/olmo/modeling_olmo.py +5 -5
transformers/models/olmo/modular_olmo.py +2 -2
transformers/models/olmo2/modeling_olmo2.py +5 -6
transformers/models/olmo2/modular_olmo2.py +0 -1
transformers/models/olmo3/modeling_olmo3.py +5 -5
transformers/models/olmoe/modeling_olmoe.py +15 -7
transformers/models/olmoe/modular_olmoe.py +4 -2
transformers/models/omdet_turbo/configuration_omdet_turbo.py +2 -2
transformers/models/omdet_turbo/modeling_omdet_turbo.py +6 -0
transformers/models/oneformer/configuration_oneformer.py +3 -3
transformers/models/oneformer/modeling_oneformer.py +11 -39
transformers/models/openai/modeling_openai.py +15 -0
transformers/models/openai/tokenization_openai.py +10 -46
transformers/models/opt/modeling_opt.py +2 -0
transformers/models/ovis2/image_processing_ovis2_fast.py +0 -1
transformers/models/ovis2/modeling_ovis2.py +15 -3
transformers/models/ovis2/modular_ovis2.py +8 -0
transformers/models/owlv2/image_processing_owlv2_fast.py +0 -2
transformers/models/owlv2/modeling_owlv2.py +11 -3
transformers/models/owlv2/modular_owlv2.py +0 -2
transformers/models/owlvit/modeling_owlvit.py +11 -3
transformers/models/paddleocr_vl/__init__.py +32 -0
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +336 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +504 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +209 -0
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +1682 -0
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +1359 -0
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +135 -0
transformers/models/paligemma/modeling_paligemma.py +25 -17
transformers/models/parakeet/configuration_parakeet.py +4 -6
transformers/models/parakeet/modeling_parakeet.py +14 -6
transformers/models/parakeet/modular_parakeet.py +7 -2
transformers/models/parakeet/processing_parakeet.py +1 -0
transformers/models/parakeet/{tokenization_parakeet_fast.py → tokenization_parakeet.py} +3 -3
transformers/models/patchtsmixer/modeling_patchtsmixer.py +10 -0
transformers/models/patchtst/modeling_patchtst.py +25 -6
transformers/models/pe_audio/__init__.py +30 -0
transformers/models/pe_audio/configuration_pe_audio.py +206 -0
transformers/models/pe_audio/feature_extraction_pe_audio.py +162 -0
transformers/models/pe_audio/modeling_pe_audio.py +820 -0
transformers/models/pe_audio/modular_pe_audio.py +299 -0
transformers/{kernels/falcon_mamba/__init__.py → models/pe_audio/processing_pe_audio.py} +11 -2
transformers/models/pe_audio_video/__init__.py +29 -0
transformers/models/pe_audio_video/configuration_pe_audio_video.py +225 -0
transformers/models/pe_audio_video/modeling_pe_audio_video.py +972 -0
transformers/models/pe_audio_video/modular_pe_audio_video.py +764 -0
transformers/models/pe_audio_video/processing_pe_audio_video.py +25 -0
transformers/models/pe_video/__init__.py +30 -0
transformers/models/pe_video/configuration_pe_video.py +211 -0
transformers/models/pe_video/modeling_pe_video.py +636 -0
transformers/models/pe_video/modular_pe_video.py +219 -0
transformers/models/pe_video/processing_pe_video.py +10 -0
transformers/models/pe_video/video_processing_pe_video.py +66 -0
transformers/models/pegasus/configuration_pegasus.py +1 -0
transformers/models/pegasus/modeling_pegasus.py +8 -0
transformers/models/pegasus/tokenization_pegasus.py +17 -44
transformers/models/pegasus_x/modeling_pegasus_x.py +5 -0
transformers/models/perceiver/image_processing_perceiver_fast.py +0 -1
transformers/models/perceiver/modeling_perceiver.py +13 -1
transformers/models/perception_lm/image_processing_perception_lm_fast.py +0 -1
transformers/models/perception_lm/modeling_perception_lm.py +7 -3
transformers/models/perception_lm/modular_perception_lm.py +7 -3
transformers/models/persimmon/modeling_persimmon.py +3 -2
transformers/models/phi/modeling_phi.py +5 -6
transformers/models/phi/modular_phi.py +0 -1
transformers/models/phi3/modeling_phi3.py +3 -2
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +9 -6
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +7 -4
transformers/models/phi4_multimodal/processing_phi4_multimodal.py +0 -2
transformers/models/phimoe/modeling_phimoe.py +15 -7
transformers/models/phimoe/modular_phimoe.py +3 -3
transformers/models/pix2struct/modeling_pix2struct.py +2 -0
transformers/models/pix2struct/processing_pix2struct.py +0 -4
transformers/models/pixio/__init__.py +30 -0
transformers/models/pixio/configuration_pixio.py +151 -0
transformers/models/pixio/modeling_pixio.py +507 -0
transformers/models/pixio/modular_pixio.py +404 -0
transformers/models/pixtral/modeling_pixtral.py +3 -2
transformers/models/pixtral/processing_pixtral.py +3 -1
transformers/models/plbart/configuration_plbart.py +1 -0
transformers/models/plbart/modeling_plbart.py +13 -0
transformers/models/plbart/modular_plbart.py +8 -0
transformers/models/plbart/tokenization_plbart.py +0 -2
transformers/models/poolformer/image_processing_poolformer_fast.py +0 -1
transformers/models/poolformer/modeling_poolformer.py +13 -1
transformers/models/pop2piano/configuration_pop2piano.py +0 -1
transformers/models/pop2piano/modeling_pop2piano.py +2 -0
transformers/models/prompt_depth_anything/configuration_prompt_depth_anything.py +2 -3
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +1 -0
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +1 -0
transformers/models/prophetnet/modeling_prophetnet.py +5 -1
transformers/models/pvt/modeling_pvt.py +2 -0
transformers/models/pvt_v2/modeling_pvt_v2.py +3 -0
transformers/models/qwen2/modeling_qwen2.py +5 -5
transformers/models/qwen2/tokenization_qwen2.py +14 -18
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +4 -2
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +116 -79
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +71 -33
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +1 -1
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +23 -11
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +29 -27
transformers/models/qwen2_audio/modeling_qwen2_audio.py +4 -2
transformers/models/qwen2_moe/modeling_qwen2_moe.py +15 -7
transformers/models/qwen2_vl/configuration_qwen2_vl.py +1 -1
transformers/models/qwen2_vl/image_processing_qwen2_vl.py +3 -2
transformers/models/qwen2_vl/modeling_qwen2_vl.py +23 -20
transformers/models/qwen3/modeling_qwen3.py +5 -5
transformers/models/qwen3_moe/modeling_qwen3_moe.py +15 -7
transformers/models/qwen3_next/modeling_qwen3_next.py +7 -8
transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py +4 -0
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +112 -68
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +62 -20
transformers/models/qwen3_vl/configuration_qwen3_vl.py +5 -5
transformers/models/qwen3_vl/modeling_qwen3_vl.py +57 -42
transformers/models/qwen3_vl/modular_qwen3_vl.py +59 -46
transformers/models/qwen3_vl/processing_qwen3_vl.py +3 -3
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +132 -148
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +36 -82
transformers/models/rag/configuration_rag.py +0 -8
transformers/models/rag/modeling_rag.py +8 -9
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +18 -3
transformers/models/reformer/modeling_reformer.py +13 -1
transformers/models/reformer/tokenization_reformer.py +11 -28
transformers/models/regnet/modeling_regnet.py +10 -1
transformers/models/rembert/modeling_rembert.py +13 -1
transformers/models/rembert/tokenization_rembert.py +3 -10
transformers/models/resnet/modeling_resnet.py +19 -5
transformers/models/roberta/modeling_roberta.py +3 -0
transformers/models/roberta/modular_roberta.py +3 -0
transformers/models/roberta/tokenization_roberta.py +18 -27
transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py +3 -0
transformers/models/roc_bert/modeling_roc_bert.py +3 -0
transformers/models/roformer/modeling_roformer.py +6 -0
transformers/models/roformer/tokenization_roformer.py +77 -412
transformers/models/rt_detr/configuration_rt_detr.py +1 -1
transformers/models/rt_detr/modeling_rt_detr.py +6 -0
transformers/models/rt_detr/modeling_rt_detr_resnet.py +13 -4
transformers/models/rt_detr_v2/configuration_rt_detr_v2.py +2 -3
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +9 -0
transformers/models/rt_detr_v2/modular_rt_detr_v2.py +8 -3
transformers/models/rwkv/modeling_rwkv.py +2 -1
transformers/models/sam/configuration_sam.py +1 -0
transformers/models/sam/image_processing_sam_fast.py +0 -1
transformers/models/sam/modeling_sam.py +4 -1
transformers/models/sam2/configuration_sam2.py +1 -1
transformers/models/sam2/modeling_sam2.py +7 -3
transformers/models/sam2/modular_sam2.py +7 -3
transformers/models/sam2_video/modeling_sam2_video.py +52 -43
transformers/models/sam2_video/modular_sam2_video.py +32 -18
transformers/models/sam3/configuration_sam3.py +21 -1
transformers/models/sam3/modeling_sam3.py +100 -80
transformers/models/sam3_tracker/modeling_sam3_tracker.py +8 -1
transformers/models/sam3_tracker/modular_sam3_tracker.py +8 -1
transformers/models/sam3_tracker_video/configuration_sam3_tracker_video.py +25 -0
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +27 -15
transformers/models/sam3_tracker_video/modular_sam3_tracker_video.py +25 -2
transformers/models/sam3_video/configuration_sam3_video.py +14 -0
transformers/models/sam3_video/modeling_sam3_video.py +4 -3
transformers/models/sam3_video/processing_sam3_video.py +1 -1
transformers/models/sam_hq/configuration_sam_hq.py +1 -0
transformers/models/sam_hq/modeling_sam_hq.py +26 -23
transformers/models/seamless_m4t/modeling_seamless_m4t.py +32 -12
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +27 -59
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +11 -1
transformers/models/seed_oss/modeling_seed_oss.py +3 -3
transformers/models/segformer/image_processing_segformer_fast.py +0 -1
transformers/models/segformer/modeling_segformer.py +6 -3
transformers/models/segformer/modular_segformer.py +0 -1
transformers/models/seggpt/modeling_seggpt.py +2 -0
transformers/models/sew/modeling_sew.py +3 -0
transformers/models/sew/modular_sew.py +1 -0
transformers/models/sew_d/modeling_sew_d.py +3 -0
transformers/models/shieldgemma2/modeling_shieldgemma2.py +1 -0
transformers/models/siglip/modeling_siglip.py +24 -2
transformers/models/siglip2/modeling_siglip2.py +67 -41
transformers/models/siglip2/modular_siglip2.py +4 -0
transformers/models/smollm3/modeling_smollm3.py +5 -5
transformers/models/smolvlm/modeling_smolvlm.py +5 -1
transformers/models/smolvlm/processing_smolvlm.py +0 -7
transformers/models/smolvlm/video_processing_smolvlm.py +0 -1
transformers/models/speech_to_text/modeling_speech_to_text.py +14 -0
transformers/models/speecht5/modeling_speecht5.py +41 -1
transformers/models/splinter/modeling_splinter.py +12 -3
transformers/models/splinter/tokenization_splinter.py +9 -28
transformers/models/squeezebert/modeling_squeezebert.py +8 -0
transformers/models/stablelm/modeling_stablelm.py +4 -2
transformers/models/starcoder2/modeling_starcoder2.py +5 -4
transformers/models/superglue/image_processing_superglue_fast.py +1 -2
transformers/models/superglue/modeling_superglue.py +1 -0
transformers/models/superpoint/image_processing_superpoint_fast.py +1 -2
transformers/models/superpoint/modeling_superpoint.py +1 -0
transformers/models/swiftformer/modeling_swiftformer.py +6 -0
transformers/models/swin/modeling_swin.py +20 -12
transformers/models/swin2sr/image_processing_swin2sr_fast.py +0 -1
transformers/models/swin2sr/modeling_swin2sr.py +51 -33
transformers/models/swinv2/modeling_swinv2.py +45 -33
transformers/models/switch_transformers/modeling_switch_transformers.py +2 -8
transformers/models/switch_transformers/modular_switch_transformers.py +2 -8
transformers/models/t5/configuration_t5.py +7 -1
transformers/models/t5/modeling_t5.py +8 -7
transformers/models/t5/tokenization_t5.py +4 -8
transformers/models/t5gemma/modeling_t5gemma.py +6 -6
transformers/models/t5gemma2/configuration_t5gemma2.py +6 -42
transformers/models/t5gemma2/modeling_t5gemma2.py +19 -10
transformers/models/t5gemma2/modular_t5gemma2.py +289 -4
transformers/models/table_transformer/configuration_table_transformer.py +1 -1
transformers/models/table_transformer/modeling_table_transformer.py +5 -1
transformers/models/tapas/modeling_tapas.py +3 -0
transformers/models/textnet/image_processing_textnet_fast.py +0 -1
transformers/models/textnet/modeling_textnet.py +11 -2
transformers/models/time_series_transformer/modeling_time_series_transformer.py +4 -0
transformers/models/timesfm/modeling_timesfm.py +14 -0
transformers/models/timesfm/modular_timesfm.py +14 -0
transformers/models/timesformer/modeling_timesformer.py +2 -0
transformers/models/timm_backbone/modeling_timm_backbone.py +13 -9
transformers/models/timm_wrapper/configuration_timm_wrapper.py +3 -0
transformers/models/timm_wrapper/modeling_timm_wrapper.py +20 -14
transformers/models/trocr/modeling_trocr.py +3 -2
transformers/models/tvp/configuration_tvp.py +5 -1
transformers/models/tvp/modeling_tvp.py +6 -4
transformers/models/udop/configuration_udop.py +1 -0
transformers/models/udop/modeling_udop.py +7 -7
transformers/models/udop/tokenization_udop.py +5 -13
transformers/models/umt5/configuration_umt5.py +2 -2
transformers/models/umt5/modeling_umt5.py +7 -6
transformers/models/unispeech/modeling_unispeech.py +4 -0
transformers/models/unispeech/modular_unispeech.py +2 -0
transformers/models/unispeech_sat/modeling_unispeech_sat.py +6 -0
transformers/models/unispeech_sat/modular_unispeech_sat.py +2 -0
transformers/models/univnet/modeling_univnet.py +1 -0
transformers/models/upernet/modeling_upernet.py +1 -0
transformers/models/vaultgemma/modeling_vaultgemma.py +5 -5
transformers/models/video_llama_3/image_processing_video_llama_3.py +3 -2
transformers/models/video_llama_3/modeling_video_llama_3.py +12 -1
transformers/models/video_llama_3/modular_video_llama_3.py +10 -1
transformers/models/video_llava/modeling_video_llava.py +7 -3
transformers/models/vilt/configuration_vilt.py +2 -2
transformers/models/vilt/modeling_vilt.py +13 -0
transformers/models/vipllava/modeling_vipllava.py +7 -3
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +1 -0
transformers/models/visual_bert/modeling_visual_bert.py +8 -0
transformers/models/vitdet/modeling_vitdet.py +2 -0
transformers/models/vitmatte/configuration_vitmatte.py +1 -1
transformers/models/vitmatte/image_processing_vitmatte_fast.py +0 -1
transformers/models/vitmatte/modeling_vitmatte.py +5 -0
transformers/models/vitpose/configuration_vitpose.py +1 -1
transformers/models/vitpose/image_processing_vitpose_fast.py +0 -1
transformers/models/vits/modeling_vits.py +1 -0
transformers/models/vjepa2/modeling_vjepa2.py +1 -0
transformers/models/voxtral/modeling_voxtral.py +2 -2
transformers/models/voxtral/modular_voxtral.py +2 -2
transformers/models/wav2vec2/modeling_wav2vec2.py +7 -0
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +21 -10
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +12 -0
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +27 -11
transformers/models/wav2vec2_conformer/modular_wav2vec2_conformer.py +21 -11
transformers/models/wavlm/modeling_wavlm.py +5 -0
transformers/models/whisper/generation_whisper.py +1 -0
transformers/models/whisper/modeling_whisper.py +11 -3
transformers/models/whisper/tokenization_whisper.py +4 -15
transformers/models/x_clip/modeling_x_clip.py +5 -0
transformers/models/xcodec/modeling_xcodec.py +5 -0
transformers/models/xglm/modeling_xglm.py +11 -0
transformers/models/xglm/tokenization_xglm.py +4 -9
transformers/models/xlm/modeling_xlm.py +18 -14
transformers/models/xlm_roberta/modeling_xlm_roberta.py +109 -106
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +9 -16
transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py +3 -0
transformers/models/xlnet/modeling_xlnet.py +3 -1
transformers/models/xlnet/tokenization_xlnet.py +3 -7
transformers/models/xmod/modeling_xmod.py +3 -0
transformers/models/yoso/modeling_yoso.py +10 -1
transformers/models/zamba/modeling_zamba.py +4 -1
transformers/models/zamba2/modeling_zamba2.py +7 -4
transformers/models/zamba2/modular_zamba2.py +1 -1
transformers/models/zoedepth/configuration_zoedepth.py +1 -1
transformers/models/zoedepth/image_processing_zoedepth_fast.py +1 -3
transformers/models/zoedepth/modeling_zoedepth.py +8 -0
transformers/pipelines/__init__.py +11 -9
transformers/pipelines/automatic_speech_recognition.py +20 -12
transformers/pipelines/base.py +2 -10
transformers/pipelines/document_question_answering.py +4 -2
transformers/pipelines/question_answering.py +1 -1
transformers/pipelines/text_generation.py +1 -1
transformers/pipelines/text_to_audio.py +2 -2
transformers/processing_utils.py +133 -50
transformers/quantizers/auto.py +2 -4
transformers/quantizers/base.py +44 -174
transformers/quantizers/quantizer_aqlm.py +2 -23
transformers/quantizers/quantizer_auto_round.py +2 -12
transformers/quantizers/quantizer_awq.py +20 -89
transformers/quantizers/quantizer_bitnet.py +4 -14
transformers/quantizers/quantizer_bnb_4bit.py +18 -155
transformers/quantizers/quantizer_bnb_8bit.py +24 -110
transformers/quantizers/quantizer_compressed_tensors.py +2 -9
transformers/quantizers/quantizer_eetq.py +16 -74
transformers/quantizers/quantizer_fbgemm_fp8.py +38 -138
transformers/quantizers/quantizer_finegrained_fp8.py +26 -113
transformers/quantizers/quantizer_fp_quant.py +52 -82
transformers/quantizers/quantizer_gptq.py +8 -28
transformers/quantizers/quantizer_higgs.py +42 -60
transformers/quantizers/quantizer_hqq.py +144 -153
transformers/quantizers/quantizer_mxfp4.py +14 -194
transformers/quantizers/quantizer_quanto.py +35 -79
transformers/quantizers/quantizer_quark.py +36 -17
transformers/quantizers/quantizer_spqr.py +4 -12
transformers/quantizers/quantizer_torchao.py +50 -325
transformers/quantizers/quantizer_vptq.py +4 -27
transformers/quantizers/quantizers_utils.py +20 -0
transformers/testing_utils.py +324 -47
transformers/tokenization_mistral_common.py +7 -2
transformers/tokenization_utils_base.py +116 -224
transformers/tokenization_utils_tokenizers.py +190 -106
transformers/trainer.py +51 -32
transformers/trainer_callback.py +8 -0
transformers/trainer_jit_checkpoint.py +126 -0
transformers/trainer_seq2seq.py +4 -0
transformers/trainer_utils.py +1 -1
transformers/training_args.py +74 -38
transformers/utils/__init__.py +7 -4
transformers/utils/attention_visualizer.py +4 -4
transformers/utils/auto_docstring.py +35 -25
transformers/utils/generic.py +47 -1
transformers/utils/hub.py +5 -15
transformers/utils/import_utils.py +112 -25
transformers/utils/kernel_config.py +74 -19
transformers/utils/loading_report.py +19 -10
transformers/utils/quantization_config.py +78 -245
transformers/video_processing_utils.py +17 -14
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc2.dist-info}/METADATA +275 -229
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc2.dist-info}/RECORD +832 -777
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc2.dist-info}/WHEEL +1 -1
transformers/kernels/__init__.py +0 -0
transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py +0 -529
transformers/models/roformer/tokenization_roformer_fast.py +0 -160
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc2.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc2.dist-info/licenses}/LICENSE +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc2.dist-info}/top_level.txt +0 -0

transformers/integrations/moe.py ADDED Viewed

@@ -0,0 +1,240 @@
+# Copyright 2025 The HuggingFace Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from functools import wraps
+from ..utils.generic import GeneralInterface
+from ..utils.import_utils import is_torch_available
+if is_torch_available():
+    import torch
+# Examples of experts class with its eager mm implementation
+# class Experts(nn.Module):
+#     """Collection of expert weights stored as 3D tensors."""
+#     def __init__(self, config):
+#         super().__init__()
+#         self.num_experts = config.n_routed_experts
+#         self.hidden_dim = config.hidden_size
+#         self.intermediate_dim = config.moe_intermediate_size
+#         self.gate_up_proj = nn.Parameter(torch.empty(self.num_experts, 2 * self.intermediate_dim, self.hidden_dim))
+#         self.down_proj = nn.Parameter(torch.empty(self.num_experts, self.hidden_dim, self.intermediate_dim))
+#         self.act_fn = ACT2FN[config.hidden_act]
+#     def forward(
+#         self,
+#         hidden_states: torch.Tensor,
+#         top_k_index: torch.Tensor,
+#         top_k_weights: torch.Tensor,
+#     ) -> torch.Tensor:
+#         final_hidden_states = torch.zeros_like(hidden_states)
+#         with torch.no_grad():
+#             expert_mask = torch.nn.functional.one_hot(top_k_index, num_classes=self.num_experts)
+#             expert_mask = expert_mask.permute(2, 1, 0)
+#             expert_hit = torch.greater(expert_mask.sum(dim=(-1, -2)), 0).nonzero()
+#         for expert_idx in expert_hit:
+#             expert_idx = expert_idx[0]
+#             if expert_idx == self.num_experts:
+#                 continue
+#             top_k_pos, token_idx = torch.where(expert_mask[expert_idx])
+#             current_state = hidden_states[token_idx]
+#             gate, up = nn.functional.linear(current_state, self.gate_up_proj[expert_idx]).chunk(2, dim=-1)
+#             current_hidden_states = self.act_fn(gate) * up
+#             current_hidden_states = nn.functional.linear(current_hidden_states, self.down_proj[expert_idx])
+#             current_hidden_states = current_hidden_states * top_k_weights[token_idx, top_k_pos, None]
+#             final_hidden_states.index_add_(0, token_idx, current_hidden_states.to(final_hidden_states.dtype))
+#         return final_hidden_states
+def batched_mm_experts_forward(
+    self: torch.nn.Module,
+    hidden_states: torch.Tensor,
+    top_k_index: torch.Tensor,
+    top_k_weights: torch.Tensor,
+) -> torch.Tensor:
+    device = hidden_states.device
+    num_top_k = top_k_index.size(-1)
+    num_tokens = hidden_states.size(0)
+    num_experts = self.gate_up_proj.size(0)
+    final_hidden_states = torch.zeros_like(hidden_states)
+    # Flatten top_k_index to get expert_ids per selected sample
+    expert_ids = top_k_index.reshape(-1)
+    token_idx = torch.arange(num_tokens, device=device).unsqueeze(1).expand(-1, num_top_k).reshape(-1)
+    # Resolve routing weights per selected sample, allowing top_k_weights to be either:
+    # - (num_tokens, num_top_k) Qwen2MoE style
+    # - (num_tokens, num_experts) DeepseekV2 style
+    if top_k_weights.shape == (num_tokens, num_top_k):
+        sample_weights = top_k_weights.reshape(-1)  # (S,)
+    elif top_k_weights.shape == (num_tokens, num_experts):
+        sample_weights = top_k_weights[token_idx, expert_ids]  # (S,)
+    else:
+        raise ValueError(
+            f"top_k_weights has an invalid/unsupported shape. It should be either (num_tokens, num_top_k)({num_tokens}, {num_top_k}) "
+            f"or (num_tokens, num_experts)({num_tokens}, {num_experts}), but got {top_k_weights.shape}."
+        )
+    # Get current hidden states for selected samples
+    current_hidden_states = hidden_states[token_idx]  # (S, hidden_dim)
+    # Select projection matrices for selected experts
+    selected_gate_up = self.gate_up_proj[expert_ids]  # (S, hidden_dim, 2 * intermediate_dim)
+    selected_down = self.down_proj[expert_ids]  # (S, hidden_dim, intermediate_dim)
+    # --- Up projection per expert (batched) ---
+    gate_up_out = torch.bmm(selected_gate_up, current_hidden_states.unsqueeze(-1)).squeeze(-1)
+    if hasattr(self, "gate_up_proj_bias") and self.gate_up_proj_bias is not None:
+        gate_up_out = gate_up_out + self.gate_up_proj_bias[expert_ids]
+    # Split into gate and up components
+    gate, up = gate_up_out.chunk(2, dim=-1)  # both have shape (S, intermediate_dim)
+    # Apply activation
+    hidden_after_activation = self.act_fn(gate) * up  # (S, intermediate_dim)
+    # --- Down projection per expert (batched) ---
+    out_per_sample = torch.bmm(selected_down, hidden_after_activation.unsqueeze(-1)).squeeze(-1)
+    if hasattr(self, "down_proj_bias") and self.down_proj_bias is not None:
+        out_per_sample = out_per_sample + self.down_proj_bias[expert_ids]
+    # Apply routing weights
+    out_per_sample = out_per_sample * sample_weights.unsqueeze(-1)  # (S, hidden_dim)
+    # Accumulate results back to the final_hidden_states using original token indices
+    final_hidden_states.index_add_(0, token_idx, out_per_sample.to(final_hidden_states.dtype))
+    return final_hidden_states
+def grouped_mm_experts_forward(
+    self: torch.nn.Module,
+    hidden_states: torch.Tensor,
+    top_k_index: torch.Tensor,
+    top_k_weights: torch.Tensor,
+) -> torch.Tensor:
+    if not hasattr(torch, "_grouped_mm"):
+        raise ImportError(
+            "torch._grouped_mm is not available. Please make sure you are using a PyTorch version that includes it (2.9+)."
+        )
+    device = hidden_states.device
+    num_top_k = top_k_index.size(-1)
+    num_tokens = hidden_states.size(0)
+    num_experts = self.gate_up_proj.size(0)
+    final_hidden_states = torch.zeros_like(hidden_states)
+    # Flatten top_k_index to get expert_ids per selected sample
+    expert_ids = top_k_index.reshape(-1)
+    token_idx = torch.arange(num_tokens, device=device).unsqueeze(1).expand(-1, num_top_k).reshape(-1)
+    # Get permutation to group by expert
+    perm = torch.argsort(expert_ids, stable=True)
+    inv_perm = torch.argsort(perm, stable=True)
+    # Resolve routing weights per selected sample, allowing top_k_weights to be either:
+    # - (num_tokens, num_top_k) Qwen2MoE style
+    # - (num_tokens, num_experts) DeepseekV2 style
+    if top_k_weights.shape == (num_tokens, num_top_k):
+        sample_weights = top_k_weights.reshape(-1)  # (S,)
+    elif top_k_weights.shape == (num_tokens, num_experts):
+        sample_weights = top_k_weights[token_idx, expert_ids]  # (S,)
+    else:
+        raise ValueError(
+            f"top_k_weights has an invalid/unsupported shape. It should be either (num_tokens, num_top_k)({num_tokens}, {num_top_k}) "
+            f"or (num_tokens, num_experts)({num_tokens}, {num_experts}), but got {top_k_weights.shape}."
+        )
+    # Get current hidden states for selected samples
+    current_hidden_states = hidden_states[token_idx]  # (S, hidden_dim)
+    # Group by expert for grouped_mm
+    expert_ids_g = expert_ids[perm]
+    sample_weights_g = sample_weights[perm]
+    current_states_g = current_hidden_states[perm]
+    # Compute offsets for grouped_mm
+    # using histc instead of bincount to avoid cuda graph issues
+    # (grouped_mm_experts_forward still fails with cuda graphs but because of _grouped_mm internals)
+    num_tokens_per_expert = torch.histc(expert_ids_g.float(), bins=num_experts, min=0, max=num_experts - 1)
+    offsets = torch.cumsum(num_tokens_per_expert, dim=0, dtype=torch.int32)
+    # --- Up projection per expert (grouped_mm) ---
+    gate_up_out = torch._grouped_mm(current_states_g, self.gate_up_proj.transpose(-2, -1), offs=offsets)
+    if hasattr(self, "gate_up_proj_bias") and self.gate_up_proj_bias is not None:
+        # we should be able to pass bias to the grouped_mm call, but it's still not fully supported
+        gate_up_out = gate_up_out + self.gate_up_proj_bias[expert_ids_g]
+    # Split into gate and up components
+    gate, up = gate_up_out.chunk(2, dim=-1)  # both have shape (S, intermediate_dim)
+    # Apply activation
+    hidden_after_activation = self.act_fn(gate) * up  # (S, intermediate_dim)
+    # --- Down projection per expert (grouped_mm) ---
+    out_per_sample_g = torch._grouped_mm(hidden_after_activation, self.down_proj.transpose(-2, -1), offs=offsets)
+    if hasattr(self, "down_proj_bias") and self.down_proj_bias is not None:
+        # we should be able to pass bias to the grouped_mm call, but it's still not fully supported
+        out_per_sample_g = out_per_sample_g + self.down_proj_bias[expert_ids_g]
+    # Apply routing weights
+    out_per_sample_g = out_per_sample_g * sample_weights_g.unsqueeze(-1)
+    # Restore original order
+    out_per_sample = out_per_sample_g[inv_perm]
+    # Accumulate results back to the final_hidden_states using original token indices
+    final_hidden_states.index_add_(0, token_idx, out_per_sample.to(final_hidden_states.dtype))
+    return final_hidden_states
+class ExpertsInterface(GeneralInterface):
+    """Interface for registering custom experts implementations."""
+    _global_mapping = {
+        "batched_mm": batched_mm_experts_forward,
+        "grouped_mm": grouped_mm_experts_forward,
+    }
+ALL_EXPERTS_FUNCTIONS = ExpertsInterface()
+def use_experts_implementation(experts_class: type[torch.nn.Module]) -> type[torch.nn.Module]:
+    original_init = experts_class.__init__
+    original_forward = experts_class.forward
+    @wraps(original_init)
+    def __init__(self, config, *args, **kwargs):
+        original_init(self, config, *args, **kwargs)
+        self.config = config
+    @wraps(original_forward)
+    def forward(self, *args, **kwargs):
+        experts_forward = original_forward
+        if self.config._experts_implementation != "eager":
+            experts_forward = ALL_EXPERTS_FUNCTIONS[self.config._experts_implementation]
+        return experts_forward(self, *args, **kwargs)
+    experts_class.__init__ = __init__
+    experts_class.forward = forward
+    return experts_class

transformers/integrations/mxfp4.py CHANGED Viewed

@@ -12,24 +12,17 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from ..utils import is_accelerate_available, is_torch_available, is_torch_xpu_available, logging
+from ..utils import is_torch_available, is_torch_xpu_available, logging
 if is_torch_available():
     import torch
     from torch import nn
+from contextlib import contextmanager
 from typing import Optional
 from ..core_model_loading import ConversionOps
-if is_accelerate_available():
-    from accelerate import init_empty_weights
-import re
-from contextlib import contextmanager
-from ..quantizers.quantizers_utils import get_module_from_name
+from ..quantizers.quantizers_utils import get_module_from_name, should_convert_module
 logger = logging.get_logger(__name__)
@@ -436,15 +429,6 @@ def mlp_forward(self, hidden_states):
     return routed_out, router_logits
-def should_convert_module(current_key_name, patterns):
-    current_key_name_str = ".".join(current_key_name)
-    if not any(
-        re.match(f"{key}\\.", current_key_name_str) or re.match(f"{key}", current_key_name_str) for key in patterns
-    ):
-        return True
-    return False
 def dequantize(module, param_name, param_value, target_device, dq_param_name, **kwargs):
     from ..integrations.tensor_parallel import shard_and_distribute_module
@@ -604,70 +588,40 @@ def swizzle_mxfp4_convertops(blocks, scales, module, proj, target_device, triton
     )
-def _replace_with_mxfp4_linear(
-    model,
-    modules_to_not_convert=None,
-    current_key_name=None,
-    quantization_config=None,
-    has_been_replaced=False,
-    config=None,
-):
-    if current_key_name is None:
-        current_key_name = []
+def replace_with_mxfp4_linear(model, quantization_config=None, modules_to_not_convert: list[str] | None = None):
+    """
+    Public method that replaces the expert layers of the given model with mxfp4 quantized layers.
+    Args:
+        model (`torch.nn.Module`):
+            The model to convert, can be any `torch.nn.Module` instance.
+        quantization_config (`Mxfp4Config`, defaults to `None`):
+            The quantization config object that contains the quantization parameters.
+        modules_to_not_convert (`list`, *optional*, defaults to `None`):
+            A list of modules to not convert. If a module name is in the list (e.g. `lm_head`), it will not be
+            converted.
+    """
+    if quantization_config.dequantize:
+        return model
+    from .hub_kernels import get_kernel
-    for name, module in model.named_children():
-        current_key_name.append(name)
-        if not should_convert_module(current_key_name, modules_to_not_convert):
-            current_key_name.pop(-1)
+    global triton_kernels_hub
+    triton_kernels_hub = get_kernel("kernels-community/triton_kernels")
+    has_been_replaced = False
+    for module_name, module in model.named_modules():
+        if not should_convert_module(module_name, modules_to_not_convert):
             continue
         if module.__class__.__name__ == "GptOssExperts" and not quantization_config.dequantize:
-            with init_empty_weights():
-                model._modules[name] = Mxfp4GptOssExperts(config)
+            with torch.device("meta"):
+                model.set_submodule(module_name, Mxfp4GptOssExperts(model.config))
                 has_been_replaced = True
         if module.__class__.__name__ == "GptOssMLP" and not quantization_config.dequantize:
             from types import MethodType
             module.forward = MethodType(mlp_forward, module)
-        if len(list(module.children())) > 0:
-            _, has_been_replaced = _replace_with_mxfp4_linear(
-                module,
-                modules_to_not_convert,
-                current_key_name,
-                quantization_config,
-                has_been_replaced=has_been_replaced,
-                config=config,
-            )
-        current_key_name.pop(-1)
-    return model, has_been_replaced
-def replace_with_mxfp4_linear(
-    model,
-    modules_to_not_convert=None,
-    current_key_name=None,
-    quantization_config=None,
-    config=None,
-):
-    if quantization_config.dequantize:
-        return model
-    else:
-        from kernels import get_kernel
-        global triton_kernels_hub
-        triton_kernels_hub = get_kernel("kernels-community/triton_kernels")
-    modules_to_not_convert = ["lm_head"] if modules_to_not_convert is None else modules_to_not_convert
-    if quantization_config.modules_to_not_convert is not None:
-        modules_to_not_convert.extend(quantization_config.modules_to_not_convert)
-    modules_to_not_convert = list(set(modules_to_not_convert))
-    model, has_been_replaced = _replace_with_mxfp4_linear(
-        model,
-        modules_to_not_convert,
-        current_key_name,
-        quantization_config,
-        config=config,
-    )
     if not has_been_replaced:
         logger.warning(
             "You are loading your model using mixed-precision FP4 quantization but no linear modules were found in your model."

transformers/integrations/peft.py CHANGED Viewed

@@ -17,6 +17,7 @@ import json
 import os
 from typing import Any, Literal
+from ..conversion_mapping import get_model_conversion_mapping
 from ..core_model_loading import WeightRenaming, rename_source_key
 from ..utils import (
     CONFIG_NAME,
@@ -46,26 +47,6 @@ MIN_PEFT_VERSION = "0.18.0"
 logger = logging.get_logger(__name__)
-# DO NOT MODIFY, KEPT FOR BC ONLY
-VLMS = [
-    "aria",
-    "ayavision",
-    "emu3",
-    "fuyu",
-    "gotocr2",
-    "gemma3",
-    "internvl",
-    "llava",  # all llava prefixed models fall under this check
-    "mistral3",
-    "mllama",
-    "paligemma",
-    "qwen2vl",
-    "qwen2_5_vl",
-    "videollava",
-    "vipllava",
-]
 class PeftAdapterMixin:
     """
     A class containing all functions for loading and using adapters weights that are supported in PEFT library. For
@@ -103,6 +84,7 @@ class PeftAdapterMixin:
         low_cpu_mem_usage: bool = False,
         is_trainable: bool = False,
         hotswap: bool | Literal["auto"] = "auto",
+        local_files_only: bool = False,
         adapter_kwargs: dict[str, Any] | None = None,
     ) -> None:
         """
@@ -211,11 +193,10 @@ class PeftAdapterMixin:
             if any(conf.peft_type != PeftType.LORA for conf in self.peft_config.values()):
                 raise ValueError("Hotswapping is currently only supported for LoRA, please set `hotswap=False`.")
+        key_mapping = adapter_kwargs.pop("key_mapping", None) if adapter_kwargs is not None else None
+        weight_conversions = get_model_conversion_mapping(self, key_mapping=key_mapping)
         # peft only supports low_cpu_mem_usage starting from v0.13.0
         peft_load_kwargs = {}
-        key_mapping = adapter_kwargs.pop("key_mapping", None) if adapter_kwargs is not None else None
-        if key_mapping is None and any(allowed_name in self.__class__.__name__.lower() for allowed_name in VLMS):
-            key_mapping = self._checkpoint_conversion_mapping
         peft_load_kwargs["low_cpu_mem_usage"] = low_cpu_mem_usage
         adapter_name = adapter_name if adapter_name is not None else "default"
@@ -263,6 +244,7 @@ class PeftAdapterMixin:
             adapter_config_file = find_adapter_config_file(
                 peft_model_id,
                 token=token,
+                local_files_only=local_files_only,
                 **adapter_kwargs,
             )
@@ -275,13 +257,11 @@ class PeftAdapterMixin:
             peft_config = PeftConfig.from_pretrained(
                 peft_model_id,
                 token=token,
+                local_files_only=local_files_only,
                 **adapter_kwargs,
             )
             peft_config.inference_mode = not is_trainable
-        if peft_config.peft_type != PeftType.LORA:
-            raise ValueError("Hotswapping is currently only supported for LoRA, please set `hotswap=False`.")
         if not hotswap:
             # TODO: WE NEED TOO APPLY OUR DYNAMIC WEIGHT CONVERSION AT SOME POINT HERE!
             # Create and add fresh new adapters into the model, unless the weights are hotswapped
@@ -291,21 +271,24 @@ class PeftAdapterMixin:
             self._hf_peft_config_loaded = True
         if peft_model_id is not None:
+            if "local_files_only" not in adapter_kwargs:
+                adapter_kwargs["local_files_only"] = local_files_only
             adapter_state_dict = load_peft_weights(peft_model_id, token=token, device=device, **adapter_kwargs)
         # We need to pre-process the state dict to remove unneeded prefixes - for backward compatibility
         renamings = []
-        if key_mapping:
-            renamings = [entry for entry in key_mapping if isinstance(entry, WeightRenaming)]
+        if weight_conversions:
+            renamings = [entry for entry in weight_conversions if isinstance(entry, WeightRenaming)]
         processed_adapter_state_dict = {}
         prefix = "base_model.model."
+        state_dict = self.state_dict()
         for key, value in adapter_state_dict.items():
             if key.startswith(prefix):
                 new_key = key[len(prefix) :]
             else:
                 new_key = key
-            new_key = rename_source_key(new_key, renamings, [])[0]
+            new_key = rename_source_key(new_key, renamings, [], self.base_model_prefix, state_dict)[0]
             # For hotswapping, we need the adapter name to be present in the state dict keys
             if hotswap:

transformers/integrations/quanto.py CHANGED Viewed

@@ -12,21 +12,57 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from ..utils import is_optimum_quanto_available, is_torch_available, logging
+from ..core_model_loading import ConversionOps
+from ..quantizers.quantizers_utils import get_module_from_name, should_convert_module
+from ..utils import is_torch_available, logging
 if is_torch_available():
     import torch
+    import torch.nn as nn
 logger = logging.get_logger(__name__)
+class QuantoQuantize(ConversionOps):
+    def __init__(self, hf_quantizer):
+        self.hf_quantizer = hf_quantizer
+    def convert(
+        self,
+        input_dict: dict[str, list[torch.Tensor]],
+        model: torch.nn.Module | None = None,
+        full_layer_name: str | None = None,
+        missing_keys: list[str] | None = None,
+        **kwargs,
+    ) -> dict[str, torch.Tensor]:
+        _, value = tuple(input_dict.items())[0]
+        value = value[0]
+        from ..modeling_utils import _load_parameter_into_model
+        _load_parameter_into_model(model, full_layer_name, value)
+        module, _ = get_module_from_name(model, full_layer_name)
+        # Need to set those to a specific value, otherwise they will remain on meta device ...
+        module.input_scale = torch.ones(module.input_scale.shape)
+        module.output_scale = torch.ones(module.output_scale.shape)
+        # quantize
+        module.freeze()
+        module.weight.requires_grad = False
+        module._is_hf_initialized = True
+        # need to discard some missing keys we already updated the module in freeze.
+        module_name = full_layer_name.rsplit(".", 1)[0]
+        missing_keys.discard(f"{module_name}.weight")
+        missing_keys.discard(f"{module_name}.input_scale")
+        missing_keys.discard(f"{module_name}.output_scale")
+        return {}
 def replace_with_quanto_layers(
     model,
     quantization_config=None,
-    modules_to_not_convert=None,
-    current_key_name=None,
-    has_been_replaced=False,
+    modules_to_not_convert: list[str] | None = None,
 ):
     """
     Public method that recursively replaces the Linear layers of the given model with Quanto quantized layers.
@@ -35,64 +71,49 @@ def replace_with_quanto_layers(
     Args:
         model (`torch.nn.Module`):
             The model to convert, can be any `torch.nn.Module` instance.
-        quantization_config (`AqlmConfig`, defaults to `None`):
+        quantization_config (`QuantoConfig`, defaults to `None`):
             The quantization config object that contains the quantization parameters.
         modules_to_not_convert (`list`, *optional*, defaults to `None`):
             A list of modules to not convert. If a module name is in the list (e.g. `lm_head`), it will not be
             converted.
-        current_key_name (`list`, *optional*, defaults to `None`):
-            A list that contains the current key name. This is used for recursion and should not be passed by the user.
-        has_been_replaced (`bool`, *optional*, defaults to `None`):
-            A boolean that indicates if the conversion has been successful or not. This is used for recursion and
-            should not be passed by the user.
     """
-    from accelerate import init_empty_weights
-    if is_optimum_quanto_available():
-        from optimum.quanto import QLayerNorm, QLinear, qfloat8, qint2, qint4, qint8
+    from optimum.quanto import QLayerNorm, QLinear, qfloat8, qint2, qint4, qint8
     w_mapping = {"float8": qfloat8, "int8": qint8, "int4": qint4, "int2": qint2}
     a_mapping = {None: None, "float8": qfloat8, "int8": qint8}
-    if modules_to_not_convert is None:
-        modules_to_not_convert = []
-    for name, module in model.named_children():
-        if current_key_name is None:
-            current_key_name = []
-        current_key_name.append(name)
-        if not any(key in ".".join(current_key_name) for key in modules_to_not_convert):
-            with init_empty_weights():
-                if isinstance(module, torch.nn.Linear):
-                    model._modules[name] = QLinear(
-                        in_features=module.in_features,
-                        out_features=module.out_features,
-                        bias=module.bias is not None,
-                        dtype=module.weight.dtype,
-                        weights=w_mapping[quantization_config.weights],
-                        activations=a_mapping[quantization_config.activations],
-                    )
-                    model._modules[name].requires_grad_(False)
-                    has_been_replaced = True
-                elif isinstance(module, torch.nn.LayerNorm):
-                    if quantization_config.activations is not None:
-                        model._modules[name] = QLayerNorm(
-                            module.normalized_shape,
-                            module.eps,
-                            module.elementwise_affine,
-                            module.bias is not None,
-                            activations=a_mapping[quantization_config.activations],
-                        )
-                        has_been_replaced = True
-        if len(list(module.children())) > 0:
-            _, has_been_replaced = replace_with_quanto_layers(
-                module,
-                quantization_config=quantization_config,
-                modules_to_not_convert=modules_to_not_convert,
-                current_key_name=current_key_name,
-                has_been_replaced=has_been_replaced,
-            )
-        # Remove the last key for recursion
-        current_key_name.pop(-1)
-    return model, has_been_replaced
+    has_been_replaced = False
+    for module_name, module in model.named_modules():
+        if not should_convert_module(module_name, modules_to_not_convert):
+            continue
+        with torch.device("meta"):
+            new_module = None
+            if isinstance(module, nn.Linear):
+                new_module = QLinear(
+                    in_features=module.in_features,
+                    out_features=module.out_features,
+                    bias=module.bias is not None,
+                    dtype=module.weight.dtype,
+                    weights=w_mapping[quantization_config.weights],
+                    activations=a_mapping[quantization_config.activations],
+                )
+            elif isinstance(module, torch.nn.LayerNorm) and quantization_config.activations is not None:
+                new_module = QLayerNorm(
+                    module.normalized_shape,
+                    module.eps,
+                    module.elementwise_affine,
+                    module.bias is not None,
+                    activations=a_mapping[quantization_config.activations],
+                )
+            if new_module is not None:
+                has_been_replaced = True
+                model.set_submodule(module_name, new_module)
+    if not has_been_replaced:
+        logger.warning(
+            "You are loading your model using quanto but no linear modules were found in your model."
+            " Please double check your model architecture, or submit an issue on github if you think this is"
+            " a bug."
+        )
+    return model

transformers 5.0.0rc0__py3-none-any.whl → 5.0.0rc2__py3-none-any.whl

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc2py3-none-any.whl