PyPI - transformers - Versions diffs - 5.0.0rc0__py3-none-any.whl → 5.0.0rc1__py3-none-any.whl - Mend

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (539) hide show

transformers/__init__.py +30 -3
transformers/cli/serve.py +47 -17
transformers/conversion_mapping.py +15 -2
transformers/convert_slow_tokenizer.py +225 -10
transformers/core_model_loading.py +196 -135
transformers/data/data_collator.py +12 -4
transformers/dependency_versions_table.py +1 -2
transformers/dynamic_module_utils.py +1 -2
transformers/feature_extraction_utils.py +1 -2
transformers/file_utils.py +0 -1
transformers/generation/__init__.py +11 -1
transformers/generation/configuration_utils.py +3 -2
transformers/generation/continuous_batching/__init__.py +4 -0
transformers/generation/continuous_batching/continuous_api.py +134 -79
transformers/image_processing_base.py +1 -2
transformers/integrations/__init__.py +4 -2
transformers/integrations/accelerate.py +15 -3
transformers/integrations/aqlm.py +38 -66
transformers/integrations/awq.py +48 -514
transformers/integrations/bitnet.py +45 -100
transformers/integrations/bitsandbytes.py +79 -191
transformers/integrations/deepspeed.py +1 -0
transformers/integrations/eetq.py +84 -79
transformers/integrations/fbgemm_fp8.py +191 -145
transformers/integrations/finegrained_fp8.py +236 -193
transformers/integrations/fp_quant.py +92 -0
transformers/integrations/ggml.py +11 -1
transformers/integrations/higgs.py +40 -62
transformers/integrations/hub_kernels.py +42 -3
transformers/integrations/integration_utils.py +10 -0
transformers/integrations/mxfp4.py +25 -65
transformers/integrations/peft.py +7 -29
transformers/integrations/quanto.py +73 -55
transformers/integrations/quark.py +55 -0
transformers/integrations/spqr.py +44 -90
transformers/integrations/torchao.py +32 -38
transformers/integrations/vptq.py +42 -59
transformers/modelcard.py +1 -2
transformers/modeling_gguf_pytorch_utils.py +8 -0
transformers/modeling_rope_utils.py +30 -6
transformers/modeling_utils.py +116 -112
transformers/models/__init__.py +3 -0
transformers/models/afmoe/modeling_afmoe.py +4 -4
transformers/models/albert/tokenization_albert.py +6 -12
transformers/models/align/modeling_align.py +2 -0
transformers/models/altclip/modeling_altclip.py +4 -0
transformers/models/apertus/modeling_apertus.py +4 -4
transformers/models/arcee/modeling_arcee.py +4 -4
transformers/models/aria/modeling_aria.py +4 -4
transformers/models/audioflamingo3/modeling_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/modular_audioflamingo3.py +1 -0
transformers/models/auto/configuration_auto.py +11 -0
transformers/models/auto/feature_extraction_auto.py +2 -0
transformers/models/auto/image_processing_auto.py +1 -0
transformers/models/auto/modeling_auto.py +6 -0
transformers/models/auto/processing_auto.py +18 -10
transformers/models/auto/tokenization_auto.py +74 -472
transformers/models/autoformer/modeling_autoformer.py +4 -0
transformers/models/bamba/modeling_bamba.py +4 -3
transformers/models/bark/modeling_bark.py +2 -0
transformers/models/bart/modeling_bart.py +7 -0
transformers/models/barthez/tokenization_barthez.py +5 -10
transformers/models/beit/modeling_beit.py +6 -1
transformers/models/bert/tokenization_bert.py +8 -21
transformers/models/big_bird/modeling_big_bird.py +6 -0
transformers/models/big_bird/tokenization_big_bird.py +18 -42
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +8 -2
transformers/models/biogpt/modeling_biogpt.py +2 -0
transformers/models/biogpt/modular_biogpt.py +2 -0
transformers/models/bit/modeling_bit.py +11 -2
transformers/models/bitnet/modeling_bitnet.py +4 -4
transformers/models/blenderbot/modeling_blenderbot.py +5 -0
transformers/models/blenderbot/tokenization_blenderbot.py +12 -16
transformers/models/blenderbot_small/modeling_blenderbot_small.py +5 -0
transformers/models/blip/modeling_blip_text.py +2 -0
transformers/models/blip_2/modeling_blip_2.py +2 -1
transformers/models/bloom/modeling_bloom.py +4 -0
transformers/models/blt/modeling_blt.py +2 -2
transformers/models/blt/modular_blt.py +2 -2
transformers/models/bridgetower/modeling_bridgetower.py +5 -1
transformers/models/bros/modeling_bros.py +4 -0
transformers/models/camembert/tokenization_camembert.py +8 -12
transformers/models/canine/modeling_canine.py +5 -0
transformers/models/chameleon/modeling_chameleon.py +2 -1
transformers/models/chinese_clip/modeling_chinese_clip.py +3 -0
transformers/models/clap/modeling_clap.py +5 -0
transformers/models/clip/tokenization_clip.py +22 -44
transformers/models/clipseg/modeling_clipseg.py +5 -0
transformers/models/clvp/modeling_clvp.py +5 -0
transformers/models/clvp/tokenization_clvp.py +1 -63
transformers/models/code_llama/tokenization_code_llama.py +20 -43
transformers/models/codegen/tokenization_codegen.py +14 -43
transformers/models/cohere/modeling_cohere.py +4 -3
transformers/models/cohere/modular_cohere.py +2 -1
transformers/models/cohere/tokenization_cohere.py +12 -42
transformers/models/cohere2/modeling_cohere2.py +7 -6
transformers/models/cohere2/modular_cohere2.py +5 -5
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +4 -3
transformers/models/cohere2_vision/modular_cohere2_vision.py +4 -3
transformers/models/colqwen2/modeling_colqwen2.py +1 -0
transformers/models/colqwen2/modular_colqwen2.py +1 -0
transformers/models/conditional_detr/modeling_conditional_detr.py +5 -0
transformers/models/convbert/modeling_convbert.py +6 -0
transformers/models/convnext/modeling_convnext.py +2 -4
transformers/models/convnextv2/modeling_convnextv2.py +2 -4
transformers/models/csm/modeling_csm.py +4 -3
transformers/models/ctrl/modeling_ctrl.py +1 -0
transformers/models/cvt/modeling_cvt.py +2 -0
transformers/models/cwm/modeling_cwm.py +4 -4
transformers/models/d_fine/modeling_d_fine.py +2 -0
transformers/models/d_fine/modular_d_fine.py +1 -0
transformers/models/dab_detr/modeling_dab_detr.py +4 -0
transformers/models/dac/modeling_dac.py +2 -2
transformers/models/data2vec/modeling_data2vec_audio.py +5 -0
transformers/models/data2vec/modeling_data2vec_vision.py +4 -1
transformers/models/dbrx/modeling_dbrx.py +2 -2
transformers/models/deberta/modeling_deberta.py +5 -0
transformers/models/deberta/tokenization_deberta.py +11 -20
transformers/models/deberta_v2/modeling_deberta_v2.py +6 -0
transformers/models/deberta_v2/tokenization_deberta_v2.py +13 -28
transformers/models/decision_transformer/modeling_decision_transformer.py +4 -1
transformers/models/deepseek_v2/modeling_deepseek_v2.py +2 -3
transformers/models/deepseek_v2/modular_deepseek_v2.py +2 -2
transformers/models/deepseek_v3/modeling_deepseek_v3.py +3 -2
transformers/models/deepseek_v3/modular_deepseek_v3.py +1 -0
transformers/models/deformable_detr/modeling_deformable_detr.py +4 -0
transformers/models/depth_anything/modeling_depth_anything.py +1 -0
transformers/models/depth_pro/modeling_depth_pro.py +2 -0
transformers/models/detr/modeling_detr.py +5 -0
transformers/models/dia/modeling_dia.py +4 -3
transformers/models/dia/modular_dia.py +0 -1
transformers/models/diffllama/modeling_diffllama.py +2 -2
transformers/models/dinat/modeling_dinat.py +3 -0
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +1 -1
transformers/models/dinov3_vit/modeling_dinov3_vit.py +2 -2
transformers/models/dinov3_vit/modular_dinov3_vit.py +2 -2
transformers/models/distilbert/tokenization_distilbert.py +13 -0
transformers/models/doge/modeling_doge.py +2 -3
transformers/models/doge/modular_doge.py +0 -1
transformers/models/donut/modeling_donut_swin.py +2 -0
transformers/models/dots1/modeling_dots1.py +10 -7
transformers/models/dots1/modular_dots1.py +5 -3
transformers/models/dpr/modeling_dpr.py +5 -0
transformers/models/dpr/tokenization_dpr.py +12 -0
transformers/models/edgetam/modeling_edgetam.py +1 -1
transformers/models/edgetam_video/modeling_edgetam_video.py +1 -0
transformers/models/edgetam_video/modular_edgetam_video.py +1 -0
transformers/models/efficientloftr/modeling_efficientloftr.py +2 -2
transformers/models/efficientnet/modeling_efficientnet.py +2 -0
transformers/models/emu3/modeling_emu3.py +4 -4
transformers/models/eomt/image_processing_eomt.py +13 -1
transformers/models/eomt/image_processing_eomt_fast.py +14 -2
transformers/models/ernie4_5/modeling_ernie4_5.py +4 -4
transformers/models/ernie4_5/modular_ernie4_5.py +2 -1
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +5 -5
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +2 -2
transformers/models/esm/modeling_esmfold.py +5 -4
transformers/models/evolla/modeling_evolla.py +4 -4
transformers/models/exaone4/modeling_exaone4.py +2 -2
transformers/models/exaone4/modular_exaone4.py +0 -1
transformers/models/falcon/modeling_falcon.py +6 -1
transformers/models/falcon_h1/modeling_falcon_h1.py +4 -3
transformers/models/falcon_mamba/modeling_falcon_mamba.py +25 -35
transformers/models/falcon_mamba/modular_falcon_mamba.py +12 -31
transformers/{kernels/falcon_mamba → models/fast_vlm}/__init__.py +15 -3
transformers/models/fast_vlm/configuration_fast_vlm.py +137 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +455 -0
transformers/models/fast_vlm/modular_fast_vlm.py +273 -0
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +8 -3
transformers/models/flaubert/modeling_flaubert.py +7 -0
transformers/models/flava/modeling_flava.py +6 -1
transformers/models/flex_olmo/modeling_flex_olmo.py +4 -5
transformers/models/florence2/modeling_florence2.py +2 -1
transformers/models/florence2/modular_florence2.py +2 -1
transformers/models/fnet/modeling_fnet.py +7 -0
transformers/models/focalnet/modeling_focalnet.py +4 -0
transformers/models/fsmt/modeling_fsmt.py +2 -0
transformers/models/funnel/modeling_funnel.py +8 -0
transformers/models/funnel/tokenization_funnel.py +17 -24
transformers/models/fuyu/processing_fuyu.py +3 -3
transformers/models/gemma/modeling_gemma.py +4 -4
transformers/models/gemma/tokenization_gemma.py +10 -27
transformers/models/gemma2/modeling_gemma2.py +4 -4
transformers/models/gemma2/modular_gemma2.py +2 -1
transformers/models/gemma3/modeling_gemma3.py +14 -84
transformers/models/gemma3/modular_gemma3.py +12 -81
transformers/models/gemma3n/modeling_gemma3n.py +18 -209
transformers/models/gemma3n/modular_gemma3n.py +17 -59
transformers/models/git/modeling_git.py +2 -0
transformers/models/glm/modeling_glm.py +4 -4
transformers/models/glm4/modeling_glm4.py +4 -4
transformers/models/glm4_moe/modeling_glm4_moe.py +5 -3
transformers/models/glm4v/configuration_glm4v.py +3 -1
transformers/models/glm4v/modeling_glm4v.py +3 -3
transformers/models/glm4v/modular_glm4v.py +6 -4
transformers/models/glm4v_moe/configuration_glm4v_moe.py +3 -1
transformers/models/glm4v_moe/modeling_glm4v_moe.py +6 -5
transformers/models/glm4v_moe/modular_glm4v_moe.py +1 -1
transformers/models/glpn/modeling_glpn.py +2 -0
transformers/models/gpt2/modeling_gpt2.py +5 -1
transformers/models/gpt2/tokenization_gpt2.py +16 -44
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +1 -0
transformers/models/gpt_neo/modeling_gpt_neo.py +4 -0
transformers/models/gpt_neox/modeling_gpt_neox.py +5 -2
transformers/models/gpt_neox/modular_gpt_neox.py +3 -0
transformers/models/gpt_neox/tokenization_gpt_neox.py +10 -49
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +3 -1
transformers/models/gpt_oss/modeling_gpt_oss.py +5 -6
transformers/models/gpt_oss/modular_gpt_oss.py +3 -5
transformers/models/gptj/modeling_gptj.py +3 -0
transformers/models/granite/modeling_granite.py +4 -4
transformers/models/granitemoe/modeling_granitemoe.py +4 -6
transformers/models/granitemoe/modular_granitemoe.py +0 -2
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +4 -6
transformers/models/granitemoeshared/modeling_granitemoeshared.py +4 -6
transformers/models/grounding_dino/modeling_grounding_dino.py +4 -0
transformers/models/groupvit/modeling_groupvit.py +3 -0
transformers/models/helium/modeling_helium.py +4 -3
transformers/models/herbert/tokenization_herbert.py +9 -25
transformers/models/hgnet_v2/modeling_hgnet_v2.py +6 -1
transformers/models/hgnet_v2/modular_hgnet_v2.py +6 -1
transformers/models/hiera/modeling_hiera.py +4 -0
transformers/models/hubert/modeling_hubert.py +3 -0
transformers/models/hubert/modular_hubert.py +1 -0
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +4 -4
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +4 -4
transformers/models/ibert/modeling_ibert.py +6 -0
transformers/models/idefics/modeling_idefics.py +5 -21
transformers/models/imagegpt/modeling_imagegpt.py +2 -1
transformers/models/informer/modeling_informer.py +4 -0
transformers/models/informer/modular_informer.py +1 -0
transformers/models/internvl/modeling_internvl.py +2 -4
transformers/models/internvl/modular_internvl.py +2 -4
transformers/models/jamba/modeling_jamba.py +2 -2
transformers/models/janus/modeling_janus.py +1 -0
transformers/models/janus/modular_janus.py +1 -0
transformers/models/jetmoe/modeling_jetmoe.py +2 -2
transformers/models/kosmos2/modeling_kosmos2.py +1 -0
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +3 -1
transformers/models/lasr/__init__.py +29 -0
transformers/models/lasr/configuration_lasr.py +244 -0
transformers/models/lasr/feature_extraction_lasr.py +277 -0
transformers/models/lasr/modeling_lasr.py +729 -0
transformers/models/lasr/modular_lasr.py +569 -0
transformers/models/lasr/processing_lasr.py +96 -0
transformers/models/lasr/tokenization_lasr.py +186 -0
transformers/models/layoutlm/modeling_layoutlm.py +5 -0
transformers/models/layoutlmv2/modeling_layoutlmv2.py +4 -0
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +10 -53
transformers/models/layoutlmv3/modeling_layoutlmv3.py +4 -0
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +12 -61
transformers/models/layoutxlm/tokenization_layoutxlm.py +13 -38
transformers/models/led/modeling_led.py +6 -0
transformers/models/levit/modeling_levit.py +3 -0
transformers/models/lfm2/modeling_lfm2.py +4 -5
transformers/models/lfm2/modular_lfm2.py +0 -1
transformers/models/lfm2_moe/modeling_lfm2_moe.py +4 -5
transformers/models/lightglue/modeling_lightglue.py +3 -1
transformers/models/lightglue/modular_lightglue.py +1 -0
transformers/models/lilt/modeling_lilt.py +4 -0
transformers/models/llama/modeling_llama.py +4 -4
transformers/models/llama/tokenization_llama.py +15 -43
transformers/models/llama4/modeling_llama4.py +3 -2
transformers/models/longcat_flash/modeling_longcat_flash.py +4 -4
transformers/models/longcat_flash/modular_longcat_flash.py +2 -2
transformers/models/longformer/modeling_longformer.py +6 -0
transformers/models/longt5/modeling_longt5.py +4 -0
transformers/models/luke/modeling_luke.py +9 -0
transformers/models/luke/tokenization_luke.py +11 -38
transformers/models/lxmert/modeling_lxmert.py +2 -0
transformers/models/m2m_100/modeling_m2m_100.py +4 -0
transformers/models/mamba/modeling_mamba.py +14 -22
transformers/models/marian/modeling_marian.py +5 -0
transformers/models/markuplm/modeling_markuplm.py +4 -0
transformers/models/markuplm/tokenization_markuplm.py +28 -61
transformers/models/mask2former/modeling_mask2former.py +2 -0
transformers/models/maskformer/modeling_maskformer.py +2 -0
transformers/models/maskformer/modeling_maskformer_swin.py +2 -0
transformers/models/mbart/modeling_mbart.py +7 -0
transformers/models/mbart/tokenization_mbart.py +11 -52
transformers/models/mbart50/tokenization_mbart50.py +7 -10
transformers/models/megatron_bert/modeling_megatron_bert.py +7 -0
transformers/models/mgp_str/modeling_mgp_str.py +2 -0
transformers/models/mimi/modeling_mimi.py +3 -1
transformers/models/minimax/modeling_minimax.py +4 -4
transformers/models/ministral/modeling_ministral.py +4 -4
transformers/models/ministral3/configuration_ministral3.py +1 -1
transformers/models/ministral3/modeling_ministral3.py +4 -3
transformers/models/mistral/modeling_mistral.py +4 -3
transformers/models/mixtral/modeling_mixtral.py +4 -4
transformers/models/mllama/modeling_mllama.py +2 -2
transformers/models/mluke/tokenization_mluke.py +6 -6
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +4 -0
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +2 -0
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +3 -0
transformers/models/mobilevit/modeling_mobilevit.py +3 -0
transformers/models/mobilevitv2/modeling_mobilevitv2.py +3 -0
transformers/models/modernbert/modeling_modernbert.py +4 -1
transformers/models/modernbert/modular_modernbert.py +2 -0
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +8 -9
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +6 -7
transformers/models/moonshine/modeling_moonshine.py +4 -2
transformers/models/moshi/modeling_moshi.py +5 -2
transformers/models/mpnet/modeling_mpnet.py +5 -0
transformers/models/mpnet/tokenization_mpnet.py +5 -13
transformers/models/mpt/modeling_mpt.py +2 -0
transformers/models/mra/modeling_mra.py +6 -0
transformers/models/mt5/modeling_mt5.py +7 -0
transformers/models/musicgen/modeling_musicgen.py +2 -0
transformers/models/musicgen_melody/modeling_musicgen_melody.py +3 -0
transformers/models/mvp/modeling_mvp.py +7 -0
transformers/models/nanochat/modeling_nanochat.py +4 -4
transformers/models/nemotron/modeling_nemotron.py +4 -2
transformers/models/nllb/tokenization_nllb.py +8 -22
transformers/models/nougat/tokenization_nougat.py +11 -59
transformers/models/nystromformer/modeling_nystromformer.py +6 -0
transformers/models/olmo/modeling_olmo.py +4 -4
transformers/models/olmo/modular_olmo.py +2 -2
transformers/models/olmo2/modeling_olmo2.py +4 -5
transformers/models/olmo2/modular_olmo2.py +0 -1
transformers/models/olmo3/modeling_olmo3.py +4 -4
transformers/models/olmoe/modeling_olmoe.py +4 -4
transformers/models/omdet_turbo/modeling_omdet_turbo.py +2 -0
transformers/models/oneformer/modeling_oneformer.py +4 -1
transformers/models/openai/modeling_openai.py +3 -0
transformers/models/openai/tokenization_openai.py +10 -46
transformers/models/opt/modeling_opt.py +2 -0
transformers/models/owlv2/modeling_owlv2.py +4 -0
transformers/models/owlvit/modeling_owlvit.py +4 -0
transformers/models/paddleocr_vl/__init__.py +32 -0
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +336 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +503 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +209 -0
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +1668 -0
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +1349 -0
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +135 -0
transformers/models/parakeet/configuration_parakeet.py +4 -6
transformers/models/parakeet/modeling_parakeet.py +9 -6
transformers/models/parakeet/modular_parakeet.py +2 -2
transformers/models/parakeet/processing_parakeet.py +1 -0
transformers/models/patchtsmixer/modeling_patchtsmixer.py +6 -0
transformers/models/patchtst/modeling_patchtst.py +20 -2
transformers/models/pegasus/modeling_pegasus.py +5 -0
transformers/models/pegasus/tokenization_pegasus.py +17 -44
transformers/models/pegasus_x/modeling_pegasus_x.py +4 -0
transformers/models/perceiver/modeling_perceiver.py +8 -0
transformers/models/persimmon/modeling_persimmon.py +2 -1
transformers/models/phi/modeling_phi.py +4 -5
transformers/models/phi/modular_phi.py +0 -1
transformers/models/phi3/modeling_phi3.py +2 -1
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +5 -5
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +4 -4
transformers/models/phimoe/modeling_phimoe.py +4 -4
transformers/models/phimoe/modular_phimoe.py +2 -2
transformers/models/pix2struct/modeling_pix2struct.py +2 -0
transformers/models/pixtral/modeling_pixtral.py +2 -1
transformers/models/plbart/modeling_plbart.py +6 -0
transformers/models/plbart/modular_plbart.py +2 -0
transformers/models/plbart/tokenization_plbart.py +0 -2
transformers/models/poolformer/modeling_poolformer.py +2 -0
transformers/models/pop2piano/modeling_pop2piano.py +2 -0
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +1 -0
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +1 -0
transformers/models/prophetnet/modeling_prophetnet.py +3 -0
transformers/models/pvt/modeling_pvt.py +2 -0
transformers/models/pvt_v2/modeling_pvt_v2.py +3 -0
transformers/models/qwen2/modeling_qwen2.py +4 -4
transformers/models/qwen2/tokenization_qwen2.py +14 -18
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +4 -2
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +13 -16
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +14 -16
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +1 -1
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +5 -6
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +3 -5
transformers/models/qwen2_audio/modeling_qwen2_audio.py +2 -0
transformers/models/qwen2_moe/modeling_qwen2_moe.py +4 -4
transformers/models/qwen2_vl/configuration_qwen2_vl.py +1 -1
transformers/models/qwen2_vl/modeling_qwen2_vl.py +6 -16
transformers/models/qwen3/modeling_qwen3.py +4 -4
transformers/models/qwen3_moe/modeling_qwen3_moe.py +4 -4
transformers/models/qwen3_next/modeling_qwen3_next.py +4 -3
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +21 -23
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +14 -16
transformers/models/qwen3_vl/modeling_qwen3_vl.py +39 -37
transformers/models/qwen3_vl/modular_qwen3_vl.py +37 -35
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +39 -37
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +4 -1
transformers/models/rag/modeling_rag.py +1 -0
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +15 -1
transformers/models/reformer/modeling_reformer.py +4 -0
transformers/models/reformer/tokenization_reformer.py +11 -28
transformers/models/regnet/modeling_regnet.py +6 -1
transformers/models/rembert/modeling_rembert.py +6 -0
transformers/models/rembert/tokenization_rembert.py +3 -10
transformers/models/resnet/modeling_resnet.py +11 -2
transformers/models/roberta/tokenization_roberta.py +18 -27
transformers/models/roformer/modeling_roformer.py +6 -0
transformers/models/roformer/tokenization_roformer.py +77 -412
transformers/models/rt_detr/modeling_rt_detr.py +2 -0
transformers/models/rt_detr/modeling_rt_detr_resnet.py +5 -1
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +2 -0
transformers/models/rwkv/modeling_rwkv.py +1 -0
transformers/models/sam2/modeling_sam2.py +2 -2
transformers/models/sam2/modular_sam2.py +2 -2
transformers/models/sam2_video/modeling_sam2_video.py +1 -0
transformers/models/sam2_video/modular_sam2_video.py +1 -0
transformers/models/sam3/modeling_sam3.py +77 -80
transformers/models/sam3_tracker/modeling_sam3_tracker.py +6 -1
transformers/models/sam3_tracker/modular_sam3_tracker.py +6 -1
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +1 -0
transformers/models/sam3_video/modeling_sam3_video.py +1 -0
transformers/models/seamless_m4t/modeling_seamless_m4t.py +5 -1
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +27 -59
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +5 -1
transformers/models/seed_oss/modeling_seed_oss.py +2 -2
transformers/models/segformer/modeling_segformer.py +4 -1
transformers/models/seggpt/modeling_seggpt.py +2 -0
transformers/models/sew/modeling_sew.py +3 -0
transformers/models/sew/modular_sew.py +1 -0
transformers/models/sew_d/modeling_sew_d.py +3 -0
transformers/models/siglip2/modeling_siglip2.py +4 -0
transformers/models/siglip2/modular_siglip2.py +4 -0
transformers/models/smollm3/modeling_smollm3.py +4 -4
transformers/models/smolvlm/processing_smolvlm.py +0 -7
transformers/models/speech_to_text/modeling_speech_to_text.py +4 -0
transformers/models/speecht5/modeling_speecht5.py +13 -1
transformers/models/splinter/modeling_splinter.py +3 -0
transformers/models/splinter/tokenization_splinter.py +9 -28
transformers/models/squeezebert/modeling_squeezebert.py +6 -0
transformers/models/stablelm/modeling_stablelm.py +3 -1
transformers/models/starcoder2/modeling_starcoder2.py +4 -3
transformers/models/superglue/modeling_superglue.py +1 -0
transformers/models/superpoint/modeling_superpoint.py +1 -0
transformers/models/swiftformer/modeling_swiftformer.py +2 -0
transformers/models/swin/modeling_swin.py +4 -0
transformers/models/swin2sr/modeling_swin2sr.py +2 -0
transformers/models/swinv2/modeling_swinv2.py +4 -0
transformers/models/t5/modeling_t5.py +7 -0
transformers/models/t5/tokenization_t5.py +4 -8
transformers/models/t5gemma/modeling_t5gemma.py +5 -5
transformers/models/t5gemma2/modeling_t5gemma2.py +6 -6
transformers/models/table_transformer/modeling_table_transformer.py +4 -0
transformers/models/tapas/modeling_tapas.py +3 -0
transformers/models/textnet/modeling_textnet.py +11 -2
transformers/models/time_series_transformer/modeling_time_series_transformer.py +4 -0
transformers/models/timesfm/modeling_timesfm.py +2 -0
transformers/models/timesfm/modular_timesfm.py +2 -0
transformers/models/timesformer/modeling_timesformer.py +2 -0
transformers/models/timm_wrapper/modeling_timm_wrapper.py +1 -1
transformers/models/trocr/modeling_trocr.py +2 -0
transformers/models/tvp/modeling_tvp.py +2 -0
transformers/models/udop/modeling_udop.py +4 -0
transformers/models/udop/tokenization_udop.py +5 -13
transformers/models/umt5/modeling_umt5.py +7 -0
transformers/models/unispeech/modeling_unispeech.py +4 -0
transformers/models/unispeech/modular_unispeech.py +2 -0
transformers/models/unispeech_sat/modeling_unispeech_sat.py +6 -0
transformers/models/unispeech_sat/modular_unispeech_sat.py +2 -0
transformers/models/univnet/modeling_univnet.py +1 -0
transformers/models/upernet/modeling_upernet.py +1 -0
transformers/models/vaultgemma/modeling_vaultgemma.py +4 -4
transformers/models/vilt/modeling_vilt.py +6 -0
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +1 -0
transformers/models/visual_bert/modeling_visual_bert.py +6 -0
transformers/models/vitdet/modeling_vitdet.py +2 -0
transformers/models/vitmatte/modeling_vitmatte.py +1 -0
transformers/models/vits/modeling_vits.py +1 -0
transformers/models/vjepa2/modeling_vjepa2.py +1 -0
transformers/models/wav2vec2/modeling_wav2vec2.py +7 -0
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +5 -0
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +5 -0
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +6 -0
transformers/models/wavlm/modeling_wavlm.py +5 -0
transformers/models/whisper/modeling_whisper.py +6 -0
transformers/models/whisper/tokenization_whisper.py +4 -15
transformers/models/x_clip/modeling_x_clip.py +3 -0
transformers/models/xglm/modeling_xglm.py +1 -0
transformers/models/xglm/tokenization_xglm.py +4 -9
transformers/models/xlm/modeling_xlm.py +5 -0
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +9 -16
transformers/models/xlnet/tokenization_xlnet.py +3 -7
transformers/models/yoso/modeling_yoso.py +6 -0
transformers/models/zamba/modeling_zamba.py +2 -0
transformers/models/zamba2/modeling_zamba2.py +4 -2
transformers/models/zamba2/modular_zamba2.py +1 -1
transformers/models/zoedepth/modeling_zoedepth.py +1 -0
transformers/pipelines/__init__.py +2 -3
transformers/pipelines/base.py +1 -9
transformers/pipelines/document_question_answering.py +3 -1
transformers/pipelines/text_generation.py +1 -1
transformers/processing_utils.py +23 -11
transformers/quantizers/base.py +35 -110
transformers/quantizers/quantizer_aqlm.py +1 -5
transformers/quantizers/quantizer_auto_round.py +1 -2
transformers/quantizers/quantizer_awq.py +17 -81
transformers/quantizers/quantizer_bitnet.py +3 -8
transformers/quantizers/quantizer_bnb_4bit.py +13 -110
transformers/quantizers/quantizer_bnb_8bit.py +16 -92
transformers/quantizers/quantizer_compressed_tensors.py +1 -5
transformers/quantizers/quantizer_eetq.py +14 -62
transformers/quantizers/quantizer_fbgemm_fp8.py +34 -125
transformers/quantizers/quantizer_finegrained_fp8.py +13 -105
transformers/quantizers/quantizer_fp_quant.py +48 -78
transformers/quantizers/quantizer_gptq.py +7 -24
transformers/quantizers/quantizer_higgs.py +40 -54
transformers/quantizers/quantizer_hqq.py +144 -153
transformers/quantizers/quantizer_mxfp4.py +13 -167
transformers/quantizers/quantizer_quanto.py +20 -64
transformers/quantizers/quantizer_quark.py +36 -17
transformers/quantizers/quantizer_spqr.py +1 -4
transformers/quantizers/quantizer_torchao.py +23 -202
transformers/quantizers/quantizer_vptq.py +8 -22
transformers/quantizers/quantizers_utils.py +20 -0
transformers/testing_utils.py +297 -36
transformers/tokenization_mistral_common.py +4 -0
transformers/tokenization_utils_base.py +113 -222
transformers/tokenization_utils_tokenizers.py +168 -107
transformers/trainer.py +28 -31
transformers/trainer_jit_checkpoint.py +126 -0
transformers/trainer_utils.py +1 -1
transformers/training_args.py +66 -28
transformers/utils/__init__.py +3 -4
transformers/utils/auto_docstring.py +1 -0
transformers/utils/generic.py +27 -1
transformers/utils/hub.py +5 -15
transformers/utils/import_utils.py +61 -16
transformers/utils/kernel_config.py +4 -2
transformers/utils/loading_report.py +19 -10
transformers/utils/quantization_config.py +75 -242
transformers/video_processing_utils.py +1 -2
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/METADATA +274 -227
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/RECORD +536 -520
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/WHEEL +1 -1
transformers/kernels/__init__.py +0 -0
transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py +0 -529
transformers/models/roformer/tokenization_roformer_fast.py +0 -160
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info/licenses}/LICENSE +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/top_level.txt +0 -0

transformers/quantizers/quantizer_quanto.py CHANGED Viewed

@@ -40,23 +40,10 @@ class QuantoHfQuantizer(HfQuantizer):
     Quantizer for the quanto library
     """
-    required_packages = ["quanto", "accelerate"]
-    requires_parameters_quantization = True
     requires_calibration = False
     def __init__(self, quantization_config: QuantoConfig, **kwargs):
         super().__init__(quantization_config, **kwargs)
-        self.post_init()
-    def post_init(self):
-        r"""
-        Safety checker
-        """
-        if self.quantization_config.activations is not None and not self.pre_quantized:
-            raise ValueError(
-                "We don't support quantizing the activations with transformers library."
-                "Use quanto library for more complex use cases such as activations quantization, calibration and quantization aware training."
-            )
     def validate_environment(self, *args, **kwargs):
         if not is_optimum_quanto_available():
@@ -67,42 +54,22 @@ class QuantoHfQuantizer(HfQuantizer):
             raise ImportError(
                 "Loading an optimum-quanto quantized model requires accelerate library (`pip install accelerate`)"
             )
-    def update_device_map(self, device_map):
-        if device_map is None:
-            device_map = {"": "cpu"}
-            logger.info(
-                "The device_map was not initialized. "
-                "Setting device_map to {'':'cpu'}. "
-                "If you want to use the model for inference, please set device_map ='auto'"
+        device_map = kwargs.get("device_map")
+        if isinstance(device_map, dict):
+            if len(device_map) > 1 and "cpu" in device_map.values() or "disk" in device_map.values():
+                raise ValueError(
+                    "You are attempting to load an model with a device_map that contains a CPU or disk device."
+                    "This is not supported with quanto when the model is quantized on the fly. "
+                    "Please remove the CPU or disk device from the device_map."
+                )
+        if self.quantization_config.activations is not None:
+            raise ValueError(
+                "We don't support quantizing the activations with transformers library."
+                "Use quanto library for more complex use cases such as activations quantization, calibration and quantization aware training."
             )
-        return device_map
-    def update_dtype(self, dtype: "torch.dtype") -> "torch.dtype":
-        if dtype is None:
-            logger.info("You did not specify `dtype` in `from_pretrained`. Setting it to `torch.float32`.")
-            dtype = torch.float32
-        return dtype
-    def update_missing_keys(self, model, missing_keys: list[str], prefix: str) -> list[str]:
-        if is_optimum_quanto_available():
-            from optimum.quanto import QModuleMixin
-        not_missing_keys = []
-        for name, module in model.named_modules():
-            if isinstance(module, QModuleMixin):
-                for missing in missing_keys:
-                    if (
-                        (name in missing or name in f"{prefix}.{missing}")
-                        and not missing.endswith(".weight")
-                        and not missing.endswith(".bias")
-                    ):
-                        not_missing_keys.append(missing)
-        return [k for k in missing_keys if k not in not_missing_keys]
     def param_needs_quantization(self, model: "PreTrainedModel", param_name: str, **kwargs) -> bool:
-        if is_optimum_quanto_available():
-            from optimum.quanto import QModuleMixin
+        from optimum.quanto import QModuleMixin
         module, tensor_name = get_module_from_name(model, param_name)
         # We only quantize the weights and the bias is not quantized.
@@ -116,21 +83,6 @@ class QuantoHfQuantizer(HfQuantizer):
         max_memory = {key: val * 0.90 for key, val in max_memory.items()}
         return max_memory
-    def create_quantized_param(
-        self,
-        model: "PreTrainedModel",
-        param_value: "torch.Tensor",
-        param_name: str,
-        target_device: "torch.device",
-        **kwargs,
-    ):
-        from ..modeling_utils import _load_parameter_into_model
-        _load_parameter_into_model(model, param_name, param_value.to(target_device))
-        module, _ = get_module_from_name(model, param_name)
-        module.freeze()
-        module.weight.requires_grad = False
     def adjust_target_dtype(self, target_dtype: "torch.dtype") -> "torch.dtype":
         from accelerate.utils import CustomDtype
@@ -152,14 +104,18 @@ class QuantoHfQuantizer(HfQuantizer):
             model, self.quantization_config.modules_to_not_convert, keep_in_fp32_modules
         )
-        model, _ = replace_with_quanto_layers(
+        model = replace_with_quanto_layers(
             model, modules_to_not_convert=self.modules_to_not_convert, quantization_config=self.quantization_config
         )
-        model.config.quantization_config = self.quantization_config
     @property
     def is_trainable(self) -> bool:
         return True
-    def is_serializable(self, safe_serialization=None):
+    def is_serializable(self):
         return False
+    def get_quantize_ops(self):
+        from ..integrations.quanto import QuantoQuantize
+        return QuantoQuantize(self)

transformers/quantizers/quantizer_quark.py CHANGED Viewed

@@ -45,12 +45,6 @@ class QuarkHfQuantizer(HfQuantizer):
     """
     requires_calibration = True  # On-the-fly quantization with quark is not supported for now.
-    required_packages = ["quark"]
-    # Checkpoints are expected to be already quantized when loading a quark model. However, as some keys from
-    # the checkpoint might mismatch the model parameters keys, we use the `create_quantized_param` method
-    # to load the checkpoints, remapping the keys.
-    requires_parameters_quantization = True
     def __init__(self, quantization_config, **kwargs):
         super().__init__(quantization_config, **kwargs)
@@ -78,19 +72,44 @@ class QuarkHfQuantizer(HfQuantizer):
     def param_needs_quantization(self, model: "PreTrainedModel", param_name: str, **kwargs) -> bool:
         return True
-    def create_quantized_param(self, model, param, param_name, param_device, **kwargs):
-        from ..modeling_utils import _load_parameter_into_model
-        postfix = param_name.split(".")[-1]
-        if postfix in CHECKPOINT_KEYS:
-            param_name = param_name.replace(postfix, CHECKPOINT_KEYS[postfix])
-        _load_parameter_into_model(model, param_name, param.to(param_device))
-    def is_serializable(self, safe_serialization=None):
+    def is_serializable(self):
         return False
     @property
     def is_trainable(self):
         return False
+    def get_weight_conversions(self):
+        from ..core_model_loading import WeightConverter
+        from ..integrations.quark import QuarkDeserialize
+        # In Quark, quantization is managed through a QParamsLinear module, which holds
+        # separate quantizers for the weights, inputs, and biases (e.g. weight_quantizer
+        # input_quantizer, bias_quantizer, etc.).
+        #
+        # When you call `module.state_dict()`, Quark automatically renames the quantizer
+        # parameters — for example, `input_quantizer.scale` becomes `input_scale` — and
+        # saves them directly at the parent module level.
+        #
+        # This means we cannot simply rename keys like `weight_scale` back to
+        # `weight_quantizer.scale` when loading the state_dict.
+        # Otherwise, the `missing_keys` list would still expect keys such as
+        # `weight_scale`, `bias_scale`, etc.
+        #
+        # To fix this, we keep the expected state_dict keys (like `weight_scale`,
+        # `bias_scale`, etc.) unchanged, and during the conversion step, we explicitly
+        # assign their values into the corresponding quantizer attributes
+        # (`weight_quantizer.scale`, `input_quantizer.scale`, and so on).
+        # You can notice here that in target_patterns we use the same key as the source_patterns,
+        # this is because we just want to collect the tensors, and we will rename them later in the convert function.
+        # We cannot rename directly or else the missing_keys list will not be able to find the tensors.
+        converters = []
+        for key in CHECKPOINT_KEYS.keys():
+            converters.append(
+                WeightConverter(
+                    source_patterns=[key],
+                    target_patterns=key,
+                    operations=[QuarkDeserialize(self)],
+                )
+            )
+        return converters

transformers/quantizers/quantizer_spqr.py CHANGED Viewed

@@ -39,7 +39,6 @@ class SpQRHfQuantizer(HfQuantizer):
     def __init__(self, quantization_config: QuantizationConfigMixin, **kwargs):
         super().__init__(quantization_config, **kwargs)
-        self.quantization_config = quantization_config
     def validate_environment(self, *args, **kwargs):
         if not torch.cuda.is_available():
@@ -71,17 +70,15 @@ class SpQRHfQuantizer(HfQuantizer):
         self.modules_to_not_convert = self.get_modules_to_not_convert(
             model, self.quantization_config.modules_to_not_convert, keep_in_fp32_modules
         )
         replace_with_spqr_linear(
             model,
             quantization_config=self.quantization_config,
             modules_to_not_convert=self.modules_to_not_convert,
         )
-        model.config.quantization_config = self.quantization_config
     @property
     def is_trainable(self):
         return False
-    def is_serializable(self, safe_serialization=None):
+    def is_serializable(self):
         return True

transformers/quantizers/quantizer_torchao.py CHANGED Viewed

@@ -13,8 +13,6 @@
 # limitations under the License.
 import importlib
 import re
-import types
-from collections import defaultdict
 from typing import TYPE_CHECKING
 from packaging import version
@@ -37,17 +35,12 @@ if is_torch_available():
 if is_torch_available():
     import torch
-    import torch.nn as nn
 if is_torchao_available():
-    import torchao
-    if version.parse(importlib.metadata.version("torchao")) >= version.parse("0.14.0"):
+    if version.parse(importlib.metadata.version("torchao")) >= version.parse("0.15.0"):
         from torchao.prototype.safetensors.safetensors_support import (
             flatten_tensor_state_dict,
-            unflatten_tensor_state_dict,
         )
-        from torchao.prototype.safetensors.safetensors_utils import is_metadata_torchao
 logger = logging.get_logger(__name__)
@@ -88,11 +81,6 @@ def _linear_extra_repr(self):
 if is_torchao_available():
-    SUPPORTED_SAFE_SERIALIZATION_CONFIGS = [
-        torchao.quantization.Float8WeightOnlyConfig,
-        torchao.quantization.Float8DynamicActivationFloat8WeightConfig,
-    ]
     TORCHAO_VERSION = version.parse(importlib.metadata.version("torchao"))
@@ -101,9 +89,7 @@ class TorchAoHfQuantizer(HfQuantizer):
     Quantizer for torchao: https://github.com/pytorch/ao/
     """
-    requires_parameters_quantization = True
     requires_calibration = False
-    required_packages = ["torchao"]
     def __init__(self, quantization_config, **kwargs):
         super().__init__(quantization_config, **kwargs)
@@ -166,20 +152,16 @@ class TorchAoHfQuantizer(HfQuantizer):
                 dtype = torch.float32
         return dtype
-    def get_state_dict_and_metadata(self, model, safe_serialization: bool | None = False):
+    def get_state_dict_and_metadata(self, model):
         """
-        If the model is safe serializable, we flatten the state dict of tensor subclasses so that it is compatible with
-        the safetensors format.
+        We flatten the state dict of tensor subclasses so that it is compatible with the safetensors format.
         """
-        if type(self.quantization_config.quant_type) in SUPPORTED_SAFE_SERIALIZATION_CONFIGS and safe_serialization:
-            if TORCHAO_VERSION >= version.parse("0.14.0"):
-                return flatten_tensor_state_dict(model.state_dict())
-            else:
-                raise RuntimeError(
-                    f"In order to use safetensors with torchao, please use torchao version >= 0.14.0. Current version: {TORCHAO_VERSION}"
-                )
+        if TORCHAO_VERSION >= version.parse("0.15.0"):
+            return flatten_tensor_state_dict(model.state_dict()), {}
         else:
-            return None, {}
+            raise RuntimeError(
+                f"In order to use safetensors with torchao, please use torchao version >= 0.15.0. Current version: {TORCHAO_VERSION}"
+            )
     def adjust_target_dtype(self, dtype: "torch.dtype") -> "torch.dtype":
         from accelerate.utils import CustomDtype
@@ -237,9 +219,6 @@ class TorchAoHfQuantizer(HfQuantizer):
             ]
         return
-    def update_unexpected_keys(self, model, unexpected_keys: list[str]) -> list[str]:
-        return [k for k in unexpected_keys if not any(k.endswith(x) for x in self.full_ao_keys)]
     def param_needs_quantization(self, model: "PreTrainedModel", param_name: str, **kwargs) -> bool:
         if self.pre_quantized:
             return False
@@ -249,8 +228,6 @@ class TorchAoHfQuantizer(HfQuantizer):
         # check if the param_name is not in self.modules_to_not_convert
         if any(key + "." in param_name or key == param_name for key in self.modules_to_not_convert):
             return False
-        elif any(param_name.endswith(f":{x}") for x in self.full_ao_keys):
-            return True
         # we only quantize the weight of nn.Linear and nn.Embedding
         module, tensor_name = get_module_from_name(model, param_name)
@@ -276,148 +253,6 @@ class TorchAoHfQuantizer(HfQuantizer):
         return isinstance(module, tuple(_QUANTIZABLE)) and tensor_name == "weight"
-    def create_quantized_param(
-        self,
-        model: "PreTrainedModel",
-        param_value: "torch.Tensor",
-        param_name: str,
-        target_device: "torch.device",
-        **kwargs,
-    ):
-        """
-        Each nn.Linear layer that needs to be quantized is processed here.
-        First, we set the value the weight tensor, then we move it to the target device. Finally, we quantize the module.
-        """
-        from torchao.quantization import quantize_
-        full_name = param_name
-        # Those are the pre quantized weights
-        if ":" in param_name:
-            param_name = param_name.rsplit(":", 1)[0]
-        module, tensor_name = get_module_from_name(model, param_name)
-        if self.pre_quantized:
-            # If it's a bias, no need to do anything special (except removing the ":_data" part of the key, but was
-            # already done) - if it's unsafe-serialized (i.e. not safetensors), not need for anything either
-            is_unsafe_serialization = ":" not in full_name
-            if tensor_name == "bias" or is_unsafe_serialization:
-                module._parameters[tensor_name] = torch.nn.Parameter(
-                    param_value.to(target_device), requires_grad=param_value.requires_grad
-                )
-                return
-            # Sanity check for the new serialization format
-            elif not (TORCHAO_VERSION >= version.parse("0.14.0") and is_metadata_torchao(self.metadata)):
-                raise ValueError("To use `safetensors` serialization, you should have `torchao>=0.14.0` installed")
-            # Save the states for later quantization when they are all gathered
-            if not hasattr(self, "ao_params"):
-                self.ao_params = defaultdict(dict)
-            self.ao_params[param_name].update({full_name: param_value})
-            # We are ready for quantization in this case (we retrieved all the needed keys)
-            if len(self.ao_params[param_name]) == len(self.weight_ao_keys):
-                new_param = unflatten_tensor_state_dict(self.ao_params[param_name], self.metadata)[param_name]
-                # Set it
-                module._parameters[tensor_name] = torch.nn.Parameter(
-                    new_param.to(target_device), requires_grad=new_param.requires_grad
-                )
-                # Free memory
-                del self.ao_params[param_name]
-            # Add repr to the module
-            if isinstance(module, nn.Linear):
-                module.extra_repr = types.MethodType(_linear_extra_repr, module)
-        else:
-            module._parameters[tensor_name] = torch.nn.Parameter(
-                param_value, requires_grad=param_value.requires_grad
-            ).to(target_device)
-            # if we are quantizing tied parameters, to avoid tying the quantized weights
-            # the correct order to do it is
-            # 1. load the weight to model
-            # 2. run tie_weights to populate the weights
-            # 3. quantize
-            input_embed = model.get_input_embeddings()
-            if self.quantization_config.untie_embedding_weights and id(module) == id(input_embed):
-                model.tie_weights()
-                setattr(model.config.get_text_config(decoder=True), "tie_word_embeddings", False)
-            # handle FqnToConfig, introduced in torchao 0.15.0+
-            if self.quantization_config._get_ao_version() >= version.Version("0.15.0"):
-                from torchao.quantization import FqnToConfig
-                config = self.quantization_config.get_apply_tensor_subclass()
-                if isinstance(config, FqnToConfig):
-                    module_fqn, top_level_param_name = param_name.rsplit(".", 1)
-                    c = None
-                    if param_name in config.fqn_to_config:
-                        assert not module_fqn.startswith("re:"), (
-                            "param fqn should not start with`re:`, which is used for specifying regex"
-                        )
-                        c = config.module_fqn_to_config[param_name]
-                    elif module_fqn in config.fqn_to_config:
-                        assert not module_fqn.startswith("re:"), (
-                            "module fqn should not start with`re:`, which is used for specifying regex"
-                        )
-                        c = config.module_fqn_to_config[module_fqn]
-                    # regex match module and param
-                    else:
-                        for maybe_module_fqn_pattern in config.fqn_to_config:
-                            # if key doesn't start with re, it is an exact fqn key, so we don't regex match
-                            if not maybe_module_fqn_pattern.startswith("re:"):
-                                continue
-                            # see if param matches first
-                            elif re.fullmatch(maybe_module_fqn_pattern[3:], param_name):
-                                c = config.module_fqn_to_config[maybe_module_fqn_pattern]
-                                break
-                            elif re.fullmatch(maybe_module_fqn_pattern[3:], module_fqn):
-                                # we'll apply the config for first fully matched pattern
-                                c = config.module_fqn_to_config[maybe_module_fqn_pattern]
-                                break
-                        else:
-                            c = config.module_fqn_to_config.get("_default", None)
-                    if c is not None:
-                        if top_level_param_name == "weight":
-                            # we can apply the module config directly
-                            quantize_(module, c, (lambda x, fqn: True))
-                        else:
-                            # need to apply to custom param name
-                            custom_param_fqn_config = FqnToConfig({top_level_param_name: c})
-                            quantize_(module, custom_param_fqn_config, filter_fn=None)
-                    return
-            # handle ModuleFqnToConfig, introduced in torchao 0.12.0+
-            # TODO deprecate this when we deprecate ModuleFqnToConfig
-            elif self.quantization_config._get_ao_version() >= version.Version("0.12.0"):
-                from torchao.quantization import ModuleFqnToConfig
-                config = self.quantization_config.get_apply_tensor_subclass()
-                if isinstance(config, ModuleFqnToConfig):
-                    module_fqn, _ = param_name.rsplit(".", 1)
-                    c = None
-                    if module_fqn in config.module_fqn_to_config:
-                        assert not module_fqn.startswith("re:"), (
-                            "module fqn should not start with`re:`, which is used for specifying regex"
-                        )
-                        c = config.module_fqn_to_config[module_fqn]
-                    else:
-                        for maybe_module_fqn_pattern in config.module_fqn_to_config:
-                            if not maybe_module_fqn_pattern.startswith("re:"):
-                                continue
-                            elif re.fullmatch(maybe_module_fqn_pattern[3:], module_fqn):
-                                # we'll apply the config for first fully matched pattern
-                                c = config.module_fqn_to_config[maybe_module_fqn_pattern]
-                                break
-                        else:
-                            c = config.module_fqn_to_config.get("_default", None)
-                    if c is not None:
-                        # filter_fn: not filtering out any modules
-                        quantize_(module, c, filter_fn=lambda x, fqn: True)
-                    return
-            quantize_(module, self.quantization_config.get_apply_tensor_subclass())
     def preprocess_model(self, model: "PreTrainedModel", config, dtype=None, checkpoint_files=None, **kwargs):
         """
         Setting model attributes and/or converting model before weights loading. At this point
@@ -450,30 +285,13 @@ class TorchAoHfQuantizer(HfQuantizer):
             return model
         return
-    def is_serializable(self, safe_serialization=None) -> bool:
-        if safe_serialization:
-            _is_torchao_serializable = type(
-                self.quantization_config.quant_type
-            ) in SUPPORTED_SAFE_SERIALIZATION_CONFIGS and TORCHAO_VERSION >= version.parse("0.14.0")
-            if not _is_torchao_serializable:
-                logger.warning(
-                    f"torchao quantized model only supports safe serialization for {SUPPORTED_SAFE_SERIALIZATION_CONFIGS}, \
-                    and torchao version >= 0.14.0, please set `safe_serialization` to False for \
-                    {type(self.quantization_config.quant_type)} and {TORCHAO_VERSION}."
-                )
-            return _is_torchao_serializable
-        _is_torchao_serializable = version.parse(importlib.metadata.version("huggingface_hub")) >= version.parse(
-            "0.25.0"
-        )
-        if not _is_torchao_serializable:
-            logger.warning("torchao quantized model is only serializable after huggingface_hub >= 0.25.0 ")
-        if self.offload and self.quantization_config.modules_to_not_convert is None:
+    def is_serializable(self) -> bool:
+        _is_torchao_serializable = TORCHAO_VERSION >= version.parse("0.15.0")
+        if not TORCHAO_VERSION >= version.parse("0.15.0"):
             logger.warning(
-                "The model contains offloaded modules and these modules are not quantized. We don't recommend saving the model as we won't be able to reload them."
-                "If you want to specify modules to not quantize, please specify modules_to_not_convert in the quantization_config."
+                "torchao quantized model only supports serialization for torchao version >= 0.15.0, please upgrade "
+                "your version to save the quantized model"
             )
-            return False
         return _is_torchao_serializable
     def get_accelerator_warm_up_factor(self):
@@ -548,15 +366,18 @@ class TorchAoHfQuantizer(HfQuantizer):
         if self.pre_quantized:
             return [
                 WeightConverter(
-                    source_patterns=["weight:qdata", "weight:scale", "weight:zero_point"],
-                    target_patterns="weight",
-                    operations=[TorchAoDeserialize(self)],
-                ),
-                WeightConverter(
-                    source_patterns=["weight:_data"],
+                    # TODO: incr flexibility by generalizing the source patterns to match the format of "_weight_"
+                    # note that the matching logic is greedy, so for ex, if _weight_scale is before _weight_scale_and_zero in this list, it will match _weight_scale always (this is incorrect)
+                    # thus, the order of source_patterns is intentional
+                    source_patterns=[
+                        "_weight_qdata",
+                        "_weight_scale_and_zero",
+                        "_weight_scale",
+                        "_weight_zero_point",
+                        "_weight_act_pre_scale",
+                    ],
                     target_patterns="weight",
                     operations=[TorchAoDeserialize(self)],
                 ),
-                # used for unsafe serialization
             ]
         return []

transformers/quantizers/quantizer_vptq.py CHANGED Viewed

@@ -35,11 +35,9 @@ class VptqHfQuantizer(HfQuantizer):
     """
     requires_calibration = True
-    required_packages = ["vptq"]
     def __init__(self, quantization_config: QuantizationConfigMixin, **kwargs):
         super().__init__(quantization_config, **kwargs)
-        self.quantization_config = quantization_config
     def validate_environment(self, *args, **kwargs):
         if not is_accelerate_available():
@@ -48,21 +46,15 @@ class VptqHfQuantizer(HfQuantizer):
         if not is_vptq_available():
             raise ImportError("Using `vptq` quantization requires VPTQ>=0.0.4: `pip install -U vptq`")
+        if not torch.cuda.is_available():
+            raise RuntimeError("GPU is required to run VTPQ quantized model.")
     def update_dtype(self, dtype: "torch.dtype") -> "torch.dtype":
         if dtype is None:
-            if torch.cuda.is_available():
-                dtype = torch.float16
-                logger.info(
-                    "CUDA available. Assuming VPTQ inference on GPU and loading the model in `torch.float16`. To overwrite it, set `dtype` manually."
-                )
-            else:
-                import vptq
-                device_availability = getattr(vptq, "device_availability", lambda device: False)
-                if device_availability("cpu") is True:
-                    raise RuntimeError("No GPU found. Please wait for the next release of VPTQ to use CPU inference")
-                dtype = torch.float32
-                logger.info("No GPU found. Assuming VPTQ inference on CPU and loading the model in `torch.float32`.")
+            dtype = torch.float16
+            logger.info(
+                "Assuming VPTQ inference on GPU and loading the model in `torch.float16`. To overwrite it, set `dtype` manually."
+            )
         return dtype
     def _process_model_before_weight_loading(
@@ -71,26 +63,20 @@ class VptqHfQuantizer(HfQuantizer):
         keep_in_fp32_modules: list[str] | None = None,
         **kwargs,
     ):
-        """
-        we don't have param like modules_to_not_convert to indicate which layers should not be quantized
-        because `quantization_config` include the layers that should be quantized
-        """
         from ..integrations import replace_with_vptq_linear
         self.modules_to_not_convert = self.get_modules_to_not_convert(
             model, self.quantization_config.modules_to_not_convert, keep_in_fp32_modules
         )
         replace_with_vptq_linear(
             model,
             quantization_config=self.quantization_config,
             modules_to_not_convert=self.modules_to_not_convert,
         )
-        model.config.quantization_config = self.quantization_config
     @property
     def is_trainable(self) -> bool:
         return False
-    def is_serializable(self, safe_serialization=None):
+    def is_serializable(self):
         return True

transformers/quantizers/quantizers_utils.py CHANGED Viewed

@@ -11,6 +11,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+import re
 from typing import Any
@@ -19,3 +20,22 @@ def get_module_from_name(module, tensor_name: str) -> tuple[Any, str]:
         module_name, tensor_name = tensor_name.rsplit(".", 1)
         module = module.get_submodule(module_name)
     return module, tensor_name
+def should_convert_module(full_name, patterns: list[str] | None = None):
+    if patterns is None:
+        return True
+    # We should avoid converting in the following situations:
+    # 1. The pattern appears as a prefix followed by a dot in `full_name`
+    #    (e.g., "model.decoder.layer.11." matches "model.decoder.layer.11.attn.weight").
+    # 2. The pattern matches `full_name` exactly or via regex
+    #    (e.g., "lm_head" matches "lm_head"; "model.decoder.layer.*" matches "model.decoder.layer.11.attn.weight").
+    # 3. `full_name` ends with the pattern
+    #    (e.g., "fc1" matches "model.decoder.layers.23.fc1").
+    should_not_convert = any(
+        re.match(f"{key}\\.", full_name) or re.match(f"{key}", full_name) or full_name.endswith(key)
+        for key in patterns
+    )
+    return not should_not_convert

transformers 5.0.0rc0__py3-none-any.whl → 5.0.0rc1__py3-none-any.whl

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc1py3-none-any.whl