PyPI - transformers - Versions diffs - 5.0.0rc0__py3-none-any.whl → 5.0.0rc1__py3-none-any.whl - Mend

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (539) hide show

transformers/__init__.py +30 -3
transformers/cli/serve.py +47 -17
transformers/conversion_mapping.py +15 -2
transformers/convert_slow_tokenizer.py +225 -10
transformers/core_model_loading.py +196 -135
transformers/data/data_collator.py +12 -4
transformers/dependency_versions_table.py +1 -2
transformers/dynamic_module_utils.py +1 -2
transformers/feature_extraction_utils.py +1 -2
transformers/file_utils.py +0 -1
transformers/generation/__init__.py +11 -1
transformers/generation/configuration_utils.py +3 -2
transformers/generation/continuous_batching/__init__.py +4 -0
transformers/generation/continuous_batching/continuous_api.py +134 -79
transformers/image_processing_base.py +1 -2
transformers/integrations/__init__.py +4 -2
transformers/integrations/accelerate.py +15 -3
transformers/integrations/aqlm.py +38 -66
transformers/integrations/awq.py +48 -514
transformers/integrations/bitnet.py +45 -100
transformers/integrations/bitsandbytes.py +79 -191
transformers/integrations/deepspeed.py +1 -0
transformers/integrations/eetq.py +84 -79
transformers/integrations/fbgemm_fp8.py +191 -145
transformers/integrations/finegrained_fp8.py +236 -193
transformers/integrations/fp_quant.py +92 -0
transformers/integrations/ggml.py +11 -1
transformers/integrations/higgs.py +40 -62
transformers/integrations/hub_kernels.py +42 -3
transformers/integrations/integration_utils.py +10 -0
transformers/integrations/mxfp4.py +25 -65
transformers/integrations/peft.py +7 -29
transformers/integrations/quanto.py +73 -55
transformers/integrations/quark.py +55 -0
transformers/integrations/spqr.py +44 -90
transformers/integrations/torchao.py +32 -38
transformers/integrations/vptq.py +42 -59
transformers/modelcard.py +1 -2
transformers/modeling_gguf_pytorch_utils.py +8 -0
transformers/modeling_rope_utils.py +30 -6
transformers/modeling_utils.py +116 -112
transformers/models/__init__.py +3 -0
transformers/models/afmoe/modeling_afmoe.py +4 -4
transformers/models/albert/tokenization_albert.py +6 -12
transformers/models/align/modeling_align.py +2 -0
transformers/models/altclip/modeling_altclip.py +4 -0
transformers/models/apertus/modeling_apertus.py +4 -4
transformers/models/arcee/modeling_arcee.py +4 -4
transformers/models/aria/modeling_aria.py +4 -4
transformers/models/audioflamingo3/modeling_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/modular_audioflamingo3.py +1 -0
transformers/models/auto/configuration_auto.py +11 -0
transformers/models/auto/feature_extraction_auto.py +2 -0
transformers/models/auto/image_processing_auto.py +1 -0
transformers/models/auto/modeling_auto.py +6 -0
transformers/models/auto/processing_auto.py +18 -10
transformers/models/auto/tokenization_auto.py +74 -472
transformers/models/autoformer/modeling_autoformer.py +4 -0
transformers/models/bamba/modeling_bamba.py +4 -3
transformers/models/bark/modeling_bark.py +2 -0
transformers/models/bart/modeling_bart.py +7 -0
transformers/models/barthez/tokenization_barthez.py +5 -10
transformers/models/beit/modeling_beit.py +6 -1
transformers/models/bert/tokenization_bert.py +8 -21
transformers/models/big_bird/modeling_big_bird.py +6 -0
transformers/models/big_bird/tokenization_big_bird.py +18 -42
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +8 -2
transformers/models/biogpt/modeling_biogpt.py +2 -0
transformers/models/biogpt/modular_biogpt.py +2 -0
transformers/models/bit/modeling_bit.py +11 -2
transformers/models/bitnet/modeling_bitnet.py +4 -4
transformers/models/blenderbot/modeling_blenderbot.py +5 -0
transformers/models/blenderbot/tokenization_blenderbot.py +12 -16
transformers/models/blenderbot_small/modeling_blenderbot_small.py +5 -0
transformers/models/blip/modeling_blip_text.py +2 -0
transformers/models/blip_2/modeling_blip_2.py +2 -1
transformers/models/bloom/modeling_bloom.py +4 -0
transformers/models/blt/modeling_blt.py +2 -2
transformers/models/blt/modular_blt.py +2 -2
transformers/models/bridgetower/modeling_bridgetower.py +5 -1
transformers/models/bros/modeling_bros.py +4 -0
transformers/models/camembert/tokenization_camembert.py +8 -12
transformers/models/canine/modeling_canine.py +5 -0
transformers/models/chameleon/modeling_chameleon.py +2 -1
transformers/models/chinese_clip/modeling_chinese_clip.py +3 -0
transformers/models/clap/modeling_clap.py +5 -0
transformers/models/clip/tokenization_clip.py +22 -44
transformers/models/clipseg/modeling_clipseg.py +5 -0
transformers/models/clvp/modeling_clvp.py +5 -0
transformers/models/clvp/tokenization_clvp.py +1 -63
transformers/models/code_llama/tokenization_code_llama.py +20 -43
transformers/models/codegen/tokenization_codegen.py +14 -43
transformers/models/cohere/modeling_cohere.py +4 -3
transformers/models/cohere/modular_cohere.py +2 -1
transformers/models/cohere/tokenization_cohere.py +12 -42
transformers/models/cohere2/modeling_cohere2.py +7 -6
transformers/models/cohere2/modular_cohere2.py +5 -5
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +4 -3
transformers/models/cohere2_vision/modular_cohere2_vision.py +4 -3
transformers/models/colqwen2/modeling_colqwen2.py +1 -0
transformers/models/colqwen2/modular_colqwen2.py +1 -0
transformers/models/conditional_detr/modeling_conditional_detr.py +5 -0
transformers/models/convbert/modeling_convbert.py +6 -0
transformers/models/convnext/modeling_convnext.py +2 -4
transformers/models/convnextv2/modeling_convnextv2.py +2 -4
transformers/models/csm/modeling_csm.py +4 -3
transformers/models/ctrl/modeling_ctrl.py +1 -0
transformers/models/cvt/modeling_cvt.py +2 -0
transformers/models/cwm/modeling_cwm.py +4 -4
transformers/models/d_fine/modeling_d_fine.py +2 -0
transformers/models/d_fine/modular_d_fine.py +1 -0
transformers/models/dab_detr/modeling_dab_detr.py +4 -0
transformers/models/dac/modeling_dac.py +2 -2
transformers/models/data2vec/modeling_data2vec_audio.py +5 -0
transformers/models/data2vec/modeling_data2vec_vision.py +4 -1
transformers/models/dbrx/modeling_dbrx.py +2 -2
transformers/models/deberta/modeling_deberta.py +5 -0
transformers/models/deberta/tokenization_deberta.py +11 -20
transformers/models/deberta_v2/modeling_deberta_v2.py +6 -0
transformers/models/deberta_v2/tokenization_deberta_v2.py +13 -28
transformers/models/decision_transformer/modeling_decision_transformer.py +4 -1
transformers/models/deepseek_v2/modeling_deepseek_v2.py +2 -3
transformers/models/deepseek_v2/modular_deepseek_v2.py +2 -2
transformers/models/deepseek_v3/modeling_deepseek_v3.py +3 -2
transformers/models/deepseek_v3/modular_deepseek_v3.py +1 -0
transformers/models/deformable_detr/modeling_deformable_detr.py +4 -0
transformers/models/depth_anything/modeling_depth_anything.py +1 -0
transformers/models/depth_pro/modeling_depth_pro.py +2 -0
transformers/models/detr/modeling_detr.py +5 -0
transformers/models/dia/modeling_dia.py +4 -3
transformers/models/dia/modular_dia.py +0 -1
transformers/models/diffllama/modeling_diffllama.py +2 -2
transformers/models/dinat/modeling_dinat.py +3 -0
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +1 -1
transformers/models/dinov3_vit/modeling_dinov3_vit.py +2 -2
transformers/models/dinov3_vit/modular_dinov3_vit.py +2 -2
transformers/models/distilbert/tokenization_distilbert.py +13 -0
transformers/models/doge/modeling_doge.py +2 -3
transformers/models/doge/modular_doge.py +0 -1
transformers/models/donut/modeling_donut_swin.py +2 -0
transformers/models/dots1/modeling_dots1.py +10 -7
transformers/models/dots1/modular_dots1.py +5 -3
transformers/models/dpr/modeling_dpr.py +5 -0
transformers/models/dpr/tokenization_dpr.py +12 -0
transformers/models/edgetam/modeling_edgetam.py +1 -1
transformers/models/edgetam_video/modeling_edgetam_video.py +1 -0
transformers/models/edgetam_video/modular_edgetam_video.py +1 -0
transformers/models/efficientloftr/modeling_efficientloftr.py +2 -2
transformers/models/efficientnet/modeling_efficientnet.py +2 -0
transformers/models/emu3/modeling_emu3.py +4 -4
transformers/models/eomt/image_processing_eomt.py +13 -1
transformers/models/eomt/image_processing_eomt_fast.py +14 -2
transformers/models/ernie4_5/modeling_ernie4_5.py +4 -4
transformers/models/ernie4_5/modular_ernie4_5.py +2 -1
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +5 -5
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +2 -2
transformers/models/esm/modeling_esmfold.py +5 -4
transformers/models/evolla/modeling_evolla.py +4 -4
transformers/models/exaone4/modeling_exaone4.py +2 -2
transformers/models/exaone4/modular_exaone4.py +0 -1
transformers/models/falcon/modeling_falcon.py +6 -1
transformers/models/falcon_h1/modeling_falcon_h1.py +4 -3
transformers/models/falcon_mamba/modeling_falcon_mamba.py +25 -35
transformers/models/falcon_mamba/modular_falcon_mamba.py +12 -31
transformers/{kernels/falcon_mamba → models/fast_vlm}/__init__.py +15 -3
transformers/models/fast_vlm/configuration_fast_vlm.py +137 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +455 -0
transformers/models/fast_vlm/modular_fast_vlm.py +273 -0
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +8 -3
transformers/models/flaubert/modeling_flaubert.py +7 -0
transformers/models/flava/modeling_flava.py +6 -1
transformers/models/flex_olmo/modeling_flex_olmo.py +4 -5
transformers/models/florence2/modeling_florence2.py +2 -1
transformers/models/florence2/modular_florence2.py +2 -1
transformers/models/fnet/modeling_fnet.py +7 -0
transformers/models/focalnet/modeling_focalnet.py +4 -0
transformers/models/fsmt/modeling_fsmt.py +2 -0
transformers/models/funnel/modeling_funnel.py +8 -0
transformers/models/funnel/tokenization_funnel.py +17 -24
transformers/models/fuyu/processing_fuyu.py +3 -3
transformers/models/gemma/modeling_gemma.py +4 -4
transformers/models/gemma/tokenization_gemma.py +10 -27
transformers/models/gemma2/modeling_gemma2.py +4 -4
transformers/models/gemma2/modular_gemma2.py +2 -1
transformers/models/gemma3/modeling_gemma3.py +14 -84
transformers/models/gemma3/modular_gemma3.py +12 -81
transformers/models/gemma3n/modeling_gemma3n.py +18 -209
transformers/models/gemma3n/modular_gemma3n.py +17 -59
transformers/models/git/modeling_git.py +2 -0
transformers/models/glm/modeling_glm.py +4 -4
transformers/models/glm4/modeling_glm4.py +4 -4
transformers/models/glm4_moe/modeling_glm4_moe.py +5 -3
transformers/models/glm4v/configuration_glm4v.py +3 -1
transformers/models/glm4v/modeling_glm4v.py +3 -3
transformers/models/glm4v/modular_glm4v.py +6 -4
transformers/models/glm4v_moe/configuration_glm4v_moe.py +3 -1
transformers/models/glm4v_moe/modeling_glm4v_moe.py +6 -5
transformers/models/glm4v_moe/modular_glm4v_moe.py +1 -1
transformers/models/glpn/modeling_glpn.py +2 -0
transformers/models/gpt2/modeling_gpt2.py +5 -1
transformers/models/gpt2/tokenization_gpt2.py +16 -44
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +1 -0
transformers/models/gpt_neo/modeling_gpt_neo.py +4 -0
transformers/models/gpt_neox/modeling_gpt_neox.py +5 -2
transformers/models/gpt_neox/modular_gpt_neox.py +3 -0
transformers/models/gpt_neox/tokenization_gpt_neox.py +10 -49
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +3 -1
transformers/models/gpt_oss/modeling_gpt_oss.py +5 -6
transformers/models/gpt_oss/modular_gpt_oss.py +3 -5
transformers/models/gptj/modeling_gptj.py +3 -0
transformers/models/granite/modeling_granite.py +4 -4
transformers/models/granitemoe/modeling_granitemoe.py +4 -6
transformers/models/granitemoe/modular_granitemoe.py +0 -2
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +4 -6
transformers/models/granitemoeshared/modeling_granitemoeshared.py +4 -6
transformers/models/grounding_dino/modeling_grounding_dino.py +4 -0
transformers/models/groupvit/modeling_groupvit.py +3 -0
transformers/models/helium/modeling_helium.py +4 -3
transformers/models/herbert/tokenization_herbert.py +9 -25
transformers/models/hgnet_v2/modeling_hgnet_v2.py +6 -1
transformers/models/hgnet_v2/modular_hgnet_v2.py +6 -1
transformers/models/hiera/modeling_hiera.py +4 -0
transformers/models/hubert/modeling_hubert.py +3 -0
transformers/models/hubert/modular_hubert.py +1 -0
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +4 -4
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +4 -4
transformers/models/ibert/modeling_ibert.py +6 -0
transformers/models/idefics/modeling_idefics.py +5 -21
transformers/models/imagegpt/modeling_imagegpt.py +2 -1
transformers/models/informer/modeling_informer.py +4 -0
transformers/models/informer/modular_informer.py +1 -0
transformers/models/internvl/modeling_internvl.py +2 -4
transformers/models/internvl/modular_internvl.py +2 -4
transformers/models/jamba/modeling_jamba.py +2 -2
transformers/models/janus/modeling_janus.py +1 -0
transformers/models/janus/modular_janus.py +1 -0
transformers/models/jetmoe/modeling_jetmoe.py +2 -2
transformers/models/kosmos2/modeling_kosmos2.py +1 -0
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +3 -1
transformers/models/lasr/__init__.py +29 -0
transformers/models/lasr/configuration_lasr.py +244 -0
transformers/models/lasr/feature_extraction_lasr.py +277 -0
transformers/models/lasr/modeling_lasr.py +729 -0
transformers/models/lasr/modular_lasr.py +569 -0
transformers/models/lasr/processing_lasr.py +96 -0
transformers/models/lasr/tokenization_lasr.py +186 -0
transformers/models/layoutlm/modeling_layoutlm.py +5 -0
transformers/models/layoutlmv2/modeling_layoutlmv2.py +4 -0
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +10 -53
transformers/models/layoutlmv3/modeling_layoutlmv3.py +4 -0
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +12 -61
transformers/models/layoutxlm/tokenization_layoutxlm.py +13 -38
transformers/models/led/modeling_led.py +6 -0
transformers/models/levit/modeling_levit.py +3 -0
transformers/models/lfm2/modeling_lfm2.py +4 -5
transformers/models/lfm2/modular_lfm2.py +0 -1
transformers/models/lfm2_moe/modeling_lfm2_moe.py +4 -5
transformers/models/lightglue/modeling_lightglue.py +3 -1
transformers/models/lightglue/modular_lightglue.py +1 -0
transformers/models/lilt/modeling_lilt.py +4 -0
transformers/models/llama/modeling_llama.py +4 -4
transformers/models/llama/tokenization_llama.py +15 -43
transformers/models/llama4/modeling_llama4.py +3 -2
transformers/models/longcat_flash/modeling_longcat_flash.py +4 -4
transformers/models/longcat_flash/modular_longcat_flash.py +2 -2
transformers/models/longformer/modeling_longformer.py +6 -0
transformers/models/longt5/modeling_longt5.py +4 -0
transformers/models/luke/modeling_luke.py +9 -0
transformers/models/luke/tokenization_luke.py +11 -38
transformers/models/lxmert/modeling_lxmert.py +2 -0
transformers/models/m2m_100/modeling_m2m_100.py +4 -0
transformers/models/mamba/modeling_mamba.py +14 -22
transformers/models/marian/modeling_marian.py +5 -0
transformers/models/markuplm/modeling_markuplm.py +4 -0
transformers/models/markuplm/tokenization_markuplm.py +28 -61
transformers/models/mask2former/modeling_mask2former.py +2 -0
transformers/models/maskformer/modeling_maskformer.py +2 -0
transformers/models/maskformer/modeling_maskformer_swin.py +2 -0
transformers/models/mbart/modeling_mbart.py +7 -0
transformers/models/mbart/tokenization_mbart.py +11 -52
transformers/models/mbart50/tokenization_mbart50.py +7 -10
transformers/models/megatron_bert/modeling_megatron_bert.py +7 -0
transformers/models/mgp_str/modeling_mgp_str.py +2 -0
transformers/models/mimi/modeling_mimi.py +3 -1
transformers/models/minimax/modeling_minimax.py +4 -4
transformers/models/ministral/modeling_ministral.py +4 -4
transformers/models/ministral3/configuration_ministral3.py +1 -1
transformers/models/ministral3/modeling_ministral3.py +4 -3
transformers/models/mistral/modeling_mistral.py +4 -3
transformers/models/mixtral/modeling_mixtral.py +4 -4
transformers/models/mllama/modeling_mllama.py +2 -2
transformers/models/mluke/tokenization_mluke.py +6 -6
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +4 -0
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +2 -0
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +3 -0
transformers/models/mobilevit/modeling_mobilevit.py +3 -0
transformers/models/mobilevitv2/modeling_mobilevitv2.py +3 -0
transformers/models/modernbert/modeling_modernbert.py +4 -1
transformers/models/modernbert/modular_modernbert.py +2 -0
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +8 -9
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +6 -7
transformers/models/moonshine/modeling_moonshine.py +4 -2
transformers/models/moshi/modeling_moshi.py +5 -2
transformers/models/mpnet/modeling_mpnet.py +5 -0
transformers/models/mpnet/tokenization_mpnet.py +5 -13
transformers/models/mpt/modeling_mpt.py +2 -0
transformers/models/mra/modeling_mra.py +6 -0
transformers/models/mt5/modeling_mt5.py +7 -0
transformers/models/musicgen/modeling_musicgen.py +2 -0
transformers/models/musicgen_melody/modeling_musicgen_melody.py +3 -0
transformers/models/mvp/modeling_mvp.py +7 -0
transformers/models/nanochat/modeling_nanochat.py +4 -4
transformers/models/nemotron/modeling_nemotron.py +4 -2
transformers/models/nllb/tokenization_nllb.py +8 -22
transformers/models/nougat/tokenization_nougat.py +11 -59
transformers/models/nystromformer/modeling_nystromformer.py +6 -0
transformers/models/olmo/modeling_olmo.py +4 -4
transformers/models/olmo/modular_olmo.py +2 -2
transformers/models/olmo2/modeling_olmo2.py +4 -5
transformers/models/olmo2/modular_olmo2.py +0 -1
transformers/models/olmo3/modeling_olmo3.py +4 -4
transformers/models/olmoe/modeling_olmoe.py +4 -4
transformers/models/omdet_turbo/modeling_omdet_turbo.py +2 -0
transformers/models/oneformer/modeling_oneformer.py +4 -1
transformers/models/openai/modeling_openai.py +3 -0
transformers/models/openai/tokenization_openai.py +10 -46
transformers/models/opt/modeling_opt.py +2 -0
transformers/models/owlv2/modeling_owlv2.py +4 -0
transformers/models/owlvit/modeling_owlvit.py +4 -0
transformers/models/paddleocr_vl/__init__.py +32 -0
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +336 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +503 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +209 -0
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +1668 -0
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +1349 -0
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +135 -0
transformers/models/parakeet/configuration_parakeet.py +4 -6
transformers/models/parakeet/modeling_parakeet.py +9 -6
transformers/models/parakeet/modular_parakeet.py +2 -2
transformers/models/parakeet/processing_parakeet.py +1 -0
transformers/models/patchtsmixer/modeling_patchtsmixer.py +6 -0
transformers/models/patchtst/modeling_patchtst.py +20 -2
transformers/models/pegasus/modeling_pegasus.py +5 -0
transformers/models/pegasus/tokenization_pegasus.py +17 -44
transformers/models/pegasus_x/modeling_pegasus_x.py +4 -0
transformers/models/perceiver/modeling_perceiver.py +8 -0
transformers/models/persimmon/modeling_persimmon.py +2 -1
transformers/models/phi/modeling_phi.py +4 -5
transformers/models/phi/modular_phi.py +0 -1
transformers/models/phi3/modeling_phi3.py +2 -1
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +5 -5
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +4 -4
transformers/models/phimoe/modeling_phimoe.py +4 -4
transformers/models/phimoe/modular_phimoe.py +2 -2
transformers/models/pix2struct/modeling_pix2struct.py +2 -0
transformers/models/pixtral/modeling_pixtral.py +2 -1
transformers/models/plbart/modeling_plbart.py +6 -0
transformers/models/plbart/modular_plbart.py +2 -0
transformers/models/plbart/tokenization_plbart.py +0 -2
transformers/models/poolformer/modeling_poolformer.py +2 -0
transformers/models/pop2piano/modeling_pop2piano.py +2 -0
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +1 -0
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +1 -0
transformers/models/prophetnet/modeling_prophetnet.py +3 -0
transformers/models/pvt/modeling_pvt.py +2 -0
transformers/models/pvt_v2/modeling_pvt_v2.py +3 -0
transformers/models/qwen2/modeling_qwen2.py +4 -4
transformers/models/qwen2/tokenization_qwen2.py +14 -18
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +4 -2
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +13 -16
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +14 -16
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +1 -1
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +5 -6
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +3 -5
transformers/models/qwen2_audio/modeling_qwen2_audio.py +2 -0
transformers/models/qwen2_moe/modeling_qwen2_moe.py +4 -4
transformers/models/qwen2_vl/configuration_qwen2_vl.py +1 -1
transformers/models/qwen2_vl/modeling_qwen2_vl.py +6 -16
transformers/models/qwen3/modeling_qwen3.py +4 -4
transformers/models/qwen3_moe/modeling_qwen3_moe.py +4 -4
transformers/models/qwen3_next/modeling_qwen3_next.py +4 -3
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +21 -23
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +14 -16
transformers/models/qwen3_vl/modeling_qwen3_vl.py +39 -37
transformers/models/qwen3_vl/modular_qwen3_vl.py +37 -35
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +39 -37
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +4 -1
transformers/models/rag/modeling_rag.py +1 -0
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +15 -1
transformers/models/reformer/modeling_reformer.py +4 -0
transformers/models/reformer/tokenization_reformer.py +11 -28
transformers/models/regnet/modeling_regnet.py +6 -1
transformers/models/rembert/modeling_rembert.py +6 -0
transformers/models/rembert/tokenization_rembert.py +3 -10
transformers/models/resnet/modeling_resnet.py +11 -2
transformers/models/roberta/tokenization_roberta.py +18 -27
transformers/models/roformer/modeling_roformer.py +6 -0
transformers/models/roformer/tokenization_roformer.py +77 -412
transformers/models/rt_detr/modeling_rt_detr.py +2 -0
transformers/models/rt_detr/modeling_rt_detr_resnet.py +5 -1
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +2 -0
transformers/models/rwkv/modeling_rwkv.py +1 -0
transformers/models/sam2/modeling_sam2.py +2 -2
transformers/models/sam2/modular_sam2.py +2 -2
transformers/models/sam2_video/modeling_sam2_video.py +1 -0
transformers/models/sam2_video/modular_sam2_video.py +1 -0
transformers/models/sam3/modeling_sam3.py +77 -80
transformers/models/sam3_tracker/modeling_sam3_tracker.py +6 -1
transformers/models/sam3_tracker/modular_sam3_tracker.py +6 -1
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +1 -0
transformers/models/sam3_video/modeling_sam3_video.py +1 -0
transformers/models/seamless_m4t/modeling_seamless_m4t.py +5 -1
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +27 -59
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +5 -1
transformers/models/seed_oss/modeling_seed_oss.py +2 -2
transformers/models/segformer/modeling_segformer.py +4 -1
transformers/models/seggpt/modeling_seggpt.py +2 -0
transformers/models/sew/modeling_sew.py +3 -0
transformers/models/sew/modular_sew.py +1 -0
transformers/models/sew_d/modeling_sew_d.py +3 -0
transformers/models/siglip2/modeling_siglip2.py +4 -0
transformers/models/siglip2/modular_siglip2.py +4 -0
transformers/models/smollm3/modeling_smollm3.py +4 -4
transformers/models/smolvlm/processing_smolvlm.py +0 -7
transformers/models/speech_to_text/modeling_speech_to_text.py +4 -0
transformers/models/speecht5/modeling_speecht5.py +13 -1
transformers/models/splinter/modeling_splinter.py +3 -0
transformers/models/splinter/tokenization_splinter.py +9 -28
transformers/models/squeezebert/modeling_squeezebert.py +6 -0
transformers/models/stablelm/modeling_stablelm.py +3 -1
transformers/models/starcoder2/modeling_starcoder2.py +4 -3
transformers/models/superglue/modeling_superglue.py +1 -0
transformers/models/superpoint/modeling_superpoint.py +1 -0
transformers/models/swiftformer/modeling_swiftformer.py +2 -0
transformers/models/swin/modeling_swin.py +4 -0
transformers/models/swin2sr/modeling_swin2sr.py +2 -0
transformers/models/swinv2/modeling_swinv2.py +4 -0
transformers/models/t5/modeling_t5.py +7 -0
transformers/models/t5/tokenization_t5.py +4 -8
transformers/models/t5gemma/modeling_t5gemma.py +5 -5
transformers/models/t5gemma2/modeling_t5gemma2.py +6 -6
transformers/models/table_transformer/modeling_table_transformer.py +4 -0
transformers/models/tapas/modeling_tapas.py +3 -0
transformers/models/textnet/modeling_textnet.py +11 -2
transformers/models/time_series_transformer/modeling_time_series_transformer.py +4 -0
transformers/models/timesfm/modeling_timesfm.py +2 -0
transformers/models/timesfm/modular_timesfm.py +2 -0
transformers/models/timesformer/modeling_timesformer.py +2 -0
transformers/models/timm_wrapper/modeling_timm_wrapper.py +1 -1
transformers/models/trocr/modeling_trocr.py +2 -0
transformers/models/tvp/modeling_tvp.py +2 -0
transformers/models/udop/modeling_udop.py +4 -0
transformers/models/udop/tokenization_udop.py +5 -13
transformers/models/umt5/modeling_umt5.py +7 -0
transformers/models/unispeech/modeling_unispeech.py +4 -0
transformers/models/unispeech/modular_unispeech.py +2 -0
transformers/models/unispeech_sat/modeling_unispeech_sat.py +6 -0
transformers/models/unispeech_sat/modular_unispeech_sat.py +2 -0
transformers/models/univnet/modeling_univnet.py +1 -0
transformers/models/upernet/modeling_upernet.py +1 -0
transformers/models/vaultgemma/modeling_vaultgemma.py +4 -4
transformers/models/vilt/modeling_vilt.py +6 -0
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +1 -0
transformers/models/visual_bert/modeling_visual_bert.py +6 -0
transformers/models/vitdet/modeling_vitdet.py +2 -0
transformers/models/vitmatte/modeling_vitmatte.py +1 -0
transformers/models/vits/modeling_vits.py +1 -0
transformers/models/vjepa2/modeling_vjepa2.py +1 -0
transformers/models/wav2vec2/modeling_wav2vec2.py +7 -0
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +5 -0
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +5 -0
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +6 -0
transformers/models/wavlm/modeling_wavlm.py +5 -0
transformers/models/whisper/modeling_whisper.py +6 -0
transformers/models/whisper/tokenization_whisper.py +4 -15
transformers/models/x_clip/modeling_x_clip.py +3 -0
transformers/models/xglm/modeling_xglm.py +1 -0
transformers/models/xglm/tokenization_xglm.py +4 -9
transformers/models/xlm/modeling_xlm.py +5 -0
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +9 -16
transformers/models/xlnet/tokenization_xlnet.py +3 -7
transformers/models/yoso/modeling_yoso.py +6 -0
transformers/models/zamba/modeling_zamba.py +2 -0
transformers/models/zamba2/modeling_zamba2.py +4 -2
transformers/models/zamba2/modular_zamba2.py +1 -1
transformers/models/zoedepth/modeling_zoedepth.py +1 -0
transformers/pipelines/__init__.py +2 -3
transformers/pipelines/base.py +1 -9
transformers/pipelines/document_question_answering.py +3 -1
transformers/pipelines/text_generation.py +1 -1
transformers/processing_utils.py +23 -11
transformers/quantizers/base.py +35 -110
transformers/quantizers/quantizer_aqlm.py +1 -5
transformers/quantizers/quantizer_auto_round.py +1 -2
transformers/quantizers/quantizer_awq.py +17 -81
transformers/quantizers/quantizer_bitnet.py +3 -8
transformers/quantizers/quantizer_bnb_4bit.py +13 -110
transformers/quantizers/quantizer_bnb_8bit.py +16 -92
transformers/quantizers/quantizer_compressed_tensors.py +1 -5
transformers/quantizers/quantizer_eetq.py +14 -62
transformers/quantizers/quantizer_fbgemm_fp8.py +34 -125
transformers/quantizers/quantizer_finegrained_fp8.py +13 -105
transformers/quantizers/quantizer_fp_quant.py +48 -78
transformers/quantizers/quantizer_gptq.py +7 -24
transformers/quantizers/quantizer_higgs.py +40 -54
transformers/quantizers/quantizer_hqq.py +144 -153
transformers/quantizers/quantizer_mxfp4.py +13 -167
transformers/quantizers/quantizer_quanto.py +20 -64
transformers/quantizers/quantizer_quark.py +36 -17
transformers/quantizers/quantizer_spqr.py +1 -4
transformers/quantizers/quantizer_torchao.py +23 -202
transformers/quantizers/quantizer_vptq.py +8 -22
transformers/quantizers/quantizers_utils.py +20 -0
transformers/testing_utils.py +297 -36
transformers/tokenization_mistral_common.py +4 -0
transformers/tokenization_utils_base.py +113 -222
transformers/tokenization_utils_tokenizers.py +168 -107
transformers/trainer.py +28 -31
transformers/trainer_jit_checkpoint.py +126 -0
transformers/trainer_utils.py +1 -1
transformers/training_args.py +66 -28
transformers/utils/__init__.py +3 -4
transformers/utils/auto_docstring.py +1 -0
transformers/utils/generic.py +27 -1
transformers/utils/hub.py +5 -15
transformers/utils/import_utils.py +61 -16
transformers/utils/kernel_config.py +4 -2
transformers/utils/loading_report.py +19 -10
transformers/utils/quantization_config.py +75 -242
transformers/video_processing_utils.py +1 -2
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/METADATA +274 -227
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/RECORD +536 -520
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/WHEEL +1 -1
transformers/kernels/__init__.py +0 -0
transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py +0 -529
transformers/models/roformer/tokenization_roformer_fast.py +0 -160
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info/licenses}/LICENSE +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/top_level.txt +0 -0

transformers/models/luke/tokenization_luke.py CHANGED Viewed

@@ -20,7 +20,7 @@ from collections.abc import Mapping
 from typing import Optional, Union
 import numpy as np
-from tokenizers import Tokenizer, decoders, pre_tokenizers, processors
+from tokenizers import Tokenizer, decoders, pre_tokenizers
 from tokenizers.models import BPE
 from ...tokenization_python import PreTrainedTokenizer
@@ -167,6 +167,10 @@ class LukeTokenizer(TokenizersBackend):
             Path to the vocabulary file.
         merges_file (`str`):
             Path to the merges file.
+        vocab (`str` or `dict[str, int]`, *optional*):
+            Custom vocabulary dictionary. If not provided, the vocabulary is loaded from `vocab_file`.
+        merges (`str` or `list[str]`, *optional*):
+            Custom merges list. If not provided, merges are loaded from `merges_file`.
         entity_vocab_file (`str`):
             Path to the entity vocabulary file.
         task (`str`, *optional*):
@@ -228,10 +232,13 @@ class LukeTokenizer(TokenizersBackend):
     vocab_files_names = VOCAB_FILES_NAMES
     model_input_names = ["input_ids", "attention_mask"]
-    slow_tokenizer_class = None
+    model = BPE
     def __init__(
         self,
+        vocab: Optional[Union[str, dict[str, int]]] = None,
+        merges: Optional[Union[str, list[str]]] = None,
+        entity_vocab: Optional[Union[str, dict, list]] = None,
         errors="replace",
         bos_token="<s>",
         eos_token="</s>",
@@ -250,37 +257,17 @@ class LukeTokenizer(TokenizersBackend):
         entity_pad_token="[PAD]",
         entity_mask_token="[MASK]",
         entity_mask2_token="[MASK2]",
-        vocab: Optional[dict] = None,
-        merges: Optional[list] = None,
-        entity_vocab: Optional[dict] = None,
         **kwargs,
     ):
         self.add_prefix_space = add_prefix_space
         # Handle entity vocab file for backward compatibility
         entity_vocab_file = kwargs.pop("entity_vocab_file", None)
-        # Check if vocab/merges/entity_vocab are in kwargs
-        if vocab is None and "vocab" in kwargs:
-            vocab = kwargs.pop("vocab")
-        if merges is None and "merges" in kwargs:
-            merges = kwargs.pop("merges")
         if entity_vocab is None and "entity_vocab" in kwargs:
             entity_vocab = kwargs.pop("entity_vocab")
-        # Build vocab and merges (either from data or empty, like GPT2Tokenizer)
-        if vocab is not None:
-            self._vocab = (
-                {token: idx for idx, (token, _score) in enumerate(vocab)} if isinstance(vocab, list) else vocab
-            )
-        else:
-            self._vocab = {}
-        if merges is not None:
-            self._merges = [tuple(merge) if isinstance(merge, list) else merge for merge in merges]
-        else:
-            self._merges = []
+        self._vocab = vocab or {}
+        self._merges = merges or []
         self._tokenizer = Tokenizer(
             BPE(
                 vocab=self._vocab,
@@ -365,8 +352,6 @@ class LukeTokenizer(TokenizersBackend):
         kwargs["extra_special_tokens"] = extra_tokens
-        tokenizer_object = self._tokenizer
         # Configure default special token behaviors to match LUKE formatting
         token_type_ids_pattern = kwargs.setdefault("token_type_ids_pattern", "all_zeros")
         special_tokens_pattern = kwargs.setdefault("special_tokens_pattern", "cls_double_sep")
@@ -379,7 +364,6 @@ class LukeTokenizer(TokenizersBackend):
         kwargs.setdefault("clean_up_tokenization_spaces", True)
         super().__init__(
-            tokenizer_object=tokenizer_object,
             errors=errors,
             bos_token=bos_token,
             eos_token=eos_token,
@@ -401,17 +385,6 @@ class LukeTokenizer(TokenizersBackend):
             entity_vocab=entity_vocab if entity_vocab_file is None else None,  # Only store if it was passed as data
             **kwargs,
         )
-        self._post_init()
-    def _post_init(self):
-        self._tokenizer.post_processor = processors.TemplateProcessing(
-            single=f"{self.cls_token}:0 $A:0 {self.sep_token}:0",
-            pair=f"{self.cls_token}:0 $A:0 {self.sep_token}:0 {self.sep_token}:0 $B:1 {self.sep_token}:1",
-            special_tokens=[
-                (self.cls_token, self.cls_token_id),
-                (self.sep_token, self.sep_token_id),
-            ],
-        )
     def build_inputs_with_special_tokens(
         self, token_ids_0: list[int], token_ids_1: Optional[list[int]] = None

transformers/models/lxmert/modeling_lxmert.py CHANGED Viewed

@@ -711,6 +711,7 @@ class LxmertModel(LxmertPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[LxmertModelOutput, tuple[torch.FloatTensor]]:
         r"""
         visual_feats (`torch.FloatTensor` of shape `(batch_size, num_visual_features, visual_feat_dim)`):
@@ -1244,6 +1245,7 @@ class LxmertForQuestionAnswering(LxmertPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[LxmertForQuestionAnsweringOutput, tuple[torch.FloatTensor]]:
         r"""
         visual_feats (`torch.FloatTensor` of shape `(batch_size, num_visual_features, visual_feat_dim)`):

transformers/models/m2m_100/modeling_m2m_100.py CHANGED Viewed

@@ -561,6 +561,7 @@ class M2M100Encoder(M2M100PreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ):
         r"""
         Args:
@@ -713,6 +714,7 @@ class M2M100Decoder(M2M100PreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ):
         r"""
         Args:
@@ -941,6 +943,7 @@ class M2M100Model(M2M100PreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], Seq2SeqModelOutput]:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1046,6 +1049,7 @@ class M2M100ForConditionalGeneration(M2M100PreTrainedModel, GenerationMixin):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], Seq2SeqLMOutput]:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):

transformers/models/mamba/modeling_mamba.py CHANGED Viewed

@@ -34,7 +34,7 @@ from ...utils import (
     auto_docstring,
     logging,
 )
-from ...utils.import_utils import is_mamba_ssm_available, is_mambapy_available, is_torchdynamo_compiling
+from ...utils.import_utils import is_mambapy_available, is_torchdynamo_compiling
 from .configuration_mamba import MambaConfig
@@ -45,12 +45,6 @@ if is_mambapy_available():
 else:
     pscan = None
-if is_mamba_ssm_available():
-    from mamba_ssm.ops.selective_scan_interface import mamba_inner_fn, selective_scan_fn
-    from mamba_ssm.ops.triton.selective_state_update import selective_state_update
-else:
-    selective_state_update, selective_scan_fn, mamba_inner_fn = None, None, None
 class MambaCache:
     """
@@ -204,15 +198,24 @@ class MambaMixer(nn.Module):
         self.out_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=config.use_bias)
         self.use_bias = config.use_bias
-        self.warn_slow_implementation()
-    def warn_slow_implementation(self):
+        global causal_conv1d, causal_conv1d_update, causal_conv1d_fn
         causal_conv1d = lazy_load_kernel("causal-conv1d")
         causal_conv1d_update, causal_conv1d_fn = (
             (causal_conv1d.causal_conv1d_update, causal_conv1d.causal_conv1d_fn)
             if causal_conv1d is not None
             else (None, None)
         )
+        global mamba_ssm, selective_state_update, selective_scan_fn, mamba_inner_fn
+        mamba_ssm = lazy_load_kernel("mamba-ssm")
+        selective_state_update, selective_scan_fn, mamba_inner_fn = (
+            (mamba_ssm.selective_state_update, mamba_ssm.selective_scan_fn, mamba_ssm.mamba_inner_fn)
+            if mamba_ssm is not None
+            else (None, None, None)
+        )
+        self.warn_slow_implementation()
+    def warn_slow_implementation(self):
         is_fast_path_available = all(
             (selective_state_update, selective_scan_fn, causal_conv1d_fn, causal_conv1d_update, mamba_inner_fn)
         )
@@ -263,12 +266,6 @@ class MambaMixer(nn.Module):
             )
         else:
-            causal_conv1d = lazy_load_kernel("causal-conv1d")
-            causal_conv1d_update, causal_conv1d_fn = (
-                (causal_conv1d.causal_conv1d_update, causal_conv1d.causal_conv1d_fn)
-                if causal_conv1d is not None
-                else (None, None)
-            )
             hidden_states, gate = projected_states.chunk(2, dim=1)
             if attention_mask is not None:
@@ -432,12 +429,6 @@ class MambaMixer(nn.Module):
         cache_position: Optional[torch.LongTensor] = None,
         attention_mask: Optional[torch.LongTensor] = None,
     ):
-        causal_conv1d = lazy_load_kernel("causal-conv1d")
-        causal_conv1d_update, causal_conv1d_fn = (
-            (causal_conv1d.causal_conv1d_update, causal_conv1d.causal_conv1d_fn)
-            if causal_conv1d is not None
-            else (None, None)
-        )
         is_fast_path_available = all(
             (selective_state_update, selective_scan_fn, causal_conv1d_fn, causal_conv1d_update, mamba_inner_fn)
         )
@@ -640,6 +631,7 @@ class MambaModel(MambaPreTrainedModel):
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
         attention_mask: Optional[torch.LongTensor] = None,
+        **kwargs,
     ) -> Union[tuple, MambaOutput]:
         r"""
         cache_params (`MambaCache`, *optional*):

transformers/models/marian/modeling_marian.py CHANGED Viewed

@@ -504,6 +504,7 @@ class MarianEncoder(MarianPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], BaseModelOutput]:
         r"""
         Args:
@@ -645,6 +646,7 @@ class MarianDecoder(MarianPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], BaseModelOutputWithPastAndCrossAttentions]:
         r"""
         Args:
@@ -925,6 +927,7 @@ class MarianModel(MarianPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Seq2SeqModelOutput:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1140,6 +1143,7 @@ class MarianMTModel(MarianPreTrainedModel, GenerationMixin):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Seq2SeqLMOutput:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1288,6 +1292,7 @@ class MarianForCausalLM(MarianPreTrainedModel, GenerationMixin):
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
         logits_to_keep: Union[int, torch.Tensor] = 0,
+        **kwargs,
     ) -> Union[tuple, CausalLMOutputWithCrossAttentions]:
         r"""
         labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):

transformers/models/markuplm/modeling_markuplm.py CHANGED Viewed

@@ -562,6 +562,7 @@ class MarkupLMModel(MarkupLMPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[tuple, BaseModelOutputWithPooling]:
         r"""
         xpath_tags_seq (`torch.LongTensor` of shape `(batch_size, sequence_length, config.max_depth)`, *optional*):
@@ -669,6 +670,7 @@ class MarkupLMForQuestionAnswering(MarkupLMPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], QuestionAnsweringModelOutput]:
         r"""
         xpath_tags_seq (`torch.LongTensor` of shape `(batch_size, sequence_length, config.max_depth)`, *optional*):
@@ -784,6 +786,7 @@ class MarkupLMForTokenClassification(MarkupLMPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], MaskedLMOutput]:
         r"""
         xpath_tags_seq (`torch.LongTensor` of shape `(batch_size, sequence_length, config.max_depth)`, *optional*):
@@ -886,6 +889,7 @@ class MarkupLMForSequenceClassification(MarkupLMPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[tuple[torch.Tensor], SequenceClassifierOutput]:
         r"""
         xpath_tags_seq (`torch.LongTensor` of shape `(batch_size, sequence_length, config.max_depth)`, *optional*):

transformers/models/markuplm/tokenization_markuplm.py CHANGED Viewed

@@ -101,10 +101,10 @@ class MarkupLMTokenizer(TokenizersBackend):
     Users should refer to this superclass for more information regarding those methods.
     Args:
-        vocab_file (`str`):
-            Path to the vocabulary file.
-        merges_file (`str`):
-            Path to the merges file.
+        vocab (`str` or `dict[str, int]`, *optional*):
+            Custom vocabulary dictionary. If not provided, the vocabulary is loaded from `vocab_file`.
+        merges (`str` or `list[str]`, *optional*):
+            Custom merges list. If not provided, merges are loaded from `merges_file`.
         errors (`str`, *optional*, defaults to `"replace"`):
             Paradigm to follow when decoding bytes to UTF-8. See
             [bytes.decode](https://docs.python.org/3/library/stdtypes.html#bytes.decode) for more information.
@@ -149,12 +149,14 @@ class MarkupLMTokenizer(TokenizersBackend):
     """
     vocab_files_names = VOCAB_FILES_NAMES
+    model_input_names = ["input_ids", "token_type_ids", "attention_mask"]
+    model = BPE
     def __init__(
         self,
         tags_dict,
-        vocab: Optional[Union[dict, list]] = None,
-        merges: Optional[list] = None,
+        vocab: Optional[Union[str, dict[str, int], list[tuple[str, float]]]] = None,
+        merges: Optional[Union[str, list[str]]] = None,
         errors="replace",
         bos_token="<s>",
         eos_token="</s>",
@@ -172,57 +174,28 @@ class MarkupLMTokenizer(TokenizersBackend):
         trim_offsets=False,
         **kwargs,
     ):
-        if kwargs.get("from_slow"):
-            logger.warning(
-                "MarkupLMTokenizer no longer supports initialization from a slow tokenizer. Ignoring `from_slow=True`."
-            )
-        kwargs["from_slow"] = False
         bos_token = AddedToken(bos_token, lstrip=False, rstrip=False) if isinstance(bos_token, str) else bos_token
         eos_token = AddedToken(eos_token, lstrip=False, rstrip=False) if isinstance(eos_token, str) else eos_token
         sep_token = AddedToken(sep_token, lstrip=False, rstrip=False) if isinstance(sep_token, str) else sep_token
         cls_token = AddedToken(cls_token, lstrip=False, rstrip=False) if isinstance(cls_token, str) else cls_token
         unk_token = AddedToken(unk_token, lstrip=False, rstrip=False) if isinstance(unk_token, str) else unk_token
         pad_token = AddedToken(pad_token, lstrip=False, rstrip=False) if isinstance(pad_token, str) else pad_token
         # Mask token behave like a normal word, i.e. include the space before it
         mask_token = AddedToken(mask_token, lstrip=True, rstrip=False) if isinstance(mask_token, str) else mask_token
-        processed_vocab = vocab
-        processed_merges = merges
-        if isinstance(processed_vocab, list):
-            processed_vocab = {
-                token: index for index, (token, _score) in enumerate(processed_vocab) if isinstance(token, str)
-            }
-        elif isinstance(processed_vocab, dict):
-            processed_vocab = {str(token): int(index) for token, index in processed_vocab.items()}
-        if processed_vocab is None:
-            processed_vocab = {
+        if vocab is None:
+            vocab = {
                 str(pad_token): 0,
                 str(unk_token): 1,
                 str(cls_token): 2,
                 str(sep_token): 3,
                 str(mask_token): 4,
             }
-        normalized_merges = []
-        if processed_merges is not None:
-            for merge in processed_merges:
-                if isinstance(merge, tuple) and len(merge) == 2:
-                    normalized_merges.append((merge[0], merge[1]))
-                elif isinstance(merge, list) and len(merge) == 2:
-                    normalized_merges.append((merge[0], merge[1]))
-                elif isinstance(merge, str):
-                    parts = merge.split()
-                    if len(parts) == 2 and not merge.startswith("#"):
-                        normalized_merges.append((parts[0], parts[1]))
-        processed_merges = normalized_merges if normalized_merges else []
+        merges = merges or []
         tokenizer = Tokenizer(
             BPE(
-                vocab=processed_vocab,
-                merges=processed_merges,
+                vocab=vocab,
+                merges=merges,
                 dropout=None,
                 continuing_subword_prefix="",
                 end_of_word_suffix="",
@@ -231,21 +204,11 @@ class MarkupLMTokenizer(TokenizersBackend):
         )
         tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=add_prefix_space)
         tokenizer.decoder = decoders.ByteLevel()
-        sep_token_str = str(sep_token)
-        cls_token_str = str(cls_token)
-        tokenizer.post_processor = processors.RobertaProcessing(
-            sep=(sep_token_str, processed_vocab.get(sep_token_str, processed_vocab.get("</s>", 2))),
-            cls=(cls_token_str, processed_vocab.get(cls_token_str, processed_vocab.get("<s>", 0))),
-            add_prefix_space=add_prefix_space,
-            trim_offsets=trim_offsets,
-        )
+        self._vocab = vocab
+        self._merges = merges
+        self._tokenizer = tokenizer
         super().__init__(
-            tokenizer_object=tokenizer,
             tags_dict=tags_dict,
-            vocab=vocab,
-            merges=merges,
             errors=errors,
             bos_token=bos_token,
             eos_token=eos_token,
@@ -263,14 +226,18 @@ class MarkupLMTokenizer(TokenizersBackend):
             only_label_first_subword=only_label_first_subword,
             **kwargs,
         )
-        if trim_offsets:
-            # Not implemented yet, because we need to chain two post processors which is not possible yet
-            # We need to wait for https://github.com/huggingface/tokenizers/pull/1005
-            # With `trim_offsets=False` we don't need to do add `processors.ByteLevel(trim_offsets=False)`
-            # because it's not doing anything
-            raise NotImplementedError(
-                "`trim_offsets=True` is not implemented for MarkupLMTokenizer. Please set it to False."
-            )
+        sep_token_str = str(sep_token)
+        cls_token_str = str(cls_token)
+        cls_token_id = self.cls_token_id
+        sep_token_id = self.sep_token_id
+        self._tokenizer.post_processor = processors.TemplateProcessing(
+            single=f"{cls_token_str} $A {sep_token_str}",
+            pair=f"{cls_token_str} $A {sep_token_str} $B {sep_token_str}",
+            special_tokens=[
+                (cls_token_str, cls_token_id),
+                (sep_token_str, sep_token_id),
+            ],
+        )
         self.tags_dict = tags_dict

transformers/models/mask2former/modeling_mask2former.py CHANGED Viewed

@@ -2184,6 +2184,7 @@ class Mask2FormerModel(Mask2FormerPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         output_attentions: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Mask2FormerModelOutput:
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = (
@@ -2305,6 +2306,7 @@ class Mask2FormerForUniversalSegmentation(Mask2FormerPreTrainedModel):
         output_auxiliary_logits: Optional[bool] = None,
         output_attentions: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Mask2FormerForUniversalSegmentationOutput:
         r"""
         mask_labels (`list[torch.Tensor]`, *optional*):

transformers/models/maskformer/modeling_maskformer.py CHANGED Viewed

@@ -1496,6 +1496,7 @@ class MaskFormerModel(MaskFormerPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         output_attentions: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> MaskFormerModelOutput:
         r"""
         Examples:
@@ -1667,6 +1668,7 @@ class MaskFormerForInstanceSegmentation(MaskFormerPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         output_attentions: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> MaskFormerForInstanceSegmentationOutput:
         r"""
         mask_labels (`list[torch.Tensor]`, *optional*):

transformers/models/maskformer/modeling_maskformer_swin.py CHANGED Viewed

@@ -738,6 +738,7 @@ class MaskFormerSwinModel(MaskFormerSwinPreTrainedModel):
         output_hidden_states=None,
         interpolate_pos_encoding=False,
         return_dict=None,
+        **kwargs,
     ):
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = (
@@ -815,6 +816,7 @@ class MaskFormerSwinBackbone(MaskFormerSwinPreTrainedModel, BackboneMixin):
         output_hidden_states: Optional[bool] = None,
         output_attentions: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> BackboneOutput:
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         output_hidden_states = (

transformers/models/mbart/modeling_mbart.py CHANGED Viewed

@@ -540,6 +540,7 @@ class MBartEncoder(MBartPreTrainedModel):
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
+        **kwargs,
     ) -> Union[tuple, BaseModelOutput]:
         r"""
         Args:
@@ -691,6 +692,7 @@ class MBartDecoder(MBartPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Union[tuple, BaseModelOutputWithPastAndCrossAttentions]:
         r"""
         Args:
@@ -919,6 +921,7 @@ class MBartModel(MBartPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Union[Seq2SeqModelOutput, tuple[torch.FloatTensor]]:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1052,6 +1055,7 @@ class MBartForConditionalGeneration(MBartPreTrainedModel, GenerationMixin):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.Tensor] = None,
+        **kwargs,
     ) -> Union[Seq2SeqLMOutput, tuple[torch.FloatTensor]]:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1205,6 +1209,7 @@ class MBartForSequenceClassification(MBartPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
+        **kwargs,
     ) -> Union[tuple, Seq2SeqSequenceClassifierOutput]:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1338,6 +1343,7 @@ class MBartForQuestionAnswering(MBartPreTrainedModel):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
+        **kwargs,
     ) -> Union[tuple, Seq2SeqQuestionAnsweringModelOutput]:
         r"""
         decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
@@ -1480,6 +1486,7 @@ class MBartForCausalLM(MBartPreTrainedModel, GenerationMixin):
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
         logits_to_keep: Union[int, torch.Tensor] = 0,
+        **kwargs,
     ) -> Union[tuple, CausalLMOutputWithCrossAttentions]:
         r"""
         labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):

transformers/models/mbart/tokenization_mbart.py CHANGED Viewed

@@ -13,7 +13,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from typing import Optional
+from typing import Optional, Union
 from tokenizers import Tokenizer, decoders, pre_tokenizers, processors
 from tokenizers.models import Unigram
@@ -58,13 +58,14 @@ class MBartTokenizer(TokenizersBackend):
     vocab_files_names = VOCAB_FILES_NAMES
     model_input_names = ["input_ids", "attention_mask"]
-    slow_tokenizer_class = None
+    model = Unigram
     prefix_tokens: list[int] = []
     suffix_tokens: list[int] = []
     def __init__(
         self,
+        vocab: Optional[Union[str, dict, list]] = None,
         bos_token="<s>",
         eos_token="</s>",
         sep_token="</s>",
@@ -75,9 +76,6 @@ class MBartTokenizer(TokenizersBackend):
         src_lang=None,
         tgt_lang=None,
         additional_special_tokens=None,
-        vocab=None,
-        merges=None,  # Ignored for Unigram
-        vocab_file=None,
         **kwargs,
     ):
         mask_token = AddedToken(mask_token, lstrip=True, rstrip=False) if isinstance(mask_token, str) else mask_token
@@ -88,56 +86,20 @@ class MBartTokenizer(TokenizersBackend):
                 [t for t in additional_special_tokens if t not in _additional_special_tokens]
             )
-        # MBart uses fairseq vocab alignment: <s>=0, <pad>=1, </s>=2, <unk>=3, then SPM pieces[3:], lang codes, <mask>
-        if vocab is not None:
-            # Handle different vocab formats (dict, list of tokens, or list of tuples)
-            # SentencePieceExtractor returns list[tuple[str, float]] which is the expected format
-            if isinstance(vocab, dict):
-                vocab = [(token, 0.0) for token in vocab.keys()]
-            elif isinstance(vocab, list) and len(vocab) > 0:
-                if not isinstance(vocab[0], tuple):
-                    vocab = [(token, 0.0) for token in vocab]
-                else:
-                    # Ensure tuples are (str, float) format
-                    vocab = [(str(item[0]), float(item[1])) for item in vocab]
-            # Reorder to fairseq: <s>, <pad>, </s>, <unk>, ... (rest of vocab from SPM[3:])
-            vocab_list = []
-            vocab_list.append((str(bos_token), 0.0))
-            vocab_list.append((str(pad_token), 0.0))
-            vocab_list.append((str(eos_token), 0.0))
-            vocab_list.append((str(unk_token), 0.0))
-            # Add the rest of the SentencePiece vocab (skipping first 3: <unk>, <s>, </s>)
-            vocab_list.extend(vocab[4:])
-            # Add language codes
-            for lang_code in FAIRSEQ_LANGUAGE_CODES:
-                vocab_list.append((str(lang_code), 0.0))
-            # Add mask token
-            vocab_list.append((str(mask_token), 0.0))
-            self._vocab_scores = vocab_list
-        else:
-            self._vocab_scores = [
+        if vocab is None:
+            vocab = [
                 (str(bos_token), 0.0),
                 (str(pad_token), 0.0),
                 (str(eos_token), 0.0),
                 (str(unk_token), 0.0),
-                ("▁", -2.0),
             ]
+            vocab += [("▁", -2.0)]
             for lang_code in FAIRSEQ_LANGUAGE_CODES:
-                self._vocab_scores.append((lang_code, 0.0))
-            self._vocab_scores.append((str(mask_token), 0.0))
-        self._tokenizer = Tokenizer(
-            Unigram(
-                self._vocab_scores,
-                unk_id=3,
-                byte_fallback=False,
-            )
-        )
+                vocab.append((lang_code, 0.0))
+            vocab.append((str(mask_token), 0.0))
+        self._vocab = vocab
+        self._tokenizer = Tokenizer(Unigram(self._vocab, unk_id=3, byte_fallback=False))
         self._tokenizer.normalizer = None
@@ -150,10 +112,7 @@ class MBartTokenizer(TokenizersBackend):
         self._tokenizer.decoder = decoders.Metaspace(replacement="▁", prepend_scheme="always", split=True)
-        tokenizer_object = self._tokenizer
         super().__init__(
-            tokenizer_object=tokenizer_object,
             bos_token=bos_token,
             eos_token=eos_token,
             sep_token=sep_token,

transformers 5.0.0rc0__py3-none-any.whl → 5.0.0rc1__py3-none-any.whl

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc1py3-none-any.whl