PyPI - transformers - Versions diffs - 5.0.0rc0__py3-none-any.whl → 5.0.0rc1__py3-none-any.whl - Mend

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (539) hide show

transformers/__init__.py +30 -3
transformers/cli/serve.py +47 -17
transformers/conversion_mapping.py +15 -2
transformers/convert_slow_tokenizer.py +225 -10
transformers/core_model_loading.py +196 -135
transformers/data/data_collator.py +12 -4
transformers/dependency_versions_table.py +1 -2
transformers/dynamic_module_utils.py +1 -2
transformers/feature_extraction_utils.py +1 -2
transformers/file_utils.py +0 -1
transformers/generation/__init__.py +11 -1
transformers/generation/configuration_utils.py +3 -2
transformers/generation/continuous_batching/__init__.py +4 -0
transformers/generation/continuous_batching/continuous_api.py +134 -79
transformers/image_processing_base.py +1 -2
transformers/integrations/__init__.py +4 -2
transformers/integrations/accelerate.py +15 -3
transformers/integrations/aqlm.py +38 -66
transformers/integrations/awq.py +48 -514
transformers/integrations/bitnet.py +45 -100
transformers/integrations/bitsandbytes.py +79 -191
transformers/integrations/deepspeed.py +1 -0
transformers/integrations/eetq.py +84 -79
transformers/integrations/fbgemm_fp8.py +191 -145
transformers/integrations/finegrained_fp8.py +236 -193
transformers/integrations/fp_quant.py +92 -0
transformers/integrations/ggml.py +11 -1
transformers/integrations/higgs.py +40 -62
transformers/integrations/hub_kernels.py +42 -3
transformers/integrations/integration_utils.py +10 -0
transformers/integrations/mxfp4.py +25 -65
transformers/integrations/peft.py +7 -29
transformers/integrations/quanto.py +73 -55
transformers/integrations/quark.py +55 -0
transformers/integrations/spqr.py +44 -90
transformers/integrations/torchao.py +32 -38
transformers/integrations/vptq.py +42 -59
transformers/modelcard.py +1 -2
transformers/modeling_gguf_pytorch_utils.py +8 -0
transformers/modeling_rope_utils.py +30 -6
transformers/modeling_utils.py +116 -112
transformers/models/__init__.py +3 -0
transformers/models/afmoe/modeling_afmoe.py +4 -4
transformers/models/albert/tokenization_albert.py +6 -12
transformers/models/align/modeling_align.py +2 -0
transformers/models/altclip/modeling_altclip.py +4 -0
transformers/models/apertus/modeling_apertus.py +4 -4
transformers/models/arcee/modeling_arcee.py +4 -4
transformers/models/aria/modeling_aria.py +4 -4
transformers/models/audioflamingo3/modeling_audioflamingo3.py +1 -0
transformers/models/audioflamingo3/modular_audioflamingo3.py +1 -0
transformers/models/auto/configuration_auto.py +11 -0
transformers/models/auto/feature_extraction_auto.py +2 -0
transformers/models/auto/image_processing_auto.py +1 -0
transformers/models/auto/modeling_auto.py +6 -0
transformers/models/auto/processing_auto.py +18 -10
transformers/models/auto/tokenization_auto.py +74 -472
transformers/models/autoformer/modeling_autoformer.py +4 -0
transformers/models/bamba/modeling_bamba.py +4 -3
transformers/models/bark/modeling_bark.py +2 -0
transformers/models/bart/modeling_bart.py +7 -0
transformers/models/barthez/tokenization_barthez.py +5 -10
transformers/models/beit/modeling_beit.py +6 -1
transformers/models/bert/tokenization_bert.py +8 -21
transformers/models/big_bird/modeling_big_bird.py +6 -0
transformers/models/big_bird/tokenization_big_bird.py +18 -42
transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py +8 -2
transformers/models/biogpt/modeling_biogpt.py +2 -0
transformers/models/biogpt/modular_biogpt.py +2 -0
transformers/models/bit/modeling_bit.py +11 -2
transformers/models/bitnet/modeling_bitnet.py +4 -4
transformers/models/blenderbot/modeling_blenderbot.py +5 -0
transformers/models/blenderbot/tokenization_blenderbot.py +12 -16
transformers/models/blenderbot_small/modeling_blenderbot_small.py +5 -0
transformers/models/blip/modeling_blip_text.py +2 -0
transformers/models/blip_2/modeling_blip_2.py +2 -1
transformers/models/bloom/modeling_bloom.py +4 -0
transformers/models/blt/modeling_blt.py +2 -2
transformers/models/blt/modular_blt.py +2 -2
transformers/models/bridgetower/modeling_bridgetower.py +5 -1
transformers/models/bros/modeling_bros.py +4 -0
transformers/models/camembert/tokenization_camembert.py +8 -12
transformers/models/canine/modeling_canine.py +5 -0
transformers/models/chameleon/modeling_chameleon.py +2 -1
transformers/models/chinese_clip/modeling_chinese_clip.py +3 -0
transformers/models/clap/modeling_clap.py +5 -0
transformers/models/clip/tokenization_clip.py +22 -44
transformers/models/clipseg/modeling_clipseg.py +5 -0
transformers/models/clvp/modeling_clvp.py +5 -0
transformers/models/clvp/tokenization_clvp.py +1 -63
transformers/models/code_llama/tokenization_code_llama.py +20 -43
transformers/models/codegen/tokenization_codegen.py +14 -43
transformers/models/cohere/modeling_cohere.py +4 -3
transformers/models/cohere/modular_cohere.py +2 -1
transformers/models/cohere/tokenization_cohere.py +12 -42
transformers/models/cohere2/modeling_cohere2.py +7 -6
transformers/models/cohere2/modular_cohere2.py +5 -5
transformers/models/cohere2_vision/image_processing_cohere2_vision_fast.py +4 -3
transformers/models/cohere2_vision/modular_cohere2_vision.py +4 -3
transformers/models/colqwen2/modeling_colqwen2.py +1 -0
transformers/models/colqwen2/modular_colqwen2.py +1 -0
transformers/models/conditional_detr/modeling_conditional_detr.py +5 -0
transformers/models/convbert/modeling_convbert.py +6 -0
transformers/models/convnext/modeling_convnext.py +2 -4
transformers/models/convnextv2/modeling_convnextv2.py +2 -4
transformers/models/csm/modeling_csm.py +4 -3
transformers/models/ctrl/modeling_ctrl.py +1 -0
transformers/models/cvt/modeling_cvt.py +2 -0
transformers/models/cwm/modeling_cwm.py +4 -4
transformers/models/d_fine/modeling_d_fine.py +2 -0
transformers/models/d_fine/modular_d_fine.py +1 -0
transformers/models/dab_detr/modeling_dab_detr.py +4 -0
transformers/models/dac/modeling_dac.py +2 -2
transformers/models/data2vec/modeling_data2vec_audio.py +5 -0
transformers/models/data2vec/modeling_data2vec_vision.py +4 -1
transformers/models/dbrx/modeling_dbrx.py +2 -2
transformers/models/deberta/modeling_deberta.py +5 -0
transformers/models/deberta/tokenization_deberta.py +11 -20
transformers/models/deberta_v2/modeling_deberta_v2.py +6 -0
transformers/models/deberta_v2/tokenization_deberta_v2.py +13 -28
transformers/models/decision_transformer/modeling_decision_transformer.py +4 -1
transformers/models/deepseek_v2/modeling_deepseek_v2.py +2 -3
transformers/models/deepseek_v2/modular_deepseek_v2.py +2 -2
transformers/models/deepseek_v3/modeling_deepseek_v3.py +3 -2
transformers/models/deepseek_v3/modular_deepseek_v3.py +1 -0
transformers/models/deformable_detr/modeling_deformable_detr.py +4 -0
transformers/models/depth_anything/modeling_depth_anything.py +1 -0
transformers/models/depth_pro/modeling_depth_pro.py +2 -0
transformers/models/detr/modeling_detr.py +5 -0
transformers/models/dia/modeling_dia.py +4 -3
transformers/models/dia/modular_dia.py +0 -1
transformers/models/diffllama/modeling_diffllama.py +2 -2
transformers/models/dinat/modeling_dinat.py +3 -0
transformers/models/dinov3_convnext/modeling_dinov3_convnext.py +1 -1
transformers/models/dinov3_vit/modeling_dinov3_vit.py +2 -2
transformers/models/dinov3_vit/modular_dinov3_vit.py +2 -2
transformers/models/distilbert/tokenization_distilbert.py +13 -0
transformers/models/doge/modeling_doge.py +2 -3
transformers/models/doge/modular_doge.py +0 -1
transformers/models/donut/modeling_donut_swin.py +2 -0
transformers/models/dots1/modeling_dots1.py +10 -7
transformers/models/dots1/modular_dots1.py +5 -3
transformers/models/dpr/modeling_dpr.py +5 -0
transformers/models/dpr/tokenization_dpr.py +12 -0
transformers/models/edgetam/modeling_edgetam.py +1 -1
transformers/models/edgetam_video/modeling_edgetam_video.py +1 -0
transformers/models/edgetam_video/modular_edgetam_video.py +1 -0
transformers/models/efficientloftr/modeling_efficientloftr.py +2 -2
transformers/models/efficientnet/modeling_efficientnet.py +2 -0
transformers/models/emu3/modeling_emu3.py +4 -4
transformers/models/eomt/image_processing_eomt.py +13 -1
transformers/models/eomt/image_processing_eomt_fast.py +14 -2
transformers/models/ernie4_5/modeling_ernie4_5.py +4 -4
transformers/models/ernie4_5/modular_ernie4_5.py +2 -1
transformers/models/ernie4_5_moe/modeling_ernie4_5_moe.py +5 -5
transformers/models/ernie4_5_moe/modular_ernie4_5_moe.py +2 -2
transformers/models/esm/modeling_esmfold.py +5 -4
transformers/models/evolla/modeling_evolla.py +4 -4
transformers/models/exaone4/modeling_exaone4.py +2 -2
transformers/models/exaone4/modular_exaone4.py +0 -1
transformers/models/falcon/modeling_falcon.py +6 -1
transformers/models/falcon_h1/modeling_falcon_h1.py +4 -3
transformers/models/falcon_mamba/modeling_falcon_mamba.py +25 -35
transformers/models/falcon_mamba/modular_falcon_mamba.py +12 -31
transformers/{kernels/falcon_mamba → models/fast_vlm}/__init__.py +15 -3
transformers/models/fast_vlm/configuration_fast_vlm.py +137 -0
transformers/models/fast_vlm/modeling_fast_vlm.py +455 -0
transformers/models/fast_vlm/modular_fast_vlm.py +273 -0
transformers/models/fastspeech2_conformer/modeling_fastspeech2_conformer.py +8 -3
transformers/models/flaubert/modeling_flaubert.py +7 -0
transformers/models/flava/modeling_flava.py +6 -1
transformers/models/flex_olmo/modeling_flex_olmo.py +4 -5
transformers/models/florence2/modeling_florence2.py +2 -1
transformers/models/florence2/modular_florence2.py +2 -1
transformers/models/fnet/modeling_fnet.py +7 -0
transformers/models/focalnet/modeling_focalnet.py +4 -0
transformers/models/fsmt/modeling_fsmt.py +2 -0
transformers/models/funnel/modeling_funnel.py +8 -0
transformers/models/funnel/tokenization_funnel.py +17 -24
transformers/models/fuyu/processing_fuyu.py +3 -3
transformers/models/gemma/modeling_gemma.py +4 -4
transformers/models/gemma/tokenization_gemma.py +10 -27
transformers/models/gemma2/modeling_gemma2.py +4 -4
transformers/models/gemma2/modular_gemma2.py +2 -1
transformers/models/gemma3/modeling_gemma3.py +14 -84
transformers/models/gemma3/modular_gemma3.py +12 -81
transformers/models/gemma3n/modeling_gemma3n.py +18 -209
transformers/models/gemma3n/modular_gemma3n.py +17 -59
transformers/models/git/modeling_git.py +2 -0
transformers/models/glm/modeling_glm.py +4 -4
transformers/models/glm4/modeling_glm4.py +4 -4
transformers/models/glm4_moe/modeling_glm4_moe.py +5 -3
transformers/models/glm4v/configuration_glm4v.py +3 -1
transformers/models/glm4v/modeling_glm4v.py +3 -3
transformers/models/glm4v/modular_glm4v.py +6 -4
transformers/models/glm4v_moe/configuration_glm4v_moe.py +3 -1
transformers/models/glm4v_moe/modeling_glm4v_moe.py +6 -5
transformers/models/glm4v_moe/modular_glm4v_moe.py +1 -1
transformers/models/glpn/modeling_glpn.py +2 -0
transformers/models/gpt2/modeling_gpt2.py +5 -1
transformers/models/gpt2/tokenization_gpt2.py +16 -44
transformers/models/gpt_bigcode/modeling_gpt_bigcode.py +1 -0
transformers/models/gpt_neo/modeling_gpt_neo.py +4 -0
transformers/models/gpt_neox/modeling_gpt_neox.py +5 -2
transformers/models/gpt_neox/modular_gpt_neox.py +3 -0
transformers/models/gpt_neox/tokenization_gpt_neox.py +10 -49
transformers/models/gpt_neox_japanese/modeling_gpt_neox_japanese.py +3 -1
transformers/models/gpt_oss/modeling_gpt_oss.py +5 -6
transformers/models/gpt_oss/modular_gpt_oss.py +3 -5
transformers/models/gptj/modeling_gptj.py +3 -0
transformers/models/granite/modeling_granite.py +4 -4
transformers/models/granitemoe/modeling_granitemoe.py +4 -6
transformers/models/granitemoe/modular_granitemoe.py +0 -2
transformers/models/granitemoehybrid/modeling_granitemoehybrid.py +4 -6
transformers/models/granitemoeshared/modeling_granitemoeshared.py +4 -6
transformers/models/grounding_dino/modeling_grounding_dino.py +4 -0
transformers/models/groupvit/modeling_groupvit.py +3 -0
transformers/models/helium/modeling_helium.py +4 -3
transformers/models/herbert/tokenization_herbert.py +9 -25
transformers/models/hgnet_v2/modeling_hgnet_v2.py +6 -1
transformers/models/hgnet_v2/modular_hgnet_v2.py +6 -1
transformers/models/hiera/modeling_hiera.py +4 -0
transformers/models/hubert/modeling_hubert.py +3 -0
transformers/models/hubert/modular_hubert.py +1 -0
transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py +4 -4
transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py +4 -4
transformers/models/ibert/modeling_ibert.py +6 -0
transformers/models/idefics/modeling_idefics.py +5 -21
transformers/models/imagegpt/modeling_imagegpt.py +2 -1
transformers/models/informer/modeling_informer.py +4 -0
transformers/models/informer/modular_informer.py +1 -0
transformers/models/internvl/modeling_internvl.py +2 -4
transformers/models/internvl/modular_internvl.py +2 -4
transformers/models/jamba/modeling_jamba.py +2 -2
transformers/models/janus/modeling_janus.py +1 -0
transformers/models/janus/modular_janus.py +1 -0
transformers/models/jetmoe/modeling_jetmoe.py +2 -2
transformers/models/kosmos2/modeling_kosmos2.py +1 -0
transformers/models/kyutai_speech_to_text/modeling_kyutai_speech_to_text.py +3 -1
transformers/models/lasr/__init__.py +29 -0
transformers/models/lasr/configuration_lasr.py +244 -0
transformers/models/lasr/feature_extraction_lasr.py +277 -0
transformers/models/lasr/modeling_lasr.py +729 -0
transformers/models/lasr/modular_lasr.py +569 -0
transformers/models/lasr/processing_lasr.py +96 -0
transformers/models/lasr/tokenization_lasr.py +186 -0
transformers/models/layoutlm/modeling_layoutlm.py +5 -0
transformers/models/layoutlmv2/modeling_layoutlmv2.py +4 -0
transformers/models/layoutlmv2/tokenization_layoutlmv2.py +10 -53
transformers/models/layoutlmv3/modeling_layoutlmv3.py +4 -0
transformers/models/layoutlmv3/tokenization_layoutlmv3.py +12 -61
transformers/models/layoutxlm/tokenization_layoutxlm.py +13 -38
transformers/models/led/modeling_led.py +6 -0
transformers/models/levit/modeling_levit.py +3 -0
transformers/models/lfm2/modeling_lfm2.py +4 -5
transformers/models/lfm2/modular_lfm2.py +0 -1
transformers/models/lfm2_moe/modeling_lfm2_moe.py +4 -5
transformers/models/lightglue/modeling_lightglue.py +3 -1
transformers/models/lightglue/modular_lightglue.py +1 -0
transformers/models/lilt/modeling_lilt.py +4 -0
transformers/models/llama/modeling_llama.py +4 -4
transformers/models/llama/tokenization_llama.py +15 -43
transformers/models/llama4/modeling_llama4.py +3 -2
transformers/models/longcat_flash/modeling_longcat_flash.py +4 -4
transformers/models/longcat_flash/modular_longcat_flash.py +2 -2
transformers/models/longformer/modeling_longformer.py +6 -0
transformers/models/longt5/modeling_longt5.py +4 -0
transformers/models/luke/modeling_luke.py +9 -0
transformers/models/luke/tokenization_luke.py +11 -38
transformers/models/lxmert/modeling_lxmert.py +2 -0
transformers/models/m2m_100/modeling_m2m_100.py +4 -0
transformers/models/mamba/modeling_mamba.py +14 -22
transformers/models/marian/modeling_marian.py +5 -0
transformers/models/markuplm/modeling_markuplm.py +4 -0
transformers/models/markuplm/tokenization_markuplm.py +28 -61
transformers/models/mask2former/modeling_mask2former.py +2 -0
transformers/models/maskformer/modeling_maskformer.py +2 -0
transformers/models/maskformer/modeling_maskformer_swin.py +2 -0
transformers/models/mbart/modeling_mbart.py +7 -0
transformers/models/mbart/tokenization_mbart.py +11 -52
transformers/models/mbart50/tokenization_mbart50.py +7 -10
transformers/models/megatron_bert/modeling_megatron_bert.py +7 -0
transformers/models/mgp_str/modeling_mgp_str.py +2 -0
transformers/models/mimi/modeling_mimi.py +3 -1
transformers/models/minimax/modeling_minimax.py +4 -4
transformers/models/ministral/modeling_ministral.py +4 -4
transformers/models/ministral3/configuration_ministral3.py +1 -1
transformers/models/ministral3/modeling_ministral3.py +4 -3
transformers/models/mistral/modeling_mistral.py +4 -3
transformers/models/mixtral/modeling_mixtral.py +4 -4
transformers/models/mllama/modeling_mllama.py +2 -2
transformers/models/mluke/tokenization_mluke.py +6 -6
transformers/models/mm_grounding_dino/modeling_mm_grounding_dino.py +4 -0
transformers/models/mobilenet_v1/modeling_mobilenet_v1.py +2 -0
transformers/models/mobilenet_v2/modeling_mobilenet_v2.py +3 -0
transformers/models/mobilevit/modeling_mobilevit.py +3 -0
transformers/models/mobilevitv2/modeling_mobilevitv2.py +3 -0
transformers/models/modernbert/modeling_modernbert.py +4 -1
transformers/models/modernbert/modular_modernbert.py +2 -0
transformers/models/modernbert_decoder/modeling_modernbert_decoder.py +8 -9
transformers/models/modernbert_decoder/modular_modernbert_decoder.py +6 -7
transformers/models/moonshine/modeling_moonshine.py +4 -2
transformers/models/moshi/modeling_moshi.py +5 -2
transformers/models/mpnet/modeling_mpnet.py +5 -0
transformers/models/mpnet/tokenization_mpnet.py +5 -13
transformers/models/mpt/modeling_mpt.py +2 -0
transformers/models/mra/modeling_mra.py +6 -0
transformers/models/mt5/modeling_mt5.py +7 -0
transformers/models/musicgen/modeling_musicgen.py +2 -0
transformers/models/musicgen_melody/modeling_musicgen_melody.py +3 -0
transformers/models/mvp/modeling_mvp.py +7 -0
transformers/models/nanochat/modeling_nanochat.py +4 -4
transformers/models/nemotron/modeling_nemotron.py +4 -2
transformers/models/nllb/tokenization_nllb.py +8 -22
transformers/models/nougat/tokenization_nougat.py +11 -59
transformers/models/nystromformer/modeling_nystromformer.py +6 -0
transformers/models/olmo/modeling_olmo.py +4 -4
transformers/models/olmo/modular_olmo.py +2 -2
transformers/models/olmo2/modeling_olmo2.py +4 -5
transformers/models/olmo2/modular_olmo2.py +0 -1
transformers/models/olmo3/modeling_olmo3.py +4 -4
transformers/models/olmoe/modeling_olmoe.py +4 -4
transformers/models/omdet_turbo/modeling_omdet_turbo.py +2 -0
transformers/models/oneformer/modeling_oneformer.py +4 -1
transformers/models/openai/modeling_openai.py +3 -0
transformers/models/openai/tokenization_openai.py +10 -46
transformers/models/opt/modeling_opt.py +2 -0
transformers/models/owlv2/modeling_owlv2.py +4 -0
transformers/models/owlvit/modeling_owlvit.py +4 -0
transformers/models/paddleocr_vl/__init__.py +32 -0
transformers/models/paddleocr_vl/configuration_paddleocr_vl.py +336 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl.py +503 -0
transformers/models/paddleocr_vl/image_processing_paddleocr_vl_fast.py +209 -0
transformers/models/paddleocr_vl/modeling_paddleocr_vl.py +1668 -0
transformers/models/paddleocr_vl/modular_paddleocr_vl.py +1349 -0
transformers/models/paddleocr_vl/processing_paddleocr_vl.py +135 -0
transformers/models/parakeet/configuration_parakeet.py +4 -6
transformers/models/parakeet/modeling_parakeet.py +9 -6
transformers/models/parakeet/modular_parakeet.py +2 -2
transformers/models/parakeet/processing_parakeet.py +1 -0
transformers/models/patchtsmixer/modeling_patchtsmixer.py +6 -0
transformers/models/patchtst/modeling_patchtst.py +20 -2
transformers/models/pegasus/modeling_pegasus.py +5 -0
transformers/models/pegasus/tokenization_pegasus.py +17 -44
transformers/models/pegasus_x/modeling_pegasus_x.py +4 -0
transformers/models/perceiver/modeling_perceiver.py +8 -0
transformers/models/persimmon/modeling_persimmon.py +2 -1
transformers/models/phi/modeling_phi.py +4 -5
transformers/models/phi/modular_phi.py +0 -1
transformers/models/phi3/modeling_phi3.py +2 -1
transformers/models/phi4_multimodal/modeling_phi4_multimodal.py +5 -5
transformers/models/phi4_multimodal/modular_phi4_multimodal.py +4 -4
transformers/models/phimoe/modeling_phimoe.py +4 -4
transformers/models/phimoe/modular_phimoe.py +2 -2
transformers/models/pix2struct/modeling_pix2struct.py +2 -0
transformers/models/pixtral/modeling_pixtral.py +2 -1
transformers/models/plbart/modeling_plbart.py +6 -0
transformers/models/plbart/modular_plbart.py +2 -0
transformers/models/plbart/tokenization_plbart.py +0 -2
transformers/models/poolformer/modeling_poolformer.py +2 -0
transformers/models/pop2piano/modeling_pop2piano.py +2 -0
transformers/models/prompt_depth_anything/modeling_prompt_depth_anything.py +1 -0
transformers/models/prompt_depth_anything/modular_prompt_depth_anything.py +1 -0
transformers/models/prophetnet/modeling_prophetnet.py +3 -0
transformers/models/pvt/modeling_pvt.py +2 -0
transformers/models/pvt_v2/modeling_pvt_v2.py +3 -0
transformers/models/qwen2/modeling_qwen2.py +4 -4
transformers/models/qwen2/tokenization_qwen2.py +14 -18
transformers/models/qwen2_5_omni/configuration_qwen2_5_omni.py +4 -2
transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py +13 -16
transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py +14 -16
transformers/models/qwen2_5_vl/configuration_qwen2_5_vl.py +1 -1
transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py +5 -6
transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py +3 -5
transformers/models/qwen2_audio/modeling_qwen2_audio.py +2 -0
transformers/models/qwen2_moe/modeling_qwen2_moe.py +4 -4
transformers/models/qwen2_vl/configuration_qwen2_vl.py +1 -1
transformers/models/qwen2_vl/modeling_qwen2_vl.py +6 -16
transformers/models/qwen3/modeling_qwen3.py +4 -4
transformers/models/qwen3_moe/modeling_qwen3_moe.py +4 -4
transformers/models/qwen3_next/modeling_qwen3_next.py +4 -3
transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py +21 -23
transformers/models/qwen3_omni_moe/modular_qwen3_omni_moe.py +14 -16
transformers/models/qwen3_vl/modeling_qwen3_vl.py +39 -37
transformers/models/qwen3_vl/modular_qwen3_vl.py +37 -35
transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py +39 -37
transformers/models/qwen3_vl_moe/modular_qwen3_vl_moe.py +4 -1
transformers/models/rag/modeling_rag.py +1 -0
transformers/models/recurrent_gemma/modeling_recurrent_gemma.py +15 -1
transformers/models/reformer/modeling_reformer.py +4 -0
transformers/models/reformer/tokenization_reformer.py +11 -28
transformers/models/regnet/modeling_regnet.py +6 -1
transformers/models/rembert/modeling_rembert.py +6 -0
transformers/models/rembert/tokenization_rembert.py +3 -10
transformers/models/resnet/modeling_resnet.py +11 -2
transformers/models/roberta/tokenization_roberta.py +18 -27
transformers/models/roformer/modeling_roformer.py +6 -0
transformers/models/roformer/tokenization_roformer.py +77 -412
transformers/models/rt_detr/modeling_rt_detr.py +2 -0
transformers/models/rt_detr/modeling_rt_detr_resnet.py +5 -1
transformers/models/rt_detr_v2/modeling_rt_detr_v2.py +2 -0
transformers/models/rwkv/modeling_rwkv.py +1 -0
transformers/models/sam2/modeling_sam2.py +2 -2
transformers/models/sam2/modular_sam2.py +2 -2
transformers/models/sam2_video/modeling_sam2_video.py +1 -0
transformers/models/sam2_video/modular_sam2_video.py +1 -0
transformers/models/sam3/modeling_sam3.py +77 -80
transformers/models/sam3_tracker/modeling_sam3_tracker.py +6 -1
transformers/models/sam3_tracker/modular_sam3_tracker.py +6 -1
transformers/models/sam3_tracker_video/modeling_sam3_tracker_video.py +1 -0
transformers/models/sam3_video/modeling_sam3_video.py +1 -0
transformers/models/seamless_m4t/modeling_seamless_m4t.py +5 -1
transformers/models/seamless_m4t/tokenization_seamless_m4t.py +27 -59
transformers/models/seamless_m4t_v2/modeling_seamless_m4t_v2.py +5 -1
transformers/models/seed_oss/modeling_seed_oss.py +2 -2
transformers/models/segformer/modeling_segformer.py +4 -1
transformers/models/seggpt/modeling_seggpt.py +2 -0
transformers/models/sew/modeling_sew.py +3 -0
transformers/models/sew/modular_sew.py +1 -0
transformers/models/sew_d/modeling_sew_d.py +3 -0
transformers/models/siglip2/modeling_siglip2.py +4 -0
transformers/models/siglip2/modular_siglip2.py +4 -0
transformers/models/smollm3/modeling_smollm3.py +4 -4
transformers/models/smolvlm/processing_smolvlm.py +0 -7
transformers/models/speech_to_text/modeling_speech_to_text.py +4 -0
transformers/models/speecht5/modeling_speecht5.py +13 -1
transformers/models/splinter/modeling_splinter.py +3 -0
transformers/models/splinter/tokenization_splinter.py +9 -28
transformers/models/squeezebert/modeling_squeezebert.py +6 -0
transformers/models/stablelm/modeling_stablelm.py +3 -1
transformers/models/starcoder2/modeling_starcoder2.py +4 -3
transformers/models/superglue/modeling_superglue.py +1 -0
transformers/models/superpoint/modeling_superpoint.py +1 -0
transformers/models/swiftformer/modeling_swiftformer.py +2 -0
transformers/models/swin/modeling_swin.py +4 -0
transformers/models/swin2sr/modeling_swin2sr.py +2 -0
transformers/models/swinv2/modeling_swinv2.py +4 -0
transformers/models/t5/modeling_t5.py +7 -0
transformers/models/t5/tokenization_t5.py +4 -8
transformers/models/t5gemma/modeling_t5gemma.py +5 -5
transformers/models/t5gemma2/modeling_t5gemma2.py +6 -6
transformers/models/table_transformer/modeling_table_transformer.py +4 -0
transformers/models/tapas/modeling_tapas.py +3 -0
transformers/models/textnet/modeling_textnet.py +11 -2
transformers/models/time_series_transformer/modeling_time_series_transformer.py +4 -0
transformers/models/timesfm/modeling_timesfm.py +2 -0
transformers/models/timesfm/modular_timesfm.py +2 -0
transformers/models/timesformer/modeling_timesformer.py +2 -0
transformers/models/timm_wrapper/modeling_timm_wrapper.py +1 -1
transformers/models/trocr/modeling_trocr.py +2 -0
transformers/models/tvp/modeling_tvp.py +2 -0
transformers/models/udop/modeling_udop.py +4 -0
transformers/models/udop/tokenization_udop.py +5 -13
transformers/models/umt5/modeling_umt5.py +7 -0
transformers/models/unispeech/modeling_unispeech.py +4 -0
transformers/models/unispeech/modular_unispeech.py +2 -0
transformers/models/unispeech_sat/modeling_unispeech_sat.py +6 -0
transformers/models/unispeech_sat/modular_unispeech_sat.py +2 -0
transformers/models/univnet/modeling_univnet.py +1 -0
transformers/models/upernet/modeling_upernet.py +1 -0
transformers/models/vaultgemma/modeling_vaultgemma.py +4 -4
transformers/models/vilt/modeling_vilt.py +6 -0
transformers/models/vision_text_dual_encoder/modeling_vision_text_dual_encoder.py +1 -0
transformers/models/visual_bert/modeling_visual_bert.py +6 -0
transformers/models/vitdet/modeling_vitdet.py +2 -0
transformers/models/vitmatte/modeling_vitmatte.py +1 -0
transformers/models/vits/modeling_vits.py +1 -0
transformers/models/vjepa2/modeling_vjepa2.py +1 -0
transformers/models/wav2vec2/modeling_wav2vec2.py +7 -0
transformers/models/wav2vec2_bert/modeling_wav2vec2_bert.py +5 -0
transformers/models/wav2vec2_bert/modular_wav2vec2_bert.py +5 -0
transformers/models/wav2vec2_conformer/modeling_wav2vec2_conformer.py +6 -0
transformers/models/wavlm/modeling_wavlm.py +5 -0
transformers/models/whisper/modeling_whisper.py +6 -0
transformers/models/whisper/tokenization_whisper.py +4 -15
transformers/models/x_clip/modeling_x_clip.py +3 -0
transformers/models/xglm/modeling_xglm.py +1 -0
transformers/models/xglm/tokenization_xglm.py +4 -9
transformers/models/xlm/modeling_xlm.py +5 -0
transformers/models/xlm_roberta/tokenization_xlm_roberta.py +9 -16
transformers/models/xlnet/tokenization_xlnet.py +3 -7
transformers/models/yoso/modeling_yoso.py +6 -0
transformers/models/zamba/modeling_zamba.py +2 -0
transformers/models/zamba2/modeling_zamba2.py +4 -2
transformers/models/zamba2/modular_zamba2.py +1 -1
transformers/models/zoedepth/modeling_zoedepth.py +1 -0
transformers/pipelines/__init__.py +2 -3
transformers/pipelines/base.py +1 -9
transformers/pipelines/document_question_answering.py +3 -1
transformers/pipelines/text_generation.py +1 -1
transformers/processing_utils.py +23 -11
transformers/quantizers/base.py +35 -110
transformers/quantizers/quantizer_aqlm.py +1 -5
transformers/quantizers/quantizer_auto_round.py +1 -2
transformers/quantizers/quantizer_awq.py +17 -81
transformers/quantizers/quantizer_bitnet.py +3 -8
transformers/quantizers/quantizer_bnb_4bit.py +13 -110
transformers/quantizers/quantizer_bnb_8bit.py +16 -92
transformers/quantizers/quantizer_compressed_tensors.py +1 -5
transformers/quantizers/quantizer_eetq.py +14 -62
transformers/quantizers/quantizer_fbgemm_fp8.py +34 -125
transformers/quantizers/quantizer_finegrained_fp8.py +13 -105
transformers/quantizers/quantizer_fp_quant.py +48 -78
transformers/quantizers/quantizer_gptq.py +7 -24
transformers/quantizers/quantizer_higgs.py +40 -54
transformers/quantizers/quantizer_hqq.py +144 -153
transformers/quantizers/quantizer_mxfp4.py +13 -167
transformers/quantizers/quantizer_quanto.py +20 -64
transformers/quantizers/quantizer_quark.py +36 -17
transformers/quantizers/quantizer_spqr.py +1 -4
transformers/quantizers/quantizer_torchao.py +23 -202
transformers/quantizers/quantizer_vptq.py +8 -22
transformers/quantizers/quantizers_utils.py +20 -0
transformers/testing_utils.py +297 -36
transformers/tokenization_mistral_common.py +4 -0
transformers/tokenization_utils_base.py +113 -222
transformers/tokenization_utils_tokenizers.py +168 -107
transformers/trainer.py +28 -31
transformers/trainer_jit_checkpoint.py +126 -0
transformers/trainer_utils.py +1 -1
transformers/training_args.py +66 -28
transformers/utils/__init__.py +3 -4
transformers/utils/auto_docstring.py +1 -0
transformers/utils/generic.py +27 -1
transformers/utils/hub.py +5 -15
transformers/utils/import_utils.py +61 -16
transformers/utils/kernel_config.py +4 -2
transformers/utils/loading_report.py +19 -10
transformers/utils/quantization_config.py +75 -242
transformers/video_processing_utils.py +1 -2
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/METADATA +274 -227
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/RECORD +536 -520
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/WHEEL +1 -1
transformers/kernels/__init__.py +0 -0
transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py +0 -529
transformers/models/roformer/tokenization_roformer_fast.py +0 -160
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/entry_points.txt +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info/licenses}/LICENSE +0 -0
{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/top_level.txt +0 -0

{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: bdist_wheel (0.45.1)
+Generator: setuptools (80.9.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

transformers/kernels/__init__.py DELETED Viewed

File without changes

transformers/kernels/falcon_mamba/selective_scan_with_ln_interface.py DELETED Viewed

@@ -1,529 +0,0 @@
-# coding=utf-8
-# Copyright 2024 Tri Dao, Albert Gu, Technological Innovation Institute and HuggingFace Inc. team.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# Original code from: https://github.com/state-spaces/mamba/blob/main/mamba_ssm/ops/selective_scan_interface.py
-import torch
-import torch.nn.functional as F
-from einops import rearrange, repeat
-from torch.cuda.amp import custom_bwd, custom_fwd
-try:
-    import causal_conv1d_cuda
-except ImportError:
-    causal_conv1d_cuda = None
-import mamba_ssm
-import selective_scan_cuda
-# For BC for old mamba-ssm versions: https://github.com/huggingface/transformers/pull/33195#discussion_r1736401127
-if hasattr(mamba_ssm.ops.triton, "layernorm"):
-    from mamba_ssm.ops.triton.layernorm import _layer_norm_fwd
-else:
-    from mamba_ssm.ops.triton.layer_norm import _layer_norm_fwd
-class SelectiveScanFn(torch.autograd.Function):
-    @staticmethod
-    def forward(
-        ctx, u, delta, A, B, C, D=None, z=None, delta_bias=None, delta_softplus=False, return_last_state=False
-    ):
-        if u.stride(-1) != 1:
-            u = u.contiguous()
-        if delta.stride(-1) != 1:
-            delta = delta.contiguous()
-        if D is not None:
-            D = D.contiguous()
-        if B.stride(-1) != 1:
-            B = B.contiguous()
-        if C.stride(-1) != 1:
-            C = C.contiguous()
-        if z is not None and z.stride(-1) != 1:
-            z = z.contiguous()
-        if B.dim() == 3:
-            B = rearrange(B, "b dstate l -> b 1 dstate l")
-            ctx.squeeze_B = True
-        if C.dim() == 3:
-            C = rearrange(C, "b dstate l -> b 1 dstate l")
-            ctx.squeeze_C = True
-        out, x, *rest = selective_scan_cuda.fwd(u, delta, A, B, C, D, z, delta_bias, delta_softplus)
-        ctx.delta_softplus = delta_softplus
-        ctx.has_z = z is not None
-        last_state = x[:, :, -1, 1::2]  # (batch, dim, dstate)
-        if not ctx.has_z:
-            ctx.save_for_backward(u, delta, A, B, C, D, delta_bias, x)
-            return out if not return_last_state else (out, last_state)
-        else:
-            ctx.save_for_backward(u, delta, A, B, C, D, z, delta_bias, x, out)
-            out_z = rest[0]
-            return out_z if not return_last_state else (out_z, last_state)
-    @staticmethod
-    def backward(ctx, dout, *args):
-        if not ctx.has_z:
-            u, delta, A, B, C, D, delta_bias, x = ctx.saved_tensors
-            z = None
-            out = None
-        else:
-            u, delta, A, B, C, D, z, delta_bias, x, out = ctx.saved_tensors
-        if dout.stride(-1) != 1:
-            dout = dout.contiguous()
-        # The kernel supports passing in a pre-allocated dz (e.g., in case we want to fuse the
-        # backward of selective_scan_cuda with the backward of chunk).
-        # Here we just pass in None and dz will be allocated in the C++ code.
-        du, ddelta, dA, dB, dC, dD, ddelta_bias, *rest = selective_scan_cuda.bwd(
-            u,
-            delta,
-            A,
-            B,
-            C,
-            D,
-            z,
-            delta_bias,
-            dout,
-            x,
-            out,
-            None,
-            ctx.delta_softplus,
-            False,  # option to recompute out_z, not used here
-        )
-        dz = rest[0] if ctx.has_z else None
-        dB = dB.squeeze(1) if getattr(ctx, "squeeze_B", False) else dB
-        dC = dC.squeeze(1) if getattr(ctx, "squeeze_C", False) else dC
-        return (
-            du,
-            ddelta,
-            dA,
-            dB,
-            dC,
-            dD if D is not None else None,
-            dz,
-            ddelta_bias if delta_bias is not None else None,
-            None,
-            None,
-        )
-def rms_norm_forward(
-    x,
-    weight,
-    bias,
-    eps=1e-6,
-    is_rms_norm=True,
-):
-    # x (b l) d
-    if x.stride(-1) != 1:
-        x = x.contiguous()
-    weight = weight.contiguous()
-    if bias is not None:
-        bias = bias.contiguous()
-    y = _layer_norm_fwd(x, weight, bias, eps, None, residual_dtype=None, is_rms_norm=is_rms_norm)[0]
-    # y (b l) d
-    return y
-def selective_scan_fn(
-    u, delta, A, B, C, D=None, z=None, delta_bias=None, delta_softplus=False, return_last_state=False
-):
-    """if return_last_state is True, returns (out, last_state)
-    last_state has shape (batch, dim, dstate). Note that the gradient of the last state is
-    not considered in the backward pass.
-    """
-    return SelectiveScanFn.apply(u, delta, A, B, C, D, z, delta_bias, delta_softplus, return_last_state)
-def selective_scan_ref(
-    u, delta, A, B, C, D=None, z=None, delta_bias=None, delta_softplus=False, return_last_state=False
-):
-    """
-    u: r(B D L)
-    delta: r(B D L)
-    A: c(D N) or r(D N)
-    B: c(D N) or r(B N L) or r(B N 2L) or r(B G N L) or (B G N L)
-    C: c(D N) or r(B N L) or r(B N 2L) or r(B G N L) or (B G N L)
-    D: r(D)
-    z: r(B D L)
-    delta_bias: r(D), fp32
-    out: r(B D L)
-    last_state (optional): r(B D dstate) or c(B D dstate)
-    """
-    dtype_in = u.dtype
-    u = u.float()
-    delta = delta.float()
-    if delta_bias is not None:
-        delta = delta + delta_bias[..., None].float()
-    if delta_softplus:
-        delta = F.softplus(delta)
-    batch, dim, dstate = u.shape[0], A.shape[0], A.shape[1]
-    is_variable_B = B.dim() >= 3
-    is_variable_C = C.dim() >= 3
-    if A.is_complex():
-        if is_variable_B:
-            B = torch.view_as_complex(rearrange(B.float(), "... (L two) -> ... L two", two=2))
-        if is_variable_C:
-            C = torch.view_as_complex(rearrange(C.float(), "... (L two) -> ... L two", two=2))
-    else:
-        B = B.float()
-        C = C.float()
-    x = A.new_zeros((batch, dim, dstate))
-    ys = []
-    deltaA = torch.exp(torch.einsum("bdl,dn->bdln", delta, A))
-    if not is_variable_B:
-        deltaB_u = torch.einsum("bdl,dn,bdl->bdln", delta, B, u)
-    else:
-        if B.dim() == 3:
-            deltaB_u = torch.einsum("bdl,bnl,bdl->bdln", delta, B, u)
-        else:
-            B = repeat(B, "B G N L -> B (G H) N L", H=dim // B.shape[1])
-            deltaB_u = torch.einsum("bdl,bdnl,bdl->bdln", delta, B, u)
-    if is_variable_C and C.dim() == 4:
-        C = repeat(C, "B G N L -> B (G H) N L", H=dim // C.shape[1])
-    last_state = None
-    for i in range(u.shape[2]):
-        x = deltaA[:, :, i] * x + deltaB_u[:, :, i]
-        if not is_variable_C:
-            y = torch.einsum("bdn,dn->bd", x, C)
-        else:
-            if C.dim() == 3:
-                y = torch.einsum("bdn,bn->bd", x, C[:, :, i])
-            else:
-                y = torch.einsum("bdn,bdn->bd", x, C[:, :, :, i])
-        if i == u.shape[2] - 1:
-            last_state = x
-        if y.is_complex():
-            y = y.real * 2
-        ys.append(y)
-    y = torch.stack(ys, dim=2)  # (batch dim L)
-    out = y if D is None else y + u * rearrange(D, "d -> d 1")
-    if z is not None:
-        out = out * F.silu(z)
-    out = out.to(dtype=dtype_in)
-    return out if not return_last_state else (out, last_state)
-class MambaInnerFn(torch.autograd.Function):
-    @staticmethod
-    @custom_fwd
-    def forward(
-        ctx,
-        xz,
-        conv1d_weight,
-        conv1d_bias,
-        x_proj_weight,
-        delta_proj_weight,
-        out_proj_weight,
-        out_proj_bias,
-        A,
-        B=None,
-        C=None,
-        D=None,
-        delta_bias=None,
-        B_proj_bias=None,
-        C_proj_bias=None,
-        delta_softplus=True,
-        checkpoint_lvl=1,
-        b_rms_weight=None,
-        c_rms_weight=None,
-        dt_rms_weight=None,
-        b_c_dt_rms_eps=1e-6,
-    ):
-        """
-        xz: (batch, dim, seqlen)
-        """
-        assert causal_conv1d_cuda is not None, "causal_conv1d_cuda is not available. Please install causal-conv1d."
-        assert checkpoint_lvl in [0, 1]
-        L = xz.shape[-1]
-        delta_rank = delta_proj_weight.shape[1]
-        d_state = A.shape[-1] * (1 if not A.is_complex() else 2)
-        if torch.is_autocast_enabled():
-            # NOTE: `torch.get_autocast_dtype` is there starting from PyTorch 2.4
-            target_dtype = (
-                torch.get_autocast_dtype("cuda")
-                if hasattr(torch, "get_autocast_dtype")
-                else torch.get_autocast_gpu_dtype()
-            )
-            x_proj_weight = x_proj_weight.to(dtype=target_dtype)
-            delta_proj_weight = delta_proj_weight.to(dtype=target_dtype)
-            out_proj_weight = out_proj_weight.to(dtype=target_dtype)
-            out_proj_bias = out_proj_bias.to(dtype=target_dtype) if out_proj_bias is not None else None
-        if xz.stride(-1) != 1:
-            xz = xz.contiguous()
-        conv1d_weight = rearrange(conv1d_weight, "d 1 w -> d w")
-        x, z = xz.chunk(2, dim=1)
-        conv1d_bias = conv1d_bias.contiguous() if conv1d_bias is not None else None
-        conv1d_out = causal_conv1d_cuda.causal_conv1d_fwd(x, conv1d_weight, conv1d_bias, None, None, None, True)
-        # We're being very careful here about the layout, to avoid extra transposes.
-        # We want delta to have d as the slowest moving dimension
-        # and L as the fastest moving dimension, since those are what the ssm_scan kernel expects.
-        x_dbl = F.linear(rearrange(conv1d_out, "b d l -> (b l) d"), x_proj_weight)  # (bl d)
-        delta = rearrange(delta_proj_weight @ x_dbl[:, :delta_rank].t(), "d (b l) -> b d l", l=L)
-        ctx.is_variable_B = B is None
-        ctx.is_variable_C = C is None
-        ctx.B_proj_bias_is_None = B_proj_bias is None
-        ctx.C_proj_bias_is_None = C_proj_bias is None
-        if B is None:  # variable B
-            B = x_dbl[:, delta_rank : delta_rank + d_state]  # (bl dstate)
-            if B_proj_bias is not None:
-                B = B + B_proj_bias.to(dtype=B.dtype)
-            if not A.is_complex():
-                # B = rearrange(B, "(b l) dstate -> b dstate l", l=L).contiguous()
-                B = rearrange(B, "(b l) dstate -> b 1 dstate l", l=L).contiguous()
-            else:
-                B = rearrange(B, "(b l) (dstate two) -> b 1 dstate (l two)", l=L, two=2).contiguous()
-        else:
-            if B.stride(-1) != 1:
-                B = B.contiguous()
-        if C is None:  # variable C
-            C = x_dbl[:, -d_state:]  # (bl dstate)
-            if C_proj_bias is not None:
-                C = C + C_proj_bias.to(dtype=C.dtype)
-            if not A.is_complex():
-                # C = rearrange(C, "(b l) dstate -> b dstate l", l=L).contiguous()
-                C = rearrange(C, "(b l) dstate -> b 1 dstate l", l=L).contiguous()
-            else:
-                C = rearrange(C, "(b l) (dstate two) -> b 1 dstate (l two)", l=L, two=2).contiguous()
-        else:
-            if C.stride(-1) != 1:
-                C = C.contiguous()
-        if D is not None:
-            D = D.contiguous()
-        if b_rms_weight is not None:
-            B = rearrange(B, "b 1 dstate l -> (b l) dstate", l=L).contiguous()
-            B = rms_norm_forward(B, b_rms_weight, bias=None, eps=b_c_dt_rms_eps)
-            B = rearrange(B, "(b l) dstate -> b 1 dstate l", l=L).contiguous()
-        if c_rms_weight is not None:
-            C = rearrange(C, "b 1 dstate l -> (b l) dstate", l=L).contiguous()
-            C = rms_norm_forward(C, c_rms_weight, bias=None, eps=b_c_dt_rms_eps)
-            C = rearrange(C, "(b l) dstate -> b 1 dstate l", l=L).contiguous()
-        if dt_rms_weight is not None:
-            delta = rearrange(delta, "b d l -> (b l) d", l=L).contiguous()
-            delta = rms_norm_forward(delta, dt_rms_weight, bias=None, eps=b_c_dt_rms_eps)
-            delta = rearrange(delta, "(b l) d -> b d l", l=L).contiguous()
-        out, scan_intermediates, out_z = selective_scan_cuda.fwd(
-            conv1d_out, delta, A, B, C, D, z, delta_bias, delta_softplus
-        )
-        ctx.delta_softplus = delta_softplus
-        ctx.out_proj_bias_is_None = out_proj_bias is None
-        ctx.checkpoint_lvl = checkpoint_lvl
-        ctx.b_rms_weight = b_rms_weight
-        ctx.c_rms_weight = c_rms_weight
-        ctx.dt_rms_weight = dt_rms_weight
-        ctx.b_c_dt_rms_eps = b_c_dt_rms_eps
-        if checkpoint_lvl >= 1:  # Will recompute conv1d_out and delta in the backward pass
-            conv1d_out, delta = None, None
-        ctx.save_for_backward(
-            xz,
-            conv1d_weight,
-            conv1d_bias,
-            x_dbl,
-            x_proj_weight,
-            delta_proj_weight,
-            out_proj_weight,
-            conv1d_out,
-            delta,
-            A,
-            B,
-            C,
-            D,
-            delta_bias,
-            scan_intermediates,
-            b_rms_weight,
-            c_rms_weight,
-            dt_rms_weight,
-            out,
-        )
-        return F.linear(rearrange(out_z, "b d l -> b l d"), out_proj_weight, out_proj_bias)
-    @staticmethod
-    @custom_bwd
-    def backward(ctx, dout):
-        # dout: (batch, seqlen, dim)
-        assert causal_conv1d_cuda is not None, "causal_conv1d_cuda is not available. Please install causal-conv1d."
-        (
-            xz,
-            conv1d_weight,
-            conv1d_bias,
-            x_dbl,
-            x_proj_weight,
-            delta_proj_weight,
-            out_proj_weight,
-            conv1d_out,
-            delta,
-            A,
-            B,
-            C,
-            D,
-            delta_bias,
-            scan_intermediates,
-            b_rms_weight,
-            c_rms_weight,
-            dt_rms_weight,
-            out,
-        ) = ctx.saved_tensors
-        L = xz.shape[-1]
-        delta_rank = delta_proj_weight.shape[1]
-        d_state = A.shape[-1] * (1 if not A.is_complex() else 2)
-        x, z = xz.chunk(2, dim=1)
-        if dout.stride(-1) != 1:
-            dout = dout.contiguous()
-        if ctx.checkpoint_lvl == 1:
-            conv1d_out = causal_conv1d_cuda.causal_conv1d_fwd(x, conv1d_weight, conv1d_bias, None, None, None, True)
-            delta = rearrange(delta_proj_weight @ x_dbl[:, :delta_rank].t(), "d (b l) -> b d l", l=L)
-            if dt_rms_weight is not None:
-                delta = rearrange(delta, "b d l -> (b l) d", l=L).contiguous()
-                delta = rms_norm_forward(delta, ctx.dt_rms_weight, None, ctx.b_c_dt_rms_eps)
-                delta = rearrange(delta, "(b l) d -> b d l", l=L).contiguous()
-            if b_rms_weight is not None:
-                # Recompute & RMSNorm B
-                B = rearrange(B, "b 1 dstate l -> (b l) dstate", l=L).contiguous()
-                B = rms_norm_forward(B, ctx.b_rms_weight, None, ctx.b_c_dt_rms_eps)
-                B = rearrange(B, "(b l) dstate -> b 1 dstate l", l=L).contiguous()
-            if c_rms_weight is not None:
-                # Recompute & RMSNorm C
-                C = rearrange(C, "b 1 dstate l -> (b l) dstate", l=L).contiguous()
-                C = rms_norm_forward(C, ctx.c_rms_weight, None, ctx.b_c_dt_rms_eps)
-                C = rearrange(C, "(b l) dstate -> b 1 dstate l", l=L).contiguous()
-        # The kernel supports passing in a pre-allocated dz (e.g., in case we want to fuse the
-        # backward of selective_scan_cuda with the backward of chunk).
-        dxz = torch.empty_like(xz)  # (batch, dim, seqlen)
-        dx, dz = dxz.chunk(2, dim=1)
-        dout = rearrange(dout, "b l e -> e (b l)")
-        dout_y = rearrange(out_proj_weight.t() @ dout, "d (b l) -> b d l", l=L)
-        dconv1d_out, ddelta, dA, dB, dC, dD, ddelta_bias, dz, out_z = selective_scan_cuda.bwd(
-            conv1d_out,
-            delta,
-            A,
-            B,
-            C,
-            D,
-            z,
-            delta_bias,
-            dout_y,
-            scan_intermediates,
-            out,
-            dz,
-            ctx.delta_softplus,
-            True,  # option to recompute out_z
-        )
-        dout_proj_weight = torch.einsum("eB,dB->ed", dout, rearrange(out_z, "b d l -> d (b l)"))
-        dout_proj_bias = dout.sum(dim=(0, 1)) if not ctx.out_proj_bias_is_None else None
-        dD = dD if D is not None else None
-        dx_dbl = torch.empty_like(x_dbl)
-        dB_proj_bias = None
-        if ctx.is_variable_B:
-            if not A.is_complex():
-                dB = rearrange(dB, "b 1 dstate l -> (b l) dstate").contiguous()
-            else:
-                dB = rearrange(dB, "b 1 dstate (l two) -> (b l) (dstate two)", two=2).contiguous()
-            dB_proj_bias = dB.sum(0) if not ctx.B_proj_bias_is_None else None
-            dx_dbl[:, delta_rank : delta_rank + d_state] = dB  # (bl d)
-            dB = None
-        dC_proj_bias = None
-        if ctx.is_variable_C:
-            if not A.is_complex():
-                dC = rearrange(dC, "b 1 dstate l -> (b l) dstate").contiguous()
-            else:
-                dC = rearrange(dC, "b 1 dstate (l two) -> (b l) (dstate two)", two=2).contiguous()
-            dC_proj_bias = dC.sum(0) if not ctx.C_proj_bias_is_None else None
-            dx_dbl[:, -d_state:] = dC  # (bl d)
-            dC = None
-        ddelta = rearrange(ddelta, "b d l -> d (b l)")
-        ddelta_proj_weight = torch.einsum("dB,Br->dr", ddelta, x_dbl[:, :delta_rank])
-        dx_dbl[:, :delta_rank] = torch.einsum("dB,dr->Br", ddelta, delta_proj_weight)
-        dconv1d_out = rearrange(dconv1d_out, "b d l -> d (b l)")
-        dx_proj_weight = torch.einsum("Br,Bd->rd", dx_dbl, rearrange(conv1d_out, "b d l -> (b l) d"))
-        dconv1d_out = torch.addmm(dconv1d_out, x_proj_weight.t(), dx_dbl.t(), out=dconv1d_out)
-        dconv1d_out = rearrange(dconv1d_out, "d (b l) -> b d l", b=x.shape[0], l=x.shape[-1])
-        # The kernel supports passing in a pre-allocated dx (e.g., in case we want to fuse the
-        # backward of conv1d with the backward of chunk).
-        dx, dconv1d_weight, dconv1d_bias, *_ = causal_conv1d_cuda.causal_conv1d_bwd(
-            x, conv1d_weight, conv1d_bias, dconv1d_out, None, None, None, dx, False, True
-        )
-        dconv1d_bias = dconv1d_bias if conv1d_bias is not None else None
-        dconv1d_weight = rearrange(dconv1d_weight, "d w -> d 1 w")
-        return (
-            dxz,
-            dconv1d_weight,
-            dconv1d_bias,
-            dx_proj_weight,
-            ddelta_proj_weight,
-            dout_proj_weight,
-            dout_proj_bias,
-            dA,
-            dB,
-            dC,
-            dD,
-            ddelta_bias if delta_bias is not None else None,
-            # 6-None are delta_softplus, checkpoint_lvl, b_rms_weight, c_rms_weight, dt_rms_weight, b_c_dt_rms_eps
-            dB_proj_bias,
-            dC_proj_bias,
-            None,
-            None,
-            None,
-            None,
-            None,
-            None,
-        )
-def mamba_inner_fn(
-    xz,
-    conv1d_weight,
-    conv1d_bias,
-    x_proj_weight,
-    delta_proj_weight,
-    out_proj_weight,
-    out_proj_bias,
-    A,
-    B=None,
-    C=None,
-    D=None,
-    delta_bias=None,
-    B_proj_bias=None,
-    C_proj_bias=None,
-    delta_softplus=True,
-    checkpoint_lvl=1,
-    b_rms_weight=None,
-    c_rms_weight=None,
-    dt_rms_weight=None,
-    b_c_dt_rms_eps=1e-6,
-):
-    return MambaInnerFn.apply(
-        xz,
-        conv1d_weight,
-        conv1d_bias,
-        x_proj_weight,
-        delta_proj_weight,
-        out_proj_weight,
-        out_proj_bias,
-        A,
-        B,
-        C,
-        D,
-        delta_bias,
-        B_proj_bias,
-        C_proj_bias,
-        delta_softplus,
-        checkpoint_lvl,
-        b_rms_weight,
-        c_rms_weight,
-        dt_rms_weight,
-        b_c_dt_rms_eps,
-    )

transformers/models/roformer/tokenization_roformer_fast.py DELETED Viewed

@@ -1,160 +0,0 @@
-# coding=utf-8
-# Copyright 2021 The HuggingFace Inc. team. All rights reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""Tokenization classes for RoFormer."""
-import json
-from typing import Optional
-from tokenizers import normalizers
-from tokenizers.pre_tokenizers import BertPreTokenizer, PreTokenizer
-from ...tokenization_utils_tokenizers import PreTrainedTokenizerFast
-from ...utils import logging
-from .tokenization_roformer import RoFormerTokenizer
-from .tokenization_utils import JiebaPreTokenizer
-logger = logging.get_logger(__name__)
-VOCAB_FILES_NAMES = {"vocab_file": "vocab.txt", "tokenizer_file": "tokenizer.json"}
-class RoFormerTokenizerFast(PreTrainedTokenizerFast):
-    r"""
-    Construct a "fast" RoFormer tokenizer (backed by HuggingFace's *tokenizers* library).
-    [`RoFormerTokenizerFast`] is almost identical to [`BertTokenizerFast`] and runs end-to-end tokenization:
-    punctuation splitting and wordpiece. There are some difference between them when tokenizing Chinese.
-    This tokenizer inherits from [`PreTrainedTokenizerFast`] which contains most of the main methods. Users should
-    refer to this superclass for more information regarding those methods.
-    Example:
-    ```python
-    >>> from transformers import RoFormerTokenizerFast
-    >>> tokenizer = RoFormerTokenizerFast.from_pretrained("junnyu/roformer_chinese_base")
-    >>> tokenizer.tokenize("今天天气非常好。")
-    ['今', '天', '天', '气', '非常', '好', '。']
-    ```"""
-    vocab_files_names = VOCAB_FILES_NAMES
-    slow_tokenizer_class = RoFormerTokenizer
-    def __init__(
-        self,
-        vocab_file=None,
-        tokenizer_file=None,
-        do_lower_case=True,
-        unk_token="[UNK]",
-        sep_token="[SEP]",
-        pad_token="[PAD]",
-        cls_token="[CLS]",
-        mask_token="[MASK]",
-        tokenize_chinese_chars=True,
-        strip_accents=None,
-        **kwargs,
-    ):
-        super().__init__(
-            vocab_file,
-            tokenizer_file=tokenizer_file,
-            do_lower_case=do_lower_case,
-            unk_token=unk_token,
-            sep_token=sep_token,
-            pad_token=pad_token,
-            cls_token=cls_token,
-            mask_token=mask_token,
-            tokenize_chinese_chars=tokenize_chinese_chars,
-            strip_accents=strip_accents,
-            **kwargs,
-        )
-        normalizer_state = json.loads(self.backend_tokenizer.normalizer.__getstate__())
-        normalizer_class = getattr(normalizers, normalizer_state.pop("type"))
-        normalizer_state["lowercase"] = do_lower_case
-        normalizer_state["strip_accents"] = strip_accents
-        self.backend_tokenizer.normalizer = normalizer_class(**normalizer_state)
-        vocab = self.backend_tokenizer.get_vocab()
-        self.backend_tokenizer.pre_tokenizer = PreTokenizer.custom(JiebaPreTokenizer(vocab))
-        self.do_lower_case = do_lower_case
-        self.strip_accents = strip_accents
-    def _post_init(self):
-        super()._post_init()
-        normalizer_state = json.loads(self.backend_tokenizer.normalizer.__getstate__())
-        normalizer_class = getattr(normalizers, normalizer_state.pop("type"))
-        normalizer_state["lowercase"] = self.do_lower_case
-        normalizer_state["strip_accents"] = getattr(self, "strip_accents", None)
-        self.backend_tokenizer.normalizer = normalizer_class(**normalizer_state)
-        vocab = self.backend_tokenizer.get_vocab()
-        self.backend_tokenizer.pre_tokenizer = PreTokenizer.custom(JiebaPreTokenizer(vocab))
-    def __getstate__(self):
-        state = self.__dict__.copy()
-        state["_tokenizer"].pre_tokenizer = BertPreTokenizer()
-        return state
-    def __setstate__(self, d):
-        self.__dict__ = d
-        vocab = self.__dict__["_tokenizer"].get_vocab()
-        self.__dict__["_tokenizer"].pre_tokenizer = PreTokenizer.custom(JiebaPreTokenizer(vocab))
-    def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
-        """
-        Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and
-        adding special tokens. A RoFormer sequence has the following format:
-        - single sequence: `[CLS] X [SEP]`
-        - pair of sequences: `[CLS] A [SEP] B [SEP]`
-        Args:
-            token_ids_0 (`List[int]`):
-                List of IDs to which the special tokens will be added.
-            token_ids_1 (`List[int]`, *optional*):
-                Optional second list of IDs for sequence pairs.
-        Returns:
-            `List[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens.
-        """
-        output = [self.cls_token_id] + token_ids_0 + [self.sep_token_id]
-        if token_ids_1 is not None:
-            output += token_ids_1 + [self.sep_token_id]
-        return output
-    def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> tuple[str]:
-        files = self._tokenizer.model.save(save_directory, name=filename_prefix)
-        return tuple(files)
-    def save_pretrained(
-        self,
-        save_directory,
-        legacy_format=None,
-        filename_prefix=None,
-        push_to_hub=False,
-        **kwargs,
-    ):
-        self.backend_tokenizer.pre_tokenizer = BertPreTokenizer()
-        result = super().save_pretrained(save_directory, legacy_format, filename_prefix, push_to_hub, **kwargs)
-        vocab = self.backend_tokenizer.get_vocab()
-        self.backend_tokenizer.pre_tokenizer = PreTokenizer.custom(JiebaPreTokenizer(vocab))
-        return result
-__all__ = ["RoFormerTokenizerFast"]

{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{transformers-5.0.0rc0.dist-info → transformers-5.0.0rc1.dist-info/licenses}/LICENSE RENAMED Viewed

File without changes

transformers 5.0.0rc0__py3-none-any.whl → 5.0.0rc1__py3-none-any.whl

transformers 5.0.0rc0py3-none-any.whl → 5.0.0rc1py3-none-any.whl