PyPI - diffusers - Versions diffs - 0.27.1__py3-none-any.whl → 0.32.2__py3-none-any.whl - Mend

diffusers 0.27.1py3-none-any.whl → 0.32.2py3-none-any.whl

Files changed (445) hide show

diffusers/__init__.py +233 -6
diffusers/callbacks.py +209 -0
diffusers/commands/env.py +102 -6
diffusers/configuration_utils.py +45 -16
diffusers/dependency_versions_table.py +4 -3
diffusers/image_processor.py +434 -110
diffusers/loaders/__init__.py +42 -9
diffusers/loaders/ip_adapter.py +626 -36
diffusers/loaders/lora_base.py +900 -0
diffusers/loaders/lora_conversion_utils.py +991 -125
diffusers/loaders/lora_pipeline.py +3812 -0
diffusers/loaders/peft.py +571 -7
diffusers/loaders/single_file.py +405 -173
diffusers/loaders/single_file_model.py +385 -0
diffusers/loaders/single_file_utils.py +1783 -713
diffusers/loaders/textual_inversion.py +41 -23
diffusers/loaders/transformer_flux.py +181 -0
diffusers/loaders/transformer_sd3.py +89 -0
diffusers/loaders/unet.py +464 -540
diffusers/loaders/unet_loader_utils.py +163 -0
diffusers/models/__init__.py +76 -7
diffusers/models/activations.py +65 -10
diffusers/models/adapter.py +53 -53
diffusers/models/attention.py +605 -18
diffusers/models/attention_flax.py +1 -1
diffusers/models/attention_processor.py +4304 -687
diffusers/models/autoencoders/__init__.py +8 -0
diffusers/models/autoencoders/autoencoder_asym_kl.py +15 -17
diffusers/models/autoencoders/autoencoder_dc.py +620 -0
diffusers/models/autoencoders/autoencoder_kl.py +110 -28
diffusers/models/autoencoders/autoencoder_kl_allegro.py +1149 -0
diffusers/models/autoencoders/autoencoder_kl_cogvideox.py +1482 -0
diffusers/models/autoencoders/autoencoder_kl_hunyuan_video.py +1176 -0
diffusers/models/autoencoders/autoencoder_kl_ltx.py +1338 -0
diffusers/models/autoencoders/autoencoder_kl_mochi.py +1166 -0
diffusers/models/autoencoders/autoencoder_kl_temporal_decoder.py +19 -24
diffusers/models/autoencoders/autoencoder_oobleck.py +464 -0
diffusers/models/autoencoders/autoencoder_tiny.py +21 -18
diffusers/models/autoencoders/consistency_decoder_vae.py +45 -20
diffusers/models/autoencoders/vae.py +41 -29
diffusers/models/autoencoders/vq_model.py +182 -0
diffusers/models/controlnet.py +47 -800
diffusers/models/controlnet_flux.py +70 -0
diffusers/models/controlnet_sd3.py +68 -0
diffusers/models/controlnet_sparsectrl.py +116 -0
diffusers/models/controlnets/__init__.py +23 -0
diffusers/models/controlnets/controlnet.py +872 -0
diffusers/models/{controlnet_flax.py → controlnets/controlnet_flax.py} +9 -9
diffusers/models/controlnets/controlnet_flux.py +536 -0
diffusers/models/controlnets/controlnet_hunyuan.py +401 -0
diffusers/models/controlnets/controlnet_sd3.py +489 -0
diffusers/models/controlnets/controlnet_sparsectrl.py +788 -0
diffusers/models/controlnets/controlnet_union.py +832 -0
diffusers/models/controlnets/controlnet_xs.py +1946 -0
diffusers/models/controlnets/multicontrolnet.py +183 -0
diffusers/models/downsampling.py +85 -18
diffusers/models/embeddings.py +1856 -158
diffusers/models/embeddings_flax.py +23 -9
diffusers/models/model_loading_utils.py +480 -0
diffusers/models/modeling_flax_pytorch_utils.py +2 -1
diffusers/models/modeling_flax_utils.py +2 -7
diffusers/models/modeling_outputs.py +14 -0
diffusers/models/modeling_pytorch_flax_utils.py +1 -1
diffusers/models/modeling_utils.py +611 -146
diffusers/models/normalization.py +361 -20
diffusers/models/resnet.py +18 -23
diffusers/models/transformers/__init__.py +16 -0
diffusers/models/transformers/auraflow_transformer_2d.py +544 -0
diffusers/models/transformers/cogvideox_transformer_3d.py +542 -0
diffusers/models/transformers/dit_transformer_2d.py +240 -0
diffusers/models/transformers/dual_transformer_2d.py +9 -8
diffusers/models/transformers/hunyuan_transformer_2d.py +578 -0
diffusers/models/transformers/latte_transformer_3d.py +327 -0
diffusers/models/transformers/lumina_nextdit2d.py +340 -0
diffusers/models/transformers/pixart_transformer_2d.py +445 -0
diffusers/models/transformers/prior_transformer.py +13 -13
diffusers/models/transformers/sana_transformer.py +488 -0
diffusers/models/transformers/stable_audio_transformer.py +458 -0
diffusers/models/transformers/t5_film_transformer.py +17 -19
diffusers/models/transformers/transformer_2d.py +297 -187
diffusers/models/transformers/transformer_allegro.py +422 -0
diffusers/models/transformers/transformer_cogview3plus.py +386 -0
diffusers/models/transformers/transformer_flux.py +593 -0
diffusers/models/transformers/transformer_hunyuan_video.py +791 -0
diffusers/models/transformers/transformer_ltx.py +469 -0
diffusers/models/transformers/transformer_mochi.py +499 -0
diffusers/models/transformers/transformer_sd3.py +461 -0
diffusers/models/transformers/transformer_temporal.py +21 -19
diffusers/models/unets/unet_1d.py +8 -8
diffusers/models/unets/unet_1d_blocks.py +31 -31
diffusers/models/unets/unet_2d.py +17 -10
diffusers/models/unets/unet_2d_blocks.py +225 -149
diffusers/models/unets/unet_2d_condition.py +41 -40
diffusers/models/unets/unet_2d_condition_flax.py +6 -5
diffusers/models/unets/unet_3d_blocks.py +192 -1057
diffusers/models/unets/unet_3d_condition.py +22 -27
diffusers/models/unets/unet_i2vgen_xl.py +22 -18
diffusers/models/unets/unet_kandinsky3.py +2 -2
diffusers/models/unets/unet_motion_model.py +1413 -89
diffusers/models/unets/unet_spatio_temporal_condition.py +40 -16
diffusers/models/unets/unet_stable_cascade.py +19 -18
diffusers/models/unets/uvit_2d.py +2 -2
diffusers/models/upsampling.py +95 -26
diffusers/models/vq_model.py +12 -164
diffusers/optimization.py +1 -1
diffusers/pipelines/__init__.py +202 -3
diffusers/pipelines/allegro/__init__.py +48 -0
diffusers/pipelines/allegro/pipeline_allegro.py +938 -0
diffusers/pipelines/allegro/pipeline_output.py +23 -0
diffusers/pipelines/amused/pipeline_amused.py +12 -12
diffusers/pipelines/amused/pipeline_amused_img2img.py +14 -12
diffusers/pipelines/amused/pipeline_amused_inpaint.py +13 -11
diffusers/pipelines/animatediff/__init__.py +8 -0
diffusers/pipelines/animatediff/pipeline_animatediff.py +122 -109
diffusers/pipelines/animatediff/pipeline_animatediff_controlnet.py +1106 -0
diffusers/pipelines/animatediff/pipeline_animatediff_sdxl.py +1288 -0
diffusers/pipelines/animatediff/pipeline_animatediff_sparsectrl.py +1010 -0
diffusers/pipelines/animatediff/pipeline_animatediff_video2video.py +236 -180
diffusers/pipelines/animatediff/pipeline_animatediff_video2video_controlnet.py +1341 -0
diffusers/pipelines/animatediff/pipeline_output.py +3 -2
diffusers/pipelines/audioldm/pipeline_audioldm.py +14 -14
diffusers/pipelines/audioldm2/modeling_audioldm2.py +58 -39
diffusers/pipelines/audioldm2/pipeline_audioldm2.py +121 -36
diffusers/pipelines/aura_flow/__init__.py +48 -0
diffusers/pipelines/aura_flow/pipeline_aura_flow.py +584 -0
diffusers/pipelines/auto_pipeline.py +196 -28
diffusers/pipelines/blip_diffusion/blip_image_processing.py +1 -1
diffusers/pipelines/blip_diffusion/modeling_blip2.py +6 -6
diffusers/pipelines/blip_diffusion/modeling_ctx_clip.py +1 -1
diffusers/pipelines/blip_diffusion/pipeline_blip_diffusion.py +2 -2
diffusers/pipelines/cogvideo/__init__.py +54 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox.py +772 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox_fun_control.py +825 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox_image2video.py +885 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox_video2video.py +851 -0
diffusers/pipelines/cogvideo/pipeline_output.py +20 -0
diffusers/pipelines/cogview3/__init__.py +47 -0
diffusers/pipelines/cogview3/pipeline_cogview3plus.py +674 -0
diffusers/pipelines/cogview3/pipeline_output.py +21 -0
diffusers/pipelines/consistency_models/pipeline_consistency_models.py +6 -6
diffusers/pipelines/controlnet/__init__.py +86 -80
diffusers/pipelines/controlnet/multicontrolnet.py +7 -182
diffusers/pipelines/controlnet/pipeline_controlnet.py +134 -87
diffusers/pipelines/controlnet/pipeline_controlnet_blip_diffusion.py +2 -2
diffusers/pipelines/controlnet/pipeline_controlnet_img2img.py +93 -77
diffusers/pipelines/controlnet/pipeline_controlnet_inpaint.py +88 -197
diffusers/pipelines/controlnet/pipeline_controlnet_inpaint_sd_xl.py +136 -90
diffusers/pipelines/controlnet/pipeline_controlnet_sd_xl.py +176 -80
diffusers/pipelines/controlnet/pipeline_controlnet_sd_xl_img2img.py +125 -89
diffusers/pipelines/controlnet/pipeline_controlnet_union_inpaint_sd_xl.py +1790 -0
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl.py +1501 -0
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl_img2img.py +1627 -0
diffusers/pipelines/controlnet/pipeline_flax_controlnet.py +2 -2
diffusers/pipelines/controlnet_hunyuandit/__init__.py +48 -0
diffusers/pipelines/controlnet_hunyuandit/pipeline_hunyuandit_controlnet.py +1060 -0
diffusers/pipelines/controlnet_sd3/__init__.py +57 -0
diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet.py +1133 -0
diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet_inpainting.py +1153 -0
diffusers/pipelines/controlnet_xs/__init__.py +68 -0
diffusers/pipelines/controlnet_xs/pipeline_controlnet_xs.py +916 -0
diffusers/pipelines/controlnet_xs/pipeline_controlnet_xs_sd_xl.py +1111 -0
diffusers/pipelines/ddpm/pipeline_ddpm.py +2 -2
diffusers/pipelines/deepfloyd_if/pipeline_if.py +16 -30
diffusers/pipelines/deepfloyd_if/pipeline_if_img2img.py +20 -35
diffusers/pipelines/deepfloyd_if/pipeline_if_img2img_superresolution.py +23 -41
diffusers/pipelines/deepfloyd_if/pipeline_if_inpainting.py +22 -38
diffusers/pipelines/deepfloyd_if/pipeline_if_inpainting_superresolution.py +25 -41
diffusers/pipelines/deepfloyd_if/pipeline_if_superresolution.py +19 -34
diffusers/pipelines/deepfloyd_if/pipeline_output.py +6 -5
diffusers/pipelines/deepfloyd_if/watermark.py +1 -1
diffusers/pipelines/deprecated/alt_diffusion/modeling_roberta_series.py +11 -11
diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion.py +70 -30
diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion_img2img.py +48 -25
diffusers/pipelines/deprecated/repaint/pipeline_repaint.py +2 -2
diffusers/pipelines/deprecated/spectrogram_diffusion/pipeline_spectrogram_diffusion.py +7 -7
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py +21 -20
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_inpaint_legacy.py +27 -29
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_model_editing.py +33 -27
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_paradigms.py +33 -23
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_pix2pix_zero.py +36 -30
diffusers/pipelines/deprecated/versatile_diffusion/modeling_text_unet.py +102 -69
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion.py +13 -13
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion_dual_guided.py +10 -5
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion_image_variation.py +11 -6
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion_text_to_image.py +10 -5
diffusers/pipelines/deprecated/vq_diffusion/pipeline_vq_diffusion.py +5 -5
diffusers/pipelines/dit/pipeline_dit.py +7 -4
diffusers/pipelines/flux/__init__.py +69 -0
diffusers/pipelines/flux/modeling_flux.py +47 -0
diffusers/pipelines/flux/pipeline_flux.py +957 -0
diffusers/pipelines/flux/pipeline_flux_control.py +889 -0
diffusers/pipelines/flux/pipeline_flux_control_img2img.py +945 -0
diffusers/pipelines/flux/pipeline_flux_control_inpaint.py +1141 -0
diffusers/pipelines/flux/pipeline_flux_controlnet.py +1006 -0
diffusers/pipelines/flux/pipeline_flux_controlnet_image_to_image.py +998 -0
diffusers/pipelines/flux/pipeline_flux_controlnet_inpainting.py +1204 -0
diffusers/pipelines/flux/pipeline_flux_fill.py +969 -0
diffusers/pipelines/flux/pipeline_flux_img2img.py +856 -0
diffusers/pipelines/flux/pipeline_flux_inpaint.py +1022 -0
diffusers/pipelines/flux/pipeline_flux_prior_redux.py +492 -0
diffusers/pipelines/flux/pipeline_output.py +37 -0
diffusers/pipelines/free_init_utils.py +41 -38
diffusers/pipelines/free_noise_utils.py +596 -0
diffusers/pipelines/hunyuan_video/__init__.py +48 -0
diffusers/pipelines/hunyuan_video/pipeline_hunyuan_video.py +687 -0
diffusers/pipelines/hunyuan_video/pipeline_output.py +20 -0
diffusers/pipelines/hunyuandit/__init__.py +48 -0
diffusers/pipelines/hunyuandit/pipeline_hunyuandit.py +916 -0
diffusers/pipelines/i2vgen_xl/pipeline_i2vgen_xl.py +33 -48
diffusers/pipelines/kandinsky/pipeline_kandinsky.py +8 -8
diffusers/pipelines/kandinsky/pipeline_kandinsky_combined.py +32 -29
diffusers/pipelines/kandinsky/pipeline_kandinsky_img2img.py +11 -11
diffusers/pipelines/kandinsky/pipeline_kandinsky_inpaint.py +12 -12
diffusers/pipelines/kandinsky/pipeline_kandinsky_prior.py +10 -10
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2.py +6 -6
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_combined.py +34 -31
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_controlnet.py +10 -10
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_controlnet_img2img.py +10 -10
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_img2img.py +6 -6
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_inpainting.py +8 -8
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_prior.py +7 -7
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_prior_emb2emb.py +6 -6
diffusers/pipelines/kandinsky3/convert_kandinsky3_unet.py +3 -3
diffusers/pipelines/kandinsky3/pipeline_kandinsky3.py +22 -35
diffusers/pipelines/kandinsky3/pipeline_kandinsky3_img2img.py +26 -37
diffusers/pipelines/kolors/__init__.py +54 -0
diffusers/pipelines/kolors/pipeline_kolors.py +1070 -0
diffusers/pipelines/kolors/pipeline_kolors_img2img.py +1250 -0
diffusers/pipelines/kolors/pipeline_output.py +21 -0
diffusers/pipelines/kolors/text_encoder.py +889 -0
diffusers/pipelines/kolors/tokenizer.py +338 -0
diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_img2img.py +82 -62
diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_text2img.py +77 -60
diffusers/pipelines/latent_diffusion/pipeline_latent_diffusion.py +12 -12
diffusers/pipelines/latte/__init__.py +48 -0
diffusers/pipelines/latte/pipeline_latte.py +881 -0
diffusers/pipelines/ledits_pp/pipeline_leditspp_stable_diffusion.py +80 -74
diffusers/pipelines/ledits_pp/pipeline_leditspp_stable_diffusion_xl.py +85 -76
diffusers/pipelines/ledits_pp/pipeline_output.py +2 -2
diffusers/pipelines/ltx/__init__.py +50 -0
diffusers/pipelines/ltx/pipeline_ltx.py +789 -0
diffusers/pipelines/ltx/pipeline_ltx_image2video.py +885 -0
diffusers/pipelines/ltx/pipeline_output.py +20 -0
diffusers/pipelines/lumina/__init__.py +48 -0
diffusers/pipelines/lumina/pipeline_lumina.py +890 -0
diffusers/pipelines/marigold/__init__.py +50 -0
diffusers/pipelines/marigold/marigold_image_processing.py +576 -0
diffusers/pipelines/marigold/pipeline_marigold_depth.py +813 -0
diffusers/pipelines/marigold/pipeline_marigold_normals.py +690 -0
diffusers/pipelines/mochi/__init__.py +48 -0
diffusers/pipelines/mochi/pipeline_mochi.py +748 -0
diffusers/pipelines/mochi/pipeline_output.py +20 -0
diffusers/pipelines/musicldm/pipeline_musicldm.py +14 -14
diffusers/pipelines/pag/__init__.py +80 -0
diffusers/pipelines/pag/pag_utils.py +243 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd.py +1328 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd_inpaint.py +1543 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd_xl.py +1610 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd_xl_img2img.py +1683 -0
diffusers/pipelines/pag/pipeline_pag_hunyuandit.py +969 -0
diffusers/pipelines/pag/pipeline_pag_kolors.py +1136 -0
diffusers/pipelines/pag/pipeline_pag_pixart_sigma.py +865 -0
diffusers/pipelines/pag/pipeline_pag_sana.py +886 -0
diffusers/pipelines/pag/pipeline_pag_sd.py +1062 -0
diffusers/pipelines/pag/pipeline_pag_sd_3.py +994 -0
diffusers/pipelines/pag/pipeline_pag_sd_3_img2img.py +1058 -0
diffusers/pipelines/pag/pipeline_pag_sd_animatediff.py +866 -0
diffusers/pipelines/pag/pipeline_pag_sd_img2img.py +1094 -0
diffusers/pipelines/pag/pipeline_pag_sd_inpaint.py +1356 -0
diffusers/pipelines/pag/pipeline_pag_sd_xl.py +1345 -0
diffusers/pipelines/pag/pipeline_pag_sd_xl_img2img.py +1544 -0
diffusers/pipelines/pag/pipeline_pag_sd_xl_inpaint.py +1776 -0
diffusers/pipelines/paint_by_example/pipeline_paint_by_example.py +17 -12
diffusers/pipelines/pia/pipeline_pia.py +74 -164
diffusers/pipelines/pipeline_flax_utils.py +5 -10
diffusers/pipelines/pipeline_loading_utils.py +515 -53
diffusers/pipelines/pipeline_utils.py +411 -222
diffusers/pipelines/pixart_alpha/__init__.py +8 -1
diffusers/pipelines/pixart_alpha/pipeline_pixart_alpha.py +76 -93
diffusers/pipelines/pixart_alpha/pipeline_pixart_sigma.py +873 -0
diffusers/pipelines/sana/__init__.py +47 -0
diffusers/pipelines/sana/pipeline_output.py +21 -0
diffusers/pipelines/sana/pipeline_sana.py +884 -0
diffusers/pipelines/semantic_stable_diffusion/pipeline_semantic_stable_diffusion.py +27 -23
diffusers/pipelines/shap_e/pipeline_shap_e.py +3 -3
diffusers/pipelines/shap_e/pipeline_shap_e_img2img.py +14 -14
diffusers/pipelines/shap_e/renderer.py +1 -1
diffusers/pipelines/stable_audio/__init__.py +50 -0
diffusers/pipelines/stable_audio/modeling_stable_audio.py +158 -0
diffusers/pipelines/stable_audio/pipeline_stable_audio.py +756 -0
diffusers/pipelines/stable_cascade/pipeline_stable_cascade.py +71 -25
diffusers/pipelines/stable_cascade/pipeline_stable_cascade_combined.py +23 -19
diffusers/pipelines/stable_cascade/pipeline_stable_cascade_prior.py +35 -34
diffusers/pipelines/stable_diffusion/__init__.py +0 -1
diffusers/pipelines/stable_diffusion/convert_from_ckpt.py +20 -11
diffusers/pipelines/stable_diffusion/pipeline_flax_stable_diffusion.py +1 -1
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion.py +2 -2
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion_upscale.py +6 -6
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py +145 -79
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_depth2img.py +43 -28
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_image_variation.py +13 -8
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_img2img.py +100 -68
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint.py +109 -201
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_instruct_pix2pix.py +131 -32
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_latent_upscale.py +247 -87
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_upscale.py +30 -29
diffusers/pipelines/stable_diffusion/pipeline_stable_unclip.py +35 -27
diffusers/pipelines/stable_diffusion/pipeline_stable_unclip_img2img.py +49 -42
diffusers/pipelines/stable_diffusion/safety_checker.py +2 -1
diffusers/pipelines/stable_diffusion_3/__init__.py +54 -0
diffusers/pipelines/stable_diffusion_3/pipeline_output.py +21 -0
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py +1140 -0
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_img2img.py +1036 -0
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_inpaint.py +1250 -0
diffusers/pipelines/stable_diffusion_attend_and_excite/pipeline_stable_diffusion_attend_and_excite.py +29 -20
diffusers/pipelines/stable_diffusion_diffedit/pipeline_stable_diffusion_diffedit.py +59 -58
diffusers/pipelines/stable_diffusion_gligen/pipeline_stable_diffusion_gligen.py +31 -25
diffusers/pipelines/stable_diffusion_gligen/pipeline_stable_diffusion_gligen_text_image.py +38 -22
diffusers/pipelines/stable_diffusion_k_diffusion/pipeline_stable_diffusion_k_diffusion.py +30 -24
diffusers/pipelines/stable_diffusion_k_diffusion/pipeline_stable_diffusion_xl_k_diffusion.py +24 -23
diffusers/pipelines/stable_diffusion_ldm3d/pipeline_stable_diffusion_ldm3d.py +107 -67
diffusers/pipelines/stable_diffusion_panorama/pipeline_stable_diffusion_panorama.py +316 -69
diffusers/pipelines/stable_diffusion_safe/pipeline_stable_diffusion_safe.py +10 -5
diffusers/pipelines/stable_diffusion_safe/safety_checker.py +1 -1
diffusers/pipelines/stable_diffusion_sag/pipeline_stable_diffusion_sag.py +98 -30
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl.py +121 -83
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_img2img.py +161 -105
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_inpaint.py +142 -218
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_instruct_pix2pix.py +45 -29
diffusers/pipelines/stable_diffusion_xl/watermark.py +9 -3
diffusers/pipelines/stable_video_diffusion/pipeline_stable_video_diffusion.py +110 -57
diffusers/pipelines/t2i_adapter/pipeline_stable_diffusion_adapter.py +69 -39
diffusers/pipelines/t2i_adapter/pipeline_stable_diffusion_xl_adapter.py +105 -74
diffusers/pipelines/text_to_video_synthesis/pipeline_output.py +3 -2
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth.py +29 -49
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth_img2img.py +32 -93
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_zero.py +37 -25
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_zero_sdxl.py +54 -40
diffusers/pipelines/unclip/pipeline_unclip.py +6 -6
diffusers/pipelines/unclip/pipeline_unclip_image_variation.py +6 -6
diffusers/pipelines/unidiffuser/modeling_text_decoder.py +1 -1
diffusers/pipelines/unidiffuser/modeling_uvit.py +12 -12
diffusers/pipelines/unidiffuser/pipeline_unidiffuser.py +29 -28
diffusers/pipelines/wuerstchen/modeling_paella_vq_model.py +5 -5
diffusers/pipelines/wuerstchen/modeling_wuerstchen_common.py +5 -10
diffusers/pipelines/wuerstchen/modeling_wuerstchen_prior.py +6 -8
diffusers/pipelines/wuerstchen/pipeline_wuerstchen.py +4 -4
diffusers/pipelines/wuerstchen/pipeline_wuerstchen_combined.py +12 -12
diffusers/pipelines/wuerstchen/pipeline_wuerstchen_prior.py +15 -14
diffusers/{models/dual_transformer_2d.py → quantizers/__init__.py} +2 -6
diffusers/quantizers/auto.py +139 -0
diffusers/quantizers/base.py +233 -0
diffusers/quantizers/bitsandbytes/__init__.py +2 -0
diffusers/quantizers/bitsandbytes/bnb_quantizer.py +561 -0
diffusers/quantizers/bitsandbytes/utils.py +306 -0
diffusers/quantizers/gguf/__init__.py +1 -0
diffusers/quantizers/gguf/gguf_quantizer.py +159 -0
diffusers/quantizers/gguf/utils.py +456 -0
diffusers/quantizers/quantization_config.py +669 -0
diffusers/quantizers/torchao/__init__.py +15 -0
diffusers/quantizers/torchao/torchao_quantizer.py +292 -0
diffusers/schedulers/__init__.py +12 -2
diffusers/schedulers/deprecated/__init__.py +1 -1
diffusers/schedulers/deprecated/scheduling_karras_ve.py +25 -25
diffusers/schedulers/scheduling_amused.py +5 -5
diffusers/schedulers/scheduling_consistency_decoder.py +11 -11
diffusers/schedulers/scheduling_consistency_models.py +23 -25
diffusers/schedulers/scheduling_cosine_dpmsolver_multistep.py +572 -0
diffusers/schedulers/scheduling_ddim.py +27 -26
diffusers/schedulers/scheduling_ddim_cogvideox.py +452 -0
diffusers/schedulers/scheduling_ddim_flax.py +2 -1
diffusers/schedulers/scheduling_ddim_inverse.py +16 -16
diffusers/schedulers/scheduling_ddim_parallel.py +32 -31
diffusers/schedulers/scheduling_ddpm.py +27 -30
diffusers/schedulers/scheduling_ddpm_flax.py +7 -3
diffusers/schedulers/scheduling_ddpm_parallel.py +33 -36
diffusers/schedulers/scheduling_ddpm_wuerstchen.py +14 -14
diffusers/schedulers/scheduling_deis_multistep.py +150 -50
diffusers/schedulers/scheduling_dpm_cogvideox.py +489 -0
diffusers/schedulers/scheduling_dpmsolver_multistep.py +221 -84
diffusers/schedulers/scheduling_dpmsolver_multistep_flax.py +2 -2
diffusers/schedulers/scheduling_dpmsolver_multistep_inverse.py +158 -52
diffusers/schedulers/scheduling_dpmsolver_sde.py +153 -34
diffusers/schedulers/scheduling_dpmsolver_singlestep.py +275 -86
diffusers/schedulers/scheduling_edm_dpmsolver_multistep.py +81 -57
diffusers/schedulers/scheduling_edm_euler.py +62 -39
diffusers/schedulers/scheduling_euler_ancestral_discrete.py +30 -29
diffusers/schedulers/scheduling_euler_discrete.py +255 -74
diffusers/schedulers/scheduling_flow_match_euler_discrete.py +458 -0
diffusers/schedulers/scheduling_flow_match_heun_discrete.py +320 -0
diffusers/schedulers/scheduling_heun_discrete.py +174 -46
diffusers/schedulers/scheduling_ipndm.py +9 -9
diffusers/schedulers/scheduling_k_dpm_2_ancestral_discrete.py +138 -29
diffusers/schedulers/scheduling_k_dpm_2_discrete.py +132 -26
diffusers/schedulers/scheduling_karras_ve_flax.py +6 -6
diffusers/schedulers/scheduling_lcm.py +23 -29
diffusers/schedulers/scheduling_lms_discrete.py +105 -28
diffusers/schedulers/scheduling_pndm.py +20 -20
diffusers/schedulers/scheduling_repaint.py +21 -21
diffusers/schedulers/scheduling_sasolver.py +157 -60
diffusers/schedulers/scheduling_sde_ve.py +19 -19
diffusers/schedulers/scheduling_tcd.py +41 -36
diffusers/schedulers/scheduling_unclip.py +19 -16
diffusers/schedulers/scheduling_unipc_multistep.py +243 -47
diffusers/schedulers/scheduling_utils.py +12 -5
diffusers/schedulers/scheduling_utils_flax.py +1 -3
diffusers/schedulers/scheduling_vq_diffusion.py +10 -10
diffusers/training_utils.py +214 -30
diffusers/utils/__init__.py +17 -1
diffusers/utils/constants.py +3 -0
diffusers/utils/doc_utils.py +1 -0
diffusers/utils/dummy_pt_objects.py +592 -7
diffusers/utils/dummy_torch_and_torchsde_objects.py +15 -0
diffusers/utils/dummy_torch_and_transformers_and_sentencepiece_objects.py +47 -0
diffusers/utils/dummy_torch_and_transformers_objects.py +1001 -71
diffusers/utils/dynamic_modules_utils.py +34 -29
diffusers/utils/export_utils.py +50 -6
diffusers/utils/hub_utils.py +131 -17
diffusers/utils/import_utils.py +210 -8
diffusers/utils/loading_utils.py +118 -5
diffusers/utils/logging.py +4 -2
diffusers/utils/peft_utils.py +37 -7
diffusers/utils/state_dict_utils.py +13 -2
diffusers/utils/testing_utils.py +193 -11
diffusers/utils/torch_utils.py +4 -0
diffusers/video_processor.py +113 -0
{diffusers-0.27.1.dist-info → diffusers-0.32.2.dist-info}/METADATA +82 -91
diffusers-0.32.2.dist-info/RECORD +550 -0
{diffusers-0.27.1.dist-info → diffusers-0.32.2.dist-info}/WHEEL +1 -1
diffusers/loaders/autoencoder.py +0 -146
diffusers/loaders/controlnet.py +0 -136
diffusers/loaders/lora.py +0 -1349
diffusers/models/prior_transformer.py +0 -12
diffusers/models/t5_film_transformer.py +0 -70
diffusers/models/transformer_2d.py +0 -25
diffusers/models/transformer_temporal.py +0 -34
diffusers/models/unet_1d.py +0 -26
diffusers/models/unet_1d_blocks.py +0 -203
diffusers/models/unet_2d.py +0 -27
diffusers/models/unet_2d_blocks.py +0 -375
diffusers/models/unet_2d_condition.py +0 -25
diffusers-0.27.1.dist-info/RECORD +0 -399
{diffusers-0.27.1.dist-info → diffusers-0.32.2.dist-info}/LICENSE +0 -0
{diffusers-0.27.1.dist-info → diffusers-0.32.2.dist-info}/entry_points.txt +0 -0
{diffusers-0.27.1.dist-info → diffusers-0.32.2.dist-info}/top_level.txt +0 -0

diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_inpaint.py CHANGED Viewed

@@ -26,6 +26,7 @@ from transformers import (
     CLIPVisionModelWithProjection,
 )
+from ...callbacks import MultiPipelineCallbacks, PipelineCallback
 from ...image_processor import PipelineImageInput, VaeImageProcessor
 from ...loaders import (
     FromSingleFileMixin,
@@ -36,8 +37,6 @@ from ...loaders import (
 from ...models import AutoencoderKL, ImageProjection, UNet2DConditionModel
 from ...models.attention_processor import (
     AttnProcessor2_0,
-    LoRAAttnProcessor2_0,
-    LoRAXFormersAttnProcessor,
     XFormersAttnProcessor,
 )
 from ...models.lora import adjust_lora_scale_text_encoder
@@ -102,9 +101,21 @@ EXAMPLE_DOC_STRING = """
 # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.rescale_noise_cfg
 def rescale_noise_cfg(noise_cfg, noise_pred_text, guidance_rescale=0.0):
-    """
-    Rescale `noise_cfg` according to `guidance_rescale`. Based on findings of [Common Diffusion Noise Schedules and
-    Sample Steps are Flawed](https://arxiv.org/pdf/2305.08891.pdf). See Section 3.4
+    r"""
+    Rescales `noise_cfg` tensor based on `guidance_rescale` to improve image quality and fix overexposure. Based on
+    Section 3.4 from [Common Diffusion Noise Schedules and Sample Steps are
+    Flawed](https://arxiv.org/pdf/2305.08891.pdf).
+    Args:
+        noise_cfg (`torch.Tensor`):
+            The predicted noise tensor for the guided diffusion process.
+        noise_pred_text (`torch.Tensor`):
+            The predicted noise tensor for the text-guided diffusion process.
+        guidance_rescale (`float`, *optional*, defaults to 0.0):
+            A rescale factor applied to the noise predictions.
+    Returns:
+        noise_cfg (`torch.Tensor`): The rescaled noise prediction tensor.
     """
     std_text = noise_pred_text.std(dim=list(range(1, noise_pred_text.ndim)), keepdim=True)
     std_cfg = noise_cfg.std(dim=list(range(1, noise_cfg.ndim)), keepdim=True)
@@ -131,124 +142,6 @@ def mask_pil_to_torch(mask, height, width):
     return mask
-def prepare_mask_and_masked_image(image, mask, height, width, return_image: bool = False):
-    """
-    Prepares a pair (image, mask) to be consumed by the Stable Diffusion pipeline. This means that those inputs will be
-    converted to ``torch.Tensor`` with shapes ``batch x channels x height x width`` where ``channels`` is ``3`` for the
-    ``image`` and ``1`` for the ``mask``.
-    The ``image`` will be converted to ``torch.float32`` and normalized to be in ``[-1, 1]``. The ``mask`` will be
-    binarized (``mask > 0.5``) and cast to ``torch.float32`` too.
-    Args:
-        image (Union[np.array, PIL.Image, torch.Tensor]): The image to inpaint.
-            It can be a ``PIL.Image``, or a ``height x width x 3`` ``np.array`` or a ``channels x height x width``
-            ``torch.Tensor`` or a ``batch x channels x height x width`` ``torch.Tensor``.
-        mask (_type_): The mask to apply to the image, i.e. regions to inpaint.
-            It can be a ``PIL.Image``, or a ``height x width`` ``np.array`` or a ``1 x height x width``
-            ``torch.Tensor`` or a ``batch x 1 x height x width`` ``torch.Tensor``.
-    Raises:
-        ValueError: ``torch.Tensor`` images should be in the ``[-1, 1]`` range. ValueError: ``torch.Tensor`` mask
-        should be in the ``[0, 1]`` range. ValueError: ``mask`` and ``image`` should have the same spatial dimensions.
-        TypeError: ``mask`` is a ``torch.Tensor`` but ``image`` is not
-            (ot the other way around).
-    Returns:
-        tuple[torch.Tensor]: The pair (mask, masked_image) as ``torch.Tensor`` with 4
-            dimensions: ``batch x channels x height x width``.
-    """
-    # checkpoint. TOD(Yiyi) - need to clean this up later
-    deprecation_message = "The prepare_mask_and_masked_image method is deprecated and will be removed in a future version. Please use VaeImageProcessor.preprocess instead"
-    deprecate(
-        "prepare_mask_and_masked_image",
-        "0.30.0",
-        deprecation_message,
-    )
-    if image is None:
-        raise ValueError("`image` input cannot be undefined.")
-    if mask is None:
-        raise ValueError("`mask_image` input cannot be undefined.")
-    if isinstance(image, torch.Tensor):
-        if not isinstance(mask, torch.Tensor):
-            mask = mask_pil_to_torch(mask, height, width)
-        if image.ndim == 3:
-            image = image.unsqueeze(0)
-        # Batch and add channel dim for single mask
-        if mask.ndim == 2:
-            mask = mask.unsqueeze(0).unsqueeze(0)
-        # Batch single mask or add channel dim
-        if mask.ndim == 3:
-            # Single batched mask, no channel dim or single mask not batched but channel dim
-            if mask.shape[0] == 1:
-                mask = mask.unsqueeze(0)
-            # Batched masks no channel dim
-            else:
-                mask = mask.unsqueeze(1)
-        assert image.ndim == 4 and mask.ndim == 4, "Image and Mask must have 4 dimensions"
-        # assert image.shape[-2:] == mask.shape[-2:], "Image and Mask must have the same spatial dimensions"
-        assert image.shape[0] == mask.shape[0], "Image and Mask must have the same batch size"
-        # Check image is in [-1, 1]
-        # if image.min() < -1 or image.max() > 1:
-        #    raise ValueError("Image should be in [-1, 1] range")
-        # Check mask is in [0, 1]
-        if mask.min() < 0 or mask.max() > 1:
-            raise ValueError("Mask should be in [0, 1] range")
-        # Binarize mask
-        mask[mask < 0.5] = 0
-        mask[mask >= 0.5] = 1
-        # Image as float32
-        image = image.to(dtype=torch.float32)
-    elif isinstance(mask, torch.Tensor):
-        raise TypeError(f"`mask` is a torch.Tensor but `image` (type: {type(image)} is not")
-    else:
-        # preprocess image
-        if isinstance(image, (PIL.Image.Image, np.ndarray)):
-            image = [image]
-        if isinstance(image, list) and isinstance(image[0], PIL.Image.Image):
-            # resize all images w.r.t passed height an width
-            image = [i.resize((width, height), resample=PIL.Image.LANCZOS) for i in image]
-            image = [np.array(i.convert("RGB"))[None, :] for i in image]
-            image = np.concatenate(image, axis=0)
-        elif isinstance(image, list) and isinstance(image[0], np.ndarray):
-            image = np.concatenate([i[None, :] for i in image], axis=0)
-        image = image.transpose(0, 3, 1, 2)
-        image = torch.from_numpy(image).to(dtype=torch.float32) / 127.5 - 1.0
-        mask = mask_pil_to_torch(mask, height, width)
-        mask[mask < 0.5] = 0
-        mask[mask >= 0.5] = 1
-    if image.shape[1] == 4:
-        # images are in latent space and thus can't
-        # be masked set masked_image to None
-        # we assume that the checkpoint is not an inpainting
-        # checkpoint. TOD(Yiyi) - need to clean this up later
-        masked_image = None
-    else:
-        masked_image = image * (mask < 0.5)
-    # n.b. ensure backwards compatibility as old function does not return image
-    if return_image:
-        return mask, masked_image, image
-    return mask, masked_image
 # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion_img2img.retrieve_latents
 def retrieve_latents(
     encoder_output: torch.Tensor, generator: Optional[torch.Generator] = None, sample_mode: str = "sample"
@@ -269,9 +162,10 @@ def retrieve_timesteps(
     num_inference_steps: Optional[int] = None,
     device: Optional[Union[str, torch.device]] = None,
     timesteps: Optional[List[int]] = None,
+    sigmas: Optional[List[float]] = None,
     **kwargs,
 ):
-    """
+    r"""
     Calls the scheduler's `set_timesteps` method and retrieves timesteps from the scheduler after the call. Handles
     custom timesteps. Any kwargs will be supplied to `scheduler.set_timesteps`.
@@ -279,19 +173,23 @@ def retrieve_timesteps(
         scheduler (`SchedulerMixin`):
             The scheduler to get timesteps from.
         num_inference_steps (`int`):
-            The number of diffusion steps used when generating samples with a pre-trained model. If used,
-            `timesteps` must be `None`.
+            The number of diffusion steps used when generating samples with a pre-trained model. If used, `timesteps`
+            must be `None`.
         device (`str` or `torch.device`, *optional*):
             The device to which the timesteps should be moved to. If `None`, the timesteps are not moved.
         timesteps (`List[int]`, *optional*):
-                Custom timesteps used to support arbitrary spacing between timesteps. If `None`, then the default
-                timestep spacing strategy of the scheduler is used. If `timesteps` is passed, `num_inference_steps`
-                must be `None`.
+            Custom timesteps used to override the timestep spacing strategy of the scheduler. If `timesteps` is passed,
+            `num_inference_steps` and `sigmas` must be `None`.
+        sigmas (`List[float]`, *optional*):
+            Custom sigmas used to override the timestep spacing strategy of the scheduler. If `sigmas` is passed,
+            `num_inference_steps` and `timesteps` must be `None`.
     Returns:
         `Tuple[torch.Tensor, int]`: A tuple where the first element is the timestep schedule from the scheduler and the
         second element is the number of inference steps.
     """
+    if timesteps is not None and sigmas is not None:
+        raise ValueError("Only one of `timesteps` or `sigmas` can be passed. Please choose one to set custom values")
     if timesteps is not None:
         accepts_timesteps = "timesteps" in set(inspect.signature(scheduler.set_timesteps).parameters.keys())
         if not accepts_timesteps:
@@ -302,6 +200,16 @@ def retrieve_timesteps(
         scheduler.set_timesteps(timesteps=timesteps, device=device, **kwargs)
         timesteps = scheduler.timesteps
         num_inference_steps = len(timesteps)
+    elif sigmas is not None:
+        accept_sigmas = "sigmas" in set(inspect.signature(scheduler.set_timesteps).parameters.keys())
+        if not accept_sigmas:
+            raise ValueError(
+                f"The current scheduler class {scheduler.__class__}'s `set_timesteps` does not support custom"
+                f" sigmas schedules. Please check whether you are using the correct scheduler."
+            )
+        scheduler.set_timesteps(sigmas=sigmas, device=device, **kwargs)
+        timesteps = scheduler.timesteps
+        num_inference_steps = len(timesteps)
     else:
         scheduler.set_timesteps(num_inference_steps, device=device, **kwargs)
         timesteps = scheduler.timesteps
@@ -377,11 +285,8 @@ class StableDiffusionXLInpaintPipeline(
     _callback_tensor_inputs = [
         "latents",
         "prompt_embeds",
-        "negative_prompt_embeds",
         "add_text_embeds",
         "add_time_ids",
-        "negative_pooled_prompt_embeds",
-        "add_neg_time_ids",
         "mask",
         "masked_image_latents",
     ]
@@ -458,6 +363,9 @@ class StableDiffusionXLInpaintPipeline(
     def prepare_ip_adapter_image_embeds(
         self, ip_adapter_image, ip_adapter_image_embeds, device, num_images_per_prompt, do_classifier_free_guidance
     ):
+        image_embeds = []
+        if do_classifier_free_guidance:
+            negative_image_embeds = []
         if ip_adapter_image_embeds is None:
             if not isinstance(ip_adapter_image, list):
                 ip_adapter_image = [ip_adapter_image]
@@ -467,7 +375,6 @@ class StableDiffusionXLInpaintPipeline(
                     f"`ip_adapter_image` must have same length as the number of IP Adapters. Got {len(ip_adapter_image)} images and {len(self.unet.encoder_hid_proj.image_projection_layers)} IP Adapters."
                 )
-            image_embeds = []
             for single_ip_adapter_image, image_proj_layer in zip(
                 ip_adapter_image, self.unet.encoder_hid_proj.image_projection_layers
             ):
@@ -475,36 +382,28 @@ class StableDiffusionXLInpaintPipeline(
                 single_image_embeds, single_negative_image_embeds = self.encode_image(
                     single_ip_adapter_image, device, 1, output_hidden_state
                 )
-                single_image_embeds = torch.stack([single_image_embeds] * num_images_per_prompt, dim=0)
-                single_negative_image_embeds = torch.stack(
-                    [single_negative_image_embeds] * num_images_per_prompt, dim=0
-                )
+                image_embeds.append(single_image_embeds[None, :])
                 if do_classifier_free_guidance:
-                    single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds])
-                    single_image_embeds = single_image_embeds.to(device)
-                image_embeds.append(single_image_embeds)
+                    negative_image_embeds.append(single_negative_image_embeds[None, :])
         else:
-            repeat_dims = [1]
-            image_embeds = []
             for single_image_embeds in ip_adapter_image_embeds:
                 if do_classifier_free_guidance:
                     single_negative_image_embeds, single_image_embeds = single_image_embeds.chunk(2)
-                    single_image_embeds = single_image_embeds.repeat(
-                        num_images_per_prompt, *(repeat_dims * len(single_image_embeds.shape[1:]))
-                    )
-                    single_negative_image_embeds = single_negative_image_embeds.repeat(
-                        num_images_per_prompt, *(repeat_dims * len(single_negative_image_embeds.shape[1:]))
-                    )
-                    single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds])
-                else:
-                    single_image_embeds = single_image_embeds.repeat(
-                        num_images_per_prompt, *(repeat_dims * len(single_image_embeds.shape[1:]))
-                    )
+                    negative_image_embeds.append(single_negative_image_embeds)
                 image_embeds.append(single_image_embeds)
-        return image_embeds
+        ip_adapter_image_embeds = []
+        for i, single_image_embeds in enumerate(image_embeds):
+            single_image_embeds = torch.cat([single_image_embeds] * num_images_per_prompt, dim=0)
+            if do_classifier_free_guidance:
+                single_negative_image_embeds = torch.cat([negative_image_embeds[i]] * num_images_per_prompt, dim=0)
+                single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds], dim=0)
+            single_image_embeds = single_image_embeds.to(device=device)
+            ip_adapter_image_embeds.append(single_image_embeds)
+        return ip_adapter_image_embeds
     # Copied from diffusers.pipelines.stable_diffusion_xl.pipeline_stable_diffusion_xl.StableDiffusionXLPipeline.encode_prompt
     def encode_prompt(
@@ -516,10 +415,10 @@ class StableDiffusionXLInpaintPipeline(
         do_classifier_free_guidance: bool = True,
         negative_prompt: Optional[str] = None,
         negative_prompt_2: Optional[str] = None,
-        prompt_embeds: Optional[torch.FloatTensor] = None,
-        negative_prompt_embeds: Optional[torch.FloatTensor] = None,
-        pooled_prompt_embeds: Optional[torch.FloatTensor] = None,
-        negative_pooled_prompt_embeds: Optional[torch.FloatTensor] = None,
+        prompt_embeds: Optional[torch.Tensor] = None,
+        negative_prompt_embeds: Optional[torch.Tensor] = None,
+        pooled_prompt_embeds: Optional[torch.Tensor] = None,
+        negative_pooled_prompt_embeds: Optional[torch.Tensor] = None,
         lora_scale: Optional[float] = None,
         clip_skip: Optional[int] = None,
     ):
@@ -545,17 +444,17 @@ class StableDiffusionXLInpaintPipeline(
             negative_prompt_2 (`str` or `List[str]`, *optional*):
                 The prompt or prompts not to guide the image generation to be sent to `tokenizer_2` and
                 `text_encoder_2`. If not defined, `negative_prompt` is used in both text-encoders
-            prompt_embeds (`torch.FloatTensor`, *optional*):
+            prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt weighting. If not
                 provided, text embeddings will be generated from `prompt` input argument.
-            negative_prompt_embeds (`torch.FloatTensor`, *optional*):
+            negative_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated negative text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt
                 weighting. If not provided, negative_prompt_embeds will be generated from `negative_prompt` input
                 argument.
-            pooled_prompt_embeds (`torch.FloatTensor`, *optional*):
+            pooled_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated pooled text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt weighting.
                 If not provided, pooled text embeddings will be generated from `prompt` input argument.
-            negative_pooled_prompt_embeds (`torch.FloatTensor`, *optional*):
+            negative_pooled_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated negative pooled text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt
                 weighting. If not provided, pooled negative_prompt_embeds will be generated from `negative_prompt`
                 input argument.
@@ -880,7 +779,12 @@ class StableDiffusionXLInpaintPipeline(
         return_noise=False,
         return_image_latents=False,
     ):
-        shape = (batch_size, num_channels_latents, height // self.vae_scale_factor, width // self.vae_scale_factor)
+        shape = (
+            batch_size,
+            num_channels_latents,
+            int(height) // self.vae_scale_factor,
+            int(width) // self.vae_scale_factor,
+        )
         if isinstance(generator, list) and len(generator) != batch_size:
             raise ValueError(
                 f"You have passed a list of generators of length {len(generator)}, but requested an effective batch"
@@ -1006,14 +910,16 @@ class StableDiffusionXLInpaintPipeline(
         if denoising_start is None:
             init_timestep = min(int(num_inference_steps * strength), num_inference_steps)
             t_start = max(num_inference_steps - init_timestep, 0)
-        else:
-            t_start = 0
-        timesteps = self.scheduler.timesteps[t_start * self.scheduler.order :]
+            timesteps = self.scheduler.timesteps[t_start * self.scheduler.order :]
+            if hasattr(self.scheduler, "set_begin_index"):
+                self.scheduler.set_begin_index(t_start * self.scheduler.order)
-        # Strength is irrelevant if we directly request a timestep to start at;
-        # that is, strength is determined by the denoising_start instead.
-        if denoising_start is not None:
+            return timesteps, num_inference_steps - t_start
+        else:
+            # Strength is irrelevant if we directly request a timestep to start at;
+            # that is, strength is determined by the denoising_start instead.
             discrete_timestep_cutoff = int(
                 round(
                     self.scheduler.config.num_train_timesteps
@@ -1021,22 +927,23 @@ class StableDiffusionXLInpaintPipeline(
                 )
             )
-            num_inference_steps = (timesteps < discrete_timestep_cutoff).sum().item()
+            num_inference_steps = (self.scheduler.timesteps < discrete_timestep_cutoff).sum().item()
             if self.scheduler.order == 2 and num_inference_steps % 2 == 0:
                 # if the scheduler is a 2nd order scheduler we might have to do +1
                 # because `num_inference_steps` might be even given that every timestep
                 # (except the highest one) is duplicated. If `num_inference_steps` is even it would
                 # mean that we cut the timesteps in the middle of the denoising step
-                # (between 1st and 2nd devirative) which leads to incorrect results. By adding 1
+                # (between 1st and 2nd derivative) which leads to incorrect results. By adding 1
                 # we ensure that the denoising process always ends after the 2nd derivate step of the scheduler
                 num_inference_steps = num_inference_steps + 1
             # because t_n+1 >= t_n, we slice the timesteps starting from the end
-            timesteps = timesteps[-num_inference_steps:]
+            t_start = len(self.scheduler.timesteps) - num_inference_steps
+            timesteps = self.scheduler.timesteps[t_start:]
+            if hasattr(self.scheduler, "set_begin_index"):
+                self.scheduler.set_begin_index(t_start)
             return timesteps, num_inference_steps
-        return timesteps, num_inference_steps - t_start
     # Copied from diffusers.pipelines.stable_diffusion_xl.pipeline_stable_diffusion_xl_img2img.StableDiffusionXLImg2ImgPipeline._get_add_time_ids
     def _get_add_time_ids(
         self,
@@ -1098,8 +1005,6 @@ class StableDiffusionXLInpaintPipeline(
             (
                 AttnProcessor2_0,
                 XFormersAttnProcessor,
-                LoRAXFormersAttnProcessor,
-                LoRAAttnProcessor2_0,
             ),
         )
         # if xformers or torch_2_0 is used attention block does not need
@@ -1110,20 +1015,22 @@ class StableDiffusionXLInpaintPipeline(
             self.vae.decoder.mid_block.to(dtype)
     # Copied from diffusers.pipelines.latent_consistency_models.pipeline_latent_consistency_text2img.LatentConsistencyModelPipeline.get_guidance_scale_embedding
-    def get_guidance_scale_embedding(self, w, embedding_dim=512, dtype=torch.float32):
+    def get_guidance_scale_embedding(
+        self, w: torch.Tensor, embedding_dim: int = 512, dtype: torch.dtype = torch.float32
+    ) -> torch.Tensor:
         """
         See https://github.com/google-research/vdm/blob/dc27b98a554f65cdc654b800da5aa1846545d41b/model_vdm.py#L298
         Args:
-            timesteps (`torch.Tensor`):
-                generate embedding vectors at these timesteps
+            w (`torch.Tensor`):
+                Generate embedding vectors with a specified guidance scale to subsequently enrich timestep embeddings.
             embedding_dim (`int`, *optional*, defaults to 512):
-                dimension of the embeddings to generate
-            dtype:
-                data type of the generated embeddings
+                Dimension of the embeddings to generate.
+            dtype (`torch.dtype`, *optional*, defaults to `torch.float32`):
+                Data type of the generated embeddings.
         Returns:
-            `torch.FloatTensor`: Embedding vectors with shape `(len(timesteps), embedding_dim)`
+            `torch.Tensor`: Embedding vectors with shape `(len(w), embedding_dim)`.
         """
         assert len(w.shape) == 1
         w = w * 1000.0
@@ -1185,13 +1092,14 @@ class StableDiffusionXLInpaintPipeline(
         prompt_2: Optional[Union[str, List[str]]] = None,
         image: PipelineImageInput = None,
         mask_image: PipelineImageInput = None,
-        masked_image_latents: torch.FloatTensor = None,
+        masked_image_latents: torch.Tensor = None,
         height: Optional[int] = None,
         width: Optional[int] = None,
         padding_mask_crop: Optional[int] = None,
         strength: float = 0.9999,
         num_inference_steps: int = 50,
         timesteps: List[int] = None,
+        sigmas: List[float] = None,
         denoising_start: Optional[float] = None,
         denoising_end: Optional[float] = None,
         guidance_scale: float = 7.5,
@@ -1200,13 +1108,13 @@ class StableDiffusionXLInpaintPipeline(
         num_images_per_prompt: Optional[int] = 1,
         eta: float = 0.0,
         generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
-        latents: Optional[torch.FloatTensor] = None,
-        prompt_embeds: Optional[torch.FloatTensor] = None,
-        negative_prompt_embeds: Optional[torch.FloatTensor] = None,
-        pooled_prompt_embeds: Optional[torch.FloatTensor] = None,
-        negative_pooled_prompt_embeds: Optional[torch.FloatTensor] = None,
+        latents: Optional[torch.Tensor] = None,
+        prompt_embeds: Optional[torch.Tensor] = None,
+        negative_prompt_embeds: Optional[torch.Tensor] = None,
+        pooled_prompt_embeds: Optional[torch.Tensor] = None,
+        negative_pooled_prompt_embeds: Optional[torch.Tensor] = None,
         ip_adapter_image: Optional[PipelineImageInput] = None,
-        ip_adapter_image_embeds: Optional[List[torch.FloatTensor]] = None,
+        ip_adapter_image_embeds: Optional[List[torch.Tensor]] = None,
         output_type: Optional[str] = "pil",
         return_dict: bool = True,
         cross_attention_kwargs: Optional[Dict[str, Any]] = None,
@@ -1220,7 +1128,9 @@ class StableDiffusionXLInpaintPipeline(
         aesthetic_score: float = 6.0,
         negative_aesthetic_score: float = 2.5,
         clip_skip: Optional[int] = None,
-        callback_on_step_end: Optional[Callable[[int, int, Dict], None]] = None,
+        callback_on_step_end: Optional[
+            Union[Callable[[int, int, Dict], None], PipelineCallback, MultiPipelineCallbacks]
+        ] = None,
         callback_on_step_end_tensor_inputs: List[str] = ["latents"],
         **kwargs,
     ):
@@ -1253,11 +1163,12 @@ class StableDiffusionXLInpaintPipeline(
                 [stabilityai/stable-diffusion-xl-base-1.0](https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)
                 and checkpoints that are not specifically fine-tuned on low resolutions.
             padding_mask_crop (`int`, *optional*, defaults to `None`):
-                The size of margin in the crop to be applied to the image and masking. If `None`, no crop is applied to image and mask_image. If
-                `padding_mask_crop` is not `None`, it will first find a rectangular region with the same aspect ration of the image and
-                contains all masked area, and then expand that area based on `padding_mask_crop`. The image and mask_image will then be cropped based on
-                the expanded area before resizing to the original image size for inpainting. This is useful when the masked area is small while the image is large
-                and contain information inreleant for inpainging, such as background.
+                The size of margin in the crop to be applied to the image and masking. If `None`, no crop is applied to
+                image and mask_image. If `padding_mask_crop` is not `None`, it will first find a rectangular region
+                with the same aspect ration of the image and contains all masked area, and then expand that area based
+                on `padding_mask_crop`. The image and mask_image will then be cropped based on the expanded area before
+                resizing to the original image size for inpainting. This is useful when the masked area is small while
+                the image is large and contain information irrelevant for inpainting, such as background.
             strength (`float`, *optional*, defaults to 0.9999):
                 Conceptually, indicates how much to transform the masked portion of the reference `image`. Must be
                 between 0 and 1. `image` will be used as a starting point, adding more noise to it the larger the
@@ -1273,6 +1184,10 @@ class StableDiffusionXLInpaintPipeline(
                 Custom timesteps to use for the denoising process with schedulers which support a `timesteps` argument
                 in their `set_timesteps` method. If not defined, the default behavior when `num_inference_steps` is
                 passed will be used. Must be in descending order.
+            sigmas (`List[float]`, *optional*):
+                Custom sigmas to use for the denoising process with schedulers which support a `sigmas` argument in
+                their `set_timesteps` method. If not defined, the default behavior when `num_inference_steps` is passed
+                will be used.
             denoising_start (`float`, *optional*):
                 When specified, indicates the fraction (between 0.0 and 1.0) of the total denoising process to be
                 bypassed before it is initiated. Consequently, the initial part of the denoising process is skipped and
@@ -1301,26 +1216,26 @@ class StableDiffusionXLInpaintPipeline(
             negative_prompt_2 (`str` or `List[str]`, *optional*):
                 The prompt or prompts not to guide the image generation to be sent to `tokenizer_2` and
                 `text_encoder_2`. If not defined, `negative_prompt` is used in both text-encoders
-            prompt_embeds (`torch.FloatTensor`, *optional*):
+            prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt weighting. If not
                 provided, text embeddings will be generated from `prompt` input argument.
-            negative_prompt_embeds (`torch.FloatTensor`, *optional*):
+            negative_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated negative text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt
                 weighting. If not provided, negative_prompt_embeds will be generated from `negative_prompt` input
                 argument.
-            pooled_prompt_embeds (`torch.FloatTensor`, *optional*):
+            pooled_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated pooled text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt weighting.
                 If not provided, pooled text embeddings will be generated from `prompt` input argument.
-            negative_pooled_prompt_embeds (`torch.FloatTensor`, *optional*):
+            negative_pooled_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated negative pooled text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt
                 weighting. If not provided, pooled negative_prompt_embeds will be generated from `negative_prompt`
                 input argument.
             ip_adapter_image: (`PipelineImageInput`, *optional*): Optional image input to work with IP Adapters.
-            ip_adapter_image_embeds (`List[torch.FloatTensor]`, *optional*):
-                Pre-generated image embeddings for IP-Adapter. It should be a list of length same as number of IP-adapters.
-                Each element should be a tensor of shape `(batch_size, num_images, emb_dim)`. It should contain the negative image embedding
-                if `do_classifier_free_guidance` is set to `True`.
-                If not provided, embeddings are computed from the `ip_adapter_image` input argument.
+            ip_adapter_image_embeds (`List[torch.Tensor]`, *optional*):
+                Pre-generated image embeddings for IP-Adapter. It should be a list of length same as number of
+                IP-adapters. Each element should be a tensor of shape `(batch_size, num_images, emb_dim)`. It should
+                contain the negative image embedding if `do_classifier_free_guidance` is set to `True`. If not
+                provided, embeddings are computed from the `ip_adapter_image` input argument.
             num_images_per_prompt (`int`, *optional*, defaults to 1):
                 The number of images to generate per prompt.
             eta (`float`, *optional*, defaults to 0.0):
@@ -1329,7 +1244,7 @@ class StableDiffusionXLInpaintPipeline(
             generator (`torch.Generator`, *optional*):
                 One or a list of [torch generator(s)](https://pytorch.org/docs/stable/generated/torch.Generator.html)
                 to make generation deterministic.
-            latents (`torch.FloatTensor`, *optional*):
+            latents (`torch.Tensor`, *optional*):
                 Pre-generated noisy latents, sampled from a Gaussian distribution, to be used as inputs for image
                 generation. Can be used to tweak the same generation with different prompts. If not provided, a latents
                 tensor will ge generated by sampling using the supplied random `generator`.
@@ -1383,11 +1298,11 @@ class StableDiffusionXLInpaintPipeline(
             clip_skip (`int`, *optional*):
                 Number of layers to be skipped from CLIP while computing the prompt embeddings. A value of 1 means that
                 the output of the pre-final layer will be used for computing the prompt embeddings.
-            callback_on_step_end (`Callable`, *optional*):
-                A function that calls at the end of each denoising steps during the inference. The function is called
-                with the following arguments: `callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int,
-                callback_kwargs: Dict)`. `callback_kwargs` will include a list of all tensors as specified by
-                `callback_on_step_end_tensor_inputs`.
+            callback_on_step_end (`Callable`, `PipelineCallback`, `MultiPipelineCallbacks`, *optional*):
+                A function or a subclass of `PipelineCallback` or `MultiPipelineCallbacks` that is called at the end of
+                each denoising step during the inference. with the following arguments: `callback_on_step_end(self:
+                DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)`. `callback_kwargs` will include a
+                list of all tensors as specified by `callback_on_step_end_tensor_inputs`.
             callback_on_step_end_tensor_inputs (`List`, *optional*):
                 The list of tensor inputs for the `callback_on_step_end` function. The tensors specified in the list
                 will be passed as `callback_kwargs` argument. You will only be able to include variables listed in the
@@ -1417,6 +1332,9 @@ class StableDiffusionXLInpaintPipeline(
                 "Passing `callback_steps` as an input argument to `__call__` is deprecated, consider use `callback_on_step_end`",
             )
+        if isinstance(callback_on_step_end, (PipelineCallback, MultiPipelineCallbacks)):
+            callback_on_step_end_tensor_inputs = callback_on_step_end.tensor_inputs
         # 0. Default height and width to unet
         height = height or self.unet.config.sample_size * self.vae_scale_factor
         width = width or self.unet.config.sample_size * self.vae_scale_factor
@@ -1490,7 +1408,9 @@ class StableDiffusionXLInpaintPipeline(
         def denoising_value_valid(dnv):
             return isinstance(dnv, float) and 0 < dnv < 1
-        timesteps, num_inference_steps = retrieve_timesteps(self.scheduler, num_inference_steps, device, timesteps)
+        timesteps, num_inference_steps = retrieve_timesteps(
+            self.scheduler, num_inference_steps, device, timesteps, sigmas
+        )
         timesteps, num_inference_steps = self.get_timesteps(
             num_inference_steps,
             strength,
@@ -1718,7 +1638,12 @@ class StableDiffusionXLInpaintPipeline(
                     noise_pred = rescale_noise_cfg(noise_pred, noise_pred_text, guidance_rescale=self.guidance_rescale)
                 # compute the previous noisy sample x_t -> x_t-1
+                latents_dtype = latents.dtype
                 latents = self.scheduler.step(noise_pred, t, latents, **extra_step_kwargs, return_dict=False)[0]
+                if latents.dtype != latents_dtype:
+                    if torch.backends.mps.is_available():
+                        # some platforms (eg. apple mps) misbehave due to a pytorch bug: https://github.com/pytorch/pytorch/pull/99272
+                        latents = latents.to(latents_dtype)
                 if num_channels_unet == 4:
                     init_latents_proper = image_latents
@@ -1743,13 +1668,8 @@ class StableDiffusionXLInpaintPipeline(
                     latents = callback_outputs.pop("latents", latents)
                     prompt_embeds = callback_outputs.pop("prompt_embeds", prompt_embeds)
-                    negative_prompt_embeds = callback_outputs.pop("negative_prompt_embeds", negative_prompt_embeds)
                     add_text_embeds = callback_outputs.pop("add_text_embeds", add_text_embeds)
-                    negative_pooled_prompt_embeds = callback_outputs.pop(
-                        "negative_pooled_prompt_embeds", negative_pooled_prompt_embeds
-                    )
                     add_time_ids = callback_outputs.pop("add_time_ids", add_time_ids)
-                    add_neg_time_ids = callback_outputs.pop("add_neg_time_ids", add_neg_time_ids)
                     mask = callback_outputs.pop("mask", mask)
                     masked_image_latents = callback_outputs.pop("masked_image_latents", masked_image_latents)
@@ -1770,6 +1690,10 @@ class StableDiffusionXLInpaintPipeline(
             if needs_upcasting:
                 self.upcast_vae()
                 latents = latents.to(next(iter(self.vae.post_quant_conv.parameters())).dtype)
+            elif latents.dtype != self.vae.dtype:
+                if torch.backends.mps.is_available():
+                    # some platforms (eg. apple mps) misbehave due to a pytorch bug: https://github.com/pytorch/pytorch/pull/99272
+                    self.vae = self.vae.to(latents.dtype)
             # unscale/denormalize the latents
             # denormalize with the mean and std if available and not None

diffusers 0.27.1__py3-none-any.whl → 0.32.2__py3-none-any.whl

diffusers 0.27.1py3-none-any.whl → 0.32.2py3-none-any.whl