PyPI - diffusers - Versions diffs - 0.27.0__py3-none-any.whl → 0.32.2__py3-none-any.whl - Mend

diffusers 0.27.0py3-none-any.whl → 0.32.2py3-none-any.whl

Files changed (445) hide show

diffusers/__init__.py +233 -6
diffusers/callbacks.py +209 -0
diffusers/commands/env.py +102 -6
diffusers/configuration_utils.py +45 -16
diffusers/dependency_versions_table.py +4 -3
diffusers/image_processor.py +434 -110
diffusers/loaders/__init__.py +42 -9
diffusers/loaders/ip_adapter.py +626 -36
diffusers/loaders/lora_base.py +900 -0
diffusers/loaders/lora_conversion_utils.py +991 -125
diffusers/loaders/lora_pipeline.py +3812 -0
diffusers/loaders/peft.py +571 -7
diffusers/loaders/single_file.py +405 -173
diffusers/loaders/single_file_model.py +385 -0
diffusers/loaders/single_file_utils.py +1783 -713
diffusers/loaders/textual_inversion.py +41 -23
diffusers/loaders/transformer_flux.py +181 -0
diffusers/loaders/transformer_sd3.py +89 -0
diffusers/loaders/unet.py +464 -540
diffusers/loaders/unet_loader_utils.py +163 -0
diffusers/models/__init__.py +76 -7
diffusers/models/activations.py +65 -10
diffusers/models/adapter.py +53 -53
diffusers/models/attention.py +605 -18
diffusers/models/attention_flax.py +1 -1
diffusers/models/attention_processor.py +4304 -687
diffusers/models/autoencoders/__init__.py +8 -0
diffusers/models/autoencoders/autoencoder_asym_kl.py +15 -17
diffusers/models/autoencoders/autoencoder_dc.py +620 -0
diffusers/models/autoencoders/autoencoder_kl.py +110 -28
diffusers/models/autoencoders/autoencoder_kl_allegro.py +1149 -0
diffusers/models/autoencoders/autoencoder_kl_cogvideox.py +1482 -0
diffusers/models/autoencoders/autoencoder_kl_hunyuan_video.py +1176 -0
diffusers/models/autoencoders/autoencoder_kl_ltx.py +1338 -0
diffusers/models/autoencoders/autoencoder_kl_mochi.py +1166 -0
diffusers/models/autoencoders/autoencoder_kl_temporal_decoder.py +19 -24
diffusers/models/autoencoders/autoencoder_oobleck.py +464 -0
diffusers/models/autoencoders/autoencoder_tiny.py +21 -18
diffusers/models/autoencoders/consistency_decoder_vae.py +45 -20
diffusers/models/autoencoders/vae.py +41 -29
diffusers/models/autoencoders/vq_model.py +182 -0
diffusers/models/controlnet.py +47 -800
diffusers/models/controlnet_flux.py +70 -0
diffusers/models/controlnet_sd3.py +68 -0
diffusers/models/controlnet_sparsectrl.py +116 -0
diffusers/models/controlnets/__init__.py +23 -0
diffusers/models/controlnets/controlnet.py +872 -0
diffusers/models/{controlnet_flax.py → controlnets/controlnet_flax.py} +9 -9
diffusers/models/controlnets/controlnet_flux.py +536 -0
diffusers/models/controlnets/controlnet_hunyuan.py +401 -0
diffusers/models/controlnets/controlnet_sd3.py +489 -0
diffusers/models/controlnets/controlnet_sparsectrl.py +788 -0
diffusers/models/controlnets/controlnet_union.py +832 -0
diffusers/models/controlnets/controlnet_xs.py +1946 -0
diffusers/models/controlnets/multicontrolnet.py +183 -0
diffusers/models/downsampling.py +85 -18
diffusers/models/embeddings.py +1856 -158
diffusers/models/embeddings_flax.py +23 -9
diffusers/models/model_loading_utils.py +480 -0
diffusers/models/modeling_flax_pytorch_utils.py +2 -1
diffusers/models/modeling_flax_utils.py +2 -7
diffusers/models/modeling_outputs.py +14 -0
diffusers/models/modeling_pytorch_flax_utils.py +1 -1
diffusers/models/modeling_utils.py +611 -146
diffusers/models/normalization.py +361 -20
diffusers/models/resnet.py +18 -23
diffusers/models/transformers/__init__.py +16 -0
diffusers/models/transformers/auraflow_transformer_2d.py +544 -0
diffusers/models/transformers/cogvideox_transformer_3d.py +542 -0
diffusers/models/transformers/dit_transformer_2d.py +240 -0
diffusers/models/transformers/dual_transformer_2d.py +9 -8
diffusers/models/transformers/hunyuan_transformer_2d.py +578 -0
diffusers/models/transformers/latte_transformer_3d.py +327 -0
diffusers/models/transformers/lumina_nextdit2d.py +340 -0
diffusers/models/transformers/pixart_transformer_2d.py +445 -0
diffusers/models/transformers/prior_transformer.py +13 -13
diffusers/models/transformers/sana_transformer.py +488 -0
diffusers/models/transformers/stable_audio_transformer.py +458 -0
diffusers/models/transformers/t5_film_transformer.py +17 -19
diffusers/models/transformers/transformer_2d.py +297 -187
diffusers/models/transformers/transformer_allegro.py +422 -0
diffusers/models/transformers/transformer_cogview3plus.py +386 -0
diffusers/models/transformers/transformer_flux.py +593 -0
diffusers/models/transformers/transformer_hunyuan_video.py +791 -0
diffusers/models/transformers/transformer_ltx.py +469 -0
diffusers/models/transformers/transformer_mochi.py +499 -0
diffusers/models/transformers/transformer_sd3.py +461 -0
diffusers/models/transformers/transformer_temporal.py +21 -19
diffusers/models/unets/unet_1d.py +8 -8
diffusers/models/unets/unet_1d_blocks.py +31 -31
diffusers/models/unets/unet_2d.py +17 -10
diffusers/models/unets/unet_2d_blocks.py +225 -149
diffusers/models/unets/unet_2d_condition.py +50 -53
diffusers/models/unets/unet_2d_condition_flax.py +6 -5
diffusers/models/unets/unet_3d_blocks.py +192 -1057
diffusers/models/unets/unet_3d_condition.py +22 -27
diffusers/models/unets/unet_i2vgen_xl.py +22 -18
diffusers/models/unets/unet_kandinsky3.py +2 -2
diffusers/models/unets/unet_motion_model.py +1413 -89
diffusers/models/unets/unet_spatio_temporal_condition.py +40 -16
diffusers/models/unets/unet_stable_cascade.py +19 -18
diffusers/models/unets/uvit_2d.py +2 -2
diffusers/models/upsampling.py +95 -26
diffusers/models/vq_model.py +12 -164
diffusers/optimization.py +1 -1
diffusers/pipelines/__init__.py +202 -3
diffusers/pipelines/allegro/__init__.py +48 -0
diffusers/pipelines/allegro/pipeline_allegro.py +938 -0
diffusers/pipelines/allegro/pipeline_output.py +23 -0
diffusers/pipelines/amused/pipeline_amused.py +12 -12
diffusers/pipelines/amused/pipeline_amused_img2img.py +14 -12
diffusers/pipelines/amused/pipeline_amused_inpaint.py +13 -11
diffusers/pipelines/animatediff/__init__.py +8 -0
diffusers/pipelines/animatediff/pipeline_animatediff.py +122 -109
diffusers/pipelines/animatediff/pipeline_animatediff_controlnet.py +1106 -0
diffusers/pipelines/animatediff/pipeline_animatediff_sdxl.py +1288 -0
diffusers/pipelines/animatediff/pipeline_animatediff_sparsectrl.py +1010 -0
diffusers/pipelines/animatediff/pipeline_animatediff_video2video.py +236 -180
diffusers/pipelines/animatediff/pipeline_animatediff_video2video_controlnet.py +1341 -0
diffusers/pipelines/animatediff/pipeline_output.py +3 -2
diffusers/pipelines/audioldm/pipeline_audioldm.py +14 -14
diffusers/pipelines/audioldm2/modeling_audioldm2.py +58 -39
diffusers/pipelines/audioldm2/pipeline_audioldm2.py +121 -36
diffusers/pipelines/aura_flow/__init__.py +48 -0
diffusers/pipelines/aura_flow/pipeline_aura_flow.py +584 -0
diffusers/pipelines/auto_pipeline.py +196 -28
diffusers/pipelines/blip_diffusion/blip_image_processing.py +1 -1
diffusers/pipelines/blip_diffusion/modeling_blip2.py +6 -6
diffusers/pipelines/blip_diffusion/modeling_ctx_clip.py +1 -1
diffusers/pipelines/blip_diffusion/pipeline_blip_diffusion.py +2 -2
diffusers/pipelines/cogvideo/__init__.py +54 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox.py +772 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox_fun_control.py +825 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox_image2video.py +885 -0
diffusers/pipelines/cogvideo/pipeline_cogvideox_video2video.py +851 -0
diffusers/pipelines/cogvideo/pipeline_output.py +20 -0
diffusers/pipelines/cogview3/__init__.py +47 -0
diffusers/pipelines/cogview3/pipeline_cogview3plus.py +674 -0
diffusers/pipelines/cogview3/pipeline_output.py +21 -0
diffusers/pipelines/consistency_models/pipeline_consistency_models.py +6 -6
diffusers/pipelines/controlnet/__init__.py +86 -80
diffusers/pipelines/controlnet/multicontrolnet.py +7 -182
diffusers/pipelines/controlnet/pipeline_controlnet.py +134 -87
diffusers/pipelines/controlnet/pipeline_controlnet_blip_diffusion.py +2 -2
diffusers/pipelines/controlnet/pipeline_controlnet_img2img.py +93 -77
diffusers/pipelines/controlnet/pipeline_controlnet_inpaint.py +88 -197
diffusers/pipelines/controlnet/pipeline_controlnet_inpaint_sd_xl.py +136 -90
diffusers/pipelines/controlnet/pipeline_controlnet_sd_xl.py +176 -80
diffusers/pipelines/controlnet/pipeline_controlnet_sd_xl_img2img.py +125 -89
diffusers/pipelines/controlnet/pipeline_controlnet_union_inpaint_sd_xl.py +1790 -0
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl.py +1501 -0
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl_img2img.py +1627 -0
diffusers/pipelines/controlnet/pipeline_flax_controlnet.py +2 -2
diffusers/pipelines/controlnet_hunyuandit/__init__.py +48 -0
diffusers/pipelines/controlnet_hunyuandit/pipeline_hunyuandit_controlnet.py +1060 -0
diffusers/pipelines/controlnet_sd3/__init__.py +57 -0
diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet.py +1133 -0
diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet_inpainting.py +1153 -0
diffusers/pipelines/controlnet_xs/__init__.py +68 -0
diffusers/pipelines/controlnet_xs/pipeline_controlnet_xs.py +916 -0
diffusers/pipelines/controlnet_xs/pipeline_controlnet_xs_sd_xl.py +1111 -0
diffusers/pipelines/ddpm/pipeline_ddpm.py +2 -2
diffusers/pipelines/deepfloyd_if/pipeline_if.py +16 -30
diffusers/pipelines/deepfloyd_if/pipeline_if_img2img.py +20 -35
diffusers/pipelines/deepfloyd_if/pipeline_if_img2img_superresolution.py +23 -41
diffusers/pipelines/deepfloyd_if/pipeline_if_inpainting.py +22 -38
diffusers/pipelines/deepfloyd_if/pipeline_if_inpainting_superresolution.py +25 -41
diffusers/pipelines/deepfloyd_if/pipeline_if_superresolution.py +19 -34
diffusers/pipelines/deepfloyd_if/pipeline_output.py +6 -5
diffusers/pipelines/deepfloyd_if/watermark.py +1 -1
diffusers/pipelines/deprecated/alt_diffusion/modeling_roberta_series.py +11 -11
diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion.py +70 -30
diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion_img2img.py +48 -25
diffusers/pipelines/deprecated/repaint/pipeline_repaint.py +2 -2
diffusers/pipelines/deprecated/spectrogram_diffusion/pipeline_spectrogram_diffusion.py +7 -7
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py +21 -20
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_inpaint_legacy.py +27 -29
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_model_editing.py +33 -27
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_paradigms.py +33 -23
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_pix2pix_zero.py +36 -30
diffusers/pipelines/deprecated/versatile_diffusion/modeling_text_unet.py +102 -69
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion.py +13 -13
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion_dual_guided.py +10 -5
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion_image_variation.py +11 -6
diffusers/pipelines/deprecated/versatile_diffusion/pipeline_versatile_diffusion_text_to_image.py +10 -5
diffusers/pipelines/deprecated/vq_diffusion/pipeline_vq_diffusion.py +5 -5
diffusers/pipelines/dit/pipeline_dit.py +7 -4
diffusers/pipelines/flux/__init__.py +69 -0
diffusers/pipelines/flux/modeling_flux.py +47 -0
diffusers/pipelines/flux/pipeline_flux.py +957 -0
diffusers/pipelines/flux/pipeline_flux_control.py +889 -0
diffusers/pipelines/flux/pipeline_flux_control_img2img.py +945 -0
diffusers/pipelines/flux/pipeline_flux_control_inpaint.py +1141 -0
diffusers/pipelines/flux/pipeline_flux_controlnet.py +1006 -0
diffusers/pipelines/flux/pipeline_flux_controlnet_image_to_image.py +998 -0
diffusers/pipelines/flux/pipeline_flux_controlnet_inpainting.py +1204 -0
diffusers/pipelines/flux/pipeline_flux_fill.py +969 -0
diffusers/pipelines/flux/pipeline_flux_img2img.py +856 -0
diffusers/pipelines/flux/pipeline_flux_inpaint.py +1022 -0
diffusers/pipelines/flux/pipeline_flux_prior_redux.py +492 -0
diffusers/pipelines/flux/pipeline_output.py +37 -0
diffusers/pipelines/free_init_utils.py +41 -38
diffusers/pipelines/free_noise_utils.py +596 -0
diffusers/pipelines/hunyuan_video/__init__.py +48 -0
diffusers/pipelines/hunyuan_video/pipeline_hunyuan_video.py +687 -0
diffusers/pipelines/hunyuan_video/pipeline_output.py +20 -0
diffusers/pipelines/hunyuandit/__init__.py +48 -0
diffusers/pipelines/hunyuandit/pipeline_hunyuandit.py +916 -0
diffusers/pipelines/i2vgen_xl/pipeline_i2vgen_xl.py +33 -48
diffusers/pipelines/kandinsky/pipeline_kandinsky.py +8 -8
diffusers/pipelines/kandinsky/pipeline_kandinsky_combined.py +32 -29
diffusers/pipelines/kandinsky/pipeline_kandinsky_img2img.py +11 -11
diffusers/pipelines/kandinsky/pipeline_kandinsky_inpaint.py +12 -12
diffusers/pipelines/kandinsky/pipeline_kandinsky_prior.py +10 -10
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2.py +6 -6
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_combined.py +34 -31
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_controlnet.py +10 -10
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_controlnet_img2img.py +10 -10
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_img2img.py +6 -6
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_inpainting.py +8 -8
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_prior.py +7 -7
diffusers/pipelines/kandinsky2_2/pipeline_kandinsky2_2_prior_emb2emb.py +6 -6
diffusers/pipelines/kandinsky3/convert_kandinsky3_unet.py +3 -3
diffusers/pipelines/kandinsky3/pipeline_kandinsky3.py +22 -35
diffusers/pipelines/kandinsky3/pipeline_kandinsky3_img2img.py +26 -37
diffusers/pipelines/kolors/__init__.py +54 -0
diffusers/pipelines/kolors/pipeline_kolors.py +1070 -0
diffusers/pipelines/kolors/pipeline_kolors_img2img.py +1250 -0
diffusers/pipelines/kolors/pipeline_output.py +21 -0
diffusers/pipelines/kolors/text_encoder.py +889 -0
diffusers/pipelines/kolors/tokenizer.py +338 -0
diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_img2img.py +82 -62
diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_text2img.py +77 -60
diffusers/pipelines/latent_diffusion/pipeline_latent_diffusion.py +12 -12
diffusers/pipelines/latte/__init__.py +48 -0
diffusers/pipelines/latte/pipeline_latte.py +881 -0
diffusers/pipelines/ledits_pp/pipeline_leditspp_stable_diffusion.py +80 -74
diffusers/pipelines/ledits_pp/pipeline_leditspp_stable_diffusion_xl.py +85 -76
diffusers/pipelines/ledits_pp/pipeline_output.py +2 -2
diffusers/pipelines/ltx/__init__.py +50 -0
diffusers/pipelines/ltx/pipeline_ltx.py +789 -0
diffusers/pipelines/ltx/pipeline_ltx_image2video.py +885 -0
diffusers/pipelines/ltx/pipeline_output.py +20 -0
diffusers/pipelines/lumina/__init__.py +48 -0
diffusers/pipelines/lumina/pipeline_lumina.py +890 -0
diffusers/pipelines/marigold/__init__.py +50 -0
diffusers/pipelines/marigold/marigold_image_processing.py +576 -0
diffusers/pipelines/marigold/pipeline_marigold_depth.py +813 -0
diffusers/pipelines/marigold/pipeline_marigold_normals.py +690 -0
diffusers/pipelines/mochi/__init__.py +48 -0
diffusers/pipelines/mochi/pipeline_mochi.py +748 -0
diffusers/pipelines/mochi/pipeline_output.py +20 -0
diffusers/pipelines/musicldm/pipeline_musicldm.py +14 -14
diffusers/pipelines/pag/__init__.py +80 -0
diffusers/pipelines/pag/pag_utils.py +243 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd.py +1328 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd_inpaint.py +1543 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd_xl.py +1610 -0
diffusers/pipelines/pag/pipeline_pag_controlnet_sd_xl_img2img.py +1683 -0
diffusers/pipelines/pag/pipeline_pag_hunyuandit.py +969 -0
diffusers/pipelines/pag/pipeline_pag_kolors.py +1136 -0
diffusers/pipelines/pag/pipeline_pag_pixart_sigma.py +865 -0
diffusers/pipelines/pag/pipeline_pag_sana.py +886 -0
diffusers/pipelines/pag/pipeline_pag_sd.py +1062 -0
diffusers/pipelines/pag/pipeline_pag_sd_3.py +994 -0
diffusers/pipelines/pag/pipeline_pag_sd_3_img2img.py +1058 -0
diffusers/pipelines/pag/pipeline_pag_sd_animatediff.py +866 -0
diffusers/pipelines/pag/pipeline_pag_sd_img2img.py +1094 -0
diffusers/pipelines/pag/pipeline_pag_sd_inpaint.py +1356 -0
diffusers/pipelines/pag/pipeline_pag_sd_xl.py +1345 -0
diffusers/pipelines/pag/pipeline_pag_sd_xl_img2img.py +1544 -0
diffusers/pipelines/pag/pipeline_pag_sd_xl_inpaint.py +1776 -0
diffusers/pipelines/paint_by_example/pipeline_paint_by_example.py +17 -12
diffusers/pipelines/pia/pipeline_pia.py +74 -164
diffusers/pipelines/pipeline_flax_utils.py +5 -10
diffusers/pipelines/pipeline_loading_utils.py +515 -53
diffusers/pipelines/pipeline_utils.py +411 -222
diffusers/pipelines/pixart_alpha/__init__.py +8 -1
diffusers/pipelines/pixart_alpha/pipeline_pixart_alpha.py +76 -93
diffusers/pipelines/pixart_alpha/pipeline_pixart_sigma.py +873 -0
diffusers/pipelines/sana/__init__.py +47 -0
diffusers/pipelines/sana/pipeline_output.py +21 -0
diffusers/pipelines/sana/pipeline_sana.py +884 -0
diffusers/pipelines/semantic_stable_diffusion/pipeline_semantic_stable_diffusion.py +27 -23
diffusers/pipelines/shap_e/pipeline_shap_e.py +3 -3
diffusers/pipelines/shap_e/pipeline_shap_e_img2img.py +14 -14
diffusers/pipelines/shap_e/renderer.py +1 -1
diffusers/pipelines/stable_audio/__init__.py +50 -0
diffusers/pipelines/stable_audio/modeling_stable_audio.py +158 -0
diffusers/pipelines/stable_audio/pipeline_stable_audio.py +756 -0
diffusers/pipelines/stable_cascade/pipeline_stable_cascade.py +71 -25
diffusers/pipelines/stable_cascade/pipeline_stable_cascade_combined.py +23 -19
diffusers/pipelines/stable_cascade/pipeline_stable_cascade_prior.py +35 -34
diffusers/pipelines/stable_diffusion/__init__.py +0 -1
diffusers/pipelines/stable_diffusion/convert_from_ckpt.py +20 -11
diffusers/pipelines/stable_diffusion/pipeline_flax_stable_diffusion.py +1 -1
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion.py +2 -2
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion_upscale.py +6 -6
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py +145 -79
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_depth2img.py +43 -28
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_image_variation.py +13 -8
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_img2img.py +100 -68
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint.py +109 -201
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_instruct_pix2pix.py +131 -32
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_latent_upscale.py +247 -87
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_upscale.py +30 -29
diffusers/pipelines/stable_diffusion/pipeline_stable_unclip.py +35 -27
diffusers/pipelines/stable_diffusion/pipeline_stable_unclip_img2img.py +49 -42
diffusers/pipelines/stable_diffusion/safety_checker.py +2 -1
diffusers/pipelines/stable_diffusion_3/__init__.py +54 -0
diffusers/pipelines/stable_diffusion_3/pipeline_output.py +21 -0
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py +1140 -0
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_img2img.py +1036 -0
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_inpaint.py +1250 -0
diffusers/pipelines/stable_diffusion_attend_and_excite/pipeline_stable_diffusion_attend_and_excite.py +29 -20
diffusers/pipelines/stable_diffusion_diffedit/pipeline_stable_diffusion_diffedit.py +59 -58
diffusers/pipelines/stable_diffusion_gligen/pipeline_stable_diffusion_gligen.py +31 -25
diffusers/pipelines/stable_diffusion_gligen/pipeline_stable_diffusion_gligen_text_image.py +38 -22
diffusers/pipelines/stable_diffusion_k_diffusion/pipeline_stable_diffusion_k_diffusion.py +30 -24
diffusers/pipelines/stable_diffusion_k_diffusion/pipeline_stable_diffusion_xl_k_diffusion.py +24 -23
diffusers/pipelines/stable_diffusion_ldm3d/pipeline_stable_diffusion_ldm3d.py +107 -67
diffusers/pipelines/stable_diffusion_panorama/pipeline_stable_diffusion_panorama.py +316 -69
diffusers/pipelines/stable_diffusion_safe/pipeline_stable_diffusion_safe.py +10 -5
diffusers/pipelines/stable_diffusion_safe/safety_checker.py +1 -1
diffusers/pipelines/stable_diffusion_sag/pipeline_stable_diffusion_sag.py +98 -30
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl.py +121 -83
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_img2img.py +161 -105
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_inpaint.py +142 -218
diffusers/pipelines/stable_diffusion_xl/pipeline_stable_diffusion_xl_instruct_pix2pix.py +45 -29
diffusers/pipelines/stable_diffusion_xl/watermark.py +9 -3
diffusers/pipelines/stable_video_diffusion/pipeline_stable_video_diffusion.py +110 -57
diffusers/pipelines/t2i_adapter/pipeline_stable_diffusion_adapter.py +69 -39
diffusers/pipelines/t2i_adapter/pipeline_stable_diffusion_xl_adapter.py +105 -74
diffusers/pipelines/text_to_video_synthesis/pipeline_output.py +3 -2
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth.py +29 -49
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth_img2img.py +32 -93
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_zero.py +37 -25
diffusers/pipelines/text_to_video_synthesis/pipeline_text_to_video_zero_sdxl.py +54 -40
diffusers/pipelines/unclip/pipeline_unclip.py +6 -6
diffusers/pipelines/unclip/pipeline_unclip_image_variation.py +6 -6
diffusers/pipelines/unidiffuser/modeling_text_decoder.py +1 -1
diffusers/pipelines/unidiffuser/modeling_uvit.py +12 -12
diffusers/pipelines/unidiffuser/pipeline_unidiffuser.py +29 -28
diffusers/pipelines/wuerstchen/modeling_paella_vq_model.py +5 -5
diffusers/pipelines/wuerstchen/modeling_wuerstchen_common.py +5 -10
diffusers/pipelines/wuerstchen/modeling_wuerstchen_prior.py +6 -8
diffusers/pipelines/wuerstchen/pipeline_wuerstchen.py +4 -4
diffusers/pipelines/wuerstchen/pipeline_wuerstchen_combined.py +12 -12
diffusers/pipelines/wuerstchen/pipeline_wuerstchen_prior.py +15 -14
diffusers/{models/dual_transformer_2d.py → quantizers/__init__.py} +2 -6
diffusers/quantizers/auto.py +139 -0
diffusers/quantizers/base.py +233 -0
diffusers/quantizers/bitsandbytes/__init__.py +2 -0
diffusers/quantizers/bitsandbytes/bnb_quantizer.py +561 -0
diffusers/quantizers/bitsandbytes/utils.py +306 -0
diffusers/quantizers/gguf/__init__.py +1 -0
diffusers/quantizers/gguf/gguf_quantizer.py +159 -0
diffusers/quantizers/gguf/utils.py +456 -0
diffusers/quantizers/quantization_config.py +669 -0
diffusers/quantizers/torchao/__init__.py +15 -0
diffusers/quantizers/torchao/torchao_quantizer.py +292 -0
diffusers/schedulers/__init__.py +12 -2
diffusers/schedulers/deprecated/__init__.py +1 -1
diffusers/schedulers/deprecated/scheduling_karras_ve.py +25 -25
diffusers/schedulers/scheduling_amused.py +5 -5
diffusers/schedulers/scheduling_consistency_decoder.py +11 -11
diffusers/schedulers/scheduling_consistency_models.py +23 -25
diffusers/schedulers/scheduling_cosine_dpmsolver_multistep.py +572 -0
diffusers/schedulers/scheduling_ddim.py +27 -26
diffusers/schedulers/scheduling_ddim_cogvideox.py +452 -0
diffusers/schedulers/scheduling_ddim_flax.py +2 -1
diffusers/schedulers/scheduling_ddim_inverse.py +16 -16
diffusers/schedulers/scheduling_ddim_parallel.py +32 -31
diffusers/schedulers/scheduling_ddpm.py +27 -30
diffusers/schedulers/scheduling_ddpm_flax.py +7 -3
diffusers/schedulers/scheduling_ddpm_parallel.py +33 -36
diffusers/schedulers/scheduling_ddpm_wuerstchen.py +14 -14
diffusers/schedulers/scheduling_deis_multistep.py +150 -50
diffusers/schedulers/scheduling_dpm_cogvideox.py +489 -0
diffusers/schedulers/scheduling_dpmsolver_multistep.py +221 -84
diffusers/schedulers/scheduling_dpmsolver_multistep_flax.py +2 -2
diffusers/schedulers/scheduling_dpmsolver_multistep_inverse.py +158 -52
diffusers/schedulers/scheduling_dpmsolver_sde.py +153 -34
diffusers/schedulers/scheduling_dpmsolver_singlestep.py +275 -86
diffusers/schedulers/scheduling_edm_dpmsolver_multistep.py +81 -57
diffusers/schedulers/scheduling_edm_euler.py +62 -39
diffusers/schedulers/scheduling_euler_ancestral_discrete.py +30 -29
diffusers/schedulers/scheduling_euler_discrete.py +255 -74
diffusers/schedulers/scheduling_flow_match_euler_discrete.py +458 -0
diffusers/schedulers/scheduling_flow_match_heun_discrete.py +320 -0
diffusers/schedulers/scheduling_heun_discrete.py +174 -46
diffusers/schedulers/scheduling_ipndm.py +9 -9
diffusers/schedulers/scheduling_k_dpm_2_ancestral_discrete.py +138 -29
diffusers/schedulers/scheduling_k_dpm_2_discrete.py +132 -26
diffusers/schedulers/scheduling_karras_ve_flax.py +6 -6
diffusers/schedulers/scheduling_lcm.py +23 -29
diffusers/schedulers/scheduling_lms_discrete.py +105 -28
diffusers/schedulers/scheduling_pndm.py +20 -20
diffusers/schedulers/scheduling_repaint.py +21 -21
diffusers/schedulers/scheduling_sasolver.py +157 -60
diffusers/schedulers/scheduling_sde_ve.py +19 -19
diffusers/schedulers/scheduling_tcd.py +41 -36
diffusers/schedulers/scheduling_unclip.py +19 -16
diffusers/schedulers/scheduling_unipc_multistep.py +243 -47
diffusers/schedulers/scheduling_utils.py +12 -5
diffusers/schedulers/scheduling_utils_flax.py +1 -3
diffusers/schedulers/scheduling_vq_diffusion.py +10 -10
diffusers/training_utils.py +214 -30
diffusers/utils/__init__.py +17 -1
diffusers/utils/constants.py +3 -0
diffusers/utils/doc_utils.py +1 -0
diffusers/utils/dummy_pt_objects.py +592 -7
diffusers/utils/dummy_torch_and_torchsde_objects.py +15 -0
diffusers/utils/dummy_torch_and_transformers_and_sentencepiece_objects.py +47 -0
diffusers/utils/dummy_torch_and_transformers_objects.py +1001 -71
diffusers/utils/dynamic_modules_utils.py +34 -29
diffusers/utils/export_utils.py +50 -6
diffusers/utils/hub_utils.py +131 -17
diffusers/utils/import_utils.py +210 -8
diffusers/utils/loading_utils.py +118 -5
diffusers/utils/logging.py +4 -2
diffusers/utils/peft_utils.py +37 -7
diffusers/utils/state_dict_utils.py +13 -2
diffusers/utils/testing_utils.py +193 -11
diffusers/utils/torch_utils.py +4 -0
diffusers/video_processor.py +113 -0
{diffusers-0.27.0.dist-info → diffusers-0.32.2.dist-info}/METADATA +82 -91
diffusers-0.32.2.dist-info/RECORD +550 -0
{diffusers-0.27.0.dist-info → diffusers-0.32.2.dist-info}/WHEEL +1 -1
diffusers/loaders/autoencoder.py +0 -146
diffusers/loaders/controlnet.py +0 -136
diffusers/loaders/lora.py +0 -1349
diffusers/models/prior_transformer.py +0 -12
diffusers/models/t5_film_transformer.py +0 -70
diffusers/models/transformer_2d.py +0 -25
diffusers/models/transformer_temporal.py +0 -34
diffusers/models/unet_1d.py +0 -26
diffusers/models/unet_1d_blocks.py +0 -203
diffusers/models/unet_2d.py +0 -27
diffusers/models/unet_2d_blocks.py +0 -375
diffusers/models/unet_2d_condition.py +0 -25
diffusers-0.27.0.dist-info/RECORD +0 -399
{diffusers-0.27.0.dist-info → diffusers-0.32.2.dist-info}/LICENSE +0 -0
{diffusers-0.27.0.dist-info → diffusers-0.32.2.dist-info}/entry_points.txt +0 -0
{diffusers-0.27.0.dist-info → diffusers-0.32.2.dist-info}/top_level.txt +0 -0

diffusers/pipelines/paint_by_example/pipeline_paint_by_example.py CHANGED Viewed

@@ -266,7 +266,7 @@ class PaintByExamplePipeline(DiffusionPipeline, StableDiffusionMixin):
             and not isinstance(image, list)
         ):
             raise ValueError(
-                "`image` has to be of type `torch.FloatTensor` or `PIL.Image.Image` or `List[PIL.Image.Image]` but is"
+                "`image` has to be of type `torch.Tensor` or `PIL.Image.Image` or `List[PIL.Image.Image]` but is"
                 f" {type(image)}"
             )
@@ -283,7 +283,12 @@ class PaintByExamplePipeline(DiffusionPipeline, StableDiffusionMixin):
     # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.prepare_latents
     def prepare_latents(self, batch_size, num_channels_latents, height, width, dtype, device, generator, latents=None):
-        shape = (batch_size, num_channels_latents, height // self.vae_scale_factor, width // self.vae_scale_factor)
+        shape = (
+            batch_size,
+            num_channels_latents,
+            int(height) // self.vae_scale_factor,
+            int(width) // self.vae_scale_factor,
+        )
         if isinstance(generator, list) and len(generator) != batch_size:
             raise ValueError(
                 f"You have passed a list of generators of length {len(generator)}, but requested an effective batch"
@@ -388,9 +393,9 @@ class PaintByExamplePipeline(DiffusionPipeline, StableDiffusionMixin):
     @torch.no_grad()
     def __call__(
         self,
-        example_image: Union[torch.FloatTensor, PIL.Image.Image],
-        image: Union[torch.FloatTensor, PIL.Image.Image],
-        mask_image: Union[torch.FloatTensor, PIL.Image.Image],
+        example_image: Union[torch.Tensor, PIL.Image.Image],
+        image: Union[torch.Tensor, PIL.Image.Image],
+        mask_image: Union[torch.Tensor, PIL.Image.Image],
         height: Optional[int] = None,
         width: Optional[int] = None,
         num_inference_steps: int = 50,
@@ -399,22 +404,22 @@ class PaintByExamplePipeline(DiffusionPipeline, StableDiffusionMixin):
         num_images_per_prompt: Optional[int] = 1,
         eta: float = 0.0,
         generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
-        latents: Optional[torch.FloatTensor] = None,
+        latents: Optional[torch.Tensor] = None,
         output_type: Optional[str] = "pil",
         return_dict: bool = True,
-        callback: Optional[Callable[[int, int, torch.FloatTensor], None]] = None,
+        callback: Optional[Callable[[int, int, torch.Tensor], None]] = None,
         callback_steps: int = 1,
     ):
         r"""
         The call function to the pipeline for generation.
         Args:
-            example_image (`torch.FloatTensor` or `PIL.Image.Image` or `List[PIL.Image.Image]`):
+            example_image (`torch.Tensor` or `PIL.Image.Image` or `List[PIL.Image.Image]`):
                 An example image to guide image generation.
-            image (`torch.FloatTensor` or `PIL.Image.Image` or `List[PIL.Image.Image]`):
+            image (`torch.Tensor` or `PIL.Image.Image` or `List[PIL.Image.Image]`):
                 `Image` or tensor representing an image batch to be inpainted (parts of the image are masked out with
                 `mask_image` and repainted according to `prompt`).
-            mask_image (`torch.FloatTensor` or `PIL.Image.Image` or `List[PIL.Image.Image]`):
+            mask_image (`torch.Tensor` or `PIL.Image.Image` or `List[PIL.Image.Image]`):
                 `Image` or tensor representing an image batch to mask `image`. White pixels in the mask are repainted,
                 while black pixels are preserved. If `mask_image` is a PIL image, it is converted to a single channel
                 (luminance) before use. If it's a tensor, it should contain one color channel (L) instead of 3, so the
@@ -440,7 +445,7 @@ class PaintByExamplePipeline(DiffusionPipeline, StableDiffusionMixin):
             generator (`torch.Generator` or `List[torch.Generator]`, *optional*):
                 A [`torch.Generator`](https://pytorch.org/docs/stable/generated/torch.Generator.html) to make
                 generation deterministic.
-            latents (`torch.FloatTensor`, *optional*):
+            latents (`torch.Tensor`, *optional*):
                 Pre-generated noisy latents sampled from a Gaussian distribution, to be used as inputs for image
                 generation. Can be used to tweak the same generation with different prompts. If not provided, a latents
                 tensor is generated by sampling using the supplied random `generator`.
@@ -451,7 +456,7 @@ class PaintByExamplePipeline(DiffusionPipeline, StableDiffusionMixin):
                 plain tuple.
             callback (`Callable`, *optional*):
                 A function that calls every `callback_steps` steps during inference. The function is called with the
-                following arguments: `callback(step: int, timestep: int, latents: torch.FloatTensor)`.
+                following arguments: `callback(step: int, timestep: int, latents: torch.Tensor)`.
             callback_steps (`int`, *optional*, defaults to 1):
                 The frequency at which the `callback` function is called. If not specified, the callback is called at
                 every step.

diffusers/pipelines/pia/pipeline_pia.py CHANGED Viewed

@@ -13,18 +13,16 @@
 # limitations under the License.
 import inspect
-import math
 from dataclasses import dataclass
-from typing import Any, Callable, Dict, List, Optional, Tuple, Union
+from typing import Any, Callable, Dict, List, Optional, Union
 import numpy as np
 import PIL
 import torch
-import torch.fft as fft
 from transformers import CLIPImageProcessor, CLIPTextModel, CLIPTokenizer, CLIPVisionModelWithProjection
-from ...image_processor import PipelineImageInput, VaeImageProcessor
-from ...loaders import FromSingleFileMixin, IPAdapterMixin, LoraLoaderMixin, TextualInversionLoaderMixin
+from ...image_processor import PipelineImageInput
+from ...loaders import FromSingleFileMixin, IPAdapterMixin, StableDiffusionLoraLoaderMixin, TextualInversionLoaderMixin
 from ...models import AutoencoderKL, ImageProjection, UNet2DConditionModel, UNetMotionModel
 from ...models.lora import adjust_lora_scale_text_encoder
 from ...models.unets.unet_motion_model import MotionAdapter
@@ -45,6 +43,7 @@ from ...utils import (
     unscale_lora_layers,
 )
 from ...utils.torch_utils import randn_tensor
+from ...video_processor import VideoProcessor
 from ..free_init_utils import FreeInitMixin
 from ..pipeline_utils import DiffusionPipeline, StableDiffusionMixin
@@ -55,21 +54,21 @@ EXAMPLE_DOC_STRING = """
     Examples:
         ```py
         >>> import torch
-        >>> from diffusers import (
-        ...     EulerDiscreteScheduler,
-        ...     MotionAdapter,
-        ...     PIAPipeline,
-        ... )
+        >>> from diffusers import EulerDiscreteScheduler, MotionAdapter, PIAPipeline
         >>> from diffusers.utils import export_to_gif, load_image
-        >>> adapter = MotionAdapter.from_pretrained("../checkpoints/pia-diffusers")
-        >>> pipe = PIAPipeline.from_pretrained("SG161222/Realistic_Vision_V6.0_B1_noVAE", motion_adapter=adapter)
+        >>> adapter = MotionAdapter.from_pretrained("openmmlab/PIA-condition-adapter")
+        >>> pipe = PIAPipeline.from_pretrained(
+        ...     "SG161222/Realistic_Vision_V6.0_B1_noVAE", motion_adapter=adapter, torch_dtype=torch.float16
+        ... )
         >>> pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config)
         >>> image = load_image(
         ...     "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/pix2pix/cat_6.png?download=true"
         ... )
         >>> image = image.resize((512, 512))
         >>> prompt = "cat in a hat"
-        >>> negative_prompt = "wrong white balance, dark, sketches,worst quality,low quality, deformed, distorted, disfigured, bad eyes, wrong lips,weird mouth, bad teeth, mutated hands and fingers, bad anatomy,wrong anatomy, amputation, extra limb, missing limb, floating,limbs, disconnected limbs, mutation, ugly, disgusting, bad_pictures, negative_hand-neg"
+        >>> negative_prompt = "wrong white balance, dark, sketches, worst quality, low quality, deformed, distorted"
         >>> generator = torch.Generator("cpu").manual_seed(0)
         >>> output = pipe(image=image, prompt=prompt, negative_prompt=negative_prompt, generator=generator)
         >>> frames = output.frames[0]
@@ -90,28 +89,6 @@ RANGE_LIST = [
 ]
-# Copied from diffusers.pipelines.animatediff.pipeline_animatediff.tensor2vid
-def tensor2vid(video: torch.Tensor, processor: "VaeImageProcessor", output_type: str = "np"):
-    batch_size, channels, num_frames, height, width = video.shape
-    outputs = []
-    for batch_idx in range(batch_size):
-        batch_vid = video[batch_idx].permute(1, 0, 2, 3)
-        batch_output = processor.postprocess(batch_vid, output_type)
-        outputs.append(batch_output)
-    if output_type == "np":
-        outputs = np.stack(outputs)
-    elif output_type == "pt":
-        outputs = torch.stack(outputs)
-    elif not output_type == "pil":
-        raise ValueError(f"{output_type} does not exist. Please choose one of ['np', 'pt', 'pil']")
-    return outputs
 def prepare_mask_coef_by_statistics(num_frames: int, cond_frame: int, motion_scale: int):
     assert num_frames > 0, "video_length should be greater than 0"
@@ -130,71 +107,6 @@ def prepare_mask_coef_by_statistics(num_frames: int, cond_frame: int, motion_sca
     return coef
-def _get_freeinit_freq_filter(
-    shape: Tuple[int, ...],
-    device: Union[str, torch.dtype],
-    filter_type: str,
-    order: float,
-    spatial_stop_frequency: float,
-    temporal_stop_frequency: float,
-) -> torch.Tensor:
-    r"""Returns the FreeInit filter based on filter type and other input conditions."""
-    time, height, width = shape[-3], shape[-2], shape[-1]
-    mask = torch.zeros(shape)
-    if spatial_stop_frequency == 0 or temporal_stop_frequency == 0:
-        return mask
-    if filter_type == "butterworth":
-        def retrieve_mask(x):
-            return 1 / (1 + (x / spatial_stop_frequency**2) ** order)
-    elif filter_type == "gaussian":
-        def retrieve_mask(x):
-            return math.exp(-1 / (2 * spatial_stop_frequency**2) * x)
-    elif filter_type == "ideal":
-        def retrieve_mask(x):
-            return 1 if x <= spatial_stop_frequency * 2 else 0
-    else:
-        raise NotImplementedError("`filter_type` must be one of gaussian, butterworth or ideal")
-    for t in range(time):
-        for h in range(height):
-            for w in range(width):
-                d_square = (
-                    ((spatial_stop_frequency / temporal_stop_frequency) * (2 * t / time - 1)) ** 2
-                    + (2 * h / height - 1) ** 2
-                    + (2 * w / width - 1) ** 2
-                )
-                mask[..., t, h, w] = retrieve_mask(d_square)
-    return mask.to(device)
-def _freq_mix_3d(x: torch.Tensor, noise: torch.Tensor, LPF: torch.Tensor) -> torch.Tensor:
-    r"""Noise reinitialization."""
-    # FFT
-    x_freq = fft.fftn(x, dim=(-3, -2, -1))
-    x_freq = fft.fftshift(x_freq, dim=(-3, -2, -1))
-    noise_freq = fft.fftn(noise, dim=(-3, -2, -1))
-    noise_freq = fft.fftshift(noise_freq, dim=(-3, -2, -1))
-    # frequency mix
-    HPF = 1 - LPF
-    x_freq_low = x_freq * LPF
-    noise_freq_high = noise_freq * HPF
-    x_freq_mixed = x_freq_low + noise_freq_high  # mix in freq domain
-    # IFFT
-    x_freq_mixed = fft.ifftshift(x_freq_mixed, dim=(-3, -2, -1))
-    x_mixed = fft.ifftn(x_freq_mixed, dim=(-3, -2, -1)).real
-    return x_mixed
 @dataclass
 class PIAPipelineOutput(BaseOutput):
     r"""
@@ -202,9 +114,9 @@ class PIAPipelineOutput(BaseOutput):
     Args:
         frames (`torch.Tensor`, `np.ndarray`, or List[List[PIL.Image.Image]]):
-        Nested list of length `batch_size` with denoised PIL image sequences of length `num_frames`,
-        NumPy array of shape `(batch_size, num_frames, channels, height, width,
-        Torch tensor of shape `(batch_size, num_frames, channels, height, width)`.
+            Nested list of length `batch_size` with denoised PIL image sequences of length `num_frames`, NumPy array of
+            shape `(batch_size, num_frames, channels, height, width, Torch tensor of shape `(batch_size, num_frames,
+            channels, height, width)`.
     """
     frames: Union[torch.Tensor, np.ndarray, List[List[PIL.Image.Image]]]
@@ -215,7 +127,7 @@ class PIAPipeline(
     StableDiffusionMixin,
     TextualInversionLoaderMixin,
     IPAdapterMixin,
-    LoraLoaderMixin,
+    StableDiffusionLoraLoaderMixin,
     FromSingleFileMixin,
     FreeInitMixin,
 ):
@@ -227,8 +139,8 @@ class PIAPipeline(
     The pipeline also inherits the following loading methods:
         - [`~loaders.TextualInversionLoaderMixin.load_textual_inversion`] for loading textual inversion embeddings
-        - [`~loaders.LoraLoaderMixin.load_lora_weights`] for loading LoRA weights
-        - [`~loaders.LoraLoaderMixin.save_lora_weights`] for saving LoRA weights
+        - [`~loaders.StableDiffusionLoraLoaderMixin.load_lora_weights`] for loading LoRA weights
+        - [`~loaders.StableDiffusionLoraLoaderMixin.save_lora_weights`] for saving LoRA weights
         - [`~loaders.IPAdapterMixin.load_ip_adapter`] for loading IP Adapters
     Args:
@@ -284,7 +196,7 @@ class PIAPipeline(
             image_encoder=image_encoder,
         )
         self.vae_scale_factor = 2 ** (len(self.vae.config.block_out_channels) - 1)
-        self.image_processor = VaeImageProcessor(vae_scale_factor=self.vae_scale_factor)
+        self.video_processor = VideoProcessor(do_resize=False, vae_scale_factor=self.vae_scale_factor)
     # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.encode_prompt with num_images_per_prompt -> num_videos_per_prompt
     def encode_prompt(
@@ -294,8 +206,8 @@ class PIAPipeline(
         num_images_per_prompt,
         do_classifier_free_guidance,
         negative_prompt=None,
-        prompt_embeds: Optional[torch.FloatTensor] = None,
-        negative_prompt_embeds: Optional[torch.FloatTensor] = None,
+        prompt_embeds: Optional[torch.Tensor] = None,
+        negative_prompt_embeds: Optional[torch.Tensor] = None,
         lora_scale: Optional[float] = None,
         clip_skip: Optional[int] = None,
     ):
@@ -315,10 +227,10 @@ class PIAPipeline(
                 The prompt or prompts not to guide the image generation. If not defined, one has to pass
                 `negative_prompt_embeds` instead. Ignored when not using guidance (i.e., ignored if `guidance_scale` is
                 less than `1`).
-            prompt_embeds (`torch.FloatTensor`, *optional*):
+            prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt weighting. If not
                 provided, text embeddings will be generated from `prompt` input argument.
-            negative_prompt_embeds (`torch.FloatTensor`, *optional*):
+            negative_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated negative text embeddings. Can be used to easily tweak text inputs, *e.g.* prompt
                 weighting. If not provided, negative_prompt_embeds will be generated from `negative_prompt` input
                 argument.
@@ -330,7 +242,7 @@ class PIAPipeline(
         """
         # set lora scale so that monkey patched LoRA
         # function of text encoder can correctly access it
-        if lora_scale is not None and isinstance(self, LoraLoaderMixin):
+        if lora_scale is not None and isinstance(self, StableDiffusionLoraLoaderMixin):
             self._lora_scale = lora_scale
             # dynamically adjust the LoRA scale
@@ -462,9 +374,10 @@ class PIAPipeline(
             negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
             negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            # Retrieve the original scale by scaling back the LoRA layers
-            unscale_lora_layers(self.text_encoder, lora_scale)
+        if self.text_encoder is not None:
+            if isinstance(self, StableDiffusionLoraLoaderMixin) and USE_PEFT_BACKEND:
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
         return prompt_embeds, negative_prompt_embeds
@@ -591,6 +504,9 @@ class PIAPipeline(
     def prepare_ip_adapter_image_embeds(
         self, ip_adapter_image, ip_adapter_image_embeds, device, num_images_per_prompt, do_classifier_free_guidance
     ):
+        image_embeds = []
+        if do_classifier_free_guidance:
+            negative_image_embeds = []
         if ip_adapter_image_embeds is None:
             if not isinstance(ip_adapter_image, list):
                 ip_adapter_image = [ip_adapter_image]
@@ -600,7 +516,6 @@ class PIAPipeline(
                     f"`ip_adapter_image` must have same length as the number of IP Adapters. Got {len(ip_adapter_image)} images and {len(self.unet.encoder_hid_proj.image_projection_layers)} IP Adapters."
                 )
-            image_embeds = []
             for single_ip_adapter_image, image_proj_layer in zip(
                 ip_adapter_image, self.unet.encoder_hid_proj.image_projection_layers
             ):
@@ -608,36 +523,28 @@ class PIAPipeline(
                 single_image_embeds, single_negative_image_embeds = self.encode_image(
                     single_ip_adapter_image, device, 1, output_hidden_state
                 )
-                single_image_embeds = torch.stack([single_image_embeds] * num_images_per_prompt, dim=0)
-                single_negative_image_embeds = torch.stack(
-                    [single_negative_image_embeds] * num_images_per_prompt, dim=0
-                )
+                image_embeds.append(single_image_embeds[None, :])
                 if do_classifier_free_guidance:
-                    single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds])
-                    single_image_embeds = single_image_embeds.to(device)
-                image_embeds.append(single_image_embeds)
+                    negative_image_embeds.append(single_negative_image_embeds[None, :])
         else:
-            repeat_dims = [1]
-            image_embeds = []
             for single_image_embeds in ip_adapter_image_embeds:
                 if do_classifier_free_guidance:
                     single_negative_image_embeds, single_image_embeds = single_image_embeds.chunk(2)
-                    single_image_embeds = single_image_embeds.repeat(
-                        num_images_per_prompt, *(repeat_dims * len(single_image_embeds.shape[1:]))
-                    )
-                    single_negative_image_embeds = single_negative_image_embeds.repeat(
-                        num_images_per_prompt, *(repeat_dims * len(single_negative_image_embeds.shape[1:]))
-                    )
-                    single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds])
-                else:
-                    single_image_embeds = single_image_embeds.repeat(
-                        num_images_per_prompt, *(repeat_dims * len(single_image_embeds.shape[1:]))
-                    )
+                    negative_image_embeds.append(single_negative_image_embeds)
                 image_embeds.append(single_image_embeds)
-        return image_embeds
+        ip_adapter_image_embeds = []
+        for i, single_image_embeds in enumerate(image_embeds):
+            single_image_embeds = torch.cat([single_image_embeds] * num_images_per_prompt, dim=0)
+            if do_classifier_free_guidance:
+                single_negative_image_embeds = torch.cat([negative_image_embeds[i]] * num_images_per_prompt, dim=0)
+                single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds], dim=0)
+            single_image_embeds = single_image_embeds.to(device=device)
+            ip_adapter_image_embeds.append(single_image_embeds)
+        return ip_adapter_image_embeds
     # Copied from diffusers.pipelines.text_to_video_synthesis.pipeline_text_to_video_synth.TextToVideoSDPipeline.prepare_latents
     def prepare_latents(
@@ -687,7 +594,7 @@ class PIAPipeline(
         )
         _, _, _, scaled_height, scaled_width = shape
-        image = self.image_processor.preprocess(image)
+        image = self.video_processor.preprocess(image)
         image = image.to(device, dtype)
         if isinstance(generator, list):
@@ -767,11 +674,11 @@ class PIAPipeline(
         num_videos_per_prompt: Optional[int] = 1,
         eta: float = 0.0,
         generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
-        latents: Optional[torch.FloatTensor] = None,
-        prompt_embeds: Optional[torch.FloatTensor] = None,
-        negative_prompt_embeds: Optional[torch.FloatTensor] = None,
+        latents: Optional[torch.Tensor] = None,
+        prompt_embeds: Optional[torch.Tensor] = None,
+        negative_prompt_embeds: Optional[torch.Tensor] = None,
         ip_adapter_image: Optional[PipelineImageInput] = None,
-        ip_adapter_image_embeds: Optional[List[torch.FloatTensor]] = None,
+        ip_adapter_image_embeds: Optional[List[torch.Tensor]] = None,
         motion_scale: int = 0,
         output_type: Optional[str] = "pil",
         return_dict: bool = True,
@@ -788,7 +695,8 @@ class PIAPipeline(
                 The input image to be used for video generation.
             prompt (`str` or `List[str]`, *optional*):
                 The prompt or prompts to guide image generation. If not defined, you need to pass `prompt_embeds`.
-            strength (`float`, *optional*, defaults to 1.0): Indicates extent to transform the reference `image`. Must be between 0 and 1.
+            strength (`float`, *optional*, defaults to 1.0):
+                Indicates extent to transform the reference `image`. Must be between 0 and 1.
             height (`int`, *optional*, defaults to `self.unet.config.sample_size * self.vae_scale_factor`):
                 The height in pixels of the generated video.
             width (`int`, *optional*, defaults to `self.unet.config.sample_size * self.vae_scale_factor`):
@@ -811,33 +719,31 @@ class PIAPipeline(
             generator (`torch.Generator` or `List[torch.Generator]`, *optional*):
                 A [`torch.Generator`](https://pytorch.org/docs/stable/generated/torch.Generator.html) to make
                 generation deterministic.
-            latents (`torch.FloatTensor`, *optional*):
+            latents (`torch.Tensor`, *optional*):
                 Pre-generated noisy latents sampled from a Gaussian distribution, to be used as inputs for video
                 generation. Can be used to tweak the same generation with different prompts. If not provided, a latents
                 tensor is generated by sampling using the supplied random `generator`. Latents should be of shape
                 `(batch_size, num_channel, num_frames, height, width)`.
-            prompt_embeds (`torch.FloatTensor`, *optional*):
+            prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated text embeddings. Can be used to easily tweak text inputs (prompt weighting). If not
                 provided, text embeddings are generated from the `prompt` input argument.
-            negative_prompt_embeds (`torch.FloatTensor`, *optional*):
+            negative_prompt_embeds (`torch.Tensor`, *optional*):
                 Pre-generated negative text embeddings. Can be used to easily tweak text inputs (prompt weighting). If
                 not provided, `negative_prompt_embeds` are generated from the `negative_prompt` input argument.
             ip_adapter_image: (`PipelineImageInput`, *optional*):
                 Optional image input to work with IP Adapters.
-            ip_adapter_image_embeds (`List[torch.FloatTensor]`, *optional*):
-                Pre-generated image embeddings for IP-Adapter. It should be a list of length same as number of IP-adapters.
-                Each element should be a tensor of shape `(batch_size, num_images, emb_dim)`. It should contain the negative image embedding
-                if `do_classifier_free_guidance` is set to `True`.
-                If not provided, embeddings are computed from the `ip_adapter_image` input argument.
+            ip_adapter_image_embeds (`List[torch.Tensor]`, *optional*):
+                Pre-generated image embeddings for IP-Adapter. It should be a list of length same as number of
+                IP-adapters. Each element should be a tensor of shape `(batch_size, num_images, emb_dim)`. It should
+                contain the negative image embedding if `do_classifier_free_guidance` is set to `True`. If not
+                provided, embeddings are computed from the `ip_adapter_image` input argument.
             motion_scale: (`int`, *optional*, defaults to 0):
-                Parameter that controls the amount and type of motion that is added to the image. Increasing the value increases the amount of motion, while specific
-                ranges of values control the type of motion that is added. Must be between 0 and 8.
-                Set between 0-2 to only increase the amount of motion.
-                Set between 3-5 to create looping motion.
-                Set between 6-8 to perform motion with image style transfer.
+                Parameter that controls the amount and type of motion that is added to the image. Increasing the value
+                increases the amount of motion, while specific ranges of values control the type of motion that is
+                added. Must be between 0 and 8. Set between 0-2 to only increase the amount of motion. Set between 3-5
+                to create looping motion. Set between 6-8 to perform motion with image style transfer.
             output_type (`str`, *optional*, defaults to `"pil"`):
-                The output format of the generated video. Choose between `torch.FloatTensor`, `PIL.Image` or
-                `np.array`.
+                The output format of the generated video. Choose between `torch.Tensor`, `PIL.Image` or `np.array`.
             return_dict (`bool`, *optional*, defaults to `True`):
                 Whether or not to return a [`~pipelines.text_to_video_synthesis.TextToVideoSDPipelineOutput`] instead
                 of a plain tuple.
@@ -855,14 +761,14 @@ class PIAPipeline(
             callback_on_step_end_tensor_inputs (`List`, *optional*):
                 The list of tensor inputs for the `callback_on_step_end` function. The tensors specified in the list
                 will be passed as `callback_kwargs` argument. You will only be able to include variables listed in the
-                `._callback_tensor_inputs` attribute of your pipeine class.
+                `._callback_tensor_inputs` attribute of your pipeline class.
         Examples:
         Returns:
             [`~pipelines.pia.pipeline_pia.PIAPipelineOutput`] or `tuple`:
-                If `return_dict` is `True`, [`~pipelines.pia.pipeline_pia.PIAPipelineOutput`] is
-                returned, otherwise a `tuple` is returned where the first element is a list with the generated frames.
+                If `return_dict` is `True`, [`~pipelines.pia.pipeline_pia.PIAPipelineOutput`] is returned, otherwise a
+                `tuple` is returned where the first element is a list with the generated frames.
         """
         # 0. Default height and width to unet
         height = height or self.unet.config.sample_size * self.vae_scale_factor
@@ -918,6 +824,8 @@ class PIAPipeline(
         if self.do_classifier_free_guidance:
             prompt_embeds = torch.cat([negative_prompt_embeds, prompt_embeds])
+        prompt_embeds = prompt_embeds.repeat_interleave(repeats=num_frames, dim=0)
         if ip_adapter_image is not None or ip_adapter_image_embeds is not None:
             image_embeds = self.prepare_ip_adapter_image_embeds(
                 ip_adapter_image,
@@ -979,8 +887,10 @@ class PIAPipeline(
                     latents, free_init_iter, num_inference_steps, device, latents.dtype, generator
                 )
+            self._num_timesteps = len(timesteps)
             num_warmup_steps = len(timesteps) - num_inference_steps * self.scheduler.order
-            with self.progress_bar(total=num_inference_steps) as progress_bar:
+            with self.progress_bar(total=self._num_timesteps) as progress_bar:
                 for i, t in enumerate(timesteps):
                     # expand the latents if we are doing classifier free guidance
                     latent_model_input = torch.cat([latents] * 2) if self.do_classifier_free_guidance else latents
@@ -1023,7 +933,7 @@ class PIAPipeline(
             video = latents
         else:
             video_tensor = self.decode_latents(latents)
-            video = tensor2vid(video_tensor, self.image_processor, output_type=output_type)
+            video = self.video_processor.postprocess_video(video=video_tensor, output_type=output_type)
         # 10. Offload all models
         self.maybe_free_model_hooks()

diffusers/pipelines/pipeline_flax_utils.py CHANGED Viewed

@@ -180,7 +180,7 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
         if push_to_hub:
             commit_message = kwargs.pop("commit_message", None)
-            private = kwargs.pop("private", False)
+            private = kwargs.pop("private", None)
             create_pr = kwargs.pop("create_pr", False)
             token = kwargs.pop("token", None)
             repo_id = kwargs.pop("repo_id", save_directory.split(os.path.sep)[-1])
@@ -254,9 +254,7 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
             force_download (`bool`, *optional*, defaults to `False`):
                 Whether or not to force the (re-)download of the model weights and configuration files, overriding the
                 cached versions if they exist.
-            resume_download (`bool`, *optional*, defaults to `False`):
-                Whether or not to resume downloading the model weights and configuration files. If set to `False`, any
-                incompletely downloaded files are deleted.
             proxies (`Dict[str, str]`, *optional*):
                 A dictionary of proxy servers to use by protocol or endpoint, for example, `{'http': 'foo.bar:3128',
                 'http://hostname': 'foo.bar:4012'}`. The proxies are used on each request.
@@ -296,7 +294,7 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
         >>> # see more in [the documentation](https://huggingface.co/docs/hub/security-tokens)
         >>> pipeline, params = FlaxDiffusionPipeline.from_pretrained(
         ...     "runwayml/stable-diffusion-v1-5",
-        ...     revision="bf16",
+        ...     variant="bf16",
         ...     dtype=jnp.bfloat16,
         ... )
@@ -310,13 +308,12 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
         ... )
         >>> dpm_pipe, dpm_params = FlaxStableDiffusionPipeline.from_pretrained(
-        ...     model_id, revision="bf16", dtype=jnp.bfloat16, scheduler=dpmpp
+        ...     model_id, variant="bf16", dtype=jnp.bfloat16, scheduler=dpmpp
         ... )
         >>> dpm_params["scheduler"] = dpmpp_state
         ```
         """
         cache_dir = kwargs.pop("cache_dir", None)
-        resume_download = kwargs.pop("resume_download", False)
         proxies = kwargs.pop("proxies", None)
         local_files_only = kwargs.pop("local_files_only", False)
         token = kwargs.pop("token", None)
@@ -332,7 +329,6 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
             config_dict = cls.load_config(
                 pretrained_model_name_or_path,
                 cache_dir=cache_dir,
-                resume_download=resume_download,
                 proxies=proxies,
                 local_files_only=local_files_only,
                 token=token,
@@ -363,7 +359,6 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
             cached_folder = snapshot_download(
                 pretrained_model_name_or_path,
                 cache_dir=cache_dir,
-                resume_download=resume_download,
                 proxies=proxies,
                 local_files_only=local_files_only,
                 token=token,
@@ -564,7 +559,7 @@ class FlaxDiffusionPipeline(ConfigMixin, PushToHubMixin):
         ... )
         >>> text2img = FlaxStableDiffusionPipeline.from_pretrained(
-        ...     "runwayml/stable-diffusion-v1-5", revision="bf16", dtype=jnp.bfloat16
+        ...     "runwayml/stable-diffusion-v1-5", variant="bf16", dtype=jnp.bfloat16
         ... )
         >>> img2img = FlaxStableDiffusionImg2ImgPipeline(**text2img.components)
         ```

diffusers 0.27.0__py3-none-any.whl → 0.32.2__py3-none-any.whl

diffusers 0.27.0py3-none-any.whl → 0.32.2py3-none-any.whl