PyPI - diffusers - Versions diffs - 0.34.0__py3-none-any.whl → 0.35.1__py3-none-any.whl - Mend

diffusers 0.34.0py3-none-any.whl → 0.35.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (191) hide show

diffusers/__init__.py +98 -1
diffusers/callbacks.py +35 -0
diffusers/commands/custom_blocks.py +134 -0
diffusers/commands/diffusers_cli.py +2 -0
diffusers/commands/fp16_safetensors.py +1 -1
diffusers/configuration_utils.py +11 -2
diffusers/dependency_versions_table.py +3 -3
diffusers/guiders/__init__.py +41 -0
diffusers/guiders/adaptive_projected_guidance.py +188 -0
diffusers/guiders/auto_guidance.py +190 -0
diffusers/guiders/classifier_free_guidance.py +141 -0
diffusers/guiders/classifier_free_zero_star_guidance.py +152 -0
diffusers/guiders/frequency_decoupled_guidance.py +327 -0
diffusers/guiders/guider_utils.py +309 -0
diffusers/guiders/perturbed_attention_guidance.py +271 -0
diffusers/guiders/skip_layer_guidance.py +262 -0
diffusers/guiders/smoothed_energy_guidance.py +251 -0
diffusers/guiders/tangential_classifier_free_guidance.py +143 -0
diffusers/hooks/__init__.py +17 -0
diffusers/hooks/_common.py +56 -0
diffusers/hooks/_helpers.py +293 -0
diffusers/hooks/faster_cache.py +7 -6
diffusers/hooks/first_block_cache.py +259 -0
diffusers/hooks/group_offloading.py +292 -286
diffusers/hooks/hooks.py +56 -1
diffusers/hooks/layer_skip.py +263 -0
diffusers/hooks/layerwise_casting.py +2 -7
diffusers/hooks/pyramid_attention_broadcast.py +14 -11
diffusers/hooks/smoothed_energy_guidance_utils.py +167 -0
diffusers/hooks/utils.py +43 -0
diffusers/loaders/__init__.py +6 -0
diffusers/loaders/ip_adapter.py +255 -4
diffusers/loaders/lora_base.py +63 -30
diffusers/loaders/lora_conversion_utils.py +434 -53
diffusers/loaders/lora_pipeline.py +834 -37
diffusers/loaders/peft.py +28 -5
diffusers/loaders/single_file_model.py +44 -11
diffusers/loaders/single_file_utils.py +170 -2
diffusers/loaders/transformer_flux.py +9 -10
diffusers/loaders/transformer_sd3.py +6 -1
diffusers/loaders/unet.py +22 -5
diffusers/loaders/unet_loader_utils.py +5 -2
diffusers/models/__init__.py +8 -0
diffusers/models/attention.py +484 -3
diffusers/models/attention_dispatch.py +1218 -0
diffusers/models/attention_processor.py +105 -663
diffusers/models/auto_model.py +2 -2
diffusers/models/autoencoders/__init__.py +1 -0
diffusers/models/autoencoders/autoencoder_dc.py +14 -1
diffusers/models/autoencoders/autoencoder_kl.py +1 -1
diffusers/models/autoencoders/autoencoder_kl_cosmos.py +3 -1
diffusers/models/autoencoders/autoencoder_kl_qwenimage.py +1070 -0
diffusers/models/autoencoders/autoencoder_kl_wan.py +370 -40
diffusers/models/cache_utils.py +31 -9
diffusers/models/controlnets/controlnet_flux.py +5 -5
diffusers/models/controlnets/controlnet_union.py +4 -4
diffusers/models/embeddings.py +26 -34
diffusers/models/model_loading_utils.py +233 -1
diffusers/models/modeling_flax_utils.py +1 -2
diffusers/models/modeling_utils.py +159 -94
diffusers/models/transformers/__init__.py +2 -0
diffusers/models/transformers/transformer_chroma.py +16 -117
diffusers/models/transformers/transformer_cogview4.py +36 -2
diffusers/models/transformers/transformer_cosmos.py +11 -4
diffusers/models/transformers/transformer_flux.py +372 -132
diffusers/models/transformers/transformer_hunyuan_video.py +6 -0
diffusers/models/transformers/transformer_ltx.py +104 -23
diffusers/models/transformers/transformer_qwenimage.py +645 -0
diffusers/models/transformers/transformer_skyreels_v2.py +607 -0
diffusers/models/transformers/transformer_wan.py +298 -85
diffusers/models/transformers/transformer_wan_vace.py +15 -21
diffusers/models/unets/unet_2d_condition.py +2 -1
diffusers/modular_pipelines/__init__.py +83 -0
diffusers/modular_pipelines/components_manager.py +1068 -0
diffusers/modular_pipelines/flux/__init__.py +66 -0
diffusers/modular_pipelines/flux/before_denoise.py +689 -0
diffusers/modular_pipelines/flux/decoders.py +109 -0
diffusers/modular_pipelines/flux/denoise.py +227 -0
diffusers/modular_pipelines/flux/encoders.py +412 -0
diffusers/modular_pipelines/flux/modular_blocks.py +181 -0
diffusers/modular_pipelines/flux/modular_pipeline.py +59 -0
diffusers/modular_pipelines/modular_pipeline.py +2446 -0
diffusers/modular_pipelines/modular_pipeline_utils.py +672 -0
diffusers/modular_pipelines/node_utils.py +665 -0
diffusers/modular_pipelines/stable_diffusion_xl/__init__.py +77 -0
diffusers/modular_pipelines/stable_diffusion_xl/before_denoise.py +1874 -0
diffusers/modular_pipelines/stable_diffusion_xl/decoders.py +208 -0
diffusers/modular_pipelines/stable_diffusion_xl/denoise.py +771 -0
diffusers/modular_pipelines/stable_diffusion_xl/encoders.py +887 -0
diffusers/modular_pipelines/stable_diffusion_xl/modular_blocks.py +380 -0
diffusers/modular_pipelines/stable_diffusion_xl/modular_pipeline.py +365 -0
diffusers/modular_pipelines/wan/__init__.py +66 -0
diffusers/modular_pipelines/wan/before_denoise.py +365 -0
diffusers/modular_pipelines/wan/decoders.py +105 -0
diffusers/modular_pipelines/wan/denoise.py +261 -0
diffusers/modular_pipelines/wan/encoders.py +242 -0
diffusers/modular_pipelines/wan/modular_blocks.py +144 -0
diffusers/modular_pipelines/wan/modular_pipeline.py +90 -0
diffusers/pipelines/__init__.py +31 -0
diffusers/pipelines/audioldm2/pipeline_audioldm2.py +2 -3
diffusers/pipelines/auto_pipeline.py +17 -13
diffusers/pipelines/chroma/pipeline_chroma.py +5 -5
diffusers/pipelines/chroma/pipeline_chroma_img2img.py +5 -5
diffusers/pipelines/cogvideo/pipeline_cogvideox.py +9 -8
diffusers/pipelines/cogvideo/pipeline_cogvideox_fun_control.py +9 -8
diffusers/pipelines/cogvideo/pipeline_cogvideox_image2video.py +10 -9
diffusers/pipelines/cogvideo/pipeline_cogvideox_video2video.py +9 -8
diffusers/pipelines/cogview4/pipeline_cogview4.py +16 -15
diffusers/pipelines/controlnet/pipeline_controlnet_blip_diffusion.py +3 -2
diffusers/pipelines/controlnet/pipeline_controlnet_union_inpaint_sd_xl.py +212 -93
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl.py +7 -3
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl_img2img.py +194 -92
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py +1 -1
diffusers/pipelines/dit/pipeline_dit.py +3 -1
diffusers/pipelines/flux/__init__.py +4 -0
diffusers/pipelines/flux/pipeline_flux.py +34 -26
diffusers/pipelines/flux/pipeline_flux_control.py +8 -8
diffusers/pipelines/flux/pipeline_flux_control_img2img.py +1 -1
diffusers/pipelines/flux/pipeline_flux_control_inpaint.py +1 -1
diffusers/pipelines/flux/pipeline_flux_controlnet.py +1 -1
diffusers/pipelines/flux/pipeline_flux_controlnet_image_to_image.py +1 -1
diffusers/pipelines/flux/pipeline_flux_controlnet_inpainting.py +1 -1
diffusers/pipelines/flux/pipeline_flux_fill.py +1 -1
diffusers/pipelines/flux/pipeline_flux_img2img.py +1 -1
diffusers/pipelines/flux/pipeline_flux_inpaint.py +1 -1
diffusers/pipelines/flux/pipeline_flux_kontext.py +1134 -0
diffusers/pipelines/flux/pipeline_flux_kontext_inpaint.py +1460 -0
diffusers/pipelines/flux/pipeline_flux_prior_redux.py +1 -1
diffusers/pipelines/flux/pipeline_output.py +6 -4
diffusers/pipelines/hidream_image/pipeline_hidream_image.py +5 -5
diffusers/pipelines/hunyuan_video/pipeline_hunyuan_video.py +25 -24
diffusers/pipelines/ltx/pipeline_ltx.py +13 -12
diffusers/pipelines/ltx/pipeline_ltx_condition.py +10 -9
diffusers/pipelines/ltx/pipeline_ltx_image2video.py +13 -12
diffusers/pipelines/mochi/pipeline_mochi.py +9 -8
diffusers/pipelines/pipeline_flax_utils.py +2 -2
diffusers/pipelines/pipeline_loading_utils.py +24 -2
diffusers/pipelines/pipeline_utils.py +22 -15
diffusers/pipelines/pixart_alpha/pipeline_pixart_alpha.py +3 -1
diffusers/pipelines/pixart_alpha/pipeline_pixart_sigma.py +20 -0
diffusers/pipelines/qwenimage/__init__.py +55 -0
diffusers/pipelines/qwenimage/pipeline_output.py +21 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage.py +726 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage_edit.py +849 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage_img2img.py +829 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage_inpaint.py +1015 -0
diffusers/pipelines/sana/pipeline_sana_sprint.py +5 -5
diffusers/pipelines/skyreels_v2/__init__.py +59 -0
diffusers/pipelines/skyreels_v2/pipeline_output.py +20 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2.py +610 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_diffusion_forcing.py +978 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_diffusion_forcing_i2v.py +1059 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_diffusion_forcing_v2v.py +1063 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_i2v.py +745 -0
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion.py +2 -1
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion_inpaint.py +1 -1
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion_upscale.py +1 -1
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py +2 -1
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py +6 -5
diffusers/pipelines/wan/pipeline_wan.py +78 -20
diffusers/pipelines/wan/pipeline_wan_i2v.py +112 -32
diffusers/pipelines/wan/pipeline_wan_vace.py +1 -2
diffusers/quantizers/__init__.py +1 -177
diffusers/quantizers/base.py +11 -0
diffusers/quantizers/gguf/utils.py +92 -3
diffusers/quantizers/pipe_quant_config.py +202 -0
diffusers/quantizers/torchao/torchao_quantizer.py +26 -0
diffusers/schedulers/scheduling_deis_multistep.py +8 -1
diffusers/schedulers/scheduling_dpmsolver_multistep.py +6 -0
diffusers/schedulers/scheduling_dpmsolver_singlestep.py +6 -0
diffusers/schedulers/scheduling_scm.py +0 -1
diffusers/schedulers/scheduling_unipc_multistep.py +10 -1
diffusers/schedulers/scheduling_utils.py +2 -2
diffusers/schedulers/scheduling_utils_flax.py +1 -1
diffusers/training_utils.py +78 -0
diffusers/utils/__init__.py +10 -0
diffusers/utils/constants.py +4 -0
diffusers/utils/dummy_pt_objects.py +312 -0
diffusers/utils/dummy_torch_and_transformers_objects.py +255 -0
diffusers/utils/dynamic_modules_utils.py +84 -25
diffusers/utils/hub_utils.py +33 -17
diffusers/utils/import_utils.py +70 -0
diffusers/utils/peft_utils.py +11 -8
diffusers/utils/testing_utils.py +136 -10
diffusers/utils/torch_utils.py +18 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/METADATA +6 -6
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/RECORD +191 -127
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/LICENSE +0 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/WHEEL +0 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/entry_points.txt +0 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/top_level.txt +0 -0

diffusers/modular_pipelines/wan/modular_pipeline.py ADDED Viewed

@@ -0,0 +1,90 @@
+# Copyright 2025 The HuggingFace Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from ...loaders import WanLoraLoaderMixin
+from ...pipelines.pipeline_utils import StableDiffusionMixin
+from ...utils import logging
+from ..modular_pipeline import ModularPipeline
+logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
+class WanModularPipeline(
+    ModularPipeline,
+    StableDiffusionMixin,
+    WanLoraLoaderMixin,
+):
+    """
+    A ModularPipeline for Wan.
+    <Tip warning={true}>
+        This is an experimental feature and is likely to change in the future.
+    </Tip>
+    """
+    @property
+    def default_height(self):
+        return self.default_sample_height * self.vae_scale_factor_spatial
+    @property
+    def default_width(self):
+        return self.default_sample_width * self.vae_scale_factor_spatial
+    @property
+    def default_num_frames(self):
+        return (self.default_sample_num_frames - 1) * self.vae_scale_factor_temporal + 1
+    @property
+    def default_sample_height(self):
+        return 60
+    @property
+    def default_sample_width(self):
+        return 104
+    @property
+    def default_sample_num_frames(self):
+        return 21
+    @property
+    def vae_scale_factor_spatial(self):
+        vae_scale_factor = 8
+        if hasattr(self, "vae") and self.vae is not None:
+            vae_scale_factor = 2 ** len(self.vae.temperal_downsample)
+        return vae_scale_factor
+    @property
+    def vae_scale_factor_temporal(self):
+        vae_scale_factor = 4
+        if hasattr(self, "vae") and self.vae is not None:
+            vae_scale_factor = 2 ** sum(self.vae.temperal_downsample)
+        return vae_scale_factor
+    @property
+    def num_channels_transformer(self):
+        num_channels_transformer = 16
+        if hasattr(self, "transformer") and self.transformer is not None:
+            num_channels_transformer = self.transformer.config.in_channels
+        return num_channels_transformer
+    @property
+    def num_channels_latents(self):
+        num_channels_latents = 16
+        if hasattr(self, "vae") and self.vae is not None:
+            num_channels_latents = self.vae.config.z_dim
+        return num_channels_latents

diffusers/pipelines/__init__.py CHANGED Viewed

@@ -140,6 +140,8 @@ else:
         "FluxFillPipeline",
         "FluxPriorReduxPipeline",
         "ReduxImageEncoder",
+        "FluxKontextPipeline",
+        "FluxKontextInpaintPipeline",
     ]
     _import_structure["audioldm"] = ["AudioLDMPipeline"]
     _import_structure["audioldm2"] = [
@@ -378,6 +380,19 @@ else:
         "WuerstchenPriorPipeline",
     ]
     _import_structure["wan"] = ["WanPipeline", "WanImageToVideoPipeline", "WanVideoToVideoPipeline", "WanVACEPipeline"]
+    _import_structure["skyreels_v2"] = [
+        "SkyReelsV2DiffusionForcingPipeline",
+        "SkyReelsV2DiffusionForcingImageToVideoPipeline",
+        "SkyReelsV2DiffusionForcingVideoToVideoPipeline",
+        "SkyReelsV2ImageToVideoPipeline",
+        "SkyReelsV2Pipeline",
+    ]
+    _import_structure["qwenimage"] = [
+        "QwenImagePipeline",
+        "QwenImageImg2ImgPipeline",
+        "QwenImageInpaintPipeline",
+        "QwenImageEditPipeline",
+    ]
 try:
     if not is_onnx_available():
         raise OptionalDependencyNotAvailable()
@@ -609,6 +624,8 @@ if TYPE_CHECKING or DIFFUSERS_SLOW_IMPORT:
             FluxFillPipeline,
             FluxImg2ImgPipeline,
             FluxInpaintPipeline,
+            FluxKontextInpaintPipeline,
+            FluxKontextPipeline,
             FluxPipeline,
             FluxPriorReduxPipeline,
             ReduxImageEncoder,
@@ -692,6 +709,12 @@ if TYPE_CHECKING or DIFFUSERS_SLOW_IMPORT:
         from .paint_by_example import PaintByExamplePipeline
         from .pia import PIAPipeline
         from .pixart_alpha import PixArtAlphaPipeline, PixArtSigmaPipeline
+        from .qwenimage import (
+            QwenImageEditPipeline,
+            QwenImageImg2ImgPipeline,
+            QwenImageInpaintPipeline,
+            QwenImagePipeline,
+        )
         from .sana import SanaControlNetPipeline, SanaPipeline, SanaSprintImg2ImgPipeline, SanaSprintPipeline
         from .semantic_stable_diffusion import SemanticStableDiffusionPipeline
         from .shap_e import ShapEImg2ImgPipeline, ShapEPipeline
@@ -847,6 +870,14 @@ if TYPE_CHECKING or DIFFUSERS_SLOW_IMPORT:
                 SpectrogramDiffusionPipeline,
             )
+        from .skyreels_v2 import (
+            SkyReelsV2DiffusionForcingImageToVideoPipeline,
+            SkyReelsV2DiffusionForcingPipeline,
+            SkyReelsV2DiffusionForcingVideoToVideoPipeline,
+            SkyReelsV2ImageToVideoPipeline,
+            SkyReelsV2Pipeline,
+        )
 else:
     import sys

diffusers/pipelines/audioldm2/pipeline_audioldm2.py CHANGED Viewed

@@ -312,15 +312,14 @@ class AudioLDM2Pipeline(DiffusionPipeline):
                 The sequence of generated hidden-states.
         """
         cache_position_kwargs = {}
-        if is_transformers_version("<", "4.52.0.dev0"):
+        if is_transformers_version("<", "4.52.1"):
             cache_position_kwargs["input_ids"] = inputs_embeds
-            cache_position_kwargs["model_kwargs"] = model_kwargs
         else:
             cache_position_kwargs["seq_length"] = inputs_embeds.shape[0]
             cache_position_kwargs["device"] = (
                 self.language_model.device if getattr(self, "language_model", None) is not None else self.device
             )
-            cache_position_kwargs["model_kwargs"] = model_kwargs
+        cache_position_kwargs["model_kwargs"] = model_kwargs
         max_new_tokens = max_new_tokens if max_new_tokens is not None else self.language_model.config.max_new_tokens
         model_kwargs = self.language_model._get_initial_cache_position(**cache_position_kwargs)

diffusers/pipelines/auto_pipeline.py CHANGED Viewed

@@ -49,6 +49,7 @@ from .flux import (
     FluxControlPipeline,
     FluxImg2ImgPipeline,
     FluxInpaintPipeline,
+    FluxKontextPipeline,
     FluxPipeline,
 )
 from .hunyuandit import HunyuanDiTPipeline
@@ -142,6 +143,7 @@ AUTO_TEXT2IMAGE_PIPELINES_MAPPING = OrderedDict(
         ("flux", FluxPipeline),
         ("flux-control", FluxControlPipeline),
         ("flux-controlnet", FluxControlNetPipeline),
+        ("flux-kontext", FluxKontextPipeline),
         ("lumina", LuminaPipeline),
         ("lumina2", Lumina2Pipeline),
         ("chroma", ChromaPipeline),
@@ -171,6 +173,7 @@ AUTO_IMAGE2IMAGE_PIPELINES_MAPPING = OrderedDict(
         ("flux", FluxImg2ImgPipeline),
         ("flux-controlnet", FluxControlNetImg2ImgPipeline),
         ("flux-control", FluxControlImg2ImgPipeline),
+        ("flux-kontext", FluxKontextPipeline),
     ]
 )
@@ -248,14 +251,15 @@ def _get_connected_pipeline(pipeline_cls):
         return _get_task_class(AUTO_INPAINT_PIPELINES_MAPPING, pipeline_cls.__name__, throw_error_if_not_exist=False)
-def _get_task_class(mapping, pipeline_class_name, throw_error_if_not_exist: bool = True):
-    def get_model(pipeline_class_name):
-        for task_mapping in SUPPORTED_TASKS_MAPPINGS:
-            for model_name, pipeline in task_mapping.items():
-                if pipeline.__name__ == pipeline_class_name:
-                    return model_name
+def _get_model(pipeline_class_name):
+    for task_mapping in SUPPORTED_TASKS_MAPPINGS:
+        for model_name, pipeline in task_mapping.items():
+            if pipeline.__name__ == pipeline_class_name:
+                return model_name
-    model_name = get_model(pipeline_class_name)
+def _get_task_class(mapping, pipeline_class_name, throw_error_if_not_exist: bool = True):
+    model_name = _get_model(pipeline_class_name)
     if model_name is not None:
         task_class = mapping.get(model_name, None)
@@ -391,8 +395,8 @@ class AutoPipelineForText2Image(ConfigMixin):
         <Tip>
-        To use private or [gated](https://huggingface.co/docs/hub/models-gated#gated-models) models, log-in with
-        `huggingface-cli login`.
+        To use private or [gated](https://huggingface.co/docs/hub/models-gated#gated-models) models, log-in with `hf
+        auth login`.
         </Tip>
@@ -686,8 +690,8 @@ class AutoPipelineForImage2Image(ConfigMixin):
         <Tip>
-        To use private or [gated](https://huggingface.co/docs/hub/models-gated#gated-models) models, log-in with
-        `huggingface-cli login`.
+        To use private or [gated](https://huggingface.co/docs/hub/models-gated#gated-models) models, log-in with `hf
+        auth login`.
         </Tip>
@@ -996,8 +1000,8 @@ class AutoPipelineForInpainting(ConfigMixin):
         <Tip>
-        To use private or [gated](https://huggingface.co/docs/hub/models-gated#gated-models) models, log-in with
-        `huggingface-cli login`.
+        To use private or [gated](https://huggingface.co/docs/hub/models-gated#gated-models) models, log-in with `hf
+        auth login`.
         </Tip>

diffusers/pipelines/chroma/pipeline_chroma.py CHANGED Viewed

@@ -663,11 +663,11 @@ class ChromaPipeline(
                 their `set_timesteps` method. If not defined, the default behavior when `num_inference_steps` is passed
                 will be used.
             guidance_scale (`float`, *optional*, defaults to 3.5):
-                Guidance scale as defined in [Classifier-Free Diffusion Guidance](https://arxiv.org/abs/2207.12598).
-                `guidance_scale` is defined as `w` of equation 2. of [Imagen
-                Paper](https://arxiv.org/pdf/2205.11487.pdf). Guidance scale is enabled by setting `guidance_scale >
-                1`. Higher guidance scale encourages to generate images that are closely linked to the text `prompt`,
-                usually at the expense of lower image quality.
+                Embedded guiddance scale is enabled by setting `guidance_scale` > 1. Higher `guidance_scale` encourages
+                a model to generate images more aligned with `prompt` at the expense of lower image quality.
+                Guidance-distilled models approximates true classifer-free guidance for `guidance_scale` > 1. Refer to
+                the [paper](https://huggingface.co/papers/2210.03142) to learn more.
             num_images_per_prompt (`int`, *optional*, defaults to 1):
                 The number of images to generate per prompt.
             generator (`torch.Generator` or `List[torch.Generator]`, *optional*):

diffusers/pipelines/chroma/pipeline_chroma_img2img.py CHANGED Viewed

@@ -725,11 +725,11 @@ class ChromaImg2ImgPipeline(
                 their `set_timesteps` method. If not defined, the default behavior when `num_inference_steps` is passed
                 will be used.
             guidance_scale (`float`, *optional*, defaults to 5.0):
-                Guidance scale as defined in [Classifier-Free Diffusion Guidance](https://arxiv.org/abs/2207.12598).
-                `guidance_scale` is defined as `w` of equation 2. of [Imagen
-                Paper](https://arxiv.org/pdf/2205.11487.pdf). Guidance scale is enabled by setting `guidance_scale >
-                1`. Higher guidance scale encourages to generate images that are closely linked to the text `prompt`,
-                usually at the expense of lower image quality.
+                Embedded guiddance scale is enabled by setting `guidance_scale` > 1. Higher `guidance_scale` encourages
+                a model to generate images more aligned with `prompt` at the expense of lower image quality.
+                Guidance-distilled models approximates true classifer-free guidance for `guidance_scale` > 1. Refer to
+                the [paper](https://huggingface.co/papers/2210.03142) to learn more.
             strength (`float, *optional*, defaults to 0.9):
                 Conceptually, indicates how much to transform the reference image. Must be between 0 and 1. image will
                 be used as a starting point, adding more noise to it the larger the strength. The number of denoising

diffusers/pipelines/cogvideo/pipeline_cogvideox.py CHANGED Viewed

@@ -718,14 +718,15 @@ class CogVideoXPipeline(DiffusionPipeline, CogVideoXLoraLoaderMixin):
                 timestep = t.expand(latent_model_input.shape[0])
                 # predict noise model_output
-                noise_pred = self.transformer(
-                    hidden_states=latent_model_input,
-                    encoder_hidden_states=prompt_embeds,
-                    timestep=timestep,
-                    image_rotary_emb=image_rotary_emb,
-                    attention_kwargs=attention_kwargs,
-                    return_dict=False,
-                )[0]
+                with self.transformer.cache_context("cond_uncond"):
+                    noise_pred = self.transformer(
+                        hidden_states=latent_model_input,
+                        encoder_hidden_states=prompt_embeds,
+                        timestep=timestep,
+                        image_rotary_emb=image_rotary_emb,
+                        attention_kwargs=attention_kwargs,
+                        return_dict=False,
+                    )[0]
                 noise_pred = noise_pred.float()
                 # perform guidance

diffusers/pipelines/cogvideo/pipeline_cogvideox_fun_control.py CHANGED Viewed

@@ -784,14 +784,15 @@ class CogVideoXFunControlPipeline(DiffusionPipeline, CogVideoXLoraLoaderMixin):
                 timestep = t.expand(latent_model_input.shape[0])
                 # predict noise model_output
-                noise_pred = self.transformer(
-                    hidden_states=latent_model_input,
-                    encoder_hidden_states=prompt_embeds,
-                    timestep=timestep,
-                    image_rotary_emb=image_rotary_emb,
-                    attention_kwargs=attention_kwargs,
-                    return_dict=False,
-                )[0]
+                with self.transformer.cache_context("cond_uncond"):
+                    noise_pred = self.transformer(
+                        hidden_states=latent_model_input,
+                        encoder_hidden_states=prompt_embeds,
+                        timestep=timestep,
+                        image_rotary_emb=image_rotary_emb,
+                        attention_kwargs=attention_kwargs,
+                        return_dict=False,
+                    )[0]
                 noise_pred = noise_pred.float()
                 # perform guidance

diffusers/pipelines/cogvideo/pipeline_cogvideox_image2video.py CHANGED Viewed

@@ -831,15 +831,16 @@ class CogVideoXImageToVideoPipeline(DiffusionPipeline, CogVideoXLoraLoaderMixin)
                 timestep = t.expand(latent_model_input.shape[0])
                 # predict noise model_output
-                noise_pred = self.transformer(
-                    hidden_states=latent_model_input,
-                    encoder_hidden_states=prompt_embeds,
-                    timestep=timestep,
-                    ofs=ofs_emb,
-                    image_rotary_emb=image_rotary_emb,
-                    attention_kwargs=attention_kwargs,
-                    return_dict=False,
-                )[0]
+                with self.transformer.cache_context("cond_uncond"):
+                    noise_pred = self.transformer(
+                        hidden_states=latent_model_input,
+                        encoder_hidden_states=prompt_embeds,
+                        timestep=timestep,
+                        ofs=ofs_emb,
+                        image_rotary_emb=image_rotary_emb,
+                        attention_kwargs=attention_kwargs,
+                        return_dict=False,
+                    )[0]
                 noise_pred = noise_pred.float()
                 # perform guidance

diffusers/pipelines/cogvideo/pipeline_cogvideox_video2video.py CHANGED Viewed

@@ -799,14 +799,15 @@ class CogVideoXVideoToVideoPipeline(DiffusionPipeline, CogVideoXLoraLoaderMixin)
                 timestep = t.expand(latent_model_input.shape[0])
                 # predict noise model_output
-                noise_pred = self.transformer(
-                    hidden_states=latent_model_input,
-                    encoder_hidden_states=prompt_embeds,
-                    timestep=timestep,
-                    image_rotary_emb=image_rotary_emb,
-                    attention_kwargs=attention_kwargs,
-                    return_dict=False,
-                )[0]
+                with self.transformer.cache_context("cond_uncond"):
+                    noise_pred = self.transformer(
+                        hidden_states=latent_model_input,
+                        encoder_hidden_states=prompt_embeds,
+                        timestep=timestep,
+                        image_rotary_emb=image_rotary_emb,
+                        attention_kwargs=attention_kwargs,
+                        return_dict=False,
+                    )[0]
                 noise_pred = noise_pred.float()
                 # perform guidance

diffusers/pipelines/cogview4/pipeline_cogview4.py CHANGED Viewed

@@ -619,22 +619,10 @@ class CogView4Pipeline(DiffusionPipeline, CogView4LoraLoaderMixin):
                 # broadcast to batch dimension in a way that's compatible with ONNX/Core ML
                 timestep = t.expand(latents.shape[0])
-                noise_pred_cond = self.transformer(
-                    hidden_states=latent_model_input,
-                    encoder_hidden_states=prompt_embeds,
-                    timestep=timestep,
-                    original_size=original_size,
-                    target_size=target_size,
-                    crop_coords=crops_coords_top_left,
-                    attention_kwargs=attention_kwargs,
-                    return_dict=False,
-                )[0]
-                # perform guidance
-                if self.do_classifier_free_guidance:
-                    noise_pred_uncond = self.transformer(
+                with self.transformer.cache_context("cond"):
+                    noise_pred_cond = self.transformer(
                         hidden_states=latent_model_input,
-                        encoder_hidden_states=negative_prompt_embeds,
+                        encoder_hidden_states=prompt_embeds,
                         timestep=timestep,
                         original_size=original_size,
                         target_size=target_size,
@@ -643,6 +631,19 @@ class CogView4Pipeline(DiffusionPipeline, CogView4LoraLoaderMixin):
                         return_dict=False,
                     )[0]
+                # perform guidance
+                if self.do_classifier_free_guidance:
+                    with self.transformer.cache_context("uncond"):
+                        noise_pred_uncond = self.transformer(
+                            hidden_states=latent_model_input,
+                            encoder_hidden_states=negative_prompt_embeds,
+                            timestep=timestep,
+                            original_size=original_size,
+                            target_size=target_size,
+                            crop_coords=crops_coords_top_left,
+                            attention_kwargs=attention_kwargs,
+                            return_dict=False,
+                        )[0]
                     noise_pred = noise_pred_uncond + self.guidance_scale * (noise_pred_cond - noise_pred_uncond)
                 else:
                     noise_pred = noise_pred_cond

diffusers/pipelines/controlnet/pipeline_controlnet_blip_diffusion.py CHANGED Viewed

@@ -29,7 +29,7 @@ from ...utils.torch_utils import randn_tensor
 from ..blip_diffusion.blip_image_processing import BlipImageProcessor
 from ..blip_diffusion.modeling_blip2 import Blip2QFormerModel
 from ..blip_diffusion.modeling_ctx_clip import ContextCLIPTextModel
-from ..pipeline_utils import DiffusionPipeline, ImagePipelineOutput
+from ..pipeline_utils import DeprecatedPipelineMixin, DiffusionPipeline, ImagePipelineOutput
 if is_torch_xla_available():
@@ -88,7 +88,7 @@ EXAMPLE_DOC_STRING = """
 """
-class BlipDiffusionControlNetPipeline(DiffusionPipeline):
+class BlipDiffusionControlNetPipeline(DeprecatedPipelineMixin, DiffusionPipeline):
     """
     Pipeline for Canny Edge based Controlled subject-driven generation using Blip Diffusion.
@@ -116,6 +116,7 @@ class BlipDiffusionControlNetPipeline(DiffusionPipeline):
             Position of the context token in the text encoder.
     """
+    _last_supported_version = "0.33.1"
     model_cpu_offload_seq = "qformer->text_encoder->unet->vae"
     def __init__(

diffusers 0.34.0__py3-none-any.whl → 0.35.1__py3-none-any.whl

diffusers 0.34.0py3-none-any.whl → 0.35.1py3-none-any.whl