PyPI - diffusers - Versions diffs - 0.34.0__py3-none-any.whl → 0.35.1__py3-none-any.whl - Mend

diffusers 0.34.0py3-none-any.whl → 0.35.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (191) hide show

diffusers/__init__.py +98 -1
diffusers/callbacks.py +35 -0
diffusers/commands/custom_blocks.py +134 -0
diffusers/commands/diffusers_cli.py +2 -0
diffusers/commands/fp16_safetensors.py +1 -1
diffusers/configuration_utils.py +11 -2
diffusers/dependency_versions_table.py +3 -3
diffusers/guiders/__init__.py +41 -0
diffusers/guiders/adaptive_projected_guidance.py +188 -0
diffusers/guiders/auto_guidance.py +190 -0
diffusers/guiders/classifier_free_guidance.py +141 -0
diffusers/guiders/classifier_free_zero_star_guidance.py +152 -0
diffusers/guiders/frequency_decoupled_guidance.py +327 -0
diffusers/guiders/guider_utils.py +309 -0
diffusers/guiders/perturbed_attention_guidance.py +271 -0
diffusers/guiders/skip_layer_guidance.py +262 -0
diffusers/guiders/smoothed_energy_guidance.py +251 -0
diffusers/guiders/tangential_classifier_free_guidance.py +143 -0
diffusers/hooks/__init__.py +17 -0
diffusers/hooks/_common.py +56 -0
diffusers/hooks/_helpers.py +293 -0
diffusers/hooks/faster_cache.py +7 -6
diffusers/hooks/first_block_cache.py +259 -0
diffusers/hooks/group_offloading.py +292 -286
diffusers/hooks/hooks.py +56 -1
diffusers/hooks/layer_skip.py +263 -0
diffusers/hooks/layerwise_casting.py +2 -7
diffusers/hooks/pyramid_attention_broadcast.py +14 -11
diffusers/hooks/smoothed_energy_guidance_utils.py +167 -0
diffusers/hooks/utils.py +43 -0
diffusers/loaders/__init__.py +6 -0
diffusers/loaders/ip_adapter.py +255 -4
diffusers/loaders/lora_base.py +63 -30
diffusers/loaders/lora_conversion_utils.py +434 -53
diffusers/loaders/lora_pipeline.py +834 -37
diffusers/loaders/peft.py +28 -5
diffusers/loaders/single_file_model.py +44 -11
diffusers/loaders/single_file_utils.py +170 -2
diffusers/loaders/transformer_flux.py +9 -10
diffusers/loaders/transformer_sd3.py +6 -1
diffusers/loaders/unet.py +22 -5
diffusers/loaders/unet_loader_utils.py +5 -2
diffusers/models/__init__.py +8 -0
diffusers/models/attention.py +484 -3
diffusers/models/attention_dispatch.py +1218 -0
diffusers/models/attention_processor.py +105 -663
diffusers/models/auto_model.py +2 -2
diffusers/models/autoencoders/__init__.py +1 -0
diffusers/models/autoencoders/autoencoder_dc.py +14 -1
diffusers/models/autoencoders/autoencoder_kl.py +1 -1
diffusers/models/autoencoders/autoencoder_kl_cosmos.py +3 -1
diffusers/models/autoencoders/autoencoder_kl_qwenimage.py +1070 -0
diffusers/models/autoencoders/autoencoder_kl_wan.py +370 -40
diffusers/models/cache_utils.py +31 -9
diffusers/models/controlnets/controlnet_flux.py +5 -5
diffusers/models/controlnets/controlnet_union.py +4 -4
diffusers/models/embeddings.py +26 -34
diffusers/models/model_loading_utils.py +233 -1
diffusers/models/modeling_flax_utils.py +1 -2
diffusers/models/modeling_utils.py +159 -94
diffusers/models/transformers/__init__.py +2 -0
diffusers/models/transformers/transformer_chroma.py +16 -117
diffusers/models/transformers/transformer_cogview4.py +36 -2
diffusers/models/transformers/transformer_cosmos.py +11 -4
diffusers/models/transformers/transformer_flux.py +372 -132
diffusers/models/transformers/transformer_hunyuan_video.py +6 -0
diffusers/models/transformers/transformer_ltx.py +104 -23
diffusers/models/transformers/transformer_qwenimage.py +645 -0
diffusers/models/transformers/transformer_skyreels_v2.py +607 -0
diffusers/models/transformers/transformer_wan.py +298 -85
diffusers/models/transformers/transformer_wan_vace.py +15 -21
diffusers/models/unets/unet_2d_condition.py +2 -1
diffusers/modular_pipelines/__init__.py +83 -0
diffusers/modular_pipelines/components_manager.py +1068 -0
diffusers/modular_pipelines/flux/__init__.py +66 -0
diffusers/modular_pipelines/flux/before_denoise.py +689 -0
diffusers/modular_pipelines/flux/decoders.py +109 -0
diffusers/modular_pipelines/flux/denoise.py +227 -0
diffusers/modular_pipelines/flux/encoders.py +412 -0
diffusers/modular_pipelines/flux/modular_blocks.py +181 -0
diffusers/modular_pipelines/flux/modular_pipeline.py +59 -0
diffusers/modular_pipelines/modular_pipeline.py +2446 -0
diffusers/modular_pipelines/modular_pipeline_utils.py +672 -0
diffusers/modular_pipelines/node_utils.py +665 -0
diffusers/modular_pipelines/stable_diffusion_xl/__init__.py +77 -0
diffusers/modular_pipelines/stable_diffusion_xl/before_denoise.py +1874 -0
diffusers/modular_pipelines/stable_diffusion_xl/decoders.py +208 -0
diffusers/modular_pipelines/stable_diffusion_xl/denoise.py +771 -0
diffusers/modular_pipelines/stable_diffusion_xl/encoders.py +887 -0
diffusers/modular_pipelines/stable_diffusion_xl/modular_blocks.py +380 -0
diffusers/modular_pipelines/stable_diffusion_xl/modular_pipeline.py +365 -0
diffusers/modular_pipelines/wan/__init__.py +66 -0
diffusers/modular_pipelines/wan/before_denoise.py +365 -0
diffusers/modular_pipelines/wan/decoders.py +105 -0
diffusers/modular_pipelines/wan/denoise.py +261 -0
diffusers/modular_pipelines/wan/encoders.py +242 -0
diffusers/modular_pipelines/wan/modular_blocks.py +144 -0
diffusers/modular_pipelines/wan/modular_pipeline.py +90 -0
diffusers/pipelines/__init__.py +31 -0
diffusers/pipelines/audioldm2/pipeline_audioldm2.py +2 -3
diffusers/pipelines/auto_pipeline.py +17 -13
diffusers/pipelines/chroma/pipeline_chroma.py +5 -5
diffusers/pipelines/chroma/pipeline_chroma_img2img.py +5 -5
diffusers/pipelines/cogvideo/pipeline_cogvideox.py +9 -8
diffusers/pipelines/cogvideo/pipeline_cogvideox_fun_control.py +9 -8
diffusers/pipelines/cogvideo/pipeline_cogvideox_image2video.py +10 -9
diffusers/pipelines/cogvideo/pipeline_cogvideox_video2video.py +9 -8
diffusers/pipelines/cogview4/pipeline_cogview4.py +16 -15
diffusers/pipelines/controlnet/pipeline_controlnet_blip_diffusion.py +3 -2
diffusers/pipelines/controlnet/pipeline_controlnet_union_inpaint_sd_xl.py +212 -93
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl.py +7 -3
diffusers/pipelines/controlnet/pipeline_controlnet_union_sd_xl_img2img.py +194 -92
diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py +1 -1
diffusers/pipelines/dit/pipeline_dit.py +3 -1
diffusers/pipelines/flux/__init__.py +4 -0
diffusers/pipelines/flux/pipeline_flux.py +34 -26
diffusers/pipelines/flux/pipeline_flux_control.py +8 -8
diffusers/pipelines/flux/pipeline_flux_control_img2img.py +1 -1
diffusers/pipelines/flux/pipeline_flux_control_inpaint.py +1 -1
diffusers/pipelines/flux/pipeline_flux_controlnet.py +1 -1
diffusers/pipelines/flux/pipeline_flux_controlnet_image_to_image.py +1 -1
diffusers/pipelines/flux/pipeline_flux_controlnet_inpainting.py +1 -1
diffusers/pipelines/flux/pipeline_flux_fill.py +1 -1
diffusers/pipelines/flux/pipeline_flux_img2img.py +1 -1
diffusers/pipelines/flux/pipeline_flux_inpaint.py +1 -1
diffusers/pipelines/flux/pipeline_flux_kontext.py +1134 -0
diffusers/pipelines/flux/pipeline_flux_kontext_inpaint.py +1460 -0
diffusers/pipelines/flux/pipeline_flux_prior_redux.py +1 -1
diffusers/pipelines/flux/pipeline_output.py +6 -4
diffusers/pipelines/hidream_image/pipeline_hidream_image.py +5 -5
diffusers/pipelines/hunyuan_video/pipeline_hunyuan_video.py +25 -24
diffusers/pipelines/ltx/pipeline_ltx.py +13 -12
diffusers/pipelines/ltx/pipeline_ltx_condition.py +10 -9
diffusers/pipelines/ltx/pipeline_ltx_image2video.py +13 -12
diffusers/pipelines/mochi/pipeline_mochi.py +9 -8
diffusers/pipelines/pipeline_flax_utils.py +2 -2
diffusers/pipelines/pipeline_loading_utils.py +24 -2
diffusers/pipelines/pipeline_utils.py +22 -15
diffusers/pipelines/pixart_alpha/pipeline_pixart_alpha.py +3 -1
diffusers/pipelines/pixart_alpha/pipeline_pixart_sigma.py +20 -0
diffusers/pipelines/qwenimage/__init__.py +55 -0
diffusers/pipelines/qwenimage/pipeline_output.py +21 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage.py +726 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage_edit.py +849 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage_img2img.py +829 -0
diffusers/pipelines/qwenimage/pipeline_qwenimage_inpaint.py +1015 -0
diffusers/pipelines/sana/pipeline_sana_sprint.py +5 -5
diffusers/pipelines/skyreels_v2/__init__.py +59 -0
diffusers/pipelines/skyreels_v2/pipeline_output.py +20 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2.py +610 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_diffusion_forcing.py +978 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_diffusion_forcing_i2v.py +1059 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_diffusion_forcing_v2v.py +1063 -0
diffusers/pipelines/skyreels_v2/pipeline_skyreels_v2_i2v.py +745 -0
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion.py +2 -1
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion_inpaint.py +1 -1
diffusers/pipelines/stable_diffusion/pipeline_onnx_stable_diffusion_upscale.py +1 -1
diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py +2 -1
diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py +6 -5
diffusers/pipelines/wan/pipeline_wan.py +78 -20
diffusers/pipelines/wan/pipeline_wan_i2v.py +112 -32
diffusers/pipelines/wan/pipeline_wan_vace.py +1 -2
diffusers/quantizers/__init__.py +1 -177
diffusers/quantizers/base.py +11 -0
diffusers/quantizers/gguf/utils.py +92 -3
diffusers/quantizers/pipe_quant_config.py +202 -0
diffusers/quantizers/torchao/torchao_quantizer.py +26 -0
diffusers/schedulers/scheduling_deis_multistep.py +8 -1
diffusers/schedulers/scheduling_dpmsolver_multistep.py +6 -0
diffusers/schedulers/scheduling_dpmsolver_singlestep.py +6 -0
diffusers/schedulers/scheduling_scm.py +0 -1
diffusers/schedulers/scheduling_unipc_multistep.py +10 -1
diffusers/schedulers/scheduling_utils.py +2 -2
diffusers/schedulers/scheduling_utils_flax.py +1 -1
diffusers/training_utils.py +78 -0
diffusers/utils/__init__.py +10 -0
diffusers/utils/constants.py +4 -0
diffusers/utils/dummy_pt_objects.py +312 -0
diffusers/utils/dummy_torch_and_transformers_objects.py +255 -0
diffusers/utils/dynamic_modules_utils.py +84 -25
diffusers/utils/hub_utils.py +33 -17
diffusers/utils/import_utils.py +70 -0
diffusers/utils/peft_utils.py +11 -8
diffusers/utils/testing_utils.py +136 -10
diffusers/utils/torch_utils.py +18 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/METADATA +6 -6
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/RECORD +191 -127
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/LICENSE +0 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/WHEEL +0 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/entry_points.txt +0 -0
{diffusers-0.34.0.dist-info → diffusers-0.35.1.dist-info}/top_level.txt +0 -0

diffusers/loaders/peft.py CHANGED Viewed

@@ -61,6 +61,7 @@ _SET_ADAPTER_SCALE_FN_MAPPING = {
     "HunyuanVideoFramepackTransformer3DModel": lambda model_cls, weights: weights,
     "WanVACETransformer3DModel": lambda model_cls, weights: weights,
     "ChromaTransformer2DModel": lambda model_cls, weights: weights,
+    "QwenImageTransformer2DModel": lambda model_cls, weights: weights,
 }
@@ -163,6 +164,8 @@ class PeftAdapterMixin:
         from peft import inject_adapter_in_model, set_peft_model_state_dict
         from peft.tuners.tuners_utils import BaseTunerLayer
+        from ..hooks.group_offloading import _maybe_remove_and_reapply_group_offloading
         cache_dir = kwargs.pop("cache_dir", None)
         force_download = kwargs.pop("force_download", False)
         proxies = kwargs.pop("proxies", None)
@@ -243,20 +246,29 @@ class PeftAdapterMixin:
                     k.removeprefix(f"{prefix}."): v for k, v in network_alphas.items() if k in alpha_keys
                 }
-            # create LoraConfig
-            lora_config = _create_lora_config(state_dict, network_alphas, metadata, rank)
             # adapter_name
             if adapter_name is None:
                 adapter_name = get_adapter_name(self)
+            # create LoraConfig
+            lora_config = _create_lora_config(
+                state_dict,
+                network_alphas,
+                metadata,
+                rank,
+                model_state_dict=self.state_dict(),
+                adapter_name=adapter_name,
+            )
             # <Unsafe code
             # We can be sure that the following works as it just sets attention processors, lora layers and puts all in the same dtype
             # Now we remove any existing hooks to `_pipeline`.
             # In case the pipeline has been already offloaded to CPU - temporarily remove the hooks
             # otherwise loading LoRA weights will lead to an error.
-            is_model_cpu_offload, is_sequential_cpu_offload = self._optionally_disable_offloading(_pipeline)
+            is_model_cpu_offload, is_sequential_cpu_offload, is_group_offload = self._optionally_disable_offloading(
+                _pipeline
+            )
             peft_kwargs = {}
             if is_peft_version(">=", "0.13.1"):
                 peft_kwargs["low_cpu_mem_usage"] = low_cpu_mem_usage
@@ -308,7 +320,9 @@ class PeftAdapterMixin:
                     # it to None
                     incompatible_keys = None
                 else:
-                    inject_adapter_in_model(lora_config, self, adapter_name=adapter_name, **peft_kwargs)
+                    inject_adapter_in_model(
+                        lora_config, self, adapter_name=adapter_name, state_dict=state_dict, **peft_kwargs
+                    )
                     incompatible_keys = set_peft_model_state_dict(self, state_dict, adapter_name, **peft_kwargs)
                     if self._prepare_lora_hotswap_kwargs is not None:
@@ -347,6 +361,10 @@ class PeftAdapterMixin:
                 _pipeline.enable_model_cpu_offload()
             elif is_sequential_cpu_offload:
                 _pipeline.enable_sequential_cpu_offload()
+            elif is_group_offload:
+                for component in _pipeline.components.values():
+                    if isinstance(component, torch.nn.Module):
+                        _maybe_remove_and_reapply_group_offloading(component)
             # Unsafe code />
         if prefix is not None and not state_dict:
@@ -681,11 +699,16 @@ class PeftAdapterMixin:
         if not USE_PEFT_BACKEND:
             raise ValueError("PEFT backend is required for `unload_lora()`.")
+        from ..hooks.group_offloading import _maybe_remove_and_reapply_group_offloading
         from ..utils import recurse_remove_peft_layers
         recurse_remove_peft_layers(self)
         if hasattr(self, "peft_config"):
             del self.peft_config
+        if hasattr(self, "_hf_peft_config_loaded"):
+            self._hf_peft_config_loaded = None
+        _maybe_remove_and_reapply_group_offloading(self)
     def disable_lora(self):
         """

diffusers/loaders/single_file_model.py CHANGED Viewed

@@ -23,7 +23,8 @@ from typing_extensions import Self
 from .. import __version__
 from ..quantizers import DiffusersAutoQuantizer
-from ..utils import deprecate, is_accelerate_available, logging
+from ..utils import deprecate, is_accelerate_available, is_torch_version, logging
+from ..utils.torch_utils import empty_device_cache
 from .single_file_utils import (
     SingleFileComponentError,
     convert_animatediff_checkpoint_to_diffusers,
@@ -31,6 +32,7 @@ from .single_file_utils import (
     convert_autoencoder_dc_checkpoint_to_diffusers,
     convert_chroma_transformer_checkpoint_to_diffusers,
     convert_controlnet_checkpoint,
+    convert_cosmos_transformer_checkpoint_to_diffusers,
     convert_flux_transformer_checkpoint_to_diffusers,
     convert_hidream_transformer_to_diffusers,
     convert_hunyuan_video_transformer_to_diffusers,
@@ -60,8 +62,12 @@ logger = logging.get_logger(__name__)
 if is_accelerate_available():
     from accelerate import dispatch_model, init_empty_weights
-    from ..models.modeling_utils import load_model_dict_into_meta
+    from ..models.model_loading_utils import load_model_dict_into_meta
+if is_torch_version(">=", "1.9.0") and is_accelerate_available():
+    _LOW_CPU_MEM_USAGE_DEFAULT = True
+else:
+    _LOW_CPU_MEM_USAGE_DEFAULT = False
 SINGLE_FILE_LOADABLE_CLASSES = {
     "StableCascadeUNet": {
@@ -135,6 +141,10 @@ SINGLE_FILE_LOADABLE_CLASSES = {
         "checkpoint_mapping_fn": convert_wan_transformer_to_diffusers,
         "default_subfolder": "transformer",
     },
+    "WanVACETransformer3DModel": {
+        "checkpoint_mapping_fn": convert_wan_transformer_to_diffusers,
+        "default_subfolder": "transformer",
+    },
     "AutoencoderKLWan": {
         "checkpoint_mapping_fn": convert_wan_vae_to_diffusers,
         "default_subfolder": "vae",
@@ -143,9 +153,21 @@ SINGLE_FILE_LOADABLE_CLASSES = {
         "checkpoint_mapping_fn": convert_hidream_transformer_to_diffusers,
         "default_subfolder": "transformer",
     },
+    "CosmosTransformer3DModel": {
+        "checkpoint_mapping_fn": convert_cosmos_transformer_checkpoint_to_diffusers,
+        "default_subfolder": "transformer",
+    },
+    "QwenImageTransformer2DModel": {
+        "checkpoint_mapping_fn": lambda x: x,
+        "default_subfolder": "transformer",
+    },
 }
+def _should_convert_state_dict_to_diffusers(model_state_dict, checkpoint_state_dict):
+    return not set(model_state_dict.keys()).issubset(set(checkpoint_state_dict.keys()))
 def _get_single_file_loadable_mapping_class(cls):
     diffusers_module = importlib.import_module(__name__.split(".")[0])
     for loadable_class_str in SINGLE_FILE_LOADABLE_CLASSES:
@@ -218,6 +240,11 @@ class FromOriginalModelMixin:
             revision (`str`, *optional*, defaults to `"main"`):
                 The specific model version to use. It can be a branch name, a tag name, a commit id, or any identifier
                 allowed by Git.
+            low_cpu_mem_usage (`bool`, *optional*, defaults to `True` if torch version >= 1.9.0 and
+                is_accelerate_available() else `False`): Speed up model loading only loading the pretrained weights and
+                not initializing the weights. This also tries to not use more than 1x model size in CPU memory
+                (including peak memory) while loading the model. Only supported for PyTorch >= 1.9.0. If you are using
+                an older version of PyTorch, setting this argument to `True` will raise an error.
             disable_mmap ('bool', *optional*, defaults to 'False'):
                 Whether to disable mmap when loading a Safetensors model. This option can perform better when the model
                 is on a network mount or hard drive, which may not handle the seeky-ness of mmap very well.
@@ -267,6 +294,7 @@ class FromOriginalModelMixin:
         config_revision = kwargs.pop("config_revision", None)
         torch_dtype = kwargs.pop("torch_dtype", None)
         quantization_config = kwargs.pop("quantization_config", None)
+        low_cpu_mem_usage = kwargs.pop("low_cpu_mem_usage", _LOW_CPU_MEM_USAGE_DEFAULT)
         device = kwargs.pop("device", None)
         disable_mmap = kwargs.pop("disable_mmap", False)
@@ -371,19 +399,23 @@ class FromOriginalModelMixin:
             model_kwargs = {k: kwargs.get(k) for k in kwargs if k in expected_kwargs or k in optional_kwargs}
             diffusers_model_config.update(model_kwargs)
+        ctx = init_empty_weights if low_cpu_mem_usage else nullcontext
+        with ctx():
+            model = cls.from_config(diffusers_model_config)
         checkpoint_mapping_kwargs = _get_mapping_function_kwargs(checkpoint_mapping_fn, **kwargs)
-        diffusers_format_checkpoint = checkpoint_mapping_fn(
-            config=diffusers_model_config, checkpoint=checkpoint, **checkpoint_mapping_kwargs
-        )
+        if _should_convert_state_dict_to_diffusers(model.state_dict(), checkpoint):
+            diffusers_format_checkpoint = checkpoint_mapping_fn(
+                config=diffusers_model_config, checkpoint=checkpoint, **checkpoint_mapping_kwargs
+            )
+        else:
+            diffusers_format_checkpoint = checkpoint
         if not diffusers_format_checkpoint:
             raise SingleFileComponentError(
                 f"Failed to load {mapping_class_name}. Weights for this component appear to be missing in the checkpoint."
             )
-        ctx = init_empty_weights if is_accelerate_available() else nullcontext
-        with ctx():
-            model = cls.from_config(diffusers_model_config)
         # Check if `_keep_in_fp32_modules` is not None
         use_keep_in_fp32_modules = (cls._keep_in_fp32_modules is not None) and (
             (torch_dtype == torch.float16) or hasattr(hf_quantizer, "use_keep_in_fp32_modules")
@@ -405,7 +437,7 @@ class FromOriginalModelMixin:
             )
         device_map = None
-        if is_accelerate_available():
+        if low_cpu_mem_usage:
             param_device = torch.device(device) if device else torch.device("cpu")
             empty_state_dict = model.state_dict()
             unexpected_keys = [
@@ -421,6 +453,7 @@ class FromOriginalModelMixin:
                 keep_in_fp32_modules=keep_in_fp32_modules,
                 unexpected_keys=unexpected_keys,
             )
+            empty_device_cache()
         else:
             _, unexpected_keys = model.load_state_dict(diffusers_format_checkpoint, strict=False)

diffusers/loaders/single_file_utils.py CHANGED Viewed

@@ -46,6 +46,7 @@ from ..utils import (
 )
 from ..utils.constants import DIFFUSERS_REQUEST_TIMEOUT
 from ..utils.hub_utils import _get_model_file
+from ..utils.torch_utils import empty_device_cache
 if is_transformers_available():
@@ -54,11 +55,12 @@ if is_transformers_available():
 if is_accelerate_available():
     from accelerate import init_empty_weights
-    from ..models.modeling_utils import load_model_dict_into_meta
+    from ..models.model_loading_utils import load_model_dict_into_meta
 logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
 CHECKPOINT_KEY_NAMES = {
+    "v1": "model.diffusion_model.output_blocks.11.0.skip_connection.weight",
     "v2": "model.diffusion_model.input_blocks.2.1.transformer_blocks.0.attn2.to_k.weight",
     "xl_base": "conditioner.embedders.1.model.transformer.resblocks.9.mlp.c_proj.bias",
     "xl_refiner": "conditioner.embedders.0.model.transformer.resblocks.9.mlp.c_proj.bias",
@@ -126,7 +128,18 @@ CHECKPOINT_KEY_NAMES = {
     ],
     "wan": ["model.diffusion_model.head.modulation", "head.modulation"],
     "wan_vae": "decoder.middle.0.residual.0.gamma",
+    "wan_vace": "vace_blocks.0.after_proj.bias",
     "hidream": "double_stream_blocks.0.block.adaLN_modulation.1.bias",
+    "cosmos-1.0": [
+        "net.x_embedder.proj.1.weight",
+        "net.blocks.block1.blocks.0.block.attn.to_q.0.weight",
+        "net.extra_pos_embedder.pos_emb_h",
+    ],
+    "cosmos-2.0": [
+        "net.x_embedder.proj.1.weight",
+        "net.blocks.0.self_attn.q_proj.weight",
+        "net.pos_embedder.dim_spatial_range",
+    ],
 }
 DIFFUSERS_DEFAULT_PIPELINE_PATHS = {
@@ -192,7 +205,17 @@ DIFFUSERS_DEFAULT_PIPELINE_PATHS = {
     "wan-t2v-1.3B": {"pretrained_model_name_or_path": "Wan-AI/Wan2.1-T2V-1.3B-Diffusers"},
     "wan-t2v-14B": {"pretrained_model_name_or_path": "Wan-AI/Wan2.1-T2V-14B-Diffusers"},
     "wan-i2v-14B": {"pretrained_model_name_or_path": "Wan-AI/Wan2.1-I2V-14B-480P-Diffusers"},
+    "wan-vace-1.3B": {"pretrained_model_name_or_path": "Wan-AI/Wan2.1-VACE-1.3B-diffusers"},
+    "wan-vace-14B": {"pretrained_model_name_or_path": "Wan-AI/Wan2.1-VACE-14B-diffusers"},
     "hidream": {"pretrained_model_name_or_path": "HiDream-ai/HiDream-I1-Dev"},
+    "cosmos-1.0-t2w-7B": {"pretrained_model_name_or_path": "nvidia/Cosmos-1.0-Diffusion-7B-Text2World"},
+    "cosmos-1.0-t2w-14B": {"pretrained_model_name_or_path": "nvidia/Cosmos-1.0-Diffusion-14B-Text2World"},
+    "cosmos-1.0-v2w-7B": {"pretrained_model_name_or_path": "nvidia/Cosmos-1.0-Diffusion-7B-Video2World"},
+    "cosmos-1.0-v2w-14B": {"pretrained_model_name_or_path": "nvidia/Cosmos-1.0-Diffusion-14B-Video2World"},
+    "cosmos-2.0-t2i-2B": {"pretrained_model_name_or_path": "nvidia/Cosmos-Predict2-2B-Text2Image"},
+    "cosmos-2.0-t2i-14B": {"pretrained_model_name_or_path": "nvidia/Cosmos-Predict2-14B-Text2Image"},
+    "cosmos-2.0-v2w-2B": {"pretrained_model_name_or_path": "nvidia/Cosmos-Predict2-2B-Video2World"},
+    "cosmos-2.0-v2w-14B": {"pretrained_model_name_or_path": "nvidia/Cosmos-Predict2-14B-Video2World"},
 }
 # Use to configure model sample size when original config is provided
@@ -698,17 +721,44 @@ def infer_diffusers_model_type(checkpoint):
         else:
             target_key = "patch_embedding.weight"
-        if checkpoint[target_key].shape[0] == 1536:
+        if CHECKPOINT_KEY_NAMES["wan_vace"] in checkpoint:
+            if checkpoint[target_key].shape[0] == 1536:
+                model_type = "wan-vace-1.3B"
+            elif checkpoint[target_key].shape[0] == 5120:
+                model_type = "wan-vace-14B"
+        elif checkpoint[target_key].shape[0] == 1536:
             model_type = "wan-t2v-1.3B"
         elif checkpoint[target_key].shape[0] == 5120 and checkpoint[target_key].shape[1] == 16:
             model_type = "wan-t2v-14B"
         else:
             model_type = "wan-i2v-14B"
     elif CHECKPOINT_KEY_NAMES["wan_vae"] in checkpoint:
         # All Wan models use the same VAE so we can use the same default model repo to fetch the config
         model_type = "wan-t2v-14B"
     elif CHECKPOINT_KEY_NAMES["hidream"] in checkpoint:
         model_type = "hidream"
+    elif all(key in checkpoint for key in CHECKPOINT_KEY_NAMES["cosmos-1.0"]):
+        x_embedder_shape = checkpoint[CHECKPOINT_KEY_NAMES["cosmos-1.0"][0]].shape
+        if x_embedder_shape[1] == 68:
+            model_type = "cosmos-1.0-t2w-7B" if x_embedder_shape[0] == 4096 else "cosmos-1.0-t2w-14B"
+        elif x_embedder_shape[1] == 72:
+            model_type = "cosmos-1.0-v2w-7B" if x_embedder_shape[0] == 4096 else "cosmos-1.0-v2w-14B"
+        else:
+            raise ValueError(f"Unexpected x_embedder shape: {x_embedder_shape} when loading Cosmos 1.0 model.")
+    elif all(key in checkpoint for key in CHECKPOINT_KEY_NAMES["cosmos-2.0"]):
+        x_embedder_shape = checkpoint[CHECKPOINT_KEY_NAMES["cosmos-2.0"][0]].shape
+        if x_embedder_shape[1] == 68:
+            model_type = "cosmos-2.0-t2i-2B" if x_embedder_shape[0] == 2048 else "cosmos-2.0-t2i-14B"
+        elif x_embedder_shape[1] == 72:
+            model_type = "cosmos-2.0-v2w-2B" if x_embedder_shape[0] == 2048 else "cosmos-2.0-v2w-14B"
+        else:
+            raise ValueError(f"Unexpected x_embedder shape: {x_embedder_shape} when loading Cosmos 2.0 model.")
     else:
         model_type = "v1"
@@ -1641,6 +1691,7 @@ def create_diffusers_clip_model_from_ldm(
     if is_accelerate_available():
         load_model_dict_into_meta(model, diffusers_format_checkpoint, dtype=torch_dtype)
+        empty_device_cache()
     else:
         model.load_state_dict(diffusers_format_checkpoint, strict=False)
@@ -2100,6 +2151,7 @@ def create_diffusers_t5_model_from_checkpoint(
     if is_accelerate_available():
         load_model_dict_into_meta(model, diffusers_format_checkpoint, dtype=torch_dtype)
+        empty_device_cache()
     else:
         model.load_state_dict(diffusers_format_checkpoint)
@@ -3093,6 +3145,9 @@ def convert_wan_transformer_to_diffusers(checkpoint, **kwargs):
         "img_emb.proj.1": "condition_embedder.image_embedder.ff.net.0.proj",
         "img_emb.proj.3": "condition_embedder.image_embedder.ff.net.2",
         "img_emb.proj.4": "condition_embedder.image_embedder.norm2",
+        # For the VACE model
+        "before_proj": "proj_in",
+        "after_proj": "proj_out",
     }
     for key in list(checkpoint.keys()):
@@ -3479,3 +3534,116 @@ def convert_chroma_transformer_checkpoint_to_diffusers(checkpoint, **kwargs):
     converted_state_dict["proj_out.bias"] = checkpoint.pop("final_layer.linear.bias")
     return converted_state_dict
+def convert_cosmos_transformer_checkpoint_to_diffusers(checkpoint, **kwargs):
+    converted_state_dict = {key: checkpoint.pop(key) for key in list(checkpoint.keys())}
+    def remove_keys_(key: str, state_dict):
+        state_dict.pop(key)
+    def rename_transformer_blocks_(key: str, state_dict):
+        block_index = int(key.split(".")[1].removeprefix("block"))
+        new_key = key
+        old_prefix = f"blocks.block{block_index}"
+        new_prefix = f"transformer_blocks.{block_index}"
+        new_key = new_prefix + new_key.removeprefix(old_prefix)
+        state_dict[new_key] = state_dict.pop(key)
+    TRANSFORMER_KEYS_RENAME_DICT_COSMOS_1_0 = {
+        "t_embedder.1": "time_embed.t_embedder",
+        "affline_norm": "time_embed.norm",
+        ".blocks.0.block.attn": ".attn1",
+        ".blocks.1.block.attn": ".attn2",
+        ".blocks.2.block": ".ff",
+        ".blocks.0.adaLN_modulation.1": ".norm1.linear_1",
+        ".blocks.0.adaLN_modulation.2": ".norm1.linear_2",
+        ".blocks.1.adaLN_modulation.1": ".norm2.linear_1",
+        ".blocks.1.adaLN_modulation.2": ".norm2.linear_2",
+        ".blocks.2.adaLN_modulation.1": ".norm3.linear_1",
+        ".blocks.2.adaLN_modulation.2": ".norm3.linear_2",
+        "to_q.0": "to_q",
+        "to_q.1": "norm_q",
+        "to_k.0": "to_k",
+        "to_k.1": "norm_k",
+        "to_v.0": "to_v",
+        "layer1": "net.0.proj",
+        "layer2": "net.2",
+        "proj.1": "proj",
+        "x_embedder": "patch_embed",
+        "extra_pos_embedder": "learnable_pos_embed",
+        "final_layer.adaLN_modulation.1": "norm_out.linear_1",
+        "final_layer.adaLN_modulation.2": "norm_out.linear_2",
+        "final_layer.linear": "proj_out",
+    }
+    TRANSFORMER_SPECIAL_KEYS_REMAP_COSMOS_1_0 = {
+        "blocks.block": rename_transformer_blocks_,
+        "logvar.0.freqs": remove_keys_,
+        "logvar.0.phases": remove_keys_,
+        "logvar.1.weight": remove_keys_,
+        "pos_embedder.seq": remove_keys_,
+    }
+    TRANSFORMER_KEYS_RENAME_DICT_COSMOS_2_0 = {
+        "t_embedder.1": "time_embed.t_embedder",
+        "t_embedding_norm": "time_embed.norm",
+        "blocks": "transformer_blocks",
+        "adaln_modulation_self_attn.1": "norm1.linear_1",
+        "adaln_modulation_self_attn.2": "norm1.linear_2",
+        "adaln_modulation_cross_attn.1": "norm2.linear_1",
+        "adaln_modulation_cross_attn.2": "norm2.linear_2",
+        "adaln_modulation_mlp.1": "norm3.linear_1",
+        "adaln_modulation_mlp.2": "norm3.linear_2",
+        "self_attn": "attn1",
+        "cross_attn": "attn2",
+        "q_proj": "to_q",
+        "k_proj": "to_k",
+        "v_proj": "to_v",
+        "output_proj": "to_out.0",
+        "q_norm": "norm_q",
+        "k_norm": "norm_k",
+        "mlp.layer1": "ff.net.0.proj",
+        "mlp.layer2": "ff.net.2",
+        "x_embedder.proj.1": "patch_embed.proj",
+        "final_layer.adaln_modulation.1": "norm_out.linear_1",
+        "final_layer.adaln_modulation.2": "norm_out.linear_2",
+        "final_layer.linear": "proj_out",
+    }
+    TRANSFORMER_SPECIAL_KEYS_REMAP_COSMOS_2_0 = {
+        "accum_video_sample_counter": remove_keys_,
+        "accum_image_sample_counter": remove_keys_,
+        "accum_iteration": remove_keys_,
+        "accum_train_in_hours": remove_keys_,
+        "pos_embedder.seq": remove_keys_,
+        "pos_embedder.dim_spatial_range": remove_keys_,
+        "pos_embedder.dim_temporal_range": remove_keys_,
+        "_extra_state": remove_keys_,
+    }
+    PREFIX_KEY = "net."
+    if "net.blocks.block1.blocks.0.block.attn.to_q.0.weight" in checkpoint:
+        TRANSFORMER_KEYS_RENAME_DICT = TRANSFORMER_KEYS_RENAME_DICT_COSMOS_1_0
+        TRANSFORMER_SPECIAL_KEYS_REMAP = TRANSFORMER_SPECIAL_KEYS_REMAP_COSMOS_1_0
+    else:
+        TRANSFORMER_KEYS_RENAME_DICT = TRANSFORMER_KEYS_RENAME_DICT_COSMOS_2_0
+        TRANSFORMER_SPECIAL_KEYS_REMAP = TRANSFORMER_SPECIAL_KEYS_REMAP_COSMOS_2_0
+    state_dict_keys = list(converted_state_dict.keys())
+    for key in state_dict_keys:
+        new_key = key[:]
+        if new_key.startswith(PREFIX_KEY):
+            new_key = new_key.removeprefix(PREFIX_KEY)
+        for replace_key, rename_key in TRANSFORMER_KEYS_RENAME_DICT.items():
+            new_key = new_key.replace(replace_key, rename_key)
+        converted_state_dict[new_key] = converted_state_dict.pop(key)
+    state_dict_keys = list(converted_state_dict.keys())
+    for key in state_dict_keys:
+        for special_key, handler_fn_inplace in TRANSFORMER_SPECIAL_KEYS_REMAP.items():
+            if special_key not in key:
+                continue
+            handler_fn_inplace(key, converted_state_dict)
+    return converted_state_dict

diffusers/loaders/transformer_flux.py CHANGED Viewed

@@ -17,12 +17,10 @@ from ..models.embeddings import (
     ImageProjection,
     MultiIPAdapterImageProjection,
 )
-from ..models.modeling_utils import _LOW_CPU_MEM_USAGE_DEFAULT, load_model_dict_into_meta
-from ..utils import (
-    is_accelerate_available,
-    is_torch_version,
-    logging,
-)
+from ..models.model_loading_utils import load_model_dict_into_meta
+from ..models.modeling_utils import _LOW_CPU_MEM_USAGE_DEFAULT
+from ..utils import is_accelerate_available, is_torch_version, logging
+from ..utils.torch_utils import empty_device_cache
 if is_accelerate_available():
@@ -84,13 +82,12 @@ class FluxTransformer2DLoadersMixin:
         else:
             device_map = {"": self.device}
             load_model_dict_into_meta(image_projection, updated_state_dict, device_map=device_map, dtype=self.dtype)
+            empty_device_cache()
         return image_projection
     def _convert_ip_adapter_attn_to_diffusers(self, state_dicts, low_cpu_mem_usage=_LOW_CPU_MEM_USAGE_DEFAULT):
-        from ..models.attention_processor import (
-            FluxIPAdapterJointAttnProcessor2_0,
-        )
+        from ..models.transformers.transformer_flux import FluxIPAdapterAttnProcessor
         if low_cpu_mem_usage:
             if is_accelerate_available():
@@ -122,7 +119,7 @@ class FluxTransformer2DLoadersMixin:
             else:
                 cross_attention_dim = self.config.joint_attention_dim
                 hidden_size = self.inner_dim
-                attn_processor_class = FluxIPAdapterJointAttnProcessor2_0
+                attn_processor_class = FluxIPAdapterAttnProcessor
                 num_image_text_embeds = []
                 for state_dict in state_dicts:
                     if "proj.weight" in state_dict["image_proj"]:
@@ -158,6 +155,8 @@ class FluxTransformer2DLoadersMixin:
                 key_id += 1
+        empty_device_cache()
         return attn_procs
     def _load_ip_adapter_weights(self, state_dicts, low_cpu_mem_usage=_LOW_CPU_MEM_USAGE_DEFAULT):

diffusers/loaders/transformer_sd3.py CHANGED Viewed

@@ -16,8 +16,10 @@ from typing import Dict
 from ..models.attention_processor import SD3IPAdapterJointAttnProcessor2_0
 from ..models.embeddings import IPAdapterTimeImageProjection
-from ..models.modeling_utils import _LOW_CPU_MEM_USAGE_DEFAULT, load_model_dict_into_meta
+from ..models.model_loading_utils import load_model_dict_into_meta
+from ..models.modeling_utils import _LOW_CPU_MEM_USAGE_DEFAULT
 from ..utils import is_accelerate_available, is_torch_version, logging
+from ..utils.torch_utils import empty_device_cache
 logger = logging.get_logger(__name__)
@@ -80,6 +82,8 @@ class SD3Transformer2DLoadersMixin:
                     attn_procs[name], layer_state_dict[idx], device_map=device_map, dtype=self.dtype
                 )
+        empty_device_cache()
         return attn_procs
     def _convert_ip_adapter_image_proj_to_diffusers(
@@ -147,6 +151,7 @@ class SD3Transformer2DLoadersMixin:
         else:
             device_map = {"": self.device}
             load_model_dict_into_meta(image_proj, updated_state_dict, device_map=device_map, dtype=self.dtype)
+            empty_device_cache()
         return image_proj

diffusers/loaders/unet.py CHANGED Viewed

@@ -30,7 +30,8 @@ from ..models.embeddings import (
     IPAdapterPlusImageProjection,
     MultiIPAdapterImageProjection,
 )
-from ..models.modeling_utils import _LOW_CPU_MEM_USAGE_DEFAULT, load_model_dict_into_meta, load_state_dict
+from ..models.model_loading_utils import load_model_dict_into_meta
+from ..models.modeling_utils import _LOW_CPU_MEM_USAGE_DEFAULT, load_state_dict
 from ..utils import (
     USE_PEFT_BACKEND,
     _get_model_file,
@@ -43,6 +44,7 @@ from ..utils import (
     is_torch_version,
     logging,
 )
+from ..utils.torch_utils import empty_device_cache
 from .lora_base import _func_optionally_disable_offloading
 from .lora_pipeline import LORA_WEIGHT_NAME, LORA_WEIGHT_NAME_SAFE, TEXT_ENCODER_NAME, UNET_NAME
 from .utils import AttnProcsLayers
@@ -131,6 +133,8 @@ class UNet2DConditionLoadersMixin:
         )
         ```
         """
+        from ..hooks.group_offloading import _maybe_remove_and_reapply_group_offloading
         cache_dir = kwargs.pop("cache_dir", None)
         force_download = kwargs.pop("force_download", False)
         proxies = kwargs.pop("proxies", None)
@@ -203,6 +207,7 @@ class UNet2DConditionLoadersMixin:
         is_lora = all(("lora" in k or k.endswith(".alpha")) for k in state_dict.keys())
         is_model_cpu_offload = False
         is_sequential_cpu_offload = False
+        is_group_offload = False
         if is_lora:
             deprecation_message = "Using the `load_attn_procs()` method has been deprecated and will be removed in a future version. Please use `load_lora_adapter()`."
@@ -211,7 +216,7 @@ class UNet2DConditionLoadersMixin:
         if is_custom_diffusion:
             attn_processors = self._process_custom_diffusion(state_dict=state_dict)
         elif is_lora:
-            is_model_cpu_offload, is_sequential_cpu_offload = self._process_lora(
+            is_model_cpu_offload, is_sequential_cpu_offload, is_group_offload = self._process_lora(
                 state_dict=state_dict,
                 unet_identifier_key=self.unet_name,
                 network_alphas=network_alphas,
@@ -230,7 +235,9 @@ class UNet2DConditionLoadersMixin:
         # For LoRA, the UNet is already offloaded at this stage as it is handled inside `_process_lora`.
         if is_custom_diffusion and _pipeline is not None:
-            is_model_cpu_offload, is_sequential_cpu_offload = self._optionally_disable_offloading(_pipeline=_pipeline)
+            is_model_cpu_offload, is_sequential_cpu_offload, is_group_offload = self._optionally_disable_offloading(
+                _pipeline=_pipeline
+            )
             # only custom diffusion needs to set attn processors
             self.set_attn_processor(attn_processors)
@@ -241,6 +248,10 @@ class UNet2DConditionLoadersMixin:
             _pipeline.enable_model_cpu_offload()
         elif is_sequential_cpu_offload:
             _pipeline.enable_sequential_cpu_offload()
+        elif is_group_offload:
+            for component in _pipeline.components.values():
+                if isinstance(component, torch.nn.Module):
+                    _maybe_remove_and_reapply_group_offloading(component)
         # Unsafe code />
     def _process_custom_diffusion(self, state_dict):
@@ -307,6 +318,7 @@ class UNet2DConditionLoadersMixin:
         is_model_cpu_offload = False
         is_sequential_cpu_offload = False
+        is_group_offload = False
         state_dict_to_be_used = unet_state_dict if len(unet_state_dict) > 0 else state_dict
         if len(state_dict_to_be_used) > 0:
@@ -356,7 +368,9 @@ class UNet2DConditionLoadersMixin:
             # In case the pipeline has been already offloaded to CPU - temporarily remove the hooks
             # otherwise loading LoRA weights will lead to an error
-            is_model_cpu_offload, is_sequential_cpu_offload = self._optionally_disable_offloading(_pipeline)
+            is_model_cpu_offload, is_sequential_cpu_offload, is_group_offload = self._optionally_disable_offloading(
+                _pipeline
+            )
             peft_kwargs = {}
             if is_peft_version(">=", "0.13.1"):
                 peft_kwargs["low_cpu_mem_usage"] = low_cpu_mem_usage
@@ -389,7 +403,7 @@ class UNet2DConditionLoadersMixin:
             if warn_msg:
                 logger.warning(warn_msg)
-        return is_model_cpu_offload, is_sequential_cpu_offload
+        return is_model_cpu_offload, is_sequential_cpu_offload, is_group_offload
     @classmethod
     # Copied from diffusers.loaders.lora_base.LoraBaseMixin._optionally_disable_offloading
@@ -741,6 +755,7 @@ class UNet2DConditionLoadersMixin:
         else:
             device_map = {"": self.device}
             load_model_dict_into_meta(image_projection, updated_state_dict, device_map=device_map, dtype=self.dtype)
+            empty_device_cache()
         return image_projection
@@ -838,6 +853,8 @@ class UNet2DConditionLoadersMixin:
                 key_id += 2
+        empty_device_cache()
         return attn_procs
     def _load_ip_adapter_weights(self, state_dicts, low_cpu_mem_usage=_LOW_CPU_MEM_USAGE_DEFAULT):

diffusers 0.34.0__py3-none-any.whl → 0.35.1__py3-none-any.whl

diffusers 0.34.0py3-none-any.whl → 0.35.1py3-none-any.whl