PyPI - optimum-rbln - Versions diffs - 0.1.12__py3-none-any.whl → 0.1.15__py3-none-any.whl - Mend

optimum-rbln 0.1.12py3-none-any.whl → 0.1.15py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (90) hide show

optimum/rbln/diffusers/models/{unet_2d_condition.py → unets/unet_2d_condition.py} RENAMED Viewed

@@ -23,16 +23,15 @@
 import logging
 from dataclasses import dataclass
-from pathlib import Path
 from typing import TYPE_CHECKING, Any, Dict, Optional, Tuple, Union
 import torch
 from diffusers.models.unets.unet_2d_condition import UNet2DConditionModel
-from optimum.exporters import TasksManager
-from transformers import AutoConfig, AutoModel, PretrainedConfig
+from transformers import PretrainedConfig
-from ...modeling_base import RBLNModel
-from ...modeling_config import RBLNCompileConfig, RBLNConfig
+from ....modeling import RBLNModel
+from ....modeling_config import RBLNCompileConfig, RBLNConfig
+from ....modeling_diffusers import RBLNDiffusionMixin
 if TYPE_CHECKING:
@@ -126,6 +125,9 @@ class _UNet_SDXL(torch.nn.Module):
 class RBLNUNet2DConditionModel(RBLNModel):
+    hf_library_name = "diffusers"
+    auto_model_class = UNet2DConditionModel
     def __post_init__(self, **kwargs):
         super().__post_init__(**kwargs)
         self.in_features = self.rbln_config.model_cfg.get("in_features", None)
@@ -141,33 +143,6 @@ class RBLNUNet2DConditionModel(RBLNModel):
             self.add_embedding = ADDEMBEDDING(LINEAR1(self.in_features))
-    @classmethod
-    def from_pretrained(cls, *args, **kwargs):
-        def get_model_from_task(
-            task: str,
-            model_name_or_path: Union[str, Path],
-            **kwargs,
-        ):
-            return UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path=model_name_or_path, **kwargs)
-        tasktmp = TasksManager.get_model_from_task
-        configtmp = AutoConfig.from_pretrained
-        modeltmp = AutoModel.from_pretrained
-        TasksManager.get_model_from_task = get_model_from_task
-        if kwargs.get("export", None):
-            # This is an ad-hoc to workaround save null values of the config.
-            # if export, pure optimum(not optimum-rbln) loads config using AutoConfig
-            # and diffusers model do not support loading by AutoConfig.
-            AutoConfig.from_pretrained = lambda *args, **kwargs: None
-        else:
-            AutoConfig.from_pretrained = UNet2DConditionModel.load_config
-        AutoModel.from_pretrained = UNet2DConditionModel.from_pretrained
-        rt = super().from_pretrained(*args, **kwargs)
-        AutoConfig.from_pretrained = configtmp
-        AutoModel.from_pretrained = modeltmp
-        TasksManager.get_model_from_task = tasktmp
-        return rt
     @classmethod
     def wrap_model_if_needed(cls, model: torch.nn.Module, rbln_config: RBLNConfig) -> torch.nn.Module:
         if model.config.addition_embed_type == "text_time":
@@ -175,6 +150,61 @@ class RBLNUNet2DConditionModel(RBLNModel):
         else:
             return _UNet_SD(model).eval()
+    @classmethod
+    def get_unet_sample_size(
+        cls, pipe: RBLNDiffusionMixin, rbln_config: Dict[str, Any]
+    ) -> Union[int, Tuple[int, int]]:
+        image_size = (rbln_config.get("img_height"), rbln_config.get("img_width"))
+        if (image_size[0] is None) != (image_size[1] is None):
+            raise ValueError("Both image height and image width must be given or not given")
+        elif image_size[0] is None and image_size[1] is None:
+            if rbln_config["img2img_pipeline"]:
+                # In case of img2img, sample size of unet is determined by vae encoder.
+                vae_sample_size = pipe.vae.config.sample_size
+                if isinstance(vae_sample_size, int):
+                    sample_size = vae_sample_size // pipe.vae_scale_factor
+                else:
+                    sample_size = (
+                        vae_sample_size[0] // pipe.vae_scale_factor,
+                        vae_sample_size[1] // pipe.vae_scale_factor,
+                    )
+            else:
+                sample_size = pipe.unet.config.sample_size
+        else:
+            sample_size = (image_size[0] // pipe.vae_scale_factor, image_size[1] // pipe.vae_scale_factor)
+        return sample_size
+    @classmethod
+    def update_rbln_config_using_pipe(cls, pipe: RBLNDiffusionMixin, rbln_config: Dict[str, Any]) -> Dict[str, Any]:
+        text_model_hidden_size = pipe.text_encoder_2.config.hidden_size if hasattr(pipe, "text_encoder_2") else None
+        batch_size = rbln_config.get("batch_size")
+        if not batch_size:
+            do_classifier_free_guidance = (
+                rbln_config.get("guidance_scale", 5.0) > 1.0 and pipe.unet.config.time_cond_proj_dim is None
+            )
+            batch_size = 2 if do_classifier_free_guidance else 1
+        else:
+            if rbln_config.get("guidance_scale"):
+                logger.warning(
+                    "guidance_scale is ignored because batch size is explicitly specified. "
+                    "To ensure consistent behavior, consider removing the guidance scale or "
+                    "adjusting the batch size configuration as needed."
+                )
+        rbln_config.update(
+            {
+                "max_seq_len": pipe.text_encoder.config.max_position_embeddings,
+                "text_model_hidden_size": text_model_hidden_size,
+                "sample_size": cls.get_unet_sample_size(pipe, rbln_config),
+                "batch_size": batch_size,
+                "is_controlnet": "controlnet" in pipe.config.keys(),
+            }
+        )
+        return rbln_config
     @classmethod
     def _get_rbln_config(
         cls,
@@ -182,137 +212,68 @@ class RBLNUNet2DConditionModel(RBLNModel):
         model_config: "PretrainedConfig",
         rbln_kwargs: Dict[str, Any] = {},
     ) -> RBLNConfig:
-        rbln_max_seq_len = rbln_kwargs.get("max_seq_len", None)
-        rbln_text_model_hidden_size = rbln_kwargs.get("text_model_hidden_size", None)
-        rbln_batch_size = rbln_kwargs.get("batch_size", None)
-        rbln_in_features = rbln_kwargs.get("in_features", None)
-        rbln_use_encode = rbln_kwargs.get("use_encode", None)
-        rbln_img_width = rbln_kwargs.get("img_width", None)
-        rbln_img_height = rbln_kwargs.get("img_height", None)
-        rbln_vae_scale_factor = rbln_kwargs.get("vae_scale_factor", None)
-        rbln_is_controlnet = rbln_kwargs.get("is_controlnet", None)
-        if rbln_max_seq_len is None:
-            rbln_max_seq_len = 77
-        if rbln_batch_size is None:
-            rbln_batch_size = 1
-        if rbln_use_encode:
-            if rbln_img_width is None or rbln_img_height is None or rbln_vae_scale_factor is None:
-                raise ValueError(
-                    "rbln_img_width, rbln_img_height, and rbln_vae_scale_factor must be provided when rbln_use_encode is True"
-                )
-            input_width = rbln_img_width // rbln_vae_scale_factor
-            input_height = rbln_img_height // rbln_vae_scale_factor
-        else:
-            input_width, input_height = model_config.sample_size, model_config.sample_size
+        batch_size = rbln_kwargs.get("batch_size")
+        max_seq_len = rbln_kwargs.get("max_seq_len")
+        sample_size = rbln_kwargs.get("sample_size")
+        is_controlnet = rbln_kwargs.get("is_controlnet")
+        rbln_in_features = None
+        if batch_size is None:
+            batch_size = 1
+        if sample_size is None:
+            sample_size = model_config.sample_size
+        if isinstance(sample_size, int):
+            sample_size = (sample_size, sample_size)
+        if max_seq_len is None:
+            raise ValueError("`rbln_max_seq_len` (ex. text_encoder's max_position_embeddings) must be specified.")
         input_info = [
-            (
-                "sample",
-                [
-                    rbln_batch_size,
-                    model_config.in_channels,
-                    input_height,
-                    input_width,
-                ],
-                "float32",
-            ),
+            ("sample", [batch_size, model_config.in_channels, sample_size[0], sample_size[1]], "float32"),
             ("timestep", [], "float32"),
-            (
-                "encoder_hidden_states",
-                [
-                    rbln_batch_size,
-                    rbln_max_seq_len,
-                    model_config.cross_attention_dim,
-                ],
-                "float32",
-            ),
+            ("encoder_hidden_states", [batch_size, max_seq_len, model_config.cross_attention_dim], "float32"),
         ]
-        if rbln_is_controlnet:
-            if len(model_config.block_out_channels) > 0:
-                input_info.extend(
-                    [
-                        (
-                            f"down_block_additional_residuals_{i}",
-                            [rbln_batch_size, model_config.block_out_channels[0], input_height, input_width],
-                            "float32",
-                        )
-                        for i in range(3)
-                    ]
-                )
-            if len(model_config.block_out_channels) > 1:
-                input_info.append(
-                    (
-                        "down_block_additional_residuals_3",
-                        [rbln_batch_size, model_config.block_out_channels[0], input_height // 2, input_width // 2],
-                        "float32",
-                    )
-                )
-                input_info.extend(
-                    [
-                        (
-                            f"down_block_additional_residuals_{i}",
-                            [rbln_batch_size, model_config.block_out_channels[1], input_height // 2, input_width // 2],
-                            "float32",
-                        )
-                        for i in range(4, 6)
-                    ]
-                )
-            if len(model_config.block_out_channels) > 2:
-                input_info.append(
-                    (
-                        f"down_block_additional_residuals_{6}",
-                        [rbln_batch_size, model_config.block_out_channels[1], input_height // 4, input_width // 4],
-                        "float32",
-                    )
-                )
-                input_info.extend(
-                    [
-                        (
-                            f"down_block_additional_residuals_{i}",
-                            [rbln_batch_size, model_config.block_out_channels[2], input_height // 4, input_width // 4],
-                            "float32",
-                        )
-                        for i in range(7, 9)
-                    ]
-                )
-            if len(model_config.block_out_channels) > 3:
-                input_info.extend(
-                    [
-                        (
-                            f"down_block_additional_residuals_{i}",
-                            [rbln_batch_size, model_config.block_out_channels[3], input_height // 8, input_width // 8],
-                            "float32",
-                        )
-                        for i in range(9, 12)
-                    ]
-                )
-            input_info.append(
-                (
-                    "mid_block_additional_residual",
-                    [
-                        rbln_batch_size,
-                        model_config.block_out_channels[-1],
-                        input_height // 2 ** (len(model_config.block_out_channels) - 1),
-                        input_width // 2 ** (len(model_config.block_out_channels) - 1),
-                    ],
-                    "float32",
-                )
-            )
+        if is_controlnet:
+            # down block addtional residuals
+            first_shape = [batch_size, model_config.block_out_channels[0], sample_size[0], sample_size[1]]
+            height, width = sample_size[0], sample_size[1]
+            input_info.append(("down_block_additional_residuals_0", first_shape, "float32"))
+            name_idx = 1
+            for idx, _ in enumerate(model_config.down_block_types):
+                shape = [batch_size, model_config.block_out_channels[idx], height, width]
+                for _ in range(model_config.layers_per_block):
+                    input_info.append((f"down_block_additional_residuals_{name_idx}", shape, "float32"))
+                    name_idx += 1
+                if idx != len(model_config.down_block_types) - 1:
+                    height = height // 2
+                    width = width // 2
+                    shape = [batch_size, model_config.block_out_channels[idx], height, width]
+                    input_info.append((f"down_block_additional_residuals_{name_idx}", shape, "float32"))
+                    name_idx += 1
+            # mid block addtional residual
+            num_cross_attn_blocks = model_config.down_block_types.count("CrossAttnDownBlock2D")
+            out_channels = model_config.block_out_channels[-1]
+            shape = [
+                batch_size,
+                out_channels,
+                sample_size[0] // 2**num_cross_attn_blocks,
+                sample_size[1] // 2**num_cross_attn_blocks,
+            ]
+            input_info.append(("mid_block_additional_residual", shape, "float32"))
         rbln_compile_config = RBLNCompileConfig(input_info=input_info)
         if hasattr(model_config, "addition_embed_type") and model_config.addition_embed_type == "text_time":
-            if rbln_text_model_hidden_size is None:
-                rbln_text_model_hidden_size = 768
-            if rbln_in_features is None:
-                rbln_in_features = model_config.projection_class_embeddings_input_dim
+            rbln_text_model_hidden_size = rbln_kwargs["text_model_hidden_size"]
+            rbln_in_features = model_config.projection_class_embeddings_input_dim
             rbln_compile_config.input_info.append(
-                ("text_embeds", [rbln_batch_size, rbln_text_model_hidden_size], "float32")
+                ("text_embeds", [batch_size, rbln_text_model_hidden_size], "float32")
             )
-            rbln_compile_config.input_info.append(("time_ids", [rbln_batch_size, 6], "float32"))
+            rbln_compile_config.input_info.append(("time_ids", [batch_size, 6], "float32"))
         rbln_config = RBLNConfig(
             rbln_cls=cls.__name__,
@@ -320,19 +281,15 @@ class RBLNUNet2DConditionModel(RBLNModel):
             rbln_kwargs=rbln_kwargs,
         )
-        rbln_config.model_cfg.update(
-            {
-                "max_seq_len": rbln_max_seq_len,
-                "batch_size": rbln_batch_size,
-                "use_encode": rbln_use_encode,
-            }
-        )
         if rbln_in_features is not None:
             rbln_config.model_cfg["in_features"] = rbln_in_features
         return rbln_config
+    @property
+    def compiled_batch_size(self):
+        return self.rbln_config.compile_cfgs[0].input_info[0][1][0]
     def forward(
         self,
         sample: torch.Tensor,
@@ -350,9 +307,18 @@ class RBLNUNet2DConditionModel(RBLNModel):
         return_dict: bool = True,
         **kwargs,
     ):
-        """
-        arg order : latent_model_input, t, prompt_embeds
-        """
+        sample_batch_size = sample.size()[0]
+        compiled_batch_size = self.compiled_batch_size
+        if sample_batch_size != compiled_batch_size and (
+            sample_batch_size * 2 == compiled_batch_size or sample_batch_size == compiled_batch_size * 2
+        ):
+            raise ValueError(
+                f"Mismatch between UNet's runtime batch size ({sample_batch_size}) and compiled batch size ({compiled_batch_size}). "
+                "This may be caused by the 'guidance scale' parameter, which doubles the runtime batch size in Stable Diffusion. "
+                "Adjust the batch size during compilation or modify the 'guidance scale' to match the compiled batch size.\n\n"
+                "For details, see: https://docs.rbln.ai/software/optimum/model_api.html#stable-diffusion"
+            )
         added_cond_kwargs = {} if added_cond_kwargs is None else added_cond_kwargs
         if down_block_additional_residuals is not None:

optimum/rbln/diffusers/pipelines/__init__.py CHANGED Viewed

@@ -20,16 +20,64 @@
 # are the intellectual property of Rebellions Inc. and may not be
 # copied, modified, or distributed without prior written permission
 # from Rebellions Inc.
+from typing import TYPE_CHECKING
-from .controlnet import (
-    RBLNMultiControlNetModel,
-    RBLNStableDiffusionControlNetImg2ImgPipeline,
-    RBLNStableDiffusionControlNetPipeline,
-    RBLNStableDiffusionXLControlNetImg2ImgPipeline,
-    RBLNStableDiffusionXLControlNetPipeline,
-)
-from .stable_diffusion import (
-    RBLNStableDiffusionImg2ImgPipeline,
-    RBLNStableDiffusionPipeline,
-)
-from .stable_diffusion_xl import RBLNStableDiffusionXLImg2ImgPipeline, RBLNStableDiffusionXLPipeline
+from transformers.utils import _LazyModule
+_import_structure = {
+    "controlnet": [
+        "RBLNMultiControlNetModel",
+        "RBLNStableDiffusionControlNetImg2ImgPipeline",
+        "RBLNStableDiffusionControlNetPipeline",
+        "RBLNStableDiffusionXLControlNetImg2ImgPipeline",
+        "RBLNStableDiffusionXLControlNetPipeline",
+    ],
+    "stable_diffusion": [
+        "RBLNStableDiffusionImg2ImgPipeline",
+        "RBLNStableDiffusionPipeline",
+        "RBLNStableDiffusionInpaintPipeline",
+    ],
+    "stable_diffusion_xl": [
+        "RBLNStableDiffusionXLImg2ImgPipeline",
+        "RBLNStableDiffusionXLPipeline",
+        "RBLNStableDiffusionXLInpaintPipeline",
+    ],
+    "stable_diffusion_3": [
+        "RBLNStableDiffusion3Pipeline",
+        "RBLNStableDiffusion3Img2ImgPipeline",
+        "RBLNStableDiffusion3InpaintPipeline",
+    ],
+}
+if TYPE_CHECKING:
+    from .controlnet import (
+        RBLNMultiControlNetModel,
+        RBLNStableDiffusionControlNetImg2ImgPipeline,
+        RBLNStableDiffusionControlNetPipeline,
+        RBLNStableDiffusionXLControlNetImg2ImgPipeline,
+        RBLNStableDiffusionXLControlNetPipeline,
+    )
+    from .stable_diffusion import (
+        RBLNStableDiffusionImg2ImgPipeline,
+        RBLNStableDiffusionInpaintPipeline,
+        RBLNStableDiffusionPipeline,
+    )
+    from .stable_diffusion_3 import (
+        RBLNStableDiffusion3Img2ImgPipeline,
+        RBLNStableDiffusion3InpaintPipeline,
+        RBLNStableDiffusion3Pipeline,
+    )
+    from .stable_diffusion_xl import (
+        RBLNStableDiffusionXLImg2ImgPipeline,
+        RBLNStableDiffusionXLInpaintPipeline,
+        RBLNStableDiffusionXLPipeline,
+    )
+else:
+    import sys
+    sys.modules[__name__] = _LazyModule(
+        __name__,
+        globals()["__file__"],
+        _import_structure,
+        module_spec=__spec__,
+    )

optimum/rbln/diffusers/pipelines/controlnet/multicontrolnet.py CHANGED Viewed

@@ -27,12 +27,9 @@ from pathlib import Path
 from typing import TYPE_CHECKING, Any, Dict, List, Optional, Union
 import torch
-from diffusers import ControlNetModel
 from diffusers.pipelines.controlnet.multicontrolnet import MultiControlNetModel
-from optimum.exporters import TasksManager
-from transformers import AutoConfig, AutoModel
-from ....modeling_base import RBLNModel
+from ....modeling import RBLNModel
 from ....modeling_config import RBLNConfig
 from ...models.controlnet import RBLNControlNetModel
@@ -44,6 +41,9 @@ logger = logging.getLogger(__name__)
 class RBLNMultiControlNetModel(RBLNModel):
+    hf_library_name = "diffusers"
+    _hf_class = MultiControlNetModel
     def __init__(
         self,
         models: List[RBLNControlNetModel],
@@ -52,26 +52,12 @@ class RBLNMultiControlNetModel(RBLNModel):
         self.nets = models
         self.dtype = torch.float32
-    @classmethod
-    def from_pretrained(cls, *args, **kwargs):
-        def get_model_from_task(
-            task: str,
-            model_name_or_path: Union[str, Path],
-            **kwargs,
-        ):
-            return MultiControlNetModel.from_pretrained(pretrained_model_name_or_path=model_name_or_path, **kwargs)
-        tasktmp = TasksManager.get_model_from_task
-        configtmp = AutoConfig.from_pretrained
-        modeltmp = AutoModel.from_pretrained
-        TasksManager.get_model_from_task = get_model_from_task
-        AutoConfig.from_pretrained = ControlNetModel.load_config
-        AutoModel.from_pretrained = MultiControlNetModel.from_pretrained
-        rt = super().from_pretrained(*args, **kwargs)
-        AutoConfig.from_pretrained = configtmp
-        AutoModel.from_pretrained = modeltmp
-        TasksManager.get_model_from_task = tasktmp
-        return rt
+    @property
+    def compiled_models(self):
+        cm = []
+        for net in self.nets:
+            cm.extend(net.compiled_models)
+        return cm
     @classmethod
     def _from_pretrained(
@@ -111,7 +97,7 @@ class RBLNMultiControlNetModel(RBLNModel):
         sample: torch.FloatTensor,
         timestep: Union[torch.Tensor, float, int],
         encoder_hidden_states: torch.Tensor,
-        controlnet_cond: List[torch.tensor],
+        controlnet_cond: List[torch.Tensor],
         conditioning_scale: List[float],
         class_labels: Optional[torch.Tensor] = None,
         timestep_cond: Optional[torch.Tensor] = None,

optimum-rbln 0.1.12__py3-none-any.whl → 0.1.15__py3-none-any.whl

optimum-rbln 0.1.12py3-none-any.whl → 0.1.15py3-none-any.whl