PyPI - diffsynth - Versions diffs - 1.0.0__py3-none-any.whl - Mend

diffsynth 1.0.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (120) hide show

diffsynth/__init__.py +6 -0
diffsynth/configs/__init__.py +0 -0
diffsynth/configs/model_config.py +243 -0
diffsynth/controlnets/__init__.py +2 -0
diffsynth/controlnets/controlnet_unit.py +53 -0
diffsynth/controlnets/processors.py +51 -0
diffsynth/data/__init__.py +1 -0
diffsynth/data/simple_text_image.py +35 -0
diffsynth/data/video.py +148 -0
diffsynth/extensions/ESRGAN/__init__.py +118 -0
diffsynth/extensions/FastBlend/__init__.py +63 -0
diffsynth/extensions/FastBlend/api.py +397 -0
diffsynth/extensions/FastBlend/cupy_kernels.py +119 -0
diffsynth/extensions/FastBlend/data.py +146 -0
diffsynth/extensions/FastBlend/patch_match.py +298 -0
diffsynth/extensions/FastBlend/runners/__init__.py +4 -0
diffsynth/extensions/FastBlend/runners/accurate.py +35 -0
diffsynth/extensions/FastBlend/runners/balanced.py +46 -0
diffsynth/extensions/FastBlend/runners/fast.py +141 -0
diffsynth/extensions/FastBlend/runners/interpolation.py +121 -0
diffsynth/extensions/RIFE/__init__.py +242 -0
diffsynth/extensions/__init__.py +0 -0
diffsynth/models/__init__.py +1 -0
diffsynth/models/attention.py +89 -0
diffsynth/models/downloader.py +66 -0
diffsynth/models/hunyuan_dit.py +451 -0
diffsynth/models/hunyuan_dit_text_encoder.py +163 -0
diffsynth/models/kolors_text_encoder.py +1363 -0
diffsynth/models/lora.py +195 -0
diffsynth/models/model_manager.py +536 -0
diffsynth/models/sd3_dit.py +798 -0
diffsynth/models/sd3_text_encoder.py +1107 -0
diffsynth/models/sd3_vae_decoder.py +81 -0
diffsynth/models/sd3_vae_encoder.py +95 -0
diffsynth/models/sd_controlnet.py +588 -0
diffsynth/models/sd_ipadapter.py +57 -0
diffsynth/models/sd_motion.py +199 -0
diffsynth/models/sd_text_encoder.py +321 -0
diffsynth/models/sd_unet.py +1108 -0
diffsynth/models/sd_vae_decoder.py +336 -0
diffsynth/models/sd_vae_encoder.py +282 -0
diffsynth/models/sdxl_ipadapter.py +122 -0
diffsynth/models/sdxl_motion.py +104 -0
diffsynth/models/sdxl_text_encoder.py +759 -0
diffsynth/models/sdxl_unet.py +1899 -0
diffsynth/models/sdxl_vae_decoder.py +24 -0
diffsynth/models/sdxl_vae_encoder.py +24 -0
diffsynth/models/svd_image_encoder.py +505 -0
diffsynth/models/svd_unet.py +2004 -0
diffsynth/models/svd_vae_decoder.py +578 -0
diffsynth/models/svd_vae_encoder.py +139 -0
diffsynth/models/tiler.py +106 -0
diffsynth/pipelines/__init__.py +9 -0
diffsynth/pipelines/base.py +34 -0
diffsynth/pipelines/dancer.py +178 -0
diffsynth/pipelines/hunyuan_image.py +274 -0
diffsynth/pipelines/pipeline_runner.py +105 -0
diffsynth/pipelines/sd3_image.py +132 -0
diffsynth/pipelines/sd_image.py +173 -0
diffsynth/pipelines/sd_video.py +266 -0
diffsynth/pipelines/sdxl_image.py +191 -0
diffsynth/pipelines/sdxl_video.py +223 -0
diffsynth/pipelines/svd_video.py +297 -0
diffsynth/processors/FastBlend.py +142 -0
diffsynth/processors/PILEditor.py +28 -0
diffsynth/processors/RIFE.py +77 -0
diffsynth/processors/__init__.py +0 -0
diffsynth/processors/base.py +6 -0
diffsynth/processors/sequencial_processor.py +41 -0
diffsynth/prompters/__init__.py +6 -0
diffsynth/prompters/base_prompter.py +57 -0
diffsynth/prompters/hunyuan_dit_prompter.py +69 -0
diffsynth/prompters/kolors_prompter.py +353 -0
diffsynth/prompters/prompt_refiners.py +77 -0
diffsynth/prompters/sd3_prompter.py +92 -0
diffsynth/prompters/sd_prompter.py +73 -0
diffsynth/prompters/sdxl_prompter.py +61 -0
diffsynth/schedulers/__init__.py +3 -0
diffsynth/schedulers/continuous_ode.py +59 -0
diffsynth/schedulers/ddim.py +79 -0
diffsynth/schedulers/flow_match.py +51 -0
diffsynth/tokenizer_configs/__init__.py +0 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer/special_tokens_map.json +7 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer/tokenizer_config.json +16 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer/vocab.txt +47020 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer/vocab_org.txt +21128 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer_t5/config.json +28 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer_t5/special_tokens_map.json +1 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer_t5/spiece.model +0 -0
diffsynth/tokenizer_configs/hunyuan_dit/tokenizer_t5/tokenizer_config.json +1 -0
diffsynth/tokenizer_configs/kolors/tokenizer/tokenizer.model +0 -0
diffsynth/tokenizer_configs/kolors/tokenizer/tokenizer_config.json +12 -0
diffsynth/tokenizer_configs/kolors/tokenizer/vocab.txt +0 -0
diffsynth/tokenizer_configs/stable_diffusion/tokenizer/merges.txt +48895 -0
diffsynth/tokenizer_configs/stable_diffusion/tokenizer/special_tokens_map.json +24 -0
diffsynth/tokenizer_configs/stable_diffusion/tokenizer/tokenizer_config.json +34 -0
diffsynth/tokenizer_configs/stable_diffusion/tokenizer/vocab.json +49410 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_1/merges.txt +48895 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_1/special_tokens_map.json +30 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_1/tokenizer_config.json +30 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_1/vocab.json +49410 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_2/merges.txt +48895 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_2/special_tokens_map.json +30 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_2/tokenizer_config.json +38 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_2/vocab.json +49410 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_3/special_tokens_map.json +125 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_3/spiece.model +0 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_3/tokenizer.json +129428 -0
diffsynth/tokenizer_configs/stable_diffusion_3/tokenizer_3/tokenizer_config.json +940 -0
diffsynth/tokenizer_configs/stable_diffusion_xl/tokenizer_2/merges.txt +40213 -0
diffsynth/tokenizer_configs/stable_diffusion_xl/tokenizer_2/special_tokens_map.json +24 -0
diffsynth/tokenizer_configs/stable_diffusion_xl/tokenizer_2/tokenizer_config.json +38 -0
diffsynth/tokenizer_configs/stable_diffusion_xl/tokenizer_2/vocab.json +49411 -0
diffsynth/trainers/__init__.py +0 -0
diffsynth/trainers/text_to_image.py +253 -0
diffsynth-1.0.0.dist-info/LICENSE +201 -0
diffsynth-1.0.0.dist-info/METADATA +23 -0
diffsynth-1.0.0.dist-info/RECORD +120 -0
diffsynth-1.0.0.dist-info/WHEEL +5 -0
diffsynth-1.0.0.dist-info/top_level.txt +1 -0

diffsynth/pipelines/hunyuan_image.py ADDED Viewed

@@ -0,0 +1,274 @@
+from ..models.hunyuan_dit import HunyuanDiT
+from ..models.hunyuan_dit_text_encoder import HunyuanDiTCLIPTextEncoder, HunyuanDiTT5TextEncoder
+from ..models.sdxl_vae_encoder import SDXLVAEEncoder
+from ..models.sdxl_vae_decoder import SDXLVAEDecoder
+from ..models import ModelManager
+from ..prompters import HunyuanDiTPrompter
+from ..schedulers import EnhancedDDIMScheduler
+from .base import BasePipeline
+import torch
+from tqdm import tqdm
+import numpy as np
+class ImageSizeManager:
+    def __init__(self):
+        pass
+    def _to_tuple(self, x):
+        if isinstance(x, int):
+            return x, x
+        else:
+            return x
+    def get_fill_resize_and_crop(self, src, tgt):
+        th, tw = self._to_tuple(tgt)
+        h, w = self._to_tuple(src)
+        tr = th / tw        # base 分辨率
+        r = h / w           # 目标分辨率
+        # resize
+        if r > tr:
+            resize_height = th
+            resize_width = int(round(th / h * w))
+        else:
+            resize_width = tw
+            resize_height = int(round(tw / w * h))    # 根据base分辨率，将目标分辨率resize下来
+        crop_top = int(round((th - resize_height) / 2.0))
+        crop_left = int(round((tw - resize_width) / 2.0))
+        return (crop_top, crop_left), (crop_top + resize_height, crop_left + resize_width)
+    def get_meshgrid(self, start, *args):
+        if len(args) == 0:
+            # start is grid_size
+            num = self._to_tuple(start)
+            start = (0, 0)
+            stop = num
+        elif len(args) == 1:
+            # start is start, args[0] is stop, step is 1
+            start = self._to_tuple(start)
+            stop = self._to_tuple(args[0])
+            num = (stop[0] - start[0], stop[1] - start[1])
+        elif len(args) == 2:
+            # start is start, args[0] is stop, args[1] is num
+            start = self._to_tuple(start)       # 左上角   eg: 12,0
+            stop = self._to_tuple(args[0])      # 右下角   eg: 20,32
+            num = self._to_tuple(args[1])       # 目标大小  eg: 32,124
+        else:
+            raise ValueError(f"len(args) should be 0, 1 or 2, but got {len(args)}")
+        grid_h = np.linspace(start[0], stop[0], num[0], endpoint=False, dtype=np.float32) # 12-20 中间差值32份   0-32 中间差值124份
+        grid_w = np.linspace(start[1], stop[1], num[1], endpoint=False, dtype=np.float32)
+        grid = np.meshgrid(grid_w, grid_h)  # here w goes first
+        grid = np.stack(grid, axis=0)   # [2, W, H]
+        return grid
+    def get_2d_rotary_pos_embed(self, embed_dim, start, *args, use_real=True):
+        grid = self.get_meshgrid(start, *args)   # [2, H, w]
+        grid = grid.reshape([2, 1, *grid.shape[1:]])   # 返回一个采样矩阵  分辨率与目标分辨率一致
+        pos_embed = self.get_2d_rotary_pos_embed_from_grid(embed_dim, grid, use_real=use_real)
+        return pos_embed
+    def get_2d_rotary_pos_embed_from_grid(self, embed_dim, grid, use_real=False):
+        assert embed_dim % 4 == 0
+        # use half of dimensions to encode grid_h
+        emb_h = self.get_1d_rotary_pos_embed(embed_dim // 2, grid[0].reshape(-1), use_real=use_real)  # (H*W, D/4)
+        emb_w = self.get_1d_rotary_pos_embed(embed_dim // 2, grid[1].reshape(-1), use_real=use_real)  # (H*W, D/4)
+        if use_real:
+            cos = torch.cat([emb_h[0], emb_w[0]], dim=1)    # (H*W, D/2)
+            sin = torch.cat([emb_h[1], emb_w[1]], dim=1)    # (H*W, D/2)
+            return cos, sin
+        else:
+            emb = torch.cat([emb_h, emb_w], dim=1)    # (H*W, D/2)
+            return emb
+    def get_1d_rotary_pos_embed(self, dim: int, pos, theta: float = 10000.0, use_real=False):
+        if isinstance(pos, int):
+            pos = np.arange(pos)
+        freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim))  # [D/2]
+        t = torch.from_numpy(pos).to(freqs.device)  # type: ignore  # [S]
+        freqs = torch.outer(t, freqs).float()  # type: ignore   # [S, D/2]
+        if use_real:
+            freqs_cos = freqs.cos().repeat_interleave(2, dim=1)  # [S, D]
+            freqs_sin = freqs.sin().repeat_interleave(2, dim=1)  # [S, D]
+            return freqs_cos, freqs_sin
+        else:
+            freqs_cis = torch.polar(torch.ones_like(freqs), freqs)  # complex64     # [S, D/2]
+            return freqs_cis
+    def calc_rope(self, height, width):
+        patch_size = 2
+        head_size = 88
+        th = height // 8 // patch_size
+        tw = width // 8 // patch_size
+        base_size = 512 // 8 // patch_size
+        start, stop = self.get_fill_resize_and_crop((th, tw), base_size)
+        sub_args = [start, stop, (th, tw)]
+        rope = self.get_2d_rotary_pos_embed(head_size, *sub_args)
+        return rope
+class HunyuanDiTImagePipeline(BasePipeline):
+    def __init__(self, device="cuda", torch_dtype=torch.float16):
+        super().__init__(device=device, torch_dtype=torch_dtype)
+        self.scheduler = EnhancedDDIMScheduler(prediction_type="v_prediction", beta_start=0.00085, beta_end=0.03)
+        self.prompter = HunyuanDiTPrompter()
+        self.image_size_manager = ImageSizeManager()
+        # models
+        self.text_encoder: HunyuanDiTCLIPTextEncoder = None
+        self.text_encoder_t5: HunyuanDiTT5TextEncoder = None
+        self.dit: HunyuanDiT = None
+        self.vae_decoder: SDXLVAEDecoder = None
+        self.vae_encoder: SDXLVAEEncoder = None
+    def denoising_model(self):
+        return self.dit
+    def fetch_models(self, model_manager: ModelManager, prompt_refiner_classes=[]):
+        # Main models
+        self.text_encoder = model_manager.fetch_model("hunyuan_dit_clip_text_encoder")
+        self.text_encoder_t5 = model_manager.fetch_model("hunyuan_dit_t5_text_encoder")
+        self.dit = model_manager.fetch_model("hunyuan_dit")
+        self.vae_decoder = model_manager.fetch_model("sdxl_vae_decoder")
+        self.vae_encoder = model_manager.fetch_model("sdxl_vae_encoder")
+        self.prompter.fetch_models(self.text_encoder, self.text_encoder_t5)
+        self.prompter.load_prompt_refiners(model_manager, prompt_refiner_classes)
+    @staticmethod
+    def from_model_manager(model_manager: ModelManager, prompt_refiner_classes=[]):
+        pipe = HunyuanDiTImagePipeline(
+            device=model_manager.device,
+            torch_dtype=model_manager.torch_dtype,
+        )
+        pipe.fetch_models(model_manager, prompt_refiner_classes)
+        return pipe
+    def encode_image(self, image, tiled=False, tile_size=64, tile_stride=32):
+        latents = self.vae_encoder(image, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        return latents
+    def decode_image(self, latent, tiled=False, tile_size=64, tile_stride=32):
+        image = self.vae_decoder(latent.to(self.device), tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        image = self.vae_output_to_image(image)
+        return image
+    def encode_prompt(self, prompt, clip_skip=1, clip_skip_2=1, positive=True):
+        text_emb, text_emb_mask, text_emb_t5, text_emb_mask_t5 = self.prompter.encode_prompt(
+            prompt,
+            clip_skip=clip_skip,
+            clip_skip_2=clip_skip_2,
+            positive=positive,
+            device=self.device
+        )
+        return {
+            "text_emb": text_emb,
+            "text_emb_mask": text_emb_mask,
+            "text_emb_t5": text_emb_t5,
+            "text_emb_mask_t5": text_emb_mask_t5
+        }
+    def prepare_extra_input(self, latents=None, tiled=False, tile_size=64, tile_stride=32):
+        batch_size, height, width = latents.shape[0], latents.shape[2] * 8, latents.shape[3] * 8
+        if tiled:
+            height, width = tile_size * 16, tile_size * 16
+        image_meta_size = torch.as_tensor([width, height, width, height, 0, 0]).to(device=self.device)
+        freqs_cis_img = self.image_size_manager.calc_rope(height, width)
+        image_meta_size = torch.stack([image_meta_size] * batch_size)
+        return {
+            "size_emb": image_meta_size,
+            "freq_cis_img": (freqs_cis_img[0].to(dtype=self.torch_dtype, device=self.device), freqs_cis_img[1].to(dtype=self.torch_dtype, device=self.device)),
+            "tiled": tiled,
+            "tile_size": tile_size,
+            "tile_stride": tile_stride
+        }
+    @torch.no_grad()
+    def __call__(
+        self,
+        prompt,
+        negative_prompt="",
+        cfg_scale=7.5,
+        clip_skip=1,
+        clip_skip_2=1,
+        input_image=None,
+        reference_strengths=[0.4],
+        denoising_strength=1.0,
+        height=1024,
+        width=1024,
+        num_inference_steps=20,
+        tiled=False,
+        tile_size=64,
+        tile_stride=32,
+        progress_bar_cmd=tqdm,
+        progress_bar_st=None,
+    ):
+        # Prepare scheduler
+        self.scheduler.set_timesteps(num_inference_steps, denoising_strength)
+        # Prepare latent tensors
+        noise = torch.randn((1, 4, height//8, width//8), device=self.device, dtype=self.torch_dtype)
+        if input_image is not None:
+            image = self.preprocess_image(input_image).to(device=self.device, dtype=torch.float32)
+            latents = self.vae_encoder(image, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride).to(self.torch_dtype)
+            latents = self.scheduler.add_noise(latents, noise, timestep=self.scheduler.timesteps[0])
+        else:
+            latents = noise.clone()
+        # Encode prompts
+        prompt_emb_posi = self.encode_prompt(prompt, clip_skip=clip_skip, clip_skip_2=clip_skip_2, positive=True)
+        if cfg_scale != 1.0:
+            prompt_emb_nega = self.encode_prompt(negative_prompt, clip_skip=clip_skip, clip_skip_2=clip_skip_2, positive=True)
+        # Prepare positional id
+        extra_input = self.prepare_extra_input(latents, tiled, tile_size)
+        # Denoise
+        for progress_id, timestep in enumerate(progress_bar_cmd(self.scheduler.timesteps)):
+            timestep = torch.tensor([timestep]).to(dtype=self.torch_dtype, device=self.device)
+            # Positive side
+            noise_pred_posi = self.dit(
+                latents, timestep=timestep, **prompt_emb_posi, **extra_input,
+            )
+            if cfg_scale != 1.0:
+                # Negative side
+                noise_pred_nega = self.dit(
+                    latents, timestep=timestep, **prompt_emb_nega, **extra_input,
+                )
+                # Classifier-free guidance
+                noise_pred = noise_pred_nega + cfg_scale * (noise_pred_posi - noise_pred_nega)
+            else:
+                noise_pred = noise_pred_posi
+            latents = self.scheduler.step(noise_pred, self.scheduler.timesteps[progress_id], latents)
+            if progress_bar_st is not None:
+                progress_bar_st.progress(progress_id / len(self.scheduler.timesteps))
+        # Decode image
+        image = self.decode_image(latents.to(torch.float32), tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        return image

diffsynth/pipelines/pipeline_runner.py ADDED Viewed

@@ -0,0 +1,105 @@
+import os, torch, json
+from .sd_video import ModelManager, SDVideoPipeline, ControlNetConfigUnit
+from ..processors.sequencial_processor import SequencialProcessor
+from ..data import VideoData, save_frames, save_video
+class SDVideoPipelineRunner:
+    def __init__(self, in_streamlit=False):
+        self.in_streamlit = in_streamlit
+    def load_pipeline(self, model_list, textual_inversion_folder, device, lora_alphas, controlnet_units):
+        # Load models
+        model_manager = ModelManager(torch_dtype=torch.float16, device=device)
+        model_manager.load_models(model_list)
+        pipe = SDVideoPipeline.from_model_manager(
+            model_manager,
+            [
+                ControlNetConfigUnit(
+                    processor_id=unit["processor_id"],
+                    model_path=unit["model_path"],
+                    scale=unit["scale"]
+                ) for unit in controlnet_units
+            ]
+        )
+        textual_inversion_paths = []
+        for file_name in os.listdir(textual_inversion_folder):
+            if file_name.endswith(".pt") or file_name.endswith(".bin") or file_name.endswith(".pth") or file_name.endswith(".safetensors"):
+                textual_inversion_paths.append(os.path.join(textual_inversion_folder, file_name))
+        pipe.prompter.load_textual_inversions(textual_inversion_paths)
+        return model_manager, pipe
+    def load_smoother(self, model_manager, smoother_configs):
+        smoother = SequencialProcessor.from_model_manager(model_manager, smoother_configs)
+        return smoother
+    def synthesize_video(self, model_manager, pipe, seed, smoother, **pipeline_inputs):
+        torch.manual_seed(seed)
+        if self.in_streamlit:
+            import streamlit as st
+            progress_bar_st = st.progress(0.0)
+            output_video = pipe(**pipeline_inputs, smoother=smoother, progress_bar_st=progress_bar_st)
+            progress_bar_st.progress(1.0)
+        else:
+            output_video = pipe(**pipeline_inputs, smoother=smoother)
+        model_manager.to("cpu")
+        return output_video
+    def load_video(self, video_file, image_folder, height, width, start_frame_id, end_frame_id):
+        video = VideoData(video_file=video_file, image_folder=image_folder, height=height, width=width)
+        if start_frame_id is None:
+            start_frame_id = 0
+        if end_frame_id is None:
+            end_frame_id = len(video)
+        frames = [video[i] for i in range(start_frame_id, end_frame_id)]
+        return frames
+    def add_data_to_pipeline_inputs(self, data, pipeline_inputs):
+        pipeline_inputs["input_frames"] = self.load_video(**data["input_frames"])
+        pipeline_inputs["num_frames"] = len(pipeline_inputs["input_frames"])
+        pipeline_inputs["width"], pipeline_inputs["height"] = pipeline_inputs["input_frames"][0].size
+        if len(data["controlnet_frames"]) > 0:
+            pipeline_inputs["controlnet_frames"] = [self.load_video(**unit) for unit in data["controlnet_frames"]]
+        return pipeline_inputs
+    def save_output(self, video, output_folder, fps, config):
+        os.makedirs(output_folder, exist_ok=True)
+        save_frames(video, os.path.join(output_folder, "frames"))
+        save_video(video, os.path.join(output_folder, "video.mp4"), fps=fps)
+        config["pipeline"]["pipeline_inputs"]["input_frames"] = []
+        config["pipeline"]["pipeline_inputs"]["controlnet_frames"] = []
+        with open(os.path.join(output_folder, "config.json"), 'w') as file:
+            json.dump(config, file, indent=4)
+    def run(self, config):
+        if self.in_streamlit:
+            import streamlit as st
+        if self.in_streamlit: st.markdown("Loading videos ...")
+        config["pipeline"]["pipeline_inputs"] = self.add_data_to_pipeline_inputs(config["data"], config["pipeline"]["pipeline_inputs"])
+        if self.in_streamlit: st.markdown("Loading videos ... done!")
+        if self.in_streamlit: st.markdown("Loading models ...")
+        model_manager, pipe = self.load_pipeline(**config["models"])
+        if self.in_streamlit: st.markdown("Loading models ... done!")
+        if "smoother_configs" in config:
+            if self.in_streamlit: st.markdown("Loading smoother ...")
+            smoother = self.load_smoother(model_manager, config["smoother_configs"])
+            if self.in_streamlit: st.markdown("Loading smoother ... done!")
+        else:
+            smoother = None
+        if self.in_streamlit: st.markdown("Synthesizing videos ...")
+        output_video = self.synthesize_video(model_manager, pipe, config["pipeline"]["seed"], smoother, **config["pipeline"]["pipeline_inputs"])
+        if self.in_streamlit: st.markdown("Synthesizing videos ... done!")
+        if self.in_streamlit: st.markdown("Saving videos ...")
+        self.save_output(output_video, config["data"]["output_folder"], config["data"]["fps"], config)
+        if self.in_streamlit: st.markdown("Saving videos ... done!")
+        if self.in_streamlit: st.markdown("Finished!")
+        video_file = open(os.path.join(os.path.join(config["data"]["output_folder"], "video.mp4")), 'rb')
+        if self.in_streamlit: st.video(video_file.read())

diffsynth/pipelines/sd3_image.py ADDED Viewed

@@ -0,0 +1,132 @@
+from ..models import ModelManager, SD3TextEncoder1, SD3TextEncoder2, SD3TextEncoder3, SD3DiT, SD3VAEDecoder, SD3VAEEncoder
+from ..prompters import SD3Prompter
+from ..schedulers import FlowMatchScheduler
+from .base import BasePipeline
+import torch
+from tqdm import tqdm
+class SD3ImagePipeline(BasePipeline):
+    def __init__(self, device="cuda", torch_dtype=torch.float16):
+        super().__init__(device=device, torch_dtype=torch_dtype)
+        self.scheduler = FlowMatchScheduler()
+        self.prompter = SD3Prompter()
+        # models
+        self.text_encoder_1: SD3TextEncoder1 = None
+        self.text_encoder_2: SD3TextEncoder2 = None
+        self.text_encoder_3: SD3TextEncoder3 = None
+        self.dit: SD3DiT = None
+        self.vae_decoder: SD3VAEDecoder = None
+        self.vae_encoder: SD3VAEEncoder = None
+    def denoising_model(self):
+        return self.dit
+    def fetch_models(self, model_manager: ModelManager, prompt_refiner_classes=[]):
+        self.text_encoder_1 = model_manager.fetch_model("sd3_text_encoder_1")
+        self.text_encoder_2 = model_manager.fetch_model("sd3_text_encoder_2")
+        if "sd3_text_encoder_3" in model_manager.model:
+            self.text_encoder_3 = model_manager.fetch_model("sd3_text_encoder_3")
+        self.dit = model_manager.fetch_model("sd3_dit")
+        self.vae_decoder = model_manager.fetch_model("sd3_vae_decoder")
+        self.vae_encoder = model_manager.fetch_model("sd3_vae_encoder")
+        self.prompter.fetch_models(self.text_encoder_1, self.text_encoder_2, self.text_encoder_3)
+        self.prompter.load_prompt_refiners(model_manager, prompt_refiner_classes)
+    @staticmethod
+    def from_model_manager(model_manager: ModelManager, prompt_refiner_classes=[]):
+        pipe = SD3ImagePipeline(
+            device=model_manager.device,
+            torch_dtype=model_manager.torch_dtype,
+        )
+        pipe.fetch_models(model_manager, prompt_refiner_classes)
+        return pipe
+    def encode_image(self, image, tiled=False, tile_size=64, tile_stride=32):
+        latents = self.vae_encoder(image, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        return latents
+    def decode_image(self, latent, tiled=False, tile_size=64, tile_stride=32):
+        image = self.vae_decoder(latent.to(self.device), tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        image = self.vae_output_to_image(image)
+        return image
+    def encode_prompt(self, prompt, positive=True):
+        prompt_emb, pooled_prompt_emb = self.prompter.encode_prompt(
+            prompt, device=self.device, positive=positive
+        )
+        return {"prompt_emb": prompt_emb, "pooled_prompt_emb": pooled_prompt_emb}
+    def prepare_extra_input(self, latents=None):
+        return {}
+    @torch.no_grad()
+    def __call__(
+        self,
+        prompt,
+        negative_prompt="",
+        cfg_scale=7.5,
+        input_image=None,
+        denoising_strength=1.0,
+        height=1024,
+        width=1024,
+        num_inference_steps=20,
+        tiled=False,
+        tile_size=128,
+        tile_stride=64,
+        progress_bar_cmd=tqdm,
+        progress_bar_st=None,
+    ):
+        # Tiler parameters
+        tiler_kwargs = {"tiled": tiled, "tile_size": tile_size, "tile_stride": tile_stride}
+        # Prepare scheduler
+        self.scheduler.set_timesteps(num_inference_steps, denoising_strength)
+        # Prepare latent tensors
+        if input_image is not None:
+            image = self.preprocess_image(input_image).to(device=self.device, dtype=self.torch_dtype)
+            latents = self.encode_image(image, **tiler_kwargs)
+            noise = torch.randn((1, 16, height//8, width//8), device=self.device, dtype=self.torch_dtype)
+            latents = self.scheduler.add_noise(latents, noise, timestep=self.scheduler.timesteps[0])
+        else:
+            latents = torch.randn((1, 16, height//8, width//8), device=self.device, dtype=self.torch_dtype)
+        # Encode prompts
+        prompt_emb_posi = self.encode_prompt(prompt, positive=True)
+        prompt_emb_nega = self.encode_prompt(negative_prompt, positive=False)
+        # Denoise
+        for progress_id, timestep in enumerate(progress_bar_cmd(self.scheduler.timesteps)):
+            timestep = timestep.unsqueeze(0).to(self.device)
+            # Classifier-free guidance
+            noise_pred_posi = self.dit(
+                latents, timestep=timestep, **prompt_emb_posi, **tiler_kwargs,
+            )
+            noise_pred_nega = self.dit(
+                latents, timestep=timestep, **prompt_emb_nega, **tiler_kwargs,
+            )
+            noise_pred = noise_pred_nega + cfg_scale * (noise_pred_posi - noise_pred_nega)
+            # DDIM
+            latents = self.scheduler.step(noise_pred, self.scheduler.timesteps[progress_id], latents)
+            # UI
+            if progress_bar_st is not None:
+                progress_bar_st.progress(progress_id / len(self.scheduler.timesteps))
+        # Decode image
+        image = self.decode_image(latents, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        return image

diffsynth/pipelines/sd_image.py ADDED Viewed

@@ -0,0 +1,173 @@
+from ..models import SDTextEncoder, SDUNet, SDVAEDecoder, SDVAEEncoder, SDIpAdapter, IpAdapterCLIPImageEmbedder
+from ..models.model_manager import ModelManager
+from ..controlnets import MultiControlNetManager, ControlNetUnit, ControlNetConfigUnit, Annotator
+from ..prompters import SDPrompter
+from ..schedulers import EnhancedDDIMScheduler
+from .base import BasePipeline
+from .dancer import lets_dance
+from typing import List
+import torch
+from tqdm import tqdm
+class SDImagePipeline(BasePipeline):
+    def __init__(self, device="cuda", torch_dtype=torch.float16):
+        super().__init__(device=device, torch_dtype=torch_dtype)
+        self.scheduler = EnhancedDDIMScheduler()
+        self.prompter = SDPrompter()
+        # models
+        self.text_encoder: SDTextEncoder = None
+        self.unet: SDUNet = None
+        self.vae_decoder: SDVAEDecoder = None
+        self.vae_encoder: SDVAEEncoder = None
+        self.controlnet: MultiControlNetManager = None
+        self.ipadapter_image_encoder: IpAdapterCLIPImageEmbedder = None
+        self.ipadapter: SDIpAdapter = None
+    def denoising_model(self):
+        return self.unet
+    def fetch_models(self, model_manager: ModelManager, controlnet_config_units: List[ControlNetConfigUnit]=[], prompt_refiner_classes=[]):
+        # Main models
+        self.text_encoder = model_manager.fetch_model("sd_text_encoder")
+        self.unet = model_manager.fetch_model("sd_unet")
+        self.vae_decoder = model_manager.fetch_model("sd_vae_decoder")
+        self.vae_encoder = model_manager.fetch_model("sd_vae_encoder")
+        self.prompter.fetch_models(self.text_encoder)
+        self.prompter.load_prompt_refiners(model_manager, prompt_refiner_classes)
+        # ControlNets
+        controlnet_units = []
+        for config in controlnet_config_units:
+            controlnet_unit = ControlNetUnit(
+                Annotator(config.processor_id, device=self.device),
+                model_manager.fetch_model("sd_controlnet", config.model_path),
+                config.scale
+            )
+            controlnet_units.append(controlnet_unit)
+        self.controlnet = MultiControlNetManager(controlnet_units)
+        # IP-Adapters
+        self.ipadapter = model_manager.fetch_model("sd_ipadapter")
+        self.ipadapter_image_encoder = model_manager.fetch_model("sd_ipadapter_clip_image_encoder")
+    @staticmethod
+    def from_model_manager(model_manager: ModelManager, controlnet_config_units: List[ControlNetConfigUnit]=[], prompt_refiner_classes=[]):
+        pipe = SDImagePipeline(
+            device=model_manager.device,
+            torch_dtype=model_manager.torch_dtype,
+        )
+        pipe.fetch_models(model_manager, controlnet_config_units, prompt_refiner_classes=[])
+        return pipe
+    def encode_image(self, image, tiled=False, tile_size=64, tile_stride=32):
+        latents = self.vae_encoder(image, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        return latents
+    def decode_image(self, latent, tiled=False, tile_size=64, tile_stride=32):
+        image = self.vae_decoder(latent.to(self.device), tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        image = self.vae_output_to_image(image)
+        return image
+    def encode_prompt(self, prompt, clip_skip=1, positive=True):
+        prompt_emb = self.prompter.encode_prompt(prompt, clip_skip=clip_skip, device=self.device, positive=positive)
+        return {"encoder_hidden_states": prompt_emb}
+    def prepare_extra_input(self, latents=None):
+        return {}
+    @torch.no_grad()
+    def __call__(
+        self,
+        prompt,
+        negative_prompt="",
+        cfg_scale=7.5,
+        clip_skip=1,
+        input_image=None,
+        ipadapter_images=None,
+        ipadapter_scale=1.0,
+        controlnet_image=None,
+        denoising_strength=1.0,
+        height=512,
+        width=512,
+        num_inference_steps=20,
+        tiled=False,
+        tile_size=64,
+        tile_stride=32,
+        progress_bar_cmd=tqdm,
+        progress_bar_st=None,
+    ):
+        # Tiler parameters
+        tiler_kwargs = {"tiled": tiled, "tile_size": tile_size, "tile_stride": tile_stride}
+        # Prepare scheduler
+        self.scheduler.set_timesteps(num_inference_steps, denoising_strength)
+        # Prepare latent tensors
+        if input_image is not None:
+            image = self.preprocess_image(input_image).to(device=self.device, dtype=self.torch_dtype)
+            latents = self.encode_image(image, **tiler_kwargs)
+            noise = torch.randn((1, 4, height//8, width//8), device=self.device, dtype=self.torch_dtype)
+            latents = self.scheduler.add_noise(latents, noise, timestep=self.scheduler.timesteps[0])
+        else:
+            latents = torch.randn((1, 4, height//8, width//8), device=self.device, dtype=self.torch_dtype)
+        # Encode prompts
+        prompt_emb_posi = self.encode_prompt(prompt, clip_skip=clip_skip, positive=True)
+        prompt_emb_nega = self.encode_prompt(negative_prompt, clip_skip=clip_skip, positive=False)
+        # IP-Adapter
+        if ipadapter_images is not None:
+            ipadapter_image_encoding = self.ipadapter_image_encoder(ipadapter_images)
+            ipadapter_kwargs_list_posi = {"ipadapter_kwargs_list": self.ipadapter(ipadapter_image_encoding, scale=ipadapter_scale)}
+            ipadapter_kwargs_list_nega = {"ipadapter_kwargs_list": self.ipadapter(torch.zeros_like(ipadapter_image_encoding))}
+        else:
+            ipadapter_kwargs_list_posi, ipadapter_kwargs_list_nega = {"ipadapter_kwargs_list": {}}, {"ipadapter_kwargs_list": {}}
+        # Prepare ControlNets
+        if controlnet_image is not None:
+            controlnet_image = self.controlnet.process_image(controlnet_image).to(device=self.device, dtype=self.torch_dtype)
+            controlnet_image = controlnet_image.unsqueeze(1)
+            controlnet_kwargs = {"controlnet_frames": controlnet_image}
+        else:
+            controlnet_kwargs = {"controlnet_frames": None}
+        # Denoise
+        for progress_id, timestep in enumerate(progress_bar_cmd(self.scheduler.timesteps)):
+            timestep = timestep.unsqueeze(0).to(self.device)
+            # Classifier-free guidance
+            noise_pred_posi = lets_dance(
+                self.unet, motion_modules=None, controlnet=self.controlnet,
+                sample=latents, timestep=timestep,
+                **prompt_emb_posi, **controlnet_kwargs, **tiler_kwargs, **ipadapter_kwargs_list_posi,
+                device=self.device,
+            )
+            noise_pred_nega = lets_dance(
+                self.unet, motion_modules=None, controlnet=self.controlnet,
+                sample=latents, timestep=timestep, **prompt_emb_nega, **controlnet_kwargs, **tiler_kwargs, **ipadapter_kwargs_list_nega,
+                device=self.device,
+            )
+            noise_pred = noise_pred_nega + cfg_scale * (noise_pred_posi - noise_pred_nega)
+            # DDIM
+            latents = self.scheduler.step(noise_pred, timestep, latents)
+            # UI
+            if progress_bar_st is not None:
+                progress_bar_st.progress(progress_id / len(self.scheduler.timesteps))
+        # Decode image
+        image = self.decode_image(latents, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
+        return image