PyPI - flaxdiff - Versions diffs - 0.1.38__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

flaxdiff 0.1.38py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

flaxdiff/data/__init__.py +5 -1
flaxdiff/data/benchmark_decord.py +443 -0
flaxdiff/data/dataloaders.py +608 -0
flaxdiff/data/dataset_map.py +61 -6
flaxdiff/data/online_loader.py +779 -150
flaxdiff/data/sources/audio_utils.py +142 -0
flaxdiff/data/sources/av_example.py +125 -0
flaxdiff/data/sources/av_utils.py +590 -0
flaxdiff/data/sources/base.py +129 -0
flaxdiff/data/sources/images.py +309 -0
flaxdiff/data/sources/utils.py +158 -0
flaxdiff/data/sources/videos.py +250 -0
flaxdiff/data/sources/voxceleb2.py +412 -0
flaxdiff/inference/__init__.py +0 -0
flaxdiff/inference/pipeline.py +260 -0
flaxdiff/inference/utils.py +320 -0
flaxdiff/inputs/__init__.py +173 -0
flaxdiff/inputs/encoders.py +98 -0
flaxdiff/models/__init__.py +2 -1
flaxdiff/models/attention.py +22 -16
flaxdiff/models/autoencoder/autoencoder.py +141 -9
flaxdiff/models/autoencoder/diffusers.py +88 -25
flaxdiff/models/autoencoder/simple_autoenc.py +40 -8
flaxdiff/models/common.py +8 -18
flaxdiff/models/simple_unet.py +6 -17
flaxdiff/models/simple_vit.py +9 -13
flaxdiff/models/unet_3d.py +446 -0
flaxdiff/models/unet_3d_blocks.py +505 -0
flaxdiff/samplers/common.py +358 -96
flaxdiff/samplers/ddim.py +44 -5
flaxdiff/schedulers/karras.py +20 -12
flaxdiff/trainer/__init__.py +2 -1
flaxdiff/trainer/autoencoder_trainer.py +1 -2
flaxdiff/trainer/diffusion_trainer.py +35 -29
flaxdiff/trainer/general_diffusion_trainer.py +583 -0
flaxdiff/trainer/simple_trainer.py +51 -16
flaxdiff/utils.py +128 -57
{flaxdiff-0.1.38.dist-info → flaxdiff-0.2.0.dist-info}/METADATA +1 -1
flaxdiff-0.2.0.dist-info/RECORD +64 -0
{flaxdiff-0.1.38.dist-info → flaxdiff-0.2.0.dist-info}/WHEEL +1 -1
flaxdiff/data/datasets.py +0 -169
flaxdiff/data/sources/gcs.py +0 -81
flaxdiff/data/sources/tfds.py +0 -79
flaxdiff/trainer/video_diffusion_trainer.py +0 -62
flaxdiff-0.1.38.dist-info/RECORD +0 -50
{flaxdiff-0.1.38.dist-info → flaxdiff-0.2.0.dist-info}/top_level.txt +0 -0

flaxdiff/trainer/diffusion_trainer.py CHANGED Viewed

@@ -22,7 +22,7 @@ from .simple_trainer import SimpleTrainer, SimpleTrainState, Metrics
 from flaxdiff.models.autoencoder.autoencoder import AutoEncoder
 from flax.training import dynamic_scale as dynamic_scale_lib
-from flaxdiff.utils import TextEncoder, ConditioningEncoder
+from flaxdiff.inputs import TextEncoder, ConditioningEncoder
 class TrainState(SimpleTrainState):
     rngs: jax.random.PRNGKey
@@ -42,6 +42,7 @@ class DiffusionTrainer(SimpleTrainer):
     noise_schedule: NoiseScheduler
     model_output_transform: DiffusionPredictionTransform
     ema_decay: float = 0.999
+    native_resolution: int = None
     def __init__(self,
                  model: nn.Module,
@@ -54,6 +55,7 @@ class DiffusionTrainer(SimpleTrainer):
                  model_output_transform: DiffusionPredictionTransform = EpsilonPredictionTransform(),
                  autoencoder: AutoEncoder = None,
                  encoder: ConditioningEncoder = None,
+                 native_resolution: int = None,
                  **kwargs
                  ):
         super().__init__(
@@ -68,6 +70,20 @@ class DiffusionTrainer(SimpleTrainer):
         self.model_output_transform = model_output_transform
         self.unconditional_prob = unconditional_prob
+        if native_resolution is None:
+            if 'image' in input_shapes:
+                native_resolution = input_shapes['image'][1]
+            elif 'x' in input_shapes:
+                native_resolution = input_shapes['x'][1]
+            elif 'sample' in input_shapes:
+                native_resolution = input_shapes['sample'][1]
+            else:
+                raise ValueError("No image input shape found in input shapes")
+            if autoencoder is not None:
+                native_resolution = native_resolution * 8
+        self.native_resolution = native_resolution
         self.autoencoder = autoencoder
         self.encoder = encoder
@@ -118,9 +134,6 @@ class DiffusionTrainer(SimpleTrainer):
         model_output_transform = self.model_output_transform
         loss_fn = self.loss_fn
         unconditional_prob = self.unconditional_prob
-        # Determine the number of unconditional samples
-        num_unconditional = int(batch_size * unconditional_prob)
         null_labels_full = self.encoder([""])
         null_labels_seq = jnp.array(null_labels_full[0], dtype=jnp.float16)
@@ -159,12 +172,19 @@ class DiffusionTrainer(SimpleTrainer):
                 local_rng_state, rngs = local_rng_state.get_random_key()
                 images = autoencoder.encode(images, rngs)
-            label_seq = conditioning_encoder.encode_from_tokens(batch)
+            label_seq = conditioning_encoder.encode_from_tokens(batch['text'])
             # Generate random probabilities to decide how much of this batch will be unconditional
+            local_rng_state, uncond_key = local_rng_state.get_random_key()
+            # Efficient way to determine unconditional samples for JIT compatibility
+            uncond_mask = jax.random.bernoulli(
+                uncond_key,
+                shape=(local_batch_size,),
+                p=unconditional_prob
+            )
+            num_unconditional = jnp.sum(uncond_mask).astype(jnp.int32)
-            label_seq = jnp.concat(
-                [null_labels_seq[:num_unconditional], label_seq[num_unconditional:]], axis=0)
+            label_seq = jnp.concatenate([null_labels_seq[:num_unconditional], label_seq[num_unconditional:]], axis=0)
             noise_level, local_rng_state = noise_schedule.generate_timesteps(local_batch_size, local_rng_state)
@@ -200,21 +220,6 @@ class DiffusionTrainer(SimpleTrainer):
                 loss, grads = grad_fn(train_state.params)
                 if distributed_training:
                     grads = jax.lax.pmean(grads, "data")
-            # # check gradients for NaN/Inf
-            # has_nan_or_inf = jax.tree_util.tree_reduce(
-            #     lambda acc, x: jnp.logical_or(acc, jnp.logical_or(jnp.isnan(x).any(), jnp.isinf(x).any())),
-            #     grads,
-            #     initializer=False
-            # )
-            # # Only apply gradients if they're valid
-            # new_state = jax.lax.cond(
-            #     has_nan_or_inf,
-            #     lambda _: train_state,  # Skip gradient update
-            #     lambda _: train_state.apply_gradients(grads=grads),
-            #     operand=None
-            # )
             new_state = train_state.apply_gradients(grads=grads)
@@ -231,11 +236,11 @@ class DiffusionTrainer(SimpleTrainer):
                     ),
                 )
-            train_state = new_state.apply_ema(self.ema_decay)
+            new_state = new_state.apply_ema(self.ema_decay)
             if distributed_training:
                 loss = jax.lax.pmean(loss, "data")
-            return train_state, loss, rng_state
+            return new_state, loss, rng_state
         if distributed_training:
             train_step = shard_map(
@@ -251,7 +256,7 @@ class DiffusionTrainer(SimpleTrainer):
         return train_step
-    def _define_vaidation_step(self, sampler_class: Type[DiffusionSampler]=DDIMSampler, sampling_noise_schedule: NoiseScheduler=None):
+    def _define_validation_step(self, sampler_class: Type[DiffusionSampler]=DDIMSampler, sampling_noise_schedule: NoiseScheduler=None):
         model = self.model
         encoder = self.encoder
         autoencoder = self.autoencoder
@@ -260,7 +265,9 @@ class DiffusionTrainer(SimpleTrainer):
         null_labels_full = null_labels_full.astype(jnp.float16)
         # null_labels_seq = jnp.array(null_labels_full[0], dtype=jnp.float16)
-        if 'image' in self.input_shapes:
+        if self.native_resolution is not None:
+            image_size = self.native_resolution
+        elif 'image' in self.input_shapes:
             image_size = self.input_shapes['image'][1]
         elif 'x' in self.input_shapes:
             image_size = self.input_shapes['x'][1]
@@ -271,10 +278,8 @@ class DiffusionTrainer(SimpleTrainer):
         sampler = sampler_class(
             model=model,
-            params=None,
             noise_schedule=self.noise_schedule if sampling_noise_schedule is None else sampling_noise_schedule,
             model_output_transform=self.model_output_transform,
-            image_size=image_size,
             null_labels_seq=null_labels_full,
             autoencoder=autoencoder,
             guidance_scale=3.0,
@@ -290,7 +295,8 @@ class DiffusionTrainer(SimpleTrainer):
             labels_seq = jnp.array(labels_seq, dtype=jnp.float16)
             samples = sampler.generate_images(
                 params=val_state.ema_params,
-                num_images=len(labels_seq),
+                resolution=image_size,
+                num_samples=len(labels_seq),
                 diffusion_steps=diffusion_steps,
                 start_step=1000,
                 end_step=0,

flaxdiff 0.1.38__py3-none-any.whl → 0.2.0__py3-none-any.whl

flaxdiff 0.1.38py3-none-any.whl → 0.2.0py3-none-any.whl