PyPI - egogym - Versions diffs - 0.1.0__py3-none-any.whl - Mend

egogym 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (83) hide show

baselines/pi_policy.py +110 -0
baselines/rum/__init__.py +1 -0
baselines/rum/loss_fns/__init__.py +37 -0
baselines/rum/loss_fns/abstract_loss_fn.py +13 -0
baselines/rum/loss_fns/diffusion_policy_loss_fn.py +114 -0
baselines/rum/loss_fns/rvq_loss_fn.py +104 -0
baselines/rum/loss_fns/vqbet_loss_fn.py +202 -0
baselines/rum/models/__init__.py +1 -0
baselines/rum/models/bet/__init__.py +3 -0
baselines/rum/models/bet/bet.py +347 -0
baselines/rum/models/bet/gpt.py +277 -0
baselines/rum/models/bet/tokenized_bet.py +454 -0
baselines/rum/models/bet/utils.py +124 -0
baselines/rum/models/bet/vqbet.py +410 -0
baselines/rum/models/bet/vqvae/__init__.py +3 -0
baselines/rum/models/bet/vqvae/residual_vq.py +346 -0
baselines/rum/models/bet/vqvae/vector_quantize_pytorch.py +1194 -0
baselines/rum/models/bet/vqvae/vqvae.py +313 -0
baselines/rum/models/bet/vqvae/vqvae_utils.py +30 -0
baselines/rum/models/custom.py +33 -0
baselines/rum/models/encoders/__init__.py +0 -0
baselines/rum/models/encoders/abstract_base_encoder.py +70 -0
baselines/rum/models/encoders/identity.py +45 -0
baselines/rum/models/encoders/timm_encoders.py +82 -0
baselines/rum/models/policies/diffusion_policy.py +881 -0
baselines/rum/models/policies/open_loop.py +122 -0
baselines/rum/models/policies/simple_open_loop.py +108 -0
baselines/rum/molmo/server.py +144 -0
baselines/rum/policy.py +293 -0
baselines/rum/utils/__init__.py +212 -0
baselines/rum/utils/action_transforms.py +22 -0
baselines/rum/utils/decord_transforms.py +135 -0
baselines/rum/utils/rpc.py +249 -0
baselines/rum/utils/schedulers.py +71 -0
baselines/rum/utils/trajectory_vis.py +128 -0
baselines/rum/utils/zmq_utils.py +281 -0
baselines/rum_policy.py +108 -0
egogym/__init__.py +8 -0
egogym/assets/constants.py +1804 -0
egogym/components/__init__.py +1 -0
egogym/components/object.py +94 -0
egogym/egogym.py +106 -0
egogym/embodiments/__init__.py +10 -0
egogym/embodiments/arms/__init__.py +4 -0
egogym/embodiments/arms/arm.py +65 -0
egogym/embodiments/arms/droid.py +49 -0
egogym/embodiments/grippers/__init__.py +4 -0
egogym/embodiments/grippers/floating_gripper.py +58 -0
egogym/embodiments/grippers/rum.py +6 -0
egogym/embodiments/robot.py +95 -0
egogym/evaluate.py +216 -0
egogym/managers/__init__.py +2 -0
egogym/managers/objects_managers.py +30 -0
egogym/managers/textures_manager.py +21 -0
egogym/misc/molmo_client.py +49 -0
egogym/misc/molmo_server.py +197 -0
egogym/policies/__init__.py +1 -0
egogym/policies/base_policy.py +13 -0
egogym/scripts/analayze.py +834 -0
egogym/scripts/plot.py +87 -0
egogym/scripts/plot_correlation.py +392 -0
egogym/scripts/plot_correlation_hardcoded.py +338 -0
egogym/scripts/plot_failure.py +248 -0
egogym/scripts/plot_failure_hardcoded.py +195 -0
egogym/scripts/plot_failure_vlm.py +257 -0
egogym/scripts/plot_failure_vlm_hardcoded.py +177 -0
egogym/scripts/plot_line.py +303 -0
egogym/scripts/plot_line_hardcoded.py +285 -0
egogym/scripts/plot_pi0_bars.py +169 -0
egogym/tasks/close.py +84 -0
egogym/tasks/open.py +85 -0
egogym/tasks/pick.py +121 -0
egogym/utils.py +969 -0
egogym/wrappers/__init__.py +20 -0
egogym/wrappers/episode_monitor.py +282 -0
egogym/wrappers/unprivileged_chatgpt.py +163 -0
egogym/wrappers/unprivileged_gemini.py +157 -0
egogym/wrappers/unprivileged_molmo.py +88 -0
egogym/wrappers/unprivileged_moondream.py +121 -0
egogym-0.1.0.dist-info/METADATA +52 -0
egogym-0.1.0.dist-info/RECORD +83 -0
egogym-0.1.0.dist-info/WHEEL +5 -0
egogym-0.1.0.dist-info/top_level.txt +2 -0

baselines/rum/models/policies/diffusion_policy.py ADDED Viewed

@@ -0,0 +1,881 @@
+from typing import Tuple, Sequence, Dict, Union, Optional
+import numpy as np
+import math
+import torch
+import torch.nn as nn
+from diffusers.schedulers.scheduling_ddpm import DDPMScheduler
+from diffusers.training_utils import EMAModel
+from diffusers.optimization import get_scheduler
+from tqdm.auto import tqdm
+import torch.nn as nn
+import einops
+import torch.nn.functional as F
+GENERATOR_SEED_FIXED = 123456789
+class SinusoidalPosEmb(nn.Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.dim = dim
+    def forward(self, x):
+        device = x.device
+        half_dim = self.dim // 2
+        emb = math.log(10000) / (half_dim - 1)
+        emb = torch.exp(torch.arange(half_dim, device=device) * -emb)
+        emb = x[:, None] * emb[None, :]
+        emb = torch.cat((emb.sin(), emb.cos()), dim=-1)
+        return emb
+class Downsample1d(nn.Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.conv = nn.Conv1d(dim, dim, 3, 2, 1)
+    def forward(self, x):
+        return self.conv(x)
+class Upsample1d(nn.Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.conv = nn.ConvTranspose1d(dim, dim, 4, 2, 1)
+    def forward(self, x):
+        return self.conv(x)
+class Conv1dBlock(nn.Module):
+    '''
+        Conv1d --> GroupNorm --> Mish
+    '''
+    def __init__(self, inp_channels, out_channels, kernel_size, n_groups=8):
+        super().__init__()
+        self.block = nn.Sequential(
+            nn.Conv1d(inp_channels, out_channels, kernel_size, padding=kernel_size // 2),
+            nn.GroupNorm(n_groups, out_channels),
+            nn.Mish(),
+        )
+    def forward(self, x):
+        return self.block(x)
+class ConditionalResidualBlock1D(nn.Module):
+    def __init__(self,
+            in_channels,
+            out_channels,
+            cond_dim,
+            kernel_size=3,
+            n_groups=8):
+        super().__init__()
+        self.blocks = nn.ModuleList([
+            Conv1dBlock(in_channels, out_channels, kernel_size, n_groups=n_groups),
+            Conv1dBlock(out_channels, out_channels, kernel_size, n_groups=n_groups),
+        ])
+        # FiLM modulation https://arxiv.org/abs/1709.07871
+        # predicts per-channel scale and bias
+        cond_channels = out_channels * 2
+        self.out_channels = out_channels
+        self.cond_encoder = nn.Sequential(
+            nn.Mish(),
+            nn.Linear(cond_dim, cond_channels),
+            nn.Unflatten(-1, (-1, 1))
+        )
+        # make sure dimensions compatible
+        self.residual_conv = nn.Conv1d(in_channels, out_channels, 1) \
+            if in_channels != out_channels else nn.Identity()
+    def forward(self, x, cond):
+        '''
+            x : [ batch_size x in_channels x horizon ]
+            cond : [ batch_size x cond_dim]
+            returns:
+            out : [ batch_size x out_channels x horizon ]
+        '''
+        out = self.blocks[0](x)
+        embed = self.cond_encoder(cond)
+        embed = embed.reshape(
+            embed.shape[0], 2, self.out_channels, 1)
+        scale = embed[:,0,...]
+        bias = embed[:,1,...]
+        out = scale * out + bias
+        out = self.blocks[1](out)
+        out = out + self.residual_conv(x)
+        return out
+class ModuleAttrMixin(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self._dummy_variable = nn.Parameter()
+    @property
+    def device(self):
+        return next(iter(self.parameters())).device
+    @property
+    def dtype(self):
+        return next(iter(self.parameters())).dtype
+class TransformerForDiffusion(ModuleAttrMixin):
+    def __init__(self,
+            input_dim: int,
+            output_dim: int,
+            horizon: int,
+            n_obs_steps: int = None,
+            cond_dim: int = 0,
+            n_layer: int = 12,
+            n_head: int = 12,
+            n_emb: int = 768,
+            p_drop_emb: float = 0.1,
+            p_drop_attn: float = 0.1,
+            causal_attn: bool=False,
+            time_as_cond: bool=True,
+            obs_as_cond: bool=False,
+            n_cond_layers: int = 0
+        ) -> None:
+        super().__init__()
+        # compute number of tokens for main trunk and condition encoder
+        if n_obs_steps is None:
+            n_obs_steps = horizon
+        T = horizon
+        T_cond = 1
+        if not time_as_cond:
+            T += 1
+            T_cond -= 1
+        obs_as_cond = cond_dim > 0
+        if obs_as_cond:
+            assert time_as_cond
+            T_cond += n_obs_steps
+        # input embedding stem
+        self.input_emb = nn.Linear(input_dim, n_emb)
+        self.pos_emb = nn.Parameter(torch.zeros(1, T, n_emb))
+        self.drop = nn.Dropout(p_drop_emb)
+        # cond encoder
+        self.time_emb = SinusoidalPosEmb(n_emb)
+        self.cond_obs_emb = None
+        if obs_as_cond:
+            self.cond_obs_emb = nn.Linear(cond_dim, n_emb)
+        self.cond_pos_emb = None
+        self.encoder = None
+        self.decoder = None
+        encoder_only = False
+        if T_cond > 0:
+            self.cond_pos_emb = nn.Parameter(torch.zeros(1, T_cond, n_emb))
+            if n_cond_layers > 0:
+                encoder_layer = nn.TransformerEncoderLayer(
+                    d_model=n_emb,
+                    nhead=n_head,
+                    dim_feedforward=4*n_emb,
+                    dropout=p_drop_attn,
+                    activation='gelu',
+                    batch_first=True,
+                    norm_first=True
+                )
+                self.encoder = nn.TransformerEncoder(
+                    encoder_layer=encoder_layer,
+                    num_layers=n_cond_layers
+                )
+            else:
+                self.encoder = nn.Sequential(
+                    nn.Linear(n_emb, 4 * n_emb),
+                    nn.Mish(),
+                    nn.Linear(4 * n_emb, n_emb)
+                )
+            # decoder
+            decoder_layer = nn.TransformerDecoderLayer(
+                d_model=n_emb,
+                nhead=n_head,
+                dim_feedforward=4*n_emb,
+                dropout=p_drop_attn,
+                activation='gelu',
+                batch_first=True,
+                norm_first=True # important for stability
+            )
+            self.decoder = nn.TransformerDecoder(
+                decoder_layer=decoder_layer,
+                num_layers=n_layer
+            )
+        else:
+            # encoder only BERT
+            encoder_only = True
+            encoder_layer = nn.TransformerEncoderLayer(
+                d_model=n_emb,
+                nhead=n_head,
+                dim_feedforward=4*n_emb,
+                dropout=p_drop_attn,
+                activation='gelu',
+                batch_first=True,
+                norm_first=True
+            )
+            self.encoder = nn.TransformerEncoder(
+                encoder_layer=encoder_layer,
+                num_layers=n_layer
+            )
+        # attention mask
+        if causal_attn:
+            # causal mask to ensure that attention is only applied to the left in the input sequence
+            # torch.nn.Transformer uses additive mask as opposed to multiplicative mask in minGPT
+            # therefore, the upper triangle should be -inf and others (including diag) should be 0.
+            sz = T
+            mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
+            mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
+            self.register_buffer("mask", mask)
+            if time_as_cond and obs_as_cond:
+                S = T_cond
+                t, s = torch.meshgrid(
+                    torch.arange(T),
+                    torch.arange(S),
+                    indexing='ij'
+                )
+                mask = t >= (s-1) # add one dimension since time is the first token in cond
+                mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
+                self.register_buffer('memory_mask', mask)
+            else:
+                self.memory_mask = None
+        else:
+            self.mask = None
+            self.memory_mask = None
+        # decoder head
+        self.ln_f = nn.LayerNorm(n_emb)
+        self.head = nn.Linear(n_emb, output_dim)
+        # constants
+        self.T = T
+        self.T_cond = T_cond
+        self.horizon = horizon
+        self.time_as_cond = time_as_cond
+        self.obs_as_cond = obs_as_cond
+        self.encoder_only = encoder_only
+        # init
+        self.apply(self._init_weights)
+        # logger.info(
+        #     "number of parameters: %e", sum(p.numel() for p in self.parameters())
+        # )
+    def _init_weights(self, module):
+        ignore_types = (nn.Dropout,
+            SinusoidalPosEmb,
+            nn.TransformerEncoderLayer,
+            nn.TransformerDecoderLayer,
+            nn.TransformerEncoder,
+            nn.TransformerDecoder,
+            nn.ModuleList,
+            nn.Mish,
+            nn.Sequential)
+        if isinstance(module, (nn.Linear, nn.Embedding)):
+            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
+            if isinstance(module, nn.Linear) and module.bias is not None:
+                torch.nn.init.zeros_(module.bias)
+        elif isinstance(module, nn.MultiheadAttention):
+            weight_names = [
+                'in_proj_weight', 'q_proj_weight', 'k_proj_weight', 'v_proj_weight']
+            for name in weight_names:
+                weight = getattr(module, name)
+                if weight is not None:
+                    torch.nn.init.normal_(weight, mean=0.0, std=0.02)
+            bias_names = ['in_proj_bias', 'bias_k', 'bias_v']
+            for name in bias_names:
+                bias = getattr(module, name)
+                if bias is not None:
+                    torch.nn.init.zeros_(bias)
+        elif isinstance(module, nn.LayerNorm):
+            torch.nn.init.zeros_(module.bias)
+            torch.nn.init.ones_(module.weight)
+        elif isinstance(module, TransformerForDiffusion):
+            torch.nn.init.normal_(module.pos_emb, mean=0.0, std=0.02)
+            if module.cond_obs_emb is not None:
+                torch.nn.init.normal_(module.cond_pos_emb, mean=0.0, std=0.02)
+        elif isinstance(module, ignore_types):
+            # no param
+            pass
+        else:
+            raise RuntimeError("Unaccounted module {}".format(module))
+    def get_optim_groups(self, weight_decay: float=1e-3):
+        """
+        This long function is unfortunately doing something very simple and is being very defensive:
+        We are separating out all parameters of the model into two buckets: those that will experience
+        weight decay for regularization and those that won't (biases, and layernorm/embedding weights).
+        We are then returning the PyTorch optimizer object.
+        """
+        # separate out all parameters to those that will and won't experience regularizing weight decay
+        decay = set()
+        no_decay = set()
+        whitelist_weight_modules = (torch.nn.Linear, torch.nn.MultiheadAttention)
+        blacklist_weight_modules = (torch.nn.LayerNorm, torch.nn.Embedding)
+        for mn, m in self.named_modules():
+            for pn, p in m.named_parameters():
+                fpn = "%s.%s" % (mn, pn) if mn else pn  # full param name
+                if pn.endswith("bias"):
+                    # all biases will not be decayed
+                    no_decay.add(fpn)
+                elif pn.startswith("bias"):
+                    # MultiheadAttention bias starts with "bias"
+                    no_decay.add(fpn)
+                elif pn.endswith("weight") and isinstance(m, whitelist_weight_modules):
+                    # weights of whitelist modules will be weight decayed
+                    decay.add(fpn)
+                elif pn.endswith("weight") and isinstance(m, blacklist_weight_modules):
+                    # weights of blacklist modules will NOT be weight decayed
+                    no_decay.add(fpn)
+        # special case the position embedding parameter in the root GPT module as not decayed
+        no_decay.add("pos_emb")
+        no_decay.add("_dummy_variable")
+        if self.cond_pos_emb is not None:
+            no_decay.add("cond_pos_emb")
+        # validate that we considered every parameter
+        param_dict = {pn: p for pn, p in self.named_parameters()}
+        inter_params = decay & no_decay
+        union_params = decay | no_decay
+        assert (
+            len(inter_params) == 0
+        ), "parameters %s made it into both decay/no_decay sets!" % (str(inter_params),)
+        assert (
+            len(param_dict.keys() - union_params) == 0
+        ), "parameters %s were not separated into either decay/no_decay set!" % (
+            str(param_dict.keys() - union_params),
+        )
+        # create the pytorch optimizer object
+        optim_groups = [
+            {
+                "params": [param_dict[pn] for pn in sorted(list(decay))],
+                "weight_decay": weight_decay,
+            },
+            {
+                "params": [param_dict[pn] for pn in sorted(list(no_decay))],
+                "weight_decay": 0.0,
+            },
+        ]
+        return optim_groups
+    def configure_optimizers(self,
+            learning_rate: float=1e-4,
+            weight_decay: float=1e-3,
+            betas: Tuple[float, float]=(0.9,0.95)):
+        optim_groups = self.get_optim_groups(weight_decay=weight_decay)
+        optimizer = torch.optim.AdamW(
+            optim_groups, lr=learning_rate, betas=betas
+        )
+        return optimizer
+    def forward(self,
+        sample: torch.Tensor,
+        timestep: Union[torch.Tensor, float, int],
+        cond: Optional[torch.Tensor]=None, **kwargs):
+        """
+        x: (B,T,input_dim)
+        timestep: (B,) or int, diffusion step
+        cond: (B,T',cond_dim)
+        output: (B,T,input_dim)
+        """
+        # 1. time
+        timesteps = timestep
+        if not torch.is_tensor(timesteps):
+            # TODO: this requires sync between CPU and GPU. So try to pass timesteps as tensors if you can
+            timesteps = torch.tensor([timesteps], dtype=torch.long, device=sample.device)
+        elif torch.is_tensor(timesteps) and len(timesteps.shape) == 0:
+            timesteps = timesteps[None].to(sample.device)
+        # broadcast to batch dimension in a way that's compatible with ONNX/Core ML
+        timesteps = timesteps.expand(sample.shape[0])
+        time_emb = self.time_emb(timesteps).unsqueeze(1)
+        # (B,1,n_emb)
+        # process input
+        input_emb = self.input_emb(sample)
+        if self.encoder_only:
+            # BERT
+            token_embeddings = torch.cat([time_emb, input_emb], dim=1)
+            t = token_embeddings.shape[1]
+            position_embeddings = self.pos_emb[
+                :, :t, :
+            ]  # each position maps to a (learnable) vector
+            x = self.drop(token_embeddings + position_embeddings)
+            # (B,T+1,n_emb)
+            x = self.encoder(src=x, mask=self.mask)
+            # (B,T+1,n_emb)
+            x = x[:,1:,:]
+            # (B,T,n_emb)
+        else:
+            # encoder
+            cond_embeddings = time_emb
+            if self.obs_as_cond:
+                cond_obs_emb = self.cond_obs_emb(cond)
+                # (B,To,n_emb)
+                cond_embeddings = torch.cat([cond_embeddings, cond_obs_emb], dim=1)
+            tc = cond_embeddings.shape[1]
+            position_embeddings = self.cond_pos_emb[
+                :, :tc, :
+            ]  # each position maps to a (learnable) vector
+            x = self.drop(cond_embeddings + position_embeddings)
+            x = self.encoder(x)
+            memory = x
+            # (B,T_cond,n_emb)
+            # decoder
+            token_embeddings = input_emb
+            t = token_embeddings.shape[1]
+            position_embeddings = self.pos_emb[
+                :, :t, :
+            ]  # each position maps to a (learnable) vector
+            x = self.drop(token_embeddings + position_embeddings)
+            # (B,T,n_emb)
+            x = self.decoder(
+                tgt=x,
+                memory=memory,
+                tgt_mask=self.mask,
+                memory_mask=self.memory_mask
+            )
+            # (B,T,n_emb)
+        # head
+        x = self.ln_f(x)
+        x = self.head(x)
+        # (B,T,n_out)
+        return x
+class ConditionalUnet1D(nn.Module):
+    def __init__(self,
+        input_dim,
+        global_cond_dim,
+        diffusion_step_embed_dim=256,
+        down_dims=[256,512,1024],
+        kernel_size=5,
+        n_groups=8
+        ):
+        """
+        input_dim: Dim of actions.
+        global_cond_dim: Dim of global conditioning applied with FiLM
+          in addition to diffusion step embedding. This is usually obs_horizon * obs_dim
+        diffusion_step_embed_dim: Size of positional encoding for diffusion iteration k
+        down_dims: Channel size for each UNet level.
+          The length of this array determines numebr of levels.
+        kernel_size: Conv kernel size
+        n_groups: Number of groups for GroupNorm
+        """
+        super().__init__()
+        all_dims = [input_dim] + list(down_dims)
+        start_dim = down_dims[0]
+        dsed = diffusion_step_embed_dim
+        diffusion_step_encoder = nn.Sequential(
+            SinusoidalPosEmb(dsed),
+            nn.Linear(dsed, dsed * 4),
+            nn.Mish(),
+            nn.Linear(dsed * 4, dsed),
+        )
+        cond_dim = dsed + global_cond_dim
+        in_out = list(zip(all_dims[:-1], all_dims[1:]))
+        mid_dim = all_dims[-1]
+        self.mid_modules = nn.ModuleList([
+            ConditionalResidualBlock1D(
+                mid_dim, mid_dim, cond_dim=cond_dim,
+                kernel_size=kernel_size, n_groups=n_groups
+            ),
+            ConditionalResidualBlock1D(
+                mid_dim, mid_dim, cond_dim=cond_dim,
+                kernel_size=kernel_size, n_groups=n_groups
+            ),
+        ])
+        down_modules = nn.ModuleList([])
+        for ind, (dim_in, dim_out) in enumerate(in_out):
+            is_last = ind >= (len(in_out) - 1)
+            down_modules.append(nn.ModuleList([
+                ConditionalResidualBlock1D(
+                    dim_in, dim_out, cond_dim=cond_dim,
+                    kernel_size=kernel_size, n_groups=n_groups),
+                ConditionalResidualBlock1D(
+                    dim_out, dim_out, cond_dim=cond_dim,
+                    kernel_size=kernel_size, n_groups=n_groups),
+                Downsample1d(dim_out) if not is_last else nn.Identity()
+            ]))
+        up_modules = nn.ModuleList([])
+        for ind, (dim_in, dim_out) in enumerate(reversed(in_out[1:])):
+            is_last = ind >= (len(in_out) - 1)
+            up_modules.append(nn.ModuleList([
+                ConditionalResidualBlock1D(
+                    dim_out*2, dim_in, cond_dim=cond_dim,
+                    kernel_size=kernel_size, n_groups=n_groups),
+                ConditionalResidualBlock1D(
+                    dim_in, dim_in, cond_dim=cond_dim,
+                    kernel_size=kernel_size, n_groups=n_groups),
+                Upsample1d(dim_in) if not is_last else nn.Identity()
+            ]))
+        final_conv = nn.Sequential(
+            Conv1dBlock(start_dim, start_dim, kernel_size=kernel_size),
+            nn.Conv1d(start_dim, input_dim, 1),
+        )
+        self.diffusion_step_encoder = diffusion_step_encoder
+        self.up_modules = up_modules
+        self.down_modules = down_modules
+        self.final_conv = final_conv
+        print("number of parameters: {:e}".format(
+            sum(p.numel() for p in self.parameters()))
+        )
+    def forward(self,
+            sample: torch.Tensor,
+            timestep: Union[torch.Tensor, float, int],
+            global_cond=None):
+        """
+        x: (B,T,input_dim)
+        timestep: (B,) or int, diffusion step
+        global_cond: (B,global_cond_dim)
+        output: (B,T,input_dim)
+        """
+        # (B,T,C)
+        sample = sample.moveaxis(-1,-2)
+        # (B,C,T)
+        # 1. time
+        timesteps = timestep
+        if not torch.is_tensor(timesteps):
+            # TODO: this requires sync between CPU and GPU. So try to pass timesteps as tensors if you can
+            timesteps = torch.tensor([timesteps], dtype=torch.long, device=sample.device)
+        elif torch.is_tensor(timesteps) and len(timesteps.shape) == 0:
+            timesteps = timesteps[None].to(sample.device)
+        # broadcast to batch dimension in a way that's compatible with ONNX/Core ML
+        timesteps = timesteps.expand(sample.shape[0])
+        global_feature = self.diffusion_step_encoder(timesteps)
+        if global_cond is not None:
+            global_feature = torch.cat([
+                global_feature, global_cond
+            ], axis=-1)
+        x = sample
+        h = []
+        for idx, (resnet, resnet2, downsample) in enumerate(self.down_modules):
+            x = resnet(x, global_feature)
+            x = resnet2(x, global_feature)
+            h.append(x)
+            x = downsample(x)
+        for mid_module in self.mid_modules:
+            x = mid_module(x, global_feature)
+        for idx, (resnet, resnet2, upsample) in enumerate(self.up_modules):
+            x = torch.cat((x, h.pop()), dim=1)
+            x = resnet(x, global_feature)
+            x = resnet2(x, global_feature)
+            x = upsample(x)
+        x = self.final_conv(x)
+        # (B,C,T)
+        x = x.moveaxis(-1,-2)
+        # (B,T,C)
+        return x
+class DiffusionPolicy(nn.Module):
+    # observation and action dimensions corrsponding to
+    # the output of PushTEnv
+    def __init__(
+        self,
+        obs_dim: int,
+        act_dim: int,
+        obs_horizon: int,
+        pred_horizon: int,
+        action_horizon: int,
+        data_act_scale = 1.0,
+        data_obs_scale = 1.0,
+        policy_type = 'cnn',
+        device = 'cuda',
+    ):
+        super().__init__()
+        self.obs_dim = obs_dim
+        self.action_dim = act_dim
+        self.obs_horizon = obs_horizon
+        self.pred_horizon = pred_horizon
+        self.action_horizon = action_horizon
+        self.data_act_scale = data_act_scale
+        self.data_obs_scale = data_obs_scale
+        self.policy_type = policy_type
+        self.device = device
+        if self.policy_type == "cnn":
+            if self.action_horizon == 4:
+                self.pad_before = 1
+                self.pad_after = 2
+                self.pred_horizon = pred_horizon + self.pad_before + self.pad_after
+            if self.action_horizon == 6:
+                self.pad_before = 0
+                self.pad_after = 1
+                self.pred_horizon = pred_horizon + self.pad_before + self.pad_after
+        # create network object
+        if self.policy_type == "cnn":
+            self.noise_pred_net = ConditionalUnet1D(
+                input_dim=self.action_dim,
+                global_cond_dim=self.obs_dim*self.obs_horizon
+            ).to(self.device)
+        elif self.policy_type == "transformer":
+            self.noise_pred_net = TransformerForDiffusion(
+                input_dim=self.action_dim,
+                output_dim=self.action_dim,
+                horizon=pred_horizon,
+                n_obs_steps=obs_horizon,
+                cond_dim=self.obs_dim,
+                n_layer=8,
+                n_head=4,
+                n_emb=768,
+                p_drop_emb=0.0,
+                p_drop_attn=0.1,
+                causal_attn=True,
+                time_as_cond=True,
+                obs_as_cond=True,
+                n_cond_layers=0
+            ).to(self.device)
+        else:
+            raise NotImplementedError
+        # for this demo, we use DDPMScheduler with 100 diffusion iterations
+        self.num_diffusion_iters = 100
+        self.noise_scheduler = DDPMScheduler(
+            num_train_timesteps=self.num_diffusion_iters,
+            # the choise of beta schedule has big impact on performance
+            # we found squared cosine works the best
+            beta_schedule='squaredcos_cap_v2',
+            # clip output to [-1,1] to improve stability
+            clip_sample=True,
+            # our network predicts noise (instead of denoised action)
+            prediction_type='epsilon'
+        )
+        self.ema = EMAModel(
+            model=self.noise_pred_net,
+            inv_gamma= 1.0,
+            max_value= 0.9999,
+            min_value= 0.0,
+            power= 0.75,
+            update_after_step= 0,
+            )
+        self.ema_noise_pred_net = self.get_ema_average()
+        # self.ema = EMAModel(
+        #     parameters=self.noise_pred_net.parameters(),
+        #     power=0.75)
+    def forward(
+            self,
+            obs_seq: torch.Tensor,
+            action_seq: Optional[torch.Tensor],
+            eval = False
+        ) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor]]:
+        if eval:
+            return self._predict(obs_seq, None, action_seq)
+        else:
+            return self._update(obs_seq, None, action_seq)
+    def _update(
+        self,
+        obs_seq: torch.Tensor,
+        goal_seq: Optional[torch.Tensor],
+        action_seq: Optional[torch.Tensor],
+    ) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], Dict[str, float]]:
+        # Assume dimensions are N T D for N sequences of T timesteps with dimension D.
+        if obs_seq.shape[1] < self.obs_horizon:
+            obs_seq = torch.cat((torch.tile(obs_seq[:, 0, :], (1, self.obs_horizon-obs_seq.shape[1], 1)), obs_seq), dim=-2)
+        if self.policy_type == "cnn":
+            action_seq = torch.cat((torch.zeros_like(action_seq[:, :self.pad_before]), action_seq, torch.zeros_like(action_seq[:, :self.pad_after])), dim=1)
+        naction = self.normalize_act_data(action_seq).to(self.device)
+        nobs = self.normalize_obs_data(obs_seq).to(self.device)
+        # nobs = obs_seq.to(self.device)
+        # naction = action_seq.to(self.device)
+        B = nobs.shape[0]
+        # observation as FiLM conditioning
+        # (B, obs_horizon, obs_dim)
+        obs_cond = nobs[:,:self.obs_horizon,:]
+        # (B, obs_horizon * obs_dim)
+        # obs_cond = obs_cond.flatten(start_dim=1)
+        # sample noise to add to actions
+        noise = torch.randn(naction.shape, device="cuda")
+        # sample a diffusion iteration for each data point
+        timesteps = torch.randint(
+            0, self.noise_scheduler.config.num_train_timesteps,
+            (B,), device="cuda"
+        ).long()
+        # add noise to the clean images according to the noise magnitude at each diffusion iteration
+        # (this is the forward diffusion process)
+        noisy_actions = self.noise_scheduler.add_noise(
+            naction, noise, timesteps)
+        # predict the noise residual
+        if self.policy_type == "cnn":
+            obs_cond = obs_cond.flatten(start_dim=1)
+            noise_pred = self.noise_pred_net(
+                noisy_actions, timesteps, global_cond=obs_cond)
+        elif self.policy_type == "transformer":
+            noise_pred = self.noise_pred_net(
+                noisy_actions, timesteps, cond=obs_cond)
+        else:
+            raise NotImplementedError
+        # L2 loss
+        loss = nn.functional.mse_loss(noise_pred, noise)
+        loss_dict = {
+            "total_loss": loss.detach().cpu().item(),
+        }
+        return None, loss, loss_dict
+    def normalize_obs_data(self, data):
+        return data / self.data_obs_scale
+    def unnormalize_obs_data(self, data):
+        return data * self.data_obs_scale
+    def normalize_act_data(self, data):
+        return data / self.data_act_scale
+    def unnormalize_act_data(self, data):
+        return data * self.data_act_scale
+    def _predict(
+        self,
+        obs_seq: torch.Tensor,
+        goal_seq: Optional[torch.Tensor],
+        action_seq: Optional[torch.Tensor],
+    ) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], Dict[str, float]]:
+        self.ema_noise_pred_net = self.get_ema_average()
+        B = obs_seq.shape[0]
+        # stack the last obs_horizon (2) number of observations
+        if obs_seq.shape[1] < self.obs_horizon:
+            obs_seq = torch.cat((torch.tile(obs_seq[:, 0, :], (1, self.obs_horizon-obs_seq.shape[1], 1)), obs_seq), dim=-2)
+        # normalize observation
+        nobs = self.normalize_obs_data(obs_seq)
+        # device transfer
+        # nobs = torch.from_numpy(nobs).to("cuda", dtype=torch.float32)
+        # infer action
+        with torch.no_grad():
+            # reshape observation to (B,obs_horizon*obs_dim)
+            # obs_cond = nobs.unsqueeze(0).flatten(start_dim=1)
+            # initialize action from Guassian noise
+            noisy_action = torch.randn(
+                (B, self.pred_horizon, self.action_dim), device=self.device)
+            naction = noisy_action
+            # init scheduler
+            self.noise_scheduler.set_timesteps(self.num_diffusion_iters)
+            for k in self.noise_scheduler.timesteps:
+                # predict noise
+                if self.policy_type == "cnn":
+                    # (B, obs_horizon, obs_dim)
+                    #################################
+                    obs_cond = nobs.flatten(start_dim=1)
+                    # obs_cond = nobs.unsqueeze(0).flatten(start_dim=1)
+                    #################################
+                    noise_pred = self.ema_noise_pred_net(
+                        sample=naction,
+                        timestep=k,
+                        global_cond=obs_cond
+                    )
+                elif self.policy_type == "transformer":
+                    obs_cond = nobs
+                    noise_pred = self.ema_noise_pred_net(
+                        sample=naction,
+                        timestep=k,
+                        cond=obs_cond
+                    )
+                else:
+                    raise NotImplementedError
+                # inverse diffusion step (remove noise)
+                naction = self.noise_scheduler.step(
+                    model_output=noise_pred,
+                    timestep=k,
+                    sample=naction
+                ).prev_sample
+        # unnormalize action
+        if self.policy_type == "cnn":
+            naction = naction[:, self.pad_before : -self.pad_after]
+        naction = self.unnormalize_act_data(naction)
+        action_pred = naction.detach().to(self.device)
+        # (B, pred_horizon, action_dim)
+        action_pred = action_pred[0]
+        start = self.obs_horizon - 1
+        end = start + self.action_horizon
+        a_hat = action_pred[start:end,:]
+        if action_seq is None:
+            return a_hat, None, {}
+        action_mse = F.mse_loss(naction, action_seq, reduction="none")
+        action_l1 = F.l1_loss(naction, action_seq, reduction="none")
+        norm = torch.norm(action_seq, p=2, dim=-1, keepdim=True) + 1e-9
+        normalized_mse = (action_mse / norm).mean()
+        translation_loss = F.mse_loss(
+            naction[:, :, :3], action_seq[:, :, :3]
+        ).detach()
+        rotation_loss = F.mse_loss(
+            naction[:, :, 3:6], action_seq[:, :, 3:6]
+        ).detach()
+        gripper_loss = F.mse_loss(
+            naction[:, :, 6:], action_seq[:, :, 6:]
+        ).detach()
+        loss_dict = {
+            "L2_loss": action_mse.mean().detach().cpu().item(),
+            "L2_loss_normalized": normalized_mse.mean().detach().cpu().item(),
+            "L1_loss": action_l1.mean().detach().cpu().item(),
+            "translation_loss": translation_loss,
+            "rotation_loss": rotation_loss,
+            "gripper_loss": gripper_loss,
+        }
+        return a_hat, action_mse.mean(), loss_dict
+    def ema_step(self):
+        self.ema.step(self.noise_pred_net)
+    def get_ema_average(self):
+        return self.ema.averaged_model
+    def _begin_epoch(self, optimizer, **kwargs):
+        return None
+    def _load_from_state_dict(self, *args, **kwargs):
+        return super()._load_from_state_dict(*args, **kwargs)