PyPI - dreamer4 - Versions diffs - 0.0.91__tar.gz → 0.0.93__tar.gz - Mend

@@ -11,7 +11,7 @@ from dataclasses import dataclass, asdict
 import torch
 import torch.nn.functional as F
 from torch.nested import nested_tensor
-from torch.distributions import Normal
+from torch.distributions import Normal, kl
 from torch.nn import Module, ModuleList, Embedding, Parameter, Sequential, Linear, RMSNorm, Identity
 from torch import nn, cat, stack, arange, tensor, Tensor, is_tensor, full, zeros, ones, randint, rand, randn, randn_like, empty, full, linspace, arange
 from torch.utils._pytree import tree_flatten, tree_unflatten
@@ -81,6 +81,7 @@ class Experience:
     rewards: Tensor | None = None
     actions: tuple[Tensor, Tensor] | None = None
     log_probs: tuple[Tensor, Tensor] | None = None
+    old_action_unembeds: tuple[Tensor, Tensor] | None = None
     values: Tensor | None = None
     step_size: int | None = None
     lens: Tensor | None = None
@@ -198,6 +199,14 @@ def masked_mean(t, mask = None):
 def log(t, eps = 1e-20):
     return t.clamp(min = eps).log()
+def mean_log_var_to_distr(
+    mean_log_var: Tensor
+) -> Normal:
+    mean, log_var = mean_log_var.unbind(dim = -1)
+    std = (0.5 * log_var).exp()
+    return Normal(mean, std)
 def safe_cat(tensors, dim):
     tensors = [*filter(exists, tensors)]
@@ -824,10 +833,7 @@ class ActionEmbedder(Module):
         continuous_entropies = None
         if exists(continuous_targets):
-            mean, log_var = continuous_action_mean_log_var.unbind(dim = -1)
-            std = (0.5 * log_var).exp()
-            distr = Normal(mean, std)
+            distr = mean_log_var_to_distr(continuous_action_mean_log_var)
             continuous_log_probs = distr.log_prob(continuous_targets)
             if return_entropies:
@@ -842,6 +848,54 @@ class ActionEmbedder(Module):
         return log_probs, entropies
+    def kl_div(
+        self,
+        src: tuple[Tensor | None, Tensor | None],
+        tgt: tuple[Tensor | None, Tensor | None]
+    ) -> tuple[Tensor | None, Tensor | None]:
+        src_discrete, src_continuous = src
+        tgt_discrete, tgt_continuous = tgt
+        discrete_kl_div = None
+        # split discrete if it is not already (multiple discrete actions)
+        if exists(src_discrete):
+            discrete_split = self.num_discrete_actions.tolist()
+            if is_tensor(src_discrete):
+                src_discrete = src_discrete.split(discrete_split, dim = -1)
+            if is_tensor(tgt_discrete):
+                tgt_discrete = tgt_discrete.split(discrete_split, dim = -1)
+            discrete_kl_divs = []
+            for src_logit, tgt_logit in zip(src_discrete, tgt_discrete):
+                src_log_probs = src_logit.log_softmax(dim = -1)
+                tgt_prob = tgt_logit.softmax(dim = -1)
+                one_discrete_kl_div = F.kl_div(src_log_probs, tgt_prob, reduction = 'none')
+                discrete_kl_divs.append(one_discrete_kl_div.sum(dim = -1))
+            discrete_kl_div = stack(discrete_kl_divs, dim = -1)
+        # calculate kl divergence for continuous
+        continuous_kl_div = None
+        if exists(src_continuous):
+            src_normal = mean_log_var_to_distr(src_continuous)
+            tgt_normal = mean_log_var_to_distr(tgt_continuous)
+            continuous_kl_div = kl.kl_divergence(src_normal, tgt_normal)
+        return discrete_kl_div, continuous_kl_div
     def forward(
         self,
         *,
@@ -1834,6 +1888,7 @@ class DynamicsWorldModel(Module):
         gae_lambda = 0.95,
         ppo_eps_clip = 0.2,
         pmpo_pos_to_neg_weight = 0.5, # pos and neg equal weight
+        pmpo_kl_div_loss_weight = 1.,
         value_clip = 0.4,
         policy_entropy_weight = .01,
         gae_use_accelerated = False
@@ -2040,6 +2095,7 @@ class DynamicsWorldModel(Module):
         # pmpo related
         self.pmpo_pos_to_neg_weight = pmpo_pos_to_neg_weight
+        self.pmpo_kl_div_loss_weight = pmpo_kl_div_loss_weight
         # rewards related
@@ -2169,7 +2225,8 @@ class DynamicsWorldModel(Module):
         max_timesteps = 16,
         env_is_vectorized = False,
         use_time_kv_cache = True,
-        store_agent_embed = False
+        store_agent_embed = False,
+        store_old_action_unembeds = False,
     ):
         assert exists(self.video_tokenizer)
@@ -2195,6 +2252,7 @@ class DynamicsWorldModel(Module):
         latents = None
         acc_agent_embed = None
+        acc_policy_embed = None
         # keep track of termination, for setting the `is_truncated` field on Experience and for early stopping interaction with env
@@ -2247,6 +2305,9 @@ class DynamicsWorldModel(Module):
             policy_embed = self.policy_head(one_agent_embed)
+            if store_old_action_unembeds:
+                acc_policy_embed = safe_cat((acc_policy_embed, policy_embed), dim = 1)
             # sample actions
             sampled_discrete_actions, sampled_continuous_actions = self.action_embedder.sample(policy_embed, pred_head_index = 0, squeeze = True)
@@ -2330,6 +2391,7 @@ class DynamicsWorldModel(Module):
             actions = (discrete_actions, continuous_actions),
             log_probs = (discrete_log_probs, continuous_log_probs),
             values = values,
+            old_action_unembeds = self.action_embedder.unembed(acc_policy_embed, pred_head_index = 0) if store_old_action_unembeds else None,
             agent_embed = acc_agent_embed if store_agent_embed else None,
             step_size = step_size,
             agent_index = agent_index,
@@ -2358,6 +2420,7 @@ class DynamicsWorldModel(Module):
         old_values = experience.values
         rewards = experience.rewards
         agent_embeds = experience.agent_embed
+        old_action_unembeds = experience.old_action_unembeds
         step_size = experience.step_size
         agent_index = experience.agent_index
@@ -2436,6 +2499,7 @@ class DynamicsWorldModel(Module):
         if use_pmpo:
             pos_advantage_mask = advantage >= 0.
             neg_advantage_mask = ~pos_advantage_mask
         else:
             advantage = F.layer_norm(advantage, advantage.shape, eps = eps)
@@ -2499,6 +2563,25 @@ class DynamicsWorldModel(Module):
             policy_loss = -(α * pos + (1. - α) * neg)
+            # take care of kl
+            if self.pmpo_kl_div_loss_weight > 0.:
+                new_unembedded_actions = self.action_embedder.unembed(policy_embed, pred_head_index = 0)
+                discrete_kl_div, continuous_kl_div = self.action_embedder.kl_div(new_unembedded_actions, old_action_unembeds)
+                # accumulate discrete and continuous kl div
+                kl_div_loss = 0.
+                if exists(discrete_kl_div):
+                    kl_div_loss = kl_div_loss + discrete_kl_div[mask].mean()
+                if exists(continuous_kl_div):
+                    kl_div_loss = kl_div_loss + continuous_kl_div[mask].mean()
+                policy_loss = policy_loss + kl_div_loss * self.pmpo_kl_div_loss_weight
         else:
             # ppo clipped surrogate loss
@@ -2641,6 +2724,10 @@ class DynamicsWorldModel(Module):
         acc_agent_embed = None
+        # maybe store old actions for kl
+        acc_policy_embed = None
         # maybe return rewards
         decoded_rewards = None
@@ -2765,6 +2852,13 @@ class DynamicsWorldModel(Module):
                 policy_embed = self.policy_head(one_agent_embed)
+                # maybe store old actions
+                if store_old_action_unembeds:
+                    acc_policy_embed = safe_cat((acc_policy_embed, policy_embed))
+                # sample actions
                 sampled_discrete_actions, sampled_continuous_actions = self.action_embedder.sample(policy_embed, pred_head_index = 0, squeeze = True)
                 decoded_discrete_actions = safe_cat((decoded_discrete_actions, sampled_discrete_actions), dim = 1)
@@ -2853,6 +2947,7 @@ class DynamicsWorldModel(Module):
             video = video,
             proprio = proprio if has_proprio else None,
             agent_embed = acc_agent_embed if store_agent_embed else None,
+            old_action_unembeds = self.action_embedder.unembed(acc_policy_embed, pred_head_index = 0) if store_old_action_unembeds else None,
             step_size = step_size,
             agent_index = agent_index,
             lens = experience_lens,

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dreamer4
-Version: 0.0.91
+Version: 0.0.93
 Summary: Dreamer 4
 Project-URL: Homepage, https://pypi.org/project/dreamer4/
 Project-URL: Repository, https://github.com/lucidrains/dreamer4

@@ -1,6 +1,6 @@
 [project]
 name = "dreamer4"
-version = "0.0.91"
+version = "0.0.93"
 description = "Dreamer 4"
 authors = [
     { name = "Phil Wang", email = "lucidrains@gmail.com" }

@@ -346,6 +346,15 @@ def test_action_embedder():
     assert discrete_logits.shape == (2, 3, 8)
     assert continuous_mean_log_var.shape == (2, 3, 2, 2)
+    # test kl div
+    discrete_logits_tgt, continuous_mean_log_var_tgt = embedder.unembed(action_embed)
+    discrete_kl_div, continuous_kl_div = embedder.kl_div((discrete_logits, continuous_mean_log_var), (discrete_logits_tgt, continuous_mean_log_var_tgt))
+    assert discrete_kl_div.shape == (2, 3, 2)
+    assert continuous_kl_div.shape == (2, 3, 2)
     # return discrete split by number of actions
     discrete_logits, continuous_mean_log_var = embedder.unembed(action_embed, return_split_discrete = True)

dreamer4 0.0.91tar.gz → 0.0.93tar.gz

Potentially problematic release.

dreamer4 0.0.91__tar.gz → 0.0.93__tar.gz

Potentially problematic release.

dreamer4 0.0.91tar.gz → 0.0.93tar.gz