PyPI - evolutionary-policy-optimization - Versions diffs - 0.0.48__tar.gz → 0.0.50__tar.gz - Mend

evolutionary-policy-optimization 0.0.48tar.gz → 0.0.50tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

{evolutionary_policy_optimization-0.0.48 → evolutionary_policy_optimization-0.0.50}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: evolutionary-policy-optimization
-Version: 0.0.48
+Version: 0.0.50
 Summary: EPO - Pytorch
 Project-URL: Homepage, https://pypi.org/project/evolutionary-policy-optimization/
 Project-URL: Repository, https://github.com/lucidrains/evolutionary-policy-optimization

{evolutionary_policy_optimization-0.0.48 → evolutionary_policy_optimization-0.0.50}/evolutionary_policy_optimization/epo.py RENAMED Viewed

@@ -6,7 +6,7 @@ from collections import namedtuple
 from random import randrange
 import torch
-from torch import nn, cat, stack, is_tensor, tensor
+from torch import nn, cat, stack, is_tensor, tensor, Tensor
 import torch.nn.functional as F
 from torch.nn import Linear, Module, ModuleList
 from torch.utils.data import TensorDataset, DataLoader
@@ -412,7 +412,16 @@ class LatentGenePool(Module):
         self.can_migrate = num_islands > 1
         self.migrate_every = migrate_every
-        self.register_buffer('step', tensor(0))
+        self.register_buffer('step', tensor(1))
+    def get_distance(self):
+        # returns latent euclidean distance as proxy for diversity
+        latents = rearrange(self.latents, '(i p) g -> i p g', i = self.num_islands)
+        distance = torch.cdist(latents, latents)
+        return distance
     def advance_step_(self):
         self.step.add_(1)
@@ -643,6 +652,7 @@ class Agent(Module):
         actor_lr = 1e-4,
         critic_lr = 1e-4,
         latent_lr = 1e-5,
+        diversity_aux_loss_weight = 0.,
         use_critic_ema = True,
         critic_ema_beta = 0.99,
         max_grad_norm = 0.5,
@@ -698,6 +708,11 @@ class Agent(Module):
         self.latent_optim = optim_klass(latent_gene_pool.parameters(), lr = latent_lr, **latent_optim_kwargs) if not latent_gene_pool.frozen_latents else None
+        # promotes latents to be farther apart for diversity maintenance
+        self.has_diversity_loss = diversity_aux_loss_weight > 0.
+        self.diversity_aux_loss_weight = diversity_aux_loss_weight
     def save(self, path, overwrite = False):
         path = Path(path)
@@ -879,11 +894,19 @@ class Agent(Module):
                 # maybe update latents, if not frozen
-                if not self.latent_gene_pool.frozen_latents:
-                    orig_latents.backward(latents.grad)
+                if self.latent_gene_pool.frozen_latents:
+                    continue
+                orig_latents.backward(latents.grad)
+                if self.has_diversity_loss:
+                    diversity = self.latent_gene_pool.get_distance()
+                    diversity_loss = diversity.mul(-1).exp().mean()
+                    (diversity_loss * self.diversity_aux_loss_weight).backward()
-                    self.latent_optim.step()
-                    self.latent_optim.zero_grad()
+                self.latent_optim.step()
+                self.latent_optim.zero_grad()
         # apply evolution
@@ -930,6 +953,7 @@ def create_agent(
     latent_gene_pool_kwargs: dict = dict(),
     actor_kwargs: dict = dict(),
     critic_kwargs: dict = dict(),
+    **kwargs
 ) -> Agent:
     latent_gene_pool = LatentGenePool(
@@ -957,7 +981,8 @@ def create_agent(
         actor = actor,
         critic = critic,
         latent_gene_pool = latent_gene_pool,
-        use_critic_ema = use_critic_ema
+        use_critic_ema = use_critic_ema,
+        **kwargs
     )
     return agent

{evolutionary_policy_optimization-0.0.48 → evolutionary_policy_optimization-0.0.50}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "evolutionary-policy-optimization"
-version = "0.0.48"
+version = "0.0.50"
 description = "EPO - Pytorch"
 authors = [
     { name = "Phil Wang", email = "lucidrains@gmail.com" }

{evolutionary_policy_optimization-0.0.48 → evolutionary_policy_optimization-0.0.50}/tests/test_epo.py RENAMED Viewed

@@ -75,6 +75,7 @@ def test_create_agent(
 @pytest.mark.parametrize('frozen_latents', (False, True))
 @pytest.mark.parametrize('use_critic_ema', (False, True))
+@pytest.mark.parametrize('diversity_aux_loss_weight', (0., 1e-3))
 def test_e2e_with_mock_env(
     frozen_latents,
     use_critic_ema
@@ -89,6 +90,7 @@ def test_e2e_with_mock_env(
         actor_dim_hiddens = (256, 128),
         critic_dim_hiddens = (256, 128, 64),
         use_critic_ema = use_critic_ema,
+        diversity_aux_loss_weight = diversity_aux_loss_weight,
         latent_gene_pool_kwargs = dict(
             frozen_latents = frozen_latents,
         )