PyPI - multi-agent-rlenv - Versions diffs - 3.5.0__py3-none-any.whl → 3.5.2__py3-none-any.whl - Mend

multi-agent-rlenv 3.5.0py3-none-any.whl → 3.5.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

marlenv/__init__.py CHANGED Viewed

@@ -62,7 +62,7 @@ print(env.extras_shape) # (1, )
 If you want to create a new environment, you can simply create a class that inherits from `MARLEnv`. If you want to create a wrapper around an existing `MARLEnv`, you probably want to subclass `RLEnvWrapper` which implements a default behaviour for every method.
 """
-__version__ = "3.5.0"
+__version__ = "3.5.2"
 from . import models
 from .models import (

marlenv/models/env.py CHANGED Viewed

@@ -199,7 +199,7 @@ class MARLEnv(ABC, Generic[ActionSpaceType]):
             episode.add(step, action)
         return episode
-    def has_same_inouts(self, other) -> bool:
+    def has_same_inouts(self, other: "MARLEnv[ActionSpaceType]") -> bool:
         """Alias for `have_same_inouts(self, other)`."""
         if not isinstance(other, MARLEnv):
             return False

marlenv/models/episode.py CHANGED Viewed

@@ -66,13 +66,13 @@ class Episode:
         if target_len < self.episode_len:
             raise ValueError(f"Cannot pad episode to a smaller size: {target_len} < {self.episode_len}")
         padding_size = target_len - self.episode_len
-        obs = self.all_observations + [self.all_observations[0]] * padding_size
-        extras = self.all_extras + [self.all_extras[0]] * padding_size
-        actions = self.actions + [self.actions[0]] * padding_size
-        rewards = self.rewards + [self.rewards[0]] * padding_size
+        obs = self.all_observations + [np.zeros_like(self.all_observations[0])] * padding_size
+        extras = self.all_extras + [np.zeros_like(self.all_extras[0])] * padding_size
+        actions = self.actions + [np.zeros_like(self.actions[0])] * padding_size
+        rewards = self.rewards + [np.zeros_like(self.rewards[0])] * padding_size
         availables = self.all_available_actions + [self.all_available_actions[0]] * padding_size
-        states = self.all_states + [self.all_states[0]] * padding_size
-        states_extras = self.all_states_extras + [self.all_states_extras[0]] * padding_size
+        states = self.all_states + [np.zeros_like(self.all_states[0])] * padding_size
+        states_extras = self.all_states_extras + [np.zeros_like(self.all_states_extras[0])] * padding_size
         other = {key: value + [value[0]] * padding_size for key, value in self.other.items()}
         return Episode(
             all_observations=obs,

marlenv/models/step.py CHANGED Viewed

@@ -39,7 +39,7 @@ class Step:
             case int() | float():
                 self.reward = np.array([reward], dtype=np.float32)
             case np.ndarray():
-                self.reward = reward
+                self.reward = reward.astype(np.float32)
             case other:
                 # We assume this is a sequence of some sort
                 self.reward = np.array(other, dtype=np.float32)

marlenv/wrappers/__init__.py CHANGED Viewed

@@ -10,6 +10,7 @@ from .blind_wrapper import Blind
 from .centralised import Centralized
 from .available_actions_mask import AvailableActionsMask
 from .delayed_rewards import DelayedReward
+from .potential_shaping import PotentialShaping
 __all__ = [
     "RLEnvWrapper",
@@ -26,4 +27,5 @@ __all__ = [
     "Blind",
     "Centralized",
     "DelayedReward",
+    "PotentialShaping",
 ]

marlenv/wrappers/potential_shaping.py ADDED Viewed

@@ -0,0 +1,54 @@
+from abc import abstractmethod, ABC
+from .rlenv_wrapper import RLEnvWrapper
+from marlenv import Space, MARLEnv, Observation
+from typing import TypeVar, Optional
+import numpy as np
+import numpy.typing as npt
+from dataclasses import dataclass
+A = TypeVar("A", bound=Space)
+@dataclass
+class PotentialShaping(RLEnvWrapper[A], ABC):
+    """
+    Potential shaping for the Laser Learning Environment (LLE).
+    https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf
+    """
+    gamma: float
+    def __init__(
+        self,
+        env: MARLEnv,
+        gamma: float = 1.0,
+        extra_shape: Optional[tuple[int]] = None,
+    ):
+        super().__init__(env, extra_shape=extra_shape)
+        self.gamma = gamma
+        self._current_potential = self.compute_potential()
+    def add_extras(self, obs: Observation) -> Observation:
+        """Add the extras related to potential shaping. Does nothing by default."""
+        return obs
+    def reset(self):
+        obs, state = super().reset()
+        self._current_potential = self.compute_potential()
+        return self.add_extras(obs), state
+    def step(self, actions):
+        prev_potential = self._current_potential
+        step = super().step(actions)
+        self._current_potential = self.compute_potential()
+        shaped_reward = self.gamma * self._current_potential - prev_potential
+        step.obs = self.add_extras(step.obs)
+        step.reward += shaped_reward
+        return step
+    @abstractmethod
+    def compute_potential(self) -> float | npt.NDArray[np.float32]:
+        """Compute the potential of the current state of the environment."""

marlenv/wrappers/rlenv_wrapper.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from typing import Optional, Sequence
 from typing_extensions import TypeVar
 from dataclasses import dataclass
-from abc import ABC
 import numpy as np
 from marlenv.models import MARLEnv, Space, DiscreteSpace, State
@@ -11,7 +10,7 @@ AS = TypeVar("AS", bound=Space, default=Space)
 @dataclass
-class RLEnvWrapper(MARLEnv[AS], ABC):
+class RLEnvWrapper(MARLEnv[AS]):
     """Parent class for all RLEnv wrappers"""
     wrapped: MARLEnv[AS]

{multi_agent_rlenv-3.5.0.dist-info → multi_agent_rlenv-3.5.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: multi-agent-rlenv
-Version: 3.5.0
+Version: 3.5.2
 Summary: A strongly typed Multi-Agent Reinforcement Learning framework
 Project-URL: repository, https://github.com/yamoling/multi-agent-rlenv
 Author-email: Yannick Molinghen <yannick.molinghen@ulb.be>

{multi_agent_rlenv-3.5.0.dist-info → multi_agent_rlenv-3.5.2.dist-info}/RECORD RENAMED Viewed

@@ -1,4 +1,4 @@
-marlenv/__init__.py,sha256=PDJGtS3Psbiif5tc-PyUCfIju4pSlc6ukb-if6rbOv0,3656
+marlenv/__init__.py,sha256=UoZATsYMuKlnHyYdIRX7eQ6mGcmMww-tqX3uCyWVqRA,3656
 marlenv/env_builder.py,sha256=RJoHJLYAUE1ausAoJiRC3fUxyxpH1WRJf7Sdm2ml-uk,5517
 marlenv/env_pool.py,sha256=nCEBkGQU62fcvCAANyAqY8gCFjYlVnSCg-V3Fhx00yc,933
 marlenv/exceptions.py,sha256=gJUC_2rVAvOfK_ypVFc7Myh-pIfSU3To38VBVS_0rZA,1179
@@ -11,16 +11,16 @@ marlenv/adapters/pettingzoo_adapter.py,sha256=w9Ta-X4L_6ZXdDGmREOdcU0vpLR8lGP__s
 marlenv/adapters/pymarl_adapter.py,sha256=2s7EY31s1hrml3q-BBaXo_eDMXTjkebozZPvzsgrb9c,3353
 marlenv/adapters/smac_adapter.py,sha256=8uWC7YKsaSXeTS8AUhpGOKvrWMbVEQT2-pml5BaFUB0,8343
 marlenv/models/__init__.py,sha256=uihmRs71Gg5z7Bvau_xtaQVg7xEtX8sTzi74bIHL5P0,443
-marlenv/models/env.py,sha256=KB3-LcvIbGG-78L8ZavfjKykoO85FvhZjs5lJQKvxE0,7813
-marlenv/models/episode.py,sha256=IF3-8YV0tHsIjTYZUOlHmX_IyjnrrzTWk-HPk_mwcR4,15100
+marlenv/models/env.py,sha256=BG1iVHxGD_p827mF0ewyOBn6wU2gtFsHLW1b4UtW-V0,7841
+marlenv/models/episode.py,sha256=IKPLuDVlz85Be6zrC21gyautjqRkEApS4fgRqQR52s0,15190
 marlenv/models/observation.py,sha256=kAmh1hIoC2TGrZlGVzV0y4TXXCSrI7gcmG0raeoncYk,3153
 marlenv/models/spaces.py,sha256=v7jnhPfj7vq7DFFJpSbQEYe4NGLLlj_bj2pzvvSBX7Y,7777
 marlenv/models/state.py,sha256=958PXTHadi3gtRnhGgcGtqBnF44R11kdcx62NN2gwxA,1717
-marlenv/models/step.py,sha256=LKGAV2Cu-k9Gz1hwrfvGx51l8axtQRqDE9WVL5r2A1Q,3037
+marlenv/models/step.py,sha256=00PhD_ccdCIYAY1SVJdJU91weU0Y_tNIJwK16TN_53I,3056
 marlenv/models/transition.py,sha256=UkJVRNxZoyRkjE7YmKtUf_4xA7cOEh20O60dTldbvys,5070
 marlenv/utils/__init__.py,sha256=C3qhvkVwctBP8mG3G5nkAZ5DKfErVRkdbHo7oeWVsM0,209
 marlenv/utils/schedule.py,sha256=slhtpQiBHSUNyPmSkKb2yBgiHJqPhoPxa33GxvyV8Jc,8565
-marlenv/wrappers/__init__.py,sha256=wl23NUYcl0vPJb2QLpe4Xj8ZocUIOarAZX8CgWqdSQE,808
+marlenv/wrappers/__init__.py,sha256=uV00m0jysZBgOW-TvRekis-gsAKPeR51P3HsuRZKxG8,880
 marlenv/wrappers/agent_id_wrapper.py,sha256=9qHV3LMQ4AjcDCSuvQhz5h9hUf7Xtrdi2sIxmNZk5NA,1126
 marlenv/wrappers/available_actions_mask.py,sha256=OMyt2KntsR8JA2RuRgvwdzqzPe-_H-KKkbUUJfe_mks,1404
 marlenv/wrappers/available_actions_wrapper.py,sha256=_HRl9zsjJgSrLgVuT-BjpnnfrfM8ic6wBUWlg67uCx4,926
@@ -30,10 +30,11 @@ marlenv/wrappers/delayed_rewards.py,sha256=P8az9rYmu67OzL1ZEFqfTQcCxRI_AXKXrKUBQ
 marlenv/wrappers/last_action_wrapper.py,sha256=QVepSLcWExqACwKvAM0G2LALapSoWdd7YHmah2LZ3vE,2603
 marlenv/wrappers/paddings.py,sha256=0aAi7RP1yL8I5mR4Oxzl9-itKys88mgsPjqe7q-frbk,2024
 marlenv/wrappers/penalty_wrapper.py,sha256=3YBoUV6ETksZ8tFEOq1WYXvPs3ejMAehE6-QA8e4JOE,864
-marlenv/wrappers/rlenv_wrapper.py,sha256=9k0bH5oHfnxnQYXL5PIRVbJfiTP_jnh2c9stMC8bA1o,3018
+marlenv/wrappers/potential_shaping.py,sha256=T_QvnmWReCgpyoInxRw2UXbmdvcBD5U-vV1ledLG7y8,1661
+marlenv/wrappers/rlenv_wrapper.py,sha256=S6G1VjFklTEzU6bj0AXrTDXnsTQJARq8VB4uUH6AXe4,2993
 marlenv/wrappers/time_limit.py,sha256=GxbxcbfFyuVg14ylQU2C_cjmV9q4uDAt5wepfgX_PyM,3976
 marlenv/wrappers/video_recorder.py,sha256=ucBQSNRPqDr-2mYxrTCqlrWcxSWtSJ7XlRC9-LdukBM,2535
-multi_agent_rlenv-3.5.0.dist-info/METADATA,sha256=XiqIH0A9YzbwckC_1hf8KbOI99LRDyYY--rRqAoMxZE,4897
-multi_agent_rlenv-3.5.0.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-multi_agent_rlenv-3.5.0.dist-info/licenses/LICENSE,sha256=_eeiGVoIJ7kYt6l1zbIvSBQppTnw0mjnYk1lQ4FxEjE,1074
-multi_agent_rlenv-3.5.0.dist-info/RECORD,,
+multi_agent_rlenv-3.5.2.dist-info/METADATA,sha256=QjQkN0ZJsbaa-GyP7fAs4JFSTJkEUBLrIV0zCGPUvrc,4897
+multi_agent_rlenv-3.5.2.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+multi_agent_rlenv-3.5.2.dist-info/licenses/LICENSE,sha256=_eeiGVoIJ7kYt6l1zbIvSBQppTnw0mjnYk1lQ4FxEjE,1074
+multi_agent_rlenv-3.5.2.dist-info/RECORD,,

{multi_agent_rlenv-3.5.0.dist-info → multi_agent_rlenv-3.5.2.dist-info}/WHEEL RENAMED Viewed

File without changes

{multi_agent_rlenv-3.5.0.dist-info → multi_agent_rlenv-3.5.2.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

multi-agent-rlenv 3.5.0__py3-none-any.whl → 3.5.2__py3-none-any.whl

multi-agent-rlenv 3.5.0py3-none-any.whl → 3.5.2py3-none-any.whl