PyPI - multi-agent-rlenv - Versions diffs - 3.3.3__py3-none-any.whl → 3.3.6__py3-none-any.whl - Mend

multi-agent-rlenv 3.3.3py3-none-any.whl → 3.3.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

marlenv/__init__.py +1 -1
marlenv/adapters/__init__.py +1 -1
marlenv/adapters/gym_adapter.py +14 -14
marlenv/adapters/overcooked_adapter.py +24 -13
marlenv/adapters/pettingzoo_adapter.py +6 -6
marlenv/env_builder.py +1 -1
marlenv/models/env.py +2 -2
marlenv/wrappers/__init__.py +2 -2
marlenv/wrappers/centralised.py +1 -1
{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/METADATA +1 -1
{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/RECORD +13 -13
{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/WHEEL +0 -0
{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/licenses/LICENSE +0 -0

marlenv/__init__.py CHANGED Viewed

@@ -62,7 +62,7 @@ print(env.extras_shape) # (1, )
 If you want to create a new environment, you can simply create a class that inherits from `MARLEnv`. If you want to create a wrapper around an existing `MARLEnv`, you probably want to subclass `RLEnvWrapper` which implements a default behaviour for every method.
 """
-__version__ = "3.3.3"
+__version__ = "3.3.6"
 from . import models
 from . import wrappers

marlenv/adapters/__init__.py CHANGED Viewed

@@ -20,7 +20,7 @@ if find_spec("smac") is not None:
     HAS_SMAC = True
 HAS_OVERCOOKED = False
-if find_spec("overcooked_ai_py.mdp") is not None:
+if find_spec("overcooked_ai_py") is not None and find_spec("overcooked_ai_py.mdp") is not None:
     import numpy
     # Overcooked assumes a version of numpy <2.0 where np.Inf is available.

marlenv/adapters/gym_adapter.py CHANGED Viewed

@@ -42,26 +42,26 @@ class Gym(MARLEnv[Sequence | npt.NDArray, ActionSpace]):
             case other:
                 raise NotImplementedError(f"Action space {other} not supported")
         super().__init__(space, env.observation_space.shape, (1,))
-        self.env = env
-        if self.env.unwrapped.spec is not None:
-            self.name = self.env.unwrapped.spec.id
+        self._gym_env = env
+        if self._gym_env.unwrapped.spec is not None:
+            self.name = self._gym_env.unwrapped.spec.id
         else:
             self.name = "gym-no-id"
-        self.last_obs = None
+        self._last_obs = None
     def get_observation(self):
-        if self.last_obs is None:
+        if self._last_obs is None:
             raise ValueError("No observation available. Call reset() first.")
-        return self.last_obs
+        return self._last_obs
     def step(self, actions):
-        obs, reward, done, truncated, info = self.env.step(list(actions)[0])
-        self.last_obs = Observation(
+        obs, reward, done, truncated, info = self._gym_env.step(list(actions)[0])
+        self._last_obs = Observation(
             np.array([obs], dtype=np.float32),
             self.available_actions(),
         )
         return Step(
-            self.last_obs,
+            self._last_obs,
             self.get_state(),
             np.array([reward]),
             done,
@@ -73,18 +73,18 @@ class Gym(MARLEnv[Sequence | npt.NDArray, ActionSpace]):
         return State(np.zeros(1, dtype=np.float32))
     def reset(self):
-        obs_data, _info = self.env.reset()
-        self.last_obs = Observation(
+        obs_data, _info = self._gym_env.reset()
+        self._last_obs = Observation(
             np.array([obs_data], dtype=np.float32),
             self.available_actions(),
         )
-        return self.last_obs, self.get_state()
+        return self._last_obs, self.get_state()
     def get_image(self):
-        image = np.array(self.env.render())
+        image = np.array(self._gym_env.render())
         if sys.platform in ("linux", "linux2"):
             image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
         return image
     def seed(self, seed_value: int):
-        self.env.reset(seed=seed_value)
+        self._gym_env.reset(seed=seed_value)

marlenv/adapters/overcooked_adapter.py CHANGED Viewed

@@ -22,9 +22,10 @@ class Overcooked(MARLEnv[Sequence[int] | npt.NDArray, DiscreteActionSpace]):
         self._oenv = oenv
         assert isinstance(oenv.mdp, OvercookedGridworld)
         self._mdp = oenv.mdp
-        self.visualizer = StateVisualizer()
-        shape = tuple(int(s) for s in self._mdp.get_lossless_state_encoding_shape())
-        shape = (shape[2], shape[0], shape[1])
+        self._visualizer = StateVisualizer()
+        width, height, layers = tuple(self._mdp.lossless_state_encoding_shape)
+        # -1 because we extract the "urgent" layer to the extras
+        shape = (int(layers - 1), int(width), int(height))
         super().__init__(
             action_space=DiscreteActionSpace(
                 n_agents=self._mdp.num_players,
@@ -32,10 +33,10 @@ class Overcooked(MARLEnv[Sequence[int] | npt.NDArray, DiscreteActionSpace]):
                 action_names=[Action.ACTION_TO_CHAR[a] for a in Action.ALL_ACTIONS],
             ),
             observation_shape=shape,
-            extras_shape=(1,),
-            extras_meanings=["timestep"],
+            extras_shape=(2,),
+            extras_meanings=["timestep", "urgent"],
             state_shape=shape,
-            state_extra_shape=(1,),
+            state_extra_shape=(2,),
             reward_space=ContinuousSpace.from_shape(1),
         )
         self.horizon = int(self._oenv.horizon)
@@ -53,19 +54,25 @@ class Overcooked(MARLEnv[Sequence[int] | npt.NDArray, DiscreteActionSpace]):
         return self.state.timestep
     def _state_data(self):
-        state = np.array(self._mdp.lossless_state_encoding(self.state))
+        players_layers = self._mdp.lossless_state_encoding(self.state)
+        state = np.array(players_layers, dtype=np.float32)
         # Use axes (agents, channels, height, width) instead of (agents, height, width, channels)
         state = np.transpose(state, (0, 3, 1, 2))
-        return state
+        # The last last layer is for "urgency", put it in the extras
+        urgency = float(np.all(state[:, -1]))
+        state = state[:, :-1]
+        return state, urgency
     def get_state(self):
-        return State(self._state_data()[0], np.array([self.time_step / self.horizon]))
+        data, is_urgent = self._state_data()
+        return State(data[0], np.array([self.time_step / self.horizon, is_urgent], dtype=np.float32))
     def get_observation(self) -> Observation:
+        data, is_urgent = self._state_data()
         return Observation(
-            data=self._state_data(),
+            data=data,
             available_actions=self.available_actions(),
-            extras=np.array([[self.time_step / self.horizon]] * self.n_agents),
+            extras=np.array([[self.time_step / self.horizon, is_urgent]] * self.n_agents, dtype=np.float32),
         )
     def available_actions(self):
@@ -74,7 +81,7 @@ class Overcooked(MARLEnv[Sequence[int] | npt.NDArray, DiscreteActionSpace]):
         for agent_num, agent_actions in enumerate(actions):
             for action in agent_actions:
                 available_actions[agent_num, Action.ACTION_TO_INDEX[action]] = True
-        return np.array(available_actions)
+        return np.array(available_actions, dtype=np.bool)
     def step(self, actions: Sequence[int] | npt.NDArray[np.int32 | np.int64]) -> Step:
         actions = [Action.ALL_ACTIONS[a] for a in actions]
@@ -88,6 +95,10 @@ class Overcooked(MARLEnv[Sequence[int] | npt.NDArray, DiscreteActionSpace]):
             info=info,
         )
+    def reset(self):
+        self._oenv.reset()
+        return self.get_observation(), self.get_state()
     def __deepcopy__(self, memo: dict):
         mdp = deepcopy(self._mdp)
         return Overcooked(OvercookedEnv.from_mdp(mdp, horizon=self.horizon))
@@ -111,7 +122,7 @@ class Overcooked(MARLEnv[Sequence[int] | npt.NDArray, DiscreteActionSpace]):
             ]:
                 rewards_dict[key] = value
-        image = self.visualizer.render_state(
+        image = self._visualizer.render_state(
             state=self._oenv.state,
             grid=self._mdp.terrain_mtx,
             hud_data=StateVisualizer.default_hud_data(self._oenv.state, **rewards_dict),

marlenv/adapters/pettingzoo_adapter.py CHANGED Viewed

@@ -32,7 +32,7 @@ class PettingZoo(MARLEnv[npt.NDArray, ActionSpace]):
         obs_space = env.observation_space(env.possible_agents[0])
         if obs_space.shape is None:
             raise NotImplementedError("Only discrete observation spaces are supported")
-        self._env = env
+        self._pz_env = env
         env.reset()
         super().__init__(space, obs_space.shape, self.get_state().shape)
         self.agents = env.possible_agents
@@ -40,13 +40,13 @@ class PettingZoo(MARLEnv[npt.NDArray, ActionSpace]):
     def get_state(self):
         try:
-            return self._env.state()
+            return self._pz_env.state()
         except NotImplementedError:
             return np.array([0])
     def step(self, actions: npt.NDArray | Sequence):
         action_dict = dict(zip(self.agents, actions))
-        obs, reward, term, trunc, info = self._env.step(action_dict)
+        obs, reward, term, trunc, info = self._pz_env.step(action_dict)
         obs_data = np.array([v for v in obs.values()])
         reward = np.sum([r for r in reward.values()], keepdims=True)
         self.last_observation = Observation(obs_data, self.available_actions())
@@ -54,7 +54,7 @@ class PettingZoo(MARLEnv[npt.NDArray, ActionSpace]):
         return Step(self.last_observation, state, reward, any(term.values()), any(trunc.values()), info)
     def reset(self):
-        obs = self._env.reset()[0]
+        obs = self._pz_env.reset()[0]
         obs_data = np.array([v for v in obs.values()])
         self.last_observation = Observation(obs_data, self.available_actions(), self.get_state())
         return self.last_observation
@@ -65,7 +65,7 @@ class PettingZoo(MARLEnv[npt.NDArray, ActionSpace]):
         return self.last_observation
     def seed(self, seed_value: int):
-        self._env.reset(seed=seed_value)
+        self._pz_env.reset(seed=seed_value)
     def render(self, *_):
-        return self._env.render()
+        return self._pz_env.render()

marlenv/env_builder.py CHANGED Viewed

@@ -127,7 +127,7 @@ class Builder(Generic[A, AS]):
         from marlenv.models import DiscreteActionSpace
         assert isinstance(self._env.action_space, DiscreteActionSpace)
-        self._env = wrappers.Centralised(self._env)  # type: ignore
+        self._env = wrappers.Centralized(self._env)  # type: ignore
         return self
     def record(

marlenv/models/env.py CHANGED Viewed

@@ -127,7 +127,7 @@ class MARLEnv(ABC, Generic[ActionType, ActionSpaceType]):
     def seed(self, seed_value: int):
         """Set the environment seed"""
-        raise NotImplementedError("Method not implemented")
+        return
     @abstractmethod
     def get_observation(self) -> Observation:
@@ -158,9 +158,9 @@ class MARLEnv(ABC, Generic[ActionType, ActionSpaceType]):
         """Perform a random step in the environment."""
         return self.step(self.sample_action())
+    @abstractmethod
     def reset(self) -> tuple[Observation, State]:
         """Reset the environment and return the initial observation and state."""
-        return self.get_observation(), self.get_state()
     def render(self):
         """Render the environment in a window (or in console)"""

marlenv/wrappers/__init__.py CHANGED Viewed

@@ -7,7 +7,7 @@ from .paddings import PadObservations, PadExtras
 from .penalty_wrapper import TimePenalty
 from .available_actions_wrapper import AvailableActions
 from .blind_wrapper import Blind
-from .centralised import Centralised
+from .centralised import Centralized
 from .available_actions_mask import AvailableActionsMask
 from .delayed_rewards import DelayedReward
@@ -24,6 +24,6 @@ __all__ = [
     "TimePenalty",
     "AvailableActions",
     "Blind",
-    "Centralised",
+    "Centralized",
     "DelayedReward",
 ]

marlenv/wrappers/centralised.py CHANGED Viewed

@@ -14,7 +14,7 @@ A = TypeVar("A", bound=npt.NDArray | Sequence[int] | Sequence[Sequence[float]])
 @dataclass
-class Centralised(RLEnvWrapper[A, DiscreteActionSpace]):
+class Centralized(RLEnvWrapper[A, DiscreteActionSpace]):
     joint_action_space: ActionSpace
     def __init__(self, env: MARLEnv[A, DiscreteActionSpace]):

{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: multi-agent-rlenv
-Version: 3.3.3
+Version: 3.3.6
 Summary: A strongly typed Multi-Agent Reinforcement Learning framework
 Project-URL: repository, https://github.com/yamoling/multi-agent-rlenv
 Author-email: Yannick Molinghen <yannick.molinghen@ulb.be>

{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/RECORD RENAMED Viewed

@@ -1,29 +1,29 @@
-marlenv/__init__.py,sha256=JSZFpurtqjZjg-3iAjw0xoBH6HxTrv2M4gLC_Vw7foY,3741
-marlenv/env_builder.py,sha256=_rdwcWRqnHP7i4M4Oje1Y2nrEBKH9EzTpqOuw_PNUyw,5560
+marlenv/__init__.py,sha256=iEVXbl4mQmey7P2uFdeKEYWEmZ8QxNS_f52jNdw4nZs,3741
+marlenv/env_builder.py,sha256=s_lQANqP3iNc8nmcr3CanRVsExnn9qh0ihh4lFr0c4c,5560
 marlenv/env_pool.py,sha256=R3WIrnQ5Zvff4HR1ecfkDmuO2zl7v1ywQ0K2_nvWFzs,1070
 marlenv/exceptions.py,sha256=gJUC_2rVAvOfK_ypVFc7Myh-pIfSU3To38VBVS_0rZA,1179
 marlenv/mock_env.py,sha256=qB0fYFIfbopJf7Va8kCeVI5vsOy1-2JdEYe9gdV1Ruw,4761
 marlenv/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-marlenv/adapters/__init__.py,sha256=NEmuHPWz4SGQcgF7QuIeA0QaXK141JoYco-7mqj9Ghk,883
-marlenv/adapters/gym_adapter.py,sha256=Vx6ZrYI7kiNlJODmqyjXu9WCdbCr6trcMNot0pvYD74,2864
-marlenv/adapters/overcooked_adapter.py,sha256=ASAOYHDCExy6AZVBwJ4p7i2-ncfFy5Yo1yUCHb66J1A,6297
-marlenv/adapters/pettingzoo_adapter.py,sha256=9rwSc_b7qV3ChtEIevOkJvtIp7WoY3CVnu6L9DxlMB4,2852
+marlenv/adapters/__init__.py,sha256=rWiqQOqTx3kVL5ZkPo3rkczrlQBBhQbU55zGI26SEeY,929
+marlenv/adapters/gym_adapter.py,sha256=6CBEjANViTJBTUBmtVyrhJrzjBJxNs_4hmMnXXG2mkU,2906
+marlenv/adapters/overcooked_adapter.py,sha256=JZhB50cQGWGjaHWuPwskUKr6YthEptpYC3cD7i9GVvk,6832
+marlenv/adapters/pettingzoo_adapter.py,sha256=4F1au6uctsqRhGfcZOeDRH-8hmrFXnA5xH1Z1Pnek3s,2870
 marlenv/adapters/pymarl_adapter.py,sha256=x__E90XpFbfSWhnBHtkcD6WYkmKki1LByNbUFoDBUcg,3416
 marlenv/adapters/smac_adapter.py,sha256=fOfKo1hL4ioKtM5qQGcwtfdkdwUEACjAZqaGmkoQUcU,8373
 marlenv/models/__init__.py,sha256=9M-rnj94nsdyO4zm_VEtyYBmde3iD2_eIY4bMB-IqCo,555
-marlenv/models/env.py,sha256=faezAKOIccBauOFeo9wu5sX32pFmP3AMmGyJzaTRJcM,7514
+marlenv/models/env.py,sha256=S0Yd75X4O7desCHrsdEdz045Aw1Zrtu-pkfz5obYQJI,7433
 marlenv/models/episode.py,sha256=ZGBx6lb2snrUhDgFEwHPV1dp-XvMA7k4quQVUNQxsP0,15140
 marlenv/models/observation.py,sha256=kAmh1hIoC2TGrZlGVzV0y4TXXCSrI7gcmG0raeoncYk,3153
 marlenv/models/spaces.py,sha256=pw8Sum_fHBkR-lyfTqUij4azMCNm8oBZrYZe4WVR7rA,7652
 marlenv/models/state.py,sha256=958PXTHadi3gtRnhGgcGtqBnF44R11kdcx62NN2gwxA,1717
 marlenv/models/step.py,sha256=LKGAV2Cu-k9Gz1hwrfvGx51l8axtQRqDE9WVL5r2A1Q,3037
 marlenv/models/transition.py,sha256=2vvuhSSq911weCXio9nuyfsLVh_7ORSU_znOqpLLdLg,5107
-marlenv/wrappers/__init__.py,sha256=P7YCK1KYJvE6BAlH--nOW9PSlrohhuw-1wlfgCTOl9U,808
+marlenv/wrappers/__init__.py,sha256=wl23NUYcl0vPJb2QLpe4Xj8ZocUIOarAZX8CgWqdSQE,808
 marlenv/wrappers/agent_id_wrapper.py,sha256=oTIAYxKD1JtHfrZN43mf-3e8pxjd0nxm07vxs3BfrGY,1187
 marlenv/wrappers/available_actions_mask.py,sha256=JoCJ9eqHlkY8wfY-oaceEi8yp1Efs1iK6IO2Ibf9oZA,1468
 marlenv/wrappers/available_actions_wrapper.py,sha256=9UTwP3LXvncBITJeQnEqwiP_lj-ipULACkGs-2QbMrI,1026
 marlenv/wrappers/blind_wrapper.py,sha256=YEayRf_dclhzx6LXsasZ-IM7C71kyPb1gV0pHYYfjig,857
-marlenv/wrappers/centralised.py,sha256=J4hOMRT2fit936LifANNJtP7UbBEb_xIyF4VL9-fZGw,3226
+marlenv/wrappers/centralised.py,sha256=E2Saezwfw9uWX4R9jDgH3iQLW8c_h2Y1TdtmUi9nIvs,3226
 marlenv/wrappers/delayed_rewards.py,sha256=6oGJe-L_gGI-pQMResbkjsMDvXpni2SQvnTQ6wsZqGo,1170
 marlenv/wrappers/last_action_wrapper.py,sha256=u7a3Da5sg_gMrwZ3SE7PAwt2m9xSYYDKjngQyOmcJ74,2886
 marlenv/wrappers/paddings.py,sha256=VQOF4zaP61R74tQ4XTTT-FkK2QSy31AukICnqCy6zB0,2119
@@ -31,7 +31,7 @@ marlenv/wrappers/penalty_wrapper.py,sha256=v4_H8OEN2-yujLzRb6P7W7KwmXHtjAFsxcdp3
 marlenv/wrappers/rlenv_wrapper.py,sha256=C2XekgBIM4x3Wa2Mtsn7rihRD4ymC2hORI473Af0sfw,2962
 marlenv/wrappers/time_limit.py,sha256=CDIMMJPMyIDHSFxUJaC7nb7Kd86-07NgZeFhrpZm82o,3985
 marlenv/wrappers/video_recorder.py,sha256=d5AFu6qHqby9mOcBsYWYPxAPiK1vtnfMYdZ81AnCekI,2624
-multi_agent_rlenv-3.3.3.dist-info/METADATA,sha256=XC6OPrNx7othVjaeuNSXsinjCoChSiNmtbUTWGQdX_g,4897
-multi_agent_rlenv-3.3.3.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-multi_agent_rlenv-3.3.3.dist-info/licenses/LICENSE,sha256=_eeiGVoIJ7kYt6l1zbIvSBQppTnw0mjnYk1lQ4FxEjE,1074
-multi_agent_rlenv-3.3.3.dist-info/RECORD,,
+multi_agent_rlenv-3.3.6.dist-info/METADATA,sha256=oHsLxFw-wlgzPyswB6r3QIWZWM_injRIFJuJczyZDTo,4897
+multi_agent_rlenv-3.3.6.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+multi_agent_rlenv-3.3.6.dist-info/licenses/LICENSE,sha256=_eeiGVoIJ7kYt6l1zbIvSBQppTnw0mjnYk1lQ4FxEjE,1074
+multi_agent_rlenv-3.3.6.dist-info/RECORD,,

{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/WHEEL RENAMED Viewed

File without changes

{multi_agent_rlenv-3.3.3.dist-info → multi_agent_rlenv-3.3.6.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

multi-agent-rlenv 3.3.3__py3-none-any.whl → 3.3.6__py3-none-any.whl

multi-agent-rlenv 3.3.3py3-none-any.whl → 3.3.6py3-none-any.whl