PyPI - multi-agent-rlenv - Versions diffs - 3.5.2__py3-none-any.whl → 3.5.5__py3-none-any.whl - Mend

multi-agent-rlenv 3.5.2py3-none-any.whl → 3.5.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

marlenv/__init__.py +1 -1
marlenv/models/episode.py +13 -56
marlenv/models/observation.py +10 -0
marlenv/models/state.py +8 -0
marlenv/utils/__init__.py +4 -2
marlenv/utils/cached_property_collector.py +17 -0
marlenv/wrappers/__init__.py +2 -0
marlenv/wrappers/action_randomizer.py +17 -0
{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/METADATA +4 -1
{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/RECORD +12 -10
{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/WHEEL +0 -0
{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/licenses/LICENSE +0 -0

marlenv/__init__.py CHANGED Viewed

@@ -62,7 +62,7 @@ print(env.extras_shape) # (1, )
 If you want to create a new environment, you can simply create a class that inherits from `MARLEnv`. If you want to create a wrapper around an existing `MARLEnv`, you probably want to subclass `RLEnvWrapper` which implements a default behaviour for every method.
 """
-__version__ = "3.5.2"
+__version__ = "3.5.5"
 from . import models
 from .models import (

marlenv/models/episode.py CHANGED Viewed

@@ -2,30 +2,32 @@ from dataclasses import dataclass
 from functools import cached_property
 from typing import Any, Callable, Optional, Sequence, overload
+import cv2
 import numpy as np
 import numpy.typing as npt
-import cv2
+from marlenv.exceptions import EnvironmentMismatchException, ReplayMismatchException
+from marlenv.utils import CachedPropertyInvalidator
+from .env import MARLEnv
 from .observation import Observation
 from .state import State
 from .step import Step
 from .transition import Transition
-from .env import MARLEnv
-from marlenv.exceptions import EnvironmentMismatchException, ReplayMismatchException
 @dataclass
-class Episode:
+class Episode(CachedPropertyInvalidator):
     """Episode model made of observations, actions, rewards, ..."""
     all_observations: list[npt.NDArray[np.float32]]
     all_extras: list[npt.NDArray[np.float32]]
     actions: list[npt.NDArray]
     rewards: list[npt.NDArray[np.float32]]
-    all_available_actions: list[npt.NDArray[np.bool_]]
+    all_available_actions: list[npt.NDArray[np.bool]]
     all_states: list[npt.NDArray[np.float32]]
     all_states_extras: list[npt.NDArray[np.float32]]
-    metrics: dict[str, float]
+    metrics: dict[str, Any]
     episode_len: int
     other: dict[str, list[Any]]
     is_done: bool = False
@@ -33,7 +35,7 @@ class Episode:
     """Whether the episode did reach a terminal state (different from truncated)"""
     @staticmethod
-    def new(obs: Observation, state: State, metrics: Optional[dict[str, float]] = None) -> "Episode":
+    def new(obs: Observation, state: State, metrics: Optional[dict[str, Any]] = None) -> "Episode":
         if metrics is None:
             metrics = {}
         return Episode(
@@ -153,12 +155,12 @@ class Episode:
         """Get the next extra features"""
         return self.all_extras[1:]
-    @cached_property
+    @property
     def n_agents(self):
         """The number of agents in the episode"""
         return self.all_extras[0].shape[0]
-    @cached_property
+    @property
     def n_actions(self):
         """The number of actions"""
         return len(self.all_available_actions[0][0])
@@ -267,7 +269,7 @@ class Episode:
     def __len__(self):
         return self.episode_len
-    @cached_property
+    @property
     def score(self) -> list[float]:
         """The episode score (sum of all rewards across all objectives)"""
         score = []
@@ -363,51 +365,6 @@ class Episode:
             for i, s in enumerate(scores):
                 self.metrics[f"score-{i}"] = float(s)
-    # def add_data(
-    #     self,
-    #     new_obs: Observation,
-    #     new_state: State,
-    #     action: A,
-    #     reward: np.ndarray,
-    #     done: bool,
-    #     truncated: bool,
-    #     info: dict[str, Any],
-    #     **kwargs,
-    # ):
-    #     """Add a new transition to the episode"""
-    #     self.episode_len += 1
-    #     self.all_observations.append(new_obs.data)
-    #     self.all_extras.append(new_obs.extras)
-    #     self.all_available_actions.append(new_obs.available_actions)
-    #     self.all_states.append(new_state.data)
-    #     self.all_states_extras.append(new_state.extras)
-    #     match action:
-    #         case np.ndarray() as action:
-    #             self.actions.append(action)
-    #         case other:
-    #             self.actions.append(np.array(other))
-    #     self.rewards.append(reward)
-    #     for key, value in kwargs.items():
-    #         current = self.other.get(key, [])
-    #         current.append(value)
-    #         self.other[key] = current
-    #     if done:
-    #         # Only set the truncated flag if the episode is not done (both could happen with a time limit)
-    #         self.is_truncated = truncated
-    #         self.is_done = done
-    #         # Add metrics that can be plotted
-    #         for key, value in info.items():
-    #             if isinstance(value, bool):
-    #                 value = int(value)
-    #             self.metrics[key] = value
-    #         self.metrics["episode_len"] = self.episode_len
-    #         rewards = np.array(self.rewards)
-    #         scores = np.sum(rewards, axis=0)
-    #         for i, s in enumerate(scores):
-    #             self.metrics[f"score-{i}"] = float(s)
-    def add_metrics(self, metrics: dict[str, float]):
+    def add_metrics(self, metrics: dict[str, Any]):
         """Add metrics to the episode"""
         self.metrics.update(metrics)

marlenv/models/observation.py CHANGED Viewed

@@ -87,3 +87,13 @@ class Observation:
             if not np.array_equal(self.data, other.data):
                 return False
         return np.array_equal(self.extras, other.extras) and np.array_equal(self.available_actions, other.available_actions)
+    def as_tensors(self, device=None):
+        """
+        Convert the observation to a tuple of tensors of shape (1, n_agents, <dim>).
+        """
+        import torch
+        data = torch.from_numpy(self.data).unsqueeze(0).to(device, non_blocking=True)
+        extras = torch.from_numpy(self.extras).unsqueeze(0).to(device, non_blocking=True)
+        return data, extras

marlenv/models/state.py CHANGED Viewed

@@ -52,3 +52,11 @@ class State(Generic[StateType]):
         if not np.array_equal(self.extras, value.extras):
             return False
         return True
+    def as_tensors(self, device=None):
+        """Convert the state to a tuple of tensors of shape (1, <dim>)."""
+        import torch
+        data = torch.from_numpy(self.data).unsqueeze(0).to(device, non_blocking=True)
+        extras = torch.from_numpy(self.extras).unsqueeze(0).to(device, non_blocking=True)
+        return data, extras

marlenv/utils/__init__.py CHANGED Viewed

@@ -1,5 +1,5 @@
-from .schedule import Schedule, MultiSchedule, RoundedSchedule, LinearSchedule, ExpSchedule
+from .cached_property_collector import CachedPropertyCollector, CachedPropertyInvalidator
+from .schedule import ExpSchedule, LinearSchedule, MultiSchedule, RoundedSchedule, Schedule
 __all__ = [
     "Schedule",
@@ -7,4 +7,6 @@ __all__ = [
     "ExpSchedule",
     "MultiSchedule",
     "RoundedSchedule",
+    "CachedPropertyCollector",
+    "CachedPropertyInvalidator",
 ]

marlenv/utils/cached_property_collector.py ADDED Viewed

@@ -0,0 +1,17 @@
+from functools import cached_property
+class CachedPropertyCollector(type):
+    def __init__(cls, name: str, bases: tuple, namespace: dict):
+        super().__init__(name, bases, namespace)
+        cls.CACHED_PROPERTY_NAMES = [key for key, value in namespace.items() if isinstance(value, cached_property)]
+class CachedPropertyInvalidator(metaclass=CachedPropertyCollector):
+    def __init__(self):
+        super().__init__()
+    def invalidate_cached_properties(self):
+        for key in self.__class__.CACHED_PROPERTY_NAMES:
+            if hasattr(self, key):
+                delattr(self, key)

marlenv/wrappers/__init__.py CHANGED Viewed

@@ -11,6 +11,7 @@ from .centralised import Centralized
 from .available_actions_mask import AvailableActionsMask
 from .delayed_rewards import DelayedReward
 from .potential_shaping import PotentialShaping
+from .action_randomizer import ActionRandomizer
 __all__ = [
     "RLEnvWrapper",
@@ -28,4 +29,5 @@ __all__ = [
     "Centralized",
     "DelayedReward",
     "PotentialShaping",
+    "ActionRandomizer",
 ]

marlenv/wrappers/action_randomizer.py ADDED Viewed

@@ -0,0 +1,17 @@
+from .rlenv_wrapper import RLEnvWrapper, AS, MARLEnv
+import numpy as np
+class ActionRandomizer(RLEnvWrapper[AS]):
+    def __init__(self, env: MARLEnv[AS], p: float):
+        super().__init__(env)
+        self.p = p
+    def step(self, action):
+        if np.random.rand() < self.p:
+            action = self.action_space.sample()
+        return super().step(action)
+    def seed(self, seed_value: int):
+        np.random.seed(seed_value)
+        super().seed(seed_value)

{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: multi-agent-rlenv
-Version: 3.5.2
+Version: 3.5.5
 Summary: A strongly typed Multi-Agent Reinforcement Learning framework
 Project-URL: repository, https://github.com/yamoling/multi-agent-rlenv
 Author-email: Yannick Molinghen <yannick.molinghen@ulb.be>
@@ -19,6 +19,7 @@ Requires-Dist: pymunk>=6.0; extra == 'all'
 Requires-Dist: pysc2; extra == 'all'
 Requires-Dist: scipy>=1.10; extra == 'all'
 Requires-Dist: smac; extra == 'all'
+Requires-Dist: torch>=2.0; extra == 'all'
 Provides-Extra: gym
 Requires-Dist: gymnasium>=0.29.1; extra == 'gym'
 Provides-Extra: overcooked
@@ -31,6 +32,8 @@ Requires-Dist: scipy>=1.10; extra == 'pettingzoo'
 Provides-Extra: smac
 Requires-Dist: pysc2; extra == 'smac'
 Requires-Dist: smac; extra == 'smac'
+Provides-Extra: torch
+Requires-Dist: torch>=2.0; extra == 'torch'
 Description-Content-Type: text/markdown
 # `marlenv` - A unified framework for muti-agent reinforcement learning

{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/RECORD RENAMED Viewed

@@ -1,4 +1,4 @@
-marlenv/__init__.py,sha256=UoZATsYMuKlnHyYdIRX7eQ6mGcmMww-tqX3uCyWVqRA,3656
+marlenv/__init__.py,sha256=bX76JknjwfVJ6IOKql_y4rIqvvx9raepD7u2lB9CgGo,3656
 marlenv/env_builder.py,sha256=RJoHJLYAUE1ausAoJiRC3fUxyxpH1WRJf7Sdm2ml-uk,5517
 marlenv/env_pool.py,sha256=nCEBkGQU62fcvCAANyAqY8gCFjYlVnSCg-V3Fhx00yc,933
 marlenv/exceptions.py,sha256=gJUC_2rVAvOfK_ypVFc7Myh-pIfSU3To38VBVS_0rZA,1179
@@ -12,15 +12,17 @@ marlenv/adapters/pymarl_adapter.py,sha256=2s7EY31s1hrml3q-BBaXo_eDMXTjkebozZPvzs
 marlenv/adapters/smac_adapter.py,sha256=8uWC7YKsaSXeTS8AUhpGOKvrWMbVEQT2-pml5BaFUB0,8343
 marlenv/models/__init__.py,sha256=uihmRs71Gg5z7Bvau_xtaQVg7xEtX8sTzi74bIHL5P0,443
 marlenv/models/env.py,sha256=BG1iVHxGD_p827mF0ewyOBn6wU2gtFsHLW1b4UtW-V0,7841
-marlenv/models/episode.py,sha256=IKPLuDVlz85Be6zrC21gyautjqRkEApS4fgRqQR52s0,15190
-marlenv/models/observation.py,sha256=kAmh1hIoC2TGrZlGVzV0y4TXXCSrI7gcmG0raeoncYk,3153
+marlenv/models/episode.py,sha256=zsyxsW4LIioPKyY4DZKn64A31e5ZvlwOf3HIGuRUzhs,13531
+marlenv/models/observation.py,sha256=RhvKvmys4bu3UwwVsvu7fJ7TMKt2QkKnBD1e0hw2r7s,3528
 marlenv/models/spaces.py,sha256=v7jnhPfj7vq7DFFJpSbQEYe4NGLLlj_bj2pzvvSBX7Y,7777
-marlenv/models/state.py,sha256=958PXTHadi3gtRnhGgcGtqBnF44R11kdcx62NN2gwxA,1717
+marlenv/models/state.py,sha256=LbP--JxBzRwMFpEAaZyxCX13xKQ27xPE2fabohaq9YI,2058
 marlenv/models/step.py,sha256=00PhD_ccdCIYAY1SVJdJU91weU0Y_tNIJwK16TN_53I,3056
 marlenv/models/transition.py,sha256=UkJVRNxZoyRkjE7YmKtUf_4xA7cOEh20O60dTldbvys,5070
-marlenv/utils/__init__.py,sha256=C3qhvkVwctBP8mG3G5nkAZ5DKfErVRkdbHo7oeWVsM0,209
+marlenv/utils/__init__.py,sha256=36pNw0r4V3xsqPZ5ljM29o96dfPAFq8WvMwggyv41fI,362
+marlenv/utils/cached_property_collector.py,sha256=IOjbr61f0DqLhcidXKrl7MhN1BOEGiTzCANIKQCxaF0,600
 marlenv/utils/schedule.py,sha256=slhtpQiBHSUNyPmSkKb2yBgiHJqPhoPxa33GxvyV8Jc,8565
-marlenv/wrappers/__init__.py,sha256=uV00m0jysZBgOW-TvRekis-gsAKPeR51P3HsuRZKxG8,880
+marlenv/wrappers/__init__.py,sha256=Z4_M-mxRNKQeu52tkmQ4B2m3-zrsmjfXXL5NsWQ4vu4,952
+marlenv/wrappers/action_randomizer.py,sha256=A1kejqGOTA0sc_RQL0EOd6sMSbcIdiV5zlscjKUlzdY,474
 marlenv/wrappers/agent_id_wrapper.py,sha256=9qHV3LMQ4AjcDCSuvQhz5h9hUf7Xtrdi2sIxmNZk5NA,1126
 marlenv/wrappers/available_actions_mask.py,sha256=OMyt2KntsR8JA2RuRgvwdzqzPe-_H-KKkbUUJfe_mks,1404
 marlenv/wrappers/available_actions_wrapper.py,sha256=_HRl9zsjJgSrLgVuT-BjpnnfrfM8ic6wBUWlg67uCx4,926
@@ -34,7 +36,7 @@ marlenv/wrappers/potential_shaping.py,sha256=T_QvnmWReCgpyoInxRw2UXbmdvcBD5U-vV1
 marlenv/wrappers/rlenv_wrapper.py,sha256=S6G1VjFklTEzU6bj0AXrTDXnsTQJARq8VB4uUH6AXe4,2993
 marlenv/wrappers/time_limit.py,sha256=GxbxcbfFyuVg14ylQU2C_cjmV9q4uDAt5wepfgX_PyM,3976
 marlenv/wrappers/video_recorder.py,sha256=ucBQSNRPqDr-2mYxrTCqlrWcxSWtSJ7XlRC9-LdukBM,2535
-multi_agent_rlenv-3.5.2.dist-info/METADATA,sha256=QjQkN0ZJsbaa-GyP7fAs4JFSTJkEUBLrIV0zCGPUvrc,4897
-multi_agent_rlenv-3.5.2.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-multi_agent_rlenv-3.5.2.dist-info/licenses/LICENSE,sha256=_eeiGVoIJ7kYt6l1zbIvSBQppTnw0mjnYk1lQ4FxEjE,1074
-multi_agent_rlenv-3.5.2.dist-info/RECORD,,
+multi_agent_rlenv-3.5.5.dist-info/METADATA,sha256=WKf56Bb7PqZFrw2B6Sx8zulM-h7aZRqXMTvYHrSxEtQ,5005
+multi_agent_rlenv-3.5.5.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+multi_agent_rlenv-3.5.5.dist-info/licenses/LICENSE,sha256=_eeiGVoIJ7kYt6l1zbIvSBQppTnw0mjnYk1lQ4FxEjE,1074
+multi_agent_rlenv-3.5.5.dist-info/RECORD,,

{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{multi_agent_rlenv-3.5.2.dist-info → multi_agent_rlenv-3.5.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

multi-agent-rlenv 3.5.2__py3-none-any.whl → 3.5.5__py3-none-any.whl

multi-agent-rlenv 3.5.2py3-none-any.whl → 3.5.5py3-none-any.whl