PyPI - rlgym-learn-algos - Versions diffs - 0.2.1__cp38-cp38-musllinux_1_2_i686.whl → 0.2.2__cp38-cp38-musllinux_1_2_i686.whl - Mend

rlgym-learn-algos 0.2.1__cp38-cp38-musllinux_1_2_i686.whl → 0.2.2__cp38-cp38-musllinux_1_2_i686.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

rlgym_learn_algos/ppo/experience_buffer.py CHANGED Viewed

@@ -7,6 +7,7 @@ import numpy as np
 import torch
 from pydantic import BaseModel, Field, model_validator
 from rlgym.api import ActionType, AgentID, ObsType, RewardType
 from rlgym_learn_algos.util.torch_functions import get_device
 from rlgym_learn_algos.util.torch_pydantic import PydanticTorchDevice
@@ -24,6 +25,7 @@ EXPERIENCE_BUFFER_FILE = "experience_buffer.pkl"
 class ExperienceBufferConfigModel(BaseModel, extra="forbid"):
     max_size: int = 100000
     device: PydanticTorchDevice = "auto"
+    save_experience_buffer_in_checkpoint: bool = True
     trajectory_processor_config: Dict[str, Any] = Field(default_factory=dict)
     @model_validator(mode="before")
@@ -40,8 +42,9 @@ class ExperienceBufferConfigModel(BaseModel, extra="forbid"):
                     data["trajectory_processor_config"] = data[
                         "trajectory_processor_config"
                     ].model_dump()
-            if "device" not in data or data["device"] == "auto":
-                data["device"] = get_device("auto")
+            if "device" not in data:
+                data["device"] = "auto"
+            data["device"] = get_device(data["device"])
         return data
@@ -165,21 +168,22 @@ class ExperienceBuffer(
     def save_checkpoint(self, folder_path):
         os.makedirs(folder_path, exist_ok=True)
-        with open(
-            os.path.join(folder_path, EXPERIENCE_BUFFER_FILE),
-            "wb",
-        ) as f:
-            pickle.dump(
-                {
-                    "agent_ids": self.agent_ids,
-                    "observations": self.observations,
-                    "actions": self.actions,
-                    "log_probs": self.log_probs,
-                    "values": self.values,
-                    "advantages": self.advantages,
-                },
-                f,
-            )
+        if self.config.experience_buffer_config.save_experience_buffer_in_checkpoint:
+            with open(
+                os.path.join(folder_path, EXPERIENCE_BUFFER_FILE),
+                "wb",
+            ) as f:
+                pickle.dump(
+                    {
+                        "agent_ids": self.agent_ids,
+                        "observations": self.observations,
+                        "actions": self.actions,
+                        "log_probs": self.log_probs,
+                        "values": self.values,
+                        "advantages": self.advantages,
+                    },
+                    f,
+                )
         self.trajectory_processor.save_checkpoint(folder_path)
     # TODO: update docs

rlgym_learn_algos/ppo/ppo_learner.py CHANGED Viewed

@@ -39,17 +39,25 @@ class PPOLearnerConfigModel(BaseModel, extra="forbid"):
     clip_range: float = 0.2
     actor_lr: float = 3e-4
     critic_lr: float = 3e-4
+    advantage_normalization: bool = True
     device: PydanticTorchDevice = "auto"
+    cudnn_benchmark_mode: bool = True
     @model_validator(mode="before")
     @classmethod
     def set_device(cls, data):
-        if isinstance(data, dict) and (
-            "device" not in data or data["device"] == "auto"
-        ):
-            data["device"] = get_device("auto")
+        if isinstance(data, dict):
+            if "device" not in data:
+                data["device"] = "auto"
+            data["device"] = get_device(data["device"])
         return data
+    @model_validator(mode="after")
+    def validate_cudnn_benchmark(self):
+        if self.device.type != "cuda":
+            self.cudnn_benchmark_mode = False
+        return self
 @dataclass
 class DerivedPPOLearnerConfig:
@@ -107,6 +115,12 @@ class PPOLearner(
     def load(self, config: DerivedPPOLearnerConfig):
         self.config = config
+        if (
+            config.learner_config.cudnn_benchmark_mode
+            and config.learner_config.device.type == "cuda"
+        ):
+            torch.backends.cudnn.benchmark = True
         self.actor = self.actor_factory(
             config.obs_space, config.action_space, config.learner_config.device
         )
@@ -292,6 +306,10 @@ class PPOLearner(
                     advantages = batch_advantages[start:stop].to(
                         self.config.learner_config.device
                     )
+                    if self.config.learner_config.advantage_normalization:
+                        advantages = (advantages - torch.mean(advantages)) / (
+                            torch.std(advantages) + 1e-8
+                        )
                     old_probs = batch_old_probs[start:stop].to(
                         self.config.learner_config.device
                     )

rlgym_learn_algos/rlgym_learn_algos.cpython-38-i386-linux-gnu.so CHANGED Viewed

Binary file

rlgym_learn_algos/util/torch_functions.py CHANGED Viewed

@@ -13,7 +13,6 @@ import torch.nn as nn
 def get_device(device: str):
     if device in ["auto", "gpu"] and torch.cuda.is_available():
-        torch.backends.cudnn.benchmark = True
         return "cuda:0"
     elif device == "auto" and not torch.cuda.is_available():
         return "cpu"

rlgym_learn_algos/util/torch_pydantic.py CHANGED Viewed

@@ -42,7 +42,7 @@ device_str_regex = (
             "privateuseone",
         ]
     )
-    + ")(:\d+)"
+    + ")(:\d+)?"
 )

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: rlgym-learn-algos
-Version: 0.2.1
+Version: 0.2.2
 Classifier: Programming Language :: Rust
 Classifier: Programming Language :: Python :: Implementation :: CPython
 Requires-Dist: pydantic>=2.8.2

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/RECORD RENAMED Viewed

@@ -1,6 +1,6 @@
-rlgym_learn_algos-0.2.1.dist-info/METADATA,sha256=u9tM8KxVpm3nQ86a01tlDy5csGAeTmCMDZdccXgrUrg,2403
-rlgym_learn_algos-0.2.1.dist-info/WHEEL,sha256=X1CAAG5PtBwuCUbvZLy-66J-Jfin3nupluhqSslkPtI,103
-rlgym_learn_algos-0.2.1.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
+rlgym_learn_algos-0.2.2.dist-info/METADATA,sha256=9m49XNjxVc1H0Hj27PV8BszTk9DnOBNBNIjdxb0uwcQ,2403
+rlgym_learn_algos-0.2.2.dist-info/WHEEL,sha256=zrTr349f3UPOfsn1HRNexsaeA05ZzRsCL0d94NnDDZc,103
+rlgym_learn_algos-0.2.2.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
 rlgym_learn_algos.libs/libgcc_s-b5472b99.so.1,sha256=wh8CpjXz9IccAyeERcB7YDEx7NH2jF-PykwOyYNeRRI,453841
 rlgym_learn_algos/__init__.py,sha256=dZeTgNro6qG1Hu0l0UBhgHOYiyeCwPWndC84dJAp__U,203
 rlgym_learn_algos/conversion/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -16,18 +16,18 @@ rlgym_learn_algos/ppo/continuous_actor.py,sha256=A4FQ0lKqlB47AeSrDdrPXMvNKXhl5to
 rlgym_learn_algos/ppo/critic.py,sha256=XPleWDO8uM25zlzptWDvZQpUpKvib5kRs9JpmWTVPuY,669
 rlgym_learn_algos/ppo/discrete_actor.py,sha256=TZC7b7ss16giobPC1oz-maOSDX-SrNBUzS1wIV2Rzgw,2547
 rlgym_learn_algos/ppo/env_trajectories.py,sha256=PaO6dmpNkQ3yDLaHIRc0ipn45t5zAjE5U1D_N-LQtgY,3684
-rlgym_learn_algos/ppo/experience_buffer.py,sha256=f_baTo18JKBQjTQoO0FJoCOWlZFV8vJgMXqevg-TSi8,10552
+rlgym_learn_algos/ppo/experience_buffer.py,sha256=4wWSfq1tobXv7lmBbkM5sbTVuPJxrdAbxi5rNHc04g4,10769
 rlgym_learn_algos/ppo/experience_buffer_numpy.py,sha256=6AOGQjDn_dHLS9bmxJW_cGEjBUbe8u5VWS0LVlpIdmY,4617
 rlgym_learn_algos/ppo/gae_trajectory_processor.py,sha256=gv5kxvvPnK7SyQIAq6MbOFILIMdPlzoLZwM8TRmtNWw,5302
 rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py,sha256=cq7qbK0mcLDXRzA6-pKW0OC50X52XhT5himcOTD6Ei4,6657
 rlgym_learn_algos/ppo/multi_discrete_actor.py,sha256=Mik0X79dUy2ZRIMol4RMTZE9qzsOk6f_6bDaOl5ghxs,3039
 rlgym_learn_algos/ppo/ppo_agent_controller.py,sha256=iVmCvN7H1IcKX7VrZnMParQ148EnPqs9yZ9CCgtdsq8,24524
-rlgym_learn_algos/ppo/ppo_learner.py,sha256=oRDBQszbgFvoVmGjRqpklQWTOI2NazOLzhDU_c9-SAU,14827
+rlgym_learn_algos/ppo/ppo_learner.py,sha256=utEWkikXCpC6Xc1D3asohO0HsIaq3tLyoTlb7fXLOw4,15522
 rlgym_learn_algos/ppo/ppo_metrics_logger.py,sha256=iUyUc2GPwDIIjZeJPZWxoeRrzUWV_qLOac0vApQBkp0,2803
 rlgym_learn_algos/ppo/trajectory.py,sha256=_xyS9ueU6iVvqMUpFr-kb42wEHHZy4zCse7_r660n5E,690
 rlgym_learn_algos/ppo/trajectory_processor.py,sha256=3XRsXXexHWp6UV5nAeBLYvWqvQ9EbNHSN3Yooi4cezo,2031
 rlgym_learn_algos/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-rlgym_learn_algos/rlgym_learn_algos.cpython-38-i386-linux-gnu.so,sha256=VL0hdEQVoAI5zvHCFLRz6jYIARLjUJwoGNHQwhBgHyA,719349
+rlgym_learn_algos/rlgym_learn_algos.cpython-38-i386-linux-gnu.so,sha256=DseEGF0EbwC1IS58CCtlI3cmsPJhtH-Cob_e1wQpHX8,707061
 rlgym_learn_algos/rlgym_learn_algos.pyi,sha256=B9Kt9uK8xCqASRxWvzLdV501TSCMO4vTNqvZ0MhOHyo,1164
 rlgym_learn_algos/stateful_functions/__init__.py,sha256=OAVy6cQIS85Utyp18jjHgdmascX_8nkwk3A0OpFJxT4,230
 rlgym_learn_algos/stateful_functions/batch_reward_type_numpy_converter.py,sha256=a3q2l5SIgDI36ImF_kYoa684pghnFnlV2vGYvV2zcV0,743
@@ -35,6 +35,6 @@ rlgym_learn_algos/stateful_functions/numpy_obs_standardizer.py,sha256=Xa_fuJCSGu
 rlgym_learn_algos/stateful_functions/obs_standardizer.py,sha256=m2nw1JUg2MKYthn6tWrv2HYIuQ-GfUm48RX9s99jXF4,589
 rlgym_learn_algos/util/__init__.py,sha256=hq7M00Q7zAfyQmIGmXOif0vI40aj_FQ5SqI5dnuGvb0,46
 rlgym_learn_algos/util/running_stats.py,sha256=KtzdKKT75-5ZC58JRqaDXk6sBqa3ZSjQQZrRajAw3Yk,4339
-rlgym_learn_algos/util/torch_functions.py,sha256=6esZL8FeVwWWQWvwLEhkh_B0WqfIWzIWkCDbuhmRlnk,3366
-rlgym_learn_algos/util/torch_pydantic.py,sha256=zXllJoV8HgqJxguPKJ4Y3DIWEwDeJlBW9CIps-yxM44,3412
-rlgym_learn_algos-0.2.1.dist-info/RECORD,,
+rlgym_learn_algos/util/torch_functions.py,sha256=ImgDw4I3ZixGDi17YRkW6UbaiaQTbvOCUCS7N0QVSsU,3320
+rlgym_learn_algos/util/torch_pydantic.py,sha256=khPGA6kWh4_WHoploDkl_SCIGX8SkKkFT40RE06PImc,3413
+rlgym_learn_algos-0.2.2.dist-info/RECORD,,

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/WHEEL RENAMED Viewed

@@ -1,4 +1,4 @@
 Wheel-Version: 1.0
-Generator: maturin (1.8.6)
+Generator: maturin (1.9.0)
 Root-Is-Purelib: false
 Tag: cp38-cp38-musllinux_1_2_i686

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes