PyPI - rlgym-learn-algos - Versions diffs - 0.2.1__cp311-cp311-win32.whl → 0.2.2__cp311-cp311-win32.whl - Mend

rlgym-learn-algos 0.2.1cp311-cp311-win32.whl → 0.2.2cp311-cp311-win32.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

rlgym_learn_algos/ppo/experience_buffer.py CHANGED Viewed

@@ -7,6 +7,7 @@ import numpy as np
 import torch
 from pydantic import BaseModel, Field, model_validator
 from rlgym.api import ActionType, AgentID, ObsType, RewardType
 from rlgym_learn_algos.util.torch_functions import get_device
 from rlgym_learn_algos.util.torch_pydantic import PydanticTorchDevice
@@ -24,6 +25,7 @@ EXPERIENCE_BUFFER_FILE = "experience_buffer.pkl"
 class ExperienceBufferConfigModel(BaseModel, extra="forbid"):
     max_size: int = 100000
     device: PydanticTorchDevice = "auto"
+    save_experience_buffer_in_checkpoint: bool = True
     trajectory_processor_config: Dict[str, Any] = Field(default_factory=dict)
     @model_validator(mode="before")
@@ -40,8 +42,9 @@ class ExperienceBufferConfigModel(BaseModel, extra="forbid"):
                     data["trajectory_processor_config"] = data[
                         "trajectory_processor_config"
                     ].model_dump()
-            if "device" not in data or data["device"] == "auto":
-                data["device"] = get_device("auto")
+            if "device" not in data:
+                data["device"] = "auto"
+            data["device"] = get_device(data["device"])
         return data
@@ -165,21 +168,22 @@ class ExperienceBuffer(
     def save_checkpoint(self, folder_path):
         os.makedirs(folder_path, exist_ok=True)
-        with open(
-            os.path.join(folder_path, EXPERIENCE_BUFFER_FILE),
-            "wb",
-        ) as f:
-            pickle.dump(
-                {
-                    "agent_ids": self.agent_ids,
-                    "observations": self.observations,
-                    "actions": self.actions,
-                    "log_probs": self.log_probs,
-                    "values": self.values,
-                    "advantages": self.advantages,
-                },
-                f,
-            )
+        if self.config.experience_buffer_config.save_experience_buffer_in_checkpoint:
+            with open(
+                os.path.join(folder_path, EXPERIENCE_BUFFER_FILE),
+                "wb",
+            ) as f:
+                pickle.dump(
+                    {
+                        "agent_ids": self.agent_ids,
+                        "observations": self.observations,
+                        "actions": self.actions,
+                        "log_probs": self.log_probs,
+                        "values": self.values,
+                        "advantages": self.advantages,
+                    },
+                    f,
+                )
         self.trajectory_processor.save_checkpoint(folder_path)
     # TODO: update docs

rlgym_learn_algos/ppo/ppo_learner.py CHANGED Viewed

@@ -39,17 +39,25 @@ class PPOLearnerConfigModel(BaseModel, extra="forbid"):
     clip_range: float = 0.2
     actor_lr: float = 3e-4
     critic_lr: float = 3e-4
+    advantage_normalization: bool = True
     device: PydanticTorchDevice = "auto"
+    cudnn_benchmark_mode: bool = True
     @model_validator(mode="before")
     @classmethod
     def set_device(cls, data):
-        if isinstance(data, dict) and (
-            "device" not in data or data["device"] == "auto"
-        ):
-            data["device"] = get_device("auto")
+        if isinstance(data, dict):
+            if "device" not in data:
+                data["device"] = "auto"
+            data["device"] = get_device(data["device"])
         return data
+    @model_validator(mode="after")
+    def validate_cudnn_benchmark(self):
+        if self.device.type != "cuda":
+            self.cudnn_benchmark_mode = False
+        return self
 @dataclass
 class DerivedPPOLearnerConfig:
@@ -107,6 +115,12 @@ class PPOLearner(
     def load(self, config: DerivedPPOLearnerConfig):
         self.config = config
+        if (
+            config.learner_config.cudnn_benchmark_mode
+            and config.learner_config.device.type == "cuda"
+        ):
+            torch.backends.cudnn.benchmark = True
         self.actor = self.actor_factory(
             config.obs_space, config.action_space, config.learner_config.device
         )
@@ -292,6 +306,10 @@ class PPOLearner(
                     advantages = batch_advantages[start:stop].to(
                         self.config.learner_config.device
                     )
+                    if self.config.learner_config.advantage_normalization:
+                        advantages = (advantages - torch.mean(advantages)) / (
+                            torch.std(advantages) + 1e-8
+                        )
                     old_probs = batch_old_probs[start:stop].to(
                         self.config.learner_config.device
                     )

rlgym_learn_algos/rlgym_learn_algos.cp311-win32.pyd CHANGED Viewed

Binary file

rlgym_learn_algos/util/torch_functions.py CHANGED Viewed

@@ -13,7 +13,6 @@ import torch.nn as nn
 def get_device(device: str):
     if device in ["auto", "gpu"] and torch.cuda.is_available():
-        torch.backends.cudnn.benchmark = True
         return "cuda:0"
     elif device == "auto" and not torch.cuda.is_available():
         return "cpu"

rlgym_learn_algos/util/torch_pydantic.py CHANGED Viewed

@@ -42,7 +42,7 @@ device_str_regex = (
             "privateuseone",
         ]
     )
-    + ")(:\d+)"
+    + ")(:\d+)?"
 )

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: rlgym-learn-algos
-Version: 0.2.1
+Version: 0.2.2
 Classifier: Programming Language :: Rust
 Classifier: Programming Language :: Python :: Implementation :: CPython
 Requires-Dist: pydantic>=2.8.2

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/RECORD RENAMED Viewed

@@ -1,6 +1,6 @@
-rlgym_learn_algos-0.2.1.dist-info/METADATA,sha256=pRplMtq88vWNms7sVhWJfwf-W7GATsQH3617hrkNl3s,2431
-rlgym_learn_algos-0.2.1.dist-info/WHEEL,sha256=1cEMGItI5ycdglW0xuhYFX4p-uaMeYRsFVmN9jJO6VY,92
-rlgym_learn_algos-0.2.1.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
+rlgym_learn_algos-0.2.2.dist-info/METADATA,sha256=4wwr9xqqVWvZ7HYM4cumHiRdz79gkixfpe11b4MyvSU,2431
+rlgym_learn_algos-0.2.2.dist-info/WHEEL,sha256=zfc_r7GoDDc6Hz8pkKR77dEQzJMJDgktYOCKUorzovQ,92
+rlgym_learn_algos-0.2.2.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
 rlgym_learn_algos/__init__.py,sha256=C7cRdL4lZrpk3ge_4_lGAbGodqWJXM56FfgO0keRPAY,207
 rlgym_learn_algos/conversion/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 rlgym_learn_algos/conversion/convert_rlgym_ppo_checkpoint.py,sha256=A9nvzjp3DQNRNL5TAt-u3xE80JDIpYEDqAGNReHvFG0,908
@@ -15,18 +15,18 @@ rlgym_learn_algos/ppo/continuous_actor.py,sha256=1vdBUw2mQNFNu6A6ZrAztBjd4DmwjGk
 rlgym_learn_algos/ppo/critic.py,sha256=RB89WtiN52BEq5QCpGAPrASUnasac-Bpg7B0lM3UXHw,689
 rlgym_learn_algos/ppo/discrete_actor.py,sha256=Nuc3EndIQud3NGrkBIQgy-Z-okhXVrj6p6okSGD1KNY,2620
 rlgym_learn_algos/ppo/env_trajectories.py,sha256=gzQBRkzwZhlZeSvWL50cc8AOgBfsg5zUys0aTJj6aZU,3775
-rlgym_learn_algos/ppo/experience_buffer.py,sha256=QdyFMMM8YpEYrmtFaeaHXvFlNT2pCZwQKBEqsrv4v2I,10838
+rlgym_learn_algos/ppo/experience_buffer.py,sha256=xDm8NIMdErpv3GyWUBcTvzkLBQa8tW1TXb7OrKRDIu4,11059
 rlgym_learn_algos/ppo/experience_buffer_numpy.py,sha256=Apk4x-pfRnitKJPW6LBZyOPIhgeJs_5EG7BbTCqMwjk,4761
 rlgym_learn_algos/ppo/gae_trajectory_processor.py,sha256=JK958vasIIiuf3ALcFNlvBgGNhFshK8MhQJjwvxhrAM,5453
 rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py,sha256=RpyDR6GQ1JXvwtoKkx5V3z3WvU9ElJdzfNtpPiZDaTc,6831
 rlgym_learn_algos/ppo/multi_discrete_actor.py,sha256=zSYeBBirjguSv_wO-peo06hioHiVhZQjnd-NYwJxmag,3127
 rlgym_learn_algos/ppo/ppo_agent_controller.py,sha256=h0UR-o2k-_LyeFTzvII3HQHHWyeMJewqLlca8ThtyfA,25105
-rlgym_learn_algos/ppo/ppo_learner.py,sha256=3YTfs7LhjiJ0u3-k84rYWcmAQxKIf2yp1i1UVY4v8Oc,15229
+rlgym_learn_algos/ppo/ppo_learner.py,sha256=Cbbuz0AMwPCmkQ1YPDdZLkbgZOdyrOLEx89Camn-nGE,15942
 rlgym_learn_algos/ppo/ppo_metrics_logger.py,sha256=niW8xgQLEBCGgTaVyiE_JqsU6RTjV6h-JzM-7c3JT38,2868
 rlgym_learn_algos/ppo/trajectory.py,sha256=IIH_IG8B_HkyxRPf-YsCyF1jQqNjDx752hgzAehG25I,719
 rlgym_learn_algos/ppo/trajectory_processor.py,sha256=5eY_mNGjqIkhqnbKeaqDvqIWPdg6wD6Ai3fXH2WoXbw,2091
 rlgym_learn_algos/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-rlgym_learn_algos/rlgym_learn_algos.cp311-win32.pyd,sha256=TQ1jNEan9yh_o1CkLLdtdke1q8DvOPsosdz3Fcdt1PE,337920
+rlgym_learn_algos/rlgym_learn_algos.cp311-win32.pyd,sha256=wSNbyQLW2s8XROJJ3CwpPBEPaYWqpAsZJ8syylePLNE,337920
 rlgym_learn_algos/rlgym_learn_algos.pyi,sha256=NwY-sDZWM06TUiKPzxpfH1Td6G6E8TdxtRPgBSh-PPE,1203
 rlgym_learn_algos/stateful_functions/__init__.py,sha256=QS0KYjuzagNkYiYllXQmjoJn14-G7KZawq1Zvwh8alY,236
 rlgym_learn_algos/stateful_functions/batch_reward_type_numpy_converter.py,sha256=1yte5qYyl9LWdClHZ_YsF7R9dJqQeYfINMdgNF_59Gs,767
@@ -34,6 +34,6 @@ rlgym_learn_algos/stateful_functions/numpy_obs_standardizer.py,sha256=OgtwCaxBGT
 rlgym_learn_algos/stateful_functions/obs_standardizer.py,sha256=qPPc3--J_3mpJJ-QHJjta6dbWWBobL7SYdK5MUP-XMw,606
 rlgym_learn_algos/util/__init__.py,sha256=VPM6SN4T_625H9t30s9EiLeXiEEWgcyRVHa-LLVNrn4,47
 rlgym_learn_algos/util/running_stats.py,sha256=0tiGFpKtHWzMa1CxM_ueBzd_ryX4bJBriC8MXcSLg8w,4479
-rlgym_learn_algos/util/torch_functions.py,sha256=CTTHzTIi7u1O9HyX0cVJOrnYVbAtnlVs0g1fO9s3ano,3458
-rlgym_learn_algos/util/torch_pydantic.py,sha256=pgj3I-3q8iW9qtOCv1fgjNkZgA00G_Rdkb4qJPk5gxo,3530
-rlgym_learn_algos-0.2.1.dist-info/RECORD,,
+rlgym_learn_algos/util/torch_functions.py,sha256=_uAXhq1YYPneWI3_XXRYsSA3Hn1a8wGjUnI3m9UojdU,3411
+rlgym_learn_algos/util/torch_pydantic.py,sha256=5AbXQcfQtVgLRBSgCj0Hvi_H42WHLu4Oty4l_i22nAo,3531
+rlgym_learn_algos-0.2.2.dist-info/RECORD,,

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/WHEEL RENAMED Viewed

@@ -1,4 +1,4 @@
 Wheel-Version: 1.0
-Generator: maturin (1.8.6)
+Generator: maturin (1.9.0)
 Root-Is-Purelib: false
 Tag: cp311-cp311-win32

{rlgym_learn_algos-0.2.1.dist-info → rlgym_learn_algos-0.2.2.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

rlgym-learn-algos 0.2.1__cp311-cp311-win32.whl → 0.2.2__cp311-cp311-win32.whl

rlgym-learn-algos 0.2.1cp311-cp311-win32.whl → 0.2.2cp311-cp311-win32.whl