PyPI - rlgym-learn-algos - Versions diffs - 0.2.4__cp39-cp39-musllinux_1_2_armv7l.whl → 0.2.5__cp39-cp39-musllinux_1_2_armv7l.whl - Mend

rlgym-learn-algos 0.2.4__cp39-cp39-musllinux_1_2_armv7l.whl → 0.2.5__cp39-cp39-musllinux_1_2_armv7l.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py CHANGED Viewed

@@ -117,14 +117,17 @@ class GAETrajectoryProcessorPurePython(
         else:
             avg_return = np.nan
             return_std = np.nan
-        avg_reward = reward_sum[0] / exp_len
+        avg_reward = reward_sum.item() / exp_len
+        average_episode_return = reward_sum.item() / len(trajectories)
         trajectory_processor_data = GAETrajectoryProcessorData(
-            average_undiscounted_episodic_return=avg_reward,
+            average_undiscounted_episodic_return=average_episode_return,
             average_return=avg_return,
             return_standard_deviation=return_std,
+            average_reward=avg_reward
         )
         return (
             (
+                agent_ids,
                 observations,
                 actions,
                 torch.stack(log_probs_list).to(device=self.device),
@@ -146,7 +149,7 @@ class GAETrajectoryProcessorPurePython(
         self.max_returns_per_stats_increment = (
             config.trajectory_processor_config.max_returns_per_stats_increment
         )
-        self.dtype = np.dtype(config.dtype)
+        self.dtype = np.dtype(str(config.dtype).replace("torch.", ""))
         self.device = config.device
         self.checkpoint_load_folder = config.checkpoint_load_folder
         if self.checkpoint_load_folder is not None:

rlgym_learn_algos/ppo/ppo_learner.py CHANGED Viewed

@@ -284,6 +284,15 @@ class PPOLearner(
                     batch_advantages,
                 ) = batch
                 batch_target_values = batch_values + batch_advantages
+                if self.config.learner_config.advantage_normalization:
+                    old_device = batch_advantages.device
+                    batch_advantages = batch_advantages.to(
+                        self.config.learner_config.device
+                    )
+                    std, mean = torch.std_mean(batch_advantages)
+                    batch_advantages = (batch_advantages - mean) / (std + 1e-8)
+                    batch_advantages = batch_advantages.to(old_device)
                 self.actor_optimizer.zero_grad()
                 self.critic_optimizer.zero_grad()
@@ -306,10 +315,6 @@ class PPOLearner(
                     advantages = batch_advantages[start:stop].to(
                         self.config.learner_config.device
                     )
-                    if self.config.learner_config.advantage_normalization:
-                        advantages = (advantages - torch.mean(advantages)) / (
-                            torch.std(advantages) + 1e-8
-                        )
                     old_probs = batch_old_probs[start:stop].to(
                         self.config.learner_config.device
                     )

rlgym_learn_algos/rlgym_learn_algos.cpython-39-arm-linux-gnueabihf.so CHANGED Viewed

Binary file

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: rlgym-learn-algos
-Version: 0.2.4
+Version: 0.2.5
 Classifier: Programming Language :: Rust
 Classifier: Programming Language :: Python :: Implementation :: CPython
 Requires-Dist: pydantic>=2.8.2

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/RECORD RENAMED Viewed

@@ -1,6 +1,6 @@
-rlgym_learn_algos-0.2.4.dist-info/METADATA,sha256=KldIto2nUjijheVI6OpfvsBKYxgWYCbOFclqfwp13ys,2403
-rlgym_learn_algos-0.2.4.dist-info/WHEEL,sha256=ZaFOerxeFPIN7Ome868VEyCSJvdCwZINrGvZscX7-b8,105
-rlgym_learn_algos-0.2.4.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
+rlgym_learn_algos-0.2.5.dist-info/METADATA,sha256=2VF5mDcwQYEzbe79AxZaPgBLM27xqPRKgwe2e032iEM,2403
+rlgym_learn_algos-0.2.5.dist-info/WHEEL,sha256=tJzuvXDEq7ucUZfJWsHlvQOirMibwrJVwFDSzASj-C8,105
+rlgym_learn_algos-0.2.5.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
 rlgym_learn_algos.libs/libgcc_s-5b5488a6.so.1,sha256=HGKUsVmTeNAxEdSy7Ua5Vh_I9FN3RCbPWzvZ7H_TrwE,2749061
 rlgym_learn_algos/__init__.py,sha256=dZeTgNro6qG1Hu0l0UBhgHOYiyeCwPWndC84dJAp__U,203
 rlgym_learn_algos/conversion/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -19,15 +19,15 @@ rlgym_learn_algos/ppo/env_trajectories.py,sha256=PaO6dmpNkQ3yDLaHIRc0ipn45t5zAjE
 rlgym_learn_algos/ppo/experience_buffer.py,sha256=4wWSfq1tobXv7lmBbkM5sbTVuPJxrdAbxi5rNHc04g4,10769
 rlgym_learn_algos/ppo/experience_buffer_numpy.py,sha256=6AOGQjDn_dHLS9bmxJW_cGEjBUbe8u5VWS0LVlpIdmY,4617
 rlgym_learn_algos/ppo/gae_trajectory_processor.py,sha256=gv5kxvvPnK7SyQIAq6MbOFILIMdPlzoLZwM8TRmtNWw,5302
-rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py,sha256=cq7qbK0mcLDXRzA6-pKW0OC50X52XhT5himcOTD6Ei4,6657
+rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py,sha256=APtUDpxo5ZNV-xupe56lzu2nwvfLwyEEB87hiISgRdw,6836
 rlgym_learn_algos/ppo/multi_discrete_actor.py,sha256=Mik0X79dUy2ZRIMol4RMTZE9qzsOk6f_6bDaOl5ghxs,3039
 rlgym_learn_algos/ppo/ppo_agent_controller.py,sha256=to807i7Nm7FMA0zT8m9VWTBZz7pxhL-W8JLBM4OFuc0,25051
-rlgym_learn_algos/ppo/ppo_learner.py,sha256=utEWkikXCpC6Xc1D3asohO0HsIaq3tLyoTlb7fXLOw4,15522
+rlgym_learn_algos/ppo/ppo_learner.py,sha256=DTqohPeFB7XbxoB8hkvBpGbbAZG_0vGPyPuKEyM8Btw,15770
 rlgym_learn_algos/ppo/ppo_metrics_logger.py,sha256=iUyUc2GPwDIIjZeJPZWxoeRrzUWV_qLOac0vApQBkp0,2803
 rlgym_learn_algos/ppo/trajectory.py,sha256=_xyS9ueU6iVvqMUpFr-kb42wEHHZy4zCse7_r660n5E,690
 rlgym_learn_algos/ppo/trajectory_processor.py,sha256=3XRsXXexHWp6UV5nAeBLYvWqvQ9EbNHSN3Yooi4cezo,2031
 rlgym_learn_algos/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-rlgym_learn_algos/rlgym_learn_algos.cpython-39-arm-linux-gnueabihf.so,sha256=uvZb1wCJqEBZozUM2MxXf4OcgqDLlVZiwHOQ1Z6fXSs,739981
+rlgym_learn_algos/rlgym_learn_algos.cpython-39-arm-linux-gnueabihf.so,sha256=w0fTk1SIIbgpHivl-ywxuoQZyRhKjO8GjoyWZqppzn8,739981
 rlgym_learn_algos/rlgym_learn_algos.pyi,sha256=B9Kt9uK8xCqASRxWvzLdV501TSCMO4vTNqvZ0MhOHyo,1164
 rlgym_learn_algos/stateful_functions/__init__.py,sha256=OAVy6cQIS85Utyp18jjHgdmascX_8nkwk3A0OpFJxT4,230
 rlgym_learn_algos/stateful_functions/batch_reward_type_numpy_converter.py,sha256=a3q2l5SIgDI36ImF_kYoa684pghnFnlV2vGYvV2zcV0,743
@@ -37,4 +37,4 @@ rlgym_learn_algos/util/__init__.py,sha256=hq7M00Q7zAfyQmIGmXOif0vI40aj_FQ5SqI5dn
 rlgym_learn_algos/util/running_stats.py,sha256=KtzdKKT75-5ZC58JRqaDXk6sBqa3ZSjQQZrRajAw3Yk,4339
 rlgym_learn_algos/util/torch_functions.py,sha256=ImgDw4I3ZixGDi17YRkW6UbaiaQTbvOCUCS7N0QVSsU,3320
 rlgym_learn_algos/util/torch_pydantic.py,sha256=khPGA6kWh4_WHoploDkl_SCIGX8SkKkFT40RE06PImc,3413
-rlgym_learn_algos-0.2.4.dist-info/RECORD,,
+rlgym_learn_algos-0.2.5.dist-info/RECORD,,

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/WHEEL RENAMED Viewed

@@ -1,4 +1,4 @@
 Wheel-Version: 1.0
-Generator: maturin (1.9.0)
+Generator: maturin (1.9.1)
 Root-Is-Purelib: false
 Tag: cp39-cp39-musllinux_1_2_armv7l

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes