PyPI - rlgym-learn-algos - Versions diffs - 0.2.4__cp39-cp39-win_amd64.whl → 0.2.5__cp39-cp39-win_amd64.whl - Mend

rlgym-learn-algos 0.2.4__cp39-cp39-win_amd64.whl → 0.2.5__cp39-cp39-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py CHANGED Viewed

@@ -117,14 +117,17 @@ class GAETrajectoryProcessorPurePython(
         else:
             avg_return = np.nan
             return_std = np.nan
-        avg_reward = reward_sum[0] / exp_len
+        avg_reward = reward_sum.item() / exp_len
+        average_episode_return = reward_sum.item() / len(trajectories)
         trajectory_processor_data = GAETrajectoryProcessorData(
-            average_undiscounted_episodic_return=avg_reward,
+            average_undiscounted_episodic_return=average_episode_return,
             average_return=avg_return,
             return_standard_deviation=return_std,
+            average_reward=avg_reward
         )
         return (
             (
+                agent_ids,
                 observations,
                 actions,
                 torch.stack(log_probs_list).to(device=self.device),
@@ -146,7 +149,7 @@ class GAETrajectoryProcessorPurePython(
         self.max_returns_per_stats_increment = (
             config.trajectory_processor_config.max_returns_per_stats_increment
         )
-        self.dtype = np.dtype(config.dtype)
+        self.dtype = np.dtype(str(config.dtype).replace("torch.", ""))
         self.device = config.device
         self.checkpoint_load_folder = config.checkpoint_load_folder
         if self.checkpoint_load_folder is not None:

rlgym_learn_algos/ppo/ppo_learner.py CHANGED Viewed

@@ -284,6 +284,15 @@ class PPOLearner(
                     batch_advantages,
                 ) = batch
                 batch_target_values = batch_values + batch_advantages
+                if self.config.learner_config.advantage_normalization:
+                    old_device = batch_advantages.device
+                    batch_advantages = batch_advantages.to(
+                        self.config.learner_config.device
+                    )
+                    std, mean = torch.std_mean(batch_advantages)
+                    batch_advantages = (batch_advantages - mean) / (std + 1e-8)
+                    batch_advantages = batch_advantages.to(old_device)
                 self.actor_optimizer.zero_grad()
                 self.critic_optimizer.zero_grad()
@@ -306,10 +315,6 @@ class PPOLearner(
                     advantages = batch_advantages[start:stop].to(
                         self.config.learner_config.device
                     )
-                    if self.config.learner_config.advantage_normalization:
-                        advantages = (advantages - torch.mean(advantages)) / (
-                            torch.std(advantages) + 1e-8
-                        )
                     old_probs = batch_old_probs[start:stop].to(
                         self.config.learner_config.device
                     )

rlgym_learn_algos/rlgym_learn_algos.cp39-win_amd64.pyd CHANGED Viewed

Binary file

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: rlgym-learn-algos
-Version: 0.2.4
+Version: 0.2.5
 Classifier: Programming Language :: Rust
 Classifier: Programming Language :: Python :: Implementation :: CPython
 Requires-Dist: pydantic>=2.8.2

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/RECORD RENAMED Viewed

@@ -1,6 +1,6 @@
-rlgym_learn_algos-0.2.4.dist-info/METADATA,sha256=JtoluYo3NjNSC68j3U6S7xb79gvrSC74O3TNy_r8v8k,2431
-rlgym_learn_algos-0.2.4.dist-info/WHEEL,sha256=SqgFUQC3rmJBHv6XKhA7wOKmU2ih3aAfz0FSmR1FvyM,94
-rlgym_learn_algos-0.2.4.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
+rlgym_learn_algos-0.2.5.dist-info/METADATA,sha256=_Hd86nz00PS2t06xX-wHch7-50wlZr8c_FUPjiPmh30,2431
+rlgym_learn_algos-0.2.5.dist-info/WHEEL,sha256=xZ8SzCfbQYp83o2fyM7cU7vfL9QFqpx9fTDOTKg2VCE,94
+rlgym_learn_algos-0.2.5.dist-info/licenses/LICENSE,sha256=HrhfyXIkWY2tGFK11kg7vPCqhgh5DcxleloqdhrpyMY,11558
 rlgym_learn_algos/__init__.py,sha256=C7cRdL4lZrpk3ge_4_lGAbGodqWJXM56FfgO0keRPAY,207
 rlgym_learn_algos/conversion/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 rlgym_learn_algos/conversion/convert_rlgym_ppo_checkpoint.py,sha256=A9nvzjp3DQNRNL5TAt-u3xE80JDIpYEDqAGNReHvFG0,908
@@ -18,15 +18,15 @@ rlgym_learn_algos/ppo/env_trajectories.py,sha256=gzQBRkzwZhlZeSvWL50cc8AOgBfsg5z
 rlgym_learn_algos/ppo/experience_buffer.py,sha256=xDm8NIMdErpv3GyWUBcTvzkLBQa8tW1TXb7OrKRDIu4,11059
 rlgym_learn_algos/ppo/experience_buffer_numpy.py,sha256=Apk4x-pfRnitKJPW6LBZyOPIhgeJs_5EG7BbTCqMwjk,4761
 rlgym_learn_algos/ppo/gae_trajectory_processor.py,sha256=JK958vasIIiuf3ALcFNlvBgGNhFshK8MhQJjwvxhrAM,5453
-rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py,sha256=RpyDR6GQ1JXvwtoKkx5V3z3WvU9ElJdzfNtpPiZDaTc,6831
+rlgym_learn_algos/ppo/gae_trajectory_processor_pure_python.py,sha256=whnxjwrETiX_DSxjSy7ZidSqWHTTJAJ5F4pQqBVmDw4,7013
 rlgym_learn_algos/ppo/multi_discrete_actor.py,sha256=zSYeBBirjguSv_wO-peo06hioHiVhZQjnd-NYwJxmag,3127
 rlgym_learn_algos/ppo/ppo_agent_controller.py,sha256=-qAAlkv8qX2FccAT1Uvr7d40v6j4Vi1Rzl9EdmYRI50,25636
-rlgym_learn_algos/ppo/ppo_learner.py,sha256=Cbbuz0AMwPCmkQ1YPDdZLkbgZOdyrOLEx89Camn-nGE,15942
+rlgym_learn_algos/ppo/ppo_learner.py,sha256=NXj7_CDEpMIVpZwZLO91oYUVDiUPx_E4M7Tu_Zs7jzs,16195
 rlgym_learn_algos/ppo/ppo_metrics_logger.py,sha256=niW8xgQLEBCGgTaVyiE_JqsU6RTjV6h-JzM-7c3JT38,2868
 rlgym_learn_algos/ppo/trajectory.py,sha256=IIH_IG8B_HkyxRPf-YsCyF1jQqNjDx752hgzAehG25I,719
 rlgym_learn_algos/ppo/trajectory_processor.py,sha256=5eY_mNGjqIkhqnbKeaqDvqIWPdg6wD6Ai3fXH2WoXbw,2091
 rlgym_learn_algos/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-rlgym_learn_algos/rlgym_learn_algos.cp39-win_amd64.pyd,sha256=Cm7rNAYop9cn-cIYQLzmF8G4NQegX92VlsyELPC8ehQ,416256
+rlgym_learn_algos/rlgym_learn_algos.cp39-win_amd64.pyd,sha256=kGXk-rmyRKfJ0j-DbVnbWDu5ba7eD8jJp3yzaDNPdRk,408576
 rlgym_learn_algos/rlgym_learn_algos.pyi,sha256=NwY-sDZWM06TUiKPzxpfH1Td6G6E8TdxtRPgBSh-PPE,1203
 rlgym_learn_algos/stateful_functions/__init__.py,sha256=QS0KYjuzagNkYiYllXQmjoJn14-G7KZawq1Zvwh8alY,236
 rlgym_learn_algos/stateful_functions/batch_reward_type_numpy_converter.py,sha256=1yte5qYyl9LWdClHZ_YsF7R9dJqQeYfINMdgNF_59Gs,767
@@ -36,4 +36,4 @@ rlgym_learn_algos/util/__init__.py,sha256=VPM6SN4T_625H9t30s9EiLeXiEEWgcyRVHa-LL
 rlgym_learn_algos/util/running_stats.py,sha256=0tiGFpKtHWzMa1CxM_ueBzd_ryX4bJBriC8MXcSLg8w,4479
 rlgym_learn_algos/util/torch_functions.py,sha256=_uAXhq1YYPneWI3_XXRYsSA3Hn1a8wGjUnI3m9UojdU,3411
 rlgym_learn_algos/util/torch_pydantic.py,sha256=5AbXQcfQtVgLRBSgCj0Hvi_H42WHLu4Oty4l_i22nAo,3531
-rlgym_learn_algos-0.2.4.dist-info/RECORD,,
+rlgym_learn_algos-0.2.5.dist-info/RECORD,,

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/WHEEL RENAMED Viewed

@@ -1,4 +1,4 @@
 Wheel-Version: 1.0
-Generator: maturin (1.9.0)
+Generator: maturin (1.9.1)
 Root-Is-Purelib: false
 Tag: cp39-cp39-win_amd64

{rlgym_learn_algos-0.2.4.dist-info → rlgym_learn_algos-0.2.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes