PyPI - torchrl - Versions diffs - 0.11.0__cp314-cp314t-win_amd64.whl - Mend

torchrl 0.11.0__cp314-cp314t-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (394) hide show

benchmarks/benchmark_batched_envs.py +104 -0
benchmarks/conftest.py +91 -0
benchmarks/ecosystem/gym_env_throughput.py +321 -0
benchmarks/ecosystem/vmas_rllib_vs_torchrl_sampling_performance.py +231 -0
benchmarks/requirements.txt +7 -0
benchmarks/storage/benchmark_sample_latency_over_rpc.py +193 -0
benchmarks/test_collectors_benchmark.py +240 -0
benchmarks/test_compressed_storage_benchmark.py +145 -0
benchmarks/test_envs_benchmark.py +133 -0
benchmarks/test_llm.py +101 -0
benchmarks/test_non_tensor_env_benchmark.py +70 -0
benchmarks/test_objectives_benchmarks.py +1199 -0
benchmarks/test_replaybuffer_benchmark.py +254 -0
sota-check/README.md +35 -0
sota-implementations/README.md +142 -0
sota-implementations/a2c/README.md +39 -0
sota-implementations/a2c/a2c_atari.py +291 -0
sota-implementations/a2c/a2c_mujoco.py +273 -0
sota-implementations/a2c/utils_atari.py +240 -0
sota-implementations/a2c/utils_mujoco.py +160 -0
sota-implementations/bandits/README.md +7 -0
sota-implementations/bandits/dqn.py +126 -0
sota-implementations/cql/cql_offline.py +198 -0
sota-implementations/cql/cql_online.py +249 -0
sota-implementations/cql/discrete_cql_offline.py +180 -0
sota-implementations/cql/discrete_cql_online.py +227 -0
sota-implementations/cql/utils.py +471 -0
sota-implementations/crossq/crossq.py +271 -0
sota-implementations/crossq/utils.py +320 -0
sota-implementations/ddpg/ddpg.py +231 -0
sota-implementations/ddpg/utils.py +325 -0
sota-implementations/decision_transformer/dt.py +163 -0
sota-implementations/decision_transformer/lamb.py +167 -0
sota-implementations/decision_transformer/online_dt.py +178 -0
sota-implementations/decision_transformer/utils.py +562 -0
sota-implementations/discrete_sac/discrete_sac.py +243 -0
sota-implementations/discrete_sac/utils.py +324 -0
sota-implementations/dqn/README.md +30 -0
sota-implementations/dqn/dqn_atari.py +272 -0
sota-implementations/dqn/dqn_cartpole.py +236 -0
sota-implementations/dqn/utils_atari.py +132 -0
sota-implementations/dqn/utils_cartpole.py +90 -0
sota-implementations/dreamer/README.md +129 -0
sota-implementations/dreamer/dreamer.py +586 -0
sota-implementations/dreamer/dreamer_utils.py +1107 -0
sota-implementations/expert-iteration/README.md +352 -0
sota-implementations/expert-iteration/ei_utils.py +770 -0
sota-implementations/expert-iteration/expert-iteration-async.py +512 -0
sota-implementations/expert-iteration/expert-iteration-sync.py +508 -0
sota-implementations/expert-iteration/requirements_gsm8k.txt +13 -0
sota-implementations/expert-iteration/requirements_ifeval.txt +16 -0
sota-implementations/gail/gail.py +327 -0
sota-implementations/gail/gail_utils.py +68 -0
sota-implementations/gail/ppo_utils.py +157 -0
sota-implementations/grpo/README.md +273 -0
sota-implementations/grpo/grpo-async.py +437 -0
sota-implementations/grpo/grpo-sync.py +435 -0
sota-implementations/grpo/grpo_utils.py +843 -0
sota-implementations/grpo/requirements_gsm8k.txt +11 -0
sota-implementations/grpo/requirements_ifeval.txt +16 -0
sota-implementations/impala/README.md +33 -0
sota-implementations/impala/impala_multi_node_ray.py +292 -0
sota-implementations/impala/impala_multi_node_submitit.py +284 -0
sota-implementations/impala/impala_single_node.py +261 -0
sota-implementations/impala/utils.py +184 -0
sota-implementations/iql/discrete_iql.py +230 -0
sota-implementations/iql/iql_offline.py +164 -0
sota-implementations/iql/iql_online.py +225 -0
sota-implementations/iql/utils.py +437 -0
sota-implementations/multiagent/README.md +74 -0
sota-implementations/multiagent/iql.py +237 -0
sota-implementations/multiagent/maddpg_iddpg.py +266 -0
sota-implementations/multiagent/mappo_ippo.py +267 -0
sota-implementations/multiagent/qmix_vdn.py +271 -0
sota-implementations/multiagent/sac.py +337 -0
sota-implementations/multiagent/utils/__init__.py +4 -0
sota-implementations/multiagent/utils/logging.py +151 -0
sota-implementations/multiagent/utils/utils.py +43 -0
sota-implementations/ppo/README.md +29 -0
sota-implementations/ppo/ppo_atari.py +305 -0
sota-implementations/ppo/ppo_mujoco.py +293 -0
sota-implementations/ppo/utils_atari.py +238 -0
sota-implementations/ppo/utils_mujoco.py +152 -0
sota-implementations/ppo_trainer/train.py +21 -0
sota-implementations/redq/README.md +7 -0
sota-implementations/redq/redq.py +199 -0
sota-implementations/redq/utils.py +1060 -0
sota-implementations/sac/sac-async.py +266 -0
sota-implementations/sac/sac.py +239 -0
sota-implementations/sac/utils.py +381 -0
sota-implementations/sac_trainer/train.py +16 -0
sota-implementations/td3/td3.py +254 -0
sota-implementations/td3/utils.py +319 -0
sota-implementations/td3_bc/td3_bc.py +177 -0
sota-implementations/td3_bc/utils.py +251 -0
torchrl/__init__.py +144 -0
torchrl/_extension.py +74 -0
torchrl/_torchrl.cp314t-win_amd64.pyd +0 -0
torchrl/_utils.py +1431 -0
torchrl/collectors/__init__.py +48 -0
torchrl/collectors/_base.py +1058 -0
torchrl/collectors/_constants.py +88 -0
torchrl/collectors/_multi_async.py +324 -0
torchrl/collectors/_multi_base.py +1805 -0
torchrl/collectors/_multi_sync.py +464 -0
torchrl/collectors/_runner.py +581 -0
torchrl/collectors/_single.py +2009 -0
torchrl/collectors/_single_async.py +259 -0
torchrl/collectors/collectors.py +62 -0
torchrl/collectors/distributed/__init__.py +32 -0
torchrl/collectors/distributed/default_configs.py +133 -0
torchrl/collectors/distributed/generic.py +1306 -0
torchrl/collectors/distributed/ray.py +1092 -0
torchrl/collectors/distributed/rpc.py +1006 -0
torchrl/collectors/distributed/sync.py +731 -0
torchrl/collectors/distributed/utils.py +160 -0
torchrl/collectors/llm/__init__.py +10 -0
torchrl/collectors/llm/base.py +494 -0
torchrl/collectors/llm/ray_collector.py +275 -0
torchrl/collectors/llm/utils.py +36 -0
torchrl/collectors/llm/weight_update/__init__.py +10 -0
torchrl/collectors/llm/weight_update/vllm.py +348 -0
torchrl/collectors/llm/weight_update/vllm_v2.py +311 -0
torchrl/collectors/utils.py +433 -0
torchrl/collectors/weight_update.py +591 -0
torchrl/csrc/numpy_utils.h +38 -0
torchrl/csrc/pybind.cpp +27 -0
torchrl/csrc/segment_tree.h +458 -0
torchrl/csrc/torch_utils.h +34 -0
torchrl/csrc/utils.cpp +48 -0
torchrl/csrc/utils.h +31 -0
torchrl/data/__init__.py +187 -0
torchrl/data/datasets/__init__.py +58 -0
torchrl/data/datasets/atari_dqn.py +878 -0
torchrl/data/datasets/common.py +281 -0
torchrl/data/datasets/d4rl.py +489 -0
torchrl/data/datasets/d4rl_infos.py +187 -0
torchrl/data/datasets/gen_dgrl.py +375 -0
torchrl/data/datasets/minari_data.py +643 -0
torchrl/data/datasets/openml.py +177 -0
torchrl/data/datasets/openx.py +798 -0
torchrl/data/datasets/roboset.py +363 -0
torchrl/data/datasets/utils.py +11 -0
torchrl/data/datasets/vd4rl.py +432 -0
torchrl/data/llm/__init__.py +34 -0
torchrl/data/llm/dataset.py +491 -0
torchrl/data/llm/history.py +1378 -0
torchrl/data/llm/prompt.py +198 -0
torchrl/data/llm/reward.py +225 -0
torchrl/data/llm/topk.py +186 -0
torchrl/data/llm/utils.py +543 -0
torchrl/data/map/__init__.py +21 -0
torchrl/data/map/hash.py +185 -0
torchrl/data/map/query.py +204 -0
torchrl/data/map/tdstorage.py +363 -0
torchrl/data/map/tree.py +1434 -0
torchrl/data/map/utils.py +103 -0
torchrl/data/postprocs/__init__.py +8 -0
torchrl/data/postprocs/postprocs.py +391 -0
torchrl/data/replay_buffers/__init__.py +99 -0
torchrl/data/replay_buffers/checkpointers.py +622 -0
torchrl/data/replay_buffers/ray_buffer.py +292 -0
torchrl/data/replay_buffers/replay_buffers.py +2376 -0
torchrl/data/replay_buffers/samplers.py +2578 -0
torchrl/data/replay_buffers/scheduler.py +265 -0
torchrl/data/replay_buffers/storages.py +2412 -0
torchrl/data/replay_buffers/utils.py +1042 -0
torchrl/data/replay_buffers/writers.py +781 -0
torchrl/data/tensor_specs.py +7101 -0
torchrl/data/utils.py +334 -0
torchrl/envs/__init__.py +265 -0
torchrl/envs/async_envs.py +1105 -0
torchrl/envs/batched_envs.py +3093 -0
torchrl/envs/common.py +4241 -0
torchrl/envs/custom/__init__.py +11 -0
torchrl/envs/custom/chess.py +617 -0
torchrl/envs/custom/llm.py +214 -0
torchrl/envs/custom/pendulum.py +401 -0
torchrl/envs/custom/san_moves.txt +29274 -0
torchrl/envs/custom/tictactoeenv.py +288 -0
torchrl/envs/env_creator.py +263 -0
torchrl/envs/gym_like.py +752 -0
torchrl/envs/libs/__init__.py +68 -0
torchrl/envs/libs/_gym_utils.py +326 -0
torchrl/envs/libs/brax.py +846 -0
torchrl/envs/libs/dm_control.py +544 -0
torchrl/envs/libs/envpool.py +447 -0
torchrl/envs/libs/gym.py +2239 -0
torchrl/envs/libs/habitat.py +138 -0
torchrl/envs/libs/isaac_lab.py +87 -0
torchrl/envs/libs/isaacgym.py +203 -0
torchrl/envs/libs/jax_utils.py +166 -0
torchrl/envs/libs/jumanji.py +963 -0
torchrl/envs/libs/meltingpot.py +599 -0
torchrl/envs/libs/openml.py +153 -0
torchrl/envs/libs/openspiel.py +652 -0
torchrl/envs/libs/pettingzoo.py +1042 -0
torchrl/envs/libs/procgen.py +351 -0
torchrl/envs/libs/robohive.py +429 -0
torchrl/envs/libs/smacv2.py +645 -0
torchrl/envs/libs/unity_mlagents.py +891 -0
torchrl/envs/libs/utils.py +147 -0
torchrl/envs/libs/vmas.py +813 -0
torchrl/envs/llm/__init__.py +63 -0
torchrl/envs/llm/chat.py +730 -0
torchrl/envs/llm/datasets/README.md +4 -0
torchrl/envs/llm/datasets/__init__.py +17 -0
torchrl/envs/llm/datasets/gsm8k.py +353 -0
torchrl/envs/llm/datasets/ifeval.py +274 -0
torchrl/envs/llm/envs.py +789 -0
torchrl/envs/llm/libs/README.md +3 -0
torchrl/envs/llm/libs/__init__.py +8 -0
torchrl/envs/llm/libs/mlgym.py +869 -0
torchrl/envs/llm/reward/__init__.py +10 -0
torchrl/envs/llm/reward/gsm8k.py +324 -0
torchrl/envs/llm/reward/ifeval/README.md +13 -0
torchrl/envs/llm/reward/ifeval/__init__.py +10 -0
torchrl/envs/llm/reward/ifeval/_instructions.py +1667 -0
torchrl/envs/llm/reward/ifeval/_instructions_main.py +131 -0
torchrl/envs/llm/reward/ifeval/_instructions_registry.py +100 -0
torchrl/envs/llm/reward/ifeval/_instructions_util.py +1677 -0
torchrl/envs/llm/reward/ifeval/_scorer.py +454 -0
torchrl/envs/llm/transforms/__init__.py +55 -0
torchrl/envs/llm/transforms/browser.py +292 -0
torchrl/envs/llm/transforms/dataloading.py +859 -0
torchrl/envs/llm/transforms/format.py +73 -0
torchrl/envs/llm/transforms/kl.py +1544 -0
torchrl/envs/llm/transforms/policy_version.py +189 -0
torchrl/envs/llm/transforms/reason.py +323 -0
torchrl/envs/llm/transforms/tokenizer.py +321 -0
torchrl/envs/llm/transforms/tools.py +1955 -0
torchrl/envs/model_based/__init__.py +9 -0
torchrl/envs/model_based/common.py +180 -0
torchrl/envs/model_based/dreamer.py +112 -0
torchrl/envs/transforms/__init__.py +147 -0
torchrl/envs/transforms/functional.py +48 -0
torchrl/envs/transforms/gym_transforms.py +203 -0
torchrl/envs/transforms/module.py +341 -0
torchrl/envs/transforms/r3m.py +372 -0
torchrl/envs/transforms/ray_service.py +663 -0
torchrl/envs/transforms/rb_transforms.py +214 -0
torchrl/envs/transforms/transforms.py +11835 -0
torchrl/envs/transforms/utils.py +94 -0
torchrl/envs/transforms/vc1.py +307 -0
torchrl/envs/transforms/vecnorm.py +845 -0
torchrl/envs/transforms/vip.py +407 -0
torchrl/envs/utils.py +1718 -0
torchrl/envs/vec_envs.py +11 -0
torchrl/modules/__init__.py +206 -0
torchrl/modules/distributions/__init__.py +73 -0
torchrl/modules/distributions/continuous.py +830 -0
torchrl/modules/distributions/discrete.py +908 -0
torchrl/modules/distributions/truncated_normal.py +187 -0
torchrl/modules/distributions/utils.py +233 -0
torchrl/modules/llm/__init__.py +62 -0
torchrl/modules/llm/backends/__init__.py +65 -0
torchrl/modules/llm/backends/vllm/__init__.py +94 -0
torchrl/modules/llm/backends/vllm/_models.py +46 -0
torchrl/modules/llm/backends/vllm/base.py +72 -0
torchrl/modules/llm/backends/vllm/vllm_async.py +2075 -0
torchrl/modules/llm/backends/vllm/vllm_plugin.py +22 -0
torchrl/modules/llm/backends/vllm/vllm_sync.py +446 -0
torchrl/modules/llm/backends/vllm/vllm_utils.py +129 -0
torchrl/modules/llm/policies/__init__.py +28 -0
torchrl/modules/llm/policies/common.py +1809 -0
torchrl/modules/llm/policies/transformers_wrapper.py +2756 -0
torchrl/modules/llm/policies/vllm_wrapper.py +2241 -0
torchrl/modules/llm/utils.py +23 -0
torchrl/modules/mcts/__init__.py +21 -0
torchrl/modules/mcts/scores.py +579 -0
torchrl/modules/models/__init__.py +86 -0
torchrl/modules/models/batchrenorm.py +119 -0
torchrl/modules/models/decision_transformer.py +179 -0
torchrl/modules/models/exploration.py +731 -0
torchrl/modules/models/llm.py +156 -0
torchrl/modules/models/model_based.py +596 -0
torchrl/modules/models/models.py +1712 -0
torchrl/modules/models/multiagent.py +1067 -0
torchrl/modules/models/recipes/impala.py +185 -0
torchrl/modules/models/utils.py +162 -0
torchrl/modules/planners/__init__.py +10 -0
torchrl/modules/planners/cem.py +228 -0
torchrl/modules/planners/common.py +73 -0
torchrl/modules/planners/mppi.py +265 -0
torchrl/modules/tensordict_module/__init__.py +89 -0
torchrl/modules/tensordict_module/actors.py +2457 -0
torchrl/modules/tensordict_module/common.py +529 -0
torchrl/modules/tensordict_module/exploration.py +814 -0
torchrl/modules/tensordict_module/probabilistic.py +321 -0
torchrl/modules/tensordict_module/rnn.py +1639 -0
torchrl/modules/tensordict_module/sequence.py +132 -0
torchrl/modules/tensordict_module/world_models.py +34 -0
torchrl/modules/utils/__init__.py +38 -0
torchrl/modules/utils/mappings.py +9 -0
torchrl/modules/utils/utils.py +89 -0
torchrl/objectives/__init__.py +78 -0
torchrl/objectives/a2c.py +659 -0
torchrl/objectives/common.py +753 -0
torchrl/objectives/cql.py +1346 -0
torchrl/objectives/crossq.py +710 -0
torchrl/objectives/ddpg.py +453 -0
torchrl/objectives/decision_transformer.py +371 -0
torchrl/objectives/deprecated.py +516 -0
torchrl/objectives/dqn.py +683 -0
torchrl/objectives/dreamer.py +488 -0
torchrl/objectives/functional.py +48 -0
torchrl/objectives/gail.py +258 -0
torchrl/objectives/iql.py +996 -0
torchrl/objectives/llm/__init__.py +30 -0
torchrl/objectives/llm/grpo.py +846 -0
torchrl/objectives/llm/sft.py +482 -0
torchrl/objectives/multiagent/__init__.py +8 -0
torchrl/objectives/multiagent/qmixer.py +396 -0
torchrl/objectives/ppo.py +1669 -0
torchrl/objectives/redq.py +683 -0
torchrl/objectives/reinforce.py +530 -0
torchrl/objectives/sac.py +1580 -0
torchrl/objectives/td3.py +570 -0
torchrl/objectives/td3_bc.py +625 -0
torchrl/objectives/utils.py +782 -0
torchrl/objectives/value/__init__.py +28 -0
torchrl/objectives/value/advantages.py +1956 -0
torchrl/objectives/value/functional.py +1459 -0
torchrl/objectives/value/utils.py +360 -0
torchrl/record/__init__.py +17 -0
torchrl/record/loggers/__init__.py +23 -0
torchrl/record/loggers/common.py +48 -0
torchrl/record/loggers/csv.py +226 -0
torchrl/record/loggers/mlflow.py +142 -0
torchrl/record/loggers/tensorboard.py +139 -0
torchrl/record/loggers/trackio.py +163 -0
torchrl/record/loggers/utils.py +78 -0
torchrl/record/loggers/wandb.py +214 -0
torchrl/record/recorder.py +554 -0
torchrl/services/__init__.py +79 -0
torchrl/services/base.py +109 -0
torchrl/services/ray_service.py +453 -0
torchrl/testing/__init__.py +107 -0
torchrl/testing/assertions.py +179 -0
torchrl/testing/dist_utils.py +122 -0
torchrl/testing/env_creators.py +227 -0
torchrl/testing/env_helper.py +35 -0
torchrl/testing/gym_helpers.py +156 -0
torchrl/testing/llm_mocks.py +119 -0
torchrl/testing/mocking_classes.py +2720 -0
torchrl/testing/modules.py +295 -0
torchrl/testing/mp_helpers.py +15 -0
torchrl/testing/ray_helpers.py +293 -0
torchrl/testing/utils.py +190 -0
torchrl/trainers/__init__.py +42 -0
torchrl/trainers/algorithms/__init__.py +11 -0
torchrl/trainers/algorithms/configs/__init__.py +705 -0
torchrl/trainers/algorithms/configs/collectors.py +216 -0
torchrl/trainers/algorithms/configs/common.py +41 -0
torchrl/trainers/algorithms/configs/data.py +308 -0
torchrl/trainers/algorithms/configs/envs.py +104 -0
torchrl/trainers/algorithms/configs/envs_libs.py +361 -0
torchrl/trainers/algorithms/configs/logging.py +80 -0
torchrl/trainers/algorithms/configs/modules.py +570 -0
torchrl/trainers/algorithms/configs/objectives.py +177 -0
torchrl/trainers/algorithms/configs/trainers.py +340 -0
torchrl/trainers/algorithms/configs/transforms.py +955 -0
torchrl/trainers/algorithms/configs/utils.py +252 -0
torchrl/trainers/algorithms/configs/weight_sync_schemes.py +191 -0
torchrl/trainers/algorithms/configs/weight_update.py +159 -0
torchrl/trainers/algorithms/ppo.py +373 -0
torchrl/trainers/algorithms/sac.py +308 -0
torchrl/trainers/helpers/__init__.py +40 -0
torchrl/trainers/helpers/collectors.py +416 -0
torchrl/trainers/helpers/envs.py +573 -0
torchrl/trainers/helpers/logger.py +33 -0
torchrl/trainers/helpers/losses.py +132 -0
torchrl/trainers/helpers/models.py +658 -0
torchrl/trainers/helpers/replay_buffer.py +59 -0
torchrl/trainers/helpers/trainers.py +301 -0
torchrl/trainers/trainers.py +2052 -0
torchrl/weight_update/__init__.py +33 -0
torchrl/weight_update/_distributed.py +749 -0
torchrl/weight_update/_mp.py +624 -0
torchrl/weight_update/_noupdate.py +102 -0
torchrl/weight_update/_ray.py +1032 -0
torchrl/weight_update/_rpc.py +284 -0
torchrl/weight_update/_shared.py +891 -0
torchrl/weight_update/llm/__init__.py +32 -0
torchrl/weight_update/llm/vllm_double_buffer.py +370 -0
torchrl/weight_update/llm/vllm_nccl.py +710 -0
torchrl/weight_update/utils.py +73 -0
torchrl/weight_update/weight_sync_schemes.py +1244 -0
torchrl-0.11.0.dist-info/LICENSE +21 -0
torchrl-0.11.0.dist-info/METADATA +1307 -0
torchrl-0.11.0.dist-info/RECORD +394 -0
torchrl-0.11.0.dist-info/WHEEL +5 -0
torchrl-0.11.0.dist-info/entry_points.txt +2 -0
torchrl-0.11.0.dist-info/top_level.txt +7 -0

benchmarks/benchmark_batched_envs.py ADDED Viewed

@@ -0,0 +1,104 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+#
+# This source code is licensed under the MIT license found in the
+# LICENSE file in the root directory of this source tree.
+"""
+Benchmarking different types of batched environments
+====================================================
+Compares runtime for different environments which allow performing operations in a batch.
+- SerialEnv executes the operations sequentially
+- ParallelEnv uses multiprocess parallelism
+- MultiThreadedEnv uses multithreaded parallelism and is based on envpool library.
+Run as "python benchmarks/benchmark_batched_envs.py"
+Requires pandas ("pip install pandas").
+"""
+import pandas as pd
+from torchrl._utils import logger as torchrl_logger
+pd.set_option("display.max_columns", 100)
+pd.set_option("display.width", 1000)
+import torch
+from torch.utils.benchmark import Timer
+from torchrl.envs import MultiThreadedEnv, ParallelEnv, SerialEnv
+from torchrl.envs.libs.gym import GymEnv
+N_STEPS = 1000
+def create_multithreaded(num_workers, device):
+    env = MultiThreadedEnv(num_workers=num_workers, env_name="Pendulum-v1")
+    # GPU doesn't lead to any speedup for MultiThreadedEnv, as the underlying library (envpool) works only on CPU
+    env = env.to(device=torch.device(device))
+    env.rollout(policy=None, max_steps=5)  # Warm-up
+    return env
+def factory():
+    return GymEnv("Pendulum-v1")
+def create_serial(num_workers, device):
+    env = SerialEnv(num_workers=num_workers, create_env_fn=factory)
+    env = env.to(device=torch.device(device))
+    env.rollout(policy=None, max_steps=5)  # Warm-up
+    return env
+def create_parallel(num_workers, device):
+    env = ParallelEnv(num_workers=num_workers, create_env_fn=factory)
+    env = env.to(device=torch.device(device))
+    env.rollout(policy=None, max_steps=5)  # Warm-up
+    return env
+def run_env(env):
+    env.rollout(policy=None, max_steps=N_STEPS)
+if __name__ == "__main__":
+    res = {}
+    devices = ["cpu"]
+    if torch.cuda.is_available():
+        devices.append("cuda")
+    for device in devices:
+        for num_workers in [1, 4, 16]:
+            torchrl_logger.info(f"With num_workers={num_workers}, {device}")
+            torchrl_logger.info("Multithreaded...")
+            env_multithreaded = create_multithreaded(num_workers, device)
+            res_multithreaded = Timer(
+                stmt="run_env(env)",
+                setup="from __main__ import run_env",
+                globals={"env": env_multithreaded},
+            )
+            time_multithreaded = res_multithreaded.blocked_autorange().mean
+            torchrl_logger.info("Serial...")
+            env_serial = create_serial(num_workers, device)
+            res_serial = Timer(
+                stmt="run_env(env)",
+                setup="from __main__ import run_env",
+                globals={"env": env_serial},
+            )
+            time_serial = res_serial.blocked_autorange().mean
+            torchrl_logger.info("Parallel...")
+            env_parallel = create_parallel(num_workers, device)
+            res_parallel = Timer(
+                stmt="run_env(env)",
+                setup="from __main__ import run_env",
+                globals={"env": env_parallel},
+            )
+            time_parallel = res_parallel.blocked_autorange().mean
+            res[f"num_workers_{num_workers}_{device}"] = {
+                "Serial, s": time_serial,
+                "Parallel, s": time_parallel,
+                "Multithreaded, s": time_multithreaded,
+            }
+    df = pd.DataFrame(res).round(3)
+    gain = 1 - df.loc["Multithreaded, s"] / df.loc["Parallel, s"]
+    df.loc["Gain, %", :] = (gain * 100).round(1)
+    df.to_csv("multithreaded_benchmark.csv")

benchmarks/conftest.py ADDED Viewed

@@ -0,0 +1,91 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+#
+# This source code is licensed under the MIT license found in the
+# LICENSE file in the root directory of this source tree.
+import os
+import time
+import warnings
+from collections import defaultdict
+import pytest
+from torchrl._utils import logger as torchrl_logger
+CALL_TIMES = defaultdict(float)
+def pytest_sessionfinish(maxprint=50):
+    out_str = """
+Call times:
+===========
+"""
+    keys = list(CALL_TIMES.keys())
+    if len(keys) > 1:
+        maxchar = max(*[len(key) for key in keys])
+    elif len(keys) == 1:
+        maxchar = len(keys[0])
+    else:
+        return
+    for i, (key, item) in enumerate(
+        sorted(CALL_TIMES.items(), key=lambda x: x[1], reverse=True)
+    ):
+        spaces = "  " + " " * (maxchar - len(key))
+        out_str += f"\t{key}{spaces}{item: 4.4f}s\n"
+        if i == maxprint - 1:
+            break
+    torchrl_logger.info(out_str)
+@pytest.fixture(autouse=True)
+def measure_duration(request: pytest.FixtureRequest):
+    start_time = time.time()
+    def fin():
+        duration = time.time() - start_time
+        name = request.node.name
+        class_name = request.cls.__name__ if request.cls else None
+        name = name.split("[")[0]
+        if class_name is not None:
+            name = "::".join([class_name, name])
+        file = os.path.basename(request.path)
+        name = f"{file}::{name}"
+        CALL_TIMES[name] = CALL_TIMES[name] + duration
+    request.addfinalizer(fin)
+def pytest_addoption(parser):
+    parser.addoption("--rank", action="store")
+@pytest.fixture(scope="session", autouse=True)
+def set_warnings() -> None:
+    warnings.filterwarnings(
+        "ignore",
+        category=UserWarning,
+        message=r"Lazy modules are a new feature under heavy development",
+    )
+    warnings.filterwarnings(
+        "ignore",
+        category=UserWarning,
+        message=r"Couldn't cast the policy onto the desired device on remote process",
+    )
+    warnings.filterwarnings(
+        "ignore",
+        category=DeprecationWarning,
+        message=r"Deprecated call to `pkg_resources.declare_namespace",
+    )
+    warnings.filterwarnings(
+        "ignore",
+        category=DeprecationWarning,
+        message=r"Using or importing the ABCs",
+    )
+    warnings.filterwarnings(
+        "ignore",
+        category=DeprecationWarning,
+        message=r"Please use `coo_matrix` from the `scipy.sparse` namespace",
+    )
+    warnings.filterwarnings(
+        "ignore",
+        category=DeprecationWarning,
+        message=r"jax.tree_util.register_keypaths is deprecated|jax.ShapedArray is deprecated",
+    )

benchmarks/ecosystem/gym_env_throughput.py ADDED Viewed

@@ -0,0 +1,321 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+#
+# This source code is licensed under the MIT license found in the
+# LICENSE file in the root directory of this source tree.
+"""This script executes some envs across the Gym library with the explicit scope of testing the throughput using the various TorchRL components.
+We test:
+- gym async envs embedded in a TorchRL's GymEnv wrapper,
+- ParallelEnv with regular GymEnv instances,
+- Data collector
+- Multiprocessed data collectors with parallel envs.
+The tests are executed with various number of cpus, and on different devices.
+"""
+import time
+# import myosuite  # noqa: F401
+import torch
+import tqdm
+from torchrl._utils import timeit
+from torchrl.collectors import (
+    MultiaSyncDataCollector,
+    MultiSyncDataCollector,
+    SyncDataCollector,
+)
+from torchrl.envs import EnvCreator, GymEnv, ParallelEnv
+from torchrl.envs.libs.gym import gym_backend as gym_bc, set_gym_backend
+from torchrl.modules import RandomPolicy
+if __name__ == "__main__":
+    avail_devices = ("cpu",)
+    if torch.cuda.is_available():
+        avail_devices = avail_devices + ("cuda:0",)
+    for envname in [
+        "CartPole-v1",
+        "HalfCheetah-v4",
+        "myoHandReachRandom-v0",
+        "ALE/Breakout-v5",
+    ]:
+        # the number of collectors won't affect the resources, just impacts how the envs are split in sub-sub-processes
+        for num_workers, num_collectors in zip((32, 64, 8, 16), (8, 8, 2, 4)):
+            with open(f"{envname}_{num_workers}.txt".replace("/", "-"), "w+") as log:
+                if "myo" in envname:
+                    gym_backend = "gym"
+                else:
+                    gym_backend = "gymnasium"
+                total_frames = num_workers * 10_000
+                # pure gym
+                def make(envname=envname, gym_backend=gym_backend):
+                    with set_gym_backend(gym_backend):
+                        return gym_bc().make(envname)
+                with set_gym_backend(gym_backend):
+                    env = gym_bc().vector.AsyncVectorEnv(
+                        [make for _ in range(num_workers)]
+                    )
+                env.reset()
+                global_step = 0
+                times = []
+                start = time.time()
+                for _ in tqdm.tqdm(range(total_frames // num_workers)):
+                    env.step(env.action_space.sample())
+                    global_step += num_workers
+                env.close()
+                log.write(
+                    f"pure gym: {num_workers * 10_000 / (time.time() - start): 4.4f} fps\n"
+                )
+                log.flush()
+                # regular parallel env
+                for device in avail_devices:
+                    def make(envname=envname, gym_backend=gym_backend):
+                        with set_gym_backend(gym_backend):
+                            return GymEnv(envname, device="cpu")
+                    # env_make = EnvCreator(make)
+                    penv = ParallelEnv(num_workers, EnvCreator(make), device=device)
+                    with torch.inference_mode():
+                        # warmup
+                        penv.rollout(2)
+                        pbar = tqdm.tqdm(total=num_workers * 10_000)
+                        t0 = time.time()
+                        data = None
+                        for _ in range(100):
+                            data = penv.rollout(
+                                100, break_when_any_done=False, out=data
+                            )
+                            pbar.update(100 * num_workers)
+                    log.write(
+                        f"penv {device}: {num_workers * 10_000 / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    penv.close()
+                    timeit.print()
+                    del penv
+                for device in avail_devices:
+                    def make(envname=envname, gym_backend=gym_backend):
+                        with set_gym_backend(gym_backend):
+                            return GymEnv(envname, device="cpu")
+                    env_make = EnvCreator(make)
+                    # penv = SerialEnv(num_workers, env_make)
+                    penv = ParallelEnv(num_workers, env_make, device=device)
+                    collector = SyncDataCollector(
+                        penv,
+                        RandomPolicy(penv.action_spec),
+                        frames_per_batch=1024,
+                        total_frames=num_workers * 10_000,
+                        device=device,
+                    )
+                    pbar = tqdm.tqdm(total=num_workers * 10_000)
+                    total_frames = 0
+                    t0 = time.time()
+                    for data in collector:
+                        total_frames += data.numel()
+                        pbar.update(data.numel())
+                        pbar.set_description(
+                            f"single collector + torchrl penv: {total_frames / (time.time() - t0): 4.4f} fps"
+                        )
+                    log.write(
+                        f"single collector + torchrl penv {device}: {total_frames / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    collector.shutdown()
+                    del collector
+                for device in avail_devices:
+                    # gym parallel env
+                    def make_env(
+                        envname=envname,
+                        num_workers=num_workers,
+                        gym_backend=gym_backend,
+                        device=device,
+                    ):
+                        with set_gym_backend(gym_backend):
+                            penv = GymEnv(envname, num_envs=num_workers, device=device)
+                        return penv
+                    penv = make_env()
+                    # warmup
+                    penv.rollout(2)
+                    pbar = tqdm.tqdm(total=num_workers * 10_000)
+                    t0 = time.time()
+                    for _ in range(100):
+                        data = penv.rollout(100, break_when_any_done=False)
+                        pbar.update(100 * num_workers)
+                    log.write(
+                        f"gym penv {device}: {num_workers * 10_000 / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    penv.close()
+                    del penv
+                for device in avail_devices:
+                    # async collector
+                    # + torchrl parallel env
+                    def make_env(envname=envname, gym_backend=gym_backend):
+                        with set_gym_backend(gym_backend):
+                            return GymEnv(envname, device="cpu")
+                    penv = ParallelEnv(
+                        num_workers // num_collectors,
+                        EnvCreator(make_env),
+                        device=device,
+                    )
+                    collector = MultiaSyncDataCollector(
+                        [penv] * num_collectors,
+                        policy=RandomPolicy(penv.action_spec),
+                        frames_per_batch=1024,
+                        total_frames=num_workers * 10_000,
+                        device=device,
+                    )
+                    pbar = tqdm.tqdm(total=num_workers * 10_000)
+                    total_frames = 0
+                    for i, data in enumerate(collector):
+                        if i == num_collectors:
+                            t0 = time.time()
+                        if i >= num_collectors:
+                            total_frames += data.numel()
+                            pbar.update(data.numel())
+                            pbar.set_description(
+                                f"collector + torchrl penv: {total_frames / (time.time() - t0): 4.4f} fps"
+                            )
+                    log.write(
+                        f"async collector + torchrl penv {device}: {total_frames / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    collector.shutdown()
+                    del collector
+                for device in avail_devices:
+                    # async collector
+                    # + gym async env
+                    def make_env(
+                        envname=envname,
+                        num_workers=num_workers,
+                        gym_backend=gym_backend,
+                    ):
+                        with set_gym_backend(gym_backend):
+                            penv = GymEnv(envname, num_envs=num_workers, device="cpu")
+                        return penv
+                    penv = EnvCreator(
+                        lambda num_workers=num_workers // num_collectors: make_env(
+                            num_workers=num_workers
+                        )
+                    )
+                    collector = MultiaSyncDataCollector(
+                        [penv] * num_collectors,
+                        policy=RandomPolicy(penv().action_spec),
+                        frames_per_batch=1024,
+                        total_frames=num_workers * 10_000,
+                        num_sub_threads=num_workers // num_collectors,
+                        device=device,
+                    )
+                    pbar = tqdm.tqdm(total=num_workers * 10_000)
+                    total_frames = 0
+                    for i, data in enumerate(collector):
+                        if i == num_collectors:
+                            t0 = time.time()
+                        if i >= num_collectors:
+                            total_frames += data.numel()
+                            pbar.update(data.numel())
+                            pbar.set_description(
+                                f"{i} collector + gym penv: {total_frames / (time.time() - t0): 4.4f} fps"
+                            )
+                    log.write(
+                        f"async collector + gym penv {device}: {total_frames / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    collector.shutdown()
+                    del collector
+                for device in avail_devices:
+                    # sync collector
+                    # + torchrl parallel env
+                    def make_env(envname=envname, gym_backend=gym_backend):
+                        with set_gym_backend(gym_backend):
+                            return GymEnv(envname, device="cpu")
+                    penv = ParallelEnv(
+                        num_workers // num_collectors,
+                        EnvCreator(make_env),
+                        device=device,
+                    )
+                    collector = MultiSyncDataCollector(
+                        [penv] * num_collectors,
+                        policy=RandomPolicy(penv.action_spec),
+                        frames_per_batch=1024,
+                        total_frames=num_workers * 10_000,
+                        device=device,
+                    )
+                    pbar = tqdm.tqdm(total=num_workers * 10_000)
+                    total_frames = 0
+                    for i, data in enumerate(collector):
+                        if i == num_collectors:
+                            t0 = time.time()
+                        if i >= num_collectors:
+                            total_frames += data.numel()
+                            pbar.update(data.numel())
+                            pbar.set_description(
+                                f"collector + torchrl penv: {total_frames / (time.time() - t0): 4.4f} fps"
+                            )
+                    log.write(
+                        f"sync collector + torchrl penv {device}: {total_frames / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    collector.shutdown()
+                    del collector
+                for device in avail_devices:
+                    # sync collector
+                    # + gym async env
+                    def make_env(
+                        envname=envname,
+                        num_workers=num_workers,
+                        gym_backend=gym_backend,
+                    ):
+                        with set_gym_backend(gym_backend):
+                            penv = GymEnv(envname, num_envs=num_workers, device="cpu")
+                        return penv
+                    penv = EnvCreator(
+                        lambda num_workers=num_workers // num_collectors: make_env(
+                            num_workers=num_workers
+                        )
+                    )
+                    collector = MultiSyncDataCollector(
+                        [penv] * num_collectors,
+                        policy=RandomPolicy(penv().action_spec),
+                        frames_per_batch=1024,
+                        total_frames=num_workers * 10_000,
+                        num_sub_threads=num_workers // num_collectors,
+                        device=device,
+                    )
+                    pbar = tqdm.tqdm(total=num_workers * 10_000)
+                    total_frames = 0
+                    for i, data in enumerate(collector):
+                        if i == num_collectors:
+                            t0 = time.time()
+                        if i >= num_collectors:
+                            total_frames += data.numel()
+                            pbar.update(data.numel())
+                            pbar.set_description(
+                                f"{i} collector + gym penv: {total_frames / (time.time() - t0): 4.4f} fps"
+                            )
+                    log.write(
+                        f"sync collector + gym penv {device}: {total_frames / (time.time() - t0): 4.4f} fps\n"
+                    )
+                    log.flush()
+                    collector.shutdown()
+                    del collector
+    exit()