v2: Update parameter names (mainly test_num -> num_test_envs)

opcode81 · opcode81 · commit b73093f9e9d6 · 2025-05-19T21:30:05.000+02:00
diff --git a/examples/atari/atari_dqn_hl.py b/examples/atari/atari_dqn_hl.py
@@ -43,7 +43,7 @@ def main(
     update_per_step: float = 0.1,
     batch_size: int = 32,
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     frames_stack: int = 4,
     icm_lr_scale: float = 0.0,
     icm_reward_scale: float = 0.01,
@@ -56,7 +56,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_gradient_steps_per_sample=update_per_step,
diff --git a/examples/atari/atari_iqn_hl.py b/examples/atari/atari_iqn_hl.py
@@ -44,7 +44,7 @@ def main(
     update_per_step: float = 0.1,
     batch_size: int = 32,
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     frames_stack: int = 4,
 ) -> None:
     log_name = os.path.join(task, "iqn", str(experiment_config.seed), datetime_tag())
@@ -54,7 +54,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_gradient_steps_per_sample=update_per_step,
diff --git a/examples/atari/atari_ppo_hl.py b/examples/atari/atari_ppo_hl.py
@@ -37,7 +37,7 @@ def main(
     batch_size: int = 256,
     hidden_sizes: Sequence[int] = (512,),
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     return_scaling: bool = False,
     vf_coef: float = 0.25,
     ent_coef: float = 0.01,
@@ -62,7 +62,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_repetitions=update_step_num_repetitions,
diff --git a/examples/atari/atari_sac_hl.py b/examples/atari/atari_sac_hl.py
@@ -43,7 +43,7 @@ def main(
     batch_size: int = 64,
     hidden_sizes: Sequence[int] = (512,),
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     frames_stack: int = 4,
     icm_lr_scale: float = 0.0,
     icm_reward_scale: float = 0.01,
@@ -57,7 +57,7 @@ def main(
         update_step_num_gradient_steps_per_sample=update_per_step,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         replay_buffer_stack_num=frames_stack,
diff --git a/examples/discrete/discrete_dqn.py b/examples/discrete/discrete_dqn.py
@@ -12,7 +12,7 @@
 def main() -> None:
     task = "CartPole-v1"
     lr, epoch, batch_size = 1e-3, 10, 64
-    train_num, test_num = 10, 100
+    num_train_envs, num_test_envs = 10, 100
     gamma, n_step, target_freq = 0.9, 3, 320
     buffer_size = 20000
     eps_train, eps_test = 0.1, 0.05
@@ -22,8 +22,8 @@ def main() -> None:
     # For other loggers, see https://tianshou.readthedocs.io/en/master/tutorials/logger.html
 
     # You can also try SubprocVectorEnv, which will use parallelization
-    train_envs = ts.env.DummyVectorEnv([lambda: gym.make(task) for _ in range(train_num)])
-    test_envs = ts.env.DummyVectorEnv([lambda: gym.make(task) for _ in range(test_num)])
+    train_envs = ts.env.DummyVectorEnv([lambda: gym.make(task) for _ in range(num_train_envs)])
+    test_envs = ts.env.DummyVectorEnv([lambda: gym.make(task) for _ in range(num_test_envs)])
 
     from tianshou.utils.net.common import Net
 
@@ -50,7 +50,7 @@ def main() -> None:
     train_collector = ts.data.Collector[CollectStats](
         algorithm,
         train_envs,
-        ts.data.VectorReplayBuffer(buffer_size, train_num),
+        ts.data.VectorReplayBuffer(buffer_size, num_train_envs),
         exploration_noise=True,
     )
     test_collector = ts.data.Collector[CollectStats](
@@ -74,7 +74,7 @@ def stop_fn(mean_rewards: float) -> bool:
             max_epochs=epoch,
             epoch_num_steps=epoch_num_steps,
             collection_step_num_env_steps=collection_step_num_env_steps,
-            test_step_num_episodes=test_num,
+            test_step_num_episodes=num_test_envs,
             batch_size=batch_size,
             update_step_num_gradient_steps_per_sample=1 / collection_step_num_env_steps,
             stop_fn=stop_fn,
diff --git a/examples/mujoco/fetch_her_ddpg.py b/examples/mujoco/fetch_her_ddpg.py
@@ -83,14 +83,14 @@ def get_args() -> argparse.Namespace:
 def make_fetch_env(
     task: str,
     num_train_envs: int,
-    test_num: int,
+    num_test_envs: int,
 ) -> tuple[gym.Env, BaseVectorEnv, BaseVectorEnv]:
     env = TruncatedAsTerminated(gym.make(task))
     train_envs = ShmemVectorEnv(
         [lambda: TruncatedAsTerminated(gym.make(task)) for _ in range(num_train_envs)],
     )
     test_envs = ShmemVectorEnv(
-        [lambda: TruncatedAsTerminated(gym.make(task)) for _ in range(test_num)],
+        [lambda: TruncatedAsTerminated(gym.make(task)) for _ in range(num_test_envs)],
     )
     return env, train_envs, test_envs
 
diff --git a/examples/mujoco/mujoco_a2c_hl.py b/examples/mujoco/mujoco_a2c_hl.py
@@ -32,7 +32,7 @@ def main(
     update_step_num_repetitions: int = 1,
     batch_size: int = 16,
     num_train_envs: int = 16,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     return_scaling: bool = True,
     vf_coef: float = 0.5,
     ent_coef: float = 0.01,
@@ -48,7 +48,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_repetitions=update_step_num_repetitions,
diff --git a/examples/mujoco/mujoco_ddpg_hl.py b/examples/mujoco/mujoco_ddpg_hl.py
@@ -34,7 +34,7 @@ def main(
     n_step: int = 1,
     batch_size: int = 256,
     num_train_envs: int = 1,
-    test_num: int = 10,
+    num_test_envs: int = 10,
 ) -> None:
     log_name = os.path.join(task, "ddpg", str(experiment_config.seed), datetime_tag())
 
@@ -43,7 +43,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_gradient_steps_per_sample=update_per_step,
diff --git a/examples/mujoco/mujoco_ppo_hl.py b/examples/mujoco/mujoco_ppo_hl.py
@@ -31,7 +31,7 @@ def main(
     update_step_num_repetitions: int = 10,
     batch_size: int = 64,
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     return_scaling: bool = True,
     vf_coef: float = 0.25,
     ent_coef: float = 0.0,
@@ -52,7 +52,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_repetitions=update_step_num_repetitions,
diff --git a/examples/mujoco/mujoco_redq_hl.py b/examples/mujoco/mujoco_redq_hl.py
@@ -40,7 +40,7 @@ def main(
     batch_size: int = 256,
     target_mode: Literal["mean", "min"] = "min",
     num_train_envs: int = 1,
-    test_num: int = 10,
+    num_test_envs: int = 10,
 ) -> None:
     log_name = os.path.join(task, "redq", str(experiment_config.seed), datetime_tag())
 
@@ -49,7 +49,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_gradient_steps_per_sample=update_per_step,
diff --git a/examples/mujoco/mujoco_reinforce_hl.py b/examples/mujoco/mujoco_reinforce_hl.py
@@ -31,7 +31,7 @@ def main(
     update_step_num_repetitions: int = 1,
     batch_size: int | None = None,
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     return_scaling: bool = True,
     action_bound_method: Literal["clip", "tanh"] = "tanh",
     lr_decay: bool = True,
@@ -43,7 +43,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_repetitions=update_step_num_repetitions,
diff --git a/examples/mujoco/mujoco_sac_hl.py b/examples/mujoco/mujoco_sac_hl.py
@@ -36,15 +36,15 @@ def main(
     n_step: int = 1,
     batch_size: int = 256,
     num_train_envs: int = 1,
-    test_num: int = 10,
+    num_test_envs: int = 10,
 ) -> None:
     log_name = os.path.join(task, "sac", str(experiment_config.seed), datetime_tag())
 
     training_config = OffPolicyTrainingConfig(
         max_epochs=epoch,
         epoch_num_steps=epoch_num_steps,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         batch_size=batch_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
diff --git a/examples/mujoco/mujoco_td3_hl.py b/examples/mujoco/mujoco_td3_hl.py
@@ -8,7 +8,7 @@
 from sensai.util.logging import datetime_tag
 
 from examples.mujoco.mujoco_env import MujocoEnvFactory
-from tianshou.highlevel.config import TrainingConfig
+from tianshou.highlevel.config import OffPolicyTrainingConfig
 from tianshou.highlevel.experiment import (
     ExperimentConfig,
     TD3ExperimentBuilder,
@@ -37,23 +37,23 @@ def main(
     epoch: int = 200,
     epoch_num_steps: int = 5000,
     collection_step_num_env_steps: int = 1,
-    update_per_step: int = 1,
+    update_step_num_gradient_steps_per_sample: int = 1,
     n_step: int = 1,
     batch_size: int = 256,
     num_train_envs: int = 1,
-    test_num: int = 10,
+    num_test_envs: int = 10,
 ) -> None:
     log_name = os.path.join(task, "td3", str(experiment_config.seed), datetime_tag())
 
-    training_config = TrainingConfig(
+    training_config = OffPolicyTrainingConfig(
         max_epochs=epoch,
         epoch_num_steps=epoch_num_steps,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         batch_size=batch_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
-        update_per_step=update_per_step,
+        update_step_num_gradient_steps_per_sample=update_step_num_gradient_steps_per_sample,
         start_timesteps=start_timesteps,
         start_timesteps_random=True,
     )
diff --git a/examples/mujoco/mujoco_trpo_hl.py b/examples/mujoco/mujoco_trpo_hl.py
@@ -31,7 +31,7 @@ def main(
     update_step_num_repetitions: int = 1,
     batch_size: int = 16,
     num_train_envs: int = 16,
-    test_num: int = 10,
+    num_test_envs: int = 10,
     return_scaling: bool = True,
     gae_lambda: float = 0.95,
     bound_action_method: Literal["clip", "tanh"] = "clip",
@@ -49,7 +49,7 @@ def main(
         epoch_num_steps=epoch_num_steps,
         batch_size=batch_size,
         num_train_envs=num_train_envs,
-        num_test_envs=test_num,
+        num_test_envs=num_test_envs,
         buffer_size=buffer_size,
         collection_step_num_env_steps=collection_step_num_env_steps,
         update_step_num_repetitions=update_step_num_repetitions,
diff --git a/examples/vizdoom/env.py b/examples/vizdoom/env.py
@@ -134,11 +134,11 @@ def make_vizdoom_env(
     save_lmp: bool = False,
     seed: int | None = None,
     num_train_envs: int = 10,
-    test_num: int = 10,
+    num_test_envs: int = 10,
 ) -> tuple[Env, ShmemVectorEnv, ShmemVectorEnv]:
     cpu_count = os.cpu_count()
     if cpu_count is not None:
-        test_num = min(cpu_count - 1, test_num)
+        num_test_envs = min(cpu_count - 1, num_test_envs)
     if envpool is not None:
         task_id = "".join([i.capitalize() for i in task.split("_")]) + "-v1"
         lmp_save_dir = "lmps/" if save_lmp else ""
@@ -166,7 +166,7 @@ def make_vizdoom_env(
             stack_num=res[0],
             lmp_save_dir=lmp_save_dir,
             seed=seed,
-            num_envs=test_num,
+            num_envs=num_test_envs,
             reward_config=reward_config,
             use_combined_action=True,
             max_episode_steps=2625,
@@ -179,7 +179,7 @@ def make_vizdoom_env(
             [lambda: Env(cfg_path, frame_skip, res) for _ in range(num_train_envs)],
         )
         test_envs = ShmemVectorEnv(
-            [lambda: Env(cfg_path, frame_skip, res, save_lmp) for _ in range(test_num)],
+            [lambda: Env(cfg_path, frame_skip, res, save_lmp) for _ in range(num_test_envs)],
         )
         train_envs.seed(seed)
         test_envs.seed(seed)
diff --git a/test/determinism_test.py b/test/determinism_test.py
@@ -93,7 +93,7 @@ def set(attr: str, value: Any) -> None:
         set("device", "cpu")
         if not is_offline:
             set("num_train_envs", 1)
-        set("test_num", 1)
+        set("num_test_envs", 1)
 
         self.args = args
         self.main_fn = main_fn
diff --git a/tianshou/env/atari/atari_wrapper.py b/tianshou/env/atari/atari_wrapper.py
@@ -380,7 +380,7 @@ def make_atari_env(
     task: str,
     seed: int,
     num_train_envs: int,
-    test_num: int,
+    num_test_envs: int,
     scale: int | bool = False,
     frame_stack: int = 4,
 ) -> tuple[Env, BaseVectorEnv, BaseVectorEnv]:
@@ -391,7 +391,7 @@ def make_atari_env(
     :return: a tuple of (single env, training envs, test envs).
     """
     env_factory = AtariEnvFactory(task, frame_stack, scale=bool(scale))
-    envs = env_factory.create_envs(num_train_envs, test_num, seed=seed)
+    envs = env_factory.create_envs(num_train_envs, num_test_envs, seed=seed)
     return envs.env, envs.train_envs, envs.test_envs