vwxyzjn · gspeter-max · Mar 1, 2026 · Mar 1, 2026 · Mar 1, 2026 · Mar 1, 2026
diff --git a/cleanrl/c51.py b/cleanrl/c51.py
@@ -187,11 +187,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/c51_atari.py b/cleanrl/c51_atari.py
@@ -210,11 +210,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/c51_atari_jax.py b/cleanrl/c51_atari_jax.py
@@ -269,11 +269,12 @@ def get_action(q_state, obs):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/c51_jax.py b/cleanrl/c51_jax.py
@@ -233,11 +233,12 @@ def loss(q_params, observations, actions, target_pmfs):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/ddpg_continuous_action.py b/cleanrl/ddpg_continuous_action.py
@@ -184,11 +184,11 @@ def forward(self, x):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
+                logging_step = global_step - args.num_envs + i
                 print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
-                break
+                writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/ddpg_continuous_action_jax.py b/cleanrl/ddpg_continuous_action_jax.py
@@ -238,10 +238,11 @@ def actor_loss(params):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
+                        logging_step = global_step - args.num_envs + i
                 print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
                 break
 
         # TRY NOT TO MODIFY: save data to replay buffer; handle `final_observation`

diff --git a/cleanrl/dqn.py b/cleanrl/dqn.py
@@ -174,11 +174,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/dqn_atari.py b/cleanrl/dqn_atari.py
@@ -197,11 +197,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/dqn_atari_jax.py b/cleanrl/dqn_atari_jax.py
@@ -227,11 +227,12 @@ def mse_loss(params):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/dqn_jax.py b/cleanrl/dqn_jax.py
@@ -197,11 +197,12 @@ def mse_loss(params):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()

diff --git a/cleanrl/ppg_procgen.py b/cleanrl/ppg_procgen.py
@@ -309,12 +309,12 @@ def get_pi(self, x):
                 rewards[step] = torch.tensor(reward).to(device).view(-1)
                 next_obs, next_done = torch.Tensor(next_obs).to(device), torch.Tensor(done).to(device)
 
-                for item in info:
+                for i, item in enumerate(info):
                     if "episode" in item.keys():
+                        logging_step = global_step - args.num_envs + i
                         print(f"global_step={global_step}, episodic_return={item['episode']['r']}")
-                        writer.add_scalar("charts/episodic_return", item["episode"]["r"], global_step)
-                        writer.add_scalar("charts/episodic_length", item["episode"]["l"], global_step)
-                        break
+                        writer.add_scalar("charts/episodic_return", item["episode"]["r"], logging_step)
+                        writer.add_scalar("charts/episodic_length", item["episode"]["l"], logging_step)
 
             # bootstrap value if not done
             with torch.no_grad():

diff --git a/cleanrl/ppo.py b/cleanrl/ppo.py
@@ -208,11 +208,12 @@ def get_action_and_value(self, x, action=None):
             next_obs, next_done = torch.Tensor(next_obs).to(device), torch.Tensor(next_done).to(device)
 
             if "final_info" in infos:
-                for info in infos["final_info"]:
+                for i, info in enumerate(infos["final_info"]):
                     if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                         print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # bootstrap value if not done
         with torch.no_grad():

diff --git a/cleanrl/ppo_atari.py b/cleanrl/ppo_atari.py
@@ -225,11 +225,12 @@ def get_action_and_value(self, x, action=None):
             next_obs, next_done = torch.Tensor(next_obs).to(device), torch.Tensor(next_done).to(device)
 
             if "final_info" in infos:
-                for info in infos["final_info"]:
+                for i, info in enumerate(infos["final_info"]):
                     if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                         print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # bootstrap value if not done
         with torch.no_grad():

diff --git a/cleanrl/ppo_atari_envpool.py b/cleanrl/ppo_atari_envpool.py
@@ -240,11 +240,12 @@ def get_action_and_value(self, x, action=None):
 
             for idx, d in enumerate(next_done):
                 if d and info["lives"][idx] == 0:
+                    logging_step = global_step - args.num_envs + idx
                     print(f"global_step={global_step}, episodic_return={info['r'][idx]}")
                     avg_returns.append(info["r"][idx])
-                    writer.add_scalar("charts/avg_episodic_return", np.average(avg_returns), global_step)
-                    writer.add_scalar("charts/episodic_return", info["r"][idx], global_step)
-                    writer.add_scalar("charts/episodic_length", info["l"][idx], global_step)
+                    writer.add_scalar("charts/avg_episodic_return", np.average(avg_returns), logging_step)
+                    writer.add_scalar("charts/episodic_return", info["r"][idx], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["l"][idx], logging_step)
 
         # bootstrap value if not done
         with torch.no_grad():

diff --git a/cleanrl/ppo_atari_lstm.py b/cleanrl/ppo_atari_lstm.py
@@ -257,11 +257,12 @@ def get_action_and_value(self, x, lstm_state, done, action=None):
             next_obs, next_done = torch.Tensor(next_obs).to(device), torch.Tensor(next_done).to(device)
 
             if "final_info" in infos:
-                for info in infos["final_info"]:
+                for i, info in enumerate(infos["final_info"]):
                     if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                         print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # bootstrap value if not done
         with torch.no_grad():

diff --git a/cleanrl/ppo_atari_multigpu.py b/cleanrl/ppo_atari_multigpu.py
@@ -275,11 +275,12 @@ def get_action_and_value(self, x, action=None):
                 continue
 
             if "final_info" in infos:
-                for info in infos["final_info"]:
+                for i, info in enumerate(infos["final_info"]):
                     if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                         print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         print(
             f"local_rank: {local_rank}, action.sum(): {action.sum()}, iteration: {iteration}, agent.actor.weight.sum(): {agent.actor.weight.sum()}"

diff --git a/cleanrl/ppo_continuous_action.py b/cleanrl/ppo_continuous_action.py
@@ -223,11 +223,12 @@ def get_action_and_value(self, x, action=None):
             next_obs, next_done = torch.Tensor(next_obs).to(device), torch.Tensor(next_done).to(device)
 
             if "final_info" in infos:
-                for info in infos["final_info"]:
+                for i, info in enumerate(infos["final_info"]):
                     if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                         print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                        writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                        writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # bootstrap value if not done
         with torch.no_grad():

diff --git a/cleanrl/ppo_continuous_action_isaacgym/ppo_continuous_action_isaacgym.py b/cleanrl/ppo_continuous_action_isaacgym/ppo_continuous_action_isaacgym.py
@@ -291,15 +291,15 @@ def observation(self, obs):
             if 0 <= step <= 2:
                 for idx, d in enumerate(next_done):
                     if d:
+                        logging_step = global_step - args.num_envs + idx
                         episodic_return = info["r"][idx].item()
                         print(f"global_step={global_step}, episodic_return={episodic_return}")
-                        writer.add_scalar("charts/episodic_return", episodic_return, global_step)
-                        writer.add_scalar("charts/episodic_length", info["l"][idx], global_step)
+                        writer.add_scalar("charts/episodic_return", episodic_return, logging_step)
+                        writer.add_scalar("charts/episodic_length", info["l"][idx], logging_step)
                         if "consecutive_successes" in info:  # ShadowHand and AllegroHand metric
                             writer.add_scalar(
-                                "charts/consecutive_successes", info["consecutive_successes"].item(), global_step
+                                "charts/consecutive_successes", info["consecutive_successes"].item(), logging_step
                             )
-                        break
 
         # bootstrap value if not done
         with torch.no_grad():

diff --git a/cleanrl/ppo_procgen.py b/cleanrl/ppo_procgen.py
@@ -241,12 +241,12 @@ def get_action_and_value(self, x, action=None):
             rewards[step] = torch.tensor(reward).to(device).view(-1)
             next_obs, next_done = torch.Tensor(next_obs).to(device), torch.Tensor(next_done).to(device)
 
-            for item in info:
+            for i, item in enumerate(info):
                 if "episode" in item.keys():
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={item['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", item["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", item["episode"]["l"], global_step)
-                    break
+                    writer.add_scalar("charts/episodic_return", item["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", item["episode"]["l"], logging_step)
 
         # bootstrap value if not done
         with torch.no_grad():