vwxyzjn
diff --git a/‎cleanrl/c51.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/c51.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/c51_atari.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/c51_atari.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/c51_atari_jax.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/c51_atari_jax.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/c51_jax.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/c51_jax.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/ddpg_continuous_action.py‎
Lines changed: 4 additions & 4 deletions b/‎cleanrl/ddpg_continuous_action.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎cleanrl/ddpg_continuous_action_jax.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/ddpg_continuous_action_jax.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/dqn.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/dqn.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/dqn_atari.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/dqn_atari.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/dqn_atari_jax.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/dqn_atari_jax.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎cleanrl/dqn_jax.py‎
Lines changed: 4 additions & 3 deletions b/‎cleanrl/dqn_jax.py‎
Lines changed: 4 additions & 3 deletions
@@ -187,11 +187,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -210,11 +210,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -269,11 +269,12 @@ def get_action(q_state, obs):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -233,11 +233,12 @@ def loss(q_params, observations, actions, target_pmfs):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -184,11 +184,11 @@ def forward(self, x):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
+                logging_step = global_step - args.num_envs + i
                 print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
-                break
+                writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -238,10 +238,11 @@ def actor_loss(params):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
+                        logging_step = global_step - args.num_envs + i
                 print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
                 break
 
         # TRY NOT TO MODIFY: save data to replay buffer; handle `final_observation`
 
@@ -174,11 +174,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -197,11 +197,12 @@ def linear_schedule(start_e: float, end_e: float, duration: int, t: int):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                    logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -227,11 +227,12 @@ def mse_loss(params):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()
 
@@ -197,11 +197,12 @@ def mse_loss(params):
 
         # TRY NOT TO MODIFY: record rewards for plotting purposes
         if "final_info" in infos:
-            for info in infos["final_info"]:
+            for i, info in enumerate(infos["final_info"]):
                 if info and "episode" in info:
+                        logging_step = global_step - args.num_envs + i
                     print(f"global_step={global_step}, episodic_return={info['episode']['r']}")
-                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], global_step)
-                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], global_step)
+                    writer.add_scalar("charts/episodic_return", info["episode"]["r"], logging_step)
+                    writer.add_scalar("charts/episodic_length", info["episode"]["l"], logging_step)
 
         # TRY NOT TO MODIFY: save data to reply buffer; handle `final_observation`
         real_next_obs = next_obs.copy()