Update to use Taxi-v4

pseudo-rnd-thoughts · web-flow · commit eb5c00e00df3 · 2026-04-22T14:40:11.000+01:00
diff --git a/docs/tutorials/training_agents/action_masking_taxi.py b/docs/tutorials/training_agents/action_masking_taxi.py
@@ -170,7 +170,7 @@ def train_q_learning(
     print(f"Run {i + 1}/{n_runs} with seed {seed}")
 
     # Train agent WITH action masking
-    env_masked = gym.make("Taxi-v3")
+    env_masked = gym.make("Taxi-v4")
     masked_results = train_q_learning(
         env_masked,
         use_action_mask=True,
@@ -184,7 +184,7 @@ def train_q_learning(
     masked_results_list.append(masked_results)
 
     # Train agent WITHOUT action masking
-    env_unmasked = gym.make("Taxi-v3")
+    env_unmasked = gym.make("Taxi-v4")
     unmasked_results = train_q_learning(
         env_unmasked,
         use_action_mask=False,