📝 docs: 完善 Lab 6 强化学习教程

ruyiluo · ruyiluo · commit 6e9bb25e4e45 · 2026-05-24T00:20:38.000+08:00
diff --git a/codes/practices/quadruped/cs123/exercises/lab_6_rl_pupper/README.md b/codes/practices/quadruped/cs123/exercises/lab_6_rl_pupper/README.md
@@ -26,7 +26,7 @@
 
 ## 起点与 TODO map
 
-教师版 `starter.py` 已经写好 PPO 配置、训练循环、渲染管线和画图。学生只补 `envs/pupper_env.py` 里三处 TODO。
+当前仓库保留教师版 `envs/pupper_env.py` 和 `starter.py`，方便直接运行测试与生成素材。学生练习版只需要补环境里的三处 TODO；对应提示保留在 `starter_todo.py` 的 TODO 1–3。
 
 | TODO | task | what to write |
 |---|---|---|
@@ -45,7 +45,7 @@
 
 ## MuJoCo scene
 
-复用 Lab 4 / Lab 5 验证过的 `lab4/models/pupper_v3_floating.xml`（浮基 + 棋盘地板 + skybox + spotlight + tracking_cam）。不另起 MJCF。
+复用 Lab 4 / Lab 5 验证过的 `shared/models/pupper_v3_floating.xml`（浮基 + 棋盘地板 + skybox + spotlight + tracking_cam）。不另起 MJCF。
 
 ## Rubric
 
@@ -92,5 +92,5 @@ bash shared/rl/fetch_policies.sh                   # 下载 test_policy.json 到
 uv run python lab_6_rl_pupper/tests.py             # 4 条断言
 uv run python lab_6_rl_pupper/train_ppo.py         # 30–60 min CPU 训练
 uv run python lab_6_rl_pupper/eval_commands.py     # 加载 ckpt 录 GIF + 画图
-uv run python lab_6_rl_pupper/make_artifacts.py    # 一键串
+uv run python lab_6_rl_pupper/make_artifacts.py    # 一键串起训练、GIF、对比图和曲线
 ```
diff --git a/codes/practices/quadruped/cs123/exercises/lab_6_rl_pupper/envs/pupper_env.py b/codes/practices/quadruped/cs123/exercises/lab_6_rl_pupper/envs/pupper_env.py
@@ -154,10 +154,7 @@ def _get_obs(self) -> np.ndarray:
         gravity = base_local_gravity(self.model, self.data, self._base_id)
         qpos = self.data.qpos[self._joint_qpos_ids].copy()
         qvel = self.data.qvel[self._joint_qvel_ids].copy()
-        foot_contact = np.array([
-            1.0 if self.data.cfrc_ext[bid, 2] > 0.5 else 0.0
-            for bid in self._foot_body_ids
-        ], dtype=np.float32)
+        foot_contact = foot_contact_indicator(self.model, self.data, self._foot_body_ids)
         obs = np.concatenate([
             base_omega,
             gravity,
diff --git a/codes/practices/quadruped/cs123/exercises/lab_6_rl_pupper/make_artifacts.py b/codes/practices/quadruped/cs123/exercises/lab_6_rl_pupper/make_artifacts.py
@@ -1,4 +1,4 @@
-"""一键：train → eval → 画图 → 写 portfolio。"""
+"""一键：train → command GIF → comparison GIF → 画图 → 写 portfolio。"""
 
 from __future__ import annotations
 
@@ -17,6 +17,7 @@
     GIF_WIDTH,
     PORTFOLIO_DIR,
     render_command_demo,
+    render_comparison_gif,
     render_velocity_tracking,
     save_reward_curve,
     save_velocity_tracking,
@@ -28,7 +29,7 @@ def main() -> None:
     PORTFOLIO_DIR.mkdir(parents=True, exist_ok=True)
 
     print("=" * 60)
-    print("Step 1/4: PPO 训练")
+    print("Step 1/5: PPO 训练")
     print("=" * 60)
     t0 = time.time()
     ckpt = train_ppo()
@@ -37,7 +38,7 @@ def main() -> None:
     print(f"训练完成: {train_wall / 60:.1f} min, checkpoint {ckpt_mb:.1f} MB")
 
     print("=" * 60)
-    print("Step 2/4: 录制命令序列 GIF")
+    print("Step 2/5: 录制命令序列 GIF")
     print("=" * 60)
     frames = render_command_demo()
     gif_path = PORTFOLIO_DIR / "rl_pupper_commands.gif"
@@ -53,13 +54,18 @@ def main() -> None:
     print(f"GIF: {gif_path} ({gif_mb:.2f} MB)")
 
     print("=" * 60)
-    print("Step 3/4: 速度跟踪图")
+    print("Step 3/5: 录制 side-by-side comparison GIF")
+    print("=" * 60)
+    render_comparison_gif(ckpt)
+
+    print("=" * 60)
+    print("Step 4/5: 速度跟踪图")
     print("=" * 60)
     results = render_velocity_tracking()
     save_velocity_tracking(results)
 
     print("=" * 60)
-    print("Step 4/4: 训练曲线")
+    print("Step 5/5: 训练曲线")
     print("=" * 60)
     save_reward_curve()
 
diff --git a/docs/practices/quadruped/cs123/6.rl-gait.md b/docs/practices/quadruped/cs123/6.rl-gait.md