Skip to content

Commit f5cdc00

Browse files
committed
docs(agentic-rl): update tool use and trajectory content
1 parent 17cf5d1 commit f5cdc00

2 files changed

Lines changed: 4 additions & 4 deletions

File tree

docs/chapter10_agentic_rl/tool-use-agents.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -268,8 +268,8 @@ Reward: 答案正确性 - λ × 搜索次数
268268

269269
### 技术谱系:SearchR1 之后
270270

271-
| 工作 | 核心创新 | 引用 |
272-
| ------------------------- | -------------------------------------------------------- | ------------ |
271+
| 工作 | 核心创新 | 引用 |
272+
| -------------------------- | -------------------------------------------------------- | ------------ |
273273
| **SearchR1 **[^searchr1] | RL 训练模型自主搜索,GRPO + RLVR | 819 |
274274
| **ReSearch **[^research] | 推理与搜索深度融合,每步推理可包含搜索策略反思 ||
275275
| **ToRL **[^torl] | 扩展到计算工具(代码执行器),发现工具使用的 Scaling Law | 131 |

docs/chapter10_agentic_rl/tool-use-and-trajectory.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -617,8 +617,8 @@ Reward: 答案正确性 - λ × 搜索次数
617617

618618
#### 技术谱系:SearchR1 之后
619619

620-
| 工作 | 核心创新 | 引用 |
621-
| ------------------------- | -------------------------------------------------------- | ------------ |
620+
| 工作 | 核心创新 | 引用 |
621+
| -------------------------- | -------------------------------------------------------- | ------------ |
622622
| **SearchR1 **[^searchr1] | RL 训练模型自主搜索,GRPO + RLVR | 819 |
623623
| **ReSearch **[^research] | 推理与搜索深度融合,每步推理可包含搜索策略反思 ||
624624
| **ToRL **[^torl] | 扩展到计算工具(代码执行器),发现工具使用的 Scaling Law | 131 |

0 commit comments

Comments
 (0)