File tree Expand file tree Collapse file tree
docs/chapter10_agentic_rl Expand file tree Collapse file tree Original file line number Diff line number Diff line change @@ -268,8 +268,8 @@ Reward: 答案正确性 - λ × 搜索次数
268268
269269### 技术谱系:SearchR1 之后
270270
271- | 工作 | 核心创新 | 引用 |
272- | ------------------------- | -------------------------------------------------------- | ------------ |
271+ | 工作 | 核心创新 | 引用 |
272+ | -------------------------- | -------------------------------------------------------- | ------------ |
273273| ** SearchR1 ** [ ^ searchr1 ] | RL 训练模型自主搜索,GRPO + RLVR | 819 |
274274| ** ReSearch ** [ ^ research ] | 推理与搜索深度融合,每步推理可包含搜索策略反思 | — |
275275| ** ToRL ** [ ^ torl ] | 扩展到计算工具(代码执行器),发现工具使用的 Scaling Law | 131 |
Original file line number Diff line number Diff line change @@ -617,8 +617,8 @@ Reward: 答案正确性 - λ × 搜索次数
617617
618618#### 技术谱系:SearchR1 之后
619619
620- | 工作 | 核心创新 | 引用 |
621- | ------------------------- | -------------------------------------------------------- | ------------ |
620+ | 工作 | 核心创新 | 引用 |
621+ | -------------------------- | -------------------------------------------------------- | ------------ |
622622| ** SearchR1 ** [ ^ searchr1 ] | RL 训练模型自主搜索,GRPO + RLVR | 819 |
623623| ** ReSearch ** [ ^ research ] | 推理与搜索深度融合,每步推理可包含搜索策略反思 | — |
624624| ** ToRL ** [ ^ torl ] | 扩展到计算工具(代码执行器),发现工具使用的 Scaling Law | 131 |
You can’t perform that action at this time.
0 commit comments