5555
5656## 数据集准备
5757
58- 此任务的数据集是最小的 ,仅包含用于角色洗牌的随机** 种子** 。每个训练回合使用不同的种子来随机化玩家角色分配,确保多样化的训练场景。
58+ 此任务的数据集非常简单 ,仅包含用于角色洗牌的随机** 种子** 。每个训练回合使用不同的种子来随机化玩家角色分配,确保多样化的训练场景。
5959
6060### 生成数据集
6161
@@ -281,11 +281,11 @@ cluster:
281281
282282**Player4(狼人队友)策略性回应:**
283283
284- **简而言之 **:Player4 牺牲队友以获得信任,假装是一个逻辑清晰的村民。
284+ **总结 **:Player4 牺牲队友以获得信任,假装是一个逻辑清晰的村民。
285285
286286**详细推理和陈述:**
287287
288- *私下推理 (仅 Player4 可见):*
288+ *Player4 的自身推理 (仅 Player4 可见):*
289289` ` `
290290" 我是狼人,我知道 Player2 昨晚被针对但活了下来。
291291我的队友 Player5 注定失败——Player3 和 Player7 一起攻击他。
@@ -296,7 +296,7 @@ cluster:
296296后续回合的'确认好人'。"
297297```
298298
299- * 公开陈述 (所有玩家可见):*
299+ * Player4 的公开陈述 (所有玩家可见):*
300300```
301301✅ "我认为 Player5 行为非常奇怪。他提到 Player2 被针对,
302302但没有解释为什么他如此关注他们。这感觉像是分散注意力的策略。
@@ -307,13 +307,13 @@ cluster:
307307
308308** 结果** :Player5 被淘汰,但 Player4 获得了预言家和所有村民的完全信任。
309309
310- ** 为什么有效: **
310+ ** 为什么有效** :
311311- 预言家信任 Player4 作为强大的村民盟友 → 不会检查他
312312- 村民遵循 Player4 的"逻辑"分析
313313- Player4 在后续回合中系统性地误导讨论
314314- 存活到最后 2 名玩家 → ** 狼人获胜**
315315
316- 这展示了训练行为的本质:** 策略性地牺牲棋子以确保最终胜利 ** 。模型学会短期队友损失对于建立深度潜伏和长期主导地位是值得的 。
316+ 这展示了训练行为的本质:** 牺牲一些队友以确保最终胜利 ** 。模型懂得了牺牲队友对于建立深度潜伏和长期主导地位是值得的 。
317317
318318---
319319
@@ -366,7 +366,7 @@ workflow_args:
366366- **资源管理不善**:女巫浪费药水或未能拯救被针对的队友
367367- **缺乏证据整合**:玩家忽略关键信息,基于模糊的怀疑采取行动
368368
369- **训练后:策略协调与女巫carry **
369+ **训练后:策略协调与女巫带领全场 **
370370
371371训练后,好人模型展现出高级推理和团队协调能力。
372372
@@ -417,7 +417,7 @@ Player4 正在为自己辩护,这很可疑。
417417
418418---
419419
420- **✅ 训练后:女巫通过策略性玩法carry **
420+ **✅ 训练后:女巫通过一定策略带领全场 **
421421
422422*游戏状态:* 预言家(Player2)在第 1 夜死亡,但留下了明确信息:"我检查了 Player4,确认他们是村民。"
423423
@@ -481,12 +481,16 @@ Player6 一直太安静,总是跟随多数,没有
481481
482482这展示了训练后的好人行为的本质:**策略性资源管理、基于证据的推理和团队协调**。模型学会,特殊角色的自我保护和逻辑共识建立比激进的早期投票更有价值。
483483
484- **角色特定的高级模式:**
484+ **角色特定的高级行为模式:**
485+
486+ - **预言家**: 战略性目标选择,在公开声明中隐藏信息,整合证据
487+ - **女巫**: 资源管理(在关键时刻保留药水),保护高价值目标,基于证据的决策
488+ - **村民**: 证据链分析,与特殊角色建立信任,形成共识以协调团队
485489
486490---
487491
488492## 结论
489493
490494此示例展示了强化学习在复杂社交推理游戏中训练多智能体系统的力量。通过 AgentScope-Tuner 的 GRPO 算法,我们成功训练了发展复杂策略的智能体——从学习"深度潜伏"策略的狼人到掌握协调推理和信息管理的好人。
491495
492- **准备好自己尝试了吗?** 随时开始训练你自己的狼人杀游戏智能体。尝试不同的模型大小、训练目标(狼人 vs. 好人)和超参数,以发现新的涌现策略 !
496+ **准备好自己尝试了吗?** 随时开始训练你自己的狼人杀游戏智能体。尝试不同的模型大小、训练目标(狼人 vs. 好人)和超参数,以发现新的策略 !
0 commit comments