Skip to content

feature(xjy): add multi-task learning pipeline in jericho environment#465

Open
xiongjyu wants to merge 9 commits intoopendilab:mainfrom
xiongjyu:dev-jericho-mt
Open

feature(xjy): add multi-task learning pipeline in jericho environment#465
xiongjyu wants to merge 9 commits intoopendilab:mainfrom
xiongjyu:dev-jericho-mt

Conversation

@xiongjyu
Copy link
Copy Markdown
Collaborator

@xiongjyu xiongjyu commented Jan 18, 2026

这个 PR 的主要目的是在 LightZero 的 Jericho 环境中引入多任务学习(Multi-task Learning)的训练pipeline,并修复了相关的适配问题。

主要变更包括:

  • 新增多任务支持: 添加了针对 Jericho 环境的多任务学习配置(jericho_unizero_multitask_config.py)以及对应的 DDP 训练配置。

  • 环境与收集器适配: 修复了 muzero_collector 在 episode 模式下的 bug,并使其能够适配多任务环境的收集需求。

  • DDP 训练修复: 修复了在 Jericho 多任务环境下 DDP(分布式数据并行)设置中的 bug。

  • 修复了收集日志(collect log)输出时的 bug。

  • 清理了未使用的配置代码,并优化了保存配置文件的命名。

实验结果:

  • 训练曲线
    image
    image

  • 数据收集曲线

    • detective
      image

    • aconcourt
      image

    • omniquest
      image

    • zork1
      image

@puyuan1996 puyuan1996 added the research Research work in progress label Jan 20, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

research Research work in progress

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants