-
Notifications
You must be signed in to change notification settings - Fork 33
Open
Labels
Description
你是否已经阅读并同意《Datawhale开源项目指南》?
- 我已阅读并同意《Datawhale开源项目指南》
你是否已经阅读并同意《Datawhale开源项目行为准则》?
- 我已阅读并同意《Datawhale开源项目行为准则》
项目简介
项目简介
本项目是一个围绕 DeepLearning.AI 出品的 Post-Training for LLMs 系列课程,为国内学习者量身打造的中文翻译与知识整理教程。项目提供课程内容翻译、知识点梳理和示例代码等内容,旨在降低语言门槛,让更多学生、研究人员和开发者系统掌握大语言模型(LLM)后训练阶段的核心技术与实践方法。
立项理由
立项理由
项目的核心目标是帮助国内学习者系统学习国际前沿的 LLM 后训练技术,缩小信息差距,并推动 LLM 技术在更多实际场景中落地应用。当前 LLM 技术快速发展,但高质量的中文学习资料仍较少,尤其是在 后训练阶段 的系统化内容方面。本项目旨在将 DeepLearning.AI 的高质量课程引入中文世界,让更多开发者与学生能直接接触到国际一线的 LLM 后训练知识,并在自己的项目中加以实践。
项目受众
项目受众
- 对 LLM 优化与应用感兴趣。
- 希望深入理解并掌握模型后训练方法的。
- 希望结合后训练技术打造领域专用模型的 。
- 以及最广大、最普通的学生群体
项目亮点
项目亮点
1、权威课程,本土化翻译
精准翻译DeepLearning.AI官方前沿课程,打破语言壁垒,为国内学习者提供原汁原味且易于理解的LLM后训练核心知识。
2、系统梳理后训练核心技术
聚焦SFT、DPO、OnlineRL等关键环节,将碎片知识系统化,帮助学习者构建从理论到实践的完整知识体系。
3、理论与实践并重
提供配套可运行的代码示例,强化动手能力,确保学习者不仅能“看懂”,更能“上手”,为开发领域专用模型打下基础。
项目规划
项目规划
1、目录
2、各章节负责人以及预估完成时间
章节 | 负责人 | 预估完成时间 |
---|---|---|
1.1 课程介绍 | 李柯辰 | 10.7 |
1.2 后训练技术介绍 | 李柯辰 | 10.7 |
2.1 监督微调基础理论 | 朱广恩 | 10.7 |
2.2 监督微调实践 | 王泽宇 | 10.7 |
3.1 直接偏好优化基础理论 | 王海洪 | 10.7 |
3.2 直接偏好优化实践 | 张宏历 | 10.7 |
4.1 在线强化学习基础理论 | 朱伯湘 | 10.7 |
4.2 在线强化学习实践 | 蔡煊琪,朱伯湘 | 10.7 |
5.1 总结 | 张宏历 | 10.7 |
3、可预见的困难
- 技术理解与翻译准确性的平衡
LLM后训练领域涉及大量前沿、晦涩的专业术语(如DPO、OnlineRL等)。在翻译和解释时,如何在保持原意准确的前提下,使其在中文语境中易于理解,是一大挑战。理解偏差或翻译生硬都会影响学习效果。 - 代码实践与环境的复现难题
示例代码的成功运行严重依赖于特定的软件库版本、硬件环境(如GPU)和数据集。环境配置的微小差异都可能导致代码报错,极大增加学习者的实践门槛和挫败感。 - 课程迭代与更新压力
LLM领域技术迭代速度极快,原版课程内容可能会更新,新的算法和工具也会不断涌现。项目面临着需要持续跟进、同步更新翻译与代码的巨大压力,否则内容将迅速过时。
已完成内容
已完成的部分
章节 | 负责人 | 预估完成时间 | 状态 |
---|---|---|---|
1.1 课程介绍 | 李柯辰 | 10.7 | ✅ |
1.2 后训练技术介绍 | 李柯辰 | 10.7 | ✅ |
2.1 监督微调基础理论 | 朱广恩 | 10.7 | ✅ |
2.2 监督微调实践 | 王泽宇 | 10.7 | 🚧 |
3.1 直接偏好优化基础理论 | 王海洪 | 10.7 | ✅ |
3.2 直接偏好优化实践 | 张宏历 | 10.7 | ✅ |
4.1 在线强化学习基础理论 | 朱伯湘 | 10.7 | 🚧 |
4.2 在线强化学习实践 | 蔡煊琪,朱伯湘 | 10.7 | 🚧 |
5.1 总结 | 张宏历 | 10.7 | ✅ |
❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les
- 我已知悉上述注意事项并添加了微信:at-Sm1les