Post-training-of-LLMs

### 你是否已经阅读并同意《Datawhale开源项目指南》？

- [x] 我已阅读并同意[《Datawhale开源项目指南》](https://github.com/datawhalechina/DOPMC/blob/main/GUIDE.md)

### 你是否已经阅读并同意《Datawhale开源项目行为准则》？

- [x] 我已阅读并同意[《Datawhale开源项目行为准则》](https://github.com/datawhalechina/DOPMC/blob/main/CODE_OF_CONDUCT.md)

### 项目简介

### **项目简介**
本项目是一个围绕 DeepLearning.AI 出品的 Post-Training for LLMs 系列课程，为国内学习者量身打造的中文翻译与知识整理教程。项目提供课程内容翻译、知识点梳理和示例代码等内容，旨在降低语言门槛，让更多学生、研究人员和开发者系统掌握大语言模型（LLM）后训练阶段的核心技术与实践方法。





### 立项理由

### **立项理由**
项目的核心目标是帮助国内学习者系统学习国际前沿的 LLM 后训练技术，缩小信息差距，并推动 LLM 技术在更多实际场景中落地应用。当前 LLM 技术快速发展，但高质量的中文学习资料仍较少，尤其是在 后训练阶段 的系统化内容方面。本项目旨在将 DeepLearning.AI 的高质量课程引入中文世界，让更多开发者与学生能直接接触到国际一线的 LLM 后训练知识，并在自己的项目中加以实践。

### 项目受众

### **项目受众**
- 对 LLM 优化与应用感兴趣。
- 希望深入理解并掌握模型后训练方法的。
- 希望结合后训练技术打造领域专用模型的 。
- 以及最广大、最普通的学生群体

### 项目亮点

### **项目亮点**
1、权威课程，本土化翻译
精准翻译DeepLearning.AI官方前沿课程，打破语言壁垒，为国内学习者提供原汁原味且易于理解的LLM后训练核心知识。
2、系统梳理后训练核心技术
聚焦SFT、DPO、OnlineRL等关键环节，将碎片知识系统化，帮助学习者构建从理论到实践的完整知识体系。
3、理论与实践并重
提供配套可运行的代码示例，强化动手能力，确保学习者不仅能“看懂”，更能“上手”，为开发领域专用模型打下基础。

### 项目规划


### **项目规划**
#### 1、目录
- [第1章](https://github.com/datawhalechina/Post-training-of-LLMs/blob/364baeddafbbf1fb94f08c432c1ec5e233c7d112/docs/chapter1)
    - [1.1 课程介绍](https://github.com/datawhalechina/Post-training-of-LLMs/blob/be674beded58fd9b538ccd8e134d39fa64dee746)
    - [1.2 后训练技术介绍](https://github.com/datawhalechina/Post-training-of-LLMs/blob/be674beded58fd9b538ccd8e134d39fa64dee746)
- [第2章](https://github.com/datawhalechina/Post-training-of-LLMs/blob/db3d8b98acc47b542ac4ddabbbe633124be24ca3/docs/chapter2)
    - [2.1 监督微调基础理论](https://github.com/datawhalechina/Post-training-of-LLMs/blob/364baeddafbbf1fb94f08c432c1ec5e233c7d112/docs/chapter2/chapter2_1)
    - [2.2 监督微调实践](https://github.com/datawhalechina/Post-training-of-LLMs/blob/364baeddafbbf1fb94f08c432c1ec5e233c7d112/docs/chapter2/chapter2_2)
- [第3章](https://github.com/datawhalechina/Post-training-of-LLMs/blob/db3d8b98acc47b542ac4ddabbbe633124be24ca3/docs/chapter3)
    - [3.1 直接偏好优化基础理论](https://github.com/datawhalechina/Post-training-of-LLMs/blob/dc4f411b5e1a0edf92289269b682c3ab421a0a2b/docs/chapter3/chapter3_1)
    - [3.2 直接偏好优化实践](https://github.com/datawhalechina/Post-training-of-LLMs/blob/364baeddafbbf1fb94f08c432c1ec5e233c7d112/docs/chapter3/chapter3_2)
- [第4章](https://github.com/datawhalechina/Post-training-of-LLMs/blob/364baeddafbbf1fb94f08c432c1ec5e233c7d112/docs/chapter4)
    - [4.1 在线强化学习基础理论](https://github.com/datawhalechina/Post-training-of-LLMs/blob/be674beded58fd9b538ccd8e134d39fa64dee746)
    - [4.2 在线强化学习实践](https://github.com/datawhalechina/Post-training-of-LLMs/blob/be674beded58fd9b538ccd8e134d39fa64dee746)
- [第5章]
#### 2、各章节负责人以及预估完成时间

| 章节             | 负责人     | 预估完成时间 |
| -------------- | ------- | ------ |
| 1.1 课程介绍       | 李柯辰     | 10.7   |
| 1.2 后训练技术介绍    | 李柯辰     | 10.7   |
| 2.1 监督微调基础理论   | 朱广恩     | 10.7   |
| 2.2 监督微调实践     | 王泽宇     | 10.7   |
| 3.1 直接偏好优化基础理论 | 王海洪     | 10.7   |
| 3.2 直接偏好优化实践   | 张宏历     | 10.7   |
| 4.1 在线强化学习基础理论 | 朱伯湘     | 10.7   |
| 4.2 在线强化学习实践   | 蔡煊琪，朱伯湘 | 10.7   |
| 5.1 总结         | 张宏历     | 10.7   |
#### 3、可预见的困难

- **技术理解与翻译准确性的平衡**
LLM后训练领域涉及大量前沿、晦涩的专业术语（如DPO、OnlineRL等）。在翻译和解释时，如何在保持原意准确的前提下，使其在中文语境中易于理解，是一大挑战。理解偏差或翻译生硬都会影响学习效果。
- **代码实践与环境的复现难题**
示例代码的成功运行严重依赖于特定的软件库版本、硬件环境（如GPU）和数据集。环境配置的微小差异都可能导致代码报错，极大增加学习者的实践门槛和挫败感。
- **课程迭代与更新压力**
 LLM领域技术迭代速度极快，原版课程内容可能会更新，新的算法和工具也会不断涌现。项目面临着需要持续跟进、同步更新翻译与代码的巨大压力，否则内容将迅速过时。



### 已完成内容

### **已完成的部分**

| 章节             | 负责人     | 预估完成时间 | 状态  |
| -------------- | ------- | ------ | --- |
| 1.1 课程介绍       | 李柯辰     | 10.7   | ✅  |
| 1.2 后训练技术介绍    | 李柯辰     | 10.7   | ✅  |
| 2.1 监督微调基础理论   | 朱广恩     | 10.7   | ✅   |
| 2.2 监督微调实践     | 王泽宇     | 10.7   | 🚧  |
| 3.1 直接偏好优化基础理论 | 王海洪     | 10.7   | ✅   |
| 3.2 直接偏好优化实践   | 张宏历     | 10.7   | ✅   |
| 4.1 在线强化学习基础理论 | 朱伯湘     | 10.7   | 🚧  |
| 4.2 在线强化学习实践   | 蔡煊琪，朱伯湘 | 10.7   | 🚧  |
| 5.1 总结         | 张宏历     | 10.7   | ✅   |

### ❗❗❗注意事项❗❗❗：为了便于我们跟你取得联系，请务必加我们的微信：at-Sm1les（备注你来自于项目立项即可），发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue，若7天内无反对意见则默认立项通过，如有任何疑问或者需要帮助均可随时联系微信：at-Sm1les

- [x] 我已知悉上述注意事项并添加了微信：at-Sm1les

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Post-training-of-LLMs #373

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

项目简介

立项理由

立项理由

项目受众

项目受众

项目亮点

项目亮点

项目规划

项目规划

1、目录

2、各章节负责人以及预估完成时间

3、可预见的困难

已完成内容

已完成的部分

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

章节	负责人	预估完成时间
1.1 课程介绍	李柯辰	10.7
1.2 后训练技术介绍	李柯辰	10.7
2.1 监督微调基础理论	朱广恩	10.7
2.2 监督微调实践	王泽宇	10.7
3.1 直接偏好优化基础理论	王海洪	10.7
3.2 直接偏好优化实践	张宏历	10.7
4.1 在线强化学习基础理论	朱伯湘	10.7
4.2 在线强化学习实践	蔡煊琪，朱伯湘	10.7
5.1 总结	张宏历	10.7

Post-training-of-LLMs #373

Description

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

项目简介

立项理由

立项理由

项目受众

项目受众

项目亮点

项目亮点

项目规划

项目规划

1、目录

2、各章节负责人以及预估完成时间

3、可预见的困难

已完成内容

已完成的部分

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions