unlock-deepseek

### 你是否已经阅读并同意《Datawhale开源项目指南》？

- [x] 我已阅读并同意[《Datawhale开源项目指南》](https://github.com/datawhalechina/DOPMC/blob/main/GUIDE.md)

### 你是否已经阅读并同意《Datawhale开源项目行为准则》？

- [x] 我已阅读并同意[《Datawhale开源项目行为准则》](https://github.com/datawhalechina/DOPMC/blob/main/CODE_OF_CONDUCT.md)

### 项目简介

面向广泛 AI 研究爱好者群体的 DeepSeek 系列工作解读、扩展和复现，致力于传播 DeepSeek 在 AGI 实践之路上的创新性成果，并提供从 0 代码实现，打造 LLM 前沿技术教学项目

### 立项理由

DeepSeek 的推理模型 DeepSeek-R1-Zero 和DeepSeek-R1是通过大规模强化学习（RL）训练的模型，在无需有监督微调（SFT）的情况，在推理方面表现出色，其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能，且开源了其模型权重和大致的实现技术路径，某种意义上实现了对 o1 技术壁垒的突破，让推理模型的性能边界和技术原理不再神秘，更重要的是，DeepSeek 开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重

我们希望基于 [DeepSeek-R1 Technical Report](https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf) 和其他 DeepSeek 公开的论文，总结 DeepSeek 系列工作，深入 DeepSeek-R1 的细节，阐释模型设计背后的技术原理并尝试复现 DeepSeek-R1，便于对于 Reasoning Model 及其背后原理感兴趣的学习者学习参考，也同时补充了 Datawhale 目前在推理大语言模型（Reasoning Models）和 MoE 上的空白


### 项目受众

- 有大语言模型相关概念基础，具有大学数理能力的初学者
- 希望进一步了解深度推理的学习者
- 希望将推理模型运用到实际工作中的从业人员

### 项目亮点

我们将 DeepSeek-R1 及其系列工作拆分为三个重要部分：
- MoE
- Reasoning Models
- 关键要素 Keys（Data、Infra、...）

与大众的关注性价比优势不同，我们关注 DeepSeek 在实践 AGI 之路的创新性工作，致力于将 DeepSeek 现有公开工作细分拆解，向更广泛的 AI 研究爱好者讲述清楚其中的创新方法细节，同时我们会对比介绍同期其他类似工作（如 Kimi-K1.5），呈现 AGI 之路的不同可能性

我们也将结合其他社区的工作，探索 DeepSeek-R1 的复现方案，提供中文复现教程

### 项目规划

# 目录
1. MoE: DeepSeek 所坚持的架构
    1. DeepSeek-R1 蒸馏模型（Qwen）的部署（self-llm/DeepSeek-R1-Distill-Qwen）
    2. MoE 历史脉络回顾
    3. MoE 从 0 实现（tiny-universe/Tiny MoE）
    4. [多个小节] DeepSeek 模型中的 MoE 设计解读（带实现）
2. Reasoning Models: DeepSeek-R1 的关键技术
    1. 推理模型介绍
        1. LLM and Reasoning
        2. 推理效果可视化
        3. OpenAI-o1与Inference Scaling Law
        4. Qwen-QwQ and Qwen-QVQ
        5. DeepSeek-R1 and DeepSeek-R1-Zero
        6. Kimi-K1.5
    2. 推理模型关键算法原理（`2.1 推理模型介绍`里涉及的技术尽量都覆盖到）
        1. CoT，ToT，GoT
        2. 蒙特卡洛树搜索 MCTS
        3. 强化学习概念速览
        4. DPO、PPO、GRPO
        5. ...

3. [实验性] Keys: DeepSeek 为什么便宜又好用
由于缺失大量资料，这部分只能尽力而为
    -   Data
    -   Infra
    -   Trick
    -   Distill
    -   ...
    
# 预计完成时间
具体时间难以估计，项目希望以知识点为最小单位，快速迭代，产出公众号文章，知识点迭代完成时，项目框架已经构建出大概，再在这个基础上做填补工作

# 项目负责人
骆秀韬 @anine09 
姜舒凡 @Tsumugii24


### 已完成内容

啥也没有，春节快乐！—— unlock-deepseek 团队留于大年初二

### ❗❗❗注意事项❗❗❗：为了便于我们跟你取得联系，请务必加我们的微信：at-Sm1les（备注你来自于项目立项即可），发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue，若7天内无反对意见则默认立项通过，如有任何疑问或者需要帮助均可随时联系微信：at-Sm1les

- [x] 我已知悉上述注意事项并添加了微信：at-Sm1les

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

unlock-deepseek #320

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目规划

目录

预计完成时间

项目负责人

已完成内容

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

unlock-deepseek #320

Description

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目规划

目录

预计完成时间

项目负责人

已完成内容

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions