-
Notifications
You must be signed in to change notification settings - Fork 33
Description
你是否已经阅读并同意《Datawhale开源项目指南》?
- 我已阅读并同意《Datawhale开源项目指南》
你是否已经阅读并同意《Datawhale开源项目行为准则》?
- 我已阅读并同意《Datawhale开源项目行为准则》
项目简介
DeepSeek的推理模型DeepSeek-R1-Zero和DeepSeek-R1是通过大规模强化学习(RL)训练的模型,在无需有监督微调(SFT)的情况,在推理方面表现出色。其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能。更重要的是,DeepSeek开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重。该项目希望基于 DeepSeek-R1 Technical Report 深度讨论其中涉及到的技术细节并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考。
立项理由
DeepSeek-R1 在数学、代码和推理任务上的性能比肩 OpenAI-o1,且开源了其模型权重和大致的实现技术路径,某种意义上实现了对o1技术壁垒的突破,让推理模型的性能边界和技术原理不再神秘。本项目希望深入 DeepSeek-R1 的细节,阐释模型设计背后的技术原理并尝试从模型,数据和算法等关键维度复现DeepSeek-R1的效果,便于对于Reasoning Model及其背后原理感兴趣的学习者学习参考,也同时补充了Datawhale目前在推理大语言模型(Reasoning Models
)上的空白。
项目受众
- 有一定基础且对推理大模型感兴趣的领域小白;
- 对大语言模型领域感兴趣,想要进一步学习和了解深度推理的学习者;
- 从事大语言模型工作,希望在工作中尝试应用推理大语言模型解决垂直领域问题的打工人;
- 以及充满学习热情的最广大、最普通的学生群体。
项目亮点
同时兼容算法原理的图文推导和代码层级的理解
从模型,数据和算法等关键维度的全面复现DeepSeek-R1的效果
补充了Datawhale目前在推理大语言模型(Large Reasoning Models
)上的空白
Reference:
DeepSeek官方仓库 https://github.com/deepseek-ai/DeepSeek-R1
其中的Technical Report是最重要的复现参考
HuggingFace社区的复现项目 https://github.com/huggingface/open-r1
开源社区中起步最早的对于r1的复现项目,对于我们的项目也有一定的参考的帮助作用
llm-reasoners https://github.com/maitrix-org/llm-reasoners
关于使用大语言模型进行规划/推理及相关推理算法实现的Python Library
Awesome-LLM-Strawberry https://github.com/hijkzzz/Awesome-LLM-Strawberry
OpenAI o1 发布后尝试复现和汇总相关资料的集成仓库
项目规划
目录
1 导言
1.1 大语言模型简介
1.2 推理模型简介
1.2.1 LLM and Reasoning
1.2.2 推理效果可视化
1.2.3 OpenAI o1与Inference Scaling Law
1.2.4 Qwen QwQ and Qwen QVQ
1.2.5 DeepSeek-R1 and DeepSeek-R1-Zero
1.3 MoE简介
1.4 模型蒸馏简介
2 推理模型关键算法原理
2.1 CoT,ToT,GoT
2.2 蒙特卡洛树搜索 MCTS
2.3 强化学习 Reinforcement Learning
2.3.1 DPO
2.3.2 PPO
2.3.3 DRPO
2.3.4 GRPO
3 DeepSeek R1技术报告解读
4 DeepSeek R1 Series复现
4.1 Base Model (DeepSeek V3)
4.2 Data
4.3 Reproduction
4.3.1 通过从 DeepSeek-R1 中蒸馏高质量语料库来复现 R1-Distill 模型
4.3.2 复现 DeepSeek 创建 R1-Zero 所使用的纯强化学习(RL)Pipeline
4.3.3 base 模型到 RL-tuned 的多阶段模型训练。
5 DeepSeek推理模型评估
5.1 评估的意义
5.2 数据集
5.3 评估的分数计算算法
6 推理模型应用开发与实践
7 推理模型前沿研究跟进(持续更新)
项目负责人
姜舒凡 @Tsumugii24
预估完成日期
Timeline:
as soon as possible
技术更新迭代太快了~
已完成内容
No response
❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les
- 我已知悉上述注意事项并添加了微信:at-Sm1les