Skip to content

unlock-deepseek #320

@anine09

Description

@anine09

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

面向广泛 AI 研究爱好者群体的 DeepSeek 系列工作解读、扩展和复现,致力于传播 DeepSeek 在 AGI 实践之路上的创新性成果,并提供从 0 代码实现,打造 LLM 前沿技术教学项目

立项理由

DeepSeek 的推理模型 DeepSeek-R1-Zero 和DeepSeek-R1是通过大规模强化学习(RL)训练的模型,在无需有监督微调(SFT)的情况,在推理方面表现出色,其中 DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能,且开源了其模型权重和大致的实现技术路径,某种意义上实现了对 o1 技术壁垒的突破,让推理模型的性能边界和技术原理不再神秘,更重要的是,DeepSeek 开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏得到的六个模型的权重

我们希望基于 DeepSeek-R1 Technical Report 和其他 DeepSeek 公开的论文,总结 DeepSeek 系列工作,深入 DeepSeek-R1 的细节,阐释模型设计背后的技术原理并尝试复现 DeepSeek-R1,便于对于 Reasoning Model 及其背后原理感兴趣的学习者学习参考,也同时补充了 Datawhale 目前在推理大语言模型(Reasoning Models)和 MoE 上的空白

项目受众

  • 有大语言模型相关概念基础,具有大学数理能力的初学者
  • 希望进一步了解深度推理的学习者
  • 希望将推理模型运用到实际工作中的从业人员

项目亮点

我们将 DeepSeek-R1 及其系列工作拆分为三个重要部分:

  • MoE
  • Reasoning Models
  • 关键要素 Keys(Data、Infra、...)

与大众的关注性价比优势不同,我们关注 DeepSeek 在实践 AGI 之路的创新性工作,致力于将 DeepSeek 现有公开工作细分拆解,向更广泛的 AI 研究爱好者讲述清楚其中的创新方法细节,同时我们会对比介绍同期其他类似工作(如 Kimi-K1.5),呈现 AGI 之路的不同可能性

我们也将结合其他社区的工作,探索 DeepSeek-R1 的复现方案,提供中文复现教程

项目规划

目录

  1. MoE: DeepSeek 所坚持的架构

    1. DeepSeek-R1 蒸馏模型(Qwen)的部署(self-llm/DeepSeek-R1-Distill-Qwen)
    2. MoE 历史脉络回顾
    3. MoE 从 0 实现(tiny-universe/Tiny MoE)
    4. [多个小节] DeepSeek 模型中的 MoE 设计解读(带实现)
  2. Reasoning Models: DeepSeek-R1 的关键技术

    1. 推理模型介绍
      1. LLM and Reasoning
      2. 推理效果可视化
      3. OpenAI-o1与Inference Scaling Law
      4. Qwen-QwQ and Qwen-QVQ
      5. DeepSeek-R1 and DeepSeek-R1-Zero
      6. Kimi-K1.5
    2. 推理模型关键算法原理(2.1 推理模型介绍里涉及的技术尽量都覆盖到)
      1. CoT,ToT,GoT
      2. 蒙特卡洛树搜索 MCTS
      3. 强化学习概念速览
      4. DPO、PPO、GRPO
      5. ...
  3. [实验性] Keys: DeepSeek 为什么便宜又好用
    由于缺失大量资料,这部分只能尽力而为

    • Data
    • Infra
    • Trick
    • Distill
    • ...

预计完成时间

具体时间难以估计,项目希望以知识点为最小单位,快速迭代,产出公众号文章,知识点迭代完成时,项目框架已经构建出大概,再在这个基础上做填补工作

项目负责人

骆秀韬 @anine09
姜舒凡 @Tsumugii24

已完成内容

啥也没有,春节快乐!—— unlock-deepseek 团队留于大年初二

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions