Skip to content

dive-into-mllm #314

@Tsumugii24

Description

@Tsumugii24

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

Dive-Into-MLLM 是一个主题为多模态大语言模型(MultiModel Large Language Model, MLLM)的项目。该项目面向任何对大语言模型前沿以及多模态扩展和应用感兴趣的学习者,从多模态的核心算法出发,涵盖大语言模型简介、多模态发展历史、多模态数据合成、多模态模型架构、多模态模型预训练,有监督微调和对齐、多模态大语言模型的前沿应用实践等等。

立项理由

大语言模型的能力随着数据和算力的提升快速发展,但单一模态的数据可能无法满足现实中复杂场景下对于智能体的需求。多模态模型能够天然接受和理解更丰富多样的信息来源,从而更好的理解世界本身。但现在对于多模态大语言模型的研究和尝试还处于一个相对初期探索的阶段,对于感兴趣的学习者而言没有特别合适的基础教材,该项目旨在维护一个从算法到实践的完整学习路线图,为广大的学习者和有志于多模态领域的攀登者提供一个坚实而稳定的平台。

项目受众

  • 零基础但是对多模态大模型能力特别感兴趣的领域小白;
  • 对大语言模型领域感兴趣,想要进一步学习和了解多模态的学习者;
  • 从事大语言模型工作,希望在工作中尝试应用多模态大语言模型解决垂直领域问题的打工人;
  • 以及充满学习热情的最广大、最普通的学生群体。

项目亮点

第一个关于多模态大语言模型(MLLM)的完整项目,知识体系完整且合理,难度层级划分清晰,受众覆盖面广。
项目完成后可以补齐 datawhale 开源项目中有关大语言模型领域的最后一块重要拼图。

项目规划

目录

1 导言
1.1 大语言模型简介
1.2 大语言模型的发展趋势和边界探讨
1.3 多模态的基本概念
1.4 多模态的发展历程
1.4.1 图像-文本
1.4.2 音频-文本
1.4.3 视频-文本
1.4.4 任意模态-任意模态

2 多模态算法和模型详解
2.1 概述
2.2 经典算法和模型架构综述
2.3 VIT
2.4 CLIP
2.5 MOCO
2.6 ALBEF
2.7 BLIP
2.8 Flamingo
2.9 BLIP-2
2.10 LLaVA系列
2.11 LLaMA 3.2 Vision
2.12 Qwen2-VL

3 多模态训练数据合成

4 多模态大语言模型训练
4.1 Pretraining
4.2 Supervised Finetuning
4.3 Alignment

5 模型性能评估
5.1 评估的意义
5.2 评估的常用数据集
5.3 评估的分数计算算法

6 越狱攻击和模型安全

7 多模态大模型应用开发与实践

8 多模态大模型前沿研究(持续更新)

项目负责人

姜舒凡 @Tsumugii24

预估完成日期

Timeline:
大纲修改拟定 1/15
章节内容细节 2/01
章节任务招募 2/04
初稿检查验收 3/31
公测/组队学习 根据完成情况暂定

已完成内容

No response

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions