hugging-lmm

### 你是否已经阅读并同意《Datawhale开源项目指南》？

- [X] 我已阅读并同意[《Datawhale开源项目指南》](https://github.com/datawhalechina/DOPMC/blob/main/GUIDE.md)

### 你是否已经阅读并同意《Datawhale开源项目行为准则》？

- [X] 我已阅读并同意[《Datawhale开源项目行为准则》](https://github.com/datawhalechina/DOPMC/blob/main/CODE_OF_CONDUCT.md)

### 项目简介

随着LLM的不断发展，边界逐渐扩展到多模态领域，从LLM到VisualLM、SpeechLM、VideoLM等，甚至还出现多模态的端到端模型，如以GPT4o为代表的OMNI，以及诸多完全端到端的支持各种模态的大模型。
LLM的不断进步和与多模态的融合是未来的大趋势，本教程将从图像、音频、视频三个方向介绍最新的多模态大模型，立足于原理介绍和应用，让更多的人能够利用多模态大模型进行产品开发，创造价值。

### 立项理由

1. LLM和多模态是未来大趋势，多模态应用将更加丰富。
2. 多模态相比LLM更加复杂，难以直接上手。
3. 弥补多模态板块的缺失。

### 项目受众

- 对多模态感兴趣的非多模态方向程序员或学生。
- 希望在实际中运用多模态技术创造提供新的产品和服务。
- 有一定编程基础。

### 项目亮点

- 聚焦于多模态原理和使用。
- 提供示例代码和实现流程。
- 提供实践项目。

### 项目规划

至少包括以下内容：

- 概述（@长琴 20250228）
  - 模态介绍
  - 多模态与LLM
  - 多模态相关应用
- 图像（@散步 20250228）
  - 理论基础
  - 架构和模块介绍
  - 实践Visual LM：开源项目+API
- 语音（@长琴 20250228）
  - 理论基础
  - 架构和模块介绍
  - 实践SpeechLM：开源项目+API
- 视频（@长琴 20250228）
  - 理论基础
  - 架构和模块介绍
  - 实践VideoLM：开源项目+API
- 项目
  - 需求
  - 设计
  - 实现

### 已完成内容

_No response_

### ❗❗❗注意事项❗❗❗：为了便于我们跟你取得联系，请务必加我们的微信：at-Sm1les（备注你来自于项目立项即可），发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue，若7天内无反对意见则默认立项通过，如有任何疑问或者需要帮助均可随时联系微信：at-Sm1les

- [X] 我已知悉上述注意事项并添加了微信：at-Sm1les

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

hugging-lmm #312

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目规划

已完成内容

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

hugging-lmm #312

Description

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目规划

已完成内容

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions