-
Notifications
You must be signed in to change notification settings - Fork 33
Open
Labels
Description
你是否已经阅读并同意《Datawhale开源项目指南》?
- 我已阅读并同意《Datawhale开源项目指南》
你是否已经阅读并同意《Datawhale开源项目行为准则》?
- 我已阅读并同意《Datawhale开源项目行为准则》
项目简介
随着LLM的不断发展,边界逐渐扩展到多模态领域,从LLM到VisualLM、SpeechLM、VideoLM等,甚至还出现多模态的端到端模型,如以GPT4o为代表的OMNI,以及诸多完全端到端的支持各种模态的大模型。
LLM的不断进步和与多模态的融合是未来的大趋势,本教程将从图像、音频、视频三个方向介绍最新的多模态大模型,立足于原理介绍和应用,让更多的人能够利用多模态大模型进行产品开发,创造价值。
立项理由
- LLM和多模态是未来大趋势,多模态应用将更加丰富。
- 多模态相比LLM更加复杂,难以直接上手。
- 弥补多模态板块的缺失。
项目受众
- 对多模态感兴趣的非多模态方向程序员或学生。
- 希望在实际中运用多模态技术创造提供新的产品和服务。
- 有一定编程基础。
项目亮点
- 聚焦于多模态原理和使用。
- 提供示例代码和实现流程。
- 提供实践项目。
项目规划
至少包括以下内容:
- 概述(@长琴 20250228)
- 模态介绍
- 多模态与LLM
- 多模态相关应用
- 图像(@散步 20250228)
- 理论基础
- 架构和模块介绍
- 实践Visual LM:开源项目+API
- 语音(@长琴 20250228)
- 理论基础
- 架构和模块介绍
- 实践SpeechLM:开源项目+API
- 视频(@长琴 20250228)
- 理论基础
- 架构和模块介绍
- 实践VideoLM:开源项目+API
- 项目
- 需求
- 设计
- 实现
已完成内容
No response
❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les
- 我已知悉上述注意事项并添加了微信:at-Sm1les