Skip to content

hugging-lmm #312

@hscspring

Description

@hscspring

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

随着LLM的不断发展,边界逐渐扩展到多模态领域,从LLM到VisualLM、SpeechLM、VideoLM等,甚至还出现多模态的端到端模型,如以GPT4o为代表的OMNI,以及诸多完全端到端的支持各种模态的大模型。
LLM的不断进步和与多模态的融合是未来的大趋势,本教程将从图像、音频、视频三个方向介绍最新的多模态大模型,立足于原理介绍和应用,让更多的人能够利用多模态大模型进行产品开发,创造价值。

立项理由

  1. LLM和多模态是未来大趋势,多模态应用将更加丰富。
  2. 多模态相比LLM更加复杂,难以直接上手。
  3. 弥补多模态板块的缺失。

项目受众

  • 对多模态感兴趣的非多模态方向程序员或学生。
  • 希望在实际中运用多模态技术创造提供新的产品和服务。
  • 有一定编程基础。

项目亮点

  • 聚焦于多模态原理和使用。
  • 提供示例代码和实现流程。
  • 提供实践项目。

项目规划

至少包括以下内容:

  • 概述(@长琴 20250228)
    • 模态介绍
    • 多模态与LLM
    • 多模态相关应用
  • 图像(@散步 20250228)
    • 理论基础
    • 架构和模块介绍
    • 实践Visual LM:开源项目+API
  • 语音(@长琴 20250228)
    • 理论基础
    • 架构和模块介绍
    • 实践SpeechLM:开源项目+API
  • 视频(@长琴 20250228)
    • 理论基础
    • 架构和模块介绍
    • 实践VideoLM:开源项目+API
  • 项目
    • 需求
    • 设计
    • 实现

已完成内容

No response

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions