Skip to content

Latest commit

 

History

History
313 lines (196 loc) · 37.5 KB

File metadata and controls

313 lines (196 loc) · 37.5 KB

本文精选多模态大模型高频面试考点,系统梳理从理论基础、核心组件到CLIP、BLIP、InternVL、Qwen-VL、Gemini等主流模型架构演进及训练方法,深度解析跨模态对齐、长序列优化与工业落地实践,助力求职者构建体系化知识框架,实现技术理解与面试竞争力的双重提升。

目录

5.1 AI多模态理论基础高频考点

5.2 AI多模态核心组件高频考点

5.2.1 多模态编码器

5.2.2 多模态映射器

5.2.3 多模态生成器

5.3 视觉语言基础底座模型高频考点

5.3.1 CLIP系列

5.3.2 BLIP系列

5.3.3 LLAVA系列

5.4 主流多模态大模型高频考点

5.4.1 InternVL系列

5.4.2 GLM-VL系列

5.4.3 Qwen-VL系列

5.4.4 GPT多模态系列

5.4.5 Gemini多模态系列

5.5 原生多模态大模型

5.6 多模态下游应用案例

正文

5.1 AI多模态理论基础高频考点

1.介绍一下多模态与语言大模型的区别

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐⭐ (4/5)

从本质上看,多模态大模型并非独立于语言大模型的全新体系,而是在语言大模型的基础上扩展了视觉、听觉等多模态感知能力。当前主流的多模态模型(GPT-4V、Gemini、LLaVA)均以预训练好的LLM作为核心底座。

两者的核心区别可从以下四个维度进行分析:

模态边界不同。 LLM仅接受文本输入并生成文本输出,GPT-3.5和Llama 3均属此类。多模态模型(MLLM)则能够同时处理文本、图像、音频甚至视频——例如输入一张图像并提问"这是什么",模型可以生成相应的文字回答。

架构新增两个关键模块。 LLM的架构较为简洁,本质上是一个Decoder-only Transformer,以Token序列作为输入和输出。多模态模型在此基础上增加了两个关键组件:其一是模态编码器,例如使用ViT将图像编码为向量序列,使用音频编码器将语音转换为向量表示;其二是投影层(Projector),负责将非文本模态的向量映射到LLM的文本嵌入空间中,实现跨模态对齐。LLM基座可以保持冻结,也可以参与联合微调。

训练数据不同。 LLM的预训练依赖海量纯文本语料(书籍、网页、论文等),规模通常达万亿Token级别。多模态模型则额外需要大量配对数据,如图文对、视频-字幕对等,例如LAION-5B数据集包含约58亿组图文配对。同时需要混入一定比例的纯文本数据,以防止模型的语言能力在多模态训练过程中发生退化。

应用能力不同。 LLM擅长文本生成、代码编写、文本摘要等纯文本任务。多模态模型的应用范围则更为广泛,涵盖以图搜物、医学影像辅助诊断、短视频内容合规审核等场景,这些任务均需要模型同时具备视觉理解与语言推理能力。

image

2.介绍一下多模态词嵌入的定义

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐ (4/5)

理解多模态词嵌入,需要先回顾传统词嵌入的基本概念。Word2Vec、BERT等模型的核心任务是将每个词映射为一个向量,使语义相近的词在向量空间中具有较小的距离。例如,“猫”与“猫咪”的向量距离较近,而“猫”与“汽车”的向量距离较远。

多模态词嵌入(也称跨模态嵌入)是将上述思路扩展到图像、音频等其他模态的产物。其核心目标是:将文本、图像、音频等不同类型的信息统一映射到同一个向量空间中。

这一映射需要满足两个基本条件:

  • 模态内一致性:同一模态中语义相近的内容在向量空间中彼此接近,与传统词嵌入的要求一致。
  • 跨模态对齐性:不同模态中语义一致的内容也应在向量空间中彼此接近。例如,文本“猫”、一张猫的照片、一段猫叫的音频,三者的向量应当聚集在一起,并远离“汽车”相关内容的向量。

形式化表述如下:文本编码器 $f_t(\cdot)$ 和图像编码器 $f_v(\cdot)$ 分别将文本 $t$ 和图像 $v$ 映射到同一个 $d$ 维空间,对于匹配的图文对 $\langle t, v \rangle$ 和不匹配的 $\langle t, v' \rangle$,需要满足:

$$\text{sim}(f_t(t), f_v(v)) > \text{sim}(f_t(t), f_v(v'))$$

上述公式正是对比学习损失函数的核心思想——拉近匹配对的距离,推远不匹配对的距离。CLIP的训练目标即基于该原理。

多模态词嵌入是众多下游任务的理论基础:跨模态检索依赖于嵌入向量之间的相似度计算,多模态理解依赖于对齐后的嵌入进行语义交互,跨模态生成则依赖于在嵌入空间中完成模态转换。CLIP所构建的图文嵌入空间是最具代表性的实例——无需额外标注,即可直接应用于零样本图文检索任务。 02_介绍一下多模态词嵌入的定义_bw


3.介绍一下多模态中预训练和微调的区别

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)

多模态大模型的训练遵循"先预训练、再微调"的两阶段范式,这一点与纯文本LLM一致。但多模态训练的特殊之处在于,"跨模态对齐"贯穿整个训练流程。

预训练阶段的核心目标是什么? 可以用一个词概括:对齐。即让模型学会将图像、文本、音频等不同模态的信息映射到同一语义空间中。预训练所使用的数据以大规模弱标注配对数据为主,例如LAION-5B包含约58亿组图文对,主要通过互联网爬取获得,标注质量参差不齐但规模庞大。同时会混入一定比例的纯文本语料,以维持模型的语言能力。

预训练阶段主要包含三类训练任务:

  • 跨模态对比学习(ITC):采用InfoNCE损失函数,拉近匹配图文对的距离,推远不匹配对的距离。
  • 图文匹配(ITM):输入一组图文对,由模型判断二者是否匹配,本质上是一个二分类任务。
  • 掩码建模:随机遮蔽图像中的部分Patch或文本中的部分Token,要求模型预测被遮蔽的内容,从而学习模态内的语义表示。

预训练的计算代价十分高昂——需要对编码器、投影层、LLM基座进行全参数更新。千亿参数级别的模型,单次预训练成本可达数百万美元,训练周期通常为数周乃至数月。

微调阶段的核心目标是什么? 将通用基座模型适配到特定下游任务。例如,针对医疗影像检索任务,可使用10万条标注好的影像-报告配对数据进行微调。训练目标与下游任务直接对齐——视觉问答(VQA)优化问答损失,检索任务优化排序损失,图像描述任务优化语言模型的交叉熵损失。

微调阶段注重计算效率:通常采用LoRA、Adapter等参数高效微调(PEFT)方法,仅更新不到1%的参数,甚至可以冻结LLM基座和编码器,仅更新投影层。微调成本约为预训练的千分之一到百分之一,训练周期通常为数小时至数天。

两个阶段各有侧重:预训练产出的模型具备较强的通用能力,但在垂直领域难以达到工业部署标准;微调后的模型在目标任务上性能显著提升,但通用能力可能出现一定程度的退化(即"灾难性遗忘"现象)。

附InfoNCE损失公式:

ITC Loss

其中 $\tau$ 为温度系数,N 为批次内样本数。 03_介绍一下多模态中预训练和微调的区别_bw


4.介绍一下多模态解决的代表性任务

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐ (3/5)

多模态技术所涵盖的任务类型十分广泛,可归纳为以下四个主要类别,每类包含若干典型任务及其对应的落地场景。

第一类:跨模态检索。 以一种模态的信息作为查询条件,从另一种模态的数据中检索匹配结果。最常见的形式是图文检索——电商平台的"拍照搜商品"功能属于以图搜文/搜商品,搜索引擎的图片搜索属于以文搜图。此外还包括视频检索,例如安防系统中通过输入文字描述来定位监控视频中的目标片段。这是最早实现产业化落地的多模态任务。

第二类:跨模态生成。 以一种模态的信息作为输入条件,生成另一种模态的内容,是当前AIGC领域最为活跃的研究方向。代表性任务包括:文本生成图像、文本生成视频(如Midjourney、Sora),图像描述生成(为给定图像生成自然语言描述),文字转语音(TTS),语音转文字(ASR),以及语音驱动数字人等。

第三类:多模态理解与推理。 同时接收多种模态的信息,进行综合理解或推理判断。典型任务是视觉问答(VQA):输入一张图像及一个相关问题(如"图中的猫戴了帽子吗?"),模型生成对应答案。该类任务在工业场景中应用广泛,例如短视频平台需要综合画面与配文判断内容是否违规,医疗领域需要结合CT影像与病历文本进行辅助诊断。

第四类:跨模态对齐与转换。 实现不同模态之间的语义对齐或风格转换。例如图像风格迁移——将一张照片转换为梵高风格的画作;音画对齐——将语音与视频中人物的唇形进行同步,广泛应用于视频配音与数字人直播等场景。此类任务常作为其他多模态任务的中间环节。 04_介绍一下多模态解决的代表性任务_1_bw


5.2 AI多模态核心组件高频考点

1.介绍一下多模态模型中使用编码器的主要作用,以及它在不同模态中的职责

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐⭐ (4/5)

编码器在多模态模型中承担的核心职责是:将原始信号转换为模型可处理的向量表示。图像以像素矩阵形式存在,音频以波形信号形式存在,视频则是连续帧序列——这些原始数据无法被LLM直接处理。编码器的作用相当于"翻译器",负责将各模态的原始数据转换为统一的向量表示。

不同模态的编码器承担不同的处理职责:

视觉编码器负责处理图像和视频帧。当前主流方案为ViT(Vision Transformer),其工作流程是将图像划分为若干16×16的图块(patch),每个patch经线性投影转换为一个token,随后送入Transformer进行编码。输出为一组视觉token序列,每个token编码了对应图像区域的视觉语义信息。对于视频输入,需要增加帧采样步骤:先对视频进行帧采样,每帧分别通过ViT编码,再将多帧的token序列拼接。

文本编码器负责处理语言信息。其处理流程较为直接:通过Tokenizer将文本分词为token序列,经Transformer编码后获得文本嵌入表示。在多模态模型中,文本编码通常直接复用LLM基座自身的语言建模能力,无需引入独立的文本编码器。

音频编码器负责处理语音和声音信号。其处理方式是先将音频信号转换为梅尔频谱图(Mel Spectrogram),使其在形式上等价于一张二维图像,进而可以采用与视觉编码器类似的方式进行处理。代表性模型包括Whisper编码器、CLAP等。

注意编码器输出的向量并不能直接输入LLM,中间还需要经过投影/映射模块进行空间对齐——这属于映射器的职责范畴。编码器仅负责完成"将原始信号转换为语义向量"这一环节。


2.介绍一下视觉表示编码器ViT和MAE,包括结构特点、预训练方式

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)

ViT与MAE属于不同层次的概念:ViT是一种模型架构,MAE是一种预训练方法。MAE采用ViT作为骨干网络,但二者的训练方式存在本质区别。

ViT(Vision Transformer) 的核心思路是用Transformer架构替代CNN完成视觉特征提取。具体流程如下:输入一张224×224的图像,将其划分为196个16×16的patch,每个patch经线性投影映射为一个768维的向量(类比于NLP中的一个token),添加位置编码后送入标准的Transformer Encoder。最终可取[CLS] token的输出用于分类任务,或取所有patch token的输出用于密集预测任务。

ViT原始的预训练方式为有监督分类——在ImageNet数据集上进行图像分类训练。这意味着ViT对大规模标注数据有较强的依赖性。Google在原始论文中使用了JFT-300M(约3亿张标注图片)方才将ViT训练至理想性能;在数据规模较小时,ViT的表现不及CNN,原因在于Transformer缺乏CNN所具备的内置归纳偏置(如局部性和平移不变性)。

MAE(Masked Autoencoder) 旨在解决ViT对标注数据的依赖问题。其预训练方式采用自监督掩码重建策略:随机遮蔽75%的patch,仅将剩余25%的可见patch送入编码器,随后通过一个轻量级解码器重建被遮蔽patch的像素。

MAE有两个关键设计细节值得关注:其一,遮蔽比例高达75%,远高于BERT在文本领域的15%。这是由于图像的信息冗余度远高于文本——即使遮蔽一张猫图的3/4区域,从剩余的1/4仍然大概率可以推断出图像的主体内容。高遮蔽率迫使模型学习更深层的语义特征,而非仅依赖相邻像素的插值进行重建。其二,编码器仅处理可见的25% patch,计算量相应降低为原来的1/4,显著提升了训练效率。

在多模态模型中,ViT通常作为视觉编码器的骨干架构,而MAE预训练所得的ViT权重常被用于参数初始化。例如,LLaVA系列采用CLIP预训练的ViT,InternVL则使用自主训练的InternViT,其底层架构均为ViT结构。

02_介绍一下视觉表示编码器ViT和MAE,包括结构特点、预训练方式_bw

3.介绍一下音频表示编码器CLAP和AudioCLIP,说明模型结构、预训练目标

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐ (3/5)

CLAP与AudioCLIP在本质上遵循相同的技术路线:将CLIP的对比学习思路从图文领域扩展到音频领域。CLIP致力于学习图像与文本之间的语义对齐,而CLAP和AudioCLIP则致力于学习音频与文本(或音频与图像)之间的语义对齐。

CLAP(Contrastive Language-Audio Pretraining) 的架构较为简洁,采用双编码器结构:一端为音频编码器,另一端为文本编码器。音频输入首先转换为梅尔频谱图,随后通过CNN或音频Transformer(如HTS-AT)进行编码;文本端则采用BERT或类似的文本编码器。两个编码器各自输出固定维度的嵌入向量,训练目标与CLIP完全一致——通过对比学习拉近匹配的音频-文本对,推远不匹配的配对。

CLAP的训练数据主要由音频-文本描述对构成,例如"一只狗在叫"的文本描述与对应的狗叫声音频。训练完成后,CLAP即可实现零样本音频分类:输入一段音频信号,分别与一组文本标签计算相似度,相似度最高的标签即为分类结果,无需针对特定分类任务进行额外训练。

AudioCLIP 在CLAP的基础上进一步扩展:不仅对齐音频与文本,还将图像纳入统一的表示空间。其架构采用三编码器设计——音频编码器(ESResNeXt)、图像编码器(ViT)、文本编码器(GPT-based),三者的嵌入均投射到同一共享空间。预训练目标为三对对比学习的联合优化:音频-文本、图像-文本、音频-图像。

AudioCLIP的优势在于支持跨三种模态的检索与理解——例如以音频检索图像、以图像检索音频,这些能力超出了CLAP的功能范围。但相应地,其训练复杂度也更高,需要同时具备图像、文本、音频三方配对的训练数据。

在实际工业场景中,语音多模态大模型(如GPT-4o的语音能力)所采用的编码器通常并非CLAP或AudioCLIP,而是Whisper编码器或专门训练的语音Tokenizer。CLAP和AudioCLIP更多应用于环境音、音效等非语音音频的理解场景。

03_介绍一下音频表示编码器CLAP和AudioCLIP,说明模型结构、预训练目标_bw

4.介绍一下多模态模型在处理高分辨率视觉输入时常用的策略

难度评分:⭐⭐⭐⭐ (4/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)

ViT的计算复杂度与token数量呈二次方关系(源于自注意力机制的特性)。以一张224×224的图像为例,划分为16×16的patch后产生196个token,计算量尚可承受。但若输入为4K分辨率图像(3840×2160),patch数量将急剧增加至超过36000个,此时直接计算自注意力将面临显存溢出和计算效率严重下降的问题。

实际业务场景中,高分辨率输入是刚性需求:OCR任务需要识别细小文字,医学影像分析不能丢失关键细节,文档理解需要解析密集排列的表格。因此,如何高效处理高分辨率视觉输入是一个核心工程问题。

当前主流策略包括以下几种:

动态分块(Dynamic Tiling)。 将高分辨率图像切分为多个小块,每块独立通过ViT编码器编码,最后将各块的输出拼接。InternVL-1.5即采用该方案:按图像原始长宽比将其动态切分为若干448×448的子图,各子图分别编码后拼接为一条长token序列送入LLM。该方案的优势在于编码器无需修改,可直接复用预训练好的ViT权重。不足之处在于子图之间缺乏信息交互——各子图独立编码,无法感知其他区域的内容——且分块数量增多时token序列显著变长,计算压力将转移至LLM端。

多尺度/金字塔编码。 对同一张图像在多个分辨率下分别编码:低分辨率捕获全局语义信息,高分辨率捕获局部细节特征,最终将不同尺度的特征进行融合。该思路源自计算机视觉领域经典的特征金字塔网络(FPN),在多模态模型中同样得到了应用。例如Qwen-VL系列通过ViT输出多层特征,浅层侧重纹理信息,深层侧重语义信息。

自适应分辨率编码。 根据图像内容的复杂度动态调整输入分辨率,并非所有图像都需要以最高分辨率处理。内容简单的图像(如纯色背景的logo)采用低分辨率即可满足需求,而内容复杂的图像(如密集文字的文档)则分配较高的分辨率。Qwen2.5-VL所采用的动态分辨率方案即遵循该思路——不固定输入尺寸,按原始长宽比缩放后直接编码,避免了强制resize所导致的图像变形。

Token压缩/池化。 在编码完成后通过后处理减少token数量。例如,使用平均池化将相邻的patch token合并,或引入一组可学习的query token通过交叉注意力机制"提取"最关键的信息(Q-Former即基于该思路)。InternVL-1.5在分块编码之后还引入了Pixel Shuffle操作,将每块的token数量压缩至原来的1/4,以缓解序列过长的问题。

窗口注意力/稀疏注意力。 不在编码器端进行token压缩,而是修改自注意力的计算方式。将全局注意力替换为局部窗口注意力(如Swin Transformer的方案),使计算复杂度从二次方降至线性。此外也可采用FlashAttention等工程优化手段加速长序列的注意力计算。

在实际项目中,上述策略通常组合使用。例如,先执行动态分块,再对每块进行token池化压缩,最后在LLM端采用FlashAttention加速长序列推理。

04_介绍一下多模态模型在处理高分辨率视觉输入时常用的策略_bw

5.介绍一下多模态训练过程中,视觉编码器冻结和微调的典型场场景

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐ (4/5)

冻结与微调的选择,本质上是对训练成本任务收益的权衡。冻结方案节省算力但可能导致性能不足,微调方案效果更优但计算成本更高且存在一定风险。

什么时候冻结?

第一种情况:预训练视觉编码器的能力已足够强大,下游任务无需额外的视觉特征学习。 例如,使用CLIP预训练的ViT进行通用图文理解时,CLIP已在约4亿组图文对上完成训练,视觉表示能力足以满足需求。此时冻结ViT,仅训练投影层和LLM即可将视觉信息接入语言模型。LLaVA第一版的预训练阶段即采用了该策略——冻结ViT和LLM,仅训练中间的线性投影层。

第二种情况:计算资源受限。 ViT-L/14的参数量超过3亿,ViT-G的参数量达18亿。在GPU预算有限的条件下,冻结视觉编码器可以节省大量显存和算力,将计算资源集中用于投影层训练和LLM微调。

第三种情况:规避灾难性遗忘风险。 视觉编码器在大规模数据上预训练所获得的视觉特征具有良好的通用性。若下游任务数据量较小,全量微调容易导致编码器"遗忘"通用视觉能力,并在下游数据上产生过拟合。冻结编码器可有效保留这些通用视觉特征。

什么时候微调?

第一种情况:下游任务的视觉需求与预训练数据分布存在显著差距。 例如,在医学影像分析场景中,ViT通常是在自然图像上预训练的,其所学习的视觉特征以日常物体为主,缺乏对CT影像和X光片等医学图像的表征能力。此时若不对视觉编码器进行微调,其输出的特征对医学场景的适用性将大打折扣。类似的情况同样存在于遥感图像、工业质检等垂直领域。

第二种情况:任务需要细粒度视觉理解能力。 OCR、小目标检测、图像文字识别等任务对视觉细节的精度要求极高。通用预训练的ViT对文字、小型物体的特征提取能力可能不够精细,需要在相关数据上进行微调以增强这些能力。InternVL系列即选择了微调视觉编码器的策略,将InternViT与LLM进行端到端联合训练。

第三种情况:可用数据规模足够大。 当具备数千万乃至上亿规模的高质量配对数据时,微调所带来的过拟合和遗忘风险将大幅降低,而性能收益则更为显著。

此外还存在一种折中方案:部分微调。仅解冻ViT的最后若干层(高层特征偏向语义信息,微调对其影响较为可控),保持底层冻结(底层特征侧重纹理、边缘等通用信息,通常无需调整)。另一种高效方式是采用LoRA,仅在ViT的注意力模块上添加低秩适配器,以极少的可训练参数量实现接近全量微调的效果。

05_介绍一下多模态训练过程中,视觉编码器冻结和微调的典型场场景_bw