本文精选多模态大模型高频面试考点,系统梳理从理论基础、核心组件到CLIP、BLIP、InternVL、Qwen-VL、Gemini等主流模型架构演进及训练方法,深度解析跨模态对齐、长序列优化与工业落地实践,助力求职者构建体系化知识框架,实现技术理解与面试竞争力的双重提升。
- 1.介绍一下多模态模型中使用编码器的主要作用,以及它在不同模态中的职责
- 2.介绍一下视觉表示编码器ViT和MAE,包括结构特点、预训练方式
- 3.介绍一下音频表示编码器CLAP和AudioCLIP,说明模型结构、预训练目标
- 4.介绍一下多模态模型在处理高分辨率视觉输入时常用的策略
- 5.介绍一下多模态训练过程中,视觉编码器冻结和微调的典型场场景
- 1.介绍一下多模态模型里的“映射器”的核心作用
- 2.介绍一下多模态中常见的输入映射器类型,并说明它们的基本结构
- 3.介绍一下多模态中线性投影(Linear-Projection)的优点和适用场景
- 4.介绍一下多模态中MLP映射器相比线性投影的优势
- 5.介绍一下多模态中注意力式映射器(Cross-Attention-Mapper)的核心思想
- 6.介绍一下多模态中卷积映射器(Conv-Mapper)使用的模态和场景
- 7.介绍一下在多模态中输入映射器中加入“位置编码”和“模态类型编码”的作用
- 1.介绍一下CLIP的核心结构,并分析它为什么用“双编码器 + 对比学习”
- 2.介绍一下CLIP的预训练目标,并分析它相比传统分类预训练的优势与局限
- 3.介绍一下CLIP零样本推理流程,并分析“类别名 → 文本提示”的构造问题
- 4.分析一下CLIP在跨模态检索中的优势,并说明实际落地的瓶颈
- 1.介绍一下BLIP的核心结构,并分析它为什么采用“统一编码器 + 生成式解码器”的设计
- 2.介绍一下BLIP的预训练目标,并分析它相比纯对比学习(如 CLIP)在能力上的差异
- 3.介绍一下BLIP的CapFilt数据增强方法,并分析它在预训练中的作用与优势
- 4.分析一下BLIP在图文理解任务(如图文检索、VQA)中的优势
- 5.介绍一下BLIP-2的技术演进,并分析Q-Former在跨模态对齐中的作用
- 1.介绍一下LLAVA的核心结构,并分析它为何以LLM为核心
- 2.介绍一下LLAVA的预训练目标,并分析与纯对比学习模型的能力差异
- 3.介绍一下LLAVA的合成数据策略,并分析它在指令微调中的作用
- 4.分析一下LLAVA与BLIP-2在架构与目标上的取舍
- 5.介绍一下LLAVA系列的技术演进,并分析其对复杂视觉任务的影响
- 1.介绍一下InternVL-1.5在4K输入时,针对分块导致的序列爆炸用了哪些优化技术。
- 2.介绍一下InternVL-2如何在一个模型中支持框坐标、掩码等不同输出,并说明统一表示机制
- 3.介绍一下InternVL 2.5的渐进式缩放策略的执行方式及关键技术
- 4.分析一下InternVL 2.5如何通过数据清洗解决重复生成问题
- 5.分析一下InternVL 2.5为何用级联式强化学习而非单阶段方法
- 6.分析一下InternVL 3的原生多模态预训练与 BLIP-2 两阶段方法的根本不同
- 7.介绍一下InternVL 3.5的ViR与DvD效率优化技术及其协同工作方式
- 1.介绍一下 GLM-4.1V-Thinking 的核心设计目标
- 2.介绍一下 GLM-4.5V 的核心设计目标,并分析它在架构上与 GLM-4.1V-Thinking 的关键差异
- 3.介绍一下 GLM-4.5V 在视觉定位任务中,是如何实现边界框的精确生成的
- 4.分析一下 GLM-4.5V 在长上下文训练中,是如何处理 128K 令牌的序列长度以理解复杂文档的
- 5.分析一下 GLM-4.6V 为何需要引入原生多模态工具调用能力
- 6.介绍一下 GLM-4.6V 在“设计到代码”任务中,是如何实现像素级复现与交互式编辑的
- 1.介绍一下Qwen-VL系列视觉编码器的核心演进路径
- 2.介绍一下Qwen-VL系列的三阶段训练范式的具体运作机制与各阶段的数据策略
- 3.介绍一下Qwen2-VL中M-RoPE的设计原理及如何统一位置编码
- 4.分析一下Qwen2.5-VL使用绝对位置坐标相比归一化坐标在目标检测中的优势
- 5.介绍一下Qwen2.5-VL 的动态FPS采样与3D patch划分策略
- 6.分析一下 Qwen2.5-VL 在后训练阶段如何结合监督微调与直接偏好优化
- 7.解释一下 Qwen3-VL 中 MRoPE-Interleave 的设计原理及其作用
- 8.介绍一下 Qwen3-VL 的 DeepStack 技术是如何实现 ViT 多层次特征融合的
- 9.说明一下 Qwen3-VL 将 T-RoPE 升级为文本时间戳对齐机制的实现方式及好处
- 1.介绍一下多模态GPT的核心结构,并分析它为什么采用“统一端到端多模态 Transformer”而不是“语音识别/视觉编码器 + 纯文本大模型”的级联方案
- 2.介绍一下多模态GPT的预训练目标,并分析它相比传统“先单模态预训练、再多模态对齐”的两阶段训练范式的优势与局限
- 3.介绍一下多模态GPT的零样本推理流程,并分析其“跨模态信息融合机制”对任务表现的影响
- 1.介绍一下Gemini 3 Pro的核心结构,并分析它为什么采用“稀疏MoE + 原生多模态 Token 统一建模”的设计
- 2.介绍一下Gemini 3 Pro的预训练目标和数据组织方式,并分析它相比传统“先做图文对比学习(如 CLIP),再接入语言模型”的路线有哪些优势与局限
- 3.介绍一下Gemini的多模态推理流程,并分析其“Deep Think / 思考等级”机制是如何改变复杂多模态任务(长文档、多视频、多音频)的推理路径的
- 4.分析一下Gemini在超长上下文多模态检索与理解(如百万 token 文本 + 多小时音频/长视频)中的优势
- 1.介绍一下原生多模态大模型和传统“视觉-语言模型”最主要的区别
- 2.介绍一下原生多模态模型如何同时理解图像、语音和文本
- 3.解释一下原生多模态模型生成图片或语音时,如何保证与输入内容相关
- 4.介绍一下原生多模态模型需要什么样的训练数据?为什么说复杂任务数据比大量简单数据更重要
- 5.介绍一下主流原生多模态大模型
难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐⭐ (4/5)
从本质上看,多模态大模型并非独立于语言大模型的全新体系,而是在语言大模型的基础上扩展了视觉、听觉等多模态感知能力。当前主流的多模态模型(GPT-4V、Gemini、LLaVA)均以预训练好的LLM作为核心底座。
两者的核心区别可从以下四个维度进行分析:
模态边界不同。 LLM仅接受文本输入并生成文本输出,GPT-3.5和Llama 3均属此类。多模态模型(MLLM)则能够同时处理文本、图像、音频甚至视频——例如输入一张图像并提问"这是什么",模型可以生成相应的文字回答。
架构新增两个关键模块。 LLM的架构较为简洁,本质上是一个Decoder-only Transformer,以Token序列作为输入和输出。多模态模型在此基础上增加了两个关键组件:其一是模态编码器,例如使用ViT将图像编码为向量序列,使用音频编码器将语音转换为向量表示;其二是投影层(Projector),负责将非文本模态的向量映射到LLM的文本嵌入空间中,实现跨模态对齐。LLM基座可以保持冻结,也可以参与联合微调。
训练数据不同。 LLM的预训练依赖海量纯文本语料(书籍、网页、论文等),规模通常达万亿Token级别。多模态模型则额外需要大量配对数据,如图文对、视频-字幕对等,例如LAION-5B数据集包含约58亿组图文配对。同时需要混入一定比例的纯文本数据,以防止模型的语言能力在多模态训练过程中发生退化。
应用能力不同。 LLM擅长文本生成、代码编写、文本摘要等纯文本任务。多模态模型的应用范围则更为广泛,涵盖以图搜物、医学影像辅助诊断、短视频内容合规审核等场景,这些任务均需要模型同时具备视觉理解与语言推理能力。
难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐ (4/5)
理解多模态词嵌入,需要先回顾传统词嵌入的基本概念。Word2Vec、BERT等模型的核心任务是将每个词映射为一个向量,使语义相近的词在向量空间中具有较小的距离。例如,“猫”与“猫咪”的向量距离较近,而“猫”与“汽车”的向量距离较远。
多模态词嵌入(也称跨模态嵌入)是将上述思路扩展到图像、音频等其他模态的产物。其核心目标是:将文本、图像、音频等不同类型的信息统一映射到同一个向量空间中。
这一映射需要满足两个基本条件:
- 模态内一致性:同一模态中语义相近的内容在向量空间中彼此接近,与传统词嵌入的要求一致。
- 跨模态对齐性:不同模态中语义一致的内容也应在向量空间中彼此接近。例如,文本“猫”、一张猫的照片、一段猫叫的音频,三者的向量应当聚集在一起,并远离“汽车”相关内容的向量。
形式化表述如下:文本编码器
上述公式正是对比学习损失函数的核心思想——拉近匹配对的距离,推远不匹配对的距离。CLIP的训练目标即基于该原理。
多模态词嵌入是众多下游任务的理论基础:跨模态检索依赖于嵌入向量之间的相似度计算,多模态理解依赖于对齐后的嵌入进行语义交互,跨模态生成则依赖于在嵌入空间中完成模态转换。CLIP所构建的图文嵌入空间是最具代表性的实例——无需额外标注,即可直接应用于零样本图文检索任务。

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)
多模态大模型的训练遵循"先预训练、再微调"的两阶段范式,这一点与纯文本LLM一致。但多模态训练的特殊之处在于,"跨模态对齐"贯穿整个训练流程。
预训练阶段的核心目标是什么? 可以用一个词概括:对齐。即让模型学会将图像、文本、音频等不同模态的信息映射到同一语义空间中。预训练所使用的数据以大规模弱标注配对数据为主,例如LAION-5B包含约58亿组图文对,主要通过互联网爬取获得,标注质量参差不齐但规模庞大。同时会混入一定比例的纯文本语料,以维持模型的语言能力。
预训练阶段主要包含三类训练任务:
- 跨模态对比学习(ITC):采用InfoNCE损失函数,拉近匹配图文对的距离,推远不匹配对的距离。
- 图文匹配(ITM):输入一组图文对,由模型判断二者是否匹配,本质上是一个二分类任务。
- 掩码建模:随机遮蔽图像中的部分Patch或文本中的部分Token,要求模型预测被遮蔽的内容,从而学习模态内的语义表示。
预训练的计算代价十分高昂——需要对编码器、投影层、LLM基座进行全参数更新。千亿参数级别的模型,单次预训练成本可达数百万美元,训练周期通常为数周乃至数月。
微调阶段的核心目标是什么? 将通用基座模型适配到特定下游任务。例如,针对医疗影像检索任务,可使用10万条标注好的影像-报告配对数据进行微调。训练目标与下游任务直接对齐——视觉问答(VQA)优化问答损失,检索任务优化排序损失,图像描述任务优化语言模型的交叉熵损失。
微调阶段注重计算效率:通常采用LoRA、Adapter等参数高效微调(PEFT)方法,仅更新不到1%的参数,甚至可以冻结LLM基座和编码器,仅更新投影层。微调成本约为预训练的千分之一到百分之一,训练周期通常为数小时至数天。
两个阶段各有侧重:预训练产出的模型具备较强的通用能力,但在垂直领域难以达到工业部署标准;微调后的模型在目标任务上性能显著提升,但通用能力可能出现一定程度的退化(即"灾难性遗忘"现象)。
附InfoNCE损失公式:
难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐ (3/5)
多模态技术所涵盖的任务类型十分广泛,可归纳为以下四个主要类别,每类包含若干典型任务及其对应的落地场景。
第一类:跨模态检索。 以一种模态的信息作为查询条件,从另一种模态的数据中检索匹配结果。最常见的形式是图文检索——电商平台的"拍照搜商品"功能属于以图搜文/搜商品,搜索引擎的图片搜索属于以文搜图。此外还包括视频检索,例如安防系统中通过输入文字描述来定位监控视频中的目标片段。这是最早实现产业化落地的多模态任务。
第二类:跨模态生成。 以一种模态的信息作为输入条件,生成另一种模态的内容,是当前AIGC领域最为活跃的研究方向。代表性任务包括:文本生成图像、文本生成视频(如Midjourney、Sora),图像描述生成(为给定图像生成自然语言描述),文字转语音(TTS),语音转文字(ASR),以及语音驱动数字人等。
第三类:多模态理解与推理。 同时接收多种模态的信息,进行综合理解或推理判断。典型任务是视觉问答(VQA):输入一张图像及一个相关问题(如"图中的猫戴了帽子吗?"),模型生成对应答案。该类任务在工业场景中应用广泛,例如短视频平台需要综合画面与配文判断内容是否违规,医疗领域需要结合CT影像与病历文本进行辅助诊断。
第四类:跨模态对齐与转换。 实现不同模态之间的语义对齐或风格转换。例如图像风格迁移——将一张照片转换为梵高风格的画作;音画对齐——将语音与视频中人物的唇形进行同步,广泛应用于视频配音与数字人直播等场景。此类任务常作为其他多模态任务的中间环节。

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐⭐ (4/5)
编码器在多模态模型中承担的核心职责是:将原始信号转换为模型可处理的向量表示。图像以像素矩阵形式存在,音频以波形信号形式存在,视频则是连续帧序列——这些原始数据无法被LLM直接处理。编码器的作用相当于"翻译器",负责将各模态的原始数据转换为统一的向量表示。
不同模态的编码器承担不同的处理职责:
视觉编码器负责处理图像和视频帧。当前主流方案为ViT(Vision Transformer),其工作流程是将图像划分为若干16×16的图块(patch),每个patch经线性投影转换为一个token,随后送入Transformer进行编码。输出为一组视觉token序列,每个token编码了对应图像区域的视觉语义信息。对于视频输入,需要增加帧采样步骤:先对视频进行帧采样,每帧分别通过ViT编码,再将多帧的token序列拼接。
文本编码器负责处理语言信息。其处理流程较为直接:通过Tokenizer将文本分词为token序列,经Transformer编码后获得文本嵌入表示。在多模态模型中,文本编码通常直接复用LLM基座自身的语言建模能力,无需引入独立的文本编码器。
音频编码器负责处理语音和声音信号。其处理方式是先将音频信号转换为梅尔频谱图(Mel Spectrogram),使其在形式上等价于一张二维图像,进而可以采用与视觉编码器类似的方式进行处理。代表性模型包括Whisper编码器、CLAP等。
注意编码器输出的向量并不能直接输入LLM,中间还需要经过投影/映射模块进行空间对齐——这属于映射器的职责范畴。编码器仅负责完成"将原始信号转换为语义向量"这一环节。
难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)
ViT与MAE属于不同层次的概念:ViT是一种模型架构,MAE是一种预训练方法。MAE采用ViT作为骨干网络,但二者的训练方式存在本质区别。
ViT(Vision Transformer) 的核心思路是用Transformer架构替代CNN完成视觉特征提取。具体流程如下:输入一张224×224的图像,将其划分为196个16×16的patch,每个patch经线性投影映射为一个768维的向量(类比于NLP中的一个token),添加位置编码后送入标准的Transformer Encoder。最终可取[CLS] token的输出用于分类任务,或取所有patch token的输出用于密集预测任务。
ViT原始的预训练方式为有监督分类——在ImageNet数据集上进行图像分类训练。这意味着ViT对大规模标注数据有较强的依赖性。Google在原始论文中使用了JFT-300M(约3亿张标注图片)方才将ViT训练至理想性能;在数据规模较小时,ViT的表现不及CNN,原因在于Transformer缺乏CNN所具备的内置归纳偏置(如局部性和平移不变性)。
MAE(Masked Autoencoder) 旨在解决ViT对标注数据的依赖问题。其预训练方式采用自监督掩码重建策略:随机遮蔽75%的patch,仅将剩余25%的可见patch送入编码器,随后通过一个轻量级解码器重建被遮蔽patch的像素。
MAE有两个关键设计细节值得关注:其一,遮蔽比例高达75%,远高于BERT在文本领域的15%。这是由于图像的信息冗余度远高于文本——即使遮蔽一张猫图的3/4区域,从剩余的1/4仍然大概率可以推断出图像的主体内容。高遮蔽率迫使模型学习更深层的语义特征,而非仅依赖相邻像素的插值进行重建。其二,编码器仅处理可见的25% patch,计算量相应降低为原来的1/4,显著提升了训练效率。
在多模态模型中,ViT通常作为视觉编码器的骨干架构,而MAE预训练所得的ViT权重常被用于参数初始化。例如,LLaVA系列采用CLIP预训练的ViT,InternVL则使用自主训练的InternViT,其底层架构均为ViT结构。
难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐ (3/5)
CLAP与AudioCLIP在本质上遵循相同的技术路线:将CLIP的对比学习思路从图文领域扩展到音频领域。CLIP致力于学习图像与文本之间的语义对齐,而CLAP和AudioCLIP则致力于学习音频与文本(或音频与图像)之间的语义对齐。
CLAP(Contrastive Language-Audio Pretraining) 的架构较为简洁,采用双编码器结构:一端为音频编码器,另一端为文本编码器。音频输入首先转换为梅尔频谱图,随后通过CNN或音频Transformer(如HTS-AT)进行编码;文本端则采用BERT或类似的文本编码器。两个编码器各自输出固定维度的嵌入向量,训练目标与CLIP完全一致——通过对比学习拉近匹配的音频-文本对,推远不匹配的配对。
CLAP的训练数据主要由音频-文本描述对构成,例如"一只狗在叫"的文本描述与对应的狗叫声音频。训练完成后,CLAP即可实现零样本音频分类:输入一段音频信号,分别与一组文本标签计算相似度,相似度最高的标签即为分类结果,无需针对特定分类任务进行额外训练。
AudioCLIP 在CLAP的基础上进一步扩展:不仅对齐音频与文本,还将图像纳入统一的表示空间。其架构采用三编码器设计——音频编码器(ESResNeXt)、图像编码器(ViT)、文本编码器(GPT-based),三者的嵌入均投射到同一共享空间。预训练目标为三对对比学习的联合优化:音频-文本、图像-文本、音频-图像。
AudioCLIP的优势在于支持跨三种模态的检索与理解——例如以音频检索图像、以图像检索音频,这些能力超出了CLAP的功能范围。但相应地,其训练复杂度也更高,需要同时具备图像、文本、音频三方配对的训练数据。
在实际工业场景中,语音多模态大模型(如GPT-4o的语音能力)所采用的编码器通常并非CLAP或AudioCLIP,而是Whisper编码器或专门训练的语音Tokenizer。CLAP和AudioCLIP更多应用于环境音、音效等非语音音频的理解场景。
难度评分:⭐⭐⭐⭐ (4/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)
ViT的计算复杂度与token数量呈二次方关系(源于自注意力机制的特性)。以一张224×224的图像为例,划分为16×16的patch后产生196个token,计算量尚可承受。但若输入为4K分辨率图像(3840×2160),patch数量将急剧增加至超过36000个,此时直接计算自注意力将面临显存溢出和计算效率严重下降的问题。
实际业务场景中,高分辨率输入是刚性需求:OCR任务需要识别细小文字,医学影像分析不能丢失关键细节,文档理解需要解析密集排列的表格。因此,如何高效处理高分辨率视觉输入是一个核心工程问题。
当前主流策略包括以下几种:
动态分块(Dynamic Tiling)。 将高分辨率图像切分为多个小块,每块独立通过ViT编码器编码,最后将各块的输出拼接。InternVL-1.5即采用该方案:按图像原始长宽比将其动态切分为若干448×448的子图,各子图分别编码后拼接为一条长token序列送入LLM。该方案的优势在于编码器无需修改,可直接复用预训练好的ViT权重。不足之处在于子图之间缺乏信息交互——各子图独立编码,无法感知其他区域的内容——且分块数量增多时token序列显著变长,计算压力将转移至LLM端。
多尺度/金字塔编码。 对同一张图像在多个分辨率下分别编码:低分辨率捕获全局语义信息,高分辨率捕获局部细节特征,最终将不同尺度的特征进行融合。该思路源自计算机视觉领域经典的特征金字塔网络(FPN),在多模态模型中同样得到了应用。例如Qwen-VL系列通过ViT输出多层特征,浅层侧重纹理信息,深层侧重语义信息。
自适应分辨率编码。 根据图像内容的复杂度动态调整输入分辨率,并非所有图像都需要以最高分辨率处理。内容简单的图像(如纯色背景的logo)采用低分辨率即可满足需求,而内容复杂的图像(如密集文字的文档)则分配较高的分辨率。Qwen2.5-VL所采用的动态分辨率方案即遵循该思路——不固定输入尺寸,按原始长宽比缩放后直接编码,避免了强制resize所导致的图像变形。
Token压缩/池化。 在编码完成后通过后处理减少token数量。例如,使用平均池化将相邻的patch token合并,或引入一组可学习的query token通过交叉注意力机制"提取"最关键的信息(Q-Former即基于该思路)。InternVL-1.5在分块编码之后还引入了Pixel Shuffle操作,将每块的token数量压缩至原来的1/4,以缓解序列过长的问题。
窗口注意力/稀疏注意力。 不在编码器端进行token压缩,而是修改自注意力的计算方式。将全局注意力替换为局部窗口注意力(如Swin Transformer的方案),使计算复杂度从二次方降至线性。此外也可采用FlashAttention等工程优化手段加速长序列的注意力计算。
在实际项目中,上述策略通常组合使用。例如,先执行动态分块,再对每块进行token池化压缩,最后在LLM端采用FlashAttention加速长序列推理。
难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐ (4/5)
冻结与微调的选择,本质上是对训练成本与任务收益的权衡。冻结方案节省算力但可能导致性能不足,微调方案效果更优但计算成本更高且存在一定风险。
什么时候冻结?
第一种情况:预训练视觉编码器的能力已足够强大,下游任务无需额外的视觉特征学习。 例如,使用CLIP预训练的ViT进行通用图文理解时,CLIP已在约4亿组图文对上完成训练,视觉表示能力足以满足需求。此时冻结ViT,仅训练投影层和LLM即可将视觉信息接入语言模型。LLaVA第一版的预训练阶段即采用了该策略——冻结ViT和LLM,仅训练中间的线性投影层。
第二种情况:计算资源受限。 ViT-L/14的参数量超过3亿,ViT-G的参数量达18亿。在GPU预算有限的条件下,冻结视觉编码器可以节省大量显存和算力,将计算资源集中用于投影层训练和LLM微调。
第三种情况:规避灾难性遗忘风险。 视觉编码器在大规模数据上预训练所获得的视觉特征具有良好的通用性。若下游任务数据量较小,全量微调容易导致编码器"遗忘"通用视觉能力,并在下游数据上产生过拟合。冻结编码器可有效保留这些通用视觉特征。
什么时候微调?
第一种情况:下游任务的视觉需求与预训练数据分布存在显著差距。 例如,在医学影像分析场景中,ViT通常是在自然图像上预训练的,其所学习的视觉特征以日常物体为主,缺乏对CT影像和X光片等医学图像的表征能力。此时若不对视觉编码器进行微调,其输出的特征对医学场景的适用性将大打折扣。类似的情况同样存在于遥感图像、工业质检等垂直领域。
第二种情况:任务需要细粒度视觉理解能力。 OCR、小目标检测、图像文字识别等任务对视觉细节的精度要求极高。通用预训练的ViT对文字、小型物体的特征提取能力可能不够精细,需要在相关数据上进行微调以增强这些能力。InternVL系列即选择了微调视觉编码器的策略,将InternViT与LLM进行端到端联合训练。
第三种情况:可用数据规模足够大。 当具备数千万乃至上亿规模的高质量配对数据时,微调所带来的过拟合和遗忘风险将大幅降低,而性能收益则更为显著。
此外还存在一种折中方案:部分微调。仅解冻ViT的最后若干层(高层特征偏向语义信息,微调对其影响较为可控),保持底层冻结(底层特征侧重纹理、边缘等通用信息,通常无需调整)。另一种高效方式是采用LoRA,仅在ViT的注意力模块上添加低秩适配器,以极少的可训练参数量实现接近全量微调的效果。
