一、多模态思维链(MCoT)
二、多模态检索-增强(Multimodal Retrieval-Augmented Generation,MARG)
三、智能体(Agents)
四、LLaVA及衍生系列模型
五、多模态视觉剪枝
六、多模态文档解析
定义:
• MCoT(Multimodal Chain-of-Thought)是将传统文本链式推理(CoT)扩展到多模态场景的技术,通过分步推理整合图像、视频、音频等模态数据,生成包含跨模态关联的推理链。
• 两种场景:
• Scenario-1:推理链仅含文本,但处理多模态输入/输出(如VQA任务)。
• Scenario-2:推理链包含多模态元素(如生成中间图像或音频辅助推理)。
区别:
• 输入/输出范围:单模态CoT仅处理文本,MCoT支持跨模态数据(如视频+文本、图像+音频)。
• 推理复杂性:MCoT需解决模态对齐(如时空一致性)、异构特征融合(如视觉与语言嵌入)等挑战。
应用:
• 长视频分析:Video-of-Thought(2024)分五阶段处理(目标识别、动作分析、答案验证)。
• 关键帧提取:VIP(2023)通过注意力机制筛选关键帧,减少冗余计算。
• 幻觉抑制:HM-Prompt(2024)采用零样本MCoT降低长视频推理中的错误。
挑战:
• 时序建模:需捕捉动态变化(如人物动作连续性)。
• 计算效率:长视频处理的高计算成本。
• 时空对齐:多模态信号(如音频与画面)的同步性。
实现方式:
• 异步模态建模:分离感知与推理模块(如TextCoT先生成视觉摘要再推理)。
• 定义流程阶段:
• 固定阶段:如Det-CoT(2024)将VQA分解为指令解析→子任务执行→验证。
• 自主生成阶段:如DDCoT(2023)动态生成子问题链。
• 工具集成:Det-CoT调用图像缩放工具,L3GO(2024)结合3D生成接口。
优势:增强可控性、可解释性,减少错误传播。
方法:
• 零样本指令:如“Describe the image step-by-step”触发分步推理。
• 少样本示例:在提示中加入带推理链的示例(如VideoCoT的22K视频问答对)。
• 多模态提示:结合图像区域标记(如Chain-of-Spot的高亮提示)或音频波形片段。
• 专家工具调用:如Image-of-Thought(2024)生成草图辅助几何问题推理。
案例:IPVR(2023)通过“See-Think-Confirm”三阶段提示实现视觉推理。
案例:
• 3D生成:3D-PreMise(2024)用MCoT生成3D形状参数,指导程序化建模。
• 空间定位:CoT3DRef(2023)分步推理实现3D目标定位(如“定位句子中的沙发”)。
• 机器人技能学习:Gen2Sim(2024)通过MCoT生成仿真环境中的任务描述与奖励函数。
• 试错生成:L3GO(2024)在虚拟环境中迭代生成并修正3D对象。
作用:
• 自动化标注:如G-CoT(2024)用ChatGPT生成推理链,降低人工标注成本。
• 数据扩展:MAVIS(2024)通过程序化生成数学视觉问题,覆盖长尾场景。
局限性:
• 领域局限性:生成的数据可能缺乏专业领域知识(如医学需专家校验)。
• 逻辑漏洞:自动生成的推理链可能存在逻辑错误(需人工修正)。
应用: • 手术错误检测:TI-PREGO(2024)通过ACoT分析内窥镜视频中的操作步骤。
• 医学VQA:MedCoT(2024)结合分层专家系统生成诊断推理链。
• 强化学习优化:MedVLM-R1(2025)用600个医学样本微调模型,提升推理准确性。
效果:MedCoT在医学问答任务中准确率提升12%,TI-PREGO的手术步骤错误检测F1达0.87。
提升方式:
• 多节点关联:超边(Hyperedge)连接多个推理节点(如HoT整合视觉、文本、知识节点)。
• 动态聚合:BDoG(2024)通过辩论机制聚合不同视角的推理路径。
• 循环修正:支持节点间的反馈(如修正错误视觉感知)。
案例:AGoT(2023)构建推理聚合图,在每步整合多模态信息。
方法:
• 视觉辅助推理:Chain-of-Image(2023)生成几何图表辅助解题。
• 多模态数据集:MAVIS(2024)提供数学视觉对齐数据,训练模型关联公式与图表。
• 分步验证:MathVerse(2024)要求模型分步输出公式推导与视觉解释。
案例:MAmmoTH-VL(2024)整合12M跨模态数学问题,支持长链推理。
基准测试:
• MMMU(2023):涵盖艺术、科学等6学科,评估多模态理解能力。
• MathVista(2023):测试数学视觉推理,包含图表解析题。
• HallusionBench(2024):检测多模态幻觉(如“图中是否有不存在的物体?”)。
评价指标:
• 准确率(Accuracy):用于分类任务(如VQA)。
• ROUGE/BLEU:文本生成质量(如推理链与参考答案相似度)。
• CIDEr:图像描述任务的语义相关性。
• 时空对齐分数(如AVTrustBench评估音画同步性)。
核心差异:
• MRAG 1.0:伪多模态架构,依赖OCR和独立模态模型(如CLIP+VQA)生成文本描述,导致信息损失(如图像细粒度特征丢失)。检索仅支持文本模态,生成阶段通过拼接文本描述和查询输入LLM。
• MRAG 2.0:引入统一MLLM(如BLIP-2)处理多模态输入,保留原始数据(如图像像素)。跨模态检索通过双编码器对齐文本-图像嵌入(如CLIP的对比学习),生成阶段直接输入多模态数据。
• MRAG 3.0:端到端多模态,新增搜索规划模块(动态路由检索)和多模态输出增强(如Native MLLM生成图文混合响应)。文档解析保留截图向量化(DSE方法),解决PDF/HTML等半结构化数据的信息损失问题。
优化点:
• 信息保留:1.0的OCR错误率(约15%)导致检索噪声,3.0的截图向量化将文档结构信息保留率提升至92%(论文实验4.2)。
• 检索效率:2.0的跨模态检索延迟(200ms)高于3.0的动态规划(50ms),因后者通过公式(1)的$RC$模块跳过不必要检索(如$Q$为纯文本时直接调用$a_{\text{text}}$)。
技术实现:
• 双流结构:如CLIP采用ViT(视觉)和Transformer(文本)双编码器,通过对比损失(InfoNCE)对齐模态:
其中$s(\cdot)$为余弦相似度,$\tau$为温度系数。论文指出COATS在此基础上升级为token级交互,通过交叉注意力计算局部相似度(如图像patch与文本word)。
模型对比:
• AGREE:在ALIGN基础上引入实体对齐损失,提升细粒度匹配(mAP@10提高7.2%)。
• EI-CLIP:通过关键词增强(TF-IDF加权文本嵌入)解决模态不平衡问题,在LAION-5B上Recall@1提升9.5%。
DocID设计:
• 静态ID:如DSI的语义结构化ID(层次化数字编码),但无法适应新文档。
• 动态ID:
• GenRet:用VQ-VAE将文档压缩为离散码本(码本大小$K=1024$),重建误差<5%。
• ASI:通过GNN学习文档关系图,相似文档分配相近ID(欧氏距离阈值$\epsilon=0.2$)。
效能对比:
| 方法 | MSMARCO MRR@10 | 索引速度(docs/s) |
|---|---|---|
| BM25 | 0.184 | 10,000 |
| DPR | 0.326 | 1,000 |
| ASI(生成式) | 0.341 | 500 |
| 生成式检索牺牲索引速度换取精度,适合静态知识库。 |
4.基于提示的重排序方法(Prompting-as-Reranker)在跨模态场景下如何平衡零样本能力与位置偏差(Positional Bias)?举例说明RankGPT的滑动窗口策略和TourRank的锦标赛机制如何优化长文档排序。
零样本优化:
• RankGPT:通过指令"Rank by relevance to Q: {query}"触发LLM的隐含排序能力,但存在位置偏差(列表前两项被选中的概率高40%)。
• 解决方案:
• TourRank:将Top-100文档分为4组并行排序,再合并决赛(降低初始顺序影响)。
• TDPart:基于pivot的快速选择算法,确保高相关文档优先参与排序。
实验数据:在TREC DL 2023上,TourRank的nDCG@10达0.712,比单次排序高6.4%。
5. MRAG的视觉token压缩技术(如LLaVolta的渐进压缩、MustDrop的生命周期重要性评估)如何解决MLLMs输入长度限制?比较这些方法与传统裁剪(Truncation)的ROUGE-L指标差异。
关键技术:
• LLaVolta:分阶段压缩ViT的patch token(16×16→8×8→4×4),训练时逐步增加压缩率(最终保留10% token),PSNR损失<2dB。
• MustDrop:三阶段策略:
- 编码阶段:合并相似patch(余弦相似度>0.9)
- 预填充阶段:基于文本注意力得分过滤(保留Top-30%)
- 解码阶段:KV Cache动态剪枝(梯度重要性评分)
性能对比:
| 方法 | 推理速度(tokens/s) | VQA准确率 |
|---|---|---|
| 原始输入 | 120 | 72.1% |
| LLaVolta | 210 (+75%) | 71.8% |
| MustDrop | 250 (+108%) | 72.0% |
6.如何通过"Augmented Multimodal Output"子模块实现文本与图像/视频的混合生成?详细说明位置识别(Position Identification)、候选集检索(Candidate Set Retrieval)和匹配插入(Matching and Insertion)三阶段流程。
Augmented Output流程:
- 位置识别:用MLLM(如GPT-4V)分析文本生成插入点(如"步骤如下:"后插入示意图)。
- 候选检索:以文本段为查询,用CLIP检索相关图像(Top-5)。
- 匹配插入:计算文本-图像相似度(BLEU-4 + CLIPScore),阈值>0.6时插入。
案例:查询"注册Gmail流程",生成响应包含3个图文步骤,用户操作成功率提升22%(论文表7)。
7.对比基于OCR的传统解析(如LayoutLMv3)与MRAG3.0的表示式方法(Representation-based Parsing):后者如何通过文档截图向量化(DSE)保留结构化信息?分析其在BEIR基准测试中的召回率提升。
OCR vs 表示式方法:
• LayoutLMv3:依赖OCR文本检测+识别,F1=0.89但错误传播导致下游任务误差放大15%。
• DSE:直接向量化截图,通过ColBERT式延迟交互计算文档块相似度,在BEIR上Recall@100达0.86(比OCR高18%)。
关键改进:保留视觉布局信息(如PDF中的表格边框),通过ViT的[CLS] token编码全局结构。
Refiner设计:
• 硬提示:LLMLingua基于困惑度(PPL)过滤冗余token,压缩率50%时任务准确率下降<3%。
• 软提示:AutoCompressor将长上下文压缩为32维向量,通过RNN循环更新记忆,在GovReport摘要任务上ROUGE-2保持0.82。
权衡指标:
| 方法 | 压缩率 | 信息保留率 | 跨模型兼容性 |
|---|---|---|---|
| 硬提示 | 50-70% | 85% | 高 |
| 软提示 | 80-95% | 92% | 低(需微调) |
现存问题:
- 模态偏差:文本主导的评估(如BLEU)忽略视觉质量,需引入CLIPScore(图像-文本对齐度)和FID(生成图像真实性)。
- 时效性:现有数据集(如SlideVQA)未覆盖动态知识(如新闻事件),导致时间敏感查询的幻觉率高达34%。
改进方向:
• 多模态评估框架:MME基准同时测量感知(如物体识别)和认知(如逻辑推理)能力。
• 增量索引:结合Diffbot等实时爬虫更新知识库,将新知识检索延迟控制在1小时内。
智能体的模块化设计直接映射人脑功能分区。前额叶皮层对应的推理系统采用分层注意力机制,例如在AlphaGo中,蒙特卡洛树搜索与Transformer的协同工作模拟了人类"直觉-分析"双系统决策过程。边缘系统的情感功能则通过效价-唤醒度模型实现,当检测到高风险场景时,智能体会自动提升威胁相关信号的处理器优先级,这种机制在自动驾驶系统中已得到验证——系统会对突然出现的行人赋予比道路标志更高的处理权重。
海马体对应的记忆模块采用混合存储架构,短期记忆使用类似人类工作记忆的滑动窗口缓存,而长期记忆则通过参数隔离技术实现知识固化,避免新学习覆盖旧知识。
当前主流方案采用"隐式-显式"混合建模。隐式部分依赖大语言模型内建的物理常识,例如GPT-4无需专门训练就能理解"玻璃杯易碎"这类常识,这种方式的推理延迟通常低于100ms。显式部分则构建可微分的物理仿真器,如英伟达的PhysX引擎被集成到智能体架构中,用于精确预测复杂场景下的物体运动轨迹。
二者通过门控机制动态结合——当处理"推倒多米诺骨牌"这类需要精确物理模拟的任务时,系统会自动切换至显式模式;而在处理"解释爱情隐喻"这类抽象任务时,则完全依赖隐式模型。这种混合架构在机器人控制任务中实现了87%的能耗降低。
目前主流方案是通过双通道调节机制实现情感影响的可控量化。在自动驾驶智能体的测试中,当系统处于"高压力状态"(由突发障碍物触发),奖励信号的增益系数λ会从基准值1.0提升至1.8,这使得紧急制动决策的响应时间缩短了210毫秒。同时,消极情感状态会激活注意力过滤机制,在校园区域行驶时,系统会自动降低商业广告牌的视觉采样率,将90%的算力集中于行人检测。
量化分析显示,引入情感模块后,智能体在复杂城市场景中的误判率下降34%,但计算能耗上升22%,这揭示了情感效用的非线性特征。
跨模态对齐的关键在于构建统一的时空参照系,以实现不同模态数据的精准关联。以医疗诊断智能体为例,系统通过建立三维空间-时间坐标系统,将CT影像切片映射到空间坐标(z轴),并将病理报告中的时间描述(如“两周前”)转换为相对时间戳。这种显式对齐方式使智能体能够准确理解“第三张切片显示的肿瘤与上周活检结果相关”,从而实现医学影像与病理信息的无缝对接。
在更复杂的视频-语音对齐场景中,我们采用动态时间规整算法(Dynamic Time Warping, DTW),有效补偿唇动与语音之间的毫秒级延迟。在视频会议场景中,该算法实现了高达98%的唇音同步准确率,显著提升了多模态信息融合的效果。通过这些技术手段,多模态感知系统能够有效解决跨模态对齐难题,为智能体的高效决策提供有力支持。
实现智能体的终身学习而不导致灾难性遗忘的关键在于采用参数隔离技术。具体而言,系统为每个新任务分配专门的LoRA(Low-Rank Adaptation)适配器模块,这些模块仅占用基础模型约0.3%的参数量。以“法语翻译”任务为例,系统仅激活对应的法语适配器模块,而其他语言模块则保持静默。这种机制类似于人类大脑的神经可塑性——正如研究发现,伦敦出租车司机的海马体特定区域会因导航需求而选择性增大。
在Wikidata任务集上的测试表明,经过200个连续任务的训练后,智能体在初始的英语翻译任务上的性能衰减不足2%。相比之下,传统微调方法的性能衰减率高达37%。这表明参数隔离技术能够有效缓解灾难性遗忘问题,使智能体在不断学习新知识的同时,保持对旧知识的稳定掌握。
在线学习与离线学习的协同作用,本质上是对“预训练-微调”范式的深度拓展。以代码生成智能体为例,离线阶段通过对100万GitHub代码的预训练,为智能体奠定了坚实的基础能力,这就好比程序员在学校接受多年专业教育的过程。而在线阶段则如同实习阶段:当用户给出模糊反馈,例如“这段代码需要更优雅的实现”时,系统会启动在线强化人类反馈(RLHF)机制。在此过程中,基础模型保持冻结,仅更新最上层的价值网络,从而在适应新任务的同时,确保核心能力的稳定性。这种混合模式在Apache项目中的应用实践表明,经过6个月的在线学习,代码的接受率从41%显著提升至68%,而核心能力的稳定性始终保持在93%以上。这充分证明了在线学习与离线学习的协同机制能够有效提升智能体的适应性和稳定性,使其在动态环境中持续优化性能。
基于KL散度的智力度量需要结合领域特性进行修正。比如在化学发现任务中,发现单纯比较预测分布 (P_\theta) 与真实分布 (P_w) 会 高估记忆能力而低估推理能力。为解决这一问题,引入了“新颖性权重”:对已知反应数据集 (X_K) 的KL值赋予 0.3权重,而对未知反应 (X_U) 赋予 0.7权重。这种调整后的 IQagent指标 与诺贝尔奖级发现的相关系数达到 0.82,比传统度量高出 29个百分点。
解决通信瓶颈需要三层设计:
(1)协议分层:类似TCP/IP的物理-逻辑分离,底层采用轻量级二进制编码(如Protocol Buffers),减少80%传输负载;
(2)动态路由:基于任务复杂度的自适应拓扑切换,简单任务用星型网络(中心节点处理),复杂任务切换至网状网络;
(3)语义压缩:通过LLM提炼核心意图,将"建议明天10点会议,需准备销售数据"压缩为<Mt10_SD>;
(4)案例:阿里云城市大脑项目中,交通信号控制智能体通过这种架构实现2000+节点协同,时延控制在50ms内;
仿生海马体的三阶段检索:
(1)模式完成:输入线索→激活相关记忆片段;
(2)模式分离:相似记忆差异化编码(如"咖啡杯"vs"茶杯");
(3)模式精炼:前额叶调控最终召回内容;
(4)性能:在LegalBot法律咨询系统中,检索准确率提升至89%,误检率降低至2.1%
LLaVA采用CLIP ViT-L/14作为视觉编码器,因其在对比学习预训练中已实现跨模态语义对齐。具体实现中,图像经ViT-L/14编码为
LLaVA利用CLIP的对比学习特性,使图像特征与文本标题在共享空间对齐,再通过投影层适配LLM词嵌入空间。训练分两阶段:
-
特征对齐阶段:冻结ViT与LLM,仅训练投影层。使用CC3M筛选的595K图文对,通过GPT-4转换为单轮指令数据,最小化
$\mathcal{L} = -\sum \log P(X_a|X_v,X_q)$ 。 -
端到端微调:解冻LLM参数,在158K多模态指令数据(对话/描述/推理)上联合优化,提升复杂任务泛化性。此策略在效率与性能间取得平衡,第一阶段实现模态桥接,第二阶段释放LLM推理潜力。
LLaVA-MORE引入模块化架构,支持Gemma、Phi等不同LLM与CLIP/SigLIP等视觉编码器组合。其核心创新在于动态路由机制:
-
视觉适配器:采用可插拔设计,如对SigLIP编码器增加空间注意力层,增强细粒度特征提取。
-
路由门控:基于跨模态注意力得分动态分配特征权重,公式为
$g = \sigma(W_g[Z_v; H_q])$ ,其中$W_g$为可学习参数,$\sigma$ 为sigmoid函数,实现特征选择。实验显示,该机制在ScienceQA上提升准确率3.2%。
MoE-LLaVA将标准FFN层替换为MoE层,每个token由Top-2专家处理。具体结构:
-
专家并行度:每层含8个专家,每个专家为独立FFN(隐藏层2048→8192)。
-
路由计算:使用可学习路由器
$R(x) = \text{softmax}(W_r x)$ ,计算token分配到各专家的概率,仅激活最高概率的k个专家(k=2)。 -
负载均衡:引入辅助损失 $\mathcal{L}{balance} = \lambda \sum{i=1}^E p_i \log p_i$,防止专家塌缩,其中
$p_i$ 为第i个专家的平均激活率。实验表明,在相同计算量下,MoE-LLaVA-8B达到LLaVA-13B的90%性能,推理速度提升40%。
LLaVA-Video采用分帧编码+时序池化策略:
-
帧采样:均匀抽取T帧(T=8),每帧独立通过ViT编码为
$Z_t \in \mathbb{R}^{N×D}$ 。 -
时序池化:沿时间轴平均池化得到
$Z_{video} = \frac{1}{T}\sum_{t=1}^T Z_t$ ,再投影至LLM输入。
此方法虽简单,但面临信息损失问题。改进方案如PLLaVA引入时空注意力,计算帧间相似度矩阵
LLaVA+Diffusion采用级联架构:
-
提示生成:输入图像$X$经LLaVA生成正向提示$P^+$与负向提示$P^-$,例如:
-
$P^+$ = "A photo of a golden retriever playing in grass" -
$P^-$ = "low resolution, blurry, cartoonish"。
-
-
引导生成:将
$X$ ,$P^+$ ,$P^-$ 输入Stable Diffusion,通过CFG(Classifier-Free Guidance)调节条件权重:$$\epsilon_\theta(x_t,t,P^+,P^-) = \epsilon_\theta(x_t,t) + s[\epsilon_\theta(x_t,t,P^+) - \epsilon_\theta(x_t,t,P^-)]$$ 。
实验显示,LLaVA生成的提示使FID分数从28.5降至23.1,CLIP Score从0.82提升至0.87。
Dynamic-LLaVA通过重要性评分实现token级稀疏:
-
评分计算:对输入token序列
$X$ ,计算重要性得分$S_i = |W_q x_i|_2$ ,其中$W_q$ 为查询矩阵。 -
Top-k掩码:保留得分最高的k个token(k=50%),生成二值掩码
$M \in {0,1}^L$ ,过滤低重要性token。 -
梯度近似:使用Gumbel-Softmax+STE(Straight-Through Estimator)解决不可微问题,损失函数加入稀疏正则项
$\mathcal{L}_{sparse} = \gamma \sum M$ 。实验表明,该策略在VQA任务中减少50%计算量,精度损失仅0.8%。
LLaVA采用MixLLM的混合量化策略:
-
通道分析:计算线性层输出通道的显著性
$\eta_j = \frac{1}{N}\sum_{i=1}^N |w_j^T x_i|$ ,排序后划分高/低显著通道。 -
位宽分配:高显著通道用8bit(FP8),低显著通道用4bit(INT4),例如对
$W \in \mathbb{R}^{m×n}$ ,划分阈值$\tau$ 使前30%通道为8bit。 -
重建损失:优化目标为
$\min |WX - \hat{W}X|_F^2$ ,其中$\hat{W}$ 为量化权重。实验显示,该方案在LLaVA-7B上实现2.6倍加速,MMLU精度保持92.3%原模型水平。
跨模态一致性度量MIR(Modality Integration Rate)计算如下:
-
特征提取:对图文对
$(I,T)$ ,提取视觉特征$f_v(I)$ 与文本特征$f_t(T)$ 。 -
相似度计算:
$s(I,T) = \frac{f_v(I)^T f_t(T)}{|f_v(I)||f_t(T)|}$ 。 -
分布对齐: MIR = $\mathbb{E}{(I,T)}[s(I,T)] - \mathbb{E}{I,T'}[s(I,T')]$ ,其中
$T'$ 为负样本。高MIR值表示更好对齐。实验显示,MIR与VQA准确率相关性达0.91,可用于筛选高质量训练数据(如CC3M中MIR>0.6的样本)。
LLaVA-Med采用医学特化微调:
-
生物医学特征对齐:在PMC-15M的600K医学图文对上冻结ViT/LLM,训练投影层,学习医学术语对齐。
-
指令微调:使用GPT-4生成的60K医学指令数据(如放射学报告生成),解冻LLM参数,学习临床推理。
-
领域适配:添加医学知识嵌入层
$E_{med} \in \mathbb{R}^{d×k}$ ,通过注意力机制融合:$h' = h + \text{softmax}(h E_{med}^T) E_{med}$ 。在PathVQA上,该方案使准确率从58.2%提升至76.5%。
现有视觉剪枝方法主要分为文本无关剪枝和文本感知剪枝两类。文本无关剪枝方法在视觉编码阶段基于 token 的重要性和唯一性剪枝冗余 token,例如 VisionZip 依据 [CLS] 注意力得分选择主导 token,FOLDER 在视觉编码器最后块引入带缩减溢出的 token 合并,但这类方法倾向于偏爱视觉显著对象对应的 token,可能丢弃携带重要语义信息的背景细节,如仅依赖输出 [CLS] 注意力可能忽视实际目标而导致模型响应错误。
文本感知剪枝方法在语言解码阶段的早期层移除与文本查询相关性较低的 token,例如 FastV 依据文本导向的注意力得分在 LLM 早期层丢弃视觉 token,SparseVLM 通过选择与视觉相关的文本 token 评估视觉 token 重要性,但早期层存在位置偏差,倾向于选择序列靠后的 token,且对视觉内容参与度有限,可能破坏跨模态交互。
VScan 的两阶段框架在视觉编码和语言解码阶段逐步缩减 token。第一阶段为视觉编码阶段的全局 - 局部互补扫描与 token 合并:全局扫描从视觉编码器深层(如输出层)选择高 [CLS] 注意力的 token 以捕捉全局语义,局部扫描将图像划分为不重叠窗口,从浅层选择每个窗口内高 [CLS] 注意力的 token 以保留局部细节,两者按 1:1 比例保留并取并集;随后通过余弦相似度将未选中 token 合并到最相似的选中 token 中,减少信息损失。
第二阶段为语言模型中间层剪枝:在 LLM 中间层(如 LLaVA 系列第 16 层,Qwen-2.5-VL 第 14 层)计算视觉 token 与最后一个指令 token 的注意力,选择得分最高的文本相关 token,此阶段能避免早期层的位置偏差,保留关键跨模态交互,例如在 LLaVA-1.5-7B 的中间层剪枝可获得最佳性能,而早期层剪枝可能导致准确率下降多达 1.9%。
视觉编码器处理视觉信息呈现出从局部到全局的层级规律:
在浅层,[CLS] 注意力图捕捉图像中细粒度的局部细节,代表性视觉 token 的自注意力主要关注语义相近的邻近区域;
在深层,[CLS] 注意力逐渐集中于主要实体以反映全局语义相关性,自注意力分布更分散,整合了整个图像的上下文信息。
这些规律表明,仅依赖输出层(深层)可能忽视浅层编码的丰富局部信息,因此视觉剪枝需兼顾浅层局部细节与深层全局语义,例如 VScan 通过全局 - 局部互补扫描,从深层选全局 token、浅层选局部 token,以保留更全面的视觉信息。
语言模型中间层是剪枝最佳阶段的原因在于:早期层存在位置偏差,倾向于选择序列中较晚出现的视觉 token(如 LLaVA-1.5-7B 的第 2、8 层更关注图像底部 token),且对视觉内容参与度有限;中间层主要负责与视觉 token 的交互,下一个 token 的预测趋于稳定(如 GQA 任务在第 20 层左右稳定,POPE 任务在第 16 层左右收敛);深层的预测已稳定,剪枝对性能影响较大。实证研究显示,在中间层(如 LLaVA-1.5-7B 的第 16 层)剪枝时,模型性能最佳,例如在 GQA 基准上,中间层剪枝的准确率高于早期层和深层,验证了中间层剪枝能有效去除文本无关信息且不干扰关键交互。
VScan 在效率和性能上表现优异:在 LLaVA-1.5-7B 上,仅保留 11% 视觉 token 时,实现整体 1.37× 加速、预填充 1.77× 加速,FLOPs 减少约 10×,性能保留 96.7%;在 LLaVA-NeXT-7B 上,保留 11.1% token 时,推理速度提升 2.05×,预填充阶段提升 2.91×,性能达原始模型的 95.4%。
与其他方法相比,VScan 在高缩减率下优势显著,例如在 LLaVA-1.5-7B 的 88.9% 缩减率下,平均性能比第二好的 VisionZip 高 4.0%;在Qwen-2.5-VL 的 75% 缩减率下,指称定位任务性能达原始模型的 80.7%,远超 FastV 和 PyramidDrop 的约 50% 性能。此外,VScan 与 FlashAttention 兼容,可进一步减少推理时间,如 LLaVA-NeXT-7B 在 11% 保留率下,结合 FlashAttention 后推理时间从 488 秒减至 473 秒。
(1)视觉-语言对齐粒度不足 当前主流多模态 LLM(如 Qwen-VL、Monkey、InternVL)在预训练阶段以「整图-整段文字」对齐为主,缺乏单元格级别的显式坐标监督。模型只能隐式猜测网格边界,跨行列合并时误差放大。
(2)位置编码机制限制 基于 RoPE 或 2-D 绝对位置编码的 Transformer,在子图裁剪或高分辨率切片后,全局坐标系被重置,导致跨行列合并的相对位置关系丢失。
(3)训练数据缺陷 公开表格数据集(PubTabNet、FinTabNet)以「单页-单表」为主,极少出现跨页、跨栏、重复表头的极端情况;模型在微调阶段未见过这类长尾分布,自然在推理阶段表现退化。
(4)工程对策 在训练阶段引入「单元格级框+HTML 树结构」双重监督;采用「先检测网格后语言建模」的级联框架(例如 OCRFlux 的做法),把视觉网格检测与语言生成解耦,降低 LLM 直接回归坐标的难度。
(1)相似度阈值难以统一 相似度指标(BLEU、编辑距离、embedding cosine)对格式噪声极度敏感:页脚页眉、页码、字体变化均会拉低相似度,导致误拆或误合。
(2)表格结构信息丢失 纯文本相似度无法感知「表头重复」「列顺序调换」「竖向拆分后左右拼接」等结构级差异;规则系统需要大量 case-by-case 正则与模板,维护成本高。
(3)长程语义依赖 段落可能在两页之间存在指代、省略或逻辑转折(如“如下表所示…”),仅看局部 512 token 窗口无法捕获跨页指代链。
(4)上限与突破 传统方法在「单栏、无表格、无页脚」场景下 F1≈0.85 即见顶;引入多模态 LLM 后,通过「整页图像+Markdown 序列」联合编码,可一次性建模空间与语义连续性,OCRFlux 在 1000 对页的基准上 F1≈0.986,验证了 LLM 的显著优势。
(1)训练数据质量 > 参数规模 OCRFlux-3B 使用了 110 万页「金融+学术」私域数据,经过多轮人工校验,去除了 GPT-4o 在低质量表格上的错误标签;数据清洗带来的增益远超额外 4 B 参数。
(2)任务特定的视觉 tokenizer 采用「切图-合并」策略:高分辨率页面先切成 448×448 不重叠子图,每张图经 ViT 编码后仅保留 64 个 visual token;相比 7 B 模型直接对 1344×1344 全图编码,推理时显存占用下降 ~4×。
(3)联合训练的单模型多任务 单页解析与跨页合并共享同一套权重,避免「两阶段流水线」带来的错误累积;同时利用 LoRA+ZeRO-3 在 8×A100 上仅 6 小时即可完成微调,极大降低了再训练门槛。
(4)量化与算子优化 推理侧支持 AWQ INT4 量化 + Flash-Attention2,RTX 3060 6 GB 上可跑 2048 token context,吞吐量 12 page/s,满足生产需求。
技术焦点:
- 传统OCR:基于序列建模(CRNN+CTC)或端到端检测(DBNet)的字符级识别,输出为无结构文本流,忽略视觉语义与跨模态关联。
-
多模态智能:
-
特征融合:输入向量
$$\mathbf{h}_i = [\mathbf{w}_i; \mathbf{v}_i; \mathbf{p}_i]$$ ,其中$$\mathbf{p}_i$$ 为归一化坐标$$(\frac{x_1}{W}, \frac{y_1}{H}, \frac{x_2}{W}, \frac{y_2}{H})$$ 。 -
任务扩展:联合完成实体识别(NER)、文档分类(如DocBERT)、表格重建(TableFormer)。
案例:发票识别中,传统OCR无法区分“单价”与“总价”,而多模态模型通过布局分析(相对位置)和文本语义联合推断。
-
特征融合:输入向量
关键技术:
-
空间感知注意力:在Transformer中注入位置先验,计算Query-Key相关性时加入高斯距离权重:
$$A_{ij} = \text{softmax}\left(\frac{Q_i K_j^T}{\sqrt{d_k}} + \phi(\text{dist}(b_i, b_j))\right)$$
$$\phi(\cdot)$$ 为基于边界框$b_i,b_j$中心距离的径向基函数。 -
模态间蒸馏:使用CLIP-style对比学习,拉近匹配图文对的嵌入距离(见公式$\mathcal{L}_{\text{contrast}}$)。
挑战:跨模态噪声(如OCR错误)需通过对抗训练(GAN)增强鲁棒性。
方法论:
-
规则引擎:定义业务逻辑的谓词表达式,如
$$\forall \text{clause}_i \in \text{Contract}, \text{Amount}(\text{clause}_i) = \text{Sum}(\text{PaymentSchedule}_i)$$ -
神经网络验证:训练Siamese网络计算条款与表格的语义相似度:
$$s(\mathbf{t}, \mathbf{c}) = \sigma(\text{MLP}([\mathbf{t}; \mathbf{c}]))$$
低于阈值$\tau$时触发人工审核。
数据:需标注矛盾样本(如故意修改金额)供模型学习。
技术栈:
• 超分辨率方案:
• 传统方法:双三次插值+锐化,速度快但效果有限。
• 深度方法:Real-ESRGAN(带退化建模),适合处理扫描件摩尔纹。
• 倾斜校正的两种策略:
• 基于文本行:Tesseract检测文本方向角(适用于文字为主的文档)。
• 基于边缘检测:Canny算子+Hough直线拟合(适用于无文本的表格/图表)。
• 去噪实战:对老旧扫描件,先用Non-Local Means去高斯噪声,再用CycleGAN转换灰度不均匀区域。
评估维度:
- 模态独立性:
- 文本层:CER、NER F1(按实体类型细分)。
- 视觉层:mAP@IoU=0.5(表格/图标检测)。
- 模态协同性:
- 跨模态检索Hit@5:给定图标查相关条款。
- 逻辑错误检出率(False Omission Rate, FOR)。
基准数据集:DocVQA、FUNSD、PubLayNet。
• 任务设计示例:
• Masked Region Modeling:随机遮盖图片中15%的patch,用ViT重建像素(MSE损失)。
• Text-Image Alignment:将文档中的段落打乱,要求模型恢复正确顺序(需结合布局特征)。
• 数据规模:IIT-CDIP数据集(600万扫描文档)是常用基准。
• 效率优化:采用混合精度训练(FP16),在8卡A100上LayoutLMv3预训练需约7天。
解决方案:
-
文字方向感知:在位置编码中注入方向角
$\theta$ :
$$\mathbf{p}_i = [\text{PE}(x_i); \text{PE}(y_i); \text{PE}(\sin\theta); \text{PE}(\cos\theta)]$$ -
混合字符嵌入:中日韩文本采用CharCNN+BiLSTM提取子词特征。
案例:阿拉伯语从右向左书写需调整注意力掩码方向。