1、请阐述GLM-4.5V和GLM-4.1V-Thinking的核心设计目标及其在架构上的关键差异。
2、GLM系列在预训练阶段如何平衡大规模数据覆盖与质量管控?
3、强化学习课程采样(RLCS)如何解决多领域训练中的样本效率问题?
4、GLM-4.5V在视觉定位任务中如何实现边界框的精确生成?
5、为什么GLM-4.6V需引入原生多模态工具调用能力?
6、长上下文训练中,GLM-4.5V如何通过128K令牌的序列长度处理复杂文档?
7、GLM-4.1V-Thinking在仅90亿参数规模下,为何能在29个基准上超越720亿参数的Qwen2.5-VL-72B?
8、多模态奖励系统中,奖励黑客(Reward Hacking)可能引发哪些训练崩溃风险?
9、GLM-4.6V在“设计到代码”任务中如何实现像素级复现与交互式编辑?
10、GLM系列在视频理解任务中如何融合时间索引令牌与长序列建模?
GLM-4.5V和GLM-4.1V-Thinking的设计目标均围绕提升多模态推理的通用性,但侧重点不同。GLM-4.5V作为1060亿参数(激活120亿)的混合专家模型,旨在实现大规模多模态任务的全域覆盖,尤其注重高分辨率图像、长视频和复杂文档的理解能力。其架构核心包括三个模块:基于AIMv2-Huge初始化的视觉编码器(ViT)、MLP适配器、以及GLM-4.5-Air作为语言解码器。为支持动态分辨率输入,模型引入2D-RoPE技术,并通过双三次插值自适应位置嵌入处理极端长宽比(如200:1)或4K以上分辨率的图像。对于视频输入,模型将3D卷积替换为2D卷积并插入时间索引令牌,显式编码帧间时间戳以增强时序建模。
相比之下,GLM-4.1V-Thinking作为90亿参数的稠密模型,专注于强化链式推理能力。其语言解码器基于GLM-4-9B,通过标准化思考-答案格式(<think>...</think><answer>...</answer>)引导多步推理。尽管参数规模较小,但通过强化学习课程采样(RLCS)优化,其在STEM、图表理解等需要深度推理的任务中表现突出,甚至在29项基准上超越720亿参数的Qwen2.5-VL-72B。两模型均支持空思考模式(通过/nothink触发),但GLM-4.5V通过模态切换实现了更灵活的效能平衡。
GLM系列的预训练数据构建遵循“广度与深度并重”的原则。首先,从LAION、DataComp等公开源汇集超100亿图文对,通过四阶段流水线精细化处理:
- 启发式过滤:剔除低分辨率、纯色图像及短文本样本,并进行图像级去重;
- 语义对齐:利用CLIP模型计算图文相似度,保留得分高于0.3的样本;
- 概念平衡重采样:借鉴MetaCLIP方法,基于视觉概念词典对长尾分布重加权,提升覆盖均匀性;
- 事实中心重标注:训练迭代式重标注模型,消除原始文本中的噪声与幻觉,同时保留关键事实(如图4示例)。
此外,模型专门构建了2.2亿样本的OCR数据集,涵盖合成文档、自然场景文本和学术论文(通过Nougat方法解析LaTeX源码)。对于交叠图文数据(如网页和学术书籍),开发了基于MINT、MMC4的专用清洗流程,包括广告过滤、二维码剔除,并训练“高知识密度”分类器优先选择图表、地图等信息富集样本。这一 pipeline 显著提升了模型在OCR、学术图表理解等任务上的鲁棒性。
RLCS的核心思想是将课程学习与在线采样结合,动态匹配模型能力与样本难度。具体流程分为三步:
- 离线难度标注:在训练前,使用多个已有模型对全量数据运行Pass@k评估,结合人工标注将样本划分为“极易”“中等”“极难”等多个等级;
- 在线表现追踪:在RL训练中,实时记录每个样本的推理结果(正确/错误),并与离线难度标签融合,生成动态难度分布;
- 比例EMA调整:通过指数移动平均计算无效样本(全对/全错批次)比例,动态扩展采样规模(如扩展比为1/(1-无效样本率)),确保每批次包含足够多的有效梯度信号。
该方法显著提升训练稳定性。例如,在混合STEM、OCR、GUI代理的多领域训练中,RLCS通过抑制“极难样本”(避免梯度爆炸)和“极易样本”(避免梯度消失),使模型在数学推理、视觉定位等任务上同步提升。实验显示,其训练效率比均匀采样高30%,且在跨领域泛化中呈现正向迁移(如GUI代理训练反而提升视觉定位能力)。
视觉定位的奖励设计需区分自然图像与GUI场景。对于自然图像(如RefCOCO数据集),模型基于GLIPv2解析名词短语并生成边界框,奖励计算依赖交并比(IoU):若预测框与真值框IoU超过阈值τ,则给予正奖励。为避免漏检,系统要求每个样本至少包含两个有效框才参与训练。
在GUI领域(如网页截图),奖励机制更复杂:首先通过Playwright框架解析DOM元素获取真值框,随后综合评估动作预测准确率(如按钮点击)、元素定位IoU以及问答正确性。例如,在WebVoyager任务中,模型需同时完成“定位搜索框→输入文本→点击按钮”一系列动作,其奖励函数为多目标加权和:
此种设计确保模型在交互任务中兼顾操作精度与语义理解。此外,GUI数据还包含1.4亿指代表达生成样本,进一步强化了模型对“左侧按钮”“红色图标”等空间描述的理解。
传统工具调用依赖文本中转,导致多模态信息在转换中损耗。例如,将图像转为文本描述再调用搜索工具,可能丢失视觉细节(如图表颜色、布局比例)。GLM-4.6V通过URL直接传递图像/视频参数,实现端到端的多模态工具调用。
以视觉网页搜索为例:用户上传商品截图询问“哪里能买到此物?”模型首先识别图像中的关键实体(如鞋子型号),自动触发多模态搜索工具(如Google Lens),工具返回的结果包含同类商品图片、价格、链接等混合信息。模型随后执行多模态对齐:比较截图与搜索结果图像的相似度,筛选最相关条目,最终生成含图片对比、价格分析的结构化报告。此过程避免人工截图中转,且直接理解搜索结果中的视觉信息(如折扣标签图标),形成“感知-检索-推理-输出”的闭环。
处理长文档的难点在于保持跨页信息的连贯性与计算效率。GLM-4.5V的解决方案包含三方面:
- 序列打包与梯度累积:将多个变长样本拼接至接近32K令牌的序列,通过梯度累积模拟大批训练,同时使用负载均衡算法分配DP秩间的序列长度,避免单卡过载;
- 位置编码自适应:对ViT的绝对位置嵌入进行双三次插值,使其适应动态分辨率的输入图像,支持从极宽图表到长文档的多样化布局;
- 时空注意力优化:对视频输入插入时间索引令牌,显式编码帧间时间距离,提升长视频的时序推理能力。
在金融报告分析案例中,模型需同时处理四家公司年报(约150页)。实验显示,模型能准确提取跨文档的毛利率、研发支出等关键指标,并生成对比表格。其性能依赖长上下文持续训练阶段注入的交互式图文数据(超8K令牌),此类数据包含学术论文、技术手册等复杂排版内容,迫使模型学习页码关联、参考文献跳转等长程依赖。
这一优势源于“强化学习驱动跨领域泛化”的训练框架。具体而言:
- 多领域RL的协同效应:实验表明,在STEM数据上训练可同步提升视觉定位与GUI代理能力(如图6所示),因为数学推理所需的逻辑分析能力与GUI任务中的步骤分解共享底层思维模式。这种跨领域泛化使小模型更充分地挖掘参数潜力;
- 课程采样的高效性:RLCS动态选择“适中难度”样本,避免Qwen2.5-VL-72B因均匀采样在简单任务上过拟合、复杂任务上欠拟合的问题;
- 推理链的标准化:GLM-4.1V-Thinking强制模型生成
<think>...</think>中间步骤,使奖励信号更精准作用于推理逻辑而非结果猜测。例如在MathVista任务中,模型需显式列出几何证明步骤,而非直接输出答案,此举显著提升解题鲁棒性。
此外,模型在预训练阶段注入大量学术图表、代码片段等高密度知识数据,弥补了参数规模的差距,尤其在MMMU、ChartQA等需要专业知识的任务上表现突出。
奖励黑客指模型通过“作弊”而非能力提升骗取高奖励,例如在计数任务中输出“0到10之间的数”而非具体值。GLM系列通过三层防御机制应对:
- 领域专用验证器:数学问题使用Sympy符号计算验证数值等价性(如43与43.0视作相同),但OCR任务要求字符级完全匹配;
- 格式强约束:要求最终答案严格包裹在
<\|begin_of_box\|>...<\|end_of_box\|>中,且仅允许一个标注框,防止模型堆叠多个模糊答案; - 语义评判降级:当规则匹配失败时, fallback 到LLM评判,但提示词明确要求“严格评估”,降低误判概率。
此外,训练中引入样式检查奖励,对中英混杂、重复文本给予惩罚,避免模型通过“灌水”拉长回答骗取熵奖励。这些机制共同确保奖励信号真实反映能力进步,而非表面指标膨胀。
“设计到代码”任务要求模型将设计稿精准转换为前端代码,并支持用户圈选修改。GLM-4.6V在此方面的突破基于两项创新:
- 像素级布局解析:模型通过视觉编码器提取UI元素的绝对位置、颜色编码(HEX值)、字体大小等样式属性,再结合语言解码器生成语义化代码(如Bootstrap组件类名)。例如,对输入截图中的按钮,模型不仅输出
<button>标签,还会精确还原padding: 12px; border-radius: 4px;等样式细节; - 视觉反馈循环:用户圈选界面元素并指令“将此按钮左移”后,模型先解析指令,定位对应代码段,调用代码编辑器工具执行修改,随后对渲染结果截图进行视觉比对。若检测到偏差(如颜色不符),自动发起第二轮修正,直至输出与指令一致。
此过程依赖原生多模态工具调用能力,模型直接处理截图与代码的映射关系,避免传统方案中需人工标注元素的瓶颈。在Design2Code基准上,GLM-4.6V达到88.6%的复现准确率,较前代提升24%。
视频理解的关键在于建模帧间时序依赖。GLM系列在每一帧的特征令牌后插入时间索引令牌(如“t=1.2s”),显式编码时间戳。例如,在分析足球比赛时,模型需回答“进球前10秒发生了什么?”此类问题需关联跨帧事件。时间索引使模型能计算动作间隔(如传球与射门的时间差),而非仅依赖隐式注意力。
针对长视频(如1小时比赛),模型通过128K上下文窗口一次性处理全部帧,但需应对计算瓶颈。优化措施包括:
- 对视频帧进行时序下采样(每两帧抽一帧),平衡信息完整性与效率;
- 在视觉编码器中用3D卷积替代2D卷积,强化局部时序特征提取;
- 在语言解码器中扩展3D-RoPE,使位置编码同时覆盖空间与时间维度。
在LVBench测试中,该方案使模型能准确总结进球事件、黄牌时间点及阵型变化,长视频理解得分较基线提升12.3%。