角色:压缩索引 + 自足知识底座。无 repo 时独立运作;有 repo 时作为快速框架,深度分析由原始文件补充。 来源:KW_VLA Handbook(332+ 篇 Markdown,70+ 论文拆解,产业分析,周报系统)。 维护:定时任务每日 09:00 增量更新。 v2.0.27 变更摘要(2026-05-26→05-27 增量定时任务 — 连续 2 个零新数据日 / 0 置信度变更 / 系统级“只升不降”保守偏误警报 05-26 正式 fire):🟢 零新数据日 ×2 — 0 节点置信度变更。补整合 05-26 daily-digest(v3.6.19,BELIEF_GRAPH 已 bump)+ 推进至 05-27(三类报告全缺席)。(1) 🔴 05-26 系统级保守偏误警报 fire:上次任一信念下降 = 04-26 (B1/B3 ↓) 距今满 30 天 → CLAUDE.md §4.3 触发 #4;警报职责 = 强制重审非强制下调,05-25 hypothesis-review 已完成 B5/B6/B8 三视角审查裁定无任一节点存在真实“应下调”证据(B8 处 50/50,对其 -5% 重蹈 04-26 被 LWD 反转覆辙;B5/B6/B7 上行被 75-77% 校准上限锁死非应下行)→ 维持 0 变更(§内容纪律“不为显得有在工作而制造假变更”)。(2) §4 保守偏误计数器全体 +1d 至 05-27:B0 40d / B1 31d软 / B2 软23d 严 56d🔴 / B3 31d软 / C3 10d / B4 33d / B5 57d🔴 / B6 83d🆘 / B7 严73d软28d / B8 71d🔴 / B9 42d(5 节点超阈值不变 B5/B6/B7严/B8/B2严)。(3) 顶级实验室 arxiv 严格缺席 55 天(04-06~05-27 史上最长 +1d);#27(顶级实验室 arxiv rebound 硬截止 2026-06-05)剩 9 天 = 唯一 30 天内到期项,本窗口无 rebound = 反方持续累积;#28(π0.7 60d 延期复现 2026-07-17)剩 51d。(4) 系统级“只升不降”计数 31d(警报持续 active)。(5) 🟡 既存数据一致性观察(不擅自解决):BELIEF_GRAPH §1 节点表 B1=72%/B2=77%/B3=72%(04-26 值)vs §4/本记忆 B1=77%/B2=82%/B3=77%(LWD 05-04 值)差 5pp,仅标记供下次 hypothesis-review,不改任何节点值。(6) 真正病灶 = calibration ceiling deadlock + ≥11 项 P0 人工裁决 0 落地循环(自 05-15 计 12 天),下次 hypothesis-review 元层最高优先。 v2.0.26 变更摘要(2026-05-25 增量定时任务 — 双报告日 daily-digest v3.6.16 + paper-scan v3.6.17 / 0 置信度变更 / 真数据日但全部信号被 calibration ceiling deadlock 阻塞 / 系统级"只升不降"警报临界):🟡 低信号真数据日 — 0 节点置信度变更。当日 两份报告:(1) daily-digest 24h 窗口捕获 GesVLA (2605.22812, ~05-21) gesture-aware dual-VLM(gesture 特征嵌 latent 空间 + hand-model 渲染 gesture 数据生成管线降 sim-to-real)= 弱 B0(数据工程, raw 85% deadlock 不达 +5%)/ 中性 C3(保留语言 ADD gesture ≠ 移除语言, 05-17 C3 sub-trigger 未 fire)/ 弱 B6(dual-VLM)+ HiF-VLA (arxiv 2512.09928 = 2025-12 旧论文) motion 表征双向时序推理(hindsight+foresight, LIBERO-Long 96.4%, 延迟 -58.3%)仅因 05-22 开源 + CVPR 2026 接收再浮现 → 按旧论文处理不触发节点(arxiv ID 核查防"开源 ≠ 新论文"误计); (2) paper-scan 段穷举补扫 daily-digest 24h 窗口漏过的 4 篇: 🟡 RAW-Dream (2605.12334, ~05-12) task-agnostic WM-for-RL(task-free WM 预训练 + 现成 VLM reward + dual-noise verification, zero-shot imagination 微调)= Phase 2×4 交叉(WM 里做 RL)最危险交叉又一实证 + Phase 4 反相变计数器 39→40/12 BG = 3.33× 历史新高(雷达 38→39/12 = 3.25×), B4 75% 校准上限 deadlock 阻塞不达 +5% / 🟡 AVP (2605.22183, ~05-22) VLM 发射 visual-primitive token 作接口条件化动作生成解耦指令/空间/运动 = B7 中正向, deadlock 阻塞 / 🟢 PointACT (2605.21414, ~05-21) multi-scale point-action expert dual-system 3D-aware = B7/B6 弱 / 🟢 EvoScene-VLA (2605.21862, ~05-21) recurrent scene prefix 跨 chunk 维护 geometry-aware scene prior(RoboTwin +2pp)= B7 弱(明确不计 Phase 4, 沿用雷达归类纪律: decoder-内场景状态 ≠ 生成式 WM); 流程更正: Hand-in-the-Loop / HandITL (2605.15157) 撤销 05-21 永久 dismiss(本次 WebSearch 独立返回区别于 DexHiL 2603.09121 的摘要 = bimanual dexterous human-in-the-loop intervention, SOP false-negative 校准点, 归 B2/B3 既有累积 belief 0; SOP 应增 "dismiss 后自然浮现需 un-dismiss 复评" 条款); 2 篇 1-strike pending(cross-ref 未独立确认, 不计节点不记方法细节): Pre-VLA (2605.22446) runtime verification for VLA + WM rollouts + Understanding Multimodal Failure in Action-Chunking BC (2605.22493); 段穷举 SOP 第 17 次发现漏过(2605.12 段第 3 次, 单段连续三次漏过 = 段穷举不可靠最强印证, SOP v2 草案 P0 紧迫上升)+ 2605.18~22 段索引延迟假设第 2 次确认(lag 3-5d 稳定, 2605.23
24 仍未索引下次v2.0.26**(本 session bash mount 同步尝试 push + PowerShell fallback)。(注: v2.0.25 05-21 仅 bump 标题/§9 未留独立 changelog 条目, 见 §9.1 05-21 快照)。Source Map 行号偏移:changelog +1 行 / §9.1 +1 行(05-25 当日快照)/ §15 截止日期更新 → Source Map 表格按新行号刷新。 v2.0.24 变更摘要(2026-05-18 增量定时任务 — 双报告日 / 段编号穷举 SOP 第 15 次发现漏过 5 篇 / 0 置信度变更但结构性议程压力显著):当日 两份报告 生成 — (1)05-28 补扫); 社交情报 4 条全产业/narrative 0 触及 VLA 核心: Tesla 关 Fremont 经典车型产线转人形(非 arxiv 发布不破缺席)/ 脉塔智能 5000万 Pre-A/A / 智平方 AI²《VLA 过时吗?2026 回应》 把 VLA 重定义为 WM+类脑开放框架 narrative 防御(加固 C2 15% 下限反证但已不动)/ 福赛科技 2000万 人形专项基金。🔴 本日核心元信号: 上次任一信念"降低"= 04-26(B1/B3 ↓)距今 29d, 距 CLAUDE.md §4.3 触发 #4「连续 30 天未降低任何信念置信度 → 保守偏误警报」仅剩 1 天(05-26 正式触发) —— 05-04 后全 ↑ = "只升不降 over-update drift" 进入正式警报临界, 与节点级 B5/B6/B7/B8 "该降未降"方向相反并存 = 校准 deadlock 双面成本, 列下次假设审计元层最高优先。保守偏误状态(2026-05-25,全体 +4d vs 05-21):B0 (38d) ✅ / B1 (29d) ✅ / B2 (软 21d / 严 54d 🔴) / B3 (29d) ✅ / C3 (8d) ✅ / B4 (31d) ✅ / B5 (55d) 🔴 / B6 (81d) 🆘 已破 67d 反思阈值 +14d / B7 (软 26d / 严 71d05-25 史上最长 +4d, 本批零顶级实验室)。BELIEF_GRAPH.md v3.6.14 → v3.6.16(daily-digest)→ v3.6.17(paper-scan), 0 置信度变更, §4 计数器 daily-digest 已 +4d / paper-scan 不递增。议程积压 ≥10 P0 + 雷达 2 项, calibration ceiling deadlock(B0/B4/B6/B7)最高优先未解。**⚠️ ) / B8 (69d) 🔴 / B9 (40d) ✅。5 节点超阈值不变(B5/B6/B7-严/B8/B2-严)。预测窗口倒计时:#9 已关闭;#16 数量已满足触发受阻;#19 剩 36d;#22 剩 71d;#23 剩 73d;#24/#25 剩 81d;#26 剩 173d;#27 距 06-05 剩 11 天 < 2 周关键监测期(本窗口无 rebound: GesVLA 学术 / HiF-VLA 旧学术 / Tesla 非 arxiv = 反方持续累积)。顶级实验室 arxiv 严格缺席 53 天(04-06⚠️ GitHub 累积未 push v2.0.212026-05-18-daily-digest.md凌晨运行 = 零新数据日 (24h 增量 0 新 VLA-relevant arxiv + 社交情报vla-social-intel/2026-05-18.md不存在 + 小红书xiaohongshu-community/2026-05-18-*.md不存在 + 产业新闻 JAL/Haneda + Agility-Toyota + Figure Helix-02 均非 VLA 架构信号或已往日处理), BELIEF_GRAPH.md v3.6.9 → v3.6.10-incremental-daily-0518; (2)2026-05-18-paper-scan.md= 段编号穷举 SOP 回溯发现 05-14 / 05-15 paper-scan 声称 "2605.0712 段穷举" + "2605.1115 段穷举" 范围内全部漏过 5 篇 VLA-relevant 论文: ALAM (2605.10819, 05-11) algebraically consistent latent action model + frame triplets + composition/reversal regularization + joint flow-matching co-generation (MetaWorld MT50 47.9→85.0% +37.1pp baseline 弱 reservation / LIBERO 94.1→98.1% 饱和折扣 reservation / additivity-reversibility errors -25-85×) = C1 弱-中正向第 8 条 + Phase 4 +1 (latent transition) / SEVO (2605.11114, 05-11, FelixFtch) semantic-enhanced virtual observation + active red illumination + diversified data collection ablation 直接验证 "data > architecture" (ACT 95→85% / SmolVLA 83→75% 跨 mobile platforms) = B0 弱正向第 N 条 / C1 弱反方 / GuidedVLA (2605.12369, 05-12) plug-and-play action attention specialization (object grounding / spatial geometry / temporal skill logic 三 head 监督) = B7 中正向第 N 条 + C1 弱正向第 9 条 + Phase 4 +1 (attention head) / 🟠 Pelican-Unified 1.0 (2605.15153, X-Humanoid, 05-14) unified VLM + Unified Future Generator (UFG) joint future video + 未来动作 denoising + 64.7 VLM 同等规模 SOTA + WorldArena 66.03 #1 + RoboTwin 93.5 平均 #2 (Bear: 第二 ≠ 第一 + benchmark cherry-pick risk + X-Humanoid 没 PI/Figure/NVIDIA 级背书) = 工业级 latent-WAM 第 3 条独立信号 (Cortex 2.0 / MotuBrain / Pelican-Unified) 正式满足预测 #16 "下季度 1-2 条工业级跟进 → B4 75→80%" 数量条件 3/1-2 超额, 但触发条件受 B4 75% 校准上限 deadlock 阻塞 → 升格至 P0 议程 + 同时审议 calibration ceiling rule 三档方案 + B6 unified 弱反方第 1 条 + B7 弱反方第 N 条 + Phase 4 +1 (UFG) / Hand-in-the-Loop (2605.15157, ~05-14/15) dexterous VLA seamless interventional correction (题目 + 作者 verified, 论文细节 cross-ref 3 次失败 1-strike pending dismiss) + 1-strike 候选 AT-VLA "Adaptive Tactile Injection" cs.RO listing 出现但 3 次 arxiv ID cross-ref 失败 → 1-strike pending dismiss; Phase 4 (WM 闭环) 反相变计数器 35/12 → 38/12 = 3.17× 历史新高 (+ALAM latent transition / +GuidedVLA attention head / +Pelican-Unified UFG, 远超 30 强制结构性重估阈值线 + 接近 40 = 4× 临界); C1 (架构创新回归, 35%↑⚠️ ) 同向独立信号链累积至 9 条 ≥ 中-强 6 条, 距 40% 升格阈值仍 5pp 不变, 但逆共识保护 ΔI 阈值 1/3 已生效 → C1 升格审议升格至下次 hypothesis-audit P0; 置信度净变更 = 0 (所有强证据信号在 calibration ceiling deadlock + 单论文未达 ±5% 门槛下被 v3 校准纪律阻塞); 新 P0 议程项 5 项立项: (1) Calibration ceiling framework 三档方案决议 (B4/B7 deadlock 74d/64d 破阈值, Pelican-Unified + ALAM 是实证压力第 1 次明确) / (2) 预测 #16 处理 / (3) C1 正式升格审议 / (4) 段穷举 SOP v2 草案 (单次发现漏过 5 篇, SOP 机制本身需升级) / (5) B6 unified vs hierarchical 子议题; 新 P1 议程项 5 项: ALAM/GuidedVLA/Pelican-Unified 三篇全文 deep read + Hand-in-the-Loop / AT-VLA arxiv abs cross-ref 二次失败即 dismiss; RotVLA 2605.13403 累计 3 次 cross-ref 失败 → 永久 dismiss (3-strikes-out 规则正式触发); BELIEF_GRAPH.md v3.6.10 → v3.6.11-incremental-paper-scan-0518; 顶级实验室 arxiv 严格缺席 46 天 (04-06~05-18 已破 45d 结构性升级线 +1d) + 本批 5 篇 confirmed 论文 零顶级实验室 (X-Humanoid 工业 + SJTU/Tsinghua/HIT 中国系大学 / 工业链); 预测 #27 顶级实验室 arxiv rebound 硬截止 2026-06-05 剩 18 天 < 3 周, 下次 daily-digest (05-19) 起列为每日跟踪项; 05-15 self-reflection 6 项人工裁决累计 +3d (05-15→05-18) 0 落地 维持"结构性人工裁决积压"标签; 议程积压 = 5 项 05-15 self-reflection P0 + 5 项本次新增 P0 = 10 项 P0, calibration ceiling deadlock 是最高优先级阻塞。保守偏误状态(2026-05-18,全体 +1d vs 05-17):B0 (31d) ✅ / B1 (22d) ✅ / B2 (软 14d / 严 47d 🔴) / B3 (22d) ✅ / C3 (1d) ✅ / B4 (24d) ✅ / B5 (48d) 🔴 / B6 (74d) 🆘 已破 67d 校准上限反思阈值 +7d / B7 (软 19d / 严 64d⚠️ ) / B8 (62d) 🔴 / B9 (33d) ✅。5 节点保守偏误超阈值不变 (B5/B6/B7-严/B8/B2-严)。预测窗口倒计时:#9 已关闭(05-17 上午 hypothesis-review 关闭为反方);#19 智元 6-30 ddl 剩 43 天;#22 LWD 剩 78 天;#23 VLA-TTC 剩 80 天;#24/#25 剩 88 天;#26 剩 180 天;#27 距 06-05 剩 18 天 < 3 周关键监测期。⚠️ GitHub push 状态延续:v2.0.21 + v2.0.22 + v2.0.23 三版本累积未 push(git log 最新仍为 01617b8 = 05-14 v2.0.20);本次 v2.0.24 commit 必须包含 v2.0.21v2.0.24 四版本累积变更;建议每日提示 PowerShell 手动 push 直到落地。Source Map 行号偏移:v2.0.24 changelog 增加 1 行;§9.1 新增 1 行(05-18 当日快照);§15 截止日期更新;footer 区 +2 行 = 源文件 907 → 911 行。 v2.0.23 变更摘要(2026-05-17 增量定时任务 — 单弱社交信号日 / 双结构性阈值同日触发):🟡 单弱社交信号日 — 无置信度变更但 2 个结构性阈值同日触发。当日 daily-digest / paper-scan / 小红书三类报告仍全部缺席(reports 目录最新仍为 2026-05-15-daily-digest + 2026-05-15-paper-scan,xhs 最新仍为 2026-05-15-auto.md);仅05-17,距 v3.5.5 立项的"≥45 天即升格"线整数关口达到,史上最长再破 +23 天)—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续 45 天;按 self-reflection v3.6.7 升格规则触发"结构性认识论问题",但本任务(scheduled vla-expert-memory)不擅自执行升格判决,仅记录阈值已达,等待下次 daily-digest / hypothesis-audit / human reflection 执行升格处理;预测 #27 顶级实验室 arxiv rebound 硬截止距 2026-06-05 剩 19 天(缓冲区开始消耗)。🆘 结构性阈值 2 触发:预测 #9(π0.7 第三方独立复现 "match specialist")到期 = 今日 2026-05-17——v2.0.22 §6.1 明确要求"05-17 当日或之后首份 daily-digest 必须主动判决并执行 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方";scheduled vla-expert-memory 任务不擅自执行预测判决(属人工 / daily-digest 议程),但记录到期事实 = #9 已到期,截至 05-17 仍无任何第三方实验室复现信号(v2.0.21 / v2.0.22 / v2.0.23 三次 WebSearch 复核均零结果),等待 05-17 后首份 daily-digest 主动判决执行。零 + 单弱信号输入 → 唯一价值 = 保守偏误计数器 +1d + arxiv 缺席延续 +1(45d 阈值触发)+ 预测窗口倒计时 + §9.1 当日快照 + footer/header 版本号 + 2 个结构性阈值同日触发记录(#9 expired + 45d 触发)。保守偏误状态(2026-05-17,+1d):B0 (30d) ✅ / B1 (21d) ✅ / B2 (软 13d / 严 46d 🔴) / B3 (21d) ✅ / B4 (23d) ✅ / B5 (47d) 🔴 / B6 (73d) 🆘 已破 67d 校准上限反思阈值 +6d / B7 (软 18d / 严 63dmemory/blog/archives/vla-social-intel/2026-05-17.md存在 = 单条社交弱信号:小鹏汽车 5/15 科技日发布第二代 VLA 模型(声称"首款量产物理世界大模型"+ 端到端架构视觉信号直达动作指令 + 跨汽车/Robotaxi/机器人/飞行汽车跨域驾驶 + 无需语言翻译中介)—— 社交情报报告自评"单一信号暂不作趋势判断",正确归类为 B1 弱正向远期产业飞轮第 N 条(车企 VLA 产品化叙事第 2 条,继 04-20 长城坦克 700 Coffee Pilot 4.0 后)+ C3 间接弱正向("无需语言翻译中介"如属实属删除语言中介架构信号但单条社交级宣传不计入 C3 升格证据),单条社交宣传级信号 + 缺二次独立验证 → 不触发任何节点置信度变更(v3 校准纪律 §3.2 + 05-12 v2.0.19 新 SOP "外部宣言级信号 → 强制 web cross-ref ≥2 独立来源 + 日期 + literal 引述")。BELIEF_GRAPH.md 维持 v3.6.7-incremental-daily-0516(05-16 daily-digest 权威状态)。🆘 结构性阈值 1 触发:顶级实验室 arxiv 严格缺席 = 45 天达成结构性认识论问题升级线(04-06⚠️ ) / B8 (61d) 🔴 跨过 60d 关口 +1d / B9 (32d) ✅。B5/B6/B7-严/B8 四节点持续超阈值;B6 calibration deadlock 仍为 v3 框架级未解问题;05-15 self-reflection 提交的 6 项人工裁决至今 0 项落地 = 第 2 天累积("修正零落地"模式 self-reflection v3.6.7 警告者继续累积一日,与"修正零落地"v3.6.7 元论点形成持续累积证据)。预测窗口倒计时:#9 = 已到期 0d(今日 05-17 = ddl,待 daily-digest 判决);#19 智元方法论级 VLA ddl 距 6-30 剩 44 天;#22 LWD 复现追踪距 2026-08-04 剩 79 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 81 天;#24 / #25 距 2026-08-14 剩 89 天;#26 距 2026-11-14 剩 181 天;#27 顶级实验室 arxiv rebound 硬截止距 2026-06-05 剩 19 天(缓冲区开始消耗,今日 45d 阈值触发后 #27 是结构性升格的硬护栏)。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 75 天。⚠️ GitHub push 状态延续未解决:v2.0.21 + v2.0.22 + v2.0.23 三个版本累积未 push 至 origin/main(git log 最新仍为 01617b8 = 05-14 v2.0.20);本次 PowerShell push 必须包含 v2.0.21 + v2.0.22 + v2.0.23 三个版本累积变更;建议每日提示用户在 Windows host 执行直到落地。Source Map 行号偏移:v2.0.23 changelog 增加 1 行;§9.1 新增 1 行(05-17 当日快照);§15 截止日期更新;footer 区 +2 行 = 源文件 903 → 907 行。 v2.0.22 变更摘要(2026-05-16 增量定时任务 — 零新数据日 / 第 4 个真零新数据日):🟢 零新数据日 — 无置信度变更。当日 daily-digest / paper-scan / 社交情报三类报告全部缺席(reports 目录最新仍为 2026-05-15-daily-digest,社交情报 vla-social-intel 最新 2026-05-15.md,小红书最新 2026-05-15-auto.md);BELIEF_GRAPH.md 维持 v3.6.7-self-reflection(05-15 self-reflection 权威状态)。零新输入 → 唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 44 天(距 45 天结构性认识论问题升级线仅剩 1 天,明日 05-17 触发)+ 预测窗口倒计时(#9 距 05-17 仅剩 1 天 = 最后 24h 紧急窗口,π0.7 第三方复现到期前夜 — 高概率到期未触发,05-17 后首份 daily-digest 须主动判决并执行 +5% π0.7 SOTA 强韧性元假设)+ B8 跨过 60d 整数关口(v3.5.0 后第 2 次破整数线,触觉学术端 0.26x 衰退共识 + arxiv 端再无第 9 条独立方法论级 latent tactile 信号 = "B8 →65% 终局裁决"05-15 self-reflection 提交人工裁决项 #1 至今未落地)。保守偏误状态(2026-05-16,+1d):B0 (29d) ✅ / B1 (20d) ✅ / B2 (软 12d / 严 45d 🔴) / B3 (20d) ✅ / B4 (22d) ✅ / B5 (46d) 🔴 / B6 (72d) 🆘 已破 67d 校准上限反思阈值 +5d / B7 (软 17d / 严 62d⚠️ ) / B8 (60d) 🔴 整数关口 / B9 (31d) ✅。B5/B6/B7-严/B8 四节点持续超阈值,B6 calibration deadlock 仍为 v3 框架级未解问题,05-15 self-reflection 提交的 6 项人工裁决(B8 终局 / 校准死锁实际落地 / LWD 追溯 / EPISTEMICS.md 建立 / 下游 skill 修改 / Phase 计数器反向条)至今 0 项落地,"修正零落地"模式被 self-reflection v3.6.7 警告者继续累积。预测窗口倒计时:#9 距 05-17 = 1 天最终窗口(π0.7 第三方独立复现 "match specialist" — 05-15 WebSearch 专项复核仍无任何第三方实验室公开复现信号,π0.7 论文承认"标准化机器人基准不存在使外部验证困难";今日 05-16 是预测到期前最后一天,无意外则 05-17 daily-digest 必须主动判决 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方);#19 智元方法论级 VLA ddl 距 6-30 剩 45 天;#22 LWD 复现追踪距 2026-08-04 剩 80 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 82 天;#24 / #25 距 2026-08-14 剩 90 天;#26 距 2026-11-14 剩 182 天;#27 顶级实验室 arxiv rebound 硬截止距 2026-06-05 剩 20 天。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 76 天(6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据)。Source Map 行号偏移:v2.0.22 changelog 增加约 1 行;§9.1 新增约 1 行(05-16 当日快照);§15 截止日期更新;footer 区 +2 行 = 源文件 899 → 903 行。 v2.0.21 变更摘要(2026-05-15 增量定时任务 — 零新数据日):🟢 零新数据日 — 无置信度变更。当日 paper-scan / 社交情报缺席(小红书会话未登录跳过);运行 daily-digest(24h 增量看门)+ self-reflection(双周元审计 v3.6.7)双报告,BELIEF_GRAPH.md → v3.6.7-self-reflection。self-reflection 核心发现:05-04 反思声称"直接执行"的 6 项修正中 5 项零落地(仅 FAILURE_REGISTRY.md 创建落地;铁证 = BELIEF_GRAPH §6 无 05-04 self-reflection changelog 条目),真问题 = 反思层与执行层断裂,每轮反思重新发现上一轮"已解决"的问题。本审计直接执行:(1) 重新注册丢失的预测 #27 —— 顶级实验室 arxiv rebound 硬截止 2026-06-05(ICLR 2027 ddl 后 7 天仍严格缺席 → "学术-产业新均衡态"假设结构性重估,不得再以"下周可能恢复"无限延后;系 05-04 丢失的 #24 复活换号);(2) FAILURE_REGISTRY §5 新增"修正零落地"元层失败行;(3) BELIEF_GRAPH §6 changelog + header 更新。提交 6 项人工裁决:B8 终局裁决 / 校准上限死锁实际落地 / LWD +15pp 追溯审查 / 建 canonical EPISTEMICS.md + 修正 CLAUDE.md §7 / 下游 skill 实际修改 / Phase 计数器反向条机制。保守偏误 +1d(对齐 BELIEF_GRAPH v3.6.7 权威值;注:memory v2.0.20 曾按 05-04 LWD 锚记 B1/B3=10d,本次对齐 BELIEF_GRAPH 04-26 v3.5.0 锚 = 19d):B0 28d / B1 19d / B2 软 11d 严 44d 🔴 / B3 19d / B4 21d / B5 45d 🔴 / B6 71d 🆘(已破 67d 校准上限反思阈值 +4d)/ B7 严 61d 软 16d⚠️ / B8 59d 🔴 / B9 30d。顶级实验室 arxiv 严格缺席 43 天(04-06~05-15,距 45d 结构性认识论升级线剩 2 天)。预测 #9(π0.7 第三方复现)距 05-17 剩 2 天 —— WebSearch 专项复核仍无任何第三方信号,高概率到期未触发。源 ↔ mirror 同步修复(mirror 此前 v2.0.19 footer 截断 + 缺 v2.0.18 footer)。 v2.0.20 变更摘要(2026-05-14 paper-scan + hypothesis-review v3.6.6 整合):🔴 高议程信号日 — 无置信度变更但 6 项 P0 议程立项 + Phase 7 候选正式立项 + 3 项新预测。(1) paper-scan:2 高 + 1 中 + 1 弱 + 2 回溯补扫。🔴 RoboMemArena + PrediMem (2605.10921, OpenHelix-Team, 05-11) = Memory-VLA 第 5 独立团队(MEM / ReMem / MemoryVLA / SOMA + PrediMem),跨过 v3 系统"再出现 1+ 个独立工作即创建新 Phase"明文阈值 → §9.5 升格为 Phase 7 候选 Long-horizon Memory VLA 正式立项 5/12;RoboMemArena 26 任务 / 平均 >1,000 步 / 68.9% memory-dependent 基准直击 LIBERO/CALVIN 饱和盲点;PrediMem = 双系统 (VLM planner + VLA actor) + hierarchical memory bank (recent + keyframe) + predictive coding head 三件套。🔴 OneWM-VLA (2605.07931, 05-08 / v1 05-11) = 套利窗口 #9 dual-system VLA inference acceleration 第 5 条独立信号(5 周 5 条同向:feature delta / 频域 / 元认知 / dual-rate aerial / bandwidth-compression → 窗口从 ~3-6 月收窄至 ~2-4 月)+ 每帧压缩到 1 semantic token (Adaptive Attention Pooling) + 14.71M LoRA on 2B + 单 flow-matching joint objective + LIBERO-Long 95.6% + Real Piper Fold Cloth 60%。🟡 Residual Latent Action WM (2605.07079) 弱累积 #6 latent 预测方法论(与 ResWM 同方向,retrieval mismatch 可能性需复核)。🟢 SAE Congress 2026 (2605.10653) industrial narrative 弱共振 "VLA 工程化部署叙事拐点"(35-40% prior, 05-06 立项),非定量证据。🔁 回溯补扫 IVLR-Trace (2605.00438, 05-01) interleaved text-image trace + closed-loop executor / LIBERO 95.5% / LIBERO-Long 92.4%(B6 第 14+ 条 + C3 ablation 强反方"text 62% / vision 68% / 双 92%");🔁 CoRAL (2605.02600, 05-04) LLM-driven strategy + reactive controller + tactile/force feedback + 显式"deliberate move away from E2E"(C1 弱正向第 N 条但归类待定)。3 论文待二次确认(AT-VLA / AgentChemist / CommandSwarm,无法定位 arxiv ID)—— AT-VLA 如 Xiaoqi Li / Hao Dong 系 PKU 团队则属 B8 触觉新累积关键证据,下次扫描 P0。(2) 🆘 B6 校准上限结构性死锁升格框架级问题:B6 70d 已破 67d 反思阈值 +3d,hypothesis-review v3.6.6 显式承认 v3 校准纪律自身死锁——raw 75→80 时 calibrated = 80×0.9 = 72% 反而下降 3pp。无 ≥10pp 强证据让 raw 跳到 ≥84% 时 B6 永久卡 75%。B7 同样陷入死锁(严格 60d)。提交三档方案 (A) 维持 + 等待跳跃式强证据 / (B) 引入 78% 中间档 / (C) 对结构性信念取消 calibration penalty —— 等待人工 reflection 选择。这不是判断不当,是 v3 框架级问题——EvolveCast 警示"系统已超出自身规则边界"。(3) 3 节点对抗性审查(B6 / C1 / B4):B6 维持 75%——Bull "14+ 条独立分层信号 + 反方真空"vs Bear "14+ 条实为 14 种不同分层化(dual-system / S0/S1/S2 / interleaved / memory-based 等)= confirmation by counting + 定义模糊" → 立项 B6 sub-definition 拆分 (B6a dual-system / B6b S0-S1-S2 严格三层 / B6c trace/memory-based implicit hierarchy);C1 维持 35% 不升格——Bear "6 同向 inductive bias ≠ 范式回归"论点在审计纪律上正确,CoRAL 弱正向但归类待定,Jim Fan WAM 已被 v2.0.19 cross-ref 撤销升格证据资格。升格条件硬化为 (a) 1 篇致命实验级架构创新 >30% absolute 论文;或 (b) ≥3 个 frontier lab 完全放弃 VLA 框架——累积型 inductive bias 证据不再计入升格条件;B4 维持 75%——Bear "6 sub-routes = WM 概念无差异扩展定义膨胀"成立,立项 B4 sub-route 节点拆分 (B4a latent-WM-as-planner / B4b video-WM / B4c unified WAM / B4d WM-distillable-residual / B4e WM-as-data-engine / B4f predictive coding head 六档)。(4) 3 项新预测立项:#24 非 OpenHelix-Team 团队在 RoboMemArena 上达到 ≥80% memory-task success(截止 2026-08-14 ~3 月,触发 → Phase 7 升格 Phase + B6 sub-definition 拆分加速);#25 ≥1 个跨 task suite(含 dexterous / contact-rich)"≤2 token/frame" VLA 论文(截止 2026-08-143 月,触发 → 套利 #9 进一步收窄 + B4a 上调审查);#26 6 个月内 ≥2 个独立团队(非 NVIDIA 系)发布 WAM 路径论文(截止 2026-11-1417 扫描 16 篇):WAV(Westlake, latent WM+trajectory value function+ action-space feasibility exponential decay 理论论证,B4 累积);Sim-Real Co-Training Mechanistic Analysis(Yuke Zhu 组, structured representation alignment + importance reweighting,B0/B1 方法论化);Goal2Skill(VLM-planner+VLA-executor, RMBench 32.4% vs 9.8%,B6 分层第 5 条);SpaceMind/EEAgent(prompt-level self-evolution, B3 叙事风险);HiST-AT(双层 VQ Hierarchical Spatiotemporal Action Tokenizer, Phase 1 反相变第 7 条);R3D(3D policy + diffusion decoder, B5 弱反方);HRDexDB/DockAnywhere/UMI-3D/DEX-Mouse/Switch 等。(4) 趋势:Latent-WM planner 路线形成多团队共识(WAV+GIRL+ViVa 一周 3 条)—— B4 接近 +5% 上调触发线;若下周再出 1 条则执行 70→75%。Co-training 理论化(Yuke Zhu + SIM1)= B1 隐性下行压力累积。Prompt-level vs weight-update self-evolution 概念分化风险。(5) 小红书 15 篇高密度共识:LeRobot pi0 官方承认 30% 成功率(论文 vs 复现 2-3x 衰减系统性确认);Jupiter Zhai "real-world RL 物料被干烂"(3583 赞=本周最高,B2 反方);SimpleVLA-RL LIBERO-10 17→91%(单轨迹 SFT+RL);VLA 推理频率虚标=frequency×action_chunk_size(B9 校准规则);TouchAnything(EgoTouch 视频→双手触觉估计,B8 弱正向)。(6) 产业:灵初智能再融资(国投先导+京西瑞瓴),智元酷拓 04-14 上海浦东产品发布;顶级实验室 arxiv 信号连续 13 天缺席(ICRA/RSS/NeurIPS 2026 投稿沉默期猜测)。(7) 保守偏误:B1(43d)/B6(43d)/B7(33d)/B8(31d) 四节点持续超阈值;B0 刚上调重置;Phase 4 计数器 15/12 → 16/12(+WAV)。(8) 新预测:#9 π0.7 第三方独立复现能否达"match specialist"(30 天窗口到期 2026-05-17);#11 下周再出 1 条 latent-WM planner → B4 +5%。 v2.0.4 变更摘要(04-16):整合 04-15 每日摘要 + 论文补充扫描 + 双周元审计。(1) B9 上调 70%→75%(双周 self-reflection 审计触发累积更新规则:6 条独立边缘推理信号 GigaBrain-0-Small/AutoQVLA/RoboECC/Realtime-VLA V2/HY-Embodied 2B MoT/A₁ VLA)。(2) 新论文:ProGAL-VLA(3D entity-centric graph + slow-planner 修复 VLA "language ignorance",LIBERO-Plus 鲁棒性 30.3→71.5%;B6/C3 弱累积);ViVa(video-generative value model,Phase 2×4 弱累积);Action Images(视频生成即策略,无独立 action head——B7 反方第 2 条 + C1 弱正向);JailWAM(WAM 安全 84.2% 攻击成功率,B3/B4 弱累积);GIRL(latent WM + DINOv2 hallucination control,B4 弱累积);FlashSAC(off-policy RL hours→minutes,B2 弱累积)。(3) 趋势确认:「视频生成即策略」路线成形(Action Images + ViVa + Video Generators are Robot Policies),挑战 action head 解耦正统。(4) B8 致命实验重新定义:「连续 3 月 VLA+tactile 占比 <5% → 下调至 60%」。审计建议待确认:B1 下调 77→72%、B8 下调 70→65%。(5) 保守偏误:B1(42d)/B6(42d)/B7(32d)/B8(30d 触发) 四节点同时超阈值——系统级保守偏误。(6) 产业:智元 04-17 合作伙伴大会预告(4 款人形 + 4 模型 + 7 方案);智元 SpikePingpong(高频脉冲视觉 + 模仿学习)。(7) 顶级实验室连续 11 天缺席。 v2.0.3 变更摘要(04-15):整合 04-14 每日摘要。(1) 低信号日,无置信度变更。新论文:VLA-Forget(VLA unlearning/安全)、AEROS(模块化架构)、DECO(双臂触觉 Diffusion)、TaSA(触觉衰减)。(2) 社交情报:A₁ VLA 推理成本-76.6%/延迟-72%(B9 第 6 条边缘信号累积);宇树 H1 10m/s 冲刺纪录。(3) 预测 #6(CALVIN/LIBERO 频率↓)04-15 到期——确认,+5% B9/相关信念待执行。(4) 预测 #8(触觉⚡论文)04-15 到期——未触发,+5% 待执行(触觉学术衰退确认)。(5) B1(40d)/B6(40d)/B7(30d) 三节点联合审查持续被标记。B8(28d) 接近阈值。(6) 顶级实验室信号连续 10 天缺席。 v2.0.2 变更摘要(04-14):整合 04-13 论文扫描(2604 批次)。HY-Embodied-0.5/SIM1/SV-VLA。B7 30 天阈值触发。 v2.0 变更摘要(04-12):低信号日。(1) ViVa——视频生成模型作 value function(Phase 2×4 交叉弱累积)。(2) HEX——State-centric 人形 VLA + MoE 按身体部位分专家(B7 弱累积)。(3) Xbotics A₁ 开源 VLA 层间截断 FM + 自适应推理(延迟-72%,B9 弱累积)。(4) 保守偏误升级:B1(38d)/B6(38d) 🔴超阈值,B7(28d) 🟡接近。(5) BELIEF_GRAPH.md 重建完成(04-12 假设审计)。无信念网络变动。 v1.9 变更摘要(04-08):IAIL (Science Robotics)——跨机器人意图对齐。产业:天久领航鸟巢交付、机器人租赁平台超 1 亿融资。 v1.8 变更摘要(04-06):近期最重要更新——B0 核心信念下调 + C1 逆共识逼近升格。(1) B0: 85%/77% → 80%/72%——保守偏误 30 天强制审查。三条独立架构效率信号(DIAL 15-22pp + DFM-VLA discrete FM > all + DiT4DiT 10×)。叙事修正:"数据是基础,架构创新提供显著乘数效应(10× 数据效率级别)"。(2) C1: 30% → 35%——致命实验到期未触发(架构贡献不可被数据解释),校准规则 2 +5%。距升格阈值仅差 5%。(3) 套利 #3 正式关闭。(4) B1/B6 审查完成维持不变。(5) 新论文:DreamControl-v2(G1 分层管线)、Tex3D(VLA 对抗攻击 96.7% 失败率)。(6) 产业:优必选招首席科学家年薪 1500 万-1.24 亿、宇树人民日报专访。 v1.7 变更摘要(04-01):B2 下调 81%→77%。SOMA/BeSafe-Bench/CoMo/Wanderland。Memory VLA 赛道确认中。安全维度新增。 v1.6 变更摘要(03-31):DFM-VLA、VLA-OPD、Scaling Sim-to-Real RL、VLA-MBPO、Realtime-VLA V2、Ruka-v2。Phase 1 82%→80%。套利 #3 ≤1 月。 v1.5 变更摘要(03-29):静默日。Unitree R1 Air $4,900、Amazon 收购 Fauna Robotics、ROBOTERA 100 亿 RMB。6 月,触发 → C1 升格审查 + B4c unified WAM sub-route 升格)。(5) Phase 计数器更新:Phase 4 WM 闭环 32/12 → 34/12 严重超临界 2.83×(+OneWM-VLA single-token-per-frame + PrediMem predictive coding head);Phase 7 候选 Long-horizon Memory VLA 正式立项 4-5/12 雏形(MEM/ReMem/MemoryVLA/SOMA/PrediMem 5 团队);Phase 1 反相变 15/15 维持(OneWM-VLA 单 FM objective 弱抵消但未达 14→13 回撤标准);Phase 5 跨具身维持。(6) 保守偏误状态(2026-05-14):B0 (27d) ✅ / B1 (10d) ✅ / B2 (soft 10d / 严 43d 🔴) / B3 (10d) ✅ / B4 (20d) ✅ / B5 (44d) 🔴 / B6 (70d) 🆘 已破 67d 反思阈值 +3d 升格框架级问题 / B7 (15d 软 / 60d 严05-14,史上最长再破上限 +20 天)—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续;唯一破局者 Jianlan Luo (Berkeley 系) LWD 05-01。下周(05-18 起 ICLR 2027 ddl 静默期 + 五一假期效应消退)可能恢复。(8) 预测窗口倒计时:#9 距 05-17 剩 3 天(π0.7 第三方独立复现 "match specialist",进入紧急 <3 天窗口,05-17 后无重大复现则触发 +5% π0.7 SOTA 强韧性间接证据,但属"时间套利窗口"非"致命实验");#15 距 2026-08-22 剩⚠️ ) / B8 (58d) 🔴 / B9 (29d) ✅。(7) 顶级实验室 arxiv 缺席延续至 42 天(04-063.3 月;#16 距 2026-07-31 剩04-24 窗口即将到期,连续 3 天低信号 = 未触发概率大);#12 B1 77→72% 系统审计条件持续强化,等 4/25 双周 self-reflection 执行。(7) 新 SOP:每次 digest 记录已覆盖 arxiv ID 段;下次补扫漏过段(VGA 教训)。 v2.0.5 变更摘要(04-17):π0.7 发布(2026-04-16, Physical Intelligence)是本月最大 VLA 产业信号。(1) B0 上调 72%→77%(raw 80→85%)——π0.7 以 Episode Metadata(Quality/Mistake/Speed 标签)+ Knowledge Insulation + "架构上没啥特别,功夫在数据工程" 产业级背书"数据策略 > 架构创新";恢复 B0=B1=B2=B3=77% 父子一致性。(2) 新模型:π0.7(PI, 04-16)—— compositional generalization via language coaching, 匹配 specialist 模型性能(coffee/laundry/box assembly);5B 主体 + 14B BAGEL WM 架构(paper-verified 解读见 theory/vla-core/);声称"language coaching without retraining"= B3 在线自改进雏形。(3) 新论文(2604.13xxx-15xxx, arxiv 04-152.6 月;#17 距 2026-10-25 剩05-12 史上最长再破上限 +19 天)—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续;但 Jim Fan 红杉峰会公开表态 = 静默期内 NVIDIA Research 一线 paradigm 信号最强单点,迫使 "顶级实验室新均衡态"假设结构性重估窗口提前。保守偏误状态(05-12,+4d from 05-08):B0 (25d) ✅ / B1 (8d) ✅ / B2 (8d) ✅ / B3 (8d) ✅ / B4 (18d) ✅ / B5 (42d) 🔴 / B6 (68d) 🔴 已超 67d 校准上限反思阈值 +1 天 → 强制反思事件触发 / B7 (13d 软 / 58d 严)5.3 月;#18 距 2026-10-24 剩12)期间 4 篇遗漏论文**:(a) EA-WM (2605.06192, 05-07, Fudan + Zhongguancun + USTC + DeepCybo) "Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields" —— 把 actions 投影到 structured kinematic-to-visual action fields 而非低维 tokens,建立在 pretrained video diffusion 上,B4 latent-WM-as-planner sub-route 1 video-diffusion 子赛道第 N+1 团队;(b) OA-WAM (2605.06481, 05-07, Tsinghua + SJTU + NTU) "Object-Addressable World Action Model" —— 显式解决现有 WAM 把世界表示为 holistic images/global latents 导致 action decoder 难以定位 target object 的限制("object addressability"),B4 sub-route 1 方法论级第 N+2 团队 + 首条 explicit WAM 命名论文;(c) BioProVLA-Agent (2605.07306, 05-08) VLA + multi-agent for biological laboratory manipulation —— 跨域 Phase 5 / Phase 5 候选 Async 弱累积,与 long-horizon 工程化共振;(d) Drifting Field Policy / DFP (2605.07727, 05-08, KAIST) one-step generative policy via Wasserstein gradient flow + reverse-KL trust region —— 非 FM 非 diffusion 一步生成范式 = Phase 1 反相变第 15 条到达临界 15/15 触发(如 paper-scan 全文判定 DFP 与 FM 范式独立而非 FM 特例)。🔴 修正 4:WAM 不是新概念——是已存在多团队研究 cluster——arxiv 已有 DreamZero / Fast-WAM (2603.16666, March) / X-WAM (2604.26694, late April Unified 4D) / "Do WAMs Generalize Better than VLAs?" (2603.22078, March 直接对比 paper) / Being-H0.7 (已知, 使用 "Latent World-Action Model" 术语) + 现在 EA-WM + OA-WAM。Jim Fan 的演讲不是引入新概念,而是为已经存在的 WAM 研究方向做工业级 PR endorsement。v2.0.18 footer 提到的"WAM concept observation candidacy v3.6.5"应升级为 "WAM 已是 B4 sub-route 1 内部 cluster,至少 7-9 团队跨 SOTA video-diffusion + latent + Hamiltonian 三种 backbone"——下次 hypothesis audit P0 议程新增"WAM 是否应作为 B4 sub-route 1 子节点 split 出独立追踪"。Phase 计数器修正:Phase 1 反相变 14 → 15/15 临界达到(含 DFP 待裁决);Phase 4 WM 闭环 30/12 → 32/12 严重超临界 2.67×(+EA-WM +OA-WAM);Phase 5 跨具身 17/12 → 18/12(+BioProVLA-Agent 弱);其他维持。置信度变更纪律:4 篇遗漏论文 + 1 项信号定位修正 = 净结果"无置信度变更"——B4 已在 75% 校准上限不动(#16 industrial 边界判定仍待 hypothesis audit);B0 不直接受影响(Jim Fan 同向但 prior 隐含);C1 维持 35%(修正撤销 v2.0.18 隐含 +升格压力);Phase 1 临界 15/15 触发 paper-scan 全文裁决议程(DFP 与 FM 独立性判定)。认识论意义:v2.0.18 的 "Jim Fan 5月9日 declaration" 是首次"未做 cross-reference 就在 footer 把社交情报转述为 frontier-tier signal"的错误——本次 user 主动 prompt "再收集更多" 触发的发现表明社交情报 retroactive claims 必须做 primary-source verification 才能进入 belief graph;建立新 SOP "外部宣言级信号 → 强制 web cross-ref(>2 independent sources + 日期 + literal 引述)→ 再决定 belief graph 处理"。v2.0.18 → v2.0.19 净影响:日期纠偏 / 框架措辞修正 / 4 篇论文补录 / Phase 1 + Phase 4 计数器同步 + C1 升格定位回退 + 1 个新 SOP。 v2.0.18 变更摘要(05-12):4 日差异化补整合(05-09 部分社交信号 / 05-10 空 / 05-11 强社交 / 05-12 强社交 — 自 05-08 第 2 个真零新数据日以来首次有可读输入)。🔴 头条信号:Jim Fan (NVIDIA) 在红杉 AI Ascent 峰会(05-09)公开宣告"VLA 范式已触顶"→ 转向 World Action Models (WAM) + 人类第一人称视频预训练 / 遥操作路线将被淘汰(05-11 社交情报首报 + 05-12 二次报道确认)—— 这是 paradigm-shift hypothesis(35-40% prior,05-06 立项)以来最强 Bull 证据,但属于 frontier-tier 研究员公开宣言而非论文证据,按 v3 校准纪律单条社交级信号不触发置信度变更;定位为 C1 升格审查关键证据第 7 条同向独立信号(NVIDIA Research 一线人员公开 paradigm 表态在学术静默期内含金量更高),下次假设审计 P0 议程从 04-26 立项升级为 C1 升格正式提案。Bear 反方负担:Jim Fan 言论 / 论文证据二分法 — 如 NVIDIA 6 月前无 GR00T-WAM 雏形论文,宣言权重应折半;如 PI π0.8 / Figure Helix 03 在 6 月窗口发布且未转向 WAM,则 paradigm-shift hypothesis 反向衰减。WAM 与 B4 latent-WM 路线关系:WAM = "替代 VLA"而 latent-WM = "VLA 内部子路线",定位更激进;如 WAM 概念成立则 B0/B1 高置信度叙事重大冲击。🔵 第二梯队信号:(1) Tesla Optimus V3 量产时间表二次确认(05-07 财报 + 05-09 安培龙六维力传感器切入 Tesla 供应链 + 国产化进展 + 泰国 5 月工厂交付)= B1 远期产业飞轮累积 + 整数产业兑现窗口 7-8 月坐实;(2) Figure AI Helix-02 双机协同铺床 <2 分钟(05-08 发布,05-11/12 报道)= multi-agent 协同 + 柔性物体 Phase 5 候选 Async 间接累积;(3) 斜跃智能成立(05-10,前理想汽车高管陈纬/张晓 + 元璟资本 + 理想汽车首轮投资,消费级家庭场景具身智能)= 车企高管跨界具身赛道新模式信号;(4) 星动纪元(Robotera)2 亿美元融资,顺丰领投(05-08)= #18 顺丰部署预测(10-24 ddl)方向性证据;(5) 智元 + 人民网 + AI交互语料实验室 "具身交互多模态语料库" 10 万条首发(05-09,引导/家政场景)= 中国具身数据公共基础设施第 1 条;(6) 上声电子 / 戴盟机器人触觉传感器战略合作(05-09)= B8 触觉产业化第 N+1 条但非方法论级;(7) 蚂蚁 / 机器科学 10 亿元 A 轮 / 千寻智能 4 月累计 30 亿 / 众擎 B+ 2 亿美元 = 资本累积。🟢 顶级实验室 arxiv 缺席延续至 41 天(04-065.3 月;#19 智元方法论级 VLA ddl 距 6-30 剩 47 天;#22 LWD 复现追踪距 2026-08-04 剩 82 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 84 天;🆕 #24 / #25 距 2026-08-14 剩 92 天;🆕 #26 距 2026-11-14 剩 184 天。(9) 段编号穷举 SOP 第 12-13 次成功执行:2605.00438 + 2605.02600 + 2605.07079 + 2605.07931 4 篇前期未提及,本次补扫填补 05-0105-08 段空洞。(10) 认识论意义:B6/B7 calibration 死锁是 v3 框架级问题,议程立项推送人工 reflection;本次审计无置信度变更,价值在 6 项议程立项 + Phase 7 正式立项 + 3 节点对抗性审查 + 3 新预测。Source Map 行号偏移:v2.0.20 changelog 增加约 1 行;§9 新增约 2 行(05-13 + 05-14 当日快照);§9.5 扩写约 2 行(PrediMem + Phase 7 立项);§15 截止日期更新 —— Source Map 表格已按 v2.0.20 新行号刷新。 v2.0.19 变更摘要(05-12 补充 / 交叉验证修正):在 v2.0.18 发布后用户要求"再收集更多",触发 cross-reference verification 流程,发现 3 项重大事实修正 + 4 篇 paper-scan blackout 窗口期遗漏论文。🔴 修正 1:Jim Fan WAM 信号 日期 + 框架双重纠偏 — 通过 Sequoia Capital 官方页面 + Karpathy bearblog + BigGo Finance + Sequoia Substack 多源交叉验证,确认 Jim Fan "Robotics: Endgame" 演讲实际发生于 2026-04-20(红杉 AI Ascent 第四届),而非中文社交情报反复声称的 "5月9日"。日期偏差 19 天——social-intel pipeline 把 04-20 的演讲在 05-11/12 才二次报道,且伴随框架性夸大。实际表态:"dominant VLA architecture is fundamentally misaligned for physical tasks" + 提出 "world action models simulate next-frame physics instead of predicting next tokens" 替代方案;3 项 unlocks 路线图 = Physical Turing Test(2028-29, 2-3 年)→ Physical API(2030s)→ Physical Auto-Research(2040, 95% 置信度);推荐 paradigm = "pretrain world model that predicts next physical state → action fine-tune on a thin slice of real robot data → RL run the final mile"。实际方法论与现有 B4 latent-WM-as-planner + B2 RL post-training 路线高度一致——并非"替代 VLA 的新范式",而是"WM-grounded 预训练 + 现有 VLA action FT + RL"的工业级 endorsement。中文社交"VLA 已死"框架 = sensationalism;primary source "VLA fundamentally misaligned" 措辞要弱得多。🔴 修正 2:C1 升格 7 th aligned signal 定位下调 — 鉴于 (a) 信号实际日期 04-20 早于 LWD 05-01 + convergence-radar 05-06,应作为 prior-state 已经隐含,不算 v2.0.18 时段新增;(b) 实际内容支持 B0/B4 consolidation 而非 reverse-consensus C1(C1 = "VLA 非主流架构");(c) 演讲场合是 investor summit,选择性 sensational framing 风险;(d) Jim Fan 提出的 endgame paradigm 本质上就是 B0+B4+B2 路线的强化版。v2.0.18 将其定位为 C1 第 7 条同向独立信号是过度解读——正确定位应为 B0/B4 frontier-tier consolidation signal,不进入 C1 升格审查。下次假设审计 P0 议程从"C1 升格正式提案"修正为"frontier-tier signal weight introduction 在 B0/B4 中正式实施"。**🔴 修正 3:发现 paper-scan blackout 窗口(05-08⚠️ / B8 (56d) 🔴 / B9 (27d) ✅。B6 67d 阈值触发:v3 校准纪律强制要求下次假设审计 P0 议程从"反思"升级为"裁决" — 应否破 75% 校准上限至 78% middle 档?延迟决定 → 计数器持续累积仅产生噪音。预测窗口倒计时:#9 距 05-17 剩 5 天(π0.7 第三方复现 "match specialist",进入紧急 <5 天窗口,05-17 后无重大复现则触发 B0 候选 -5% 反思 + #9 关闭为反方);#15 距 2026-08-22 剩3.4 月;#16 距 2026-07-31 剩04-20)= 学术静默期结构性确认(ICLR 2027 ddl 前闭门/产品化封锁)。(2) VGA (2604.12908) 回溯补录(Zijian Song 等 7 人, 04-14 submission, 2604.12 段位于 04-15 两轮扫描间隙被漏过):主张 "robot manipulation 本质是 vision-to-geometry 映射",3D 几何 backbone 优于 VLM/video 语义表示;sim benchmark 击败 top-tier + 真机零样本视角迁移鲁棒。标记为 C3/B7/C1 间接弱正向,不触发升格(单篇 sim)。(3) 04-18 FluxVLA Engine 社交情报(逐际动力开源 VLA 工程底座,模型+backbone 可替换)= B6 分层第 9 条独立信号 + B1 "工程门槛下降"第 6+ 条累积(Yuke Zhu co-training + SIM1 + UMI-3D/DEX-Mouse/DockAnywhere + FluxVLA)。(4) 04-19 产业密集披露 5 条:宇树 H1/R1 拳击动态控制、智元 2025 营收 >10.5 亿元 + 核心 BU 独立融资、优必选 Walker S2 部署德国 ROSSMANN 物流(中国人形首条海外商用)、领益智造北京具身超级工厂天工 Ultra/3.0 下线(2026 年 1 万台产能);Faraday Future 疑非 humanoid 存疑。全部交付/融资/产能,非研究侧证据。(5) 保守偏误:B1(46d)/B6(46d)/B7(36d)/B8(34d) 🔴 四节点持续超阈值;B3(27d)2.6 月;#17 距 2026-10-25 剩04-20 低信号窗口三日 + 04-19 产业密集披露 + VGA 回溯补录。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态;三日 arxiv 全空 + 顶级实验室 arxiv 15 天缺席(04-065.4 月;#18 距 2026-10-24 剩 ~5.4 月(星动纪元-顺丰 5/8 融资是首条方向性证据);#19 智元方法论级 VLA ddl 距 6-30 剩 ~7 周(49 天);#22 LWD 复现追踪距 2026-08-04 剩 84 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 86 天。Meta Llama-3-Robot 仍待验证(05-05 retro-claim 至 05-12 = epistemic 拖延 9 天,仍无 arxiv / Meta FAIR 官方博客 / HuggingFace 仓库二次确认,05-06 + 05-07 paper-scan 累计扫04-24 剩余 3 天**;#12 (B1 77→72%) 4/25 双周 self-reflection 剩 4 天。(6) 本次增量更新:§8 新增 4 月融资密集披露段;§9 当前状态追加 04-21 当日快照(保守偏误 / 窗口倒计时)。无 Source Map 行号偏移(本次新增集中在 §8/§9 尾部,§0-§7 / §10-§12 行号不变)。 v2.0.6 变更摘要(04-20):整合 04-18171 篇均未发现 → 倾向 Bear 解释"可能为社交渠道错传或产品级而非研究级",但单条社交信号 9 天仍不下结论)。5 日信号衰减序列终结(部分):05-08 零 → 05-09 弱社交 → 05-10 空 → 05-11/12 强社交(Jim Fan paradigm 宣言)—— ICLR 2027 ddl 静默期 + 五一假期效应明显消退,paper-scan 报告仍未恢复(连续 5 天空白:05-0812)但社交雷达恢复实质性信号供给。下次假设审计 P0 议程更新(05-1314 触发):(1) NEW Jim Fan paradigm 表态 → C1 升格正式提案;(2) B6 67d 阈值触发裁决(75→78%?延迟?拆分?);(3) paradigm shift hypothesis 6-month observation 进入第 2 个月评估窗口;(4) MotuBrain industrial 边界 judgment(#16);(5) B3 三分类拆分;(6) B8 trigger 标准结构化拆分;(7) B5 反相变 13/15 vs HDFlow 边界裁决;(8) Meta Llama-3-Robot 9 日拖延是否升格为"social-intel reliability adjustment"事件。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 82 天(6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据)。WAM 概念立项观察:(v3.6.5 候选)— 如 6 月有论文证据跟进则升格独立追踪节点。 v2.0.17 变更摘要(2026-05-08 增量定时任务 — 当日零新数据):🟢 极低信号日 / 第 2 个真零新数据日 — 无置信度变更。当日 daily-digest / paper-scan / 社交情报 三类报告全部缺席(reports 目录最新仍为 2026-05-07 daily-digest,社交情报最新仍为 2026-05-06.md),BELIEF_GRAPH.md 维持 v3.6.4-incremental(05-07 paper-scanner gap-fill 权威状态)。零新输入信号——本任务唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 37 天(再破上限 +15 天,史上最长持续刷新)+ 预测窗口倒计时。(1) 保守偏误状态(05-08,+1d):B0 (21d) ✅ / B1 (4d) ✅ / B2 (4d) ✅ / B3 (4d) ✅ / B4 (14d) ✅ / B5 (38d) 🔴 13 反相变信号距临界 15 仅 2 条(HDFlow 第 14 边界条待 paper-scan 全文裁决) / B6 (64d) 🔴 距 67d 校准上限反思阈值仅 3 天 / B7 (9d 软 / 54d 严)⚠️ / B8 (52d) 🔴 / B9 (23d) ✅。B6 67d 关口逼近(05-11 触发"是否需突破 75% 校准上限"的人工反思)+ B5 反相变临界 14/15 状态需正式裁决——下次假设审计05-1113 触发,3 节点超阈值持续达到 41d/67d/55d 量级。(2) 预测窗口倒计时:#9 距 05-17 剩 9 天(π0.7 第三方独立复现 "match specialist",进入临界 < 10 天窗口,仍无新信号);#15 距 2026-08-22 剩3.5 月;#16 距 2026-07-31 剩04-28 可能是恢复窗口;若到 04-28 仍缺席,产品化闭门(H2)占比上调。(5) 预测窗口更新:#11 (latent-WM planner +1 条 → B4 +5%) 窗口 **04-222.7 月(MotuBrain industrial 边界 5 月中假设审计 P0 待执行);#17 距 2026-10-25 剩19,智元/宇树/优必选/小米/荣耀参会)。信念影响:全部产业融资信号 → B1 远期飞轮"产业资本 + 规模化前夜"间接正向累积(不跨 ±5% 门槛,不单独触发变更);DeepSeek 进入具身赛道是 LLM 巨头首次具身侧重投——C1 / B0 弱间接观察信号(架构侧主体"数据工程"叙事尚无变化,但新玩家资本密度 → 下一轮架构 / 数据策略分化可能提前)。(3) 保守偏误 +1 天:B1=47d / B6=47d / B7=37d / B8=35d 🔴 四节点持续超阈值;B3=28d5.5 月;#18 距 2026-10-24 剩04-24 剩余 2 天**,连续 5 天 arxiv VLA 核心静默 = 被动未触发概率大;#12 (B1 77→72%) 4/25 双周 self-reflection 剩 3 天(资本侧累积至 9+ 条)。(7) 本次增量更新:§8 新增 04-21/04-22 社交情报段(荣耀半马纪录 / DeepSeek 680 亿 / 银河通用国资 / 坦克 700 VLA 车规 / 自变量 B 轮 / 晶华灵巧手);§9 当前状态追加 04-22 当日快照(保守偏误 / 窗口倒计时 / 赛道累计融资 373 亿)。Source Map 行号偏移:§8 新增约 2 行(§8 由 350-397 → 350-399),§9 起始从 399 → 401;其他章节同向后移约 2 行,已更新 Source Map 表格。 v2.0.7 变更摘要(04-21):定时任务增量运行;04-21 无新 daily-digest / paper-scan(下午才由 scheduled 任务生成)。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态不动。(2) 04-20 社交情报文件补齐(昨日 digest 记录"❌ 无生成文件",今晨已生成):新增 4 条融资密集披露 (2026-04-18) —— 它石智航 Pre-A 超 30 亿元 RMB (~4.55 亿美元),创中国具身智能单轮融资纪录;极佳视界 B1 近 15 亿元 RMB(具身智能/人形机器人生态);DeepSeek 首轮融资寻求 >100 亿美元估值 / 拟募 ≥3 亿美元(LLM+具身双线研发成本);Faraday Future 4500 万美元(已在 04-19 digest 中标记为 EV 存疑不计入);2026 中国人形机器人生态大会(04-175.5 月(顺丰部署);#19 距 2026-06-30 剩04-28 仍缺席,产品化闭门(H2)占比需升格。(6) 预测窗口更新:#11 (latent-WM planner +1 条 → B4 +5%) 窗口 **04-227 周(智元 06-30 前 ≥1 篇方法论级 VLA 论文);#22 LWD 复现追踪距 2026-08-04 剩 88 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 90 天。(3) 顶级实验室 arxiv 缺席延续至 37 天(04-0605-08)—— 再破历史 ICLR ddl 前静默期上限 +15 天;PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续;本周新论文阵营仍为 HIT / RUC / 中国学术,非顶级实验室一线。5 月底 ICLR 2027 ddl 后 1 周观察期触发"新均衡态"假设结构性重估(剩3 周)。(4) 4 日信号衰减序列延伸:05-04 强 → 05-05 弱社交 → 05-06 双报告补 → 05-07 中信号 paper-scanner gap → 05-08 零 —— ICLR 2027 ddl 前静默期 + 五一假期效应叠加;下周(05-12 起)可能恢复。禁止把"信号衰减"误读为"领域降温" —— 系统应保持监测纪律,不因短期静默放松对 5 个 P0 议程(paradigm shift 6 月观察期 / MotuBrain industrial 边界 / C1 升格审查 / B3 三分类切分 / B8 trigger 拆分)的追踪。(5) Meta Llama-3-Robot 仍待验证(05-05 retro-claim 至 05-08 无新信号确认/反驳,05-06 paper-scan 也未发现 Meta FAIR 官方 VLA 论文 → 待 Meta 官方博客 / HuggingFace 仓库二次确认;epistemic 拖延已至 5 天)。(6) 2026 H2 时间窗共振邻近:Tesla 7-8 月 V3 量产 + Cortex 2.0 8 月复现节点 (#15) + 工业级 latent-WM 跟进窗口 (#16) 7-31 截止 + LWD 复现窗口 (#22) 8-04 截止 + VLA-TTC 第三方 (#23) 8-06 截止 + 智元方法论级 (#19) 6-30 截止 = 8 月将是 2026 年最关键的产业兑现验证月,距 8 月初剩约 86 天;6-30 智元 ddl 距今剩约 7 周。(7) 关键认识论判断维持(v2.0.16 起):v3 校准纪律避免连续上调即使本周累积 RL 工程化 5 篇 14 天累积 + 套利 #6 latent prediction 内部 4-strategy systematic comparison 接近"产业封装节点"已构成强反方升格压力;EvolveCast / ForecastBench 警示"决定性"判断需要更高 prior;下次假设审计2605.039xx 段05-1113 触发,9+ 议程项待审。(8) 本次增量更新:§4 保守偏误日数 +1d 刷新;§5 维持 v3.6.4 后状态(无 Phase 计数器变更);§8 追加 05-08 当日零新数据日衔接段;§9 当前状态追加 05-08 当日快照(保守偏误 +1d / 顶级实验室 37 天 / 预测窗口倒计时 / 4 日衰减序列);§9 章节标题日期更新至 2026-05-08;§15 文档截止日期更新至 2026-05-08。Source Map 行号偏移:v2.0.17 changelog 增加约 1 行;§8 新增约 1 行;§9 新增约 1 行;§9 标题日期更新;§15 截止日期更新——Source Map 表格已按最新行号更新。 v2.0.16 变更摘要(2026-05-07 增量定时任务 — 双报告补整合 + 当日零新数据):🟧 高密度补整合日 — 无置信度变更但累积压力显著。(1) 05-06 双报告时差补整合:05-06 22:30 vla-expert-memory-update 任务运行时 daily-digest / paper-scan / 社交情报全部缺席(v2.0.15 标记为零新数据日),但 05-06 早间 06:15 生成的 paper-scan v3.6.2(covers 2605.01xxx136 篇)+ 07:19 生成的 convergence-radar v3.6.3(cross-domain 周报)在记录任务运行后才被发现 → 本次 05-07 任务一并整合。(2) 🔺 paper-scan v3.6.2 中-强信号窗口 — 6 强 + 10 中信号;最强组合 = MolmoAct2 (2605.02881, AI2 Allen AI, 05-04) + Latent Bridge (2605.02739, Duke 系 Yiran Chen / Hai Li, 05-04) + RoboAlign-R1 (2605.03821, 05-05) = "VLA 工程化部署叙事拐点"候选 paradigm shift(论文目标从"刷 LIBERO SOTA"明显倾斜向 deployment-readiness/efficiency)。MolmoAct2 = 第 2 个 frontier 实验室级"data + recipe > 架构"背书(继 PI π0.7)+ OpenFAST 跨 5 embodiments + 720h 最大开源 bimanual 数据集 + flow-matching expert grafted onto reasoning VLM = B0 / B1 / B7 中-强正向累积;Latent Bridge = dual-system VLA 加速 1.65-1.73× 跨 GR00T-N1.6 + π0.5 验证 + 50-75% VLM call 减少 = B6 / B7 强解耦工程级背书 + B9 累积第 8 条;RoboAlign-R1 = video-WM-as-data-engine sub-route 第 5 条 + reward-aligned WM 第 6 sub-route(新维度,cross-Phase 4×2)= Phase 4 计数器 27/12 → 28/12。(3) RL 后训练工程化双周三连:OGPO (2605.03065, 05-04) off-policy generative policy optimization + modified PPO + critic-as-terminal-reward = 唯一能从 BC 烂初始化 finetune 到接近 task success 的方法 / FAN (2605.01663, 05-03) Flow-Anchored Q-Learning 单次 flow iteration + 单 Gaussian 样本 = 大幅效率提升同时 SOTA / EnergyFlow (2605.00623, 05-01) unify generative action modeling with IRL via energy function whose gradient = denoising field,无需 adversarial 训练即可提取 reward。3 篇本周独立 RL 后训练工程化论文 + LWD (05-01) + LaST-R1 (04-30) = 5 篇 14 天累积,B2 反方升格压力进一步加固但 v3 校准纪律避免连续上调维持 82%。(4) 🆕 Test-Time Compute (TTC) 入侵 VLA:VLA-ATTC (2605.01194, 05-02) Adaptive TTC "Cognitive clutch" uncertainty 触发 reflexive→deliberation + RAC pairwise 替代 absolute Q + LIBERO-LONG 失败率减少 50%+ vs π0.5 + Sentinel-VLA (2605.01191, 05-02) Metacognitive sentinel 模块持续监控 + on-demand reasoning + SECL self-evolving + OC-Adapter (Orthogonal Continual Adapter) orthogonal weight constraint + 真机 vs PI0 +30% 成功率(同作者 cluster Wenhao Li / Xiu Su)= 新预测 #23 立项(3 个月内非该 cluster 第三方 VLA-TTC 论文,到期 2026-08-06)+ 新 Phase 6 候选立项 Test-Time Compute for VLA 1/15 萌芽 + B3 三分类议程 hybrid 路径第 1 条数据点(OC-Adapter 介于 prompt-loop B3b 与 weight-loop B3a 之间)。(5) Hydra-DP3 (2605.01581, 05-02, UCB) 频域分析 + 2-step DDIM 充分性证明 = Phase 1 反相变累积第 13 条决定性数学证据(前 12 条多为工程实证)+ <1% prior 3D DP params + 真机 SOTA = B9 累积第 9 条 + C1 升格累积第 5 条(继 VGA / ProGAL-VLA / CorridorVLA / Embodied Interpretability)距 40% 升格阈值仅 5pp → 下次假设审计正式审查 C1 升格列入 P0。(6) convergence-radar v3.6.3 跨 Phase 涌现检测:(a) VLA 工程化部署叙事拐点 跨 Phase 1/2/4/5/B3/B6/B7/B9 多节点同步弯曲 = paradigm shift 候选(35-40% prior,对抗性思辩 Bull / Bear / Arbiter 完整记录于 reports/cross-domain/2026-05-06-convergence-radar.md);(b) B4 路线分化扩至 6 sub-routes(+RoboAlign-R1 reward-aligned WM 第 6 路线 cross-Phase 4×2,与既有 5 路线 [planner / data-engine / co-training / distillable-residual / evaluator] 并立 + Cortex 2.0 vs PFD 张力之上叠加新维度);(c) Frontier-class "data + recipe > 架构" 双 lab 同向背书(PI π0.7 西海岸闭源 + AI2 MolmoAct2 开源,B0 候选 +5% 触发延后至下次假设审计);(d) 新窗口 #9 立项 Dual-system VLA Inference Acceleration ~3-6 月(Latent Bridge + Hydra-DP3 + Sentinel-VLA on-demand reasoning + LiteVLA-H aerial dual-rate 4 条独立信号,产业封装窗口快速);(e) 新窗口 #10 立项 Frontier-class Open Data + Recipe 替代生态 ~6-12 月(MolmoAct2 OpenFAST + 720h bimanual 完全开源 vs PI π0.7 闭源 = AI2 提供首个 "open frontier-tier alternative-to-PI" 完整 release)。(7) 🆕 Phase 6 候选 (TTC for VLA) 1/15 萌芽:同 cluster 仅算 1 条 → 严格独立信号;6 个月观察期升格条件 ≥3 个独立 cluster 跟进;#23 验证窗口截止 2026-08-06。(8) 保守偏误状态(05-07,+1d):B0 (20d) ✅ / B1 (3d) ✅ / B2 (3d) ✅ / B3 (3d) ✅ / B4 (13d) ✅ / B5 (37d) 🔴 / B6 (63d) 🔴 / B7 (8d) ✅ / B8 (51d) 🔴 / B9 (22d) ✅。B5/B6/B8 三红节点持续;B6 接近 67d = 接近"是否需突破 75% 校准上限"的人工反思阈值;下次假设审计04-24 今日到期;严格口径未触发(Touch Dreaming 为 modality 扩展,不计入 video/scene-level 原锚定)→ 维持 B4 70%。Phase 4 本身因 Touch Dreaming 跨模态规律+VLA-World for AD 跨域扩散,计数器从 16/12 升至 17/12。#12 (B1 77→72%) 距 4/25 剩 1 天,条件持续强化至 10+ 条绕过路径。(8) 本次增量更新:§4 B4/B8 反驳栏扩写;§5 Phase 3(12.5-13/10)+ Phase 4(17/12)+ 套利 #1 窗口收紧 / #4 重定义 / 新增窗口"Latent 预测方法论";§8 / §9 追加 04-24 当日快照;§10 WM 路线追加 VLA-World for AD;§11 关键论文表追加 Touch Dreaming。Source Map 行号偏移:表头 v2.0.9 条目新增约 2 行;§4 扩写约 3 行、§5 扩写约 6 行、§8 扩写约 3 行、§9 扩写约 4 行、§10 追加约 2 行、§11 追加约 1 行——Source Map 表格已按最新行号更新。 v2.0.8 变更摘要(04-22):定时任务增量运行;04-22 无 daily-digest / paper-scan 生成(当日尚未产出),BELIEF_GRAPH.md 已于 04-22 更新至 v3.4(反映 04-21 社交情报)。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态。(2) 04-21 社交情报披露 3 条纪录级信号:荣耀「闪电」机器人 04-19 北京亦庄半马人形组冠军 50:26 破人类世界纪录(人类纪录 57:20;包揽前三)= 硬件/控制端性能里程碑,B6 分层 + 产业动态控制弱间接正向(无研究侧直接影响);DeepSeek 首轮融资 04-18 启动,估值 > 680 亿元 RMB(前值"> 100 亿美元"已被披露细化,规模确认);银河通用单轮 25 亿元融资,国资首次大规模进入具身智能赛道(12 个月赛道累计融资 373 亿元)—— B1 远期飞轮"产业资本 + 国资路线"第 9+ 条累积。(3) 04-22 社交情报披露 3 条:长城汽车坦克 700 04-20 上市搭载 Coffee Pilot 4.0,行业首款应用 VLA 大模型 + 世界模型的硬派越野车(CoT 推理面板展示决策逻辑)= VLA 车规级首次量产落地信号,对 B0/B1/B4 弱间接正向("VLA + WM 混合架构"从 Li Auto/Tesla/XPeng 扩展至越野 SUV 品类);自变量机器人完成近 20 亿元 B 轮融资(小米/红杉中国领投,坚持全自研端到端基座模型 WALL-A,区别于微调开源路线)= B1 远期飞轮"全自研"路线单点信号;晶华新材披露与多家灵巧手企业深度合作,部分客户小批量量产= 供应链信号,Phase 6 灵巧手基础设施弱正向。(4) 保守偏误 +1 天:B1=48d / B6=48d / B7=38d / B8=36d 🔴 四节点持续超阈值;B3=29d05-1113 触发。(9) 预测窗口倒计时:#9 距 05-17 剩 10 天(π0.7 第三方复现 "match specialist",临界);#15 距 2026-08-22 剩3.5 月;#16 距 2026-07-31 剩05-01)—— 再破历史 ICLR ddl 前静默期上限 +2 天;"学术-产业温差进入新均衡态"假设进一步从临时反相 → 结构性现象的判断进一步强化;预计 5 月中下旬 ICLR 2027 ddl 后反弹。(4) 2026 H2 → 2027 H1 时间窗共振:与 Tesla 7-8 月量产 + 小鹏 2026 年底量产 + 2027 全年销售 + #15 Cortex 2.0 8 月复现节点 + #16 下季度工业级 latent-WM + 特斯拉 Optimus 2027 外部场景形成连续兑现节奏,值得密集监测。(5) 保守偏误状态(04-27):B0 (10d) ✅ / B1 (1d) ✅ / B2 (27d) ✅ / B3 (1d) ✅ / B4 (3d) ✅ / B5 (27d) ✅ / B6 (53d) / B7 (43d) / B8 (41d) 🔴 三节点持续超阈值(v3.5.0 已审查并维持,标记"已审查-趋势确认未达上调阈值")/ B9 (12d) ✅。(6) 结构性维护:清理 §11-§15 末尾来自前次 run 的重复内容(lines 796-910),文件长度回收2.7 月(MotuBrain industrial 边界 5 月中假设审计 P0 待执行);#17 距 2026-10-25 剩05-06)—— 再破历史 ICLR ddl 前静默期上限 +2 天,史上最长持续刷新;(c) 预测窗口倒计时 -1 天。(2) 保守偏误状态(05-06,+1d):B0 (19d) ✅ / B1 (2d) ✅ / B2 (2d) ✅ / B3 (2d) ✅ / B4 (12d) ✅ / B5 (36d) 🔴 / B6 (62d) 🔴 / B7 (7d) ✅ / B8 (50d) 🔴 半百整数关口 / B9 (21d) ✅。B5/B6/B8 三红节点持续;B8 50 天整数关口本身是结构性数据点(触觉学术端 momentum 0.26x 衰退共识 + arxiv 端再无第 9 条独立方法论级 latent tactile 信号 = 致命实验"3 月 VLA+tactile 占比 <5%"持续追踪未触发下调)。(3) 预测窗口倒计时:#9 距 05-17 剩 11 天(π0.7 第三方复现 "match specialist",临近);#15 距 2026-08-22 剩5.5 月;#22 LWD 复现追踪距 2026-08-04 剩 89 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 91 天。(10) 顶级实验室 arxiv 缺席延续至 36 天(04-0605-07)—— 再破上限 +3 天,史上最长持续刷新;PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续,AI2 / Berkeley / Duke / UCB 部分破局后无延续。(11) 当日(05-07)零新数据:daily-digest / paper-scan / 社交情报三类报告全部缺席(reports 目录最新仍为 2026-05-06 paper-scan,社交情报最新仍为 2026-05-06.md),3 日信号衰减序列(05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 零)继续;ICLR 2027 ddl(5 月底)前静默期 + 五一假期效应叠加;下周可能恢复。(12) 议程 P0 同步:[paradigm shift 假设 6 月观察期立项 / MotuBrain industrial 边界 / C1 升格审查 / B3 三分类(B3a 权重闭环 / B3b prompt 闭环 / B3c hybrid OC-Adapter)/ B8 trigger 拆分] 5 项 + P1 [B7 校准上限规则反思 / B0 / B1 frontier-tier signal weight 引入 / MolmoAct2 OpenFAST B5 内部 FM vs FAST 拆分] 3 项 + P2 [B4 内部 6 sub-route 节点拆分] 1 项 = 9 议程项待 5 月中假设审计。(13) 本次增量更新:§4 保守偏误日数刷新;§5 Phase 计数器同步(Phase 1 反相变 11→13 / Phase 2 19→22 / Phase 4 27→28 / Phase 5 14→17 / Phase 5 候选 Async 3→4)+ Phase 6 候选 Test-Time Compute 立项 + B4 sub-routes 4→6 + 新窗口 #9 / #10 + 套利 #6 "latent 预测"扩至 8+ 团队;§8 追加 05-06 双报告补整合段 + 05-07 当日零新数据;§9 当前状态追加 05-07 当日快照 + paradigm shift 候选叙事记录;§10 WM 路线追加 MolmoAct2 OpenFAST + Latent Bridge + RoboAlign-R1;§11 关键论文表追加 9 条核心新论文(MolmoAct2 / Latent Bridge / RoboAlign-R1 / VLA-ATTC / Sentinel-VLA / Hydra-DP3 / OGPO / FAN / EnergyFlow)+ 5 条次级新论文(Anticipation-VLA / BifrostUMI / Bridging Embodiment Gap / Seeing Realism / IVLR);§15 截止日期更新至 2026-05-07。Source Map 行号偏移:v2.0.16 changelog 增加约 1 行;§5 扩写约 4 行;§8 新增约 2 行;§9 新增约 2 行;§10 新增约 3 行;§11 新增约 14 行 — Source Map 表格已按最新行号更新。 v2.0.15 变更摘要(2026-05-06 增量定时任务):🟢 极低信号日 — 无置信度变更。当日无 daily-digest / paper-scan / 社交情报 三类报告全部缺席(reports 目录最新仍为 2026-05-05 daily-digest,社交情报最新仍为 2026-05-05.md);BELIEF_GRAPH.md 维持 v3.6.1(05-04 paper-scanner 权威状态)。(1) 零新数据日:与 05-05 不同(05-05 至少有社交情报 retro-reporting Meta Llama-3-Robot),05-06 无任何新输入信号;本任务唯一价值为 (a) 保守偏误计数器 +1d;(b) 顶级实验室 arxiv 缺席延续至 35 天(04-063.5 月;#16 距 2026-07-31 剩05-02 区间)—— 再破历史 ICLR ddl 前静默期上限 +3 天。(9) 扫描漏过累计达 11 次 = 系统性偏差立项(SOP 升级建议:段编号穷举 + 关键词矩阵化)。(10) 保守偏误状态(04-28):B0 (11d) ✅ / B1 (2d) ✅ / B2 (28d) ✅ / B3 (2d) ✅ / B4 (4d) ✅ / B5 (28d) ✅ / B6 (54d) / B7 (44d) / B8 (42d) 🔴 三节点持续超阈值 / B9 (13d) ✅。(11) 本次增量更新:§4 保守偏误日数 +1 + C1 距升格更新 + B7 双向弱信号互抵注解;§5 Phase 4 计数器 23/12 → 24/12(+UniT WM-UniT)+ 套利 #6 latent 跨模态 4 团队 → 5 团队;§8 追加 XPENG industrial-academic UniT 段;§9 当前状态追加 04-27 paper-scan v3.5.3 + 04-28 当日快照;§10 WM 路线追加 WM-UniT;§11 关键论文表追加 6 条新论文(CorridorVLA / UniT / AEL / EvoAgent / SynAgent / EUEA)。Source Map 行号偏移:v2.0.12 changelog 增加约 1 行;§4 注释扩写约 2 行;§5 扩写约 2 行;§8 新增约 1 行;§9 新增约 3 行;§10 新增约 2 行;§11 新增约 8 行——Source Map 表格已按最新行号更新。 v2.0.11 变更摘要(04-27 daily-digest v3.5.2 整合):定时任务增量运行;低信号日——arxiv cs.RO/cs.AI/cs.LG 多角度 WebSearch 2604.22-25 段未发现明确新 VLA 论文;04-27 社交情报 = 小鹏汽车/何小鹏 04-25 北京车展宣布的 04-27 复述:人形机器人 2026 年底量产 / 2027 全年销售 / 明年门店 10% 销售人员由机器人担任 / 预测行业增速超 NEV。(1) 无置信度变更 — 4 条新信号皆未跨 ±5% 门槛。(2) B1 (72%) 弱正向累积:工业兑现累积第 12 条独立信号(继 Tesla / 智元 3C / 自变量 / 它石 / 银河 / 盛视 / 华勤 / 长城 + 此前 5+ 条之后第 12 条);新场景维度记录:to-C 零售 / 经销渠道首次进入工业兑现栈(区别于 Tesla 工厂 / 智元 3C 制造 / 长城整车装配的 to-B 制造场景);CEO 车展承诺历史回测严重打折(小鹏自身机器人 PR 多次未见显著产品落地),明年 04-27 节点回测"门店 10% 销售人员"达成度作为可证伪性测试。(3) 顶级实验室 arxiv 缺席延续至 25 天(04-062.8 月(MotuBrain industrial 边界 5 月中假设审计待执行);#17 距 2026-10-25 剩05-04 中国产学研集群 + 顶级实验室缺席延续至 33 天 + LWD 破局;§9 当前状态追加 04-29 / 05-01 / 05-04 三日快照 + 截止日期更新;§10 WM 路线追加 Being-H0.7 + MotuBrain + LaST-R1 + LWD;§11 关键论文表追加 9 条新论文。Source Map 行号偏移:v2.0.13 changelog 增加约 1 行;§4 行注释扩写约 3 行;§5 扩写约 2 行;§8 新增约 3 行;§9 新增约 4 行;§10 新增约 4 行;§11 新增约 9 行——Source Map 表格已按最新行号更新。 v2.0.12 变更摘要(04-27 paper-scan v3.5.3 整合 + 04-28 当日定时任务运行):定时任务增量运行;04-28 无新 daily-digest(窗口内尚未生成),整合 04-27 paper-scan v3.5.3(2604.18-25 段补扫发现 daily-digest 漏过 6 篇论文)。(1) 无置信度变更 — 6 条新信号皆未跨 ±5% 门槛,但多节点弱累积压力进一步显现。(2) 🔺 CorridorVLA (2604.21241, 04-23) 中-强信号:稀疏空间锚点(Δ-position 增量物理变化)→ corridor tolerance loss 约束 flow-matching action head;跨 backbone 验证(SmolVLA + GR00T 双 backbone 测试);LIBERO-Plus +3.4% ~ +12.4%;GR00T-Corr 83.21%。B5 弱正向(FM action head 仍主流且可被增强;不抵消早前 5 条下行累积;维持 69%);B7 弱正向(保持解耦同时注入空间先验);C1 (35%5.5 月;#22 LWD 复现追踪距 2026-08-04 剩 90 天整。(4) Meta Llama-3-Robot 仍待验证:05-05 社交情报追溯报告的 Meta 5月3日开源声明,05-06 当日无新信号确认/反驳;下次 paper-scan 是关键验证窗口。(5) 2026 H2 时间窗共振邻近:Tesla 7-8 月 V3 量产 + Cortex 2.0 8 月复现节点 (#15) + 工业级 latent-WM 跟进窗口 (#16) 7-31 截止 + LWD 复现窗口 (#22) 8-04 截止 = 8 月将是 2026 年最关键的产业兑现验证月,目前距 8 月初剩约 90 天。(6) 极低信号日的认识论意义:连续 2 天信号衰减(05-04 强信号 → 05-05 弱社交 → 05-06 零)= ICLR 2027 ddl 前静默期 + 五一假期效应共同作用;下周可能恢复。禁止把"信号衰减"误读为"领域降温" —— 系统应保持监测纪律,不因短期静默放松对 4 个 P0 议程(MotuBrain industrial 边界 / C1 升格审查 / B3 切分 / B8 trigger 拆分)的追踪。(7) 本次增量更新:§8 追加 05-06 极低信号日衔接段;§9 当前状态追加 05-06 当日快照(保守偏误 +1d / 顶级实验室 35 天 / 预测窗口倒计时);§9 章节标题日期更新至 2026-05-06;§15 文档截止日期更新至 2026-05-06。Source Map 行号偏移:v2.0.15 changelog 增加约 1 行;§8 新增约 1 行;§9 新增约 1 行;§9 标题日期更新;§15 截止日期更新——Source Map 表格已按最新行号更新。 v2.0.14 变更摘要(2026-05-05 增量定时任务):🟢 低信号日 — 无置信度变更。当日无 daily-digest / paper-scan 报告生成(reports 目录最新仍为 2026-05-04 套件);BELIEF_GRAPH.md 维持 v3.6.1(05-04 paper-scan 权威状态)。(1) 当日唯一新数据 = 社交情报 2026-05-05.md 追溯报告 05-03 两条产业信号:(a) Meta 5月3日开源 Llama 3 机器人专用模型(声称支持视动联合推理,旨在降低人形机器人运动控制 + 环境感知开发门槛)—— 🟡 需独立验证:单条社交级 retroactive 信号(5月3日事件 5月5日报告),无 arxiv / Meta 官方博客 / HuggingFace 仓库链接二次确认;如属实属"通用大模型正式向具身控制层渗透"重大事件,对 B0 / B1 / C1 三节点皆有影响,但单条未验证社交信号不触发置信度变更(v3 校准纪律 §3.2);(b) 美国国防部 / NVIDIA / SpaceX 540 亿美元 AI 合同(无人集群控制 + 目标生成)—— 军用机器人系统"算法主导"转变,与 VLA 研究信念图节点关系弱(除 B1 远期产业资本累积外无直接信号),不触发置信度变更。(2) 顶级实验室 arxiv 缺席延续至 34 天(04-0605-05)—— 再破历史 ICLR ddl 前静默期上限 +1 天;社交情报报告自身用"29 天"是错误计数(实际 04-06 → 05-05 = 30 天,BG v3.6.1 计为 33 天 + 今日 1 天 = 34 天)。Jianlan Luo / LWD (Berkeley 系) 部分破局后无延续;PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续。如 Meta Llama-3-Robot 属实,则"顶级实验室缺席"框架需结构性修正:因 Meta FAIR 此前未在 VLA arxiv 强出场,但跨界 release 是另一种破局形式。(3) 保守偏误状态(05-05,+1d):B0 (18d) ✅ / B1 (1d) ✅ / B2 (1d) ✅ / B3 (1d) ✅ / B4 (11d) ✅ / B5 (35d) 🔴 / B6 (61d) 🔴 / B7 (6d) ✅ / B8 (49d) 🔴 / B9 (20d) ✅。B5/B6/B8 持续 30+ 天三红节点,B5 距 v3.5.0 (04-26) 审查标记"已审查-趋势确认未达上调阈值" + 05-04 hypothesis-review (v3.6.0) 维持判断 9 天,下次审计前保持监控。(4) 预测窗口倒计时:#9 距 05-17 剩 12 天(π0.7 第三方复现);#15 距 2026-08-22 剩3.5 月;#16 距 2026-07-31 剩05-04 完整缺席,Jianlan Luo 资深作者 LWD 部分破局)。(8) 认识论意义反思:v3.5.0 (04-26) 假设审计执行 B1/B3 -5% 双下调时明确判断"反方累积达决定性强度";不到 10 天 LWD 出现,决定性反方共识被一篇真机大规模 paper 打回去。这是 ForecastBench / EvolveCast 警示的"过度更新风险"实证 —— v3 校准纪律的"最小更新 ±5%" 在两个方向都适用,但反方累积的"决定性"判断需要更高的 prior。(9) 保守偏误状态(05-04):B0 (17d) ✅ / B1 (0d) ✅ 重置 / B2 (0d) ✅ 重置(之前 33d 红色解除) / B3 (0d) ✅ 重置 / B4 (10d) ✅ / B5 (34d 🟡) / B6 (60d 🔴) / B7 (5d) ✅ / B8 (48d 🔴) / B9 (19d) ✅。B5/B6/B8 持续 30+ 天,下次需考虑"B5 反相变升格审查"(11 条反相变信号累积)。(10) 本次增量更新:§4 信念网络 B1/B2/B3 行三节点同步上调 + 保守偏误日数刷新 + 预测 #22 新立项;§5 Phase 4 计数器 24/12 → 26/12 + 套利 #6 latent 预测方法论窗口扩展至 7+ 团队;§8 追加 04-293 月(MotuBrain industrial 边界 5 月中假设审计 P0 决定);#17 距 2026-10-25 剩05-04 段 5 条独立中国学术-产业信号,与"顶级海外实验室连续 33 天 arxiv 缺席"形成强对照(PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon 04-066 月;#22 LWD 复现追踪距 2026-08-04 剩 3 月(91 天)。(5) 价值留存:低信号日的本身记录价值 = 系统性消化前一周 04-2905-04 高密度信号期;Meta Llama-3-Robot 待验证标记本身是 epistemic data point(如下次扫描发现确实属实,则 05-05 单点社交雷达"领先一日"为系统增益)。(6) 本次增量更新:§8 追加 05-05 社交情报 2 条(Meta Llama-3 待验证 + DoD AI 合同);§9 当前状态追加 05-05 当日快照(保守偏误 +1d / 顶级实验室 34 天 / 待验证 Meta 信号);§15 文档截止日期更新至 2026-05-05。Source Map 行号偏移:v2.0.14 changelog 增加约 1 行;§8 新增约 1 行;§9 新增约 1 行——Source Map 表格已按最新行号更新。 v2.0.13 变更摘要(2026-05-04 daily-digest v3.5.8 + paper-scan v3.6.1 整合):🔴 高信号日——05-04 daily-digest 在 2604.26-28 + 2605.00 段 50 篇论文中识别 1 篇方法论级 + 2 篇强信号 + 6 篇中信号。🔴 重大三节点同步上调:(1) B1 72→77% (+5%) + B2 77→82% (+5%) + B3 72→77% (+5%) —— 由 LWD (2605.00416, Yi Wang + Jianlan Luo et al., 05-01) "Learning while Deploying: Fleet-Scale RL for Generalist Robot Policies" 单篇方法论级实证触发,三视角辩论一致:fleet-scale offline-to-online RL + DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) + 16 dual-arm 机器人 + 8 真实任务(含 semantic grocery restocking + 3-5min long-horizon)+ 单一 generalist policy 平均 95% 成功率 = 第一篇决定性反驳 04-17 社区共识"real-world RL 物料被干烂 / 大规模 VLA 的 RL 做不了" + 首篇"权重闭环"真机大规模验证(区别于 8+ 条 prompt-level 自进化稀释)+ fleet-scale 数据飞轮方法论级实证。三节点同步 +5% 由依赖链强制一致(B3 ≤ min(B1, B2) = min(77, 82) = 77)+ 校准纪律 §3.2 规则 3"单方向强证据最小更新 ±5%"。新预测 #22 立项:3 个月内非 Berkeley 团队复现 LWD-style fleet RL(≥10 robots, ≥80% long-horizon),到期 2026-08-04,否则触发 B2 回撤审查。预测 #17 部分提前满足(同方向"大规模 RL post-training 可工程化"实证)。依赖链 04-26 隐患解除:B4(75) < B1(77) ✅。(2) Being-H0.7 (2605.00078, Beihang + PKU 系, 04-30) "Latent World-Action Model from Egocentric Videos" = 第 6 个独立 latent-WM 团队(继 WAV/GIRL/ViVa/Cortex 2.0/Hi-WM/UniT 后;与 PFD-style "WM-as-distillable" 第 2 篇)—— B4 维持 75% 校准上限不变(议程 P2 已立项 sub-route 拆分);学术变体不计入 #16 工业级跟进口径,但路线扩散提速(PFD 不再孤立)。Phase 4 计数器 24/12 → 26/12(+Being-H0.7 + paper-scan v3.6.1 27/12)。(3) MotuBrain (2604.27792, ShengShu Tech + Tsinghua, 04-29):三流 MoT 统一架构 + 5 distributions inference (VLA/WM/video/inverse/joint) + WorldArena EWM 63.77 + RoboTwin 2.0 96.0(唯一 randomized >95)= 第 7 latent-WAM 团队 + 第 2 条 industrial-led(Cortex 2.0 后),强候选触发预测 #16(B4 75→80%)—— industrial 边界判定需 5 月中假设审计 P0 人工 judgment,本次暂不执行。(4) LaST-R1 (2604.28192, 04-30):annotation-free RL + Clip-GRPO + LAPO 双层 latent reasoning,LIBERO 99.8% (新 SOTA, 接近饱和需打 0.4-0.5x 折扣) + 真机 +44%;B2 弱化下行压力(与 LWD 共振解决 Jupiter Zhai 04-17 "real-world RL 物料被干烂" 痛点)。(5) Embodied Interpretability (2605.00321, ICML 2026 主会接收, 05-01):Causal/Interventional attribution for VLA + ISS (Interventional Significance Score) + NMR (Nuisance Mass Ratio);揭露 "illusion of embodied reasoning" + 4 失败模式(lexical-kinematic shortcuts / behavioral inertia / causal state tracking failures / semantic feature collapse)—— C1 (35%⚠️ ) 同向第 4 条独立信号(VGA + ProGAL-VLA + CorridorVLA + Embodied Interp),距升格阈值 40% 仅 5pp,下次假设审计正式审查 C1 升格。(6) 中信号其他:ExoActor (2604.27711, BAAI, 04-29) 视频生成即策略路线第 4 条独立信号 (B7 反方) / Lucid-XR (2605.00244, MIT+UCSD+UCB, 05-01) XR 数据引擎合成数据零样本迁移 (B1 反方) / Robot Learning from Human Videos: Survey (2604.27621) / WM Survey (2605.00080) / Physically Native World Models / Hamiltonian (2605.00412, 05-02) (C1 弱正向) / OpenWorldLib (社交情报 05-01, 北大+快手 Kling+上海算法+中关村学院) 中国产学研协作信号。(7) 中国产学研连续输出:HY-Embodied 0.5 (腾讯) + Magic-Mix WAM (魔法原子) + OpenWorldLib + Being-H0.7 + MotuBrain = 04-29⚠️ ) 弱-中正向累积 — 显式空间约束第 3 条独立信号(VGA 2604.12908 + ProGAL-VLA + CorridorVLA),距升格阈值 4-5pp;下次再出 1 条同向(非 PI 锚定)即触发 C1 升格审查。(3) UniT (2604.19734, 04-21, XPENG Robotics + Tsinghua + HKU) 中信号:三分支 cross-reconstruction(action↔vision↔fusion)→ unified discrete latent action token;二联应用 = VLA-UniT (policy) + WM-UniT (world model)。B1 弱负向累积(人类视频替代第 5 条独立信号,首个 industrial-led 案例 XPENG);B4 弱正向累积(latent-WM 应用变体第 3 条 = Cortex 2.0 / Hi-WM / WM-UniT,#16 工业级跟进口径需 1-2 条独立工业级实证,UniT 是 industrial-academic 混合仅部分工业含量);B6 弱正向(分层架构第 11+ 条);B7 弱负向(unified token vs decoupled action expert 路线张力);C3 中性偏负(physical language ≠ 自然语言)。(4) AEL (2604.21725, 04-23, Rutgers) 弱-中信号 + EvoAgent (2604.20133, 04-22) 弱信号:双时间尺度 self-evolution = Thompson Sampling bandit + LLM 反思(非 robotics 域);B3 弱负向累积:prompt-level self-evolution 第 8+ 条(继 SpaceMind/EEAgent/KITE/FIDeL/ChemBot/WALL-B);定义切分议程("权重闭环" vs "prompt/memory 闭环")继续累积压力。(5) SynAgent (2604.18557, 04-20) 弱信号:solo-to-cooperative humanoid manipulation;Interact Mesh + Delaunay tetrahedralization;记录"协作人形"细分赛道形成中。(6) EUEA (2604.19839, 04-21, UNIST) 弱信号:VLM 4-skill 微调 + GRPO 一致性细化;B6 弱正向(skill 分解第 N 条)。(7) 趋势观察:显式空间约束架构 = 第 3 条独立信号(C1 累积压力即将触发升格审查);人类视频替代机器人数据 = 第 5 条独立信号(B1 远期飞轮反方持续,UniT 是首个 industrial-led 案例);prompt/memory 自进化 = 第 8+ 条独立信号(B3 节点定义切分议程)。(8) 顶级实验室 arxiv 缺席延续至 26 天(04-06115 行,Source Map 行号偏移随之收紧。(7) 本次增量更新:§4 保守偏误日数 +1 / §8 追加 04-27 小鹏量产时间表段 / §9 当前状态追加 04-27 当日快照。Source Map 行号偏移:v2.0.11 changelog 增加约 1 行;§8 新增约 2 行;§9 新增约 1 行;duplicate trailing 删除收紧约 -115 行——Source Map 表格已按最新行号更新。 v2.0.10 变更摘要(04-25 ~ 04-26 整合 + v3.5.0 假设审计执行):(1) 🔴 重大置信度变更:B1 77→72% (-5%) + B3 77→72% (-5%)——04-26 v3.5.0 每周假设审计执行:B1 51 天保守偏误 + 反方累积达决定性强度(评估方法论级 2604.21192 BEHAVIOR1K 暴露 SOTA 系统性高估 / 工程门槛 6+ 条 / 人类视频替代 4 条 / 论文-复现 2-3x 衰减 / π0.7 metadata 双向影响);B3 依赖链强制(B3 ≤ min(B1, B2) = 72%)+ 32 天保守偏误 + 6 条 prompt/memory-level 自进化稀释。Bull 反向论点(产业兑现 11+ 条)成立但被重新解释为"产业飞轮 ≠ 学术研究核心壁垒"。预测 #12 ✅ 关闭。B3 定义切分议题("权重闭环" vs "prompt/memory 闭环")仍待人工 reflection 事件。(2) B4 70→75% (+5%, 04-24 paper-scan):Cortex 2.0 (Sereact, 2604.20246, 04-22) 工业 VLA + visual latent space WM + Process-Reward Operator + flow-based heads 四级显式分层 = 第 4 个独立 latent-WM planner 团队(继 WAV/GIRL/ViVa)+ 首次跨越 academic→industrial 鸿沟——预测 #11 严格口径触发。同期 RoboWM-Bench (2604.19092, 04-21) 量化 video WM 物理可执行性差距,B4 内部子路线分化明朗。(3) 新论文 6 篇:Cortex 2.0 (B4 工业级首条) / RoboWM-Bench (video WM 物理可行性 benchmark, B4 中-强反方) / Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23) Human-in-the-World-Model 学习 WM 作为 reusable corrective substrate, post-training 失败矫正脱离物理执行 = latent-WM 第 5 团队 + B2/B3 弱反方/正向间接 / 2604.21192 (BEHAVIOR1K 评估方法论, 04-23) 首次系统化暴露 VLA 真实差距 / EmbodiedMidtrain (2604.20012, 04-21) VLM↔VLA 数据分布对齐 mid-training 阶段 / PokéVLA (2604.20834, 04-21 段, 04-26 回溯发现) 1.22B params LIBERO 98.2% / Long suite 95.2%(CoT-VLA 69 / WorldVLA 54)= B9 累积第 7 条独立信号(参数预算结构性新低;LIBERO 接近饱和需打折,单条不达 ±5% 门槛维持 75%)。(4) 04-23 社交情报产业三连弹:特斯拉 Optimus V3 时间表(年中亮相 / 7-8 月量产 / 2026 下半年企业客户 / 04-24 复述延伸至 2027 外部场景)+ 智元景灵 G2 进入南昌龙旗 3C 精密制造产线 7×24h(首次大规模 3C 核心制造) + 自变量近 20 亿元 B 轮(小米/红杉中国领投,国内首获四大互联网巨头 BAT+小米全员投资)+ 宇树轮足双模高动态。04-26 资本侧弱信号:盛视科技 NAO 收购涨停 + 华勤技术港股上市。(5) 新预测 #15/#16/#17:#15 Cortex 2.0 第三方独立复现达 SOTA(到期 2026-08-22);#16 下季度 1-2 条 latent-WM 工业级跟进 → B4 75→80%(到期 2026-07-31,Hi-WM 学术应用变体不计入);#17 Hi-WM "post-training-without-real-robot" 范式 6 月内 Tier-1 复现 → B2 反方升格审查(到期 2026-10-25)。(6) 顶级实验室 arxiv 缺席延续至 24 天(04-0604-30)破历史 ICLR ddl 前静默期上限 +1 天,预计 5 月中下旬 ICLR 2027 ddl 后反弹;学术-产业温差进入"新均衡态"假设逐步从临时反相 → 结构性现象。(7) 保守偏误状态(04-26):B1 (0d) ✅ 重置 / B3 (0d) ✅ 重置 / B4 (2d) ✅ / B6 (52d) / B7 (42d) / B8 (40d) 🔴 三节点持续超阈值,v3.5.0 已审查并维持,标记"已审查-趋势确认未达上调阈值"。(8) 2604.20-21 段补扫 SOP 第 4 次执行:单独捕获 PokéVLA(位于 EmbodiedMidtrain 与 2604.21192 之间),提示日级 paper-scan 在密集 segment 内仍存在 lag → 4/25 双周 self-reflection 议程"日级 paper-scan 时延评估"。Source Map 行号偏移:v2.0.10 条目新增约 8 行;§4 改写约 6 行;§5 扩写约 4 行;§8 扩写约 4 行;§9 扩写约 5 行;§10 追加约 3 行;§11 追加约 6 行——Source Map 表格已按最新行号更新。 v2.0.9 变更摘要(04-24):定时任务增量运行;04-23 / 04-24 均无新 daily-digest / paper-scan 生成(窗口内连续静默),但 04-22 paper-scan(回溯补扫 2604.09-13 / 16-17 段,发现 7 篇前期漏过论文)此前仅进入 BELIEF_GRAPH.md v3.4.2,尚未整合入记忆文件;本版完成整合。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态。(2) 新增论文 7 篇(均回溯自 04-22 paper-scan,2604.09-17 段空洞补扫):Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14) — Humanoid Transformer + latent tactile dreaming 辅助任务,latent tactile 预测 > raw tactile 预测 +30%,5 个 contact-rich 任务平均 +90.9% 相对提升;B8 方法论级第 8 条 触觉独立信号 + B4 跨模态 latent 预测弱正向(严格口径不计 #11,宽松口径达成但不采用)+ Phase 3 升级 12.5-13/10 + Phase 4 升级 17/12;LIDEA (2604.10677, SJTU Cewu Lu+Yong-Lu Li, 04-12) — 双阶段蒸馏 + 3D 几何对齐,声称 人类视频替代 80% 机器人演示,B1 绕过路径第 N+1 条 + C1 架构级贡献第 N+1 条;VLA-World for AD (2604.09059, SJTU+Huawei, 04-10) — 自动驾驶域 VLA+WM 架构,与 04-20 坦克 700 Coffee Pilot 4.0 车规量产形成 research+product 双轨共振(10 天 gap),Phase 4 新增 AD 子域标记;I2RLC (2604.16850, OMRON+Waseda,04-20) — 10× 演示加速 + peg-in-hole 100%(B1 绕过/B2 中性);Web-Gewu (2604.17050) — Browser-based RL 训练基础设施(B1 工程门槛第 7+);Mini-BEHAVIOR-Gran (2604.17019) — 指令粒度 U 形效应 benchmark 工具;Seeing Through Touch (2604.11579, KAIST+UNIST, 04-13) — 触觉→视觉材质定位 perception(B8 弱间接)。(3) 方法论级共识跨模态形成:WAV (action-space latent) + GIRL (latent-WM DINOv2) + ViVa (video-generative value) + Touch Dreaming (tactile latent) = "latent 预测 > raw 预测" 规律跨视觉/动作/触觉 4 modality 4 团队独立收敛 → 对 C2 下限(15%)构成进一步反证压力;建立新套利窗口:Latent 预测方法论(~3-6 月)。(4) 扫描系统性偏差立项:5 次 arxiv 段漏过(VGA / ChemBot / Touch Dreaming / LIDEA / VLA-World)达系统化立项阈值 → 4/25 双周 self-reflection SOP 升级"2604 段空洞补扫"。(5) 保守偏误 +2 天:B1=50d / B6=50d / B7=40d / B8=38d 🔴 四节点持续超阈值(再破本周期峰值);B3=31d 🔴 04-23 已触发 30d 阈值 → B3 明确定义切分议题("模型权重更新闭环" vs "记忆/prompt-level 反思 agent")正式进入 4/25 议程;B4=30d 🟡 刚达阈值。(6) 顶级实验室 arxiv 连续 20 天缺席(04-0604-24)— 已超历史 ICLR ddl 前静默期上限(12-18 天)2 天,产品化闭门(H2)假设占比需升格观察。(7) 预测窗口结算:#11 (latent-WM planner +1 条 → B4 +5%) 窗口 04-22⚠️ 距 30d 阈值仅 1 天,04-23 扫描即触发。(5) 顶级实验室 arxiv 信号连续 18 天缺席(04-06 ~ 04-22)—— 静默窗口继续延长,历史 ICLR ddl 前 12-18 天缺席规律本窗口已持平上限;若 04-23⚠️ 距 30d 阈值仅 2 天,04-23 扫描即触发。(4) 顶级实验室 arxiv 信号连续 16 天缺席(04-06 ~ 04-21)—— 静默窗口继续延长;预测 04-23⚠️ 接近 30d 阈值(下次扫描即触发)。(6) 预测追踪:#11 下周 1 条 latent-WM planner 新信号 → B4 +5%(04-22
选择性加载指引:QUICK 模式用 offset/limit 只读相关章节;DEEP 模式优先读 ★ 标记章节。
| Section | 行号 | 优先级 | 深度文件(KW_VLA/ 下) |
|---|---|---|---|
| §0 VLA 定义 | 63-70 | 跳过 | — |
| §1 模型族谱 | 72-111 | 跳过 | — |
| §2 动作生成范式 | 112-152 | 按需 | — |
| §3 训练范式 | 153-202 | 跳过 | — |
| §4 信念网络 ★ | 203-242 | 必读 | docs/system/BELIEF_GRAPH.md(完整变化历史) |
| §5 收敛地图 ★ | 243-318 | 必读 | — (本文已是最完整版本) |
| §6 触觉 | 319-344 | 跳过 | theory/tactile/ + theory/frontier/tactile_* |
| §7 部署 | 345-393 | 按需 | deployment/ |
| §8 产业 | 394-458 | 按需 | companies/ + memory/blog/archives/vla-social-intel/ |
| §9 当前状态 ★ | 459-564 | 必读 | reports/weekly/ 或 reports/biweekly/ 最新 |
| §10 深度专题 | 565-654 | 按需 | theory/frontier/ 对应论文 |
| §11 论文速查 | 655-830 | 按需 | — |
| §12 开源基础设施 | 831-847 | 按需 | — |
| §13 产品与市场 | 848-855 | 跳过 | — |
| §14 高频面试要点 | 856-892 | 按需 | — |
| §15 校准纪律 ★ | 893-903 | 必读 | — |
Vision-Language-Action (VLA) = 将视觉感知、语言理解、动作生成统一在一个模型里的具身智能范式。 输入:RGB 图像 + 语言指令(可选:深度、触觉、本体感觉)。 输出:机器人可执行的动作序列(关节角/末端位姿/夹爪)。 核心承诺:像 LLM 理解文字一样理解物理世界,并直接输出动作。
RT-1(2022) → RT-2(2023) → OpenVLA(2024) → π0(2024) → π0.5(2025) → π0.6(2025) → π0.7(2026-04)
↑ Flow Matching 引入点 ↑ Episode Metadata + 14B BAGEL WM
| 模型 | 机构 | 参数 | 视觉 | 动作生成 | 控制频率 | 核心突破 |
|---|---|---|---|---|---|---|
| RT-1 | ~35M | EfficientNet | 离散 Token(256bin) + Softmax | 3Hz | 首个大规模真机验证 | |
| RT-2 | DeepMind | 55B | ViT-22B(PaLI-X) | 离散 Token + Softmax | 1-3Hz | 语义泛化涌现("抓灭绝动物"→抓恐龙玩具) |
| OpenVLA | Stanford | 7B | SigLIP(ViT-L) + Llama2 | 离散 Token + Softmax | 5-10Hz | 全开源 SOTA,LoRA 微调生态 |
| π0 | Physical Intelligence | 3B | PaliGemma(SigLIP+Gemma) | Flow Matching(ODE) | 10-50Hz | 首个 VLM × Flow Matching,高频精密控制 |
| π0.5 | PI | 3B+ | 同上 | Flow + FAST Token | ~50Hz | 开放世界泛化,co-training(机器人+互联网+仿真) |
| π0.6 | PI | 5B | 同上 + Action Expert | Flow + Recap(离线RL) | ~50Hz | 自我改进闭环,2× 吞吐 2× 低失败率 |
| π0.7 | PI | 5B + 14B BAGEL WM | 同上 | Flow + Episode Metadata | ~50Hz | Compositional generalization via language coaching(无需 fine-tuning 解决未训练任务);Episode Metadata (Quality 1-5/Mistake bool/Speed) + Knowledge Insulation 梯度隔离;匹配 specialist 性能(coffee/laundry/box assembly)——作者:"架构上没啥特别,功夫在数据工程" |
- Octo (Berkeley):Diffusion 动作头,连续动作,推理慢但平滑
- Galaxea G0:双系统(VLM 规划器 + VLA 执行器)
- WALL-OSS:Uni-CoT + 双分支(Flow + FAST)
- GR-00T N1 (NVIDIA):人形机器人基础模型
- RDT-1B / RDT2:Scalable Diffusion Transformer,跨具身零样本
- LingBot-VLA:务实型 VLA,语用接地
- AR-VLA (ETH):自回归 Action Expert + DTR(Deep Token Routing),SIMPLER 61.5% 超越 π0.5 51%
- StarVLA (04-06):模块化开源 VLA 框架,VLM backbone(Qwen-VL)+WM backbone(Cosmos)+多 action head 可 swap,统一评估(LIBERO/SimplerEnv/RoboTwin 2.0/RoboCasa-GR1/BEHAVIOR-1K)——LeRobot 之后第二个全栈开源框架
单模型: RT-2 / OpenVLA / π0(一个模型端到端)
双系统: Galaxea G0 / π0.6(VLM 思考 + VLA 执行)
层级式: WALL-OSS(思维链规划 + 双动作头切换)
- 连续动作 → 量化为 N bins(通常 256):
Token = round((a-min)/(max-min) × (N-1)) - 优点:统一 Transformer 架构,支持多模态
- 致命缺点:量化误差导致精密操作失败(穿针、装配)
- 从高斯噪声迭代去噪生成动作轨迹
- 优点:连续高精度,天然多模态分布
- 缺点:需 50-100 步去噪,延迟高,不适合 >50Hz 控制
- 学习确定性向量场(最优传输直线路径)
- ODE solver 仅需 1-10 步推理
- 优点:极速 + 高精度 + 支持 50Hz+
- 2026 年论文量 Flow:Diffusion ≈ 2:1,竞争基本结束
- 新进展 (03-17):OFP (One-Step Flow Policy) 实现 100× 加速,单步 flow 集成 π₀.5 后超越原始 10 步版本
- 对动作序列做 DCT(频域变换)+ BPE 合并,压缩 token 数量
- 类比 JPEG:保留高频平滑性,减少 token 爆炸(256^7 → 少量 token)
- OpenVLA 训练加速 5×;FAST+ 预训练 1M+ 轨迹实现跨具身泛化
- π0.5 同时使用 FAST(训练) + Flow(推理)
- ICLR 2026 出现 4 篇并发 Discrete Diffusion VLA 论文
- 结合 AR 的 LLM 兼容性 + Diffusion 的多模态表达力
- 待验证:推理速度数据 + 引用独立性。若推理延迟 ≈ FM 且训练效率更高,可能挑战 B5
- Token-level probability velocity field——Flow Matching 在离散空间的推广
- DFM-VLA (2603.26320):CALVIN 4.44 / LIBERO 95.7% / 真机 70.8%,全面击败 continuous FM(FlowVLA) + continuous diffusion(RDT) + discrete diffusion(Dream-VLA) + AR(OpenVLA)
- 推理 121 tokens/s vs AR 50.2 tokens/s(2.4× 加速),2-stage decoding: iterative + validation
- 关键争议:Bear 论点——"DFM 仍是 FM 框架内演化";但 B5 原定义隐含 continuous FM,若 discrete FM > continuous FM 则定义需修订
- 真机验证规模有限(3 任务 ×40 试验 = 120 次),统计显著性待更大规模确认
判断:Action Head 收敛至 Flow Matching(置信度 74%,校准后 ↓自79%,5 条下行信号待合并处理)。范式空间比"FM vs AR"二元叙事更丰富:continuous FM + discrete FM (DFM-VLA) + AR-VLA + Discrete Diffusion + FAST + Hybrid 多轨并存。DFM-VLA (2603.26320) 在 CALVIN 4.44/LIBERO 95.7%/真机 70.8% 全面击败 continuous FM+diffusion+AR,是"discrete flow > continuous flow"首个全面对比证据。FM 仍领先但需重定义——"FM" vs "Flow-based methods"边界成为 B5 定义审查核心问题。
- 监督学习:模仿专家示范 → MSE/CE/Diffusion Loss/Flow Loss
- 天花板:只能学到专家分布内的行为,分布外崩溃
- π0.5 路线:机器人数据 + 互联网视频 + 仿真数据联合训练
- 关键:loss masking(不同数据源用不同损失组合)
- 解决数据稀缺但引入域差异
- π0.6 Recap:离线 RL 自我改进(VLM 自动打分 → 高分轨迹回训练)
- GR-RL:Mixture of Teachers 在线 RL
- GigaBrain RAMP:World Model 辅助 RL
- 2026-03 数据:RL finetuning 加速比 1.82x(全场唯一 SURGE),Instruction Tuning 仅 0.06x(已死)
- 置信度:RL 后训练突破 BC 天花板 = 77%(校准后,04-01 执行下调 raw 90→85%)。保守偏误修正完成
- PLD (CMU, ICLR 2026):残差RL+蒸馏闭环,第二独立团队验证。LIBERO 99% + 真机 100%
- VLA-OPD (03-30):On-Policy Distillation,Reverse-KL 从 RL teacher 蒸馏到 student,1-traj init → LIBERO 93.4%,3× 样本效率。但依赖 RL teacher(不能替代 RL),暗示"RL→Distillation→Deploy"流水线新范式
少量遥操作 → BC 基线 → 真机探索 → VLM 自动打分 → 高分轨迹回训练 → 更强模型 → 更多探索
↑ Recap / Reward Discovery 核心机制
- RoboClaw (03-16):Entangled Action Pairs 自重置飞轮,人工投入 -53.7%,长时域成功率 +25%
| 阶段 | 损失类型 | 公式/方法 | 用途 |
|---|---|---|---|
| BC-离散 | Cross-Entropy | -Σ y·log(ŷ) | RT-1/RT-2/OpenVLA token 分类 |
| BC-连续 | MSE/Huber | |a-â|² | 回归动作值 |
| BC-GMM | NLL | -log Σ wᵢ·N(a;μᵢ,σᵢ) | 多模态连续动作 |
| Diffusion | ε-prediction | |ε-ε̂(xₜ,t)|² | 去噪扩散 |
| Flow | velocity field | |v-v̂(xₜ,t)|² | 速度场匹配 |
| RL | PPO clip | min(rA, clip(r)A) + V_loss + entropy | 策略改进 |
| 对齐 | InfoNCE/CLIP | 视觉↔语言/视觉↔触觉对比学习 | 跨模态表示 |
| 安全 | barrier/jerk | 速度/加速度/力矩/工作空间约束 | 部署安全 |
| 抗遗忘 | Knowledge Insulation | 梯度隔离(动作头梯度不回传VLM) | 防灾难性遗忘 |
- Knowledge Insulation:双轨训练——VLM 学离散 token(保留语义),Action Expert 学连续控制(独立优化),梯度不互传。<1% 性能损失,2× 收敛加速
- Co-training loss masking:不同数据源用不同损失组合(机器人数据全损失,互联网视频只有视觉+语言损失)
- Action Chunking:一次前向生成 32-64 步动作序列,配合高频重规划实现闭环
- Symmetry Equivariance (EquiBim):双臂任务训练时加对称等变正则化 L_sym,强制 π(S(O))=S(π(O)),模型无关、推理零开销,+2.7~9.5% 成功率
- Reward Discovery:双层元学习自动进化奖励函数,将稀疏"完成/失败"转化为平滑奖励地形
置信度经过校准:>80% 原始值 ×0.9
| ID | 信念 | 置信度 | 上次变更 | 最强反驳 |
|---|---|---|---|---|
| B0 | 数据策略 > 模型架构 | 77% ↑ | 04-17 | π0.7 (04-16) 以 Episode Metadata + Knowledge Insulation + "架构上没啥特别,功夫在数据工程"产业级背书 → 恢复 B0=B1=B2=B3=77% 父子一致性。反方:论文 vs 社区复现 2-3x 衰减系统性(LeRobot pi0 官方 30%/Lingbot 55 vs paper 更高)。C1 直接反对但单 lab 信号不触发逆共识保护。05-21: +DeMiAn (2605.17077) "语言密度作为数据侧杠杆从固定语料榨取更多信号" = 数据工程>架构 强正向单实证, 受 raw 85% 校准上限 deadlock 阻塞不达 +5%(calibration ceiling deadlock 现横跨 B0/B4/B6/B7 四节点) |
| B1 | 数据飞轮是核心壁垒 | 77% ↑ | 05-04 | 05-04 LWD (2605.00416) 触发 72→77% (+5%):fleet-scale experience accumulation → 单 policy 持续改进 = fleet-scale 数据飞轮的方法论级实证;04-26 v3.5.0 下调时反方核心论点是"产业飞轮 ≠ 学术研究核心壁垒"——LWD 把"飞轮"做成学术 + 工程 paper,不再只是产业现象。依赖链一致性约束:B3 ≤ min(B1, B2) → B1 必须随 B2/B3 同步移动以保持等号关系(v3 校准纪律 §3.2 规则 3 "单方向强证据最小更新 ±5%")。04-26 v3.5.0 假设审计 77→72% (-5%) 历史保留作为 ForecastBench/EvolveCast "过度更新"实证:51 天保守偏误 + 反方累积当时被判定为决定性,但 8 天后被 LWD 反向打回。Bull 反向论点(产业兑现 12+ 条)+ LWD 学术-工程双轨实证已重新支持"飞轮 = 研究维度核心壁垒"叙事 |
| B2 | RL 后训练突破 BC 天花板 | 82% ↑ | 05-04 | 05-04 LWD (2605.00416) 触发 77→82% (+5%):自 04-17 Jupiter Zhai "real-world RL 物料被干烂"+ 社区共识"大规模 VLA 的 RL 做不了"以来第一篇决定性反驳 —— Berkeley 系(Jianlan Luo 资深作者,HIL-SERL 系),16 机器人 fleet + 真实超市 long-horizon 95% 成功率 + DIVL/QAM 专门为 flow-based VLA action generators 稳定 sparse-reward fleet RL,一篇就把 04-17 反方共识打回去。预测 #17 部分提前满足(同方向"大规模 RL post-training 可工程化"实证,虽 LWD 是 with-real-robot-fleet 而非 Hi-WM 路径)。新预测 #22 立项:3 个月内非 Berkeley 团队复现 LWD-style fleet RL(≥10 robots, ≥80% long-horizon),到期 2026-08-04 否则触发回撤审查。LaST-R1 (04-30) annotation-free RL + Clip-GRPO 共振解决"物料被干烂"痛点 |
| B3 | 自我改进闭环是终极形态 | 77% ↑ | 05-04 | 05-04 LWD (2605.00416) 触发 72→77% (+5%):04-26 v3.5.0 审计的核心担忧之一是"权重闭环 vs prompt/memory 闭环"定义之争(8+ 条 prompt-level 自进化稀释了原定义)—— LWD 是第一篇方法论级"权重闭环"真机大规模验证:deployment → autonomous rollouts + human interventions → DIVL+QAM RL 更新权重 → redeployment 完整闭环。直接给"权重闭环"路线一个旗手实证,定义稀释问题部分缓解。依赖链一致性强制:B3 ≤ min(B1, B2) = min(77, 82) = 77 ✅(保持等号)。32 天保守偏误计数器自 04-26 已重置,但 LWD 是真正"自下而上"的反方驳斥而非纯计数器到期。Hi-WM (04-23) "failure-targeted policy improvement" 与 LWD 形成互补(in-WM 矫正 + on-fleet 学习),机制级闭环双轨证据 |
| B4 | World Model 作为闭环加速器 | 75% | 04-24 | 物理幻觉在接触密集任务中致命;WM 分化四 sub-route。05-04 累积压力:(1) Being-H0.7 (2605.00078, 04-30) 第 6 latent-WM 团队 + PFD-style "WM-as-distillable" 第 2 篇(PFD 不再孤立);(2) MotuBrain (2604.27792, ShengShu Tech, 04-29) 第 7 latent-WAM 团队 + 第 2 条 industrial-led(Cortex 2.0 后),强候选触发 #16 (B4 75→80%) —— industrial 边界判定(ShengShu Tech "unified WAM"路线 vs Cortex 2.0 "latent-WM as planner"路线)需 5 月中假设审计 P0 人工 judgment,本次暂不执行;(3) Phase 4 计数器 24/12 → 26/12 严重超临界 2.17x。B4 已达 75% 校准上限——v3.5.6 议程立项的 "B7 校准上限规则反思" 同样适用此处;强行 80% raw 会被谦逊折扣压回 72%(反向下调),需要先解决 calibration 框架的 ceiling 问题。04-24 触发预测 #11 严格口径(Cortex 2.0 70→75% +5% 已执行)。B4 内部 4 sub-route(议程 P2 拆分立项):sub-1 (latent-WM-as-planner: Cortex 2.0/WAV/GIRL/ViVa) / sub-2 (video-WM-as-data-engine: GigaWorld-0) / sub-3 (WM-co-training-objective: GR00T N2 WAM/Hi-WM) / sub-4 (WM-as-distillable-residual: PFD/Being-H0.7 新加入)。05-21: +MoLA (2605.12167) latent-WM↔video-WM 桥接(imagined future video → mixture of inverse dynamics → latent action)→ Phase 4 计数器 38→39/12 = 3.25× 历史新高(雷达校正口径 38/12 = 3.17×, GuidedVLA 重归类 B7/C1 已剔除); B4 +5% 受 calibration ceiling deadlock 阻塞 |
| B5 | Flow Matching 主导 Action Head | 69% ↓ | 03-31 | 5条下行累积执行(HybridVLA+A2A FM+Mean-Flow+FODMP+DFM-VLA),continuous FM唯一性弱化;定义需审查"FM" vs "Flow-based"。04-17 新反相变:HiST-AT 双层 VQ action tokenizer(离散第 7 条)+ R3D diffusion decoder(3D policy 优选 Diffusion 非 FM)。04-27 paper-scan 弱正向:CorridorVLA (2604.21241) sparse spatial anchor + corridor tolerance loss 跨 SmolVLA + GR00T 双 backbone 验证;FM head 仍主流且可被增强而非替换;不抵消早前 5 条下行累积;维持 69% |
| B6 | 分层架构(S0/S1/S2)标准化 | 75% | 03-05 | 🔴 54天保守偏误持续(v3.5.0 已审查标记"未达上调阈值")。04-18 FluxVLA Engine = 分层/模块化第 9 条独立信号(产业级首条)。04-17 强正向累积抵消下调建议:Goal2Skill(VLM-planner+VLA-executor, RMBench 32.4% vs 9.8%=3.3× gap, 长时程验证)+ SpaceMind/Switch/HiST-AT = 本批次 4 条本批次信号(叠加早前 HiVLA/ProGAL-VLA/SV-VLA/HY-Embodied 累积至 8+ 条独立分层信号)。04-27 paper-scan 弱正向:UniT (2604.19734) tri-branch + EUEA (2604.19839) 4-skill 微调 + EvoAgent (2604.20133, 非 robotics 域权重 0.5) + SynAgent (2604.18557, multi-agent cooperative) = 第 11+ 条独立信号;保守上限附近不达 +5%。"物理必要 vs 工程现状"分歧未解 |
| B7 | Action Expert 解耦语义与运动 | 75% | 03-15 | 🔴 44天保守偏误持续(v3.5.0 已审查标记"反方累积无决定性")。解耦可能损失跨模态协同(WholeBodyVLA latent action+Action Images 视频生成即策略)。04-17 弱正向:π0.7 Knowledge Insulation 梯度隔离 PI 再度背书。04-20 新累积:VGA (2604.12908) vision-geometry 直接映射 = 解耦叙事替代形态(语义中介 → 几何中介)。04-27 paper-scan 双向弱信号互抵:CorridorVLA 弱正向(保持解耦同时注入空间先验)+ UniT 弱负向(unified token 路线 vs decoupled action expert 张力)—— 维持 75% |
| B8 | 触觉从可选→必需 | 70% ↑ | 03-17 | 🔴 42天保守偏误持续(v3.5.0 已审查;继续追踪触觉+latent 第 9 条)。硬件标准化遥遥无期;VFE 替代路线追踪中。04-15 审计"下调至 65%"建议被抵消:TouchAnything + DECO + TaSA + 视觉力矩 4 条近期累积,维持 70%。04-17 新:HRDexDB(1.4K 人+机器手抓取+触觉)弱正向但规模小。04-22 回溯补扫 🟧 中-强累积:Touch Dreaming (2604.13015, CMU+UT Arlington+Bosch, 04-14) — 首个"触觉+latent 预测方法论化"级别信号,latent tactile > raw tactile +30%,5 contact-rich 任务 +90.9%。B8 累积第 8 条(TacVLA / MoDE-VLA / OmniVTA / Vision-Torque / DECO / TaSA / TouchAnything / HRDexDB / + Touch Dreaming)且为方法论级——若下次扫描触觉+latent 再出 1 条 → B8 70→75% 累积更新规则触发。Seeing Through Touch (2604.11579, KAIST, 04-13) 触觉→视觉材质定位(perception 而非 policy)弱间接。致命实验"连续 3 月 VLA+tactile 占比 <5%"继续追踪 |
| B9 | 小模型/边缘推理可行 | 75% ↑ | 04-15 | 6 条独立边缘推理信号累积触发上调。04-17 反方弱信号:小红书社区共识——VLA 论文"推理频率"=frequency×action_chunk_size 虚标(帖 14),实际 latency 需打 0.05~0.1 折扣还原。04-26 累积第 7 条:PokéVLA (2604.20834, 04-21 段, 04-26 回溯发现) 1.22B params LIBERO 98.2% / Long suite 95.2%(CoT-VLA 69 / WorldVLA 54)= 参数预算结构性新低 + Long suite gap 显著;LIBERO 接近饱和需打折,单条不达 +5% 门槛维持 75%;下次 75→80% 触发条件需"真机长时程 + ≤1.5B + 击败 SOTA"组合 |
逆共识(赌注):
- C1:架构创新会回归 (35% ↑
⚠️ ) — 致命实验到期未触发+5%。DIAL/DFM-VLA 架构贡献不可被数据解释。距升格阈值(40%)仅差5pp。04-17 反方弹药:π0.7 "架构上没啥特别,功夫在数据工程"——PI 产业级反对 C1;但逆共识保护不触发下调。04-20 / 04-27 累积:VGA + ProGAL-VLA + CorridorVLA = 显式空间约束第 1-3 条独立信号。05-04 同向第 4 条独立信号:Embodied Interpretability (2605.00321, ICML 2026 主会接收, 05-01) —— ISS (Interventional Significance Score) + NMR (Nuisance Mass Ratio) 揭露 SOTA VLA 在因果干预下系统性失败 + 4 失败模式(lexical-kinematic shortcuts / behavioral inertia / causal state tracking failures / semantic feature collapse)+ VLA 内在 trade-off(capacity compression vs perceptual abstraction)= 结构性架构瓶颈不可被纯数据工程解决;Physically Native World Models (2605.00412, 05-02) Hamiltonian-based generative WM 物理 prior 注入(架构创新弱正向第 5 条间接)。距升格阈值仅 5pp——下次假设审计正式审查 C1 升格(4 条同向独立信号 + 5pp gap,逆共识保护规则:ΔI 阈值降至正常 1/3) - C2:World Model 是死胡同 (15% ↓ 达下限) — 压倒性反面证据(Cosmos 3/NC AI WFM/GR00T N2 WAM)。下限规则:15% 不得再降,除非物理幻觉+因果保留双解决。04-22 新反证压力:跨模态 "latent 预测 > raw 预测" 规律跨视觉/动作/触觉 4 modality 4 团队独立收敛(WAV+GIRL+ViVa+Touch Dreaming)= latent WM 路线跨模态普适性。04-24~27 累积:Cortex 2.0 工业 deployment + RoboWM-Bench + Hi-WM (5th 团队) + UniT WM-UniT (6th)。05-04 累积:Being-H0.7 (2605.00078) 第 6 latent-WM 团队 cross-modality + cross-embodiment + ego-video + MotuBrain (2604.27792) 第 7 latent-WAM 团队 + 第 2 industrial-led(unified WAM 同时做 5 distributions = WM 路线最强工业级背书之一)+ WM Survey (2605.00080) WM 已成 well-defined sub-field(survey 数 ≥3)+ Physically Native WM (2605.00412) Hamiltonian 物理 prior 注入。C2 反证压力持续累积但已在 15% 下限
- C3:VLA 不需要语言 (24%) — 纯视觉-动作路线有上升信号(VLM4VLA backbone无关性)。04-17 反方弹药:π0.7 "听得到语言并据此行动——甚至违反训练数据视觉偏差"——语言 grounding 作为核心能力被 PI 强化。04-20 新弱正向:VGA (2604.12908) 主张 3D 几何 backbone > VLM/video 语义——距升格阈值 40% 还差 16pp。04-27 paper-scan 中性偏负:UniT (2604.19734) 强调 "physical language" 作为 unified token 但不直接是自然语言,间接弱化语言中心地位;但同时强调 unified physical token 而非 vision-only → 对 C3 不直接支持,维持 24%
风险标记:
- B5 有 PI 锚定风险——去掉 PI 系列后 FM 独立收敛信号只剩 3 条。且 FM adoption 全量统计缺失(Moritz Reuss 博客无比例数据)
- B3 闭环实证来源风险部分解除——PLD(CMU, ICLR 2026) 是第二个独立团队验证残差RL+蒸馏闭环。但 B2+B3 双高置信度(90% raw)需 03-29 优先审查
- ✅ B2 保守偏误修正完成:04-01 执行下调 raw 90→85%/cal 81→77%(27/30 天无下调证据,5+ 条反方弹药)。下次审查周期重置
⚠️ 系统级保守偏误(05-07):B0 (20d) ✅ / B1 (3d) ✅ / B2 (3d) ✅ / B3 (3d) ✅ / B4 (13d) ✅ / B5 (37d) 🔴 持续超阈值,13 条反相变信号累积(Hydra-DP3 频域分析决定性数学证据加入)/ B6 (63d) 🔴 接近 67d 校准上限反思阈值 / B7 (8d) ✅ / B8 (51d) 🔴 B5/B6/B8 持续超阈值。下次触发条件:B5 反相变升格审查(13 条已累积,距临界 15 仅 2 条)/ B6 端到端 humanoid 全身控制论文 / B8 触觉+latent 第 9 条独立方法论信号 / B9 (22d) ✅。下次假设审计05-1113 触发- 🆕 04-17 新弹药:π0.7 发布改变 B0(+5%);Latent-WM planner 累积接近 B4 +5% 触发线(WAV+GIRL+ViVa 一周 3 条);Prompt-level self-evolution 4 条集中出现(SpaceMind/EEAgent/KITE/FIDeL)= B3 叙事稀释风险
- 🆕 04-15 已记:Action Images(视频生成即策略,无独立 action head)= B7 反方第 2 条;JailWAM 84.2% 攻击成功率 = B3 安全约束累积
- ✅ 预测 #6 (04-15) 已确认:CALVIN/LIBERO 新 SOTA 频率↓——校准 +5% 待执行
- ❌ 预测 #8 (04-15) 未触发:触觉⚡论文未出现——校准 +5% 待执行(B8 学术端衰退结构性确认);B8 致命实验已重新定义:连续 3 月 VLA+tactile 占比 <5% → 下调至 60%
- 🆕 新预测 (04-17):#9 π0.7 第三方独立复现能否达"match specialist"(到期 2026-05-17,剩 21 天);#10 HF/LeRobot/清华/MIT 任一公布 π0.7 微调结果;#11 ✅ 关闭 (Cortex 2.0 04-24 触发 B4 +5%);#12 ✅ 关闭 (B1 77→72% v3.5.0 04-26 执行)
- 🆕 新预测 (04-24~04-26):#15 Cortex 2.0 第三方独立复现达 SOTA(到期 2026-08-22,剩 ~3.5 月);#16 下季度 1-2 条 latent-WM 工业级跟进 → B4 75→80%(到期 2026-07-31,剩 ~3 月,Being-H0.7 学术变体不计;MotuBrain ShengShu industrial 边界判定 5 月中假设审计 P0 决定);#17 Hi-WM 范式 6 月内 Tier-1 复现 → B2 反方升格审查(到期 2026-10-25,LWD 部分提前满足——同方向"大规模 RL post-training 可工程化"实证)
- 🆕 新预测 (05-04):#22 LWD-style fleet RL 复现追踪——3 个月内非 Berkeley 团队复现 LWD-style fleet RL(≥10 robots, ≥80% long-horizon),到期 2026-08-04,否则触发 B2 回撤审查(v3 校准纪律执行:反方累积"决定性"判断需要更高 prior + ForecastBench/EvolveCast"过度更新风险"实证警示)
- 🆕 新预测 (05-06 paper-scan v3.6.2):#23 VLA-TTC 第三方独立信号 —— 3 个月内非 Wenhao Li / Xiu Su cluster (VLA-ATTC + Sentinel-VLA 同作者) 至少 1 篇独立 VLA Test-Time Compute 论文,到期 2026-08-06;未触发后果:TTC 视为单团队孤立信号,不升格为新 Phase 候选;触发后果:TTC 成为 Phase 6 立项候选启动新 Phase 立项流程
- ✅ 依赖链 05-04 隐患解除:B4(75) < B1(77) ✅;B3(77) ≤ min(B1, B2) = min(77, 82) = 77 ✅ 等号保持;B1(77) ≤ B0(77) ✅ 等号保持。若后续 B4 75→80% 触发(#16 工业级跟进 / MotuBrain industrial 边界确认),需同时复审 B1 77% 是否需重新校准
- B4 定义扩展待办:行业"VLA+WM 混合"中的 WM 多指 learned dynamics model,非 full generative WM——概念需区分
- 13/15 独立信号 + 13 反相变(05-06 +Hydra-DP3 频域分析决定性数学证据,距反相变达成临界 15 阈值仅 2 条)
- 判断:FM 仍领先但"唯一标准"叙事被多范式并存严重削弱,接近"反相变"
- 反相变信号(13 条累积):FAST + AR-VLA(ETH) + ICLR 2026 Discrete Diffusion 4篇并发 + HybridVLA(AR+Diffusion 统一) + A2A FM 单步推理 + DFM-VLA(discrete FM > continuous FM) + Action Images(2604.06168, 视频生成即策略,无 action head) + HiST-AT(双层 VQ Hierarchical Spatiotemporal Tokenizer, 04-16) + R3D(3D policy 优选 Diffusion decoder 非 FM, 04-16) + VGA(2604.12908, vision-geometry backbone 替代 VLM/video 语义, 04-14 回溯) + 🔺 Hydra-DP3 (2605.01581, UCB, 05-02) 频域分析 + 2-step DDIM 充分性证明 + <1% prior 3D DP params 真机 SOTA = 反相变第 13 条决定性数学证据(前 12 条多为工程实证 + LIBERO 数字)
- OFP 单步 flow 100× 加速——FM 推理速度优势进一步扩大
- 双周数据:flow_matching 0.89x(唯一 momentum stable),diffusion 0.70x,产出持平各24篇
- 22/15 独立信号(05-06 +OGPO + FAN + EnergyFlow RL 工程化双周三连,5 篇 14 天累积含 LWD + LaST-R1)
- RL finetuning 加速比 14d 1.77x → 7d 0.52x(momentum declining 但仍 dominant)
- rl_finetuning 对 instruction_tuning 形成 13:1 压倒性优势
- 05-06 paper-scan v3.6.2 累积:OGPO (2605.03065, 05-04) off-policy generative + modified PPO + critic-as-terminal-reward 唯一从 BC 烂初始化 finetune 到接近 task success / FAN (2605.01663, 05-03) Flow-Anchored Q-Learning 单次 flow iteration + 单 Gaussian SOTA / EnergyFlow (2605.00623, 05-01) IRL via energy function gradient = denoising field 无 adversarial 训练即可提取 reward。B2 反方升格压力进一步加固但 v3 校准避免连续上调维持 82%
- 12.5-13/10 独立信号(+Tactile-VLA/VLA-Touch/Robotiq TSF-85 + Touch Dreaming 04-14 方法论级)
- MoDE-VLA(03-14) 证明"触觉不可替代"(力觉去除-11%,触觉去除-8%)
- TacVLA(03-17) 证明"触觉可优雅集成"(gating 机制 +60%/2.1× 遮挡鲁棒性)
- OmniVTA (03-25⚡):视触融合世界模型——触觉作为 WM 输入模态而非独立任务,可能是触觉方向存活路线
- Vision-Torque Fusion (04-10):自适应视觉-力矩融合 contact gating +14%,与 TacVLA gating 同方向弱累积
- 04-14 累积:DECO(双臂触觉 Diffusion)+ TaSA(触觉衰减)= 弱正向,不改变 B8
- 04-22 回溯方法论级信号:Touch Dreaming (CMU+UT Arlington+Bosch) latent tactile dreaming 首次系统化证明对 raw tactile 的 +30% 优越性,人形+触觉+latent 预测三元组方法论闭环首次形成,学术端 tactile 0.26x 结构性衰退趋势被部分反驳
- 但学术端 tactile 加速比 0.26x(结构性衰退),被 dexterous_hand(0.62x) 以 4:1 碾压。预测 #8 到期未触发(04-15)
- 39/12 独立信号(05-25 paper-scan v3.6.17 雷达校正口径; BG 口径 40/12 = 3.33× 历史新高)——增量 05-21→05-25: +RAW-Dream (2605.12334) task-agnostic WM-for-RL(Phase 2×4 交叉「WM 里做 RL」又一实证, B4 75% deadlock 阻塞不达 +5%; EvoScene-VLA 2605.21862 明确不计 Phase 4——decoder-内 recurrent scene prefix ≠ 生成式 WM, 沿用雷达归类纪律); 前序增量 05-14→05-21: +ALAM latent transition / +Pelican-Unified UFG / +MoLA (2605.12167) imagined-future video↔latent action 桥接; GuidedVLA 经 05-21 雷达重归类为 B7/C1 (action-decoder attention head) 非 WM 信号已剔除(升格 P0: Phase 计数器主题归类纪律 + "近期速度 flow"伴随指标——现计数器为单调 stock 无法捕捉 biweekly world_model accel 0.69 衰退); Arbiter 判定: WM 收敛真实但性质已变(学术前沿 → 工业基础设施降维, 同 tactile 成熟), "3.25×"不应误读为"WM 是热门研究方向"(恰相反); 05-06 起点 28/12(05-06 paper-scan v3.6.2 +RoboAlign-R1 第 6 sub-route,从 27/12);前序累积:05-04 +Being-H0.7 + MotuBrain + WM-UniT 04-21 XPENG industrial-academic + Cortex 2.0 04-22 工业级 latent-WM planner + RoboWM-Bench 04-21 video WM benchmark + Hi-WM 04-23 in-WM post-training substrate + Curiosity-Critic 04-20 + GNWM 04-19 + WAV 04-16 + Touch Dreaming 04-14 + VLA-World for AD 04-10 + ExoActor 04-29 + LaST-R1 04-30 latent reasoning
- B4 6 sub-routes(05-06 convergence-radar v3.6.3 路线分化扩至 6):[1] inference-time planner (Cortex 2.0 / MotuBrain industrial-led) 🔴 与 [4] 矛盾 / [2] data-engine (GigaWorld-0 / NC AI WFM) / [3] co-training-objective (GR00T N2 WAM) / [4] distillable-residual (PFD / Being-H0.7) 🔴 与 [1] 矛盾 / [5] policy-evaluator (dWorldEval, 04-27) / [6] 🆕 reward-aligned WM (RoboAlign-R1, 05-05) cross-Phase 4×2 —— 与既有 5 路线正交,是 RL 后训练 enabler 而非 inference-time 部署架构。
- Latent-WM planner 路线工业化跨越(04-24 关键里程碑):Cortex 2.0 (Sereact, 2604.20246, 04-22) = 第 4 个独立 latent-WM planner 团队 + 首个工业级背书——visual latent space WM + Process-Reward Operator + flow-based heads,单/双臂 4 任务全面超越 SOTA VLA baselines;预测 #11 严格口径触发 → B4 70→75% 已执行。04-25 Hi-WM 第 5 团队 / 04-27 UniT WM-UniT 第 6 应用变体。05-04 累积:Being-H0.7 (2605.00078, Beihang+PKU 系, 04-30) = 第 6 latent-WM 团队 cross-modality + cross-embodiment + ego-video,与 PFD (04-28) 同 sub-route "WM-as-distillable / future-informed-but-no-inference-rollout"——B4 内部 sub-4 第 2 篇 = PFD 不再孤立,路线开始有累积;future-informed dual-branch 训练(deployable prior branch 推理用 + training-only posterior branch 用 future observations 做 latent 对齐),推理时丢掉 posterior,零 visual rollout。MotuBrain (2604.27792, ShengShu Tech + Tsinghua, 04-29) = 第 7 latent-WAM 团队 + 第 2 条 industrial-led(Cortex 2.0 后),三流 MoT 统一架构 + 5 distributions inference (VLA / WM / video / inverse / joint) + WorldArena EWM 63.77 + RoboTwin 2.0 96.0(唯一 randomized >95),强候选触发预测 #16 (B4 75→80%) —— industrial 边界判定("unified WAM"路线 vs "latent-WM as planner"路线)需 5 月中假设审计 P0 人工 judgment。RoboWM-Bench (04-21) = video WM 物理可执行性 benchmark,B4 内部 video vs latent 路线分化进一步明朗
- AD 跨域子赛道(04-22 新标记):VLA-World for AD (2604.09059, SJTU+Huawei, 04-10 submission) + 长城坦克 700 Coffee Pilot 4.0 车规量产 (04-20 上市) = research + product 双轨共振,时间 gap 10 天;Li Auto/Tesla FSD/XPeng/长城 = 4 家车企 VLA+WM 路线同构
- PlayWorld:自主探索→WM→RL 闭环,+65% 真机成功率
- WM 方法论持续分化:pixel WM → latent WM (CoWVLA) → structured planner (StructVLA) → WAM
- 新信号 (03-25):Cosmos 3(首个统一 WFM,NVIDIA 核心产品化)+ NC AI WFM(latent action 直接生成,25% GPU 成本达 80% 性能)
- Fast-WAM (03-19):质疑 WM 是否需要测试时未来想象——WM 研究从"有没有用"转向"怎么用更高效"
- π0.7 (04-16):5B 主体 + 14B BAGEL WM——PI 亲自用 WM 组件支持架构
- 关键障碍:接触密集任务的物理幻觉
⚠️ PI RLT 弱化 WM-as-RL-replacement 叙事但 WM-as-data-factory 加强
- 17/12 独立信号(05-06 paper-scan +MolmoAct2 OpenFAST 跨 5 embodiments + BifrostUMI humanoid UMI 扩展 + Bridging Embodiment Gap,从 14/12)
- RDT2 展示零样本跨具身迁移可能性
- IAIL (Science Robotics):意图空间对齐替代动作对齐,7 台异构真机——新的跨本体迁移范式
- MolmoAct2 OpenFAST (2605.02881, AI2, 05-04):首个 frontier-class 完全开源 cross-embodiment data + recipe——OpenFAST tokenizer 跨 5 embodiments 训练 millions of trajectories;MolmoAct2-BimanualYAM 720h teleoperated bimanual = 迄今最大开源 bimanual 数据集;与 PI π0.7 共同构成 "data + recipe > 架构" 双 frontier 实验室同向背书
- 方法碎片化仍严重,但工业部署推动标准化
- DiscreteRTC + Libra-VLA + XPU-VLA + 🆕 Latent Bridge (2605.02739, Duke, 05-04) dual-rate VLM/action 50-75% VLM call 减少 1.65-1.73× 加速跨 GR00T-N1.6 + π0.5 验证
- VLA-ATTC (2605.01194, Wenhao Li / Xiu Su 系, 05-02) Adaptive TTC "Cognitive clutch" + RAC pairwise 替代 absolute Q + LIBERO-LONG -50% 失败率 vs π0.5
- Sentinel-VLA (2605.01191, 同作者 cluster, 05-02) Metacognitive sentinel + on-demand reasoning + SECL self-evolving + OC-Adapter (Orthogonal Continual Adapter) 防遗忘 + 真机 vs PI0 +30%
- 同作者 cluster → 严格独立信号仅 1/15;新预测 #23 立项(3 月内非该 cluster 第三方 VLA-TTC 论文,到期 2026-08-06)= 升格触发条件
- B3 三分类 hybrid 路径第 1 条:OC-Adapter weight-level 防遗忘机制介于 prompt-loop (B3b) 与 weight-loop (B3a) 之间 → B3 三分类议程数据点
约束松弛分析:#1 约束 = 真机数据采集成本(几乎不可松弛,只能绕过:WM/互联网视频/Sim2Real)
收敛交叉检测:
- Phase 2×4(RL in imagination):最危险交叉——World Model 生成合成 rollout 做 RL,成功则颠覆真机数据需求。ViVa(04-11) 是新变体:video generation 做 value estimation 而非 rollout generation
- Phase 3×2(触觉奖励 for 精细 RL):被低估——触觉信号可作为精细操作的天然稠密奖励
- 时间套利窗口(04-22 周报全线更新):
- #1 WM 作为数据工厂(~1-2月加速关闭,Cosmos 3 / NC AI WFM / GR00T N2 WAM 产业标准化加速)
- #2 VLM-as-Universal-Reward(~9月,早期)
- #3 ⬛
仿真规模化 > 真实数据(04-06 正式关闭——已成产业共识) - #4 触觉×RL 交叉 → 重定义为触觉×latent prediction 交叉(Touch Dreaming 证明 latent tactile 预测 > raw,替代 touch×RL 路线;6-9月,早期)
- #5 工业数据飞轮(缩小至 8-12月,ABB/FANUC/YASKAWA/KUKA 整合 NVIDIA 栈)
- #6 Latent 预测方法论(04-22 立项,~2-3月 收窄)——跨视觉/动作/触觉 4 modality 4 团队独立收敛"latent 预测 > raw 预测"规律(WAV/GIRL/ViVa/Touch Dreaming)+ 04-27 UniT WM-UniT + 05-04 Being-H0.7 ego-video latent-WAM + 05-04 MotuBrain industrial-led unified WAM + 05-04 LaST-R1 latent reasoning = 跨模态 + cross-embodiment + ego-video + industrial-led 8+ 团队累积;产业封装节点临近;率先把 latent 预测做成 modality-agnostic 工具库的团队获先发优势
- 🆕 #9 立项 (05-06 convergence-radar):Dual-system VLA Inference Acceleration(~3-6月)——Latent Bridge (Duke 05-04) + Hydra-DP3 (UCB 05-02) + Sentinel-VLA on-demand reasoning (05-02) + LiteVLA-H aerial dual-rate (05-04) = 4 条独立信号;共同模式 = 边缘部署 + 推理加速 + 跨方法路径收敛(feature delta / 频域 / 元认知 / dual-rate aerial);新 VLA 架构默认应有"VLM call rate ≪ action rate"机制;率先把"adaptive inference frequency"做成开源标准库的团队获先发优势
- 🆕 #10 立项 (05-06 convergence-radar):Frontier-class Open Data + Recipe 替代生态(~6-12月)——MolmoAct2 OpenFAST + 720h bimanual 完全开源 vs PI π0.7 闭源 = AI2 提供首个 "open frontier-tier alternative-to-PI" 完整 release;中国阵营(智元 / XPENG / ShengShu)industrial-led 学术化但纯开源 frontier-tier data engineering 仅 AI2 一家;6 月内是否有 ≥2 个独立实验室复现 OpenFAST 路线(HuggingFace LeRobot 系?)→ 决定 #10 窗口是否扩展为产业级
- 新增跨Phase监测:Phase 3×5(触觉跨具身)、Phase 2×6(RL+灵巧操作)
- 新潜在套利(观察中):
- RL→Distillation→Deploy 流水线(VLA-OPD 提示,训练一次 + 蒸馏部署多次 = 成本摊销,窗口 ~8-12月)
- WM+RL 框架标准化(4 个框架竞争中,率先整合端到端方案获先发优势,窗口 ~3-6月)
- 单步推理商业化(Mean-Flow + FODMP + A2A FM 三条路线,窗口 ~4-6月)
- 视觉给坐标,语言给意图,触觉给接触相位的真反馈
- 三联仪表盘:力(抓稳没)、形(局部几何)、质(软硬粗糙)
- 视觉先天缺陷:遮挡 + 不可观测物理量(摩擦/应力) + 接触事件太快
- 硬件:e-skin(电阻/电容/压电) vs 光学触觉(GelSight/DIGIT)
- 表示:异构信号→统一空间(UV map/手坐标系锚定)
- 融合:高层(触觉→语言→VLM) or 低层(FiLM/cross-attention 注入 policy)
- 仿真:接触动力学建模复杂,Sim2Real gap 大,是 scaling 瓶颈
- MoDE-VLA (03-14):残差力觉注入,量化消融——力觉去除-11%,触觉去除-8%,证明触觉不可替代
- TacVLA (03-17):contact-aware gating 机制,选择性激活触觉 token,拆卸+20%/盒内取物+60%/遮挡鲁棒2.1×
- Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14)⚡:Humanoid Transformer + latent tactile dreaming 辅助任务(同时预测 action chunks + 未来关节力 + 未来 tactile latents)——latent tactile 预测 > raw tactile 预测 +30%,5 contact-rich 任务平均 +90.9%;首个方法论级触觉+latent 信号
- TaF-VLA:触觉力对齐
- TacMamba:快慢双通路触觉压缩
- TacRefineNet:纯触觉抓取精炼
- GenForce:触觉力迁移
- SuperTac/DOVE:仿生多模态电子皮肤
- UniVTAC:统一视触觉仿真平台
- 量化:INT8/INT4(QVLA 专门做 action-centric 量化)
- 蒸馏:Shallow-π 从大 Flow VLA 蒸馏到小模型
- Thin Client:本地轻量推理 + 云端重模型(延迟 vs 成本 trade-off)
- 小模型趋势:<3B 参数占领边缘(B9 置信度 70% ↑)
- GigaBrain-0-Small:840 GFLOPs, 0.13s 推理, 80% 成功率——小模型实用性重要验证
- AutoQVLA (ICLR 2026):自动量化 VLA,30% VRAM 节省
- RoboECC:边缘云协同,1274→362ms 延迟
- Realtime-VLA V2 (03-30):真机 VLA 达人类操作速度,0.2mm 精度 PCB 插件,3-4× 快于 demo。关键发现:感知管线延迟(camera 33ms + exposure 55ms + proprioception 50ms + motion lag 150ms ≈ 288ms)是真实瓶颈,非 action decoding——印证推理加速价值有限的判断
- Fast-FoundationStereo (CVPR 2026):零样本双目深度实时化(蒸馏+blockwise NAS+structured pruning),证明 foundation perception 不必牺牲实时性
- 遥操作:GELLO/ALOHA(双臂镜像)、数据手套+振触反馈、VR 控制
- 互联网视频:VITRA 从 Ego4D/Epic 等自动解析 1.2M 人手操作 episodes (26M 帧) → VLA 预训练
- 仿真生成:RoboGene 用 agentic 方式多样化生成仿真数据
- 真机 RL:带安全约束的在线探索(最危险但最有效)
- 合成数据引擎:World Model 生成 → 过滤 → 训练闭环
- 自重置飞轮:RoboClaw EAP(前向+逆恢复配对),人工投入-54%
- 核心矛盾:1 小时遥操作 = 数百元,且无法覆盖长尾场景
- Isaac Sim/Lab (NVIDIA):GPU 并行物理 + RTX 渲染,大规模 RL 首选
- MuJoCo (DeepMind):软接触精度高 + 速度快,精细操作仿真
- SAPIEN/ManiSkill (UCSD):零件级交互,灵巧操作
- PyBullet:轻量入门
- Gazebo:ROS 集成
- Domain Randomization:视觉/动力学参数随机化
- Domain Adaptation:对抗训练对齐仿真/真实分布
- System Identification:用真实数据校准仿真器参数
- 加速比 0.28x(结构性衰退)— 学术界在逃"硬件依赖"
- 指标:Success Rate (SR)、Mean Steps to Success、Intervention Rate、Executable Rate
- 基准:CALVIN (5 步链式)、LIBERO (已饱和 99.2%,ICLR 2026 确认)、SIMPLER (sim↔real 相关性,70-80% SOTA)、ManiSkill、RoboChallenge
- ICLR 2026 基准校准:LIBERO 不再是有效信号源(95-98% 区间无区分度)。以后评估论文时 LIBERO 高分需打折。SIMPLER 和真实零样本才是有效基准。
- 统计纪律:Wilson 区间置信度、EMA checkpoint 选择、A/B 测试协议
- 产业 KPI(学术不追踪但更重要):任务成功率、吞吐量、干预率、连续运行时长、部署成本
- 关键6点:控制频率对齐(10-30Hz vs 125-500Hz)、评估协议固定、KL-to-base 必备、奖励防欺骗、失败当一等数据、先跑通数据面再谈算法
- 最稳路径:BC warmstart → 仿真 RL 大规模改进 → 真机小步安全迭代
- 训练三层:策略学习(BC/RL loss) → 表示对齐(CLIP/InfoNCE) → 安全约束(barrier/jerk)
- 全栈整合派(Tesla/Figure):模型+数据+硬件+制造一步打通
- 垂直突破派(DYNA/Amazon):单场景极强→再泛化
- 生态平台派(NVIDIA/Google/Meta):工具链+标准化接口建生态
- Physical Intelligence (PI):π0 系列,Flow Matching 先驱,Robot API 平台化
- Figure:Helix 02 全身自主,$2.6B 估值
- Tesla Optimus:全栈+数据飞轮。Gen 3 新手部(22-DoF, 50执行器);Terafab 量产线 03-21 启动
- NVIDIA:GR00T N1.7 商业部署(LG/NEURA 采纳)+ N2 预告("新环境 2x+ 成功率")+ Isaac Lab + Cosmos — 做机器人的 CUDA(生态锁定 52% 置信度)
- ACE Robotics (商汤旗下):Kairos 3.0-4B 开源实时生成式 WM,72x>Cosmos 2.5,跨 embodiment(Agilex PIPER/Unitree G1/Galaxy G1)
- 1X (1X Technologies):World Model 路线,EVE/NEO(GTC 2026 展示视频学习新 WM 能力)
- Amazon:收购 Fauna Robotics(儿童尺寸社交人形机器人初创,03-24)——巨头入场信号
- 中国阵营:智元(Agibot)/宇树(Unitree, 2026前两月出货5500+, R1 Air $4,900 大众市场基准)/灵初(LimX)/银河通用(Galaxea)/智在无界(Boundless)/XGSynBot(Z1人形发布)/ROBOTERA(100亿RMB估值, 03-23)
- 产业融资超 50 亿美元(AI²/Apptronik/Spirit 等)
- Agility×Toyota 签产线部署协议
- NVIDIA GTC 2026 (03/16-19) 密集信号:GR00T N1.7 商业部署 + N2 预告、Kairos 3.0 开源、UR AI Trainer、多家人形机器人展示(IntBot/Techman/Noble Machines Moby3)
- UR AI Trainer × Scale AI:首个工业级 VLA 数据飞轮产品(力反馈 + 直接扭矩控制 + 结构化训练数据)
- Noble Machines Moby3:18 月隐身→商业收入,已部署至财富 500 强客户
- 北京亦庄人形机器人半马 04-19 正式开赛,03-14/15 完成试跑(20+ 团队)
- Tesla Terafab (03-21):Optimus Gen 3 量产线启动宣言
- Unitree 2026 前两月出货 5,500+,全年目标 10,000-20,000
- Ubtech 签署 10,000 台产能框架协议;深圳机器人租赁价降至数百元/天
- Rhoda AI 获 $4.5 亿 A 轮(03-11),基于数百万公开视频训练机器人智能平台——资本赌"视频数据+端到端"
- StarVLA 开源完整 Franka 实机部署案例(03-19)
- 产业量产加速 vs 学术硬件逃逸:Tesla 2026年底量产、Ubtech 10,000 台、深圳租赁数百元/天 → 产业冲刺;但学术端 tactile(0.26x)/sim_to_real(0.31x)/cross_embodiment(0.26x) 全线衰退
- 学术与产业分道扬镳:学术刷 LIBERO 99.2%→99.5%,产业谈量产落地
- 工具链收敛:LeRobot 成事实标准,v0.5.0 集成 X-VLA backbone
- VLA+WM 混合架构成行业共识:Li Auto(MindVLA-o1)/Tesla/XPeng 均采用(36kr 分析)
- 产业从"原型演示"向"量产准备+商业部署+公开场景验证"阶段加速过渡
- 03-24 信号密集:Unitree R1 Air $4,900(价格下探至消费级)+ Amazon 收购 Fauna Robotics(巨头布局人形)+ ROBOTERA 100 亿 RMB 估值——"高价演示→大众市场+商业化验证"加速
- NVIDIA Physical AI × AV:自动驾驶是 NVIDIA Physical AI 最先跑通的主战场(标准化车体+成熟数据闭环+安全工程),GM/Uber/Mercedes 产线整合进行中;对机器人的启示:车是"标准化身体"模板,机器人 Physical AI 路径可能复刻 AV 闭环模式
- 04-07 商业交付信号:天久领航完成鸟巢演唱会 30+ 机器人连续表演交付(16 场 ×6 万+观众);机器人租赁平台完成超 1 亿融资(清明/五一订单满)——"技术展示→规模化商业运营"过渡加速
- 04-09 融资:千寻智能 10 亿 RMB(顺为+云锋领投,估值 200 亿+,30 天累计 30 亿);首形科技 A1 轮数亿(华空基金+京东领投,多模态具身交互+仿生面部)——资本加速具身赛道,学术顶级信号连续 5+ 天缺席,学术-产业温差持续扩大
- 04-14~17 信号密集:智元酷拓 04-14 上海浦东产品发布;Physical Intelligence 04-16 发布 π0.7(TechCrunch 报道)——compositional generalization via language coaching + Episode Metadata (Quality/Mistake/Speed) + Knowledge Insulation + 14B BAGEL WM,宣称匹配 specialist 模型性能;作者评价:"架构上没啥特别,功夫在数据工程"+"具身智能已准备好迎接自己的 GPT3 时刻";社区共识"数据工程 > 架构创新"由 PI 产业级背书,B0 上调 72→77%。但社区复现困境(论文 vs 实测 2-3x 衰减)是系统性阻力,需等 3-6 月独立复现数据
- 04-17 融资:灵初智能再融资(国投先导+京西瑞瓴领投),继 20 亿天使/Pre-A 后再融资——具身/VLA 大模型赛道资本热度持续
- 04-18 产业基建:逐际动力 FluxVLA Engine 开源(标准化 VLA 工程底座,OpenVLA/π0/π0.5 等模型可插拔,DINOv2/SigLIP/PaliGemma/Qwen-VL backbone 可替换)——B6 分层第 9 条 + B1 "工程门槛下降"累积。Tesla Optimus 上海超级工厂量产线确认(2026 年底 10 万台/年目标)
- 04-19 产业密集披露 5 条:(1) 宇树 H1/R1 2026 中国人形机器人生态大会 + 拳击对战动态控制演示;(2) 智元 2025 营收 >10.5 亿元 + 核心 BU 独立融资(产业资本热度持续);(3) 优必选 Walker S2 签约 Terra Robotics → 部署德国 ROSSMANN 物流(中国人形机器人首条海外商用物流首秀)——B1 远期飞轮"产业专有数据"路线信号;(4) 领益智造北京具身智能超级工厂天工 Ultra/3.0 首批下线,2026 年 1 万台产能;(5) Faraday Future 4500 万美元融资 + 34 台交付(疑 EV 非 humanoid,存疑不计入)
- 04-20 社交情报补齐(04-18 融资密集披露 4 条):(1) 它石智航 Pre-A 轮 > 30 亿元 RMB(~4.55 亿美元)——创中国具身智能单轮融资纪录;(2) 极佳视界 B1 轮近 15 亿元 RMB(具身/人形生态企业);(3) DeepSeek 寻求首轮融资 / 估值 > 100 亿美元 / 拟募 ≥ 3 亿美元——LLM 巨头首次具身侧重投,双线研发成本;(4) Faraday Future 4500 万美元(已归入 04-19 存疑)。2026 中国人形机器人生态大会(04-17~19,智元/宇树/优必选/小米/荣耀)。判断:资本加速押注"规模化前夜";DeepSeek 跨界是 LLM→具身一体化的早期结构性信号;学术 - 产业温差继续扩大(顶级实验室连续 16 天 arxiv 缺席)。对 B1 远期飞轮"产业资本 / 规模化前夜"累积;对 B0/C1 弱间接观察(新玩家密度→下一轮架构/数据策略分化可能提前)
- 04-18~20 趋势:连续 3 天低信号窗口 + 顶级实验室 arxiv 信号连续 15 天缺席(04-06
04-20, PI/Figure/NVIDIA/Berkeley/MIT/Google Gemini Robotics/DeepMind/Tesla/Apptronik/1X/Amazon)——ICLR 2027 ddl 前静默期 / 产品化闭门期双重成因;历史规律(ICLR 2026 ddl 前持续 1218 天)预计 04-23~04-28 间 arxiv 投稿可能恢复 - 04-21 社交情报 3 条纪录级信号:(1) 荣耀「闪电」机器人 04-19 北京亦庄半马人形组冠军 50:26——超越人类半马世界纪录(57:20),包揽前三名;硬件 + 动态控制性能里程碑(对研究侧无直接影响;弱间接支持 B6 分层架构的工程成熟度);(2) DeepSeek 首轮融资 04-18 启动,估值 > 680 亿元 RMB(相对 04-20 披露的 "> 100 亿美元" 细化确认);(3) 银河通用单轮 25 亿元国资入场——具身智能赛道 12 个月累计融资 373 亿元,国资首次大规模入场;B1 远期飞轮"产业专有数据"路线累积第 9+ 条
- 04-22 社交情报 3 条:(1) 长城汽车坦克 700 04-20 上市搭载 Coffee Pilot 4.0——行业首款应用 VLA 大模型 + 世界模型的硬派越野 SUV(CoT 推理面板展示决策逻辑)= VLA 车规级首次量产落地;对 B0/B1/B4 弱间接正向(VLA+WM 混合架构从 Li Auto/Tesla/XPeng 扩展到越野 SUV 品类,已成车规级行业共识);(2) 自变量机器人近 20 亿元 B 轮融资(小米 / 红杉中国领投),坚持全自研端到端 VLA 基座模型 WALL-A(与微调开源路线分化)= B1 远期"全自研"路线单点信号;(3) 晶华新材披露与多家灵巧手 / 具身智能企业深度合作,部分客户小批量量产= 灵巧手供应链信号,Phase 6 基础设施弱正向
- 产业规模化"密集披露期":连续 6+ 天(04-16~04-22)产能/交付/融资/海外部署/性能里程碑/车规级量产信号——"工程/产能 > 研究" 2026-Q2 阶段性成立;全部为交付/融资/产能/车规落地,仍然没有一条触及 VLA 核心研究问题(架构/训练/闭环/数据策略);本阶段信念网络的研究侧更新几乎停滞;具身智能 12 个月累计融资 373 亿元刷新产业资本热度历史纪录
- 论文 vs 复现鸿沟系统性确认 (04-17):LeRobot 官方承认 pi0 成功率仅 30%;Lingbot-VLA 个人 20% vs 官方复测 55% vs paper 更高;小红书社区共识"论文 vs 实测 2-3x 衰减"。评估未来 VLA benchmark 数据需统一打 0.4-0.5x 折扣还原真实部署水平
- 04-22 paper-scan 回溯补扫(2604.09-17 段)产业侧关联:VLA-World for AD (SJTU+Huawei 04-10) + 长城坦克 700 Coffee Pilot 4.0 车规量产(04-20 上市,行业首款 VLA+WM 硬派 SUV)= research+product 双轨共振 gap 仅 10 天;Li Auto MindVLA-o1 / Tesla Neural World Simulator / XPeng / 长城 4 家车企 VLA+WM 路线同构;Phase 4 正式新增 AD 跨域扩散子赛道标记
- 04-23~04-24 双日静默 → 04-25 一日产业三连弹爆发:(1) 特斯拉 Optimus 第三代量产时间表(Q1 财报电话会 04-23):年中亮相 / 7-8 月弗里蒙特工厂量产 / 2026 下半年交付企业客户 / 04-24 报道扩展至 2027 年外部场景应用;(2) 智元景灵 G2 进入南昌龙旗科技 3C 精密制造产线 7×24h(04-23)——具身智能首次大规模进入消费电子核心制造环节(不是 demo / 不是仓储 / 不是简单上下料 — 是 3C 精密制造场景);(3) 自变量机器人完成近 20 亿元 B 轮(小米 / 红杉中国领投,04-23)——国内唯一获美团/阿里/字节/小米四大互联网巨头投资的具身智能公司;(4) 宇树轮足双模高动态动作演示(04-23)。判断:B1 强正向产业兑现累积第 11+ 条;C1 弱正向(WALL-B 后续报道继续推动"非 VLA 架构"叙事);产业兑现密集化 + 顶级实验室 arxiv 24 天缺席 = 学术-产业温差进入"新均衡态"假设逐步从临时反相 → 结构性现象
- 04-26 资本侧弱信号(三连):(1) 特斯拉 Optimus V3 时间表 04-24 复述延伸至 2027 外部场景;(2) 盛视科技涨停(04-24):完成 NAO 机器人资产收购,国海证券「增持」+ 招商证券「强烈推荐」;(3) 华勤技术港股上市(04-24):AI 服务器/机器人业务布局,股价大幅上涨。判断:资本侧二级股票"具身智能"标签泛化扩散到二级市场,与 VLA 研究信念节点关系弱;标记为产业全面景气信号,避免把二级股票交易行为升格为研究判断证据
- 顶级实验室 arxiv 缺席延续至 24 天(04-06~04-30 区间)——比历史 ICLR ddl 前静默期上限多 1 天,预计 5 月中下旬 ICLR 2027 ddl 后显著反弹
- 04-27 小鹏汽车量产时间表(04-25 北京车展宣布,04-27 复述):何小鹏宣布人形机器人 2026 年底量产 / 2027 全年销售 / 明年门店 10% 销售人员由机器人担任 / 预测行业增速超 NEV——工业兑现累积第 12 条独立信号;新场景维度:to-C 零售 / 经销渠道首次进入工业兑现栈(区别于 Tesla 工厂 / 智元 3C 制造 / 长城整车装配的 to-B 制造场景);CEO 车展承诺历史回测严重打折(小鹏 PX5 等过往机器人 PR 多次未见显著产品落地),明年 04-27 节点回测"门店 10% 销售人员"达成度作为可证伪性测试。2026 H2 → 2027 H1 时间窗共振:与 Tesla 7-8 月量产 + #15 Cortex 2.0 8 月复现节点 + #16 下季度工业级 latent-WM + 特斯拉 Optimus 2027 外部场景形成连续兑现节奏
- 顶级实验室 arxiv 缺席延续至 25 天(04-06~05-01 区间)——再破历史 ICLR ddl 前静默期上限 +2 天;若 5 月底 ICLR 2027 ddl 后仍持续静默 → 触发"新均衡态"假设结构性重估
- 04-28 增量整合 04-27 paper-scan v3.5.3 industrial-academic 信号:UniT (2604.19734, 04-21, XPENG Robotics + Tsinghua + HKU) = XPENG 进入"unified latent action token + cross-embodiment WM"赛道——industrial-led 用 human 视频替代机器人数据的产业级背书第 5 条(继 LIDEA / EgoVLA / SIM1 / co-training,首个 industrial-led 案例);与 PI π0.7 "数据工程" 路线 + Cortex 2.0 "工业级 latent-WM" 路线形成中-美产业实力分布对照。顶级实验室 arxiv 缺席延续至 26 天(04-06~05-02 区间)——再破历史 ICLR ddl 前静默期上限 +3 天
- 05-04 中国产学研连续输出(04-29~05-04 段):(1) HY-Embodied 0.5 (腾讯, 04-29) —— 在 04-13 HY-Embodied-0.5 发布之上的迭代信号;中国产业飞轮再添一条;(2) Magic-Mix WAM (魔法原子, 04-29) —— B4 / B1 弱 pro 累积;(3) MotuBrain (ShengShu Technology + Tsinghua, 04-29) —— ShengShu 是中国领先多模态 AI 公司(UniDiffuser 出自他们),industrial-led 比 UniT (XPENG industrial-academic) 更明确的工业含量,强候选触发预测 #16;(4) Being-H0.7 (Beihang + PKU 系 BeingBeyond Team, 04-30) —— BeingBeyond 系列旗舰 WAM(继 Being-H0 / Being-H0.5 cross-embodiment generalization),commercial trajectory 是关键观察点;(5) OpenWorldLib (北大 DCAI + 快手 Kling + 上海算法 + 中关村学院, 05-01) —— 统一世界模型推理框架,显式统一 VLA 控制接口;中国产学研协作信号(北大学术 + 快手产业 + 政府研究院);(6) 高瓴 80 亿美元募资 / 天工 Omni 预告 / Meta 收购 ARI (05-01~04) = 产业资本 / 整合层信号,不直接影响信念图。与"顶级海外实验室连续 33 天 arxiv 缺席(04-06~05-04)"形成强对照 —— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 完整缺席,Jianlan Luo 资深作者 LWD (Berkeley 系) 部分破局(但 PI / Figure 严格缺席持续刷新历史 ICLR ddl 静默期上限)
- 05-05 社交情报追溯 05-03 两条产业信号(🟡 单条社交级 retroactive,需独立验证):(1) Meta 5月3日开源 Llama 3 机器人专用模型(声称支持视动联合推理 / 降低人形机器人运动控制 + 环境感知开发门槛)—— 如属实属"通用大模型正式向具身控制层渗透"重大事件,对 B0 / B1 / C1 三节点皆有影响(C1 升格压力可能再 +1 条独立信号至第 5 条),但单条未验证社交信号不触发置信度变更;待下次 paper-scan 通过 arxiv / Meta FAIR 官方博客 / HuggingFace 仓库二次确认;(2) 美国国防部 / NVIDIA / SpaceX 540 亿美元 AI 合同(无人集群控制 + 目标生成)—— 军用机器人系统"算法主导"转变;与 VLA 研究信念图节点关系弱(除 B1 远期产业资本累积外无直接信号)。顶级实验室 arxiv 缺席延续至 34 天(04-06~05-05)—— 再破上限 +1 天;如 Meta Llama-3-Robot 属实则缺席框架需结构性修正
- 05-06 极低信号日:当日 daily-digest / paper-scan / 社交情报 三类报告全部缺席(reports 目录最新仍为 2026-05-05 daily-digest,社交情报最新仍为 2026-05-05.md);零新输入信号 = 连续 2 天信号衰减(05-04 强 → 05-05 弱社交 → 05-06 零)= ICLR 2027 ddl 前静默期 + 五一假期效应共同作用。顶级实验室 arxiv 缺席延续至 35 天(04-06~05-06)—— 再破上限 +2 天,史上最长持续刷新;PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续,Berkeley 系 LWD 部分破局后无延续。Meta Llama-3-Robot 仍待验证(05-05 retro-claim 至 05-06 无新信号确认/反驳,下次 paper-scan 关键验证窗口)。2026 H2 时间窗共振距 8 月初剩约 90 天:Tesla 7-8 月 V3 量产 + #15 Cortex 2.0 8 月复现 + #16 7-31 截止 + #22 8-04 截止 = 8 月将是 2026 年最关键的产业兑现验证月
- 🔺 05-06 paper-scan v3.6.2 + convergence-radar v3.6.3 (双报告补整合):05-06 早间 06:15 / 07:19 生成的两份关键报告在 05-06 22:30 vla-expert-memory-update 任务运行后才被发现 → 05-07 任务一并补整合。强信号窗口 6 强 + 10 中:(a) "VLA 工程化部署叙事拐点"候选 paradigm shift——MolmoAct2 + Latent Bridge + Hydra-DP3 + RL 工程化双周三连 OGPO/FAN/EnergyFlow 跨 Phase 1/2/4/5/B3/B6/B7/B9 多节点同步弯曲;论文目标从"刷 LIBERO SOTA"明显倾斜向 deployment-readiness/efficiency;35-40% prior(Bull / Bear / Arbiter 三视角辩论完整记录于 reports/cross-domain/2026-05-06-convergence-radar.md);(b) Frontier "data + recipe > 架构" 双 lab 同向背书 —— PI π0.7(西海岸闭源)+ AI2 MolmoAct2(开源)= 两个独立 frontier 实验室同向收敛;(c) TTC 入侵 VLA —— VLA-ATTC + Sentinel-VLA 同 cluster Phase 6 候选 1/15 萌芽 + 新预测 #23 立项;(d) B4 路线分化扩至 6 sub-routes(+RoboAlign-R1 reward-aligned WM 第 6 路线 cross-Phase 4×2);(e) B3 三分类 hybrid 路径第 1 条(Sentinel-VLA OC-Adapter 介于 prompt-loop 与 weight-loop 之间);(f) 新窗口 #9 / #10 立项(dual-system VLA 推理加速 ~3-6 月 / frontier open data + recipe 替代生态
6-12 月);(g) 顶级实验室 arxiv 缺席延续至 35 天 → 36 天(04-0605-07 史上最长破上限 +14 天)—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续,AI2 / Berkeley / Duke / UCB 部分破局后无延续。关键检验点(按时间顺序):2026 5 月底 ICLR 2027 ddl / 05-17 #9 π0.7 第三方复现截止 / 6 月 PI π0.8 / Figure Helix 03 / NVIDIA GR00T N2 任一发布 = paradigm shift 假设最强检验点 / 7-31 #16 latent-WM 工业级跟进 / 8-04 #22 LWD 复现 / 8-06 #23 VLA-TTC 第三方信号 / 8-22 #15 Cortex 2.0 第三方复现 - 05-07 当日零新数据:daily-digest / paper-scan / 社交情报三类报告全部缺席(reports 目录最新仍为 2026-05-06 paper-scan,社交情报最新仍为 2026-05-06.md),延续 05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 零的 3 日衰减序列;ICLR 2027 ddl(5 月底)前静默期 + 五一假期效应叠加,下周可能恢复。禁止把"信号衰减"误读为"领域降温" —— 系统应保持监测纪律对 9 项议程(5 P0 + 3 P1 + 1 P2,含新增 paradigm shift 假设 6 月观察期立项最高优先级)的追踪
- 05-08 当日零新数据(第 2 个真零新数据日):daily-digest / paper-scan / 社交情报三类报告全部缺席(reports 目录最新仍为 2026-05-07 daily-digest,社交情报最新仍为 2026-05-06.md),延续 4 日信号衰减序列(05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 中信号 paper-scanner gap → 05-08 零)。顶级实验室 arxiv 缺席延续至 37 天(04-06~05-08)—— 再破上限 +15 天,史上最长持续刷新;PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续,AI2 / Berkeley / Duke / UCB / HIT / RUC 阵营无一线"frontier"延续。B6 距 67d 校准上限反思阈值仅 3 天(05-11 触发);#9 π0.7 第三方复现 distance 进入临界 < 10 天窗口(剩 9 天);6-30 智元方法论级 VLA 论文 ddl 距今剩约 7 周(#19);8 月 = 2026 最关键产业兑现验证月(6+ 预测窗口集中:#15/#16/#22/#23 全部 8 月初/中收口 + Tesla V3 量产时间线)距 8 月初剩约 86 天。Meta Llama-3-Robot epistemic 拖延已至 5 天(05-05 retro-claim 至 05-08 仍无 arxiv / Meta FAIR 官方博客 / HuggingFace 仓库二次确认)
- 🔴 05-04 LWD 破局信号:LWD (2605.00416, Yi Wang + Jianlan Luo et al., Berkeley 系, 05-01) "Learning while Deploying: Fleet-Scale RL for Generalist Robot Policies" —— 16 dual-arm 机器人 fleet + 8 真实任务(含 semantic grocery restocking + 3-5min long-horizon)+ 单一 generalist policy 平均 95% 成功率(long-horizon gain 最大);DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) 专门为 flow-based VLA action generators 稳定 sparse-reward fleet RL;闭环:deployment → autonomous rollouts + human interventions → policy improvement → redeployment。这是自 04-17 Jupiter Zhai "real-world RL 物料被干烂" + "大规模 VLA 的 RL 做不了"社区共识下调以来,第一篇决定性反驳;触发 B1+B2+B3 三节点同步 +5%。Berkeley 系(Jianlan Luo HIL-SERL 系资深作者)出场使顶级实验室 arxiv 缺席部分破局,但 PI / Figure / NVIDIA Research / DeepMind / Tesla 严格缺席持续
-
🟢 05-28 当日快照(v2.0.28,连续 4 个低/零信号日 ×4 / 0 置信度变更 / 系统级保守偏误警报 active 32d):05-28 daily-digest(v3.6.23)= 零新数据日(arxiv 24h 0 新 VLA-relevant,2605.23~28 段未被索引延续 lag 3-5d 规律第 4 次确认;GesVLA 2605.22812 已 05-25 处理;Health-Conditioned VLA (2605.16056, ~05-15) niche 故障容错应用 health vector 关节降级补偿 = 判 Δ0 不触及 BG 节点,但此 ID 此前未出现 changelog,移交
05-30 paper-scan 2605.16 段穷举核对是否漏记;IVLR 2605.00438 旧论文;社交情报/小红书 05-28 文件均不存在,05-27 文件亦不存在)。§4 计数器全体 +1d 至 05-28:B0 41d ✅ / B1 32d 软 ✅ / B2 软 24d / 严 57d 🔴 / B3 32d 软 ✅ / B4 34d ✅ / B5 58d 🔴 / B6 84d 🆘(已破 67d 反思阈值 +17d)/ B7 严 74d / 软 29d / B8 72d 🔴 / B9 43d ✅。5 节点超阈值不变(B5 / B6 / B7-严 / B8 / B2-严)。系统级保守偏误警报持续 active 32d(上次任一信念下降 = 04-26 B1/B3 ↓ via v3.5.0 假设审计;05-26 fire)—— 05-25 hypothesis-review 已完成 B5/B6/B8 三视角对抗性裁定:表观"只升不降 over-update drift"与节点级"该降未降"是同一 calibration ceiling deadlock 两面,无任一节点存在真实"应下调"证据;本日零新数据复核确认结论仍成立 → 维持 0 变更纪律。顶级实验室 arxiv 缺席延长至 56 天(04-0605-28 史上最长 +1d,PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon/Meta FAIR;GTC 产品新闻 GR00T N1.7/N2 + Cosmos 3.0 是产品非 arxiv 不破缺席)。预测窗口倒计时:#9 已关闭;#16 数量已满足触发受阻;#22 剩 68d;#23 剩 70d;#24/#25 剩 78d;#26 剩 170d;#27 距 06-05 剩 8 天 < 2 周关键监测期(顶级实验室 56d 缺席本窗口无 rebound = 反方持续累积,最后 ~8 天关键监测)。致命实验 16/16 设有截止 0 条 7 天内到期(最早组 B0/B4/B5 均 2026-12 距 ~6 月)。🟡 数据一致性观察延续:BG §1 表 B1=72%/B2=77%/B3=72%(04-26 值)vs §4 计数器 + 本记忆 §4 B1=77%/B2=82%/B3=77%(LWD 05-04 值)差 5pp,源头 = LWD 05-04 +15pp 未传播至 §1 表 或 05-15 self-reflection #3 追溯审查待人工裁决,daily-digest 不擅自解决仅标记。BELIEF_GRAPH.md v3.6.22 → v3.6.23, 0 置信度变更, §4 计数器 +1d / §4 末警报注记追加 05-28 复核 / changelog 记录。议程积压 ≥11 P0, calibration ceiling deadlock + 人工裁决 0 落地循环仍 v3 框架级最高优先未解。 -
🟢 05-26→05-27 当日快照(v2.0.27,连续 2 个零新数据日 / 0 置信度变更 / 系统级保守偏误警报 05-26 fire):05-26 daily-digest(v3.6.19)= 零新数据日(arxiv 24h 0 新 VLA-relevant,2605.23~26 段未索引延续 lag 3-5d 规律,GesVLA/AVP 已 05-25 处理;社交情报/小红书 05-26 文件均不存在;web 浮现 Robotics Summit “ROS vs proprietary physical AI” + Figure 02 BMW Spartanburg 11 月部署里程碑 ~30000 X3/~90000 部件/~1250h = 部署/产能信号非 arxiv 非研究证据,不入 BG)。05-27 三类报告全缺席。🔴 05-26 系统级保守偏误警报正式 fire(上次下降 04-26 距今 30 天,CLAUDE.md §4.3 #4)——05-25 hypothesis-review 已履行“强制重审”裁定无应下调节点 → 维持 0 变更,不制造假变更。§4 计数器 +1d 至 05-27(B6 83d🆘 / B5 57d / B7严73d / B8 71d / B2严56d 五节点超阈值不变);顶级实验室 arxiv 缺席 55 天;#27 剩 9 天唯一近期到期项;既存 §1表 vs §4 B1/B2/B3 差 5pp 数据一致性观察留待 hypothesis-review,不擅自改值。
-
🟡 05-25 当日快照(v2.0.26,双报告日 daily-digest v3.6.16 + paper-scan v3.6.17 / 0 置信度变更 / 系统级"只升不降"警报临界):daily-digest 24h 窗口 GesVLA (2605.22812, ~05-21) gesture-aware dual-VLM + gesture 数据生成管线 = 弱 B0 / 中性 C3(保留语言 ADD gesture ≠ 移除语言)/ 弱 B6 + HiF-VLA (2512.09928 = 2025-12 旧论文, 05-22 开源+CVPR 2026 再浮现) motion 双向时序 LIBERO-Long 96.4% → 按旧论文处理不触发节点(arxiv ID 核查防"开源 ≠ 新论文"误计); paper-scan 段穷举补扫 24h 窗口漏过 4 篇: RAW-Dream (2605.12334, ~05-12) task-agnostic WM-for-RL(task-free WM + 现成 VLM reward + dual-noise verification)= Phase 2×4 交叉实证 + Phase 4 计数器 39→40/12 BG = 3.33× 历史新高(雷达 38→39/12 = 3.25×), B4 75% deadlock 阻塞 / AVP (2605.22183, ~05-22) VLM 发射 visual-primitive token 接口解耦指令/空间/运动 = B7 中正向 / PointACT (2605.21414) multi-scale point-action expert dual-system 3D = B7/B6 弱 + EvoScene-VLA (2605.21862) recurrent scene prefix(RoboTwin +2pp, 明确不计 Phase 4 归类纪律)= B7 弱; 流程更正: Hand-in-the-Loop (2605.15157) 撤销 05-21 永久 dismiss(WebSearch 独立返回区别于 DexHiL 2603.09121 = bimanual dexterous human-in-the-loop intervention, SOP false-negative 校准点, 归 B2/B3 belief 0; SOP 应增 un-dismiss 复评条款)+ 2 篇 1-strike pending(Pre-VLA 2605.22446 / Understanding Multimodal Failure 2605.22493, 不计节点不记方法细节); 段穷举 SOP 第 17 次发现漏过(2605.12 段第 3 次, 单段连续三次漏过 = 段穷举不可靠最强印证)+ 2605.18~22 段索引延迟假设第 2 次确认(lag 3-5d 稳定, 2605.23
24 仍未索引下次v2.0.26**(本 session bash mount 同步尝试 push + PowerShell fallback)。05-28 补扫); 社交情报 4 条全产业/narrative 0 触及 VLA 核心: Tesla 关 Fremont 经典车型产线转人形(非 arxiv 不破缺席)/ 脉塔智能 5000万 Pre-A/A / 智平方 AI²《VLA 过时吗?2026 回应》 VLA 重定义为 WM+类脑开放框架 narrative 防御(加固 C2 15% 下限反证但已不动)/ 福赛科技 2000万 人形专项基金。🔴 系统级元信号: 上次任一信念"降低"= 04-26(B1/B3 ↓)距今 29d, 距 CLAUDE.md §4.3 触发 #4「连续 30 天未降低任何信念置信度 → 保守偏误警报」仅剩 1 天(05-26 正式触发); 05-04 后全 ↑ = "只升不降 over-update drift" 警报临界, 与节点级 B5/B6/B7/B8 "该降未降"方向相反并存 = 校准 deadlock 双面成本, 列下次假设审计元层最高优先。保守偏误状态(05-25,全体 +4d vs 05-21):B0 (38d) ✅ / B1 (29d) ✅ / B2 (软 21d / 严 54d 🔴) / B3 (29d) ✅ / C3 (8d) ✅ / B4 (31d) ✅ / B5 (55d) 🔴 / B6 (81d) 🆘 已破 67d 反思阈值 +14d / B7 (软 26d / 严 71d05-25 史上最长 +4d, 本批零顶级实验室)。BELIEF_GRAPH.md v3.6.14 → v3.6.16(daily-digest)→ v3.6.17(paper-scan), 0 置信度变更, §4 计数器 daily-digest 已 +4d / paper-scan 不递增。议程积压 ≥10 P0 + 雷达 2 项, calibration ceiling deadlock(B0/B4/B6/B7)最高优先未解。**⚠️ ) / B8 (69d) 🔴 / B9 (40d) ✅。5 节点超阈值不变(B5/B6/B7-严/B8/B2-严)。预测窗口倒计时:#9 已关闭;#16 数量已满足触发受阻;#19 剩 36d;#22 剩 71d;#23 剩 73d;#24/#25 剩 81d;#26 剩 173d;#27 距 06-05 剩 11 天 < 2 周关键监测期(本窗口无 rebound: GesVLA 学术 / HiF-VLA 旧学术 / Tesla 非 arxiv = 反方持续累积)。顶级实验室 arxiv 严格缺席 53 天(04-06⚠️ GitHub 累积未 push v2.0.21 -
🟡 05-21 当日快照(v2.0.25,三报告日 paper-scan v3.6.12 → daily-digest v3.6.13 → convergence-radar v3.6.14 / 0 置信度变更):paper-scan 捕获 3 篇 confirmed VLA-relevant 论文(仅基于摘要,web_fetch 429):MoLA (2605.12167, Fudan/Surrey/Imperial, ~05-12) mixture of latent actions——从 imagined future video 经 mixture of pretrained inverse dynamics models 推断 latent action, 解决 video realism↔control relevance 错配 = B4 latent-WM↔video-WM 桥接独立信号 + Phase 4 反相变计数器 38→39/12 = 3.25× 历史新高(C2 15% floor 加固; B4 +5% 受 calibration ceiling deadlock 阻塞)/ WarmPrior (2605.13959, ~05-13) 用 recent action history 构建 temporal prior 替代 Gaussian source → 更直 probability path(类 Rectified Flow OT coupling)+ prior-space RL exploration reshaping = B5 弱正向(FM 框架内 refinement, 不计 Phase 1 反相变 14-15/15)+ B2 弱正向 / DeMiAn (2605.17077, ~05-16/17) dense multi-aspect 语言标注(physical motion/scene composition/arm pose/reasoning 四维 VLM 重标注)在 1M+ manipulation clips + 50K EgoVerse 上不采新数据同时提升 VLA policy + video-WAM = B0 强正向单实证("语言密度作为数据侧杠杆从固定语料榨取更多信号" = 数据工程>架构, 受 B0 77% 校准上限 deadlock 阻塞)+ C3 弱反方/作用域加固(manipulation 域语言仍有价值 → 正面验证 05-17 C3 +5% 的 AD-only 作用域注; manipulation/humanoid 推广未验证)+ B1 弱正向; 段穷举 SOP 第 16 次发现漏过(MoLA + WarmPrior 落在 05-14/05-15 声称穷举段内仍漏过, 2605.12 段第 2 次); 2605.16~18 段索引延迟假设确认成立(05-18 判定空洞 + 预测 lag 3-5d, 本次 +3d DeMiAn 2605.17077 已被索引 = 预测命中正面校准记录); AT-VLA + Hand-in-the-Loop (2605.15157) 二次 cross-ref 失败 → 永久 dismiss(按 RotVLA 2605.13403 SOP; Hand-in-the-Loop 持续映射 DexHiL 2603.09121); calibration ceiling deadlock 现横跨 4 节点 B0/B4/B6/B7(DeMiAn 新增 B0 首条显式实证压力 → framework 级系统性 deadlock 非单节点, 强烈建议下次假设审计优先); convergence-radar v3.6.14: Phase 4 主题归类校正——GuidedVLA 重归类 B7/C1 非 WM 信号 → 雷达校正口径 38/12 = 3.17×(BG 口径 39/12 = 3.25×); 工业级 latent-WAM 收敛 = 本周最强趋势(Cortex 2.0/MotuBrain/Pelican-Unified 三独立工业团队 + XPENG X-World + MoLA 桥接), 预测 #16 数量 3/1-2 超额但 B4 +5% 受 deadlock 阻塞 = framework problem; Arbiter 判定 WM 收敛真实但性质已变(学术前沿 → 工业基础设施降维, 同 tactile), "3.25×"不应误读为"WM 是热门研究方向"(恰相反); 雷达新增 2 P0(Phase 计数器主题归类纪律 + "近期速度 flow"伴随指标); 宏观工程收敛(biweekly): language_grounding 1.57 / world_model 0.69 衰退 / diffusion_policy 0.42 衰退 = "FM+RL 后训练+语言直接锚定"黄金三角; 社交情报 05-19/05-20: Figure 03 77h 无人干预分拣 + Faraday Future $25M + 萝博派对天使+轮(顺为/小米)+ 矩阵超智 MATRIX-3(33+27DoF, Q3 量产)+ 远征A3 RaaS + 云深处 IPO 受理(继宇树第 2 家 A 股人形)= 6 条全产品/融资/IPO/RaaS, 0 触及 VLA 核心研究, 仅间接弱化 B0 已饱和方向; 系统级元信号: 上次任一信念"降低"= 04-26 距今 25d(< 30d 警报线但临近 5d), 05-04 后全 ↑ = "只升不降"漂移, 与节点级"该降未降"保守偏误方向相反并存 → 下次假设审计元层审视。保守偏误状态(05-21,+3d vs 05-18):B0 (34d) ✅ / B1 (25d) ✅ / B2 (软 17d / 严 50d 🔴) / B3 (25d) ✅ / C3 (4d) ✅ / B4 (27d) ✅ / B5 (51d) 🔴 / B6 (77d) 🆘 已破 67d 反思阈值 +10d / B7 (软 22d / 严 67d
⚠️ 本日跨 67d 校准上限反思线) / B8 (65d) 🔴 / B9 (36d) ✅。预测窗口倒计时:#9 已关闭;#16 数量条件已满足但触发受阻;#19 剩 40d;#22 剩 75d;#23 剩 77d;#24/#25 剩 85d;#26 剩 177d;#27 距 06-05 剩 15 天 < 3 周关键监测期(无 rebound 信号;若 06-05 前无 rebound → "学术-产业新均衡态"元假设 +5% 时间证据)。顶级实验室 arxiv 严格缺席 49 天(04-0605-21 史上最长 +3d, 本批 3 篇零顶级实验室 = 中国/英国高校系 Fudan/Surrey/Imperial/Tsinghua)。议程积压 ≥10 P0 + 雷达新增 2 项, calibration ceiling deadlock 最高优先未解。v2.0.25)—— 本 session bash mount 同步, 尝试 bash push + PowerShell fallback 备用。⚠️ GitHub 累积未 push 5 版本(v2.0.21 -
🟧 05-18 当日快照(v2.0.24,双报告日 / 段穷举 SOP 第 15 次发现漏过 5 篇 / 0 置信度变更但结构性议程压力显著):当日 两份报告 生成 — (1) 凌晨 daily-digest = 零新数据日 (24h 0 新 VLA-relevant arxiv + vla-social-intel/2026-05-18.md 不存在 + xhs 2026-05-18 不存在 + 产业新闻 JAL/Haneda + Agility-Toyota + Figure Helix-02 均非 VLA 架构信号或已往日处理); BELIEF_GRAPH.md v3.6.9 → v3.6.10; (2) paper-scan = 段编号穷举 SOP 第 15 次回溯发现 5 篇漏过的 VLA-relevant 论文: ALAM (2605.10819, 05-11) algebraic latent action + composition/reversal regularization + joint FM (MetaWorld MT50 +37.1pp baseline 弱 reservation + additivity errors -25-85×) = C1 弱-中正向第 8 条 / SEVO (2605.11114, 05-11) semantic-enhanced virtual observation + ablation 直接验证 "data > architecture" (ACT 95→85% novel env) = B0 弱正向 / GuidedVLA (2605.12369, 05-12) plug-and-play action attention head specialization (object/spatial/temporal 三 head 监督) = B7 中正向 + C1 弱正向第 9 条 / 🟠 Pelican-Unified 1.0 (2605.15153, X-Humanoid, 05-14) unified VLM + UFG joint future video + 未来动作 denoising + WorldArena #1 + RoboTwin #2 = 工业级 latent-WAM 第 3 条独立信号 (Cortex 2.0 / MotuBrain / Pelican-Unified) 正式满足预测 #16 数量条件 3/1-2 超额, 但触发条件受 B4 75% 校准上限 deadlock 阻塞 → 升格至 P0 议程 + 同时审议 calibration ceiling rule 三档方案 / Hand-in-the-Loop (2605.15157) dexterous VLA seamless interventional correction (论文细节 cross-ref 3 次失败 1-strike pending dismiss); 附 AT-VLA "Adaptive Tactile Injection" 1-strike pending dismiss; Phase 4 (WM 闭环) 反相变计数器 35/12 → 38/12 = 3.17× 历史新高 (+ALAM latent transition / +GuidedVLA attention head / +Pelican-Unified UFG); C1 同向独立信号链累积至 9 条 ≥ 中-强 6 条, 距 40% 升格阈值仍 5pp 不变, 但逆共识保护 ΔI 阈值 1/3 已生效 → C1 升格审议升格至下次 hypothesis-audit P0; 置信度净变更 = 0 (所有强证据信号在 calibration ceiling deadlock + 单论文未达 ±5% 门槛下被 v3 校准纪律阻塞); 新 P0 议程项 5 项立项 (calibration ceiling framework 决议 / 预测 #16 处理 / C1 正式升格审议 / 段穷举 SOP v2 草案 / B6 unified vs hierarchical 子议题); 新 P1 议程项 5 项立项 (三篇全文 deep read + Hand-in-the-Loop / AT-VLA arxiv abs cross-ref); RotVLA 2605.13403 累计 3 次 cross-ref 失败 → 永久 dismiss (3-strikes-out 规则正式触发); BELIEF_GRAPH.md v3.6.10 → v3.6.11; 顶级实验室 arxiv 严格缺席 46 天 (04-06~05-18 +1d 跨过 45d 结构性升级线 +1d) + 本批 5 篇 confirmed 论文 零顶级实验室 (X-Humanoid + SJTU/Tsinghua/HIT 中国系大学/工业链), 学术-产业新均衡态假设证据继续累积; 议程积压 = 5 项 05-15 self-reflection P0 + 5 项本次新增 P0 = 10 项 P0, calibration ceiling deadlock 最高优先级阻塞。保守偏误状态(05-18,+1d):B0 (31d) ✅ / B1 (22d) ✅ / B2 (软 14d / 严 47d 🔴) / B3 (22d) ✅ / C3 (1d) ✅ / B4 (24d) ✅ / B5 (48d) 🔴 / B6 (74d) 🆘 已破 67d 校准上限反思阈值 +7d / B7 (软 19d / 严 64d
⚠️ ) / B8 (62d) 🔴 / B9 (33d) ✅。05-15 self-reflection 6 项人工裁决 24h 落地数 = 0 累积至第 3 天("修正零落地"模式持续)。预测窗口倒计时:#9 已关闭(05-17 上午 hypothesis-review 关闭为反方);#19 6-30 剩 43d;#22 剩 78d;#23 剩 80d;#24/#25 剩 88d;#26 剩 180d;#27 距 06-05 剩 18 天 < 3 周关键监测期 → 05-19 起每日跟踪。⚠️ GitHub 累积未 push 4 版本(v2.0.21+v2.0.22+v2.0.23+v2.0.24)—— PowerShell 手动 push 必须包含四版合并 commit。 -
🟡 05-17 当日快照(v2.0.23,单弱社交信号日 / 双结构性阈值同日触发):daily-digest / paper-scan / 小红书继续缺席(reports 目录最新仍为 05-15-daily-digest + 05-15-paper-scan);仅社交情报 vla-social-intel/2026-05-17.md 存在 = 单条弱信号:小鹏汽车 5/15 科技日发布第二代 VLA 模型(声称"首款量产物理世界大模型" + 端到端架构视觉信号直达动作指令 + 跨汽车/Robotaxi/机器人/飞行汽车跨域 + 无需语言翻译中介),单条社交宣传级 + 缺二次独立验证 → 不触发任何节点变更(v3 校准 + 05-12 v2.0.19 新 SOP);正确归类 B1 弱正向远期产业飞轮第 N 条(车企 VLA 产品化第 2 条,继 04-20 长城坦克 700 后)+ C3 间接弱(删除语言中介架构信号未达 C3 升格证据门槛)。🆘 结构性阈值 1 触发:顶级实验室 arxiv 严格缺席达 45 天(04-06~05-17,达 v3.5.5 立项的"≥45d 即升格结构性认识论问题"线整数关口,史上最长 +23 天)—— PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon/Meta FAIR 严格缺席持续;scheduled task 不擅自执行升格判决,仅记录阈值已达;预测 #27 距 06-05 剩 19d 缓冲区开始消耗。🆘 结构性阈值 2 触发:预测 #9(π0.7 第三方独立复现 "match specialist")到期 = 今日 05-17——v2.0.22 §6.1 要求"05-17 当日或之后首份 daily-digest 必须主动判决并执行 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方";本任务不擅自执行预测判决(属人工/daily-digest 议程),但记录 #9 已到期 + v2.0.21/22/23 三次 WebSearch 均零结果。保守偏误状态(05-17,+1d):B0 (30d) ✅ / B1 (21d) ✅ / B2 (软 13d / 严 46d 🔴) / B3 (21d) ✅ / B4 (23d) ✅ / B5 (47d) 🔴 / B6 (73d) 🆘 已破 67d 校准上限反思阈值 +6d / B7 (软 18d / 严 63d
⚠️ ) / B8 (61d) 🔴 / B9 (32d) ✅。05-15 self-reflection 6 项人工裁决 24h 落地数 = 0 累积至第 2 天("修正零落地"模式持续)。预测窗口倒计时:#9 = 已到期 0d(待 daily-digest 判决);#19 6-30 剩 44d;#22 剩 79d;#23 剩 81d;#24/#25 剩 89d;#26 剩 181d;#27 距 06-05 剩 19d。⚠️ GitHub 累积未 push 3 版本(v2.0.21+v2.0.22+v2.0.23)—— PowerShell 手动 push 必须包含三版合并 commit。 -
🟧 05-12 v2.0.19 补充修正快照(cross-reference verification 触发的 4 项重大修正):在 v2.0.18 发布后用户提示"再收集更多",触发 primary-source verification 流程,发现 (1) Jim Fan WAM declaration 实际日期 04-20(Sequoia AI Ascent 第四届)非中文社交情报反复声称的 5月9日,社交 pipeline 拖延 19 天且伴随框架性夸大(实际表态"VLA architecture fundamentally misaligned"对应中文"VLA 已死"sensationalism);(2) Jim Fan 实际方法论"pretrain world model + action FT + RL final mile" = 现有 B4 latent-WM-as-planner + B2 RL post-training 路线工业级 endorsement,非新范式;(3) v2.0.18 把 Jim Fan 定位为"C1 升格 7th aligned signal"为过度解读——撤销该定位,正确归类为 B0/B4 frontier-tier consolidation signal,C1 维持 35% 距升格阈值仍 5pp;(4) paper-scan blackout 窗口(05-08~12)期间遗漏 4 篇 arxiv 论文:EA-WM (2605.06192, 05-07, Fudan/Zhongguancun/USTC/DeepCybo) Event-Aware Generative WM + OA-WAM (2605.06481, 05-07, Tsinghua/SJTU/NTU) Object-Addressable WAM + BioProVLA-Agent (2605.07306, 05-08) biolab cross-domain + Drifting Field Policy (2605.07727, 05-08, KAIST) one-step Wasserstein gradient flow non-FM/non-diffusion;这 4 篇属于真实的 paper-level 增量。WAM cluster 已存在——arxiv 已有 DreamZero / Fast-WAM (2603.16666, March) / X-WAM (2604.26694) / "Do WAMs Generalize Better than VLAs?" (2603.22078) / Being-H0.7 / 现在 EA-WM + OA-WAM = 至少 7-9 团队跨 video-diffusion + latent + Hamiltonian 三种 backbone;Jim Fan 演讲不是引入新概念,是已有研究方向工业级 PR endorsement。Phase 计数器修正:Phase 1 反相变 14 → 15/15 临界达到(DFP 待 paper-scan 全文裁决与 FM 独立性);Phase 4 WM 闭环 30/12 → 32/12 严重超临界 2.67×(+EA-WM +OA-WAM);Phase 5 跨具身 17/12 → 18/12(+BioProVLA-Agent 弱)。置信度变更:净 0 —— B4 校准上限维持 75% 不动 / B0 prior 隐含 / C1 撤销 v2.0.18 隐含升格压力维持 35% / Phase 1 临界 15/15 触发 paper-scan 全文裁决议程(DFP 范式独立性判定)。新 SOP:外部宣言级信号 → 强制 web cross-ref(>2 independent sources + 日期 + literal 引述)→ 再决定 belief graph 处理(v2.0.18 footer 即首次违反此规则的教训)。下次 hypothesis audit P0 修正:移除"C1 升格正式提案",新增"WAM 作为 B4 sub-route 1 内部 cluster 是否 split 独立追踪节点"+"Phase 1 临界 15/15 paper-scan 全文裁决 DFP 是否计第 15 条"。
-
🔴 05-12 当日快照(v2.0.18,5 日来首次实质性输入 → 部分信号衰减序列终结):5 天 paper-scan 报告全空(05-08~12 reports 目录无任何 paper-scan/daily-digest 文件)但社交情报实质性恢复 → 核心信号 = Jim Fan (NVIDIA) 红杉 AI Ascent 峰会 05-09 公开宣告"VLA 范式已触顶",转向 World Action Models (WAM) + 人类第一人称视频预训练 / 遥操作路线将被淘汰(05-11/12 社交情报二次报道确认)。这是 paradigm-shift hypothesis(35-40% prior,05-06 立项)以来 NVIDIA 一线人员首次公开表态,学术静默期内含金量最高的单点信号。按 v3 校准纪律:frontier-tier 研究员公开宣言 ≠ 论文证据,单条不触发置信度变更 → 定位为 C1 升格审查关键证据第 7 条同向独立信号,下次假设审计 P0 议程从"立项"升级为 C1 升格正式提案。🔵 Bear 反方负担:Jim Fan 言论 / 论文证据二分法 — 如 NVIDIA 6 月前无 GR00T-WAM 雏形论文,宣言权重折半;如 PI π0.8 / Figure Helix 03 在 6 月窗口发布且未转向 WAM,则 paradigm-shift hypothesis 反向衰减。WAM 与 B4 latent-WM 路线关系:WAM = "替代 VLA"而 latent-WM = "VLA 内部子路线",定位更激进;如 WAM 概念成立则 B0/B1 高置信度叙事重大冲击。保守偏误状态(05-12,+4d from 05-08):B0 (25d) ✅ / B1 (8d) ✅ / B2 (8d) ✅ / B3 (8d) ✅ / B4 (18d) ✅ / B5 (42d) 🔴 / B6 (68d) 🔴 已超 67d 校准上限反思阈值 +1 天 → 强制反思事件触发 / B7 (13d 软 / 58d 严)
⚠️ / B8 (56d) 🔴 / B9 (27d) ✅。B6 67d 阈值触发:v3 校准纪律强制要求下次假设审计 P0 议程从"反思"升级为"裁决"。预测窗口倒计时:#9 距 05-17 剩 5 天(π0.7 第三方复现 "match specialist",进入紧急 <5 天窗口);#15 距 2026-08-22 剩 ~3.4 月;#16 距 2026-07-31 剩 ~2.6 月;#17 距 2026-10-25 剩5.4 月;#18 距 2026-10-24 剩 ~5.4 月(星动纪元-顺丰 5/8 融资是首条方向性证据);#19 智元方法论级 VLA ddl 距 6-30 剩 ~7 周(49 天);#22 LWD 复现追踪距 2026-08-04 剩 84 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 86 天。顶级实验室 arxiv 缺席延续至 41 天(04-0605-12 史上最长再破上限 +19 天),但 Jim Fan 红杉峰会公开表态 = 静默期内 NVIDIA Research 一线 paradigm 信号最强单点。Meta Llama-3-Robot epistemic 拖延已至 9 天(05-05 retro-claim 至 05-12 无验证),倾向 Bear "可能为社交渠道错传或产品级而非研究级",单条社交信号 9 天仍不下结论。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 82 天(6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据)。下次假设审计 P0 议程更新(05-1314 触发):(1) NEW Jim Fan paradigm 表态 → C1 升格正式提案;(2) B6 67d 阈值触发裁决;(3) paradigm shift hypothesis 6-month observation 进入第 2 个月评估窗口;(4) MotuBrain industrial 边界 judgment(#16);(5) B3 三分类拆分;(6) B8 trigger 标准结构化拆分;(7) B5 反相变 13/15 vs HDFlow 边界裁决;(8) Meta Llama-3-Robot 9 日拖延升格审查。 -
执行层收敛:Action Head(Flow Matching 胜) + 后训练(RL 胜)
-
认知层发散:World Model 多路径探索(pixel→latent→structured planner→feature-extractor 四条路线)
-
领域处于"修 bug 阶段":174 篇论文仅 3 篇突破性(1.7%),无架构创新
-
方法论讨论热度首次超过实验室动态 — 从"谁在做"转向"怎么做"
-
🔴 04-06 重要转折:B0/B1 双主流信念首次同步审查(B0 下调至 80%/72%),C1 逆共识逼近升格(35%,距阈值 5%)。"数据绝对优先"叙事正式松动,"数据+架构乘数效应"成为新框架
-
ICLR 2026 全景:164 篇 VLA 提交(vs ICLR 2025 的 9 篇, 18× 增长);VLM backbone 与下游 VLA 性能无相关性(VLM4VLA);零样本差距巨大(开源 VLA << π0.5/Gemini-Robotics);数据质量研究极少(OXE "大部分低质量数据")
-
GTC 2026 产业信号:GR00T N1.7→N2(研究品→商业部署)、Kairos 3.0(WM 延迟瓶颈被解决)、UR AI Trainer(数据飞轮产品化)——产业加速度明显快于学术
-
04-10 趋势:VLA 基础设施标准化加速(StarVLA+LeRobot 双框架),Speculative Execution 进入 VLA(SV-VLA),学术顶级信号连续 5+ 天缺席但 arXiv 产出持续
-
04-11 低信号日:ViVa(video generation 做 value estimation,Phase 2×4 新变体),HEX(人形 MoE VLA),Xbotics A₁(FM 推理加速-72%)。顶级实验室信号连续 7+ 天缺席
-
🟡 C3 累积观察:04-12 扩大扫描 11/60 篇呈 action-centric/language-free 倾向(HEX/UniLACT/ActiveGlasses/Reflection-Based VLA 等)。C3 当前 24%,如持续 2-3 周 >15% 占比则 +5%
-
04-13 论文扫描重要发现:HY-Embodied-0.5(腾讯开源 2B MoT + 32B,self-evolving post-training,B9 第 5 条边缘信号);SIM1(合成数据 1:15 等价比,B1 弱下行但限定域);SV-VLA(Speculative Verification,B6 新累积)。趋势:VLA 基础设施成熟化 + 边缘部署持续验证 + 数据合成替代收集
-
04-14 低信号日:VLA-Forget(unlearning/安全,B3 间接)、AEROS(模块化,B6 弱)、DECO/TaSA(触觉累积,B8 弱)。A₁ VLA 推理成本-76.6%(B9 第 6 条边缘信号)。顶级实验室信号连续 10 天缺席(可能 ICRA/RSS 投稿沉默期)
-
04-15 双周元审计执行:B9 上调 70→75%(6 条独立边缘推理信号触发累积更新规则)。B8 致命实验重新定义。审计发现"14 天零更新 = 结构性保守偏误",建立累积更新规则(≥3 条同向 = 强制审查)
-
04-15 论文扫描批次:ProGAL-VLA(3D entity-centric graph 修复 language ignorance,B6 弱正向 + C3 弱反方);ViVa(video-generative value model,Phase 2×4 弱累积);Action Images(视频生成即策略,无独立 action head——B7 反方第 2 条 + C1 弱正向);JailWAM(WAM 84.2% 攻击成功率,B3/B4 弱累积);GIRL(latent WM + DINOv2 hallucination control);FlashSAC(off-policy RL hours→minutes)
-
🆕 趋势确认:「视频生成即策略」路线成形——Action Images + ViVa + 此前 Video Generators are Robot Policies = 3+ 条独立信号挑战 action head 解耦正统。无产业跟进 = 潜在新套利窗口
-
⚠️ 系统级保守偏误(04-17):B1(43d)/B6(43d)/B7(33d)/B8(31d) 🔴 四节点同时超阈值;B0 刚上调重置。B6 本批次 4 条分层正向累积使下调建议失去理由;B1 下行压力在增强(Co-training 方法论化) -
04-16 🔴 HiVLA 重要发现:HKU Ping Luo 组独立到达 VLM-planner+FM-DiT-executor 分层架构,与 ProGAL-VLA/SV-VLA/HY-Embodied 形成分层架构累积第 4 条独立信号
-
04-17 🔺 π0.7 发布(2026 年最大单日产业信号):PI 产业级背书"数据工程 > 架构创新";B0 上调 72→77% 恢复父子一致性;Episode Metadata 首次把 LLM 领域"质量标签控生成"迁移到 VLA,数据标注成为下一个差异化战场
-
04-17 Arxiv 16 篇扫描核心发现:(1) WAV/GIRL/ViVa 一周 3 条 → latent-WM planner 路线共识,Phase 4 计数器 16/12;(2) Yuke Zhu 组 co-training 机制分析 + SIM1 = B1 隐性下行压力累积;(3) SpaceMind/EEAgent/KITE/FIDeL 4 条 prompt-level self-evolution 集中出现,B3 叙事稀释风险;(4) Goal2Skill RMBench 32.4% vs 9.8% 大 gap 验证分层架构价值
-
04-18 低信号日:FluxVLA Engine 社交情报(B6 第 9 条 + B1 工程门槛下降);Tesla Optimus 上海量产线确认;UBTech Walker S2 量产交付。顶级实验室 arxiv 信号连续 14 天缺席
-
04-19 产业密集披露日:5 条产业信号(宇树动态控制 + 智元 10.5 亿营收 + 优必选 Walker S2 → 德国 ROSSMANN 物流(中国人形首条海外商用) + 领益 1 万台产能 + Faraday Future 存疑)——全部交付/融资/产能,无一条触及 VLA 核心研究问题;本阶段信念网络研究侧更新几乎停滞
-
04-20 低信号日 + VGA 回溯补录:连续 3 天 arxiv 空档(04-18/04-19/04-20)+ 顶级实验室 15 天缺席(04-06~04-20)= 学术静默期结构性确认(ICLR 2027 ddl 前)。回溯补录 VGA (2604.12908, 04-14 submission) —— vision-to-geometry backbone 替代 VLM/video 语义表示主张,C3/B7/C1 间接弱正向;扫描间隙漏过教训 → 新 SOP "2604 段空洞补扫"
-
04-21 增量更新(定时任务):无新 daily-digest / paper-scan(当日尚未生成);04-20 社交情报补齐发现 4 条 04-18 融资(它石 30 亿/极佳 15 亿/DeepSeek $10B+ 估值/FF 存疑)——对 B1 远期飞轮资本热度累积,不触发置信度变更。顶级实验室 arxiv 连续 16 天缺席(04-06~04-21)。保守偏误 +1 天:B1=47d / B6=47d / B7=37d / B8=35d 🔴;B3=28d
⚠️ (距 30d 阈值仅 2 天,04-23 扫描即触发)。预测窗口倒计时:#11 剩 3 天(04-24 到期);#12 距 4/25 剩 4 天。DeepSeek 跨界是 LLM 巨头首次具身侧重投,C1 / B0 弱间接观察(新玩家资本密度→架构/数据策略分化可能提前) -
04-22 增量更新(定时任务):无新 daily-digest / paper-scan;04-21 社交情报披露 3 条纪录级信号——荣耀闪电机器人半马人形组冠军 50:26 破人类世界纪录(57:20,包揽前三);DeepSeek 680 亿 RMB 估值首轮融资启动(相对前值细化);银河通用 25 亿国资首次大规模入场,具身赛道 12 个月累计融资 373 亿元。04-22 社交情报补充 3 条——长城坦克 700 Coffee Pilot 4.0 成行业首款 VLA+WM 车规量产硬派 SUV(04-20 上市);自变量机器人 20 亿 B 轮(小米/红杉领投,全自研 WALL-A);晶华新材灵巧手小批量量产
-
04-22 paper-scan 回溯补扫(2604.09-13 / 16-17 段)发现 7 篇前期漏过论文:(1) Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14) — 首个 latent tactile 预测方法论化 +30% > raw, 5 任务 +90.9%(B8 方法论级累积第 8 条);(2) LIDEA (2604.10677, SJTU Cewu Lu+Yong-Lu Li, 04-12) — 80% 人类视频替代机器人演示(B1 绕过路径第 N+1 条 + C1 架构贡献);(3) VLA-World for AD (2604.09059, SJTU+Huawei, 04-10) — 自动驾驶域 VLA+WM 统一架构(Phase 4 跨域扩散 AD 子域);(4) I2RLC (2604.16850, OMRON+Waseda) — 10× 演示加速 + peg-in-hole 100%;(5) Web-Gewu (2604.17050) — Browser-based RL playground;(6) Mini-BEHAVIOR-Gran (2604.17019) — 指令粒度 U 形效应;(7) Seeing Through Touch (2604.11579, KAIST) — 触觉→视觉材质定位 perception。方法论级共识跨模态形成:WAV+GIRL+ViVa+Touch Dreaming = "latent 预测 > raw 预测"跨视觉/动作/触觉 4 modality 4 团队独立收敛 → C2 下限构成反证压力;建立新套利窗口 #6 Latent 预测方法论(~3-6 月)。扫描系统性偏差立项(5 次漏过达系统化阈值)
-
🔺 04-24 paper-scan 关键发现 → B4 70→75% (+5%):Cortex 2.0 (Sereact, 2604.20246, 04-22) 工业 VLA + visual latent space WM + Process-Reward Operator + flow-based heads 四级显式分层 = 第 4 个独立 latent-WM planner 团队 + 首次跨越 academic→industrial 鸿沟;预测 #11 严格口径触发。同期 RoboWM-Bench (2604.19092, 04-21) video WM 物理可执行性 benchmark = B4 内部子路线分化明朗。04-24 paper-scan 漏过 SOP 第 2 次成功执行:累计漏过 10 次 → 4/25 议程 P0
-
🔺 04-25 daily-digest:(1) Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23) = latent-WM 第 5 团队(学术 4 + 工业 1), WM-as-post-training-substrate 应用变体;(2) 2604.21192 "How VLAs (Really) Work In Open-World Environments" = BEHAVIOR1K 50 任务评估方法论首次系统化暴露 SOTA 真实差距,B1 审计弹药再加码;(3) EmbodiedMidtrain (2604.20012) VLM↔VLA 数据分布对齐 mid-training 阶段;(4) 04-23 一日产业三连弹:特斯拉 V3 量产时间表 + 智元景灵 G2 进入 3C 产线 7×24h(首次大规模 3C 精密制造)+ 自变量近 20 亿 B 轮(四大互联网巨头)。新增预测 #17 (Hi-WM 范式 6 月内 Tier-1 复现 → B2 反方升格审查, 到期 2026-10-25)
-
🔺 04-26 v3.5.0 假设审计执行 B1 77→72% / B3 77→72%:51 天 / 32 天保守偏误压力释放,依赖链一致性恢复(B3 ≤ min(B1,B2) = 72%)。Bull 反向论点(产业兑现 11+ 条)成立但被重新解释为"产业飞轮 ≠ 学术研究核心壁垒"。预测 #12 ✅ 关闭。B3 定义切分议题 "权重闭环" vs "prompt/memory 闭环" 仍待人工 reflection 事件触发——本审计仅做置信度调整。依赖链新隐患:B4 (75%) > B1 (72%) 3pp,若 B4 75→80% 触发(#16)需同时复审 B1 校准
-
04-26 daily-digest(v3.5.1, 紧随当日 v3.5.0 之后增量扫描):低信号日。2604.20-21 段补扫 SOP 第 4 次执行单独捕获 PokéVLA (2604.20834, 04-21 段) 1.22B params LIBERO 98.2% / Long suite 95.2%(CoT-VLA 69 / WorldVLA 54)= B9 累积第 7 条独立信号——参数预算结构性新低,单条不达 ±5% 门槛维持 75%。04-26 资本侧弱信号(盛视 NAO 收购 + 华勤港股上市)= "具身智能"标签 hype 扩散到二级股票,与 VLA 研究信念节点关系弱。顶级实验室 arxiv 连续 24 天缺席(04-06~04-30)破历史 ICLR ddl 前静默期上限 +1 天
-
保守偏误状态(04-26):B1 (0d) ✅ 重置 / B3 (0d) ✅ 重置 / B4 (2d) ✅ / B6 (52d) / B7 (42d) / B8 (40d) 🔴 三节点持续超阈值,v3.5.0 已审查并维持,标记"已审查-趋势确认未达上调阈值"——B6/B7/B8 下次 trigger 条件需对应实证:B6 端到端 humanoid 全身控制 / B7 统一 token 真机长时程击败解耦 / B8 触觉+latent 第 9 条独立方法论信号
-
社区复现鸿沟系统性确认:LeRobot pi0 官方 30%/Lingbot 55 vs paper 更高——未来 benchmark 数据需统一打 0.4-0.5x 折扣还原真实部署水平
-
预测追踪(04-26 后):#9 π0.7 第三方复现"match specialist"(到期 05-17,剩 21 天);#11 ✅ 关闭 (Cortex 2.0 04-24);#12 ✅ 关闭 (B1 77→72% v3.5.0 04-26 执行);#15 Cortex 2.0 第三方独立复现达 SOTA(到期 2026-08-22,剩 4 月);#16 下季度 1-2 条 latent-WM 工业级跟进 → B4 75→80%(到期 2026-07-31,剩 3 月,Hi-WM 学术应用变体不计入);#17 Hi-WM 范式 6 月内 Tier-1 复现 → B2 反方升格审查(到期 2026-10-25,剩 6 月)
-
2026 Q3/Q1 产业兑现密集窗口:#15 Cortex 2.0 8 月复现节点 + #16 下季度工业级 latent-WM 跟进 + 特斯拉 Optimus 2027 外部场景时间窗共振(2026 Q3 → 2027 Q1)值得密集监测
-
04-27 daily-digest(v3.5.2,低信号日):arxiv 0 篇新 VLA 论文 + 社交情报 1 条复述(小鹏汽车 04-25 北京车展量产时间表)= 工业兑现累积第 12 条 + to-C 零售场景新维度首次进入工业兑现栈。无置信度变更(4 条信号皆未跨 ±5% 门槛)。保守偏误状态(04-27):B6 (53d) / B7 (43d) / B8 (41d) 🔴 三节点持续超阈值(v3.5.0 已审查并维持);B1 (1d) / B3 (1d) ✅ 04-26 重置后正常。顶级实验室 arxiv 缺席 25 天 = 历史最长,再破上限 +2 天。低信号日的存在本身是数据点:表明前一周 04-21~04-26 密集信号期已被系统性消化。🆕 内部回测节点:明年 04-27 检视小鹏"门店 10% 销售人员"达成度
-
🔺 04-27 paper-scan(v3.5.3)2604.18-25 段补扫发现 daily-digest 漏过 6 篇论文:(1) CorridorVLA (2604.21241, 04-23) 中-强信号 — sparse spatial anchors + corridor tolerance loss 约束 FM action head;跨 SmolVLA + GR00T 双 backbone 验证;LIBERO-Plus +3.4% ~ +12.4%;GR00T-Corr 83.21%。B5 / B7 弱正向 + C1 (35%
⚠️ ) 弱-中正向累积 = 显式空间约束第 3 条独立信号(VGA + ProGAL-VLA + CorridorVLA),距 C1 升格阈值仅 4-5pp——下次再出 1 条同向(非 PI 锚定)即触发升格审查。(2) UniT (2604.19734, 04-21, XPENG + Tsinghua + HKU industrial-academic) 中信号 — 三分支 cross-reconstruction (action↔vision↔fusion) → unified discrete latent action token + 二联应用 VLA-UniT (policy) + WM-UniT (world model)。B1 弱负向(人类视频替代第 5 条 + 首个 industrial-led 案例)/ B4 弱正向(latent-WM 应用变体第 3 条)/ B6 / B7 双向 / C3 中性偏负。(3) AEL (2604.21725, 04-23, Rutgers) 弱-中信号 — Thompson Sampling bandit + LLM 反思双时间尺度 self-evolution;B3 弱负向累积:prompt-level self-evolution 第 8+ 条。(4) EvoAgent (2604.20133, 04-22) + (5) SynAgent (2604.18557, 04-20) + (6) EUEA (2604.19839, 04-21, UNIST) 弱信号 — B6 弱正向 / B1 弱反方 / B3 弱反方累积。趋势观察:(a) 显式空间约束架构第 3 条(C1 升格压力);(b) 人类视频替代第 5 条独立信号 + 首个 industrial-led;(c) prompt/memory 自进化第 8+ 条(B3 节点定义切分议程继续累积压力);(d) 顶级实验室 arxiv 缺席延续至 26 天,再破上限 +3 天;(e) 扫描漏过累计 11 次系统性偏差立项 → SOP 升级建议(段编号穷举 + 关键词矩阵化) -
04-28 增量更新(定时任务):当日尚无 daily-digest / paper-scan 生成。整合 04-27 paper-scan v3.5.3 的 6 篇论文 + 新趋势观察。保守偏误 +1 天(04-28):B0 (11d) ✅ / B1 (2d) ✅ / B2 (28d) ✅ / B3 (2d) ✅ / B4 (4d) ✅ / B5 (28d) ✅ / B6 (54d) / B7 (44d) / B8 (42d) 🔴 三节点持续超阈值(v3.5.0 已审查并维持)/ B9 (13d) ✅。预测窗口倒计时:#9 距 05-17 剩 19 天;WALL-B 5/25 软启动剩 27 天;#15 距 2026-08-22 剩 ~4 个月;#16 距 2026-07-31 剩 ~3 个月;#17 距 2026-10-25 剩 ~6 个月。Phase 4 计数器 24/12(+UniT WM-UniT 第 6 latent-WM 应用变体)。套利窗口 #6 latent 预测方法论:跨模态 5 团队(WAV/GIRL/ViVa/Touch Dreaming/UniT WM-UniT)已扩展到 cross-embodiment + industrial-academic
-
04-29 paper-scan v3.6.1 强信号窗口:MotuBrain (2604.27792, ShengShu Tech + Tsinghua, 04-29) = 第 7 latent-WAM 团队 + 第 2 industrial-led(unified MoT 5 distributions)+ Being-H0.7 (2605.00078, BeingBeyond, ~05-01) + LaST-R1 (2604.28192, 04-30) annotation-free RL Clip-GRPO LIBERO 99.8% + LWD (2605.00416, 05-01) 严格"权重闭环"信号(暂不执行 +5%,B3 切分议程关键证据)+ ExoActor (2604.27711, BAAI, 04-29) 视频生成即策略第 4 条 + Lucid-XR (2605.00244, 05-01) XR 数据引擎合成数据零样本迁移 + Embodied Interpretability (2605.00321, ICML 2026 主会, 05-01) illusion of embodied reasoning 4 失败模式(C1 升格压力)+ Robot Learning from Human Videos Survey (2604.27621) + WM Survey (2605.00080) + Physically Native WM (2605.00412) Hamiltonian-based + Curiosity-Critic (2604.18701) / GNWM (2604.16585) WM 训练方法论。累积压力:C1 距升格 5pp + B3 LWD 关键定据 + B4 强候选触发 #16 + Phase 4 23/12→27/12(严重超临界 2.25x)
-
05-05 增量更新(定时任务,🟢 低信号日):当日无 daily-digest / paper-scan 报告生成,BELIEF_GRAPH.md 维持 v3.6.1(05-04 paper-scanner 权威状态)。唯一新数据 = 社交情报 2026-05-05.md 追溯 05-03 两条产业信号 → (a) Meta 开源 Llama 3 机器人专用模型 🟡 待验证(如属实属"通用大模型正式向具身控制层渗透",对 B0 / B1 / C1 皆有影响;单条未验证社交信号按 v3 校准纪律不触发置信度变更);(b) 美国国防部 / NVIDIA / SpaceX 540 亿美元 AI 合同(军用机器人,与 VLA 研究信念图关系弱)。保守偏误 +1 天:B0 (18d) / B1 (1d) / B2 (1d) / B3 (1d) / B4 (11d) / B5 (35d) 🔴 / B6 (61d) 🔴 / B7 (6d) / B8 (49d) 🔴 / B9 (20d)。顶级实验室 arxiv 缺席延续至 34 天(04-06~05-05),再破上限 +1 天,PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续。预测窗口倒计时:#9 距 05-17 剩 12 天;#15 距 2026-08-22 剩 ~3.5 月;#16 距 2026-07-31 剩 ~3 月;#17 距 2026-10-25 剩
6 月;#22 LWD 复现追踪距 2026-08-04 剩 91 天。低信号日记录价值:系统性消化前一周 04-2905-04 高密度信号期;Meta Llama-3-Robot 待验证标记如下次扫描确实属实,则 05-05 单点社交雷达"领先一日"为系统增益(epistemic data point) -
05-06 增量更新(定时任务,🟢 极低信号日 / 零新数据日):当日 daily-digest / paper-scan / 社交情报 三类报告全部缺席(reports 目录最新仍为 2026-05-05 daily-digest,社交情报最新仍为 2026-05-05.md),BELIEF_GRAPH.md 维持 v3.6.1(05-04 paper-scanner 权威状态)。零新输入信号——本任务唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 35 天(再破上限 +2 天,史上最长持续刷新)+ 预测窗口倒计时。保守偏误 +1 天:B0 (19d) ✅ / B1 (2d) ✅ / B2 (2d) ✅ / B3 (2d) ✅ / B4 (12d) ✅ / B5 (36d) 🔴 / B6 (62d) 🔴 / B7 (7d) ✅ / B8 (50d) 🔴 半百整数关口 / B9 (21d) ✅。B5/B6/B8 三红节点持续,B8 50 天整数关口本身是结构性数据点(触觉学术端 momentum 0.26x 衰退共识 + arxiv 端再无第 9 条独立方法论级 latent tactile 信号)。预测窗口倒计时:#9 距 05-17 剩 11 天(π0.7 第三方复现 "match specialist",临近);#15 距 2026-08-22 剩 ~3.5 月;#16 距 2026-07-31 剩 ~2.8 月(MotuBrain industrial 边界 5 月中假设审计待执行);#17 距 2026-10-25 剩 ~5.5 月;#22 LWD 复现追踪距 2026-08-04 剩 90 天整。Meta Llama-3-Robot 仍待验证(05-05 retro-claim 至 05-06 无新信号确认/反驳)。2026 H2 时间窗共振距 8 月初剩约 90 天——8 月将是 2026 年最关键的产业兑现验证月。信号衰减不等于领域降温:连续 2 天信号衰减(05-04 强 → 05-05 弱社交 → 05-06 零)= ICLR 2027 ddl 前静默期 + 五一假期效应;系统应保持监测纪律,不放松对 4 个 P0 议程(MotuBrain industrial 边界 / C1 升格审查 / B3 切分 / B8 trigger 拆分)的追踪
-
🔺 05-04 daily-digest v3.5.8 高信号日 → B1/B2/B3 三节点同步 +5%:LWD (2605.00416) 单篇方法论级实证触发(详见 §4 / §8)—— B1 72→77% + B2 77→82% + B3 72→77%。🔵 Bear 反方负担:本次更新对应 #22 预测 = 3 个月内非 Berkeley 团队复现 LWD-style fleet RL(≥10 robots, ≥80% long-horizon),到期 2026-08-04,否则触发 B2 回撤审查。B4 维持 75% 校准上限:Being-H0.7 第 6 latent-WM 团队 + PFD-style sub-route 第 2 篇(PFD 不再孤立)+ MotuBrain industrial-led(ShengShu Tech)强候选触发 #16,但工业边界判定需 5 月中假设审计 P0 人工 judgment。C1 累积同向第 4 条独立信号(Embodied Interpretability + Physically Native WM)距升格阈值仅 5pp—— 下次假设审计正式审查升格。Phase 4 计数器 24/12 → 26/12(paper-scan 27/12)。保守偏误状态(05-04):B0 (17d) ✅ / B1 (0d) ✅ 重置 / B2 (0d) ✅ 重置(之前 33d 红色解除)/ B3 (0d) ✅ 重置 / B4 (10d) ✅ / B5 (34d 🟡) / B6 (60d) / B8 (48d) 🔴 持续超阈值 / B7 (5d) ✅ / B9 (19d) ✅。认识论意义:v3.5.0 (04-26) 假设审计执行 B1/B3 -5% 双下调时明确判断"反方累积达决定性强度";不到 10 天 LWD 出现,决定性反方共识被一篇真机大规模 paper 打回去。这是 ForecastBench / EvolveCast 警示的"过度更新风险"实证——v3 校准纪律的"最小更新 ±5%" 在两个方向都适用,但反方累积的"决定性"判断需要更高的 prior。顶级实验室 arxiv 缺席延续至 33 天(04-06~05-04)——史上最长,Jianlan Luo (Berkeley 系) LWD 部分破局,PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon 严格缺席持续。预测窗口倒计时:#9 距 05-17 剩 13 天;#15 距 2026-08-22 剩 ~3.5 月;#16 距 2026-07-31 剩 ~3 月(MotuBrain 强候选触发,5 月中假设审计 P0 决定);#17 距 2026-10-25 剩 ~6 月(LWD 部分提前满足);#22 LWD 复现追踪 距 2026-08-04 剩 3 月
-
05-16 增量更新(定时任务,🟢 零新数据日 / 第 4 个真零新数据日 — v2.0.22):当日 daily-digest / paper-scan / 社交情报三类报告全部缺席(reports 目录最新仍为 2026-05-15-daily-digest,vla-social-intel 最新 2026-05-15.md,xhs 最新 2026-05-15-auto.md);BELIEF_GRAPH.md 维持 v3.6.7-self-reflection(05-15 self-reflection 权威状态)。零新输入信号 → 唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 44 天(距 45 天结构性认识论问题升级线仅剩 1 天,明日 05-17 即触发)+ 预测窗口倒计时(#9 进入 24h 紧急最终窗口)+ B8 跨过 60d 整数关口(v3.5.0 后第 2 次破整数线)。保守偏误状态(05-16,+1d):B0 (29d) ✅ / B1 (20d) ✅ / B2 (软 12d / 严 45d 🔴) / B3 (20d) ✅ / B4 (22d) ✅ / B5 (46d) 🔴 / B6 (72d) 🆘 已破 67d 校准上限反思阈值 +5d / B7 (软 17d / 严 62d
⚠️ ) / B8 (60d) 🔴 整数关口 / B9 (31d) ✅。B5/B6/B7-严/B8 四节点持续超阈值——B6 calibration deadlock 仍为 v3 框架级未解问题;05-15 self-reflection 提交的 6 项人工裁决(B8 终局 / 校准死锁实际落地 / LWD 追溯 / EPISTEMICS.md / 下游 skill 修改 / Phase 计数器反向条)至今 0 项落地——"修正零落地"模式被 self-reflection v3.6.7 警告者自身继续累积一日。预测窗口倒计时:#9 距 05-17 = 1 天最终窗口(π0.7 第三方独立复现 "match specialist" — 05-15 WebSearch 专项复核仍无任何第三方实验室公开复现信号;今日 05-16 是预测到期前最后一天,无意外则 05-17 daily-digest 必须主动判决 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方 / 同时启动 #27 顶级实验室 arxiv rebound 硬截止 6-05 倒计时进入"+19d 缓冲期");#19 智元方法论级 VLA ddl 距 6-30 剩 45 天;#22 LWD 距 2026-08-04 剩 80 天;#23 VLA-TTC 距 2026-08-06 剩 82 天;#24 / #25 距 2026-08-14 剩 90 天;#26 距 2026-11-14 剩 182 天;#27 距 2026-06-05 剩 20 天。顶级实验室 arxiv 严格缺席延续至 44 天(04-0605-16 史上最长再破上限 +22 天)—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续;明日 05-17 一旦缺席即触发 45d 结构性认识论问题升级线;#27 硬截止 6-05 后 19 天为最终容忍区。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 76 天(6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据)。零新数据日纪律重申(连 2 日;继 05-15 后第 2 日零新数据):信号衰减 ≠ 领域降温(ICLR 2027 ddl 前最后一周静默期 + 投稿沉默 + 五一假期效应残余),9+ 项 P0 议程持续追踪,不放松监测;下次假设审计 / paper-scan rebound 候选时点 = 05-1705-19(ICLR 2027 ddl 5 月底前的最后一波集中投稿前 arxiv 节奏)。bash sandbox 挂载视图持续失步(与 05-15 同模式):bash 看到的源文件 = 旧版 892 行 / mirror = 旧版 868 行(截断到 §14 末),与 Edit/Read 工具看到的真实 v2.0.21 (899 行) 严重失步——本次仍走 PowerShell 手动 push fallback。05-15 v2.0.21 commit 至今未 push 到 origin/main(git log 最新仍为 01617b8 = 05-14 v2.0.20);本次 push 必须包含 v2.0.21 + v2.0.22 两个版本的 catch-up commit。 -
05-15 增量更新(定时任务,🟢 零新数据日):当日 paper-scan / 社交情报缺席(小红书 2026-05-15-auto-skipped 会话未登录跳过,距上次成功采集 05-04 已 11 天),运行 daily-digest(24h 增量看门)+ self-reflection(双周元审计 v3.6.7)双报告;BELIEF_GRAPH.md → v3.6.7-self-reflection。self-reflection 核心发现:05-04 反思声称"直接执行"的 6 项修正中 5 项零落地(B8 未下调 / 校准中间档未引入 / §15 纪律 6 条未写入 / 预测 #23-25 未注册 / B8 致命实验未操作化,仅 FAILURE_REGISTRY.md 创建落地);铁证 = BELIEF_GRAPH §6 无任何 05-04 self-reflection changelog 条目 → 对该文件 Edit 次数 = 0;真问题不是任何单个偏误,而是反思层与执行层断裂 —— 04-15 议程被 05-04 反思"重新立项",05-04 修正被 05-14 假设审计"重新发现",每轮重新生产上一轮已做的工作。本审计直接执行:(1) 重新注册丢失的预测 #27 —— 顶级实验室 arxiv rebound 硬截止 2026-06-05(ICLR 2027 ddl 后 7 天 PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon 仍严格缺席 → "学术-产业新均衡态"假设结构性重估,不得再以"下周可能恢复"无限延后;系 05-04 丢失的 #24 复活换号避免与 05-14 #24 撞号);(2) FAILURE_REGISTRY §5 新增"修正零落地"元层失败行;(3) BELIEF_GRAPH §6 changelog + header 版本行更新。提交 6 项人工裁决:B8 终局裁决(兑现 05-04 的 →65% 或正式推翻)/ 校准上限死锁三档方案 A/B/C 实际落地并验证 / LWD +15pp 追溯审查(B1/B2/B3 仍按单篇 LWD 停在 77/82/77)/ 建 canonical EPISTEMICS.md + 修正 CLAUDE.md §7 失效配套文件清单 / 下游 skill(paper-scanner/daily-digest/hypothesis-review)指令实际修改 / Phase 计数器反向条机制(7 个计数器从未下降过)。偏误自检:锚定 🔴 恶化(B6 71d;B8 解锚动作未落地→"锚点反扑")/ 保守偏误 🔴 结构性恶化(B5/B6/B7/B8 超阈值,冻结轴卡死,但下行-反转轴已被纪律内化)/ 可得性 🔴 加剧(缺席 43 天 + 来源平衡指标 + #24 双双未落地)/ 过度更新 ✅ 唯一亮点(05-14 假设审计 0 变更 + memory §4 永久记录 04-26→05-04 反转案例)。保守偏误 +1d(对齐 BELIEF_GRAPH v3.6.7 权威值;注:memory v2.0.20 曾按 05-04 LWD 锚记 B1/B3 = 10d,BELIEF_GRAPH 按 04-26 v3.5.0 锚 = 18d→19d,本次对齐 BELIEF_GRAPH):B0 (28d) ✅ / B1 (19d) ✅ / B2 (软 11d / 严 44d 🔴) / B3 (19d) ✅ / B4 (21d) ✅ / B5 (45d) 🔴 / B6 (71d) 🆘 已破 67d 校准上限反思阈值 +4d / B7 (软 16d / 严 61d
⚠️ ) / B8 (59d) 🔴 / B9 (30d) ✅。顶级实验室 arxiv 严格缺席延续至 43 天(04-06~05-15 史上最长再破上限 +21 天;距 45 天结构性认识论问题升级线仅剩 2 天)。预测窗口倒计时:#9 距 05-17 剩 2 天(π0.7 第三方复现 "match specialist" —— 本日 WebSearch 专项复核仍无任何第三方实验室公开复现,π0.7 论文本身亦承认"标准化机器人基准不存在使外部验证困难";高概率到期未触发 → 05-17 后首份 daily-digest 须主动判决并记 +5% π0.7 SOTA 强韧性元假设);#19 智元 6-30 ddl 剩 46 天;#22 距 2026-08-04 剩 81 天;#23 距 2026-08-06 剩 83 天;#24 / #25 距 2026-08-14 剩 91 天;#26 距 2026-11-14 剩 183 天;🆕 #27 距 2026-06-05 剩 21 天。当日报告分工:self-reflection (v3.6.7) 负责双周元审计 + 计数器推进 + 6 项人工裁决;daily-digest 负责 24h 增量看门 + 预测 #9 临近到期预告,刻意简短不重复。零新数据日纪律:信号衰减 ≠ 领域降温(ICLR 2027 ddl 前静默期 + 投稿沉默),9+ 项 P0 议程持续追踪,不放松监测。 -
🔴 05-14 增量更新(定时任务,v2.0.20 = paper-scan + hypothesis-review v3.6.6 整合 — 高议程信号日):当日生成 2026-05-14-paper-scan.md(241 行)+ 2026-05-14-hypothesis-review.md(303 行)双报告;BELIEF_GRAPH.md v3.6.5-incremental → v3.6.6 候选(结构性议程立项无实际信念节点 ±5%)。🟧 paper-scan 2 高 + 1 中 + 1 弱 + 2 回溯补扫:RoboMemArena + PrediMem (2605.10921, OpenHelix-Team, 05-11) = Memory-VLA 第 5 团队,跨过明文升格阈值 → Phase 7 候选 Long-horizon Memory VLA 正式立项;OneWM-VLA (2605.07931, 05-08) = 套利窗口 #9 dual-system inference acceleration 第 5 条独立信号(窗口收窄 ~3-6 →
2-4 月)+ 1 token/frame visual bandwidth 压缩;中信号 Residual Latent Action WM (2605.07079) #6 latent 预测累积;弱信号 SAE Congress 2026 (2605.10653);回溯 IVLR-Trace (2605.00438) + CoRAL (2605.02600)。🆘 hypothesis-review v3.6.6 核心:B6 70d 已破 67d 反思阈值 +3d → 升格框架级问题:v3 校准 penalty 在 B6/B7 死锁(raw 75→80 = calibrated 72%,反向下降 3pp),3 档方案 (A 维持 / B 78% 中间档 / C 结构性信念取消 penalty) 等待人工 reflection。3 节点对抗性审查(B6 / C1 / B4 均维持):(a) B6 → 立项 sub-definition 拆分 B6a/b/c;(b) C1 升格条件硬化(仅"决定性"算升格,累积 inductive bias 不再计入);(c) B4 → 立项 sub-route 节点拆分 B4a-B4f 六档。3 项新预测立项:#24(非 OpenHelix RoboMemArena ≥80% 复现,截止 2026-08-14)+ #25(跨 task suite ≤2 token/frame VLA,截止 2026-08-14)+ #26(≥2 个非 NVIDIA 系 WAM 论文,截止 2026-11-14)。Phase 计数器:Phase 4 WM 闭环 32/12 → 34/12 严重超临界 2.83×;Phase 7 候选 5/12 雏形正式立项;Phase 1 维持 15/15。保守偏误状态(05-14):B0 (27d) / B1 (10d) / B2 (soft 10d / 严 43d 🔴) / B3 (10d) / B4 (20d) / B5 (44d) 🔴 / B6 (70d) 🆘 升格框架级 / B7 (15d 软 / 60d 严05-14 史上最长再破上限 +20 天)。预测窗口倒计时:#9 距 05-17 剩 3 天(紧急窗口,5/17 后高概率到期未触发);#19 智元 6-30 ddl 剩 47 天;#22 距 2026-08-04 剩 82 天;#23 距 2026-08-06 剩 84 天;🆕 #24 / #25 距 2026-08-14 剩 92 天;🆕 #26 距 2026-11-14 剩 184 天。段编号穷举 SOP 第 12-13 次成功:4 篇前期遗漏论文补扫。认识论核心:本审计无置信度变更但议程价值高——B6/B7 calibration 死锁正式升格框架问题;OneWM-VLA 反直觉"1 token/frame + 长时程不打折扣"如属实则整个 VLA 视觉编码器架构需重新审视;6 个月窗口持续累积 Memory VLA + bandwidth compression 双向证据⚠️ ) / B8 (58d) 🔴 / B9 (29d)。顶级实验室 arxiv 缺席延续至 42 天(04-06 -
🟡 05-13 增量更新(5 天 paper-scan / daily-digest gap 补扫日):05-13 daily-digest v3.6.5 生成(216 行),补扫 05-08~05-12 五天 daily-digest 全 gap。最强信号:(a) Jim Fan (NVIDIA) "VLA 已死、转向 World Action Models" Sequoia AI Ascent 2026 主题演讲(原
04-20 事件 + 本周中文媒体集中再传播;v2.0.19 cross-ref 已确认实际表态"VLA architecture fundamentally misaligned"对应中文"VLA 已死"sensationalism,方法论 = B0/B4 路线 endorsement 非新范式);(b) OneWM-VLA (2605.07931) WebSearch 探针发现(05-14 paper-scan 正式整合);(c) 产业层 5/7-12 密集披露 8+ 条:Tesla Optimus Q2/7-8 月量产时间表二次确认 + 安培龙六维力切入 Tesla 供应链 + 智元 + 人民网 "具身交互多模态语料库" 10 万条首发 + 星动纪元 $200M+ raise(顺丰领投 = 预测 #18 顺丰部署的首条方向性证据)+ Figure AI Helix-02 双机协同铺床 <2 分钟 + 上声×戴盟触觉合作 + 斜跃智能成立 (理想系) + 蚂蚁/机器科学/千寻/众擎累计资本。置信度变更: 0。保守偏误状态(05-13,+1d from 05-12):B0 (26d) / B1 (9d) / B2 (soft 9d / 严 42d 🔴) / B3 (9d) / B4 (19d) / B5 (43d) 🔴 / B6 (69d) 🆘 / B7 (14d 软 / 59d 严) / B8 (57d) 🔴 / B9 (28d)。预测 #9 距 05-17 剩 4 天进入紧急 <5 天窗口。顶级实验室 arxiv 缺席延续至 41 天(04-0605-13 史上最长持续刷新)。8 月 = 2026 最关键产业兑现验证月距 8 月初剩约 80 天 -
05-08 增量更新(定时任务,🟢 极低信号日 / 第 2 个真零新数据日):当日 daily-digest / paper-scan / 社交情报 三类报告全部缺席(reports 目录最新仍为 2026-05-07 daily-digest,社交情报最新仍为 2026-05-06.md),BELIEF_GRAPH.md 维持 v3.6.4-incremental(05-07 paper-scanner gap-fill 权威状态)。零新输入信号 → 唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 37 天(再破上限 +15 天,史上最长持续刷新)+ 预测窗口倒计时。保守偏误状态(05-08,+1d):B0 (21d) ✅ / B1 (4d) ✅ / B2 (4d) ✅ / B3 (4d) ✅ / B4 (14d) ✅ / B5 (38d) 🔴 / B6 (64d) 🔴 距 67d 校准上限反思阈值仅 3 天 / B7 (9d 软 / 54d 严)
⚠️ / B8 (52d) 🔴 / B9 (23d) ✅。预测窗口倒计时:#9 距 05-17 剩 9 天(π0.7 第三方复现 "match specialist",进入临界 < 10 天窗口);#15 距 2026-08-22 剩 ~3.5 月;#16 距 2026-07-31 剩 ~2.7 月;#17 距 2026-10-25 剩 ~5.5 月;#18 距 2026-10-24 剩 ~5.5 月;#19 距 2026-06-30 剩 ~7 周;#22 LWD 复现追踪距 2026-08-04 剩 88 天;#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 90 天。4 日信号衰减序列延伸:05-04 强 → 05-05 弱社交 → 05-06 双报告补 → 05-07 中信号 paper-scanner gap → 05-08 零 —— ICLR 2027 ddl 前静默期 + 五一假期效应叠加;下周(05-12 起)可能恢复。Meta Llama-3-Robot 仍待验证(epistemic 拖延已至 5 天)。8 月 = 2026 年最关键产业兑现验证月(6+ 预测窗口集中收口),距 8 月初剩约 86 天;6-30 智元 ddl 距今剩约 7 周 -
05-07 增量更新(定时任务,🟧 高密度补整合日 + 当日零新数据):05-06 双报告(paper-scan v3.6.2 + convergence-radar v3.6.3)补整合 — 详见 §0 v2.0.16 changelog + §5 Phase 计数器同步 + §8 产业部分。核心叙事:"VLA 工程化部署叙事拐点"候选 paradigm shift(35-40% prior,跨 Phase 1/2/4/5/B3/B6/B7/B9 多节点同步弯曲,对抗性思辩 Bull / Bear / Arbiter 完整三视角辩论记录于 reports/cross-domain/2026-05-06-convergence-radar.md §4) + Frontier-class "data + recipe > 架构" 双 lab 双背书(PI π0.7 + AI2 MolmoAct2,B0 候选 +5% 触发延后至下次假设审计)+ TTC 入侵 VLA 立项 Phase 6 候选 + B3 三分类 hybrid 路径第 1 条出现 + B4 路线分化扩至 6 sub-routes(+RoboAlign-R1 reward-aligned WM 第 6 路线 cross-Phase 4×2)+ 新窗口 #9 / #10 立项。保守偏误状态(05-07,+1d):B0 (20d) ✅ / B1 (3d) ✅ / B2 (3d) ✅ / B3 (3d) ✅ / B4 (13d) ✅ / B5 (37d) 🔴 13 反相变信号距临界 15 仅 2 条 / B6 (63d) 🔴 接近 67d 校准上限反思阈值 / B7 (8d) ✅ / B8 (51d) 🔴 / B9 (22d) ✅。预测窗口倒计时:#9 距 05-17 剩 10 天(π0.7 第三方复现 "match specialist",临界);#15 距 2026-08-22 剩 ~3.5 月;#16 距 2026-07-31 剩 ~2.7 月;#17 距 2026-10-25 剩
5.5 月;#22 LWD 复现追踪距 2026-08-04 剩 89 天;🆕 #23 VLA-TTC 第三方独立信号距 2026-08-06 剩 91 天。顶级实验室 arxiv 缺席延续至 36 天(04-0605-07 史上最长再破上限 +14 天)。当日零新数据:daily-digest / paper-scan / 社交情报三类报告全部缺席;3 日信号衰减序列(05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 零)= ICLR 2027 ddl 前静默期 + 五一假期效应叠加,下周可能恢复。关键认识论判断:v3 校准纪律避免连续上调即使本周 3 篇 RL 工程化(OGPO/FAN/EnergyFlow)+ LWD + LaST-R1 = 5 篇 14 天累积已构成强反方升格压力;EvolveCast / ForecastBench 警示"决定性"判断需要更高 prior;下次假设审计05-1113 触发,9 议程项待审。Meta Llama-3-Robot 仍待验证(05-05 retro-claim 至 05-07 无新信号确认/反驳,05-06 paper-scan 也未发现 Meta FAIR 官方 VLA 论文 → 待 Meta 官方博客 / HuggingFace 仓库二次确认)
| 方法族 | 14d加速比 | 7d加速比 | 趋势 |
|---|---|---|---|
| language_grounding | 2.53x | 0.46x | |
| rl_finetuning | 1.77x | 0.52x | 仍dominant但momentum declining |
| world_model | — | 0.75x | momentum cooling,社区耐心耗尽 |
| flow_matching | — | 0.89x | 唯一 stable,静默胜出(工程选择非理论胜利) |
| diffusion_policy | — | 0.70x | 与FM产出持平(各24篇)但momentum更弱 |
| dexterous_hand | — | 0.62x | 碾压 tactile 4:1 |
| tactile | — | 0.26x | 结构性衰退(学术逃"硬件依赖") |
| sim_to_real | — | 0.31x | 结构性衰退 |
| cross_embodiment | — | 0.26x | 结构性衰退 |
| instruction_tuning | — | 0.05x | 已死 |
- LIBERO:已饱和(开源 99.2%,闭源 98.6%)— ICLR 2026 Blog 确认"基本已解决"
- SIMPLER:当前最有效学术基准(70-80% SOTA)
- RLBench:VLA"远落后于 3D SOTA"——开放世界仍难
- RoboChallenge:差异化赛道(仅 2 次 SOTA 变动/5%)——唯一未饱和基准,但可能是"低关注度陷阱"
- CALVIN:已饱和——与 LIBERO 合计承包 75% 的 SOTA 更新(40次中30次)
- 零样本差距:开源 VLA 在 benchmark 上接近天花板,但真实零样本远落后 π0.5/Gemini-Robotics
- RL finetuning 8 周内出现"稳定性"子赛道(截止 2026-05-06)
- LeRobot v0.6.0 将 Flow Matching 设为默认 Action Head(截止 2026-04-23)— StarVLA 出现可能改变竞争格局
- 首个产线场景 VLA 基准由产业联盟发布(截止 2026-06-01)
- Instruction Tuning 论文 8 周内跌破 1%/月(截止 2026-05-06)
- flow_matching 4 周内跨域信号突破 3 条(截止 2026-04-22)— FP-DRL 算 1 条弱信号(locomotion),仍需 2+
- CALVIN/LIBERO 新 SOTA 更新频率 3 周内下降 50%(截止 2026-04-15)✅ 确认——校准规则 2 +5% 待执行(基准饱和趋势进一步验证)
- 6 周内至少 1 个新基准发布(截止 2026-05-06)
- 触觉方向 3 周内再出⚡论文(OmniVTA 跟进,截止 2026-04-15)❌ 未触发——04-15 到期,无触觉突破论文。校准规则 2 +5% 待执行(B8 学术端结构性衰退确认,触觉 momentum 0.26x)
- MEM (DeepMind/Stanford, 03-16):双尺度记忆(video短期+language长期),15分钟长时域任务
- ReMem-VLA (TU Munich, 03-17):双层递归记忆查询,超越 π0.5/OpenVLA-OFT
- MemoryVLA (作为 baseline 被引用)
- SOMA (03-31):双记忆 RAG(成功+失败对比检索)+ LLM 归因编排 + MCP 工具干预,冻结 VLA 无需微调 OOD +56.6%。与 MEM/ReMem 不同路线——inference-time 外部记忆增强 vs 模型内建记忆
- 🆕 PrediMem + RoboMemArena (2605.10921, OpenHelix-Team, 05-11):双系统 VLM planner + VLA actor + hierarchical memory bank (recent buffer + keyframe buffer) + predictive coding head 辅助 keyframe 选择;RoboMemArena 26 任务 / 平均 >1,000 步/任务 / 68.9% memory-dependent / 多模态 memory 标注 / 真实机器场景。PrediMem 在 RoboMemArena 上 outperforms all baselines;GitHub 已开源。Bear 警示:单团队"发 benchmark + 同时发自己最佳 baseline"是教科书级自我 validation 偏误,待非 OpenHelix-Team 第三方复现 ≥80%(预测 #24 截止 2026-08-14)
- 🟡 IVLR-Trace (2605.00438, 05-01) 关联机制:interleaved text+visual keyframes trace 缓存 + closed-loop executor;LIBERO 95.5% / LIBERO-Long 92.4%;无 trace 时 LIBERO-Long 跌至 37.7%。trace-based memory 可能是 Memory VLA 子赛道(与 PrediMem keyframe buffer 共振)
- 判断升级:5 个独立团队(MEM/ReMem/MemoryVLA/SOMA/PrediMem)跨过 v3 系统"再出现 1+ 个独立工作即创建新 Phase"明文阈值 → 🔴 2026-05-14 hypothesis-review v3.6.6 正式立项 Phase 7 候选 Long-horizon Memory VLA 5/12 雏形(完成度估计 22%,待第三方复现拉到 50%+ 升格 Phase)。长时域记忆(>5分钟)仍是核心瓶颈,RoboMemArena 1,000+ 步 benchmark 直击 LIBERO/CALVIN 饱和盲点
- BeSafe-Bench (03-31):首个四域(Web/Mobile/Embodied VLM/Embodied VLA)行为安全基准
- 关键发现:13 个主流代理中最佳安全任务完成率 <40%;41% 案例成功完成任务但触发安全风险
- 启示:"任务成功≠安全"是系统性问题,VLA 部署前需安全对齐机制——当前几乎所有 VLA 论文不涉及安全约束
π0 (2024):PaliGemma 3B (SigLIP 视觉编码 + Gemma 2B 语言) + Flow Matching 动作头。学习速度场 v(x,t) 将噪声分布映射到动作分布,沿直线路径(rectified flow)。ODE solver 1-10 步推理 → 50Hz+ 控制。核心创新:首次证明大 VLM 可以高频输出精密动作。
π0.5 (2025):分层推理——高层 VLM 异步语义推理 + 低层同步 50Hz 动作输出。训练用 FAST token 化(DCT+BPE 压缩),推理用 Flow Matching。Co-training:机器人 + 互联网视频 + 仿真,loss masking 分数据源。实现开放世界"做任何家务"的泛化。
π0.6 / π*0.6 (2025):5B VLM + 10M 参数 Action Expert(轻量独立模块)。π0.6 = 监督学习基线;π*0.6 = Recap 算法(离线 RL 自我改进)。Recap 流程:收集 on-policy rollout → VLM 自动打分 → 筛选高分轨迹 → 重新训练。Knowledge Insulation 防止动作训练破坏语义能力。成果:2× 吞吐提升,2× 失败率下降。
阶段 1: 评估器 (WorldEval) — 能否不用真机就评估策略优劣?
阶段 2: 标准化评估 (WorldArena/Ctrl-World) — 如何统一 WM 基准?
阶段 3: 数据引擎 (VLAW) — WM 生成合成轨迹喂给策略训练
阶段 4: 动作生成基底 (DreamZero/WAM) — WM 直接取代 action model?
关键进展:
- VLAW:on-policy rollout 微调 WM → 生成合成轨迹 → 过滤式 BC 训练,+39.2% 成功率
- DreamZero/WAM:World Model 即零样本策略,比较三条路线(解耦/端到端/统一多任务)
- PlayWorld:自主探索→WM→RL 全闭环,+65% 真机成功率
- AtomVLA:LLM 分解任务为原子子任务 + 预测性潜在 WM + 离线 GRPO,LIBERO 97%
- StructVLA (03-17):WM 重构为 structured planner(预测稀疏运动学里程碑帧),SimplerEnv 75.0%,LIBERO 94.8%。第三种 WM 范式
- ACE Kairos 3.0-4B (03-17):商汤旗下开源实时生成式 WM,4B 参数 Jetson Thor 实时运行,72x>Cosmos 2.5(但对比基准不公平:4B vs 14B+),跨 embodiment 部署宣称(待同行评审)。解决 WM 延迟瓶颈的首个工程证据
- Cosmos 3 (03-25):NVIDIA 首个统一 World Foundation Model,核心产品化信号
- NC AI WFM (03-25):latent action 直接生成,25% GPU 成本达 80% 性能,低成本路线验证
- Fast-WAM (03-19):质疑 WM 是否需要测试时未来想象——与 Chain of World + Simulation Distillation 形成对话,WM 使用范式在分化
- VLA+WM 混合架构行业趋势:Li Auto(MindVLA-o1 内嵌 Predictive Latent WM)/Tesla(Neural World Simulator)/XPeng/长城(坦克 700 Coffee Pilot 4.0,04-20 行业首款量产硬派 SUV) 均采用——WM 从可选组件→标准配置演进中
- VLA-World for AD (2604.09059, SJTU+Huawei, 04-10):AD 域 VLA + WM 统一架构,action-derived feasible trajectory 引导下一帧生成 + reflective reasoning refine 预测;与坦克 700 车规量产形成 research+product 双轨共振 10 天 gap,Phase 4 AD 跨域子赛道首次标记
- Touch Dreaming (2604.13015, CMU+UT Arlington+Bosch, 04-14):Humanoid Transformer + latent tactile dreaming 辅助任务(同时预测 action chunks + 未来关节力 + 未来 tactile latents),latent tactile 预测 > raw tactile 预测 +30%——"latent 预测 > raw 预测"规律跨模态扩展至触觉,强化 C2 下限反证压力
- Cortex 2.0 (2604.20246, Sereact AI 工业, 04-22):工业 VLA + visual latent space WM + Process-Reward Operator (PRO 多准则评分: task progress / risk likelihood / completion likelihood) + flow-based action heads 四级显式分层;数据三源融合(open-source multimodal + Sereact teleoperation/production fleet + synthetic);单/双臂 4 任务 SOTA VLA baselines 全面超越;首个工业级 latent-WM planner 背书 = B4 70→75% 触发;C2 最强反证之一
- RoboWM-Bench (2604.19092, 04-21):首个 manipulation-centric embodiment-grounded video WM 物理可执行性 benchmark;揭示 SOTA video WM "reliably generating physically executable behaviors remains an open challenge"——常见失败:空间推理错误 / 不稳定接触预测 / 非物理形变;B4 内部 video vs latent 路线分化明朗
- Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23):Human-in-the-World-Model 学习 WM 作为 reusable corrective substrate,post-training 失败矫正脱离物理执行 / 真机 setup / 操作员监督;WM-as-post-training-substrate 应用变体(区别于 WAV/GIRL/ViVa 的 inference-time planner,区别于 Cortex 2.0 的 industrial deployment);latent-WM 第 5 团队(学术 4 + 工业 1);预测 #17 追踪 Tier-1 复现
- WM-UniT (UniT 二联应用变体, 2604.19734, XPENG + Tsinghua + HKU, 04-21):cross-embodiment 动力学对齐,human 数据 → humanoid 视频生成可控;与 VLA-UniT (policy) 共享 unified discrete latent action token;latent-WM 第 6 团队(学术 4 + 工业 1 + industrial-academic 1);XPENG industrial-academic 混合(部分工业含量但不足以单条达 #16 工业级跟进口径);强化 "latent 预测 > raw 预测" 跨模态规律到 cross-embodiment 维度
- Being-H0.7 (2605.00078, Beihang + PKU 系 BeingBeyond Team, 04-30):Latent World-Action Model from Egocentric Videos —— learnable latent queries 作为 perception 与 action 之间的紧凑推理接口;future-informed dual-branch 训练(deployable prior branch 推理用 + training-only posterior branch 用 future observations 做 latent 对齐);推理时丢掉 posterior 零 visual rollout;6 sim benchmark + diverse 真实任务 SOTA。第 6 latent-WM 团队 cross-modality + cross-embodiment + ego-video;与 PFD (04-28) 同 sub-route "WM-as-distillable / future-informed-but-no-inference-rollout" 第 2 篇 = PFD 不再孤立。BeingBeyond 系列旗舰 WAM commercial trajectory 关键观察点
- MotuBrain (2604.27792, ShengShu Technology + Tsinghua, 04-29):三流 Mixture-of-Transformers 统一架构 = video generation + action modeling + language conditioning 同模型;5 distributions inference (VLA policy / world modeling / video generation / inverse dynamics / joint video-action prediction);WorldArena EWM 63.77 + RoboTwin 2.0 平均 96.0(唯一在 randomized 环境 >95.0 的模型);Unified multi-view 表示(任意相机数 / 不同 layout)+ 独立文本流 + cross-embodiment 统一动作表示;训练数据范围扩展(video-only / no-action-label / no-task-language / cross-embodiment);第 7 个独立 latent-WAM 团队 + 第 2 条 industrial-led(Cortex 2.0 后),ShengShu (UniDiffuser 团队) 是中国领先多模态 AI 公司 → industrial-led 比 UniT (XPENG industrial-academic) 更明确,强候选触发预测 #16(B4 75→80%)—— "unified WAM"路线 vs Cortex 2.0 "latent-WM as planner"路线判定需 5 月中假设审计 P0 人工 judgment
- LaST-R1 (2604.28192, 04-30):Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models —— 两阶段 RL pipeline + Clip-GRPO 算法 + annotation-free process-based grounding reward;引入 latent CoT reasoning + LAPO (Latent-to-Action Policy Optimization);LIBERO 99.8% 平均成功率(接近饱和需打 0.4-0.5x 折扣)+ 真机 +44%。B2 中正向(annotation-free RL 解决 04-17 Jupiter Zhai "real-world RL 物料被干烂"痛点)/ B7 弱正向(latent reasoning + action policy 解耦双层 policy 与 π0.7 Knowledge Insulation 同向)/ B4 弱正向(latent CoT 与 latent prediction 套利窗口 #6 同向)
- MolmoAct2 OpenFAST (2605.02881, AI2 Allen AI, 2026-05-04):完全开源 action reasoning model 为 real-world deployment 设计;MolmoER spatial-and-embodied-reasoning 专精化 VLM backbone + 3.3M-sample corpus + specialize-then-rehearse 训练 recipe;OpenFAST 跨 5 embodiments tokenizer + MolmoAct2-BimanualYAM 720h teleoperated bimanual(迄今最大开源);flow-matching continuous action expert grafted onto reasoning VLM。第 2 个 frontier 实验室级 "data + recipe > 架构" 背书(继 PI π0.7)+ B0 / B1 中-强正向累积 +5% 触发候选(v3 校准纪律延后至下次假设审计)+ B5 内部 OpenFAST = FAST 系(离散 token)+ flow expert(连续 FM)双轨张力 → 议程 P1 "B5 内部 FM vs FAST 拆分"立项
- Latent Bridge (2605.02739, Duke Yiran Chen / Hai Li, 2026-05-04):Feature Delta Prediction for Efficient Dual-System VLA Inference —— 轻量级模型预测 VLM output deltas between timesteps 让 action head 用预测值 VLM backbone 仅周期性 call;跨架构验证 GR00T-N1.6 (feature-space bridge) + π0.5 (KV-cache bridge) + task-agnostic DAgger pipeline;4 LIBERO suites + 24 RoboCasa kitchen tasks + ALOHA sim transfer-cube → 95-100% 性能保留 + 50-75% VLM call 减少 + 1.65-1.73× per-episode 加速。dual-system VLA 已成 normative 假设的强证据 + B7 解耦工程级强背书 + B9 累积第 8 条;新窗口 #9 dual-system inference acceleration 触发条件第 1 篇
- RoboAlign-R1 (2605.03821, 2026-05-05):Distilled Multimodal Reward Alignment for Robot Video World Models —— 直击 robot video WM "reconstruction / perceptual similarity 损失与机器人决策能力错位" + autoregressive 长 horizon 误差累积痛点;RobotWorldBench 10K annotated video-instruction pairs (4 robot 数据源) + RoboAlign-Judge multimodal teacher 6 维 fine-grained 评估 + distillation → lightweight student reward model 用于 RL post-training + SWR (Sliding Window Re-encoding) training-free inference strategy。B4 第 5 条 video-WM-as-data-engine sub-route + 第 1 条 reward-aligned WM 信号(新维度 cross-Phase 4×2)= B4 6 sub-routes 第 6 路线;Phase 4 计数器 27/12 → 28/12
- LWD / Fleet-Scale RL (2605.00416, Yi Wang + Jianlan Luo et al., Berkeley 系, 05-01) "Learning while Deploying" —— fleet-scale offline-to-online RL framework for continual post-training of generalist VLA;闭环:deployment → autonomous rollouts + human interventions → policy improvement → redeployment;DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) 专门为 flow-based VLA action generators 稳定 sparse-reward fleet RL;真机数字:16 个 dual-arm 机器人 / 8 个真实任务(含 semantic grocery restocking + 3-5min long-horizon)/ 单一 generalist policy 平均 95% 成功率 / long-horizon gain 最大。🔴 触发 B1+B2+B3 三节点同步 +5%——第一篇方法论级"权重闭环"真机大规模验证(区别于 8+ 条 prompt-level 自进化稀释)+ fleet-scale 数据飞轮方法论级实证 + 第一篇决定性反驳 04-17 社区共识"real-world RL 物料被干烂 / 大规模 VLA 的 RL 做不了"。新预测 #22 立项(3 月内非 Berkeley 复现 ≥10 robots ≥80% long-horizon)
- 核心张力:好视频 ≠ 好评估器,好评估器 ≠ 好规划器;WM 从侧模块→系统工具→核心基底
- VLA-MBPO (03-30):UMM 做 WM + multi-view consistency + chunk-level branched rollout——2 月来第 4 个 WM+RL 框架(+ GigaBrain/WoVR/World-VLA-Loop),方法论子问题逐个被解决但碎片化风险
- Scaling Sim-to-Real (03-30):3D generative worlds + RL,真机 21.7%→75%(+53.3pp),WM-as-data-factory 维度的新验证——但任务复杂度和 RL-specific ablation 待确认
⚠️ 概念区分待办:"full generative WM" vs "learned dynamics model/predictive latent model"——行业混用,B4 四子类需正式区分:feature-extractor (DiT4DiT) / simulator (VLA-MBPO/WoVR) / data-factory (Scaling Sim-to-Real) / causal-reasoner (尚无验证)
| 模型 | 参数 | LIBERO | 核心技巧 |
|---|---|---|---|
| Evo-1 | 450M | 94.8% | RT-2 参数的 1.4%,证明模型大小≠控制能力 |
| SmolVLA | 500M | ~92% | 极致压缩 VLM |
| ControlVLA | 770M | ~93% | 控制专精设计 |
| Eva-VLA | 700M | ~91% | 高效视觉编码 |
启示:边缘部署不需要 7B;但小模型在开放世界泛化上仍有明显差距。
- Chain of Thought 四种模式:显式文本 / 结构化 JSON / 隐式潜在 / 交错逐步
- OneTwoVLA:单模型自适应 System 2(深度推理)/System 1(快速执行) 切换,用 [BOR]/[BOA] token
- Thinker VLM:UBTech 具身规划模型(不直接输出动作),4B/7B,处理 ego-view 混淆
- ReconVLA:通过注视区域重建辅助损失防止注意力漂移,隐式空间接地
- VITRA:自动从人类活动视频(Ego4D/Epic)提取 1.2M 机器人式 episodes,逐帧 3D 手部运动恢复
- CoMo (03-31):连续潜在运动表示替代离散 VQ-VAE,时序差分+对比学习抑制捷径学习,与扩散策略无缝联合训练。仅单臂验证充分
- 跨模态映射逻辑:互联网视频学"语义动作规范"(开门先握把手)→ 精细力控交给底层算法/少量真机微调
- ABot-M0 UniACT:统一 6 个数据集(6M 轨迹, 20+ 具身),EEF-delta + rotation-vector 标准化
- RoboGene:Agentic 多样化仿真数据生成,提升 VLA 预训练质量
- IAIL (Science Robotics, 04-07):跨机器人行为适配——把对齐对象从动作轨迹提升到语言意图空间。每个机器人先在可行空间生成候选动作,再按意图相似度检索匹配,带可行性阈值拒识。7 台异构真机验证(~90% 可行场景成功率)。与 VLA 的关系:提供比 action token 对齐更宽容的跨本体迁移路径,天然连接语言/任务分解/团队协作
S2 (语义层): VLM 输出语义 latent — 低频(~2-5Hz)
↓
S1 (运动层): 200Hz 全身目标生成(locomotion + manipulation)
↓
S0 (执行层): 1kHz 学习式先验控制(接触/平衡/稳定性)
Helix 02 训练数据:>1000h 人类运动 + >200k 仿真环境。无状态机,统一处理行走+操作。 此分层模式(B6 置信度 75%)正在成为人形机器人标准架构。
| 论文 | 核心贡献 | 影响 |
|---|---|---|
| 里程碑 | ||
| π0 (2024) | Flow Matching + VLM = 高频精密控制 | 定义 Action Head 新范式 |
| π0.5 (2025) | 分层推理 + co-training 开放世界 | 泛化路线验证 |
| π0.6 Recap (2025) | 离线 RL 自我改进闭环 | 定义后训练新范式 |
| RT-2 (2023) | VLM → VLA 语义泛化涌现 | 证明大模型路线可行 |
| OpenVLA (2024) | 开源 7B VLA + LoRA 生态 | 民主化 VLA 研究 |
| Diffusion Policy (2023) | 去噪生成连续动作 | 建立连续动作基线 |
| World Model | ||
| DreamZero / WAM (2026) | World Model = 零样本策略 | WM 功能角色跃迁 |
| PlayWorld (2026) | 自主探索→WM→RL 闭环 | +65% 真机成功率 |
| VLAW (2026) | VLA × WM 迭代共进化 | on-policy WM 校准 +39.2% |
| AtomVLA (2026) | 原子子任务 + 潜在 WM + 离线 GRPO | 无需在线试错 |
| StructVLA (2026) | WM→稀疏运动学里程碑 planner | 第三种 WM 范式 |
| ACE Kairos 3.0 (2026) | 4B 实时生成式 WM,72x>Cosmos | WM 延迟瓶颈首次工程解决 |
| Cosmos 3 (2026) | 首个统一 WFM,NVIDIA 产品化 | WM 工业级基础设施 |
| NC AI WFM (2026) | Latent action 生成,25% GPU 成本 | 低成本 WM 路线 |
| Fast-WAM (2026) | 质疑 WM 测试时想象必要性 | WM 使用范式分化 |
| PLD (CMU, 2026) | 残差RL+蒸馏闭环,ICLR 2026 | B3 第二独立验证 |
| 触觉 | ||
| MoDE-VLA (2026) | 残差力觉注入,量化消融-11%/-8% | 触觉不可替代性实证 |
| TacVLA (2026) | Contact-aware gating 触觉 VLA | 触觉优雅集成方案,+60%/2.1× |
| TaF-VLA (2026) | 触觉力对齐注入 VLA | 触觉融合新范式 |
| TacMamba (2026) | 快慢双通路触觉压缩 | 触觉反射层架构 |
| OmniVTA (2026) | 视触融合世界模型 | 触觉作为 WM 输入模态新路线⚡ |
| Touch Dreaming/HTD (04-14) | Humanoid latent tactile dreaming 辅助任务 | 首个方法论级 latent tactile 预测,+30% > raw,+90.9% 5 任务⚡ |
| UniVTAC (2026) | 统一视触觉仿真平台 | 仿真标准化 |
| 数据与效率 | ||
| VITRA (2026) | 人类视频→1.2M 机器人 episodes | 数据规模化路线 |
| SimVLA (2026) | 0.5B 达 98.6% LIBERO | 训练 recipe > 架构复杂度 |
| FAST (2024) | DCT+BPE 动作 token 压缩 | 5× 训练加速 |
| Shallow-π (2026) | Flow VLA 知识蒸馏 18→6 层 | 边缘部署 <1% 性能损失 |
| QVLA (2026) | 动作敏感性量化 | 部署优化 |
| OFP (2026) | 单步 flow 100× 加速 | FM 推理速度再飞跃 |
| RoboClaw (2026) | EAP 自重置飞轮 -54% 人工 | 数据收集效率 |
| 语言与推理 | ||
| LangGap (2026) | 语言理解缺口四维诊断 | 语言接地修复框架 |
| ReViP (2026) | 视觉一致性验证修正错误补全 | 推理时闭环修复 |
| OneTwoVLA (2026) | 自适应 S1/S2 推理切换 | 统一快慢思维 |
| ReconVLA (2026) | 隐式空间接地(注视重建) | 防注意力漂移 |
| 记忆 | ||
| MEM (2026) | 双尺度VLA记忆(video+language) | 15分钟长时域 |
| ReMem-VLA (2026) | 双层递归记忆查询 | 超越 π0.5/OpenVLA-OFT |
| 其他 | ||
| GR00T N1.7 (2026) | 开源 VLA 商业部署(LG/NEURA) | NVIDIA 生态锁定信号 |
| Helix 02 (2026) | S2→S1→S0 分层全身自主 | 人形架构标杆 |
| ABot-M0 (2026) | UniACT 6M 轨迹统一 | 跨具身基础 |
| RDT2 (2026) | 零样本跨具身迁移 | 泛化验证 |
| AR-VLA (2026) | 自回归 Action Expert, SIMPLER 61.5% | FM 挑战者 |
| GigaBrain-0-Small (2026) | 840 GFLOPs, 0.13s, 80% 成功率 | 小模型边缘可行性 |
| AutoQVLA (2026) | 30% VRAM, ICLR 2026 | 自动量化 VLA |
| Golden Ticket (2026) | 单样本 No 改进策略 | 资源有限团队切入点 |
| 新增 03-26~29 | ||
| VLGOR (2026) | VLM 生成物理一致虚拟轨迹 + 离线 RL | VLM 替代 LLM 做 RL 数据增强(仅仿真) |
| EquiBim (2026) | 双臂对称等变正则化,模型无关 | 即插即用训练技巧,无架构修改 |
| Fast-FoundationStereo (CVPR 2026) | 零样本立体匹配压到实时(蒸馏+NAS+剪枝) | 证明 foundation perception 可实时部署 |
| 新增 03-30 | ||
| DFM-VLA (2026) | Discrete Flow Matching,CALVIN 4.44/LIBERO 95.7%/真机 70.8%,2.4× 推理加速 | B5 强下行信号——discrete FM 全面击败 continuous FM+diffusion+AR |
| VLA-OPD (2026) | On-Policy Distillation 桥接 SFT↔RL,1-traj init → 93.4%,3× 样本效率 | RL→Distillation→Deploy 流水线新范式(依赖 RL teacher) |
| Scaling Sim-to-Real (2026) | 3D generative worlds + RL,真机 21.7%→75%(+53.3pp) | 套利 #3 第三个验证,WM-as-data-factory 又一维度 |
| VLA-MBPO (2026) | UMM 做 WM + multi-view consistency + chunk-level branched rollout | WM+RL 第 4 个框架(+ GigaBrain/WoVR/World-VLA-Loop),方法论成熟度 |
| Realtime-VLA V2 (2026) | 真机达人类速度,0.2mm 精度 PCB 插件,3-4× 快于 demo | 部署工程成熟度;感知管线延迟 ~288ms 是真实瓶颈 |
| Ruka-v2 (2026) | 开源灵巧手 v2,+2 DOF,51.3% 完成时间减少 | Phase 6 基础设施层面积极信号 |
| 新增 03-31~04-01 | ||
| SOMA (2026) | 双记忆 RAG + LLM 编排,冻结 VLA OOD +56.6%,无需微调 | Memory VLA 第 4 个独立工作,inference-time 增强路线 |
| BeSafe-Bench (2026) | 首个四域行为安全基准,最佳安全完成率 <40% | VLA 安全对齐维度开启,41% 成功但不安全 |
| CoMo (2026) | 连续潜在运动 > 离散 VQ-VAE,Td+Tcl 双机制抑制捷径学习 | 视频预训练运动表示新方案(无语言头) |
| Wanderland (2026) | 多传感器融合几何 grounding 仿真,metric-scale 3DGS | 开放世界导航仿真基础设施 |
| 新增 04-06 | ||
| DreamControl-v2 (2026) | 人形全身操作分层管线(动作重定向→扩散→RL→部署),G1 真机 8 技能 | B6 弱累积(分层管线验证),Phase 6 弱累积 |
| Tex3D (2026) | 对抗性 3D 纹理攻击 VLA,96.7% 任务失败率,跨架构迁移 | VLA 部署安全预警——对抗鲁棒性维度 |
| 新增 04-07~08 | ||
| IAIL (Science Robotics, 2026) | 跨机器人意图对齐,共享语言意图空间 + 可行性检索,7 台异构真机 ~90% 成功率 | Phase 5 新信号——比 action token 对齐更宽容的跨本体迁移 |
| 新增 04-10 | ||
| StarVLA (2026) | 模块化开源 VLA 框架,VLM+WM backbone 可 swap,统一评估接口 | 工具链标准化加速(LeRobot 之后第二个全栈框架),B7 解耦弱累积 |
| SV-VLA (2026) | Speculative Verification,重 VLA 规划+轻 verifier 闭环验证 | B6 分层架构实例+B9 边缘推理弱累积 |
| AnchorVLA (2026) | 锚定截断扩散 action head,轨迹词表+局部去噪,mobile manipulation | B5 多范式并存弱累积(diffusion 框架内微创新) |
| FAN-VLA (2026) | Feasible Action Neighborhood 正则化,RFT+SFT 均受益,OOD 泛化提升 | B2 弱累积,实用训练技巧与 action chunking 正交 |
| Vision-Torque Fusion (2026) | 自适应视觉-力矩融合 contact gating +14% | B8/Phase 3 弱累积,与 TacVLA gating 同方向 |
| FP-DRL (2026) | Flow-based Policy + Distributional RL,MuJoCo SOTA | FM+RL 交叉弱信号(非 VLA manipulation,需观察迁移) |
| E-VLA (2026) | 事件相机+VLA,极端低光/模糊下 0%→90% | 传感器多样性 niche,部署成本高 |
| 新增 04-11 | ||
| ViVa (2026) | 视频生成模型作 RL value function,长 horizon value estimation | Phase 2×4 交叉新变体(WM 生成能力服务 RL value,非 rollout) |
| HEX (2026) | State-centric 人形 VLA + MoE 按身体部位分专家,跨具身 | B7 解耦弱累积 + Phase 5 弱正面 |
| 新增 04-13 扫描 | ||
| HY-Embodied-0.5 (2026) | 腾讯开源 2B MoT 边缘+32B 推理,self-evolving post-training+distillation,22 benchmark 中 16 SOTA | B9 第 5 条边缘信号;B2/B3/B7/C1 多节点弱支持 |
| SIM1 (2026) | 物理对齐 real-to-sim-to-real 数据引擎,可变形物体 1:15 等价比,90% zero-shot | B1 弱下行压力(限定域);合成数据替代收集趋势 |
| SV-VLA (2026) | Speculative Verification: 重型 VLA 规划+轻量 verifier 闭环 | B6 分层架构新累积(继 AnchorVLA 后);B9 弱支持 |
| BiCoord (2026) | 长时程双臂协调 benchmark,VLA 超越 DP | 预训练知识在复杂协调中的价值确认 |
| KITE (2026) | Training-free VLM 失败分析前端,keyframe+BEV | B3 自我改进闭环基础设施(非闭环本身) |
| OpenWorldLib (2026) | 统一 World Model 推理框架(interactive video/3D/VLA) | WM 生态成熟弱信号 |
| 新增 04-14 | ||
| VLA-Forget (2026) | VLA unlearning/machine unlearning for VLA models | B3 安全维度弱间接信号 |
| AEROS (2026) | 单 Agent 模块化操作架构 | B6 分层/模块化弱累积 |
| DECO (2026) | 双臂灵巧操作 + 触觉 Diffusion Policy | B8/B5 弱累积(触觉+Diffusion) |
| TaSA (2026) | 触觉衰减学习(tactile attenuation) | B8 弱累积 |
| 新增 04-16~17 | ||
| π0.7 (PI, 2026-04-16) | 5B + 14B BAGEL WM,Episode Metadata (Quality/Mistake/Speed) + Knowledge Insulation + language coaching 解决未训练任务,匹配 specialist 性能 | B0 上调 72→77% 触发信号;产业级背书"数据工程 > 架构创新";B3/B7 弱正向 |
| WAV (2604.14732, Westlake, 2026-04-16) | Latent WM + trajectory value function 隐式规划;理论证明动作空间规划 feasibility 指数衰减,latent-space 推理重塑搜索分布 | B4 强正向(理论+实证双轨);latent-WM planner 路线第 3 条独立信号(与 GIRL/ViVa) |
| Sim-Real Co-Training Mechanistic Analysis (2604.13645, Yuke Zhu 组, 2026-04-15) | 首次对 co-training 做理论+实证机制分析:structured representation alignment + importance reweighting | B0 间接支持(数据策略方法论化);B1 弱下行累积(飞轮深度壁垒被稀释);project: science-of-co-training.github.io |
| Goal2Skill (2604.13942, 2026-04-15) | VLM-planner (high-level 记忆+错误纠正) + VLA-executor (diffusion + geometry-preserving filter) 双系统闭环,RMBench 长时程 32.4% vs 9.8% baseline (~3.3× gap) | B6 分层第 5 条独立信号(叠加早前累积至 8+ 条);B3/B7 弱正向 |
| SpaceMind (2604.14399, 2026-04-15) | 模块化 self-evolving VLM agent for on-orbit servicing;Skill Self-Evolution from failures 无需 fine-tuning,sim→real 零代码迁移,5 卫星×3 任务×2 环境失败恢复 100% | B3 定义性信号:prompt-level 自进化 vs 模型权重更新闭环的概念分化;B6 弱累积 |
| EEAgent (2604.13533, IJCNN 2026) | Long-Short Term Reflective Optimization (LSTRO) 动态 prompt 精炼,VIMA-Bench SOTA | B3 弱累积(prompt-level 自进化第 2 条同日) |
| HiST-AT (2604.15215, 2026-04-16) | 双层 VQ Hierarchical Spatiotemporal Action Tokenizer,重建动作+时间戳,in-context imitation SOTA | Phase 1 反相变第 7 条(离散 tokenizer 持续活跃) |
| R3D (2604.15281, 2026-04-16) | 诊断 3D policy 失败原因(缺 3D aug + BatchNorm 有害),Transformer 3D encoder + Diffusion decoder 超越 3D baselines | B5 弱反方(FM vs Diffusion head 选择仍未收敛) |
| HRDexDB (2604.14944, Hanbyul Joo 组) | 1.4K 人+机器手抓取+触觉+多视角 dataset | B8 弱正向(触觉 dataset 第 1 条近期,但规模小) |
| UMI-3D (2604.14089) | UMI 扩展 LiDAR 到 3D spatial perception,开源,可变形物体新任务 | B1 数据采集工具弱正向 |
| DEX-Mouse (2604.15013) | $150 force-feedback 便携遥操作,86.67% 任务成功率 | B1 硬件普及化弱正向 |
| DockAnywhere (2604.15023, RA-L) | Mobile manipulation 数据增强(docking point lifting + point cloud 空间编辑) | B1 弱正向 |
| Switch (2604.14834) | Skill Graph + whole-body tracking + online scheduler 人形 agile skill 无缝切换 | B6 弱累积 |
| FIDeL (2604.13788, ICRA 2026) | Optimal transport + conformal prediction + VLM semantic filtering 分离 benign anomaly / 真失败 | B3 闭环前提弱信号 |
| Nonasymptotic BC Theory (2604.14484) | 首个 gain-dependent BC 失败 nonasymptotic 理论:compliant overdamped 最优 | B2 间接(BC 工程参数理论) |
| MBRL Biped with Passive Dynamics (2604.14565) | MBRL + 被动弹性 = robust energy-efficient biped 运动 | Phase 2×4 弱累积(limited to locomotion) |
| SimpleVLA-RL (小红书 04-17 帖 8, 清华+上海 AI Lab) | 单轨迹 SFT + RL 将 LIBERO-10 17→91%,LIBERO-Avg 48.9→94.1% | B2 弱正向(单轨迹数据稀缺场景路线) |
| TouchAnything (小红书 04-17 帖 15, SJTU 杨朔) | EgoTouch 数据集 + 首个视频→双手触觉估计模型 | B8 弱正向(视频→触觉新数据路径) |
| 新增 04-22 回溯补扫(2604.09-17 段空洞) | ||
| Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14) | Humanoid Transformer + latent tactile dreaming 辅助(同时预测 action chunks + 关节力 + tactile latents),latent tactile > raw tactile +30%,5 contact-rich 任务 +90.9% 相对提升 | B8 方法论级累积第 8 条;跨模态 latent 预测规律(WAV+GIRL+ViVa+Touch Dreaming);Phase 3 升至 12.5-13/10,Phase 4 升至 17/12 |
| LIDEA (2604.10677, SJTU Cewu Lu+Yong-Lu Li, 04-12) | 双阶段蒸馏 + 3D 几何对齐,人类视频→机器人策略 embodiment gap 桥接,声称 80% 机器人演示可由人类视频替代 | B1 绕过路径第 N+1 条;C1 架构贡献第 N+1 条(距升格阈值仅 5%);B0 张力(数据维度扩大 vs 架构性贡献并存) |
| VLA-World for AD (2604.09059, SJTU+Huawei, 04-10) | 自动驾驶域 VLA + WM 统一架构,action-derived 可行轨迹引导下一帧图像生成 + 对 self-generated 未来帧 reflective reasoning | Phase 4 AD 跨域扩散子赛道首标;与 04-20 坦克 700 Coffee Pilot 4.0 车规量产 research+product 双轨共振 10 天 gap |
| I2RLC (2604.16850, OMRON SINIC X+Waseda, ~04-20) | 10× 演示加速 + 接触丰富 peg-in-hole 100% 成功率的 IRLC 增量精炼 | B2 中性 / B1 绕过弱反方(算法性绕过数据采集瓶颈) |
| Web-Gewu (2604.17050, ~04-21) | Browser-based 交互式 RL playground,WebRTC 云边协同 | B1 工程门槛下降第 7+ 条,RL 训练民主化基础设施 |
| Mini-BEHAVIOR-Gran (2604.17019, ~04-21) | 指令粒度 U 形效应 benchmark,指令设计成为 VLA 性能杠杆 | B0/B3 benchmark 工具 |
| Seeing Through Touch (2604.11579, KAIST+UNIST, 04-13) | 触觉驱动视觉材质定位(perception,非 policy) | B8 弱间接(tactile-grounded material segmentation) |
| 新增 04-24 paper-scan(2604.18-22 段补扫) | ||
| Cortex 2.0 (2604.20246, Sereact AI 工业, 04-22) | 工业 VLA + visual latent space WM + Process-Reward Operator + flow-based heads 四级显式分层;单/双臂 4 任务 SOTA VLA 全面超越 | B4 70→75% (+5%) 触发预测 #11;首个 latent-WM planner 工业级背书;B6 第 11 条分层信号;C2 最强反证 |
| RoboWM-Bench (2604.19092, 04-21) | manipulation-centric video WM 物理可执行性 benchmark;SOTA video WM 失败模式量化 | B4 中-强反方(video WM 路线);C2 弱正向(下限保护) |
| Curiosity-Critic (2604.18701, 04-20) | 累积预测误差作为 WM 训练 intrinsic reward;自动分离 epistemic vs aleatoric error | B4/B3 弱正向(WM 训练方法论) |
| GNWM (2604.16585, Western Digital, 04-19) | balanced continuous entropy 约束 + topological quantization 自稳定 WM | B4 弱正向方法论级 |
| 新增 04-25 daily-digest(2604.20-23 段) | ||
| Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23) | Human-in-the-World-Model — 学习 WM 作为 reusable corrective substrate, post-training 失败矫正脱离物理执行/真机/操作员监督 | latent-WM 第 5 团队(B4 维持 75%);B2 弱反方(in-WM post-training 替代物理 RL);B3 机制级闭环弱正向;预测 #17 追踪 Tier-1 复现 |
| 2604.21192 "How VLAs (Really) Work In Open-World" (04-23) | BEHAVIOR1K 50 任务评估方法论 — 揭露 SOTA 在 open-world long-horizon 系统性高估真实部署能力 (RLC + Comet) | B1 强反方累积(B1 77→72% 审计弹药再加码);B0 间接弱正向(评估方法论改进);B6 弱正向(长时程 = 分层必要性) |
| EmbodiedMidtrain (2604.20012, 04-21) | VLM↔VLA 数据分布对齐 mid-training 阶段;lightweight learnable proximity estimator + curated mid-training | B0 弱正向(数据策略 mid-training 维度);B7 弱反方间接(representation alignment vs 解耦) |
| 新增 04-26 daily-digest(2604.20-21 段补扫第 4 次) | ||
| PokéVLA (2604.20834, 04-21 段, 04-26 回溯发现) | Pocket-sized VLA — 1.22B params + 双阶段训练(PokeVLM 多模态 pre-training 2.4M 样本 + 多视角 goal-aware semantics + geometry alignment + novel action expert);LIBERO 98.2% / Long suite 95.2%(CoT-VLA 69 / WorldVLA 54, +26.2pp gap) | B9 累积第 7 条独立信号(参数预算结构性新低);维持 75%(LIBERO 接近饱和需打折,单条不达 ±5% 门槛);C1 弱反方间接(架构创新+数据 curation 协同 ≠ 纯架构创新单因主导) |
| 新增 04-27 paper-scan v3.5.3(2604.18-25 段补扫,daily-digest 漏过 6 篇) | ||
| 🔺 CorridorVLA (2604.21241, 04-23) | 稀疏空间锚点(Δ-position 增量物理变化)→ corridor tolerance loss 约束 flow-matching action head;跨 SmolVLA + GR00T 双 backbone 验证;LIBERO-Plus +3.4% ~ +12.4%;GR00T-Corr 83.21% | B5 / B7 弱正向(FM head 仍主流且可被增强;保持解耦同时注入空间先验);C1 (35% |
| UniT (2604.19734, XPENG Robotics + Tsinghua + HKU, 04-21) | Unified Latent Action Tokenizer via Visual Anchoring;三分支 cross-reconstruction (action↔vision↔fusion) → unified discrete latent action token;二联应用 = VLA-UniT (policy) + WM-UniT (world model) | B1 弱负向(人类视频替代第 5 条 + 首个 industrial-led 案例);B4 弱正向(latent-WM 应用变体第 3 条 = Cortex 2.0 / Hi-WM / WM-UniT,#16 工业级跟进口径仅部分工业含量);B6 弱正向(分层第 11+ 条);B7 弱负向(unified token vs decoupled);C3 中性偏负 |
| AEL (2604.21725, Rutgers, 04-23) | 双时间尺度 self-evolution = Thompson Sampling bandit (memory retrieval) + LLM 反思(causal insight 注入 prompt);LLM agent in open-ended environments(非 robotics 域) | B3 弱负向累积:prompt-level self-evolution 第 8+ 条(继 SpaceMind/EEAgent/KITE/FIDeL/ChemBot/WALL-B/EvoAgent);定义切分议程("权重闭环" vs "prompt/memory 闭环")继续累积压力 |
| EvoAgent (2604.20133, 04-22) | 主-子 agent 分层 + 三阶段 skill matching + 三层 memory;foreign trade 域;GPT5.2 +28% LLM-as-Judge 平均分 | B3 弱负向累积(prompt/skill 进化第 9 条,非 robotics 域权重 0.5);B6 弱正向(hierarchical sub-agent 第 12+ 条,非 robotics 域权重 0.5);不变更置信度 |
| SynAgent (2604.18557, 04-20, NJUST) | Solo-to-cooperative humanoid manipulation;Interact Mesh + Delaunay tetrahedralization 维持空间关系;Conditional VAE policy + multi-agent PPO | B1 弱反方(人类数据 bootstrap → multi-agent humanoid 替代路径);B6 弱正向(multi-agent cooperative = sub-system 分层);记录"协作人形"细分赛道形成中 |
| EUEA (2604.19839, UNIST, 04-21) | Environmental Understanding VLM 微调 4 种 skill(object perception / task planning / action understanding / goal recognition)+ GRPO 一致性细化 | B6 弱正向(skill 分解第 N 条);不变更置信度 |
| 新增 04-29 paper-scan v3.6.1 + 05-04 daily-digest v3.5.8(2604.26-28 + 2605.00 段 50 篇扫描) | ||
| 🔴 LWD (2605.00416, Yi Wang + Jianlan Luo et al., Berkeley 系, 2026-05-01) | Learning while Deploying — fleet-scale offline-to-online RL + DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) for flow-based VLA;deployment → rollouts + interventions → updates → redeploy 完整闭环;16 dual-arm 机器人 / 8 真实任务(含 semantic grocery restocking + 3-5min long-horizon)/ 单一 generalist policy 平均 95% 成功率 / long-horizon gain 最大 | 🔴 B1+B2+B3 三节点同步 +5%(B1 72→77 / B2 77→82 / B3 72→77);第一篇决定性反驳 04-17 社区共识;第一篇方法论级"权重闭环"真机大规模验证 + fleet-scale 数据飞轮方法论级实证;新预测 #22 立项(3 月复现追踪) |
| 🔺 Being-H0.7 (2605.00078, BeingBeyond Team / Beihang + PKU 系, 2026-04-30) | Latent World-Action Model from Egocentric Videos — learnable latent queries 作为 perception↔action 紧凑推理接口;future-informed dual-branch(deployable prior + training-only posterior);推理时丢 posterior 零 visual rollout;6 sim benchmark + diverse 真实任务 SOTA | 第 6 个独立 latent-WM 团队 + PFD-style sub-route 第 2 篇(PFD 不再孤立);B1 中-强反方第 6 条(人类 ego-video 替代);B4 维持 75% 校准上限(学术变体不计 #16);Phase 4 25→26/12 |
| 🔺 MotuBrain (2604.27792, ShengShu Technology + Tsinghua, 2026-04-29) | 三流 Mixture-of-Transformers 统一架构;5 distributions inference (VLA / WM / video / inverse / joint);WorldArena EWM 63.77 + RoboTwin 2.0 96.0(唯一 randomized >95);unified multi-view + cross-embodiment 统一动作表示 | 第 7 latent-WAM 团队 + 第 2 条 industrial-led(Cortex 2.0 后);强候选触发预测 #16 (B4 75→80%) —— ShengShu (UniDiffuser 团队) industrial 边界判定 5 月中假设审计 P0 决定;C2 反证 / B6 弱正向 / B0 中性偏负 |
| 🔺 LaST-R1 (2604.28192, 2026-04-30) | Reinforcing Action via Adaptive Physical Latent Reasoning;两阶段 RL pipeline + Clip-GRPO 算法 + annotation-free process-based grounding reward;引入 latent CoT reasoning + LAPO;LIBERO 99.8% 平均(接近饱和打 0.4-0.5x 折扣)+ 真机 +44% | B2 中正向(解决"real-world RL 物料被干烂"痛点 + LWD 共振);B7 弱正向(双层 policy 与 π0.7 Knowledge Insulation 同向);B4 弱正向(latent CoT 套利 #6 同向) |
| 🟡 Embodied Interpretability (2605.00321, ICML 2026 主会接收, 2026-05-01) | Causal/Interventional attribution for VLA — ISS (Interventional Significance Score) + NMR (Nuisance Mass Ratio);揭露 illusion of embodied reasoning + 4 失败模式(lexical-kinematic shortcuts / behavioral inertia / causal state tracking failures / semantic feature collapse);VLA 内在 trade-off (capacity compression vs perceptual abstraction) | C1 (35% |
| 🟡 ExoActor (2604.27711, BAAI, 2026-04-29) | Exocentric Video Generation as Generalizable Interactive Humanoid Control — 第三人称视频生成 → human motion estimation → 通用 motion tracking → humanoid 行为;端到端无需 task-specific data collection | B7 反方第 4 条独立信号(视频生成即策略路线;继 Action Images / ViVa / Video Generators are Robot Policies);B1 弱反方;C3 中性偏支持 |
| 🟡 Lucid-XR (2605.00244, MIT + UCSD + UCB, 2026-05-01) | Extended-Reality Data Engine for Robotic Manipulation — vuer (web-based physics sim on XR headset) + on-device retargeting + physics-guided video generation;零样本迁移到真机凌乱/低光场景,全部 Lucid-XR 合成数据训练;Xiaolong Wang + Phillip Isola + Ge Yang 强 senior author | B1 反方(合成数据替代真机数据第 N+1 条);B0 弱正向;C1 (35% |
| 🟡 Robot Learning from Human Videos: A Survey (2604.27621, 2026-04-29) | LfV survey 系列第二条(继 2024 "Towards Generalist Robot Learning from Internet Video") | B1 弱反方(LfV 已成 sub-field);不直接累积置信度 |
| 🟡 World Model for Robot Learning: A Comprehensive Survey (2605.00080, 2026-05-01) | WM survey(与 2510.16732 / 2511.02097 同类)= WM 已成 well-defined sub-field(survey 数 ≥3 学科化标志) | Phase 4 +1 元信号;C2 弱反方(survey 频率提示研究热度持续) |
| 🟡 Physically Native World Models (2605.00412, 2026-05-02) | A Hamiltonian Perspective on Generative World Modeling — 物理 prior 注入 WM;RoboWM-Bench (04-21) 之后第一条主动建模物理可行性的论文 | B4 弱正向(路线分化进一步明朗);C1 (35% |
| OpenWorldLib (社交情报 2026-05-01, 北大 DCAI + 快手 Kling + 上海算法 + 中关村学院) | 统一世界模型推理框架;显式统一 VLA 控制接口;多模态推理流程碎片化解决方案 | 弱 pro-B4 + 弱 pro-B6(标准化议程);中国产学研协作信号 |
| 新增 05-06 paper-scan v3.6.2(2605.01xxx ~ 2605.039xx 段 ~136 篇扫描,6 强 + 10 中信号) | | | | 🔺 MolmoAct2 (2605.02881, AI2 Allen AI, 2026-05-04) | 完全开源 frontier-class action reasoning model;MolmoER spatial-and-embodied-reasoning VLM + 3.3M-sample corpus + specialize-then-rehearse + OpenFAST 跨 5 embodiments tokenizer + 720h teleoperated bimanual 迄今最大开源 + flow-matching continuous action expert grafted onto reasoning VLM | 第 2 个 frontier-class "data + recipe > 架构" 背书(继 π0.7);B0 / B1 / B7 中-强正向累积;议程 P1 立项 "B5 内部 FM vs FAST 拆分" | | 🔺 Latent Bridge (2605.02739, Duke Yiran Chen / Hai Li, 2026-05-04) | Feature Delta Prediction for Efficient Dual-System VLA Inference;跨架构 GR00T-N1.6 (feature-space) + π0.5 (KV-cache) + task-agnostic DAgger pipeline;95-100% 性能保留 + 50-75% VLM call 减少 + 1.65-1.73× 加速 | 新窗口 #9 dual-system inference acceleration 触发第 1 篇;B6 / B7 工程级强背书;B9 累积第 8 条距 +5% 一篇之遥 | | 🔺 RoboAlign-R1 (2605.03821, 2026-05-05) | Distilled Multimodal Reward Alignment for Robot Video WM;RobotWorldBench 10K + RoboAlign-Judge 6 维 + lightweight student reward model + SWR training-free inference | B4 第 5 条 video-WM-as-data-engine + 第 6 sub-route reward-aligned WM 新维度 cross-Phase 4×2;Phase 4 计数器 28/12 | | 🔺 VLA-ATTC (2605.01194, Wenhao Li / Xiu Su 系, 2026-05-02) | Adaptive Test-Time Compute for VLA "Cognitive clutch" uncertainty 触发 reflexive→deliberation;Relative Action Critic (RAC) pairwise 替代 absolute Q;LIBERO-LONG 失败率 -50%+ vs π0.5 | 🆕 Phase 6 候选 (TTC for VLA) 立项 + 新预测 #23 立项(3 月内非该 cluster 第三方信号到期 2026-08-06) | | 🔺 Sentinel-VLA (2605.01191, 同作者 cluster, 2026-05-02) | Metacognitive VLA active sentinel 持续监控 + on-demand reasoning + SECL self-evolving + OC-Adapter (Orthogonal Continual Adapter) 防遗忘;真机 vs PI0 +30% | B3 三分类 hybrid 路径第 1 条(OC-Adapter weight-level 防遗忘介于 prompt-loop B3b 与 weight-loop B3a 之间) | | 🔺 Hydra-DP3 (2605.01581, UCB, 2026-05-02) | 频域分析 diffusion-based visuomotor policies;理论证明 optimal denoiser 误差被 low-frequency subspace 维度 + residual high-frequency energy bound;2-step DDIM 充分;pocket-scale 3D DP + Diffusion Mixer decoder + <1% prior 3D DP params + 真机 SOTA | Phase 1 反相变第 13 条决定性数学证据(前 12 条多为工程实证);B9 累积第 9 条;C1 升格累积第 5 条距阈值 5pp → 下次假设审计正式审查 C1 升格 P0 | | 🔺 OGPO (2605.03065, 2026-05-04) | Off-policy Generative Policy Optimization;off-policy critic + 完整 generative process 反向传播 policy gradient + critic-as-terminal-reward;唯一从 BC 烂初始化 finetune 到接近 task success(无 expert data online)的方法 | B2 累积(5 篇 14 天 RL 工程化双周三连 + LWD + LaST-R1);解决 04-17 Jupiter Zhai "BC 烂初始化救场"痛点 | | 🔺 FAN (2605.01663, 2026-05-03) | Flow-Anchored Noise-conditioned Q-Learning;flow policy + distributional critic 但单次 flow iteration + 单 Gaussian 样本 大幅效率提升同时 SOTA;理论证明 simplification 不仅效率提升还提升性能 bound | B2 累积;Phase 1 反相变 13/15 不增(FM 主流地位由 flow + RL 工程化巩固) | | 🔺 EnergyFlow (2605.00623, 2026-05-01) | Recovering Hidden Reward via energy function whose gradient = denoising field;证明 score function 学习 = expert soft-Q gradient 恢复 无 adversarial 训练即可提取 reward;conservative field 约束 tighten OOD bound | B2 累积;解决 reward shaping 痛点;提供 IRL 与 generative policy 桥接理论 | | Anticipation-VLA (2605.01772, 05-03) | Long-horizon embodied tasks via adaptive recursive subgoal generation;hierarchical UMM + goal-conditioned VLA execution | B6 弱正向 / B3 弱正向间接 | | BifrostUMI (2605.03452, 05-05) | Robot-free demonstration → humanoid whole-body manipulation;VR-based portable demo + keypoint trajectory + retargeting + WBC(UMI 系列 humanoid 扩展) | B0 / B1 中正向累积 | | Bridging Embodiment Gap (2605.03637, 05-05) + Seeing Realism (2605.02757, 05-04) + Decompose-and-Recompose (2605.01448, 05-02) | sim-to-real video augmentation / disentangled cross-embodiment video editing / atomic skill-action pairs 跨任务泛化 | B0 / B1 中正向累积(4 条本周 data engine 信号 + MolmoAct2 = +5% 候选) | | IVLR / Thinking in Text and Images (2605.00438, 05-01) + VILAS (2605.02037, 05-03) + Semantic Autonomy Framework (2605.02525, 05-04) + LiteVLA-H (2605.00884, 04-27 段补) | interleaved vision-language reasoning / Fairino + Jodell + π0/π0.5/GR00T N1.6 三模型并行 / 6-layer reference framework + 88% 指令 <0.1ms / 256M VLA aerial Jetson AGX dual-rate | B3 / B6 弱累积;B9 弱正向(aerial dual-rate) |
| 工具 | 类别 | 最新版本 | 定位 |
|---|---|---|---|
| LeRobot | 训练框架 | v0.5.0 (2026-03) | 事实标准,集成 X-VLA backbone |
| StarVLA | 训练框架 | (2026-04) | 模块化全栈框架,VLM+WM backbone 可 swap,多 action head |
| Isaac Lab | 仿真+RL | - | GPU 并行训练首选 |
| MuJoCo | 物理引擎 | v3.6.0 (2026-03) | 精细接触仿真 |
| SAPIEN | 仿真 | v3.0.3 (2026-03) | 零件级交互 |
| Genesis | 仿真 | v0.4.3 (2026-03-16) | 新兴综合仿真 |
| GELLO/ALOHA | 数据采集 | - | 遥操作硬件方案 |
开源分级:展示型(算法 demo) < 生态锁定型(厂商工具) < 基础设施型(全 CAD+栈+know-how 透明) 工具链正在快速收敛,继续维护独立训练代码库的团队将面临"无人复用"困境。
- PMF 真标准:持续用户留存 + 可量化 ROI + 可靠性验证(非 demo 级别)
- 人形机器人:Figure/Tesla/1X/Agility 领跑,中国 Unitree/LimX/银河通用追赶;2026 年进入小批量产线部署但距大规模量产仍有 2-3 年
- 产业与学术脱节:学术卷 LIBERO 99.2%→99.5%,产业谈"产线部署""量产基地"——当基准分数与客户付费标准脱钩,学术研究合法性基础正在松动
Q: VLA 和传统机器人学习有什么本质区别? A: 传统方法是模块化流水线(感知→规划→控制),VLA 是端到端:视觉+语言直接映射到动作。优势是涌现泛化能力,代价是可解释性和安全保障。
Q: 为什么 Flow Matching 胜出? A: Diffusion 走随机路径需 50-100 步去噪,Flow 走最优传输直线仅需 1-10 步。同等精度下推理快 10 倍+,首次让大模型支持 50Hz+ 实时控制。OFP 进一步证明单步 flow 可超越多步版本。
Q: VLA 最大瓶颈是什么? A: 数据。真机数据采集成本是 #1 约束(1 小时数百元,无法覆盖长尾)。三条绕过路径:互联网视频跨模态迁移、World Model 生成合成数据、Sim2Real。
Q: RL 后训练为什么是突破口? A: BC 只能学到专家分布内行为,分布外崩溃。RL 通过在线探索收集分布外数据 + 自动奖励(VLM 打分) → 突破 BC 天花板。π0.6 Recap 是典型代表。
Q: 触觉为什么重要? A: 视觉给坐标,语言给意图,触觉给接触相位真反馈。遮挡下力/形/质不可视觉观测,精密操作的最后 1cm 靠触觉闭环。MoDE-VLA 量化证明:去除力觉-11%,去除触觉-8%。
Q: World Model 当前状态? A: 从 nice-to-have 预测器 → 评估器 → 规划器 → 动作生成基底 演进中。PlayWorld 已证明 WM→RL 闭环可行(+65%),但接触密集任务的物理幻觉是致命障碍。方法论分化为 pixel/latent/structured/WAM 四条路线。Cosmos 3(NVIDIA 产品化)+ NC AI WFM(25% GPU 成本达 80%性能)= 双工业级信号。置信度 70%↑,Phase 4 持续超临界(60%)。
Q: 小模型能替代大模型吗? A: 在受限场景可以。Evo-1 (450M) 达 LIBERO 94.8%,仅 RT-2 参数的 1.4%。GigaBrain-0-Small(840 GFLOPs, 0.13s, 80%)进一步验证。AutoQVLA(ICLR 2026)节省30% VRAM。RoboECC 边缘云协同将延迟从 1274→362ms。置信度已升至 70%。但开放世界泛化仍需大模型。
Q: SimVLA 的启示? A: 0.5B 模型通过正确训练 recipe(数据 shuffling、归一化、LR schedule)达 98.6% LIBERO。关键:"沉默旋钮"(shuffling off = 9.9% vs on = 98.6%) 比花哨模块重要得多。数据策略 > 架构创新(B0)的直接证据。
Q: Knowledge Insulation 是什么? A: 双轨训练防灾难性遗忘:VLM backbone 只学离散 token(保留语义能力),Action Expert 独立学连续控制,梯度隔离不互传。π0.6 核心技巧之一。
Q: 当前领域最大风险? A: 学术与产业脱节。学术在 LIBERO 上刷 0.3% 提升,产业需要"产线任务成功率""维护周期"。工具链(LeRobot)收敛加速了实验民主化,但 54 篇 RL 论文中多数是调参报告而非方法创新——"工具易得≠方法成熟"。
Q: ICLR 2026 揭示了什么? A: 164 篇 VLA 提交(18× 年增长)。关键发现:VLM backbone 大小与 VLA 性能无关(VLM4VLA);LIBERO 已饱和;Discrete Diffusion VLA 是新兴趋势(4篇并发);零样本差距依然巨大——开源 VLA 远落后 π0.5/Gemini-Robotics。
- 谦逊折扣:所有 >80% 置信度已乘 0.9(LLM 在此区间系统性过度自信)
- 保守偏误修正:强证据最小更新 ±5%,Bull+Bear 共识最小 ±10%。禁止 2-3% 安慰性微调——要么 ≥5% 要么不调整(记录为观察中)
- 逆共识保护:逆共识信号的筛选阈值为正常的 1/3(防止系统性杀死异见)
- 高确定性 = 高风险:你最确定的判断,恰恰是最需要被挑战的
- 生存者偏误警告 🔴:系统零失败案例记录。每次分析需主动搜索失败/无法复现/部署失败信号
- 本文档截止日期:2026-05-28,VLA 领域每周都有重大变化
生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → 17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.25 2026-05-21 (incremental scheduled task — 🟡 triple-report day (paper-scan v3.6.12 → daily-digest v3.6.13 → convergence-radar v3.6.14) / 0 net confidence changes: paper-scan caught 3 confirmed VLA-relevant papers (abstract-only, web_fetch 429): MoLA (2605.12167, Fudan/Surrey/Imperial, ~05-12) mixture of latent actions from imagined-future video via mixture of pretrained inverse dynamics models, solves video-realism↔control-relevance mismatch = B4 latent-WM↔video-WM bridge independent signal + Phase 4 anti-phase counter 38→39/12 = 3.25× historical max (C2 15% floor reinforced; B4 +5% blocked by calibration ceiling deadlock) / WarmPrior (2605.13959, ~05-13) temporally-grounded prior from recent action history replaces Gaussian source → straighter probability path (Rectified-Flow-OT-coupling-like) + reshapes prior-space RL exploration = B5 weak-positive (FM-internal refinement, NOT counted in Phase 1 anti-phase 14-15/15) + B2 weak-positive / DeMiAn (2605.17077, ~05-16/17) dense multi-aspect language annotation (physical-motion/scene-composition/arm-pose/reasoning 4-axis VLM re-annotation) on 1M+ manipulation clips + 50K EgoVerse ego-video, no new data, simultaneously boosts VLA policy + video-WAM = B0 strong-positive single-empirical ("language density as data-side lever to extract more signal from fixed corpus" = data-engineering>architecture, blocked by B0 77% ceiling deadlock) + C3 weak-opposing/scope-boundary reinforcement (manipulation-domain dense language still useful → validates 05-17 C3 +5% AD-only scope note; manipulation/humanoid generalization unverified) + B1 weak-positive; segment-numbering SOP 16th retroactive discovery (MoLA + WarmPrior both within 05-14/05-15 claimed "2605.0712 / 2605.1115 enumeration" yet missed; 2605.12 segment 2nd-time miss) → segment-enumeration SOP v2 draft P0 hardened; **2605.1618 segment index-delay hypothesis CONFIRMED* (05-18 judged segment empty + predicted "latest 2-3d arxiv segments typically lag 3-5d"; this run +3d DeMiAn 2605.17077 now indexed = prediction HIT, positive calibration record); AT-VLA + Hand-in-the-Loop (2605.15157) 2nd cross-ref failure → permanently dismissed (per RotVLA 2605.13403 SOP; Hand-in-the-Loop persistently maps to DexHiL 2603.09121); calibration ceiling deadlock now spans 4 nodes B0/B4/B6/B7 (DeMiAn adds 1st explicit B0 empirical pressure → v3.5.6 ceiling-framework 3-option proposal now has cross-4-node pressure = framework-level systemic deadlock, strongly recommend next hypothesis-audit priority); convergence-radar v3.6.14: Phase 4 theme-classification correction — GuidedVLA reclassified B7/C1 (action-decoder attention head) NOT WM → radar-corrected 38/12 = 3.17× (BG口径 39/12 = 3.25×); industrial latent-WAM convergence = strongest weekly trend (Cortex 2.0 / MotuBrain / Pelican-Unified 3 independent industrial teams + XPENG X-World + MoLA bridge), prediction #16 quantity 3/1-2 overshoot but B4 +5% blocked = framework problem not evidence problem; Arbiter: WM convergence real but nature changed (academic-frontier → industrial-infrastructure downgrade, like tactile maturation), "3.25×" must NOT be misread as "WM is hot research direction" (opposite); radar added 2 P0 (Phase-counter theme-classification discipline + "recent-velocity flow" companion metric, current counters monotonic stock can't capture biweekly world_model accel 0.69 decay); macro engineering convergence (biweekly): language_grounding 1.57 (sole SURGE) / world_model 0.69 decay / diffusion_policy 0.42 decay = "FM + RL post-training + language-direct-grounding" golden triangle = engineering-deployment narrative inflection; social intel 05-19/05-20 (daily-digest exclusive): Figure 03 77h uninterrupted autonomous sorting (no human intervention) + Faraday Future $25M convertible + 萝博派对 angel+ (顺为/Xiaomi) + 矩阵超智 MATRIX-3 (33+27 DoF, Q3 mass-production) + 远征A3 RaaS + 云深处 IPO accepted (2nd A-share humanoid after Unitree) = 6 product-launch/funding/IPO/RaaS signals, ZERO touching VLA core research, only indirectly weaken B0-saturated direction; system-level meta-signal: last belief "decrease" = 04-26 (B1/B3 ↓), now 25d ago (< 30d alert but 5d away); all changes since 05-04 are ↑ = "only-up" regime, OPPOSITE to node-level (B5/B6/B7/B8) "should-decrease-but-didn't" conservative bias — two biases coexist, exposing dual cost of calibration deadlock → next hypothesis-audit meta-layer review; conservative bias state (2026-05-21, +3d vs 05-18): B0 34d / B1 25d / B2 软17d 严50d 🔴 / B3 25d / C3 4d / B4 27d / B5 51d 🔴 / B6 77d 🆘 (67d ceiling reflection +10d) / B7 软22d 严67d
生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → ~17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.24 2026-05-18 (incremental scheduled task — 🟧 dual-report day / segment-numbering SOP 15th-occurrence retroactive discovery of 5 missed VLA-relevant papers / 0 net confidence changes but significant structural agenda pressure: today two reports generated — (1) 2026-05-18-daily-digest.md overnight run = zero-new-data day [24h 0 new VLA-relevant arxiv + vla-social-intel/2026-05-18.md absent + xhs/2026-05-18-.md absent + industry news JAL-Haneda + Agility-Toyota + Figure Helix-02 all non-VLA-architecture or already processed]; BELIEF_GRAPH.md v3.6.9 → v3.6.10-incremental-daily-0518; (2) 2026-05-18-paper-scan.md = segment-numbering SOP 15th retroactive discovery of 5 papers missed by 05-14 / 05-15 paper-scan claimed "2605.0712 enumeration" + "2605.1115 enumeration": ALAM (2605.10819, 05-11) algebraically consistent latent action + frame triplets + composition/reversal regularization + joint flow-matching co-generation [MetaWorld MT50 47.9→85.0% +37.1pp weak-baseline reservation + LIBERO 94.1→98.1% saturation discount reservation + additivity-reversibility errors -25-85×] = C1 weak-mid positive 8th + Phase 4 +1 [latent transition] / SEVO (2605.11114, 05-11, FelixFtch) semantic-enhanced virtual observation + active red illumination + diversified data collection ablation directly validates "data > architecture" [ACT 95→85% / SmolVLA 83→75% novel env transfer gap 10%] = B0 weak-positive Nth / C1 weak-opposing / GuidedVLA (2605.12369, 05-12) plug-and-play action attention head specialization [object grounding / spatial geometry / temporal skill logic three-head supervision] = B7 mid-positive Nth + C1 weak-positive 9th + Phase 4 +1 [attention head] / 🟠 Pelican-Unified 1.0 (2605.15153, X-Humanoid, 05-14) unified VLM + Unified Future Generator [UFG] joint future video + action denoising + 64.7 VLM same-param SOTA + WorldArena 66.03 #1 + RoboTwin 93.5 avg #2 [Bear: 2nd ≠ 1st + benchmark cherry-pick risk + X-Humanoid no PI/Figure/NVIDIA-tier endorsement] = 3rd industrial latent-WAM independent signal [Cortex 2.0 / MotuBrain / Pelican-Unified] formally satisfies prediction #16 "next-quarter 1-2 industrial-level follow-ups → B4 75→80%" quantity condition 3/1-2 overshoot, but trigger condition blocked by B4 75% calibration ceiling deadlock → escalated to P0 agenda + simultaneous adjudication of calibration ceiling rule 3-option proposal + B6 unified weak-opposing 1st + B7 weak-opposing Nth + Phase 4 +1 [UFG] / Hand-in-the-Loop (2605.15157, ~05-14/15) dexterous VLA seamless interventional correction [title + authors verified, paper details cross-ref 3-attempt failure 1-strike pending dismiss] + 1-strike candidate AT-VLA "Adaptive Tactile Injection" cs.RO listing appears but 3-attempt arxiv ID cross-ref failure → 1-strike pending dismiss; Phase 4 (WM closed-loop) anti-phase counter 35/12 → 38/12 = 3.17× historical max [+ALAM latent transition / +GuidedVLA attention head / +Pelican-Unified UFG, far exceeding 30 forced structural re-estimation threshold + approaching 40 = 4× critical line]; C1 (architectural innovation regression, 35%↑
生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → 17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.23 2026-05-17 (incremental scheduled task — 🟡 single weak social signal day / dual structural-threshold same-day trigger: daily-digest / paper-scan / xhs all 3 still absent today [reports dir latest still 2026-05-15-daily-digest + 2026-05-15-paper-scan, xhs latest 2026-05-15-auto.md]; only 05-17, hits v3.5.5-registered "≥45d auto-escalation to structural-epistemics problem" integer landmark line, history-max +23 days] — PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR strict absence persists; per self-reflection v3.6.7 escalation rule, structural-epistemics problem triggered, but this scheduled vla-expert-memory task does NOT autonomously execute escalation adjudication (human / daily-digest / hypothesis-audit jurisdiction), only records threshold-hit; prediction #27 top-lab arxiv rebound hard deadline 2026-06-05 distance = 19 days (buffer-zone consumption begins); 🆘 structural threshold 2 triggered: prediction #9 (π0.7 3rd-party independent reproduction "match specialist") expired = today 2026-05-17 — v2.0.22 §6.1 mandated "05-17 or first daily-digest thereafter MUST adjudicate +5% π0.7 SOTA strong-robustness meta-hypothesis / close #9 as opposing-side"; this task does NOT autonomously execute prediction adjudication (human / daily-digest jurisdiction), only records expiry fact = #9 EXPIRED as of 05-17 with no 3rd-party reproduction signal across v2.0.21/22/23 three WebSearch rechecks, awaiting next daily-digest active adjudication. zero + single-weak input → only value = bias counter +1d + arxiv silence +1 (45d threshold triggered) + prediction countdown + §9.1 daily snapshot + footer/header version + dual structural-threshold same-day trigger record (#9 expired + 45d arxiv triggered). conservative bias state (2026-05-17, +1d): B0=30d / B1=21d / B2=soft 13d / strict 46d 🔴 / B3=21d / B4=23d / B5=47d 🔴 / B6=73d 🆘 broke 67d ceiling reflection threshold +6d / B7=soft 18d / strict 63d memory/blog/archives/vla-social-intel/2026-05-17.md exists = single weak social signal: XPeng announced 2nd-gen VLA model on 5/15 Tech Day [claims "first mass-produced physical-world LLM" + end-to-end architecture visual-signal-direct-to-action + cross-domain auto/Robotaxi/robot/flying-car + no language translation intermediary] — social-intel report self-assessment "single signal no trend judgment", correctly classified as B1 weak-positive long-term industrial flywheel Nth signal [auto-maker VLA productization 2nd signal after 04-20 Great Wall Tank 700 Coffee Pilot 4.0] + C3 indirect weak-positive [delete-language-intermediary architecture signal but single social-promotional signal lacks 2nd-party verification, fails C3 escalation evidence threshold]; single social-promotional + missing 2nd independent verification → 0 confidence changes any node [v3 calibration §3.2 + 05-12 v2.0.19 new SOP "external declaration-grade signals → mandatory web cross-ref ≥2 independent sources + date + literal quote"]; BELIEF_GRAPH.md unchanged at v3.6.7-incremental-daily-0516 [05-16 daily-digest authority]; 🆘 structural threshold 1 triggered: arxiv top-lab strict silence = 45 days [04-06
*生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → 17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.22 2026-05-16 (incremental scheduled task — 🟢 zero-new-data day / 4th true zero-data day: daily-digest / paper-scan / social-intel all 3 absent today [reports dir latest still 2026-05-15-daily-digest, vla-social-intel latest 2026-05-15.md, xhs latest 2026-05-15-auto.md]; BELIEF_GRAPH.md unchanged at v3.6.7-self-reflection [05-15 self-reflection authority]; 0 net confidence changes; only value = bias counter +1d + arxiv top-lab silence extends to day 44 [04-0605-16 history-max +22d, just 1 day from 45d structural-epistemics escalation line — triggers tomorrow 05-17 if absence continues] + prediction countdown [#9 distance to 05-17 = 1 day FINAL window — π0.7 3rd-party reproduction "match specialist" final-day-before-deadline; 05-15 WebSearch recheck still no signal, high-probability expire-untriggered → 05-17 daily-digest mandatory adjudication +5% π0.7 SOTA strong-robustness meta-hypothesis record / #9 closes as opposing] + B8 crosses 60d integer landmark [2nd integer-line break since v3.5.0; 05-15 self-reflection submitted item #1 "B8 final ruling →65% or formal rebuttal" still 0-