VLA 专家记忆 v2.0.28 | 2026-05-28

角色：压缩索引 + 自足知识底座。无 repo 时独立运作；有 repo 时作为快速框架，深度分析由原始文件补充。来源：KW_VLA Handbook（332+ 篇 Markdown，70+ 论文拆解，产业分析，周报系统）。维护：定时任务每日 09:00 增量更新。 v2.0.27 变更摘要（2026-05-26→05-27 增量定时任务 — 连续 2 个零新数据日 / 0 置信度变更 / 系统级“只升不降”保守偏误警报 05-26 正式 fire）：🟢 零新数据日 ×2 — 0 节点置信度变更。补整合 05-26 daily-digest（v3.6.19，BELIEF_GRAPH 已 bump）+ 推进至 05-27（三类报告全缺席）。(1) 🔴 05-26 系统级保守偏误警报 fire：上次任一信念下降 = 04-26 (B1/B3 ↓) 距今满 30 天 → CLAUDE.md §4.3 触发 #4；警报职责 = 强制重审非强制下调，05-25 hypothesis-review 已完成 B5/B6/B8 三视角审查裁定无任一节点存在真实“应下调”证据（B8 处 50/50，对其 -5% 重蹈 04-26 被 LWD 反转覆辙；B5/B6/B7 上行被 75-77% 校准上限锁死非应下行）→ 维持 0 变更（§内容纪律“不为显得有在工作而制造假变更”）。(2) §4 保守偏误计数器全体 +1d 至 05-27：B0 40d / B1 31d软 / B2 软23d 严 56d🔴 / B3 31d软 / C3 10d / B4 33d / B5 57d🔴 / B6 83d🆘 / B7 严73d软28d / B8 71d🔴 / B9 42d（5 节点超阈值不变 B5/B6/B7严/B8/B2严）。(3) 顶级实验室 arxiv 严格缺席 55 天（04-06~05-27 史上最长 +1d）；#27（顶级实验室 arxiv rebound 硬截止 2026-06-05）剩 9 天 = 唯一 30 天内到期项，本窗口无 rebound = 反方持续累积；#28（π0.7 60d 延期复现 2026-07-17）剩 51d。(4) 系统级“只升不降”计数 31d（警报持续 active）。(5) 🟡 既存数据一致性观察（不擅自解决）：BELIEF_GRAPH §1 节点表 B1=72%/B2=77%/B3=72%（04-26 值）vs §4/本记忆 B1=77%/B2=82%/B3=77%（LWD 05-04 值）差 5pp，仅标记供下次 hypothesis-review，不改任何节点值。(6) 真正病灶 = calibration ceiling deadlock + ≥11 项 P0 人工裁决 0 落地循环（自 05-15 计 12 天），下次 hypothesis-review 元层最高优先。 v2.0.26 变更摘要（2026-05-25 增量定时任务 — 双报告日 daily-digest v3.6.16 + paper-scan v3.6.17 / 0 置信度变更 / 真数据日但全部信号被 calibration ceiling deadlock 阻塞 / 系统级"只升不降"警报临界）：🟡 低信号真数据日 — 0 节点置信度变更。当日 两份报告：(1) daily-digest 24h 窗口捕获 GesVLA (2605.22812, ~05-21) gesture-aware dual-VLM（gesture 特征嵌 latent 空间 + hand-model 渲染 gesture 数据生成管线降 sim-to-real）= 弱 B0（数据工程, raw 85% deadlock 不达 +5%）/ 中性 C3（保留语言 ADD gesture ≠ 移除语言, 05-17 C3 sub-trigger 未 fire）/ 弱 B6（dual-VLM）+ HiF-VLA (arxiv 2512.09928 = 2025-12 旧论文) motion 表征双向时序推理（hindsight+foresight, LIBERO-Long 96.4%, 延迟 -58.3%）仅因 05-22 开源 + CVPR 2026 接收再浮现 → 按旧论文处理不触发节点（arxiv ID 核查防"开源 ≠ 新论文"误计）; (2) paper-scan 段穷举补扫 daily-digest 24h 窗口漏过的 4 篇: 🟡 RAW-Dream (2605.12334, ~05-12) task-agnostic WM-for-RL（task-free WM 预训练 + 现成 VLM reward + dual-noise verification, zero-shot imagination 微调）= Phase 2×4 交叉（WM 里做 RL）最危险交叉又一实证 + Phase 4 反相变计数器 39→40/12 BG = 3.33× 历史新高（雷达 38→39/12 = 3.25×）, B4 75% 校准上限 deadlock 阻塞不达 +5% / 🟡 AVP (2605.22183, ~05-22) VLM 发射 visual-primitive token 作接口条件化动作生成解耦指令/空间/运动 = B7 中正向, deadlock 阻塞 / 🟢 PointACT (2605.21414, ~05-21) multi-scale point-action expert dual-system 3D-aware = B7/B6 弱 / 🟢 EvoScene-VLA (2605.21862, ~05-21) recurrent scene prefix 跨 chunk 维护 geometry-aware scene prior（RoboTwin +2pp）= B7 弱（明确不计 Phase 4, 沿用雷达归类纪律: decoder-内场景状态 ≠ 生成式 WM）; 流程更正: Hand-in-the-Loop / HandITL (2605.15157) 撤销 05-21 永久 dismiss（本次 WebSearch 独立返回区别于 DexHiL 2603.09121 的摘要 = bimanual dexterous human-in-the-loop intervention, SOP false-negative 校准点, 归 B2/B3 既有累积 belief 0; SOP 应增 "dismiss 后自然浮现需 un-dismiss 复评" 条款）; 2 篇 1-strike pending（cross-ref 未独立确认, 不计节点不记方法细节）: Pre-VLA (2605.22446) runtime verification for VLA + WM rollouts + Understanding Multimodal Failure in Action-Chunking BC (2605.22493); 段穷举 SOP 第 17 次发现漏过（2605.12 段第 3 次, 单段连续三次漏过 = 段穷举不可靠最强印证, SOP v2 草案 P0 紧迫上升）+ 2605.18~22 段索引延迟假设第 2 次确认（lag 3-5d 稳定, 2605.2324 仍未索引下次 05-28 补扫）; 社交情报 4 条全产业/narrative 0 触及 VLA 核心: Tesla 关 Fremont 经典车型产线转人形（非 arxiv 发布不破缺席）/ 脉塔智能 5000万 Pre-A/A / 智平方 AI²《VLA 过时吗?2026 回应》 把 VLA 重定义为 WM+类脑开放框架 narrative 防御（加固 C2 15% 下限反证但已不动）/ 福赛科技 2000万人形专项基金。🔴 本日核心元信号: 上次任一信念"降低"= 04-26（B1/B3 ↓）距今 29d, 距 CLAUDE.md §4.3 触发 #4「连续 30 天未降低任何信念置信度 → 保守偏误警报」仅剩 1 天（05-26 正式触发） —— 05-04 后全 ↑ = "只升不降 over-update drift" 进入正式警报临界, 与节点级 B5/B6/B7/B8 "该降未降"方向相反并存 = 校准 deadlock 双面成本, 列下次假设审计元层最高优先。保守偏误状态（2026-05-25，全体 +4d vs 05-21）：B0 (38d) ✅ / B1 (29d) ✅ / B2 (软 21d / 严 54d 🔴) / B3 (29d) ✅ / C3 (8d) ✅ / B4 (31d) ✅ / B5 (55d) 🔴 / B6 (81d) 🆘 已破 67d 反思阈值 +14d / B7 (软 26d / 严 71d ⚠️) / B8 (69d) 🔴 / B9 (40d) ✅。5 节点超阈值不变（B5/B6/B7-严/B8/B2-严）。预测窗口倒计时：#9 已关闭；#16 数量已满足触发受阻；#19 剩 36d；#22 剩 71d；#23 剩 73d；#24/#25 剩 81d；#26 剩 173d；#27 距 06-05 剩 11 天 < 2 周关键监测期（本窗口无 rebound: GesVLA 学术 / HiF-VLA 旧学术 / Tesla 非 arxiv = 反方持续累积）。顶级实验室 arxiv 严格缺席 53 天（04-0605-25 史上最长 +4d, 本批零顶级实验室）。BELIEF_GRAPH.md v3.6.14 → v3.6.16（daily-digest）→ v3.6.17（paper-scan）, 0 置信度变更, §4 计数器 daily-digest 已 +4d / paper-scan 不递增。议程积压 ≥10 P0 + 雷达 2 项, calibration ceiling deadlock（B0/B4/B6/B7）最高优先未解。**⚠️ GitHub 累积未 push v2.0.21v2.0.26**（本 session bash mount 同步尝试 push + PowerShell fallback）。（注: v2.0.25 05-21 仅 bump 标题/§9 未留独立 changelog 条目, 见 §9.1 05-21 快照）。Source Map 行号偏移：changelog +1 行 / §9.1 +1 行（05-25 当日快照）/ §15 截止日期更新 → Source Map 表格按新行号刷新。 v2.0.24 变更摘要（2026-05-18 增量定时任务 — 双报告日 / 段编号穷举 SOP 第 15 次发现漏过 5 篇 / 0 置信度变更但结构性议程压力显著）：当日 两份报告 生成 — (1) 2026-05-18-daily-digest.md 凌晨运行 = 零新数据日 (24h 增量 0 新 VLA-relevant arxiv + 社交情报 vla-social-intel/2026-05-18.md 不存在 + 小红书 xiaohongshu-community/2026-05-18-*.md 不存在 + 产业新闻 JAL/Haneda + Agility-Toyota + Figure Helix-02 均非 VLA 架构信号或已往日处理), BELIEF_GRAPH.md v3.6.9 → v3.6.10-incremental-daily-0518; (2) 2026-05-18-paper-scan.md = 段编号穷举 SOP 回溯发现 05-14 / 05-15 paper-scan 声称 "2605.07~~12 段穷举" + "2605.11~~15 段穷举" 范围内全部漏过 5 篇 VLA-relevant 论文: ALAM (2605.10819, 05-11) algebraically consistent latent action model + frame triplets + composition/reversal regularization + joint flow-matching co-generation (MetaWorld MT50 47.9→85.0% +37.1pp baseline 弱 reservation / LIBERO 94.1→98.1% 饱和折扣 reservation / additivity-reversibility errors -25-85×) = C1 弱-中正向第 8 条 + Phase 4 +1 (latent transition) / SEVO (2605.11114, 05-11, FelixFtch) semantic-enhanced virtual observation + active red illumination + diversified data collection ablation 直接验证 "data > architecture" (ACT 95→85% / SmolVLA 83→75% 跨 mobile platforms) = B0 弱正向第 N 条 / C1 弱反方 / GuidedVLA (2605.12369, 05-12) plug-and-play action attention specialization (object grounding / spatial geometry / temporal skill logic 三 head 监督) = B7 中正向第 N 条 + C1 弱正向第 9 条 + Phase 4 +1 (attention head) / 🟠 Pelican-Unified 1.0 (2605.15153, X-Humanoid, 05-14) unified VLM + Unified Future Generator (UFG) joint future video + 未来动作 denoising + 64.7 VLM 同等规模 SOTA + WorldArena 66.03 #1 + RoboTwin 93.5 平均 #2 (Bear: 第二 ≠ 第一 + benchmark cherry-pick risk + X-Humanoid 没 PI/Figure/NVIDIA 级背书) = 工业级 latent-WAM 第 3 条独立信号 (Cortex 2.0 / MotuBrain / Pelican-Unified) 正式满足预测 #16 "下季度 1-2 条工业级跟进 → B4 75→80%" 数量条件 3/1-2 超额, 但触发条件受 B4 75% 校准上限 deadlock 阻塞 → 升格至 P0 议程 + 同时审议 calibration ceiling rule 三档方案 + B6 unified 弱反方第 1 条 + B7 弱反方第 N 条 + Phase 4 +1 (UFG) / Hand-in-the-Loop (2605.15157, ~05-14/15) dexterous VLA seamless interventional correction (题目 + 作者 verified, 论文细节 cross-ref 3 次失败 1-strike pending dismiss) + 1-strike 候选 AT-VLA "Adaptive Tactile Injection" cs.RO listing 出现但 3 次 arxiv ID cross-ref 失败 → 1-strike pending dismiss; Phase 4 (WM 闭环) 反相变计数器 35/12 → 38/12 = 3.17× 历史新高 (+ALAM latent transition / +GuidedVLA attention head / +Pelican-Unified UFG, 远超 30 强制结构性重估阈值线 + 接近 40 = 4× 临界); C1 (架构创新回归, 35%↑⚠️) 同向独立信号链累积至 9 条 ≥ 中-强 6 条, 距 40% 升格阈值仍 5pp 不变, 但逆共识保护 ΔI 阈值 1/3 已生效 → C1 升格审议升格至下次 hypothesis-audit P0; 置信度净变更 = 0 (所有强证据信号在 calibration ceiling deadlock + 单论文未达 ±5% 门槛下被 v3 校准纪律阻塞); 新 P0 议程项 5 项立项: (1) Calibration ceiling framework 三档方案决议 (B4/B7 deadlock 74d/64d 破阈值, Pelican-Unified + ALAM 是实证压力第 1 次明确) / (2) 预测 #16 处理 / (3) C1 正式升格审议 / (4) 段穷举 SOP v2 草案 (单次发现漏过 5 篇, SOP 机制本身需升级) / (5) B6 unified vs hierarchical 子议题; 新 P1 议程项 5 项: ALAM/GuidedVLA/Pelican-Unified 三篇全文 deep read + Hand-in-the-Loop / AT-VLA arxiv abs cross-ref 二次失败即 dismiss; RotVLA 2605.13403 累计 3 次 cross-ref 失败 → 永久 dismiss (3-strikes-out 规则正式触发); BELIEF_GRAPH.md v3.6.10 → v3.6.11-incremental-paper-scan-0518; 顶级实验室 arxiv 严格缺席 46 天 (04-06~05-18 已破 45d 结构性升级线 +1d) + 本批 5 篇 confirmed 论文 零顶级实验室 (X-Humanoid 工业 + SJTU/Tsinghua/HIT 中国系大学 / 工业链); 预测 #27 顶级实验室 arxiv rebound 硬截止 2026-06-05 剩 18 天 < 3 周, 下次 daily-digest (05-19) 起列为每日跟踪项; 05-15 self-reflection 6 项人工裁决累计 +3d (05-15→05-18) 0 落地 维持"结构性人工裁决积压"标签; 议程积压 = 5 项 05-15 self-reflection P0 + 5 项本次新增 P0 = 10 项 P0, calibration ceiling deadlock 是最高优先级阻塞。保守偏误状态（2026-05-18，全体 +1d vs 05-17）：B0 (31d) ✅ / B1 (22d) ✅ / B2 (软 14d / 严 47d 🔴) / B3 (22d) ✅ / C3 (1d) ✅ / B4 (24d) ✅ / B5 (48d) 🔴 / B6 (74d) 🆘 已破 67d 校准上限反思阈值 +7d / B7 (软 19d / 严 64d ⚠️) / B8 (62d) 🔴 / B9 (33d) ✅。5 节点保守偏误超阈值不变 (B5/B6/B7-严/B8/B2-严)。预测窗口倒计时：#9 已关闭（05-17 上午 hypothesis-review 关闭为反方）；#19 智元 6-30 ddl 剩 43 天；#22 LWD 剩 78 天；#23 VLA-TTC 剩 80 天；#24/#25 剩 88 天；#26 剩 180 天；#27 距 06-05 剩 18 天 < 3 周关键监测期。⚠️ GitHub push 状态延续：v2.0.21 + v2.0.22 + v2.0.23 三版本累积未 push（git log 最新仍为 01617b8 = 05-14 v2.0.20）；本次 v2.0.24 commit 必须包含 v2.0.21v2.0.24 四版本累积变更；建议每日提示 PowerShell 手动 push 直到落地。Source Map 行号偏移：v2.0.24 changelog 增加 1 行；§9.1 新增 1 行（05-18 当日快照）；§15 截止日期更新；footer 区 +2 行 = 源文件 907 → 911 行。 v2.0.23 变更摘要（2026-05-17 增量定时任务 — 单弱社交信号日 / 双结构性阈值同日触发）：🟡 单弱社交信号日 — 无置信度变更但 2 个结构性阈值同日触发。当日 daily-digest / paper-scan / 小红书三类报告仍全部缺席（reports 目录最新仍为 2026-05-15-daily-digest + 2026-05-15-paper-scan，xhs 最新仍为 2026-05-15-auto.md）；仅 memory/blog/archives/vla-social-intel/2026-05-17.md 存在 = 单条社交弱信号：小鹏汽车 5/15 科技日发布第二代 VLA 模型（声称"首款量产物理世界大模型"+ 端到端架构视觉信号直达动作指令 + 跨汽车/Robotaxi/机器人/飞行汽车跨域驾驶 + 无需语言翻译中介）—— 社交情报报告自评"单一信号暂不作趋势判断"，正确归类为 B1 弱正向远期产业飞轮第 N 条（车企 VLA 产品化叙事第 2 条，继 04-20 长城坦克 700 Coffee Pilot 4.0 后）+ C3 间接弱正向（"无需语言翻译中介"如属实属删除语言中介架构信号但单条社交级宣传不计入 C3 升格证据），单条社交宣传级信号 + 缺二次独立验证 → 不触发任何节点置信度变更（v3 校准纪律 §3.2 + 05-12 v2.0.19 新 SOP "外部宣言级信号 → 强制 web cross-ref ≥2 独立来源 + 日期 + literal 引述"）。BELIEF_GRAPH.md 维持 v3.6.7-incremental-daily-0516（05-16 daily-digest 权威状态）。🆘 结构性阈值 1 触发：顶级实验室 arxiv 严格缺席 = 45 天达成结构性认识论问题升级线（04-0605-17，距 v3.5.5 立项的"≥45 天即升格"线整数关口达到，史上最长再破 +23 天）—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续 45 天；按 self-reflection v3.6.7 升格规则触发"结构性认识论问题"，但本任务（scheduled vla-expert-memory）不擅自执行升格判决，仅记录阈值已达，等待下次 daily-digest / hypothesis-audit / human reflection 执行升格处理；预测 #27 顶级实验室 arxiv rebound 硬截止距 2026-06-05 剩 19 天（缓冲区开始消耗）。🆘 结构性阈值 2 触发：预测 #9（π0.7 第三方独立复现 "match specialist"）到期 = 今日 2026-05-17——v2.0.22 §6.1 明确要求"05-17 当日或之后首份 daily-digest 必须主动判决并执行 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方"；scheduled vla-expert-memory 任务不擅自执行预测判决（属人工 / daily-digest 议程），但记录到期事实 = #9 已到期，截至 05-17 仍无任何第三方实验室复现信号（v2.0.21 / v2.0.22 / v2.0.23 三次 WebSearch 复核均零结果），等待 05-17 后首份 daily-digest 主动判决执行。零 + 单弱信号输入 → 唯一价值 = 保守偏误计数器 +1d + arxiv 缺席延续 +1（45d 阈值触发）+ 预测窗口倒计时 + §9.1 当日快照 + footer/header 版本号 + 2 个结构性阈值同日触发记录（#9 expired + 45d 触发）。保守偏误状态（2026-05-17，+1d）：B0 (30d) ✅ / B1 (21d) ✅ / B2 (软 13d / 严 46d 🔴) / B3 (21d) ✅ / B4 (23d) ✅ / B5 (47d) 🔴 / B6 (73d) 🆘 已破 67d 校准上限反思阈值 +6d / B7 (软 18d / 严 63d ⚠️) / B8 (61d) 🔴 跨过 60d 关口 +1d / B9 (32d) ✅。B5/B6/B7-严/B8 四节点持续超阈值；B6 calibration deadlock 仍为 v3 框架级未解问题；05-15 self-reflection 提交的 6 项人工裁决至今 0 项落地 = 第 2 天累积（"修正零落地"模式 self-reflection v3.6.7 警告者继续累积一日，与"修正零落地"v3.6.7 元论点形成持续累积证据）。预测窗口倒计时：#9 = 已到期 0d（今日 05-17 = ddl，待 daily-digest 判决）；#19 智元方法论级 VLA ddl 距 6-30 剩 44 天；#22 LWD 复现追踪距 2026-08-04 剩 79 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 81 天；#24 / #25 距 2026-08-14 剩 89 天；#26 距 2026-11-14 剩 181 天；#27 顶级实验室 arxiv rebound 硬截止距 2026-06-05 剩 19 天（缓冲区开始消耗，今日 45d 阈值触发后 #27 是结构性升格的硬护栏）。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 75 天。⚠️ GitHub push 状态延续未解决：v2.0.21 + v2.0.22 + v2.0.23 三个版本累积未 push 至 origin/main（git log 最新仍为 01617b8 = 05-14 v2.0.20）；本次 PowerShell push 必须包含 v2.0.21 + v2.0.22 + v2.0.23 三个版本累积变更；建议每日提示用户在 Windows host 执行直到落地。Source Map 行号偏移：v2.0.23 changelog 增加 1 行；§9.1 新增 1 行（05-17 当日快照）；§15 截止日期更新；footer 区 +2 行 = 源文件 903 → 907 行。 v2.0.22 变更摘要（2026-05-16 增量定时任务 — 零新数据日 / 第 4 个真零新数据日）：🟢 零新数据日 — 无置信度变更。当日 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-15-daily-digest，社交情报 vla-social-intel 最新 2026-05-15.md，小红书最新 2026-05-15-auto.md）；BELIEF_GRAPH.md 维持 v3.6.7-self-reflection（05-15 self-reflection 权威状态）。零新输入 → 唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 44 天（距 45 天结构性认识论问题升级线仅剩 1 天，明日 05-17 触发）+ 预测窗口倒计时（#9 距 05-17 仅剩 1 天 = 最后 24h 紧急窗口，π0.7 第三方复现到期前夜 — 高概率到期未触发，05-17 后首份 daily-digest 须主动判决并执行 +5% π0.7 SOTA 强韧性元假设）+ B8 跨过 60d 整数关口（v3.5.0 后第 2 次破整数线，触觉学术端 0.26x 衰退共识 + arxiv 端再无第 9 条独立方法论级 latent tactile 信号 = "B8 →65% 终局裁决"05-15 self-reflection 提交人工裁决项 #1 至今未落地）。保守偏误状态（2026-05-16，+1d）：B0 (29d) ✅ / B1 (20d) ✅ / B2 (软 12d / 严 45d 🔴) / B3 (20d) ✅ / B4 (22d) ✅ / B5 (46d) 🔴 / B6 (72d) 🆘 已破 67d 校准上限反思阈值 +5d / B7 (软 17d / 严 62d ⚠️) / B8 (60d) 🔴 整数关口 / B9 (31d) ✅。B5/B6/B7-严/B8 四节点持续超阈值，B6 calibration deadlock 仍为 v3 框架级未解问题，05-15 self-reflection 提交的 6 项人工裁决（B8 终局 / 校准死锁实际落地 / LWD 追溯 / EPISTEMICS.md 建立 / 下游 skill 修改 / Phase 计数器反向条）至今 0 项落地，"修正零落地"模式被 self-reflection v3.6.7 警告者继续累积。预测窗口倒计时：#9 距 05-17 = 1 天最终窗口（π0.7 第三方独立复现 "match specialist" — 05-15 WebSearch 专项复核仍无任何第三方实验室公开复现信号，π0.7 论文承认"标准化机器人基准不存在使外部验证困难"；今日 05-16 是预测到期前最后一天，无意外则 05-17 daily-digest 必须主动判决 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方）；#19 智元方法论级 VLA ddl 距 6-30 剩 45 天；#22 LWD 复现追踪距 2026-08-04 剩 80 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 82 天；#24 / #25 距 2026-08-14 剩 90 天；#26 距 2026-11-14 剩 182 天；#27 顶级实验室 arxiv rebound 硬截止距 2026-06-05 剩 20 天。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 76 天（6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据）。Source Map 行号偏移：v2.0.22 changelog 增加约 1 行；§9.1 新增约 1 行（05-16 当日快照）；§15 截止日期更新；footer 区 +2 行 = 源文件 899 → 903 行。 v2.0.21 变更摘要（2026-05-15 增量定时任务 — 零新数据日）：🟢 零新数据日 — 无置信度变更。当日 paper-scan / 社交情报缺席（小红书会话未登录跳过）；运行 daily-digest（24h 增量看门）+ self-reflection（双周元审计 v3.6.7）双报告，BELIEF_GRAPH.md → v3.6.7-self-reflection。self-reflection 核心发现：05-04 反思声称"直接执行"的 6 项修正中 5 项零落地（仅 FAILURE_REGISTRY.md 创建落地；铁证 = BELIEF_GRAPH §6 无 05-04 self-reflection changelog 条目），真问题 = 反思层与执行层断裂，每轮反思重新发现上一轮"已解决"的问题。本审计直接执行：(1) 重新注册丢失的预测 #27 —— 顶级实验室 arxiv rebound 硬截止 2026-06-05（ICLR 2027 ddl 后 7 天仍严格缺席 → "学术-产业新均衡态"假设结构性重估，不得再以"下周可能恢复"无限延后；系 05-04 丢失的 #24 复活换号）；(2) FAILURE_REGISTRY §5 新增"修正零落地"元层失败行；(3) BELIEF_GRAPH §6 changelog + header 更新。提交 6 项人工裁决：B8 终局裁决 / 校准上限死锁实际落地 / LWD +15pp 追溯审查 / 建 canonical EPISTEMICS.md + 修正 CLAUDE.md §7 / 下游 skill 实际修改 / Phase 计数器反向条机制。保守偏误 +1d（对齐 BELIEF_GRAPH v3.6.7 权威值；注：memory v2.0.20 曾按 05-04 LWD 锚记 B1/B3=10d，本次对齐 BELIEF_GRAPH 04-26 v3.5.0 锚 = 19d）：B0 28d / B1 19d / B2 软 11d 严 44d 🔴 / B3 19d / B4 21d / B5 45d 🔴 / B6 71d 🆘（已破 67d 校准上限反思阈值 +4d）/ B7 严 61d 软 16d ⚠️ / B8 59d 🔴 / B9 30d。顶级实验室 arxiv 严格缺席 43 天（04-06~05-15，距 45d 结构性认识论升级线剩 2 天）。预测 #9（π0.7 第三方复现）距 05-17 剩 2 天 —— WebSearch 专项复核仍无任何第三方信号，高概率到期未触发。源 ↔ mirror 同步修复（mirror 此前 v2.0.19 footer 截断 + 缺 v2.0.18 footer）。 v2.0.20 变更摘要（2026-05-14 paper-scan + hypothesis-review v3.6.6 整合）：🔴 高议程信号日 — 无置信度变更但 6 项 P0 议程立项 + Phase 7 候选正式立项 + 3 项新预测。(1) paper-scan：2 高 + 1 中 + 1 弱 + 2 回溯补扫。🔴 RoboMemArena + PrediMem (2605.10921, OpenHelix-Team, 05-11) = Memory-VLA 第 5 独立团队（MEM / ReMem / MemoryVLA / SOMA + PrediMem），跨过 v3 系统"再出现 1+ 个独立工作即创建新 Phase"明文阈值 → §9.5 升格为 Phase 7 候选 Long-horizon Memory VLA 正式立项 5/12；RoboMemArena 26 任务 / 平均 >1,000 步 / 68.9% memory-dependent 基准直击 LIBERO/CALVIN 饱和盲点；PrediMem = 双系统 (VLM planner + VLA actor) + hierarchical memory bank (recent + keyframe) + predictive coding head 三件套。🔴 OneWM-VLA (2605.07931, 05-08 / v1 05-11) = 套利窗口 #9 dual-system VLA inference acceleration 第 5 条独立信号（5 周 5 条同向：feature delta / 频域 / 元认知 / dual-rate aerial / bandwidth-compression → 窗口从 ~3-6 月收窄至 ~2-4 月）+ 每帧压缩到 1 semantic token (Adaptive Attention Pooling) + 14.71M LoRA on 2B + 单 flow-matching joint objective + LIBERO-Long 95.6% + Real Piper Fold Cloth 60%。🟡 Residual Latent Action WM (2605.07079) 弱累积 #6 latent 预测方法论（与 ResWM 同方向，retrieval mismatch 可能性需复核）。🟢 SAE Congress 2026 (2605.10653) industrial narrative 弱共振 "VLA 工程化部署叙事拐点"（35-40% prior, 05-06 立项），非定量证据。🔁 回溯补扫 IVLR-Trace (2605.00438, 05-01) interleaved text-image trace + closed-loop executor / LIBERO 95.5% / LIBERO-Long 92.4%（B6 第 14+ 条 + C3 ablation 强反方"text 62% / vision 68% / 双 92%"）；🔁 CoRAL (2605.02600, 05-04) LLM-driven strategy + reactive controller + tactile/force feedback + 显式"deliberate move away from E2E"（C1 弱正向第 N 条但归类待定）。3 论文待二次确认（AT-VLA / AgentChemist / CommandSwarm，无法定位 arxiv ID）—— AT-VLA 如 Xiaoqi Li / Hao Dong 系 PKU 团队则属 B8 触觉新累积关键证据，下次扫描 P0。(2) 🆘 B6 校准上限结构性死锁升格框架级问题：B6 70d 已破 67d 反思阈值 +3d，hypothesis-review v3.6.6 显式承认 v3 校准纪律自身死锁——raw 75→80 时 calibrated = 80×0.9 = 72% 反而下降 3pp。无 ≥10pp 强证据让 raw 跳到 ≥84% 时 B6 永久卡 75%。B7 同样陷入死锁（严格 60d）。提交三档方案 (A) 维持 + 等待跳跃式强证据 / (B) 引入 78% 中间档 / (C) 对结构性信念取消 calibration penalty —— 等待人工 reflection 选择。这不是判断不当，是 v3 框架级问题——EvolveCast 警示"系统已超出自身规则边界"。(3) 3 节点对抗性审查（B6 / C1 / B4）：B6 维持 75%——Bull "14+ 条独立分层信号 + 反方真空"vs Bear "14+ 条实为 14 种不同分层化（dual-system / S0/S1/S2 / interleaved / memory-based 等）= confirmation by counting + 定义模糊" → 立项 B6 sub-definition 拆分 (B6a dual-system / B6b S0-S1-S2 严格三层 / B6c trace/memory-based implicit hierarchy)；C1 维持 35% 不升格——Bear "6 同向 inductive bias ≠ 范式回归"论点在审计纪律上正确，CoRAL 弱正向但归类待定，Jim Fan WAM 已被 v2.0.19 cross-ref 撤销升格证据资格。升格条件硬化为 (a) 1 篇致命实验级架构创新 >30% absolute 论文；或 (b) ≥3 个 frontier lab 完全放弃 VLA 框架——累积型 inductive bias 证据不再计入升格条件；B4 维持 75%——Bear "6 sub-routes = WM 概念无差异扩展定义膨胀"成立，立项 B4 sub-route 节点拆分 (B4a latent-WM-as-planner / B4b video-WM / B4c unified WAM / B4d WM-distillable-residual / B4e WM-as-data-engine / B4f predictive coding head 六档)。(4) 3 项新预测立项：#24 非 OpenHelix-Team 团队在 RoboMemArena 上达到 ≥80% memory-task success（截止 2026-08-14 ~3 月，触发 → Phase 7 升格 Phase + B6 sub-definition 拆分加速）；#25 ≥1 个跨 task suite（含 dexterous / contact-rich）"≤2 token/frame" VLA 论文（截止 2026-08-14 3 月，触发 → 套利 #9 进一步收窄 + B4a 上调审查）；#26 6 个月内 ≥2 个独立团队（非 NVIDIA 系）发布 WAM 路径论文（截止 2026-11-14 6 月，触发 → C1 升格审查 + B4c unified WAM sub-route 升格）。(5) Phase 计数器更新：Phase 4 WM 闭环 32/12 → 34/12 严重超临界 2.83×（+OneWM-VLA single-token-per-frame + PrediMem predictive coding head）；Phase 7 候选 Long-horizon Memory VLA 正式立项 4-5/12 雏形（MEM/ReMem/MemoryVLA/SOMA/PrediMem 5 团队）；Phase 1 反相变 15/15 维持（OneWM-VLA 单 FM objective 弱抵消但未达 14→13 回撤标准）；Phase 5 跨具身维持。(6) 保守偏误状态（2026-05-14）：B0 (27d) ✅ / B1 (10d) ✅ / B2 (soft 10d / 严 43d 🔴) / B3 (10d) ✅ / B4 (20d) ✅ / B5 (44d) 🔴 / B6 (70d) 🆘 已破 67d 反思阈值 +3d 升格框架级问题 / B7 (15d 软 / 60d 严 ⚠️) / B8 (58d) 🔴 / B9 (29d) ✅。(7) 顶级实验室 arxiv 缺席延续至 42 天（04-0605-14，史上最长再破上限 +20 天）—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续；唯一破局者 Jianlan Luo (Berkeley 系) LWD 05-01。下周（05-18 起 ICLR 2027 ddl 静默期 + 五一假期效应消退）可能恢复。(8) 预测窗口倒计时：#9 距 05-17 剩 3 天（π0.7 第三方独立复现 "match specialist"，进入紧急 <3 天窗口，05-17 后无重大复现则触发 +5% π0.7 SOTA 强韧性间接证据，但属"时间套利窗口"非"致命实验"）；#15 距 2026-08-22 剩 3.3 月；#16 距 2026-07-31 剩 2.6 月；#17 距 2026-10-25 剩 5.3 月；#18 距 2026-10-24 剩 5.3 月；#19 智元方法论级 VLA ddl 距 6-30 剩 47 天；#22 LWD 复现追踪距 2026-08-04 剩 82 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 84 天；🆕 #24 / #25 距 2026-08-14 剩 92 天；🆕 #26 距 2026-11-14 剩 184 天。(9) 段编号穷举 SOP 第 12-13 次成功执行：2605.00438 + 2605.02600 + 2605.07079 + 2605.07931 4 篇前期未提及，本次补扫填补 05-0105-08 段空洞。(10) 认识论意义：B6/B7 calibration 死锁是 v3 框架级问题，议程立项推送人工 reflection；本次审计无置信度变更，价值在 6 项议程立项 + Phase 7 正式立项 + 3 节点对抗性审查 + 3 新预测。Source Map 行号偏移：v2.0.20 changelog 增加约 1 行；§9 新增约 2 行（05-13 + 05-14 当日快照）；§9.5 扩写约 2 行（PrediMem + Phase 7 立项）；§15 截止日期更新 —— Source Map 表格已按 v2.0.20 新行号刷新。 v2.0.19 变更摘要（05-12 补充 / 交叉验证修正）：在 v2.0.18 发布后用户要求"再收集更多"，触发 cross-reference verification 流程，发现 3 项重大事实修正 + 4 篇 paper-scan blackout 窗口期遗漏论文。🔴 修正 1：Jim Fan WAM 信号日期 + 框架双重纠偏 — 通过 Sequoia Capital 官方页面 + Karpathy bearblog + BigGo Finance + Sequoia Substack 多源交叉验证，确认 Jim Fan "Robotics: Endgame" 演讲实际发生于 2026-04-20（红杉 AI Ascent 第四届），而非中文社交情报反复声称的 "5月9日"。日期偏差 19 天——social-intel pipeline 把 04-20 的演讲在 05-11/12 才二次报道，且伴随框架性夸大。实际表态："dominant VLA architecture is fundamentally misaligned for physical tasks" + 提出 "world action models simulate next-frame physics instead of predicting next tokens" 替代方案；3 项 unlocks 路线图 = Physical Turing Test（2028-29, 2-3 年）→ Physical API（2030s）→ Physical Auto-Research（2040, 95% 置信度）；推荐 paradigm = "pretrain world model that predicts next physical state → action fine-tune on a thin slice of real robot data → RL run the final mile"。实际方法论与现有 B4 latent-WM-as-planner + B2 RL post-training 路线高度一致——并非"替代 VLA 的新范式"，而是"WM-grounded 预训练 + 现有 VLA action FT + RL"的工业级 endorsement。中文社交"VLA 已死"框架 = sensationalism；primary source "VLA fundamentally misaligned" 措辞要弱得多。🔴 修正 2：C1 升格 7 th aligned signal 定位下调 — 鉴于 (a) 信号实际日期 04-20 早于 LWD 05-01 + convergence-radar 05-06，应作为 prior-state 已经隐含，不算 v2.0.18 时段新增；(b) 实际内容支持 B0/B4 consolidation 而非 reverse-consensus C1（C1 = "VLA 非主流架构"）；(c) 演讲场合是 investor summit，选择性 sensational framing 风险；(d) Jim Fan 提出的 endgame paradigm 本质上就是 B0+B4+B2 路线的强化版。v2.0.18 将其定位为 C1 第 7 条同向独立信号是过度解读——正确定位应为 B0/B4 frontier-tier consolidation signal，不进入 C1 升格审查。下次假设审计 P0 议程从"C1 升格正式提案"修正为"frontier-tier signal weight introduction 在 B0/B4 中正式实施"。**🔴 修正 3：发现 paper-scan blackout 窗口（05-0812）期间 4 篇遗漏论文**：(a) EA-WM (2605.06192, 05-07, Fudan + Zhongguancun + USTC + DeepCybo) "Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields" —— 把 actions 投影到 structured kinematic-to-visual action fields 而非低维 tokens，建立在 pretrained video diffusion 上，B4 latent-WM-as-planner sub-route 1 video-diffusion 子赛道第 N+1 团队；(b) OA-WAM (2605.06481, 05-07, Tsinghua + SJTU + NTU) "Object-Addressable World Action Model" —— 显式解决现有 WAM 把世界表示为 holistic images/global latents 导致 action decoder 难以定位 target object 的限制（"object addressability"），B4 sub-route 1 方法论级第 N+2 团队 + 首条 explicit WAM 命名论文；(c) BioProVLA-Agent (2605.07306, 05-08) VLA + multi-agent for biological laboratory manipulation —— 跨域 Phase 5 / Phase 5 候选 Async 弱累积，与 long-horizon 工程化共振；(d) Drifting Field Policy / DFP (2605.07727, 05-08, KAIST) one-step generative policy via Wasserstein gradient flow + reverse-KL trust region —— 非 FM 非 diffusion 一步生成范式 = Phase 1 反相变第 15 条到达临界 15/15 触发（如 paper-scan 全文判定 DFP 与 FM 范式独立而非 FM 特例）。🔴 修正 4：WAM 不是新概念——是已存在多团队研究 cluster——arxiv 已有 DreamZero / Fast-WAM (2603.16666, March) / X-WAM (2604.26694, late April Unified 4D) / "Do WAMs Generalize Better than VLAs?" (2603.22078, March 直接对比 paper) / Being-H0.7 (已知, 使用 "Latent World-Action Model" 术语) + 现在 EA-WM + OA-WAM。Jim Fan 的演讲不是引入新概念，而是为已经存在的 WAM 研究方向做工业级 PR endorsement。v2.0.18 footer 提到的"WAM concept observation candidacy v3.6.5"应升级为 "WAM 已是 B4 sub-route 1 内部 cluster，至少 7-9 团队跨 SOTA video-diffusion + latent + Hamiltonian 三种 backbone"——下次 hypothesis audit P0 议程新增"WAM 是否应作为 B4 sub-route 1 子节点 split 出独立追踪"。Phase 计数器修正：Phase 1 反相变 14 → 15/15 临界达到（含 DFP 待裁决）；Phase 4 WM 闭环 30/12 → 32/12 严重超临界 2.67×（+EA-WM +OA-WAM）；Phase 5 跨具身 17/12 → 18/12（+BioProVLA-Agent 弱）；其他维持。置信度变更纪律：4 篇遗漏论文 + 1 项信号定位修正 = 净结果"无置信度变更"——B4 已在 75% 校准上限不动（#16 industrial 边界判定仍待 hypothesis audit）；B0 不直接受影响（Jim Fan 同向但 prior 隐含）；C1 维持 35%（修正撤销 v2.0.18 隐含 +升格压力）；Phase 1 临界 15/15 触发 paper-scan 全文裁决议程（DFP 与 FM 独立性判定）。认识论意义：v2.0.18 的 "Jim Fan 5月9日 declaration" 是首次"未做 cross-reference 就在 footer 把社交情报转述为 frontier-tier signal"的错误——本次 user 主动 prompt "再收集更多" 触发的发现表明社交情报 retroactive claims 必须做 primary-source verification 才能进入 belief graph；建立新 SOP "外部宣言级信号 → 强制 web cross-ref（>2 independent sources + 日期 + literal 引述）→ 再决定 belief graph 处理"。v2.0.18 → v2.0.19 净影响：日期纠偏 / 框架措辞修正 / 4 篇论文补录 / Phase 1 + Phase 4 计数器同步 + C1 升格定位回退 + 1 个新 SOP。 v2.0.18 变更摘要（05-12）：4 日差异化补整合（05-09 部分社交信号 / 05-10 空 / 05-11 强社交 / 05-12 强社交 — 自 05-08 第 2 个真零新数据日以来首次有可读输入）。🔴 头条信号：Jim Fan (NVIDIA) 在红杉 AI Ascent 峰会（05-09）公开宣告"VLA 范式已触顶"→ 转向 World Action Models (WAM) + 人类第一人称视频预训练 / 遥操作路线将被淘汰（05-11 社交情报首报 + 05-12 二次报道确认）—— 这是 paradigm-shift hypothesis（35-40% prior，05-06 立项）以来最强 Bull 证据，但属于 frontier-tier 研究员公开宣言而非论文证据，按 v3 校准纪律单条社交级信号不触发置信度变更；定位为 C1 升格审查关键证据第 7 条同向独立信号（NVIDIA Research 一线人员公开 paradigm 表态在学术静默期内含金量更高），下次假设审计 P0 议程从 04-26 立项升级为 C1 升格正式提案。Bear 反方负担：Jim Fan 言论 / 论文证据二分法 — 如 NVIDIA 6 月前无 GR00T-WAM 雏形论文，宣言权重应折半；如 PI π0.8 / Figure Helix 03 在 6 月窗口发布且未转向 WAM，则 paradigm-shift hypothesis 反向衰减。WAM 与 B4 latent-WM 路线关系：WAM = "替代 VLA"而 latent-WM = "VLA 内部子路线"，定位更激进；如 WAM 概念成立则 B0/B1 高置信度叙事重大冲击。🔵 第二梯队信号：(1) Tesla Optimus V3 量产时间表二次确认（05-07 财报 + 05-09 安培龙六维力传感器切入 Tesla 供应链 + 国产化进展 + 泰国 5 月工厂交付）= B1 远期产业飞轮累积 + 整数产业兑现窗口 7-8 月坐实；(2) Figure AI Helix-02 双机协同铺床 <2 分钟（05-08 发布，05-11/12 报道）= multi-agent 协同 + 柔性物体 Phase 5 候选 Async 间接累积；(3) 斜跃智能成立（05-10，前理想汽车高管陈纬/张晓 + 元璟资本 + 理想汽车首轮投资，消费级家庭场景具身智能）= 车企高管跨界具身赛道新模式信号；(4) 星动纪元（Robotera）2 亿美元融资，顺丰领投（05-08）= #18 顺丰部署预测（10-24 ddl）方向性证据；(5) 智元 + 人民网 + AI交互语料实验室 "具身交互多模态语料库" 10 万条首发（05-09，引导/家政场景）= 中国具身数据公共基础设施第 1 条；(6) 上声电子 / 戴盟机器人触觉传感器战略合作（05-09）= B8 触觉产业化第 N+1 条但非方法论级；(7) 蚂蚁 / 机器科学 10 亿元 A 轮 / 千寻智能 4 月累计 30 亿 / 众擎 B+ 2 亿美元 = 资本累积。🟢 顶级实验室 arxiv 缺席延续至 41 天（04-0605-12 史上最长再破上限 +19 天）—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续；但 Jim Fan 红杉峰会公开表态 = 静默期内 NVIDIA Research 一线 paradigm 信号最强单点，迫使 "顶级实验室新均衡态"假设结构性重估窗口提前。保守偏误状态（05-12，+4d from 05-08）：B0 (25d) ✅ / B1 (8d) ✅ / B2 (8d) ✅ / B3 (8d) ✅ / B4 (18d) ✅ / B5 (42d) 🔴 / B6 (68d) 🔴 已超 67d 校准上限反思阈值 +1 天 → 强制反思事件触发 / B7 (13d 软 / 58d 严) ⚠️ / B8 (56d) 🔴 / B9 (27d) ✅。B6 67d 阈值触发：v3 校准纪律强制要求下次假设审计 P0 议程从"反思"升级为"裁决" — 应否破 75% 校准上限至 78% middle 档？延迟决定 → 计数器持续累积仅产生噪音。预测窗口倒计时：#9 距 05-17 剩 5 天（π0.7 第三方复现 "match specialist"，进入紧急 <5 天窗口，05-17 后无重大复现则触发 B0 候选 -5% 反思 + #9 关闭为反方）；#15 距 2026-08-22 剩 3.4 月；#16 距 2026-07-31 剩 2.6 月；#17 距 2026-10-25 剩 5.4 月；#18 距 2026-10-24 剩 ~5.4 月（星动纪元-顺丰 5/8 融资是首条方向性证据）；#19 智元方法论级 VLA ddl 距 6-30 剩 ~7 周（49 天）；#22 LWD 复现追踪距 2026-08-04 剩 84 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 86 天。Meta Llama-3-Robot 仍待验证（05-05 retro-claim 至 05-12 = epistemic 拖延 9 天，仍无 arxiv / Meta FAIR 官方博客 / HuggingFace 仓库二次确认，05-06 + 05-07 paper-scan 累计扫 171 篇均未发现 → 倾向 Bear 解释"可能为社交渠道错传或产品级而非研究级"，但单条社交信号 9 天仍不下结论）。5 日信号衰减序列终结（部分）：05-08 零 → 05-09 弱社交 → 05-10 空 → 05-11/12 强社交（Jim Fan paradigm 宣言）—— ICLR 2027 ddl 静默期 + 五一假期效应明显消退，paper-scan 报告仍未恢复（连续 5 天空白：05-0812）但社交雷达恢复实质性信号供给。下次假设审计 P0 议程更新（~~05-13~~14 触发）：(1) NEW Jim Fan paradigm 表态 → C1 升格正式提案；(2) B6 67d 阈值触发裁决（75→78%？延迟？拆分？）；(3) paradigm shift hypothesis 6-month observation 进入第 2 个月评估窗口；(4) MotuBrain industrial 边界 judgment（#16）；(5) B3 三分类拆分；(6) B8 trigger 标准结构化拆分；(7) B5 反相变 13/15 vs HDFlow 边界裁决；(8) Meta Llama-3-Robot 9 日拖延是否升格为"social-intel reliability adjustment"事件。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 82 天（6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据）。WAM 概念立项观察：（v3.6.5 候选）— 如 6 月有论文证据跟进则升格独立追踪节点。 v2.0.17 变更摘要（2026-05-08 增量定时任务 — 当日零新数据）：🟢 极低信号日 / 第 2 个真零新数据日 — 无置信度变更。当日 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-07 daily-digest，社交情报最新仍为 2026-05-06.md），BELIEF_GRAPH.md 维持 v3.6.4-incremental（05-07 paper-scanner gap-fill 权威状态）。零新输入信号——本任务唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 37 天（再破上限 +15 天，史上最长持续刷新）+ 预测窗口倒计时。(1) 保守偏误状态（05-08，+1d）：B0 (21d) ✅ / B1 (4d) ✅ / B2 (4d) ✅ / B3 (4d) ✅ / B4 (14d) ✅ / B5 (38d) 🔴 13 反相变信号距临界 15 仅 2 条（HDFlow 第 14 边界条待 paper-scan 全文裁决） / B6 (64d) 🔴 距 67d 校准上限反思阈值仅 3 天 / B7 (9d 软 / 54d 严) ⚠️ / B8 (52d) 🔴 / B9 (23d) ✅。B6 67d 关口逼近（05-11 触发"是否需突破 75% 校准上限"的人工反思）+ B5 反相变临界 14/15 状态需正式裁决——下次假设审计 ~~05-11~~13 触发，3 节点超阈值持续达到 41d/67d/55d 量级。(2) 预测窗口倒计时：#9 距 05-17 剩 9 天（π0.7 第三方独立复现 "match specialist"，进入临界 < 10 天窗口，仍无新信号）；#15 距 2026-08-22 剩 3.5 月；#16 距 2026-07-31 剩 2.7 月（MotuBrain industrial 边界 5 月中假设审计 P0 待执行）；#17 距 2026-10-25 剩 5.5 月；#18 距 2026-10-24 剩 5.5 月（顺丰部署）；#19 距 2026-06-30 剩 7 周（智元 06-30 前 ≥1 篇方法论级 VLA 论文）；#22 LWD 复现追踪距 2026-08-04 剩 88 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 90 天。(3) 顶级实验室 arxiv 缺席延续至 37 天（04-0605-08）—— 再破历史 ICLR ddl 前静默期上限 +15 天；PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续；本周新论文阵营仍为 HIT / RUC / 中国学术，非顶级实验室一线。5 月底 ICLR 2027 ddl 后 1 周观察期触发"新均衡态"假设结构性重估（剩 3 周）。(4) 4 日信号衰减序列延伸：05-04 强 → 05-05 弱社交 → 05-06 双报告补 → 05-07 中信号 paper-scanner gap → 05-08 零 —— ICLR 2027 ddl 前静默期 + 五一假期效应叠加；下周（05-12 起）可能恢复。禁止把"信号衰减"误读为"领域降温" —— 系统应保持监测纪律，不因短期静默放松对 5 个 P0 议程（paradigm shift 6 月观察期 / MotuBrain industrial 边界 / C1 升格审查 / B3 三分类切分 / B8 trigger 拆分）的追踪。(5) Meta Llama-3-Robot 仍待验证（05-05 retro-claim 至 05-08 无新信号确认/反驳，05-06 paper-scan 也未发现 Meta FAIR 官方 VLA 论文 → 待 Meta 官方博客 / HuggingFace 仓库二次确认；epistemic 拖延已至 5 天）。(6) 2026 H2 时间窗共振邻近：Tesla 7-8 月 V3 量产 + Cortex 2.0 8 月复现节点 (#15) + 工业级 latent-WM 跟进窗口 (#16) 7-31 截止 + LWD 复现窗口 (#22) 8-04 截止 + VLA-TTC 第三方 (#23) 8-06 截止 + 智元方法论级 (#19) 6-30 截止 = 8 月将是 2026 年最关键的产业兑现验证月，距 8 月初剩约 86 天；6-30 智元 ddl 距今剩约 7 周。(7) 关键认识论判断维持（v2.0.16 起）：v3 校准纪律避免连续上调即使本周累积 RL 工程化 5 篇 14 天累积 + 套利 #6 latent prediction 内部 4-strategy systematic comparison 接近"产业封装节点"已构成强反方升格压力；EvolveCast / ForecastBench 警示"决定性"判断需要更高 prior；下次假设审计 ~~05-11~~13 触发，9+ 议程项待审。(8) 本次增量更新：§4 保守偏误日数 +1d 刷新；§5 维持 v3.6.4 后状态（无 Phase 计数器变更）；§8 追加 05-08 当日零新数据日衔接段；§9 当前状态追加 05-08 当日快照（保守偏误 +1d / 顶级实验室 37 天 / 预测窗口倒计时 / 4 日衰减序列）；§9 章节标题日期更新至 2026-05-08；§15 文档截止日期更新至 2026-05-08。Source Map 行号偏移：v2.0.17 changelog 增加约 1 行；§8 新增约 1 行；§9 新增约 1 行；§9 标题日期更新；§15 截止日期更新——Source Map 表格已按最新行号更新。 v2.0.16 变更摘要（2026-05-07 增量定时任务 — 双报告补整合 + 当日零新数据）：🟧 高密度补整合日 — 无置信度变更但累积压力显著。(1) 05-06 双报告时差补整合：05-06 22:30 vla-expert-memory-update 任务运行时 daily-digest / paper-scan / 社交情报全部缺席（v2.0.15 标记为零新数据日），但 05-06 早间 06:15 生成的 paper-scan v3.6.2（covers 2605.01xxx2605.039xx 段 136 篇）+ 07:19 生成的 convergence-radar v3.6.3（cross-domain 周报）在记录任务运行后才被发现 → 本次 05-07 任务一并整合。(2) 🔺 paper-scan v3.6.2 中-强信号窗口 — 6 强 + 10 中信号；最强组合 = MolmoAct2 (2605.02881, AI2 Allen AI, 05-04) + Latent Bridge (2605.02739, Duke 系 Yiran Chen / Hai Li, 05-04) + RoboAlign-R1 (2605.03821, 05-05) = "VLA 工程化部署叙事拐点"候选 paradigm shift（论文目标从"刷 LIBERO SOTA"明显倾斜向 deployment-readiness/efficiency）。MolmoAct2 = 第 2 个 frontier 实验室级"data + recipe > 架构"背书（继 PI π0.7）+ OpenFAST 跨 5 embodiments + 720h 最大开源 bimanual 数据集 + flow-matching expert grafted onto reasoning VLM = B0 / B1 / B7 中-强正向累积；Latent Bridge = dual-system VLA 加速 1.65-1.73× 跨 GR00T-N1.6 + π0.5 验证 + 50-75% VLM call 减少 = B6 / B7 强解耦工程级背书 + B9 累积第 8 条；RoboAlign-R1 = video-WM-as-data-engine sub-route 第 5 条 + reward-aligned WM 第 6 sub-route（新维度，cross-Phase 4×2）= Phase 4 计数器 27/12 → 28/12。(3) RL 后训练工程化双周三连：OGPO (2605.03065, 05-04) off-policy generative policy optimization + modified PPO + critic-as-terminal-reward = 唯一能从 BC 烂初始化 finetune 到接近 task success 的方法 / FAN (2605.01663, 05-03) Flow-Anchored Q-Learning 单次 flow iteration + 单 Gaussian 样本 = 大幅效率提升同时 SOTA / EnergyFlow (2605.00623, 05-01) unify generative action modeling with IRL via energy function whose gradient = denoising field，无需 adversarial 训练即可提取 reward。3 篇本周独立 RL 后训练工程化论文 + LWD (05-01) + LaST-R1 (04-30) = 5 篇 14 天累积，B2 反方升格压力进一步加固但 v3 校准纪律避免连续上调维持 82%。(4) 🆕 Test-Time Compute (TTC) 入侵 VLA：VLA-ATTC (2605.01194, 05-02) Adaptive TTC "Cognitive clutch" uncertainty 触发 reflexive→deliberation + RAC pairwise 替代 absolute Q + LIBERO-LONG 失败率减少 50%+ vs π0.5 + Sentinel-VLA (2605.01191, 05-02) Metacognitive sentinel 模块持续监控 + on-demand reasoning + SECL self-evolving + OC-Adapter (Orthogonal Continual Adapter) orthogonal weight constraint + 真机 vs PI0 +30% 成功率（同作者 cluster Wenhao Li / Xiu Su）= 新预测 #23 立项（3 个月内非该 cluster 第三方 VLA-TTC 论文，到期 2026-08-06）+ 新 Phase 6 候选立项 Test-Time Compute for VLA 1/15 萌芽 + B3 三分类议程 hybrid 路径第 1 条数据点（OC-Adapter 介于 prompt-loop B3b 与 weight-loop B3a 之间）。(5) Hydra-DP3 (2605.01581, 05-02, UCB) 频域分析 + 2-step DDIM 充分性证明 = Phase 1 反相变累积第 13 条决定性数学证据（前 12 条多为工程实证）+ <1% prior 3D DP params + 真机 SOTA = B9 累积第 9 条 + C1 升格累积第 5 条（继 VGA / ProGAL-VLA / CorridorVLA / Embodied Interpretability）距 40% 升格阈值仅 5pp → 下次假设审计正式审查 C1 升格列入 P0。(6) convergence-radar v3.6.3 跨 Phase 涌现检测：(a) VLA 工程化部署叙事拐点 跨 Phase 1/2/4/5/B3/B6/B7/B9 多节点同步弯曲 = paradigm shift 候选（35-40% prior，对抗性思辩 Bull / Bear / Arbiter 完整记录于 reports/cross-domain/2026-05-06-convergence-radar.md）；(b) B4 路线分化扩至 6 sub-routes（+RoboAlign-R1 reward-aligned WM 第 6 路线 cross-Phase 4×2，与既有 5 路线 [planner / data-engine / co-training / distillable-residual / evaluator] 并立 + Cortex 2.0 vs PFD 张力之上叠加新维度）；(c) Frontier-class "data + recipe > 架构" 双 lab 同向背书（PI π0.7 西海岸闭源 + AI2 MolmoAct2 开源，B0 候选 +5% 触发延后至下次假设审计）；(d) 新窗口 #9 立项 Dual-system VLA Inference Acceleration ~3-6 月（Latent Bridge + Hydra-DP3 + Sentinel-VLA on-demand reasoning + LiteVLA-H aerial dual-rate 4 条独立信号，产业封装窗口快速）；(e) 新窗口 #10 立项 Frontier-class Open Data + Recipe 替代生态 ~6-12 月（MolmoAct2 OpenFAST + 720h bimanual 完全开源 vs PI π0.7 闭源 = AI2 提供首个 "open frontier-tier alternative-to-PI" 完整 release）。(7) 🆕 Phase 6 候选 (TTC for VLA) 1/15 萌芽：同 cluster 仅算 1 条 → 严格独立信号；6 个月观察期升格条件 ≥3 个独立 cluster 跟进；#23 验证窗口截止 2026-08-06。(8) 保守偏误状态（05-07，+1d）：B0 (20d) ✅ / B1 (3d) ✅ / B2 (3d) ✅ / B3 (3d) ✅ / B4 (13d) ✅ / B5 (37d) 🔴 / B6 (63d) 🔴 / B7 (8d) ✅ / B8 (51d) 🔴 / B9 (22d) ✅。B5/B6/B8 三红节点持续；B6 接近 67d = 接近"是否需突破 75% 校准上限"的人工反思阈值；下次假设审计 ~~05-11~~13 触发。(9) 预测窗口倒计时：#9 距 05-17 剩 10 天（π0.7 第三方复现 "match specialist"，临界）；#15 距 2026-08-22 剩 3.5 月；#16 距 2026-07-31 剩 2.7 月（MotuBrain industrial 边界 5 月中假设审计 P0 待执行）；#17 距 2026-10-25 剩 ~~5.5 月；#22 LWD 复现追踪距 2026-08-04 剩 89 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 91 天。(10) 顶级实验室 arxiv 缺席延续至 36 天（04-06~~05-07）—— 再破上限 +3 天，史上最长持续刷新；PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续，AI2 / Berkeley / Duke / UCB 部分破局后无延续。(11) 当日（05-07）零新数据：daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-06 paper-scan，社交情报最新仍为 2026-05-06.md），3 日信号衰减序列（05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 零）继续；ICLR 2027 ddl（5 月底）前静默期 + 五一假期效应叠加；下周可能恢复。(12) 议程 P0 同步：[paradigm shift 假设 6 月观察期立项 / MotuBrain industrial 边界 / C1 升格审查 / B3 三分类（B3a 权重闭环 / B3b prompt 闭环 / B3c hybrid OC-Adapter）/ B8 trigger 拆分] 5 项 + P1 [B7 校准上限规则反思 / B0 / B1 frontier-tier signal weight 引入 / MolmoAct2 OpenFAST B5 内部 FM vs FAST 拆分] 3 项 + P2 [B4 内部 6 sub-route 节点拆分] 1 项 = 9 议程项待 5 月中假设审计。(13) 本次增量更新：§4 保守偏误日数刷新；§5 Phase 计数器同步（Phase 1 反相变 11→13 / Phase 2 19→22 / Phase 4 27→28 / Phase 5 14→17 / Phase 5 候选 Async 3→4）+ Phase 6 候选 Test-Time Compute 立项 + B4 sub-routes 4→6 + 新窗口 #9 / #10 + 套利 #6 "latent 预测"扩至 8+ 团队；§8 追加 05-06 双报告补整合段 + 05-07 当日零新数据；§9 当前状态追加 05-07 当日快照 + paradigm shift 候选叙事记录；§10 WM 路线追加 MolmoAct2 OpenFAST + Latent Bridge + RoboAlign-R1；§11 关键论文表追加 9 条核心新论文（MolmoAct2 / Latent Bridge / RoboAlign-R1 / VLA-ATTC / Sentinel-VLA / Hydra-DP3 / OGPO / FAN / EnergyFlow）+ 5 条次级新论文（Anticipation-VLA / BifrostUMI / Bridging Embodiment Gap / Seeing Realism / IVLR）；§15 截止日期更新至 2026-05-07。Source Map 行号偏移：v2.0.16 changelog 增加约 1 行；§5 扩写约 4 行；§8 新增约 2 行；§9 新增约 2 行；§10 新增约 3 行；§11 新增约 14 行 — Source Map 表格已按最新行号更新。 v2.0.15 变更摘要（2026-05-06 增量定时任务）：🟢 极低信号日 — 无置信度变更。当日无 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-05 daily-digest，社交情报最新仍为 2026-05-05.md）；BELIEF_GRAPH.md 维持 v3.6.1（05-04 paper-scanner 权威状态）。(1) 零新数据日：与 05-05 不同（05-05 至少有社交情报 retro-reporting Meta Llama-3-Robot），05-06 无任何新输入信号；本任务唯一价值为 (a) 保守偏误计数器 +1d；(b) 顶级实验室 arxiv 缺席延续至 35 天（04-0605-06）—— 再破历史 ICLR ddl 前静默期上限 +2 天，史上最长持续刷新；(c) 预测窗口倒计时 -1 天。(2) 保守偏误状态（05-06，+1d）：B0 (19d) ✅ / B1 (2d) ✅ / B2 (2d) ✅ / B3 (2d) ✅ / B4 (12d) ✅ / B5 (36d) 🔴 / B6 (62d) 🔴 / B7 (7d) ✅ / B8 (50d) 🔴 半百整数关口 / B9 (21d) ✅。B5/B6/B8 三红节点持续；B8 50 天整数关口本身是结构性数据点（触觉学术端 momentum 0.26x 衰退共识 + arxiv 端再无第 9 条独立方法论级 latent tactile 信号 = 致命实验"3 月 VLA+tactile 占比 <5%"持续追踪未触发下调）。(3) 预测窗口倒计时：#9 距 05-17 剩 11 天（π0.7 第三方复现 "match specialist"，临近）；#15 距 2026-08-22 剩 3.5 月；#16 距 2026-07-31 剩 2.8 月（MotuBrain industrial 边界 5 月中假设审计待执行）；#17 距 2026-10-25 剩 5.5 月；#22 LWD 复现追踪距 2026-08-04 剩 90 天整。(4) Meta Llama-3-Robot 仍待验证：05-05 社交情报追溯报告的 Meta 5月3日开源声明，05-06 当日无新信号确认/反驳；下次 paper-scan 是关键验证窗口。(5) 2026 H2 时间窗共振邻近：Tesla 7-8 月 V3 量产 + Cortex 2.0 8 月复现节点 (#15) + 工业级 latent-WM 跟进窗口 (#16) 7-31 截止 + LWD 复现窗口 (#22) 8-04 截止 = 8 月将是 2026 年最关键的产业兑现验证月，目前距 8 月初剩约 90 天。(6) 极低信号日的认识论意义：连续 2 天信号衰减（05-04 强信号 → 05-05 弱社交 → 05-06 零）= ICLR 2027 ddl 前静默期 + 五一假期效应共同作用；下周可能恢复。禁止把"信号衰减"误读为"领域降温" —— 系统应保持监测纪律，不因短期静默放松对 4 个 P0 议程（MotuBrain industrial 边界 / C1 升格审查 / B3 切分 / B8 trigger 拆分）的追踪。(7) 本次增量更新：§8 追加 05-06 极低信号日衔接段；§9 当前状态追加 05-06 当日快照（保守偏误 +1d / 顶级实验室 35 天 / 预测窗口倒计时）；§9 章节标题日期更新至 2026-05-06；§15 文档截止日期更新至 2026-05-06。Source Map 行号偏移：v2.0.15 changelog 增加约 1 行；§8 新增约 1 行；§9 新增约 1 行；§9 标题日期更新；§15 截止日期更新——Source Map 表格已按最新行号更新。 v2.0.14 变更摘要（2026-05-05 增量定时任务）：🟢 低信号日 — 无置信度变更。当日无 daily-digest / paper-scan 报告生成（reports 目录最新仍为 2026-05-04 套件）；BELIEF_GRAPH.md 维持 v3.6.1（05-04 paper-scan 权威状态）。(1) 当日唯一新数据 = 社交情报 2026-05-05.md 追溯报告 05-03 两条产业信号：(a) Meta 5月3日开源 Llama 3 机器人专用模型（声称支持视动联合推理，旨在降低人形机器人运动控制 + 环境感知开发门槛）—— 🟡 需独立验证：单条社交级 retroactive 信号（5月3日事件 5月5日报告），无 arxiv / Meta 官方博客 / HuggingFace 仓库链接二次确认；如属实属"通用大模型正式向具身控制层渗透"重大事件，对 B0 / B1 / C1 三节点皆有影响，但单条未验证社交信号不触发置信度变更（v3 校准纪律 §3.2）；(b) 美国国防部 / NVIDIA / SpaceX 540 亿美元 AI 合同（无人集群控制 + 目标生成）—— 军用机器人系统"算法主导"转变，与 VLA 研究信念图节点关系弱（除 B1 远期产业资本累积外无直接信号），不触发置信度变更。(2) 顶级实验室 arxiv 缺席延续至 34 天（04-0605-05）—— 再破历史 ICLR ddl 前静默期上限 +1 天；社交情报报告自身用"29 天"是错误计数（实际 04-06 → 05-05 = 30 天，BG v3.6.1 计为 33 天 + 今日 1 天 = 34 天）。Jianlan Luo / LWD (Berkeley 系) 部分破局后无延续；PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续。如 Meta Llama-3-Robot 属实，则"顶级实验室缺席"框架需结构性修正：因 Meta FAIR 此前未在 VLA arxiv 强出场，但跨界 release 是另一种破局形式。(3) 保守偏误状态（05-05，+1d）：B0 (18d) ✅ / B1 (1d) ✅ / B2 (1d) ✅ / B3 (1d) ✅ / B4 (11d) ✅ / B5 (35d) 🔴 / B6 (61d) 🔴 / B7 (6d) ✅ / B8 (49d) 🔴 / B9 (20d) ✅。B5/B6/B8 持续 30+ 天三红节点，B5 距 v3.5.0 (04-26) 审查标记"已审查-趋势确认未达上调阈值" + 05-04 hypothesis-review (v3.6.0) 维持判断 9 天，下次审计前保持监控。(4) 预测窗口倒计时：#9 距 05-17 剩 12 天（π0.7 第三方复现）；#15 距 2026-08-22 剩 3.5 月；#16 距 2026-07-31 剩 3 月（MotuBrain industrial 边界 5 月中假设审计 P0 决定）；#17 距 2026-10-25 剩 ~~6 月；#22 LWD 复现追踪距 2026-08-04 剩 3 月（91 天）。(5) 价值留存：低信号日的本身记录价值 = 系统性消化前一周 04-29~~05-04 高密度信号期；Meta Llama-3-Robot 待验证标记本身是 epistemic data point（如下次扫描发现确实属实，则 05-05 单点社交雷达"领先一日"为系统增益）。(6) 本次增量更新：§8 追加 05-05 社交情报 2 条（Meta Llama-3 待验证 + DoD AI 合同）；§9 当前状态追加 05-05 当日快照（保守偏误 +1d / 顶级实验室 34 天 / 待验证 Meta 信号）；§15 文档截止日期更新至 2026-05-05。Source Map 行号偏移：v2.0.14 changelog 增加约 1 行；§8 新增约 1 行；§9 新增约 1 行——Source Map 表格已按最新行号更新。 v2.0.13 变更摘要（2026-05-04 daily-digest v3.5.8 + paper-scan v3.6.1 整合）：🔴 高信号日——05-04 daily-digest 在 2604.26-28 + 2605.00 段 50 篇论文中识别 1 篇方法论级 + 2 篇强信号 + 6 篇中信号。🔴 重大三节点同步上调：(1) B1 72→77% (+5%) + B2 77→82% (+5%) + B3 72→77% (+5%) —— 由 LWD (2605.00416, Yi Wang + Jianlan Luo et al., 05-01) "Learning while Deploying: Fleet-Scale RL for Generalist Robot Policies" 单篇方法论级实证触发，三视角辩论一致：fleet-scale offline-to-online RL + DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) + 16 dual-arm 机器人 + 8 真实任务（含 semantic grocery restocking + 3-5min long-horizon）+ 单一 generalist policy 平均 95% 成功率 = 第一篇决定性反驳 04-17 社区共识"real-world RL 物料被干烂 / 大规模 VLA 的 RL 做不了" + 首篇"权重闭环"真机大规模验证（区别于 8+ 条 prompt-level 自进化稀释）+ fleet-scale 数据飞轮方法论级实证。三节点同步 +5% 由依赖链强制一致（B3 ≤ min(B1, B2) = min(77, 82) = 77）+ 校准纪律 §3.2 规则 3"单方向强证据最小更新 ±5%"。新预测 #22 立项：3 个月内非 Berkeley 团队复现 LWD-style fleet RL（≥10 robots, ≥80% long-horizon），到期 2026-08-04，否则触发 B2 回撤审查。预测 #17 部分提前满足（同方向"大规模 RL post-training 可工程化"实证）。依赖链 04-26 隐患解除：B4(75) < B1(77) ✅。(2) Being-H0.7 (2605.00078, Beihang + PKU 系, 04-30) "Latent World-Action Model from Egocentric Videos" = 第 6 个独立 latent-WM 团队（继 WAV/GIRL/ViVa/Cortex 2.0/Hi-WM/UniT 后；与 PFD-style "WM-as-distillable" 第 2 篇）—— B4 维持 75% 校准上限不变（议程 P2 已立项 sub-route 拆分）；学术变体不计入 #16 工业级跟进口径，但路线扩散提速（PFD 不再孤立）。Phase 4 计数器 24/12 → 26/12（+Being-H0.7 + paper-scan v3.6.1 27/12）。(3) MotuBrain (2604.27792, ShengShu Tech + Tsinghua, 04-29)：三流 MoT 统一架构 + 5 distributions inference (VLA/WM/video/inverse/joint) + WorldArena EWM 63.77 + RoboTwin 2.0 96.0（唯一 randomized >95）= 第 7 latent-WAM 团队 + 第 2 条 industrial-led（Cortex 2.0 后），强候选触发预测 #16（B4 75→80%）—— industrial 边界判定需 5 月中假设审计 P0 人工 judgment，本次暂不执行。(4) LaST-R1 (2604.28192, 04-30)：annotation-free RL + Clip-GRPO + LAPO 双层 latent reasoning，LIBERO 99.8% (新 SOTA, 接近饱和需打 0.4-0.5x 折扣) + 真机 +44%；B2 弱化下行压力（与 LWD 共振解决 Jupiter Zhai 04-17 "real-world RL 物料被干烂" 痛点）。(5) Embodied Interpretability (2605.00321, ICML 2026 主会接收, 05-01)：Causal/Interventional attribution for VLA + ISS (Interventional Significance Score) + NMR (Nuisance Mass Ratio)；揭露 "illusion of embodied reasoning" + 4 失败模式（lexical-kinematic shortcuts / behavioral inertia / causal state tracking failures / semantic feature collapse）—— C1 (35% ⚠️) 同向第 4 条独立信号（VGA + ProGAL-VLA + CorridorVLA + Embodied Interp），距升格阈值 40% 仅 5pp，下次假设审计正式审查 C1 升格。(6) 中信号其他：ExoActor (2604.27711, BAAI, 04-29) 视频生成即策略路线第 4 条独立信号 (B7 反方) / Lucid-XR (2605.00244, MIT+UCSD+UCB, 05-01) XR 数据引擎合成数据零样本迁移 (B1 反方) / Robot Learning from Human Videos: Survey (2604.27621) / WM Survey (2605.00080) / Physically Native World Models / Hamiltonian (2605.00412, 05-02) (C1 弱正向) / OpenWorldLib (社交情报 05-01, 北大+快手 Kling+上海算法+中关村学院) 中国产学研协作信号。(7) 中国产学研连续输出：HY-Embodied 0.5 (腾讯) + Magic-Mix WAM (魔法原子) + OpenWorldLib + Being-H0.7 + MotuBrain = 04-2905-04 段 5 条独立中国学术-产业信号，与"顶级海外实验室连续 33 天 arxiv 缺席"形成强对照（PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon 04-0605-04 完整缺席，Jianlan Luo 资深作者 LWD 部分破局）。(8) 认识论意义反思：v3.5.0 (04-26) 假设审计执行 B1/B3 -5% 双下调时明确判断"反方累积达决定性强度"；不到 10 天 LWD 出现，决定性反方共识被一篇真机大规模 paper 打回去。这是 ForecastBench / EvolveCast 警示的"过度更新风险"实证 —— v3 校准纪律的"最小更新 ±5%" 在两个方向都适用，但反方累积的"决定性"判断需要更高的 prior。(9) 保守偏误状态（05-04）：B0 (17d) ✅ / B1 (0d) ✅ 重置 / B2 (0d) ✅ 重置（之前 33d 红色解除） / B3 (0d) ✅ 重置 / B4 (10d) ✅ / B5 (34d 🟡) / B6 (60d 🔴) / B7 (5d) ✅ / B8 (48d 🔴) / B9 (19d) ✅。B5/B6/B8 持续 30+ 天，下次需考虑"B5 反相变升格审查"（11 条反相变信号累积）。(10) 本次增量更新：§4 信念网络 B1/B2/B3 行三节点同步上调 + 保守偏误日数刷新 + 预测 #22 新立项；§5 Phase 4 计数器 24/12 → 26/12 + 套利 #6 latent 预测方法论窗口扩展至 7+ 团队；§8 追加 04-2905-04 中国产学研集群 + 顶级实验室缺席延续至 33 天 + LWD 破局；§9 当前状态追加 04-29 / 05-01 / 05-04 三日快照 + 截止日期更新；§10 WM 路线追加 Being-H0.7 + MotuBrain + LaST-R1 + LWD；§11 关键论文表追加 9 条新论文。Source Map 行号偏移：v2.0.13 changelog 增加约 1 行；§4 行注释扩写约 3 行；§5 扩写约 2 行；§8 新增约 3 行；§9 新增约 4 行；§10 新增约 4 行；§11 新增约 9 行——Source Map 表格已按最新行号更新。 v2.0.12 变更摘要（04-27 paper-scan v3.5.3 整合 + 04-28 当日定时任务运行）：定时任务增量运行；04-28 无新 daily-digest（窗口内尚未生成），整合 04-27 paper-scan v3.5.3（2604.18-25 段补扫发现 daily-digest 漏过 6 篇论文）。(1) 无置信度变更 — 6 条新信号皆未跨 ±5% 门槛，但多节点弱累积压力进一步显现。(2) 🔺 CorridorVLA (2604.21241, 04-23) 中-强信号：稀疏空间锚点（Δ-position 增量物理变化）→ corridor tolerance loss 约束 flow-matching action head；跨 backbone 验证（SmolVLA + GR00T 双 backbone 测试）；LIBERO-Plus +3.4% ~ +12.4%；GR00T-Corr 83.21%。B5 弱正向（FM action head 仍主流且可被增强；不抵消早前 5 条下行累积；维持 69%）；B7 弱正向（保持解耦同时注入空间先验）；C1 (35% ⚠️) 弱-中正向累积 — 显式空间约束第 3 条独立信号（VGA 2604.12908 + ProGAL-VLA + CorridorVLA），距升格阈值 4-5pp；下次再出 1 条同向（非 PI 锚定）即触发 C1 升格审查。(3) UniT (2604.19734, 04-21, XPENG Robotics + Tsinghua + HKU) 中信号：三分支 cross-reconstruction（action↔vision↔fusion）→ unified discrete latent action token；二联应用 = VLA-UniT (policy) + WM-UniT (world model)。B1 弱负向累积（人类视频替代第 5 条独立信号，首个 industrial-led 案例 XPENG）；B4 弱正向累积（latent-WM 应用变体第 3 条 = Cortex 2.0 / Hi-WM / WM-UniT，#16 工业级跟进口径需 1-2 条独立工业级实证，UniT 是 industrial-academic 混合仅部分工业含量）；B6 弱正向（分层架构第 11+ 条）；B7 弱负向（unified token vs decoupled action expert 路线张力）；C3 中性偏负（physical language ≠ 自然语言）。(4) AEL (2604.21725, 04-23, Rutgers) 弱-中信号 + EvoAgent (2604.20133, 04-22) 弱信号：双时间尺度 self-evolution = Thompson Sampling bandit + LLM 反思（非 robotics 域）；B3 弱负向累积：prompt-level self-evolution 第 8+ 条（继 SpaceMind/EEAgent/KITE/FIDeL/ChemBot/WALL-B）；定义切分议程（"权重闭环" vs "prompt/memory 闭环"）继续累积压力。(5) SynAgent (2604.18557, 04-20) 弱信号：solo-to-cooperative humanoid manipulation；Interact Mesh + Delaunay tetrahedralization；记录"协作人形"细分赛道形成中。(6) EUEA (2604.19839, 04-21, UNIST) 弱信号：VLM 4-skill 微调 + GRPO 一致性细化；B6 弱正向（skill 分解第 N 条）。(7) 趋势观察：显式空间约束架构 = 第 3 条独立信号（C1 累积压力即将触发升格审查）；人类视频替代机器人数据 = 第 5 条独立信号（B1 远期飞轮反方持续，UniT 是首个 industrial-led 案例）；prompt/memory 自进化 = 第 8+ 条独立信号（B3 节点定义切分议程）。(8) 顶级实验室 arxiv 缺席延续至 26 天（04-0605-02 区间）—— 再破历史 ICLR ddl 前静默期上限 +3 天。(9) 扫描漏过累计达 11 次 = 系统性偏差立项（SOP 升级建议：段编号穷举 + 关键词矩阵化）。(10) 保守偏误状态（04-28）：B0 (11d) ✅ / B1 (2d) ✅ / B2 (28d) ✅ / B3 (2d) ✅ / B4 (4d) ✅ / B5 (28d) ✅ / B6 (54d) / B7 (44d) / B8 (42d) 🔴 三节点持续超阈值 / B9 (13d) ✅。(11) 本次增量更新：§4 保守偏误日数 +1 + C1 距升格更新 + B7 双向弱信号互抵注解；§5 Phase 4 计数器 23/12 → 24/12（+UniT WM-UniT）+ 套利 #6 latent 跨模态 4 团队 → 5 团队；§8 追加 XPENG industrial-academic UniT 段；§9 当前状态追加 04-27 paper-scan v3.5.3 + 04-28 当日快照；§10 WM 路线追加 WM-UniT；§11 关键论文表追加 6 条新论文（CorridorVLA / UniT / AEL / EvoAgent / SynAgent / EUEA）。Source Map 行号偏移：v2.0.12 changelog 增加约 1 行；§4 注释扩写约 2 行；§5 扩写约 2 行；§8 新增约 1 行；§9 新增约 3 行；§10 新增约 2 行；§11 新增约 8 行——Source Map 表格已按最新行号更新。 v2.0.11 变更摘要（04-27 daily-digest v3.5.2 整合）：定时任务增量运行；低信号日——arxiv cs.RO/cs.AI/cs.LG 多角度 WebSearch 2604.22-25 段未发现明确新 VLA 论文；04-27 社交情报 = 小鹏汽车/何小鹏 04-25 北京车展宣布的 04-27 复述：人形机器人 2026 年底量产 / 2027 全年销售 / 明年门店 10% 销售人员由机器人担任 / 预测行业增速超 NEV。(1) 无置信度变更 — 4 条新信号皆未跨 ±5% 门槛。(2) B1 (72%) 弱正向累积：工业兑现累积第 12 条独立信号（继 Tesla / 智元 3C / 自变量 / 它石 / 银河 / 盛视 / 华勤 / 长城 + 此前 5+ 条之后第 12 条）；新场景维度记录：to-C 零售 / 经销渠道首次进入工业兑现栈（区别于 Tesla 工厂 / 智元 3C 制造 / 长城整车装配的 to-B 制造场景）；CEO 车展承诺历史回测严重打折（小鹏自身机器人 PR 多次未见显著产品落地），明年 04-27 节点回测"门店 10% 销售人员"达成度作为可证伪性测试。(3) 顶级实验室 arxiv 缺席延续至 25 天（04-0605-01）—— 再破历史 ICLR ddl 前静默期上限 +2 天；"学术-产业温差进入新均衡态"假设进一步从临时反相 → 结构性现象的判断进一步强化；预计 5 月中下旬 ICLR 2027 ddl 后反弹。(4) 2026 H2 → 2027 H1 时间窗共振：与 Tesla 7-8 月量产 + 小鹏 2026 年底量产 + 2027 全年销售 + #15 Cortex 2.0 8 月复现节点 + #16 下季度工业级 latent-WM + 特斯拉 Optimus 2027 外部场景形成连续兑现节奏，值得密集监测。(5) 保守偏误状态（04-27）：B0 (10d) ✅ / B1 (1d) ✅ / B2 (27d) ✅ / B3 (1d) ✅ / B4 (3d) ✅ / B5 (27d) ✅ / B6 (53d) / B7 (43d) / B8 (41d) 🔴 三节点持续超阈值（v3.5.0 已审查并维持，标记"已审查-趋势确认未达上调阈值"）/ B9 (12d) ✅。(6) 结构性维护：清理 §11-§15 末尾来自前次 run 的重复内容（lines 796-910），文件长度回收 115 行，Source Map 行号偏移随之收紧。(7) 本次增量更新：§4 保守偏误日数 +1 / §8 追加 04-27 小鹏量产时间表段 / §9 当前状态追加 04-27 当日快照。Source Map 行号偏移：v2.0.11 changelog 增加约 1 行；§8 新增约 2 行；§9 新增约 1 行；duplicate trailing 删除收紧约 -115 行——Source Map 表格已按最新行号更新。 v2.0.10 变更摘要（04-25 ~ 04-26 整合 + v3.5.0 假设审计执行）：(1) 🔴 重大置信度变更：B1 77→72% (-5%) + B3 77→72% (-5%)——04-26 v3.5.0 每周假设审计执行：B1 51 天保守偏误 + 反方累积达决定性强度（评估方法论级 2604.21192 BEHAVIOR1K 暴露 SOTA 系统性高估 / 工程门槛 6+ 条 / 人类视频替代 4 条 / 论文-复现 2-3x 衰减 / π0.7 metadata 双向影响）；B3 依赖链强制（B3 ≤ min(B1, B2) = 72%）+ 32 天保守偏误 + 6 条 prompt/memory-level 自进化稀释。Bull 反向论点（产业兑现 11+ 条）成立但被重新解释为"产业飞轮 ≠ 学术研究核心壁垒"。预测 #12 ✅ 关闭。B3 定义切分议题（"权重闭环" vs "prompt/memory 闭环"）仍待人工 reflection 事件。(2) B4 70→75% (+5%, 04-24 paper-scan)：Cortex 2.0 (Sereact, 2604.20246, 04-22) 工业 VLA + visual latent space WM + Process-Reward Operator + flow-based heads 四级显式分层 = 第 4 个独立 latent-WM planner 团队（继 WAV/GIRL/ViVa）+ 首次跨越 academic→industrial 鸿沟——预测 #11 严格口径触发。同期 RoboWM-Bench (2604.19092, 04-21) 量化 video WM 物理可执行性差距，B4 内部子路线分化明朗。(3) 新论文 6 篇：Cortex 2.0 (B4 工业级首条) / RoboWM-Bench (video WM 物理可行性 benchmark, B4 中-强反方) / Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23) Human-in-the-World-Model 学习 WM 作为 reusable corrective substrate, post-training 失败矫正脱离物理执行 = latent-WM 第 5 团队 + B2/B3 弱反方/正向间接 / 2604.21192 (BEHAVIOR1K 评估方法论, 04-23) 首次系统化暴露 VLA 真实差距 / EmbodiedMidtrain (2604.20012, 04-21) VLM↔VLA 数据分布对齐 mid-training 阶段 / PokéVLA (2604.20834, 04-21 段, 04-26 回溯发现) 1.22B params LIBERO 98.2% / Long suite 95.2%（CoT-VLA 69 / WorldVLA 54）= B9 累积第 7 条独立信号（参数预算结构性新低；LIBERO 接近饱和需打折，单条不达 ±5% 门槛维持 75%）。(4) 04-23 社交情报产业三连弹：特斯拉 Optimus V3 时间表（年中亮相 / 7-8 月量产 / 2026 下半年企业客户 / 04-24 复述延伸至 2027 外部场景）+ 智元景灵 G2 进入南昌龙旗 3C 精密制造产线 7×24h（首次大规模 3C 核心制造） + 自变量近 20 亿元 B 轮（小米/红杉中国领投，国内首获四大互联网巨头 BAT+小米全员投资）+ 宇树轮足双模高动态。04-26 资本侧弱信号：盛视科技 NAO 收购涨停 + 华勤技术港股上市。(5) 新预测 #15/#16/#17：#15 Cortex 2.0 第三方独立复现达 SOTA（到期 2026-08-22）；#16 下季度 1-2 条 latent-WM 工业级跟进 → B4 75→80%（到期 2026-07-31，Hi-WM 学术应用变体不计入）；#17 Hi-WM "post-training-without-real-robot" 范式 6 月内 Tier-1 复现 → B2 反方升格审查（到期 2026-10-25）。(6) 顶级实验室 arxiv 缺席延续至 24 天（04-0604-30）破历史 ICLR ddl 前静默期上限 +1 天，预计 5 月中下旬 ICLR 2027 ddl 后反弹；学术-产业温差进入"新均衡态"假设逐步从临时反相 → 结构性现象。(7) 保守偏误状态（04-26）：B1 (0d) ✅ 重置 / B3 (0d) ✅ 重置 / B4 (2d) ✅ / B6 (52d) / B7 (42d) / B8 (40d) 🔴 三节点持续超阈值，v3.5.0 已审查并维持，标记"已审查-趋势确认未达上调阈值"。(8) 2604.20-21 段补扫 SOP 第 4 次执行：单独捕获 PokéVLA（位于 EmbodiedMidtrain 与 2604.21192 之间），提示日级 paper-scan 在密集 segment 内仍存在 lag → 4/25 双周 self-reflection 议程"日级 paper-scan 时延评估"。Source Map 行号偏移：v2.0.10 条目新增约 8 行；§4 改写约 6 行；§5 扩写约 4 行；§8 扩写约 4 行；§9 扩写约 5 行；§10 追加约 3 行；§11 追加约 6 行——Source Map 表格已按最新行号更新。 v2.0.9 变更摘要（04-24）：定时任务增量运行；04-23 / 04-24 均无新 daily-digest / paper-scan 生成（窗口内连续静默），但 04-22 paper-scan（回溯补扫 2604.09-13 / 16-17 段，发现 7 篇前期漏过论文）此前仅进入 BELIEF_GRAPH.md v3.4.2，尚未整合入记忆文件；本版完成整合。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态。(2) 新增论文 7 篇（均回溯自 04-22 paper-scan，2604.09-17 段空洞补扫）：Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14) — Humanoid Transformer + latent tactile dreaming 辅助任务，latent tactile 预测 > raw tactile 预测 +30%，5 个 contact-rich 任务平均 +90.9% 相对提升；B8 方法论级第 8 条 触觉独立信号 + B4 跨模态 latent 预测弱正向（严格口径不计 #11，宽松口径达成但不采用）+ Phase 3 升级 12.5-13/10 + Phase 4 升级 17/12；LIDEA (2604.10677, SJTU Cewu Lu+Yong-Lu Li, 04-12) — 双阶段蒸馏 + 3D 几何对齐，声称 人类视频替代 80% 机器人演示，B1 绕过路径第 N+1 条 + C1 架构级贡献第 N+1 条；VLA-World for AD (2604.09059, SJTU+Huawei, 04-10) — 自动驾驶域 VLA+WM 架构，与 04-20 坦克 700 Coffee Pilot 4.0 车规量产形成 research+product 双轨共振（10 天 gap），Phase 4 新增 AD 子域标记；I2RLC (2604.16850, OMRON+Waseda, 04-20) — 10× 演示加速 + peg-in-hole 100%（B1 绕过/B2 中性）；Web-Gewu (2604.17050) — Browser-based RL 训练基础设施（B1 工程门槛第 7+）；Mini-BEHAVIOR-Gran (2604.17019) — 指令粒度 U 形效应 benchmark 工具；Seeing Through Touch (2604.11579, KAIST+UNIST, 04-13) — 触觉→视觉材质定位 perception（B8 弱间接）。(3) 方法论级共识跨模态形成：WAV (action-space latent) + GIRL (latent-WM DINOv2) + ViVa (video-generative value) + Touch Dreaming (tactile latent) = "latent 预测 > raw 预测" 规律跨视觉/动作/触觉 4 modality 4 团队独立收敛 → 对 C2 下限（15%）构成进一步反证压力；建立新套利窗口：Latent 预测方法论（~3-6 月）。(4) 扫描系统性偏差立项：5 次 arxiv 段漏过（VGA / ChemBot / Touch Dreaming / LIDEA / VLA-World）达系统化立项阈值 → 4/25 双周 self-reflection SOP 升级"2604 段空洞补扫"。(5) 保守偏误 +2 天：B1=50d / B6=50d / B7=40d / B8=38d 🔴 四节点持续超阈值（再破本周期峰值）；B3=31d 🔴 04-23 已触发 30d 阈值 → B3 明确定义切分议题（"模型权重更新闭环" vs "记忆/prompt-level 反思 agent"）正式进入 4/25 议程；B4=30d 🟡 刚达阈值。(6) 顶级实验室 arxiv 连续 20 天缺席（04-0604-24）— 已超历史 ICLR ddl 前静默期上限（12-18 天）2 天，产品化闭门（H2）假设占比需升格观察。(7) 预测窗口结算：#11 (latent-WM planner +1 条 → B4 +5%) 窗口 04-2204-24 今日到期；严格口径未触发（Touch Dreaming 为 modality 扩展，不计入 video/scene-level 原锚定）→ 维持 B4 70%。Phase 4 本身因 Touch Dreaming 跨模态规律+VLA-World for AD 跨域扩散，计数器从 16/12 升至 17/12。#12 (B1 77→72%) 距 4/25 剩 1 天，条件持续强化至 10+ 条绕过路径。(8) 本次增量更新：§4 B4/B8 反驳栏扩写；§5 Phase 3（12.5-13/10）+ Phase 4（17/12）+ 套利 #1 窗口收紧 / #4 重定义 / 新增窗口"Latent 预测方法论"；§8 / §9 追加 04-24 当日快照；§10 WM 路线追加 VLA-World for AD；§11 关键论文表追加 Touch Dreaming。Source Map 行号偏移：表头 v2.0.9 条目新增约 2 行；§4 扩写约 3 行、§5 扩写约 6 行、§8 扩写约 3 行、§9 扩写约 4 行、§10 追加约 2 行、§11 追加约 1 行——Source Map 表格已按最新行号更新。 v2.0.8 变更摘要（04-22）：定时任务增量运行；04-22 无 daily-digest / paper-scan 生成（当日尚未产出），BELIEF_GRAPH.md 已于 04-22 更新至 v3.4（反映 04-21 社交情报）。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态。(2) 04-21 社交情报披露 3 条纪录级信号：荣耀「闪电」机器人 04-19 北京亦庄半马人形组冠军 50:26 破人类世界纪录（人类纪录 57:20；包揽前三）= 硬件/控制端性能里程碑，B6 分层 + 产业动态控制弱间接正向（无研究侧直接影响）；DeepSeek 首轮融资 04-18 启动，估值 > 680 亿元 RMB（前值"> 100 亿美元"已被披露细化，规模确认）；银河通用单轮 25 亿元融资，国资首次大规模进入具身智能赛道（12 个月赛道累计融资 373 亿元）—— B1 远期飞轮"产业资本 + 国资路线"第 9+ 条累积。(3) 04-22 社交情报披露 3 条：长城汽车坦克 700 04-20 上市搭载 Coffee Pilot 4.0，行业首款应用 VLA 大模型 + 世界模型的硬派越野车（CoT 推理面板展示决策逻辑）= VLA 车规级首次量产落地信号，对 B0/B1/B4 弱间接正向（"VLA + WM 混合架构"从 Li Auto/Tesla/XPeng 扩展至越野 SUV 品类）；自变量机器人完成近 20 亿元 B 轮融资（小米/红杉中国领投，坚持全自研端到端基座模型 WALL-A，区别于微调开源路线）= B1 远期飞轮"全自研"路线单点信号；晶华新材披露与多家灵巧手企业深度合作，部分客户小批量量产= 供应链信号，Phase 6 灵巧手基础设施弱正向。(4) 保守偏误 +1 天：B1=48d / B6=48d / B7=38d / B8=36d 🔴 四节点持续超阈值；B3=29d ⚠️ 距 30d 阈值仅 1 天，04-23 扫描即触发。(5) 顶级实验室 arxiv 信号连续 18 天缺席（04-06 ~ 04-22）—— 静默窗口继续延长，历史 ICLR ddl 前 12-18 天缺席规律本窗口已持平上限；若 04-2304-28 仍缺席，产品化闭门（H2）占比需升格。(6) 预测窗口更新：#11 (latent-WM planner +1 条 → B4 +5%) 窗口 **04-2204-24 剩余 2 天**，连续 5 天 arxiv VLA 核心静默 = 被动未触发概率大；#12 (B1 77→72%) 4/25 双周 self-reflection 剩 3 天（资本侧累积至 9+ 条）。(7) 本次增量更新：§8 新增 04-21/04-22 社交情报段（荣耀半马纪录 / DeepSeek 680 亿 / 银河通用国资 / 坦克 700 VLA 车规 / 自变量 B 轮 / 晶华灵巧手）；§9 当前状态追加 04-22 当日快照（保守偏误 / 窗口倒计时 / 赛道累计融资 373 亿）。Source Map 行号偏移：§8 新增约 2 行（§8 由 350-397 → 350-399），§9 起始从 399 → 401；其他章节同向后移约 2 行，已更新 Source Map 表格。 v2.0.7 变更摘要（04-21）：定时任务增量运行；04-21 无新 daily-digest / paper-scan（下午才由 scheduled 任务生成）。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态不动。(2) 04-20 社交情报文件补齐（昨日 digest 记录"❌ 无生成文件"，今晨已生成）：新增 4 条融资密集披露 (2026-04-18) —— 它石智航 Pre-A 超 30 亿元 RMB (~4.55 亿美元)，创中国具身智能单轮融资纪录；极佳视界 B1 近 15 亿元 RMB（具身智能/人形机器人生态）；DeepSeek 首轮融资寻求 >100 亿美元估值 / 拟募 ≥3 亿美元（LLM+具身双线研发成本）；Faraday Future 4500 万美元（已在 04-19 digest 中标记为 EV 存疑不计入）；2026 中国人形机器人生态大会（04-1719，智元/宇树/优必选/小米/荣耀参会）。信念影响：全部产业融资信号 → B1 远期飞轮"产业资本 + 规模化前夜"间接正向累积（不跨 ±5% 门槛，不单独触发变更）；DeepSeek 进入具身赛道是 LLM 巨头首次具身侧重投——C1 / B0 弱间接观察信号（架构侧主体"数据工程"叙事尚无变化，但新玩家资本密度 → 下一轮架构 / 数据策略分化可能提前）。(3) 保守偏误 +1 天：B1=47d / B6=47d / B7=37d / B8=35d 🔴 四节点持续超阈值；B3=28d ⚠️ 距 30d 阈值仅 2 天，04-23 扫描即触发。(4) 顶级实验室 arxiv 信号连续 16 天缺席（04-06 ~ 04-21）—— 静默窗口继续延长；预测 04-2304-28 可能是恢复窗口；若到 04-28 仍缺席，产品化闭门（H2）占比上调。(5) 预测窗口更新：#11 (latent-WM planner +1 条 → B4 +5%) 窗口 **04-2204-24 剩余 3 天**；#12 (B1 77→72%) 4/25 双周 self-reflection 剩 4 天。(6) 本次增量更新：§8 新增 4 月融资密集披露段；§9 当前状态追加 04-21 当日快照（保守偏误 / 窗口倒计时）。无 Source Map 行号偏移（本次新增集中在 §8/§9 尾部，§0-§7 / §10-§12 行号不变）。 v2.0.6 变更摘要（04-20）：整合 04-1804-20 低信号窗口三日 + 04-19 产业密集披露 + VGA 回溯补录。(1) 无置信度变更 — 所有 B0-B9/C1-C3 节点保持 04-17 状态；三日 arxiv 全空 + 顶级实验室 arxiv 15 天缺席（04-0604-20）= 学术静默期结构性确认（ICLR 2027 ddl 前闭门/产品化封锁）。(2) VGA (2604.12908) 回溯补录（Zijian Song 等 7 人, 04-14 submission, 2604.12 段位于 04-15 两轮扫描间隙被漏过）：主张 "robot manipulation 本质是 vision-to-geometry 映射"，3D 几何 backbone 优于 VLM/video 语义表示；sim benchmark 击败 top-tier + 真机零样本视角迁移鲁棒。标记为 C3/B7/C1 间接弱正向，不触发升格（单篇 sim）。(3) 04-18 FluxVLA Engine 社交情报（逐际动力开源 VLA 工程底座，模型+backbone 可替换）= B6 分层第 9 条独立信号 + B1 "工程门槛下降"第 6+ 条累积（Yuke Zhu co-training + SIM1 + UMI-3D/DEX-Mouse/DockAnywhere + FluxVLA）。(4) 04-19 产业密集披露 5 条：宇树 H1/R1 拳击动态控制、智元 2025 营收 >10.5 亿元 + 核心 BU 独立融资、优必选 Walker S2 部署德国 ROSSMANN 物流（中国人形首条海外商用）、领益智造北京具身超级工厂天工 Ultra/3.0 下线（2026 年 1 万台产能）；Faraday Future 疑非 humanoid 存疑。全部交付/融资/产能，非研究侧证据。(5) 保守偏误：B1(46d)/B6(46d)/B7(36d)/B8(34d) 🔴 四节点持续超阈值；B3(27d) ⚠️ 接近 30d 阈值（下次扫描即触发）。(6) 预测追踪：#11 下周 1 条 latent-WM planner 新信号 → B4 +5%（04-2204-24 窗口即将到期，连续 3 天低信号 = 未触发概率大）；#12 B1 77→72% 系统审计条件持续强化，等 4/25 双周 self-reflection 执行。(7) 新 SOP：每次 digest 记录已覆盖 arxiv ID 段；下次补扫漏过段（VGA 教训）。 v2.0.5 变更摘要（04-17）：π0.7 发布（2026-04-16, Physical Intelligence）是本月最大 VLA 产业信号。(1) B0 上调 72%→77%（raw 80→85%）——π0.7 以 Episode Metadata（Quality/Mistake/Speed 标签）+ Knowledge Insulation + "架构上没啥特别，功夫在数据工程" 产业级背书"数据策略 > 架构创新"；恢复 B0=B1=B2=B3=77% 父子一致性。(2) 新模型：π0.7（PI, 04-16）—— compositional generalization via language coaching, 匹配 specialist 模型性能（coffee/laundry/box assembly）；5B 主体 + 14B BAGEL WM 架构（paper-verified 解读见 theory/vla-core/）；声称"language coaching without retraining"= B3 在线自改进雏形。(3) 新论文（2604.13xxx-15xxx, arxiv 04-1517 扫描 16 篇）：WAV（Westlake, latent WM+trajectory value function+ action-space feasibility exponential decay 理论论证，B4 累积）；Sim-Real Co-Training Mechanistic Analysis（Yuke Zhu 组, structured representation alignment + importance reweighting，B0/B1 方法论化）；Goal2Skill（VLM-planner+VLA-executor, RMBench 32.4% vs 9.8%，B6 分层第 5 条）；SpaceMind/EEAgent（prompt-level self-evolution, B3 叙事风险）；HiST-AT（双层 VQ Hierarchical Spatiotemporal Action Tokenizer, Phase 1 反相变第 7 条）；R3D（3D policy + diffusion decoder, B5 弱反方）；HRDexDB/DockAnywhere/UMI-3D/DEX-Mouse/Switch 等。(4) 趋势：Latent-WM planner 路线形成多团队共识（WAV+GIRL+ViVa 一周 3 条）—— B4 接近 +5% 上调触发线；若下周再出 1 条则执行 70→75%。Co-training 理论化（Yuke Zhu + SIM1）= B1 隐性下行压力累积。Prompt-level vs weight-update self-evolution 概念分化风险。(5) 小红书 15 篇高密度共识：LeRobot pi0 官方承认 30% 成功率（论文 vs 复现 2-3x 衰减系统性确认）；Jupiter Zhai "real-world RL 物料被干烂"（3583 赞=本周最高，B2 反方）；SimpleVLA-RL LIBERO-10 17→91%（单轨迹 SFT+RL）；VLA 推理频率虚标=frequency×action_chunk_size（B9 校准规则）；TouchAnything（EgoTouch 视频→双手触觉估计，B8 弱正向）。(6) 产业：灵初智能再融资（国投先导+京西瑞瓴），智元酷拓 04-14 上海浦东产品发布；顶级实验室 arxiv 信号连续 13 天缺席（ICRA/RSS/NeurIPS 2026 投稿沉默期猜测）。(7) 保守偏误：B1(43d)/B6(43d)/B7(33d)/B8(31d) 四节点持续超阈值；B0 刚上调重置；Phase 4 计数器 15/12 → 16/12（+WAV）。(8) 新预测：#9 π0.7 第三方独立复现能否达"match specialist"（30 天窗口到期 2026-05-17）；#11 下周再出 1 条 latent-WM planner → B4 +5%。 v2.0.4 变更摘要（04-16）：整合 04-15 每日摘要 + 论文补充扫描 + 双周元审计。(1) B9 上调 70%→75%（双周 self-reflection 审计触发累积更新规则：6 条独立边缘推理信号 GigaBrain-0-Small/AutoQVLA/RoboECC/Realtime-VLA V2/HY-Embodied 2B MoT/A₁ VLA）。(2) 新论文：ProGAL-VLA（3D entity-centric graph + slow-planner 修复 VLA "language ignorance"，LIBERO-Plus 鲁棒性 30.3→71.5%；B6/C3 弱累积）；ViVa（video-generative value model，Phase 2×4 弱累积）；Action Images（视频生成即策略，无独立 action head——B7 反方第 2 条 + C1 弱正向）；JailWAM（WAM 安全 84.2% 攻击成功率，B3/B4 弱累积）；GIRL（latent WM + DINOv2 hallucination control，B4 弱累积）；FlashSAC（off-policy RL hours→minutes，B2 弱累积）。(3) 趋势确认：「视频生成即策略」路线成形（Action Images + ViVa + Video Generators are Robot Policies），挑战 action head 解耦正统。(4) B8 致命实验重新定义：「连续 3 月 VLA+tactile 占比 <5% → 下调至 60%」。审计建议待确认：B1 下调 77→72%、B8 下调 70→65%。(5) 保守偏误：B1(42d)/B6(42d)/B7(32d)/B8(30d 触发) 四节点同时超阈值——系统级保守偏误。(6) 产业：智元 04-17 合作伙伴大会预告（4 款人形 + 4 模型 + 7 方案）；智元 SpikePingpong（高频脉冲视觉 + 模仿学习）。(7) 顶级实验室连续 11 天缺席。 v2.0.3 变更摘要（04-15）：整合 04-14 每日摘要。(1) 低信号日，无置信度变更。新论文：VLA-Forget（VLA unlearning/安全）、AEROS（模块化架构）、DECO（双臂触觉 Diffusion）、TaSA（触觉衰减）。(2) 社交情报：A₁ VLA 推理成本-76.6%/延迟-72%（B9 第 6 条边缘信号累积）；宇树 H1 10m/s 冲刺纪录。(3) 预测 #6（CALVIN/LIBERO 频率↓）04-15 到期——确认，+5% B9/相关信念待执行。(4) 预测 #8（触觉⚡论文）04-15 到期——未触发，+5% 待执行（触觉学术衰退确认）。(5) B1(40d)/B6(40d)/B7(30d) 三节点联合审查持续被标记。B8(28d) 接近阈值。(6) 顶级实验室信号连续 10 天缺席。 v2.0.2 变更摘要（04-14）：整合 04-13 论文扫描（2604 批次）。HY-Embodied-0.5/SIM1/SV-VLA。B7 30 天阈值触发。 v2.0 变更摘要（04-12）：低信号日。(1) ViVa——视频生成模型作 value function（Phase 2×4 交叉弱累积）。(2) HEX——State-centric 人形 VLA + MoE 按身体部位分专家（B7 弱累积）。(3) Xbotics A₁ 开源 VLA 层间截断 FM + 自适应推理（延迟-72%，B9 弱累积）。(4) 保守偏误升级：B1(38d)/B6(38d) 🔴超阈值，B7(28d) 🟡接近。(5) BELIEF_GRAPH.md 重建完成（04-12 假设审计）。无信念网络变动。 v1.9 变更摘要（04-08）：IAIL (Science Robotics)——跨机器人意图对齐。产业：天久领航鸟巢交付、机器人租赁平台超 1 亿融资。 v1.8 变更摘要（04-06）：近期最重要更新——B0 核心信念下调 + C1 逆共识逼近升格。(1) B0: 85%/77% → 80%/72%——保守偏误 30 天强制审查。三条独立架构效率信号（DIAL 15-22pp + DFM-VLA discrete FM > all + DiT4DiT 10×）。叙事修正："数据是基础，架构创新提供显著乘数效应（10× 数据效率级别）"。(2) C1: 30% → 35%——致命实验到期未触发（架构贡献不可被数据解释），校准规则 2 +5%。距升格阈值仅差 5%。(3) 套利 #3 正式关闭。(4) B1/B6 审查完成维持不变。(5) 新论文：DreamControl-v2（G1 分层管线）、Tex3D（VLA 对抗攻击 96.7% 失败率）。(6) 产业：优必选招首席科学家年薪 1500 万-1.24 亿、宇树人民日报专访。 v1.7 变更摘要（04-01）：B2 下调 81%→77%。SOMA/BeSafe-Bench/CoMo/Wanderland。Memory VLA 赛道确认中。安全维度新增。 v1.6 变更摘要（03-31）：DFM-VLA、VLA-OPD、Scaling Sim-to-Real RL、VLA-MBPO、Realtime-VLA V2、Ruka-v2。Phase 1 82%→80%。套利 #3 ≤1 月。 v1.5 变更摘要（03-29）：静默日。Unitree R1 Air $4,900、Amazon 收购 Fauna Robotics、ROBOTERA 100 亿 RMB。

Source Map（行号索引 + 深度文件路由）

选择性加载指引：QUICK 模式用 offset/limit 只读相关章节；DEEP 模式优先读 ★ 标记章节。

Section	行号	优先级	深度文件（KW_VLA/ 下）
§0 VLA 定义	63-70	跳过	—
§1 模型族谱	72-111	跳过	—
§2 动作生成范式	112-152	按需	—
§3 训练范式	153-202	跳过	—
§4 信念网络 ★	203-242	必读	`docs/system/BELIEF_GRAPH.md`（完整变化历史）
§5 收敛地图 ★	243-318	必读	— (本文已是最完整版本)
§6 触觉	319-344	跳过	`theory/tactile/` + `theory/frontier/tactile_*`
§7 部署	345-393	按需	`deployment/`
§8 产业	394-458	按需	`companies/` + `memory/blog/archives/vla-social-intel/`
§9 当前状态 ★	459-564	必读	`reports/weekly/` 或 `reports/biweekly/` 最新
§10 深度专题	565-654	按需	`theory/frontier/` 对应论文
§11 论文速查	655-830	按需	—
§12 开源基础设施	831-847	按需	—
§13 产品与市场	848-855	跳过	—
§14 高频面试要点	856-892	按需	—
§15 校准纪律 ★	893-903	必读	—

0. VLA 是什么（30 秒版）

Vision-Language-Action (VLA) = 将视觉感知、语言理解、动作生成统一在一个模型里的具身智能范式。输入：RGB 图像 + 语言指令（可选：深度、触觉、本体感觉）。输出：机器人可执行的动作序列（关节角/末端位姿/夹爪）。核心承诺：像 LLM 理解文字一样理解物理世界，并直接输出动作。

1. 模型族谱与关键架构

1.1 演化主线

RT-1(2022) → RT-2(2023) → OpenVLA(2024) → π0(2024) → π0.5(2025) → π0.6(2025) → π0.7(2026-04)
                                              ↑ Flow Matching 引入点            ↑ Episode Metadata + 14B BAGEL WM

模型	机构	参数	视觉	动作生成	控制频率	核心突破
RT-1	Google	~35M	EfficientNet	离散 Token(256bin) + Softmax	3Hz	首个大规模真机验证
RT-2	DeepMind	55B	ViT-22B(PaLI-X)	离散 Token + Softmax	1-3Hz	语义泛化涌现（"抓灭绝动物"→抓恐龙玩具）
OpenVLA	Stanford	7B	SigLIP(ViT-L) + Llama2	离散 Token + Softmax	5-10Hz	全开源 SOTA，LoRA 微调生态
π0	Physical Intelligence	3B	PaliGemma(SigLIP+Gemma)	Flow Matching(ODE)	10-50Hz	首个 VLM × Flow Matching，高频精密控制
π0.5	PI	3B+	同上	Flow + FAST Token	~50Hz	开放世界泛化，co-training(机器人+互联网+仿真)
π0.6	PI	5B	同上 + Action Expert	Flow + Recap(离线RL)	~50Hz	自我改进闭环，2× 吞吐 2× 低失败率
π0.7	PI	5B + 14B BAGEL WM	同上	Flow + Episode Metadata	~50Hz	Compositional generalization via language coaching（无需 fine-tuning 解决未训练任务）；Episode Metadata (Quality 1-5/Mistake bool/Speed) + Knowledge Insulation 梯度隔离；匹配 specialist 性能（coffee/laundry/box assembly）——作者："架构上没啥特别，功夫在数据工程"

1.2 其他重要模型

Octo (Berkeley)：Diffusion 动作头，连续动作，推理慢但平滑
Galaxea G0：双系统（VLM 规划器 + VLA 执行器）
WALL-OSS：Uni-CoT + 双分支(Flow + FAST)
GR-00T N1 (NVIDIA)：人形机器人基础模型
RDT-1B / RDT2：Scalable Diffusion Transformer，跨具身零样本
LingBot-VLA：务实型 VLA，语用接地
AR-VLA (ETH)：自回归 Action Expert + DTR(Deep Token Routing)，SIMPLER 61.5% 超越 π0.5 51%
StarVLA (04-06)：模块化开源 VLA 框架，VLM backbone(Qwen-VL)+WM backbone(Cosmos)+多 action head 可 swap，统一评估(LIBERO/SimplerEnv/RoboTwin 2.0/RoboCasa-GR1/BEHAVIOR-1K)——LeRobot 之后第二个全栈开源框架

1.3 架构分类

单模型: RT-2 / OpenVLA / π0（一个模型端到端）
双系统: Galaxea G0 / π0.6（VLM 思考 + VLA 执行）
层级式: WALL-OSS（思维链规划 + 双动作头切换）

2. 三大动作生成范式

2.1 离散 Token 化（RT-1/RT-2/OpenVLA）

连续动作 → 量化为 N bins(通常 256)：Token = round((a-min)/(max-min) × (N-1))
优点：统一 Transformer 架构，支持多模态
致命缺点：量化误差导致精密操作失败（穿针、装配）

2.2 Diffusion Policy（Octo/RDT）

从高斯噪声迭代去噪生成动作轨迹
优点：连续高精度，天然多模态分布
缺点：需 50-100 步去噪，延迟高，不适合 >50Hz 控制

2.3 Flow Matching（π0 系列）⬅ 当前胜出者

学习确定性向量场（最优传输直线路径）
ODE solver 仅需 1-10 步推理
优点：极速 + 高精度 + 支持 50Hz+
2026 年论文量 Flow:Diffusion ≈ 2:1，竞争基本结束
新进展 (03-17)：OFP (One-Step Flow Policy) 实现 100× 加速，单步 flow 集成 π₀.5 后超越原始 10 步版本

2.4 FAST Token 化（折中方案）

对动作序列做 DCT（频域变换）+ BPE 合并，压缩 token 数量
类比 JPEG：保留高频平滑性，减少 token 爆炸(256^7 → 少量 token)
OpenVLA 训练加速 5×；FAST+ 预训练 1M+ 轨迹实现跨具身泛化
π0.5 同时使用 FAST(训练) + Flow(推理)

2.5 Discrete Diffusion（新兴第四范式，待验证）

ICLR 2026 出现 4 篇并发 Discrete Diffusion VLA 论文
结合 AR 的 LLM 兼容性 + Diffusion 的多模态表达力
待验证：推理速度数据 + 引用独立性。若推理延迟 ≈ FM 且训练效率更高，可能挑战 B5

2.6 Discrete Flow Matching（DFM-VLA，新兴第五范式）

Token-level probability velocity field——Flow Matching 在离散空间的推广
DFM-VLA (2603.26320)：CALVIN 4.44 / LIBERO 95.7% / 真机 70.8%，全面击败 continuous FM(FlowVLA) + continuous diffusion(RDT) + discrete diffusion(Dream-VLA) + AR(OpenVLA)
推理 121 tokens/s vs AR 50.2 tokens/s（2.4× 加速），2-stage decoding: iterative + validation
关键争议：Bear 论点——"DFM 仍是 FM 框架内演化"；但 B5 原定义隐含 continuous FM，若 discrete FM > continuous FM 则定义需修订
真机验证规模有限（3 任务 ×40 试验 = 120 次），统计显著性待更大规模确认

判断：Action Head 收敛至 Flow Matching（置信度 74%，校准后 ↓自79%，5 条下行信号待合并处理）。范式空间比"FM vs AR"二元叙事更丰富：continuous FM + discrete FM (DFM-VLA) + AR-VLA + Discrete Diffusion + FAST + Hybrid 多轨并存。DFM-VLA (2603.26320) 在 CALVIN 4.44/LIBERO 95.7%/真机 70.8% 全面击败 continuous FM+diffusion+AR，是"discrete flow > continuous flow"首个全面对比证据。FM 仍领先但需重定义——"FM" vs "Flow-based methods"边界成为 B5 定义审查核心问题。

3. 训练范式

3.1 行为克隆 (BC) — 基线

监督学习：模仿专家示范 → MSE/CE/Diffusion Loss/Flow Loss
天花板：只能学到专家分布内的行为，分布外崩溃

3.2 Co-training — 数据扩展

π0.5 路线：机器人数据 + 互联网视频 + 仿真数据联合训练
关键：loss masking（不同数据源用不同损失组合）
解决数据稀缺但引入域差异

3.3 RL Post-training — 突破 BC 天花板 ⬅ 当前唯一赢家

π0.6 Recap：离线 RL 自我改进（VLM 自动打分 → 高分轨迹回训练）
GR-RL：Mixture of Teachers 在线 RL
GigaBrain RAMP：World Model 辅助 RL
2026-03 数据：RL finetuning 加速比 1.82x（全场唯一 SURGE），Instruction Tuning 仅 0.06x（已死）
置信度：RL 后训练突破 BC 天花板 = 77%（校准后，04-01 执行下调 raw 90→85%）。保守偏误修正完成
PLD (CMU, ICLR 2026)：残差RL+蒸馏闭环，第二独立团队验证。LIBERO 99% + 真机 100%
VLA-OPD (03-30)：On-Policy Distillation，Reverse-KL 从 RL teacher 蒸馏到 student，1-traj init → LIBERO 93.4%，3× 样本效率。但依赖 RL teacher（不能替代 RL），暗示"RL→Distillation→Deploy"流水线新范式

3.4 数据飞轮（终极形态）

少量遥操作 → BC 基线 → 真机探索 → VLM 自动打分 → 高分轨迹回训练 → 更强模型 → 更多探索
                              ↑ Recap / Reward Discovery 核心机制

RoboClaw (03-16)：Entangled Action Pairs 自重置飞轮，人工投入 -53.7%，长时域成功率 +25%

3.5 损失函数全景

阶段	损失类型	公式/方法	用途
BC-离散	Cross-Entropy	-Σ y·log(ŷ)	RT-1/RT-2/OpenVLA token 分类
BC-连续	MSE/Huber	\|a-â\|²	回归动作值
BC-GMM	NLL	-log Σ wᵢ·N(a;μᵢ,σᵢ)	多模态连续动作
Diffusion	ε-prediction	\|ε-ε̂(xₜ,t)\|²	去噪扩散
Flow	velocity field	\|v-v̂(xₜ,t)\|²	速度场匹配
RL	PPO clip	min(rA, clip(r)A) + V_loss + entropy	策略改进
对齐	InfoNCE/CLIP	视觉↔语言/视觉↔触觉对比学习	跨模态表示
安全	barrier/jerk	速度/加速度/力矩/工作空间约束	部署安全
抗遗忘	Knowledge Insulation	梯度隔离(动作头梯度不回传VLM)	防灾难性遗忘

3.6 关键训练技巧

Knowledge Insulation：双轨训练——VLM 学离散 token(保留语义)，Action Expert 学连续控制(独立优化)，梯度不互传。<1% 性能损失，2× 收敛加速
Co-training loss masking：不同数据源用不同损失组合（机器人数据全损失，互联网视频只有视觉+语言损失）
Action Chunking：一次前向生成 32-64 步动作序列，配合高频重规划实现闭环
Symmetry Equivariance (EquiBim)：双臂任务训练时加对称等变正则化 L_sym，强制 π(S(O))=S(π(O))，模型无关、推理零开销，+2.7~9.5% 成功率
Reward Discovery：双层元学习自动进化奖励函数，将稀疏"完成/失败"转化为平滑奖励地形

4. 核心信念网络（Belief Graph 精华）

置信度经过校准：>80% 原始值 ×0.9

ID	信念	置信度	上次变更	最强反驳
B0	数据策略 > 模型架构	77% ↑	04-17	π0.7 (04-16) 以 Episode Metadata + Knowledge Insulation + "架构上没啥特别，功夫在数据工程"产业级背书 → 恢复 B0=B1=B2=B3=77% 父子一致性。反方：论文 vs 社区复现 2-3x 衰减系统性（LeRobot pi0 官方 30%/Lingbot 55 vs paper 更高）。C1 直接反对但单 lab 信号不触发逆共识保护。05-21: +DeMiAn (2605.17077) "语言密度作为数据侧杠杆从固定语料榨取更多信号" = 数据工程>架构强正向单实证, 受 raw 85% 校准上限 deadlock 阻塞不达 +5%（calibration ceiling deadlock 现横跨 B0/B4/B6/B7 四节点）
B1	数据飞轮是核心壁垒	77% ↑	05-04	05-04 LWD (2605.00416) 触发 72→77% (+5%)：fleet-scale experience accumulation → 单 policy 持续改进 = fleet-scale 数据飞轮的方法论级实证；04-26 v3.5.0 下调时反方核心论点是"产业飞轮 ≠ 学术研究核心壁垒"——LWD 把"飞轮"做成学术 + 工程 paper，不再只是产业现象。依赖链一致性约束：B3 ≤ min(B1, B2) → B1 必须随 B2/B3 同步移动以保持等号关系（v3 校准纪律 §3.2 规则 3 "单方向强证据最小更新 ±5%"）。04-26 v3.5.0 假设审计 77→72% (-5%) 历史保留作为 ForecastBench/EvolveCast "过度更新"实证：51 天保守偏误 + 反方累积当时被判定为决定性，但 8 天后被 LWD 反向打回。Bull 反向论点（产业兑现 12+ 条）+ LWD 学术-工程双轨实证已重新支持"飞轮 = 研究维度核心壁垒"叙事
B2	RL 后训练突破 BC 天花板	82% ↑	05-04	05-04 LWD (2605.00416) 触发 77→82% (+5%)：自 04-17 Jupiter Zhai "real-world RL 物料被干烂"+ 社区共识"大规模 VLA 的 RL 做不了"以来第一篇决定性反驳 —— Berkeley 系（Jianlan Luo 资深作者，HIL-SERL 系），16 机器人 fleet + 真实超市 long-horizon 95% 成功率 + DIVL/QAM 专门为 flow-based VLA action generators 稳定 sparse-reward fleet RL，一篇就把 04-17 反方共识打回去。预测 #17 部分提前满足（同方向"大规模 RL post-training 可工程化"实证，虽 LWD 是 with-real-robot-fleet 而非 Hi-WM 路径）。新预测 #22 立项：3 个月内非 Berkeley 团队复现 LWD-style fleet RL（≥10 robots, ≥80% long-horizon），到期 2026-08-04 否则触发回撤审查。LaST-R1 (04-30) annotation-free RL + Clip-GRPO 共振解决"物料被干烂"痛点
B3	自我改进闭环是终极形态	77% ↑	05-04	05-04 LWD (2605.00416) 触发 72→77% (+5%)：04-26 v3.5.0 审计的核心担忧之一是"权重闭环 vs prompt/memory 闭环"定义之争（8+ 条 prompt-level 自进化稀释了原定义）—— LWD 是第一篇方法论级"权重闭环"真机大规模验证：deployment → autonomous rollouts + human interventions → DIVL+QAM RL 更新权重 → redeployment 完整闭环。直接给"权重闭环"路线一个旗手实证，定义稀释问题部分缓解。依赖链一致性强制：B3 ≤ min(B1, B2) = min(77, 82) = 77 ✅（保持等号）。32 天保守偏误计数器自 04-26 已重置，但 LWD 是真正"自下而上"的反方驳斥而非纯计数器到期。Hi-WM (04-23) "failure-targeted policy improvement" 与 LWD 形成互补（in-WM 矫正 + on-fleet 学习），机制级闭环双轨证据
B4	World Model 作为闭环加速器	75%	04-24	物理幻觉在接触密集任务中致命；WM 分化四 sub-route。05-04 累积压力：(1) Being-H0.7 (2605.00078, 04-30) 第 6 latent-WM 团队 + PFD-style "WM-as-distillable" 第 2 篇（PFD 不再孤立）；(2) MotuBrain (2604.27792, ShengShu Tech, 04-29) 第 7 latent-WAM 团队 + 第 2 条 industrial-led（Cortex 2.0 后），强候选触发 #16 (B4 75→80%) —— industrial 边界判定（ShengShu Tech "unified WAM"路线 vs Cortex 2.0 "latent-WM as planner"路线）需 5 月中假设审计 P0 人工 judgment，本次暂不执行；(3) Phase 4 计数器 24/12 → 26/12 严重超临界 2.17x。B4 已达 75% 校准上限——v3.5.6 议程立项的 "B7 校准上限规则反思" 同样适用此处；强行 80% raw 会被谦逊折扣压回 72%（反向下调），需要先解决 calibration 框架的 ceiling 问题。04-24 触发预测 #11 严格口径（Cortex 2.0 70→75% +5% 已执行）。B4 内部 4 sub-route（议程 P2 拆分立项）：sub-1 (latent-WM-as-planner: Cortex 2.0/WAV/GIRL/ViVa) / sub-2 (video-WM-as-data-engine: GigaWorld-0) / sub-3 (WM-co-training-objective: GR00T N2 WAM/Hi-WM) / sub-4 (WM-as-distillable-residual: PFD/Being-H0.7 新加入)。05-21: +MoLA (2605.12167) latent-WM↔video-WM 桥接（imagined future video → mixture of inverse dynamics → latent action）→ Phase 4 计数器 38→39/12 = 3.25× 历史新高（雷达校正口径 38/12 = 3.17×, GuidedVLA 重归类 B7/C1 已剔除）; B4 +5% 受 calibration ceiling deadlock 阻塞
B5	Flow Matching 主导 Action Head	69% ↓	03-31	5条下行累积执行(HybridVLA+A2A FM+Mean-Flow+FODMP+DFM-VLA)，continuous FM唯一性弱化；定义需审查"FM" vs "Flow-based"。04-17 新反相变：HiST-AT 双层 VQ action tokenizer（离散第 7 条）+ R3D diffusion decoder（3D policy 优选 Diffusion 非 FM）。04-27 paper-scan 弱正向：CorridorVLA (2604.21241) sparse spatial anchor + corridor tolerance loss 跨 SmolVLA + GR00T 双 backbone 验证；FM head 仍主流且可被增强而非替换；不抵消早前 5 条下行累积；维持 69%
B6	分层架构(S0/S1/S2)标准化	75%	03-05	🔴 54天保守偏误持续（v3.5.0 已审查标记"未达上调阈值"）。04-18 FluxVLA Engine = 分层/模块化第 9 条独立信号（产业级首条）。04-17 强正向累积抵消下调建议：Goal2Skill（VLM-planner+VLA-executor, RMBench 32.4% vs 9.8%=3.3× gap, 长时程验证）+ SpaceMind/Switch/HiST-AT = 本批次 4 条本批次信号（叠加早前 HiVLA/ProGAL-VLA/SV-VLA/HY-Embodied 累积至 8+ 条独立分层信号）。04-27 paper-scan 弱正向：UniT (2604.19734) tri-branch + EUEA (2604.19839) 4-skill 微调 + EvoAgent (2604.20133, 非 robotics 域权重 0.5) + SynAgent (2604.18557, multi-agent cooperative) = 第 11+ 条独立信号；保守上限附近不达 +5%。"物理必要 vs 工程现状"分歧未解
B7	Action Expert 解耦语义与运动	75%	03-15	🔴 44天保守偏误持续（v3.5.0 已审查标记"反方累积无决定性"）。解耦可能损失跨模态协同(WholeBodyVLA latent action+Action Images 视频生成即策略)。04-17 弱正向：π0.7 Knowledge Insulation 梯度隔离 PI 再度背书。04-20 新累积：VGA (2604.12908) vision-geometry 直接映射 = 解耦叙事替代形态（语义中介 → 几何中介）。04-27 paper-scan 双向弱信号互抵：CorridorVLA 弱正向（保持解耦同时注入空间先验）+ UniT 弱负向（unified token 路线 vs decoupled action expert 张力）—— 维持 75%
B8	触觉从可选→必需	70% ↑	03-17	🔴 42天保守偏误持续（v3.5.0 已审查；继续追踪触觉+latent 第 9 条）。硬件标准化遥遥无期；VFE 替代路线追踪中。04-15 审计"下调至 65%"建议被抵消：TouchAnything + DECO + TaSA + 视觉力矩 4 条近期累积，维持 70%。04-17 新：HRDexDB（1.4K 人+机器手抓取+触觉）弱正向但规模小。04-22 回溯补扫 🟧 中-强累积：Touch Dreaming (2604.13015, CMU+UT Arlington+Bosch, 04-14) — 首个"触觉+latent 预测方法论化"级别信号，latent tactile > raw tactile +30%，5 contact-rich 任务 +90.9%。B8 累积第 8 条（TacVLA / MoDE-VLA / OmniVTA / Vision-Torque / DECO / TaSA / TouchAnything / HRDexDB / + Touch Dreaming）且为方法论级——若下次扫描触觉+latent 再出 1 条 → B8 70→75% 累积更新规则触发。Seeing Through Touch (2604.11579, KAIST, 04-13) 触觉→视觉材质定位（perception 而非 policy）弱间接。致命实验"连续 3 月 VLA+tactile 占比 <5%"继续追踪
B9	小模型/边缘推理可行	75% ↑	04-15	6 条独立边缘推理信号累积触发上调。04-17 反方弱信号：小红书社区共识——VLA 论文"推理频率"=frequency×action_chunk_size 虚标（帖 14），实际 latency 需打 0.05~0.1 折扣还原。04-26 累积第 7 条：PokéVLA (2604.20834, 04-21 段, 04-26 回溯发现) 1.22B params LIBERO 98.2% / Long suite 95.2%（CoT-VLA 69 / WorldVLA 54）= 参数预算结构性新低 + Long suite gap 显著；LIBERO 接近饱和需打折，单条不达 +5% 门槛维持 75%；下次 75→80% 触发条件需"真机长时程 + ≤1.5B + 击败 SOTA"组合

逆共识（赌注）：

C1：架构创新会回归 (35% ↑⚠️) — 致命实验到期未触发+5%。DIAL/DFM-VLA 架构贡献不可被数据解释。距升格阈值(40%)仅差5pp。04-17 反方弹药：π0.7 "架构上没啥特别，功夫在数据工程"——PI 产业级反对 C1；但逆共识保护不触发下调。04-20 / 04-27 累积：VGA + ProGAL-VLA + CorridorVLA = 显式空间约束第 1-3 条独立信号。05-04 同向第 4 条独立信号：Embodied Interpretability (2605.00321, ICML 2026 主会接收, 05-01) —— ISS (Interventional Significance Score) + NMR (Nuisance Mass Ratio) 揭露 SOTA VLA 在因果干预下系统性失败 + 4 失败模式（lexical-kinematic shortcuts / behavioral inertia / causal state tracking failures / semantic feature collapse）+ VLA 内在 trade-off（capacity compression vs perceptual abstraction）= 结构性架构瓶颈不可被纯数据工程解决；Physically Native World Models (2605.00412, 05-02) Hamiltonian-based generative WM 物理 prior 注入（架构创新弱正向第 5 条间接）。距升格阈值仅 5pp——下次假设审计正式审查 C1 升格（4 条同向独立信号 + 5pp gap，逆共识保护规则：ΔI 阈值降至正常 1/3）
C2：World Model 是死胡同 (15% ↓ 达下限) — 压倒性反面证据(Cosmos 3/NC AI WFM/GR00T N2 WAM)。下限规则：15% 不得再降，除非物理幻觉+因果保留双解决。04-22 新反证压力：跨模态 "latent 预测 > raw 预测" 规律跨视觉/动作/触觉 4 modality 4 团队独立收敛（WAV+GIRL+ViVa+Touch Dreaming）= latent WM 路线跨模态普适性。04-24~27 累积：Cortex 2.0 工业 deployment + RoboWM-Bench + Hi-WM (5th 团队) + UniT WM-UniT (6th)。05-04 累积：Being-H0.7 (2605.00078) 第 6 latent-WM 团队 cross-modality + cross-embodiment + ego-video + MotuBrain (2604.27792) 第 7 latent-WAM 团队 + 第 2 industrial-led（unified WAM 同时做 5 distributions = WM 路线最强工业级背书之一）+ WM Survey (2605.00080) WM 已成 well-defined sub-field（survey 数 ≥3）+ Physically Native WM (2605.00412) Hamiltonian 物理 prior 注入。C2 反证压力持续累积但已在 15% 下限
C3：VLA 不需要语言 (24%) — 纯视觉-动作路线有上升信号(VLM4VLA backbone无关性)。04-17 反方弹药：π0.7 "听得到语言并据此行动——甚至违反训练数据视觉偏差"——语言 grounding 作为核心能力被 PI 强化。04-20 新弱正向：VGA (2604.12908) 主张 3D 几何 backbone > VLM/video 语义——距升格阈值 40% 还差 16pp。04-27 paper-scan 中性偏负：UniT (2604.19734) 强调 "physical language" 作为 unified token 但不直接是自然语言，间接弱化语言中心地位；但同时强调 unified physical token 而非 vision-only → 对 C3 不直接支持，维持 24%

风险标记：

B5 有 PI 锚定风险——去掉 PI 系列后 FM 独立收敛信号只剩 3 条。且 FM adoption 全量统计缺失（Moritz Reuss 博客无比例数据）
B3 闭环实证来源风险部分解除——PLD(CMU, ICLR 2026) 是第二个独立团队验证残差RL+蒸馏闭环。但 B2+B3 双高置信度(90% raw)需 03-29 优先审查
✅ B2 保守偏误修正完成：04-01 执行下调 raw 90→85%/cal 81→77%（27/30 天无下调证据，5+ 条反方弹药）。下次审查周期重置
⚠️ 系统级保守偏误（05-07）：B0 (20d) ✅ / B1 (3d) ✅ / B2 (3d) ✅ / B3 (3d) ✅ / B4 (13d) ✅ / B5 (37d) 🔴 持续超阈值，13 条反相变信号累积（Hydra-DP3 频域分析决定性数学证据加入）/ B6 (63d) 🔴 接近 67d 校准上限反思阈值 / B7 (8d) ✅ / B8 (51d) 🔴 B5/B6/B8 持续超阈值。下次触发条件：B5 反相变升格审查（13 条已累积，距临界 15 仅 2 条）/ B6 端到端 humanoid 全身控制论文 / B8 触觉+latent 第 9 条独立方法论信号 / B9 (22d) ✅。下次假设审计 ~~05-11~~13 触发
🆕 04-17 新弹药：π0.7 发布改变 B0（+5%）；Latent-WM planner 累积接近 B4 +5% 触发线（WAV+GIRL+ViVa 一周 3 条）；Prompt-level self-evolution 4 条集中出现（SpaceMind/EEAgent/KITE/FIDeL）= B3 叙事稀释风险
🆕 04-15 已记：Action Images（视频生成即策略，无独立 action head）= B7 反方第 2 条；JailWAM 84.2% 攻击成功率 = B3 安全约束累积
✅ 预测 #6 (04-15) 已确认：CALVIN/LIBERO 新 SOTA 频率↓——校准 +5% 待执行
❌ 预测 #8 (04-15) 未触发：触觉⚡论文未出现——校准 +5% 待执行（B8 学术端衰退结构性确认）；B8 致命实验已重新定义：连续 3 月 VLA+tactile 占比 <5% → 下调至 60%
🆕 新预测 (04-17)：#9 π0.7 第三方独立复现能否达"match specialist"（到期 2026-05-17，剩 21 天）；#10 HF/LeRobot/清华/MIT 任一公布 π0.7 微调结果；#11 ✅ 关闭 (Cortex 2.0 04-24 触发 B4 +5%)；#12 ✅ 关闭 (B1 77→72% v3.5.0 04-26 执行)
🆕 新预测 (04-24~04-26)：#15 Cortex 2.0 第三方独立复现达 SOTA（到期 2026-08-22，剩 ~3.5 月）；#16 下季度 1-2 条 latent-WM 工业级跟进 → B4 75→80%（到期 2026-07-31，剩 ~3 月，Being-H0.7 学术变体不计；MotuBrain ShengShu industrial 边界判定 5 月中假设审计 P0 决定）；#17 Hi-WM 范式 6 月内 Tier-1 复现 → B2 反方升格审查（到期 2026-10-25，LWD 部分提前满足——同方向"大规模 RL post-training 可工程化"实证）
🆕 新预测 (05-04)：#22 LWD-style fleet RL 复现追踪——3 个月内非 Berkeley 团队复现 LWD-style fleet RL（≥10 robots, ≥80% long-horizon），到期 2026-08-04，否则触发 B2 回撤审查（v3 校准纪律执行：反方累积"决定性"判断需要更高 prior + ForecastBench/EvolveCast"过度更新风险"实证警示）
🆕 新预测 (05-06 paper-scan v3.6.2)：#23 VLA-TTC 第三方独立信号 —— 3 个月内非 Wenhao Li / Xiu Su cluster (VLA-ATTC + Sentinel-VLA 同作者) 至少 1 篇独立 VLA Test-Time Compute 论文，到期 2026-08-06；未触发后果：TTC 视为单团队孤立信号，不升格为新 Phase 候选；触发后果：TTC 成为 Phase 6 立项候选启动新 Phase 立项流程
✅ 依赖链 05-04 隐患解除：B4(75) < B1(77) ✅；B3(77) ≤ min(B1, B2) = min(77, 82) = 77 ✅ 等号保持；B1(77) ≤ B0(77) ✅ 等号保持。若后续 B4 75→80% 触发（#16 工业级跟进 / MotuBrain industrial 边界确认），需同时复审 B1 77% 是否需重新校准
B4 定义扩展待办：行业"VLA+WM 混合"中的 WM 多指 learned dynamics model，非 full generative WM——概念需区分

5. 收敛地图（Phase Transitions）

Phase 1: Action Head → Flow Matching 【80% 完成】 ↓

13/15 独立信号 + 13 反相变（05-06 +Hydra-DP3 频域分析决定性数学证据，距反相变达成临界 15 阈值仅 2 条）
判断：FM 仍领先但"唯一标准"叙事被多范式并存严重削弱，接近"反相变"
反相变信号（13 条累积）：FAST + AR-VLA(ETH) + ICLR 2026 Discrete Diffusion 4篇并发 + HybridVLA(AR+Diffusion 统一) + A2A FM 单步推理 + DFM-VLA(discrete FM > continuous FM) + Action Images(2604.06168, 视频生成即策略，无 action head) + HiST-AT(双层 VQ Hierarchical Spatiotemporal Tokenizer, 04-16) + R3D(3D policy 优选 Diffusion decoder 非 FM, 04-16) + VGA(2604.12908, vision-geometry backbone 替代 VLM/video 语义, 04-14 回溯) + 🔺 Hydra-DP3 (2605.01581, UCB, 05-02) 频域分析 + 2-step DDIM 充分性证明 + <1% prior 3D DP params 真机 SOTA = 反相变第 13 条决定性数学证据（前 12 条多为工程实证 + LIBERO 数字）
OFP 单步 flow 100× 加速——FM 推理速度优势进一步扩大
双周数据：flow_matching 0.89x（唯一 momentum stable），diffusion 0.70x，产出持平各24篇

Phase 2: 训练范式 → RL 后训练【80% 完成】 ↑ 🔴严重超临界 1.47×

22/15 独立信号（05-06 +OGPO + FAN + EnergyFlow RL 工程化双周三连，5 篇 14 天累积含 LWD + LaST-R1）
RL finetuning 加速比 14d 1.77x → 7d 0.52x（momentum declining 但仍 dominant）
rl_finetuning 对 instruction_tuning 形成 13:1 压倒性优势
05-06 paper-scan v3.6.2 累积：OGPO (2605.03065, 05-04) off-policy generative + modified PPO + critic-as-terminal-reward 唯一从 BC 烂初始化 finetune 到接近 task success / FAN (2605.01663, 05-03) Flow-Anchored Q-Learning 单次 flow iteration + 单 Gaussian SOTA / EnergyFlow (2605.00623, 05-01) IRL via energy function gradient = denoising field 无 adversarial 训练即可提取 reward。B2 反方升格压力进一步加固但 v3 校准避免连续上调维持 82%

Phase 3: 触觉 → 标准化【42% 完成】 ↑ 🟡达临界

12.5-13/10 独立信号（+Tactile-VLA/VLA-Touch/Robotiq TSF-85 + Touch Dreaming 04-14 方法论级）
MoDE-VLA(03-14) 证明"触觉不可替代"(力觉去除-11%，触觉去除-8%)
TacVLA(03-17) 证明"触觉可优雅集成"(gating 机制 +60%/2.1× 遮挡鲁棒性)
OmniVTA (03-25⚡)：视触融合世界模型——触觉作为 WM 输入模态而非独立任务，可能是触觉方向存活路线
Vision-Torque Fusion (04-10)：自适应视觉-力矩融合 contact gating +14%，与 TacVLA gating 同方向弱累积
04-14 累积：DECO（双臂触觉 Diffusion）+ TaSA（触觉衰减）= 弱正向，不改变 B8
04-22 回溯方法论级信号：Touch Dreaming (CMU+UT Arlington+Bosch) latent tactile dreaming 首次系统化证明对 raw tactile 的 +30% 优越性，人形+触觉+latent 预测三元组方法论闭环首次形成，学术端 tactile 0.26x 结构性衰退趋势被部分反驳
但学术端 tactile 加速比 0.26x（结构性衰退），被 dexterous_hand(0.62x) 以 4:1 碾压。预测 #8 到期未触发（04-15）

Phase 4: World Model → 闭环实用化【65% 完成】 ↑ 🔴严重超临界 3.25×（BG 口径 3.33× 历史新高）

39/12 独立信号（05-25 paper-scan v3.6.17 雷达校正口径; BG 口径 40/12 = 3.33× 历史新高）——增量 05-21→05-25: +RAW-Dream (2605.12334) task-agnostic WM-for-RL（Phase 2×4 交叉「WM 里做 RL」又一实证, B4 75% deadlock 阻塞不达 +5%; EvoScene-VLA 2605.21862 明确不计 Phase 4——decoder-内 recurrent scene prefix ≠ 生成式 WM, 沿用雷达归类纪律）; 前序增量 05-14→05-21: +ALAM latent transition / +Pelican-Unified UFG / +MoLA (2605.12167) imagined-future video↔latent action 桥接; GuidedVLA 经 05-21 雷达重归类为 B7/C1 (action-decoder attention head) 非 WM 信号已剔除（升格 P0: Phase 计数器主题归类纪律 + "近期速度 flow"伴随指标——现计数器为单调 stock 无法捕捉 biweekly world_model accel 0.69 衰退）; Arbiter 判定: WM 收敛真实但性质已变（学术前沿 → 工业基础设施降维, 同 tactile 成熟）, "3.25×"不应误读为"WM 是热门研究方向"（恰相反）; 05-06 起点 28/12（05-06 paper-scan v3.6.2 +RoboAlign-R1 第 6 sub-route，从 27/12）；前序累积：05-04 +Being-H0.7 + MotuBrain + WM-UniT 04-21 XPENG industrial-academic + Cortex 2.0 04-22 工业级 latent-WM planner + RoboWM-Bench 04-21 video WM benchmark + Hi-WM 04-23 in-WM post-training substrate + Curiosity-Critic 04-20 + GNWM 04-19 + WAV 04-16 + Touch Dreaming 04-14 + VLA-World for AD 04-10 + ExoActor 04-29 + LaST-R1 04-30 latent reasoning
B4 6 sub-routes（05-06 convergence-radar v3.6.3 路线分化扩至 6）：[1] inference-time planner (Cortex 2.0 / MotuBrain industrial-led) 🔴 与 [4] 矛盾 / [2] data-engine (GigaWorld-0 / NC AI WFM) / [3] co-training-objective (GR00T N2 WAM) / [4] distillable-residual (PFD / Being-H0.7) 🔴 与 [1] 矛盾 / [5] policy-evaluator (dWorldEval, 04-27) / [6] 🆕 reward-aligned WM (RoboAlign-R1, 05-05) cross-Phase 4×2 —— 与既有 5 路线正交，是 RL 后训练 enabler 而非 inference-time 部署架构。
Latent-WM planner 路线工业化跨越（04-24 关键里程碑）：Cortex 2.0 (Sereact, 2604.20246, 04-22) = 第 4 个独立 latent-WM planner 团队 + 首个工业级背书——visual latent space WM + Process-Reward Operator + flow-based heads，单/双臂 4 任务全面超越 SOTA VLA baselines；预测 #11 严格口径触发 → B4 70→75% 已执行。04-25 Hi-WM 第 5 团队 / 04-27 UniT WM-UniT 第 6 应用变体。05-04 累积：Being-H0.7 (2605.00078, Beihang+PKU 系, 04-30) = 第 6 latent-WM 团队 cross-modality + cross-embodiment + ego-video，与 PFD (04-28) 同 sub-route "WM-as-distillable / future-informed-but-no-inference-rollout"——B4 内部 sub-4 第 2 篇 = PFD 不再孤立，路线开始有累积；future-informed dual-branch 训练（deployable prior branch 推理用 + training-only posterior branch 用 future observations 做 latent 对齐），推理时丢掉 posterior，零 visual rollout。MotuBrain (2604.27792, ShengShu Tech + Tsinghua, 04-29) = 第 7 latent-WAM 团队 + 第 2 条 industrial-led（Cortex 2.0 后），三流 MoT 统一架构 + 5 distributions inference (VLA / WM / video / inverse / joint) + WorldArena EWM 63.77 + RoboTwin 2.0 96.0（唯一 randomized >95），强候选触发预测 #16 (B4 75→80%) —— industrial 边界判定（"unified WAM"路线 vs "latent-WM as planner"路线）需 5 月中假设审计 P0 人工 judgment。RoboWM-Bench (04-21) = video WM 物理可执行性 benchmark，B4 内部 video vs latent 路线分化进一步明朗
AD 跨域子赛道（04-22 新标记）：VLA-World for AD (2604.09059, SJTU+Huawei, 04-10 submission) + 长城坦克 700 Coffee Pilot 4.0 车规量产 (04-20 上市) = research + product 双轨共振，时间 gap 10 天；Li Auto/Tesla FSD/XPeng/长城 = 4 家车企 VLA+WM 路线同构
PlayWorld：自主探索→WM→RL 闭环，+65% 真机成功率
WM 方法论持续分化：pixel WM → latent WM (CoWVLA) → structured planner (StructVLA) → WAM
新信号 (03-25)：Cosmos 3（首个统一 WFM，NVIDIA 核心产品化）+ NC AI WFM（latent action 直接生成，25% GPU 成本达 80% 性能）
Fast-WAM (03-19)：质疑 WM 是否需要测试时未来想象——WM 研究从"有没有用"转向"怎么用更高效"
π0.7 (04-16)：5B 主体 + 14B BAGEL WM——PI 亲自用 WM 组件支持架构
关键障碍：接触密集任务的物理幻觉
⚠️ PI RLT 弱化 WM-as-RL-replacement 叙事但 WM-as-data-factory 加强

Phase 5: 跨具身泛化【45% 完成】 ↑ 🟡超临界

17/12 独立信号（05-06 paper-scan +MolmoAct2 OpenFAST 跨 5 embodiments + BifrostUMI humanoid UMI 扩展 + Bridging Embodiment Gap，从 14/12）
RDT2 展示零样本跨具身迁移可能性
IAIL (Science Robotics)：意图空间对齐替代动作对齐，7 台异构真机——新的跨本体迁移范式
MolmoAct2 OpenFAST (2605.02881, AI2, 05-04)：首个 frontier-class 完全开源 cross-embodiment data + recipe——OpenFAST tokenizer 跨 5 embodiments 训练 millions of trajectories；MolmoAct2-BimanualYAM 720h teleoperated bimanual = 迄今最大开源 bimanual 数据集；与 PI π0.7 共同构成 "data + recipe > 架构" 双 frontier 实验室同向背书
方法碎片化仍严重，但工业部署推动标准化

Phase 5 候选 (Async Execution): 27% — 4/15 雏形（05-06 +Latent Bridge dual-rate）

DiscreteRTC + Libra-VLA + XPU-VLA + 🆕 Latent Bridge (2605.02739, Duke, 05-04) dual-rate VLM/action 50-75% VLM call 减少 1.65-1.73× 加速跨 GR00T-N1.6 + π0.5 验证

🆕 Phase 6 候选 (Test-Time Compute for VLA): 7% — 1/15 萌芽（05-06 立项）

VLA-ATTC (2605.01194, Wenhao Li / Xiu Su 系, 05-02) Adaptive TTC "Cognitive clutch" + RAC pairwise 替代 absolute Q + LIBERO-LONG -50% 失败率 vs π0.5
Sentinel-VLA (2605.01191, 同作者 cluster, 05-02) Metacognitive sentinel + on-demand reasoning + SECL self-evolving + OC-Adapter (Orthogonal Continual Adapter) 防遗忘 + 真机 vs PI0 +30%
同作者 cluster → 严格独立信号仅 1/15；新预测 #23 立项（3 月内非该 cluster 第三方 VLA-TTC 论文，到期 2026-08-06）= 升格触发条件
B3 三分类 hybrid 路径第 1 条：OC-Adapter weight-level 防遗忘机制介于 prompt-loop (B3b) 与 weight-loop (B3a) 之间 → B3 三分类议程数据点

约束松弛分析：#1 约束 = 真机数据采集成本（几乎不可松弛，只能绕过：WM/互联网视频/Sim2Real）

收敛交叉检测：

Phase 2×4（RL in imagination）：最危险交叉——World Model 生成合成 rollout 做 RL，成功则颠覆真机数据需求。ViVa(04-11) 是新变体：video generation 做 value estimation 而非 rollout generation
Phase 3×2（触觉奖励 for 精细 RL）：被低估——触觉信号可作为精细操作的天然稠密奖励
时间套利窗口（04-22 周报全线更新）：
- #1 WM 作为数据工厂（~1-2月加速关闭，Cosmos 3 / NC AI WFM / GR00T N2 WAM 产业标准化加速）
- #2 VLM-as-Universal-Reward（~9月，早期）
- #3 ⬛ ~~仿真规模化 > 真实数据~~（04-06 正式关闭——已成产业共识）
- #4 触觉×RL 交叉 → 重定义为触觉×latent prediction 交叉（Touch Dreaming 证明 latent tactile 预测 > raw，替代 touch×RL 路线；6-9月，早期）
- #5 工业数据飞轮（缩小至 8-12月，ABB/FANUC/YASKAWA/KUKA 整合 NVIDIA 栈）
- #6 Latent 预测方法论（04-22 立项，~2-3月 收窄）——跨视觉/动作/触觉 4 modality 4 团队独立收敛"latent 预测 > raw 预测"规律（WAV/GIRL/ViVa/Touch Dreaming）+ 04-27 UniT WM-UniT + 05-04 Being-H0.7 ego-video latent-WAM + 05-04 MotuBrain industrial-led unified WAM + 05-04 LaST-R1 latent reasoning = 跨模态 + cross-embodiment + ego-video + industrial-led 8+ 团队累积；产业封装节点临近；率先把 latent 预测做成 modality-agnostic 工具库的团队获先发优势
- 🆕 #9 立项 (05-06 convergence-radar)：Dual-system VLA Inference Acceleration（~3-6月）——Latent Bridge (Duke 05-04) + Hydra-DP3 (UCB 05-02) + Sentinel-VLA on-demand reasoning (05-02) + LiteVLA-H aerial dual-rate (05-04) = 4 条独立信号；共同模式 = 边缘部署 + 推理加速 + 跨方法路径收敛（feature delta / 频域 / 元认知 / dual-rate aerial）；新 VLA 架构默认应有"VLM call rate ≪ action rate"机制；率先把"adaptive inference frequency"做成开源标准库的团队获先发优势
- 🆕 #10 立项 (05-06 convergence-radar)：Frontier-class Open Data + Recipe 替代生态（~6-12月）——MolmoAct2 OpenFAST + 720h bimanual 完全开源 vs PI π0.7 闭源 = AI2 提供首个 "open frontier-tier alternative-to-PI" 完整 release；中国阵营（智元 / XPENG / ShengShu）industrial-led 学术化但纯开源 frontier-tier data engineering 仅 AI2 一家；6 月内是否有 ≥2 个独立实验室复现 OpenFAST 路线（HuggingFace LeRobot 系？）→ 决定 #10 窗口是否扩展为产业级
新增跨Phase监测：Phase 3×5（触觉跨具身）、Phase 2×6（RL+灵巧操作）
新潜在套利（观察中）：
- RL→Distillation→Deploy 流水线（VLA-OPD 提示，训练一次 + 蒸馏部署多次 = 成本摊销，窗口 ~8-12月）
- WM+RL 框架标准化（4 个框架竞争中，率先整合端到端方案获先发优势，窗口 ~3-6月）
- 单步推理商业化（Mean-Flow + FODMP + A2A FM 三条路线，窗口 ~4-6月）

6. 触觉专题

6.1 为什么不可替代

视觉给坐标，语言给意图，触觉给接触相位的真反馈
三联仪表盘：力(抓稳没)、形(局部几何)、质(软硬粗糙)
视觉先天缺陷：遮挡 + 不可观测物理量(摩擦/应力) + 接触事件太快

6.2 技术栈四层

硬件：e-skin(电阻/电容/压电) vs 光学触觉(GelSight/DIGIT)
表示：异构信号→统一空间(UV map/手坐标系锚定)
融合：高层(触觉→语言→VLM) or 低层(FiLM/cross-attention 注入 policy)
仿真：接触动力学建模复杂，Sim2Real gap 大，是 scaling 瓶颈

6.3 前沿工作

MoDE-VLA (03-14)：残差力觉注入，量化消融——力觉去除-11%，触觉去除-8%，证明触觉不可替代
TacVLA (03-17)：contact-aware gating 机制，选择性激活触觉 token，拆卸+20%/盒内取物+60%/遮挡鲁棒2.1×
Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14)⚡：Humanoid Transformer + latent tactile dreaming 辅助任务（同时预测 action chunks + 未来关节力 + 未来 tactile latents）——latent tactile 预测 > raw tactile 预测 +30%，5 contact-rich 任务平均 +90.9%；首个方法论级触觉+latent 信号
TaF-VLA：触觉力对齐
TacMamba：快慢双通路触觉压缩
TacRefineNet：纯触觉抓取精炼
GenForce：触觉力迁移
SuperTac/DOVE：仿生多模态电子皮肤
UniVTAC：统一视触觉仿真平台

7. 部署与工程

7.1 边缘部署策略

量化：INT8/INT4（QVLA 专门做 action-centric 量化）
蒸馏：Shallow-π 从大 Flow VLA 蒸馏到小模型
Thin Client：本地轻量推理 + 云端重模型（延迟 vs 成本 trade-off）
小模型趋势：<3B 参数占领边缘（B9 置信度 70% ↑）
GigaBrain-0-Small：840 GFLOPs, 0.13s 推理, 80% 成功率——小模型实用性重要验证
AutoQVLA (ICLR 2026)：自动量化 VLA，30% VRAM 节省
RoboECC：边缘云协同，1274→362ms 延迟
Realtime-VLA V2 (03-30)：真机 VLA 达人类操作速度，0.2mm 精度 PCB 插件，3-4× 快于 demo。关键发现：感知管线延迟（camera 33ms + exposure 55ms + proprioception 50ms + motion lag 150ms ≈ 288ms）是真实瓶颈，非 action decoding——印证推理加速价值有限的判断
Fast-FoundationStereo (CVPR 2026)：零样本双目深度实时化（蒸馏+blockwise NAS+structured pruning），证明 foundation perception 不必牺牲实时性

7.2 数据采集方案

遥操作：GELLO/ALOHA（双臂镜像）、数据手套+振触反馈、VR 控制
互联网视频：VITRA 从 Ego4D/Epic 等自动解析 1.2M 人手操作 episodes (26M 帧) → VLA 预训练
仿真生成：RoboGene 用 agentic 方式多样化生成仿真数据
真机 RL：带安全约束的在线探索（最危险但最有效）
合成数据引擎：World Model 生成 → 过滤 → 训练闭环
自重置飞轮：RoboClaw EAP(前向+逆恢复配对)，人工投入-54%
核心矛盾：1 小时遥操作 = 数百元，且无法覆盖长尾场景

7.3 仿真环境

Isaac Sim/Lab (NVIDIA)：GPU 并行物理 + RTX 渲染，大规模 RL 首选
MuJoCo (DeepMind)：软接触精度高 + 速度快，精细操作仿真
SAPIEN/ManiSkill (UCSD)：零件级交互，灵巧操作
PyBullet：轻量入门
Gazebo：ROS 集成

7.4 Sim-to-Real

Domain Randomization：视觉/动力学参数随机化
Domain Adaptation：对抗训练对齐仿真/真实分布
System Identification：用真实数据校准仿真器参数
加速比 0.28x（结构性衰退）— 学术界在逃"硬件依赖"

7.5 评估体系

指标：Success Rate (SR)、Mean Steps to Success、Intervention Rate、Executable Rate
基准：CALVIN (5 步链式)、LIBERO (已饱和 99.2%，ICLR 2026 确认)、SIMPLER (sim↔real 相关性，70-80% SOTA)、ManiSkill、RoboChallenge
ICLR 2026 基准校准：LIBERO 不再是有效信号源（95-98% 区间无区分度）。以后评估论文时 LIBERO 高分需打折。SIMPLER 和真实零样本才是有效基准。
统计纪律：Wilson 区间置信度、EMA checkpoint 选择、A/B 测试协议
产业 KPI（学术不追踪但更重要）：任务成功率、吞吐量、干预率、连续运行时长、部署成本

7.6 RL 训练基础设施（RLinf 视角）

关键6点：控制频率对齐(10-30Hz vs 125-500Hz)、评估协议固定、KL-to-base 必备、奖励防欺骗、失败当一等数据、先跑通数据面再谈算法
最稳路径：BC warmstart → 仿真 RL 大规模改进 → 真机小步安全迭代
训练三层：策略学习(BC/RL loss) → 表示对齐(CLIP/InfoNCE) → 安全约束(barrier/jerk)

8. 产业格局

8.1 三大流派

全栈整合派（Tesla/Figure）：模型+数据+硬件+制造一步打通
垂直突破派（DYNA/Amazon）：单场景极强→再泛化
生态平台派（NVIDIA/Google/Meta）：工具链+标准化接口建生态

8.2 关键玩家

Physical Intelligence (PI)：π0 系列，Flow Matching 先驱，Robot API 平台化
Figure：Helix 02 全身自主，$2.6B 估值
Tesla Optimus：全栈+数据飞轮。Gen 3 新手部(22-DoF, 50执行器)；Terafab 量产线 03-21 启动
NVIDIA：GR00T N1.7 商业部署（LG/NEURA 采纳）+ N2 预告（"新环境 2x+ 成功率"）+ Isaac Lab + Cosmos — 做机器人的 CUDA（生态锁定 52% 置信度）
ACE Robotics (商汤旗下)：Kairos 3.0-4B 开源实时生成式 WM，72x>Cosmos 2.5，跨 embodiment（Agilex PIPER/Unitree G1/Galaxy G1）
1X (1X Technologies)：World Model 路线，EVE/NEO（GTC 2026 展示视频学习新 WM 能力）
Amazon：收购 Fauna Robotics（儿童尺寸社交人形机器人初创，03-24）——巨头入场信号
中国阵营：智元(Agibot)/宇树(Unitree, 2026前两月出货5500+, R1 Air $4,900 大众市场基准)/灵初(LimX)/银河通用(Galaxea)/智在无界(Boundless)/XGSynBot(Z1人形发布)/ROBOTERA(100亿RMB估值, 03-23)

8.3 产业信号（2026-03，含 GTC 2026）

产业融资超 50 亿美元（AI²/Apptronik/Spirit 等）
Agility×Toyota 签产线部署协议
NVIDIA GTC 2026 (03/16-19) 密集信号：GR00T N1.7 商业部署 + N2 预告、Kairos 3.0 开源、UR AI Trainer、多家人形机器人展示（IntBot/Techman/Noble Machines Moby3）
UR AI Trainer × Scale AI：首个工业级 VLA 数据飞轮产品（力反馈 + 直接扭矩控制 + 结构化训练数据）
Noble Machines Moby3：18 月隐身→商业收入，已部署至财富 500 强客户
北京亦庄人形机器人半马 04-19 正式开赛，03-14/15 完成试跑（20+ 团队）
Tesla Terafab (03-21)：Optimus Gen 3 量产线启动宣言
Unitree 2026 前两月出货 5,500+，全年目标 10,000-20,000
Ubtech 签署 10,000 台产能框架协议；深圳机器人租赁价降至数百元/天
Rhoda AI 获 $4.5 亿 A 轮（03-11），基于数百万公开视频训练机器人智能平台——资本赌"视频数据+端到端"
StarVLA 开源完整 Franka 实机部署案例（03-19）
产业量产加速 vs 学术硬件逃逸：Tesla 2026年底量产、Ubtech 10,000 台、深圳租赁数百元/天 → 产业冲刺；但学术端 tactile(0.26x)/sim_to_real(0.31x)/cross_embodiment(0.26x) 全线衰退
学术与产业分道扬镳：学术刷 LIBERO 99.2%→99.5%，产业谈量产落地
工具链收敛：LeRobot 成事实标准，v0.5.0 集成 X-VLA backbone
VLA+WM 混合架构成行业共识：Li Auto(MindVLA-o1)/Tesla/XPeng 均采用（36kr 分析）
产业从"原型演示"向"量产准备+商业部署+公开场景验证"阶段加速过渡
03-24 信号密集：Unitree R1 Air $4,900（价格下探至消费级）+ Amazon 收购 Fauna Robotics（巨头布局人形）+ ROBOTERA 100 亿 RMB 估值——"高价演示→大众市场+商业化验证"加速
NVIDIA Physical AI × AV：自动驾驶是 NVIDIA Physical AI 最先跑通的主战场（标准化车体+成熟数据闭环+安全工程），GM/Uber/Mercedes 产线整合进行中；对机器人的启示：车是"标准化身体"模板，机器人 Physical AI 路径可能复刻 AV 闭环模式
04-07 商业交付信号：天久领航完成鸟巢演唱会 30+ 机器人连续表演交付（16 场 ×6 万+观众）；机器人租赁平台完成超 1 亿融资（清明/五一订单满）——"技术展示→规模化商业运营"过渡加速
04-09 融资：千寻智能 10 亿 RMB（顺为+云锋领投，估值 200 亿+，30 天累计 30 亿）；首形科技 A1 轮数亿（华空基金+京东领投，多模态具身交互+仿生面部）——资本加速具身赛道，学术顶级信号连续 5+ 天缺席，学术-产业温差持续扩大
04-14~17 信号密集：智元酷拓 04-14 上海浦东产品发布；Physical Intelligence 04-16 发布 π0.7（TechCrunch 报道）——compositional generalization via language coaching + Episode Metadata (Quality/Mistake/Speed) + Knowledge Insulation + 14B BAGEL WM，宣称匹配 specialist 模型性能；作者评价："架构上没啥特别，功夫在数据工程"+"具身智能已准备好迎接自己的 GPT3 时刻"；社区共识"数据工程 > 架构创新"由 PI 产业级背书，B0 上调 72→77%。但社区复现困境（论文 vs 实测 2-3x 衰减）是系统性阻力，需等 3-6 月独立复现数据
04-17 融资：灵初智能再融资（国投先导+京西瑞瓴领投），继 20 亿天使/Pre-A 后再融资——具身/VLA 大模型赛道资本热度持续
04-18 产业基建：逐际动力 FluxVLA Engine 开源（标准化 VLA 工程底座，OpenVLA/π0/π0.5 等模型可插拔，DINOv2/SigLIP/PaliGemma/Qwen-VL backbone 可替换）——B6 分层第 9 条 + B1 "工程门槛下降"累积。Tesla Optimus 上海超级工厂量产线确认（2026 年底 10 万台/年目标）
04-19 产业密集披露 5 条：(1) 宇树 H1/R1 2026 中国人形机器人生态大会 + 拳击对战动态控制演示；(2) 智元 2025 营收 >10.5 亿元 + 核心 BU 独立融资（产业资本热度持续）；(3) 优必选 Walker S2 签约 Terra Robotics → 部署德国 ROSSMANN 物流（中国人形机器人首条海外商用物流首秀）——B1 远期飞轮"产业专有数据"路线信号；(4) 领益智造北京具身智能超级工厂天工 Ultra/3.0 首批下线，2026 年 1 万台产能；(5) Faraday Future 4500 万美元融资 + 34 台交付（疑 EV 非 humanoid，存疑不计入）
04-20 社交情报补齐（04-18 融资密集披露 4 条）：(1) 它石智航 Pre-A 轮 > 30 亿元 RMB（~4.55 亿美元）——创中国具身智能单轮融资纪录；(2) 极佳视界 B1 轮近 15 亿元 RMB（具身/人形生态企业）；(3) DeepSeek 寻求首轮融资 / 估值 > 100 亿美元 / 拟募 ≥ 3 亿美元——LLM 巨头首次具身侧重投，双线研发成本；(4) Faraday Future 4500 万美元（已归入 04-19 存疑）。2026 中国人形机器人生态大会（04-17~19，智元/宇树/优必选/小米/荣耀）。判断：资本加速押注"规模化前夜"；DeepSeek 跨界是 LLM→具身一体化的早期结构性信号；学术 - 产业温差继续扩大（顶级实验室连续 16 天 arxiv 缺席）。对 B1 远期飞轮"产业资本 / 规模化前夜"累积；对 B0/C1 弱间接观察（新玩家密度→下一轮架构/数据策略分化可能提前）
04-18~20 趋势：连续 3 天低信号窗口 + 顶级实验室 arxiv 信号连续 15 天缺席（04-0604-20, PI/Figure/NVIDIA/Berkeley/MIT/Google Gemini Robotics/DeepMind/Tesla/Apptronik/1X/Amazon）——ICLR 2027 ddl 前静默期 / 产品化闭门期双重成因；历史规律（ICLR 2026 ddl 前持续 1218 天）预计 04-23~04-28 间 arxiv 投稿可能恢复
04-21 社交情报 3 条纪录级信号：(1) 荣耀「闪电」机器人 04-19 北京亦庄半马人形组冠军 50:26——超越人类半马世界纪录（57:20），包揽前三名；硬件 + 动态控制性能里程碑（对研究侧无直接影响；弱间接支持 B6 分层架构的工程成熟度）；(2) DeepSeek 首轮融资 04-18 启动，估值 > 680 亿元 RMB（相对 04-20 披露的 "> 100 亿美元" 细化确认）；(3) 银河通用单轮 25 亿元国资入场——具身智能赛道 12 个月累计融资 373 亿元，国资首次大规模入场；B1 远期飞轮"产业专有数据"路线累积第 9+ 条
04-22 社交情报 3 条：(1) 长城汽车坦克 700 04-20 上市搭载 Coffee Pilot 4.0——行业首款应用 VLA 大模型 + 世界模型的硬派越野 SUV（CoT 推理面板展示决策逻辑）= VLA 车规级首次量产落地；对 B0/B1/B4 弱间接正向（VLA+WM 混合架构从 Li Auto/Tesla/XPeng 扩展到越野 SUV 品类，已成车规级行业共识）；(2) 自变量机器人近 20 亿元 B 轮融资（小米 / 红杉中国领投），坚持全自研端到端 VLA 基座模型 WALL-A（与微调开源路线分化）= B1 远期"全自研"路线单点信号；(3) 晶华新材披露与多家灵巧手 / 具身智能企业深度合作，部分客户小批量量产= 灵巧手供应链信号，Phase 6 基础设施弱正向
产业规模化"密集披露期"：连续 6+ 天（04-16~04-22）产能/交付/融资/海外部署/性能里程碑/车规级量产信号——"工程/产能 > 研究" 2026-Q2 阶段性成立；全部为交付/融资/产能/车规落地，仍然没有一条触及 VLA 核心研究问题（架构/训练/闭环/数据策略）；本阶段信念网络的研究侧更新几乎停滞；具身智能 12 个月累计融资 373 亿元刷新产业资本热度历史纪录
论文 vs 复现鸿沟系统性确认 (04-17)：LeRobot 官方承认 pi0 成功率仅 30%；Lingbot-VLA 个人 20% vs 官方复测 55% vs paper 更高；小红书社区共识"论文 vs 实测 2-3x 衰减"。评估未来 VLA benchmark 数据需统一打 0.4-0.5x 折扣还原真实部署水平
04-22 paper-scan 回溯补扫（2604.09-17 段）产业侧关联：VLA-World for AD (SJTU+Huawei 04-10) + 长城坦克 700 Coffee Pilot 4.0 车规量产（04-20 上市，行业首款 VLA+WM 硬派 SUV）= research+product 双轨共振 gap 仅 10 天；Li Auto MindVLA-o1 / Tesla Neural World Simulator / XPeng / 长城 4 家车企 VLA+WM 路线同构；Phase 4 正式新增 AD 跨域扩散子赛道标记
04-23~04-24 双日静默 → 04-25 一日产业三连弹爆发：(1) 特斯拉 Optimus 第三代量产时间表（Q1 财报电话会 04-23）：年中亮相 / 7-8 月弗里蒙特工厂量产 / 2026 下半年交付企业客户 / 04-24 报道扩展至 2027 年外部场景应用；(2) 智元景灵 G2 进入南昌龙旗科技 3C 精密制造产线 7×24h（04-23）——具身智能首次大规模进入消费电子核心制造环节（不是 demo / 不是仓储 / 不是简单上下料 — 是 3C 精密制造场景）；(3) 自变量机器人完成近 20 亿元 B 轮（小米 / 红杉中国领投，04-23）——国内唯一获美团/阿里/字节/小米四大互联网巨头投资的具身智能公司；(4) 宇树轮足双模高动态动作演示（04-23）。判断：B1 强正向产业兑现累积第 11+ 条；C1 弱正向（WALL-B 后续报道继续推动"非 VLA 架构"叙事）；产业兑现密集化 + 顶级实验室 arxiv 24 天缺席 = 学术-产业温差进入"新均衡态"假设逐步从临时反相 → 结构性现象
04-26 资本侧弱信号（三连）：(1) 特斯拉 Optimus V3 时间表 04-24 复述延伸至 2027 外部场景；(2) 盛视科技涨停（04-24）：完成 NAO 机器人资产收购，国海证券「增持」+ 招商证券「强烈推荐」；(3) 华勤技术港股上市（04-24）：AI 服务器/机器人业务布局，股价大幅上涨。判断：资本侧二级股票"具身智能"标签泛化扩散到二级市场，与 VLA 研究信念节点关系弱；标记为产业全面景气信号，避免把二级股票交易行为升格为研究判断证据
顶级实验室 arxiv 缺席延续至 24 天（04-06~04-30 区间）——比历史 ICLR ddl 前静默期上限多 1 天，预计 5 月中下旬 ICLR 2027 ddl 后显著反弹
04-27 小鹏汽车量产时间表（04-25 北京车展宣布，04-27 复述）：何小鹏宣布人形机器人 2026 年底量产 / 2027 全年销售 / 明年门店 10% 销售人员由机器人担任 / 预测行业增速超 NEV——工业兑现累积第 12 条独立信号；新场景维度：to-C 零售 / 经销渠道首次进入工业兑现栈（区别于 Tesla 工厂 / 智元 3C 制造 / 长城整车装配的 to-B 制造场景）；CEO 车展承诺历史回测严重打折（小鹏 PX5 等过往机器人 PR 多次未见显著产品落地），明年 04-27 节点回测"门店 10% 销售人员"达成度作为可证伪性测试。2026 H2 → 2027 H1 时间窗共振：与 Tesla 7-8 月量产 + #15 Cortex 2.0 8 月复现节点 + #16 下季度工业级 latent-WM + 特斯拉 Optimus 2027 外部场景形成连续兑现节奏
顶级实验室 arxiv 缺席延续至 25 天（04-06~05-01 区间）——再破历史 ICLR ddl 前静默期上限 +2 天；若 5 月底 ICLR 2027 ddl 后仍持续静默 → 触发"新均衡态"假设结构性重估
04-28 增量整合 04-27 paper-scan v3.5.3 industrial-academic 信号：UniT (2604.19734, 04-21, XPENG Robotics + Tsinghua + HKU) = XPENG 进入"unified latent action token + cross-embodiment WM"赛道——industrial-led 用 human 视频替代机器人数据的产业级背书第 5 条（继 LIDEA / EgoVLA / SIM1 / co-training，首个 industrial-led 案例）；与 PI π0.7 "数据工程" 路线 + Cortex 2.0 "工业级 latent-WM" 路线形成中-美产业实力分布对照。顶级实验室 arxiv 缺席延续至 26 天（04-06~05-02 区间）——再破历史 ICLR ddl 前静默期上限 +3 天
05-04 中国产学研连续输出（04-29~05-04 段）：(1) HY-Embodied 0.5 (腾讯, 04-29) —— 在 04-13 HY-Embodied-0.5 发布之上的迭代信号；中国产业飞轮再添一条；(2) Magic-Mix WAM (魔法原子, 04-29) —— B4 / B1 弱 pro 累积；(3) MotuBrain (ShengShu Technology + Tsinghua, 04-29) —— ShengShu 是中国领先多模态 AI 公司（UniDiffuser 出自他们），industrial-led 比 UniT (XPENG industrial-academic) 更明确的工业含量，强候选触发预测 #16；(4) Being-H0.7 (Beihang + PKU 系 BeingBeyond Team, 04-30) —— BeingBeyond 系列旗舰 WAM（继 Being-H0 / Being-H0.5 cross-embodiment generalization），commercial trajectory 是关键观察点；(5) OpenWorldLib (北大 DCAI + 快手 Kling + 上海算法 + 中关村学院, 05-01) —— 统一世界模型推理框架，显式统一 VLA 控制接口；中国产学研协作信号（北大学术 + 快手产业 + 政府研究院）；(6) 高瓴 80 亿美元募资 / 天工 Omni 预告 / Meta 收购 ARI (05-01~04) = 产业资本 / 整合层信号，不直接影响信念图。与"顶级海外实验室连续 33 天 arxiv 缺席（04-06~05-04）"形成强对照 —— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 完整缺席，Jianlan Luo 资深作者 LWD (Berkeley 系) 部分破局（但 PI / Figure 严格缺席持续刷新历史 ICLR ddl 静默期上限）
05-05 社交情报追溯 05-03 两条产业信号（🟡 单条社交级 retroactive，需独立验证）：(1) Meta 5月3日开源 Llama 3 机器人专用模型（声称支持视动联合推理 / 降低人形机器人运动控制 + 环境感知开发门槛）—— 如属实属"通用大模型正式向具身控制层渗透"重大事件，对 B0 / B1 / C1 三节点皆有影响（C1 升格压力可能再 +1 条独立信号至第 5 条），但单条未验证社交信号不触发置信度变更；待下次 paper-scan 通过 arxiv / Meta FAIR 官方博客 / HuggingFace 仓库二次确认；(2) 美国国防部 / NVIDIA / SpaceX 540 亿美元 AI 合同（无人集群控制 + 目标生成）—— 军用机器人系统"算法主导"转变；与 VLA 研究信念图节点关系弱（除 B1 远期产业资本累积外无直接信号）。顶级实验室 arxiv 缺席延续至 34 天（04-06~05-05）—— 再破上限 +1 天；如 Meta Llama-3-Robot 属实则缺席框架需结构性修正
05-06 极低信号日：当日 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-05 daily-digest，社交情报最新仍为 2026-05-05.md）；零新输入信号 = 连续 2 天信号衰减（05-04 强 → 05-05 弱社交 → 05-06 零）= ICLR 2027 ddl 前静默期 + 五一假期效应共同作用。顶级实验室 arxiv 缺席延续至 35 天（04-06~05-06）—— 再破上限 +2 天，史上最长持续刷新；PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续，Berkeley 系 LWD 部分破局后无延续。Meta Llama-3-Robot 仍待验证（05-05 retro-claim 至 05-06 无新信号确认/反驳，下次 paper-scan 关键验证窗口）。2026 H2 时间窗共振距 8 月初剩约 90 天：Tesla 7-8 月 V3 量产 + #15 Cortex 2.0 8 月复现 + #16 7-31 截止 + #22 8-04 截止 = 8 月将是 2026 年最关键的产业兑现验证月
🔺 05-06 paper-scan v3.6.2 + convergence-radar v3.6.3 (双报告补整合)：05-06 早间 06:15 / 07:19 生成的两份关键报告在 05-06 22:30 vla-expert-memory-update 任务运行后才被发现 → 05-07 任务一并补整合。强信号窗口 6 强 + 10 中：(a) "VLA 工程化部署叙事拐点"候选 paradigm shift——MolmoAct2 + Latent Bridge + Hydra-DP3 + RL 工程化双周三连 OGPO/FAN/EnergyFlow 跨 Phase 1/2/4/5/B3/B6/B7/B9 多节点同步弯曲；论文目标从"刷 LIBERO SOTA"明显倾斜向 deployment-readiness/efficiency；35-40% prior（Bull / Bear / Arbiter 三视角辩论完整记录于 reports/cross-domain/2026-05-06-convergence-radar.md）；(b) Frontier "data + recipe > 架构" 双 lab 同向背书 —— PI π0.7（西海岸闭源）+ AI2 MolmoAct2（开源）= 两个独立 frontier 实验室同向收敛；(c) TTC 入侵 VLA —— VLA-ATTC + Sentinel-VLA 同 cluster Phase 6 候选 1/15 萌芽 + 新预测 #23 立项；(d) B4 路线分化扩至 6 sub-routes（+RoboAlign-R1 reward-aligned WM 第 6 路线 cross-Phase 4×2）；(e) B3 三分类 hybrid 路径第 1 条（Sentinel-VLA OC-Adapter 介于 prompt-loop 与 weight-loop 之间）；(f) 新窗口 #9 / #10 立项（dual-system VLA 推理加速 ~3-6 月 / frontier open data + recipe 替代生态 ~~6-12 月）；(g) 顶级实验室 arxiv 缺席延续至 35 天 → 36 天（04-06~~05-07 史上最长破上限 +14 天）—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续，AI2 / Berkeley / Duke / UCB 部分破局后无延续。关键检验点（按时间顺序）：2026 5 月底 ICLR 2027 ddl / 05-17 #9 π0.7 第三方复现截止 / 6 月 PI π0.8 / Figure Helix 03 / NVIDIA GR00T N2 任一发布 = paradigm shift 假设最强检验点 / 7-31 #16 latent-WM 工业级跟进 / 8-04 #22 LWD 复现 / 8-06 #23 VLA-TTC 第三方信号 / 8-22 #15 Cortex 2.0 第三方复现
05-07 当日零新数据：daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-06 paper-scan，社交情报最新仍为 2026-05-06.md），延续 05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 零的 3 日衰减序列；ICLR 2027 ddl（5 月底）前静默期 + 五一假期效应叠加，下周可能恢复。禁止把"信号衰减"误读为"领域降温" —— 系统应保持监测纪律对 9 项议程（5 P0 + 3 P1 + 1 P2，含新增 paradigm shift 假设 6 月观察期立项最高优先级）的追踪
05-08 当日零新数据（第 2 个真零新数据日）：daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-07 daily-digest，社交情报最新仍为 2026-05-06.md），延续 4 日信号衰减序列（05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 中信号 paper-scanner gap → 05-08 零）。顶级实验室 arxiv 缺席延续至 37 天（04-06~05-08）—— 再破上限 +15 天，史上最长持续刷新；PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR 严格缺席持续，AI2 / Berkeley / Duke / UCB / HIT / RUC 阵营无一线"frontier"延续。B6 距 67d 校准上限反思阈值仅 3 天（05-11 触发）；#9 π0.7 第三方复现 distance 进入临界 < 10 天窗口（剩 9 天）；6-30 智元方法论级 VLA 论文 ddl 距今剩约 7 周（#19）；8 月 = 2026 最关键产业兑现验证月（6+ 预测窗口集中：#15/#16/#22/#23 全部 8 月初/中收口 + Tesla V3 量产时间线）距 8 月初剩约 86 天。Meta Llama-3-Robot epistemic 拖延已至 5 天（05-05 retro-claim 至 05-08 仍无 arxiv / Meta FAIR 官方博客 / HuggingFace 仓库二次确认）
🔴 05-04 LWD 破局信号：LWD (2605.00416, Yi Wang + Jianlan Luo et al., Berkeley 系, 05-01) "Learning while Deploying: Fleet-Scale RL for Generalist Robot Policies" —— 16 dual-arm 机器人 fleet + 8 真实任务（含 semantic grocery restocking + 3-5min long-horizon）+ 单一 generalist policy 平均 95% 成功率（long-horizon gain 最大）；DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) 专门为 flow-based VLA action generators 稳定 sparse-reward fleet RL；闭环：deployment → autonomous rollouts + human interventions → policy improvement → redeployment。这是自 04-17 Jupiter Zhai "real-world RL 物料被干烂" + "大规模 VLA 的 RL 做不了"社区共识下调以来，第一篇决定性反驳；触发 B1+B2+B3 三节点同步 +5%。Berkeley 系（Jianlan Luo HIL-SERL 系资深作者）出场使顶级实验室 arxiv 缺席部分破局，但 PI / Figure / NVIDIA Research / DeepMind / Tesla 严格缺席持续

9. 领域当前状态（截至 2026-05-28）

9.1 核心判断

🟢 05-28 当日快照（v2.0.28，连续 4 个低/零信号日 ×4 / 0 置信度变更 / 系统级保守偏误警报 active 32d）：05-28 daily-digest（v3.6.23）= 零新数据日（arxiv 24h 0 新 VLA-relevant，2605.23~28 段未被索引延续 lag 3-5d 规律第 4 次确认；GesVLA 2605.22812 已 05-25 处理；Health-Conditioned VLA (2605.16056, ~05-15) niche 故障容错应用 health vector 关节降级补偿 = 判 Δ0 不触及 BG 节点，但此 ID 此前未出现 changelog，移交 05-30 paper-scan 2605.16 段穷举核对是否漏记；IVLR 2605.00438 旧论文；社交情报/小红书 05-28 文件均不存在，05-27 文件亦不存在）。§4 计数器全体 +1d 至 05-28：B0 41d ✅ / B1 32d 软 ✅ / B2 软 24d / 严 57d 🔴 / B3 32d 软 ✅ / B4 34d ✅ / B5 58d 🔴 / B6 84d 🆘（已破 67d 反思阈值 +17d）/ B7 严 74d / 软 29d / B8 72d 🔴 / B9 43d ✅。5 节点超阈值不变（B5 / B6 / B7-严 / B8 / B2-严）。系统级保守偏误警报持续 active 32d（上次任一信念下降 = 04-26 B1/B3 ↓ via v3.5.0 假设审计；05-26 fire）—— 05-25 hypothesis-review 已完成 B5/B6/B8 三视角对抗性裁定：表观"只升不降 over-update drift"与节点级"该降未降"是同一 calibration ceiling deadlock 两面，无任一节点存在真实"应下调"证据；本日零新数据复核确认结论仍成立 → 维持 0 变更纪律。顶级实验室 arxiv 缺席延长至 56 天（04-0605-28 史上最长 +1d，PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon/Meta FAIR；GTC 产品新闻 GR00T N1.7/N2 + Cosmos 3.0 是产品非 arxiv 不破缺席）。预测窗口倒计时：#9 已关闭；#16 数量已满足触发受阻；#22 剩 68d；#23 剩 70d；#24/#25 剩 78d；#26 剩 170d；#27 距 06-05 剩 8 天 < 2 周关键监测期（顶级实验室 56d 缺席本窗口无 rebound = 反方持续累积，最后 ~8 天关键监测）。致命实验 16/16 设有截止 0 条 7 天内到期（最早组 B0/B4/B5 均 2026-12 距 ~6 月）。🟡 数据一致性观察延续：BG §1 表 B1=72%/B2=77%/B3=72%（04-26 值）vs §4 计数器 + 本记忆 §4 B1=77%/B2=82%/B3=77%（LWD 05-04 值）差 5pp，源头 = LWD 05-04 +15pp 未传播至 §1 表或 05-15 self-reflection #3 追溯审查待人工裁决，daily-digest 不擅自解决仅标记。BELIEF_GRAPH.md v3.6.22 → v3.6.23, 0 置信度变更, §4 计数器 +1d / §4 末警报注记追加 05-28 复核 / changelog 记录。议程积压 ≥11 P0, calibration ceiling deadlock + 人工裁决 0 落地循环仍 v3 框架级最高优先未解。
🟢 05-26→05-27 当日快照（v2.0.27，连续 2 个零新数据日 / 0 置信度变更 / 系统级保守偏误警报 05-26 fire）：05-26 daily-digest（v3.6.19）= 零新数据日（arxiv 24h 0 新 VLA-relevant，2605.23~26 段未索引延续 lag 3-5d 规律，GesVLA/AVP 已 05-25 处理；社交情报/小红书 05-26 文件均不存在；web 浮现 Robotics Summit “ROS vs proprietary physical AI” + Figure 02 BMW Spartanburg 11 月部署里程碑 ~30000 X3/~90000 部件/~1250h = 部署/产能信号非 arxiv 非研究证据，不入 BG）。05-27 三类报告全缺席。🔴 05-26 系统级保守偏误警报正式 fire（上次下降 04-26 距今 30 天，CLAUDE.md §4.3 #4）——05-25 hypothesis-review 已履行“强制重审”裁定无应下调节点 → 维持 0 变更，不制造假变更。§4 计数器 +1d 至 05-27（B6 83d🆘 / B5 57d / B7严73d / B8 71d / B2严56d 五节点超阈值不变）；顶级实验室 arxiv 缺席 55 天；#27 剩 9 天唯一近期到期项；既存 §1表 vs §4 B1/B2/B3 差 5pp 数据一致性观察留待 hypothesis-review，不擅自改值。
🟡 05-25 当日快照（v2.0.26，双报告日 daily-digest v3.6.16 + paper-scan v3.6.17 / 0 置信度变更 / 系统级"只升不降"警报临界）：daily-digest 24h 窗口 GesVLA (2605.22812, ~05-21) gesture-aware dual-VLM + gesture 数据生成管线 = 弱 B0 / 中性 C3（保留语言 ADD gesture ≠ 移除语言）/ 弱 B6 + HiF-VLA (2512.09928 = 2025-12 旧论文, 05-22 开源+CVPR 2026 再浮现) motion 双向时序 LIBERO-Long 96.4% → 按旧论文处理不触发节点（arxiv ID 核查防"开源 ≠ 新论文"误计）; paper-scan 段穷举补扫 24h 窗口漏过 4 篇: RAW-Dream (2605.12334, ~05-12) task-agnostic WM-for-RL（task-free WM + 现成 VLM reward + dual-noise verification）= Phase 2×4 交叉实证 + Phase 4 计数器 39→40/12 BG = 3.33× 历史新高（雷达 38→39/12 = 3.25×）, B4 75% deadlock 阻塞 / AVP (2605.22183, ~05-22) VLM 发射 visual-primitive token 接口解耦指令/空间/运动 = B7 中正向 / PointACT (2605.21414) multi-scale point-action expert dual-system 3D = B7/B6 弱 + EvoScene-VLA (2605.21862) recurrent scene prefix（RoboTwin +2pp, 明确不计 Phase 4 归类纪律）= B7 弱; 流程更正: Hand-in-the-Loop (2605.15157) 撤销 05-21 永久 dismiss（WebSearch 独立返回区别于 DexHiL 2603.09121 = bimanual dexterous human-in-the-loop intervention, SOP false-negative 校准点, 归 B2/B3 belief 0; SOP 应增 un-dismiss 复评条款）+ 2 篇 1-strike pending（Pre-VLA 2605.22446 / Understanding Multimodal Failure 2605.22493, 不计节点不记方法细节）; 段穷举 SOP 第 17 次发现漏过（2605.12 段第 3 次, 单段连续三次漏过 = 段穷举不可靠最强印证）+ 2605.18~22 段索引延迟假设第 2 次确认（lag 3-5d 稳定, 2605.2324 仍未索引下次 05-28 补扫）; 社交情报 4 条全产业/narrative 0 触及 VLA 核心: Tesla 关 Fremont 经典车型产线转人形（非 arxiv 不破缺席）/ 脉塔智能 5000万 Pre-A/A / 智平方 AI²《VLA 过时吗?2026 回应》 VLA 重定义为 WM+类脑开放框架 narrative 防御（加固 C2 15% 下限反证但已不动）/ 福赛科技 2000万人形专项基金。🔴 系统级元信号: 上次任一信念"降低"= 04-26（B1/B3 ↓）距今 29d, 距 CLAUDE.md §4.3 触发 #4「连续 30 天未降低任何信念置信度 → 保守偏误警报」仅剩 1 天（05-26 正式触发）; 05-04 后全 ↑ = "只升不降 over-update drift" 警报临界, 与节点级 B5/B6/B7/B8 "该降未降"方向相反并存 = 校准 deadlock 双面成本, 列下次假设审计元层最高优先。保守偏误状态（05-25，全体 +4d vs 05-21）：B0 (38d) ✅ / B1 (29d) ✅ / B2 (软 21d / 严 54d 🔴) / B3 (29d) ✅ / C3 (8d) ✅ / B4 (31d) ✅ / B5 (55d) 🔴 / B6 (81d) 🆘 已破 67d 反思阈值 +14d / B7 (软 26d / 严 71d ⚠️) / B8 (69d) 🔴 / B9 (40d) ✅。5 节点超阈值不变（B5/B6/B7-严/B8/B2-严）。预测窗口倒计时：#9 已关闭；#16 数量已满足触发受阻；#19 剩 36d；#22 剩 71d；#23 剩 73d；#24/#25 剩 81d；#26 剩 173d；#27 距 06-05 剩 11 天 < 2 周关键监测期（本窗口无 rebound: GesVLA 学术 / HiF-VLA 旧学术 / Tesla 非 arxiv = 反方持续累积）。顶级实验室 arxiv 严格缺席 53 天（04-0605-25 史上最长 +4d, 本批零顶级实验室）。BELIEF_GRAPH.md v3.6.14 → v3.6.16（daily-digest）→ v3.6.17（paper-scan）, 0 置信度变更, §4 计数器 daily-digest 已 +4d / paper-scan 不递增。议程积压 ≥10 P0 + 雷达 2 项, calibration ceiling deadlock（B0/B4/B6/B7）最高优先未解。**⚠️ GitHub 累积未 push v2.0.21v2.0.26**（本 session bash mount 同步尝试 push + PowerShell fallback）。
🟡 05-21 当日快照（v2.0.25，三报告日 paper-scan v3.6.12 → daily-digest v3.6.13 → convergence-radar v3.6.14 / 0 置信度变更）：paper-scan 捕获 3 篇 confirmed VLA-relevant 论文（仅基于摘要，web_fetch 429）：MoLA (2605.12167, Fudan/Surrey/Imperial, ~05-12) mixture of latent actions——从 imagined future video 经 mixture of pretrained inverse dynamics models 推断 latent action, 解决 video realism↔control relevance 错配 = B4 latent-WM↔video-WM 桥接独立信号 + Phase 4 反相变计数器 38→39/12 = 3.25× 历史新高（C2 15% floor 加固; B4 +5% 受 calibration ceiling deadlock 阻塞）/ WarmPrior (2605.13959, ~05-13) 用 recent action history 构建 temporal prior 替代 Gaussian source → 更直 probability path（类 Rectified Flow OT coupling）+ prior-space RL exploration reshaping = B5 弱正向（FM 框架内 refinement, 不计 Phase 1 反相变 14-15/15）+ B2 弱正向 / DeMiAn (2605.17077, ~05-16/17) dense multi-aspect 语言标注（physical motion/scene composition/arm pose/reasoning 四维 VLM 重标注）在 1M+ manipulation clips + 50K EgoVerse 上不采新数据同时提升 VLA policy + video-WAM = B0 强正向单实证（"语言密度作为数据侧杠杆从固定语料榨取更多信号" = 数据工程>架构, 受 B0 77% 校准上限 deadlock 阻塞）+ C3 弱反方/作用域加固（manipulation 域语言仍有价值 → 正面验证 05-17 C3 +5% 的 AD-only 作用域注; manipulation/humanoid 推广未验证）+ B1 弱正向; 段穷举 SOP 第 16 次发现漏过（MoLA + WarmPrior 落在 05-14/05-15 声称穷举段内仍漏过, 2605.12 段第 2 次）; 2605.16~18 段索引延迟假设确认成立（05-18 判定空洞 + 预测 lag 3-5d, 本次 +3d DeMiAn 2605.17077 已被索引 = 预测命中正面校准记录）; AT-VLA + Hand-in-the-Loop (2605.15157) 二次 cross-ref 失败 → 永久 dismiss（按 RotVLA 2605.13403 SOP; Hand-in-the-Loop 持续映射 DexHiL 2603.09121）; calibration ceiling deadlock 现横跨 4 节点 B0/B4/B6/B7（DeMiAn 新增 B0 首条显式实证压力 → framework 级系统性 deadlock 非单节点, 强烈建议下次假设审计优先）; convergence-radar v3.6.14: Phase 4 主题归类校正——GuidedVLA 重归类 B7/C1 非 WM 信号 → 雷达校正口径 38/12 = 3.17×（BG 口径 39/12 = 3.25×）; 工业级 latent-WAM 收敛 = 本周最强趋势（Cortex 2.0/MotuBrain/Pelican-Unified 三独立工业团队 + XPENG X-World + MoLA 桥接）, 预测 #16 数量 3/1-2 超额但 B4 +5% 受 deadlock 阻塞 = framework problem; Arbiter 判定 WM 收敛真实但性质已变（学术前沿 → 工业基础设施降维, 同 tactile）, "3.25×"不应误读为"WM 是热门研究方向"（恰相反）; 雷达新增 2 P0（Phase 计数器主题归类纪律 + "近期速度 flow"伴随指标）; 宏观工程收敛（biweekly）: language_grounding 1.57 / world_model 0.69 衰退 / diffusion_policy 0.42 衰退 = "FM+RL 后训练+语言直接锚定"黄金三角; 社交情报 05-19/05-20: Figure 03 77h 无人干预分拣 + Faraday Future $25M + 萝博派对天使+轮（顺为/小米）+ 矩阵超智 MATRIX-3（33+27DoF, Q3 量产）+ 远征A3 RaaS + 云深处 IPO 受理（继宇树第 2 家 A 股人形）= 6 条全产品/融资/IPO/RaaS, 0 触及 VLA 核心研究, 仅间接弱化 B0 已饱和方向; 系统级元信号: 上次任一信念"降低"= 04-26 距今 25d（< 30d 警报线但临近 5d）, 05-04 后全 ↑ = "只升不降"漂移, 与节点级"该降未降"保守偏误方向相反并存 → 下次假设审计元层审视。保守偏误状态（05-21，+3d vs 05-18）：B0 (34d) ✅ / B1 (25d) ✅ / B2 (软 17d / 严 50d 🔴) / B3 (25d) ✅ / C3 (4d) ✅ / B4 (27d) ✅ / B5 (51d) 🔴 / B6 (77d) 🆘 已破 67d 反思阈值 +10d / B7 (软 22d / 严 67d ⚠️ 本日跨 67d 校准上限反思线) / B8 (65d) 🔴 / B9 (36d) ✅。预测窗口倒计时：#9 已关闭；#16 数量条件已满足但触发受阻；#19 剩 40d；#22 剩 75d；#23 剩 77d；#24/#25 剩 85d；#26 剩 177d；#27 距 06-05 剩 15 天 < 3 周关键监测期（无 rebound 信号；若 06-05 前无 rebound → "学术-产业新均衡态"元假设 +5% 时间证据）。顶级实验室 arxiv 严格缺席 49 天（04-0605-21 史上最长 +3d, 本批 3 篇零顶级实验室 = 中国/英国高校系 Fudan/Surrey/Imperial/Tsinghua）。议程积压 ≥10 P0 + 雷达新增 2 项, calibration ceiling deadlock 最高优先未解。⚠️ GitHub 累积未 push 5 版本（v2.0.21v2.0.25）—— 本 session bash mount 同步, 尝试 bash push + PowerShell fallback 备用。
🟧 05-18 当日快照（v2.0.24，双报告日 / 段穷举 SOP 第 15 次发现漏过 5 篇 / 0 置信度变更但结构性议程压力显著）：当日 两份报告 生成 — (1) 凌晨 daily-digest = 零新数据日 (24h 0 新 VLA-relevant arxiv + vla-social-intel/2026-05-18.md 不存在 + xhs 2026-05-18 不存在 + 产业新闻 JAL/Haneda + Agility-Toyota + Figure Helix-02 均非 VLA 架构信号或已往日处理); BELIEF_GRAPH.md v3.6.9 → v3.6.10; (2) paper-scan = 段编号穷举 SOP 第 15 次回溯发现 5 篇漏过的 VLA-relevant 论文: ALAM (2605.10819, 05-11) algebraic latent action + composition/reversal regularization + joint FM (MetaWorld MT50 +37.1pp baseline 弱 reservation + additivity errors -25-85×) = C1 弱-中正向第 8 条 / SEVO (2605.11114, 05-11) semantic-enhanced virtual observation + ablation 直接验证 "data > architecture" (ACT 95→85% novel env) = B0 弱正向 / GuidedVLA (2605.12369, 05-12) plug-and-play action attention head specialization (object/spatial/temporal 三 head 监督) = B7 中正向 + C1 弱正向第 9 条 / 🟠 Pelican-Unified 1.0 (2605.15153, X-Humanoid, 05-14) unified VLM + UFG joint future video + 未来动作 denoising + WorldArena #1 + RoboTwin #2 = 工业级 latent-WAM 第 3 条独立信号 (Cortex 2.0 / MotuBrain / Pelican-Unified) 正式满足预测 #16 数量条件 3/1-2 超额, 但触发条件受 B4 75% 校准上限 deadlock 阻塞 → 升格至 P0 议程 + 同时审议 calibration ceiling rule 三档方案 / Hand-in-the-Loop (2605.15157) dexterous VLA seamless interventional correction (论文细节 cross-ref 3 次失败 1-strike pending dismiss); 附 AT-VLA "Adaptive Tactile Injection" 1-strike pending dismiss; Phase 4 (WM 闭环) 反相变计数器 35/12 → 38/12 = 3.17× 历史新高 (+ALAM latent transition / +GuidedVLA attention head / +Pelican-Unified UFG); C1 同向独立信号链累积至 9 条 ≥ 中-强 6 条, 距 40% 升格阈值仍 5pp 不变, 但逆共识保护 ΔI 阈值 1/3 已生效 → C1 升格审议升格至下次 hypothesis-audit P0; 置信度净变更 = 0 (所有强证据信号在 calibration ceiling deadlock + 单论文未达 ±5% 门槛下被 v3 校准纪律阻塞); 新 P0 议程项 5 项立项 (calibration ceiling framework 决议 / 预测 #16 处理 / C1 正式升格审议 / 段穷举 SOP v2 草案 / B6 unified vs hierarchical 子议题); 新 P1 议程项 5 项立项 (三篇全文 deep read + Hand-in-the-Loop / AT-VLA arxiv abs cross-ref); RotVLA 2605.13403 累计 3 次 cross-ref 失败 → 永久 dismiss (3-strikes-out 规则正式触发); BELIEF_GRAPH.md v3.6.10 → v3.6.11; 顶级实验室 arxiv 严格缺席 46 天 (04-06~05-18 +1d 跨过 45d 结构性升级线 +1d) + 本批 5 篇 confirmed 论文 零顶级实验室 (X-Humanoid + SJTU/Tsinghua/HIT 中国系大学/工业链), 学术-产业新均衡态假设证据继续累积; 议程积压 = 5 项 05-15 self-reflection P0 + 5 项本次新增 P0 = 10 项 P0, calibration ceiling deadlock 最高优先级阻塞。保守偏误状态（05-18，+1d）：B0 (31d) ✅ / B1 (22d) ✅ / B2 (软 14d / 严 47d 🔴) / B3 (22d) ✅ / C3 (1d) ✅ / B4 (24d) ✅ / B5 (48d) 🔴 / B6 (74d) 🆘 已破 67d 校准上限反思阈值 +7d / B7 (软 19d / 严 64d ⚠️) / B8 (62d) 🔴 / B9 (33d) ✅。05-15 self-reflection 6 项人工裁决 24h 落地数 = 0 累积至第 3 天（"修正零落地"模式持续）。预测窗口倒计时：#9 已关闭（05-17 上午 hypothesis-review 关闭为反方）；#19 6-30 剩 43d；#22 剩 78d；#23 剩 80d；#24/#25 剩 88d；#26 剩 180d；#27 距 06-05 剩 18 天 < 3 周关键监测期 → 05-19 起每日跟踪。⚠️ GitHub 累积未 push 4 版本（v2.0.21+v2.0.22+v2.0.23+v2.0.24）—— PowerShell 手动 push 必须包含四版合并 commit。
🟡 05-17 当日快照（v2.0.23，单弱社交信号日 / 双结构性阈值同日触发）：daily-digest / paper-scan / 小红书继续缺席（reports 目录最新仍为 05-15-daily-digest + 05-15-paper-scan）；仅社交情报 vla-social-intel/2026-05-17.md 存在 = 单条弱信号：小鹏汽车 5/15 科技日发布第二代 VLA 模型（声称"首款量产物理世界大模型" + 端到端架构视觉信号直达动作指令 + 跨汽车/Robotaxi/机器人/飞行汽车跨域 + 无需语言翻译中介），单条社交宣传级 + 缺二次独立验证 → 不触发任何节点变更（v3 校准 + 05-12 v2.0.19 新 SOP）；正确归类 B1 弱正向远期产业飞轮第 N 条（车企 VLA 产品化第 2 条，继 04-20 长城坦克 700 后）+ C3 间接弱（删除语言中介架构信号未达 C3 升格证据门槛）。🆘 结构性阈值 1 触发：顶级实验室 arxiv 严格缺席达 45 天（04-06~05-17，达 v3.5.5 立项的"≥45d 即升格结构性认识论问题"线整数关口，史上最长 +23 天）—— PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon/Meta FAIR 严格缺席持续；scheduled task 不擅自执行升格判决，仅记录阈值已达；预测 #27 距 06-05 剩 19d 缓冲区开始消耗。🆘 结构性阈值 2 触发：预测 #9（π0.7 第三方独立复现 "match specialist"）到期 = 今日 05-17——v2.0.22 §6.1 要求"05-17 当日或之后首份 daily-digest 必须主动判决并执行 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方"；本任务不擅自执行预测判决（属人工/daily-digest 议程），但记录 #9 已到期 + v2.0.21/22/23 三次 WebSearch 均零结果。保守偏误状态（05-17，+1d）：B0 (30d) ✅ / B1 (21d) ✅ / B2 (软 13d / 严 46d 🔴) / B3 (21d) ✅ / B4 (23d) ✅ / B5 (47d) 🔴 / B6 (73d) 🆘 已破 67d 校准上限反思阈值 +6d / B7 (软 18d / 严 63d ⚠️) / B8 (61d) 🔴 / B9 (32d) ✅。05-15 self-reflection 6 项人工裁决 24h 落地数 = 0 累积至第 2 天（"修正零落地"模式持续）。预测窗口倒计时：#9 = 已到期 0d（待 daily-digest 判决）；#19 6-30 剩 44d；#22 剩 79d；#23 剩 81d；#24/#25 剩 89d；#26 剩 181d；#27 距 06-05 剩 19d。⚠️ GitHub 累积未 push 3 版本（v2.0.21+v2.0.22+v2.0.23）—— PowerShell 手动 push 必须包含三版合并 commit。
🟧 05-12 v2.0.19 补充修正快照（cross-reference verification 触发的 4 项重大修正）：在 v2.0.18 发布后用户提示"再收集更多"，触发 primary-source verification 流程，发现 (1) Jim Fan WAM declaration 实际日期 04-20（Sequoia AI Ascent 第四届）非中文社交情报反复声称的 5月9日，社交 pipeline 拖延 19 天且伴随框架性夸大（实际表态"VLA architecture fundamentally misaligned"对应中文"VLA 已死"sensationalism）；(2) Jim Fan 实际方法论"pretrain world model + action FT + RL final mile" = 现有 B4 latent-WM-as-planner + B2 RL post-training 路线工业级 endorsement，非新范式；(3) v2.0.18 把 Jim Fan 定位为"C1 升格 7th aligned signal"为过度解读——撤销该定位，正确归类为 B0/B4 frontier-tier consolidation signal，C1 维持 35% 距升格阈值仍 5pp；(4) paper-scan blackout 窗口（05-08~12）期间遗漏 4 篇 arxiv 论文：EA-WM (2605.06192, 05-07, Fudan/Zhongguancun/USTC/DeepCybo) Event-Aware Generative WM + OA-WAM (2605.06481, 05-07, Tsinghua/SJTU/NTU) Object-Addressable WAM + BioProVLA-Agent (2605.07306, 05-08) biolab cross-domain + Drifting Field Policy (2605.07727, 05-08, KAIST) one-step Wasserstein gradient flow non-FM/non-diffusion；这 4 篇属于真实的 paper-level 增量。WAM cluster 已存在——arxiv 已有 DreamZero / Fast-WAM (2603.16666, March) / X-WAM (2604.26694) / "Do WAMs Generalize Better than VLAs?" (2603.22078) / Being-H0.7 / 现在 EA-WM + OA-WAM = 至少 7-9 团队跨 video-diffusion + latent + Hamiltonian 三种 backbone；Jim Fan 演讲不是引入新概念，是已有研究方向工业级 PR endorsement。Phase 计数器修正：Phase 1 反相变 14 → 15/15 临界达到（DFP 待 paper-scan 全文裁决与 FM 独立性）；Phase 4 WM 闭环 30/12 → 32/12 严重超临界 2.67×（+EA-WM +OA-WAM）；Phase 5 跨具身 17/12 → 18/12（+BioProVLA-Agent 弱）。置信度变更：净 0 —— B4 校准上限维持 75% 不动 / B0 prior 隐含 / C1 撤销 v2.0.18 隐含升格压力维持 35% / Phase 1 临界 15/15 触发 paper-scan 全文裁决议程（DFP 范式独立性判定）。新 SOP：外部宣言级信号 → 强制 web cross-ref（>2 independent sources + 日期 + literal 引述）→ 再决定 belief graph 处理（v2.0.18 footer 即首次违反此规则的教训）。下次 hypothesis audit P0 修正：移除"C1 升格正式提案"，新增"WAM 作为 B4 sub-route 1 内部 cluster 是否 split 独立追踪节点"+"Phase 1 临界 15/15 paper-scan 全文裁决 DFP 是否计第 15 条"。
🔴 05-12 当日快照（v2.0.18，5 日来首次实质性输入 → 部分信号衰减序列终结）：5 天 paper-scan 报告全空（05-08~12 reports 目录无任何 paper-scan/daily-digest 文件）但社交情报实质性恢复 → 核心信号 = Jim Fan (NVIDIA) 红杉 AI Ascent 峰会 05-09 公开宣告"VLA 范式已触顶"，转向 World Action Models (WAM) + 人类第一人称视频预训练 / 遥操作路线将被淘汰（05-11/12 社交情报二次报道确认）。这是 paradigm-shift hypothesis（35-40% prior，05-06 立项）以来 NVIDIA 一线人员首次公开表态，学术静默期内含金量最高的单点信号。按 v3 校准纪律：frontier-tier 研究员公开宣言 ≠ 论文证据，单条不触发置信度变更 → 定位为 C1 升格审查关键证据第 7 条同向独立信号，下次假设审计 P0 议程从"立项"升级为 C1 升格正式提案。🔵 Bear 反方负担：Jim Fan 言论 / 论文证据二分法 — 如 NVIDIA 6 月前无 GR00T-WAM 雏形论文，宣言权重折半；如 PI π0.8 / Figure Helix 03 在 6 月窗口发布且未转向 WAM，则 paradigm-shift hypothesis 反向衰减。WAM 与 B4 latent-WM 路线关系：WAM = "替代 VLA"而 latent-WM = "VLA 内部子路线"，定位更激进；如 WAM 概念成立则 B0/B1 高置信度叙事重大冲击。保守偏误状态（05-12，+4d from 05-08）：B0 (25d) ✅ / B1 (8d) ✅ / B2 (8d) ✅ / B3 (8d) ✅ / B4 (18d) ✅ / B5 (42d) 🔴 / B6 (68d) 🔴 已超 67d 校准上限反思阈值 +1 天 → 强制反思事件触发 / B7 (13d 软 / 58d 严) ⚠️ / B8 (56d) 🔴 / B9 (27d) ✅。B6 67d 阈值触发：v3 校准纪律强制要求下次假设审计 P0 议程从"反思"升级为"裁决"。预测窗口倒计时：#9 距 05-17 剩 5 天（π0.7 第三方复现 "match specialist"，进入紧急 <5 天窗口）；#15 距 2026-08-22 剩 ~3.4 月；#16 距 2026-07-31 剩 ~2.6 月；#17 距 2026-10-25 剩 5.4 月；#18 距 2026-10-24 剩 ~5.4 月（星动纪元-顺丰 5/8 融资是首条方向性证据）；#19 智元方法论级 VLA ddl 距 6-30 剩 ~7 周（49 天）；#22 LWD 复现追踪距 2026-08-04 剩 84 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 86 天。顶级实验室 arxiv 缺席延续至 41 天（04-0605-12 史上最长再破上限 +19 天），但 Jim Fan 红杉峰会公开表态 = 静默期内 NVIDIA Research 一线 paradigm 信号最强单点。Meta Llama-3-Robot epistemic 拖延已至 9 天（05-05 retro-claim 至 05-12 无验证），倾向 Bear "可能为社交渠道错传或产品级而非研究级"，单条社交信号 9 天仍不下结论。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 82 天（6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据）。下次假设审计 P0 议程更新（~~05-13~~14 触发）：(1) NEW Jim Fan paradigm 表态 → C1 升格正式提案；(2) B6 67d 阈值触发裁决；(3) paradigm shift hypothesis 6-month observation 进入第 2 个月评估窗口；(4) MotuBrain industrial 边界 judgment（#16）；(5) B3 三分类拆分；(6) B8 trigger 标准结构化拆分；(7) B5 反相变 13/15 vs HDFlow 边界裁决；(8) Meta Llama-3-Robot 9 日拖延升格审查。
执行层收敛：Action Head(Flow Matching 胜) + 后训练(RL 胜)
认知层发散：World Model 多路径探索（pixel→latent→structured planner→feature-extractor 四条路线）
领域处于"修 bug 阶段"：174 篇论文仅 3 篇突破性(1.7%)，无架构创新
方法论讨论热度首次超过实验室动态 — 从"谁在做"转向"怎么做"
🔴 04-06 重要转折：B0/B1 双主流信念首次同步审查（B0 下调至 80%/72%），C1 逆共识逼近升格（35%，距阈值 5%）。"数据绝对优先"叙事正式松动，"数据+架构乘数效应"成为新框架
ICLR 2026 全景：164 篇 VLA 提交(vs ICLR 2025 的 9 篇, 18× 增长)；VLM backbone 与下游 VLA 性能无相关性(VLM4VLA)；零样本差距巨大(开源 VLA << π0.5/Gemini-Robotics)；数据质量研究极少(OXE "大部分低质量数据")
GTC 2026 产业信号：GR00T N1.7→N2（研究品→商业部署）、Kairos 3.0（WM 延迟瓶颈被解决）、UR AI Trainer（数据飞轮产品化）——产业加速度明显快于学术
04-10 趋势：VLA 基础设施标准化加速（StarVLA+LeRobot 双框架），Speculative Execution 进入 VLA（SV-VLA），学术顶级信号连续 5+ 天缺席但 arXiv 产出持续
04-11 低信号日：ViVa（video generation 做 value estimation，Phase 2×4 新变体），HEX（人形 MoE VLA），Xbotics A₁（FM 推理加速-72%）。顶级实验室信号连续 7+ 天缺席
🟡 C3 累积观察：04-12 扩大扫描 11/60 篇呈 action-centric/language-free 倾向（HEX/UniLACT/ActiveGlasses/Reflection-Based VLA 等）。C3 当前 24%，如持续 2-3 周 >15% 占比则 +5%
04-13 论文扫描重要发现：HY-Embodied-0.5（腾讯开源 2B MoT + 32B，self-evolving post-training，B9 第 5 条边缘信号）；SIM1（合成数据 1:15 等价比，B1 弱下行但限定域）；SV-VLA（Speculative Verification，B6 新累积）。趋势：VLA 基础设施成熟化 + 边缘部署持续验证 + 数据合成替代收集
04-14 低信号日：VLA-Forget（unlearning/安全，B3 间接）、AEROS（模块化，B6 弱）、DECO/TaSA（触觉累积，B8 弱）。A₁ VLA 推理成本-76.6%（B9 第 6 条边缘信号）。顶级实验室信号连续 10 天缺席（可能 ICRA/RSS 投稿沉默期）
04-15 双周元审计执行：B9 上调 70→75%（6 条独立边缘推理信号触发累积更新规则）。B8 致命实验重新定义。审计发现"14 天零更新 = 结构性保守偏误"，建立累积更新规则（≥3 条同向 = 强制审查）
04-15 论文扫描批次：ProGAL-VLA（3D entity-centric graph 修复 language ignorance，B6 弱正向 + C3 弱反方）；ViVa（video-generative value model，Phase 2×4 弱累积）；Action Images（视频生成即策略，无独立 action head——B7 反方第 2 条 + C1 弱正向）；JailWAM（WAM 84.2% 攻击成功率，B3/B4 弱累积）；GIRL（latent WM + DINOv2 hallucination control）；FlashSAC（off-policy RL hours→minutes）
🆕 趋势确认：「视频生成即策略」路线成形——Action Images + ViVa + 此前 Video Generators are Robot Policies = 3+ 条独立信号挑战 action head 解耦正统。无产业跟进 = 潜在新套利窗口
⚠️ 系统级保守偏误（04-17）：B1(43d)/B6(43d)/B7(33d)/B8(31d) 🔴 四节点同时超阈值；B0 刚上调重置。B6 本批次 4 条分层正向累积使下调建议失去理由；B1 下行压力在增强（Co-training 方法论化）
04-16 🔴 HiVLA 重要发现：HKU Ping Luo 组独立到达 VLM-planner+FM-DiT-executor 分层架构，与 ProGAL-VLA/SV-VLA/HY-Embodied 形成分层架构累积第 4 条独立信号
04-17 🔺 π0.7 发布（2026 年最大单日产业信号）：PI 产业级背书"数据工程 > 架构创新"；B0 上调 72→77% 恢复父子一致性；Episode Metadata 首次把 LLM 领域"质量标签控生成"迁移到 VLA，数据标注成为下一个差异化战场
04-17 Arxiv 16 篇扫描核心发现：(1) WAV/GIRL/ViVa 一周 3 条 → latent-WM planner 路线共识，Phase 4 计数器 16/12；(2) Yuke Zhu 组 co-training 机制分析 + SIM1 = B1 隐性下行压力累积；(3) SpaceMind/EEAgent/KITE/FIDeL 4 条 prompt-level self-evolution 集中出现，B3 叙事稀释风险；(4) Goal2Skill RMBench 32.4% vs 9.8% 大 gap 验证分层架构价值
04-18 低信号日：FluxVLA Engine 社交情报（B6 第 9 条 + B1 工程门槛下降）；Tesla Optimus 上海量产线确认；UBTech Walker S2 量产交付。顶级实验室 arxiv 信号连续 14 天缺席
04-19 产业密集披露日：5 条产业信号（宇树动态控制 + 智元 10.5 亿营收 + 优必选 Walker S2 → 德国 ROSSMANN 物流（中国人形首条海外商用） + 领益 1 万台产能 + Faraday Future 存疑）——全部交付/融资/产能，无一条触及 VLA 核心研究问题；本阶段信念网络研究侧更新几乎停滞
04-20 低信号日 + VGA 回溯补录：连续 3 天 arxiv 空档（04-18/04-19/04-20）+ 顶级实验室 15 天缺席（04-06~04-20）= 学术静默期结构性确认（ICLR 2027 ddl 前）。回溯补录 VGA (2604.12908, 04-14 submission) —— vision-to-geometry backbone 替代 VLM/video 语义表示主张，C3/B7/C1 间接弱正向；扫描间隙漏过教训 → 新 SOP "2604 段空洞补扫"
04-21 增量更新（定时任务）：无新 daily-digest / paper-scan（当日尚未生成）；04-20 社交情报补齐发现 4 条 04-18 融资（它石 30 亿/极佳 15 亿/DeepSeek $10B+ 估值/FF 存疑）——对 B1 远期飞轮资本热度累积，不触发置信度变更。顶级实验室 arxiv 连续 16 天缺席（04-06~04-21）。保守偏误 +1 天：B1=47d / B6=47d / B7=37d / B8=35d 🔴；B3=28d ⚠️（距 30d 阈值仅 2 天，04-23 扫描即触发）。预测窗口倒计时：#11 剩 3 天（04-24 到期）；#12 距 4/25 剩 4 天。DeepSeek 跨界是 LLM 巨头首次具身侧重投，C1 / B0 弱间接观察（新玩家资本密度→架构/数据策略分化可能提前）
04-22 增量更新（定时任务）：无新 daily-digest / paper-scan；04-21 社交情报披露 3 条纪录级信号——荣耀闪电机器人半马人形组冠军 50:26 破人类世界纪录（57:20，包揽前三）；DeepSeek 680 亿 RMB 估值首轮融资启动（相对前值细化）；银河通用 25 亿国资首次大规模入场，具身赛道 12 个月累计融资 373 亿元。04-22 社交情报补充 3 条——长城坦克 700 Coffee Pilot 4.0 成行业首款 VLA+WM 车规量产硬派 SUV（04-20 上市）；自变量机器人 20 亿 B 轮（小米/红杉领投，全自研 WALL-A）；晶华新材灵巧手小批量量产
04-22 paper-scan 回溯补扫（2604.09-13 / 16-17 段）发现 7 篇前期漏过论文：(1) Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14) — 首个 latent tactile 预测方法论化 +30% > raw, 5 任务 +90.9%（B8 方法论级累积第 8 条）；(2) LIDEA (2604.10677, SJTU Cewu Lu+Yong-Lu Li, 04-12) — 80% 人类视频替代机器人演示（B1 绕过路径第 N+1 条 + C1 架构贡献）；(3) VLA-World for AD (2604.09059, SJTU+Huawei, 04-10) — 自动驾驶域 VLA+WM 统一架构（Phase 4 跨域扩散 AD 子域）；(4) I2RLC (2604.16850, OMRON+Waseda) — 10× 演示加速 + peg-in-hole 100%；(5) Web-Gewu (2604.17050) — Browser-based RL playground；(6) Mini-BEHAVIOR-Gran (2604.17019) — 指令粒度 U 形效应；(7) Seeing Through Touch (2604.11579, KAIST) — 触觉→视觉材质定位 perception。方法论级共识跨模态形成：WAV+GIRL+ViVa+Touch Dreaming = "latent 预测 > raw 预测"跨视觉/动作/触觉 4 modality 4 团队独立收敛 → C2 下限构成反证压力；建立新套利窗口 #6 Latent 预测方法论（~3-6 月）。扫描系统性偏差立项（5 次漏过达系统化阈值）
🔺 04-24 paper-scan 关键发现 → B4 70→75% (+5%)：Cortex 2.0 (Sereact, 2604.20246, 04-22) 工业 VLA + visual latent space WM + Process-Reward Operator + flow-based heads 四级显式分层 = 第 4 个独立 latent-WM planner 团队 + 首次跨越 academic→industrial 鸿沟；预测 #11 严格口径触发。同期 RoboWM-Bench (2604.19092, 04-21) video WM 物理可执行性 benchmark = B4 内部子路线分化明朗。04-24 paper-scan 漏过 SOP 第 2 次成功执行：累计漏过 10 次 → 4/25 议程 P0
🔺 04-25 daily-digest：(1) Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23) = latent-WM 第 5 团队（学术 4 + 工业 1）, WM-as-post-training-substrate 应用变体；(2) 2604.21192 "How VLAs (Really) Work In Open-World Environments" = BEHAVIOR1K 50 任务评估方法论首次系统化暴露 SOTA 真实差距，B1 审计弹药再加码；(3) EmbodiedMidtrain (2604.20012) VLM↔VLA 数据分布对齐 mid-training 阶段；(4) 04-23 一日产业三连弹：特斯拉 V3 量产时间表 + 智元景灵 G2 进入 3C 产线 7×24h（首次大规模 3C 精密制造）+ 自变量近 20 亿 B 轮（四大互联网巨头）。新增预测 #17 (Hi-WM 范式 6 月内 Tier-1 复现 → B2 反方升格审查, 到期 2026-10-25)
🔺 04-26 v3.5.0 假设审计执行 B1 77→72% / B3 77→72%：51 天 / 32 天保守偏误压力释放，依赖链一致性恢复（B3 ≤ min(B1,B2) = 72%）。Bull 反向论点（产业兑现 11+ 条）成立但被重新解释为"产业飞轮 ≠ 学术研究核心壁垒"。预测 #12 ✅ 关闭。B3 定义切分议题 "权重闭环" vs "prompt/memory 闭环" 仍待人工 reflection 事件触发——本审计仅做置信度调整。依赖链新隐患：B4 (75%) > B1 (72%) 3pp，若 B4 75→80% 触发（#16）需同时复审 B1 校准
04-26 daily-digest（v3.5.1, 紧随当日 v3.5.0 之后增量扫描）：低信号日。2604.20-21 段补扫 SOP 第 4 次执行单独捕获 PokéVLA (2604.20834, 04-21 段) 1.22B params LIBERO 98.2% / Long suite 95.2%（CoT-VLA 69 / WorldVLA 54）= B9 累积第 7 条独立信号——参数预算结构性新低，单条不达 ±5% 门槛维持 75%。04-26 资本侧弱信号（盛视 NAO 收购 + 华勤港股上市）= "具身智能"标签 hype 扩散到二级股票，与 VLA 研究信念节点关系弱。顶级实验室 arxiv 连续 24 天缺席（04-06~04-30）破历史 ICLR ddl 前静默期上限 +1 天
保守偏误状态（04-26）：B1 (0d) ✅ 重置 / B3 (0d) ✅ 重置 / B4 (2d) ✅ / B6 (52d) / B7 (42d) / B8 (40d) 🔴 三节点持续超阈值，v3.5.0 已审查并维持，标记"已审查-趋势确认未达上调阈值"——B6/B7/B8 下次 trigger 条件需对应实证：B6 端到端 humanoid 全身控制 / B7 统一 token 真机长时程击败解耦 / B8 触觉+latent 第 9 条独立方法论信号
社区复现鸿沟系统性确认：LeRobot pi0 官方 30%/Lingbot 55 vs paper 更高——未来 benchmark 数据需统一打 0.4-0.5x 折扣还原真实部署水平
预测追踪（04-26 后）：#9 π0.7 第三方复现"match specialist"（到期 05-17，剩 21 天）；#11 ✅ 关闭 (Cortex 2.0 04-24)；#12 ✅ 关闭 (B1 77→72% v3.5.0 04-26 执行)；#15 Cortex 2.0 第三方独立复现达 SOTA（到期 2026-08-22，剩 4 月）；#16 下季度 1-2 条 latent-WM 工业级跟进 → B4 75→80%（到期 2026-07-31，剩 3 月，Hi-WM 学术应用变体不计入）；#17 Hi-WM 范式 6 月内 Tier-1 复现 → B2 反方升格审查（到期 2026-10-25，剩 6 月）
2026 Q3/Q1 产业兑现密集窗口：#15 Cortex 2.0 8 月复现节点 + #16 下季度工业级 latent-WM 跟进 + 特斯拉 Optimus 2027 外部场景时间窗共振（2026 Q3 → 2027 Q1）值得密集监测
04-27 daily-digest（v3.5.2，低信号日）：arxiv 0 篇新 VLA 论文 + 社交情报 1 条复述（小鹏汽车 04-25 北京车展量产时间表）= 工业兑现累积第 12 条 + to-C 零售场景新维度首次进入工业兑现栈。无置信度变更（4 条信号皆未跨 ±5% 门槛）。保守偏误状态（04-27）：B6 (53d) / B7 (43d) / B8 (41d) 🔴 三节点持续超阈值（v3.5.0 已审查并维持）；B1 (1d) / B3 (1d) ✅ 04-26 重置后正常。顶级实验室 arxiv 缺席 25 天 = 历史最长，再破上限 +2 天。低信号日的存在本身是数据点：表明前一周 04-21~04-26 密集信号期已被系统性消化。🆕 内部回测节点：明年 04-27 检视小鹏"门店 10% 销售人员"达成度
🔺 04-27 paper-scan（v3.5.3）2604.18-25 段补扫发现 daily-digest 漏过 6 篇论文：(1) CorridorVLA (2604.21241, 04-23) 中-强信号 — sparse spatial anchors + corridor tolerance loss 约束 FM action head；跨 SmolVLA + GR00T 双 backbone 验证；LIBERO-Plus +3.4% ~ +12.4%；GR00T-Corr 83.21%。B5 / B7 弱正向 + C1 (35% ⚠️) 弱-中正向累积 = 显式空间约束第 3 条独立信号（VGA + ProGAL-VLA + CorridorVLA），距 C1 升格阈值仅 4-5pp——下次再出 1 条同向（非 PI 锚定）即触发升格审查。(2) UniT (2604.19734, 04-21, XPENG + Tsinghua + HKU industrial-academic) 中信号 — 三分支 cross-reconstruction (action↔vision↔fusion) → unified discrete latent action token + 二联应用 VLA-UniT (policy) + WM-UniT (world model)。B1 弱负向（人类视频替代第 5 条 + 首个 industrial-led 案例）/ B4 弱正向（latent-WM 应用变体第 3 条）/ B6 / B7 双向 / C3 中性偏负。(3) AEL (2604.21725, 04-23, Rutgers) 弱-中信号 — Thompson Sampling bandit + LLM 反思双时间尺度 self-evolution；B3 弱负向累积：prompt-level self-evolution 第 8+ 条。(4) EvoAgent (2604.20133, 04-22) + (5) SynAgent (2604.18557, 04-20) + (6) EUEA (2604.19839, 04-21, UNIST) 弱信号 — B6 弱正向 / B1 弱反方 / B3 弱反方累积。趋势观察：(a) 显式空间约束架构第 3 条（C1 升格压力）；(b) 人类视频替代第 5 条独立信号 + 首个 industrial-led；(c) prompt/memory 自进化第 8+ 条（B3 节点定义切分议程继续累积压力）；(d) 顶级实验室 arxiv 缺席延续至 26 天，再破上限 +3 天；(e) 扫描漏过累计 11 次系统性偏差立项 → SOP 升级建议（段编号穷举 + 关键词矩阵化）
04-28 增量更新（定时任务）：当日尚无 daily-digest / paper-scan 生成。整合 04-27 paper-scan v3.5.3 的 6 篇论文 + 新趋势观察。保守偏误 +1 天（04-28）：B0 (11d) ✅ / B1 (2d) ✅ / B2 (28d) ✅ / B3 (2d) ✅ / B4 (4d) ✅ / B5 (28d) ✅ / B6 (54d) / B7 (44d) / B8 (42d) 🔴 三节点持续超阈值（v3.5.0 已审查并维持）/ B9 (13d) ✅。预测窗口倒计时：#9 距 05-17 剩 19 天；WALL-B 5/25 软启动剩 27 天；#15 距 2026-08-22 剩 ~4 个月；#16 距 2026-07-31 剩 ~3 个月；#17 距 2026-10-25 剩 ~6 个月。Phase 4 计数器 24/12（+UniT WM-UniT 第 6 latent-WM 应用变体）。套利窗口 #6 latent 预测方法论：跨模态 5 团队（WAV/GIRL/ViVa/Touch Dreaming/UniT WM-UniT）已扩展到 cross-embodiment + industrial-academic
04-29 paper-scan v3.6.1 强信号窗口：MotuBrain (2604.27792, ShengShu Tech + Tsinghua, 04-29) = 第 7 latent-WAM 团队 + 第 2 industrial-led（unified MoT 5 distributions）+ Being-H0.7 (2605.00078, BeingBeyond, ~05-01) + LaST-R1 (2604.28192, 04-30) annotation-free RL Clip-GRPO LIBERO 99.8% + LWD (2605.00416, 05-01) 严格"权重闭环"信号（暂不执行 +5%，B3 切分议程关键证据）+ ExoActor (2604.27711, BAAI, 04-29) 视频生成即策略第 4 条 + Lucid-XR (2605.00244, 05-01) XR 数据引擎合成数据零样本迁移 + Embodied Interpretability (2605.00321, ICML 2026 主会, 05-01) illusion of embodied reasoning 4 失败模式（C1 升格压力）+ Robot Learning from Human Videos Survey (2604.27621) + WM Survey (2605.00080) + Physically Native WM (2605.00412) Hamiltonian-based + Curiosity-Critic (2604.18701) / GNWM (2604.16585) WM 训练方法论。累积压力：C1 距升格 5pp + B3 LWD 关键定据 + B4 强候选触发 #16 + Phase 4 23/12→27/12（严重超临界 2.25x）
05-05 增量更新（定时任务，🟢 低信号日）：当日无 daily-digest / paper-scan 报告生成，BELIEF_GRAPH.md 维持 v3.6.1（05-04 paper-scanner 权威状态）。唯一新数据 = 社交情报 2026-05-05.md 追溯 05-03 两条产业信号 → (a) Meta 开源 Llama 3 机器人专用模型 🟡 待验证（如属实属"通用大模型正式向具身控制层渗透"，对 B0 / B1 / C1 皆有影响；单条未验证社交信号按 v3 校准纪律不触发置信度变更）；(b) 美国国防部 / NVIDIA / SpaceX 540 亿美元 AI 合同（军用机器人，与 VLA 研究信念图关系弱）。保守偏误 +1 天：B0 (18d) / B1 (1d) / B2 (1d) / B3 (1d) / B4 (11d) / B5 (35d) 🔴 / B6 (61d) 🔴 / B7 (6d) / B8 (49d) 🔴 / B9 (20d)。顶级实验室 arxiv 缺席延续至 34 天（04-06~05-05），再破上限 +1 天，PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续。预测窗口倒计时：#9 距 05-17 剩 12 天；#15 距 2026-08-22 剩 ~3.5 月；#16 距 2026-07-31 剩 ~3 月；#17 距 2026-10-25 剩 ~~6 月；#22 LWD 复现追踪距 2026-08-04 剩 91 天。低信号日记录价值：系统性消化前一周 04-29~~05-04 高密度信号期；Meta Llama-3-Robot 待验证标记如下次扫描确实属实，则 05-05 单点社交雷达"领先一日"为系统增益（epistemic data point）
05-06 增量更新（定时任务，🟢 极低信号日 / 零新数据日）：当日 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-05 daily-digest，社交情报最新仍为 2026-05-05.md），BELIEF_GRAPH.md 维持 v3.6.1（05-04 paper-scanner 权威状态）。零新输入信号——本任务唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 35 天（再破上限 +2 天，史上最长持续刷新）+ 预测窗口倒计时。保守偏误 +1 天：B0 (19d) ✅ / B1 (2d) ✅ / B2 (2d) ✅ / B3 (2d) ✅ / B4 (12d) ✅ / B5 (36d) 🔴 / B6 (62d) 🔴 / B7 (7d) ✅ / B8 (50d) 🔴 半百整数关口 / B9 (21d) ✅。B5/B6/B8 三红节点持续，B8 50 天整数关口本身是结构性数据点（触觉学术端 momentum 0.26x 衰退共识 + arxiv 端再无第 9 条独立方法论级 latent tactile 信号）。预测窗口倒计时：#9 距 05-17 剩 11 天（π0.7 第三方复现 "match specialist"，临近）；#15 距 2026-08-22 剩 ~3.5 月；#16 距 2026-07-31 剩 ~2.8 月（MotuBrain industrial 边界 5 月中假设审计待执行）；#17 距 2026-10-25 剩 ~5.5 月；#22 LWD 复现追踪距 2026-08-04 剩 90 天整。Meta Llama-3-Robot 仍待验证（05-05 retro-claim 至 05-06 无新信号确认/反驳）。2026 H2 时间窗共振距 8 月初剩约 90 天——8 月将是 2026 年最关键的产业兑现验证月。信号衰减不等于领域降温：连续 2 天信号衰减（05-04 强 → 05-05 弱社交 → 05-06 零）= ICLR 2027 ddl 前静默期 + 五一假期效应；系统应保持监测纪律，不放松对 4 个 P0 议程（MotuBrain industrial 边界 / C1 升格审查 / B3 切分 / B8 trigger 拆分）的追踪
🔺 05-04 daily-digest v3.5.8 高信号日 → B1/B2/B3 三节点同步 +5%：LWD (2605.00416) 单篇方法论级实证触发（详见 §4 / §8）—— B1 72→77% + B2 77→82% + B3 72→77%。🔵 Bear 反方负担：本次更新对应 #22 预测 = 3 个月内非 Berkeley 团队复现 LWD-style fleet RL（≥10 robots, ≥80% long-horizon），到期 2026-08-04，否则触发 B2 回撤审查。B4 维持 75% 校准上限：Being-H0.7 第 6 latent-WM 团队 + PFD-style sub-route 第 2 篇（PFD 不再孤立）+ MotuBrain industrial-led（ShengShu Tech）强候选触发 #16，但工业边界判定需 5 月中假设审计 P0 人工 judgment。C1 累积同向第 4 条独立信号（Embodied Interpretability + Physically Native WM）距升格阈值仅 5pp—— 下次假设审计正式审查升格。Phase 4 计数器 24/12 → 26/12（paper-scan 27/12）。保守偏误状态（05-04）：B0 (17d) ✅ / B1 (0d) ✅ 重置 / B2 (0d) ✅ 重置（之前 33d 红色解除）/ B3 (0d) ✅ 重置 / B4 (10d) ✅ / B5 (34d 🟡) / B6 (60d) / B8 (48d) 🔴 持续超阈值 / B7 (5d) ✅ / B9 (19d) ✅。认识论意义：v3.5.0 (04-26) 假设审计执行 B1/B3 -5% 双下调时明确判断"反方累积达决定性强度"；不到 10 天 LWD 出现，决定性反方共识被一篇真机大规模 paper 打回去。这是 ForecastBench / EvolveCast 警示的"过度更新风险"实证——v3 校准纪律的"最小更新 ±5%" 在两个方向都适用，但反方累积的"决定性"判断需要更高的 prior。顶级实验室 arxiv 缺席延续至 33 天（04-06~05-04）——史上最长，Jianlan Luo (Berkeley 系) LWD 部分破局，PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon 严格缺席持续。预测窗口倒计时：#9 距 05-17 剩 13 天；#15 距 2026-08-22 剩 ~3.5 月；#16 距 2026-07-31 剩 ~3 月（MotuBrain 强候选触发，5 月中假设审计 P0 决定）；#17 距 2026-10-25 剩 ~6 月（LWD 部分提前满足）；#22 LWD 复现追踪距 2026-08-04 剩 3 月
05-16 增量更新（定时任务，🟢 零新数据日 / 第 4 个真零新数据日 — v2.0.22）：当日 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-15-daily-digest，vla-social-intel 最新 2026-05-15.md，xhs 最新 2026-05-15-auto.md）；BELIEF_GRAPH.md 维持 v3.6.7-self-reflection（05-15 self-reflection 权威状态）。零新输入信号 → 唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 44 天（距 45 天结构性认识论问题升级线仅剩 1 天，明日 05-17 即触发）+ 预测窗口倒计时（#9 进入 24h 紧急最终窗口）+ B8 跨过 60d 整数关口（v3.5.0 后第 2 次破整数线）。保守偏误状态（05-16，+1d）：B0 (29d) ✅ / B1 (20d) ✅ / B2 (软 12d / 严 45d 🔴) / B3 (20d) ✅ / B4 (22d) ✅ / B5 (46d) 🔴 / B6 (72d) 🆘 已破 67d 校准上限反思阈值 +5d / B7 (软 17d / 严 62d ⚠️) / B8 (60d) 🔴 整数关口 / B9 (31d) ✅。B5/B6/B7-严/B8 四节点持续超阈值——B6 calibration deadlock 仍为 v3 框架级未解问题；05-15 self-reflection 提交的 6 项人工裁决（B8 终局 / 校准死锁实际落地 / LWD 追溯 / EPISTEMICS.md / 下游 skill 修改 / Phase 计数器反向条）至今 0 项落地——"修正零落地"模式被 self-reflection v3.6.7 警告者自身继续累积一日。预测窗口倒计时：#9 距 05-17 = 1 天最终窗口（π0.7 第三方独立复现 "match specialist" — 05-15 WebSearch 专项复核仍无任何第三方实验室公开复现信号；今日 05-16 是预测到期前最后一天，无意外则 05-17 daily-digest 必须主动判决 +5% π0.7 SOTA 强韧性元假设记录 / #9 关闭为反方 / 同时启动 #27 顶级实验室 arxiv rebound 硬截止 6-05 倒计时进入"+19d 缓冲期"）；#19 智元方法论级 VLA ddl 距 6-30 剩 45 天；#22 LWD 距 2026-08-04 剩 80 天；#23 VLA-TTC 距 2026-08-06 剩 82 天；#24 / #25 距 2026-08-14 剩 90 天；#26 距 2026-11-14 剩 182 天；#27 距 2026-06-05 剩 20 天。顶级实验室 arxiv 严格缺席延续至 44 天（04-0605-16 史上最长再破上限 +22 天）—— PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon 严格缺席持续；明日 05-17 一旦缺席即触发 45d 结构性认识论问题升级线；#27 硬截止 6-05 后 19 天为最终容忍区。8 月 = 2026 年最关键产业兑现验证月距 8 月初剩约 76 天（6+ 预测窗口集中收口 + Tesla V3 量产时间线 + #18 部分前置证据）。零新数据日纪律重申（连 2 日；继 05-15 后第 2 日零新数据）：信号衰减 ≠ 领域降温（ICLR 2027 ddl 前最后一周静默期 + 投稿沉默 + 五一假期效应残余），9+ 项 P0 议程持续追踪，不放松监测；下次假设审计 / paper-scan rebound 候选时点 = 05-1705-19（ICLR 2027 ddl 5 月底前的最后一波集中投稿前 arxiv 节奏）。bash sandbox 挂载视图持续失步（与 05-15 同模式）：bash 看到的源文件 = 旧版 892 行 / mirror = 旧版 868 行（截断到 §14 末），与 Edit/Read 工具看到的真实 v2.0.21 (899 行) 严重失步——本次仍走 PowerShell 手动 push fallback。05-15 v2.0.21 commit 至今未 push 到 origin/main（git log 最新仍为 01617b8 = 05-14 v2.0.20）；本次 push 必须包含 v2.0.21 + v2.0.22 两个版本的 catch-up commit。
05-15 增量更新（定时任务，🟢 零新数据日）：当日 paper-scan / 社交情报缺席（小红书 2026-05-15-auto-skipped 会话未登录跳过，距上次成功采集 05-04 已 11 天），运行 daily-digest（24h 增量看门）+ self-reflection（双周元审计 v3.6.7）双报告；BELIEF_GRAPH.md → v3.6.7-self-reflection。self-reflection 核心发现：05-04 反思声称"直接执行"的 6 项修正中 5 项零落地（B8 未下调 / 校准中间档未引入 / §15 纪律 6 条未写入 / 预测 #23-25 未注册 / B8 致命实验未操作化，仅 FAILURE_REGISTRY.md 创建落地）；铁证 = BELIEF_GRAPH §6 无任何 05-04 self-reflection changelog 条目 → 对该文件 Edit 次数 = 0；真问题不是任何单个偏误，而是反思层与执行层断裂 —— 04-15 议程被 05-04 反思"重新立项"，05-04 修正被 05-14 假设审计"重新发现"，每轮重新生产上一轮已做的工作。本审计直接执行：(1) 重新注册丢失的预测 #27 —— 顶级实验室 arxiv rebound 硬截止 2026-06-05（ICLR 2027 ddl 后 7 天 PI/Figure/NVIDIA Research/DeepMind/Tesla/Apptronik/1X/Amazon 仍严格缺席 → "学术-产业新均衡态"假设结构性重估，不得再以"下周可能恢复"无限延后；系 05-04 丢失的 #24 复活换号避免与 05-14 #24 撞号）；(2) FAILURE_REGISTRY §5 新增"修正零落地"元层失败行；(3) BELIEF_GRAPH §6 changelog + header 版本行更新。提交 6 项人工裁决：B8 终局裁决（兑现 05-04 的 →65% 或正式推翻）/ 校准上限死锁三档方案 A/B/C 实际落地并验证 / LWD +15pp 追溯审查（B1/B2/B3 仍按单篇 LWD 停在 77/82/77）/ 建 canonical EPISTEMICS.md + 修正 CLAUDE.md §7 失效配套文件清单 / 下游 skill（paper-scanner/daily-digest/hypothesis-review）指令实际修改 / Phase 计数器反向条机制（7 个计数器从未下降过）。偏误自检：锚定 🔴 恶化（B6 71d；B8 解锚动作未落地→"锚点反扑"）/ 保守偏误 🔴 结构性恶化（B5/B6/B7/B8 超阈值，冻结轴卡死，但下行-反转轴已被纪律内化）/ 可得性 🔴 加剧（缺席 43 天 + 来源平衡指标 + #24 双双未落地）/ 过度更新 ✅ 唯一亮点（05-14 假设审计 0 变更 + memory §4 永久记录 04-26→05-04 反转案例）。保守偏误 +1d（对齐 BELIEF_GRAPH v3.6.7 权威值；注：memory v2.0.20 曾按 05-04 LWD 锚记 B1/B3 = 10d，BELIEF_GRAPH 按 04-26 v3.5.0 锚 = 18d→19d，本次对齐 BELIEF_GRAPH）：B0 (28d) ✅ / B1 (19d) ✅ / B2 (软 11d / 严 44d 🔴) / B3 (19d) ✅ / B4 (21d) ✅ / B5 (45d) 🔴 / B6 (71d) 🆘 已破 67d 校准上限反思阈值 +4d / B7 (软 16d / 严 61d ⚠️) / B8 (59d) 🔴 / B9 (30d) ✅。顶级实验室 arxiv 严格缺席延续至 43 天（04-06~05-15 史上最长再破上限 +21 天；距 45 天结构性认识论问题升级线仅剩 2 天）。预测窗口倒计时：#9 距 05-17 剩 2 天（π0.7 第三方复现 "match specialist" —— 本日 WebSearch 专项复核仍无任何第三方实验室公开复现，π0.7 论文本身亦承认"标准化机器人基准不存在使外部验证困难"；高概率到期未触发 → 05-17 后首份 daily-digest 须主动判决并记 +5% π0.7 SOTA 强韧性元假设）；#19 智元 6-30 ddl 剩 46 天；#22 距 2026-08-04 剩 81 天；#23 距 2026-08-06 剩 83 天；#24 / #25 距 2026-08-14 剩 91 天；#26 距 2026-11-14 剩 183 天；🆕 #27 距 2026-06-05 剩 21 天。当日报告分工：self-reflection (v3.6.7) 负责双周元审计 + 计数器推进 + 6 项人工裁决；daily-digest 负责 24h 增量看门 + 预测 #9 临近到期预告，刻意简短不重复。零新数据日纪律：信号衰减 ≠ 领域降温（ICLR 2027 ddl 前静默期 + 投稿沉默），9+ 项 P0 议程持续追踪，不放松监测。
🔴 05-14 增量更新（定时任务，v2.0.20 = paper-scan + hypothesis-review v3.6.6 整合 — 高议程信号日）：当日生成 2026-05-14-paper-scan.md（241 行）+ 2026-05-14-hypothesis-review.md（303 行）双报告；BELIEF_GRAPH.md v3.6.5-incremental → v3.6.6 候选（结构性议程立项无实际信念节点 ±5%）。🟧 paper-scan 2 高 + 1 中 + 1 弱 + 2 回溯补扫：RoboMemArena + PrediMem (2605.10921, OpenHelix-Team, 05-11) = Memory-VLA 第 5 团队，跨过明文升格阈值 → Phase 7 候选 Long-horizon Memory VLA 正式立项；OneWM-VLA (2605.07931, 05-08) = 套利窗口 #9 dual-system inference acceleration 第 5 条独立信号（窗口收窄 ~3-6 → 2-4 月）+ 1 token/frame visual bandwidth 压缩；中信号 Residual Latent Action WM (2605.07079) #6 latent 预测累积；弱信号 SAE Congress 2026 (2605.10653)；回溯 IVLR-Trace (2605.00438) + CoRAL (2605.02600)。🆘 hypothesis-review v3.6.6 核心：B6 70d 已破 67d 反思阈值 +3d → 升格框架级问题：v3 校准 penalty 在 B6/B7 死锁（raw 75→80 = calibrated 72%，反向下降 3pp），3 档方案 (A 维持 / B 78% 中间档 / C 结构性信念取消 penalty) 等待人工 reflection。3 节点对抗性审查（B6 / C1 / B4 均维持）：(a) B6 → 立项 sub-definition 拆分 B6a/b/c；(b) C1 升格条件硬化（仅"决定性"算升格，累积 inductive bias 不再计入）；(c) B4 → 立项 sub-route 节点拆分 B4a-B4f 六档。3 项新预测立项：#24（非 OpenHelix RoboMemArena ≥80% 复现，截止 2026-08-14）+ #25（跨 task suite ≤2 token/frame VLA，截止 2026-08-14）+ #26（≥2 个非 NVIDIA 系 WAM 论文，截止 2026-11-14）。Phase 计数器：Phase 4 WM 闭环 32/12 → 34/12 严重超临界 2.83×；Phase 7 候选 5/12 雏形正式立项；Phase 1 维持 15/15。保守偏误状态（05-14）：B0 (27d) / B1 (10d) / B2 (soft 10d / 严 43d 🔴) / B3 (10d) / B4 (20d) / B5 (44d) 🔴 / B6 (70d) 🆘 升格框架级 / B7 (15d 软 / 60d 严 ⚠️) / B8 (58d) 🔴 / B9 (29d)。顶级实验室 arxiv 缺席延续至 42 天（04-0605-14 史上最长再破上限 +20 天）。预测窗口倒计时：#9 距 05-17 剩 3 天（紧急窗口，5/17 后高概率到期未触发）；#19 智元 6-30 ddl 剩 47 天；#22 距 2026-08-04 剩 82 天；#23 距 2026-08-06 剩 84 天；🆕 #24 / #25 距 2026-08-14 剩 92 天；🆕 #26 距 2026-11-14 剩 184 天。段编号穷举 SOP 第 12-13 次成功：4 篇前期遗漏论文补扫。认识论核心：本审计无置信度变更但议程价值高——B6/B7 calibration 死锁正式升格框架问题；OneWM-VLA 反直觉"1 token/frame + 长时程不打折扣"如属实则整个 VLA 视觉编码器架构需重新审视；6 个月窗口持续累积 Memory VLA + bandwidth compression 双向证据
🟡 05-13 增量更新（5 天 paper-scan / daily-digest gap 补扫日）：05-13 daily-digest v3.6.5 生成（216 行），补扫 05-08~05-12 五天 daily-digest 全 gap。最强信号：(a) Jim Fan (NVIDIA) "VLA 已死、转向 World Action Models" Sequoia AI Ascent 2026 主题演讲（原 04-20 事件 + 本周中文媒体集中再传播；v2.0.19 cross-ref 已确认实际表态"VLA architecture fundamentally misaligned"对应中文"VLA 已死"sensationalism，方法论 = B0/B4 路线 endorsement 非新范式）；(b) OneWM-VLA (2605.07931) WebSearch 探针发现（05-14 paper-scan 正式整合）；(c) 产业层 5/7-12 密集披露 8+ 条：Tesla Optimus Q2/7-8 月量产时间表二次确认 + 安培龙六维力切入 Tesla 供应链 + 智元 + 人民网 "具身交互多模态语料库" 10 万条首发 + 星动纪元 $200M+ raise（顺丰领投 = 预测 #18 顺丰部署的首条方向性证据）+ Figure AI Helix-02 双机协同铺床 <2 分钟 + 上声×戴盟触觉合作 + 斜跃智能成立 (理想系) + 蚂蚁/机器科学/千寻/众擎累计资本。置信度变更: 0。保守偏误状态（05-13，+1d from 05-12）：B0 (26d) / B1 (9d) / B2 (soft 9d / 严 42d 🔴) / B3 (9d) / B4 (19d) / B5 (43d) 🔴 / B6 (69d) 🆘 / B7 (14d 软 / 59d 严) / B8 (57d) 🔴 / B9 (28d)。预测 #9 距 05-17 剩 4 天进入紧急 <5 天窗口。顶级实验室 arxiv 缺席延续至 41 天（04-0605-13 史上最长持续刷新）。8 月 = 2026 最关键产业兑现验证月距 8 月初剩约 80 天
05-08 增量更新（定时任务，🟢 极低信号日 / 第 2 个真零新数据日）：当日 daily-digest / paper-scan / 社交情报三类报告全部缺席（reports 目录最新仍为 2026-05-07 daily-digest，社交情报最新仍为 2026-05-06.md），BELIEF_GRAPH.md 维持 v3.6.4-incremental（05-07 paper-scanner gap-fill 权威状态）。零新输入信号 → 唯一价值 = 保守偏误计数器 +1d + 顶级实验室 arxiv 缺席延续至 37 天（再破上限 +15 天，史上最长持续刷新）+ 预测窗口倒计时。保守偏误状态（05-08，+1d）：B0 (21d) ✅ / B1 (4d) ✅ / B2 (4d) ✅ / B3 (4d) ✅ / B4 (14d) ✅ / B5 (38d) 🔴 / B6 (64d) 🔴 距 67d 校准上限反思阈值仅 3 天 / B7 (9d 软 / 54d 严) ⚠️ / B8 (52d) 🔴 / B9 (23d) ✅。预测窗口倒计时：#9 距 05-17 剩 9 天（π0.7 第三方复现 "match specialist"，进入临界 < 10 天窗口）；#15 距 2026-08-22 剩 ~3.5 月；#16 距 2026-07-31 剩 ~2.7 月；#17 距 2026-10-25 剩 ~5.5 月；#18 距 2026-10-24 剩 ~5.5 月；#19 距 2026-06-30 剩 ~7 周；#22 LWD 复现追踪距 2026-08-04 剩 88 天；#23 VLA-TTC 第三方独立信号距 2026-08-06 剩 90 天。4 日信号衰减序列延伸：05-04 强 → 05-05 弱社交 → 05-06 双报告补 → 05-07 中信号 paper-scanner gap → 05-08 零 —— ICLR 2027 ddl 前静默期 + 五一假期效应叠加；下周（05-12 起）可能恢复。Meta Llama-3-Robot 仍待验证（epistemic 拖延已至 5 天）。8 月 = 2026 年最关键产业兑现验证月（6+ 预测窗口集中收口），距 8 月初剩约 86 天；6-30 智元 ddl 距今剩约 7 周
05-07 增量更新（定时任务，🟧 高密度补整合日 + 当日零新数据）：05-06 双报告（paper-scan v3.6.2 + convergence-radar v3.6.3）补整合 — 详见 §0 v2.0.16 changelog + §5 Phase 计数器同步 + §8 产业部分。核心叙事："VLA 工程化部署叙事拐点"候选 paradigm shift（35-40% prior，跨 Phase 1/2/4/5/B3/B6/B7/B9 多节点同步弯曲，对抗性思辩 Bull / Bear / Arbiter 完整三视角辩论记录于 reports/cross-domain/2026-05-06-convergence-radar.md §4） + Frontier-class "data + recipe > 架构" 双 lab 双背书（PI π0.7 + AI2 MolmoAct2，B0 候选 +5% 触发延后至下次假设审计）+ TTC 入侵 VLA 立项 Phase 6 候选 + B3 三分类 hybrid 路径第 1 条出现 + B4 路线分化扩至 6 sub-routes（+RoboAlign-R1 reward-aligned WM 第 6 路线 cross-Phase 4×2）+ 新窗口 #9 / #10 立项。保守偏误状态（05-07，+1d）：B0 (20d) ✅ / B1 (3d) ✅ / B2 (3d) ✅ / B3 (3d) ✅ / B4 (13d) ✅ / B5 (37d) 🔴 13 反相变信号距临界 15 仅 2 条 / B6 (63d) 🔴 接近 67d 校准上限反思阈值 / B7 (8d) ✅ / B8 (51d) 🔴 / B9 (22d) ✅。预测窗口倒计时：#9 距 05-17 剩 10 天（π0.7 第三方复现 "match specialist"，临界）；#15 距 2026-08-22 剩 ~3.5 月；#16 距 2026-07-31 剩 ~2.7 月；#17 距 2026-10-25 剩 ~~5.5 月；#22 LWD 复现追踪距 2026-08-04 剩 89 天；🆕 #23 VLA-TTC 第三方独立信号距 2026-08-06 剩 91 天。顶级实验室 arxiv 缺席延续至 36 天（04-06~~05-07 史上最长再破上限 +14 天）。当日零新数据：daily-digest / paper-scan / 社交情报三类报告全部缺席；3 日信号衰减序列（05-04 强 → 05-05 弱 → 05-06 双报告补 → 05-07 零）= ICLR 2027 ddl 前静默期 + 五一假期效应叠加，下周可能恢复。关键认识论判断：v3 校准纪律避免连续上调即使本周 3 篇 RL 工程化（OGPO/FAN/EnergyFlow）+ LWD + LaST-R1 = 5 篇 14 天累积已构成强反方升格压力；EvolveCast / ForecastBench 警示"决定性"判断需要更高 prior；下次假设审计 ~~05-11~~13 触发，9 议程项待审。Meta Llama-3-Robot 仍待验证（05-05 retro-claim 至 05-07 无新信号确认/反驳，05-06 paper-scan 也未发现 Meta FAIR 官方 VLA 论文 → 待 Meta 官方博客 / HuggingFace 仓库二次确认）

9.2 速度异常（双周报 03-25 更新）

方法族	14d加速比	7d加速比	趋势
language_grounding	2.53x	0.46x	⚠️ 爆发后衰退——"推理时修复"红利3周内吃完
rl_finetuning	1.77x	0.52x	仍dominant但momentum declining
world_model	—	0.75x	momentum cooling，社区耐心耗尽
flow_matching	—	0.89x	唯一 stable，静默胜出（工程选择非理论胜利）
diffusion_policy	—	0.70x	与FM产出持平(各24篇)但momentum更弱
dexterous_hand	—	0.62x	碾压 tactile 4:1
tactile	—	0.26x	结构性衰退（学术逃"硬件依赖"）
sim_to_real	—	0.31x	结构性衰退
cross_embodiment	—	0.26x	结构性衰退
instruction_tuning	—	0.05x	已死

9.3 基准状态

LIBERO：已饱和（开源 99.2%，闭源 98.6%）— ICLR 2026 Blog 确认"基本已解决"
SIMPLER：当前最有效学术基准(70-80% SOTA)
RLBench：VLA"远落后于 3D SOTA"——开放世界仍难
RoboChallenge：差异化赛道（仅 2 次 SOTA 变动/5%）——唯一未饱和基准，但可能是"低关注度陷阱"
CALVIN：已饱和——与 LIBERO 合计承包 75% 的 SOTA 更新(40次中30次)
零样本差距：开源 VLA 在 benchmark 上接近天花板，但真实零样本远落后 π0.5/Gemini-Robotics

9.4 关键预测（可追踪）

RL finetuning 8 周内出现"稳定性"子赛道（截止 2026-05-06）
LeRobot v0.6.0 将 Flow Matching 设为默认 Action Head（截止 2026-04-23）— StarVLA 出现可能改变竞争格局
首个产线场景 VLA 基准由产业联盟发布（截止 2026-06-01）
Instruction Tuning 论文 8 周内跌破 1%/月（截止 2026-05-06）
flow_matching 4 周内跨域信号突破 3 条（截止 2026-04-22）— FP-DRL 算 1 条弱信号(locomotion)，仍需 2+
CALVIN/LIBERO 新 SOTA 更新频率 3 周内下降 50%（截止 2026-04-15）✅ 确认——校准规则 2 +5% 待执行（基准饱和趋势进一步验证）
6 周内至少 1 个新基准发布（截止 2026-05-06）
触觉方向 3 周内再出⚡论文（OmniVTA 跟进，截止 2026-04-15）❌ 未触发——04-15 到期，无触觉突破论文。校准规则 2 +5% 待执行（B8 学术端结构性衰退确认，触觉 momentum 0.26x）

9.5 新兴趋势：记忆 VLA → Phase 7 候选正式立项（05-14）

MEM (DeepMind/Stanford, 03-16)：双尺度记忆(video短期+language长期)，15分钟长时域任务
ReMem-VLA (TU Munich, 03-17)：双层递归记忆查询，超越 π0.5/OpenVLA-OFT
MemoryVLA (作为 baseline 被引用)
SOMA (03-31)：双记忆 RAG（成功+失败对比检索）+ LLM 归因编排 + MCP 工具干预，冻结 VLA 无需微调 OOD +56.6%。与 MEM/ReMem 不同路线——inference-time 外部记忆增强 vs 模型内建记忆
🆕 PrediMem + RoboMemArena (2605.10921, OpenHelix-Team, 05-11)：双系统 VLM planner + VLA actor + hierarchical memory bank (recent buffer + keyframe buffer) + predictive coding head 辅助 keyframe 选择；RoboMemArena 26 任务 / 平均 >1,000 步/任务 / 68.9% memory-dependent / 多模态 memory 标注 / 真实机器场景。PrediMem 在 RoboMemArena 上 outperforms all baselines；GitHub 已开源。Bear 警示：单团队"发 benchmark + 同时发自己最佳 baseline"是教科书级自我 validation 偏误，待非 OpenHelix-Team 第三方复现 ≥80%（预测 #24 截止 2026-08-14）
🟡 IVLR-Trace (2605.00438, 05-01) 关联机制：interleaved text+visual keyframes trace 缓存 + closed-loop executor；LIBERO 95.5% / LIBERO-Long 92.4%；无 trace 时 LIBERO-Long 跌至 37.7%。trace-based memory 可能是 Memory VLA 子赛道（与 PrediMem keyframe buffer 共振）
判断升级：5 个独立团队（MEM/ReMem/MemoryVLA/SOMA/PrediMem）跨过 v3 系统"再出现 1+ 个独立工作即创建新 Phase"明文阈值 → 🔴 2026-05-14 hypothesis-review v3.6.6 正式立项 Phase 7 候选 Long-horizon Memory VLA 5/12 雏形（完成度估计 22%，待第三方复现拉到 50%+ 升格 Phase）。长时域记忆(>5分钟)仍是核心瓶颈，RoboMemArena 1,000+ 步 benchmark 直击 LIBERO/CALVIN 饱和盲点

9.6 新兴维度：VLA 安全对齐

BeSafe-Bench (03-31)：首个四域（Web/Mobile/Embodied VLM/Embodied VLA）行为安全基准
关键发现：13 个主流代理中最佳安全任务完成率 <40%；41% 案例成功完成任务但触发安全风险
启示："任务成功≠安全"是系统性问题，VLA 部署前需安全对齐机制——当前几乎所有 VLA 论文不涉及安全约束

10. 深度专题

10.1 π0 系列架构详解

π0 (2024)：PaliGemma 3B (SigLIP 视觉编码 + Gemma 2B 语言) + Flow Matching 动作头。学习速度场 v(x,t) 将噪声分布映射到动作分布，沿直线路径（rectified flow）。ODE solver 1-10 步推理 → 50Hz+ 控制。核心创新：首次证明大 VLM 可以高频输出精密动作。

π0.5 (2025)：分层推理——高层 VLM 异步语义推理 + 低层同步 50Hz 动作输出。训练用 FAST token 化（DCT+BPE 压缩），推理用 Flow Matching。Co-training：机器人 + 互联网视频 + 仿真，loss masking 分数据源。实现开放世界"做任何家务"的泛化。

π0.6 / π*0.6 (2025)：5B VLM + 10M 参数 Action Expert（轻量独立模块）。π0.6 = 监督学习基线；π*0.6 = Recap 算法（离线 RL 自我改进）。Recap 流程：收集 on-policy rollout → VLM 自动打分 → 筛选高分轨迹 → 重新训练。Knowledge Insulation 防止动作训练破坏语义能力。成果：2× 吞吐提升，2× 失败率下降。

10.2 World Model 演进路线

阶段 1: 评估器 (WorldEval) — 能否不用真机就评估策略优劣？
阶段 2: 标准化评估 (WorldArena/Ctrl-World) — 如何统一 WM 基准？
阶段 3: 数据引擎 (VLAW) — WM 生成合成轨迹喂给策略训练
阶段 4: 动作生成基底 (DreamZero/WAM) — WM 直接取代 action model？

关键进展：

VLAW：on-policy rollout 微调 WM → 生成合成轨迹 → 过滤式 BC 训练，+39.2% 成功率
DreamZero/WAM：World Model 即零样本策略，比较三条路线(解耦/端到端/统一多任务)
PlayWorld：自主探索→WM→RL 全闭环，+65% 真机成功率
AtomVLA：LLM 分解任务为原子子任务 + 预测性潜在 WM + 离线 GRPO，LIBERO 97%
StructVLA (03-17)：WM 重构为 structured planner(预测稀疏运动学里程碑帧)，SimplerEnv 75.0%，LIBERO 94.8%。第三种 WM 范式
ACE Kairos 3.0-4B (03-17)：商汤旗下开源实时生成式 WM，4B 参数 Jetson Thor 实时运行，72x>Cosmos 2.5（但对比基准不公平：4B vs 14B+），跨 embodiment 部署宣称（待同行评审）。解决 WM 延迟瓶颈的首个工程证据
Cosmos 3 (03-25)：NVIDIA 首个统一 World Foundation Model，核心产品化信号
NC AI WFM (03-25)：latent action 直接生成，25% GPU 成本达 80% 性能，低成本路线验证
Fast-WAM (03-19)：质疑 WM 是否需要测试时未来想象——与 Chain of World + Simulation Distillation 形成对话，WM 使用范式在分化
VLA+WM 混合架构行业趋势：Li Auto(MindVLA-o1 内嵌 Predictive Latent WM)/Tesla(Neural World Simulator)/XPeng/长城（坦克 700 Coffee Pilot 4.0，04-20 行业首款量产硬派 SUV） 均采用——WM 从可选组件→标准配置演进中
VLA-World for AD (2604.09059, SJTU+Huawei, 04-10)：AD 域 VLA + WM 统一架构，action-derived feasible trajectory 引导下一帧生成 + reflective reasoning refine 预测；与坦克 700 车规量产形成 research+product 双轨共振 10 天 gap，Phase 4 AD 跨域子赛道首次标记
Touch Dreaming (2604.13015, CMU+UT Arlington+Bosch, 04-14)：Humanoid Transformer + latent tactile dreaming 辅助任务（同时预测 action chunks + 未来关节力 + 未来 tactile latents），latent tactile 预测 > raw tactile 预测 +30%——"latent 预测 > raw 预测"规律跨模态扩展至触觉，强化 C2 下限反证压力
Cortex 2.0 (2604.20246, Sereact AI 工业, 04-22)：工业 VLA + visual latent space WM + Process-Reward Operator (PRO 多准则评分: task progress / risk likelihood / completion likelihood) + flow-based action heads 四级显式分层；数据三源融合（open-source multimodal + Sereact teleoperation/production fleet + synthetic）；单/双臂 4 任务 SOTA VLA baselines 全面超越；首个工业级 latent-WM planner 背书 = B4 70→75% 触发；C2 最强反证之一
RoboWM-Bench (2604.19092, 04-21)：首个 manipulation-centric embodiment-grounded video WM 物理可执行性 benchmark；揭示 SOTA video WM "reliably generating physically executable behaviors remains an open challenge"——常见失败：空间推理错误 / 不稳定接触预测 / 非物理形变；B4 内部 video vs latent 路线分化明朗
Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23)：Human-in-the-World-Model 学习 WM 作为 reusable corrective substrate，post-training 失败矫正脱离物理执行 / 真机 setup / 操作员监督；WM-as-post-training-substrate 应用变体（区别于 WAV/GIRL/ViVa 的 inference-time planner，区别于 Cortex 2.0 的 industrial deployment）；latent-WM 第 5 团队（学术 4 + 工业 1）；预测 #17 追踪 Tier-1 复现
WM-UniT (UniT 二联应用变体, 2604.19734, XPENG + Tsinghua + HKU, 04-21)：cross-embodiment 动力学对齐，human 数据 → humanoid 视频生成可控；与 VLA-UniT (policy) 共享 unified discrete latent action token；latent-WM 第 6 团队（学术 4 + 工业 1 + industrial-academic 1）；XPENG industrial-academic 混合（部分工业含量但不足以单条达 #16 工业级跟进口径）；强化 "latent 预测 > raw 预测" 跨模态规律到 cross-embodiment 维度
Being-H0.7 (2605.00078, Beihang + PKU 系 BeingBeyond Team, 04-30)：Latent World-Action Model from Egocentric Videos —— learnable latent queries 作为 perception 与 action 之间的紧凑推理接口；future-informed dual-branch 训练（deployable prior branch 推理用 + training-only posterior branch 用 future observations 做 latent 对齐）；推理时丢掉 posterior 零 visual rollout；6 sim benchmark + diverse 真实任务 SOTA。第 6 latent-WM 团队 cross-modality + cross-embodiment + ego-video；与 PFD (04-28) 同 sub-route "WM-as-distillable / future-informed-but-no-inference-rollout" 第 2 篇 = PFD 不再孤立。BeingBeyond 系列旗舰 WAM commercial trajectory 关键观察点
MotuBrain (2604.27792, ShengShu Technology + Tsinghua, 04-29)：三流 Mixture-of-Transformers 统一架构 = video generation + action modeling + language conditioning 同模型；5 distributions inference (VLA policy / world modeling / video generation / inverse dynamics / joint video-action prediction)；WorldArena EWM 63.77 + RoboTwin 2.0 平均 96.0（唯一在 randomized 环境 >95.0 的模型）；Unified multi-view 表示（任意相机数 / 不同 layout）+ 独立文本流 + cross-embodiment 统一动作表示；训练数据范围扩展（video-only / no-action-label / no-task-language / cross-embodiment）；第 7 个独立 latent-WAM 团队 + 第 2 条 industrial-led（Cortex 2.0 后），ShengShu (UniDiffuser 团队) 是中国领先多模态 AI 公司 → industrial-led 比 UniT (XPENG industrial-academic) 更明确，强候选触发预测 #16（B4 75→80%）—— "unified WAM"路线 vs Cortex 2.0 "latent-WM as planner"路线判定需 5 月中假设审计 P0 人工 judgment
LaST-R1 (2604.28192, 04-30)：Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models —— 两阶段 RL pipeline + Clip-GRPO 算法 + annotation-free process-based grounding reward；引入 latent CoT reasoning + LAPO (Latent-to-Action Policy Optimization)；LIBERO 99.8% 平均成功率（接近饱和需打 0.4-0.5x 折扣）+ 真机 +44%。B2 中正向（annotation-free RL 解决 04-17 Jupiter Zhai "real-world RL 物料被干烂"痛点）/ B7 弱正向（latent reasoning + action policy 解耦双层 policy 与 π0.7 Knowledge Insulation 同向）/ B4 弱正向（latent CoT 与 latent prediction 套利窗口 #6 同向）
MolmoAct2 OpenFAST (2605.02881, AI2 Allen AI, 2026-05-04)：完全开源 action reasoning model 为 real-world deployment 设计；MolmoER spatial-and-embodied-reasoning 专精化 VLM backbone + 3.3M-sample corpus + specialize-then-rehearse 训练 recipe；OpenFAST 跨 5 embodiments tokenizer + MolmoAct2-BimanualYAM 720h teleoperated bimanual（迄今最大开源）；flow-matching continuous action expert grafted onto reasoning VLM。第 2 个 frontier 实验室级 "data + recipe > 架构" 背书（继 PI π0.7）+ B0 / B1 中-强正向累积 +5% 触发候选（v3 校准纪律延后至下次假设审计）+ B5 内部 OpenFAST = FAST 系（离散 token）+ flow expert（连续 FM）双轨张力 → 议程 P1 "B5 内部 FM vs FAST 拆分"立项
Latent Bridge (2605.02739, Duke Yiran Chen / Hai Li, 2026-05-04)：Feature Delta Prediction for Efficient Dual-System VLA Inference —— 轻量级模型预测 VLM output deltas between timesteps 让 action head 用预测值 VLM backbone 仅周期性 call；跨架构验证 GR00T-N1.6 (feature-space bridge) + π0.5 (KV-cache bridge) + task-agnostic DAgger pipeline；4 LIBERO suites + 24 RoboCasa kitchen tasks + ALOHA sim transfer-cube → 95-100% 性能保留 + 50-75% VLM call 减少 + 1.65-1.73× per-episode 加速。dual-system VLA 已成 normative 假设的强证据 + B7 解耦工程级强背书 + B9 累积第 8 条；新窗口 #9 dual-system inference acceleration 触发条件第 1 篇
RoboAlign-R1 (2605.03821, 2026-05-05)：Distilled Multimodal Reward Alignment for Robot Video World Models —— 直击 robot video WM "reconstruction / perceptual similarity 损失与机器人决策能力错位" + autoregressive 长 horizon 误差累积痛点；RobotWorldBench 10K annotated video-instruction pairs (4 robot 数据源) + RoboAlign-Judge multimodal teacher 6 维 fine-grained 评估 + distillation → lightweight student reward model 用于 RL post-training + SWR (Sliding Window Re-encoding) training-free inference strategy。B4 第 5 条 video-WM-as-data-engine sub-route + 第 1 条 reward-aligned WM 信号（新维度 cross-Phase 4×2）= B4 6 sub-routes 第 6 路线；Phase 4 计数器 27/12 → 28/12
LWD / Fleet-Scale RL (2605.00416, Yi Wang + Jianlan Luo et al., Berkeley 系, 05-01) "Learning while Deploying" —— fleet-scale offline-to-online RL framework for continual post-training of generalist VLA；闭环：deployment → autonomous rollouts + human interventions → policy improvement → redeployment；DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) 专门为 flow-based VLA action generators 稳定 sparse-reward fleet RL；真机数字：16 个 dual-arm 机器人 / 8 个真实任务（含 semantic grocery restocking + 3-5min long-horizon）/ 单一 generalist policy 平均 95% 成功率 / long-horizon gain 最大。🔴 触发 B1+B2+B3 三节点同步 +5%——第一篇方法论级"权重闭环"真机大规模验证（区别于 8+ 条 prompt-level 自进化稀释）+ fleet-scale 数据飞轮方法论级实证 + 第一篇决定性反驳 04-17 社区共识"real-world RL 物料被干烂 / 大规模 VLA 的 RL 做不了"。新预测 #22 立项（3 月内非 Berkeley 复现 ≥10 robots ≥80% long-horizon）
核心张力：好视频 ≠ 好评估器，好评估器 ≠ 好规划器；WM 从侧模块→系统工具→核心基底
VLA-MBPO (03-30)：UMM 做 WM + multi-view consistency + chunk-level branched rollout——2 月来第 4 个 WM+RL 框架（+ GigaBrain/WoVR/World-VLA-Loop），方法论子问题逐个被解决但碎片化风险
Scaling Sim-to-Real (03-30)：3D generative worlds + RL，真机 21.7%→75%（+53.3pp），WM-as-data-factory 维度的新验证——但任务复杂度和 RL-specific ablation 待确认
⚠️ 概念区分待办："full generative WM" vs "learned dynamics model/predictive latent model"——行业混用，B4 四子类需正式区分：feature-extractor (DiT4DiT) / simulator (VLA-MBPO/WoVR) / data-factory (Scaling Sim-to-Real) / causal-reasoner (尚无验证)

10.3 小模型路线 (<3B)

模型	参数	LIBERO	核心技巧
Evo-1	450M	94.8%	RT-2 参数的 1.4%，证明模型大小≠控制能力
SmolVLA	500M	~92%	极致压缩 VLM
ControlVLA	770M	~93%	控制专精设计
Eva-VLA	700M	~91%	高效视觉编码

启示：边缘部署不需要 7B；但小模型在开放世界泛化上仍有明显差距。

10.4 推理与规划

Chain of Thought 四种模式：显式文本 / 结构化 JSON / 隐式潜在 / 交错逐步
OneTwoVLA：单模型自适应 System 2(深度推理)/System 1(快速执行) 切换，用 [BOR]/[BOA] token
Thinker VLM：UBTech 具身规划模型（不直接输出动作），4B/7B，处理 ego-view 混淆
ReconVLA：通过注视区域重建辅助损失防止注意力漂移，隐式空间接地

10.5 跨模态迁移与数据规模化

VITRA：自动从人类活动视频(Ego4D/Epic)提取 1.2M 机器人式 episodes，逐帧 3D 手部运动恢复
CoMo (03-31)：连续潜在运动表示替代离散 VQ-VAE，时序差分+对比学习抑制捷径学习，与扩散策略无缝联合训练。仅单臂验证充分
跨模态映射逻辑：互联网视频学"语义动作规范"（开门先握把手）→ 精细力控交给底层算法/少量真机微调
ABot-M0 UniACT：统一 6 个数据集(6M 轨迹, 20+ 具身)，EEF-delta + rotation-vector 标准化
RoboGene：Agentic 多样化仿真数据生成，提升 VLA 预训练质量
IAIL (Science Robotics, 04-07)：跨机器人行为适配——把对齐对象从动作轨迹提升到语言意图空间。每个机器人先在可行空间生成候选动作，再按意图相似度检索匹配，带可行性阈值拒识。7 台异构真机验证(~90% 可行场景成功率)。与 VLA 的关系：提供比 action token 对齐更宽容的跨本体迁移路径，天然连接语言/任务分解/团队协作

10.6 分层控制架构（以 Figure Helix 02 为例）

S2 (语义层): VLM 输出语义 latent — 低频（~2-5Hz）
  ↓
S1 (运动层): 200Hz 全身目标生成（locomotion + manipulation）
  ↓
S0 (执行层): 1kHz 学习式先验控制（接触/平衡/稳定性）

Helix 02 训练数据：>1000h 人类运动 + >200k 仿真环境。无状态机，统一处理行走+操作。此分层模式(B6 置信度 75%)正在成为人形机器人标准架构。

11. 关键论文速查（按影响力排序）

论文	核心贡献	影响
里程碑
π0 (2024)	Flow Matching + VLM = 高频精密控制	定义 Action Head 新范式
π0.5 (2025)	分层推理 + co-training 开放世界	泛化路线验证
π0.6 Recap (2025)	离线 RL 自我改进闭环	定义后训练新范式
RT-2 (2023)	VLM → VLA 语义泛化涌现	证明大模型路线可行
OpenVLA (2024)	开源 7B VLA + LoRA 生态	民主化 VLA 研究
Diffusion Policy (2023)	去噪生成连续动作	建立连续动作基线
World Model
DreamZero / WAM (2026)	World Model = 零样本策略	WM 功能角色跃迁
PlayWorld (2026)	自主探索→WM→RL 闭环	+65% 真机成功率
VLAW (2026)	VLA × WM 迭代共进化	on-policy WM 校准 +39.2%
AtomVLA (2026)	原子子任务 + 潜在 WM + 离线 GRPO	无需在线试错
StructVLA (2026)	WM→稀疏运动学里程碑 planner	第三种 WM 范式
ACE Kairos 3.0 (2026)	4B 实时生成式 WM，72x>Cosmos	WM 延迟瓶颈首次工程解决
Cosmos 3 (2026)	首个统一 WFM，NVIDIA 产品化	WM 工业级基础设施
NC AI WFM (2026)	Latent action 生成，25% GPU 成本	低成本 WM 路线
Fast-WAM (2026)	质疑 WM 测试时想象必要性	WM 使用范式分化
PLD (CMU, 2026)	残差RL+蒸馏闭环，ICLR 2026	B3 第二独立验证
触觉
MoDE-VLA (2026)	残差力觉注入，量化消融-11%/-8%	触觉不可替代性实证
TacVLA (2026)	Contact-aware gating 触觉 VLA	触觉优雅集成方案，+60%/2.1×
TaF-VLA (2026)	触觉力对齐注入 VLA	触觉融合新范式
TacMamba (2026)	快慢双通路触觉压缩	触觉反射层架构
OmniVTA (2026)	视触融合世界模型	触觉作为 WM 输入模态新路线⚡
Touch Dreaming/HTD (04-14)	Humanoid latent tactile dreaming 辅助任务	首个方法论级 latent tactile 预测，+30% > raw，+90.9% 5 任务⚡
UniVTAC (2026)	统一视触觉仿真平台	仿真标准化
数据与效率
VITRA (2026)	人类视频→1.2M 机器人 episodes	数据规模化路线
SimVLA (2026)	0.5B 达 98.6% LIBERO	训练 recipe > 架构复杂度
FAST (2024)	DCT+BPE 动作 token 压缩	5× 训练加速
Shallow-π (2026)	Flow VLA 知识蒸馏 18→6 层	边缘部署 <1% 性能损失
QVLA (2026)	动作敏感性量化	部署优化
OFP (2026)	单步 flow 100× 加速	FM 推理速度再飞跃
RoboClaw (2026)	EAP 自重置飞轮 -54% 人工	数据收集效率
语言与推理
LangGap (2026)	语言理解缺口四维诊断	语言接地修复框架
ReViP (2026)	视觉一致性验证修正错误补全	推理时闭环修复
OneTwoVLA (2026)	自适应 S1/S2 推理切换	统一快慢思维
ReconVLA (2026)	隐式空间接地(注视重建)	防注意力漂移
记忆
MEM (2026)	双尺度VLA记忆(video+language)	15分钟长时域
ReMem-VLA (2026)	双层递归记忆查询	超越 π0.5/OpenVLA-OFT
其他
GR00T N1.7 (2026)	开源 VLA 商业部署(LG/NEURA)	NVIDIA 生态锁定信号
Helix 02 (2026)	S2→S1→S0 分层全身自主	人形架构标杆
ABot-M0 (2026)	UniACT 6M 轨迹统一	跨具身基础
RDT2 (2026)	零样本跨具身迁移	泛化验证
AR-VLA (2026)	自回归 Action Expert, SIMPLER 61.5%	FM 挑战者
GigaBrain-0-Small (2026)	840 GFLOPs, 0.13s, 80% 成功率	小模型边缘可行性
AutoQVLA (2026)	30% VRAM, ICLR 2026	自动量化 VLA
Golden Ticket (2026)	单样本 No 改进策略	资源有限团队切入点
新增 03-26~29
VLGOR (2026)	VLM 生成物理一致虚拟轨迹 + 离线 RL	VLM 替代 LLM 做 RL 数据增强（仅仿真）
EquiBim (2026)	双臂对称等变正则化，模型无关	即插即用训练技巧，无架构修改
Fast-FoundationStereo (CVPR 2026)	零样本立体匹配压到实时（蒸馏+NAS+剪枝）	证明 foundation perception 可实时部署
新增 03-30
DFM-VLA (2026)	Discrete Flow Matching，CALVIN 4.44/LIBERO 95.7%/真机 70.8%，2.4× 推理加速	B5 强下行信号——discrete FM 全面击败 continuous FM+diffusion+AR
VLA-OPD (2026)	On-Policy Distillation 桥接 SFT↔RL，1-traj init → 93.4%，3× 样本效率	RL→Distillation→Deploy 流水线新范式（依赖 RL teacher）
Scaling Sim-to-Real (2026)	3D generative worlds + RL，真机 21.7%→75%（+53.3pp）	套利 #3 第三个验证，WM-as-data-factory 又一维度
VLA-MBPO (2026)	UMM 做 WM + multi-view consistency + chunk-level branched rollout	WM+RL 第 4 个框架（+ GigaBrain/WoVR/World-VLA-Loop），方法论成熟度
Realtime-VLA V2 (2026)	真机达人类速度，0.2mm 精度 PCB 插件，3-4× 快于 demo	部署工程成熟度；感知管线延迟 ~288ms 是真实瓶颈
Ruka-v2 (2026)	开源灵巧手 v2，+2 DOF，51.3% 完成时间减少	Phase 6 基础设施层面积极信号
新增 03-31~04-01
SOMA (2026)	双记忆 RAG + LLM 编排，冻结 VLA OOD +56.6%，无需微调	Memory VLA 第 4 个独立工作，inference-time 增强路线
BeSafe-Bench (2026)	首个四域行为安全基准，最佳安全完成率 <40%	VLA 安全对齐维度开启，41% 成功但不安全
CoMo (2026)	连续潜在运动 > 离散 VQ-VAE，Td+Tcl 双机制抑制捷径学习	视频预训练运动表示新方案（无语言头）
Wanderland (2026)	多传感器融合几何 grounding 仿真，metric-scale 3DGS	开放世界导航仿真基础设施
新增 04-06
DreamControl-v2 (2026)	人形全身操作分层管线（动作重定向→扩散→RL→部署），G1 真机 8 技能	B6 弱累积（分层管线验证），Phase 6 弱累积
Tex3D (2026)	对抗性 3D 纹理攻击 VLA，96.7% 任务失败率，跨架构迁移	VLA 部署安全预警——对抗鲁棒性维度
新增 04-07~08
IAIL (Science Robotics, 2026)	跨机器人意图对齐，共享语言意图空间 + 可行性检索，7 台异构真机 ~90% 成功率	Phase 5 新信号——比 action token 对齐更宽容的跨本体迁移
新增 04-10
StarVLA (2026)	模块化开源 VLA 框架，VLM+WM backbone 可 swap，统一评估接口	工具链标准化加速（LeRobot 之后第二个全栈框架），B7 解耦弱累积
SV-VLA (2026)	Speculative Verification，重 VLA 规划+轻 verifier 闭环验证	B6 分层架构实例+B9 边缘推理弱累积
AnchorVLA (2026)	锚定截断扩散 action head，轨迹词表+局部去噪，mobile manipulation	B5 多范式并存弱累积（diffusion 框架内微创新）
FAN-VLA (2026)	Feasible Action Neighborhood 正则化，RFT+SFT 均受益，OOD 泛化提升	B2 弱累积，实用训练技巧与 action chunking 正交
Vision-Torque Fusion (2026)	自适应视觉-力矩融合 contact gating +14%	B8/Phase 3 弱累积，与 TacVLA gating 同方向
FP-DRL (2026)	Flow-based Policy + Distributional RL，MuJoCo SOTA	FM+RL 交叉弱信号（非 VLA manipulation，需观察迁移）
E-VLA (2026)	事件相机+VLA，极端低光/模糊下 0%→90%	传感器多样性 niche，部署成本高
新增 04-11
ViVa (2026)	视频生成模型作 RL value function，长 horizon value estimation	Phase 2×4 交叉新变体（WM 生成能力服务 RL value，非 rollout）
HEX (2026)	State-centric 人形 VLA + MoE 按身体部位分专家，跨具身	B7 解耦弱累积 + Phase 5 弱正面
新增 04-13 扫描
HY-Embodied-0.5 (2026)	腾讯开源 2B MoT 边缘+32B 推理，self-evolving post-training+distillation，22 benchmark 中 16 SOTA	B9 第 5 条边缘信号；B2/B3/B7/C1 多节点弱支持
SIM1 (2026)	物理对齐 real-to-sim-to-real 数据引擎，可变形物体 1:15 等价比，90% zero-shot	B1 弱下行压力（限定域）；合成数据替代收集趋势
SV-VLA (2026)	Speculative Verification: 重型 VLA 规划+轻量 verifier 闭环	B6 分层架构新累积（继 AnchorVLA 后）；B9 弱支持
BiCoord (2026)	长时程双臂协调 benchmark，VLA 超越 DP	预训练知识在复杂协调中的价值确认
KITE (2026)	Training-free VLM 失败分析前端，keyframe+BEV	B3 自我改进闭环基础设施（非闭环本身）
OpenWorldLib (2026)	统一 World Model 推理框架（interactive video/3D/VLA）	WM 生态成熟弱信号
新增 04-14
VLA-Forget (2026)	VLA unlearning/machine unlearning for VLA models	B3 安全维度弱间接信号
AEROS (2026)	单 Agent 模块化操作架构	B6 分层/模块化弱累积
DECO (2026)	双臂灵巧操作 + 触觉 Diffusion Policy	B8/B5 弱累积（触觉+Diffusion）
TaSA (2026)	触觉衰减学习（tactile attenuation）	B8 弱累积
新增 04-16~17
π0.7 (PI, 2026-04-16)	5B + 14B BAGEL WM，Episode Metadata (Quality/Mistake/Speed) + Knowledge Insulation + language coaching 解决未训练任务，匹配 specialist 性能	B0 上调 72→77% 触发信号；产业级背书"数据工程 > 架构创新"；B3/B7 弱正向
WAV (2604.14732, Westlake, 2026-04-16)	Latent WM + trajectory value function 隐式规划；理论证明动作空间规划 feasibility 指数衰减，latent-space 推理重塑搜索分布	B4 强正向（理论+实证双轨）；latent-WM planner 路线第 3 条独立信号（与 GIRL/ViVa）
Sim-Real Co-Training Mechanistic Analysis (2604.13645, Yuke Zhu 组, 2026-04-15)	首次对 co-training 做理论+实证机制分析：structured representation alignment + importance reweighting	B0 间接支持（数据策略方法论化）；B1 弱下行累积（飞轮深度壁垒被稀释）；project: science-of-co-training.github.io
Goal2Skill (2604.13942, 2026-04-15)	VLM-planner (high-level 记忆+错误纠正) + VLA-executor (diffusion + geometry-preserving filter) 双系统闭环，RMBench 长时程 32.4% vs 9.8% baseline (~3.3× gap)	B6 分层第 5 条独立信号（叠加早前累积至 8+ 条）；B3/B7 弱正向
SpaceMind (2604.14399, 2026-04-15)	模块化 self-evolving VLM agent for on-orbit servicing；Skill Self-Evolution from failures 无需 fine-tuning，sim→real 零代码迁移，5 卫星×3 任务×2 环境失败恢复 100%	B3 定义性信号：prompt-level 自进化 vs 模型权重更新闭环的概念分化；B6 弱累积
EEAgent (2604.13533, IJCNN 2026)	Long-Short Term Reflective Optimization (LSTRO) 动态 prompt 精炼，VIMA-Bench SOTA	B3 弱累积（prompt-level 自进化第 2 条同日）
HiST-AT (2604.15215, 2026-04-16)	双层 VQ Hierarchical Spatiotemporal Action Tokenizer，重建动作+时间戳，in-context imitation SOTA	Phase 1 反相变第 7 条（离散 tokenizer 持续活跃）
R3D (2604.15281, 2026-04-16)	诊断 3D policy 失败原因（缺 3D aug + BatchNorm 有害），Transformer 3D encoder + Diffusion decoder 超越 3D baselines	B5 弱反方（FM vs Diffusion head 选择仍未收敛）
HRDexDB (2604.14944, Hanbyul Joo 组)	1.4K 人+机器手抓取+触觉+多视角 dataset	B8 弱正向（触觉 dataset 第 1 条近期，但规模小）
UMI-3D (2604.14089)	UMI 扩展 LiDAR 到 3D spatial perception，开源，可变形物体新任务	B1 数据采集工具弱正向
DEX-Mouse (2604.15013)	$150 force-feedback 便携遥操作，86.67% 任务成功率	B1 硬件普及化弱正向
DockAnywhere (2604.15023, RA-L)	Mobile manipulation 数据增强（docking point lifting + point cloud 空间编辑）	B1 弱正向
Switch (2604.14834)	Skill Graph + whole-body tracking + online scheduler 人形 agile skill 无缝切换	B6 弱累积
FIDeL (2604.13788, ICRA 2026)	Optimal transport + conformal prediction + VLM semantic filtering 分离 benign anomaly / 真失败	B3 闭环前提弱信号
Nonasymptotic BC Theory (2604.14484)	首个 gain-dependent BC 失败 nonasymptotic 理论：compliant overdamped 最优	B2 间接（BC 工程参数理论）
MBRL Biped with Passive Dynamics (2604.14565)	MBRL + 被动弹性 = robust energy-efficient biped 运动	Phase 2×4 弱累积（limited to locomotion）
SimpleVLA-RL (小红书 04-17 帖 8, 清华+上海 AI Lab)	单轨迹 SFT + RL 将 LIBERO-10 17→91%，LIBERO-Avg 48.9→94.1%	B2 弱正向（单轨迹数据稀缺场景路线）
TouchAnything (小红书 04-17 帖 15, SJTU 杨朔)	EgoTouch 数据集 + 首个视频→双手触觉估计模型	B8 弱正向（视频→触觉新数据路径）
新增 04-22 回溯补扫（2604.09-17 段空洞）
Touch Dreaming/HTD (2604.13015, CMU+UT Arlington+Bosch, 04-14)	Humanoid Transformer + latent tactile dreaming 辅助（同时预测 action chunks + 关节力 + tactile latents），latent tactile > raw tactile +30%，5 contact-rich 任务 +90.9% 相对提升	B8 方法论级累积第 8 条；跨模态 latent 预测规律（WAV+GIRL+ViVa+Touch Dreaming）；Phase 3 升至 12.5-13/10，Phase 4 升至 17/12
LIDEA (2604.10677, SJTU Cewu Lu+Yong-Lu Li, 04-12)	双阶段蒸馏 + 3D 几何对齐，人类视频→机器人策略 embodiment gap 桥接，声称 80% 机器人演示可由人类视频替代	B1 绕过路径第 N+1 条；C1 架构贡献第 N+1 条（距升格阈值仅 5%）；B0 张力（数据维度扩大 vs 架构性贡献并存）
VLA-World for AD (2604.09059, SJTU+Huawei, 04-10)	自动驾驶域 VLA + WM 统一架构，action-derived 可行轨迹引导下一帧图像生成 + 对 self-generated 未来帧 reflective reasoning	Phase 4 AD 跨域扩散子赛道首标；与 04-20 坦克 700 Coffee Pilot 4.0 车规量产 research+product 双轨共振 10 天 gap
I2RLC (2604.16850, OMRON SINIC X+Waseda, ~04-20)	10× 演示加速 + 接触丰富 peg-in-hole 100% 成功率的 IRLC 增量精炼	B2 中性 / B1 绕过弱反方（算法性绕过数据采集瓶颈）
Web-Gewu (2604.17050, ~04-21)	Browser-based 交互式 RL playground，WebRTC 云边协同	B1 工程门槛下降第 7+ 条，RL 训练民主化基础设施
Mini-BEHAVIOR-Gran (2604.17019, ~04-21)	指令粒度 U 形效应 benchmark，指令设计成为 VLA 性能杠杆	B0/B3 benchmark 工具
Seeing Through Touch (2604.11579, KAIST+UNIST, 04-13)	触觉驱动视觉材质定位（perception，非 policy）	B8 弱间接（tactile-grounded material segmentation）
新增 04-24 paper-scan（2604.18-22 段补扫）
Cortex 2.0 (2604.20246, Sereact AI 工业, 04-22)	工业 VLA + visual latent space WM + Process-Reward Operator + flow-based heads 四级显式分层；单/双臂 4 任务 SOTA VLA 全面超越	B4 70→75% (+5%) 触发预测 #11；首个 latent-WM planner 工业级背书；B6 第 11 条分层信号；C2 最强反证
RoboWM-Bench (2604.19092, 04-21)	manipulation-centric video WM 物理可执行性 benchmark；SOTA video WM 失败模式量化	B4 中-强反方（video WM 路线）；C2 弱正向（下限保护）
Curiosity-Critic (2604.18701, 04-20)	累积预测误差作为 WM 训练 intrinsic reward；自动分离 epistemic vs aleatoric error	B4/B3 弱正向（WM 训练方法论）
GNWM (2604.16585, Western Digital, 04-19)	balanced continuous entropy 约束 + topological quantization 自稳定 WM	B4 弱正向方法论级
新增 04-25 daily-digest（2604.20-23 段）
Hi-WM (2604.21741, Tsinghua/PKU/U.Toronto, 04-23)	Human-in-the-World-Model — 学习 WM 作为 reusable corrective substrate, post-training 失败矫正脱离物理执行/真机/操作员监督	latent-WM 第 5 团队（B4 维持 75%）；B2 弱反方（in-WM post-training 替代物理 RL）；B3 机制级闭环弱正向；预测 #17 追踪 Tier-1 复现
2604.21192 "How VLAs (Really) Work In Open-World" (04-23)	BEHAVIOR1K 50 任务评估方法论 — 揭露 SOTA 在 open-world long-horizon 系统性高估真实部署能力 (RLC + Comet)	B1 强反方累积（B1 77→72% 审计弹药再加码）；B0 间接弱正向（评估方法论改进）；B6 弱正向（长时程 = 分层必要性）
EmbodiedMidtrain (2604.20012, 04-21)	VLM↔VLA 数据分布对齐 mid-training 阶段；lightweight learnable proximity estimator + curated mid-training	B0 弱正向（数据策略 mid-training 维度）；B7 弱反方间接（representation alignment vs 解耦）
新增 04-26 daily-digest（2604.20-21 段补扫第 4 次）
PokéVLA (2604.20834, 04-21 段, 04-26 回溯发现)	Pocket-sized VLA — 1.22B params + 双阶段训练（PokeVLM 多模态 pre-training 2.4M 样本 + 多视角 goal-aware semantics + geometry alignment + novel action expert）；LIBERO 98.2% / Long suite 95.2%（CoT-VLA 69 / WorldVLA 54, +26.2pp gap）	B9 累积第 7 条独立信号（参数预算结构性新低）；维持 75%（LIBERO 接近饱和需打折，单条不达 ±5% 门槛）；C1 弱反方间接（架构创新+数据 curation 协同 ≠ 纯架构创新单因主导）
新增 04-27 paper-scan v3.5.3（2604.18-25 段补扫，daily-digest 漏过 6 篇）
🔺 CorridorVLA (2604.21241, 04-23)	稀疏空间锚点（Δ-position 增量物理变化）→ corridor tolerance loss 约束 flow-matching action head；跨 SmolVLA + GR00T 双 backbone 验证；LIBERO-Plus +3.4% ~ +12.4%；GR00T-Corr 83.21%	B5 / B7 弱正向（FM head 仍主流且可被增强；保持解耦同时注入空间先验）；C1 (35% ⚠️) 弱-中正向累积 = 显式空间约束第 3 条独立信号（VGA + ProGAL-VLA + CorridorVLA），距升格阈值仅 4-5pp
UniT (2604.19734, XPENG Robotics + Tsinghua + HKU, 04-21)	Unified Latent Action Tokenizer via Visual Anchoring；三分支 cross-reconstruction (action↔vision↔fusion) → unified discrete latent action token；二联应用 = VLA-UniT (policy) + WM-UniT (world model)	B1 弱负向（人类视频替代第 5 条 + 首个 industrial-led 案例）；B4 弱正向（latent-WM 应用变体第 3 条 = Cortex 2.0 / Hi-WM / WM-UniT，#16 工业级跟进口径仅部分工业含量）；B6 弱正向（分层第 11+ 条）；B7 弱负向（unified token vs decoupled）；C3 中性偏负
AEL (2604.21725, Rutgers, 04-23)	双时间尺度 self-evolution = Thompson Sampling bandit (memory retrieval) + LLM 反思（causal insight 注入 prompt）；LLM agent in open-ended environments（非 robotics 域）	B3 弱负向累积：prompt-level self-evolution 第 8+ 条（继 SpaceMind/EEAgent/KITE/FIDeL/ChemBot/WALL-B/EvoAgent）；定义切分议程（"权重闭环" vs "prompt/memory 闭环"）继续累积压力
EvoAgent (2604.20133, 04-22)	主-子 agent 分层 + 三阶段 skill matching + 三层 memory；foreign trade 域；GPT5.2 +28% LLM-as-Judge 平均分	B3 弱负向累积（prompt/skill 进化第 9 条，非 robotics 域权重 0.5）；B6 弱正向（hierarchical sub-agent 第 12+ 条，非 robotics 域权重 0.5）；不变更置信度
SynAgent (2604.18557, 04-20, NJUST)	Solo-to-cooperative humanoid manipulation；Interact Mesh + Delaunay tetrahedralization 维持空间关系；Conditional VAE policy + multi-agent PPO	B1 弱反方（人类数据 bootstrap → multi-agent humanoid 替代路径）；B6 弱正向（multi-agent cooperative = sub-system 分层）；记录"协作人形"细分赛道形成中
EUEA (2604.19839, UNIST, 04-21)	Environmental Understanding VLM 微调 4 种 skill（object perception / task planning / action understanding / goal recognition）+ GRPO 一致性细化	B6 弱正向（skill 分解第 N 条）；不变更置信度
新增 04-29 paper-scan v3.6.1 + 05-04 daily-digest v3.5.8（2604.26-28 + 2605.00 段 50 篇扫描）
🔴 LWD (2605.00416, Yi Wang + Jianlan Luo et al., Berkeley 系, 2026-05-01)	Learning while Deploying — fleet-scale offline-to-online RL + DIVL (Distributional Implicit Value Learning) + QAM (Q-learning via Adjoint Matching) for flow-based VLA；deployment → rollouts + interventions → updates → redeploy 完整闭环；16 dual-arm 机器人 / 8 真实任务（含 semantic grocery restocking + 3-5min long-horizon）/ 单一 generalist policy 平均 95% 成功率 / long-horizon gain 最大	🔴 B1+B2+B3 三节点同步 +5%（B1 72→77 / B2 77→82 / B3 72→77）；第一篇决定性反驳 04-17 社区共识；第一篇方法论级"权重闭环"真机大规模验证 + fleet-scale 数据飞轮方法论级实证；新预测 #22 立项（3 月复现追踪）
🔺 Being-H0.7 (2605.00078, BeingBeyond Team / Beihang + PKU 系, 2026-04-30)	Latent World-Action Model from Egocentric Videos — learnable latent queries 作为 perception↔action 紧凑推理接口；future-informed dual-branch（deployable prior + training-only posterior）；推理时丢 posterior 零 visual rollout；6 sim benchmark + diverse 真实任务 SOTA	第 6 个独立 latent-WM 团队 + PFD-style sub-route 第 2 篇（PFD 不再孤立）；B1 中-强反方第 6 条（人类 ego-video 替代）；B4 维持 75% 校准上限（学术变体不计 #16）；Phase 4 25→26/12
🔺 MotuBrain (2604.27792, ShengShu Technology + Tsinghua, 2026-04-29)	三流 Mixture-of-Transformers 统一架构；5 distributions inference (VLA / WM / video / inverse / joint)；WorldArena EWM 63.77 + RoboTwin 2.0 96.0（唯一 randomized >95）；unified multi-view + cross-embodiment 统一动作表示	第 7 latent-WAM 团队 + 第 2 条 industrial-led（Cortex 2.0 后）；强候选触发预测 #16 (B4 75→80%) —— ShengShu (UniDiffuser 团队) industrial 边界判定 5 月中假设审计 P0 决定；C2 反证 / B6 弱正向 / B0 中性偏负
🔺 LaST-R1 (2604.28192, 2026-04-30)	Reinforcing Action via Adaptive Physical Latent Reasoning；两阶段 RL pipeline + Clip-GRPO 算法 + annotation-free process-based grounding reward；引入 latent CoT reasoning + LAPO；LIBERO 99.8% 平均（接近饱和打 0.4-0.5x 折扣）+ 真机 +44%	B2 中正向（解决"real-world RL 物料被干烂"痛点 + LWD 共振）；B7 弱正向（双层 policy 与 π0.7 Knowledge Insulation 同向）；B4 弱正向（latent CoT 套利 #6 同向）
🟡 Embodied Interpretability (2605.00321, ICML 2026 主会接收, 2026-05-01)	Causal/Interventional attribution for VLA — ISS (Interventional Significance Score) + NMR (Nuisance Mass Ratio)；揭露 illusion of embodied reasoning + 4 失败模式（lexical-kinematic shortcuts / behavioral inertia / causal state tracking failures / semantic feature collapse）；VLA 内在 trade-off (capacity compression vs perceptual abstraction)	C1 (35% ⚠️) 同向第 4 条独立信号 = VGA + ProGAL-VLA + CorridorVLA + Embodied Interp；距升格阈值仅 5pp；下次假设审计正式审查 C1 升格；B0 弱反方（结构性架构瓶颈不可被纯数据工程解决）；提供"论文 vs 复现 2-3x 衰减"机制性解释
🟡 ExoActor (2604.27711, BAAI, 2026-04-29)	Exocentric Video Generation as Generalizable Interactive Humanoid Control — 第三人称视频生成 → human motion estimation → 通用 motion tracking → humanoid 行为；端到端无需 task-specific data collection	B7 反方第 4 条独立信号（视频生成即策略路线；继 Action Images / ViVa / Video Generators are Robot Policies）；B1 弱反方；C3 中性偏支持
🟡 Lucid-XR (2605.00244, MIT + UCSD + UCB, 2026-05-01)	Extended-Reality Data Engine for Robotic Manipulation — vuer (web-based physics sim on XR headset) + on-device retargeting + physics-guided video generation；零样本迁移到真机凌乱/低光场景，全部 Lucid-XR 合成数据训练；Xiaolong Wang + Phillip Isola + Ge Yang 强 senior author	B1 反方（合成数据替代真机数据第 N+1 条）；B0 弱正向；C1 (35% ⚠️) 弱反方（数据工程主导）；CoRL 2025 conference 兜底投稿
🟡 Robot Learning from Human Videos: A Survey (2604.27621, 2026-04-29)	LfV survey 系列第二条（继 2024 "Towards Generalist Robot Learning from Internet Video"）	B1 弱反方（LfV 已成 sub-field）；不直接累积置信度
🟡 World Model for Robot Learning: A Comprehensive Survey (2605.00080, 2026-05-01)	WM survey（与 2510.16732 / 2511.02097 同类）= WM 已成 well-defined sub-field（survey 数 ≥3 学科化标志）	Phase 4 +1 元信号；C2 弱反方（survey 频率提示研究热度持续）
🟡 Physically Native World Models (2605.00412, 2026-05-02)	A Hamiltonian Perspective on Generative World Modeling — 物理 prior 注入 WM；RoboWM-Bench (04-21) 之后第一条主动建模物理可行性的论文	B4 弱正向（路线分化进一步明朗）；C1 (35% ⚠️) 弱-中正向（物理 prior 是显式架构创新不可被数据解释）
OpenWorldLib (社交情报 2026-05-01, 北大 DCAI + 快手 Kling + 上海算法 + 中关村学院)	统一世界模型推理框架；显式统一 VLA 控制接口；多模态推理流程碎片化解决方案	弱 pro-B4 + 弱 pro-B6（标准化议程）；中国产学研协作信号

| 新增 05-06 paper-scan v3.6.2（2605.01xxx ~ 2605.039xx 段 ~136 篇扫描，6 强 + 10 中信号） | | | | 🔺 MolmoAct2 (2605.02881, AI2 Allen AI, 2026-05-04) | 完全开源 frontier-class action reasoning model；MolmoER spatial-and-embodied-reasoning VLM + 3.3M-sample corpus + specialize-then-rehearse + OpenFAST 跨 5 embodiments tokenizer + 720h teleoperated bimanual 迄今最大开源 + flow-matching continuous action expert grafted onto reasoning VLM | 第 2 个 frontier-class "data + recipe > 架构" 背书（继 π0.7）；B0 / B1 / B7 中-强正向累积；议程 P1 立项 "B5 内部 FM vs FAST 拆分" | | 🔺 Latent Bridge (2605.02739, Duke Yiran Chen / Hai Li, 2026-05-04) | Feature Delta Prediction for Efficient Dual-System VLA Inference；跨架构 GR00T-N1.6 (feature-space) + π0.5 (KV-cache) + task-agnostic DAgger pipeline；95-100% 性能保留 + 50-75% VLM call 减少 + 1.65-1.73× 加速 | 新窗口 #9 dual-system inference acceleration 触发第 1 篇；B6 / B7 工程级强背书；B9 累积第 8 条距 +5% 一篇之遥 | | 🔺 RoboAlign-R1 (2605.03821, 2026-05-05) | Distilled Multimodal Reward Alignment for Robot Video WM；RobotWorldBench 10K + RoboAlign-Judge 6 维 + lightweight student reward model + SWR training-free inference | B4 第 5 条 video-WM-as-data-engine + 第 6 sub-route reward-aligned WM 新维度 cross-Phase 4×2；Phase 4 计数器 28/12 | | 🔺 VLA-ATTC (2605.01194, Wenhao Li / Xiu Su 系, 2026-05-02) | Adaptive Test-Time Compute for VLA "Cognitive clutch" uncertainty 触发 reflexive→deliberation；Relative Action Critic (RAC) pairwise 替代 absolute Q；LIBERO-LONG 失败率 -50%+ vs π0.5 | 🆕 Phase 6 候选 (TTC for VLA) 立项 + 新预测 #23 立项（3 月内非该 cluster 第三方信号到期 2026-08-06） | | 🔺 Sentinel-VLA (2605.01191, 同作者 cluster, 2026-05-02) | Metacognitive VLA active sentinel 持续监控 + on-demand reasoning + SECL self-evolving + OC-Adapter (Orthogonal Continual Adapter) 防遗忘；真机 vs PI0 +30% | B3 三分类 hybrid 路径第 1 条（OC-Adapter weight-level 防遗忘介于 prompt-loop B3b 与 weight-loop B3a 之间） | | 🔺 Hydra-DP3 (2605.01581, UCB, 2026-05-02) | 频域分析 diffusion-based visuomotor policies；理论证明 optimal denoiser 误差被 low-frequency subspace 维度 + residual high-frequency energy bound；2-step DDIM 充分；pocket-scale 3D DP + Diffusion Mixer decoder + <1% prior 3D DP params + 真机 SOTA | Phase 1 反相变第 13 条决定性数学证据（前 12 条多为工程实证）；B9 累积第 9 条；C1 升格累积第 5 条距阈值 5pp → 下次假设审计正式审查 C1 升格 P0 | | 🔺 OGPO (2605.03065, 2026-05-04) | Off-policy Generative Policy Optimization；off-policy critic + 完整 generative process 反向传播 policy gradient + critic-as-terminal-reward；唯一从 BC 烂初始化 finetune 到接近 task success（无 expert data online）的方法 | B2 累积（5 篇 14 天 RL 工程化双周三连 + LWD + LaST-R1）；解决 04-17 Jupiter Zhai "BC 烂初始化救场"痛点 | | 🔺 FAN (2605.01663, 2026-05-03) | Flow-Anchored Noise-conditioned Q-Learning；flow policy + distributional critic 但单次 flow iteration + 单 Gaussian 样本 大幅效率提升同时 SOTA；理论证明 simplification 不仅效率提升还提升性能 bound | B2 累积；Phase 1 反相变 13/15 不增（FM 主流地位由 flow + RL 工程化巩固） | | 🔺 EnergyFlow (2605.00623, 2026-05-01) | Recovering Hidden Reward via energy function whose gradient = denoising field；证明 score function 学习 = expert soft-Q gradient 恢复 无 adversarial 训练即可提取 reward；conservative field 约束 tighten OOD bound | B2 累积；解决 reward shaping 痛点；提供 IRL 与 generative policy 桥接理论 | | Anticipation-VLA (2605.01772, 05-03) | Long-horizon embodied tasks via adaptive recursive subgoal generation；hierarchical UMM + goal-conditioned VLA execution | B6 弱正向 / B3 弱正向间接 | | BifrostUMI (2605.03452, 05-05) | Robot-free demonstration → humanoid whole-body manipulation；VR-based portable demo + keypoint trajectory + retargeting + WBC（UMI 系列 humanoid 扩展） | B0 / B1 中正向累积 | | Bridging Embodiment Gap (2605.03637, 05-05) + Seeing Realism (2605.02757, 05-04) + Decompose-and-Recompose (2605.01448, 05-02) | sim-to-real video augmentation / disentangled cross-embodiment video editing / atomic skill-action pairs 跨任务泛化 | B0 / B1 中正向累积（4 条本周 data engine 信号 + MolmoAct2 = +5% 候选） | | IVLR / Thinking in Text and Images (2605.00438, 05-01) + VILAS (2605.02037, 05-03) + Semantic Autonomy Framework (2605.02525, 05-04) + LiteVLA-H (2605.00884, 04-27 段补) | interleaved vision-language reasoning / Fairino + Jodell + π0/π0.5/GR00T N1.6 三模型并行 / 6-layer reference framework + 88% 指令 <0.1ms / 256M VLA aerial Jetson AGX dual-rate | B3 / B6 弱累积；B9 弱正向（aerial dual-rate） |

12. 开源基础设施与工具链

工具	类别	最新版本	定位
LeRobot	训练框架	v0.5.0 (2026-03)	事实标准，集成 X-VLA backbone
StarVLA	训练框架	(2026-04)	模块化全栈框架，VLM+WM backbone 可 swap，多 action head
Isaac Lab	仿真+RL	-	GPU 并行训练首选
MuJoCo	物理引擎	v3.6.0 (2026-03)	精细接触仿真
SAPIEN	仿真	v3.0.3 (2026-03)	零件级交互
Genesis	仿真	v0.4.3 (2026-03-16)	新兴综合仿真
GELLO/ALOHA	数据采集	-	遥操作硬件方案

开源分级：展示型(算法 demo) < 生态锁定型(厂商工具) < 基础设施型(全 CAD+栈+know-how 透明) 工具链正在快速收敛，继续维护独立训练代码库的团队将面临"无人复用"困境。

13. 产品与市场

PMF 真标准：持续用户留存 + 可量化 ROI + 可靠性验证（非 demo 级别）
人形机器人：Figure/Tesla/1X/Agility 领跑，中国 Unitree/LimX/银河通用追赶；2026 年进入小批量产线部署但距大规模量产仍有 2-3 年
产业与学术脱节：学术卷 LIBERO 99.2%→99.5%，产业谈"产线部署""量产基地"——当基准分数与客户付费标准脱钩，学术研究合法性基础正在松动

14. 高频面试要点

Q: VLA 和传统机器人学习有什么本质区别？ A: 传统方法是模块化流水线(感知→规划→控制)，VLA 是端到端：视觉+语言直接映射到动作。优势是涌现泛化能力，代价是可解释性和安全保障。

Q: 为什么 Flow Matching 胜出？ A: Diffusion 走随机路径需 50-100 步去噪，Flow 走最优传输直线仅需 1-10 步。同等精度下推理快 10 倍+，首次让大模型支持 50Hz+ 实时控制。OFP 进一步证明单步 flow 可超越多步版本。

Q: VLA 最大瓶颈是什么？ A: 数据。真机数据采集成本是 #1 约束（1 小时数百元，无法覆盖长尾）。三条绕过路径：互联网视频跨模态迁移、World Model 生成合成数据、Sim2Real。

Q: RL 后训练为什么是突破口？ A: BC 只能学到专家分布内行为，分布外崩溃。RL 通过在线探索收集分布外数据 + 自动奖励(VLM 打分) → 突破 BC 天花板。π0.6 Recap 是典型代表。

Q: 触觉为什么重要？ A: 视觉给坐标，语言给意图，触觉给接触相位真反馈。遮挡下力/形/质不可视觉观测，精密操作的最后 1cm 靠触觉闭环。MoDE-VLA 量化证明：去除力觉-11%，去除触觉-8%。

Q: World Model 当前状态？ A: 从 nice-to-have 预测器 → 评估器 → 规划器 → 动作生成基底演进中。PlayWorld 已证明 WM→RL 闭环可行(+65%)，但接触密集任务的物理幻觉是致命障碍。方法论分化为 pixel/latent/structured/WAM 四条路线。Cosmos 3（NVIDIA 产品化）+ NC AI WFM（25% GPU 成本达 80%性能）= 双工业级信号。置信度 70%↑，Phase 4 持续超临界(60%)。

Q: 小模型能替代大模型吗？ A: 在受限场景可以。Evo-1 (450M) 达 LIBERO 94.8%，仅 RT-2 参数的 1.4%。GigaBrain-0-Small(840 GFLOPs, 0.13s, 80%)进一步验证。AutoQVLA(ICLR 2026)节省30% VRAM。RoboECC 边缘云协同将延迟从 1274→362ms。置信度已升至 70%。但开放世界泛化仍需大模型。

Q: SimVLA 的启示？ A: 0.5B 模型通过正确训练 recipe（数据 shuffling、归一化、LR schedule）达 98.6% LIBERO。关键："沉默旋钮"(shuffling off = 9.9% vs on = 98.6%) 比花哨模块重要得多。数据策略 > 架构创新(B0)的直接证据。

Q: Knowledge Insulation 是什么？ A: 双轨训练防灾难性遗忘：VLM backbone 只学离散 token（保留语义能力），Action Expert 独立学连续控制，梯度隔离不互传。π0.6 核心技巧之一。

Q: 当前领域最大风险？ A: 学术与产业脱节。学术在 LIBERO 上刷 0.3% 提升，产业需要"产线任务成功率""维护周期"。工具链(LeRobot)收敛加速了实验民主化，但 54 篇 RL 论文中多数是调参报告而非方法创新——"工具易得≠方法成熟"。

Q: ICLR 2026 揭示了什么？ A: 164 篇 VLA 提交(18× 年增长)。关键发现：VLM backbone 大小与 VLA 性能无关(VLM4VLA)；LIBERO 已饱和；Discrete Diffusion VLA 是新兴趋势(4篇并发)；零样本差距依然巨大——开源 VLA 远落后 π0.5/Gemini-Robotics。

15. 校准纪律（使用本记忆时的注意事项）

谦逊折扣：所有 >80% 置信度已乘 0.9（LLM 在此区间系统性过度自信）
保守偏误修正：强证据最小更新 ±5%，Bull+Bear 共识最小 ±10%。禁止 2-3% 安慰性微调——要么 ≥5% 要么不调整(记录为观察中)
逆共识保护：逆共识信号的筛选阈值为正常的 1/3（防止系统性杀死异见）
高确定性 = 高风险：你最确定的判断，恰恰是最需要被挑战的
生存者偏误警告 🔴：系统零失败案例记录。每次分析需主动搜索失败/无法复现/部署失败信号
本文档截止日期：2026-05-28，VLA 领域每周都有重大变化

生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → 17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.25 2026-05-21 (incremental scheduled task — 🟡 triple-report day (paper-scan v3.6.12 → daily-digest v3.6.13 → convergence-radar v3.6.14) / 0 net confidence changes: paper-scan caught 3 confirmed VLA-relevant papers (abstract-only, web_fetch 429): MoLA (2605.12167, Fudan/Surrey/Imperial, ~05-12) mixture of latent actions from imagined-future video via mixture of pretrained inverse dynamics models, solves video-realism↔control-relevance mismatch = B4 latent-WM↔video-WM bridge independent signal + Phase 4 anti-phase counter 38→39/12 = 3.25× historical max (C2 15% floor reinforced; B4 +5% blocked by calibration ceiling deadlock) / WarmPrior (2605.13959, ~05-13) temporally-grounded prior from recent action history replaces Gaussian source → straighter probability path (Rectified-Flow-OT-coupling-like) + reshapes prior-space RL exploration = B5 weak-positive (FM-internal refinement, NOT counted in Phase 1 anti-phase 14-15/15) + B2 weak-positive / DeMiAn (2605.17077, ~05-16/17) dense multi-aspect language annotation (physical-motion/scene-composition/arm-pose/reasoning 4-axis VLM re-annotation) on 1M+ manipulation clips + 50K EgoVerse ego-video, no new data, simultaneously boosts VLA policy + video-WAM = B0 strong-positive single-empirical ("language density as data-side lever to extract more signal from fixed corpus" = data-engineering>architecture, blocked by B0 77% ceiling deadlock) + C3 weak-opposing/scope-boundary reinforcement (manipulation-domain dense language still useful → validates 05-17 C3 +5% AD-only scope note; manipulation/humanoid generalization unverified) + B1 weak-positive; segment-numbering SOP 16th retroactive discovery (MoLA + WarmPrior both within 05-14/05-15 claimed "2605.0712 / 2605.11~~15 enumeration" yet missed; 2605.12 segment 2nd-time miss) → segment-enumeration SOP v2 draft P0 hardened; **2605.16~~18 segment index-delay hypothesis CONFIRMED* (05-18 judged segment empty + predicted "latest 2-3d arxiv segments typically lag 3-5d"; this run +3d DeMiAn 2605.17077 now indexed = prediction HIT, positive calibration record); AT-VLA + Hand-in-the-Loop (2605.15157) 2nd cross-ref failure → permanently dismissed (per RotVLA 2605.13403 SOP; Hand-in-the-Loop persistently maps to DexHiL 2603.09121); calibration ceiling deadlock now spans 4 nodes B0/B4/B6/B7 (DeMiAn adds 1st explicit B0 empirical pressure → v3.5.6 ceiling-framework 3-option proposal now has cross-4-node pressure = framework-level systemic deadlock, strongly recommend next hypothesis-audit priority); convergence-radar v3.6.14: Phase 4 theme-classification correction — GuidedVLA reclassified B7/C1 (action-decoder attention head) NOT WM → radar-corrected 38/12 = 3.17× (BG口径 39/12 = 3.25×); industrial latent-WAM convergence = strongest weekly trend (Cortex 2.0 / MotuBrain / Pelican-Unified 3 independent industrial teams + XPENG X-World + MoLA bridge), prediction #16 quantity 3/1-2 overshoot but B4 +5% blocked = framework problem not evidence problem; Arbiter: WM convergence real but nature changed (academic-frontier → industrial-infrastructure downgrade, like tactile maturation), "3.25×" must NOT be misread as "WM is hot research direction" (opposite); radar added 2 P0 (Phase-counter theme-classification discipline + "recent-velocity flow" companion metric, current counters monotonic stock can't capture biweekly world_model accel 0.69 decay); macro engineering convergence (biweekly): language_grounding 1.57 (sole SURGE) / world_model 0.69 decay / diffusion_policy 0.42 decay = "FM + RL post-training + language-direct-grounding" golden triangle = engineering-deployment narrative inflection; social intel 05-19/05-20 (daily-digest exclusive): Figure 03 77h uninterrupted autonomous sorting (no human intervention) + Faraday Future $25M convertible + 萝博派对 angel+ (顺为/Xiaomi) + 矩阵超智 MATRIX-3 (33+27 DoF, Q3 mass-production) + 远征A3 RaaS + 云深处 IPO accepted (2nd A-share humanoid after Unitree) = 6 product-launch/funding/IPO/RaaS signals, ZERO touching VLA core research, only indirectly weaken B0-saturated direction; system-level meta-signal: last belief "decrease" = 04-26 (B1/B3 ↓), now 25d ago (< 30d alert but 5d away); all changes since 05-04 are ↑ = "only-up" regime, OPPOSITE to node-level (B5/B6/B7/B8) "should-decrease-but-didn't" conservative bias — two biases coexist, exposing dual cost of calibration deadlock → next hypothesis-audit meta-layer review; conservative bias state (2026-05-21, +3d vs 05-18): B0 34d / B1 25d / B2 软17d 严50d 🔴 / B3 25d / C3 4d / B4 27d / B5 51d 🔴 / B6 77d 🆘 (67d ceiling reflection +10d) / B7 软22d 严67d ⚠️ (crossed 67d ceiling reflection line) / B8 65d 🔴 / B9 36d; 5 nodes persistently over threshold [B5/B6/B7-strict/B8/B2-strict]; prediction countdown: #9 closed (05-17) / #16 quantity met but trigger blocked / #19 = 40d / #22 = 75d / #23 = 77d / #24/#25 = 85d / #26 = 177d / #27 distance to 06-05 = 15 days < 3-week critical monitoring period (no top-lab arxiv rebound; per v3 calibration rule 2, no rebound by 06-05 → "academic-industrial new equilibrium" meta-hypothesis +5% time-as-evidence); top-lab arxiv strict silence day 49 (04-06~05-21 longest-ever, this batch 3 confirmed papers zero top-lab = China/UK university chain Fudan/Surrey/Imperial/Tsinghua); agenda backlog ≥10 P0 + radar new 2 (Phase-counter classification + flow companion metric), calibration ceiling deadlock highest-priority unresolved framework blocker; ⚠️ GitHub push status: v2.0.21+v2.0.22+v2.0.23+v2.0.24+v2.0.25 five versions cumulative un-pushed [git log latest 01617b8 = 05-14 v2.0.20]; this run attempts bash push (sandbox mount in-sync this session: both files readable + md5), PowerShell fallback prepared. line shift +2 [§9.1 daily snapshot +1, footer +1] → file 911 → 913 lines → §0 Source Map §9-§15 ranges +1. /v2.0.24 base context inherited below)*

生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → ~17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.24 2026-05-18 (incremental scheduled task — 🟧 dual-report day / segment-numbering SOP 15th-occurrence retroactive discovery of 5 missed VLA-relevant papers / 0 net confidence changes but significant structural agenda pressure: today two reports generated — (1) 2026-05-18-daily-digest.md overnight run = zero-new-data day [24h 0 new VLA-relevant arxiv + vla-social-intel/2026-05-18.md absent + xhs/2026-05-18-.md absent + industry news JAL-Haneda + Agility-Toyota + Figure Helix-02 all non-VLA-architecture or already processed]; BELIEF_GRAPH.md v3.6.9 → v3.6.10-incremental-daily-0518; (2) 2026-05-18-paper-scan.md = segment-numbering SOP 15th retroactive discovery of 5 papers missed by 05-14 / 05-15 paper-scan claimed "2605.07~~12 enumeration" + "2605.11~~15 enumeration": ALAM (2605.10819, 05-11) algebraically consistent latent action + frame triplets + composition/reversal regularization + joint flow-matching co-generation [MetaWorld MT50 47.9→85.0% +37.1pp weak-baseline reservation + LIBERO 94.1→98.1% saturation discount reservation + additivity-reversibility errors -25-85×] = C1 weak-mid positive 8th + Phase 4 +1 [latent transition] / SEVO (2605.11114, 05-11, FelixFtch) semantic-enhanced virtual observation + active red illumination + diversified data collection ablation directly validates "data > architecture" [ACT 95→85% / SmolVLA 83→75% novel env transfer gap 10%] = B0 weak-positive Nth / C1 weak-opposing / GuidedVLA (2605.12369, 05-12) plug-and-play action attention head specialization [object grounding / spatial geometry / temporal skill logic three-head supervision] = B7 mid-positive Nth + C1 weak-positive 9th + Phase 4 +1 [attention head] / 🟠 Pelican-Unified 1.0 (2605.15153, X-Humanoid, 05-14) unified VLM + Unified Future Generator [UFG] joint future video + action denoising + 64.7 VLM same-param SOTA + WorldArena 66.03 #1 + RoboTwin 93.5 avg #2 [Bear: 2nd ≠ 1st + benchmark cherry-pick risk + X-Humanoid no PI/Figure/NVIDIA-tier endorsement] = 3rd industrial latent-WAM independent signal [Cortex 2.0 / MotuBrain / Pelican-Unified] formally satisfies prediction #16 "next-quarter 1-2 industrial-level follow-ups → B4 75→80%" quantity condition 3/1-2 overshoot, but trigger condition blocked by B4 75% calibration ceiling deadlock → escalated to P0 agenda + simultaneous adjudication of calibration ceiling rule 3-option proposal + B6 unified weak-opposing 1st + B7 weak-opposing Nth + Phase 4 +1 [UFG] / Hand-in-the-Loop (2605.15157, ~05-14/15) dexterous VLA seamless interventional correction [title + authors verified, paper details cross-ref 3-attempt failure 1-strike pending dismiss] + 1-strike candidate AT-VLA "Adaptive Tactile Injection" cs.RO listing appears but 3-attempt arxiv ID cross-ref failure → 1-strike pending dismiss; Phase 4 (WM closed-loop) anti-phase counter 35/12 → 38/12 = 3.17× historical max [+ALAM latent transition / +GuidedVLA attention head / +Pelican-Unified UFG, far exceeding 30 forced structural re-estimation threshold + approaching 40 = 4× critical line]; C1 (architectural innovation regression, 35%↑⚠️) same-direction independent signal chain accumulated to 9 ≥ mid-strong 6, distance to 40% escalation threshold still 5pp unchanged, but inverse-consensus protection ΔI threshold 1/3 already in effect → C1 escalation review elevated to next hypothesis-audit P0; 0 net confidence changes [all strong-evidence signals blocked by v3 calibration discipline under calibration ceiling deadlock + single-paper not meeting ±5% threshold]; 5 new P0 agenda items: (1) Calibration ceiling framework 3-option proposal adjudication [B4/B7 deadlock 74d/64d threshold breach, Pelican-Unified + ALAM 1st explicit empirical pressure] / (2) Prediction #16 processing / (3) C1 formal escalation review / (4) Segment-numbering SOP v2 draft [single occurrence found 5 missed, SOP mechanism itself needs upgrade] / (5) B6 unified vs hierarchical sub-issue; 5 new P1 agenda items: ALAM/GuidedVLA/Pelican-Unified 3-paper full-text deep read + Hand-in-the-Loop / AT-VLA arxiv abs cross-ref 2nd-failure dismiss; RotVLA 2605.13403 accumulated 3-attempt cross-ref failures → permanently dismissed [3-strikes-out rule formally triggered]; BELIEF_GRAPH.md v3.6.10 → v3.6.11-incremental-paper-scan-0518; arxiv top-lab strict silence day 46 [04-06~05-18 broke 45d structural escalation line +1d] + this batch 5 confirmed papers zero top-lab [X-Humanoid industrial + SJTU/Tsinghua/HIT Chinese university/industry chain], academic-industrial new equilibrium hypothesis evidence continues to accumulate; prediction #27 top-lab arxiv rebound hard deadline 2026-06-05 distance = 18 days < 3 weeks, listed as daily-tracked item starting 05-19 daily-digest; 05-15 self-reflection 6 human-adjudication items accumulated +3d (05-15→05-18) 0 landing maintains "structural human-adjudication backlog" tag; agenda backlog = 5 from 05-15 self-reflection P0 + 5 new P0 this run = 10 P0 items, calibration ceiling deadlock is highest-priority blocker. conservative bias state (2026-05-18, +1d vs 05-17): B0=31d ✅ / B1=22d ✅ / B2=soft 14d / strict 47d 🔴 / B3=22d ✅ / C3=1d ✅ / B4=24d ✅ / B5=48d 🔴 / B6=74d 🆘 broke 67d ceiling reflection threshold +7d / B7=soft 19d / strict 64d ⚠️ / B8=62d 🔴 / B9=33d ✅; 5 nodes persistently over threshold unchanged [B5/B6/B7-strict/B8/B2-strict]; prediction countdown: #9 = closed [05-17 morning hypothesis-review closed as opposing] / #19 智元 6-30 ddl = 43 days / #22 LWD = 78 days / #23 VLA-TTC = 80 days / #24/#25 = 88 days / #26 = 180 days / #27 distance to 06-05 = 18 days < 3-week critical monitoring period. ⚠️ GitHub push status persistent unresolved: v2.0.21 + v2.0.22 + v2.0.23 + v2.0.24 four versions cumulative un-pushed to origin/main [git log latest still 01617b8 = 05-14 v2.0.20]; PowerShell push this run MUST include all 4 versions as single catch-up commit; recommend daily user-prompt until landing. line shift +4 [changelog +1, §9.1 daily snapshot +1, footer +2] → file 907 → 911 lines → §0 Source Map refreshed. /v2.0.23 base context inherited below)*

生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → 17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.23 2026-05-17 (incremental scheduled task — 🟡 single weak social signal day / dual structural-threshold same-day trigger: daily-digest / paper-scan / xhs all 3 still absent today [reports dir latest still 2026-05-15-daily-digest + 2026-05-15-paper-scan, xhs latest 2026-05-15-auto.md]; only memory/blog/archives/vla-social-intel/2026-05-17.md exists = single weak social signal: XPeng announced 2nd-gen VLA model on 5/15 Tech Day [claims "first mass-produced physical-world LLM" + end-to-end architecture visual-signal-direct-to-action + cross-domain auto/Robotaxi/robot/flying-car + no language translation intermediary] — social-intel report self-assessment "single signal no trend judgment", correctly classified as B1 weak-positive long-term industrial flywheel Nth signal [auto-maker VLA productization 2nd signal after 04-20 Great Wall Tank 700 Coffee Pilot 4.0] + C3 indirect weak-positive [delete-language-intermediary architecture signal but single social-promotional signal lacks 2nd-party verification, fails C3 escalation evidence threshold]; single social-promotional + missing 2nd independent verification → 0 confidence changes any node [v3 calibration §3.2 + 05-12 v2.0.19 new SOP "external declaration-grade signals → mandatory web cross-ref ≥2 independent sources + date + literal quote"]; BELIEF_GRAPH.md unchanged at v3.6.7-incremental-daily-0516 [05-16 daily-digest authority]; 🆘 structural threshold 1 triggered: arxiv top-lab strict silence = 45 days [04-0605-17, hits v3.5.5-registered "≥45d auto-escalation to structural-epistemics problem" integer landmark line, history-max +23 days] — PI / Figure / NVIDIA Research / DeepMind / Tesla / Apptronik / 1X / Amazon / Meta FAIR strict absence persists; per self-reflection v3.6.7 escalation rule, structural-epistemics problem triggered, but this scheduled vla-expert-memory task does NOT autonomously execute escalation adjudication (human / daily-digest / hypothesis-audit jurisdiction), only records threshold-hit; prediction #27 top-lab arxiv rebound hard deadline 2026-06-05 distance = 19 days (buffer-zone consumption begins); 🆘 structural threshold 2 triggered: prediction #9 (π0.7 3rd-party independent reproduction "match specialist") expired = today 2026-05-17 — v2.0.22 §6.1 mandated "05-17 or first daily-digest thereafter MUST adjudicate +5% π0.7 SOTA strong-robustness meta-hypothesis / close #9 as opposing-side"; this task does NOT autonomously execute prediction adjudication (human / daily-digest jurisdiction), only records expiry fact = #9 EXPIRED as of 05-17 with no 3rd-party reproduction signal across v2.0.21/22/23 three WebSearch rechecks, awaiting next daily-digest active adjudication. zero + single-weak input → only value = bias counter +1d + arxiv silence +1 (45d threshold triggered) + prediction countdown + §9.1 daily snapshot + footer/header version + dual structural-threshold same-day trigger record (#9 expired + 45d arxiv triggered). conservative bias state (2026-05-17, +1d): B0=30d / B1=21d / B2=soft 13d / strict 46d 🔴 / B3=21d / B4=23d / B5=47d 🔴 / B6=73d 🆘 broke 67d ceiling reflection threshold +6d / B7=soft 18d / strict 63d ⚠️ / B8=61d 🔴 / B9=32d; B5/B6/B7-strict/B8 four nodes persistently over threshold — B6 calibration deadlock remains v3 framework-level unresolved; 6 human-adjudication items submitted by 05-15 self-reflection still 0-landed at day 2 ["zero-landing corrections" pattern continues to accumulate one more day, ironically matching v3.6.7's own warning about this pattern]. prediction countdown: #9 = EXPIRED 0d (awaiting daily-digest adjudication) / #19 智元 6-30 ddl = 44 days / #22 LWD = 79 days / #23 VLA-TTC = 81 days / #24/#25 = 89 days / #26 = 181 days / #27 = 19 days (top-lab arxiv rebound 2026-06-05 hard ddl, buffer consumption begins after today's 45d trigger — #27 is the structural escalation hard guardrail preventing further indefinite delay); August = 2026's most critical industrial-deliverable verification month at ~75 days. ⚠️ GitHub push status persistent unresolved: v2.0.21 + v2.0.22 + v2.0.23 three versions cumulative un-pushed to origin/main [git log latest still 01617b8 = 05-14 v2.0.20]; PowerShell push this run MUST include all 3 versions as single catch-up commit; recommend daily user-prompt until landing. bash sandbox view check this run: source file = 903 lines / mirror = 903 lines per Edit-tool authority [bash wc -l also reports 903 / 903 = mount finally in-sync this run, allowing potential bash push if needed, though PowerShell fallback remains the primary path given accumulated 3-version backlog]. line shift +4 [changelog +1, §9.1 daily snapshot +1, footer +2] → file 903 → 907 lines → §0 Source Map refreshed. /v2.0.22 base context inherited below)

*生成自 KW_VLA Handbook v3 | 338+ 篇源文件 → 17K tokens 压缩索引 | 定时任务每日 09:00 增量更新 | v2.0.22 2026-05-16 (incremental scheduled task — 🟢 zero-new-data day / 4th true zero-data day: daily-digest / paper-scan / social-intel all 3 absent today [reports dir latest still 2026-05-15-daily-digest, vla-social-intel latest 2026-05-15.md, xhs latest 2026-05-15-auto.md]; BELIEF_GRAPH.md unchanged at v3.6.7-self-reflection [05-15 self-reflection authority]; 0 net confidence changes; only value = bias counter +1d + arxiv top-lab silence extends to day 44 [04-0605-16 history-max +22d, just 1 day from 45d structural-epistemics escalation line — triggers tomorrow 05-17 if absence continues] + prediction countdown [#9 distance to 05-17 = 1 day FINAL window — π0.7 3rd-party reproduction "match specialist" final-day-before-deadline; 05-15 WebSearch recheck still no signal, high-probability expire-untriggered → 05-17 daily-digest mandatory adjudication +5% π0.7 SOTA strong-robustness meta-hypothesis record / #9 closes as opposing] + B8 crosses 60d integer landmark [2nd integer-line break since v3.5.0; 05-15 self-reflection submitted item #1 "B8 final ruling →65% or formal rebuttal" still 0-

FilesExpand file tree

VLA_EXPERT_MEMORY.md

Latest commit

History