这一章关注的不是“具体某个模型”,而是支撑具身智能研究与系统落地的软件基础设施(Infrastructure)。
仿真器决定你能构建怎样的世界,基准集决定你如何比较方法优劣,数据集决定模型最终学到什么样的行为分布。它们共同构成了具身智能中最容易被忽视、但最影响上限与复现性的部分。
软件部分可以理解为三层:
Simulators(仿真环境) 决定你能“跑什么物理世界”;Benchmarks(评测基准) 决定你用什么任务衡量方法优劣;Datasets(数据集) 决定你能训练出怎样的策略分布。建议优先跑通“一个仿真器 + 一个基准 + 一个数据集”的最小闭环,再逐步扩展到多平台与多模态。
常见仿真器 wiki:link
| 仿真器 | 典型生态 / 对应基准与工具链 |
|---|---|
| IsaacGym | legged-gym:link parkour(含蒸馏与真机部署):link extreme-parkour:link |
| IsaacSim | BEHAVIOR-1K:link + OmniGibson(工具链):link ARNOLD:link GarmentLab:link / DexGarmentLab:link |
| MuJoCo | robosuite:link + robomimic(工具链):link LIBERO:link MetaWorld:link Gymnasium-Robotics:link RoboCasa:link RoboHive:link |
| SAPIEN | ManiSkill:link RoboTwin:link |
| CoppeliaSim | RLBench:link PerAct2:link COLOSSEUM:link |
| PyBullet | CALVIN:link Ravens:link VimaBench:link |
| Genesis | 入口:link |
| SOFA | 框架:link 常用于软体机器人仿真 |
| GenieSim | 框架:link 评测与文档:link |
| Gazebo | 平台:link Open Robotics 维护:link 与 ROS / ROS 2 深度集成,适合移动机器人、仓储物流等场景 |
教程:Isaac 101(Blog):link
基准集通常定义了:任务集合 + 评测协议 +(可选)参考实现。它们的价值是让不同方法在同一套任务与指标上可复现对比。下面列的是你当前条目中最常见、且各自定位清晰的基准。
| 基准 | 链接 | 一句话定位 |
|---|---|---|
| RoboTwin 2.0 | link | 程序化生成双臂任务数据与 50 个双臂评测任务(偏“双臂+规模化生成”) |
| SimplerENV | link | 轻量化、可快速对比策略在操作任务上的表现 |
| LIBERO | link link |
程序化生成管道 + 视觉运动策略架构与终身学习设置(偏“终身/顺序学习”) |
| CALVIN | link link |
语言条件 + 多模态输入 + 长视野操纵(偏“长程任务与规划”) |
| Meta-World | link | 50 操作任务,经典多任务/元强化学习基准(偏“多任务泛化”) |
| Embodied Agent Interface | link | 评测 LLM 在具身决策链路(理解/分解/序列化),不强调低层执行 |
| RoboGen | link link |
生成任务/场景/带标注数据(偏“生成数据而非直接生成 policy”) |
数据集决定了策略的“经验分布”。阅读数据集时建议关注四件事:
(1) 真实 vs 仿真、(2) 机器人同构 vs 异构、(3) 模态(RGB/RGB-D/语言/触觉/声音等)、(4) 是否附带训练代码与硬件搭建/采集流程。下面把你的条目统一成一个紧凑表,避免过长的散点描述。
| 数据集 | 链接 | 关键特点(紧凑版) |
|---|---|---|
| Open X-Embodiment(RT-X) | link | 22 种机器人平台、百万级真实轨迹,覆盖大量技能与任务(大规模、跨本体) |
| AgiBot World Datasets(智元) | link | 百万级轨迹、同构机器人采集、多级质检与人工在环流程(工业化采集流程) |
| RoboMIND | link | 10.7 万真实演示、96 类物体、四种协作臂、任务按类别组织(真实多任务) |
| ARIO(All Robots in One) | link | 2D/3D/文本/触觉/声音五模态;操作+导航;仿真+真实;统一格式且规模大 |
| MimicGen | link link |
基于 robosuite+MuJoCo 的数据生成框架;少量真人演示扩增为大量仿真数据 |
| RoboCasa | link link |
MuJoCo 厨房高保真平台;多环境多物体;原子任务+组合任务(偏家居厨房) |
| DexMimicGen | link link |
面向双臂桌面操作;增强版 real2sim2real 数据生成;少量演示生成大量轨迹 |
| FUSE Dataset | link | 远程操控轨迹;语言指令 + 复杂遮挡;多任务设置(多传感器融合研究友好) |
| BiPlay Dataset | link | 双臂轨迹;随机物体与背景;长视频切片成带语言描述的剪辑(泛化导向) |
| DROID | link | 7.6 万轨迹、350 小时、564 场景、86 任务;附硬件与训练代码(真实大规模) |
| BridgeData V2 | link | 6 万轨迹;多环境多技能;目标图像/语言指令;包含远程操控与脚本执行 |
| Ego4D Sounds | link | 第一人称视频 + 环境声音;强调动作与声音对齐(声音模态很有价值) |
| RH20T | link | 人机交互数据;含人脸与语音等敏感信息;体量大且提供缩减版(注意隐私与合规) |
| 白虎数据集 | link | 异构机器人;多场景多任务;面向跨平台评估与训练(本体覆盖面广) |