Embodied-AI-Guide
软件基础设施篇

这一章关注的不是“具体某个模型”，而是支撑具身智能研究与系统落地的软件基础设施（Infrastructure）。
仿真器决定你能构建怎样的世界，基准集决定你如何比较方法优劣，数据集决定模型最终学到什么样的行为分布。它们共同构成了具身智能中最容易被忽视、但最影响上限与复现性的部分。

软件部分可以理解为三层：
Simulators（仿真环境） 决定你能“跑什么物理世界”；Benchmarks（评测基准） 决定你用什么任务衡量方法优劣；Datasets（数据集） 决定你能训练出怎样的策略分布。建议优先跑通“一个仿真器 + 一个基准 + 一个数据集”的最小闭环，再逐步扩展到多平台与多模态。

(1) Simulators - 仿真器

常见仿真器 wiki：link

仿真器	典型生态 / 对应基准与工具链
IsaacGym	legged-gym：link parkour（含蒸馏与真机部署）：link extreme-parkour：link
IsaacSim	BEHAVIOR-1K：link + OmniGibson（工具链）：link ARNOLD：link GarmentLab：link / DexGarmentLab：link
MuJoCo	robosuite：link + robomimic（工具链）：link LIBERO：link MetaWorld：link Gymnasium-Robotics：link RoboCasa：link RoboHive：link
SAPIEN	ManiSkill：link RoboTwin：link
CoppeliaSim	RLBench：link PerAct2：link COLOSSEUM：link
PyBullet	CALVIN：link Ravens：link VimaBench：link
Genesis	入口：link
SOFA	框架：link 常用于软体机器人仿真
GenieSim	框架：link 评测与文档：link
Gazebo	平台：link Open Robotics 维护：link 与 ROS / ROS 2 深度集成，适合移动机器人、仓储物流等场景

教程：Isaac 101（Blog）：link

(2) Benchmarks - 基准集

基准集通常定义了：任务集合 + 评测协议 +（可选）参考实现。它们的价值是让不同方法在同一套任务与指标上可复现对比。下面列的是你当前条目中最常见、且各自定位清晰的基准。

基准	链接	一句话定位
RoboTwin 2.0	link	程序化生成双臂任务数据与 50 个双臂评测任务（偏“双臂+规模化生成”）
SimplerENV	link	轻量化、可快速对比策略在操作任务上的表现
LIBERO	link link	程序化生成管道 + 视觉运动策略架构与终身学习设置（偏“终身/顺序学习”）
CALVIN	link link	语言条件 + 多模态输入 + 长视野操纵（偏“长程任务与规划”）
Meta-World	link	50 操作任务，经典多任务/元强化学习基准（偏“多任务泛化”）
Embodied Agent Interface	link	评测 LLM 在具身决策链路（理解/分解/序列化），不强调低层执行
RoboGen	link link	生成任务/场景/带标注数据（偏“生成数据而非直接生成 policy”）

(3) Datasets - 数据集

数据集决定了策略的“经验分布”。阅读数据集时建议关注四件事：
(1) 真实 vs 仿真、(2) 机器人同构 vs 异构、(3) 模态（RGB/RGB-D/语言/触觉/声音等）、(4) 是否附带训练代码与硬件搭建/采集流程。下面把你的条目统一成一个紧凑表，避免过长的散点描述。

数据集	链接	关键特点（紧凑版）
Open X-Embodiment（RT-X）	link	22 种机器人平台、百万级真实轨迹，覆盖大量技能与任务（大规模、跨本体）
AgiBot World Datasets（智元）	link	百万级轨迹、同构机器人采集、多级质检与人工在环流程（工业化采集流程）
RoboMIND	link	10.7 万真实演示、96 类物体、四种协作臂、任务按类别组织（真实多任务）
ARIO（All Robots in One）	link	2D/3D/文本/触觉/声音五模态；操作+导航；仿真+真实；统一格式且规模大
MimicGen	link link	基于 robosuite+MuJoCo 的数据生成框架；少量真人演示扩增为大量仿真数据
RoboCasa	link link	MuJoCo 厨房高保真平台；多环境多物体；原子任务+组合任务（偏家居厨房）
DexMimicGen	link link	面向双臂桌面操作；增强版 real2sim2real 数据生成；少量演示生成大量轨迹
FUSE Dataset	link	远程操控轨迹；语言指令 + 复杂遮挡；多任务设置（多传感器融合研究友好）
BiPlay Dataset	link	双臂轨迹；随机物体与背景；长视频切片成带语言描述的剪辑（泛化导向）
DROID	link	7.6 万轨迹、350 小时、564 场景、86 任务；附硬件与训练代码（真实大规模）
BridgeData V2	link	6 万轨迹；多环境多技能；目标图像/语言指令；包含远程操控与脚本执行
Ego4D Sounds	link	第一人称视频 + 环境声音；强调动作与声音对齐（声音模态很有价值）
RH20T	link	人机交互数据；含人脸与语音等敏感信息；体量大且提供缩减版（注意隐私与合规）
白虎数据集	link	异构机器人；多场景多任务；面向跨平台评估与训练（本体覆盖面广）

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Embodied-AI-Guide
软件基础设施篇

(1) Simulators - 仿真器

(2) Benchmarks - 基准集

(3) Datasets - 数据集

FilesExpand file tree

infrastructure.md

Latest commit

History

infrastructure.md

File metadata and controls

Embodied-AI-Guide软件基础设施篇

(1) Simulators - 仿真器

(2) Benchmarks - 基准集

(3) Datasets - 数据集

Embodied-AI-Guide
软件基础设施篇