如果你对具身智能、机器人灵巧操作算法充满好奇,或者想亲手打造一个自定义的高自由度末端执行器,设计自己独有的具身感知灵巧手小脑模型,那这份指南就是为你准备的。
为什么要关注灵巧手? 灵巧手是具身智能的"皇冠明珠"——它不仅需要精妙的机械设计,还需要强大的算法支撑。从硬件到软件,从理论到实践,这是一个充满挑战但极具魅力的领域。
本指南涵盖:
- 🔧 硬件设计 - 从绳驱到直驱,各类灵巧手方案详解
- 🧠 算法进阶 - 强化学习、模仿学习最新研究
- 📊 数据集资源 - 高质量训练数据获取指南
- 🎮 操作采集 - VR遥操作、数据手套等实战方案
- 🌐 仿真平台 - Isaac、MuJoCo、Genesis等工具推荐
GaiaHand 是一款基于微型关节模组的开源灵巧手,像搭乐高一样组装你的机器人手! 微型关节模组驱控一体,我们计划提供 15,16 主动自由度的灵巧手机械结构开源方案!
💬 需要帮助? or 定制化方案 邮件联系: timmoraty@hotmail.com
📝 想看什么内容? 欢迎在 Issues 留言!
- 从硬件开始 - 先了解灵巧手的机械结构和工作原理
- 理解物理交互 - 掌握硬件与真实世界的交互逻辑
- 进入算法世界 - 学习强化学习、模仿学习等方法
- 动手实践 - 搭建自己的灵巧手,采集数据,训练模型
💡 核心理念: 只有深刻理解硬件,才能设计出真正有效的算法!
- 直接跳转到感兴趣的章节
- 查阅最新论文和开源项目
- 参考 Benchmark 和数据集
点击展开完整目录
为什么从硬件开始? 灵巧手的机械设计直接决定了它能做什么、做得有多好。了解不同驱动方式的优缺点,才能选择最适合你应用场景的方案。
灵巧手按驱动方式可分为:
- 绳驱 - 像木偶一样用绳索控制,手指轻巧灵活
- 连杆传动 - 通过齿轮和连杆传递动力,结构紧凑
- 电机直驱 - 每个关节配一个小马达,响应快速
- 新材料驱动 - 使用形状记忆合金、液晶弹性体等"黑科技"
展开查看国内主流商业化灵巧手
| 公司 | 产品 | 核心特性 | 应用场景 |
|---|---|---|---|
| 灵巧智能 | DexHand021 | 19自由度,力控精度0.01N | 医疗手术、工业装配 |
| 因时机器人 | RH56系列 | 欠驱动设计,掉电自锁 | 工业检测、教育科研 |
| 强脑科技 | Revo 2 | 脑机接口,30+材质识别 | 残障辅助、远程操作 |
| 宇树科技 | Unitree Dex5 | 反向驱动技术,功耗仅10W | 物流分拣、娱乐交互 |
| 智元机器人 | OmniHand | 视觉-触觉双模态感知 | 汽车制造、精密工具使用 |
更多详情请查看完整对比表 ↓
工作原理: 电机安装在手掌或前臂,通过拉紧/放松绳索控制手指弯曲和伸展。
优点: 手指部分轻巧,适合高自由度复杂动作 缺点: 绳索易磨损,需要定期维护
💡 形象比喻: 就像操控木偶,线一拉动作就来!
-
Shadow Hand - 英国 Shadow Robot 公司,科研界的标杆产品,绳驱灵巧手代表作
-
特斯拉 Optimus Gen3 - 特斯拉Optimus Gen3的绳驱灵巧手
-
韩国仿生绳驱手 FLLEX HAND - 韩国科研仿生绳驱手,类人冲击吸收设计
-
DexHand 开源方案 - YouTube 大神作品,最受欢迎的开源复刻项目
- 📺 组装教程
-
ORCA Hand - ETH Zurich 软体机器人实验室,即将完全开源
- 📄 论文
-
Open Parametric Hand - 登上 Science Robotics 封面!
- 56个可调参数,可定制从人手到灵长类的各种手型
- 📄 论文
-
Apex Hand 源升智能商业灵巧手,业内首个可单手操作手机的灵巧手
- 📺 B站演示视频
-
D22 PRO 伯牙智能商业灵巧手,22个主动自由度,小臂集成方案
- 📺 B站演示视频
分为串联杆和并联杆两种,力传递路径和控制策略各不相同。
优点: 结构紧凑,刚性好 缺点: 设计复杂,成本较高
-
ILDA Hand - 并联杆经典代表
- 📖 中文详解
-
因时灵巧手 RH56 - 国内商业化串联杆方案
-
灵心巧手 Linker Hand - 连杆+腱绳双结构,价格仅为 Shadow Hand 的 1/20
-
宇树 Dex5 - 反向驱动技术,20自由度
工作原理: 每个关节直接由微型电机驱动,无需中间传动机构。
优点: 响应快,控制精度高 缺点: 手指部分较重,结构复杂
💡 形象比喻: 每个关节都绑了一个小马达,想动就动!
-
LEAP Hand - 开源电机直驱,淘宝有售
-
HIT-DLR Hand - 哈工大 × 德国航空航天中心
-
兆威灵巧手 - 自研微型空心杯电机,17-20自由度
-
DexterousHand GX11 - 东林钟声大佬开源
- 三指11自由度,还配套了 12自由度外骨骼
采用形状记忆合金(SMA)、液晶弹性体(LCE)、柔性气囊等新材料作为驱动器。
优点: 轻量化,仿生度高 缺点: 控制复杂,耐久性待验证
-
SMA 驱动灵巧手 - 形状记忆合金线圈驱动
-
LCE 软体手指 - 清华杨忠强老师团队,功率密度接近人类肌肉
- 📄 参考: Matter 2025
-
哈佛柔性气囊手 - Robert Wood 团队
灵巧手的"皮肤"——没有触觉反馈,再灵活的手也是"瞎抓"。
| 类型 | 原理 | 优点 | 缺点 |
|---|---|---|---|
| 视触觉 | 相机捕捉接触变形 | 高分辨率,多模态信息 | 计算复杂度高 |
| 压阻式 | 受压后电阻变化 | 结构简单,成本低 | 易疲劳,非线性 |
| 电容式 | 极板间距变化 | 灵敏度高,低功耗 | 易受电磁干扰 |
| 磁场式 | 磁性材料位移 | 抗干扰强,耐磨损 | 标定复杂 |
通过高分辨率图像捕捉接触形变,获取纹理、力分布等多维信息。
参考方案:
-
9DTact - 清华开源方案
- 📺 B站制作教程
-
GelSight - 视触觉开山之作
- 📖 发展史回顾
-
PP-TAC - RSS 2025,首个能抓取轻薄纸类的视触觉手
- 📄 论文
-
MinSight - 人类指尖尺寸,60Hz 输出三维力分布
利用霍尔传感器测量磁场变化,通过磁场变化计算力、形变等物理量。检测灵敏度高,可以感知高频变化,但是容易受到电磁干扰。
参考方案:
-
软磁柔性皮肤方案
-
自解耦三维力传感器
-
AnySkin - 来自纽约大学开源的霍尔传感器触觉传感器
- 📄 arXiv 2024
- 🌐 项目链接
-
PX-6AX GEN3 - 帕西尼科技商业触觉传感器
- 🌐 官网
最传统的方案,成本低响应快。
参考方案:
- RP-C7.6-ST - DFRobot 薄膜压力传感器
硬件是躯壳,算法是灵魂。
从训练方式上,我们有如下分类:
- 强化学习(RL) - 建模价值函数,让机器人自己试错,在仿真环境中学会最优策略,再迁移到真实环境中;最新进展目前可以做到在真实环境中进行强化学习 SERL
- 模仿学习(IL) - 从大量仿真/真机专家操作数据中进行学习。从过去的Single-Task模仿学习,再到数据的Scaling Law。通过 Pre-training,Post-training,RL等多阶段训练达到 Multi-Task 甚至 通用领域的泛化操作任务执行能力。
📚 推荐AWESOME链接: Awesome Embodied Robotics and Agent
核心思想: 通过"试错 + 奖励"让机器人自主探索出最优操作策略。
优势: 强大的自适应能力,可以应对复杂环境和不确定性 劣势: 训练时间长,需要大量仿真或真实试错
点击展开强化学习论文列表
-
PPO - 近端策略优化,RL基础中的基础
-
SERL - 真机强化学习
- 📄 ICRA 2024
- 🌐 项目链接
- 📄 Science Robotics 2025 HIL-SERL (Human-in-the-loop SERL)
-
DexPoint - 通用点云强化学习实现 sim2real
-
RoboPianist - 强化学习实现灵巧钢琴演奏
-
Getting the Ball Rolling - ETH,学习仿生肌腱手的滚动接触策略
- 🌐 项目链接
- 📄 arXiv 2023
-
ArrayBot - 分布式触觉操作泛化,把桌子变成机器人
- 🌐 项目链接
- 📄 arXiv 2023
- 📺 视频演示
-
HuDOR - 通过手-物体轨迹差异生成奖励信号
- 🌐 项目链接
- 📄 arXiv 2024
-
DexSinGrasp - 物体分离与抓取统一策略
-
RobustDexGrasp - 零样本动态抓取,基于手部中心动态距离向量
-
DexMachina - Curriculum-based 基于任务与功能性重定向的强化学习
- 🌐 项目链接
- 📄 arXiv 2025
核心思想: 从人类或专家示范中直接学习,绕过漫长的试错过程。
优势: 收敛快,训练成本低,数据质量高 劣势: 依赖数据分布,泛化能力相对弱
📖 综述论文: 基于模仿学习的灵巧操作方法综述
我们根据数据来源上进行了分类:
- 仿真生成轨迹 - 在虚拟环境中生成专家数据
- 视频数据 - 从人类操作视频中理解任务
- 遥操作数据 - 通过VR/手套采集真实操作数据
根据更加前沿的训练方案,我们补充以下分类的方案介绍:
- 结合强化学习微调模仿学习 - 通过强化学习增强模仿学习的泛化能力
- 通用泛化操作大模型 - 经过了大量数据训练的通用泛化操作大模型,可以用于多种任务的模仿学习基座模型,初步具备通用能力
展开查看论文列表
-
D(R,O) Grasp - 与灵巧手本体无关的通用抓取模仿学习框架
-
DexGarmentLab - 基于IsaacSim生成的衣物相关操作的模仿学习框架
- 📄 NeurIPS 2025
- 🌐 项目链接
展开查看论文列表
-
Robotic Telekinesis - 从网络视频学习机械手操作
- 🌐 项目链接
- 📄 arXiv 2022
-
DexVIP - 利用人手姿态先验从视频学习抓取
- 🌐 项目链接
- 📄 arXiv 2022
展开查看论文列表
-
Tilde - 高效演示收集 + Diffusion Policy
- 🌐 项目链接
- 📄 arXiv 2024
-
GLOSH - Allegro Hand 遥操作 + 视觉运动扩散策略
- 🌐 项目链接
- 📄 arXiv 2025
-
CordViP - 6D位姿估计 + 手-物体交互感知点云
- 🌐 项目链接
- 📄 arXiv 2025
-
ViTacFormer - 基于外骨骼摇操人形灵巧手机器人,带触觉数据采集训练
- 🌐 项目链接
- 📄 arXiv 2025
展开查看论文列表
-
DIME - 单RGB相机遥操作模仿学习,高效收集演示数据
- 🌐 项目链接
- 📄 arXiv 2022
-
DexNDM - 仅凭分布有偏的真实数据,即可精准弥合灵巧手旋转操作的 Sim2Real 鸿沟
- 🌐 项目链接
- 📄 arXiv 2025
展开查看论文列表
-
NVIDIA GR00T N1 - 融合快慢模型的开放基座
- 📄 arXiv 2025
- 📖 知乎详解
-
DexGraspVLA - 灵初智能,领域不变表示
- 🌐 项目链接
- 📄 arXiv 2025
-
Video Prediction Policy - 星动纪元,预测性视觉表示
- 🌐 项目链接
- 📄 arXiv 2024
-
π0.5 - Physical Intelligence,双阶段推理增强泛化,子任务分解与推理
-
wall-x - 自变量 X-Square-Robot 通用开源操作大模型
-
Gen0 - Generalist AI 通用操作大模型,首次在真正工业/应用场景上的具身大模型Scaling Law (笔者目前认为市面上最厉害的DEMO👍👍👍,虽然还没有用上灵巧手)
- 🌐 项目链接
- 📺 YouTube 演示
核心思想: 将人手的操作映射到不同结构的灵巧手上。
-
Dex-Retargeting - AnyTeleop 开源,支持多种灵巧手
-
GeoRT - Meta,基于五项几何原则的无监督重定向 可以达到 1kHz 实时速度,支持多种人类数据采集以及快速微调适配方案
-
Retargeting - Tsinghua Intelligent Robotic Manipulation Lab, 基于几何约束的灵巧手重定向
为什么数据集很重要?
灵巧手操作任务复杂度高,需要高质量、多样化的训练数据。但相比夹爪,灵巧手数据采集门槛更高:
- ❌ 需要记录多自由度时序动作
- ❌ 需要完整的力接触分布信息
- ❌ 采集系统昂贵,遮挡难以消除
展开查看数据集列表
-
DexMimicGen - 60条真实数据→20k+仿真数据
-
DexManipNet - 多种 Human-Object 交互迁移到灵巧手
-
DexCap - 便携式人类手操作动捕数据
-
ARCTIC - 210万帧双手操作铰接物体,含3D手部网格
-
DexArt - 灵巧手铰接物体操作 Benchmark
-
RealDex - 多模态遥操作抓取数据集
-
GraspM3 - Isaac Gym 生成 + LLM 语义标注
-
EgoDex - Apple Vision Pro 采集的自我中心数据
-
DexGarmentLab - 双手衣物操作仿真环境
-
OphNet-3D - 医学领域眼科手术 RGB-D 数据集
-
Dexonomy - 9.5M 条数据,31类抓取类型
-
Dex1B - Billion 级别条件生成数据集
获取高质量灵巧操作数据的三大主流方式:
- 数据手套 - 直接记录每根手指的角度和位姿
- VR遥操作 - 通过虚拟现实设备远程控制
- 外骨骼系统 - 带力反馈的手臂+手部追踪
📖 详细分类: 具身智能数据采集系统详解
展开查看方案列表
-
DO-Glove - 斯坦福张寒博士外骨骼手套
-
Manus MetaGloves Pro - 商业级高保真指尖追踪
-
DexWild - 低成本便携式系统,大规模采集人类数据
展开查看方案列表
-
Bunny-VisionPro - 触觉反馈增强感知
-
DEXCAP - SLAM + 电磁场精确追踪
-
OPEN TEACH - Meta Quest 3,实时控制多种机器人
-
OpenVR - Oculus 遥控 Franka Panda
-
Holo-Dex - 沉浸式混合现实遥操作
仿真是灵巧手研究的"训练场"——在虚拟世界中快速迭代,再迁移到真实环境。
🌐 推荐社区: Simulately Wiki - 专注机器人物理仿真
-
MuJoCo Menagerie - Google DeepMind 高质量 MJCF 模型
-
Dex-URDF - DexSuite 提供的 URDF 灵巧手模型
特点: NVIDIA 出品,高保真物理模拟 + 强大渲染
展开查看工具列表
-
Isaac Sim - 基于 Omniverse,大量仿真资产
-
Isaac Lab - 高保真模拟,弥合感知与训练的差距
-
NVIDIA Warp - 可微分模拟,支持 PyTorch/JAX
特点: 轻量高效,物理引擎精确
展开查看工具列表
-
Robosuite - 模块化仿真框架,v5.0最新版
-
MuJoCo Playground - 基于 MJX,简化 sim-to-real
-
MuJoCo Warp - 结合 MuJoCo + NVIDIA Warp
特点: 轻量化 + 高保真,柔性物体和触觉模拟领先
展开查看工具列表
- Genesis - 通用机器人仿真平台,支持人造数据生成
为什么要学习人类抓取?
人类经过数百万年进化,抓取姿态蕴含了稳定性、灵活性与触觉反馈的自然智慧,为灵巧手设计提供"先天合理"的参考。
| 分类体系 | 主要特点 | 适用场景 | 代表引用 |
|---|---|---|---|
| Napier 双分法 | 最早提出"力量 vs. 精细"功能视角 | 快速判别任务类型 | 论文 |
| Cutkosky 16类 | 结合制造场景,树状层级 | 工业装配、夹具设计 | 论文 |
| Science Robotics 28类 | 覆盖日常交互与社交递物 | 服务机器人、人机协作 | 论文 |
| GRASP 33类 | 统一多家标准,四维编码 | 学术研究、通用算法 | 论文 |
| 定量综合分类 | 统计学+力学指标量化 | 数据驱动评估 | 论文 |
💡 使用建议:
- 工业场景 → Cutkosky 体系
- 日常操作 → Science Robotics 或 GRASP
- 多层级评估: 粗层级用 Power/Precision,细层级用 28/33 类
- Lumina 具身智能社区 - 具身智能学习指南
欢迎推广、贡献、交流、合作!
- 📧 邮件: wutfisher@outlook.com
- ⭐ GitHub: 给我们一个 Star,让更多人看到!
- 💬 Issue: 有建议或疑问?直接提 Issue


