Skip to content

Wu-Fisher/dexterity-aha-guide

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🤖 灵巧手通用操作指南

Dexterity-Aha-Guide

Code to Hand, Zero to Hero

Stars License 中文文档 English

English Documentation | 中文文档


💡 这是什么?

如果你对具身智能机器人灵巧操作算法充满好奇,或者想亲手打造一个自定义的高自由度末端执行器,设计自己独有的具身感知灵巧手小脑模型,那这份指南就是为你准备的。

为什么要关注灵巧手? 灵巧手是具身智能的"皇冠明珠"——它不仅需要精妙的机械设计,还需要强大的算法支撑。从硬件到软件,从理论到实践,这是一个充满挑战但极具魅力的领域。

本指南涵盖:

  • 🔧 硬件设计 - 从绳驱到直驱,各类灵巧手方案详解
  • 🧠 算法进阶 - 强化学习、模仿学习最新研究
  • 📊 数据集资源 - 高质量训练数据获取指南
  • 🎮 操作采集 - VR遥操作、数据手套等实战方案
  • 🌐 仿真平台 - Isaac、MuJoCo、Genesis等工具推荐

🔥 灵巧手硬件入门推荐:像乐高一样组装你的灵巧手!

GaiaHand 是一款基于微型关节模组的开源灵巧手,像搭乐高一样组装你的机器人手! 微型关节模组驱控一体,我们计划提供 15,16 主动自由度的灵巧手机械结构开源方案!

GaiaHand15 Ball Demo
GaiaHand16 Gesture Demo

📚 资源链接

💬 需要帮助? or 定制化方案 邮件联系: timmoraty@hotmail.com


📝 想看什么内容? 欢迎在 Issues 留言!


📖 如何使用本指南

🚀 新手入门路径

  1. 从硬件开始 - 先了解灵巧手的机械结构和工作原理
  2. 理解物理交互 - 掌握硬件与真实世界的交互逻辑
  3. 进入算法世界 - 学习强化学习、模仿学习等方法
  4. 动手实践 - 搭建自己的灵巧手,采集数据,训练模型

💡 核心理念: 只有深刻理解硬件,才能设计出真正有效的算法!

🎓 进阶研究者

  • 直接跳转到感兴趣的章节
  • 查阅最新论文和开源项目
  • 参考 Benchmark 和数据集

📑 目录导航

点击展开完整目录

1️⃣ 灵巧手硬件设计

为什么从硬件开始? 灵巧手的机械设计直接决定了它能做什么、做得有多好。了解不同驱动方式的优缺点,才能选择最适合你应用场景的方案。

灵巧手按驱动方式可分为:

  • 绳驱 - 像木偶一样用绳索控制,手指轻巧灵活
  • 连杆传动 - 通过齿轮和连杆传递动力,结构紧凑
  • 电机直驱 - 每个关节配一个小马达,响应快速
  • 新材料驱动 - 使用形状记忆合金、液晶弹性体等"黑科技"

商业化产品一览

展开查看国内主流商业化灵巧手
公司 产品 核心特性 应用场景
灵巧智能 DexHand021 19自由度,力控精度0.01N 医疗手术、工业装配
因时机器人 RH56系列 欠驱动设计,掉电自锁 工业检测、教育科研
强脑科技 Revo 2 脑机接口,30+材质识别 残障辅助、远程操作
宇树科技 Unitree Dex5 反向驱动技术,功耗仅10W 物流分拣、娱乐交互
智元机器人 OmniHand 视觉-触觉双模态感知 汽车制造、精密工具使用

更多详情请查看完整对比表 ↓

🪢 绳驱灵巧手

工作原理: 电机安装在手掌或前臂,通过拉紧/放松绳索控制手指弯曲和伸展。

优点: 手指部分轻巧,适合高自由度复杂动作 缺点: 绳索易磨损,需要定期维护

💡 形象比喻: 就像操控木偶,线一拉动作就来!

推荐方案

  1. Shadow Hand - 英国 Shadow Robot 公司,科研界的标杆产品,绳驱灵巧手代表作

  2. 特斯拉 Optimus Gen3 - 特斯拉Optimus Gen3的绳驱灵巧手

  3. 韩国仿生绳驱手 FLLEX HAND - 韩国科研仿生绳驱手,类人冲击吸收设计

  4. DexHand 开源方案 - YouTube 大神作品,最受欢迎的开源复刻项目

  5. ORCA Hand - ETH Zurich 软体机器人实验室,即将完全开源

  6. Open Parametric Hand - 登上 Science Robotics 封面!

    • 56个可调参数,可定制从人手到灵长类的各种手型
    • 📄 论文
  7. Apex Hand 源升智能商业灵巧手,业内首个可单手操作手机的灵巧手

  8. D22 PRO 伯牙智能商业灵巧手,22个主动自由度,小臂集成方案


⚙️ 连杆传动灵巧手

分为串联杆并联杆两种,力传递路径和控制策略各不相同。

优点: 结构紧凑,刚性好 缺点: 设计复杂,成本较高

推荐方案

  1. ILDA Hand - 并联杆经典代表

  2. 因时灵巧手 RH56 - 国内商业化串联杆方案

  3. 灵心巧手 Linker Hand - 连杆+腱绳双结构,价格仅为 Shadow Hand 的 1/20

  4. 宇树 Dex5 - 反向驱动技术,20自由度


⚡ 电机直驱灵巧手

工作原理: 每个关节直接由微型电机驱动,无需中间传动机构。

优点: 响应快,控制精度高 缺点: 手指部分较重,结构复杂

💡 形象比喻: 每个关节都绑了一个小马达,想动就动!

推荐方案

  1. LEAP Hand - 开源电机直驱,淘宝有售

  2. HIT-DLR Hand - 哈工大 × 德国航空航天中心

  3. 兆威灵巧手 - 自研微型空心杯电机,17-20自由度

  4. DexterousHand GX11 - 东林钟声大佬开源


🧪 新材料驱动灵巧手

采用形状记忆合金(SMA)液晶弹性体(LCE)柔性气囊等新材料作为驱动器。

优点: 轻量化,仿生度高 缺点: 控制复杂,耐久性待验证

推荐方案

  1. SMA 驱动灵巧手 - 形状记忆合金线圈驱动

  2. LCE 软体手指 - 清华杨忠强老师团队,功率密度接近人类肌肉

  3. 哈佛柔性气囊手 - Robert Wood 团队


🖐️ 触觉传感器

灵巧手的"皮肤"——没有触觉反馈,再灵活的手也是"瞎抓"。

类型 原理 优点 缺点
视触觉 相机捕捉接触变形 高分辨率,多模态信息 计算复杂度高
压阻式 受压后电阻变化 结构简单,成本低 易疲劳,非线性
电容式 极板间距变化 灵敏度高,低功耗 易受电磁干扰
磁场式 磁性材料位移 抗干扰强,耐磨损 标定复杂

🔍 视触觉传感器

通过高分辨率图像捕捉接触形变,获取纹理、力分布等多维信息。

参考方案:

  1. 9DTact - 清华开源方案

  2. GelSight - 视触觉开山之作

  3. PP-TAC - RSS 2025,首个能抓取轻薄纸类的视触觉手

  4. MinSight - 人类指尖尺寸,60Hz 输出三维力分布

🧲 磁场式(霍尔)触觉传感器

利用霍尔传感器测量磁场变化,通过磁场变化计算力、形变等物理量。检测灵敏度高,可以感知高频变化,但是容易受到电磁干扰。

参考方案:

  1. 软磁柔性皮肤方案

  2. 自解耦三维力传感器

  3. AnySkin - 来自纽约大学开源的霍尔传感器触觉传感器

  4. PX-6AX GEN3 - 帕西尼科技商业触觉传感器

📊 压阻式触觉传感器

最传统的方案,成本低响应快。

参考方案:

  1. RP-C7.6-ST - DFRobot 薄膜压力传感器

2️⃣ 灵巧操作算法

硬件是躯壳,算法是灵魂。

从训练方式上,我们有如下分类:

  • 强化学习(RL) - 建模价值函数,让机器人自己试错,在仿真环境中学会最优策略,再迁移到真实环境中;最新进展目前可以做到在真实环境中进行强化学习 SERL
  • 模仿学习(IL) - 从大量仿真/真机专家操作数据中进行学习。从过去的Single-Task模仿学习,再到数据的Scaling Law。通过 Pre-training,Post-training,RL等多阶段训练达到 Multi-Task 甚至 通用领域的泛化操作任务执行能力。

📚 推荐AWESOME链接: Awesome Embodied Robotics and Agent


🎮 强化学习

核心思想: 通过"试错 + 奖励"让机器人自主探索出最优操作策略。

优势: 强大的自适应能力,可以应对复杂环境和不确定性 劣势: 训练时间长,需要大量仿真或真实试错

精选论文

点击展开强化学习论文列表
  1. PPO - 近端策略优化,RL基础中的基础

  2. SERL - 真机强化学习

  3. DexPoint - 通用点云强化学习实现 sim2real

  4. RoboPianist - 强化学习实现灵巧钢琴演奏

  5. Getting the Ball Rolling - ETH,学习仿生肌腱手的滚动接触策略

  6. ArrayBot - 分布式触觉操作泛化,把桌子变成机器人

  7. HuDOR - 通过手-物体轨迹差异生成奖励信号

  8. DexSinGrasp - 物体分离与抓取统一策略

  9. RobustDexGrasp - 零样本动态抓取,基于手部中心动态距离向量

  10. DexMachina - Curriculum-based 基于任务与功能性重定向的强化学习


🎯 模仿学习

核心思想: 从人类或专家示范中直接学习,绕过漫长的试错过程。

优势: 收敛快,训练成本低,数据质量高 劣势: 依赖数据分布,泛化能力相对弱

📖 综述论文: 基于模仿学习的灵巧操作方法综述

我们根据数据来源上进行了分类:

  • 仿真生成轨迹 - 在虚拟环境中生成专家数据
  • 视频数据 - 从人类操作视频中理解任务
  • 遥操作数据 - 通过VR/手套采集真实操作数据

根据更加前沿的训练方案,我们补充以下分类的方案介绍:

  • 结合强化学习微调模仿学习 - 通过强化学习增强模仿学习的泛化能力
  • 通用泛化操作大模型 - 经过了大量数据训练的通用泛化操作大模型,可以用于多种任务的模仿学习基座模型,初步具备通用能力

📹 仿真生成轨迹数据

展开查看论文列表
  1. D(R,O) Grasp - 与灵巧手本体无关的通用抓取模仿学习框架

  2. DexGarmentLab - 基于IsaacSim生成的衣物相关操作的模仿学习框架

📹 基于视频数据

展开查看论文列表
  1. Robotic Telekinesis - 从网络视频学习机械手操作

  2. DexVIP - 利用人手姿态先验从视频学习抓取

🎮 基于遥操作数据

展开查看论文列表
  1. Tilde - 高效演示收集 + Diffusion Policy

  2. GLOSH - Allegro Hand 遥操作 + 视觉运动扩散策略

  3. CordViP - 6D位姿估计 + 手-物体交互感知点云

  4. ViTacFormer - 基于外骨骼摇操人形灵巧手机器人,带触觉数据采集训练

🎮 结合强化学习微调模仿学习

展开查看论文列表
  1. DIME - 单RGB相机遥操作模仿学习,高效收集演示数据

  2. DexNDM - 仅凭分布有偏的真实数据,即可精准弥合灵巧手旋转操作的 Sim2Real 鸿沟

🤖 通用泛化操作大模型

展开查看论文列表
  1. NVIDIA GR00T N1 - 融合快慢模型的开放基座

  2. DexGraspVLA - 灵初智能,领域不变表示

  3. Video Prediction Policy - 星动纪元,预测性视觉表示

  4. π0.5 - Physical Intelligence,双阶段推理增强泛化,子任务分解与推理

  5. wall-x - 自变量 X-Square-Robot 通用开源操作大模型

  6. Gen0 - Generalist AI 通用操作大模型,首次在真正工业/应用场景上的具身大模型Scaling Law (笔者目前认为市面上最厉害的DEMO👍👍👍,虽然还没有用上灵巧手)


🔄 重定向算法

核心思想: 将人手的操作映射到不同结构的灵巧手上。

推荐方案

  1. Dex-Retargeting - AnyTeleop 开源,支持多种灵巧手

  2. GeoRT - Meta,基于五项几何原则的无监督重定向 可以达到 1kHz 实时速度,支持多种人类数据采集以及快速微调适配方案

  3. Retargeting - Tsinghua Intelligent Robotic Manipulation Lab, 基于几何约束的灵巧手重定向


3️⃣ 数据集与 Benchmark

为什么数据集很重要?

灵巧手操作任务复杂度高,需要高质量、多样化的训练数据。但相比夹爪,灵巧手数据采集门槛更高:

  • ❌ 需要记录多自由度时序动作
  • ❌ 需要完整的力接触分布信息
  • ❌ 采集系统昂贵,遮挡难以消除

推荐数据集

展开查看数据集列表
  1. DexMimicGen - 60条真实数据→20k+仿真数据

  2. DexManipNet - 多种 Human-Object 交互迁移到灵巧手

  3. DexCap - 便携式人类手操作动捕数据

  4. ARCTIC - 210万帧双手操作铰接物体,含3D手部网格

  5. DexArt - 灵巧手铰接物体操作 Benchmark

  6. RealDex - 多模态遥操作抓取数据集

  7. GraspM3 - Isaac Gym 生成 + LLM 语义标注

  8. EgoDex - Apple Vision Pro 采集的自我中心数据

  9. DexGarmentLab - 双手衣物操作仿真环境

  10. OphNet-3D - 医学领域眼科手术 RGB-D 数据集

  11. Dexonomy - 9.5M 条数据,31类抓取类型

  12. Dex1B - Billion 级别条件生成数据集


4️⃣ 数据采集方案

获取高质量灵巧操作数据的三大主流方式:

  • 数据手套 - 直接记录每根手指的角度和位姿
  • VR遥操作 - 通过虚拟现实设备远程控制
  • 外骨骼系统 - 带力反馈的手臂+手部追踪

📖 详细分类: 具身智能数据采集系统详解

🧤 数据手套

展开查看方案列表
  1. DO-Glove - 斯坦福张寒博士外骨骼手套

  2. Manus MetaGloves Pro - 商业级高保真指尖追踪

  3. DexWild - 低成本便携式系统,大规模采集人类数据

🥽 VR遥操作系统

展开查看方案列表
  1. Bunny-VisionPro - 触觉反馈增强感知

  2. DEXCAP - SLAM + 电磁场精确追踪

  3. OPEN TEACH - Meta Quest 3,实时控制多种机器人

  4. OpenVR - Oculus 遥控 Franka Panda

  5. Holo-Dex - 沉浸式混合现实遥操作

🦾 外骨骼系统

展开查看方案列表
  1. ACE - 跨平台视觉外骨骼

  2. AirExo - 低成本双臂外骨骼

  3. 因时力控手套 - 5个直线伺服驱动器,带力反馈

  4. 戴蒙穿戴式系统 - 商业化遥操作方案


5️⃣ 仿真平台

仿真是灵巧手研究的"训练场"——在虚拟世界中快速迭代,再迁移到真实环境。

🌐 推荐社区: Simulately Wiki - 专注机器人物理仿真

仿真模型资源

  1. MuJoCo Menagerie - Google DeepMind 高质量 MJCF 模型

  2. Dex-URDF - DexSuite 提供的 URDF 灵巧手模型


🟢 Isaac 系

特点: NVIDIA 出品,高保真物理模拟 + 强大渲染

展开查看工具列表
  1. Isaac Sim - 基于 Omniverse,大量仿真资产

  2. Isaac Lab - 高保真模拟,弥合感知与训练的差距

  3. NVIDIA Warp - 可微分模拟,支持 PyTorch/JAX


🔵 MuJoCo 系

特点: 轻量高效,物理引擎精确

展开查看工具列表
  1. Robosuite - 模块化仿真框架,v5.0最新版

  2. MuJoCo Playground - 基于 MJX,简化 sim-to-real

  3. MuJoCo Warp - 结合 MuJoCo + NVIDIA Warp


🟣 Genesis 系

特点: 轻量化 + 高保真,柔性物体和触觉模拟领先

展开查看工具列表
  1. Genesis - 通用机器人仿真平台,支持人造数据生成

6️⃣ 通识知识

人类抓取姿态体系

为什么要学习人类抓取?

人类经过数百万年进化,抓取姿态蕴含了稳定性、灵活性与触觉反馈的自然智慧,为灵巧手设计提供"先天合理"的参考。

典型分类体系速查表

分类体系 主要特点 适用场景 代表引用
Napier 双分法 最早提出"力量 vs. 精细"功能视角 快速判别任务类型 论文
Cutkosky 16类 结合制造场景,树状层级 工业装配、夹具设计 论文
Science Robotics 28类 覆盖日常交互与社交递物 服务机器人、人机协作 论文
GRASP 33类 统一多家标准,四维编码 学术研究、通用算法 论文
定量综合分类 统计学+力学指标量化 数据驱动评估 论文

💡 使用建议:

  • 工业场景 → Cutkosky 体系
  • 日常操作 → Science Robotics 或 GRASP
  • 多层级评估: 粗层级用 Power/Precision,细层级用 28/33 类

🔗 友情链接


👥 关于我们

贡献者

核心成员: 位德浩、吴桐、郭川俊王文晟、林清泉、东林钟声

加入我们

欢迎推广、贡献、交流、合作!

  • 📧 邮件: wutfisher@outlook.com
  • GitHub: 给我们一个 Star,让更多人看到!
  • 💬 Issue: 有建议或疑问?直接提 Issue

🌟 Star History 🌟

Star History Chart


Code to Hand, Zero to Hero

Made with ❤️ by the Dexterity Manipulation Community

About

Code to Hand, Zero to Hero

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages