灵巧手
概述:为什么需要灵巧手
人手拥有约 27 个骨骼、20 个自由度和数千个触觉感受器,是自然界最精密的操作工具。灵巧手(Dexterous Hand)试图复制这种能力,使机器人能够完成精细操作——拧螺丝、翻转物体、使用工具、折叠织物等。
与简单的平行夹爪相比,灵巧手的优势在于:
- 手内操作(In-hand Manipulation):无需放下物体即可重新调整抓取姿态
- 多指协调:可以同时操作多个物体或执行复杂的多接触任务
- 工具使用:能像人手一样握持和使用各种工具
- 通用性:一只手适应所有抓取和操作场景
核心挑战
- 高维控制:16-20 DOF 的连续控制空间
- 接触建模:多指与物体的多点接触力学极其复杂
- 传感:需要高密度的触觉反馈
- 欠驱动:多数手欠驱动(DOF > 驱动器数),需要巧妙的传动设计
- 硬件可靠性:精密传动机构容易磨损
灵巧手平台对比
| 平台 | DOF | 驱动方式 | 特点 | 价格 | 典型用途 |
|---|---|---|---|---|---|
| Shadow Dexterous Hand | 20 | 气动/电动 | 最接近人手,OpenAI 魔方实验 | >$100K | 高端研究 |
| Allegro Hand (Wonik) | 16 | 电动力矩控制 | 研究界广泛使用,可直接力矩控制 | ~$15K | RL 研究 |
| LEAP Hand (CMU) | 16 | 电动 (Dynamixel) | 3D 打印开源设计,~$2K | ~$2K | 低成本 RL |
| Ability Hand (PSYONIC) | 6 | 电动 | 假肢级,触觉反馈 | 假肢定价 | 假肢/研究 |
| Inspire Hand (因时机器人) | 6-12 | 电动 | 低成本,多款型号,国产人形常用 | ~$1-5K | 人形集成 |
| Agilex DexHand | 12 | 电动 | 配合 Agilex 移动平台 | ~$5K | 移动操作 |
| DEX-EE (Sanctuary AI) | 20+ | 电动 | 用于 Phoenix 人形 | 非卖品 | 内部 |
| Tesla Optimus Hand | 11/手 | 电动 | 面向量产,匹配人手尺寸 | 非卖品 | 人形集成 |
Shadow Dexterous Hand
Shadow Hand 是灵巧手研究的"黄金标准":
- 24 个关节,20 个自由度
- 拇指具有对掌运动(opposition)
- 气动版本响应快但需要外部气源
- 电动版本更适合实验室环境
- BioTac 触觉传感器集成(可选)
- OpenAI 在 2019 年用它完成了魔方翻转
LEAP Hand
LEAP Hand 是 CMU 推出的开源低成本方案,极大降低了灵巧手研究的门槛:
- 设计:全 3D 打印结构 + Dynamixel XC330 舵机
- 成本:约 $2,000(相比 Allegro $15K、Shadow $100K+)
- 开源:硬件设计、URDF、控制代码全开源
- 兼容:适配 Isaac Gym / MuJoCo 仿真
- 性能:已在多项手内操作 RL 实验中验证
抓取分类学
Cutkosky 抓取分类
Cutkosky (1989) 提出的抓取分类体系是灵巧操作的基础框架:
graph TD
A[人类抓取] --> B[力抓取<br/>Power Grasp]
A --> C[精密抓取<br/>Precision Grasp]
B --> B1[圆柱抓取<br/>Cylindrical]
B --> B2[球形抓取<br/>Spherical]
B --> B3[钩形抓取<br/>Hook]
B --> B4[掌面抓取<br/>Palmar]
C --> C1[指尖捏取<br/>Tip Pinch]
C --> C2[侧捏<br/>Lateral Pinch]
C --> C3[三指捏取<br/>Tripod]
C --> C4[圆盘抓取<br/>Disk]
B1 --> D[工具握持]
C1 --> E[精密装配]
C3 --> F[写字/画画]
力抓取:使用掌面和多指包裹物体,提供最大的抓取力和稳定性。
精密抓取:仅使用指尖接触,提供更高的灵巧性但稳定性较低。
接触模型
点接触(摩擦):最常用的接触模型,假设接触面积无穷小:
面接触:考虑有限接触面积,接触力旋量包含扭矩分量:
软指接触(Soft Finger):允许绕法线方向的扭矩,常见于指腹接触:
其中 \(e\) 是椭球摩擦参数。
手内操作
操作原语
手内操作可分解为以下基本动作:
- 手指旋转(Finger Gaiting):手指交替接触,实现大范围旋转
- 手指行走(Finger Walking):手指在物体表面滑动,改变抓取位置
- 枢轴转动(Pivoting):利用重力绕一个接触点旋转物体
- 滚动操作(Rolling):指尖在物体表面滚动,精密调整姿态
手内重定向问题
给定物体的初始位姿 \(\mathbf{T}_0\) 和目标位姿 \(\mathbf{T}_g\),在不放下物体的情况下,通过手指运动将物体从 \(\mathbf{T}_0\) 操作到 \(\mathbf{T}_g\)。
难度来源:
- 接触状态是离散的(哪些手指在接触)
- 滑动/滚动/分离的模式切换
- 物体可能掉落(稳定性约束)
- 高维空间中的规划
触觉传感
为什么需要触觉
视觉在被遮挡时失效(手指遮住物体),而触觉可以提供:
- 接触力:判断抓取力是否足够
- 滑动检测:物体是否即将脱落
- 表面特征:纹理、硬度、温度
- 接触位置:精确的接触区域
主流触觉传感器
| 传感器 | 原理 | 分辨率 | 特点 |
|---|---|---|---|
| GelSight (MIT) | 弹性体变形 + 相机 | ~30 μm | 超高空间分辨率,几何重建 |
| DIGIT (Meta) | GelSight 变种,紧凑设计 | ~40 μm | 可装配到机器人手指上 |
| BioTac (SynTouch) | 液压 + 电极阵列 | 19 taxels | 多模态(力、振动、温度) |
| ReSkin (Meta) | 磁阻传感 | ~1 mm | 薄膜式,低成本,可替换 |
| Taxim | 仿真 + GelSight | - | 触觉仿真框架 |
GelSight 工作原理
GelSight 使用透明弹性体涂覆反光涂层,当物体按压弹性体时:
- 弹性体变形反映接触面几何
- 多色 LED 照明弹性体内表面
- 相机捕获变形后的图像
- 通过光度立体法(Photometric Stereo)重建 3D 表面
其中 \(I_R, I_G, I_B\) 分别是红、绿、蓝通道图像,\(\mathbf{n}\) 是表面法线。
强化学习用于灵巧操作
OpenAI 魔方实验 (2019)
这是灵巧操作 RL 领域的里程碑工作:
- 目标:使用 Shadow Hand 将魔方翻转到目标状态
- 训练:在仿真中使用 PPO 训练,大规模域随机化
- 域随机化参数:摩擦、物体大小、手指长度、重力、传感器噪声等
- 自动域随机化(ADR):根据策略表现自动增加随机化范围
- 结果:成功率约 60%,展示了极端域随机化的力量
近期工作
timeline
title 灵巧操作 RL 关键进展
2018 : DAPG<br/>示范加速 RL
2019 : OpenAI 魔方<br/>Shadow Hand + 大规模 DR
2021 : DexMV<br/>从人类视频学习灵巧操作
2022 : DexPoint<br/>点云输入的灵巧操作
: Hora<br/>手内重定向 RL
2023 : DexGraspNet<br/>大规模灵巧抓取数据集
: AnyTeleop<br/>通用灵巧手遥操作
2024 : RotateIt<br/>通用手内旋转
: Bunny-VisionPro<br/>VR 遥操作灵巧手
DexMV:从人类操作视频中提取手部动作,将其重定向(retarget)到机器人手上作为 RL 的初始化或奖励信号。
DexPoint:使用点云表示替代关节角度作为状态输入,提高了泛化性。
关键设计模式:
# 典型灵巧操作奖励
reward = (
w_pose * exp(-k * ||q_obj - q_target||) # 物体姿态接近目标
+ w_reach * exp(-k * d(fingers, obj)) # 手指接近物体
- w_drop * (obj_z < threshold) # 物体掉落惩罚
- w_energy * sum(tau^2) # 能量惩罚
+ w_bonus * success # 成功奖励
)
传动与驱动设计
驱动方式比较
直驱(Direct Drive):电机直接驱动关节
- 优点:回驱性好,力控精确
- 缺点:力矩密度低,尺寸大
腱驱动(Tendon-driven):电机通过绳索(腱)驱动远端关节
- 优点:电机可远离关节,指节可以很细
- 缺点:腱绳摩擦、弹性变形、路径规划复杂
- 代表:Shadow Hand、Inspire Hand
连杆传动(Linkage):通过连杆机构传递运动
- 优点:结构刚性好,无绳索松弛问题
- 缺点:设计复杂,紧凑性差
- 代表:LEAP Hand
欠驱动 vs 全驱动:
- 全驱动:每个 DOF 有独立驱动器,完全可控
- 欠驱动:驱动器数少于 DOF,依靠机械耦合和弹性元件实现自适应抓取
- 欠驱动的优势:更简单、更鲁棒、更便宜
手眼协调
灵巧操作需要视觉(eye)和手(hand)的紧密协调:
Eye-in-hand:相机安装在手上
- 精确观察操作区域
- 视野随手运动
Eye-to-hand:相机固定在外部
- 全局视野
- 不受手运动影响
- 可能被手遮挡
实际系统通常结合两者:全局相机定位 + 手腕相机精细对准 + 触觉传感器接触反馈。
参考资料
- Bicchi, "Hands for Dexterous Manipulation and Robust Grasping", IEEE Trans. Robotics, 2000
- OpenAI, "Solving Rubik's Cube with a Robot Hand", arXiv, 2019
- Shaw et al., "LEAP Hand: Low-Cost, Efficient, and Anthropomorphic Hand for Robot Learning", RSS, 2023
- Cutkosky, "On Grasp Choice, Grasp Models, and the Design of Hands for Manufacturing Tasks", IEEE Trans. Robotics, 1989
相关笔记: