灵巧手

概述：为什么需要灵巧手

人手拥有约 27 个骨骼、20 个自由度和数千个触觉感受器，是自然界最精密的操作工具。灵巧手（Dexterous Hand）试图复制这种能力，使机器人能够完成精细操作——拧螺丝、翻转物体、使用工具、折叠织物等。

与简单的平行夹爪相比，灵巧手的优势在于：

手内操作（In-hand Manipulation）：无需放下物体即可重新调整抓取姿态
多指协调：可以同时操作多个物体或执行复杂的多接触任务
工具使用：能像人手一样握持和使用各种工具
通用性：一只手适应所有抓取和操作场景

核心挑战

高维控制：16-20 DOF 的连续控制空间
接触建模：多指与物体的多点接触力学极其复杂
传感：需要高密度的触觉反馈
欠驱动：多数手欠驱动（DOF > 驱动器数），需要巧妙的传动设计
硬件可靠性：精密传动机构容易磨损

灵巧手平台对比

平台	DOF	驱动方式	特点	价格	典型用途
Shadow Dexterous Hand	20	气动/电动	最接近人手，OpenAI 魔方实验	>$100K	高端研究
Allegro Hand (Wonik)	16	电动力矩控制	研究界广泛使用，可直接力矩控制	~$15K	RL 研究
LEAP Hand (CMU)	16	电动 (Dynamixel)	3D 打印开源设计，~$2K	~$2K	低成本 RL
Ability Hand (PSYONIC)	6	电动	假肢级，触觉反馈	假肢定价	假肢/研究
Inspire Hand (因时机器人)	6-12	电动	低成本，多款型号，国产人形常用	~$1-5K	人形集成
Agilex DexHand	12	电动	配合 Agilex 移动平台	~$5K	移动操作
DEX-EE (Sanctuary AI)	20+	电动	用于 Phoenix 人形	非卖品	内部
Tesla Optimus Hand	11/手	电动	面向量产，匹配人手尺寸	非卖品	人形集成

Shadow Dexterous Hand

Shadow Hand 是灵巧手研究的"黄金标准"：

24 个关节，20 个自由度
拇指具有对掌运动（opposition）
气动版本响应快但需要外部气源
电动版本更适合实验室环境
BioTac 触觉传感器集成（可选）
OpenAI 在 2019 年用它完成了魔方翻转

LEAP Hand

LEAP Hand 是 CMU 推出的开源低成本方案，极大降低了灵巧手研究的门槛：

设计：全 3D 打印结构 + Dynamixel XC330 舵机
成本：约 $2,000（相比 Allegro $15K、Shadow $100K+）
开源：硬件设计、URDF、控制代码全开源
兼容：适配 Isaac Gym / MuJoCo 仿真
性能：已在多项手内操作 RL 实验中验证

抓取分类学

Cutkosky 抓取分类

Cutkosky (1989) 提出的抓取分类体系是灵巧操作的基础框架：

graph TD
    A[人类抓取] --> B[力抓取<br/>Power Grasp]
    A --> C[精密抓取<br/>Precision Grasp]

    B --> B1[圆柱抓取<br/>Cylindrical]
    B --> B2[球形抓取<br/>Spherical]
    B --> B3[钩形抓取<br/>Hook]
    B --> B4[掌面抓取<br/>Palmar]

    C --> C1[指尖捏取<br/>Tip Pinch]
    C --> C2[侧捏<br/>Lateral Pinch]
    C --> C3[三指捏取<br/>Tripod]
    C --> C4[圆盘抓取<br/>Disk]

    B1 --> D[工具握持]
    C1 --> E[精密装配]
    C3 --> F[写字/画画]

力抓取：使用掌面和多指包裹物体，提供最大的抓取力和稳定性。

精密抓取：仅使用指尖接触，提供更高的灵巧性但稳定性较低。

接触模型

点接触（摩擦）：最常用的接触模型，假设接触面积无穷小：

\[ \mathbf{f}_c = [f_x, f_y, f_z]^T, \quad \sqrt{f_x^2 + f_y^2} \leq \mu f_z \]

面接触：考虑有限接触面积，接触力旋量包含扭矩分量：

\[ \mathbf{w}_c = [f_x, f_y, f_z, \tau_x, \tau_y, \tau_z]^T \]

软指接触（Soft Finger）：允许绕法线方向的扭矩，常见于指腹接触：

\[ \mathbf{w}_c = [f_x, f_y, f_z, 0, 0, \tau_z]^T, \quad f_t^2 + \frac{\tau_z^2}{e^2} \leq \mu^2 f_z^2 \]

其中 $e$ 是椭球摩擦参数。

手内操作

操作原语

手内操作可分解为以下基本动作：

手指旋转（Finger Gaiting）：手指交替接触，实现大范围旋转
手指行走（Finger Walking）：手指在物体表面滑动，改变抓取位置
枢轴转动（Pivoting）：利用重力绕一个接触点旋转物体
滚动操作（Rolling）：指尖在物体表面滚动，精密调整姿态

手内重定向问题

给定物体的初始位姿 $\mathbf{T}_0$ 和目标位姿 $\mathbf{T}_g$，在不放下物体的情况下，通过手指运动将物体从 $\mathbf{T}_0$ 操作到 $\mathbf{T}_g$。

难度来源：

接触状态是离散的（哪些手指在接触）
滑动/滚动/分离的模式切换
物体可能掉落（稳定性约束）
高维空间中的规划

触觉传感

为什么需要触觉

视觉在被遮挡时失效（手指遮住物体），而触觉可以提供：

接触力：判断抓取力是否足够
滑动检测：物体是否即将脱落
表面特征：纹理、硬度、温度
接触位置：精确的接触区域

主流触觉传感器

传感器	原理	分辨率	特点
GelSight (MIT)	弹性体变形 + 相机	~30 μm	超高空间分辨率，几何重建
DIGIT (Meta)	GelSight 变种，紧凑设计	~40 μm	可装配到机器人手指上
BioTac (SynTouch)	液压 + 电极阵列	19 taxels	多模态（力、振动、温度）
ReSkin (Meta)	磁阻传感	~1 mm	薄膜式，低成本，可替换
Taxim	仿真 + GelSight	-	触觉仿真框架

GelSight 工作原理

GelSight 使用透明弹性体涂覆反光涂层，当物体按压弹性体时：

弹性体变形反映接触面几何
多色 LED 照明弹性体内表面
相机捕获变形后的图像
通过光度立体法（Photometric Stereo）重建 3D 表面

\[ \mathbf{n}(x,y) = f(I_R(x,y), I_G(x,y), I_B(x,y)) \]

其中 $I_R, I_G, I_B$ 分别是红、绿、蓝通道图像，$\mathbf{n}$ 是表面法线。

强化学习用于灵巧操作

OpenAI 魔方实验 (2019)

这是灵巧操作 RL 领域的里程碑工作：

目标：使用 Shadow Hand 将魔方翻转到目标状态
训练：在仿真中使用 PPO 训练，大规模域随机化
域随机化参数：摩擦、物体大小、手指长度、重力、传感器噪声等
自动域随机化（ADR）：根据策略表现自动增加随机化范围
结果：成功率约 60%，展示了极端域随机化的力量

近期工作

timeline
    title 灵巧操作 RL 关键进展
    2018 : DAPG<br/>示范加速 RL
    2019 : OpenAI 魔方<br/>Shadow Hand + 大规模 DR
    2021 : DexMV<br/>从人类视频学习灵巧操作
    2022 : DexPoint<br/>点云输入的灵巧操作
         : Hora<br/>手内重定向 RL
    2023 : DexGraspNet<br/>大规模灵巧抓取数据集
         : AnyTeleop<br/>通用灵巧手遥操作
    2024 : RotateIt<br/>通用手内旋转
         : Bunny-VisionPro<br/>VR 遥操作灵巧手

DexMV：从人类操作视频中提取手部动作，将其重定向（retarget）到机器人手上作为 RL 的初始化或奖励信号。

DexPoint：使用点云表示替代关节角度作为状态输入，提高了泛化性。

关键设计模式：

# 典型灵巧操作奖励
reward = (
    w_pose * exp(-k * ||q_obj - q_target||)   # 物体姿态接近目标
    + w_reach * exp(-k * d(fingers, obj))       # 手指接近物体
    - w_drop * (obj_z < threshold)              # 物体掉落惩罚
    - w_energy * sum(tau^2)                      # 能量惩罚
    + w_bonus * success                          # 成功奖励
)

传动与驱动设计

驱动方式比较

直驱（Direct Drive）：电机直接驱动关节

优点：回驱性好，力控精确
缺点：力矩密度低，尺寸大

腱驱动（Tendon-driven）：电机通过绳索（腱）驱动远端关节

优点：电机可远离关节，指节可以很细
缺点：腱绳摩擦、弹性变形、路径规划复杂
代表：Shadow Hand、Inspire Hand

连杆传动（Linkage）：通过连杆机构传递运动

优点：结构刚性好，无绳索松弛问题
缺点：设计复杂，紧凑性差
代表：LEAP Hand

欠驱动 vs 全驱动：

全驱动：每个 DOF 有独立驱动器，完全可控
欠驱动：驱动器数少于 DOF，依靠机械耦合和弹性元件实现自适应抓取
欠驱动的优势：更简单、更鲁棒、更便宜

手眼协调

灵巧操作需要视觉（eye）和手（hand）的紧密协调：

Eye-in-hand：相机安装在手上

精确观察操作区域
视野随手运动

Eye-to-hand：相机固定在外部

全局视野
不受手运动影响
可能被手遮挡

实际系统通常结合两者：全局相机定位 + 手腕相机精细对准 + 触觉传感器接触反馈。

参考资料

Bicchi, "Hands for Dexterous Manipulation and Robust Grasping", IEEE Trans. Robotics, 2000
OpenAI, "Solving Rubik's Cube with a Robot Hand", arXiv, 2019
Shaw et al., "LEAP Hand: Low-Cost, Efficient, and Anthropomorphic Hand for Robot Learning", RSS, 2023
Cutkosky, "On Grasp Choice, Grasp Models, and the Design of Hands for Manufacturing Tasks", IEEE Trans. Robotics, 1989

相关笔记：

灵巧手