跳转至

灵巧手

概述:为什么需要灵巧手

人手拥有约 27 个骨骼、20 个自由度和数千个触觉感受器,是自然界最精密的操作工具。灵巧手(Dexterous Hand)试图复制这种能力,使机器人能够完成精细操作——拧螺丝、翻转物体、使用工具、折叠织物等。

与简单的平行夹爪相比,灵巧手的优势在于:

  • 手内操作(In-hand Manipulation):无需放下物体即可重新调整抓取姿态
  • 多指协调:可以同时操作多个物体或执行复杂的多接触任务
  • 工具使用:能像人手一样握持和使用各种工具
  • 通用性:一只手适应所有抓取和操作场景

核心挑战

  • 高维控制:16-20 DOF 的连续控制空间
  • 接触建模:多指与物体的多点接触力学极其复杂
  • 传感:需要高密度的触觉反馈
  • 欠驱动:多数手欠驱动(DOF > 驱动器数),需要巧妙的传动设计
  • 硬件可靠性:精密传动机构容易磨损

灵巧手平台对比

平台 DOF 驱动方式 特点 价格 典型用途
Shadow Dexterous Hand 20 气动/电动 最接近人手,OpenAI 魔方实验 >$100K 高端研究
Allegro Hand (Wonik) 16 电动力矩控制 研究界广泛使用,可直接力矩控制 ~$15K RL 研究
LEAP Hand (CMU) 16 电动 (Dynamixel) 3D 打印开源设计,~$2K ~$2K 低成本 RL
Ability Hand (PSYONIC) 6 电动 假肢级,触觉反馈 假肢定价 假肢/研究
Inspire Hand (因时机器人) 6-12 电动 低成本,多款型号,国产人形常用 ~$1-5K 人形集成
Agilex DexHand 12 电动 配合 Agilex 移动平台 ~$5K 移动操作
DEX-EE (Sanctuary AI) 20+ 电动 用于 Phoenix 人形 非卖品 内部
Tesla Optimus Hand 11/手 电动 面向量产,匹配人手尺寸 非卖品 人形集成

Shadow Dexterous Hand

Shadow Hand 是灵巧手研究的"黄金标准":

  • 24 个关节,20 个自由度
  • 拇指具有对掌运动(opposition)
  • 气动版本响应快但需要外部气源
  • 电动版本更适合实验室环境
  • BioTac 触觉传感器集成(可选)
  • OpenAI 在 2019 年用它完成了魔方翻转

LEAP Hand

LEAP Hand 是 CMU 推出的开源低成本方案,极大降低了灵巧手研究的门槛:

  • 设计:全 3D 打印结构 + Dynamixel XC330 舵机
  • 成本:约 $2,000(相比 Allegro $15K、Shadow $100K+)
  • 开源:硬件设计、URDF、控制代码全开源
  • 兼容:适配 Isaac Gym / MuJoCo 仿真
  • 性能:已在多项手内操作 RL 实验中验证

抓取分类学

Cutkosky 抓取分类

Cutkosky (1989) 提出的抓取分类体系是灵巧操作的基础框架:

graph TD
    A[人类抓取] --> B[力抓取<br/>Power Grasp]
    A --> C[精密抓取<br/>Precision Grasp]

    B --> B1[圆柱抓取<br/>Cylindrical]
    B --> B2[球形抓取<br/>Spherical]
    B --> B3[钩形抓取<br/>Hook]
    B --> B4[掌面抓取<br/>Palmar]

    C --> C1[指尖捏取<br/>Tip Pinch]
    C --> C2[侧捏<br/>Lateral Pinch]
    C --> C3[三指捏取<br/>Tripod]
    C --> C4[圆盘抓取<br/>Disk]

    B1 --> D[工具握持]
    C1 --> E[精密装配]
    C3 --> F[写字/画画]

力抓取:使用掌面和多指包裹物体,提供最大的抓取力和稳定性。

精密抓取:仅使用指尖接触,提供更高的灵巧性但稳定性较低。

接触模型

点接触(摩擦):最常用的接触模型,假设接触面积无穷小:

\[ \mathbf{f}_c = [f_x, f_y, f_z]^T, \quad \sqrt{f_x^2 + f_y^2} \leq \mu f_z \]

面接触:考虑有限接触面积,接触力旋量包含扭矩分量:

\[ \mathbf{w}_c = [f_x, f_y, f_z, \tau_x, \tau_y, \tau_z]^T \]

软指接触(Soft Finger):允许绕法线方向的扭矩,常见于指腹接触:

\[ \mathbf{w}_c = [f_x, f_y, f_z, 0, 0, \tau_z]^T, \quad f_t^2 + \frac{\tau_z^2}{e^2} \leq \mu^2 f_z^2 \]

其中 \(e\) 是椭球摩擦参数。


手内操作

操作原语

手内操作可分解为以下基本动作:

  • 手指旋转(Finger Gaiting):手指交替接触,实现大范围旋转
  • 手指行走(Finger Walking):手指在物体表面滑动,改变抓取位置
  • 枢轴转动(Pivoting):利用重力绕一个接触点旋转物体
  • 滚动操作(Rolling):指尖在物体表面滚动,精密调整姿态

手内重定向问题

给定物体的初始位姿 \(\mathbf{T}_0\) 和目标位姿 \(\mathbf{T}_g\),在不放下物体的情况下,通过手指运动将物体从 \(\mathbf{T}_0\) 操作到 \(\mathbf{T}_g\)

难度来源

  1. 接触状态是离散的(哪些手指在接触)
  2. 滑动/滚动/分离的模式切换
  3. 物体可能掉落(稳定性约束)
  4. 高维空间中的规划

触觉传感

为什么需要触觉

视觉在被遮挡时失效(手指遮住物体),而触觉可以提供:

  • 接触力:判断抓取力是否足够
  • 滑动检测:物体是否即将脱落
  • 表面特征:纹理、硬度、温度
  • 接触位置:精确的接触区域

主流触觉传感器

传感器 原理 分辨率 特点
GelSight (MIT) 弹性体变形 + 相机 ~30 μm 超高空间分辨率,几何重建
DIGIT (Meta) GelSight 变种,紧凑设计 ~40 μm 可装配到机器人手指上
BioTac (SynTouch) 液压 + 电极阵列 19 taxels 多模态(力、振动、温度)
ReSkin (Meta) 磁阻传感 ~1 mm 薄膜式,低成本,可替换
Taxim 仿真 + GelSight - 触觉仿真框架

GelSight 工作原理

GelSight 使用透明弹性体涂覆反光涂层,当物体按压弹性体时:

  1. 弹性体变形反映接触面几何
  2. 多色 LED 照明弹性体内表面
  3. 相机捕获变形后的图像
  4. 通过光度立体法(Photometric Stereo)重建 3D 表面
\[ \mathbf{n}(x,y) = f(I_R(x,y), I_G(x,y), I_B(x,y)) \]

其中 \(I_R, I_G, I_B\) 分别是红、绿、蓝通道图像,\(\mathbf{n}\) 是表面法线。


强化学习用于灵巧操作

OpenAI 魔方实验 (2019)

这是灵巧操作 RL 领域的里程碑工作:

  • 目标:使用 Shadow Hand 将魔方翻转到目标状态
  • 训练:在仿真中使用 PPO 训练,大规模域随机化
  • 域随机化参数:摩擦、物体大小、手指长度、重力、传感器噪声等
  • 自动域随机化(ADR):根据策略表现自动增加随机化范围
  • 结果:成功率约 60%,展示了极端域随机化的力量

近期工作

timeline
    title 灵巧操作 RL 关键进展
    2018 : DAPG<br/>示范加速 RL
    2019 : OpenAI 魔方<br/>Shadow Hand + 大规模 DR
    2021 : DexMV<br/>从人类视频学习灵巧操作
    2022 : DexPoint<br/>点云输入的灵巧操作
         : Hora<br/>手内重定向 RL
    2023 : DexGraspNet<br/>大规模灵巧抓取数据集
         : AnyTeleop<br/>通用灵巧手遥操作
    2024 : RotateIt<br/>通用手内旋转
         : Bunny-VisionPro<br/>VR 遥操作灵巧手

DexMV:从人类操作视频中提取手部动作,将其重定向(retarget)到机器人手上作为 RL 的初始化或奖励信号。

DexPoint:使用点云表示替代关节角度作为状态输入,提高了泛化性。

关键设计模式

# 典型灵巧操作奖励
reward = (
    w_pose * exp(-k * ||q_obj - q_target||)   # 物体姿态接近目标
    + w_reach * exp(-k * d(fingers, obj))       # 手指接近物体
    - w_drop * (obj_z < threshold)              # 物体掉落惩罚
    - w_energy * sum(tau^2)                      # 能量惩罚
    + w_bonus * success                          # 成功奖励
)

传动与驱动设计

驱动方式比较

直驱(Direct Drive):电机直接驱动关节

  • 优点:回驱性好,力控精确
  • 缺点:力矩密度低,尺寸大

腱驱动(Tendon-driven):电机通过绳索(腱)驱动远端关节

  • 优点:电机可远离关节,指节可以很细
  • 缺点:腱绳摩擦、弹性变形、路径规划复杂
  • 代表:Shadow Hand、Inspire Hand

连杆传动(Linkage):通过连杆机构传递运动

  • 优点:结构刚性好,无绳索松弛问题
  • 缺点:设计复杂,紧凑性差
  • 代表:LEAP Hand

欠驱动 vs 全驱动

  • 全驱动:每个 DOF 有独立驱动器,完全可控
  • 欠驱动:驱动器数少于 DOF,依靠机械耦合和弹性元件实现自适应抓取
  • 欠驱动的优势:更简单、更鲁棒、更便宜

手眼协调

灵巧操作需要视觉(eye)和手(hand)的紧密协调:

Eye-in-hand:相机安装在手上

  • 精确观察操作区域
  • 视野随手运动

Eye-to-hand:相机固定在外部

  • 全局视野
  • 不受手运动影响
  • 可能被手遮挡

实际系统通常结合两者:全局相机定位 + 手腕相机精细对准 + 触觉传感器接触反馈。


参考资料

  • Bicchi, "Hands for Dexterous Manipulation and Robust Grasping", IEEE Trans. Robotics, 2000
  • OpenAI, "Solving Rubik's Cube with a Robot Hand", arXiv, 2019
  • Shaw et al., "LEAP Hand: Low-Cost, Efficient, and Anthropomorphic Hand for Robot Learning", RSS, 2023
  • Cutkosky, "On Grasp Choice, Grasp Models, and the Design of Hands for Manufacturing Tasks", IEEE Trans. Robotics, 1989

相关笔记


评论 #