感知-行动循环
概述
感知-行动循环(Perception-Action Loop)是具身智能的核心计算框架。它描述了智能体如何通过持续的感知-决策-行动-反馈循环与环境进行交互。本文从生态心理学出发,讨论 Gibson 的可供性理论、主动感知、感觉运动整合,以及开环与闭环控制的区别。
1. 感知-行动循环的定义
1.1 基本框架
感知-行动循环是一个连续的闭合过程:
flowchart TD
A[感知<br/>Sense] --> B[建模<br/>Model]
B --> C[规划<br/>Plan]
C --> D[行动<br/>Act]
D --> E[环境<br/>Environment]
E -->|感官反馈| A
style A fill:#e3f2fd
style B fill:#f3e5f5
style C fill:#fff8e1
style D fill:#e8f5e9
style E fill:#fce4ec
形式化描述:
在时刻 \(t\),智能体处于状态 \(s_t\),执行以下步骤:
- 感知:从环境获取观测 \(o_t = h(s_t) + \epsilon_t\)
- 建模/估计:根据观测更新信念 \(b_t = p(s_t | o_{1:t}, a_{1:t-1})\)
- 规划/决策:选择动作 \(a_t = \pi(b_t)\) 或 \(a_t = \pi(o_{1:t})\)
- 执行:执行动作,环境转移 \(s_{t+1} \sim p(s_{t+1} | s_t, a_t)\)
- 反馈:环境变化产生新的感觉输入,循环重复
1.2 时间尺度
感知-行动循环在多个时间尺度上同时运行:
| 时间尺度 | 周期 | 层级 | 示例 |
|---|---|---|---|
| 反射级 | 1-10 ms | 脊髓/低层控制 | 关节伺服、力反馈 |
| 运动控制级 | 10-100 ms | 运动皮层/中层控制 | 轨迹跟踪、阻抗调节 |
| 行为级 | 0.1-10 s | 行为规划 | 抓取物体、避障 |
| 任务级 | 10-1000 s | 任务规划 | 完成一个操作任务 |
| 战略级 | 分钟-小时 | 高层决策 | 选择完成任务的策略 |
2. Gibson 的生态心理学与可供性
2.1 生态方法(Ecological Approach)
James J. Gibson (1979) 在 The Ecological Approach to Visual Perception 中提出了一种与信息处理范式截然不同的感知理论。
核心主张:
- 感知是直接的,不需要内部表征的中介
- 环境中包含丰富的信息,等待被"拾取"(pick up)
- 感知为行动服务,感知和行动是一体的
2.2 可供性(Affordance)
定义:可供性是环境相对于某个智能体所提供的行动机会。
其中 \(e\) 是环境元素,\(a\) 是智能体。
关键性质:
- 关系性:可供性既非纯粹的环境属性,也非纯粹的智能体属性,而是二者的关系
- 直接感知:可供性可以被直接感知,不需要推理
- 行动导向:可供性直接指向可能的行动
示例:
| 环境元素 | 人类的可供性 | 机器人的可供性 |
|---|---|---|
| 椅子 | 可坐、可站、可搬 | 可推、可绕行 |
| 杯子 | 可握、可饮、可倒 | 可抓(依赖夹爪形态) |
| 楼梯 | 可攀爬 | 取决于腿式/轮式 |
| 门把手 | 可转动/下压 | 取决于末端执行器 |
2.3 可供性在机器人学中的应用
SayCan(Ahn et al., 2022)的可供性评分:
其中:
- \(p(\text{useful} | a, l)\):语言模型评估动作 \(a\) 对于指令 \(l\) 的有用性
- \(p(\text{possible} | a, s)\):价值函数评估在状态 \(s\) 下动作 \(a\) 的可行性
学习可供性:
- 视觉可供性预测:给定图像,预测可能的交互区域和方式
- 接触可供性:哪里可以抓、推、放
- Where2Act(Mo et al., 2021):学习在 3D 物体上的操作点
3. 主动感知
3.1 定义
主动感知(Active Perception)是指智能体通过有目的的感知行为来获取信息、降低不确定性。
与被动感知的对比:
- 被动感知:处理当前感官输入 → \(o_t \xrightarrow{\text{处理}} \hat{s}_t\)
- 主动感知:选择感知动作以最大化信息增益 → \(a_t^{\text{percept}} = \arg\max_a I(s; o_{t+1} | a)\)
3.2 信息增益优化
主动感知可以形式化为信息增益最大化问题:
即选择能最大化关于世界状态信息增益的感知动作。
等价形式(互信息最大化):
3.3 应用场景
抓取前的观察规划:
机器人在抓取之前,需要选择最佳的观察视角:
- 初始观察 → 粗略物体检测
- 选择最佳视角(信息增益最大)
- 移动相机/手臂到该视角
- 获取更精确的物体模型
- 执行抓取
触觉探索:
当视觉信息不足时(如透明物体、柔软物体),机器人通过触觉主动探索:
4. 感觉运动整合
4.1 多模态融合
感觉运动整合是将不同模态的感觉信息与运动指令统一处理的过程:
融合策略:
| 策略 | 描述 | 优势 | 劣势 |
|---|---|---|---|
| 早期融合 | 在输入层拼接所有模态 | 简单 | 模态间干扰 |
| 晚期融合 | 各模态独立处理后融合决策 | 模态独立性好 | 丢失跨模态信息 |
| 注意力融合 | Transformer 交叉注意力 | 灵活、可学习权重 | 计算量大 |
| 层次融合 | 不同层级融合不同模态 | 符合生物学 | 设计复杂 |
4.2 本体感受(Proprioception)
本体感受是智能体对自身身体状态的感知:
- 关节角度/角速度:\(q_t, \dot{q}_t\)
- 末端执行器位姿:\(T_{\text{ee}} \in SE(3)\)
- 关节力矩:\(\tau_t\)
- 基座姿态:IMU 数据
本体感受在感知-行动循环中的作用:
缺少本体感受信息的策略通常性能显著下降,因为它提供了:
- 当前执行器状态(闭环控制必需)
- 接触检测(力矩突变意味着接触)
- 运动状态估计
4.3 预测性编码(Predictive Coding)
大脑在感觉运动整合中使用预测性编码机制:
当预测误差较大时,系统需要更新内部模型;当预测误差接近零时,系统处于稳态。
5. 开环 vs 闭环控制
5.1 开环控制(Open-Loop)
智能体根据初始观测一次性生成整个动作序列,执行期间不使用反馈。
优势:
- 计算效率高(只推理一次)
- 不依赖实时感知
- 适用于快速、短时间动作
劣势:
- 不能适应环境变化
- 误差会累积
- 对扰动敏感
典型应用:投掷、击打等快速动作
5.2 闭环控制(Closed-Loop)
每个时间步都利用最新观测来决定动作。
优势:
- 能适应环境变化
- 能补偿执行误差
- 鲁棒性强
劣势:
- 需要实时感知(延迟约束)
- 计算负担大
- 对感知噪声敏感
典型应用:精密装配、动态操作、导航
5.3 混合模式
实际系统通常采用混合模式:
flowchart LR
subgraph 闭环外层
A[视觉观测] --> B[高层决策<br/>10-50 Hz]
B --> C[目标轨迹]
end
subgraph 闭环内层
C --> D[轨迹跟踪<br/>100-1000 Hz]
D --> E[关节指令]
F[关节传感器] --> D
end
E --> G[执行器]
G --> F
- 外层闭环:基于视觉的任务级闭环(10-50 Hz)
- 内层闭环:基于本体感受的运动级闭环(100-1000 Hz)
5.4 反应式控制 vs 审慎式控制
| 维度 | 反应式(Reactive) | 审慎式(Deliberative) |
|---|---|---|
| 响应速度 | 快 (ms) | 慢 (100ms - s) |
| 感知需求 | 简单传感器 | 复杂多模态 |
| 规划深度 | 无/极浅 | 多步规划 |
| 适应性 | 固定行为模式 | 灵活适应新情况 |
| 代表架构 | Subsumption | TAMP |
Brooks (1986) 的包容体系结构(Subsumption Architecture)主张:
智能不需要内部表征,可以从简单的反应式行为层的叠加中涌现。
现代观点认为:反应式和审慎式控制应在同一系统中协同工作,类似于 Kahneman 的系统 1(快速直觉)和系统 2(慢速推理)。
6. 感知-行动循环的现代实现
6.1 端到端策略
现代 VLA 模型将感知-行动循环实现为:
其中 \(I_t\) 为图像,\(l\) 为语言指令,\(q_t\) 为关节状态。
6.2 频率与延迟
实际系统中的关键约束:
| 任务类型 | 最低控制频率 | 策略推理约束 |
|---|---|---|
| 静态抓取 | 5-10 Hz | 推理时间 < 100ms |
| 动态操作 | 20-50 Hz | 推理时间 < 20ms |
| 行走平衡 | 100-500 Hz | 推理时间 < 2ms |
| 灵巧手操作 | 50-200 Hz | 推理时间 < 5ms |
这对模型的推理效率提出了严格要求,也是为什么底层控制通常使用轻量级控制器而非大型神经网络。
7. 总结
感知-行动循环的核心洞察:
- 智能是循环的:不是单向的"感知→思考→行动",而是持续的闭环交互
- 感知为行动服务:感知的目的是支持行动,主动感知优于被动观察
- 可供性是桥梁:环境和智能体通过可供性关联
- 多尺度并行:从毫秒级反射到分钟级规划同时运行
- 身体参与认知:本体感受是感知-行动循环不可或缺的一环
参考资料
- Gibson, J. J. (1979). The Ecological Approach to Visual Perception
- Brooks, R. A. (1986). "A Robust Layered Control System for a Mobile Robot"
- Ahn, M. et al. (2022). "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances"
- Bajcsy, R. (1988). "Active Perception"
- Mo, K. et al. (2021). "Where2Act: From Pixels to Actions for Articulated 3D Objects"
相关笔记: