感知-行动循环

概述

感知-行动循环（Perception-Action Loop）是具身智能的核心计算框架。它描述了智能体如何通过持续的感知-决策-行动-反馈循环与环境进行交互。本文从生态心理学出发，讨论 Gibson 的可供性理论、主动感知、感觉运动整合，以及开环与闭环控制的区别。

1. 感知-行动循环的定义

1.1 基本框架

感知-行动循环是一个连续的闭合过程：

flowchart TD
    A[感知<br/>Sense] --> B[建模<br/>Model]
    B --> C[规划<br/>Plan]
    C --> D[行动<br/>Act]
    D --> E[环境<br/>Environment]
    E -->|感官反馈| A

    style A fill:#e3f2fd
    style B fill:#f3e5f5
    style C fill:#fff8e1
    style D fill:#e8f5e9
    style E fill:#fce4ec

形式化描述：

在时刻 \(t\)，智能体处于状态 \(s_t\)，执行以下步骤：

感知：从环境获取观测 \(o_t = h(s_t) + \epsilon_t\)
建模/估计：根据观测更新信念 \(b_t = p(s_t | o_{1:t}, a_{1:t-1})\)
规划/决策：选择动作 \(a_t = \pi(b_t)\) 或 \(a_t = \pi(o_{1:t})\)
执行：执行动作，环境转移 \(s_{t+1} \sim p(s_{t+1} | s_t, a_t)\)
反馈：环境变化产生新的感觉输入，循环重复

1.2 时间尺度

感知-行动循环在多个时间尺度上同时运行：

时间尺度	周期	层级	示例
反射级	1-10 ms	脊髓/低层控制	关节伺服、力反馈
运动控制级	10-100 ms	运动皮层/中层控制	轨迹跟踪、阻抗调节
行为级	0.1-10 s	行为规划	抓取物体、避障
任务级	10-1000 s	任务规划	完成一个操作任务
战略级	分钟-小时	高层决策	选择完成任务的策略

2. Gibson 的生态心理学与可供性

2.1 生态方法（Ecological Approach）

James J. Gibson (1979) 在 The Ecological Approach to Visual Perception 中提出了一种与信息处理范式截然不同的感知理论。

核心主张：

感知是直接的，不需要内部表征的中介
环境中包含丰富的信息，等待被"拾取"（pick up）
感知为行动服务，感知和行动是一体的

2.2 可供性（Affordance）

定义：可供性是环境相对于某个智能体所提供的行动机会。

\[\mu(e, a) = f(\text{environment properties}, \text{agent capabilities})\]

其中 \(e\) 是环境元素，\(a\) 是智能体。

关键性质：

关系性：可供性既非纯粹的环境属性，也非纯粹的智能体属性，而是二者的关系
直接感知：可供性可以被直接感知，不需要推理
行动导向：可供性直接指向可能的行动

示例：

环境元素	人类的可供性	机器人的可供性
椅子	可坐、可站、可搬	可推、可绕行
杯子	可握、可饮、可倒	可抓（依赖夹爪形态）
楼梯	可攀爬	取决于腿式/轮式
门把手	可转动/下压	取决于末端执行器

2.3 可供性在机器人学中的应用

SayCan（Ahn et al., 2022）的可供性评分：

\[\text{score}(a) = p(\text{useful} | a, l) \cdot p(\text{possible} | a, s)\]

其中：

\(p(\text{useful} | a, l)\)：语言模型评估动作 \(a\) 对于指令 \(l\) 的有用性
\(p(\text{possible} | a, s)\)：价值函数评估在状态 \(s\) 下动作 \(a\) 的可行性

学习可供性：

视觉可供性预测：给定图像，预测可能的交互区域和方式
接触可供性：哪里可以抓、推、放
Where2Act（Mo et al., 2021）：学习在 3D 物体上的操作点

3. 主动感知

3.1 定义

主动感知（Active Perception）是指智能体通过有目的的感知行为来获取信息、降低不确定性。

与被动感知的对比：

被动感知：处理当前感官输入 → \(o_t \xrightarrow{\text{处理}} \hat{s}_t\)
主动感知：选择感知动作以最大化信息增益 → \(a_t^{\text{percept}} = \arg\max_a I(s; o_{t+1} | a)\)

3.2 信息增益优化

主动感知可以形式化为信息增益最大化问题：

\[a^* = \arg\max_a \mathbb{E}_{o \sim p(o|a)} \left[ D_{KL}\left[ p(s|o, a) \| p(s) \right] \right]\]

即选择能最大化关于世界状态信息增益的感知动作。

等价形式（互信息最大化）：

\[a^* = \arg\max_a I(S; O | a) = \arg\max_a \left[ H(O|a) - H(O|S, a) \right]\]

3.3 应用场景

抓取前的观察规划：

机器人在抓取之前，需要选择最佳的观察视角：

初始观察 → 粗略物体检测
选择最佳视角（信息增益最大）
移动相机/手臂到该视角
获取更精确的物体模型
执行抓取

触觉探索：

当视觉信息不足时（如透明物体、柔软物体），机器人通过触觉主动探索：

\[a_t^{\text{touch}} = \arg\max_a \mathbb{E}\left[ \text{IG}(\text{shape} | \text{contact}_a) \right]\]

4. 感觉运动整合

4.1 多模态融合

感觉运动整合是将不同模态的感觉信息与运动指令统一处理的过程：

\[z_t = \text{Fuse}(o_t^{\text{vision}}, o_t^{\text{tactile}}, o_t^{\text{proprio}}, o_t^{\text{audio}})\]

融合策略：

策略	描述	优势	劣势
早期融合	在输入层拼接所有模态	简单	模态间干扰
晚期融合	各模态独立处理后融合决策	模态独立性好	丢失跨模态信息
注意力融合	Transformer 交叉注意力	灵活、可学习权重	计算量大
层次融合	不同层级融合不同模态	符合生物学	设计复杂

4.2 本体感受（Proprioception）

本体感受是智能体对自身身体状态的感知：

关节角度/角速度：\(q_t, \dot{q}_t\)
末端执行器位姿：\(T_{\text{ee}} \in SE(3)\)
关节力矩：\(\tau_t\)
基座姿态：IMU 数据

本体感受在感知-行动循环中的作用：

\[a_t = \pi(o_t^{\text{ext}}, o_t^{\text{proprio}})\]

缺少本体感受信息的策略通常性能显著下降，因为它提供了：

当前执行器状态（闭环控制必需）
接触检测（力矩突变意味着接触）
运动状态估计

4.3 预测性编码（Predictive Coding）

大脑在感觉运动整合中使用预测性编码机制：

\[\text{预测误差} = o_t - \hat{o}_t = o_t - g(\hat{s}_t, a_{t-1})\]

当预测误差较大时，系统需要更新内部模型；当预测误差接近零时，系统处于稳态。

5. 开环 vs 闭环控制

5.1 开环控制（Open-Loop）

\[a_{1:T} = \pi(o_1)\]

智能体根据初始观测一次性生成整个动作序列，执行期间不使用反馈。

优势：

计算效率高（只推理一次）
不依赖实时感知
适用于快速、短时间动作

劣势：

不能适应环境变化
误差会累积
对扰动敏感

典型应用：投掷、击打等快速动作

5.2 闭环控制（Closed-Loop）

\[a_t = \pi(o_t) \quad \text{或} \quad a_t = \pi(o_{1:t})\]

每个时间步都利用最新观测来决定动作。

优势：

能适应环境变化
能补偿执行误差
鲁棒性强

劣势：

需要实时感知（延迟约束）
计算负担大
对感知噪声敏感

典型应用：精密装配、动态操作、导航

5.3 混合模式

实际系统通常采用混合模式：

flowchart LR
    subgraph 闭环外层
        A[视觉观测] --> B[高层决策<br/>10-50 Hz]
        B --> C[目标轨迹]
    end
    subgraph 闭环内层
        C --> D[轨迹跟踪<br/>100-1000 Hz]
        D --> E[关节指令]
        F[关节传感器] --> D
    end
    E --> G[执行器]
    G --> F

外层闭环：基于视觉的任务级闭环（10-50 Hz）
内层闭环：基于本体感受的运动级闭环（100-1000 Hz）

5.4 反应式控制 vs 审慎式控制

维度	反应式（Reactive）	审慎式（Deliberative）
响应速度	快 (ms)	慢 (100ms - s)
感知需求	简单传感器	复杂多模态
规划深度	无/极浅	多步规划
适应性	固定行为模式	灵活适应新情况
代表架构	Subsumption	TAMP

Brooks (1986) 的包容体系结构（Subsumption Architecture）主张：

智能不需要内部表征，可以从简单的反应式行为层的叠加中涌现。

现代观点认为：反应式和审慎式控制应在同一系统中协同工作，类似于 Kahneman 的系统 1（快速直觉）和系统 2（慢速推理）。

6. 感知-行动循环的现代实现

6.1 端到端策略

现代 VLA 模型将感知-行动循环实现为：

\[a_t = f_\theta(I_t, l, q_t)\]

其中 \(I_t\) 为图像，\(l\) 为语言指令，\(q_t\) 为关节状态。

6.2 频率与延迟

实际系统中的关键约束：

\[\text{控制频率} > \frac{1}{\text{任务特征时间尺度}}\]

任务类型	最低控制频率	策略推理约束
静态抓取	5-10 Hz	推理时间 < 100ms
动态操作	20-50 Hz	推理时间 < 20ms
行走平衡	100-500 Hz	推理时间 < 2ms
灵巧手操作	50-200 Hz	推理时间 < 5ms

这对模型的推理效率提出了严格要求，也是为什么底层控制通常使用轻量级控制器而非大型神经网络。

7. 总结

感知-行动循环的核心洞察：

智能是循环的：不是单向的"感知→思考→行动"，而是持续的闭环交互
感知为行动服务：感知的目的是支持行动，主动感知优于被动观察
可供性是桥梁：环境和智能体通过可供性关联
多尺度并行：从毫秒级反射到分钟级规划同时运行
身体参与认知：本体感受是感知-行动循环不可或缺的一环

参考资料

Gibson, J. J. (1979). The Ecological Approach to Visual Perception
Brooks, R. A. (1986). "A Robust Layered Control System for a Mobile Robot"
Ahn, M. et al. (2022). "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances"
Bajcsy, R. (1988). "Active Perception"
Mo, K. et al. (2021). "Where2Act: From Pixels to Actions for Articulated 3D Objects"

相关笔记：