跳转至

感知-行动循环

概述

感知-行动循环(Perception-Action Loop)是具身智能的核心计算框架。它描述了智能体如何通过持续的感知-决策-行动-反馈循环与环境进行交互。本文从生态心理学出发,讨论 Gibson 的可供性理论、主动感知、感觉运动整合,以及开环与闭环控制的区别。


1. 感知-行动循环的定义

1.1 基本框架

感知-行动循环是一个连续的闭合过程:

flowchart TD
    A[感知<br/>Sense] --> B[建模<br/>Model]
    B --> C[规划<br/>Plan]
    C --> D[行动<br/>Act]
    D --> E[环境<br/>Environment]
    E -->|感官反馈| A

    style A fill:#e3f2fd
    style B fill:#f3e5f5
    style C fill:#fff8e1
    style D fill:#e8f5e9
    style E fill:#fce4ec

形式化描述

在时刻 \(t\),智能体处于状态 \(s_t\),执行以下步骤:

  1. 感知:从环境获取观测 \(o_t = h(s_t) + \epsilon_t\)
  2. 建模/估计:根据观测更新信念 \(b_t = p(s_t | o_{1:t}, a_{1:t-1})\)
  3. 规划/决策:选择动作 \(a_t = \pi(b_t)\)\(a_t = \pi(o_{1:t})\)
  4. 执行:执行动作,环境转移 \(s_{t+1} \sim p(s_{t+1} | s_t, a_t)\)
  5. 反馈:环境变化产生新的感觉输入,循环重复

1.2 时间尺度

感知-行动循环在多个时间尺度上同时运行:

时间尺度 周期 层级 示例
反射级 1-10 ms 脊髓/低层控制 关节伺服、力反馈
运动控制级 10-100 ms 运动皮层/中层控制 轨迹跟踪、阻抗调节
行为级 0.1-10 s 行为规划 抓取物体、避障
任务级 10-1000 s 任务规划 完成一个操作任务
战略级 分钟-小时 高层决策 选择完成任务的策略

2. Gibson 的生态心理学与可供性

2.1 生态方法(Ecological Approach)

James J. Gibson (1979) 在 The Ecological Approach to Visual Perception 中提出了一种与信息处理范式截然不同的感知理论。

核心主张

  • 感知是直接的,不需要内部表征的中介
  • 环境中包含丰富的信息,等待被"拾取"(pick up)
  • 感知为行动服务,感知和行动是一体的

2.2 可供性(Affordance)

定义:可供性是环境相对于某个智能体所提供的行动机会。

\[\mu(e, a) = f(\text{environment properties}, \text{agent capabilities})\]

其中 \(e\) 是环境元素,\(a\) 是智能体。

关键性质

  • 关系性:可供性既非纯粹的环境属性,也非纯粹的智能体属性,而是二者的关系
  • 直接感知:可供性可以被直接感知,不需要推理
  • 行动导向:可供性直接指向可能的行动

示例

环境元素 人类的可供性 机器人的可供性
椅子 可坐、可站、可搬 可推、可绕行
杯子 可握、可饮、可倒 可抓(依赖夹爪形态)
楼梯 可攀爬 取决于腿式/轮式
门把手 可转动/下压 取决于末端执行器

2.3 可供性在机器人学中的应用

SayCan(Ahn et al., 2022)的可供性评分

\[\text{score}(a) = p(\text{useful} | a, l) \cdot p(\text{possible} | a, s)\]

其中:

  • \(p(\text{useful} | a, l)\):语言模型评估动作 \(a\) 对于指令 \(l\) 的有用性
  • \(p(\text{possible} | a, s)\):价值函数评估在状态 \(s\) 下动作 \(a\) 的可行性

学习可供性

  • 视觉可供性预测:给定图像,预测可能的交互区域和方式
  • 接触可供性:哪里可以抓、推、放
  • Where2Act(Mo et al., 2021):学习在 3D 物体上的操作点

3. 主动感知

3.1 定义

主动感知(Active Perception)是指智能体通过有目的的感知行为来获取信息、降低不确定性。

与被动感知的对比:

  • 被动感知:处理当前感官输入 → \(o_t \xrightarrow{\text{处理}} \hat{s}_t\)
  • 主动感知:选择感知动作以最大化信息增益 → \(a_t^{\text{percept}} = \arg\max_a I(s; o_{t+1} | a)\)

3.2 信息增益优化

主动感知可以形式化为信息增益最大化问题:

\[a^* = \arg\max_a \mathbb{E}_{o \sim p(o|a)} \left[ D_{KL}\left[ p(s|o, a) \| p(s) \right] \right]\]

即选择能最大化关于世界状态信息增益的感知动作。

等价形式(互信息最大化)

\[a^* = \arg\max_a I(S; O | a) = \arg\max_a \left[ H(O|a) - H(O|S, a) \right]\]

3.3 应用场景

抓取前的观察规划

机器人在抓取之前,需要选择最佳的观察视角:

  1. 初始观察 → 粗略物体检测
  2. 选择最佳视角(信息增益最大)
  3. 移动相机/手臂到该视角
  4. 获取更精确的物体模型
  5. 执行抓取

触觉探索

当视觉信息不足时(如透明物体、柔软物体),机器人通过触觉主动探索:

\[a_t^{\text{touch}} = \arg\max_a \mathbb{E}\left[ \text{IG}(\text{shape} | \text{contact}_a) \right]\]

4. 感觉运动整合

4.1 多模态融合

感觉运动整合是将不同模态的感觉信息与运动指令统一处理的过程:

\[z_t = \text{Fuse}(o_t^{\text{vision}}, o_t^{\text{tactile}}, o_t^{\text{proprio}}, o_t^{\text{audio}})\]

融合策略

策略 描述 优势 劣势
早期融合 在输入层拼接所有模态 简单 模态间干扰
晚期融合 各模态独立处理后融合决策 模态独立性好 丢失跨模态信息
注意力融合 Transformer 交叉注意力 灵活、可学习权重 计算量大
层次融合 不同层级融合不同模态 符合生物学 设计复杂

4.2 本体感受(Proprioception)

本体感受是智能体对自身身体状态的感知:

  • 关节角度/角速度\(q_t, \dot{q}_t\)
  • 末端执行器位姿\(T_{\text{ee}} \in SE(3)\)
  • 关节力矩\(\tau_t\)
  • 基座姿态:IMU 数据

本体感受在感知-行动循环中的作用:

\[a_t = \pi(o_t^{\text{ext}}, o_t^{\text{proprio}})\]

缺少本体感受信息的策略通常性能显著下降,因为它提供了:

  • 当前执行器状态(闭环控制必需)
  • 接触检测(力矩突变意味着接触)
  • 运动状态估计

4.3 预测性编码(Predictive Coding)

大脑在感觉运动整合中使用预测性编码机制:

\[\text{预测误差} = o_t - \hat{o}_t = o_t - g(\hat{s}_t, a_{t-1})\]

当预测误差较大时,系统需要更新内部模型;当预测误差接近零时,系统处于稳态。


5. 开环 vs 闭环控制

5.1 开环控制(Open-Loop)

\[a_{1:T} = \pi(o_1)\]

智能体根据初始观测一次性生成整个动作序列,执行期间不使用反馈。

优势

  • 计算效率高(只推理一次)
  • 不依赖实时感知
  • 适用于快速、短时间动作

劣势

  • 不能适应环境变化
  • 误差会累积
  • 对扰动敏感

典型应用:投掷、击打等快速动作

5.2 闭环控制(Closed-Loop)

\[a_t = \pi(o_t) \quad \text{或} \quad a_t = \pi(o_{1:t})\]

每个时间步都利用最新观测来决定动作。

优势

  • 能适应环境变化
  • 能补偿执行误差
  • 鲁棒性强

劣势

  • 需要实时感知(延迟约束)
  • 计算负担大
  • 对感知噪声敏感

典型应用:精密装配、动态操作、导航

5.3 混合模式

实际系统通常采用混合模式:

flowchart LR
    subgraph 闭环外层
        A[视觉观测] --> B[高层决策<br/>10-50 Hz]
        B --> C[目标轨迹]
    end
    subgraph 闭环内层
        C --> D[轨迹跟踪<br/>100-1000 Hz]
        D --> E[关节指令]
        F[关节传感器] --> D
    end
    E --> G[执行器]
    G --> F
  • 外层闭环:基于视觉的任务级闭环(10-50 Hz)
  • 内层闭环:基于本体感受的运动级闭环(100-1000 Hz)

5.4 反应式控制 vs 审慎式控制

维度 反应式(Reactive) 审慎式(Deliberative)
响应速度 快 (ms) 慢 (100ms - s)
感知需求 简单传感器 复杂多模态
规划深度 无/极浅 多步规划
适应性 固定行为模式 灵活适应新情况
代表架构 Subsumption TAMP

Brooks (1986) 的包容体系结构(Subsumption Architecture)主张:

智能不需要内部表征,可以从简单的反应式行为层的叠加中涌现。

现代观点认为:反应式和审慎式控制应在同一系统中协同工作,类似于 Kahneman 的系统 1(快速直觉)和系统 2(慢速推理)。


6. 感知-行动循环的现代实现

6.1 端到端策略

现代 VLA 模型将感知-行动循环实现为:

\[a_t = f_\theta(I_t, l, q_t)\]

其中 \(I_t\) 为图像,\(l\) 为语言指令,\(q_t\) 为关节状态。

6.2 频率与延迟

实际系统中的关键约束:

\[\text{控制频率} > \frac{1}{\text{任务特征时间尺度}}\]
任务类型 最低控制频率 策略推理约束
静态抓取 5-10 Hz 推理时间 < 100ms
动态操作 20-50 Hz 推理时间 < 20ms
行走平衡 100-500 Hz 推理时间 < 2ms
灵巧手操作 50-200 Hz 推理时间 < 5ms

这对模型的推理效率提出了严格要求,也是为什么底层控制通常使用轻量级控制器而非大型神经网络。


7. 总结

感知-行动循环的核心洞察:

  1. 智能是循环的:不是单向的"感知→思考→行动",而是持续的闭环交互
  2. 感知为行动服务:感知的目的是支持行动,主动感知优于被动观察
  3. 可供性是桥梁:环境和智能体通过可供性关联
  4. 多尺度并行:从毫秒级反射到分钟级规划同时运行
  5. 身体参与认知:本体感受是感知-行动循环不可或缺的一环

参考资料

  • Gibson, J. J. (1979). The Ecological Approach to Visual Perception
  • Brooks, R. A. (1986). "A Robust Layered Control System for a Mobile Robot"
  • Ahn, M. et al. (2022). "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances"
  • Bajcsy, R. (1988). "Active Perception"
  • Mo, K. et al. (2021). "Where2Act: From Pixels to Actions for Articulated 3D Objects"

相关笔记


评论 #