跳转至

表征与世界模型

概述

智能体如何在内部表征外部世界?如何利用这些表征进行预测和规划?本文探讨具身智能中的核心表征问题:从预测编码的自由能原理到可学习的世界模型,从物体中心表征到空间表征(NeRF、3D Gaussian Splatting)。


1. 内部表征的哲学基础

1.1 表征主义 vs 反表征主义

这是具身认知中一个根本性的争论:

立场 主张 代表人物
表征主义 智能需要内部世界模型 Marr, Craik
反表征主义 智能可以无需表征(反应式) Brooks, Beer
最小表征主义 需要表征,但应尽量简约 Clark

现代共识:复杂任务(如长程操作、多步规划)需要某种形式的内部表征,但表征可以是隐式的、分布式的,不一定是显式的符号表征。

1.2 Craik 的内部模型假说

Kenneth Craik (1943) 提出:

生物体在大脑中构建外部世界的"小规模模型",用于预测事件、推理和规划。

这一假说是现代世界模型研究的哲学源头。


2. 预测编码与自由能原理

2.1 预测编码(Predictive Coding)

预测编码理论认为,大脑的核心功能是预测——持续预测下一时刻的感觉输入,并最小化预测误差。

层级预测编码

在层级结构中,每一层 \(l\) 生成对下层输入的预测,并计算预测误差:

\[\epsilon_l = o_l - g_l(\hat{s}_{l+1})\]

其中 \(\hat{s}_{l+1}\) 是上层的状态估计,\(g_l\) 是生成模型。预测误差 \(\epsilon_l\) 向上传递,驱动上层更新其状态估计。

2.2 自由能原理(Free Energy Principle)

Karl Friston 提出的自由能原理统一了感知、行动和学习:

\[F = D_{KL}[q(s|o) \| p(s)] - \ln p(o)\]

其中:

  • \(F\):变分自由能(需要最小化的量)
  • \(q(s|o)\):后验信念(大脑对隐状态的估计)
  • \(p(s)\):先验信念
  • \(p(o)\):观测的对数似然(模型证据)

自由能的分解

\[F = \underbrace{D_{KL}[q(s|o) \| p(s|o)]}_{\text{后验近似误差} \geq 0} - \underbrace{\ln p(o)}_{\text{对数模型证据}}\]

因此 \(F \geq -\ln p(o)\),最小化自由能等价于:

  1. 感知(更新 \(q\)):使后验信念更准确
  2. 行动(改变 \(o\)):使观测符合预期
  3. 学习(更新模型):使生成模型更准确

2.3 主动推断(Active Inference)

在自由能框架下,行动的目的是最小化预期自由能

\[a^* = \arg\min_a \mathbb{E}_{q(s'|a)}\left[ F(o', s') \right]\]

智能体选择那些能使未来观测符合其偏好(先验)的动作。这统一了感知和行动——二者都是自由能最小化的不同方面。

对机器人学的意义

  • 提供了统一的感知-行动理论框架
  • 天然处理不确定性和主动探索
  • 解释了好奇心驱动的探索行为

3. 机器人学中的世界模型

3.1 学习的动力学模型

世界模型的核心是学习环境的状态转移函数:

\[p(s_{t+1} | s_t, a_t) = f_\theta(s_t, a_t)\]

确定性模型

\[\hat{s}_{t+1} = f_\theta(s_t, a_t)\]

随机模型(更适合真实世界)

\[s_{t+1} \sim \mathcal{N}(\mu_\theta(s_t, a_t), \Sigma_\theta(s_t, a_t))\]

3.2 RSSM(Recurrent State Space Model)

Hafner et al. (2019) 提出的 RSSM 是目前最成功的世界模型架构之一(用于 Dreamer 系列):

状态空间由确定性部分 \(h_t\) 和随机部分 \(z_t\) 组成:

\[\begin{aligned} \text{确定性路径:} \quad & h_t = f_\theta(h_{t-1}, z_{t-1}, a_{t-1}) \\ \text{先验:} \quad & \hat{z}_t \sim p_\theta(z_t | h_t) \\ \text{后验:} \quad & z_t \sim q_\phi(z_t | h_t, o_t) \\ \text{观测解码:} \quad & \hat{o}_t \sim p_\theta(o_t | h_t, z_t) \\ \text{奖励预测:} \quad & \hat{r}_t \sim p_\theta(r_t | h_t, z_t) \end{aligned}\]
flowchart LR
    subgraph RSSM
        A["h_{t-1}, z_{t-1}"] -->|GRU| B["h_t"]
        C["a_{t-1}"] -->|GRU| B
        B -->|先验网络| D["z_t ~ prior"]
        B -->|后验网络| E["z_t ~ posterior"]
        F["o_t"] -->|编码器| E
        B --> G["观测解码"]
        D --> G
        G --> H["ô_t"]
    end

训练目标

\[\mathcal{L} = \sum_t \left[ -\ln p_\theta(o_t | h_t, z_t) + \beta \cdot D_{KL}[q_\phi(z_t|h_t,o_t) \| p_\theta(z_t|h_t)] \right]\]

3.3 世界模型用于规划

有了世界模型,可以在"想象"中进行规划:

模型预测控制(MPC)

\[a_{t:t+H}^* = \arg\min_{a_{t:t+H}} \sum_{k=0}^{H} c(\hat{s}_{t+k}, a_{t+k})\]
\[\text{s.t.} \quad \hat{s}_{t+k+1} = f_\theta(\hat{s}_{t+k}, a_{t+k})\]

Dreamer 的想象规划

在学习的潜在空间中展开想象轨迹,用 Actor-Critic 学习策略,避免了真实环境交互。


4. 物体中心表征

4.1 为什么需要物体中心表征

传统的整体表征(如 CNN 特征)将整个场景编码为单一向量,但:

  • 难以进行组合泛化(新物体组合)
  • 难以推理物体间关系
  • 难以跟踪物体的个体动态

4.2 Slot Attention

Locatello et al. (2020) 提出的 Slot Attention 是物体中心表征的代表性方法:

核心思想:将场景分解为 \(K\) 个"槽"(slot),每个槽表示一个物体或物体部分。

迭代注意力过程

\[\begin{aligned} \text{attn}_{ij} &= \frac{e^{M_{ij}}}{\sum_l e^{M_{il}}} \quad \text{(slot 竞争)} \\ M_{ij} &= \frac{k(x_i) \cdot q(s_j)}{\sqrt{d}} \\ \text{updates}_j &= \sum_i \text{attn}_{ij} \cdot v(x_i) \\ s_j' &= \text{GRU}(s_j, \text{updates}_j) \end{aligned}\]

其中 \(x_i\) 为输入特征,\(s_j\) 为第 \(j\) 个槽。

特点

  • 槽之间竞争输入特征(softmax 在槽维度归一化)
  • 自发涌现的物体分割
  • 与后续的动态预测模型自然结合

4.3 物体中心的世界模型

将 Slot Attention 与世界模型结合:

\[\begin{aligned} \text{分解:} \quad & s_t = \{s_t^1, s_t^2, \ldots, s_t^K\} \\ \text{交互:} \quad & s_{t+1}^k = f_\theta(s_t^k, \text{Interact}(s_t^k, s_t^{-k}), a_t) \\ \text{合成:} \quad & \hat{o}_{t+1} = g(\{s_{t+1}^1, \ldots, s_{t+1}^K\}) \end{aligned}\]

物体间的交互可以用图神经网络(GNN)建模,实现关系推理。


5. 空间表征

5.1 Neural Radiance Fields(NeRF)

Mildenhall et al. (2020) 提出的 NeRF 通过隐式神经网络表示 3D 场景:

基本公式

\[F_\Theta: (\mathbf{x}, \mathbf{d}) \rightarrow (\mathbf{c}, \sigma)\]

其中 \(\mathbf{x} = (x, y, z)\) 为空间坐标,\(\mathbf{d} = (\theta, \phi)\) 为观察方向,\(\mathbf{c} = (r, g, b)\) 为颜色,\(\sigma\) 为体密度。

体渲染方程

\[C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt\]

其中透射率 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)

在机器人学中的应用

  • 场景理解:从少量视角重建完整 3D 场景
  • 视角规划:在 NeRF 中模拟新视角来规划观察路径
  • 抓取规划:从 NeRF 提取几何信息用于抓取点生成
  • 动态场景:D-NeRF 等变体处理动态环境

5.2 3D Gaussian Splatting

Kerbl et al. (2023) 提出的 3D Gaussian Splatting 用显式的 3D 高斯球表示场景:

每个高斯球的参数

\[G_i = \{\mu_i, \Sigma_i, \alpha_i, c_i\}\]
  • \(\mu_i \in \mathbb{R}^3\):中心位置
  • \(\Sigma_i \in \mathbb{R}^{3 \times 3}\):协方差矩阵(形状和方向)
  • \(\alpha_i \in [0, 1]\):不透明度
  • \(c_i\):球谐函数系数(视角依赖的颜色)

渲染:通过将 3D 高斯投影到 2D 并进行 alpha 混合:

\[C(\mathbf{p}) = \sum_{i \in \mathcal{N}} c_i \alpha_i' \prod_{j=1}^{i-1}(1 - \alpha_j')\]

其中 \(\alpha_i' = \alpha_i \exp(-\frac{1}{2}(\mathbf{p}-\mu_i')^T \Sigma_i'^{-1} (\mathbf{p}-\mu_i'))\)

相比 NeRF 的优势

维度 NeRF 3D-GS
渲染速度 慢(体积采样) 实时(光栅化)
训练速度 慢(数小时) 快(分钟级)
编辑能力 困难 直接操作高斯球
动态场景 需要额外设计 自然支持
内存占用 小(隐式) 较大(显式)

在机器人学中的应用

  • 实时场景重建:支持机器人在线构建 3D 地图
  • 物体操作:追踪和预测可变形物体
  • 仿真:基于 GS 的高保真仿真环境
  • Sim-to-Real:缩小仿真与现实的视觉差距

5.3 点云与体素表征

除了 NeRF 和 3D-GS,传统的空间表征仍然重要:

点云

  • 直接来自深度传感器
  • PointNet/PointNet++:直接处理无序点集
  • 适合抓取点检测、碰撞检测

体素网格

  • 规则的 3D 网格
  • 3D CNN 自然处理
  • 内存效率较低但结构化

TSDF(Truncated Signed Distance Function)

  • 经典的增量式 3D 重建方法
  • 与 SLAM 系统天然集成
  • 提供隐式的表面表征

6. 表征学习方法

6.1 对比学习

学习将相似观测映射到相近的表征空间:

\[\mathcal{L}_{\text{contrastive}} = -\log \frac{\exp(\text{sim}(z_i, z_j^+) / \tau)}{\sum_k \exp(\text{sim}(z_i, z_k) / \tau)}\]

在机器人学中的应用

  • 不同视角的同一场景 → 正对
  • 时序相邻帧 → 正对
  • 学习视角不变、遮挡鲁棒的表征

6.2 重建式表征学习

通过重建任务学习有意义的表征:

  • 自编码器(AE/VAE):重建图像
  • MAE(Masked Autoencoder):重建被遮挡的 patch
  • 视频预测:预测未来帧

6.3 预训练视觉表征

直接使用在大规模数据上预训练的视觉特征:

  • CLIP:视觉-语言对齐的表征
  • DINOv2:自监督视觉表征
  • SPA(Spatial Patch Alignment):针对机器人任务的空间表征

7. 总结与展望

核心观点

  1. 世界模型是规划的基础:没有世界模型就只能做反应式控制
  2. 表征的粒度很重要:物体中心表征比整体表征更适合操作任务
  3. 空间表征在快速进步:NeRF → 3D-GS 实现了质的飞跃
  4. 预训练+微调:大规模预训练的视觉表征成为默认选择

开放挑战

  • 如何构建能支持长时间推理的世界模型
  • 如何在表征中融合物理先验
  • 如何实现实时、高精度的动态 3D 表征
  • 表征的可迁移性:从仿真到真实、从一个任务到另一个任务

参考资料

  • Friston, K. (2010). "The Free-Energy Principle: A Unified Brain Theory?"
  • Hafner et al. (2019). "Learning Latent Dynamics for Planning from Pixels" (PlaNet)
  • Hafner et al. (2020). "Dream to Control: Learning Behaviors by Latent Imagination" (Dreamer)
  • Locatello et al. (2020). "Object-Centric Learning with Slot Attention"
  • Mildenhall et al. (2020). "NeRF: Representing Scenes as Neural Radiance Fields"
  • Kerbl et al. (2023). "3D Gaussian Splatting for Real-Time Radiance Field Rendering"

相关笔记


评论 #