表征与世界模型

概述

智能体如何在内部表征外部世界？如何利用这些表征进行预测和规划？本文探讨具身智能中的核心表征问题：从预测编码的自由能原理到可学习的世界模型，从物体中心表征到空间表征（NeRF、3D Gaussian Splatting）。

1. 内部表征的哲学基础

1.1 表征主义 vs 反表征主义

这是具身认知中一个根本性的争论：

立场	主张	代表人物
表征主义	智能需要内部世界模型	Marr, Craik
反表征主义	智能可以无需表征（反应式）	Brooks, Beer
最小表征主义	需要表征，但应尽量简约	Clark

现代共识：复杂任务（如长程操作、多步规划）需要某种形式的内部表征，但表征可以是隐式的、分布式的，不一定是显式的符号表征。

1.2 Craik 的内部模型假说

Kenneth Craik (1943) 提出：

生物体在大脑中构建外部世界的"小规模模型"，用于预测事件、推理和规划。

这一假说是现代世界模型研究的哲学源头。

2. 预测编码与自由能原理

2.1 预测编码（Predictive Coding）

预测编码理论认为，大脑的核心功能是预测——持续预测下一时刻的感觉输入，并最小化预测误差。

层级预测编码：

在层级结构中，每一层 \(l\) 生成对下层输入的预测，并计算预测误差：

\[\epsilon_l = o_l - g_l(\hat{s}_{l+1})\]

其中 \(\hat{s}_{l+1}\) 是上层的状态估计，\(g_l\) 是生成模型。预测误差 \(\epsilon_l\) 向上传递，驱动上层更新其状态估计。

2.2 自由能原理（Free Energy Principle）

Karl Friston 提出的自由能原理统一了感知、行动和学习：

\[F = D_{KL}[q(s|o) \| p(s)] - \ln p(o)\]

其中：

\(F\)：变分自由能（需要最小化的量）
\(q(s|o)\)：后验信念（大脑对隐状态的估计）
\(p(s)\)：先验信念
\(p(o)\)：观测的对数似然（模型证据）

自由能的分解：

\[F = \underbrace{D_{KL}[q(s|o) \| p(s|o)]}_{\text{后验近似误差} \geq 0} - \underbrace{\ln p(o)}_{\text{对数模型证据}}\]

因此 \(F \geq -\ln p(o)\)，最小化自由能等价于：

感知（更新 \(q\)）：使后验信念更准确
行动（改变 \(o\)）：使观测符合预期
学习（更新模型）：使生成模型更准确

2.3 主动推断（Active Inference）

在自由能框架下，行动的目的是最小化预期自由能：

\[a^* = \arg\min_a \mathbb{E}_{q(s'|a)}\left[ F(o', s') \right]\]

智能体选择那些能使未来观测符合其偏好（先验）的动作。这统一了感知和行动——二者都是自由能最小化的不同方面。

对机器人学的意义：

提供了统一的感知-行动理论框架
天然处理不确定性和主动探索
解释了好奇心驱动的探索行为

3. 机器人学中的世界模型

3.1 学习的动力学模型

世界模型的核心是学习环境的状态转移函数：

\[p(s_{t+1} | s_t, a_t) = f_\theta(s_t, a_t)\]

确定性模型：

\[\hat{s}_{t+1} = f_\theta(s_t, a_t)\]

随机模型（更适合真实世界）：

\[s_{t+1} \sim \mathcal{N}(\mu_\theta(s_t, a_t), \Sigma_\theta(s_t, a_t))\]

3.2 RSSM（Recurrent State Space Model）

Hafner et al. (2019) 提出的 RSSM 是目前最成功的世界模型架构之一（用于 Dreamer 系列）：

状态空间由确定性部分 \(h_t\) 和随机部分 \(z_t\) 组成：

\[\begin{aligned} \text{确定性路径:} \quad & h_t = f_\theta(h_{t-1}, z_{t-1}, a_{t-1}) \\ \text{先验:} \quad & \hat{z}_t \sim p_\theta(z_t | h_t) \\ \text{后验:} \quad & z_t \sim q_\phi(z_t | h_t, o_t) \\ \text{观测解码:} \quad & \hat{o}_t \sim p_\theta(o_t | h_t, z_t) \\ \text{奖励预测:} \quad & \hat{r}_t \sim p_\theta(r_t | h_t, z_t) \end{aligned}\]

flowchart LR
    subgraph RSSM
        A["h_{t-1}, z_{t-1}"] -->|GRU| B["h_t"]
        C["a_{t-1}"] -->|GRU| B
        B -->|先验网络| D["z_t ~ prior"]
        B -->|后验网络| E["z_t ~ posterior"]
        F["o_t"] -->|编码器| E
        B --> G["观测解码"]
        D --> G
        G --> H["ô_t"]
    end

训练目标：

\[\mathcal{L} = \sum_t \left[ -\ln p_\theta(o_t | h_t, z_t) + \beta \cdot D_{KL}[q_\phi(z_t|h_t,o_t) \| p_\theta(z_t|h_t)] \right]\]

3.3 世界模型用于规划

有了世界模型，可以在"想象"中进行规划：

模型预测控制（MPC）：

\[a_{t:t+H}^* = \arg\min_{a_{t:t+H}} \sum_{k=0}^{H} c(\hat{s}_{t+k}, a_{t+k})\]

\[\text{s.t.} \quad \hat{s}_{t+k+1} = f_\theta(\hat{s}_{t+k}, a_{t+k})\]

Dreamer 的想象规划：

在学习的潜在空间中展开想象轨迹，用 Actor-Critic 学习策略，避免了真实环境交互。

4. 物体中心表征

4.1 为什么需要物体中心表征

传统的整体表征（如 CNN 特征）将整个场景编码为单一向量，但：

难以进行组合泛化（新物体组合）
难以推理物体间关系
难以跟踪物体的个体动态

4.2 Slot Attention

Locatello et al. (2020) 提出的 Slot Attention 是物体中心表征的代表性方法：

核心思想：将场景分解为 \(K\) 个"槽"（slot），每个槽表示一个物体或物体部分。

迭代注意力过程：

\[\begin{aligned} \text{attn}_{ij} &= \frac{e^{M_{ij}}}{\sum_l e^{M_{il}}} \quad \text{(slot 竞争)} \\ M_{ij} &= \frac{k(x_i) \cdot q(s_j)}{\sqrt{d}} \\ \text{updates}_j &= \sum_i \text{attn}_{ij} \cdot v(x_i) \\ s_j' &= \text{GRU}(s_j, \text{updates}_j) \end{aligned}\]

其中 \(x_i\) 为输入特征，\(s_j\) 为第 \(j\) 个槽。

特点：

槽之间竞争输入特征（softmax 在槽维度归一化）
自发涌现的物体分割
与后续的动态预测模型自然结合

4.3 物体中心的世界模型

将 Slot Attention 与世界模型结合：

\[\begin{aligned} \text{分解:} \quad & s_t = \{s_t^1, s_t^2, \ldots, s_t^K\} \\ \text{交互:} \quad & s_{t+1}^k = f_\theta(s_t^k, \text{Interact}(s_t^k, s_t^{-k}), a_t) \\ \text{合成:} \quad & \hat{o}_{t+1} = g(\{s_{t+1}^1, \ldots, s_{t+1}^K\}) \end{aligned}\]

物体间的交互可以用图神经网络（GNN）建模，实现关系推理。

5. 空间表征

5.1 Neural Radiance Fields（NeRF）

Mildenhall et al. (2020) 提出的 NeRF 通过隐式神经网络表示 3D 场景：

基本公式：

\[F_\Theta: (\mathbf{x}, \mathbf{d}) \rightarrow (\mathbf{c}, \sigma)\]

其中 \(\mathbf{x} = (x, y, z)\) 为空间坐标，\(\mathbf{d} = (\theta, \phi)\) 为观察方向，\(\mathbf{c} = (r, g, b)\) 为颜色，\(\sigma\) 为体密度。

体渲染方程：

\[C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt\]

其中透射率 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)。

在机器人学中的应用：

场景理解：从少量视角重建完整 3D 场景
视角规划：在 NeRF 中模拟新视角来规划观察路径
抓取规划：从 NeRF 提取几何信息用于抓取点生成
动态场景：D-NeRF 等变体处理动态环境

5.2 3D Gaussian Splatting

Kerbl et al. (2023) 提出的 3D Gaussian Splatting 用显式的 3D 高斯球表示场景：

每个高斯球的参数：

\[G_i = \{\mu_i, \Sigma_i, \alpha_i, c_i\}\]

\(\mu_i \in \mathbb{R}^3\)：中心位置
\(\Sigma_i \in \mathbb{R}^{3 \times 3}\)：协方差矩阵（形状和方向）
\(\alpha_i \in [0, 1]\)：不透明度
\(c_i\)：球谐函数系数（视角依赖的颜色）

渲染：通过将 3D 高斯投影到 2D 并进行 alpha 混合：

\[C(\mathbf{p}) = \sum_{i \in \mathcal{N}} c_i \alpha_i' \prod_{j=1}^{i-1}(1 - \alpha_j')\]

其中 \(\alpha_i' = \alpha_i \exp(-\frac{1}{2}(\mathbf{p}-\mu_i')^T \Sigma_i'^{-1} (\mathbf{p}-\mu_i'))\)。

相比 NeRF 的优势：

维度	NeRF	3D-GS
渲染速度	慢（体积采样）	实时（光栅化）
训练速度	慢（数小时）	快（分钟级）
编辑能力	困难	直接操作高斯球
动态场景	需要额外设计	自然支持
内存占用	小（隐式）	较大（显式）

在机器人学中的应用：

实时场景重建：支持机器人在线构建 3D 地图
物体操作：追踪和预测可变形物体
仿真：基于 GS 的高保真仿真环境
Sim-to-Real：缩小仿真与现实的视觉差距

5.3 点云与体素表征

除了 NeRF 和 3D-GS，传统的空间表征仍然重要：

点云：

直接来自深度传感器
PointNet/PointNet++：直接处理无序点集
适合抓取点检测、碰撞检测

体素网格：

规则的 3D 网格
3D CNN 自然处理
内存效率较低但结构化

TSDF（Truncated Signed Distance Function）：

经典的增量式 3D 重建方法
与 SLAM 系统天然集成
提供隐式的表面表征

6. 表征学习方法

6.1 对比学习

学习将相似观测映射到相近的表征空间：

\[\mathcal{L}_{\text{contrastive}} = -\log \frac{\exp(\text{sim}(z_i, z_j^+) / \tau)}{\sum_k \exp(\text{sim}(z_i, z_k) / \tau)}\]

在机器人学中的应用：

不同视角的同一场景 → 正对
时序相邻帧 → 正对
学习视角不变、遮挡鲁棒的表征

6.2 重建式表征学习

通过重建任务学习有意义的表征：

自编码器（AE/VAE）：重建图像
MAE（Masked Autoencoder）：重建被遮挡的 patch
视频预测：预测未来帧

6.3 预训练视觉表征

直接使用在大规模数据上预训练的视觉特征：

CLIP：视觉-语言对齐的表征
DINOv2：自监督视觉表征
SPA（Spatial Patch Alignment）：针对机器人任务的空间表征

7. 总结与展望

核心观点

世界模型是规划的基础：没有世界模型就只能做反应式控制
表征的粒度很重要：物体中心表征比整体表征更适合操作任务
空间表征在快速进步：NeRF → 3D-GS 实现了质的飞跃
预训练+微调：大规模预训练的视觉表征成为默认选择

开放挑战

如何构建能支持长时间推理的世界模型
如何在表征中融合物理先验
如何实现实时、高精度的动态 3D 表征
表征的可迁移性：从仿真到真实、从一个任务到另一个任务

参考资料

Friston, K. (2010). "The Free-Energy Principle: A Unified Brain Theory?"
Hafner et al. (2019). "Learning Latent Dynamics for Planning from Pixels" (PlaNet)
Hafner et al. (2020). "Dream to Control: Learning Behaviors by Latent Imagination" (Dreamer)
Locatello et al. (2020). "Object-Centric Learning with Slot Attention"
Mildenhall et al. (2020). "NeRF: Representing Scenes as Neural Radiance Fields"
Kerbl et al. (2023). "3D Gaussian Splatting for Real-Time Radiance Field Rendering"

相关笔记：

表征与世界模型

概述

1. 内部表征的哲学基础

1.1 表征主义 vs 反表征主义

1.2 Craik 的内部模型假说

2. 预测编码与自由能原理

2.1 预测编码（Predictive Coding）

2.2 自由能原理（Free Energy Principle）

2.3 主动推断（Active Inference）

3. 机器人学中的世界模型

3.1 学习的动力学模型

3.2 RSSM（Recurrent State Space Model）

3.3 世界模型用于规划

4. 物体中心表征

4.1 为什么需要物体中心表征

4.2 Slot Attention

4.3 物体中心的世界模型

5. 空间表征

5.1 Neural Radiance Fields（NeRF）

5.2 3D Gaussian Splatting

5.3 点云与体素表征

6. 表征学习方法

6.1 对比学习

6.2 重建式表征学习

6.3 预训练视觉表征

7. 总结与展望

核心观点

开放挑战

参考资料

评论 #