预测编码

一、核心思想：大脑是一台预测机器

传统观点认为，感知是一个自下而上的过程：感官接收刺激，逐层处理，最终形成知觉。但预测编码（Predictive Coding）理论提出了一个根本不同的图景：

大脑不断地自上而下生成对感官输入的预测，再将预测与实际输入进行比较，只有预测误差（prediction error）才会被向上传递。

换句话说，大脑不是被动地"接收"世界，而是主动地"猜测"世界，然后不断修正自己的猜测。

这个理论最早由 Rao & Ballard (1999) 在视觉皮层的背景下形式化，但其思想可以追溯到 Helmholtz 在19世纪提出的"无意识推理"。

二、层级结构与误差传播

预测编码的核心机制建立在一个层级结构（hierarchical structure）之上。每一层都在做两件事：

向下发送预测：高层根据自身的内部模型，预测低层的神经活动模式
向上传递误差：低层将实际活动与收到的预测进行比较，只把差值（残差）传递给高层

可以用一个简单的公式来理解：

传递给上层的信号 = 实际输入 - 来自上层的预测 = 预测误差

这意味着：

如果预测完全正确，误差为零，几乎不需要向上传递信息
如果预测出错，误差信号会驱动高层更新其内部模型
层级越高，表征越抽象，预测的时间跨度越长

层级	表征内容	预测对象	误差含义
低层	边缘、纹理	像素级特征	局部感官意外
中层	物体部件、轮廓	低层特征组合	物体识别偏差
高层	场景、语义	中层物体配置	场景理解错误

三、计算效率：只传递"意外"

这种架构在计算上有一个深刻的优势：信息压缩。

大脑每秒接收的感官信息量是巨大的——仅视网膜就传递约每秒10兆比特的数据。如果每一层都要完整处理所有原始数据，代价将极其高昂。

预测编码的解决方案是：

大脑主要处理的不是"发生了什么"，而是"发生了什么意外的事"。

这与信息论中的原理高度一致——信息量等于意外程度。完全可预测的信号不携带新信息，只有偏离预期的部分才值得注意。

一个日常例子：你走在熟悉的街道上，几乎不会注意到任何东西——因为一切都在预期之内。但如果路边突然出现一只孔雀，你会立刻注意到——因为这是一个巨大的预测误差。

四、感知即主动推理

预测编码对"感知"的理解是颠覆性的：

感知不是被动接收，而是主动推理（active inference）——大脑本质上在"幻觉"整个世界，然后用感官数据来约束和修正这些幻觉。

这听起来很激进，但有一个简洁的论证：

我们的意识体验是丰富、连续、完整的（即使眨眼时也不会感到画面中断）
感官输入是稀疏、噪声大、有延迟的
因此，大部分"感知"实际上是大脑自己填充的——即大脑生成模型的输出

梦境可以被看作预测编码的一个极端案例：当感官输入被完全切断时，大脑的生成模型仍在运行，产生了完整的主观体验——只是没有误差信号来修正它。

幻觉则可以理解为：生成模型过度活跃，压倒了来自感官的误差修正信号。

五、生物学证据

预测编码不只是一个优雅的理论，它有扎实的神经科学证据支撑：

反馈连接多于前馈连接

在大脑皮层中，从高层区域到低层区域的反馈连接（feedback connections）在数量上远多于从低层到高层的前馈连接。如果大脑只是自下而上处理信息，这些大量的反馈连接就没有意义。但在预测编码框架下，反馈连接正是传递自上而下预测的通道。

皮层柱的结构

大脑皮层的基本功能单元是皮层柱（cortical column），每个皮层柱都包含多层神经元。研究表明，皮层柱的不同层可能分别编码预测信号和误差信号：

深层（第5-6层）：编码预测，向下投射
浅层（第2-3层）：编码预测误差，向上投射

重复抑制与期望抑制

当同一刺激重复出现时，神经响应会降低（重复抑制，repetition suppression）。预测编码对此的解释是：重复的刺激更可预测，因此预测误差更小，神经活动自然降低。

六、2025年前沿进展

预测编码诱导类脑响应

Gutlin & Auksztulewicz (2025, PLOS Complex Systems) 的研究发现，用预测编码算法训练的人工神经网络比用监督学习训练的网络，能更好地再现大脑的神经响应模式。

这项工作的意义在于：

它提供了一个可量化的证据——预测编码不只是对大脑的一个定性描述，它在工程层面上确实能产生更"类脑"的计算行为。

Predictive Coding Light

2025年发表在 Nature Communications 上的 Predictive Coding Light 项目构建了一个递归层级脉冲神经网络（recurrent hierarchical spiking neural network），仅使用生物学上合理的脉冲时序学习规则（spike-timing dependent plasticity），成功再现了视觉皮层的多种处理特性。

这项工作的关键突破在于：

不依赖反向传播
使用真实的脉冲神经元而非人工神经元
学习规则完全局部化，每个突触只需要知道自己前后神经元的放电时间
尽管如此，网络仍然自发形成了层级化的预测编码结构

七、与反向传播的关系

预测编码与深度学习中的反向传播（backpropagation）有一个有趣的关系。

反向传播是当前训练深度网络最有效的方法，但它在生物学上面临几个严重问题：

问题	反向传播	预测编码
权重对称	需要前向和反向路径共享权重	不需要，前馈和反馈可以独立
全局误差信号	需要从输出层传回	误差信号是局部的
两阶段训练	前向传播和反向传播交替	可以连续、在线更新
生物合理性	低	高

理论上已经证明，在某些条件下，预测编码的学习动态与反向传播是等价的（Whittington & Bogacz, 2017; Millidge et al., 2022）。但在实践中：

预测编码在大规模任务上还无法匹配反向传播的性能。生物合理性和工程效率之间仍存在显著差距。

这并不意味着预测编码没有价值。它可能指向一种更通用、更灵活的学习机制——只是我们还没有找到合适的实现方式。

八、与自由能原理的关系

预测编码可以被看作自由能原理（Free Energy Principle）的一个特例。

Karl Friston 提出的自由能原理认为：所有生物系统都在最小化"变分自由能"。在感知层面，最小化自由能就相当于最小化预测误差——这正是预测编码在做的事情。

更具体地说：

自由能 ≈ 预测误差 + 模型复杂度

预测编码通过更新内部模型来减少预测误差，对应自由能公式中的第一项。而自由能原理还包含第二项——模型复杂度惩罚，这意味着大脑倾向于用尽可能简单的模型来解释世界。

这种层级关系可以总结为：

自由能原理：最一般的理论框架，涵盖感知和行动
预测编码：自由能最小化在感知层面的具体实现
主动推理（Active Inference）：自由能最小化在行动层面的具体实现

九、为什么预测编码值得关注

预测编码不只是一个神经科学理论，它对人工智能有深远的启示：

效率：只处理"意外"而不是全部数据，这是一种根本性的信息压缩策略
生物合理性：它提供了一条不依赖反向传播的学习路径，可能更适合在神经形态硬件上实现
统一性：感知、学习、注意力、幻觉、梦境等看似不同的现象，在预测编码框架下可以得到统一解释
与生成模型的天然联系：预测编码本质上就是大脑运行一个生成模型，这与现代AI中生成模型的思路不谋而合

当前的深度学习系统在架构上与预测编码有本质差异：它们主要是前馈的、被动的、用反向传播训练的。如果未来的AI系统要变得更加高效和类脑，预测编码提供了一个值得认真探索的方向。

十、总结

大脑不是一台被动的信息处理机，而是一台主动的预测机器。它不断猜测世界，用感官数据修正猜测，只关注意外。这就是预测编码的核心洞见。

完整逻辑链：

大脑自上而下生成预测，自下而上传递误差
这种机制实现了极高的计算效率——只处理"意外"
感知因此不是被动接收，而是主动推理
生物学证据（反馈连接、皮层柱结构）支持这一理论
2025年的前沿工作表明，预测编码算法确实能产生类脑的计算行为
预测编码提供了反向传播的生物合理替代，尽管在工程性能上仍有差距
预测编码是自由能原理在感知层面的具体实现