预测编码
一、核心思想:大脑是一台预测机器
传统观点认为,感知是一个自下而上的过程:感官接收刺激,逐层处理,最终形成知觉。但预测编码(Predictive Coding)理论提出了一个根本不同的图景:
大脑不断地自上而下生成对感官输入的预测,再将预测与实际输入进行比较,只有预测误差(prediction error)才会被向上传递。
换句话说,大脑不是被动地"接收"世界,而是主动地"猜测"世界,然后不断修正自己的猜测。
这个理论最早由 Rao & Ballard (1999) 在视觉皮层的背景下形式化,但其思想可以追溯到 Helmholtz 在19世纪提出的"无意识推理"。
二、层级结构与误差传播
预测编码的核心机制建立在一个层级结构(hierarchical structure)之上。每一层都在做两件事:
- 向下发送预测:高层根据自身的内部模型,预测低层的神经活动模式
- 向上传递误差:低层将实际活动与收到的预测进行比较,只把差值(残差)传递给高层
可以用一个简单的公式来理解:
传递给上层的信号 = 实际输入 - 来自上层的预测 = 预测误差
这意味着:
- 如果预测完全正确,误差为零,几乎不需要向上传递信息
- 如果预测出错,误差信号会驱动高层更新其内部模型
- 层级越高,表征越抽象,预测的时间跨度越长
| 层级 | 表征内容 | 预测对象 | 误差含义 |
|---|---|---|---|
| 低层 | 边缘、纹理 | 像素级特征 | 局部感官意外 |
| 中层 | 物体部件、轮廓 | 低层特征组合 | 物体识别偏差 |
| 高层 | 场景、语义 | 中层物体配置 | 场景理解错误 |
三、计算效率:只传递"意外"
这种架构在计算上有一个深刻的优势:信息压缩。
大脑每秒接收的感官信息量是巨大的——仅视网膜就传递约每秒10兆比特的数据。如果每一层都要完整处理所有原始数据,代价将极其高昂。
预测编码的解决方案是:
大脑主要处理的不是"发生了什么",而是"发生了什么意外的事"。
这与信息论中的原理高度一致——信息量等于意外程度。完全可预测的信号不携带新信息,只有偏离预期的部分才值得注意。
一个日常例子:你走在熟悉的街道上,几乎不会注意到任何东西——因为一切都在预期之内。但如果路边突然出现一只孔雀,你会立刻注意到——因为这是一个巨大的预测误差。
四、感知即主动推理
预测编码对"感知"的理解是颠覆性的:
感知不是被动接收,而是主动推理(active inference)——大脑本质上在"幻觉"整个世界,然后用感官数据来约束和修正这些幻觉。
这听起来很激进,但有一个简洁的论证:
- 我们的意识体验是丰富、连续、完整的(即使眨眼时也不会感到画面中断)
- 感官输入是稀疏、噪声大、有延迟的
- 因此,大部分"感知"实际上是大脑自己填充的——即大脑生成模型的输出
梦境可以被看作预测编码的一个极端案例:当感官输入被完全切断时,大脑的生成模型仍在运行,产生了完整的主观体验——只是没有误差信号来修正它。
幻觉则可以理解为:生成模型过度活跃,压倒了来自感官的误差修正信号。
五、生物学证据
预测编码不只是一个优雅的理论,它有扎实的神经科学证据支撑:
反馈连接多于前馈连接
在大脑皮层中,从高层区域到低层区域的反馈连接(feedback connections)在数量上远多于从低层到高层的前馈连接。如果大脑只是自下而上处理信息,这些大量的反馈连接就没有意义。但在预测编码框架下,反馈连接正是传递自上而下预测的通道。
皮层柱的结构
大脑皮层的基本功能单元是皮层柱(cortical column),每个皮层柱都包含多层神经元。研究表明,皮层柱的不同层可能分别编码预测信号和误差信号:
- 深层(第5-6层):编码预测,向下投射
- 浅层(第2-3层):编码预测误差,向上投射
重复抑制与期望抑制
当同一刺激重复出现时,神经响应会降低(重复抑制,repetition suppression)。预测编码对此的解释是:重复的刺激更可预测,因此预测误差更小,神经活动自然降低。
六、2025年前沿进展
预测编码诱导类脑响应
Gutlin & Auksztulewicz (2025, PLOS Complex Systems) 的研究发现,用预测编码算法训练的人工神经网络比用监督学习训练的网络,能更好地再现大脑的神经响应模式。
这项工作的意义在于:
它提供了一个可量化的证据——预测编码不只是对大脑的一个定性描述,它在工程层面上确实能产生更"类脑"的计算行为。
Predictive Coding Light
2025年发表在 Nature Communications 上的 Predictive Coding Light 项目构建了一个递归层级脉冲神经网络(recurrent hierarchical spiking neural network),仅使用生物学上合理的脉冲时序学习规则(spike-timing dependent plasticity),成功再现了视觉皮层的多种处理特性。
这项工作的关键突破在于:
- 不依赖反向传播
- 使用真实的脉冲神经元而非人工神经元
- 学习规则完全局部化,每个突触只需要知道自己前后神经元的放电时间
- 尽管如此,网络仍然自发形成了层级化的预测编码结构
七、与反向传播的关系
预测编码与深度学习中的反向传播(backpropagation)有一个有趣的关系。
反向传播是当前训练深度网络最有效的方法,但它在生物学上面临几个严重问题:
| 问题 | 反向传播 | 预测编码 |
|---|---|---|
| 权重对称 | 需要前向和反向路径共享权重 | 不需要,前馈和反馈可以独立 |
| 全局误差信号 | 需要从输出层传回 | 误差信号是局部的 |
| 两阶段训练 | 前向传播和反向传播交替 | 可以连续、在线更新 |
| 生物合理性 | 低 | 高 |
理论上已经证明,在某些条件下,预测编码的学习动态与反向传播是等价的(Whittington & Bogacz, 2017; Millidge et al., 2022)。但在实践中:
预测编码在大规模任务上还无法匹配反向传播的性能。生物合理性和工程效率之间仍存在显著差距。
这并不意味着预测编码没有价值。它可能指向一种更通用、更灵活的学习机制——只是我们还没有找到合适的实现方式。
八、与自由能原理的关系
预测编码可以被看作自由能原理(Free Energy Principle)的一个特例。
Karl Friston 提出的自由能原理认为:所有生物系统都在最小化"变分自由能"。在感知层面,最小化自由能就相当于最小化预测误差——这正是预测编码在做的事情。
更具体地说:
自由能 ≈ 预测误差 + 模型复杂度
预测编码通过更新内部模型来减少预测误差,对应自由能公式中的第一项。而自由能原理还包含第二项——模型复杂度惩罚,这意味着大脑倾向于用尽可能简单的模型来解释世界。
这种层级关系可以总结为:
- 自由能原理:最一般的理论框架,涵盖感知和行动
- 预测编码:自由能最小化在感知层面的具体实现
- 主动推理(Active Inference):自由能最小化在行动层面的具体实现
九、为什么预测编码值得关注
预测编码不只是一个神经科学理论,它对人工智能有深远的启示:
- 效率:只处理"意外"而不是全部数据,这是一种根本性的信息压缩策略
- 生物合理性:它提供了一条不依赖反向传播的学习路径,可能更适合在神经形态硬件上实现
- 统一性:感知、学习、注意力、幻觉、梦境等看似不同的现象,在预测编码框架下可以得到统一解释
- 与生成模型的天然联系:预测编码本质上就是大脑运行一个生成模型,这与现代AI中生成模型的思路不谋而合
当前的深度学习系统在架构上与预测编码有本质差异:它们主要是前馈的、被动的、用反向传播训练的。如果未来的AI系统要变得更加高效和类脑,预测编码提供了一个值得认真探索的方向。
十、总结
大脑不是一台被动的信息处理机,而是一台主动的预测机器。它不断猜测世界,用感官数据修正猜测,只关注意外。这就是预测编码的核心洞见。
完整逻辑链:
- 大脑自上而下生成预测,自下而上传递误差
- 这种机制实现了极高的计算效率——只处理"意外"
- 感知因此不是被动接收,而是主动推理
- 生物学证据(反馈连接、皮层柱结构)支持这一理论
- 2025年的前沿工作表明,预测编码算法确实能产生类脑的计算行为
- 预测编码提供了反向传播的生物合理替代,尽管在工程性能上仍有差距
- 预测编码是自由能原理在感知层面的具体实现