自由能原理与主动推理

一、一个统一理论的野心

在神经科学和人工智能中，感知、行动和学习通常被当作独立的问题来研究。但 Karl Friston 提出了一个极其大胆的主张：

所有生物系统，从单细胞到人类大脑，都在做同一件事——最小化变分自由能（variational free energy）。

这就是自由能原理（Free Energy Principle, FEP）。它试图用一个统一的数学框架来解释生命系统的一切适应性行为。

二、什么是自由能？

这里的"自由能"不是热力学中的 Helmholtz 自由能，而是统计学中的变分自由能（variational free energy），来自变分贝叶斯推理。

直观理解：

自由能 ≈ 预测误差 + 模型复杂度

更正式地说，对于一个具有内部状态（信念）的系统：

它有一个关于外部世界的生成模型（generative model）
它接收到感官观测
自由能衡量的是"当前信念"与"感官数据所暗示的真实状态"之间的偏差

自由能是惊讶度（surprise）的上界。生物系统无法直接计算惊讶度（因为那需要知道真实的世界状态），但可以计算自由能作为近似。所以：

最小化自由能 ≈ 间接最小化惊讶 ≈ 让自己的预测尽可能准确且简洁

三、两条路径：感知与行动

自由能原理最关键的洞见是：生物系统有两种方式来减少自由能。

路径一：更新信念（感知）

改变自己的内部模型，使其更好地拟合世界。

这就是预测编码（Predictive Coding）在做的事情。当感官输入与预测不符时，系统更新自己的信念来减小误差。

例子：你听到一个模糊的声音，最初以为是风声，但随着信息积累，你更新信念——原来是有人在说话。

路径二：作用于世界（行动）

改变外部世界，使其符合自己的预测。

这就是主动推理（Active Inference）。系统不仅被动地调整信念，还主动采取行动，让世界变成自己预期的样子。

例子：你预测自己的手应该在桌子上方。如果实际感觉到手在桌子下面，你可以更新信念（"哦，我的手在下面"），也可以移动手（让世界符合预期）。

路径	策略	对应理论	改变的对象
感知	更新信念以拟合世界	预测编码	内部模型
行动	改变世界以拟合信念	主动推理	外部环境

这两条路径的统一，是自由能原理最优雅的地方。感知和行动不再是两个独立的系统，而是同一个目标（最小化自由能）的两种实现方式。

四、与强化学习的对比

在人工智能中，行动通常由强化学习（Reinforcement Learning, RL）来处理：智能体最大化累积奖励。主动推理提供了一个根本不同的框架。

维度	强化学习	主动推理
核心目标	最大化外部奖励	最小化期望自由能（期望惊讶）
奖励来源	由环境或人类定义	从生成模型中自然导出
探索机制	需要额外设计（如 epsilon-greedy）	信息增益自然涌现为探索驱动力
对世界的要求	需要明确的奖励函数	只需要生成模型
理论地位	工程方法	声称是生物智能的基本原理

一个关键的理论结果是：

主动推理可以将强化学习视为自身的特例——当生成模型中包含"偏好先验"（即期望处于某些状态的先验信念）时，最小化期望自由能就等价于最大化期望奖励。

这意味着主动推理不需要外部奖励信号。生物体的"奖励"其实是进化写入生成模型的先验偏好：维持体温、保持血糖、避免组织损伤等。

五、数学直觉

自由能的数学表达可以写成：

F = 预测误差 + 复杂度代价（KL 散度）

其中：

预测误差衡量模型对观测数据的拟合程度——模型预测得越准，这一项越小
复杂度代价衡量后验信念偏离先验信念的程度——模型越简洁（越接近先验），这一项越小

这两项之间存在张力：

只追求精确预测，可能导致过度复杂的模型（过拟合）
只追求简洁，可能导致忽略重要的感官数据

大脑的任务是在精确性和简洁性之间找到最优平衡——用尽可能简单的模型做出尽可能准确的预测。

这与机器学习中的正则化、奥卡姆剃刀、最小描述长度等原则高度一致。

六、2025年前沿：VERSES AI 与工程化突破

自由能原理长期被认为是一个优雅但难以工程化的理论。2025年，VERSES AI 开始改变这一局面。

Genius 平台（2025年4月）

VERSES AI 推出了 Genius 平台，这是首个将主动推理大规模工程化的尝试。根据公开的基准测试：

Genius 在多项任务中达到甚至超过了当前最先进的深度强化学习和 Transformer 模型的性能，同时仅使用约 10% 的训练数据。

这个数据效率的优势并不意外——主动推理天然具备强先验和高效推理的特性。

AXIOM 架构

Genius 的底层架构叫做 AXIOM，其核心特点是：

使用概率信念（probabilistic beliefs）而非确定性权重
通过消息传递（message passing）而非反向传播来更新信念
天然支持不确定性表示和多尺度推理
基于主动推理的数学框架

无需预训练的机器人架构（2025年8月）

VERSES 在2025年8月展示了一种基于主动推理的机器人控制架构，其最引人注目的特性是：

不需要预训练。机器人通过主动推理，在与环境的实时交互中在线学习。

这与当前主流的"先大规模预训练，再微调部署"的范式形成了鲜明对比。

七、Friston 的洞察：LLM 与自由能

Karl Friston 提出了一个发人深省的重新诠释：

大语言模型（LLM）可以被理解为近似推理引擎，其中下一个 token 的预测本质上是一种自由能最小化。

这个类比的逻辑是：

LLM 拥有一个隐含的"生成模型"（由训练数据塑造的参数）
给定上下文（观测），LLM 预测下一个 token（推理）
训练过程最小化交叉熵损失，这与最小化变分自由能在形式上是相似的

但 Friston 也指出了关键差异：

LLM 的推理是前馈的、单次的，缺乏主动推理中的迭代信念更新
LLM 没有行动通道——它不能通过改变世界来减少惊讶
LLM 的"生成模型"是隐式的，不具备显式的世界动力学

这个视角既为 LLM 的成功提供了理论解释，也明确指出了它们的局限所在。

八、为什么主动推理对通用智能至关重要

当前的AI系统通常将感知、决策、学习作为独立模块来设计。但生物智能的一个显著特征是：

感知、行动和学习是不可分割的统一过程。

主动推理提供了这种统一性。一个主动推理智能体：

感知时，它在最小化关于当前状态的自由能
行动时，它在最小化关于未来状态的期望自由能
学习时，它在更新生成模型的参数以降低长期自由能
探索时，它在寻找能最大化信息增益（降低不确定性）的行动

所有这些都来自同一个目标函数。没有单独的奖励函数需要设计，没有单独的探索策略需要调参，没有感知和行动之间的接口需要工程化。

考虑一个婴儿学习抓取物体的过程：婴儿有关于手的位置先验，看到玩具产生自由能，移动手臂来减少它，反馈更新了关于手臂动力学的信念，不确定性驱动新的尝试。整个过程不需要外部奖励——只需要一个生成模型和最小化自由能的驱动力。

九、批评与开放问题

可证伪性：FEP 是否过于一般化，以至于无法被证伪？
计算挑战：精确的变分推理在高维空间中困难，VERSES 的工程化能否扩展到真正复杂的现实任务仍有待验证
与深度学习的差距：主动推理在标准基准上还未展现压倒性优势
生成模型从哪里来：如何获得足够好的生成模型本身就是核心难题

十、总结与完整逻辑链

自由能原理主张：生命即推理。一切适应性行为——感知、行动、学习、探索——都是在最小化变分自由能。

完整逻辑链：

生物系统维持一个关于环境的生成模型
自由能衡量模型预测与实际观测之间的偏差
最小化自由能有两条路径：更新信念（感知）和作用于世界（行动）
这统一了感知和行动——预测编码处理前者，主动推理处理后者
主动推理可以将强化学习视为特例，不需要外部奖励
自由能 = 预测误差 + 复杂度代价，大脑在精确性和简洁性之间寻找平衡
VERSES AI 的工程化实践表明，主动推理在数据效率上具有显著优势
LLM 的 next-token prediction 可以被重新诠释为一种自由能最小化
主动推理为构建统一的感知-行动-学习系统提供了理论基础