自由能原理与主动推理
一、一个统一理论的野心
在神经科学和人工智能中,感知、行动和学习通常被当作独立的问题来研究。但 Karl Friston 提出了一个极其大胆的主张:
所有生物系统,从单细胞到人类大脑,都在做同一件事——最小化变分自由能(variational free energy)。
这就是自由能原理(Free Energy Principle, FEP)。它试图用一个统一的数学框架来解释生命系统的一切适应性行为。
二、什么是自由能?
这里的"自由能"不是热力学中的 Helmholtz 自由能,而是统计学中的变分自由能(variational free energy),来自变分贝叶斯推理。
直观理解:
自由能 ≈ 预测误差 + 模型复杂度
更正式地说,对于一个具有内部状态(信念)的系统:
- 它有一个关于外部世界的生成模型(generative model)
- 它接收到感官观测
- 自由能衡量的是"当前信念"与"感官数据所暗示的真实状态"之间的偏差
自由能是惊讶度(surprise)的上界。生物系统无法直接计算惊讶度(因为那需要知道真实的世界状态),但可以计算自由能作为近似。所以:
最小化自由能 ≈ 间接最小化惊讶 ≈ 让自己的预测尽可能准确且简洁
三、两条路径:感知与行动
自由能原理最关键的洞见是:生物系统有两种方式来减少自由能。
路径一:更新信念(感知)
改变自己的内部模型,使其更好地拟合世界。
这就是预测编码(Predictive Coding)在做的事情。当感官输入与预测不符时,系统更新自己的信念来减小误差。
例子:你听到一个模糊的声音,最初以为是风声,但随着信息积累,你更新信念——原来是有人在说话。
路径二:作用于世界(行动)
改变外部世界,使其符合自己的预测。
这就是主动推理(Active Inference)。系统不仅被动地调整信念,还主动采取行动,让世界变成自己预期的样子。
例子:你预测自己的手应该在桌子上方。如果实际感觉到手在桌子下面,你可以更新信念("哦,我的手在下面"),也可以移动手(让世界符合预期)。
| 路径 | 策略 | 对应理论 | 改变的对象 |
|---|---|---|---|
| 感知 | 更新信念以拟合世界 | 预测编码 | 内部模型 |
| 行动 | 改变世界以拟合信念 | 主动推理 | 外部环境 |
这两条路径的统一,是自由能原理最优雅的地方。感知和行动不再是两个独立的系统,而是同一个目标(最小化自由能)的两种实现方式。
四、与强化学习的对比
在人工智能中,行动通常由强化学习(Reinforcement Learning, RL)来处理:智能体最大化累积奖励。主动推理提供了一个根本不同的框架。
| 维度 | 强化学习 | 主动推理 |
|---|---|---|
| 核心目标 | 最大化外部奖励 | 最小化期望自由能(期望惊讶) |
| 奖励来源 | 由环境或人类定义 | 从生成模型中自然导出 |
| 探索机制 | 需要额外设计(如 epsilon-greedy) | 信息增益自然涌现为探索驱动力 |
| 对世界的要求 | 需要明确的奖励函数 | 只需要生成模型 |
| 理论地位 | 工程方法 | 声称是生物智能的基本原理 |
一个关键的理论结果是:
主动推理可以将强化学习视为自身的特例——当生成模型中包含"偏好先验"(即期望处于某些状态的先验信念)时,最小化期望自由能就等价于最大化期望奖励。
这意味着主动推理不需要外部奖励信号。生物体的"奖励"其实是进化写入生成模型的先验偏好:维持体温、保持血糖、避免组织损伤等。
五、数学直觉
自由能的数学表达可以写成:
F = 预测误差 + 复杂度代价(KL 散度)
其中:
- 预测误差衡量模型对观测数据的拟合程度——模型预测得越准,这一项越小
- 复杂度代价衡量后验信念偏离先验信念的程度——模型越简洁(越接近先验),这一项越小
这两项之间存在张力:
- 只追求精确预测,可能导致过度复杂的模型(过拟合)
- 只追求简洁,可能导致忽略重要的感官数据
大脑的任务是在精确性和简洁性之间找到最优平衡——用尽可能简单的模型做出尽可能准确的预测。
这与机器学习中的正则化、奥卡姆剃刀、最小描述长度等原则高度一致。
六、2025年前沿:VERSES AI 与工程化突破
自由能原理长期被认为是一个优雅但难以工程化的理论。2025年,VERSES AI 开始改变这一局面。
Genius 平台(2025年4月)
VERSES AI 推出了 Genius 平台,这是首个将主动推理大规模工程化的尝试。根据公开的基准测试:
Genius 在多项任务中达到甚至超过了当前最先进的深度强化学习和 Transformer 模型的性能,同时仅使用约 10% 的训练数据。
这个数据效率的优势并不意外——主动推理天然具备强先验和高效推理的特性。
AXIOM 架构
Genius 的底层架构叫做 AXIOM,其核心特点是:
- 使用概率信念(probabilistic beliefs)而非确定性权重
- 通过消息传递(message passing)而非反向传播来更新信念
- 天然支持不确定性表示和多尺度推理
- 基于主动推理的数学框架
无需预训练的机器人架构(2025年8月)
VERSES 在2025年8月展示了一种基于主动推理的机器人控制架构,其最引人注目的特性是:
不需要预训练。机器人通过主动推理,在与环境的实时交互中在线学习。
这与当前主流的"先大规模预训练,再微调部署"的范式形成了鲜明对比。
七、Friston 的洞察:LLM 与自由能
Karl Friston 提出了一个发人深省的重新诠释:
大语言模型(LLM)可以被理解为近似推理引擎,其中下一个 token 的预测本质上是一种自由能最小化。
这个类比的逻辑是:
- LLM 拥有一个隐含的"生成模型"(由训练数据塑造的参数)
- 给定上下文(观测),LLM 预测下一个 token(推理)
- 训练过程最小化交叉熵损失,这与最小化变分自由能在形式上是相似的
但 Friston 也指出了关键差异:
- LLM 的推理是前馈的、单次的,缺乏主动推理中的迭代信念更新
- LLM 没有行动通道——它不能通过改变世界来减少惊讶
- LLM 的"生成模型"是隐式的,不具备显式的世界动力学
这个视角既为 LLM 的成功提供了理论解释,也明确指出了它们的局限所在。
八、为什么主动推理对通用智能至关重要
当前的AI系统通常将感知、决策、学习作为独立模块来设计。但生物智能的一个显著特征是:
感知、行动和学习是不可分割的统一过程。
主动推理提供了这种统一性。一个主动推理智能体:
- 感知时,它在最小化关于当前状态的自由能
- 行动时,它在最小化关于未来状态的期望自由能
- 学习时,它在更新生成模型的参数以降低长期自由能
- 探索时,它在寻找能最大化信息增益(降低不确定性)的行动
所有这些都来自同一个目标函数。没有单独的奖励函数需要设计,没有单独的探索策略需要调参,没有感知和行动之间的接口需要工程化。
考虑一个婴儿学习抓取物体的过程:婴儿有关于手的位置先验,看到玩具产生自由能,移动手臂来减少它,反馈更新了关于手臂动力学的信念,不确定性驱动新的尝试。整个过程不需要外部奖励——只需要一个生成模型和最小化自由能的驱动力。
九、批评与开放问题
- 可证伪性:FEP 是否过于一般化,以至于无法被证伪?
- 计算挑战:精确的变分推理在高维空间中困难,VERSES 的工程化能否扩展到真正复杂的现实任务仍有待验证
- 与深度学习的差距:主动推理在标准基准上还未展现压倒性优势
- 生成模型从哪里来:如何获得足够好的生成模型本身就是核心难题
十、总结与完整逻辑链
自由能原理主张:生命即推理。一切适应性行为——感知、行动、学习、探索——都是在最小化变分自由能。
完整逻辑链:
- 生物系统维持一个关于环境的生成模型
- 自由能衡量模型预测与实际观测之间的偏差
- 最小化自由能有两条路径:更新信念(感知)和作用于世界(行动)
- 这统一了感知和行动——预测编码处理前者,主动推理处理后者
- 主动推理可以将强化学习视为特例,不需要外部奖励
- 自由能 = 预测误差 + 复杂度代价,大脑在精确性和简洁性之间寻找平衡
- VERSES AI 的工程化实践表明,主动推理在数据效率上具有显著优势
- LLM 的 next-token prediction 可以被重新诠释为一种自由能最小化
- 主动推理为构建统一的感知-行动-学习系统提供了理论基础