Skip to content

大脑的先验知识

一、核心问题:为什么人脑学得快,模型学得慢?

为什么人类看几次就会,而现在的模型往往需要海量数据?

答案的关键在于:学习效率取决于先验 / 归纳偏置(inductive bias)

先验不是贝叶斯意义上的严格概率先验,而是更广义的:

模型在看数据之前,对世界结构的预设倾向。

它的作用是:

  • 帮模型缩小假设空间
  • 让模型更容易从有限数据里学出正确规律
  • 提高样本效率(sample efficiency)

如果没有足够合适的归纳偏置,模型虽然理论上也能学,但会非常低效。


二、先验的经典例子:CNN

CNN 能有效学图像,是因为它内置了几个结构假设:

  • 局部性(locality):相邻像素更相关
  • 参数共享(weight sharing)
  • 平移等变 / 平移不变倾向(translation equivariance / invariance):一个东西出现在左上角和右下角,本质上还是那个东西

CNN 不是"从零发现图像规律",而是架构里提前塞进了一部分视觉世界规律

这是对物理世界的一个合理压缩——但只是非常弱的先验。


三、人脑的先验:远比 CNN 强大

人脑不是只带一个类似 CNN 的局部先验,而是带了一整套和现实世界匹配的结构偏置:

  • 物理连续性:世界状态通常连续变化,不会乱跳
  • 物体持续存在(object permanence):被遮挡不等于消失
  • 物体刚性(rigidity):很多物体短时间内形状保持稳定
  • 空间一致性 / 三维结构:世界有三维结构
  • 局部交互:相互作用通常发生在相近区域
  • 因果期待:推一下会动,碰一下会变
  • 重力直觉:物体松手会下落
  • 主体 / 客体区分
  • 社会意图感知:别人"想干嘛"

更准确地说:

人脑不是"天生会学习"这么简单,而是天生被预配置成一个适合现实世界学习的系统


四、不只靠先验:人脑的学习机制和目标系统

人脑自带一个低精度但泛化很强的世界模型,这个模型具备的关键特征:

  • 生成式:人脑会想象未来、补全缺失的信息、做反事实推理(比如如果刚才我这么做会怎样)
  • 可组合:举一反三,用少量概念来组合出新概念
  • 跨模态统一:视觉、听觉、触觉、语言是耦合的,统一建模的

除了强大的先验外,人脑还有几个重要机制:

学习机制

  • 主动学习(active learning):人会主动探索、产生数据
  • 在线学习:人能 one-shot / few-shot 学习,并持续自我修正

目标系统

  • 好奇心 / 信息增益最大化
  • 惊讶 / prediction error
  • 控制感 / agency

这些统称为内在目标(intrinsic objectives)

所以完整的说法是:

人脑的优势 = 强先验 + 主动学习 + 内在目标 + 持续更新

而现代模型通常更像:被动吃数据、固定训练目标、离线训练、不持续自我修正。


五、什么是世界模型(World Model)

世界模型不是"知道很多事实"这么简单,而是:

内部有一个关于世界状态的表示,并能模拟它如何随时间和动作变化。

一个完整的世界模型至少涉及:

  1. 状态表示(state representation)
  2. 转移 / 动力学(dynamics / transition model)
  3. 观测模型(observation model)
  4. 奖励或价值(reward / value)——在决策任务里尤其重要
  5. (理想情况下)因果结构

世界模型在补三件事

  1. 预测未来
  2. 因果结构
  3. 可行动性

世界模型的关键问题是:哪些先验必须显式设计?哪些可以从数据中学出来?


六、世界模型的核心:状态转移

\[P(s_{t+1} \mid s_t, a_t)\]

意思是:已知当前状态 \(s_t\) 和当前动作 \(a_t\),预测下一时刻状态 \(s_{t+1}\)

这是世界模型里最关键的一块——状态转移规律(action-conditioned dynamics)。它回答的是:

  • 现在世界是什么样
  • 我采取一个动作后
  • 下一步会变成什么样

如果模型真的能稳定地学出 \(P(s_{t+1} \mid s_t, a_t)\),那它就必须内化很多世界规律(连续性、物体持久性、局部交互、碰撞关系等)。

但要注意区分:

  • 先验是学习前就有的结构偏好
  • world dynamics 是学习后得到的世界演化规律

前者帮助后者更高效地学出来。


七、两种世界模型方法:Dreamer vs MuZero

Dreamer(代表:Danijar Hafner)

典型的 latent world model 方法:

  • 从观测中学一个潜在状态(latent state)
  • 学这个潜在状态的 dynamics
  • 在"想象出来的未来轨迹"中 rollout
  • imagination 做 planning

偏向"建模世界",更接近建模主义

MuZero(代表:David Silver)

更"任务导向"的世界模型:

  • 不显式预测 observation(比如像素)
  • 只学对决策有用的部分:policy、value、reward、hidden dynamics
  • 更像"任务导向的世界模型"——只保留对行动最有用的隐藏状态演化

偏向"服务决策",更接近工具主义

对比

模型 是否重建世界 是否偏决策
Dreamer 是(生成 latent trajectory)
MuZero 否(不关心真实观测)

两者都属于世界模型路线,只是风格不同。


八、多模态对齐 ≠ 统一世界模型

现有多模态大模型(如 GPT-4V、Gemini)确实在做"统一表示",但要区分两件事:

已做到:多模态对齐(Multimodal Alignment)

不同模态(文本/图像/音频)被映射到同一个共享表示空间(shared representation space),实现跨模态对齐——看图说话、文生图等。

它解决的是:"这张图"和"这句话"是不是在说同一件事。

更像一本跨模态词典

还没做到:统一世界模型

还没真正实现:

  • 统一的世界动力学(world dynamics)
  • 一致的物理约束
  • 跨模态因果一致性

统一世界模型更像一个物理仿真器 + 因果生成器,至少应具备:

  • 共享状态空间:图像、文字、动作都映射到同一个 latent state
  • 状态持久性:对象被遮挡后还能保持存在
  • 动力学\(s_t, a_t \rightarrow s_{t+1}\)
  • 约束性:符合物理 / 因果规则
  • 可干预性:改动作,未来就系统性改变
  • 组合性(compositionality):多个对象和关系能组合泛化

核心区别

"在同一个向量空间里",只说明不同模态可以彼此对应; "统一的世界模型",要求模型内部存在一个能随时间演化、受动作影响、并受世界约束的潜在状态。

  • 多模态对齐解决的是:这是什么?
  • 统一世界模型还要解决:它接下来会怎样变?为什么会这样变?如果我施加动作,未来会如何系统性改变?

为什么图文对齐还不够

因为单个静态向量可以编码"相关性",但不一定编码"生成机制"。

例如:模型知道"玻璃杯掉下去"经常和"碎片"一起出现,但这不代表它学会了重力、碰撞、材料脆性、速度与冲击的关系。它可能只是学到了统计共现。

关键不在"有没有统一向量空间",而在:

这个内部表示是不是一个可推进、可干预、可预测的状态。


九、LLM 看起来懂世界,但缺 dynamics

LLM 的强项

LLM 的主要训练目标是预测下一个 token(next-token prediction)。这个目标逼它学到大量统计结构:

  • 语言结构、事实、语义关系
  • 事件共现规律、叙事模式
  • 常识表达、人类写作中压缩过的世界知识

所以它会显得"很懂世界"——文本里本来就带着很多世界知识。

LLM "懂"的部分

LLM 能说出:球松手会掉下去、杯子摔了可能碎、人把钥匙放抽屉里之后钥匙大概率还在。这些都像常识。

LLM "不够懂"的部分

一旦任务需要精确的、持续的状态演化,它就容易出问题:

  • 多步空间追踪
  • 隐变量维护
  • 连续时间过程
  • 动作导致的精确后果
  • 多实体长期交互

因为它的训练目标是"预测下一个 token",而不是"维护一个随时间演化的世界状态,并根据动作推进它"。

一个直观的比喻

LLM 更像一个读过大量文本的"世界解说员",而不是一个内部带仿真器的"世界运行器"

它能很好地"谈论"世界,但未必能可靠地"推进"世界。

为什么 next-token prediction 不天然逼出 dynamics

因为这个目标最直接优化的是文本续写正确、叙述上合理、统计上自然,而不是:

  • 显式维护世界状态
  • 多步跟踪对象身份
  • 根据动作稳定推进 latent state
  • 保证物理一致性

模型完全可能靠"语言统计捷径"达成高性能,而不必真的形成一个强 world dynamics 模块。


十、Shortcut 与伪因果

什么是 Shortcut

模型找到一条在训练数据上能得分很高、但并不对应真实机制的捷径。

它看似学会了任务,实际只是抓住了某种表面相关性。

什么是伪因果

伪因果是 shortcut 的一种典型形式:模型把"相关"误当成"因果"(相关 ≠ 因果)

例子 1:牛和草地

训练集中牛常出现在草地、骆驼常出现在沙地。模型可能学会"绿色背景→牛",它没学"牛长什么样",只学了背景。

例子 2:杯子掉落会碎

数据里大部分"杯子掉落"的结果都是"碎了",模型记住"掉落→碎"。但它没学到高度、材质、地面软硬、碰撞速度等真正因果因素。换成塑料杯或掉到海绵垫上,它还是可能预测"碎"。

为什么 shortcut 严重阻碍世界模型

世界模型要学的是稳定机制、可干预结构、跨分布泛化规律。shortcut 学的是当前数据集中最省力的投机规则。这会导致:

  • 一换环境就失效
  • 多步推理崩掉
  • 行动后果预测错误

而且很多数据集本身就充满 shortcut,模型只要抓住这些表面信号就足以拿到很高分——所以"表现好"不等于"学对了机制"


十一、Object-Centric World Model

什么是 Object-Centric

模型不是把输入只看成一团整体信号,而是分解成"对象 + 对象属性 + 对象关系 + 对象演化"。

这更接近人类理解世界的方式。例如看到桌面场景时,不是单纯看像素块,而是看成杯子、书、手机、桌子、以及它们的位置、材质、关系。

为什么 Object-Centric 很重要

很多现实规律天然是"以对象为单位"组织的:物体会移动、碰撞、被遮挡、保持身份连续。如果模型有对象级表示,它更容易学到可组合的泛化、更稳定的因果关系。

为什么 Object-Centric World Model 极难

1. 对象边界不天然清晰

什么算一个对象本身就不稳定:云是不是对象?阴影呢?水流是一个对象还是很多?

2. 遮挡、变形、合并、分裂

物体被挡住一半、绳子弯曲、水滴分裂、两个人靠近后视觉上粘在一起——模型要维持身份连续性很难。

3. 对象数量不固定

场景里可能有 1 个杯子、5 个人、200 片树叶。用 slot 或对象列表表示需要处理变长集合、动态增删。

4. 关系组合爆炸

对象一多,交互关系迅速爆炸:谁碰谁、谁约束谁、哪些交互重要。要求模型既对象化,又关系化,还要稀疏化。

5. 训练监督很弱

通常没有现成标签告诉模型"这个对象是谁""它跨帧对应哪个对象"。模型得自己从无监督或弱监督数据里发现"对象性"。

6. 世界不只有对象,还有场

光照、流体、温度、风、声波等 field-centric 现象不天然适合纯对象表示。所以 object-centric 虽然重要,但不是全部。


十二、显式结构 vs 纯神经网络学习

这是当前最核心的争论之一。

路线 A:端到端纯神经网络

观点:足够大模型 + 数据 → 因果/物理会"涌现"

  • 优点:通用性强,不需要人工建模
  • 问题:sample inefficiency,可能学到伪因果(shortcut)

路线 B:显式加入结构

引入 object-centric 表示、因果图、物理约束(如守恒)、3D consistency、temporal continuity、causal modularity 等。

  • 优点:数据效率高,泛化更强
  • 问题:难设计,可能限制表达能力,加错了反而有害

融合路线(更可能的方向)

神经网络学表示,结构先验做约束。

不是纯手工规则系统,也不是完全无结构的大黑箱,而是把正确的 inductive bias 编进模型中。

人类先验不是几条规则,而是一整套层级结构。加得太少帮助有限,加得太强可能把模型锁死在错误假设里(世界并不总是刚体,物体边界并不总是清晰,社会系统远比物理系统复杂)。所以现实路线通常是:

用结构先验约束神经网络,而不是直接替代神经网络。


十三、生物进化 = 超大规模元学习

为什么可以把进化类比成"学习"

进化包含类似优化的过程:

  • 变异 ≈ 参数扰动
  • 选择压力 ≈ loss function
  • 保留适者 ≈ optimization

可以看成:在基因空间上的强化学习 / 黑盒优化。

但进化不等同于普通机器学习

  • 不是个体在线学习:进化发生在种群和代际层面
  • 没有梯度:没有反向传播那样精细的信用分配
  • 反馈极粗:只有生存/繁殖成败这种粗糙信号
  • 目标函数不稳定:环境一直在变,不是固定 loss

更准确的说法

进化 = 跨代、超长期、极低效率但超大规模的元学习(meta-learning)

它学到的不是某个具体任务,而是:

  • 哪种身体结构有效
  • 哪种感知系统有效
  • 哪种归纳偏置有效
  • 哪种学习机制有效

所以:

人脑不是"凭空聪明",而是被进化长期预训练成了一个擅长在现实世界中学习的系统。

当前模型还停留在"直接学任务",没有完成"学会如何学习 + 如何建模世界"。


十四、完整逻辑链

  1. 学习效率取决于归纳偏置。
  2. CNN 只有很弱的视觉先验,人脑有大量适应现实世界的先验。
  3. 人脑的优势不只是先验,还有主动学习、内在目标、持续更新。
  4. 真正理解世界,不只是共享图文语义,而是要有能随时间和动作推进的世界状态——这就是世界模型。
  5. 世界模型的核心之一是学习 \(P(s_{t+1} \mid s_t, a_t)\)
  6. Dreamer 和 MuZero 都属于世界模型路线,分别偏"建模世界"和"服务决策"。
  7. 现代多模态大模型实现了多模态对齐,但多模态对齐 ≠ 统一世界模型。
  8. LLM 学到了很多世界知识,但 next-token prediction 不天然逼出稳定的 dynamics。
  9. 模型容易走 shortcut,把相关性当因果,形成伪因果。
  10. Object-centric world model 很重要,但因对象发现、遮挡、变形、关系组合等问题而极难。
  11. 未来更可能是"神经网络 + 结构先验"的融合路线。
  12. 人脑之所以强,是因为进化相当于做了数亿年的元学习,把有效偏置写进了系统。

十五、一个更尖锐的问题

我们应该先造"会行动的模型"(agent),还是先造"会理解世界的模型"?

  • Dreamer / MuZero → 偏 agent
  • LLM → 偏 world knowledge(但无行动)

真正的人类智能,是两者耦合的结果。


评论 #