大脑的先验知识
一、核心问题:为什么人脑学得快,模型学得慢?
为什么人类看几次就会,而现在的模型往往需要海量数据?
答案的关键在于:学习效率取决于先验 / 归纳偏置(inductive bias)。
先验不是贝叶斯意义上的严格概率先验,而是更广义的:
模型在看数据之前,对世界结构的预设倾向。
它的作用是:
- 帮模型缩小假设空间
- 让模型更容易从有限数据里学出正确规律
- 提高样本效率(sample efficiency)
如果没有足够合适的归纳偏置,模型虽然理论上也能学,但会非常低效。
二、先验的经典例子:CNN
CNN 能有效学图像,是因为它内置了几个结构假设:
- 局部性(locality):相邻像素更相关
- 参数共享(weight sharing)
- 平移等变 / 平移不变倾向(translation equivariance / invariance):一个东西出现在左上角和右下角,本质上还是那个东西
CNN 不是"从零发现图像规律",而是架构里提前塞进了一部分视觉世界规律。
这是对物理世界的一个合理压缩——但只是非常弱的先验。
三、人脑的先验:远比 CNN 强大
人脑不是只带一个类似 CNN 的局部先验,而是带了一整套和现实世界匹配的结构偏置:
- 物理连续性:世界状态通常连续变化,不会乱跳
- 物体持续存在(object permanence):被遮挡不等于消失
- 物体刚性(rigidity):很多物体短时间内形状保持稳定
- 空间一致性 / 三维结构:世界有三维结构
- 局部交互:相互作用通常发生在相近区域
- 因果期待:推一下会动,碰一下会变
- 重力直觉:物体松手会下落
- 主体 / 客体区分
- 社会意图感知:别人"想干嘛"
更准确地说:
人脑不是"天生会学习"这么简单,而是天生被预配置成一个适合现实世界学习的系统。
四、不只靠先验:人脑的学习机制和目标系统
人脑自带一个低精度但泛化很强的世界模型,这个模型具备的关键特征:
- 生成式:人脑会想象未来、补全缺失的信息、做反事实推理(比如如果刚才我这么做会怎样)
- 可组合:举一反三,用少量概念来组合出新概念
- 跨模态统一:视觉、听觉、触觉、语言是耦合的,统一建模的
除了强大的先验外,人脑还有几个重要机制:
学习机制
- 主动学习(active learning):人会主动探索、产生数据
- 在线学习:人能 one-shot / few-shot 学习,并持续自我修正
目标系统
- 好奇心 / 信息增益最大化
- 惊讶 / prediction error
- 控制感 / agency
这些统称为内在目标(intrinsic objectives)。
所以完整的说法是:
人脑的优势 = 强先验 + 主动学习 + 内在目标 + 持续更新
而现代模型通常更像:被动吃数据、固定训练目标、离线训练、不持续自我修正。
五、什么是世界模型(World Model)
世界模型不是"知道很多事实"这么简单,而是:
内部有一个关于世界状态的表示,并能模拟它如何随时间和动作变化。
一个完整的世界模型至少涉及:
- 状态表示(state representation)
- 转移 / 动力学(dynamics / transition model)
- 观测模型(observation model)
- 奖励或价值(reward / value)——在决策任务里尤其重要
- (理想情况下)因果结构
世界模型在补三件事
- 预测未来
- 因果结构
- 可行动性
世界模型的关键问题是:哪些先验必须显式设计?哪些可以从数据中学出来?
六、世界模型的核心:状态转移
意思是:已知当前状态 \(s_t\) 和当前动作 \(a_t\),预测下一时刻状态 \(s_{t+1}\)。
这是世界模型里最关键的一块——状态转移规律(action-conditioned dynamics)。它回答的是:
- 现在世界是什么样
- 我采取一个动作后
- 下一步会变成什么样
如果模型真的能稳定地学出 \(P(s_{t+1} \mid s_t, a_t)\),那它就必须内化很多世界规律(连续性、物体持久性、局部交互、碰撞关系等)。
但要注意区分:
- 先验是学习前就有的结构偏好
- world dynamics 是学习后得到的世界演化规律
前者帮助后者更高效地学出来。
七、两种世界模型方法:Dreamer vs MuZero
Dreamer(代表:Danijar Hafner)
典型的 latent world model 方法:
- 从观测中学一个潜在状态(latent state)
- 学这个潜在状态的 dynamics
- 在"想象出来的未来轨迹"中 rollout
- 用 imagination 做 planning
偏向"建模世界",更接近建模主义。
MuZero(代表:David Silver)
更"任务导向"的世界模型:
- 不显式预测 observation(比如像素)
- 只学对决策有用的部分:policy、value、reward、hidden dynamics
- 更像"任务导向的世界模型"——只保留对行动最有用的隐藏状态演化
偏向"服务决策",更接近工具主义。
对比
| 模型 | 是否重建世界 | 是否偏决策 |
|---|---|---|
| Dreamer | 是(生成 latent trajectory) | 中 |
| MuZero | 否(不关心真实观测) | 强 |
两者都属于世界模型路线,只是风格不同。
八、多模态对齐 ≠ 统一世界模型
现有多模态大模型(如 GPT-4V、Gemini)确实在做"统一表示",但要区分两件事:
已做到:多模态对齐(Multimodal Alignment)
不同模态(文本/图像/音频)被映射到同一个共享表示空间(shared representation space),实现跨模态对齐——看图说话、文生图等。
它解决的是:"这张图"和"这句话"是不是在说同一件事。
更像一本跨模态词典。
还没做到:统一世界模型
还没真正实现:
- 统一的世界动力学(world dynamics)
- 一致的物理约束
- 跨模态因果一致性
统一世界模型更像一个物理仿真器 + 因果生成器,至少应具备:
- 共享状态空间:图像、文字、动作都映射到同一个 latent state
- 状态持久性:对象被遮挡后还能保持存在
- 动力学:\(s_t, a_t \rightarrow s_{t+1}\)
- 约束性:符合物理 / 因果规则
- 可干预性:改动作,未来就系统性改变
- 组合性(compositionality):多个对象和关系能组合泛化
核心区别
"在同一个向量空间里",只说明不同模态可以彼此对应; "统一的世界模型",要求模型内部存在一个能随时间演化、受动作影响、并受世界约束的潜在状态。
- 多模态对齐解决的是:这是什么?
- 统一世界模型还要解决:它接下来会怎样变?为什么会这样变?如果我施加动作,未来会如何系统性改变?
为什么图文对齐还不够
因为单个静态向量可以编码"相关性",但不一定编码"生成机制"。
例如:模型知道"玻璃杯掉下去"经常和"碎片"一起出现,但这不代表它学会了重力、碰撞、材料脆性、速度与冲击的关系。它可能只是学到了统计共现。
关键不在"有没有统一向量空间",而在:
这个内部表示是不是一个可推进、可干预、可预测的状态。
九、LLM 看起来懂世界,但缺 dynamics
LLM 的强项
LLM 的主要训练目标是预测下一个 token(next-token prediction)。这个目标逼它学到大量统计结构:
- 语言结构、事实、语义关系
- 事件共现规律、叙事模式
- 常识表达、人类写作中压缩过的世界知识
所以它会显得"很懂世界"——文本里本来就带着很多世界知识。
LLM "懂"的部分
LLM 能说出:球松手会掉下去、杯子摔了可能碎、人把钥匙放抽屉里之后钥匙大概率还在。这些都像常识。
LLM "不够懂"的部分
一旦任务需要精确的、持续的状态演化,它就容易出问题:
- 多步空间追踪
- 隐变量维护
- 连续时间过程
- 动作导致的精确后果
- 多实体长期交互
因为它的训练目标是"预测下一个 token",而不是"维护一个随时间演化的世界状态,并根据动作推进它"。
一个直观的比喻
LLM 更像一个读过大量文本的"世界解说员",而不是一个内部带仿真器的"世界运行器"。
它能很好地"谈论"世界,但未必能可靠地"推进"世界。
为什么 next-token prediction 不天然逼出 dynamics
因为这个目标最直接优化的是文本续写正确、叙述上合理、统计上自然,而不是:
- 显式维护世界状态
- 多步跟踪对象身份
- 根据动作稳定推进 latent state
- 保证物理一致性
模型完全可能靠"语言统计捷径"达成高性能,而不必真的形成一个强 world dynamics 模块。
十、Shortcut 与伪因果
什么是 Shortcut
模型找到一条在训练数据上能得分很高、但并不对应真实机制的捷径。
它看似学会了任务,实际只是抓住了某种表面相关性。
什么是伪因果
伪因果是 shortcut 的一种典型形式:模型把"相关"误当成"因果"(相关 ≠ 因果)。
例子 1:牛和草地
训练集中牛常出现在草地、骆驼常出现在沙地。模型可能学会"绿色背景→牛",它没学"牛长什么样",只学了背景。
例子 2:杯子掉落会碎
数据里大部分"杯子掉落"的结果都是"碎了",模型记住"掉落→碎"。但它没学到高度、材质、地面软硬、碰撞速度等真正因果因素。换成塑料杯或掉到海绵垫上,它还是可能预测"碎"。
为什么 shortcut 严重阻碍世界模型
世界模型要学的是稳定机制、可干预结构、跨分布泛化规律。shortcut 学的是当前数据集中最省力的投机规则。这会导致:
- 一换环境就失效
- 多步推理崩掉
- 行动后果预测错误
而且很多数据集本身就充满 shortcut,模型只要抓住这些表面信号就足以拿到很高分——所以"表现好"不等于"学对了机制"。
十一、Object-Centric World Model
什么是 Object-Centric
模型不是把输入只看成一团整体信号,而是分解成"对象 + 对象属性 + 对象关系 + 对象演化"。
这更接近人类理解世界的方式。例如看到桌面场景时,不是单纯看像素块,而是看成杯子、书、手机、桌子、以及它们的位置、材质、关系。
为什么 Object-Centric 很重要
很多现实规律天然是"以对象为单位"组织的:物体会移动、碰撞、被遮挡、保持身份连续。如果模型有对象级表示,它更容易学到可组合的泛化、更稳定的因果关系。
为什么 Object-Centric World Model 极难
1. 对象边界不天然清晰
什么算一个对象本身就不稳定:云是不是对象?阴影呢?水流是一个对象还是很多?
2. 遮挡、变形、合并、分裂
物体被挡住一半、绳子弯曲、水滴分裂、两个人靠近后视觉上粘在一起——模型要维持身份连续性很难。
3. 对象数量不固定
场景里可能有 1 个杯子、5 个人、200 片树叶。用 slot 或对象列表表示需要处理变长集合、动态增删。
4. 关系组合爆炸
对象一多,交互关系迅速爆炸:谁碰谁、谁约束谁、哪些交互重要。要求模型既对象化,又关系化,还要稀疏化。
5. 训练监督很弱
通常没有现成标签告诉模型"这个对象是谁""它跨帧对应哪个对象"。模型得自己从无监督或弱监督数据里发现"对象性"。
6. 世界不只有对象,还有场
光照、流体、温度、风、声波等 field-centric 现象不天然适合纯对象表示。所以 object-centric 虽然重要,但不是全部。
十二、显式结构 vs 纯神经网络学习
这是当前最核心的争论之一。
路线 A:端到端纯神经网络
观点:足够大模型 + 数据 → 因果/物理会"涌现"
- 优点:通用性强,不需要人工建模
- 问题:sample inefficiency,可能学到伪因果(shortcut)
路线 B:显式加入结构
引入 object-centric 表示、因果图、物理约束(如守恒)、3D consistency、temporal continuity、causal modularity 等。
- 优点:数据效率高,泛化更强
- 问题:难设计,可能限制表达能力,加错了反而有害
融合路线(更可能的方向)
神经网络学表示,结构先验做约束。
不是纯手工规则系统,也不是完全无结构的大黑箱,而是把正确的 inductive bias 编进模型中。
人类先验不是几条规则,而是一整套层级结构。加得太少帮助有限,加得太强可能把模型锁死在错误假设里(世界并不总是刚体,物体边界并不总是清晰,社会系统远比物理系统复杂)。所以现实路线通常是:
用结构先验约束神经网络,而不是直接替代神经网络。
十三、生物进化 = 超大规模元学习
为什么可以把进化类比成"学习"
进化包含类似优化的过程:
- 变异 ≈ 参数扰动
- 选择压力 ≈ loss function
- 保留适者 ≈ optimization
可以看成:在基因空间上的强化学习 / 黑盒优化。
但进化不等同于普通机器学习
- 不是个体在线学习:进化发生在种群和代际层面
- 没有梯度:没有反向传播那样精细的信用分配
- 反馈极粗:只有生存/繁殖成败这种粗糙信号
- 目标函数不稳定:环境一直在变,不是固定 loss
更准确的说法
进化 = 跨代、超长期、极低效率但超大规模的元学习(meta-learning)
它学到的不是某个具体任务,而是:
- 哪种身体结构有效
- 哪种感知系统有效
- 哪种归纳偏置有效
- 哪种学习机制有效
所以:
人脑不是"凭空聪明",而是被进化长期预训练成了一个擅长在现实世界中学习的系统。
当前模型还停留在"直接学任务",没有完成"学会如何学习 + 如何建模世界"。
十四、完整逻辑链
- 学习效率取决于归纳偏置。
- CNN 只有很弱的视觉先验,人脑有大量适应现实世界的先验。
- 人脑的优势不只是先验,还有主动学习、内在目标、持续更新。
- 真正理解世界,不只是共享图文语义,而是要有能随时间和动作推进的世界状态——这就是世界模型。
- 世界模型的核心之一是学习 \(P(s_{t+1} \mid s_t, a_t)\)。
- Dreamer 和 MuZero 都属于世界模型路线,分别偏"建模世界"和"服务决策"。
- 现代多模态大模型实现了多模态对齐,但多模态对齐 ≠ 统一世界模型。
- LLM 学到了很多世界知识,但 next-token prediction 不天然逼出稳定的 dynamics。
- 模型容易走 shortcut,把相关性当因果,形成伪因果。
- Object-centric world model 很重要,但因对象发现、遮挡、变形、关系组合等问题而极难。
- 未来更可能是"神经网络 + 结构先验"的融合路线。
- 人脑之所以强,是因为进化相当于做了数亿年的元学习,把有效偏置写进了系统。
十五、一个更尖锐的问题
我们应该先造"会行动的模型"(agent),还是先造"会理解世界的模型"?
- Dreamer / MuZero → 偏 agent
- LLM → 偏 world knowledge(但无行动)
真正的人类智能,是两者耦合的结果。