类人智能导论
核心问题:为什么大语言模型不够?
过去几年,大语言模型(Large Language Models, LLMs) 取得了令人瞩目的成就。从GPT系列到Claude系列,这些模型在文本生成、代码编写、逻辑推理等任务上展现出了惊人的能力。然而,一个根本性的问题始终悬而未决:
仅靠语言建模,能否通向真正的通用人工智能(AGI)?
这个问题的答案,正在被越来越多的顶级研究者否定。
LLM的核心范式是下一个token预测(next-token prediction):给定一段文本序列,预测下一个最可能出现的符号。这种范式使模型在语言层面获得了强大的模式匹配能力,但也带来了根本性的局限:
| 能力维度 | LLM的表现 | 人类的表现 |
|---|---|---|
| 语言推理 | 强 | 强 |
| 物理直觉 | 极弱 | 天生具备 |
| 因果理解 | 统计相关性 | 真正的因果推断 |
| 世界模型 | 隐式、不稳定 | 显式、可操作 |
| 从少量经验学习 | 弱 | 极强 |
| 持续适应环境 | 几乎没有 | 终身学习 |
一个两岁的孩子知道球会掉到地上、水会从杯子里洒出来、推一个物体它会移动。这些知识不是从语言中学到的,而是从与物理世界的交互中获得的。LLM从未"触碰"过任何东西,它的全部知识都来自文本符号的统计规律。
LeCun的论断:语言模型是通向AGI的死胡同
Yann LeCun 是深度学习的三位图灵奖获得者之一,也是Meta的首席AI科学家。2025至2026年间,他反复强调了一个尖锐的观点:
LLMs are a dead end for AGI because they lack grounding in physical reality.
LeCun认为,语言是人类知识的一种极度压缩的表征形式。一个人一生中通过眼睛接收的视觉信息量,远远超过人类历史上所有书籍中文字所包含的信息量。语言丢弃了绝大部分关于物理世界的细节。因此,仅从语言中学习,永远无法获得对物理世界的真正理解。
LeCun不只是提出批评,他还给出了替代方案:联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)。JEPA的核心思想是在潜空间(latent space)中进行预测,而非在像素或token层面进行预测。这使得模型可以学习到更加抽象和鲁棒的世界表征。
2025年,LeCun主导创建了 AMI Labs(Advanced Machine Intelligence Labs),获得了高达10.3亿美元的资金支持。这笔投入的规模表明,"超越语言模型、迈向类人智能"不再是学术圈的小众讨论,而已成为工业界认真对待的方向。
类人智能研究的全景图
类人智能(Human-Like Intelligence) 的研究并非一个单一的课题,而是一个由多个交叉领域构成的庞大体系。我们可以将其组织为一条逻辑链,从最基础的哲学追问出发,逐步走向具体的技术路径:
第一环:哲学基础 -- 智能的本质是什么?
在动手构建类人智能之前,我们必须先回答一个前提性问题:什么是智能?什么是理解?
这一层涉及的核心概念包括:
- 心智模型(Mental Model):人类对世界运作方式的内在表征。我们不是被动地接收感知信息,而是主动地用内部模型来预测、解释和规划。
- 意识与主观体验:行为上的智能表现是否等同于真正的理解?中文房间和哲学僵尸等思想实验提醒我们,行为与体验之间可能存在鸿沟。
- 涌现(Emergence):复杂系统能否从简单组件的交互中产生全新的、不可还原的性质?智能本身是否就是一种涌现现象?
哲学基础为整个研究划定了边界和方向:如果我们不知道自己要构建的东西是什么,那么构建过程就是盲目的。
第二环:神经科学启示 -- 人类大脑如何做到的?
大脑是目前已知的唯一实现了通用智能的系统。研究大脑的工作原理,为类人智能提供了最直接的灵感来源:
- 先验知识(Innate Priors):人类大脑并非白板一块。新生儿天生就具备对物体持久性、简单物理规律、面孔识别等的先验知识。这些先验结构是数百万年进化的产物。
- 预测编码(Predictive Coding):大脑的核心运作方式并非被动接收感知,而是不断地生成对下一时刻感知输入的预测,然后用实际输入与预测之间的误差来更新内部模型。
- 自由能原理与主动推理(Free Energy Principle / Active Inference):由 Karl Friston 提出的理论框架,认为大脑的一切活动都可以理解为最小化"自由能"(即预测误差的上界)。主动推理则进一步提出,生物体不仅更新信念,还会主动行动来改变环境,使其符合自己的预期。
- 神经形态计算(Neuromorphic Computing):模仿大脑神经元结构的硬件设计,追求低功耗、事件驱动、大规模并行的计算范式。
第三环:世界模型 -- 通向机器理解世界的核心路径
如果说LLM学到的是语言的模型,那么类人智能需要学到的是世界的模型。
- 世界模型(World Model):一个能够在内部模拟外部世界动态的系统。给定当前状态和一个动作,世界模型能够预测下一个状态会是什么。这正是人类思维的核心能力:在脑海中"模拟"各种可能的场景。
- JEPA(Joint Embedding Predictive Architecture):LeCun提出的架构,核心思想是在潜空间中预测,而非在原始数据空间中预测。这避免了像素级预测的计算浪费,使模型聚焦于学习世界的抽象结构。
- 空间智能与学习式仿真(Spatial Intelligence / Learned Simulation):由 李飞飞(Fei-Fei Li) 领导的方向,她创立了 World Labs,致力于构建理解和生成三维空间的AI系统。空间智能强调视觉和三维理解是通向世界模型的关键通道。
第四环:因果与表示 -- 超越相关性的关键能力
统计学习能够发现数据中的相关性,但相关性不是因果性。类人智能需要更深层的表示能力:
- 因果学习(Causal Learning):由 Yoshua Bengio 等人推动的方向,旨在让AI系统学习变量之间的因果关系而非仅仅是统计相关性。因果模型使系统能够回答反事实问题("如果我做了X而不是Y,会怎样?")和进行干预推理。
- 对象中心学习(Object-Centric Learning):人类不是在像素层面理解世界的,而是在"对象"层面。我们把场景分解为一个个物体,理解它们各自的属性和彼此的关系。对象中心学习试图让AI也具备这种结构化表征能力。
- 神经符号AI(Neuro-Symbolic AI):将神经网络的学习能力与符号系统的推理能力相结合。神经网络擅长从数据中提取模式,符号系统擅长进行逻辑推理和组合泛化。
第五环:具身与直觉物理 -- 在物理世界中扎根
理解世界不能仅靠观察,还需要在世界中行动。
- 具身智能(Embodied Intelligence):智能不是脱离身体的抽象计算,而是与身体和环境深度耦合的过程。一个有身体的智能体能够通过与环境的物理交互来学习,获得纯粹从数据中无法获得的知识。
- 直觉物理(Intuitive Physics):Josh Tenenbaum 等人的研究表明,人类拥有一套内在的"物理引擎",能够在心中模拟物体的运动、碰撞、支撑等物理过程。这种直觉物理是几个月大的婴儿就已经开始发展的能力。
第六环:元学习与自我改进 -- 学会学习
真正的智能不仅仅是学习特定的知识,更是学会如何学习。
- 元学习(Meta-Learning):也被称为"学会学习",其目标是让系统在面对新任务时,能够快速适应,而非从零开始训练。
- 递归自我改进(Recursive Self-Improvement):一个能够改进自身学习算法的系统,理论上可以进入加速进步的循环。这既是AGI最令人期待的特性之一,也是最需要谨慎对待的风险来源。
关键人物
| 人物 | 核心贡献 | 代表项目/理论 |
|---|---|---|
| Yann LeCun | 世界模型、超越LLM | JEPA架构、AMI Labs(10.3亿美元) |
| Karl Friston | 大脑运作的统一理论 | 自由能原理、主动推理 |
| Josh Tenenbaum | 人类认知的计算建模 | 直觉物理、概率程序 |
| Yoshua Bengio | 因果表示学习 | 因果学习、系统2深度学习 |
| 李飞飞(Fei-Fei Li) | 空间智能与三维理解 | World Labs、空间智能 |
当前态势
2025至2026年间,AI领域正在经历一次深层的范式转移。过去几年的主旋律是"扩大语言模型的规模",而现在,越来越多的资金和人才正在流向一个新的方向:
构建扎根于物理现实的世界模型。
LeCun的AMI Labs获得10.3亿美元融资,李飞飞的World Labs获得大量投资,Friston的主动推理框架被越来越多的机器人研究团队采用。这些信号共同指向一个判断:仅靠扩大语言模型的规模,不足以实现AGI。
当然,这并不意味着LLM没有价值。语言模型在文本理解、代码生成、知识检索等领域仍然极其强大。但如果目标是构建真正理解世界、能够在物理环境中灵活行动、具备常识推理能力的通用智能,那么我们需要走一条不同的路。
这条路的起点,正是对人类智能本身的深入理解。从哲学追问到神经科学启示,从世界模型到因果推理,从具身交互到元学习,每一个环节都是这条道路上不可或缺的一环。这个笔记系列将逐一探讨这些主题。