类人智能导论

核心问题：为什么大语言模型不够？

过去几年，大语言模型（Large Language Models, LLMs） 取得了令人瞩目的成就。从GPT系列到Claude系列，这些模型在文本生成、代码编写、逻辑推理等任务上展现出了惊人的能力。然而，一个根本性的问题始终悬而未决：

仅靠语言建模，能否通向真正的通用人工智能（AGI）？

这个问题的答案，正在被越来越多的顶级研究者否定。

LLM的核心范式是下一个token预测（next-token prediction）：给定一段文本序列，预测下一个最可能出现的符号。这种范式使模型在语言层面获得了强大的模式匹配能力，但也带来了根本性的局限：

能力维度	LLM的表现	人类的表现
语言推理	强	强
物理直觉	极弱	天生具备
因果理解	统计相关性	真正的因果推断
世界模型	隐式、不稳定	显式、可操作
从少量经验学习	弱	极强
持续适应环境	几乎没有	终身学习

一个两岁的孩子知道球会掉到地上、水会从杯子里洒出来、推一个物体它会移动。这些知识不是从语言中学到的，而是从与物理世界的交互中获得的。LLM从未"触碰"过任何东西，它的全部知识都来自文本符号的统计规律。

LeCun的论断：语言模型是通向AGI的死胡同

Yann LeCun 是深度学习的三位图灵奖获得者之一，也是Meta的首席AI科学家。2025至2026年间，他反复强调了一个尖锐的观点：

LLMs are a dead end for AGI because they lack grounding in physical reality.

LeCun认为，语言是人类知识的一种极度压缩的表征形式。一个人一生中通过眼睛接收的视觉信息量，远远超过人类历史上所有书籍中文字所包含的信息量。语言丢弃了绝大部分关于物理世界的细节。因此，仅从语言中学习，永远无法获得对物理世界的真正理解。

LeCun不只是提出批评，他还给出了替代方案：联合嵌入预测架构（Joint Embedding Predictive Architecture, JEPA）。JEPA的核心思想是在潜空间（latent space）中进行预测，而非在像素或token层面进行预测。这使得模型可以学习到更加抽象和鲁棒的世界表征。

2025年，LeCun主导创建了 AMI Labs（Advanced Machine Intelligence Labs），获得了高达10.3亿美元的资金支持。这笔投入的规模表明，"超越语言模型、迈向类人智能"不再是学术圈的小众讨论，而已成为工业界认真对待的方向。

类人智能研究的全景图

类人智能（Human-Like Intelligence） 的研究并非一个单一的课题，而是一个由多个交叉领域构成的庞大体系。我们可以将其组织为一条逻辑链，从最基础的哲学追问出发，逐步走向具体的技术路径：

第一环：哲学基础 -- 智能的本质是什么？

在动手构建类人智能之前，我们必须先回答一个前提性问题：什么是智能？什么是理解？

这一层涉及的核心概念包括：

心智模型（Mental Model）：人类对世界运作方式的内在表征。我们不是被动地接收感知信息，而是主动地用内部模型来预测、解释和规划。
意识与主观体验：行为上的智能表现是否等同于真正的理解？中文房间和哲学僵尸等思想实验提醒我们，行为与体验之间可能存在鸿沟。
涌现（Emergence）：复杂系统能否从简单组件的交互中产生全新的、不可还原的性质？智能本身是否就是一种涌现现象？

哲学基础为整个研究划定了边界和方向：如果我们不知道自己要构建的东西是什么，那么构建过程就是盲目的。

第二环：神经科学启示 -- 人类大脑如何做到的？

大脑是目前已知的唯一实现了通用智能的系统。研究大脑的工作原理，为类人智能提供了最直接的灵感来源：

先验知识（Innate Priors）：人类大脑并非白板一块。新生儿天生就具备对物体持久性、简单物理规律、面孔识别等的先验知识。这些先验结构是数百万年进化的产物。
预测编码（Predictive Coding）：大脑的核心运作方式并非被动接收感知，而是不断地生成对下一时刻感知输入的预测，然后用实际输入与预测之间的误差来更新内部模型。
自由能原理与主动推理（Free Energy Principle / Active Inference）：由 Karl Friston 提出的理论框架，认为大脑的一切活动都可以理解为最小化"自由能"（即预测误差的上界）。主动推理则进一步提出，生物体不仅更新信念，还会主动行动来改变环境，使其符合自己的预期。
神经形态计算（Neuromorphic Computing）：模仿大脑神经元结构的硬件设计，追求低功耗、事件驱动、大规模并行的计算范式。

第三环：世界模型 -- 通向机器理解世界的核心路径

如果说LLM学到的是语言的模型，那么类人智能需要学到的是世界的模型。

世界模型（World Model）：一个能够在内部模拟外部世界动态的系统。给定当前状态和一个动作，世界模型能够预测下一个状态会是什么。这正是人类思维的核心能力：在脑海中"模拟"各种可能的场景。
JEPA（Joint Embedding Predictive Architecture）：LeCun提出的架构，核心思想是在潜空间中预测，而非在原始数据空间中预测。这避免了像素级预测的计算浪费，使模型聚焦于学习世界的抽象结构。
空间智能与学习式仿真（Spatial Intelligence / Learned Simulation）：由 李飞飞（Fei-Fei Li） 领导的方向，她创立了 World Labs，致力于构建理解和生成三维空间的AI系统。空间智能强调视觉和三维理解是通向世界模型的关键通道。

第四环：因果与表示 -- 超越相关性的关键能力

统计学习能够发现数据中的相关性，但相关性不是因果性。类人智能需要更深层的表示能力：

因果学习（Causal Learning）：由 Yoshua Bengio 等人推动的方向，旨在让AI系统学习变量之间的因果关系而非仅仅是统计相关性。因果模型使系统能够回答反事实问题（"如果我做了X而不是Y，会怎样？"）和进行干预推理。
对象中心学习（Object-Centric Learning）：人类不是在像素层面理解世界的，而是在"对象"层面。我们把场景分解为一个个物体，理解它们各自的属性和彼此的关系。对象中心学习试图让AI也具备这种结构化表征能力。
神经符号AI（Neuro-Symbolic AI）：将神经网络的学习能力与符号系统的推理能力相结合。神经网络擅长从数据中提取模式，符号系统擅长进行逻辑推理和组合泛化。

第五环：具身与直觉物理 -- 在物理世界中扎根

理解世界不能仅靠观察，还需要在世界中行动。

具身智能（Embodied Intelligence）：智能不是脱离身体的抽象计算，而是与身体和环境深度耦合的过程。一个有身体的智能体能够通过与环境的物理交互来学习，获得纯粹从数据中无法获得的知识。
直觉物理（Intuitive Physics）：Josh Tenenbaum 等人的研究表明，人类拥有一套内在的"物理引擎"，能够在心中模拟物体的运动、碰撞、支撑等物理过程。这种直觉物理是几个月大的婴儿就已经开始发展的能力。

第六环：元学习与自我改进 -- 学会学习

真正的智能不仅仅是学习特定的知识，更是学会如何学习。

元学习（Meta-Learning）：也被称为"学会学习"，其目标是让系统在面对新任务时，能够快速适应，而非从零开始训练。
递归自我改进（Recursive Self-Improvement）：一个能够改进自身学习算法的系统，理论上可以进入加速进步的循环。这既是AGI最令人期待的特性之一，也是最需要谨慎对待的风险来源。

关键人物

人物	核心贡献	代表项目/理论
Yann LeCun	世界模型、超越LLM	JEPA架构、AMI Labs（10.3亿美元）
Karl Friston	大脑运作的统一理论	自由能原理、主动推理
Josh Tenenbaum	人类认知的计算建模	直觉物理、概率程序
Yoshua Bengio	因果表示学习	因果学习、系统2深度学习
李飞飞（Fei-Fei Li）	空间智能与三维理解	World Labs、空间智能

当前态势

2025至2026年间，AI领域正在经历一次深层的范式转移。过去几年的主旋律是"扩大语言模型的规模"，而现在，越来越多的资金和人才正在流向一个新的方向：

构建扎根于物理现实的世界模型。

LeCun的AMI Labs获得10.3亿美元融资，李飞飞的World Labs获得大量投资，Friston的主动推理框架被越来越多的机器人研究团队采用。这些信号共同指向一个判断：仅靠扩大语言模型的规模，不足以实现AGI。

当然，这并不意味着LLM没有价值。语言模型在文本理解、代码生成、知识检索等领域仍然极其强大。但如果目标是构建真正理解世界、能够在物理环境中灵活行动、具备常识推理能力的通用智能，那么我们需要走一条不同的路。

这条路的起点，正是对人类智能本身的深入理解。从哲学追问到神经科学启示，从世界模型到因果推理，从具身交互到元学习，每一个环节都是这条道路上不可或缺的一环。这个笔记系列将逐一探讨这些主题。