Skip to content

类人智能导论

核心问题:为什么大语言模型不够?

过去几年,大语言模型(Large Language Models, LLMs) 取得了令人瞩目的成就。从GPT系列到Claude系列,这些模型在文本生成、代码编写、逻辑推理等任务上展现出了惊人的能力。然而,一个根本性的问题始终悬而未决:

仅靠语言建模,能否通向真正的通用人工智能(AGI)?

这个问题的答案,正在被越来越多的顶级研究者否定。

LLM的核心范式是下一个token预测(next-token prediction):给定一段文本序列,预测下一个最可能出现的符号。这种范式使模型在语言层面获得了强大的模式匹配能力,但也带来了根本性的局限:

能力维度 LLM的表现 人类的表现
语言推理
物理直觉 极弱 天生具备
因果理解 统计相关性 真正的因果推断
世界模型 隐式、不稳定 显式、可操作
从少量经验学习 极强
持续适应环境 几乎没有 终身学习

一个两岁的孩子知道球会掉到地上、水会从杯子里洒出来、推一个物体它会移动。这些知识不是从语言中学到的,而是从与物理世界的交互中获得的。LLM从未"触碰"过任何东西,它的全部知识都来自文本符号的统计规律。

LeCun的论断:语言模型是通向AGI的死胡同

Yann LeCun 是深度学习的三位图灵奖获得者之一,也是Meta的首席AI科学家。2025至2026年间,他反复强调了一个尖锐的观点:

LLMs are a dead end for AGI because they lack grounding in physical reality.

LeCun认为,语言是人类知识的一种极度压缩的表征形式。一个人一生中通过眼睛接收的视觉信息量,远远超过人类历史上所有书籍中文字所包含的信息量。语言丢弃了绝大部分关于物理世界的细节。因此,仅从语言中学习,永远无法获得对物理世界的真正理解。

LeCun不只是提出批评,他还给出了替代方案:联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)。JEPA的核心思想是在潜空间(latent space)中进行预测,而非在像素或token层面进行预测。这使得模型可以学习到更加抽象和鲁棒的世界表征。

2025年,LeCun主导创建了 AMI Labs(Advanced Machine Intelligence Labs),获得了高达10.3亿美元的资金支持。这笔投入的规模表明,"超越语言模型、迈向类人智能"不再是学术圈的小众讨论,而已成为工业界认真对待的方向。

类人智能研究的全景图

类人智能(Human-Like Intelligence) 的研究并非一个单一的课题,而是一个由多个交叉领域构成的庞大体系。我们可以将其组织为一条逻辑链,从最基础的哲学追问出发,逐步走向具体的技术路径:

第一环:哲学基础 -- 智能的本质是什么?

在动手构建类人智能之前,我们必须先回答一个前提性问题:什么是智能?什么是理解?

这一层涉及的核心概念包括:

  • 心智模型(Mental Model):人类对世界运作方式的内在表征。我们不是被动地接收感知信息,而是主动地用内部模型来预测、解释和规划。
  • 意识与主观体验:行为上的智能表现是否等同于真正的理解?中文房间和哲学僵尸等思想实验提醒我们,行为与体验之间可能存在鸿沟。
  • 涌现(Emergence):复杂系统能否从简单组件的交互中产生全新的、不可还原的性质?智能本身是否就是一种涌现现象?

哲学基础为整个研究划定了边界和方向:如果我们不知道自己要构建的东西是什么,那么构建过程就是盲目的。

第二环:神经科学启示 -- 人类大脑如何做到的?

大脑是目前已知的唯一实现了通用智能的系统。研究大脑的工作原理,为类人智能提供了最直接的灵感来源:

  • 先验知识(Innate Priors):人类大脑并非白板一块。新生儿天生就具备对物体持久性、简单物理规律、面孔识别等的先验知识。这些先验结构是数百万年进化的产物。
  • 预测编码(Predictive Coding):大脑的核心运作方式并非被动接收感知,而是不断地生成对下一时刻感知输入的预测,然后用实际输入与预测之间的误差来更新内部模型。
  • 自由能原理与主动推理(Free Energy Principle / Active Inference):由 Karl Friston 提出的理论框架,认为大脑的一切活动都可以理解为最小化"自由能"(即预测误差的上界)。主动推理则进一步提出,生物体不仅更新信念,还会主动行动来改变环境,使其符合自己的预期。
  • 神经形态计算(Neuromorphic Computing):模仿大脑神经元结构的硬件设计,追求低功耗、事件驱动、大规模并行的计算范式。

第三环:世界模型 -- 通向机器理解世界的核心路径

如果说LLM学到的是语言的模型,那么类人智能需要学到的是世界的模型

  • 世界模型(World Model):一个能够在内部模拟外部世界动态的系统。给定当前状态和一个动作,世界模型能够预测下一个状态会是什么。这正是人类思维的核心能力:在脑海中"模拟"各种可能的场景。
  • JEPA(Joint Embedding Predictive Architecture):LeCun提出的架构,核心思想是在潜空间中预测,而非在原始数据空间中预测。这避免了像素级预测的计算浪费,使模型聚焦于学习世界的抽象结构。
  • 空间智能与学习式仿真(Spatial Intelligence / Learned Simulation):由 李飞飞(Fei-Fei Li) 领导的方向,她创立了 World Labs,致力于构建理解和生成三维空间的AI系统。空间智能强调视觉和三维理解是通向世界模型的关键通道。

第四环:因果与表示 -- 超越相关性的关键能力

统计学习能够发现数据中的相关性,但相关性不是因果性。类人智能需要更深层的表示能力:

  • 因果学习(Causal Learning):由 Yoshua Bengio 等人推动的方向,旨在让AI系统学习变量之间的因果关系而非仅仅是统计相关性。因果模型使系统能够回答反事实问题("如果我做了X而不是Y,会怎样?")和进行干预推理。
  • 对象中心学习(Object-Centric Learning):人类不是在像素层面理解世界的,而是在"对象"层面。我们把场景分解为一个个物体,理解它们各自的属性和彼此的关系。对象中心学习试图让AI也具备这种结构化表征能力。
  • 神经符号AI(Neuro-Symbolic AI):将神经网络的学习能力与符号系统的推理能力相结合。神经网络擅长从数据中提取模式,符号系统擅长进行逻辑推理和组合泛化。

第五环:具身与直觉物理 -- 在物理世界中扎根

理解世界不能仅靠观察,还需要在世界中行动。

  • 具身智能(Embodied Intelligence):智能不是脱离身体的抽象计算,而是与身体和环境深度耦合的过程。一个有身体的智能体能够通过与环境的物理交互来学习,获得纯粹从数据中无法获得的知识。
  • 直觉物理(Intuitive Physics)Josh Tenenbaum 等人的研究表明,人类拥有一套内在的"物理引擎",能够在心中模拟物体的运动、碰撞、支撑等物理过程。这种直觉物理是几个月大的婴儿就已经开始发展的能力。

第六环:元学习与自我改进 -- 学会学习

真正的智能不仅仅是学习特定的知识,更是学会如何学习。

  • 元学习(Meta-Learning):也被称为"学会学习",其目标是让系统在面对新任务时,能够快速适应,而非从零开始训练。
  • 递归自我改进(Recursive Self-Improvement):一个能够改进自身学习算法的系统,理论上可以进入加速进步的循环。这既是AGI最令人期待的特性之一,也是最需要谨慎对待的风险来源。

关键人物

人物 核心贡献 代表项目/理论
Yann LeCun 世界模型、超越LLM JEPA架构、AMI Labs(10.3亿美元)
Karl Friston 大脑运作的统一理论 自由能原理、主动推理
Josh Tenenbaum 人类认知的计算建模 直觉物理、概率程序
Yoshua Bengio 因果表示学习 因果学习、系统2深度学习
李飞飞(Fei-Fei Li) 空间智能与三维理解 World Labs、空间智能

当前态势

2025至2026年间,AI领域正在经历一次深层的范式转移。过去几年的主旋律是"扩大语言模型的规模",而现在,越来越多的资金和人才正在流向一个新的方向:

构建扎根于物理现实的世界模型。

LeCun的AMI Labs获得10.3亿美元融资,李飞飞的World Labs获得大量投资,Friston的主动推理框架被越来越多的机器人研究团队采用。这些信号共同指向一个判断:仅靠扩大语言模型的规模,不足以实现AGI。

当然,这并不意味着LLM没有价值。语言模型在文本理解、代码生成、知识检索等领域仍然极其强大。但如果目标是构建真正理解世界、能够在物理环境中灵活行动、具备常识推理能力的通用智能,那么我们需要走一条不同的路。

这条路的起点,正是对人类智能本身的深入理解。从哲学追问到神经科学启示,从世界模型到因果推理,从具身交互到元学习,每一个环节都是这条道路上不可或缺的一环。这个笔记系列将逐一探讨这些主题。


评论 #