推理前沿进展
概述
2024-2025 年,LLM 推理能力迎来了重大突破。OpenAI 的 o1/o3 系列、DeepSeek-R1 以及推理缩放定律(Reasoning Scaling Laws)的发现,标志着 AI 推理从"提示工程"走向了"训练时+推理时"的系统优化。本文梳理推理模型的最新进展和未来趋势。
1. 推理模型的范式转变
1.1 从提示到训练
graph LR
A[阶段 1<br/>提示工程<br/>2022-2023] --> B[阶段 2<br/>推理微调<br/>2024]
B --> C[阶段 3<br/>推理原生模型<br/>2024-2025]
C --> D[阶段 4<br/>推理缩放<br/>2025-]
A -.-> |CoT, ToT| A
B -.-> |RL 训练推理| B
C -.-> |o1, R1| C
D -.-> |Test-time Compute| D
| 阶段 | 方法 | 推理能力来源 | 代表 |
|---|---|---|---|
| 提示工程 | 设计提示模板 | 模型已有能力的引导 | CoT, ToT |
| 推理微调 | 在推理数据上微调 | 训练数据中的推理模式 | WizardMath |
| 推理原生模型 | 训练时优化推理 | RL + 过程奖励 | o1, R1 |
| 推理缩放 | 推理时计算扩展 | 更多的测试时计算 | o3, 未来模型 |
1.2 核心公式:推理的两个缩放维度
训练时缩放(传统缩放定律):
其中 \(N\) 为参数量,\(D\) 为训练数据量。
推理时缩放(新发现):
其中 \(C_{\text{test}}\) 为推理时的计算量(Token 数、搜索步数等)。
关键洞察:在训练时缩放边际收益递减时,推理时计算缩放提供了新的性能提升维度。
2. OpenAI o1 系列
2.1 o1 (2024年9月)
OpenAI 的 o1 是首个大规模推理模型,通过"思考"(thinking)过程在回答前进行长链推理。
核心特点:
- 隐藏思考过程:模型在给出答案前进行内部推理,思考过程对用户不完全可见
- 长链推理:可以进行数千 Token 的内部思考
- RL 训练:使用强化学习(而非单纯 SFT)训练推理能力
- 过程奖励模型 (PRM):对推理的每一步提供奖励信号
性能表现:
| 基准 | GPT-4o | o1-preview | o1 |
|---|---|---|---|
| AIME 2024 (数学竞赛) | 13.4% | 56.7% | 83.3% |
| GPQA Diamond (研究生科学) | 53.6% | 73.3% | 78.0% |
| Codeforces (编程竞赛) | 11% | 62% | 89% |
| MATH (数学) | 60.3% | 85.5% | 94.8% |
2.2 o3 (2024年12月预览)
o3 在 o1 基础上进一步提升:
- ARC-AGI 基准上达到 87.5%(高计算模式),此前最佳为 5%
- 进一步的推理缩放
2.3 o1 的推理机制(推测)
虽然 OpenAI 未公开完整细节,但社区推测的核心机制:
graph TD
INPUT[用户问题] --> THINK[内部思考过程<br/>Chain of Internal Thoughts]
THINK --> SEARCH[搜索/回溯<br/>探索多条推理路径]
SEARCH --> VERIFY[自我验证<br/>检查推理步骤]
VERIFY --> |不确定| SEARCH
VERIFY --> |确信| OUTPUT[最终答案]
PRM[过程奖励模型<br/>Process Reward Model] -.-> SEARCH
PRM -.-> VERIFY
训练流程(推测):
- 使用 SFT 训练基础推理能力
- 使用过程奖励模型(PRM)为每步推理提供密集奖励
- 使用 RL(可能是 PPO 或类似算法)优化推理策略
- 推理时允许更长的思考链和多次尝试
3. DeepSeek-R1
3.1 R1 的核心贡献
DeepSeek (2025年1月) 发布的 R1 是首个开源的推理模型,揭示了推理能力涌现的机制:
关键发现:
纯 RL 训练可以自发涌现推理能力——不需要人工标注的推理数据。
3.2 训练流程
graph TD
BASE[DeepSeek-V3 基座模型] --> RL1[纯 RL 训练<br/>GRPO 算法]
RL1 --> R1_ZERO[R1-Zero<br/>自发涌现推理]
R1_ZERO --> COLD[冷启动 SFT<br/>少量高质量推理数据]
COLD --> RL2[RL 训练<br/>推理 + 通用任务]
RL2 --> R1[DeepSeek-R1<br/>最终模型]
R1 --> DISTILL[蒸馏<br/>R1 → 小模型]
DISTILL --> R1_7B[R1-Distill-7B]
DISTILL --> R1_32B[R1-Distill-32B]
3.3 GRPO 算法
DeepSeek 使用的 Group Relative Policy Optimization (GRPO) 算法:
其中 \(G\) 个输出从同一个问题采样,优势函数 \(A_i\) 通过组内相对排名计算。
与 PPO 的区别:不需要训练单独的价值函数(Critic),而是通过组内比较来估计优势。
3.4 推理能力的自发涌现
R1-Zero(纯 RL 训练,无推理数据)展现了令人惊讶的推理行为:
| 涌现行为 | 描述 |
|---|---|
| 自我验证 | "让我检查一下这个答案是否正确..." |
| 反思 | "等等,我可能犯了一个错误..." |
| 问题分解 | "这个问题可以分为三个部分..." |
| 多路径探索 | "让我试试另一种方法..." |
| 逐步推导 | 展示完整的数学推导过程 |
关键洞察:这些推理模式不是从标注数据中学到的,而是在 RL 优化过程中自发涌现的。
3.5 性能对比
| 基准 | DeepSeek-V3 | DeepSeek-R1 | OpenAI o1 |
|---|---|---|---|
| AIME 2024 | 39.2% | 79.8% | 79.2% |
| MATH-500 | 90.2% | 97.3% | 96.4% |
| Codeforces | 51.6% | 96.3% | 96.6% |
| GPQA Diamond | 59.1% | 71.5% | 78.0% |
4. 推理时计算缩放 (Test-Time Compute Scaling)
4.1 核心概念
推理时计算缩放是指:给模型更多的推理时间/计算,可以持续提升性能。
传统方法只关注 \(C_{\text{train}}\),现在 \(C_{\text{test}}\) 成为同样重要的维度。
4.2 推理时计算的分配方式
| 方式 | 描述 | 示例 |
|---|---|---|
| 更长的思考链 | 允许模型生成更多推理 Token | o1 的长思考过程 |
| 多次采样 | 生成多个候选答案 | Self-Consistency |
| 树搜索 | 系统地探索推理空间 | ToT, MCTS |
| 验证+重试 | 验证答案并在失败时重试 | Reflexion |
| 集成 | 多个模型/策略的结果聚合 | 多模型投票 |
4.3 缩放曲线
实验发现推理性能与推理时计算呈对数关系:
这意味着:
- 初始增加推理计算带来显著提升
- 边际收益递减但持续存在
- 与训练缩放的幂律类似,但更平坦
5. 过程奖励模型 (Process Reward Models)
5.1 结果奖励 vs 过程奖励
结果奖励模型 (ORM):只评估最终答案
过程奖励模型 (PRM):评估每一步推理
5.2 PRM 的优势
- 密集奖励:每一步都有反馈,而非仅在终点
- 错误定位:可以精确识别推理链中出错的步骤
- 更好的搜索引导:为 MCTS/ToT 提供更精准的评估
- 训练信号更强:避免了稀疏奖励的信用分配问题
5.3 PRM800K 数据集
Lightman et al. (2023) 发布的 PRM800K 包含 800K 步骤级标注:
- 每个数学问题的每一步推理都标注了正确/错误/中立
- 使用人工标注确保质量
- 证明了 PRM 在 MATH 基准上显著优于 ORM
6. 推理模型的演进图谱
graph TD
subgraph 2022-2023: 提示时代
COT[CoT<br/>Wei et al.] --> SC[Self-Consistency]
COT --> TOT[Tree of Thoughts]
COT --> REACT[ReAct]
end
subgraph 2024: 推理模型元年
O1[OpenAI o1<br/>2024.09] --> O1MINI[o1-mini]
PRM[PRM 研究<br/>Lightman et al.] --> O1
QWEN[Qwen-QwQ<br/>2024.11]
end
subgraph 2025: 开源推理时代
R1[DeepSeek-R1<br/>2025.01]
O3[OpenAI o3<br/>预览]
R1 --> R1D[R1-Distill 系列]
R1 --> OPEN[开源推理模型生态]
end
COT --> O1
TOT --> O1
O1 --> R1
O1 --> O3
7. 关键开放问题
7.1 理论问题
- 推理缩放的上限:推理时计算的缩放是否有理论上限?
- 涌现机制:RL 训练为何能自发产生推理行为?
- 最优计算分配:训练时和推理时计算的最优比例是什么?
- 推理的本质:LLM 的推理是真正的逻辑推理还是模式匹配?
7.2 工程问题
- 推理成本:长思考链的 Token 消耗很大,如何优化?
- 延迟:推理模型的响应时间更长,如何满足实时性需求?
- 可控性:如何控制推理深度(简单问题不需要长思考)?
- 可解释性:隐藏的思考过程如何审计?
7.3 应用问题
- 智能体推理:推理模型如何与工具使用、多智能体协作结合?
- 领域适配:通用推理模型如何适配特定领域?
- 蒸馏效率:如何高效地将推理能力蒸馏到小模型?
8. 对智能体设计的影响
推理模型的突破对智能体架构有深远影响:
| 传统方法 | 推理模型方法 | 影响 |
|---|---|---|
| 外部 CoT 提示 | 内置长链推理 | 减少 prompt 工程 |
| 外部 ToT 搜索 | 内部搜索 | 简化架构 |
| Self-Consistency 采样 | 内部自我验证 | 减少 API 调用 |
| 外部 Reflexion 循环 | 内置反思机制 | 更紧凑的智能体 |
| Plan-then-Execute | 推理时自动规划 | 端到端推理+行动 |
核心趋势:外部的推理增强机制正在被内化到模型本身,使得智能体架构变得更简洁,但推理能力更强。
参考文献
- OpenAI. (2024). Learning to Reason with LLMs. openai.com.
- OpenAI. (2024). OpenAI o1 System Card. openai.com.
- DeepSeek. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
- Lightman, H. et al. (2023). Let's Verify Step by Step. ICLR 2024.
- Snell, C. et al. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. arXiv:2408.03314.
- Wang, P. et al. (2024). Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. ACL 2024.