跳转至

推理前沿进展

概述

2024-2025 年,LLM 推理能力迎来了重大突破。OpenAI 的 o1/o3 系列、DeepSeek-R1 以及推理缩放定律(Reasoning Scaling Laws)的发现,标志着 AI 推理从"提示工程"走向了"训练时+推理时"的系统优化。本文梳理推理模型的最新进展和未来趋势。


1. 推理模型的范式转变

1.1 从提示到训练

graph LR
    A[阶段 1<br/>提示工程<br/>2022-2023] --> B[阶段 2<br/>推理微调<br/>2024]
    B --> C[阶段 3<br/>推理原生模型<br/>2024-2025]
    C --> D[阶段 4<br/>推理缩放<br/>2025-]

    A -.-> |CoT, ToT| A
    B -.-> |RL 训练推理| B
    C -.-> |o1, R1| C
    D -.-> |Test-time Compute| D
阶段 方法 推理能力来源 代表
提示工程 设计提示模板 模型已有能力的引导 CoT, ToT
推理微调 在推理数据上微调 训练数据中的推理模式 WizardMath
推理原生模型 训练时优化推理 RL + 过程奖励 o1, R1
推理缩放 推理时计算扩展 更多的测试时计算 o3, 未来模型

1.2 核心公式:推理的两个缩放维度

训练时缩放(传统缩放定律):

\[ L(N, D) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty \]

其中 \(N\) 为参数量,\(D\) 为训练数据量。

推理时缩放(新发现):

\[ \text{Performance}(C_{\text{test}}) \propto \log(C_{\text{test}}) \]

其中 \(C_{\text{test}}\) 为推理时的计算量(Token 数、搜索步数等)。

关键洞察:在训练时缩放边际收益递减时,推理时计算缩放提供了新的性能提升维度。


2. OpenAI o1 系列

2.1 o1 (2024年9月)

OpenAI 的 o1 是首个大规模推理模型,通过"思考"(thinking)过程在回答前进行长链推理。

核心特点

  • 隐藏思考过程:模型在给出答案前进行内部推理,思考过程对用户不完全可见
  • 长链推理:可以进行数千 Token 的内部思考
  • RL 训练:使用强化学习(而非单纯 SFT)训练推理能力
  • 过程奖励模型 (PRM):对推理的每一步提供奖励信号

性能表现

基准 GPT-4o o1-preview o1
AIME 2024 (数学竞赛) 13.4% 56.7% 83.3%
GPQA Diamond (研究生科学) 53.6% 73.3% 78.0%
Codeforces (编程竞赛) 11% 62% 89%
MATH (数学) 60.3% 85.5% 94.8%

2.2 o3 (2024年12月预览)

o3 在 o1 基础上进一步提升:

  • ARC-AGI 基准上达到 87.5%(高计算模式),此前最佳为 5%
  • 进一步的推理缩放

2.3 o1 的推理机制(推测)

虽然 OpenAI 未公开完整细节,但社区推测的核心机制:

graph TD
    INPUT[用户问题] --> THINK[内部思考过程<br/>Chain of Internal Thoughts]
    THINK --> SEARCH[搜索/回溯<br/>探索多条推理路径]
    SEARCH --> VERIFY[自我验证<br/>检查推理步骤]
    VERIFY --> |不确定| SEARCH
    VERIFY --> |确信| OUTPUT[最终答案]

    PRM[过程奖励模型<br/>Process Reward Model] -.-> SEARCH
    PRM -.-> VERIFY

训练流程(推测)

  1. 使用 SFT 训练基础推理能力
  2. 使用过程奖励模型(PRM)为每步推理提供密集奖励
  3. 使用 RL(可能是 PPO 或类似算法)优化推理策略
  4. 推理时允许更长的思考链和多次尝试

3. DeepSeek-R1

3.1 R1 的核心贡献

DeepSeek (2025年1月) 发布的 R1 是首个开源的推理模型,揭示了推理能力涌现的机制:

关键发现

纯 RL 训练可以自发涌现推理能力——不需要人工标注的推理数据。

3.2 训练流程

graph TD
    BASE[DeepSeek-V3 基座模型] --> RL1[纯 RL 训练<br/>GRPO 算法]
    RL1 --> R1_ZERO[R1-Zero<br/>自发涌现推理]
    R1_ZERO --> COLD[冷启动 SFT<br/>少量高质量推理数据]
    COLD --> RL2[RL 训练<br/>推理 + 通用任务]
    RL2 --> R1[DeepSeek-R1<br/>最终模型]
    R1 --> DISTILL[蒸馏<br/>R1 → 小模型]
    DISTILL --> R1_7B[R1-Distill-7B]
    DISTILL --> R1_32B[R1-Distill-32B]

3.3 GRPO 算法

DeepSeek 使用的 Group Relative Policy Optimization (GRPO) 算法:

\[ \mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P(Q)} \left[ \frac{1}{G} \sum_{i=1}^{G} \min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\text{ref}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\text{ref}}(o_i|q)}, 1\pm\epsilon\right) A_i\right) \right] \]

其中 \(G\) 个输出从同一个问题采样,优势函数 \(A_i\) 通过组内相对排名计算。

与 PPO 的区别:不需要训练单独的价值函数(Critic),而是通过组内比较来估计优势。

3.4 推理能力的自发涌现

R1-Zero(纯 RL 训练,无推理数据)展现了令人惊讶的推理行为:

涌现行为 描述
自我验证 "让我检查一下这个答案是否正确..."
反思 "等等,我可能犯了一个错误..."
问题分解 "这个问题可以分为三个部分..."
多路径探索 "让我试试另一种方法..."
逐步推导 展示完整的数学推导过程

关键洞察:这些推理模式不是从标注数据中学到的,而是在 RL 优化过程中自发涌现的。

3.5 性能对比

基准 DeepSeek-V3 DeepSeek-R1 OpenAI o1
AIME 2024 39.2% 79.8% 79.2%
MATH-500 90.2% 97.3% 96.4%
Codeforces 51.6% 96.3% 96.6%
GPQA Diamond 59.1% 71.5% 78.0%

4. 推理时计算缩放 (Test-Time Compute Scaling)

4.1 核心概念

推理时计算缩放是指:给模型更多的推理时间/计算,可以持续提升性能

\[ \text{Performance} = f(C_{\text{train}}, C_{\text{test}}) \]

传统方法只关注 \(C_{\text{train}}\),现在 \(C_{\text{test}}\) 成为同样重要的维度。

4.2 推理时计算的分配方式

方式 描述 示例
更长的思考链 允许模型生成更多推理 Token o1 的长思考过程
多次采样 生成多个候选答案 Self-Consistency
树搜索 系统地探索推理空间 ToT, MCTS
验证+重试 验证答案并在失败时重试 Reflexion
集成 多个模型/策略的结果聚合 多模型投票

4.3 缩放曲线

实验发现推理性能与推理时计算呈对数关系:

\[ \text{Accuracy} \approx a + b \cdot \log(C_{\text{test}}) \]

这意味着:

  • 初始增加推理计算带来显著提升
  • 边际收益递减但持续存在
  • 与训练缩放的幂律类似,但更平坦

5. 过程奖励模型 (Process Reward Models)

5.1 结果奖励 vs 过程奖励

结果奖励模型 (ORM):只评估最终答案

\[ R_{\text{ORM}}(\tau) = \begin{cases} 1 & \text{if final answer is correct} \\ 0 & \text{otherwise} \end{cases} \]

过程奖励模型 (PRM):评估每一步推理

\[ R_{\text{PRM}}(\tau) = \prod_{t=1}^{T} P(\text{step } t \text{ is correct} \mid s_1, \ldots, s_t) \]

5.2 PRM 的优势

  1. 密集奖励:每一步都有反馈,而非仅在终点
  2. 错误定位:可以精确识别推理链中出错的步骤
  3. 更好的搜索引导:为 MCTS/ToT 提供更精准的评估
  4. 训练信号更强:避免了稀疏奖励的信用分配问题

5.3 PRM800K 数据集

Lightman et al. (2023) 发布的 PRM800K 包含 800K 步骤级标注:

  • 每个数学问题的每一步推理都标注了正确/错误/中立
  • 使用人工标注确保质量
  • 证明了 PRM 在 MATH 基准上显著优于 ORM

6. 推理模型的演进图谱

graph TD
    subgraph 2022-2023: 提示时代
        COT[CoT<br/>Wei et al.] --> SC[Self-Consistency]
        COT --> TOT[Tree of Thoughts]
        COT --> REACT[ReAct]
    end

    subgraph 2024: 推理模型元年
        O1[OpenAI o1<br/>2024.09] --> O1MINI[o1-mini]
        PRM[PRM 研究<br/>Lightman et al.] --> O1
        QWEN[Qwen-QwQ<br/>2024.11]
    end

    subgraph 2025: 开源推理时代
        R1[DeepSeek-R1<br/>2025.01]
        O3[OpenAI o3<br/>预览]
        R1 --> R1D[R1-Distill 系列]
        R1 --> OPEN[开源推理模型生态]
    end

    COT --> O1
    TOT --> O1
    O1 --> R1
    O1 --> O3

7. 关键开放问题

7.1 理论问题

  1. 推理缩放的上限:推理时计算的缩放是否有理论上限?
  2. 涌现机制:RL 训练为何能自发产生推理行为?
  3. 最优计算分配:训练时和推理时计算的最优比例是什么?
  4. 推理的本质:LLM 的推理是真正的逻辑推理还是模式匹配?

7.2 工程问题

  1. 推理成本:长思考链的 Token 消耗很大,如何优化?
  2. 延迟:推理模型的响应时间更长,如何满足实时性需求?
  3. 可控性:如何控制推理深度(简单问题不需要长思考)?
  4. 可解释性:隐藏的思考过程如何审计?

7.3 应用问题

  1. 智能体推理:推理模型如何与工具使用、多智能体协作结合?
  2. 领域适配:通用推理模型如何适配特定领域?
  3. 蒸馏效率:如何高效地将推理能力蒸馏到小模型?

8. 对智能体设计的影响

推理模型的突破对智能体架构有深远影响:

传统方法 推理模型方法 影响
外部 CoT 提示 内置长链推理 减少 prompt 工程
外部 ToT 搜索 内部搜索 简化架构
Self-Consistency 采样 内部自我验证 减少 API 调用
外部 Reflexion 循环 内置反思机制 更紧凑的智能体
Plan-then-Execute 推理时自动规划 端到端推理+行动

核心趋势:外部的推理增强机制正在被内化到模型本身,使得智能体架构变得更简洁,但推理能力更强。


参考文献

  1. OpenAI. (2024). Learning to Reason with LLMs. openai.com.
  2. OpenAI. (2024). OpenAI o1 System Card. openai.com.
  3. DeepSeek. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
  4. Lightman, H. et al. (2023). Let's Verify Step by Step. ICLR 2024.
  5. Snell, C. et al. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. arXiv:2408.03314.
  6. Wang, P. et al. (2024). Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. ACL 2024.

评论 #