DeepSeek V3 / R1
最后更新:2026-04-24
DeepSeek V3(2024-12)和 R1(2025-01-20)是2024-2025 AI 行业最大的"黑天鹅"——一家 150 人中国团队、据称 $5.6M 训练成本 做出可以与 GPT-4 / Claude 3.5 Sonnet 媲美的开源模型,震动美国股市(NVIDIA 一日跌 17% 损失 $600B 市值)、打破"前沿 AI 必须 100 万卡"神话。
一、产品定位
DeepSeek V3 / R1 是 "中国开源 AI 对抗美国闭源 AI 的最强武器"——V3 对标 GPT-4 / Claude 3.5,R1 对标 o1 推理模型,全部开源 + MIT 许可 + API 价极低。定位不是盈利,而是幻方量化(母公司)的技术 / 软实力投入。
二、核心能力与架构
DeepSeek V3(2024-12-26)
- 参数:671B 总参 / 37B 激活(MoE 架构)
- 训练算力:2.788M GPU-hours(H800)
- 训练成本:约 $5.6M(业界公认,虽有争议)
- 基准:
- MMLU 88.5(接近 GPT-4o)
- HumanEval 82.6(接近 Claude 3.5)
- MATH 90.2(超越 GPT-4o)
DeepSeek R1(2025-01-20)
- 推理模型,对标 OpenAI o1
- 基于 V3 + RL 训练
- 完全开源(权重 + 蒸馏模型)
- 基准:
- AIME 2024:79.8(接近 o1-preview)
- MATH-500:97.3
- Codeforces:96.3 percentile
- R1-Zero:不用 RLHF 的纯 RL 版本
关键架构创新
- MLA(Multi-head Latent Attention):降低 KV cache 大小 5-10x
- MoE(DeepSeekMoE):671B 总 / 37B 激活
- FP8 混合精度训练:效率提升
- GRPO(Group Relative Policy Optimization):替代 PPO 的 RL 算法
- Auxiliary-loss-free load balancing
三、版本与路线图
| 时间 | 版本 | 里程碑 |
|---|---|---|
| 2023-07 | DeepSeek 成立 | |
| 2024-01 | DeepSeek LLM 67B | |
| 2024-05 | DeepSeek V2(首个 MLA + MoE) | |
| 2024-12 | DeepSeek V3 发布 | |
| 2025-01-20 | DeepSeek R1 开源(震撼全球) | |
| 2025-Q2 | V3 Lite、R1-Distill 系列(小模型蒸馏) | |
| 2025-Q3 | V3.5 / R1.5 迭代 | |
| 2025-Q4 | DeepSeek V4 / R2 传闻 | |
| 2026-Q1 | V4 发布预期 |
四、定价与商业化
API 定价
| 模型 | 输入 / 1M tokens | 输出 / 1M tokens |
|---|---|---|
| DeepSeek V3 | $0.27(cache miss)/ $0.07(cache hit) | $1.10 |
| DeepSeek R1 | $0.55 / $0.14 | $2.19 |
对比: - GPT-4o:输入 $2.50 / 输出 $10 - Claude 3.5 Sonnet:输入 $3 / 输出 $15 - DeepSeek V3 比 GPT-4o 便宜 ~10x
商业化不是核心目标
- 幻方量化自给算力
- API 亏本运行(至少 2025 阶段)
- 主要目的:开源生态影响力 + 吸引开发者 + 为幻方 brand 加分
下载量
- Hugging Face 累计下载 5 亿+
- GitHub 星 130k+
- 全球开发者广泛使用
五、用户反馈
开发者社区
- "2025 年最震撼开源模型" —— Reddit / HN 一致评价
- "用 API 一个月 $5 完成了用 Claude 一个月 $500 的活"
- R1 推理链 transparency 被赞赏(o1 不展示思考过程)
企业反馈
- 美国硅谷企业大量使用 DeepSeek V3 —— 成本优势明显
- 2025-02 Microsoft / AWS 等都宣布支持 DeepSeek 部署
- 但部分企业因数据主权 / 政治敏感不用中国模型
批评
- 中文政治敏感话题回答谨慎(符合中国监管)
- 超长上下文质量一般(128K vs Gemini 2M)
- 多模态不如 GPT / Gemini
- "$5.6M" 成本争议:只是 final run 成本,不含研究 / 基础设施
市场影响
- 2025-01-27 美股震动:NVIDIA 单日 -17%,Nasdaq -3%
- 媒体爆发讨论 "AI capex 是否被过度投入"
- Zuckerberg / Musk / Altman 多人回应 DeepSeek 冲击
六、竞品对比
| 维度 | DeepSeek V3 | GPT-4o | Claude 3.5 Sonnet | Llama 3.1 405B |
|---|---|---|---|---|
| 通用能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 编程 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 数学 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 多模态 | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| 开源 | ✅ | ❌ | ❌ | ✅ |
| 价格 | 极低 | 高 | 高 | 免费自部署 |
| 维度 | DeepSeek R1 | o1 | Claude Extended Thinking | QwQ-32B |
|---|---|---|---|---|
| 推理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 数学 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Transparency | ⭐⭐⭐⭐⭐ | ⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 开源 | ✅ | ❌ | ❌ | ✅ |
七、使用笔记
DeepSeek V3 最适合
- 通用对话 / 问答:免费且强
- 数学 / 科学推理:成本极低
- API 大规模批处理:1/10 成本
- 中文场景:比 GPT 原生支持更好
- 研究 / 学术:开源可 fine-tune
DeepSeek R1 最适合
- 深度推理任务:替代 o1(且有思考链)
- 数学竞赛题:AIME 水平
- R1-Distill 7B / 14B / 32B:个人本地部署
- RL 研究:开源权重 + 训练细节
不太适合
- 多模态 / 视觉任务
- 严肃 Agent 生产环境(Tool Use 未优化)
- 数据主权敏感的政府 / 金融客户
八、信息源
- DeepSeek 官方博客(deepseek.com)
- DeepSeek V3 / R1 技术论文(arxiv.org)
- Hugging Face · DeepSeek 模型库
- SemiAnalysis · DeepSeek 成本分析
- Reddit r/LocalLLaMA / HN · 社区反馈
- 本站 · DeepSeek 公司研究 · 推理模型专题 · 芯片出口管制 · 大模型路线对比