多模态进展:文生图 · 视频 · 语音
最后更新:2026-04-24
多模态是 2024-2026 AI 最快成熟的方向——文生图(Midjourney、DALL-E)→ 文生视频(Sora、Runway、Veo)→ 实时语音(GPT-4o、ElevenLabs)。本文梳理三大模态的格局、技术路线、商业化状态。
一句话结论
多模态已从"演示"走向"规模消费"——文生图最成熟(Midjourney 年收入 $500M+),文生视频刚跨过质量门槛(Veo 3 / Sora 2),实时语音是 2025-2026 最快扩张的新模态(Hume AI、ElevenLabs、GPT-4o voice)。
三条关键要点
- 文生视频 2025 跨越质量门槛:8 秒以内 1080p 60fps 已达可用,但 1 分钟以上长视频仍有连贯性问题
- 语音进入"实时对话"时代:端到端延迟从 1-2s 降到 <500ms(GPT-4o Advanced Voice)
- 多模态正在融合:基础模型原生多模态(Gemini、GPT-4o)vs 单模态最强(Midjourney、ElevenLabs)两条路线
文生图格局
头部产品
| 产品 | 公司 | 2025 MAU(估) | 定价 |
|---|---|---|---|
| Midjourney | Midjourney Inc | ~2000 万 | $10-60/月 |
| Sora Image(含在 ChatGPT) | OpenAI | ChatGPT 用户基数 | 订阅内 |
| DALL-E 3 | OpenAI | 同上 | 订阅内 |
| Stable Diffusion / Flux | Stability AI / BFL | 开源 + 自部署 | 免费 |
| Imagen 3 | Google DeepMind | Gemini 用户基数 | 订阅内 |
| 可灵 / 即梦 | 字节 | 中文市场 | 免费 + 付费 |
| DreamFabric | Midjourney 推出图像生成独立模型 | 新 |
Midjourney 的独特位置
- 创立 2022,Discord 起家 → 2024 Web App
- 不融资 → 自持利润
- 2024 收入 ~$500M(估)→ 单位经济极佳(~100 人团队)
- 2025 推出自有网页版 + V7 模型 + 3D 早期
技术路线
- Diffusion(主流):DALL-E、Midjourney、Imagen、Stable Diffusion
- Autoregressive(挑战):Parti、OpenAI 的 GPT-Image-1
商业化
- 订阅制主导(Midjourney 的精品订阅模型)
- API(Flux Schnell 等)作为企业端
- 内嵌在通用 AI(ChatGPT 订阅附赠 DALL-E 3)
文生视频格局
头部产品(2025-2026)
| 产品 | 公司 | 发布 | 能力 |
|---|---|---|---|
| Sora / Sora 2 | OpenAI | 2024-02 / 2025 | 8-60 秒、1080p |
| Veo 2 / Veo 3 | Google DeepMind | 2024 / 2025 | 电影感、长镜头 |
| Runway Gen-4 | Runway | 2025 | 创作者专用 |
| Kling 2 | 快手 | 2024-06 起 | 中国最强 |
| Pika 2 | Pika Labs | 2024 | 消费级 |
| MiniMax Hailuo | MiniMax | 中国 | 创意社区 |
| Hedra | Hedra | 人脸驱动 |
关键进展(2025)
- 从 4 秒 720p 到 30 秒 1080p
- 角色一致性 基本解决(同一人出现在多镜头)
- 物理感(流体 / 布料 / 抛物运动)基本符合直觉
- 剩余问题:长视频(>1 分钟)连贯性、复杂对话 lip-sync、特定艺术风格
商业化
- Runway 订阅:$15-95/月,创作者为主
- Sora 在 ChatGPT Pro($200/月)内
- 企业视频:广告、培训、短剧自动化—— 2025-2026 起爆发
潜在颠覆场景
- 短视频(TikTok / Instagram Reels)进入 AI 生成时代
- 独立短剧 / 微电影
- 广告 pre-production
- 教育 / 培训视频
语音格局
头部产品
| 产品 | 公司 | 能力 |
|---|---|---|
| GPT-4o Advanced Voice | OpenAI | 实时对话、情感识别 |
| ElevenLabs | ElevenLabs | 最强 TTS / 克隆 / 多语言 |
| Hume AI | Hume | 情感化对话(Empathic Voice Interface) |
| Cartesia | Cartesia | 低延迟企业 TTS |
| Deepgram | Deepgram | ASR + 实时转录 |
| 中国:字节火山 / 阿里 / 科大讯飞 | 多家 | 多语言、方言 |
关键进展(2025)
- 端到端延迟 <500ms(GPT-4o Advanced Voice 在 app 内实测)
- 声音克隆:30 秒样本 → 可克隆
- 情感化:模型能感知用户情绪、调整语调
- 多语言:单模型支持 30+ 语言
应用场景
- AI 客服(取代传统电话客服)
- AI 伴侣 / 陪伴
- 多媒体内容(播客、有声书自动化)
- 实时翻译
融合 vs 专精:两条路线
路线 A · 通用多模态基础模型
代表:GPT-4o(OpenAI)· Gemini 2.5(Google)· Claude(部分)
优势: - 一个模型处理所有模态 - 开发者友好(单一 API) - 跨模态任务(图像理解、视频解说等)
劣势: - 单模态能力不一定最强 - 训练成本极高
路线 B · 单模态最强
代表:Midjourney(图)· Runway(视频)· ElevenLabs(语音)
优势: - 单模态深度优化 → 质量领先 - 垂直用户心智(创作者专属) - 商业化更清晰
劣势: - 不能做"文本+图像"混合任务 - 被通用模型追平的风险
用 BCG Advantage Matrix 框架 看
| 模态 | 象限 |
|---|---|
| 文生图 | Volume(Midjourney / DALL-E / Imagen 头部几家)+ Specialization(Flux 垂直) |
| 文生视频 | Volume(Sora / Veo / Runway 头部) |
| 语音 | Specialization(ElevenLabs 专精 + GPT-4o 通用多模态 并存) |
用 颠覆创新框架 看
- Midjourney 是图像领域的创新者(Innovator),Discord 起家反向颠覆传统图像软件
- Sora 2 / Veo 3 正在颠覆:传统视频生产(广告、短剧)5-20 倍效率提升
- GPT-4o voice 颠覆:TTS + 客服 + AI 伴侣多个子赛道
2026 关键变量
- 文生视频 1 分钟连贯能否突破:决定长形式视频(广告、短片)能否完全 AI 化
- Sora 2 API 开放:会重塑视频创作工具格局
- GPT-4o voice / 类似产品的日活:AI 实时对话是否成为主流交互
- 中国多模态模型:可灵 / 即梦能否国际化
- 版权诉讼:文生图 / 视频的训练数据版权判决(NYT vs OpenAI 等)
我的判断
我的看法:
- 文生视频是 2026 最大的 opportunity——质量已够,成本快速降,商业化场景多
- 专精模态仍有空间:Midjourney、ElevenLabs 证明"做透一个模态"比通用 AI 更有粘性
- 语音是被低估的模态:实时对话 AI 可能是移动时代后的下一个交互范式
- 通用多模态 vs 专精:两条路线长期并存,类比 iOS vs 专业相机 App
我可能错在哪里: - Sora / Gemini 等通用模态可能"吃掉"专精市场 - 视频生成版权 / 政治风险可能限制商业化(deepfake / 肖像权) - 中国多模态模型可能因监管或地缘限制无法国际化
延伸阅读
- Latent Space podcast · 多模态专题
- Artificial Analysis · 多模态评测
- 本站 · Sora 产品 · Runway 产品 · Midjourney 产品 · BCG Advantage 框架