🔬 AI深度解析 DD05 — 多模态模型的三条技术路线

预计时长:约25分钟


🎤 开场

大家好呀,我是小敏,欢迎回来!

今天要聊的话题特别有意思——多模态模型。就是让AI不只能读文字,还能看图片、听声音、理解视频的那种模型。

我先跟你们说个真实经历。前阵子我拍了一张一个我不认识的植物的照片,发给AI,它不仅认出了品种,还告诉我浇水频率、光照需求、甚至这个季节该不该修剪。全程不到5秒。

这在3年前完全不可能。那时候的AI,你给它一张图,它最多告诉你”这是一棵植物”,连品种都分不清。

那么问题来了:从”几乎看不懂图”到”图片视频全能”,多模态AI是怎么一步步走过来的?目前有哪些不同的技术路线?谁的方案更好?


🛤️ 第一章:三条路线概览

先给大家画一个总览图。目前做多模态模型主要有三条技术路线:

路线 核心思想 代表模型 简单类比
路线一:外挂式 语言模型 + 视觉编码器拼接 LLaVA, InternVL 给聋人配了个翻译
路线二:原生融合 从训练起就同时学文字和图像 Gemini, GPT-4o 天生双语的混血儿
路线三:模块化管线 专业模型各司其职,管线串联 某些Agent框架 工厂流水线

这三条路各有优劣。我们一条一条来聊。


🔌 第二章:路线一——外挂式(Vision Encoder + LLM)

怎么做的?

这条路线的思想特别直观:已经有一个很强的语言模型了,只要想办法让它”看见”图片就行了。

具体方案:

  1. 用一个视觉编码器(比如CLIP、SigLIP、EVA)把图片转换成一组向量
  2. 用一个投影层(Projection Layer)把这些视觉向量”翻译”成语言模型能理解的格式
  3. 把翻译后的向量和文本一起喂给语言模型
图片 → [视觉编码器] → 视觉Token → [投影层] → LLM能理解的格式
                                                    ↓
文本输入 ────────────────────────────────→ [语言模型] → 输出回答

代表选手

  • LLaVA系列:开源界的先驱,证明了这条路行得通
  • InternVL:上海AI Lab出品,中文多模态能力很强
  • Qwen-VL:阿里的方案,也走的这条路

优势

  • 实现简单:有了好的语言模型,加个视觉编码器就行
  • 可以复用最强的语言模型:视觉能力会随着底层语言模型的升级而提升
  • 训练成本相对低:不需要从头训练,只需要训练投影层和做微调

劣势

  • 视觉理解有上限:因为视觉信息是”翻译”过来的,不可避免会丢失信息
  • 跨模态推理弱:图文之间的深层关系不容易捕捉
  • 一般只支持图片输入:要加音频、视频需要额外的编码器,越堆越复杂

我打个比方:这就像给一个只懂中文的人配了个英文翻译。他能通过翻译理解英语内容,但总有些微妙的意思会在翻译中丢失。而且翻译太多语言的时候(图片+音频+视频),一个翻译忙不过来。


🧬 第三章:路线二——原生多模态(Native Multimodal)

怎么做的?

这条路线的哲学完全不同:从一开始就让模型同时学习文字、图片、音频、视频,让多种模态在模型内部”自然融合”。

不需要外挂视觉编码器,不需要投影层。模型架构本身就能处理多种输入。

Google的Gemini是最典型的例子。按照Google的说法,Gemini从预训练阶段就同时学习了文本、图片、音频和视频数据。所有模态在同一个Transformer里面”协同学习”。

GPT-4o也是走的这条路。”o”代表”omni”(全能),输入可以是文字、图片、音频的任意组合,输出也是。

原生融合的技术细节

这里面有几个关键设计:

1. 统一的Token化 不管是文字、图片还是音频,都转化成Token序列。图片被分成小块(patches),每块变成一个token;音频被分成短时间片段,每段变成token。然后所有token混在一起输入Transformer。

2. 跨模态注意力 在注意力机制中,图片token可以”看到”文字token,文字token也可以”看到”图片token。这种深层交互是原生融合的核心优势。

3. 大规模多模态预训练 需要海量的图文对、视频文本对、音频文本对数据来训练。数据规模和多样性要求非常高。

优势

  • 跨模态理解最深:图文音视频之间的关系是”自然学会”的
  • 统一架构优雅:一个模型搞定一切,不需要拼凑多个组件
  • 涌现能力强:可能出现单模态模型没有的能力

劣势

  • 训练成本极高:需要从头训练,数据量和算力都是天文数字
  • 黑盒更黑:不同模态的信息在内部是怎么交互的,很难分析
  • 迭代慢:升级一个模态的能力需要重新训练整个模型

🏭 第四章:路线三——模块化管线(Modular Pipeline)

怎么做的?

这条路线的思路是:不要把所有能力塞进一个模型,让专业的模型干专业的事,然后用管线把它们串起来。

用户输入(图片+文字)
    ├── 图片 → [OCR模型] → 提取文字
    ├── 图片 → [目标检测模型] → 识别物体
    ├── 图片 → [描述生成模型] → 生成图片描述
    └── 所有结果汇总 → [语言模型] → 生成最终回答

优势

  • 每个模块都可以是最强的:OCR用最好的OCR,检测用最好的检测器
  • 灵活可替换:任何模块升级了,直接换上去
  • 可解释性好:出了问题能定位到具体哪个模块
  • 成本可控:不需要的模块可以不启动

劣势

  • 延迟高:每个模块串行处理,时间叠加
  • 信息损失:模块之间传递的是中间结果,可能丢失信息
  • 缺乏端到端优化:整个管线的效果取决于最弱的那个环节
  • 维护复杂:多个模型的版本管理、兼容性是个大问题

📊 第五章:三条路线实战对比

说了这么多理论,来看看实际表现:

Benchmark Gemini 2.5 Pro (原生) GPT-4o (原生) InternVL 3 (外挂) 管线方案
MMMU 74.2 72.8 68.5 ~60
MathVista 71.5 69.3 65.1 ~55
OCR准确率 96.8% 95.2% 93.5% 98.1%
视频理解 82.3 78.5 有限支持 可扩展
响应延迟
训练成本 极高 极高

几个有意思的发现:

  1. 原生融合在综合理解上明显领先——MMMU和MathVista需要同时理解图片和文字并做推理,这正是原生融合的强项
  2. OCR场景管线方案反而最好——专门的OCR模型在精确度上确实更强
  3. 视频理解是原生融合的最大优势——外挂式和管线方案在视频理解上都比较吃力

🎬 第六章:视频理解——下一个大战场

说到视频,我要专门展开聊聊,因为这可能是2026-2027年多模态AI最大的战场

理解视频比理解图片难太多了。一个1分钟的视频,30fps就有1800帧。你不可能把每一帧都当作图片喂给模型——token数会爆炸。

目前的主流方案:

1. 关键帧采样:从视频中抽取少量关键帧来分析。简单但可能错过重要细节。

2. 时间感知编码:把视频分成多个时间片段,每个片段提取特征后带上时间信息。Gemini就用了类似的方法。

3. 视频原生Token化:把视频直接编码成时空token序列,保留运动和时间信息。这是最前沿的方向。

Google在这个领域走得最远。Gemini 2.5 Pro可以处理长达数小时的视频,理解情节发展、角色关系、甚至检测视频中的逻辑错误。不过说实话,现在的视频理解水平离”真正看懂”还有不小差距。


🔮 第七章:未来会怎样

我的判断是:短期内三条路线会共存,但长期看原生融合会成为主流。

为什么?因为人类的认知就是原生多模态的。我们不是先”把看到的翻译成文字”再理解的,而是视觉、听觉、语言在大脑中同时处理、深度交互。

但这并不意味着其他路线会消亡:

  • 外挂式在开源社区和资源受限的场景中仍然很有价值
  • 管线方案在需要精确控制的工业场景(如医疗影像、自动驾驶)中可能更合适

还有一个趋势值得关注——多模态输出。现在的模型大多只能输出文字(少数能输出图片),但未来的模型可能能同时输出文字、图片、音频、甚至视频。GPT-4o已经展示了一些音频输出能力,这个方向还有很大的想象空间。


👋 结尾

好了,今天关于多模态的三条技术路线就聊到这里。快速回顾:

  1. 外挂式:给语言模型”配翻译”,简单实用但有天花板
  2. 原生融合:从训练起就是多模态的,理解最深但成本最高
  3. 模块化管线:专业模型流水线协作,灵活但延迟高

下一期我们换个话题,聊聊所有程序员都关心的——AI编程能力大比拼。现在的AI写代码到底有多强?谁是程序员的最佳搭档?Claude Code、GPT-6、Cursor到底怎么选?

我是小敏,下期见!


AI深度解析播客 DD05 · 发布日期:2026年4月15日