🔬 DD05: 多模态模型的三条技术路线
🔬 AI深度解析 DD05 — 多模态模型的三条技术路线
预计时长:约25分钟
🎤 开场
大家好呀,我是小敏,欢迎回来!
今天要聊的话题特别有意思——多模态模型。就是让AI不只能读文字,还能看图片、听声音、理解视频的那种模型。
我先跟你们说个真实经历。前阵子我拍了一张一个我不认识的植物的照片,发给AI,它不仅认出了品种,还告诉我浇水频率、光照需求、甚至这个季节该不该修剪。全程不到5秒。
这在3年前完全不可能。那时候的AI,你给它一张图,它最多告诉你”这是一棵植物”,连品种都分不清。
那么问题来了:从”几乎看不懂图”到”图片视频全能”,多模态AI是怎么一步步走过来的?目前有哪些不同的技术路线?谁的方案更好?
🛤️ 第一章:三条路线概览
先给大家画一个总览图。目前做多模态模型主要有三条技术路线:
| 路线 | 核心思想 | 代表模型 | 简单类比 |
|---|---|---|---|
| 路线一:外挂式 | 语言模型 + 视觉编码器拼接 | LLaVA, InternVL | 给聋人配了个翻译 |
| 路线二:原生融合 | 从训练起就同时学文字和图像 | Gemini, GPT-4o | 天生双语的混血儿 |
| 路线三:模块化管线 | 专业模型各司其职,管线串联 | 某些Agent框架 | 工厂流水线 |
这三条路各有优劣。我们一条一条来聊。
🔌 第二章:路线一——外挂式(Vision Encoder + LLM)
怎么做的?
这条路线的思想特别直观:已经有一个很强的语言模型了,只要想办法让它”看见”图片就行了。
具体方案:
- 用一个视觉编码器(比如CLIP、SigLIP、EVA)把图片转换成一组向量
- 用一个投影层(Projection Layer)把这些视觉向量”翻译”成语言模型能理解的格式
- 把翻译后的向量和文本一起喂给语言模型
图片 → [视觉编码器] → 视觉Token → [投影层] → LLM能理解的格式
↓
文本输入 ────────────────────────────────→ [语言模型] → 输出回答
代表选手
- LLaVA系列:开源界的先驱,证明了这条路行得通
- InternVL:上海AI Lab出品,中文多模态能力很强
- Qwen-VL:阿里的方案,也走的这条路
优势
- 实现简单:有了好的语言模型,加个视觉编码器就行
- 可以复用最强的语言模型:视觉能力会随着底层语言模型的升级而提升
- 训练成本相对低:不需要从头训练,只需要训练投影层和做微调
劣势
- 视觉理解有上限:因为视觉信息是”翻译”过来的,不可避免会丢失信息
- 跨模态推理弱:图文之间的深层关系不容易捕捉
- 一般只支持图片输入:要加音频、视频需要额外的编码器,越堆越复杂
我打个比方:这就像给一个只懂中文的人配了个英文翻译。他能通过翻译理解英语内容,但总有些微妙的意思会在翻译中丢失。而且翻译太多语言的时候(图片+音频+视频),一个翻译忙不过来。
🧬 第三章:路线二——原生多模态(Native Multimodal)
怎么做的?
这条路线的哲学完全不同:从一开始就让模型同时学习文字、图片、音频、视频,让多种模态在模型内部”自然融合”。
不需要外挂视觉编码器,不需要投影层。模型架构本身就能处理多种输入。
Google的Gemini是最典型的例子。按照Google的说法,Gemini从预训练阶段就同时学习了文本、图片、音频和视频数据。所有模态在同一个Transformer里面”协同学习”。
GPT-4o也是走的这条路。”o”代表”omni”(全能),输入可以是文字、图片、音频的任意组合,输出也是。
原生融合的技术细节
这里面有几个关键设计:
1. 统一的Token化 不管是文字、图片还是音频,都转化成Token序列。图片被分成小块(patches),每块变成一个token;音频被分成短时间片段,每段变成token。然后所有token混在一起输入Transformer。
2. 跨模态注意力 在注意力机制中,图片token可以”看到”文字token,文字token也可以”看到”图片token。这种深层交互是原生融合的核心优势。
3. 大规模多模态预训练 需要海量的图文对、视频文本对、音频文本对数据来训练。数据规模和多样性要求非常高。
优势
- 跨模态理解最深:图文音视频之间的关系是”自然学会”的
- 统一架构优雅:一个模型搞定一切,不需要拼凑多个组件
- 涌现能力强:可能出现单模态模型没有的能力
劣势
- 训练成本极高:需要从头训练,数据量和算力都是天文数字
- 黑盒更黑:不同模态的信息在内部是怎么交互的,很难分析
- 迭代慢:升级一个模态的能力需要重新训练整个模型
🏭 第四章:路线三——模块化管线(Modular Pipeline)
怎么做的?
这条路线的思路是:不要把所有能力塞进一个模型,让专业的模型干专业的事,然后用管线把它们串起来。
用户输入(图片+文字)
├── 图片 → [OCR模型] → 提取文字
├── 图片 → [目标检测模型] → 识别物体
├── 图片 → [描述生成模型] → 生成图片描述
└── 所有结果汇总 → [语言模型] → 生成最终回答
优势
- 每个模块都可以是最强的:OCR用最好的OCR,检测用最好的检测器
- 灵活可替换:任何模块升级了,直接换上去
- 可解释性好:出了问题能定位到具体哪个模块
- 成本可控:不需要的模块可以不启动
劣势
- 延迟高:每个模块串行处理,时间叠加
- 信息损失:模块之间传递的是中间结果,可能丢失信息
- 缺乏端到端优化:整个管线的效果取决于最弱的那个环节
- 维护复杂:多个模型的版本管理、兼容性是个大问题
📊 第五章:三条路线实战对比
说了这么多理论,来看看实际表现:
| Benchmark | Gemini 2.5 Pro (原生) | GPT-4o (原生) | InternVL 3 (外挂) | 管线方案 |
|---|---|---|---|---|
| MMMU | 74.2 | 72.8 | 68.5 | ~60 |
| MathVista | 71.5 | 69.3 | 65.1 | ~55 |
| OCR准确率 | 96.8% | 95.2% | 93.5% | 98.1% |
| 视频理解 | 82.3 | 78.5 | 有限支持 | 可扩展 |
| 响应延迟 | 中 | 中 | 低 | 高 |
| 训练成本 | 极高 | 极高 | 中 | 低 |
几个有意思的发现:
- 原生融合在综合理解上明显领先——MMMU和MathVista需要同时理解图片和文字并做推理,这正是原生融合的强项
- OCR场景管线方案反而最好——专门的OCR模型在精确度上确实更强
- 视频理解是原生融合的最大优势——外挂式和管线方案在视频理解上都比较吃力
🎬 第六章:视频理解——下一个大战场
说到视频,我要专门展开聊聊,因为这可能是2026-2027年多模态AI最大的战场。
理解视频比理解图片难太多了。一个1分钟的视频,30fps就有1800帧。你不可能把每一帧都当作图片喂给模型——token数会爆炸。
目前的主流方案:
1. 关键帧采样:从视频中抽取少量关键帧来分析。简单但可能错过重要细节。
2. 时间感知编码:把视频分成多个时间片段,每个片段提取特征后带上时间信息。Gemini就用了类似的方法。
3. 视频原生Token化:把视频直接编码成时空token序列,保留运动和时间信息。这是最前沿的方向。
Google在这个领域走得最远。Gemini 2.5 Pro可以处理长达数小时的视频,理解情节发展、角色关系、甚至检测视频中的逻辑错误。不过说实话,现在的视频理解水平离”真正看懂”还有不小差距。
🔮 第七章:未来会怎样
我的判断是:短期内三条路线会共存,但长期看原生融合会成为主流。
为什么?因为人类的认知就是原生多模态的。我们不是先”把看到的翻译成文字”再理解的,而是视觉、听觉、语言在大脑中同时处理、深度交互。
但这并不意味着其他路线会消亡:
- 外挂式在开源社区和资源受限的场景中仍然很有价值
- 管线方案在需要精确控制的工业场景(如医疗影像、自动驾驶)中可能更合适
还有一个趋势值得关注——多模态输出。现在的模型大多只能输出文字(少数能输出图片),但未来的模型可能能同时输出文字、图片、音频、甚至视频。GPT-4o已经展示了一些音频输出能力,这个方向还有很大的想象空间。
👋 结尾
好了,今天关于多模态的三条技术路线就聊到这里。快速回顾:
- 外挂式:给语言模型”配翻译”,简单实用但有天花板
- 原生融合:从训练起就是多模态的,理解最深但成本最高
- 模块化管线:专业模型流水线协作,灵活但延迟高
下一期我们换个话题,聊聊所有程序员都关心的——AI编程能力大比拼。现在的AI写代码到底有多强?谁是程序员的最佳搭档?Claude Code、GPT-6、Cursor到底怎么选?
我是小敏,下期见!
AI深度解析播客 DD05 · 发布日期:2026年4月15日