🔬 AI深度解析 DD12 — DeepSeek现象:一家低调公司如何搅动全球格局

预计时长:约25分钟


🎤 开场

大家好,我是小敏,欢迎回到AI深度解析。

今天要聊的是2025年最炸裂的AI故事——DeepSeek。

2025年1月下旬,一家叫DeepSeek的中国公司发布了一个模型叫R1。然后,美股的AI板块就崩了。英伟达一天蒸发了将近6000亿美元市值——史上单日最大市值蒸发

为什么一个中国公司发布一个AI模型,能让华尔街如此恐慌?

因为DeepSeek R1的性能接近OpenAI的o1,但训练成本据报道只有550万美元。而OpenAI的同级别模型训练成本可能在上亿美元的量级。

这就好比说:特斯拉卖了十年的电动车,突然一家不知名的公司用十分之一的成本造出了一辆性能差不多的车。你说投资人慌不慌?

今天我们来深扒DeepSeek的故事。


📖 第一章:幻方量化——一切的起点

DeepSeek的故事要从一家叫幻方量化(High-Flyer)的公司说起。

幻方量化是中国头部的量化对冲基金,管理规模一度超过千亿人民币。创始人叫梁文锋,一个非常低调的技术型创始人——你在网上几乎找不到他的采访和公开言论。

量化基金为什么要搞AI?因为量化交易本身就是一种”用算法分析数据做决策”的活动。幻方早在2019年就开始囤积GPU,到2023年据说拥有超过10,000张A100显卡。

2023年5月,梁文锋成立了DeepSeek,把幻方的AI团队独立出来。但注意——DeepSeek的定位从一开始就不是”为金融服务”,而是”做通用AGI研究”

这是一个很罕见的设定:一个赚了很多钱的量化基金老板,用自己的利润来资助一个纯研究性质的AI实验室。不追求短期商业回报,不需要外部融资。

某种程度上,这让DeepSeek获得了一种类似”学术实验室”的自由度。它不需要讨好投资人,不需要急着推产品,可以专注做”对的事情”。


🧠 第二章:效率至上——DeepSeek的技术哲学

DeepSeek最核心的技术哲学可以用两个字概括:效率

在美国的AI公司还在拼命堆GPU、追求更大规模的时候,DeepSeek走了一条完全不同的路——用更少的资源做到同样或更好的效果

这背后有一个客观原因:美国对中国的芯片出口管制。DeepSeek拿不到最先进的H100/H200 GPU,只能用相对较弱的A100(甚至可能是H800这样的”阉割版”)。

但限制反而激发了创新。DeepSeek的技术创新主要包括:

1. MoE(Mixture of Experts,混合专家)架构

传统的大模型是”所有参数对所有输入都参与计算”。MoE的思路是把模型分成多个”专家”,每次只激活其中一部分。

特征 传统Dense模型 MoE模型
参数利用 100%参数参与每次计算 仅激活部分专家
计算效率 低(算力需求高) 高(同等效果少用算力)
模型规模 受限于计算预算 总参数可以很大
训练难度 相对简单 需要精巧的路由设计

DeepSeek V2使用的MoE架构号称把推理成本降低了90%以上。这是一个非常夸张的数字。

2. Multi-Head Latent Attention(MLA)

DeepSeek在注意力机制上也做了创新,通过潜在空间的压缩来降低KV缓存的内存需求。

3. FP8混合精度训练

DeepSeek V3率先大规模使用了FP8精度训练,大幅降低了训练的计算和内存需求。

用一句话总结:DeepSeek证明了”暴力堆算力”不是唯一的路径。聪明的架构设计和工程优化可以弥补甚至超越硬件的差距。


📊 第三章:里程碑——从V2到R1

让我们看看DeepSeek的关键产品:

模型 时间 关键特点 影响
DeepSeek V2 2024年5月 MoE架构,236B参数仅激活21B API定价震撼行业(”每百万token一块钱”)
DeepSeek Coder V2 2024年6月 代码能力出色 开源社区热捧
DeepSeek V3 2024年12月 671B参数MoE,仅用2048张H800训练 性能接近GPT-4o
DeepSeek R1 2025年1月 推理模型,使用强化学习训练 引发全球AI股市震动

R1的发布是真正的”原子弹时刻”。

首先是性能:R1在数学、编程、推理等任务上的表现接近OpenAI o1,在某些任务上甚至更好。

然后是成本:DeepSeek声称R1的训练成本大约550万美元。即使这个数字可能没有包括所有的前期研究成本,但跟美国公司动辄上亿美元的训练预算相比,这个差距是震撼的。

最后是开源:R1是完全开源的。 任何人都可以下载、使用、修改。

这三者的结合——高性能、低成本、完全开源——直接动摇了华尔街对”AI需要无限砸钱”这个叙事的信心。如果一家中国公司用几百万美元就能做到美国公司几亿美元的效果,那那些几百亿的投资还值吗?


🌍 第四章:全球震荡

DeepSeek R1发布后的连锁反应:

华尔街:英伟达一天跌了17%,蒸发约5930亿美元。Broadcom、ASML等芯片相关股票也大幅下跌。投资者开始质疑”AI需要无限算力”的假设。

硅谷:OpenAI的Sam Altman罕见地公开称赞DeepSeek,说”R1是一个令人印象深刻的模型”。但背后的心情恐怕是复杂的。

美国政府:围绕芯片出口管制的辩论更加激烈。一派认为管制逼出了中国的创新,适得其反;另一派认为必须加强管制,否则差距会更小。

AI行业定价:DeepSeek的API定价极低(V3的定价大约是GPT-4o的1/25),直接带动了全行业的降价潮。

中国AI行业:DeepSeek的成功给了其他中国AI公司巨大的信心——原来不需要最先进的芯片也能做出世界级的模型。


🔓 第五章:开源策略——为什么免费给?

DeepSeek的开源策略值得单独讨论。

按理说,花了大量资源训练出来的模型是核心竞争力,为什么要免费给全世界用?

我觉得有几个层面的考虑:

1. 学术机构的基因

DeepSeek的文化更像一个研究机构而不是商业公司。在学术界,发论文、开源代码是获取声誉和影响力的标准方式。

2. 不依赖模型本身赚钱

DeepSeek背后是幻方量化,有稳定的利润来源。它不需要通过卖API来赚钱,所以开源不会损害其商业模式。

3. 吸引人才

在AI领域,最好的人才往往会被最好的开源项目所吸引。DeepSeek的开源成果帮助它吸引了顶级研究人员加入。

4. 生态影响力

当全世界的开发者都在用你的模型时,你实际上定义了行业的技术方向。这种影响力长期来看可能比短期收入更有价值。

5. 地缘政治考量

一个中国公司开源一个世界级的AI模型,本身就是在全球AI话语权上的一次”软实力投射”。它证明了中国AI的实力,也让中国技术在全球范围内获得了更多的用户和盟友。


🔮 第六章:V4和未来

截至2025年中,关于DeepSeek V4的传闻已经很多了。

外界预期V4可能会:

  • 在多模态能力上有重大突破(此前DeepSeek主要聚焦文本)
  • 进一步提升推理能力
  • 可能探索Agent方向
  • 继续保持开源

但DeepSeek也面临着一些不确定性:

1. 芯片管制的升级

美国不断收紧对中国的芯片出口管制。如果DeepSeek连H800都拿不到了,效率创新还能弥补硬件差距吗?

2. 人才竞争

DeepSeek的核心团队目前约500人左右,规模很小。随着它越来越受关注,人才争夺会更激烈。

3. 商业化的不确定性

DeepSeek目前几乎没有商业化压力,但如果幻方量化的业绩出问题,这个”无限供血”的模式还能持续吗?

4. 政策风险

无论是中国的AI监管政策,还是国际地缘政治的变化,都可能对DeepSeek产生影响。


🤔 第七章:DeepSeek对行业意味着什么

我觉得DeepSeek对整个AI行业的最大贡献不是某个具体的模型,而是它证明了一种不同的路径

在DeepSeek之前,AI行业的主流叙事是:

“要做好AI,你需要最先进的芯片、巨额资金、海量数据。”

DeepSeek的故事告诉我们:

“如果你足够聪明,用更少的资源也能做出同样好的结果。”

这不仅仅是技术上的启示,更是商业上的。如果训练一个顶级模型的成本从数亿美元降到数百万美元,那AI的竞争格局会彻底改变。更多的玩家能进入这个游戏,AI的普惠化会加速。

这也是为什么华尔街会恐慌——如果”AI基础设施需要天量投资”这个故事不成立了,那英伟达的估值逻辑也需要重写。


👋 结尾

好了,今天关于DeepSeek的故事就讲到这里。

回顾一下,DeepSeek的故事可能是2025年AI领域最有启发性的。一家从量化基金脱胎而来的公司,在资源受限的情况下,用极致的技术创新打破了”暴力堆钱”的范式。

梁文锋和他的团队用行动证明了:在AI这个领域,智慧永远比金钱更重要。

下一期我们来看中国的另一个AI巨头——字节跳动。它拥有中国最多的AI产品用户,但它的AI战略到底是什么?

我是小敏,我们下期见。


AI深度解析播客 DD12 · 发布日期:2026年4月15日