黄仁勋今年砸向AI的钱,快够买下DeepSeek了
黄仁勋今年砸向AI的钱,快够买下DeepSeek了
上周刷到一条新闻,说英伟达2026财年资本开支计划超过500亿美元,主要用于AI基础设施建设。
我把这个数字在脑子里转了一圈,觉得不太真实,于是做了一道小学算术题:DeepSeek背后的幻方量化,上一轮估值大约在几十亿美元。也就是说,黄仁勋一年砸在AI上的钱,理论上能把DeepSeek整个公司买下来,还剩一大笔零钱。
但这不是一个”有钱真好”的故事。因为另一边,DeepSeek用不到600万美元的训练成本,做出了让硅谷集体沉默的开源模型。
同一个赛道,一边年烧百亿美元,一边花了一辆豪车的钱。这笔账背后藏着的,是AI行业正在发生的一场路线分裂。
两个世界:烧钱派 vs 省钱派
先把牌面摊开来看。
烧钱派阵营: 英伟达、OpenAI、微软、Google、Meta。这几家公司在2025-2026年的AI相关资本开支加起来,保守估计超过3000亿美元。微软一家就计划在2026财年投入800亿美元建数据中心。Google和Meta各自也在500-600亿美元量级。这些钱主要花在三个地方——买GPU芯片(大头给了英伟达)、建数据中心、烧电费。
省钱派阵营: DeepSeek、Mistral、零一万物。以DeepSeek为代表,V3模型的训练成本约557万美元,使用2048张H800 GPU训练了约两个月。而同等能力水平的GPT-4,外界估计训练成本在1亿美元以上。差距接近20倍。
这不是简单的穷和富的区别。这是两种完全不同的技术哲学在掰手腕。
烧钱派的逻辑是:AI的能力上限还远远没到,规模就是正义(Scaling Law),只要持续加大投入,就能造出更强的模型,最终赢家通吃。黄仁勋在每一次财报会上的潜台词都是——AI革命才刚刚开始,现在省钱就是省未来。
省钱派的逻辑是:算力不是无限的,也不该是无限的。与其用10倍的钱做出10%的提升,不如用更聪明的算法、更精巧的架构,在有限资源下逼近同样的效果。DeepSeek的MLA(Multi-head Latent Attention)和MoE(混合专家)架构就是这种思路的产物——不是我买不起更多GPU,而是我认为不需要那么多。
烧钱能烧出护城河吗?
直觉上,花的钱越多,壁垒越高。但AI行业最近两年的事实,正在打这个直觉的脸。
事实一:DeepSeek V3的训练成本约557万美元,性能在多个主流基准上追平甚至超过了GPT-4。 这意味着训练成本和模型能力之间的关系,远不是线性的。你花20倍的钱,不一定能得到2倍的效果。
事实二:英伟达的客户正在反思ROI。 2025年以来,多家大型云厂商公开表示,前期在AI基础设施上的巨额投入,短期内看不到对应的收入增长。一些分析师开始用”AI泡沫”来形容这轮投资周期。英伟达的股价在2025年经历了大幅波动,部分原因就是市场开始质疑:下游客户烧了这么多钱,到底赚回来了多少?
事实三:历史上”钱多反而创新慢”的规律一直在重演。 IBM在大型机时代投入最多,但被更灵活的DEC和后来的PC厂商颠覆。诺基亚在功能机时代研发投入全球第一,但被iPhone用一个全新范式淘汰。AT&T的贝尔实验室发明了晶体管,但真正靠半导体发财的是后来的英特尔。
规律很清楚:当一个技术方向已经被验证可行,真正的竞争优势往往不来自”砸更多钱”,而是来自”换一种方式思考”。
这不是在说烧钱一定错。英伟达卖GPU、建生态的模式本身非常成功——它的数据中心业务在2025财年收入超过1150亿美元,毛利率维持在70%以上。但问题在于,英伟达的客户在烧钱,英伟达自己在赚钱。这是两件事。
省钱派的底牌和短板
DeepSeek让全行业重新审视一个问题:训练大模型到底需要多少钱?
答案可能比大多数人以为的少得多。DeepSeek的技术路线有几个关键创新:
MLA架构(Multi-head Latent Attention): 通过对注意力头做低秩投影压缩KV缓存,在推理阶段大幅降低显存占用和计算量。简单说,就是用更少的内存做同样的事。
MoE架构(Mixture of Experts): 不是每次推理都激活所有参数,而是根据输入动态选择最相关的”专家子网络”。DeepSeek V3有671B总参数,但每次推理只激活约37B——相当于一个200人的公司,每个项目只安排20个最合适的人干活,其他人待命。
FP8混合精度训练: 在训练中大量使用8位浮点数代替16位,计算速度翻倍的同时显存占用减半,模型质量几乎不受影响。
这些不是”偷工减料”,而是工程上的精巧设计。它们的共同指向是一个朴素的道理:在算力受限的条件下,逼出来的创新往往比钱堆出来的更有生命力。
但省钱派也有明显的短板。
短板一:人才天花板。 DeepSeek的团队规模据报道在百人左右。这个体量能做出惊艳的单个模型,但很难同时推进多条产品线。OpenAI有几千名工程师和研究员,可以同时做GPT、DALL-E、Sora、Agent平台。人少的时候,你只能押一个方向。
短板二:数据壁垒。 大模型的下一个竞争焦点是高质量私有数据。Google有搜索数据,Meta有社交数据,微软有企业办公数据。DeepSeek能拿到什么?高质量中文语料和开源数据。在通用场景下这够用,但在垂直行业应用中可能成为瓶颈。
短板三:商业化路径不清晰。 DeepSeek目前主要以开源方式输出影响力,API定价极低。这对开发者友好,但公司本身怎么持续赚钱?背后的幻方量化靠量化交易盈利来反哺AI研究,这个模式能支撑多久是个问号。
终局推演:谁会赢?
先说结论:这不是一场零和游戏。两条路线大概率会长期并存,但各自的适用场景完全不同。
烧钱路线的终局: 收敛为2-3家超级玩家(大概率是微软+OpenAI、Google、Meta),服务于对性能要求极高、对成本不敏感的场景——大型企业的核心AI系统、政府和军事项目、前沿科研。就像今天的芯片制造,全球能做最先进制程的只有台积电、三星、英特尔三家。高投入形成的壁垒在顶端市场确实有效。
效率路线的终局: 成为中小企业和开发者的默认选择。当GPT-5的API调用价格是DeepSeek的10倍、但效果只好20%的时候,80%的应用场景会选后者。就像今天大多数App跑在性价比最高的云服务器上,而不是最顶级的那种。
第三条路线——开源+生态——可能才是最大的变量。 Meta的LLaMA系列证明了一件事:开源不是做慈善,而是一种高明的战略。当你的模型成为行业标准,整个生态都在帮你测试、优化、做应用,你的研发效率反而比闭源更高。DeepSeek的开源策略本质上也是这个逻辑。
对普通从业者来说,这三条路线意味着三种完全不同的职业押注。
三个决策框架:从产业叙事到个人选择
说回跟我们自己有关的事。无论你是在选公司、选工具还是选技术方向,这场军备竞赛都会直接影响你的决策。
框架一:选公司,看它是在”投资”还是在”烧钱”。
两者的区别是什么?投资有明确的ROI预期和退出策略,烧钱是”先做了再说”。如果一家公司告诉你”我们要做AI转型”,但既说不清楚AI具体用在哪个业务环节,也没有计算过投入产出比,那它大概率是在烧钱。
反过来,如果一家公司用DeepSeek这类高性价比模型解决了一个具体的业务问题(比如客服自动化降低了30%的人力成本),并且能量化这个收益——这才是真正的AI投资。
框架二:选工具,看性价比而非品牌。
2025年我见过太多团队,一上来就接入GPT-4的API,理由是”反正公司出钱,用最好的”。后来一算账,每月API费用几万块,但实际业务场景用DeepSeek或者Qwen的效果差别不大,成本只有十分之一。
一个实用的判断方法:先用最便宜的模型跑你的实际场景,如果效果够用就不要升级。只有当便宜模型明确不能满足需求时,才考虑用更贵的。这不是抠门,这是工程思维。
框架三:技术栈押注,跟”降本”站在一起。
AI行业有一个不可逆的趋势:同等能力的模型,成本一定会越来越低。这意味着,你的职业竞争力应该建立在”如何用更少的资源做更多的事”上,而不是”如何使用最贵的工具”上。
具体来说:学会fine-tuning和RAG,它们能让小模型在特定场景下达到大模型的效果。学会模型量化和边缘部署,这是把AI塞进手机和IoT设备的关键技能。关注MoE、知识蒸馏、推测解码这些效率优化技术——它们代表着AI工程的下一个主战场。
历史站在”会花钱”的那一边
回到开头那道算术题。
黄仁勋一年砸500亿美元,DeepSeek花了不到600万。两个数字差了快一万倍。但如果你因此得出”烧钱的傻、省钱的聪明”这个结论,那就太简单了。
英伟达不傻。它卖的是整个AI时代的”铲子”——GPU芯片和配套的CUDA生态。淘金的人可能亏钱,卖铲子的稳赚不赔。英伟达的商业模式是军备竞赛本身的受益者,无论哪条路线赢了,都需要算力基础设施。
DeepSeek也不是因为穷才省钱。在美国芯片出口管制的大背景下,中国AI企业拿不到最先进的H100/H200芯片,只能用受限制的H800甚至更低规格的硬件。这种”被动的资源约束”反而激发了架构层面的创新——就像日本在石油危机后搞出了全球最省油的汽车,不是因为日本人天生爱省油,而是因为油太贵了不得不省。
历史上每一次技术军备竞赛,最后赢的都不是花钱最多的那个——而是最会花钱的那个。
冷战时期,苏联在军费上一度和美国不相上下,但最终拖垮自己经济的恰恰是无节制的军备投入。浏览器大战中,微软砸钱把IE市场份额推到95%,但最后赢的是免费的Chrome。流媒体大战中,Netflix在内容上烧了上百亿美元,但Disney+用更少的钱、更精准的IP策略,在增长速度上一度反超。
对于AI行业来说,这一轮军备竞赛还远没有结束。但有一件事已经越来越清楚了——
在这个行业里,决定你值多少钱的,不是你烧了多少钱,而是你每一块钱能产出多少智能。
不管你在烧钱派还是省钱派的公司,记住这条底层逻辑,它会帮你在未来三年做出更清醒的选择。