黄仁勋今年砸向AI的钱，快够买下DeepSeek了

上周刷到一条新闻，说英伟达2026财年资本开支计划超过500亿美元，主要用于AI基础设施建设。

我把这个数字在脑子里转了一圈，觉得不太真实，于是做了一道小学算术题：DeepSeek背后的幻方量化，上一轮估值大约在几十亿美元。也就是说，黄仁勋一年砸在AI上的钱，理论上能把DeepSeek整个公司买下来，还剩一大笔零钱。

但这不是一个”有钱真好”的故事。因为另一边，DeepSeek用不到600万美元的训练成本，做出了让硅谷集体沉默的开源模型。

同一个赛道，一边年烧百亿美元，一边花了一辆豪车的钱。这笔账背后藏着的，是AI行业正在发生的一场路线分裂。

两个世界：烧钱派 vs 省钱派

先把牌面摊开来看。

烧钱派阵营： 英伟达、OpenAI、微软、Google、Meta。这几家公司在2025-2026年的AI相关资本开支加起来，保守估计超过3000亿美元。微软一家就计划在2026财年投入800亿美元建数据中心。Google和Meta各自也在500-600亿美元量级。这些钱主要花在三个地方——买GPU芯片（大头给了英伟达）、建数据中心、烧电费。

省钱派阵营： DeepSeek、Mistral、零一万物。以DeepSeek为代表，V3模型的训练成本约557万美元，使用2048张H800 GPU训练了约两个月。而同等能力水平的GPT-4，外界估计训练成本在1亿美元以上。差距接近20倍。

这不是简单的穷和富的区别。这是两种完全不同的技术哲学在掰手腕。

烧钱派的逻辑是：AI的能力上限还远远没到，规模就是正义（Scaling Law），只要持续加大投入，就能造出更强的模型，最终赢家通吃。黄仁勋在每一次财报会上的潜台词都是——AI革命才刚刚开始，现在省钱就是省未来。

省钱派的逻辑是：算力不是无限的，也不该是无限的。与其用10倍的钱做出10%的提升，不如用更聪明的算法、更精巧的架构，在有限资源下逼近同样的效果。DeepSeek的MLA（Multi-head Latent Attention）和MoE（混合专家）架构就是这种思路的产物——不是我买不起更多GPU，而是我认为不需要那么多。

烧钱能烧出护城河吗？

直觉上，花的钱越多，壁垒越高。但AI行业最近两年的事实，正在打这个直觉的脸。

事实一：DeepSeek V3的训练成本约557万美元，性能在多个主流基准上追平甚至超过了GPT-4。 这意味着训练成本和模型能力之间的关系，远不是线性的。你花20倍的钱，不一定能得到2倍的效果。

事实二：英伟达的客户正在反思ROI。 2025年以来，多家大型云厂商公开表示，前期在AI基础设施上的巨额投入，短期内看不到对应的收入增长。一些分析师开始用”AI泡沫”来形容这轮投资周期。英伟达的股价在2025年经历了大幅波动，部分原因就是市场开始质疑：下游客户烧了这么多钱，到底赚回来了多少？

事实三：历史上”钱多反而创新慢”的规律一直在重演。 IBM在大型机时代投入最多，但被更灵活的DEC和后来的PC厂商颠覆。诺基亚在功能机时代研发投入全球第一，但被iPhone用一个全新范式淘汰。AT&T的贝尔实验室发明了晶体管，但真正靠半导体发财的是后来的英特尔。

规律很清楚：当一个技术方向已经被验证可行，真正的竞争优势往往不来自”砸更多钱”，而是来自”换一种方式思考”。

这不是在说烧钱一定错。英伟达卖GPU、建生态的模式本身非常成功——它的数据中心业务在2025财年收入超过1150亿美元，毛利率维持在70%以上。但问题在于，英伟达的客户在烧钱，英伟达自己在赚钱。这是两件事。

省钱派的底牌和短板

DeepSeek让全行业重新审视一个问题：训练大模型到底需要多少钱？

答案可能比大多数人以为的少得多。DeepSeek的技术路线有几个关键创新：

MLA架构（Multi-head Latent Attention）： 通过对注意力头做低秩投影压缩KV缓存，在推理阶段大幅降低显存占用和计算量。简单说，就是用更少的内存做同样的事。

MoE架构（Mixture of Experts）： 不是每次推理都激活所有参数，而是根据输入动态选择最相关的”专家子网络”。DeepSeek V3有671B总参数，但每次推理只激活约37B——相当于一个200人的公司，每个项目只安排20个最合适的人干活，其他人待命。

FP8混合精度训练： 在训练中大量使用8位浮点数代替16位，计算速度翻倍的同时显存占用减半，模型质量几乎不受影响。

这些不是”偷工减料”，而是工程上的精巧设计。它们的共同指向是一个朴素的道理：在算力受限的条件下，逼出来的创新往往比钱堆出来的更有生命力。

但省钱派也有明显的短板。

短板一：人才天花板。 DeepSeek的团队规模据报道在百人左右。这个体量能做出惊艳的单个模型，但很难同时推进多条产品线。OpenAI有几千名工程师和研究员，可以同时做GPT、DALL-E、Sora、Agent平台。人少的时候，你只能押一个方向。

短板二：数据壁垒。 大模型的下一个竞争焦点是高质量私有数据。Google有搜索数据，Meta有社交数据，微软有企业办公数据。DeepSeek能拿到什么？高质量中文语料和开源数据。在通用场景下这够用，但在垂直行业应用中可能成为瓶颈。

短板三：商业化路径不清晰。 DeepSeek目前主要以开源方式输出影响力，API定价极低。这对开发者友好，但公司本身怎么持续赚钱？背后的幻方量化靠量化交易盈利来反哺AI研究，这个模式能支撑多久是个问号。

终局推演：谁会赢？

先说结论：这不是一场零和游戏。两条路线大概率会长期并存，但各自的适用场景完全不同。

烧钱路线的终局： 收敛为2-3家超级玩家（大概率是微软+OpenAI、Google、Meta），服务于对性能要求极高、对成本不敏感的场景——大型企业的核心AI系统、政府和军事项目、前沿科研。就像今天的芯片制造，全球能做最先进制程的只有台积电、三星、英特尔三家。高投入形成的壁垒在顶端市场确实有效。

效率路线的终局： 成为中小企业和开发者的默认选择。当GPT-5的API调用价格是DeepSeek的10倍、但效果只好20%的时候，80%的应用场景会选后者。就像今天大多数App跑在性价比最高的云服务器上，而不是最顶级的那种。

第三条路线——开源+生态——可能才是最大的变量。 Meta的LLaMA系列证明了一件事：开源不是做慈善，而是一种高明的战略。当你的模型成为行业标准，整个生态都在帮你测试、优化、做应用，你的研发效率反而比闭源更高。DeepSeek的开源策略本质上也是这个逻辑。

对普通从业者来说，这三条路线意味着三种完全不同的职业押注。

三个决策框架：从产业叙事到个人选择

说回跟我们自己有关的事。无论你是在选公司、选工具还是选技术方向，这场军备竞赛都会直接影响你的决策。

框架一：选公司，看它是在”投资”还是在”烧钱”。

两者的区别是什么？投资有明确的ROI预期和退出策略，烧钱是”先做了再说”。如果一家公司告诉你”我们要做AI转型”，但既说不清楚AI具体用在哪个业务环节，也没有计算过投入产出比，那它大概率是在烧钱。

反过来，如果一家公司用DeepSeek这类高性价比模型解决了一个具体的业务问题（比如客服自动化降低了30%的人力成本），并且能量化这个收益——这才是真正的AI投资。

框架二：选工具，看性价比而非品牌。

2025年我见过太多团队，一上来就接入GPT-4的API，理由是”反正公司出钱，用最好的”。后来一算账，每月API费用几万块，但实际业务场景用DeepSeek或者Qwen的效果差别不大，成本只有十分之一。

一个实用的判断方法：先用最便宜的模型跑你的实际场景，如果效果够用就不要升级。只有当便宜模型明确不能满足需求时，才考虑用更贵的。这不是抠门，这是工程思维。

框架三：技术栈押注，跟”降本”站在一起。

AI行业有一个不可逆的趋势：同等能力的模型，成本一定会越来越低。这意味着，你的职业竞争力应该建立在”如何用更少的资源做更多的事”上，而不是”如何使用最贵的工具”上。

具体来说：学会fine-tuning和RAG，它们能让小模型在特定场景下达到大模型的效果。学会模型量化和边缘部署，这是把AI塞进手机和IoT设备的关键技能。关注MoE、知识蒸馏、推测解码这些效率优化技术——它们代表着AI工程的下一个主战场。

历史站在”会花钱”的那一边

回到开头那道算术题。

黄仁勋一年砸500亿美元，DeepSeek花了不到600万。两个数字差了快一万倍。但如果你因此得出”烧钱的傻、省钱的聪明”这个结论，那就太简单了。

英伟达不傻。它卖的是整个AI时代的”铲子”——GPU芯片和配套的CUDA生态。淘金的人可能亏钱，卖铲子的稳赚不赔。英伟达的商业模式是军备竞赛本身的受益者，无论哪条路线赢了，都需要算力基础设施。

DeepSeek也不是因为穷才省钱。在美国芯片出口管制的大背景下，中国AI企业拿不到最先进的H100/H200芯片，只能用受限制的H800甚至更低规格的硬件。这种”被动的资源约束”反而激发了架构层面的创新——就像日本在石油危机后搞出了全球最省油的汽车，不是因为日本人天生爱省油，而是因为油太贵了不得不省。

历史上每一次技术军备竞赛，最后赢的都不是花钱最多的那个——而是最会花钱的那个。

冷战时期，苏联在军费上一度和美国不相上下，但最终拖垮自己经济的恰恰是无节制的军备投入。浏览器大战中，微软砸钱把IE市场份额推到95%，但最后赢的是免费的Chrome。流媒体大战中，Netflix在内容上烧了上百亿美元，但Disney+用更少的钱、更精准的IP策略，在增长速度上一度反超。

对于AI行业来说，这一轮军备竞赛还远没有结束。但有一件事已经越来越清楚了——

在这个行业里，决定你值多少钱的，不是你烧了多少钱，而是你每一块钱能产出多少智能。

不管你在烧钱派还是省钱派的公司，记住这条底层逻辑，它会帮你在未来三年做出更清醒的选择。