黄仁勋没收到邀请函，但中国AI开发者早就不等他了

特朗普这次访华，随行名单堪称硅谷全明星队：马斯克、库克、皮查伊，一个不少。但有个名字的缺席，比谁的到场都更耐人寻味——黄仁勋，英伟达CEO，执掌着全球市值最高的公司，没来。

不是他不想来，是他来了也尴尬。

英伟达的高端芯片卖不进中国，黄仁勋坐在谈判桌上能聊什么？聊天气？这个缺席本身就是一个信号：芯片禁令不是新闻头条里的抽象概念，它是每一个中国AI开发者每天都在面对的现实。

你的GPU，从哪来的？

如果你在国内做AI开发，2024年之前和之后是两个世界。

之前，你在云平台上点几下鼠标，A100随便开，V100论小时租，虽然贵，但至少有。之后的画面是：你打开云平台，发现高端卡的队列排到三天后；你想买几张卡自建小集群，二手A100的价格比禁令前涨了40%以上，还不一定能找到靠谱的货源。

这不是段子，这是很多中小团队的日常。

一位做大模型微调的朋友跟我吐槽：以前一张A100租一个月大概3万块，现在同规格算力要4.5万往上走，而且经常抢不到。他的解决方案是把训练任务拆成小batch，用4张A800拼着跑——效率打了七折，但至少能跑起来。

推理端的压力同样不小。做ToB业务的团队发现，推理成本在过去一年涨了约30%。这个数字看起来不大，但对于日调用量上百万次的线上服务来说，每个月多出来的账单足够再招两个工程师。

这里有个反直觉的事实：芯片禁令对大厂的冲击，远没有对中小公司和独立开发者那么大。

原因很简单。大厂早在禁令正式落地前就囤了大量库存。字节、阿里、腾讯、百度——这些公司的采购团队不是吃素的，2023年禁令传言阶段就开始疯狂扫货。据行业估算，头部大厂的A100/H100库存够撑到2026年底甚至更久。加上它们有足够的工程能力做算力调度优化，同样的卡在大厂手里能榨出更多算力。

但中小公司呢？

一家50人的AI创业公司，融了几千万，想训一个垂直领域的模型。禁令前，他们能从云平台按需租用算力，成本可控。禁令后，高端卡供给收紧，云平台优先保障大客户，小公司要么排队，要么加价，要么——放弃自己训模型，转去调用大厂的API。

独立开发者的处境更微妙。以前你可以花几百块租几个小时的A100跑个实验，现在同样的实验成本翻了一倍。如果你是个周末搞AI side project的程序员，这个门槛变化足以让你重新评估”要不要继续玩”这件事。

芯片禁令表面上是大国博弈，实际上是一把筛子——筛掉的不是巨头，是草根。

芯片禁令后的算力账单

面对算力困局，行业正在同时走三条路。每条都有进展，每条也都还差口气。

第一条路：华为昇腾

昇腾910B是目前国产替代的头号种子选手。从纸面参数看，它的算力已经接近A100的水平。华为也在生态上下了大力气，MindSpore框架持续迭代，和主流深度学习框架的兼容性在改善。

但”接近”和”能用”之间，隔着一条叫”软件生态”的护城河。

做过模型迁移的工程师都懂这个痛：你在CUDA上跑得好好的代码，迁移到昇腾平台，光是算子兼容性问题就能折腾你两周。一些复杂的自定义算子根本没有对应实现，需要你自己手写CANN算子——这不是每个团队都有能力做的事。

好消息是，2025年下半年以来，昇腾的软件生态确实在肉眼可见地变好。PyTorch原生适配的覆盖率提升到了约85%，常用模型的迁移成本在下降。但对于追求极致性能的场景，比如千亿参数模型的预训练，目前昇腾和英伟达之间依然有20%-30%的效率差距。

第二条路：云厂商算力调度

既然单卡性能追不上，那就在调度效率上做文章。

阿里云、百度智能云、火山引擎这些平台，过去一年都在做一件事：把异构算力——英伟达的存量卡和国产卡——混合编排，通过智能调度让用户”无感”使用。你提交一个训练任务，平台自动决定用什么卡、怎么分配、如何做数据并行。

这条路的好处是降低了用户侧的迁移成本。你不需要关心底层用的是什么芯片，平台帮你搞定。坏处是，你的训练效率和平台的调度能力强绑定——换句话说，你在给云厂商交”算力税”的同时，也把自己的命运交了出去。

而且，混合调度的通信开销是个真实的问题。不同架构的卡放在一起跑分布式训练，跨节点通信的延迟比同构集群高出15%-25%。对于对延迟敏感的大规模训练任务，这个代价不算小。

第三条路：推理芯片国产替代

相比训练，推理对芯片的要求没那么极端，这反而成了国产芯片最容易切入的赛道。

寒武纪、燧原科技、摩尔线程，这些公司的推理芯片已经在部分场景实现了商用。特别是寒武纪的思元系列，在一些标准推理任务上的性价比已经能打平甚至超过英伟达的T4。

推理芯片国产替代的逻辑也更简单：推理任务相对标准化，算子覆盖率要求没那么高，部署链路也更短。一个做推荐系统的团队告诉我，他们已经把30%的推理流量切到了国产芯片上，成本降了约20%，延迟基本持平。

但要泼一盆冷水：推理场景的”能用”和训练场景的”好用”，是两个量级的挑战。别因为推理端的进展就高估了整体替代的速度。

国产算力替代：三条路线全景

说完大格局，回到你个人能做的事。

第一，学会算力规划，而不是算力囤积。 很多团队的毛病是申请GPU时往大了要，实际利用率只有40%-60%。在算力紧缺的时代，精细化的资源规划比抢更多的卡更实际。学会用Profiler分析你的训练瓶颈到底在哪——是计算、通信还是I/O？对症下药比加卡有效得多。

第二，至少做一次国产芯片的适配实验。 不管你现在用不用得上，花一两周时间把你的核心模型在昇腾或其他国产平台上跑通一遍。这不是为了马上迁移，是为了建立一个plan B。等到你不得不迁的那天再临时抱佛脚，你会发现坑比你想的多得多。

第三，关注推理优化技术。 模型量化、知识蒸馏、推理引擎优化——这些技术在芯片受限的背景下价值倍增。一个4bit量化后的模型，推理成本可以降到原来的1/3，而精度损失在很多业务场景下完全可以接受。掌握这些技能，你就比那些只会堆卡的团队多了一条路。

说到底，黄仁勋缺席访华这件事，与其当作一个地缘政治信号来解读，不如把它当成一面镜子——照出中国AI产业在算力这个底层问题上的真实处境。

处境不轻松，但也没到绝路。

昇腾在补课，云厂商在调度，推理芯片在突破，开发者在优化。这些努力汇在一起，不是要”替代英伟达”，而是要建起一套哪怕英伟达彻底断供也能转起来的体系。

黄仁勋来不来北京，真的没那么要紧。

因为中国的AI开发者，已经习惯了在限制条件下找最优解。这本来就是工程师最擅长的事。