黄仁勋没收到邀请函,但中国AI开发者早就不等他了
黄仁勋没收到邀请函,但中国AI开发者早就不等他了
特朗普这次访华,随行名单堪称硅谷全明星队:马斯克、库克、皮查伊,一个不少。但有个名字的缺席,比谁的到场都更耐人寻味——黄仁勋,英伟达CEO,执掌着全球市值最高的公司,没来。
不是他不想来,是他来了也尴尬。
英伟达的高端芯片卖不进中国,黄仁勋坐在谈判桌上能聊什么?聊天气?这个缺席本身就是一个信号:芯片禁令不是新闻头条里的抽象概念,它是每一个中国AI开发者每天都在面对的现实。
你的GPU,从哪来的?
如果你在国内做AI开发,2024年之前和之后是两个世界。
之前,你在云平台上点几下鼠标,A100随便开,V100论小时租,虽然贵,但至少有。之后的画面是:你打开云平台,发现高端卡的队列排到三天后;你想买几张卡自建小集群,二手A100的价格比禁令前涨了40%以上,还不一定能找到靠谱的货源。
这不是段子,这是很多中小团队的日常。
一位做大模型微调的朋友跟我吐槽:以前一张A100租一个月大概3万块,现在同规格算力要4.5万往上走,而且经常抢不到。他的解决方案是把训练任务拆成小batch,用4张A800拼着跑——效率打了七折,但至少能跑起来。
推理端的压力同样不小。做ToB业务的团队发现,推理成本在过去一年涨了约30%。这个数字看起来不大,但对于日调用量上百万次的线上服务来说,每个月多出来的账单足够再招两个工程师。
最疼的不是大厂
这里有个反直觉的事实:芯片禁令对大厂的冲击,远没有对中小公司和独立开发者那么大。
原因很简单。大厂早在禁令正式落地前就囤了大量库存。字节、阿里、腾讯、百度——这些公司的采购团队不是吃素的,2023年禁令传言阶段就开始疯狂扫货。据行业估算,头部大厂的A100/H100库存够撑到2026年底甚至更久。加上它们有足够的工程能力做算力调度优化,同样的卡在大厂手里能榨出更多算力。
但中小公司呢?
一家50人的AI创业公司,融了几千万,想训一个垂直领域的模型。禁令前,他们能从云平台按需租用算力,成本可控。禁令后,高端卡供给收紧,云平台优先保障大客户,小公司要么排队,要么加价,要么——放弃自己训模型,转去调用大厂的API。
独立开发者的处境更微妙。以前你可以花几百块租几个小时的A100跑个实验,现在同样的实验成本翻了一倍。如果你是个周末搞AI side project的程序员,这个门槛变化足以让你重新评估”要不要继续玩”这件事。
芯片禁令表面上是大国博弈,实际上是一把筛子——筛掉的不是巨头,是草根。

三条路,各有各的坎
面对算力困局,行业正在同时走三条路。每条都有进展,每条也都还差口气。
第一条路:华为昇腾
昇腾910B是目前国产替代的头号种子选手。从纸面参数看,它的算力已经接近A100的水平。华为也在生态上下了大力气,MindSpore框架持续迭代,和主流深度学习框架的兼容性在改善。
但”接近”和”能用”之间,隔着一条叫”软件生态”的护城河。
做过模型迁移的工程师都懂这个痛:你在CUDA上跑得好好的代码,迁移到昇腾平台,光是算子兼容性问题就能折腾你两周。一些复杂的自定义算子根本没有对应实现,需要你自己手写CANN算子——这不是每个团队都有能力做的事。
好消息是,2025年下半年以来,昇腾的软件生态确实在肉眼可见地变好。PyTorch原生适配的覆盖率提升到了约85%,常用模型的迁移成本在下降。但对于追求极致性能的场景,比如千亿参数模型的预训练,目前昇腾和英伟达之间依然有20%-30%的效率差距。
第二条路:云厂商算力调度
既然单卡性能追不上,那就在调度效率上做文章。
阿里云、百度智能云、火山引擎这些平台,过去一年都在做一件事:把异构算力——英伟达的存量卡和国产卡——混合编排,通过智能调度让用户”无感”使用。你提交一个训练任务,平台自动决定用什么卡、怎么分配、如何做数据并行。
这条路的好处是降低了用户侧的迁移成本。你不需要关心底层用的是什么芯片,平台帮你搞定。坏处是,你的训练效率和平台的调度能力强绑定——换句话说,你在给云厂商交”算力税”的同时,也把自己的命运交了出去。
而且,混合调度的通信开销是个真实的问题。不同架构的卡放在一起跑分布式训练,跨节点通信的延迟比同构集群高出15%-25%。对于对延迟敏感的大规模训练任务,这个代价不算小。
第三条路:推理芯片国产替代
相比训练,推理对芯片的要求没那么极端,这反而成了国产芯片最容易切入的赛道。
寒武纪、燧原科技、摩尔线程,这些公司的推理芯片已经在部分场景实现了商用。特别是寒武纪的思元系列,在一些标准推理任务上的性价比已经能打平甚至超过英伟达的T4。
推理芯片国产替代的逻辑也更简单:推理任务相对标准化,算子覆盖率要求没那么高,部署链路也更短。一个做推荐系统的团队告诉我,他们已经把30%的推理流量切到了国产芯片上,成本降了约20%,延迟基本持平。
但要泼一盆冷水:推理场景的”能用”和训练场景的”好用”,是两个量级的挑战。别因为推理端的进展就高估了整体替代的速度。

作为AI从业者,你现在该做三件事
说完大格局,回到你个人能做的事。
第一,学会算力规划,而不是算力囤积。 很多团队的毛病是申请GPU时往大了要,实际利用率只有40%-60%。在算力紧缺的时代,精细化的资源规划比抢更多的卡更实际。学会用Profiler分析你的训练瓶颈到底在哪——是计算、通信还是I/O?对症下药比加卡有效得多。
第二,至少做一次国产芯片的适配实验。 不管你现在用不用得上,花一两周时间把你的核心模型在昇腾或其他国产平台上跑通一遍。这不是为了马上迁移,是为了建立一个plan B。等到你不得不迁的那天再临时抱佛脚,你会发现坑比你想的多得多。
第三,关注推理优化技术。 模型量化、知识蒸馏、推理引擎优化——这些技术在芯片受限的背景下价值倍增。一个4bit量化后的模型,推理成本可以降到原来的1/3,而精度损失在很多业务场景下完全可以接受。掌握这些技能,你就比那些只会堆卡的团队多了一条路。
黄仁勋来不来,跟你有什么关系?
说到底,黄仁勋缺席访华这件事,与其当作一个地缘政治信号来解读,不如把它当成一面镜子——照出中国AI产业在算力这个底层问题上的真实处境。
处境不轻松,但也没到绝路。
昇腾在补课,云厂商在调度,推理芯片在突破,开发者在优化。这些努力汇在一起,不是要”替代英伟达”,而是要建起一套哪怕英伟达彻底断供也能转起来的体系。
黄仁勋来不来北京,真的没那么要紧。
因为中国的AI开发者,已经习惯了在限制条件下找最优解。这本来就是工程师最擅长的事。