月烧20亿Token，90%烧错了地方

某大厂高管最近晒了张AI账单，一个月烧掉20亿Token。换算成美元，大概几十万刀。

他在内部分享时用了一个词——”惭愧”。

评论区炸了。有人说”这才是真正的数字化转型”，有人说”有钱任性”。但几乎没人问一个更关键的问题：这20亿Token里，有多少是真正产生了价值的？

你的公司可能正在用Ferrari送快递

先别急着围观别人。低头看看你自己的团队——有没有这种场景：

产品经理让GPT-4帮他总结一份会议纪要。技术leader用Claude写一封内部周报。运营同学拿最新的大模型润色一段已经写好的推送文案。

这些事有什么共同点？都是拿最贵的模型在干最便宜的活。

打个比方。你叫了一辆法拉利来送外卖，外卖送到了，味道也没变好，但你付了法拉利的油钱。这就是大多数企业目前使用AI的真实状态。

没有人觉得这有问题——因为每个人单独看都很合理。”我用AI提效了呀。”“GPT-4写得确实比我好呀。”

是的。但你用一台售价300万的跑车送了一份25块的黄焖鸡。效率是提了，但成本结构是倒挂的。

60%的Token在替你做”不值钱的事”

这不是我瞎说。你去拉一下自己公司的AI调用日志（如果你有的话——很多公司连这个日志都没有，那就更该惭愧了），大概率会看到一个扎心的比例：

超过一半的调用场景是”内部辅助”——总结会议纪要、整理日报周报、回复内部邮件、生成内部文档模板。有些公司这个比例能到60%甚至更高。

这些活需要GPT-4级别的智商吗？不需要。一个Haiku级别的小模型就能搞定，而且搞得一样好。区别在哪？价格差10倍以上。

（打个不恰当但传神的比方：你请了一个博士后来帮你录入Excel表格。他录得很好，一个错都没有。但你付的是博士后的工资。）

真正需要大模型能力的场景是什么？是对外的产品功能——智能客服要处理千奇百怪的用户问题，代码助手要理解复杂的上下文，内容生成要达到发布级别的质量。这些场景，大模型的溢价是值得的。

但内部工具？整理日报？你用最便宜的模型和最贵的模型，产出几乎没有区别。唯一的区别写在你的账单上。

企业AI调用场景分类：60%内部辅助 vs 40%高价值场景，成本结构严重倒挂

这条路，云计算十年前走过一遍

如果你觉得这种浪费很蠢，别太早下结论。因为同样的事情，在云计算时代已经上演过一轮了。

2010年代初，企业刚上云的时候也是这个德性——不管什么服务，统一上最贵的实例。开发环境用m5.xlarge，测试环境也用m5.xlarge，连内部的CI/CD跑个单元测试都开着最贵的机器。

CTO们当时的逻辑和现在一模一样：”云嘛，弹性嘛，先跑起来再说。”

然后AWS账单来了。

痛定思痛之后，行业花了大概三到五年时间学会了一件事：分级。开发环境用spot实例（能省70%），生产环境用reserved实例（能省40%），只有突发流量才用on-demand。

AI支出正在走同一条路。 只是现在大部分公司还停在”先跑起来再说”的阶段。

区别在于，云计算的浪费是按月累积的，你有时间慢慢优化。但AI的Token消耗是指数级增长的——今天团队20个人在用，下个月可能200个人在用。你不提前建立分级策略，账单的增速会比你的营收增速快得多。

怎么砍掉一半Token账单还不影响产出

OK，道理你都懂了。接下来是你周一就能干的事。

先搞清楚钱花哪了——给AI调用分三个桶。

A桶装的是核心产品：智能客服、AI搜索、代码助手。这些直接面向用户，模型越强越好，该花的一分不省。B桶装的是内部杂活：总结会议、写周报、回邮件。够用就行，不需要爱因斯坦级别的智商。C桶装的是实验：研发团队在折腾的各种新玩法。给预算，但设上限。

大多数公司的问题是——三个桶统一用同一个模型、同一个价格。相当于所有人出差统一坐头等舱，哪怕你只是去隔壁城市参加一个内部培训。

然后，B桶降级。 把内部工具类调用统一换成最便宜的模型——Haiku、Flash、Mini，叫什么不重要，重要的是便宜10倍，效果几乎一样。

你可能担心效果变差。实测告诉你：总结会议纪要这种活，小模型和大模型的产出差异在5%以内。你的同事根本看不出来——说实话，你的同事可能根本不看你的会议纪要。（如果有人坚持用GPT-4写内部周报，请先让他解释一下，他的周报到底有什么内容配得上这个价格。）

最后一刀：给max_tokens加个盖子。 这招最容易被忽略，但可能最立竿见影。

大模型有个毛病——你问它一句话，它恨不得给你写一篇毕业论文。你让它总结三个要点，它给你写八个要点外加一段”综合来看”的升华。

每一个多余的Token，都在烧你的钱。

API调用里加一行max_tokens参数就行。内部总结设500上限，邮件回复设300上限。强制模型学会一件事：说人话。

光这一刀，就能砍掉20-30%的Token开支。 大模型最大的浪费不在于它笨，而在于它太能说了——像一个被问”今天天气怎么样”就能讲半小时的同事。你得给它一个闭嘴的机制。

AI支出审计三步法：场景分类→B桶降级→设max_tokens上限

20亿Token不可怕，可怕的是花完说不清去哪了

回到开头那位高管。

一个月20亿Token，换算成本大概几十万美元。这个数字本身不算离谱——对一家几千人的大厂来说，人均每月几十美元的AI工具费用，比人力成本便宜太多了。

但问题是：你能说清楚这些Token去哪了吗？

如果答案是”说不清”，那你的”惭愧”就不是凡尔赛，而是一句大实话。因为说不清去哪了，就意味着你根本不知道自己是在投资还是在浪费。你的AI预算就像一条没有水表的水管——水在哗哗流，但你不知道浇了花还是泡了地板。

AI时代的好管家，不是花钱最少的人，是每一分钱都知道花在哪的人。

该花的钱，大方花。A桶的核心产品，模型越强越好。但B桶的内部杂活，用最便宜的就行。C桶的实验，给预算但设天花板。

20亿Token不可怕。可怕的是你的公司账单上写着”AI转型支出”，而你翻开一看——60%的Token在帮员工写没人看的周报。

那才是真正该惭愧的事。

核心洞察：AI支出的关键不是花多少，而是花对了多少