某大厂高管最近晒了张AI账单,一个月烧掉20亿Token。换算成美元,大概几十万刀。

他在内部分享时用了一个词——”惭愧”。

评论区炸了。有人说”这才是真正的数字化转型”,有人说”有钱任性”。但几乎没人问一个更关键的问题:这20亿Token里,有多少是真正产生了价值的?

你的公司可能正在用Ferrari送快递

先别急着围观别人。低头看看你自己的团队——有没有这种场景:

产品经理让GPT-4帮他总结一份会议纪要。技术leader用Claude写一封内部周报。运营同学拿最新的大模型润色一段已经写好的推送文案。

这些事有什么共同点?都是拿最贵的模型在干最便宜的活。

打个比方。你叫了一辆法拉利来送外卖,外卖送到了,味道也没变好,但你付了法拉利的油钱。这就是大多数企业目前使用AI的真实状态。

没有人觉得这有问题——因为每个人单独看都很合理。”我用AI提效了呀。”“GPT-4写得确实比我好呀。”

是的。但你用一台售价300万的跑车送了一份25块的黄焖鸡。效率是提了,但成本结构是倒挂的。

60%的Token在替你做”不值钱的事”

这不是我瞎说。你去拉一下自己公司的AI调用日志(如果你有的话——很多公司连这个日志都没有,那就更该惭愧了),大概率会看到一个扎心的比例:

超过一半的调用场景是”内部辅助”——总结会议纪要、整理日报周报、回复内部邮件、生成内部文档模板。有些公司这个比例能到60%甚至更高。

这些活需要GPT-4级别的智商吗?不需要。一个Haiku级别的小模型就能搞定,而且搞得一样好。区别在哪?价格差10倍以上。

(打个不恰当但传神的比方:你请了一个博士后来帮你录入Excel表格。他录得很好,一个错都没有。但你付的是博士后的工资。)

真正需要大模型能力的场景是什么?是对外的产品功能——智能客服要处理千奇百怪的用户问题,代码助手要理解复杂的上下文,内容生成要达到发布级别的质量。这些场景,大模型的溢价是值得的。

但内部工具?整理日报?你用最便宜的模型和最贵的模型,产出几乎没有区别。唯一的区别写在你的账单上。

企业AI调用场景分类:60%内部辅助 vs 40%高价值场景,成本结构严重倒挂

这条路,云计算十年前走过一遍

如果你觉得这种浪费很蠢,别太早下结论。因为同样的事情,在云计算时代已经上演过一轮了。

2010年代初,企业刚上云的时候也是这个德性——不管什么服务,统一上最贵的实例。开发环境用m5.xlarge,测试环境也用m5.xlarge,连内部的CI/CD跑个单元测试都开着最贵的机器。

CTO们当时的逻辑和现在一模一样:”云嘛,弹性嘛,先跑起来再说。”

然后AWS账单来了。

痛定思痛之后,行业花了大概三到五年时间学会了一件事:分级。开发环境用spot实例(能省70%),生产环境用reserved实例(能省40%),只有突发流量才用on-demand。

AI支出正在走同一条路。 只是现在大部分公司还停在”先跑起来再说”的阶段。

区别在于,云计算的浪费是按月累积的,你有时间慢慢优化。但AI的Token消耗是指数级增长的——今天团队20个人在用,下个月可能200个人在用。你不提前建立分级策略,账单的增速会比你的营收增速快得多。

怎么砍掉一半Token账单还不影响产出

OK,道理你都懂了。接下来是你周一就能干的事。

先搞清楚钱花哪了——给AI调用分三个桶。

A桶装的是核心产品:智能客服、AI搜索、代码助手。这些直接面向用户,模型越强越好,该花的一分不省。B桶装的是内部杂活:总结会议、写周报、回邮件。够用就行,不需要爱因斯坦级别的智商。C桶装的是实验:研发团队在折腾的各种新玩法。给预算,但设上限。

大多数公司的问题是——三个桶统一用同一个模型、同一个价格。相当于所有人出差统一坐头等舱,哪怕你只是去隔壁城市参加一个内部培训。

然后,B桶降级。 把内部工具类调用统一换成最便宜的模型——Haiku、Flash、Mini,叫什么不重要,重要的是便宜10倍,效果几乎一样。

你可能担心效果变差。实测告诉你:总结会议纪要这种活,小模型和大模型的产出差异在5%以内。你的同事根本看不出来——说实话,你的同事可能根本不看你的会议纪要。(如果有人坚持用GPT-4写内部周报,请先让他解释一下,他的周报到底有什么内容配得上这个价格。)

最后一刀:给max_tokens加个盖子。 这招最容易被忽略,但可能最立竿见影。

大模型有个毛病——你问它一句话,它恨不得给你写一篇毕业论文。你让它总结三个要点,它给你写八个要点外加一段”综合来看”的升华。

每一个多余的Token,都在烧你的钱。

API调用里加一行max_tokens参数就行。内部总结设500上限,邮件回复设300上限。强制模型学会一件事:说人话。

光这一刀,就能砍掉20-30%的Token开支。 大模型最大的浪费不在于它笨,而在于它太能说了——像一个被问”今天天气怎么样”就能讲半小时的同事。你得给它一个闭嘴的机制。

AI支出审计三步法:场景分类→B桶降级→设max_tokens上限

20亿Token不可怕,可怕的是花完说不清去哪了

回到开头那位高管。

一个月20亿Token,换算成本大概几十万美元。这个数字本身不算离谱——对一家几千人的大厂来说,人均每月几十美元的AI工具费用,比人力成本便宜太多了。

但问题是:你能说清楚这些Token去哪了吗?

如果答案是”说不清”,那你的”惭愧”就不是凡尔赛,而是一句大实话。因为说不清去哪了,就意味着你根本不知道自己是在投资还是在浪费。你的AI预算就像一条没有水表的水管——水在哗哗流,但你不知道浇了花还是泡了地板。

AI时代的好管家,不是花钱最少的人,是每一分钱都知道花在哪的人。

该花的钱,大方花。A桶的核心产品,模型越强越好。但B桶的内部杂活,用最便宜的就行。C桶的实验,给预算但设天花板。

20亿Token不可怕。可怕的是你的公司账单上写着”AI转型支出”,而你翻开一看——60%的Token在帮员工写没人看的周报。

那才是真正该惭愧的事。

核心洞察:AI支出的关键不是花多少,而是花对了多少