Token经济泡沫来了,token经济学

本文来自微信公众号：潮涌AI（ichaoyongai），文｜HAL。

关于AI到底能不能“降本增效”，前不久Uber总裁兼COO安德鲁·麦克唐纳在一档播客里讲了一个细节。

他说，今年4月，Uber CTO普拉文·内帕利·纳加发现公司四个月就用光了2026全年的Claude Code预算。那一刻被他形容为“脑袋爆炸”。

得知这一噩耗之后，公司内部开始认真讨论一件以前没人当回事的事：Token到底花了多少钱，这些钱换回了什么。

麦克唐纳给出的结论很冷静。他和高级工程负责人交流之后意识到，更高的Token消耗，并没有换来同比例更多的、对用户真正有用的功能。

那条“投入越多、产出越多”的曲线，他画不出来。

他还有一句话说得很直接：AI不是免费的。

这件事值得说，原因不在于Uber小气不想花钱——它一年R&D投入三十多亿美元，不差这点预算。关键在于，一家把AI用得这么猛、采用率这么高的公司，第一次公开承认自己算不清这笔账。

当然，Uber也不是孤例。

微软正在收回自家部门里大部分Claude Code的授权，要求员工改用GitHub Copilot；擅长整活的语言学习平台Duolingo也撤回了把AI使用量纳入绩效考核的做法，因为员工质疑这个指标奖励的是“为用而用”；而在国内，米哈游的一位技术leader也在近期分享中无奈说道一次“惨痛”事件，由于工程师没有设置Token消耗上限就下班离开，结果智能体连续运行13小时，消耗了价值200万元人民币的Token，而这200万在网友看来是无意义；甚至社交媒体上有消息表示，腾讯开始缩水员工的Token福利……

今年还未过半，企业们已经要集体开始算Token账了。

有意思的地方在这里——

所有人都觉得AI还在持续进化：模型还在变强、Token单价还在跌、采用率还在涨。一切看起来都还在爬坡，离顶点还有距离。

可泡沫已经先一步冒出来了。

01 Token越来越便宜，账单却越来越贵

先看一个反直觉的事实。

过去一年，主流厂商每百万Token的平均成本从大约10美元跌到2.5美元；再往前看，2024年初要达到GPT-4级别的性能，每百万Token大约要60美元；到2026年初，这个数字下降了超过98%，高效模型只要0.3到0.75美元。

Token在快速变便宜。但同一批看着Token价格下跌的企业，月度账单却在成倍增长。

原因不复杂。

单价下跌只说了一半的故事。

企业消费AI的方式变了。按2024年的Token费率做的预算表，遇上2026年的用法，消耗的是预算的好几倍。

国内这边，降幅比海外更大。

4月底，DeepSeek在两天内两次降价，先给V4-Pro开了2.5折限时优惠，又把全系输入缓存命中价降到首发价的十分之一。原本说好5月31日恢复原价，结果5月22日宣布：2.5折不再限时，转为永久。降价之后，V4-Pro缓存命中输入每百万Token只要0.025元。

紧接着是小米。5月27日MiMo-V2.5系列API宣布永久降价，最高降幅99%，同时取消了上下文窗口的分档。雷军转发了这则消息，欢迎开发者接入。其缓存命中输入价从每百万Token 2.8元降到0.025元，与DeepSeek基本持平。

算下来，2026上半年中国各家大模型公司一共下调了六次API价格，其中三次宣布为永久降价。

但同一个市场里，还有另一批厂商在涨价。

字节豆包推出付费订阅，智谱三次上调API价格，阿里云和腾讯云相继宣布涨价5%。一边是DeepSeek、小米把价格压到很低，一边是另一批厂商往上调。同一个赛道，同一段时间，降价和涨价同时发生。

这一点比单纯降价更值得琢磨。如果这个生意已经有稳定的盈利模型，价格应该收敛到一个区间，而不会分成两个方向。

价格分化，说明厂商对这东西该卖多少钱并没有共识——有人想用补贴换规模，有人想靠涨价缓口气，背后是同一个问题：还没找到一条能站得住的成本线。

其中最大的变量其实是Agent。

聊天机器人时代，你问一句，它答一句，Token按单次调用计费。Agent时代不同，它会自己拆解任务、调用工具、反复试错，一个任务背后是几十上百轮调用。同样一件事，agentic工作流消耗的Token是聊天机器人的5到30倍，极端情况能到几百倍甚至上千倍。

这才是Uber那笔账算不清的根源。问题不在某一次涨价，而在整个使用范式换挡，把成本曲线整体抬高了一个量级。

这件事也对一个流行说法构成了挑战：AI是基础设施，边际成本会趋近于零。

传统软件确实是这个逻辑。写一次，托管成本极低，每多一个客户的边际成本接近于零，所以能做出75%到80%的毛利率。AI不适用这套逻辑。每一次推理、每一条回复、每一个代码建议，背后都要消耗实际的算力。

而Agent把这个问题进一步放大。如今推理已经占到企业AI预算的85%，占AI总算力消耗的八到九成。产业越往Agent走，账单越高，而不是越低。

所以，Uber现在做的事，是把Token消耗的成本，直接拿去和招人的成本作对比。一边是工程师的工资，一边是模型的账单，摆在同一张表上比。

这是一个信号。

当一家公司开始把算力账单和招人成本放在一起核算的时候，意味着它已经把AI当成一项需要权衡的常规成本，而不再是无条件投入的战略项目。

02 买方觉得贵了，但卖方自己也在亏

更值得注意的问题在供给这一端。

Uber们现在还觉得Token便宜，是因为这个价格本身被补贴过。它并不反映真实成本，更像一张还没到期的优惠券。

看毛利率。

据The Information报道，OpenAI去年毛利率从40%跌到33%，远低于自己46%的预测；Anthropic 2025年的毛利率预计只有40%，比目标低了10个百分点——两家都没达标，主因都是同一个：推理成本失控，远超预期。

看绝对亏损。

OpenAI 2025年亏损约90亿美元，2026年预计170亿，2027年570亿。有分析师把训练成本也计入后估算，OpenAI在每一块“算力美元”上只收回大约0.68美元——也就是说，在支付任何工资和销售费用之前，仅硬件成本一项，每1美元就要亏掉0.32美元。

这意味着用户每发一条复杂查询，AI公司实际上就在这笔交易上亏钱；而那些低价订阅，恰恰是补贴力度最大的部分。

当然这个剧本也并不陌生。

所谓“千禧一代生活方式补贴”，就是VC的钱帮你补贴了便宜的Uber打车和DoorDash外卖。今天你用的每一个Token，本质上是这套补贴的AI版本。

补贴还有更隐蔽的一层。

这些AI大厂通过战略合作拿到打折算力，华尔街有时候管这叫“循环融资”——微软据报道以低于市场价向OpenAI供应算力。可即便吃着这些折扣，OpenAI和Anthropic还是在亏钱。

补贴不会一直持续。已经有从业者明确预告：当前API定价是被补贴的，做2027年预算时应该保守假设未来18个月API价格上涨30%到50%，因为厂商迟早要转向能盈利的单位经济学。

很多唱空者说得更直白，当前这些价格战，是风险投资和超大规模厂商的交叉补贴撑起来的，一旦资本收紧，就难以为继。

比如现在很多大公司发现Token账单和产出对不上，开始算账；卖方本身就在亏本经营，迟早要涨价；涨价之后，买方的账更难算。两头都还在亏生意，显然中间总是有一些环节出了问题。

当然，也有人不认同这套判断。

有一派的“餐巾纸算法”认为推理其实是赚钱的——输入Token的处理成本比输出Token低近千倍，靠这种不对称，API业务的毛利率可以达到软件级别，即便估算偏差三倍也依然盈利。

但问题恰恰在这里。“单Token更便宜”不等于“整体更便宜”。

当Agent把每个任务的Token消耗抬高5到30倍，毛利能否扩张，取决于成本下降的速度是否快过需求上升的速度。

这是一个还没有答案的赌注。

而泡沫常常就出现在没有答案的地方。

互联网时代“先圈用户、再谈变现”的逻辑能成立，前提是边际成本真的可以做到趋近于零，规模上来之后成本会被摊薄。

Token经济没有这个前提——规模越大，消耗越多，所以，它可能比许多行业都更早，在自身还没真正成熟的阶段，就先遇上泡沫。