全球公司集体反省:从“Token管够”到“小模型经济学”,省钱风潮来袭!
全球公司转向“小模型经济学”
曾经Token管够的公司,如今集体开始节约。最近,美国Agent公司Lindy将100%的托管Agent流量从Claude迁移至DeepSeek V4,理由是能节省数百万美元推理成本,迁移流量成本下降约90%。不仅如此,一些美国开发者和中小公司转向中国模型,因其在大量日常任务上“够用且便宜”。据外媒报道,Siemens、Renault、Orange、ChapsVision等欧洲企业也开始混用美国、中国、欧洲的模型。
Token最大化的反噬
过去一年,很多企业鼓励员工多用AI,认为Token烧得越多越能证明公司“AI - first”。但随着Token账单摆在面前,全球公司开始集体反省,“该省省该花花”,小模型经济学风潮兴起。所谓小模型经济学,就是不什么活都请最贵的专家。过去企业接入AI默认用最强模型,然而前沿模型是Token碎钞机,成本高昂。于是大家思考是否每件事都要用最贵的旗舰模型,结果发现简单活分给便宜模型,复杂活上贵模型效果不错,这一省钱“小妙招”被称为“小模型经济学”。
这一经济学并非凭空产生,而是被账单逼出来的。Uber曾鼓励工程师多用AI编程工具,如Claude Code、Cursor,但仅几个月就烧穿全年AI编程预算。Uber COO Andrew Macdonald公开质疑Claude Code使用量与“多交付25%有用消费者功能”的关联,随后公司给员工设Token限额,每人、每个工具每月1500美元Token花费,超额需获批。亚马逊员工自发做KiroRank排行榜比谁用Token多,有人钻漏洞,高级副总裁Dave Treadwell只好喊话“别为了用AI而用AI”,排行榜下线。Meta内部的“Claudeonomics”也遭遇同样问题。目前,大公司都开始收紧Token用量,微软取消Claude Code直接许可,转向GitHub Copilot CLI,Copilot从固定订阅走向按量计费;Meta从“Token最大化”转向“Token最小化”策略,计划限制员工Token使用,因内部AI使用成本预计达数十亿美元级别。
小模型经济学变成一门生意
企业抠预算的同时,供给侧也发生变化,便宜模型开始好用。DeepSeek V4系列是典型代表,其价格比Anthropic模型低约20 - 50倍,在Ramp的企业软件采购趋势榜上曾冲到第一,在Vercel AI Gateway的生产流量中,Token份额一个月从不到1%升至17%,连微软都考虑用其微调版顶替Copilot Cowork里的Anthropic、OpenAI。
行业形成分层逻辑:不差钱或任务难时用OpenAI、Anthropic的旗舰模型;算性价比则用DeepSeek、Kimi、智谱GLM、MiniMax等“够用且便宜”的模型。开源项目ClawRouter数据显示,这种分层组合可将平均成本从每百万Token 25美元压到约2美元。
在这种逻辑下,OpenRouter等模型路由公司变得有价值。OpenRouter不训练模型,而是做模型调度台,考虑价格、延迟、稳定性、上下文长度等因素,帮助企业和开发者在数百个模型之间调度。据外媒报道,OpenRouter今年完成1.13亿美元B轮融资,估值约13亿美元,周处理Token量涨了5倍到25万亿,拥有800万用户。Vercel数据显示,大规模AI应用不是一个模型打天下,月请求量超1000万次的团队平均会同时使用35个模型,AI使用像分工明确的流水线。还有LiteLLM、Helicone等工具把模型路由做成财务系统,可按团队、项目、模型设置预算,监控Token消耗,切换流量。云厂商也跟进,AWS Bedrock的Intelligent Prompt Routing能在同一模型家族里自动分配请求,内部测试显示可节省48%到56%成本。
企业如何落地“小模型经济学”
企业落地“小模型经济学”面临具体技术问题,如请求该派给便宜模型还是贵模型,需把AI任务拆成小步骤。以客服Agent为例,用户问“我的订单到哪了”,先让便宜模型判断意图,再抽出订单号调用物流API,最后用中等模型润色结果,企业可减少昂贵推理。AI编程也类似,读取目录等简单任务可交给便宜模型,大型重构等复杂任务交给强模型。
企业实现模型路由通常有几种做法。最简单的是规则路由,如订单查询走小模型加API,法律问题走强模型加人审;更常见的是级联路由,先让便宜模型回答,校验不通过再升级给贵模型;还有学习型路由,系统根据提示词难度等自动判断用哪个模型。近两年,相关工程化手艺成为研究课题,如ParetoBandit研究动态环境里的预算路由,Budget - Aware Agentic Routing研究Agent场景。当企业转向务实的“小模型经济学”,这是继续扩大AI使用的前提。