曾几何时,大模型圈的卷法永远是“谁参数大、谁榜单分数高、谁更聪明”,仿佛只要能力登顶,客户就会自动掏腰包。但当AI真的走进生产环境,越来越多公司发现:模型再强,账单扛不住也是白搭。
推理成本,已经比发工资还贵
先给大家介绍下这次新闻的主角:Lindy是一家做无代码AI Agent平台的创业公司,用户不用写代码,就能搭建专属AI助手,自动完成邮件处理、会议安排、CRM录入、客户跟进、数据整理这类办公杂活。创始人Flo Crivello是连续创业者,之前在Uber担任工程师和产品负责人,还创立过远程办公平台拿到5200万美元融资,2023年生成式AI浪潮兴起后,他带着团队All in AI Agent赛道,推出了Lindy。 和很多AI应用公司一样,Lindy最大的开销既不是服务器、办公场地,也不是市场推广,而是调用大模型的推理费用。今年4月Crivello就在X上大倒苦水:推理成本已经是公司第一大支出,比所有员工的工资加起来还高。
这可不是Lindy一家独有的烦恼,整个行业都在被推理成本“卡脖子”:
- GitHub前不久刚调整了Copilot的订阅规则,把部分服务从固定月费改成按量计费——原因就是Agent式编程越来越普及,用户一次触发的推理请求量暴涨,原来的订阅价格根本覆盖不住成本;
- Uber内部也遇到了同样的问题,因为全公司大量使用Claude Code等AI工具,2026年全年的AI预算,仅用了四个月就接近耗尽,逼得管理层重新评估AI投入的产出比;
- 就连Linux基金会都牵头行动,联合谷歌、微软、IBM、Salesforce等企业成立了Tokenomics基金会,想要推动建立统一的AI Token成本标准。
【编辑观察】以前大家聊AI创业,总觉得“模型够强就能赚钱”,现在才反应过来,源源不断的推理费用才是悬在所有AI公司头上的达摩克利斯之剑——毕竟账上的现金,可经不住无节制的Token消耗。
挑了9个月,最终锁定DeepSeek V4
被成本逼到这份上,换模型成了Lindy的必选项,但这个决策他们做得相当谨慎,前前后后评估各种替代方案花了6-9个月,几乎把市面上能打的模型试了个遍。 把时间拨回2024年,大部分企业对开源模型的评价还是“和闭源旗舰差距明显”;但到了2025年底至2026年,局势已经发生了巨大变化:DeepSeek、Kimi、GLM等一批中国模型持续刷新性能纪录,推理成本却远低于OpenAI和Anthropic的闭源产品。Crivello透露,团队一开始差点把月之暗面的Kimi设为默认模型,后来又认真评估过智谱AI的GLM系列,最终把目标锁定在今年4月发布预览版的DeepSeek V4——相比之前爆火的DeepSeek R1,V4进一步提升了通用能力和Agent任务表现,同时依旧保持着极具竞争力的价格优势。 今年6月初内部测试结束,结果连Lindy团队自己都颇为意外:不仅成本大幅下降,在不少核心业务场景里,DeepSeek的表现甚至超过了Anthropic的模型。
迁移难100倍?换模型真不是改个API
很多人可能觉得,换大模型不就是改个API地址、换个密钥的事儿?但Crivello实际走完整个流程后感慨:整个迁移的工作量,比最开始预估的多了整整100倍。 原因其实很简单:企业生产环境里的AI系统,从来不是“调用一个接口”那么简单,而是一整套高度耦合的工程体系——模型背后连接着Prompt工程、自动化评测系统、用户反馈机制、监控观测平台、路由调度逻辑、安全合规流程等等,换了模型之后,这些环节几乎都需要重新适配调整。 团队不仅做了大量线上、线下的自动化评测,还专门设计了“Vibe Eval”环节:由真人主观判断模型输出结果是否符合业务预期,验证DeepSeek真的能在真实生产环境中达到甚至超越Anthropic的表现,才敢逐步放量上线,边观察用户留存数据,边调整Prompt适配新模型。为了避免自建推理集群带来的额外复杂度和成本,他们没有选择自行部署DeepSeek,而是直接采用美国推理服务商Atlas Cloud提供的托管DeepSeek V4服务,兼顾成本优势和运维便利性。 说白了,这次切换根本不是一次简单的“换供应商”,而是一次完整的底层AI基础设施升级。
不是全面碾压,Claude成了“备用备胎”
当然,DeepSeek并不是在所有场景都全面领先。Crivello坦言,在复杂工作流自动化这类高难度任务上,Anthropic旗下的Claude Sonnet目前表现还是更强,但这类场景并不是Lindy最核心的业务。 在Lindy最核心的高频业务——邮件处理场景中,系统需要读懂用户收件箱的内容、理清上下文关系、按照用户过往的表达习惯自动生成回复草稿,恰恰是在这类高频刚需任务上,DeepSeek给出了超出预期的表现,这也是团队敢把100%生产流量全部切过去的核心底气。 现在Anthropic并没有完全退出Lindy的技术栈,只是从曾经的默认首选,变成了备用的“保险丝”:
- 内部员工日常办公依然大量使用Claude,毕竟Anthropic的Max订阅计划性价比依然很高,Crivello自己也坦言:“如果不是Max订阅计划,我们可能内部也会换掉Claude”;
- 当系统检测到任务处理失败时,还是会升级调用Claude Opus做兜底,但这类极端情况的占比非常小。 他也没把话说死:如果Anthropic下一代模型性能够强、价格足够有竞争力,他们也不介意重新成为Anthropic的客户——商业选型从来没有什么“情怀滤镜”,性价比永远是最硬的道理。
大模型选型,正式进入性价比时代
虽然Crivello没有公开具体的成本节省数字,但他明确表示这次切换一年能为公司省下数百万美元。对于一家推理成本已经超过员工工资总额的AI创业公司来说,哪怕只是节省30%-50%的模型费用,都是一笔足以影响公司生存状态的可观资金。 把Lindy的选择放到整个行业大背景下看,其实代表着一个非常清晰的趋势:过去几年大模型市场基本由OpenAI和Anthropic主导,企业选模型时最关注能力上限;但随着不同模型之间的能力差距不断缩小,成本已经成了新的核心决策因素。 Vercel AI Gateway的统计数据很直观地体现了这个趋势:2026年5月单月,DeepSeek在平台的Token调用量占比从不足1%飙升至17%,但对应的收入占比仅约1%——原因非常简单:DeepSeek实在太便宜了。
现在的大模型市场已经悄悄形成了分层:
- 第一层是OpenAI、Anthropic等厂商,提供性能最强、价格也最高的旗舰模型,应对最复杂的极端场景;
- 第二层是DeepSeek、GLM、Kimi等开放权重模型,性能足以覆盖绝大多数日常场景,价格却只有旗舰模型的几分之一。
【编辑观察】对每天消耗海量Token的AI公司来说,现在的灵魂拷问非常现实:如果花1/5的价格就能拿到90分的效果,为了剩下10%的能力提升支付数倍溢价,真的是划算的选择吗? Crivello的回答非常直接:“对我们这种Token消耗量极大的公司来说,这么做100%是正确选择,否则就是对公司不负责任。”不少企业现在还出于习惯信任海外大牌模型,但未来几年,或许企业根本不会在乎模型出自哪家——效果够好、成本够低,才是真正的核心竞争力。


评论