Claude比发工资还贵？换DeepSeek年省数百万美元

曾几何时，大模型圈的卷法永远是“谁参数大、谁榜单分数高、谁更聪明”，仿佛只要能力登顶，客户就会自动掏腰包。但当AI真的走进生产环境，越来越多公司发现：模型再强，账单扛不住也是白搭。

推理成本，已经比发工资还贵

先给大家介绍下这次新闻的主角：Lindy是一家做无代码AI Agent平台的创业公司，用户不用写代码，就能搭建专属AI助手，自动完成邮件处理、会议安排、CRM录入、客户跟进、数据整理这类办公杂活。创始人Flo Crivello是连续创业者，之前在Uber担任工程师和产品负责人，还创立过远程办公平台拿到5200万美元融资，2023年生成式AI浪潮兴起后，他带着团队All in AI Agent赛道，推出了Lindy。和很多AI应用公司一样，Lindy最大的开销既不是服务器、办公场地，也不是市场推广，而是调用大模型的推理费用。今年4月Crivello就在X上大倒苦水：推理成本已经是公司第一大支出，比所有员工的工资加起来还高。

这可不是Lindy一家独有的烦恼，整个行业都在被推理成本“卡脖子”：

GitHub前不久刚调整了Copilot的订阅规则，把部分服务从固定月费改成按量计费——原因就是Agent式编程越来越普及，用户一次触发的推理请求量暴涨，原来的订阅价格根本覆盖不住成本；
Uber内部也遇到了同样的问题，因为全公司大量使用Claude Code等AI工具，2026年全年的AI预算，仅用了四个月就接近耗尽，逼得管理层重新评估AI投入的产出比；
就连Linux基金会都牵头行动，联合谷歌、微软、IBM、Salesforce等企业成立了Tokenomics基金会，想要推动建立统一的AI Token成本标准。

【编辑观察】以前大家聊AI创业，总觉得“模型够强就能赚钱”，现在才反应过来，源源不断的推理费用才是悬在所有AI公司头上的达摩克利斯之剑——毕竟账上的现金，可经不住无节制的Token消耗。

挑了9个月，最终锁定DeepSeek V4

被成本逼到这份上，换模型成了Lindy的必选项，但这个决策他们做得相当谨慎，前前后后评估各种替代方案花了6-9个月，几乎把市面上能打的模型试了个遍。把时间拨回2024年，大部分企业对开源模型的评价还是“和闭源旗舰差距明显”；但到了2025年底至2026年，局势已经发生了巨大变化：DeepSeek、Kimi、GLM等一批中国模型持续刷新性能纪录，推理成本却远低于OpenAI和Anthropic的闭源产品。Crivello透露，团队一开始差点把月之暗面的Kimi设为默认模型，后来又认真评估过智谱AI的GLM系列，最终把目标锁定在今年4月发布预览版的DeepSeek V4——相比之前爆火的DeepSeek R1，V4进一步提升了通用能力和Agent任务表现，同时依旧保持着极具竞争力的价格优势。今年6月初内部测试结束，结果连Lindy团队自己都颇为意外：不仅成本大幅下降，在不少核心业务场景里，DeepSeek的表现甚至超过了Anthropic的模型。

迁移难100倍？换模型真不是改个API

很多人可能觉得，换大模型不就是改个API地址、换个密钥的事儿？但Crivello实际走完整个流程后感慨：整个迁移的工作量，比最开始预估的多了整整100倍。原因其实很简单：企业生产环境里的AI系统，从来不是“调用一个接口”那么简单，而是一整套高度耦合的工程体系——模型背后连接着Prompt工程、自动化评测系统、用户反馈机制、监控观测平台、路由调度逻辑、安全合规流程等等，换了模型之后，这些环节几乎都需要重新适配调整。团队不仅做了大量线上、线下的自动化评测，还专门设计了“Vibe Eval”环节：由真人主观判断模型输出结果是否符合业务预期，验证DeepSeek真的能在真实生产环境中达到甚至超越Anthropic的表现，才敢逐步放量上线，边观察用户留存数据，边调整Prompt适配新模型。为了避免自建推理集群带来的额外复杂度和成本，他们没有选择自行部署DeepSeek，而是直接采用美国推理服务商Atlas Cloud提供的托管DeepSeek V4服务，兼顾成本优势和运维便利性。说白了，这次切换根本不是一次简单的“换供应商”，而是一次完整的底层AI基础设施升级。

不是全面碾压，Claude成了“备用备胎”

当然，DeepSeek并不是在所有场景都全面领先。Crivello坦言，在复杂工作流自动化这类高难度任务上，Anthropic旗下的Claude Sonnet目前表现还是更强，但这类场景并不是Lindy最核心的业务。在Lindy最核心的高频业务——邮件处理场景中，系统需要读懂用户收件箱的内容、理清上下文关系、按照用户过往的表达习惯自动生成回复草稿，恰恰是在这类高频刚需任务上，DeepSeek给出了超出预期的表现，这也是团队敢把100%生产流量全部切过去的核心底气。现在Anthropic并没有完全退出Lindy的技术栈，只是从曾经的默认首选，变成了备用的“保险丝”：

内部员工日常办公依然大量使用Claude，毕竟Anthropic的Max订阅计划性价比依然很高，Crivello自己也坦言：“如果不是Max订阅计划，我们可能内部也会换掉Claude”；
当系统检测到任务处理失败时，还是会升级调用Claude Opus做兜底，但这类极端情况的占比非常小。他也没把话说死：如果Anthropic下一代模型性能够强、价格足够有竞争力，他们也不介意重新成为Anthropic的客户——商业选型从来没有什么“情怀滤镜”，性价比永远是最硬的道理。

大模型选型，正式进入性价比时代

虽然Crivello没有公开具体的成本节省数字，但他明确表示这次切换一年能为公司省下数百万美元。对于一家推理成本已经超过员工工资总额的AI创业公司来说，哪怕只是节省30%-50%的模型费用，都是一笔足以影响公司生存状态的可观资金。把Lindy的选择放到整个行业大背景下看，其实代表着一个非常清晰的趋势：过去几年大模型市场基本由OpenAI和Anthropic主导，企业选模型时最关注能力上限；但随着不同模型之间的能力差距不断缩小，成本已经成了新的核心决策因素。 Vercel AI Gateway的统计数据很直观地体现了这个趋势：2026年5月单月，DeepSeek在平台的Token调用量占比从不足1%飙升至17%，但对应的收入占比仅约1%——原因非常简单：DeepSeek实在太便宜了。

现在的大模型市场已经悄悄形成了分层：

第一层是OpenAI、Anthropic等厂商，提供性能最强、价格也最高的旗舰模型，应对最复杂的极端场景；
第二层是DeepSeek、GLM、Kimi等开放权重模型，性能足以覆盖绝大多数日常场景，价格却只有旗舰模型的几分之一。

【编辑观察】对每天消耗海量Token的AI公司来说，现在的灵魂拷问非常现实：如果花1/5的价格就能拿到90分的效果，为了剩下10%的能力提升支付数倍溢价，真的是划算的选择吗？ Crivello的回答非常直接：“对我们这种Token消耗量极大的公司来说，这么做100%是正确选择，否则就是对公司不负责任。”不少企业现在还出于习惯信任海外大牌模型，但未来几年，或许企业根本不会在乎模型出自哪家——效果够好、成本够低，才是真正的核心竞争力。

土豆abc