Claude比发工资还贵?换DeepSeek年省数百万美元

Claude比发工资还贵?换DeepSeek年省数百万美元

曾几何时,大模型圈的卷法永远是“谁参数大、谁榜单分数高、谁更聪明”,仿佛只要能力登顶,客户就会自动掏腰包。但当AI真的走进生产环境,越来越多公司发现:模型再强,账单扛不住也是白搭。

推理成本,已经比发工资还贵

先给大家介绍下这次新闻的主角:Lindy是一家做无代码AI Agent平台的创业公司,用户不用写代码,就能搭建专属AI助手,自动完成邮件处理、会议安排、CRM录入、客户跟进、数据整理这类办公杂活。创始人Flo Crivello是连续创业者,之前在Uber担任工程师和产品负责人,还创立过远程办公平台拿到5200万美元融资,2023年生成式AI浪潮兴起后,他带着团队All in AI Agent赛道,推出了Lindy。 和很多AI应用公司一样,Lindy最大的开销既不是服务器、办公场地,也不是市场推广,而是调用大模型的推理费用。今年4月Crivello就在X上大倒苦水:推理成本已经是公司第一大支出,比所有员工的工资加起来还高

这可不是Lindy一家独有的烦恼,整个行业都在被推理成本“卡脖子”:

  • GitHub前不久刚调整了Copilot的订阅规则,把部分服务从固定月费改成按量计费——原因就是Agent式编程越来越普及,用户一次触发的推理请求量暴涨,原来的订阅价格根本覆盖不住成本;
  • Uber内部也遇到了同样的问题,因为全公司大量使用Claude Code等AI工具,2026年全年的AI预算,仅用了四个月就接近耗尽,逼得管理层重新评估AI投入的产出比;
  • 就连Linux基金会都牵头行动,联合谷歌、微软、IBM、Salesforce等企业成立了Tokenomics基金会,想要推动建立统一的AI Token成本标准。

【编辑观察】以前大家聊AI创业,总觉得“模型够强就能赚钱”,现在才反应过来,源源不断的推理费用才是悬在所有AI公司头上的达摩克利斯之剑——毕竟账上的现金,可经不住无节制的Token消耗。

挑了9个月,最终锁定DeepSeek V4

被成本逼到这份上,换模型成了Lindy的必选项,但这个决策他们做得相当谨慎,前前后后评估各种替代方案花了6-9个月,几乎把市面上能打的模型试了个遍。 把时间拨回2024年,大部分企业对开源模型的评价还是“和闭源旗舰差距明显”;但到了2025年底至2026年,局势已经发生了巨大变化:DeepSeek、Kimi、GLM等一批中国模型持续刷新性能纪录,推理成本却远低于OpenAI和Anthropic的闭源产品。Crivello透露,团队一开始差点把月之暗面的Kimi设为默认模型,后来又认真评估过智谱AI的GLM系列,最终把目标锁定在今年4月发布预览版的DeepSeek V4——相比之前爆火的DeepSeek R1,V4进一步提升了通用能力和Agent任务表现,同时依旧保持着极具竞争力的价格优势。 今年6月初内部测试结束,结果连Lindy团队自己都颇为意外:不仅成本大幅下降,在不少核心业务场景里,DeepSeek的表现甚至超过了Anthropic的模型。

迁移难100倍?换模型真不是改个API

很多人可能觉得,换大模型不就是改个API地址、换个密钥的事儿?但Crivello实际走完整个流程后感慨:整个迁移的工作量,比最开始预估的多了整整100倍。 原因其实很简单:企业生产环境里的AI系统,从来不是“调用一个接口”那么简单,而是一整套高度耦合的工程体系——模型背后连接着Prompt工程、自动化评测系统、用户反馈机制、监控观测平台、路由调度逻辑、安全合规流程等等,换了模型之后,这些环节几乎都需要重新适配调整。 团队不仅做了大量线上、线下的自动化评测,还专门设计了“Vibe Eval”环节:由真人主观判断模型输出结果是否符合业务预期,验证DeepSeek真的能在真实生产环境中达到甚至超越Anthropic的表现,才敢逐步放量上线,边观察用户留存数据,边调整Prompt适配新模型。为了避免自建推理集群带来的额外复杂度和成本,他们没有选择自行部署DeepSeek,而是直接采用美国推理服务商Atlas Cloud提供的托管DeepSeek V4服务,兼顾成本优势和运维便利性。 说白了,这次切换根本不是一次简单的“换供应商”,而是一次完整的底层AI基础设施升级。

不是全面碾压,Claude成了“备用备胎”

当然,DeepSeek并不是在所有场景都全面领先。Crivello坦言,在复杂工作流自动化这类高难度任务上,Anthropic旗下的Claude Sonnet目前表现还是更强,但这类场景并不是Lindy最核心的业务。 在Lindy最核心的高频业务——邮件处理场景中,系统需要读懂用户收件箱的内容、理清上下文关系、按照用户过往的表达习惯自动生成回复草稿,恰恰是在这类高频刚需任务上,DeepSeek给出了超出预期的表现,这也是团队敢把100%生产流量全部切过去的核心底气。 现在Anthropic并没有完全退出Lindy的技术栈,只是从曾经的默认首选,变成了备用的“保险丝”:

  • 内部员工日常办公依然大量使用Claude,毕竟Anthropic的Max订阅计划性价比依然很高,Crivello自己也坦言:“如果不是Max订阅计划,我们可能内部也会换掉Claude”;
  • 当系统检测到任务处理失败时,还是会升级调用Claude Opus做兜底,但这类极端情况的占比非常小。 他也没把话说死:如果Anthropic下一代模型性能够强、价格足够有竞争力,他们也不介意重新成为Anthropic的客户——商业选型从来没有什么“情怀滤镜”,性价比永远是最硬的道理。

大模型选型,正式进入性价比时代

虽然Crivello没有公开具体的成本节省数字,但他明确表示这次切换一年能为公司省下数百万美元。对于一家推理成本已经超过员工工资总额的AI创业公司来说,哪怕只是节省30%-50%的模型费用,都是一笔足以影响公司生存状态的可观资金。 把Lindy的选择放到整个行业大背景下看,其实代表着一个非常清晰的趋势:过去几年大模型市场基本由OpenAI和Anthropic主导,企业选模型时最关注能力上限;但随着不同模型之间的能力差距不断缩小,成本已经成了新的核心决策因素。 Vercel AI Gateway的统计数据很直观地体现了这个趋势:2026年5月单月,DeepSeek在平台的Token调用量占比从不足1%飙升至17%,但对应的收入占比仅约1%——原因非常简单:DeepSeek实在太便宜了。

现在的大模型市场已经悄悄形成了分层:

  • 第一层是OpenAI、Anthropic等厂商,提供性能最强、价格也最高的旗舰模型,应对最复杂的极端场景;
  • 第二层是DeepSeek、GLM、Kimi等开放权重模型,性能足以覆盖绝大多数日常场景,价格却只有旗舰模型的几分之一。

【编辑观察】对每天消耗海量Token的AI公司来说,现在的灵魂拷问非常现实:如果花1/5的价格就能拿到90分的效果,为了剩下10%的能力提升支付数倍溢价,真的是划算的选择吗? Crivello的回答非常直接:“对我们这种Token消耗量极大的公司来说,这么做100%是正确选择,否则就是对公司不负责任。”不少企业现在还出于习惯信任海外大牌模型,但未来几年,或许企业根本不会在乎模型出自哪家——效果够好、成本够低,才是真正的核心竞争力。

评论

还没有评论,来抢个沙发。
公告栏
邮箱注册功能回归啦!!!
签到徽章实装了!!!快去领取你的徽章!!!
回贴轻松点,该水就水,不装文化人
新版首页有 bug,缺少了签到,可以先复制地址进入:https://xiawanshe.com/welcome
网站整体换 Next.js 的情况下,看来 bug 有点多,发现 bug请一定告诉我们
《梗百科》有 bug,没有分页,再改了~
重构“圈子”中
由于短信签名过期,目前注册功能,无法发送短信,然后还写了 bug,没有检查出错误代码!
恭喜《梗百科》上线!
我们几乎完全新写了整套网站,肯定还有很多bug和功能体验缺失,欢迎直接在“全部圈子-虾玩社站”务给我们反馈!
虾玩社上线啦
热门圈子
club-icon
游戏资讯
热门讨论
  • 欧盟发威!任天堂官宣可换电池版Switch 2

    土豆abc
  • 活久见!香草社打破“祖训”,《胧村正》首登Steam支持4K+官中

    土豆abc
  • 新同学来报道下呀~

    皮得很的疯拾叁
  • 零素材复用!Xbox砸27亿天价打造《战争机器:事变日》

    土豆abc
  • 告别传统滚轮!自带方向盘的奇葩鼠标连赛车都能开

    土豆abc
  • 用AI做贴图配音还敢卖339元?Steam惊现赛博智商税

    土豆abc
  • 实机惨遭视频背刺!UP主吐槽影之刃零反向宣发

    土豆abc
  • 豆包AI逆天更新:内置虚拟机,连云原神都能直接跑!

    土豆abc
  • 《光环:战役进化》7月24日抢先开玩

    土豆abc
  • 终于要来了!《GTA6》双平台6月25日开启预购

    土豆abc