干翻Transformer?新王Mamba-3狂飙7倍推理速度,华人团队主导!

天下苦 Transformer 久矣!作为一个“算力黑洞”,Transformer 随着对话长度的增加,计算需求会呈平方级增长,玩起来那是相当烧钱烧显卡。

但就在今天,那个一直被视作 Transformer “毕生之敌”的 Mamba 架构带着最新形态杀回来了!CMU 和普林斯顿的原班人马正式发布并开源了 Mamba-3

在最新的测试中,15 亿参数规模的 Mamba-3 战力爆表,平均准确率达到 57.6%,直接反超 Transformer 4%。更恐怖的是,在长序列任务上,它的端到端延迟只有后者的七分之一

连 Mamba 架构的奠基人之一 Albert Gu 都在社交媒体上兴奋地发推,宣布了这个“由学生主导”的里程碑式突破。

剑指跑分黑洞,Mamba-3 祭出“推理优先”

如果你对之前的 Mamba-2 还有印象,它主攻的是提升“训练效率”。而这次的 Mamba-3 则是一次彻底的范式转移,把满点技能全部加在了**“推理优先”**上。

通俗来说,现在的大部分硬件在跑大模型解码时,经常遇到“冷 GPU”问题——芯片总是闲着干等数据传输(内存移动)。而 Mamba-3 的出现,就是要彻底榨干 GPU 的每一滴空闲算力。

作为一个状态空间模型(SSM),你可以把 Mamba-3 理解成一台无情的“摘要机器”。Transformer 是每生成一个词就要重温一遍所有前文,而 Mamba-3 则是将历史信息压成一个固定大小的“数据快照”,新信息来了直接更新快照即可,速度起飞。

为了让这台机器运转到极致,Mamba-3 祭出了三大核心杀招:

  • 指数梯形离散化:把模型的“记忆精度”从一阶跃升到了二阶,直接省去了以往需要外挂的复杂短卷积模块。
  • 复数值 SSM:给模型塞进了一个“内部指南针”!以前的线性模型在做奇偶校验这种逻辑题时像个无头苍蝇(准确率接近随机猜),现在加入了复数运算支持旋转动态后,奇偶校验准确率直接拉满到 100%。
  • MIMO(多输入多输出)机制:这是真正榨干闲置算力的法宝!通过矩阵乘法替代外积,单步计算量翻倍,但因为完美填满了 GPU 闲置的张量核心,解码延迟竟然几乎没有增加!主打一个“不让芯片带薪休假”。

在端到端的实测数据中,处理 16384 个 Token 的超长文本场景下,Mamba-3 只花了 140.61 秒,而业内顶尖的推理框架 vLLM 跑类似规模要花将近 970 多秒。7 倍的效率碾压,对长文本玩家来说简直是神级优化。

混合架构才是终局的答案?

不过,Mamba-3 团队也非常坦诚地承认了一个痛点:在“纯文本检索引擎”这种需要精准定位历史长篇原文的任务上,纯 SSM 架构还是不如有着巨大缓存外挂的 Transformer。

怎么解决呢?成年人当然是全都要!团队最后给出了混合架构的解法:把 Mamba-3 层与无位置编码的自注意力层按 5:1 的比例交替堆叠。结果显示,既保留了 Mamba 极限的推理速度,又补足了精细化检索的短板。

【编辑观察】:看看目前各家 AI 大厂的最新动向,比如 Kimi Linear 或是腾讯混元 Turbo,其实都在默默走 Mamba + Attention 的底层混合路线。纯血架构的原教旨之争似乎要告一段落了,“取长补短”的混血模式才是未来 AI 提速降本的真正王道。

幕后大佬在此:华人学生团队领衔

最让大家振奋的是,这次 Mamba-3 的突破,完全是一场由年轻华人学生主导的胜利大逃杀!

除了大家熟知的 FlashAttention 发明人 Tri Dao,以及 SSM 架构的绝对领军人物 Albert Gu(两位均为共同指导),这次负责顶层操作与开发的核心力量都是学生研究员。

其中包括来自 CMU 机器学习系的博士生 Kevin Li,以及普林斯顿大学的 Berlin Chen 和 Caitlin Wang。他们用惊艳的数学调优与底层硬件压榨能力,向整个 AI 圈展示了新生代的硬核实力。

对于咱们游戏玩家和科技宅来说,底层架构越强劲、吃显存越少,意味着不需要遥不可及的算力集群,未来在咱们自己的高端 PC 或者游戏本上跑超级 AI 模型(甚至驱动更聪明的游戏 NPC)的日子,真的不远了。

评论

暂无评论

公告栏
邮箱注册功能回归啦!!!
恭喜《梗百科》上线!
由于短信签名过期,目前注册功能,无法发送短信,然后还写了 bug,没有检查出错误代码!
短信功能基本已经恢复,现在等待验证中
重构“圈子”中
《梗百科》有 bug,没有分页,再改了~
网站整体换 Next.js 的情况下,看来 bug 有点多,发现 bug请一定告诉我们
虾玩社上线啦
我们几乎完全新写了整套网站,肯定还有很多bug和功能体验缺失,欢迎直接在“全部圈子-虾玩社站”务给我们反馈!
热门圈子
club-icon
游戏资讯
club-icon
冒险岛MapleStory
热门讨论
  • 《舒林 Cozy Grove》 原价 50 即将喜加一,开始时间 2026-03-12 23:00:00

    土豆abc
  • 《德波尼亚》原价 59 限时喜加一,截止至 2026-03-24

    土豆abc
  • 《伊松佐河》原价 88 限时喜加一,截止至 2026-03-19 23:00:00

    土豆abc
  • 育碧大佬暴言:做游戏就该复制粘贴,别瞎折腾细节

    土豆abc
  • 清华开源首个L4级赛博课堂!能手把手教人的AI来啦

    土豆abc
  • 发售前猛料!《红色沙漠》40分钟超长实机曝光

    土豆abc
  • 苹果终于低头?国区App Store“苹果税”历史性降至25%

    土豆abc
  • 锐评《黑神话》后停更两年,敖厂长还有复活风险吗?

    土豆abc
  • 宣战D加密!黑客扬言《红色沙漠》发售首日即破

    土豆abc
  • 《红色沙漠》M站均分78!满分与差评齐分,神作还是网游缝合怪?

    土豆abc