天下苦 Transformer 久矣!作为一个“算力黑洞”,Transformer 随着对话长度的增加,计算需求会呈平方级增长,玩起来那是相当烧钱烧显卡。
但就在今天,那个一直被视作 Transformer “毕生之敌”的 Mamba 架构带着最新形态杀回来了!CMU 和普林斯顿的原班人马正式发布并开源了 Mamba-3。
在最新的测试中,15 亿参数规模的 Mamba-3 战力爆表,平均准确率达到 57.6%,直接反超 Transformer 4%。更恐怖的是,在长序列任务上,它的端到端延迟只有后者的七分之一!
连 Mamba 架构的奠基人之一 Albert Gu 都在社交媒体上兴奋地发推,宣布了这个“由学生主导”的里程碑式突破。
剑指跑分黑洞,Mamba-3 祭出“推理优先”
如果你对之前的 Mamba-2 还有印象,它主攻的是提升“训练效率”。而这次的 Mamba-3 则是一次彻底的范式转移,把满点技能全部加在了**“推理优先”**上。
通俗来说,现在的大部分硬件在跑大模型解码时,经常遇到“冷 GPU”问题——芯片总是闲着干等数据传输(内存移动)。而 Mamba-3 的出现,就是要彻底榨干 GPU 的每一滴空闲算力。
作为一个状态空间模型(SSM),你可以把 Mamba-3 理解成一台无情的“摘要机器”。Transformer 是每生成一个词就要重温一遍所有前文,而 Mamba-3 则是将历史信息压成一个固定大小的“数据快照”,新信息来了直接更新快照即可,速度起飞。
为了让这台机器运转到极致,Mamba-3 祭出了三大核心杀招:
- 指数梯形离散化:把模型的“记忆精度”从一阶跃升到了二阶,直接省去了以往需要外挂的复杂短卷积模块。
- 复数值 SSM:给模型塞进了一个“内部指南针”!以前的线性模型在做奇偶校验这种逻辑题时像个无头苍蝇(准确率接近随机猜),现在加入了复数运算支持旋转动态后,奇偶校验准确率直接拉满到 100%。
- MIMO(多输入多输出)机制:这是真正榨干闲置算力的法宝!通过矩阵乘法替代外积,单步计算量翻倍,但因为完美填满了 GPU 闲置的张量核心,解码延迟竟然几乎没有增加!主打一个“不让芯片带薪休假”。
在端到端的实测数据中,处理 16384 个 Token 的超长文本场景下,Mamba-3 只花了 140.61 秒,而业内顶尖的推理框架 vLLM 跑类似规模要花将近 970 多秒。7 倍的效率碾压,对长文本玩家来说简直是神级优化。
混合架构才是终局的答案?
不过,Mamba-3 团队也非常坦诚地承认了一个痛点:在“纯文本检索引擎”这种需要精准定位历史长篇原文的任务上,纯 SSM 架构还是不如有着巨大缓存外挂的 Transformer。
怎么解决呢?成年人当然是全都要!团队最后给出了混合架构的解法:把 Mamba-3 层与无位置编码的自注意力层按 5:1 的比例交替堆叠。结果显示,既保留了 Mamba 极限的推理速度,又补足了精细化检索的短板。
【编辑观察】:看看目前各家 AI 大厂的最新动向,比如 Kimi Linear 或是腾讯混元 Turbo,其实都在默默走 Mamba + Attention 的底层混合路线。纯血架构的原教旨之争似乎要告一段落了,“取长补短”的混血模式才是未来 AI 提速降本的真正王道。
幕后大佬在此:华人学生团队领衔
最让大家振奋的是,这次 Mamba-3 的突破,完全是一场由年轻华人学生主导的胜利大逃杀!
除了大家熟知的 FlashAttention 发明人 Tri Dao,以及 SSM 架构的绝对领军人物 Albert Gu(两位均为共同指导),这次负责顶层操作与开发的核心力量都是学生研究员。
其中包括来自 CMU 机器学习系的博士生 Kevin Li,以及普林斯顿大学的 Berlin Chen 和 Caitlin Wang。他们用惊艳的数学调优与底层硬件压榨能力,向整个 AI 圈展示了新生代的硬核实力。
对于咱们游戏玩家和科技宅来说,底层架构越强劲、吃显存越少,意味着不需要遥不可及的算力集群,未来在咱们自己的高端 PC 或者游戏本上跑超级 AI 模型(甚至驱动更聪明的游戏 NPC)的日子,真的不远了。



评论
暂无评论