干翻Transformer？新王Mamba-3狂飙7倍推理速度，华人团队主导！

天下苦 Transformer 久矣！作为一个“算力黑洞”，Transformer 随着对话长度的增加，计算需求会呈平方级增长，玩起来那是相当烧钱烧显卡。

但就在今天，那个一直被视作 Transformer “毕生之敌”的 Mamba 架构带着最新形态杀回来了！CMU 和普林斯顿的原班人马正式发布并开源了 Mamba-3。

在最新的测试中，15 亿参数规模的 Mamba-3 战力爆表，平均准确率达到 57.6%，直接反超 Transformer 4%。更恐怖的是，在长序列任务上，它的端到端延迟只有后者的七分之一！

连 Mamba 架构的奠基人之一 Albert Gu 都在社交媒体上兴奋地发推，宣布了这个“由学生主导”的里程碑式突破。

剑指跑分黑洞，Mamba-3 祭出“推理优先”

如果你对之前的 Mamba-2 还有印象，它主攻的是提升“训练效率”。而这次的 Mamba-3 则是一次彻底的范式转移，把满点技能全部加在了**“推理优先”**上。

通俗来说，现在的大部分硬件在跑大模型解码时，经常遇到“冷 GPU”问题——芯片总是闲着干等数据传输（内存移动）。而 Mamba-3 的出现，就是要彻底榨干 GPU 的每一滴空闲算力。

作为一个状态空间模型（SSM），你可以把 Mamba-3 理解成一台无情的“摘要机器”。Transformer 是每生成一个词就要重温一遍所有前文，而 Mamba-3 则是将历史信息压成一个固定大小的“数据快照”，新信息来了直接更新快照即可，速度起飞。

为了让这台机器运转到极致，Mamba-3 祭出了三大核心杀招：

指数梯形离散化：把模型的“记忆精度”从一阶跃升到了二阶，直接省去了以往需要外挂的复杂短卷积模块。
复数值 SSM：给模型塞进了一个“内部指南针”！以前的线性模型在做奇偶校验这种逻辑题时像个无头苍蝇（准确率接近随机猜），现在加入了复数运算支持旋转动态后，奇偶校验准确率直接拉满到 100%。
MIMO（多输入多输出）机制：这是真正榨干闲置算力的法宝！通过矩阵乘法替代外积，单步计算量翻倍，但因为完美填满了 GPU 闲置的张量核心，解码延迟竟然几乎没有增加！主打一个“不让芯片带薪休假”。

在端到端的实测数据中，处理 16384 个 Token 的超长文本场景下，Mamba-3 只花了 140.61 秒，而业内顶尖的推理框架 vLLM 跑类似规模要花将近 970 多秒。7 倍的效率碾压，对长文本玩家来说简直是神级优化。

不过，Mamba-3 团队也非常坦诚地承认了一个痛点：在“纯文本检索引擎”这种需要精准定位历史长篇原文的任务上，纯 SSM 架构还是不如有着巨大缓存外挂的 Transformer。

怎么解决呢？成年人当然是全都要！团队最后给出了混合架构的解法：把 Mamba-3 层与无位置编码的自注意力层按 5:1 的比例交替堆叠。结果显示，既保留了 Mamba 极限的推理速度，又补足了精细化检索的短板。

【编辑观察】：看看目前各家 AI 大厂的最新动向，比如 Kimi Linear 或是腾讯混元 Turbo，其实都在默默走 Mamba + Attention 的底层混合路线。纯血架构的原教旨之争似乎要告一段落了，“取长补短”的混血模式才是未来 AI 提速降本的真正王道。

最让大家振奋的是，这次 Mamba-3 的突破，完全是一场由年轻华人学生主导的胜利大逃杀！

除了大家熟知的 FlashAttention 发明人 Tri Dao，以及 SSM 架构的绝对领军人物 Albert Gu（两位均为共同指导），这次负责顶层操作与开发的核心力量都是学生研究员。

其中包括来自 CMU 机器学习系的博士生 Kevin Li，以及普林斯顿大学的 Berlin Chen 和 Caitlin Wang。他们用惊艳的数学调优与底层硬件压榨能力，向整个 AI 圈展示了新生代的硬核实力。

对于咱们游戏玩家和科技宅来说，底层架构越强劲、吃显存越少，意味着不需要遥不可及的算力集群，未来在咱们自己的高端 PC 或者游戏本上跑超级 AI 模型（甚至驱动更聪明的游戏 NPC）的日子，真的不远了。