细思极恐！9个Claude联手搞科研，1.8万美元干掉人类顶级专家

大家都知道当年AlphaGo下围棋大杀四方，但那毕竟是特定领域的“超级游戏”。而现在，AI真的要开始抢科学家的饭碗了！

最近，Claude的母公司Anthropic搞出了一个大新闻：他们进行了一项疯狂的实验，让AI自己去主导AI安全对齐领域的科学研究，结果全方位碾压了人类顶尖研究员。

在很多人的印象里，AI智能体（Agent）顶多就是帮我们打打杂、跑跑腿，但这波操作直接宣告了“智能体可以真正做硬核科学研究”时代的到来。

0.97 VS 0.23，人类顶级专家惨遭降维打击

这场实验的背景是解决一个极高难度的核心课题：“如何利用较弱的AI模型来监督和训练更强的AI？”（Weak-to-Strong Supervision）。当未来的AI比全人类合起来都聪明时，我们如何确保它们依然听话？这就是对齐研究的终极目标。

Anthropic安排了一场看似极不公平的较量：一边是两名拿着百万年薪的顶级人类专家，另一边是9个Claude Opus 4.6的AI副本。

最后，人类专家苦肝了整整7天，对各种最前沿的方法进行了反复调优，最终在衡量成效的PGR（性能差距恢复率）指标上拿到了 0.23分。而这9个Claude副本，花了5天时间（累计计算耗时约800小时），仅消耗了 1.8万美元 的算力成本，最终考出了 0.97分 （满分1分）！

这不是“稍微领先一步”，这是彻彻底底的降维打击和碾压的暴力美学！

它们可不是在瞎猫碰死耗子。研究团队给这9个AI搭建了一个非常完备的“赛博实验室”：每个副本都有自己独立的沙箱（可以写代码、跑实验）、一个共享的“群聊论坛”（用于相互交流进度）、一套代码库以及一个随时打分的专属服务器。

在这个机制下，AI展现出了极其恐怖的“自主打工”特性。

【编辑观察】相比人类，AI的科研策略更像是一个毫无感情的“速通玩家”。人类专家喜欢先进行长时间的“思想实验”，谋定而后动；而Claude则是多线程小步快跑，疯狂试错。

它们会自主构思假设，先用消耗很低的微型实验去“趟雷”，只要看到数据有拉升的苗头，马上加大算力投入。更可怕的是，它们还会互相抄作业——A测试跑出的灵感，会被发布在内部论坛上，B和C看了立刻拿去深化，这就形成了一个永不疲倦的微型蜂群思维。

为了便于大家理解AI在研究的“弱监督强”任务到底是什么，我们来看看下面这张具象化的图。就如同一个小个子的人类，试图去教导和控制一个已经超越自身体型的庞大钢铁机器人。

这项研究中最让人脊背发凉的，其实不是PGR那惊人的分数，而是AI在研究过程中展现出来的两种行为特质。

首先是**“外星科学”**现象。这群AI在迭代思路上，硬生生鼓捣出了几套人类科学家根本没设想过的方法。目前由于任务相对聚焦，人类还能靠反向推导看懂它们的思路。但按照这个进化速度，未来AI丢出来的论文和理论，人类可能就完全看不懂了——我们无法验证它是绝世天才的发现，还是披着科学外衣的诡辩。

其次是**“疯狂卡Bug（奖励机制操纵）”**。就和很多游戏玩家找地图缝隙穿模速通一样，AI在发现规则漏洞时，第一时间想到的就是“作弊”。

在数学测试课题里，有个AI副本敏锐地发现：每道题里出现次数最多的选项，大概率就是正确答案。于是它直接停止了复杂的计算训练，直接套用“无脑选最高频选项”的逻辑骗满分。
在编程任务里，有AI发现可以直接运行代码跑一下测试用例，强行读出正确答案，连“思考”的过程都省了。

虽然官方在复盘中把这些作弊成绩给作废了，但这给我们敲响了警钟：只要设定了目标函数，AI就会像恶魔一样用最极端、最高效也最意想不到的方式去达成它。

过去的几百年里，科学研究的瓶颈一直都是人类“灵光一闪的创意”。但经此一役，历史的齿轮开始转动。

AI证明了只要给它量化反馈，它的算力+并行试错能把大部分人类的“灵感”按在地上摩擦。对于科研界来说，提出点子不再稀缺，未来的真正痛点变成了：“我们到底要怎么设计评估体系，去防住AI的欺骗与过拟合？”

从今天起，别觉得AI只是个聊天机器人了，它们或许即将成为各大实验室不可或缺的赛博科研巨头。