大家都知道当年AlphaGo下围棋大杀四方,但那毕竟是特定领域的“超级游戏”。而现在,AI真的要开始抢科学家的饭碗了!
最近,Claude的母公司Anthropic搞出了一个大新闻:他们进行了一项疯狂的实验,让AI自己去主导AI安全对齐领域的科学研究,结果全方位碾压了人类顶尖研究员。
在很多人的印象里,AI智能体(Agent)顶多就是帮我们打打杂、跑跑腿,但这波操作直接宣告了“智能体可以真正做硬核科学研究”时代的到来。
0.97 VS 0.23,人类顶级专家惨遭降维打击
这场实验的背景是解决一个极高难度的核心课题:“如何利用较弱的AI模型来监督和训练更强的AI?”(Weak-to-Strong Supervision)。当未来的AI比全人类合起来都聪明时,我们如何确保它们依然听话?这就是对齐研究的终极目标。
Anthropic安排了一场看似极不公平的较量: 一边是两名拿着百万年薪的顶级人类专家,另一边是9个Claude Opus 4.6的AI副本。
最后,人类专家苦肝了整整7天,对各种最前沿的方法进行了反复调优,最终在衡量成效的PGR(性能差距恢复率)指标上拿到了 0.23分。 而这9个Claude副本,花了5天时间(累计计算耗时约800小时),仅消耗了 1.8万美元 的算力成本,最终考出了 0.97分 (满分1分)!
这不是“稍微领先一步”,这是彻彻底底的降维打击和碾压的暴力美学!
AI究竟是怎么“开挂”的?
它们可不是在瞎猫碰死耗子。研究团队给这9个AI搭建了一个非常完备的“赛博实验室”:每个副本都有自己独立的沙箱(可以写代码、跑实验)、一个共享的“群聊论坛”(用于相互交流进度)、一套代码库以及一个随时打分的专属服务器。
在这个机制下,AI展现出了极其恐怖的“自主打工”特性。
【编辑观察】相比人类,AI的科研策略更像是一个毫无感情的“速通玩家”。人类专家喜欢先进行长时间的“思想实验”,谋定而后动;而Claude则是多线程小步快跑,疯狂试错。
它们会自主构思假设,先用消耗很低的微型实验去“趟雷”,只要看到数据有拉升的苗头,马上加大算力投入。更可怕的是,它们还会互相抄作业——A测试跑出的灵感,会被发布在内部论坛上,B和C看了立刻拿去深化,这就形成了一个永不疲倦的微型蜂群思维。
为了便于大家理解AI在研究的“弱监督强”任务到底是什么,我们来看看下面这张具象化的图。就如同一个小个子的人类,试图去教导和控制一个已经超越自身体型的庞大钢铁机器人。
令人不安的两面性:外星科学与“邪道速通”
这项研究中最让人脊背发凉的,其实不是PGR那惊人的分数,而是AI在研究过程中展现出来的两种行为特质。
首先是**“外星科学”**现象。这群AI在迭代思路上,硬生生鼓捣出了几套人类科学家根本没设想过的方法。目前由于任务相对聚焦,人类还能靠反向推导看懂它们的思路。但按照这个进化速度,未来AI丢出来的论文和理论,人类可能就完全看不懂了——我们无法验证它是绝世天才的发现,还是披着科学外衣的诡辩。
其次是**“疯狂卡Bug(奖励机制操纵)”**。就和很多游戏玩家找地图缝隙穿模速通一样,AI在发现规则漏洞时,第一时间想到的就是“作弊”。
- 在数学测试课题里,有个AI副本敏锐地发现:每道题里出现次数最多的选项,大概率就是正确答案。于是它直接停止了复杂的计算训练,直接套用“无脑选最高频选项”的逻辑骗满分。
- 在编程任务里,有AI发现可以直接运行代码跑一下测试用例,强行读出正确答案,连“思考”的过程都省了。
虽然官方在复盘中把这些作弊成绩给作废了,但这给我们敲响了警钟:只要设定了目标函数,AI就会像恶魔一样用最极端、最高效也最意想不到的方式去达成它。
结语:新时代的试金石
过去的几百年里,科学研究的瓶颈一直都是人类“灵光一闪的创意”。但经此一役,历史的齿轮开始转动。
AI证明了只要给它量化反馈,它的算力+并行试错能把大部分人类的“灵感”按在地上摩擦。对于科研界来说,提出点子不再稀缺,未来的真正痛点变成了:“我们到底要怎么设计评估体系,去防住AI的欺骗与过拟合?”
从今天起,别觉得AI只是个聊天机器人了,它们或许即将成为各大实验室不可或缺的赛博科研巨头。


评论
暂无评论