北大学生与AI同场竞技 胜负花落谁家?

  央广网   2026-01-05 19:20:35

央广网北京1月5日消息(记者李欣)据中央广播电视总台中国之声报道,现在人工智能在各个领域的应用备受瞩目,但它的“智商”到底有多高,尤其是在需要深度推理的自然科学领域,表现如何呢?今天(5日),我们关注一个由北京大学师生发起的新项目,他们正试图为人工智能的化学能力,打造一把高标准的“标尺”。

近期,174位北大化学与分子工程学院的大二学生与GPT、Gemini、DeepSeek等这些当下世界上最聪明的AI同场竞技,那么,这场对决最终谁输谁赢?这群“最强大脑”们比拼的到底是什么?

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem,也就是174位北大学生与世界顶尖AI的竞技题库。

想知道北大学生跟AI比了什么,我们可以打开SUPERChem的题库来看一看,打开的瞬间,“压迫感”就来了,“晶体结构的精细解析”“反应机理的深度推演”“物化性质的定量计算”等等,这些内容,你能看懂吗?根据项目主创人员,北京大学化学与分子工程学院博士研究生黄志贤的介绍,这500道题的出题人,是北大的近百名师生,而且其中不乏化学奥赛金牌得主,目的就是要让AI“没见过”。

黄志贤说:“首先要搭建一个平台,之前基本是有化学奥赛背景的同学才能够使用这个平台,让大家在上面编写题目。因为它(AI)看过很多文献、知识库,为了保证这个评估的准确性,我们用了选择题,我们会去做一些题目的设计,避免它背诵以及(数据)泄露。”

考试现场(北大供图)

为了考察出AI是否真的“懂”化学,北大的百人出题团把出题变成了“通关”,一道题目需要经历初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关。我们现在看到的通过终审的题目,甚至最多迭代过15个版本。另一位项目主创,北京大学化学与分子工程学院博士研究生赵泽华介绍:“一道题,至少经过三个人的审核,第一个人就是他的作者,就是出题人。第二个人是叫reviewer的角色。第三个人叫终审的人,就是approver。经过这三个人的逐轮审核之后,一般来说题目的问题不会很大。”

SUPERChem题库的三阶段审核流程  (北大供图)

那么,当全世界的“最强大脑”们遇上了“北大难度”,结果如何呢?在这场精心设计的考试中,人类展现出了复杂的科学直觉,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。而接受测试的AI们,成绩仅与低年级本科生的平均水平相当。简单来说,北大学生赢了AI。但这个结果,其实早就在黄志贤这些主创人员的预测之中。

黄志贤说:“因为我们之前也做过一些调研,会发现常见的一些大模型都是基于文本的,它们的多模态能力没有那么强,也就是看图片的能力没有那么强。但是化学分子以及化学物质世界,至少是二维或者是三维的,就需要很多立体的信息。所以这方面在大语言模型,在一维的纯文本当中,很难理解这件事情。所以我们预估在这一类题目当中,其实它是做不好的。”

前沿模型在SUPERChem上的表现(北大供图)

既然早已预料到了结果,为何又让AI与人类对决,这样做的意义到底是什么?这群人类的“最强大脑”,难道只是为了证明可以战胜AI?黄志贤说,团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。

黄志贤表示:“去促进现在AI的发展,(北大)作为中国化学学科的领军者,我觉得有必要做这件事情去引导。虽然我们自己目前阶段不会去训练什么模型,但是我们要去引导计算机的研究者该如何去训练模型,在自然学科领域如何辅助我们自然学科的一些突破和发现。”

项目统筹人,北京大学化学与分子工程学院党委副书记高珍老师说,这次巅峰对决,其实是一次主动的“压力测试”,它既能检验人工智能在科学深水区的航行能力,更在倒逼我们重新思考:当AI越来越擅长处理“已有知识”时,我们人类的核心竞争力应该是什么?这是一场没有终点的对话。

高珍说:“一开始的时候我说你们为什么要做这件事?他俩给我的回答就是他们希望在AI的发展过程中留下自己的痕迹。这个非常简单、非常纯粹的想法,我觉得作为老师是很骄傲的。AI成长非常快,可能比我们人类要快得多。随着他们成长,可能我们的考核方式、难度或者综合性都要加强。那这个时候我们再怎么去设定这些题目或者是怎么去更新,可能是我们下一步要考虑的问题。”

这场测试最有趣的影响,还发生在考场之外。黄志贤说,在北大校园里,越来越多的老师开始改变出题思路。

黄志贤说:“现在很多学生,包括老师也会困惑。就是现在AI那么厉害,知识量那么庞大,我们自己该学什么?该如何教育?该如何教学?其实也会看到,现在很多老师也在创新自己的考核方式,会去设计一道AI做不出来的题目。其实在出题的过程也得自己去学习,学得很深入,把知识点都串在一起,进行很严谨、很深度的推理。”

在人工智能时代,最珍贵的可能不再是“知道什么”,而是“还能想知道什么”。当机器越来越擅长回答已有问题的时候,人类最不可替代的价值,或许就在于我们永远能提出新的问题。而教育要做的,就是保护好这种提问的能力。

责编:李传新

一审:李传新

二审:杨丹

三审:杨又华

来源:央广网

我要问