北大学生与AI同场竞技胜负花落谁家？

央广网 2026-01-05 19:20:35

央广网北京1月5日消息（记者李欣）据中央广播电视总台中国之声报道，现在人工智能在各个领域的应用备受瞩目，但它的“智商”到底有多高，尤其是在需要深度推理的自然科学领域，表现如何呢？今天（5日），我们关注一个由北京大学师生发起的新项目，他们正试图为人工智能的化学能力，打造一把高标准的“标尺”。

近期，174位北大化学与分子工程学院的大二学生与GPT、Gemini、DeepSeek等这些当下世界上最聪明的AI同场竞技，那么，这场对决最终谁输谁赢？这群“最强大脑”们比拼的到底是什么？

近日，北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队，发布了最新成果SUPERChem，也就是174位北大学生与世界顶尖AI的竞技题库。

想知道北大学生跟AI比了什么，我们可以打开SUPERChem的题库来看一看，打开的瞬间，“压迫感”就来了，“晶体结构的精细解析”“反应机理的深度推演”“物化性质的定量计算”等等，这些内容，你能看懂吗？根据项目主创人员，北京大学化学与分子工程学院博士研究生黄志贤的介绍，这500道题的出题人，是北大的近百名师生，而且其中不乏化学奥赛金牌得主，目的就是要让AI“没见过”。

黄志贤说：“首先要搭建一个平台，之前基本是有化学奥赛背景的同学才能够使用这个平台，让大家在上面编写题目。因为它（AI）看过很多文献、知识库，为了保证这个评估的准确性，我们用了选择题，我们会去做一些题目的设计，避免它背诵以及（数据）泄露。”

考试现场（北大供图）

为了考察出AI是否真的“懂”化学，北大的百人出题团把出题变成了“通关”，一道题目需要经历初稿、撰写解析，再通过初审与终审的严格审核，每个环节均由不同的同学把关。我们现在看到的通过终审的题目，甚至最多迭代过15个版本。另一位项目主创，北京大学化学与分子工程学院博士研究生赵泽华介绍：“一道题，至少经过三个人的审核，第一个人就是他的作者，就是出题人。第二个人是叫reviewer的角色。第三个人叫终审的人，就是approver。经过这三个人的逐轮审核之后，一般来说题目的问题不会很大。”

SUPERChem题库的三阶段审核流程（北大供图）

那么，当全世界的“最强大脑”们遇上了“北大难度”，结果如何呢？在这场精心设计的考试中，人类展现出了复杂的科学直觉，参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身，就足以说明这套题目的硬核程度。而接受测试的AI们，成绩仅与低年级本科生的平均水平相当。简单来说，北大学生赢了AI。但这个结果，其实早就在黄志贤这些主创人员的预测之中。

黄志贤说：“因为我们之前也做过一些调研，会发现常见的一些大模型都是基于文本的，它们的多模态能力没有那么强，也就是看图片的能力没有那么强。但是化学分子以及化学物质世界，至少是二维或者是三维的，就需要很多立体的信息。所以这方面在大语言模型，在一维的纯文本当中，很难理解这件事情。所以我们预估在这一类题目当中，其实它是做不好的。”

前沿模型在SUPERChem上的表现（北大供图）

既然早已预料到了结果，为何又让AI与人类对决，这样做的意义到底是什么？这群人类的“最强大脑”，难道只是为了证明可以战胜AI？黄志贤说，团队发布这项成果，并非为了证明AI的短板，而是为了推动它走得更远。

黄志贤表示：“去促进现在AI的发展，（北大）作为中国化学学科的领军者，我觉得有必要做这件事情去引导。虽然我们自己目前阶段不会去训练什么模型，但是我们要去引导计算机的研究者该如何去训练模型，在自然学科领域如何辅助我们自然学科的一些突破和发现。”

项目统筹人，北京大学化学与分子工程学院党委副书记高珍老师说，这次巅峰对决，其实是一次主动的“压力测试”，它既能检验人工智能在科学深水区的航行能力，更在倒逼我们重新思考：当AI越来越擅长处理“已有知识”时，我们人类的核心竞争力应该是什么？这是一场没有终点的对话。

高珍说：“一开始的时候我说你们为什么要做这件事？他俩给我的回答就是他们希望在AI的发展过程中留下自己的痕迹。这个非常简单、非常纯粹的想法，我觉得作为老师是很骄傲的。AI成长非常快，可能比我们人类要快得多。随着他们成长，可能我们的考核方式、难度或者综合性都要加强。那这个时候我们再怎么去设定这些题目或者是怎么去更新，可能是我们下一步要考虑的问题。”

这场测试最有趣的影响，还发生在考场之外。黄志贤说，在北大校园里，越来越多的老师开始改变出题思路。

黄志贤说：“现在很多学生，包括老师也会困惑。就是现在AI那么厉害，知识量那么庞大，我们自己该学什么？该如何教育？该如何教学？其实也会看到，现在很多老师也在创新自己的考核方式，会去设计一道AI做不出来的题目。其实在出题的过程也得自己去学习，学得很深入，把知识点都串在一起，进行很严谨、很深度的推理。”

在人工智能时代，最珍贵的可能不再是“知道什么”，而是“还能想知道什么”。当机器越来越擅长回答已有问题的时候，人类最不可替代的价值，或许就在于我们永远能提出新的问题。而教育要做的，就是保护好这种提问的能力。

责编：李传新

一审：李传新

二审：杨丹

三审：杨又华

来源：央广网

我要问