高考覆盖各类学科及题型,同时因其开考前的 “绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的 “试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。
2024 年全国高考甫一结束,司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考 “语数外” 全卷能力测试。评测采用全国新课标 I 卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷” 性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过 70%。大部分模型 “考生” 语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,InternLM2-20B-WQX 取得了数学单科的最高分,超越包括 GPT-4o 在内的所有模型。
司南评测体系团队选取了 GPT-4o 及在 2024 年高考前开源的 6 个模型(简介如下)参与本次 “大模型高考” 评测。
-
Mixtral 8x22B:法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。
-
Yi-1.5-34B:零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。
-
GLM-4-9B:智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。
-
InternLM2-20B-WQX:上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。
-
Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。
-
Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。
因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入 GPT-4o 作为评测参考。上述模型的高考 “语数外” 三科成绩结果如下表所示:
本次 “大模型高考” 答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。
公开评测细节可访问:https://github.com/open-compass/GAOKAO-Eval
语言能力表现良好,数学水平尚待提高
司南评测体系首次采用高考全卷测试的形式,选取新课标 I 卷 “语数外” 三科题目作为测试集。因受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含 2 道带图试题),英语听力部分(分值 30 分)不纳入此次评测。
总分前三名 Qwen2-72B、GPT-4o、InternLM2-20B-WQX 对应得分率分别为 72.1%、70.5% 和 70.4%。大部分模型在 “语言” 本质上的表现良好,语文平均得分率为 67%,英语更是达到了 81%。
而数学则是所有大模型的短板,平均得分率仅为 36%。得益于研究团队在数学推理上的投入,InternLM2-20B-WQX 取得了 75 分的最高分,超过所有受测模型。然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。
研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。
语文:
模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。
多数模型无法理解 “本体”“喻体”“暗喻” 等语文概念。语言中的一些 “潜台词”,大模型尚无法完全理解。
数学:
大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。
英语:
英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。