高考覆盖各类学科及题型,同时因其开考前的 “绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的 “试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。
2024 年全国高考甫一结束,司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考 “语数外” 全卷能力测试。评测采用全国新课标 I 卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷” 性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
首个大模型高考全卷评测结果显示,Qwen2-72B、G[……]