ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!
本文内容来自于网络,若与实际情况不相符或存在侵权行为,请联系删除。
智能人机对话应用ChatGPT自推出以来,风靡全球,仅一个月时间,用户数量已超过一亿。其应用范围也不断扩展,包括了对各类考试项目的测试,如SAT、AP、GRE等。那么,如果ChatGPT参加中国的高考,究竟会有怎样的表现呢?它是否会在某些科目表现出偏科现象?这引发了众多人的好奇。现在,让我们来看看复旦大学和华东师范大学的学生们为我们带来的ChatGPT在高考试题上的表现评测。

评测题目:《评估大型语言模型在高考基准测试上的表现》
ChatGPT如何解答高考题目?
这项研究采用了零监督的方式,将高考试题转化为ChatGPT的输入。具体而言,他们将试题的内容作为输入,从而启动了ChatGPT的回答。对于不同科目和题型,研究团队设计了不同的问题引导方式。例如,在数学科目中,他们将数学公式转化为Latex格式的输入。

高考数据集
研究所采用的高考数据集包括了2010年到2022年间的全国A卷和B卷,共计13年的高考试卷。每套试卷包含了10门学科,分别是语文、数学、英语、物理、化学、生物、历史、地理、政治。值得注意的是,数学还分为理科数学和文科数学,这意味着更多的挑战和多样性。总计,数据集包含了2811道试题,各种题型丰富多彩。

在进行评估时,研究团队聘请了上海市曹杨第二中学的高中老师来批阅主观题,以确保评分的客观性和公正性。
实验和分析
ChatGPT在历年高考试题上的表现如下图所示。由于对成绩进行了归一化处理,将每个学科的分数都转化为100分制,因此无法与我们个人的高考成绩直接对比。然而,从图表中可以看出,ChatGPT的表现并不理想,恐怕即使是复旦大学和华东师范大学的学生也难以通过ChatGPT来应对高考挑战。那么,究竟是什么原因导致了这一结果呢?

下图展示了ChatGPT在不同学科以及主观题和客观题上的表现。蓝色代表客观题,黄色代表主观题。从分析中可以看出,ChatGPT在客观题上表现较好,特别是在英语阅读理解、单选题和完形填空等方面,其准确率分别达到了88.3%、78.1%和73.8%。然而,令人惊讶的是,即便是客观题中的理科数学,ChatGPT的准确率也不到40%。这无疑表明数学的难度确实不容小觑。
而在主观题方面,ChatGPT的表现相对较差,特别是在物理、化学、生物和数学等科目中,其主观题得分明显低于客观题。这是否意味着ChatGPT更偏向文科呢?根据批阅老师的评语,ChatGPT主要存在两方面的问题:首先,在解决数学问题时,难以正确解答复杂方程,并且偶尔使用错误的公式。其次,在阅读较长文章时,理解和概括能力相对不足。
总结
本研究表明,ChatGPT在其训练过程中可能没有使用中国高考题目的数据,因此其表现受到数据差异的影响较小,具有较高的可信度。然而,与国外考试相比,ChatGPT在中国高考题目上的表现略显逊色。因此,国内学生们目前无需过分担心无法击败ChatGPT。不过,值得一提的是,GPT4-32K等新型大模型在长文本概括能力等方面有了显著改进,国内的大型语言模型也在中文数据上进行了进一步的优化。因此,我们可以期待未来的大型模型在高考题上取得更加出色的表现。另外,利用ChatGPT解答高考题的方法或许也可以回答网友们对不同省份高考难度的争论。无论如何,ChatGPT的出现无疑为教育和智能化应用领域带来了更多的可能性。
以上内容资料均来源于网络,本文作者无意针对,影射任何现实国家,政体,组织,种族,个人。相关数据,理论考证于网络资料,以上内容并不代表本文作者赞同文章中的律法,规则,观点,行为以及对相关资料的真实性负责。本文作者就以上或相关所产生的任何问题任何概不负责,亦不承担任何直接与间接的法律责任。