国产大模型谁更强？超越MMCU带你一探究竟！

学会提问 2年前 (2023) lida

63 0 0

文章主题：甲骨易AI研究院, 超越MMCU文本测试集, 中文大语言模型, ChatGPT对比

666ChatGPT办公新姿势，助力做AI时代先行者！

⭐欢迎关注预约“头号AI玩家”视频号直播

作者 | 卷毛

编辑 | 张洁

头图 | Midjourney

* 今日头图使用Midjourney创作，关键词“一个机器人坐在桌前考试，手里拿着笔在卷子上答题，漫画 –ar 16:9”

文心一言、通义千问、讯飞星火、MOSS……国产大模型这么多，究竟哪家强？

有的大模型对外宣称，自己已经“接近ChatGPT”、“超越ChatGPT”了，果真如此吗？

这类判定多是作者自述或测试了几个问题就得出的，实际上并不科学严谨。

“认知大模型刚刚起步，还在快速成长和迭代过程中，如果只是找一些单点例子来证明哪个系统强和弱，是没有意义的。”科大讯飞董事长刘庆峰曾表示，当我们向OpenAI致敬和学习，同时快速追赶并努力超越的时候，我们首先需要一套科学系统的评测体系。

让大模型像人类一样去参加考试，是目前比较通用的一种做法。

🌟【OpenAI技术震撼】🔥GPT-4实力超群，专业测试亮眼！🔍🚀 当OpenAI揭秘GPT-4的强大时，这一人工智能巨作的卓越表现震惊全球！它在众多专业领域的考验中展现出无人能及的智慧光芒。🎓🌈 不仅如此，GPT-4更是通过严苛的基准考试，如美国律师资格考试Uniform Bar Exam、LSAT（法学院入学测试）以及备受瞩目的SAT数学部分和证据性阅读与写作，证明了其超凡实力！📊据统计，在这些至关重要的考试中，GPT-4的成绩遥遥领先，高达88%的应试者难以望其项背。🏆 这不仅是技术的进步，更是智慧的飞跃！🌟欲了解更多关于GPT-4如何颠覆传统、引领未来学习的精彩故事，敬请关注我们的最新动态！👇#OpenAI #GPT-4 #人工智能教育

🌟惊！GPT-4会计大考再创辉煌，分数高达85.1%，🔥业界翘楚！研究表明，这款人工智能已证明其在金融领域的实力，这无疑是对传统教育的一次颠覆性挑战。🏆最难认证之一的CPA考试，GPT-4轻松拿下，打破了我们对技术与专业知识界限的认知。🌟SEO优化提示：#GPT_4会计成就# #AI教育革命# #CPA考试新高度

那么中文大模型也可以进行类似的测试，不过国内针对中文大模型的测试集并不多。

近日，甲骨易AI研究院首创推出了国内首个高质量中文数据集——“超越”（MMCU），一套针对中文通用大语言模型的测试集以及相应的评测方法，填补了中文大语言模型能力测试缺失的一大空白。

MMCU论文链接：https://arxiv.org/abs/2304.12986

🌟揭秘！顶尖AI测试集背后的秘密🔍💡🚀甲骨易AI研究院的最新力作，一场科技盛宴于5月20日震撼揭晓！他们精心打造的测试集，是如何引领行业风向标呢？让我们一探究竟！📚📊数据之源，是科研智慧的结晶而非神秘黑箱。这套集大成之作的数据，源于海量、权威的源头，确保了结果的精确与公正。🌍🔍每个模型的表现，都是实力的最佳证明。甲骨易的深度学习算法在测试中表现出色，为行业树立了新的标杆。🏆但别忘了，这些亮眼的成绩背后，是严谨的科研态度和对技术的执着追求。他们的详细介绍，无疑为AI领域的同仁们提供了深入学习的宝贵机会。📚💻想要了解更多？敬请关注我们的后续更新，让科技的力量引领你探索未来！🚀#甲骨易AI #测试集揭秘 #AI研究进展

下面，让我们来了解一下本场发布会的主角——“超越”MMCU文本测试集。

中国高考难倒ChatGPT，全科不合格

为什么要推出“超越”(Massive Multitask Chinese Understanding)数据集？

🌟了解最新动态！尽管国内各大AI巨头声称其大模型已能与ChatGPT相抗衡，但这领域的国际领先水平仍遥不可及。超越并非易事，需要时间和不懈努力。虽然未来或许会出现惊喜，但目前市面上的言论更多是停留在理论层面，而非实际成效的有力证据。警惕过度宣传，关注那些经得起实践考验的创新成果哦！🚀

在国内大模型呈现“千模大战”的情况下，针对英文大语言模型已经有较为完善的评测方式，如2021年由Dan Hendrycks等人发布的MMLU（注：MMLU是一个2020年推出的包含57个不同学科的数据集，科目从STEM到人文，题目难度从初级到高级不等，主要目的是为了检验预训练模型的知识获取程度。）

但目前，一些可以用来评测大模型能力的数据集的数据分布存在不平衡的现象，如Common Crawl中，英文数据占了46%，而中文数据仅有5%。如果后续大模型都依照这种不平衡的配比进行训练，最终的结果是大模型的中文能力将远远不如英文。

与此同时，对理解中文的大语言模型及时加以客观公正的评价，使其“越”来越强大，也成为了当务之急。

🌟🚀”超越梦想，引领未来”——甲骨易的愿景，我们致力于打造一款中文大语言模型，它不仅突破传统，以全面的学科知识深度与广度为基准，更能超越英文数据集的局限。这不仅仅是一次技术的进步，更是对模型精准评估和能力打分的全新探索。让研究者们能够更深入地剖析模型，挖掘其潜在的不足，从而推动学术界的卓越发展。🌍🧠

图：甲骨易AI研究院研究员Felix

“超越”数据集的测试内容来自医疗、法律、心理学和教育四个大类的题目，包含单项选择和多项选择题，目的旨在使测试过程中模型更接近人类考试的方式。

🎉🔥超万家题库大揭秘！🎓📊教育领域海量资源，只为你的知识之旅保驾护航！🔍高考热度燃爆，中国教育的瑰宝，语文数学物理化学，政史地生一网打尽！📚数千道真题来自高考圣殿，覆盖所有学科深度剖析，助你掌握核心知识点。🎯3331个问题，不仅检验智慧，更塑造未来！模型挑战无界，世界知识大比拼，全方位考察你的博识广度。🌍无论你是学霸还是小白，这里都能找到你的专属难题和答案。🏆SEO优化提示：使用教育关键词如”高考全科题库”、”学科深度解析”、”世界知识挑战”等，同时保持内容的连贯性和吸引力。记得加入一些行业术语和未来趋势预测，让文章更具价值。

示例：

若圆锥的侧面积等于其底面积的3倍，则该圆锥侧面展开图所对应扇形圆心角的度数为（）。

A. 60°

B. 90°

C. 120°

D. 180°

医疗、法律、心理学是三个最常用的专业领域，采用专业级题目，衡量模型的专业领域知识。而且所有题目均无法直接从网络抓取，由人工整理，尽可能确保不出现在大模型的训练数据中。

医疗类题目来自大学医学专业考试，包括医学三基、药理学、护理学、病理学、临床医学、传染病学、外科学、解剖学等，共有2819个问题。

示例：

首次急性发作的腰椎间盘突出的治疗方法首选：

A. 绝对卧床休息，3 周后戴腰围下床活动

B. 卧床休息，可以站立坐起

C. 皮质类固醇硬膜外注射

D. 髓核化学溶解

法律类题目来自国家统一法律职业资格考试，包括中国特色社会主义法治理论、宪法、中国法律史、国际法、刑法、民法、知识产权法、商法、经济法、劳动与社会保障法等，共有3695个问题。

示例：

根据法律规定，下列哪一种社会关系应由民法调整？

A. 甲请求税务机关退还其多缴的个人所得税

B. 乙手机丢失后发布寻物启事称：“拾得者送还手机，本人当面酬谢”

C. 丙对女友书面承诺：“如我在上海找到工作，则陪你去欧洲旅游”

D. 丁作为青年志愿者，定期去福利院做帮工

心理学类题目来自心理咨询师考试和研究生入学考试心理学专业基础综合考试，包括心理学概论、人格与社会心理学、发展心理学、心理咨询概论、心理评估、咨询方法等，共有2000个问题。

示例：

把与自己本无关系的事情认为有关，这种临床表现最可能出现于：

A. 被害妄想

B. 钟情妄想

C. 关系妄想

D. 夸大妄想

评测的方式也类似于人类考试。“我们是把大模型当作一个真正的人类来看待”，甲骨易AI研究院研究员Felix如是说，测试集之所以涉及语、数、物理、化学这些科目，因为人工智能必须像人类一样，具备对于世界的基础的认知；而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。

图：MMCU文本测试集测试方法

这里有两种提问方式：zero-shot和few-shot，zero-shot就是一道道题目直接输入到模型，few-shot则会先给模型提供5个问题和答案的例子，打个样，再附上问题让模型给出答案。并且，“超越”采用代码自动化评测，能自动提取答案计算准确率。

为了测试数据集的可行性和效果，甲骨易AI研究院在正式公开前已经使用“超越”对目前开源的大模型进行了评测，模型包括Bloom系列、智谱AI的ChatGLM 6B、复旦大学的MOSS 16B、OpenAI的GPT-3.5-turbo。

图：模型评测结果

如上图的评测结果显示，在医疗、法律、心理学和教育四大领域上，GPT-3.5-turbo的正确率都遥遥领先，优势明显，其zero-shot平均分数最高，比最低的模型bloomz_1b1超出近18.6个百分点。

MOSS 16B模型虽然有160亿参数，但四大领域的准确率却只接近随机准确率（大约25%）；bloomz_560m模型的参数量最小，表现却超越了参数量更大的模型。这表明大模型的参数量不是评价大模型的唯一标准，在训练过程中数据的质量也应得到重视。

在教育领域，即中国高考的测试结果显示，GPT-3.5-turbo依然全面领先，语文、数学、物理、化学、政治、历史、地理、生物科目优势明显。不过跟人类相比，GPT-3.5-turbo的单科最高成绩为生物科目的0.599，依然未能达到人类考试的及格线。

从单科目来看，物理科目的准确率最低，只有GPT-3.5-turbo超过0.3，达到0.327。国产模型在语文、政治等理论上的优势科目上也未能展现出优势，可能是模型参数量差距太大。

图：模型评测结果

甲骨易AI研究院认为，分数最高的GPT-3.5-turbo在这项测试中的表现也远远未达到“优秀”，中文大模型还有机会。更大的模型参数量不一定带来更好的性能，而训练方式和所用数据质量也是至关重要的，需要得到更多的重视。

目前“超越”评测集代码以及评测结果文件已上传至开放代码库（https://github.com/Felixgithub2017/MMCU），感兴趣的朋友可以联系甲骨易AI研究院申请获取数据集（邮箱：order@besteasy.com）。

加速成长的大模型，稀缺的中文数据资源

国产大模型的鏖战才刚刚开始。究竟各自实力如何，哪家大模型更强却没有公认的定论。这时候用一套科学系统来判定大模型到底发展到了什么程度，能很好地完成哪些任务，又暂时做不好哪些任务，建立起这样的评测基准是非常必要的，也是困难重重的。

在发布会现场，有与会者提问建立针对中文大模型的测试集与英文版数据集在思路上有什么不同？

Felix认为，最明显的差异是语种，结合我们具体的国情来看，我们主要通过考试比如高考来衡量一个人对各领域的知识理解，所以甲骨易从众多考试中抽取了评测题目，由此组成了“超越”数据集。

但无论是用于大模型训练，还是大模型评测的高质量中文数据集，仍然非常稀缺，中文公开语料远不足英文，这也成为“中国版ChatGPT”的核心痛点。

另外，关于中文的理解能力要怎么定义，仅仅是考查对知识的理解吗？可不可以不局限于选择题，在未来能否拓宽思路让大模型做其他类型的题目或采取别的提问方式呢？

的确，评测一个人的各项能力有多种方式，对机器的评测也应该尽量科学全面，有用户反馈称即使是相同的数据集，采用不同的提问方式可能也会生成不同的答案，导致准确率有较大差异。甲骨易AI研究院表示“超越”MMCU数据集和评测方式还在持续优化中，欢迎大家共同推进中文大模型的公开、透明评测。

“甲骨易AI研究院的成立，标志着我们希望在未来搭建人与机器、机器与机器的沟通桥梁，继续拓宽语言的边界。”甲骨易数据服务事业部负责人王敏说道。

人类的进化从语言开始，而人工智能也从理解自然语言开始不断进化。

根据业界的定义，人工智能产业发展演变有四个层面，分别为运算智能层（早已实现），感知智能层（目前已在多领域接近人类水平），是认知智能层（尚在推进中）及通用智能层（尚有距离）。

小米大模型数据负责人彭力认为，眼下的我们正在向通用人工智能（AGI）演进，而大语言模型则可以加速人工智能演进的进程与当前面临的技术难点。

新一轮人工智能革命已然到来，而中文大模型需要尽快成长，我们期望有一天真的能“超越”同行达到领先水平。

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT OpenAI 人工智能写作

版权声明：lida 发表于 2023年5月24日 am8:19。
转载请注明：国产大模型谁更强？超越MMCU带你一探究竟！ | ChatGPT资源导航

ChatGPT引领教育变革，市场瞬间沸腾？探秘大模型创业热与技术秘密

da, li

阿里内测类ChatGPT，BAT布局生成式AI，ChatGPT引发的保险服务革命你准备好了吗？

da, li

思必驰IPO折戟，AI老牌企业亏损困境如何破？

da, li

教师何去何从？AI时代，教育的全貌变革与教师的新挑战

da, li

如何有效利用ChatGPT编写高质量AI思维框架？揭秘Prompt工程与实例分析

da, li

高效编辑PDF文件，UPDFAI助你一臂之力

da, li

国产大模型谁更强？超越MMCU带你一探究竟！

中国高考难倒ChatGPT，全科不合格

加速成长的大模型，稀缺的中文数据资源

ChatGPT概念板块跌势强劲？哪些股上涨了？

AI系统审查更严！ChatGPT禁令解除后，意大利监管机构这样做穿浴巾、内衣外露，聂小雨拜师小杨哥，为博流量已经不择手段？

相关文章

相关文章