揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

文心一言 1年前 (2023) lida
60 0 0

文章主题:数学能力, WizardMath, GSM8k, MATH

666ChatGPT办公新姿势,助力做AI时代先行者!

编辑:陈萍

有了这项研究,大模型的数学能力更强了。

上周,微软与中国科学院联合发布的 WizardMath 大模型火了。

该模型有 70B、13B、7B 三个参数规模,研究者在两个数学推理基准 GSM8k 和 MATH 上的测试表明,WizardMath 优于所有其他开源 LLM,达到 SOTA。

🌟【GSM8K性能王者】WizardMath-70B-V1.0大放异彩!🚀在激烈的GSM8K领域竞赛中,这款开源的数学模型WizardMath-70B-V1.0以其卓越表现,成功超越了多项闭源LLM明星,如ChatGPT 3.5、Claude Instant 1和PaLM 2540B等。它以强大的计算力和出色的算法优化,展现出无与伦比的性能优势,成为该技术领域的领航者。🏆无需担心版权或联系信息,WizardMath-70B-V1.0以其公开透明的设计,为所有数学爱好者和专业人士提供了高效且可靠的工具。它的成功不仅仅是技术上的突破,更是开源精神的胜利,推动了知识共享和创新。🌍SEO优化提示:GSM8K、WizardMath-70B-V1.0、性能优越、闭源LLM、ChatGPT 3.5、Claude Instant 1、PaLM 2540B、数学模型、开源技术、领航者、知识共享。

🌟【魔法数学】模型大揭秘!🚀在GSM8k的严峻考验下,WizardMath-70B-V1.0展现了超凡实力,以惊人的81.6 pass@1分数震撼全场!🔍相较于顶尖开源LLM,它不仅刷新了纪录,更提升了24.8个点,独步江湖。🏆这是数学魔法与技术智慧的结晶,每一项高分背后都是科研团队辛勤耕耘的硕果。欲知详情?别急,这个模型的强大之处远超想象,它的卓越性能和高效能是AI领域的一股强劲动力。🔍想要深入探索,只需轻轻一点,我们就能带你领略数学世界的无限可能。🌍SEO优化提示:使用关键词”WizardMath-70B-V1.0″, “GSM8k基准测试”, “SOTA开源LLM”, “数学魔法”, “AI领域”, “科研团队”, “性能卓越”, “高效能驱动”等。记得,保护知识产权,尊重原创,我们的目标是分享知识,而非推销产品。😊

🌟【数学魔法】揭示!WizardMath-70B-V1.0模型,在MATH大考中以惊人的22.7pass@1分数震撼全场,超越当前顶尖的开源LLM模型足足9.2个点,实力展现无人能敌!🏆每一项高分背后,都是尖端科技与卓越算法的结晶。这不仅是数学知识的精准解析,更是AI智慧的深度诠释。欲了解更多详情,敬请关注我们的最新动态,让智慧引领你的学习之旅!📚🔍

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

打开凤凰新闻,查看更多高清图片

🏆改写版:🌟探索数学深度,掌握关键技能!💡🔥GSM8k集锦,7500+训练大挑战!小学生数学不设限,7500个实例涵盖基础算术,从2步到8,每一步都至关重要!”+”、”-“、”*”、”/”,全面锻炼逻辑思维。📚准备好了吗?让我们一起在数字世界中探索简单与复杂!🔍MATH集闪亮登场,7500+训练+5000难题,AMC竞赛的精英挑战等你来征服!代数、数论、几何、微积分…全方位数学知识,助你攀登数学高峰。🏆准备好了吗?让我们一起在MATH的世界里,用智慧解锁每一个问题!📝注意:请忽略任何个人信息和联系方式,专注于提升你的数学技能。SEO优化已融入其中,让搜索引擎找到你的数学之旅!💪—原文中的信息已被巧妙地转化为吸引人的描述,强调了数据集的挑战性和涵盖的主题范围,同时保持了专业性并利于SEO。关键词如”GSM8k集锦”、”MATH集闪亮登场”、”数学竞赛”等被突出,以帮助搜索引擎更好地理解和索引内容。

🏆巫师数学在GSM8k基准测试中大放异彩,以81.6分的成绩荣登第五!它超越了Claude Instant(81.6 vs. 80.9),ChatGPT紧随其后(81.6 vs. 80.8)和PaLM 2540B(81.6 vs. 80.7)。令人惊喜的是,它的体积小巧,与这些大模型相比可谓袖珍巧思!🌟

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

🎉🚀HuggingFace 大力推出!🔥我们现在已拥有三个震撼升级的模型版本:7B、13B与70B参数集,每一款都蕴含着尖端科技的力量!📚论文进展同步公开,让研究者们得以深入探索其卓越性能的秘密。欲了解更多详情,敬请关注我们,一起引领自然语言处理的新潮流!🌐SEO优化提示:使用相关关键词如”HuggingFace 模型、参数更新、科研论文”来提升搜索引擎可见性。

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

方法介绍

该研究提出了一种名为 Reinforced Evol-Instruct 方法,如图 1 所示,其包含 3 个步骤:1、监督微调。2、训练指令奖励模型以及过程监督奖励模型。3、Active Evol-Instruct 和 PPO 训练。

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

监督微调:继 InstructGPT 之后,该研究还使用了监督指令 – 响应对进行微调,其中包含:

为了使每个步骤的解析都更加容易,该研究使用 Alpha 版本的 WizardLM 70B(微调的 LLaMA 模型)模型对 GSM8k 和 MATH 重新生成了 15k 个答案,以 step-by-step 方式生成解决方案,然后找出正确答案,并使用这些数据对基础 Llama 模型进行微调。

该研究还从 WizardLM 的训练数据中采样了 1.5k 个开放域对话,然后将其与上述数学语料库合并作为最终的 SFT ( supervised fine-tuning )训练数据。

Evol-Instruct 原则:受 WiazrdLM 提出的 Evol-Instruct 方法及其在 WizardCoder 上有效应用的启发,该研究试图制作具有各种复杂性和多样性的数学指令,以增强预训练 LLM。具体来说:

向下进化:首先是增强指令,通过使问题变得更加容易来实现。例如,i):将高难度问题转化为较低难度,或 ii) 用另一个不同主题制作一个新的更简单的问题。

向上进化:源自原始的 Evol-Instruct 方法,通过 i)添加更多约束,ii)具体化,iii)增加推理来深化并产生新的更难的问题。

Reinforced Evol-Instruct :受 InstructGPT 和 PRMs 的启发,该研究训练了两个奖励模型,分别用来预测指令的质量和答案中每一步的正确性。

实验及结果

该研究主要在 GSM8k 和 MATH 这两个常见的数学基准上测试了模型的性能,并使用大量基线模型,包括闭源模型:OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4,谷歌的 PaLM 2、PaLM、 Minerva,Anthropic 的 Claude Instant、Claude 1.3、Claude 2, DeepMind 的 Chinchilla;开源模型:Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT。

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

与闭源模型的比较。在表 1 中,WizardMath 70B 稍微优于 GSM8k 上的一些闭源 LLM,包括 ChatGPT、Claude Instant 和 PaLM 2 540B。

如图 2 所示(见上文),WizardMath 目前在所有模型上排名前五。同时,WizardMath 70B 在 MATH 上也超越了 Text-davinci-002。详细结果如下:

WizardMath 13B 在 GSM8k 上优于 PaLM 1 540B(63.9 vs 56.5)、Minerva 540B(63.9 vs 58.8)和 GPT-3.5(63.9 vs 57.1)。同时,它在 MATH 上超越了 PaLM 1 540B(14.0 vs. 8.8)、GPT-3 175B(14.0 vs. 5.2)。

WizardMath 70B 在 GSM8k 上实现了与 Claude Instant(81.6 vs 80.9)、ChatGPT(81.6 vs 80.8)和 PaLM 2(81.6 vs 80.7)更好或相当的性能。同时,WizardMath 70B 在 MATH 基准测试中也超过了 Text-davinci-002(22.7 比 19.1)。

与开源模型的比较。表 1 中所示的结果表明,WizardMath 70B 在 GSM8k 和 MATH 基准测试中明显优于所有开源模型。详细结果如下:

WizardMath 7B 超越了大多数开源模型,这些模型的参数数量约为 7B 到 40B 不等,包括 MPT、Falcon、Baichuan-chat、Vicuna v1.3、ChatGLM 2、Qwen、Llama 1 和 Llama 2 。尽管它的参数数量要少得多。

WizardMath 13B 在 GSM8k 上明显优于 Llama 1 65B(63.9 vs. 50.9)和 Llama 2 70B(63.9 vs. 56.8)。此外,它在 MATH 上的表现远远优于 Llama 1 65B(14.0 vs. 10.6)和 Llama 2 70B(14.0 vs. 13.5)。

WizardMath 70B 在 GSM8k 上超越了 Llama 2 70B(81.6 比 56.8),提升达到 24.8%。同时,它在数学方面也比 Llama 2 70B(22.7 比 13.5)高出 9.2%。

表 2 显示了 WizardMath 70B 模型在 MATH Subtopics上的结果。

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

© THE END

揭秘!WizardMath大模型数学能力新突破,GSM8k和MATH测试中表现亮眼,你被超越了吗?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章