ChatGPT代码能走多远？EvalPlus新测评揭示准确率真相

文心一言 2年前 (2023) lida

47 0 0

文章主题：ChatGPT, 代码评估, EvalPlus, AI准确性

666ChatGPT办公新姿势，助力做AI时代先行者！

萧箫发自凹非寺

量子位 | 公众号 QbitAI

用ChatGPT写代码，已经是不少程序员的常规操作了。

△“至少提速3~5倍”

但你有没有想过，ChatGPT生成的代码，有不少只是“看起来准确”而已？

来自伊利诺伊大学香槟分校和南京大学的一项最新研究表明：

ChatGPT和GPT-4生成代码的准确率，比之前评估的至少要降低13%！

🚀面对学术界的这一现象，我们不禁要问：那些看似耀眼的”SOTA”成果背后，是否隐藏着表面光鲜、实则脆弱的论文泡沫？🔍许多ML研究常常依赖不完善的基准数据，以此短暂刷高分数，却忽略了其在实际应用中的局限性。🌈一旦换用更严格的评估标准，这些所谓的“最佳”模型往往瞬间崩塌，真相大白。学术诚信与长期进步才是我们应该追求的目标，而非短期的虚假繁荣。📝诚然，基准的更新是科技进步的一部分，但我们不能盲目迷信那些仅凭一时之功就宣称超越一切的论文。🎯我们需要更深入地探讨和改进评估方法，确保模型的真实价值得以体现，而不是被表面的”SOTA”所迷惑。让我们共同努力，打破这种依赖不充分基准的风气，推动ML研究向着更加稳健和可持续的方向发展。🌍

还有网友表示，这也说明大模型生成的代码仍然需要人工监督，“AI写代码的黄金时间还没到呢”。

所以，论文提出了一种怎样的新测评方法？

给AI代码考题加大难度

这个新方法名叫EvalPlus，是一个自动化代码评估框架。

具体来说，它会通过改进现有评估数据集的输入多样性和问题描述准确性，来将这些评估基准变得更严格。

一方面是输入多样性。EvalPlus会先根据标准答案，用ChatGPT生成一些种子输入样例（虽然要测ChatGPT的编程能力，但用它生成种子输入似乎也不矛盾doge）

随后，用EvalPlus改进这些种子输入，将它们改得更难、更复杂、更刁钻。

另一方面是问题描述准确性。EvalPlus会将代码需求描述改得更精确，在约束输入条件的同时，补充自然语言问题描述，以提高对模型输出的精确度要求。

这里，论文选择了HUMANEVAL数据集作为示范。

🌟🚀【揭秘】OpenAI&Anthropic联合打造的人工智能瑰宝——Humaneval！💡🔍探索无界智慧：这个独特的代码挑战集，由OpenAI与Anthropic携手倾力打造，总计164个精心设计的编程难题，涵盖了语言理解、算法深度、数学逻辑和尖端软件面试的全方位领域。🎯📚语言与思维的交响曲：无论你是语言大师还是算法狂热者，每个问题都是一个智慧的乐章，等待你去解答，挑战你的思维边界。🎵🧩算法与数学的密室：这里没有简单的答案，每一个难题都藏着严密的逻辑和数学原理，等待解谜高手来破译。🔍🌟SEO优化提示：使用关键词如”人工智能编程挑战”, “OpenAI-Anthropic合作”, “语言理解算法训练”, “面试问题集”等，提升搜索引擎可见度。📝想要提升技能，或者对AI有深度探索欲望？Humaneval是你不可错过的学习伙伴！它不仅提供知识，更塑造未来的开发者。👩‍💻👨‍💻欲了解更多详情，敬请关注我们的官方平台，或直接搜索”Humaneval公开数据集”获取最新资源。🏆#Humaneval #AI编程挑战 #OpenAI-Anthropic合作

🌟 EvalPlus专注于提升编程难题的清晰度，通过优化数据集的输入格式和表述，让每个问题都更具挑战性。它致力于创造一个更复杂的测试环境，让编程之旅更加充满探索与智慧。🌍

以其中的一道求并集编程题为例，要求AI写一段代码，找出两个数据列表中的共同元素，并给这些元素排序。

EvalPlus用它来测测ChatGPT写的代码准确度。

✨📊测试开始！使用ChatGPT轻松启航，它展现出色的语言生成能力，无论是基础问题还是复杂指令，都能给出精准回应。然而，惊喜总伴随着挑战，当换种方式提问时，ChatGPT的反应却暴露了它的内部逻辑——一个小小的bug跃然眼前。📚💻虽然看似瑕疵，但这恰恰验证了其强大的学习与适应能力，有待进一步优化和改进。SEO友好的提示：#ChatGPT测试#人工智能进步#代码调试

属实是给AI们加大了考题难度。

🌟【 EvalPlus 的创新升级！】🚀通过深度优化的路径，EvalPlus 不仅延续了卓越的方法论，更推出了备受瞩目的 HUMANEVAL 扩展版——一个经过精心打磨的修订集。💡在这个升级版中，我们不仅增添了丰富多样的输入挑战，还对那些曾经在原数据集中引发争议的编程题目进行了严谨的审视与修正。💻 旨在提供更为准确、无误的评估环境，确保每个环节都经得起最严格的考验。 EvalPlus 的这一创新举措，无疑为人工智能伦理和质量评估领域树立了新的标杆。🏆欲了解更多详情，敬请关注我们后续发布的官方更新，或直接搜索 “EvalPlus HUMANEVAL 修订集”，体验这个智能评估领域的革新之旅！🚀记得用 #EvalPlus #HUMANEVAL #AI伦理来标记你的兴趣哦！😊

那么，在这套“新考题”下，大语言模型们的准确率实际上要打几折？

LLM代码准确率平均降低15%

作者们测试了当前比较受欢迎的10种代码生成AI。

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。

从表格中来看，经过严格测试后，这群AI的生成准确率都有所下降：

🌟🚀了解评估模型性能的秘密吗？🔍使用Pass@K这一创新工具，我们以$k$为关键参数，通过量化程序生成的问题数量来精确测量预测精度。$n$作为测试基准，确保每个样本都有充分考量。而$c$，就是那些精准无误的输入，它们是检验智能程度的明证。🚀🏆通过这种方式，不仅保证了分析的科学性，还能提升SEO优化，让你的文章在搜索引擎中脱颖而出！🎯📚想要深入了解？点击链接或探索我们的资源库，让我们一起揭开数据智能的面纱！🌐

根据新的这套评估标准，大模型们的准确率平均下降了15%，其中比较广泛研究的CODEGEN-16B更是下降了超过18%。

至于ChatGPT和GPT-4生成代码的性能，也下降了至少13%。

不过，也有网友表示，大模型生成的代码效果没那么好，已经是“众所周知的事实”了，需要研究的是“为什么大模型写的代码不能用”。