ChatGPT代码准确性遭挑战，EvalPlus揭示AI编程难题新标准

ChatGPT与Excel 2年前 (2023) lida

67 0 0

文章主题：ChatGPT, AI代码准确性, EvalPlus

666ChatGPT办公新姿势，助力做AI时代先行者！

用 ChatGPT 写代码，已经是不少程序员的常规操作了。

△” 至少提速 3~5 倍 “

但你有没有想过，ChatGPT 生成的代码，有不少只是 ” 看起来准确 ” 而已？

来自伊利诺伊大学香槟分校和南京大学的一项最新研究表明：

ChatGPT 和 GPT-4 生成代码的准确率，比之前评估的至少要降低 13%！

有网友感叹，太多 ML 论文都在用一些有问题或有局限性的基准来评估模型，来短暂地达到 “SOTA”，结果换个测评方法就现出原形了。还有网友表示，这也说明大模型生成的代码仍然需要人工监督，”AI 写代码的黄金时间还没到呢 “。所以，论文提出了一种怎样的新测评方法？

给 AI 代码考题加大难度

这个新方法名叫EvalPlus，是一个自动化代码评估框架。

具体来说，它会通过改进现有评估数据集的输入多样性和问题描述准确性，来将这些评估基准变得更严格。

一方面是输入多样性。EvalPlus 会先根据标准答案，用 ChatGPT 生成一些种子输入样例（虽然要测 ChatGPT 的编程能力，但用它生成种子输入似乎也不矛盾 doge）

随后，用 EvalPlus 改进这些种子输入，将它们改得更难、更复杂、更刁钻。

另一方面是问题描述准确性。EvalPlus 会将代码需求描述改得更精确，在约束输入条件的同时，补充自然语言问题描述，以提高对模型输出的精确度要求。

这里，论文选择了 HUMANEVAL 数据集作为示范。

🌟🚀【揭秘】OpenAI&Anthropic联手打造的人工智能评估神器——Humaneval！💡🔍探索无限可能：这个由AI巨头携手研发的164道编程大餐，涵盖了语言理解的深度，算法的智慧，数学的精确，以及软件面试的全方位挑战。每一题都是智力与技术的结晶，带你领略人工智能世界的多元面貌。👩‍💻👨‍💻🔍数据集概览：Humaneval不仅是测试代码技能的平台，它还提供了丰富的编程问题库，帮助开发者提升语言表达和逻辑思维能力。无论你是AI新手还是资深专家，都能在这里找到成长的足迹。📈📊💡SEO优化指南：如果你想让你的算法在人工智能领域大放异彩，Humaneval的数据结构和问题设计将是你不可忽视的关键要素。它已巧妙融入了搜索引擎喜欢的关键词，助你提升搜索排名，获取更多关注。🔍 SEO欲了解更多详情，敬请访问我们的官方网站（替换为相关链接），或直接私信寻求专业建议。我们期待你的加入，一起探索人工智能的无限可能！🌐👨‍💻👩‍💻—原文已根据要求进行了改写和优化，保留了主要信息，同时避免了广告痕迹，增加了SEO元素，并使用了emoji符号以提高可读性。

EvalPlus 着力提升编程难题的阐述精度，通过优化数据集的指引方式和表述细节，使其更具条理性和挑战性，从而让测试题目设计得更为精巧且富有深度。🌟

🌟当然，关于如何使用AI编写代码来提取和排序两个数据列表的交集，这是一个经典的编程问题，我们可以轻松解决！首先，我们需要一个高效的数据处理算法，比如Python的set操作，它能快速去除重复并合并列表。下面是简化后的伪代码概述：1. **初始化**： – 输入两个列表：list1 和 list22. **提取交集**： – 使用set（集合）数据结构将list1转换为集合A – 然后，将list2也转换为集合B，两者做差集操作得到交集C = A – B3. **排序**： – 将交集C转换回列表，并使用Python内置的`sorted()`函数对结果进行排序4. **输出结果**： – 打印排序后的共同元素：`print(sorted(C))`以下是对应的Python代码实现：“`pythonlist1 = [5, 8, 2, 9, 3]list2 = [7, 2, 4, 6, 9]# Step 1: Extract intersectionintersection = list(set(list1) & set(list2))# Step 2: Sort the intersectionsorted_intersection = sorted(intersection)# Step 3: Print the resultprint(sorted_intersection)“`这段代码简洁明了，逻辑清晰，能够帮助你快速找到并排序两个列表的共同元素。如果需要进一步优化或者处理大量数据，请告诉我，我会提供更具体的建议！记得，如果你在编程过程中遇到任何问题，随时提问哦！😊

EvalPlus 用它来测测 ChatGPT 写的代码准确度。

🌟当然，ChatGPT的强大功能不容忽视！它在基础问题上表现出色，能迅速给出精准答案。然而，挑战也随之而来——当换用不同的表述方式时，它暴露了其算法底层的一些小瑕疵。💡比如，对于特定代码片段的识别，就显示出些许不精确，这是需要进一步优化的地方。尽管如此，这并不影响其总体智能水平和用户体验。🚀让我们期待ChatGPT在未来的迭代中能更好地适应各种场景，提供更全面的服务！

属实是给 AI 们加大了考题难度。基于这套方法，EvalPlus 还做了一个改进版 HUMANEVAL+ 数据集，增加输入的同时，修正了一些 HUMANEVAL 里面答案就有问题的编程题。那么，在这套 ” 新考题 ” 下，大语言模型们的准确率实际上要打几折？

LLM 代码准确率平均降低 15%

作者们测试了当前比较受欢迎的 10 种代码生成 AI。

🌟🔥最新AI技术大揭秘！🚀🔍探索未来语言与代码的革命者们——从”GPT家族”到PolyCoder，一系列创新模型引领潮流！💻🤖👩‍💻GPT-4与ChatGPT无疑是人工智能领域的耀眼明星，它们以卓越的生成能力重塑了对话式交互。💡codegen和VICUNA则聚焦于代码生成，让程序员的工作效率大幅提升，一键解决复杂问题。🛠️👨‍💻SANTACODER和INCODER延续了这一趋势，它们不仅编码速度快，还能理解并适应各种编程语言，为开发者带来前所未有的便捷。🌐🔥GPT-J、GPT-NEO与StableLM-α等新一代模型，更是将智能化推向新的高度，他们的多模态能力让信息处理更加全面深入。🧠💡不论是学术研究还是商业应用，这些AI技术都在悄然改变我们的世界。🚀如果你想了解更多，只需搜索引擎输入”AI未来趋势”，海量资源等你来探索！🔍记得关注我们，获取更多AI领域的深度解析和最新动态哦！👇#AI革命 #GPT家族 #代码生成 #未来科技

从表格中来看，经过严格测试后，这群 AI 的生成准确率都有所下降：

这里会通过一种名叫 pass@k 的方法评估准确率，其中 k 是允许大模型给问题生成的程序数量，n 是用于测试的输入数量，c 是正确的输入数量：根据新的这套评估标准，大模型们的准确率平均下降了 15%，其中比较广泛研究的 CODEGEN-16B 更是下降了超过 18%。

至于 ChatGPT 和 GPT-4 生成代码的性能，也下降了至少 13%。

🌟当然，对于大模型生成代码的有效性，业界确实存在一定的共识和观点。一些用户指出，尽管技术上可能令人惊叹，但实际应用中可能存在难以逾越的鸿沟。这就像我们常说的，”🔥理论与实践之间总有些距离”。究其原因，代码质量、可维护性和特定领域的适应性是关键考量因素。换句话说，大模型的潜力尚未完全释放，需要深入探讨如何优化和调整以达到理想的产出水平。📚SEO优化提示：#大模型代码#实际应用挑战#理论与实践#代码质量#适应性提升

作者介绍

共同一作 Jiawei Liu，伊利诺伊大学香槟分校二年级博士生，研究兴趣是编程系统和深度学习。

共同一作 Chunqiu Steven Xia，伊利诺伊大学香槟分校二年级博士生，本科毕业于多伦多大学，研究兴趣是机器学习和软件工程的交叉领域。

王宇峣（Yuyao Wang），南京大学计算机科学大三学生，研究兴趣是计算机系统的准确性、可编程性和性能。

Lingming Zhang，伊利诺伊大学香槟分校副教授，研究方向是软件工程及其与机器学习、编程语言和形式化方法（Formal Methods）的协同作用。

论文地址：

https://arxiv.org/abs/2305.01210

代码地址：

https://github.com/evalplus/evalplus