ChatGPT准确率逐渐下滑：探究人工智能模型的变化

ChatGPT与PPT 2年前 (2023) lida

64 0 0

文章主题：人工智能, 机器学习, 模型表现

作为现代人工智能的核心优势之一，人们普遍认为机器能够随着时间的学习而不断优化自身的性能。然而，最近的一项研究却揭示了一个令人意想不到的事实：ChatGPT 在某些任务上，其表现竟然随时间的推移而逐渐下滑。这一发现无疑给人们对人工智能的持续进步带来了新的思考。

在斯坦福大学和加州大学伯克利分校研究人员提交的论文初稿中，他们对支持ChatGPT的OpenAI大型语言模型（LLM）GPT-3.5和GPT-4的研究成果进行了分析，发现其中存在相当大的差异。

ChatGPT准确率逐渐下滑：探究人工智能模型的变化

在2021年3月至2021年6月期间，斯坦福大学和加州大学伯克利分校的研究团队发现，GPT-4在数学方面的表现略有下滑，而与此同时，GPT-3.5在数学领域的表现却呈现上升趋势。这一发现揭示了人工智能系统在不同阶段的表现波动，进一步强调了持续对AI模型的评估与优化的重要性。

在这篇具有深度研究背景的文章中，作者团队的三位核心成员被引入讨论。他们分别是斯坦福大学的助理教授Matei Zaharia，来自加州大学伯克利分校的Lingjiao Chen以及James Zou。其中，Matei Zaharia不仅是Databricks的联合创始人，更是Apache Spark的创立者之一。他们的研究成果在学术界引起了广泛的关注，为大数据处理领域的发展做出了重要贡献。

在人工智能任务测试平台上，研究者们针对各类问题展开了深入的探讨，其中包括数学问题、涉及敏感与危险问题的回答、针对民意调查的回应、以及处理多跳知识密集型问题的能力。此外，他们还致力于生成代码、应对美国医疗执照考试以及提升视觉推理能力。通过这一系列的研究，我们期待能够更好地理解和应用人工智能技术。

研究结果显示，LLM提供的答案答案差异显著。科学家们注意到，GPT-4在解答数学问题的能力上，特别是在六月份的版本中，表现远低于三个月前的版本。以思维链（COT）提示正确识别质数的精确度为例，GPT-4在六月份的准确率从三个月前的84.0%下降至51.1%。相反，GPT-3.5在这一项测试中的准确率则在六月份上升，从三个月前的49.6%增长到76.2%。

在深入探讨GPT-4准确率暴跌的原因时，作者发现其中一种关键因素是COT（上下文）行为的差异。在3月份的版本中，系统被拆解为多个步骤，这完全符合研究人员的COT提示要求。然而，令人失望的是，到了6月份的GPT-4版本，并未提供任何的中间步骤或解释，仅仅是草率地将答案生成为什么是“否”。研究人员进一步指出，即便GPT-4能够给出正确的答案，但它并没有展示出自己的工作过程，这也导致其答案出现错误。

在第二道数学题目中，同样出现了较为严重的偏差：寻找快乐数（happy number）。这一概念源于数学领域，指的是一个整数经过其各个数字的平方和不断替换后，最终结果为1。据研究人员报道，他们在执行这项任务时发现了显著的性能差异。具体来说，GPT-4在六月份的准确率从三月的83.6%下降至35.2%，而GPT-3.5则在同期从30.6%提升至48.2%。此外，研究人员还注意到，GPT-4并未遵循他们所发布的COT指令进行操作。

当研究人员向 LLM 提出敏感或危险问题时，也观察到了变化。随着时间的推移，GPT-4 回答问题的意愿有所下降，从 3 月份的 21.0% 下降到 6 月份的 5.0%。相反，GPT-3.5 则变得更加健谈，从 2.0% 上升到 5.0%。研究人员总结说，OpenAI 在 GPT-4 中采用了“更强的安全层”，而 GPT-3.5 则变得“不那么保守”。

ChatGPT准确率逐渐下滑：探究人工智能模型的变化

斯坦福大学和加州大学伯克利分校的研究人员说，从 3 月到 6 月，GPT-4 参与民意调查的意愿有所下降

意见调查测试表明，GPT-4 的意见提交率明显下降，从 3 月份的 97.6% 下降到 22.1%，而字数(或字数)增加了近 30 个百分点。GPT-3.5 的回复率和字数几乎保持不变。

在回答需要“多跳推理”的复杂问题时，发现了性能上的显著差异。研究人员将具有提示工程能力的 LangChain 与用于回答多跳问题的 HotpotQA Agent 相结合，结果发现，在生成完全匹配的答案方面，GPT-4 的准确率从 1.2% 提高到了 37.8%。不过，GPT-3.5 的“完全匹配”成功率从 22.8% 降至 14.0%。

在代码生成方面，研究人员发现两种 LLM 的输出结果在可执行性方面都有所下降。3 月份，GPT-4 超过 50% 的输出可直接执行，而 6 月份只有 10%，GPT-3.5 也有类似的下降。研究人员发现，GPT 开始在 Python 输出中添加非代码文本，如额外的撇号。他们推测，额外的非代码文本是为了让代码更容易在浏览器中呈现，但却使代码变得不可执行。

在美国医学执照考试中，GPT-4 的成绩略有下降，从 86.6% 降至 82.4%，而 GPT-3.5 下降不到 1 个百分点，降至 54.7%。然而，随着时间的推移，GPT-4 答错的答案也发生了变化，这表明随着 3 月份的一些错误答案得到纠正，6月份LLM从正确答案变成了错误答案。

视觉推理测试在两个模型中都有小幅改善。不过，总体准确率(GPT-4 为 27.4%，GPT-3.5 为 12.2%)并不高。研究人员再次观察到，这些模型在之前正确回答的问题上产生了错误答案。

研究人员写道，测试结果表明，GPT-3.5 和 GPT-4 的性能和行为在短时间内发生了显著变化。

“这凸显了对应用程序中 LLM 漂移行为进行持续评估和评价的必要性，尤其是因为 ChatGPT 等 LLM 如何随时间更新并不透明。”研究人员写道，“我们的研究还强调了统一提高 LLM 多方面能力的挑战。提高模型在某些任务中的性能，例如对额外数据进行微调，可能会对其在其他任务中的行为产生意想不到的副作用。相应的，GPT-3.5 和 GPT-4 在某些任务上的表现越来越差，但在其他方面却有所改善。此外，GPT-3.5 和 GPT-4 的变化趋势往往是不同的。”

原作者：Alex Woodie