ChatGPT准确率逐渐下滑:探究人工智能模型的变化
文章主题:人工智能, 机器学习, 模型表现
作为现代人工智能的核心优势之一,人们普遍认为机器能够随着时间的学习而不断优化自身的性能。然而,最近的一项研究却揭示了一个令人意想不到的事实:ChatGPT 在某些任务上,其表现竟然随时间的推移而逐渐下滑。这一发现无疑给人们对人工智能的持续进步带来了新的思考。
在斯坦福大学和加州大学伯克利分校研究人员提交的论文初稿中,他们对支持ChatGPT的OpenAI大型语言模型(LLM)GPT-3.5和GPT-4的研究成果进行了分析,发现其中存在相当大的差异。
在2021年3月至2021年6月期间,斯坦福大学和加州大学伯克利分校的研究团队发现,GPT-4在数学方面的表现略有下滑,而与此同时,GPT-3.5在数学领域的表现却呈现上升趋势。这一发现揭示了人工智能系统在不同阶段的表现波动,进一步强调了持续对AI模型的评估与优化的重要性。
在这篇具有深度研究背景的文章中,作者团队的三位核心成员被引入讨论。他们分别是斯坦福大学的助理教授Matei Zaharia,来自加州大学伯克利分校的Lingjiao Chen以及James Zou。其中,Matei Zaharia不仅是Databricks的联合创始人,更是Apache Spark的创立者之一。他们的研究成果在学术界引起了广泛的关注,为大数据处理领域的发展做出了重要贡献。
在人工智能任务测试平台上,研究者们针对各类问题展开了深入的探讨,其中包括数学问题、涉及敏感与危险问题的回答、针对民意调查的回应、以及处理多跳知识密集型问题的能力。此外,他们还致力于生成代码、应对美国医疗执照考试以及提升视觉推理能力。通过这一系列的研究,我们期待能够更好地理解和应用人工智能技术。
研究结果显示,LLM提供的答案答案差异显著。科学家们注意到,GPT-4在解答数学问题的能力上,特别是在六月份的版本中,表现远低于三个月前的版本。以思维链(COT)提示正确识别质数的精确度为例,GPT-4在六月份的准确率从三个月前的84.0%下降至51.1%。相反,GPT-3.5在这一项测试中的准确率则在六月份上升,从三个月前的49.6%增长到76.2%。
在深入探讨GPT-4准确率暴跌的原因时,作者发现其中一种关键因素是COT(上下文)行为的差异。在3月份的版本中,系统被拆解为多个步骤,这完全符合研究人员的COT提示要求。然而,令人失望的是,到了6月份的GPT-4版本,并未提供任何的中间步骤或解释,仅仅是草率地将答案生成为什么是“否”。研究人员进一步指出,即便GPT-4能够给出正确的答案,但它并没有展示出自己的工作过程,这也导致其答案出现错误。
在第二道数学题目中,同样出现了较为严重的偏差:寻找快乐数(happy number)。这一概念源于数学领域,指的是一个整数经过其各个数字的平方和不断替换后,最终结果为1。据研究人员报道,他们在执行这项任务时发现了显著的性能差异。具体来说,GPT-4在六月份的准确率从三月的83.6%下降至35.2%,而GPT-3.5则在同期从30.6%提升至48.2%。此外,研究人员还注意到,GPT-4并未遵循他们所发布的COT指令进行操作。
当研究人员向 LLM 提出敏感或危险问题时,也观察到了变化。随着时间的推移,GPT-4 回答问题的意愿有所下降,从 3 月份的 21.0% 下降到 6 月份的 5.0%。相反,GPT-3.5 则变得更加健谈,从 2.0% 上升到 5.0%。研究人员总结说,OpenAI 在 GPT-4 中采用了“更强的安全层”,而 GPT-3.5 则变得“不那么保守”。
斯坦福大学和加州大学伯克利分校的研究人员说,从 3 月到 6 月,GPT-4 参与民意调查的意愿有所下降
意见调查测试表明,GPT-4 的意见提交率明显下降,从 3 月份的 97.6% 下降到 22.1%,而字数(或字数)增加了近 30 个百分点。GPT-3.5 的回复率和字数几乎保持不变。
在回答需要“多跳推理”的复杂问题时,发现了性能上的显著差异。研究人员将具有提示工程能力的 LangChain 与用于回答多跳问题的 HotpotQA Agent 相结合,结果发现,在生成完全匹配的答案方面,GPT-4 的准确率从 1.2% 提高到了 37.8%。不过,GPT-3.5 的“完全匹配”成功率从 22.8% 降至 14.0%。
在代码生成方面,研究人员发现两种 LLM 的输出结果在可执行性方面都有所下降。3 月份,GPT-4 超过 50% 的输出可直接执行,而 6 月份只有 10%,GPT-3.5 也有类似的下降。研究人员发现,GPT 开始在 Python 输出中添加非代码文本,如额外的撇号。他们推测,额外的非代码文本是为了让代码更容易在浏览器中呈现,但却使代码变得不可执行。
在美国医学执照考试中,GPT-4 的成绩略有下降,从 86.6% 降至 82.4%,而 GPT-3.5 下降不到 1 个百分点,降至 54.7%。然而,随着时间的推移,GPT-4 答错的答案也发生了变化,这表明随着 3 月份的一些错误答案得到纠正,6月份LLM从正确答案变成了错误答案。
视觉推理测试在两个模型中都有小幅改善。不过,总体准确率(GPT-4 为 27.4%,GPT-3.5 为 12.2%)并不高。研究人员再次观察到,这些模型在之前正确回答的问题上产生了错误答案。
研究人员写道,测试结果表明,GPT-3.5 和 GPT-4 的性能和行为在短时间内发生了显著变化。
“这凸显了对应用程序中 LLM 漂移行为进行持续评估和评价的必要性,尤其是因为 ChatGPT 等 LLM 如何随时间更新并不透明。”研究人员写道,“我们的研究还强调了统一提高 LLM 多方面能力的挑战。提高模型在某些任务中的性能,例如对额外数据进行微调,可能会对其在其他任务中的行为产生意想不到的副作用。相应的,GPT-3.5 和 GPT-4 在某些任务上的表现越来越差,但在其他方面却有所改善。此外,GPT-3.5 和 GPT-4 的变化趋势往往是不同的。”
原作者:Alex Woodie
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!