ChatGPT在美国放射学委员会考试中的表现：优势与局限性共存

学会提问 1年前 (2024) lida

57 0 0

文章主题：科技, ChatGPT, 美国放射学委员会, 人工智能

科技日报记者刘霞

在本周六出版的《放射学》杂志上，一项由加拿大科学家主导的研究取得了重大突破。他们成功地将最新版的ChatGPT通过了美国放射学委员会严格的测试，从而充分展现了大型语言模型在医疗领域的巨大潜力。然而，这一成果同时也揭示了一些问题，即ChatGPT在某些情况下会提供错误的答案，因此人们仍然需要对其提供的信息进行仔细核验。

图片来源：物理学家组织网

ChatGPT是一款由OpenAI研发的人工智能聊天机器人，其运作原理是基于深度学习模型，在大量的训练数据中发现词汇间的模式及关联性，进而根据给定的提示生成类似于人类的反應。如今，像谷歌和必应等知名搜索引擎已将此类聊天机器人的应用纳入其中，为医生和患者提供搜索医疗信息的便利。然而，由于所依赖的数据来源可能并不总是真实且可靠，因此该工具有时可能会返回与事实相悖的答案。

为深入评价ChatGPT在美国放射学委员会考试中的性能及其实用价值，多伦多大学的拉杰什·哈瓦那博士及其团队首先对其进行了基于GPT-3.5技术的ChatGPT能力进行测试。本次测试共涵盖了150道题目，其风格、内容和难度均与加拿大皇家学院以及美国放射学委员会的考试相仿。值得注意的是，这些题目并未包含任何图像，主要分为两大类别：低阶思维问题，包括知识回忆和基本理解；以及高阶思维问题，涉及应用、分析、综合等多方面的能力。其中，高阶思维问题又可以进一步细化为影像学表现描述、临床管理、计算和分类、疾病关联等具体方面。

在一项针对自然语言处理模型的研究中，科学家们对两种不同的模型进行了比较，这两种模型分别是基于GPT-3.5的ChatGPT和GPT-4。研究发现，ChatGPT的准确率达到了令人满意的69%，几乎达到了及格线的70%，它在处理低阶思维问题时表现尤为出色，准确率甚至高达84%，然而在处理高级思维问题时，其准确率仅为60%。相比之下，GPT-4的表现更为突出，它的准确率高达81%，在处理高阶思维问题时更是表现优异，准确率达到了81%。然而，GPT-4在处理低阶思维问题时，准确率仅为80%，这使得研究团队对其收集信息的可靠性产生了质疑。值得注意的是，GPT-4在低阶思维问题上的错误答案数量比GPT-3.5多出了12道题。

两篇相关研究表明，ChatGPT存在提供错误答案的潜在风险。若仅依赖其获取信息，则存在极大风险。原因在于人们可能未能意识到其提供的答案并不准确，这也是ChatGPT目前所面临的最大挑战。然而，在当前阶段，ChatGPT的最适应用场景为激发创意、协助撰写数据摘要，而在快速信息检索方面，需对它所提供的事实性答案进行核验。

（来源：科技日报）

更多精彩资讯请在应用市场下载“极目新闻”客户端，未经授权请勿转载，欢迎提供新闻线索，一经采纳即付报酬。

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！