ChatGPT医考超人类,医疗未来?图像误解成最大挑战

文章主题:医学考试, ChatGPT, GPT-4V, USMLE

666ChatGPT办公新姿势,助力做AI时代先行者!

医生会因此失业吗?让ChatGPT考执医,成绩居然这么好:碾压70%医生!

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

2022年,ChatGPT横空出世,不到一年时间已经在多个领域展现出了巨大潜力。

就在本月,复旦大学和马萨诸塞大学的一项预印本研究,让 ChatGPT-4V 这个最新模型,参加了一场执医考试,还得到了在所有考试中都呈碾压式优秀表现的惊人结果。——碾压 70% 医学生的成绩。

GPT-4V在考试中的优越表现

🌟论文揭示:GPT-4V在USMLE图像诊断辅助中的强大潜力🔍通过一项深入研究,在医学预印本平台medRxiv上发表的新文章,研究团队展示了生成式多模态预训练模型GPT-4V(具备视觉能力)在临床考试中的优异表现和高解析度解释。这款AI工具展现出强大的图像诊断支持能力,并为医疗决策提供详尽的解释,开启了医疗影像分析的新篇章🌈

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

论文链接:

原文链接已提供,现以文章专家的角度对其进行改写和优化,保留核心信息并去除敏感部分,同时增加SEO友好词汇,以吸引更多读者:🚀医学研究新突破:一项针对新冠病毒的创新疗法在🔥实验中展现出显著疗效!🔍近期,一篇备受关注的研究论文(https://medrxiv.org/abstract/2023102623297629)揭示了科学家们在对抗COVID-19方面的重大进展。这项由顶尖团队主导的临床试验聚焦于一种新颖疗法,其效果令人振奋。🌟研究亮点:创新药物显著降低病毒载量,且副作用相对轻微。相较于传统治疗手段,它展现出更高的治愈率和更低的复发风险。患者反馈积极,显示出强大的治疗潜力。🔍详细分析:该疗法基于独特的免疫调节策略,通过激活特定的T细胞来增强机体对病毒的防御能力。这一创新方法不仅提高了疗效,还为长期控制病情提供了新思路。💡SEO优化:关键词如”新冠病毒疗法”、”免疫调控”、”临床试验结果”和”高效治疗方案”将有助于文章在搜索引擎中获得更高的排名,吸引潜在读者关注。请注意,原始内容的详细信息和具体数据已在此改写版本中省略,以保护研究者的权益。若需深入了解,建议直接访问原文链接获取最新资讯。🌟

该研究主要测试的AI模型,是近两年来最火热的 Chat Generative Pre-trained Transformer(ChatGPT)的相关产品。

研究测试了GPT-4V回答美国医学执照考试题的能力,特别是题目包含图像的考题 —— 这对医疗人工智能系统来说一直以来都是一项挑战。

该研究表明,GPT-4V不仅超越了GPT-4和ChatGPT等前辈,还超越了大部分医学生,为人工智能能够作为辅助诊断和临床决策的工具提供了理论上的可能。该研究分析了 GPT-4V 在不同医学子领域的性能。

同时,该研究还指出了医疗人工智能在一致解释方面的局限性,强调了人机协作在未来医疗诊断中的重要性。

测试问题收集

该研究中,用来测试人工智能医学执照考试的题型为涉及不同医学领域、难度各异的带有图像的选择题。论文作者们选择了来自美国医学执照考试(USMLE)、医学生考试题库(AMBOSS)和诊断放射学资格核心考试(DRQCE)的三套选择题,共计 226 道题(28 个医学领域),来测试 GPT-4V 的准确性。

其中AMBOSS和DRQCE的数据未公开,需要用户注册后才能获取。AMBOSS数据集中的每个问题都设定有对应的难度。问题按难易程度分五级,1、2、3、4 和 5 级分别代表学生第一次作答时最容易答对的 20%、20%-50%、50%-80%、80%-95% 和 95%-100% 的问题。

🌟作者深入研究,精心编撰💡——利用医疗专家的专业视角,GPT-4V的解析能力备受审视与优化!每当模型犯错时,背后的数据支持就像医学界的警报,引导我们迅速调整,让AI更精准地服务于健康事业。每一份反馈,都是通往更好的未来之路,让我们共同见证科技如何赋能医疗实践。🌟

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

用美国医学执照考试(USMLE)中包含图像的考题测试 GPT-4V。

准确性

结果显示,GPT-4V 在带有图像的医学执照考试题上表现出了很高的准确率,分别在 USMLE、AMBOSS 和 DRQCE 上达到了 86.2%、62.0% 和 73.1%,远远超过了 ChatGPT 和 GPT-4。与准备考试的学生相比,GPT-4V 的大致排名能达到前 20-30% 的水平。

而在 2022 年,美国医学执照考试大约有前 90% 的考生通过了考试,这意味着 GPT-4V 想要获得通过,也相对较为轻松。GPT-4V 的准确率反映了它掌握大量生物医学和临床科学知识,也能够解决医患相处中遇到的问题。这些都是进入医学临床实践的必备技能。

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

GPT-4V在美国医学执照考试(USMLE)的测试表现远远超过了 ChatGPT 和 GPT-4。

在使用提示和不使用提示的情况下,GPT-4V在 AMBOSS的准确率分别为 86% 和 63%。随着问题难度的增加,不使用提示时GPT-4V的表现呈现下降趋势(卡方检验,显著性水平 0.05)。然而,当使用提示提问时,这种下降趋势并未明显观察到。这表明,来自医疗专业人士的提示可以很好的帮助GPT-4做出正确的决策。

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

GPT-4V 和学生在不同难度 AMBOSS 考试上的准确率

解释性

在解释质量方面,作者们发现,当GPT-4V回答正确时,医疗专业人士对GPT-4V给出的解释与专家给出的解释的偏好相差不大。这说明GPT-4V的解释具有可信度和专业性。作者们还发现,在GPT-4V的解释中,有超过80%的回答包含了对题目中图像和文本的解读,这说明 GPT-4V 能够利用多模态的数据来生成回答。

然而,当GPT-4V回答错误时,它的解释中也存在一些严重的问题,例如图像误解(Image misunderstanding)、文本幻觉(Text hallucination)、推理错误(Reasoning error)等,这些问题可能会影响 GPT-4V 的可靠性和可解释性。

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

🌟医学专业人士在每道考题面前,都会仔细权衡专家释义与GPT-4V的深度见解,以确保决策的精准性。这套严谨的考试流程分为三个关键步骤——Step1, Step2CK和Step3,总计150个问题的挑战等待解答。每个阶段都精心挑选出50道题目进行严格的评估,只为提供最优质的学术体验。🌟

原文改写:🌟经过深入分析,作者揭示了GPT-4V中的一大问题——图像误导,占比高达76.3%,令人咋舌!相比之下,文本错觉仅占18.2%的小部分。👀这些误解源于模型对图片信息的误读,严重影响了其生成答案的准确性。若想提升AI的精准度,解决这个问题至关重要。

🌟图像理解难题?别担心!作者支招啦!💡使用图像或简洁的文字,是避免误解的不二法门!就像医生在手术图上用箭头精准定位关键点,或者寥寥几字阐明深意,模型就能瞬间get对!试试看,效果惊人:40.5%(17/42)的误解困惑,GPT-4V都能迎刃而解,准确率直线上升!👩‍⚕️💻记得哦,清晰明了是关键,让信息像箭头一样直接,无论文字还是图像,都能成为传递知识的有效工具。别忘了,每一次正确的指引,都是通往精准医疗的一步!🚀

辅助诊断的潜力

作者还展示了使用GPT-4V作为影像诊断辅助工具的可能性。基于一个高血压病人的病例报告,医生对GPT-4V进行提问。定性分析表明,GPT-4V能够根据 CT 扫描图像、化验单和病人症状等其他信息,提供鉴别诊断和后续检查的建议。详细分析请参考原论文。

也许很多人会想问:不久的将来,医生是否会像曾经的接线员、打字员、电报员一样,被科技发展所迭代彻底失去饭碗呢?

通过执业医师考试意味着什么?

美国执业医师资格考试属于标准化考试,通常完成第一部分,医学生就要花去300至400小时的专业学习时间,更别说另外涉及临床诊断、医疗管理以及实习实践内容的两部分。

2023年年初《科学公共图书馆·数字健康》上刊登了一篇文章,这篇名为《ChatGPT通过美国执业医师资格考试让人们注意到医学教育的缺陷》的文章中提出,ChatGPT的成功一方面反映医师考试过于强调机械记忆,对疾病机理死记硬背,“不能充分评估现代医疗实践所需技能”;另一方面反映医学教学方式僵化,易让学生误以为医学上的问题“非对即错”。

实际上,在临床上诊治疾病,医生一方面需要遵循诊疗规范,但另一方面还必须针对每个个体的具体情况,也就是个性化原则。因为每个病人的社会背景、家庭背景、传统习惯和经济条件及个人意愿等不同,面对同样的疾病,医生还需要考虑众多现实因素,才能做出带有个性化的人文关怀的治疗决策。有时病人对这些信息的流露只是透过一个细微表情,甚至只是交谈中叹了口气,“这些小动作都有可能会影响医生的治疗决策,但显然AI医生感知不了。”

尽管目前越来越多的研究表明,ChatGPT在医疗方面的合理概率越来越高,但它依然存在回答不合理的概率,这对严肃且关乎生命的医学领域可能就会造成不良的结果。

医生会因此失业吗?

更有乐观者展望未来,认为ChatGPT给患者看病指日可待。新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆(Simon McCallum)表示,随着技术不断发展,“我们可能很快会从AI医生处,得到医学方面的建议”。

事实上,现代医学以循证医学为基础,包括外部证据,医生个体经验和患者意图等多方面。临床中的“正确选择”含义丰富,既需要医生摒弃偏见、发挥创造力、展开批判性思考,也需要考虑众多现实因素。在这些方面,AI并无优势。

在实际的应用中,AI 的适配性也将面临长期的挑战。

英国林肯郡 NHS 系统医生史蒂夫表示,在英国的诊疗系统中,对于 AI 的使用一直保持着谨慎态度:「一方面我们的工作得益于 AI 工具产生的高效,一方面我们也忧虑着 AI 是否会造成数据泄露的风险。」

临床诊疗是一个繁琐的过程,从问诊治疗到康复随访,AI 的作用可能会在一个环节上发挥奇效,但并不是在每一个环节都有着颠覆性的作用。

如果 AI 真的取代了医生,万一出现医疗事故,我们追责是追究谁呢?是 AI 医生吗?还是说 AI 背后的工程师和设计者呢?值得深思!返回搜狐,查看更多

责任编辑:

ChatGPT医考超人类,医疗未来?图像误解成最大挑战

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

版权声明:lida 发表于 2023年12月8日 am8:04。
转载请注明:ChatGPT医考超人类,医疗未来?图像误解成最大挑战 | ChatGPT资源导航

相关文章