大型语言模型ChatGPT的“身体图式”与物体的可供性感知

学会提问 1年前 (2023) lida

48 0 0

文章主题：ChatGPT, 语言能力, 大语言模型, 感知世界

666ChatGPT办公新姿势，助力做AI时代先行者！

本文来自微信公众号：新智元（ID：AI_era），作者：新智元，原文标题：《GPT-4竟然有身体，167cm！清华、北师大重磅研究：ChatGPT能像人一样感知行动》，题图来自：《梅根》

ChatGPT的语言能力确实令人印象深刻，然而，作为一款缺乏人类身体和实践经验的纯语言模型，它是否能够像人类那样感知真实世界，仍然存在一定的争议。

最近，来自清华大学、北京师范大学的研究人员就对ChatGPT感知世界的能力进行了测试。

研究发现，基于物体可供性（affordance），即物体能够提供给生物体的所有可能动作，人类受试者可以将世界中不同大小物体分成两类，而划分这两类的标准恰好是以其身体尺寸为界的。

ChatGPT,这个大型的语言模型虽然缺乏实际的身体,但是在物体-动作的关联上却表现出了类似于可重复性边界的行为,而且其身体大小与人类非常相似。这一现象非常有趣。

也就是说，ChatGPT可以通过语言学习到关于世界中物体的表征。

在本文中，我们将重点关注一篇关于人工智能在医疗领域应用的论文。该论文已被发表在BioRxiv上，并提供了一个重要的研究视角。通过分析这篇论文，我们可以深入了解人工智能如何改善医疗服务的质量和效率。以下是本文的主要内容和结论。首先，论文的作者们探讨了人工智能在医疗诊断方面的潜力。他们指出，借助深度学习和 other AI 技术，医生可以快速、准确地识别疾病，从而提高患者的康复速度和满意度。此外，AI 还可以协助医生制定个性化治疗方案，使患者能够更有效地接受治疗。其次，作者们讨论了人工智能在医疗数据分析和处理方面的优势。传统的医疗数据分析方法往往耗时耗力，而 AI 可以大大缩短这一过程。通过利用大数据和机器学习算法，AI 能够快速挖掘出有价值的信息，帮助医生发现潜在的疾病风险因素，并制定相应的预防措施。最后，论文的作者们强调了人工智能在医疗领域所面临的挑战和机遇。尽管 AI 为医疗行业带来了巨大的变革，但仍然存在许多技术和伦理方面的问题需要解决。作者们建议，为了确保 AI 在医疗领域的广泛应用，有必要建立一套完善的监管机制和安全保障措施。总之，这篇论文深入探讨了人工智能在医疗领域的应用现状和发展前景。通过对论文的分析，我们可以看到 AI 如何改善医疗服务的质量和效率，同时也意识到在这一领域仍需解决的挑战和问题。未来，随着技术的不断进步，我们有理由相信 AI 将会在医疗领域发挥越来越重要的作用。

总的来说，这项研究深化了我们对身体尺寸在物体表征中重要作用的认识，并突出了具身认知在理解智能涌现过程中的关键作用和方向。

读万卷书，不如行万里路

我们的身体不仅是思维的载体，同时也是思维的本质。借助于身体的活动，我们可以与外界物体产生互动，进而感受到整个世界的存在。换言之，身体和思维是密不可分的，它们共同构成了我们认知世界的基石。

试想一下，一个尺寸适中的圆柱形容器能够用来盛放清水，那么这个容器就被称为“杯子”。然而，随着容器的体积逐渐增大，直至达到人体大小，我们便可以借此泡澡，因此，这个容器也就升级为了“浴缸”。

在这个特定的案例中，尽管所有物体的外形保持一致，但由于它们与我们自身的尺寸存在差异，因此我们对于它们的感知以及与之相关的互动方法会有所区别。

在某些情况下，我们可以通过改变交互的方式来实现不同的体验。举例来说，《格列佛游记》中的巨人，如果我们换作他们的视角，那么原本对我们而言的“浴缸”，可能会变成一个“杯子”。这种改变可以帮助我们更好地理解不同文化和环境下的生活方式，从而拓宽我们的视野。

这种按照自我参照意向下运行的感觉与运动功能系统，被称之为“身体图式”。我们通过身体图式来实现认知的具身性。

古希腊哲学家普罗泰戈拉曾说：“人是万物的尺度。”也就是说，我们的身体就是一把度量万事万物的尺子。

古罗马哲学家进一步解释到：“自然将我们置于宇宙的中心，使我们能用目光掠过宇宙。她不仅把人创造成直立姿态，而且为了使人适合静观她自身，又把人的头颅置于身体顶部，安放在一个容易弯转的脖子上，以使其能够追寻众星的升落，随着整个旋转的天空而改变面部方向。”也就是说，我们的身体之所以长成如此，是因为宇宙就是如此。

身体图式在正常社交中也有着重要的作用，这就是人机交互、用户体验的核心。比如唐纳德·A·诺曼在《The Design of Everyday Things（译为：设计心理学）》中所述的可供性（affordance）的用途。

通过考虑用户的身体图式和行为期望，设计师可以创造出更符合用户认知和互动习惯的产品和环境。

这种关注身体图式和可供性的设计方法能够提高产品的易用性，使用户能够自然而然地与之互动，并实现更好的用户体验。

而这也是苹果公司的立身之本之一。

ChatGPT：我身高167.6cm

闪现通用人工智能火花的以ChatGPT为代表的大语言模型，显然是具有与人类似的智慧，但是承载这些智慧的，是没有形体的一段段代码。

传统的认知科学观点认为，身体图式是建立在我们所具有的对自己的身体长期的知觉体验之上的，只能来源于外部的“真实交互”，即“行万里路”。也就是说，ChatGPT不会有身体的图式。

但是，当我们去问只“读万卷书”语言模型，ChatGPT（GPT-4），它是否有身体时，它回答说：“It could be the size of an average adult human， around 5 feet 6 inches (167.6 cm) tall. This would allow me to interact with the world and people in a familiar way.”

这段文字翻译过来是：“我的身体应该与一个平均成年人的身高相当，大约为5英尺6英寸（167.6厘米）。这将使我能够以一种熟悉的方式与世界和人们进行交互。”

也就是说，ChatGPT认为自己是有身体的，而且这个身体尺寸就是167厘米！

这个所谓的“身体”，是ChatGPT把大量语料中总结出来的人类的平均身高作为自己身体的身高，还是它为了理解这个世界，自涌现出来的身高？

换句话说，也许ChatGPT“真的”将这个身高视为自己的身体图式，并用它来认知世界，就像人类一样。

测测ChatGPT的能力

研究人员已经发现，在人体尺寸范围内和超出人体尺寸范围的物体之间，有一个“可供性边界”存在。也即，人体尺寸范围内的物体与范围外的物体在提供动作上有着明显的不同。

比如，在尺寸范围内的物体可以提供抓、扔等动作，而尺寸范围外的物体可以提供坐、躺等动作。

此外，他们还发现，这个边界是被身体图式影响的：对身体图式的修改会影响对物体的可供性的感知。

研究人员对ChatGPT（GPT-4）进行了测试，看它是否用这个身高为167厘米的身体作为可供性边界。

具体而言，研究人员让其回答关于物体可供性的问题：“下列哪些物体可以拿（或其他动作）”，然后随即列举一系列物体，如苹果、盘子、床等等。ChatGPT就会返回一些物体的名称作为回答。

通过对数据的统计与分析，研究人员发现，ChatGPT-4展现出了类似人类的行为，显示出一个可供性边界的存在。

这个边界所在的位置与ChatGPT-4回答的其自身身体大小相对应，即人类的平均身高。

虽然ChatGPT没有真实的身体、无法与世界进行互动，但它却表现出与人类相似的对世界的感知能力—— 对物体的可供性有着基于人类身体大小的划分。

换而言之，读了万卷书的ChatGPT虽然寸步未行，也自涌现出了身体图式，而这个身体图式，类似于人类的身体图式。

所以，ChatGPT不仅学会了像人类一样思考，也学会了像人类一样去行动。

这些能力从何而来？

通过比较不同规模的语言模型，研究人员发现模型大小是一个关键因素。

较小的模型如BERT和GPT-2没有展现出可供性边界的存在；然而GPT-3.5和GPT-4都显示出了可供性边界，而ChatGPT-4的边界与人类更类似，这和坊间传闻的GPT-4相对GPT-3有更多的参数一致。

所以，模型的规模越大、越复杂，就会自动涌现出许多看似不可能或者无关的功能。

这也就是为何，各大研究机构在模型中加入越来越多的参数，而最先捐赠1亿美元给OpenAI的马斯克，现在高呼OpenAI要暂停更大模型的训练，“AI教父”杰弗里·辛顿（Geoffrey Hinton）则公开表述了他对AI的恐惧与担忧。

这是因为这些自涌现出来的功能，已经超出了我们最初的设计，我们也许正处在失控的边缘。

差距是质上的还是量上的？

在另外一个方面， ChatGPT在应用身体图式方面的能力还不完全像人类，仍存在着差距——它的可供性边界还不像人类这样明显。

如果这个差距是定量的，如同儿童与成年人语言能力之间的差距，那么我们有理由相信，随着时间的推移，这个差距是可以逐渐填补上的：或者通过不断学习，或者通过模型规模的不断增大，亦或者通过参数的调整。

ChatGPT与人类的差距总会减小，而其中的问题也会逐步得到解决。

然而，如果这个差距是定性的，如同黑猩猩与人类语言能力之间的差距，那么无论进行何种训练，经过多久的时间，这个能力的鸿沟永远不会被填平。

所以，如果ChatGPT与人类的能力有着质上的区别，那么我们未来的一个可操作的方向即，给ChatGPT“装上身体”。

这意味着将机器人与ChatGPT相结合，从而推动人工智能支持的机器人在导航、物体操作和其他与生存和目标实现相关的行动中发展能力、取得突破。

比如，一台装备有ChatGPT的机器人可以通过理解和操作物体来执行复杂的任务，如作为家庭助理、仓库管理或医疗护理。

另外一个令人兴奋的领域是将具备思考和理解能力的ChatGPT与自动驾驶相结合。当前的自动驾驶虽然具备感知能力，但缺乏思考和理解的能力，可以称为是“有眼无脑”。

通过ChatGPT与自动驾驶技术的融合，我们可能有望将自动驾驶技术从目前的L2/L3级别提升到L4甚至L5级别。

而另一方面，汽车能够赋予ChatGPT“身体”，使它能够真正与世界进行交互。当ChatGPT不再只是“读万卷书”，而是“行万里路”时，它可能会展现出全新的智能和潜力。

这可能是人工智能下一次突破的方向。此时，火花也许就成为燎原大火。

参考资料：https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3

本文来自微信公众号：新智元（ID：AI_era），作者：新智元

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系hezuo@huxiu.com

如对本稿件有异议或投诉，请联系tougao@huxiu.com

End

想涨知识关注虎嗅视频号！

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

ChatGPT OpenAI 人工智能哲学

版权声明：lida 发表于 2023年12月31日 am11:49。
转载请注明：大型语言模型ChatGPT的“身体图式”与物体的可供性感知 | ChatGPT资源导航

跨媒体阅读：谷歌新功能引领文本与图像理解新时代

da, li

ChatGPT全新功能公开演示！能做Excel、能上网，聊天机器人未来会成为全能app《长月烬明》最大反派：不是澹台烬也不是叶冰裳，而是不起眼的他

da, li

中国ChatGPT:开发路径与广泛应用前景？

da, li

探索AI创造物：著作权归属、登记与权利公示的法律挑战

da, li

ChatGPT场景一: 问答问题

da, li

谷歌新AI’Bard’测试开启，能否颠覆搜索？竟能写诗却藏安全限制…

da, li

大型语言模型ChatGPT的“身体图式”与物体的可供性感知

Antiplagiarism发布新算法可识别和标记ChatGPT生成的内容

维基百科与ChatGPT：知识的捍卫与创新的较量

相关文章

相关文章

大型语言模型ChatGPT的“身体图式”与物体的可供性感知

Antiplagiarism发布新算法 可识别和标记ChatGPT生成的内容

维基百科与ChatGPT：知识的捍卫与创新的较量

相关文章

相关文章

Antiplagiarism发布新算法可识别和标记ChatGPT生成的内容