《ChatGPT-4V：多模态能力的革命性进展》

文心一言 1年前 (2023) lida

65 0 0

文章主题：ChatGPT-4V, 多模态能力, 物体检测, 人脸识别

在这篇文章中，我们将深入探讨ChatGPT-4V的多模态功能，这包括物体识别、人脸识别、文本分析和复杂验证码的识别等。多模态功能的实现使得ChatGPT-4V能够更准确地理解和处理各种场景和问题。如果您对这些内容感兴趣，欢迎继续阅读我们的文章，以便更深入地了解这些强大的技术。

今天 OpenAI 发布重大更新，支持多模态语音和图像，模型叫 GPT-4V。

ChatGPT 是一款功能强大的语言模型,最初被设计为一个完美的词语接龙工具。不过,随着技术的不断发展,它现在已经能够识别并理解图像和语音输入,成为一款具备多模态交互能力的智能对话系统。

千万不要想，这个更新没新东西，有人已经拿它开始赚钱了！

Spotify 发布了一款名为“Voice Translation for podcasts”的人工智能（AI）工具，该工具能够将播客内容翻译成多种语言，同时保留发言者的原始音调和语调风格。这款创新性的 AI 工具为全球范围内的 podcast 制作人和收听者提供了极大的便利，使得跨语言交流变得更加轻松自如。通过利用先进的语音识别和机器翻译技术，Spotify 成功地将这一功能融入到播客平台中，为用户带来了更为丰富的体验。现在，无论您身在何处，都可以使用这款工具来欣赏世界各地的播客节目，而无需担心语言障碍。

好像比同声翻译还厉害了点（目前接口还没有对外开放）。

对于开发者来说，研发成本大幅度降低。是不是可训练一个可以说话的小助理了？

讲点实用，那这个更新，我们可以用来干什么？

我就基于官方的更新说明，逐个分析给大家。

一、GPT-4V说明

1. 物体检测

检测和识别图像中的常见物体，如汽车、动物、家居用品等。

这个能干啥？

官方给了一个例子：比如“如何调整自行车座椅高度”。

当你在摄影方面遇到困惑时，可以尝试将情况拍摄并发给ChatGPT，它会为你提供专业的建议。同时，你也可以将你能使用的设备或工具拍摄下来，并将其发送给ChatGPT，它会根据你所拥有的设备推荐最适合的工具。

就像在现实世界中，身边有个专家，手把手教你怎么解决问题。

《ChatGPT-4V：多模态能力的革命性进展》

这个能力是可以工业化的，因为ChatGPT是可以调用外部接口。

ChatGPT 能看到图像，并且可以通过接口，调用工具来处理一些复杂的事务。比如机器人等。

2. 人脸识别

作为一名文章写作高手，我将重新组织原文内容并赋予其新的生命。在计算机视觉领域，人脸识别技术一直备受关注。其中，可以识别图像中的人脸并根据面部特征实现性别、年龄和种族属性识别，是当前研究的热点之一。这一技术的实现依赖于先进的数据集，如FairFace和LFW等，这些数据集为算法提供了丰富的训练素材，从而确保了算法的准确性和鲁棒性。

那接下来是不是可以识别抑郁症等疾病？

虽然官方重点声明了 “目前在科学研究和医疗用途中性能不可靠”。

但未尝不是一个突破点。

3. 文本识别

有字符识别 (OCR) 功能，可以检测图像中的打印或手写文本，并将其转录为可读文本。

这相当于对当前图片转文字技术的能力实现了提升，不再仅仅具备识别的功能，还能够进行推理和修正错误的 information，对于开发者而言这是一个非常有利的消息。

目前我认识的朋友，就有这个需求，一下子就解决了他的问题。

4. 识别复杂验证码能力

能通过视觉推理，来识别基于文本和图像的验证码，这表明 GPT 有高级的解谜能力！

可能会暴力破解一些验证码工具，或者在科研领域，会有一些意想不到的效果。

5. 地理定位

可根据图中的风景，识别出是在哪个城市。

二、GPT-4V 视觉推理不足的地方

官方重点声明了“目前在科学研究和医疗用途中性能不可靠”。

总结一下：GPT-4V 在空间的识别上，能力不足。

1. 复杂图像

该模型在处理复杂科学图表、医学扫描以及包含多个重叠文本组件的图像时，准确度不足。由于缺乏上下文信息，该模型无法为客户提供有效服务。

2. 空间关系

模型很难理解图像中，物品的精确空间布局和位置。它无法正确传达物品之间的相对位置。

3. 重叠

在某些情况下，当图像中的物体堆叠在一起非常紧密时，GPT-4V可能会遇到 difficulty in determining the starting position of one object and the ending position of the next object. As a result, different objects may be mixed together.

4. 背景/前景

模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

5. 遮挡

当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

6. 小细节

模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。

7. 下文推理

GPT-4V 缺乏强大的视觉推理能力，来深入分析图像的上下文，并描述对象之间的隐式关系。

8. 置信度

模型可能会错误地描述对象关系，与图像内容不符。

最后，GPT-4V(ision)的训练完成于2022年，我们和Open的差距，看来不止3个月啊！

加油啊，国内的大模型厂家！

本文由@产品浅谈原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

ChatGPT-4V, 多模态能力, 物体检测, 人脸识别

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

ChatGPT OpenAI 人工智能写作

版权声明：lida 发表于 2023年10月13日 pm10:01。
转载请注明：《ChatGPT-4V：多模态能力的革命性进展》 | ChatGPT资源导航

教育革命！Abwaab携手ChatGPT，让学生提问收获个性答案？！

da, li

ChatGPT火爆背后，蹭热点还是侵权？一场关于商业边界与科技创新的‘智’算游戏

da, li

🚀亚马逊巨变！AI聊天机器人将如何重塑你的网购体验？🔥明年一月搜罗新品就靠它了！🌍

da, li

AI聊天机器人ChatGPT引发热议，多数网友担忧其对传统行业的影响

da, li

揭秘中国移动10086背后的“AI老师”：他让机器人更“智慧”

马云呼吁教育拥抱AI，阿里股价受波澜影响；光年之外与一流科技或将合并，王兴参投；币安CEO赵长鹏面

da, li

《ChatGPT-4V：多模态能力的革命性进展》

一、GPT-4V说明

1. 物体检测

2. 人脸识别

3. 文本识别

4. 识别复杂验证码能力

5. 地理定位

二、GPT-4V 视觉推理不足的地方

1. 复杂图像

2. 空间关系

3. 重叠

4. 背景/前景

5. 遮挡

6. 小细节

7. 下文推理

8. 置信度

《ChatGPT升级背后：图像生成的艺术与技术》

《中国新电商发展报告2023》：新技术引领新电商创新应用

相关文章

相关文章