文章主题:自行车座椅高度, AI晚餐菜谱, ChatGPT, 图片内容分析
OpenAI连发两则重磅消息,首先ChatGPT可以看、听、说了。
新版ChatGPT开启一种更直观的交互方式,可以向AI展示正在谈论的内容。
比如拍一张照片,询问如何调整自行车座椅高度。
官方还给出另一个实用场景思路:打开冰箱拍一张照片,询问AI晚餐可以吃什么,并生成完整菜谱。
更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和安卓都支持。
与此同时,多模态版GPT-4V模型更多细节也一并放出。
其中最令人惊讶的是,多模态版早在2022年3月就训练完了……
看到这里,有网友灵魂发问:有多少创业公司在刚刚5分钟之内死掉了?
看听说皆备,全新交互方式
更新后的ChatGPT移动APP里,可以直接拍照上传,并针对照片中的内容提出问题。
比如“如何调整自行车座椅高度”,ChatGPT会给出详细步骤。
如果你完全不熟悉自行车结构也没关系,还可以圈出照片的一部分问ChatGPT“说的是这个吗?”。
就像在现实世界中用手给别人指一个东西一样。
🌟寻求高效解决方案?别再迷茫!ChatGPT或许能助你一臂之力🔍只需轻轻一操作,无需繁琐步骤,它能迅速识别并指向所需工具箱内的每一件工具,连标签上的微小细节都不会错过💪不仅如此,它还能理解并解释每个工具的功能,让你轻松上手,提高工作效率翻倍!想要提升技术技能?ChatGPT就是你的私人导师📚只需一个互动,就能开启知识探索之旅。拥抱科技,让工作更简单!👩💻👨💻
提前得到使用资格的用户也分享了一些测试结果。
可以分析自动化工作流程图。
但是没有认出一张剧照具体出自哪部电影。
语音部分的演示还是上周DALL·E 3演示的联动彩蛋。
让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。
DALL·E3演示
ChatGPT这次讲的故事文字摘录如下:
过程中更具体的多轮语音交互细节,以及语音试听可参考视频。
01:41
多模态GPT-4V能力大揭秘
👀👀👀 网友们的洞察力真是惊人!通过公开的视频片段和GPT-4V System Card的深入解析,我们得以窥见GPT-4在视觉处理上的非凡才能。它仿佛拥有了超凡的理解力,能够捕捉并诠释复杂的图像信息。🚀每一步揭秘都让人眼前一亮,科技的力量令人赞叹不已!若您对这强大的AI视觉能力感兴趣,不妨深入了解,探索未来可能的无限可能!🔍
物体检测:GPT-4V可以检测和识别图像中的常见物体,如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。
文本识别:该模型具有光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。
人脸识别:GPT-4V可以定位并识别图像中的人脸。它具有一定的能力,可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。
验证码解决:在解决基于文本和图像的验证码时,GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。
地理定位:GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力,这证明模型吸收了关于现实世界的知识,但也代表有泄露隐私的风险。
复杂图像:该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。
同时也总结了GPT-4V目前的局限性。
空间关系:模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。
对象重叠:当图像中的对象严重重叠时,GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。
背景/前景:模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。
遮挡:当图像中某些对象被其他对象部分遮挡或遮挡时,GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。
细节:模型经常会错过或误解非常小的物体、文本或图像中的复杂细节,从而导致错误的关系描述。
上下文推理:GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。
置信度:模型可能会错误地描述对象关系,与图像内容不符。
同时System Card中也重点声明了“目前在科学研究和医疗用途中性能不可靠”。
🌟探讨未来路径:🔥探索模型对公众人物的识别权限与性别/种族情绪推理的微妙平衡💡🚀随着技术的进步,我们正面临如何让AI智能在识别和理解复杂人类行为时,既能尊重隐私又能提供有益信息的挑战。🤔针对公众人物的识别,以及从图像中推断个体特征(如性别、种族或情感)的问题,深入研究显得尤为重要。🔍首先,我们需要权衡模型的能力与对个人隐私的保护,确保在合法合规的前提下推进技术发展。🛡️🌈其次,对于涉及敏感信息的情感推理,我们需谨慎处理,防止偏见和误解可能带来的社会影响。🤔💡讨论这些问题不仅关乎科技伦理,也是塑造智能未来的关键决策。让我们一起探索如何在智能化浪潮中找到那条既能创新又尊重人权的道路。🚀记得,每一次技术的进步都伴随着道德与法律的考量,让我们以专业视角,智慧地引导AI前行。👩💻👨💻
有网友已经想好,等更新了要问的第一件事是Sam Altman照片的背包里装的是什么。
那么,你想好第一件事问什么了么?
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!