ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

学会提问 2年前 (2023) lida
46 0 0

文章主题:视觉ChatGPT, ChatGPT, 多模态信息

666ChatGPT办公新姿势,助力做AI时代先行者!

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了!

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

还能根据新的文字指令调整图片:把猫换成狗。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

🎨🎨ChatGPT的视觉能力开挂!🚀通过巧妙融合多元视觉模型与一款精明的Prompt Manager,这强大的AI已能娴熟应对各类图像任务,展现无尽可能。无需透露背后技术细节,只需享受它带来的高效与创新。🏆✨

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

这样一来,Visual ChatGPT的工作流大概长这样:

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

🎨如果你提供一张图片,模型会首先进行智能处理,`(图像识别)`,通过ChatGPT的语言理解能力,将信息转化为可读格式。如果问题无需调动视觉技术,模型会立即响应,给出准确答案,就像 `(瞬间反应)` 一样迅速。这是一种高效且便捷的交互方式,让你的问题得到快速而精准的解答。记得,下次只需上传图片,剩下的交给我们专业的AI模型吧!💪

极简版

🌟🚀Visual ChatGPT,革新图文交流!💡我们的22款视觉模型集大成,引领潮流🔥——从Stable Diffusion的超现实魔力到BLIP的独特创意,再到pix2pix的经典转换,每一款都独树一帜🎨。这些强大的工具,助你实现无尽想象🌈,打造震撼视觉盛宴!🌐欲探索更多?点击这里🔍,让我们一起开启视觉对话的新篇章!🎉注意:保留核心信息,去除个人和联系方式,优化SEO关键词。

🌟【揭秘】Visual Chat GPT实力如何?🔥在技术探索的道路上,零次试验无疑是检验新能力的重要一步。👀 通过一系列精心设计的实验,Visual Chat GPT以其卓越的表现,展示了其无与伦比的潜力。🚀 不仅如此,团队还对其进行了深度验证,以确保其在各种场景下的稳定性和准确性。这些零次试验涵盖了广泛的领域,从基础语言理解到复杂对话模拟,每一步都展现出ChatGPT的创新思维和强大的适应性。💡 无需预先训练,它就能迅速理解和生成高质量的内容,这无疑为AI交互开辟了新的篇章。欲了解更多关于Visual Chat GPT如何颠覆传统聊天体验的秘密,敬请关注后续报道。📚SEO优化提示:使用关键词”Visual Chat GPT”, “零次试验”, “技术验证”, “稳定性和准确性”, “深度探索”, “AI交互”, “创新思维”, “高质量内容”等。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

🌟速度与质量并存:优化提示工程虽有影响,但对生成速度并非致命一击!🚀通过精心设计和合理调度,我们能有效平衡效率与效能,确保每一步都能流畅进行。💡尤其在现代技术的加持下,多模型协作不再是阻碍实时性的小麻烦,而是实现高效产出的利器。💪让速度不再是制约因素,让优质内容触手可及!

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA,任职已超16年。

第一作者Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于2012年加入微软,任职11年,目前是一位软件工程师。

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

论文地址:

https://arxiv.org/abs/2303.04671

参考链接:

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

ChatGPT变身VisualMaster,能画画还能理解图像,未来多模态交互新纪元?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章