ChatGPT变身VisualMaster，能画画还能理解图像，未来多模态交互新纪元？

学会提问 3年前 (2023) lida

81 0 0

文章主题：视觉ChatGPT, ChatGPT, 多模态信息

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

ChatGPT变身VisualMaster，能画画还能理解图像，未来多模态交互新纪元？

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉能力开挂！🚀通过巧妙融合多元视觉模型与一款精明的Prompt Manager，这强大的AI已能娴熟应对各类图像任务，展现无尽可能。无需透露背后技术细节，只需享受它带来的高效与创新。🏆✨

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎨如果你提供一张图片，模型会首先进行智能处理，`(图像识别)`，通过ChatGPT的语言理解能力，将信息转化为可读格式。如果问题无需调动视觉技术，模型会立即响应，给出准确答案，就像 `(瞬间反应)` 一样迅速。这是一种高效且便捷的交互方式，让你的问题得到快速而精准的解答。记得，下次只需上传图片，剩下的交给我们专业的AI模型吧！💪

极简版

🌟🚀Visual ChatGPT，革新图文交流！💡我们的22款视觉模型集大成，引领潮流🔥——从Stable Diffusion的超现实魔力到BLIP的独特创意，再到pix2pix的经典转换，每一款都独树一帜🎨。这些强大的工具，助你实现无尽想象🌈，打造震撼视觉盛宴！🌐欲探索更多？点击这里🔍，让我们一起开启视觉对话的新篇章！🎉注意：保留核心信息，去除个人和联系方式，优化SEO关键词。

🌟【揭秘】Visual Chat GPT实力如何？🔥在技术探索的道路上，零次试验无疑是检验新能力的重要一步。👀 通过一系列精心设计的实验，Visual Chat GPT以其卓越的表现，展示了其无与伦比的潜力。🚀 不仅如此，团队还对其进行了深度验证，以确保其在各种场景下的稳定性和准确性。这些零次试验涵盖了广泛的领域，从基础语言理解到复杂对话模拟，每一步都展现出ChatGPT的创新思维和强大的适应性。💡 无需预先训练，它就能迅速理解和生成高质量的内容，这无疑为AI交互开辟了新的篇章。欲了解更多关于Visual Chat GPT如何颠覆传统聊天体验的秘密，敬请关注后续报道。📚SEO优化提示：使用关键词”Visual Chat GPT”, “零次试验”, “技术验证”, “稳定性和准确性”, “深度探索”, “AI交互”, “创新思维”, “高质量内容”等。

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存：优化提示工程虽有影响，但对生成速度并非致命一击！🚀通过精心设计和合理调度，我们能有效平衡效率与效能，确保每一步都能流畅进行。💡尤其在现代技术的加持下，多模型协作不再是阻碍实时性的小麻烦，而是实现高效产出的利器。💪让速度不再是制约因素，让优质内容触手可及！

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月14日 pm6:07。
转载请注明：ChatGPT变身VisualMaster，能画画还能理解图像，未来多模态交互新纪元？ | ChatGPT资源导航

ChatGPT可能带来的挑战：翻译误导、算力冲击与隐私隐忧，AI未来之路何以走？

da, li

掌握未来！揭秘AI时代新兴职业——提示工程师，你的高薪新起点吗？🔥

da, li

ChatGPT颠覆保险业？销售岗位何去何从？未来销售人员的关键技能将如何演变？

da, li

揭秘ChatGPT：参数量激增的背后，对话艺术与科技理性碰撞🔥？ChatGPT还能做到哪些超凡？揭

da, li

国会批量购ChatGPTPlus，防火墙下如何有效使用？

da, li

172

如何通过阅读提高你的语言技能？

da, li

ChatGPT变身VisualMaster，能画画还能理解图像，未来多模态交互新纪元？

诀窍在于提示工程？

MSRA老将出马

🔥揭秘！ChatGPT背后的‘语言魔术师’？高薪新工种，技术小白也能玩转AI？”

如何解决'TooManyAttempts'错误？删缓存、试隐身或云flare绕路，智斗防火墙

相关文章

相关文章