ChatGPT变身多模态艺术大师？一画了之，万物可变！

学会提问 3年前 (2023) lida

96 0 0

文章主题：ChatGPT, Visual ChatGPT, Dall-E, 模型融合

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉魔力🌟🌟——跨模态智能新突破！借助精巧的Prompt Manager，我们巧妙地将多元视觉模型融入其中，实现了ChatGPT对各类视觉挑战的从容应对。无论是图像生成、标注还是修复，它都能游刃有余，展现超凡智慧。这不仅标志着AI技术的新高度，也为未来的创新打开了无限可能的大门！🌍🚀

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎉若用户出示图像，模型会首先以迅雷不及掩耳之势将其传递给智囊团，接着通过AI魔法转化为可理解的语言，交给ChatGPT进行深度解析。如果识别到此请求无需调动视觉技术，模型便会立即回应，给出精准答案（一触即发）。🌍

极简版

🌟🚀Visual ChatGPT，革新图文交流！💡我们的22款视觉尖端模型集大成于此——从稳定性卓越的Diffusion到创新领先的BLIP，再到像素级别的艺术转换神器pix2pix，每一款都独领风骚！🔥🔍探索无尽创意，这些模型不仅深度集成，还能协同工作，为您的图文内容赋予超乎想象的生命力。🌍无论你是艺术爱好者、科研先锋还是商业文案大师，Visual ChatGPT都能满足你的多元需求。📝告别冗长的论文描述，让创新技术点亮你的学术之路。我们专注于提供高质量的内容，而非推销个人信息或联系方式。👩‍💻欲了解更多详情，只需轻轻一点——视觉聊天体验，等你来解锁！🌐#VisualChatGPT #22款视觉模型 #革新图文交流

🌟【揭秘】Visual ChatGPT实力如何？🔥在人工智能领域的一场创新探索中，我们见证了一项卓越的验证——通过零次试验（ zadock-zero shots!），Visual ChatGPT的超强能力得到了深度展现。👀 无需前期训练，它便能迅速适应新场景，展现出惊人的学习与生成效率。这项零次实验不仅展示了ChatGPT的通用性，更凸显了其无与伦比的智能潜力。🎯 不仅限于文字交互，它在图像理解、语音合成等多元领域也展现出了强大的适应力，为未来的AI应用开辟了无限可能。欲一探究竟？让我们一起深入探讨这个技术巨头如何用零成本打造未来沟通的新纪元！🚀记得关注我们，获取更多关于Visual ChatGPT的深度解析和最新动态哦！💪

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存🚀在文章生成过程中，提示工程的大量运用确实可能带来生成速度上的挑战。毕竟，它们需要与多个模型协同工作，这无疑会增加系统的复杂性和响应时间。🌈然而，优化技术与策略的存在是为了确保最终内容的优质产出，而非牺牲即时性。别忘了，高效的算法和流畅的用户体验同等重要哦！💼

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月8日 pm1:54。
转载请注明：ChatGPT变身多模态艺术大师？一画了之，万物可变！ | ChatGPT资源导航

59部新片刷新4月纪录？光影盛宴你准备好了吗？新能源车爆发！销量增长超8成；领克价格战来袭，星火大

da, li

ChatGPT颠覆编程？StackOverflow流量暴跌，程序员求知习惯被AI改变

da, li

揭秘！今日财经大事件，一图看懂！？？

da, li

揭秘生活与骗局：知乎热门问题ChatGPT挑战，‘机场一家人’真相何在？

da, li

AI律师首次出庭却被取消，创始人称：希望避免有伪证的可能，提问：人工智能的司法应用是否会对现有律师行业产生冲击？

ChatGPT引领新革命？指数震荡下，哪些板块和个股将闪耀？

da, li

ChatGPT变身多模态艺术大师？一画了之，万物可变！

诀窍在于提示工程？

MSRA老将出马

🚀揭秘！ChatGPT背后的天才‘提示工程师’，年薪暴涨22%，改写科技史？编程不再是门槛？”

国内ChatGPT龙头股强势涨停，星火大模型升级挑战巨头，AI细分领域将迎来巨变？

相关文章

相关文章