ChatGPT变身多模态艺术家？能画图还能理解图像，未来已来

学会提问 3年前 (2023) lida

152 0 0

文章主题：视觉ChatGPT, GPT, Dall-E, 多模态信息

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉能力大飞跃！使用创新的多模态融合及💡Prompt Manager，我们巧妙地赋予了这款AI大师级的图像处理技能，让它能应对各类视觉挑战。无需透露背后技术细节，只需享受它带来的高效与精准服务。🌍🌍让世界看到科技的力量，ChatGPT引领未来智能新风尚！🌟

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎉若用户出示图像，模型会首先以迅捷的方式将其传递给智囊管理员，接着通过精湛的文本转化，将图像内容转化为可理解的语言。随后，ChatGPT会进行深度审核，如果问题无需调动视觉技术，模型立即将答案奉上，给出首个响应。🚀

当面临第二个问题时，ChatGPT会通过内置的视觉模型进行深度处理，这是一种逐步迭代的过程，它会不断地分析和优化解决方案，直至ChatGPT确认无需再依赖视觉模型，才将最终结果呈现出来。这样设计确保了效率与准确性的平衡，让交互体验更为流畅。

🌟🚀掌握未来对话新纪元！🔍在Visual ChatGPT的革新视野里，隐藏着22款独到视觉引擎的秘密武器！🔥从稳定性之王-Stable Diffusion，到创意无限的BLIP，再到图像转译界的翘楚pix2pix，每一款都闪耀着创新与效能的光芒。🌟它们共同构建起一个强大的对话生态系统，引领潮流，突破想象边界。📚想要深入探索？立即跳转至我们的官方网站，体验无与伦比的视觉交流之旅！🌐HTTPS://[Your Website] 🚀

🌟【揭秘】Visual ChatGPT实力如何？🔥在技术探索的道路上，零次试验无疑是检验新能力的重要一环。👀 通过一系列严谨的实验，Visual ChatGPT以其卓越的性能，展示了其无与伦比的潜力。🚀 不仅如此，团队还对其进行了深度验证，确保了其在各种场景下的稳定性和准确性。无需繁琐的设置和训练，零次试验直接展示了ChatGPT的强大初始能力，就像一把未磨的利剑，等待着被精准挥舞。🗡️ 这种创新的实验方式，无疑为未来的AI交互开辟了新的可能。欲了解更多关于Visual ChatGPT如何在零次尝试中展现出色表现的细节，敬请关注后续的深度解析和案例分享。📚SEO优化提示：使用关键词”Visual ChatGPT”, “零次试验”, “技术验证”, “稳定性和准确性”, “AI交互可能性”等。

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存：优化提示工程虽带来挑战🌟🚀在文章生成过程中，巧妙运用提示工程确实能提升效率，但这就像驾驭多引擎车辆，需精细平衡以确保顺畅行驶。每增加一个模型的调用，无形中会拖慢实时响应的速度，就像每个零部件都需要精确协调一样。速度与质量并非零和游戏，而是需要智慧的权衡。🚀

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月13日 am10:52。
转载请注明：ChatGPT变身多模态艺术家？能画图还能理解图像，未来已来 | ChatGPT资源导航

ChatGPT：人工智能助手引发的未来焦虑

da, li

ChatGPT：人类新伙伴？还是AI的‘模式’突破?

da, li

🎉GPT-4震撼发布！🚀打破认知边界，OpenAI引领AI新纪元？🔥创新工具升级，极光推送焕发新生

da, li

AI时代：机器智能还是人类智慧

da, li

文心一言来袭！超能力对话创作，未来已来？

da, li

为何Siri等巨头输掉人工智能竞赛？ChatGPT开启复兴之路吗？

da, li

103

ChatGPT变身多模态艺术家？能画图还能理解图像，未来已来

诀窍在于提示工程？

MSRA老将出马

🔥新岗位爆火！只需会打字，AI巨神帮你写出代码，工程师未来何在？🤔

使用ChatGPT的13种Prompt，掌握AI聊天机器人的交互与创新！

相关文章

相关文章