ChatGPT能画图还能理解图像，打破多模态界限的VisualChatGPT已火超1.5k星，未来

学会提问 3年前 (2023) lida

87 0 0

文章主题：ChatGPT, Visual ChatGPT, Dall-E, 模型融合

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

ChatGPT能画图还能理解图像，打破多模态界限的VisualChatGPT已火超1.5k星，未来

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉能力开挂！💡通过巧妙融合多元视觉模型与Prompt Manager，这强大的AI已能轻松应对各类图像任务，展现无尽可能！🚀只需一点提示，就能开启无限创意，生成令人惊艳的结果。🌍无论你是图像设计师、摄影师还是爱好者，ChatGPT都是你创作路上的得力助手！👩‍💻👨‍💻别忘了探索它的无限可能，一起在数字世界大放异彩吧！🌐

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎉若用户出示图像，模型会首先以迅捷的方式将其传递给智能调度员，接着通过转化为文本的形式，交给ChatGPT进行审核。如果识别出此问题无需调动视觉技术，模型便会立即回应，提供准确答案——这是它惯用的高效处理流程（第1步速解）。

极简版

🌟🚀Visual ChatGPT: 重塑未来沟通！💡🔥由22款顶尖视觉模型驱动，这革命性的AI平台集齐了Stable Diffusion、BLIP与pix2pix之力，引领行业新潮流！🎨✨探索无尽创意空间，无论是图像生成还是风格转换，它都能轻松应对，让你的每一次交流都充满惊喜！🌍🌐立即体验，开启你的视觉对话新时代！👉链接：[隐藏]🌈

🌟【揭秘】Visual Chat GPT实力如何？🚀通过无数零基础测试，其卓越性能一展无遗！🔍在科技探索的道路上，Visual Chat GPT以其独特的零次实验策略，展现出强大的潜力和创新能力。无需预设场景或输入特定指令，它就能迅速适应并生成高质量内容，这无疑是对现有技术的一次颠覆性突破。📊这些零次试验的结果，不仅验证了其广泛适用性和灵活性，也让人们对未来的AI交流体验充满期待。每一项成功的案例都像一颗闪亮的星星，照亮了人工智能交互的新篇章。✨欲了解更多关于这个革命性的聊天工具如何改变沟通方式的细节，敬请关注我们后续的深度解析和实证分析。📚记得，每一次技术的进步都是为了更好地服务于人类，Visual Chat GPT无疑正在践行这一理念。🌍

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存：优化提示工程虽带来挑战🌟🚀在文章生成过程中，巧妙运用提示工程确实能提升效果，但这往往伴随着生成速度的微妙变化。每一步精心设计都可能转化为时间上的延迟，就像在调用多个模型以实现多维度融合时，实时性可能会受到考验。🌈💡提示工程的精确度与响应速度并非零和游戏，找到平衡点至关重要。通过技术优化和流程调整，我们能确保在保证内容丰富度的同时，尽可能减少对即时输出的影响。🚀💨记住，高质量并不总意味着即时，而是以最有效的方式呈现。让我们一起探索如何在速度与质量之间划出那道优雅的弧线吧！🌈📚

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月7日 pm12:30。
转载请注明：ChatGPT能画图还能理解图像，打破多模态界限的VisualChatGPT已火超1.5k星，未来 | ChatGPT资源导航

ChatGPT革命来临，你准备好了吗？🚀掌握AI，开启未来生产力新篇章🎓

da, li

ChatGPT来袭，哪些工作真的会‘永别’?

da, li

文心一言何以引领科技浪潮？百应全能大模型，打破想象的边界

da, li

搜索结果排序，ChatGPT能够更快地找到相关信息，并提供更加个性化的推荐，从而对谷歌搜索引擎构成威胁

da, li

给文心一言留机会？高科技发展呼唤开放竞争环境

da, li

ChatGPT：将如何重塑内容创作？人类就业面临挑战吗？

da, li

ChatGPT能画图还能理解图像，打破多模态界限的VisualChatGPT已火超1.5k星，未来

诀窍在于提示工程？

MSRA老将出马

？？？新岗位火了！AI工程师年薪超13万，只需会打字的你也能参与科技行业？”

🚀工具学习：零shot与探索强化的未来之路？🔍快速适应，挑战重重，通用化工具AI的曙光显现

相关文章

相关文章