ChatGPT变身VisualChatGPT，多模态信息处理新突破，未来已来？

学会提问 2年前 (2023) lida

44 0 0

文章主题：ChatGPT, Visual ChatGPT, Dall-E, 模型融合

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉魔力🌟🌟——跨模态智能新突破！借助创新的Prompt Manager，我们巧妙地将多元视觉模型融入其中，实现了ChatGPT对各类视觉挑战的从容应对。无论是图像生成、标注还是修复，它都能游刃有余，展现超凡智慧。🚀🌍这不仅是技术的进步，更是人机交互的新篇章，为未来的创意无限可能打开了一扇窗！如果你想了解更多，探索更多，只需轻轻一点——ChatGPT，你的视觉伙伴，正在等你！✨

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎉若用户出示图像，模型会首先以迅捷的方式将其传递给智囊管理员，接着通过AI技术转化为可理解的文本信息。随后，ChatGPT将对这些内容进行审核，如果问题无需调动视觉处理能力，模型便会立即给出准确答案，就像打开灯泡瞬间就有光✨。

当面临第二个问题时，ChatGPT会通过内置的视觉模型进行深度处理，这个过程就像一个持续的迭代循环，视觉模型会不断地工作，直到ChatGPT认为不需要额外的视觉支持为止。最终，它会以最精确的形式提供答案，整个过程中确保了高效性和准确性。

🌟🚀Visual ChatGPT: 重塑未来沟通！💡🔥由22款顶尖视觉模型驱动，这革命性的AI平台集齐了Stable Diffusion、BLIP与pix2pix等重量级选手，引领行业新风向！🎨✨探索无尽创意，体验超凡对话。🌍🌐立即深入，开启你的视觉对话新时代！👉链接：[隐藏]🌈

🌟【揭秘】Visual Chat GPT实力如何？🔥在技术探索的道路上，零次试验无疑是检验新能力的一把锐利钥匙。🚀 通过一系列严谨的实验，Visual Chat GPT以其卓越的表现，成功展示了其无与伦比的潜力。🔍无需预设场景或特定指令，它就能迅速理解并生成高质量的内容，这无疑是对传统交互方式的一大突破。🎯 零次试验的结果，不仅验证了它的语言理解和生成能力，也彰显了其广泛适应性和创新精神。欲深入了解其工作原理与效能，敬请期待后续的深度解析。📚SEO优化提示：Visual Chat GPT、零次试验、技术探索、新能力、语言理解、生成内容、突破、适应性、创新精神、深度解析

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存🚀在文章生成过程中，提示工程的大量运用确实可能带来生成速度上的挑战。毕竟，它们需要额外的时间和计算资源来驱动模型协同运作。而这可能会对即时反馈产生影响，降低系统的实时性。🌈然而，通过优化技术与多模型协作策略，我们能在这两者间找到微妙的平衡，确保在保证内容丰富度的同时，也能实现快速且流畅的输出。💪

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月6日 pm10:17。
转载请注明：ChatGPT变身VisualChatGPT，多模态信息处理新突破，未来已来？ | ChatGPT资源导航

与英伟达合作进展如何？易华录秘回应，独家对话待解！

da, li

ChatGPT：未来已来？揭秘最新内测大起底

da, li

数据驱动、情感分析、ChatGPT，2023年MarTech的三个最强“风口”

da, li

尝试新科技！ChatGPT替代品TeachAnything，OpenAIGPT-3在线问答神器只需

da, li

AI时代的个人信息保护：数据控制者与隐私数据合规

da, li

日本政府积极推动，ChatGPT却把数字大臣认错，AI技术的尴尬与机遇交织

da, li

ChatGPT变身VisualChatGPT，多模态信息处理新突破，未来已来？

诀窍在于提示工程？

MSRA老将出马

ChatGPT时代，人类是否需要担心被‘替代’？探秘对话机器人背后的问题与未来竞争力

ChatGPT背后的开放商openAI，商业化之路能走多远？巨额成本与不确定性的挑战

相关文章

相关文章