文章主题:ChatGPT, Visual ChatGPT, Dall-E, 模型融合
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
ChatGPT会画画了!
问它:能生成一张猫片给我吗?
立刻连文带图全有了。
还能根据新的文字指令调整图片:把猫换成狗。
同时也看得懂图、有理解能力。
比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。
如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。
🎨🎨ChatGPT的视觉魔力🌟🌟——跨模态智能新突破!借助创新的Prompt Manager,我们巧妙地将多元视觉模型融入其中,实现了ChatGPT对各类视觉挑战的从容应对。无论是图像生成、标注还是修复,它都能游刃有余,展现超凡智慧。🚀🌍这不仅是技术的进步,更是人机交互的新篇章,为未来的创意无限可能打开了一扇窗!如果你想了解更多,探索更多,只需轻轻一点——ChatGPT,你的视觉伙伴,正在等你!✨
这项工作一发出来就火了,GitHub揽星已超过1.5k。
简单总结一下,就是把GPT和Dall-E合并的感觉~
又懂文字又会画图……有人就说:
这不是终极meme图制造机?
诀窍在于提示工程?
Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。
但是从头训练一个多模态模型,工作量非常大。
研究人员想到可以在ChatGPT的基础上,结合一些视觉模型。
而想要达到这一目的,关键需要一个中间站。
由此他们提出了提示管理器(Prompt Manager)的概念。
它的作用主要有3方面:
第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。
第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。
第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。
这样一来,Visual ChatGPT的工作流大概长这样:
🎉若用户出示图像,模型会首先以迅捷的方式将其传递给智囊管理员,接着通过AI技术转化为可理解的文本信息。随后,ChatGPT将对这些内容进行审核,如果问题无需调动视觉处理能力,模型便会立即给出准确答案,就像打开灯泡瞬间就有光✨。
当面临第二个问题时,ChatGPT会通过内置的视觉模型进行深度处理,这个过程就像一个持续的迭代循环,视觉模型会不断地工作,直到ChatGPT认为不需要额外的视觉支持为止。最终,它会以最精确的形式提供答案,整个过程中确保了高效性和准确性。
🌟🚀Visual ChatGPT: 重塑未来沟通!💡🔥由22款顶尖视觉模型驱动,这革命性的AI平台集齐了Stable Diffusion、BLIP与pix2pix等重量级选手,引领行业新风向!🎨✨探索无尽创意,体验超凡对话。🌍🌐立即深入,开启你的视觉对话新时代!👉链接:[隐藏]🌈
🌟【揭秘】Visual Chat GPT实力如何?🔥在技术探索的道路上,零次试验无疑是检验新能力的一把锐利钥匙。🚀 通过一系列严谨的实验,Visual Chat GPT以其卓越的表现,成功展示了其无与伦比的潜力。🔍无需预设场景或特定指令,它就能迅速理解并生成高质量的内容,这无疑是对传统交互方式的一大突破。🎯 零次试验的结果,不仅验证了它的语言理解和生成能力,也彰显了其广泛适应性和创新精神。欲深入了解其工作原理与效能,敬请期待后续的深度解析。📚SEO优化提示:Visual Chat GPT、零次试验、技术探索、新能力、语言理解、生成内容、突破、适应性、创新精神、深度解析
结果如开头所示,Visual ChatGPT具备很强的图像理解能力。
可以一直按照人的需求不断生成、修改图片。
当然,研究人员也提到了这项工作目前还存在一些局限性。
比如生成结果的质量,主要取决于视觉模型的性能。
🌟速度与质量并存🚀在文章生成过程中,提示工程的大量运用确实可能带来生成速度上的挑战。毕竟,它们需要额外的时间和计算资源来驱动模型协同运作。而这可能会对即时反馈产生影响,降低系统的实时性。🌈然而,通过优化技术与多模型协作策略,我们能在这两者间找到微妙的平衡,确保在保证内容丰富度的同时,也能实现快速且流畅的输出。💪
最后,在输入图片的隐私安全上,还需要做进一步升级保护。
MSRA老将出马
本项研究成果来自微软亚洲研究院的团队。
通讯作者是段楠。
他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。
主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。
2006年加入MSRA,任职已超16年。
第一作者Chenfei Wu,同样是一位资深研究人员了。
据领英资料显示,他于2012年加入微软,任职11年,目前是一位软件工程师。
论文地址:
https://arxiv.org/abs/2303.04671
参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337
— 完 —
量子位 QbitAI · 头条号签约
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!