ChatGPT能画图还能解密图像,未来多模态科技新星已现!

学会提问 1年前 (2023) lida
53 0 0

文章主题:视觉ChatGPT, GPT, Dall-E, 多模态信息

666ChatGPT办公新姿势,助力做AI时代先行者!

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了!

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

还能根据新的文字指令调整图片:把猫换成狗。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

🎨🎨ChatGPT的视觉能力大飞跃!🚀通过巧妙融合多元视觉模型与精巧的Prompt Manager,这强大的AI已能娴熟应对各类图像任务,展现无尽可能。无需透露背后技术细节,只需想象其智慧之光如何照亮创意世界。🏆想要探索更多可能?ChatGPT,你的视觉伙伴,等你来解锁!🌍

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

这样一来,Visual ChatGPT的工作流大概长这样:

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

🎉若用户出示图像,模型会首先以迅雷不及掩耳之势将其传递给智能管理员,接着通过精湛的图像理解技术转化为可读文本,随后与ChatGPT进行深度交流。👀如果识别出此请求无需调动视觉辅助,模型便会立即给出精准答案,省时又高效(首个响应)。

当面临第二个问题时,ChatGPT会通过内置的视觉模型进行深度处理,这是一种逐步迭代的过程,它会不断地分析和优化解决方案,直至ChatGPT确认无需再依赖视觉模型,才将最终结果呈现出来。这样设计确保了效率与准确性的平衡,让交互体验更为流畅。

🌟🚀Visual ChatGPT: 重塑未来沟通!💡🔥由22款顶尖视觉模型驱动,这革命性的AI平台集齐了Stable Diffusion、BLIP与pix2pix之力,引领行业新风向!🎨✨探索无尽创意,只需轻轻一点!🌐🎉体验即见证奇迹,Visual ChatGPT,让交流触手可及!📚💻立即加入,开启对话新篇章!隐私保密,商业合作请私信。🏆

🌟【揭秘】Visual ChatGPT实力如何?🔥在人工智能领域的一场创新探索中,我们见证了一项卓越的验证——通过零次试验( zadig zero-shot ),Visual ChatGPT的超强能力得到了深度展现。🚀无需前期训练,这款聊天机器人凭借其惊人的学习力,轻松实现了对各种场景和任务的无缝对接,展示了其无与伦比的适应性。🔍这些零次实验不仅验证了它的技术成熟度,更揭示了它在跨领域应用中的潜力无限。🌈欲了解更多关于Visual ChatGPT如何颠覆传统、引领潮流的信息,敬请关注后续报道,让我们一起期待这场智能革命的到来!🚀记得用#VisualChatGPT #零次试验 #人工智能探索来提升SEO哦!😊

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

🌟速度与质量并存:优化提示工程虽有挑战,却能提升生成效率🚀。通过精准调控,避免多模型协作带来的时延风险🌈。让每一步都流畅,每一瞬间都能收获高质量的内容✨。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA,任职已超16年。

第一作者Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于2012年加入微软,任职11年,目前是一位软件工程师。

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

论文地址:

https://arxiv.org/abs/2303.04671

参考链接:

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

ChatGPT能画图还能解密图像,未来多模态科技新星已现!

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

版权声明:lida 发表于 2023年5月9日 pm1:41。
转载请注明:ChatGPT能画图还能解密图像,未来多模态科技新星已现! | ChatGPT资源导航

相关文章