ChatGPT能画画还能看图解密？最新研究突破多模态人工智能大关！🚀🎨💻

学会提问 2年前 (2023) lida

65 0 0

文章主题：视觉ChatGPT, GPT, Dall-E, 多模态信息

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉能力大飞跃！借助多元👀视觉模型的融合，加上一款巧妙的Prompt Manager，这AI巨擘已能轻松应对各类图像任务啦！🚀只需轻轻一点，无论是图像生成、内容标注还是风格转换，它都能游刃有余。🌍prompt管理，无限可能，ChatGPT引领未来创意新风尚！✨

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎉若用户出示图像，模型会首先以迅雷不及掩耳之势将其传递给智囊团，接着通过AI魔法转化为可理解的语言，交给ChatGPT进行深度解析。如果识别到此问题无需调动视觉技术，模型便会立即回应，给出精准答案（速度与激情般的响应）。🚀

当面临第二个问题时，ChatGPT会通过内置的视觉模型进行深度处理，这个过程就像一个持续的迭代循环，视觉模型逐步工作，直到ChatGPT确认不需要额外的图像支持为止，最终才将答案呈现出来。这样设计有助于提升交互效率，并且确保信息的准确性和完整性。记得，优化后的表述旨在吸引搜索引擎流量，同时保持内容的专业性。

🌟🚀Visual ChatGPT: 重塑对话艺术！💡🔥由22款顶尖视觉模型驱动，这革命性的AI平台集齐了Stable Diffusion、BLIP与pix2pix等重量级工具，引领未来图文交互新纪元！🎨✨探索无限创意，体验无界沟通的可能。🌍🌐立即深入，开启你的创新之旅！📚💻#VisualChatGPT #未来对话 #创新引擎

🌟【揭秘】Visual Chat GPT实力如何？🚀通过一系列零次尝试火力全开！🔥研究人员们对其卓越性能展开了深度探索，通过无先例的实验，展示了其惊人的潜力。🔍这些零样本测试不仅验证了ChatGPT的强大适应性，也让大家对未来的AI交互充满了期待。💡想要一探究竟？一起来见证这场技术革命的震撼瞬间吧！💥

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存：优化提示工程虽有影响，但对生成速度并非致命一击！🚀通过精心设计和合理调度，我们能有效平衡效率与效能，确保每一步都能迅速而精准地响应。💡同时，避免过度依赖多模型并行，可显著提升实时性，让你的创作流畅无阻。💪

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月11日 pm10:56。
转载请注明：ChatGPT能画画还能看图解密？最新研究突破多模态人工智能大关！🚀🎨💻 | ChatGPT资源导航

发现AI痕迹？揭秘Antiplagiarism新工具，标记疑似GPT文本

da, li

银行业如何拥抱ChatGPT？它将如何改变金融服务？

da, li

搜索结果排序，ChatGPT能够更快地找到相关信息，并提供更加个性化的推荐，从而对谷歌搜索引擎构成威胁

da, li

如何在ChatGPT中保驾护航？隐私与安全全面防护指南

da, li

讯飞星火迭代升级，将如何改写人工智能格局？

da, li

101

宁夏建材四连板的真相：微软ChatGPT业务影响几何？

da, li

ChatGPT能画画还能看图解密？最新研究突破多模态人工智能大关！🚀🎨💻

诀窍在于提示工程？

MSRA老将出马

🔥揭秘！ChatGPT爆火背后的天才‘提示工程师’，年薪超13万，改写科技行业规则？🚀

掌握ChatGPT，加速Web开发流程！50个提示+实战建议，AI你的不二之选？

相关文章

相关文章