ChatGPT变身多模态画家？打破想象的视觉聊天新纪元！

学会提问 3年前 (2023) lida

75 0 0

文章主题：视觉ChatGPT, GPT, Dall-E, 多模态信息

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

🎨🎨ChatGPT的视觉能力开挂！💡通过巧妙融合多元视觉模型与Prompt Manager，这强大的AI已能轻松应对各类图像任务，展现无尽可能！🚀只需一点提示，就能开启无限创意，为你的世界增添色彩！🌍想要了解更多？探索ChatGPT的视觉新纪元，让我们一起见证科技的魅力！🌐

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

🎉若用户出示图像，模型会首先以迅捷的方式将其传递给智囊管理员，接着通过精湛的文本转化技术，将图像内容转化为可理解的语言。随后，ChatGPT会进行深度审核，如果问题无需调动视觉处理能力，模型立即将准确答案奉上，省时又高效（首个响应）。🌍✨每个环节都精心设计，确保信息流畅且SEO优化，让搜索引擎轻松找到并喜爱我们的高质量内容。

当面临第二个问题时，ChatGPT会通过内置的视觉模型进行深度处理，这个过程就像一个持续的迭代循环，直到它认为无需再借助视觉力量来解析问题，才将最终的答案展现出来。🚀

🌟🚀Visual ChatGPT: 重塑未来沟通！💡🔥由22款顶尖视觉模型驱动，这革命性的AI平台集齐了Stable Diffusion、BLIP与pix2pix之力，引领行业新潮流！🎨✨探索无尽创意，跨越视觉边界，每一步都充满无限可能。🌍🌐体验视觉对话的魔力，让交流触手可及！💻📚立即加入，开启你的创新之旅！🌟隐私保障，专业服务，Visual ChatGPT诚邀您的深度合作！💌

🌟【揭秘】Visual Chat GPT实力如何？🔥在人工智能领域，零次试验（ zadock 🤖）无疑是检验技术实力的利器。为了全方位展示ChatGPT的卓越性能，研发团队进行了密集且深入的零次测试，以验证其无与伦比的创新潜力。🚀这些实验涵盖了广泛的场景和应用，从基础语言理解到复杂问题解答，每一步都旨在证明Visual Chat GPT的强大适应性和灵活性。无需预先训练，它就能迅速理解和生成高质量的内容，这无疑为AI交互开辟了全新篇章。🌈通过零次试验的严谨分析，我们得以窥见ChatGPT未来可能带来的变革，其潜力和价值不言而喻。欲了解更多细节，敬请关注后续报道，让我们共同见证这一人工智能革命的到来！🚀#VisualChatGPT #零次试验 #AI实力验证

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

🌟速度与质量并存🚀在AI文章生成中，提示工程确实是个需要权衡的因素。它可能会对生成速度产生一定影响，就像多任务同时运行可能导致效率降低一样。若想实现流畅的实时互动，减少不必要的模型调用至关重要。优化策略和高效架构是关键，让技术服务于创作，而非阻碍。记得，每一次的进步都需在平衡中寻找最佳路径哦！📚SEO友好的词汇：AI文案生成中的提示工程与速度挑战💡通过精简流程提升效率，避免多模协作拖慢实时性。寻求创新，打造流畅体验，优化是王道！💼

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA，任职已超16年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2012年加入微软，任职11年，目前是一位软件工程师。

论文地址：

https://arxiv.org/abs/2303.04671

参考链接：

https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 头条号签约

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 历史科学论文

版权声明：lida 发表于 2023年5月10日 pm2:04。
转载请注明：ChatGPT变身多模态画家？打破想象的视觉聊天新纪元！ | ChatGPT资源导航

欧洲监管担忧袭来，ChatGPT概念股集体跳水？市场真的会调整吗？

da, li

美区免费APP大揭秘

da, li

ChatGPT加持！爱尔眼科携手科研机构，引领眼科服务迈向智慧化新时代？

da, li

阿里确认类ChatGPT内测，科技风暴席卷保险业，ChatGPT与AI将如何重塑保险营销？

da, li

有了chatGPT，做PPT真的会轻松很多

da, li

100

AI 也内卷？新 ChatGPT 登场！

da, li

ChatGPT变身多模态画家？打破想象的视觉聊天新纪元！

诀窍在于提示工程？

MSRA老将出马

ChatGPT爆火，神秘‘好面哥’让AI做推特周报，新岗位或将改变科技行业？”

世界币推出WorldApp，AI时代的新身份证明与钱包？?

相关文章

相关文章