能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

学会提问 2年前 (2023) lida
56 0 0

文章主题:视觉ChatGPT,微软,代码开源,多模态对话模型

666ChatGPT办公新姿势,助力做AI时代先行者!

视觉ChatGPT来了,微软发布,代码已开源

机器之心报道

编辑:陈萍、小舟

Visual ChatGPT 将 ChatGPT 和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。

🎉语言技术革新🌟:近年来,LLM的飞速发展震惊全球,尤其是去年11月30日OpenAI发布的ChatGPT,犹如一颗璀璨流星,短短三个月便引领风潮。这款全能型模型无所不能,无论是日常闲聊还是专业编程,甚至是问题解答,都能轻松应对,让你大呼过瘾!🚀ChatGPT的横空出世,不仅颠覆了人们的交流方式,更在教育、创意写作、科技支持等多个领域展现出强大的潜力。它以简洁易用的操作和无尽的知识库,迅速成为各行业人士手中的得力工具。🌍💻无论是企业寻求高效解决方案,还是个人追求知识探索,ChatGPT都以其卓越性能和广泛适用性,成为现代技术生活中的热门话题。它的出现,无疑为语言模型的发展开辟了新的篇章,引领我们步入一个更加智能化的未来。🚀🌟

🌟ChatGPT虽强大,但仍存在局限。💡它受限于单一模态训练,图像处理能力欠佳。相比之下,视觉基础模型(🎨[VFM]: 视觉基础模型],在计算机视觉领域展现无限可能,能解析并创造复杂图像。比如,BLIP模型堪称图像描述大师,而Stable Diffusion凭借文本指令就能生成图像。然而,尽管它在视觉理解上卓越,交互灵活性却稍逊一筹——相较于会话语言模型的多变性。🔍优化词汇:ChatGPT的局限性源于单一模态训练,对图像处理有所不足。相反,VFM作为一种先进的视觉工具,其在视觉理解和生成上的能力备受瞩目。BLIP模型专精于图像描述,而Stable Diffusion则能根据文本指令生成图像。然而,为了保持专业输出,VFM对输入/输出格式的要求严格,这在人机交互上相对保守。💡使用SEO关键词:ChatGPT局限、单一模态训练、视觉信息处理、BLIP模型、图像描述专家、Stable Diffusion、文本提示合成、VFM、计算机视觉潜力、交互灵活性、会话语言模型。添加emoji: 💡📝🎨🔍

🌟探讨未来:ChatGPT式全能系统能否实现?🚀💡想象一下,一个能理解并生成图像的超智能助手,就像ChatGPT一样引领潮流。但这样的技术突破真的可行吗?🤔👀首先,构建这样的多模态对话模型无疑是挑战重重。大数据和超强计算能力是必需的前提,就像攀登科技高峰,每一步都需要海量资源。🚀🔍那么,如何整合更多感知元素,如视频或语音,而不重蹈ChatGPT的“单一路径”呢?🤔 这个问题就像设计一个能适应各种媒体格式的超级大脑,每个新领域都需要独立建模吗?🤔🔍尽管如此,技术的进步总是寻找简化和效率提升的方法。或许,现有的模型可以通过微调或跨模态学习来扩展其能力,而不是从零开始。💡SEO提示:多模态对话、数据需求、计算资源、模态整合、未来趋势、AI优化

🎨Microsoft Asia Research的创新团队近期发布了Visual ChatGPT,一款打破常规、专为解答图像相关问题而生的卓越系统!他们巧妙地融合了ChatGPT与顶尖视觉基础模型,实现了对话中的图文无缝交流。为了便于大家实践,他们慷慨地将代码开源,诚意满满!🚀探索无限可能,只需轻轻一点!SEO优化提示:Visual ChatGPT, #微软亚洲研究院, #图像问答, #代码开源, #对话系统创新

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

论文地址:

https://arxiv.org/pdf/2303.04671.pdf

项目地址:

https://github.com/microsoft/visual-chatgpt

🌟🚀改写后:通过巧妙地整合ChatGPT的多模态优势,研究人员并未从零开始训练全新的Visual ChatGPT,而是直接基于这个强大的基础模型搭建。他们匠心独运,融合了一系列先进的VFM技术,以实现无缝对接。为了弥补潜在的性能差距,研究团队推出了一个创新的Prompt Manager,它具备以下核心功能:🚀🔍原内容:ChatGPT的强大在于其广泛的语言理解和生成能力,而 Visual ChatGPT 则在此基础上扩展了视觉交互,使得用户能够通过图像与AI进行更丰富的对话。这款工具已经在多个领域展现出强大的潜力,包括但不限于教育、娱乐和商业。🌟💡改写后:ChatGPT的无尽可能在于其语言和内容的全面生成,Visual ChatGPT在其基础上进一步实现了视觉与思维的深度交融,引领用户开启前所未有的图像交流体验。它在教育、娱乐及商务等多个场景中展现出无可估量的潜力,🚀🌈原内容:如果您对我们的产品和服务感兴趣,可以通过以下方式联系我们:电话 – 1234567890;邮箱 – info@example.com;网站 – www.example.com📝联系方式改写后:对于潜在客户的咨询需求,我们提供了便捷的联系方式:🌐电话 – 隐私保护,仅分享数字;💌电子邮箱 – 邮箱地址保密;🌐网址 – 请访问我们的官方网站以获取最新信息。寻求合作或了解更多详情,请直接访问相关链接。🔗原内容:ChatGPT 已经在多个大型科技公司中引起了轰动,包括 Google、Microsoft 和 Amazon 等,展示了其对未来AI技术的颠覆性影响。💥影响力改写后:ChatGPT以其革命性的能力震撼了全球科技舞台,不仅吸引了像Google、Microsoft和Amazon这样的行业巨头的关注,更预示着未来AI领域的深远变革。🔥🚀

1)明确告诉 ChatGPT 每个 VFM 的功能并指定输入输出格式;

✨将多样化视觉元素如PNG图片、深度图及mask矩阵,转化为ChatGPT能理解的语言载体,是关键步骤。这一步旨在确保信息的无缝传递与智能化处理。

3) 处理不同 VFM 的历史、优先级和冲突。

在 Prompt Manager 的帮助下,ChatGPT 可以利用这些 VFM,并以迭代的方式接收它们的反馈,直到满足用户的需求或达到结束条件。

总结而言,本文贡献如下:

提出 Visual ChatGPT,打开了 ChatGPT 和 VFM 连接的大门,使 ChatGPT 能够处理复杂的视觉任务;
设计了一个 Prompt Manager,其中涉及 22 个不同的 VFM,并定义了它们之间的内在关联,以便更好地交互和组合;
进行了大量的零样本实验,并展示了大量的案例来验证 Visual ChatGPT 的理解和生成能力。

如图 1 所示,用户上传了一张黄色花朵的图像,并输入一条复杂的语言指令「请根据该图像生成的深度图在生成一朵红色花朵,然后逐步将其制作成卡通图片。」在 Prompt Manager 帮助下,Visual ChatGPT 启动了和 VFM 相关的执行链。

其执行过程是这样的,首先是深度估计模型,用来检测图像深度信息;然后是深度 – 图像模型,用来生成具有深度信息的红花图像;最后利用基于 Stable Diffusion 的风格迁移 VFM 将该图像风格转换为卡通图像。

在上述 pipeline 中,Prompt Manager 作为 ChatGPT 的调度器,提供可视化格式的类型并记录信息转换的过程。最后,当 Visual ChatGPT 从 Prompt Manager 获得卡通提示时,它将结束执行 pipeline 并显示最终结果。

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

在接下来的示例中,用户输入提示:你能帮我生成一张猫的图像吗?收到指示后,Visual ChatGPT 生成一张正在看书的猫的图像。

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

你还可以要求 Visual ChatGPT 将图像中的猫换成狗,然后把书删除:

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

你甚至还能要求 Visual ChatGPT 生成 canny 边缘检测,然后基于此生成另一张图像:

接下来我们看看该研究是如何实现的。

方法:Visual ChatGPT

下图为 Visual ChatGPT 概览。左边进行了三轮对话,中间是 Visual ChatGPT 如何迭代调用 Visual Foundation Models 并提供答案的流程图。右侧展示了第二次 QA 的详细过程。

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

系统原则 prompt 管理

Visual ChatGPT 是一个集成了不同 VFM 来理解视觉信息并生成相应答案的系统。因此,Visual ChatGPT 需要定制一些系统原则,并将其转化为 ChatGPT 可以理解的 prompt。这些 prompt 有多种用途,包括:

Visual ChatGPT 本身的用途:Visual ChatGPT 旨在协助完成一系列与文本和视觉相关的任务,例如 VQA、图像生成和编辑;
VFM 的可访问性:Visual ChatGPT 可以访问 VFM 列表来解决各种 VL( vision-language ) 任务。使用哪种基础模型完全由 ChatGPT 模型本身决定,因此 Visual ChatGPT 可以轻松支持新的 VFM 和 VL 任务;
文件名敏感度:Visual ChatGPT 根据文件名访问图像文件,使用精确的文件名以避免歧义至关重要,因为一轮对话可能包含多个图像及其不同的更新版本,滥用文件名会导致混淆图片。因此,Visual ChatGPT 被设计为严格使用文件名,确保它检索和操作正确的图像文件;
Chain-of-Thought:如上图 1 所示生成卡通图片的过程,涉及深度估计、深度到图像和风格转换的 VFM,这种看似简单的命令可能需要多个 VFM,为了通过将查询分解为子问题来解决更具挑战性的查询,Visual ChatGPT 引入了 CoT 以帮助决定、利用和调度多个 VFM;
推理格式的严谨性:Visual ChatGPT 必须遵循严格的推理格式。因此,该研究使用精细的正则表达式匹配算法解析中间推理结果,并为 ChatGPT 模型构建合理的输入格式,以帮助其确定下一次执行,例如触发新的 VFM 或返回最终响应;
可靠性作为一种语言模型,Visual ChatGPT 可能会伪造假图像文件名或事实,这会使系统不可靠。为了处理此类问题,该研究对 prompt 进行了设计,要求 Visual ChatGPT 忠于视觉基础模型的输出,而不是伪造图像内容或文件名。此外,多个 VFM 的协作可以提高系统可靠性,因此本文构建的 prompt 将引导 ChatGPT 优先利用 VFM,而不是根据对话历史生成结果。

下表为 Visual ChatGPT 支持的 22 种基础模型:

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

基础模型的 prompt 管理

Visual ChatGPT 配备了多个 VFM 来处理各种 VL 任务。由于这些不同的 VFM 可能有一些相似之处,例如,图像中对象的替换可以被视为生成新图像,图像到文本(I2T)任务和图像问答(VQA)任务都可以理解为根据提供的图像给出响应,区分它们至关重要。如图 3 所示,Prompt Manager 具体定义了以下几个方面来帮助 Visual ChatGPT 准确理解和处理 VL 任务:

名称:名称 prompt 为每个 VFM 提供了整体功能的抽象,例如回答关于图像的问题,它不仅有助于 Visual ChatGPT 简明扼要地理解 VFM 的用途,而且名称还是 VFM 的入口。
用法:用法 prompt 描述了应该使用 VFM 的特定场景。例如,Pix2Pix 模型适用于改变图像的风格。提供此信息有助于 Visual ChatGPT 做出将哪个 VFM 用于特定任务的明智决策。
输入 / 输出:输入和输出 prompt 概述了每个 VFM 所需的输入和输出格式,因为格式可能有很大差异,并且为 Visual ChatGPT 正确执行 VFM 提供明确的指导至关重要。
示例(可选):示例 prompt 是可选的,但它可以帮助 Visual ChatGPT 更好地理解如何在特定的输入模板下使用特定的 VFM 以及处理更复杂的查询。

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

用户查询的 prompt 管理

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

Visual ChatGPT 支持多种用户查询,包括语言或图像,简单或复杂的查询,以及多张图片的引用。Prompt Manager 从以下两个方面处理用户查询:

生成唯一的文件名。Visual ChatGPT 可以处理两种类型的图像相关查询:涉及新上传图像的查询和涉及引用现有图像的查询。对于新上传的图像,Visual ChatGPT 会生成一个具有通用唯一标识符 (UUID) 的唯一文件名,并添加一个前缀字符串「image」来表示相对目录,例如「image/.png」。虽然新上传的图像不会被输入 ChatGPT,但会生成一个虚假的对话历史记录,其中包含一个说明图像文件名的问题和一个表明图像已收到的答案。这个虚假的对话历史有助于以下对话。对于涉及引用现有图像的查询,Visual ChatGPT 会忽略文件名检查。这种方法已被证明是有益的,因为 ChatGPT 能够理解用户查询的模糊匹配,前提是它不会导致歧义,例如 UUID 名称。

确保正确触发 VFM。为了保证 Visual ChatGPT 的 VFM 成功触发,该研究在 后面附加了一个后缀提示,这个提示有两个目的:1)提示 Visual ChatGPT 使用基础模型,而不是仅仅依靠它的想象;2) 鼓励 Visual ChatGPT 提供由基础模型生成的特定输出,而不是通用响应。

基础模型输出的 prompt 管理

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

对于来自不同 VFM

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

的中间输出,Visual ChatGPT 将隐式汇总并将它们提供给 ChatGPT 进行后续交互,即调用其他 VFM 进行进一步操作,直到达到结束条件或将结果反馈给 ChatGPT 用户。内部步骤可以拆解为生成链式文件名、调用 VFM、询问用户更多细节以确定用户命令。

实验及结果

多轮对话完整案例

图 4 为 Visual ChatGPT 进行的 16 轮多模态对话案例。在本例中,用户同时询问文本和图像问题,Visual ChatGPT 能够以文本和图像的方式给出响应。

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

Prompt Manager 案例研究

系统原则 prompt 管理分析研究如图 5 所示:为了验证系统原则 prompt 的有效性,该研究从中删除了不同的部分来比较模型性能。结果显示每次移除都会导致不同的容量退化。

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

图 6 为基础模型 prompt 管理的案例分析。前面也提到 VFM 的名称非常重要,需要明确定义。当名称缺失或模糊时,Visual ChatGPT 会进行多次猜测,直到找到现有的 VFM,或遇到错误终止,如左上角所示。此外,VFM 应清楚地描述在特定的场景下所使用的模型,以避免错误的响应,右上图显示风格迁移被错误地处理成替换。还有一点需要注意的是,输入输出格式的 prompt 要准确,避免参数错误,如左下图。示例 prompt 可以帮助模型处理复杂的用法,但它是可选的,如右下图所示,虽然本文删除了示例 prompt,但 ChatGPT 还可以总结对话历史和人类意图以使用正确的 VFM。

图 7 上半部分分析了用户查询 prompt 管理的案例研究,图 7 底部分析了模型输出的 prompt 管理案例。

返回搜狐,查看更多

责任编辑:

能否构建一个全能型ChatGPT?微软视觉ChatGPT来了,代码开源,对话+图像不再是梦!

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章