🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

文章主题:

666ChatGPT办公新姿势,助力做AI时代先行者!

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

当下大模型的在各行各业的落地,已经开始展开,也有很多的文章展开论述。

然而,在当前如何更好地自主地大一统地解决复杂场景,一直是人工智能技术发展应用落地的一个大的方向。

本文也将谈谈从技术实现角度上看,当下大模型的三种落地场景范式。

老刘通过对现有开源的项目实现,大致将大模型的落地归为Trans Anything、Ask Anything、Control Anything三种类型

其中:

Trans Anything,指的是

🌟数据转换的艺术🌟无论是💻代码转文本,图文并茂的’image’变文字,还是流畅的vídeó转化为可理解的内容,大模型都能轻松应对这些多格式间的转换挑战。🚀无论你手上有哪种形式的数据,只需轻轻一触,就能在模型的世界里自由流转,无缝对接。🌍不论是科研项目的需求,还是日常信息处理,这种跨形态的能力都将提升效率,让知识无边界。🔥别忘了,这不仅是技术的进步,更是智能的飞跃!

Ask Anything,指的是作为一种以QA形式进行交互的新模式,极大的冲击了问答场景。从一般的闲聊,到面向特定文档的问答,到面向各种复杂文档、知识库、多模态等场景,均可以通过构造问题,来获得问题对应的答案。

🌟掌握一切,意味着高效地协调各类模型和服务,推动它们无缝协作,这是智能领域的卓越体现。通过巧妙整合与调动,将不同服务与模型的力量汇聚一堂,以达成宏图大业。🚀这主要通过运用GPT-4的创新思维、Pinecone的数据洞察能力和LangChain的逻辑连结,打造任务导向的自主代理系统,实现智能化操作的自动化。🌐

这三种范式是属于递进的关系,Transfer Anything可以为Ask Anayting提供基础数据,Ask Anything可以以QA形式完成多种应用生产,并提供服务,Control Anayting则作为上层可以调度两者,以集成更多、更全面的力量,来实现更大的收益。

一、Generative AI Market基本情况

🌟📊LEONIS CAPITA的最新力作!🚀🔥Generative AI市场全景图揭示了行业动态✨🔍现有巨头们分布在researc️📚, text创作💡, image生成🖼️, video制作🎬, audio创新🎶, code编写💻, gaming领域🎮以及生物科技生物科技🔬。每个类别都蕴含着无限可能,引领未来技术浪潮!🌐🚀欲深入了解各厂商的领军地位与市场策略?我们已为你整理了详尽分析报告,只需轻轻一点,专业洞见即刻呈现!📚🔍欲探索更多生成AI的前沿应用和创新趋势?别错过这份全面且权威的地图,它将是你开启知识之旅的绝佳指南!🚀🌌欲了解更多详情或寻求合作,请访问我们的官方网站,我们将竭诚为您服务!🌐💼#GenerativeAI #MarketMap #LeonisCapita”

从中我们可以看到国外市场的布局。

1、RESEARCH

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

2、TEXT

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

3、IMAGE

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

4、VIDEO

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

5、AUDIO

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

6、CODE

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

7、GAMING

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

8、BIOTECH

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

三、Trans Anything范式

我们发现,我们所有的应用生产,都是在面对不同的数据,作不同的处理,完成包括信息过滤、信息加工,以产出不同的数据价值。

但在实际的业务落地中,我们发现,不同的数据,在传统的落地中都是需要依靠不同的技术栈、技术模型来做不同的处理,这显然十分费力。

🎉🚀ChatGPT等巨量模型的涌现,为实现一体化目标开辟了前所未有的道路!💡它具备强大的跨模态与多格式转化能力,让各种模型间的互动无缝对接,实现了真正的互联互通。🌍这不仅革新了AI领域的协作方式,也为未来的创新提供了无限可能。🏆

我们定义为,Trans anything表示不同形式数据之间的转换,包括代码code、文本text、图像image、视频video等不同形式之间的互转,这些场景在大模型都有机会实现。

例如:

1、code2code:不同代码种类之间的转换,如python转c,c转python等,这可以加速代码开发效率;

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

2、code2text:代码转换为文本,应用场景为代码审查、代码分析;

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

3、text2text:文生文,应用场景为文本摘要、视频会议纪要等;

极简主义是一种设计理念,它倡导在日常生活中去除冗余和不必要的元素,追求简洁、纯粹和高效。这种理念不仅体现在家居装饰上,也广泛应用于艺术、科技和生活方式等多个领域。通过精简形式,极简主义者强调内在的本质和功能,鼓励人们回归简单,减少对物质的依赖,从而实现内心的平静与自由。在家居设计中,极简主义通常表现为空间布局的清晰明了,色彩选择的单一纯粹,以及家具线条的简洁流畅。摒弃过多复杂的装饰和花纹,设计师们更倾向于使用大面积的空白来营造宁静的氛围,同时通过少量精致的配饰来点睛。这样的设计不仅提升了居住舒适度,也符合现代人追求个性化但又不失高雅的生活品味。在科技领域,极简主义的理念同样得到了体现。许多科技产品以用户友好和易用性为核心,摒弃了过多花哨的功能和界面,力求简洁直观。例如,苹果公司的iOS系统就以其清晰的布局和精炼的操作方式赢得了用户的喜爱。这种理念不仅推动了技术的进步,也使人们在使用科技产品时更加轻松愉快。极简主义的生活方式则倡导一种简约而充实的生活态度。它鼓励人们关注内心的需求,减少消费,选择真正有价值的事物。例如,通过阅读而非社交媒体来获取信息和娱乐,或者定期进行深度的自我反思,而不是被琐事牵绊。这样的生活方式有助于提高生活质量,同时也有助于环境保护。总的来说,极简主义是一种以少为多、追求内在价值的生活哲学。它倡导在快节奏的现代生活中找到平衡,让人们在简单中体验到丰富和自由。无论是家居设计、科技产品还是日常生活方式,极简主义都以其独特的魅力影响着人们,引导我们走向更加和谐与美好的未来。

🎨复古风印花连衣裙,深邃藏青渲染低调奢华,太阳花撞色点缀,如夏日彩虹般绚丽夺目,瞬间提升时尚度与青春活力。圆领设计简约而不失优雅,轻轻一拉,勾勒出精致的小脸轮廓。便捷的包布扣领后固定,穿脱自如,尽显轻松随性。前片立体褶皱与后部压褶工艺相得益彰,层次丰富,空间感十足,轻松塑造苗条身型。这款连衣裙不仅满足日常穿着,更是展现个性品味的绝佳选择。🎨SEO优化词汇:#复古印花裙 #藏青色魅力 #时尚减龄气质 #圆领设计 #包布扣穿脱 #立体褶皱 #显瘦有型

4、text2code:文本转代码,应用场景为自动代码生成、低代码平台开发,自然语言转sql等,提升代码效率;

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

5、text2image:文生图,根据文本生成图像,应用场景为根据文本自动作图,广告配图、业务配图等;

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

例如项目:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines/examples/text_to_image

6、image2text:图生文,根据图像生成文本,应用场景为自动报道生成,图像解读。

来自于:https://www.microsoft.com/en-us/research/project/image2text-2的例子

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

7、text2video:文本生成视频,尤其是在具有时序性的文本,生成为视频,应用场景为游戏、漫画生成;

来自:https://huggingface.co/damo-vilab/text-to-video-ms-1.7b-legacy的例子

An astronaut riding a horse. 

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

Darth vader surfing in waves. 

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

8、video2text:视频生成文本,应用场景为视频总结、视频分析;

二、ASK Anything落地范式

类Chatgpt大模型出现后,作为一种以QA形式进行交互的新模式,极大的冲击了问答场景。从一般的闲聊,到面向特定文档的问答,到面向各种复杂文档、知识库、多模态等场景,均可以通过构造问题,来获得问题对应的答案。

1、处理各种不同格式文档的代表项目

在此推荐一个可以处理多种复杂格式文档的开源项目:textract

地址:https://textract.readthedocs.io/en/stable/

使用项目:

textract path/to/file.extension

textract支持越来越多的文件类型列表用于文本提取,其中集成实现了如下格式文档:

.csv通过python内置;  .doc通过反词;  .docx通过python-docx2txt;  .eml通过python内置;  .epub通过ebooklib;  .gif通过 tesseract-ocr;  .jpg和.jpeg通过tesseract-ocr;  .json通过python内置;  .html和.htm通过beautifulsoup4;  .mp3通过 sox、SpeechRecognition 和 pocketsphinx;  .msg通过msg-extractor;  .odt通过python内置;  .ogg通过 sox、SpeechRecognition 和 pocketsphinx;  .pdf通过pdftotext(默认)或pdfminer.six;  .png通过 tesseract-ocr;  .pptx通过python-pptx;  .ps通过ps2text;  .rtf通过unrtf;  .tiff和.tif通过tesseract-ocr;  .txt通过python内置;  .wav通过SpeechRecognition和pocketphinx;  .xlsx通过xlrd;  .xls通过xlrd;  

2、ask video

Ask-Anything是一个简单而有趣的与视频聊天工具,该团队正在努力建立一个智能且强大的用于视频理解的聊天机器人。

项目地址:https://github.com/OpenGVLab/Ask-Anything/blob/main/README_cn.md

实现思路也很简单,以minigpt4为例:

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

依赖于两个基础模型,分别对应于文本模型和视觉模型,在该模型中,文本模型使用Vicuna,视觉模型使用BLIP-2,总体将BLIP-2的冷冻视觉编码器与冷冻LLM Vicuna对齐,只使用一个投影层,以解决从视觉到文本的转换。

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

2、ask documents

以chatpdf、langchain为代表的项目,通过对文档进行封闭性的问答,其实现思路很简单,大致如下:

1)Azure的解决方案

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

1)文章切片到段落;

2)通过 OpenAI 的 embedding 接口将每个段落转换为 embedding;

3)将提问的问题转换为 embedding

4)把问题的 embedding 比较所有段落 embedding 得到近似程度并排序 ;

5)把和提问(语义)最接近的一个或几个段落作为上下文,通过 OpenAI 的对话接口得到最终的答案

2)单文档解决方案

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

四、Control Anything范式

Control Anything,指的是对不同模型、不同服务之间的决策,以实现不同模型之间的有效协作,这个也是智能体的一个最佳表现,通过集成、调动不同服务之间进行合作,集成不同模型的能力,以完成一个更大的目标。

其主要实现形式为利用GPT-4、Pinecone和LangChain进行多种应用,实现任务驱动的自主代理。以AutoGPT为例,(自动)工作原理如下:提出问题,即设定一个目标->AutoGPT 根据设定的目标,拆解主任务-> 分别并执行各个主任务,然后得到结果-> 当主任务执行完成后,会执行额外的添加的子任务。

1、AutoGPT

项目地址:https://github.com/Significant-Gravitas/Auto-GPT

其核心在于它把我们的命令发送给GPT-4的时候,让GPT-4根据指定的COMMAND来选择操作,上述COMMAND中,大家可以看到包括谷歌搜索、浏览网站、读写文件、执行代码等。AutoGPT会把问题,如“寻找今天推特上最火的AI推文”发给GPT-4,并要求GPT-4根据这些COMMAND选择最合适的方式去得到答案,并给出每一个COMMAND背后需要使用的参数,包括URL、执行的代码等。🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

2、HuggingGPT

解决不同领域和模式的复杂人工智能任务是迈向高级人工智能的关键一步。虽然有丰富的人工智能模型可用于不同的领域和模式,但它们不能处理复杂的人工智能任务。

考虑到大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出的卓越能力,我们主张LLMs可以作为一个控制器来管理现有的人工智能模型,以解决复杂的人工智能任务,而语言可以作为一个通用接口来授权。

地址:https://github.com/microsoft/JARVIS

基于这一理念,HuggingGPT,利用LLM(如ChatGPT)来连接机器学习社区(如Hugging Face)中各种人工智能模型的框架,以解决人工智能任务。具体来说,使用ChatGPT在收到用户请求时进行任务规划,根据Hugging Face中的功能描述选择模型,用所选的AI模型执行每个子任务,并对响应情况进行总结。

HuggingGPT的整个过程可以分为四个阶段:

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

3、BabyBeeAGI

BabyBeeAGI,用GPT-4改进的BabyBeeAGI扩展了BabyAGI代码,提高了任务管理、依赖任务、工具、适应性和集成能力。该代码适合处理更多更复杂的任务,但需要更高的计算能力。

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

地址:https://github.com/yoheinakajima/babyagi

该脚本通过运行一个无限循环来完成以下步骤:

从任务列表中抽出第一个任务->将任务发送给执行代理,执行代理使用OpenAI的API来完成基于上下文的任务->丰富结果并将其存储在Chroma/Weaviate中->创建新的任务,并根据目标和前一个任务的结果重新确定任务列表的优先次序。

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

我们可以看下该图中的细节:

execution_agent()函数是使用OpenAI API的地方。它需要两个参数:目标和任务。然后它向OpenAI的API发送一个提示,并返回任务的结果。该提示由人工智能系统的任务描述、目标和任务本身组成。然后,结果以字符串形式返回。

task_creation_agent()函数是OpenAI的API用来根据目标和前一个任务的结果来创建新的任务。该函数需要四个参数:目标、前一个任务的结果、任务描述和当前任务列表。然后,它向OpenAI的API发送提示,API以字符串形式返回新任务的列表。然后,该函数将新任务以字典列表的形式返回,其中每个字典包含任务的名称。

prioritization_agent()函数是使用OpenAI的API来重新确定任务列表的优先级的地方。该函数接受一个参数,即当前任务的ID。它向OpenAI的API发送一个提示,后者将重新优先排序的任务列表作为一个编号的列表返回。

最后,该脚本使用Chroma/Weaviate来存储和检索任务结果的背景。脚本根据TABLE_NAME变量中指定的表名创建一个Chroma/Weaviate集合。然后使用Chroma/Weaviate将任务的结果与任务名称和任何额外的元数据一起存储在集合中。

参考文献

1、https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

2、https://www.microsoft.com/en-us/research/project/image2text-2/

总结

本文主要通过对现有开源的项目实现,大致将大模型的落地归为Trans Anything、Ask Anything、Control Anything三种类型。

其中,这三种范式是属于递进的关系,Trans Anything可以为Ask Anayting提供基础数据,Ask Anything可以以QA形式完成多种应用生产,并提供服务,Control Anayting则作为上层可以调度两者,以集成更多、更全面的力量,来实现更大的收益。

实际上,在当前,如何更好地自主地大一统的解决复杂的场景,一直是人工智能技术发展的一个大的方向,Trans 和ASK可以解决大一统的问题,Control可以解决自主和复杂的问题,这些都是未来的发展方向,我们可以跟随住这个潮流。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

阅读至此了,分享、点赞、在看三选一吧?

🔥大模型横空出世!代码转文本?一切皆有可能!🚀跨模态转换,未来已来?👩‍💻

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章