导语:未来已来,而文心一言,早已随百度等待多时。
在短短的两三个月时间内,曾经名不见经传的Open AI,和它旗下的语言类深度学习大模型ChatGPT,已经在大洋彼岸掀起了滔天巨浪。这一事件引起了全球科技界的关注和恐慌,让人们对人工智能的发展和应用产生了重新的认识和思考。
微软、谷歌等巨头纷纷入局,或是重金下注、或是仓促应战,几乎在一夜之间,这股AI新势力,几乎让硅谷所有的巨头都卷入其中。
在国内,虽然媒体和网络上的讨论热度同样很高,但面对这一波AI浪潮席卷而来,国内大多数互联网公司并没有如往常那般迅速做出反应。
这种基于深度学习的大语言模型,需要巨额的投入和长期不懈的技术积累,绝非短时间内可以拿出成果。即使认识到了其重要性,从现在开始组建团队、投入资金,要等到真正有可展示的成果上线,那也是很久之后的事情了。因此,想要开发这种大语言模型,需要做好长期投入和不断积累技术的心理准备。
在这样一种略显尴尬的局面下,百度(BIDU.US; 09888.HK)旗下基于生成式AI的大语言类模型——文心一言,就担负起了向全行业、甚至全世界展示中国AI大模型研发能力的重要使命,而文心一言的横空出世,或许意味着属于百度的一个全新时代正在拉开帷幕。
与许多人的陈旧印象不同,对于基于深度学习的AI技术,百度的热情由来已久。
早在2010年初,百度就在集团内部对于NLP(自然语言处理)的发展方向进行了全面的梳理和规划。
百度自然语言处理部于同年正式成立,并不断在语音、图片等技术上布局,敲定了在知识图谱技术上长期投入的战略。
2019年3月,百度提出了知识增强的语义理解框架ERNIE,将深度学习与知识融合,并具备持续学习能力,借此一举登顶全球权威数据集GLUE榜单,全世界首次突破90分大关,刷新了榜单历史。
2021年9月,百度发布了全球首个百亿参数的对话大模型——PLATO-XL,成为该领域的佼佼者。这一成果一举超过 Facebook Blender、谷歌 Meena和微软 DialoGPT等对手,成为全球首个百亿参数中英文对话预训练生成模型。
自然语言处理(NLP,Natural Language Processing)被称为“人工智能皇冠上的明珠”,谁能实现自然语言处理技术的突破,谁就能在AI领域一骑绝尘。在NLP领域,毫不夸张的说,中国绝对没有一家公司的水平接近百度,也没有任何一家公司有能力借助NLP挑战百度。
百度在语言类大模型领域一直处于领先地位,这一点与大洋彼岸的竞争对手始终保持着交替领先的状态。与后知后觉的同行不同,百度从一开始就走在了语言类大模型的最前列,这也是其在该领域长期占据领先地位的原因。
百度能够在第一时间拿出文心一言——这个在全球中文语言对话类模型当中首屈一指的存在,是因为文心一言在中文语言对话类模型领域拥有极高的知名度和权威性,任何其他的竞争对手都只能从零开始做起。
进入人工智能时代之后,全球IT技术的技术栈发生了根本性的变化。
过去的计算机体系结构通常被分为三层:硬件层、操作系统层和应用层。这些公司如英特尔、高通、微软、谷歌等,则在不同层级上占据了关键位置,让整个体系成为它们的摇钱树。
在人工智能时代,全新的体系可以被分为四层:芯片层、框架层、模型层和应用层。百度在这四个层级上都有深厚的技术积累。从高端芯片昆仑芯到飞桨深度学习框架,再到文心预训练大模型,百度在每个层级上都有自己的关键技术,这种从底层一直延展到应用层的深度和广度,是国内其他厂商完全无法望其项背的。
中金互联网行业首席分析师白洋所说:“AI的三要素包括算力、算法和数据,我们认为百度在这三项上拥有领先优势。百度在芯片层、框架层、模型层和应用层进行全方位布局。”
百度拥有一种强大的技术基础,支持着百度始终与国际上最先进的竞争对手处于同一个Level上。其中最具代表性的例子就是文心大模型,和Open AI的GPT模型类似,百度的文心大模型在2019年就已经推出,并且已经迭代了多代。这种强大的技术基础为百度在人工智能领域的发展提供了坚实的支撑。
将原内容进行重新组织,并加入ERNIE模型的相关内容,具体如下:ERNIE系列模型是文心一言基于多模态自然语言理解的基础上构建而成的,能够处理多种语言、图像、文档、文图、语音等多种数据模态,具备较强的泛化能力和性能,能够适应不同的应用场景。
以最新发布的ERNIE 3.0 Zeus模型为例,该模型迭代于ERNIE 3.0,拥有千亿级参数。该模型已经具备智能创作等各类自然语言理解和生成任务,在公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。
和大洋彼岸被微软Bing ChatGPT组合拳的进攻逼得有些狼狈的谷歌不同,百度在中文搜索引擎上的霸主地位,至今没有任何人可以挑战与撼动。百度份额领先的百度,偏偏又是在AI大模型领域深耕最久的国内厂商,这使得它成为了中文搜索引擎市场的领导者。
ChatGPT的出现,仿佛一把锤子,敲开了微软试图攻占谷歌腹地的大门,而文心一言则像是百度进一步强化搜索及信息流市场优势的铜墙铁壁。
在AI大模型的加持下,百度的护城河得到了进一步的拓宽和加深。这种强大的保护能力不仅保护了百度现有业务,同时也为百度未来的发展提供了更加从容的支持。
语言类大模型和搜索引擎几乎是天生的搭档。据Bing的测试表明,当新一代搜索引擎引入对话模式之后,用户搜索信息的体验得到了本质性的提高。
百度的成功离不开文心一言的加持。文心一言为百度提供了强大的技术支持,使得百度成为了中文互联网上信息最丰富、答案最准确、概括最全面的的对话式搜索引擎服务商。这一强势地位不仅进一步提升了百度的流量变现能力,还让百度能够在单次搜索请求中获得更高的平均收益。
另一方面,对于百家号、百度知道、百度百科、贴吧等自有流量来说,文心一言的出现也让这些业务的运营效率得到了进一步释放,知道和百科这些应用可以做到真正意义上的千人千面,以及对现有内容的实时更新,相较之目前依赖人工的方式,效率有望获得巨大的提升。
大模型的迭代,离不开海量训练数据的输入。以ChatGPT为例,其模型训练使用主要来自互联网的文本数据库,包括从网络文本、维基百科、文章中获得高达570GB的数据。这些数据的输入,让大模型才能真正发挥自己的威力。
在中文互联网上,谁拥有全世界规模最大的文本数据库?答案显而易见。百度天生就坐拥着一座巨大的金矿。作为搜索引擎的百度,拥有全球最大的中文文本数据库,每天处理数十亿次的搜索请求,提供着丰富的信息资源。
搜索引擎的主要任务是提供搜索服务,而收集和处理海量文本数据是实现这一目标的核心任务之一。这种先天的优势为训练语言类大模型提供了良好的基础。
中文互联网上,百度要比任何竞争对手都拥有更为丰富和全面的训练数据。这使得百度的文心一言就像是含着金钥匙的豪门后代,可以说是从一开始就赢在了起跑线上。
新一代大模型的训练环节需要巨量的算力投入,这是全球各大AI公司一个主要的成本支出项目。因此,算力采购费用成为各大AI公司的重要利润来源之一。
百度,作为中国领先的智能云服务提供商,拥有多个云计算可用区以及庞大的超算集群,为大模型训练奠定了坚实的基础设施。
百度旗下拥有阳泉、徐水、定兴三个云计算中心,其中阳泉智能云数据中心仅一期就可承载16万台服务器,整个百度阳泉云计算中心可承载24万台服务器。百度自研AI芯片“昆仑”已在多场景实际部署几万片,在公司搜索业务中也已形成较强的工程化实践。
云端的业务负载没有满载的情况下,所有冗余出来的算力都可以作为大模型的训练算力来源,这就确保了百度可以用更低的成本来进行更多轮次的模型训练,却不必单独承担高昂的软硬件成本。
百度智能云可以提供针对文心一言大模型应用的高并发、高弹性、高精度等不同计算需求,以满足该应用对底层算力的需求。这也是其与其他竞争对手相比的一大优势。
从本质上说,近期被捧上神坛的ChatGPT,并不是什么革命性的技术。
作为OpenAI基于2020年发布的GPT-3.5模型进行微调后开发出的对话机器人,ChatGPT并未实现底层模型的显著突破。它只不过是采用了理解、生成和交互相结合的方式,基于人类反馈进行强化训练,在体验上带给人智能的感觉。因此,严格来说,ChatGPT并不是真正的智能体。
百度CEO李彦宏认为,问题的关键是如何将技术转化为人人需要的产品,让人们真正从中受益。而不是仅仅在媒体和网络上制造话题和热度。
“如何将一项酷的技术变成人人所需的产品,让这项技术每天为数亿人带来收益?同时,如何赋能千行百业,让它们的生产效率大幅度提升,这是一项具有挑战性且具有深远意义的工作。在这个过程中,最难的事情莫过于如何将技术转化为实际应用,并让每个人都能享受到它所带来的好处。”
因此,相比ChatGPT,文心一言在满足用户的真实需求方面走得更远:
文心一言是基于搜索在真实数据和用户需求理解方面的积累而开发的,能够进一步提升结果的时效性和准确性,并基于文心大模型的知识增强,提供多轮次的推理对话。文心大模型是本土化的AI模型,具备对中文、甚至中国文化的更深理解,这也就意味着文心一言会更适合中文和中国市场。
文心一言与ChatGPT的对决,并非简单的优劣比较。根据部分用户的内测反馈,文心一言在某些局部场景可以实现对话质量上的超越,而在其他方面,至少也能做到和竞品旗鼓相当。文心一言作为一款基于人工智能技术的语言模型,拥有庞大的语料库和强大的算法支持,可以模拟人类的对话方式,实现自然语言处理和生成。相较于ChatGPT,文心一言在语音识别、语义理解、上下文生成等方面的表现更为出色,可以更好地模拟人类的语言交流过程。同时,文心一言也具备ChatGPT在大规模语言数据集训练所带来的优势,可以更好地适应不同的场景和应用需求。因此,文心一言可以在某些方面实现超越,但在其他方面,与竞品相比,也能做到旗鼓相当。
百度推出文心一言,是重新确立自己核心技术驱动的发展模式的一次里程碑式的事件,也是百度在即将到来的AI时代的全新发展阶段的序章。
未来已来,而文心一言,早已随百度等待多时。
关键词:
– 百度
– 自然语言处理
– 深度学习
– 语音
– 图像
– 文本
– 知识图谱
– GPT
– 对话
– 计算能力
– 用户体验
– 搜索结果时效性
– 知识增强
– 推理对话
– 中文搜索
– AI技术
– 芯片
– 云计算
– 搜索引擎
– 用户真实需求
– 产品化
– 核心技术驱动