实测文心一言,百度可以再自信一点
撰文 | 吴先之 文烨豪
编辑 | 王 潘
不到一年时间,AI完成了从“袪魅”,到重回主流、再度引发“恐慌”的逆袭。
随着AIGC应用愈发成熟,不仅科技语境涌起新一轮浪潮,一直同AI略显疏离的C端用户亦被不断刷新着认知。当下,不论是投资圈,还是学术界,抑或是普通用户,几乎所有人的目光都聚焦在了生成式AI产品身上。
显然,2023年,属于AIGC的时代已然到来。但纵观行业,大众讨论的核心始终没有脱离那几款明星产品,国内部分企业虽表示正在布局,大多停留于概念层面,鲜有真正拿出成果的玩家——直至百度下场,局面有所逆转。
3月16日下午,百度发布厅内,李彦宏亲自上台,将外界期待许久的文心一言端上了台面。从发布会现场演示来看,文心一言在面对五个典型的使用场景时表现得不错,回答的准确性、逻辑性、流畅性均接近人类水平。耕耘AI多年的百度,或许即将迎来属于自己的时刻。
文心一言:百度AI十几年荆棘闯出的结果
细数国内互联网语境,百度无疑是在AI领域扎根最深的玩家之一。早在十年前,百度便已将未来的飞轮押注在了AI上面。
2010年,当玩家们还在思索如何通过互联网思维改造传统行业时,百度便已成立了自然语言处理部,开始了对自然语言处理NLP的探索。而过去十多年间,在视觉识别、自动驾驶等AI更为广阔的落地领域,几乎也都遍布着百度的身影。
只是,科技发展需要跨越裂谷,正如千禧年的互联网的崩溃,以及后来云计算遭冷落等,前沿技术研发及落地过程中往往充满着痛苦,即便是OpenAI,也难逃多年苦坐“冷板凳”,百度AI亦曾陷入过单边投入的长周期之中。
而文心一言,正是百度这十多年AI路,踩着“荆棘”所闯出的结果。
2019年3月,文心一言背后的文心大模型ERNIE1.0首次亮相,并登顶了全球权威数据集GLUE榜单。此后,其不断升级迭代,从自然语言延伸至视觉、语音等多模态,直到最新的ERNIE3.0 Zeus模型,已然具备了千亿级参数。换言之,百度能够抢跑国内AIGC赛道,绝非偶然。
而切入正题,文心一言实际表现到底如何?发布会上,李彦宏通过文学创作、商业文案创作、数理推算、中文理解、多模态生成五个场景下的Demo,向外界秀了一把肌肉。
以数理逻辑推算为例,其向文心一言抛出了经典的鸡兔同笼问题,并在提问中埋下了彩蛋——即误导性的提问。而经过演算,文心一言非但没有踩坑,反倒指出了题目出现了错误,且在面对正确的题目时,给出了正确结果及解题步骤。
如果说,顶级厂商大模型均具备的数理逻辑推算能力,尚不足以证明文心一言的能力,那么其关于“洛阳纸贵”的表达,则令人眼前一亮。毕竟中文语境较为复杂,汉字数量较多,即便是ChatGPT,面对中文时偶尔也会出现词不达意,言不由衷的情况。
以“用洛阳纸贵四个字写一首藏头诗”为例,文心一言稍加思索,写下了“洛阳城里春光好,阳艳无双不负赏。纸贵漫天诗词赋,贵比黄金乐未央。”
这首诗虽谈不上有多少文学、审美价值,但至少兢兢业业地按照要求完成了创作。相比之下,ChatGPT似乎并没有很好地理解“藏头诗”的含义。
从中不难窥见文心一言的中文理解能力。显然,在中文语境里,具备搜索优势的百度拥有“主场优势”,有着更多的中文语料数据参与训练,自然也有着更为成熟的结果。
总之,就发布会来看,文心一言的表现优秀。
实测文心一言:优势非虚
或许是早已习惯了国内玩家的PPT发布会,外界对发布会上文心一言的表现褒贬不一,甚至有一种声音认为“Demo并非实时提问,其中有一定的‘修饰’空间”。
对此,光子星球拿到了文心一言的内测资格,并第一时间测试了其实际表现。先说结论,就当前版本的文心一言而言,仍有提升的空间,但整体表现超出了我们此前的预期。
首先是百度重点展现的中文理解领域,从烧烤店老板的视角分别向文心一言和ChatGPT提出相同的问题。
提问是东北烧烤,但ChatGPT的回答似乎有些驴头不对马嘴,将串串香、烤鸭等五湖四海的美食汇聚一堂。相比之下,文心一言的回答不仅到位许多,甚至还呈现出了不同答案的取名逻辑。
同样的逻辑,在贴合本地文化的网吧取名中同样有所体现。文心一言的回答,显然比ChatGPT毫无逻辑的回答要精准。
此外,在发布会展现的藏头诗创作方面,文心一言对内容的理解亦优于ChatGPT。
由此可见,文心一言对于自己“更理解中国文化,更适合中文语境和中国市场”的表述,不是一句空谈。
相对复杂的数理逻辑推算场景,我们亦向两款产品提出了比发布会“鸡兔同笼”更绕的问题——“如果3个人3天能做3个灯笼,那么9个人9天,能做多少个灯笼?(正确答案是27个)”
或许是该问题涉及到更多中文理解,强如ChatGPT也给出了错误的回答,直到多番纠错才勉强回答正确。文心一言的表现虽与之类似,但其在5次提问里,直接回答正确了2次。
而在发布会并未透露的编程领域,面对编写“俄罗斯方块”代码的要求,文心一言在Python里洋洋洒洒地写下了88行代码。在交由一位程序员朋友检查后,其称文心一言所写的代码整体并没有太大的毛病。
图片创作领域,文心一言所生成的图片基本符合描述。
此外,我们还测试了其撰写商业稿件、提炼内容等能力,受限于篇幅无法全然呈现。
总而言之,文心一言在面对前述场景时,具备一定的准确性、逻辑性,中文理解部分优于ChatGPT。
虽然只是内测版本,但文心一言的表现相当成熟。而随着后续迭代更新,这一款寄托着外界“国产ChatGPT”期许产品很可能将迎来光明的未来。
百度AI的新征程
现阶段,无论是OpenAI的GPT“家族”,还是百度的文心一言,抑或是更为广阔的AIGC赛道,仍处于前期的技术沉淀阶段。正如李彦宏发布会所说,大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。
在这一轮博弈里,只有尽早地抢占身位,才能积攒起更多用户,从而收集更多数据,推动产品迭代升级。
只是,不同于一夜迸发的“商业灵感”,技术领域的演进从始至终都需要堆砌金钱与时间。
一位业内人士指出,像ChatGPT、文心一言这样的产品,需要大量顶尖人才,特别烧钱,而且还需要时间沉淀,初创企业想要分羹极为艰难,盲目进场极有可能陷入“重复制造轮子”的窘境。
也因如此,李彦宏才会在发布会上表示:“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。”
另一方面, AIGC赛道的玩家在打磨产品的同时,亦需思考如何跑通商业化之路,毕竟诸如语音识别、视觉系AI等“前辈”们,或多或少都经历过商业化长夜。
究其所因,任何新兴技术想要突破“商业化瓶颈”,关键点均在于“应用”,即满足用户、公司乃至行业的实际需求。这既是GPT-4接入Office的原因,亦是百度向百度智能云企业客户开放文心一言API接口调用服务的原因。
而从当下的局面来看,强调中文语境的文心一言,似乎已经得到了国内市场B端用户的认可。数据显示,自2月份百度官宣“文心一言”以来,已有超过650家企业宣布接入文心一言生态。截至3月17日12点,申请文心一言API调用服务测试的企业已达8万——抢跑的百度,正在试图建立全新的商业秩序。
归根结底,科技迭代、下潜之路从来不是一帆风顺,唯有翻越重重大山,才能看到曙光。而在当下这个愈发激烈的竞争语境里,至少在国内,百度很可能将成为第一批吃到螃蟹的玩家。