大语言模型竞赛：昆仑万维与百度的“首要”之争

ChatGPT与Excel 2年前 (2023) lida

70 0 0

文章主题：昆仑万维, 杨博丞, 天工, 大语言模型

666ChatGPT办公新姿势，助力做AI时代先行者！

撰文 | 王语妤

编辑 | 杨博丞

题图 | IC Photo

最近，昆仑万维和百度“杠”起来了，原因还是因为最近大火的大语言模型。

4月17日，昆仑万维公司揭开了“天工”大模型的神秘面纱，并启动了相应的测试邀请。在那一刻，昆仑万维对外传播的信息是：“这是我国首个成功实现智能涌现的国产语言大模型。”

有趣的是，在百度推出文心一言时，其发布的宣传口号为“国内首个开发大型语言模型的科技互联网巨头”。这一表述强调了百度在人工智能领域的前沿地位和独特技术实力。

从表面上看，两家的宣传语中心不一样，话术也有所不同，看似风平浪静，但实则内核都是在争一个“首家”。

在商业竞争中，争取“首家”地位的重要性不仅体现在能力和市场的争夺上，还能刺激股价、提升市值。例如，当百度公布相关消息时，港股市场的股价大幅上涨15%，而昆仑万维则在官方宣布第二天实现了7.68%的股价增长。这些案例充分说明，争取“首家”地位对于企业而言，不仅仅是一场能力的较量，更是对市场 share 的激烈争夺。同时，它也能为企业带来巨大的经济利益，通过提高股价和市值，进一步推动企业的持续发展。

不过，究竟谁是国内首家呢？

在项目公布的时间线上，我们可以看到，百度公司是从去年九月份开始在公司内部推动文心一言项目的，经过了约一年的时间，这个项目在今年二月初正式公开了相关信息，而在三月中旬，百度正式宣布了文心一言的启动。

昆仑万维官方尚未透露具体项目启动的时间，但从2020年起，该企业已经开始在AIGC领域进行战略布局。

在技术层面剖析文心一言的背后，我们可以看到百度在人工智能领域的四大架构和全栈布局，涵盖底层芯片、深度学习框架、大型模型和最高层面的搜索应用。此外，得益于多年在人工智能领域的深入研究，百度掌握了产业级知识增强型文心大模型ERNIE，使其具备了跨模态和跨语言的深度语义理解和生成能力。

作为一家拥有强大实力的人工智能企业，昆仑万维的表现一直备受关注。根据相关资料，我们可以看到，昆仑万维在大模型四要素方面表现突出，包括数据、算力、算法以及大参数语言模型。具体来说，昆仑万维的天工项目就是其双千亿参数训练的成果，其中包括了千亿预训练基座模型和千亿RLHF模型。这些成果充分展示了昆仑万维在人工智能领域的卓越实力。

不过，既然两家的底座能力看起来不相上下，那么我们就将这两家放在一起，试试“内功”。

01、中文语意理解能力

在现实中，昆仑万维展示了其技术路径的卓越之处。为了进一步提升语义理解和转换话题能力，天工团队引入了模特卡洛搜索树算法。这一举措使得他们在技术领域的表现更加出色。

在此背景下，我们首先和天工玩起了成语接龙游戏。不过，天工的完成度并不好，甚至没能理解什么是成语接龙。

文心一言在成语接龙上的表现是优于天工大模型的。

紧接着，我们向文心一言和天工大模型抛出了一个问题——“写一本类似《人世间》一样题材宏大，展现中国历史变迁的小说提纲，字数1000字左右。”对于这个问题，文心一言和天工都将问题的重心放在了“题材宏大”、“历史变迁”这两个关键词上。

于是，两家生成的内容都不符合我们最开始的预期。

上图“天工大模型”，下图文心一言

这个问题，或许是由于我们给出了一定的误导性，所以导致两家生成的答案都不尽人意。但是，天工稍微比文心一言好一些，原因在于，文心一言将“历史变迁”直接解读成了朝代变迁。

尽管天工的回答也是文不对题，但是有人物设定，朝代设定，内容的可操作性和延展性明显是优于文心一言。

将问题拉回《人世间》类似的小说提纲，我们改变了提问角度，连续发文：《人世间》讲了一个什么样的故事、那你能写出类似题材的小说提纲么？大概1000字左右

在提取重点、联想写作、以及话题的连续性上，天工的表现还是不错的。

但是文心一言就“开了小差”。

文心一言的回答出现了明显的错误。不过，我们再一次将问题抛给文心一言，重新生成答案。这一次，文心一言又重回正轨，给出了相应的答案。

此外，我们还用三个连续性问题，向天工发问。此前，我们在《大评测！ChatGPT 、文心一言和Bard谁更强？》中，将同样的问题给到过文心一言、Bard、以及ChatGPT。

可以说，天工的前两个问题回答和文心一言此前的回答不相上下，但在最后一个藏头诗的理解上，还是存在一定的偏差。

尽管，文心一言的藏头诗回答的也并不好，但好在，文心一言理解了“藏头”的意思。而天工，似乎还并未消化掉“藏头”的意思。

02.逻辑思辨能力

为了测试“逻辑推理”能力，我们将这样一题抛给了天工和文心一言，即“如果猫会爬树，那么狗也会。”

上图“天工大模型”，下图文心一言

很明显，天工和文心一言也陷入了题目的误区，或者说，并没有完全理解题目意思。不过，这里需要强调的是，在鸡兔同笼问题上，文心一言和天工在发布的视频中都有不错的表现。

在文心一言发布会上，李彦宏询问文心一言“鸡兔同笼”的问题，在题目数据错误的前提下，文心一言通过推理证明了题目存在问题。

这里需要注意的是，在这个逻辑推理上，ChatGPT的回答，是天工、文心一言、bard这四家大模型中唯一正确的，并指出了猫和狗的不同，证明猫会爬树，而狗不会。

除了考验逻辑能力之外，我们还将一个哲学思辨问题，同时向天工和文心一言发文。

上图“天工大模型”，下图文心一言

在哲学问题的理解上，天工和文心一言区别不大，但文心一言略显“人文”一些，在解读之后，更是直接告诉我们该怎么做，更像是和人在对话一样，天工的回答则更是一本正经。

可以这样来说，和天工对话像是和老师对话，老师需要回答这个问题是什么；和文心一言对话则更像是和心理医生对话，医生需要在解释的基础上给出意见。

03.编程能力

为了测试这两大模型写代码的能力，我们询问了一个非常简单的问题——x+2=5，y-3=7，输出x+y等于几，用java做一个简单编程，并得出结果。

上图“天工大模型”，下图文心一言

但是很显然，这两大模型给出的结果都是有问题的。

不过，在其他评测稿件中，文心一言和天工在编程能力的表现上并不差。我们认为，目前来看，这些大模型的能力还并不稳定，还需要在不断的训练中提高准确性。

结语

总结来看，文心一言也好，天工也罢，他们的能力相对来说，差距不大。但更多的问题在于，目前，大模型每一次生成的问题答案都存在一定的误差。

相比于“首家”之争，我们认为，企业们更重要的是在于提升大模型的能力和准确度，并且寻找到更多合适的场景去实现商业化。

大模型赛道愈发热烈，谁都想做风口上的猪，但是能在风口上起飞的猪，往往都是做好了充足的准备。

此外，我们还应该多给国内科技企业更多的信心，和国外ChatGPT4相比，国内大模型还是有一定差距，但是我相信，这个差距在不远的将来，在竞争中，都会逐渐拉小。国内大模型，未来可期。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

版权声明：lida 发表于 2023年12月28日 pm3:53。
转载请注明：大语言模型竞赛：昆仑万维与百度的“首要”之争 | ChatGPT资源导航

文心一言和ChatGPT，谁更懂旅游？

da, li

102

？？科技感十足！这床单，简约而不简单，舒适得让你爱上！”

da, li

《ChatGPT安卓版上线，用户增长能否重振？》

da, li

如何用 ChatGPT 提升客户服务、IT 服务和 CRM 软件的效果？

da, li

ChatGPT安全新挑战？网络安全专家探索大模型实战与应对之道

da, li

ChatGPT引领革命？机器人行业将如何被AI颠覆?

da, li

大语言模型竞赛：昆仑万维与百度的“首要”之争

ChatGPT引领的人工智能革命：投资半导体的新视角

DigiBuild利用人工智能优化建筑业供应链，降低材料成本和提高效率

相关文章

相关文章