大模型之争：首家中选究竟花落谁家？天工VS百度，谁才是国内真首秀?

文心一言 3年前 (2023) lida

88 0 0

文章主题：语言模型, 首家之争, 大模型能力

最近，昆仑万维和百度 ” 杠 ” 起来了，原因还是因为最近大火的大语言模型。

🎉【科技新星】昆仑万维引领潮流！🚀4月17日，这天注定为人工智能领域写下浓墨重彩的一笔——昆仑万维正式发布了令人瞩目的”天工”超大规模语言模型，开启了激动人心的测试大门。这款被誉为中国首屈一指、实现智能涌现的国产巨擘，凭借其先进的科技实力，迅速吸引了全球的目光。✨无需过多华丽辞藻，”天工”大模型的强大与创新已清晰可见，它标志着中国在人工智能技术上的又一大突破，为未来的语言处理和智能化应用铺平了道路。🌍作为行业领头羊，昆仑万维始终秉持科技改变生活的理念，致力于提供最前沿的解决方案。此次”天工”的发布，无疑再次印证了这一承诺。🏆欲了解更多详情，敬请关注后续官方动态，让我们共同见证中国科技力量的崛起！👩‍💻👨‍💻

🌟百度推出的”文心一言”，不仅是一款创新技术驱动的大规模语言模型产品，更标志着国内科技互联网巨头在人工智能领域的领先地位。这款产品以其卓越的技术实力和对用户需求的深度理解，展现出强大的潜力和独特价值。🚀

🌟看似两家的营销策略各有千秋，标语和表述方式各具特色，表面平静如镜，实则暗流涌动，无不在争夺那份至高的荣誉——”首屈一指”的地位。🔥每一步都像是在无声地宣告：我们是先驱，独一无二。🌈这场竞争，虽不直接言明，却在每个细节中悄然展开，只为那份属于”首个”的荣耀和认可。

🌟为何企业热衷”首秀”争夺？🔍这背后的考量可不仅仅是实力与市场拼杀那么简单。它不仅是展现品牌实力的舞台，也是提振股价、提升市值的有效策略。就像百度消息发布当日，港股瞬间飙升15%，昆仑万维紧随其后，宣布第二天股价劲增7.68%那样，这一举动无疑在资本市场上引起了强烈反响。🏆这样的市场效应，对于任何渴望增长和认可的企业来说，都是难以忽视的无形资产。

不过，究竟谁是国内首家呢？

🌟百度的创新之旅悄然加速，在去年九月的某个关键节点上，他们悄悄启动了内部的文心一言计划。直到今年二月，这个神秘项目才迎来公开亮相，犹如春日里的第一缕阳光，闪耀在科技界。🎉三月中旬，这颗璀璨明珠正式对外宣布，为全球用户带来了超凡的语言智能体验。🔍通过时间的线索，我们可以看到百度在这个领域逐步布局和完善的决心。

🌟【昆仑万维引领AI生成潮流】🚀自2020年起，这颗科技巨头的创新引擎便悄然点燃，以独特视角聚焦于AIGC（人工智能生成内容）领域。尽管官方并未透露具体的项目启动时间，但其战略步伐的稳健可见一斑。昆仑万维的每一次布局都如同掷下一枚震撼市场的信号弹，引领行业风向。🚀

从技术层面来看，文心一言背后，百度在人工智能领域有四层架构、全栈布局，包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用。另外，深耕人工智能领域多年的百度，拥有产业级知识增强文心大模型 ERNIE，具备跨模态、跨语言的深度语义理解与生成能力。

昆仑万维同样具备大模型四要素：数据、算力、算法以及大参数语言模型。据昆仑万维介绍，天工是双千亿参数训练的结果——千亿预训练基座模型、千亿 RLHF 模型。

不过，既然两家的底座能力看起来不相上下，那么我们就将这两家放在一起，试试 ” 内功 “。

01、中文语意理解能力

昆仑万维对外展示的技术路径现实，天工团队引入模特卡洛搜索树算法后，在语意理解、转换话题能力上有所提升。

在此背景下，我们首先和天工玩起了成语接龙游戏。不过，天工的完成度并不好，甚至没能理解什么是成语接龙。

文心一言在成语接龙上的表现是优于天工大模型的。紧接着，我们向文心一言和天工大模型抛出了一个问题—— ” 写一本类似《人世间》一样题材宏大，展现中国历史变迁的小说提纲，字数 1000 字左右。” 对于这个问题，文心一言和天工都将问题的重心放在了 ” 题材宏大 “、” 历史变迁 ” 这两个关键词上。

于是，两家生成的内容都不符合我们最开始的预期。

上图 ” 天工大模型 “，下图文心一言

这个问题，或许是由于我们给出了一定的误导性，所以导致两家生成的答案都不尽人意。但是，天工稍微比文心一言好一些，原因在于，文心一言将 ” 历史变迁 ” 直接解读成了朝代变迁。

尽管天工的回答也是文不对题，但是有人物设定，朝代设定，内容的可操作性和延展性明显是优于文心一言。

将问题拉回《人世间》类似的小说提纲，我们改变了提问角度，连续发文：《人世间》讲了一个什么样的故事、那你能写出类似题材的小说提纲么？大概 1000 字左右

在提取重点、联想写作、以及话题的连续性上，天工的表现还是不错的。

但是文心一言就 ” 开了小差 “。

文心一言的回答出现了明显的错误。不过，我们再一次将问题抛给文心一言，重新生成答案。这一次，文心一言又重回正轨，给出了相应的答案。此外，我们还用三个连续性问题，向天工发问。此前，我们在《大评测！ChatGPT 、文心一言和 Bard 谁更强？》中，将同样的问题给到过文心一言、Bard、以及 ChatGPT。可以说，天工的前两个问题回答和文心一言此前的回答不相上下，但在最后一个藏头诗的理解上，还是存在一定的偏差。

尽管，文心一言的藏头诗回答的也并不好，但好在，文心一言理解了 ” 藏头 ” 的意思。而天工，似乎还并未消化掉 ” 藏头 ” 的意思。

02. 逻辑思辨能力

为了测试 ” 逻辑推理 ” 能力，我们将这样一题抛给了天工和文心一言，即 ” 如果猫会爬树，那么狗也会。”

很明显，天工和文心一言也陷入了题目的误区，或者说，并没有完全理解题目意思。不过，这里需要强调的是，在鸡兔同笼问题上，文心一言和天工在发布的视频中都有不错的表现。

在文心一言发布会上，李彦宏询问文心一言 ” 鸡兔同笼 ” 的问题，在题目数据错误的前提下，文心一言通过推理证明了题目存在问题。

这里需要注意的是，在这个逻辑推理上，ChatGPT 的回答，是天工、文心一言、bard 这四家大模型中唯一正确的，并指出了猫和狗的不同，证明猫会爬树，而狗不会。

除了考验逻辑能力之外，我们还将一个哲学思辨问题，同时向天工和文心一言发文。

在哲学问题的理解上，天工和文心一言区别不大，但文心一言略显 ” 人文 ” 一些，在解读之后，更是直接告诉我们该怎么做，更像是和人在对话一样，天工的回答则更是一本正经。

可以这样来说，和天工对话像是和老师对话，老师需要回答这个问题是什么；和文心一言对话则更像是和心理医生对话，医生需要在解释的基础上给出意见。

03. 编程能力

为了测试这两大模型写代码的能力，我们询问了一个非常简单的问题—— x+2=5，y-3=7，输出 x+y 等于几，用 java 做一个简单编程，并得出结果。

但是很显然，这两大模型给出的结果都是有问题的。