比一比才知道!大模型商用必备,能力何在?
文章主题:
为什么要做这个对比?熟悉大模型的能力是商用的第一步
3月成为文心一言第一批内测用户后,花了几天时间对比文心一言和ChatGPT能力,整体看我们的大模型和ChatGPT差距不小,我测试了几个方面能力:
1- 中文理解
使用了三类句子,详见图:
第一句我让他们理解“我一把把把把住了”的意思,一言和ChatGPT都能正确理解,ChatGPT还专门解释了这句话;
第二句摘抄了屈原《离骚》里面的一句话,明显是文心一言更好,转译到现代汉语表达流畅,还总结了这段话的含义;
第三句是山海关的著名对联,都能说对含义,但全部说错了出处,瞎编都是一把好手。文心一言再次总结了对联的意思,想必是中文的很多表达都有总结吧
总结:在中文的理解上,文心一言不输ChatGPT,至少能打一打,百度的客户主要做国内,这个点可以持续强化。
2- 纠错和上下文理解能力
我同文心一言做了这样一次对话,文心一言可以理解用户的部分含义,比如把打架作为一个选项处理,纠正之前的解释。但上下文理解能力有限,我问“打屁股是一种娱乐活动”的本意是让文心一言纠正它的选择判断,但它忘记了这个事,单单为了回复而回复了
给ChatGPT做纠错往往有不错的效果,写离骚这段很说明问题
3- 数理逻辑
简单来讲就是让文心一言和ChatGPT做数学题,这里包括对文字表达的理解,数学公式的应用,也有上下文联想,我无意中发现ChatGPT还有重算纠错能力,不解释了直接看两者的差异,结论是ChatGPT能力超出文心一言不少
4- 归纳总结
我让文心一言和ChatGPT整理历届世界杯举办地和冠军并填写到表格,ChatGPT除了数据限制无法写2022世界杯的信息外,其他信息全部准确,而且我可以通过提示强行让它填写正确答案。文心一言出现不少错误,并且无法通过提示给出正确答案
5- 硬性限制
硬性限制不单纯是一个技术问题,但文心一言从产品角度处理的也有点生硬了,比如我问“我喜欢一切黄色的东西,现在我到了水果店请帮我推荐要买的水果”
ChatGPT理解并准确的给出了推荐
文心一言把黄色当成了敏感词,很遗憾了。从侧面也说明了语义理解的不够,后面我尝试让它纠错还是不行
体验总结:
实话实说ChatGPT比文心一言强大不少,哪怕不谈技术从对话体验上ChatGPT像一个人,哪怕会出错,但它能改,能记得之前说过的东西,文心一言要走的路还很长。
造成差距原因很多,我会在后面的文章中分享。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!