国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!
先说结论:希望用AI大模型做EXCEL自动数据分析的可以先消停一阵子了,EXCEL中的操作往往是强逻辑性的,而AI大模型在这一点上有先天缺陷,一个表单名称定位就能绕死大多数平台,因此用AI大模型分析EXCEL数据时一定要非常谨慎。
测试题目
大家多半对上述结论不太相信,这里就用一个简单的分析需求来测一下,是这样一个EXCEL文档:
希望按照ID是10的倍数,性别是男性,以及学历是本科这三个条件来筛选个案。
对所有的大模型,均使用下面的prompt来提需求:
参赛选手如下:
ChatGPT 4okimi通义文心豆包腾讯讯飞星火:数据分析助手智谱清言:数据分析的智能体
结果究竟会怎么样呢?
测试结果
ChatGPT 4o还是不错的,稳健过关。
Kimi不仅结果是错的(性别和学历都错),输出格式也有问题。
通义千问。。。你说他结果错了吧,他还告诉你里面确实有不符合条件的个案。似乎只是不太听话而已。。。
但只要多追问一句,就露馅了,还是不会做呀。
文心一言根本就不提供EXCEL文件的分析功能,直接跳过。
前面几个出错的大模型都是把不符合条件的给筛选进来了,豆包还确实与众不同。。。也不管其他条件了,四个time时段都只筛选出了ID=10的,我想了三天三夜也没弄明白他背后是怎么理解题意的。。。
下面出场的是名声不太响的腾讯元宝。他的操作确实有点low,在前端也不包装一下,直接就是转化需求为对应的python代码,然后run代码。。。
没想到low是low,能干活,居然返回正确结果了!
接下来是讯飞星火的数据分析助手,和腾讯一样也是弄python代码,结果连第一步的找到多表单中正确的那个表单来读入数据都做不到,直接挂掉。。。就这水平还好意思叫数据分析助手?!
还剩一个智谱清言,又是一个数据分析智能体(我为什么要说“又”呢?),同样的是跑python代码。不过半个月前我让他做这道题的时候,这孩子迭代了十几次代码都没过关。今天来做,第一次读入数据还是错的。
不过看起来模型又优化过了,第二次就正确读入了CCSS表单。
还没等我高兴三秒钟呢,我看到了他给我的最终结果。。。
抱歉我可以用“一坨”来形容这个结果吗?
测试结果汇总
虽然腾讯元宝在本次测试的四项指标都顺利过关,但是这并不意味着用它来做EXCEL的数据处理就没问题。因为不能很好的支持多步骤、强逻辑操作是大模型先天具有的一个弱点,是没有办法彻底解决的,对这一点我以后会发文专门阐述。
那么,是否意味着EXCEL分析就和AI大模型彻底无缘了呢,当然不是,关键是看你会不会用,这个问题,同样以后有机会再深入展开。
你理解的AI是什么?
我认为是A+I,I指的是我们自己
AI = 人工智能 + 人