国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

先说结论:希望用AI大模型做EXCEL自动数据分析的可以先消停一阵子了,EXCEL中的操作往往是强逻辑性的,而AI大模型在这一点上有先天缺陷,一个表单名称定位就能绕死大多数平台,因此用AI大模型分析EXCEL数据时一定要非常谨慎。

测试题目

大家多半对上述结论不太相信,这里就用一个简单的分析需求来测一下,是这样一个EXCEL文档:

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

希望按照ID是10的倍数,性别是男性,以及学历是本科这三个条件来筛选个案。

对所有的大模型,均使用下面的prompt来提需求:

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

参赛选手如下:

ChatGPT 4okimi通义文心豆包腾讯讯飞星火:数据分析助手智谱清言:数据分析的智能体

结果究竟会怎么样呢?

测试结果

ChatGPT 4o还是不错的,稳健过关。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

Kimi不仅结果是错的(性别和学历都错),输出格式也有问题。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

通义千问。。。你说他结果错了吧,他还告诉你里面确实有不符合条件的个案。似乎只是不太听话而已。。。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

但只要多追问一句,就露馅了,还是不会做呀。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

文心一言根本就不提供EXCEL文件的分析功能,直接跳过。

前面几个出错的大模型都是把不符合条件的给筛选进来了,豆包还确实与众不同。。。也不管其他条件了,四个time时段都只筛选出了ID=10的,我想了三天三夜也没弄明白他背后是怎么理解题意的。。。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

下面出场的是名声不太响的腾讯元宝。他的操作确实有点low,在前端也不包装一下,直接就是转化需求为对应的python代码,然后run代码。。。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

没想到low是low,能干活,居然返回正确结果了!

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

接下来是讯飞星火的数据分析助手,和腾讯一样也是弄python代码,结果连第一步的找到多表单中正确的那个表单来读入数据都做不到,直接挂掉。。。就这水平还好意思叫数据分析助手?!

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

还剩一个智谱清言,又是一个数据分析智能体(我为什么要说“又”呢?),同样的是跑python代码。不过半个月前我让他做这道题的时候,这孩子迭代了十几次代码都没过关。今天来做,第一次读入数据还是错的。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

不过看起来模型又优化过了,第二次就正确读入了CCSS表单。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

还没等我高兴三秒钟呢,我看到了他给我的最终结果。。。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

抱歉我可以用“一坨”来形容这个结果吗?

测试结果汇总

虽然腾讯元宝在本次测试的四项指标都顺利过关,但是这并不意味着用它来做EXCEL的数据处理就没问题。因为不能很好的支持多步骤、强逻辑操作是大模型先天具有的一个弱点,是没有办法彻底解决的,对这一点我以后会发文专门阐述。

国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!!

那么,是否意味着EXCEL分析就和AI大模型彻底无缘了呢,当然不是,关键是看你会不会用,这个问题,同样以后有机会再深入展开。

你理解的AI是什么?

我认为是A+I,I指的是我们自己

AI = 人工智能 + 人

版权声明:lida 发表于 2024年8月2日 pm11:13。
转载请注明:国产AI大模型几乎全灭!仅仅一个简单的EXCEL筛选操作!!! | ChatGPT资源导航

相关文章