ChatGPT 进行数据分析-测试
如果你能告诉 ChatGPT,“嘿, ChatGPT,请为我分析这些数据,告诉我有多少客户是 40 多岁的。另外,请在使用时删除任何重复的记录。“
这不是很方便吗,特别是如果您有一个充满客户数据的大型CSV文件?
让我们试一试,测试一下 ChatGPT 作为数据分析助手的能力。
ChatGPT 可以读取什么样的数据?
这是 ChatGPT 的回答:
ChatGPT 能够读取表格和数据库形式的结构化数据。
ChatGPT 的独特之处是它可以处理以自然语言编写的各种格式的文本,例如新闻文章、社交媒体帖子、电子邮件、聊天等。但是,在本文中,我们将重点介绍结构化数据。
ChatGPT 还声称它可以处理表格,电子表格和数据库形式的结构化数据。它还可以读取人类可读的格式,如HTML,XML,JSON和YAML。
因此,让我们让它读取CSV文件,看看它的表现如何。
关于测试数据集
在本实验中,我们将使用 Kaggle 中有关黑色星期五销售的数据集。这个庞大的CSV文件包含有关零售店黑色星期五购买的550K记录,分为12列:
User_ID:标识每个买家
Product_ID:标识每个产品的唯一值
Gender:买家的性别(男或女)
Age:买家的年龄
Occupation:买家的职业,以数值形式展现
City_Category:购买发生的城市类别
Stay_In_Current_City_Years:买家在其所在城市居住的年数
Marital_Status:买方的婚姻状况。0 表示单身,1 表示已婚。
Product_Category_1:产品的主要类别,以数字形式指定。
Product_Category_2:产品的第一个子类别
Product_Category_3:产品的第二个子类别
Purchase:用户为一次购买花费的金额(以美元为单位)
尝试使用 ChatGPT 读取 CSV 文件
1. 非常小的数据集
让我们用一个 5 行的小数据集来测试。
成功!
正如它所说,ChatGPT确定这些数据是CSV格式的。它还正确标识每列的含义。
2. 让我们添加更多记录并过滤数据
现在让我们从这个数据库中取出50条记录,输入 ChatGPT,并要求它过滤它们。
我已经粘贴了CSV文件中的前50个条目,并要求ChatGPT在聊天窗口中显示它们。
果然,我得到了这个回应。事实证明,ChatGPT 能够从包含50条记录的 CSV 文件中过滤出数据。令人印象深刻!
它可以根据多个条件进行过滤吗?还是会被多个过滤器混淆?让我们来试一试!
我要求我们的AI朋友,以两个纯文本编写的标准为条件,过滤50行数据:请显示性别为M且年龄为25-36的所有记录。
果然,ChatGPT过滤掉了正确的记录。但是,它不包括标题行。因此,如果要将此数据复制并粘贴到新的 CSV 文件中,则必须手动添加标题行。(不理想!)
3. ChatGPT 可以处理 100 条记录吗?
提高赌注,我们现在将给 ChatGPT 双倍的数据来处理。我复制并粘贴了前 100 个条目,并要求它显示年龄值为 55+ 的记录。
与我们之前的实验不同,这一次,ChatGPT 渲染了一个 Python 代码。我期待记录的内联显示,但这并不算完全错误。但是,此输出告诉我们 ChatGPT 的输出并不总是一致。