文章主题:, ChatGPT Code Interpreter, 网络抓取自动化, Amazon TV prices
只需要按照3个步骤,就可以使用ChatGPT代码解释器从网站提取数据。
🌟🚀掌握ChatGPT与”Scraper”的秘密!🔥📈提取信息不再难,但这些技巧并非万能💡曾经分享过如何巧用ChatGPT及插件「Scraper」大显神威,抓取网站数据。诚然,它们高效便捷,但背后的挑战也不容忽视。👀📊让我们一起探讨,了解这些工具的利与弊。首先,ChatGPT以其强大的语言理解和生成能力,为信息检索开辟了新路径。但它并非无所不能,对于特定领域的深度解析或保护隐私的网站,效果可能打折扣。📚🛡️其次,「Scraper」虽能批量抓取,但可能会遇到反爬机制,导致数据获取不完整或频繁被封禁的风险。 precautious usage至关重要!🛡️🌐尽管如此,掌握这些工具仍能大幅提升工作效率,只是在使用时需灵活应对,避免滥用和触碰法律红线。👩💻👨💻想要更深入地探索ChatGPT与数据抓取的边界?关注后续内容,我们将分享更多实用技巧和优化策略,助你游刃有余!👇📚记得,保护隐私,合法使用,让我们一起在技术的世界里稳健前行!🌍💪
但是,ChatGPT代码解释器将网络抓取提升到了一个不同的层次。
在本文中,我们将探讨如何使用ChatGPT代码解释器自动化网络抓取。
步骤1:访问目标网站并将其保存为HTML
要使用ChatGPT代码解释器抓取网站,我们需要上传目标网站的HTML文件。
为此,访问目标网站并按CTRL+S,并将文件保存为HTML。
假设我想提取Amazon上的电视价格。我只需要访问Amazon并输入“TVs”。
然后我按CTRL+S,下面的窗口就会弹出。确保你将文件保存为HTML。
这个HTML文件包含了Amazon网站的所有数据。现在我们需要使用代码解释器上传该文件。
步骤2:上传HTML文件并使用此提示
现在我们需要转到ChatGPT,选择GPT-4,然后点击“Code Interpreter”。
🌟🚀了解最新技术动态?ChatGPT Plus的代码魔法等你解锁!💡只需简单的几步,所有用户都能享受超凡交互体验。👉点击这里,立即开启你的科技探索之旅!无需订阅,立刻开始编码奇迹!👨💻👩💻🌍
现在你应该在聊天栏中看到一个加号按钮。点击它上传HTML文件。
然后我们需要使用以下提示来提取数据并导出到CSV文件:
从HTML文件中提取产品名称和价格,将数据放在表格中,并导出到CSV文件。
步骤3:复制数据所在的HTML元素
前面的提示有时就足够了,但为了使提示更为健壮,我们需要指定我们的数据所在的HTML元素。
🌟为了高效地获取所需信息,首先定位到你想要探索的网站主页`(👉目标网址)`。接下来,精准锁定那些产品详情的目标元素——通常是产品的标签或标题 `(🔍产品名称)`,它们通常会清晰展示价格标签 `(💰产品价格)`。执行一个简单的鼠标动作,不要犹豫,点击并右键 `( ogr clicks)`,然后选择“检查元素”或者“Inspect”,这样你就可以深入浏览器的开发者工具,隐藏在代码背后的真相就会展现在眼前。记得,这个过程是为了SEO优化,而不是推销哦!💪
开发者工具将弹出,并高亮显示包含你希望提取的数据的HTML元素,复制蓝色高亮的元素。
这是我复制的元素:
<span class=”a-size-medium a-color-base a-text-normal”>Introducing Amazon Fire TV 40″ 2-Series 1080p HD smart TV, stream live TV without cable</span>
如果你重复这个步骤对价格进行操作,你会得到如下面的元素:
<span class=”a-price-whole”>189<span class=”a-price-decimal”>.</span></span>
现在,如果你有过抓取网站的经验,你可能知道总会有数据缺失,所以我们必须在我们的提示中处理这种情况。
这是我们将要使用的最后的提示:
从HTML文件中提取产品名称和价格,将数据放在表格中,并导出到CSV文件。
这是一个产品的元素:
<span class=”a-size-medium a-color-base a-text-normal”>Introducing Amazon Fire TV 40″ 2-Series 1080p HD smart TV, stream live TV without cable</span>
这是价格的元素:
<span class=”a-price-whole”>189<span class=”a-price-decimal”>.</span></span>
如果产品的价格缺失,请将该价格作为空数据。
在给ChatGPT发出提示后,我得到了我请求的表格的预览和下载CSV文件的链接。
👀CSV文件大考来啦!别让ChatGPT的小错误绊倒你!偶尔会出现意外,数据错位成空白,这可让人头疼。但别担心,这里有解决秘籍!首先,细心检查每行,留意那些看似空格却藏着实货的角落。如果发现复制现象,提取关键信息的线索就在那儿。使用下面的提示,ChatGPT会乖乖变回原形,为空单元格唱摇篮曲。记得,数据整洁是王道,CSV文件要呵护好哦!😊
如果您在查找LG 55-Inch Class UQ7570 Series的4K智能电视,AI驱动和云游戏功能(型号55UQ7570PUJ,2022版)的价格时遇到了困扰,别担心。这款高端产品的价格信息可能存在误解。为了准确提供您所需的信息,请告知我们具体哪些产品型号或详情您在寻找价格,我们将立即帮您核实并更新相关的产品价格列表。
那还不是全部!你可以通过提供新的HTML文件来抓取第2、3、4…页
🚀提取亚马逊全貌,我们已成功锁定首屏数据,然而,海量信息藏于深处,等待我们深入挖掘。欲览尽所有宝藏,关键在于导航至每个页面,将其转化为SEO友好的HTML格式,一键存档。每一步都至关重要,因为每一个链接都是通往丰富知识的入口。🚀
然后我们上传这个新的HTML文件,并使用下面的提示。
这是前面网站的第[n]页。使用HTML文件提取数据,按照我之前描述的相同步骤。
这是我下载的CSV文件的一部分。
附加内容:使用略有不同的方法抓取Glassdoor
假设我们想抓取Glassdoor上的职位发布信息。我们将遵循相同的步骤。
首先,我们会访问Glassdoor,搜索我们想要的职位,然后按CTRL+S将页面保存为HTML。然后我们检查想要提取的数据,但现在我们不是复制蓝色高亮的整个元素,而是选择一个属性。在这种情况下,我会选择id。
我检查的元素的id是“job-title-1008760392125”。这可以简化为“job-title”。如果我们重复对岗位的雇主、地点和薪资的处理,我们会构建下面的提示:
从HTML文件中,查找下列ids的元素并提取其数据
job-employer
job-title
job-location
job-salary
将数据放在表格中,并导出到CSV文件。如果有缺失的数据,将其作为空数据。
现在你可能会收到下面的消息。
这是因为我们通过移除数字来缩短“job-title-1008760392125”,所以id的名称并不完整。因此我们必须告诉ChatGPT使用正则表达式匹配id名称的部分:
这些是ids的一部分,使用正则表达式匹配id名称的部分
然后我们得到了我们的数据!
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!