「超速抓取神器？3步教你用ChatGPT代码解释器提取网站数据」

学会提问 2年前 (2023) lida

91 0 0

文章主题：, ChatGPT Code Interpreter, 网络抓取自动化, Amazon TV prices

只需要按照3个步骤，就可以使用ChatGPT代码解释器从网站提取数据。

🌟🚀掌握ChatGPT与”Scraper”的秘密！🔥📈提取信息不再难，但这些技巧并非万能💡曾经分享过如何巧用ChatGPT及插件「Scraper」大显神威，抓取网站数据。诚然，它们高效便捷，但背后的挑战也不容忽视。👀📊让我们一起探讨，了解这些工具的利与弊。首先，ChatGPT以其强大的语言理解和生成能力，为信息检索开辟了新路径。但它并非无所不能，对于特定领域的深度解析或保护隐私的网站，效果可能打折扣。📚🛡️其次，「Scraper」虽能批量抓取，但可能会遇到反爬机制，导致数据获取不完整或频繁被封禁的风险。 precautious usage至关重要！🛡️🌐尽管如此，掌握这些工具仍能大幅提升工作效率，只是在使用时需灵活应对，避免滥用和触碰法律红线。👩‍💻👨‍💻想要更深入地探索ChatGPT与数据抓取的边界？关注后续内容，我们将分享更多实用技巧和优化策略，助你游刃有余！👇📚记得，保护隐私，合法使用，让我们一起在技术的世界里稳健前行！🌍💪

但是，ChatGPT代码解释器将网络抓取提升到了一个不同的层次。

在本文中，我们将探讨如何使用ChatGPT代码解释器自动化网络抓取。

步骤1：访问目标网站并将其保存为HTML

要使用ChatGPT代码解释器抓取网站，我们需要上传目标网站的HTML文件。

为此，访问目标网站并按CTRL+S，并将文件保存为HTML。

假设我想提取Amazon上的电视价格。我只需要访问Amazon并输入“TVs”。

然后我按CTRL+S，下面的窗口就会弹出。确保你将文件保存为HTML。

这个HTML文件包含了Amazon网站的所有数据。现在我们需要使用代码解释器上传该文件。

步骤2：上传HTML文件并使用此提示

现在我们需要转到ChatGPT，选择GPT-4，然后点击“Code Interpreter”。

🌟🚀了解最新技术动态？ChatGPT Plus的代码魔法等你解锁！💡只需简单的几步，所有用户都能享受超凡交互体验。👉点击这里，立即开启你的科技探索之旅！无需订阅，立刻开始编码奇迹！👨‍💻👩‍💻🌍

现在你应该在聊天栏中看到一个加号按钮。点击它上传HTML文件。

然后我们需要使用以下提示来提取数据并导出到CSV文件:

从HTML文件中提取产品名称和价格，将数据放在表格中，并导出到CSV文件。

步骤3：复制数据所在的HTML元素

前面的提示有时就足够了，但为了使提示更为健壮，我们需要指定我们的数据所在的HTML元素。

🌟为了高效地获取所需信息，首先定位到你想要探索的网站主页`(👉目标网址)`。接下来，精准锁定那些产品详情的目标元素——通常是产品的标签或标题 `(🔍产品名称)`，它们通常会清晰展示价格标签 `(💰产品价格)`。执行一个简单的鼠标动作，不要犹豫，点击并右键 `( ogr clicks)`，然后选择“检查元素”或者“Inspect”，这样你就可以深入浏览器的开发者工具，隐藏在代码背后的真相就会展现在眼前。记得，这个过程是为了SEO优化，而不是推销哦！💪

开发者工具将弹出，并高亮显示包含你希望提取的数据的HTML元素，复制蓝色高亮的元素。

这是我复制的元素：

Introducing Amazon Fire TV 40″ 2-Series 1080p HD smart TV, stream live TV without cable

如果你重复这个步骤对价格进行操作，你会得到如下面的元素：

189.

现在，如果你有过抓取网站的经验，你可能知道总会有数据缺失，所以我们必须在我们的提示中处理这种情况。

这是我们将要使用的最后的提示：

从HTML文件中提取产品名称和价格，将数据放在表格中，并导出到CSV文件。

这是一个产品的元素：

Introducing Amazon Fire TV 40″ 2-Series 1080p HD smart TV, stream live TV without cable

这是价格的元素：

189.

如果产品的价格缺失，请将该价格作为空数据。

在给ChatGPT发出提示后，我得到了我请求的表格的预览和下载CSV文件的链接。

👀CSV文件大考来啦！别让ChatGPT的小错误绊倒你！偶尔会出现意外，数据错位成空白，这可让人头疼。但别担心，这里有解决秘籍！首先，细心检查每行，留意那些看似空格却藏着实货的角落。如果发现复制现象，提取关键信息的线索就在那儿。使用下面的提示，ChatGPT会乖乖变回原形，为空单元格唱摇篮曲。记得，数据整洁是王道，CSV文件要呵护好哦！😊

如果您在查找LG 55-Inch Class UQ7570 Series的4K智能电视，AI驱动和云游戏功能（型号55UQ7570PUJ，2022版）的价格时遇到了困扰，别担心。这款高端产品的价格信息可能存在误解。为了准确提供您所需的信息，请告知我们具体哪些产品型号或详情您在寻找价格，我们将立即帮您核实并更新相关的产品价格列表。

那还不是全部！你可以通过提供新的HTML文件来抓取第2、3、4…页

🚀提取亚马逊全貌，我们已成功锁定首屏数据，然而，海量信息藏于深处，等待我们深入挖掘。欲览尽所有宝藏，关键在于导航至每个页面，将其转化为SEO友好的HTML格式，一键存档。每一步都至关重要，因为每一个链接都是通往丰富知识的入口。🚀

然后我们上传这个新的HTML文件，并使用下面的提示。

这是前面网站的第[n]页。使用HTML文件提取数据，按照我之前描述的相同步骤。

这是我下载的CSV文件的一部分。

附加内容：使用略有不同的方法抓取Glassdoor

假设我们想抓取Glassdoor上的职位发布信息。我们将遵循相同的步骤。

首先，我们会访问Glassdoor，搜索我们想要的职位，然后按CTRL+S将页面保存为HTML。然后我们检查想要提取的数据，但现在我们不是复制蓝色高亮的整个元素，而是选择一个属性。在这种情况下，我会选择id。

我检查的元素的id是“job-title-1008760392125”。这可以简化为“job-title”。如果我们重复对岗位的雇主、地点和薪资的处理，我们会构建下面的提示：

从HTML文件中，查找下列ids的元素并提取其数据

job-employer

job-title