保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

文心一言 1年前 (2023) lida
55 0 0

文章主题:ChatGPT, OpenAI, GPTBot, 网站数据保护

666ChatGPT办公新姿势,助力做AI时代先行者!

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

不希望网站数据被ChatGPT白嫖?现在终于有办法了!

两行代码就能搞定,而且是OpenAI官方公布的那种。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

刚刚,OpenAI在用户文档中更新了GPTBot的说明。

根据这一说明,内容拥有者将可以拒绝网站数据被ChatGPT的爬虫抓取

这是继暂停网页访问功能之后,OpenAI在版权和隐私保护方面的又一重大举措。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

不过,OpenAI还是希望能内容拥有者将访问权限开放给GPTBot。

在这份关于GPTBot的说明中,OpenAI表示:

允许我们的爬虫访问你的数据有利于使AI模型更精确、更安全。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

但至少,站主们拥有了选择的权利。

不过,也有网友指出了问题:

模型早就已经训练好了,现在提这个还有什么用?

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

对此OpenAI尚未作出解释,我们还是先来看看这次的措施。

三种方式阻止GPT爬虫

那么,OpenAI都公布了哪些内容呢?

首先是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; https://openai.com/gptbot)

UA是浏览器的身份标识,包含了访问者的系统环境、浏览器内核版本、语言等诸多信息。

通过HTML的标签,可以阻止特定的浏览器对网页内容进行访问。

在这份说明文档中,OpenAI还提供了更简单的爬虫阻止方式,即修改robots.txt。

只要在网站的robots.txt中加入如下内容:

User-agent: GPTBot

Disallow: /

这样,GPTBot将不会访问你的网站进行内容抓取。

如果只想禁止GPT抓取部分内容,也可以利用robots.txt进行设置。

和上面的内容相似,分别写明允许和不允许访问的目录即可。

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

🌟了解了!为了优化SEO并保持信息的专业性,以下是改写后的描述:若满足`Allow`目录作为`Disallow`目录子集的条件,前者将获得更高的权限,意味着它将被特别许可访问。🚀这样,访问策略将以一种更精确和逻辑清晰的方式运作。记得关键词优化哦!😊

此外,OpenAI还公布了爬虫机器人的ip地址。

如果实在是对爬虫不放心,可以设置禁止有关ip对网站的访问。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

什么是robots.txt

上面提到的robots.txt是什么,为什么它能阻止GPT的爬虫?

这其实是一种用户协议,站主可以在其中设置禁止访问网站的爬虫或禁止爬虫抓取的内容。

根据这一协议,即使在有能力访问的情况下,爬虫遇到相关内容都会主动选择避开

ChatGPT自身也在使用robots.txt,阻止爬虫抓取除了用户分享之外的其他内容。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

其实,在AI盛行之前,这项协议就已经存在,当时主要是用于限制搜索引擎。

这也正是我们无法在搜索引擎中搜到微信公众号文章的原因。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

这是一项君子协定,不过大多数厂商都会选择遵守,因为这体现了对行业规则和用户隐私的尊重。

如今,OpenAI也加入了这一行列。

One More Thing

与此同时,Google的爬虫正在全网抓取内容。

不过,网友对此似乎有更高的容忍度:

至少Google是链接到你的网站,但ChatGPT用了你的内容之后根本不会进行说明。

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

你认为在提高模型质量和保护创作者之间该如何找到平衡点呢?

参考链接:

[1]https://platform.openai.com/docs/gptbot

🌟🚀最新科技动态!🔍揭示OpenAI数据挖掘黑幕,揭秘Block AI背后的真相!💻你是否曾想象过,人工智能的力量能如何颠覆行业格局?👀然而,最近一场关于数据隐私的大规模事件,让这个领域的真实面貌浮出水面。🚨《The Verge》独家报道,OpenAI的数据窃取行为引发了轩然大波,而其中的主角——Block AI,似乎正面临前所未有的挑战。💡OpenAI,作为人工智能领域的领军者,本应是行业的典范,却在数据采集上踩了红线。👀他们通过非法手段获取用户信息,这不仅违反了伦理道德,也对整个行业构成了潜在威胁。🚨此刻,Block AI站到了风口浪尖。🤔这家声称利用先进算法推动创新的公司,是否真的如表面那样纯洁? kode experts纷纷质疑其数据处理方式和透明度。🔍Block AI需要面对的是,如何在追求技术突破的同时,坚守数据安全的原则。这场风暴不仅引发了公众对AI伦理的关注,也让企业重新审视自身的数据策略。📝对于科技巨头来说,这是一次警示,也是自我净化的机会。💡欲知更多细节,敬请关注后续报道。👀我们期待真相大白的那一天,也期待一个更公正、透明的人工智能未来。🌈记得分享给你的朋友,一起探讨这个引人深思的话题!💬SEO优化提示:使用相关关键词如”OpenAI数据窃取”, “Block AI挑战”, “人工智能伦理”, “数据安全”, “科技巨头反思”等。

[3]https://news.ycombinator.com/item?id=37030568

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

版权声明:lida 发表于 2023年8月8日 pm5:24。
转载请注明:保护版权隐私?OpenAI新招数:两行代码阻止ChatGPT窃取网站数据 | ChatGPT资源导航

相关文章