文章主题:GPTZeroX, ChatGPT克星, 检测人类AI混写
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
「ChatGPT克星」,升级了!
🌟当然了,提到识别文本真伪的能手,就不能不提那位备受瞩目的Edward Tian先生所研发的GPTZero神器。只需短短几秒钟,它就能迅速洞悉文字背后的真相——是出自人工之手,还是AI智慧生成。🚀
而时隔近一个月,小哥所推出的版本名叫GPTZeroX,并且他还说:
这是专门为教育工作者打造的AI模型。
消息一出,立即吸引了大批网友涌入,一天之内便有40万的访问量和220万的服务请求。
那么这一次,这位「ChatGPT克星」又带来了哪些新能力?
混写也能测,还支持Word等格式
升级的一大特点,就是GPTZeroX可以检测出来“人类+AI”混写的文字内容。
例如我们先把一段人类写的新闻丢进去检测:
GPTZeroX在短短几秒钟时间内,非常迅速的给出了答案:
🎉👋文章创作大师在此!🌟原文改写,SEO优化大法来啦!📝每一篇文字都蕴含着思想的火花,我将以专业的角度,匠心独运地重塑你的文字。删繁就简,去芜存菁,让内容如丝般流畅,信息如鱼得水。👩🏫告别冗长的联系方式和推销语,我的目标是让你的文字直击心灵,吸引读者的目光。🌍SEO策略融入其中,关键词巧妙布局,让搜索引擎也爱上你的独特魅力。无论是学术论文还是商业文案,每一段都将是精心打磨的艺术品。📝📖每一行字都蕴含力量,每一次改动都是对完美追求的体现。🎯放心交付,我将以最高的专业素养和保密承诺,为你打造独一无二的文字体验。👩💼🔒让我们一起,用文字讲述世界,让思想在笔尖跃动!🌈
你的文本很可能完全是由人写的。
接下来,我们再把一段ChatGPT写的文字,丢进刚才那段新闻的后边,来一场混合检测:
这一次,GPTZero给出的回答是:
Your text includes parts written by AI.
你的文本一部分是由AI编写的。
并且ChatGPT生成的内容还会用黄色高亮标记出来。
小哥对此表示:
这是教育工作者一直想要的一个关键功能。
但老师们检查学生作业的时候,一段一段的把文字复制粘贴进来也相当繁琐的工作了。
于是乎,这位小哥还贴心地推出了另一个新功能——可批量导入文件,支持Word、PDF和TXT等格式。
并且网站在介绍这个功能时,是这么描述的:
除此之外,为了防止服务发生崩溃,小哥还搞了一个Python API,是已经完成压力测试的那种。
最后,小哥还贴心地说了一句:
我承诺,本网站对个体教师和教育工作者,保持免费!
怎么做到的?
它主要靠“perplexity”,即文本的“困惑度”作为指标来判断所给内容到底是谁写的。
NLP领域的朋友们都知道,这个指标就是用来评价一个语言模型的好坏的。
在这里,每当你喂给GPTZero一段测试内容,它就会分别计算出:
1、文字总困惑度
这个值越高,就越可能出自人类之手。
2、所有句子的平均困惑度
句子越长,这个值通常就越低。
3、每个句子的困惑度
📊📊 点亮你的阅读理解,只需轻轻一扫!每一块都藏着独特的信息,当你鼠标停留,即刻揭示秘密——两句话,却包含无限可能。此刻的示例虽简,但想象一下,海量数据以条形图形式生动呈现,每一格都蕴含深意。📊
之所以要绘制这样的条形图,作者也作出了解释:
原文改写如下:研究表明,尽管人类初始书写的句子可能存在一定的认知挑战(毕竟我们大脑通常对信息处理要求较高),但书写过程中的流畅性会逐渐降低困惑程度。换句话说,随着时间推移,困惑度并非恒定上升,而是呈现出一种动态变化的趋势。这种现象可能与语言习惯的养成和信息处理效率的优化有关。欲了解更多详情,不妨探索相关研究以深入理解背后的心理学机制。记得关注SEO关键词:书写困惑度、动态变化、语言习惯、信息处理效率。
相反,用机器生成的文本,其困惑度是均匀分布的,并且总是很低。
除此之外,GPTZero还会挑出困惑度最高的那个句子(也就是最像人写的):
反ChatGPT之风正盛
🌟ChatGPT的炫目技能引发了热议,与此同时,创新工具如”GPTZero”这类以技术破解技术的隐形挑战者也崭露头角。🚀他们以独特的智慧和策略,不断打破旧有的界限,就像武侠世界中的绝世高手,用科技力量抵御着新兴AI的魔力。🔍这些研发者的匠心独运,无疑为行业带来了新鲜血液和深度探索的可能性。📚让我们期待他们在未来如何继续引领技术与智慧的较量,用智慧之光照亮前行的道路。
🌟斯坦福大学创新举措!为防止学生滥用ChatGPT学术不端,他们推出了一款名为’DetectGPT’的超强大工具,🔥专为检测和预防抄袭行为而生!这款神秘武器旨在维护学术诚信,让学生在知识海洋中航行时,远离技术干扰的暗礁。🎓欲了解更多如何坚守学术之道,敬请关注后续更新!📚
这种方法既不需要训练单独的分类器,也不需要收集真实或生成的段落的数据集,是一种基于概率曲率的零样本方法。
除此之外,就连OpenAI自己也联合哈佛等高校机构联合打造了一款检测器:GPT-2 Output Detector。
作者们先是发布了一个“GPT-2生成内容”和WebText(专门从国外贴吧Reddit上扒下来的)数据集,让AI理解“AI语言”和“人话”之间的差异。
随后,用这个数据集对RoBERTa模型进行微调,就得到了这个AI检测器。其中人话一律被识别为True,AI生成的内容则一律被识别为Fake。
(RoBERTa是BERT的改进版。原始的BERT使用了13GB大小的数据集,但RoBERTa使用了包含6300万条英文新闻的160GB数据集。)
……
嗯,看来ChatGPT在大步向前迈的同时,顺便还推动了“反ChatGPT”研究的发展。
参考链接:
[1] https://twitter.com/edward_the6/status/1619874139954905090[2] https://arxiv.org/abs/2301.11305
—完—
@量子位 · 追踪AI技术和产品新动态
深有感触的朋友,欢迎赞同、关注、分享三连վᴗ ի ❤
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!