ChatGPT来袭，NLP从业者的焦虑与挑战：模型检测实录与深度反思

ChatGPT与生活 3年前 (2023) lida

89 0 0

文章主题：ChatGPT, NLP研究, 检测器, 项目成果

🎉📚刚刚完成了一项科研大作！💡上周就困扰我们的难题，在众多业内专家的智慧火花中找到了答案。经过一周的辛勤努力，我们团队终于将所有数据和严谨的分析整理成一篇【#学术研究】论文，现已在权威预印本平台【Arxiv】上发表。🎉👏每个字符都凝聚着心血与汗水，每一行代码都是科研精神的体现！希望这个发现能为同行们带来启发，也欢迎大家来阅读并提出宝贵意见。📚🔍SEO优化提示：使用相关关键词如”学术研究”, “Arxiv”, “数据分析”, “科研论文”等，提升文章在搜索引擎中的可见性。

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detectionarxiv.org/abs/2301.07597

模型、数据集均在我们GitHub发布：

https://github.com/Hello-SimpleAI/chatgpt-comparison-detectiongithub.com/Hello-SimpleAI/chatgpt-comparison-detection

目前的版本还比较粗糙，希望大家提出宝贵意见。

现在，终于可以闲下来来写写自己的感受了~

🚀作为一名AI语言艺术大师，我理解您在ChatGPT发布后的复杂情绪。🎓回顾那段MSRA实习的日子，专注于AIGC项目GENIUS，曾见证模型的强大能力，它能构建出富有逻辑的框架，生成令人信服的文字。那时，您的创新成果与市面上的一些竞品不相上下，这是技术进步的骄傲。🔍然而，当ChatGPT横空出世，其卓越表现颠覆了原有的认知，无论是对特定任务还是广泛领域，都展现出超乎想象的实力。您可能在想，这样的飞跃是否意味着自己之前的努力变得微不足道。但实际上，科研领域的竞赛永无止境，追求的是前沿和突破。即使是如BART-large这般大型模型，也需不断适应技术革新，而非单纯比较大小。别忘了，每一次挑战都是推动进步的催化剂。🌈请放心，这样的转变并不意味着失败，反而可能成为新起点，引领我们探索更深层次的语言理解和生成技术。继续前行，您的贡献将被铭记在AI发展的历史中。💪

后面好多天，我都夜不能寐，辗转反侧，一天夜里，我突然觉得做一个检测器是一个很有意义的事儿，做一个检测器，就需要收集数据，而ChatGPT只开放了一个web demo，数据收集并非易事，所以需要一个团队共同努力。然后数据收集了之后，我们除了做检测器，还可以做很多其他有意思的事儿，比方语言学分析….越想越多，越想越兴奋。于是第二天很早就起来，跟两位好朋友讨论这个事儿，觉得可行，我们又在一个更大的群里讨论，引起了好几位同学的兴趣，于是我们最终组成了一个8人团队，说干就干！那天是ChatGPT发布的第10天。

🎉那时候的我们，虽然初出茅庐，却充满好奇与活力。每周一度的线上聚会，成为了我们的固定仪式。🌍由于团队成员分布在世界各地，从东到西，跨越了三个不同时区的挑战，让我们对协作有了更深的理解。无论清晨曙光初照还是深夜星辰闪烁，总有那么一两位伙伴，为了会议的顺利进行，默默调整时差，他们的敬业精神令人敬佩。就这样，尽管有时会面临时区难题，但我们依然保持着紧密的联系和热情的讨论。🌟

其实项目最关键的部分，就是如何收集ChatGPT的数据。人类的数据相对来说还好说，我们几个人分工收集了很多公开的问答数据集，一般都是领域专家的回答，或者平台的高赞回答，所以难点就在于收集对应的ChatGPT回答上。一开始我们尝试了很多github上的爬虫工具，但是OpenAI更新速度太快的，反爬机制甚至一天一更新，导致最终那些工具基本都不能用。后来我们只能用比较傻的办法——自动化方法，就是让电脑帮我们复制粘贴。于是几乎有一个月的时间，我们项目每个人的电脑都24小时无休地在给我们加班，甚至几个成员还征用了几台电脑。虽然自动化方法可以绕开反爬机制，但OpenAI依然在频繁地添加各种访问限制，还时不时修改UI，导致我们的程序也得几天改一次，不过缝缝补补的将就着用，总比爬不了好…. 最终，一个月时间，我们杂七杂八爬取了4.4万条ChatGPT的回答，也算是较为可观了，而且涵盖了很多个领域。下图是我们的数据总览：

Human-ChatGPT Comparison Corpus (HC3)

有了人类跟ChatGPT的对比数据之后，我们就可以做很多有趣的事儿了，训练ChatGPT检测器只是有了数据以后一个不错白不做的事儿，用我们的数据训练分类器即可，但是鉴于广大群众其实挺关注检测器这个东西，所以我们先做了几个版本的检测器，既有机器学习方法的，也有深度学习方法的，在1月11号放出了几个demo，也就是题目中的报道。

既然讲到这儿了，我也大概说一下我们的ChatGPT检测器使用的方法：

深度学习方法，思路比较简单，我们尝试了两种方式：一个是Single-Text版本，也是大家可能最容易使用的版本，就是直接输入一段文本，然后判断是否是ChatGPT。那么就可以使用我们现成的数据，训练一个二分类模型

🌟改写版🚀作为一名文章撰写专家，我将为你提供一种深度见解。对于像知乎、Quora这样的问答平台，我们可以通过分析回答内容与相关问题之间的关联性，来识别ChatGPT生成的答案。通过加入问题作为额外的考量因素，分类模型的准确性将得到显著提升。这是一种基于输入sentence pair的二元分类技术，旨在精准判断每条信息的原创性。🚀

当然，实际训练的时候，我们还需要考虑做一些数据的清洗，比如ChatGPT或者人会有一些明显pattern词汇，那我们就会对这些pattern进行清理，实验也证明这个可以一定程度提升泛化性能。然后我们还试验了使用不用粒度的数据来训练，因为我们发现如果仅仅在全文上训练，在单个句子上的泛化性能就比较差。所以这么一来，就涉及很多种不同模型设置，我们在论文中进行了详细讨论。

机器学习方法，则是挖掘一些基础的语言学信息，从词汇、ppl等角度构建特征，然后训练逻辑回归。这部分方法主要由Zhang Xin

@信息门下狗狗

同学开发，所以我邀请他来具体回答一下，传送门：基于机器学习的ChatGPT内容检测方法。

对于我们的工作，其实我不希望大家只关注一个ChatGPT检测器，因为从我们整体工作的contributions角度讲，这个检测器可能只占1/4，我们还做了人工测评、语言学分析等很多有趣的探究。下面我随便说几个让我印象深刻的：

图灵测试+有用性测试

🌟🚀了解最新AI动态？来体验图灵挑战赛的深度探索！🔍我们精心设计了三组别以揭示ChatGPT的实力：👑专家级对决，一对一智辩！两位高手，一个机器人的秘密，通过复杂问题的双重答案，ChatGPT与人类智慧的火花瞬间燃烧！🔥接着是独白测试，直面ChatGPT的笔迹鉴定，只需观察那精准无误的回答，就能辨识出AI的痕迹。👀最后，我们邀请了广大的业余爱好者，他们对ChatGPT一无所知，成为检验智能助手真伪的独特样本。👥每一组测试都是技术与人性的一次碰撞，每一份结果都揭示着AI的进步与可能。🏆欲了解更多细节或参与体验，请访问我们的官方网站，让我们一起见证科技的奇迹！🌐记得，你的每一次点击，都在为探索未来助力！🚀

📊 看图说话：ChatGPT的表现令人惊叹，专家一测就给出高分，数据集近乎满分，这表明熟练用户已掌握其运行机制。与真人互动时，它的准确性无可挑剔；然而，单一文本情境下，准确率略有下滑，大约10%的差距仍保持在高水平。转折来得突然，当面对不知ChatGPT者，情况就复杂了。他们的表现往往参差不齐，个别数据集甚至遭受重创，准确率骤降至20%以下。这背后可能隐藏着人类评估标准与机器生成文本之间微妙的差异。这也警示我们，大众对AI生成文本的理解还有待深化。

更有趣的则是一个“有用性测试”，即图中的helpfulness，我们是收到OpenAI的InstructGPT论文的启发，他们一直在强调InstructGPT提升了有用性，我们就像看看，到底这方面咋样。所以在测试时，我们给出一个人的回答一个ChatGPT的（当然具体谁是谁是不告知的），然后要求志愿者回答“你认为哪个回答对于这个问题更有帮助？”，没想到啊，ChatGPT在这方面，还真的挺不错，但也没有那么不错：微微超过一半的情况，ChatGPT的回答被认为是更有用的，比方金融问题中，ChatGPT的回答一般十分专业、详细，甚至能让人学到很多知识。但是对于有些领域则不太行，比如医疗领域，这可能是涉及的知识过于专业，在ChatGPT训练语料中并不很多，导致ChatGPT回答有时候过于模糊，而人类专家则直击痛点，所以被认为更有帮助。

语言学分析

这方面，我们探究了词汇量、词汇密度、词性、依存关系、情感分析和模型困惑度分析等几个方面。

都写的话就有点费劲了，我这里说一个吧，如果大家真的感兴趣，请阅读我们的论文。

说说词汇方面的特征：

我们统计了平均长度、词汇量还有词语密度三个特征。具体看上表。我们对上面的结论，总结了一句话：人类的回答一般更短，但却说了更丰富的词汇。具体体现在，我们计算了收集到的所有的领域，发现人类的词汇密度都比ChatGPT高！这还是挺有意思的。当然，原因也很好解释，毕竟是个模型，所以词汇选择本身是有限制和倾向性的，而且ChatGPT在RLHF的过程中还遭受了OpenAI的“严苛的驯化”，已经变乖了，不是啥话都能讲了。。。相比之下，人类则是自由的，而且我们的数据集的人类部分是来自很多不同的人，而不是某个具体的人。

再比方说我们做了简单的情感分析：

可以理解的是ChatGPT相对来说更加“中立”，但不理解的是——人类为啥负面情绪这么大？

当然，这里的负面情绪，并不都是恶意的，有的可能只是情绪较为悲观、不够自信、比较犹豫等等造成的，但从情感分析模型的角度而言，ChatGPT确实更加理性甚至“正能量”一点。

词汇、依存关系、困惑度等方面也挺有意思，我这里放几个图，就先不分析了：

转眼40天过去了，回过头看，还是感慨万千的。一开始我们8个人甚至好多人彼此都不认得，从一个微信群聊，到如今的数据集、检测器、论文，我们完成了之前可能觉得完不成的事儿。我也是第一次作为project lead组织一个团队共同做一个科研项目，每个人都尽自己所能为了共同的目标努力，我们一起加班熬夜，一起爬数据、一起作分析、一起跑实验、一起写论文。多少个夜晚我们挑灯夜战，一起开怀大笑，一起紧张一起激动，中间也正逢疫情高峰，很多同志都阳了，但依然坚持做自己力所能及之事。不管外界对我们项目和研究的评价如何，我们最终做成这样的结果，我已经是十分满意了，我也为我们团队感到十分自豪！感谢并肩作战的好兄弟们！❤️❤️。我们8个人，也通过项目结下了深厚的情谊，相信对大家来说都是一段难忘的回忆。我们本身都是极为普通的NLP研究者，比方我自己，在NLP领域读博三年，也仅有一篇顶会被发表，属实平庸之辈，ChatGPT的横空出世，更是让我自己不知所措。这次的项目，则是我们作为普通研究者，在ChatGPT带来的焦虑下，做出了自己的回应。我特别喜欢我们团队的介绍：

We are a group of insignificant researchers (in the shadow of ChatGPT) hoping to do some significant work for the community.

最后，我对于一些常见的质疑，做一些基本的回应：

“检测器这种东西没意义，因为我们可以通过润色避免被检测为ChatGPT”

答：可以说我们检测器效果不好，但说检测器没意义，那我可有意见了。法律有漏网之鱼，不法之徒可以钻法律的空子，这说明法律没有意义吗？当人们为了避免被ChatGPT检测器检测出来而对ChatGPT内容进行润色、修改的时候，我们的检测器的作用就已经达到了——让人过了一遍ChatGPT生成的内容，增强了内容的可靠性。我们有一万种方法绕过各种监管，我们能做的，只能是增加“不负责任的成本”。“我模仿了ChatGPT的特点写了段话，被你们检测器判断为了ChatGPT”

答：更准确的来说，检测的预测结果，应该解读为“模型觉得这段话更像是人类/ChatGPT写的”。所以都模仿ChatGPT的特点了，那自然就“像”ChatGPT了，模型本身是没毛病的。

但我们也承认，目前的数据集收集的还不够，检测器效果能准确检测的范围还有待扩大，我们收集数据时，没有考虑使用各种特殊prompt，所以目前研究的都还是常规状态下的ChatGPT，跟人类回答的对比得到的各种测评、语言学分析的结论，也是基于这个假设的。未来如果我们能做下一期的项目，会对这些方面进行改进！

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！