ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

ChatGPT与生活 2年前 (2023) lida
59 0 0

文章主题:ChatGPT, NLP研究, 检测器, 项目成果

666ChatGPT办公新姿势,助力做AI时代先行者!

🎉📚刚刚完成了一项科研大作!💡上周就困扰我们的难题,在众多业内专家的智慧火花中找到了答案。经过一周的辛勤努力,我们团队终于将所有数据和严谨的分析整理成一篇【#学术研究】论文,现已在权威预印本平台【Arxiv】上发表。🎉👏每个字符都凝聚着心血与汗水,每一行代码都是科研精神的体现!希望这个发现能为同行们带来启发,也欢迎大家来阅读并提出宝贵意见。📚🔍SEO优化提示:使用相关关键词如”学术研究”, “Arxiv”, “数据分析”, “科研论文”等,提升文章在搜索引擎中的可见性。

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

模型、数据集均在我们GitHub发布:

目前的版本还比较粗糙,希望大家提出宝贵意见。

现在,终于可以闲下来来写写自己的感受了~

🚀作为一名AI语言艺术大师,我理解您在ChatGPT发布后的复杂情绪。🎓回顾那段MSRA实习的日子,专注于AIGC项目GENIUS,曾见证模型的强大能力,它能构建出富有逻辑的框架,生成令人信服的文字。那时,您的创新成果与市面上的一些竞品不相上下,这是技术进步的骄傲。🔍然而,当ChatGPT横空出世,其卓越表现颠覆了原有的认知,无论是对特定任务还是广泛领域,都展现出超乎想象的实力。您可能在想,这样的飞跃是否意味着自己之前的努力变得微不足道。但实际上,科研领域的竞赛永无止境,追求的是前沿和突破。即使是如BART-large这般大型模型,也需不断适应技术革新,而非单纯比较大小。别忘了,每一次挑战都是推动进步的催化剂。🌈请放心,这样的转变并不意味着失败,反而可能成为新起点,引领我们探索更深层次的语言理解和生成技术。继续前行,您的贡献将被铭记在AI发展的历史中。💪

后面好多天,我都夜不能寐,辗转反侧,一天夜里,我突然觉得做一个检测器是一个很有意义的事儿,做一个检测器,就需要收集数据,而ChatGPT只开放了一个web demo,数据收集并非易事,所以需要一个团队共同努力。然后数据收集了之后,我们除了做检测器,还可以做很多其他有意思的事儿,比方语言学分析….越想越多,越想越兴奋。于是第二天很早就起来,跟两位好朋友讨论这个事儿,觉得可行,我们又在一个更大的群里讨论,引起了好几位同学的兴趣,于是我们最终组成了一个8人团队,说干就干!那天是ChatGPT发布的第10天。

🎉那时候的我们,虽然初出茅庐,却充满好奇与活力。每周一度的线上聚会,成为了我们的固定仪式。🌍由于团队成员分布在世界各地,从东到西,跨越了三个不同时区的挑战,让我们对协作有了更深的理解。无论清晨曙光初照还是深夜星辰闪烁,总有那么一两位伙伴,为了会议的顺利进行,默默调整时差,他们的敬业精神令人敬佩。就这样,尽管有时会面临时区难题,但我们依然保持着紧密的联系和热情的讨论。🌟

其实项目最关键的部分,就是如何收集ChatGPT的数据。人类的数据相对来说还好说,我们几个人分工收集了很多公开的问答数据集,一般都是领域专家的回答,或者平台的高赞回答,所以难点就在于收集对应的ChatGPT回答上。一开始我们尝试了很多github上的爬虫工具,但是OpenAI更新速度太快的,反爬机制甚至一天一更新,导致最终那些工具基本都不能用。后来我们只能用比较傻的办法——自动化方法,就是让电脑帮我们复制粘贴。于是几乎有一个月的时间,我们项目每个人的电脑都24小时无休地在给我们加班,甚至几个成员还征用了几台电脑。虽然自动化方法可以绕开反爬机制,但OpenAI依然在频繁地添加各种访问限制,还时不时修改UI,导致我们的程序也得几天改一次,不过缝缝补补的将就着用,总比爬不了好…. 最终,一个月时间,我们杂七杂八爬取了4.4万条ChatGPT的回答,也算是较为可观了,而且涵盖了很多个领域。下图是我们的数据总览:

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

Human-ChatGPT Comparison Corpus (HC3)

有了人类跟ChatGPT的对比数据之后,我们就可以做很多有趣的事儿了,训练ChatGPT检测器只是有了数据以后一个不错白不做的事儿,用我们的数据训练分类器即可,但是鉴于广大群众其实挺关注检测器这个东西,所以我们先做了几个版本的检测器,既有机器学习方法的,也有深度学习方法的,在1月11号放出了几个demo,也就是题目中的报道。

既然讲到这儿了,我也大概说一下我们的ChatGPT检测器使用的方法:

深度学习方法,思路比较简单,我们尝试了两种方式:一个是Single-Text版本,也是大家可能最容易使用的版本,就是直接输入一段文本,然后判断是否是ChatGPT。那么就可以使用我们现成的数据,训练一个二分类模型

🌟改写版🚀作为一名文章撰写专家,我将为你提供一种深度见解。对于像知乎、Quora这样的问答平台,我们可以通过分析回答内容与相关问题之间的关联性,来识别ChatGPT生成的答案。通过加入问题作为额外的考量因素,分类模型的准确性将得到显著提升。这是一种基于输入sentence pair的二元分类技术,旨在精准判断每条信息的原创性。🚀

当然,实际训练的时候,我们还需要考虑做一些数据的清洗,比如ChatGPT或者人会有一些明显pattern词汇,那我们就会对这些pattern进行清理,实验也证明这个可以一定程度提升泛化性能。然后我们还试验了使用不用粒度的数据来训练,因为我们发现如果仅仅在全文上训练,在单个句子上的泛化性能就比较差。所以这么一来,就涉及很多种不同模型设置,我们在论文中进行了详细讨论。

机器学习方法,则是挖掘一些基础的语言学信息,从词汇、ppl等角度构建特征,然后训练逻辑回归。这部分方法主要由Zhang Xin

同学开发,所以我邀请他来具体回答一下,传送门:基于机器学习的ChatGPT内容检测方法

对于我们的工作,其实我不希望大家只关注一个ChatGPT检测器,因为从我们整体工作的contributions角度讲,这个检测器可能只占1/4,我们还做了人工测评、语言学分析等很多有趣的探究。下面我随便说几个让我印象深刻的:

图灵测试+有用性测试

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

🌟🚀了解最新AI动态?来体验图灵挑战赛的深度探索!🔍我们精心设计了三组别以揭示ChatGPT的实力:👑专家级对决,一对一智辩!两位高手,一个机器人的秘密,通过复杂问题的双重答案,ChatGPT与人类智慧的火花瞬间燃烧!🔥接着是独白测试,直面ChatGPT的笔迹鉴定,只需观察那精准无误的回答,就能辨识出AI的痕迹。👀最后,我们邀请了广大的业余爱好者,他们对ChatGPT一无所知,成为检验智能助手真伪的独特样本。👥每一组测试都是技术与人性的一次碰撞,每一份结果都揭示着AI的进步与可能。🏆欲了解更多细节或参与体验,请访问我们的官方网站,让我们一起见证科技的奇迹!🌐记得,你的每一次点击,都在为探索未来助力!🚀

📊 看图说话:ChatGPT的表现令人惊叹,专家一测就给出高分,数据集近乎满分,这表明熟练用户已掌握其运行机制。与真人互动时,它的准确性无可挑剔;然而,单一文本情境下,准确率略有下滑,大约10%的差距仍保持在高水平。转折来得突然,当面对不知ChatGPT者,情况就复杂了。他们的表现往往参差不齐,个别数据集甚至遭受重创,准确率骤降至20%以下。这背后可能隐藏着人类评估标准与机器生成文本之间微妙的差异。这也警示我们,大众对AI生成文本的理解还有待深化。

更有趣的则是一个“有用性测试”,即图中的helpfulness,我们是收到OpenAI的InstructGPT论文的启发,他们一直在强调InstructGPT提升了有用性,我们就像看看,到底这方面咋样。所以在测试时,我们给出一个人的回答一个ChatGPT的(当然具体谁是谁是不告知的),然后要求志愿者回答“你认为哪个回答对于这个问题更有帮助?”,没想到啊,ChatGPT在这方面,还真的挺不错,但也没有那么不错:微微超过一半的情况,ChatGPT的回答被认为是更有用的,比方金融问题中,ChatGPT的回答一般十分专业、详细,甚至能让人学到很多知识。但是对于有些领域则不太行,比如医疗领域,这可能是涉及的知识过于专业,在ChatGPT训练语料中并不很多,导致ChatGPT回答有时候过于模糊,而人类专家则直击痛点,所以被认为更有帮助。

语言学分析

这方面,我们探究了词汇量、词汇密度、词性、依存关系、情感分析和模型困惑度分析等几个方面。

都写的话就有点费劲了,我这里说一个吧,如果大家真的感兴趣,请阅读我们的论文。

说说词汇方面的特征:

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

我们统计了平均长度、词汇量还有词语密度三个特征。具体看上表。我们对上面的结论,总结了一句话:人类的回答一般更短,但却说了更丰富的词汇。具体体现在,我们计算了收集到的所有的领域,发现人类的词汇密度都比ChatGPT高!这还是挺有意思的。当然,原因也很好解释,毕竟是个模型,所以词汇选择本身是有限制和倾向性的,而且ChatGPT在RLHF的过程中还遭受了OpenAI的“严苛的驯化”,已经变乖了,不是啥话都能讲了。。。相比之下,人类则是自由的,而且我们的数据集的人类部分是来自很多不同的人,而不是某个具体的人。

再比方说我们做了简单的情感分析:

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

可以理解的是ChatGPT相对来说更加“中立”,但不理解的是——人类为啥负面情绪这么大?

当然,这里的负面情绪,并不都是恶意的,有的可能只是情绪较为悲观、不够自信、比较犹豫等等造成的,但从情感分析模型的角度而言,ChatGPT确实更加理性甚至“正能量”一点。

词汇、依存关系、困惑度等方面也挺有意思,我这里放几个图,就先不分析了:

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思
ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

转眼40天过去了,回过头看,还是感慨万千的。一开始我们8个人甚至好多人彼此都不认得,从一个微信群聊,到如今的数据集、检测器、论文,我们完成了之前可能觉得完不成的事儿。我也是第一次作为project lead组织一个团队共同做一个科研项目,每个人都尽自己所能为了共同的目标努力,我们一起加班熬夜,一起爬数据、一起作分析、一起跑实验、一起写论文。多少个夜晚我们挑灯夜战,一起开怀大笑,一起紧张一起激动,中间也正逢疫情高峰,很多同志都阳了,但依然坚持做自己力所能及之事。不管外界对我们项目和研究的评价如何,我们最终做成这样的结果,我已经是十分满意了,我也为我们团队感到十分自豪!感谢并肩作战的好兄弟们!❤️❤️。我们8个人,也通过项目结下了深厚的情谊,相信对大家来说都是一段难忘的回忆。我们本身都是极为普通的NLP研究者,比方我自己,在NLP领域读博三年,也仅有一篇顶会被发表,属实平庸之辈,ChatGPT的横空出世,更是让我自己不知所措。这次的项目,则是我们作为普通研究者,在ChatGPT带来的焦虑下,做出了自己的回应。我特别喜欢我们团队的介绍:

We are a group of insignificant researchers (in the shadow of ChatGPT) hoping to do some significant work for the community.

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

最后,我对于一些常见的质疑,做一些基本的回应:

“检测器这种东西没意义,因为我们可以通过润色避免被检测为ChatGPT”

答:可以说我们检测器效果不好,但说检测器没意义,那我可有意见了。法律有漏网之鱼,不法之徒可以钻法律的空子,这说明法律没有意义吗?当人们为了避免被ChatGPT检测器检测出来而对ChatGPT内容进行润色、修改的时候,我们的检测器的作用就已经达到了——让人过了一遍ChatGPT生成的内容,增强了内容的可靠性。我们有一万种方法绕过各种监管,我们能做的,只能是增加“不负责任的成本”。“我模仿了ChatGPT的特点写了段话,被你们检测器判断为了ChatGPT”

答:更准确的来说,检测的预测结果,应该解读为“模型觉得这段话更像是人类/ChatGPT写的”。所以都模仿ChatGPT的特点了,那自然就“像”ChatGPT了,模型本身是没毛病的。

但我们也承认,目前的数据集收集的还不够,检测器效果能准确检测的范围还有待扩大,我们收集数据时,没有考虑使用各种特殊prompt,所以目前研究的都还是常规状态下的ChatGPT,跟人类回答的对比得到的各种测评、语言学分析的结论,也是基于这个假设的。未来如果我们能做下一期的项目,会对这些方面进行改进!

ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

版权声明:lida 发表于 2023年3月25日 pm3:43。
转载请注明:ChatGPT来袭,NLP从业者的焦虑与挑战:模型检测实录与深度反思 | ChatGPT资源导航

相关文章