ChatGPT爆火背后，我们与思考机器的未来会怎样？Transformer革命已来，一窥OpenA

ChatGPT与客服 1年前 (2023) lida

53 0 0

文章主题：

ChatGPT爆火背后，我们与思考机器的未来会怎样？Transformer革命已来，一窥OpenA

编者按

🎉ChatGPT🔥：硅谷新宠，破百万用户狂热热议！🚀自从12月2日在美国硅谷新晋亮相以来，OpenAI的ChatGPT迅速引发了全球关注，用户数量激增至数十万之多。它不仅是文字生成领域的全能型选手，编码修错、文献翻译、小说创作样样在行，还能轻松定制商业文案和菜谱，作业评估更是不在话下。最值得一提的是，其强大的对话记忆能力让互动体验如丝般流畅，仿佛真人相伴！🚀💬这款人工智能的卓越表现，无疑为科技界注入了新的活力，SEO优化的词汇让它更容易被搜索引擎捕捉，引领未来语言交互的新潮流。别忘了，它正以惊人的速度改变着我们的日常生活和工作方式！👩‍💻💼

🎉🚀ChatGPT引发了全球热议，它以其强大的语言生成能力挑战着AI边界。尽管专家指出其数据集可能存在局限性，但这并未阻止我们探索人工智能无限可能的步伐。🤔人类与智能机器的未来互动，将如何演变？这是一个永不停歇的哲学议题。让我们持续关注，见证科技如何重塑我们的思考方式。🌍SEO优化提示：ChatGPT、AI发展、人机关系、未来思考、科技影响

撰文｜孙睿晨

审阅｜张峥

责编｜陈晓雪

电影《沙丘》的宣传海报（图片来源：http://IMBD.com）

🌟《沙丘》：科幻历史上的智者抉择🔍 —— 8169年前的世界启示🔍去年末的电影巨著，《沙丘》以其独特的科幻视角，引领我们穿越至公元10191年的未来世界。在这个遥远时空中，人们的生活仿佛褪去了现代繁华，AI的存在却并未如表面般显眼。👀 然而，真相隐藏在原著的字里行间。原来，这并非一个科技欠发达的时代，而是历史的转折点——一场由人类亲手铸就的战争风云。🤖 战争中的对手，是那些拥有思考能力的机器人，它们的存在威胁着人类的命运。残酷的交锋揭示了人性与技术的复杂纠葛。🏆战争的余烬中，人类拼尽全力，才得以战胜这些思想机器。胜利的代价，是对AI的永久禁锢，塑造了今日沙丘世界的基础。🚫 这个决定，既是智慧的选择，也是对未来的深思。《沙丘》的故事，不仅仅是一场科幻冒险，它更像是一部关于人类自我认知与科技伦理的历史长卷。📚 想要深入理解这个8169年前的世界，不妨一探原著的奥秘吧！📖#沙丘历史# #人工智能# #科幻深度解析

🌟🚀上周五，创新之都硅谷的OpenAI引领科技潮流，发布了备受瞩目的ChatGPT人工智能对话模型。无数如我者，在短短一周内纷纷涌入，一探其非凡魅力。这款聊天机器人的卓越表现，无疑让人联想到《沙丘》中的奇幻世界。💡💥

在这十年的科技浪潮中，AI领域无疑是经历了历史性的发展，犹如生物界的“寒武纪大爆发”，众多前沿概念如雨后春笋般涌现并迅速普及。然而，随之而来的挑战是，这些新术语和它们的缩写往往缺乏统一的中文译名，行业内人士习惯于直接使用英文交流，这无疑为非专业人士理解这片深海带来了困扰。尽管如此，我们仍需透过这些词汇的迷雾，探索人工智能技术的奥秘与无限可能。

🌟了解ChatGPT背后的科技秘密？首先，你需要解锁ChatGPT的前身——$InstructGPT$、$GPT-3$、$GPT-2$和$GPT$这些技术巨头！接着，探索Transformer架构，它是对话机器人领域的革命性力量。别忘了，自然语言处理界的RNN模型也曾是经典，它们为ChatGPT的诞生打下了坚实基础。🚀从Transformer到现在的ChatGPT，每一步都是技术飞跃与创新的缩影。想要深入解析，就跟随这一步步的科技足迹吧！SEO优化提示：ChatGPT、对话机器人、自然语言处理、RNN模型、Transformer架构、技术进化

1. ChatGPT的前世

2017年，谷歌大脑团队（Google Brain）在神经信息处理系统大会（NeurIPS，该会议为机器学习与人工智能领域的顶级学术会议）发表了一篇名为“Attention is all you need”（自我注意力是你所需要的全部）的论文[1]。作者在文中首次提出了基于自我注意力机制（self-attention）的变换器（transformer）模型，并首次将其用于理解人类的语言，即自然语言处理。

在这篇文章面世之前，自然语言处理领域的主流模型是循环神经网络（RNN，recurrent neural network）。循环神经网络模型的优点是，能更好地处理有先后顺序的数据，比如语言，但也因为如此，这种模型在处理较长序列，例如长文章、书籍时，存在模型不稳定或者模型过早停止有效训练的问题（这是由于模型训练时的梯度消失或梯度爆炸现象而导致，在此不具体展开），以及训练模型时间过长（因必须顺序处理数据，无法同时并行训练）的问题。

最初的变换器（Transformer）模型的架构（图源：参考文献[1]）

2017年提出的Transformer模型，则能够同时并行进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有可解释性。

这个最初的Transformer模型，一共有6500万个可调参数。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的Transformer模型。这些数据集包括2014年英语-德语机器翻译研讨班（WMT）数据集（有450万组英德对应句组），2014年英语-法语机器翻译研讨班数据集（3600万英法对应句组），以及宾夕法尼亚大学树库语言数据集中的部分句组（分别取了其中来自《华尔街日报》的4万个句子，以及另外在该库中选取1700万个句子）。而且，谷歌大脑团队在文中提供了模型的架构，任何人都可以用其搭建类似架构的模型来并结合自己手上的数据进行训练。

经过训练后，这个最初的Transformer模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一，成为当时最先进的大型语言模型（Large Language Model, LLM）。

大型语言模型（LLM）主要大事记

Transformer模型自诞生的那一刻起，就深刻地影响了接下来几年人工智能领域的发展轨迹。短短的几年里，该模型的影响已经遍布人工智能的各个领域——从各种各样的自然语言模型、到预测蛋白质结构的AlphaFold2模型，用的都是它。

2. 不断迭代：寻找语言模型的极限

在这么多跟进、研究Transformer模型团队中，OpenAI公司是少数一直在专注寻找它的极限的一支。

2015年12月，OpenAI公司美国旧金山成立。特斯拉的创始人马斯克也是该公司创始人之一，为公司早期提供了资金支持（后来他从该公司退出，但保留了金主身份，并未撤资）。成立早期，OpenAI是一家非营利组织，以研发对人类社会有益、友好的人工智能技术为使命。2019年，OpenAI改变了其性质，宣布成为营利机构，这个改变与Transformer模型不无相关。

2018年，在Transformer模型诞生还不到一年的时候，OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”（用创造型预训练提高模型的语言理解力）（Generative一般译为“生成型”，但我认为译为“创造型”更合适）[2]，推出了具有1.17亿个参数的GPT-1（Generative Pre-training Transformers, 创造型预训练变换器）模型。这是一个用大量数据训练好的基于Transformer结构的模型。他们使用了经典的大型书籍文本数据集（BookCorpus）进行模型预训练。该数据集包含超过7000本从未出版的书，类型涵盖了冒险、奇幻、言情等类别。在预训练之后，作者针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练（又称为微调，fine-tuning）。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景，都取得了比基础Transformer模型更优的结果，成为了新的业内第一。

2019年，该公司公布了一个具有15亿个参数的模型：GPT-2。该模型架构与GPT-1原理相同，主要区别是GPT-2的规模更大（10倍）。同时，他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” （语言模型是无监督的多任务学习者）[3]。在这项工作中，他们使用了自己收集的以网页文字信息为主的新的数据集。不出意料，GPT-2模型刷新了大型语言模型在多项语言场景的评分记录。在文中，他们提供了GPT-2模型回答新问题（模型训练数据中未出现过的问题及其答案）的结果。

GPT-2模型回答新问题的结果（图片来源[3])

2020年，这个创业团队再次战胜自己，发表论文“Language Models are Few-Shot Learner”（语言模型是小样本学习者）[4]，并推出了最新的GPT-3模型——它有1750亿个参数。GPT-3模型架构与GPT-2没有本质区别，除了规模大了整整两个数量级以外。GPT-3的训练集也比前两款GPT模型要大得多：经过基础过滤的全网页爬虫数据集（4290亿个词符）、维基百科文章（30亿词符）、两个不同的书籍数据集（一共670亿词符）。

由于巨大的参数数目以及训练所需数据集规模，训练一个GPT-3模型保守估计需要五百万美元至两千万美元不等——如果用于训练的GPU越多，成本越高，时间越短；反之亦然。可以说，这个数量级的大型语言模型已经不是普通学者、一般个人能负担得起研究项目了。面对如此庞大的GPT-3模型，用户可以仅提供小样本的提示语、或者完全不提供提示而直接询问，就能获得符合要求的高质量答案。小样本提示是指用户在提问时先给模型提供几个例子，然后再提出自己的语言任务（翻译、创作文本、回答问题等）。

GPT-3可以根据用户给的提示语（类似于例子）而更好的回答问题（图片来源：[4]）

GPT-3模型面世时，未提供广泛的用户交互界面，并且要求用户提交申请、申请批准后才能注册，所以直接体验过GPT-3模型的人数并不多。根据体验过的人们在网上分享的体验，我们可以知道GPT-3可以根据简单的提示自动生成完整的、文从字顺的长文章，让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类的任务。早期测试结束后，OpenAI公司对GPT-3模型进行了商业化：付费用户可以通过应用程序接口（API）连上GPT-3，使用该模型完成所需语言任务。2020年9月，微软公司获得了GPT-3模型的独占许可，意味着微软公司可以独家接触到GPT-3的源代码。该独占许可不影响付费用户通过API继续使用GPT-3模型。

2022年3月，OpenAI再次发表论文“Training language models to follow instructions with human feedback”（结合人类反馈信息来训练语言模型使其能理解指令），并推出了他们基于GPT-3模型并进行了进一步的微调的InstructGPT模型。InstructGPT的模型训练中加入了人类的评价和反馈数据，而不仅仅是事先准备好的数据集。

GPT-3公测期间用户提供了大量的对话和提示语数据，而OpenAI公司内部的数据标记团队也生成了不少人工标记数据集。这些标注过的数据（labelled data），可以帮助模型在直接学习数据的同时学习人类对这些数据的标记（例如某些句子、词组是不好的，应尽量少使用）。

OpenAI公司第一步先用这些数据对GPT-3用监督式训练（supervised learning）进行了微调。

第二步，他们收集了微调过的模型生成的答案样本。一般来说，对于每一条提示语，模型可以给出无数个答案，而用户一般只想看到一个答案（这也是符合人类交流的习惯），模型需要对这些答案排序，选出最优。所以，数据标记团队在这一步对所有可能的答案进行人工打分排序，选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈，达到鼓励语言模型给出好的答案、抑制不好的答案的目的，帮助模型自动寻出最优答案。

第三步，该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型，并且进行迭代。最终得到的模型被称为InstructGPT。

3. ChatGPT的诞生

我们今天的主角是ChatGPT及其前身，所以无法避免以OpenAI公司为主线来讲述。从GPT-1到InstructGPT，如果我们只关注OpenAI公司，难免会忽视掉其他人工智能公司和团队其实在同期也在进行与OpenAI公司同样的尝试。在GPT-3推出后的两年内，有不少类似的大型语言模型涌现，但不得不说的是，名气最大的模型还是GPT-3。

GPT-3的部分竞品（图片来源：http://gpt3demo.com）

时间线回到今天。在今年神经信息处理系统大会会议期间，OpenAI公司在社交网络上向世界宣布他们最新的大型语言预训练模型：ChatGPT。

与InstructGPT模型类似，ChatGPT是OpenAI对GPT-3模型（又称为GPT-3.5）微调后开发出来的对话机器人。OpenAI官网信息显示，ChatGPT模型与InstructGPT模型是姐妹模型。由于最大的InstructGPT模型的参数数目为1750亿（与GPT-3模型相同），所以有理由相信ChatGPT参数量也是在这个数量级。但是，根据文献，在对话任务上表现最优的InstructGPT模型的参数数目为15亿，所以ChatGPT的参数量也有可能相当[5]。

自美国时间12月2日上线以来，ChatGPT已经拥有超过一百万的用户。用户们在社交媒体上晒出来的对话例子表明ChatGPT这款模型与GPT-3类似，能完成包括写代码，修bug（代码改错），翻译文献，写小说，写商业文案，创作菜谱，做作业，评价作业等一系列常见文字输出型任务。ChatGPT比GPT-3的更优秀的一点在于，前者在回答时更像是在与你对话，而后者更善于产出长文章，欠缺口语化的表达。有人利用ChatGPT与客服对话，要回了多交了的款项（这或许意味着ChatGPT在某种意义上通过了图灵测试），或许ChatGPT能成为社恐人士的好伙伴。

4. 问题警告

OpenAI的研发团队在推出ChatGPT时，警告用户该款模型存在一些问题，而经过全球网民们的反复试探，大家也已证实了这些问题的存在。

首先，ChatGPT背后的大型语言模型的训练集最近数据截止于2021年底，所以任何关于过去一年里发生的事件，它无法给出准确的答案。其次，当用户想利用ChatGPT获取准确信息（例如写代码，查菜谱）时，ChatGPT回答的准确度是不稳定的，用户需要具有鉴别回答质量与准确性的能力。由于准确性问题，代码交流网站StackOverflow已经禁止用户在其网站上引用ChatGPT生成的代码。

对此，亚马逊AWS上海人工智能研究院院长张峥老师评价道：ChatGPT模型的训练方法有个致命的问题，训练好的模型在回答问题时，对于各种可能的答案的打分机制用的是排序，也就是说第二步是粗打分。这就造成了模型瞎想的错误被混入（例如（排名更靠前的）A句比（排名靠后的）B句好不等于A句里没有犯常识或事实错误）。问答不仅因为场景是开放性的，更重要的是每一步无理还是有理可以是灰色的，需要细分。这问题并不是无解了，这里还有很多基础性的工作要做。

最后，提问者对于问题的描述也会影响ChatGPT回答的准确性。这个问题可能会产生意想不到的影响。今年早些时候，OpenAI推出了最新的人工智能绘画系统DALL·E 2（同期还有不少类似的产品，例如Midjourney等）。用户只需要提供语言描述，DALL·E 2 就能够根据该描述生成一幅画。不夸张地说，这些图画的质量、风格、均可与专业画家创作的作品媲美。

DALL·E 2 生成的一副现代画（图片来源：http://openai.com)

于是，在美术界为此感到震惊的同时，提示语生意（prompt engineering）悄然升起：好的提示语能引导人工智能模型生成更符合要求、更赏心悦目的作品；而不够好的提示语，则往往导致不伦不类的学生习作级别（甚至更糟糕）的作品。所以，如何写好提示语、与人工智能模型高质量的进行对话，成了新的创业热点。美国旧金山的初创公司PromptBase推出了$1.99美元一条提示语的服务，主要用于针对DALL·E 2，GPT-3等内容创作模型。或许他们很快也会把ChatGPT也加到自己的业务范畴里。

根据之前提到的小样本学习和引入人类反馈的原理，我们已经知道，如果我们先给ChatGPT模型提供几个例子，然后再提出语言任务，或者通过不断给出反馈而引导ChatGPT，ChatGPT的回答会更符合我们的要求。所以，写一个好的提示语，能让ChatGPT给你更多的惊喜。

5. 人工智能进化，终点在哪里？

从2017年的Transformer到今天的ChatGPT，大型语言模型经历了如此多的迭代，一代比一代性能更强。未来，OpenAI会继续给我们带来GPT-4、GPT-5，甚至GPT-100。而我们此时与ChatGPT火热的、奇葩的、脑洞大开的聊天记录，也会全部变成下一代模型的训练数据。

2016年，OpenAI公司创立时初衷是要开发对人类有益的人工智能技术。在过去的六年里，没有任何线索显示他们违背了初衷——相反，ChatGPT及其背后的大型语言模型看起来就是一项面向未来的先进生产力。我们有理由相信，以大型语言模型为例子的人工智能技术能帮助我们更好的完成学习与工作，过上更美好的生活；我们也有理由相信，我们应该继续支持、开发、推广人工智能，使其能惠及大众。但是，我们已经无法忽视人工智能技术进化、迭代的速度远高于人类、生物体的进化速度。

OpenAI联合创始人马斯克在意识到人工智能的巨大潜能时，曾经就OpenAI的创始初衷谈到：“我们要怎样做才能保证人工智能带给我们的未来是友好的？在尝试开发友好的人工智能技术的过程中会一直存在一种风险，那就是我们可能会创造出让我们担忧的事物来。不过，最好的壁垒可能是让更多的人尽可能多的接触并且拥有人工智能技术。如果每个人都能利用人工智能技术，那么由于不会存在某一小部分人由于独自拥有过于强大的人工智能技术而导致危险后果的可能性。”