ChatGPT凭什么火？揭秘其亿级参数背后的文本生成秘密与创新训练方式

学会提问 2年前 (2023) lida

76 0 0

文章主题：关键词: ChatGPT, NLP, 参数规模, 技术创新

解密 | ChatGPT为何能“打败”众多大模型，除了千亿级参数，还有什么？

每经记者：文巧每经编辑：高涵

🔥ChatGPT热度飙升，互联网刮起技术风暴！🔍尽管谷歌Bard和微软必应近期遭遇挑战，ChatGPT的关注度已悄然转向务实，从最初的惊叹转变为冷静分析。💰然而，无论是国内还是国际，对这一人工智能奇迹的投资热情依旧高涨，其影响力不容小觑。🔥欲知未来教育何变？ChatGPT开启新纪元！🎓技术的迭代不仅改变了交流方式，更引领了知识结构的革新。它以创新的姿态闯入，重塑行业格局，成为全球关注焦点。💡尽管质疑与机遇并存，ChatGPT的崛起无疑为科技领域带来了深远变革。👩‍💻让我们期待，这个AI巨浪将如何继续塑造我们的世界。🌊

🌟ChatGPT虽火，但NLP界BERT才是元老🌟毋庸置疑，ChatGPT以其卓越性能在全球范围内引发了广泛关注，然而，在人工智能的瑰宝——自然语言处理（NLP）世界里，BERT的存在远早于它的横空出世。2018年，BERT悄然诞生，凭借其在语义理解上的超凡能力，迅速成为行业内的领军人物，引领了NLP技术的革新潮流。尽管ChatGPT崭露头角，但BERT的地位不可动摇，它才是那个奠定现代NLP基础的基石。

🌟ChatGPT为何一炮而红？🔥它的超能力何在？🏆如何在众多巨量语言模型中独占鳌头？💡揭秘ChatGPT的崛起之路，看看它是如何凭借创新和实力吸引全球目光的。🔍技术驱动，强大的自然语言处理让其超越界限，成为人工智能领域的耀眼新星。🌍无论教育、娱乐还是商业，它的广泛应用正在重塑我们的交流方式。🔥别等了，一起来探索这个语言革命的引领者吧！🌐

关于上述问题，《每日经济新闻》记者采访了马萨诸塞大学（又称麻省大学）洛厄尔分校计算机科学教授Jie Wang。他认为，ChatGPT最主要的突破在于其背后架构GPT-3.5中使用的few-shots（小样本）和用户反馈的技术。而且，ChatGPT拥有其他语言模型所不具备的千亿级别参数规模，也允许它能够捕获更复杂的语言模式和关系。

人类已经经历了数次超级工具的诞生，例如，互联网和智能手机，其引发的科技革命极大地改变了人们的思维和生活方式。在Jie Wang看来，如果用ChatGPT来代表基于大型通用语言模型的应用，那么ChatGPT有潜力成为下一个改变世界的超级工具。

技术原理：一场“概率游戏”

🌟ChatGPT的爆火并非偶然，它以卓越的文本生成能力震惊世界！🔥为何这款AI能创作出如此贴近人类思维的高质量内容？秘密在于其深度学习算法和海量数据支持。📚通过复杂的语言模型，它能理解上下文，逻辑连贯，信息丰富。💬每一条生成的文字都仿佛出自智者之口，让人赞叹不已。🌍无论是学术论文、创意文案还是日常对话，ChatGPT都能游刃有余，展现其无与伦比的文本魅力。🔥SEO优化提示：使用”AI生成文本技术”、”语言模型解析”和”数据驱动创新”等关键词，提升搜索引擎可见度。

🎓 자연語言處理（*NLP*）乃AI世界之璀璨明珠，它以理解和生成人類語言為核心，引领著科技前行的步伐。ChatGPT正是這領域的旗艦，透過先進技術，讓機器與我們的日常对话无缝衔接。👩‍💻

人类语言非常丰富和微妙，可以根据上下文、语气和其他因素以多种不同的方式表达，如何处理人类语言的复杂性和可变性也成为NLP领域的主要任务之一。NLP技术是ChatGPT能够出色地生成类似于人类撰写的文本的基础。

🏆🚀掌握未来文本革命！🔍顶尖NLP大师揭示秘密🔥——以超大规模多层编码器-解码器为核心，革新性的技术引领潮流！📊数亿参数的大规模训练，让数据的力量无远弗届，在无监督的数据海洋中自由翱翔。🌍无论语义转换、问答系统还是机器翻译，这先进的力量都能轻松驾驭，重塑文本世界！👩‍💻想深入了解？Jie Wang教授的深度解析，带你领略NLP的无限可能！🌐欲了解更多详情，请访问我们的官方网站，专业且全面的内容等你来探索！✨别错过这个引领技术革新的机会，一起开启智能新时代！🏆

在对NLP的主要任务有一个基本的理解之后，我们再来谈谈ChatGPT的技术原理。众所周知的是，ChatGPT是一种聊天机器人产品，它基于OpenAI的大型语言模型架构GPT-3.5。

2月15日，计算机科学家Stephen Wolfram在推特发表了一篇万字长文来解释ChatGPT的工作原理。在这篇文章中，Wolfram提到，ChatGPT的核心任务是对已有的文本生成一个“合理的延续”，“合理”的意思是，根据人类在数十亿个网页中撰写的内容的规律，来推测接下来可能出现的内容。

Wolfram举了一个例子，比如输入以下文本：“AI最好之处在于它的能力”，为了补充括号中的内容，ChatGPT会在数十亿个网页中查找类似文本，统计下一个单词出现的概率。最终，ChatGPT会生成一个可能的单词列表，并给出每个单词的概率排名。这就是它的“概率游戏”。

ChatGPT凭什么火？揭秘其亿级参数背后的文本生成秘密与创新训练方式

图片来源：文章截图

脱颖而出的背后：创新训练方式、千亿参数规模

实际上，ChatGPT并非第一个基于大型语言模型的产物。早在2018年，NLP领域演变出来的另一个基于大型语言模型的产物——BERT已经出世，并一度被认为在自然语言理解类任务中发挥得非常出色。那么，为什么相比之下，只有ChatGPT能够引起如此大的轰动呢？

首先在于GPT-3.5训练方式上的创新。

GPT-3.5的前身是GPT-3。据Jie Wang介绍，“GPT-3之前的大型语言模型，通常是通过在非常大的数据集上使用自我监督学习的方式，来计算多个任务的单词和句子之间的上下文关系，从而达到训练深度神经网络的目的。不过，这样一个经过训练的模型仍然需要进行微调（fine-tuning）来执行特定任务。”

值得注意的是，BERT所使用的方式就是微调。这种方式的局限性就在于，“微调既费时又费钱，”Jie Wang说道，“通常需要特定的标记数据集。”

当GPT-3出现后，问题得到了解决，这也是ChatGPT最具突破性的创举的基础。“GPT-3仅使用几个特定的任务示例来简化微调的过程，这些任务示例被称作‘few shots’（小样本），”Jie Wang解释道，“它产生的结果与最先进的微调过程获得的结果相同或相似，这项技术大大提高了生产率。GPT-3.5则进一步使用用户反馈来提高few shots生成结果的准确性。”

也就是说，“（ChatGPT）主要的突破是GPT-3.5中使用的‘few-shots’结合用户反馈的技术，”Jie Wang向《每日经济新闻》记者总结道。

（编者注：few shots learning即小样本学习，在机器学习领域中泛指从少量标注数据中学习的方法和场景。）

那么，如何来理解few shots呢？这里我们需要理解另一个概念——提示（prompting）。“提示是ChatGPT接受用户反馈的形式，”Jie Wang说道。

prompting实际上就是给模型一点小提示。举一个非常简单的例子，当每经记者使用ChatGPT辅助新闻写作时，需要ChatGPT对一段较长的新闻进行归纳总结或生成一个标题。这时，可以给ChatGPT一点小提示——例如，Mary是“《纽约时报》”一位“非常资深”的编辑，她需要几个“吸睛的”标题。

通过引号中三个关键词的提示，相比于简单地要求“生成一个标题”，这些小提示会让ChatGPT生成的内容得到明显提升。

其次，ChatGPT的强大还在于其超大的参数规模。ChatGPT基于8000亿个单词的语料库（或45TB的文本数据），包含了1750亿个参数。8000亿是ChatGPT的训练数据，1750亿是它从这些训练数据中所学习、沉淀下来的内容。

“之前最大的模型也只是百亿参数，不是千亿级别的，”Jie Wang说道。公开资料显示，这种更大的参数规模允许ChatGPT能够捕获更复杂的语言模式和关系，从而提高复杂自然语言处理任务的准确性。

据美国《时代周刊》上月中旬的报道，为了训练ChatGPT，OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工，他们所负责的工作就是对庞大的数据库手动进行数据标注。报道中提到，OpenAI在2021年底与位于旧金山的外包公司Sama签署了三份总价值约20万美元的合同，为其数据库中的有害内容进行标记。

ChatGPT凭什么火？揭秘其亿级参数背后的文本生成秘密与创新训练方式

图片来源：每日经济新闻刘雪梅摄（资料图）

商业落地：离通用AI还有多远？

ChatGPT已经展现了在NLP领域的强大能力，那么，它是否可以从NLP领域走向其他AI领域呢？

Jie Wang认为答案是肯定的。“在T5、GPT-3和GPT-3.5中发展起来的主要技术，即自我监督学习、few-shot微调，以及结合用户反馈的方式，当然可以在其他AI领域进一步修改和应用，”他向《每日经济新闻》记者说道。

看看BERT就知道了，虽然“出身”于NLP领域，但已经广泛应用于其他AI领域。据Jie Wang介绍，BERT这类语言模型，基于递归神经网络（RNN）、双向长短期记忆（Bi-LSTM）等来计算捕获潜在语义和句法信息的单词和句子，这些神经网络构建技术已广泛应用于图像处理等其他领域。

科技研究和咨询公司Gartner在近期发布的一篇报告中提及了ChatGPT的集中应用方向，一是开放API访问权限。据悉，微软就计划为即将推出的Azure OpenAI ChatGPT提供API；二是在销售、营销、个性化教育以及个性化医疗保健领域得以应用。

不过，目前来看，ChatGPT广泛的商业落地仍然还有一些难题。“我能看到的其中一个障碍是，ChatGPT提供的结果是不可信任的，”Jie Wang说道。

OpenAI的首席执行官Sam Altman此前也曾在推特上表示，ChatGPT还有很大的局限性，它在某些方面非常出色以至于给人一种误导的印象。“现在依赖它来做任何事情都是错误的，我们在稳健性和准确性上还有很多工作要做，”他这样写道。

在许多人的幻想中，未来的某一天，会出现具备与人类同等智慧、或超越人类的AI，能表现正常人类所具有的所有智能行为，它能思考、能判断，有思想、有伦理——这就是通用AI。ChatGPT能够引起如此轰动的原因也在于，有人认为，它的出现似乎让世界看到了通用AI的曙光。

人类已经经历了数次超级工具的诞生，互联网和智能手机的出现引发了科技革命，并且极大地改变了人们的思维和生活方式。在Jie Wang看来，如果用ChatGPT来代表基于大型通用语言模型的应用，那么ChatGPT有潜力成为下一个改变世界的超级工具。“我认为它有可能改变人们开展业务的方式，”他说道。

不过，现实情况是，ChatGPT离通用AI的终点，仍然还有一段很长的路要走。

每日经济新闻返回搜狐，查看更多

责任编辑：