「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

学会提问 2年前 (2023) lida

82 0 0

文章主题：关键词：自然语言处理, NLP, 发展历史, 三个阶段

（报告出品方/作者：方正证券，方闻千）

1 自然语言处理的发展历史回顾

자연어 처리 (Natural Language Processing, NLP)，人工智能的核心领域之一，旨在让计算机理解、诠释并运用人类语言的艺术。回顾NLP的发展历程，犹如一部演变史：首先，上世纪80年代前，基于规则的语言系统引领潮流；随后，在80年代的浪潮中，机器学习与神经网络的崛起推动了NLP的革新和商业化起飞；直至2017年至今，Transformer模型凭借Attention机制的创新，开启了大语言模型的新纪元。每一阶段都标志着技术的进步与应用的拓展，而这些里程碑式的进展无疑为搜索引擎优化提供了丰富的关键词和语义基础。

🌟【人工智能起源】上世纪50年代，AI元年开启！1956年达特茅斯会议首次定义了”人工智能”。80年代，语言之路分两派：符号派倚重规则，随机派依赖概率统计。那时，基于规则的系统更胜一筹，多数NLP系统采用复杂逻辑，处理字符匹配等基础任务。里程碑如MIT1966年的Eliza，虽简单却能模仿基本语法规则交流。然而，当时的AI技术尚处初级阶段，商业化应用受限：昂贵的机器翻译与人对话的粗糙，离理想仍有距离。🚀

🏆 第二阶段：从ML到NN的飞跃 🤖1980年代，美国卡内基梅隆大学的首个国际机器学习研讨会点燃了全球的学习热情，开启了NLP领域的统计新时代。那时起，自然语言处理逐步摆脱传统束缚，步入纯数学的殿堂。到了90年代，神经网络技术革新，RNN和CNN两大明星模型引领潮流，特别是RNN因其独特的序列处理能力，成为NLP领域的主力工具。🚀21世纪初，科技进步如雨后春笋：Multi-task learning、Word Embedding和Seq2seq等创新技术加速了NLP的迭代，让语言处理更智能。同时，商业化进程加速，从机器翻译到文本处理，一系列商业应用应运而生，NLP真正实现了从理论到实践的飞跃。📈记得关注这个领域的发展动态哦！🚀

🏆Transformer的兴起：Attention革命引领NLP新纪元🌟在深度学习的大语境中，2017年Google的里程碑式论文《Attention is All You Need》犹如一盏明灯，照亮了自然语言处理（NLP）领域的革新之路。这款基于Attention机制构建的Transformer模型，不仅提高了语言模型的运行效能（🚀），更实现了对长距离依赖信息的精准捕捉（🔍），彻底颠覆了传统神经网络的运作模式。同年，OpenAI的GPT与Google的BERT相继问世，它们的成功实践进一步巩固了注意力模型在NLP领域的主导地位。自此，NLP进入了大语言模型的新时代（🌈），开启了深度理解和生成语言的新篇章。Attention机制的影响力深远，它不仅改变了我们对复杂语言处理的理解，也优化了搜索引擎的关键字捕捉和排名算法，使得信息检索更加精准高效（🔍SEO优化）。作为文章写作高手，让我们一起见证并引领这一技术革命的未来。

2 Attention 注意力机制的基本原理

🌟注意力机制，Transformer模型的核心力量🌟最早由[Bengio团队](https://www.bengioy.com/)在2014年创新提出，随后席卷深度学习各领域。💡它的原理源于人类视觉，快速扫视全局，聚焦关键区域，这正是Attention机制的初衷。最初应用于计算机视觉，捕捉图像中的关键视野，然后在[NLP](https://nlp.stanford.edu/)领域能力超群，BERT和GPT等里程碑式模型均以此为基础构建。2017年，Google的机器翻译团队推出了革命性的[Transformer模型](https://arxiv.org/abs/1706.03762)，彻底告别了CNN和RNN的传统架构，整个网络完全依赖于Attention机制。同年，BERT的诞生进一步巩固了这一地位，而OpenAI的GPT则展示了Attention在生成式任务中的强大潜力。自此，注意力成为了大语言模型构建的基石，引领着自然语言处理技术的飞速发展。

🌟注意力革命：重塑NLP领域的力量💡在NLP领域探索的历程中，RNN（循环神经网络）曾是主导者，凭借其强大的序列处理能力，让无数任务熠熠生辉。它巧妙地将每个词或音频帧编织成时间序列，应用于诸如自然语言理解和语音识别等场景。然而，随着技术的进步，Attention机制的崛起揭示了新的可能性。相较于RNN的线性递归，注意力机制通过动态加权，聚焦于输入序列中的关键部分，这就像在信息海洋中精准导航，显著提升了模型的效率和准确性。特别是在机器翻译任务中，它能更精确地捕捉源语言与目标语言之间的语义关系，使得翻译质量飞跃。CNN（卷积神经网络）虽也在序列处理上有所贡献，但注意力机制的并行性和灵活性使其在面对复杂序列结构时更具优势。Attention的引入，就像给NLP系统穿上了一双“透视眼”，让模型能够更深入地理解输入数据的深层结构。尽管RNN曾引领潮流，但Attention的出现标志着技术迭代的进步，它以独特的优势推动了诸如语音识别、翻译等领域的商业化产品升级。SEO优化的关键词：注意力机制、序列处理、RNN对比、机器翻译、深度学习。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

首先，RNN 在 NLP 领域得到广泛应用的同时，其算法机制一直存在着两个缺点，第一个缺点就是语言的长距离信息会被弱化。比如在这样的长句子中：“原来是你把我的苹果拿走了，下次记得提前跟我说一声，我还得用它来发邮件呢”，我们要确定“苹果”指代的是苹果电脑/手机还是水果，就需要进行通过长距离的信息学习。由于在 RNN 模型中，对序列中的元素是按顺序处理的，比如在第一个 RNN 层中的第二个节点 h2，它的计算是由第一个节点 h1，即词向量 1 输入模型后得出的结算结果，以及词向量 2 的输入，二者共同决定的。在 RNN 模型中，两个词之间的交互距离可以认为是他们之间的相对距离，因此第 1 个词和第 n 个词之间的交互距离是 n-1，因此如果一个序列足够长，RNN 模型中的节点经过许多阶段的计算后，之前比较长的时间片的特征已经被覆盖，很难将将信息从较早的时间步传送到后面的时间步，距离越远的信息越容易被忽略掉。虽然在实际情况下，大多数词的词义在一个较小范围的上下文语义环境中就可以确定，对于一个更好的语言模型而言，我们的期望是模型能够更好的获取长距离的信息。

RNN的第二个缺点就是RNN是串行处理机制所带来的计算效率低的问题。从 RNN 实现的原理来讲，是因为每个时间步（time step）的计算，都依赖于对前一时间步的计算和输出结果，难以进行并行化运算进行加速。并且在长句中的每个时间步都包括一个 memory I/O 操作，这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带宽的约束。特别是在处理长句的训练样本时，RNN 存在的模型运行速度慢的问题会体现的更加明显，因此导致了语言模型中能够堆叠 RNN 的数量受到了明显的限制。

为了应对 RNN 模型存在的缺陷，一般会使用双向的 RNN 及 LSTM 长时间的短期记忆网络（Long Short-Term Memory Networks），比传统 RNN 在长距离信息识别方面有更好的表现。双向 RNN 结构作为 RNN 的变体，在使用一个 RNN 对序列中的元素从左往右进行处理的同时，另一个 RNN 对序列从右向左进行处理，因此能够在一定程度上优化对长距离信息的处理，可以考虑整个句子的信息，然而双向 RNN 的缺点在于需要完整数据的序列，比如语音识别系统中，必须等待一个人说完整句话，才能做出识别，这样就有一个比较长的等待时间。而 LSTM 作为一种带有门控（Gate）机制的 RNN 模型，是一种让信息选择式通过的方法，门控可以只保留有效信息来进行预测，并忘记不相关的数据。因此能够记住重要的信息，而忽略无关紧要的信息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘，但是门控参数量一定的情况下，这种能力是一定的。随着句子的增长，相对距离的增大，存在明显的理论上限。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

相较于 RNN 在 NLP 领域的广泛应用，CNN 此前较多应用于计算机视觉领域，同样，CNN 也存在长距离信息丢失的问题。从 CNN 的运算机制来看，每一层的 CNN 每个节点覆盖的语义环境范围是一定的，这是由 CNN 存在的感受视野（Receptive Field）所决定的，比如第一层 CNN 中第二个节点 h2 的计算只利用了词 1、词 2、词 3 的信息。而第二个 CNN 层覆盖的语义环境范围会变大，且越往上层覆盖的语义环境会变得越大。因此，在语言序列中，一个词首先会与自身距离较近的词发生交互，比如在第一层的第二个节点 h2 中，词 1、词 2、词 3 发生了交互，而距离较远的词，如词 1 和词 n，则需要在高层上才能发生交互。因此词与词之间的信息的获取与相互关键，取决于它们之间的相对距离，距离越远，信息获取的难度也就越大，因此同样，CNN 也存在语言序列的长距离信息依赖的问题。

相较于 RNN 和 CNN，Attention 注意力机制的原理就是在每一层的计算中都考虑了词与词之间的全连接关系，在模型的并行化运算的同时，能够很好的解决长距离信息依赖的问题。从 Attention 的计算过程来看，一个语言序列中的每一个词和 Attention 中每一个节点都是全连接的关系，比如第一层中第一个节点 h1 的计算会考虑全部输入词 1 到词 n 的信息，而第一个 Attention 层和第二个 Attention 层之间的全部节点也都是全连接的关系，因此任意两个词之间的交互，与词与词之间的远近距离都不存在关系。句子中每个词义的确定，都考虑了与整个句子中所有的词的关系（计算量更大），因此这样能够更好的捕捉到长距离的信息，就算文本或者语句比较长，也能够抓住重点，不丢失掉重要的信息。同时，Attention 模型是并行计算的，每一步计算不依赖于上一步的计算结果，可以并行处理语言序列数据，大幅提升了语言模型运行的效率，在运算机制上更加契合现代 GPU 的硬件架构。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

从 Attention 和 CNN 的关系来看，CNN 可以看作是有注意力范围的 Attention，而 Attention 则是实现了全连接的 CNN。二者之间的区别就是 CNN 存在的感受野（Receptive Field），有局部的归纳偏置，而 Attention 是全连接的，能够捕捉全局信息的。因此从训练难度的角度来说，Attention 的难度更大，因为 Attention 没有做任何的局部归纳，因而也需要更多的数据。而早期 CNN 之所以更多的应用在视觉领域，是因为图片天然具有局部特征，因此 CNN 能做到在不需要非常多数据的情况下有比较好的效果。但是在 NLP 领域，Attention 通常在数据量足够的时候，表现比 CNN 更优秀。

Attention 的数学原理来看，就是用数字来表达词与词之间的相关程度，当数字越大时，这两个词之间相关程度越高。比如在“原来是你把我的苹果拿走了，下次记得提前跟我说一声，我还得用它来发邮件呢。”这句话中，语言模型要去理解 “苹果”指的是苹果电脑/手机还是水果，就需要计算苹果与这个句子中其他所有词包括之间的相关系数，用相关系数，或者说注意力分数来表达他们之间的相互联系，得出的分数越高，那么这两个词之间的相关程度就越高。比如在这个句子中，通过计算，能够发现“苹果”与“邮件”的分数较高，最终可以得出“苹果”指代的就是苹果电脑/手机，以此来实现了注意力机制。

在 Attention 注意力机制中又包含了自注意力机制 Self-Attention、交叉注意力机制 Cross-Attention 等，而自注意力机制 Self-Attention 就是 Transformer 等大语言模型的核心组成部分。自注意力机制指的不是输入语句和输出语句之间的 Attention 机制（不同输入），而是在输入语句的内部元素之间发生（同一输入），即在同一个句子内部实现注意力机制。Self-Attention 的详细计算具体可分为以下三步：

第一阶段，信息的预处理：词的向量化，句子的矩阵变换。在运行 Attention 机制之前，需要对输入模型的语句文本进行预处理，首先需要讲文本语句进行分词操作（Tokenization），即将语言序列切分成一个个字符串。对英文来说，分词操作为输出一个一个的单词，对中文来说分词操作为输出一个一个的字。然后，我们需要将字或词向量化（Word Embeddings）（比如在我们输入的句子中每一个词都转化为一个向量，而这个句子则是一个矩阵，而 Attention 机制本质上就是对这个输入语句的矩阵进行了多次的矩阵变换）。在分词和向量化后，得到了向量序列（a1，a2，a3，a4），接下来需要对输入向量做矩阵变换，即用三个权重矩阵 Wq ，Wk ，Wv（这三个权重矩阵实际上就是我们所需要训练的内容，因为其他输入都是既定的）与（a1，a2， a3，a4）分别相乘，得到三个向量序列 Q（q1，q2，q3，q4），K（k1， k2，k3，k4），V（v1，v2，v3，v4）。由于在 self-Attention 中，Q、K、V 都是由同一个矩阵变换而来，因此 Q、K、V 是同源的，而 Q、 K、V 之间的相互计算 Self-Attention（Q、K、V），则称之为自注意力。

第二阶段，相关程度计算：计算出词与词之间的相关程度。在预处理之后，接下来需要通过 Q 和 K 来计算 Attention 相关度。比如计算第一个词与句子中的所有词（包括自己）的相关度，即用向量 q1 与向量 k1，k2，k3，k4 分别两两求点积（由两个向量的点积可以得到两个向量的相似度）。因此在每次输入了两个向量后，输出一个数，比如用 q1 和 k1 可以得出α1,1，而α1,1，α1,2，α1,3，α1,4 则代表了第一个词与句子中所有词（包括自己）的相关程度，如果第一个词和第三个词关联性较高，那么α1,3 的数值就会比较大。在计算完成之后，再使用 Softmax 函数归一化处理就得到了α1,1，α1,2，α1,3， α1,4，使得每一个数的范围都在(0,1)之间，且所有数之和为 1。最后得到的α1,1，α1,2，α1,3，α1,4 就代表了第一个词与其他词的相关系数。

第三结算：输出最终结果：用相关系数来加权求和。在经过 softmax 的归一化处理得到了一组注意力系数α1,1，α1,2，α1,3，α1,4 之后，最后再依次乘以预处理的第三个向量序列 V（v1，v2，v3，v4），并求和，即α1,1*v1+α1,2*v2+α1,3*v3+α1,4*v4，得到输出结果 b1，如果 a1 和 a3 关联性比较高，则α1,3 的数值就会就比较大，而输出的向量 b1 就与向量 v3 更加接近，同理可以并行计算出 b2、b3、b4。因此，回顾整个 Self-Attention 的计算过程，输入的是向量（a1，a2， a3，a4），输出的向量（b1，b2、b3、b4）就是 attention 的最终输出结果。

3 Transformer 构建大模型的基石

Transformer 作为大语言模型的基础模型，分为编码器和解码器两大模块，实际模拟的是人类大脑从理解语言到表达语言的过程。从 Transformer 的结构来看， Transformer 由 Encoder 编码器和 Decoder 解码器两个部分组成，具体而言是由 6 个编码器和 6 个解码器堆叠而成。而编码器-解码器结构作为语言模型的经典结构，它模拟的是大脑理解自然语言的过程，其中编码就是将语言转化成一种大脑所能理解和记忆的内容，而解码就是将大脑中所想的内容表达出来。比如在计算机训练语言模型的过程中，最初是不知道“你好”和“Hello”背后的意思的，也不知道他们所表达的含义是相关的，而模型学习的过程，就是将这两种不同的表达映射到同一个意识概念上。因此在以 Transformer 为代表的语言模型中，编码器的功能就是把自然语言序列映射为某种数学表达，而解码器则是再把这个数学表达映射为自然语言序列的过程。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

整个 Transformer 网络没有使用传统的 CNN 和 RNN 结构，而完全是由 Attention 机制组成，其中 Self-Attention 则是 Transformer 最核心的组成部分。首先看编码器 Encoder 的结构：编码器 Encoder 由两个子层组成，第一个子层为 Muti-head Attention（多头注意力机制） +Add&Norm 层，其中多 Muti-head Attention 是将多个 Self-Attention 拼接在一起，本质上仍是 Self-Attention；第二个子层为 Feed Forward Neural Network（前馈神经网络）+Add&Norm 层，这一层中通过引入了非线性函数（具体为 ReLU 激活函数，此前的自注意力层都是线性变换），能够使得神经网络中的神经元也具有了稀疏激活性，即能够帮助模型更好的挖掘相关特征，拟合训练数据。同时在两个子层中，均加入了 Add&Norm 层，Add&Norm 包含 Residual connection（残差连接）和 Normalization（标准化）两个部分，这也是此前语言模型中被验证过的有效的方法，即通过 Residual connection 用于防止网络特征退化，而 Normalization 的使用可以加快模型的收敛速度。总的来说， Transformer 中编码器 Encoder 的多层结构即为 self-attention 层与 Feed Forward 层的堆叠使用，其中 self-attention 层是 Transformer 最核心的部分。

Transformer 的解码器 Decoder 与编码器 Encoder 在结构上有许多共同之处，二者的最大不同，就是解码器使用了带有遮盖的自注意力机制（Masked Self-attention）。解码器与编码器同样也是多层结构，即 self-attention 层与 Feed Forward 层的堆叠使用，而二者的侧重点有所不同的是，Decoder 是用来预测信息的，因此在训练预测能力的时候，模型需要将未来的信息遮盖住（只看上文），而不能提前看到训练的答案（不看下文），因此解码器采用了 Masked Self-attention。 Masked Self-attention 与 Self-attention 在算法原理上的主要不同，即Masked Self-attention 每一步的计算都只能依赖当前时刻以前的输出，而看不到当前时点之后的输出。比如在 Self-attention 中，输出的结果 b2 读取了所有的输入 a1，a2，a3，a4…，而 Mask Self-attention 中， b2 只能读取 a1，a2，而读取不了 a3，a4…的信息。总的来看，解码器 Decoder 的运算过程中需要进行多次 mask 操作。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

在基于 Transformer 所构建的大语言模型中，最著名的两个模型是 OpenAI的 GPT和 Google的 BERT，虽然二者都是基于 Transformer，但 GPT 模型仅使用了解码器的部分，而 BERT 仅使用了编码器的部分，二者在技术路线上也走向了两条不同的道路。具体来说，BERT 仅运用了 Transformer 的 Encoder 框架，而 Encoder 中采用了 Self-attention 机制，即训练时每一个词需要对整个输入序列的上下文进行相关性分析，从模式上来看更接近于一个完形填空模型；而 GPT 运用了 Transformer 的 Decoder 框架，Decoder 中的 Self-attention 机制是 Mask Self-attention，在训练时会对下文进行了遮盖（mask）处理，仅基于上文，来生成下文，因此 GPT 更接近人类的语言生成模式，更适合来构建语言生成模型。

从 GPT 的语言生成模式来看，并不是一次性将整个序列全部生成，而是每个字每个词逐一生成，即在生成每一个词的时候，必须先生成它的前一个词。而每一个字的生成，会用到这个字之前的全部上文，即全部输入+这个字之前的全部输出，比如向 GPT 提问：“地球有多大？”，GPT 的完整回答为：“地球是太阳系内第三颗最靠近太阳的行星，其直径约为…”，而在生成“系”这个字时，所用到的信息为：输入“地球有多大？”+“系”这个字之前所已生成的输出“地球是太阳…”。在生成“系”之后，再依照同样的原理，也“系” 也作为上文，再生成下一个字。因此 GPT 实际上是一种自回归生成的语言模型，而在 GPT 和 BERT 的背后则是 Transformer 的编码器与解码器在算法思想上的差异，因此 GPT 作为基于解码器所构建的语言模型，在其后的语言生成方面也展现出了更大的潜力。

总体来看，2017 年发布的 Transformer 无论是在机器翻译、文本生成、问答系统等任务处理，还是在模型训练速度上，其性能均超过了之前的模型，而这还仅仅只是 Transformer 的初始形态。从多项测试的结果来看：1）机器翻译任务中，Transformer 在 WMT 2014 英德翻译任务上，相对于之前的 SOTA 模型，实现了近 2 个 BLEU 值的提升，达到了 28.4 BLEU 分数；2）文本生成任务中，Transformer 在 WikiText-103 数据集上的困惑度仅为 18.3，相对于之前最好的困惑度 20.5，实现了很大的提升；3）问答任务中，Transformer 在 SQuAD 数据集上的 F1 分数为 87.4，优于之前最好的模型。同时，Transformer 的运行速度也有了很大提升，例如，Google 使用了 64 个 TPU v3 设备对 Transformer 进行训练，处理英德翻译任务的速度快于之前最好的 RNN 模型 7 倍。

4 持续进化：从 GPT-1 到 GPT-3

在 2018 年，自然语言处理 NLP 领域正式步入了大语言模型时代， OpenAI 公司的 GPT 模型与谷歌的 BERT 模型在同年相继推出。2018 年 6 月，OpenAI 公司发布了 GPT 模型的初代版本，GPT-1 运用了 Transformer 的 Decoder 框架中 Mask Self-attention 机制，目前已经迭代到了最新 ChatGPT 与 GPT-4，毫无疑问 GPT 模型已经成为了当前最为强大的语言模型。在 2018 年 10 月，Google 也发布了 BERT 模型， BERT 采用了 Transformer 的 Encoder 框架中 Self-attention 机制，作为一个拥有 3 倍 GPT 参数量的更大体量的语言模型，BERT 在当时的多项测评以及业内影响力等方面，要领先于 GPT 的初代版本。特别是在 BERT 开源之后，包括 Facebook、百度等国内外大厂均推出了基于 BERT 之上开发的大模型，其中包括 Facebook 的 XLM、RoBERTa 模型，以及百度的 ERINE 系列模型。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

从 GPT 的初代版本来看，GPT-1 在训练方式上仍依赖于数据标注和模型微调，同时 GPT-1 的语言泛化能力仍然不足，因此可以说 GPT-1 更接近于处理特定语言任务的专家模型，而非通用的语言模型。GPT-1的模型训练采取的是二段式的训练模式，第一阶段利用无监督学习进行预训练，使用未标记的数据生成语言模型；第二阶段则根据特定的下游任务来对模型进行人工微调，比如分类任务、自然语言推理、语义相似度、问答和常识推理等任务。因此相较于此前 NLP 模型，GPT-1 实际上还是一个半监督式学习的语言模型。GPT-1 在多种语言任务方面都有不错的效果，在自然语言推理、分类、问答、对比相似度的多种测评中均超越了之前的模型。但与此同时，GPT-1 的语言泛化能力仍然不足，无法解决通用的语言任务，且和同时代的 BERT 模型比较的话，GPT-1 在能力上要逊色于 BERT。

2019 年 2 月，GPT-2 正式发布，相较于 GPT-1，GPT-2 舍弃了模型微调，构建了一个泛化能力更强的语言模型，这也开始让模型的通用性得以充分展现。尽管此前 GPT-1 在特定任务上已经取得了不错的效果，但实际上这类模型都需要针对单个语言任务使用大量的标注数据和模型微调，因此也只能在解决特定语言任务时才能发挥作用。而 GPT-2 的泛化能力就体现在，能够让模型应用到不同的任务，而不需要做专门的训练。这也更符合人脑处理语言信息的过程，因为人脑既可以读小说，也可以看新闻，能执行不同的语言处理任务，而且这种能力是相互关联的。而人脑在获取一个语句的信息时，这个信息是通用的，因此我们所期望的一个通用的语言模型，既可用于分类任务，也可以用于问答和常识推理等任务。具体而言，相较于 GPT-1 的无监督式预训练+有监督式学习和模型微调，GPT-2 直接舍弃了微调阶段，直接通过大规模数据进行预训练，让模型开始具备解决多种语言任务的能力。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

2020 年 5 月， GPT-3 正式发布，GPT-3 在训练方式上创新性的引入了 In-context 学习（上下文学习），即在训练模型时，在输入的文本中加入一个或多个示例，引导模型输出相对应内容。比如：“请把以下中文翻译成英文：苹果 => apple；自然语言处理的发展历程”就是一个典型的带有一个示例的输入文本。而 In-context 学习包含了三种模式，分别为 Zero-shot Learning（零样本学习）、One-shot Learning （单样本学习）和 Few-shot Learning（少样本学习），zero-shot 就是没有示例只给提示，one-shot 是只给一个范例，few-shot 则给多个范例，实际上 zero-shot 在表达方式上已经接近于人类的语言表达方式。 In-context 学习的优点在于，输入规范化的语言模板，从人类的例子和类比中去学习，无需进行模型微调和数据标注，特别是大量的标注数据需要很高的人工成本。引入 In-context 学习后，从最终实际效果来看，GPT-3 在 few-shot 上有非常强劲的表现，但同时 one-shot 和 zero-shot 的效果还不够优秀。因此对于 one-shot 和 zero-shot 效果的提升也成为了下一代模型未来需要突破方向。

GPT-3 参数量相较于 GPT-2 提升了两个数量级，达到了 1750 亿，数据集在处理前容量达到了 45TB，成了真正意义上的超大语言模型。 GPT-3 在许多 NLP 任务上相较于 GPT-2 及其他语言模型有更多出色表现，特别是机器翻译、聊天问答和文本填空。同时是在海量参数和训练数据的支撑下，GPT-3 的开始能够完成一些比较困难的 NLP 任务，比如 GPT-3 也可以生成新闻报道和撰写文章，并且很难将机器写的文章与人类写的辨别开来，甚至 GPT-3 在编写 SQL 查询语句，React 或者 JavaScript 代码也有十分优异的表现。而在 GPT-3 强大能力的背后是对算力的巨大消耗，GPT-3 的计算量达到了 BERT-base 的上千倍，根据 OpenAI 公司披露数据，GPT-3 的训练费用超过 1200 万美元，因此到这一阶段就能看出，大语言模型逐渐成为了只有巨头才能参与的游戏。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

5 能力突变：从 ChatGPT 到 GPT-4

在 GPT-3 取得成功之后，OpenAI 在 GPT-3 的基础上推出了多个迭代版本，经过 2 年左右的时间，在 2022 年 11 月正式推出 ChatGPT，随即成为了全球范围内最强大的语言模型。OpenAI 公司在 GPT-3 与 ChatGPT 之间发布了多个迭代版本，其中包括：2021 年 7 月推出了 Codex 系列；2022 年 1 月，引入 RLHF（基于人工反馈的强化学习）得到了 InstructGPT；2022 年 4 月至 7 月，推出了融合 Codex 和InstructGPT 的 code-davinci-002 版本； 5 月至 6 月发布了 text-davinci-002 版本；11 月发布了 text-davinci-003 和 ChatGPT，两个模型都是使用了基于人类反馈的强化学习的版本指令微调模型。

ChatGPT 相较于 GPT-3，不仅是在文本生成等方面展现出了非常强大的能力，与人类对话的智能感大幅提升，而且海量数据和参数的支撑下，模型在逻辑推理与思维链等方面能力开始涌现。ChatGPT 可以完成许多相对复杂的语言任务，可以完成包括自动文本生成、自动问答、多轮对话等，并且能够主动承认错误，质疑不正确的问题等。此外，ChatGPT 还能编写和调试计算机程序。目前 ChatGPT 的应用主要包括：1）聊天机器人，可以使用 ChatGPT 来自由对话，使机器人能够向用户做出自然的回应；2）编写和调试计算机程序； 3）文学、媒体相关领域的创作，包括创作音乐、电视剧、童话故事、诗歌和歌词等；4）教育、考试、回答测试问题；5）通过 API 结构集成到其他应用中，目前 GPT 已经集成到了 Bing 搜索和 Office 套件。ChatGPT 在推出后仅两个月活跃用户就达到了一个亿，成为了史上用户增长速度最快的消费级应用程序。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

基于人工反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）的引入，是 ChatGPT 相较于 GPT-3 在训练策略上最重要的变化。关于强化学习，其应用的经典案例就是围棋人工智能机器人 Alpha GO。Alpha Go 在应用了强化学习进行无数次自我对弈训练后，其能力在短时间内得到了迅速的提升，2017 年战胜了当时围棋世界排名第一的柯洁，而强化学习也因此为大众所认知。强化学习的原理，就是让模型不断与环境进行交互，外部环境对每一次的交互进行反馈，通过奖励或者惩罚，让模型不断调整自己的行动策略，并且逐渐找到最优的行动策略，从而达到最大化奖励的目标。比如用强化学习训练 AlphaGo 下围棋时，会在 AlphaGo 的每一步行动之后，都给予 AlphaGo 一个明确的反馈，是“好”还是“不好”，让模型不断优化对弈策略（参数调整），最终让棋子占领棋面上更多的区域并取得胜利。

而在 ChatGPT 训练过程分为三步，其中最重要的部分即用人工标记的方式，训练出一个专门评价模型，再用这个评价模型来训练 GPT 模型，通过对其输出的内容打分，进而实现模型的训练与迭代。具体而言：第一步：预训练初始模型。在 GPT3.5 的基础上，使用有监督学习方式，微调训练出一个初始模型。训练数据一部分来自使 OpenAI 公司采集了 GPT-3 在公测期间用户提供的对话数据，另一部分来自 OpenAI 雇佣的 40 名标注师（labeler），由标注师分别扮演用户和 AI，人工生成人工的多轮对话数据。预训练的数据量不大，但数据的质量和多样性很高。第二步：训练奖励模型。奖励模型的训练是 ChatGPT 的训练流程中最重要的一步，具体方法就是，随机抽取一大批提示（prompt），输入到第一阶段产生的模型中，模型会随机生成 K（4≤K≤9）个输出，然后以两两配的形式对向标注师展示输出结果，而标注师则在两个结果中选择效果更好的，通过人工打分排序的方式，对于符合人类价值观的内容给予较高的分数，而对人类不喜欢的内容给予较低的分数，最终实现对奖励模型的训练。第三步：使用强化学习对语言模型进行训练。这一阶段开始应用海量的无标注的数据，所用数据来自于抓取的网页、论坛、百科上的海量数据。将海量数据输入到预训练的模型中，通过第二步训练得到的奖励模型来对输出的内容进行打分，结合近端策略优化（Proximal Policy Optimization，PPO）算法，鼓励模型输出更高质量的内容，从而实现语言模型的训练。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

在展现强大能力的同时，ChatGPT 仍存在一定的局限性，主要受限于标注团队的国籍分布、训练数据的语种以及训练数据的时效性。由于 ChatGPT 的奖励模型的训练实际上 40 名 OpenAI 雇佣的 40 名标注师对模型输出结果进行训练而得到的，因此 ChatGPT 的价值观是由这 40 个外包员工的价值观组合而成，40 名外包员工来自美国和东南亚，分布比较集中且人数较少，因此实际上也会存在其他地区比较在意的偏见问题。同时 ChatGPT 训练数据 96%以上是英文，其它 20 个语种包括中文，法语，西班牙语等合计不到 4%，因此 ChatGPT 在其他语种上的生成能力要逊色于英文。同时由于 ChatGPT 训练数据只更新到 2021 年，因此在一些问题的回答上缺乏时效性。

2023 年 3 月 15 日，GPT-4 正式发布，相较于之前版本的 GPT 模型， GPT-4 在各项能力上有了质的的突破，除了在推理能力、文本生成能力、对话能力等方面有了大幅提升之外，GPT-4 迈出了从语言模型向多模态模型进化的第一步。GPT-4 最大的变化即能够接受图像的输入，并且能够生成文本语言，并且在看图能力方面有让人惊喜的表现的。同时 GPT-4 的各项能力相较于此前版本也有大幅提升，包括可以处理超过 25000 字长文本，以及写作能力的大幅提升，能够编歌曲、写剧本、学习用户写作风格，同时包括 GRE、SAT 等考试能力也有大幅提升。在基于机器学习模型设计的各项基准上评估 GPT-4，GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型。除了英语外， GPT-4 在包括拉脱维亚语、威尔士语和斯瓦希里语等 26 种语言上的性能甚至都优于现有语言模型的英语性能。

回顾 GPT 模型演进的 5 个重要阶段，从 2018 年 5 月发布到 GPT 初代版本，到 2023 年 3 月的 GPT-4，仅 5 年时间 GPT 模型的性能就产生了质的飞跃。在能力快速提升的背后，可以看到一方面是对训练方法的持续迭代，从 GPT-1 的半监督式学习，到 GPT-2 舍弃了微调阶段，再到 GPT-3 的 In-context 学习和海量数据，以及引入了基于人工反馈的强化学习之后，最终进化到了 ChatGpt 和 GPT-4，另一方面，是 OpenAI 公司以及微软对研发和算力的高投入，通过“大力出奇迹”的方式，支撑了模型参数和训练数据的快速膨胀。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

6 未来展望：多模态和 AIGC

近年来包括 Google，微软等海外大厂均已经在大模型上展开布局，未来随着行业竞争门槛的迅速提升，头部厂商在算力资源、数据积累等方面的竞争优势将进一步凸显。在语言大模型方面 OpenAI 公司的 GPT 模型已经处于绝对领先地位，Google、Facebook 等国外大厂紧随其后。目前主流大语言模型的参数量已经达到千万级，同时背后对算力的需求也非常巨大，包括 GPT-3 的单次训练费用超过 460 万美元，总训练费用超过 1200 万美元，未来在大模型上的“军备竞赛”也将让大模型成为了只有巨头才能参与的游戏。虽然模型的基本结构都已经通过论文等方式公开，但是各厂商在工程实践方面仍存在明显的差异，包括在数据的清洗、标注以及模型的微调、训练方法等方面仍需要长时间的研发投入和经验积累。未来可预见到，这一领域头部厂商的先发优势和马太效应会体现的非常明显，特别是 ChatGPT 作为第一个“出圈”的大语言模型，目前每天有数以亿计的用户在使用 GPT 模型，随着使用次数越来越多，更多的数据会被收集来不断迭代系统和算法，而 GPT 模型的护城河也会越来越宽。

全球范围来看，大模型的应用已经不局限于 NLP 领域，计算机视觉、多模态等领域的大模型开始涌现。目前大模型包括三类：1）自然语言处理（NLP）模型，如 Open AI 的 ChatGPT 模型，Google 的 LaMDA； 2）计算机视觉（CV）模型，如微软的 Florence；3）多模态模型，如 Open AI 的 GPT-4 模型，Google 的 Parti。

国内互联网大厂包括百度、字节、阿里等厂商均推出了自己的大模型或披露了相关计划。总体来看，和海外头部厂商相比，国内大模型在工程实践上尚存在一到两年以上的差距。1）百度：3 月 16 日百度文心一言多模态大模型正式发布，具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力；2）阿里：2021 年，阿里推出了最大规模的中文多模态预训练大模型通义-M6，并以该模型为底座，覆盖 NLP、多模态、计算机视觉等领域，目前该模型系列已在超过 200 个场景中提供服务；3）字节：2022 年，字节与清华联合提出的 DA-Transformer 大模型，超越了自回归 Transformer 的性能；4）腾讯：2022 年，腾讯发布了混元 AI 万亿大模型，采用腾讯太极机器学习平台自研的训练框架 AngelPTM。此外包括 360、科大讯飞等厂商也披露了相关产品计划。

AIGC 是人工智能的重要演进方向，而生成算法、大模型与多模态三大底层技术的突破成为了 AIGC 的质变的关键。从 2022 年以 DALL-E2、Stable Diffusion 为代表的 AI 作画系统，到 2023 年以 ChatGPT 为代表的对话机器人的出现，预示着 AIGC 底层技术的逐渐成熟，从底层技术来看，主要来自于三个方面的技术突破：

1）生成算法：包括生成对抗网络（GAN）、变分自编码器（VAE）、 Transformer 模型、扩散模型（Diffusion Model）等不断涌现生成算法。 2014 年出现生成对抗网络 GAN（Generative Adverserial Network)是 AIGC 早期的主流框架，但同时 GAN 一直存在对输出结果控制力弱，难以生成新图像等缺点。随后扩散模型开始出现，在提升图像生成效果的同时，大幅降低了计算量和计算时间，让文本生成图像能力走向成熟，并逐渐取代 GAN 成为当前主流的图像生成器，包括 DALL-E2、 Stable Diffusion 等 AI 作画系统均是基于扩散模型所构建。

2）大模型：大模型发展的关键节点是 2017 年出现的基于 Attention 注意力机制的 Transformer 模型，随后 Transformer 迅速成为了 NLP 领域的主流框架，并且于 2018 年发布的 GPT 以及 BERT 模型均是基于 Transformer 所构建。不仅仅局限于 NLP 领域的应用，大模型可以广泛适用于各类下游任务，当前已经成为了 AIGC 的底层框架。许多跨领域的 AI 应用均是构建于大模型之上，真正意义上解决了多任务、多场景、多功能需求，让一个 AIGC 模型可以高质量地完成多种多样的内容输出任务。

3）多模态技术：多模态相关技术使得语言文字、图像、音视频等多种类型数据可以互相转化和生成，而相关研究主要包含多模态表示学习（对不同模态数据提取特征与表示）、多模态转化（将一个模态的信息转换为另一个模态的信息）、多模态对齐（寻找同一实例不同模态信息的对应关系）、多模态融合（联合多个模态的信息并进行预测）、协同学习（使用一个资源丰富的模态信息来辅助另一个资源不足的模态进行学习）等几个关键部分。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

AIGC 能够自主生成创造出文字、图片、语音、视频、代码等各种形式的内容，将深度改变办公、电商、娱乐、教育、媒体等各行各业，并引领人工智能实现从感知理解到生成创造的跃迁。从 AIGC 各行业的一些典型应用来看：1）办公：可以处理和分析大量数据，并且自动生成内容，提供预测性分析、数据可视化、智能报告等功能，比如微软推出的集成了 GPT-4 的 Microsoft 365 Copilot 就将内容生成能力直接嵌入到 Office 365 全家桶中。2）媒体：AIGC 能够辅助包括智能新闻写作，智能视频剪辑等传统媒体工作，同时包括 AI 合成主播等新应用也有望得以广泛应用；3）教育：AIGC 可应用于智能教育机器人，作为教学辅助工具帮助教师自动生成教案、作业批改等，并可用于生成全新的教学工具；4）电商：AIGC 应用于智能客服，可以自动化回答用户的常见问题并提出针对性建议，并可用于生成商品 3D 模型，并可用于生成虚拟主播和虚拟商城；5）娱乐：可用于趣味性的图片和音视频生成、以及虚拟偶像的生成等。

微软正式推出集成了 GPT-4 的 Microsoft 365 Copilot，办公率先正式进入 AIGC 时代。在 3 月 16 日发布的产品中，微软将生成式 AI 助手 Copilot 直接嵌入到 Office 365 全家桶中，对 Word、Excel、PowerPoint、 Outlook 和 Teams 等工具套件进行升级，具体功能体现在：1）Word：能够基于用户所提供的要求或信息按照格式生成草稿，可以根据要求对文档就行修改、缩减，并能进行语气语态的修改；2）Excel：可根据用户要求引入函数、生成模型、插入图表等，并可总结相关规律、分析趋势；3）PowerPoint：可实现 Word 与 PPT 的自动转换，同时也可直接生成动画切换，并可根据已有的图表内容根据要求插入幻灯片等；4）Teams：Copilot 作为的会议助手，可以组织关键讨论要点，根据会议内容直接生成会议摘要；5）Outlook：除了自动生成邮件外，还可管理邮件，标注重要项目。同时，Copilot 以 Business Chat 的形式融入 Windows 的日历、邮箱、文档等软件中，通过用户的会议记录、邮件、聊天记录等内容自动更新工作状态。我们认为，Copilot 的发布预示着大模型及 AIGC 相关技术开始正式应用于办公领域，在大幅提升用户办公效率的同时，也将推动的办公产品的快速升级迭代。

「揭秘」NLP历史演变：从规则到Attention，大语言模型时代的来临

文心一言正式发布，国内预训练多模态大模型迈出第一步。3 月 16 日，百度文心一言正式发布，作为国内最受关注的预训练多模态大模型，文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力，并通过开放 API 接口，能够为金融、汽车、互联网、汽车等多行业提供 AIGC 的能力。文心一言的底层是飞桨深度学习平台和文心知识增强大模型，目前，飞桨已广泛应用于金融、工业、农业、服务业等众多行业，开发者数量达 535 万，创造了 67 万个模型，服务了 20 万家企事业单位，培养了超 200 万 AI 人才。同时，飞桨模型库中的自然语言处理开发库 PaddleNLP，聚合了业界优质预训练模型并提供开箱即用的开发体验，覆盖 NLP 多场景，能为文心一言提供技术积累和补充。截至 2023 年 3 月，已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的 650 多家头部企业宣布加入百度“文心一言”生态圈。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。