深入解析：ChatGPT的技术细节与价值取向

学会提问 1年前 (2023) lida

49 0 0

文章主题：ChatGPT, 技术细节, 语言模型, 强化学习

一文解读 ChatGPT 的技术细节！

原文传送门

Ouyang, Long, et al. “Training language models to follow instructions with human feedback.” arXiv preprint arXiv:2203.02155 (2022).

ChatGPT 试用连接：https://chat.openai.com/chat

特色

ChatGPT 和这篇论文中提出的 InstructGPT 使用相似的方法进行训练，这是一个很好的消息，因为这意味着我们可以省去自己动手写东西的时间。

内容

一、挑战

随着语言模型的不断扩展，其规模日益壮大，但这类模型往往无法充分满足用户需求，这一现象在本文中被称作“不匹配”（misalignment）。

二、之前的工作

三、方法

在本研究中，我们主要采用一种名为“从人类反馈中学习”的方法。整个研究框架可以分为三个关键步骤：首先，我们需要人工搜集一定数量的示例数据，然后对这些数据进行有监督的训练，以建立一个初始的模型；其次，我们需要 manually compare and label the output options generated by the model，以此来构建一个能够为模型提供奖励信号的标签模型；最后，我们利用这个标签模型，结合 PPO 算法（强化学习），进一步对模型进行优化训练。

ChatGPT 的价值观念实际上源于标注人员的价值观。标注人员所提供的数据不仅用于最初的监督微调阶段，而且还被利用来训练一个奖励模型，以便在后续的大规模强化学习训练过程中对智能体进行约束。

为了确保其标注过程的一致性和准确性，OpenAI仅雇佣了40名全职标注员，并设定了一套统一的价值取向和标准。这些标注员将会接受严格的筛查，以确保他们拥有正确的价值观念，从而保证整个标注过程的准确性和一致性。

我们先来看一下第一步

在本研究中，我们采用了来自OpenAI GPT3 Playground的prompts大数据集。以下列举了该数据集中部分prompt的示例以及相关情况，以便您对该数据集有更深入的了解。

对于不熟悉prompt的同学们，我们可以将其比作“抛砖引玉”中的砖头。在这个比喻中，你需要先向对方介绍一些基本概念或背景知识，以便让语言模型能够顺利地展开讲述。否则，即使语言模型包含了丰富的知识体系，也会因为缺乏引导而无法找到合适的入口。因此，在向语言模型提问之前，先简要地阐述一下相关领域的基本信息是非常重要的。

注意到，第一步和第二步是有监督学习，因此有 train-valid 的划分。

在接下来的步骤中，我们的标注员将手动针对这些提示提供示例回答，以便让语言模型从中学习。通过这种方式，我们能够构建出一个基础的 GPT-3 语言模型，进而将其转化为我们这里的 SFT 模型。

接下来我们看一下第二步

首先，对于每一个数据集中采样得到的 prompt，先前训练的 SFT 模型都会输出若干个选项，比如图例里面的 ABCD。

接下来，标注员会对于给出的候选输出进行排序。

原本的 prompt (x) 和标注员给的示例回答 (y) 就会用来训练一个奖励模型。我们希望被判定更好的输出得到的奖励数值要更高。由此，奖励模型可以通过最小化下面这样的损失函数来得到。

一个技术细节：要把 K choose 2 个候选对的比较放到同一个 batch 中做梯度下降，不然容易过拟合。

最后我们来看第三步

这一步的数据集都来自于 customer，数据集规模更大一些。这上面的训练就完全靠 reward model 自身的泛化能力来引导了。

在这一步的训练过程中，还不仅仅使用强化学习的优化目标（前面没有被框起来的部分）。还使用了下面的两个正则项来约束模型的表现。

最后，做一下总结：

关于方法的一些常见问题：