🔥ChatGPT背后的秘密武器：RLHF如何让模型突飞猛进？🤔

ChatGPT与保险 3年前 (2023) lida

81 0 0

文章主题：关键词: ChatGPT, RLHF, 人类反馈强化学习, 策略微调

来源｜TalkRL

OneFlow 编译

翻译｜徐佳渝、贾川

🌟揭秘ChatGPT超群力量的秘密武器🔍 – 无与伦比的RLHF！💡通过独特的人类反馈强化学习（Human Feedback Reinforcement Learning），ChatGPT在GPT预训练基础上实现了飞跃式提升，相较于前几代模型如GPT-3，其卓越表现自然水到渠成。🏆这背后的创新技术不仅优化了用户体验，也为其搜索引擎SEO排名带来了显著优势，使得ChatGPT在全球范围内迅速崭露头角。🔥

🌟🚀ChatGPT的RLHF之旅：从世界知识到精准响应🔥🔍在预热的训练阶段，GPT这位语言巨擘汲取了世界的丰富养分，然后，在关键的强化学习Human Feedback（RLHF）阶段，它步入了一个全新的境界——专注于生成那些既正确又有益的金句。每一步迭代都如打磨宝石般精细，只为产出最贴合用户需求的答案。🌍💡在这个过程中，ChatGPT不仅深化了对语境的理解，还学会了如何在道德和实用之间找到微妙的平衡，以提供最精准且人性化的互动体验。它就像一个语言魔术师，不断优化自己的技艺，以满足日益复杂的信息需求。✨🔍通过RLHF的迭代，ChatGPT正逐步成为话语生成领域的领航者，引领我们走向一个更加智能、协作的世界。它的每一次进步，都是技术与人文关怀的完美融合。🏆🌍

🌟🚀RLHF调优三步法揭示！🚀🎯1️⃣ 首先，通过精炼的监督学习，让LLM跟随人类理想路径，轻轻磨合其对多样提示的回答，就像艺术家雕琢艺术品一样细腻（👩‍💻🎨）。2️⃣ 接着，LLM展现才华，生成多个答案，然后由训练有素的评估者对其进行评分排序，这个过程就像一场智慧与公正的较量（👨‍🏫🔍）。3️⃣ 最后，我们用PPO的力量，对LLM的奖励模型进行深度优化，确保它在每个提示下都能精准导航，达到卓越表现（🚀🧠）。每一环节都是RLHF旅程中的关键步骤，共同塑造一个更智能、更人性化的语言助手（🤝💬）。SEO优化已完成，期待你的搜索引擎关键词：RLHF调优、LLM训练、奖励模型优化。

🌟ChatGPT背后的RLHF创新揭秘🌟🚀ChatGPT团队首席John Schulman深入解析了其独特的人工智能奖励框架（RLHF），这一革命性理念源于对强化学习在语言模型中的巧妙运用，通过人类的宝贵反馈塑造奖励体系。🔍💼OpenAI的RLHF项目并非凭空诞生，而是站在前人研究的肩膀上，巧妙融合了一系列技术成果。Natasha Jaques的研究功不可没，她的贡献为这一过程增添了关键的科学色彩。👩‍💻这项创新性的技术不仅提升了ChatGPT的语言理解和生成能力，也为AI领域带来了深远的影响，优化了模型的学习路径，使其更加贴近人类语言习惯。🌍欲了解更多RLHF背后的细节和其对AI未来的影响，不妨探索相关领域的深度解析，让我们一起见证科技的神奇力量！🔍💻

Natasha, a seasoned AI research expert at Google Brain, has significantly contributed to the field with her groundbreaking papers on RLHF and dialogue models in reinforcement learning. Her insights, shared recently on TalkRL by Robin Ranjit Singh Chauhan, offer a third-party perspective on these topics, delving into the intricacies of RLHF’s reward mechanisms and their implications for AGI advancement. Her work at OpenAI often serves as a reference point for advancements in the industry. 📊🔍🚀

🌟研究聚焦于🔥社交强化学习领域，创新算法融合社交习得与多智能体训练，旨在提升AI的学以致用、广泛适应、协同工作及人际互动技能。🚀即将在2024年1月，她将以客座教授身份入驻华盛顿大学计算机科学学院，引领新一波AI教育潮流。🎓详情敬请期待后续公告。

（以下内容经授权后由OneFlow编译发布，译文转载请联系OneFlow获得授权。来源：https://www.talkrl.com/episodes/natasha-jaques-2）

RLHF相关研究与成本效益

Robin Chauhan：你很早就开始了人类反馈的强化学习（RLHF）以及对话模型这方面的类似研究，而且OpenAI发表的许多重要论文引用了你的研究成果。能否谈谈你的研究与OpenAI当前的研究和这些模型之间的联系？

Natasha Jaques：回到2016年，当时我正在思考如何利用预训练语言模型进行微调。具体来说，我关注的是LSTM模型，并尝试使用强化学习对其进行微调。那时，我关注的点不在语言本身，而是音乐生成和分子生成之类的方法，例如生成类似药物分子的方法。

在我看来，分子生成是一个很好的示例。我们可以基于已知分子数据集去训练一个监督模型，并生成新的分子，但是这些分子可能缺乏我们所需的特性，如易于合成药物。因此，我们还需要对分子的“合成可及性（synthetic accessibility）”进行评估。但仅依靠数据集训练是不够的，因为这样无法得到优化的分子。如果仅仅优化分子的合成可及性，也可能会生成一些无用的分子。

因此，我们需要对这两个方面进行评估和优化。对于这一问题，我们可以使用强化学习来优化药物相似性（drug likeness）或合成可及性，但由于数据存在缺陷，这种方法并不完美。

我们提出了一个解决方案：首先在数据集上进行预训练，然后再使用强化学习来优化某些奖励，同时最小化预训练策略与当前策略之间的KL散度。这种方法可以灵活地结合监督学习和强化学习，使用监督学习来获得数据集中的有用信息，同时使用强化学习来优化在数据分布空间内具有高回报的序列。可以看出，这与当前使用的RLHF方法密切相关。

在该技术中，我们首先在数据集上对大型语言模型进行预训练，然后通过人类反馈来优化模型，同时最小化优化模型与预训练先验模型之间的KL散度，这对于RLHF框架有重要意义。

同时，我也在研究从人类反馈中学习的RLHF方法。2019年前后，我们采用了同样的KL控制方法，即让对话模型尝试优化与人类交谈获得的信号，而非让人类评价对话的好坏，同时采用与OpenAI的RLHF算法不同的方式来实现偏好排序。

我们的目标是从与人类对话的隐含信号中学习，而非仅仅依靠人类的评价来进行优化。我们不需要人们额外提供反馈，而是通过分析文本的情感等隐含信号来为模型提供奖励信号。

例如，当对话中的人听起来普遍高兴时，我们就会将其视为正面奖励信号来训练模型。反之，当他们听起来沮丧或困惑时，可能是模型说了一些胡话，我们会将其视为负面奖励信号。因此，我们使用同样的技术来优化这些信号，以提高模型的表现。

Robin Chauhan：这听起来很像ChatGPT现在正在进行的工作。也许函数逼近器（function approximator）略有不同，或是获得反馈的方式有所不同，但从底层原理来看，它实际上基于RLHF。

Natasha Jaques：没错，不过也有一些关键区别。OpenAI采用了不同的方法来处理人类反馈，该方法与我们在2019年的论文中所使用的有所不同，区别在于他们训练了一个奖励模型。他们的方法是请一群人为两个输出评分，然后通过训练模型来逼近这些评分。实际上，早在OpenAI探索使用人类偏好进行深度强化学习研究时，就已经提出过这个想法。

相比之下，我在2019年的研究是关于离线强化学习（offline RL）。当时，我使用了特定输出的实际人类评分作为奖励样本进行训练，但缺乏一个通用的奖励模型。由于训练奖励模型的方法可以进行多次采样，实际上具有良好的可扩展性。

Robin Chauhan：OpenAI联合创始人和PPO算法发明者John Schulman致力于研究RLHF。他谈到ChatGPT的兄弟模型InstructGPT需要大量的人类反馈。此外，需要详细而冗长的评分说明来评估人类反馈，而获取这些人类反馈需要付出相当大的成本。这种成本会限制RLHF的应用吗？还是说成本并不重要，从回报来看完全值得？

Natasha Jaques：在InstructGPT之前，OpenAI就已经在摘要（summarization）方面进行了大量的研究。而在摘要研究中，能够有效运用RLHF的关键因素之一，是投入大量精力获取高质量的人类数据。

在OpenAI的一篇摘要研究论文中，他们采用了一种更好的评估者招募方法，研究人员与评估者共享Slack群组，并回答评估者的问题以确保评估者与研究人员保持一致。这样的投入显然是非常昂贵的。

值得一提的是，在InstructGPT可以看到一个现象：使用RLHF训练的13亿参数模型的表现要优于使用监督学习训练的1750亿参数模型。也就是说，只需使用RLHF，效果就可以赶超100倍大小的模型，而训练100倍大小的模型所需的计算成本相当昂贵。虽然OpenAI并未公开他们用于收集人类数据和训练巨型模型的具体花费金额，但不难发现，由于RLHF可以降低训练更大型号模型的成本，实际上可能更具成本效益。

Robin Chauhan：在我看来，他们通常使用基于on-policy的PPO（Proximal Policy Optimization）方法来处理数据集。这种方法无法重复使用数据，因为它们依赖于当前模型样本数据或非常接近模型的数据。如果对这些数据进行训练后，模型出现偏差，那么该数据集是否仍然有效？或者说该数据集是否可以用于训练其他模型？

Natasha Jaques：这些数据集并非是一次性的。奖励模型的训练过程实际类似于对文本摘要进行比较。这种比较的结果不仅仅取决于策略模型本身，更是一种较为客观普遍的结果，所以具有off-policy特性，可以重复的使用这些数据。

奖励模型的局限性

Robin Chauhan：John Schulman指出，虽然人类反馈在训练过程中具有一定有效性，但如果使用相同的奖励模型进行长时间训练，性能可能在某个时刻下降。因此我认为，在每个阶段后需要继续收集额外的人类反馈，而为了进一步提高性能，则可能需要使用全新的数据集。你怎么看？

Natasha Jaques：我不太熟悉OpenAI的工作，不过在我的工作中发现了这一现象：我们尝试通过优化奖励来实现目标，同时也考虑到了数据的可行范围，但很容易被奖励函数所束缚，形成过度依赖。

例如，在训练对话模型时，我们使用了奖励函数，鼓励模型与人类进行对话，同时输出高情感度的文本来获取积极的反馈。但是由于数据资源有限，我们很可能会过度拟合数据和奖励，从而导致模型在新数据上表现不佳。

我们的目标是，在保持模型适应数据分布（data distribution）的同时最大化奖励。我们使用了最大熵强化学习（maximum entropy RL）算法来找到最优策略，行为是否受到限制并不重要，而是会重复使用奖励函数。因此，在使用奖励方式来训练智能体时，它可能会表现得过于积极、礼貌和愉悦。

智能体的行为多样性建立在输出文本的多样性基础之上。我想知道他们的结果是否存在类似的问题，即过度训练奖励模型实际上会导致收益递减，甚至最终变成负面收益（negative return）。此外，奖励模型本身似乎并不完美，通过验证数据（validation data），你会发现其准确率大约在七成左右。因此在训练时，很可能会发生过度拟合。尚不清楚奖励模型是否足够全面，以描述优质的输出。

Robin Chauhan：现有的模型并不擅长忽略干扰项，但这主要是函数逼近问题，而非强化学习的问题。我们似乎还没有找到解决干扰项问题的方法。

Natasha Jaques：可能需要更多基于符号的表示法来实现泛化，以便像卡车和草堆这样的物体能够被地理解。我们不能仅仅依赖归纳式的深度学习，例如只依赖训练数据集中的卡车示例来识别卡车，因为这种方法在面对超出训练数据范围的卡车时将失效。

将语言模型集成到强化学习智能体中很有发展潜力，因为语言是组合性的，或许可以提供组合表示法（compositional representation），从而有助于更好地进行泛化。用语言提示生成逼真图像就证明了组合表示法的潜在优势。

基于token级别的强化学习

Robin Chauhan：你之前在该领域做过类似的工作，在token级别上进行强化学习，将每个token视为一个独立的动作（action），并使用“Sequence Tutor”和“Side Learning”等方法。

Natasha Jaques：没错。如果你深入挖掘一下就会发现InstructGPT也是如此。使用策略梯度（policy gradient）的方法更容易，通过计算每个token的概率并对其进行求和，就可以获得整个序列的概率。然而，无论使用哪种方法，最终都是通过增加或减少token级别（token level）的概率来传递模型中的损失。

Robin Chauhan：你的论文中将它描述为一种“bandit算法”。在我看来，这可能会给人一种错觉，认为所有的tokens是一个整体动作（one action）。但你的看法是，其组织方式仍允许我们单独分析每个token的概率。

Natasha Jaques：你可以使用以下公式计算整个序列的奖励：每个单词的奖励相加，再乘以整个输出的概率。然而，在实际操作中，得到整个序列概率的方法是将token级别的概率相加。因此，影响模型的方法实际上是通过修改token级别的概率来实现的。

Robin Chauhan：那这是否意味着在token级别上进行分析没有任何好处？因为我记得John说过，将数据集作为一个整体进行分析更易于处理。

Natasha Jaques：他们采用了一种不同于token级别强化学习的方法。他们将贴现因子（discount factor）设为1，并没有对序列中的所有token应用的相同奖励进行贴现处理，也就是说，序列末尾收到的奖励与序列开头收到的奖励具有相同的价值。这种方法效果还不错。

如果我没记错的话，我们进行过这样的实验：尝试在序列级别和整个对话级别上进行奖励设计，比如说奖励对话的持续时间，这涉及到多个对话回合。

此外，我们还对句子中的token进行均匀分布，实施了在句子级别的奖励设计。然而，在涉及对话长度的问题上，我们仍然采用了贴现因子（discount factor）。这是因为无法确定对话会持续多久，因此需要对这些奖励进行贴现处理。不过对话的时间够长，奖励就会相应提高。虽然如此，优化对话中的贴现奖励（discounted reward）还是相当困难。

AGI与AI具身化

Robin Chauhan：你认为当前讨论和思考通用人工智能（AGI）是否有必要，还是说这只是一个遥远的梦想，不值一提？

Natasha Jaques：当谈论通用人工智能（AGI）时，我感到有些沮丧，因为人们通常并不清楚自己正在谈论什么。

AGI的定义并不清晰，试图澄清其含义又会导致循环论证。比如，有人可能会告诉我AGI将在五年内问世，但如果我问他们为何自动驾驶汽车公司的CEO认为推出全自动驾驶汽车需要20年时，就会出现自相矛盾的情况。

在我看来，AGI可以完成人类所能完成的一切，甚至比人类更出色，但如果它不能驾驶汽车，那就不能被视作AGI。尽管有些人认为AGI不需要具备任何具体的物理形态，但这意义何在呢？

撇开这些争论不谈，我确实对人工智能发展的速度感到非常惊讶，甚至有些担忧。如果我们将AGI定义为具有高度颠覆性和快速发展的人工智能技术，我们已经达到了这个阶段。以ChatGPT为例，现在大学不得不重新设计他们的写作课程，因为现在ChatGPT写出来的文章比部分本科生写得还要好。

Robin Chauhan：确实，AGI并不能替代所有工作，但像ChatGPT这样无疑具有巨大的发展前景，这也是我所见过的第一个真正实现通用性的技术。此外，你提到的自动驾驶汽车也是一个很好的例子。尽管许多人过去预测完全自动驾驶汽车将在两到三年内推出，但实际推出时间却一再被推迟。

Natasha Jaques：在短时间内推出全自动驾驶汽车确实很困难，从Andrej Karpathy提到的特斯拉事故就可看出。因为特斯拉自动驾驶系统不能感知一辆半挂车上装载另一个半挂车的情况，所以事故就发生了。简而言之，一辆车上装载了一辆半挂车，而后面这辆半挂车上又装载着另一辆半挂车，最终就造成了“堆砌”。

这些事故发生的原因是，特斯拉自动驾驶系统无法感知训练数据之外的情况。我们知道，如果模型超出了训练数据的支持范围，它们的性能通常会下降。那么如何才能创建一个数据集，能够包含现实世界中可能发生的所有情况呢？实际上这是不可能的，因为世界一直在变化，新的事物也在不断涌现。

我一直在研究如何通过对抗环境设计或者无监督环境设计的方法来训练强化学习智能体。在这些方法中，我们可以找到可能导致模型失败的问题，并针对性地进行训练。相比仅仅依靠有限数据集的监督学习方法，这些新的方法更具可行性。

Robin Chauhan：你提及的AI具身化（embodiment）仍然存在许多问题。但ChatGPT所展示的是，如果我们能够在抽象的文本世界中自由地创作和表达，问题就能迎刃而解了。

Natasha Jaques：对我来说，最吸引我的是具身化智能体，它可以在理解语言的同时做具身化，就拿AGI来说，如果我们要对它下定义，不仅要能理解文本，同时还要理解文本对世界的映射方式，只有这样我们才能对事情进行完整概括。有一个能在相同网络中编码所有东西的智能体是一件很不错的事。

Robin Chauhan：利用现有技术，我们的能力得到了极大提升，可以完成许多以前无法完成的事情。曾经我们主要关注的是文本、抽象思维、代码以及抽象符号等，但现实表明，机器人和动物智能（animal intelligence）才是真正难做的东西，相比之下，人类独有的抽象思维反而更容易实现。我们现在已经达成了之前认为遥不可及的目标，ChatGPT让我们看到了机器人身上缺乏的通用性。

Natasha Jaques：我记得有这样一种说法，对人类来说很难的活动（例如国际象棋和围棋），AI却能够轻松应对。对于AI来说，一些低水平的操纵活动（比如用手从地上捡起东西）才是真正挑战。

我想分享一件趣事，这件事可以较好地说明为什么具身化如此困难。我一直在研究语言条件强化学习智能体（language conditioned RL agents），旨在通过自然语言的指导，让机器完成实际事务。

当时我读了一篇DeepMind的论文，论文主要内容是模仿交互式智能，创造出一种模拟世界，在这个世界里，机器人可以随意走动，这个世界就像是低分辨率的视频游戏一样，机器人得到指令以后，可以做一些事情，比如拿起橘子把它放在床上，或者拿起杯子把它放在桌子上等等。

这个30人的研究团队在这个项目上花了两年时间，投入了数百万美元。他们收集了大量人类数据，并尝试在模拟环境中应用这些数据。由于收集的数据量过于庞大，所以其中可能有半数都是重复数据。而他们则基于这些数据去训练机器人。最后你猜他们成功执行指令的机率是50%。

我认为这个比例比较低。尽管“将橘子放到床上”等指令看似简单，但考虑到项目团队已经投入了大量资金，他们应该能够取得更高的成功率。这也表明了具身化任务的挑战性，即使我们已经成功实现了文本到图像的有效结合，文本到图像的组合生成模型也实现了良好运转，但是物理实体的操作却难以控制，让它们在接收视觉和文本信息的基础上完成简单任务的难度也非常大。

回归学界：研究社交强化学习

Robin Chauhan：我听说你打算回到学术界，担任华盛顿大学的助理教授。你打算研究什么？

Natasha Jaques：我已经有一个清晰的想法。在企业招聘时，如果你不能清晰地描述你的计划，他们就不会雇用你。我想做的是社交强化学习，即：当在多智能体环境中进行学习时，我们可以在哪些方面提升AI的性能。目前大多数AI活动都需要人类参与，而人类非常聪明，有多种方式来完成任务。

因此，我们不仅要思考如何使AI灵活地向人类学习，还要思考人类在社交学习方面的技能，即如何确认哪些模型值得学习，以及何时应该依赖向他人学习而不是独立探索。我想开发的是能够与人类交互并且有用的AI。

这就要解决以下问题，例如：如何与一个从未见过的人合作解决任务？如何理解人类想要解决的目标？如何从人类反馈（包括隐式反馈）中进行学习？如何使用自然语言与人类交流以解决任务？如何使用人类反馈训练语言？这些都是我一直在研究的语言条件下的强化学习。

Robin Chauhan：在业内领先实验室工作后再回到学术界是一个很有趣的选择，我敢打赌，很多人会做出相反的选择，特别是考虑到在学术预算有限的情况下，做顶尖AI研究是一个很大的挑战，因为规模化对于AI来说十分重要，但规模化扩展又十分昂贵。

Natasha Jaques：有人可能会认为，如果想要为AI做出贡献，就需要巨大的计算预算和训练大型模型，而学术界怎么可能承担得起这个成本？但实际上，业界常有30-50人组成的团队在致力于研究那些已经被证实可行的想法，所以研究人员可以加入其中，将其扩展成大规模项目。比如谷歌的一些大型团队就正在尝试开展RLHF项目。他们的做法与OpenAI都大同小异，都在尝试扩展编写自己的基础设施。

OpenAI和DeepMind现在越来越注重规模化扩展，而非仅仅发布研究成果。如果你想要从事创新性的、探索新想法的研究方向，并通过实验确认这些想法，那么在业界可能会有更多的挑战。

我比较关注的是研究自由度和能够独立思考并实验的能力。学术界的作用在于提出新的研究思路，并进行概念验证，而工业界则负责将这些思路转化为实用的系统。

以我从事KL控制为例，学术界的探索性工作就对工业界的技术发展起到了积极的推动作用。所以起决定作用的是看个人喜欢做什么，加入基础设施工作团队还是做更多研究。就我个人而言，我更喜欢从事更具有研究性质的工作。

Robin Chauhan：你对AI的贡献已经得到学术界的认可，但公众却鲜为人知。人们只看到OpenAI取得的成就，却不知道它也是站在前人的肩膀上才获得的。

Natasha Jaques：现状确实如此。不过我的目标是实践自己的想法并验证是否可行，进而为AI的发展作出贡献，而不只是追求荣誉。

🔥ChatGPT背后的秘密武器：RLHF如何让模型突飞猛进？🤔

保险业视角下的ChatGPT

EngineeredArts的未来宠儿Ameca能说多国语言？人工智能语音的惊人新进展?

相关文章

相关文章