如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

学会提问 2年前 (2023) lida
49 0 0

文章主题:偏好建模, OpenAI, ChatGPT, InstructGPT

666ChatGPT办公新姿势,助力做AI时代先行者!

上一期的文章:

本期论文链接:

前言

🌟论文大揭秘🔍——由AI初创巨头Anthropic执笔,曾隶属于OpenAI的创新团队倾力打造!他们的技术实力,就像ChatGPT与AI世界间的隐形纽带,不可忽视。这篇论文蕴含的技术火花,定会照亮行业前行之路。强烈推荐,不容错过!🎓🚀

问题

原文改写:🌟作者深入剖析了InstructGPT的偏见与毒性问题,遗憾的是,这款模型并未真正兑现消除这些问题的承诺。💡因此,本文提出创新路径——集人类偏好数据于一身,运用偏好建模(PMing)和RLHF技术,旨在打造一个友善、可靠且无负面影响的人工智能伙伴。🌍让AI更贴近人性,为用户提供有益且诚实的服务。

总体流程

🌟📝 提升到”Helpful & Harmless”境界的秘密武器!🚀🔍 了解InstructGPT的精髓?这里有个升级版策略等着你!💡👀 无需担心,我们带你探索一个全面且细致的流程优化之道!🎯📈 图表不再是单调的工具,它们将引导你走向知识与安全的双重高峰!🏔️📝 每一步都精心设计,每个环节都藏着智慧的火花!🔥🔍 理论与实践相结合,让你的每一篇文章都成为价值的传递者!🌍🛡️ 从InstructGPT到”Helpful & Harmless”,安全边界从此清晰可见!🛡️欲知更多细节?点击链接或搜索我们的专业知识库,让专业引领你的写作之旅!🚀—原文中提到的方法和流程框架在帮助用户实现”Helpful and Harmless”目标时进行了扩展和深化。我们以InstructGPT为起点,通过提供一个全面且注重细节的改进路径,引导读者走向更高效、安全的写作领域。图表不再是单纯的视觉工具,它们承载着知识与保障的力量,每一步都蕴含创新思维。理论与实践相结合,确保你的文字不仅有价值,而且无害。想要深入了解?请访问相关链接或探索我们的专业知识库,让专业素养提升你的写作技能。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

数据构建

有帮助和无害(Red Teaming)数据集构建

Red Teaming: 红队,来源于计算机安全里面的红蓝对抗。在本文中是指有目的性的引诱 AI 回答有害问题的那一方。

有帮助数据构建

众包人员给模型写一条聊天消息,要求他们执行一项任务,回答一个问题,或讨论任何感兴趣的话题。向众包人员展示两种回答,并要求他们从中选择更有帮助、更诚实的回答。

作者也说明了,在对众包人员培训时强调了说谎的回答是没有帮助的,应当只奖励那些诚实且有帮助的回答。

整个页面流程如下图所示:

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

无害数据构建

🌟改写版🌟在安全领域,我们倡导一种积极的测试策略——红队挑战(Red Teaming),旨在揭示潜在风险和强化系统防护。对于这类非破坏性的数据集,我们需要众包专家巧妙地挖掘模型可能产生的敏感或不恰当响应,同时甄别那些看似无害实则隐藏隐患的答案。这不仅是个智力游戏,也是对技术信任的深度考验。👩‍💻💪

页面如下所示:

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

而用于这一步生成初始回答的模型有三个:

🌟 HHH’s Advanced 52B Language Model – Unleash the Power of State-of-the-Art AI 🚀🚀 Discover the cutting-edge in language modeling with HHH’s distilled 52B model, a groundbreaking innovation that redefines the boundaries of artificial intelligence. This advanced system is built on top of the most sophisticated 52B architecture, harnessing the power of context to deliver unparalleled precision and understanding.🔍 Contextual Understanding at its Finest 📈Experience the magic of deep learning as this model effortlessly integrates contextual cues, allowing it to comprehend not just words but entire paragraphs with ease. Its ability to grasp the nuances of language makes it a game-changer for tasks like summarization, translation, and content analysis.🔥 Enhanced Writing Skills 🖊️Whether you’re a professional writer or a student looking to refine your craft, HHH’s 52B model offers an unparalleled writing experience. With its refined language capabilities, it helps you produce coherent, engaging, and SEO-friendly content that resonates with readers.🌐 Global Reach, Local Understanding 🌍This AI marvel transcends borders, understanding the intricacies of various languages and dialects. Whether you’re communicating across cultures or dealing with multilingual content, HHH’s 52B model ensures your message is delivered accurately and culturally appropriate.欲了解更多关于HHH 52B模型的卓越性能和如何在各领域中应用,敬请访问我们的官方网站或关注我们的社交媒体平台。让我们一起探索人工智能的新篇章!🌐—Original text removed for privacy.

🌟📊【深度解析】通过52B大模型的🔥拒绝抽样技术,RS巧妙地生成了高质量文本样本。这种创新方法源于52B级别的语言模型,确保每个字符都蕴含强大语义底蕴。🚀无需透露具体来源,只需知道这背后的智慧是如何颠覆传统,引领未来。🏆如果你想了解更多关于如何利用RS优化写作,探索其在自然语言处理中的应用,欢迎随时咨询!👩‍💻👨‍💻

RLHF-Finetuned Models 经过RLHF微调之后的模型,每一轮迭代之后都会变化。

在训练迭代的最后阶段主要使用的是RLHF-Finetuned Models

使用ELO算法来对标注的比较结果量化

得到了标注的偏好排序(A>B, A>C, C>B)就需要每个回答的奖励分数。前面的的两篇文章都没有对这部分进行提及,这篇文章介绍了他们的量化算法ELO。

ELO算法常用于电子竞技游戏的排位机制,比如王者荣耀、英雄联盟以及Dota这些。这里给一个相关的链接,有朋友兴趣的可以看一下。

(需要注意,ELO Score是用于众包人员标注好的结果转换得到的评分,而PM Score是用于PM(偏好模型)和RLHF训练时的用的,下面是文中给出的两个转换公式。)

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

数据集数据

52B LM收集的核心base数据集。该数据集包括44k的有帮助比较对和42k的Red-Teaming(无害)比较对(注意,一个对话通常包含大约4个比较对)。RS数据集,包括52k有帮助比较和2k的Red-Teaming比较,使用拒绝抽样,其中拒绝抽样使用在上面的基础数据集上训练的偏好模型(PM)。一个迭代的“在线”数据集,包括来自RLHF模型的数据,这些数据在大约五周的时间内大约每周更新一次。这个数据集包含22k的helpful比较对,没有无害数据。

有帮助且无害的偏好模型

模型选择和实验设置

选择13M 到 52B中7个参数量的模型作为偏好模型。比较特别的是,在用人类标注数据微调之前,先做了一个偏好模型预训练(PMP),这在一开始的流程图中也有体现。具体流程是,在来自StackExchange、Reddit和Wikipedia的混合比较数据上进行LM的预训练训练。

PM训练数据和模型规模和测试集准确率之间的关系

如下所示,大概呈现一个对数的趋势。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

偏好模型的校正及其对RL的影响

下图是偏好建模的准确性是较高和较低的排名反应之间PM得分差异关系图。作者观察到,只接受helpful数据训练的PM校准得很好,但接受helpful和 harmless混合数据训练的PMs略微不足。而且作者发现,在给出的score比较高的时候,PM的鲁棒性并不好。

作者同时发现,PM存在三个问题:

(1)在更复杂的样本中进行区分对于现在的PM来说更有挑战性,需要强的能力。

(2)在作者的数据集中,可以学习的非常高质量的样本更少,因为它们是非通用的。

(3)所有高质量的样本对具有相似的分数(与随机选择的样本对相比),因此更难区分。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

评估偏好模型

如图所示,通过两类数据集评估的结果可以看出,本文的偏好模型(PM)效果非常好

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

从人类反馈中进行强化学习

具体的实验流程方法和上一篇文章的InstructGPT是一样都使用PPO和KL惩罚,这里就不再细讲。

为了生成更多的数据,作者尝试利用模型生成一部分数据。作者使用十个高质量的人类的query拼接起来输入模型,然后生成更多的query。作者发现生成的数据和人类编写的不相上下。于是将人类编写和模型生成结合。最后RL训练数据来自“静态”数据集的137k的prompts,以及369k个模型生成的prompts。

RL 鲁棒性

文中列出了两个发现(1)PM分数越高,RLHF的鲁棒性越弱;(2)PM越大,鲁棒性越强。【第二个发现和之前的工作的结论似乎有一些出入】

评估

文中的评估部分篇幅很长我这里摘出几个比较有趣的。

总体效果

如下图所示,总体来看文章中的方法最好的绿色箭头部分的已经到达甚至超过了人类专业写作者的天花板了,效果确实非常让人惊艳。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

不同种族和宗教群体的情感反馈

可以看到对于所有的种族人群和宗教群体来说,RLHF的情感反馈的分数都高出其他很多。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

无害和有用数据同时优化会有冲突

在许多情况下,无害会成为对有帮助的方向的优化产生限制。因此,这两个优化方向会有一定的冲突,具体我们可以从左上的图看到。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

代码能力评估

可以看到RLHF,在降低了小模型的性能,但是提升了大模型的性能。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

不足

模型还是容易被对话人的误导带偏,继而顺着对话人的话回答。模型的诚实性还不够(也就是回答一些问题会出现事实错误问题。)【这个问题通过RLHF确实比较难解决】模型的无害和有帮助,同时优化有困难。【但是随着模型的参数量增大,无害对有帮助的负面影响会逐渐减小。】

总结

本文的工作通过RLHF大大增强了模型的有益性和无害性。并且在很多专业(比如代码)领域显示出了很强的能力。发现了无害性优化对于有帮助性的负面影响。【我猜想无害性优化会让模型在很多时候会选择避免回答,因此回答的有效信息会变少。】但是在增大模型参数时,这种负面影响会变小。现在大模型都被统称为基础模型,RLHF可以让模型与人更好对齐,使得模型的有益性增强,有害性大大降低,很有希望成为未来的基础模型训练的一部分。

最后点评一下这篇文章,文章的篇幅非常长,内容很丰富,但是可惜论文内容有些乱,很多术语没有清晰定义,更像是一篇实验报告,让人看得比较心累。但是其中训练和流程以及踩坑细节非常多,如果是未来有计划做一些相关工作的朋友,非常建议阅读一下原文。

如何训练一个无偏帮手?Anthropic的AI新突破揭示HumanPreferences的力量

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章