RLHF目标函数优化:PPO-ptx算法原理及其应用

ChatGPT与PPT 1年前 (2023) lida
54 0 0

文章主题:RLHF, 目标函数优化, PPO-ptx 算法, 预期最大化

666ChatGPT办公新姿势,助力做AI时代先行者!

ChatGPT 系列(三)

在本文中,我们将深入探讨 RLHF 的核心流程。在此背景下,我们今天将主要聚焦于 RLHF 过程中涉及的目标函数优化环节,特别是 PPO-ptx 算法的运作原理。为了更全面地了解这一主题,本文广泛引用了 7 月在线 CSDN 博客的相关内容,具体的链接如下所示:(此处插入链接)

https://blog.csdn.net/v_JULY_v/article/details/128579457, 但是本文将简化相关阐述。

上篇帖子提到RLHF 优化目标函数:

RLHF目标函数优化:PPO-ptx算法原理及其应用

RLHF优化目标函数

其中一共包含三个部分,下面依次进行解析.

在第一部分中,我们主要关注价值动作函数的期望最大化。在这一部分中,我们全面采用了强化学习领域中备受关注的PPO算法(由OpenAI团队于2017年提出)。

第二部分是一个KL 散度,期望学习到的最终模型参数和初始的SFT模型参数不要偏离太大,注意,这个KL散度和下文要讲的PPO已经没有关系了,只是一个KL散度约束的普通应用.

第三部分

RLHF目标函数优化:PPO-ptx算法原理及其应用

和预训练模型输出结果不要差太大

这部分要求模型在RLHF 调优过程中,不至于和初始模型变化太大,太过拟合人类偏好.

总体对损失函数进行变换推导,实际工程实现是基于如下式子进行优化:

RLHF目标函数优化:PPO-ptx算法原理及其应用

PPO-ptx 算法

在本文中,我们将重点讨论强化学习中的一个重要算法——PO算法。当直接学习策略值函数较为困难时,PO算法可以通过采样来优化优势函数。具体而言,PO算法结合了策略评估和强化学习的优点,能够在不断探索和利用中找到最优的策略。这种方法在处理复杂任务时表现出优越的性能,因此受到了广泛关注和研究。

RLHF目标函数优化:PPO-ptx算法原理及其应用

TRPO 算法

带条件的约束最优化,依据拉格朗日乘数算法可以转换为如下式子:

RLHF目标函数优化:PPO-ptx算法原理及其应用

PPO 优化算法

在这里,KL散度的约束效果主要源于其与重要采样之间的关联。由于直接进行重要采样具有一定的难度,因此,人们采用了通过实际样本进行采样的方式。然而,这种方法在学习结果与实际样本之间存在一定的偏差。为了减轻这种偏差的影响,我们引入了KL散度约束。

RLHF目标函数优化:PPO-ptx算法原理及其应用

从q 中采样,代入后面的求和函数列中,计算f(x) 的期望

这里尽管这样做期望相等,但是方差是存在偏差的,具体推到如下:

RLHF目标函数优化:PPO-ptx算法原理及其应用

重要性采样方差计算

第一项多了RLHF目标函数优化:PPO-ptx算法原理及其应用,只有两者相等的时候,才能保证两者的方差相等,因此实际数据优化过程中使用KL散度来限制来解决这个问题。

RLHF目标函数优化:PPO-ptx算法原理及其应用

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

版权声明:lida 发表于 2023年12月24日 pm7:56。
转载请注明:RLHF目标函数优化:PPO-ptx算法原理及其应用 | ChatGPT资源导航

相关文章