训练ChatGPT不再难题，DeepSpeed-Chat让RLHF普及触手可及

学会提问 3年前 (2023) lida

82 0 0

文章主题：DeepSpeed-Chat, ChatGPT, RLHF, AI社区

本文来自微信公众号：学术头条（ID：SciTouTiao），原文标题：《微软开源“傻瓜式”类ChatGPT模型训练工具，成本大大降低，速度提升15倍》，题图来自：《钢铁侠3》

Microsoft has made an exciting announcement on April 12, revealing the open-sourced version of DeepSpeed-Chat, designed to simplify the process of training massive language models like ChatGPT. This cutting-edge tool aims to empower users with seamless access to advanced AI capabilities, fostering a more collaborative and intuitive experience in the realm of language technology. 🤖💬✨ Stay tuned for the impact it’s set to make on the industry! #DeepSpeedChat #AITraining #MicrosoftMilestones

据悉，Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成，具备训练、强化推理等功能，还使用了 RLHF（基于人类反馈的强化学习）技术，可将训练速度提升 15 倍以上，而成本却大大降低。

如下图，一个 130 亿参数的类 ChatGPT 模型，训练时间只需要 1.25 小时。

开源地址：https://github.com/microsoft/DeepSpeed

🌟🚀Deep Speed Chat 简化路径，让你轻松驾驭类 ChatGPT 语言巨轮！只需几步，即可实现快速且经济的模型训练，节省宝贵时间与成本。无需复杂操作，一键启动，深度力量触手可及！🌍🤖 #ChatGPT训练指南 #智能简化 #DeepSpeedChat

使 RLHF 训练真正在 AI 社区普及

🔥ChatGPT热浪席卷AI领域！🚀这些创新模型，如ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna和Databricks-Dolly等，正引领一场训练与部署的革命。它们不仅具备强大的归纳学习能力，还能编程翻译，结果超越人类专家，让数据科学家轻松驾驭AI。🚀欲感受这股技术浪潮，只需探索这些开源社区的瑰宝！📚💻

然而，目前业内依然缺乏一个支持端到端的基于人工反馈机制强化学习（RLHF）的规模化系统，这使得训练强大的类 ChatGPT 模型十分困难。

🌟🚀利用开源技术的力量，打造67亿参数级的ChatGPT超模型并非不可能的梦想，但现实中却存在挑战。往往需要高性能GPU集群，这对许多人来说是昂贵且难以触及的硬件资源。更糟糕的是，现有的开源工具在充分利用这些尖端设备上，其效率之低常常只有5%左右，简直是效能的大浪费。

🌟训练超大规模模型？难题不只GPU价高昂！🚀💡现有的技术栈面对万亿级参数的尖端ChatGPT模型，显得力不从心，既缓慢又昂贵。💰多GPU集群虽豪华，却难以实现高效、经济的训练大挑战。🔥要让创新飞速迭代，我们需要更智能、更高效的解决方案。🔍期待那些能轻松驾驭超大规模训练，打破成本与速度壁垒的新技术涌现。🚀记得，这里不是推销舞台，而是探讨科技未来之路的论坛。💡让我们一起见证，如何在AI浪潮中找到那把训练巨龙的金钥匙！🔑

🌟ChatGPT的独特之处在于它背后的RLHF训练方法，相较于传统的大规模语言模型，这种技术革新让深度学习模型在塑造此类超能力的道路上遇到了挑战。🔥

微软在 Deep Speed Chat 介绍文档中表示：“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用，并使 RLHF 训练真正在 AI 社区普及，我们发布了 DeepSpeed-Chat。”

据介绍，为了实现无缝的训练体验，微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程，包括以下三个主要步骤：

图｜DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图（来源：GitHub）

监督微调（SFT），使用精选的人类回答来微调预训练的语言模型以应对各种查询；

奖励模型微调，使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的（通常比 SFT 小的）奖励模型（RW）；

RLHF 训练，利用 Proximal Policy Optimization（PPO）算法，根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤 3 中，微软提供了指数移动平均（EMA）和混合训练两个额外的功能，以帮助提高模型质量。根据 InstructGPT，EMA 通常比传统的最终训练模型提供更好的响应质量，而混合训练可以帮助模型保持预训练基准解决能力。

总体来说，DeepSpeed-Chat 具有以下三大核心功能：

1. 简化 ChatGPT 类型模型的训练和强化推理体验：只需一个脚本即可实现多个训练步骤，包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤，甚至生成你自己的类 ChatGPT 模型。此外，微软还提供了一个易于使用的推理API，用于用户在模型训练后测试对话式交互。

2. DeepSpeed-RLHF 模块：DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式，并确保包括 SFT、奖励模型微调和 RLHF 在内的三个步骤与其一一对应。此外，微软还提供了数据抽象和混合功能，以支持用户使用多个不同来源的数据源进行训练。

3. DeepSpeed-RLHF 系统：微软将 DeepSpeed 的训练（training engine）和推理能力（inference engine) 整合到一个统一的混合引擎（DeepSpeed-HE）中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换，使其能够利用来自 DeepSpeed-Inference 的各种优化，如张量并行计算和高性能 CUDA 算子进行语言生成，同时对训练部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。此外，DeepSpeed-HE 还能自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

高效、经济、扩展性强

据介绍，DeepSpeed-RLHF 系统在大规模训练中具有出色的效率，使复杂的 RLHF 训练变得快速、经济并且易于大规模推广。

具体而言，DeepSpeed-HE 比现有系统快 15 倍以上，使 RLHF 训练快速且经济实惠。例如，DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B 模型，只需 18 小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到 300 美元和 600 美元。

此外，DeepSpeed-HE 也具有卓越的扩展性，其能够支持训练拥有数千亿参数的模型，并在多节点多 GPU 系统上展现出卓越的扩展性。因此，即使是一个拥有 130 亿参数的模型，也只需 1.25 小时就能完成训练。而对于参数规模为 1750 亿的更大模型，使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

另外，此次开源有望实现 RLHF 训练的普及化。微软表示，仅凭单个 GPU，DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型，还能创建大型且功能强大的模型，以应对不同的使用场景。

那么，人手一个专属 ChatGPT 的时代，还有多远？

参考链接：https://github.com/microsoft/DeepSpeed/blob/master/blogs/deepspeed-chat/chinese/README.md

本文来自微信公众号：学术头条（ID：SciTouTiao）