「ChatGPT速训利器：DeepSpeed-Chat让大模型梦成真！」

ChatGPT与软件 2年前 (2023) lida

60 0 0

文章主题：DeepSpeed-Chat, ChatGPT, DeepSpeed-RLHF, AI

Microsoft has made an exciting announcement on April 12, revealing the open-source release of DeepSpeed-Chat, a game-changing tool designed to simplify the training process for massive language models like ChatGPT. This cutting-edge offering empowers users with seamless access to enhance and develop their AI capabilities, positioning itself as a key player in the realm of artificial intelligence innovation. 🤖💬💻 #DeepSpeedChat #MicrosoftAI #ChatGPTTraining

🚀DeepSpeed Chat, the game-changer in AI training, 🚀built upon Microsoft’s elite Deep Speed library, empowers both training and reinforcement with its advanced prowess. Utilizing the groundbreaking RLHF (RL with Human Feedback), it supercharges efficiency by a remarkable 15x while keeping costs at an irresistible low. Experience lightning-fast performance without compromising on affordability! 💸🚀

如下图，一个 130 亿参数的类 ChatGPT 模型，训练时间只需要 1.25 小时。

🌟🚀Deep Speed Chat 简化路径，让你轻松驾驭类 ChatGPT 语言巨轮！只需一键，即可实现快速且经济实惠的模型训练。无需复杂操作，节省宝贵时间，深度优化的流程确保每一次训练都高效精准。让创新触手可及，用智能引领未来！🌍💻

使 RLHF 训练真正在 AI 社区普及

📚🚀ChatGPT引领AI革命！🔍这些创新模型（ChatLLaMa, ChatGLM-6B, Alpaca, Vicuna, Databricks-Dolly）正颠覆传统，它们不仅全能，执行任务如编程、翻译等堪比专家，而且让数据科学家和研究者能更流畅地驾驭。🚀通过开源社区的努力，AI训练与部署变得触手可及！💻💪拥抱未来，ChatGPT时代已来！🌍

🌟💡尽管强化学习（RLHF）在AI领域的潜力备受期待，但它当前仍处于一个相对初级的阶段，尤其是在端到端的人工反馈系统方面。这个行业尚未建立起大规模、成熟的平台来支撑类ChatGPT模型的高效训练。🚀

🌟🚀利用开源技术的力量，打造67亿参数级的ChatGPT超模型并非不可能的梦想，但现实中却存在挑战。往往需要高性能GPU集群，这对许多数据科学家和研究者来说是昂贵且难以触及的硬件资源。更糟糕的是，现有的开源工具在充分利用这些尖端设备时，其训练效率往往只能达到机器潜能的微不足道的5%。🚀

简而言之，即使有了昂贵的多 GPU 集群，现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型。

与常见的大语言模型的预训练和微调不同，ChatGPT 模型的训练基于 RLHF 技术，这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限。

微软在 Deep Speed Chat 介绍文档中表示，“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用，并使 RLHF 训练真正在 AI 社区普及，我们发布了 DeepSpeed-Chat。”

据介绍，为了实现无缝的训练体验，微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程，包括以下三个主要步骤：

图｜DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图（来源：GitHub）

监督微调（SFT），使用精选的人类回答来微调预训练的语言模型以应对各种查询；奖励模型微调，使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的（通常比 SFT 小的）奖励模型（RW）；RLHF 训练，利用 Proximal Policy Optimization（PPO）算法，根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤 3 中，微软提供了指数移动平均（EMA）和混合训练两个额外的功能，以帮助提高模型质量。根据 InstructGPT，EMA 通常比传统的最终训练模型提供更好的响应质量，而混合训练可以帮助模型保持预训练基准解决能力。

总体来说，DeepSpeed-Chat 具有以下三大核心功能：

1.简化 ChatGPT 类型模型的训练和强化推理体验：只需一个脚本即可实现多个训练步骤，包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类 ChatGPT 模型。此外，微软还提供了一个易于使用的推理API，用于用户在模型训练后测试对话式交互。

2.DeepSpeed-RLHF 模块：DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式，并确保包括 SFT、奖励模型微调和 RLHF 在内的三个步骤与其一一对应。此外，微软还提供了数据抽象和混合功能，以支持用户使用多个不同来源的数据源进行训练。

3.DeepSpeed-RLHF 系统：微软将 DeepSpeed 的训练（training engine）和推理能力（inference engine) 整合到一个统一的混合引擎（DeepSpeed-HE）中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换，使其能够利用来自 DeepSpeed-Inference 的各种优化，如张量并行计算和高性能 CUDA 算子进行语言生成，同时对训练部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。此外，DeepSpeed-HE 还能自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

高效、经济、扩展性强

据介绍，DeepSpeed-RLHF 系统在大规模训练中具有出色的效率，使复杂的 RLHF 训练变得快速、经济并且易于大规模推广。

具体而言，DeepSpeed-HE 比现有系统快 15 倍以上，使 RLHF 训练快速且经济实惠。例如，DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B 模型，只需 18 小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到 300 美元和 600 美元。

此外，DeepSpeed-HE 也具有卓越的扩展性，其能够支持训练拥有数千亿参数的模型，并在多节点多 GPU 系统上展现出卓越的扩展性。因此，即使是一个拥有 130 亿参数的模型，也只需 1.25 小时就能完成训练。而对于参数规模为 1750 亿的更大模型，使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

另外，此次开源有望实现 RLHF 训练的普及化。微软表示，仅凭单个 GPU，DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型，还能创建大型且功能强大的模型，以应对不同的使用场景。

那么，人手一个专属 ChatGPT 的时代，还有多远？