微调大型语言模型新方法QLoRA引领GPU革命，650亿参数巨兽训练只需48GB内存？!

文心一言 2年前 (2023) lida

57 0 0

文章主题：QLoRA, Guanaco, LLaMA, 微调大型语言模型

站长之家5月26日消息:有一种名为 QLoRA 的新方法可以在单个 GPU 上微调大型语言模型。目前已经有研究人员用它来训练 Guanaco，这是一个性能效果99% 接近ChatGPT的聊天机器人。

华盛顿大学的研究团队近期创新性地提出了微调大型语言模型(QLoRA)的方法，旨在优化AI性能。他们通过QLoRA开发了Guanaco系列，这是一套基于Meta的LLaMA架构的聊天机器人，展现了强大的技术实力。特别是Guanaco中的最大版本，参数量惊人，达到650亿级别，其在与行业标杆GPT-4进行基准测试时，表现出了超乎ChatGPT（前身是GPT-3.5-turbo）99%以上的效能，这无疑为人工智能领域带来了显著的突破。这款先进的技术产品，不仅体现了科研团队的专业素养，也预示着未来AI聊天机器人可能达到的高度。若想了解更多，敬请关注相关领域的最新动态。

🌟🚀提升大型语言模型效能的关键在于微调优化！但这对GPU内存要求极高，以LLaMA65B为例，优化就需要780GB+的RAM大挑战！幸运的是，开源世界已尝试量化之路，将16位模型缩小到4位，显著减少了运行时内存需求。然而，对于微调这一精细操作，目前尚未有同等力度的技术突破。🚀🔍我们期待看到更多创新解决方案，以更高效且绿色的方式赋能这些巨无霸模型。

微调大型语言模型新方法QLoRA引领GPU革命，650亿参数巨兽训练只需48GB内存？!

QLoRA 允许在单个 GPU 上微调650亿个参数 LLM

🌟利用QLoRA技术，团队创新性地实现了对LLaMA等复杂模型的精简化，将其量化为仅需4位数！同时，他们巧妙融合LORA模型，通过反向传播进行高效训练。这不仅显著降低了超大规模（650亿参数）模型的内存负担，从780GB以上锐减到不足48GB的GPU内存级别，而且效果堪比对16位模型精细微调！🚀

🎉🚀LLM微调大突破！🌟🚀 无需隐藏，最新公开版GPU微调模型在此！🏆💡 它标志着无障碍AI的新高度，单机就能实现最大规模的优化！🌍💻 随着技术的进步，我们向更广泛社区敞开了这一里程碑式的成果。👩‍🏫👨‍💻 感兴趣的开发者和研究者们，赶快探索这个引领未来趋势的力量吧！不要错过这个推动人工智能无障碍化的关键步骤！🏆💡 #LLM微调# #无障碍AI# #GPU技术革新

🌟研究揭示：QLoRA效能关键在于数据质量而非数量🔥💡一支技术精湛的团队通过1,000多次迭代，深入探索了QLoRA与微调数据集的影响，揭示了一个不为人知的真相——数据的质量胜过繁多的任务量！🔍在OpenAssistant这颗璀璨的人类样本之海中，他们发现即使是9,000个鲜活的数据点，也能训练出更贴合聊天机器人需求的模型。相比之下，FLANv2那100万个看似庞大的数据集，却并未带来同等显著的效果。📊对于项目Guanaco，团队明智地选择了OpenAssistant作为数据基础，这一决策无疑为他们的目标注入了强大的驱动力。🏆记得，优化不是堆砌，而是精准匹配与深度利用。🚀

开源模型 Guanaco 达到 ChatGPT 级别

🌟团队实力展现！使用QLoRA技术，他们成功训练出Guanaco系列卓越模型。在基准测试中，一款参数量达到330亿的模型竟超越了ChatGPT的97.8%，这简直是超能力的表现！令人惊叹的是，仅用12小时的普通GPU，就实现了如此高效的训练速度。而在专业GPU上，他们更是以惊人的24小时，打造出拥有650亿参数的大佬级模型，性能直逼99.3%的ChatGPT高峰。这不仅是技术上的突破，也是时间管理的艺术！🏆

最小的 Guanaco 模型具有70亿个参数，仅需要5GB 的 GPU 内存，并且在 Vicuna 基准测试中比26GB 的羊驼模型高出20个百分点以上。

除了 QLoRA 和 Guanaco，该团队还发布了 OpenAssistant 基准测试，该基准测试在953个提示示例中让模型相互竞争。然后可以由人类或 GPT-4对结果进行评分。

Guanaco数学不好，QLoRA可用于移动微调

不过，该团队引用数学能力和4位推理目前非常慢。接下来，该团队希望提高推理能力，预计速度提升8至16倍。

由于微调是将大型语言模型转变为类似 ChatGPT 的聊天机器人的重要工具，该团队相信 QLoRA 方法将使微调更容易获得——尤其是对于资源较少的研究人员而言。他们认为，这对于自然语言处理领域尖端技术的可访问性来说是一个巨大的胜利。

论文指出:“QLORA 可以被视为一个平衡因素，有助于缩小大型企业与拥有消费类 GPU 的小型团队之间的资源差距。这也意味着，小企业可以通过像 Colab 这样的云服务进行微调大模型。

除了微调当今最大的语言模型外，该团队还看到了私有模型在移动硬件上的应用。“QLoRA 还将在您的手机上启用隐私保护微调。我们估计您每晚可以使用 iPhone12Plus 微调300万个单词。这意味着，很快我们将在手机上拥有专门针对每个应用程序的LLM。”第一作者 Tim Dettmers 在 Twitter 上说。

关于Guanaco-33B 更多信息和代码可到 GitHub 查看。