ChatGPT背后的秘密：TransformerDecoder如何引领生成式革命？揭秘监督fine

ChatGPT与PPT 2年前 (2023) lida

60 0 0

文章主题：

ChatGPT自从2022年底发布以来引起了很大反响，子弹已经飞了两个月了，今天重新整理一下ChatGPT以及个人的一些理解。

TL;DR: ChatGPT的内核是InstructGPT[1]。随着language model（LM）越做越大，InstructGPT的作者们发现这些LMs其实经常和用户的意图不完全一致/对齐，这引发作者们的思考：如何得到能与用户意图更一致的LM？于是InstructGPT横空出世，其目标是“Align language models to humans”，具体的对齐方法采用Reinforcement Learning from Human Feedback（RLHF）[2]。简单说就是在训练LM时要“human in the loop”，用人类的示例/评价/比较等反馈信号调整LM，让LM输出的结果往人类意图方向靠拢。

个人ChatGPT体验报告

ChatGPT在哪些地方帮到我了？

有些中文文档需要很官方的文书表达（比如基金申请书），通过巧妙的提问可以让ChatGPT输出很多思路甚至有些可以直接拿来用；帮助我快速了解一个大的领域，虽然看不太准，但是也提供了一点借鉴。

ChatGPT技术上还存在哪些缺陷？

ChatGPT经常一本正经地胡说八道；ChatGPT经常很啰嗦；ChatGPT给出的信息我经常需要用Google double check；ChatGPT每次输出的结果“不一致”（本质原因是因为它是概率模型，每次采样的结果都不一样）。

Background

ChatGPT背后的秘密：TransformerDecoder如何引领生成式革命？揭秘监督fine

我首先对ChatGPT做了简单的测试，直观感受一下。

ChatGPT可以和用户“chat”，能根据聊天历史调整输出。

ChatGPT可以写代码。

ChatGPT能写paper。

ChatGPT能做一些一般语言模型能做的任务，比如翻译。

ChatGPT functions/pros/cons一览。

InstructGPT

对比一下ChatGPT和InstructGPT，方法几乎一模一样。

InstructGPT其实就三步：用人写的样本（问答）finetune pretrained GPT3，得到supervised finetuning （SFT）model；用人类反馈（比较回答好坏）训练一个reward model（RM）；借助训好的RM，用RL算法进一步提升SFT。

🌟🚀了解最新AI技术吗？🔍探索Transformer Decoder的神秘世界！🔥Transformer Decoder，一个引领未来生成式文本革命的🔥神器！它以自回归的方式，解锁了语言创作的无限可能。💡通过因果掩码，确保每个生成的词都源于前文，逻辑清晰，无悖常理。🚀但这还不够，TransformerDecoder不仅仅是一个模型，它是概率世界的数学大师，用精确的概率计算驱动内容创新。📊每一个字符背后，都是数不尽的算法运算和深度学习智慧在跃动。想要体验科技带来的魔力？只需聚焦于生成式文本，让Transformer Decoder带你领略语言艺术的新高度！🌟SEO优化提示：使用长尾关键词如”Transformer Decoder 自回归逻辑清晰”，增加技术术语如”因果掩码概率模型”以提高搜索引擎排名。记得在文中融入相关行业术语和提问，如”如何利用它进行内容创作？”来吸引潜在读者。

🌟🚀转角遇到创新💡——探索InstructGPT之路🌱让我们聚焦在InstructGPT的核心步骤上，开启一场知识与技术的深度对话🔍。首先，引人注目的一步是通过精准的人工标注，搭建起高质量的训练样本库📚。这个过程中，监督式微调（Supervised Fine-tuning）成为驾驭预训练GPT的关键工具🔧，它以人类智慧为指引，引领模型向着更精确的目标迈进。别忘了，每一步都旨在提升模型的理解力和响应效率，让技术更好地服务于我们的需求💡。在这个创新的旅程中，我们见证科技如何赋能教育、知识生成与日常交流🚀。欲了解更多详情，敬请关注后续内容，让我们一起见证InstructGPT如何在数据海洋中熠熠生辉🌊！记得，你的参与将为这个领域注入鲜活的力量💪！#InstructGPT #监督式微调 #知识技术融合

第二步，训练reward model。

注意RM的输入和输出

最后一步，用RL提升SFT model。

Experiment

Discussion

🌟人工智能领域的两大巨头DeepMind与OpenAI，无疑以其卓越的创新和实用性，引领着科技潮流。每当研读它们发布的论文，总能感受到满满的智慧火花和实用价值。DeepMind的每一次突破都像是智力的魔术，新颖且深邃；而OpenAI则以务实的态度，时而展现力量，带来革新性的解决方案，虽有时显得直接，却彰显了“大力出奇迹”的真理。无论是技术探索还是实际应用，这两家机构都是我们学习和敬仰的对象。🌟

参考

^Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A. and Schulman, J., 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！