ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

ChatGPT与PPT 2年前 (2023) lida
45 0 0

文章主题:

666ChatGPT办公新姿势,助力做AI时代先行者!

ChatGPT自从2022年底发布以来引起了很大反响,子弹已经飞了两个月了,今天重新整理一下ChatGPT以及个人的一些理解。

TL;DR: ChatGPT的内核是InstructGPT[1]。随着language model(LM)越做越大,InstructGPT的作者们发现这些LMs其实经常和用户的意图不完全一致/对齐,这引发作者们的思考:如何得到能与用户意图更一致的LM?于是InstructGPT横空出世,其目标是“Align language models to humans”,具体的对齐方法采用Reinforcement Learning from Human Feedback(RLHF)[2]。简单说就是在训练LM时要“human in the loop”,用人类的示例/评价/比较等反馈信号调整LM,让LM输出的结果往人类意图方向靠拢。

个人ChatGPT体验报告

ChatGPT在哪些地方帮到我了?

有些中文文档需要很官方的文书表达(比如基金申请书),通过巧妙的提问可以让ChatGPT输出很多思路甚至有些可以直接拿来用;帮助我快速了解一个大的领域,虽然看不太准,但是也提供了一点借鉴。

ChatGPT技术上还存在哪些缺陷?

ChatGPT经常一本正经地胡说八道;ChatGPT经常很啰嗦;ChatGPT给出的信息我经常需要用Google double check;ChatGPT每次输出的结果“不一致”(本质原因是因为它是概率模型,每次采样的结果都不一样)。

Background

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

我首先对ChatGPT做了简单的测试,直观感受一下。

ChatGPT可以和用户“chat”,能根据聊天历史调整输出。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

ChatGPT可以写代码。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

ChatGPT能写paper。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

ChatGPT能做一些一般语言模型能做的任务,比如翻译。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

ChatGPT functions/pros/cons一览。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

InstructGPT

对比一下ChatGPT和InstructGPT,方法几乎一模一样。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

InstructGPT其实就三步:用人写的样本(问答)finetune pretrained GPT3,得到supervised finetuning (SFT)model;用人类反馈(比较回答好坏)训练一个reward model(RM);借助训好的RM,用RL算法进一步提升SFT。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

🌟🚀了解最新AI技术吗?🔍探索Transformer Decoder的神秘世界!🔥Transformer Decoder,一个引领未来生成式文本革命的🔥神器!它以自回归的方式,解锁了语言创作的无限可能。💡通过因果掩码,确保每个生成的词都源于前文,逻辑清晰,无悖常理。🚀但这还不够,TransformerDecoder不仅仅是一个模型,它是概率世界的数学大师,用精确的概率计算驱动内容创新。📊每一个字符背后,都是数不尽的算法运算和深度学习智慧在跃动。想要体验科技带来的魔力?只需聚焦于生成式文本,让Transformer Decoder带你领略语言艺术的新高度!🌟SEO优化提示:使用长尾关键词如”Transformer Decoder 自回归 逻辑清晰”,增加技术术语如”因果掩码 概率模型”以提高搜索引擎排名。记得在文中融入相关行业术语和提问,如”如何利用它进行内容创作?”来吸引潜在读者。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

🌟🚀转角遇到创新💡——探索InstructGPT之路🌱让我们聚焦在InstructGPT的核心步骤上,开启一场知识与技术的深度对话🔍。首先,引人注目的一步是通过精准的人工标注,搭建起高质量的训练样本库📚。这个过程中,监督式微调(Supervised Fine-tuning)成为驾驭预训练GPT的关键工具🔧,它以人类智慧为指引,引领模型向着更精确的目标迈进。别忘了,每一步都旨在提升模型的理解力和响应效率,让技术更好地服务于我们的需求💡。在这个创新的旅程中,我们见证科技如何赋能教育、知识生成与日常交流🚀。欲了解更多详情,敬请关注后续内容,让我们一起见证InstructGPT如何在数据海洋中熠熠生辉🌊!记得,你的参与将为这个领域注入鲜活的力量💪!#InstructGPT #监督式微调 #知识技术融合

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

第二步,训练reward model。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

注意RM的输入和输出

最后一步,用RL提升SFT model。

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

Experiment

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

Discussion

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine
ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

🌟人工智能领域的两大巨头DeepMind与OpenAI,无疑以其卓越的创新和实用性,引领着科技潮流。每当研读它们发布的论文,总能感受到满满的智慧火花和实用价值。DeepMind的每一次突破都像是智力的魔术,新颖且深邃;而OpenAI则以务实的态度,时而展现力量,带来革新性的解决方案,虽有时显得直接,却彰显了“大力出奇迹”的真理。无论是技术探索还是实际应用,这两家机构都是我们学习和敬仰的对象。🌟

参考

^Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A. and Schulman, J., 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.

ChatGPT背后的秘密:TransformerDecoder如何引领生成式革命?揭秘监督fine

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章