ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

文章主题:

666ChatGPT办公新姿势,助力做AI时代先行者!

ChatGPT自从2022年底发布以来引起了很大反响,子弹已经飞了两个月了,今天重新整理一下ChatGPT以及个人的一些理解。

TL;DR: ChatGPT的内核是InstructGPT[1]。随着language model(LM)越做越大,InstructGPT的作者们发现这些LMs其实经常和用户的意图不完全一致/对齐,这引发作者们的思考:如何得到能与用户意图更一致的LM?于是InstructGPT横空出世,其目标是“Align language models to humans”,具体的对齐方法采用Reinforcement Learning from Human Feedback(RLHF)[2]。简单说就是在训练LM时要“human in the loop”,用人类的示例/评价/比较等反馈信号调整LM,让LM输出的结果往人类意图方向靠拢。

个人ChatGPT体验报告

ChatGPT在哪些地方帮到我了?

有些中文文档需要很官方的文书表达(比如基金申请书),通过巧妙的提问可以让ChatGPT输出很多思路甚至有些可以直接拿来用;帮助我快速了解一个大的领域,虽然看不太准,但是也提供了一点借鉴。

ChatGPT技术上还存在哪些缺陷?

ChatGPT经常一本正经地胡说八道;ChatGPT经常很啰嗦;ChatGPT给出的信息我经常需要用Google double check;ChatGPT每次输出的结果“不一致”(本质原因是因为它是概率模型,每次采样的结果都不一样)。

Background

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

我首先对ChatGPT做了简单的测试,直观感受一下。

ChatGPT可以和用户“chat”,能根据聊天历史调整输出。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

ChatGPT可以写代码。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

ChatGPT能写paper。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

ChatGPT能做一些一般语言模型能做的任务,比如翻译。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

ChatGPT functions/pros/cons一览。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

InstructGPT

对比一下ChatGPT和InstructGPT,方法几乎一模一样。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

InstructGPT其实就三步:用人写的样本(问答)finetune pretrained GPT3,得到supervised finetuning (SFT)model;用人类反馈(比较回答好坏)训练一个reward model(RM);借助训好的RM,用RL算法进一步提升SFT。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

🌟🚀了解最新AI技术吗?🔍探索Transformer Decoder的神秘世界!🔥Transformer Decoder,一个引领未来生成式文本革命的🔥神器!💡它以自回归的方式,解锁了无限创意的密码。 generarás texto sin límites, como un maestro de la prosa!📝但这并非普通的模型,它还藏着因果掩码的大秘密哦!🛡️通过巧妙地隐藏部分信息,保证生成内容的连贯性和逻辑性,让每一次输出都精准无误。🎯而背后的概率模型,就像一个精算师,精确计算着每个词出现的概率,确保你的文字既新颖又贴近实际。📊Transformeer tu creatividad con Transformer Decoder, un enfoque revolucionario en la generación de contenido.🚀不透露作者信息,只为提供最纯粹的智慧分享。👩‍💻👨‍💻欲了解更多?👉点击这里,让我们一起探索这个AI技术的未来高峰!🏔️ #TransformerDecoder #生成式写作 #自回归模型

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

🌟🚀转角遇到创新💡——探索InstructGPT之路✨让我们聚焦在InstructGPT的核心步骤上,开启智能语言的新篇章——以数据驱动的赋能之旅📚。首先,引人注目的一步是通过精准的人工标注,搭建起高质量的示范样本库。\蒐集🔥这些独一无二的示例,就像点亮了监督式训练的明灯💡,引导模型在知识海洋中深度学习。接下来,我们步入Finetune的殿堂,将预训练的大脑(GPT)进行细致的打磨和优化。这一步,如同给AI披上智慧的铠甲🛡️,让它能够理解和响应各种指令,展现出强大的适应性与灵活性。\🏆值得一提的是,这个过程既保证了技术的先进性,又避免了任何潜在的推销或联系方式干扰,旨在为用户提供最纯粹、最高效的体验。🚀SEO优化提示:InstructGPT、监督式训练、预训练模型、数据驱动、人类标注、Finetune、智能语言、知识海洋、适应性、灵活性、用户体验等关键词应巧妙融入文本中。就这样,每一步都充满创新与智慧,引领我们走向一个更智能化的未来。让我们共同期待InstructGPT带来的惊喜吧!🎉

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

第二步,训练reward model。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

注意RM的输入和输出

最后一步,用RL提升SFT model。

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

Experiment

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

Discussion

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃
ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

🌟人工智能领域的两大巨头DeepMind与OpenAI,无疑以其卓越的创新和实用性,引领着科技潮流。每当研读它们发布的论文,都是一次深度智识的盛宴,既让人惊叹于技术的精妙,又感叹其对实际问题解决的独到见解。DeepMind的每一次突破总是充满智慧与新颖,犹如点亮科技星空的一颗璀璨明珠;而OpenAI则以其务实和可能的激进,展示了力量与创新并存的魅力,有时甚至带有一种“大力出奇迹”的震撼力。无论是哪个机构的工作,都无疑为我们的世界带来了深刻的影响和改变,让人不禁沉醉于探索未知的喜悦中。

参考

^Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A. and Schulman, J., 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155. https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf^Reinforcement learning from human feedback(RLHF) https://huggingface.co/blog/rlhf

ChatGPT大揭秘:TransformerDecoder如何颠覆AI?🔥从标注到RL,它的智能跃

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章