ChatGPT凭什么火?揭秘其亿级参数背后的文本生成秘密与创新训练方式

学会提问 2年前 (2023) lida
60 0 0

文章主题:关键词: ChatGPT, NLP, 参数规模, 技术创新

666ChatGPT办公新姿势,助力做AI时代先行者!

解密 | ChatGPT为何能“打败”众多大模型,除了千亿级参数,还有什么?

每经记者:文巧 每经编辑:高涵

🔥ChatGPT热度飙升,互联网刮起技术风暴!🔍尽管谷歌Bard和微软必应近期遭遇挑战,ChatGPT的关注度已悄然转向务实,从最初的惊叹转变为冷静分析。💰然而,无论是国内还是国际,对这一人工智能奇迹的投资热情依旧高涨,其影响力不容小觑。🔥欲知未来教育何变?ChatGPT开启新纪元!🎓技术的迭代不仅改变了交流方式,更引领了知识结构的革新。它以创新的姿态闯入,重塑行业格局,成为全球关注焦点。💡尽管质疑与机遇并存,ChatGPT的崛起无疑为科技领域带来了深远变革。👩‍💻让我们期待,这个AI巨浪将如何继续塑造我们的世界。🌊

🌟ChatGPT虽火,但NLP界BERT才是元老🌟毋庸置疑,ChatGPT以其卓越性能在全球范围内引发了广泛关注,然而,在人工智能的瑰宝——自然语言处理(NLP)世界里,BERT的存在远早于它的横空出世。2018年,BERT悄然诞生,凭借其在语义理解上的超凡能力,迅速成为行业内的领军人物,引领了NLP技术的革新潮流。尽管ChatGPT崭露头角,但BERT的地位不可动摇,它才是那个奠定现代NLP基础的基石。

🌟ChatGPT为何一炮而红?🔥它的超能力何在?🏆如何在众多巨量语言模型中独占鳌头?💡揭秘ChatGPT的崛起之路,看看它是如何凭借创新和实力吸引全球目光的。🔍技术驱动,强大的自然语言处理让其超越界限,成为人工智能领域的耀眼新星。🌍无论教育、娱乐还是商业,它的广泛应用正在重塑我们的交流方式。🔥别等了,一起来探索这个语言革命的引领者吧!🌐

关于上述问题,《每日经济新闻》记者采访了马萨诸塞大学(又称麻省大学)洛厄尔分校计算机科学教授Jie Wang。他认为,ChatGPT最主要的突破在于其背后架构GPT-3.5中使用的few-shots(小样本)和用户反馈的技术。而且,ChatGPT拥有其他语言模型所不具备的千亿级别参数规模,也允许它能够捕获更复杂的语言模式和关系。

人类已经经历了数次超级工具的诞生,例如,互联网和智能手机,其引发的科技革命极大地改变了人们的思维和生活方式。在Jie Wang看来,如果用ChatGPT来代表基于大型通用语言模型的应用,那么ChatGPT有潜力成为下一个改变世界的超级工具。

技术原理:一场“概率游戏”

🌟ChatGPT的爆火并非偶然,它以卓越的文本生成能力震惊世界!🔥为何这款AI能创作出如此贴近人类思维的高质量内容?秘密在于其深度学习算法和海量数据支持。📚通过复杂的语言模型,它能理解上下文,逻辑连贯,信息丰富。💬每一条生成的文字都仿佛出自智者之口,让人赞叹不已。🌍无论是学术论文、创意文案还是日常对话,ChatGPT都能游刃有余,展现其无与伦比的文本魅力。🔥SEO优化提示:使用”AI生成文本技术”、”语言模型解析”和”数据驱动创新”等关键词,提升搜索引擎可见度。

🎓 자연語言處理(*NLP*)乃AI世界之璀璨明珠,它以理解和生成人類語言為核心,引领著科技前行的步伐。ChatGPT正是這領域的旗艦,透過先進技術,讓機器與我們的日常对话无缝衔接。👩‍💻

人类语言非常丰富和微妙,可以根据上下文、语气和其他因素以多种不同的方式表达,如何处理人类语言的复杂性和可变性也成为NLP领域的主要任务之一。NLP技术是ChatGPT能够出色地生成类似于人类撰写的文本的基础。

🏆🚀掌握未来文本革命!🔍顶尖NLP大师揭示秘密🔥——以超大规模多层编码器-解码器为核心,革新性的技术引领潮流!📊数亿参数的大规模训练,让数据的力量无远弗届,在无监督的数据海洋中自由翱翔。🌍无论语义转换、问答系统还是机器翻译,这先进的力量都能轻松驾驭,重塑文本世界!👩‍💻想深入了解?Jie Wang教授的深度解析,带你领略NLP的无限可能!🌐欲了解更多详情,请访问我们的官方网站,专业且全面的内容等你来探索!✨别错过这个引领技术革新的机会,一起开启智能新时代!🏆

在对NLP的主要任务有一个基本的理解之后,我们再来谈谈ChatGPT的技术原理。众所周知的是,ChatGPT是一种聊天机器人产品,它基于OpenAI的大型语言模型架构GPT-3.5。

2月15日,计算机科学家Stephen Wolfram在推特发表了一篇万字长文来解释ChatGPT的工作原理。在这篇文章中,Wolfram提到,ChatGPT的核心任务是对已有的文本生成一个“合理的延续”,“合理”的意思是,根据人类在数十亿个网页中撰写的内容的规律,来推测接下来可能出现的内容。

Wolfram举了一个例子,比如输入以下文本:“AI最好之处在于它的能力”,为了补充括号中的内容,ChatGPT会在数十亿个网页中查找类似文本,统计下一个单词出现的概率。最终,ChatGPT会生成一个可能的单词列表,并给出每个单词的概率排名。这就是它的“概率游戏”。

ChatGPT凭什么火?揭秘其亿级参数背后的文本生成秘密与创新训练方式

图片来源:文章截图

脱颖而出的背后:创新训练方式、千亿参数规模

实际上,ChatGPT并非第一个基于大型语言模型的产物。早在2018年,NLP领域演变出来的另一个基于大型语言模型的产物——BERT已经出世,并一度被认为在自然语言理解类任务中发挥得非常出色。那么,为什么相比之下,只有ChatGPT能够引起如此大的轰动呢?

首先在于GPT-3.5训练方式上的创新。

GPT-3.5的前身是GPT-3。据Jie Wang介绍,“GPT-3之前的大型语言模型,通常是通过在非常大的数据集上使用自我监督学习的方式,来计算多个任务的单词和句子之间的上下文关系,从而达到训练深度神经网络的目的。不过,这样一个经过训练的模型仍然需要进行微调(fine-tuning)来执行特定任务。”

值得注意的是,BERT所使用的方式就是微调。这种方式的局限性就在于,“微调既费时又费钱,”Jie Wang说道,“通常需要特定的标记数据集。”

当GPT-3出现后,问题得到了解决,这也是ChatGPT最具突破性的创举的基础。“GPT-3仅使用几个特定的任务示例来简化微调的过程,这些任务示例被称作‘few shots’(小样本),”Jie Wang解释道,“它产生的结果与最先进的微调过程获得的结果相同或相似,这项技术大大提高了生产率。GPT-3.5则进一步使用用户反馈来提高few shots生成结果的准确性。”

也就是说,“(ChatGPT)主要的突破是GPT-3.5中使用的‘few-shots’结合用户反馈的技术,”Jie Wang向《每日经济新闻》记者总结道。

(编者注:few shots learning即小样本学习,在机器学习领域中泛指从少量标注数据中学习的方法和场景。)

那么,如何来理解few shots呢?这里我们需要理解另一个概念——提示(prompting)。“提示是ChatGPT接受用户反馈的形式,”Jie Wang说道。

prompting实际上就是给模型一点小提示。举一个非常简单的例子,当每经记者使用ChatGPT辅助新闻写作时,需要ChatGPT对一段较长的新闻进行归纳总结或生成一个标题。这时,可以给ChatGPT一点小提示——例如,Mary是“《纽约时报》”一位“非常资深”的编辑,她需要几个“吸睛的”标题。

通过引号中三个关键词的提示,相比于简单地要求“生成一个标题”,这些小提示会让ChatGPT生成的内容得到明显提升。

其次,ChatGPT的强大还在于其超大的参数规模。ChatGPT基于8000亿个单词的语料库(或45TB的文本数据),包含了1750亿个参数。8000亿是ChatGPT的训练数据,1750亿是它从这些训练数据中所学习、沉淀下来的内容。

“之前最大的模型也只是百亿参数,不是千亿级别的,”Jie Wang说道。公开资料显示,这种更大的参数规模允许ChatGPT能够捕获更复杂的语言模式和关系,从而提高复杂自然语言处理任务的准确性。

据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。报道中提到,OpenAI在2021年底与位于旧金山的外包公司Sama签署了三份总价值约20万美元的合同,为其数据库中的有害内容进行标记。

ChatGPT凭什么火?揭秘其亿级参数背后的文本生成秘密与创新训练方式

图片来源:每日经济新闻 刘雪梅 摄(资料图)

商业落地:离通用AI还有多远?

ChatGPT已经展现了在NLP领域的强大能力,那么,它是否可以从NLP领域走向其他AI领域呢?

Jie Wang认为答案是肯定的。“在T5、GPT-3和GPT-3.5中发展起来的主要技术,即自我监督学习、few-shot微调,以及结合用户反馈的方式,当然可以在其他AI领域进一步修改和应用,”他向《每日经济新闻》记者说道。

看看BERT就知道了,虽然“出身”于NLP领域,但已经广泛应用于其他AI领域。据Jie Wang介绍,BERT这类语言模型,基于递归神经网络(RNN)、双向长短期记忆(Bi-LSTM)等来计算捕获潜在语义和句法信息的单词和句子,这些神经网络构建技术已广泛应用于图像处理等其他领域。

科技研究和咨询公司Gartner在近期发布的一篇报告中提及了ChatGPT的集中应用方向,一是开放API访问权限。据悉,微软就计划为即将推出的Azure OpenAI ChatGPT提供API;二是在销售、营销、个性化教育以及个性化医疗保健领域得以应用。

不过,目前来看,ChatGPT广泛的商业落地仍然还有一些难题。“我能看到的其中一个障碍是,ChatGPT提供的结果是不可信任的,”Jie Wang说道。

OpenAI的首席执行官Sam Altman此前也曾在推特上表示,ChatGPT还有很大的局限性,它在某些方面非常出色以至于给人一种误导的印象。“现在依赖它来做任何事情都是错误的,我们在稳健性和准确性上还有很多工作要做,”他这样写道。

在许多人的幻想中,未来的某一天,会出现具备与人类同等智慧、或超越人类的AI,能表现正常人类所具有的所有智能行为,它能思考、能判断,有思想、有伦理——这就是通用AI。ChatGPT能够引起如此轰动的原因也在于,有人认为,它的出现似乎让世界看到了通用AI的曙光。

人类已经经历了数次超级工具的诞生,互联网和智能手机的出现引发了科技革命,并且极大地改变了人们的思维和生活方式。在Jie Wang看来,如果用ChatGPT来代表基于大型通用语言模型的应用,那么ChatGPT有潜力成为下一个改变世界的超级工具。“我认为它有可能改变人们开展业务的方式,”他说道。

不过,现实情况是,ChatGPT离通用AI的终点,仍然还有一段很长的路要走。

每日经济新闻返回搜狐,查看更多

责任编辑:

ChatGPT凭什么火?揭秘其亿级参数背后的文本生成秘密与创新训练方式

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章