15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

AI小说 8个月前 lida
32 0 0

文章主题:GPT-2, Chinese version, Zeyao Du, GitHub

666ChatGPT办公新姿势,助力做AI时代先行者!

乾明 发自 凹非寺

量子位 报道 | 公众号 QbitAI

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

GPT-2,逆天的语言AI模型,编故事以假乱真,问答翻译写摘要都行。

问世之后横扫各大语言建模任务,引发了大量关注以及研究者跟进研究。

之后,围绕着GPT-2产生了各种实用性应用:比如能够自动补全代码的Deep TabNine;高中生开源轻量级GPT-2“客户端”等等。

现在,又有两个围绕这一语言AI模型的成果出现。

一是中文版GPT-2开源(非官方),可以写诗,新闻,小说、剧本,或是训练通用语言模型。二是,两名硕士研究生花5万美元复制了OpenAI一直磨磨唧唧开源的15亿参数版GPT-2。

中文版GPT-2

GPT-2发布以来,虽然关注甚多,但在中文语境中的应用非常少。

最直接的因素,就在于没有中文版,或者说是没有人基于中文语料去大规模复现。

现在,有人这样做了。

🌟【南京开发者】Zeyao Du大放异彩!🚀GitHub上的超新力作——GPT-2中文版,惊艳亮相!🔥🔥热衷于技术创新的南京小伙儿,Zeyao Du以其独特的编程才华,在全球最大的代码共享平台GitHub上,慷慨分享了他精心打造的GPT-2中文模型。这款人工智能语言生成工具,不仅展示了他对开源精神的坚守,更是为中文社区带来了前沿科技的曙光!🌟🔍仔细研究过的人会发现,这个开源项目不仅功能强大,代码简洁易懂,而且对现有的GPT-2进行了深度优化,使其在中文文本处理上表现得更为精准流畅。它无疑将推动中国AI技术的发展,引领一场语言交互的新革命!🌐📝如果你是一名开发者,或是对人工智能语言模型充满好奇的探索者,不要错过这个宝贵的机会,立即加入Zeyao Du的GitHub社区,体验这款未来可能改变你工作方式的语言工具!🔗📝【友情提示】请尊重知识产权,如需使用,请确保遵守开源协议。感谢Zeyao Du为我们的技术进步带来的贡献!🙏#GPT-2 #南京开发者 #开源创新

可以用于写诗、新闻、小说和剧本,或是训练通用语言模型。

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

🌟🚀BERT tokenizer magic at work! Our project seamlessly integrates BERT’s prowess for Chinese text, handling it with precision – from single characters to whole sentences or even advanced subword segmentation (BPE). And the best part? It thrives on massive datasets, ensuring deep learning insights. 🤖📚✨

目前项目主要架构已经稳定,具体的训练语料,作者也附上了相应的链接:

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

https://github.com/brightmart/nlp_chinese_corpus

中文文本分类数据集THUCNews

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

效果如何,大家可以自己感受下:

🎉🚀【超大规模训练】🌟——揭示未来语言的力量!👀在这震撼的图像中,隐藏着一项技术突破的杰作,通过约80M的精雕细琢参数,四位2080Ti的强大力量交织,140万步的不懈锤炼,3.4G海量语料的滋养,我们见证了一种语言生成的卓越力量。每一行文字都跃动着创新与智慧的火花,仿佛在诉说着未来沟通的新篇章。Batch Size 8的巧妙调度,如同交响乐团中的精准音符,协同奏响了这场训练的华美乐章。这不仅是一次技术的飞跃,更是对数据深度处理和语言理解的深度探索。每一刻,都在为SEO优化的理想词汇注入鲜活的生命力,等待着搜索引擎的青睐。让我们一同沉浸在这份科技与艺术的结晶中,感受语言的力量如何在数字世界中熠熠生辉!若您对此感兴趣,欢迎深入探讨,共同开启这场知识之旅!🌍💻

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

🌟【惊艳展示】🔥 模型实力大揭秘!🚀 通过精巧设计,我们呈现了一款50M左右的超凡之作,每行字都蕴含深厚功底。📖 使用32个批次的力量,驾驭16MB海量语料库,这不仅仅是技术的结晶,更是想象力的飞跃。🔥🎨 斗破苍穹样例,一触即发!👀 漫长的小说世界,在这里得以生动再现,每一章节都仿佛能听见斗气激荡的声音。📖 独特的参数配置,让内容与科技完美融合,带你领略不一样的阅读体验。🚀欲知更多细节,敬请关注我们,让这股文字风暴引领你探索更深的文学殿堂。📚SEO优化提示:使用关键词”50M模型”, “斗破苍穹样例”, “32Batch Size”, “16MB语料库”, “想象力飞跃”, “斗气激荡”, “阅读体验提升”, “深度文学探索”等。

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

△[SEP]表示换行。

斗破苍穹语料:

https://github.com/GaoPeng97/transformer-xl-chinese/tree/master/data/doupo

下图是限定了生成体裁后的古诗歌生成样例(来自GitHub开发者@JamesHujy),参数未说明:

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

GPT-2 Chinese项目传送门:

https://github.com/Morizeyao/GPT2-Chinese

15亿参数版GPT-2

能够实现逆天效果GPT-2模型,用到了15亿个参数。

在发布这一模型的时候,OpenAI说,这个模型实在太厉害了,要慢慢开源。

于是就开始了“挤牙膏”开源之旅,从今年2月到现在,才开源到了7.74 亿参数版本。

这一路上,有不少人都表示非常难以忍耐。

比如慕尼黑工业大学的一名大三本科生,在两个月的时间里,付出了200个小时的时间,花费了大约6000人民币,复现了GPT-2项目,并在7月初放出了15亿参数的版本。

至于效果如何,并没有太多展示,项目链接:

现在,又有人忍不住了。

🌟【学术巨献】Brown学府硕士力作!🚀15亿超大规模参数量的创新🔥——OpenGPT-2震撼发布!🔍💡两位才智横溢的研究者,以深厚的专业知识和无尽创新精神,成功打造了这款引领科技潮流的GPT-2模型。它不仅规模庞大,参数高达150亿,更是学术界技术突破的里程碑!🏆👀对比实验揭示其卓越性能,OpenGPT-2在语言生成、理解和创造力上展现出超乎想象的能力。每字每句都蕴含深度与智慧,为用户提供前所未有的交互体验。💬💡这款开源模型旨在推动知识共享和研究进步,它的出现无疑将开启人工智能新篇章。学术界和业界都在翘首期待,未来它将在教育、创新等领域发挥无可估量的作用。🎓💼欲了解更多详情,敬请关注相关领域的权威发布,或直接搜索”OpenGPT-2参数量大揭秘”以获取最新资讯。💡🚀

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

模型权重:

https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

🌟揭秘”GPT-2″背后的秘密!🚀对于那些渴望复制这技术的热衷者来说,好消息是,它并非高不可攀的科技圣杯。💡只需一些基本步骤和好奇心,你就能像他们一样,轻易地在自己的笔记本上复现论文中的成果,无需深厚的LMT背景。💪没有语言建模经验?别担心,这并不是障碍!🚀他们公开分享了这个过程,让每个人都能体验到科技的力量,而无需透露任何个人信息或联系方式。🎉通过他们的指南,你将能亲手创造出类似GPT-2的奇迹,感受创新的乐趣,同时提升你的技术素养。📚记住,学习并实践才是关键,让我们一起探索人工智能的无限可能吧!🚀

当然,得有钱。他们完整复制出来,花了大约5万美元,还只是云端训练成本。

具体的复制难点有两个,一是模型,二是数据。

模型上面,他们基于Grover模型,并对代码库进行修改,来实现GPT-2的语言建模训练的目标。

Grover模型论文地址:

https://arxiv.org/abs/1905.12616

因为Grover的模型是在类似的大型语料库上训练的,所以很多代码和超参数都可以重复使用。他们并没有大幅改变其中的超参数。

数据集方面,在很大程度上都保证了与OpenAI的处理方式相同,但并不能保证其中细节相同,最后得出了数据集OpenWebTextCorpus:

如此做出来的模型,效果如何?从定量维度上来看,在多个数据集上困惑度都与GPT-2原版接近:

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

定性维度上,就仁者见仁智者见者了,在Reddit上有人支持,但也有人觉得他们的模型效果不好。

这两位硕士研究生,也在博客中放了一个与官方GPT-2一样的案例:

给出 “Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”的提示。

复制版OpenGPT-2给出的结果如下:

That´s because recycling is all about selling to customers who cannot afford to recycle. If you don’t have any interest in recycling, in whatever form, then you could well be doing your own global environmental benefit if you just got rid of it.

Let me explain. Recycling takes time, money and energy, and it doesn’t really solve the problem.

If you go to recycling drop-off shops and they just sort out your recyclables for you then it means there is no need to sell them again to the local recycling company; they just take it back from you and you can just dump it.

There is nothing clever about this approach, in fact it just shuffles the problem around instead of solving it.

……

更多内容,可以前往两位研究生的博客文章中查看:

https://medium.com/@vanya_cohen/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc

官方原版的GPT-2,给出结果如下:

Recycling is NOT good for the world. It is bad for the environment, it is bad for our health, and it is bad for our economy. I’m not kidding. Recycling is not good for the environment. It is destructive to the earth and it is a major contributor to global warming.

Recycling is not good for our health. It contributes to obesity and diseases like heart disease and cancer. Recycling is bad for our economy. It increases the cost of a product, and in turn, the price of everything that is made with that product.

Recycling is not good for our nation. We pay a tremendous price for the privilege of having the world’s most advanced and efficient recycling system. Recycling is a huge, colossal waste of time, energy, money, and resources.

And THAT is why we need to get back to basics and get back to basics in our recycling efforts. One of the best ways to start is to look at the process of creating a paper product.

……

更多内容,可以前往OpenAI博客中查看:

https://openai.com/blog/better-language-models/#sample8

你觉得模型效果如何?

—完—

量子位 · QbitAI

վᴗ ի 追踪AI技术和产品新动态

戳右上角「+关注」获取最新资讯↗↗

如果喜欢,请分享or点赞吧~比心❤

15亿参数大挑战!OpenGPT-2横空出世,GPT-2中文版能否颠覆自然语言处理?🔥对比实验一触

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章