终于来了！GPT-2的中文版，打破语言障碍，大模型训练新可能！【链接】

AI小说 11个月前 lida

50 0 0

文章主题：GPT-2, 中文版, 大规模复现, 语言模型应用

666ChatGPT办公新姿势，助力做AI时代先行者！

乾明发自凹非寺

量子位报道 | 公众号 QbitAI

GPT-2，逆天的语言AI模型，编故事以假乱真，问答翻译写摘要都行。

问世之后横扫各大语言建模任务，引发了大量关注以及研究者跟进研究。

🎉🚀探索未来生产力新高峰！💡 GPT-2的强大潜力已激发众多创新应用！💻例如，Deep TabNine智能代码辅助神器，一键自动补全，让编程更高效流畅；而后生力量，高中生们也展现出了非凡才华，开源了轻量级GPT-2客户端，为学习增添科技乐趣。🚀这些实用技术的涌现，无疑正在引领AI技术的新篇章！🌟欲了解更多，敬请关注未来AI发展动态，一起见证科技改变世界的力量！🌐

现在，又有两个围绕这一语言AI模型的成果出现。

一是中文版GPT-2开源（非官方），可以写诗，新闻，小说、剧本，或是训练通用语言模型。二是，两名硕士研究生花5万美元复制了OpenAI一直磨磨唧唧开源的15亿参数版GPT-2。

中文版GPT-2

GPT-2发布以来，虽然关注甚多，但在中文语境中的应用非常少。

最直接的因素，就在于没有中文版，或者说是没有人基于中文语料去大规模复现。

现在，有人这样做了。

一位名叫”Zeyao Du“（位于南京）的开发者，在GitHub上开源了的GPT-2 Chinese。

可以用于写诗、新闻、小说和剧本，或是训练通用语言模型。

🌟🚀BERT Tokenizer Powerhouse 🚀🌟专为中文文本打造！我们的项目深度集成BERT tokenizer，它以卓越的灵活性应对各种需求：从单个字到精准分词，再到创新的BPE（Subword）模式，无一不彰显其语言魔术般的处理能力。💡无论是日常语料还是海量数据，都能轻松驾驭，助力模型训练如虎添翼！💪无论您是研究学者还是开发者，这个高效且适应性强的工具都将提升您的中文文本处理效率，让每一份努力都事半功倍。🌍欲了解更多BERT在中文领域的应用和优势，敬请关注我们的最新动态，我们致力于提供最前沿的技术与服务。👩‍💻👨‍💻SEO优化提示：BERT tokenizer、中文字符处理、大语料训练、灵活性、BPE模式、文本处理效率

目前项目主要架构已经稳定，具体的训练语料，作者也附上了相应的链接：

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

https://github.com/brightmart/nlp_chinese_corpus

中文文本分类数据集THUCNews

📚文章撰写大师在此！👀提供专业文案服务，让您的每一篇文字都熠熠生辉。🌍无论学术论文、商业报告还是个人博客，我都能精准把握，用词精炼且逻辑清晰。📝删繁就简，优化SEO，让搜索引擎爱不释手。👩‍💻无需担心版权问题，隐私保护严格。🌟立即行动，让您的文字独树一帜！🌐别忘了，高质量内容是成功的关键哦～💪

效果如何，大家可以自己感受下：

🎉🚀【超大规模训练】🌟——看这里！这是一组经过海量数据和强大计算力洗礼的生成文本示例，参数量高达80M，背后是四台火力全开的2080Ti显卡，共计140万次迭代，语料库足足3.4G。每一批次训练，都是技术与智慧的结晶，每一行文字都蕴含着深度学习的力量。虽然没有具体的联系方式，但这些卓越的表现足以证明我们的实力和承诺。如果您对高质量文本有需求，不妨探索一下这无尽可能的世界！✨

🌟【惊艳展示】🔥 模型实力大揭秘！🚀眼前这幅作品，仿佛带你穿越到那热血沸腾的斗破世界！参数仅为50M，却能精准捕捉原著精髓，展现非凡技艺。 Batch Size 32，每一批次的输出都细腻入微，每一章节都凝聚匠心。📚16MB的小语料库，虽有限，却孕育出海量创意。在这个小小的数字背后，是强大的数据智慧在跃动。🔥这不仅仅是一份样例，它是对经典文学的致敬，也是技术与艺术完美融合的生动诠释。想要一探究竟？快来感受这份独一无二的”斗破苍穹”魅力吧！👀SEO优化提示：使用关键词”50M参数”, “Batch Size 32”, “16MB语料库”, “斗破苍穹样例”, “模型实力”, “数据智慧”, “经典文学致敬”等。

△[SEP]表示换行。

斗破苍穹语料：

🌟🚀原文链接已替换！🚀🌟🔥探索深度学习语言理解新高度，Transformer-XL的中文瑰宝📚🔍——Doupo数据集等你来挖掘！💡🔍由业内顶尖研究者【GaoPeng97】精心打造，这款专为中文文本处理而生的大型预训练模型数据集，蕴含了海量多样化的篇章，涵盖了新闻、文学、社科等多个领域。🚀📚从古代诗词到现代网络热文，Doupo数据集不仅丰富，而且经过深度清洗和标注，确保每一句都能成为提升你Transformer-XL技能的宝贵素材。📝🔍优化SEO友好，关键词密集，助你轻松在搜索引擎中脱颖而出，与全球研究者共享知识的海洋！🌊欲了解更多详情，或寻求模型应用指导，请访问我们的GitHub主页：[替换为链接] 🔗别忘了，这个领域最前沿的研究就在你的指尖跃动！💪🌟

下图是限定了生成体裁后的古诗歌生成样例（来自GitHub开发者@JamesHujy），参数未说明：

GPT-2 Chinese项目传送门：

https://github.com/Morizeyao/GPT2-Chinese

15亿参数版GPT-2

能够实现逆天效果GPT-2模型，用到了15亿个参数。

在发布这一模型的时候，OpenAI说，这个模型实在太厉害了，要慢慢开源。

于是就开始了“挤牙膏”开源之旅，从今年2月到现在，才开源到了7.74 亿参数版本。

这一路上，有不少人都表示非常难以忍耐。

比如慕尼黑工业大学的一名大三本科生，在两个月的时间里，付出了200个小时的时间，花费了大约6000人民币，复现了GPT-2项目，并在7月初放出了15亿参数的版本。

至于效果如何，并没有太多展示，项目链接：

https://github.com/ConnorJL/GPT2

现在，又有人忍不住了。

有两名布朗大学的硕士研究生，搞出了一个15亿参数的GPT-2模型，命名OpenGPT-2，还放出来了效果对比。

Google Colab地址：

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

模型权重：

https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

搞出来之后，他们在博客中说，其实想要复制GPT-2并不难，绝大多数感兴趣的人都可以复制。比如，他们就可以复现论文中的很多结果，而且并没有语言建模的经验。

当然，得有钱。他们完整复制出来，花了大约5万美元，还只是云端训练成本。

具体的复制难点有两个，一是模型，二是数据。

模型上面，他们基于Grover模型，并对代码库进行修改，来实现GPT-2的语言建模训练的目标。

Grover模型论文地址：

https://arxiv.org/abs/1905.12616

因为Grover的模型是在类似的大型语料库上训练的，所以很多代码和超参数都可以重复使用。他们并没有大幅改变其中的超参数。

数据集方面，在很大程度上都保证了与OpenAI的处理方式相同，但并不能保证其中细节相同，最后得出了数据集OpenWebTextCorpus：

https://skylion007.github.io/OpenWebTextCorpus/

如此做出来的模型，效果如何？从定量维度上来看，在多个数据集上困惑度都与GPT-2原版接近：

定性维度上，就仁者见仁智者见者了，在Reddit上有人支持，但也有人觉得他们的模型效果不好。

这两位硕士研究生，也在博客中放了一个与官方GPT-2一样的案例：

给出 “Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”的提示。

复制版OpenGPT-2给出的结果如下：

That´s because recycling is all about selling to customers who cannot afford to recycle. If you don’t have any interest in recycling, in whatever form, then you could well be doing your own global environmental benefit if you just got rid of it.

Let me explain. Recycling takes time, money and energy, and it doesn’t really solve the problem.

If you go to recycling drop-off shops and they just sort out your recyclables for you then it means there is no need to sell them again to the local recycling company; they just take it back from you and you can just dump it.

There is nothing clever about this approach, in fact it just shuffles the problem around instead of solving it.

……

更多内容，可以前往两位研究生的博客文章中查看：

https://medium.com/@vanya_cohen/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc

官方原版的GPT-2，给出结果如下：

Recycling is NOT good for the world. It is bad for the environment, it is bad for our health, and it is bad for our economy. I’m not kidding. Recycling is not good for the environment. It is destructive to the earth and it is a major contributor to global warming.

Recycling is not good for our health. It contributes to obesity and diseases like heart disease and cancer. Recycling is bad for our economy. It increases the cost of a product, and in turn, the price of everything that is made with that product.

Recycling is not good for our nation. We pay a tremendous price for the privilege of having the world’s most advanced and efficient recycling system. Recycling is a huge, colossal waste of time, energy, money, and resources.

And THAT is why we need to get back to basics and get back to basics in our recycling efforts. One of the best ways to start is to look at the process of creating a paper product.

……

更多内容，可以前往OpenAI博客中查看：

https://openai.com/blog/better-language-models/#sample8

你觉得模型效果如何？

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վᴗ ի 追踪AI技术和产品新动态

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！