文章主题:关键词:ChatGPT, AI, iPhone时刻, 大模型竞争
进入2023年,ChatGPT着实让人类感受了一把被AI支配的恐惧。
🎉🚀【技术巨头竞相追捧】ChatGPT以其卓越的智能交互,仿佛引领一场人机互动革命,让全球惊叹不已!尽管面临挑战,其强大的学习与推理能力依旧成为焦点。每天,“奇点”话题热度不减,人们不禁担忧工作前景,纷纷效仿名人的赞誉之声。👀💼马斯克的动作更是引人注目,他对OpenAI旗下ChatGPT的潜在风险直言不讳后,迅速传出他正筹备打造新一代聊天机器人,力求超越。🚀🔥这一举动无疑加剧了市场的期待与猜测,引发了新一轮的技术革新热潮。💡🌟
一切都飞快的发展着,这个沉寂了一段时间的行业终于又被焦虑和聒噪笼罩,这给人一种错觉:
仿佛这场关于ChatGPT的竞争就要在一夜之间决出胜负。
图源:Unsplash
在当前的焦虑氛围中,我们往往忽视了ChatGPT背后真正核心的竞争要素——其庞大的千亿参数、每次调用高昂的成本,以及OpenAI所经历的漫长研发过程。这些关键特性反而成为了短期情绪波动的催化剂,而非揭示真相的灯塔。讨论焦点常常聚焦于“聊天”功能带来的商业模式变革、对互联网使用习惯的巨大影响,以及随之而来的商业机遇与风险的交织。尽管有人担忧错过新投资或陷入投机,但更深入的理解应着眼于技术进步如何重塑行业格局,而非被短暂的市场动态所牵制。
这些焦虑对想把水搅浑而入局的人以及煽动人工智能威胁论的人们来说是喜闻乐见的,但对于真正理性看待这场技术竞争是无益的。
某种意义上,与其说ChatGPT证明了某一条AI研究路线的成功,倒不如说它更大的意义是证明了AI这些年不断收敛但依然存在多种选择的各类路线里,最终真的是会走出一条路的:也就是,它第一次证明了这场技术革命真的会到来。
而当我们真的把它当作一场技术革命来看时,就会明白这是一场将持续很久的复杂系统的比拼,也才有可能寻找到真正具备竞争能力的中国参与者,会明白这场新的技术浪潮的竞争不会“浓缩于一个晚上”。
让Chat的归Chat,GPT的归GPT
🌟 ChatGPT引领AI新时代🚀,就像iPhone颠覆了通信行业一样,它正在重塑我们的互动模式。💡 英伟达巨头黄仁勋的这席话,点燃了全球对这款创新聊天工具的热议,大家纷纷期待新技术如何革新旧应用。🔥对于许多中国创业者来说,ChatGPT不仅是热门话题,更是他们投身新领域、拥抱变革的催化剂。它象征着一个新时代,让AI与日常生活无缝对接。💻然而,值得注意的是,这种技术革命也可能引发焦虑,毕竟每个创新都伴随着旧习惯的挑战。但与其担忧被淘汰,不如积极应对,抓住这股潮流,用创新思维去适应和引领未来。🚀SEO优化提示:使用“ChatGPT、AI新时代、iPhone时刻、新技术革新旧应用、中国创业者、变革催化剂”等关键词。
但这种“iPhone时刻”的说法,有道理,但无益处。
🌟微软创始人比尔盖茨与现任CEO纳德拉对ChatGPT的热情溢于言表,他们将其比喻为互联网诞生和工业革命的里程碑。然而,透过表面的技术赞誉,微妙地揭示了微软通过投资OpenAI独享ChatGPT红利的战略意图,以及英伟达借此机会回归“税收”话题,企图将这场技术革新与自身商业帝国紧密相连。🚀
至少现在来看,iPhone时刻还只是他们的,并不是我们的。
🌟改写版:探讨一个跟随潮流而非创新的路径,无疑是ChatGPT在中国问世前就已存在的问题。面对ChatGPT这个事实,我们不应仅局限于模仿‘Chat’功能,而是要超越它,为中国AI的发展注入新的活力。否则,只会陷入追逐iPhone应用的盲目竞争,为他人锦上添花。更重要的是,这会让我们在快速变化的时代中迷失自我,忽视了对‘GPT’潜力的深入探索和挖掘。🚀
🌟💡对于AI领域的专业人士来说,”iPhone”不再只是个单纯的产品名,而是一个警示的符号。他们深刻认识到依赖他人基础进行创新的风险,对此始终保持高度警觉。行动上,他们已经积极践行了对模式创新的深度反思和避免。🚀
OpenAI在2020年发布了1750亿参数的GPT3,根据公开资料,那之后中国公司和机构发布的超过千亿参数规模的大模型包括百度发布的Ernie(文心),华为发布的盘古大模型,和阿里巴巴发布的M6大模型等。
2021年,百度基于其已有的ERNIE模型框架,发布了百亿参数的对话大模型PLATO-XL,到了最新发布的ERNIE 3.0 Zeus,模型已有千亿级参数。结合自身的PaddlePaddle训练框架,让Ernie从一开始的对中文语境的优化到现在得到全球研究者越来越多的关注。2021年4月, 华为对外公布了盘古大模型。根据公开资料,其在预训练阶段学习了 40TB 的中文文本数据,并也已达到千亿级参数规模。
而2021年4月,阿里巴巴达摩院发布的270亿参数语言大模型PLUG,被称为中文版“GPT-3”。同年阿里巴巴还发布了国内首个千亿参数多模态大模型M6。
图源:达摩院官网
阿里巴巴的这两个大模型都在过去几年继续进化, 2021年10月,PLUG模型实现2万亿参数 ,2022年11月,它所属的阿里通义-AliceMind,在中文语言理解领域权威榜单CLUE中首次超越人类成绩。而M6在不断提高着训练效率,2021年10月,达摩院使用512卡GPU即训练出全球首个10万亿参数大模型M6,同等参数规模能耗为此前业界标杆的1%。并且,M6还在进一步做多模态的打通。达摩院的诸多模型集成在2022年发布的“通义”大模型系列中。
这些大模型的进步也引来了包括OpenAI在内的同行的关注,OpenAI的前政策主管Jack Clark曾公开点评M6模型,称它“规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”
可以看出,中国的参与者并不少,参与的也并不晚,成果也并非乏善可陈,否认这一点是虚无的。而且,但凡亲自训练过大模型的研究者都不难得出结论:最好的方式就是在已有建制的基础上去继续加速。
因为今天诸多对AI模型的研究已经发现,大模型许多能力上的惊人突破,并非一个线性的过程,而是会在模型尺寸达到一个量级时发生突然的“进化”,也就是“突现”。不管你喜不喜欢,但事实就是,虽然AI看起来高大上,但它的突破需要的,的确是一次不期而至的“大力出奇迹”。
但如果留意最近一段时间的讨论,会发现一些此前曾表示开发出大模型的机构和领头者或明星科学家,却选择跳离这些机构,避而不谈曾经高调宣扬的自己已有的进展,放弃更接近突现的节点而去从零开始,背后原因可能不言自明。
一些人抓住“一生一遇”机会的方式,是追随别人的iPhone时刻而去,试图重新来过,过度兴奋于“chat”高度拟人的实现效果带来的资本与商业想象力。但那些真正在产业里摸爬的中国科技公司,那些真正花很多年的心血打造自己的大模型的中国人工智能科学家们心里清楚:真正的属于自己的iPhone时刻,不在众声喧哗之侧,不在“chat”本身,而是在“GPT”上,也就是自己曾经多年的辛苦建模、训练和调参的基础之上。
只有让Chat的归Chat,才能让GPT的归GPT,自己的GPT,比什么都重要。
论系统战,论持久战
当我们从这种“历史在一夜之间改变”的兴奋脱离出来,会明白大模型的竞争是一场全面战争,它像所有历史上波澜壮阔的技术变革一样,也将是旷日持久的。
这种全面战争首先体现在它不只是某一个模型的问题,而是一个系统的问题。
在人们津津乐道的微软借助OpenAI逆袭谷歌的故事里,有些被忽略的是微软提供给OpenAI的云计算能力对ChatGPT的重要性。
根据公开资料,微软为OpenAI的GPT3训练,提供了一个有一万块 GPU的分布式集群,并且这些昂贵的计算资源和计算能力也专门为OpenAI做了优化。
微软的云计算Azure,为OpenAI建立和部署了多个大规模的高性能计算(HPC)系统,根据一些研究数据,微软Azure“与其他云服务对手相比,为每个GPU提供了近2倍的计算吞吐量,并且由于其网络和系统软件的优化,可以近乎线性地扩展到数千个GPU。在模型推理方面,微软Azure更具成本效益,每美元的推理能获得2倍的性能。”
这说明类似ChatGPT的大模型是AI+云计算的全方位竞争,需要超大规模智算平台对芯片、系统、网络、存储到数据进行全盘系统优化。
这些作为基础设施的计算平台提供的不只是高效率的支持,往后更多的甚至是定制化的支持——一丁点的算力浪费,都会是这场竞争里致命的成本。
这种复杂的系统是以云计算为代表的新技术发展到极高复杂度阶段的结果,而中国科技公司在这个技术周期里生长出来的技术自觉和为此付出的长期努力,让它们也拥有了自己的复杂系统,从而也有了参与这场ChatGPT竞争的“入场券”。
其中能力最为完备的当属阿里巴巴,因为云、数据、系统和芯片。
阿里云的飞天智算平台在去IOE的过程中诞生,逐渐成长为一个超大规模的高性能计算集群,并且已是国内唯一能实现万卡规模的AI集群。它在一个超大规模高性能网络中,构建了一个可以持续进化的智能算力系统,与此同时,阿里云自研的高性能集合通信库ACCL和自研的网络交换机也建立了无拥塞、高性能的集群通讯能力。
据公开资料,飞天智算平台的千卡并行效率达90%。针对数据密集型场景的大规模集群,还进行了数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。此外飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。阿里的M6模型,在训练阶段使用的正是阿里云机器学习PAI平台自研的分布式训练框架EPL(Easy Parallel Library)。
这场全面战争还体现在,它并不是一场比拼谁更接近标准答案的战争。
图源:Unsplash
大模型本身也是一个精妙的系统,它不会只有一个答案,甚至无法只有一个答案。一个例证就是,ChatGPT的真正复现到今天依旧无人实现。一方面,是技术本身越来越闭源,另一方面,真正实现性能突破的许多关键环节,有时真的是一种艺术性的存在,或者更直白的说,是碰运气的过程,因此没有答案可抄。
比如,根据GPT3的论文,这个模型的大小和数据量,是根据OpenAI自己的扩展规律决定,因此对于另外一个模型,哪怕是同样的算力条件,模型和数据的配比也可以有不同的思路,GPT3最终的配方是1750亿参数和2500亿token的数据,而另一个知名的类似模型,DeepMind 旗下的Chinchilla,则是1100亿参数和5000亿token,但后者在一些性能上也与GPT3不相上下。也就是,任何一种“配方”都很难直接使用,它很大程度取决于基础模型的特点,很多时候在那些模型的论文里简单的一句结论,背后就是巨大的试错成本。
这是挑战,但也是机遇所在:能最极致的做好“软硬件结合”的模型和平台,就有机会用最适合自己的配方更进一步。
最典型的当属英伟达。当几乎所有的模型训练都需要在它的硬件上完成,最能发挥硬件性能的软件框架自然也最可能由英伟达制造。英伟达发布的NeMo Megatron 就曾宣称仅用 11 天就完成了 GPT-3 的训练,还和微软合作,在 6 周内完成了 Megatron 的一个5300 亿参数模型的训练。
同样的,阿里云的计算硬件,软件平台和大模型的全方位系统优化,也带来效率的提升。通义-M6已经实现使用512 位GPU在10天内训练出具有可用水平的10万亿模型的能力,相比GPT-3,同等参数规模能耗仅为其1%,此外达摩院研发的超大模型落地关键技术S4框架(Sound、Sparse、Scarce、Scale)也提供了“浓缩”能力,让百亿参数大模型在高压缩率下仍能高精度完成多个任务,使“通义”系列模型已在服务的200多个场景中实现了2%-10%的应用效果提升。
也就是说,这场全面竞争里最需要的是一个自己的方案,一个能自主掌控更多环节从而实现全局调优的自己的方案。这样的能力更重要的意义在于,它们将不只是用于跟随——面对一场全面的技术浪潮,人们往往习惯在短期过于兴奋与高估,激动的把开局理解为终结,但事实上技术浪潮会是长期的。这也是每一场全面战争里都会发生的事情。而拥有自己的复杂系统掌控能力和基于此的技术理解能力,会在长期的竞争里提供一定的技术定力。
对于当前的ChatGPT来说,它其实有着鲜明的开局感:它基本上还是一个语言模型,而AI研究者这些年已经开始奋力追逐多模态模型——过往人工智能模型有些八仙过海的意味,架构众多,但2017年之后,Transformer的出现改变了这种趋势,这之后算法架构从包括ChatGPT的NLP到视觉都迅速统一到以Transformer为底层架构的路线,于是不同模态的模型更有了统一的可能。因此,某种意义上,ChatGPT可能只是未来真正“恐怖”的多模态大模型的第一个明确了的组成部分。
这样的一场全面战争刚刚开始。曾经因为相信所以看见而衍生出来的技术路线,让一些中国互联网公司在技术浪潮来临前握住了那最初的浪花,而今天ChatGPT预示了大浪终将到来,对于那些用了多年建立起来自己的技术完备能力的中国互联网巨头来说,终于到了因为看见所以相信的时刻。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!