AI大模型训练：云厂商的新机遇与挑战

ChatGPT与PPT 1年前 (2023) lida

48 0 0

文章主题：AI, ChatGPT, 云计算, 产业浪潮

全球范围内 ChatGPT 的热捧引发了一场 AI 产业的浪潮，这次浪潮再次席卷了整个 TMT 行业。然而，根据当前市场反馈，人们对 ChatGPT 在 C 端市场的应用体验反应更为直接，而在技术较为复杂、难以感知且较为抽象的云计算市场中，其反应则相对较冷淡。

在这场由ChatGPT引发的巨大浪潮中，云计算的作用不容忽视。首先，ChatGPT的模型训练需求大量的数据资源和计算资源，而云计算正可以为模型的开发和运行提供稳定的技术支持，这可能是促使国内外众多云服务商纷纷跟进ChatGPT的原因之一。

近期，随着 ChatGPT 的关注度持续攀升，微软正式推出了整合了 ChatGPT 的内置搜索引擎。与此同时，谷歌也推出了 Bard，我国互联网巨头百度、阿里巴巴、京东、360 等公司纷纷宣布了自己在大模型技术方面的进展以及类似 ChatGPT 的项目计划。显然，这些“云玩家”都在战略储备（如技术、资源和资金等）方面拥有明显优势。那么，为何这些巨头会如此积极地布局 ChatGPT 领域呢？答案显而易见。

首先，是ChatGPT为代表的AIGC技术十分耗钱，而国内外头部的云巨头个个家底雄厚，足以满足其应用训练需求。简单来说，以ChatGPT为代表的AIGC技术，背后需要依靠强大的AI模型和海量数据，其所需要的云服务算力成本也自然十分庞大。

据SimilarWeb数据显示，2023年1月，ChatGPT官方网站的总访问量达到了惊人的6.16亿次。另一方面，《Fortune》杂志指出，每当用户与ChatGPT展开互动，就会产生大约0.01美元的算力云服务成本。假设我们使用总投资达30.2亿元、算力达到500P的数据中心来支持ChatGPT的運行，那么至少需要7-8座这样的数据中心。值得注意的是，这些基础设施的投入都是数百亿的级别。

对于那些深度参与到这个过程中的阿里巴巴、腾讯，包括谷歌、亚马逊等国际知名公司，他们的财务力量都非常强大，足以应对他们在大型模型训练上的大量投入。这对于他们来说，不仅可以确保他们在当前的训练过程中不会因为资金短缺而受到影响，同时也能保证他们在未来的训练过程中能够持续地进行下去，不必担心资金问题会阻碍他们的进程。同时，他们也明白，为了使得大模型训练的成本能够进一步降低，他们需要得到云服务供应商的大力支持。

作为一家拥有庞大用户流量的云服务提供商，各大云厂商拥有丰富的应用场景和创新的业务背景。以360为例，其强大的云安全能力使其能够成功开发出适用于ChatGPT的云安全解决方案；而阿里和京东则利用其电商平台的用户优势，推出了聊天和营销版的ChatGPT应用；同样，百度等搜索引擎公司也纷纷将ChatGPT应用嵌入到其搜索服务中。因此，凭借其庞大的用户基数和多样化的应用环境，ChatGPT与云服务商的合作的必要性不言而喻。

正因为云供应商与ChatGPT之间存在着紧密的联系，所以在云供应商面临业务增长放缓的情况下，与其展开AI语言大型模型训练的合作，可能会对其开源策略带来极大的促进作用。

在今年初，亚马逊和谷歌母公司Alphabeta先后公布了截至2022年的财务报告。在此之前，微软也在2023财年第二财季（截至2022年12月31日）发布了一份财报。在这些公司的 cloud business segment 中，亚马逊的 cloud business growth rate has slowed down to 20%, while it was 37%, 33%, and 27.5% in the first quarter, second quarter, and third quarter of 2022 respectively. The fourth quarter of 2022 was the lowest growth rate since 2014, which has greatly increased market concerns about the growth rate of the cloud services market.

有趣的的是，谷歌云和微软云都展现出了相似的“特性”。根据公开的信息，微软的“智能云”业务，包括Azure、GitHub、服务器产品和企業及云服務等，總收入达到了215億美元，相對於上一年的同期的增长為18%，然而比第三季度業績的20%增速略有下降。而谷歌云的业务增速，從2022年前三季度的43.8%、35.6%和37.6%下降到了32%。

类似地，国内云服务商的增速下降也已是摆在“明面上的事情了”。据去年11月17日发布的阿里云季报显示，其增速已经降至4%，首次跌至个位数，在此之前其整体增速已经连续三季度低于15%了，创下了多年来新低；与此同时，腾讯云、华为云等前四大云厂商也都呈现出增速下跌的态势。在此背景下，“开源”就成了云服务商的全新诉求，而AI大模型训练无疑为其打开了新的空间。

首先，AI大模型训练会为云厂商贡献大量的直接营收。据投资机构A16Z的研究数据发现，

生成式AI中的近乎一切，都会在某个时刻通过云托管的GPU（或TPU）。无论是对于训练模型的模型提供商和科研实验室、执行推理和微调任务的托管公司，或是两者兼顾的应用程序公司，每秒浮点运算（FLOPS）都是生成式AI的命脉。因此，未来生成式AI里面将有大量的资金，最终流向基础设施。

A16Z估计，应用程序公司平均将约20%-40%的年收入，用于推理和定制化的微调。这部分通常直接支付给云服务提供商，以获取实例或支付给第三方模型提供商，后者将大约一半的收入投入于云基础设施。据此推算，生成式AI将有10%-20%的营收将直接流向云服务商。另外，很多初创自有模型的企业，将会将其多达几十亿的风险投资中的大部分，用于支付给外部云服务商身上，用于训练自有大模型。对于大体量的云厂商而言，这样的新兴市场无疑是特别值得期待的事情。

其次，生成式AI或将推动整个云服务行业的整体升级。据OpenAI测算，自2012年以来，全球头部AI模型训练算力需求3-4个月翻一番，每年增长幅度高达10倍。但根据摩尔定律，芯片计算性能每隔18-24个月才能翻一番，也就说芯片性能远远跟不上AI训练的算力需求。拿具体案例来说，云计算发展到今天，随着数据密集型场景越来越多——比如大型开放式游戏，此前以CPU为核心的计算体系架构开始暴露短板：一方面，计算和网络传输之间的时延较大；另一方面，数据迁移量增大，无法满足高带宽需求。

比如，云计算从业务处理为中心转向数据处理为中心，CPU更多是在处理网络事务而不是用于计算，这相当于数据中心部署的很多服务器，被白白浪费了。此时，解决之道是不再借助CPU，而是打造只为云计算服务的芯片，相当于云上的Windows系统。

为此，云厂商们也有了自己的想法。比如微软、阿里云等厂商均加大了自研芯片的力度（比如自研CIPU），试图将AI引领下的“算力自由”牢牢掌控在自己手里。与此同时，边缘计算更受重视，用于边缘计算的服务器资源算力支持正在急速扩张，正在引领新一轮的行业周期更替。

随着全球云市场的大模型比拼白热化，国内云厂商们针对中国的本土情况，也在思考着云与AI的结合方式。近期，各大云厂商财报后电话会议中透露出了一些关键信号。在百度2022年四季度及全年财报电话会上，李彦宏讲道：“人工智能正在以一种巨大的方式改变许多行业，我们相信文心一言会是改变云计算的game changer。”

同时，在阿里Q3财报后会议中，阿里巴巴集团董事会主席兼CEO张勇也表示：“全力投入生成式AI大模型建设，并为市场上风起云涌的模型和应用提供好算力支撑。”当然，无论是先发的微软，还是后发的AWS、谷歌、百度，在这个技术发展的早期，下任何结论都为时尚早，但无论成败，作为“必需品”的云服务都将因为大模型的爆发迎来重估时刻。

一方面，ChatGPT的迭代与训练均离不开算力、数据和技术，在ChatGPT被广泛运用的背景下，底层基础设施（IaaS）将迎来新一轮景气度上行，同时也将倒逼云厂商提高算力，从而满足海量数据调度的需求。

据国盛证券报告《ChatGPT需要多少算力》估算，GPT-3训练一次成本约为140万美元，ChatGPT一个月要消耗3万多片A100。如今升级后的GPT-4的训练成本更是只多不少，动辄上百万甚至上千万美元的训练成本并不便宜，但对于阿里、微软、谷歌这样的巨头而言也还是可以接受，但对于没有云资源的初创公司而言，则算得上是天价了。这意味着，ChatGPT与云的结合将更为紧密。

另一方面，ChatGPT的孵化也将反哺云厂商的AI能力，随着ChatGPT与云产品的加速融合，行业加速朝“自动化”、“数智化”发展进程，产品竞争力进一步夯实，商业价值也将逐渐显现。

从行业来看，随着产业进入“深度用云”时代，基于云计算的AI能力逐步得到了企业与行业的验证，AI与云的结合能够降低企业上云的门槛，同时凭借AI的深度学习能力发挥数据价值，为企业搭建更好的“用云”路径。具体来说，随着AI大模型技术的成熟，未来整个AI应用的创新门槛更低（成本更低、迭代更快），初创企业可以基于大模型创新而不是底层的芯片层和框架层创新。同时，企业在用云时候更多会基于云服务厂商的大模型成熟度，来选择云厂商。

值得一提的是，微软的高层在宣布接入ChatGPT之后，曾对外表示：“ChatGPT或将带动微软云超越亚马逊云。”同样的话，百度CEO李彦宏也说了一遍，他表示文心一言带来的优势，将可能引导百度智能云进入市场第一。从两大巨头的高层表态来看，ChatGPT或将给云行业带来新的大洗牌。

从全球范围来看，AWS第一、Azure第二、阿里云第三的局面，已经持续了很长时间了，从IDC的数据来看，至少五年内这种3A格局未曾打破过。这种格局不仅是3A之间未曾打破，而且是在3A后面的诸多云厂商也都未能再进身一步，比如紧随其后分居第四、第五位的谷歌云、IBM，始终被前三名的巨头压制着。

回看国内市场来看，阿里云一骑绝尘的领先者优势也已经保持多年，市场份额第一很难撼动。阿里云之后腾讯云与华为云轮流做老二，百度智能云稳居第四，第四之后的云厂商很难完全突破前面几大云厂商的“铜墙铁壁”。

从整个行业来看，云厂商格局的固化，一方面来自于先发优势，带来的更多客户、更大规模形成的规模优势壁垒；另一方面则来自于持续不断的技术创新，带来的个性化服务能力和高利润率。比如亚马逊云最新推出的云财务管理战略，微软高达44%的云经营利润率，都是这方面的代表。

结合全行业来看，目前宣告盈利的云服务企业中，也仅有亚马逊云、微软云和阿里云，对比之下排名第四的谷歌云，在去年还曾因为云服务发展不及预期、持续亏损等原因宣布进行裁员。谷歌云尚且如此，其他排名靠后的云服务商的处境可见一斑。可见，在这种“马太效应”之下，即便排名靠后的云服务商再努力，在现有的格局之下仍然很难取得突破。

但随着ChatGPT的出现，这一局面或将得到彻底变化，这是因为更接近前端的应用普及对云服务下半程的竞争至关重要。简单来说，云服务的前期阶段，各路云服务商的竞争重点都在于底层的基础设施（IaaS），但随着越来越多的厂商进入该领域，提供通用服务的IaaS变得越来越同质化了，价格战之下彼此之间都很难有客观的利润和自己的特色。

相比之下，以PaaS和SaaS建设为重点的应用和平台创新，则将给企业带来更多的机会，这种机会一则体现为利润，二则表现为应用生态与IaaS的结合能给云厂商带来更差异化的创新，会对其原有生态形成新的反馈闭环。

而ChatGPT这种应用，对于形成这种应用闭环就极为必要。就如同无代码平台能够迅速崛起，是源于其打破了开发与应用的壁垒一样，ChatGPT作为中间层就像一个黑箱，用户只需要提出需求就可以自动生成代码，而无需理解其中的含义。这种难以抗拒的应用“魅力”使其可以轻易触达更多用户，用户在免费使用过程中就会不自觉成为潜在的云厂商客户，或许这正是微软云以及百度智能云，纷纷表示ChatGPT将为其打破行业固有格局提供战略契机。

需要指出的是，当前ChatGPT技术的落地还存在一些不确定性，能否确实成为产业互联网的全新应用也还需要时间验证。据《中国电子报》采访相应行业人士得到的答案是：“ChatGPT仍是个不成熟的产品，目前炒作的意味更浓，未来能不能真正带来产业价值还是一个未知数。”可见，ChatGPT离真正的产业化还有相当距离，至少还需要不少的时间，因此还需对其保持乐观谨慎的态度。