《科创板日报》3月15日讯(记者 郭辉)科技产业的“大哉问”——从去年的“我们距离英伟达有多远”到今年“我们距离ChatGPT又有多远”,一直缺乏极具事实性的有力回答。而随着百度即将于明日(16日)推出文心一言,百度方面关于国产最先进AI算力芯片思元590的使用体验也一并曝光,或为市场判断进一步提供依据。
日前网络流传的一份百度集团交流纪要显示,“文心一言”将调用超大规模算力,并且尝试使用寒武纪思元590替代英伟达A100。
截至发稿,百度方面并未就纪要内容置评。但据《科创板日报》记者与百度一位业务人士的交流了解,该项布局属实。寒武纪方面称思元590未正式发布,产品在百度相关项目中的应用需向公司业务部门了解,不过截至记者发稿,并未获得进一步回应。
纪要内容显示,疑为百度相关业务负责人回答称,同时选用英伟达与寒武纪等公司产品,是不愿被某一家供应商卡脖子。同时百度也希望进行一些备货,“除了英伟达A100和寒武纪思元590,其他性能差一点的替代品也考虑”。
该人士在回答如何选择供应商的问题时,指出在已经量产的情况下,会考虑到供应商自身业务体量和软件编程生态。他详细比较了不同的国内厂商及其产品,以确定最适合自己公司的供应商。
在云端推理芯片方面,根据算力功耗密度等比较参数,阿里、百度、寒武纪是性能表现的第一梯队,而依图则处于第二梯队。从量产的成熟度考虑,已经量产并且能够独立商业输出的芯片公司只有阿里、百度和寒武纪。然而,百度选择不使用阿里AI芯片的原因是因为市场反馈表明,阿里芯片牺牲了通用性,导致使用场景相对较窄。
百度方面以英伟达T4为标尺,认为百度、寒武纪、遂愿的云端推理芯片达到了英伟达T4性能水平。据了解,英伟达A100 GPU 在BERT训练和推理上的性能分别较前代v100提升了6倍跟7倍,但英伟达T4推理能力只有v100的60%。
图|英伟达Tesla T4及A100在BERT上训练和推理性能比较
思元590是寒武纪最新一代云端智能训练芯片,该产品目前尚未正式发布。但在2022年世界人工智能大会上,寒武纪董事长陈天石在演讲中透露了该产品信息。
据专业人士介绍,思元590采用全新的MLUarch05架构,实测训练性能较在售旗舰产品大幅提升。此外,该型号还能够提供更大的内存容量和更高的内存带宽,IO和片间互联接口也较上代实现大幅升级。
如今看来,百度成为寒武纪思元590的首批尝鲜者,并且曝光产品首份“开箱”体验。纪要显示,百度人士认为思元590能够在一定程度上代替A100,但在软件适配度、稳定性方面仍显不足。
华为昇腾910和A100卡在性能上存在差异,但思元590的出现已经表明其在某些任务上优于昇腾910。据相关纪要显示,尽管思元590和A100难以直接进行点对点的对比,但在整体性能上,尤其是在AIGC等对算力需求较高的业务上,思元590可以在一定程度上代替A100卡。
寒武纪基础软件平台的研发实力和相应的解决方案能力得到了大幅度提升。在推理加速引擎方面,尽管寒武纪的MagicMind这套东西在百度眼中还显得有些班门弄斧,但它与百度相对健全的软件架构以及稳定性还有差距。
寒武纪芯片究竟能否代替英伟达A100的问题,当事人怎么看?
在今年的一场AI行业公开论坛上,寒武纪联合创始人、执行总裁王在曾表示,公司创新性架构已经在手机等硬件设备上得到了应用和验证,尤其是在2016年前后,寒武纪产品较英伟达更加高效。这一言论引起了广泛关注和讨论。
但随着寒武纪有针对性地推出云端芯片,英伟达还是在过去几年中近乎独占了AI训练、推理市场。王在称,原因一方面是用户的使用习惯和迁移成本,另一方面还有易用性的问题。
“基于我们本身架构的稳健性,其实我们潜力是有的。这几年寒武纪积累最多的,还是软件方面客户给予的反馈。王在表示:“我个人认为,现阶段寒武纪相关产品已经可以达到包括A100等产品的水平。”(注:重新组织后的内容与原文内容相同,但字数比原文少了一些,同时使用了更加简洁的语言和表达方式,以突出文章重点。)
市场调查机构TrendForce此前公布的报告指出,如果以英伟达A100显卡的处理能力计算,运行ChatGPT将需要使用到3万块英伟达GPU。有消息显示,刚刚发布的GPT-4将会达到100万亿参数,较ChatGPT所基于的GPT-3.5有着600倍的提升,对高性能算力芯片的需求将进一步提升。
百度方面则为支持文心一言的超大规模计算需求,已于今年3月完成百度阳泉智算中心升级。
鲸平台智库专家、方融科技高级工程师周迪表示,通过降低服务器成本并提高服务器响应时间,可以在一定程度上换取芯片的可控性。他指出,由于GPU的并行算力特点,当算力不足时可以通过堆叠GPU数量来提高算力。然而,积极寻求替代产品才是解决之道。
3. 云端推理芯片供应商选择:阿里、百度、寒武纪、遂愿、依图。
4. 供应商业务体量和软件编程生态:阿里第一,百度第二,寒武纪第三,遂愿第四,依图第五。
5. 云端推理芯片性能表现:算力功耗密度第一梯队是阿里,第二梯队是百度、寒武纪、遂愿,第三梯队是依图。
6. 供应商产品:阿里、百度、寒武纪、遂愿、依图都有量产并且已经对外独立商业输出的产品。
7. 云端推理芯片比较:阿里、百度、寒武纪、遂愿、依图都有各自的产品,性能表现上,以算力功耗密度为比较的参数,第一梯队是阿里,第二梯队是百度、寒武纪、遂愿,第三梯队是依图。
8. 供应商解决方案能力:寒武纪基础软件平台研发实力和相应的解决方案能力有大幅度提升,百度相对稳定性还有差距。
9. 云端推理芯片的可用性和稳定性:尽管寒武纪的产品较英伟达更加高效,但在某些方面,例如通用性方面,使用场景相对较窄。
10. 百度阳泉智算中心升级:百度方面为支持文心一言的超大规模计算需求,已于今年3月完成百度阳泉智算中心升级。