国内企业如何迎战ChatGPT?ChatGPT大模型的挑战与国产ChatGPT的未来之路
文章主题:关键词: ChatGPT, GPT3.5, 调用数据, 人类反馈
一、以前一小步现在一大步
1、本身区别
🌟ChatGPT:革新版的超凡语言力量🔍🔥相较于过往的GPT系列,ChatGPT犹如升级版的智能巨擘,其独特之处在于深度的数据驱动与人性化的学习迭代。💡它以GPT3.5为基石,融入了真实场景的海量数据训练,让模型更加贴近实际,输出更精准且富有洞察力的内容。📊🔍强化学习的加入,不仅提升了模型的理解能力,还通过用户反馈的不断优化,使其能够迅速适应并响应各种需求,提供个性化的交互体验。💬别再将ChatGPT简单视为单纯的AI助手,它已然超越了传统框架,引领着人工智能的新潮流。🚀欲了解更多关于ChatGPT如何颠覆语言沟通的细节,敬请关注我们的最新分析文章或搜索”ChatGPT+SEO优化”获取深入见解。📚记得,每一次技术的进步都旨在提升生活品质,ChatGPT正以它的创新改变我们与信息世界的互动方式。🌐
2、国内企业与ChatGPT的差距
🌟🚀技术实力揭秘:全球头部大模型集结地!🔍💡百度文心,2600亿参数量的科技巨头,虽与ChatGPT相比稍逊一筹,但国内领先地位不容忽视。它代表着国内AI技术的前沿力量,与国际顶尖如OpenAI和Google的差距仅1-2年,正逐步追赶世界步伐。💡🏆在国内阵营中,百度、阿里等一线厂商稳居第三梯队,他们凭借强大的数据基础和算力支持,虽在模型构建上略显稚嫩,但技术积累深厚,未来潜力无限。🌱🔍从模型环节看,国内企业在清洗、标注、结构设计及训练推理等方面还有提升空间,这是迈向顶尖的必经之路。🚀记住,每一次技术的进步都是创新的火花,让我们共同期待中国AI在未来的闪耀时刻!🌟
🌟”🔥’文心一言’引领国内新潮流,百度冲刺AI市场霸主地位!🚀多能功能悄然亮相,百度搜索已悄悄升级,从答案到内容,全面智能化。待其正式发布,搜索首站将直面挑战,百度成败在此一举!🏆”
3、训练成本昂贵
🌟【揭秘】GPT3.0训练天价:超1亿巨额成本直击!💡🔥微软计算力撑起庞然大模,每轮离线重训砸下400万金,数据量与费用等量齐观。💰👀对于行业巨头来说,这高昂的自研之路犹如攀登珠峰,GPU扩充成关键加速器,但中小厂商却面临严峻挑战。🚀🔍技术革新的代价总是昂贵,大模型的研发成本如同一道难以逾越的鸿沟。🚫🌟然而,SEO优化并非终点,如何在创新与经济间找到平衡,是所有玩家需要深思的问题。💡🔥未来,或许我们会见证更多AI巨头通过合作和优化降低成本,让技术普惠更多。🤝
4、模型训练所依赖的高性能xin片被M国卡脖子
🌟未来的商业格局中,AI模型的应用将日益广泛。💡OpenAI无疑将成为这一领域的引领者,他们可能会提供强大的模型技术,让全球的企业都能接入和利用。国内的巨头如百度,也已明确表示会跟进这一趋势,积极打造自家的AI生态系统。🚀对于国内软件企业来说,选择像OpenAI或百度这样的成熟供应商作为底层能力将变得至关重要,这不仅能提升产品的智能化水平,也将助力他们抓住技术革新的红利。SEO优化提示:#AI模型开放# #OpenAI技术引领# #国内企业AI战略# #软件企业基础能力
二、ChatGPT是什么
🌟ChatGPT🔥:引领AI革命的神奇问答神器!💡去年全球热议的背后,ChatGPT以其强大的通用能力,颠覆了人们对AI的认知。🔍作为OpenAI的旗舰产品,这家公司专注于人工智能领域的创新研究,享誉业界。🌐无论学术探索还是日常生活,只需轻轻一问,ChatGPT就能提供精准且全面的答案,让信息触手可及。欲深入了解其工作原理?它就像一个全能的超级助手,整合了自然语言处理和机器学习技术,为用户提供无与伦比的交互体验。💡想要提升技能,探索新知?ChatGPT无疑是你的知识导航灯塔!别忘了,ChatGPT的背后是OpenAI对人工智能未来的承诺和决心,他们致力于让智能服务于大众,推动科技的进步。🌐让我们共同期待,这个创新浪潮将继续引领AI领域的发展!🏆SEO优化提示:使用行业术语、关键词如”通用问答系统”、”人工智能研究机构”、”自然语言处理”、”机器学习技术”等,并适当加入表情符号以提升可读性和吸引力。
ChatGPT模型从18年开始迭代为GPT1,到19年有GPT2,到20年有GPT3等等,通过一系列的模型迭代,在今年推出了ChatGPT。这个模型是基于GPT3的模型框架,GPT3的参数量级非常大,有1700多亿,所以这个模型出来后效果比较好,大家体验下来发现功能强大,在业界受欢迎。
ChatGPT模型关键的能力来自于三个方面:1)前身是InstructGPT,通过真实的调用数据以及反馈学习,ChatGPT在模型结构、学习方式和InstructGPT基本上是完全一样的,InstructGPT基于GPT3.5的强大能力,整个模型通过OpenAI一个系列的迭代,有很多技术积累;2)ChatGPT主要的3个学习阶段包括,从OpenAI调用数据集中采取AI训练编写答案,第一阶段通过监督学习方法训练GPT3版本,然后用比较型的数据训练一个reward模型,用到一些对比学习和reward model,第三阶段是强化学习里面的PPO算法和奖励模型的语言生成策略;3)跟之前的很多模型比,单纯用监督学习或无监督学习以及强化学习的端到端形式,现在分成多阶段来做,整体模型的训练开销非常大,这个模型有1700亿参数,训练一次要400多万美元的成本,对资源的使用比较大。
三、国产ChatGPT能否挤身一线
1、差距多大
国内头部玩家,比如百度、阿里、腾讯、字节、讯飞、商汤等目前AI大模型的参数量,以及与ChatGPT的差距在哪里?我们用多久能追上?
国内这样的大模型非常多,百度、华为都有大模型。百度文心模型参数量已经达到2600亿,不逊于GPT3.0。百度今年宣称3、4月份推出类似于ChatGPT的模型,可能首期的应用场景会跟搜索结合,会形成ChatGPT、搜索的双引擎结合模式,会发布demo出来,整体看,模型的参数量级比GPT3.0大了50%。
OpenAI在18年-19年的两年时间国内的技术追赶比较快,提出比较好的改进模型,但真正的差距拉开是20年中,也就是GPT3.0出来后,当时可能很多人觉得GPT3.0不仅是技术,体现了AI模型的发展新理念,这个时候我们跟OpenAI的差距拉得比较远,因为OpenAI对这一块有技术的独到见解,也领先了国外的Google,大概Google比OpenAI差了半年到一年的时间,国内差了两年的时间。
所以梯队上,OpenAI排第一梯队,Google排第二梯队,百度排第三梯队,差距不是那么大。动态看事情的发展,百度还是有机会做得更好。从百度发布的模型看,内测版还没有开放出来,我们体验下来发现效果不错,模型参数量级看上去和GPT3.0是不差的,所以目前看上去我们相对比较有期待。
比如字节跳动也在做大模型,一方面是应用场景,接下来可能有一些商业化。这个模型不是一两个月就能做出来,需要时间积累,随着后面AIGC、ChatGPT的深度发展,里面会形成越来越多的商业化内容,对于头部公司来说,做前沿的技术积累,有利于形成先发优势。所以像字节跳动、阿里都在往这方面做。阿里、腾讯不会复制ChatGPT模式,而是做一些与AIGC相关的产业化。阿里现在往智能客服系统、AI+营销做,使得商品介绍、广告介绍不需要人工生成文案,而是通过AI生成内容。头条也用AI生成内容,因为头条是以内容生产、分发为主要业务的公司。
总结看我们跟国外的区别是,模型大小上我们很多公司可以媲美,从技术角度或者paper角度,可能我们跟他们的差距可能有一到两年的距离。
现在ChatGPT做了会话机器人,不是IT圈子里面的人也可能去试用,使得人群受众变广,其实基本的模型、训练方式,两者之间没有多大区别,而是在GPT3.0基础上做了特定领域的数据,拿过来做训练得到特定领域的模型。所以总结下来不是之前的GPT3.0做得不好。
从业界很多企业对这个事情的反馈来看,比如Google、百度相继在发力。Google已经列为红色预警,包括将来对搜索引擎的颠覆,有很高的优先级;百度也是因为搜索引擎,对这块非常上心,3月份会推出新的模型,到时候看市场的效果。所以从大公司的反应来看,这个事情可能不是噱头,而是新的技术革命的发展。甚至有夸张的说法,业内一些专家认为这是PC互联网之后的又一个里程碑式的发展。包括我们自己体验下来,ChatGPT的功能确实是很智能,而且随着OpenAI的研发,接下里朝着AGI方向的发展的更大规模的模型,我们有理由期待这个事情不是一波流的,而是从现在开始持续形成大的影响,并且扩散出去。
从GPT模型的pipeline来看,有数据、算力、模型。数据上,国内是不缺的,百度、今日头条有大量用户的真实场景的数据。算力角度,一些大厂比如百度的文心模型达到2000多亿参数量,虽然训练成本非常高,但大公司承担得起。
我们真正缺乏的是技术积累,包括数据怎么做清洗、标注以及模型的结构设计,怎么做训练、推理,这个地方很多都是需要经验和积累。包括里面的很多算法是OpenAI和deepmind提出来的,作为原作者的理解能力是我们远不及的。20年GPT3.0出现的时候,我们跟国外的差距就拉大了,当时很少人觉察到GPT3.0不仅是一项技术,那个时候我们开始逐步落后,坦率讲国内这块技术方面落后于国外,而数据、算力不会存在瓶颈。
总结下问题,我们跟OpenAI的距离确实存在,重点的技术瓶颈可能在这块的模型上面,这也是国内的弱点,所以我们需要投入更多的人力、资源逐渐弥补上,百度投入也非常多,按照这种速度下去,也许不用花两年的时间,我们能追上步伐。
2、百度文心模型为什么不如ChatGPT?
涉及到模型参数的量级,以及数据的量级。比方说算力提升10倍,那么把模型参数做更大,或用更多数据来训练。如果我们单变量来看这个事情,数据变大,模型效果变好,或者单纯把模型参数变多,模型效果也更好。如果算力提升10倍,这两个怎么平衡?光把模型参数变大,不一定会效果好,数据集的质量也要有保证。单纯的模型大小不足以刻画模型效果,还跟数据集的大小、质量有关。第二点,模型之间存在差异。百度、OpenAI模型的本身结构不一样,参数量大不代表模型效果好,因为不一定学到通用能力。百度没有公布模型的细节,我们不太了解是怎么做的,而单纯通过参数量级比较,不大能够看出效果的差别。百度对这块细节公布不多,数据集大小、模型的框架结构没有特别公布,所以不大了解整体模型的效果,以及跟OpenAI技术的差距有多大,我们只是单纯从参数量大小判断,不太好判断。
一个模型学了很多东西,东西学到哪里去了?这也是一个问题。大家可能会去想,那么通用的东西存到哪里去了。这一块目前做研究的同行非常多。目前一个主流观点是模型主体结构用transformer结构,更多做一些知识的存储,包括可能涉及到Key value的形式,涉及到知识检索的能力,但里面的细节就需要比较多的时间来解释。
微软产品中各种场景都会接入,其中2b的业务比较有影响,比如订阅office软件的企业的员工可以享受智能化服务。国内软件目前没有这个功能,为了面对微软的竞争,未来都会往这个方向发展。国内其他公司如百度也会通过输入AI能力来进行2b的商业化布局,所以对国内的企业来说也可能会有很多选择,可以选择接入openAI或者Google海外公司,也可以接入百度等国内公司提供的AI模型,市场竞争看模型的整体效果和价格。此外也涉及法律法规的问题,目前AI底层能力的使用这方面还没有特别的限制,还是法律盲区,未来是否能够顺利引入微软OpenAI的算法模型,还要有待未来立法的规范。但是AI模型未来接入应用场景是大势所趋,具体接入产品看情况。
有些行业的工作人员确实有可能被替代,内容生产的,AIGC的占比会大幅提升,挤占投稿的量级,AI也帮助提高了生产力,帮助投稿的质量和效率提升。
3、汉王科技的NLP案例
NLP领域的会存在这样趋势,小模型的厂商会慢慢被竞争掉,中小厂商没有办法去创造大模型,接入2b的服务,没有办法自研,这种模式在将来会存在。
上交所要求它请结合上述情况及国内外 NLP 领域竞争格局,说明它自己的目标。
汉王回复:
NLP 技术是人工智能领域众多智能技术之一,现在讨论较多的ChatGPT 大型通用模型研发与训练成本高昂,导致高门槛,但是通用
的大模型并不能最优地解决多样化的行业细分任务,针对特定目标的
模型进行优化训练的科技公司在行业领域有其发展机会和生存空间。
据了解,国际上进行 NLP 大型通用模型投入的公司有谷歌、脸书、微软等,国内有百度、腾讯等,公司并未进行大型通用模型的研发与训练的投入;公司文本大数据的数据智能服务主要基于 OCR、NLP 等核心技术在垂直细分行业根据客户的数据特点、业务需求、部署环境及成本负担能力等研发相关产品。与大型通用型 NLP 产品在产品设计出发点、应用对象及范围、以及规模性等方面存在较大差异。国内主要竞争对手为科大讯飞等掌握 NLP 技术的公司。公司于 2016 年组建 NLP 技术研发团队,在 NLP 领域承接了多个国家省部级课题,包括国家文化部课题《地方志资源调查与数字化加工规范研究》、《地方志数字化与知识抽取技术研究》、国家档案局课题《OCR+NLP 在档案数据化中的研究与实践》等。目前公司在 NLP 领域的技术范围已覆盖包括文本分类、信息抽取、知识抽取、机器问答、文本生成等在内的子技术领域,技术覆盖范围相对全面,获得的进展及成果,请投资人关注公司在《2020 年半年度报告》、《2020 年年度报告》、《2021 年年度报告》、《2022年半年度报告》中披露的相关内容。基于自身在 NLP 技术领域的相对全面性以及多年在行业端的深耕,已有项目落地。落地项目案例包括:中国文史出版社知识图谱项目、国家图书馆知识细颗粒度标引项目、某证券交易软件金融报告要素抽取、基于生成模型的智能投顾项目等。
综上,基于公司在 NLP 技术方面的全面性,及已经获得比较多的进展与成果,并有多种子技术在不同行业的落地应用,公司 NLP 技术在行业开拓上具有综合竞争优势;因此,公司认为自身在自然语言理解技术(以下简称 NLP)领域的行业客户业务上处于领先地位。
4、训练中采用的硬件设施通过买或者租的形式,每次训练迭代成本怎么计算?买和租各要多少钱?国内那种方式做大模型比较多?
GPT3.0涉及1700亿参数,内存达300+GB,训练过程耗费1200+万美金,此外离线训练后,访问请求来来的线上服务也需要开销。基础设施都是微软的计算系统进行,没有自建。训练过程中会出现bug,但是都没有敢重新训练这个模型,因为成本太高了,所以没有做及时的修补,披露出的数据是重新训练一次要400+万美金。
AIGC各家都开始鼓吹并开始投入,到2023为止,网络内容20%通过AIGC生成的,网络编辑是很容易替代的,比如摘要、新闻等。头条这边也在逐步用AI生成投稿,这块趋势是通过AI生成内容会逐步增加,机构预测2025年AIGC内容占比达30%+,量级很大,增长也很快,能够帮助大幅提高生产力。
安全出身的360,其实是市场份额35%的搜索引擎市场老二,从这个角度看,360和ChatGPT技术的结合有不小想象空间,不过360从2020年开始投入研究的类ChatGPT技术在内的AIGC(人工智能生成内容)技术,仅作为内部业务自用的生产力工具使用。尽快推出类ChatGPT技术的demo版产品,是360的最新计划。
或许是由于全民追棒,但凡和AI沾边的企业都在急匆匆地的公布ChatGPT相关技术和产品计划。受限于企业规模和赛道属性,它们做不到像通用性ChatGPT那样包罗万象,但它们没时间等,因为有人这样说,“如果企业搭不上ChatGPT这班车,很可能会被淘汰”。
5、大模型依赖GPU的xin片被封锁
解决方式是有国内自研的xin片,二是我们大量用GPU进行训练,供应能力跟不上需求,也可以用分布式的CPU进行替代,会慢一些,字节这边是分布式的CPU用的比较多,包括主流的搜索推荐等需求。
总之面对ChatGPT的惊艳表现,从模型的规模到效果,从回答的逻辑性和完整度上,在回复速度上,我们距外国差距还比较远。
目前全球还没有能跟ChatGPT抗衡的大模型,业界共识是差距在两年以上。国内先不谈弯道超车,趁早追赶反而是更重要的。
这是今年1月29日关于ChatGPT的第一篇文章,科技巨头新宠:马斯克、微软开响2023股市第一炮
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!