ChatGPT接棒,AI新赛道:OpenAI发布GPT-4,数据标注市场迎来革命风暴?

ChatGPT与生活 2年前 (2023) lida
61 0 0

文章主题:GPT-4, ChatGPT, OpenAI, 人工智能

666ChatGPT办公新姿势,助力做AI时代先行者!

ChatGPT接棒,AI新赛道:OpenAI发布GPT-4,数据标注市场迎来革命风暴?

🎉🚀【最新科技巨头】OpenAI引领未来!🔥🔥 GPT-4震撼发布,ChatGPT升级版,打破语言界限!✨于3月15日凌晨的全球科技盛宴中,备受瞩目的OpenAI重磅推出了GPT-4这一划时代的大型多模态语言模型。作为ChatGPT的根基升级,GPT-4延续了其革命性的创新,引领我们步入一个全新的交流时代。🚀🌍这款先进的技术不仅在文本生成上展现出卓越才能,更实现了深度学习与自然语言处理的无缝融合,为用户提供前所未有的交互体验。它就像一个全能的语言魔法师,能够理解、回应并创造丰富多样的对话内容。💬📖SEO优化提示:使用长尾关键词如”OpenAI GPT-4″, “大型多模态语言模型”, “ChatGPT迭代版”, “未来科技趋势”等。欲了解更多这股技术浪潮的深度解析,敬请关注我们后续的专业分析文章,让我们一起探索这个智能新世界的无限可能!🚀

🎉【技术巨头对决】🔥 GPT-4震撼来袭,百度“文心一言”紧随其后,瞬息间点燃了AI语言领域的战火!🚀 顶尖研发团队的日夜较量,瞬息万变的创新竞赛,中国的科技巨头们正全力以赴,打造属于自己的ChatGPT神话。🔍 每一秒的进步,都牵动着无数目光,这场无声的竞速赛,谁能引领潮流,让我们拭目以待!🏆

🌟【革新不止步】🔥 GPT-4的超凡之处在于它的全栈“多模态”能力,相较于ChatGPT(源于GPT-3.5)仅受限于文本交互,它能跨越视觉边界,理解并回应图片与文字的复杂信息。换句话说,它不仅能解读表情符号背后的深层含义,还能轻松解析梗图,让交流更加生动有趣。🚀

🌟【OpenAI研究新突破】🔥 GPT-4震撼登场!🚀 顶尖智能模型再创新高,数据表明它在数学难题上展现出无人能敌的实力,让微积分不再是大学生的噩梦。🏆 律师资格?小菜一碟!👍 SAT数学?更是轻轻松松!🎓 这次,GPT-4不仅超越了前辈,还在人类测试中大放异彩,每一项成就都令人惊叹不已。🔍 SEO优化提示:使用关键词”OpenAI研究”, “GPT-4”, “高等数学”, “律师资格考试”, “SAT数学”, “智能模型新突破”等。

🎉🚀【最新科技巨头】OpenAI引领潮流!🔥💡ChatGPT Plus震撼登场,让对话更上一层楼!🌟monthly Subscription now available for $20/month, exclusive to early adopters!🎉但这并非全部,GPT-4的力量正在被巧妙地融入,等待用户探索的不仅是卓越的文字交互体验。惋惜的是,图像输入功能还在筹备中,不过这并不妨碍其强大的文本生成与理解能力。💡🔍ChatGPT Plus,不仅满足了对高效沟通的需求,更预示着AI未来无限可能。🚀🔥准备好迎接这场智能革命,让创新无界!👩‍💻👨‍💻欲了解更多详情或立即订阅,敬请访问我们的官方网站链接:[链接]。在那里,你的每一次点击都将引领你进入一个全新的知识与交流的天地。🌐📚#ChatGPTPlus #OpenAI #人工智能 #订阅体验

🌟【揭秘未来】🔥GPT-4震撼升级!🚀尽管OpenAI尚未透露其训练数据量的神秘面纱,但基于ChatGPT(源于GPT-3.5)的强大足迹,我们不妨大胆推测,GPT-4的数据规模或将直逼天文数字——高达100万亿参数!💥这一飞跃性的进步,无疑将人工智能推向崭新境界。🔍想象一下,如此庞大的模型能解锁多少知识与智慧的宝库? kode#AI进阶 #GPT_4探索

而在几年前,这是不可想象的。

ChatGPT万亿参数背后

全球顶级人工智能(AI)科学家、斯坦福大学终身教授、曾任谷歌首席AI科学家的李飞飞分享过一个故事:

2009年之前,AI图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。

更深层次的原因是,想让AI认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片“喂”给AI进行训练。“有多少人工,就有多少智能”,AI能力越强,背后要付出的人力越多。

因此李飞飞设想,如果人工标注足够多的图片并用以训练,理论上就能够得到“无所不知”的模型。

这堪称一个疯狂的想法,如果想让AI识别出字典上的所有物体,需要标注的图片数量达上亿张,李飞飞的3人课题组要不眠不休干几十年才能完成。

最后,李飞飞不得不通过众包平台发布任务,低价雇佣全球各地的劳动力完成标注任务——可想而知,大部分标注工来自更具人口红利的国家和地区。

这是全球最知名大型视觉数据库ImageNet背后的故事,也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了全球各地大大小小的AI项目,但也揭示了AI数据处理环节是劳动力密集产业的事实。

从那之后,资金涌入各类AI模型创业领域,相比之下AI数据环节则少有人问津。

不过十余年之后,当曾经梦想的“无所不知的模型”真正诞生,情形似乎开始发生变化。

美国研究机构OpenAI发布的大语言模型ChatGPT,被视为揭示了AI行业新的发展方向,也带动各路资本涌入大语言模型研发。

大型模型对数据处理提出了新的玩法,也意味着全新的技术掘金空间正被打开。一二级市场中,投资热情已经带动着相关企业的估值高涨。开年至今,A股“AI数据第一股”海天瑞声已拉出4个涨停板。截至3月15日收盘,海天瑞声市值已达到70.41亿元。

不仅如此,据业内消息,多家大厂正在着手将数据标注团队独立出来。一场对AI数据服务市场的抢夺战,正在吹响号角。

“AI数据”突然又香了

AI数据处理主要步骤包括数据收集、清洗原始数据、对数据进行标注等等。根据相关统计,数据处理往往会占据整个AI项目实施过程中80%的时间。其中最耗费时间的则是标注环节。

数据标注是指人工对文本、视频、图像等元数据进行标注,以此将元数据转换为机器可以识别的信息,标记好的数据才能用于训练AI模型。因此,数据标注常被视为“dirty work(脏活累活)”,相关工作常被委托给第三方外包企业完成。

从2022下半年开始,这项曾经不受欢迎的“dirty work”,突然获得了前所未有的重视。

“我和团队2017年开始创业时,很多机构还无法理解数据处理的价值,我们只能通过描述未来的愿景说服他们。之后几年里,我们平均营收年增速在50%-100%,因为我们一开始投入在自动化算法的比例比较大,坚持难而正确的事情,所以横向对比,没有纯粹做业务的公司跑得快。”AI数据服务企业星尘数据(北京星尘纪元智能科技有限公司)的创始人、CEO章磊告诉市界。

不过,最近情况明显发生了变化。越来越多投资人找到星尘数据,希望能对其进行投资。

2022年12月底,星尘数据完成了5000万元的A轮融资。据一位接近星尘数据的知情人士透露,此后仍有多家投资机构在积极接触星尘数据,“有时候一天要接触不止一家机构”。公司预计将在2023年中开启下一轮融资。

一家企业面临的际遇变化,背后是越来越多的投资人正将目光投向这一领域。

供职于一家腰部投资机构的Andy告诉市界,目前AI数据处理项目已经成为新的投资热点,“在2017、2018年的AI融资高峰期里,如果一个项目同时满足海归科学家、CV(计算机视觉技术)、团队这3点,大家都会抢着投。现如今如果把CV换成数据,大家也会抢着投。”

ChatGPT接棒,AI新赛道:OpenAI发布GPT-4,数据标注市场迎来革命风暴?

所谓“抢”,体现在当Andy接触到某个数据处理团队时,“对方会直言近期也有别的投资方来联系过,压力就给到我这边了”。

在中小型投资机构做出动作之前,头部的资本已更早地对AI数据进行了布局,这更让新入场的团队和资本感受到压力。

比如,国内“AI数据第一股”海天瑞声曾在2017年的B轮投资中,获得了小米集团的青睐;2018年,梅花创投现身于爱数智慧的A轮融资;2019年,数据服务平台格物钛完成Pre-A轮融资,红杉中国、真格基金同台投资……

如果说AI数据服务在一二级市场的火热距离普通人的生活还有距离,那么产业层面的火热则更容易被人们所感知。

近几个月,在河南从事文本标注工作的史月,突然发现自己的职业“火”起来了,“我一直都是独立做标注单,靠熟人组团接单。最近明显感觉单子多了,有时候突然有熟人把我拉到一个微信群里,然后就开始发需求,问能不能接”。

在内蒙古的易晖也有同样的感受:“甲方非常多。我一年前入行,在本地数标基地和朋友一起创业做标注团队,一年过去我们已经发展出300人的团队了。”接下来,易晖还打算继续扩充团队:“你只有更大的团队,才能拿到更大体量的数据包。”

不仅如此,易晖口中的一些“甲方”已亲自下场,试图自主搭建数据标注团队。据36氪援引业内人士信息:“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”

消解劳动密集的“魔咒”

与AI数据投资热潮分不开的,是以ChatGPT为代表的大模型的兴起。

Meta首席人工智能科学家Yann LeCun评论ChatGPT称:“(它)并不具有创新性,也不具有革命性……它只是个巧妙的组合”。

从AI的三要素算法、算力和数据角度分别来看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代码已经开源;而ChatGPT训练过程中由英伟达芯片A100支持也早已不是秘密。在这个令人惊叹的大模型中,唯一无形的技术壁垒只剩下数据——那多达175B个参数,一个极其高质量的数据集。

如国内AI企业OneFlow对此评论的:“算力(芯片)是自由流通的商品,花钱可以买到,工程(算法)上有开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑战在于高质量训练数据集。”

至今,OpenAI尚未公布ChatGPT训练用数据集的来源和具体细节。

ChatGPT接棒,AI新赛道:OpenAI发布GPT-4,数据标注市场迎来革命风暴?

“人工智能三要素里,数据不值钱,这是过去几十年里大家形成的观念,但是就像Paul Graham(硅谷知名天使投资人)说的,创业思维最吊诡的一点在于‘正确的做法和直觉往往是相悖的’。现在全球估值最高的AI公司,恰恰是一家数据标注企业。这足以说明数据服务的价值是被低估的。”一位投资人向市界评论道。

他提到的这家AI数据标注企业,是美国华裔创始人Alexandr Wang在2016年创办的Scale AI。截至2021年4月宣布的一轮融资,Scale AI的估值为73亿美元,公司客户中包括OpenAI、Airbnb等知名企业或机构。

这种价值的低估不仅发生在一级市场。哪怕在许多市场参与者眼中,AI数据处理也是一个人力“内卷”的生意。

星尘数据创始人、CEO章磊分析道:“目前市场中存在最多类型的AI数据企业分为两类,第一类是‘做生意’型的企业,也就是自己聚集一批标注人力并做中间整合、低买高卖,核心竞争力在于对甲方的商务、销售能力;第二类是做众包平台,甲方可以在平台发布任务,人力自主接单,这类平台的核心竞争力是运营能力,要看拉新、月活、日活等数据。但这两类企业都没有发展算法相关的能力。”

而这两类企业,都没有脱离AI数据服务“劳动密集”的窠臼,但Scale AI代表的是一种不同于传统数据标注企业人力“内卷”的全新商业路径。尽管同样雇佣了部分海外人力进行标注,但Scale AI更多是通过自研的自动化数据标注(auto labeling)平台完成工作。

具体来说,Scale AI的标注工具能够通过算法自动、快速甄别物体,通过初筛的图片再经过外包团队的二次筛查和标注,用人机交互的方式消解对人工的过度依赖,在海量数据的效率、成本、标注准确率之间寻找最佳平衡点。

如何让数据有更高的价值

理想状态下,90%的数据标注工作都可以由数据公司提供的工具来完成。但如果想要助力像ChatGPT一样能力出众的模型诞生,这或许还远远不够。

“想要树立独特的竞争力,需要跟算法客户有更加深度的绑定,思考在数据环节能够怎么帮助前沿算法落地。”章磊表示。

数据自动化标注工具说到底也是AI算法和产品设计。而随着技术进步,算法对数据系统的要求不仅仅是人工苦力活,更多的是自动化、算法策略,以及相匹配的数据闭环系统。例如ChatGPT中的人机闭环,就需要支持主动学习和强化学习的系统与之匹配。

这意味着要建立数据服务的壁垒,或许还需另辟蹊径。据章磊分析,除了通过自动化标注工具来提升标注效率之外,还需要具备另外两方面的能力:数据策略能力和数据闭环能力。

其中,前者指的是数据服务商对AI数据处理整个过程中的领悟和把控力,既涉及大量算法相关的技术,也涉及以数据为中心的反馈迭代技术,还需要服务商掌握一整套项目管理的方法论。

举例来说,相较于此前算法客户提出标注规则,服务商“盲目”完成任务的旧模式,未来数据服务人员能否对算法标注规则给出自己的建议,来提升算法的训练效果?

另外据一位资深AI数据服务从业者告诉市界,据其调研,如今企业缺乏AI数据资源管理系统是常态,“此前由于缺乏数据管理意识,甚至很多科技大厂也没有建立起AI database,创始人甚至可能不知道公司到底有多少数据资源。但是如今随着大模型等风口降临,许多企业都准备自研数据系统”。

但是,在短时间内想要研发出可供大模型训练的数据系统并非易事。

因此,在这一方面提供助力,也是AI数据服务企业在“数据策略”方面发展的一大方向。章磊分析:“如今客户需要的数据系统需要满足两个特点,分别是具有自动化能力、具有和算法的整合能力。”

能否帮助客户在繁杂的数据中快速摸索和整理出可供训练的部分?这也考验着服务商的数据策略能力。

而数据闭环能力,指的则是算法模型与数据集之间协同的、相互的、同期的迭代。当AI模型输出结果出现问题时,数据服务环节可以动态感知到问题所在,并通过同步改变输入的参数来校正训练结果。

从这个意义而言,“数据闭环”的能力,就是模型自我快速“debug(调试)”的能力。

举例而言,许多用户在使用过程中发现ChatGPT在回答某些问题时出现了错误。而如今发布的ChatGPT并未接入互联网,训练数据截至2021年之前。

也就是说,ChatGPT模型与数据之间的实时联络被“斩断”了,模型无法实时迭代。如果能够打通数据闭环,这个问题就能得到解决。

ChatGPT接棒,AI新赛道:OpenAI发布GPT-4,数据标注市场迎来革命风暴?

▲(ChatGPT在回答某些问题时可能发生错误)

据章磊透露,目前国内大部分AI数据服务企业仍聚集于人力标注的低价值量环节,具备上述三方面潜力的玩家凤毛麟角。

英特尔联合创始人安迪·格鲁夫曾在其自传中写道:科技发展史上有一个基本规则,即只要可能发生的事,一定会变成事实。

对许多人而言,人工标注还是AI数据处理的代名词,但变化已在不经意之间发生。尽管离最终实现还有距离,但“自动化标注+数据策略服务+构建数据闭环”正为AI数据服务市场打开更大的想象空间。

对于国内玩家而言,唯有上溯产业价值链,才能在新一波的AI技术浪潮中不受荡涤。

注:文中Andy为化名。

参考文献:

1、《开启人工智能时代 给AI一双慧眼 专访斯坦福大学人工智能实验室主任李飞飞》,杨澜访谈录

2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吴恩达

3、《ChatGPT数据集之谜》,OneFlow

作者 | 董温淑

编辑 | 董雨晴

ChatGPT接棒,AI新赛道:OpenAI发布GPT-4,数据标注市场迎来革命风暴?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章