文章主题:
AI正在“占领”内容创作领域。
作者 | 周晓莉
编辑 | 栗子
前段时间,国内知名摇滚乐队万能青年旅店的作品《杀死那个石家庄人》在B站火出圈了。原因很特别:这首歌的每一句歌词,都被一个名为“Midjourney”的AI生成艺术工具配上了画面。
AI根据歌词含义生成的图片
自此之后,“AI作画”像病毒一般在B站蔓延。很快,《七里香》《孤勇者》《加州旅馆》《波西米亚狂想曲》等传唱度颇高的歌曲,无一例外都成了AI作画的绝佳素材。
更为出名的要数今年8月,一幅名为《空间歌剧院》的美术作品在美国科罗拉多州博览会上获得一等奖。随后其作者Jason Allen透露,这幅作品是出自AI之手。
通过AI绘图工具Midjourney创作而成的获奖作品《空间歌剧院》
有趣的是,大赛评委并未对该幅作品进行改判,并直言:即使它是AI生成的作品,也依旧配得上这样的成绩。但显然其他艺术家对此愤愤不平,认为这属于高科技对创意的“剽窃”。
曾几何时,人们对AI在艺术场景上的落地前景嗤之以鼻,认为AI只能完成一些依靠算法实现的计算工作,而艺术创作是上帝赐予人类的独有天赋。而如今显而易见,人类这一点最后的骄傲,也正在被AI“吞噬”。
近两年,DALL·E 2、GauGAN2、Stable Diffusion、Midjourney等各种AI作画平台快速崛起。去年1月,OpenAI推出了DALL·E,仅仅1年后,其升级版DALL·E 2的升级版便以4倍的分辨率开始生成更逼真、更准确的图像,不到3个月注册人数就突破100万。
火的不只是AI作画,还有AI生成视频。距离Stable Diffusion的正式开源还没过去多久,Meta就带来了新产品Make-A-Video,它能够直接通过文字生成视频。随后,仅不到半个月,谷歌又带着从文本到高清视频的AI模型Imagen Video和 Phenaki进场(前者倾向于打造视频质量,后者倾向于视频的逻辑与时长)。
显而易见的是,随着人工智能生成能力的突破进展,内容生产已经从用户生成内容(UGC)、专业生成内容(PGC),进入到人工智能生成内容(AIGC,AI generated content)时代。从AI作画到AI视频的层出不穷,预示着AIGC时代已然拉开帷幕。
1.为什么科技巨头都在布局AIGC?
对于AIGC,百度创始人、董事长兼首席执行官李彦宏在今年百度世界大会上解释:AIGC就是“人工智能自主生成内容”。
在李彦宏的判断中,AIGC将迎来三个发展阶段:
第一阶段是“助手阶段”,AIGC辅助人类进行内容生产;
第二阶段是“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
第三阶段是“原创阶段”,AIGC将独立完成内容创作。
事实上,AIGC并非新鲜事物,此前已经被探讨过很久,例如微软小冰等人工智能作诗、写作、创作歌曲的产品,但始终没有出现大规模普及的标准化to C产品。
但为什么几年后的今天,AIGC又开始集中爆发,引来科技巨头争相布局?
据量子位AIGC图谱显示,现在AIGC主要用在文字、图像、视频、音频、游戏以及虚拟人上,里面涉及的初创企业大多集中在A到B轮,包括DeepMusic、倒映有声、聆心智能、彩云小梦、rct AI、影谱科技、超参数等。
我国AIGC产业链划分 图源:《AIGC/AI生成内容产业展望报告》
而国内大厂百度、腾讯优图、阿里巴巴、快手、字节跳动、网易、商汤、美图等也都在AIGC领域有所投入。
例如,百度推出的AI艺术和创意辅助作画平台文心一格;腾讯打造的写稿机器人“梦幻写手”;阿里巴巴旗下的AI在线设计平台Lubanner,帮助营销人员生产Banner;字节跳动旗下的剪映以及快手云剪都能提供AI生成视频;网易推出的一站式AI音乐创作平台“网易天音”等等。
国外在AIGC领域更是神仙打架。既有科技巨头谷歌、Meta、微软等,也不乏AIGC的新晋独角兽Stability AI、Jasper、OpenAI等。并且科技公司很快又将AI作画的热度延续到了AI生成视频。从Meta宣布由文本到视频的系统Make-A-Video,到谷歌宣布的可以从简单的文本提示中生成高清视频的Imagen Video和Phenaki,AIGC在海外迅速发展。
国内外各大公司纷纷入局AIGC领域的一个重要原因,就是文本-图像生成模型Stable Diffusion的正式开源。
此次开源,Stable Diffusion开放的不仅仅是程序,还有其已经训练好的模型,这意味着后继创业者能更好的借助这一开源工具,挖掘出更丰富的内容生态。Stable Diffusion的开源,为更广泛的C端用户普及起到至关重要的作用。
其次,AIGC的爆火,也得益于生成扩散模型和多模态预训练模型等技术的快速发展,在图文生成效果上有了显著进步,让AI可以快速、灵活地生成不同模态的数据内容。
在2021年之前,AIGC还主要是文字生成。而新一代的模型可以处理任何内容格式,包含文字、语音、代码、图像、视频、3D模型、机器人的动作等等。比如近期以DALL-E2和stable-diffusion为代表的AIGC技术在图文生成效果上,能够广泛应用于内容生成、编辑和创作等领域。
快手Y-tech AI技术中心负责人万鹏飞告诉「甲子光年」,生成式技术的一大优势在于,它不但能够在工具层面提升内容获取与编辑的效率,还能在创意和策略层面为人们提供参考。(注:生成式技术:即利用现有文本、音频文件或图像创建新内容的技术。通过生成AI,计算机检测与输入相关的基本模式并生成类似内容)
与此同时,如今各类社交和流媒体平台的普及,也驱动着内容生产方式的演变。AIGC作为继PGC、UGC之后的新一代内容生产方式,其中的底层原因肯定是需求驱动,随着人们对内容的需求越来越旺盛,内容产业也必须去升级迭代。这让AI从以往辅助内容创作的工具逐渐演变成可以直接创作,并且在写作、绘画、作曲、设计等诸多创意类上已经能够胜任。
最后是外部环境因素,在经济低迷时期,科技行业会选择相应收敛开支,并将重点放在像是人工智能商业化这类更务实的地方。
疫情之下,企业更加强调降本增效,人工智能生成技术因此成为创造者和团队在增强自身创作能力时的首选工具。所以当市场低迷需要内销时,这项业务将加速爆发。正犹如每一次金融危机时,都会有一些做娱乐性的互联网公司出现。
国际咨询公司Analysis Group发布报告称,到2031年,元宇宙对全球GDP的贡献可达到3万亿美元。围绕虚拟世界、元宇宙基础设施建设而来的数字人生态和围绕互联网新媒介构建的音乐生态已初具雏形,AI技术规模化应用落地,也只是时间问题。
2.AIGC爆火,新一轮产业进化来临
一个产业爆火后,最先嗅到“芬芳”的总会是资本。
10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成了1.25亿美元的A轮融资,估值达到了15亿美元,而Jasper AI从产品上线到现在也就18个月时间。
而就在Jasper.ai宣布融资的前一天,AIGC领域的另一龙头公司Stability AI则宣布获得1.01亿美元,来自Coatue和光速的投资,公司宣布会继续研发用于生成图片、语言、音频、视频和3D的AI生成模型。投后估值达到10亿美元,成为新晋独角兽企业。
不过,相较于海外市场已经出现数家独角兽的情况,中国创投圈还没有真正在出手上“热”起来。截至目前,国内可以公开查询到进入融资阶段的AI作画初创公司,只有在10月份获DCM中国数百万美元的天使轮投资的TIAMAT。其他该领域的公司或平台如6pen、draft.art、大画家Domo、盗梦师等,均未进入融资阶段。
资深投资人高宁,最近一直在关注AIGC领域,他在与「甲子光年」进行交流时表示,AIGC确实是资本市场近期所重点关注的领域。
他认为如果在AIGC领域创业,最好是做全球市场,因为在这里面少不了中文或者是中国元素的文化载体,会诞生很多机会。
中国内容产业规模庞大,领域众多,有超过5亿用户的中国网络文学市场、千亿的国漫产业、市场规模破万亿的中国广告行业以及3万亿的中国传媒产业等。
在当前新冠疫情反复的背景下,对数字内容的需求也更加强烈,红杉资本预计生成式人工智能将“产生数万亿美元的经济价值”。
实际上,近年来随着全球信息化水平的加速提升,人工智能与传媒业的融合发展不断升级。AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。
除此之外,在推进数实融合,加快产业升级教育下,金融、医疗、工业等各行各业的AIGC应用也都在快速发展。
人工智能生成内容(AIGC)应用视图图源:中国信息通信研究院
总体来说,在当前数字经济与实体经济的合并、虚拟自我和真实自我合体的趋势下,AIGC发展的前置条件已经具备,这极大带动了相关产业的发展。
娱乐&影视产业:AI助力视频剧本创作、打造虚拟偶像IP等
从今年9月以来,Meta和Google先后公布了自己在AIGC最前沿领域的最新成果。尤其是Google团队推出的AI视频生成模型Phenaki,能够根据文本内容生成可变时长视频的技术,在公布的DEMO中,Phenaki基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。可见,Phenaki瞄准的是长视频制作。Phenaki的出现,势必会对未来整个视频行业造成冲击。
同时,运用AIGC技术能够有效激发影视剧本的创作灵感,AI虚拟数字人也能够出现在影视剧本中扮演不同角色,在短剧中极大地提升影视产品的后期制作质量,帮助影视作品实现文化价值与经济价值的最大化。
电商产业:数字人辅助带货,XR商品展示等
当前AIGC在电商行业的应用已经比较广泛,通过打造虚拟主播,电商能为观众提供24小时不间断的货品推荐介绍以及在线服务,商户直播门槛因此降低。
除将数字人用于电商辅助带货之外,数字人还被用在诸如影视创作、动画、VR\AR\MR、电视主持、虚拟偶像等场景。
「甲子光年」了解到,在AIGC领域,有不少企业选择将落地场景放在数字人上,这里面既有像是亚马逊、谷歌、苹果、微软小冰、百度、腾讯等中外互联网大厂,也有不少创业公司。
数字人作为近两年才开始出现的赛道,竞争远还没有像是TTS(语音合成技术)那么“卷”。当前国内做数字人的企业,大多还在初创阶段,这在一定程度上也意味着,创业公司的机会或许潜藏在更加垂直的应用赛道之中,找准方向十分关键。
倒映有声是一家提供虚拟数字人技术解决方案的公司。其通过神经渲染技术,打造了眼科医生陶勇的AI数字分身,实现AIGC在健康科普场景的落地。
凭借输入文字即可生成科普音频/视频的内容生产方式,神经渲染技术充分解放了医学专家的真人劳动力。相对于传统的3D建模方式,神经渲染技术可以更快速地创建AI数字分身,降低时间成本与财务成本,这让AI数字人拥有了更广泛的落地场景,也更容易向C端用户去下沉。
据万鹏飞介绍,未来1-2年,数字人+AIGC是比较有前景的商业化方向。数字人是一种新的人机交互和人人交互模式,AIGC是一种新的内容生产模式,两个概念可以互相组合并解锁众多有价值的应用场景,可广泛应用于娱乐直播、电商直播、视频制作、数字员工、虚拟偶像等领域。
广告&传媒产业:创意和素材生成、虚拟世界互动等
在AIGC加成下,各行各业的创作者经济迎来了新的增长点。比如有声书的配音行业,影视配音行业、动漫制作画师,或者是一个营销广告公司的设计师,都可能是未来AIGC的主要使用者,来辅助自己的产业去做效能优化。
另外,很多媒体机构开始用AIGC生成的图片用作杂志封面,一些作家或者小说家也能够用AI作画来为自己的文章或者小说配图。《经济学人》前段时间就用Midjourney生成的图片做了杂志封面,AI生成图片,还将进一步在各行业普及。
经济学人用Midjourney生成的图片做的杂志封面
医疗行业:AI智能化诊疗、人机情感交互
在AIGC领域,目前并没有多少公司在垂直赛道里深耕。除去已经相对成熟的金融零售和客服赛道,心理健康是与AIGC深度融合的最具潜力的行业之一。但心理健康赛道虽然大,由于天花板高的原因,大部分AIGC公司都因受到了专业领域融合的限制而难以发挥技术优势,行业内高质量解决方案供给严重不足。
实际上,通过AIGC的技术和手段,医疗行业能够在供给侧实现标准化地有效干预和治疗。例如可以利用虚拟人来模仿心理治疗师或是医生助手,用AI生成的对话与用户建立起深层次信任的基础,再通过角色化、个性化的沟通去达到治疗效果。
由清华大学计算机教授黄民烈所创办的聆心智能,是典型的AIGC企业,深耕心理健康行业多年,沉淀了海量的中文对话数据,基于大模型在情绪支持、倾听陪伴、角色扮演、开放闲聊等多个层面构建了特有模型框架,通过以生成式对话模型为内核驱动、其他AIGC能力为表现形态的产业应用逻辑切入心理健康赛道。
其研发的对话机器人“Emohaa”,主要用于构建以AI生成对话为核心的交互式数字诊疗方案,让机器人能够表达对用户的理解和共情,并进行及时的情绪支持和心理疏导,来达到好的治疗恢复效果。
游戏行业:游戏NPC人物生成、场景和关卡生成
游戏行业能够利用文本生成能力创建丰富有趣的游戏NPC能力。根据游戏中的不同场景,来设置NPC的对应话术,所有NPC的回答都能够根据设置词语的提示实时生成。另外,将AIGC用于一些微观素材创作上,也是短期可行的机会。
不过,从当前AIGC在产业中的发展来看,最大的一个问题在于行业尚未建立起明确的变现方式。
以写作机器人、自动配音、AI作画等场景为例,大部分产品仍处在流量吸引的免费试用阶段,收费空间较小;且大多还是轻量级的工具产品,不具备更大的内容场景。能否在互联网流量相对稳定的前提下有效接触C端用户,达到好的活跃度和留存率,依旧是一项挑战。
但这也为AIGC带来了广阔的成长空间,使它可以朝着社交方向或者内容社区更大的产业方向去走。
3. 让需求推动,而不是技术倒逼
当前,无论是巨头互联网公司还是创业公司,都在循序渐进地摸索AIGC方向,当前多集中在感知层面的AIGC方向,去探寻这上面的商业化落地场景。
黄民烈告诉「甲子光年」,从产业的角度看,虽然国外走的相对靠前,但是一些比较典型的公司,主要还是做视觉感知智能层面居多,比如文到图的生成或者文到视频的生成。
黄民烈认为,未来AIGC领域的商业化可能会朝着三个层次方向去发展。
第一层次在于感知层面,即直接简单的、能够带来感官刺激的东西。前期更多还是聚焦在听视觉层面的感知智能上,包括AI作图作曲、AI视频、3D等;第二层次会来到认知层面,跟对话、写作、纠错、语言生成相关,会逐渐成为趋势;第三层次则是发展出面向特定行业的新生态链,为整个行业提供高质量的完整解决方案。
基于当前的现状,黄民烈表示,未来AIGC可以考虑跟特定的场景和具体的应用的方向去关联,即朝着场景和行业结合的方式去发展,这能让AIGC成为一个很好的辅助工具与赋能手段。
从现在最火的AI作画来看,正在不断压低作画创作门槛,只需点击进入生成AI作画官网的服务器,然后在聊天框里输入或者调用“ / imagine”选项,输入一句你脑海中想要描绘的场景文字即可。
AI作画强调对新内容的生成,而非对历史数据的辅助分析和决策。画师可以用其辅助作画,轻小说家用其绘制人设,独立的游戏制作人也能够通过AI作画大幅降低成本。
在文心一格平台输入“也无风雨也无晴”生成的像素风格作画
高宁认为,图画本身就是一个偏杀手级的应用,虽然声音或者文字的类型商业化不一定做得差,但是如果从传播效应来讲,图像所带来的视觉冲击力,也是真正把这个应用普及起来的原因之一。
同样,晨山资本吴文超也认为,互联网时代开启后,营销是流量企业最主要的变现方式之一,而承载营销一个重要方式便是更加具有视觉冲击力的图文、视频等富媒体内容。
从AI生成图像再到AI生成视频,因为要用到大量数据训练模型,对算力要求呈指数级的提升,这让能够提供GPU算力的芯片制造商尝到甜头,所生产的先进图形处理器能够成为训练和部署人工智能模型的理想选择。
就在不久前,英伟达首席执行官黄仁勋公开表示,生成性人工智能是该公司最新芯片的一个关键用途,这些程序可能很快就会“彻底改变通信”。
同时,人工智能生成公司产生的大量内容,也将推动云计算产业的发展。
云厂商希望企业在它搭建的平台和框架上面做应用。据悉,Meta和谷歌已经聘请了该领域诸多专业人才,希望将这种先进技术整合到公司的产品中;而微软将在其Office套件和Azure AI中添加DALL-E ,Adobe则计划将生成AI工具添加到Photoshop中。对于中小型公司来说,在使用云服务的同时,也能够利用这些平台提供的AI系统完成自己所需要的功能架构。
随着人工智能技术的发展,资本玩家加速落地各类AI应用,虚拟数字人、自动化应用等产品层出不穷,在“AIGC+艺术”领域,AI生成图片、文字、音频、视频等内容也渐渐渗透进文学、绘画、短视频、教育等多个场景,进一步拓宽其商业化空间。
但从产品角度,AIGC的早期阶段出现的众多内容生成利器,由于使用门槛低,更多还是面向C端的产品,但大部分玩家仅仅是为了娱乐,难以转化成真正的付费用户。而如果将AIGC用在B端让其辅助工作流程或实际提高工作效率,不管是用来写营销文案还是图片生成,能够产生价值,才能成为一个可持续的商业模式。
另一个难点在于,即便各家AI作画公司制定了面向to B或to C的计算标准,短期内也很难靠作画工作赚钱,原因在于模型的训练成本太高。而国内很多作画平台采用的是自研模型,这就给AI作画工具增加了训练成本,对很多初创企业来说,这是一笔不小的成本。
而对于企业来说,本质永远是盈利。阶段性的人工智能成果,只有具备大规模商业应用,才能给企业带来价值,否则也只能是停留在圈地自嗨的模式。
吴文超表示,现在无论国内外的独角兽还是创业公司,AIGC在商业变现上还没有一个成熟的商业模式,这跟原来工业领域驱动的技术有很大差别。
“比如原来CV有特别明确的场景就是要做人脸识别,即使AI没出现,它也有人脸识别的场景,只不过有AI之后,能够让人脸识别变得更加精准。”
但是从内容生成的角度来讲,本质上还是一个富有创造力的行业,以前工业领域并没有这样一个诉求,大家普遍认为无论是做设计还是3D模型都需要人工,而不是工业界内生的需求。
吴文超形容称,现在倒过来拿着技术去找需求,有点类似拿着锤子去找钉子。这就意味着AIGC的发展比起原来CV领域的工业需求倒逼推动,更在于是人为的推动,所以商业模式就会显得不够清晰。
每家公司虽然模型架构不同,但技术上却是大同小异。下一步怎样产品化、怎样做好社区、如何将用户的反馈更好的落到模型上,以及同时做一些to B细分场景的落地,才是真正和竞争者之间产生区别的地方。
4.无序发展阶段,要让子弹再飞一会儿
近年来,在大数据、大算力的支持下,人工智能的研究也被推向了一个新的高度,Jasper的首席执行官Rogenmoser认为,“世界上的每一个工具都将以某种能力内置生成人工智能。”
从技术的发展演变来看,每一次技术的变革都会交织伦理上的挑战。当前,人工智能的法律法规和伦理准则规范并未成型,伦理问题将成为人工智能一个很大的发展阻力。
图源:Getty Images
目前,关于AIGC的伦理问题主要体现在无法确权以及版权争议上。虽然技术的发展与革命一定程度能带来内容的繁荣,但市场收益来源于市场交易,市场交易的基础在于确权。如果AIGC无法确权,一方面会导致侵权行为得不到有效解决,另外也会相应减少资本对AIGC领域的投入热情。
在版权争议上,已经能够看到一些抄袭者的出现,试图利用Stable Diffusion的开源技术去做一样的产品化。此外,对于AI作画所生成的图片是否在模仿画师风格上,也难以界定。
而随着AI技术的发展进步,未来还会不断提升自动化水平,也将会和现实结合的更加紧密,AIGC领域爆炸式的增长,会加剧数据隐私以及所有权的归属问题。
从目前探讨最多的AI作画、AI生成视频来看,随着生成工具逐步走向大众和商业市场,内容造假的风险越来越高。在国外的诸多NFT平台上,直接挂AI生成作品已经卖的泛滥无边。而国内,在淘宝、闲鱼等平台,搜索AI作画,会发现有很多人在利用AI作画来谋利。但由于目前AI作品在版权法律层面还未有明确界定,所以让其依旧游走在灰色地带。
为此,文心一格的相关负责人告诉「甲子光年」,由于目前AI已经能生成和人类作画质量不相上下的图像,这就需要支持具有独创性的绘画作品依法享有版权。建议针对AI作画在内的创新业务应用的治理,基于不同的细分应用场景和产品模式特点,来分类分级制定落地规则。
但由于行业还很新,以及各国的政策不同,每家AIGC公司在面对AI创作的版权问题上,各自处理方法也千差万别,因此,全世界当前还都处在一个博弈过程之中。
比如在安全性上,Open AI直接过滤掉很多安全词,禁止出现一些特定人物以及政治相关;Getty Images禁止用户将生成式AI图像上传到其库存图像数据库中;TIAMAT和Midjourney则一致选择了在素材库中使用无版权的图片,规避版权纠纷。
对于AIGC面临的伦理问题,黄民烈表示这是技术发展路径上不可避免的一个问题,这是因为现在的大模型AI能力它很容易做到记住和模仿,但无法进行创造,因此就会不可避免地会面临一些版权,甚至是反人类的伦理问题。
但是从整个技术发展的角度,还是要去乐观看待,他表示可以让技术发展一段时间,让技术暴露问题,再想办法从政策法律法规的角度去约束和规范它,形成一个更好的发展。总体目标还是秉持着让技术和AI为人类服务这一前提下,伦理问题未来是可以解决的。
OpenAI现任CEO Sam Altman也曾在推特上表示过,“AI将对世界带来巨大变革,而我们应该改变经济系统以适应它”。AI仍在加速发展,未来还会碰到更多边界,法规也会不断进行完善,AI发展与法规会始终磨合。
正如同硬币的一体两面,不否定AI技术的发展让人类更有生产力和效率。那么,就让子弹再飞一会儿。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!