AIGC介绍
AIGC 即 AI Generated Content,利用人工智能技术来生成内容,它被认为是继PGC、UGC之后的新型内容创作方式。2022年AIGC高速发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
AIGC可以生成文字、代码、声音、图片和视频。
1)AI生成文字
目前AI已经可以作诗、写邮件、写广告、剧本和小说。OpenAI的GPT-3模型是AI生成文字中最成熟的模型。
GPT-3模型商业化:自动写邮件的OthersideAI,自动写广告文案的Copy.ai和Jasper.aiAI写作:采用AIGC技术的虚拟人度晓晓写作高考作文,在不到1分钟的时间,完成了40多篇文章,获得专家打分48分的成绩,击败了75%的考生知识管理和内容协作平台Notion也发布了其文字自动生成产品Notion AI
2)AI生成代码
Deepcode:由人工智能驱动的代码审查软件DeepCode宣布,它已经检查了超过400万名开发者的代码。DeepCode的机器学习机器人精通JavaScript、TypeScript、Java、C/ c 和Python。Kite:是一款由 AI 驱动的代码补全插件,可以帮助开发者更快地编写代码并保持流畅,并且支持 13 种语言和 16 款编辑器。但因付费用户过少,已经关闭。
3)AI生成音频
音乐创作
歌词音频对齐、音乐节拍识别、音乐质量检测、韵律识别等系统
音频合成和音频降噪性能,保障用户音乐作品的高质量完成度和呈现度。
语音合成
阿里推出的新一代语音合成技术KAN-TTS,可以应用到汽车导航系统/地图系统。
4)AI生成图片
今年AI作画水平突飞猛进,其背后的算法模型也在不断迭代,年初推出的Disco Diffusion只能生成粗糙的图片,4月OpenAI发布的DALL-E2代已经可以生成完整的人像和图片,到8月StabilityAI发布的Stable Diffusion模型取得质的突破,已经可以生成可以媲美专业画师的作品,生成图片的效率也从年初的数小时到现在的几分钟甚至数十秒。
AI做图的模型特点出现时间GAN(Generative Adversarial Network)不稳定、分辨率低、只会模仿无法原创2014年CAN(Creative Adversial Network)表达抽象、能够原创2017年DALL-E(openAI)文字转绘画、绘画水平一般2021年2月CLIP VQGAN可文字转绘画、开源、绘画水平一般2021年4月Disco Diffusion可文字转绘画、开源、原创性、图片精美、渲染时间长2022年2月Midjourney可文字转绘画、付费、适合人像、突出细节2022年3月Dall-E2(openAI)可文字转绘画、付费、限制较多,对复杂文字理解准确、艺术性不高、渲染快2022年4月Stable Diffusion可文字转绘画、免费开源、原创性、灵活度高、图片精美、真实感、艺术性、渲染快2022年8月Imagen(Google)有限公开,理论上比DALL-E2效果好2022年11月
5)AI生成视频
目前AI生成视频的算法模型还未成熟,也还没出现一家独大的局面。9月底Meta公布了AI制作视频工具Make-A-Video,Google也紧接着发布了Imagen Video和Phenaki。
AI生成视频模型特点出现时间Morpheus输入文字即可生成3D和动画2021年10月Make-A-Video(Meta)文字转视频、图片转视频、视频生成视频2022年9月Image Video(Google)文字转视频、视频质量高2022年10月Phenaki(Google)文字转视频、情节连贯2022年10月Stability AI Video暂未公布研发中
核心技术
序号深度学习模型类别出现时间特点1GAN(Generative Adversial Network)图像生成20141 生成器用来生成图片,判别器用来判断图片质量,两者互相平衡之后得到结果2 对输出结果的控制力较弱,容易产生随机图像,分辨率比较低2CLIP(Contrastive Language Image Pre-Training)图像生成20211 进行自然语言理解和计算机视觉分析2 使用已经标注好的文字-图像训练数据。一方面对文字进行模型训练,另一方面对图像进行另一个模型的训练,不断调整两个模型内部参数,使得模型分别输出的文字特征值和图形特征值并确认匹配3Diffusion图像生成20221 通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像2 经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的干净数据4ChatGPT文本生成20221 通过使用大量的训练数据来模拟人类的语言行为,并通过语法和语义分析,生成人类可以理解的文本。2 根据上下文和语境,提供准确和恰当的回答,并模拟多种情绪和语气。这样,就可以让用户在与机器交互时,感受到更加真实和自然的对话体验。5MockingBird语音克隆2021借助深度学习算法,可以完全模拟某个人的声音,而且由机器合成的语音连情绪都能够完美表达出来。6AudioLM音乐生成2022是一个具有长期一致性的高质量音频生成框架,将输入的音频映射为一串离散的标记,并将音频生成任务转化为语言建模任务7NeRF三维重建2020用2D的posed images作为监督,即可表示复杂的三维场景。
实际应用
三个发展阶段:“助手阶段”——“协作阶段”——“原创阶段”。“未来十年,AIGC将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
AIGC的出现意味着创作者将从繁冗的基础性工作中解脱出来,把更多的精力放到创意表达上,这是未来内容创作行业,甚至是人类工作方式的整体趋势。
目前由人工智能生成的数据占所有数据的1%不到,根据Gartner预测,到2025年,人工智能生成数据占比将达到10%。
互联网时代web1.0web2.0web3.0内容生产方式PGC(专业生产)UGC(用户生产)AIGC(AI生产)优点专业、质量有保证自由上传、内容丰富维护成本低生成效率高以假乱真,超出想象缺点昂贵,限制内容生产数量质量参差不齐,但可以通过算法修正对算法要求较高
1)AIGC 传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播
2)AIGC 电商:商品3D模型、虚拟主播、虚拟货场
3)AIGC 影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片
4)AIGC 娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画
5)AIGC 教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D
6)AIGC 金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服
7)AIGC 医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴
8)AIGC 工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感