原标题:龙年春节,AIGC带来哪些“新年俗”
作者|James
马上就过年啦!你家里过年有什么习俗呢?
原先,是聚在一起放鞭炮,吃一顿团圆饭,不论主食是饺子还是米饭。八九十年代,电视机里看春晚成了一条新增的民俗。接下来,移动互联网的兴起,又让电子红包替代了“实体红包”和纸币。
要说过去的一年有什么新技术最火爆,那肯定是AIGC了。面对大模型如雨后春笋般出现,文生图工具解放了普通人作画的门槛,越来越多的自动回复开始变得更智能……我们很好奇。AIGC会给2024年的春节带来怎样的新民俗呢?
百度:三款主要产品批量上新
首先,我们得一起来梳理一下“大厂”们交的答卷。
百度旗下三款主流应用——百度APP、文心一言和百度网盘,都在春节期间批量上新。
文心一言可以生成数字分身,使用照片、人声并指定性格,可以输出一个对话模型,并使用你的音色回答问题。
它的性格设定用了MBTI的概念,说不准可以看到另一个次元壁上的自己是啥样。遗憾的是,照片只不过是用作头像,如果要做数字人拜年视频的话还是不行的。
另外,如果单论输出音色,其实剪映目前也在内测生成音色功能,据说很快就要全量上线。这样,你就不用在孙悟空和派大星那些里面选来选去了。
在百度APP可以使用写祝福、画头像、画龙、拍写真这些功能,祝福语也可以写藏头诗。
百度网盘的云一朵智能助手,将其中的星座运势功能稍加改动变成了生肖运势预测,你觉得他说的灵验吗?
阿里:全民舞王再显神通
阿里的通义千问,年初以“全民舞王”这个小游戏走红,娱乐资本论·视智未来也对其背后的技术研发团队做了个详尽的专访。
在过年期间,通义千问将全民舞王、通义万相、通义照相馆三个特别功能都做了春节特别安排。
“通义万相”是经典的作图工具,新增的“万物成龙”功能让萌宠、风景、静物等图片都可以生成类似风格的龙,我们试了试输入河豚君:
新春版全民舞王新增了几个能添加舞伴的动作模板,正如他们预告的那样,“今年计划加入的新功能,至少包括多人共舞和上传半身照片”,当然这么快就出来也是让人没想到的。
至于“通义照相馆”,可以在同一张照片当中,引入最多5名不同的家庭成员,用自己5张正面照片所制作的数字影像模型(LoRA)合影。
他们预设的模板涵盖了一些影楼常见的全家福照片的风格。我试了一下,效果还不错,至少能看出是我的脸。
目前在阿里的各个部门中,对AI技术的应用,似乎是在进行“赛马机制”。众所周知的妙鸭相机,跟通义照相馆也是采取独立发展的路线。而在支付宝APP当中,也有另一个不太起眼的AI应用。
支付宝“集五福”已经接近尾声,有一种途径,是在画面当中“找不同”的方式来找福字。他们使用ControlNet类似的方式将福字嵌入到AI文生图当中,每个图当中会有1~2个福字,很容易发现并且用手点出来。据说功能上线也就一两天时间,已经生成了10万多张带有福字的图片。
智谱:收编网红“家族群模拟器”
在大厂之外,有多个个人和机构开发者都瞄准了大语言模型能进行情景模拟的优点。过去一个月当中,已经有多款模拟器类产品出现,直接针对过年场景的更是不少。
有清华血统的智谱清言一口气推出了好几个模拟器,其中包括“七大姑八大姨模拟器”,还有为家庭聚会准备游戏,或者是如何表现高情商等等。
当然这些选单点击过去之后,也有一定概率会发现,它生成的答案并非那么特异性。不过我们要重点讲讲模拟七大姑八大姨的模拟器,它背后还有一个小插曲。
与仅仅使用prompt调节的场景模拟相比,由Chatmind AI开发的一个家族群模拟器《决战拜年之巅》就进行了更周到细致的,全方位的模拟,其效果也更逼真一点。Chatmind是独立团队开发的大模型驱动的思维导图产品,之前使用的基底大模型是GPT-4。
在前两天被媒体广泛报道之后,该模拟器经过多次扩容,仍然无法满足火爆的体验需求。开发者把服务迁移到了上面刚说的智谱清言上面。
这些模拟器之所以走红出圈,关键还是在于模拟得准,不太出低级错误,不让人出戏。这体现出了作者对大模型微调诀窍的精通程度。
其实视智未来觉得,这种在机制设计上比较成熟的模拟器,如果可以自由切换底层模型的话,倒不如开源出来,作为一个变相的大模型评测基准。可能比那些不断答题的测试会有用一些,也免得动不动就说某某模型又超越GPT-4啦。
AIGC元年,AI春晚也来了
在各种由技术进步带来的春节新民俗当中,春晚可以被称为是“皇冠上的明珠”,嗯,我知道这个词有点俗。
在UGC初出茅庐的时候,人们憋着一股劲,想要证明草根也是可以做高水平的节目的。这可能就是AB两站春晚的萌芽。B站跨年和拜年祭,现在已经是全站的明星活动,同时也是维系10余年来从二次元到国潮不断变化的主流人群,凝聚所有人心的一个最大公约数。
而在AIGC概念翻红的第一年,我们就能看到一场AI春晚的诞生。
这场AI春晚,号称有十几家AI工作室同时参与策划,4个多小时一共有40多个节目。
翻看他们的节目单,大部分都还是我们熟知的文生图基础上的视频生成,充分利用了目前AI工具特有的风格化特点。比起早前的炫技成分,现在在技术落地,参加厂商赞助的大赛等过程中,作者们更重要的是考虑如何将这种特异性的风格,用来叙述一个可用的故事。
当然也完全可以预测,由于模型主要依赖其自有知识,而且有些效果好的工具屏蔽了100年内有版权的形象IP,和现当代名人的形象生成,因此这里面讲历史的作品很显然会更多一点。
而在所有这些节目当中,其实生产难度最大的,没准应该是生成小品。这是因为,河豚君自己也尝试了一下做小品这件事,体会到了其中的艰辛。
我们自己也使用多种AI工具复合的测试了一下,但是说实在的,效果还是一般。
比如ChatGPT被要求选择过去一年热门话题和网络流行语的时候,结合人类同事的一些提点,他成功地向我们讲述了一个智能音箱在夫妻、婆婆三人交谈时不合时宜的插话,最后导致误会并解决误会的故事思路。
但是后来,它就直接罢工:
当然这很可能是来自OpenAI方面的限制,原因则不排除是有些学校的学生用它来写论文,要尽量防止代写作业的情况。
既然人家不情愿,我们也不能逼他。
所以,原本确定的用数字人把它表演出来的计划,我们也先缓一缓,看看今后有没有可能做出一个完成度更高的脚本。
但是,有一点不得不提:
目前,不论是生成一个较长的视频片段,还是用AI去写小说、写剧本、写小品,其中无可避免都要涉及一个最使用人力的过程——就是“挑”。
前一段时间,荷兰著名“卡脖子”光刻机厂阿斯麦(ASML)在YouTube上公开了一段时长三分多钟的广告,全都是使用Midjourney,Stable Diffusion和Gen-2等工具来生成的。但是在整个生成的过程当中,作废的片段很多,最终要手动挑选并且连在一起。
据官方表示,该内容的创作耗费了多达1963 个Midjourney 提示,提供了约 7852 张不同的图片,然后使用 Runway Gen-2 对这些图片进行了编译。在整个广告中,最复杂的部分是”艾萨克·牛顿”部分,主要是因为它涉及到一次多个形体转换,这很难实现。
截至目前,在文生视频方面,或者像我们所说的文学创作中,AI工具要想出好结果,仍然严重依赖于创作者本人是否具有此前的从业经验和审美。
但是在普及化之前,就让我们先享受当下的AI——
把使用通义照相馆生成的虚拟全家福打出来挂在墙上;
手里拿着七大姑八大姨模拟器,像使用谷歌翻译一样对答亲属的提问;
然后再打开电脑或手机,看一看AI春晚。
最后,咱再贴一副大模型给做的对联:
文案:ChatGPT;图片:阿里通义实验室AnyText
齐活儿!返回搜狐,查看更多
责任编辑: