《玩•法》:读小说让人更懂 AIGC

1有一个说法是,你会觉得那些什么都能聊的博主聊什么都有点道理,直到他们聊到你的专业。潜台词是说,这时你会就觉得他们“一派胡言”,充满外行人企图对内行做法指点江山的可笑。所以当我发现陈之遥的律师文里,主角姑娘在 2023 年开始打 AIGC 版权官司,我是虎躯一震的:我非常喜欢的作者,聊到我的专业了!

《玩•法》:读小说让人更懂 AIGC

发表于豆瓣阅读一开始有点危机感:好不容易有一个每本书我都喜欢的作者,千万别出戏到让我弃文啊。结果完全没有觉得出戏,反而学到了很多!读这本书是在春节假期,所以最终就是大过节的,我居然在通过读小说的方式,用全新的视角审视我的工作!2虽然我组的工作涉及的语言模型多而图像模型少,做为一个研究院的 pm,我还是要清楚文生图/文生视频模型的基本结构和训练方法,了解从数据到算法到工程到产品的流程,清楚这些系统(日新月异)的能力边界以及各(潜在)应用场景下,用户需求对我们的研究提出了哪些挑战。但确实要承认,我在保证自己的项目通过公司的合规审查之外(有时候审查的耗时不比项目本身短),没从法律角度思考过这些低头见抬头也见的模型。举个例子吧( 会剧透文中部分情节及相关法律知识,大家酌情观看。其中法律知识部分几乎都是作者散落于各章节的原文,我现学现卖试图做出不改变原意的总结,要是有什么谬误,大概率问题在我):比如创作者想要诉 AIGC 公司侵权(未经允许使用作品做为训练数据造成创作者损失),为什么诉商标权侵权著作权侵权更容易?因为画风和画种只是抽象思想,不属于法律保护的对象。判定侵权,需要证明“接触”“实质性相似”“实质性相似”鉴定,有强调感受的“整体观感法”,注重大众对作品的艺术感受和精神体验,比如一看到 A 就能想到 B;也有更强调独创性部分的“参酌抽象测试法”,会对两者相似部分的独创性进行具体的比对,也就是“找不同”:人物神态、姿势、衣着、相对位置…不同之处多了,就会被视为“呈现出明显的视觉差异”。显而易见,前者对创作者更有利,后者对 AIGC 公司更有利。而诉著作权侵权采用”参酌抽象测试法”的概率更高,诉商标权侵权大多采用”整体观感法”。所以如果原告律师有得选,会倾向于强调商标权侵权,提议采用“整体观感法”。‍‍‍‍‍‍‍‍‍‍‍‍‍延伸一下,“接触”的推定,在人侵权人的场景下,是通过作品做过版权登记、有清晰首发时间、知名度认证等证据间接推定的。但在模型侵权人(不严谨,大概意思)的场景下,理论上的判别条件其实很简单:看训练数据中是否包含该画家的作品即可。但是在我国,当前网信办对确保训练数据来源合法的要求,是公司自查,换句话说,直接取证几乎不可能。因此文中的主角言谨律师,希望借由诉 AI 侵害知识产权案,推动建立 AI 训练素材合规的要求,从自查走向第三方监查。有理有据是不是!3就着这个机会和在行业一线做 AIGC 的朋友们聊了很久。比如聊了工程层面之外,会在算法层面应对潜在的”实质性相似”问题吗?答案是会,最简单的手段是同一作品甚至同一类作品只看一次。这个答案也只是看似简单罢了:高质量数据是众所周知的模型表现瓶颈,减少同一作品看的次数(作品质量越高,重复的可能性越大),必然会有损害模型表现的风险。而为了避免支付表现下降的代价,只看一次,意味要补充相当多的训练数据… 这才是于无声处听惊(金)雷(钱),是能调动海量资源的体现。还有一些大公司特有的合规要求引发的血案(笑中带泪版啦):训练模型如果想使用产品数据,大多数时候都只能在层层审核之后获得一个限时使用权限,时限短到按天计。所以什么万事俱备结果全组苦等数据啦,什么辛辛苦苦排到了卡,结果训到一半数据过期惨遭自动删除啦… 有很多饱含着算法工程师的哀嚎,但作为用户会感到一丝心安的故事。这种时候也会生出一些感慨:我作为从业者却要从小说中更新自己对行业的认知,也从另一个角度说明自己的工作还是不够深入扎实吧。有种隔岸观火的不畅快。‍‍4回到我国的人工智能立法进展,也是我捞出了这篇春节时候写到一半的《玩·法》书评继续写下去的原因。‍‍‍‍书中引用的与 AIGC 训练数据相关的法律法规,是网信办 23 年 7 月份发布的《生成式AI服务管理暂行办法》:

生成式人工智能服务提供者应当依法展开训练数据处理活动,使用具有合法来源的数据,涉及知识产权的,不得侵害他人依法享有的知识产权。

《玩•法》:读小说让人更懂 AIGC有趣的是,前两天有个组织发布了一个《人工智能法(学者建议稿),这本书对我的影响之一就是,我居然破天荒点进去了,在只有截图无法搜索的正文里,手动找了半天知识产权相关的内容。(哦,我试过求助 ChatGPT 了,它拒绝爬取微信链接。)还真的找到了,非常有趣,像专家组形容我国人工智能产业有“领先的追赶者”这一独特的生态位一样有趣。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍首先这个文件里提及的”知识产权”,并不是训练数据的知识产权,而是算法及其生成内容的知识产权。《玩•法》:读小说让人更懂 AIGC

其次,训练数据的知识产权是没被提到的,提到的是”数据的合理使用”。

《玩•法》:读小说让人更懂 AIGC原谅我很难找到“有趣”之外的恰切的形容,而由一本书产生的兴趣并不足以支撑我阅读完全文,学者建议稿链接再放一遍,大家自取。5一定要说《玩•法》在技术方面的不足,是我不太认同那个用来推动大结局的还不存在的算法:基于区块链的数字水印。哪怕区块链是我的知识盲区,我也能说这俩词可以说是谁也不挨着谁,在未来组合出现的可能性几乎为零… 但我就不班门弄斧地展开了,要是好奇的朋友足够多,我下次找区块链行业的从业者详细谈谈…总之本应激动人心的结局在区块链这三个字出现之后,激动人心的程度稍打折扣。但我能理解作者的意图吧。6这篇书评可太片面了,完全是以我的私人角度展开的。其实 AIGC 在本书中所占篇幅很小,故事主要还是以言谨律师为主线、演员及爱豆吴清羽为副线,写了我国娱乐法乃至扩大到文娱行业的十年。从人人都能熟门熟路下载盗版歌曲和盗版电影电视剧的过去,到片库曲库版权价格被平台间竞争炒到天价的现在;成熟度差异巨大的国内外影视行业如何联手做合拍片;有侵权争议的文学作品如何在骂声中改编影视;从女团成员和经济公司的雇佣关系,到虚拟偶像中之人和经济公司的雇佣关系……这是发生在我生活的时代的故事,点滴影响过我成为今日之我。谢谢陈之遥,如今我得以用一个新而有趣的视角,去重读这一切。还是我写 M+ 策展时候的观点,好东西和好故事是论据,策展人和创作者的论点和视角才是更为宝贵的存在。7最后,我一如既往地爱作者笔下的姑娘们。她们都富有职业使命感,也把生活过得有滋有味。世事多艰,她们蹒跚着行过万里路,一脚难,一脚佳。待到驻足回看的时候,发现每个人都将自己的路,走出了一片锦绣。比如讲一个小小的角色,许易和“许老师”吧。她是一位终身学习者,也一位并未遵循世人刻板印象而行的母亲。摘录一段男主角反思他与母亲许老师关系的话。……她说我怪她,是的,我心里一直有想法,哪怕她其实从来没跟我断过联系,每年不是回来看我,就是接我出去旅游,每个礼拜都会给我写一封很长的email,给我寄书,跟我聊书、音乐和电影……我那时候念初中,学校里也有同学被父母送到国外去homestay或者寄宿,我当时听说,感觉都是羡慕。其实,她做的也是同样一件事,只是角色反了一反而已,她离开家,把我留下了。我为什么会觉得远行的只能是我,不能是她?……摘自:《玩·法》 – 陈之遥 在豆瓣阅读查看: https://read.douban.com/ebook/438587238 本作品由陈之遥授权豆瓣阅读全球范围内电子版制作与发行。 版权所有,侵权必究。然后引用这句作者借由许老师介绍给读者的,诗人 Mary Oliver 的诗句结束这篇长而偏颇的书评吧。「Tell me, what is it you plan to do with your one wild and precious life?」封面图为 MidJourney 生成,能够“还算准确地生成字母”是文生图领域最近的一大进展。Prompt: 3D render of the word “AIGC”, white text, black background, clean background, highest detail, best quality –ar 47:20 –s 750

《玩•法》:读小说让人更懂 AIGC

版权声明:lida 发表于 2024年9月2日 am11:05。
转载请注明:《玩•法》:读小说让人更懂 AIGC | ChatGPT资源导航

相关文章