ChatGPT版权争议：训练数据侵权的法律挑战与国际比较

ChatGPT与保险 12个月前 lida

30 0 0

文章主题：ChatGPT, AI聊天机器人, 版权争议, 训练数据侵权

图片来源@视觉中国

文 | 金杜研究院，作者 | 宋海燕

🌟【ChatGPT热浪来袭】🔥美国科技巨头OpenAI在2022年11月的科技盛宴中，推出了革命性的AI聊天机器人——ChatGPT，瞬间引爆全球讨论热潮！🚀这款人工智能巨擘以其卓越性能和无限可能，引发了无数猜测与赞叹。然而，随之而来的版权法律问题也日益凸显，特别是关于训练数据来源的质疑。👀ChatGPT的崛起无疑为科技界带来了革新，但如何在创新与合规间找到平衡，成为亟待解决的挑战。💡欲了解更多关于这款人工智能巨作的未来发展和可能带来的影响，敬请关注行业动态，我们始终在这里为你提供专业且深入的解析。📚#ChatGPT #AI聊天机器人 #版权争议

🌟ChatGPT背后的训练秘密🔍：凭借海量文本素材的滋养，这款语言模型茁壮成长。尽管各国对生成式AI的数据使用法规尚未明文规定，但全球范围内对 tekstual mining（简称”TDM”）这一领域的法律监管提供了宝贵的参考。*TDM*，简单来说，就是运用先进的计算机技术来挖掘和整理文本与数据中的模式、走向及高价值信息，是信息提取的现代化手段。

🌟ChatGPT与TDM：技术相似下的法律探讨🔍ChatGPT以其文本和数据驱动的训练方式，与TDM（Text and Data Mining）在著作权法领域有着内在联系。从技术角度看，它们都是基于输入信息进行处理，为法律秩序提供了稳定基础。然而，在实际操作中，法律适用上需要延续与协调，以适应使用需求的多样性。我们深入研究了英国、欧盟、美国及中国对TDM的合理使用规定，这些全球范例为我们理解ChatGPT的数据挖掘行为提供了指引。接下来，我们将分析现行法律框架下，ChatGPT的行为是否符合适用的合法标准。让我们一起探索如何在尊重知识产权的同时，充分利用这一先进技术带来的便利。📚💻

ChatGPT数据挖掘原理与侵权风险

🌟ChatGPT🚀：一款创新的AI聊天助手，运用尖端的 자연語言處理（NLP）科技，通过深度神经网络的力量，编织出文字的精彩篇章。它的运作模式清晰明了：首先，數據輸入——海量文本資料的滋养，涵盖了语言的多样性和灵活性；然后，机器学习——智能算法的深度学习，让其不断吸收和理解；最后，结果输出——生成的文字精准且流畅。🚀 SEO优化提示：使用关键词“自然语言处理”、“AI聊天助手”、“深度神经网络”，并适当加入表情符号如💬💡来提升搜索引擎可见性。

ChatGPT训练数据的使用流程[2]：

1. 数据收集：从各种来源收集原始数据。

2. 数据预处理：将原始数据进行清洗和标准化，以便后续处理和分析。

3. 数据标注：将数据进行标注，为机器学习提供训练数据。

4. 特征提取：从标注好的数据中提取特征。

5. 模型训练：对训练数据进行分析和学习。

6. 结果生成：输出生成物。

🌟ChatGPT的训练之旅离不开海量文本数据的滋养🌟通过深入学习和优化，这款AI语言巨擘背后的GPT-3.5模型，其参数量已突破1750亿大关，这无疑为它提供了深厚的知识库。尽管OpenAI并未透露具体的数据量，但可以想象，这样的庞大数据集使得ChatGPT能够处理更复杂、多样化的任务，展现出强大的语言生成和理解能力。🚀每一步迭代都伴随着数据的锤炼，让ChatGPT在创新与效能上更胜一筹！若要了解更多训练细节或优化成果，敬请关注相关AI领域的权威资讯，一起探索技术的无限可能！📚🔍

🌟ChatGPT背后的文本秘密揭秘🔍——数据驱动的力量🔥🚀这款人工智能巨擘ChatGPT，凭借独特的双引擎运作机制，将用户输入与海量训练资料巧妙融合，实现了语言学习的革命性突破！📝首先，用户每一步互动都成为其知识库的宝贵养分——遵循严格的《使用条款》，用户生成的内容被亲切地接纳，作为学习材料悄然融入ChatGPT的学习路径。💡而对于训练数据库，它就像一个无边界的智慧海洋，数据来源多元且丰富——三大类别交织而成，为ChatGPT提供源源不断的智慧燃料。📚不论是出于何种目的，ChatGPT都致力于保护用户隐私，任何反对授权的选择都不会影响日常体验。💌SEO优化提示：使用”双引擎”、”用户输入内容”、”训练数据库”、”数据来源多元”等关键词，同时融入情感化的描述，提升文章的相关性和吸引力。

第一种，来源于公有领域的内容。公有领域内容指的是不属于私人所有，任何人可以不受限制地使用和加工的数据，包括本身便不受法律保护的内容及已过著作权保护期间进入公有领域的内容。

第二种，通过签订合同获得合法授权的内容，即通过与权利人签订合同从而获得有效授权，合法使用相关数据及内容。

第三种，未经授权的信息及内容。该来源指的是数据及内容本身为受著作权保护的客体，而ChatGPT在未经授权的情况下对相关内容进行挖掘使用，其获取渠道通常为利用“爬虫”技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式。

通过上述方式所构建的训练数据库，由于涉及未经授权使用受著作权保护的数据及内容，因此天然具有著作权侵权风险。

在我国现行《著作权法》框架下，ChatGPT训练数据使用过程的不同行为均可能存在著作权侵权风险。首先，在数据内容收集阶段，训练数据的使用或构成复制权侵权。数据收集的方式有两种形式，分别是将非数字格式的原内容转化为计算机可读的数据格式，即“原件扫描”，或是对他人已有数据进行访问和获取文本内容。训练数据的输入过程必然伴随着相应的复制行为。

目前学界认为，ChatGPT数据挖掘过程中的复制行为不属于因数字环境传输中“暂时的”、“在技术过程中必然发生的”，且“不具有独立经济价值”的“临时复制”情形，因此除非存在法定豁免情形，否则ChatGPT数据内容挖掘行为可能构成复制权侵权。实际上，ChatGPT在数据挖掘过程中，往往并非只将数据短暂复制于系统中，而是需要将作品数据长时间停留，继而便可能涉及到对作品的永久性复制。尽管当前各国对“临时复制”的法律性质存在争议，但对永久性复制应当归入复制权规制范围却存在共识。

其次，在数据预处理阶段，训练数据的使用或构成演绎权侵权。演绎权指的是在原作品创作思想表达的基础上演绎创作新作品的权利。我国《著作权法》并未采纳“演绎权”这一术语，而是在演绎权的概念上进一步分解为翻译权、改编权、汇编权等权利。但归根结底，演绎权及其分解而来的权利核心在于原作品的主要思想表达并未因创作语言、题材、种类或形式的变化而改变。而ChatGPT在数据预处理阶段，涉及对所收集数据进行清洗、标准化、标注与特征提取等步骤，存在侵犯改编权等权利的风险。

最后，在结果生成阶段，训练数据的使用也可能构成与传播相关的权利侵权。因ChatGPT会依据训练数据自动化生成结果，并以可视化方式表现，过程中需要将数据或文本通过互联网进行传输，从著作权法角度显然也会涉及侵权。

ChatGPT数据挖掘行为本身具有高度复杂性，在所涉著作权内容不同的情形下，其侵犯的权利也会有所不同，上述仅对可能涉及的侵权风险作非穷尽式列举。关于ChatGPT在实际应用场景下的侵权形态与风险，应作个案具体分析。

域外视角下的TDM合理使用制度——英国、欧盟、美国与中国之比较

著作权合理使用制度，即在符合特定条件情形下，法律允许他人可自由使用受著作权保护的客体而无须经由著作权人同意，抑或是向著作权人支付相应报酬，为著作权限制与例外的核心制度之一。当ChatGPT训练数据未经授权使用受著作权保护内容，并且涉及到作者的独创性表达及造成公众传播效果时，便可能构成著作权侵权。

此时需要进一步判断其是否构成合理使用。合理使用的制度目的在于平衡著作权人对作品享有的专有权利与公众获取作品的需求，促进创新和文化多样性发展，保障公众基本利益。就生成式AI训练数据的合理使用规则而言，大多数国家尚未单独制定成文法规定。但各国针对TDM所制定的合理使用规则，对当下ChatGPT数据挖掘行为的合理使用制度适用具有重要指引作用。[5]

英国

作为最早制定《版权法》的国家之一，英国是合理使用制度的开创国，也是最早对TDM通过立法方式确定其合法性的欧洲国家。2014年修订的《版权法》新增了第29A条TDM版权例外规则条款，当中允许为了非商业性研究的文本和数据挖掘目的，利用计算机分析技术对已经合法获得访问的任何版权材料进行复制。[6]可见英国通过立法形式明确为TDM应用赋予了合法性，以防止版权成为阻碍相关技术创新发展的阻力。

不过值得注意的是，英国同样为相关立法设置了许多限制条件。英国虽未对行为主体设定限制，却在客体上将TDM合理使用范围限定为“合法获得访问的版权材料”，即行为人本身应当具备合法访问相关版权材料的资格。英国也对“使用目的”作出了限制，规定只有基于“计算机分析”和“非商业性使用”目的的TDM属合理使用范围，即排除了不以计算机处理、分析数据为目的的行为及具有盈利性质的商业性使用。

具体来看，ChatGPT的技术厂商OpenAI最初的定位虽为非营利组织，但其自2019年起便开始转型为营利性组织，ChatGPT的数据挖掘、使用行为难以被定性为“非商业性使用”。在使用行为上，ChatGPT训练数据的使用过程可能涉及版权意义上的多个行为，包括复制、改编与传播。

而英国《版权法》第29A条只针对TDM的复制行为提供了合法性支持，对其他行为则未设置侵权豁免，因此相关行为仍存在侵权风险。除上述条件外，英国也规定了权利限制的例外情形，指出未经版权人授权将TDM过程中产生的复制件进行交易，包括出售、出租、许可等行为仍会构成侵权。

整体而言，英国《版权法》给予TDM一定的实施空间，同时也兼顾了版权人的利益。但由于ChatGPT等生成式AI在数据挖掘与使用行为上所具有的复杂性，其在英国《版权法》框架下未必能够适用合理使用规则。

欧盟

欧盟委员会在2016年9月公布了《欧盟数字化单一市场指令》提案，随后于2019年3月通过了《数字化单一市场版权指令》（下称《版权指令》），对TDM的使用制定了版权例外规则。

《版权指令》第3条、第4条规定，基于“科学研究”与“数据分析”两种目的，并且作品为合法获取的情形下TDM具有正当性。从法律条文来看，欧盟同样通过封闭性规范的方式将TDM列入了合理使用范围，并且对TDM版权例外制度的适用设定了相应限制条件。

针对以“科学研究”为目的的TDM，欧盟将主体限制为科研及文化遗产机构。换而言之，由于ChatGPT的发行厂商OpenAI不符合相关主体要求，因此不能适用《版权指令》第3条所规定的版权例外规则。而针对以“数据分析”为目的的TDM，《版权指令》第4条实际上赋予了TDM在数据处理阶段使用行为的合法性，该例外不存在主体限制或使用技术目的限制，即使是出于商业性使用目的也同样适用。

在客体条件上，欧盟与英国都将其限定为以合法途径获取的作品。ChatGPT在数据收集、预处理阶段可能涉及多种权利侵权，而该条中只为过程中的复制、提取行为规定了版权例外，但对其他类型行为则未明确说明。

整体而言，在欧盟《版权指令》合理使用制度下，行为人享有作品的阅读权即可享有作品的挖掘权，但需要为副本的保存提供安全措施。

美国

不同于英国、欧盟以立法形式明确将TDM列入合理使用范围，美国采用了基于四要素标准与司法判例为指导的开放性立法。美国《版权法》第107条规定了合理使用制度，即以四要素作为判断标准，通过综合分析使用者的使用是否符合相关法定要素来判断该使用是否为合理使用。

具体而言，四要素标准指的是：

（1）使用目的和性质。第一要素包括该使用是商业性使用或者是基于非营利性教育目的之使用。一般而言，若被告对版权作品的使用为商业性使用，则不属于合理使用；但若使用是基于非营利性教育目的，则更有可能被视为合理使用。但自Campbell案[9]后，美国法院认为在商业性使用能明显增进社会效益时，应当以“转换性使用”作为判断标准而忽略商业性使用目的。而“转换性使用”的内涵是对原创作品进行某种程度上的改编、转化或转换，以产生新的表达形式、意义或价值的行为。

（2）版权作品的性质。法院在分析第二法定要素时，需要考虑的是究竟被使用的作品是描述事实的叙事作品或创作性很强的虚构作品。通常来说，作品的创作性越强，就越应受到法律保护。

（3）被告的使用占版权作品的数量和质量。第三个法定要素要求对使用行为不仅要进行定量分析，还要进行定性分析。

（4）被告的使用对版权作品市场的影响。第四个法定要素的重点在于，若被告的使用行为减少了版权人的收益，则被告的使用可能会被认定为不合理的使用。[10]

基于四要素标准，ChatGPT对训练数据的使用有相当可能性被认定为转换性使用，继而受合理使用制度保护。事实上，从司法判例来看，美国法院整体也对TDM持相对开放的立场，当中最具代表性的案件便是美国“谷歌图书馆”案与“TVEyes”案。

谷歌图书馆案（Authors Guild v. Google Inc）[11]

美国“谷歌图书馆”案是由谷歌图书馆计划引发的全球诉讼系列案件之一，谷歌公司在未经授权的情况下将图书数字化并收录到其搜索引擎中，这些书籍包括已出版的和未出版的作品。

2013年，美国纽约地区法院对此案作出一审判决，认为谷歌扫描图书的行为构成合理使用，不构成版权侵权。2015年10月，美国第二巡回法院确认了一审法院的判决，认为谷歌图书馆属于合理使用，不构成侵权。

在论及谷歌图书馆对原告作品的使用目的时，美国第二巡回法院认为谷歌未经授权将受版权保护的书籍进行电子扫描、设立搜索功能并将上述书籍的片段在网络上显示的行为属于非侵权式的合理使用。谷歌所采取的扫描行为是高度转换性的，其显示的文字数量是有限的，而向公众提供的只言片语也不会与原作品构成竞争或替代关系。因此，即便谷歌是一家追求利润的商业公司，这也不妨碍认定谷歌图书馆的行为属于合理使用。[12]

TVEyes案（Fox News Network, LLC v. TVEyes, Inc）[13]

在“TVEyes”案中，TVEyes公司提供的搜索引擎可以对主流电视节目进行实时监控和搜索，用户可以根据关键词检索快速定位到感兴趣的节目，并可查看不超过10分钟的节目剪辑内容，也可以对相关片段进行保存、下载。

福克斯新闻公司在2014年向法院提起诉讼，指控TVEyes公司侵犯其版权，并要求TVEyes停止提供相关服务。此后，其他电视网站也加入了诉讼行列。

最终，美国第二巡回法院认可TVEyes将大量电视节目片段复制归档，并向用户提供关键词搜索等服务的使用行为具有变革性，对原作品构成转换性使用。但却同时认为TVEyes允许用户对相关节目片段进行查看与下载并不合理，将可能对版权人的市场地位与许可收入造成实际损害。最终法院判决TVEyes对相关作品的传播构成版权侵权。

上述两个案件展现了美国司法裁判中对TDM合理使用的整体态度。在美国“谷歌图书馆”案中，美国法院认定谷歌公司基于向公众提供搜索和片段浏览服务目的而对原告作品进行全文复制的行为具有“目的转换性”，强调司法实践中应当对四要素标准作综合考量。“TVEyes”案则显示出在法院已将TDM前期阶段的使用行为认定为合理使用的情形下，倘若相关技术实施者未采取必要技术以降低对原作品权利人的替代性影响，仍可能存在侵权风险。

相较于美国“谷歌图书馆”案与“TVEyes”案中原告的使用行为，ChatGPT经过对训练数据的学习而生成结果的使用行为显然更具有“转换性使用”意义。因此，在美国《版权法》合理使用制度框架下，ChatGPT的数据挖掘行为有相当可能性得以构成合理使用。

中国

区别于英国、欧盟与美国为TDM制定了合理使用规则，TDM目前尚未被涵盖在我国《著作权法》第24条所列举的12种法定著作权例外情形中。换而言之，当前国内的著作权例外制度无法为TDM的实施提供合法性依据。

我国《著作权法》第24条规定了12种合理使用情形。然而，ChatGPT对训练数据的使用难以被该12种法定情形所保护。ChatGPT的数据挖掘行为并非为“个人学习”“教学或科研”“公共文化机构”所使用，且本质上属商业性使用，难以直接援引该条作为侵权抗辩。因此，值得进一步讨论的便是ChatGPT的数据挖掘行为能否落入《著作权法》第24条兜底条款的保护之中。从案例来看，兜底条款实际上同样难以为ChatGPT的数据挖掘行为提供法律依据，在部分案件中可见国内法院对TDM著作权侵权问题的整体态度。

A作者诉B公司数字图书馆案[14]

本案中，原告A作者是某书籍的作者及著作权所有人。被告B公司获得了涉案作品的纸件版本并将涉案书籍进行扫描。随后，B公司将扫描的图书片段开放给旗下搜索引擎，从而使互联网用户从搜索结果中看到涉案作品的片段。

在讨论B公司数字图书馆的扫描书籍及通过搜索展示书籍片段的行为是否构成著作权的“合理使用”时，法院首先指出，B公司的涉案复制行为并不属于《著作权法》（2010）第22条规定的合理使用行为，故应初步推定为构成侵权。但随后又提出，鉴于实际的司法实践中，法院已在部分案例中认定《著作权法》（2010）第22条规定之外的其他特殊情形也可构成合理使用，故如果B公司能够主张并证明其涉案复制行为属于合理使用的其他特殊情形，那么该行为也可被认定合理使用。

关于如何判断涉案的复制行为是否构成《著作权法》（2010）第22条规定之外的合理使用特殊情形时，法院提出应综合考虑以下相关因素，包括（1）使用作品的目的和性质；（2）受著作权保护作品的性质；（3）所使用部分的性质及其在整个作品中的比例；以及（4）被告的使用行为是否影响了原告作品的正常使用或不合理地损害著作权人的合法利益等。

在综合考虑了上述因素之后，法院认为在本案中，B公司未能针对上述因素提交相关事实证据，故驳回B公司关于合理使用的抗辩，认为其图书馆行为构成侵权。 [15]

从中美类案判决的对比来看，在面对相似案情与抗辩理由时，两国法院在判断相关行为是否构成合理使用时得出了相反结论。在中国“A作者诉B公司数字图书馆”案中，法院认为在《著作权法》（2010）第22条规定的具体情形外认定合理使用，应当从严掌握认定标准，而被告应当对考量因素中的事实问题承担举证责任。但该案中被告B公司并未充分举证其涉案行为属合理使用，因此法院最终推定其使用行为构成侵权。由此可见，依据当前《著作权法》相关规定，ChatGPT的数据挖掘行为被中国法院认定为合理使用具有难度，仍存在较高侵权风险。

上述观点也可以从2023年4月11日国家互联网信息办公室起草的《生成式人工智能服务管理办法（征求意见稿）》中得到印证。该征求意见稿回应了公众关注的生成式AI若干问题。其中第7条对生成式AI产品/服务的数据来源作出规制，明确规定提供者应当对生成式人工智能产品/服务的预训练数据、优化训练数据来源的合法性负责，不应含有侵犯知识产权的内容。[16]换而言之，该征求意见稿并未对TDM设置著作权例外，一定程度显示出我国立法动向仍对认可TDM合理使用持保留态度。

结语

信息获取与知识共享是数字经济的基础。随着人工智能领域高速发展，在可预见的将来仍会不断涌现涉及他人著作权作品的新型使用行为。当前部分国家已对数据挖掘、使用行为设定了著作权例外制度，尝试在科学技术的发展与著作权人的利益保障之间取得平衡。

我国《著作权法》目前尚未对数据挖掘制定著作权例外规则，相关技术在中国的实施仍具有侵权风险。但数据挖掘作为人工智能时代的基础性技术，合理使用规则的缺失必然会限制信息自由流动与创新发展。为了促进科技领域发展，我国应当保障数据挖掘技术的流通与应用，平衡著作权人利益与公共利益的冲突，建构旨在驱动创新的合理使用制度。

参看资料：

[1] “IFLA Statement on Text and Data Mining (2013).” IFLA, www.ifla.org/publications/ifla-statement-on-text-and-data-mining-2013/. Accessed 22 Apr. 2023.

[2] “ChatGPT and Data Annotation.” 23 Feb. 2023, labelyourdata.com/articles/data-annotation-for-training-chatgpt. Accessed 22 Apr. 2023.

[3] “GPT-4 Is Coming – What We Know So Far.” Forbes, Bernard Marr, 24 Feb. 2023, www.forbes.com/sites/bernardmarr/2023/02/24/gpt-4-is-coming–what-we-know-so-far/?sh=11045dd86c2d. Accessed 7 Apr. 2023.

[4] “Introducing ChatGPT.” OpenAI, openai.com/blog/chatgpt. Accessed 22 Apr. 2023.

[5] 除本文所列举的英国、欧盟与美国外，日本与新加坡同样对TDM制定了版权例外规则。日本TDM版权例外规则详见《著作權法》：https://www.cric.or.jp/english/clj/cl2.html；新加坡TDM版权例外制度详见《COPYRIGHT ACT 2021》：https://sso.agc.gov.sg/Acts-Supp/22-2021/Published/。

[6] Copyright, Designs and Patents Act 1988, 29A: Copies for text and data analysis for non-commercial research (1)This section applies where— (a)a person has lawful access to a copy of a copyright work for the purposes of research to which this section applies, and (b)the copy is retained by the person on a secure electronic network for the purposes of carrying out text and data analysis for those research purposes. (2)The making of a copy of the work by the person who has lawful access to the work under subsection (1) does not infringe copyright in the work provided that— (a)the copy is made by an automated process, (b)the copy is used only for the purposes mentioned in subsection (1)(b), and (c)the person satisfies the other conditions in this section. (3)The other conditions are that— (a)the person making the copy has reasonable grounds for believing that doing so is necessary for the purposes of the research mentioned in subsection (1)(b), (b)the person does not use the copy to compete with the owner of the copyright in the work, (c)the person does not supply the copy to any other person except for the purposes mentioned in subsection (1)(b), and (d)the use of the copy is accompanied by a sufficient acknowledgement. (4)This section applies to research for any purpose, except for commercial purposes.

[7] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019，article 3.

[8] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019，article 4.

[9] Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994).

[10] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第90-95页。

[11] Authors Guild v. Google, Inc., 4F., 3d 202,209(2015).

[12] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第100-101页。

[13] Fox News Network, LLC v. TVEyes, Inc., 883 F.3d 169, 179 (2d Cir. 2018).

[14] （2013）高民终字第1221号。

[15] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第101-102页。

[16] “国家互联网信息办公室关于《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知-中共中央网络安全和信息化委员会办公室.” 中共中央网络安全和信息化委员会办公室,https://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm. 最后浏览日期：2023年4月21日。