ChatGPT版权争议：训练数据侵权的法律挑战与AI合理使用的探讨

学会提问 3年前 (2023) lida

80 0 0

文章主题：ChatGPT, AI聊天机器人, 版权争议, 训练数据侵权

图片来源@视觉中国

文 | 金杜研究院，作者 | 宋海燕

🌟ChatGPT🔥：2022年11月震撼全球的AI聊天神器！🚀它以OpenAI之名横空出世，瞬间引爆科技圈热议风暴。🔥无数用户为之疯狂，版权和数据安全问题也随之成为焦点。🔍训练数据侵权指控引发热议，ChatGPT的发展之路面临挑战。💡我们关注其创新背后可能带来的法律议题，期待更透明的使用指南以保护知识产权。🌐未来，ChatGPT如何在合规与创新间找到平衡？让我们拭目以待！🌈

🌟ChatGPT背后的训练秘密🔍：凭借海量文本素材，这款AI模型得以构建。虽然各国对生成式AI的数据使用法规尚未明确，但全球范围内的ΤDM（Text Data Mining）法律指导至关重要。ΤDM，简单来说，就是利用先进的技术从文本中挖掘模式、趋势和高价值信息的计算机过程，它以数据为土壤，信息为果实，是提取和组织信息的现代化方式。

🌟ChatGPT与TDM：著作权法视角下的数据合理使用探讨🔍技术层面，ChatGPT与TDM看似相似，两者都以文本和数据为根基，这在版权法上无疑提供了相似的法律基础。然而，法律的实际运作需要考虑制度连贯性和法律稳定性，这意味着它们在使用许可、目的界定、方式控制以及限制条件等方面，应保持一定的延续性。接下来，我们将深入探讨ChatGPT训练数据的合法使用问题，从全球视角看，英国的版权灵活性、欧盟的版权平衡、美国的版权创新与中国的版权保护实践都将被作为分析案例。我们旨在揭示，在当前法律框架下，ChatGPT的数据挖掘行为是否符合这些国家和地区对TDM规定的合理界限。🚀让我们一起探索这个技术与法律交织的新领域，揭示数据合理使用的最新动态，为ChatGPT的合法使用提供法理依据。记得关注哦！📚💻

ChatGPT数据挖掘原理与侵权风险

🌟ChatGPT🚀：一款创新的AI聊天助手，运用尖端的 자연語言處理（NLP）科技，通过深度神经网络的力量，编织出文字的精彩篇章。它的运作模式清晰明了：首先，👀 数据输入——海量文本信息为其养分，涵盖各种语言表达和用法；然后，🧠 机器学习——这些数据成为其智慧之源，让AI逐渐掌握语言规则；最后，💬 结果输出——生成的文字流畅自然，满足用户多样化需求。🚀SEO优化提示：使用关键词”ChatGPT”, “NLP技术”, “深度神经网络”, “文本生成”, “语言训练数据”等。记得加入表情符号，如`:smile:`或`:arrow_forward:`以增加互动性哦！

ChatGPT训练数据的使用流程[2]：

1. 数据收集：从各种来源收集原始数据。

2. 数据预处理：将原始数据进行清洗和标准化，以便后续处理和分析。

3. 数据标注：将数据进行标注，为机器学习提供训练数据。

4. 特征提取：从标注好的数据中提取特征。

5. 模型训练：对训练数据进行分析和学习。

6. 结果生成：输出生成物。

🌟ChatGPT的训练之旅离不开海量文本资料的滋养💡。尽管OpenAI并未透露最新版ChatGPT所依赖的GPT-3.5参数量，但从已知信息推断，其父辈GPT-3模型就拥有1750亿个超凡智慧结晶，这样的庞大数据基础无疑为更先进的GPT-3.5提供了深厚底蕴。🚀

🌟ChatGPT背后的文本秘密揭秘🔍：这款人工智能语言模型主要依赖于两大信息库——用户互动与深度学习资料。对于用户生成的内容，它遵循《条款》中的明确指导，将这些输入转化为宝贵的学习材料，助力提升技能。若您对此持有异议，只需通过邮件或其他渠道表达，不影响日常体验。🌟训练数据库的构建，ChatGPT巧妙地汲取了多样化的资源。三大信息来源交织，形成其知识网络：首先，用户无压力的互动为它提供了鲜活的样本；其次，庞大的训练数据集确保了广度和深度；最后，严格的数据筛选保证了内容的质量与合法性。🚀SEO优化提示：使用ChatGPT、文本数据源、用户输入、训练数据库、学习、许可、数据来源、互动、深度学习、体验等关键词，同时融入情感化的描述和行业术语，以提升搜索引擎的可见性和相关性。

第一种，来源于公有领域的内容。公有领域内容指的是不属于私人所有，任何人可以不受限制地使用和加工的数据，包括本身便不受法律保护的内容及已过著作权保护期间进入公有领域的内容。

第二种，通过签订合同获得合法授权的内容，即通过与权利人签订合同从而获得有效授权，合法使用相关数据及内容。

第三种，未经授权的信息及内容。该来源指的是数据及内容本身为受著作权保护的客体，而ChatGPT在未经授权的情况下对相关内容进行挖掘使用，其获取渠道通常为利用“爬虫”技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式。

通过上述方式所构建的训练数据库，由于涉及未经授权使用受著作权保护的数据及内容，因此天然具有著作权侵权风险。

在我国现行《著作权法》框架下，ChatGPT训练数据使用过程的不同行为均可能存在著作权侵权风险。首先，在数据内容收集阶段，训练数据的使用或构成复制权侵权。数据收集的方式有两种形式，分别是将非数字格式的原内容转化为计算机可读的数据格式，即“原件扫描”，或是对他人已有数据进行访问和获取文本内容。训练数据的输入过程必然伴随着相应的复制行为。

目前学界认为，ChatGPT数据挖掘过程中的复制行为不属于因数字环境传输中“暂时的”、“在技术过程中必然发生的”，且“不具有独立经济价值”的“临时复制”情形，因此除非存在法定豁免情形，否则ChatGPT数据内容挖掘行为可能构成复制权侵权。实际上，ChatGPT在数据挖掘过程中，往往并非只将数据短暂复制于系统中，而是需要将作品数据长时间停留，继而便可能涉及到对作品的永久性复制。尽管当前各国对“临时复制”的法律性质存在争议，但对永久性复制应当归入复制权规制范围却存在共识。

其次，在数据预处理阶段，训练数据的使用或构成演绎权侵权。演绎权指的是在原作品创作思想表达的基础上演绎创作新作品的权利。我国《著作权法》并未采纳“演绎权”这一术语，而是在演绎权的概念上进一步分解为翻译权、改编权、汇编权等权利。但归根结底，演绎权及其分解而来的权利核心在于原作品的主要思想表达并未因创作语言、题材、种类或形式的变化而改变。而ChatGPT在数据预处理阶段，涉及对所收集数据进行清洗、标准化、标注与特征提取等步骤，存在侵犯改编权等权利的风险。

最后，在结果生成阶段，训练数据的使用也可能构成与传播相关的权利侵权。因ChatGPT会依据训练数据自动化生成结果，并以可视化方式表现，过程中需要将数据或文本通过互联网进行传输，从著作权法角度显然也会涉及侵权。

ChatGPT数据挖掘行为本身具有高度复杂性，在所涉著作权内容不同的情形下，其侵犯的权利也会有所不同，上述仅对可能涉及的侵权风险作非穷尽式列举。关于ChatGPT在实际应用场景下的侵权形态与风险，应作个案具体分析。

域外视角下的TDM合理使用制度——英国、欧盟、美国与中国之比较

著作权合理使用制度，即在符合特定条件情形下，法律允许他人可自由使用受著作权保护的客体而无须经由著作权人同意，抑或是向著作权人支付相应报酬，为著作权限制与例外的核心制度之一。当ChatGPT训练数据未经授权使用受著作权保护内容，并且涉及到作者的独创性表达及造成公众传播效果时，便可能构成著作权侵权。

此时需要进一步判断其是否构成合理使用。合理使用的制度目的在于平衡著作权人对作品享有的专有权利与公众获取作品的需求，促进创新和文化多样性发展，保障公众基本利益。就生成式AI训练数据的合理使用规则而言，大多数国家尚未单独制定成文法规定。但各国针对TDM所制定的合理使用规则，对当下ChatGPT数据挖掘行为的合理使用制度适用具有重要指引作用。[5]

英国

作为最早制定《版权法》的国家之一，英国是合理使用制度的开创国，也是最早对TDM通过立法方式确定其合法性的欧洲国家。2014年修订的《版权法》新增了第29A条TDM版权例外规则条款，当中允许为了非商业性研究的文本和数据挖掘目的，利用计算机分析技术对已经合法获得访问的任何版权材料进行复制。[6]可见英国通过立法形式明确为TDM应用赋予了合法性，以防止版权成为阻碍相关技术创新发展的阻力。

不过值得注意的是，英国同样为相关立法设置了许多限制条件。英国虽未对行为主体设定限制，却在客体上将TDM合理使用范围限定为“合法获得访问的版权材料”，即行为人本身应当具备合法访问相关版权材料的资格。英国也对“使用目的”作出了限制，规定只有基于“计算机分析”和“非商业性使用”目的的TDM属合理使用范围，即排除了不以计算机处理、分析数据为目的的行为及具有盈利性质的商业性使用。

具体来看，ChatGPT的技术厂商OpenAI最初的定位虽为非营利组织，但其自2019年起便开始转型为营利性组织，ChatGPT的数据挖掘、使用行为难以被定性为“非商业性使用”。在使用行为上，ChatGPT训练数据的使用过程可能涉及版权意义上的多个行为，包括复制、改编与传播。

而英国《版权法》第29A条只针对TDM的复制行为提供了合法性支持，对其他行为则未设置侵权豁免，因此相关行为仍存在侵权风险。除上述条件外，英国也规定了权利限制的例外情形，指出未经版权人授权将TDM过程中产生的复制件进行交易，包括出售、出租、许可等行为仍会构成侵权。

整体而言，英国《版权法》给予TDM一定的实施空间，同时也兼顾了版权人的利益。但由于ChatGPT等生成式AI在数据挖掘与使用行为上所具有的复杂性，其在英国《版权法》框架下未必能够适用合理使用规则。

欧盟

欧盟委员会在2016年9月公布了《欧盟数字化单一市场指令》提案，随后于2019年3月通过了《数字化单一市场版权指令》（下称《版权指令》），对TDM的使用制定了版权例外规则。

《版权指令》第3条、第4条规定，基于“科学研究”与“数据分析”两种目的，并且作品为合法获取的情形下TDM具有正当性。从法律条文来看，欧盟同样通过封闭性规范的方式将TDM列入了合理使用范围，并且对TDM版权例外制度的适用设定了相应限制条件。

针对以“科学研究”为目的的TDM，欧盟将主体限制为科研及文化遗产机构。换而言之，由于ChatGPT的发行厂商OpenAI不符合相关主体要求，因此不能适用《版权指令》第3条所规定的版权例外规则。而针对以“数据分析”为目的的TDM，《版权指令》第4条实际上赋予了TDM在数据处理阶段使用行为的合法性，该例外不存在主体限制或使用技术目的限制，即使是出于商业性使用目的也同样适用。

在客体条件上，欧盟与英国都将其限定为以合法途径获取的作品。ChatGPT在数据收集、预处理阶段可能涉及多种权利侵权，而该条中只为过程中的复制、提取行为规定了版权例外，但对其他类型行为则未明确说明。

整体而言，在欧盟《版权指令》合理使用制度下，行为人享有作品的阅读权即可享有作品的挖掘权，但需要为副本的保存提供安全措施。

美国

不同于英国、欧盟以立法形式明确将TDM列入合理使用范围，美国采用了基于四要素标准与司法判例为指导的开放性立法。美国《版权法》第107条规定了合理使用制度，即以四要素作为判断标准，通过综合分析使用者的使用是否符合相关法定要素来判断该使用是否为合理使用。

具体而言，四要素标准指的是：

（1）使用目的和性质。第一要素包括该使用是商业性使用或者是基于非营利性教育目的之使用。一般而言，若被告对版权作品的使用为商业性使用，则不属于合理使用；但若使用是基于非营利性教育目的，则更有可能被视为合理使用。但自Campbell案[9]后，美国法院认为在商业性使用能明显增进社会效益时，应当以“转换性使用”作为判断标准而忽略商业性使用目的。而“转换性使用”的内涵是对原创作品进行某种程度上的改编、转化或转换，以产生新的表达形式、意义或价值的行为。

（2）版权作品的性质。法院在分析第二法定要素时，需要考虑的是究竟被使用的作品是描述事实的叙事作品或创作性很强的虚构作品。通常来说，作品的创作性越强，就越应受到法律保护。

（3）被告的使用占版权作品的数量和质量。第三个法定要素要求对使用行为不仅要进行定量分析，还要进行定性分析。

（4）被告的使用对版权作品市场的影响。第四个法定要素的重点在于，若被告的使用行为减少了版权人的收益，则被告的使用可能会被认定为不合理的使用。[10]

基于四要素标准，ChatGPT对训练数据的使用有相当可能性被认定为转换性使用，继而受合理使用制度保护。事实上，从司法判例来看，美国法院整体也对TDM持相对开放的立场，当中最具代表性的案件便是美国“谷歌图书馆”案与“TVEyes”案。

谷歌图书馆案（Authors Guild v. Google Inc）[11]

美国“谷歌图书馆”案是由谷歌图书馆计划引发的全球诉讼系列案件之一，谷歌公司在未经授权的情况下将图书数字化并收录到其搜索引擎中，这些书籍包括已出版的和未出版的作品。

2013年，美国纽约地区法院对此案作出一审判决，认为谷歌扫描图书的行为构成合理使用，不构成版权侵权。2015年10月，美国第二巡回法院确认了一审法院的判决，认为谷歌图书馆属于合理使用，不构成侵权。

在论及谷歌图书馆对原告作品的使用目的时，美国第二巡回法院认为谷歌未经授权将受版权保护的书籍进行电子扫描、设立搜索功能并将上述书籍的片段在网络上显示的行为属于非侵权式的合理使用。谷歌所采取的扫描行为是高度转换性的，其显示的文字数量是有限的，而向公众提供的只言片语也不会与原作品构成竞争或替代关系。因此，即便谷歌是一家追求利润的商业公司，这也不妨碍认定谷歌图书馆的行为属于合理使用。[12]

TVEyes案（Fox News Network, LLC v. TVEyes, Inc）[13]

在“TVEyes”案中，TVEyes公司提供的搜索引擎可以对主流电视节目进行实时监控和搜索，用户可以根据关键词检索快速定位到感兴趣的节目，并可查看不超过10分钟的节目剪辑内容，也可以对相关片段进行保存、下载。

福克斯新闻公司在2014年向法院提起诉讼，指控TVEyes公司侵犯其版权，并要求TVEyes停止提供相关服务。此后，其他电视网站也加入了诉讼行列。

最终，美国第二巡回法院认可TVEyes将大量电视节目片段复制归档，并向用户提供关键词搜索等服务的使用行为具有变革性，对原作品构成转换性使用。但却同时认为TVEyes允许用户对相关节目片段进行查看与下载并不合理，将可能对版权人的市场地位与许可收入造成实际损害。最终法院判决TVEyes对相关作品的传播构成版权侵权。

上述两个案件展现了美国司法裁判中对TDM合理使用的整体态度。在美国“谷歌图书馆”案中，美国法院认定谷歌公司基于向公众提供搜索和片段浏览服务目的而对原告作品进行全文复制的行为具有“目的转换性”，强调司法实践中应当对四要素标准作综合考量。“TVEyes”案则显示出在法院已将TDM前期阶段的使用行为认定为合理使用的情形下，倘若相关技术实施者未采取必要技术以降低对原作品权利人的替代性影响，仍可能存在侵权风险。

相较于美国“谷歌图书馆”案与“TVEyes”案中原告的使用行为，ChatGPT经过对训练数据的学习而生成结果的使用行为显然更具有“转换性使用”意义。因此，在美国《版权法》合理使用制度框架下，ChatGPT的数据挖掘行为有相当可能性得以构成合理使用。

中国

区别于英国、欧盟与美国为TDM制定了合理使用规则，TDM目前尚未被涵盖在我国《著作权法》第24条所列举的12种法定著作权例外情形中。换而言之，当前国内的著作权例外制度无法为TDM的实施提供合法性依据。

我国《著作权法》第24条规定了12种合理使用情形。然而，ChatGPT对训练数据的使用难以被该12种法定情形所保护。ChatGPT的数据挖掘行为并非为“个人学习”“教学或科研”“公共文化机构”所使用，且本质上属商业性使用，难以直接援引该条作为侵权抗辩。因此，值得进一步讨论的便是ChatGPT的数据挖掘行为能否落入《著作权法》第24条兜底条款的保护之中。从案例来看，兜底条款实际上同样难以为ChatGPT的数据挖掘行为提供法律依据，在部分案件中可见国内法院对TDM著作权侵权问题的整体态度。

A作者诉B公司数字图书馆案[14]

本案中，原告A作者是某书籍的作者及著作权所有人。被告B公司获得了涉案作品的纸件版本并将涉案书籍进行扫描。随后，B公司将扫描的图书片段开放给旗下搜索引擎，从而使互联网用户从搜索结果中看到涉案作品的片段。

在讨论B公司数字图书馆的扫描书籍及通过搜索展示书籍片段的行为是否构成著作权的“合理使用”时，法院首先指出，B公司的涉案复制行为并不属于《著作权法》（2010）第22条规定的合理使用行为，故应初步推定为构成侵权。但随后又提出，鉴于实际的司法实践中，法院已在部分案例中认定《著作权法》（2010）第22条规定之外的其他特殊情形也可构成合理使用，故如果B公司能够主张并证明其涉案复制行为属于合理使用的其他特殊情形，那么该行为也可被认定合理使用。

关于如何判断涉案的复制行为是否构成《著作权法》（2010）第22条规定之外的合理使用特殊情形时，法院提出应综合考虑以下相关因素，包括（1）使用作品的目的和性质；（2）受著作权保护作品的性质；（3）所使用部分的性质及其在整个作品中的比例；以及（4）被告的使用行为是否影响了原告作品的正常使用或不合理地损害著作权人的合法利益等。

在综合考虑了上述因素之后，法院认为在本案中，B公司未能针对上述因素提交相关事实证据，故驳回B公司关于合理使用的抗辩，认为其图书馆行为构成侵权。 [15]

从中美类案判决的对比来看，在面对相似案情与抗辩理由时，两国法院在判断相关行为是否构成合理使用时得出了相反结论。在中国“A作者诉B公司数字图书馆”案中，法院认为在《著作权法》（2010）第22条规定的具体情形外认定合理使用，应当从严掌握认定标准，而被告应当对考量因素中的事实问题承担举证责任。但该案中被告B公司并未充分举证其涉案行为属合理使用，因此法院最终推定其使用行为构成侵权。由此可见，依据当前《著作权法》相关规定，ChatGPT的数据挖掘行为被中国法院认定为合理使用具有难度，仍存在较高侵权风险。

上述观点也可以从2023年4月11日国家互联网信息办公室起草的《生成式人工智能服务管理办法（征求意见稿）》中得到印证。该征求意见稿回应了公众关注的生成式AI若干问题。其中第7条对生成式AI产品/服务的数据来源作出规制，明确规定提供者应当对生成式人工智能产品/服务的预训练数据、优化训练数据来源的合法性负责，不应含有侵犯知识产权的内容。[16]换而言之，该征求意见稿并未对TDM设置著作权例外，一定程度显示出我国立法动向仍对认可TDM合理使用持保留态度。

结语

信息获取与知识共享是数字经济的基础。随着人工智能领域高速发展，在可预见的将来仍会不断涌现涉及他人著作权作品的新型使用行为。当前部分国家已对数据挖掘、使用行为设定了著作权例外制度，尝试在科学技术的发展与著作权人的利益保障之间取得平衡。

我国《著作权法》目前尚未对数据挖掘制定著作权例外规则，相关技术在中国的实施仍具有侵权风险。但数据挖掘作为人工智能时代的基础性技术，合理使用规则的缺失必然会限制信息自由流动与创新发展。为了促进科技领域发展，我国应当保障数据挖掘技术的流通与应用，平衡著作权人利益与公共利益的冲突，建构旨在驱动创新的合理使用制度。

参看资料：

[1] “IFLA Statement on Text and Data Mining (2013).” IFLA, www.ifla.org/publications/ifla-statement-on-text-and-data-mining-2013/. Accessed 22 Apr. 2023.

[2] “ChatGPT and Data Annotation.” 23 Feb. 2023, labelyourdata.com/articles/data-annotation-for-training-chatgpt. Accessed 22 Apr. 2023.

[3] “GPT-4 Is Coming – What We Know So Far.” Forbes, Bernard Marr, 24 Feb. 2023, www.forbes.com/sites/bernardmarr/2023/02/24/gpt-4-is-coming–what-we-know-so-far/?sh=11045dd86c2d. Accessed 7 Apr. 2023.

[4] “Introducing ChatGPT.” OpenAI, openai.com/blog/chatgpt. Accessed 22 Apr. 2023.

[5] 除本文所列举的英国、欧盟与美国外，日本与新加坡同样对TDM制定了版权例外规则。日本TDM版权例外规则详见《著作權法》：https://www.cric.or.jp/english/clj/cl2.html；新加坡TDM版权例外制度详见《COPYRIGHT ACT 2021》：https://sso.agc.gov.sg/Acts-Supp/22-2021/Published/。

[6] Copyright, Designs and Patents Act 1988, 29A: Copies for text and data analysis for non-commercial research (1)This section applies where— (a)a person has lawful access to a copy of a copyright work for the purposes of research to which this section applies, and (b)the copy is retained by the person on a secure electronic network for the purposes of carrying out text and data analysis for those research purposes. (2)The making of a copy of the work by the person who has lawful access to the work under subsection (1) does not infringe copyright in the work provided that— (a)the copy is made by an automated process, (b)the copy is used only for the purposes mentioned in subsection (1)(b), and (c)the person satisfies the other conditions in this section. (3)The other conditions are that— (a)the person making the copy has reasonable grounds for believing that doing so is necessary for the purposes of the research mentioned in subsection (1)(b), (b)the person does not use the copy to compete with the owner of the copyright in the work, (c)the person does not supply the copy to any other person except for the purposes mentioned in subsection (1)(b), and (d)the use of the copy is accompanied by a sufficient acknowledgement. (4)This section applies to research for any purpose, except for commercial purposes.

[7] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019，article 3.

[8] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019，article 4.

[9] Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994).

[10] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第90-95页。

[11] Authors Guild v. Google, Inc., 4F., 3d 202,209(2015).

[12] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第100-101页。

[13] Fox News Network, LLC v. TVEyes, Inc., 883 F.3d 169, 179 (2d Cir. 2018).

[14] （2013）高民终字第1221号。

[15] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第101-102页。

[16] “国家互联网信息办公室关于《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知-中共中央网络安全和信息化委员会办公室.” 中共中央网络安全和信息化委员会办公室,https://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm. 最后浏览日期：2023年4月21日。