ChatGPT版权争议：训练数据侵权的法律挑战与全球视野分析

学会提问 2年前 (2023) lida

63 0 0

文章主题：ChatGPT, AI聊天机器人, 版权争议, 训练数据侵权

图片来源@视觉中国

文 | 金杜研究院，作者 | 宋海燕

🌟【ChatGPT热浪来袭】🚀2022年11月30日，OpenAI的创新之作——ChatGPT横空出世，全球科技界为之震撼！🔥这款人工智能聊天机器人以其卓越性能迅速走红，引发了无数讨论和追捧。🔍然而，随之而来的版权争议也日益尖锐，特别是关于训练数据的合法性问题，成为热议焦点。ChatGPT凭借其强大的学习能力，从海量信息中汲取精华，这无疑触及了版权保护的敏感地带。📝许多担忧围绕着它是否合法地利用了他人知识产权，引发了法律和道德的深度拷问。💡面对这些挑战，相关方需要清晰定义边界，确保技术的发展与法律伦理相辅相成。尽管如此，ChatGPT的出现无疑推动了AI领域的发展，激发了创新热情。💻我们期待看到它如何在尊重版权的前提下，继续为用户提供便捷、个性化的交流体验。🌈记得关注ChatGPT后续动态，一起见证科技与法律的智慧碰撞！🌐

🌟ChatGPT背后的训练数据宝藏，源于海量文本精华！🔍虽然全球对于生成式AI的法律指导尚在摸索中，但国际上的TDM法规实践为我们提供了宝贵的参考。🎯这项技术通过自动化手段解析文本与数据，挖掘模式、趋势和隐藏价值，是信息时代的计算机智能提取工具。💻它以数据为原料，重塑信息结构，让知识触手可及。🌍无论法律如何定义，ChatGPT的创新之路无疑在引领AI新纪元！🌟

🌟ChatGPT与TDM：著作权法视角下的数据合理使用探讨🔍技术层面，ChatGPT与TDM看似相似，两者都立足于文本和数据的输入基础，这在版权法上无疑提供了相似的法律考量。然而，在实际操作中，法律的延续性和稳定性成为关键，特别是在使用权限、目的、方式以及限制条件等方面，它们需要找到合适的制度对接点。接下来，我们将深入探讨ChatGPT训练数据的合理使用问题，从全球视角，如英国的宽松版权法、欧盟的数据保护法规、美国的版权灵活性和中国的版权实践，来分析这些国家和地区对TDM（Text and Data Mining）的明确指导。然后，我们将焦点放在现行法律框架下，审视ChatGPT的数据挖掘行为是否遵循了这些合理使用的国际标准。让我们一起探索如何在尊重创新与保护知识产权之间找到平衡，让ChatGPT这样的技术发展更好地服务于社会和知识传播。📚💻

ChatGPT数据挖掘原理与侵权风险

🌟ChatGPT🚀：一款创新的AI魔法✨，凭借尖端的 자연語言處理（NLP）科技，它能像魔法师般编织文字。它的运作方式清晰明了：首先，📚 数据输入——海量文本，涵盖各种语言表达；然后，📈 机器学习——深度神经网络的力量，让信息灵活流动；最后，✨ 结果输出——生成丰富多样的文本内容。这背后的训练数据宝藏，是它理解和创造语言的基石。🚀 SEO优化提示：使用”自然语言处理AI训练数据”、”深度神经网络与NLP技术”等关键词，提升搜索引擎可见度。

ChatGPT训练数据的使用流程[2]：

1. 数据收集：从各种来源收集原始数据。

2. 数据预处理：将原始数据进行清洗和标准化，以便后续处理和分析。

3. 数据标注：将数据进行标注，为机器学习提供训练数据。

4. 特征提取：从标注好的数据中提取特征。

5. 模型训练：对训练数据进行分析和学习。

6. 结果生成：输出生成物。

🌟ChatGPT的训练之旅离不开海量文本数据的滋养💡。尽管OpenAI并未透露最新版ChatGPT所依赖的GPT-3.5参数量，但从已知信息推断，其父辈GPT-3模型就蕴含了惊人的1750亿个超凡智慧晶体。这样的庞大数据基础，无疑孕育出了更强大的GPT-3.5语言模型，为创造力提供了无尽可能。🚀

🌟ChatGPT背后的文本秘密揭秘🔍——数据驱动的力量🔥🚀这款人工智能巨擘ChatGPT，凭借两大核心数据源的强力驱动，实现了语言学习与创新的新高度！📝用户每一次互动，都是它宝贵的教育素材；训练数据库，则是其知识库的基石，蕴藏着海量信息。📚首先，用户自由输入的内容，如同鲜活的血液，滋养着ChatGPT的学习智慧。遵守《使用条款》，你的每一段话都可能成为推动技术进步的力量。📝如果你想控制数据流向，只需简单邮件表态，不影响日常体验哦！💌其次，训练数据库的多样来源，构建了知识的海洋。它巧妙地融合了来自不同领域的文本数据，无论是学术研究、新闻报道还是日常生活对话，每一部分都是其知识谱系不可或缺的部分。🌐ChatGPT的数据策略，就像一个高效的搜索引擎，不断优化自身以满足用户需求，同时保护隐私，确保技术的透明与可持续发展。🏆欲了解更多关于如何让ChatGPT更好地服务于你，敬请关注我们后续的深度解析！📚💻记得用#ChatGPT #数据驱动 #AI学习来提升你的在线搜索体验哦！🔍

第一种，来源于公有领域的内容。公有领域内容指的是不属于私人所有，任何人可以不受限制地使用和加工的数据，包括本身便不受法律保护的内容及已过著作权保护期间进入公有领域的内容。

第二种，通过签订合同获得合法授权的内容，即通过与权利人签订合同从而获得有效授权，合法使用相关数据及内容。

第三种，未经授权的信息及内容。该来源指的是数据及内容本身为受著作权保护的客体，而ChatGPT在未经授权的情况下对相关内容进行挖掘使用，其获取渠道通常为利用“爬虫”技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式。

通过上述方式所构建的训练数据库，由于涉及未经授权使用受著作权保护的数据及内容，因此天然具有著作权侵权风险。

在我国现行《著作权法》框架下，ChatGPT训练数据使用过程的不同行为均可能存在著作权侵权风险。首先，在数据内容收集阶段，训练数据的使用或构成复制权侵权。数据收集的方式有两种形式，分别是将非数字格式的原内容转化为计算机可读的数据格式，即“原件扫描”，或是对他人已有数据进行访问和获取文本内容。训练数据的输入过程必然伴随着相应的复制行为。

目前学界认为，ChatGPT数据挖掘过程中的复制行为不属于因数字环境传输中“暂时的”、“在技术过程中必然发生的”，且“不具有独立经济价值”的“临时复制”情形，因此除非存在法定豁免情形，否则ChatGPT数据内容挖掘行为可能构成复制权侵权。实际上，ChatGPT在数据挖掘过程中，往往并非只将数据短暂复制于系统中，而是需要将作品数据长时间停留，继而便可能涉及到对作品的永久性复制。尽管当前各国对“临时复制”的法律性质存在争议，但对永久性复制应当归入复制权规制范围却存在共识。

其次，在数据预处理阶段，训练数据的使用或构成演绎权侵权。演绎权指的是在原作品创作思想表达的基础上演绎创作新作品的权利。我国《著作权法》并未采纳“演绎权”这一术语，而是在演绎权的概念上进一步分解为翻译权、改编权、汇编权等权利。但归根结底，演绎权及其分解而来的权利核心在于原作品的主要思想表达并未因创作语言、题材、种类或形式的变化而改变。而ChatGPT在数据预处理阶段，涉及对所收集数据进行清洗、标准化、标注与特征提取等步骤，存在侵犯改编权等权利的风险。

最后，在结果生成阶段，训练数据的使用也可能构成与传播相关的权利侵权。因ChatGPT会依据训练数据自动化生成结果，并以可视化方式表现，过程中需要将数据或文本通过互联网进行传输，从著作权法角度显然也会涉及侵权。

ChatGPT数据挖掘行为本身具有高度复杂性，在所涉著作权内容不同的情形下，其侵犯的权利也会有所不同，上述仅对可能涉及的侵权风险作非穷尽式列举。关于ChatGPT在实际应用场景下的侵权形态与风险，应作个案具体分析。

域外视角下的TDM合理使用制度——英国、欧盟、美国与中国之比较

著作权合理使用制度，即在符合特定条件情形下，法律允许他人可自由使用受著作权保护的客体而无须经由著作权人同意，抑或是向著作权人支付相应报酬，为著作权限制与例外的核心制度之一。当ChatGPT训练数据未经授权使用受著作权保护内容，并且涉及到作者的独创性表达及造成公众传播效果时，便可能构成著作权侵权。

此时需要进一步判断其是否构成合理使用。合理使用的制度目的在于平衡著作权人对作品享有的专有权利与公众获取作品的需求，促进创新和文化多样性发展，保障公众基本利益。就生成式AI训练数据的合理使用规则而言，大多数国家尚未单独制定成文法规定。但各国针对TDM所制定的合理使用规则，对当下ChatGPT数据挖掘行为的合理使用制度适用具有重要指引作用。[5]

英国

作为最早制定《版权法》的国家之一，英国是合理使用制度的开创国，也是最早对TDM通过立法方式确定其合法性的欧洲国家。2014年修订的《版权法》新增了第29A条TDM版权例外规则条款，当中允许为了非商业性研究的文本和数据挖掘目的，利用计算机分析技术对已经合法获得访问的任何版权材料进行复制。[6]可见英国通过立法形式明确为TDM应用赋予了合法性，以防止版权成为阻碍相关技术创新发展的阻力。

不过值得注意的是，英国同样为相关立法设置了许多限制条件。英国虽未对行为主体设定限制，却在客体上将TDM合理使用范围限定为“合法获得访问的版权材料”，即行为人本身应当具备合法访问相关版权材料的资格。英国也对“使用目的”作出了限制，规定只有基于“计算机分析”和“非商业性使用”目的的TDM属合理使用范围，即排除了不以计算机处理、分析数据为目的的行为及具有盈利性质的商业性使用。

具体来看，ChatGPT的技术厂商OpenAI最初的定位虽为非营利组织，但其自2019年起便开始转型为营利性组织，ChatGPT的数据挖掘、使用行为难以被定性为“非商业性使用”。在使用行为上，ChatGPT训练数据的使用过程可能涉及版权意义上的多个行为，包括复制、改编与传播。

而英国《版权法》第29A条只针对TDM的复制行为提供了合法性支持，对其他行为则未设置侵权豁免，因此相关行为仍存在侵权风险。除上述条件外，英国也规定了权利限制的例外情形，指出未经版权人授权将TDM过程中产生的复制件进行交易，包括出售、出租、许可等行为仍会构成侵权。

整体而言，英国《版权法》给予TDM一定的实施空间，同时也兼顾了版权人的利益。但由于ChatGPT等生成式AI在数据挖掘与使用行为上所具有的复杂性，其在英国《版权法》框架下未必能够适用合理使用规则。

欧盟

欧盟委员会在2016年9月公布了《欧盟数字化单一市场指令》提案，随后于2019年3月通过了《数字化单一市场版权指令》（下称《版权指令》），对TDM的使用制定了版权例外规则。

《版权指令》第3条、第4条规定，基于“科学研究”与“数据分析”两种目的，并且作品为合法获取的情形下TDM具有正当性。从法律条文来看，欧盟同样通过封闭性规范的方式将TDM列入了合理使用范围，并且对TDM版权例外制度的适用设定了相应限制条件。

针对以“科学研究”为目的的TDM，欧盟将主体限制为科研及文化遗产机构。换而言之，由于ChatGPT的发行厂商OpenAI不符合相关主体要求，因此不能适用《版权指令》第3条所规定的版权例外规则。而针对以“数据分析”为目的的TDM，《版权指令》第4条实际上赋予了TDM在数据处理阶段使用行为的合法性，该例外不存在主体限制或使用技术目的限制，即使是出于商业性使用目的也同样适用。

在客体条件上，欧盟与英国都将其限定为以合法途径获取的作品。ChatGPT在数据收集、预处理阶段可能涉及多种权利侵权，而该条中只为过程中的复制、提取行为规定了版权例外，但对其他类型行为则未明确说明。

整体而言，在欧盟《版权指令》合理使用制度下，行为人享有作品的阅读权即可享有作品的挖掘权，但需要为副本的保存提供安全措施。

美国

不同于英国、欧盟以立法形式明确将TDM列入合理使用范围，美国采用了基于四要素标准与司法判例为指导的开放性立法。美国《版权法》第107条规定了合理使用制度，即以四要素作为判断标准，通过综合分析使用者的使用是否符合相关法定要素来判断该使用是否为合理使用。

具体而言，四要素标准指的是：

（1）使用目的和性质。第一要素包括该使用是商业性使用或者是基于非营利性教育目的之使用。一般而言，若被告对版权作品的使用为商业性使用，则不属于合理使用；但若使用是基于非营利性教育目的，则更有可能被视为合理使用。但自Campbell案[9]后，美国法院认为在商业性使用能明显增进社会效益时，应当以“转换性使用”作为判断标准而忽略商业性使用目的。而“转换性使用”的内涵是对原创作品进行某种程度上的改编、转化或转换，以产生新的表达形式、意义或价值的行为。

（2）版权作品的性质。法院在分析第二法定要素时，需要考虑的是究竟被使用的作品是描述事实的叙事作品或创作性很强的虚构作品。通常来说，作品的创作性越强，就越应受到法律保护。

（3）被告的使用占版权作品的数量和质量。第三个法定要素要求对使用行为不仅要进行定量分析，还要进行定性分析。

（4）被告的使用对版权作品市场的影响。第四个法定要素的重点在于，若被告的使用行为减少了版权人的收益，则被告的使用可能会被认定为不合理的使用。[10]

基于四要素标准，ChatGPT对训练数据的使用有相当可能性被认定为转换性使用，继而受合理使用制度保护。事实上，从司法判例来看，美国法院整体也对TDM持相对开放的立场，当中最具代表性的案件便是美国“谷歌图书馆”案与“TVEyes”案。

谷歌图书馆案（Authors Guild v. Google Inc）[11]

美国“谷歌图书馆”案是由谷歌图书馆计划引发的全球诉讼系列案件之一，谷歌公司在未经授权的情况下将图书数字化并收录到其搜索引擎中，这些书籍包括已出版的和未出版的作品。

2013年，美国纽约地区法院对此案作出一审判决，认为谷歌扫描图书的行为构成合理使用，不构成版权侵权。2015年10月，美国第二巡回法院确认了一审法院的判决，认为谷歌图书馆属于合理使用，不构成侵权。

在论及谷歌图书馆对原告作品的使用目的时，美国第二巡回法院认为谷歌未经授权将受版权保护的书籍进行电子扫描、设立搜索功能并将上述书籍的片段在网络上显示的行为属于非侵权式的合理使用。谷歌所采取的扫描行为是高度转换性的，其显示的文字数量是有限的，而向公众提供的只言片语也不会与原作品构成竞争或替代关系。因此，即便谷歌是一家追求利润的商业公司，这也不妨碍认定谷歌图书馆的行为属于合理使用。[12]

TVEyes案（Fox News Network, LLC v. TVEyes, Inc）[13]

在“TVEyes”案中，TVEyes公司提供的搜索引擎可以对主流电视节目进行实时监控和搜索，用户可以根据关键词检索快速定位到感兴趣的节目，并可查看不超过10分钟的节目剪辑内容，也可以对相关片段进行保存、下载。

福克斯新闻公司在2014年向法院提起诉讼，指控TVEyes公司侵犯其版权，并要求TVEyes停止提供相关服务。此后，其他电视网站也加入了诉讼行列。

最终，美国第二巡回法院认可TVEyes将大量电视节目片段复制归档，并向用户提供关键词搜索等服务的使用行为具有变革性，对原作品构成转换性使用。但却同时认为TVEyes允许用户对相关节目片段进行查看与下载并不合理，将可能对版权人的市场地位与许可收入造成实际损害。最终法院判决TVEyes对相关作品的传播构成版权侵权。

上述两个案件展现了美国司法裁判中对TDM合理使用的整体态度。在美国“谷歌图书馆”案中，美国法院认定谷歌公司基于向公众提供搜索和片段浏览服务目的而对原告作品进行全文复制的行为具有“目的转换性”，强调司法实践中应当对四要素标准作综合考量。“TVEyes”案则显示出在法院已将TDM前期阶段的使用行为认定为合理使用的情形下，倘若相关技术实施者未采取必要技术以降低对原作品权利人的替代性影响，仍可能存在侵权风险。

相较于美国“谷歌图书馆”案与“TVEyes”案中原告的使用行为，ChatGPT经过对训练数据的学习而生成结果的使用行为显然更具有“转换性使用”意义。因此，在美国《版权法》合理使用制度框架下，ChatGPT的数据挖掘行为有相当可能性得以构成合理使用。

中国

区别于英国、欧盟与美国为TDM制定了合理使用规则，TDM目前尚未被涵盖在我国《著作权法》第24条所列举的12种法定著作权例外情形中。换而言之，当前国内的著作权例外制度无法为TDM的实施提供合法性依据。

我国《著作权法》第24条规定了12种合理使用情形。然而，ChatGPT对训练数据的使用难以被该12种法定情形所保护。ChatGPT的数据挖掘行为并非为“个人学习”“教学或科研”“公共文化机构”所使用，且本质上属商业性使用，难以直接援引该条作为侵权抗辩。因此，值得进一步讨论的便是ChatGPT的数据挖掘行为能否落入《著作权法》第24条兜底条款的保护之中。从案例来看，兜底条款实际上同样难以为ChatGPT的数据挖掘行为提供法律依据，在部分案件中可见国内法院对TDM著作权侵权问题的整体态度。

A作者诉B公司数字图书馆案[14]

本案中，原告A作者是某书籍的作者及著作权所有人。被告B公司获得了涉案作品的纸件版本并将涉案书籍进行扫描。随后，B公司将扫描的图书片段开放给旗下搜索引擎，从而使互联网用户从搜索结果中看到涉案作品的片段。

在讨论B公司数字图书馆的扫描书籍及通过搜索展示书籍片段的行为是否构成著作权的“合理使用”时，法院首先指出，B公司的涉案复制行为并不属于《著作权法》（2010）第22条规定的合理使用行为，故应初步推定为构成侵权。但随后又提出，鉴于实际的司法实践中，法院已在部分案例中认定《著作权法》（2010）第22条规定之外的其他特殊情形也可构成合理使用，故如果B公司能够主张并证明其涉案复制行为属于合理使用的其他特殊情形，那么该行为也可被认定合理使用。

关于如何判断涉案的复制行为是否构成《著作权法》（2010）第22条规定之外的合理使用特殊情形时，法院提出应综合考虑以下相关因素，包括（1）使用作品的目的和性质；（2）受著作权保护作品的性质；（3）所使用部分的性质及其在整个作品中的比例；以及（4）被告的使用行为是否影响了原告作品的正常使用或不合理地损害著作权人的合法利益等。

在综合考虑了上述因素之后，法院认为在本案中，B公司未能针对上述因素提交相关事实证据，故驳回B公司关于合理使用的抗辩，认为其图书馆行为构成侵权。 [15]

从中美类案判决的对比来看，在面对相似案情与抗辩理由时，两国法院在判断相关行为是否构成合理使用时得出了相反结论。在中国“A作者诉B公司数字图书馆”案中，法院认为在《著作权法》（2010）第22条规定的具体情形外认定合理使用，应当从严掌握认定标准，而被告应当对考量因素中的事实问题承担举证责任。但该案中被告B公司并未充分举证其涉案行为属合理使用，因此法院最终推定其使用行为构成侵权。由此可见，依据当前《著作权法》相关规定，ChatGPT的数据挖掘行为被中国法院认定为合理使用具有难度，仍存在较高侵权风险。

上述观点也可以从2023年4月11日国家互联网信息办公室起草的《生成式人工智能服务管理办法（征求意见稿）》中得到印证。该征求意见稿回应了公众关注的生成式AI若干问题。其中第7条对生成式AI产品/服务的数据来源作出规制，明确规定提供者应当对生成式人工智能产品/服务的预训练数据、优化训练数据来源的合法性负责，不应含有侵犯知识产权的内容。[16]换而言之，该征求意见稿并未对TDM设置著作权例外，一定程度显示出我国立法动向仍对认可TDM合理使用持保留态度。

结语

信息获取与知识共享是数字经济的基础。随着人工智能领域高速发展，在可预见的将来仍会不断涌现涉及他人著作权作品的新型使用行为。当前部分国家已对数据挖掘、使用行为设定了著作权例外制度，尝试在科学技术的发展与著作权人的利益保障之间取得平衡。

我国《著作权法》目前尚未对数据挖掘制定著作权例外规则，相关技术在中国的实施仍具有侵权风险。但数据挖掘作为人工智能时代的基础性技术，合理使用规则的缺失必然会限制信息自由流动与创新发展。为了促进科技领域发展，我国应当保障数据挖掘技术的流通与应用，平衡著作权人利益与公共利益的冲突，建构旨在驱动创新的合理使用制度。

参看资料：

[1] “IFLA Statement on Text and Data Mining (2013).” IFLA, www.ifla.org/publications/ifla-statement-on-text-and-data-mining-2013/. Accessed 22 Apr. 2023.

[2] “ChatGPT and Data Annotation.” 23 Feb. 2023, labelyourdata.com/articles/data-annotation-for-training-chatgpt. Accessed 22 Apr. 2023.

[3] “GPT-4 Is Coming – What We Know So Far.” Forbes, Bernard Marr, 24 Feb. 2023, www.forbes.com/sites/bernardmarr/2023/02/24/gpt-4-is-coming–what-we-know-so-far/?sh=11045dd86c2d. Accessed 7 Apr. 2023.

[4] “Introducing ChatGPT.” OpenAI, openai.com/blog/chatgpt. Accessed 22 Apr. 2023.

[5] 除本文所列举的英国、欧盟与美国外，日本与新加坡同样对TDM制定了版权例外规则。日本TDM版权例外规则详见《著作權法》：https://www.cric.or.jp/english/clj/cl2.html；新加坡TDM版权例外制度详见《COPYRIGHT ACT 2021》：https://sso.agc.gov.sg/Acts-Supp/22-2021/Published/。

[6] Copyright, Designs and Patents Act 1988, 29A: Copies for text and data analysis for non-commercial research (1)This section applies where— (a)a person has lawful access to a copy of a copyright work for the purposes of research to which this section applies, and (b)the copy is retained by the person on a secure electronic network for the purposes of carrying out text and data analysis for those research purposes. (2)The making of a copy of the work by the person who has lawful access to the work under subsection (1) does not infringe copyright in the work provided that— (a)the copy is made by an automated process, (b)the copy is used only for the purposes mentioned in subsection (1)(b), and (c)the person satisfies the other conditions in this section. (3)The other conditions are that— (a)the person making the copy has reasonable grounds for believing that doing so is necessary for the purposes of the research mentioned in subsection (1)(b), (b)the person does not use the copy to compete with the owner of the copyright in the work, (c)the person does not supply the copy to any other person except for the purposes mentioned in subsection (1)(b), and (d)the use of the copy is accompanied by a sufficient acknowledgement. (4)This section applies to research for any purpose, except for commercial purposes.

[7] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019，article 3.

[8] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019，article 4.

[9] Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994).

[10] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第90-95页。

[11] Authors Guild v. Google, Inc., 4F., 3d 202,209(2015).

[12] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第100-101页。

[13] Fox News Network, LLC v. TVEyes, Inc., 883 F.3d 169, 179 (2d Cir. 2018).

[14] （2013）高民终字第1221号。

[15] 宋海燕：《娱乐法（第二版）》，商务印书馆2018年版，第101-102页。

[16] “国家互联网信息办公室关于《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知-中共中央网络安全和信息化委员会办公室.” 中共中央网络安全和信息化委员会办公室,https://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm. 最后浏览日期：2023年4月21日。