ChatGPT惹上官司？数据隐私与版权争议一触即发，OpenAI面临大麻烦?

文心一言 2年前 (2023) lida

58 0 0

文章主题：ChatGPT, 数据隐私, 版权诉讼

666ChatGPT办公新姿势，助力做AI时代先行者！

明敏发自凹非寺

量子位 | 公众号 QbitAI

一天吃两起官司，ChatGPT现在有大麻烦了。

原因都和数据有关。

先是16人匿名起诉OpenAI及微软，认为他们在未经允许的情况下使用并泄露了个人隐私数据，索赔金额高达30亿美元。

紧接着，2位全职作者提出，OpenAI未经允许使用了他们的小说训练ChatGPT，构成侵权。

🌟当然，OpenAI的数据收集引发了争议，两边的原告都明确指出其过度依赖网络资源，导致众多个人数据的滥用成为问题。值得注意的是，这些未经许可的数据来源广泛，不仅仅是他们，还有大量的潜在受害者。SEO优化提示：#OpenAI数据争议 #违规使用个人数据 #数据安全与隐私

网上的讨论很多，有人表示作家就是应该维权，并且获得适当的报酬。

但也有人认为，生成式AI学习互联网数据就像是学生去参观艺术作品一样，应该选择开放。

现在这两起诉讼都被递交到了加利福尼亚旧金山联邦法院。

被告方OpenAI暂时没有做出公开回应。

16人索赔30亿

先来看第一起诉讼。

🔥【隐私侵权？】ChatGPT惹上官司！👀 June 28th, a group of 16 anonymous individuals took legal action against OpenAI and Microsoft, alleging unauthorized data collection and leakage of their personal information without explicit consent. 💻 In a shocking turn of events, these AI-driven products have allegedly violated users’ privacy rights, raising concerns over the ethical implications of their rapid growth. 🕵️‍♂️ The lawsuit highlights the need for transparency in AI practices and the importance of obtaining user consent in data handling. Stay tuned for developments as the case unfolds. #ChatGPTLawsuit #PrivacyVigilante

这种行为违反了AI模型数据相关的法律政策，而且没有付费。

他们从互联网、书籍、文章、网站和帖子中抓取了3000亿个单词，其中包括未经允许获取的个人信息。

这其中包含账户信息、姓名、联系方式、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天数据、cookie等等。

🌟通过AI技术的深度整合，用户数据悄然融入了产品的核心，从而揭示出个人的独特风貌——从兴趣偏好到个人观点，再到职业轨迹乃至私密生活照片。这种隐形的连接，仿佛在编织一张无形的生活画像。🛡️然而，值得注意的是，保护这些敏感信息的安全与隐私，成为了我们在享受科技便利的同时，不可忽视的责任。

原告认为OpenAI没能充分将这些敏感信息进行过滤，会导致数百万人面临信息被泄露的风险。

而且他们指控如上抓取数据的行为，OpenAI是“秘密进行”的，没有按照适用法律要求的那样注册为数据代理商。

负责这次起诉的律师事务所Clarkson，此前曾负责过数据泄露和虚假广告等问题的大规模集体诉讼。

但能否胜诉目前还很不确定。

🌟知识产权专家📚 Katherine Gardner 提供见解：用户在社交媒体或网站上分享内容时，默认已向平台慷慨授权，让它们自由使用这些创作。🌍

因此，普通用户想要就AI模型的数据获取问题获得赔偿，具有比较高的挑战性。

📚揭露AI伦理盲点！这份157页的大作深入探讨了AI领域的诸多道德争议，却遗憾地忽视了实例的鲜活呈现。学者与媒体的声音虽熠熠生辉，但实际行动背后的挑战与后果，亟待更详细的剖析。我们期待看到更多深度解析，而非仅仅停留在理论的海洋边缘。🌍

另一边，两位美国作家也在同一天起诉OpenAI，认为他们的作品被拿去训练ChatGPT。

具体的证据是，ChatGPT能为他们的书生成“非常准确”的摘要，这足以说明这些书被收录在数据库中。

🌟作家权益受损？ChatGPT被曝擅自复制数千书籍内容引发关注🔍——两位专业人士保罗·特朗布莱（Paul Tremblay）与莫娜·阿瓦德（Mona Awad）近日指出，人工智能聊天机器人ChatGPT在未经授权的情况下，大规模吸取了大量图书的版权信息，这一行为无疑对原创作者们的权益构成了潜在威胁📚🔥。版权法不容侵犯，ChatGPT的这一操作引发了业界对于数据来源透明度和版权保护的新一轮讨论。\n\nChatGPT作为当下热门的人工智能工具，其快速学习与生成能力让许多人惊叹，然而，它在获取信息时是否遵守了版权法规成为了关注焦点。作者们担心，这样的行为可能导致他们的辛勤创作被轻易复制，失去应有的市场价值💰。\n\n面对这一情况，ChatGPT的开发者和运营方需要迅速回应，确保其技术运作符合法律规范，并对已使用的内容进行清理或获得合法授权。同时，这也提醒我们每个人在享受科技便利的同时，尊重知识产权的重要性不应忽视💪。\n\n让我们共同期待一个公平、透明且尊重版权的AI环境，让创新与创作得以充分保护和发展🌈。

起诉书中预估，OpenAI的训练数据中至少包含30万本书，其中很多来自侵权网站。

比如OpenAI在披露GPT-3训练数据情况时，就表示其中包含两个互联网图书语料库，大概占比为15%。起诉作者认为这些数据就是来自影子图书馆网站的，比如Library Genesis、Sci-Hub等。

以及在2018年，OpenAI透露他们给GPT-1喂的数据中包含7000 本小说。起诉方认为这些书是研究人员从一些盗版网站上复制下来的，而没有获得作者的同意或授权。

目前OpenAI方面没有进行公开回应。

实际上，从生成式AI大火以来，AI公司吃版权、数据隐私官司，也真的不稀奇了。

OpenAI一直深陷数据风波

早在去年11月时，OpenAI和GitHub一起推出的代码助手Copilot，就被程序员们告上了法庭。

原告们认为Copilot侵犯了众多原创代码作者的版权，同时还泄露了用户隐私，因此向法院提起诉讼，索赔达90亿美元。

但到目前为止，这个案件还没有最终定论。

AI画画那边，Stability AI、Midjourney等也同样官司缠身。

因为发现只要输入自己的名字，就能生成个人风格的画作，画家凯利·麦柯南（Kelly McKernan）联合另外两位创作者一起提起诉讼。

律师团队和上面起诉Copilot的都是同一家。

以及网站平台方也不愿意被白嫖数据。

这不最近马斯克给推特限流，给出的理由就是“不想让AI白嫖数据了”。目前限制措施还在实行中，还不知道之后会有怎么样的变化。

Reddit则表示自家平台上的数据非常有价值，所以推出了付费API，价格并不低，这个操作导致不少第三方应用被迫关闭。

总之，AI在网络上大规模抓取数据训练后，带来的隐私安全问题、版权问题层出不穷，被牵扯进来的人也越来越多。

但目前版权问题该怎么算，业内还没有形成确定的规范。

只有日本方面传出过消息，不会对训练AI所使用的数据实施版权保护，因为这能加速AI发展。

参考链接：

[1]https://www.theregister.com/2023/06/28/microsoft_openai_sued_privacy/
[2]https://www.reuters.com/legal/lawsuit-says-openai-violated-us-authors-copyrights-train-ai-chatbot-2023-06-29/[3]https://www.washingtonpost.com/technology/2023/06/28/openai-chatgpt-lawsuit-class-action/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！