AI时代的个人信息保护：数据控制者与隐私数据合规

ChatGPT与PPT 1年前 (2023) lida

46 0 0

文章主题：自然语言处理, AI应用服务商, 个人信息保护, 数据合规

666ChatGPT办公新姿势，助力做AI时代先行者！

本期观点摘要：

ChatGPT等AI应用服务商作为个人信息保护合规主体——数据控制器，直接向个人提供服务并处理他们的个人信息。

与典型的移动互联网APP场景相比，生成式AI服务提供商在个人信息处理方面的特征显著，其数据合规的重点也存在差异。

根据GDPR规定，欧盟数据保护机构（DPA）的角色定位为监管机构，而非市场准入机构。其主要职责在于辅导和监督企业确保符合数据合规要求。换言之，DPA不是负责批准企业进入市场的机构，而是关注企业是否遵守了数据保护法规。

4.未来真正的挑战来自于AI赋能的各类应用服务，解决新的数据安全问题需要新思维。

C端AI应用服务商是

数据控制者（data controller）

在数据合规框架下，并非所有的主体都承担同样的义务。我们需要依据技术原理、业务场景以及法律规范，对主体身份进行更为精确的划分。当涉及到主体身份的重合时，我们也需要针对不同的业务流程，对其对应的合规义务进行配适。在这个分析框架下，我们曾在一篇专门的文章中，详细论述了大模型开发者，在模型研发过程中，可能并不会被认定为隐私数据合规方面的法律主体（data controller）。

在相同的分析框架下，我们主张，针对个人用户提供生成式AI服务的运营商可以被视为隐私数据合规方面的数据控制器。如OpenAI在2022年11月向公众推出ChatGPT应用程序服务，并在短短两个月内吸引超过1亿用户，创下了历史 growth最快的消费应用纪录，这进一步巩固了其作为数据控制者的地位。

实际情况也是如此。观察国外的实践，我们发现，已经向个人用户提供AI应用服务的供应商，在数据合规方面已经完全配备了隐私政策和用户协议，以此向用户明确告知他们所收集的数据种类，以及这些数据将如何被处理。例如，OpenAI在其隐私政策中详细列出了所收集的数据类型，包括账户信息、通信内容、使用记录等。而这些数据处理的目的不仅限于提供和优化服务，还包括防止欺诈，保障网络信息安全，以及履行法定义务等。同样，面向公众的图片生成AI服务商Midjourney也对其隐私政策进行了明确阐述。尽管我国目前尚未正式上线相关产品，但已经有部分公司开始在测试版本中融入隐私政策。

数据保护机构DPA作为首批监管机构加入进来，这并不令人意外。在3月31日，意大利数据监管机构Garante发布了一项临时禁令，禁止使用ChatGPT，并要求OpenAI在短短20天内对此事做出回应。这一举措是数据监管机构DPA对新兴应用的正常反应，然而却被误解为DPA可以对特定业务实施永久性措施。事实上，根据欧盟GDPR的规定，尽管DPA拥有高额罚款权限，但其职权被严格限制在矫正性权力范围内，仅限于建议、警告以及暂时性的或具有明确期限的禁令。换言之，只要服务提供商遵守数据合规要求，DPA就无法对其采取市场禁入措施。值得注意的是，在4月12日，Garante释放出信号，表示如果OpenAI采取有效措施来解决这些问题，他们愿意在4月30日重新开放ChatGPT。这一立场表明，DPA并非一成不变，而是会根据具体情况灵活调整其监管策略。

生成式AI服务商

数据合规的独特性

与移动互联网相比，个人生成的AI应用在数据合规方面存在许多相似点，如制定隐私政策和业务协议，确立处理用户数据的法律依据，以及通过隐私保护机制在信息系统中保障用户对其账户信息和在使用服务过程中产生的个人信息相关权益，如查询、访问、更正和删除等。然而，我们需要特别关注这些应用在个人信息处理方面的独特特点：

首先，我们需要认识到，目前所收集的用户个人信息类型相对有限。为了实现对用户个性化服务的全面覆盖，一些典型的移动APP，如导航软件、打车和购物等，需要实时收集各类用户信息。然而，在生成式AI应用领域，例如OpenAI和Midjourney，其核心关注点在于生成内容的质量，而非单纯地收集个人信息。在应用服务阶段，这些AI应用主要通过建立用户账户体系、接收用户指令并进行交互来收集个人信息。在这个过程中，主要包括账户信息（如用户名和电子邮件地址）和使用记录（如cookie等）。若涉及到购买服务等方面的交易，那么还会包括支付信息。值得注意的是，Midjourney甚至采用表格形式，明确指出不会收集的一些用户信息类型，包括用户敏感信息、生物识别信息以及地理位置信息等。这些信息对于生成式AI应用来说，并非至关重要。

第二、在更早阶段以及更广泛地采取个人信息去标识化以及匿名化措施。在提供服务过程中，生成式AI主要围绕用户账号体系及通信内容构建数据安全防护体系。以ChatGPT为例，尽管在模型训练阶段，其采集的数据源中的用户个人信息较少（且主要为公开信息），但在应用服务阶段，问答式的会话功能会产生较为敏感的通信内容，模型根据与用户通信内容（上下文环境）进一步分析并生成回复。为降低用户通信内容泄露后产生的风险，生成式AI会在更早阶段采取用户身份信息去标识化及匿名技术，或者将用户身份信息与通信内容相互分离，或者在模型生成回复内容后及时删除通信内容等安全类措施。这也是由生成式AI更关注反馈内容，而非用户行为的逻辑所决定，这与建立在用户行为特征基础上，以个性化推荐见长的移动APP有显著差异。

第三、由以上两方面影响，生成式AI与移动APP在数据安全的风险领域有所不同。移动互联网APP需要直接收集大量个人信息，用户数据库易成为黑客攻击和数据泄露的目标。然而，在生成式AI 应用中，虽然其直接收集的用户信息种类少，但其风险集中在模型被攻击从而反向溯源数据库，以及用户通信内容泄露的隐患。意大利数据监管机构对OpenAI发出暂时禁令，即是由于用户通信内容因出现服务bug而泄露的事故。为减轻风险，在技术上已经明显具备先发优势的OpenAI，开始探索支持用户可以选择将个人删除通信记录。4月23日，OpenAI 推出新控件，允许 ChatGPT 用户可以选择关闭其聊天历史记录，且可以不用于模型训练目的[6]。

第四、在输出阶段，如果用户引导的问题涉及个人信息时，基于大模型的语言预测生成的算法逻辑，输出结果中的个人信息有可能是编造的，虚假的，这可能违反了个人信息保护法上的信息质量原则，即保持个人信息准确性要求。但这类问题的背后实质是生成式AI在内容治理中面临的一般性问题，即AI进入“幻想”，编造不准确甚至是虚假的信息。

OpenAI在研发阶段，即致力于改善和解决此类问题，包括引入人类专家意见反馈机制和强化学习（RLHF），引导AI输出准确内容。目前，部分生成类AI还加入了输入（prompt）+输出双重过滤机制,来进一步避免出现有害内容或侵权问题。尽管大语言模型的进步速度令人瞠目结舌，仅用了4个月，ChatGPT 4相比于GPT3.5，其输出信息的准确率就大幅提升了40%，违反内容政策的输出可能性降低82%[7]，但目前仍不能保证其生成内容具有可靠的准确性。因此作为用户也应当对ChatGPT的回答保持一定警惕和判断力，避免被误导。

综上，看待生成式AI的数据合规问题，需要从移动互联网服务中的数据合规惯性中跳脱出来，围绕其在隐私和数据安全方面的不同特点，有的放矢采取相应的合规和安全保护措施。

面向未来的挑战：

前所未有的数据汇聚

基于大语言模型的生成式AI为世人所瞩目，不在内容生成，而在其所具有的通用人工智能（Artificiall general interlligence,AGI）潜力，业界惊呼：AGI的奇点时刻正在到来。未来，除了面向普通大众的内容生成式AI应用外，业界普遍认为AI也将改写互联网范式。现有商业模式将广泛引入AI智能模型，大幅提升用户交互效率。这不是将来时，而是进行时。2023年3月17日，微软发布Microsoft 365 Copilot，将大语言模型（LLM）功能与微软办公应用相结合，帮助用户解锁生产力[8]。

Copilot将会被内置到办公全家桶内，在Word、Excel、PowerPoint中，AI将与个人通过便捷的语言交互，一起撰写文档，演示文稿，实现数据可视化；在Outlook，Teams ，Business Chat中，AI能够帮助用户回复邮件，管理邮箱，实时完成会议摘要和待办事项，提高会议效率。

办公效率的飞越提升，不仅建立在强大的AI模型能力基础之上，更建立在广泛的数据打通链接基础之上，使用Copilot意味着用户将授权微软打通跨越各业务平台的个人数据。正如微软隐私政策所陈述，为实现业务提供，改进和开发产品等目的，微软会从不同的业务环境中（例如在使用两个以上 Microsoft 产品的过程中）收集的数据进行合并[9]。

这只是未来超级数字助理的雏形，在智能基础设施的支持之下，每个人甚至可以拥有多个数字分身，协同完成任务。可以想见，数字助理的背后是大语言模型访问、链接个人以及商业企业的私有数据，数据的融合利用一定是无缝丝滑的。此类数据的访问处理如何以安全、合规、保护隐私的方式进行，对安全技术保障措施提出了更高要求。

图：Microsoft Graph 是 Microsoft 365中数据和智能的网关。它提供了统一的可编程性模型，以安全便捷地跨业务平台访问数据。

同时,我们也迫切需要审视现有的隐私保护与合规机制。在当前移动互联网个人信息保护实践中，对于必要性原则解释是非常严苛的，以最大程度的避免数据收集与汇聚。例如：《常见类型移动互联网应用程序必要个人信息范围规定》（简称《39类规定》）不仅针对每类应用区分了基本功能和附加功能，还针对基本功能收集的必要信息进行了明确。在大部分基本功能中仅能收集两三类个人信息，例如定位和导航功能仅能收集位置信息、出发地、到达地三种信息；《App违法违规收集使用个人信息行为认定方法》中更是明确：不得仅以改善服务质量、研发新产品等理由收集个人信息。这种基于“严防死守”的数据合规思路在未来的AI应用场景中是否还能继续走下去，是一个值得探讨的问题。

从移动互联网到我们正在步入的AI时代，虽然数据利用一直在向更广更深的方向发展，但各类新技术应用仍将隐私保护作为价值对齐（value alignment）的重要方面。隐私和数据安全的真谛从来也不是对数据的使用进行各种限制，或者人为增加数据利用门槛，而在于通过激烈的市场竞争、健全的法律机制和更加强大的技术安全措施来切实保障用户隐私与数据安全。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！