文章主题:关键词: LGAIM, 监管, 人工智能, 透明度
🚀监管LGAIM:ChatGPT时代的新挑战💡随着大型生成式AI模型(LGAIM)如ChatGPT和Stable Diffusion的崛起,我们正步入一个创新与监管并行的时代。然而,欧盟等国家在人工智能法规上对传统AI的关注远超于这些革命性的技术。📝《Regulating LGAIM:迈向可信的未来》一文深入剖析了这一议题。首先,文章从四个关键维度展开讨论:`(1) 直接监管`以确保规则明确,`(2) 数据保护`保护用户隐私,`(3) 内容审核`保证信息质量,以及`(4) 政策建议`引导行业健康发展。📝AI价值链中的参与者——LGAIM开发者、部署者、专业与非专业人士,都在这个新生态系统中扮演角色。文章为他们量身定制了相应的监管职责,提出务实的策略:`(1) 透明度义务`以增强信任,`(2) 风险管理`预防潜在问题,`(3) 非歧视条款`确保公平,以及`(4) 扩展DSA至LGAIM内容审核`。面对ChatGPT等技术的快速发展,监管机构和立法者必须迅速行动。中国人民大学金融科技研究所已对此进行了精编整理。📝# LGAIM监管 # ChatGPT时代 # AI社会善用
🔥🚀LGAIM革命性地重塑了沟通、创作与工作方式,各行各业都深受其影响:💼medicine, 📚education, 🎨art, 🧠coding, 🍿entertainment…无数用户已熟练驾驭ChatGPT等巨擘,生成人类级文本、图像、视频乃至音频。未来,它们或将渗透招聘流程,智能评估求职者并提供反馈;也可能成为医疗系统的新帮手,为患者编写病情说明。这种多维度决策引擎的出现,旨在解放专业人员,提高资源分配效率与公正性。然而,潜在风险同样引人关注: ön-point偏见、数据隐私泄露、内容不端等挑战亟待解决,错误代价高昂。警惕!LGAIM的力量已让虚假信息传播和恶意言论升级,监管议题愈发紧迫。🔥我们需要明智的指导方针来驾驭这一科技巨头,确保其健康发展,为人类社会带来积极影响。🤔
在本文中,我们认识到,监管机构对于新一代AI模型的迅速崛起并未做好全面准备,反而过分集中在《人工智能法》的直接管理上,却忽视了同样关键的《数字服务法》(DSA)中的内容审核议题。值得注意的是,欧盟已在这方面采取行动,通过立法明确对AI系统的监管,并针对平台制定法规。同时,诸如非歧视法和数据保护法等中立技术法律将继续对AI系统产生深远影响,它们或许能更有效地防范LGAIM带来的潜在风险。📚🌐
🌟💡人工智能监管新挑战:探索新兴生成模型与未来法律工具 📈🔍当前,人工智能(AI)监管的焦点仍固守在传统模型上,未及新一代创新技术的迅猛崛起。📝🚀面对这一变革,我们需要将目光投向那些正在塑造AI可信度的新模型,并思考如何适应瞬息万变的法规环境,设计适应未来法律需求的新型工具。🔍🛠新一代AI的涌现不仅拓宽了人工智能价值链,也对现有的监管框架提出了挑战。为了精准管理,我们急需明确区分《人工智能法》与其他相关法规中的概念与责任,以确保法规的连贯性和适应性。🎯⚖️在这个数字化时代,法律与技术的交汇点需要我们创新思维,用前瞻性的策略应对新兴AI带来的监管空白。🚀🌐让我们携手共进,为一个更透明、合规的人工智能未来铺路!🌍💼
🌟了解客户需求,改写如下:🚀探索LGAIM:基础与应用场景洞察!🔍首先,深入解析这项技术的核心,它在哪些场景中大放异彩,为后续法律讨论提供坚实基础。接着,欧盟AI法规的挑战浮出水面——尽管旨在管控风险,却面临议会辩论中的复杂议题。这法案似乎未能充分应对LGAIM的强大灵活性和广泛适用性,尤其是对全面风险管理系统的高要求,它可能无法涵盖所有潜在的高风险应用。💡SEO优化提示:使用关键词“LGAIM技术基础”、“欧盟人工智能法案”、“全面风险管理系统”、以及“法律讨论”,确保内容相关性和搜索引擎可见性。同时,保持信息简洁明了,适当加入emoji符号以增加可读性。
🌟欧洲议会提案深度探讨:LGAIM风险焦点转移💡,模型实战而非预训练!📝然而,潜在偏见问题需对基础模型开发者提出更全面的非歧视规定,以消除数据源头的偏见影响。🌍GDPR下,保护关键数据安全至关重要🛡️,不容忽视。内容审核成为当务之急🔍,ChatGPT虽有隐私防护,但其生成仇恨言论的能力仍引发担忧。🔥LGAIM以其传播速度和语法准确性,构成假新闻制作的巨大威胁,尤其是在社交媒体监管薄弱的平台如Twitter。🌊选举季来临,潜在风暴一触即发。《数字服务法》对LGAIM的规制不足,欧盟反恶意言论策略面临挑战🔍,这无疑为监管留下了一个亟待填补的漏洞🔥。我们需要更全面、精准的策略来应对这一新兴挑战。
本文最后提出了四项不同的政策建议,以确保LGAIM值得信赖并对整个社会的利益有积极作用:(1)对LGAIM部署者和用户进行透明度的监管;(2)加强LGAIM部署者和用户的风险管理;(3)制定适用于LGAIM开发者的非歧视条款;(4)LGAIM的特定内容审核规则。
2、大型生成式人工智能模型的技术基础和示例性使用场景
本文所涉及的人工智能模型通常被称为“基础模型”(Foundation Models)、“大型语言模型”(LLM)或“大型生成式模型”(LGAIM)。尽管近年来这些模型的出现构成了重大的技术进步,但它们的规模和影响范围大大增加。LGAIM通常使用数十亿甚至数千亿的数据进行训练,需要大量的原始训练数据和计算能力。例如,OpenAI的“CLIP”图像分类器是使用4亿对“图像-文本”构建的。“BASIC”模型甚至使用了66亿对,训练如此大的模型所需的算力也引发了气候政策角度的担忧。
2.1从ML到LGAIM
因此,LGAIM是一种高级机器学习模型(Machine Learning),它们通常经过训练并用以生成新数据(如文本、图像或音频),这使它们不同于其他仅用于预测或分类的人工智能模型。而这种应用范围的增加使得训练它们需要更大量的数据和算力。
LGAIM采用了多种技术,旨在让模型自己在海量数据中找到模式和关系,而无需明确被告知要查找什么。一旦模型学习了这些模式,它就可以生成类似于训练数据的新示例。简单来说,训练数据表示为概率分布,通过对这些数据进行采样和混合,该模型可以生成超出训练数据集的内容——因此,正如一些评论所说的那样,这是一种新的东西。
LGAIM通常可以理解人类文本输入,并基于其产生输出(文本、图像、音频、视频),但其训练所需的大量数据意味着LGAIM必须依赖互联网上公开提供的训练数据,从数据质量的角度来看,这很难被认为是完美的。因此,这些模型产生的内容可能是有偏见或有害的。为了避免或至少减轻这个问题,模型开发人员需要使用适当的策略来规避。
2.2内容审核
从内容审核上来看,模型旨在生成与训练数据类似的新内容,其中可能包含冒犯性或不适当的内容。同时,大型生成式模型生成的内容又难以与真实内容区分,这些模型生成的大量内容会使手动查看和调整所有生成的内容变得困难。
ChatGPT在一定程度上解决了管理其训练数据并调整其输出的问题。根据公开的消息,ChatGPT的创建者通过使用检测和删除不适当内容的技术组合来解决这个问题。这一过程主要包括预审核和过滤。预审核是由一组审核人员在内容公开之前对其进行审核和批准。过滤是使用自然语言处理和机器学习算法来检测和删除冒犯性或不适当的内容。这是通过在不适当内容的示例数据集上训练机器学习模型来实现的,然后使用这个模型来识别新输入中的类似内容。由于OpenAI并没有提供更透明的细节,我们无法完全验证这些说法,但ChatGPT似乎能够防止输出被滥用。
3、人工智能价值链的直接监管:《欧洲人工智能法案》(THE EUROPEAN AI ACT)
2022年5月13日,法国理事会主席发布了一份对人工智能法草案第4a-4c条的修正案,该修正案涉及文本所称的“通用人工智能系统”(GPAIS)。这一新颖的条款最初并没有引发太多的争论,但却形成了对LGAIM直接监管的核心。它在欧洲议会中持续受到激烈争论。理事会于2022年12月6日通过的一般法案中,将GPAIS定义为“提供者旨在执行一般适用功能的系统,如图像和语音识别、音频和视频生成、模式检测、问题解答、翻译等;通用人工智能系统可用于多种环境,并可集成到多种其他人工智能系统中”(《人工智能法》第3(1b)条)。
为了确保人工智能价值链上责任的公平分担,如果这些系统可能被用作高风险系统或高风险系统的组成部分,则这些系统应承担高风险义务。一旦委员会在实施法案时规定了高风险规则应如何适应GPAIS,这些职责就会产生。《人工智能法》的地域范围也应该扩展到在欧盟市场上投放或投入服务的人工智能系统的提供者,以及系统产生的输出在欧盟的使用情况。因此,如果提供者完全位于欧盟之外,这些规则甚至可能适用(《人工智能法》第2(1)条)。例外情况下,如果提供者明确排除了GPAIS的所有高风险用途,则免除了GPAIS提供者的特定义务;然而,如果排除并非出于善意,则豁免失效。然而,如果任何提供者发现或获悉其系统被市场滥用,则必须采取一切适当措施制止滥用并避免损害。
3.1对GPAIS人工智能法案规则的批评
《人工智能法》正在努力跟上人工智能技术领域不断加速发展的动态。然而,在我们看来,最近出台的关于GPAIS的规则未能公正地对待大型AI模型的特殊性,尤其是LGAIM,原因有三:
首先,《人工智能法》第3(1b)条中的定义明显过于宽泛。GPAIS的规则受到了关于基础模型和文献的启发。如第2部分所示,LGAIM使用大量参数、训练数据和算力进行操作。虽然还没有接近人工通用智能(GPAIS),但LGAIM仍然比迄今为止主导第三波人工智能变革的深度学习系统更通用。值得注意的是,它们可以被用来解决未经专门训练的任务,通常比传统模型处理更广泛的问题。从概念上讲,它们的“通用性”可能指它们的能力(例如,语言与视觉,或多模式模型中的组合)、用例领域(例如,教育与经济)、所涵盖的任务的广度(例如,总结与完成文本)或输出的多样性(例如,图像、视频等)。在我们看来,GPAIS必须在能力、任务或输出方面显示出显著的通用性,而不仅仅是它们可能被集成到各种用例中这一事实。然而,《人工智能法》中对GPAIS的宽泛定义与这一理解相冲突。根据这一规则,无论其功能的广度如何,每个简单的图像或语音识别系统似乎都是合格的,这仅对应于GPAIS技术文献中的少数位置。这种过度包容的问题是由《人工智能法》第3(1b)条的后半句造成的,其中进一步的规范——在不同的环境和人工智能系统中使用——没有被表述为必要条件,而仅仅是GPAIS的可能示例。为了具体分辨真正的通用系统,必须对定义进行修改,以使得在不同的环境中或在实质上不同的人工智能系统中使用该系统是必要的。此外,还应要求GPAIS显示能力、任务或产出的显著普遍性,按相关性的递减顺序排列。因此,仅显示一组能力和任务的模型需要具有高度多样化的输出,才能获得GPAIS的资格;相反,多模态模型(Multimodal Models)通常是合格的,即使它们只适用于一项特定任务。
第二,即使是这样一个更窄的定义也无法避免其他问题。正是因为大型人工智能模型如此通用,提供者通常无法适用《人工智能法》第4c(1)条中的例外情况:因为他们知道,系统一旦发布,可能会被用于至少一个高风险应用。例如,语言模型可用于汇总或评估医疗患者档案,或学生、工作、信用或保险申请。图像或视频模型可用于新立法框架下监管的高风险产品的安全方面的可视化。因此,除非在技术上可以证实排除任何滥用,否则LGAIM通常被视为高风险系统。
然而,这意味着他们必须遵守高风险义务,特别是根据《人工智能法》第9条建立全面的风险管理系统。鉴于LGAIM的多功能性,建立这样一个系统几乎是不可能的。它将迫使LGAIM提供者识别和分析所有“已知和可预见的最有可能对健康、安全和基本权利产生的风险”。在此基础上,必须制定和实施所有这些风险的缓解策略(《人工智能法》第9(2)(d)和(4)条)。因此,像ChatGPT这样的LGAIM提供者必须分析附件二和附件三所载的每一个高风险案例中每一个可能应用的风险,这些案例涉及健康、安全和所有可能的基本权利。
同样,必须对所有可能的高风险用途进行性能、鲁棒性和网络安全测试(《人工智能法》第15(1)条、第4b(6)条)。这似乎不仅成本高昂,而且几乎不可行。整个分析将不得不以抽象的、假设的调查为基础,并再加上风险缓解措施。在许多情况下,这些措施将取决于具体部署。更重要的是,这些可能的用例最终甚至无法实现,因为它们在经济上、政治上或战略上都不可行。因此,这样的规则可能会造成“无事生非”,换句话说:资源浪费。具有讽刺意味的是,目前提出的《人工智能法》第4a-4c条的概念给真正通用的人工智能系统的提供者带来了非常高的、可以说是不适当的负担。由于其模型的广泛性,这些提供者不太可能遵守《人工智能法》,因为有太多的场景需要考虑。与拟议的人工智能责任制度相结合,如果违反AI法案,则有利于损害索赔,这也使LGAIM提供者面临重大责任风险。
第三,目前的GPAIS规则可能会对LGAIM周围的竞争环境产生重大不利影响。《人工智能法》的定义特别包括开源开发者作为LGAIM提供者。其中一些机构不是出于商业目的,而是出于慈善或研究目的来探索LGAIM。例如,Stable Diffusion是在慕尼黑大学(LMU)进行的一个研究项目中开发的。尽管《人工智能法》第2(7)条不适用于与人工智能相关的任何研究和开发活动,一旦系统发布,这项研究豁免可以说不再适用,因为任何公开发布都不可能以科学研究和开发为其“唯一目的”,特别是在商业合作伙伴进入的情况下。
因此,开发LGAIM并将其投放市场的所有实体都必须遵守同样严格的高风险义务。考虑到遵守这些标准的难度,可以预计只有大型、财力雄厚的参与者(如Google、Meta、Microsoft/Open AI)才可能会承担发布一个大致符合《人工智能法》的LGAIM的成本。对于开源开发人员和许多中小企业来说,法规遵从性成本将高得令人望而却步。因此,《人工智能法》将产生意想不到的后果,促使LGAIM开发市场进一步集中。这与《人工智能法》的精神直接相反,该法案在标准化的背景下鼓励中小企业参与,以促进联盟内人工智能领域的创新和竞争力。从这个意义上讲,《人工智能法》有可能破坏《数字市场法》将可行的竞争注入数字和平台经济核心所做的努力。
3.2建议:关注部署者和用户
当然,这一批评并不意味着LGAIM根本不应受到监管。然而,我们认为,有必要采取不同的做法。学者们注意到,应该转移监管重点,转向LGAIM部署者和用户,即校准LGAIM并将其用于具体高风险应用的人。
监管重点转移到部署者和用户身上,需要解决几个后续问题。首先,部署人员和用户可能比LGAIM开发人员小得多,技术也不那么成熟。这并不是免除他们监管和责任的充分理由,但它指出了在人工智能价值链上设计可行的责任分配的重要性。义务的结构必须使部署者和用户能够合理地遵守义务,既要进行必要的技术调整,也要承担遵守义务的费用。
第二,《人工智能法》的许多高风险义务涉及LGAIM开发人员进行的训练和建模阶段。通常,LGAIM开发人员会预先训练一个大型模型,然后由部署人员(可能会与开发人员合作)对其进行微调,而用户最终决定人工智能系统的具体用途。为了满足《人工智能法》关于训练数据、文件和记录保存、透明度和人力监督、性能、稳健性和网络安全的要求,并建立全面的风险管理系统,任何负责人都需要访问开发人员和部署人员的数据,并具备专业知识。这揭示了一个监管困境:只关注开发者可能导致过度和低效的合规义务;专注于部署者和用户可能会给那些由于洞察力或资源有限而无法遵守的人带来负担。
在我们看来,唯一的出路是LGAIM提供者、部署者和用户之间在履行监管职责方面进行合作,其中监管机构为这种(强制)合作提供了充分的基础。在这方面,我们建议结合审前发现、商业秘密相关法规和GDPR中已知的策略。现行《人工智能法》的第4b(5)条鼓励这种团队合作,技术提供者应与用户合作并向用户提供必要的信息。本条还提到了一个关键问题,即获取可能作为商业秘密或知识产权受到保护的信息。在这方面,《人工智能法》第70(1)条要求“参与”应用人工智能法的任何人采取适当的技术和组织措施,以确保在执行任务和活动中获得的信息和数据的保密性。为了可行,这项义务需要进一步具体化。
在合作和披露与信息保护之间取得平衡的问题不限于《人工智能法》。在我们看来,它有内部和外部两个方面。在内部,即在请求访问的一方和授予访问的一方之间的关系中,授予方通过引用所谓不可侵犯的商业秘密或知识产权来对抗几乎所有的访问权。例如,欧盟委员会提出的责任指令包含了详细的证据披露规则,将受害人的赔偿利益与人工智能开发人员和部署人员的保密利益对立起来。GDPR第15(4)条包含类似的条款,通过类比,该条款也适用于GDPR第15(1)条中的访问权。
在美国审前发现制度领域(pretrial discovery),存在大量关于这一问题的文献和实践经验。根据拟议的欧盟证据披露规则部分采用了这一机制,受害人甚至可以在提起诉讼之前寻求获取潜在被告持有的文件和信息。
反过来,这可能会导致竞争对手提出不合理的访问请求。在人工智能价值链中,这些担忧不容忽视。在这里,开发人员、部署人员和用户实际上不仅可能是业务合作伙伴,而且可能是(潜在的)竞争对手。因此,部署人员和用户的访问必须受到限制。相反,必须使一些信息流的公开成为可能,以便部署人员能切实履行高风险义务。
为了防止滥用,我们建议采取一系列措施。一方面,提供者(以及潜在的部署者)可以在用户签署保密协议(Non Disclosure Agreement,NDA)和竞业禁止条款(Non-Compete Clauses)的前提下授权使用该模型。另一方面,引入受美国审前发现制度和拟议的欧盟证据披露机制启发的条款可能是有必要的。因此,法院应该有权发布保护令,这将赋予保密协议更大的分量,并使违反的人受到潜在的行政处罚。该命令还可豁免某些商业秘密的披露,或仅在特定条件下允许访问。此外,正如美国有关前任和现任美国总统的备受瞩目的文件审查案例所表明的那样,任命一名特别负责人最终可能会在信息获取和竞争优势的不当占有之间取得平衡。有了这些保障措施,如果LGAIM开发人员已经授权部署,就应该强制而不仅仅是鼓励他们与部署人员和用户合作,以遵守人工智能法案。
关于外部方面,出现了一个问题,即如果违反了高风险规则,谁应负责履行相关职责,并最终就行政罚款和民事赔偿承担责任。在这里,我们可以从GDPR第26条中得到启发。根据这一规定,联合数据控制者可在内部就GDPR职责的定制分配达成一致,但仍承担连带责任。这一规则的原因是为了促进数据主体的补偿,他们不必害怕被拒之门外且每个人都指责对方。此外,必须披露内部合规分配的实质(GDPR第26(2)条)。这一机制经过必要的修改后,可以转移到人工智能价值链。在这方面需要合作并应以书面形式记录,以促进事后问责。披露文件的核心部分,保留商业秘密,应有助于潜在原告根据人工智能责任制度选择披露证据请求的合适方。最后,连带责任保障了协作,维护了受害人的赔偿利益,然而开发人员和部署人员的责任必须在他们对部署模型的影响结束时结束。除此之外,只有使用者才应成为监管和民事责任的主体:只有在被激励的人实际上能够采取行动的情况下,行为激励才有意义。在GDPR背景下,这一点实际上是由CJEU做出的决定。用户在某些领域的唯一责任也应包含在披露的协议中,以告知潜在原告,并取消对开发人员和部署方的非重大索赔。我们认为,这样一个系统将在LGAIM开发者、部署者、用户和受影响者之间实现利益和权力的充分平衡。
3.3非歧视法(Non-Discrimination Law)
非歧视法通常以技术中立的方式适用于美国和欧盟。然而,重要的是,它只涵盖某些明确列举的活动领域,如就业、教育或公开提供的商品和服务。这就引出了一个问题,通用系统是否会在被部署到特定用例之前就受到非歧视条款的影响。关于欧盟法律,CJEU在一系列判决中认为,非歧视条款可能适用于在特定条件下的准备活动,例如实际工作选择:在具体案例中,在电台节目中表明不打算招聘某一特定性取向候选人的声明被认为是“获得就业的条件”,如果该声明与雇主的招聘政策之间的关系不仅仅是假设的。因此,为了适用反歧视指令,初步措施必须具体涉及指令所涵盖的活动。
关于LGAIM的(预)训练,如果该模型专门准备用于歧视相关场景(就业、教育、公共物品或服务等),则所需的联系可以说是存在的。相反,如果通用LGAIM的开发与此类场景没有任何具体联系(即使理论上可能在这些情况下使用),则不歧视法不适用于开发本身。同样,它显然适用于各个场景中的具体部署。如果适用非歧视法,就会出现超出本文范围的复杂问题,例如关于歧视、损害和起诉资格的具体证据。
4、GDPR下的数据保护
人工智能模型的第二个主要挑战是GDPR合规性。一般数据保护条例(General Data Protection Regulation,GDPR)为欧洲联盟于2018年5月25日出台的条例,这要求所有欧盟成员国实施自己的数据保护立法,以确保其公民的个人数据得到适当保护,并确保公民获得特定权利,以便了解第三方所持有的数据和能够要求在适当的时候纠正或删除数据。虽然大型生成式模型的要求与任何机器学习模型的要求没有明显的不同,然而,我们注意到,最近的研究表明,LGAIM容易受到反转攻击,甚至比以前的生成式模型(如生成对抗网络(GAN))所面临的的风险更大。因此,用于训练的数据可以从模型中再现。这对通过模型反转在训练数据中发现的受版权保护的材料不太重要,因为新的文本和数据挖掘例外,至少在一般情况下,如果权利人未选择退出,则允许将可公开访问的受版权保护的材料用于机器学习目的。
然而,GDPR第6条规定的法律依据对于任何用于训练的个人数据都是必要的。一些学者认为,考虑到反转攻击的可能性,甚至模型本身也可能被视为个人数据。由于通常未获得同意,开发人员需要利用平衡测试或目的变更测试,并可能结合特定的例外情况。遵守GDPR将取决于一系列因素,例如模型的预期用途、使用的个人数据类型、模型反转的可能性以及重新识别具体数据主体的概率。尽管学者们在平衡测试中是否应允许将个人数据用于机器学习的问题上存在分歧,但模型反转的威胁可以说对数据主体有利。
重要的是,如果个人数据构成GDPR第9条意义上的敏感数据,那么除了GDPR第6条,开发者还需要调用GDPR第9(2)条下的例外情况。虽然欧盟层面没有通用平衡测试,但一些成员国已根据GDPR第9(2)(g-j)条的开放条款引入了(更具限制性的)平衡测试。对于敏感数据,模型反转对GDPR合规性构成了更严重的威胁,因为开发商的合法利益很难克服敏感数据复制的风险,除非模型真正用于关键目的(可能用于医疗或紧急情况)。
5、生成式模型内容审核:欧洲数据服务法案(THE EUROPEAN DATA SERVICES ACT)
关于LGAIM的第三大监管问题是内容审核。生成式模型,几乎与任何新技术一样,可以用于更好的目的或更坏的目的。具体而言,ChatGPT的开发人员预见了滥用的可能性,并在肯尼亚承包商有争议的帮助下培训了内部人工智能审核员,以检测和阻止有害内容。人工智能研究最近在这方面取得了进展。OpenAI发布了一种内容过滤机制,用户可以应用该机制来分析和标记几个类别(暴力、仇恨内容等)的潜在问题内容。其他大型生成式模型也具有类似功能。然而,有意使用ChatGPT和其他模型来生成虚假或有害内容的参与者将找到方法来这样做。提示工程(Prompt engineering)正在成为引导LGAIM产出内容的新学科。在现实生活中,假新闻也比仇恨言论更难被发现,尽管行业正在通过提高模型和来源透明度进行努力,但是,绕过内容过滤器的DIY指令已经充斥YouTube和Reddit。此外,ChatGPT在找不到现成答案时会产生幻觉的倾向,这可以被利用来生成与现实没有任何联系的文本,并在条件允许的情况下以完全自信、有说服力、类似学术的方式编写,真正强大的LGAIM出现对恶意行为者来说再有利不过了。俄罗斯对乌克兰的袭击、冠状病毒大流行、气候变化以及美国内外的政治纷争已经助长了仇恨犯罪和假新闻。如今,在Twitter新主人的支持下,内容审核受到了极大破坏。在即将到来的选举周期中,LGAIM很可能成为一个强有力的工具,来影响公众舆论。它们允许高度复杂、看似基于事实但实际上完全荒谬的假新闻和有害言论活动的自动化大规模生产和扩散。
为了遏制这种现象的浪潮,欧盟最近颁布了《数据服务法案》(DATA SERVICES ACT,DSA)。然而,在起草DSA时,LGAIM并未成为公众关注的焦点。因此,DSA旨在减少社交网络上的非法内容,这些内容由人类行为者或偶尔的Twitter机器人构建,而不是LGAIM。DSA与《人工智能法》一样,涵盖了向欧盟用户提供的服务,而不考虑提供者的设立地点。Facebook或Twitter等平台必须实施通知和行动系统,用户可以报告潜在的非法内容,如果发现非法内容,将进行审查和删除(DSA第16条)。大型平台必须有内部投诉和补救系统(DSA第20条),并提供庭外争议解决(DSA第21条)。因此,用户可以省去向法院起诉有问题的漫长过程。重复违反内容审核政策的人可能会被暂停其帐户(DSA第23条)。必须在会员国注册的所谓可信旗标所强调的有问题的内容必须得到优先排序和决定,不得无故拖延(DSA第22条)。大型在线平台(超过4500万活跃用户)还必须实施全面的合规系统,包括主动风险管理和独立审计(DSA第33-37条)。
然而,DSA的初衷是好的,在它颁布的那一刻,它似乎已经过时了。这是由于它的应用范围有两个关键的限制。首先,它只涵盖所谓的中介服务。DSA第3(g)条将其范围定义为“纯粹的管道”(例如,互联网接入提供者)、“缓存”或“托管”服务(例如,社交媒体平台)。然而,有争议的是,LGAIM不属于这些类别。显然,它们不能与为互联网连接提供访问或缓存服务提供者相提并论。托管服务则被定义为存储用户提供的信息的提供者(DSA第3(g)条)。虽然用户确实通过提示向LGAIM请求信息,但很难说他们提供了这些信息。相反,与传统社交媒体系统不同,产生文本的是LGAIM,而不是用户。相反,CJEU的判例表明,即使是仅存储用户生成内容的平台,如果它们“提供帮助”并因此离开其“中立立场”,甚至可能仅仅意味着促进用户生成内容,也很容易失去其作为托管提供者的地位。更重要的是,生成内容的系统本身不能被合理地认定为托管服务提供者。因此,DSA不适用。
这并不意味着LGAIM内容生成不受内容责任法的保护。相反,它的输出可能会受到言论监管,类似于人类用户在网上发表的评论一样。然而,除了GDPR第82条在处理受害者个人数据的情况下,这一法律分支在很大程度上是留给成员国侵权法的,这在LGAIM系统中似乎相当牵强。因为成员国之间的这种直接言论管制差别很大:例如,德国曾经拒绝执行另一个成员国家法院(波兰)关于言论管制的判决,因为它认为这与该国宪法中关于言论自由的规定相冲突,相当于违反了本国的公共秩序。
有人可能会反对说,监管漏洞的风险可能会部分消除,因为DSA适用于人类用户或机器人在社交网络上发布的LGAIM生成的帖子,在这里,DSA通常适用Twitter等符合托管服务提供者资格的平台。然而,第二个重要的差距正在显现:DSA序言14规定,该法规的主要部分不包括“私人信息服务”。虽然通知和行动机制适用于所有托管服务,但诸如可信标记、强制性争议解决和风险管理系统等工具只适用于较窄的“在线平台”群体。为了获得资格,这些实体必须向公众传播信息(DSA第3(g)、(k)条)。根据DSA的序言14,WhatsApp和Telegram上的封闭群组被明确排除在DSA的在线平台监管之外,因为消息不会分发给公众。由LGAIM提供并在此类群组中发布内容的恶意行为者可能因此完全脱离DSA的范围和执行。
6、政策建议
前面的讨论表明,对LGAIM的监管是必要的,但必须更好地适应其带来的具体风险。因此,我们建议从欧盟委员会的一般方法中设想的《人工智能法》整体监管转向具体的监管职责和内容审核。重要的是,无论LGAIM开发商大小,都必须遵守监管规定,以避免赢者通吃的情况和进一步的市场集中。这不仅对创新和消费者福利至关重要,而且对环境可持续性也至关重要。虽然信息技术和人工智能的碳足迹显著且稳步上升,而且LGAIM的训练是资源密集的,但大型模型最终可能产生的温室气体排放量要比小型模型少得多。
在此背景下,我们对LGAIM监管提出了四个具体可行的建议:(1)透明度义务;(2)强制性但有限的风险管理;(3)非歧视数据审计;以及(4)扩展内容审核。
6.1透明度
《人工智能法》包含广泛的披露义务,但仅适用于高风险系统。我们认为,鉴于LGAIM对社会许多领域的巨大潜力和日益增长的相关性,LGAIM——无论其分类为高风险或非高风险都应遵守两项不同的透明度义务。
6.2风险管理和分阶段发布
如前所述,《人工智能法》有效适用于LGAIM的一个主要障碍是全面的风险管理。在这方面,需要新的方法。学者们建议,在模型完全公开发布的情况下,需要权衡公众监督的额外好处和滥用的额外风险,此外,还必须考虑其他因素,如开发商之间的权力平衡。在我们看来,一个有限的、分阶段的发布,加上只有安全研究人员和选定的利益相关者才能访问,可能通常是更好的。这为监管组合增加了一种细致入微的、以社区为基础的风险管理策略,可以通过“受监管的自我监管”的方式来增加监管监督,即《GDPR》第40条,这似乎比《人工智能法》第69条中设想的纯自愿策略更可取。
重要的是,只有当特定的LGAIM(或GPAIS)确实用于高风险目的时,《人工智能法》的高风险部分(包括正式的风险管理)的全部范围才应适用。该策略符合产品安全法的一般原则:例如,并非每一个螺钉和螺栓都必须按照最高标准制造,只有当它们用于太空船时,生产航空材料的严格产品安全法规才适用——但如果它们在当地的DIY商店中作为通用用途出售,则不适用。同样的原则也适用于LGAIM。
6.3非歧视和训练数据
我们建议,作为关注LGAIM部署者的例外,某些数据管理职责应适用于LGAIM开发人员,例如受保护群体之间的代表性和近似平衡。可以说,歧视是一种非常重要的风险,必须在开发和部署的过程中加以解决。在这里,从根本上降低风险似乎至关重要。然而,监管负担必须适应公司的抽象风险水平和合规能力。例如,LGAIM开发人员应该按照训练数据的大小和类型(精心策划的数据与从互联网上抓取的Twitter提要)的比例,主动审计训练数据集,以防止对受保护群体的虚假陈述,并实施可行的缓解措施。至少,真实世界的训练数据应该辅以合成数据,以平衡在线资源中包含的历史和社会偏见。
6.4内容审核
LGAIM面临的最大挑战之一是——它们可能被滥用于虚假信息、操纵和有害言论。我们认为,为传统社交网络设计的DSA规则必须相应扩展和调整。
LGAIM将受益于强制性的通知和行动机制、值得信赖的标识,以及对用户特别多的模型的全面审计。监管漏洞对于作为独立软件提供的LGAIM来说尤其致命。未来,人们可能会期待与搜索引擎或社交网络等各种平台的整合,从LGAIM的开发或微软、Meta和Google的收购就可以证明这一点。虽然DSA将在技术上适用,但它仍需要更新,以确保LGAIM生成的内容与用户生成的内容一样被监管覆盖。特别是,由于LGAIM输出当前特别容易被用于传播错误信息,因此,如果技术上可行,建议要求将LGAIM生成的内容打上标记。
7、结论
长期以来,学者和监管机构一直认为,鉴于机器学习创新的快速步伐,技术中立法律可能会更好地应对新出现的风险。尽管这一说法无法得到普遍肯定或反驳,但LGAIM为专门针对某些技术的监管提供了一个警示性的例子。正如我们的研究所显示的,技术中立的法律有时会更好,因为针对技术的监管(针对平台、人工智能系统)可能在其颁布之前就过时了(例如DSA)。总体而言,我们在围绕LGAIM的新兴监管环境中添加了若干政策建议。
首先,我们主张使用一种新的、差异化的术语来捕捉AI价值链、LGAIM环境以及其他环境的相关参与者。其中包括:LGAIM开发人员、部署人员、专业和非专业用户,以及LGAIM输出的接收者。这种微妙的理解对于将监管职责分配给人工智能价值链中的特定参与者和活动是必要的。
第二,《人工智能法》和其他直接法规中的规则必须符合预先训练模型的特殊性。欧盟理事会采用的一般方法和欧洲议会目前讨论的规则都未能解决LGAIM价值链的特殊性。我们建议将具体的高风险应用程序作为高风险义务的对象,而不是预先训练的模型本身。例如,强迫ChatGPT的开发人员制定一个全面的风险管理系统,涵盖并减轻ChatGPT可能对健康、安全和基本权利造成的所有风险,这似乎是低效的,实际上也是不可行的。相反,如果用于具体的高风险目的,特定部署者和用户应遵守《人工智能法》的高风险义务,包括风险管理系统。然而,问题出在细节上:提供者需要与部署者合作,以遵守如此狭窄的监管要求。在此,我们建议借鉴美国审前发现制度和GDPR第26条的经验,平衡信息获取与商业秘密保护之间的利益。
第三,例外情况下,非歧视条款,包括《人工智能法》第10条的一个版本,应适用于LGAIM开发者。通过这种方式,可以最有效地防止有偏差的输出。这尤其涉及从互联网收集和管理训练数据。
第四,有必要履行详细的透明度义务。这涉及LGAIM开发人员和部署人员(性能指标、预训练期间出现的有害言论问题)以及用户(对使用LGAIM生成的内容进行标记或披露)。
最后,DSA内容审核规则的核心应该扩展到LGAIM。这包括通知和行动机制、值得信赖的标识,对于大型LGAIM开发人员,还包括全面的风险管理系统和审计。可以说,一旦人工智能产生的仇恨言论和假新闻发布到社交媒体上,它们的影响将很难停止。
在所有领域,监管机构和立法者都需要迅速采取行动,跟进ChatGPT等未受约束产品的发展。不断更新监管规则是必要的,既要保持信息空间的文明,也要为在欧盟和其他地区开发和部署下一代人工智能模型创造一个公平的竞争环境。
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!