专家学者共议ChatGPT数据安全与解决之道

ChatGPT与教育 3年前 (2023) lida

82 0 0

南方网讯（记者/柯丹洁）近日，“数据安全，是否ChatGPT的阿喀琉斯之踵？”主题论坛在广州举办，专家学者围绕人工智能发展新时期的数据安全问题、挑战与对策展开了深入探讨。

华南师范大学计算机学院教授郝天永、中山大学智能工程学院副教授沈颖、广州熠数信息技术有限公司首席运营官蓝靖分别作了引导报告；华南农业大学数学与信息学院院长黄琼，华南师范大学教授郝天永，YOCSEF广州候任AC委员、广汽研究院张天豫，YOCSEF广州委员、华南理工大学副教授陈俊颖，广州大学网络空间安全学院教授苏申，YOCSEF广州候任主席龙锦益，YOCSEF广州往届主席谭台哲等专家学者展开了深度思辨。

抄袭创意、写木马病毒……ChatGPT带来新的安全挑战

ChatGPT是人工智能领域的一个新突破，给人们带来了诸多便利的同时，其数据安全问题也引起了社会关切。目前，ChatGPT产生了哪些数据安全问题？其根源又在何处？

黄琼教授认为，ChatGPT带来的数据安全问题有多个方面，一是数据内容安全，ChatGPT在一些问题的回答上可能带有双标性，针对不同主体（或国家）的同一个问题却可能生成不同的答案内容，对提问者可能产生误导。二是数据投毒攻击，如果提供给ChatGPT的训练数据带有倾向性，则其提供的答案也可能带有倾向性。三是数据泄露问题，当越来越多的企业和单位接入GPT服务，员工可能误用或滥用GPT服务，甚至将单位内部数据和敏感数据输入到人工智能平台，而当平台截留这些数据作为算法模型的语料时，就产生了数据泄露的风险。

郝天永教授指出，当算法模型的复杂性大到一定程度、数据的相互连通达到一定规模时，就会出现所谓的“智慧涌现”效应，从而使ChatGPT在诸多功能上呈现爆发式的增长和增强。但是，涌现会产生何种数据连接，以及与之伴生的知识产权问题，仍是一个广受关注的前沿新问题。黄栋也指出，ChatGPT可以说是海量数据的集大成者，但也可能成为海量数据的大抄手。对于音乐作品，模仿一段旋律可能就涉及抄袭，而对于人工智能模型所生成的文章、图像，其生成的作品要素可能来自于不同创作者的原创作品，人工智能内容生成模型可能也会带来无声无息的“创意窃取”问题，此时涉及的作品版权怎样判断、怎样规范也是新的挑战。

“ChatGPT等聊天机器人还会带来数据越狱等新问题，例如通过提示语注入等方式，引导人工智能模型去绕过其已有的伦理、道德或开发锁定的模式，甚至绕过相关政策法规的限制，将训练集核心数据和关键文档‘套取’出来。”蓝靖强调，此外，数据窃取问题也是一个新问题。当前一些小模型可能通过数据窃取技术从大模型中偷取数据，例如斯坦福大学发布的Alpaca模型，可通过175个种子任务，将其与ChatGPT等大模型平台互动过程得到的回答内容来构建其训练所需的数据集，以解决训练数据集这一人工智能模型的核心问题。

张天豫提出，数据霸权加剧的问题也是ChatGPT等人工智能大模型带来的“新症”。少数大公司拥有海量数据，享有数据霸权，在其产品抢占先机、与大量用户交互过程中产生了更为庞大的问答数据，则又加剧其数据霸权；虽然我国有不少企业拥有大量数据，但是距离微软、谷歌等世界级数据拥有者仍有很大差距。在当前数据基础条件及国际环境因素之下，国内企业如何突破这些限制，是一个值得深入探讨的新问题。

值得警醒的是，ChatGPT甚至可能成为网络黑客。YOCSEF广州委员、华南理工大学陈俊颖副教授指出，ChatGPT是数据生成者，甚至也可能成为工具生成者。ChatGPT已经可以写代码，以其迭代速度，或许在不远的将来，发钓鱼邮件、写木马病毒也将在（未来）ChatGPT能力范围内。网易公司开发工程师江东林也认为，现有ChatGPT功能已非常强大，若其发起网络攻击、发布虚假信息，如何界定法律责任将成为一大难题。

解决之道在何处？

ChatGPT的数据安全问题，解决之道在何处？ChatGPT与数据安全如何同行？

苏申教授认为，ChatGPT作为新生事物，与许多以前的新技术（互联网、移动电话）类似，其本身还有很多弱点。在新技术诞生之初，人们往往更关注其性能问题，然后才逐渐转向其安全问题。河源广工大协同创新研究院常务副院长谭台哲表示，对于ChatGPT应适当监管与推动发展两者并重。当新技术刚出现、新情况尚未摸透之时，政府部门可以用好现有的政策、技术工具，对新技术、新情况分门别类地进行监管。

龙锦益指出，人工智能的数据安全问题一直存在，政策、法律和法规常常跟不上技术的发展；而由于技术的快速发展，从特定阶段“跟不上”到逐步“跟上去”一定程度也是其必然发展规律。除了政策法律法规之外，个人和企业也应遵守基本道德和底线，对于高校人才培养来说，加强工程伦理教育以及更具体的人工智能伦理教育，也非常有必要。

蓝靖也认为，人工智能模型的数据安全问题由来已久，而ChatGPT的迅速兴起则将一些既有问题放大、暴露出来。数据安全问题，可能是人工智能发展过程遇到的绊路石之一。政府、企业、个人等各方都应提高数据安全意识，筑好数据安全屏障，这样才能更好地避免其对人工智能产业发展的阻碍。

“除了数据安全问题，ChatGPT等人工智能模型还有很多其他问题。我们不可将之扼杀，而是要做好监管，在适当监管下推动其发展。”谭台哲表示，对于ChatGPT的数据安全问题，以至于数据霸权和自主可控等问题，我国应该高度重视并制定相应对策。同时，应加强对“人”的事前宣传教育和事后可追责，并加强人工智能新技术的专业人才培养。

广州熠数信息技术有限公司首席执行官陈杨轲指出，“ChatGPT等人工智能模型归根到底是一个工具，可以用，但需要监管。当前已有《数据安全法》《个人信息保护法》，近期国家也建立了国家数据局，表明国家在机构设置与法律法规等方面已有布局，正在紧跟新技术的发展。ChatGPT与数据安全未来可以同行，也必然同行。”

黄栋强调，ChatGPT的数据安全问题，一方面应在人工智能技术发展与安全之间找到平衡之处，监管过紧可能限制甚至扼杀新技术的发展，监管过松则可能使得新技术被滥用；另一方面也涉及个人、企业、政府的三方博弈，而在此过程中，个人端与企业端都有其自发性，政府及政策法规则是非常重要的调节力量。“怎样找到人工智能发展与数据安全的平衡区域，找好个人、企业、政府的角色与定位，亦非常考验监管智慧。”

针对人工智能模型的不可解释性和数据投毒（数据带有倾向性）问题，现场专家认为，我国应着重提高技术的自主可控性。华南农业大学数学与信息学院李宏博博士指出，ChatGPT的不少数据安全风险（数据投毒、数据出境）一定程度因其源自国外、不可控。中国企业也应发展自己的“ChatGPT”，模型规模可以小一些，亦可针对特定应用领域，不一定在性能上相匹敌，但要有、可用。除技术自主可控之外，谭台哲进一步提出“数据自主可控”问题，具体涉及模型训练数据和用户交互数据的本地化。

举报/反馈