×

《人工智能安全治理框架(V1.0)》:人工智能安全风险

hqy hqy 发表于2025-03-05 09:39:43 浏览8 评论0百度已收录

抢沙发发表评论

安全问题是人工智能发展的最基本问题。

2024年9月,全国网络安全标准化技术委员会发布《人工智能安全治理框架(V1.0)》,其中系统归纳了人工智能安全风险,并将其分为内生安全风险、应用安全风险两大类,其中内生安全风险包括模型算法安全风险、数据安全风险、系统安全风险,应用安全风险包括网络域安全风险、现实域安全风险、认知域安全风险、伦理域安全风险。正文如下:

3. 人工智能安全风险分类

人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险,既面临自身技术缺陷、不足带来的风险,也面临不当使用、滥用甚至恶意利用带来的安全风险。

3.1 人工智能内生安全风险

3.1.1 模型算法安全风险

(a)可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如有异常难以快速修正和溯源追责。

(b)偏见、歧视风险。算法设计及训练过程中,个人偏见被有意、无意引入,或者因训练数据集质量问题,导致算法设计目的、输出结果存在偏见或歧视,甚至输出存在民族、宗教、国别、地域等歧视性内容。

(c)鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点,人工智能易受复杂多变运行环境或恶意干扰、诱导的影响,可能带来性能下降、决策错误等诸多问题。

(d)被窃取、篡改的风险。参数、结构、功能等算法核心信息,面临被逆向攻击窃取、修改,甚至嵌入后门的风险,可导致知识产权被侵犯、商业机密泄露,推理过程不可信、决策输出错误,甚至运行故障。

(e)输出不可靠风险。生成式人工智能可能产生“幻觉”,即生成看似合理,实则不符常理的内容,造成知识偏见与误导。

(f)对抗攻击风险。攻击者通过创建精心设计的对抗样本数据,隐蔽地误导、影响,以至操纵人工智能模型,使其产生错误的输出,甚至造成运行瘫痪。

3.1.2 数据安全风险

(a)违规收集使用数据风险。人工智能训练数据的获取,以及提供服务与用户交互过程中,存在未经同意收集、不当使用数据和个人信息的安全风险。

(b)训练数据含不当内容、被 “投毒” 风险。训练数据中含有虚假、偏见、侵犯知识产权等违法有害信息,或者来源缺乏多样性,导致输出违法的、不良的、偏激的等有害信息内容。训练数据还面临攻击者篡改、注入错误、误导数据的“投毒”风险,“污染”模型的概率分布,进而造成准确性、可信度下降。

(c)训练数据标注不规范风险。训练数据标注过程中,存在因标注规则不完备、标注人员能力不够、标注错误等问题,不仅会影响模型算法准确度、可靠性、有效性,还可能导致训练偏差、偏见歧视放大、泛化能力不足或输出错误。

(d)数据泄露风险。人工智能研发应用过程中,因数据处理不当、非授权访问、恶意攻击、诱导交互等问题,可能导致数据和个人信息泄露。

3.1.3 系统安全风险

(a)缺陷、后门被攻击利用风险。人工智能算法模型设计、训练和验证的标准接口、特性库和工具包,以及开发界面和执行平台可能存在逻辑缺陷、漏洞等脆弱点,还可能被恶意植入后门,存在被触发和攻击利用的风险。

(b)算力安全风险。人工智能训练运行所依赖的算力基础设施,涉及多源、泛在算力节点,不同类型计算资源,面临算力资源恶意消耗、算力层面风险跨边界传递等风险。

(c)供应链安全风险。人工智能产业链呈现高度全球化分工协作格局。但个别国家利用技术垄断和出口管制等单边强制措施制造发展壁垒,恶意阻断全球人工智能供应链,带来突出的芯片、软件、工具断供风险。

3.2 人工智能应用安全风险

3.2.1 网络域安全风险

(a)信息内容安全风险。人工智能生成或合成内容,易引发虚假信息传播、歧视偏见、隐私泄露、侵权等问题,威胁公民生命财产安全、国家安全、意识形态安全和伦理安全。如果用户输入的提示词存在不良内容,在模型安全防护机制不完善的情况下,有可能输出违法有害内容。

(b)混淆事实、误导用户、绕过鉴权的风险。人工智能系统及输出内容等未经标识,导致用户难以识别交互对象及生成内容来源是否为人工智能系统,难以鉴别生成内容的真实性,影响用户判断,导致误解。同时,人工智能生成图片、音频、视频等高仿真内容,可能绕过现有人脸识别、语音识别等身份认证机制,导致认证鉴权失效。

(c)不当使用引发信息泄露风险。政府、企业等机构工作人员在业务工作中不规范、不当使用人工智能服务,向大模型输入内部业务数据、工业信息,导致工作秘密、商业秘密、敏感业务数据泄露。

(d)滥用于网络攻击的风险。人工智能可被用于实施自动化网络攻击或人工智能安全治理框架提高攻击效率,包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等,降低网络攻击门槛,增大安全防护难度。

(e)模型复用的缺陷传导风险。依托基础模型进行二次开发或微调,是常见的人工智能应用模式,如果基础模型存在安全缺陷,将导致风险传导至下游模型。

3.2.2 现实域安全风险

(a)诱发传统经济社会安全风险。人工智能应用于金融、能源、电信、交通、民生等传统行业领域,如自动驾驶、智能诊疗等,模型算法存在的幻觉输出、错误决策,以及因不当使用、外部攻击等原因出现系统性能下降、中断、失控等问题,将对用户人身生命财产安全、经济社会安全稳定等造成安全威胁。

(b)用于违法犯罪活动的风险。人工智能可能被利用于涉恐、涉暴、涉赌、涉毒等传统违法犯罪活动,包括传授违法犯罪技巧、隐匿违法犯罪行为、制作违法犯罪工具等。

(c)两用物项和技术滥用风险。因不当使用或滥用人工智能两用物项和技术,对国家安全、经济安全、公共卫生安全等带来严重风险。包括极大降低非专家设计、合成、获取、使用核生化导武器的门槛;设计网络武器,通过自动挖掘与利用漏洞等方式,对广泛潜在目标发起网络攻击。

3.2.3 认知域安全风险

(a)加剧 “信息茧房” 效应风险。人工智能将广泛应用于定制化的信息服务,收集用户信息,分析用户类型、需求、意图、喜好、行为习惯,甚至特定时间段公众主流意识,进而向用户推送程式化、定制化信息及服务,“信息茧房”效应进一步加剧。

(b)用于开展认知战的风险。人工智能可被利用于制作传播虚假新闻、人工智能安全治理框架图像、音频、视频等,宣扬恐怖主义、极端主义、有组织犯罪等内容,干涉他国内政、社会制度及社会秩序,危害他国主权;通过社交机器人在网络空间抢占话语权和议程设置权,左右公众价值观和思维认知。

3.2.4 伦理域安全风险

(a)加剧社会歧视偏见、扩大智能鸿沟的风险。利用人工智能收集分析人类行为、社会地位、经济状态、个体性格等,对不同人群进行标识分类、区别对待,带来系统性、结构性的社会歧视与偏见。同时,拉大不同地区人工智能鸿沟。

(b)挑战传统社会秩序的风险。人工智能发展及应用,可能带来生产工具、生产关系的大幅改变,加速重构传统行业模式,颠覆传统的就业观、生育观、教育观,对传统社会秩序的稳定运行带来挑战。

(c)未来脱离控制的风险。随着人工智能技术的快速发展,不排除人工智能自主获取外部资源、自我复制,产生自我意识,寻求外部权力,带来谋求与人类争夺控制权的风险。

END

拥抱数字时代,预见无限未来。