×

苏宇:《人工智能法律治理的框架选择:从“分类分级”到“模块组合”》 | 前沿

hqy hqy 发表于2025-02-26 11:49:44 浏览7 评论0百度已收录

抢沙发发表评论

中国民商法律网

本文原载于《中国法律评论》2025年第1期。

【作者简介】苏宇,中国人民公安大学法学院教授。

全文共16431字,阅读时间41分钟。

【摘要】对人工智能实行适当的区分式治理,是人工智能立法中最为基础而关键的问题之一。人工智能立法不宜采取“分类分级”式框架,因为容易产生高昂的错误划分成本,亦难以回应超越单纯风险治理的立法目标。考虑人工智能演化过程中出现的重要分支、人工智能技术发展的开放性与叠加性特征以及人工智能技术本身的模块化特点,人工智能立法宜采取模块组合式框架。这一框架应至少包含参数模块、生成模块、开源模块、隔离模块和运动模块,相关规则模块根据治理对象的特点而针对性地适用,并且可以根据未来人工智能技术的发展而动态增减。《人工智能法》应以专门性的章节进行制度设计。

【关键词】人工智能法 分类分级 模块组合 制度框架

人工智能立法进程正在全球范围内持续引人注目。欧盟《人工智能法》已正式生效并引起巨大反响;美国除颁行《关于安全、可靠和值得信赖的人工智能开发和使用的行政命令》外,多个州亦在积极推进人工智能立法,加利福尼亚州《前沿人工智能模型安全创新法案》(SB1047)自审议到最终被否决,更引起业界的高度争议和关切。一些国家亦以其他形式推进人工智能治理,如新加坡发布《用于生成式人工智能的人工智能模型管理框架》、日本将“人工智能三大指引”整合为《AI企业指引》等,亦有与人工智能立法趋势相扣合之内容。

在我国,《人工智能法草案》早已被列入国务院立法工作计划,人工智能治理方面的系列规章正被陆续制定,人工智能法的数部专家建议稿(含未公开发布而仅向有关部门提交的建议稿)各抒己见,为人工智能法的制定提供了日益丰富的素材。

在人工智能立法工作中,人工智能法拟选择的治理框架备受关注,各类有关框架设计的构思和主张舳舻相继。人工智能法律治理的基本框架应当如何选择和确定,可谓人工智能立法的基础性、关键性问题,牵一发而动全身。大部分既有主张沿袭数据安全治理及域外人工智能立法的思路,主张单纯的分层、分级或综合性的“分类分级”“分类分层”框架,但上述主张在紧密贴合人工智能的技术和应用特点、扣合人工智能的演化规律存在一定疑问,很可能导致风险等级的模糊性、类型划分的任意性、纵横分割的芜杂性等问题。

对此,本文主张紧扣人工智能自身的技术内核和发展规律,建立“模块组合”式的治理框架,通过更为清晰的模块判断和组合设计,形成合理覆盖人工智能技术栈与产业链的法律治理体系。

一、

人工智能法律治理的“分类分级”式框架构思评析

迄今为止,在人工智能立法的有关探讨中,“分类分级”式的框架构思已不鲜见。这些构思一定程度上推动了对人工智能法律治理体系的研究,并且在欧盟《人工智能法》等重要立法中成为现实。“分类分级”式框架的基本考量是有一定理据支撑和积极意义的,其潜在缺陷则一时难以被发现。(一)“分类分级”式框架的基本考量

人工智能法框架的各种“分类分级”式主张普遍建立在“以风险为基础”的治理思路上。在我国,《生成式人工智能服务管理暂行办法》第3条规定:“国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。”

这一规定将分类分级监管的思路引入了人工智能治理实践。有论者指出:“落实该原则性规定的关键,在于对大模型进行基于风险的分类分级规制。”依据风险进行分类分级管理是技术治理规则设定中普遍采用的原则,在欧盟的系列立法推动下,人工智能依据风险的分级管控已经成为各国监管普遍采取的手段。

风险分级分类规制构成了“更好规制议程”(better regulation agenda)的核心逻辑和关键工具:如果行政规制机构能识别不同领域、不同环节中人工智能应用风险的程度差异,就可以设定和实施相应的规制工具,使规制工具与被规制风险相称。在算法治理中,“分类分级原则可以从纵向与横向两个角度对算法进行类别与级别的区分,从而对算法进行识别与定位”,因而有机会超越“算法的单一治理框架与算法技术的复杂动态性和算法应用的多样广泛性之间的对立”。

在论者看来,对风险进行分级规制,有助于避免追求绝对安全,规定与风险等级相适应的风险管控义务,建立风险防范与产业发展的平衡。在算法治理的局部制度层面,学界亦提出了类似见解,例如,主张对算法备案基于分类分级制度扩展适用,“将风险达到一定程度的算法均纳入审查”,采取“低—中—高”三级划分,辅以因果情景关联的风险识别方法,各级别类型的具体目录由国务院统一发布。从整体到局部,分类分级的相关见解均已十分流行。

整体上,规制的平衡性与合比例性是“分类分级”式框架的立论之基,其积极意义在于开启精细化的治理模式,避免不加区分的“一刀切”式治理。不过,分类分级的过度流行,已经几乎成为某种“集体无意识”,不假思索的扩展应用也引起了一些学人的警觉。

即便是“以风险为基础”进路的最坚定支持者也对分级方法有所犹疑,以至于有观点提出,“以风险为基础的治理仍是一条务实而理性的路径”,“唯一的可议论之处在于是采用风险分级方法还是更为动态的方法”。“分类分级”式框架固然有利于推进风险治理的精细化,但这种框架本身是一种较为“僵硬”的设计,面向风险治理场景即力有不逮,而面向更加广阔的治理需求则可能无所适从。

(二)“分类分级”式框架的主要缺陷

“分类分级”式框架面向人工智能风险治理场景的缺陷,主要在于框架与治理对象在结构层面失配。在法律治理制度框架的设计中,提升治理“颗粒度”(granularity)的方式不止一种,分类分级是思维上最为直接的方式,却并不适用于所有的对象结构,正如“环”不适宜刻画“树”的拓扑结构、一只刺猬的表面不适合作为光滑流形处理一样。单纯的分类或分级属于对治理对象从单一维度进行切分,分类分级(或分层)的叠加则可能是二维的网格式切割,若仅对其中某些类型进行分级时,也可能呈现为不同一维分割的简单嵌套。

目前,人工智能治理框架的主张更多地聚焦风险分级,此种处理方式发挥良好作用的前提是存在某种清晰的多级离散尺度,或者是能够实现无损量化的连续尺度,为分级提供坚实的判断标准或依据。风险在一定情况下存在连续尺度,此种尺度与损害后果及发生概率的某种结合方式有关(在损害后果单一时,即二者之乘积)。

问题是,大多数风险属于不确定性风险(uncertain risk),即发生概率本身也不确定,甚至有时发生概率本身的不确定性程度也无法确定,甚至发生奈特不确定性(Knightian Uncertainty)向更高阶次扩展的情形。此种情形下,能够被精确计算的连续尺度并不存在,而将连续尺度转换为离散尺度,尤其是离散尺度仅仅被表述为非常有限的3—5个梯次或类别,很可能产生非常高的错误划分成本(Cost of Misclassification)。虽然贝叶斯分类法则等方法可以根据后续产生的证据试图最小化期望错误划分成本(Expected cost of Misclassification,ECM),但几乎没有什么风险治理实践显示它们在严格意义上遵循了贝叶斯分类法则。

尽管实践中风险等级的动态调整或多或少地遵从了这一理念,然而,当存在动态变化的奈特不确定性情况下,贝叶斯分类等可以控制ECM的方法是否适用,本身就是存在很大疑问的。因此,“分类分级”式框架无法处理高居不下的ECM,这是此种框架的“命门”所在。

对于分级之外的“分类”而言,情形与分级类似,但弊端更为复杂。

分级是在同一维度下建立离散的尺度,而分类往往是基于主观定性的划界,可能存在维度上的杂糅,出现大量的模糊、交叠和混乱,必须借助特定的条件集合和控制节点才能真正区分清楚。因此,在制度实践中,具有显著治理和规制意义的分类往往伴随直接或间接基于证书、资格、资质、认证等可以起到类型标识和条件控制作用的节点,问题是既有人工智能的分类方式中缺乏足够的节点,大部分场景也不一定适合建立这些节点,毕竟每一种节点的建立都意味着规制负担,同时产生规制诱导效应(Regulatory Inducement Effect)或者政策诱导效应(Policy Inducement Effect),诱导市场主体向规制创造的类型靠拢、汇聚。

如果规制结构不符合规制对象自身的客观分布,规制诱导效应所产生的聚类效果也会产生不可忽视的高昂合规成本,这种成本可以非常形象地用聚类分析中的分散数据点到类型中心或边界的某种“距离”(如切比雪夫距离)的总量来比喻,聚类质量低下时,聚类的总距离会大幅增长。

目前全球范围内有关人工智能分类治理的设想可谓五花八门,划分类型的主观色彩相当突出,而对于此种规制性聚类的各种度量指标全然不存在,更遑论其科学水准和优化路径。因此,人工智能风险分类和分级一样难免招致诟病:“目前国际上的风险分类模式主要有三种:风险属性划分模式、风险内容划分模式以及风险程度划分模式。但上述模式均存在弊端,不能融贯地划分风险的类型与级别”:风险分类的依据和标准大相径庭,而其中最受关注的风险分类模式——风险程度划分(分级)缺乏明确的判断标准,已有标准“具有巨大的弹性与模糊性”。

即便退而求其次,针对治理对象甚至技术内核本身进行分类也甚为困难,因而“在域内外的法律实践中,对算法分类标准尚未形成较为统一的观点”。因此,至少对于人工智能而言,风险管理路径或许难以适用,人工智能活动的复杂性使得全面、妥当的风险分类与归类极为困难。

如果将视野扩展到风险治理路径之外,统筹发展和安全,则人工智能分级治理的理据似乎更加难以立足,而分类治理也面临相当棘手的挑战。发展本身包含着非常丰富的维度,与风险治理的结合将使分类的维度更为芜杂。每一种维度上的类型化都可能忽视其他维度的划分,而采取多重类型化策略又会使得规制复杂性指数式上升,这将导致清晰制度预期形成困难,并且还会产生进一步的后果:不仅可能使ECM提升到难以承受的地步,还有可能导致过度的寻租空间和规制俘获机会。

易言之,所有基于主观综合性判断的类型化,都有可能引起三种无法忽视的损失:制度预期损失(预期模糊所产生的投资机会流失及杠杆性损失)、认知歧异损失(对类型划分标准产生认知错误和认知差异导致的损失)和寻租行为损失(基于判断余地和裁量空间滋生寻租行为导致的损失)。

这三种损失在人工智能分类治理问题上将尤为显著,因为人工智能本身处于飞速发展过程中,新的技术架构、应用、业态和服务层出不穷,随时可能有超出现有类型及主观认知的新生事物出现,也很少存在所谓的制度性共识(美国加利福尼亚州产业界及学界围绕《前沿人工智能模型安全创新法案》的激烈争议即可见一斑)。高昂的三种损失将使分类治理面临不菲代价,甚至因此而窒息可能出现的重大创新。

诚然,分类也可以基于人工智能的技术特点和应用方式进行,如《互联网信息服务算法推荐管理规定》第2条将算法推荐技术划分为“生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术”,这种分类方式相对而言会降低一部分制度预期损失和认知歧异损失,但如果不采取足够清晰的技术标准,仍然会面临显著的规制负担及潜在影响。最有利的办法是紧扣人工智能自身的技术内核和客观规律,采取能够最大限度凝聚专业技术共识的划分方案,而且这种方案必须是开放性的,能够不断接纳新的划分需求。这就使分类治理框架实际上需要转向一种模块化和组合式的治理框架。

二、

人工智能法律治理的模块化需求

人工智能的技术路线与应用方式极为庞杂。如何对人工智能实行适当的区分式治理,是人工智能立法中最为基础而关键的问题之一。法律需要对人工智能作出合适的界定和区分,避免以单一、僵化的规则调整丰富多样的人工智能对象。在探讨人工智能的模块化治理需求前,必须首先明确一个重要前提:人工智能涵盖的范围相当广泛。

在国内近期有关人工智能法治的既有学术讨论中,人工智能法的调整对象往往被有意或无意地假定为生成式人工智能乃至大模型,而实际上这只是整个人工智能领域中的一个局部,远难覆盖人工智能技术与应用之全貌,以此为模板设计人工智能法制,将极易出现“挂一漏万”或“削足适履”的后果。因此,人工智能治理的法律框架,必须能够良好地涵盖不断发展中的人工智能技术及应用,这就要求立法者对人工智能的基本构成作一个整体式的观察。

根据现行有效国家标准《信息技术人工智能术语》(GB/T41867—2022)的定义,人工智能系统是指“针对人类定义的给定目标,产生诸如内容、预测、推荐或决策等输出的一类工程系统”,而人工智能(在相关学科领域内)是指“人工智能系统相关机制和应用的研究和开发”。这一含义覆盖了人工智能的整个发展历程及各个分支。人工智能最初是基于规则的人工智能(Rule-based AI)或“规则型”人工智能。人类预设了机器行为的确定规则,机器根据输入的条件按照预设规则计算出输出结果,形成机器的智能行为。此后,经过以神经网络为主要代表的联结主义探索与实践,基于机器学习的人工智能(Machine Learning-based AI,ML-based AI)或“学习型”人工智能崭露头角。

根据《信息技术人工智能术语》的定义,“机器学习”是指“通过计算技术优化模型参数的过程,使模型的行为反映数据或经验”。机器学习向算法模型中引入了可训练的参数,也使得代码本身并不能以确定的规则揭示模型的决策逻辑,从而形成了所谓的“算法黑箱”。在采取机器学习路线的人工智能中,一部分模型只能在有限选择范围内作出被严格限定的、类型化的判断或决策结果,如人脸识别、形状检测、棋牌游戏等方面的模型;而另一部分模型则可根据输入的信息或指定的条件从十分宽广的选择范围内选择和组合元素以生成有意义的新信息,即生成式人工智能。

在生成式人工智能的发展历程中,词嵌入技术的成熟和Transformer架构的运用带来了语义处理的飞跃,大型语言模型的诞生堪称人工智能发展史上里程碑式的革命,而跨越不同领域、面向公众开放的通用大模型对人工智能的法律治理带来了最引人注目的挑战。

由此,一种自然而然的思路即是为人工智能建立一种“多分支”式的认知框架(见图1):

首先,根据是否包含可学习和迭代的参数,人工智能可被分为学习型人工智能和规则型人工智能;其次,根据模型是否有能力生成事先未完全指定的信息,学习型人工智能可被分为生成式人工智能和非生成式人工智能;再次,根据模型生成信息的过程中是否对包含语义的载体(尤其是文本)进行编码、解码操作,生成式人工智能可被分为处理语义的人工智能和语义无涉的人工智能;最后,根据模型是否以一定强度学习了公开途径可得数据以外的知识及信息,处理语义的人工智能可分为公用模型和特殊用途模型。

每一层的划分都以确定的技术特征为基础,也都具有相应的法律治理需求(如是否包含“算法黑箱”、是否触及网络信息生态治理、是否需要更强的知识合规要求等),可以导向治理规则的分层渐进设计。

然而,此种分支式治理思路还需要深入考虑人工智能技术发展的开放性和叠加性特征,这是由单纯的“多重分支”走向“模块组合”的关键。可训练参数、自动编码器、文本向量化、残差网络、多头注意力机制、(基于检索增强生成等路线的)外接知识库等要素在人工智能演化历程中渐次出现,深刻地影响了人工智能的技术与应用发展。这些要素一定程度上都可以被视为某种可以由技术标准进行良好定义的“模块”,部分“模块”还存在叠加关系,其中部分与法律治理没有直接和密切的联系,如自动编码器、残差网络、适配器等,几乎只有纯技术的内涵;另外一些模块则隐含了潜在的法律治理需求,如可训练参数、文本向量化、外接知识库、模型安全护栏等。

人工智能的演化发展还将不断出现新的模块,引致新的价值引导或风险治理需求。在此方面,人工智能技术生态有一个值得关注的重要特点,就是为大幅提升效率、共享开发基础,市场和社会自发地逐步将各种新技术模块化,成为可以直接调用的库/包或其组成部分,这对于急需通过规则框架“压缩”治理对象复杂度的立法而言是一个十分有利的条件。不仅如此,在人工智能立法进程中,依托相关模块形成的章节较之风险层级或主观概括的应用类型也更有利于立法者组织针对性调研与讨论,成熟一处则敲定一处,其中独立性较强的模块还可以通过行政立法先行探索,为人工智能法的整体成型奠定基础。

对此,为保证人工智能治理的法律框架拥有全盘观照与动态因应之能力,人工智能立法的规则框架应当采取模块化、多分支的架构:以规则型人工智能和学习型人工智能的划分为最基本的底层分支,自学习型人工智能开始,对于每一个有法律治理需求的技术模块,建立可以针对性适用的规则,形成灵活的“规则模块”。一个人工智能系统或应用包含了何种模块,相应地即适用何种规则模块。此种规则模块可以随时因应技术的发展而加入人工智能的法律规范体系中,如果技术上发生了较大的变革导致某些技术模块的应用场景变化或实用价值丧失,相关规则模块的修改和删除亦甚为便利。基于此种“模块组合”的框架和人工智能的发展现状,一个开放性的基本构型已经呼之欲出。

三、

人工智能立法中“模块组合”框架的基本构型

在人工智能的“模块组合”框架中,风险发生逻辑、利益链条和治理思路最为简明的是规则型人工智能。规则型人工智能的代表性应用是专家系统,采用决策树、线性回归、朴素贝叶斯分类器等“白箱型”算法,可以被视为自动化决策系统。因此,规则型人工智能的法律治理可以参考对自动化决策系统的治理思路。民商事法律活动中,对(白箱型)自动化决策系统的应用本质上并不需要引入特别的法律规则,仅在涉及个人信息处理等领域时有所谓的拒绝自动化决策权等特殊例外。

涉及行政职能和公共服务时,有关自动化行政的法律调控已有较多研究乃至制度实践,以“技术性正当程序”为代表的相关主张逐步扩展,有望构建完整覆盖自动化决策系统法治化的理论与制度框架。全球范围内的人工智能立法主要针对的是学习型人工智能。在可训练参数的基础上,每增加一个新的“技术—规则”模块,就需要从制度层面形成相应的“治理增量”,回应相应的治理需求,形塑切合人工智能技术与应用特性的“模块组合”式治理框架。

(一)参数模块:隐含黑箱的训练参数

学习型人工智能是国内外系列人工智能立法的默认调整对象,包含可训练参数(主要是权重+偏置)是严格意义上“算法黑箱”的存在前提。“算法黑箱”意味着不借助技术手段,人类就无从精确检测和验证参数张量背后的偏见、歧视、谬误,与此相应的法律治理需求主要就是算法解释制度群,即与算法解释、算法可解释性、算法透明等相关的一系列制度,部分情况下也包括有助于发现歧视和偏见的算法审计、有助于结构化地揭示系统性能和缺陷的系统测评、有助于校核模型输出结果的算法验证等信息型治理机制,其核心功能在于提供无法从参数张量中直接可见的、能够体现模型实际决策逻辑、依据和倾向性的信息。

技术的发展正在为这些工具的应用创造更具可行性的环境,例如,算法解释技术的发展相当迅速,不仅在理论上形成了归因解释可靠性的评价标准,筛选出多种满足整套评价标准的解释方法,也在实际操作中能够通过近似估计、局部计算、优化算法等方式,根据解释需求策略性地降低计算负担,从而提供人类需要的解释(包括transformer-based生成式模型的解释)。通过信息型治理工具,由可训练参数造成的“黑箱”效应及其带来的诸多治理挑战可以被一定程度上妥善应对,揭示和验证歧视、偏见、误解及部分其他潜在于参数张量中的风险在何种程度上存在,为算法治理提供基本依据。

参数模块包含的另外一种治理需求是模型参数的流通与分享。在部分专业领域,训练后的模型参数可以作为单独的交易对象。《上海市促进人工智能产业发展条例》第16条已经关注到“算法模型交易”的法律治理需求。训练后的模型参数不仅有实用价值,也隐含了学习到的知识和信息,尤其是对于生成式人工智能而言,通过一定技术手段,可以从模型参数中提炼其学习的知识,从而实现知识的传递和分享,当然也涉及数据安全和网络信息内容生态治理问题。鉴于模型参数流通和分享的市场实践尚在成型过程中,人工智能立法对此亦不宜作过于精细的规定,保留一定级别行政立法授权的方式是较为稳妥的。

(二)生成模块:不特定信息生成机制

人工智能模型或系统的输出都属于某种信息。采取非生成式机器学习算法实现的人脸识别、号牌识别、漏洞检测、游戏策略智能体等的输出信息虽然亦非百分之百确定,但类型化和特定性程度较高,而更高程度的不特定信息生成能力(包括深度合成能力)才是近年来全球范围内人工智能立法的重要促动因素。此种信息生成能力涵盖图像、文字、声音、代码等,其关键特点在于可以在巨大的输出状态空间中连接不同的点,此种连接超越被良好定义的、单纯执行事件的行动策略,具备显著超越噪声而可被人类感知的不特定额外信息量。

由此,生成式人工智能可以生成大量新的信息,因而涉及网络信息生态内容治理,落入网信部门的监管职能范围,触发《生成式人工智能服务管理暂行办法》和《深度合成规定》的监管。按照前述规章的规定,生成式人工智能服务提供者应当“依法承担网络信息内容生产者责任,履行网络信息安全义务”,此处的“网络信息内容生产者责任”来源于国家网信办2019年制定的规章《网络信息内容生态治理规定》,体现了由于生成信息能力而引致的“增量治理需求”。

包含信息生成机制的人工智能模型或应用进入网络信息生态内容治理范围,其生成的信息有可能造成多种复杂危害和风险,在多个国家和地区已引致了人工智能治理中最为引人瞩目的治理增量。相应的主要治理工具或策略包括但不限于模型测评、算法影响评估、价值对齐、安全护栏等,其“规制工具箱”正在持续发展和完善。

不特定信息生成机制中,最为重要的是能够处理语义的生成机制。生成式人工智能包含一个内容庞杂的谱系(这一点也往往被忽略),基于Transformer算法的大型语言模型只晚至2017年才发展出来的技术路线。生成式人工智能早年的代表性算法如生成对抗网络(Generative Adversarial Networks,GAN)、循环神经网络(Recurrent Neural Network,RNN)等,并不必然拥有处理自然语言文本的能力。

如果一项生成式人工智能技术被用于生成无法对应现实世界的图像、纯音乐旋律、自然环境中的声音等,其引起的法律风险实属有限,甚至理论上并不必然需要建立一整套针对生成式人工智能的规制框架,治理重心可能落在防范深度伪造风险方面。处理语义的生成式模型可以实现文本向量化(vectorization),主流的方法将文本正确地分割成标记(token),并嵌入到模型可以使用的密集浮点数表示中。这使得模型有可能学习文本中不同词符及词符组合之间的关系,进而塑成模型对语义的某种数值化“认知”。

能够理解和形成语义,意味着信息生成效益和风险的巨大飞跃。对于此类模型或应用,测评将成为最重要的治理工具之一。测评与解释均为人工智能治理提供基础性信息,测评刻画模型(系统)的外在表现与状态,聚焦于“怎么样”;而解释则展示模型(系统)的内在作用机理和影响力构成,聚焦于“为什么”。对于生成式大模型而言,不仅算法解释的实践可行性有所下降,许多情境中治理者亦并不关注模型为何如此构思或回应,而是在保持关注歧视、偏见等因素之余,更关注模型的各项细分性能和安全风险,这些都可以通过对模型的系统性测评获知,需要基于科学的测评基准对模型作全面检测和评价模型。

当然,不特定信息生成机制可以带来巨大的社会经济效益,其引致的法律治理增量不应局限于单纯的风险规制或安全监管导向,还须充分考虑市场激励和创新资源保障导向。例如,优化数据法律制度,促进数据的大规模汇聚融合,避免在数据的收集与融合端对人工智能收集数据进行过多限制,充分利用、扩展、革新乃至重塑“合理使用”或“复制权”等规则以促进生成式人工智能的发展,甚至将基础模型作为“新型数字基础设施”加以保护,等等,亦可被视为此种生成机制所引致的新增治理需求。

(三)开源模块:分发参数的开源链条

开源是人工智能法治必须着重考虑的特殊因素。对于何为“开源”,开源软件和开源人工智能各有一整套受到广泛关注和认可的标准,而其核心是开放源代码促进会(Open Source Initiative,OSI)所界定的四种“基本自由”:自由使用、自由研究、自由修改和自由分享。在人工智能技术与产业的发展历程中,开源生态的角色举足轻重,甚至可以认为,没有开源生态,就没有人工智能的今天和明天。这是因为开源生态并不只包括开源模型,而是包括内容众多、功能各异的开源项目,全方位地支撑人工智能和相关信息技术的发展。

开源项目包括以下几类不同层面和功能的内容:(1)开源框架,如tensorflow、pytorch、keras、paddl epaddle等,提供结构化的、可扩展的软件库和接口,集成一系列预先定义好的组件和工具;(2)开源构件,如opencv、word2vec等,可以用于人工智能程序模块的构建;(3)开源辅助工具,如ONNX、rnn-benchmark等,可用于模型的交换、优化和评估;(4)开源普通模型,如AlexNet、ResNet-50、stable diffusion等,不包含经过预训练而学习了海量“百科知识”的参数;(5)开源大模型,如Llama、BERT、千问等,其中的参数潜藏了大量现实世界的知识;(6)开源数据库,包括普通数据库和向量数据库,其中向量数据库本身就是大模型的“记忆体”。

这些开源内容对于人工智能发展而言有着不可或缺的重要性,但并非所有开源项目都需要法律予以特殊关注,并以模块的方式为此单独建立一套规则。

在完全开源与彻底闭源之间存在一个宽泛的谱系,对于人工智能立法而言,具备独立模块价值的是开放和分发训练后参数的开源模型,而各种名义上的“开源”并不必然需要新增治理规则。此种开源不仅可以如同以往的代码开源一样,可以形成一个庞大的、包含众多分支(修改后再分发)的开源链条,还可以通过训练后参数的传播一举增加了若干重要的治理需求:

第一,参数的传播使本无能力造出大模型的人得以训练、精调乃至编辑满足其需求的大模型,模型开发门槛显著降低,而潜在效益和风险都大幅增长。

第二,参数本身隐含了学习的知识,这些知识存在于维度较高的“隐空间”中,可以通过一定技术手段被提炼和表达,因而训练后参数的传播本身也构成了网络信息传播,隐含网络信息安全风险(当然也包含了信息传播的社会经济利益),同时也涉及知识产权保护问题。

第三,参数的传播使模型的缺陷和隐患更加充分地暴露,从而提升了模型被针对性攻击的风险,也有可能获得针对性的修复。

第四,开源模型被视为访问和控制更加公平的对象,然而安全护栏相对缺失(也可能在传播过程中被拆除),引致更难以控制的侵权风险。

尽管对于开源模型的机遇与风险等尚存争议,但一个关键风险增量不能被忽视:分发利用过程中处于技术能力“长尾”位置的大量分散利用者很可能缺乏充分发现和修复这些风险的能力,而这些中小型利用者又可能将包含开放参数的开源模型加以包装和改动,成为公共部门和部分企业的模型和应用供应商。

不过,尽管开源模型可能带来显著的风险增量,其对人工智能技术研究与产业发展的促进作用更为突出,也更有利于打破“小院高墙”之类的技术封锁,因而在法律治理中必须深入探寻统筹发展和安全的平衡点。由此,法律应当对开放和分发训练后参数张量的开源模型建立若干专门规则,对此种不可忽视的增量治理需求作出合理回应。

(四)隔离模块:涉敏涉密的领域模型

当前国内外人工智能法治的研究可谓过度聚焦基础模型,而对于举足轻重的领域模型暂未投入太多的关注,但涉敏、涉密的领域模型也因其“隔离式治理”的需要引致了值得认真对待的模块化需求。“领域模型”或“专用模型”(Domain-specific Models或Task-specific Models)是指依托生成式人工智能基础模型,依托专业知识及专门性的使用需求,通过对基础模型的精调、蒸馏、编辑等处理形成的人工智能模型,或者依托专门性知识库直接开发的特殊用途模型。“基础模型+知识库”的检索增强生成(Retrieval Augmented Generation,RAG)模式是开发领域模型的主流技术路线。领域模型不仅可以如同基础模型一样向市场或社会开放利用,也可被封闭性地应用于国防、外交、司法、工业、公共安全、社会管理、科学研究等特殊领域。

领域模型的两重法律治理需求特殊性不容忽视:第一,特殊用途模型可能通过专门训练数据、知识推理组件、基于模型的知识编辑等方式吸纳不开放乃至保密的知识和信息,不仅数据安全风险较公用模型突出,各种评估、认证、测评、审计等第三方治理机制的开展亦备受限制。

第二,特殊用途模型往往有某些性能指标的刚性约束,与公用模型的训练目标不尽相同。例如,人民法院应用的司法大模型对回答准确率有严格的要求,而不一定需要追求与公用模型同等的有效回应率。

对此,部分领域模型需要的并不是常规的开放性治理机制,而是“隔离式治理机制”,在贯彻实施保密法律制度之余,精心界定第三方专业机构介入的边界。隔离式治理的关键在于数据接触机会和治理能力的相对移位:测评、评估、检测、算法审计等机构不能获得敏感或秘密的真实数据,而只能基于模拟数据训练的“影子模型”进行测评,同时严格遵守保密协议,必要时进场操作,不带走影子模型和分析报告;用户需要一定程度上获得包括但不限于具备自行脱网测试、检验、解释、定位(被投毒或污染的参数、有缺陷模块等)等功能的治理工具、测评基准和风险防御能力。

隔离模块还需要重点处理可以称之为“知识治理”的问题。领域模型学习或连接了专门性的知识,这些知识往往属于所谓的内部知识,存在一定的敏感性,对模型表现起到举足轻重的影响。因此,对于部分应用关键场景、涉及重大公共利益的领域模型,有必要对模型所学习或连接的专门知识提出真实性、准确性、时效性等要求,并且保证用于训练的反面样本和干扰样本得到良好的技术处理,不会对模型的输出造成有害影响。此种“知识治理”的要求在RAG机制中有望在进一步的技术发展中被成熟、系统地实现,从而形成一个固定的、有清晰预期的治理子模块。

(五)运动模块:模型驱动的物理过程

部分人工智能程序可以控制物体的位移和运动,可能导致物理性的损害后果,其风险类型和发生机理与单纯生成信息的人工智能应用存在显著差异,治理需求亦有所不同。模型驱动物理过程的最主要风险在于可能直接导致侵害人身权、财产权的危害后果,甚至损及公共利益和国家安全(如非法控制自动驾驶汽车或其他无人设备撞击特殊重要目标)。

因此,包含动作模块的人工智能系统需要进行额外的模拟实验和安全检测,确保模型和系统的缺陷导致重大危害后果的可能性低于一定阈值,特别是需要检验系统在各种极端情况下的鲁棒性与可靠性。不仅如此,对于大部分智能驱动的装备(包括交通运输工具、机械设备、智能机器人等各类具备运动能力的系统等)而言,紧急制动装置和人类接管机制也不可或缺。

此二种治理需求属于基础性的安全冗余,如果相关非固定装备的主要使用场景是开放性的公共场所,如自动驾驶汽车、无人机、大功率机器人等,很有可能需要制定专门性立法(包括法规、规章),精细地确定各种风险场景中的安全冗余量。

不仅如此,包含运动模块的人工智能装备还需要考虑侵权责任的分配问题。如果此类装备引致侵权后果的发生,大部分情形下需适用产品责任。对于人工智能产品而言,无论是产品缺陷的认定,还是因果关系的证明,都需要立法更新认定标准。尽管学界对于人工智能产品责任具体认定标准的选择和证明的要求尚未完全达成共识,但已逐渐认可人工智能装备在责任分配方面需要特别的法律规则。

不仅如此,对于人工智能装备引致的产品责任和其他法律责任,还需要考虑设置过重责任可能抑制人工智能相关领域创新发展的问题。即便人工智能装备可能引发大规模的侵害后果,产品或服务提供者承担的责任也可能需要一定限制,通过某种社会化的机制(例如保险)实现创新利益和风险的合理分担,这也是为何自动驾驶立法进程中保险相关条款日益受到重视的原因。针对人工智能风险的特殊性,如能建立适当且有效的保险制度,救济的目标可以在侵权责任之外实现,但具体保险制度的设计则仍有待实践探索。

总而言之,这一模块目前的一般性法律制度及特殊法律规则尚未臻于成型,但亦须通过基础性的法律规则为后续法治建设提纲挈领。

上述模块除参数模块可以作为人工智能立法的默认调整对象外,其他模块均可根据治理对象的特点而有针对性地适用,并且可以根据未来人工智能技术的发展而动态增减,保持法律治理的开放性和敏捷性。此种灵活的“模块组合”方案对于紧扣人工智能技术特点、包容人工智能未来发展演化的人工智能法而言殊为必要。

四、

承载“模块组合”框架的人工智能体例设计

人工智能法必须在有限的篇幅内选择最合理的制度框架。框架的主要作用是化约认知复杂性。此种模块组合框架不仅契合人工智能的发展历程和技术原理,也最大限度地减少了不同分类维度交叠引起的认知混乱和治理措施组合失配。按照不同模块精确加入的“治理增量”追求风险增量与治理增量的精确适配,有助于提升法律治理不同技术路线人工智能应用的规制精度与合比例性。人工智能法应当建立与模块化治理相适应的法律制度框架,为人工智能法治建立科学、清晰而动态有序的基础性认知结构。

(一)人工智能法的关键章节布局

综观国内外人工智能专门立法(包括各类示范法、专家建议稿与未通过的法案),人工智能法的章节布局包含了非常丰富的构思。无论采取何种构思,人工智能法的章节中均应有效地包含上述模块设计。此种模块设计具备足够的灵活性,可以体现为一种“柔性”的框架,即不必固定划分编、章、节及其次序,而是在人工智能法的总则之后、监管机制与法律责任等章节之前,以专门性的章节承载各模块的治理需求即可。

前述模块并非严格意义上的并列关系(如参数模块可以作为多个前提模块的基础、隔离模块可以作为生成模块的分支等),因为人工智能发展史上演化而成的各种重要模块可以是并列,也可以是某一模块的内部分支,但却都具有法律治理上值得专门对待的重要性,因而可以根据模块之间的关系确定具体的章节安排,例如涉敏涉密的领域模型可以置于生成式人工智能的专章之内独立成节。目前,由于基础性研究和前期制度实践积累的欠缺,部分模块独立成章或许暂时有所不足,但至少独立设节是必要的,可以促进实现专门法律治理需求的系统性、完备性和灵活性。

鉴于各模块在人工智能技术发展与应用中所处的位置不同,如下安排或许是一种相对合理的选择:

第一,人工智能法默认以学习型人工智能为调整对象,有关机器学习算法及其应用的一般性要求在总则及其后的基础性、一般性制度中体现,而参数模块的剩余治理需求通过“模型参数流通的特别规定”等名目另设独立条款。

第二,生成合成信息治理、开源模型或软件的特别治理规定、人工智能驱动装备风险管理等模块各设专章,各章的治理规则可以同时触发、同时适用。

第三,生成合成信息治理一章分节处理。由于生成合成信息治理是大模型时代人工智能法律治理的重点,内容十分丰富,可以首先根据其是否具有语义理解与处理能力分设两节(例如,其中一节可以命名为“生成合成信息治理的一般规定”,另一节可命名为“具备语义处理能力的生成式人工智能服务的引导与治理”或“语义处理的风险控制”),而涉密涉敏领域模型管理则再单设一节,作为生成模块的子模块发挥作用。

在独立设置的前述模块化章节中,相关法律规范在条文设计时应保持“单向独立性”:其可援用非模块化章节的原则与规则,但应尽量避免被其他章节(包括训练数据治理等本文未列举的章节)的法律规范所援用,保证整个章节的全面修改或调整不影响整部人工智能法其余章节的适用。

上述章节无须全盘规定所有治理规则,因为开源生态、生成式人工智能、自动驾驶、无人机等领域往往需要制定专门性的规章、法规甚至法律,全面、系统地统筹发展和安全的各种考量,进一步形成精细化的支持、培育、引导或风险治理规则。人工智能法在相关各节中应当“立其大者”,确立基础性的法律关系和安全冗余边界,明确政府在制度化激励和风险治理方面的必要行政立法及标准制定授权,为相关配套法律规范和标准的制定保留合理空间。

(二)人工智能法的模块化修改与调整机制

人工智能法以专门性的章节承载上述模块的制度设计,关键在于便利模块的增减、调整和规则的修改,这就需要一种动态调节机制。人工智能尚处于高速发展演化之中,对于不确定的客观形势和法律治理需求,应秉持类似于非参数贝叶斯推理(Nonparametric Bayesian Inference)或至少是贝叶斯网络(Bayesian network)的思考方式,实行立法层面能够容纳高度不确定性的循证决策。非参数贝叶斯推理通过高斯过程(Gaussian Processes)或狄利克雷过程(Dirichlet Processes)等工具灵活适应未知的复杂函数、模式和相关性,允许模型根据数据复杂性自动调整自身的结构和参数。类似地,动态的立法和修法过程也可以建立相应认知结构,不断根据新出现的证据调整对相关规则存废、规制精度和规制平衡点等关键选项的决策。

当然,这是一个理论上很直观但实践操作难度极高的理想化方案,实践中的数据驱动型决策远未具备实现基础,有必要对此种方案进行一定程度的简化以适应立法实践的规律,以下简化的路径是值得考虑的。

第一,构建一项法律规则模块实践需求与实施效果评估机制,该机制能够基于实际产生的证据和数据变化,对相关模块进行及时评估,实现规则的适时调整与优化。这意味着人工智能法需要预设定期评估程序和重要事件触发的不定期评估程序,授权评估者通过收集和分析最新的技术进展、市场变化、风险事件和社会影响等多方面数据,判断现有模块的有效性和适应性。一旦发现某模块不再适应当前的人工智能发展趋势或者存在规则上的明显缺陷,立法机关即应及时启动修订流程,引入新的模块或对现有模块进行必要更新。

评估机制应明确相关模块修正的触发条件,如革命性的重大技术突破、超出制度预期的重大风险事件、国际竞争态势的重要变化、规制负担的显著上升或结构性转移等。当特定条件满足时,即应启动模块化修正程序,推进相关模块的增删改工作。此种机制有助于实现法律治理的精准响应。此种循证式的迭代方法能够确保人工智能法律框架始终与快速变化的技术和市场环境保持同步。

第二,确立支持模块化法律规则演化与适应的辅助机制。在人工智能法的框架下,应当嵌入一种支持法律规则演化和适应的机制,使法律规则能够以一种类似于贝叶斯网络的学习过程实现适应治理需求的系统演化。这一机制既要求有基础性的评估机制,又要求建立支撑评估和法律规则修订的一系列辅助机制。

具体而言,应当设立以下三种机制:一是数据收集机制,即制定人工智能法律治理影响事件清单,系统性地发现、收集和整理人工智能发展与安全方面足以影响法律治理需求的数据、报告与重要案事件;二是规则修订意见综合机制,基于人工智能治理规制对象广泛、影响链条深远的特点,针对不同模块,结构性地征集利害相关方和技术路线代表的意见,分别确认价值和技术共识、归集价值与技术分歧,尤其避免主观武断地将尚存较多不确定性及认知分歧的命题视为规则变动的默认前提;三是不断根据新的证据与统计动态确认各种信息来源的准确性与重要程度,动态调整影响事件清单与意见反馈结构,形成更加可靠、有效的法律规则演化支持渠道。分散的支持机制与集中的评估机制结合,方可避免偏听偏信,维持全方位动态适应人工智能发展演化的规则体系。

第三,确立包容试验和敏捷指向的过渡性规则适用机制。立法中保留适当的试验性是必要的,而敏捷治理确实也为人工智能监管所需。然而,无论是实验主义治理还是敏捷治理,都需要依靠法律系统为各方主体的规范性预期提供保证,共享一套稳定的一般性规则,以“规范敏捷式的监管范式”彰显法治精神。

包容试验和敏捷指向的过渡性规则适用机制,即在某一模块的规则适用面临重大不确定性疑难问题时,若尚不确定是否需要永久性废止、修改或增加特定规则,可以在法律预作明确规定的前提下,实行短时期(如一个月到一年不等)的暂停适用或临时适用;在期限届满前,立法者在前述评估与辅助机制的支持下再形成最终的增删改决定。为保护规制预期明确性,人工智能法设置这些规则应保持在严格范围内,特别是以坚守系统性风险底线为前提条件,预先明确可能采取的规制措施和产生的法律后果并设置期限,避免滥用“急刹车”式的治理举措。

清晰的模块组合框架本身也可以为相关规则的暂停适用或临时适用划定范围与限度,使特定模块相关的过渡性规则之适用范围限于模块内部。如果相关模块能够进一步按照清晰的技术性规则划分为子模块,过渡性规则的适用范围还可以进一步被清晰限定,不至于因划分标准的模糊性而使“急刹车”风险外溢(尤其可以避免运动式治理“一刀切”式规制风险外溢)。通过上述机制,法律规则能够逐步适应人工智能技术的复杂性和多变性,增强规制的弹性与灵活度,但又尽可能不损害法律的稳定与权威。

五、

结语

治理须因利乘便,立法须因事制宜。人工智能法走向模块组合框架是紧扣人工智能技术与产业特点的第一选择。强烈的不确定性和高度复杂的生态制约了规则精度的上限,而在规则精度有限的前提下,框架结构上的重叠、缺漏与错位很难通过特殊规则的精准设计填补。人工智能的技术和应用分野为人工智能法律治理框架设计提供了天然的便利,人工智能自身的模块化更为不确定性条件下化解误判损失、应对开放演化构筑了有利的基础,诚不可置之不理,反诉诸游移莫测的风险判断、文字形容或刻舟求剑的算力门槛。

人类有关人工智能的探索与认知将持续发展、调整、演化、迭代,所有的模块也将在这一动态演变的时空结构中度过自身的“生命周期”,人工智能法治亦须作出切中肯綮之回应。目前,可动态调整的模块组合框架对于人类社会的主流立法思路和法释义学体系而言,虽非前所未见之创举,亦尚属方兴未艾之新生事物,需要一定时间完成认知与运用的转型,但只要能大致确认总体方向的正确,就不应停止继往开来的努力。

推荐阅读

1.丁晓东:《从网络、个人信息到人工智能:数字时代的侵权法转型》|前沿

2.张新宝:生成式人工智能训练语料的个人信息保护研究|前沿

3.张新宝、魏艳伟:AI时代,我们准备好了吗?——我国人工智能立法基本问题研究|前沿

中国民商法律网

本文转载自微信公众号“中国法律评论”,点击文末“阅读原文”可跳转至原文。【温馨提示】由于微信公众号推送规则的改变,未对本公众号设置星标关注的读者,将难以第一时间接收到本公众号每日发布的前沿讯息!星标关注操作指南如下: