×

基于差分隐私的联邦迁移学习

hqy hqy 发表于2025-03-03 21:29:28 浏览8 评论0百度已收录

抢沙发发表评论

导言

li et al.(2024) 提出了基于差分隐私的联邦迁移学习(federated transfer learning with differential privacy,后文简称ftl-dp),主要探讨了在联邦迁移学习框架下,如何通过差分隐私技术解决数据异质性和隐私保护两大挑战。

01

联邦迁移学习

联邦学习是一种分布式机器学习方法,能够在不直接共享数据的情况下构建和训练模型。例如,对于全国不同地区的医院,每间不同医院都有各自独立的数据库,自然地也有对应的不同分布。这时数据库地理位置的隔离和数据之间的分布异质性构成了联邦学习的场景,也为迁移学习提供了发挥的空间。

在联邦迁移学习框架下,我们称用于迁移的数据集为源域,来自最终目标模型的数据集称为目标域。源域可以有单个数据集或多个数据集构成。在联邦学习框架下,一般将数据充足的节点(数据集)视为源域,将某个数据缺乏的节点(数据集)视为目标域。我们希望使用源域中大量数据上训练出的模型来提高目标域的统计推断(比如:估计)性能。同时,源域与目标域应当在某种度量指标下具备充分的相似性,否则可能发生负迁移现象。

02

差分隐私

差分隐私顾名思义就是用来防范差分攻击的。举个简单的例子,假设现在有一个病人数据库,可以公开查询有多少人患病。刚开始的时候查询发现2人患病;现在张三检查后发现自己患病,在数据库上登记了自己健康状况,再一查,发现变成3人患病,这时张三的个人信息就被泄露了,于是我们认为该登记-查询系统是不具备差分隐私保护效应的。

03

ftl-dp:以均值估计为例

图1 联邦迁移学习迭代算法流程

表1 同质数据下在不同隐私估计μ的极小极大率

总结

虽然差分隐私的概念提出至今仅有十年左右,但通过研究人员的不断探索与改进,它已在学术界和工业界取得了显著成功,其中一些差分隐私算法已经被苹果的ios系统和谷歌的chrome浏览器所采用。差分隐私的主要价值在于帮助统计工作者在挖掘数据价值与隐私保护之间取得平衡。通过采用差分隐私技术,可以在遵守隐私法规的同时,继续进行统计工作的决策和创新。这不仅提升了统计部门在数据利用方面的合规性,还增强了用户或受访者对数据安全的信任感,从而促进业务的可持续发展。

作者:朱正宇(华东师范大学)  赵倩(上海对外经贸大学)

供稿:市统计学会

责编:薛依宜

审核:杨荣

上观号作者:上海统计

特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!