Survey on Privacy-Preserving Machine Learning
-
摘要: 大规模数据收集大幅提升了机器学习算法的性能,实现了经济效益和社会效益的共赢,但也令个人隐私保护面临更大的风险与挑战.机器学习的训练模式主要分为集中学习和联邦学习2类,前者在模型训练前需统一收集各方数据,尽管易于部署,却存在极大数据隐私与安全隐患;后者实现了将各方数据保留在本地的同时进行模型训练,但该方式目前正处于研究的起步阶段,无论在技术还是部署中仍面临诸多问题与挑战.现有的隐私保护技术研究大致分为2条主线,即以同态加密和安全多方计算为代表的加密方法和以差分隐私为代表的扰动方法,二者各有利弊.为综述当前机器学习的隐私问题,并对现有隐私保护研究工作进行梳理和总结,首先分别针对传统机器学习和深度学习2类情况,探讨集中学习下差分隐私保护的算法设计;之后概述联邦学习中存在的隐私问题及保护方法;最后总结目前隐私保护中面临的主要挑战,并着重指出隐私保护与模型可解释性研究、数据透明之间的问题与联系.Abstract: Large-scale data collection has vastly improved the performance of machine learning, and achieved a win-win situation for both economic and social benefits, while personal privacy preservation is facing new and greater risks and crises. In this paper, we summarize the privacy issues in machine learning and the existing work on privacy-preserving machine learning. We respectively discuss two settings of the model training process—centralized learning and federated learning. The former needs to collect all the user data before training. Although this setting is easy to deploy, it still exists enormous privacy and security hidden troubles. The latter achieves that massive devices can collaborate to train a global model while keeping their data in local. As it is currently in the early stage of the study, it also has many problems to be solved. The existing work on privacy-preserving techniques can be concluded into two main clues—the encryption method including homomorphic encryption and secure multi-party computing and the perturbation method represented by differential privacy, each having its advantages and disadvantages. In this paper, we first focus on the design of differentially-private machine learning algorithm, especially under centralized setting, and discuss the differences between traditional machine learning models and deep learning models. Then, we summarize the problems existing in the current federated learning study. Finally, we propose the main challenges in the future work and point out the connection among privacy protection, model interpretation and data transparency.
-
Keywords:
- privacy-preserving /
- differential privacy /
- machine learning /
- deep learning /
- federated learning
-
-
期刊类型引用(31)
1. 杜冬冬,杨璧丞,余炀,夏虞斌,丁佐华,赵永望,张磊,臧斌宇,陈海波. SegTEE:面向小型端侧设备的可信执行环境系统. 计算机学报. 2025(01): 188-209 . 百度学术
2. 张涵,于航,周继威,白云开,赵路坦. 面向隐私计算的可信执行环境综述. 计算机应用. 2025(02): 467-481 . 百度学术
3. 熊世强,何道敬,王振东,杜润萌. 联邦学习及其安全与隐私保护研究综述. 计算机工程. 2024(05): 1-15 . 百度学术
4. 刘国,焦玉雷,陈弈,李晓玥. 基于PUF的TEE可信根生成方法研究. 哈尔滨师范大学自然科学学报. 2024(01): 61-67 . 百度学术
5. 韩益亮,宋超越,吴旭光,李鱼. 区块链与隐私计算融合技术综述. 科学技术与工程. 2024(28): 11945-11963 . 百度学术
6. 鲍聪颖,吴昊,陆凯,曹松钱,卢秋呈. 基于可信执行环境的5G边缘计算安全研究. 信息安全研究. 2023(01): 38-47 . 百度学术
7. 吴炳璋. 工业边缘侧即插即用设备可信接入研究. 自动化仪表. 2023(05): 20-24+28 . 百度学术
8. 杨瑞仙,李兴芳,王栋,臧国全. 隐私计算的溯源、现状及展望. 情报理论与实践. 2023(07): 158-167 . 百度学术
9. 赵徐炎,崔允贺,蒋朝惠,钱清,申国伟,郭春,李显超. CHAIN:基于重合支配的边缘计算节点放置算法. 计算机应用. 2023(09): 2812-2818 . 百度学术
10. 刘永志,秦桂云,刘蓬涛,胡程瑜,郭山清. 可证明安全的基于SGX的公钥认证可搜索加密方案. 计算机研究与发展. 2023(12): 2709-2724 . 本站查看
11. 文高阳,许博阳,张聪慧. 虚拟化技术在云安全中的隔离与保护. 信息与电脑(理论版). 2023(18): 193-195 . 百度学术
12. 施一明,高博,王天林,张军凯,谢灿华. PLC可信软件技术研究. 中国仪器仪表. 2022(03): 66-69 . 百度学术
13. 杨婷,张嘉元,黄在起,陈禹劼,黄成龙,周威,刘鹏,冯涛,张玉清. 工业控制系统安全综述. 计算机研究与发展. 2022(05): 1035-1053 . 本站查看
14. 王朝阳,汪颢懿,左敏,张青川. TrustZone架构下基于优化RSA的食品追溯可信采集方法. 计算机应用与软件. 2022(07): 322-328 . 百度学术
15. 陈淑芳,田由甲,聂佳. 基于工业可信接入的可信网关研究和开发. 自动化博览. 2022(08): 66-69 . 百度学术
16. 王延昭,范皓,唐华云,李荣,赵栓. 数字债券长期演进体系构想. 武汉金融. 2022(10): 79-88 . 百度学术
17. 栾奇麒,程力涵,李春鹏,蒋峰,宋庆武. 基于智能边缘计算的物联接入网关容错机制研究. 电子设计工程. 2022(23): 90-93+98 . 百度学术
18. 何欣枫,田俊峰,娄健. 面向边缘计算的可信协同框架. 电子与信息学报. 2022(12): 4256-4264 . 百度学术
19. 王成亮,官国飞,黄斌,徐妍,宋庆武. 基于边缘计算的低压配电网多源数据处理与融合技术研究. 电子设计工程. 2021(04): 172-176 . 百度学术
20. 张慧茹,汪美荃,李光顺. 区块链安全与隐私保护前沿技术发展现状. 信息技术与网络安全. 2021(05): 7-12 . 百度学术
21. 王晓东,王加臣,张明,马志强,郁天雄,赵呈呈. 基于边缘计算的电网作业现场违章识别方法. 单片机与嵌入式系统应用. 2021(08): 31-35 . 百度学术
22. 冯幸,钟其铿. 边缘算法的隐私保护应用研究. 中国新通信. 2021(14): 109-110 . 百度学术
23. 赵国生,王甜甜,王健. 一种边缘设备动态信任度的评估模型. 计算机工程与科学. 2021(09): 1574-1583 . 百度学术
24. 张依琳,陈宇翔,田晖,王田. 联邦学习在边缘计算场景中应用研究进展. 小型微型计算机系统. 2021(12): 2645-2653 . 百度学术
25. 张依琳,梁玉珠,尹沐君,全韩彧,王田,贾维嘉. 移动边缘计算中计算卸载方案研究综述. 计算机学报. 2021(12): 2406-2430 . 百度学术
26. 何军,朱建帮. 面向云计算的网络环境中数据安全传递方法研究. 景德镇学院学报. 2021(06): 93-96 . 百度学术
27. 苗新亮,蒋烈辉,常瑞. 访问驱动下的Cache侧信道攻击研究综述. 计算机研究与发展. 2020(04): 824-835 . 本站查看
28. 赵高丽,宋军平. 基于平滑聚类的差分隐私数据自动脱敏仿真. 计算机仿真. 2020(08): 100-104 . 百度学术
29. 张恩硕. 面向城轨视频监控的边缘计算系统时延与能耗优化算法. 铁路通信信号工程技术. 2020(09): 56-62+88 . 百度学术
30. 官国飞,宋庆武,刘恢,徐妍,蒋峰,李春鹏. 基于边缘计算的配网管理和运维体系研究. 电网与清洁能源. 2020(10): 90-96 . 百度学术
31. 陶耀东,徐伟,纪胜龙. 边缘计算安全综述与展望. 计算机集成制造系统. 2019(12): 3043-3051 . 百度学术
其他类型引用(37)
计量
- 文章访问数: 6235
- HTML全文浏览量: 25
- PDF下载量: 5937
- 被引次数: 68