机器学习的隐私保护研究综述

刘俊旭; 孟小峰

doi:10.7544/issn1000-1239.2020.20190455

机器学习的隐私保护研究综述

(中国人民大学信息学院北京 100872) (junxu_liu@ruc.edu.cn)

基金项目: 国家自然科学基金项目(91646203，61532010，91846204，61532016，61762082)；国家重点研发计划项目(2016YFB1000602,2016YFB1000603)

详细信息

中图分类号: TP391
计量
- 文章访问数: 6242
- HTML全文浏览量: 25
- PDF下载量: 5940
出版历程
- 发布日期: 2020-01-31

Survey on Privacy-Preserving Machine Learning

(College of Information, Renmin University of China, Beijing 100872)

Funds: This work was supported by the National Natural Science Foundation of China (91646203, 61532010, 91846204, 61532016, 61762082) and the National Key Research and Development Program of China (2016YFB1000602, 2016YFB1000603).

摘要

摘要: 大规模数据收集大幅提升了机器学习算法的性能，实现了经济效益和社会效益的共赢，但也令个人隐私保护面临更大的风险与挑战.机器学习的训练模式主要分为集中学习和联邦学习2类，前者在模型训练前需统一收集各方数据，尽管易于部署，却存在极大数据隐私与安全隐患；后者实现了将各方数据保留在本地的同时进行模型训练，但该方式目前正处于研究的起步阶段，无论在技术还是部署中仍面临诸多问题与挑战.现有的隐私保护技术研究大致分为2条主线，即以同态加密和安全多方计算为代表的加密方法和以差分隐私为代表的扰动方法，二者各有利弊.为综述当前机器学习的隐私问题，并对现有隐私保护研究工作进行梳理和总结，首先分别针对传统机器学习和深度学习2类情况，探讨集中学习下差分隐私保护的算法设计；之后概述联邦学习中存在的隐私问题及保护方法；最后总结目前隐私保护中面临的主要挑战，并着重指出隐私保护与模型可解释性研究、数据透明之间的问题与联系.
- 隐私保护 /
- 差分隐私 /
- 机器学习 /
- 深度学习 /
- 联邦学习
Abstract: Large-scale data collection has vastly improved the performance of machine learning, and achieved a win-win situation for both economic and social benefits, while personal privacy preservation is facing new and greater risks and crises. In this paper, we summarize the privacy issues in machine learning and the existing work on privacy-preserving machine learning. We respectively discuss two settings of the model training process—centralized learning and federated learning. The former needs to collect all the user data before training. Although this setting is easy to deploy, it still exists enormous privacy and security hidden troubles. The latter achieves that massive devices can collaborate to train a global model while keeping their data in local. As it is currently in the early stage of the study, it also has many problems to be solved. The existing work on privacy-preserving techniques can be concluded into two main clues—the encryption method including homomorphic encryption and secure multi-party computing and the perturbation method represented by differential privacy, each having its advantages and disadvantages. In this paper, we first focus on the design of differentially-private machine learning algorithm, especially under centralized setting, and discuss the differences between traditional machine learning models and deep learning models. Then, we summarize the problems existing in the current federated learning study. Finally, we propose the main challenges in the future work and point out the connection among privacy protection, model interpretation and data transparency.
- privacy-preserving /
- differential privacy /
- machine learning /
- deep learning /
- federated learning

HTML全文

参考文献(0)

施引文献(192)

期刊类型引用(65)

1.	董裕民，张静，谢昌佐，李子扬. 云边端架构下边缘智能计算关键问题综述：计算优化与计算卸载. 电子与信息学报. 2024(03): 765-776 . 百度学术
2.	陈彩华，佘程熙，王庆阳. 可信机器学习综述. 工业工程. 2024(02): 14-26 . 百度学术
3.	吴坚平，陈超超，金加和，吴春明. 基于联邦学习的政务大数据平台应用研究. 大数据. 2024(03): 40-54 . 百度学术
4.	杨珂，朱洪斌，李达，张闻彬，杨挺，覃小兵. 基于压缩感知的纵向联邦学习园区负荷预测方法. 电力信息与通信技术. 2024(05): 36-42 . 百度学术
5.	龙春，秦泽秀，李丽莎，李婧，杨帆，魏金侠，付豫豪. 面向高维数据发布的差分隐私算法及应用综述. 农业大数据学报. 2024(02): 170-184 . 百度学术
6.	龚颖，许文韬，赵策，王斌君. 基于零信任机制的联邦学习模型. 科学技术与工程. 2024(19): 8166-8175 . 百度学术
7.	潘益婷，章增优. 教育数据治理的路径探索与应用研究. 浙江工贸职业技术学院学报. 2024(02): 62-66 . 百度学术
8.	李界雯，陈佳佳，李师毅. 自适应隐私预算分配的差分隐私梯度下降算法. 数学的实践与认识. 2024(07): 129-140 . 百度学术
9.	张文锋，闫登卫，杨稳. 机器学习课程的教学设计分析. 电子技术. 2024(07): 148-149 . 百度学术
10.	张欢，韩言妮，赵一宁，张帆，谭倩，孟渊. 基于神经网络的模型反演攻击技术综述. 信息安全学报. 2024(06): 208-226 . 百度学术
11.	何泽平，许建，戴华，杨庚. 联邦学习应用技术研究综述. 信息网络安全. 2024(12): 1831-1844 . 百度学术
12.	汤凌韬，陈左宁，张鲁飞，吴东. 联邦学习中的隐私问题研究进展. 软件学报. 2023(01): 197-229 . 百度学术
13.	王腾，霍峥，黄亚鑫，范艺琳. 联邦学习中的隐私保护技术研究综述. 计算机应用. 2023(02): 437-449 . 百度学术
14.	彭辉. 数据交易的困境与纾解：基于不完全契约性视角. 比较法研究. 2023(02): 172-185 . 百度学术
15.	顾育豪，白跃彬. 联邦学习模型安全与隐私研究进展. 软件学报. 2023(06): 2833-2864 . 百度学术
16.	包晓丽，杜万里. 数据可信交易体系的制度构建——基于场内交易视角. 电子政务. 2023(06): 38-50 . 百度学术
17.	杨会峰，陈连栋，程凯，王乃玉，李轩，关志涛. 支持个性化隐私保护的异步联邦窃电检测方法. 电力信息与通信技术. 2023(06): 15-23 . 百度学术
18.	吴炜霞，向红权，石凯. 智能无人系统安全防御体系研究. 信息安全与通信保密. 2023(05): 81-87 . 百度学术
19.	赵宇豪，陈思光，苏健. 抗推理攻击的隐私增强联邦学习算法. 计算机科学. 2023(09): 62-67 . 百度学术
20.	李功源，刘博涵，杨雨豪，邵栋. 可信人工智能系统的质量属性与实现:三级研究. 软件学报. 2023(09): 3941-3965 . 百度学术
21.	李海洋，郭晶晶，刘玖樽，刘志全. 隐私保护的拜占庭鲁棒联邦学习算法. 西安电子科技大学学报. 2023(04): 121-131 . 百度学术
22.	史洪玮，洪道诚，施连敏，杨迎尧. 异构编码联邦学习. 华东师范大学学报(自然科学版). 2023(05): 110-121 . 百度学术
23.	王俊，邓一荣，李德安，黄灶泉，张晓露，韩枫，李朝晖. 人工智能数据挖掘在土壤环境科学中的应用——基于文献知识图谱的分析. 土壤通报. 2023(05): 1248-1260 . 百度学术
24.	崔东浩，张华亮. 基于联邦学习的社区数字化学习数据挖掘研究. 当代职业教育. 2023(06): 100-110 . 百度学术
25.	王倩云，孙钰，尚涛，崔剑，蒋燕玲，高莹，白琳. 面向网络空间安全方向的“人工智能”课程改革. 工业和信息化教育. 2023(12): 45-48+53 . 百度学术
26.	王雷霞，孟小峰. ESA:一种新型的隐私保护框架. 计算机研究与发展. 2022(01): 144-171 . 本站查看
27.	杨文琦，章阳，聂江天，杨和林，康嘉文，熊泽辉. 基于联邦学习的无线网络节点能量与信息管理策略. 计算机工程. 2022(01): 188-196+203 . 百度学术
28.	朱骁，杨庚. 横向联邦学习中PCA差分隐私数据发布算法. 计算机应用研究. 2022(01): 236-239+248 . 百度学术
29.	卢冰洁，李炜卓，那崇宁，牛作尧，陈奎. 机器学习模型在车险欺诈检测的研究进展. 计算机工程与应用. 2022(05): 34-49 . 百度学术
30.	张爱娈，李祯祯，丁海洋，张珍珍，李子臣. 基于OT的多方匿名身份查询协议. 计算机应用研究. 2022(04): 1190-1194 . 百度学术
31.	罗长银，王君宇，陈学斌，马春地，张淑芬. 改进的联邦加权平均算法. 计算机应用. 2022(04): 1131-1136 . 百度学术
32.	顾兆军，刘婷婷，隋翯. 一种ICS异常检测的优化GAN模型. 西安电子科技大学学报. 2022(02): 173-181+236 . 百度学术
33.	田家会，吕锡香，邹仁朋，赵斌，李一戈. 一种联邦学习中的公平资源分配方案. 计算机研究与发展. 2022(06): 1240-1254 . 本站查看
34.	孙兵，刘艳，王田，彭绍亮，王国军，贾维嘉. 移动边缘网络中联邦学习效率优化综述. 计算机研究与发展. 2022(07): 1439-1469 . 本站查看
35.	余正飞，闫巧，周鋆. 面向网络空间防御的对抗机器学习研究综述. 自动化学报. 2022(07): 1625-1649 . 百度学术
36.	李少波，杨磊，李传江，张安思，罗瑞士. 联邦学习概述：技术、应用及未来. 计算机集成制造系统. 2022(07): 2119-2138 . 百度学术
37.	胡业飞，陈美欣，张怡梦. 价值共创与数据安全的兼顾：基于联邦学习的政府数据授权运营模式研究. 电子政务. 2022(10): 2-19 . 百度学术
38.	阎允雪，马铭，蒋瀚. 基于秘密分享的高效隐私保护四方机器学习方案. 计算机研究与发展. 2022(10): 2338-2347 . 本站查看
39.	丁雅婷，伍麟. 自然语言处理预测抑郁症的技术陷阱与道德风险. 心理科学. 2022(05): 1267-1272 . 百度学术
40.	张攀峰，杨智威，张文勇，敬超. 基于混合扰动的差分隐私贝叶斯神经网络. 无线电工程. 2022(10): 1683-1694 . 百度学术
41.	李大元，潘壮，肖元英. 大数据时代消费者隐私协同保护研究. 商学研究. 2022(05): 5-10 . 百度学术
42.	梁天恺，曾碧，陈光. 联邦学习综述：概念、技术、应用与挑战. 计算机应用. 2022(12): 3651-3662 . 百度学术
43.	严伟杨，饶红霞，段恒. 基于Stacking多模型融合算法的害鸟密度预测方法. 工业控制计算机. 2022(12): 20-22 . 百度学术
44.	陈律君，肖迪，余柱阳，黄会，李敏 . 基于秘密共享和压缩感知的通信高效联邦学习. 计算机研究与发展. 2022(11): 2395-2407 . 本站查看
45.	黄瑞章. 面向本科生的机器学习课程教学改革探讨. 黑龙江科学. 2021(03): 128-129 . 百度学术
46.	杨海芳，王明征. 基于最小化信息损失的用户隐私保护方法. 系统工程理论与实践. 2021(02): 483-497 . 百度学术
47.	邵荣强，陈燕，龚庆悦. 基于API的疾病预测系统数据导入研究. 软件导刊. 2021(03): 101-105 . 百度学术
48.	代文，许文彬. 基于联邦学习的个人信用风险评估研究. 商业文化. 2021(05): 102-107 . 百度学术
49.	邢丹，徐琦，姚俊明. 边缘计算环境下基于区块链和联邦学习的医疗健康数据共享模型. 医学信息学杂志. 2021(02): 33-37 . 百度学术
50.	秦小月，黄汝维. NTRU体制的全同态加密研究. 计算机应用研究. 2021(06): 1619-1625 . 百度学术
51.	周洲，田有亮，杨楠，郭春，牛坤. 融合科研创新的密码学开放实验设计. 科技视界. 2021(14): 184-186 . 百度学术
52.	孙道柱，李男，杜启明，刘文甫. 融合显隐式反馈协同过滤的差分隐私保护算法. 计算机应用研究. 2021(08): 2370-2375 . 百度学术
53.	周传鑫，孙奕，汪德刚，葛桦玮. 联邦学习研究综述. 网络与信息安全学报. 2021(05): 77-92 . 百度学术
54.	吴吉，王月娟，景栋盛. 基于自优化深度网络的模型攻击方法. 软件工程. 2021(11): 39-41 . 百度学术
55.	李宗辰，张颐，叶东，李兴国，滕志松. 运用联邦学习技术推动公安大数据的融合运用. 警察技术. 2021(06): 34-37 . 百度学术
56.	童威，黄启萍. 面向隐私的BRNN保护方法优化策略. 电脑与电信. 2021(12): 58-61 . 百度学术
57.	王蒙蒙，朱婉婷. 面向联合作战的跨域数据安全互联方法. 中国电子科学研究院学报. 2020(05): 442-448 . 百度学术
58.	魏立斐，陈聪聪，张蕾，李梦思，陈玉娇，王勤. 机器学习的安全问题及隐私保护. 计算机研究与发展. 2020(10): 2066-2085 . 本站查看
59.	董业，侯炜，陈小军，曾帅. 基于秘密分享和梯度选择的高效安全联邦学习. 计算机研究与发展. 2020(10): 2241-2250 . 本站查看
60.	张润滋，刘文懋，尤扬，解烽. AISecOps自动化能力分级与技术趋势研究. 信息网络安全. 2020(09): 22-26 . 百度学术
61.	李健. 基于便携式虹膜仪的医疗图像数据安全共享平台设计. 计算机测量与控制. 2020(10): 195-199 . 百度学术
62.	刘姿杉，程强，吕博. 面向机器学习的隐私保护关键技术研究综述. 电信科学. 2020(11): 18-27 . 百度学术
63.	赵东明，刘静，徐晨兴，杨爱东，孔令鲁. “联邦学习+区块链”多方安全计算引擎系统研究. 电子技术与软件工程. 2020(21): 184-186 . 百度学术
64.	杨庚，王周生. 联邦学习中的隐私保护研究进展. 南京邮电大学学报(自然科学版). 2020(05): 204-214 . 百度学术
65.	姚俊明，邢丹，邵婷婷. 移动边缘计算环境下基于联邦机器学习的医联体慢病管理. 医学信息学杂志. 2020(11): 17-21 . 百度学术