物联网环境下鲁棒的源匿名联邦学习洗牌协议

陈景雪; 高克寒; 周尔强; 秦臻

doi:10.7544/issn1000-1239.202330393

物联网环境下鲁棒的源匿名联邦学习洗牌协议

电子科技大学信息与软件工程学院　成都　610054
网络与数据安全四川省重点实验室（电子科技大学）　成都　610054

基金项目: 国家重点研发计划项目（2022YFB2701400）

详细信息

作者简介:
陈景雪: 1996年生. 博士研究生. 主要研究方向为物联网数据收集和隐私保护计算

高克寒: 1999年生. 硕士研究生. 主要研究方向为联邦学习和隐私保护计算

周尔强: 1980 年生. 博士，副教授. 主要研究方向为口令安全、自然语言处理

秦臻: 1983 年生. 博士，教授，博士生导师. 主要研究方向为数据融合分析、移动社交网络、无线传感器网络和图像处理

中图分类号: TP391
计量
- 文章访问数: 277
- HTML全文浏览量: 64
- PDF下载量: 135
出版历程
- 收稿日期: 2023-06-04
- 修回日期: 2023-08-17
- 网络出版日期: 2023-10-07
- 刊出日期: 2023-09-30

Robust Source Anonymous Federated Learning Shuffle Protocol in IoT

School of Information and Software Engineering, University of Electronic Science and Technology of China, Chengdu 610054
Network and Data Security Key Laboratory of Sichuan Province (University of Electronic Science and Technology of China), Chengdu 610054

Funds: This Work was supported by the national key Research and Development Program of China (2022YFB2701400).

More Information

Author Bio:
Chen Jingxue: born in 1996. PhD candidate. Her main research interests include IoT data collection and privacy-preserving computation

Gao Kehan: born in 1999. Master candidate. His main research interests include federated learning and privacy-preserving computation

Zhou Erqiang: born in 1980. PhD, associate professor. His main research interests include password security and natural language processing

Qin Zhen: born in 1983. PhD, professor, PhD supervisor. His main research interests include data fusion analysis, mobile social networks, wireless sensor networks, and image processing

摘要

摘要:
随着物联网(Internet of things, IoT)和人工智能(artificial intelligence, AI)技术的快速发展，大量的数据被物联网设备收集. 使用机器学习或深度学习等人工智能技术可以对这些数据进行训练. 训练好的模型是物联网中分析网络环境、提高服务质量(quality of service, QoS)的重要组成部分. 然而，大多数数据提供者 (物联网终端用户) 不愿意将个人数据直接分享给任何第三方进行学术研究或商业分析，因为个人数据中包含私人敏感信息. 因此，研究物联网中的安全与隐私保护是一个重要研究方向. 联邦学习 (federated learning，FL) 允许多方物联网终端用户作为训练参与者将数据保存在本地，仅上传本地训练模型至参数服务器以进行聚合，通过这种方式可以保护参与者数据隐私. 具体来说，FL面临的攻击主要有2种，即推理攻击和投毒攻击. 为了同时抵抗推理攻击和检测投毒攻击，提出了一个全新的源匿名数据洗牌方案Re-Shuffle. 提出的Re-Shuffle采用不经意传输协议实现FL中参与者模型的匿名上传，保证参数服务器只能获得参与者的原始本地模型，而不知道来自哪个参与者. 此外，为了更适应IoT环境，Re-Shuffle采用了秘密共享机制，在保证梯度数据原始性的同时，解决了传统shuffle协议中参与者的退出问题.Re-Shuffle既保证了局部模型的原始性，又保证了局部模型的隐私性，从而在保护隐私的同时检查中毒攻击. 最后给出了安全证明，对方案的检测效果进行了评价，并在Re-Shuffle方案下对2种投毒攻击检测方案的计算开销进行了评估. 结果表明Re-Shuffle能够在可接受的开销下为毒化攻击检测方案提供隐私保护.
- 物联网 /
- 隐私保护 /
- 联邦学习 /
- 洗牌 /
- 投毒攻击检测
Abstract:
With the rapid development of Internet of things (IoT) and artificial intelligence (AI) technology, a large amount of data are collected by IoT devices. These data can be trained by using AI techniques such as machine learning or deep learning. A well-trained model is an important part of analyzing network environment and improving quality of service (QoS) in IoT. However, most data providers (IoT end users) are reluctant to share personal data directly with any third party for academic research or business analysis because personal data contains private or sensitive information. Therefore, it is an important research direction to study the security and privacy protection in the IoT. Federated learning (FL) allows different participants to keep their data locally and only upload the local training models to the parameter server for model aggregation, which protects the data privacy of each participant. However, FL still faces some security challenges. Concretely, there are two main attacks FL faces, i.e., inference attack and poisoning attack. In order to resist inference attacks and detect poisoning attacks simultaneously, we propose a source anonymous data shuffle scheme, Re-Shuffle. The proposed Re-Shuffle uses the oblivious transfer protocol to realize the anonymous upload of participant models in FL. It ensures that in the process of poisoning attack detection, the parameter server can obtain the local model of the participant, who is unknown. In addition, to be more suitable for the IoT environment, Re-Shuffle adopts a secret sharing mechanism, which ensures the rawness of gradient data and solves the problem of participants dropline in the traditional shuffle protocol. In this way, both the rawness and privacy of the local model are ensured, so that the poisoning attacks can be checked while the privacy is protected. Finally, we provide the security proof and evaluate the scheme’s detection effect. Besides, the computation overheads of Re-Shuffle under two kinds of poisoning attack detection schemes are evaluated. The results show that Re-Shuffle can provide privacy protection for the poisoning attacks detection scheme at an acceptable cost.
- Internet of things /
- privacy-preservation /
- federated learning /
- shuffle /
- poisoning attack detection

HTML全文

命名实体识别（named entity recognition, NER）旨在从文本中定位命名实体，并将其分类到预定义的实体类型，如人、组织和位置.NER是自然语言处理（natural language processing, NLP）的基本任务，有助于各种下游应用，如关系抽取^[1]、问答系统^[2]、知识库的构建^[3-6].

传统的NER监督方法如BERT-CRF^[7]和指针网络^[8]严重依赖于大量的标注数据，而数据的标注过程往往既费时又费力. 因此，远程监督技术被提出用于自动生成NER的标注数据，其核心思想是识别文本中存在于知识库，如维基数据开放知识库的实体提及，并将相应类型分配给它们. 然而，使用远程监督技术会产生2类噪声：假阴性（false negatives, FNs）和假阳性（false positives, FPs）^[9]. 首先，由于知识库覆盖的范围有限，文本中并非所有正确实体都会被标注，因此会产生FNs. 其次，由于使用简单的字符串匹配来识别实体提及，知识库中实体的模糊性可能会导致FPs. 图1展示了一个远程监督标注示例，其中“PRO”指产品名称类型，“PER”指人名. 第1行是初始文本，第2行是远程监督标注，第3行是正确标注. 示例中，由于知识库的规模有限，产品实体“拖把”没有被正确匹配，这属于FNs. 此外，示例中的“包”表示一个量词，而不是一个产品，但因为知识库的模糊性被错误匹配，这属于FPs.

图 1 远程监督标注示例

Figure 1. An example of distantly supervised annotation

下载: 全尺寸图片幻灯片

为了解决上述远程监督NER的噪声问题，研究者提出了一系列噪声检测的方法. 这些方法主要可以被分为2类：一类是在训练过程中设计样本降噪策略来减小噪声对模型的负面影响. 常见的降噪策略有数据聚类^[10]、负采样^[11-12]等. 然而，这类方法仅能处理FNs噪声，仍无法解决远程监督过程中的FPs噪声. 另一类是是在训练之前设计噪声过滤手段来删除训练集中的噪声样本，该方法可以同时处理FNs与FPs这2类噪声，但是对噪声过滤的准确性有较高要求. 此外，由于噪声过滤过程的试错搜索与延迟反馈两大特征，许多研究者将其视为一个决策问题，并使用强化学习的强大决策能力来解决. 典型的方法是制定不同的奖励和策略，并使用强化学习框架训练一个噪声识别器模型^[13-14]. 然而，这类方法都以句子为单位进行噪声检测，可能会丢弃其中正确的实体标注信息，进而无法为模型提供充足的训练语料. 比如，在图1中，模型可能会因为“包”和“拖把”这2个噪声实体把整个语句删除，导致正确的实体标注信息“小明”和“钉子”也会被删除.

为此，本文提出了一种新颖的基于强化学习的远程监督NER方法，称为RLTL-DSNER（reinforcement learning and token level based distantly supervised named entity recognition）. 该方法可以从远程监督产生的噪声文本中准确识别正确实例，减少噪声实例对远程监督NER的负面影响. 具体而言，本文把强化学习框架中的策略网络中引入了标签置信度函数，为文本语句中的每个单词提供了标签置信分数. 此外，本文提出了一种NER模型预训练策略，即预训练阶段的F1分数达到85% ~ 95%时即停止训练. 该策略可以为强化学习的初始训练提供精准的状态表示和有效奖励值，帮助策略网络在训练初期以正确的方向更新其参数.

总的来说，本文的主要贡献有3点：

1）提出了一种新的基于强化学习的方法，用于解决远程监督NER任务，称为RLTL-DSNER.该方法利用策略网络与一个标签置信函数，从有噪声的远程监督数据中，以单词为单位识别正确实例，最大限度保留样本中的正确信息.

2）提出了一种NER模型预训练策略，以帮助RLTL-DSNER在训练初期就能以正确的方向更新其可学习参数，使训练过程稳定.

3）实验结果表明，RLTL-DSNER在3个中文数据集和1个英文医学数据集上都显著优于最先进的远程监督NER模型. 在NEWS数据集上，相较于现有最先进的方法，获得了4.28%的F1值提升.

1. 相关工作

传统的NER方法是基于人工标注的特征，常用的方法有最大熵^[15]、隐马尔可夫模型^[16]、支持向量机^[17]和条件随机场^[18]. 近年来，深度神经网络的发展使其成为研究的主流. 深度神经网络自动提取隐藏的特征，从而使研究人员不用再把重心放在特征工程中.

预训练语言模型BERT^[19]被提出后，以其动态词向量获取能力强、通用性强两大优点备受研究者关注，许多方法都以其作为编码器. Souza等人^[7]构建了BERT-CRF模型，在BERT的基础上，使用CRF层学习句子的约束条件，提升句子的整体标注效果. Hao等人^[8]使用了基于指针网络的模型结构，提升了模型对实体边界的敏感性，并解决了现实中普遍存在的重叠实体问题. 除了对模型架构的设计，许多研究将重点放在了额外特征的探索和挖掘中. 罗凌等人^[20]在模型中引入了包含汉字内部结构的笔画信息，Xu等人^[21]融合了中文文本中的词根、字符以及单词信息，这些额外特征的引入进一步提高了模型的表现.

虽然文献[7-8, 20-21]方法都在NER任务上取得了不错的效果，然而它们都依赖于大量的人工标注数据. 在缺乏人工标注数据的情况下，为了缓解数据不足带来的负面影响，许多研究者提出了远程监督标注方法. Shang等人^[22]提出了AutoNER模型，采用“Tie or Break”标注方案代替传统的BIO方案或BIOES方案. 同时，他们引入字典裁剪方法和高质量的短语来实现远程监督NER，并在3个基准数据集上取得了最先进的F1值. 继Shang等人^[22]之后，Wang等人^[23]在不完全字典的帮助下实现字符串匹配，以检测可能的实体. 此外，他们利用匹配实体和不匹配候选实体的上下文相似性来检测更多的实体. 相比常规仅使用精准字符串匹配生成自动标注的远程监督方法，通过词典拓展、匹配策略修改等方法，提高了数据质量. 然而，这些方法的效果好坏与他们使用的词典质量有密切关系. 在词典质量较差的情况下，依然无法避免自动标注产生的FNs与FPs这2类噪声标注.

针对噪声标注问题，主要有2类方法：

1）在训练过程中设计样本降噪策略来减小噪声对模型的负面影响. 高建伟等人^[24]利用外部知识图谱当中的结构化知识和文本语料中的语义知识，设计了一种实体知识感知的词嵌入表示方法，丰富句子级别的特征表达能力.Lange等人^[10]建议利用数据特征对输入实例进行聚类，然后为聚类计算不同的混淆矩阵.Peng等人^[25]将远程监督NER任务定义为正样本无标签学习问题，其中正样本由匹配的实体组成，非实体单词构成无标签数据. 为了扩展字典，他们使用修改的AdaSampling算法来迭代地检测可能的实体.Liang等人^[26]提出了一个2阶段框架，利用预训练模型的优势解决远程监督NER任务. 他们引入了一种自训练策略，将微调的BERT作为教师和学生模型，并使用教师模型生成的伪标签对学生模型进行训练.Li等人^[11]引入负采样以缓解噪声未标注实体的影响. 然而，这类方法仅能处理FNs噪声，仍无法解决FPs噪声.

2）在训练之前设计噪声过滤手段来删除训练集中的噪声样本. 由于噪声过滤过程的试错搜索与延迟反馈两大特征，许多研究者使用强化学习技术实现此类方法. 此类方法发挥了强化学习的强大决策能力，识别远程监督产生的噪声样本，一齐解决假阴性与假阳性实体问题.Qin等人^[27]使用关系抽取器的F1值作为策略网络的奖励. Feng等人^[28]使用关系提取器的预测概率计算奖励. 受其启发，一些研究人员^[13-14]将强化学习和CRF层的拓展Partial CRF结合起来完成远程监督NER的任务. 然而，他们的方法中，策略网络模型架构都较简单，仅使用MLP建模，识别能力较弱. 此外，都以完整的句子样本为单位进行识别，导致句子中的部分正确信息被丢弃.

2. 方法概述

本节首先给出问题的形式化定义，然后概述本文提出的基于强化学习的远程监督方法NER.

2.1 问题定义

NER通常被建模为序列标注任务，并使用BIO模式对样本进行标注. 给定文本 ${\mathcal{S}} = \left[{{{\textit{s}}_1},{{\textit{s}}_2}, … ,{s_n}} \right]$ ，其中 $n$ 表示 $S$ 中单词的数量，NER的目的是将标签序列 $T = \left[ {{t_1},{t_2}, … ,{t_n}} \right]$ 分配给 $S$ ，其中 ${t_i} \in \left\{ {{{\mathrm{B}}_X},{{\mathrm{I}}_X},{\mathrm{O}}} \right\}$ . B和I分别表示实体的首部和后续部分；X表示对应实体提及的类型；O表示该单词不属于任何类型的实体. 需要注意的是，类型往往是预先定义的. 与许多研究^{[13-14,29-30]}类似，本文NER任务的数据集包括少量人工标注的数据集合 $H$ 和大量通过远程监督获取的数据集合 $D$ . 具体数据量见表1.

表 1 数据集统计

Table 1. Statistics of Datasets

数据集	训练集		验证集条数	测试集条数
数据集	人工标注条数	远程监督条数	验证集条数	测试集条数
EC	1200	2500	400	800
NEWS	3000	3722	3328	3186
CCKS-DS	1723	5869	1024	2238
BC5CDR	4560	15000	4581	4797

下载: 导出CSV

| 显示表格

2.2 算法框架

如图2所示，本文提出的RLTL-DSNER模型主要包括2阶段：模型预训练阶段和迭代训练阶段.

图 2 RLTL-DSNER的主要框架

Figure 2. The main framework of RLTL-DSNER

下载: 全尺寸图片幻灯片

1）在模型预训练阶段，拟通过少量人工标注的数据来预训练NER模型，使得NER模型在训练集上的F1值达到某一阈值 $\alpha$ （ $\alpha$ 一般取值为85% ~ 95%）. 这一做法的目的是帮助NER模型在迭代训练阶段的初期为策略网络生成高质量的状态和奖励.

2）在迭代训练阶段，以深度强化学习作为框架，提出了单词级别的噪声检测模型. 具体而言，首先通过预训练的NER模型为文本数据生成向量表示和标签概率分布，并将两者作为状态输入到策略网络. 策略网络利用卷积神经网络（convolutional neural network, CNN）、标签置信函数以及多层感知器（multilayer perceptron, MLP）进行单词级别的噪声检测，判断文本数据中的各个单词是否被保留，如图2中删除了噪声实体“鸽子蛋”与“机械”，因为“鸽子蛋”算作一个产品而不是“鸽子”，“机械”算作描述产品“键盘”的规格，保留了正确实体“陈明亮”“键盘”“北京”. 随后，将保留的数据与人工标注的数据进行合并，联合训练NER模型. 同时，NER模型为保留的数据进行打分，并将其作为奖励来更新策略网络参数. 上述流程不断循环迭代，直到达到预定义的轮次.

3. NER模型预训练

在RLTL-DSNER中，NER模型主要用于状态与奖励的生成，其性能将会直接影响噪声检测结果. NER模型若不进行预训练，在迭代训练的初期往往无法为远程监督文本语句生成高质量的状态和奖励，可能导致策略网络被误导到错误的更新方向.

本文向EC数据集人工标注集合中手动添加噪声数据来研究深度神经网络的学习特性. 具体来说，本文将数据集合中一定比例数据的标注实体随机替换为其他实体，并将其视为噪声数据，其余数据视为干净数据. 图3展示了添加不同比例噪声情况下模型的训练情况.

图 3 人工往数据集中添加不同比例噪声后的训练情况

Figure 3. The training situation after artificially adding different proportions of noise to the dataset

下载: 全尺寸图片幻灯片

由图3可以看出，在训练过程中，模型在干净数据上的F1值会先得到大幅度提升，当干净数据上的F1值较大时，模型才会渐渐提升其在噪声数据上的F1值. 这个现象表明了深度神经网络在训练过程中通常先学习简单且通用的数据模式，然后逐渐强制拟合噪声数据. 换言之，模型的训练F1值达到某一阈值时，其在干净数据上的F1值较高，而在噪声数据上的F1值较低，此时模型将获得最佳性能. 因此，本文拟采用上述方法对NER模型进行预训练. 由于此阶段采用的数据集由人工标注，噪声较少，阈值 $\alpha$ 一般取值为85% ~ 95%.

给定人工标注数据集合 $H$ ，本文定义 $\left\{ {\left( {S_m^H,T_m^H} \right)} \right\}_{m = 1}^{{M_H}}$ 作为 $H$ 中的实例，其中 ${M_{{H}}}$ 表示集合大小，即包含的样本个数， $S_m^H$ 与 $T_m^H$ 分别表示集合 $H$ 中第 $m$ 个样本的文本和标签序列. 此外，假定NER模型用 $f\left( {\boldsymbol{\theta}} \right)$ 表示，其中 ${\boldsymbol{\theta }}$ 表示模型的参数，当 $f\left( {\boldsymbol{\theta}} \right)$ 拟合H中的实例的F1值达到阈值时，NER模型停止预训练.

上述预训练方式与早期停止（early stop）策略相似. 但两者不同之处在于早期停止是指当验证集上的损失值增加或训练集的F1值达到99.9%时，模型停止训练. 本文采用的预训练方法更像是“非常早期停止”. 相对于早期停止策略，本文的预训练方式有2点优势：

1）即使是人工标注的数据集，也难免存在噪声数据. 因此当训练F1值达到85% ~ 95%时，模型已经学到大部分的数据模式；而继续学习，只会强制记忆噪声数据，损害模型性能.

2）预训练过程仅有少量的数据样本，当模型训练到F1值达到99%时，很容易导致过拟合，降低了模型的泛化能力和噪声检测能力.

5.3节的实验表明，通过上述预训练方式的NER模型具有将正确样本和噪声样本分离的能力，有助于策略网络在迭代训练初期正确更新.

4. RLTL-DSNER中的强化学习方法

本节主要介绍RLTL-DSNER中的3个组件，即状态、动作和奖励. 与常规的基于强化学习的噪声过滤方法不同的是，RLTL-DSNER在策略网络中引入了一个标签置信函数，其结合噪声判定模型识别正确实例. 需要注意的是，实例的识别是单词级别的，而不是传统样本级别的.

4.1 状　态

由于训练数据中的输入句子是相互独立的，仅将句子的信息作为当前状态很难满足马尔可夫决策过程（Markov decision process, MDP）.RLTL-DSNER将通过NER模型获得的当前句子表示与标签概率进行拼接，以此作为强化学习智能体的状态. 需要注意的是NER模型是通过历史所选择的句子进行参数更新的. 换言之，第 $i$ 步的状态融入了前 $i - 1$ 步的状态与动作信息. 因此，RLTL-DSNER建模方式满足马尔可夫决策过程，即未来状态的条件概率分布仅依赖于当前状态，而与过去状态无关，因为过去状态的信息都已经隐式融入到当前状态了.

在RLTL-DSNER中，状态由2部分组成：当前文本的表示和其各个单词用远程监督标注标签的概率. 具体而言，给定文本 $S = [ {{s_1},{s_2}, … ,{s_n}} ]$ ，本文首先将S与特殊字符 $[ {{{\mathrm{cls}}} } ]$ 和 $[ {{{\mathrm{sep}}} } ]$ 进行拼接，即 $[ {{{\mathrm{cls}}} } ];S;[ {{{\mathrm{sep}}} } ]$ ，并输入到大规模预训练语言模型中（如BERT）. 其次，取语言模型中最后一层隐藏状态即 $\mathcal{{\boldsymbol{S}}} = ( {{{\boldsymbol{s}}_1},{{\boldsymbol{s}}_2}, … ,{{\boldsymbol{s}}_n}})$ 作为文本 $S$ 的语义表示，其中 ${{{\boldsymbol{s}}}}_{i} \left(i=1,2,\dots ,n\right)$ 是单词 ${s_i}$ 的隐藏状态. 针对各单词 ${s_i}$ 的标签概率，本文首先将上述的文本表示输入到全连接层中，为每个单词获取所有标签的概率即 ${\mathcal{{\boldsymbol{P}}}_{{s_i}}} = ( {{{p}_{{t_1}}},{{p}_{{t_2}}}, … ,{{p}_{{t_L}}}} )$ ，其中 $L$ 表示标签类型的数量， ${{p}_{{t_j}}}$ 表示 ${t_j}$ 是单词 ${s_j}$ 的标签的概率. 其次，根据上述的标签概率分布，为每个单词取出远程监督自动标注标签的概率. 因此，可得到文本中所有单词的标签概率，定义为 ${\boldsymbol{P}} = ( {{p_{{s_1}}},{p_{{s_2}}}, … ,{p_{{s_n}}}} )$ ，其中 ${p_{{s_i}}}$ 是单词 ${s_i}$ 的标签概率.

4.2 动　作

以往基于强化学习的噪声检测往往定义样本的取舍作为动作^[8,10,27-28]，但这会丢弃大量正确的实体信息. 因此，在RLTL-DSNER中，本文为文本中的每个单词定义一个动作 ${a_i} \in \left\{ {0,1} \right\}, \left( {i = 1,2, … ,n} \right)$ ，其中 ${a_i} = 0$ 表示丢弃当前单词， ${a_i} = 1$ 表示保留当前单词. 为了这一目标，本文设计了由2个组件组成的策略网络：噪声实体判别器和标签置信度（tag confidence, TC）函数.

噪声实体判别器是由CNN和MLP所构成，其输入是文本语句表示 $\mathcal{{\boldsymbol{S}}}$ 和其所有单词的标签概率 ${\boldsymbol{P}}$ ，输出是每个单词保留的概率. 这一过程形式化定义为

$\begin{split} & {\boldsymbol{\pi}} \left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{{\theta}} } \right) = prob\left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{{\theta }}} \right) =\\ &a\sigma \left( {\left( {\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right) \oplus {\boldsymbol{P}}} \right){{\boldsymbol{W}}_{\rm{m}}} + {\boldsymbol{b}}} \right) + \\ &\left( {1 - a} \right)\left( {1 - \sigma \left( {\left( {\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right) \oplus {\boldsymbol{P}}} \right){{\boldsymbol{W}}_{\rm{m}}} + {\boldsymbol{b}}} \right)} \right), \end{split}$

(1)

其中 ${{\boldsymbol{W}}_{\rm{c}}}$ 是卷积核的可学习参数， ${\mathrm{c}}$ 表示CNN网络， ${{\boldsymbol{W}}_{\rm{m}}}$ 和 ${\boldsymbol{b}}$ 是线性层的参数， ${\mathrm{m}}$ 表示MLP网络， $\sigma \left( \cdot \right)$ 是具有参数 ${{\theta}} =\left\{{{\boldsymbol{W}}}_{{\mathrm{c}}},{{\boldsymbol{W}}}_{\rm{m}},{\boldsymbol{b}}\right\}$ 的 $sigmoid$ 函数， $a_{ }\in\left\{0,1\right\}$ 表示动作， $\otimes$ 表示卷积运算， $\oplus$ 表示矩阵拼接运算. 整体运算流程为：文本语句表示 $\mathcal{{\boldsymbol{S}}}$ 和其所有单词的标签概率 ${\boldsymbol{P}}$ 作为噪声实体判别器的输入，先通过CNN对文本语句表示 $\mathcal{{\boldsymbol{S}}}$ 作卷积运算 $\otimes$ ，得到文本语句的整体表示；随后，将结果 $\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right)$ 与所有单词的标签概率 ${\boldsymbol{P}}$ 进行矩阵拼接，并通过线性层得到 $\left( {\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right) \oplus {\boldsymbol{P}}} \right){{\boldsymbol{W}}_{\rm{m}}} + {\boldsymbol{b}}$ ；最终将结果输入 $sigmoid$ 函数，得到每个单词的保留概率，即动作分别为0和1的概率.

通常情况下，仅使用噪声实体判别器是不充分的，原因有：在训练样本量少和数据不平衡的情况下，NER模型会倾向分配较高的概率给样本中出现次数较多的标签，分配较低的概率给出现次数较少的标签. 换言之，当数量较少的标签的预测概率有较大提升时，噪声实体判别器可能会选取另一频繁出现的标签（预测概率较高），而忽略标签概率的相对提升.

一种直接的做法是根据文本的长度进行归一化，凸显标签概率的相对提升. 然而，不同文本的长度是不一致的，导致无法定义统一的阈值进行单词的筛选. 因此，本文采用TC函数对单词标签归一化. 具体而言，给定一个批次的语句 $\left\{ {{S_1},{S_2}, … ,{S_m}} \right\}$ ，其中第 $i$ 条文本 ${S_i} = [ {{s_1},{s_2}, … ,{s_n}} ]$ ，本文首先定义单词 ${s_j}( j = 1,2, … , n )$ 的标签预测为 $l$ 的概率为 ${p_{i,j,l}}$ ，并定义 ${q_l}$ 为所有文本中各个单词标签预测为 $l$ 的概率的平方和，即

${q}_{l}=\displaystyle\sum _{i=1}^{m}\displaystyle\sum_{j=1}^{n}{p}_{i,j,l}^{2} ,\quad l=1,2,… ,L ,$

(2)

其中 $L$ 表示标签类型的数量.

然后，对同一批次中每个单词的标签预测概率，通过 ${q_l}$ 归一化，并取出所有标签中的最大值作为文本 ${S_i}$ 中第 $j$ 个单词 ${s_j}$ 的标签置信分数，定义为

$\begin{array}{*{20}{c}} {con{f_{{S_{i,j}}}} = \max \left( {\left[ {\dfrac{{p_{i,j,l}^2/{q_l}}}{{\displaystyle\sum\limits_{k = 1}^L {\left( {p_{i,j,k}^2/{q_k}} \right)} }}} \right]_{l = 1}^L} \right)} \end{array} .$

(3)

从本质上来说，该标签置信分数可看作归一化后的标签最大预测概率，本文通过上述手段进行归一化，为了削弱仅使用噪声实体判别器的不充分性，凸显标签概率的相对提升.

值得注意的是，本文在 ${q_l}$ 的定义以及归一化的过程中都对单词 ${s_j}$ 的标签预测概率 ${p_{i,j,l}}$ 取平方处理，由于概率的取值范围为 $\left[ {0,1} \right]$ ，且平方函数在该范围内的导数单调递增，有助于筛选高置信度单词，提高筛选质量.

对于每条文本，本文使用噪声实体判别器与TC函数确定是否保留文本中的每个单词：

$a_{i,j}=\left\{\begin{aligned} & 1,\quad conf_{S_{i,j}} > \varphi\; \mathrm{且}\; \pi_{i,j}\left(1|\mathcal{\boldsymbol{S}};\boldsymbol{P};\boldsymbol{\theta}\right) > 0.5, \\ & 0,\quad\mathrm{其他},\end{aligned}\right.$

(4)

其中 $\varphi$ 是预先设定的TC阈值.

展示了针对给定文本的动作选择，其中最终动作“0”表示丢弃该单词，“1”表示保留该单词. 通过远程监督对初始文本自动标注，生成人物实体“小明”与产品实体“包”“钉子”，在得到文本的句子表示和标签概率后，通过策略网络分别得到噪声实体判别器与TC函数的输出，并根据阈值筛选得到相应结果. 噪声实体判别器输出阈值为 $\phi=$ 0.5进行筛选，TC函数输出阈值自定义（中阈值 $\varphi$ =0.9）. 根据噪声实体判别器输出 ${\boldsymbol{\pi}}$ ，将丢弃单词“包”，根据TC函数输出 ${\boldsymbol{conf}}$ ，将丢弃单词“拖”“把”. 最终结合2个输出，得到最终动作为丢弃单词“包”“拖”“把”. 图4中可以看出，TC函数帮助识别出了噪声实体判别器无法筛选出的噪声实体，相比通常情况下仅使用噪声实体判别器进行筛选，增强了策略网络的噪声识别性能.

图 4 动作选择示例

Figure 4. An example of action selection

下载: 全尺寸图片幻灯片

4.3 奖　励

在策略网络的每次迭代中，当某一批次文本语句的所有动作执行完后，策略网络会接受以批次为单位的奖励. 该奖励r与NER模型的性能有关.

$\begin{array}{c}r=\dfrac{1}{\left|{\cal{B}}\right|}\displaystyle\sum_{S\in {\cal{B}}}\dfrac{1}{{\displaystyle \sum _{i=1}^{N}{a}_{i}}}\displaystyle\sum _{i=1}^{ N}\left({a}_{i}\;\mathrm{ln}\;{p}_{i}\left(T|S\right)\right)\end{array} \text{，}$

(5)

其中 $\mathcal{B}$ 表示一个批次的文本，即一次选取的所有文本， $S$ 表示批次中的任意文本，文本长度为 $N$ ， $i$ 表示文本中的单词下标， $T$ 表示标注序列，首先得到文本 $S$ 输入NER模型后，预测标签序列为标注序列 $T$ 的概率，并通过对该单词执行的动作 ${a_i} \in \left\{ {0,1} \right\}$ 来判断是否要将第 $i$ 个单词对应的值 ${p_i}\left( {T|S} \right)$ 加入计算， $\displaystyle \sum\limits _{i=1}^{ N}{a}_{i}$ 表示在句子层面，根据所选择单词的数量进行平均. 最终，根据批次大小 $\left| \mathcal{B} \right|$ 平均所有文本的反馈来获得最终奖励. 在式（5）定义下，模型保留单词的标注标签，预测概率越高，奖励越大，以此来衡量动作选择的正确程度. 策略网络由REINFORCE算法^[31]更新为：

$\begin{array}{*{20}{c}} {{\boldsymbol{\theta}} \leftarrow {\boldsymbol{\theta}} + \eta r\dfrac{\partial }{{\partial {\boldsymbol{\theta}} }}\ln {\boldsymbol{\pi}} \left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{\boldsymbol{\theta}} } \right)} \end{array} \text{，}$

(6)

其中 ${\boldsymbol{\theta}}$ 表示策略网络的可学习参数， $\eta$ 表示学习率，是一个超参数， $\dfrac{\partial }{{\partial {\boldsymbol{\theta}} }}$ 表示可学习参数 ${\boldsymbol{ \theta}}$ 的梯度， ${\boldsymbol{\pi}} \left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{{\theta }}} \right)$ 表示策略网络对文本语句表示 $\mathcal{{\boldsymbol{S}}}$ 和句中所有单词的标签概率 ${\boldsymbol{P}}$ 的输出结果.

5. 实　　验

本节首先介绍了数据集、基线模型、评估指标以及参数设置；随后，详细对比了不同模型在中英文数据集上的结果；最后，对模型进行详细分析，如进行消融实验和NER模型预训练，并给出案例分析.

5.1 实验设置

1）数据集. 本文拟采用3个中文数据集EC^[13]，NEWS^[13]，CCKS-DS和1个英文NER数据集BC5CDR^[32]. 下面详细介绍这4个数据集.

① EC是一个中文基准数据集，共有5种标签类型：品牌（pp）、产品（cp）、型号（xh）、原料（yl）和规格（gg）.

② NEWS是一个中文基准数据集. 该数据集由MSRA^[33]生成，只有一种实体类型：人名（PER）.

③ CCKS-DS由一个名为CCKS2017的开源中文临床数据集构建，它包含5种类型的医疗实体：检查和检验、疾病和诊断、症状和体征、治疗、身体部位.

本文从CCKS2017的数据集中提取了约1700个实例作为人工标注的训练集. 其余的大约5800个原始句子被收集为远程监督集，并通过远程监督方法进行标注. 远程监督使用的知识库为人工标注训练集中的所有特殊实体.

④ BC5CDR是一个英文生物医学领域基准数据集，它包含2种类型的实体：疾病（disease）和化学品（chemical）. 本文从Shang等人^[22]提供的原始文本库中选取了15000条文本，并使用其提供的词典对这些语料库进行远程监督自动标注.

这4个数据集的统计数据如表1所示，每个数据集都包含人工标注的小样本数据和远程监督生成数据.

2）基线模型. 本文共对比了DSNER^[13]，NER+PA+RL^[14]，LexiconNER^[25]，Span-based+SL^[34]，NegSampling-NER^[11]，NegSampling-variant^[12]，MTM-CW^[35]，BioFLAIR^[36]，Spark-Biomedical^[37]等方法.

① DSNER与NER+PA+RL都利用部分标注学习的方法来解决标签标注不完整的问题，并设计基于强化学习的实例选择器，以句子级别筛选噪声.

② LexiconNER将远程监督NER任务定义为正样本无标签学习问题，并使用自采样算法迭代地检测可能的实体，降低了对词典质量的要求.

③ NegSampling-NER在训练过程中采用负采样策略，以减少训练过程中未标记实体的影响.

④ NegSampling-variant在负采样的基础上，通过自适应加权抽样分布，处理错抽样和不确定性问题.

⑤ Span-based+SL采用跨度级特征来更新远程监督的字典.

⑥ MTM-CW通过一个可重用的BiLSTM层对字符级特征进行建模，并利用多任务模型的优势解决缺乏监督数据的问题.

⑦ BioFLAIR是一个使用额外的生物医学文本预训练而成的池化上下文嵌入模型.

⑧ Spark-Biomedical使用混合双向LSTM和CNN的模型架构，自动检测单词和字符级别的特征.

⑨ RLTL-DSNER（句子级别）是本文方法RLTL-DSNER的一个变体. 其基于本文提出的模型架构，以句子级别识别正确实例，TC函数修改为式（7），采用句子中各单词标签置信分数的最小值作为该句子的整体标签预测分数.

$\begin{array}{*{20}{c}} {con{f_S} = \mathop {\min }\limits_{{s_i}} \left( {con{f_{{s_i}}}} \right)} \end{array} .$

(7)

3）评估指标. 本文报告了3个评估指标：准确率（P）、召回率（R）和F1值（F1）. 需要注意的是仅当预测实体与标注实体完全匹配时，才将其视为正确实体. 在训练过程中，本文保存模型在验证集上F1最高的参数，并报告其在测试集上的各个指标.

4）参数设置. 对于每个数据集，本文采用相同的参数设置. 在第1阶段，训练的F1值限制为90%. 在第2阶段，优化器采用随机梯度下降；策略网络和NER模型的学习率均为 $1 \times {10^{ - 5}}$ ；每一网络层的Dropout设置为0.3，迭代次数设为80；式（4）中的置信度阈值 $\varphi$ 设置为0.9. 本文使用的标注方法为BIO标注.

对于BC5CDR数据集，本文使用“allenai/sciBERT-scivocab-uncased^[38]”作为预训练模型（PLM）. 对于其他数据集，PLM使用“BERT-base-chinese”. 报告的结果采用5次结果的平均值，以减少随机性.

5.2 模型对比

为了验证模型的有效性，本文拟在2个通用领域数据集EC和NEWS上进行实验. 实验结果如表2和表3所示. 从表2~3中可以得出3点结论：

表 2 EC数据集的主要结果

Table 2. Main Results on EC Dataset %

模型	F1	P	R
DSNER	61.45	61.57	61.33
NER+PA+RL	63.56	61.86	65.35
LexiconNER	61.22
Span-based+SL	65.70	67.55	63.94
NegSampling-NER	66.17
NegSampling-variant	67.03
RLTL-DSNER（本文，句子级别）	68.47	67.75	69.21
RLTL-DSNER（本文）	69.34	68.36	70.35

下载: 导出CSV

| 显示表格

表 3 NEWS数据集的主要结果

Table 3. Main Results on NEWS Dataset %

模型	F1	P	R
DSNER	79.22	76.95	81.63
NER+PA+RL	80.04	79.88	80.20
LexiconNER	77.98
Span-based+SL	85.23	85.63	84.84
NegSampling-NER	85.39
NegSampling-variant	86.15
RLTL-DSNER（本文，句子级别）	87.95	87.98	87.92
RLTL-DSNER（本文）	90.43	90.01	90.87

下载: 导出CSV

| 显示表格

1）本文提出的RLTL-DSNER获得了最好的性能. 特别地，RLTL-DSNER在EC数据集上获得了2.31个百分比的性能提升，并在NEWS数据集上获得了4.28个百分比的性能提升.

2）与句子级别的噪声过滤方法相比（如DSNER，NER+PA+RL），即使在句子级别的选择策略下，本文提出的噪声过滤方法都获得了更好的效果，说明策略网络中引入的TC函数的有效性.

3）RLTL-DSNER相较于RLTL-DSNER（句子级别）效果更好，说明以单词为单位识别正确实例可以最大限度保留样本4~5中的正确信息，提升模型性能.

此外，为了进一步验证模型的通用性，本文拟在CCKS-DS（中文）和BC5CDR（英文）2个医疗领域数据集中进行实验. 实验结果如表4和表5所示，从表4~5中可以得出2点结论：

表 4 CCKS-DS数据集的主要结果

Table 4. Main Results on CCKS-DS Dataset %

模型	F1	P	R
NER+PA+RL	78.38	79.56	77.23
NegSampling-NER	82.72	83.21	82.24
RLTL-DSNER（句子级别）	83.97	79.76	88.66
RLTL-DSNER	84.97	81.47	88.77

下载: 导出CSV

| 显示表格

表 5 BC5CDR数据集的主要结果

Table 5. Main Results on BC5CDR Dataset %

模型	F1	P	R
MTM-CW	88.78	89.10	88.47
NER+PA+RL	88.01	87.00	89.04
BioFLAIR	89.42
Spark-Biomedical	89.73
RLTL-DSNER（句子级别）	88.92	88.72	89.13
RLTL-DSNER	90.21	89.64	90.78

下载: 导出CSV

| 显示表格

1）无论是在中文数据集还是英文数据集，RLTL-DSNER在F1值上达到了新的SOTA，说明了该模型具有良好的语言适配性.

2）本文的RLTL-DSNER相较于医学领域的模型，如BioFLAIR，Spark-Biomedical依然获得了小幅度的F1值提升，说明该模型具有较好的领域适配性.

5.3 数据分析

本节拟通过消融实验来验证模型每一模块的有效性，并进一步验证预训练方式的有效性.

1）消融实验. 本节将在4个数据集上进行消融实验. 实验条件设置为：

① 不使用RL框架，只利用人工标注的数据集作为训练集来训练NER模型，记为“baseline: H”；

② 使用人工标注和远程监督的数据集作为训练集，而不利用RL框架，记为“baseline: H+D”；

③ 不采用预训练策略，即训练阶段在人工数据集上的F1值达到近100%才进入第2阶段的迭代训练，记为“w/o HT”.

实验结果如表6所示，从表6中得出2点结论：

表 6 消融实验

Table 6. Ablation Study %

模型	数据集	F1	P	R
baseline:H	EC	68.03	67.11	68.97
baseline:H+D		63.15	66.95	59.76
w/o HT		68.81	68.32	69.30
RLTL-DSNER（本文）		69.34	68.36	70.35
baseline:H	NEWS	87.34	87.09	87.58
baseline:H+D		81.86	84.28	79.58
w/o HT		88.73	88.43	89.04
RLTL-DSNER（本文）		90.43	90.01	90.87
baseline:H	CCKS-DS	80.25	75.63	85.47
baseline:H+D		70.85	63.33	80.39
w/o HT		83.95	80.75	87.42
RLTL-DSNER（本文）		84.97	81.47	88.77
baseline:H	BC5CDR	86.47	84.40	88.65
baseline:H+D		87.79	88.03	87.55
w/o HT		89.77	88.58	91.00
RLTL-DSNER（本文）		90.21	89.64	90.78

下载: 导出CSV

| 显示表格

① 在4个数据集上，RLTL-DSNER模型在所有指标上都取得了最佳的效果，说明模型中的每一模块（包括NER模型预训练、远程监督数据和单词级别的噪声检测）都是十分重要的.

② 在3种基线中，baseline:H+D模型的效果是最差的，说明远程监督自动生成数据中存在大量的噪声实例. 特别地，在CCKS-DS数据集中F1值下降了9.40个百分比. 而在BC5CDR数据集上，F1值获得了1.32个百分比的提升，这是由于本文使用了Shang等人^[22]提供的词典进行自动标注，词典质量较高，噪声较少，因此并没有很大程度影响模型的性能.

2）预训练NER模型的有效性. 为了说明本文采用预训练方式的有效性，将NER模型的F1值训练到90%的方式，拟与将模型的F1值训练到近100%的方式进行对比. 这2种方式的F1值是迭代训练过程中的前20个迭代次数在测试集上进行测试得到的. 实验结果如图5所示，从图5中可以得出2点结论：

图 5 不同策略下相同模型的初期训练表现

Figure 5. Initial training performance of the same model under different strategies

下载: 全尺寸图片幻灯片

① 使用本文的预训练方式，RL模型的训练较为稳定，仅在NEWS数据集上出现小幅度的性能下降. 这说明了该预训练方式避免了模型的过拟合现象，可以为RL模型在训练初期提供高质量的文本表示和反馈奖励.

② 将NER模型训练到近100%的情况下，RL的训练过程十分不稳定. 在4个数据集上都出现了十分严重的性能下降，在EC，NEWS，BC5CDR数据集上，经过5个迭代次数后训练趋于稳定，而在CCKS-DS数据集上，模型直至10个迭代次数后训练才逐渐稳定. 这是由于NER模型对小样本的人工标注数据集过拟合，记住了许多训练样本. 此外，模型也学习到了人工标注数据集中难免存在的部分标注噪声. 因此导致其生成的句子表示和奖励质量不高.

5.4 案例分析

本节拟通过具体的数据实例与模型预测结果，进一步说明本文提出的RLTL-DSNER的有效性.

图6显示了远程监督数据中噪声检测的7个示例，动作一栏表示在句子级别的动作选择策略下模型的输出结果，动作“0”表示丢弃该句子，动作“1”表示保留该句子.

图 6 远程监督数据的实例选择示例

Figure 6. Instances selection examples for the distantly supervised data

下载: 全尺寸图片幻灯片

从图6可以看出，本文提出的模型准确识别出了FNs如“梁连起（人名）”“等大等圆（症状和体征）”“全脂（产品）”“农夫山泉（品牌）”“天然（产品）”，FPs如“金灿灿（无类型）”“面色（无类型）”. 这些示例表明，本文的方法能够精准地在单词级别进行噪声检测，选择正确的实体，并丢弃有噪声的实体，最大限度保留样本中的正确信息.

此外，根据相同示例下句子级别选择策略的预测结果，可以看出在此策略下会丢弃许多正确信息，如第5个句子中的“纯牛奶（产品）”、第7个句子中的“矿泉水（产品）”，同时会使模型学习到许多噪声信息，如第1个句子中的“梁连起”、第4个句子中的“面色（身体部位）”等，降低了模型性能.

图7展示了3个中文数据集中部分人工标注实例，可以看到“厨房纸（产品）”“王太守则（人名）”“肠管（身体部位）”“干湿性啰音（检查和检验）”这些实体并没有被标注出. 此现象说明了人工标注数据集耗时耗力，工作量庞大，但是依然无法避免小部分由于人为疏漏或标注人员间判断标准的差异引入的噪声实体，再次证明了我们提出的NER模型预训练策略的有效性.

图 7 人工标注数据示例

Figure 7. Instances of manual annotation data

下载: 全尺寸图片幻灯片

6. 结　　论

本文提出了一种解决远程监督NER任务中噪声标注问题的新方法RLTL-DSNER. 其在强化学习框架中的策略网络引入了TC函数，为文本语句中的每个单词提供了标签置信分数，并使用单词级别的实例选择策略以最大限度保留样本中的正确信息，减少噪声实例对远程监督NER的负面影响. 此外，本文提出了一种NER模型预训练策略，该策略可以为强化学习的初始训练提供精准的状态表示和有效奖励值，帮助策略网络在训练初期以正确的方向更新其参数. 在3个中文数据集和1个英文医学数据集上的大量实验结果验证了RLTL-DSNER的优越性，在NEWS数据集上，相较于现有最先进的方法，获得了4.28%的F1值提升.

作者贡献声明：王嘉诚和王凯完成了算法思路设计、实验方案制定，并完成实验和论文撰写工作；王昊奋提供论文撰写指导、技术支持；杜渂和何之栋完成了相关文献梳理、实验数据整理，并讨论方案；阮彤完成了论文框架设计、整体内容规划；刘井平提供论文撰写指导和完善实验方案.

图 1 威胁模型

Figure 1. Threat model

下载: 全尺寸图片幻灯片

图 2 Re-Shuffle协议流程

Figure 2. Protocol process of Re-Shuffle

下载: 全尺寸图片幻灯片

图 3 参数选择

Figure 3. Parameter selection

下载: 全尺寸图片幻灯片

图 4 数据位置生成

Figure 4. Data location generation

下载: 全尺寸图片幻灯片

图 5 诚实参与者设置下的全局模型准确率

Figure 5. Global model accuracy with honest participants setting

下载: 全尺寸图片幻灯片

图 6 20%恶意参与者设置下的全局模型准确率

Figure 6. Global model accuracy with 20% malicious participants setting

下载: 全尺寸图片幻灯片

图 7 参与者不掉线情况下服务器计算时间开销对比

Figure 7. Comparison of server computing time cost when no participant is offline

下载: 全尺寸图片幻灯片

图 8 不掉线情况下参与者计算时间开销对比

Figure 8. Comparison of participant computing time cost when no participant is offline

下载: 全尺寸图片幻灯片

图 9 参与者掉线20%情况下服务器计算时间开销对比

Figure 9. Comparison of server computing time cost when 20% participants are offline

下载: 全尺寸图片幻灯片

图 10 参与者掉线20%情况下参与者计算时间开销对比

Figure 10. Comparison of participant computing time cost when 20% participants are offline

下载: 全尺寸图片幻灯片

表 1 符号定义

Table 1 Notations Definition

符号	定义
$PS$	参数服务器
$CA$	证书认证机构
${P_i}$	第 $i$ 个参与者
$U$	在线参与者列表
${N_P}$	参与者的数量
${N_{{\rm{drop}}} }$	掉线参与者数量
$W_i^T$	参与者P_i在T轮的本地训练模型
$W_{\rm{g}}^T$	在T轮的全局模型
$G_i^T$	参与者P_i在T轮的梯度数据
$\text{α}$	学习率
$k$	用户可选位置个数
$s$	模型位置
${L_W}$	模型列表
$L$	请求列表
$t$	秘密分享阈值
${r_i}$	参与者 ${P_i}$ 的模型掩码
${y_{i,j}}$	${P_i}$ 发送给 ${P_j}$ 的 ${r_i}$ 秘密分享份额
$(p{k_{\rm{p}}},s{k_{\rm{p}}})$	参数服务器的公私钥
$(p{k_{{i} } },s{k_{i } })$	参与者 ${P_i}$ 的公私钥

下载: 导出CSV

表 2 现有工作对比

Table 2 Comparison of Existing Work

方案	梯度隐私	毒化攻击防御扩展	抗共谋	隐私保护方法	掉线恢复
PPDC	√	√	√	源匿名	×
PPDL	√	×	×	同态加密
PPML	√	×	√	秘密分享	√
EPFDL	√	×	√	差分隐私/ 同态加密
Re-Shuffle	√	√	√	不经意传输/ 秘密分享	√
注: "√"表示具有特性；"×"表示不具有特性.

下载: 导出CSV

表 3 计算开销对比

Table 3 Comparison of Computation Cost

方案	服务器开销	参与者开销
PPDC	$O( {\delta {N_p}\log {N_p}} )$	$O( \delta )$
PPML	$O( {\delta N_p^2} )$	$O( {N_p^2 + \delta {N_p}} )$
PPDL	$O( {\delta {N_p}} )$	$O( \delta )$
EPFDL	$O( {N_p^2 + \delta {N_p}} )$	$O( \delta )$
Re-Shuffle	$O( {\delta N_p^2} )$	$O( {\delta {N_p}} )$

下载: 导出CSV

参考文献(39)

[1]	Sadhu P K, Yanambaka V P, Abdelgawad A. Internet of things: Security and solutions survey[J]. Sensors, 2022, 22(19): 7433
[2]	Rind Y M, Raza M H, Zubair M, et al. Smart energy meters for smart grids, an Internet of things perspective[J]. Energies, 2023, 16(4): 1974
[3]	Garg S, Mehrotra D, Pandey H M, et al. Static to dynamic transition of RPL protocol from IoT to IoV in static and mobile environments[J]. Cluster Computing, 2023, 26(1): 847−862 doi: 10.1007/s10586-022-03689-x
[4]	Zhang Caiming, Lu Yang. Study on artificial intelligence: The state of the art and future prospects[J]. Journal of Industrial Information Integration, 2021, 23: 100224 doi: 10.1016/j.jii.2021.100224
[5]	Dey R, Tang Cong, Ross K, et al. Estimating age privacy leakage in online social networks[C]//Proc of 2012 IEEE INFOCOM. Piscataway, NJ: IEEE, 2012: 2836−2840
[6]	Zhu Youwen, Zhang Yue, Li Xingxin, et al. Improved collusion-resisting secure nearest neighbor query over encrypted data in cloud[J]. Concurrency and Computation: Practice and Experience, 2019, 31(21): e4681
[7]	Li Fenghua, Li Hui, Niu Ben, et al. Privacy computing: Concept, computing framework, and future development trends[J]. Engineering, 2019, 5(6): 1179−1192 doi: 10.1016/j.eng.2019.09.002
[8]	McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of the Artificial Intelligence and Statistics. New York: PMLR, 2017: 1273−1282
[9]	Kumar R, Khan A A, Kumar J, et al. Blockchain-federated-learning and deep learning models for Covid-19 detection using CT imaging[J]. IEEE Sensors Journal, 2021, 21(14): 16301−16314 doi: 10.1109/JSEN.2021.3076767
[10]	Li Yijing, Tao Xiaofeng, Zhang Xuefei, et al. Privacy-preserved federated learning for autonomous driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23（7）: 8423−8434
[11]	Yu Shuai, Chen Xu, Zhou Zhi, et al. When deep reinforcement learning meets federated learning: Intelligent multitimescale resource management for multiaccess edge computing in 5G ultradense network[J]. IEEE Internet of Things Journal, 2020, 8(4): 2238−2251
[12]	Aono Y, Hayashi T, Wang Lihua, et al. Privacy-preserving deep learning via additively homomorphic encryption[J]. IEEE Transactions on Information Forensics and Security, 2017, 13(5): 1333−1345
[13]	Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning[C]//Proc of the 2017 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2017: 1175−1191
[14]	Liu Xiaoyuan, Li Hongwei, Xu Guowen, et al. Privacy-enhanced federated learning against poisoning adversaries[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 4574−4588 doi: 10.1109/TIFS.2021.3108434
[15]	Xu Guowen, Li Hongwei, Liu Sen, et al. Verifynet: Secure and verifiable federated learning[J]. IEEE Transactions on Information Forensics and Security, 2019, 15: 911−926
[16]	Hardy S, Henecka W, Ivey-Law H, et al. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption[J]. arXiv preprint, arXiv: 1711. 10677, 2017
[17]	Bagdasaryan E, Veit A, Hua Yiqing, et al. How to backdoor federated learning[C]//Proc of the Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2020: 2938−2948
[18]	Zhang Yuan, Chen Qingjun, Zhong Sheng. Privacy-preserving data aggregation in mobile phone sensing[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(5): 980−992 doi: 10.1109/TIFS.2016.2515513
[19]	Blanchard P, El Mhamdi E M, Guerraoui R, et al. Machine learning with adversaries: Byzantine tolerant gradient descent[C]. Advances in Neural Information Processing Systems New York: Curran Associates, Inc, 2017:119−129
[20]	Liu Yining, Wang Yanping, Wang Xiaofen, et al. Privacy-preserving raw data collection without a trusted authority for IoT[J]. Computer Networks, 2019, 148: 340−348 doi: 10.1016/j.comnet.2018.11.028
[21]	Yin Dong, Chen Yudong, Kannan R, et al. Byzantine-robust distributed learning: Towards optimal statistical rates[C] //Proc of the Int Conf on Machine Learning. New York: ACM, 2018: 5650−5659
[22]	Xu Guowen, Li Hongwei, Liu Sen, et al. VerifyNet: Secure and verifiable federated learning[J]. IEEE Transactions on Information Forensics and Security, 2019, 15: 911−926
[23]	Zhang Li, Xu Jianbo, Vijayakumar P, et al. Homomorphic encryption-based privacy-preserving federated learning in iot-enabled healthcare system[J]. IEEE Transactions on Network Science and Engineering, 2022[2023−08−18].http://dx.doi.org/10.1109/TNSE.2022.3185327
[24]	Mothukuri V, Parizi R M, Pouriyeh S, et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2021, 115: 619−640 doi: 10.1016/j.future.2020.10.007
[25]	Warnat-Herresthal S, Schultze H, Shastry K L, et al. Swarm learning for decentralized and confidential clinical machine learning[J]. Nature, 2021, 594(7862): 265−270 doi: 10.1038/s41586-021-03583-3
[26]	Feng Lei, Zhao Yiqi, Guo Shaoyong, et al. Blockchain-based asynchronous federated learning for internet of things[J]. IEEE Transactions on Computers, 2021, 99: 1
[27]	Li Yuzheng, Chen Chuan, Liu Nan, et al. A blockchain-based decentralized federated learning framework with committee consensus[J]. IEEE Network, 2020, 35(1): 234−241
[28]	Geyer R C, Klein T, Nabi M. Differentially private federated learning: A client level perspective[J]. arXiv preprint, arXiv: 1712. 07557, 2017
[29]	Yang Ziqi, Shao Bin, Xuan Bohan, et al. Defending model inversion and membership inference attacks via prediction purification[J]. arXiv preprint, arXiv: 2005.03915, 2020
[30]	Park C, Itoh K, Kurosawa K. Efficient anonymous channel and all/nothing election scheme[C]//Proc of Workshop on the Theory and Application of of Cryptographic Techniques. Berlin: Springer, 1993: 248−259
[31]	Li Yang, Zhao Yunlong, Ishak S, et al. An anonymous data reporting strategy with ensuring incentives for mobile crowd-sensing[J]. Journal of Ambient Intelligence and Humanized Computing, 2018, 9(6): 2093−2107 doi: 10.1007/s12652-017-0529-x
[32]	Chen Jingxue, Liu Gao, Liu Yining. Lightweight privacy-preserving raw data publishing scheme[J]. IEEE Transactions on Emerging Topics in Computing, 2020, 9(4): 2170−2174
[33]	Zhao Xinxin, Li Lingjun, Xue Guoliang, et al. Efficient anonymous message submission[J]. IEEE Transactions on Dependable and Secure Computing, 2016, 15(2): 217−230
[34]	Shamir A. How to share a secret[J]. Communications of the ACM, 1979, 22(11): 612−613 doi: 10.1145/359168.359176
[35]	Lai Jianchang, Mu Yi, Guo Fuchun, et al. Efficient k-out-of-n oblivious transfer scheme with the ideal communication cost[J]. Theoretical Computer Science, 2018, 714: 15−26 doi: 10.1016/j.tcs.2017.12.019
[36]	Hao Meng, Li Hongwei, Xu Guowen, et al. Towards efficient and privacy-preserving federated deep learning[C] // Proc of 2019 IEEE Int Conf on Communications(ICC). Piscataway, NJ: IEEE, 2019: 1−6
[37]	LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324 doi: 10.1109/5.726791
[38]	Akinyele J A, Garman C, Miers I, et al. Charm: A framework for rapidly prototyping cryptosystems[J]. Journal of Cryptographic Engineering, 2013, 3(2): 111−128 doi: 10.1007/s13389-013-0057-3
[39]	Rouselakis Y, Waters B. Efficient statically-secure large-universe multi-authority attribute-based encryption[C] // Proc of 2019 IEEE Int Conf on Communications(ICC). Piscataway, NJ: IEEE, 2019: 1−6

施引文献(4)

期刊类型引用(4)

1.	任燕，徐洪蕾，苏轼鹏，杜振彩. 基于字典学习的稀疏约束型数据同化海洋污染预报研究. 环境科学与管理. 2025(02): 62-67 . 百度学术
2.	李维钊，王伟. 基于国产异构计算平台的快速SVD算法及其在海洋资料同化的应用. 数据与计算发展前沿. 2024(01): 35-45 . 百度学术
3.	李海晏. 海洋大数据标准化现状与对策研究. 市场监管与质量技术研究. 2024(03): 44-50 . 百度学术
4.	蒋骋，田家勇，兰晓雯. 数据同化方法在固体地球物理学中的应用研究进展. 大地测量与地球动力学. 2024(08): 857-866 . 百度学术

其他类型引用(0)

资源附件(0)

图(10) / 表(3)

计量

文章访问数: 277
HTML全文浏览量: 64
PDF下载量: 135
被引次数: 4

1. 相关工作
2. 方法概述
2.1 问题定义
2.2 算法框架
3. NER模型预训练
4. RLTL-DSNER中的强化学习方法
4.1 状　态
4.2 动　作
4.3 奖　励
5. 实　　验
5.1 实验设置
5.2 模型对比
5.3 数据分析
5.4 案例分析
6. 结　　论

物联网环境下鲁棒的源匿名联邦学习洗牌协议

计量

出版历程

Robust Source Anonymous Federated Learning Shuffle Protocol in IoT

1. 相关工作

2. 方法概述

2.1 问题定义

2.2 算法框架

3. NER模型预训练

4. RLTL-DSNER中的强化学习方法

4.1 状 态

4.2 动 作

4.3 奖 励

5. 实 验

5.1 实验设置

5.2 模型对比

5.3 数据分析

5.4 案例分析

6. 结 论

期刊类型引用(4)

其他类型引用(0)

计量

出版历程

目录

1. 相关工作

2. 方法概述

2.1 问题定义

2.2 算法框架

3. NER模型预训练

4. RLTL-DSNER中的强化学习方法

4.1 状 态

4.2 动 作

4.3 奖 励

5. 实 验

5.1 实验设置

5.2 模型对比

5.3 数据分析

5.4 案例分析

6. 结 论

4.1 状　态

4.2 动　作

4.3 奖　励

5. 实　　验

6. 结　　论

4.1 状　态

4.2 动　作

4.3 奖　励

5. 实　　验

6. 结　　论