Processing math: 16%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

面向远程监督命名实体识别的噪声检测

王嘉诚, 王凯, 王昊奋, 杜渂, 何之栋, 阮彤, 刘井平

王嘉诚, 王凯, 王昊奋, 杜渂, 何之栋, 阮彤, 刘井平. 面向远程监督命名实体识别的噪声检测[J]. 计算机研究与发展, 2024, 61(4): 916-928. DOI: 10.7544/issn1000-1239.202220999
引用本文: 王嘉诚, 王凯, 王昊奋, 杜渂, 何之栋, 阮彤, 刘井平. 面向远程监督命名实体识别的噪声检测[J]. 计算机研究与发展, 2024, 61(4): 916-928. DOI: 10.7544/issn1000-1239.202220999
Wang Jiacheng, Wang Kai, Wang Haofen, Du Wen, He Zhidong, Ruan Tong, Liu Jingping. Noise Detection for Distant Supervised Named Entity Recognition[J]. Journal of Computer Research and Development, 2024, 61(4): 916-928. DOI: 10.7544/issn1000-1239.202220999
Citation: Wang Jiacheng, Wang Kai, Wang Haofen, Du Wen, He Zhidong, Ruan Tong, Liu Jingping. Noise Detection for Distant Supervised Named Entity Recognition[J]. Journal of Computer Research and Development, 2024, 61(4): 916-928. DOI: 10.7544/issn1000-1239.202220999
王嘉诚, 王凯, 王昊奋, 杜渂, 何之栋, 阮彤, 刘井平. 面向远程监督命名实体识别的噪声检测[J]. 计算机研究与发展, 2024, 61(4): 916-928. CSTR: 32373.14.issn1000-1239.202220999
引用本文: 王嘉诚, 王凯, 王昊奋, 杜渂, 何之栋, 阮彤, 刘井平. 面向远程监督命名实体识别的噪声检测[J]. 计算机研究与发展, 2024, 61(4): 916-928. CSTR: 32373.14.issn1000-1239.202220999
Wang Jiacheng, Wang Kai, Wang Haofen, Du Wen, He Zhidong, Ruan Tong, Liu Jingping. Noise Detection for Distant Supervised Named Entity Recognition[J]. Journal of Computer Research and Development, 2024, 61(4): 916-928. CSTR: 32373.14.issn1000-1239.202220999
Citation: Wang Jiacheng, Wang Kai, Wang Haofen, Du Wen, He Zhidong, Ruan Tong, Liu Jingping. Noise Detection for Distant Supervised Named Entity Recognition[J]. Journal of Computer Research and Development, 2024, 61(4): 916-928. CSTR: 32373.14.issn1000-1239.202220999

面向远程监督命名实体识别的噪声检测

基金项目: 上海市促进产业高质量发展专项资金(2021-GZL-RGZN-01018);国家重点研发计划项目(2021YFC2701800,2021YFC2701801);之江实验室开放课题(2019ND0AB01);上海市青年科技英才扬帆计划项目(23YF1409400)
详细信息
    作者简介:

    王嘉诚: 2000年生. 硕士研究生. 主要研究方向为机器学习、信息抽取

    王凯: 1997年生. 硕士研究生. 主要研究方向为机器学习、数据挖掘

    王昊奋: 1982年生. 博士,教授,博士生导师. CCF高级会员. 主要研究方向为知识图谱、自然语言处理、数据挖掘

    杜渂: 1975年生. 教授级高工. 主要研究方向为大数据、人工智能

    何之栋: 1989年生. 博士,高级工程师. 主要研究方向为复杂网络、知识图谱

    阮彤: 1973年生. 博士,教授,博士生导师. CCF会员. 主要研究方向为知识图谱、数据挖掘、数据质量评估

    刘井平: 1991年生. 博士,讲师. 主要研究方向为知识图谱、自然语言处理

    通讯作者:

    阮彤(ruantong@ecust.edu.cn

  • 中图分类号: TP391.1

Noise Detection for Distant Supervised Named Entity Recognition

Funds: This work was supported by the Shanghai Municipal Special Fund for Promoting High-quality Development of Industries (2021-GZL-RGZN-01018), the National Key Research and Development Program of China (2021YFC2701800, 2021YFC2701801), the Open Project of Zhejiang Lab (2019ND0AB01), and the Shanghai Sailing Program (23YF1409400).
More Information
    Author Bio:

    Wang Jiacheng: born in 2000. Master candidate. His main research interests include machine learning and information extraction

    Wang Kai: born in 1997. Master candidate. His main research interests include machine learning and data mining

    Wang Haofen: born in 1982. PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include knowledge graph, natural language processing, and data mining

    Du Wen: born in 1975. Professoriate senior engineer. His main research interests include big data and artificial intelligence

    He Zhidong: born in 1989. PhD, senior engineer. His main research interests include complex networks and knowledge graph

    Ruan Tong: born in 1973. PhD, professor, PhD supervisor. Member of CCF. Her main research interests include knowledge graph, data mining, and data quality assessment

    Liu Jingping: born in 1991. PhD, lecturer. His main research interests include knowledge graph and natural language processing

  • 摘要:

    针对远程监督命名实体识别(named entity recognition, NER)任务,目前有许多基于强化学习的方法,利用强化学习的强大决策能力,对远程监督生成的自动标注数据进行噪声过滤. 然而,这些方法所使用的策略网络模型架构都较简单,识别噪声能力较弱,且都以完整的句子样本为单位进行识别,导致句子中的部分正确信息被丢弃. 为解决上述问题,提出了一种新的基于强化学习的方法,称为RLTL-DSNER,该方法可以从远程监督生成的带噪数据中,以单词级别识别正确实例,减少噪声实例对远程监督NER的负面影响. 具体来说,在策略网络模型中引入了标签置信函数来准确识别实例. 此外,提出了一种新颖的NER模型预训练策略,使其能为强化学习的初始训练提供精准的状态表示和有效的奖励值,引导其向正确的方向更新. 在4个数据集上的实验结果验证了RLTL-DSNER方法的优越性,在NEWS数据集上,相较于现有最先进的方法,获得了4.28%的F1提升.

    Abstract:

    On distantly supervised named entity recognition (NER), there are many reinforcement learning based approaches, which exploit the powerful decision-making ability of reinforcement learning to detect noise from the automatically labeled data generated by distant supervision. However, the structures of the policy network models used are typically simple, which results in a weak ability to recognize noisy instances. Furthermore, correct instances are identified at sentence level, resulting in part of the useful information in the sentence being discarded. In this paper, we propose a new reinforcement learning based method for distantly supervised NER, named RLTL-DSNER, which can detect correct instances at token level from noisy data generated by distant supervision, proposing to reduce the negative impact of noisy instances on distantly supervised NER model. Specifically, we introduce a tag confidence function to identify correct instances accurately. In addition, we propose a novel pretraining strategy for the NER model. This strategy can provide accurate state representations and effective reward values for the initial training of the reinforcement learning model. The pre-training strategy can help guide it to update in the right direction. We conduct experiments on four datasets to verify the superiority of the RLTL-DSNER method, gaining 4.28% F1 improvement on NEWS dataset over state-of-the-art methods.

  • 命名实体识别(named entity recognition, NER)旨在从文本中定位命名实体,并将其分类到预定义的实体类型,如人、组织和位置.NER是自然语言处理(natural language processing, NLP)的基本任务,有助于各种下游应用,如关系抽取[1]、问答系统[2]、知识库的构建[3-6].

    传统的NER监督方法如BERT-CRF[7]和指针网络[8]严重依赖于大量的标注数据,而数据的标注过程往往既费时又费力. 因此,远程监督技术被提出用于自动生成NER的标注数据,其核心思想是识别文本中存在于知识库,如维基数据开放知识库的实体提及,并将相应类型分配给它们. 然而,使用远程监督技术会产生2类噪声:假阴性(false negatives, FNs)和假阳性(false positives, FPs)[9]. 首先,由于知识库覆盖的范围有限,文本中并非所有正确实体都会被标注,因此会产生FNs. 其次,由于使用简单的字符串匹配来识别实体提及,知识库中实体的模糊性可能会导致FPs. 图1展示了一个远程监督标注示例,其中“PRO”指产品名称类型,“PER”指人名. 第1行是初始文本,第2行是远程监督标注,第3行是正确标注. 示例中,由于知识库的规模有限,产品实体“拖把”没有被正确匹配,这属于FNs. 此外,示例中的“包”表示一个量词,而不是一个产品,但因为知识库的模糊性被错误匹配,这属于FPs.

    图  1  远程监督标注示例
    Figure  1.  An example of distantly supervised annotation

    为了解决上述远程监督NER的噪声问题,研究者提出了一系列噪声检测的方法. 这些方法主要可以被分为2类:一类是在训练过程中设计样本降噪策略来减小噪声对模型的负面影响. 常见的降噪策略有数据聚类[10]、负采样[11-12]等. 然而,这类方法仅能处理FNs噪声,仍无法解决远程监督过程中的FPs噪声. 另一类是是在训练之前设计噪声过滤手段来删除训练集中的噪声样本,该方法可以同时处理FNs与FPs这2类噪声,但是对噪声过滤的准确性有较高要求. 此外,由于噪声过滤过程的试错搜索与延迟反馈两大特征,许多研究者将其视为一个决策问题,并使用强化学习的强大决策能力来解决. 典型的方法是制定不同的奖励和策略,并使用强化学习框架训练一个噪声识别器模型[13-14]. 然而,这类方法都以句子为单位进行噪声检测,可能会丢弃其中正确的实体标注信息,进而无法为模型提供充足的训练语料. 比如,在图1中,模型可能会因为“包”和“拖把”这2个噪声实体把整个语句删除,导致正确的实体标注信息“小明”和“钉子”也会被删除.

    为此,本文提出了一种新颖的基于强化学习的远程监督NER方法,称为RLTL-DSNER(reinforcement learning and token level based distantly supervised named entity recognition). 该方法可以从远程监督产生的噪声文本中准确识别正确实例,减少噪声实例对远程监督NER的负面影响. 具体而言,本文把强化学习框架中的策略网络中引入了标签置信度函数,为文本语句中的每个单词提供了标签置信分数. 此外,本文提出了一种NER模型预训练策略,即预训练阶段的F1分数达到85% ~ 95%时即停止训练. 该策略可以为强化学习的初始训练提供精准的状态表示和有效奖励值,帮助策略网络在训练初期以正确的方向更新其参数.

    总的来说,本文的主要贡献有3点:

    1)提出了一种新的基于强化学习的方法,用于解决远程监督NER任务,称为RLTL-DSNER.该方法利用策略网络与一个标签置信函数,从有噪声的远程监督数据中,以单词为单位识别正确实例,最大限度保留样本中的正确信息.

    2)提出了一种NER模型预训练策略,以帮助RLTL-DSNER在训练初期就能以正确的方向更新其可学习参数,使训练过程稳定.

    3)实验结果表明,RLTL-DSNER在3个中文数据集和1个英文医学数据集上都显著优于最先进的远程监督NER模型. 在NEWS数据集上,相较于现有最先进的方法,获得了4.28%的F1值提升.

    传统的NER方法是基于人工标注的特征,常用的方法有最大熵[15]、隐马尔可夫模型[16]、支持向量机[17]和条件随机场[18]. 近年来,深度神经网络的发展使其成为研究的主流. 深度神经网络自动提取隐藏的特征,从而使研究人员不用再把重心放在特征工程中.

    预训练语言模型BERT [19]被提出后,以其动态词向量获取能力强、通用性强两大优点备受研究者关注,许多方法都以其作为编码器. Souza等人[7]构建了BERT-CRF模型,在BERT的基础上,使用CRF层学习句子的约束条件,提升句子的整体标注效果. Hao等人[8]使用了基于指针网络的模型结构,提升了模型对实体边界的敏感性,并解决了现实中普遍存在的重叠实体问题. 除了对模型架构的设计,许多研究将重点放在了额外特征的探索和挖掘中. 罗凌等人[20]在模型中引入了包含汉字内部结构的笔画信息,Xu等人[21]融合了中文文本中的词根、字符以及单词信息,这些额外特征的引入进一步提高了模型的表现.

    虽然文献[7-8, 20-21]方法都在NER任务上取得了不错的效果,然而它们都依赖于大量的人工标注数据. 在缺乏人工标注数据的情况下,为了缓解数据不足带来的负面影响,许多研究者提出了远程监督标注方法. Shang等人[22]提出了AutoNER模型,采用“Tie or Break”标注方案代替传统的BIO方案或BIOES方案. 同时,他们引入字典裁剪方法和高质量的短语来实现远程监督NER,并在3个基准数据集上取得了最先进的F1值. 继Shang等人[22]之后,Wang等人[23]在不完全字典的帮助下实现字符串匹配,以检测可能的实体. 此外,他们利用匹配实体和不匹配候选实体的上下文相似性来检测更多的实体. 相比常规仅使用精准字符串匹配生成自动标注的远程监督方法,通过词典拓展、匹配策略修改等方法,提高了数据质量. 然而,这些方法的效果好坏与他们使用的词典质量有密切关系. 在词典质量较差的情况下,依然无法避免自动标注产生的FNs与FPs这2类噪声标注.

    针对噪声标注问题,主要有2类方法:

    1)在训练过程中设计样本降噪策略来减小噪声对模型的负面影响. 高建伟等人[24]利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,丰富句子级别的特征表达能力.Lange等人[10]建议利用数据特征对输入实例进行聚类,然后为聚类计算不同的混淆矩阵.Peng等人[25]将远程监督NER任务定义为正样本无标签学习问题,其中正样本由匹配的实体组成,非实体单词构成无标签数据. 为了扩展字典,他们使用修改的AdaSampling算法来迭代地检测可能的实体.Liang等人[26]提出了一个2阶段框架,利用预训练模型的优势解决远程监督NER任务. 他们引入了一种自训练策略,将微调的BERT作为教师和学生模型,并使用教师模型生成的伪标签对学生模型进行训练.Li等人[11]引入负采样以缓解噪声未标注实体的影响. 然而,这类方法仅能处理FNs噪声,仍无法解决FPs噪声.

    2)在训练之前设计噪声过滤手段来删除训练集中的噪声样本. 由于噪声过滤过程的试错搜索与延迟反馈两大特征,许多研究者使用强化学习技术实现此类方法. 此类方法发挥了强化学习的强大决策能力,识别远程监督产生的噪声样本,一齐解决假阴性与假阳性实体问题.Qin等人[27]使用关系抽取器的F1值作为策略网络的奖励. Feng等人[28]使用关系提取器的预测概率计算奖励. 受其启发,一些研究人员[13-14]将强化学习和CRF层的拓展Partial CRF结合起来完成远程监督NER的任务. 然而,他们的方法中,策略网络模型架构都较简单,仅使用MLP建模,识别能力较弱. 此外,都以完整的句子样本为单位进行识别,导致句子中的部分正确信息被丢弃.

    本节首先给出问题的形式化定义,然后概述本文提出的基于强化学习的远程监督方法NER.

    NER通常被建模为序列标注任务,并使用BIO模式对样本进行标注. 给定文本S=[s1,s2,,sn],其中n表示S中单词的数量,NER的目的是将标签序列T=[t1,t2,,tn]分配给S,其中ti{BX,IX,O}. B和I分别表示实体的首部和后续部分;X表示对应实体提及的类型;O表示该单词不属于任何类型的实体. 需要注意的是,类型往往是预先定义的. 与许多研究[13-14,29-30]类似,本文NER任务的数据集包括少量人工标注的数据集合H和大量通过远程监督获取的数据集合D. 具体数据量见表1.

    表  1  数据集统计
    Table  1.  Statistics of Datasets
    数据集训练集验证集条数测试集条数
    人工标注条数远程监督条数
    EC12002500400800
    NEWS3000372233283186
    CCKS-DS1723586910242238
    BC5CDR45601500045814797
    下载: 导出CSV 
    | 显示表格

    图2所示,本文提出的RLTL-DSNER模型主要包括2阶段:模型预训练阶段和迭代训练阶段.

    图  2  RLTL-DSNER的主要框架
    Figure  2.  The main framework of RLTL-DSNER

    1)在模型预训练阶段,拟通过少量人工标注的数据来预训练NER模型,使得NER模型在训练集上的F1值达到某一阈值αα一般取值为85% ~ 95%). 这一做法的目的是帮助NER模型在迭代训练阶段的初期为策略网络生成高质量的状态和奖励.

    2)在迭代训练阶段,以深度强化学习作为框架,提出了单词级别的噪声检测模型. 具体而言,首先通过预训练的NER模型为文本数据生成向量表示和标签概率分布,并将两者作为状态输入到策略网络. 策略网络利用卷积神经网络(convolutional neural network, CNN)、标签置信函数以及多层感知器(multilayer perceptron, MLP)进行单词级别的噪声检测,判断文本数据中的各个单词是否被保留,如图2中删除了噪声实体“鸽子蛋”与“机械”,因为“鸽子蛋”算作一个产品而不是“鸽子”,“机械”算作描述产品“键盘”的规格,保留了正确实体“陈明亮”“键盘”“北京”. 随后,将保留的数据与人工标注的数据进行合并,联合训练NER模型. 同时,NER模型为保留的数据进行打分,并将其作为奖励来更新策略网络参数. 上述流程不断循环迭代,直到达到预定义的轮次.

    在RLTL-DSNER中,NER模型主要用于状态与奖励的生成,其性能将会直接影响噪声检测结果. NER模型若不进行预训练,在迭代训练的初期往往无法为远程监督文本语句生成高质量的状态和奖励,可能导致策略网络被误导到错误的更新方向.

    本文向EC数据集人工标注集合中手动添加噪声数据来研究深度神经网络的学习特性. 具体来说,本文将数据集合中一定比例数据的标注实体随机替换为其他实体,并将其视为噪声数据,其余数据视为干净数据. 图3展示了添加不同比例噪声情况下模型的训练情况.

    图  3  人工往数据集中添加不同比例噪声后的训练情况
    Figure  3.  The training situation after artificially adding different proportions of noise to the dataset

    图3可以看出,在训练过程中,模型在干净数据上的F1值会先得到大幅度提升,当干净数据上的F1值较大时,模型才会渐渐提升其在噪声数据上的F1值. 这个现象表明了深度神经网络在训练过程中通常先学习简单且通用的数据模式,然后逐渐强制拟合噪声数据. 换言之,模型的训练F1值达到某一阈值时,其在干净数据上的F1值较高,而在噪声数据上的F1值较低,此时模型将获得最佳性能. 因此,本文拟采用上述方法对NER模型进行预训练. 由于此阶段采用的数据集由人工标注,噪声较少,阈值α一般取值为85% ~ 95%.

    给定人工标注数据集合H,本文定义{(SHm,THm)}MHm=1作为H中的实例,其中MH表示集合大小,即包含的样本个数,SHmTHm分别表示集合H中第m个样本的文本和标签序列. 此外,假定NER模型用f\left( {\boldsymbol{\theta}} \right)表示,其中{\boldsymbol{\theta }}表示模型的参数,当f\left( {\boldsymbol{\theta}} \right)拟合H中的实例的F1值达到阈值时,NER模型停止预训练.

    上述预训练方式与早期停止(early stop)策略相似. 但两者不同之处在于早期停止是指当验证集上的损失值增加或训练集的F1值达到99.9%时,模型停止训练. 本文采用的预训练方法更像是“非常早期停止”. 相对于早期停止策略,本文的预训练方式有2点优势:

    1)即使是人工标注的数据集,也难免存在噪声数据. 因此当训练F1值达到85% ~ 95%时,模型已经学到大部分的数据模式;而继续学习,只会强制记忆噪声数据,损害模型性能.

    2)预训练过程仅有少量的数据样本,当模型训练到F1值达到99%时,很容易导致过拟合,降低了模型的泛化能力和噪声检测能力.

    5.3节的实验表明,通过上述预训练方式的NER模型具有将正确样本和噪声样本分离的能力,有助于策略网络在迭代训练初期正确更新.

    本节主要介绍RLTL-DSNER中的3个组件,即状态、动作和奖励. 与常规的基于强化学习的噪声过滤方法不同的是,RLTL-DSNER在策略网络中引入了一个标签置信函数,其结合噪声判定模型识别正确实例. 需要注意的是,实例的识别是单词级别的,而不是传统样本级别的.

    由于训练数据中的输入句子是相互独立的,仅将句子的信息作为当前状态很难满足马尔可夫决策过程(Markov decision process, MDP).RLTL-DSNER将通过NER模型获得的当前句子表示与标签概率进行拼接,以此作为强化学习智能体的状态. 需要注意的是NER模型是通过历史所选择的句子进行参数更新的. 换言之,第i步的状态融入了前i - 1步的状态与动作信息. 因此,RLTL-DSNER建模方式满足马尔可夫决策过程,即未来状态的条件概率分布仅依赖于当前状态,而与过去状态无关,因为过去状态的信息都已经隐式融入到当前状态了.

    在RLTL-DSNER中,状态由2部分组成:当前文本的表示和其各个单词用远程监督标注标签的概率. 具体而言,给定文本 S = [ {{s_1},{s_2}, … ,{s_n}} ] ,本文首先将S与特殊字符 [ {{{\mathrm{cls}}} } ] [ {{{\mathrm{sep}}} } ] 进行拼接,即 [ {{{\mathrm{cls}}} } ];S;[ {{{\mathrm{sep}}} } ] ,并输入到大规模预训练语言模型中(如BERT). 其次,取语言模型中最后一层隐藏状态即 \mathcal{{\boldsymbol{S}}} = ( {{{\boldsymbol{s}}_1},{{\boldsymbol{s}}_2}, … ,{{\boldsymbol{s}}_n}}) 作为文本 S 的语义表示,其中{{{\boldsymbol{s}}}}_{i} \left(i=1,2,\dots ,n\right)是单词{s_i}的隐藏状态. 针对各单词{s_i}的标签概率,本文首先将上述的文本表示输入到全连接层中,为每个单词获取所有标签的概率即 {\mathcal{{\boldsymbol{P}}}_{{s_i}}} = ( {{{p}_{{t_1}}},{{p}_{{t_2}}}, … ,{{p}_{{t_L}}}} ) ,其中L表示标签类型的数量,{{p}_{{t_j}}}表示{t_j}是单词{s_j}的标签的概率. 其次,根据上述的标签概率分布,为每个单词取出远程监督自动标注标签的概率. 因此,可得到文本中所有单词的标签概率,定义为 {\boldsymbol{P}} = ( {{p_{{s_1}}},{p_{{s_2}}}, … ,{p_{{s_n}}}} ) ,其中{p_{{s_i}}}是单词{s_i}的标签概率.

    以往基于强化学习的噪声检测往往定义样本的取舍作为动作[8,10,27-28],但这会丢弃大量正确的实体信息. 因此,在RLTL-DSNER中,本文为文本中的每个单词定义一个动作{a_i} \in \left\{ {0,1} \right\}, \left( {i = 1,2, … ,n} \right),其中 {a_i} = 0 表示丢弃当前单词,{a_i} = 1表示保留当前单词. 为了这一目标,本文设计了由2个组件组成的策略网络:噪声实体判别器和标签置信度(tag confidence, TC)函数.

    噪声实体判别器是由CNN和MLP所构成,其输入是文本语句表示\mathcal{{\boldsymbol{S}}}和其所有单词的标签概率{\boldsymbol{P}},输出是每个单词保留的概率. 这一过程形式化定义为

    \begin{split} & {\boldsymbol{\pi}} \left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{{\theta}} } \right) = prob\left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{{\theta }}} \right) =\\ &a\sigma \left( {\left( {\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right) \oplus {\boldsymbol{P}}} \right){{\boldsymbol{W}}_{\rm{m}}} + {\boldsymbol{b}}} \right) + \\ &\left( {1 - a} \right)\left( {1 - \sigma \left( {\left( {\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right) \oplus {\boldsymbol{P}}} \right){{\boldsymbol{W}}_{\rm{m}}} + {\boldsymbol{b}}} \right)} \right), \end{split} (1)

    其中{{\boldsymbol{W}}_{\rm{c}}}是卷积核的可学习参数,{\mathrm{c}}表示CNN网络,{{\boldsymbol{W}}_{\rm{m}}} {\boldsymbol{b}} 是线性层的参数,{\mathrm{m}}表示MLP网络,\sigma \left( \cdot \right)是具有参数 {{\theta}} =\left\{{{\boldsymbol{W}}}_{{\mathrm{c}}},{{\boldsymbol{W}}}_{\rm{m}},{\boldsymbol{b}}\right\} sigmoid函数, a_{ }\in\left\{0,1\right\} 表示动作, \otimes 表示卷积运算, \oplus 表示矩阵拼接运算. 整体运算流程为:文本语句表示\mathcal{{\boldsymbol{S}}}和其所有单词的标签概率{\boldsymbol{P}}作为噪声实体判别器的输入,先通过CNN对文本语句表示\mathcal{{\boldsymbol{S}}}作卷积运算 \otimes ,得到文本语句的整体表示; 随后,将结果\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right)与所有单词的标签概率{\boldsymbol{P}}进行矩阵拼接,并通过线性层得到 \left( {\left( {{{\boldsymbol{W}}_{\rm{c}}} \otimes \mathcal{{\boldsymbol{S}}}} \right) \oplus {\boldsymbol{P}}} \right){{\boldsymbol{W}}_{\rm{m}}} + {\boldsymbol{b}} ;最终将结果输入sigmoid函数,得到每个单词的保留概率,即动作分别为0和1的概率.

    通常情况下,仅使用噪声实体判别器是不充分的,原因有:在训练样本量少和数据不平衡的情况下,NER模型会倾向分配较高的概率给样本中出现次数较多的标签,分配较低的概率给出现次数较少的标签. 换言之,当数量较少的标签的预测概率有较大提升时,噪声实体判别器可能会选取另一频繁出现的标签(预测概率较高),而忽略标签概率的相对提升.

    一种直接的做法是根据文本的长度进行归一化,凸显标签概率的相对提升. 然而,不同文本的长度是不一致的,导致无法定义统一的阈值进行单词的筛选. 因此,本文采用TC函数对单词标签归一化. 具体而言,给定一个批次的语句\left\{ {{S_1},{S_2}, … ,{S_m}} \right\},其中第i条文本 {S_i} = [ {{s_1},{s_2}, … ,{s_n}} ] ,本文首先定义单词{s_j}( j = 1,2, … , n )的标签预测为l的概率为 {p_{i,j,l}} ,并定义{q_l}为所有文本中各个单词标签预测为l的概率的平方和,即

    {q}_{l}=\displaystyle\sum _{i=1}^{m}\displaystyle\sum_{j=1}^{n}{p}_{i,j,l}^{2} ,\quad l=1,2,… ,L , (2)

    其中L表示标签类型的数量.

    然后,对同一批次中每个单词的标签预测概率,通过{q_l}归一化,并取出所有标签中的最大值作为文本{S_i}中第j个单词{s_j}的标签置信分数,定义为

    \begin{array}{*{20}{c}} {con{f_{{S_{i,j}}}} = \max \left( {\left[ {\dfrac{{p_{i,j,l}^2/{q_l}}}{{\displaystyle\sum\limits_{k = 1}^L {\left( {p_{i,j,k}^2/{q_k}} \right)} }}} \right]_{l = 1}^L} \right)} \end{array} . (3)

    从本质上来说,该标签置信分数可看作归一化后的标签最大预测概率,本文通过上述手段进行归一化,为了削弱仅使用噪声实体判别器的不充分性,凸显标签概率的相对提升.

    值得注意的是,本文在{q_l}的定义以及归一化的过程中都对单词{s_j}的标签预测概率{p_{i,j,l}}取平方处理,由于概率的取值范围为\left[ {0,1} \right],且平方函数在该范围内的导数单调递增,有助于筛选高置信度单词,提高筛选质量.

    对于每条文本,本文使用噪声实体判别器与TC函数确定是否保留文本中的每个单词:

    a_{i,j}=\left\{\begin{aligned} & 1,\quad conf_{S_{i,j}} > \varphi\; \mathrm{且}\; \pi_{i,j}\left(1|\mathcal{\boldsymbol{S}};\boldsymbol{P};\boldsymbol{\theta}\right) > 0.5, \\ & 0,\quad\mathrm{其他},\end{aligned}\right. (4)

    其中\varphi 是预先设定的TC阈值.

    图4展示了针对给定文本的动作选择,其中最终动作“0”表示丢弃该单词,“1”表示保留该单词. 通过远程监督对初始文本自动标注,生成人物实体“小明”与产品实体“包”“钉子”,在得到文本的句子表示和标签概率后,通过策略网络分别得到噪声实体判别器与TC函数的输出,并根据阈值筛选得到相应结果. 噪声实体判别器输出阈值为\phi= 0.5进行筛选,TC函数输出阈值自定义(图4中阈值 \varphi =0.9). 根据噪声实体判别器输出{\boldsymbol{\pi}} ,将丢弃单词“包”,根据TC函数输出{\boldsymbol{conf}},将丢弃单词“拖”“把”. 最终结合2个输出,得到最终动作为丢弃单词“包”“拖”“把”. 图4中可以看出,TC函数帮助识别出了噪声实体判别器无法筛选出的噪声实体,相比通常情况下仅使用噪声实体判别器进行筛选,增强了策略网络的噪声识别性能.

    图  4  动作选择示例
    Figure  4.  An example of action selection

    在策略网络的每次迭代中,当某一批次文本语句的所有动作执行完后,策略网络会接受以批次为单位的奖励. 该奖励r与NER模型的性能有关.

    \begin{array}{c}r=\dfrac{1}{\left|{\cal{B}}\right|}\displaystyle\sum_{S\in {\cal{B}}}\dfrac{1}{{\displaystyle \sum _{i=1}^{N}{a}_{i}}}\displaystyle\sum _{i=1}^{ N}\left({a}_{i}\;\mathrm{ln}\;{p}_{i}\left(T|S\right)\right)\end{array} \text{,} (5)

    其中\mathcal{B}表示一个批次的文本,即一次选取的所有文本,S表示批次中的任意文本,文本长度为Ni表示文本中的单词下标, T 表示标注序列,首先得到文本S输入NER模型后,预测标签序列为标注序列T的概率,并通过对该单词执行的动作{a_i} \in \left\{ {0,1} \right\}来判断是否要将第i个单词对应的值{p_i}\left( {T|S} \right)加入计算, \displaystyle \sum\limits _{i=1}^{ N}{a}_{i} 表示在句子层面,根据所选择单词的数量进行平均. 最终,根据批次大小 \left| \mathcal{B} \right| 平均所有文本的反馈来获得最终奖励. 在式(5)定义下,模型保留单词的标注标签,预测概率越高,奖励越大,以此来衡量动作选择的正确程度. 策略网络由REINFORCE算法[31]更新为:

    \begin{array}{*{20}{c}} {{\boldsymbol{\theta}} \leftarrow {\boldsymbol{\theta}} + \eta r\dfrac{\partial }{{\partial {\boldsymbol{\theta}} }}\ln {\boldsymbol{\pi}} \left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{\boldsymbol{\theta}} } \right)} \end{array} \text{,} (6)

    其中{\boldsymbol{\theta}} 表示策略网络的可学习参数,\eta 表示学习率,是一个超参数,\dfrac{\partial }{{\partial {\boldsymbol{\theta}} }}表示可学习参数{\boldsymbol{ \theta}} 的梯度,{\boldsymbol{\pi}} \left( {a|\mathcal{{\boldsymbol{S}}};{\boldsymbol{P}};{{\theta }}} \right)表示策略网络对文本语句表示\mathcal{{\boldsymbol{S}}}和句中所有单词的标签概率{\boldsymbol{P}}的输出结果.

    本节首先介绍了数据集、基线模型、评估指标以及参数设置;随后,详细对比了不同模型在中英文数据集上的结果;最后,对模型进行详细分析,如进行消融实验和NER模型预训练,并给出案例分析.

    1)数据集. 本文拟采用3个中文数据集EC[13],NEWS[13],CCKS-DS和1个英文NER数据集BC5CDR[32]. 下面详细介绍这4个数据集.

    ① EC是一个中文基准数据集,共有5种标签类型:品牌(pp)、产品(cp)、型号(xh)、原料(yl)和规格(gg).

    ② NEWS是一个中文基准数据集. 该数据集由MSRA[33]生成,只有一种实体类型:人名(PER).

    ③ CCKS-DS由一个名为CCKS2017的开源中文临床数据集构建,它包含5种类型的医疗实体:检查和检验、疾病和诊断、症状和体征、治疗、身体部位.

    本文从CCKS2017的数据集中提取了约1700个实例作为人工标注的训练集. 其余的大约5800个原始句子被收集为远程监督集,并通过远程监督方法进行标注. 远程监督使用的知识库为人工标注训练集中的所有特殊实体.

    ④ BC5CDR是一个英文生物医学领域基准数据集,它包含2种类型的实体:疾病(disease)和化学品(chemical). 本文从Shang等人[22]提供的原始文本库中选取了15000条文本,并使用其提供的词典对这些语料库进行远程监督自动标注.

    这4个数据集的统计数据如表1所示,每个数据集都包含人工标注的小样本数据和远程监督生成数据.

    2)基线模型. 本文共对比了DSNER[13],NER+PA+RL[14],LexiconNER[25],Span-based+SL[34],NegSampling-NER[11],NegSampling-variant[12],MTM-CW[35],BioFLAIR[36],Spark-Biomedical[37]等方法.

    ① DSNER与NER+PA+RL都利用部分标注学习的方法来解决标签标注不完整的问题,并设计基于强化学习的实例选择器,以句子级别筛选噪声.

    ② LexiconNER将远程监督NER任务定义为正样本无标签学习问题,并使用自采样算法迭代地检测可能的实体,降低了对词典质量的要求.

    ③ NegSampling-NER在训练过程中采用负采样策略,以减少训练过程中未标记实体的影响.

    ④ NegSampling-variant在负采样的基础上,通过自适应加权抽样分布,处理错抽样和不确定性问题.

    ⑤ Span-based+SL采用跨度级特征来更新远程监督的字典.

    ⑥ MTM-CW通过一个可重用的BiLSTM层对字符级特征进行建模,并利用多任务模型的优势解决缺乏监督数据的问题.

    ⑦ BioFLAIR是一个使用额外的生物医学文本预训练而成的池化上下文嵌入模型.

    ⑧ Spark-Biomedical使用混合双向LSTM和CNN的模型架构,自动检测单词和字符级别的特征.

    ⑨ RLTL-DSNER(句子级别)是本文方法RLTL-DSNER的一个变体. 其基于本文提出的模型架构,以句子级别识别正确实例,TC函数修改为式(7),采用句子中各单词标签置信分数的最小值作为该句子的整体标签预测分数.

    \begin{array}{*{20}{c}} {con{f_S} = \mathop {\min }\limits_{{s_i}} \left( {con{f_{{s_i}}}} \right)} \end{array} . (7)

    3)评估指标. 本文报告了3个评估指标:准确率(P)、召回率(R)和F1值(F1). 需要注意的是仅当预测实体与标注实体完全匹配时,才将其视为正确实体. 在训练过程中,本文保存模型在验证集上F1最高的参数,并报告其在测试集上的各个指标.

    4)参数设置. 对于每个数据集,本文采用相同的参数设置. 在第1阶段,训练的F1值限制为90%. 在第2阶段,优化器采用随机梯度下降;策略网络和NER模型的学习率均为1 \times {10^{ - 5}};每一网络层的Dropout设置为0.3,迭代次数设为80;式(4)中的置信度阈值\varphi 设置为0.9. 本文使用的标注方法为BIO标注.

    对于BC5CDR数据集,本文使用“allenai/sciBERT-scivocab-uncased[38]”作为预训练模型(PLM). 对于其他数据集,PLM使用“BERT-base-chinese”. 报告的结果采用5次结果的平均值,以减少随机性.

    为了验证模型的有效性,本文拟在2个通用领域数据集EC和NEWS上进行实验. 实验结果如表2表3所示. 从表2~3中可以得出3点结论:

    表  2  EC数据集的主要结果
    Table  2.  Main Results on EC Dataset %
    模型 F1 P R
    DSNER 61.45 61.57 61.33
    NER+PA+RL 63.56 61.86 65.35
    LexiconNER 61.22
    Span-based+SL 65.70 67.55 63.94
    NegSampling-NER 66.17
    NegSampling-variant 67.03
    RLTL-DSNER(本文,句子级别) 68.47 67.75 69.21
    RLTL-DSNER(本文) 69.34 68.36 70.35
    下载: 导出CSV 
    | 显示表格
    表  3  NEWS数据集的主要结果
    Table  3.  Main Results on NEWS Dataset %
    模型 F1 P R
    DSNER 79.22 76.95 81.63
    NER+PA+RL 80.04 79.88 80.20
    LexiconNER 77.98
    Span-based+SL 85.23 85.63 84.84
    NegSampling-NER 85.39
    NegSampling-variant 86.15
    RLTL-DSNER(本文,句子级别) 87.95 87.98 87.92
    RLTL-DSNER(本文) 90.43 90.01 90.87
    下载: 导出CSV 
    | 显示表格

    1)本文提出的RLTL-DSNER获得了最好的性能. 特别地,RLTL-DSNER在EC数据集上获得了2.31个百分比的性能提升,并在NEWS数据集上获得了4.28个百分比的性能提升.

    2)与句子级别的噪声过滤方法相比(如DSNER,NER+PA+RL),即使在句子级别的选择策略下,本文提出的噪声过滤方法都获得了更好的效果,说明策略网络中引入的TC函数的有效性.

    3)RLTL-DSNER相较于RLTL-DSNER(句子级别)效果更好,说明以单词为单位识别正确实例可以最大限度保留样本4~5中的正确信息,提升模型性能.

    此外,为了进一步验证模型的通用性,本文拟在CCKS-DS(中文)和BC5CDR(英文)2个医疗领域数据集中进行实验. 实验结果如表4表5所示,从表4~5中可以得出2点结论:

    表  4  CCKS-DS数据集的主要结果
    Table  4.  Main Results on CCKS-DS Dataset %
    模型 F1 P R
    NER+PA+RL 78.38 79.56 77.23
    NegSampling-NER 82.72 83.21 82.24
    RLTL-DSNER(句子级别) 83.97 79.76 88.66
    RLTL-DSNER 84.97 81.47 88.77
    下载: 导出CSV 
    | 显示表格
    表  5  BC5CDR数据集的主要结果
    Table  5.  Main Results on BC5CDR Dataset %
    模型 F1 P R
    MTM-CW 88.78 89.10 88.47
    NER+PA+RL 88.01 87.00 89.04
    BioFLAIR 89.42
    Spark-Biomedical 89.73
    RLTL-DSNER(句子级别) 88.92 88.72 89.13
    RLTL-DSNER 90.21 89.64 90.78
    下载: 导出CSV 
    | 显示表格

    1)无论是在中文数据集还是英文数据集,RLTL-DSNER在F1值上达到了新的SOTA,说明了该模型具有良好的语言适配性.

    2)本文的RLTL-DSNER相较于医学领域的模型,如BioFLAIR,Spark-Biomedical依然获得了小幅度的F1值提升,说明该模型具有较好的领域适配性.

    本节拟通过消融实验来验证模型每一模块的有效性,并进一步验证预训练方式的有效性.

    1)消融实验. 本节将在4个数据集上进行消融实验. 实验条件设置为:

    ① 不使用RL框架,只利用人工标注的数据集作为训练集来训练NER模型,记为“baseline: H”;

    ② 使用人工标注和远程监督的数据集作为训练集,而不利用RL框架,记为“baseline: H+D”;

    ③ 不采用预训练策略,即训练阶段在人工数据集上的F1值达到近100%才进入第2阶段的迭代训练,记为“w/o HT”.

    实验结果如表6所示,从表6中得出2点结论:

    表  6  消融实验
    Table  6.  Ablation Study %
    模型 数据集 F1 P R
    baseline:H EC 68.03 67.11 68.97
    baseline:H+D 63.15 66.95 59.76
    w/o HT 68.81 68.32 69.30
    RLTL-DSNER(本文) 69.34 68.36 70.35
    baseline:H NEWS 87.34 87.09 87.58
    baseline:H+D 81.86 84.28 79.58
    w/o HT 88.73 88.43 89.04
    RLTL-DSNER(本文) 90.43 90.01 90.87
    baseline:H CCKS-DS 80.25 75.63 85.47
    baseline:H+D 70.85 63.33 80.39
    w/o HT 83.95 80.75 87.42
    RLTL-DSNER(本文) 84.97 81.47 88.77
    baseline:H BC5CDR 86.47 84.40 88.65
    baseline:H+D 87.79 88.03 87.55
    w/o HT 89.77 88.58 91.00
    RLTL-DSNER(本文) 90.21 89.64 90.78
    下载: 导出CSV 
    | 显示表格

    ① 在4个数据集上,RLTL-DSNER模型在所有指标上都取得了最佳的效果,说明模型中的每一模块(包括NER模型预训练、远程监督数据和单词级别的噪声检测)都是十分重要的.

    ② 在3种基线中,baseline:H+D模型的效果是最差的,说明远程监督自动生成数据中存在大量的噪声实例. 特别地,在CCKS-DS数据集中F1值下降了9.40个百分比. 而在BC5CDR数据集上,F1值获得了1.32个百分比的提升,这是由于本文使用了Shang等人[22]提供的词典进行自动标注,词典质量较高,噪声较少,因此并没有很大程度影响模型的性能.

    2)预训练NER模型的有效性. 为了说明本文采用预训练方式的有效性,将NER模型的F1值训练到90%的方式,拟与将模型的F1值训练到近100%的方式进行对比. 这2种方式的F1值是迭代训练过程中的前20个迭代次数在测试集上进行测试得到的. 实验结果如图5所示,从图5中可以得出2点结论:

    图  5  不同策略下相同模型的初期训练表现
    Figure  5.  Initial training performance of the same model under different strategies

    ① 使用本文的预训练方式,RL模型的训练较为稳定,仅在NEWS数据集上出现小幅度的性能下降. 这说明了该预训练方式避免了模型的过拟合现象,可以为RL模型在训练初期提供高质量的文本表示和反馈奖励.

    ② 将NER模型训练到近100%的情况下,RL的训练过程十分不稳定. 在4个数据集上都出现了十分严重的性能下降,在EC,NEWS,BC5CDR数据集上,经过5个迭代次数后训练趋于稳定,而在CCKS-DS数据集上,模型直至10个迭代次数后训练才逐渐稳定. 这是由于NER模型对小样本的人工标注数据集过拟合,记住了许多训练样本. 此外,模型也学习到了人工标注数据集中难免存在的部分标注噪声. 因此导致其生成的句子表示和奖励质量不高.

    本节拟通过具体的数据实例与模型预测结果,进一步说明本文提出的RLTL-DSNER的有效性.

    图6显示了远程监督数据中噪声检测的7个示例,动作一栏表示在句子级别的动作选择策略下模型的输出结果,动作“0”表示丢弃该句子,动作“1”表示保留该句子.

    图  6  远程监督数据的实例选择示例
    Figure  6.  Instances selection examples for the distantly supervised data

    图6可以看出,本文提出的模型准确识别出了FNs如“梁连起(人名)”“等大等圆(症状和体征)”“全脂(产品)”“农夫山泉(品牌)”“天然(产品)”,FPs如“金灿灿(无类型)”“面色(无类型)”. 这些示例表明,本文的方法能够精准地在单词级别进行噪声检测,选择正确的实体,并丢弃有噪声的实体,最大限度保留样本中的正确信息.

    此外,根据相同示例下句子级别选择策略的预测结果,可以看出在此策略下会丢弃许多正确信息,如第5个句子中的“纯牛奶(产品)”、第7个句子中的“矿泉水(产品)”,同时会使模型学习到许多噪声信息,如第1个句子中的“梁连起”、第4个句子中的“面色(身体部位)”等,降低了模型性能.

    图7展示了3个中文数据集中部分人工标注实例,可以看到“厨房纸(产品)”“王太守则(人名)”“肠管(身体部位)”“干湿性啰音(检查和检验)”这些实体并没有被标注出. 此现象说明了人工标注数据集耗时耗力,工作量庞大,但是依然无法避免小部分由于人为疏漏或标注人员间判断标准的差异引入的噪声实体,再次证明了我们提出的NER模型预训练策略的有效性.

    图  7  人工标注数据示例
    Figure  7.  Instances of manual annotation data

    本文提出了一种解决远程监督NER任务中噪声标注问题的新方法RLTL-DSNER. 其在强化学习框架中的策略网络引入了TC函数,为文本语句中的每个单词提供了标签置信分数,并使用单词级别的实例选择策略以最大限度保留样本中的正确信息,减少噪声实例对远程监督NER的负面影响. 此外,本文提出了一种NER模型预训练策略,该策略可以为强化学习的初始训练提供精准的状态表示和有效奖励值,帮助策略网络在训练初期以正确的方向更新其参数. 在3个中文数据集和1个英文医学数据集上的大量实验结果验证了RLTL-DSNER的优越性,在NEWS数据集上,相较于现有最先进的方法,获得了4.28%的F1值提升.

    作者贡献声明:王嘉诚和王凯完成了算法思路设计、实验方案制定,并完成实验和论文撰写工作;王昊奋提供论文撰写指导、技术支持;杜渂和何之栋完成了相关文献梳理、实验数据整理,并讨论方案;阮彤完成了论文框架设计、整体内容规划;刘井平提供论文撰写指导和完善实验方案.

  • 图  1   远程监督标注示例

    Figure  1.   An example of distantly supervised annotation

    图  2   RLTL-DSNER的主要框架

    Figure  2.   The main framework of RLTL-DSNER

    图  3   人工往数据集中添加不同比例噪声后的训练情况

    Figure  3.   The training situation after artificially adding different proportions of noise to the dataset

    图  4   动作选择示例

    Figure  4.   An example of action selection

    图  5   不同策略下相同模型的初期训练表现

    Figure  5.   Initial training performance of the same model under different strategies

    图  6   远程监督数据的实例选择示例

    Figure  6.   Instances selection examples for the distantly supervised data

    图  7   人工标注数据示例

    Figure  7.   Instances of manual annotation data

    表  1   数据集统计

    Table  1   Statistics of Datasets

    数据集训练集验证集条数测试集条数
    人工标注条数远程监督条数
    EC12002500400800
    NEWS3000372233283186
    CCKS-DS1723586910242238
    BC5CDR45601500045814797
    下载: 导出CSV

    表  2   EC数据集的主要结果

    Table  2   Main Results on EC Dataset %

    模型 F1 P R
    DSNER 61.45 61.57 61.33
    NER+PA+RL 63.56 61.86 65.35
    LexiconNER 61.22
    Span-based+SL 65.70 67.55 63.94
    NegSampling-NER 66.17
    NegSampling-variant 67.03
    RLTL-DSNER(本文,句子级别) 68.47 67.75 69.21
    RLTL-DSNER(本文) 69.34 68.36 70.35
    下载: 导出CSV

    表  3   NEWS数据集的主要结果

    Table  3   Main Results on NEWS Dataset %

    模型 F1 P R
    DSNER 79.22 76.95 81.63
    NER+PA+RL 80.04 79.88 80.20
    LexiconNER 77.98
    Span-based+SL 85.23 85.63 84.84
    NegSampling-NER 85.39
    NegSampling-variant 86.15
    RLTL-DSNER(本文,句子级别) 87.95 87.98 87.92
    RLTL-DSNER(本文) 90.43 90.01 90.87
    下载: 导出CSV

    表  4   CCKS-DS数据集的主要结果

    Table  4   Main Results on CCKS-DS Dataset %

    模型 F1 P R
    NER+PA+RL 78.38 79.56 77.23
    NegSampling-NER 82.72 83.21 82.24
    RLTL-DSNER(句子级别) 83.97 79.76 88.66
    RLTL-DSNER 84.97 81.47 88.77
    下载: 导出CSV

    表  5   BC5CDR数据集的主要结果

    Table  5   Main Results on BC5CDR Dataset %

    模型 F1 P R
    MTM-CW 88.78 89.10 88.47
    NER+PA+RL 88.01 87.00 89.04
    BioFLAIR 89.42
    Spark-Biomedical 89.73
    RLTL-DSNER(句子级别) 88.92 88.72 89.13
    RLTL-DSNER 90.21 89.64 90.78
    下载: 导出CSV

    表  6   消融实验

    Table  6   Ablation Study %

    模型 数据集 F1 P R
    baseline:H EC 68.03 67.11 68.97
    baseline:H+D 63.15 66.95 59.76
    w/o HT 68.81 68.32 69.30
    RLTL-DSNER(本文) 69.34 68.36 70.35
    baseline:H NEWS 87.34 87.09 87.58
    baseline:H+D 81.86 84.28 79.58
    w/o HT 88.73 88.43 89.04
    RLTL-DSNER(本文) 90.43 90.01 90.87
    baseline:H CCKS-DS 80.25 75.63 85.47
    baseline:H+D 70.85 63.33 80.39
    w/o HT 83.95 80.75 87.42
    RLTL-DSNER(本文) 84.97 81.47 88.77
    baseline:H BC5CDR 86.47 84.40 88.65
    baseline:H+D 87.79 88.03 87.55
    w/o HT 89.77 88.58 91.00
    RLTL-DSNER(本文) 90.21 89.64 90.78
    下载: 导出CSV
  • [1] 李冬梅,张扬,李东远,等. 实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7):1424−1448 doi: 10.7544/issn1000-1239.2020.20190358

    Li Dongmei, Zhang Yang, Li Dongyuan, et al. Review of entity relation extraction methods[J]. Journal of Computer Research and Development, 2020, 57(7): 1424−1448(in Chinese) doi: 10.7544/issn1000-1239.2020.20190358

    [2]

    Mutabazi E, Ni Jianjun, Tang Guangyi, et al. A review on medical textual question answering systems based on deep learning approaches[J/OL]. Applied Sciences, 2021[2023-05-24].https://www.mdpi.com/2076-3417/11/12/5456

    [3] 胡宇,申德荣,聂铁铮,等. 面向生物医学实体链接的联合式学习方法[J]. 计算机学报,2022,45(4):748−765 doi: 10.11897/SP.J.1016.2022.00748

    Hu Yu, Shen Derong, Nie Tiezheng, et al. A joint learning method for biomedical entity linking[J]. Chinese Journal of Computers, 2022, 45(4): 748−765 (in Chinese) doi: 10.11897/SP.J.1016.2022.00748

    [4] 杨玉基,许斌,胡家威,等. 一种准确而高效的领域知识图谱构建方法[J]. 软件学报,2018,29(10):2931−2947

    Yang Yuji, Xu Bin, Hu Jiawei, et al. Accurate and efficient method for constructing domain knowledge graph[J]. Journal of Software, 2018, 29(10): 2931−2947 (in Chinese)

    [5] 王萌,王昊奋,李博涵,等. 新一代知识图谱关键技术综述[J]. 计算机研究与发展,2022,59(9):1947−1965 doi: 10.7544/issn1000-1239.20210829

    Wang Meng, Wang Haofen, Li Bohan, et al. Survey on key technologies of new generation knowledge graph[J]. Journal of Computer Research and Development, 2022, 59(9): 1947−1965 (in Chinese) doi: 10.7544/issn1000-1239.20210829

    [6] 王飞,刘井平,刘斌,等. 代码知识图谱构建及智能化软件开发方法研究[J]. 软件学报,2020,31(1):47−66

    Wang Fei, Liu Jingping, Liu Bin, et al. Survey on construction of code knowledge graph and intelligent software development[J]. Journal of Software, 2020, 31(1): 47−66 (in Chinese)

    [7]

    Souza F, Nogueira R, Lotufo R. Portuguese named entity recognition using BERT-CRF[J]. arXiv preprint, arXiv: 1909.10649, 2019

    [8]

    Hao Fei, Ji Donghong, Li Bobo, et al. Rethinking boundaries: End-to-end recognition of discontinuous mentions with pointer networks[C]//Proc of the 35th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2021: 12785−12793

    [9]

    Xie Chenhao, Liang Jiaqing, Liu Jingping, et al. Revisiting the negative data of distantly supervised relation extraction[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing (ACL-IJCNLP). Stroudsburg, PA: ACL, 2021: 3572−3581

    [10]

    Lange L, Hedderich M A, Klakow D. Feature-dependent confusion matrices for low-resource NER labeling with noisy labels[C]// Proc of the 2019 Conf on Empirical Methods in Natural Language Processing and the 9th Int Joint Conf on Natural Language Processing (EMNLP-IJCNLP). Stroudsburg, PA: ACL, 2019: 3554−3559

    [11]

    Li Yangming, Liu Lemao, Shi Shuming. Empirical analysis of unlabeled entity problem in named entity recognition[C/OL]//Proc of the 9th Int Conf on Learning Representations. 2021[2023-05-24].https://openreview.net/forum?id=5jRVa89sZk

    [12]

    Li Yangming, Liu Lemao, Shi Shuming. Rethinking negative sampling for unlabeled entity problem in named entity recognition[J]. arXiv preprint, arXiv: 2108.11607, 2021

    [13]

    Yang Yaosheng, Chen Wenliang, Li Zhenghua, et al. Distantly supervised NER with partial annotation learning and reinforcement learning[C]//Proc of the 27th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2018: 2159−2169

    [14]

    Nooralahzadeh F, Lønning J T, Øvrelid L. Reinforcement-based denoising of distantly supervised NER with partial annotation[C]//Proc of the 2nd Workshop on Deep Learning Approaches for Low-Resource NLP. Stroudsburg, PA: ACL, 2019: 225−234

    [15]

    Berger A, Della Pietra S A, Della Pietra V J. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996, 22(1): 39−71

    [16]

    Hu Weiming, Tian Guodong, Kang Yongxin, et al. Dual sticky hierarchical Dirichlet process hidden Markov model and its application to natural language description of motions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(10): 2355−2373

    [17]

    Chen P H, Lin C J, Schölkopf B. A tutorial on ν-support vector machines[J]. Applied Stochastic Models in Business and Industry, 2005, 21(2): 111−136 doi: 10.1002/asmb.537

    [18]

    Lee C, Hwang Y G, Oh H J, et al. Fine-grained named entity recognition using conditional random fields for question answering[C]//Proc of the 3rd Asia Conf on Information Retrieval Technology. Berlin: Springer, 2006: 581−587

    [19]

    Devlin J, Chang Mingwei, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv: 1810.04805, 2018

    [20] 罗凌,杨志豪,宋雅文,等. 基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J]. 计算机学报,2020,43(10):1943−1957 doi: 10.11897/SP.J.1016.2020.01943

    Luo Ling, Yang Zhihao, Song Yawen, et al. Chinese clinical named entity recognition based on stroke ELMo and multi-task learning[J]. Chinese Journal of Computers, 2020, 43(10): 1943−1957 (in Chinese) doi: 10.11897/SP.J.1016.2020.01943

    [21]

    Xu Canwen, Wang Feiyang, Han Jialong, et al. Exploiting multiple embeddings for Chinese named entity recognition[C]//Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 2269−2272

    [22]

    Shang Jingbo, Liu Liyuan, Gu Xiaotao, et al. Learning named entity tagger using domain-specific dictionary[C]//Proc of the 2018 Conf on Empirical Methods in Natural Language Processing(EMNLP). Stroudsburg, PA: ACL, 2018: 2054−2064

    [23]

    Wang Xuan, Zhang Yu, Li Qi, et al. Distantly supervised biomedical named entity recognition with dictionary expansion[C]//Proc of 2019 IEEE Int Conf on Bioinformatics and Biomedicine (BIBM). Piscataway, NJ: IEEE, 2019: 496−503

    [24] 高建伟,万怀宇,林友芳. 融合实体外部知识的远程监督关系抽取方法[J]. 计算机研究与发展,2022,59(12):2794−2802 doi: 10.7544/issn1000-1239.20210445

    Gao Jianwei, Wan Huaiyu, Lin Youfang. Exploiting external entity knowledge for distantly supervised relation extraction[J]. Journal of Computer Research and Development, 2022, 59(12): 2794−2802(in Chinese) doi: 10.7544/issn1000-1239.20210445

    [25]

    Peng Minlong, Xing Xiaoyu, Zhang Qi, et al. Distantly supervised named entity recognition using positive-unlabeled learning[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics(ACL). Stroudsburg, PA: ACL, 2019: 2409-2419

    [26]

    Liang Chen, Yu Yue, Jiang Haoming, et al. Bond: BERT-assisted open-domain named entity recognition with distant supervision[C]//Proc of the 26th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2020: 1054-1064

    [27]

    Qin Pengda, Xu Weiran, Wang W Y. Robust distant supervision relation extraction via deep reinforcement learning[C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics (ACL). Stroudsburg, PA: ACL, 2018: 2137−2147

    [28]

    Feng Jun, Minlie Huang, Zhao Li, et al. Reinforcement learning for relation classification from noisy data[C]// Proc of the 32nd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 5779−5786

    [29]

    Jiang Haoming, Zhang Danqing, Cao Tianyu, et al. Named entity recognition with small strongly labeled and large weakly labeled data[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing (ACL-IJCNLP). Stroudsburg, PA: ACL, 2021: 1775−1789

    [30]

    Ficek A, Liu Fangyu, Collier N. How to tackle an emerging topic? Combining strong and weak labels for Covid news NER[J]. arXiv preprint, arXiv: 2209.15108, 2022

    [31]

    Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3): 229−256

    [32]

    Li Jiao, Sun Yueping, Johnson R J, et al. BioCreative V CDR task corpus: A resource for chemical disease relation extraction[J/OL]. Database, 2016[2023-05-24].https://academic.oup.com/database/article/doi/10.1093/database/baw068/2630414

    [33]

    Levow G A. The third international Chinese language processing bakeoff: Word segmentation and named entity recognition[C]//Proc of the 5th SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: ACL, 2006: 108−117

    [34]

    Mao Hongli, Tang Hanlin, Zhang Wen, et al. A Span-based distantly supervised NER with self-learning[C]//Proc of the 9th CCF Int Conf on Natural Language Processing and Chinese Computing. Berlin: Springer, 2020: 192−203

    [35]

    Wang Xuan, Zhang Yu, Ren Xiang, et al. Cross-type biomedical named entity recognition with deep multi-task learning[J]. Bioinformatics, 2019, 35(10): 1745−1752 doi: 10.1093/bioinformatics/bty869

    [36]

    Sharma S, Daniel Jr R. BioFLAIR: Pretrained pooled contextualized embeddings for biomedical sequence labeling tasks[J]. arXiv preprint, arXiv: 1908.05760, 2019

    [37]

    Kocaman V, Talby D. Biomedical named entity recognition at scale[C]//Proc of the 25th Int Conf on Pattern Recognition(ICPR). Berlin: Springer, 2021: 635−646

    [38]

    Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[C]//Proc of the 2019 Conf on Empirical Methods in Natural Language Processing and the 9th Int Joint Conf on Natural Language Processing (EMNLP-IJCNLP). Stroudsburg, PA: ACL, 2019: 3615−3620

  • 期刊类型引用(1)

    1. 彭兰. 与数字人共存将带来什么?. 新闻界. 2024(09): 4-14 . 百度学术

    其他类型引用(0)

图(7)  /  表(6)
计量
  • 文章访问数:  238
  • HTML全文浏览量:  35
  • PDF下载量:  82
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-12-06
  • 修回日期:  2023-06-29
  • 网络出版日期:  2024-01-29
  • 刊出日期:  2024-04-05

目录

/

返回文章
返回