• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

结合GAN与BiLSTM-Attention-CRF的领域命名实体识别

张晗, 郭渊博, 李涛

张晗, 郭渊博, 李涛. 结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J]. 计算机研究与发展, 2019, 56(9): 1851-1858. DOI: 10.7544/issn1000-1239.2019.20180733
引用本文: 张晗, 郭渊博, 李涛. 结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J]. 计算机研究与发展, 2019, 56(9): 1851-1858. DOI: 10.7544/issn1000-1239.2019.20180733
Zhang Han, Guo Yuanbo, Li Tao. Domain Named Entity Recognition Combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9): 1851-1858. DOI: 10.7544/issn1000-1239.2019.20180733
Citation: Zhang Han, Guo Yuanbo, Li Tao. Domain Named Entity Recognition Combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9): 1851-1858. DOI: 10.7544/issn1000-1239.2019.20180733
张晗, 郭渊博, 李涛. 结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J]. 计算机研究与发展, 2019, 56(9): 1851-1858. CSTR: 32373.14.issn1000-1239.2019.20180733
引用本文: 张晗, 郭渊博, 李涛. 结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J]. 计算机研究与发展, 2019, 56(9): 1851-1858. CSTR: 32373.14.issn1000-1239.2019.20180733
Zhang Han, Guo Yuanbo, Li Tao. Domain Named Entity Recognition Combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9): 1851-1858. CSTR: 32373.14.issn1000-1239.2019.20180733
Citation: Zhang Han, Guo Yuanbo, Li Tao. Domain Named Entity Recognition Combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9): 1851-1858. CSTR: 32373.14.issn1000-1239.2019.20180733

结合GAN与BiLSTM-Attention-CRF的领域命名实体识别

基金项目: 国家自然科学基金项目(61501515);河南省重点科技攻关项目(172102210002);郑州大学青年骨干教师项目(2017ZDGGJS048)
详细信息
  • 中图分类号: TP183

Domain Named Entity Recognition Combining GAN and BiLSTM-Attention-CRF

Funds: This work was supported by the National Natural Science Foundation of China (61501515), the Key Scientific and Technological Research Project of Henan Province (172102210002), and the Young Scholar Teachers Project of Zhengzhou University (2017ZDGGJS048).
  • 摘要: 领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法.
    Abstract: Domain named entity recognition usually faces the lack of domain annotation data and the inconsistency of entity annotation in the same document due to the diversity of entity names in the domain. To issue the above problems, our work draws on the combination of the generative adversarial network (GAN) which can generate data and the BiLSTM-Attention-CRF model. Firstly, BiLSTM-Attention is used as the generator model of GAN, and CNN is used as the discriminant model. The two models use the crowd annotations and the expert annotations to train respectively, and integrate the positive annotation data consistent with the expert annotation data distribution from the crowd annotations to solve the problem of lack of annotation data in the domain; then we also introduce a new method to obtain the new feature representation of each word in the document through introducing a document-level global feature in the BiLSTM-Attention-CRF model in order to solve the problem of inconsistency of the entity in the same document caused by the diversification of the entity name. Finally, taking the crowd annotations in the information security field as a sample, a comprehensive horizontal evaluation experiment is carried out by learning the common features and applying them to the training BiLSTM-Attention-CRF model for the identification of named entities in the information security field. The results show that compared with the existing models and methods, the model we proposed has made great progress on various indicators, reflecting its superiority.
  • 期刊类型引用(28)

    1. 李东亚,白涛,香慧敏,戴硕,王震鲁,陈珍. 基于RoBERTa多特征融合的棉花病虫害命名实体识别. 河南农业科学. 2024(02): 152-161 . 百度学术
    2. 阮光册,钟静涵,张祎笛. 基于深度学习的术语识别研究综述. 数据分析与知识发现. 2024(04): 64-75 . 百度学术
    3. 王颖洁,张程烨,白凤波,汪祖民. 基于Transformer的司法文书命名实体识别方法. 计算机科学. 2024(S1): 125-133 . 百度学术
    4. 梁宏涛,刘雨婷,李帅,高大唤,朱洁. 多策略黏菌算法优化BiLSTM的命名实体识别研究. 中文信息学报. 2024(07): 51-62 . 百度学术
    5. 王颖洁,张程烨,白凤波,汪祖民,季长清. 中文命名实体识别研究综述. 计算机科学与探索. 2023(02): 324-341 . 百度学术
    6. 毛亮,赵林均,余敦辉,孙斌. 基于知识蒸馏的企业命名实体识别模型. 计算机工程. 2023(05): 90-96 . 百度学术
    7. 王馨瑢,胡金南. 人文社科专题文献命名实体识别. 数字技术与应用. 2023(07): 97-100 . 百度学术
    8. 喻金平,朱伟锋,廖列法. 基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究. 计算机工程与科学. 2023(08): 1498-1507 . 百度学术
    9. 张文韩,刘小明,杨关,刘杰. 多层结构化语义知识增强的跨领域命名实体识别. 计算机研究与发展. 2023(12): 2864-2876 . 本站查看
    10. 马玉凤,向南,豆亚杰,姜江,杨克巍,谭跃进. 军事系统工程中的知识图谱应用及研究. 系统工程与电子技术. 2022(01): 146-153 . 百度学术
    11. 张毅,王爽胜,何彬,叶培明,李克强. 基于BERT的初等数学文本命名实体识别方法. 计算机应用. 2022(02): 433-439 . 百度学术
    12. 李攀锋,陈樱珏,钟泠韵,林锋. 基于多粒度认知的命名实体识别方法. 四川大学学报(自然科学版). 2022(02): 64-70 . 百度学术
    13. 杨璐,张恬,郑丽敏,田立军. 兽药致病命名实体Att-Aux-BERT-BiLSTM-CRF识别. 农业机械学报. 2022(03): 294-300 . 百度学术
    14. 彭雪,赵辉,郑肇谦,庞海婷. 融合多种嵌入表示的中文命名实体识别. 长春工业大学学报. 2022(01): 81-90 . 百度学术
    15. 刘巨升,于红,杨惠宁,邵立铭,宋奇书,李光宇,张思佳,孙华. 基于多核卷积神经网络(BERT+Multi-CNN+CRF)的水产医学嵌套命名实体识别. 大连海洋大学学报. 2022(03): 524-530 . 百度学术
    16. 刘巨升,杨惠宁,孙哲涛,杨鹤,邵立铭,于红,张思佳,叶仕根. 面向知识图谱构建的水产动物疾病诊治命名实体识别. 农业工程学报. 2022(07): 210-217 . 百度学术
    17. 左亚尧,陈皓宇,陈致然,洪嘉伟,陈坤. 融合多语义特征的命名实体识别方法. 计算机应用. 2022(07): 2001-2008 . 百度学术
    18. 臧凌玉,张应中,罗晓芳. 基于双重深度迁移学习的机械领域命名实体识别. 计算机应用与软件. 2022(09): 219-224 . 百度学术
    19. 范晓武,葛嘉恒. 高速公路突发事件实体识别及事件分类联合模型研究. 计算机时代. 2021(01): 11-15+20 . 百度学术
    20. 赵鹏飞,赵春江,吴华瑞,王维. 基于注意力机制的农业文本命名实体识别. 农业机械学报. 2021(01): 185-192 . 百度学术
    21. 姜同强,王岚熙. 基于双向编码器表示模型和注意力机制的食品安全命名实体识别. 科学技术与工程. 2021(03): 1103-1108 . 百度学术
    22. 王玉玲. 大数据背景的电子商务商品实体识别算法. 微型电脑应用. 2021(06): 80-83 . 百度学术
    23. 娄培,方安,赵琬清,杨晨柳,胡佳慧. 电子病历信息抽取可视化分析. 医学信息学杂志. 2021(04): 35-40 . 百度学术
    24. 刘继明,孙成,袁野. 基于训练模型改进的语音问句信息抽取方法. 科学技术与工程. 2021(18): 7635-7641 . 百度学术
    25. 郑丽敏,任乐乐. 采用融合规则与BERT-FLAT模型对营养健康领域命名实体识别. 农业工程学报. 2021(20): 211-218 . 百度学术
    26. 张晗,胡永进,郭渊博,陈吉成. 信息安全领域内实体共指消解技术研究. 通信学报. 2020(02): 165-175 . 百度学术
    27. 尉桢楷,程梦,周夏冰,李志峰,邹博伟,洪宇,姚建民. 基于类卷积交互式注意力机制的属性抽取研究. 计算机研究与发展. 2020(11): 2456-2466 . 本站查看
    28. 胡万亭,郭建英,张继永. 一种基于改进ELMO模型的组织机构名识别方法. 计算机技术与发展. 2020(11): 25-29 . 百度学术

    其他类型引用(54)

计量
  • 文章访问数:  3305
  • HTML全文浏览量:  14
  • PDF下载量:  1384
  • 被引次数: 82
出版历程
  • 发布日期:  2019-08-31

目录

    /

    返回文章
    返回