• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于注意机制的化学药物命名实体识别

杨培, 杨志豪, 罗凌, 林鸿飞, 王健

杨培, 杨志豪, 罗凌, 林鸿飞, 王健. 基于注意机制的化学药物命名实体识别[J]. 计算机研究与发展, 2018, 55(7): 1548-1556. DOI: 10.7544/issn1000-1239.2018.20170506
引用本文: 杨培, 杨志豪, 罗凌, 林鸿飞, 王健. 基于注意机制的化学药物命名实体识别[J]. 计算机研究与发展, 2018, 55(7): 1548-1556. DOI: 10.7544/issn1000-1239.2018.20170506
Yang Pei, Yang Zhihao, Luo Ling, Lin Hongfei, Wang Jian. An Attention-Based Approach for Chemical Compound and Drug Named Entity Recognition[J]. Journal of Computer Research and Development, 2018, 55(7): 1548-1556. DOI: 10.7544/issn1000-1239.2018.20170506
Citation: Yang Pei, Yang Zhihao, Luo Ling, Lin Hongfei, Wang Jian. An Attention-Based Approach for Chemical Compound and Drug Named Entity Recognition[J]. Journal of Computer Research and Development, 2018, 55(7): 1548-1556. DOI: 10.7544/issn1000-1239.2018.20170506

基于注意机制的化学药物命名实体识别

基金项目: 国家自然科学基金项目(61272373,61572102,61572098);新世纪优秀人才支持计划(NCET-13-0084);国家重点研究计划项目(2016YFC0901902)
详细信息
  • 中图分类号: TP391

An Attention-Based Approach for Chemical Compound and Drug Named Entity Recognition

  • 摘要: 在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields, CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(Attention)机制的深度学习方法.该方法首先从海量生物文本中学习词向量,然后利用双向长短期记忆网络(BiLSTM)学习字符向量,随后将词向量和字符向量再经过另一个BiLSTM以获得词的上下文表示,然后再利用Attention机制获得词在全文范围下的上下文表示,最后利用CRF层得到整篇文章的标签序列.实验结果表明:相比之前的研究方法,提高了在同一篇文章中实体识别的一致性,并在BioCreative IV评测中的CHEMDNER数据集上取得了更好的结果(F值为90.77%).
    Abstract: Recognizing chemical compound and drug name from unstructured data in the field of biomedical text mining is of great significance. The current popular approaches are based on CRF model which needs large amounts of hand-crafted features, and these approaches inevitably have the tagging non-consistency problem (the same mentions in a document are tagged different labels). In this paper, we propose an attention-based BiLSTM-CRF architecture to mitigate these aforementioned drawbacks. First, word embedding is obtained from vast amounts of unlabeled biomedical text. Then the characters of current word are fed to a BiLSTM layer to learn the character representation of this word. After this, word and character representations are transformed to another BiLSTM layer and the current adjacency context representation of this word is generated. Then we use attention mechanism to obtain the current word’s context at document level on the basis of the adjacency context of all words in this document and the current word. At last, a CRF layer is used to predict the label sequence of this document according to the integration of the current adjacency context and the document-level context. Experimental results show that our method improves the consistency of mention’s label in the same document, and it can also achieve better performance (an F-score of 90.77%) than the state-of-the-art methods on the BioCreative IV CHEMDNER corpus.
  • 期刊类型引用(39)

    1. 高国忠,李宇,华远鹏,吴文旷. 基于BERT-BiLSTM-CRF模型的油气领域命名实体识别. 长江大学学报(自然科学版). 2024(01): 57-65 . 百度学术
    2. 关菁华,毛子凡,王婷,谭梦琪. 基于LDA和深度模型的专利主题演化. 数学的实践与认识. 2024(04): 68-81 . 百度学术
    3. 李华昱,张智康,闫阳,岳阳. 基于知识图谱增强的领域多模态实体识别. 计算机工程. 2024(08): 31-39 . 百度学术
    4. 梁宏涛,郭超男,刘红菊,王莹. 电力领域命名实体识别研究综述. 计算机与数字工程. 2024(07): 2115-2122 . 百度学术
    5. 赵盾,佘学兵,邬昌兴. 基于BERT-BiLSTM-CRF党建领域命名实体识别. 计算机与现代化. 2024(09): 91-94 . 百度学术
    6. 庞娜,袁钺,薛秋红. 基于迁移学习的化学键能数据自动抽取. 现代情报. 2023(01): 19-28 . 百度学术
    7. 王颖洁,张程烨,白凤波,汪祖民,季长清. 中文命名实体识别研究综述. 计算机科学与探索. 2023(02): 324-341 . 百度学术
    8. 毛亮,赵林均,余敦辉,孙斌. 基于知识蒸馏的企业命名实体识别模型. 计算机工程. 2023(05): 90-96 . 百度学术
    9. 孔嘉斌,吕剑文,刘江南,杜文轩. 基于字频差算法与左切分词库构建的专利文献组件名称识别方法. 计算机科学. 2023(07): 229-236 . 百度学术
    10. 王娟,王志红,曹树金. 注入图情领域知识的命名实体识别模型. 图书馆论坛. 2023(07): 15-25 . 百度学术
    11. 陈雪松,詹子依,王浩畅. 融合SikuBERT模型与MHA的古汉语命名实体识别. 吉林大学学报(信息科学版). 2023(05): 866-875 . 百度学术
    12. 卓玛措,桑杰端珠,才让加,羊毛卓么. 面向藏文临床病历的医学实体识别研究. 计算机仿真. 2023(09): 208-212 . 百度学术
    13. 艾孜海尔江·玉素甫,姬东鸿,李霏,滕冲,艾孜尔古丽. 乌兹别克语命名实体数据集构建研究. 中文信息学报. 2023(09): 83-91 . 百度学术
    14. 邢志伟,戴铮,罗谦. 融入集成卷积和注意力的民航业务实体识别. 计算机工程与设计. 2022(02): 443-449 . 百度学术
    15. 冀振燕,孔德焱,刘伟,董为,桑艳娟. 基于深度学习的命名实体识别研究. 计算机集成制造系统. 2022(06): 1603-1615 . 百度学术
    16. 汤礼欣,周兰江,张力,张建安. 融合短语结构的多通道老挝语名词短语识别方法. 中文信息学报. 2022(06): 61-68+89 . 百度学术
    17. 赵卓,田侃,张殊,张晨,吴涛,姜丰,游小琳. 基于预训练模型的文博数据命名实体识别方法. 计算机应用. 2022(S1): 48-53 . 百度学术
    18. 唐焕玲,王慧,隗昊,赵红磊,窦全胜,鲁明羽. 面向时钟领域的BERT-LCRF命名实体识别方法. 计算机工程与应用. 2022(18): 218-226 . 百度学术
    19. 范媛媛,李忠民. 中文医学知识图谱研究及应用进展. 计算机科学与探索. 2022(10): 2219-2233 . 百度学术
    20. 李娜. 基于深度学习的《方志物产》用途实体自动识别模型构建与应用. 数字图书馆论坛. 2022(12): 19-28 . 百度学术
    21. 匡泽民,李健铨,邓楠. 信息抽取在构建医学知识图谱中的应用及进展. 医学信息学杂志. 2021(01): 29-35 . 百度学术
    22. 李韧,李童,杨建喜,莫天金,蒋仕新,李东. 基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别. 中文信息学报. 2021(04): 83-91 . 百度学术
    23. 杜悦,王东波,江川,徐润华,李斌,许超,徐晨飞. 数字人文下的典籍深度学习实体自动识别模型构建及应用研究. 图书情报工作. 2021(03): 100-108 . 百度学术
    24. 陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超. 基于ALBERT模型的园林植物知识实体与关系抽取方法. 地球信息科学学报. 2021(07): 1208-1220 . 百度学术
    25. 董文斌,战洪飞,余军合,王瑞. 机械产品专利知识的提取和应用. 机械制造. 2021(08): 1-8 . 百度学术
    26. 张军亮,方雪梅,雒曼,孙晶晶. 融合HowNet的中文电子病历命名实体识别. 情报理论与实践. 2021(10): 18-26 . 百度学术
    27. 郑丽敏,任乐乐. 采用融合规则与BERT-FLAT模型对营养健康领域命名实体识别. 农业工程学报. 2021(20): 211-218 . 百度学术
    28. 陈晓燕,贾珊,何有世. 基于深度学习的领域本体构建研究——以汽车领域为例. 情报杂志. 2020(01): 174-178 . 百度学术
    29. 杨飘,董文永. 基于BERT嵌入的中文命名实体识别方法. 计算机工程. 2020(04): 40-45+52 . 百度学术
    30. 陈瑶,葛卫红,廖俊. 深度学习在医药领域命名实体识别中的研究进展. 药学进展. 2020(01): 28-34 . 百度学术
    31. 杨健,黄瑞章,丁志远,陈艳平,秦永彬. 基于边界识别与组合的裁判文书证据抽取方法研究. 中文信息学报. 2020(03): 80-87 . 百度学术
    32. 黄胜,李胜,朱菁. 面向并购重组类公告的信息抽取. 计算机工程与设计. 2020(05): 1420-1426 . 百度学术
    33. 赵青,王丹,徐书世,张晓桐,王晓曦. 中文医疗实体的弱监督识别方法. 哈尔滨工程大学学报. 2020(03): 425-432 . 百度学术
    34. 张秋颖,傅洛伊,王新兵. 基于BERT-BiLSTM-CRF的学者主页信息抽取. 计算机应用研究. 2020(S1): 47-49 . 百度学术
    35. 魏优,刘茂福,胡慧君. 基于深层语境词表示与自注意力的生物医学事件抽取. 计算机工程与科学. 2020(09): 1670-1679 . 百度学术
    36. 马建红,张炳斐,张少光,刘双耀. 基于主动MCNN-SCRF的新能源汽车命名实体识别. 计算机工程与应用. 2019(07): 23-29 . 百度学术
    37. 佟威,汪飞,刘淇,陈恩红. 数据驱动的数学试题难度预测. 计算机研究与发展. 2019(05): 1007-1019 . 本站查看
    38. 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究——以安全情报领域为例. 数据分析与知识发现. 2019(10): 20-28 . 百度学术
    39. 修晓蕾,吴思竹,崔佳伟,邬金鸣,钱庆. 医学知识图谱构建研究进展. 中华医学图书情报杂志. 2018(10): 33-39 . 百度学术

    其他类型引用(53)

计量
  • 文章访问数:  1702
  • HTML全文浏览量:  6
  • PDF下载量:  787
  • 被引次数: 92
出版历程
  • 发布日期:  2018-06-30

目录

    /

    返回文章
    返回