计算机研究与发展

1

2022, 59(12): 2867-2877. DOI: 10.7544/issn1000-1239.20210865

CSTR: 32373.14.issn1000-1239.20210865

摘要(117) HTML(6) PDF(3.8M)(71)

摘要：
用户点击数据较文档的相关标签更易被获取且能反映用户兴趣，将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声，因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无法完全消除偏差的问题，提出一种基于相关修正的无偏排序学习方法.首先，利用现有小规模相关标注数据训练排序模型，对候选文档进行较精准的相关得分预测；再基于用户点击和文档相关得分训练点击倾向模型；最后，将得到的模型参数设为对偶去偏初始值并联合训练.该方法不影响模型上线的计算速度，可用于在线学习场景，模拟不同程度偏差噪声并在真实点击场景下进行测试，结果表明该方案能够有效提升现有无偏排序学习方法表现.

2

融合语义解析的知识图谱表示方法

胡旭阳, 王治政, 孙媛媛, 徐博, 林鸿飞

2022, 59(12): 2878-2888. DOI: 10.7544/issn1000-1239.20210849

CSTR: 32373.14.issn1000-1239.20210849

摘要(187) HTML(13) PDF(1.6M)(120)

摘要：
为解决大多数知识图谱表示学习模型仅使用三元组信息的问题，提出融合语义解析的知识图谱表示模型BERT-PKE.模型利用实体和关系的文本描述，通过BERT的双向编码表示进行语义解析，深度挖掘语义信息.由于BERT训练代价昂贵，提出一种基于词频和k近邻的剪枝策略，提炼选择文本描述集.此外，由于负样本的构造影响了模型的训练，提出2种改进随机抽样的策略：一种是基于实体分布的负采样方法，以伯努利分布概率来选择替换的实体，该方法可以减少负采样引起的伪标记问题；另一种是基于实体相似性负采样方法，首先用TransE将实体嵌入到向量空间，使用k-means聚类算法将实体进行分类.通过同簇实体的相互替换可获得高质量的负三元组，有利于实体的特征学习.实验结果表明，所提出BERT-PKE模型与TransE,KG-BERT,RotatE等相比，性能有显著提升.

3

基于记忆网络的知识感知医疗对话生成

张晓宇, 李冬冬, 任鹏杰, 陈竹敏, 马军, 任昭春

2022, 59(12): 2889-2900. DOI: 10.7544/issn1000-1239.20210851

CSTR: 32373.14.issn1000-1239.20210851

摘要(235) HTML(9) PDF(2.8M)(124)

摘要：
为了解决就医过程中医疗资源短缺和患者时间不充裕、行程不便的问题，提出了结合外部知识的基于记忆网络的知识感知医疗对话生成模型(memory networks based knowledge-aware medical dialogue generation model, MKMed).该模型首先通过利用精确字匹配的方法在对话历史中进行实体追踪；随后在外部实体知识数据库里设计2阶段的实体预测，筛选出可能出现在回复中的医疗实体及对应知识，其中2阶段实体预测分别利用计算共现矩阵和余弦相似度的方法；模型接着用记忆网络来存储知识和对话历史的信息；最后整合记忆网络存储的信息，并使用注意力机制以及循环神经网络生成回复.在带有外部知识的大规模医疗对话数据集KaMed上进行了相关实验，该数据集为收集自在线平台的真实数据.实验结果表明提出的模型生成的回复在流畅性、多样性、正确性和专业性等方面均显著优于大部分基准模型.证明了合理引入外部知识的医疗对话模型能产生成更有医疗价值的回复.

4

舆情场景下基于层次知识的话题推荐方法

史存会, 胡耀康, 冯彬, 张瑾, 俞晓明, 刘悦, 程学旗

2021, 58(8): 1811-1819. DOI: 10.7544/issn1000-1239.2021.20190749

CSTR: 32373.14.issn1000-1239.2021.20190749

摘要(503) HTML(4) PDF(1.4M)(468)

摘要：
随着信息技术的飞速发展，互联网成为了舆情传播的主要载体.各种舆情事件不断涌现，并在网民的参与下广泛传播，由此可能引发强烈的社会反响.因此，如何实现网络舆情事件快速发现与个性化监测需求的精准推送，成为了当前舆情的重点关注内容.对于舆情场景下用户交互信息稀疏导致的兴趣难以刻画的问题，提出了一种基于层次知识的话题推荐模型.模型通过引入层次知识来扩充语义增加话题之间的潜在信息关联，分别对层次知识、话题和用户建模得到对应的嵌入向量表示，再结合多层感知机匹配模型预测用户点击率.实验结果表明，该模型在与多个基线算法的对比中，在F1(the balanced F score)和AUC(the area under curve)指标的平均值上分别提升了6.7%和4.9%.

5

虚假信息检测专题前言

虎嵩林, 赵军, 唐杰, 秦兵, 石川, 颜水成

2021, 58(7): 1351-1352. DOI: 10.7544/issn1000-1239.2021.qy0701

CSTR: 32373.14.issn1000-1239.2021.qy0701

摘要(788) HTML(14) PDF(0.2M)(621)

摘要：
虚假信息检测旨在综合应用自然语言处理、社交挖掘、跨模态分析等智能处理手段,发现并利用信息的内在特征、产生机理与传播规律,为以假新闻为代表的虚假、伪造信息的识别与干预提供理论和技术支持.《Science》在2018年3月一次刊发了2篇论文,讨论了假新闻的危害以及对其的科学观察与思考,引发了学术界与产业界对这一科学问题的持续关注．假新闻、谣言、水军贴等形态的虚假信息在新闻网站、社交媒体、电商应用等平台的泛滥,可能严重冲击经济、社会和政治秩序,对智能安全检测技术的创新发展提出了迫切需求.

6

网络信息生态系统中的虚假信息：检测、缓解与挑战

Amrita Bhattacharjee, 舒凯, 高旻, 刘欢

2021, 58(7): 1353-1365. DOI: 10.7544/issn1000-1239.2021.20200979

CSTR: 32373.14.issn1000-1239.2021.20200979

摘要(1174) HTML(14) PDF(0.8M)(842)

摘要：
随着互联网的迅速发展及网络社会媒体中用户的增加，通过社会媒体发布和传播信息的真实性和质量受到日益广泛的关注.目前大部分公众已习惯从社会媒体平台与互联网获取新闻，甚至是获取受到高度关注的话题(如新冠病毒感染症状)的信息.鉴于网络信息生态系统非常嘈杂，充斥着错误和虚假信息并经常受到恶意媒介的污染，从中识别真实的信息成为一项艰巨任务.对此，研究者们已开始致力于虚假信息检测和减缓虚假信息传播影响方面的工作.讨论了网络信息生态系统中的虚假信息问题，特别是随着新冠病毒大爆发而来的“信息疫情”.随后，简述了虚假信息检测方法，分析了减缓虚假信息影响的方法，并探讨了虚假信息研究中的固有挑战.最后从跨学科角度阐述了检测和减缓虚假信息影响的方法和未来研究展望.

7

新冠疫情相关社交媒体谣言传播量化分析

陈慧敏, 金思辰, 林微, 朱泽宇, 仝凌波, 刘一芃, 叶奕宁, 姜维翰, 刘知远, 孙茂松, 金兼斌

2021, 58(7): 1366-1384. DOI: 10.7544/issn1000-1239.2021.20200818

CSTR: 32373.14.issn1000-1239.2021.20200818

摘要(2042) HTML(44) PDF(6.9M)(847)

摘要：
新冠肺炎疫情的爆发伴随着大量的谣言在社交媒体平台传播，对网络秩序和社会稳定产生了不良影响.已有的疫情相关社交媒体谣言传播量化分析研究仅对谣言内容等单一传播要素展开分析，而忽略了构成信息传播的其他基础要素，包括传播者、受众以及传播效果等.同时，这些研究的谣言数据与真实的社交媒体谣言数据也存在分布偏差和信息缺失.因此，基于新浪微博平台对新冠疫情相关社交媒体谣言的传播展开更加全面的量化分析.具体而言，首先对谣言传播内容进行分析，包括其主题分析、涉及地区分析、事件倾向性分析以及情感分析；进一步对谣言参与用户进行分析，将参与用户分为3类：造谣者、传谣者和辟谣者，并分别对其基础属性、关注主题、个体情绪以及自网络属性进行探究；最后对谣言引发舆情进行分析，探究其情感的整体分布、与主题、关键词和地区的关系、以及情感的演变规律.该研究首次从信息传播的各个基础要素层面对疫情相关的社交媒体谣言传播展开量化分析，不仅对新冠肺炎疫情相关谣言传播有了更全面深刻的认识，同时对突发公共事件的谣言研究和谣言治理也具有十分重要的价值.

8

基于主题与情感联合预训练的虚假评论检测方法

张东杰, 黄龙涛, 张荣, 薛晖, 林俊宇, 路瑶

2021, 58(7): 1385-1394. DOI: 10.7544/issn1000-1239.2021.20200817

CSTR: 32373.14.issn1000-1239.2021.20200817

摘要(691) HTML(4) PDF(0.9M)(472)

摘要：
商品评论信息是用户线上决策的重要依据，但在利益的驱使下商家往往会通过雇佣专业的写手撰写大量虚假评论的方式来误导用户，进而达到包装自己或诋毁竞争对手的目的.这种现象会造成不正当的商业竞争和极差的用户体验.针对这一现象，我们通过情感预训练的方法对现有的虚假评论识别模型进行了改进，并提出了一种能够同时整合评论语义和情感信息的联合预训练学习方法.鉴于预训练模型强大的语义表示能力, 在联合学习框架中采用了2种预训练模型编码器分别用于抽取评论的语义和情感上下文特征，并通过联合训练的方法整合2种特征，最后使用Center Loss损失函数对模型进行优化.在多个公开数据集和多个不同任务上进行了验证实验，实验表明提出的联合模型在虚假评论检测与情感极性分析任务上都取得了目前最好的效果且具有更强的泛化能力.

9

一种基于多关系传播树的谣言检测方法

胡斗, 卫玲蔚, 周薇, 淮晓永, 韩冀中, 虎嵩林

2021, 58(7): 1395-1411. DOI: 10.7544/issn1000-1239.2021.20200810

CSTR: 32373.14.issn1000-1239.2021.20200810

摘要(784) HTML(7) PDF(1.4M)(521)

摘要：
近年来，社交媒体为人们消费信息提供便利的同时，也逐渐成为谣言产生和传播的温床.为了降低谣言的危害性，谣言检测受到研究学者的广泛关注.近期研究主要基于博文内容和传播结构信息，利用深度学习模型进行谣言检测.但是，这些方法仅考虑传播过程中博文之间的显式交互关系，忽略了对潜在关系的建模，难以捕捉到丰富的传播结构特征.例如，在转发(或评论)的交互形式下，多个转发者(或评论者)之间往往也存在局部的隐式交互.针对该挑战，提出一种基于多关系传播树的谣言检测方法，建模博文之间的多种依赖关系，同时增强重要博文的影响力，以捕获更丰富的信息传播结构特征.具体地，基于文本内容和传播树结构建立异构图，使用多关系图卷积网络建模父子节点之间的层间依赖关系和兄弟节点之间的层内依赖关系，并利用源节点和关键传播节点建模重要博文在信息传播中的潜在影响力，从而学习一个更全面的特征向量表示，用于检测谣言.在3个公开的真实数据集上进行广泛的实验，结果表明该方法具有比其他基线方法更高的谣言检测性能.

10

融合源信息和门控图神经网络的谣言检测研究

杨延杰, 王莉, 王宇航

2021, 58(7): 1412-1424. DOI: 10.7544/issn1000-1239.2021.20200801

CSTR: 32373.14.issn1000-1239.2021.20200801

摘要(660) HTML(5) PDF(2.1M)(501)

摘要：
社交媒体在带给人们便利同时，也为谣言的发布和传播提供了平台.目前，大多数的谣言检测方法都是基于文本内容信息，但在社交媒体场景下，文本内容大多是短文本，这类方法往往会因为数据稀疏性的问题导致性能下降.社交网络上的消息传播可建模为图结构，已有研究考虑消息传播结构特点，通过GCN等模型进行谣言检测.GCN依据结构信息聚合邻居来提升节点表示，但有些邻居聚合是无用的，甚至可能带来噪声，使得通过GCN得到的表示并不可靠.此外，这些研究不能有效的突出源帖信息的重要性.针对这些问题提出了一种融合门控的传播图卷积网络模型GUCNH，在GUCNH模型中，首先利用消息转发关系构建信息转发图，通过2个融合门控的图卷积网络模块来聚合邻居节点信息生成节点的表示，融合门控能够对图卷积之前的特征表示和之后的特征表示进行选择与组合，以得到更加可靠的表示.考虑到在转发图中，任意的帖子之间都可能存在相互影响，而不仅仅是基于邻接关系，因此在2个融合门控的图卷积网络模块之间引入多头自注意力模块来建模任意帖子之间的多角度影响.此外，在转发图中，源帖包含的信息往往是最原始、最丰富的，在生成各节点表示之后，选择性的增强了源节点的信息以增强根源信息的影响力.在3个真实数据集上进行的实验表明，提出的模型优于现有的方法.

11

基于模体度的社交网络虚假信息传播机制研究

徐铭达, 张子柯, 许小可

2021, 58(7): 1425-1435. DOI: 10.7544/issn1000-1239.2021.20200806

CSTR: 32373.14.issn1000-1239.2021.20200806

摘要(768) HTML(8) PDF(1.8M)(407)

摘要：
社交媒体作为信息传播的载体，既可使人们快捷地分享信息流和获取时事新闻，也可能成为虚假信息泛滥蔓延的重要渠道.现有的虚假信息检测研究多基于对微博内容的机器学习或深度学习的识别模型，忽略了真假信息传播网络的结构差异.基于复杂网络的模体理论，提出了广度模体度与深度模体度的概念来量化传播网络的结构重要指标.研究表明：基于模体度的重要性计算方法是对传统网络结构重要性指标的一种创新与拓展，能够更全面地测度传播网络结构特性.通过构建的二维模体度量化指标，分析和揭示了微博、Twitter网络中虚假信息的结构特性与传播机制:虚假信息在广度传播与深度传播共同作用下扩散，广度模体度主要作用于网络传播规模，而深度模体度影响网络结构的复杂性.基于模体度的网络特征分析，可以应用于社交媒体信息传播的早期从源头上检测虚假信息，为虚假信息检测提供了一种新颖可行的途径.

12

基于深度学习的图异常检测技术综述

陈波冯, 李靖东, 卢兴见, 沙朝锋, 王晓玲, 张吉

2021, 58(7): 1436-1455. DOI: 10.7544/issn1000-1239.2021.20200685

CSTR: 32373.14.issn1000-1239.2021.20200685

摘要(2877) HTML(25) PDF(4.3M)(1917)

摘要：
图异常检测旨在大图或海量图数据库中寻找“陌生”或“不寻常”模式，具有广泛的应用场景.深度学习可以从数据中学习隐含的规律，在提取数据中潜在复杂模式方面表现出优越的性能.近年来随着基于深度神经网络的图表示学习取得显著进展，如何利用深度学习方法进行图异常检测引起了学术界和产业界的广泛关注.尽管最近一系列研究从图的角度对异常检测技术进行了调研，但是缺少对深度学习技术下的图异常检测技术的关注.首先给出了静态图和动态图上各类常见的异常定义，然后调研了基于深度神经网络的图表示学习方法，接着从静态图和动态图的角度出发，梳理了基于深度学习的图异常检测的研究现状，并总结了图异常检测的应用场景和相关数据集，最后讨论了图异常检测技术目前面临的挑战和未来的研究方向.

13

语义增强的多模态虚假新闻检测

亓鹏, 曹娟, 盛强

2021, 58(7): 1456-1465. DOI: 10.7544/issn1000-1239.2021.20200804

CSTR: 32373.14.issn1000-1239.2021.20200804

摘要(1463) HTML(31) PDF(1.8M)(831)

摘要：
近年来社交媒体逐渐成为人们获取新闻信息的主要渠道，但其在给人们带来方便的同时也促进了虚假新闻的传播.在社交媒体的富媒体化趋势下，虚假新闻逐渐由单一的文本形式向多模态形式转变，因此多模态虚假新闻检测正在受到越来越多的关注.现有的多模态虚假新闻检测方法大多依赖于和数据集高度相关的表现层面特征，对新闻的语义层面特征建模不足，难以理解文本和视觉实体的深层语义，在新数据上的泛化能力受限.提出了一种语义增强的多模态虚假新闻检测方法，通过利用预训练语言模型中隐含的事实知识以及显式的视觉实体提取，更好地理解多模态新闻的深层语义.提取不同语义层次的视觉特征，在此基础上采用文本引导的注意力机制建模图文之间的语义交互，从而更好地融合多模态异构特征.在基于微博新闻的真实数据集上的实验结果表明:该方法能够有效提高多模态虚假新闻检测的性能.

14

基于全局-时频注意力网络的语音伪造检测

王成龙, 易江燕, 陶建华, 马浩鑫, 田正坤, 傅睿博

2021, 58(7): 1466-1475. DOI: 10.7544/issn1000-1239.2021.20200799

CSTR: 32373.14.issn1000-1239.2021.20200799

摘要(761) HTML(10) PDF(1.1M)(648)

摘要：
语音伪造检测是近年的一个研究热点，受到了广泛关注.目前，卷积神经网及其变种的提出，使其在语音伪造检测任务中取得了不错进展.然而，目前仍存在2方面问题：1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的，忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外，前人工作大多关注特征图的局部信息，没有利用全局视图中特征图之间的关系.为了解决以上挑战，引入全局-时频注意力框架，分别对通道维度和时频维度做了注意力变换.具体而言，引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块，可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块，借鉴了SE-Net的思想，通过参数为每个特征通道生成权重.通过这种办法，可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验，结果显示所提的模型取得不错的效果，最佳模型的等错误率达到4.12%，刷新了单个模型的最好成绩.

15

基于域对抗学习的可泛化虚假人脸检测方法研究

翁泽佳, 陈静静, 姜育刚

2021, 58(7): 1476-1489. DOI: 10.7544/issn1000-1239.2021.20200803

CSTR: 32373.14.issn1000-1239.2021.20200803

摘要(690) HTML(11) PDF(2.6M)(346)

摘要：
随着生成式对抗网络(generative adversarial networks, GAN)的快速发展，虚假人脸生成技术取得了显著进展.为了降低以假乱真的人脸生成技术给社会带来的危害，虚假人脸鉴别成为一个非常重要的课题，吸引了国内外研究者的广泛关注.然而，目前虚假人脸鉴别的研究工作相对较少，仍然有许多问题需要被解决.其中如何提升鉴别模型的迁移泛化能力是至关重要的问题，也是虚假人脸检测任务能否实际投入使用的关键所在.如何提升虚假人脸鉴别方法的泛化能力，即做到在没有见过的生成方法产生的数据上仍然准确有效非常重要.对此，提出了基于域对抗学习的可泛化虚假人脸检测模型，通过引入领域对抗分支，弱化特征提取器对于特定生成模型非鲁棒性特征的提取，模型能够抽取鲁棒性更强、泛化能力更高的特征，从而在没有见过的生成方法产生的虚假人脸图片上具有更好的鉴别表现.实验结果表明：所提出的方法能够提升鉴别模型的泛化能力，显著提升虚假人脸鉴别模型在未知生成模型产生的虚假图像上的性能.

16

社交网络信息传播预测与特定信息抑制

曹玖新, 高庆清, 夏蓉清, 刘伟佳, 朱雪林, 刘波

2021, 58(7): 1490-1503. DOI: 10.7544/issn1000-1239.2021.20200809

CSTR: 32373.14.issn1000-1239.2021.20200809

摘要(602) HTML(7) PDF(1.4M)(473)

摘要：
近年来，随着Twitter、Facebook、新浪微博等社交网站用户数量的激增，信息数量急剧膨胀，隐藏在海量信息中的不实信息的传播带来了不良的影响，如何调控或抑制特定信息的传播是网络信息管理面临的一项技术挑战.为了解决这一问题，首先从真实微博网络出发，基于机器学习方法提出了不依赖于传播模型的独立信息转发预测机制，从而对信息的传播进行预测；其次，基于独立级联模型，综合考虑本文场景的特殊性，提出了异步信息不平等竞争传播模型作为特定信息与免疫信息的竞争传播机制；最后，提出了3个种子节点集合选择算法，通过向选择的种子节点注入免疫信息使得免疫信息在网络中广泛传播从而抑制特定信息的传播.基于真实社交网站数据的实验证明，提出的信息传播预测模型以及种子节点选取算法对特定信息传播的调控和抑制具有良好的效果.

17

基于校园行为信息网络的生活习惯相似学生搜索

王新澳, 段磊, 崔丁山, 卢莉, 顿毅杰, 秦蕊琦

2020, 57(11): 2442-2455. DOI: 10.7544/issn1000-1239.2020.20190649

CSTR: 32373.14.issn1000-1239.2020.20190649

摘要(843) HTML(2) PDF(2.2M)(325)

摘要：
利用大数据分析、深度学习等新一代信息技术，通过掌握学生的兴趣、爱好、生活习惯等，提高人才培养质量已成为当前重要的科学研究问题.寻找具有相似生活习惯的学生对于心理状况及学业状况预警都有着积极的作用.已有的相似生活习惯学生搜索算法无法解释学生之间相似的原因，并且无法拓展性地融合更多数据源.为此提出了基于校园行为信息网络的生活习惯相似学生搜索算法SCALE(similar campus lifestyle miner).SCALE算法通过带约束的元路径计算相似度.SCALE不仅能保留原始数据中的相似语义，同时可以在此基础上拓展性地融合更多数据源.进一步对算法各部分解耦，为SCALE算法设计了并行化策略以提高执行效率.通过真实校园环境数据集上的实验，验证了SCALE算法的有效性和执行效率.

18

基于类卷积交互式注意力机制的属性抽取研究

尉桢楷, 程梦, 周夏冰, 李志峰, 邹博伟, 洪宇, 姚建民

2020, 57(11): 2456-2466. DOI: 10.7544/issn1000-1239.2020.20190748

CSTR: 32373.14.issn1000-1239.2020.20190748

摘要(992) HTML(6) PDF(2.3M)(403)

摘要：
在基于深度学习的属性抽取研究中，注意力机制是常用的模型之一.目前，面向属性抽取的注意力机制存在2个局限性：其一，注意力机制多为自注意力机制，这是一种全局式注意力机制，其将不相关的噪音(距离目标词较远且与之不相关的词)带入注意力向量的计算；其二，目前的注意力机制多为单层注意力机制，注意力一次建模后缺少交互性.针对这2个局限性，提出一种面向属性抽取的类卷积交互式注意力机制.该方法先将目标句输入到双向循环神经网络，借以获得每个词的隐式表达，再经过类卷积交互式注意力机制进行表示学习.类卷积交互式注意力机制分为2层注意力计算：第1层按序(从句首到句末)通过滑动窗口控制每个词的上下文宽度，并计算每个词的注意力分布向量；第2层将第1层的注意力分布向量与所有单词进行交互注意力计算，将得到的注意力向量与第1层的注意力向量拼接，最终输入到条件随机场进行属性标记.在2014—2016语义评估(semantic evaluation, SemEval)官方数据集上验证了模型的有效性.相比于基线模型，在4个数据集上的F1值分别提高了2.21，1.35，2.22，2.21个百分点.

19

融合常用语的大规模疾病术语图谱构建

张晨童, 张佳影, 张知行, 阮彤, 何萍, 葛小玲

2020, 57(11): 2467-2477. DOI: 10.7544/issn1000-1239.2020.20190747

CSTR: 32373.14.issn1000-1239.2020.20190747

摘要(799) HTML(2) PDF(3.7M)(413)

摘要：
国家卫计委要求医疗机构使用国际疾病分类(international classification of diseases, ICD)编码，然而由于临床疾病描述存在大量的常用词，导致电子病历中录入的诊断名称与ICD编码直接映射匹配率低.基于区域健康平台上的真实诊断数据，构建了融合常用语的疾病术语图谱.具体来说，在基于疾病构成成分的规则算法基础上，提出了基于数据增强的BERT(bidirectional encoder representation from transformers)上下位关系识别算法，将5万多个诊断常用语和ICD10(international classification of diseases 10th revision,Chinese version)中的疾病进行同义关系和上下位关系识别,进一步融合了ICD11(international classification of diseases 11th revision,Chinese version)的层次结构，此外，还提出了基于疾病-科室关联图谱的任务分配方法以进行人工校验，最终94 478个疾病实体形成了包含1 460条同义关系、46 508条上下位关系的大规模疾病术语图谱.评估实验表明，基于疾病术语图谱，对临床诊断数据的覆盖率比基于ICD10的直接映射编码的覆盖率提升了75.31%，另外，利用疾病术语图谱自动进行编码疾病相比于医生人工编码会缩短约59.75%的编码时间，且正确率达到85%.

20

药物靶标作用关系预测结果评价及查询验证

余冬华, 郭茂祖, 刘晓燕, 程爽

2019, 56(9): 1881-1888. DOI: 10.7544/issn1000-1239.2019.20180830

CSTR: 32373.14.issn1000-1239.2019.20180830

摘要(1247) HTML(5) PDF(0.8M)(510)

摘要：
药物靶标作用关系预测是一种重要的辅助药物研发手段，而生物实验验证药物靶标作用关系耗钱耗时，因此，在数据库中查询验证预测的药物靶标作用关系是对预测方法的重要评价.基于KEGG,DrugBank,ChEMBL这3个数据库，利用爬虫获取信息的方式设计开发了药物靶标作用关系查询验证方法DTcheck(drug-target check)，实现了对于提供KEGG DRUG ID及KEGG GENES ID的药物靶标对的高效查询验证功能，并利用DTcheck分别为Enzyme,IC(ion channel),GPCR(G-protein-coupled receptor),NR(nuclear receptor)四个标准数据集扩充新增药物靶标作用关系907，766，458，40对.此外，结合DTcheck查询验证，以BLM(bipartite local models)方法为例分析了预测结果的评价问题，结果表明，采用AUC(area under curve)值评价药物靶标作用关系预测方法没有Top N评价合理，且AUC值低的BLMd方法在预测新的药物靶标作用关系时优于AUC值高的BLMmax方法.

系统结构