2022年 第59卷 第12期
2022, 59(12): 2649-2666.
DOI: 10.7544/issn1000-1239.20210627
摘要:
随着官方发布的漏洞数量呈现指数的增长趋势,针对漏洞检测技术的研究应运而生.漏洞种类的多样性以及检测方法的单一性导致漏洞检测结果呈现一定的局限性.当前漏洞检测技术主要集中在静态检测和动态检测2方面.其中静态检测分析又分为文档分析法、交叉验证法以及程序分析方法等3类.随着自然语言处理技术的兴起和专家知识的不断扩展,研究人员探索了在多个数据源上利用自然语言处理技术辅助进行漏洞检测研究的可行性.根据信息类型的不同,分别从官方文档、代码、代码注释以及漏洞相关信息4部分内容出发,对基于自然语言处理的漏洞检测相关研究成果进行调研.首先,通过对近10年来基于自然语言处理技术的漏洞检测相关文献进行梳理,对相关成果进行分类并提取技术细节;接着,对不同数据源下的研究成果进行横向对比,总结当前基于自然语言处理技术的漏洞检测成果的优缺点;最后,通过交叉对比并深入分析,总结当前基于自然语言处理的漏洞检测方法中存在的8类问题,从数据、技术以及效果3方面进行解决方案的讨论,同时提出了未来研究方向.
随着官方发布的漏洞数量呈现指数的增长趋势,针对漏洞检测技术的研究应运而生.漏洞种类的多样性以及检测方法的单一性导致漏洞检测结果呈现一定的局限性.当前漏洞检测技术主要集中在静态检测和动态检测2方面.其中静态检测分析又分为文档分析法、交叉验证法以及程序分析方法等3类.随着自然语言处理技术的兴起和专家知识的不断扩展,研究人员探索了在多个数据源上利用自然语言处理技术辅助进行漏洞检测研究的可行性.根据信息类型的不同,分别从官方文档、代码、代码注释以及漏洞相关信息4部分内容出发,对基于自然语言处理的漏洞检测相关研究成果进行调研.首先,通过对近10年来基于自然语言处理技术的漏洞检测相关文献进行梳理,对相关成果进行分类并提取技术细节;接着,对不同数据源下的研究成果进行横向对比,总结当前基于自然语言处理技术的漏洞检测成果的优缺点;最后,通过交叉对比并深入分析,总结当前基于自然语言处理的漏洞检测方法中存在的8类问题,从数据、技术以及效果3方面进行解决方案的讨论,同时提出了未来研究方向.
2022, 59(12): 2667-2688.
DOI: 10.7544/issn1000-1239.20210270
摘要:
随着人们对位置服务需求的日益增长,基于接收信号强度(received signal strength, RSS)指纹的室内定位技术因具有其成熟的基础设施和易于实现等优势而受到广泛关注.深度学习(deep learning, DL)强大的特征抽取和自动分类能力使其成为基于RSS指纹室内定位的一个非常有吸引力的方案.但是,这种方案需要使用大量的RSS指纹数据并借助云计算对DL模型进行重复训练.由于RSS数据包含了用户的个人敏感信息,直接将这些数据发送到不可信的云端进行处理,会造成严重的用户隐私侵犯和数据传输延迟.针对以上挑战,提出了一种边缘计算下指纹室内定位差分私有联邦学习模型.该模型构建了边缘计算下的联邦学习协议并设计了一个基于卷积神经网络(convolutional neural network, CNN)的轻量级室内定位模型,不再需要将大量的RSS数据上传到云端后进行模型训练,在提高定位精度的同时减少数据传输延迟;然后,利用差分隐私技术解决了离线训练阶段和在线定位阶段的用户隐私泄露问题.在多个真实数据集上的实验结果和安全性分析表明,与基于云架构的集中式模型相比,该机制在提供可证明的隐私保护情况下取得了较高的定位精度、减少了通信开销;与基于联邦学习架构的分布式模型相比,该机制在取得几乎相同定位精度和资源开销的情况下,提供了更全面的隐私保护.
随着人们对位置服务需求的日益增长,基于接收信号强度(received signal strength, RSS)指纹的室内定位技术因具有其成熟的基础设施和易于实现等优势而受到广泛关注.深度学习(deep learning, DL)强大的特征抽取和自动分类能力使其成为基于RSS指纹室内定位的一个非常有吸引力的方案.但是,这种方案需要使用大量的RSS指纹数据并借助云计算对DL模型进行重复训练.由于RSS数据包含了用户的个人敏感信息,直接将这些数据发送到不可信的云端进行处理,会造成严重的用户隐私侵犯和数据传输延迟.针对以上挑战,提出了一种边缘计算下指纹室内定位差分私有联邦学习模型.该模型构建了边缘计算下的联邦学习协议并设计了一个基于卷积神经网络(convolutional neural network, CNN)的轻量级室内定位模型,不再需要将大量的RSS数据上传到云端后进行模型训练,在提高定位精度的同时减少数据传输延迟;然后,利用差分隐私技术解决了离线训练阶段和在线定位阶段的用户隐私泄露问题.在多个真实数据集上的实验结果和安全性分析表明,与基于云架构的集中式模型相比,该机制在提供可证明的隐私保护情况下取得了较高的定位精度、减少了通信开销;与基于联邦学习架构的分布式模型相比,该机制在取得几乎相同定位精度和资源开销的情况下,提供了更全面的隐私保护.
2022, 59(12): 2689-2707.
DOI: 10.7544/issn1000-1239.20210582
摘要:
在高性能计算领域,多播路由算法对硬件集合操作的性能具有至关重要的影响.随着系统规模的不断扩大,多播组的个数急剧增加,可能会超过硬件支持的多播表条目数,而现有的多播路由算法要么没有给出解决方案,要么存在时间开销大、多播路由经常变化等问题.为此,首先对胖树中的无冲突多播生成树数量进行了量化研究,并以此为基础提出了一种适用于胖树的高效实用的定制多播路由算法(customized multicast routing for limited multicast forwarding table size, C-MR4LMS).C-MR4LMS在构建多播树时,根据多播组的MGID(multicast global identification)静态地将多播组映射到1棵生成树中,从而快速完成多播树的构建;而在合并多播树时,仅需合并使用同一生成树的多播组,且不会改变被合并多播组的路由.然后提出了2种减少多播树冲突的方法:一是分层的MGID分配策略,以避免出现同一终端节点使用同一颜色加入多个多播组的情况;二是相互无干扰的作业节点分配策略,保证2个作业的多播组互不干扰.最后,在ibsim模拟器及神威E级原型机上对C-MR4LMS进行了测试,该多播路由算法计算多播路由的时间比现有的多播路由算法有了显著下降,最大下降了94%.
在高性能计算领域,多播路由算法对硬件集合操作的性能具有至关重要的影响.随着系统规模的不断扩大,多播组的个数急剧增加,可能会超过硬件支持的多播表条目数,而现有的多播路由算法要么没有给出解决方案,要么存在时间开销大、多播路由经常变化等问题.为此,首先对胖树中的无冲突多播生成树数量进行了量化研究,并以此为基础提出了一种适用于胖树的高效实用的定制多播路由算法(customized multicast routing for limited multicast forwarding table size, C-MR4LMS).C-MR4LMS在构建多播树时,根据多播组的MGID(multicast global identification)静态地将多播组映射到1棵生成树中,从而快速完成多播树的构建;而在合并多播树时,仅需合并使用同一生成树的多播组,且不会改变被合并多播组的路由.然后提出了2种减少多播树冲突的方法:一是分层的MGID分配策略,以避免出现同一终端节点使用同一颜色加入多个多播组的情况;二是相互无干扰的作业节点分配策略,保证2个作业的多播组互不干扰.最后,在ibsim模拟器及神威E级原型机上对C-MR4LMS进行了测试,该多播路由算法计算多播路由的时间比现有的多播路由算法有了显著下降,最大下降了94%.
2022, 59(12): 2708-2722.
DOI: 10.7544/issn1000-1239.20210456
摘要:
基于文本口令的认证方法仍是当前用户身份认证的主流方式.为更好地研究口令安全性,研究人员提出了多种数据驱动的口令猜测方法,如概率上下文无关文法(probabilistic context-free grammars, PCFG)和马尔可夫(Markov)方法等.这些方法在猜测口令时有其独特的猜测优势,即能够以更小的猜测数猜中特定类型的口令.为充分利用这些优势以实现更优的猜测效率,提出了一个通用的参数化混合猜测框架.该框架由模型剪枝方法和理论证明最优的猜测数分配策略构成,能够混合不同数据驱动方法的猜测优势以生成更高效的猜测集.为了验证框架的通用性和最优性,通过分析并混合现有数据驱动猜测方法的不同优势,基于该框架设计了多个混合多元模型的参数化混合猜测方法(统称为hyPassGu)用于猜测实践.并且,还利用从真实网站泄露的4个大规模口令数据集(总共超过1.5亿条口令)对这些混合猜测方法进行了评估实验.实验结果表明,由不同方法组合构建的hyPassGu均表现出超越单一方法的猜测效率,且在10\+\{10\}猜测数下超越了单一方法最优效率的1.52%~35.49%.此外,不同猜测数下的对比实验结果表明,提出的最优分配策略的猜测表现稳定,优于平均分配策略和随机分配策略,并在分布离散程度最大的口令数据集上有16.87%的相对提升,同时更多元的混合方法整体上也表现出更好的猜测效率.
基于文本口令的认证方法仍是当前用户身份认证的主流方式.为更好地研究口令安全性,研究人员提出了多种数据驱动的口令猜测方法,如概率上下文无关文法(probabilistic context-free grammars, PCFG)和马尔可夫(Markov)方法等.这些方法在猜测口令时有其独特的猜测优势,即能够以更小的猜测数猜中特定类型的口令.为充分利用这些优势以实现更优的猜测效率,提出了一个通用的参数化混合猜测框架.该框架由模型剪枝方法和理论证明最优的猜测数分配策略构成,能够混合不同数据驱动方法的猜测优势以生成更高效的猜测集.为了验证框架的通用性和最优性,通过分析并混合现有数据驱动猜测方法的不同优势,基于该框架设计了多个混合多元模型的参数化混合猜测方法(统称为hyPassGu)用于猜测实践.并且,还利用从真实网站泄露的4个大规模口令数据集(总共超过1.5亿条口令)对这些混合猜测方法进行了评估实验.实验结果表明,由不同方法组合构建的hyPassGu均表现出超越单一方法的猜测效率,且在10\+\{10\}猜测数下超越了单一方法最优效率的1.52%~35.49%.此外,不同猜测数下的对比实验结果表明,提出的最优分配策略的猜测表现稳定,优于平均分配策略和随机分配策略,并在分布离散程度最大的口令数据集上有16.87%的相对提升,同时更多元的混合方法整体上也表现出更好的猜测效率.
2022, 59(12): 2723-2734.
DOI: 10.7544/issn1000-1239.20210930
摘要:
现有的格上群签名方案,虽然能够有效抵抗量子计算的攻击,但是难以避免用户公钥证书复杂的管理问题.基于格基委派、拒绝采样等技术,将基于身份的加密体制与格上群签名相结合,构造了随机预言模型下的格上基于身份的群签名.首先通过陷门生成算法生成系统主密钥;然后通过格基委派技术提取用户身份信息并获取用户密钥;最后在签名阶段不使用零知识证明,而是采用了拒绝采样算法生成签名,并使用LPR加密算法保证群管理员能够通过追溯密钥打开群签名.安全性分析表明,该方案满足完全匿名性、不可伪造性和完全可追溯性,且能够规约到RSIS和RLWE困难假设.与现有的格上群签名相比,该方案实现了基于身份的功能,并且在存储开销方面具有一定的优势,其中密钥开销减小了约79.6%,签名开销减小了约39.9%.
现有的格上群签名方案,虽然能够有效抵抗量子计算的攻击,但是难以避免用户公钥证书复杂的管理问题.基于格基委派、拒绝采样等技术,将基于身份的加密体制与格上群签名相结合,构造了随机预言模型下的格上基于身份的群签名.首先通过陷门生成算法生成系统主密钥;然后通过格基委派技术提取用户身份信息并获取用户密钥;最后在签名阶段不使用零知识证明,而是采用了拒绝采样算法生成签名,并使用LPR加密算法保证群管理员能够通过追溯密钥打开群签名.安全性分析表明,该方案满足完全匿名性、不可伪造性和完全可追溯性,且能够规约到RSIS和RLWE困难假设.与现有的格上群签名相比,该方案实现了基于身份的功能,并且在存储开销方面具有一定的优势,其中密钥开销减小了约79.6%,签名开销减小了约39.9%.
2022, 59(12): 2735-2749.
DOI: 10.7544/issn1000-1239.20210954
摘要:
随着信息技术产业的发展和物联网设备数量的增长,物联网安全防御的难度与复杂度不断上升,针对物联网与供应链的重大安全事件时有发生,这些事件揭示了物联网供应链安全管理的复杂性.目前存在许多信息安全公开知识库可用于物联网安全威胁分析,但知识库的异构性使威胁评估十分困难.对多个信息安全知识库进行研究,将防御方所关注的安全知识来源与攻击者的战术、技术和攻击模式整合成一个统一的关系映射链接图知识库,并导入威胁情报,旨在利用已披露的威胁事件来提升物联网安全威胁要素评估能力.提出了一个物联网供应链风险分析本体RIoTSCO,并以此模型为基础设计了物联网安全下的推理规则,利用本体的表达能力建立物联网安全领域知识之间的语义关系,以解决多源知识的语义异质性问题.同时,在一个物联网环境示例中基于所提方法进行安全评估,自动化推理缓解措施以应对威胁事件,并描绘威胁事件所能波及到的上下游供应链情报全貌.
随着信息技术产业的发展和物联网设备数量的增长,物联网安全防御的难度与复杂度不断上升,针对物联网与供应链的重大安全事件时有发生,这些事件揭示了物联网供应链安全管理的复杂性.目前存在许多信息安全公开知识库可用于物联网安全威胁分析,但知识库的异构性使威胁评估十分困难.对多个信息安全知识库进行研究,将防御方所关注的安全知识来源与攻击者的战术、技术和攻击模式整合成一个统一的关系映射链接图知识库,并导入威胁情报,旨在利用已披露的威胁事件来提升物联网安全威胁要素评估能力.提出了一个物联网供应链风险分析本体RIoTSCO,并以此模型为基础设计了物联网安全下的推理规则,利用本体的表达能力建立物联网安全领域知识之间的语义关系,以解决多源知识的语义异质性问题.同时,在一个物联网环境示例中基于所提方法进行安全评估,自动化推理缓解措施以应对威胁事件,并描绘威胁事件所能波及到的上下游供应链情报全貌.
2022, 59(12): 2750-2759.
DOI: 10.7544/issn1000-1239.20210587
摘要:
在大数据时代下,海量数据之间的共享是充分挖掘数据价值的前提.对涉及用户隐私的敏感数据,需要对其共享过程特别关注,而传统的数据共享方式存在数据流向不明确、难以追责等缺陷.针对这些问题,基于区块链提出了一种支持监管的敏感数据可控共享方案.通过使用动态累加器技术实现敏感数据的访问控制,数据拥有方可以灵活地授予或者撤销其他参与方对数据的访问权限,实现数据拥有方对数据的可控性.设置监管方对数据请求过程进行审核,监管方将为通过审核的数据请求方颁发监管凭证,只有拥有监管凭证且获得数据拥有方授权的数据请求方才能获得数据.为保护数据请求方的隐私,通过强指定验证者签名技术,使无关第三方无法获得数据请求方的身份信息.使用区块链技术记录数据的请求和响应情况,该记录只有监管方可以读取,从而实现了监管方对数据共享全流程的可监管性.安全性分析表明,方案满足数据请求方隐私性、数据拥有方可控性、可监管性,仿真实验验证了方案的可行性.
在大数据时代下,海量数据之间的共享是充分挖掘数据价值的前提.对涉及用户隐私的敏感数据,需要对其共享过程特别关注,而传统的数据共享方式存在数据流向不明确、难以追责等缺陷.针对这些问题,基于区块链提出了一种支持监管的敏感数据可控共享方案.通过使用动态累加器技术实现敏感数据的访问控制,数据拥有方可以灵活地授予或者撤销其他参与方对数据的访问权限,实现数据拥有方对数据的可控性.设置监管方对数据请求过程进行审核,监管方将为通过审核的数据请求方颁发监管凭证,只有拥有监管凭证且获得数据拥有方授权的数据请求方才能获得数据.为保护数据请求方的隐私,通过强指定验证者签名技术,使无关第三方无法获得数据请求方的身份信息.使用区块链技术记录数据的请求和响应情况,该记录只有监管方可以读取,从而实现了监管方对数据共享全流程的可监管性.安全性分析表明,方案满足数据请求方隐私性、数据拥有方可控性、可监管性,仿真实验验证了方案的可行性.
2022, 59(12): 2760-2769.
DOI: 10.7544/issn1000-1239.20210723
摘要:
随着深度学习的快速发展,人体姿态估计技术近年来取得显著进步,但是现有方法仍难以较好地处理普遍存在的遮挡问题.针对此问题,提出一种部位级遮挡感知的人体姿态估计方法.首先,采用基准人体姿态估计网络从含遮挡噪声的图像中获得各人体部位的带噪声特征表达.然后,通过遮挡部位预测模块估计人体被遮挡部位,从而获得可见性向量.遮挡部位预测模块由遮挡部位分类网络和可见性编码器组成,前者预测关节点的遮挡状态,后者利用注意力机制将遮挡状态转换为一组权重.最后,通过通道重加权方式融合可见性向量和带噪声特征,获得部位级遮挡感知的人体部位相关特征,用于计算关节点热图.在MPII和LSP(leeds sports pose)数据集上的实验结果表明,相比基准姿态估计网络,该方法能够在较小的额外计算代价下更好地应对遮挡问题,并且取得了比目前先进方法更佳的结果.
随着深度学习的快速发展,人体姿态估计技术近年来取得显著进步,但是现有方法仍难以较好地处理普遍存在的遮挡问题.针对此问题,提出一种部位级遮挡感知的人体姿态估计方法.首先,采用基准人体姿态估计网络从含遮挡噪声的图像中获得各人体部位的带噪声特征表达.然后,通过遮挡部位预测模块估计人体被遮挡部位,从而获得可见性向量.遮挡部位预测模块由遮挡部位分类网络和可见性编码器组成,前者预测关节点的遮挡状态,后者利用注意力机制将遮挡状态转换为一组权重.最后,通过通道重加权方式融合可见性向量和带噪声特征,获得部位级遮挡感知的人体部位相关特征,用于计算关节点热图.在MPII和LSP(leeds sports pose)数据集上的实验结果表明,相比基准姿态估计网络,该方法能够在较小的额外计算代价下更好地应对遮挡问题,并且取得了比目前先进方法更佳的结果.
2022, 59(12): 2770-2780.
DOI: 10.7544/issn1000-1239.20210729
摘要:
大数据环境下的跨模态异常检测是一个非常有价值且极具挑战性的工作.针对目前已有跨模态异常检测框架对数据异常值类型检测不全面以及数据利用率较低的问题,提出了一个结合分层深度网络与相似度双向五元组损失的跨模态异常检测方法.首先,提出的框架引入一个单视图异常检测网络层,通过模态内近邻样本相似度来检测数据样本中是否存在属性异常与部分属性-类别异常点;接着,提出基于相似度双向五元组损失的双分支深度网络用于检测数据中的类别异常与剩余部分的属性-类别异常,该损失一方面能够使不同属性数据正交化,另一方面使得相同属性数据之间线性相关,从而有效地加大了不同属性数据之间的特征差异性,以及增加了相同属性之间的特征相关性;同时,提出的双分支网络通过模态间双向约束和模态内的邻域约束,极大提高了数据利用率和模型的泛化能力.实验结果表明,所提出的框架可以全面检测出不同模态中所有的异常类型样本点,并且表现优于现有的可应用于跨模态异常检测的方法,优势明显.
大数据环境下的跨模态异常检测是一个非常有价值且极具挑战性的工作.针对目前已有跨模态异常检测框架对数据异常值类型检测不全面以及数据利用率较低的问题,提出了一个结合分层深度网络与相似度双向五元组损失的跨模态异常检测方法.首先,提出的框架引入一个单视图异常检测网络层,通过模态内近邻样本相似度来检测数据样本中是否存在属性异常与部分属性-类别异常点;接着,提出基于相似度双向五元组损失的双分支深度网络用于检测数据中的类别异常与剩余部分的属性-类别异常,该损失一方面能够使不同属性数据正交化,另一方面使得相同属性数据之间线性相关,从而有效地加大了不同属性数据之间的特征差异性,以及增加了相同属性之间的特征相关性;同时,提出的双分支网络通过模态间双向约束和模态内的邻域约束,极大提高了数据利用率和模型的泛化能力.实验结果表明,所提出的框架可以全面检测出不同模态中所有的异常类型样本点,并且表现优于现有的可应用于跨模态异常检测的方法,优势明显.
2022, 59(12): 2781-2793.
DOI: 10.7544/issn1000-1239.20210763
摘要:
属性网络嵌入旨在映射网络中的节点和链接关系到低维空间,同时保留其固有的结构和属性特征.异质属性网络中多种类型的节点和链接关系给网络嵌入学习提供了丰富的辅助信息,同时也带来了新的挑战.提出异质属性网络嵌入模型(heterogeneous attribute network embedding based on the PPMI, HANEP),旨在将网络中多种类型的节点和(或)多种类型的链接关系映射到低维、紧凑的空间,同时保护节点的属性特征和不同类型对象之间的异质链接承载的复杂、多样且丰富的语义信息.HANEP模型首先基于样本属性的相似性构建属性图、依据元路径抽取异质属性网络的拓扑结构,然后通过随机冲浪获得属性和拓扑概率共现(probabilistic co-occurrence, PCO)矩阵,并计算其正点对互信息(positive point-wise mutual information, PPMI),进而采用多个自编码器(auto-encoder, AE)捕捉节点属性和异质链接的本质信息.元路径可以捕捉异质网络中多种类型节点间的链接关系,构建属性图可以清晰描述节点属性的非线性流行结构,属性和拓扑的局部成对约束和图表示有助于整合节点属性和网络拓扑的一致性和互补性关系,PPMI表示可以捕捉属性和拓扑的高阶近邻信息及潜在的复杂非线性关系.在3个真实数据集上的实验结果验证了HANEP算法的有效性.
属性网络嵌入旨在映射网络中的节点和链接关系到低维空间,同时保留其固有的结构和属性特征.异质属性网络中多种类型的节点和链接关系给网络嵌入学习提供了丰富的辅助信息,同时也带来了新的挑战.提出异质属性网络嵌入模型(heterogeneous attribute network embedding based on the PPMI, HANEP),旨在将网络中多种类型的节点和(或)多种类型的链接关系映射到低维、紧凑的空间,同时保护节点的属性特征和不同类型对象之间的异质链接承载的复杂、多样且丰富的语义信息.HANEP模型首先基于样本属性的相似性构建属性图、依据元路径抽取异质属性网络的拓扑结构,然后通过随机冲浪获得属性和拓扑概率共现(probabilistic co-occurrence, PCO)矩阵,并计算其正点对互信息(positive point-wise mutual information, PPMI),进而采用多个自编码器(auto-encoder, AE)捕捉节点属性和异质链接的本质信息.元路径可以捕捉异质网络中多种类型节点间的链接关系,构建属性图可以清晰描述节点属性的非线性流行结构,属性和拓扑的局部成对约束和图表示有助于整合节点属性和网络拓扑的一致性和互补性关系,PPMI表示可以捕捉属性和拓扑的高阶近邻信息及潜在的复杂非线性关系.在3个真实数据集上的实验结果验证了HANEP算法的有效性.
2022, 59(12): 2794-2802.
DOI: 10.7544/issn1000-1239.20210445
摘要:
远程监督关系抽取旨在从无结构化的文本当中发现关系事实,它对许多下游任务有着非常重要的意义.虽然远程监督可以自动地生成大量带标签的训练样本,但是自动标注的过程不可避免地会遇到噪声数据的问题.当前的许多研究工作主要把关注点放在降噪的过程当中,尝试通过选择出正确的句子来生成更有效的包级别特征表示.但是在文本语料之外,还存在着大量与实体相关的外部知识没有被充分利用,而这些知识能够帮助模型更好地理解实体之间的关系.基于这一观察,提出了一种新颖的远程监督关系抽取方法,该方法通过利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,来丰富句子级别的特征表达能力.实验结果表明,在2个版本的大规模“纽约时报”基准数据集上,该方法都明显优于其他方法.此外,还通过对比实验进一步探索了2个版本的数据集所存在的差异,其中无实体交集的数据集能够更有效地反映模型性能.
远程监督关系抽取旨在从无结构化的文本当中发现关系事实,它对许多下游任务有着非常重要的意义.虽然远程监督可以自动地生成大量带标签的训练样本,但是自动标注的过程不可避免地会遇到噪声数据的问题.当前的许多研究工作主要把关注点放在降噪的过程当中,尝试通过选择出正确的句子来生成更有效的包级别特征表示.但是在文本语料之外,还存在着大量与实体相关的外部知识没有被充分利用,而这些知识能够帮助模型更好地理解实体之间的关系.基于这一观察,提出了一种新颖的远程监督关系抽取方法,该方法通过利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,来丰富句子级别的特征表达能力.实验结果表明,在2个版本的大规模“纽约时报”基准数据集上,该方法都明显优于其他方法.此外,还通过对比实验进一步探索了2个版本的数据集所存在的差异,其中无实体交集的数据集能够更有效地反映模型性能.
2022, 59(12): 2803-2815.
DOI: 10.7544/issn1000-1239.20210693
摘要:
事件社交网络的快速发展引起的信息过载问题是当前面临的主要挑战,深度学习等技术可从大量的数据中挖掘潜在的关联信息,从而有效应对该问题.同时,有研究表明用户兴趣在长期和短期的时序上具有不同的特征模式,深度挖掘用户的时序特征和兴趣可有效地为用户提供个性化的事件推荐信息.基于此,提出一种将用户长短期兴趣与事件影响力相结合的推荐策略.通过带注意力机制的图神经网络和长短期记忆网络获取用户的长短期兴趣,同时,对候选事件构建针对目标用户的影响力.根据用户长短期兴趣和事件影响力预测目标用户的参与概率,最终通过排序后的参与概率向用户推荐TOP-K兴趣事件.实验结果表明,所提推荐模型在多个指标上均有所改善,其推荐性能优于已有对比模型,具备很好的推荐效果.
事件社交网络的快速发展引起的信息过载问题是当前面临的主要挑战,深度学习等技术可从大量的数据中挖掘潜在的关联信息,从而有效应对该问题.同时,有研究表明用户兴趣在长期和短期的时序上具有不同的特征模式,深度挖掘用户的时序特征和兴趣可有效地为用户提供个性化的事件推荐信息.基于此,提出一种将用户长短期兴趣与事件影响力相结合的推荐策略.通过带注意力机制的图神经网络和长短期记忆网络获取用户的长短期兴趣,同时,对候选事件构建针对目标用户的影响力.根据用户长短期兴趣和事件影响力预测目标用户的参与概率,最终通过排序后的参与概率向用户推荐TOP-K兴趣事件.实验结果表明,所提推荐模型在多个指标上均有所改善,其推荐性能优于已有对比模型,具备很好的推荐效果.
2022, 59(12): 2816-2830.
DOI: 10.7544/issn1000-1239.20210830
摘要:
研究基于生成对抗网的中国山水画的边界外推问题.现有的图像外推方法主要是针对草地、天空等内容比较单一、纹理比较规范的自然场景进行的,直接将其应用于内容较为复杂、层次丰富、笔触变化多样的中国山水画外推会出现外推内容模糊、与原有图像边界语义不一致等现象.针对上述问题,基于生成对抗网的思想,提出一种新的生成对抗网的双向解码特征融合网络(bidirectional decoding feature fusion generative adversarial network, BDFF-GAN).网络在生成器设计方面,以现有的U型网络(U-Net)为基础,增加一个多尺度解码器,构建一种双向解码特征融合的生成器UY-Net.多尺度解码器抽取编码器不同层级的特征进行交叉互补的组合,增强了不同尺度特征之间的连接交融;同时每一层双向解码的结果还通过条件跳跃连接进一步相互融合.UY-Net设计上的这2个特点有利于网络对山水画不同粒度的语义特征和笔触形态的传递与学习.在鉴别器设计方面,采用全局鉴别器和局部鉴别器相结合的架构,全局鉴别器将整幅山水画作为输入来控制外推结果的全局一致性,局部鉴别器将原有山水画与外推山水画交界处周围的小区域作为输入以提高外推部分与原画作的连贯性和细节生成质量.实验结果表明,与其他方法相比较,所提算法较好地学习到了山水画的语义特征和纹理信息,外推结果在语义内容的连贯性和笔触纹理结构的自然性方面都有更好的表现.此外,还设计了一种新的用户交互方式,该方式通过外推边界引导线的形式控制外推部分的轮廓走向,从而实现了布局可调的山水画外推效果,扩展了上述BDFF-GAN网络的生成多样性和应用互动性.
研究基于生成对抗网的中国山水画的边界外推问题.现有的图像外推方法主要是针对草地、天空等内容比较单一、纹理比较规范的自然场景进行的,直接将其应用于内容较为复杂、层次丰富、笔触变化多样的中国山水画外推会出现外推内容模糊、与原有图像边界语义不一致等现象.针对上述问题,基于生成对抗网的思想,提出一种新的生成对抗网的双向解码特征融合网络(bidirectional decoding feature fusion generative adversarial network, BDFF-GAN).网络在生成器设计方面,以现有的U型网络(U-Net)为基础,增加一个多尺度解码器,构建一种双向解码特征融合的生成器UY-Net.多尺度解码器抽取编码器不同层级的特征进行交叉互补的组合,增强了不同尺度特征之间的连接交融;同时每一层双向解码的结果还通过条件跳跃连接进一步相互融合.UY-Net设计上的这2个特点有利于网络对山水画不同粒度的语义特征和笔触形态的传递与学习.在鉴别器设计方面,采用全局鉴别器和局部鉴别器相结合的架构,全局鉴别器将整幅山水画作为输入来控制外推结果的全局一致性,局部鉴别器将原有山水画与外推山水画交界处周围的小区域作为输入以提高外推部分与原画作的连贯性和细节生成质量.实验结果表明,与其他方法相比较,所提算法较好地学习到了山水画的语义特征和纹理信息,外推结果在语义内容的连贯性和笔触纹理结构的自然性方面都有更好的表现.此外,还设计了一种新的用户交互方式,该方式通过外推边界引导线的形式控制外推部分的轮廓走向,从而实现了布局可调的山水画外推效果,扩展了上述BDFF-GAN网络的生成多样性和应用互动性.
2022, 59(12): 2831-2843.
DOI: 10.7544/issn1000-1239.20210708
摘要:
鉴于深度学习技术的不断发展,越来越多的研究者倾向于使用深度神经网络学习文本特征表示用于情感分析,其中序列模型(sequence models)和图神经网络(graph neural networks)已得到广泛的应用,并取得了不错的效果.然而,对于属性情感分类任务,属性对象与其他单词之间存在远距离的依赖关系,虽然序列型神经网络能捕获句子的上下文语义信息,但是对词语之间的远距离依赖关系无法进行有效学习;而图神经网络虽然可以通过图结构聚合更多的属性依赖信息,但会忽略有序词语间的上下文语义联系.因此结合双向长短时记忆网络(bi-directional long short-term memory, BiLSTM)和图卷积神经网络(graph convolutional network, GCN),提出一种基于双指导注意力网络(bi-guide attention network, BiG-AN)的属性情感分析模型.该模型通过交互指导注意力机制,同时关注到文本的上下文信息和远距离依赖信息,提高了模型对于文本属性级别情感特征的表示学习能力.在4个公开数据集Laptop,Rest14,Rest16,Twitter的实验结果表明,与其他几种基准模型相比,所提模型能够提取到更丰富的属性文本特征,有效提高属性情感分类的结果.
鉴于深度学习技术的不断发展,越来越多的研究者倾向于使用深度神经网络学习文本特征表示用于情感分析,其中序列模型(sequence models)和图神经网络(graph neural networks)已得到广泛的应用,并取得了不错的效果.然而,对于属性情感分类任务,属性对象与其他单词之间存在远距离的依赖关系,虽然序列型神经网络能捕获句子的上下文语义信息,但是对词语之间的远距离依赖关系无法进行有效学习;而图神经网络虽然可以通过图结构聚合更多的属性依赖信息,但会忽略有序词语间的上下文语义联系.因此结合双向长短时记忆网络(bi-directional long short-term memory, BiLSTM)和图卷积神经网络(graph convolutional network, GCN),提出一种基于双指导注意力网络(bi-guide attention network, BiG-AN)的属性情感分析模型.该模型通过交互指导注意力机制,同时关注到文本的上下文信息和远距离依赖信息,提高了模型对于文本属性级别情感特征的表示学习能力.在4个公开数据集Laptop,Rest14,Rest16,Twitter的实验结果表明,与其他几种基准模型相比,所提模型能够提取到更丰富的属性文本特征,有效提高属性情感分类的结果.
2022, 59(12): 2844-2857.
DOI: 10.7544/issn1000-1239.20210471
摘要:
数据流中的概念漂移和类别不平衡问题会严重影响数据流分类算法的性能和稳定性.针对二分类数据流中概念漂移和类别不平衡的问题,在基于数据块的集成分类方法上引入成员分类器权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了一种基于G-mean加权的不平衡数据流在线分类方法(online G-mean update ensemble for imbalance learning, OGUEIL).该方法基于集成学习框架,利用时间衰减因子增量计算成员分类器最近若干实例上的G-mean性能,并确定成员分类器权重,每到达一个新实例,在线更新所有成员分类器及其权重,并对少类实例进行随机过采样.同时,OGUEIL会周期性地根据当前数据构造类别平衡数据集训练新的候选分类器,并选择性地添加至集成框架中.在真实和人工数据集上的结果表明,所提方法的综合性能优于其他同类方法.
数据流中的概念漂移和类别不平衡问题会严重影响数据流分类算法的性能和稳定性.针对二分类数据流中概念漂移和类别不平衡的问题,在基于数据块的集成分类方法上引入成员分类器权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了一种基于G-mean加权的不平衡数据流在线分类方法(online G-mean update ensemble for imbalance learning, OGUEIL).该方法基于集成学习框架,利用时间衰减因子增量计算成员分类器最近若干实例上的G-mean性能,并确定成员分类器权重,每到达一个新实例,在线更新所有成员分类器及其权重,并对少类实例进行随机过采样.同时,OGUEIL会周期性地根据当前数据构造类别平衡数据集训练新的候选分类器,并选择性地添加至集成框架中.在真实和人工数据集上的结果表明,所提方法的综合性能优于其他同类方法.
2022, 59(12): 2858-2866.
DOI: 10.7544/issn1000-1239.20210333
摘要:
聚类问题中的离群点容易影响簇中心的选择,且样本数据量规模的扩大会造成样本点间的距离计算需要消耗大量计算资源.为了解决上述问题,从簇中心选取和最短距离搜索2个方面出发,提出了一种针对聚类问题的新型量子主成分分析算法.利用阈值更新奇异值并得到主成分,再通过势函数得到簇中心,从而减少异常值对簇中心选取的影响.此外,采用量子最小值搜索算法寻找距离样本点最近的簇中心,减少聚类所需迭代次数.以小规模数据集为例,采用Cirq量子编程框架对算法进行电路设计和仿真实验.实验结果表明,该算法与已有的量子聚类算法相比,在聚类准确度上有所提升.性能分析表明,与现有经典和量子算法比较,该算法在簇中心选取和最短距离搜索时间复杂度上有不同程度的改进,消耗资源有所降低.
聚类问题中的离群点容易影响簇中心的选择,且样本数据量规模的扩大会造成样本点间的距离计算需要消耗大量计算资源.为了解决上述问题,从簇中心选取和最短距离搜索2个方面出发,提出了一种针对聚类问题的新型量子主成分分析算法.利用阈值更新奇异值并得到主成分,再通过势函数得到簇中心,从而减少异常值对簇中心选取的影响.此外,采用量子最小值搜索算法寻找距离样本点最近的簇中心,减少聚类所需迭代次数.以小规模数据集为例,采用Cirq量子编程框架对算法进行电路设计和仿真实验.实验结果表明,该算法与已有的量子聚类算法相比,在聚类准确度上有所提升.性能分析表明,与现有经典和量子算法比较,该算法在簇中心选取和最短距离搜索时间复杂度上有不同程度的改进,消耗资源有所降低.
2022, 59(12): 2867-2877.
DOI: 10.7544/issn1000-1239.20210865
摘要:
用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无法完全消除偏差的问题,提出一种基于相关修正的无偏排序学习方法.首先,利用现有小规模相关标注数据训练排序模型,对候选文档进行较精准的相关得分预测;再基于用户点击和文档相关得分训练点击倾向模型;最后,将得到的模型参数设为对偶去偏初始值并联合训练.该方法不影响模型上线的计算速度,可用于在线学习场景,模拟不同程度偏差噪声并在真实点击场景下进行测试,结果表明该方案能够有效提升现有无偏排序学习方法表现.
用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无法完全消除偏差的问题,提出一种基于相关修正的无偏排序学习方法.首先,利用现有小规模相关标注数据训练排序模型,对候选文档进行较精准的相关得分预测;再基于用户点击和文档相关得分训练点击倾向模型;最后,将得到的模型参数设为对偶去偏初始值并联合训练.该方法不影响模型上线的计算速度,可用于在线学习场景,模拟不同程度偏差噪声并在真实点击场景下进行测试,结果表明该方案能够有效提升现有无偏排序学习方法表现.
2022, 59(12): 2878-2888.
DOI: 10.7544/issn1000-1239.20210849
摘要:
为解决大多数知识图谱表示学习模型仅使用三元组信息的问题,提出融合语义解析的知识图谱表示模型BERT-PKE.模型利用实体和关系的文本描述,通过BERT的双向编码表示进行语义解析,深度挖掘语义信息.由于BERT训练代价昂贵,提出一种基于词频和k近邻的剪枝策略,提炼选择文本描述集.此外,由于负样本的构造影响了模型的训练,提出2种改进随机抽样的策略:一种是基于实体分布的负采样方法,以伯努利分布概率来选择替换的实体,该方法可以减少负采样引起的伪标记问题;另一种是基于实体相似性负采样方法,首先用TransE将实体嵌入到向量空间,使用k-means聚类算法将实体进行分类.通过同簇实体的相互替换可获得高质量的负三元组,有利于实体的特征学习.实验结果表明,所提出BERT-PKE模型与TransE,KG-BERT,RotatE等相比,性能有显著提升.
为解决大多数知识图谱表示学习模型仅使用三元组信息的问题,提出融合语义解析的知识图谱表示模型BERT-PKE.模型利用实体和关系的文本描述,通过BERT的双向编码表示进行语义解析,深度挖掘语义信息.由于BERT训练代价昂贵,提出一种基于词频和k近邻的剪枝策略,提炼选择文本描述集.此外,由于负样本的构造影响了模型的训练,提出2种改进随机抽样的策略:一种是基于实体分布的负采样方法,以伯努利分布概率来选择替换的实体,该方法可以减少负采样引起的伪标记问题;另一种是基于实体相似性负采样方法,首先用TransE将实体嵌入到向量空间,使用k-means聚类算法将实体进行分类.通过同簇实体的相互替换可获得高质量的负三元组,有利于实体的特征学习.实验结果表明,所提出BERT-PKE模型与TransE,KG-BERT,RotatE等相比,性能有显著提升.
2022, 59(12): 2889-2900.
DOI: 10.7544/issn1000-1239.20210851
摘要:
为了解决就医过程中医疗资源短缺和患者时间不充裕、行程不便的问题,提出了结合外部知识的基于记忆网络的知识感知医疗对话生成模型(memory networks based knowledge-aware medical dialogue generation model, MKMed).该模型首先通过利用精确字匹配的方法在对话历史中进行实体追踪;随后在外部实体知识数据库里设计2阶段的实体预测,筛选出可能出现在回复中的医疗实体及对应知识,其中2阶段实体预测分别利用计算共现矩阵和余弦相似度的方法;模型接着用记忆网络来存储知识和对话历史的信息;最后整合记忆网络存储的信息,并使用注意力机制以及循环神经网络生成回复.在带有外部知识的大规模医疗对话数据集KaMed上进行了相关实验,该数据集为收集自在线平台的真实数据.实验结果表明提出的模型生成的回复在流畅性、多样性、正确性和专业性等方面均显著优于大部分基准模型.证明了合理引入外部知识的医疗对话模型能产生成更有医疗价值的回复.
为了解决就医过程中医疗资源短缺和患者时间不充裕、行程不便的问题,提出了结合外部知识的基于记忆网络的知识感知医疗对话生成模型(memory networks based knowledge-aware medical dialogue generation model, MKMed).该模型首先通过利用精确字匹配的方法在对话历史中进行实体追踪;随后在外部实体知识数据库里设计2阶段的实体预测,筛选出可能出现在回复中的医疗实体及对应知识,其中2阶段实体预测分别利用计算共现矩阵和余弦相似度的方法;模型接着用记忆网络来存储知识和对话历史的信息;最后整合记忆网络存储的信息,并使用注意力机制以及循环神经网络生成回复.在带有外部知识的大规模医疗对话数据集KaMed上进行了相关实验,该数据集为收集自在线平台的真实数据.实验结果表明提出的模型生成的回复在流畅性、多样性、正确性和专业性等方面均显著优于大部分基准模型.证明了合理引入外部知识的医疗对话模型能产生成更有医疗价值的回复.