Processing math: 0%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于分层潜在语义驱动网络的事件检测

肖梦南, 贺瑞芳, 马劲松

肖梦南, 贺瑞芳, 马劲松. 基于分层潜在语义驱动网络的事件检测[J]. 计算机研究与发展, 2024, 61(1): 184-195. DOI: 10.7544/issn1000-1239.202220447
引用本文: 肖梦南, 贺瑞芳, 马劲松. 基于分层潜在语义驱动网络的事件检测[J]. 计算机研究与发展, 2024, 61(1): 184-195. DOI: 10.7544/issn1000-1239.202220447
Xiao Mengnan, He Ruifang, Ma Jinsong. Event Detection Based on Hierarchical Latent Semantic-Driven Network[J]. Journal of Computer Research and Development, 2024, 61(1): 184-195. DOI: 10.7544/issn1000-1239.202220447
Citation: Xiao Mengnan, He Ruifang, Ma Jinsong. Event Detection Based on Hierarchical Latent Semantic-Driven Network[J]. Journal of Computer Research and Development, 2024, 61(1): 184-195. DOI: 10.7544/issn1000-1239.202220447

基于分层潜在语义驱动网络的事件检测

基金项目: 国家自然科学基金项目(61976154);国家重点研发计划项目(2019YFC1521200)
详细信息
    作者简介:

    肖梦南: 1997年生. 硕士. 主要研究方向为自然语言处理、事件抽取

    贺瑞芳: 1979年生. 博士,教授,博士生导师. CCF高级会员. 主要研究方向为自然语言处理、社会媒体挖掘、机器学习

    马劲松: 1997年生. 硕士. 主要研究方向为自然语言处理、事件抽取

    通讯作者:

    贺瑞芳(rfhe@tju.edu.cn

  • 中图分类号: TP391

Event Detection Based on Hierarchical Latent Semantic-Driven Network

Funds: This work was supported by the National Natural Science Foundation of China (61976154) and the National Key Research and Development Program of China (2019YFC1521200).
More Information
    Author Bio:

    Xiao Mengnan: born in 1997. Master. His main research interests include natural language processing and event extraction

    He Ruifang: born in 1979. PhD, professor, PhD supervisor. Senior member of CCF. Her main research interests include natural language processing,social media mining,and machine learning

    Ma Jinsong: born in 1997. Master. His main research interests include natural language processing and event extraction

  • 摘要:

    事件检测旨在检测句子中的触发词并将其分类为预定义的事件类型. 如何有效地表示触发词是实现该任务的核心要素. 目前基于表示的方法通过复杂的深度神经网络来学习候选触发词的语义表示,以提升模型性能. 然而,其忽略了2个问题:1)受句子语境的影响,同一个触发词会触发不同的事件类型;2)受自然语言表达多样性的影响,不同的触发词会触发同一个事件类型. 受变分自编码器中隐变量及其他自然语言处理(natural language processing,NLP)任务中分层结构的启发,提出基于分层潜在语义驱动网络(hierarchical latent semantic-driven network,HLSD)的事件检测方法,通过句子和单词的潜在语义信息来辅助缓解以上2个问题. 模型从文本表示空间中分层降维到新的潜在语义空间,探索事件宏微观语境中更本质的影响信息. 首先,通过BERT对候选句子进行编码,得到句子的表示和句子中单词的表示;其次,设计一个双重的潜在语义机制,并采用VAE挖掘句子和单词级潜在语义;最后,从不同粒度的上下文角度,提出采用一个由粗到细的分层结构来充分使用句子和单词的潜在信息,从而提升模型的性能.ACE2005英文语料库上的实验结果表明,所提方法的F1值在事件检测任务上达到了77.9%. 此外,在实验部分对以上2个问题进行了定量分析,证明了所提方法的有效性.

    Abstract:

    Event detection aims to detect triggers in sentences and classify them into pre-defined event types. The key factors lie in appropriately representing triggers. Existing representation-based methods learn the semantic representation of candidate triggers through complex deep neural networks to improve the performance of models. However, these methods ignore two important problems: 1) affected by sentence context, the same trigger can trigger different event types; 2) due to the diversity of natural language expression, different triggers can trigger the same event type. Inspired by hidden variables in the variational auto-encoder (VAE) and hierarchical structure in other natural language processing (NLP) tasks, we propose a hierarchical latent semantic-driven network (HLSD) for event detection to address the above two problems through latent semantic information of sentences and words. The model reduces the dimension from the text representation space to the new latent semantic space and explores the more essential influence information in the macro and micro context of events. Firstly, we get the representation of a sentence and the words through BERT. Secondly, a dual latent semantic mechanism is designed, and VAE is used to mine the latent semantic information at the sentence and word levels. Finally, from the perspective of different granularity contexts, a hierarchical structure from coarse to fine is proposed to make full use of the latent semantic information of sentences and words, to improve the performance of the model. The experimental results on ACE2005 corpus show that the F1 performance of the proposed method achieves 77.9%. In addition, we quantitatively analyze the above two problems in the experiment, which proves the effectiveness of our method.

  • 随着大数据时代来临,传感器数据、在线交易数据、社交媒体数据、用户在线行为数据等源源不断地产生. 不同于传统的静态数据,这些数据具有实时性、无限性、不可再生性等特点,称之为流数据. 近年来,互联网产业与人工智能技术迅猛发展,流数据挖掘的研究价值正变得愈来愈重要.

    在流数据挖掘任务中,学习器往往需要进行动态调整以适应数据的实时变化. 例如,对于推荐系统,用户的喜好可能随着时间改变,导致数据分布随着时间变化,不同时刻的数据不再满足独立同分布假设,数据分布的这种变化将导致后验概率的变化,因此先前训练得到的学习模型不再适用于新分布的数据,流数据的这种分布变化被称为概念漂移[1-3].

    目前许多在线学习模型都基于集成学习技术,利用多个学习器的加权或投票来取得比单个学习器更好的性能[4-5]. 同时,根据学习模型是否主动对概念漂移进行检测,在线学习方法可分为基于漂移检测的主动在线集成方法和自适应的被动在线集成方法. 基于漂移检测的主动在线集成方法大多通过模型性能指标(例如准确率)的变化来检测概念漂移,当模型性能发生大幅度波动时,说明流数据可能发生概念漂移,此时模型会用一个新的学习器来替换效果最差的旧学习器[6-10]. 然而,这种主动在线集成方法易受噪声或数据块大小的影响,造成学习器性能的大幅度波动,并且可能不能对概念漂移正确判断,导致模型性能不佳. 自适应型的被动在线集成方法[11-14]不直接检测概念漂移位点,而是根据流数据的变化情况动态地调整模型权重. 然而,这种方法难以利用历史信息去调节每个学习器权重以达到适应性和稳定性之间的平衡,并且不能很好地处理概念漂移. 此外,大多数在线学习方法都是基于线性分类器或者简单的非线性分类器(例如决策树、支持向量机、聚类等)[15-17],这些分类器表征能力较弱,且难以处理较复杂的流数据挖掘任务.

    近年来,深度学习技术在图像分类[18]、目标检测[19]、机器翻译[20]等领域取得了巨大成功. 与其他方法相比,深度学习技术拥有强大的表征能力,可以应用于许多复杂任务. 传统的深度学习方法使用大规模数据集对模型进行训练,并通过验证集来选择合适的模型架构(例如网络层的数量、每层神经元数量等),使模型能够有较好的泛化性能. 然而,在流数据挖掘任务中,模型每次只能在新进入的1个或者一小部分数据上训练和更新模型,无法利用验证集来进行模型架构选择,这就要求模型必须能够实时地动态调整以适应不断变化的数据流.

    在线深度学习方法利用深度神经网络强大的表征能力去处理流数据以得到更好的效果. 尽管可以利用反向传播算法[21]对流数据直接优化损失函数,但这种方式仍存在一些问题. 首先,在流数据挖掘任务中,模型单次只能处理1个或一小批数据,这就要求模型要有很灵活的结构,能够在动态变化的环境中进行实时调整. 然而,不同层次的深度网络模型往往有不同的收敛速度和表征能力以适用于不同场景. 对于较浅层的深度网络,模型收敛速度较快,能够快速地达到较好的性能,但表征能力较差,难以处理复杂分布的问题,较适用于概念漂移刚发生时的场景,以使模型性能在漂移发生后快速回升. 对于深度网络,收敛速度往往比浅层网络要缓慢,但具有比浅层神经网络更强大的表征能力,因此更适用于数据流趋于稳定之后的场景. 此外,深度网络所面临的梯度消失等问题,也会影响其在流数据挖掘任务上的性能.

    本文将梯度提升思想[22]引入含概念漂移的流数据挖掘问题中,提出了一种基于自适应深度集成网络的概念漂移收敛方法(concept drift convergence method based on adaptive deep ensemble networks,CD_ADEN). CD_ADEN方法将若干浅层网络作为基学习器进行集成,后序基学习器在前序基学习器输出基础上不断进行纠错,以提升学习模型在含概念漂移数据流分类任务中的实时泛化性能. 此外,由于每个基学习器均为浅层网络,有较快的收敛速度,在概念漂移发生后,学习模型能够较快地从漂移造成的性能下降中恢复. 实验结果表明,对于不同的评价指标,该方法平均排名均为第一. 在Sea,RBFBlips,Tree,Covertype等数据集上,最终累积精度相对于对比方法分别提高了1.63%,0.73%,3.48%,2.2%. 本文的主要贡献包括2个方面:

    1) 通过在前序输出的基础上对损失函数进行优化来替代学习损失函数梯度的方法,提升学习模型对前序学习器输出的纠错性能.

    2) 将梯度提升思想引入含概念漂移的流数据挖掘任务中,后序基学习器在前序学习器输出的基础上不断纠错,为解决含概念漂移的流数据挖掘问题提供了一个新思路.

    随着互联网技术的迅速发展,越来越多的机器学习任务的数据以流数据的形式呈现,概念漂移作为流数据挖掘领域中的一个重要难题,受到越来越多的关注. 针对含概念漂移的流数据挖掘任务,目前已经有较多研究. 根据是否对概念漂移的发生进行检测,大致可分为基于主动漂移检测的方法和被动漂移适应的方法[23].

    基于主动漂移检测的方法将概念漂移检测融入模型中,通过对学习模型的性能指标进行监测来判断是否发生概念漂移. 一旦检测到模型的性能指标出现大幅度下降,就认为数据流中发生了概念漂移,并对模型做出相应调整. 典型的如:滑动窗口方法[24]通过窗口不断向前滑动,利用标准差等指标判断是否发生概念漂移,若发生了概念漂移,就将已失效的样本丢弃以适应新的数据分布;增量贝叶斯方法[25]首先通过处理历史数据得到先验概率,再结合半监督方法计算后验概率来检测概念漂移;基于滑动窗口的ACDWM算法[4]通过设置1个滑动窗口来保存最新的数据,当任意2个子窗口中数据的平均值的差别大于一定阈值的时候,就认为发生了概念漂移,就会丢弃过时的数据;CD-TW算法[26-27]构建2个相邻的时序窗口,通过比较2个窗口所对应数据的分布变化情况来检测概念漂移节点. 文献[4, 24-27]所述的这些方法虽然能在一定程度上处理概念漂移问题,但仍存在概念漂移误报、概念漂移检测延迟和处理概念漂移类型单一等问题.

    被动漂移适应的方法并不直接对概念漂移进行检测,而是通过逐渐更新学习器以及根据每个基学习器的实时表现动态更新权重来适应概念漂移. 典型的如:SEA算法[28]在每个数据块上都训练一个分类器,然后将其加入集成学习模型中,当集成学习模型中的基学习器的数量达到上限时,替换表现最差的基学习器;动态加权投票算法DWM[29]根据每个基学习器的实时表现来动态地调整权重,在更新权重的同时,将权重小于某一阈值的基学习器移除;CondorForest算法[30]通过决策树模型重用机制动态调整模型中的基学习器;重用模型Learn++.NSE算法[31]是一种基于AdaBoost的动态加权算法,该算法根据每个基学习器与当前数据分布的一致性来对基学习器进行加权,并且在训练阶段通过一种遗忘机制来处理已过时的基学习器,在不同类型的概念漂移都取得了较好的效果. 文献[28-29, 31]所述的这些方法在对基学习器进行加权时无法有效利用基学习器的历史信息达到适应性与稳定性之间的平衡,往往不能很好地处理概念漂移.

    尽管以上方法可以很好地解决概念漂移问题,但多数算法都是通过在线凸优化方法来训练的一些简单模型,对于复杂非线性任务往往难以处理. 而深度网络模型能够很好地拟合复杂的非线性函数,但往往需要对大量数据进行批量训练. 目前用于专门处理流数据的深度网络模型仍比较少,根据是否对网络架构进行动态调整可分为动态调整的在线深度网络和结构稳定的在线深度网络. 动态调整的在线深度网络不断对网络参数进行调整以适应最新的数据分布,并根据网络实时性能来决定调整速率,典型的如MOS-ELM算法[32]、ELM算法[33]、ADL算法[34]、AO-LEM算法[35]等. 结构稳定的在线深度网络并不对网络架构进行直接调整,而是通过集成学习思想将多个(层)网络结合起来,通过调整网络权重来适应流数据中的概念漂移,典型的如HBP算法[36]、SEOA算法[37]等.

    本文将梯度提升思想引入含概念漂移的流数据挖掘问题,提出了一种基于自适应深度集成网络的概念漂移收敛方法,通过集成多个浅层网络,将后序基学习器的输出加到前序输出上对损失函数进行优化,以提升学习模型的实时泛化性能. 与传统方法相比,该方法通过对前序学习器输出进行不断纠错,加速模型收敛,并为解决含概念漂移的流数据挖掘问题提供了一个新思路.

    尽管深度学习在图像分类、目标检测、机器翻译等领域取得了较大成功,但在流数据场景下,深度学习算法难以通过验证集来对模型的架构进行选择,深层网络与浅层网络分别适用于不同场景,在线深度学习算法需要根据数据流的变化实时调整自身架构以达到收敛速度与表征能力间的有效平衡.

    为解决上述问题,本文将梯度提升思想的纠错机制引入含概念漂移的流数据分类中,提出了一种基于自适应深度集成网络的概念漂移收敛方法. 该方法集成多个浅层网络作为基学习器,后序基学习器在前序基学习器输出的基础上进行纠错,虽然浅层网络表征能力较弱,难以拟合复杂的非线性映射,但是通过集成多个浅层网络进行多轮纠错操作,最终的学习模型在经过多轮更新后能够得到较好的实时泛化性能. 此外,由于浅层网络收敛速度快,模型能够较快地从概念漂移造成的精度下降中恢复过来,较好地解决了其他在线深度学习方法在处理含概念漂移的流数据问题时难以兼顾模型精度与恢复速度这一问题,从而能够适用于含概念漂移的流数据挖掘任务之中. 模型的基本架构如图1所示.

    图  1  基于自适应深度集成网络的概念漂移收敛方法框架图
    Figure  1.  Framework of concept drift convergence method based on adaptive deep ensemble networks

    基于自适应深度集成网络的概念漂移收敛方法集成m个浅层网络作为基学习器,第i个基学习器的输出为 {f_i}({\boldsymbol{x}},{\theta _i}),i = 0,1, … ,m ,其中 {\theta _i} 为第i个基学习器的对应参数,对于分类问题,这里的输出指Softmax操作之前的网络输出,每个基学习器对应一个权重 {\alpha _i} ,因此模型的输出为

    {F_m}({\boldsymbol{x}}) = \sum\limits_{i = 0}^m {{\alpha _i}{f_i}({\boldsymbol{x}},{\theta _i})} . (1)

    前序学习器的隐藏层输出与原始输入x合并在一起作为后序基学习器的输入. 由于后序基学习器的输入部分来自前序基学习器,因此每添加1个基学习器可视为增加了1层网络深度,即对输入数据进一步地处理与变换,提高了模型容量. 通过各学习器的实时性能来动态调整权重 {\alpha _i} ,以动态控制模型容量.

    图1可以看出,后序基学习器的任务相当于在前序基学习器输出的基础上进行纠错,假设

    {F_{m - 1}}({\boldsymbol{x}}) = \sum\limits_{i = 0}^{m - 1} {{\alpha _i}{f_i}({\boldsymbol{x}},{\theta _i})} (2)

    为第m−1个基学习器的输出,那么第m个基学习器的学习目标即为在添加对应的输出以及权重之后的输出:

    {F_m}({\boldsymbol{x}}) = \sum\limits_{i = 0}^m {{\alpha _i}{f_i}({\boldsymbol{x}},{\theta _i})} , (3)

    能够进一步减小损失函数,即在添加上后序基学习器的输出之后,能够对前序输出纠错,以得到较好的实时泛化性能. 在该模型中,即使单个浅层网络难以达到较好的性能,但在添加上多个基学习器的输出,经过多轮纠错操作后的实时泛化性能可能较之前有明显提升. 此外,由于浅层网络的收敛速度较快,因此所提出的模型能够较快地从概念漂移造成的性能下降中恢复,有效兼顾了模型性能与收敛速度,可有效处理含概念漂移的流数据分类.

    为使添加后序基学习器输出后损失函数的结果有所下降,梯度提升思想借鉴最优化理论中梯度下降算法,每个基学习器相应的损失函数利用前序输出的梯度信息来进行优化,以提升模型性能.

    设训练样本为 \{ {y_i},{{\boldsymbol{x}}_{\boldsymbol{i}}}\} _{i = 1}^n ,梯度提升算法希望求得参数集 \{ {\alpha _j},{\theta _j}\} _{j = 1}^m ,使得

    \{ {\alpha _j},{\theta _j}\} _{j = 1}^m = \mathop {\arg \min }\limits_{\{ \alpha _j',\theta _j'\} _{j = 1}^m} {\text{ }}\sum\limits_{i = 1}^N {L({y_i},\sum\limits_{{{j}} = 0}^m {\alpha _j'{f_j}({{\boldsymbol{x}}_i},\theta _j')} )} , (4)

    其中L为损失函数. 为做到这一点,梯度提升算法采用梯度下降法近似逼近最优解,对于 j = 1,2,…,m,

    {g_j}({{\boldsymbol{x_i}}}) = {\left[ {\frac{{\partial L({y_i},F({{\boldsymbol{x_i}}}))}}{{\partial F({{\boldsymbol{x_i}}})}}} \right]_{F({\boldsymbol{x}}) = {F_{m - 1}}({\boldsymbol{x}})}} (5)

    代表第j个基学习器上输出损失的梯度. 由于梯度下降只关心梯度的方向信息而不关心梯度的具体大小,因此这里可以设置一个缩放因子 \beta ,按照式(6)训练第j个基学习器:

    {\theta _j} = \mathop {\arg \min }\limits_{\theta ,\;\beta } {\sum\limits_{i = 1}^n {\left[ { - {g_j}({{\boldsymbol{x_i}}}) - \beta {f_j}({{\boldsymbol{x_i}}},\theta )} \right]} ^2} . (6)

    在训练好第j个基学习器后,利用线搜索来求得梯度下降步长对应权重 {\alpha _j}

    {\alpha _j} = \mathop {\arg \min }\limits_\alpha \sum\limits_{i = 1}^n {L({y_i},{F_{j - 1}}({{\boldsymbol{x_i}}}) + \alpha {f_j}({{\boldsymbol{x_i}}},{\theta _j}))} . (7)

    在求得步长之后,利用式(8)更新模型:

    {F_j}({\boldsymbol{x}}) = {F_{j - 1}}({\boldsymbol{x}}) + {\alpha _j}{f_j}({\boldsymbol{x}},{\theta _j}) . (8)

    在经过m步梯度下降,即训练好m个基学习器之后,即可得到最终的模型.

    然而,梯度提升思想不能直接应用于流数据挖掘中,这是由于流数据分类的高实时性要求模型能够1次只训练1个或一小批数据,且数据流分布动态变化,这使得后序基学习器输出的梯度信息包含较大误差,难以对损失函数在前序输出处的梯度信息进行准确学习. 为此,本文改进了梯度提升机思想,使其能够适用于含概念漂移的流数据分类.

    具体地,在分类任务中,假设在时刻t基学习器 {f_0},{f_1},…,{f_{j - 1}} 的参数均已更新完毕, {f_j} 的参数按照式(9)更新,即首先利用时刻t-1的参数 \theta _j^{t - 1} 计算

    \tilde F = \sum\limits_{i = 0}^{j - 1} {\alpha _i^t{f_i}({\boldsymbol{x}},\theta _i^t) + \alpha _j^{t - 1}{f_j}({\boldsymbol{x}},\theta _j^{t - 1})} \text{,} (9)

    即先添加时刻t-1的模型 f_j^{t - 1} 的输出结果,并令

    {\tilde y_t} = {{Softmax}}({\tilde F_j}({\boldsymbol{x}})) (10)

    f_j^{} 的分类输出,利用

    \theta _j^t = \theta _j^{t - 1} - \eta \dfrac{{\partial L({y_t},{{\tilde y}_t})}}{{\partial \theta _j^{t - 1}}} (11)

    以及

    \alpha _j^t = \alpha _j^{t - 1} - \eta \dfrac{{\partial L({y_t},{{\tilde y}_t})}}{{\partial \alpha _j^{t - 1}}} (12)

    {f_j} 的参数以及权重进行更新,将更新后的 {f_j} 添加到模型中即得到

    {F_j}({\boldsymbol{x}}) = \sum\limits_{i = 0}^j {\alpha _i^t{f_i}({\boldsymbol{x}},\theta _i^t)} \text{,} (13)

    在经过m轮更新后,模型最终的输出结果即为 {{Softmax}}({F_m}({\boldsymbol{x}})) .

    该方法通过直接对损失函数进行优化来更新各基学习器的参数,使得更新后的基学习器损失减小. 相较于传统的梯度提升思想通过学习梯度信息来减小损失的方式,本文直接对损失函数优化,避免了流数据挖掘中基学习器难以准确学习梯度信息的问题.

    根据流数据到达的先后顺序将数据块赋予一个时间戳,流数据可以表示为

    SD = \{ ({{\boldsymbol{X_t}}},{Y_t})|t = 1,2,…,T\} .

    按照流数据的这种表示形式,可以将本文所提出的基于自适应深度集成网络的概念漂移收敛方法总结如算法1所示.

    算法1. 基于自适应深度集成网络的概念漂移收敛算法.

    输入:初始化各基学习器,设每个学习器输出的logits为 {f_i}({\boldsymbol{x}},{\theta _i}),i = 0,1,…,m ,并且将权重初始化 为 {\alpha _i} = {1 \mathord{\left/ {\vphantom {1 m}} \right. } m},i = 1,2, \cdots ,m

    输出:模型输出结果 {{Softmax}}({F_{\text{m}}}({\boldsymbol{x}})) .

    ① for t = 1,2,…,T

    ②  预测 {\tilde Y_t} = Softmax({f_0}({{\boldsymbol{X}}_t},\theta _0^{t - 1}) + \sum\limits_{{{j}} = 1}^m {\alpha _{{j}}^{t - 1}{f_{{j}}} ({{\boldsymbol{X}}_t},\theta _{{j}}^{t - 1})} )

    ③ 令 \tilde Y_0^t = {{Softmax}}({f_0}({{\boldsymbol{X}}_t},\theta _0^{t - 1}) ,并利用      \theta _0^t = \theta _0^{t - 1} - \eta \dfrac{{\partial L({Y_t},\tilde Y_0^t)}}{{\partial \theta _0^{t - 1}}} 来更新 \theta _0^{}

    ④  for {{j}} = 1,2,…,{{m}}

    ⑤   \tilde Y_{{j}}^t = {{Softmax}}(\sum\limits_{i = 0}^{j - 1} {\alpha _i^t{f_i}({\boldsymbol{x}},\theta _i^t) + \alpha _{{j}}^{t - 1}{f_{{j}}}({\boldsymbol{x}},\theta _{{j}}^{t - 1})} )

    ⑥   更新参数 \theta _{{j}}^t = \theta _{{j}}^{t - 1} - \eta \dfrac{{\partial L({Y_t},\tilde Y_{{j}}^t)}}{{\partial \theta _{{j}}^{t - 1}}}

    ⑦   更新参数 \alpha _{{j}}^t = \alpha _{{j}}^{t - 1} - \eta \dfrac{{\partial L({Y_t},\tilde Y_{{j}}^t)}}{{\partial \alpha _{{j}}^{t - 1}}}

    ⑧  end for

    ⑨ end for

    为测试本文所提出的CD_ADEN方法的性能,本文在多个真实数据集以及合成数据集上对模型的实时精度、累积精度及概念漂移发生后的恢复性等评价指标进行了测试. 所采用的深度学习框架为Tensorflow,实验所用计算机的配置为Intel® CoreTM i5-8300H 2.30 GHz CPU, 16 GB DDR4L RAM 以及 NVIDIA GeForce GTX1050 Ti 4GB GPU.

    本文所用的数据集既有真实数据集,又有模拟概念漂移的合成数据集,包含了突变型概念漂移与渐变型概念漂移,数据集[37]的具体信息见表1.

    表  1  实验采用的数据集
    Table  1.  Datasets Used in Experiment
    数据集 样本实例数 属性维数 样本类别数 漂移类型 漂移位点位置
    Sea 105 3 2 渐变型 25×103,50×103,75×103
    Hyperplane 105 10 2 增量型 -
    RBFBlips 105 20 4 突变型 25×103,50×103,75×103
    LED_abrupt 105 24 10 突变型 50×103
    LED_gradual 105 24 10 渐变型 25×103,50×103,75×103
    Tree 105 30 10 突变型 25×103,50×103,75×103
    Electricity 4.53×104 6 2 未知 -
    Kddcup99 4.94×106 41 23 未知 -
    Covertype 5.81×105 54 7 未知 -
    Weather 9.51×104 9 3 未知 -
    注:“-”表示不确定漂移位点位置.
    下载: 导出CSV 
    | 显示表格

    在本文中将所提出的方法CD_ADEN与4种在线深度学习方法HBP[36],Resnet[38],Highway[39],DNN进行了对比,实验中数据块大小为 100,隐藏节点为100,使用ReLU激活函数,设置固定学习率为0.001.

    本文从3个指标对模型的泛化性能及概念漂移发生后模型的收敛性能进行测试与分析.

    1) 平均实时精度. 平均实时精度即实时精度在每个时间节点上的平均值,定义为

    Avgracc = \frac{1}{T}\sum\limits_{t = 1}^T {ac{c_t}} , (14)

    其中 ac{c_t} 为模型在时间节点t的实时精度. 平均实时精度越高,反映模型的实时性能越好. 由于本文使用的数据集多为类别不平衡的数据集,因此本文中的实时精度 ac{c_t} 使用的是Balanced Accuracy Score[40]acc_t 被定义为各类别的平均值:

    ac{c_t} = \frac{1}{k}\sum\limits_{i = 1}^k {\frac{{{c_{ii}}}}{{{c_{*i}}}}} , (15)

    其中k为类别数目, {c_{ij}} 指混淆矩阵中索引为 (i,j) 的元素, {c_{*i}} = \sum\limits_{{{j}} = 1}^{{k}} {{c_{ji}}} 为混淆矩阵第i列元素之和.

    2) 最终累积精度. 最终累积精度即最终模型预测正确的样本数与总样本数的比值,即

    Finacc = \frac{1}{{T \times n}}\sum\limits_{t = 1}^T {{n_t}} , (16)

    其中n为每个数据块中的数据数量, {n_t} 为模型在时间节点t对应的数据块中分类正确的样本数目. 最终累积精度越高,代表模型的整体分类性能越好.

    3) 漂移恢复率. 一个好的在线学习算法不仅需要有较高的准确率,并且需要能够较快地从概念漂移造成的影响中恢复,因此漂移恢复率Drr指标定义为

    {{Drr}} = step \times avg , (17)

    其中 step 代表模型从概念漂移造成的影响中恢复所需的时间步长, avg 代表恢复过程中模型的平均错误率. 漂移恢复率取值越小,表示模型在漂移发生后,越能够快速恢复到漂移之前的性能.

    为验证本文所提方法的合理性,本节从实时精度、累积精度以及漂移恢复率3个指标进行了实验分析.

    模型的超参数往往对模型的性能有着至关重要的影响,本节在不同数据集上分析基学习器数量下模型的性能表现. 表2展示了不同基学习器数量下模型的平均实时精度情况,本文分别测试了包含4个、8个、12个基学习器时模型的平均实时精度. 从表2可以看出,在多数数据集上,基学习器数量n>8时,性能差距不明显. 因此,后续与其他方法对比时本文所提出的模型均包含8个基学习器.

    表  2  不同基学习器数量下的平均实时精度
    Table  2.  Average Real-Time Accuracy with Different Numbers of Base Learners
    数据集 平均实时精度(排名)
    n=4 n=8 n=12
    Sea 0.8221(3) 0.8243(1) 0.8226(2)
    Hyperplane 0.9195(3) 0.9200(2) 0.9214(1)
    RBFBlips 0.9674(3) 0.9680(2) 0.9705(1)
    LED_abrupt 0.6123(2) 0.6120(3) 0.6136(1)
    LED_gradual 0.6249(1) 0.6227(3) 0.6232(2)
    Tree 0.3858(3) 0.3895(2) 0.3916(1)
    Electricity 0.6468(3) 0.6484(2) 0.6485(1)
    Kddcup99 0.8424(1) 0.8372(2) 0.8199(3)
    Covertype 0.7039(2) 0.7056(1) 0.7038(3)
    Weather 0.8124(3) 0.8125(1) 0.8125(2)
    注:n表示基学习器数量;黑体数值表示最优值.
    下载: 导出CSV 
    | 显示表格

    图2展示了不同方法的实时精度变化趋势. 从图2中可以看出,不同方法实时精度波动趋势基本一致,但CD_ADEN方法波动较小,因此较好地处理了流数据中包含的不同类型概念漂移.

    图  2  不同方法的实时精度比较
    Figure  2.  Comparison of real-time accuracy of different methods

    表3展示了不同方法的平均实时精度以及相应排序情况. 可以看出,在多数情况下CD_ADEN方法的平均实时精度最好. 然而在LED_abrupt,Electricity,Kddcup99和Weather上,CD_ADEN方法并未取得最优结果,这可能是由于数据集的分布不同,较少基学习器模型不能很好地表示数据分布,而较多基学习器则会降低收敛速度,并且导致较低的平均实时精度.

    表  3  不同方法的平均实时精度比较
    Table  3.  Average Real-Time Accuracy Comparison of Different Methods
    数据集 平均实时精度(排名)
    DNN2 DNN4 DNN8 Resnet Highway HBP CD_ADEN(本文)
    Sea 0.6217(7) 0.6782(6) 0.6782(5) 0.7698(4) 0.8064(2) 0.8056(3) 0.8243(1)
    Hyperplane 0.8913(5) 0.8930(4) 0.8905(6) 0.8892(7) 0.9053(2) 0.8969(3) 0.9200(1)
    RBFBlips 0.9460(4) 0.9448(6) 0.9451(5) 0.9406(7) 0.9581(2) 0.9517(3) 0.9680(1)
    LED_abrupt 0.6122(1) 0.6030(4) 0.5741(7) 0.5912(6) 0.6016(5) 0.6068(3) 0.6120(2)
    LED_gradual 0.6206(2) 0.6134(4) 0.5873(7) 0.6067(6) 0.6116(5) 0.6191(3) 0.6227(1)
    Tree 0.3301(2) 0.3268(3) 0.2378(7) 0.2877(5) 0.2952(4) 0.2799(6) 0.3895(1)
    Electricity 0.6657(1) 0.6465(3) 0.6031(6) 0.5821(7) 0.6337(4) 0.6115(5) 0.6484(2)
    Kddcup99 0.8796(1) 0.7186(6) 0.4763(7) 0.6534(5) 0.7537(4) 0.7670(3) 0.8372(2)
    Covertype 0.5251(7) 0.5739(6) 0.6243(4) 0.6183(5) 0.6354(3) 0.6465(2) 0.7056(1)
    Weather 0.8478(1) 0.8050(5) 0.8057(4) 0.8034(6) 0.7813(7) 0.8139(2) 0.8125(3)
    平均序值 3.1 4.7 5.8 5.8 3.8 3.3 1.5
    注:黑体数值表示最优值.
    下载: 导出CSV 
    | 显示表格

    本文通过非参数测试方法Friedman检验[41]进行统计测试. 对于给定的k个算法和n个数据集, r_i^j 是第j个算法在第i个数据集上的排名,第j个算法的平均序值 {R_j} = \dfrac{{{1}}}{{{n}}}\sum\limits_i {r_i^j} . 零假设 {H_0} 为如果所有的方法性能相同,那么它们的平均序值是相等的. 在零假设下,当kn足够大时,FF服从自由度为 k − 1 和(k − 1)(n − 1) 的F分布:

    {F_{\mathrm{F}}} = \frac{{(n - 1)\chi _{\mathrm{F}}^2}}{{n(k - 1) - \chi _{\mathrm{F}}^2}} \text{,} (18)

    其中

    \chi _{\mathrm{F}}^2 = \frac{{12n}}{{k(k + 1)}}\left[ {\sum\limits_j {R_j^2} - \frac{{k{{(k + 1)}^2}}}{4}} \right] . (19)

    若零假设 {H_0} 被拒绝,计算出的统计量大于FF的临界值,表明学习方法在性能上有显著差异,对上述方法的平均实时精度进行测试,得到统计值FF=9.75. 由于其在显著水平 \alpha =0.05处的临界值为2.272,因此拒绝了算法之间性能不可区分的零假设.

    此外,所有方法的临界差(CD)都是通过Bonferroni-Dunn检验计算的,用来显示CD_ADEN方法和对比方法之间的相对性能,如果2个算法的平均序值之差超过了临界差CD,则2个分类器的性能有显著差异:

    CD = {q_\alpha }\sqrt {\dfrac{{k(k + 1)}}{{6n}}} , (20)

    其中 {q_\alpha } 是显著级 \alpha 的临界值. 可得在 \alpha =0.05时CD=2.195. 统计分析的结果如图3所示. 其中,平均序值在一个临近值域内的方法用黑线连接. 结果表明,CD_ADEN方法的平均实时精度显著优于DNN8,Resnet,DNN4.

    图  3  平均实时精度的Bonferroni-Dunn检验结果
    Figure  3.  Bonferroni-Dunn test result for average real-time accuracy

    表4展示了不同基学习器数量n下模型的最终累积精度情况. 在大多数据集上,基学习器数量越大,模型的最终累积精度表现越好.

    表  4  不同基学习器数量下的最终累积精度
    Table  4.  Final Cumulative Accuracy with Different Numbers of Base Learners
    数据集 最终累积精度(排名)
    n=4 n =8 n =12
    Sea 0.8455(3) 0.8472(1) 0.8463(2)
    Hyperplane 0.8909(3) 0.8979(1) 0.8936(2)
    RBFBlips 0.9651(3) 0.9673(2) 0.9681(1)
    LED_abrupt 0.6133(1) 0.6128(3) 0.6131(2)
    LED_gradual 0.6239(2) 0.6226(3) 0.6244(1)
    Tree 0.5952(1) 0.5937(2) 0.5769(3)
    Electricity 0.6874(1) 0.6781(2) 0.6611(3)
    Kddcup99 0.9830(2) 0.9844(1) 0.9819(3)
    Covertype 0.8123(1) 0.8123(1) 0.8029(3)
    Weather 0.8838(1) 0.8838(1) 0.8838(1)
    注:n表示基学习器数量;黑体数值表示最优值.
    下载: 导出CSV 
    | 显示表格

    图4展示了不同方法的累积精度比较. 可以看出所有方法的累积精度趋势相同,漂移发生后,CD_ADEN的累积精度下降低于其他方法,这是由于后序基学习器在前序输出基础上不断纠错,提升了模型的泛化性能.

    图  4  不同方法的累积精度比较
    Figure  4.  Comparison of cumulative accuracy on different methods

    表5展示了不同方法的最终累积精度结果以及相应的排序. 通过平均序值的比较可以看出,CD_ADEN的性能最好,HBP和DNN2次之,DNN8表现最差. CD_ADEN在除了Hyperplane的合成数据集上都取得最高的最终累积精度,在真实数据集Electricity, Weather上表现稍差于DNN2方法. CD_ADEN通过将梯度提升算法的纠错机制引入流数据挖掘任务中处理概念漂移,使模型具有较好的泛化性能. 然而,CD_ADEN并不是均能保持最优精度,这可能是由于基学习器数量未选择至合适数目,较少或较多的基学习器数量均会导致在部分数据集上取得较低的最终累积精度.

    表  5  不同方法的最终累积精度比较
    Table  5.  Final Cumulative Accuracy Comparison of Different Methods
    数据集 最终累积精度(排名)
    DNN2 DNN4 DNN8 Resnet Highway HBP CD_ADEN(本文)
    Sea 0.6579(7) 0.7303(6) 0.7349(5) 0.8062(4) 0.8307(3) 0.8309(2) 0.8472(1)
    Hyperplane 0.8912(5) 0.8933(4) 0.8908(6) 0.8887(7) 0.9053(1) 0.8970(3) 0.8979(2)
    RBFBlips 0.9479(5) 0.9489(4) 0.9478(6) 0.9433(7) 0.9600(2) 0.9542(3) 0.9673(1)
    LED_abrupt 0.6125(2) 0.6033(4) 0.5747(7) 0.5915(6) 0.6016(5) 0.6069(3) 0.6128(1)
    LED_gradual 0.6208(2) 0.6137(4) 0.5879(7) 0.6067(6) 0.6117(5) 0.6186(3) 0.6226(1)
    Tree 0.5589(2) 0.5505(3) 0.4725(7) 0.5069(5) 0.5340(4) 0.5042(6) 0.5937(1)
    Electricity 0.6821(1) 0.6715(3) 0.6411(6) 0.6303(7) 0.6621(4) 0.6504(5) 0.6781(2)
    Kddcup99 0.9832(2) 0.9195(6) 0.7812(7) 0.9276(5) 0.9614(4) 0.9823(3) 0.9844(1)
    Covertype 0.6984(7) 0.7336(6) 0.7677(5) 0.7730(4) 0.7824(3) 0.7903(2) 0.8123(1)
    Weather 0.8872(1) 0.8743(5) 0.8754(4) 0.8708(6) 0.8362(7) 0.8824(3) 0.8838(2)
    平均序值 3.4 4.5 6.0 5.7 3.8 3.3 1.3
    注:黑体数值表示最优值.
    下载: 导出CSV 
    | 显示表格

    进一步分析计算出检验值FF=10.8744,在显著水平 \alpha =0.05处的临界值为2.109,因此拒绝了方法之间性能不可区分的零假设. Bonferroni-Dunn检验结果如图5所示,结果表明CD_ADEN方法的最终累积精度显著优于DNN4,DNN8,Resnet.

    图  5  最终累积精度的Bonferroni-Dunn检验结果
    Figure  5.  Bonferroni-Dunn test result for final cumulative accuracy

    在线学习模型不仅要考虑其准确率,同时也应该考虑概念漂移发生之后模型的恢复性能. 本文在突变型概念漂移数据集上对模型的恢复性能进行了测试. 当模型的实时精度恢复到概念漂移发生之前的 \delta 倍时即判断为恢复,根据数据集的不同, \delta 相应被设置成不同的值.

    表6展示了不同基学习器数量n下模型的漂移恢复性能. 由表6可以看出,不同于多层DNN,当模型的基学习器越多,就对应着更复杂、容量更大的模型,模型的恢复速度反而更快. 这可能是因为越多的基学习器对应越多的纠错次数,可以使模型更快地从概念漂移导致的高错误率中恢复. 这也一定程度上印证了本文提出的纠错机制是适用于含概念漂移的流数据挖掘问题的解决之中的.

    表  6  不同基学习器数量下的漂移恢复率
    Table  6.  Drift Recovery Rate Under Different Numbers of Base Learners
    数据集 漂移恢复率(第1个位点/第2个位点/第3个位点)
    n =4 n =8 n =12
    Tree( \delta =0.7 33.37/69.35/112.14 40.39/84.51/66.52 40.81/42.49/80.80
    RBFBlips( \delta =0.9 1.60/1.91/1.35 1.59/2.16/1.36 1.72/2.09/1.10
    LED_abrupt( \delta =0.7 40.06 31.98 28.77
    注: LED_abrupt数据集包含1个位点,漂移恢复率只有1个值;n表示基学习器数量. 黑体数值表示不同位点的最优值.
    下载: 导出CSV 
    | 显示表格

    表7展示了CD_ADEN与其他方法的对比. 可以看出,CD_ADEN有较好的恢复速度,平均排名为各种方法中最高,能够较好地应用于含概念漂移的流数据挖掘任务.

    表  7  不同方法的漂移恢复率
    Table  7.  Drift Recovery Rate of Different Methods
    方法 漂移恢复率(第1个位点/第2个位点/第3个位点) 平均序值
    Tree ( \delta =0.7 RBFBlips ( \delta =0. 9) LED_abrupt ( \delta =0.7
    DNN2 45.98/88.41/193.43 4.32/4.39/3.18 27.64 3.71
    DNN4 75.89/90.89/166.07 4.76/6.86/4.95 46.48 5.0
    DNN8 171.02/53.77/158.23 3.55/3.31/6.45 124.98 4.43
    Resnet 98.63/176.26/126.73 5.04/7.47/2.81 46.94 5.29
    Highway 59.56/97.21/147.49 3.62/2.89/1.86 45.97 3.29
    HBP 113.92/104.81/194.90 5.43/3.43/1.43 45.38 5.0
    CD_ADEN(本文) 40.39/80.51/66.52 1.59/2.16/1.36 31.98 1.29
    注:同表6,LED_abrupt数据集的漂移恢复率只有1个值. 黑体数值表示不同位点的最优值.
    下载: 导出CSV 
    | 显示表格

    进一步分析上述结果,比较CD_ADEN和对比方法在漂移恢复方面的性能. 计算出FF=6.5016,在显著水平 \alpha =0.05处的临界值为2.109,因此拒绝了方法之间性能不可区分的零假设. Bonferroni-Dunn检验结果如图6所示,结果表明,CD_ADEN方法的漂移恢复性能显著优于DNN4,DNN8,Resnet.

    图  6  漂移恢复率的Bonferroni-Dunn检验结果
    Figure  6.  Bonferroni-Dunn test result for drift recovery rate

    本文针对流数据挖掘中概念漂移问题带来的挑战,将梯度提升的纠错思想引入概念漂移问题的解决之中,提出了基于自适应深度集成网络的概念漂移收敛方法CD_ADEN. CD_ADEN方法通过集成多个浅层网络构成集成学习模型,后序基学习器在前序输出的基础上对其进行纠错以提升模型的实时泛化性能,在一定程度上缓解了传统在线深度网络难以兼顾模型精度与恢复性能的问题,从而更好地应用于含概念漂移的流数据挖掘任务当中.

    作者贡献声明:郭虎升提出思路,设计方法,负责初稿写作及论文修改;孙妮负责论文撰写、数据测试及论文修改;王嘉豪负责代码实现、数据测试及论文撰写;王文剑负责写作指导、论文修改审定.

  • 图  1   ACE2005 英文训练数据集中各类事件的分布

    Figure  1.   Distribution of various events in ACE2005 English training dataset

    图  2   HLSD架构

    Figure  2.   The architecture of HLSD

    图  3   不同模型识别出的事件触发词种类数

    Figure  3.   Number of event trigger types identified by different models

    表  1   “lost”的上下文及其触发的事件类型、频数

    Table  1   Context of “lost” and the Event Type and Frequency It Triggers

    事件类型频数触发词以及上下文
    End-Position1lost their jobs
    Injure1lost both his arms, his home
    Die5lost their lives/lost your header/lost their lives/lost 13 more than/lost such a big part of her life
    Elect1lost her seat in the 1997 election
    下载: 导出CSV

    表  2   ACE2005英文数据集统计

    Table  2   ACE2005 English Dataset Statistics

    数据集文档数句子数触发词数
    训练集 529 14724 4311
    验证集 30 875 492
    测试集 40 713 422
    下载: 导出CSV

    表  3   总体性能比较

    Table  3   Overall Performance Comparison %

    方法EncoderPRF1
    HBTNGMALSTM77.969.173.3
    DEEB-RNNLSTM72.375.874.0
    DeltaELMo76.371.974.0
    GCN-EDGCN77.968.873.1
    CDSIGMGCN75.572.473.9
    TS-distillGAN76.872.974.8
    PLMEEBERT72.273.973.0
    DMBERTBERT77.671.874.6
    CSMGBERT75.274.474.8
    RCEE_ERBERT75.674.274.9
    MSBERTBERT75.177.976.5
    GatedGCNBERT78.876.377.6
    HLSD(本文)BERT75.180.977.9
    下载: 导出CSV

    表  4   整合不同潜在语义模块的性能比较

    Table  4   Performance Comparison of Integrating Different Latent Semantic Modules %

    方法PRF1
    BASE72.273.973.0
    BASE+SENT73.174.173.6
    BASE+WORD73.674.073.8
    BASE+SENT+WORD74.275.774.9
    HLSD(本文)75.180.977.9
    下载: 导出CSV

    表  5   不同分层结构的性能比较

    Table  5   Performance Comparison of Different Hierarchical Structures %

    方法PRF1
    HLSD-174.275.774.9
    HLSD-276.677.376.9
    HLSD(本文)75.180.977.9
    下载: 导出CSV

    表  6   不同模型在1词触发不同事件类型上的性能

    Table  6   Performance of Different Models on One Word Triggering Different Event Types

    方法正确识别的事件数量正确率/%
    BASE3242.7
    BASE+WORD3749.3
    BASE+SENT4458.7
    HLSD(本文)5168.0
    下载: 导出CSV
  • [1]

    Zhang Hongming, Liu Xin, Pan Haojie, et al. ASER: A large-scale eventuality knowledge graph [C] //Proc of the 29th Int World Wide Web Conf. New York: ACM, 2020: 201−211

    [2]

    Glavas G, Snajder J. Event graphs for information retrieval and multi-document summarization [J]. Journal of Expert Systems with Applications, 2014, 41(15): 6904−6916

    [3]

    Eisenberg J, Sheriff M. Automatic extraction of personal events from dialogue [C] //Proc of the 1st Joint Workshop on Narrative Understanding, Storylines, and Events. Stroudsburg, PA: ACL, 2020: 63−71

    [4]

    Ahn D. The stages of event extraction [C] //Proc of the Workshop on Annotating and Reasoning about Time and Events. Stroudsburg, PA: ACL, 2006: 1–8

    [5]

    Ji Heng, Grishman R. Refining event extraction through cross-document inference [C] //Proc of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2008: 254–262

    [6]

    Liao Shasha, Grishman R. Using document level cross-event inference to improve event extraction [C] //Proc of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2010: 789–797

    [7]

    Hong Yu, Zhang Jianfeng, Ma Bin, et al. Using cross-entity inference to improve event extraction [C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2011: 1127–1136

    [8]

    Li Qi, Ji Heng, Huang Liang. Joint event extraction via structured prediction with global features [C] //Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2013: 73–82

    [9]

    Liu Shulin, Liu Kang, He Shizhu, et al. A probabilistic soft logic based approach to exploiting latent and global information in event classification [C] //Proc of the 30th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2016: 2993–2999

    [10]

    Chen Yubo, Xu Liheng, Liu Kang, et al. Event extraction via dynamic multi-pooling convolutional neural networks [C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2015: 167–176

    [11]

    Nguyen T H, Grishman R. Modeling skip-grams for event detection with convolution neural networks [C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 886–891

    [12]

    Nguyen T H, Grishman R. Event detection and domain adaptation with convolution neural networks [C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2015: 365–371

    [13]

    Nguyen T H, Cho K, Grishman R. Joint event extraction via recurrent neural networks [C] //Proc of the 15th Annual Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 300–309

    [14]

    Feng Xiaocheng, Huang Lifu, Tang Duyu, et al. A language-independent neural network for event extraction [C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 66–71

    [15]

    Duan Shaoyang, He Ruifang, Zhao Wenli. Exploiting document level information to improve event detection via recurrent neural networks [C] //Proc of the 8th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2017: 351–361

    [16]

    Liu Jian, Chen Yubo, Liu Kang. Exploiting the ground-truth: An adversarial imitation based knowledge distillation approach for event detection [C] //Proc of the 33rd AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2019: 6754−6761

    [17]

    Yang Sen, Feng Dawei, Qiao Linbo, et al. Exploring pre-trained language models for event extraction and generation [C] //Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 5284−5294

    [18]

    Lu Yaojie, Lin Hongyu, Han Xianpei, et al. Distilling discrimination and generalization knowledge for event detection via delta-representation learning [C] //Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 4366−4376

    [19]

    Zhao Yue, Jin Xiaolong, Wang Yuanzhuo, et al. Document embedding enhanced event detection with hierarchical and supervised attention [C] //Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2018: 414−419

    [20]

    Chen Yubo, Yang Hang, Liu Kang, et al. Collective event detection via a hierarchical and bias tagging networks with gated multi-level attention mechanisms [C] //Proc of the 2018 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2018: 1267−1276

    [21]

    Nguyen T H, Grishman R. Graph convolutional networks with argument-aware pooling for event detection [C] //Proc of the 32nd AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2018: 5900–5907

    [22]

    Liu Jian, Chen Yubo, Liu Kang, et al. Event extraction as machine reading comprehension [C] //Proc of the 2020 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 1641−1651

    [23]

    Lai V D, Nguyen T N, Nguyen T H. Event detection: Gate diversity and syntactic importance scores for graph convolution neural networks [C] //Proc of the 2020 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 5405−5411

    [24]

    Liu Shulin, Chen Yubo, He Shizhu, et al. Leveraging FrameNet to improve automatic event detection [C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistic. Stroudsburg, PA: ACL, 2016: 2134–2143

    [25]

    Chen Yubo, Liu Shulin, Zhang Xiang, et al. Automatically labeled data generation for large scale event extraction [C] //Proc of the 55th Annual Meeting of the Association for Computational Linguistic. Stroudsburg, PA: ACL, 2017: 409–419

    [26]

    Liu Jian, Chen Yubo, Liu Kang, et al. Event detection via gated multilingual attention mechanism [C] //Proc of the 32nd AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2018: 4865–4872

    [27]

    Wang Xiaozhi, Han Xu, Liu Zhiyuan, et al. Adversarial training for weakly supervised event detection [C] //Proc of the 17th Annual Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 998−1008

    [28]

    Tong Meihan, Xu Bin, Wang Shuai, et al. Improving event detection via open-domain trigger knowledge [C] //Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2020: 5887−5897

    [29]

    Wang Ziqi, Wang Xiaozhi, Han Xu, et al. CLEVE: Contrastive pre-training for event extraction [C] //Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 6283−6297

    [30]

    Kingma D P , Welling M . Auto-encoding variational Bayes [C/OL] //Proc of the 2nd Int Conf of Learning Representation. Ithaca, NY: Cornell University, 2014[2022-12-16].https://openreview.net/forum?id=33X9fd2−9FyZd

    [31]

    Miao Yishu, Grefenstette E, Blunsom P. Discovering discrete latent topics with neural variational inference [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2410−2419

    [32]

    Srivastava A, Sutton C. Autoencoding variational inference for topic models [C/OL] //Proc of the 5th Int Conf of Learning Representation. Ithaca, NY: Cornell University, 2017[2022-12-16].https://openreview.net/forum?id=BybtVK9lg

    [33]

    Xu Sheng, Li Peifeng, Kong Fang, et al. Topic tensor network for implicit discourse relation recognition in Chinese [C] //Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 608−618

    [34]

    Yang Zichao, Yang Diyi, Dyer C, et al. Hierarchical attention networks for document classification [C] //Proc of the 15th Annual Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 1480−1489

    [35]

    Xiong Tengke, Manggala P. Hierarchical classification with hierarchical attention networks [C/OL] //Proc of the 24th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2018[2022-12-16].https://www.kdd.org/kdd2018/files/deep-learning-day/DLDay18_paper_47.pdf

    [36]

    Pappas N, Popescu-Belis A. Multilingual hierarchical attention networks for document classification [C] //Proc of the 8th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2017: 1015−1025

    [37]

    Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality [C] //Proc of the 27th Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2013: 3111–3119

    [38]

    Peters M, Neumann M, Iyyer M, et al. Deep contextualized word representations [C] //Proc of the 16th Annual Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2018: 2227−2237

    [39]

    Devlin J, Chang Mingwei, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding [C] //Proc of the 17th Annual Conf of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 4171−4186

    [40]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C] //Proc of the 31st Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 5998−6008

    [41]

    Liu Jian, Chen Yubo, Liu Kang, et al. How does context matter? On the robustness of event detection with context-selective mask generalization [C] //Proc of the 2020 Conf on Empirical Methods in Natural Language Processing: Findings. Stroudsburg, PA: ACL, 2020: 2523−2532

    [42] 陈佳丽, 洪宇, 王捷, 等. 利用门控机制融合依存与语义信息的事件检测方法[J], 中文信息学报, 2020, 34(8): 51−60

    Chen Jiali, Hong Yu, Wang Jie, et al. Combination of dependency and semantic information via gated mechanism for event detection [J]. Journal of Chinese Information Processing, 2020, 34(8): 51−60 (in Chinese)

    [43] 王捷, 洪宇, 陈佳丽, 等. 基于共享BERT和门控多任务学习的事件检测方法[J], 中文信息学报, 2021, 35(10): 101−109

    Wang Jie, Hong Yu, Chen Jiali, et al. Event detection by shared BERT and gated multi-task learning [J]. Journal of Chinese Information Processing, 2021, 35(10): 101−109 (in Chinese)

  • 期刊类型引用(0)

    其他类型引用(1)

图(3)  /  表(6)
计量
  • 文章访问数:  139
  • HTML全文浏览量:  10
  • PDF下载量:  89
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-05-27
  • 修回日期:  2023-01-03
  • 网络出版日期:  2023-06-25
  • 刊出日期:  2023-12-27

目录

/

返回文章
返回