融合上下文信息的篇章级事件时序关系抽取方法

王俊1,3 史存会1,3 张瑾2 俞晓明1 刘悦1 程学旗2,3

1(中国科学院计算技术研究所数据智能系统研究中心北京 100190) 2(中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所) 北京 100190) 3(中国科学院大学北京 100049) (wyswangjun@163.com)

摘要事件时序关系抽取是一项重要的自然语言理解任务，可以广泛应用于诸如知识图谱构建、问答系统等任务.已有事件时序关系抽取方法往往将该任务视为句子级事件对的分类问题，而基于有限的局部句子信息导致其抽取的事件时序关系的精度较低，且无法保证整体时序关系的全局一致性.针对此问题，提出一种融合上下文信息的篇章级事件时序关系抽取方法，使用基于双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)的神经网络模型学习文章中事件对的时序关系表示，再利用自注意力机制融入上下文中其他事件对信息，从而得到更丰富的事件对时序关系表示用于时序关系分类.通过TB-Dense(timebank dense)和MATRES(multi-axis temporal relations for start-points)数据集的实验表明：此方法能够取得比当前主流的句子级方法更佳的抽取效果.

关键词事件时序关系抽取；时序关系分类；事件关系识别；自注意力；双向长短期记忆

文章如新闻通常描述一系列事件的发生，这些事件看似离散地被叙述着，其实存在着一定的联系，其中最重要的一种事件联系为时序关系.时序关系表示事件发生的先后顺序，其串联了文章中事件的发展演化.如果能准确地抽取文章中的事件时序关系，将有助于理解文章信息，梳理事件脉络.因此，事件时序关系抽取成为了一项重要的自然语言理解任务，受到越来越多的关注.

事件时序关系抽取的目标为抽取文本中包含的事件时序关系，如图1中的例子，其包含4个事件：刺杀(E1)、暴行(E2)、屠杀(E3)和内战(E4)，其中可抽取出时序图中的6对事件时序关系.图1中时序关系BEFORE表示事件在另一个事件之前发生；时序关系INCLUDES表示一个事件包含另一个事件；时序关系VAGUE表示两个事件之间不存在特定的时序关系.

Fig.1 An sample of event temporal relation extraction
图1 事件时序关系抽取样例

目前，与实体关系抽取[1]类似，已有的事件时序关系抽取方法往往将事件时序关系抽取任务视为句子级事件对的分类问题，以事件对和事件对所在的句子信息作为输入，使用基于规则、基于传统机器学习或基于深度学习的方法识别事件对的时序关系类别.然而，这种句子级的事件时序关系抽取方法使用的事件对所在的句子信息十分有限，往往不足以支持事件时序关系的识别，限制了事件时序关系识别的精度.同时，句子级的事件时序关系抽取方法孤立地识别事件对的时序关系，未考虑文章中其他事件对的时序关系，其抽取的事件时序关系可能与其他事件时序关系冲突(即不满足时序关系的自反性、传递性等)，使得全文的事件时序关系一致性难以得到保证.

为此，本文提出一种融合上下文信息的篇章级事件时序关系抽取方法.该方法使用基于双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)的神经网络模型学习文章中每个事件对的时序关系表示，再使用自注意力机制学习待识别事件对与其文章上下文中其他事件对的联系，利用联系结合上下文中其他事件对的信息，得到更优的事件对的时序关系表示，从而增强事件时序关系抽取模型的效果.为了验证模型的性能，本文在TB-Dense(timebank dense)数据集[2]和MATRES(multi-axis temporal relations for start-points)数据集[3]上进行实验，实验结果证明本文方法的有效性.

1 相关工作

按照事件时序关系抽取研究的发展，其方法主要可以分为3类：基于规则的事件时序关系抽取方法、基于传统机器学习的事件时序关系抽取方法和基于深度学习的事件时序关系抽取方法.

1.1 基于规则的事件时序关系抽取方法

事件时序关系抽取研究发展的早期，由于缺乏相关的成熟语料库，主流的事件时序关系抽取方法通常是基于人工制定的规则展开的.Passonneau[4]提出使用文本中的时态与体态信息来构造规则，用以推断事件的时序关系.Hitzeman和Moens等人[5]提出的话语时序结构分析方法，考虑了时态、体态、时间状语和修辞结构的影响.

基于规则的方法实现简单，但其效果极大地依赖于规则的数量和质量，其实用性不高.

1.2 基于传统机器学习的事件时序关系抽取方法

随着国际标准化组织制定了TimeML[6](time markup language)标注体系，以及时序关系抽取领域的一些重要标准数据集(如TimeBank[7])的构建.传统的统计机器学习方法开始被广泛应用于事件时序关系识别研究.Mani与Schiffman等人[8]提出基于决策树分类模型的新闻事件时序关系识别方法，该方法使用时序关系连接词、时态、语态和时间状语等特征.之后，Mani等人[9]又提出基于最大熵分类算法的时序关系分类方法，使用数据集给定的TimeML特征(如事件类别、时态、体态等).Chambers等人[10]在Mani等人提出方法的特征之上，添加了词性、句法树结构等词法和句法特征，以及WordNet中获得的形态学特征，较之前的方法有了3%的提升.Ning等人[11]使用手工制作的特征作为输入，在训练过程中对全局的事件时序关系结构进行建模，利用结构化学习优化时间图的全局一致性.

基于传统机器学习的事件时序关系抽取的方法研究重点主要集中在特征工程，方法的有效性极大地依赖于特征工程的设计.

1.3 基于深度学习的事件时序关系抽取方法

随着深度学习技术的发展与兴起，神经网络模型被引入到事件时序关系抽取任务中来.Meng等人[12]提出一种简单的基于LSTM(long short-term memory)网络结构的事件时序关系抽取模型.该模型以事件之间的最短的句法依赖关系路径作为输入，识别相同句子或相邻句子中的事件时序关系类别，在TB-Dense数据集上取得不错效果.类似地，Cheng等人[13]采取最短句法依赖关系路径作为输入，构造了一种基于双向长短期记忆的神经网络模型，同样取得不错的效果.之后，Han等人[14]提出了一种结合结构化学习的神经网络模型.该模型包括递归神经网络来学习成对事件时序关系的评分函数，以及结构化支持向量机(structured support vector machine, SSVM)进行联合预测.其中神经网络自动学习事件所在情境的时序关系表示，来为结构化模型提供鲁棒的特征，而SSVM则将时序关系的传递性等领域知识作为约束条件，来做出更好的全局一致决策，通过联合训练提升整体模型性能.

基于深度学习的事件时序关系抽取方法，相较于基于传统机器学习的方法，能自动学习并表示特征，无需繁杂的特征工程且模型性能更高而泛化性能力更强，如今已经成为了事件时序关系抽取领域的研究趋势.

2 结合上下文的篇章级事件时序关系抽取

现有的事件时序关系抽取方法，无论是基于规则还是基于传统机器学习或深度学习，其本质上都是一个句子级的事件对的时序关系分类器.其实现方式为

rij=f(sentij)，

(1)

其中,rij表示任意事件对 width=8,height=11,dpi=110 ei,ej的时序关系，f为时序关系分类器，sentij为事件对所在句子.可以看出时序关系rij仅基于事件对所在的句子信息，而这有限的局部信息导致识别的精度较低且无法保证全文整体的时序关系的一致性.

针对句子级事件时序关系抽取方法的局限性，本文提出结合上下文信息的篇章级事件时序关系抽取模型.可形式化为

rij=f(sentij,contextij)，

(2)

其中，contextij为事件对 width=8,height=11,dpi=110 ei,ej的上下文，即事件对所在文章信息.

2.1 上下文信息增强的事件时序关系抽取模型

本文提出篇章级的事件时序关系抽取模型，称为上下文信息增强的事件时序关系抽取模型(context information enhanced event temporal relation extraction model, CE-TRE).模型的整体框架如图2所示，主要包含3个部分：1)事件对的时序关系编码模块；2)事件对的上下文增强模块；3)输出模块.其中，我们分别将每个事件对的句子级时序关系表示Sk通过全连接层得到Query：Qk，Key：Kk，Value：Vk. CE-TRE模型以文章作为基本输入单元.按照事件对分句后，事件对的时序关系编码模块使用基于Bi-LSTM的神经网络模型学习事件对的时序关系表示；事件对上下文增强模块利用自注意力机制结合上下文中其他事件对的信息，得到更完备的事件对时序关系表示；输出模块根据事件对时序关系表示预测事件对的时序关系类别.

Fig.2 Context information enhanced event temporal relation extraction model
图2 上下文信息增强的事件时序关系抽取模型

2.2 时序关系编码模块

时序关系编码模块用于初步编码每个事件对的句子级时序关系表示.CE-TRE模型以文章作为输入单元，对于每个文章输入，先将其按一个个事件对把文章分为一个个句子(存在一个句子包含多个事件对的情况)，得到所有事件对的所在句子集合.时序关系编码模块就以每个事件对的所在句子作为输入，编码事件对的句子级时序关系表示.具体如图3所示.

Fig.3 Temporal relation coding module
图3 时序关系编码模块

给定事件对所在的句子(可以是单独的1个句子或连续的2个句子)，表示为tk=(tk1,…,tki,…,tkj,…,tkL)，其中k表示该句子是文章按事件对分句后的第k个句子，tki和tkj为事件对应的词.

首先本文使用预训练好的BERT[15]模型计算每个词的词嵌入vki，得到句子的向量表示sentk.使用BERT计算词嵌入的目的是为了得到上下文有关的词向量表示，使得后续模块能更好地学习事件对的时序关系表示.因为预训练的BERT只用于计算词向量，不参与整体模型的训练，因此不会影响整体模型的训练难度.形式化过程为

sentk=(vk1,vk2,…,vkL)=EmbeddingBERT(tk).

(3)

接着，将事件对所在句子sentk通过Bi-LSTM模型，可以得到句子长度的隐藏状态序列Hk=(hk1,…,hki,…,hkj,…,hkL).将2个事件的位置(i和j)相对应的隐藏状态hki和hkj串联起来，得到事件对的句子级时序关系向量表示Sk=(hki;hkj).上述过程可形式化为

(hk1,hk2,…,hkL),hkL=Bi_LSTM(sentk,hk0)，

(4)

其中,hki是由正向编码向量和反向编码向量拼接而成，即而通过拼接Bi-LSTM的前后双向的隐层输出，可以得到综合句子前后文信息的事件对的时序关系表示.

最后，1个句子可能包含多个事件对，因此本模块针对1个句子输入，可能输出多个事件对向量表示，一起汇总成文章的事件对表示集合.

2.3 事件对上下文增强模块

本文将时序关系编码模块得到的每个事件对的句子级的时序关系表示，输入到事件对上下文增强模块，得到上下文信息增强的事件对时序关系表示.具体如图4所示:

Fig.4 Context enhancement module for event pairs
图4 事件对上下文增强模块

Fig.5 Self-Attention diagram
图5 Self-Attention示意图

为了利用上下文中其他事件对的时序关系信息，本文利用Self-Attention机制[16]学习事件对与上下文中其他事件对的联系权重，使用权重对上下文中的事件对时序关系表示进行加权求和，得到一个综合上下文信息的事件对时序关系表示而最终的上下文增强后的事件对时序关系表示还需要通过残差连接，把Self-Attention的输入Sk与输出拼接，得到不同于常规残差连接的将模块的输入与输出直接相加，这里使用拼接式的残差网络.这种残差连接的目的是让模型训练时既能学习较好的事件对的句子级时序关系表示，又能学习事件对之间的联系，从而更好地增强事件对的时序关系表示，使得模型能够优化得更好.

具体的Self-Attention计算流程如图5所示，使用注意力机制加权融合上下文中每个事件对的时序关系表示Vi，得到该事件对的上下文增强的时序关系表示向量该过程形式化表示为：

1) 对于事件对Si，首先计算其与其他事件对Sj之间的权重然后将权重归一化为wij.其中，dk表示Qk，Kk，Vk的数据维度，点积除以dk，用于缩放点积QiKjT，防止点积过大时模型梯度更新不稳定或难以有效地优化模型.

(5)

2) 使用权重wij对与所有事件对的Vj进行加权求和，得到事件对Si的上下文增强的时序关系表示向量

(6)

该过程可简写为

(7)

2.4 输出模块

本模块用于输出事件对的时序关系的分类预测值.如图6所示，本模块将上下文增强后的事件对时序关系表示，通过一层全连接层和用于分类的softmax层，得到该事件对的T维的时序关系概率向量Rk.其中第j个元素表示将其判别为第j个时序关系类型的概率值.我们采用真实时序关系类型和预测概率的交叉熵误差作为损失函数：

(8)

其中，N为事件对总数，I为指示函数.

Fig.6 Output module
图6 输出模块

3 实验

本节主要介绍实验部分的相关细节.首先介绍本文所使用的公开数据集与实验的评价指标，接着介绍实验对比的基线方法，随后介绍实验的参数设置，最后对实验结果进行分析与探讨.

3.1 数据集与评价指标

本文在公开的TB-Dense和MATRES数据集上对模型的效果和性能进行评估，这2个数据集的规模信息如表1所示:

Table 1 Statistics of TB-Dense and MATRES Datasets
表1 数据集TB-Dense和MATRES的规模统计

统计维度数据拆分TB-DenseMATRES训练集22183文章数开发集5测试集920训练集40326332事件对数开发集629测试集1427827

表1详细说明为：

1) TB-Dense数据集是Cassidy等人[2]基于TimeBank数据集，通过标注相同或相邻句子中的所有事件对的时序关系，构建的稠密标注语料，解决了TimeBank的标注稀疏性，近年来已被广泛应用于事件时序关系抽取研究.TB-Dense包含6类时序关系：VAGUE，BEFORE，AFTER，SIMULTANEOUS，INCLUDES，IS_INCLUDED.

2) MATRES是Ning等人[3]在2018年基于TempRels3数据集(TempEval第3次评测任务[17]构建的数据集，包括TimeBank，AQUAINT(advanced question-answering for intelligence)，Platinum)构建的新数据集.该数据集通过使用多轴注释方案并采用事件起点比较时序来改进注释者之间的一致性，进一步提高了数据质量，成为近几年来值得关注的一个新数据集.MATRES只包含4类时序关系：VAGUE，BEFORE，AFTER，SIMULTANEOUS.

为了与已有相关研究进行对比，本实验采用2套微平均F1值作为评价指标，具体为：

1) 针对数据集TB-Dense，使用全部6个时序关系类别的Micro-F1.

2) 针对数据集MATRES，使用除了“VAGUE”外的3个时序关系类别的Micro-F1.

3.2 基准方法

1) CAEVO.Chambers等人[18]于2014年提出的有序筛网式流水线模型.其中每个筛子可以是基于规则的分类器，也可以是机器学习模型.

2) CATENA.Mirza等人[19]于2016年提出了多重筛网式的事件关系抽取系统，可利用时序关系抽取模型和因果关系抽取模型之间的交互作用，增强时序和因果关系的提取和分类.

3) 文献[13]方法.Cheng等人[13]于2017年提出了一种基于双向长短期记忆(Bi-LSTM)的神经网络模型，该模型采取最短句法依赖关系路径作为输入，能达到与基于人工特征相当的性能.

4) 文献[20]方法.Vashishtha等人[20]于2019年提出了一个用于建模细粒度时序关系和事件持续时间的新语义框架，该框架将成对的事件映射到实值尺度，以构建文档级事件时间轴.基于此框架，训练模型联合预测细粒度的时序关系和事件持续时间.

5) 文献[21]方法.Meng等人[21]于2018年提出了上下文感知的事件时序关系抽取的神经网络模型，模型以事件最短依存路径作为输入，按叙述顺序储存处理过的时序关系，用于上下文感知.

6) 文献[22]方法.Han等人[22]于2019年提出了一种具有结构化预测的事件和事件时序关系联合抽取模型.该模型让事件抽取模块和事件时序关系抽取模块共享相同的上下文嵌入和神经表示学习模块，从而改善了事件表示.利用结构化的推理共同分配事件标签和时序关系标签，避免了常规管道模型中的错误传递.

3.3 实验参数设置

CE-TRE中，Bi-LSTM层的输出维度为100，线性层的输入维度为400和100；模型训练的batch_size大小为1(因为篇章级的事件时序关系抽取以文章为基本单位，一篇文章包含若干的事件对).

此外由于篇章级时序关系抽取以文章为输入单位，而不同文章包含的事件对的数目是不同的.这种差异导致不同batch包含的事件对数目存在明显差异，如果使用一样的学习率进行训练，会使得模型更新不均衡，导致模型优化过程不稳定.因此，本文使用的解决策略为设置动态学习率，为包含事件对多的文章样例增大学习率，即学习率与事件对数目正相关：

(9)

其中，lr_base为基准学习率，设置为0.000 1； lr_decay为学习率衰减，设置为0.9，每5轮进行1次衰减；rel_num为文本包含的事件对数目，学习率与其成正比.

3.4 实验结果与分析

为了验证本文提出的模型CE-TRE在不同数据集上的抽取效果，本文选取了近几年的主流模型(如3.2节所述)与CE-TRE在公开的TB-Dense和MATRES数据集上进行对比实验.

3.4.1 验证CE-TRE模型性能

实验1. 在TB-Dense数据集上验证CE-TRE模型性能.

在数据集TB-Dense上实验的原因是该数据是事件时序关系抽取任务的传统数据集，有着充分的前人工作可以对比.实验结果如表2所示, 与近几年的主流模型对比，本文提出的CE-TRE模型在TB-Dense取得了最高的Micro-F1评分,这说明CE-TRE模型很有竞争力.

实验2. 在MATRES数据集上验证CE-TRE模型性能.

在数据集MATRES上实验的原因是该数据是个新的标注质量更高且数据规模更大的数据集，可以进一步验证本文提出模型的效果.实验结果如表3所示，在MATRES数据集上，本文提出的CE-TRE模型的效果优于2019年最优的文献[22]方法[22].

Table 2 Comparative Experiment of CE-TRE and 6 Baselines on TB-Dense

表2 CE-TRE模型与6个主流模型在数据集TB-Dense上的对比实验

模型Micro-F1CAEVO0.494CATENA0.519文献[13]方法0.529文献[20]方法0.566文献[21]方法0.57文献[22]方法0.645CE-TRE0.657

注：粗体值为最优值.

Table 3 Comparative Experiment of CE-TRE and the Best Baseline on MATRES

表3 CE-TRE模型与最优基线在数据集MATRES上的对比实验

模型Micro-F1文献[22]方法0.755CE-TRE0.766

注：粗体值为最优值.

3.4.2 验证结合上下文信息对模型的增强效果

实验3. 验证结合上下文的有效性.

为了验证结合上下文信息，是否对事件时序关系抽取模型有着增益效果，本实验对比有无上下文信息增强的模型的效果.实验结果如表4所示，在2个数据集上，结合上下文信息的CE-TRE模型均优于未结合上下文信息的TRE(without CE)模型.此结果表明，结合上下文信息确实能够增强事件对时序关系抽取模型的效果.

Table 4 Comparative Experiment Between CE-TREand TRE (without CE)

表4 CE-TRE模型与去除上下文增强后的TRE模型(without CE)的对比实验

模型Micro-F1TB-DenseMATRESTRE(without CE)0.6190.757CE-TRE0.6570.766

注：粗体值为最优值.

此外，通过对比2个数据集上的实验结果可以发现，CE-TRE模型相比于TRE模型，在数据集TB-Dense上的性能提升较为显著(采用McNemar检验，所得p<0.005)，而在数据集MATRES上的性能差距较小.本文认为原因是：MATRES数据集的标注类别只包含4类，相较于TB-Dense的6类，MATRES中的事件时序关系的识别难度较低.同时，MATRES数据集中的句子平均长度长于TB-Dense数据集，通常情况下，MATRES的句子包含的时序关系信息也会更多.这2点使得未结合上下文信息的TRE模型在MATRES数据集上也能取得较高的得分，从而CE-TRE模型相比TRE模型提升较小.同时，TRE(without CE)模型在2个数据集上的性能还优于许多基线模型，本文认为：TRE虽未结合上下文信息，但模型的训练方式和CE-TRE一样，以文章作为单位输入，使得模型的每次更新优化只针对1篇文本的数据，可以集中学习每篇文章所属文意的时序关系，从而学习出更优的模型.

3.4.3 实验结果样例分析

如表5中的样例，需判断事件E1与事件E2之间的时序关系.对于未结合上下文信息的事件对时序关系识别模型TRE，其预测结果为“VAGUE”，预测错误.而结合上下文信息的事件对时序关系识别模型CE-TRE的预测结果为“BEFORE”，预测正确.通过分析样例可知，TRE预测错误的原因是样例的句子信息不足以判别事件对的时序关系.而CE-TRE通过结合上文中的“1991年，查尔斯·基廷在州法院被判协助诈骗数千名投资者，这些投资者购买了基廷在林肯储蓄贷款公司员工出售的高风险垃圾债券.”的信息可知，基廷于1991年被判协助诈骗，导致投资者购买了垃圾债券，之后债券变得一文不值.由此推断1996年基廷的判决被推翻发生在债券变得一文不值之后.

Table 5 A Sample from TB-Dense Dataset
表5 来自TB-Dense数据集的样例

选项内容事件对E1:bonds became worthless(债券变得一文不值)E2: convictions were thrown out(判决被推翻)事件对所在句子The bonds became worthless when the bankrupt thrift was seized by government regulators. Keatings convictions were thrown out in 1996 on a technicality.译文:当破产的储蓄银行被政府监管机构接管时,这些债券变得一文不值.基廷的判决在1996年因为一个技术细节而被推翻.真实标签BEFORETREVAGUECE-TREBEFORE

由TRE和CE-TRE在样例上的预测结果进一步验证了结合上下文的有效性.

综合实验1和实验2的结果，本文提出的CE-TRE模型在2个数据集上均取得优于近年来的最新模型，说明了本文方法的有效性.其次通过对比有上下文增强的CE-TRE模型和无上下文增强的TRE(without CE)模型的评分，以及两者在表5中样例的预测结果可以看出，结合上下文信息确实能够增强事件对时序关系抽取模型的效果.

4 总结

事件时序关系抽取技术是一种从文本中获取事件的时序结构信息的重要手段，有着很高的研究价值和实用价值.现有的事件时序关系抽取方法往往都是句子级的抽取方法，存在时序关系识别精度低且无法保证全文一致性的问题.本文提出了一种融合上下文信息的篇章级事件时序关系抽取方法，并通过TB-Dense数据集和MATRES数据集上的多组实验验证了本文方法的有效性.

目前事件时序关系抽取的数据集规模都较小，限制了神经网络模型的抽取性能.在未来的工作中，我们将进一步研究如何丰富相关数据集或如何引入外部资源来进一步提升事件时序关系抽取模型的性能.

参考文献

[1]Li Dongmei, Zhang Yang, Li Dongyuan, et al. Review of entity relation extraction methods[J]. Journal of Computer Research and Development, 2020, 57(7): 1424-1448 (in Chinese)(李冬梅, 张扬, 李东远, 等. 实体关系抽取方法研究综述[J]. 计算机研究与发展, 2020, 57(7): 1424-1448).

[2]Cassidy T, McDowell B, Chambers N, et al. An annotation framework for dense event ordering[C] //Proc of the 52nd Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2014: 501-506.

[3]Ning Qiang, Wu Hao, Roth D. A multi-axis annotation scheme for event temporal relations[C] //Proc of the 56th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2018: 1318-1328.

[4]Passonneau R J. A computational model of the semantics of tense and aspect[J]. Computational Linguistics, 1988, 14(2): 44-60.

[5]Hitzeman J, Moens M, Grover C. Algorithms for analysing the temporal structure of discourse[C] //Proc of the 7th Conf on European Chapter of the ACL. Stroudsburg, PA: ACL, 1995: 253-260.

[6]Saurí R, Littman J, Knippen B, et al. TimeML annotation guidelines version 1.2.1[J/OL]. 2006 [2020-11-03]. https://www.researchgate.net/publication/248737128_TimeML_Annotation_Guidelines_Version_121.

[7]Pustejovsky J, Hanks P, Sauri R, et al. The timebank corpus[C/OL] //Proc of Corpus Linguistics. 2003: 647-656 [2020-11-03]. https://www.researchgate.net/publication/228559081_The_TimeBank_corpus.

[8]Mani I, Schiffman B, Zhang Jianping. Inferring temporal ordering of events in news[C] //Proc of HLT-NAACL. Stroudsburg, PA: ACL, 2003: 55-57.

[9]Mani I, Verhagen M, Wellner B, et al. Machine learning of temporal relations[C] //Proc of the 21st Int Conf on Computational Linguistics and the 44th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2006: 753-760.

[10]Chambers N, Wang Shan, Jurafsky D. Classifying temporal relations between events[C] //Proc of the 45th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2007: 173-176.

[11]Ning Qiang, Feng Zhili, Roth D. A structured learning approach to temporal relation extraction[C] //Proc of the 2017 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 1027-1037.

[12]Meng Yuanliang, Rumshisky A, Romanov A. Temporal information extraction for question answering using syntactic dependencies in an LSTM-based architecture[C] //Proc of the 2017 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 887-896.

[13]Cheng Fei, Miyao Y. Classifying temporal relations by bidirectional LSTM over dependency paths[C] //Proc of the 55th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2017: 1-6.

[14]Han Rujun, Hsu I H, Yang Mu, et al. Deep structured neural network for event temporal relation extraction[C] //Proc of the 23rd Conf on Computational Natural Language Learning (CoNLL). Stroudsburg, PA: ACL, 2019: 666-106.

[15]Devlin J, Chang Mingwei, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C] //Proc of the 2019 Conf of the North American Chapter of the ACL: Human Language Technologies. Stroudsburg, PA: ACL, 2019: 4171-4186.

[16]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C] //Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 5998-6008.

[17]UzZaman N, Llorens H, Derczynski L, et al. Semeval-2013 task 1: TempEval-3: Evaluating time expressions, events, and temporal relations[C/OL] //Proc of the 2nd Joint Conf on Lexical and Computational Semantics. Stroudsburg, PA: ACL, 2013 [2020-11-03]. https://www.researchgate.net/publication/228059143_TempEval-3_Evaluating_Events_Time_Expressions_and_Temporal_Relations.

[18]Chambers N, Cassidy T, McDowell B, et al. Dense event ordering with a multi-pass architecture[J]. Transactions of the Association for Computational Linguistics, 2014, 2(11): 273-284.

[19]Mirza P, Tonelli S. Catena: Causal and temporal relation extraction from natural language texts[C] //Proc of the 26th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2016: 64-75.

[20]Vashishtha S, Van Durme B, White A S. Fine-grained temporal relation extraction[C] //Proc of the 57th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2019: 2906-2919.

[21]Meng Yuanliang, Rumshisky A. Context-aware neural model for temporal information extraction[C] //Proc of the 56th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2018: 527-536.

[22]Han Rujun, Ning Qiang, Peng Nanyun. Joint event and temporal relation extraction with shared representations and structured prediction[C] //Proc of the 2019 Conf on Empirical Methods in Natural Language Processing and the 9th Int Joint Conf on Natural Language Processing (EMNLP-IJCNLP). Stroudsburg, PA: ACL, 2019: 434-444

Document-Level Event Temporal Relation Extraction with Context Information

Wang Jun1,3, Shi Cunhui1,3, Zhang Jin2, Yu Xiaoming1, Liu Yue1, and Cheng Xueqi2,3

1(Data Intelligence System Research Center, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190)2(CAS Key Laboratory of Network Data Science and Technology (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190)3(University of Chinese Academy of Sciences, Beijing 100049)

Abstract Event temporal relation extraction is an important natural language understanding task, which can be widely used in downstream tasks such as construction of knowledge graph, question answering system and narrative generation. Existing event temporal relation extraction methods often treat the task as a sentence-level event pair classification problem, and solve it by some classification model. However, based on limited local sentence information, the accuracy of the extraction of temporal relations among events is low and the global consistency of the temporal relations cannot be guaranteed. For this problem, this paper proposes a document-level event temporal relation extraction with context information, which uses the neural network model based on Bi-LSTM (bidirectional long short-term memory) to learn the temporal relation expressions of event pairs, and then uses the self-attention mechanism to combine the information of other event pairs in the context, to obtain a better event temporal relation expression for temporal relation classification. At last, that event temporal relation expression with context information will improve the global event temporal relation extraction by enhancing temporal relation classification of all event pairs in the document. Experiments on TB-Dense (timebank dense) dataset and MATRES (multi-axis temporal relations for start-points) dataset show that this method can achieve better results than the latest sentence-level methods.

Key words event temporal relation extraction; temporal relation classification; event relation identification; self-attention; bidirectional long short-term memory (Bi-LSTM)

收稿日期：2020-08-14；修回日期： 2020-12-23

基金项目：国家自然科学基金面上项目(91746301，61772498)；国家重点研发计划项目(29198220，2017YFC0820404)

This work was supported by the General Program of the National Natural Science Foundation of China (91746301, 61772498) and the National Key Research and Development Program of China (29198220, 2017YFC0820404).

通信作者：史存会(shicunhui@ict.ac.cn)

中图法分类号 TP391

Wang Jun, born in 1994. Master. His main research interests include natural language processing, event relation extraction.

王俊，1994年生.硕士.主要研究方向为自然语言处理、事件关系抽取.

Shi Cunhui, born in 1987. PhD. Engineer. His main research interests include network science, information recommendation, and event extraction.

史存会，1987年生.博士，工程师.主要研究方向为网络科学、信息推荐、事件抽取.

Zhang Jin, born in 1978. PhD. Senior engineer. His main research interests include public opinion analysis, natural language processing, automatic summarization, and distributed processing. (jinzhang@ict.ac.cn)

张瑾，1978年生.博士，高级工程师.主要研究方向为舆情分析、自然语言处理、自动文摘、分布式处理.

Yu Xiaoming, born in 1977. PhD. Senior engineer. His main research interests include information retrieval and big data.(yuxiao ming@ict.ac.cn)

俞晓明，1977年生.博士，高级工程师.主要研究方向为信息检索、大数据.

Liu Yue, born in 1971. PhD. Associate professor. Her main research interests include information retrieval, data mining and social computing. (liuyue@ict.ac.cn)

刘悦，1971年生.博士，副研究员.主要研究方向为信息检索、数据挖掘、社会计算.

Cheng Xueqi, born in 1971. PhD. Professor and PhD supervisor. Member of CCF. His main research interests include network information security, large-scale information retrieval and knowledge mining. (cxq@ict.ac.cn)

程学旗，1971年生.博士，研究员，博士生导师，CCF会员.主要研究方向为网络信息安全、大规模信息检索与知识挖掘.

融合上下文信息的篇章级事件时序关系抽取方法

1 相关工作

1.1 基于规则的事件时序关系抽取方法

1.2 基于传统机器学习的事件时序关系抽取方法

1.3 基于深度学习的事件时序关系抽取方法

2 结合上下文的篇章级事件时序关系抽取

2.1 上下文信息增强的事件时序关系抽取模型

2.2 时序关系编码模块

2.3 事件对上下文增强模块

2.4 输出模块

3 实 验

3.1 数据集与评价指标

3.2 基准方法

3.3 实验参数设置

3.4 实验结果与分析

4 总 结

Document-Level Event Temporal Relation Extraction with Context Information

3 实验

4 总结