Implicit Discourse Relation Recognition Based on Multi-Granularity Information Interaction and Data Augmentation
-
摘要:
隐式篇章关系识别旨在推导没有连接词的论元(句子或子句)之间的语义关系. 现有研究证实引入短语信息能切实提升识别性能,但依然存在以下不足:1)通常依赖句法分析器且词、短语与论元之间的交互不充分;2)引入短语信息导致的数据稀疏性问题. 为此,分别提出基于多粒度信息交互的隐式篇章关系识别模型MGII(multi-granularity information interaction)和基于链式解码的数据增强方法DAM (data augmentation method). 所提模型通过卷积神经网络自动学习n-gram短语的语义表示,利用Transformer层显式地建模词、短语和论元之间的交互,并通过链式解码进行多级篇章关系预测. 提出的数据增强方法同时预训练编码模块和解码模块,从而能有效地利用大量显式篇章关系数据. 所提方法在PDTB数据集上的性能显著优于近期的基准模型,且不依赖句法分析器,具有较强的适用性.
Abstract:Implicit discourse relation recognition aims at automatically identifying semantic relations (such as Comparison) between two arguments (sentence or clause) in the absence of explicit connectives. Existing methods have confirmed that the introduction of phrase information can effectively boost the performance. However, there are still the following shortcomings: 1) These models typically rely on syntactic parsers and do not fully capture the interactions between words, phrases, and arguments. 2) The problem of data sparsity often occurs during training when incorporating the phrase information. To address the above issues, we propose an implicit discourse relation recognition model based on multi-granularity information interaction (MGII) and develop a chain decoding-inspired data augmentation method (DAM). Specifically, our proposed model is designed to automatically acquire semantic representations of n-grams using a stacked convolutional neural network. It then explicitly models the interactions between words, phrases and arguments based on Transformer layers and ultimately predicts multi-level discourse relationships in a chain-decoding way. Our data augmentation method simultaneously pretrains both the encoding and decoding modules, enabling the effective utilization of massive explicit discourse data, which are naturally annotated by connectives, to mitigate the issue of data sparsity. The proposed method significantly outperforms recent benchmark models on the PDTB datasets. Furthermore, it does not rely on syntactic parsers, demonstrating strong applicability.
-
存储模块与计算模块相分离的冯·诺伊曼体系结构存在“存储墙”问题[1],严重制约了处理器的性能提升,并伴随着较大的能量消耗. 为彻底突破该“瓶颈”,需要在体系结构层次上进行突破,研究新型存内计算架构[2-4]. 忆阻状态逻辑为存内计算提供了电路基础. 通过融合布尔逻辑和非易失性存储的功能,忆阻状态逻辑可以消除计算过程中的数据移动(消除访存延时和能耗),实现存储与计算的细粒度融合. 目前,通过理论推导(仿真)和实测实验已经有诸如IMP,FALSE,NOR等多个忆阻状态逻辑门得到验证,功能覆盖布尔逻辑完备集,为实现复杂逻辑计算提供了可行基础. 然而,从复杂计算功能到忆阻存储阵列内状态逻辑门级联序列转换的自动化设计研究仍处于萌芽阶段,一些挑战亟待解决.
一是“门单元类型单一”. 目前大多数针对复杂计算功能状态逻辑实现的研究都集中在使用功能完备的单个状态逻辑门级联,如IMP,NOR,NAND等,缺少对多个兼容状态逻辑门的使用,极大地限制了复杂状态逻辑计算过程的优化空间. 在综合策略中加入多种状态逻辑门,能够为复杂逻辑功能的实现提供更多的基本功能选择,有效减少最终的映射规模、操作数量以及执行延迟. 因此,有必要探索面向存内计算的多状态逻辑门综合映射方法.
二是“综合映射目标单一”. 当前大多数面向复杂计算功能的状态逻辑实现的研究皆以计算延时为优化目标,鲜有针对其他设计目标的探讨. 忆阻状态逻辑门实际是在外加电压控制下的“条件写”过程,根据相应的输入数据,门的成功执行必然伴随一次擦写过程(状态翻转). 在当前的工艺成熟度下,实际忆阻器产品的可擦写次数相较于传统的动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)仍有不足. 在状态逻辑计算过程中,多次擦写可能导致器件磨损而失效,在设备维修维护不便的边缘计算场景下值得重点关注. 因此,有必要研究减少状态逻辑计算过程中器件磨损的方法来提高边缘计算设备的使用寿命,从而降低维护和更换成本.
针对以上2个问题,本文研究面向低磨损存内计算的多状态逻辑门综合,探索采用多种状态逻辑门的综合映射过程来降低复杂存内状态逻辑计算过程的翻转率.
1. 相关工作
1.1 状态逻辑门
沿用CMOS逻辑中门的定义,状态逻辑门是用来表示基于忆阻器电路和相应的逻辑功能的概念[5]. 状态逻辑门操作过程中信息的载体为忆阻器的电阻状态,逻辑操作的过程即为各个忆阻器在电压激励下的条件转变过程. 这种由电阻代表逻辑信息,通过电阻变化过程来映射逻辑函数的逻辑实现体系被称为状态逻辑[6].
通常,用于构建状态逻辑门的忆阻器具有2个稳定的电阻状态,分别为高电阻状态(HRS,通常定义为逻辑0)和低电阻状态(LRS,通常定义为逻辑1). 对于双极型忆阻器,高电阻状态和低电阻状态之间的转换是由极性相反的外部工作电压触发的,它们被称为SET和RESET电压[7]. 当让高电阻状态和低电阻状态分别表示数字信号0和1时,对忆阻器构成的电路施加一组特定的电压信号序列,忆阻器的状态信息会相应地发生改变,这样就可以在忆阻器初始状态和最终状态之间映射一个逻辑函数. 状态逻辑门通过外围电路施加的控制电压信号触发“条件写”过程,在操作后的输出器件与输入器件之间映射逻辑关系,完成布尔逻辑功能.
目前的研究工作已经通过改变电路结构或者针对同种电路结构来改变控制电压信号大小的方法实现了多种不同状态逻辑门,其逻辑功能覆盖IMP,NOR,NAND,NOT等完备集合. 本文沿用Xu等人[5]使用的状态逻辑门命名规则,使用符号“结构-N-n功能”表示一种状态逻辑门. 其中“结构”表示电路连接的类型,“N”表示逻辑输入的数量,“n”表示所包含的忆阻器件的数量,“功能”表示实现的逻辑功能. 图1中给出了2种典型的实现NOR功能的状态逻辑门结构,分别为“PMR-two-3NOR”和“PMASM-two-3NOR”.
为方便描述,本文使用简单门(simple gate)和复合门(composite gate)来指代状态逻辑门[8]. 其中,简单门是指逻辑输入和输出映射到不同忆阻器件的逻辑门,如图1中的“PMR-two-3NOR”和“PMASM-two-3NOR”. 在这类逻辑门中,逻辑输出器件的初始状态一般设置为常数0或者1,状态逻辑门的执行过程就是对输出器件的“条件写”过程,逻辑操作完成后,将产生逻辑输出并保存在逻辑输出器件中. 复合门是指逻辑输出与其中一个逻辑输入共用同一个器件的状态逻辑门,其可由简单门扩展而来. 若将简单门的输出器件的初始值不设为常数0或1,而是作为第3个逻辑输入,那么简单门的逻辑功能将会扩展为由原始简单门功能与第3个逻辑输入的“或”(原始简单门基于输出器件的“条件置位”构建)或者“与”(原始简单门基于输出器件的“条件复位”构建). 例如,对于图1(a)中的“PMR-two-3NOR”门,若将其输出器件的初始值作为第3个逻辑输入,那么其实现的逻辑功能为ONOR(¯P+Q+Y),我们将此复合门命名为“PMR-three-3ONOR”;类似地,对于图1(b)中的“PMASM-two-3NOR”门,其实现的复合门为“PMASM-three-3ANOR”(¯P+Q⋅Y). 由此,我们看到,每种简单状态逻辑门都对应一个由其扩展而来的复合门. 复合门的功能为对应的简单门的功能与“或逻辑”或者“与逻辑”的级联. 因此,复合门的功能可以拆分成“简单门的功能 + 或逻辑(与逻辑)”;反过来,“简单门的功能 + 或逻辑(与逻辑)”可以构成复合门的功能. 简单门和复合门的相互转化为本文后续逻辑网表后处理的理论基础.
1.2 复杂逻辑的级联实现
仅仅采用状态逻辑门完成单步逻辑无法满足实现复杂计算,复杂计算过程的执行需要对状态逻辑门进行灵活级联,即将前一级状态逻辑门的输出连接到下一级状态逻辑门的输入. 与CMOS逻辑门的级联不同,状态逻辑门中的逻辑信息由电阻状态表示,逻辑信息不能通过物理金属线进行传输. 然而,归功于忆阻交叉阵列的灵活性,忆阻状态逻辑门可以通过在忆阻交叉阵列中对器件的交叠使用来实现门的级联.
依托忆阻交叉阵列完成状态逻辑门级联的前提条件是状态逻辑门要能在忆阻交叉阵列中灵活配置. 通过前期调研发现,可级联状态逻辑门主要为3种电路结构:PMR[9],PMASM[10],APMR[11]. 其中,前2种电路结构适合在2维忆阻交叉阵列中配置,如图2所示. 第3种电路结构适合在3维忆阻交叉阵列的层间器件之间配置.
对于可在忆阻阵列中灵活配置的状态逻辑门,可以通过时空级联的方式实现复杂的逻辑计算[12]. 图3展示了在2维忆阻交叉阵列中级联2个“PMR-two-3NOR”状态逻辑门的步骤. 可以看到,状态逻辑门的级联不仅需要协调忆阻阵列中的忆阻器单元(空间维度),还需要按顺序触发这些门(时间维度). 因此,依托忆阻交叉阵列完成复杂状态逻辑计算的过程就是通过施加操作电压序列将一个个状态逻辑门配置到忆阻交叉阵列中完成逻辑门功能的级联过程.
尽管存内状态逻辑计算系统消除了数据加载和存储的过程,但其时空级联特性使得状态逻辑在计算过程本身上难以超越CMOS组合逻辑电路[5,11]. 然而,根据研究表明,在忆阻交叉阵列中通过并行执行多个计算实例可以弥补这一弱点[13-15]. 但是,在较少步骤内实现复杂计算功能的状态逻辑操作仍然值得深入研究,因为它直接关系到存内状态逻辑计算系统的效率. 而针对复杂计算过程,如何准确找到最优状态逻辑门级联序列就是状态逻辑综合映射问题.
在状态逻辑研究的早期阶段,大多研究工作都是通过手动设计状态逻辑门的级联序列来实现复杂计算实例. 例如,Talati等人[10]使用“PMASM-two-3NOR”逻辑门,通过12步级联实现了1位全加器操作;Adam等人[16]使用“PMR-two-2IMP”“APMR-two-2IMP”逻辑门级联实现了3维忆阻阵列中的1位全加器,其中由于涉及许多读取和写入操作,级联需要35个步骤;Huang等人[9]使用“PMR-two-3NAND”状态逻辑门,通过10步级联实现了1位全加法器;Xu等人[11]级联6个APMR状态逻辑门,通过14步级联完成1位全加器的操作;Sun等人[17]采用多输入复合状态逻辑门将1位全加器的实现步数减小为2步. 这种手动设计的策略能够应用于小规模电路功能的固定设计,但对于复杂的大规模电路功能,手动设计是耗时并且容易出错的. 因此,需要研发自动化的逻辑综合工具,以实现复杂计算.
目前,研究者们已经开发了多种状态逻辑综合工具,能够在忆阻交叉阵列中以较少的时间成本(或其他目标)找到实现复杂逻辑功能的状态逻辑门执行序列[8,15,18-26]. 对状态逻辑自动化综合工具的研究主要分为2个阶段:
第1个阶段考虑复杂计算功能到状态逻辑门功能的分解,并未过多地考虑阵列映射的约束[27-30]. 如Chakraborti等人[27]提出了一种采用忆阻器有效实现2-1多路复用器的方法,并提出了一种综合方法,该方法将给定的布尔逻辑表示为简化有序二进制决策图(ROBDD);Chattopadhyay等人[28]对传统的综合算法进行了扩展,提出了新的启发式算法. 此外,Bürger等人[18]提出了一种使用面向CMOS的综合工具(如ABC工具)将复杂逻辑功能分解为状态逻辑门的基本功能的方法.
第2个阶段是利用CMOS综合工具自动化地完成逻辑综合,然后考虑阵列约束,完成状态逻辑门到阵列的位置映射. 该阶段的研究大体又可以分为2类:一类是面向全阵列范围映射的状态逻辑综合映射工作,此类工作主要以状态逻辑门数最少和最大限度门级并行为综合映射的优化目标,少数工作探讨了面积(器件个数)的约束. 例如,Hur等人[19]提出了一种通用的综合映射流程(SIMPLE MAGIC),该流程使用了“PMASM-two-3NOR”“PMASM-one-2NOT”逻辑门,面向全阵列范围优化状态逻辑门的执行,并考虑所涉及的阵列约束.Bhattacharjee等人[21]提出的综合映射流程(CONTRA)使用基于查找表(LUT)的输入函数映射到忆阻交叉阵列上,最大限度地实现并行操作,并使用一种新的搜索技术在忆阻交叉阵列内以最佳方式移动数据. 然而,面向全阵列范围的综合映射方法多数需要依赖求解器遍历求解空间,是一个耗时的过程,从降低求解时间的角度考虑,出现了另一类面向单行/列映射的综合映射方法. 这类方法的代表性工作为Hur等人[15]提出的改进的自动综合和映射方法,称为SIMPLER MAGIC.该综合映射流程的优化目标是从以前的最小延迟(操作步骤数)转换为最小面积(使用的器件数量),在需要时重用单元以节省面积[5].
可以看到,当前的多数状态逻辑综合映射工作的研究皆以计算延时为优化目标,少数工作针对阵列面积(器件数目)的约束进行了讨论,鲜有针对其他目标,特别是器件磨损的研究和探讨. 因此,本文以降低状态逻辑计算过程的器件磨损为目标,探索新的状态逻辑综合映射方法,提高边缘计算设备的使用寿命,从而降低维护和更换成本.
2. 状态逻辑门的兼容性验证
如1.2节所述,复杂状态逻辑计算过程的自动化设计实现需要2个方面的内容:一是有功能完备且可在同一忆阻交叉阵列中配置的状态逻辑门;二是有自动化综合映射方法的支持. 因此,在进行状态逻辑综合映射研究之前,首先需要对综合映射中所要使用的多种状态逻辑门进行功能和兼容性验证,保证逻辑功能的正确性和阵列可配置性. 本文使用SPICE电路仿真工具对6种PMR结构的状态逻辑门进行功能验证,包括COPY,NOT,NOR,OR共4种简单门和IMP,ONOR共2种复合门. 验证过程中使用Stanford大学的开源ReRAM器件模型(metal oxide resistive random access memory Verilog-A models, Version 1.0.0)[31],仿真使用的器件参数如表1所示.
表 1 器件参数Table 1. Device Parameters参数 解释 默认值 T_ini /K 温度 298 F_min /(V/m) 促进隧穿间隙形成的最小场强 1.4E9 Tox /nm 氧化层厚度 12 gap_ini /nm 初始隧穿间隙 1.8 gap_min /nm 最小隧穿间隙 0.2 gap_max /nm 最大隧穿间隙 1.8 在所采用的忆阻器模型中,离子和空穴迁移的复杂过程被简化为1维导电细丝的生长/溶解,并保留了基本的转变物理特性. 隧穿间隙(gap distance)的大小,即导电细丝尖端与顶部电极之间的距离,是决定器件电阻的主要变量[31]. 因此,在实际功能验证过程中,通过设置间隙距离将器件的初始状态设置为高阻态(HRS)或低阻态(LRS),选择1.7 nm的间隙距离所对应的电阻状态作为HRS,0.3 nm的间隙距离所对应的电阻状态作为LRS.通过尝试,我们取置位电压为 1.4 V,复位电压为 −1.0 V,作为状态逻辑门操作条件的求解参数.
根据1.1节所使用的状态逻辑门命名规则,本文所使用的6个状态逻辑门可分为4类:第1类是“PMR-one-2x”,包括“PMR-one-2NOT”“PMR-one-2COPY”;第2类是“PMR-two-2x”,包括“PMR-two-2IMP”;第3类是“PMR-two-3x”,包括“PMR-two-3NOR”“PMR-two-3OR”;第4类是“PMR-three-3x”,包括“PMR-three-3ONOR”. 在上述分类中,第1,2类状态逻辑门的电路结构相同,如图4(a)所示. 其中,“PMR-two-2IMP”是由“PMR-one-2NOT”扩展而来的复合门;第3,4类状态逻辑门的电路结构相同,如图4(b)所示,且“PMR-three-3ONOR”是由“PMR-two-3NOR”扩展而来的复合门. 以下分2个小节对上述4类状态逻辑门的仿真验证进行阐述.
2.1 “PMR-one/two-2x”状态逻辑门验证
“PMR-one-2NOT”“PMR-one-2COPY”“PMR-two-2IMP”的电路结构由2个并联的忆阻器M1、M2和1个串联的电阻RS(50 Ω)构成. 在仿真验证时,根据逻辑门的状态转换,通过在Vin,Vout端口施加特定的操作电压,使忆阻器获得相应分压,由此实现不同的逻辑功能. 仿真结果如图5所示,对于每一个分图,最上方第1幅图展示了施加的电压激励,其他的图展示了各种逻辑状态变化情况下间隙距离的变化曲线.
2.2 “PMR-two/three-3x”状态逻辑门验证
“PMR-two-3NOR”“PMR-two-3OR”“PMR-three-3ONOR”的电路结构由3个并联的忆阻器M1、M2、M3和1个串联的电阻RS(50 Ω)构成,仿真结果如图6所示.
由于所有状态逻辑门的仿真皆基于相同参数的忆阻器模型,且它们的结构皆为兼容于忆阻交叉阵列的电路结构. 因此,可以认为这6种状态逻辑门可在由该参数忆阻器构成的交叉阵列中成功执行. 接下来,将介绍采用这6种状态逻辑门,依托忆阻交叉阵列完成复杂状态逻辑计算的低磨损综合映射方法.
3. 低磨损综合映射
本节介绍面向低磨损存内计算的多状态逻辑门综合映射方法. 该方法采用包含多种状态逻辑门的综合映射过程来降低复杂存内状态逻辑计算过程的翻转率(toggle rate),综合映射流程如图7所示.
首先,我们使用商用逻辑综合工具将复杂逻辑功能综合为由“PMR-one-2NOT”“PMR-two-3NOR”“PMR-two-3OR”逻辑功能构成的网表,在此过程中以门的总翻转率最小为优化目标. 然后,对该网表进行后处理,按照合并规则将可合并的简单门功能合并为复合门功能,从而进一步引入“PMR-two-2IMP”“PMR-three-3ONOR”“PMR-one-2COPY”(解决循环依赖[8])功能,合并过程同样以降低翻转率为判断条件. 最后,将经过后处理的网表功能与对应的状态逻辑门一一映射并将状态逻辑门按执行顺序配置到单行忆阻交叉阵列上,得到相应的状态逻辑门级联顺序和位置,并计算得到其翻转率.
3.1 状态逻辑门翻转率的计算
状态逻辑门的翻转率是其逻辑状态转变的平均概率. 以“PMR-two-3NOR”为例,输出忆阻器M3的初始状态为逻辑0(HRS),在经过逻辑操作后,4种情况中仅有1种情况的状态会发生改变,如图1中真值表所示. 因此,“PMR-two-3NOR”在进行逻辑操作时状态发生转变的平均概率为0.25.同理,“PMR-three-3ONOR”的翻转率为0.125. 表2列出了各个状态逻辑门的翻转率,该翻转率可以衡量门的磨损程度.
表 2 本文使用到的6种状态逻辑门的翻转率Table 2. Toggle Rates of the Six Stateful Logic Gates Used in This Paper状态逻辑门 翻转率 COPY 0.5 NOT 0.5 NOR 0.25 OR 0.25 IMP 0.25 ONOR 0.125 3.2 逻辑综合
复杂逻辑综合过程使用商用CMOS逻辑电路的综合工具完成复杂逻辑功能到状态逻辑门功能的分解. 具体综合过程如下:
首先,根据所使用的状态逻辑门功能定义单元库,即.lib文件. 从标准单元库中定义NOT,NOR,OR门作为一个新的自定义单元库. 然后,修改所定义门的面积(area)参数为对应状态逻辑门的翻转率. 最后,设置面积最小为综合目标,完成综合过程,得到由3种简单门功能构成的低翻转率的网表.
3.3 后处理
上一步得到的简单门功能网表中,可能存在{NOT,OR},{NOR,OR},{NOT,NOR},{NOR,NOR},{NOT,NOT}这些功能团组. 根据1.1节中描述的简单门和复合门对应关系以及逻辑等价性变换关系,可对网表进行后处理变换.
值得注意的是,为避免输入覆盖造成错误,在对简单门进行合并时,要遵循2个规则[8]:
1) 若合并后的复合门覆盖的输入同时也是其他状态逻辑门的输入时,则2个简单门不能合并;
2) 若第2个简单门的输入是其他复合门的被覆盖输入,则2个简单门不能合并.
在满足上述规则的情况下,可以进行的合并如表3所示.
表 3 状态逻辑门的合并Table 3. Merges of Stateful Logic Gates情况 功能团组 合并后 1 {NOR,OR} ONOR 2 {NOT,OR} IMP 3 {NOT,NOR} IMP,NOT 4 {NOR,NOR} ONOR,NOT 5 {NOT,NOT} NOT 由合并前后的翻转率计算可知,进行情况3合并后翻转率保持不变(0.5+0.25 = 0.25 + 0.5),进行情况4合并后翻转率会上升(0.25+0.25 < 0.125 + 0.5). 在以低磨损为目标的综合映射方法中,还需分别对情况3和情况4进行处理.
为使得翻转率进一步降低,应取消情况3的合并,保留下来的NOR门和NOT门可以进行其他使得翻转率降低的合并.
对于情况4的处理,单纯地像情况3那样取消合并,并不能得到预期的优化效果. 这是由于情况4中第2个NOR分解为OR和NOT门后,会出现2个NOT门相连的情况,满足情况5. 可以同时考虑情况4和情况5合并使得翻转率进一步降低,新的合并过程为:
NOR+ NOR+ NOT=>
NOR+ OR+ NOT+ NOT=>
ONOR+ NOT.
综上所述,后处理阶段状态逻辑门的合并规则为:
1) NOR(0.25)+ OR(0.25)=> ONOR(0.125);
2) NOT(0.5)+ OR(0.25)=> IMP(0.25);
3) NOR(0.25)+ NOR(0.25)+ NOT(0.5)=>
NOR(0.25)+ OR(0.25)+ NOT(0.5)+ NOT(0.5)=>
ONOR(0.125)+ NOT(0.5);
4) NOT(0.5)+ NOT(0.5)=> NOT(0.5).
其中,前3种变换,式子左右逻辑功能等价,前一个简单门的输入可直接指向复合门. 而第4种变换,前一个NOT门的输入即为正确的输出,直接连向其他状态逻辑门即可.
3.4 映 射
完成后处理过程后,得到新的包含复合门功能的网表,进一步需要基于该网表的级联关系,完成状态逻辑门到忆阻交叉阵列的映射. 本文遵循LOSSS中的映射方法[8],以单指令多数据(single instruction multiple data,SIMD)计算场景为背景,采用了面向行/列的映射模式,允许同时执行复杂逻辑的多个实例,每个实例都压缩到交叉阵列的一行中. 通过修改现有的SIMPLER MAGIC映射工具[15],以满足对多状态逻辑门映射的需求.
首先,读入经过后处理的网表文件,识别所使用的逻辑功能并根据逻辑功能匹配到相应的状态逻辑门,提取相应逻辑结构以及节点信息.
其次,确定状态逻辑门的执行顺序. 状态逻辑门的执行顺序与该门所代表的节点的单元使用值(cell usage,CU)有关. 在SIMPLER MAIGC的算法中,该值为执行一个门所需要的内存单元(作为输入的节点)的估计值[15]. 单元使用值较大的门应该先执行,由此作为该门的输入节点所占用的忆阻器单元可以尽早地被释放,重新分配新的节点. 此外,为保证逻辑功能的正确性,复合门所代表的节点应在其所有兄弟节点中最后被映射和执行.
最后,根据设定的阵列宽度(row size)为每个节点分配内存单元,得到整个逻辑执行的延迟和重用单元数. 其中,每一个节点包含3个状态:1)可使用(available)状态;2)已使用(used)状态;3)尚未初始化(uninitialized)状态. 处于状态3)的节点经过初始化转变为状态1);处于状态1)的节点可以被分配使用,并转为状态2);当处于状态2)的节点不再参与后续执行时,可以释放并重用该节点. 此外,在对映射后结果统计时,重用单元的平均翻转率记为0.5,需要计入总翻转率.
4. 结果与讨论
为评价优化的效果,我们采用提出的低磨损综合映射方法对EPFL[32],LGSynth91[33]基准电路测试集进行实验测试.LGSynth91是一个在集成电路(IC)设计和测试领域广泛使用的基准电路集合,包含了多种用于评估和设计优化算法的标准电路. 相较于LGSynth91,EPFL测试集的电路规模更大,对逻辑优化工具提出了更高的要求. 本文分别选取EPFL,LGSynth91中的10个测试电路,经过综合映射后,统计最终状态逻辑门映射序列的延迟和翻转率,并与采用当前2种典型的状态逻辑综合映射工具SIMPLER MAGIC[15],LOSSS[8]得到的结果进行对比.
4.1 实验设置
为了公平比较,3个综合映射流程的CMOS逻辑综合阶段均使用相同的商用CMOS逻辑电路综合工具. 本文的方法和LOSSS的自定义单元库中包含OR,NOR,NOT门,而SIMPLER MAGIC中仅包含NOR,NOT门. 本文所提出的低磨损综合映射方法的自定义单元库中各个门的面积参数设置为其对应的翻转率,而LOSSS,SIMPLER MAGIC的自定义单元库中各个门的面积参数设置为相同的值. 除自定义单元库不同之外,综合环境、综合约束等均与原流程保持一致.
在进行3种综合映射方法的比较时,每个测试样例映射的阵列宽度设置为3个综合映射流程能够进行综合映射的最小宽度的最大值. 表4中罗列了3个综合映射流程下各个测试集的最小阵列宽度,再对每个测试集取阵列宽度的最大值,即为最终的阵列宽度.
表 4 阵列宽度选取Table 4. Selection of Row SizeEPFL 测试电路 本文 LOSSS SIMPLER MAGIC 阵列宽度选取 adder 510 463 390 510 arbiter 2189 2147 1719 2189 bar 636 636 399 636 cavlc 168 169 124 169 ctrl 54 56 45 56 dec 371 371 267 371 int2float 50 59 41 59 max 870 854 783 870 priority 250 191 194 250 voter 1235 1110 1354 1354 LGSynth91 测试电路 本文 LOSSS SIMPLER MAGIC 阵列宽度选取 alu2 74 80 78 80 cm138a 30 30 17 30 cm42a 22 25 16 25 cmb 38 36 27 38 cht 92 94 88 94 term1 88 70 70 88 f51m 37 42 32 42 mux 31 31 31 31 ttt2 64 67 57 67 z4ml 18 16 20 20 4.2 实验结果
针对3种综合映射流程,分别得到各个测试样例的执行延迟和翻转率. 为进行更为直观的比较,选取SIMPLER MAGIC综合映射流程所得的结果为基准值,分别计算本文和LOSSS相较于SIMPLER MAGIC在执行延迟和翻转率2个指标上优化的比例(即数值下降的百分比),如图8~11所示.
由图8~11中数据可知:在执行延迟指标上,与SIMPLER MAGIC相比,本文所述综合映射流程在EPFL测试集上有最高45.35%和最低15.94%的降低,整体上平均有24.18%的降低;在LGSynth91测试集上有最高51.35%和最低21.74%的降低,整体上平均有34.67%的降低. 本文与LOSSS所得结果相差不大,在2个测试集下平均仅有不到1.20%的差距. 可以看到,虽然本文报道的综合映射方法是基于降低整个计算过程器件的总翻转率进行优化的,但是在计算延迟上相较于先前报道的LOSSS工具亦有改善. 这可能是由于目前所采用的商用CMOS综合映射工具基于启发式算法来进行优化,基于CMOS关键路径的延时优化是工具默认的优先级最高的综合优化属性. 而本文在基于CMOS的综合流程中,将门的面积设置为状态逻辑门翻转率的方法,或许产生了更好的起始网表,故而使得后处理和映射之后的状态逻辑门序列的总延时也有所降低.
在翻转率指标上,与SIMPLER MAGIC相比,本文所述综合映射流程在EPFL测试集上有最高61.82%和最低21.94%的降低,整体上平均有35.55%的降低;在LGSynth91测试集上有最高65.52%和最低30.88%的降低,整体上平均有47.26%的降低. 同时,本文在2个测试集上相较于LOSSS综合映射流程平均分别有8.48%和6.72%的降低,与本文低磨损工具研发的初衷一致. 特别地,本文所述综合映射流程在mux测试电路上的总翻转率高于LOSSS.这是由于总翻转率的计算包含了单元重用部分,若仅考虑后处理结束后的结果,本文所述综合映射流程下的翻转率仍然低于LOSSS.
综上所述,本文提出的综合流程与SIMPLER MAGIC 和 LOSSS相比,在翻转率和执行延迟上均得到了一定优化.
5. 总 结
在本文工作中,首先验证了多种状态逻辑门对同一忆阻存储阵列的兼容性. 然后以翻转率最优为约束,研究面向忆阻存储阵列内低磨损计算的状态逻辑综合映射方法,建立了包含多种状态逻辑门的复杂逻辑计算综合映射流程,可以针对任意给定计算功能,给出低磨损的状态逻辑门级联序列和位置,具有重要的理论意义. 后续的工作中可以考虑加入更多的状态逻辑门或是选择更优的状态逻辑门组合. 同时,可以综合考虑多个优化目标,在阵列规模、处理时效以及器件寿命上,取得更优的折中.
作者贡献声明:赵安宁与许诺为共同第一作者,许诺提出了论文的总体框架和算法思路,赵安宁完善了想法和算法细节并完成了实验和结果分析;许诺和赵安宁撰写论文的主体部分;刘康和罗莉参与了想法和方案讨论;所有作者都参与了论文讨论和修改.
-
表 1 PDTB 2.0和3.0中的实例数量
Table 1 Number of Instances in PDTB 2.0 and 3.0
数据集 训练集 验证集 测试集 PDTB 2.0 12 632 1 183 1 046 PDTB 3.0 17 945 1 653 1 474 表 2 超参数的值
Table 2 Values of Hyperparameters
超参数 值 Transformer层数 2 Transformer层维度 768 最大短语长度N 4 优化器 Adamw 学习率 0.000 01 批数据大小 32 训练轮次Epoch 15 表 3 PDTB 2.0上与基准方法对比的结果
Table 3 Results Compared with the Baseline Methods on PDTB 2.0
% 方法 第1级 第2级 Acc F1 Acc F1 ChatGPT 44.18 36.11 24.54 16.20 BMGF 69.06 63.39 58.13 - PhraseINT 70.36 63.05 59.74 39.65 LDSGM 71.18 63.73 60.33 40.49 PCP 70.84 64.95 60.54 41.55 PEMI 71.13 64.05 60.66 41.31 ADCG 74.59 68.64 62.79 42.36 MGII(本文) 71.56 64.51 60.79 42.18 MGII + DAM(本文) 73.33 66.58 62.15 43.70 表 4 PDTB 3.0上与基准方法对比的结果
Table 4 Results Compared with the Baseline Methods on PDTB 3.0
% 方法 第1级 第2级 Acc F1 Acc F1 ChatGPT 52.84 47.53 36.98 25.77 BMGF 71.98 66.92 61.87 41.28 PhraseINT 72.81 68.10 61.56 50.39 LDSGM 73.18 68.73 61.33 53.49 PCP 73.81 69.82 63.63 49.87 PEMI 73.27 69.06 63.09 52.73 ADCG 76.23 71.15 65.51 55.26 MGII(本文) 75.40 70.63 63.12 54.22 MGII + DAM(本文) 76.92 72.41 65.21 55.94 表 5 PDTB 2.0上消融实验的结果
Table 5 Results of Ablation Experiments on PDTB 2.0
% 模型 第1级 第2级 Acc F1 Acc F1 MGII 71.56 64.51 60.79 42.18 w/o n-gram 70.23 63.25 59.73 41.26 w/o Word 70.57 63.96 60.05 41.42 w/o CLS 70.65 64.06 59.81 41.63 w/o 2-gram 70.68 64.06 60.25 41.53 w/o 3-gram 70.83 64.22 60.41 41.76 w/o 4-gram 71.20 64.41 60.62 42.03 表 6 PDTB 3.0上消融实验的结果
Table 6 Results of Ablation Experiments on PDTB 3.0
% 模型 第1级 第2级 Acc F1 Acc F1 MGII 75.40 70.63 63.12 54.22 w/o n-gram 74.34 69.71 62.33 53.10 w/o Word 74.61 70.06 62.45 53.43 w/o CLS 74.73 70.22 62.52 54.07 w/o 2-gram 74.75 69.76 62.73 53.76 w/o 3-gram 74.93 70.23 62.89 54.02 w/o 4-gram 75.20 70.34 62.93 54.21 表 7 PDTB 2.0上联合模型的效果
Table 7 Effect of Joint Modeling on PDTB 2.0
% 模型 第1级 第2级 Acc F1 Acc F1 ADCG 74.59 68.64 62.79 42.36 MGII+ADCG 75.31 69.54 63.47 43.43 表 8 PDTB 3.0上联合模型的效果
Table 8 Effect of Joint Modeling on PDTB 3.0
% 模型 第1级 第2级 Acc F1 Acc F1 ADCG 76.23 71.15 65.51 55.26 MGII+ADCG 76.95 72.46 66.39 56.32 -
[1] Wang Chang, Wang Bang. An end-to-end topic-enhanced self-attention network for social emotion classification[C]// Proc of the Web Conf 2020. New York: ACM, 2020: 2210–2219
[2] Li Huifeng, Srihari R, Niu Cheng, et al. Location normalization for information extraction[C/OL]// Proc of the 19th Int Conf on COLING. Stroudsburg, PA: ACL, 2002[2024-01-03]. https://aclanthology.org/C02-1127/
[3] Cohan A, Dernoncourt F, Kim D, et al. A discourse-aware attention model for abstractive summarization of long documents[C]// Proc of the 2018 Conf of NAACL: Human Language Technologies. Stroudsburg, PA: ACL, 2018: 615–621
[4] Verberne S, Boves L, Oostdijk N, et al. Evaluating discourse-based answer extraction for why -question answering[C]// Proc of the 30th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2007: 735–736
[5] Chan C, Cheng Jiayang, Wang Weiqi, et al. ChatGPT evaluation on sentence level relations: A focus on temporal, causal, and discourse relations[C]// Proc of Findings of ACL: EACL 2024. Stroudsburg, PA: ACL, 2024: 684−721
[6] Yung F, Ahmad M, Scholman M, et al. Prompting implicit discourse relation annotation[C]// Proc of The 18th Linguistic Annotation Workshop. Stroudsburg, PA: ACL, 2024: 150–165
[7] Ruan Huibin, Hong Yu, Xu Yang, et al. Interactively-propagative attention learning for implicit discourse relation recognition[C]// Proc of the 28th Int Conf on COLING. Stroudsburg, PA: ACL, 2020: 3168–3178
[8] Liu Xin, Ou Jiefu, Song Yangqiu, et al. On the importance of word and sentence representation learning in implicit discourse relation classification[C]// Proc of the 29th IJCAI. San Francisco, CA: Morgan Kaufmann, 2020: 3830–3836
[9] Ma Yuhao, Zhu Jian, Liu Jie. Enhanced semantic representation learning for implicit discourse relation classification[J]. Applied Intelligence, 2022, 52(7): 7700−7712 doi: 10.1007/s10489-021-02785-6
[10] Xiang Wei, Wang Bang, Dai Lu, et al. Encoding and fusing semantic connection and linguistic evidence for implicit discourse relation recognition[C]// Proc of Findings of ACL: ACL 2022. Stroudsburg, PA: ACL: 2022, 3247–3257
[11] Wang Yizhong, Li Sujian, Yang Jingfeng, et al. Tag-enhanced tree-structured neural networks for implicit discourse relation classification[C]// Proc of the 8th IJNLP. Stroudsburg, PA: ACL, 2017: 496–505
[12] 王秀利 ,金方焱. 融合特征编码和短语交互感知的隐式篇章关系识别[J]. 电子学报,2024,52(4):1377-1388 Wang Xiuli , Jin Fangyan. Implicit discourse relation recognition integrating feature coding and phrase interaction perception[J]. Acta Electronica Sinica, 2024, 52(4): 1377-1388 (in Chinese)
[13] Liu Yang, Li Sujian, Zhang Xiaodong, et al. Implicit discourse relation classification via multi-task neural networks[C]// Proc of the 30th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 2750–2756
[14] Kishimoto Y,Murawaki Y,Kurohashi S. Adapting BERT to implicit discourse relation classification with a focus on discourse connectives[C]// Proc of LREC 2020. Paris:ELRA,2020:1152–1158
[15] Zhang Biao,Su Jinsong,Xiong Deyi,et al. Shallow convolutional neural network for implicit discourse relation recognition[C]// Proc of the 2015 Conf on EMNLP. Stroudsburg,PA:ACL,2015:2230–2235
[16] Rutherford A, Demberg V, Xue Nianwen. A systematic study of neural discourse models for implicit discourse relation[C]// Proc of the 15th Conf of EACL. Stroudsburg, PA: ACL, 2017: 281–291
[17] Chen Jifan, Zhang Qi, Liu Pengfei, et al. Implicit discourse relation detection via a deep architecture with gated relevance network[C]// Proc of the 54th Annual Meeting of the ACL. Stroudsburg, PA: ACL, 2016: 1726–1735
[18] Liu Yang, Li Sujian. Recognizing Implicit discourse relations via repeated reading: Neural networks with multi-level attention[C]// Proc of the 2016 Conf on EMNLP. Stroudsburg, PA: ACL, 2016: 1224–1233
[19] Lei Wenqiang, Wang Xuancong, Liu Meichun, et al. SWIM: A simple word interaction model for implicit discourse relation recognition[C]// Proc of the 26th IJCAI. San Francisco, CA: Morgan Kaufmann, 2017: 4026–4032
[20] Wu Changxing, Cao Liuwen, Ge Yubin, et al. A label dependence-aware sequence generation model for multi-level implicit discourse relation recognition[C]// Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022, 11486–11494
[21] Long Wanqiu, Webber B. Facilitating contrastive learning of discourse relational senses by exploiting the hierarchy of sense relations[C]// Proc of the 2022 Conf on EMNLP. Stroudsburg, PA: ACL, 2022: 10704–10716
[22] Jiang Yuxin, Zhang Linhan, Wang Wei. Global and local hierarchy-aware contrastive framework for implicit discourse relation recognition[C]// Proc of Findings of ACL: ACL 2023. Stroudsburg, PA: ACL, 2023: 8048–8064
[23] Xiang Wei, Wang Zhenglin, Dai Lu, et al. ConnPrompt: connective-cloze prompt learning for implicit discourse relation recognition[C]// Proc of the 29th Int Conf on COLING. Stroudsburg, PA: ACL, 2022: 902–911
[24] Zhou Hao, Lan Man, Wu Yuanbin, et al. Prompt-based connective prediction method for fine-grained implicit discourse relation recognition[C]// Proc of Findings of ACL: EMNLP 2022. Stroudsburg, PA: ACL, 2022: 3848–3858
[25] Zhao Haodong, He Ruifang, Xiao Mengnan, et al. Infusing hierarchical guidance into prompt tuning: a parameter-efficient framework for multi-level implicit discourse relation recognition[C]// Proc of the 61st Annual Meeting of ACL. Stroudsburg, PA: ACL, 2022, 2023: 6477–6492
[26] Wu Hongyi, Zhou Hao, Lan Man, et al. Connective prediction for implicit discourse relation recognition via knowledge distillation[C]// Proc of the 61st Annual Meeting of ACL. Stroudsburg, PA: ACL, 2023: 5908–5923
[27] Liu Wei, Strube M. Annotation-inspired implicit discourse relation classification with auxiliary discourse connective generation[C]// Proc of the 61st Annual Meeting of ACL. Stroudsburg, PA: ACL, 2023: 15696–15712
[28] Wu Changxing, Shi Xiaodong, Chen Yidong, et al. Improving implicit discourse relation recognition with discourse-specific word embeddings[C]// Proc of the 55th Annual Meeting of ACL. Stroudsburg, PA: ACL, 2017: 269–274
[29] Ru Dongyu, Qiu Lin, Qiu Xipeng, et al. Distributed marker representation for ambiguous discourse markers and entangled relations[C]// Proc of the 61st Annual Meeting of ACL. Stroudsburg, PA: ACL, 2023: 5334–5351
[30] Wang Chenxu, Jian Ping, Huang Mu. Prompt-based logical semantics enhancement for implicit discourse relation recognition[C]// Proc of the 2023 Conf on EMNLP, 2023: 687–699
[31] 范伟,刘勇. 基于时空Transformer的社交网络信息传播预测[J]. 计算机研究与发展,2022,59(8):1757−1769 doi: 10.7544/issn1000-1239.20220064 Fan Wei, Liu Yong. Social network information diffusion prediction based on spatial-temporal transformer[J]. Journal of Computer Research and Development, 2022, 59(8): 1757−1769 (in Chinese) doi: 10.7544/issn1000-1239.20220064
[32] Rashmi P, Nikhil D, Alan L, et al. The penn discourse TreeBank 2.0[C]// Proc of the 6th Int Conf on LREC. Stroudsburg, PA: ACL, 2008: 2961–2968
[33] Webber B, Prasad R, Lee A, et al. The penn discourse TreeBank 3.0 annotation manual[R]. Philadelphia, PA: University of Pennsylvania, 2019
[34] Ji Yangfeng, Eisenstein J. One vector is not enough: entity-augmented distributed semantics for discourse relations[J]. Transactions of the Association for Computational Linguistics 2015, 3: 329−344. https://doi.org/10.1162/tacl_a_00142
[35] Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: A robustly optimized BERT pretraining approach[J]. arXiv preprint, arXiv: 1907.11692, 2019
[36] Sileo D Van-De-Cruys T, Pradel C, et al. Mining discourse markers for unsupervised sentence representation learning[C]// Proc of the 2019 Conf of NAACL: Human Language Technologies. Stroudsburg, PA: ACL, 2019: 3477–3486