Dr.Deep：基于医疗特征上下文学习的患者健康状态可解释评估

马连韬1,2,3 张超贺1,2 焦贤锋1,2 王亚沙1,3 唐雯4 赵俊峰1,2

1(高可信软件技术教育部重点实验室(北京大学) 北京 100871) 2(北京大学信息科学技术学院北京 100871) 3(北京大学软件工程国家工程中心北京 100871) 4(北京大学第三医院肾内科北京 100191)

摘要深度学习是当前医疗多变量时序数据分析的主流方法.临床辅助决策关乎病人生命健康，因此深度模型需要抽取患者个性化表示，保证较高的分析、预测准确率；同时还需提供足够的可解释性，即能解释模型给出分析、预测结论的依据.而现有工作暂未能匹配医疗领域多变量时间序列数据的特性来进行个性化表示学习，同时源于深度学习的黑盒性质，现有模型大都可解释性不足，难以满足临床应用的需求.在此背景下，提出了基于医疗特征上下文学习的患者健康状态可解释评估方法Dr.Deep，将各变量的时序特征分别编码，利用多头去协同的自注意力机制，学习不同特征之间关联关系；提出了基于压缩激励机制的特征跳连编码，提升模型对最新病情变化的敏感性并针对不同患者情况分析特征重要性.实验表明：Dr.Deep在重症监护患者脓毒症预测、新冠肺炎重症患者出院时间预测等任务中相比业界方法性能提升，且可以针对不同患者的不同指标自适应学习其重要性作为可解释性的关键因素.同时设计并实现了基于医疗多变量时序数据分析的医生临床辅助系统，该系统建立病人的健康表示学习和预后预测模型并可视化患者病情进展以便医生分析.实验代码已开源于https://github.com/Accountable-Machine-Intelligence/Dr.Deep.所设计的智能医生可视化交互系统已发布于http://47.93.42.104/challenge/100049.

关键词电子病历数据；临床预后；智能医疗分析；深度学习；可解释性

我国医疗服务领域存在明显供需矛盾.一方面，随人口老龄化加速、慢病增多、健康意识增强，人民对健康医疗服务的需求快速增长；另一方面，医疗服务供给总量不足，医疗资源分布不均.以重症监护预后为例，随着疾病的进展，患者病情会发生变化，死亡风险也会随之变化，在变化的不同阶段都需要医护人员及时的跟进治疗.现如今，由于缺乏这类有经验的医护人员，很多临床死亡风险高的患者在早期未被及时识别并处理.

近年来，现代卫生系统推进了医疗病历记录信息化的建设，在医疗机构中存储了大量的医疗电子病历(electronic medical record, EMR)[1].其中结构化多变量时间序列数据是一种重要且在医疗领域广泛记录的数据类型，蕴含巨大价值有待分析[2-5].对医疗多变量时序数据进行分析挖掘，可以辅助医生对患者进行疾病快速诊断筛查，降低误诊率，提升医疗效率，为提前医疗干预带来机会，发现人类医学专家尚未意识到的医学知识.

随着计算机硬件设备算力的提升，深度学习模型逐渐成为多变量时间序列数据分析的主流技术，并被广泛应用于解决以下问题：死亡预测[6]、患病预测[7]、再入院预测[8]、患者相似性分析[9]、治疗方案分析[10]、临床路径分析[7]、疾病进展建模[11]、ICU患者死亡预测[12]等.虽然在这些研究中处理的任务各不相同，但它们的本质均为学习患者的健康状况表示，将患者复杂的健康数据压缩至低维空间中，从而进行健康预测.

然而，在医疗等领域中，多变量时间序列数据存在特征构成复杂、患者个性化差异大、可解释性要求高等诸多挑战有待解决.在构建预测模型时，应综合考虑3个医疗多变量时序数据特性以及医疗领域预测可解释性需求：

1)分析特征关联关系，个性化抽取患者健康上下文.医疗特征之间有高度的相关性，应综合考虑以进行患者状况表示学习.如血浆中肌酐和尿素浓度开始双曲线上升时，它们和肾小球滤过率值通常与慢性肾病患者的全身表现相关.此外，静态特征与动态特征之间亦有高度相关性，如临床特征(如血糖)的值可能对具有不同静态基线(记录了是否患有糖尿病)的患者具有不同的意义.建模患者健康状态时应综合分析患者不同医学指标之间的关联关系.

2)为处于不同健康状态的患者差异化分析特征重要性.对于健康状况不同的患者，其重要的生理指标也不同；即使对于同一患者，其每个生理指标的重要性也应随着时间的推移进行自适应地调整.例如既往病情稳定的尿毒症患者突然出现血红蛋白大幅降低可能预示着消化道出血可能，模型应立刻给予关注.模型在评估每个指标的取值给患者身体状况带来的影响时，需综合考虑各项特征，判定每个指标对健康的指示意义.

3)医疗领域预测可解释性需求.虽然深度学习在许多领域取得了巨大的成功，但由于其黑匣子的性质，在医疗领域尚未得到广泛信任[13].如果模型可以从多角度输出其判断逻辑，医生可以在信任该结果的基础上为患者制定精准的治疗方案.

本文针对医疗领域数据特点所带来的挑战和医疗应用对多视角可解释性的独特需求，开展了针对医疗多变量医疗时间序列数据表示学习的研究.提出了一种基于医疗特征上下文学习的患者健康状态可解释评估方法Dr.Deep，并开发了基于医疗多变量时序数据分析的医生临床辅助系统，为临床诊疗提供辅助决策支持.本文的创新点总结为3个大方面.

1)面向多变量时序电子病历数据，提出基于特征上下文表示学习的患者健康状态个性化表示学习方法与可解释评估方法.技术贡献具体包括：

① 提出了一种多通道健康上下文表示学习方法，有效编码医疗记录以构成患者的健康表示.在多特征通道结构的基础上，采用了基于去相关自注意力机制的特征上下文关联分析，显式抽取多个动态特征之间、以及动态特征与静态基线信息之间的关联信息，解决需求1.

② 提出了基于压缩激励机制的特征重要性重标定方法，自适应地选择重要特征信息作为代表性的指标来构建健康状态表示，抑制无用特征以提升表示学习鲁棒性.最终将指标重要性显示输出，为模型提供可解释性，解决需求2与需求3.

2)在2个开放重症监护患者医疗数据集上进行脓毒症预测、出院时间预测实验.实验证明本文方法有效性显著高于同期其他方法：

① 重症监护开放数据集(PhysioNet Challenge)的脓毒症预测实验中，与医疗时序分析领域经典最佳基准模型T-LSTM(SIGKDD)[9]相比，Dr.Deep在精准召回率曲线下面积(area under precision recall curve, AUPRC)指标实现了10.7%的相对性能提升，min(Se，P+)指标实现了6.4% 的相对提升.

② 同济医院开放的新冠肺炎重症监护患者数据集出院时间预测实验中，此方法相比最佳基准模型在均方误差(mean square error, MSE)和平均绝对误差(mean absolute error, MAE)指标上，分别实现了18.2% 和5.4%的性能相对提升.

3)设计并实现了一种基于医疗多变量时序数据分析的人工智能医生在线临床辅助系统：该系统可以展示每一位患者的健康状态动态评估结果、预测依据等.经由医学专家试用系统并查阅医疗文献验证，本文方法抽取的可解释性符合临床经验，解决需求3.

1 电子病历数据分析相关工作

现在已有较多工作将通用时序数据分析方法(以循环神经网络为代表)应用至医疗多变量时间序列数据分析任务，并取得了相较传统模型的较大提升[14].但医疗领域，多变量时间序列数据分析存在特征记录不规则、变化模式复杂、样本少、可解释性要求高等特点，传统模型往往应用效果不佳、决策支持效果差，以至于深度学习模型落地困难，难以切实在实际应用场景发挥模型原本价值.

现有医疗多变量时序数据分析工作中所输出的可解释性主要集中在使用注意力机制输出时间步层面的重要性.例如，Lee等人[11]提出了一种基于医学上下文注意力机制(medical context attention, MCA)的循环神经网络，捕捉时序重要性；Ma等人[14]使用双向循环网络结构和注意机制来捕捉不同访问之间的关系以进行预测；Song等人[15]借鉴了自然语言处理领域中的自注意力机制(self-attention)，取代了传统的时间序列处理常用的如长短时记忆网络、门控循环网络等方法，抓取各个时间步下就诊信息的相互关联.此类方法忽略了对特征重要性的分析，而针对不同患者个性化判别的特征重要性才是医生了解模型判断依据并制定精准治疗方案的关键信息.

一些研究因此进一步探讨了医学特征层面的可解释性.如Bai等人[16]提出不同医疗特征对隐层表示应该有不同程度的影响，因此利自注意力机制，学习单次就诊下不同输入特征对应的注意力权重，此类方法能识别疾病编码的重要性，但无法分析实验室检验检查特征重要性.考虑到复杂的深度学习模型拟合数据的能力、表示学习的能力强、性能好，但可能可解释性差，部分研究工作为提升模型可解释性，降低深度学习模型复杂度或与决策树等高可解释性模型结合；Yan等人[17]使用决策树方法对新冠肺炎重症患者进行死亡预测；Choi等人[18]提出了双层注意力模型RETAIN，利用2个循环神经网络分别学习各次就诊的重要性和单次就诊下每个特征的重要性.其用特征注意力加权来刻画每次就诊的隐层表示，再将每次就诊的隐层表示用时间注意力加权求和记得到一个患者的隐层表示，最终对学得的患者表示使用全连接层进行相应的预测.亦有其他工作[19-20]指出，此类简化方法往往仅使用决策树或线性层学习的隐层表示，难以抽取复杂时序变化模式，特征提取不够充分，表示学习能力降低而性能受损，可能陷入“性能/可解释性的选择困局”，难以在保证高性能的同时辅助医生有针对性地制定个性化治疗方案.

此外，较少研究从医疗特征关联关系方面分析模型的可解释性.Bai等人[16]引入自注意力机制学习不同疾病编码之间的关联，但其仅适用于疾病编码特征，不适用于实验室检验检查特征，且仅学习单次就诊下的关联，未捕捉到全局视角.现有工作仍然不能捕捉特征记录之间的相互依赖关系.

因此，尽管当前深度学习方案相关工作在医疗多变量时序数据分析、健康状态预测任务上已达到较高准确率，但距离满足临床需求落地应用仍需要针对患者情况学习其特征健康上下文关系、个性化利用特征编码构成患者最终健康表示，并输出可解释性供医生参考.

2 重症监护患者预后问题定义

医疗多变量时序数据中涉及病人健康相关的多个因素，包括生理指标因素(如血糖、血压、体重等)、治疗措施因素(如服用某种药品、采取某种处置等)和疾病诊断因素(如被诊断患有某种疾病等).在数据分析中，这些因素被抽象为一组“变量”.由于病人通常在医院接受多次多种检查或治疗，因此上述变量在不同时间的取值形成了多变量时间序列数据，本文称其为“医疗多变量时间序列数据”.在这里，时间是一个抽象的概念，通常表示为就诊检查时步(timestep).在一个以就诊为单位的医疗数据序列中，序列中第1次就诊所得到的检验检查结果就是第1个时步.

假设病人的动态临床记录由T次就诊记录组成.因此，这样的临床序列可以被表述为一个纵向的病人矩阵R，其中一个维度代表医疗特征，另一个维度表示访问时间戳:

多个患者的不同就诊、不同特征数据共同构成一个稀疏的张量.在真实临床应用中，电子病历数据除时序数据R之外，一般还需要一并分析静态基线信息，包含人口统计信息(如性别、年龄等)和原发疾病(如慢性肾小球肾炎、慢性间质性肾炎等)，记为base.

医疗预测的目标是使用EMR数据(即R和base)来预测病人在治疗过程中是否会出现目标临床结果，表示为y.问题被表述为分类或回归任务，即:

3 健康状态可解释评估方法

在绝大多数基于深度学习的多变量医疗时序数据分析工作中，患者的健康状态表示学习主要基于循环神经网络来进行.健康变化过程被类比为自然语言中的句子，患者疾病发展路径建模类比于学习自然语言模型.患者随着就诊逐渐产生多次医疗记录，如同自然语言中的一句话中的每个单词；而患者的多项生理检查指标特征变量，则视作一个单词的编码中的多个隐层单元的取值.学习患者的健康状态并做出健康预测，类比于学习一句话的表示并预测这句话的含义.

文献[6]假设，相比自然语言处理任务中提取时序关系，在综合患者的医疗多变量时序数据以学习患者健康编码并评估病情发展时，更重要的应是提取特征关系，即对特征进行全局编码随后对特征关联进行学习.因此其未采用绝大多数已有相关工作的时序压缩编码方案，而是提出了多特征通道编码框架.多特征通道结构适合从患者健康完整序列的全局视角显式捕捉特征之间的关联，并筛选最重要的特征.在多通道编码部分使用循环神经网络编码动态特征序列的同时，使用多层感知机隐层神经网络将静态信息base做映射，得到一个更加稠密中间的表示输入到网络之中.该表示为后续网络使用自注意力机制学习静态信息与动态特征关联做准备，与其他动态特征序列编码结果即将按位叠加，因此亦属于同一隐层特征空间.

针对学习特征关联关系的预测需求，提出去相关自注意力机制.每个特征的隐层表示通过关注所有其他特征的隐层状态来计算注意力权重，让每个特征都和其他所有特征产生线性组合的交互，即每个特征都能“全局”地观察其他特征和自身的关系，并通过加权方式结合不同特征信息，重新学习结合医疗上下文的个性化编码.这样不受采样频率、记录稀疏度的限制，建立任意2个特征序列之间直接关联，关联信息丢失更少.例如当模型重编码“舒张压”这一生理指标的隐层表示时，会和舒张压更相关的生理指标(如收缩压)产生更多关联，从而将“收缩压”这一指标的信息也纳入到“舒张压”中来.此外，本文额外结合静态基线信息捕捉动态特征之间的相互依赖关系.例如，当模型处理特征“血糖”时，自注意机制可能会使其与静态基线信息中的“糖尿病诊断”相关联.

在前期工作多特征通道表示学习基础上，本文指出，根据传统多头自注意力机制工作(multi-head self-attention)[21]在实践中的经验，多个注意力头之间很可能会学到近似的相关知识，造成编码冗余，泛用性下降.具体来说，由于多头自注意机制往往倾向于捕捉最有判别力的特征，学习到的医疗上下文信息将是有限的.基于相关工作在防止过拟合方面的研究[22-24]，本文认为在数据量少且缺乏额外约束的情况下，特征编码器被训练为在训练数据上协同工作，即特征编码器仅在几个其他特定编码器的协同环境中才能发挥作用，存在可能导致过拟合的协同适应效应，更容易发生过拟合现象.因此本文针对性提出了多头去相关自注意力提升策略，抑制部分注意头对重要特征的关注，迫使网络去寻找其他上下文关联信息.以迫使各个注意头广泛差异化关注特征.

同时，文献[6]仅依赖静态信息在最终预测层发起查询(query)，因此在缺少静态信息或其所包含信息对待预测任务目标意义不足时可能面临无法合理分配特征重要性的问题.本文进一步引入了压缩激励机制以学习用于发起查询的隐层编码，并通过针对不同患者学习每个特征的重要性权重，提供特征级别的预测可解释性.

如图1所示，本文方法Dr.Deep具体分为3个模块：

1)多通道时序特征抽取表示学习(multi-channel time series feature extraction)；

2)基于自注意力的健康上下文关联学习方法(self-attention-based health context learning)与去相关增强策略(boosted strategy)；

3)基于压缩激励机制的特征重要性重标定(SEBlock-based adaptive feature recalibration).

Fig.1 Dr.Deep framework

图1 Dr.Deep框架图

3.1 多通道时序特征抽取表示学习

Dr.Deep使用了多通道的门控循环单元(gated recurrent unit, GRU)分别压缩表示不同特征的时序信息，读入数据并将每个特征时序各自编码为同一特征空间的等长隐层向量.将模型的特征序列输入统一记为r.GRU会依次重复接收就诊时步t下的原始特征rt，并结合历史就诊数据编码ht-1，将数据映射为抽象的隐层空间编码结果ht.循环神经网络通过“更新”(zt)和“重置”(et)操作来控制历史编码结果对最新就诊时步的影响.

et=σ(Ue·rt+We·ht-1+be),

zt=σ(Uz·rt+Wz·ht-1+bz),

其中，σ和tanh分别指sigmoid和tanh非线性激活函数，×和+分别指矩阵的元素乘法和矩阵加法.随后通过多通道GRU分别嵌入每个特征的时间序列：

hn,1,hn,2,…,hn,T=GRUn(rn,1,rn,2,…,rn,T),

其中,特征n的时间序列表示为rn,:=(rn,1,rn,2,…,rn,T)∈T.至此，已经针对不同特征序列分别学习获得其时序编码结果，暂不考虑其时序不规则性，取最后一个时间步的表示作为该特征的最终表示，则：

fn=hn,T, n=1,2,…,N.

此外，将基线数据线性映射至与特征序列编码同样的隐层维度，为后续综合学习静态特征动态特征之间的关联并获得最终健康表示做好准备：

fbase=Wbase·base,

其中,Wbase是待学习参数矩阵.为了便于记述，在本文的公式中忽略了偏置项.至此，患者的所有变长时序特征数据与静态信息均已被编码至矩阵：

F=(f1,f2,…,fN,fbase).

3.2 基于自注意力的健康上下文关联学习

Dr.Deep通过自注意力机制的方式捕捉特征间相互关联，从而全局捕捉患者的健康上下文语义信息，并以此获得每个特征新的表示.该模块结合上下文信息重新编码语义后的特征向量，输入前馈神经网络中得到最终患者健康表示.具体而言，自注意力机制[21]中原始输入或前一层编码器的输出，经过线性变化，将特征矩阵F映射到3个不同的子空间中，分别形成3个新的编码矩阵Q,K,V.当处理某个特征时，将当前特征作为查询发起(query)，去和病历中所有特征(包含该特征本身)的相应向量(key)去匹配，即Q与K之间进行点乘计算得到不同特征之间相关度的度量，随后使用softmax函数将上述计算结果进行归一化，每个值(value)项都获得相对应的权重以进行后续加权求和.注意力权重矩阵A计算：

Q=F·WQ,

K=F·WK,

V=F·WV,

其中，dk是尺度缩放因子并设置为K的尺寸大小，其帮助缩放每个特征编码向量的数值数量级，以避免点积得到的结果过大处于softmax梯度小的区域而不利于优化.上述得到的注意力权重再乘以矩阵V就得到每个特征的权重求和的表示，该表示即是结合了上下文语义的新编码矩阵

F*=A VWO,

其中，WO为待训练的参数矩阵.

同时，自注意力机制可进一步拓展为多头(multi-head)注意力机制[21]，即多个自注意结构的组合，同时学习不同的Q,K,V表示每个注意头学习到在不同特征空间中的语义，因此它们学习到的注意力侧重点可能均有不同，进而可以使模型丰富学得特征的表示空间、捕捉更丰富信息.首先对于每个自注意头i：

其展开式为

dk为Ki的尺寸.矩阵Ai表示头i所学到的对特征间的相关程度.headi为该自注意头所学习到的融合特征相关信息的后的编码，其接收上文原始特征线性映射后得到的Vi作为输入：

headi=AiVi，

其展开式为

随后结合全部注意头的计算结果：

U=(u1,u2,…,uN)T=

(head0⊕head1⊕…⊕headm)WO,

其中，⊕是按行连接算子，WO为待训练的参数矩阵，U为数据F通过学习信息关联得到的重构编码.利用单层映射层对ui进行编码，形成结合健康上下文后学得的特征表示矩阵：

3.3 特征关联表示学习去相关增强策略

在表示学习模块基础上，本节进一步提出多头去相关自注意力提升策略，在训练过程中控制网络中神经元之间的关联减少冗余表示，即训练自注意头对拥有不同特征记录情况的样本可以有效工作，不能依赖于其他特征的存在，防止对训练数据进行复杂的协同适应，鼓励头之间的多样性，并全面地提取患者健康状况.Dr.Deep抑制多头机制中特别具有判别性特征的注意力，自我注意模块被迫寻找其他的信息特征，每个自注意头的不同神经元被控制于有倾向性的学习不同信息、捕捉不同的特征相关性规律，实现隐层单元级别的表示学习控制.使得不同的头形成不同的隐藏空间，从不同的角度捕捉病人的信息，全面抽取患者健康上下文.

具体来说，在执行多头自我注意机制时，鼓励后一个头去关注与前一个头不同的特征.头i中丢弃第j个特征的概率计算为

pi,j=γ×softmax(xi,j×ξ),

其中,γ是超参，表示特征j在headi的丢弃率.ξ是一个放缩变量，控制了当前头的注意力应该被压制的程度.xi,j为在headi前的所有注意力权重的标准化累积和，对于j，它被计算为

其中:

其中,k代表着第k个注意力头.前面的头对特定的特征给予的注意力权重越多，当前的头对这个特征就会倾向于分配较少的注意力权重.网络被迫寻找病人的其他相关特征.最后生成压制向量压制headi里的特征:

M(i,j)=1-rc,

其中,rc～Bernoulli(pi,j).

压制向量M(i,j)与headi中的注意力权重相乘，来压制先前注意力头中过多关注的具有判别性的特征.在通过以上多头注意力机制得到每一时间步的表示之后，使用全连接网络子层：

FeedForward(rn)=

max(0,un·W1+b1)·W2+b2.

在其中每两个子层之间使用残差连接[25]和层标准化[26],得到的输出被表示为

3.4 特征重要性重标定与患者健康编码整合

融合全部重构后的信息获得患者的健康编码结果.该网络层期望以全局视角分析特征对患者健康状态预测的贡献程度，因此首先对全部特征取池化(pooling)操作，以获得查询向量Query：

患者的最终健康编码结果s由重构后的特征编码加权得到：

将健康状态编码s输入标准的浅层神经网络，获得最终预测结果

衡量结果的预测准确程度即预测输出和真实标签yT两者的交叉熵(cross entropy, CE)：

4 真实世界重症监护数据集实验

本文在美国医疗机构重症监护患者数据集(PhysioNet)、中国同济医院新冠肺炎重症患者数据集(COVID-19)上分别进行了院内死亡预测脓毒症预测、出院时间预测实验，患者信息统计如表1所示.所进行实验的源代码、数据集的统计数据和案例研究均已上传GitHub代码库(1)https://github.com/Accountable-Machine-Intelligence/Dr.Deep.

Table 1 Basic Statistics of Patient Visits in Datasets

表1 数据集的患者就诊次数统计信息

统计量PhysioNetCOVID-19平均记录数38.4816.91最大记录数33659最小记录数81记录数中位数3816患者数40336375

4.1 数据集介绍

4.1.1 重症监护患者-美国PhysioNet ICU

美国PhysioNet ICU预测赛数据集是一个公开的医疗数据集，其患者收集自2家美国的医疗机构：Beth Israel Deaconess Medical Center和Emory University Hospital.数据集中累计40 336名患者，每个患者拥有33个动态医疗特征，总计1 552 210条动态医疗记录.该数据集的预测目标为在一定时间窗口内诊断为脓毒症疾病的概率.在这40 336名患者中，共有2 932名患者最终患上了脓毒症，剩余的37 404名患者则为负样本.详细统计数据见数据集发布方原文[27].在该数据集中预测患者最终是否会被诊断为脓毒症.

4.1.2 新冠肺炎重症患者—中国同济医院

中国同济医院新冠肺炎重症患者数据集[17]为在2020-01-10—2020-02-18期间收集的同济医院新冠肺炎重症患者数据.患者平均年龄58.8岁，其中男性59.7岁.375例患者中，201例从COVID-19中康复出院，174例不幸死亡.相关记录天数分布统计等如图2、表2所示.

Fig.2 Days to outcome of patients’ records in COVID-19 dataset

图2 COVID-19数据集患者每次记录距结局时间统计

Table 2 Statistics of the COVID-19 Dataset

表2 COVID-19数据集统计信息

统计量所有患者康复出院死亡患者数375201174记录数612032152905女性占比∕%40.2751.2427.59平均年龄58.8650.2368.75每位患者平均记录数16.291616.7每位患者平均住院时长10.8513.457.85

在疫情爆发期，大量新冠肺炎患者挤兑医疗资源，尤其是重症监护病房(ICU)不堪重负，医疗资源运转效率降低.而其中部分重症患者亟待抢救，部分轻症患者已好转.如能有效预测不同患者的出院时间，将有助于提高医疗资源利用效率.如图3所示，住院时间相同但结局不同(最终从ICU中康复出院或死亡)的患者在健康状况上存在显著差异.对于几天内出院的患者，他们的健康状况应该比其他患者更为健康，尤其是即将死亡的患者.则以剩余住院天数t作为存活患者记录的出院时间标签，以LIMIT-t作为死亡患者的标签.如根据新冠肺炎重症监护患者数据集统计[17]，COVID-19重症患者大多在35 d内出院.因此将LIMIT的值设置为2×35=70.

Fig.3 ICU Length-of-stay problem definition

图3 ICU患者住院时长风险指数问题定义示意图

高风险评分的患者面临着很高的不良结局风险，需要紧急治疗.相反，低风险分数的人健康状况相对稳定.

4.2 实验设置

4.2.1 数据集划分

本文按照2种方式来划分实验数据集：

1)在数据量较大(约40 000位患者)的PhysioNet ICU数据集上，按照8∶1∶1的比例将数据划分为训练集、验证集和测试集，在验证集上损失函数最小的模型将被保存用于测试.

2)在数据量较小的COVID-19(约300位患者)数据集上，使用十折交叉验证进行实验.

4.2.2 评估指标

本文使用以下分类与回归经典评估指标进行实验结果分析：

对于二分类任务，本文使用受试者工作特征(receiver operation characteristic, ROC)曲线下面积(area under the ROC curve, AUROC)，精确召回曲线(area under the precision-recall curve, AUPRC)下的面积以及精度和灵敏度最小值min(Se，P+)评估对患者健康风险的预测性能.尤其当处理高度不平衡和偏斜的数据集时，AUPRC是提供最多信息和最主要的评估指标[28-29].

对于回归任务，本文使用平均平方误差(mean square error, MSE)、平均绝对值误差(mean absolute error, MAE)作为评估指标.

4.2.3 实施细节

本文在一台配置了CPU：Intel Xeon E5-2630、256 GB RAM和GPU：Nvidia Titan V的计算机上使用Pytorch 1.5.0进行模型的训练.为了防止过拟合，本文在所有RNN层中使用了dropout(dropout率为0.3).对于本文模型中的特征维度的注意力机制和SEBlock模块，局部和历史特征的压缩比r=4.本文对模型中所有权重使用了l1和l2正则化，正则化系数为0.001.本文使用了Adam优化方法[30]以及256名患者的批量，并将学习率设置为1E-3.本文使用网格搜索(grid search)对本文模型和所有基线模型进行超参选择.我们将Dr.Deep与以下6种基线方法进行了对比评估，这些先进的基线方法均解决同本文相似的医疗预测问题或使用了相似的机制：

1)GRUα是具有注意力机制的GRU.

2)RETAIN(NeurIPS)[18]利用两级注意机制来检测有影响的就诊和重要变量.

3)T-LSTM(SIGKDD)[9]通过启用时间衰减来处理不规则的时间间隔.本文将其修改为监督学习模型.

4)MCA-RNN(ICDM)[11]利用从条件变量自编码器生成的个体患者信息来构建基于医学上下文关注的RNN.

5)Transformere(NeurIPS)[21]使用了Trans-former的编码器，在最后一步中，本文将高阶特征扁平化并使用前馈神经网络进行预测.

6)Dr.Deepbasic(AAAI)为拓展前会议版本ConCare模型[6]，其使用时间感知机制与注意力机制学习患者时序编码.

4.3 量化结果

4.3.1 真实世界数据集预测实验结果

表3与表4分别为同济医院新冠肺炎重症患者出院时间预测实验结果和PhysioNet重症监护数据集脓毒症预测实验结果,其中括号()内的数字表示Physionet脓毒症预测数据集上进行自助法(bootstrap)测试100次的标准差，以及COVID-19数据集上十折交叉验证的标准差.

Table 3 Results of the Length-of-Stay Prediction on COVID-19 Dataset

表3 COVID-19数据集患者出院时间预测实验结果

模型COVID-19数据集(十折交叉验证)MSEMAEGRUα244.1064(84.019)10.7240(1.884)RETAIN365.9940(107.213)13.3698(2.341)T-LSTM278.1709(49.800)11.6261(1.160)MCA-RNN273.9681(67.022)11.3544(1.548)Transformere306.6993(78.679)13.6324(2.076)Dr.Deepbasic211.1527(59.463)10.2738(1.491)Dr.Deep199.6033(52.580)10.1423(1.292)

注：括号内数字代表十折交叉验证标准差，黑体数字代表最优结果.

如表3所示，与最佳基准模型相比，Dr.Deep在MSE和MAE方面分别实现了18.2%和5.4%的性能相对提升.COVID-19数据集仅包含400位患者的时间序列数据，表明Dr.Deep在较小的数据集上表现依然良好.本文所提出的模型可以有效地预测住院时间，这将有助于医生合理分配医疗资源，并在许多不堪重负的医疗机构中提高临床效率.

如表4所示，与医疗时序分析领域经典最佳基准模型T-LSTM(SIGKDD)[9]相比，Dr.Deep在AUPRC中指标实现了10.7%的相对性能提升，min(Se，P+)指标实现了6.4% 的相对提升.特征关联表示学习去相关增强策略可以使得AUPRC，AUROC同时进一步提升.

Dr.Deep优于顺序表示学习方法(即GRU,T-LSTM等方法)，表明在全局视图中分别学习每个特征编码优于直接顺序学习整个就诊序列的信息.Dr.Deep的性能优于Dr.Deepbasic(本文模型在会议上的ConCare模型)，从而验证了特征关联表示学习去相关压制策略的功效，其鼓励多头注意力机制的多样性并提高性能.

Table 4 Results of the Sepsis Prediction on PhysioNet Dataset

表4 PhysioNet 重症监护数据集脓毒症预测实验结果

模型PhysioNet数据集(自助法)AUPRCAUROCmin(Se,P+)GRUα0.6771(0.026)0.9306(0.007)0.6117(0.024)RETAIN0.6680(0.028)0.9262(0.012)0.6293(0.022)T-LSTM0.7138(0.027)0.9368(0.011)0.6553(0.023)MCA-RNN0.6788(0.030)0.9265(0.009)0.6466(0.024)Transformere0.6072(0.031)0.9032(0.012)0.6292(0.026)Dr.Deepbasic0.7770(0.020)0.9505(0.009)0.7010(0.021)Dr.Deep0.7905(0.021)0.9559(0.006)0.6976(0.024)

注：括号内数字代表自助法100次测试的标准差，黑体数字代表最优结果.

尽管RETAIN可以提供可解释性，但在这4个数据集上，其性能都比GRU模型差，与[31]中报告的结果一致.

4.4 重症监护患者健康评估可解释性主观分析

为了确定Dr.Deep的合理性并提取有用的医学知识，本文对PhysioNet数据集上不同患者群组(即有/无败血症)的模型行为进行了实验观察，并计算具有不同结局的患者对每个生物标记物的平均注意权重，在图4中生成特征重要性热力图.

如图4所示，红细胞压积(Hct)和肌酐(Creatinine)等特征在败血症和非败血症队列中均具有很高的关注权重，与患者败血症的发展密切相关.有一些医学文献支持本文的发现.严重败血症和败血性休克处理的国际准则[32]在2012年提到了Hct的重要性.他们建议在出现血流灌注不足的前6 h内保持血细胞比容超过30%[32-33].提示血压可以反映疾病状态，因为败血症发生时患者经常会出现血管舒张和血容量不足，从而导致血压降低.

Fig.4 Importance of biomarkers differentiated by Dr.Deep for sepsis prediction on the PhysioNet dataset

图4 PhysioNet ICU数据集特征重要性.(标签0为未患脓毒症患者，标签1为脓毒症患者)

4.5 人工智能医生在线可解释交互系统

本文设计并实现临床辅助系统：小雅医生系统(2)随系统更新迭代，特征重要性分布与案例可视化结果可能会有变动..如图5所示，其输入数据为住院患者或门诊随访患者随时间多次记录的多变量时序数据，以及初次就诊时记录的静态基线数据.该系统综合利用前文表示学习模型，评估患者健康状况，提示不同患者应当重点关注的高危生理指标，对健康状况不佳患者的疾病发展状况进行时刻监视.

以PhysioNet重症监护数据集脓毒症预测任务中11 498患者为例(3)http://47.93.42.104/challenge/11498，本文模型Dr.Deep判断该患者经历了3个不同的脓毒症高风险阶段.针对该患者，模型重点关注体温的变化.尤其是在患者被诊断脓毒症前的最后3次检验检查中，患者的体温从37.33℃升至39.67℃，模型预估的脓毒症风险从12.52%升至67.66%.该案例过程表明Dr.Deep捕捉到了患者体温的上升过程，并将其作为一种预示着脓毒症的不良状态予以高度关注，并建议医生对重症监护患者、潜在脓毒症高危人群进行及时、密集的体温监测管理.研究[34-35]表明体温是严重发炎或感染的标准，并且严重脓毒症患者经常出现体温异常.

Fig.5 Sepsis case study

图5 败血症案例研究

5 结论

针对结构化多变量时序电子病历数据分析工作当中个性化表示学习不足、可解释性缺乏的问题，本文提出了基于特征上下文表示学习的患者健康状态可解释评估方法Dr.Deep.该方法针对不同患者情况自适应捕捉患者医疗特征上下文并利用去相关策略增强表示学习效果，同时基于压缩激励机制进行特征重要性重标定以输出可解释性因素.在公开数据集PhysioNet重症监护患者脓毒症预测与同济医院COVID-19重症患者出院时间预测任务中，Dr.Deep性能均显著超越最佳基准方法.本文最终设计并实现了人工智能医生在线交互系统，可视化患者的疾病发展路径及模型所动态分析的特征重要性供医学专家参考.

作者贡献声明：马连韬提出算法、撰写文章、设计可视化系统；张超贺进行算法设计实现和实验验证；焦贤锋对数据预处理、实现部署可视化系统、进行实验验证；王亚沙修改了深度学习模型；唐雯负责医学知识引入模型设计、医学知识挖掘、案例分析；赵俊峰对文章进行修改、提供了实验室计算资源.其中，马连韬和张超贺为共同第一作者，王亚沙和唐雯为共同通信作者.

参考文献

[1]Lee C, Luo Zhaojing, Ngiam KY, et al.Big healthcare data analytics: Challenges and applications[G]//Handbook of Large-Scale Distributed Computing in Smart Healthcare.New York: Springer, 2017: 11-41

[2]Wu Yue, Hernández-Lobato J M, Zoubin G.Dynamic covariance models for multivariate financial time series[C]//Proc of Int Conf on Machine Learning.Cambridge, MA: PMLR, 2013: 558-566

[3]Chang Yenyu, Sun Fanyun, Wu Yuehua, et al.A memory-network based solution for multivariate time-series forecasting[J].arXiv preprint, arXiv:1809.02105, 2018

[4]Weston J, Chopra S, Bordes A.Memory networks[J].arXiv preprint, arXiv:14103916, 2014

[5]Sukhbaatar S, Szlam A, Weston J, et al.End-to-end memory networks[J].arXiv preprint, arXiv:150308895, 2015

[6]Ma Liantao, Zhang Chaohe, Wang Yasha, et al.Concare: Personalized clinical feature embedding via capturing the healthcare context[C]//Proc of the AAAI Conf on Artificial Intelligence.Palo Alto,CA: AAAI, 2020, 34(1): 833-840

[7]Ma Liantao, Gao Junyi, Wang Yasha.Adacare: Explainable clinical health status representation learning via scale-adaptive feature extraction and recalibration[C]//Proc of the AAAI Conf on Artificial Intelligence.Palo Alto, CA: AAAI, 2020, 34(1): 825-832

[8]Yang Kai, Luo Zhaojing, Gao Jinyang, et al.LDA-Reg: Knowledge driven regularization using external corpora[J].IEEE Transactions on Knowledge and Data Engineering, Los Alamitos, CA: IEEE Computer Society, 2021, 3: 1-1

[9]Baytas I M, Xiao Cao, Zhang Xi, et al.Patient subtyping via time-aware LSTM networks[C]//Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York: ACM, 2017: 65-74

[10]Zhang Yutao, Chen R, Tang Jie, et al.LEAP: Learning to prescribe effective and safe treatment combinations for multimorbidity[C]//Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York: ACM, 2017: 1315-1324

[11]Lee W, Park S, Joo W, et al.Diagnosis prediction via medical context attention networks using deep generative modeling[C]//Proc of the 20th IEEE Int Conf on Data Mining.Piscataway, NJ: IEEE, 2018: 1104-1109

[12]Harutyunyan H, Khachatrian H, Kale D C, et al.Multitask learning and benchmarking with clinical time series data[J].Scientific Data, 2019, 6(1): 1-18

[13]Khairat S, Marc D, Crosby W, et al.Reasons for physicians not adopting clinical decision support systems: Critical analysis[J].Jmir Medical Informatics, 2018, 6(2): e24

[14]Ma Fenglong, Chitta R, Zhou Jing, et al.Dipole: Diagnosis prediction in healthcare via attention-based bidirectional recurrent neural networks[C]//Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining.New York: ACM, 2017: 1903-1911

[15]Song Huan, Rajan D, Thiagarajan J J, et al.Attend and diagnose: Clinical time series analysis using attention models[C]//Proc of the 32nd AAAI Conf on Artificial Intelligence.Palo Alto, CA: AAAI Press, 2018: 4091-4098

[16]Bai Tian, Zhang Shanshan, Egleston B L, et al.Interpretable representation learning for healthcare via capturing disease progression through time[C]//Proc of the 24th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining.New York: ACM, 2018: 43-51

[17]Yan Li, Zhang Haitao, Goncalves J, et al.An interpretable mortality prediction model for COVID-19 patients[J].Nature Machine Intelligence, 2020, 2(5): 283-288

[18]Choi E, Bahadori M T, Sun Jimeng, et al.RETAIN: An interpretable predictive model for healthcare using reverse time attention mechanism[C]//Proc of the 30th Int Conf on Neural Information Processing Systems.Cambridge, MA: PMLR, 2016: 3512-3520

[19]Ma Tengfei, Xiao Cao, Wang Fei.Health-atm: A deep architecture for multifaceted patient health record representation and risk prediction[C]//Proc of the 2018 SIAM Int Conf on Data Mining.Philadelphia, PA: Society for Industrial and Applied Mathematics, 2018: 261-269

[20]Cheng Keyang, Wang Ning, Shi Wenxi, et al.Research advances in the interpretability of deep learning[J].Journal of Computer Research and Development, 2020, 57(6): 1208-1217(in Chinese)(成科扬, 王宁, 师文喜, 等.深度学习可解释性研究进展[J].计算机研究与发展, 2020, 57(6): 1208-1217)

[21]Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need[C]//Proc of Advances in Neural Information Processing Systems.Cambridge, MA: MIT Press, 2017: 5998-6008

[22]Andrew G, Arora R, Bilmes J, et al.Deep canonical correlation analysis[C]//Proc of Int Conf on Machine Learning.Cambridge, MA: PMLR, 2013: 1247-1255

[23]Chandar S, Khapra M M, Larochelle H, et al.Correlational neural networks[J].Neural Computation, 2016, 28(2): 257-285

[24]Cheung B, Livezey J A, Bansal A K, et al.Discovering hidden factors of variation in deep networks[J].arXiv preprint, arXiv:14126583, 2014

[25]He K, Zhang Xiangyu, Ren Shaoqing, et al.Deep residual learning for image recognition[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2016: 770-778

[26]Ba J L, Kiros J R, Hinton G E.Layer normalization[J].arXiv preprint, arXiv:160706450, 2016

[27]Reyna M A, Josef C, Seyedi S, et al.Early prediction of sepsis from clinical data: The PhysioNet/Computing in cardiology challenge 2019[C]//Proc of Conf on Computing in Cardiology(CinC).Piscataway, NJ: IEEE, 2019: 1-4

[28]Davis J, Goadrich M.The relationship between Precision-Recall and ROC curves[C]//Proc of the 23rd Int Conf on Machine Learning.New York: ACM, 2006: 233-240

[29]Choi E, Xiao Cao, Stewart W, et al.MiME: Multilevel medical embedding of electronic health records for predictive healthcare[C]//Proc of the 32nd Int Conf on Neural Information Processing Systems.Cambridge, MA: PMLR, 2018: 4552-4562

[30]Kingma D P, Ba J.Adam: A method for stochastic optimization[J].arXiv preprint, arXiv:14126980, 2014

[31]Ma Fenglong, Gao Jing, Suo Qiuling, et al.Risk prediction on electronic health records with prior medical knowledge[C]//Proc of the 24th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining.New York: ACM, 2018: 1910-1919

[32]Dellinger R P, Levy M M, Rhodes A, et al.Surviving sepsis campaign: International guidelines for management of severe sepsis and septic shock, 2012[J].Intensive Care Medicine, 2013, 39(2): 165-228

[33]Bourgoin A, Leone M, Delmas A, et al.Increasing mean arterial pressure in patients with septic shock: Effects on oxygen variables and renal function[J].Critical Care Medicine, 2005, 33(4): 780-786

[34]Kushimoto S, Gando S, Saitoh D, et al.The impact of body temperature abnormalities on the disease severity and outcome in patients with severe sepsis: An analysis from a multicenter, prospective survey of severe sepsis[J].Critical Care, 2013, 17(6): 1-9

[35]Oberhoffer M, Vogelsang H, Ruwurm S, et al.Outcome prediction by traditional and new markers of inflammation in patients with sepsis[J].Clinical Chemistry and Laboratory Medicine, 1999, 37(3): 363-368

[36]Tang Wen, Gao Junyi, Ma Xinyu, et al.Appication of recurrent neural network in prognosis of peritoneal dialysis[J].Journal of Peking University(Health Sciences), 2019, 51(3): 602-608(in Chinese)(唐雯, 高峻逸, 马辛宇, 等.循环神经网络模型在腹膜透析临床预后预测中的初步应用[J].北京大学学报(医学版), 2019, 51(3): 602-608)

Table A1 Results of the Mortality Prediction on MIMIC-Ⅲ Dataset

表A1 MIMIC-Ⅲ重症监护数据集院内死亡预测实验结果

模型MIMIC-Ⅲ数据集(自助法)AUPRCAUROCmin(Se,P+)GRUα0.8628(0.011)0.4989(0.022)0.5026(0.028)RETAIN0.8313(0.014)0.4790(0.020)0.4721(0.022)T-LSTM0.8617(0.014)0.4964(0.022)0.4977(0.029)MCA-RNN0.8587(0.013)0.5003(0.028)0.4932(0.024)Transformere0.8535(0.014)0.4917(0.022)0.5000(0.019)Dr.Deepbasic0.8702(0.008)0.5317(0.027)0.5082(0.021)Dr.Deep0.8690(0.009)0.5342(0.026)0.5177(0.022)

注：括号内数字代表自助法100次测试的标准差，黑体数字代表最优结果.

Table A2 Results of the Mortality Prediction on ESRD Dataset

表A2 终末期慢性肾病(ESRD)一年内全因死亡预测实验结果

模型终末期慢性肾病数据集(十折交叉验证)AUPRCAUROCmin(Se,P+)GRUα0.8066(0.004)0.3502(0.009)0.3770(0.006)RETAIN0.7986(0.005)0.3386(0.009)0.3699(0.011)T-LSTM0.8101(0.015)0.3508(0.052)0.3721(0.045)MCA-RNN0.8021(0.015)0.3451(0.041)0.3731(0.025)Transformere0.8082(0.027)0.3502(0.062)0.3719(0.037)Dr.Deepbasic0.8209(0.036)3606(0.084)0.3853(0.071)Dr.Deep0.8042(0.033)0.3609(0.070)0.3866(0.069)

注：括号内数字代表十折交叉验证标准差，黑体数字代表最优结果.

Dr.Deep: Interpretable Evaluation of Patient Health Status via Clinical Feature’s Context Learning

Ma Liantao1,2,3, Zhang Chaohe1,2, Jiao Xianfeng1,2, Wang Yasha1,3, Tang Wen4, and Zhao Junfeng1,2

1(Key Laboratory of High Confidence Software Technologies(Peking University), Ministry of Education, Beijing 100871) 2(School of Electronics Engineering and Computer Science, Peking University, Beijing 100871) 3(National Research Center of Software Engineering, Peking University, Beijing 100871) 4(Division of Nephrology, Peking University Third Hospital, Beijing 100191)

Abstract Deep-learning-based health status representation learning is a fundamental research problem in clinical prediction and has raised much research interest.Existing models have shown superior performance, but they fail to explore personal characteristics and provide fine-grained interpretability thoroughly.In this work, we develop a general health status evaluation approach based on clinical feature’s context learning, named Dr.Deep.It embeds the feature sequences separately based on a multi-channel structure.The inter-dependencies among dynamic features and static baseline information are captured by self-attention to form the personal health context and adaptively make use of the features for patients in diverse conditions.Dr.Deep further improves the multi-head mechanism to comprehensively encourage the diversity of the model and depict the health status.The model abstracts the clinical features to enhance the ones which strongly indicate the health status.It thus can maintain a state-of-the-art performance in terms of prediction accuracy while providing qualitative interpretability.Experimental results on two publicly available real-world EMR datasets demonstrate the effectiveness of Dr.Deep.To facilitate the personalized clinical service and verify the reasonability of the model, we also develop an AI-Doctor interaction system to show the patient's health trajectory and the corresponding vital biomarkers when performing prognosis.The medical findings extracted by Dr.Deep are also empirically confirmed by human experts and medical literature.We release our code and the AI-Doctor interaction system at GitHub https://github.com/Accountable-Machine-Intelligence/Dr.Deep and http://47.93.42.104/challenge/100049.

Key words electronic medical record; clinical prognosis; healthcare analysis; deep learning; interpretability

(malt@pku.edu.cn)

中图法分类号 TP183

DOI:10.7544/issn1000-1239.2021.20211022

收稿日期：2021-10-10；

修回日期：2021-11-17

基金项目：国家自然科学基金项目(62172011)；北大百度基金资助项目(2020BD030)；中华国际医学交流基金会项目(Z-2017-24-2037)；中国博士后科学基金项目(2021TQ0011)

This work was supported by the National Natural Science Foundation of China(62172011), PKU-Baidu Fund(2020BD030), China International Medical Foundation(Z-2017-24-2037), and China Postdoctoral Science Foundation(2021TQ0011).

Ma Liantao, born in 1994.PhD, assistant researcher in Peking University.His main research interest is deep-learning-based inter-pretable electronic medical records analysis.

马连韬，1994年生.博士，北京大学博士后助理研究员.主要研究方向为基于深度学习的电子病历数据可解释分析.

Zhang Chaohe, born in 1997.PhD candidate.His main research interest is deep-learning-based interpretable electronic medical records analysis.(choc@pku.edu.cn)

张超贺，1997年生.博士研究生.主要研究方向为基于深度学习的电子病历数据可解释分析.

Jiao Xianfeng, born in 1998.Master candidate.His main research interest is deep-learning-based interpretable electronic medical records analysis.(jiaoxianfeng@stu.pku.edu.cn)

焦贤锋，1998年生.硕士研究生.主要研究方向为基于深度学习的电子病历数据可解释分析.

Wang Yasha, born in 1975, PhD, professor in Peking University.Senior member of CCF.His main research interests include data analysis, pervasive computing, etc.

王亚沙，1975年生.博士，教授，CCF高级会员.主要研究方向为数据分析、普适计算等.

Tang Wen, born in 1976.Doctor of medicine, chief physician, associated professor.Her main research interests include chronic kidney disease and peritoneal dialysis.(tanggwen@126.com)

唐雯，1976年生.医学博士，主任医师，副教授.主要研究方向为慢性肾脏病和腹膜透析.

Zhao Junfeng, born in 1974.PhD, professor of Peking University.Her main research interest includes big data analysis, urban computing, knowledge graph etc.

赵俊峰，1974年生.博士，研究员.主要研究方向为大数据分析、城市计算、知识图谱等.

附录A.MIMIC-Ⅲ与ESRD数据集实验.

本文在MIMIC-Ⅲ数据集上进行了患者院内死亡健康风险预测，辅助召集医护人员对患者进行抢救.MIMIC-Ⅲ是一个大型的重症监护数据集.其集中存储了近5万例ICU患者的临床信息，3亿多条结构化数据，包括了每例患者人口学特征、疾病诊断记录、化验数据、医疗干预记录、出院记录等.在该数据集中预测每位患者是否会在院内失代偿、死亡.本文采用了Harutyunyan等研究者设计的的MIMIC-Ⅲ数据集多任务评测标准[12]，使用了MIMIC数据集中的子集，其中有超过3 100万次临床事件、42 276条ICU记录、33 798名患者.实验结果如表A1所示:

本文还使用了真实就诊ESRD数据集验证和评估模型效果.该数据集纳入了2006-01—2018-01在北京大学第三医院肾内科腹膜透析门诊长期随访的慢性肾病腹膜透析患者共计1 118人(数据处理筛选后656人)，所有患者随访截止至2018年10月31日.在数据的收集和处理过程中，患者的数据均经过了脱敏处理，患者的个人信息均使用患者ID进行标识.数据集含有患者的静态基线数据、随访数据和预后数据[36].实验结果如表A2所示，值得注意的是，ESRD数据集只含有患者的17个特征，其较少的特征数使得特征关联表示学习去相关增强策略的效果欠佳.

附录B.自注意头对不同特征的响应程度观察.

如图B1、图B2所示，本文在Physionet脓毒症预测数据集中，将Dr.Deep(增设了特征关联表示学习去相关策略)与Dr.Deepbasic(对比版)各个自注意力头对不同特征所输出的响应程度以热力图的形式进行可视化，颜色越深代表注意头(0～3)分配了越多权重于该特征.此外，如图B3、图B4所示，计算Dr.Deepbasic与Dr.Deep不同自注意头所响应特征的差异(以欧氏距离判定)，同时以热力图的形式可视化.

Fig.B1 Response levels determined by Dr.Deepbasic’s self-attention heads

图B1 Dr.Deepbasic各个自注意力头对不同特征所输出的响应程度

Fig.B2 Response levels determined by Dr.Deep self-attention heads

图B2 Dr.Deep各个自注意力头对不同特征所输出的响应程度

Fig.B3 Difference in Dr.Deep’s self-attention heads

图B3 Dr.Deep不同自注意头所响应特征的差异(以欧氏距离判定)

Fig.B4 Difference in Dr.Deepbasic’s self-attention heads

图B4 Dr.Deepbasic不同自注意头所响应特征的差异

结果可见，Dr.Deepbasic各个注意头对不同特征的响应程度较为相似，Dr.Deep则通过显式压制被频繁高权重响应特征，使得后续自注意头有机会广泛关注患者的不同特征，进一步学习患者健康状态隐层表示.

附录C.COVID-19 LOS预测任务特征重要性观察.

除了在脓毒症预测实验中的可解释性观察，本文同样分析了新冠肺炎重症患者在进行出院时间预测时的可解释性.但受限于小样本量，本文暂仅将可解释性讨论与案例详细分析聚焦于拥有更大样本量的PhysioNet重症患者脓毒症预测数据集.新冠肺炎患者特征解释仅做展示并给出案例可视化链接(http://47.93.42.104/covid/64)，供读者参考.