-
摘要:
交通数据缺失是智能交通系统无法避免的问题之一,对缺失值进行补全和不确定性量化能提高智能交通系统中交通数据挖掘相关任务的精度和可靠性. 然而,目前大多数交通数据插补模型都只能针对缺失值给出点估计,无法量化不确定性,难以满足交通领域对数据可靠性的要求. 而且,现有方法将重点放在了建模交通数据的时空相关性上,却未能在捕获时空相关性的过程中考虑缺失值的影响. 此外,交通数据的不确定性同时受到时间、空间位置以及数据自身状态的影响,但是现有方法无法全面考虑这些因素的影响. 为了解决这些问题,提出了一种时空不确定性指导的交通数据插补模型(spatial-temporal uncertainty guided traffic data imputation network,STUIN),以自监督训练的方式实现了时空交通数据的插补和对插补结果的不确定性量化. 具体来说,创新地将神经网络的隐状态建模成服从高斯分布的随机变量,借助方差建模隐状态的不确定性,利用基于方差的注意力机制描述不确定性对时空相关性建模的影响;此外,设计了一个新颖的时空不确定性初始化模块,在初始化均值和方差时同时考虑了时间、空间和数据缺失状况多种因素的影响. 在2个交通流量数据集上的实验结果表明STUIN在数据插补和不确定性量化上都达到了最先进的性能.
-
关键词:
- 交通数据插补 /
- 不确定性量化 /
- 基于方差的注意力机制 /
- 时空数据挖掘 /
- 时空图数据
Abstract:Traffic data missing is one of the unavoidable problems in intelligent transportation systems. Completing and quantifying the uncertainty of missing values can improve the performance and reliability of traffic data mining tasks in intelligent transportation systems. However, most existing traffic data imputation models mainly focus on point estimation without quantifying the uncertainty, so they cannot meet the need for traffic data reliability in the transportation field. Besides, these methods only focus on modeling spatial-temporal correlation of traffic data, failing to consider the impact of missing values on spatial-temporal correlation. In addition, the uncertainty of traffic data is affected by time, spatial location, and the state of the data, but existing methods cannot comprehensively consider these factors. To address these challenges, we propose a spatial-temporal uncertainty guided traffic data imputation network (STUIN), which simultaneously realizes the imputation of spatial-temporal traffic data and the uncertainty quantification of the imputation results by self-supervised training. Specifically, we innovatively model the hidden states of the neural network as random variables subject to Gaussian distributions, use the variances of Gaussian distributions to model the uncertainty of the hidden states, and introduce a variance-based attention mechanism to characterize the effect of uncertainty on modeling spatio-temporal correlations. In addition, we design a novel spatial-temporal uncertainty initialization module, which incorporates the influence of time, space and missing values when initializing the means and variances of the Gaussian distributions. Experiments on two traffic flow datasets show that STUIN achieves state-of-the-art performance on both the data imputation and uncertainty quantification tasks.
-
随着信息技术的发展,人们可以收集大量的交通数据,并将这些数据应用于车流量预测、出行需求预测等重要任务. 这些任务是智能交通系统的核心组件,极大地便利了人们的生活. 但是由于设备故障、通信不稳定等原因,实际收集到的交通数据通常是不完整的. 例如,据统计北京每日交通量的平均数据缺失率约为10%[1]. 在实际应用场景中,数据的准确性和完整性对交通服务的质量有极大影响. 因此在将交通数据应用于各种下游智能化应用任务之前,必须先对其中的缺失值进行补全.
尽管已经有一些学者对交通数据插补进行了深入的研究,但这些方法通常都只能针对缺失值给出点估计,无法量化插补结果的不确定性[2],即只给出了插补值的期望,而没有量化插补值的波动区间. 插补值的不确定性一定程度上体现了插补结果的可信赖程度. 若插补值的不确定性过大,插补结果则具有较低的可信度,此时若直接将其应用于下游任务,不但不能有效提升输入到下游任务中的数据质量,甚至可能会导致下游任务给出偏差较大的输出,进而导致严重的后果. 因此,在对交通数据进行插补的同时量化插补结果的不确定性,为插补结果给出置信区间,是一个重要且具有实际意义的研究问题. 准确的交通数据插补和不确定性量化,可以提高插补结果的可靠性,更好地支撑下游基于完整交通数据的服务应用. 但是,实现该任务具有3点挑战:
1)在交通数据中,不确定性会同时受到时间、空间和数据本身这3个因素的影响. 具体来说,不同时间段、不同空间位置的交通数据具有固有的模式特点,即交通数据具有时空异质性[3]. 例如本文在PEMS04[4]数据集上分别计算了时间维度和空间维度的方差,将计算结果绘制在了图1中. 在时间维度上,本文将1天平均划分为288个时间片,计算每个时间片内所有数据的方差,从图1可以看出,通勤高峰期的方差显著大于其他时间段的方差,因为此时更易发生交通拥堵和事故. 在空间维度上,本文计算每个传感器记录的所有数据的方差,任意挑选20个绘制在图1中,可以看出不同位置的方差具有显著的差异,因此交通数据在空间维度上具有显著的异质性. 此外,数据本身的状态,即是否缺失,也会影响该处值的不确定性,若某处发生了缺失,它的不确定性必然会更加明显. 因此,在交通数据插补任务中量化不确定性需要考虑时间、空间、数据本身状态等多种因素的影响,如何将这些因素综合起来是一个具有挑战性的问题.
2)对交通数据进行补全的核心在于挖掘和利用带缺失的交通数据中蕴含的时空相关性,对于这一点,目前尚没有完善的解决方案. 单纯地捕获时空相关性是时空预测[5]任务的研究重点,并且该任务已经有了很多成熟的解决方案[3-4,6]. 尽管如此,时空预测模型并不能直接用于捕获带缺失数据的时空相关性. 因为时空预测任务假定所有的数据都是有效的、可信的,因此所有的数据点都可以在时间维度和空间维度进行信息的有效传播. 但时空交通数据插补任务中的输入数据中存在大量缺失值,这些缺失值不是有效数据,因此在建模时空相关性和进行时间和空间维度的消息传播时,需要特殊处理缺失位置的数据. 例如若某个节点在某时刻发生了缺失,那么与之相邻的节点就不应该直接从该节点聚合信息,如何解决该问题值得进一步思考.
3)现实情况中缺失值是不存在真实标签的,因此依赖缺失数据真实标签的有监督训练方式在实际中是无法落地应用的. 目前很多插补模型的解决方案是以自编码器的模式训练,即仅让模型重构非缺失值,但这种方式很难保证模型在缺失值上具有良好的泛化能力. 因此,需要寻找一种新的模型训练范式,在不依赖缺失值真实标签的前提下,获得泛化能力强的插补模型.
针对以上问题,本文提出了一种时空不确定性指导的交通数据插补模型(spatial-temporal uncertainty guided traffic data imputation network,STUIN),该模型采用自监督的训练方式,通过Mask非缺失值生成训练标签;并将神经网络的隐状态建模成服从高斯分布的随机变量来量化不确定性,削弱无效信息传播,准确建模时空相关性,并且在建模不确定性时同时考虑了时间、空间和数据缺失多种因素的影响. 本文的主要贡献有3点:
1)设计了一个新颖的时空不确定性初始化模块,用于初始化被建模为高斯分布的隐状态的均值和方差,该模块同时考虑了时间异质性、空间异质性和数据缺失状况.
2)为了准确建模带缺失的交通数据的时空相关性,本文在时间和空间维度上设计了一种新颖的基于方差的注意力机制,显式利用隐状态的不确定性指导消息在时间和空间维度的传播.
3)在2个交通流量数据集上构造了随机缺失、非随机缺失和全盲缺失3种缺失模式,并设置了4个缺失率进行实验,实验结果表明STUIN在数据插补和不确定性量化上都达到了最优的性能.
1. 相关工作
1.1 插 补
缺失值插补是一个被广泛研究的问题,可以将现有方法分为3种:传统方法、机器学习方法和深度学习方法. 传统方法一般使用零值或其他统计特征值来替代缺失值,效果往往不佳.
在统计机器学习领域,Lebel等人[7]将自回归移动平均模型(autoregressive integrated moving average model,ARIMA)拓展到插补领域. Hudak 等人[8]使用K近邻(K-nearest neighbors,KNN)方法进行缺失值插补. Chen等人[9]提出了一种低秩自回归张量补全(low-rank autoregressive tensor completion,LATC)框架,将时间变化作为正则化项引入到3维张量的补全中,并设计了一种交替优化方案解决优化问题.
在深度学习领域,Mattei等人[10]将重要性加权自编码器拓展到了带缺失的数据集上,实现缺失数据补全. Che等人[11]提出GRU-D模型处理带缺失值的时间序列,利用缺失模式对门控循环单元(gated recurrent unit,GRU)的隐状态进行衰减,削弱缺失值的影响,但这种机制很难拓展到时空数据. Cao等人[12]提出了BRITS模型,BRITS改进了GRU-D的衰减机制,使用双向循环神经网络对GRU-D进行增强. Shukla等人[13]提出了一种处理不规则采样时间序列的方法,采用了编码器-解码器结构,编码器通过一组参考时间片来表示整个时间序列,解码器从参考时间片中恢复时间序列. 文献[10-13]方法针对的都是时间序列,在时空数据领域,Wu等人[14]通过采样获得子图和相应的邻接矩阵,然后使用扩散图卷积[15]重构缺失数据. Xu等人[16]通过相关系数重构邻接矩阵,使用GraphSAGE[17]模型学习空间相关性,并使用生成对抗网络(generative adversarial network,GAN)来插补数据. Ye等人[18]提出了一种图注意力卷积网络(graph attention convolutional network,GACN),GACN采用了编码器-解码器结构,使用图注意力网络(graph attention network,GAT)学习空间相关性和使用时间卷积学习时间相关性. 但这些时空数据插补方法都主要关注捕获时空相关性,忽略了缺失值的影响.
1.2 不确定性量化
现有的不确定性量化方法可以分为2类:基于贝叶斯的和基于非贝叶斯的. 基于贝叶斯的方法为模型参数指定先验分布,然后推断网络参数的后验分布来量化认知不确定性,其实现难点在于后验分布难以直接计算,只能使用近似方法. 如变分推断[19-21]和马尔可夫链蒙特卡罗方法[22-23],但它们通常都比较耗时. Gal等人[24-25]提出了蒙特卡洛丢弃法(Monte Carlo dropout,MC Dropout),将变分分布指定为伯努利分布,MC Dropout不需要改变现有的模型结构,只需在每个隐藏层之后应用随机Dropout,模型输出可以近似地视为后验分布生成的随机样本.
相比于基于贝叶斯的方法,基于非贝叶斯的方法更加灵活. 如平均间隔分数(mean interval score,MIS)回归[26]和分位数回归[27]在损失函数中融入了不确定性度量. 样条分位数(spline quantile,SQ)回归[28]对每个点估计使用若干参数来构造分位数函数,通过最小化连续概率排位分数(continuous ranked probability score,CRPS)使分位数函数拟合训练集,使用分位数函数量化不确定性. Salinas等人[29]提出了DeepAR模型对时间序列的概率分布进行估计. Zhou等人[30]提出了时空不确定性感知预测网络(spatio temporal uncertainty-aware prediction network,STUaNet),设计了一种不确定性学习机制,可以同时估计内部数据质量和量化外部不确定性.
虽然不确定性量化早已被广泛研究,但现有方法大多只适用于完整数据集,在缺失数据集中量化不确定性必须考虑缺失值的影响,对时空数据来说,时空相关性的存在则使该问题变得更加复杂.
2. 相关概念和问题定义
本节将对本文涉及的概念和要解决的问题进行形式化定义.
2.1 基本定义
定义1. 交通路网. 交通路网为一个有向或无向图G=(V,E). 其中V为|V|=N个节点的集合,每个节点代表交通路网中的一个观测点;E为节点间边的集合; {\boldsymbol{A}} \in {\mathbb{R}^{N \times N}} 为G的邻接矩阵,若{e_{ij}} \in E则{A_{ij}} = 1.
定义2. 交通观测向量. 交通路网在第t个时间片的观测向量为{{\boldsymbol{x}}_{:,t}} = {({x_{1,t}},…,{x_{N,t}})^{\text{T}}} \in {\mathbb{R}^N},其中{x_{v,t}}表示节点v在第t个时间片的观测值,交通观测向量带有缺失值.
定义3. 掩码向量. 掩码向量{{\boldsymbol{m}}} \in {\{ 0,1\} ^N}用于指示第t个时间片的交通观测向量的缺失情况,若{x_{v,t}}缺失则{m_{v,t}} = 0,反之{m_{v,t}} = 1.
2.2 问题定义
交通数据插补和不确定性量化. 给定连续T个时间片的交通观测矩阵{\boldsymbol{X}} = ({{\boldsymbol{x}}_{:,1}},…,{{\boldsymbol{x}}_{:,T}}) \in {\mathbb{R}^{N \times T}},用掩码矩阵{\boldsymbol{M}} = ({{\boldsymbol{m}}_{:,1}},…,{{\boldsymbol{m}}_{:,T}}) \in {\{ 0,1\} ^{N \times T}}指示其缺失情况,本文的目标是对{\boldsymbol{X}}中的缺失值进行补全,同时输出补全结果的不确定性:{\boldsymbol{Y}},{\boldsymbol{\varSigma }} = f({\boldsymbol{X}},{\boldsymbol{M}}),其中{\boldsymbol{Y}}表示插补结果,{\boldsymbol{\varSigma }}为不确定性度量.
3. 时空不确定性指导的交通数据插补模型
3.1 模型整体结构
STUIN的模型结构如图2所示. 总体来说,模型采用自监督学习的方式进行训练. 首先通过Mask策略删除{\boldsymbol{X}}中的一部分非缺失值得到\tilde {\boldsymbol{X}}和相应的掩码矩阵\tilde {\boldsymbol{M}},利用这部分非缺失值的真实值指导模型训练. 之后通过时空不确定性初始化模块得到隐状态的均值{{\boldsymbol{\mu }}^{(0)}} \in {\mathbb{R}^{N \times T \times d}}和方差{{\boldsymbol{\sigma }}^{{{(0)}^2}}} \in {\mathbb{R}^{N \times T \times d}}. 然后将{{\boldsymbol{\mu }}^{(0)}}和{{\boldsymbol{\sigma }}^{{{(0)}^2}}}输入不确定性指导的时空注意力模块,该模块由多个相同的层堆叠而成,每层包含1个不确定性指导的时间注意力模块和1个不确定性指导的空间注意力模块. 这2个模块在学习时空相关性时引入了基于方差的注意力机制,使用基于方差的权重对隐状态中的均值和方差加权,方差越大则权重越小,缺失值所代表的噪声信号往往不确定性较高,具有较大的方差. 因此,可以通过这种方式削弱缺失值带来的无效信息传播,实现利用不确定性指导模型学习时空相关性. 最后通过输出模块得到模型输出{\boldsymbol{\mu }}和{{\boldsymbol{\sigma }}^2},将{\boldsymbol{\mu }}作为插补结果,使用{{\boldsymbol{\sigma }}^2}量化不确定性.
3.2 时空不确定性初始化模块
该模块根据输入数据得到隐状态的均值和方差,在具体实现时,本文通过学习不同的嵌入矩阵实现在量化不确定性时融合不同因素的影响.
首先,每个交通节点都与一些静态特征相关联,例如局部拓扑结构、所在道路类型等,这些特征能增强模型对空间相关性的捕获能力. 然而,在现实条件下,很难获取每个节点的所有静态特征. 因此,本文定义空间嵌入矩阵{\boldsymbol{SE}} \in {\mathbb{R}^{N \times 1 \times d}},为每个节点赋予一个d维的嵌入向量,让其参与均值和方差的初始化,显式地建模空间异质性. 类似地,不同时间片也具有不同的静态特征,可以通过时间片嵌入来显式地建模时间异质性,然而,对于插补任务而言,某一时刻的值通常仅与相邻时刻具有较大的关联,与较远时刻的值几乎无关. 因此,在时间维度上相对性更为重要,没有必要建模绝对时间异质性. 由于每个样本包含T个时间片,本文通过时间嵌入矩阵{\boldsymbol{TE}} \in {\mathbb{R}^{1 \times T \times d}}定义了T个时间片嵌入向量,用于初始化均值和方差.
其次,自注意力机制的置换不变性会导致模型无法感知时间序列的位置关系,因此,需要显式地附加位置编码. 本文通过{\boldsymbol{TPE}} \in {\mathbb{R}^{1 \times T \times d}}对均值附加固定位置编码[31],其中位置t的编码由式(1)确定:
\begin{aligned} &TP{E}_{t,2i}=\mathrm{sin}(t/{10\;000}^{2i/d})\text{,}\\ & TP{E}_{t,2i+1}=\mathrm{cos}(t/{10\;000}^{2i/d}). \end{aligned} (1) 最后,在模型的定义中,均值对应于从数据中提取的特征. 因此,在初始化均值时需要附加上输入数据的信息,本文采用前馈神经网络来实现该操作:
g(\tilde {\boldsymbol{X}}) = \tilde {\boldsymbol{X}}{{\boldsymbol{W}}_{\text{E}}} + {{\boldsymbol{b}}_{\text{E}}} \text{,} (2) 其中{{\boldsymbol{W}}_{\text{E}}} \in {\mathbb{R}^{1 \times d}}和{{\boldsymbol{b}}_{\text{E}}} \in {\mathbb{R}^d}是可学习参数. 方差用于建模不确定性,而不确定性与数据是否缺失相关联. 因此,本文定义了2个d维嵌入向量表示缺失和非缺失2种状态,用于初始化方差,并定义方差嵌入函数VE( \cdot ),根据数据的缺失状况获取相应的嵌入向量.
综上所述,该模块的计算公式可以概括为
\begin{aligned} &{{\boldsymbol{\mu}}}^{(0)}={\boldsymbol{TE}}+{\boldsymbol{SE}}+{\boldsymbol{TPE}}+g(\tilde{{\boldsymbol{X}}})\text{,}\\ & {{\boldsymbol{\sigma}} }^{{(0)}^{2}}=softplus({\boldsymbol{TE}}+{\boldsymbol{SE}}+VE(\tilde{{\boldsymbol{M}}}))\text{,}\end{aligned} (3) 其中 softplus\left( \cdot \right) 是激活函数,定义为
softplus(x)=\mathrm{ln}(1+\mathrm{exp}(x))\text{,} (4) 可以视为relu( \cdot )激活函数的平滑版本.
3.3 不确定性指导的时空注意力模块
该模块由多个相同的层堆叠而成,每一层由不确定性指导的时间注意力模块和不确定性指导的空间注意力模块构成,并在它们之间使用残差连接和归一化解决梯度消失问题,加快模型收敛速度.
3.3.1 不确定性指导的时间注意力模块
该模块使用多头自注意力机制学习时间相关性,并在其中结合基于方差的注意力机制. 为方便阅读和理解,本节仅介绍该模块在单个注意力头下的计算方式,多个注意力头下的计算方式在阅读本节后容易得出,并且本节省略表示层数的上标. 设节点v在某一层的隐状态为均值{{\boldsymbol{\mu }}_{v,:}} \in {\mathbb{R}^{T \times d}}和方差{\boldsymbol{\sigma }}_{v,:}^2 \in {\mathbb{R}^{T \times d}},首先计算基于方差的注意力权重:
{{\boldsymbol{\beta}} }_{v,:}=\mathrm{exp}(-\tau {{\boldsymbol{\sigma}} }_{v,:}^{2})\text{,} (5) 其中\tau > 0为超参数. 显然,方差越大,注意力权重越小,后文将使用{{\boldsymbol{\beta }}_{v,:}}通过诸元素乘积的形式对隐状态加权. 然后根据{{\boldsymbol{\mu }}_{v,:}}计算查询矩阵Q和键矩阵K:
\begin{aligned} &\boldsymbol Q={\boldsymbol \mu }_{v,:}{\boldsymbol W}_{\boldsymbol Q}\in {\mathbb{R}}^{T\times {d}_{k}}\text{,}\\ & \boldsymbol K={\boldsymbol \mu }_{v,:}{\boldsymbol W}_{\boldsymbol K}\in {\mathbb{R}}^{T\times {d}_{k}}\text{,}\end{aligned} (6) 其中{{\boldsymbol{W}}_{\boldsymbol Q}} \in {\mathbb{R}^{d \times {d_k}}}和{{\boldsymbol{W}}_{\boldsymbol{K}}} \in {\mathbb{R}^{d \times {d_k}}}为可学习参数. 根据{\boldsymbol{Q}}和{\boldsymbol{K}}计算自注意力权重E:
{\boldsymbol{E}} = {{softmax}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\text{T}}}}}{{\sqrt {{d_k}} }}\right). (7) 若2个随机变量相互独立且服从高斯分布,它们的加权和也服从高斯分布. 而自注意力机制和基于方差的注意力机制均遵循这种计算方式,因此若假设节点v在不同时间片的隐状态相互独立,则计算后的隐状态仍服从高斯分布,具体计算公式为:
\begin{aligned}&{{\boldsymbol{z}}}_{\boldsymbol \mu }={\boldsymbol{E}}({{\boldsymbol{\beta}} }_{v,:}\odot {{\boldsymbol{\mu}} }_{v,:})\text{,}\\ & {{\boldsymbol{z}}}_{\boldsymbol \sigma }=({\boldsymbol{E}}\odot {\boldsymbol{E}})({{\boldsymbol{\beta}} }_{v,:}\odot {{\boldsymbol{\beta}} }_{v,:}\odot {{\boldsymbol{\sigma}} }_{v,:}^{2}). \end{aligned} (8) 即先利用{{\boldsymbol{\beta }}_{v,:}}对均值和方差加权,再进行自注意力机制的计算. 之后还需对{{\boldsymbol{z}}_{\boldsymbol{\mu }}}和{{\boldsymbol{z}}_{\boldsymbol{\sigma }}}施加线性映射和非线性激活函数,但该操作将使后续的分布难以求解,为了简便,本节直接对{{\boldsymbol{z}}_{\boldsymbol{\mu }}}和{{\boldsymbol{z}}_{\boldsymbol{\sigma }}}施加这些操作,则此模块的输出为
\begin{aligned} &{\hat{{\boldsymbol{\mu}} }}_{v,:}=relu({{\boldsymbol{z}}}_{\boldsymbol \mu }{{\boldsymbol{W}}}_{\text{T}}^{\boldsymbol \mu })\text{,}\\ & {\hat{{\boldsymbol{\sigma}} }}_{v,:}^{2}=softplus({{\boldsymbol{z}}}_{\boldsymbol \sigma }{{\boldsymbol{W}}}_{\text{T}}^{\boldsymbol \sigma })\text{,}\end{aligned} (9) 其中{\boldsymbol{W}}_{\text{T}}^{\boldsymbol{\mu }} \in {\mathbb{R}^{d \times d}},{\boldsymbol{W}}_{\text{T}}^{\boldsymbol{\sigma }} \in {\mathbb{R}^{d \times d}}是可学习参数.
3.3.2 不确定性指导的空间注意力模块
该模块使用图卷积学习空间相关性,同时结合基于方差的注意力机制. 为了便于阅读,本节同样省略表示层数的上标. 设均值{\hat {\boldsymbol{\mu }}_{:,t}} \in {\mathbb{R}^{N \times d}}和方差\hat {\boldsymbol{\sigma }}_{:,t}^2 \in {\mathbb{R}^{N \times d}}是某一层第t个时间片所有节点的隐状态,首先计算基于方差的注意力权重:
{\boldsymbol \alpha }_{:,t}=\mathrm{exp}(-\nu {\hat{{\boldsymbol{\sigma}} }}_{:,t}^{2})\text{,} (10) 其中\nu > 0为超参数. 与3.3.1节的处理方式相同,本文假设第t个时间片所有节点的隐状态是相互独立的,则图卷积后的隐状态计算公式为
\begin{aligned} &{{\boldsymbol{c}}}_{\boldsymbol \mu }=\tilde{{\boldsymbol{A}}}({{\boldsymbol{\alpha}} }_{:,t}\odot {\hat{{\boldsymbol{\mu}} }}_{:,t})\text{,}\\ & {{\boldsymbol{c}}}_{\boldsymbol \sigma }=(\tilde{{\boldsymbol{A}}}\odot \tilde{{\boldsymbol{A}}})({{\boldsymbol{\alpha}} }_{:,t}\odot {{\boldsymbol{\alpha}} }_{:,t}\odot {\hat{{\boldsymbol{\sigma}} }}_{:,t}^{2})\text{,}\end{aligned} (11) 其中\tilde {\boldsymbol{A}}为归一化后的邻接矩阵.
式(11)只使用了原始邻接矩阵进行图卷积,原始的邻接矩阵通常不能完全反映节点之间的相关性,甚至与真实的节点相关性相违背. 此外,原始邻接矩阵是静态的,在实际情况中,空间相关性可能会随时间动态变化. 因此本文引入动态邻接矩阵:
{{\boldsymbol{S}}}_{t}= {softmax}\left(\frac{{\hat{{\boldsymbol{\mu}} }}_{:,t}{\hat{{\boldsymbol{\mu}} }}_{:,t}^{\text{T}}}{\sqrt{d}}\right)\text{,} (12) 其中{S_{ij}}表示节点i和节点j的相关性,值越大则相关性越大. 之后使用动态邻接矩阵进行图卷积:
\begin{aligned} &{{\boldsymbol{c}}}_{\boldsymbol \mu }^{\text{a}}={{\boldsymbol{S}}}_{t}({{\boldsymbol{\alpha}} }_{:,t}\odot {\hat{{\boldsymbol{\mu}} }}_{:,t})\text{,}\\ & {{\boldsymbol{c}}}_{\boldsymbol \sigma }^{\text{a}}=({{\boldsymbol{S}}}_{t}\odot {{\boldsymbol{S}}}_{t})({{\boldsymbol{\alpha}} }_{:,t}\odot {{\boldsymbol{\alpha}} }_{:,t}\odot {\hat{{\boldsymbol{\sigma}} }}_{:,t}^{2})\text{,} \end{aligned} (13) 并对2次图卷积的结果施加线性映射和非线性激活函数:
\begin{aligned} & {\boldsymbol \mu_{:,}}_t=relu(\boldsymbol{c}_{\boldsymbol{\mu}}{\boldsymbol W}_{\text{S}}^{\boldsymbol{\mu}})+relu({\boldsymbol c}_{\boldsymbol{\mu}}^{\text{a}} {\boldsymbol W}_{\text{A}}^{\boldsymbol{\mu}})\text{,} \\ & {\boldsymbol \sigma}_{:,t}^2=softplus( {\boldsymbol c}_{\boldsymbol{\sigma}} {\boldsymbol W}_{\text{S}}^{\boldsymbol{\sigma}})+softplus( {\boldsymbol c}_{\boldsymbol{\sigma}}^{\text{a}} {\boldsymbol W}_{\text{A}}^{\boldsymbol{\sigma}})\text{,}\end{aligned} (14) 其中{\boldsymbol{W}}_{\text{S}}^{\boldsymbol{\mu }},{\boldsymbol{W}}_{\text{A}}^{\boldsymbol{\mu }},{\boldsymbol{W}}_{\text{S}}^{\boldsymbol{\sigma }},{\boldsymbol{W}}_{\text{A}}^{\boldsymbol{\sigma }}为可学习参数.
3.3.3 残差连接与归一化
由于本文将神经网络的隐状态定义成服从高斯分布的随机变量. 因此,需要对残差连接和归一化进行拓展. 设{\boldsymbol{\mu }}和{{\boldsymbol{\sigma }}^2}为某一个模块的输出,{{\boldsymbol{\mu }}^\prime }和{{\boldsymbol{\sigma }}^{{\prime ^2}}}为该模块的输入. 则采用层归一化对均值做归一化,不对方差做归一化,因为对方差进行归一化会带来2个问题:1)方差在模型中代表可信度,归一化会破坏它的数量级;2)归一化后会导致方差小于0,后续模块无法直接使用归一化后的方差,如何处理负方差也是一个难题.
\begin{aligned} &{\boldsymbol{\mu}} \leftarrow normalize({\boldsymbol{\mu}} )\text{,}\\ & {{\boldsymbol{\sigma}} }^{2}\leftarrow {{\boldsymbol{\sigma}} }^{2}. \end{aligned} (15) 实验中也发现对方差进行归一化会导致模型性能下降,而完全不进行归一化会出现梯度爆炸问题. 之后对均值和方差都施加残差连接操作:
\begin{aligned} &{\boldsymbol{\mu}} \leftarrow {\boldsymbol{\mu}} +{{\boldsymbol{\mu}} }'\text{,}\\ & {{\boldsymbol{\sigma}} }^{2}\leftarrow {{\boldsymbol{\sigma}} }^{2}+{{\boldsymbol{\sigma}} }'^{2}. \end{aligned} (16) 3.4 自监督训练策略
自监督训练策略包括Mask策略和损失函数,Mask策略用于生成训练标签,损失函数用于衡量模型对这些标签的重构效果.
3.4.1 Mask策略
本文通过Mask原始数据中的非缺失值构造训练标签,为了使构造的缺失值和原始数据具有相同的缺失模式,本文使用的具体策略如下[32]:设当前样本为A,从数据集中随机选择一个样本B,若样本B在某个位置缺失,则将样本A对应位置也设为缺失. 由于同一数据集中的样本通常具有相同的缺失模式,因此构造的训练标签能够与数据集的原始缺失模式保持一致,其示意图如图3所示.
值得注意的是,使用上述Mask策略时,对一个样本A,可从数据集中采样多个与其不同的样本用于构造训练标签,从而扩充训练集,实现数据增强. 本文对每个样本采样了2个与其不同的样本,即将训练集的规模扩大了1倍.
3.4.2 输出模块与损失函数
在得到不确定性指导的时空注意力模块的输出{{\boldsymbol{\mu }}^{(L)}}和{{\boldsymbol{\sigma }}^{{{(L)}^2}}}后,通过单层前馈网络得到模型输出:
\begin{aligned} &{\boldsymbol{\mu}} =relu({{\boldsymbol{\mu}} }^{(L)}{{\boldsymbol{W}}}_{\text{O}}^{\boldsymbol \mu }+{{\boldsymbol{b}}}_{\text{O}}^{\boldsymbol \mu })\text{,}\\ & {{\boldsymbol{\sigma}} }^{2}=softplus({{\boldsymbol{\sigma}} }^{{(L)}^{2}}{{\boldsymbol{W}}}_{\text{O}}^{\boldsymbol \sigma }+{{\boldsymbol{b}}}_{\text{O}}^{\boldsymbol \sigma })\text{,}\end{aligned} (17) 其中{\boldsymbol{W}}_{\text{O}}^{\boldsymbol{\mu }},{\boldsymbol{W}}_{\text{O}}^{\boldsymbol{\sigma }},{\boldsymbol{b}}_{\text{O}}^{\boldsymbol{\mu }},{\boldsymbol{b}}_{\text{O}}^{\boldsymbol{\sigma }}为可学习参数.
设B为掩码矩阵的元素和,由于本文假设{\boldsymbol{\mu }}和{{\boldsymbol{\sigma }}^2}是同一个高斯分布的参数,因此可采用负对数似然损失函数:
{\mathcal{L}_{{\text{nll}}}} = \frac{1}{B}\sum\limits_{v,t} \left[ \frac{{{{({x_{v,t}} - {\mu _{v,t}})}^2}}}{{2\sigma _{v,t}^2}} + \frac{{\ln \sigma _{v,t}^2}}{2}\right]{m_{v,t}}. (18) 然而,负对数似然损失函数存在2个问题:1)未给方差指定明确的学习标签;2)方差同时出现在了分母和对数中,难以优化. 因此本文额外使用了另一种损失函数:
{\mathcal{L}}_{\text{cons}}= \frac{1}{B}{\displaystyle \sum _{v,t}|}{x}_{v,t}-{\mu }_{v,t}|{m}_{v,t}+ \frac{1}{B}{\displaystyle \sum _{v,t}|}\gamma |{x}_{v,t}-{\mu }_{v,t}|-{\sigma }_{v,t}|{m}_{v,t}\text{,} (19) 其中\gamma 为超参数,该损失函数能解决负对数似然损失函数的问题. 最终的损失函数定义为
\mathcal{L}=\mathcal{L}_{\text{nll}}+\kappa\mathcal{L}_{\text{cons}}, (20) 其中\kappa 为超参数. 虽然本文在计算损失函数时仅考虑了非缺失值,但由于采用Mask策略删除了一部分非缺失值,因此可以让模型学习如何复原缺失值.
4. 实 验
本节将在2个交通流量数据集上评估STUIN的性能,并对STUIN的重要模块和参数进行分析.
4.1 实验设置
4.1.1 数据集
本文使用交通流量数据集PEMS04和PEMS08[4]进行实验,它们的采集频率都是每30秒1次,本文按照每5分钟1个时间片进行聚合. 其中PEMS04数据集来自旧金山湾区,时间跨度为2018年1月1日到2018年2月28日,包含307个传感器. PEMS08数据集来自圣贝纳迪诺地区,时间跨度为2016年7月1日到2016年8月31日,包含170个传感器.
本文在这2种数据集上构造缺失值,在测试时针对构造的缺失值计算评价指标,对比不同模型的性能. 缺失模式包括3种:随机缺失(random missing,RM)、非随机缺失(non-random missing,NM)和全盲缺失(blackout missing,BM)[9],缺失率为20%,30%,70%,90%. RM指数据完全随机缺失;NM指缺失值在时间维度上是连续出现的;BM指所有节点的数据在一段时间内全部缺失. 其中NM模式下的缺失值在时间维度上具有相关性,BM模式下的缺失值在时间和空间维度上都有相关性. 这3种缺失模式的示意图如图4所示,其中虚线部分表示缺失.
4.1.2 评价指标
本文使用平均绝对误差(mean absolute error,MAE)、均方根误差(root mean square error,RMSE)和平均绝对百分比误差(mean absolute percentage error,MAPE)衡量插补性能,设{y_i}代表真实值,{\hat y_i}代表预测值,具体计算公式为:
\begin{aligned} &MAE=\dfrac{1}{N}{\displaystyle \sum _{i=1}^{N}|}{y}_{i}-{\hat{y}}_{i}|\text{,}\\ & RMS E=\sqrt{\dfrac{1}{N}{\displaystyle \sum _{i=1}^{N}(}{y}_{i}-{\hat{y}}_{i}{)}^{2}}\text{,}\\ & MAPE=\dfrac{1}{N}{\displaystyle \sum _{i=1}^{N}\dfrac{|{y}_{i}-{\hat{y}}_{i}|}{\left|{y}_{i}\right|}}. \end{aligned} (21) 使用预测区间覆盖率(prediction interval coverage probability,PICP)和平均间隔分数(mean interval score,MIS)衡量不确定性量化性能. 设置信度为1 - \rho ,\rho /2在标准正态分布表中对应的z值为\lambda ,则可以根据标准差计算上下界,具体公式为
\begin{aligned} &{l}_{i}={\hat{y}}_{i}-\lambda {\sigma }_{i}\text{,}\\ & {u}_{i}={\hat{y}}_{i}+\lambda {\sigma }_{i}.\end{aligned} (22) 使用PICP衡量置信区间包含真实值的概率:
PICP=\frac{1}{N}{\displaystyle \sum _{i=1}^{N}\boldsymbol{I}}({l}_{i} < {y}_{i} < {u}_{i})\text{,} (23) PICP越大说明真实值落入置信区间的概率越大. 然而,若置信区间范围过大,PICP也会较高,但这没有意义,因此使用MIS衡量置信区间是否足够紧致:
\begin{split} MIS = & \frac{1}{N}\sum\limits_{i = 1}^N \Bigg\{ ({u_i} - {l_i}) + \frac{2}{\rho }({y_i} - {u_i})\boldsymbol{I}( {y_i} > {u_i}) + \\ & \frac{2}{\rho }({l_i} - {y_i})\boldsymbol{I}( {l_i} > {y_i}) \Bigg\} \text{,} \end{split} (24) 在本文中\rho = 0.05,其对应的\lambda = 1.96.
4.1.3 基准模型
本文使用5种具有代表性的插补模型和STUIN对比,评估插补性能.
1)LATC[9]. 适用于时空交通数据的低秩自回归张量补全框架.
2)MIWAE[10]. 基于重要性加权自编码器的数据插补模型.
3)BRITS[12]. 基于双向循环神经网络的时间序列插补模型.
4)mTAN[13]. 处理不规则采样时间序列的表示学习模型,能用于实现数据插补.
5)IGNNK[14]. 适用于时空交通数据的克里金插值模型.
将STUIN与下面5种不确定性量化模型对比,评估不确定性量化性能.
1)MC Dropout[24]. 通过随机Dropout实现变分推断,在测试时开启Dropout,使用多次预测的统计数据量化不确定性.
2)平均间隔分数回归(MIS-Reg)[26]. 通过最小化MIS估计置信区间.
3)分位数回归(Quan-Reg)[27]. 通过最小化单边分位数损失函数估计置信区间.
4)样条分位数回归(SQ-Reg)[28]. 通过最小化CRPS拟合分位数函数,实现不确定性量化.
5)DeepAR[29]. 基于自回归循环神经网络的概率预测模型.
其中MC Dropout、MIS-Reg、Quan-Reg和SQ-Reg都基于DCRNN[15]实现.
4.1.4 参数设置
本文通过Min-Max归一化将数据标准化到\left[ { - 1,1} \right],将缺失数据填充为0. 之后将数据集按照6∶2∶2的比例划分为训练集、验证集和测试集,并在3个数据集上分别使用长度为13的滑动窗口构造样本,然后在训练集和验证集上使用Mask策略构造训练标签. 参数设置为L = 6,d = 64,\tau = 1.0,\nu = 1.0,\gamma = 2,\kappa = 1.5,注意力头数为8,使用PyTorch框架实现模型,学习率为0.001,批量大小为16.
4.2 性能比较
由于缺失模式有3种,缺失率有4种,共有12种实验设置,数据量过大,因此正文中仅展示了PEMS04数据集上RM缺失模式的实验结果,如表1和表2所示,其他实验结果见附录A. 可以看出,在RM缺失模式下,STUIN在插补指标上均优于基准模型,并且随着缺失率的增加优势越来越明显,因此其插补性能非常出色. 在不确定性量化指标上,STUIN预测的置信区间不但具有最高的区间覆盖率,并且MIS也是所有模型中最小的. 因此,STUIN能够提供准确而紧致的置信区间. 在其他数据集上的表现与此类似.
表 1 PEMS04数据集上RM缺失模式下20%和30%缺失率的性能对比Table 1. Performance Comparison of 20% and 30% Missing Rates in RM Missing Pattern on PEMS04 Dataset模型 20%, RM 30%, RM MAE RMSE MAPE/% PICP/% MIS MAE RMSE MAPE/% PICP/% MIS LATC[9] 19.63 31.70 15.16 20.08 32.48 15.61 MIWAE[10] 29.22 48.88 19.78 29.56 49.40 19.69 BRITS[12] 21.13 35.50 26.88 20.51 34.31 24.03 mTAN[13] 18.36 29.66 13.32 19.27 31.31 13.25 IGNNK[14] 22.11 34.33 19.41 21.25 33.29 21.22 MC Dropout[24] 15.89 26.31 12.24 70.54 220.95 16.32 26.93 12.76 70.89 224.75 MIS-Reg[26] 18.56 29.91 14.02 62.06 285.11 21.65 34.90 16.17 53.75 414.17 Quan-Reg[27] 21.96 35.54 17.66 67.87 230.17 23.00 35.97 19.39 45.72 443.38 SQ-Reg[28] 18.12 29.33 13.71 64.48 255.49 18.36 29.87 13.81 62.79 277.04 DeepAR[29] 19.67 31.67 12.60 74.74 130.44 20.17 32.26 13.32 68.73 148.37 STUIN(本文) 15.55 25.67 10.81 97.71 109.57 15.55 25.39 11.07 97.19 107.48 注:下划线数值表示次优指标,黑体数值表示最优指标. 表 2 PEMS04数据集上RM缺失模式下70%和90%缺失率的性能对比Table 2. Performance Comparison of 70% and 90% Missing Rates in RM Missing Pattern on PEMS04 Dataset模型 70%, RM 90%, RM MAE RMSE MAPE/% PICP/% MIS MAE RMSE MAPE/% PICP/% MIS LATC[9] 28.76 45.38 21.37 61.60 87.36 67.58 MIWAE[10] 31.67 51.54 20.98 34.70 55.10 23.41 BRITS[12] 26.09 40.19 22.93 45.20 67.12 37.52 mTAN[13] 24.21 41.99 18.18 58.53 100.48 66.81 IGNNK[14] 24.18 38.30 22.37 42.05 65.55 43.60 MC Dropout[24] 21.81 41.82 16.24 70.74 344.44 63.42 118.19 37.16 51.20 1762.39 MIS-Reg[26] 28.51 49.68 20.25 37.00 780.89 73.89 125.72 44.18 56.63 1888.09 Quan-Reg[27] 31.23 52.14 23.17 31.41 959.31 73.13 130.63 43.06 18.85 2741.20 SQ-Reg[28] 29.29 51.36 21.03 43.16 727.01 79.26 133.08 54.28 52.11 1984.74 DeepAR[29] 29.14 53.18 16.83 50.22 316.94 104.96 163.99 52.66 17.63 1932.63 STUIN(本文) 18.05 30.77 12.52 96.97 129.23 23.67 37.33 18.85 93.01 177.18 注:下划线数值表示次优指标,黑体数值表示最优指标. 在插补模型中,BRITS和mTAN适用于时间序列数据,当缺失率较低时在时空图数据上也具有良好的性能,反之性能明显下降. MIWAE适用于服从独立同分布假设的数据集,虽然大部分情况下性能较差,但在90%缺失率下是基准模型中最优的. 这可能是因为其模型结构较为简单,当缺失率过高时更不容易发生过拟合. LATC是传统机器学习模型,在缺失率较低时具有良好的性能,但缺失率过高时性能明显下降. IGNNK虽然适用于时空图数据,但针对的是克里金插值,且对时间相关性的处理过于简单,整体性能一般. 在不确定性量化模型中,MC Dropout在大部分情况下都是基准模型中最优的,这是因为MC Dropout在预测时相当于一个集成模型. MIS-Reg、Quan-Reg和SQ-Reg的性能都随着缺失率的升高迅速下降. DeepAR在低缺失率下具有良好的插补性能,但当缺失率为90%时不再具有优势.
4.3 可视化分析
在本节中,我们对STUIN的不确定性量化性能进行分析. 使用的数据集为PEMS04,缺失模式为NM,缺失率为70%. 在测试集中随机选择某节点的一小段数据,对STUIN、MC Dropout、MIS-Reg和DeepAR输出的置信区间进行了可视化,由图5可知,STUIN输出的置信区间几乎在所有情况下都能覆盖真实值,而MC Dropout、MIS-Reg和DeepAR都存在真实值不在置信区间内的情况. 此外,STUIN的置信区间也较为紧致. 因此,STUIN具有出色的不确定性量化性能.
4.4 超参数分析
本节将对损失函数中的2个重要超参数:\gamma 和\kappa 进行分析. 使用的数据集为PEMS04,缺失模式为RM,缺失率为20%. 首先分析超参数\gamma 对性能的影响,固定\kappa = 1.5,分别将\gamma 设置为1,2,3进行实验,实验结果如图6所示. 由图6可知,随着\gamma 的增大MAE和MAPE逐渐减小,这说明增大\gamma 能提高插补性能. 当\gamma = 1时PICP和MIS指标均较差;当\gamma = 2时PICP和MIS达到图中的最优;当\gamma = 3时虽然PICP有所提升,但MIS也显著升高,因为此时方差必须足够大才能使损失函数降低. 因此,尽管增大\gamma 能提升插补性能,但\gamma 过大会降低置信区间的预测质量.
其次分析超参数\kappa 的影响,固定\gamma = 2,分别将\kappa 设置为0,1,2进行实验,实验结果如图7所示. 由图7可知,随着\kappa 的增大,插补性能得到提升,尤其是\kappa 从0增加至1时性能提升显著,这是因为\kappa = 0时损失函数仅包含负对数似然. 而\kappa 从1增加至2时性能并没有太大提升. PICP和MIS具有类似的表现.
最后,本节对参数的鲁棒性进行分析. 将上述不同参数设置下得到的实验结果与MC Dropout进行对比,MC Dropout的整体性能是基准模型中最优的,实验结果如表3所示. 可以看出,在绝大部分参数设置下,STUIN的性能都显著优于MC Dropout,即便是在\gamma = 1或\kappa = 0这种较极端的取值情况下,STUIN的不确定性量化性能也显著领先于MC Dropout,因此STUIN对参数取值不敏感,具有较强的鲁棒性.
表 3 鲁棒性分析Table 3. Robustness Analysis模型 MAE MAPE/% PICP/% MIS MC Dropout[24] 15.89 12.24 70.54 220.95 STUIN(本文) \kappa = 1.{\text{5}},\gamma = 1 16.05 12.59 78.06 136.39 \kappa = 1.{\text{5}},\gamma = 2 15.55 10.81 97.71 109.57 \kappa = 1.{\text{5}},\gamma = 3 15.47 10.60 99.58 152.36 \gamma = 2,\kappa = 0 18.68 12.76 91.61 124.82 \gamma = 2,\kappa = 1 15.71 10.93 97.55 111.70 \gamma = 2,\kappa = 2 15.48 10.95 97.31 109.31 4.5 消融实验
本节将通过消融实验证明STUIN各组件的有效性. 分别移除STUIN的重要组件,并将实验结果与完整的STUIN进行对比. STUIN包括3个变种:
1)noSE. 移除时空不确定性初始化模块中的空间嵌入矩阵.
2)noTE. 移除时空不确定性初始化模块中的时间嵌入矩阵.
3)noVA. 不再将隐状态定义成高斯分布,即移除方差,此时模型仅能给出点估计.
数据集为PEMS04,缺失模式为RM,缺失率为20%,变种模型的参数设置和STUIN一致,实验结果如表4所示.
表 4 消融实验Table 4. Ablation Experiments模型 MAE MAPE/% PICP/% MIS noSE 15.92 11.55 95.73 111.81 noTE 15.71 11.69 96.48 110.86 noVA 15.97 11.32 STUIN(本文) 15.55 10.81 97.71 109.57 从表4可以看出,当移除不确定性建模时,数据插补性能明显下降. 这说明本文提出的不确定性指导的时空依赖性学习机制能起到削弱无效信息传播的作用. 同时,移除时间嵌入矩阵和空间嵌入矩阵会导致插补和不确定性量化性能都下降. 这说明同时考虑时间和空间因素能更准确地量化不确定性,进而提高不确定性在学习时空依赖性时的指导作用.
4.6 下游任务实验
本节将通过实验验证对缺失数据进行补全能提升下游任务的精度. 使用的数据集为PEMS04,缺失率为20%,涵盖所有缺失模式. 在训练完模型后,使用模型输出的插补值补全缺失值,保留非缺失值:
{\boldsymbol{X}} = {\boldsymbol{X}} \odot {\boldsymbol{M}} + (1 - {\boldsymbol{M}}) \odot {\boldsymbol{\mu }}. (25) 然后使用这些数据集训练时空预测模型AGCRN[33],并在相同的测试集上计算评价指标(测试集来自原始PEMS04数据集). AGCRN的参数设置和原文一致,实验结果如表5所示.
表 5 PEMS04数据集上的下游任务实验Table 5. Downstream Task Experiments on PEMS04 Dataset数据集 MAE RMSE MAPE/% 无缺失 19.84 32.52 12.94 RM 缺失 21.45 34.97 14.81 补全 19.62 32.12 13.02 NM 缺失 21.71 34.82 15.44 补全 19.76 32.23 12.81 BM 缺失 20.06 33.13 13.12 补全 19.74 32.42 13.12 由表5可以看出,无论是哪种缺失模式,经过数据补全后都可以明显提升时空预测的性能,这说明对缺失交通数据进行补全能显著提高下游任务的精度,具有重要的应用价值.
5. 总结与展望
本文提出了一种时空不确定性指导的交通数据插补模型STUIN,能同时为缺失值提供点估计和置信区间. STUIN将神经网络的隐状态建模为服从高斯分布的随机变量,使用方差建模隐状态的不确定性,利用基于方差的注意力机制指导模型学习时空相关性. 此外,本文还提出了一个新颖的时空不确定性初始化模块,在初始化均值和方差时同时考虑了时间、空间和数据缺失状况. 最后,本文在2个交通流量数据集上构造了多种缺失模式,设置了不同的缺失率进行实验,实验结果表明,STUIN具有出色的数据插补和不确定性量化性能.
在未来,我们将从2个方面开展进一步研究:首先,本文提出的模型通过Mask非缺失值构造训练标签,实现自监督学习,而自监督学习领域目前已发展出了更为有效的策略,如对比学习等,未来我们将尝试将这些技术应用于模型. 其次,由于方差嵌入函数的存在,本文提出的时空不确定性初始化模块只能应用于单一特征,未来我们将针对多维特征数据集的插补和不确定性量化开展研究.
作者贡献声明:刘乐提出了算法思路和实验方案,负责完成实验并撰写论文;郭晟楠、靳希源、林友芳和万怀宇对模型的设计提出指导意见并进行了论文的修改;赵苗苗和陈冉辅助做了实验结果的统计和分析.
-
表 1 PEMS04数据集上RM缺失模式下20%和30%缺失率的性能对比
Table 1 Performance Comparison of 20% and 30% Missing Rates in RM Missing Pattern on PEMS04 Dataset
模型 20%, RM 30%, RM MAE RMSE MAPE/% PICP/% MIS MAE RMSE MAPE/% PICP/% MIS LATC[9] 19.63 31.70 15.16 20.08 32.48 15.61 MIWAE[10] 29.22 48.88 19.78 29.56 49.40 19.69 BRITS[12] 21.13 35.50 26.88 20.51 34.31 24.03 mTAN[13] 18.36 29.66 13.32 19.27 31.31 13.25 IGNNK[14] 22.11 34.33 19.41 21.25 33.29 21.22 MC Dropout[24] 15.89 26.31 12.24 70.54 220.95 16.32 26.93 12.76 70.89 224.75 MIS-Reg[26] 18.56 29.91 14.02 62.06 285.11 21.65 34.90 16.17 53.75 414.17 Quan-Reg[27] 21.96 35.54 17.66 67.87 230.17 23.00 35.97 19.39 45.72 443.38 SQ-Reg[28] 18.12 29.33 13.71 64.48 255.49 18.36 29.87 13.81 62.79 277.04 DeepAR[29] 19.67 31.67 12.60 74.74 130.44 20.17 32.26 13.32 68.73 148.37 STUIN(本文) 15.55 25.67 10.81 97.71 109.57 15.55 25.39 11.07 97.19 107.48 注:下划线数值表示次优指标,黑体数值表示最优指标. 表 2 PEMS04数据集上RM缺失模式下70%和90%缺失率的性能对比
Table 2 Performance Comparison of 70% and 90% Missing Rates in RM Missing Pattern on PEMS04 Dataset
模型 70%, RM 90%, RM MAE RMSE MAPE/% PICP/% MIS MAE RMSE MAPE/% PICP/% MIS LATC[9] 28.76 45.38 21.37 61.60 87.36 67.58 MIWAE[10] 31.67 51.54 20.98 34.70 55.10 23.41 BRITS[12] 26.09 40.19 22.93 45.20 67.12 37.52 mTAN[13] 24.21 41.99 18.18 58.53 100.48 66.81 IGNNK[14] 24.18 38.30 22.37 42.05 65.55 43.60 MC Dropout[24] 21.81 41.82 16.24 70.74 344.44 63.42 118.19 37.16 51.20 1762.39 MIS-Reg[26] 28.51 49.68 20.25 37.00 780.89 73.89 125.72 44.18 56.63 1888.09 Quan-Reg[27] 31.23 52.14 23.17 31.41 959.31 73.13 130.63 43.06 18.85 2741.20 SQ-Reg[28] 29.29 51.36 21.03 43.16 727.01 79.26 133.08 54.28 52.11 1984.74 DeepAR[29] 29.14 53.18 16.83 50.22 316.94 104.96 163.99 52.66 17.63 1932.63 STUIN(本文) 18.05 30.77 12.52 96.97 129.23 23.67 37.33 18.85 93.01 177.18 注:下划线数值表示次优指标,黑体数值表示最优指标. 表 3 鲁棒性分析
Table 3 Robustness Analysis
模型 MAE MAPE/% PICP/% MIS MC Dropout[24] 15.89 12.24 70.54 220.95 STUIN(本文) \kappa = 1.{\text{5}},\gamma = 1 16.05 12.59 78.06 136.39 \kappa = 1.{\text{5}},\gamma = 2 15.55 10.81 97.71 109.57 \kappa = 1.{\text{5}},\gamma = 3 15.47 10.60 99.58 152.36 \gamma = 2,\kappa = 0 18.68 12.76 91.61 124.82 \gamma = 2,\kappa = 1 15.71 10.93 97.55 111.70 \gamma = 2,\kappa = 2 15.48 10.95 97.31 109.31 表 4 消融实验
Table 4 Ablation Experiments
模型 MAE MAPE/% PICP/% MIS noSE 15.92 11.55 95.73 111.81 noTE 15.71 11.69 96.48 110.86 noVA 15.97 11.32 STUIN(本文) 15.55 10.81 97.71 109.57 表 5 PEMS04数据集上的下游任务实验
Table 5 Downstream Task Experiments on PEMS04 Dataset
数据集 MAE RMSE MAPE/% 无缺失 19.84 32.52 12.94 RM 缺失 21.45 34.97 14.81 补全 19.62 32.12 13.02 NM 缺失 21.71 34.82 15.44 补全 19.76 32.23 12.81 BM 缺失 20.06 33.13 13.12 补全 19.74 32.42 13.12 -
[1] Qu Li, Li Li, Zhang Yi, et al. PPCA-based missing data imputation for traffic flow volume: A systematical approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2009, 10(3): 512−522 doi: 10.1109/TITS.2009.2026312
[2] Abdar M, Pourpanah F, Hussain S, et al. A review of uncertainty quantification in deep learning: Techniques, applications and challenges[J]. Information Fusion, 2021, 76: 243-297 Abdar M,Pourpanah F,Hussain S,et al. A review of uncertainty quantification in deep learning:Techniques,applications and challenges[J]. Information Fusion,2021,76:243-297
[3] Guo Shengnan, Lin Youfang, Wan Huaiyu, et al. Learning dynamics and heterogeneity of spatial-temporal graph data for traffic forecasting[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(11): 5415−5428 doi: 10.1109/TKDE.2021.3056502
[4] Guo Shengnan, Lin Youfang, Feng Ning, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]//Proc of the 33rd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 922−929
[5] Yuan Haitao, Li Guoliang. A survey of traffic prediction: From spatio-temporal data to intelligent transportation[J]. Data Science and Engineering, 2021, 6: 63−85 Yuan Haitao,Li Guoliang. A survey of traffic prediction:From spatio-temporal data to intelligent transportation[J]. Data Science and Engineering,2021,6:63−85
[6] 倪庆剑,彭文强,张志政,等. 基于信息增强传输的时空图神经网络交通流预测[J]. 计算机研究与发展,2022,59(2):282−293 doi: 10.7544/issn1000-1239.20210901 Ni Qingjian, Peng Wenqiang, Zhang Zhizheng, et al. Spatial-temporal graph neural network for traffic flow prediction based on information enhanced transmission[J]. Journal of Computer Research and Development, 2022, 59(2): 282−293 (in Chinese) doi: 10.7544/issn1000-1239.20210901
[7] Lebel J M, Kratz F, Bloch G. Missing values rebuilding by prediction and ARIMA modelling in time series[J]. Advanced Information Processing in Automatic Control, 1989, 22(6): 357−361
[8] Hudak A T, Crookston N L, Evans J S, et al. Nearest neighbor imputation of species-level, plot-scale forest structure attributes from lidar data[J]. Remote Sensing of Environment, 2008, 112(5): 2232−2245 doi: 10.1016/j.rse.2007.10.009
[9] Chen Xinyu, Lei Mengying, Saunier N, et al. Low-rank autoregressive tensor completion for spatiotemporal traffic data imputation[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(8): 12301−12310 doi: 10.1109/TITS.2021.3113608
[10] Mattei P A, Frellsen J. MIWAE: Deep generative modelling and imputation of incomplete data sets[C]//Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 4413−4423
[11] Che Zhengping, Purushotham S, Cho K, et al. Recurrent neural networks for multivariate time series with missing values[J]. Scientific Reports, 2018, 8(1): 6085−6099 doi: 10.1038/s41598-018-24271-9
[12] Cao Wei, Wang Dong, Li Jian, et al. BRITS: Bidirectional recurrent imputation for time series[C]//Proc of the 32nd Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2018: 6776−6786
[13] Shukla S N, Marlin B M. Multi-time attention networks for irregularly sampled time series[C/OL]//Proc of the 9th Int Conf on Learning Representations. San Juan, CA: ICLR, 2021[2021-11-21]. https://openreview.net/forum?id=mXbhcalKnYM
[14] Wu Yuankai, Zhuang Dingyi, Labbe A, et al. Inductive graph neural networks for spatiotemporal Kriging[C]//Proc of the 35th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2021: 4478−4485
[15] Li Yaguang, Yu R, Shahabi C, et al. Diffusion convolutional recurrent neural network: Data-driven traffic forecasting[C/OL]//Proc of the 6th Int Conf on Learning Representations. San Juan, CA: ICLR, 2018[2021-08-04]. https://openreview.net/forum?id=SJiHXGWAZ
[16] Xu Dongwei, Peng Hang, Wei Chenchen, et al. Traffic state data imputation: An efficient generating method based on the graph aggregator[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23(8): 13084−13093
[17] Hamilton W, Ying Zhitao, Leskovec J. Inductive representation learning on large graphs[C]//Proc of the 31st Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 1024−1034
[18] Ye Yongchao, Zhang Shiyao, Yu J J Q. Spatial-temporal traffic data imputation via graph attention convolutional network[C]//Proc of the 30th Int Conf on Artificial Neural Networks. Berlin: Springer, 2021: 241−252
[19] Blundell C, Cornebise J, Kavukcuoglu K, et al. Weight uncertainty in neural networks[C]//Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 1613−1622
[20] Louizos C, Welling M. Multiplicative normalizing flows for variational Bayesian neural networks[C]//Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2218–2227
[21] Wu Anqi, Nowozin S, Meeds E, et al. Deterministic variational inference for robust Bayesian neural networks[C/OL]//Proc of the 7th Int Conf on Learning Representations. San Juan, CA: ICLR, 2019[2022-03-14]. https://openreview.net/forum?id=B1l08oAct7
[22] Welling M, Teh Y W. Bayesian learning via stochastic gradient Langevin dynamics[C]//Proc of the 28th Int Conf on Machine Learning. New York: ACM, 2011: 681−688
[23] Li Chunyuan, Chen Changyou, Carlson D E, et al. Preconditioned stochastic gradient Langevin dynamics for deep neural networks[C]//Proc of the 30th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 1788−1794
[24] Gal Y, Ghahramani Z. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning[C]//Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2016: 1050−1059
[25] Gal Y, Ghahramani Z. A theoretically grounded application of dropout in recurrent neural networks[C]//Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 1027–1035
[26] Wu Dongxia, Gao Liyao, Chinazzi M, et al. Quantifying uncertainty in deep spatial-temporal forecasting[C]//Proc of the 27th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2021: 1841−1851
[27] Koenker R, Hallock K. Quantile regression[J]. Journal of Economic Perspectives, 2001, 15(4): 143−156 doi: 10.1257/jep.15.4.143
[28] Gasthaus J, Benidis K, Wang Yuyang, et al. Probabilistic forecasting with spline quantile function RNNs[C]//Proc of the 22nd Int Conf on Artificial Intelligence and Statistics. Cambridge, MA: JMLR, 2019: 1901−1910
[29] Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks[J]. International Journal of Forecasting, 2020, 36(3): 1181−1191 doi: 10.1016/j.ijforecast.2019.07.001
[30] Zhou Zhengyang, Wang Yang, Xie Xike, et al. STUaNet: Understanding uncertainty in spatiotemporal collective human mobility[C]//Proc of the 30th Int World Wide Web Conf. Berlin: Springer, 2021: 1868−1879
[31] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 6000–6010
[32] Tashiro Y, Song Jiaming, Song Yang, et al. CSDI: Conditional score-based diffusion models for probabilistic time series imputation[C]//Proc of the 35th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2021: 24804−24816
[33] Bai Lei, Yao Lina, Li Can, et al. Adaptive graph convolutional recurrent network for traffic forecasting[C]//Proc of the 34th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2020: 17804−17815