基于图片问答的静态重启随机梯度下降算法

李胜东1,2 吕学强3

1(中国人民大学信息学院 北京 100872)2(廊坊燕京职业技术学院计算机工程系 河北廊坊 065200)3(网络文化与数字传播北京市重点实验室(北京信息科技大学) 北京 100101)

摘 要 图片问答是计算机视觉与自然语言处理交叉的多模态学习任务.为了解决该任务,研究人员提出堆叠注意力网络(stacked attention networks, SANs).研究发现该模型易陷入不好的局部最优解,引发较高的问答错误率.为了解决该问题,提出基于图片问答的静态重启随机梯度下降算法.实验结果和分析表明:它的准确率比基准算法提高0.29%,但其收敛速度慢于基准算法.为了验证改善性能的显著性,对实验结果进行统计假设检验.T检验结果证明它的改善性能是极其显著的.为了验证它在同类算法中的有效性,将该算法和当前最好的一阶优化算法进行有效性实验,实验结果和分析证明它更有效.为了验证它的泛化性能和推广价值,在经典的Cifar-10数据集上进行图像识别实验.实验结果和T检验结果证明:它具有良好的泛化性能和较好的推广价值.

关键词 图片问答;堆叠的注意力网络;动量;静态重启;随机梯度下降

图片问答是让机器根据图片回答自然语言问题.通用的模型采用卷积神经网络(convoltional neural networks, CNN)抽取全局图片特征,采用长短期记忆网络(long short-term memory, LSTM)抽取问题特征,然后将这2种特征融合后以推断问题答案.对于简单问题,这种模型能够得到较好的结果.但当问题比较复杂时,为了过滤掉噪声信息,需要对问题进行多步推理才能准确定位答案相关的局部图片区域.此时,该模型往往不能得到准确答案.为了解决该问题,文献[1]提出堆叠注意力网络(stacked attention networks, SANs).该模型在4个公开的视觉问答数据集上进行综合评估,其性能都显著超过当时最好的结果.

虽然SANs模型在解决图片问答问题时取得良好的效果,但问题的复杂多样性和答案的稀疏性导致该模型不能完全学习到语料的普遍规律.这容易使该模型因陷入不好的局部最优解而引发模型定位到错误区域,从而导致问答错误.统计表明,该类错误占测试错误总数的22%[1],如图1所示:

Fig. 1 Model locates the wrong area and causes errors
图1 模型定位到错误区域而导致错误

图1中的问题是What swim in the ocean near two large ferries?.该问题是What类型,答案应该为object.图1(a)中的object有clouds,sky,boats,ducks,ocean.根据图1(b),第1步推理定位的答案为object(boats,ducks)和概念(swim in the ocean,near two large ferries).根据图1(c),模型在第1步推理的基础上进行第2步推理,初步定位到boats和ducks.由于它们的形状相似,而boats更大且更容易识别,模型最终定位到boats.这导致模型预测错误答案(boats),而不是正确答案(ducks).

为了解决该问题,对随机梯度下降算法进行调研和分析,提出基于图片问答的静态重启随机梯度下降算法.本文的主要贡献有4个方面:

1) 重启的思想与随机梯度下降算法融合,提出基于静态重启的随机梯度下降算法.该算法优化SANs模型,提出基于图片问答的静态重启随机梯度下降算法.实验结果和分析表明它的准确率比基于图片问答的动量随机梯度下降算法提高0.29%,但其收敛速度慢于基于图片问答的动量随机梯度下降算法.

2) 为了验证改善的显著性,对实验结果进行统计假设检验.T检验结果证明在收敛到全局最优解的过程中它的改善性能在统计意义上是极其显著的.

3) 为了验证它在同类算法中的有效性,本文将它和当前最好的一阶优化算法RmsProp,Adam,AdaDelta进行有效性实验.实验结果和分析证明它在解决图片问答问题时更有效.

4) 算法的泛化性能与数据集的选取有关.算法的推广价值与任务的选择有关.为了验证它的泛化性能和推广价值,针对图像识别任务,在经典的Cifar-10数据集上进行图像识别实验.实验结果和T检验结果证明它在收敛到全局最优解的过程中具有良好的泛化性能和较好的推广价值.

1 相关工作

若求解机器学习算法中的模型参数,并对算法中的目标函数进行优化以找到它的最小值,梯度下降是最常用的方法之一.该算法沿着导数的方向逐步收敛到函数的最优解.

z表示当前时刻,xz表示当前目标函数值,ηz表示当前学习率,F(xz)表示当前导数.该算法的数学表达形式[2]

xz+1=xz-ηz×F(xz).

(1)

梯度下降算法简单、可操作性强,在深度学习和机器学习领域得到广泛的应用.但该算法收敛速度极慢且容易陷入局部最优解.为了解决这2个缺点,研究人员提出随机梯度下降算法.

gz表示随机梯度,满足E(gz)=F(xz),该算法的数学表达形式[2]

xz+1=xz-ηz×gz.

(2)

虽然随机梯度下降算法在不同程度上解决梯度下降算法的2个缺陷,但为了使它能够针对具体问题获得最佳的处理效果,众多研究人员针对具体问题特性对它优化深度学习和机器学习问题进行大量研究,提出它的很多变种,取得较满意的效果.Yang等人[1]采用基于动量的随机梯度下降算法优化图片问答模型,提出SANs模型,解决图片问答问题;Wu等人[3]采用基于最小批的随机梯度下降算法优化图片问答模型,提出将图片内容与外部知识库提取的信息级联在一起进行多元输入的模型,解决自由形式的视觉问答问题;Yu等人[4]采用基于动量和最小批的随机梯度下降算法优化图片问答模型,提出多层注意力网络(multi-level attention network,MLAN),解决图片问答问题;Gu等人[5]和Lu等人[6]采用Rmsprop算法优化图片问答模型,较好地解决图片问答问题;Anderson等人[7]采用基于最小批的AdaDelta算法优化图片问答模型,提出自下而上和自上而下相结合的注意力机制,解决图片问答问题;Loshchilov 等人[8]将重启的思想应用到多模态学习问题中,提出基于重启的随机梯度算法,解决分类问题;Bianchi 等人[9]在随机梯度下降算法基础上提出一种新的多机系统的分布式约束的非凸优化算法的收敛性分析框架;姜纪远等人[10]针对随机梯度下降算法在求解强凸优化中的正则优化问题时的收敛速度过慢的问题,将COMID算法和α-suffix平均技巧结合,提出LIMD -α算法;杨双涛等人[11]提出异步双随机梯度算法,解决异步单随机梯度算法在集群环境中的通信冲突问题;陈振宏等人[12]针对基于模型合并的大规模随机梯度下降算法忽略参与合并模型的内在差异性而导致模型收敛速度慢和性能较差的问题,提出基于模型差异的合并策略;李平等人[13]采用基于随机梯度下降的逻辑回归方法进行文本情感分类,并利用模拟退火原理自适应选择步长,解决随机梯度下降算法中步长难以确定的问题;王功鹏等人[14]提出自适应更新学习率的随机梯度下降算法,解决学习率参数设置不当对随机梯度下降算法造成的不利影响.

总之,随机梯度下降算法在一定程度上解决梯度下降算法的2个明显缺陷,具有广泛的应用场景和良好的应用效果.在具体应用场景中,需要针对具体问题对随机梯度下降算法进行改进,得到随机梯度下降算法的变种.常用的改进方法有设置最小批、在算法中加入动量、调整学习率等.改进后的随机梯度下降算法与其他算法相结合,使目标函数逐步收敛到最小值点,从而达到算法优化的目的.

本文借鉴随机梯度下降算法改进的常规思路,分析随机梯度下降算法的工作原理和工作机制,同时考虑数据集的特点,在SANs模型的基础上提出基于图片问答的静态重启随机梯度下降算法.

2 动量随机梯度下降算法

若初始学习率设置不当,随机梯度下降算法在优化深度神经网络时易陷入局部最优解.在算法中引入动量后,可以帮助深度神经网络跳出局部最优解的限制.基于动量的随机梯度下降算法通过多次迭代在目标函数值递减的方向上累积1个速度矢量以加速梯度下降[15].

vz表示当前的速度矢量,γ表示动量系数.该算法的数学表达形式[15]

vz+1=vz×γ-ηz×gz

(3)

xz+1=xz+vz+1.

(4)

该算法仅仅增加一部分之前的速度矢量.当梯度下降保持原来的方向时,它能增加下降的步幅,从而更快地到达最小值点;当梯度下降改变方向时,它能使改变量平滑一点,这对于不好的网络初始值具有重要的弥补作用[15].因此,它能使深度神经网络较快地达到最小值点而没有太多震荡.它优化SANs模型,在4个公开的视觉问答数据集中获得当时最好的结果,本文将其作为评估基准.

3 静态重启随机梯度下降算法

随机梯度下降算法常用于解决机器学习算法中的参数优化问题.如果考虑随机性,重启的思想能够用于随机梯度下降算法[8].在深度神经网络中,梯度和目标函数值可以从一个最小批到下一个最小批的范围内变化,故重启算法也能够用于深度神经网络.深度神经网络的解空间类似于无边无际、高低起伏、绵延不绝的高山组成的峡谷,随机梯度下降算法优化的目标是找到峡谷的最低点,即目标函数值最小的点.目前的方法采用海量数据训练深度神经网络,通过随机梯度下降算法优化该网络,尽可能地在解空间中找到这个全局最低点.但随机梯度下降算法在优化深度神经网络时,若设置较大的学习率,算法收敛速度快,容易跳过最低点;若设置较小的学习率,算法收敛速度慢,且容易陷入不好的局部最低点.为了在图片问答任务中解决该问题,提出基于图片问答的静态重启随机梯度下降算法.该算法在搜索局部最优解的过程中采用退火策略,使学习率由大到小逐步减小,解决学习率过大造成算法跳过最优解的问题,同时使收敛速度适中;当最优解不是全局最优解或算法陷入不好的局部最优解时,采用静态重启策略给算法一个较大的重启学习率,使算法能跳出局部最优解,并继续寻找全局最优解.在理论上,该算法能够找到全局最优解,提高深度神经网络的性能.

ω表示当前最小批数,e表示训练次数,β表示重启周期的最小批数,φ表示重启缩放因子,ηmax表示学习率变化的上界,ηmin表示学习率变化的下界,σ表示学习率变化率.

ω%β=0,ηzηmin,则更新学习率:

ηz+1=ηz×σ.

(5)

ω%β≠0,ηzηmin,则更新学习率:

ηz+1=ηz.

(6)

ω%β=0,ηz<ηmin,则更新学习率:

ηz+1=ηmax×φ .

(7)

静态重启算法中的学习率更新随机梯度下降算法中的学习率,提出基于静态重启的随机梯度下降算法.该算法优化SANs模型,提出基于图片问答的静态重启随机梯度下降算法.它通过自适应地调节学习率寻求图片问答的全局最优解.若SANs模型接近极值点时,它缓慢地给予模型一个较小的学习率,便于模型逐步收敛到局部最优解;若该最优解不是全局最优解时,通过重启算法给予模型一个较大的学习率,便于模型跳出不好的局部最优解,并试探性地找到全局最优解.为了防止通过重启而获得的学习率太大,导致模型跳到下一个不好的局部最优解的附近,在重启时通过重启缩放因子调节重启学习率,使它在合理的范围内变化.

4 基于堆叠注意力网络的图片问答模型

基于堆叠注意力网络的图片问答模型由基于CNN的图片模型、基于CNN的问题模型、基于attention的堆叠注意力模型组成.

4.1 图片模型

图片模型用于抽取图片特征,一般采用CNN[16]模型,很少一部分采用Faster R-CNN[17]框架.CNN模型可以采用VGGNet[18],ResNet[19],GoogLeNet[20]实现.

本文采用基于VGGNet的CNN模型抽取图片特征[1].经过VGGNet处理,维度为448×448的原始图片抽取维度为14×14的图片特征.每个维度的图片特征是一个1×512维的局部图片特征向量.这些特征向量不是来自最后的全连接层,而是来自最后的池化层.因为这一层保留原始图片的空间信息,故采用这一层的图片特征能够收到更好的效果.最后,1×512维的局部图片特征向量通过单层感知机转换成与问题向量同维度的新特征向量Ii(i=0,2,…,195).196个新特征向量形成图片特征矩阵I,用于在堆叠注意力模型中与问题特征进行特征融合.

4.2 问题模型

问题模型用于抽取问题特征,常采用BOW(bag of words)[21],GRU(gated recurrent unit)[22],LSTM[23],RNN(recurrent neural network)[24],CNN[1]实现.

本文采用基于CNN的问题模型抽取问题的语义信息[1].基于CNN的问题模型由embedding层、卷积层、最大池化层构成.在embedding层中,每个单词的embedding向量由embedding矩阵乘以每个单词的one hot向量得到,然后顺次级联问题中每个单词的embedding向量,得到问题的embedding向量.在卷积层中,每个单词的embedding向量作为卷积层的输入.卷积层有一元、二元、三元的过滤器.设过滤器的尺寸为j(j=1,2,3),则尺寸为j的第s个卷积特征为Qsj.所有Qsj级联在一起,形成卷积特征Qj.在最大池化层中,对Qj进行最大池化处理,得到相应的池化特征所有的级联在一起,得到问题的特征向量Q,用于在堆叠注意力模型中与图片特征进行特征融合.

4.3 堆叠注意力模型

堆叠注意力模型用于把图片特征和问题特征融合后推断问题答案[1].经过图片模型和问题模型的处理,得到图片特征矩阵I和问题特征向量Q.它们作为单层神经网络的输入,得到其输出结果h,再把h作为softmax层的输入,得到问题相关的局部图片区域的attention分布p.p由196个局部图片attention分布pi组成.pi乘以相应的局部图片特征向量Ii,得到一维向量所有累加求和后,得到一维向量该向量不仅包含问答相关的视觉信息,而且有利于问题特征向量融合.Q与基于attention的图片特征向量融合,得到1个经过改良的查询向量q.q不仅含有答案相关的局部图片区域,而且排除答案不相关的局部图片区域.

对于简单问题,单层模型足以准确定位答案相关的局部图片区域.但对于复杂问题,需要多层模型进行多步推理才能准确定位答案相关的局部图片区域.多层模型与单层模型类似,唯一的区别是输入层中用前一层的查询向量替代Q,其他都不变.如果需要k层模型才能准确定位答案相关的局部图片区域,那么采用qk作为查询向量推断最终答案[1].本文采用2层模型,因为3层或者更多层模型不能进一步改进问答性能[1].

5 实验结果与分析

本文在基于SANs的图片问答模型上评估基于图片问答的静态重启随机梯度下降算法.基准算法为基于图片问答的动量随机梯度下降算法.评估方法为视觉问答评估算法,根据问答评估结果评估算法性能.评估数据为最复杂的VQAv1数据集.

5.1 数据集

常用的图片问答数据集有DAQUAR[25],COCO-QA[26],Visual7W[27],VQA[28],FM-IQA[29].

本文采用最复杂的VQAv1数据集.该数据集包含82 783个训练集图片和40 504个验证集图片.每个图片有3个问题,每个问题有10个答案.答案由10个不同人进行标注,故这10个答案可能相同,也可能不相同.问题类型较多,答案长度也不同,最长为17个单词.

在对数据集进行预处理时,统计答案出现的频次,根据频次对答案进行降序排列,然后抽取前1 000个高频答案(占答案总数的82.67%[1])作为对问题进行分类的类标签.训练集用于训练模型;验证集一分为二[1],分别作为验证集和测试集,用于验证训练的模型和测试训练的模型.

5.2 图片问答评估算法

根据VQAv1数据集的特点,每个问题有10个答案,它们可能相同,也可能不同,故图片问答模型对该数据集的评估方法不能采用机器学习和深度学习中常用的评估算法,只能采用文献[30]中的视觉问答度量方法,该方法的数学表达形式为

acc(a)=min((#humans that said a)/3,1).

(8)

它是一个全新的评估指标.只要人工标注的10个答案中有3个或3个以上的答案跟机器给予的答案匹配,就评估机器对该问题的回答完全正确;否则,评估机器对该问题的回答部分正确.除此之外,在评估之前,对机器产生的答案和人工标注的答案进行预处理,仅仅保留答案中的核心词.因此,该评估算法对不同人对同一个答案的不同表达形式具有较强的鲁棒性,能够产生比较客观且准确的评估结果,从而保证该算法评估图片问答结果的有效性和可靠性.

5.3 模型配置

在基准算法实验中,γ=0.9,β=1 000,e=50,η0=0.1.根据训练数据量和训练次数,最小批的总数为145 400.算法每经过β个最小批的训练更新一次学习率.在更新学习率时,测试集测试训练的模型,并输出1个测试结果.因此,算法共得到146个测试结果,从中获得全局最优结果作为算法的实验结果.

在基于图片问答的静态重启随机梯度下降算法实验中,σ=0.9, ηmax=0.1,ηmin=0.000 5,φ=0.5,其他模型配置与基准算法一致.

5.4 实验结果

根据上述实验配置,得到实验结果.为了便于在同一数量级下比较实验结果中的各个参数之间的变化趋势,学习率值放大到原来的30倍,最小批数缩小到原来的150 000,得到图片问答结果acc(a)随当前最小批数ω、学习率η、目标函数值loss变化的实验结果,如图2和图3所示:

Fig. 2 The experimental results of baseline
图2 基准算法的实验结果

Fig. 3 The experimental results of static restart
stochastic gradient descent
图3 静态重启随机梯度下降算法的实验结果

为了全面评估算法特性,本文抽取图2和图3中的全局最优实验结果和高性能算法在达到低性能算法的全局最优实验结果时的结果,如表1所示.在表1中,M和R分别表示基准算法和基于图片问答的静态重启随机梯度下降算法;符号=的左侧是高性能算法,其右侧是低性能算法.

Table 1 The Global Optimal Experimental Results
表1 全局最优实验结果

Modelωηlossacc(a)M780000.10001.670570.5218R1370000.00071.698220.5247R=M1140000.00751.707770.5220

5.5 实验分析

根据图2所示,在学习率不变的条件下,基准算法在优化图片问答模型时,随着最小批数增加,目标函数值沿着比较平滑的单调曲线方向逐渐减小,图片问答评估结果沿着比较平滑的单调曲线方向逐渐增加.对于局部异常点,比如第25个结果,目标函数值骤然上升,相应的图片问答结果也急剧下降.因此,基准算法在优化图片问答模型时,各个参数与结果之间的变化是合理的,说明它的实验结果是可信的和有效的.

根据图3所示,基于图片问答的静态重启随机梯度下降算法在优化图片问答模型时,随着最小批数增加,学习率在0.1和0.000 5或者0.05和0.000 5之间上下波动,目标函数值也相应地比较平缓地上下变化,图片问答评估结果沿着目标函数值曲线的单调性相反的方向变化.因此,基于图片问答的静态重启随机梯度下降算法在优化图片问答模型时,各个参数与结果之间的变化是合理的,没有发现异常情况,说明它的实验结果是可信的和有效的.

根据表1所示,基准算法在ω=78 000时获得全局最优实验结果,其值为52.18%;基于图片问答的静态重启随机梯度下降算法在ω=137 000时获得全局最优实验结果,其值为52.47%;基于图片问答的静态重启随机梯度下降算法在ω=114 000时能够收敛到与基准算法的全局最优实验结果相同的结果,其值为52.2%.因此,基于图片问答的静态重启随机梯度下降算法的全局最优实验结果比基准算法高0.29%,但基于图片问答的静态重启随机梯度下降算法在收敛到基准算法的全局最优实验结果的过程中,其收敛速度慢46.15%.收敛速度变慢的原因是重启学习率.每次重启学习率时,算法都跳出不好的局部最优解而重新尝试找到较好的局部最优解,并尽可能找到全局最优解.算法不断重启、迭代、探索,这个过程导致算法收敛速度变慢.

根据实验评估方法和性能度量标准,实验结果和分析表明基于图片问答的静态重启随机梯度下降算法的问答准确率高于基准算法.但它的性能改善是否显著呢?为了回答这个问题,本文对表1中的实验结果进行统计假设检验.

为了对表1中的结果进行统计假设检验,本文分别从2个算法的全局最优实验结果附近连续抽取21个样本.根据抽样结果,采用T检验法[31]对样本做统计假设检验,检验结果(显著度α=0.05)如表2所示:

Table 2 The Results of T Test
表2 T检验结果

tP4.5964.584E-05

根据表2所示,t=4.596,P=4.584E-05.因此,T检验结果中的P<0.0001,即P≪0.05,说明在收敛到全局最优解的过程中它的性能改善在统计意义上是极其显著的.

基于图片问答的静态重启随机梯度下降算法属于一阶优化算法.当前最好的同类算法有RmsProp[32],Adam[33],AdaDelta[34].为了验证它在同类算法中的有效性,在图片问答任务上进行优化算法实验,实验结果如表3所示:

Table 3 The Global Optimal Experimental Results of Optimization Algorithm
表3 优化算法的全局最优实验结果

Modelωηlossacc(a)R1370000.00071.698220.5247M780000.10001.670570.5218RmsProp1450000.10001.930070.4822Adam1190000.10001.709420.5194AdaDelta1250000.10001.771280.5007

根据表3所示,在解决图片问答任务时,基于图片问答的静态重启随机梯度下降算法的准确率高于其他优化算法.因此,它在解决图片问答问题时更有效.

Fig. 4 The experimental results of generalization performance and promotion value
图4 泛化性能和推广价值的实验结果

算法结果与数据集的选取有关.如果换一个数据集,基于图片问答的静态重启随机梯度下降算法是否有效呢?即它是否具有良好的泛化性能呢?算法结果与任务的选择有关.如果换一个任务,它是否有效呢?即它是否具有良好的推广价值呢?为了回答这2个问题,针对图像识别任务,在经典的Cifar-10数据集[35]上采用5层深度残差网络[36]进行图像识别实验.在基准算法为动量随机梯度下降算法的图像识别实验中,η0=0.1.在基于图片问答的静态重启随机梯度下降算法的图像识别实验中,e=16,β=3,ηmax=0.1,ηmin=0.000 5,σ=0.69.算法每被训练集训练3次更新1次学习率,每被训练集训练1次,测试集测试训练的模型1次,并输出测试结果.根据模型配置,得到图像识别结果,如图4所示:

根据图4所示,基于图片问答的静态重启随机梯度下降算法的全局最优实验结果为88.83%,基准算法的全局最优实验结果为85.00%.除了训练初期的个别结果外,基于图片问答的静态重启随机梯度下降算法的大部分结果都比基准算法好.但性能改善是否显著呢?从图4中的算法全局最优实验结果附近连续抽取6个样本进行T检验.t=9.655 8,P=3.207E-05.P<0.000 1,说明在收敛到全局最优解的过程中性能改善在统计意义上是极其显著的.因此,基于图片问答的静态重启随机梯度下降算法在收敛到全局最优解的过程中具有良好的泛化性能和较好的推广价值.

6 结 论

针对SANs模型解决图片问答过程中的问题,观察模型处理的细节,分析数据集的特点,发现基于动量的随机梯度下降算法在优化SANs模型时存在一定的缺陷是导致问题发生的重要原因.为了解决该问题,调研随机梯度下降算法,结合SANs模型的特点,提出基于图片问答的静态重启随机梯度下降算法.在VQAv1数据集、Cifar-10数据集、同类优化算法上进行量化对比实验.实验结果和T检验结果证明它的显著性、有效性、泛化性、推广价值.因此,它在一定程度上解决基于图片问答的动量随机梯度下降算法中的问题,具有良好的性能和较高的应用前景.

参考文献

[1]Yang Zichao, He Xiaodong, Gao Jianfeng, et al. Stacked attention networks for image question answering[C] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 21-29

[2]Yang Yuan. Why is stochastic steepest descent (SGD) a good method?[OL]. (2017-08-27) [2018-01-22]. https://zhuanlan.zhihu.comp27609238

[3]Wu Qi, Wang Peng, Shen Chunhua, et al. Ask me anything: Free-form visual question answering based on knowledge from external sources[C] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 4622-4630

[4]Yu Dongfei, Fu Jianlong, Mei Tao, et al. Multi-level attention networks for visual question answering[C] //Proc of the 2017 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 4187-4195

[5]Gu G, Kim S T, Yong M R. Adaptive attention fusion network for visual question answering[C] //Proc of the 2017 IEEE Int Conf on Multimedia and Expo. Piscataway, NJ: IEEE, 2017: 997-1002

[6]Lu Jiasen, Yang Jianwei, Batra D, et al. Hierarchical question-image co-attention for visual question answering[COL] //Proc of the 2016 Int Conf on Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2016 (2016-05-31) [2018-03-01]. https://arxiv.orgabs1606.00061v5

[7]Anderson P, He Xiaodong, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C] //Proc of the 2017 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6077-6086

[8]Loshchilov I, Hutter F. SGDR: Stochastic gradient descent with warm restarts[COL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2018-03-06]. https://arxiv.orgabs1608.03983

[9]Bianchi P, Jakubowicz J. Convergence of a multi-agent projected stochastic gradient algorithm for non-convex optimization[J]. IEEE Transactions on Automatic Control, 2013, 58(2): 391-405

[10]Jiang Jiyuan, Xia Liang, Zhang Xian, et al. A sparse stochastic algorithm with O(1T) convergence rate[J]. Journal of Computer Research and Development, 2014, 51(9): 1901-1910 (in Chinese)(姜纪远, 夏良, 章显, 等. 一种具有O(1T)收敛速率的稀疏随机算法[J]. 计算机研究与发展, 2014, 51(9): 1901-1910)

[11]Yang Shuangtao, Ma Zhiqiang, Dou Baoyuan, et al. Asynchronous double stochastic gradient descent algorithm in yarn framework[J]. Journal of Chinese Computer Systems, 2017, 38(5): 1070-1075 (in Chinese)(杨双涛, 马志强, 窦保媛, 等. 一种Yarn框架下的异步双随机梯度下降算法[J]. 小型微型计算机系统, 2017, 38(5): 1070-1075)

[12]Chen Zhenhong, Lan Yanyan, Guo Jiafeng, et al. Distributed stochastic gradient descent with discriminative aggregating[J]. Chinese Journal of Computers, 2015, 38(10): 2054-2063 (in Chinese)(陈振宏, 兰艳艳, 郭嘉丰, 等. 基于差异合并的分布式随机梯度下降算法[J]. 计算机学报, 2015, 38(10): 2054-2063)

[13]Li Ping, Dai Yueming, Wang Yan. Text sentiment analysis based on hybrid chi-square statistic and logistic regression[J]. Computer Engineering, 2017, 43(12): 192-196 (in Chinese)(李平, 戴月明, 王艳. 基于混合卡方统计量与逻辑回归的文本情感分析[J]. 计算机工程, 2017, 43(12): 192-196)

[14]Wang Gongpeng, Duan Meng, Niu Changyong. Stochastic gradient descent algorithm based on convolution neural network[J]. Computer Engineering and Design, 2018, 39(2): 441-445 (in Chinese)(王功鹏, 段萌, 牛常勇. 基于卷积神经网络的随机梯度下降算法[J]. 计算机工程与设计, 2018, 39(2): 441-445)

[15]Wang Chen. Seven common random gradient descent algorithms[OL]. 2017 [2018-02-01]. http://wangpan.loanpost54.html

[16]Kafle K, Kanan C. Visual question answering: Datasets, algorithms, and future challenges[J]. Computer Vision and Image Understanding, 2017, 163: 3-20

[17]Anderson P, He Xiaodong, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C] //Proc of the 2017 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6077-6086

[18]Lin Xiao, Parikh D. Active learning for visual question answering: An empirical study[COL] //Proc of the 2017 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017 (2017-11-06) [2018-03-20]. https://arxiv.orgabs1711.01732

[19]Wu Qi, Teney D, Wang Peng, et al. Visual question answering: A survey of methods and datasets[J]. Computer Vision and Image Understanding, 2017, 163: 21-41

[20]Agrawal A, Lu Jiasen, Antol S, et al. VQA: Visual question answering[J]. International Journal of Computer Vision, 2015, 123(1): 4-31

[21]Ren M, Kiros R, Zemel R S. Exploring models and data for image question answering[C] //Proc of the 2015 Int Conf on Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2953-2961

[22]Noh H, Seo P H, Han B. Image question answering using convolutional neural network with dynamic parameter prediction[C] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 30-38

[23]Teney D, Hengel A V D. Zero-shot visual question answering[COL] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016 (2016-11-20) [2018-03-16]. http://arxiv.orgpdf1611.05546

[24]Lin Yuetan, Pang Zhangyang, Li Yanan, et al. Simple and effective visual question answering in a single modality[C] //Proc of the 23rd IEEE Int Conf on Image Processing. Recognition. Piscataway, NJ: IEEE, 2016: 2276-2280

[25]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[C] //Proc of the 2014 Int Conf on Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 1682-1690

[26]Ren M, Kiros R, Zemel R S. Exploring models and data for image question answering[C] //Proc of the 2015 Int Conf on Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2953-2961

[27]Zhu Yuke, Groth O, Bernstein M, et al. Visual7W: Grounded question answering in images[C] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 4995-5004

[28]Teney D, Wu Qi, Hengel A V D. Visual question answering: A tutorial[J]. IEEE Signal Processing Magazine, 2017, 34(6): 63-76

[29]Yu Jun, Wang Liang, Yu Zhou. Research on visual question answering techniques[J]. Journal of Computer Research and Development, 2018, 55(9): 1946-1958 (in Chinese)(俞俊, 汪亮, 余宙. 视觉问答技术研究[J]. 计算机研究与发展, 2018, 55(9): 1946-1958)

[30]Agrawal A. VQA evaluation method[OL]. (2017-10-03) [2018-01-08]. http://www.visualqa.orgevaluation.html

[31]Tiaaaaa. T test[OL]. (2017-02-27) [2018-04-15]. https://blog.csdn.nettiaaaaaarticledetails58130363

[32]Multiangle. Summary of optimization methods[OL]. (2016-11-01) [2018-06-12]. https://blog.csdn.netu014595019articledetails52989301

[33]Yazan E, Talu M F. Comparison of the stochastic gradient descent based optimization techniques[C] //Proc of the Int Artificial Intelligence and Data Processing Symp. Piscataway, NJ: IEEE, 2017: 1-6

[34]Zeiler M D. ADADELTA: An adaptive learning rate method[OL]. (2012-12-22) [2018-03-12]. https://arxiv.orgpdf1212.5701v1.pdf

[35]Krizhevsky A. The CIFAR-10 dataset[OL]. (2009-03-31) [2018-04-20]. http://www.cs.toronto.edu~krizcifar.html

[36]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778

Static Restart Stochastic Gradient Descent Algorithm Based on Image Question Answering

Li Shengdong1,2 and Lü Xueqiang3

1(School of Information, Renmin University of China, Beijing 100872)2(Department of Computer Engineering, Langfang Yanjing Vocational Technical College, Langfang, Hebei 065200)3(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research(Beijing Information Science and Technology University), Beijing 100101)

Abstract Image question answering is a multimodal learning task intersecting computer vision and natural language processing. With the breakthroughs in the deep neural networks, it has been the hotspot and focus of many researchers’ attention. To solve the task, researchers put forward numerous excellent models. Stacked attention networks (SANs) is one of the most typical models, and gets the state-of-the-art results in the test of four public visual question answering datasets. Although it has the excellent performance, because of the diversity of question and the sparsity of answer, it cannot fully learn the universal law of the corpus, and easily fall into the poor local optimal solution, which leads to the higher question answering error rate. By analyzing the causes of the error and observing the details of the model processing image question answering, we find that stochastic gradient descent based on momentum (baseline) has some defects in the optimization of SANs. To solve it, we propose static restart stochastic gradient descent based on image question answering. The experimental results show that its accuracy is 0.29% higher than baseline, but its convergence rate is slower than baseline. To verify the significance of the improved performance, we conduct statistical hypothesis test on the experimental results. The results of T test prove that its improved performance is extremely significant in the process of converging to the global optimal solution. To verify its effectiveness in the same kind of algorithm, we conduct effectiveness experiments with it and the state-of-the-art first-order optimization algorithms. The experimental results and analysis prove that it is more effective in solving image question answering. To verify its generalization performance and promotion value, we conduct the image recognition experiment on the classic Cifar-10 for the image recognition task. The experimental results and the results of T test prove that it has good generalization performance and promotion value in the process of converging to the global optimal solution.

Key words image question answering; stacked attention networks (SANs); momentum; static restart; stochastic gradient descent (SGD)

(lsd@ruc.edu.cn)

DOI:10.7544/issn1000-1239.2019.20180472

收稿日期2018-06-27;

修回日期:2018-12-11

基金项目国家自然科学基金项目(61671070);国家语委十三五科研规划2017年度重点项目(ZDI135-53);网络文化与数字传播北京市重点实验室开放课题(ICDD201505)

This work was supported by the National Natural Science Foundation of China (61671070), the 2017 Key Project of State Language Commission 13th Five-Year Scientific Research Plan (ZDI135-53), and the Opening Project of Beijing Key Laboratory of Internet Culture and Digital Dissemination Research (ICDD201505).

通信作者吕学强(lxq@bistu.edu.cn)

中图法分类号 TP391

Li Shengdong, born in 1984. PhD candidate, lecturer. His main research interests include visual question answering, statistical machine learning and deep learning.

Lü Xueqiang, born in 1970. PhD, professor. Member of CCF. His main research interests include multimedia information processing.