互联网金融(Internet finance, ITFIN)[1]是指传统金融机构与互联网企业利用互联网技术和信息通信技术等实现资金融通、支付、投资和信息中介等服务的新型金融业务模式.其中,网络小额借贷(peer-to-peer lending or P2P lending)[2-5]和众筹(crowdfunding)[6-7]是互联网金融中2种发展比较成熟的模式.例如网络借贷中的Lendingclub,Prosper、人人贷等,众筹中的 Indiegogo,Kickstarter和国内的众筹网等.最近几年,国内互联网金融市场持续保持着指数级的增长速度,2017年中国已超越美国成为全球最大的网络借贷交易市场,网贷平台综合成交量达1 163.98亿元[7].根据世界银行预测,2025年全球众筹市场规模将达到3 000亿美元;发展中国家将达到960亿美元,其中我国将占52%[8].
互联网金融快速发展的背后却存在着政策滞后、监管缺失和相关研究不足的问题,导致了行业乱象、平台停业、清盘等频繁发生.追踪和预测市场动态(例如日交易量)可以及时推测和把握平台的系统风险,对用户和平台管理都有极重要意义.然而,在互联网环境中,金融市场的流动性增强、易变性更高,使得金融市场的动态跟踪和预测变得十分困难.并且,网络环境下影响变量增多,多种序列的耦合关系更加复杂.例如对具体互联网金融市场,除市场宏观动态序列以外,平台下各种类别金融子市场的动态对平台整体动态也有显著影响.
传统的金融时间序列预测算法大多以目标变量序列作为主要的研究对象.其中,具有代表性的技术包括自回归模型[9]、向量自回归模型[10-11]等.随着深度学习技术发展,循环神经网络(recurrent neural network, RNN)在序列问题上被广泛应用,并展现出比传统线性模型更好的学习能力[12].尤其是在金融市场的动态预测问题中,深度学习模型具有良好的非线性映射能力和较强的拟合泛化能力,因此能够更好地建模金融市场的易变特征、非线性关联以及时间序列依赖关系.在各种深度神经网络模型中,长短期记忆神经网络(long short-term memory network, LSTM)通过引入门结构,保留序列特征中需要记忆的长时信息,有效地解决了长序列依赖问题[13].另外,借助神经网络强大的异构数据处理能力,部分学者基于长短期神经网络结构设计了融合变量特征的预测模型[14].例如研究者通过结合新闻文本信息对股市涨跌进行动态预测[15],还有研究工作利用图片等异构信息辅助预测社交媒体的流行度变化[16].最近研究中发现在序列预测问题中引入注意力机制(attention mechanism)[17]能够更加有效地快速筛选出对当前任务更为关键的信息,从而进一步增强模型的预测能力.然而,传统的注意力机制主要从时间维度进行设计,无法区分多变量时间序列间的不同影响.
本文针对互联网金融市场的动态序列(具体包括市场日交易量和日交易次数),设计了基于长短期记忆神经网络结构的预测模型.模型融合市场整体的宏观动态序列以及各种子类市场的动态序列,且该模型从时间和序列特征2个维度设计2种注意力机制,建模特征的时间依赖关系和多序列输入的共同影响.最后,模型设计了基于预测序列平稳性约束的优化函数,使得模型具有更好的稳健性.通过在真实互联网金融平台大规模数据上实验验证的结果,充分说明了本文所设计方法在预测互联网金融市场动态问题上的有效性.
在金融场景中,市场信息随着时间而动态变化.因此基于时间序列的分析与预测是该领域研究所关注的重点.本节首先介绍传统的时间序列预测方法,然后介绍深度学习模型和注意力机制在时序问题中的相关研究,最后讨论金融场景中序列预测的最新相关研究工作.
根据模型的输出结果对传统经典模型进行分类,预测模型可以分为随机时序模型和确定性时序模型.传统时间序列模型一般需要严格的数学原理作为支撑,并需要较严格的条件加以约束,从而借助外推原则来推测未来变化.
1) 确定性模型
在很多实际应用问题中,时间序列的变化由多种因素叠加或耦合得来,如季节变化、趋势因素、周期性变化和不规则性等因素.为了使时间序列预测消除不规则性因素带来的影响,学者进行了相关研究.在该类预测模型中,常采用分解方法、移动平均法、指数平滑法、季节系数法来构建时间序列分析模型.
① 分解方法[18].分解方法的基本思想是将预测数据进行分解,得到季节因子、循环因子、误差因子、趋势因子和随机因子等.该类方法中一些新设计的优化调整可看做是在其原始思想上的延伸.虽然这种方法在独自使用时效果比较差,但是其作为一种基本获取数据特征的方法,仍然有着不错的应用场景.
② 移动平均法[19].该方法的基本思路是先计算一组历史序列数据的平均值,然后以该平均值作为对未来时期的预测.因此,当时间序列受到周期性波动和随机波动的影响时,序列波动很大且很难显示事件的变化规律,这时使用移动平均法可以消除这些因素的影响并得到相对稳定的趋势线.移动平均法使用方便,但由于预测精度不够故实用性不高.
③ 指数平滑法[20].该方法是一种特殊的加权移动平均法,会将较近时间距离内的数据进行加权.指数平滑法和指数平滑规则与全期平均值和移动平均长度兼容,该方法预测过程不会丢弃过往数据,并且结果会基于过往数据逐渐变化.
④ 季节系数法[19].一些应用场景中,在不同的季节,时间序列会受到不同因素的影响.例如,观察金融时间序列数据,可以发现在较长的时间周期内,数据的变化显示出明显的季节性周期.为了适应季节性因素,季节系数法是一种基于季节周期性变化来进行预测的方法,其系数用来辅助模型给出更准确的预测结果.
2) 随机性模型
统计学领域学者通过利用随机理论研究时间序列,发现时间序列中由许多随机因素共同作用引起的不规则变化并不是完全混乱而是具有一定规律性.在这种现象启发下,设计基于随机理论的预测模型引起了众多学者的关注.这类模型一般基于以下的流程:首先,观察时间序列数据分布确定一些较为合理的规约条件,然后采用演绎推理得到刻画该时间序列的理论模型.如果理论模型满足实际数据特点,则建立实际模型,进而用来进行时间序列的分析和预测.该类模型中比较有代表性的包括ARMA[20],ARIMA[21],ARCH[22],GARCH[23]等.
深度神经网络能够通过高维特征的非线性变化获得相比于传统方法更好的表示能力.在时间序列预测问题中,应用最为广泛的深度学习模型是循环神经网络(recurrent neural network, RNN)[12]及长短期记忆神经网络(long short-term memory network, LSTM)[13].循环神经网络通过引入循环机制来处理时间序列数据中的前后依赖关系.LSTM在RNN的基础上,通过引入“门”结构,对前序信息进行筛选,将不重要信息有选择地遗忘,从而解决了RNN在长序列问题中梯度消失的困难,进一步强化学习时间序列中长距离信息的依赖关系.
注意力机制是一种基于深度学习框架的优化方法[24].目前,注意力机制在自然语言处理、计算机视觉和语音识别等领域都得到了很好的应用.由于注意力机制对准确率等指标提升明显,因此很多研究人员已经在探索如何将其应用到更多需要优化的场景中.具体地,注意力模型借鉴了人类视觉注意力机制,即人类在获得信息时,会优先关注信息中重要的或者自己目前需要的部分.事实上,基于视觉的注意力机制是人类在观察时所使用的信号过滤机制.在时间序列研究中,也有相关工作探索性地应用注意力机制,并取得了一定的成功.然而,目前针对时间序列问题的注意力设计大部分只从时间维度描述序列的作用关系,而不能建模多序列特征之间的关系,这是本文设计模型时的重要出发点.
金融时序预测是以金融市场中时间序列变量作为数据和研究对象,构建数学模型以分析建模市场的变动规律,并对未来市场的动态变化进行预测的研究.传统方法对金融市场的时序预测大部分是利用有效市场假说和随机理论来对价值的波动率进行预测,而并非直接预测价值的本身.近些年来,越来越多研究者从不同领域开始对金融的时序预测问题展开了研究,例如基于混沌理论的交易序列预测[25]等.特别是随着计算机技术尤其是机器学习领域的技术发展,越来越多研究者开始关注机器学习方法在时序分析与预测问题上的应用,提出了众多的学习模型,例如深度网络模型[26]、支持向量机模型[27]以及基于聚类算法的模型[28]等.这些模型可以根据历史数据来分析市场的变化模式,并进一步对市场未来走势进行预测.
针对互联网金融场景中的时间序列问题,有专家学者进行过相关研究并提出了一些预测模型,例如马尔科夫模型[29]、转化回顾模型[30]、生存分析模型[31]和集成学习模型[32]等.
本节首先介绍长短期记忆神经网络模型的结构与原理,然后针对时间序列中重要信息的提取,分析注意力机制在序列预测问题中的设计与构建.
长短期记忆网络(long short-term memory network, LSTM)[13]在经典循环神经网络RNN的基础上,通过对网络神经元内部添加非线性“门”(gate)结构,实现有选择地遗忘非重要信息,并对前序重要信息进行加强.因此,LSTM避免了RNN对较长序列进行训练时产生无法避免的梯度消失问题.具体地,LSTM的门结构定义为
(1)
其中,it,ft,ct,ot以及ht分别表示输入门、遗忘门、记忆模块、输出门以及神经元的隐状态.LSTM的遗忘门和输入门结构通过有选择地保留历史信息,从而有效地传播梯度,避免了时序信息较长时导致的梯度消失问题.LSTM解决了RNN无法有效学习时间序列中的长距离信息依赖关系的问题,因此在很多时序建模问题中得到了很好的应用.
Fig. 1 Illustration of deep neural network prediction model based on multiple sequence attention mechanism
图1 基于多序列注意力机制的深度神经网络预测模型示例
时序问题中的注意力机制大部分基于深度循环网络的编解码(encoder-decoder)过程[33].该过程将学习模型分为两大模块,首先是由一个单层或多层RNN构成的编码器,将输入序列按照时间关系输入编码器中,用于学习已知序列的前后依赖关系以及当前状态表示;得到最后一个时刻的隐状态将其保留,称之为向量C,此向量保留了输入序列的动态信息以及当前的序列状态.然后,同样由类似结构的神经网络单元组成一个解码器,将编码向量E转换为预测长度为T′的时序信息,其每一个时刻j的输入是由向量E与目标值序列(y1,y2,…,yj-1)共同映射而得到的向量;时刻j的输出值即为对应时刻的预测值,即:
E=F(x1,x2,…,xT),
yj=G(E,y1,y2,…,yj-1).
在传统的编解码模型中,解码时每个时刻所用的上下文向量E都固定不变,这种构造没有将不同时刻所关注的信息不同的原理融入模型中[24].研究者对该问题进行了更深入的探索,将图像识别中的注意力机制引入到序列问题中[24],通过设计注意力机制与编码解码器结构相结合,提出了序列注意力机制的方法,具体为
(2)
其中,F表示注意力机制与编码器部分结合的过程,是解码器时刻j上一步的隐状态,h为编码器的隐状态集合.与传统编解码模型不同的是,对于每一个预测时刻j,该编码器都得到关注信息不同的动态上下文向量Ej,从而让解码过程能够更加注重对于当前时间预测内容更加重要的历史信息.
在上述介绍长短期记忆神经网络与注意力机制的基础上,本节详细展示本文提出的融合多时间序列市场动态预测模型的具体内容.首先介绍模型的框架,随后从多序列输入、注意力机制的设计以及优化函数3个方面进行详细介绍.
本节通过对互联网金融市场动态的特性分析,设计并实现了一种基于多时间序列的注意力网络模型(multiple time series based attention LSTM, MALSTM).图1中箭头表示各个模块中输入和输出的对应的向量,LSTM和全连接层等结构用带有标记的矩形框表示,隐含层状态矩阵用圆角矩形表示.具体地,模型首先提出一种基于多时间序列的输入模块,然后从时间和特征2个维度设计注意力机制;最后,模型设计了基于预测序列平稳性约束的优化函数,使得预测结果具有更好的稳健性.
时间序列研究中的传统方法对于时序的预测往往仅考虑目标变量时间序列自身的变化情况,没有考虑同时刻其他特征序列的相互影响.但是在互联网金融市场的动态分析中,其市场动态是会受到多个不同细分子类市场动态的共同影响;因此,本文对市场整体宏观动态以及多个类别市场的子序列同时进行建模,建立多类时间序列输入:
(3)
其中,xt表示时刻t模型的整体输入,表示当前时刻第c个子类序列的输入数据,例如表示平台在时刻t交易量观察值;而则表示某个类别(例如科技类或者稳健类项目)市场的交易量.接下来,如图1所示,模型通过一个单层LSTM,建模多输入时间序列的动态演变过程.具体地,对于每一个时间步都有:
ht,ct=LSTM(ht-1,ct-1),
(4)
其中ht,ct分别表示当前时刻t的市场隐状态以及记忆状态.因此,通过LSTM可以得到当前多序列的动态表征hT.
通过多序列的LSTM输入建模后,可以得到每时刻市场动态状态ht,以及多序列输入的记忆状态ct.考虑到金融市场的宏观动态建模需要前序时间段序列中的重要信息,因此模型需要学习不同时刻的信息对于长期变化预测所起的关键性作用;同时,考虑到宏观市场的组成,模型应能够自动挖掘对整体宏观序列预测影响最大的子类序列,并进一步增强对市场动态预测的能力.因此,本文分别从时间以及多序列特征维度设计2种注意力机制对市场动态的重要影响因素进行了建模.
首先,通过借鉴传统编解码模型设计思想,即不同时刻的隐状态被关注程度是不同的,在时间维度中构建基于市场历史状态的注意力机制.
依据3.1节中LSTM输入模块处理流程,可得每个时刻隐层状态所组成的输出矩阵h=[h1,h2,…,hT].模型进一步将h作为编码器的输出,矩阵h中的每个列向量ht表示时刻t的市场状态,并将其作为注意力机制的输入.进而通过式(5)计算出当前时刻状态对预测状态yj的重要程度:
(5)
其中,是解码器上一阶段的隐状态,ht是编码器中时刻t的市场状态,Wa,Ua和分别是解码器隐状态、编码器状态以及注意力机制的参数矩阵,etj表示编码器中时刻t的市场状态对于当前预测时刻j状态输出的影响程度.最后通过softmax函数,对etj进行归一化操作,从而获得每一个历史时刻市场状态对当前预测的权重因子atj,即在时间维度上的注意力值.
另外,考虑到市场宏观动态受到多个子类时序变化的影响,本文提出另一种基于多序列特征维度的注意力机制.不同于时间维度,多序列维度注意力机制需要考虑到每一个序列的历史编码状态对于市场完整宏观动态的影响.通过根据每一个序列在编码器序列的所有状态计算当前序列状态对宏观市场动态的影响程度,具体过程:
(6)
其中,表示第k个子序列的历史隐状态,Uβ和是注意力机制的参数矩阵,βk即为当前序列对宏观市场的影响权重因子.考虑到解码器需要同时融合时间和特征维度的注意力机制,本文设计注意力权重线性联合方法,即可得到历史序列对时刻j市场预测的总权重因子Ej:
(7)
最后,通过利用LSTM结合注意力因子Ej即可组成模型的解码器部分,从而可以逐步获取在时刻j的预测值
(8)
当j=1时,其中,(hf,cT)为历史序列的编码输出,hf为宏观市场的隐状态,cT表示历史序列最后的记忆状态.
从宏观层面分析,相比于具体金融产品而言,金融市场的动态变化由于总需求与总供给的相对平衡而趋于平缓[28].因此对于宏观市场的表征也应是趋于稳定平缓变化.本研究对于模型宏观市场的输出表征,提出一种线性演变约束过程,即采用式(9)的条件分布使模型对宏观动态编码过程中满足线性平稳约束:
ht|ht-1~N(Mht-1,Σ),
(9)
其中M是状态转移矩阵,其值在模型训练过程中进行优化,Σ为协方差矩阵.由此可以看出,宏观市场的隐状态不再是直接由LSTM生成,而是由市场的最终状态演化而来,演化方式具体为
hf=MhT,
(10)
其中,hf表示的是宏观市场的隐状态,hT表示历史信息的最后时间步状态.为了进一步满足市场宏观动态的平稳特性,我们设计一种基于历史隐状态线性演变过程的优化目标,用于约束模型学习过程中对宏观市场的表征满足线性平稳特性.具体优化目标为最小化Lp:
(11)
模型最终目的是通过对历史序列信息的学习预测未来T′时间的市场状态;因此,准确度是最重要的优化目标.模型选择目前时序预测中最常见的均方根误差(root mean squard error, RMSE)[29,31]作为模型准确性的优化函数,具体如式(12)所示:
(12)
进一步,为了防止模型训练造成过拟合,引入可调参数λ平衡模型在平稳性以及准确程度上的优化目标.最终的优化函数:
(13)
具体地,模型使用初始学习率为0.000 1的RMSProp算法[34]优化模型参数直至模型收敛.
本节提出的模型提出解码器需要同时考虑时间和特征维度不同特征的重要程度,从而设计了一种新的注意力结构.并且模型考虑到从宏观层面分析,金融市场的动态变化由于总需求与总供给的相对平衡会相对趋于平缓,因此设计了线性平稳约束函数对预测过程进行约束.这2点改进为本文模型最为重要的创新点.
本节通过在真实数据集上构建实验验证所设计模型在互联网金融市场宏观动态预测问题上的有效性.
本文实验数据全部来源于Prosper平台,该平台是全球第二大互联网P2P借贷平台.实验收集了平台自2006-04-01至2011-05-25平台有记录的总计1 622 d的贷款人投资记录.实验中按照4∶1的比例将所有数据样本划分为训练集和测试集,即1 297 d交易数据用于模型训练,325 d交易数据用于测试.具体地,实验中主要以日交易额和交易次数2种变量作为研究对象.参照平台的用户信用评级,将7种(风险由高到低依次为:“HR”,“E”,“D”,“C”,“B”,“A”,“AA”)不同风险评级的项目的动态序列提取出来,构成宏观市场的子类序列作为模型的输入,并按照滑动窗口的方法构建每个样本的历史序列和目标序列(例如采用平台上10 d的历史数据预测未来10 d每天的目标变量).
考虑到平台采集的真实数据可能存在不完整、不一致的特性,本文对训练集以及测试集进行了预处理:1)首先使用线性插值法处理数据集中的缺失值.使用线性插值是因为在时间序列问题中对于缺失值不能做简单的删除操作,它会导致时间序列索引的断裂.2)对原始时间序列进行数据标准化,不同信用等级时间序列的变量数值大小差异较大,数值较大的序列对模型训练和预测结果的影响会有较大干扰,直接输入到模型中可能会导致模型的权重偏移.实验中采用数据归一化的方法将所有的时间序列变量映射到[0,1]区间内:
(14)
其中,X为序列变量的原始数据,Xmax,Xmin分别是原始序列变量中的最大值和最小值,X*为经过数据归一化的值,其取值范围为[0,1].
本节分别介绍实验平台、对比方法和评测指标.
4.2.1 实验平台
实验中本文所提出的MALSTM模型以及全部对比方法均基于python 3.5以及tensorflow1.2.1实现,并且涉及到LSTM结构的所有模型中神经元个数设置为200,Dropout为0.5,λ=0.001,Batchsize大小设置为8.本文所有方法程序均在配置2块2.20 GHz Intel Xeon E5-2650 v4 CPU以及4块Tesla K80 GPU的Linux环境下运行.
4.2.2 对比方法
为了对比验证本文所提出模型的效果,共选取和设计了4种方法作为对比实验.
1) 自回归差分移动平均模型(ARIMA).经典的传统时间序列预测模型,输入为单时间序列,只包括平台总金额或总贷款笔数.
2) 单序列输入的LSTM模型[12](记为LSTM).在循环网络模型中使用LSTM构造编码器和解码器,每个时间步的输入只包括每天的平台总金额或总交易笔数.
3) 多序列输入的LSTM模型(记为LSTM-M),使用LSTM构造编码器和解码器,参考本文的多序列输入机制,每个时间步的输入除了当前每天的平台总金额数或总交易笔数之外,还包含不同风险等级项目每天的总金额数或总交易笔数.此模型也看作是传统模型的一个改进.
4) 多序列注意力机制模型(记为MALSTM-t).在LSTM-M模型的基础上增加了时间纬度上的注意力机制.
5) 多序列注意力机制模型(记为MALSTM),即本文所提出的基于多序列输入的注意力模型.MALSTM在训练中只使用RMSE作为优化目标.
6) 加入平稳性优化目标的模型(MALSTM-L).在MALSTM模型中加入了本文提出的线性平稳约束对模型进行优化,并使用本文设计的完整优化函数.
4.2.3 评测指标
本文使用在时间序列预测领域中最为广泛采用的均方根误差(root mean squard error, RMSE)[27,29]以及平均绝对误差(mean absolute error, MAE)[29]作为预测精准度评价标准,两者基本原理是计算预测序列的目标值与预测值之间的差异性大小,RMSE和MAE值越小代表预测精准度越高,RMSE和MAE计算方法为
(15)
本文分别对平台的总贷款金额和总贷款笔数进行预测对比实验,固定历史天数为10的情况下,将预测天数调整为1~10,观察不同模型的表现情况.
表1和表2分别给出了4种算法在预测天数1~10 d中平台总交易金额预测结果的RMSE和MAE值.从表中可以很清晰地观察到本文提出的模型(MALSTM与MALSTM-L)显著优于其他对比模型.其中,在RMSE指标上,本文提出的MALSTM与MALSTM-L相较于经典注意力架构MALSTM-t分别取得了最大2.04%和4.18%的效果提升,相对于未使用注意力机制的其他模型取得了4.45%~6.72%以及6.04%~8.67%的提升.同时,在MAE指标上,MALSTM与MALSTM-L相较于经典注意力架构MALSTM-t分别取得了最大1.78%和4.33%的效果提升,相对于未使用注意力机制的其他模型取得了4.26%~8.96%以及5.82%~11.06%的提升.这些结果说明了本文提出的多输入注意力深度网络模型的有效性与先进性.同时,通过比较本文提出的2个模型,可以发现MALSTM-L相比于MALSTM在RMSE指标和MAE指标上,分别平均提升了2.02%以及2.52%,这说明了模型基于的平稳性约束条件的合理性和有效性,并证明了市场宏观的动态变化是趋于平稳的.
Table 1 The RMSE Results of the Market Amount Prediction in the Next Ten Days
表1 对未来10 d市场的交易总额预测结果的均方根误差
MethodDays12345678910ARIMA0.06400.06330.06400.06460.06590.06560.06640.06750.06880.0707LSTM0.06270.06330.06370.06410.06510.06550.06720.06800.06950.0718MLSTM0.06240.06280.06310.06290.06360.06420.06460.06530.06600.0669MALSTM-t0.05890.05930.06020.06070.06110.06180.06220.06260.06300.0637MALSTM0.05920.05940.05970.06010.06050.06090.06160.06140.06180.0624MALSTM-L0.05830.05840.05860.05910.05940.05960.05960.06000.06060.0611
Note: The best results are in bold.
Table 2 The MAE Results of the Market Amount Prediction in the Next Ten Days
表2 对未来10 d市场的交易总额预测结果的平均绝对误差
MethodDays12345678910ARIMA0.04480.04550.0460.04690.04880.04890.04960.05070.05240.0536LSTM0.04410.04530.04580.04650.04810.04870.05020.05130.05320.0554MLSTM0.04370.04450.04490.04460.04520.04620.04690.04800.04910.0497MALSTM-t0.04160.0420.04280.04300.04390.04440.04470.04500.04530.0462MALSTM0.04130.04170.04220.04270.04320.04380.04490.04420.04470.0459MALSTM-L0.04060.04090.04120.04200.04260.04310.04290.04320.04380.0442
Note: The best results are in bold.
进一步,通过对预测结果按照时间维度的横向分析,可以发现随着预测时间的推移,传统的LSTM与MLSTM模型预测效果显著减低,例如,2个模型在第10天预测结果相比较于第一天准确度在RMSE指标下分别降低了14.51%与7.21%.由此可以看出,对于长期预测问题,多序列输入模型显著优于直接输入目标单序列的模型,这证明了多序列之间的相互关系能够有效地辅助市场的宏观动态建模,并提高模型对于远期预测结果的准确性.同时,对于MALSTM和MALSTM-L模型,远期的预测结果在RMSE指标下仅降低了5.41%以及4.80%,这表明本文提出的模型能够很好的建模金融市场宏观动态的长期波动情况,同时也说明在市场宏观预测问题中,平稳性约束的有效性,进一步证明了本文提出的模型在金融宏观市场预测问题中的稳健性.
图2展示的是4种算法在预测1~10 d中平台总交易笔数预测结果的RMSE和MAE值.从图2可以清晰看出,本文提出的带有平稳性约束的MALSTM-L模型效果最佳,其次是多序列注意力模型MALSTM,然后是多序列输入的MALSTM-t和MLSTM模型,效果最差的是ARIMA模型和原始的LSTM模型.结果进一步表明本文所提出的多序列对市场宏观动态预测的重要性,同时也证明了基于多序列注意力机制的有效性以及本文所设计模型的先进性.同时,图2中结果显示序列预测模型的准确度随着预测时间的推移表现出先上升后下降.同时,对比4种方法的预测误差的变化趋势可以发现,MALSTM-L模型的误差随着时间的推移变化幅度最小,这进一步验证本文提出的模型在宏观市场预测问题中的稳健性,也说明了引入的市场平稳性约束的有效性.另外,相比较而言,由于交易笔数序列比交易金额序列平稳性差,所以,在表3和表4的结果中,MALSTM-L有个别情况时表现弱于MALSTM.
Fig. 2 The results of the market transaction quantity prediction in the next ten days
图2 模型对未来10 d金融市场的交易单数预测结果
Table 3 The RMSE Results of the Market Counts Prediction in the Next Ten Days
表3 对未来10 d市场的交易笔数预测结果的均方根误差
MethodDays12345678910ARIMA0.08160.08100.08000.07920.07710.07750.07800.07940.08050.0826LSTM0.08120.08010.07900.07780.07630.07610.07730.07890.08100.0833MLSTM0.08000.07860.07730.07460.07490.07480.07710.08130.07790.0847MALSTM-t0.08010.07790.07650.07500.07430.07480.07630.07640.07720.0774MALSTM0.07890.07740.07600.07440.07400.07490.07570.07510.07570.0759MALSTM-L0.07770.07710.07560.07480.07300.07420.07440.07470.07580.0761
Note: The best results are in bold.
Table 4 The MAE Results of the Market Counts Prediction in the Next Ten Days
表4 对未来10 d市场的交易笔数预测结果的平均绝对误差
MethodDays12345678910ARIMA0.05850.05770.05620.05550.05380.05440.05530.05670.05720.0584LSTM0.05810.05700.05590.05450.05330.05310.05500.05620.05790.0596MLSTM0.05690.05540.05410.05180.05240.05220.05410.05730.05480.0611MALSTM-t0.05700.05490.05340.05210.05140.05200.05360.05390.05450.0548MALSTM0.05500.05380.05280.05160.05120.05240.05330.05280.05360.0540MALSTM-L0.05440.05360.05260.05190.04970.05100.05140.05220.05390.0544
Note: The best results are in bold.
本文针对互联网金融市场的宏观动态预测进行研究,首先介绍了互联网金融市场时间序列动态的特点与预测问题的研究背景.然后回顾了传统时间序列预测方法,基于深度学习的方法和注意力机制,并对当前金融市场时序预测研究进行了简要介绍.针对互联网金融市场的流动性强、易变性高的特点,本文提出了一种基于深度神经网络融合层次多时间序列学习的预测模型.首先,该模型可以实现对多序列(宏观动态序列和多种子序列)特征变量输入的处理,并且在时间和序列特征2个维度上利用注意力机制融合输入变量;其次,模型设计了基于预测序列平稳性约束的优化函数,使得模型预测具有更好的稳健性;最后,在真实大规模互联网金融数据集上进行了大量实验,实验结果表明本文所提出的基于深度神经网络融合层次多时间序列学习的预测模型取得了最佳的预测性能,充分证明了模型在互联网金融市场宏观动态预测问题上的有效性与稳健性.
本文探索了互联网金融市场的宏观动态预测问题,并建模了多序列输入对于市场动态的影响,同时利用了市场宏观动态的平稳性特点,提升了时序预测准确度,为时间序列预测提供了一种新的研究思路.未来的研究可以从2个方面展开:1)进一步探索子序列对于宏观动态的影响以及各个子序列之间的相互影响关系;2)探索外部信息,例如新闻媒体文本等对市场宏观动态预测的影响.
[1]Zhao Hongke. Data mining and its applications for micro entities in Internet finance[D]. Hefei: University of Science and Technology of China, 2018(赵洪科. 面向互联网金融微观对象的数据挖掘方法及应用研究[D]. 合肥: 中国科学技术大学, 2018)
[2]Belleflamme P, Lambert T, Schwienbacher A. Crowd-funding: Tapping the right crowd[J]. Journal of Business Venturing, 2014, 29(5): 585-609
[3]Zhao Hongke, Ge Yong, Liu Qi, et al. P2P lending survey: Platforms, recent advances and prospects[J]. ACM Transactions on Intelligent Systems and Technology, 2017 (6): 72
[4]Zhang Yu, Lü Bing, Chen Chunyan, et al. Product multi-dimensional evaluation and global recommendation in P2P lending market[J].Journal of Chinese Computer Systems, 2016, 37(2): 308-311 (in Chinese)(张钰, 吕冰, 陈春燕, 等. 网络小额贷款平台产品多维度分析与全局推荐[J]. 小型微型计算机系统, 2016, 37(2): 308-311)
[5]Haewon Y, Byungtae L, Myungsin C. From the wisdom of crowds to my own judgment in microfinance through online peer-to-peer lending platforms[J]. Electronic Commerce Research and Applications, 2012, 1(6): 469-483
[6]Akaike H. Fitting autoregressive models for prediction[J]. Annals of the Institute of Statistical Mathematics, 1969, 21(1): 243-247
[7]Feng Bo, Ye Qiwen, Chen Dongyu. Review on P2P online lending and new research opportunities for China’s case[J]. Journal of Management Sciences in China, 2017, 20(4): 113-126 (in Chinese)(冯博, 叶绮文, 陈冬宇. P2P网络借贷研究进展及中国问题研究展望[J].管理科学学报, 2017, 20(4): 113-126)
[8]Luo Min, Zhou Mengya. Bottleneck analysis of independent development of crowdsourcing Websites[J]. China Newspaper Industry, 2015 (20): 26-27 (in Chinese)(罗敏, 周梦雅. 众筹网站独立发展瓶颈分析[J]. 中国报业, 2015 (20): 26-27)
[9]Sims C A. Macroeconomics and reality[J]. Econometrica: Journal of the Econometric Society, 1980, 48(1): 1-48
[10]Johansen S. Estimation and hypothesis testing of cointegration vectors in Gaussian vector autoregressive models[J]. Econometrica: Journal of the Econometric Society, 1991, 59(6): 1551-1580
[11]Hopfield J J. Neural networks and physical systems with emergent collective computational abilities[J]. Proceedings of the National Academy of Sciences, 1982, 79(8): 2554-2558
[12]Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780
[13]Zhang Yi, Guo Quan, Wang Jianyong. Big data analysis using neural networks[J]. Journal of Sichuan University (Engineering Science Edition), 2017,49(1): 9-18 (in Chinese)(章毅, 郭泉, 王建勇. 大数据分析的神经网络方法[J].工程科学与技术, 2017, 49(1): 9-18)
[14]Hu Ziniu, Liu Weiqing, Bian Jiang, et al. Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction[C] //Proc of the 11th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2018: 261-269
[15]Wu Bo, Cheng Wenhuang, Zhang Yongdong, et al. Sequential prediction of social media popularity with deep temporal context networks[C] //Proc of the 26th Int Joint Conf on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2017: 3062-3068
[16]Cinar Y G, Mirisaee H, Goswami P, et al. Position-based content attention for time series forecasting with sequence-to-sequence RNNs[C] //Proc of the 31st Int Conf on Neural Information Processing. Berlin: Springer, 2017: 533-544
[17]Tsay R S. Analysis of Financial Time Series[M]. New York: John Wiley & Sons, 2005
[18]Cleveland R B, Cleveland W S, McRae J E, et al. STL: A seasonal-trend decomposition[J]. Journal of Official Statistics, 1990, 6.1: 3-73
[19]Das, Samarjit. Time Series Analysis[M]. Princeton, NJ: Princeton University Press, 1994
[20]Montgomery D C, Johnson L A, Gardiner J S. Forecasting and Time Series Analysis[M]. New York: McGraw-Hill, 1990
[21]Engle R F. Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation[J]. Econometrica: Journal of the Econometric Society, 1982, 50(4): 987-1007
[22]Bollerslev T. Generalized autoregressive conditional heteros-kedasticity[J]. Journal of Econometrics, 1986, 31(3): 307-327
[23]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014
[24]Kazem A, Sharifi E, Hussain F K, et al. Support vector regression with chaos-based firefly algorithm for stock market price forecasting[J]. Applied Soft Computing, 2013, 13(2): 947-958
[25]Azoff E M. Neural Network Time Series Forecasting of Financial Markets[M]. New York: John Wiley & Sons, Inc, 1994
[26]Sapankevych N I, Sankar R. Time series prediction using support vector machines: A survey[J]. IEEE Computational Intelligence Magazine, 2009, 4(2): 24-38
[27]Wang Weina, Pedrycz W, Liu Xiaodong. Time series long-term forecasting model based on information granules and fuzzy clustering[J]. Engineering Applications of Artificial Intelligence, 2015, 41(C): 17-24
[28]Tobin J. Essays in Economics: Macroeconomics[M]. Cambridge, MA: MIT Press, 1987
[29]Zhao Hongke, Liu Qi, Zhu Hengshu, et al. A sequential approach to market state modeling and analysis in online P2P lending[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems 48, 2018, (1): 21-33
[30]Zhao Hongke, Zhang Hefu, Ge Yong, et al. Tracking the dynamics in crowdfunding[C] //Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2017: 625-634
[31]Jin Binbin, Zhao Hongke, Chen Enhong, et al. Estimating the days to success of campaigns in crowdfunding: A deep survival perspective[C] //Proc of the 28th Int Joint Conf on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2019: 1-8
[32]Ren Xiaoying, Xu Linli, Zhao Tianxiang, et al. Tracking and forecasting dynamics in crowdfunding: A basis-synthesis approach[C] //Proc of the 18th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2018: 1212-1217
[33]Cho K, Van Merri⊇nboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078, 2014
[34]Tieleman T, Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude[J]. COURSERA: Neural Networks for Machine Learning, 2012, 4(2): 26-31