<span class="emphasis_bold">目标成本值最优的物联网WSS蠕虫抑制算法</span>

摘要物联网无线服务系统(wireless service system, WSS)是以通用的协议标准实现人与物、物与物相连的实时网络交互系统.该系统在设备中嵌入无线传感器节点以实现数据上传和决策下发，但传感器节点的同构性特点使得蠕虫传播问题日益严重.为此，在对现有蠕虫传播的流行病模型进行分类并总结各类模型特点的基础上，首先提出了具有睡眠状态和隔离状态的流行病模型，定义了系统中节点的状态转换关系；其次，依据节点的射频通信距离，确定了具有实际传染能力的感染节点数量及范围；再次，引入蠕虫与无线服务系统的目标成本函数，给出了基于目标成本值的完全信息动态微分博弈模型；然后，证明了该博弈存在鞍点策略，利用状态变量、协状态变量和汉密尔顿函数求解鞍点策略并设计了保证目标成本值最优的防御策略算法；最后，仿真实现本算法与2种蠕虫防御策略算法，通过各状态节点的变化特点及目标成本值的对比实验进行性能评估.实验结果表明：基于改进流行病模型的最优防御算法在抑制无线服务系统蠕虫传播方面有明显优势.

关键词物联网；无线服务系统；蠕虫传播；微分博弈；汉密尔顿函数

作为互联网的发展与延伸，物联网技术将广泛应用于社会的方方面面[1-3].依据数据采集及传输方式，物联网可分为有线服务系统和无线服务系统(wireless service system, WSS).物联网WSS的实质是将最新的信息处理与通信技术进行有效的整合，利用各种感知设备和智能物体采集语音、图像、位置等数据信息，并通过无线通信方式将采集到的信息传递到资源平台进行云计算、数据挖掘等操作后，将处理与控制结果呈现给各用户终端[4-6].然而，由于WSS需要将大量感知设备和物体连接到应用系统中，而且这些设备和物品信息大多采用资源受限的无线传感器网络节点进行传输，这在增加系统灵活性和方便性的同时，为蠕虫在网络中的大规模传播提供了便利条件[7].蠕虫可以窃取被感染节点的隐私数据和敏感信息，同时伪造身份向邻居节点发送包含恶意代码的无线再编程指令，使感染蠕虫的节点数量不断增加.被感染节点可能导致系统大面积数据阻塞甚至瘫痪.感知设备中嵌入的大多数无线传感器节点具有资源有限的特性，如何最大限度地防御蠕虫在系统中的传播成为物联网快速发展的关键.目前，针对无线网络中蠕虫的研究主要是利用传统的流行病模型构建传播体系[8]，在此基础上，分析不同网络参数对传播速率的影响[9].

许多分布式网络中的蠕虫传播及抑制方案这些年被相继提出以保护采集数据的安全性和隐私性.有线网络中经典的Kermack-Mckendrick参考模型将节点划分为3种不同的状态，利用控制参数和动力学微分方程描述蠕虫的传播速率，但仅将节点状态假设为易感状态，感染状态和恢复状态与WSS中IEEE 802.15.4协议不符[10].基于Markov链的传播模型通过引入节点半径与信道扫描的速率等参量求解各状态变量的微分博弈方程，但该方法未考虑WSS中基站控制节点休眠和唤醒转换概率的情况[11].基于细胞自动机的传播模型对多跳广播协议中的蠕虫病毒传播特点进行了模拟，但并未给出具体的防御和抑制方案[12].Bradley等人[13]提出了一种基于进程代数的复合主动蠕虫传播模型，通过PEPA流近似方法求解各状态的常微分方程.但该模型需要消耗大量系统资源，并不适用于节点资源受限的WSS.基于分层结构的异构网络蠕虫传播模型Enhanced-AAWP利用本地优先扫描蠕虫和随机扫描蠕虫等方法研究蠕虫的渗透传播过程[14].由于传统蠕虫传播模型中未考虑设备节点失效和休眠状态，因此，现有传播机制的分类并不适用于WSS.

高效的蠕虫分类机制是提高蠕虫传播模型准确性和防御策略效率的重要因素.为解决现有蠕虫分类准确性差的问题，朱克楠等人[15]基于朴素贝叶斯机器学习提出了利用行为序列报告和操作相似度窗口对蠕虫进行自动分类的方法.该方法为WSS蠕虫传播及抑制模型的进一步研究提供了有力支撑.

上述方案仅利用各种传播模型对蠕虫在不同网络环境下的传播特点和分类方法进行了分析，依据动力学原理获取不同节点的数据集，并未研究如何基于传播规律建立动态防御策略集抑制蠕虫在WSS中的传播.

快速准确的蠕虫检测方法是实现WSS动态最优策略防御的基础.近年来，一些学者通过降低噪声和网络随机事件的干扰，提出了许多基于行为序列的检测算法.毛蔚轩等人[16]利用节点休眠状态和基于人工经验的自适应学习方法，在分析网络拓扑中各层节点数据流依赖关系的基础上，给出了一种进程调用行为相似性与异常度结合的蠕虫抑制算法.该算法保证在已知少量蠕虫样本的条件下得到理想的检测率.文献[17]提出基于平均场法建立免疫模型，但该模型的抑制策略中没有休眠模式.针对混淆蠕虫攻击难以检测的问题，马洪亮等人[18]提出利用遍历抽象语法树(abstract syntax tree, AST)和单等级支持向量机(one class support vector machine, OC-SVM)检测混淆并跟踪节点相关的变量终值检测反混淆.Das等人[19]用频繁项离群确定同源度，并对同源判定阈值进行预定义，进而实现蠕虫的同源判定.郭洋河等人[20]将数据和行为依赖关系相结合，提出了一种基于造价序列库的蠕虫识别机制.文献[21-22]利用挂钩API的方法追踪外部节点的访问行为，改善了动态检测方法执行路径单一的问题.这些检测方法对蠕虫的检测成功率较高，但缺少与WSS匹配的蠕虫最优防御算法.

在现有的蠕虫检测策略条件下，如何设计最优防御算法是WSS在高安全领域应用的关键.文献[23]指出可以将蠕虫防御问题转化为动态博弈纳什均衡的求解问题.Mishra等人[24]引入攻击方的类型概率和收益矩阵，通过判断贝叶斯博弈中收益函数值选取最优动作集合，但该方案不能实时校正外部节点的后验概率.Pandey等人[25]将蠕虫和系统的攻击防御转化为二者的最优化博弈问题，提出基于僵尸网络环境的流行病模型以及微分博弈机制，在考虑防御策略及恶意软件参数限制的基础上给出了动态博弈的闭环纳什均衡解.该方案虽然得到了微分博弈最优解，但未讨论隔离状态对其他网络状态的影响.这些方案虽然对蠕虫在无线网络中的传播及抑制进行了一定程度的研究，但并未考虑WSS中基站能够使易感节点免疫，同时可以广播补丁程序治愈已感染节点.

结合WSS中的网络参数及节点状态特点，仍需重新建立传播模型及基于时间特性的动态微分博弈模型，在满足网络参数约束条件的情况下，有效抑制蠕虫在网络中的传播并使系统的安全成本最低.

本文的贡献是构建一个描述物联网WSS蠕虫传播规律的流行病模型和蠕虫防御动态微分博弈模型，求解最优策略控制集合的取值并给出了抑制蠕虫传播的防御算法.具体地，本文主要得到3个方面的结果：

1) 依据物联网中WSS的网络拓扑结构，对蠕虫攻击下设备节点之间的状态转换过程进行分析，给出了WSS状态转换图和各状态微分方程，利用通信半径确定具有感染能力的节点区域和数量并构建改进的流行病模型.

2) 建立蠕虫和WSS间的动态微分博弈模型，通过目标成本函数量化攻击方和防御方不同决策所得到的成本支付.

3) 利用汉密尔顿函数、瞬时成本函数以及终期成本函数的线性条件证明了动态微分博弈鞍点的存在性.结合成本函数与汉密尔顿函数的最小化极值特点，求解蠕虫传播的最优防御策略并给出了具体算法.

1基础知识

1.1WSS系统结构

随着物联网在各个领域的快速发展，其安全问题越来越受到重视，尤其是对信息安全性和隐私性要求较高的WSS中.WSS大多采用无线传感器网络技术实现各节点之间的数据与图像传输、数据处理、实时控制等.无线信道的开放性和节点的同构性使恶意软件很容易在网络中大面积传播.

物联网WSS的系统结构如图1所示.该系统的目标是保证无论何时、何地、任何媒体设备的实时连通性和可控性.其结构主要包括无线传输系统、数据采集系统和终端用户系统.由于WSS设备的移动性和采集数据分布范围广的特点，无线传感器网络技术在WSS数据采集和传输中的应用较为普遍.但嵌入无线传感器网络节点的设备一旦被蠕虫感染，极易在网络中传播.这些被感染的节点对系统数据的机密性、隐私性和完整性构成了巨大威胁.

1.2网络链路模型

WSS中各节点链路可模型化为由N个节点组成的无向图.设p(dab)为节点a和b之间存在一条无向边的概率，则网络中各WSS节点之间存在的边的总数为

令ξ为节点的平均度数，即每个节点持有的平均链接数为

节点间存在链接的概率p(dab)由WSS中的无线电通信机制以及节点间的通信半径决定.信号发射端与信号接收端通过阈值判定模型确定节点间是否存在通信链路[26].

1.3传统流行病模型

流行病模型最早是用于预测和描述具有传染性因素特征的部分人员集合随时间实时变化的态势.这些因素特征包括网络节点的发送率、接收率、传播速率等.依据不同网络的特点，现有流行病模型分为SI[27]，SIS[28]，SIR[29]模型.

通常情况下，网络中感染节点注入安全补丁可以转变为恢复状态.因此，SIR模型更适用于具有安全补丁的网络流行病传播特点.S(t)，I(t)，R(t)分别代表在时刻t易感节点、感染节点和免疫节点的数量.假设网络中各节点之间存在通信链路，令α为蠕虫感染速率，β为免疫速率，则描述各状态节点变化速度的微分方程为

分析其他网络模型时，可以依据经典SIR模型和具体的网络协议进行分析和求解.

1.4蠕虫攻击模型

WSS中传播的蠕虫主要指被动型蠕虫.假设WSS中源节点的安全认证机制失效，蠕虫控制该节点并获取认证密钥.感染节点利用签名密钥对嵌入蠕虫字段的再编程命令帧签名并发送到邻居节点.其他邻居节点收到伪装的命令帧后验证认证机制，更新配置并执行相应操作.蠕虫在WSS节点间通过多跳的形式向外传播.感染节点采集和传输的数据遭受窃听、篡改和破坏.

2WSS系统模型

2.1状态转换

WSS中的蠕虫传播可以用包含易感节点、感染节点和免疫节点的区域来表示.不同状态节点的分布如图2所示.由于免疫节点在全网均匀分布，因此，未在系统模型中标出.

假设WSS中的节点个数为N，各区域节点分布密度为σ.若整个网络节点分布不均匀时通过转换可等效为统一的分布密度.在时刻t，易感节点的数量为S(t).同样地，I(t)，R(t)分别表示感染节点和免疫节点的数量.r0(t)为时刻t感染节点的区域半径，各节点的通信半径是Rc.在感染节点区域内，由于

中节点与易感节点的通信距离超过节点的通信半径Rc，这部分感染节点无法感染外侧的易感节点.与易感节点的距离小于半径Rc的感染节点数量定义为

基站通过向网络中发布安全补丁使部分易感节点和感染节点恢复.节点数量满足关系：

依据WSS的特点，节点可分为8种不同的状态，各状态之间的转换关系如图3所示:

1)S.处于状态S的节点为易感节点，即易遭受蠕虫感染，但目前仍处于正常工作状态.

2)S1.处于状态S1的节点是状态S的休眠节点，由于节点处于休眠状态时停止收发数据，该状态的节点不会被蠕虫感染.

3)I.处于状态I的节点为感染节点，蠕虫可以窃取节点存储、处理、传输的数据，同时能通过该节点感染其他易感节点.

4)I1.处于状态I1的节点为感染节点I的休眠节点，该状态的节点失去通信功能，无法感染其他易感节点.

5)Q.处于状态Q的节点为系统通过安全规则检测并隔离的节点，该状态的节点无法感染其他易感节点.

6)R.处于状态R的节点为植入安全补丁后获得对蠕虫免疫状态的节点.

8)D.处于状态D的节点为失效节点，节点失去通信和数据处理功能.

假设α为节点由状态S转化I的相关系数，且与每个感染节点发送数据帧的最大速率有关，时刻t感染节点实际发送速率与最大速率的比值为

节点由状态I转化为D的概率为

节点由易感状态S转变为休眠状态S1的概率为

休眠状态S1被唤醒的概率为

因此，状态I与I1以及R与R1相互转换的概率分别为

和

状态I，Q，S的节点转化为R是由基站发送的安全补丁更新完成的.时刻t基站发送安全补丁的实际速率与最大速率的比值为

为S和I转化R的相关系数，且与基站发送安全补丁的最大(通信)速率有关.节点从状态I转换为状态Q的概率

是由WSS中的安全策略控制的.节点由状态R和S转换为状态D的概率为常数p.

在以上参数中，

和

由蠕虫控制，且

由WSS通过基站广播命令帧并配合蠕虫检测安全机制进行控制，且

其中，

为节点由工作状态转换为休眠状态的最大概率，

与WSS协议中安全机制的性能有关.

在图2中，当系统中仅有感染节点和易感节点时，则有

厚度为Rc的环形区域内的感染节点数量为

由式(1)可知，仅有

个邻居节点为易感节点.由此可得，状态为S的节点转化为I的瞬时增量为

在图3中，假设初始条件为I(0)=m，R(0)=S1(0)=I1(0)=R1(0)=D(0)=Q(0)=0，则有S(0)=N-m.设时刻t状态为S的节点数量为S(t)，则状态为S1的节点瞬时增量为

同理，状态为I1的节点瞬时增量为

状态为R1的节点瞬时增量为

节点从状态S转换为R的瞬时增量为

从状态S转换为D的瞬时增量为pS(t).由假设条件可知，状态I转换为R和D的瞬时增量分别为

和

状态I转换为Q的瞬时增量为

由Q到R的瞬时增量为

状态R转换为D的瞬时增量为pR(t).当WSS中同时存在这8种不同状态的节点时，状态为I的感染节点在以r0(t)为半径的圆形区域内的分布密度为σ1，由式(2)可得：

令

则S转换为I的瞬时增量为

利用以上分析并结合状态转换图，可得8个状态微分方程为

2.2博弈模型

假设蠕虫和WSS都是理性的，蠕虫与WSS构成连续时间上的微分博弈，则WSS中防御蠕虫传播的最优策略问题转化为求解微分博弈的最优解.其中，蠕虫通过参数

和

实现对传播特性的控制，WSS通过参数

实现对蠕虫的防御.

定义1. WSS蠕虫传播防御微分博弈.给定一个博弈时间段T，每个博弈回合所用的时间为T0，T0大小与不同通信协议的性能参数有关，则时间段T内经历的博弈阶段数量为k=

T/T0

.WSS蠕虫传播防御微分博弈K是一个四元组Z(N,B,F,J)，其中：

2)B=M×S，其中，

是蠕虫的策略集，

是WSS的策略集合，第l个博弈阶段攻防双方的策略为(m(lT0),s(lT0))；

3)F={f(t,r(t),m(t),s(t))|fS,fI,fR,fS1,fI1,fR1,fQ,fD}，其中f(t,r(t),m(t),s(t))是一个随时间连续变化的状态函数，r(t)=(S(t),I(t),R(t),S1(t),I1(t),R1(t),Q(t),D(t))是一个8维的状态变量，其中，

4)J(m(t),s(t))=

w(t,r(t),m(t),s(t))dt+u(r(lT0))-u(r((l-1)T0))是第l个博弈阶段与WSS的QoS相关的成本函数，其中，w(t,r(t),m(t),s(t))dt表示在很小的一段时间Δt内各状态影响网络QoS所造成的瞬时成本，u(r(lT0))-u(r((l-1)T0))为第l个博弈阶段结束时重新部署节点替代失效节点所付出的终期成本.

在定义1中，博弈双方分别为蠕虫A和WSSD，WSS通过调整防御策略S使目标成本函数J的值达到最小，而蠕虫通过攻击策略M保证J的值达到最大，该博弈模型为动态完全信息零和微分博弈，即攻击方和防御方均知道对方采取每个策略的支付.

在蠕虫的控制策略集合

中，

可以控制时刻t感染节点发送包含蠕虫字段的命令帧的速率，该值的大小决定了易感节点被感染的速率，攻击方在获得收益的同时需要支付发送蠕虫命令帧的成本以及由此动作所引起的防御策略变化；感染节点通过参数调整概率

选择耗尽节点资源并使易感节点转变为失效节点，攻击方通过使失效节点无法在网络中发挥功能来增加蠕虫在博弈中的收益，但同时感染其他易感节点的

的数量减少，I(t)增加的速度放缓，该部分收益减小.在WSS的防御策略集合

中，当节点处于休眠状态时，节点的通信功能关闭，

通过使易感节点处于休眠状态减小被感染的速率，与此同时，感染节点处于休眠状态也会降低安全补丁增加恢复节点的速率，休眠状态时节点失去通信功能也会使防御方的支付成本增加；

控制节点由休眠状态转变为工作节点的速率，其效果与

相反；

控制其他状态节点转变为恢复节点的速率，当该参数增加时，感染节点转变为恢复节点的速率提高使防御方收益增加，同时在其他状态节点转变为恢复节点的过程中，基站发送大量安全补丁占用通信资源使防御方收益减小；

调节防御方安全机制隔离感染节点的速率，隔离感染节点可以减小蠕虫的传播速率，同时会增加系统运行安全机制的成本，感染节点失去原有的数据转发等功能也会增加防御方的支付成本.

设集合

为动态微分博弈的最优解，对于蠕虫攻击方，最大化最小成本函数J的值可表示为

此时得到的策略中，攻击方采取的策略为最优值m*(t)；对于WSS防御方，最小化最大J的值可表示为

此时防御方采取的策略为最优值s*(t).由此可得，V1≤V0.∀m(t),s(t)，当博弈K存在鞍点策略(m*(t),s*(t))时，满足关系：

令V=J(m*(t),s*(t))，当攻击方选择策略m*(t)时，无论防御方采取何种防御措施，成本函数的值至少为V；当防御方采取策略s*(t)时，成本函数的值至多为V.当系统采取鞍点策略时，满足关系V=V0=V1.

由于成本函数J与WSS的QoS相关，被蠕虫感染的节点数据的机密性和隐私性遭到破坏，且影响节点的正常工作，节点持有的内部资源被非法调用和读取，定义此时蠕虫在感染节点集合中引起的瞬时成本为μII(t)，其中μI为协议中感染节点的瞬时成本相关系数.失效节点的增加会导致网络中路由路径发生改变，部分数据无法正常采集和传递，使成本函数值增加，由此，定义失效节点的瞬时成本为μDD(t),μD为失效节点的瞬时成本相关系数.同理可得,恢复节点的瞬时成本为μRR(t)，隔离节点的瞬时成本为μQQ(t)，休眠节点的瞬时成本函数分别为μS1S1(t)，-μI1I1(t)和μR1R1(t).

隔离节点、植入安全补丁的恢复节点以及感染节点转换的休眠节点将有利于WSS中QoS收益的增加，其相应的瞬时成本分别为

终期成本

是指失效节点在第l个阶段博弈结束时需要重新更换失效节点所带来的成本.

为了求解博弈K的鞍点策略，首先需要分析该博弈的鞍点是否存在.

定理1. 如果WSS中蠕虫防御微分博弈满足定义1及其约束条件，那么该博弈存在使系统达到最优的鞍点策略.

2) 在成本函数中，瞬时成本和终期成本在各状态和控制策略上是连续的；

3) 状态函数和瞬时成本函数是由控制策略线性表示的，且博弈中定义的控制策略集合均是凸的；

由定义1可知，状态函数f(t,r(t),m(t),s(t))是连续的且其各状态变量的取值由式(4)～(11)确定，M和S对控制策略的上下限进行约束，因此，状态函数在各状态和控制策略上是连续且有界的，条件1显然满足.瞬时成本和终期成本随着各状态和控制策略的增加而线性增加，其在各状态和控制策略上是连续的，满足条件2.由式(4)～(12)可知，状态函数和瞬时成本函数均由控制策略线性表示，且控制策略集合中的参数可在连续区间内取值，故博弈中控制策略集合是凸的，满足条件3.由协议中控制策略的约束条件可知，条件4显然满足.

3博弈模型的求解

本节以动态微分博弈K的目标成本函数最小为求解依据，通过引入汉密尔顿函数，将目标成本函数最小问题转化为判定双方策略参数对应系数的正负问题.在此基础上，结合状态函数和初始状态值，求解不同系数范围下的最优控制策略.

由于参与者双方的控制策略参数取值是一个连续的取值空间，博弈模型的最优策略求解无法通过线性分析和分类数值对比实现，且参数取值的无限特性使函数的凸性分析无法直接求解.因此，引入汉密尔顿函数作为对目标成本函数和各策略控制参数进行定量分析的工具，简化最优控制策略的求解问题.

8种不同状态随时刻t变化的轨迹为r(t)，第l个博弈阶段起始状态为r((l-1)T0)=r(l-1)T0，则可以构造系统

此处的函数f即为定义1中的状态函数.当博弈达到鞍点时，满足

其中，r*(t)为采取最优策略控制时的各状态轨迹.性能泛函J(m(t),s(t))=

w(t,r(t),m(t),s(t))dt+u(r(lT0))-u(r((l-1)T0))的目的是系统从初始状态r((l-1)T0)=r(l-1)T0转移到终态r(lT0)的过程中，寻求使J取得最小值的最优策略控制(m*(t),s*(t)).

由于动态博弈存在鞍点策略，可以利用目标成本函数的性能泛函构建汉密尔顿函数，其协状态函数可表示为

其中，κ(t)为8维的拉格朗日乘子系数矢量.纯量函数H可表示为

H[t,κ(t),d(t),m(t),s(t)]为构造的汉密尔顿函数，则式(13)可简化为

H[t,κ(t),d(t),m(t),s(t)]=w(t,d(t),m(t),
s(t))+κ(t)f(t,d(t),m(t),s(t))=[κQ(t)I(t)-

I(t)+Q(t))-βκI(t)I(t)-βκS(t)S(t)-λR-

κI1(t)I(t)+κR1(t)R(t)-λII1-κI(t)I(t)-

κI(t)I1(t)-κR1(t)R1(t)-κS1(t)S1(t)-

κR(t)pR(t)+μII(t)+μRR(t)+μDD(t)+
μS1S1(t)+μR1R1(t)+μQQ(t)-μI1I1(t).

依据汉密尔顿函数以及泛函极值的必要条件，可得协状态函数的微分方程及极值，进而结合相应的初始条件得到协状态函数κ(t)中的8个空间向量值，将其代入到式(17)可求解各策略控制参数的系数.

定理2. 如果蠕虫与WSS之间的微分博弈满足定义1，那么在动态微分博弈K中攻击方蠕虫A的最优控制策略为

证明. 由于汉密尔顿函数可表示为策略控制参数与相应系数的线性表达式，且泛函极值的必要条件中要求WSS中蠕虫动态防御最优策略的鞍点必须满足：

因此，当WSS策略控制参数相应的系数大于0时，策略控制参数取约束范围内的最小值，反之取最大值.当蠕虫策略控制参数相应的系数大于0时，策略控制参数取约束范围内的最大值，反之取最小值.

定理2给出了如何选择攻击方蠕虫A和防御方WSSD的最优控制策略.该鞍点选取机制通过每个博弈阶段开始时策略控制参数的系数大小决定采取的策略，这种策略更新机制适合基于无线传感器网络技术的WSS计算资源有限的特点.当系统初始状态确定时，利用式(4)～(11)求解每个阶段开始时各状态节点的数量，式(17)和协状态函数的微分方程求解协状态函数中状态空间的值，由此可得到确定最优控制策略的系数χ

(t),χ

(t)，χ

(t).WSS中嵌入上述蠕虫动态防御策略后，防御系统以博弈周期T0更新防御策略参数，整个防御过程分为k=

T/T0

个不同的博弈阶段.

4动态防御最优策略算法

依据第l个博弈阶段的状态节点数量初始值、状态函数、协状态函数以及各控制策略系数，由协议计算使蠕虫动态防御最优的鞍点策略.该防御机制主要包括4个部分：参数存储模块(parameters storage module)、安全管理中心(security manage-ment center)、蠕虫A(wormA)、WSSD.在此基础上，设计适应于WSS的蠕虫动态防御最优策略机制如图4所示:

Fig. 4 Optimal defense strategy against worm propagation based on modified epidemic model
图4 基于改进流行病模型的蠕虫动态防御最优策略机制

WSS安全管理中心利用基站向整个网络配置网络参数、签名机制、安全加密算法以及博弈初始值，使各节点相互配合构建蠕虫防御机制.WSSD和蠕虫A启动后更新博弈阶段(game stage)的起点t0=lT0并同步参数信息，由各自的参数存储模块载入状态函数f以及上一个博弈阶段结束时各状态的初始值，利用状态转换微分方程计算瞬时成本w和目标成本函数J.结合瞬时成本函数、协状态函数和状态函数构造汉密尔顿函数，依据微分方程和协状态函数初始值求解各协状态κ(t)的取值.将κ(t)和各状态变量代入χ

(t)与χ

(t)，得到该博弈阶段χ

(t)和χ

(t)分别大于0时在时刻t的取值区间，进而得到蠕虫的最优策略控制集

蠕虫利用该策略集调整参数对网络实施攻击.同理，可求解并更新WSSD的最优策略控制集

基站依据策略中参数的取值规律向网络中发送广播命令帧配置更新各节点.当系统时钟计时结束(timeout)，更新博弈阶段的起点t0=(l+1)T0，进入下一个博弈阶段.

本方案中基于目标成本值最优的蠕虫传播最优攻击算法和最优防御算法如下：

输入：蠕虫控制参数的初始值

控制参数的初始值

不同状态节点的初始条件I(0)=m,R(0)=R1(0)=S1(0)=I1(0)=Q(0)=D(0)=0,S(0)+I(0)+R(0)+S1(0)+I1(0)+R1(0)+Q(0)+D(0)=N；博弈阶段起点t=1和博弈阶段总数k=

T/T0

;

Step1. 初始化式(4)～(11)的假设条件，设置时间窗t=1，判断是否满足t≤k.若满足条件，则利用状态微分方程求解该博弈阶段的各状态值；否则跳转到Step5.

Step2. 结合攻击方和防御方控制参数初始值以及协状态微分方程，将时刻lT0的协状态值代入求解不同博弈阶段的协状态值κS(t),κI(t),κR(t),κS1(t),κI1(t),κR1(t),κQ(t),κD(t).

Step3. 蠕虫控制的感染节点将当前博弈阶段的状态值、协状态值及初始条件代入式(16)，求解蠕虫控制参数的系数χ

(t)和χ

(t).

Step4. 利用蠕虫控制参数系数的取值范围及定理2确定最优攻击策略取值

和

设置t=t+1.

Step5. 判断是否满足终止条件，若满足则输出各博弈阶段蠕虫最优攻击策略

执行Step6，否则跳转到Step1.

Step1. 设置初始时间窗t=1，配置初始化参数并由状态微分方程求解各博弈阶段状态值，判断是否满足t≤k，若满足执行下一步操作；否则跳转到Step5.

Step2. 加载博弈中参与者的控制参数初始值以及协状态微分方程，将时刻lT0的协状态值代入求解不同博弈阶段的协状态值.

Step3. WSS中的基站将当前博弈阶段的状态值、协状态值及初始条件代入式(16)，求解WSS控制参数的系数χ

(t)，χ

(t).

Step4. 结合WSS控制参数系数的取值区间及定理2，由判别条件确定最优防御策略取值

设置t=t+1.

Step5. 判断是否满足终止条件，若满足则输出各博弈阶段WSS最优防御策略

执行Step6，否则跳转到Step1.

Step6. 基站利用

发送广播命令帧配置各节点的防御策略值，算法结束.

5实验与结果分析

5.1实验设计

本实验在HP Z238工作站(3.2 GHz 8核心超线程、8 GB内存、Windows XP)上实现，使用的WSS网络仿真平台是NS-2，NS-2是由UC Berkeley开发的面向对象的无线网络仿真模拟器.它通过设置虚拟时钟并逐个执行离散事件完成算法的运行.从VXHeaven中抽取5个蠕虫样本并随机选取一种作为WSS蠕虫攻击源.

配置实验区域为半径100 m的圆形网络，采用IEEE 802.15.4 MAC层通信协议，整个网络由基站、簇头和终端节点构成，路由路径采取最短路径原则.节点总数为6 000个，各节点通信距离(commu-nication distance)为50 m,数据收发速率(data transmission/reception rate)为360 Kbps，单个数据帧平均长度(average length of the data frame)为290 b.攻击方和防御方的控制策略参数集合分别为

和

目标成本函数中相关的参数值分别为

其他参数配置如表1所示:

Table1ParameterConfigurationinNS-2
表1NS-2参数设置

NS-2配置细胞自动机算法[12]的类型为混沌型，采用诺伊曼细胞空间对网络节点进行编号，节点i的状态为Si∈{1,2,3,4,5,6,7,8}，该节点的2邻居状态分别为(Si-1,t)和(Si+1,t)，利用转换规则函数表切换各节点状态.

Enhanced-AAWP扫描算法[21]中蠕虫实例的平均扫描速率为η=7，一个扫描时间单元的长度为60 s，系统采取随机扫描和本地扫描的概率分别为P1=0.875和P2=0.125.

在上述网络环境下运行细胞自动机算法[12]、Enhanced-AAWP扫描算法[21]和本文算法，利用NS-2中的State sniffer进程追踪并统计各状态节点以及策略参数的变化情况，结合MATLAB 2010a对实验结果进行数值分析.通过仿真实验对比这3种算法在WSS蠕虫防御方面的性能差异.

本次实验有2个目的：1)通过对比3种算法在不同博弈阶段各状态节点所占比例(fraction of nodes)及目标成本值(value of overall damage)，验证本文算法在WSS蠕虫防御方面的优势；2)通过改变WSS持有的

和

以及蠕虫持有的

和

得到相应的目标成本值并与本文算法中State sniffer记录的策略值进行比较，验证本文算法是否在参数取值上达到最优.

5.2方案性能测试

通过仿真环境实现文献[12,21]中的方案及初始条件，对比不同状态节点所占比例随时间的变化曲线.为了得到更加精确的结果，重复实验20次并取所有结果的平均值.

如图5所示，在文献[21]中，网络模型通过Enhanced-AAWP随机扫描和本地扫描蠕虫，未考虑休眠节点和隔离节点对策略均衡的影响，导致在计算防御策略的阈值时存在较大误差，S和I的实验测定值与文献[21]中均衡方程的计算值误差超过6%.在第1个博弈阶段，算法中防御参数的切换延迟，易感节点所占的比例迅速下降.感染节点所占比例在第43个博弈阶段达到最大值.随着恢复节点所占比例的增加，感染节点缩小对周围节点发送蠕虫命令帧的数据量，开始执行使感染节点转变为失效节点的策略.该方案在建立脆弱性主机自治系统的全局可达网络时假设状态为I的节点均有蠕虫传播能力，而感染节点区域内距离外部易感节点距离超过Rc的感染节点不具备感染能力.在最终平衡态时易感节点的比例保持在2.19%～3.06%，由感染节点转变为失效节点的比例为32.29%，方案的均衡策略不能达到实际的最优抑制效果.

与文献[21]相比，文献[12]在建立网络模型时考虑了靠近感染节点区域内侧时无法与外侧易感节点通信的情况，但在流行病模型的计算中未引入休眠节点和隔离节点的微分方程.如图6所示，易感节点所占比例在整个博弈阶段明显优于文献[21].当博弈结束时，易感节点所占比例的稳态值7.69%大于文献[21].感染节点所占比例的曲线波峰到来的时间迟于文献[21].失效节点增加的速度有所减小，且稳态时所占比例保持在21.31%，低于Enhanced-AAWP中的32.29%，由于休眠节点和隔离节点对蠕虫传播具有抑制作用，该方案将这2种节点均作为易感节点进行数值计算，防御策略的参数取值时间不够准确.失效节点和感染节点所占比例均超过18%.

本文方案中各状态节点所占比例的理论值与仿真计算值如图7所示.动态防御最优策略算法在S-I-R动力学模型的基础上添加了休眠状态(S1，I1，R1)以及安全隔离状态(Q)，且利用Rc=50及式(3)计算了具备蠕虫传播能力的感染节点.易感节点在稳态时的比例保持在19.17%～20.62%，失效节点的比例在整个博弈阶段低于10%，感染节点比例控制在17.29%～18.06%.感染节点的比例在第96个博弈阶段时达到最大值22.17%，远低于其他防御策略.从第96个博弈阶段开始，基站向网络中发送大量安全补丁，同时大量节点处于休眠状态阻止蠕虫在系统中的传播，因此，恢复节点的比例并未迅速增长.与上述2种方案相比，改进流行病模型得到的鞍点策略在蠕虫传播方面具有更好的抑制效果.

State sniffer采集到的数据代入式(12)得到各算法目标成本值随时间的变化情况，如图8所示.I(0)=120的目标成本值不到I(0)=240的目标成本值的40%，这是由于达到均衡时I(t)和D(t)在目标成本值中所占比例

较大.随着博弈阶段的更新，当I(0)=120和I(0)=240时，本文算法在各阶段达到策略均衡时的目标成本值均远小于其他算法，且差值逐渐扩大.基于改进流行病模型和目标成本值最优的抑制算法在WSS蠕虫传播防御方面具有明显优势.

5.3参数分析

为了研究各参数之间的关系，设置I(0)=240，在第50个博弈阶段，当WSS采取最优策略集

时，蠕虫取不同参数值时的目标成本值如图9所示.

蠕虫的目标是使目标成本函数的值最大.如图9中的取值点(1，0，27.2)，当

且

0时，目标成本值达到最大值；当

且

时，感染节点迅速减小，大量感染节点转变为失效节点，目标成本值达到最小值.

在第125个博弈阶段，保持其他参数依据表1中的策略取值，

和

在取值空间[0,1]变化，得到的目标成本值分布如图10所示.图10中取值点(1，1，28.6)为目标成本值取得最小值的点，在这个博弈阶段，感染节点数量较小且隔离节点数量较大，当

且

时，被系统唤醒的易感节点和恢复节点数量增加，同时隔离节点转变为恢复节点加入网络进行数据处理，使目标成本降低.该控制变量的最优策略取值与图8保持一致.

在第55个博弈阶段，

和

分别在取值空间[0,0.7]与[0,0.8]变化，蠕虫和WSS的其他控制参数依据本文算法的最优策略进行配置，得到目标成本值分布如图11所示.当且仅当

和

时，目标成本函数取得最小值.

由图9～11可知:本文中WSS蠕虫传播最优攻击算法以及最优防御算法的控制参数取值相对于目标成本函数具有最优特性，即图4中的方案在不同博弈阶段的参数取值对攻击者和防御者均为最优策略.基于目标成本值最优的蠕虫传播抑制算法可以最大限度地提高WSS的安全性能.

6结束语

物联网WSS中的蠕虫传播问题严重限制了其在工业生产、灾害预警、智能管理等领域的应用.为了解决这一问题，自主研究具有最优特性的WSS蠕虫传播抑制算法.

本文提出了一种基于目标成本值最优的WSS蠕虫传播抑制算法，和其他同类型算法相比具有3个方面优点：

1)在传统SIR模型的基础上，引入休眠状态和隔离状态，建立了状态转换图和改进的流行病模型，并给出了各状态节点的微分方程及初始状态，使不同博弈阶段状态节点数量的计算更加准确；

2)本文构建了蠕虫传播的系统模型，利用节点的通信半径以及感染节点的分布规律，准确计算了具有蠕虫传播能力的感染节点数量，使感染节点的状态微分方程对下一时刻状态节点的预测更加精确；

3)本文建立了WSS和蠕虫的动态微分博弈模型，以目标成本值最优作为鞍点策略的求解条件，通过状态变量、协状态变量以及汉密尔顿函数的线性特点实现均衡策略的求解，在此基础上，提出了蠕虫传播抑制最优策略算法，与其他算法相比，本文算法在不同博弈阶段状态节点预测以及WSS蠕虫传播抑制方面具有明显优势.

[1] Tao Fei, Zuo Ying, Xu Lida, et al. IoT-based intelligent perception and access of manufacturing resource toward cloud manufacturing[J]. IEEE Transactions on Industrial Informatics, 2014, 10(2): 1547-1557

[2]He Wu, Yan Gongjun, Xu Lida. Developing vehicular data cloud services in the IoT environment[J]. IEEE Transactions on Industrial Informatics, 2014, 10(2): 1587-1595

[3]Gope P, Hwang T. BSN-Care: A secure IoT-based modern healthcare system using body sensor network[J]. IEEE Sensors Journal, 2016, 16(5): 1368-1376

[4]Hoff E, Laursen B, Bridges K. Security and privacy in Internet of things: Methods, architectures, and solutions[J]. Security and Communication Networks, 2014, 7(11): 2681-2682

[5]Zhang Yuanyu, Shen Yulong, Wang Hua, et al. On secure wireless communications for IoT under eavesdropper collusion[J]. IEEE Transactions on Automation Science and Engineering, 2016, 13(3): 1281-1293

[6]Xu Qian, Ren Pinyi, Song Houbing, et al. Security enhancement for IoT communications exposed to eavesdroppers with uncertain locations[J]. IEEE Access, 2016, 18(4): 2840-2853

[7]Pa Y M P, Suzuki S, Yoshioka K, et al. IoTPOT: A novel honeypot for revealing current IoT threats[J]. Journal of Information Processing, 2016, 24(3): 522-533

[8]Wang Fangwei, Zhang Yunkai, Wang Changguang, et al. Stability analysis of an e-SEIAR model with point-to-group worm propagation[J]. Communications in Nonlinear Science and Numerical Simulation, 2015, 20(3): 897-904

[9]Wang Xu, Ni Wei, Zheng Kangfeng, et al. Virus propagation modeling and convergence analysis in large-scale networks[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(10): 2241-2254

[10]Tong Xiaojun, Zhang Miao, Wang Zhu. The cost optimal control system based on the Kermack-Mckendrick worm propagation model[J]. Journal of Algorithms & Computational Technology, 2016, 10(2): 82-89

[11]Chen Zhe, Ji Chuanyi. Spatial-temporal modeling of malware propagation in networks[J]. IEEE Transactions on Neural Networks, 2010, 16(5): 1291-1303

[12]Khanh N H. Dynamics of a worm propagation model with quarantine in wireless sensor networks[J]. Applied Mathematics & Information Sciences, 2016, 10(5): 1739-1746

[13]Bradley J T, Gilmore S T, Hillston J. Analyzing distributed Internet worm attacks using continuous state-space approximation of process algebra models[J]. Journal of Computer and System Science, 2008, 74(6): 1013-1032

[14]Ma Xiaolong, Liu Hui, Zhang Jing. Analysis of the impact of heterogeneous network environment on worm propagation[C] //Proc of the 3rd Int Conf on Multimedia Information Networking & Security. Piscataway, NJ: IEEE, 2011: 457-462

[15]Zhu Kenan, Yin Baolin, Mao Yaming, et al. Malware classification approach based on valid window and naïve Bayes[J]. Joural of Computer Research and Development, 2014, 51(2): 373-381 (in Chinese)

(朱克楠, 尹宝林, 冒亚明, 等. 基于有效窗口和朴素贝叶斯的恶意代码分类[J]. 计算机研究与发展, 2014, 51(2): 373-381)

[16]Mao Weixuan, Cai Zhongmin, Tong Li. Malware detection method based on active learning[J]. Journal of Software, 2017, 28(2): 384-397 (in Chinese)

(毛蔚轩, 蔡忠闽, 童力. 一种基于主动学习的恶意代码检测方法[J]. 软件学报, 2017, 28(2): 384-397)

[17]Zou Changchun, Gong Weibo, Towsley D. On the performance of Internet worm scanning strategies[J]. Journal of Performance Evaluation, 2006, 63(7): 700-723

[18]Ma Hongliang, Wang Wei, Han Zhen. Detecting and de-obfuscating obfuscated malicious JavaScript code[J]. Chinese Journal of Computers, 2017, 40(7): 1699-1713 (in Chinese)

(马洪亮, 王伟, 韩臻. 混淆恶意JavaScript代码的检测与反混淆方法研究[J]. 计算机学报, 2017, 40(7): 1699-1713)

[19]Das S, Liu Yang, Zhang Wei, et al. Semantics-based online malware detection: Towards efficient real-time protection against malware[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(2): 289-302

[20]Guo Yanghe, Ten C W, Hu Shiyan, et al. Preventive maintenance for advanced metering infrastructure against malware propagation[J]. IEEE Transactions on Smart Grid, 2016, 7(3): 1314-1328

[21]Liu Bo, Wang Huaimin, Xiao Fengtao, et al. Enhanced-AAWP, a heterogeneous network oriented worm propagation model[J]. Journal on Communications, 2011, 32(12): 103-113 (in Chinese)

(刘波, 王怀民, 肖枫涛, 等. 面向异构网络环境的蠕虫传播模型Enhanced-AAWP[J]. 通信学报, 2011, 32(12): 103-113)

[22]Saracino A, Sgandurra D, Dini G, et al. Madam: Effective and efficient behavior-based android malware detection and prevention[J]. IEEE Transactions on Dependable and Secure Computing, 2018, 15(1): 83-97

[23]Theodoros S, Konstantinos M, Alexios M, et al. A game theoretical method for cost-benefit analysis of malware dissemination prevention[J]. Information Systems Security, 2015, 24(6): 164-176

[24]Mishra B K, Pandey S K. Dynamic model of worm propagation in computer network[J]. Applied Mathematical Modelling, 2014, 38(7): 2173-2179

[25]Pandey S K, Samanta B. Malware attack through botnet in e-commerce network: A dynamic model[J]. International Journal Series in Engineering Science, 2016, 2(3): 13-25

[26]Sarah S, Ness B S, Saurabh B. Modeling and automated containment of worms[J]. IEEE Transactions on Dependable and Secure Computing, 2008, 5(2): 528-537

[27]Liu Bo, Zhou Wei, Gao Lei, et al. Malware propagations in wireless ad hoc networks[J]. IEEE Transactions on Dependable and Secure Computing, 2016, 34(4): 1365-1376

[28]Chen Pinyu, Cheng Shiming, Chen Kangcheng. Optimal control of epidemic information dissemination over networks[J]. IEEE Transactions on Cybernetics, 2014, 44(12): 2316-2328

[29]Yu Shui, Gu Guofei, Barnawi A, et al. Malware propagation in large-scale networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(1): 170-179

OptimalSuppressionAlgorithmAgainstWormPropagationinWirelessServiceSystemforIoTBasedonTargetCostFunction

AbstractWith the adoption of the general standard of communication protocol, wireless service system (WSS) in IoT is proposed to achieve the real-time connection between person and things or things and things. According to the characteristics of IEEE 802.15.4, wireless sensor nodes are embedded in the devices for data collection and command broadcasting. However, the isomorphism of the sensor nodes makes the worm propagation an increasingly serious problem. Firstly, based on the classification of epidemiological models related to worm propagation and the analysis of the characteristics of various models, an epidemiological model is constructed, which specially introduces sleep state and quarantine state into state transition. The transition relationship of nodes is defined simultaneously. Secondly, according to the radio frequency, the number and range of infected nodes with actual transmission ability are determined. Thirdly, we introduce the target cost function between worm and wireless service system, and put forward a dynamic differential game with complete information based on the overall damage. Then, the existence of saddle-point solution is proved, which is solved by combining state parameters, cooperative state variables and Hamiltonian functions. The optimal defense algorithm is proposed to minimize target cost function. Finally, different algorithms are implemented and the performance evaluation is carried out by comparing the characteristics of nodes in each state and the corresponding overall damage. The experimental results show that the optimal defense algorithm based on improved epidemic model can suppress worm propagation in wireless service system effectively and efficiently.

KeywordsInternet of thing (IoT); wireless service system (WSS); worm propagation; differential game; Hamilton function

基金项目：河南省科技攻关项目(132102210003)；信息保障技术重点实验室开放基金项目(KJ-15-104)This work was supported by the Project of Henan Provincial Key Scientific and Technological Research (132102210003) and the Open Fund of Key Laboratory for Information Security (KJ-15-104).

HuangYicai, born in 1985. Master candidate. His main research interests include IoT, computational intelligence, wireless sensor networks, evolutionary algorithm and information security.

ZhouWeiwei, born in 1990. PhD candidate. His main research interests include IoT, computational intelligence, wireless sensor networks, evolutionary algorithm and information security.

YuBin, born in 1964. Professor and PhD supervisor of PLA Information Engineering University. His main research interests include the design and analysis of algorithms, visual cryptography, dynamic multi-objective optimization and network security.