移动蜂窝网络流量的时延特征识别方法研究

魏松杰 吴 超 罗 娜 张功萱

(南京理工大学计算机科学与工程学院 南京 210094)

Internet骨干网流量中,混合了来自于固网接入和3G4G移动蜂窝网络接入的不同客户端流量.在不依赖于应用层信息和查看数据报内容的前提下,使用传统的流量分析方法和特征选择,难以将两者正确区分.通过对移动蜂窝网络通信链路技术和无线资源控制(radio resource control, RRC)机制导致IP数据报时延波动的分析建模,结合TCPIP协议数据报的往返时延(round-trip time, RTT)计算,构建了6个与数据报时延相关的网络流量特征,用于有效区分通过3G4G和固网接入的网络流量来源.这些特征能够针对不同网络节点接入互联网技术差异所带来的网络数据包时序分布特点进行描述和匹配.在此基础上,采用多种有监督的机器学习方法,搭建了基于网络流量的分类模型并进行交叉验证.实验结果表明:利用这些时延特征建立的流量描述与分类模型,能够有效区分移动蜂窝网络接入数据流量和固网接入数据流量,分类正确率达到92%以上,并具有良好的覆盖性与容错性.

关键词 3G4G;移动蜂窝网络;流量特征;RRC机制;网络时延

我国的移动互联网接入基础设施不断完善,智能移动终端日趋普及,互联网应用服务持续创新.中国互联网络信息中心(China Internet Network Infor-mation Center, CNNIC)第38次全国互联网发展统计报告显示:截至2016年6月,我国手机用户中网民数量达到6.56亿,网民中使用手机客户端上网的人群占比为92.5%,以3G4G接入技术为基础的移动互联网各项指标增长速度正全面超越传统宽带网络[1].移动互联网实现了人机合一,线上服务的随遇接入、持续连通,为人们的信息交流提供了极大的便利,也深刻地改变着人们的学习、工作和生活方式.

使用以手机为代表的智能移动设备的典型用户主要通过2种链路技术方式接入互联网服务:基于3G4G通信技术的移动蜂窝网络和基于WiFi分享技术的固定网络.在不同的网络接入条件下,用户会有不同的行为习惯和使用偏好.当前,大规模用户的3G4G流量数据只有相关的运营商才能获得,广大研究者难以公开获取.定期发布可供研究的传统骨干网流量数据集中,例如CAIDA(Center for Applied Internet Data Analysis)公开的流量[2],虽然包含了用户的3G4G流量,但缺乏有效的流量特征进行区分识别.因此,研究移动蜂窝网络数据流量特征,识别并分析3G4G互联网接入用户产生的移动网络数据流量,在此基础上加深理解移动网络的特点并预测移动互联网的发展,成为当前互联网流量分析的一个新的研究方向.

分析移动蜂窝网络流量特征并识别相关流量,可对3G4G用户流量展开针对性的研究.了解3G4G用户的行为习惯、使用偏好、流量特征,一方面有利于移动运营商感知流量发展态势、定位网络服务瓶颈、针对性地优化网络结构,为用户提供更好的服务;另一方面,通过对用户流量的分析建模,可对移动蜂窝网络中的安全威胁进行监测分析,及时发现恶意行为,例如Perta等人[3]提出的针对终端设备的攻击,Peng等人[4]提到的针对计费系统的stealth-spam-attack攻击等,为互联网用户提供更加安全可靠的服务.

本文通过分析移动蜂窝网络中IP数据报时延相关属性,提取了能够有效区分移动蜂窝网络和固网流量的多种特征.首先,针对移动蜂窝网络和固网接入技术进行研究,分析了它们在通信链路上的区别,初步确定接入链路性能和RRC (radio resource control)机制是导致两者时延差异的主要原因.然后通过网络流量分析的方法,给出了在网络流量中提取计算这些差异特征的过程,构造了6个可以分析和提取的量化时延特征.最后,结合有监督机器学习算法,设计了流量区分检测方案,通过实验对公开的网络流量数据集进行训练和测试,构建了针对蜂窝网络流量和固网流量的自动流量分类器.实验结果表明,利用文中提出的流量时延特征构建的分类器,能够正确区分测试集中90%的蜂窝网络流量和95%的固网流量,运行性能好,分类准确率高,且不依赖于网络流量内容和应用协议,不触及用户通信数据隐私.

本文的主要研究成果和贡献有3个方面:

1) 分析了移动蜂窝网络和固网的链路差异,并研究其对IP数据报时延的影响,构建新的移动蜂窝网络流量特征.

2) 针对移动蜂窝网络和固网流量的特征差异,提出了相应特征的量化计算方法,并在此基础上,采用有监督学习算法构造流量分类器.

3) 使用公开数据集进行实验测试,验证分类特征的有效性,并对不同条件下模型的优缺点进行分析.

1 相关工作

互联网流量特征研究是流量分类、网络用户行为分析、网络异常检测等工作的前提和基础[5].近年来多个相关研究都是通过分析网络流量的各类特征,构建流量数据分类模型[6].传统的流量特征包括IP地址、端口、协议、包长度、IPTCP选项、包到达间隔、流持续时间等.这些通用特征主要用来对流量进行协议分类,或者分析用户的行为.

Zhang等人[7]研究了移动蜂窝网络中终端应用所产生的HTTP数据,从数据报、数据流和会话3个层面分析了不同应用的网络流量的特征,并对比分析了其与有线网络环境中的流量特征的不同.Zhang等人[8]针对移动蜂窝网络中HTTP流量速率进行研究,对比其在有线网络中的区别,从网络拥塞、访问链路和访问终端等方面解释了产生这种现象的原因.

Xu等人[9]对移动蜂窝网络进行了端到端的数据传输实验,从包的到达分布、网络瞬时吞吐率、网络缓存、队列机制等方面描述了移动蜂窝网络的特征.陈昕等人[10]从无线通信理论研究的角度,分析了无线信道的时变特点,利用随机网络演算的方法建立对LTE网络进行数据传输时端到端的时延模型.他们都在分析流量的过程中发现了一些移动蜂窝网络流量和固网流量的区别,但都是通过特殊流量测量网络得出的结论,不适用于一般的网络流量模型.

Sandrasegaran等人[11]研究如何降低移动蜂窝网络中的时延,提出了一种时延优先调度(delay prioritized scheduling, DPS)算法.Nikaein等人[12]对LTE通信网络中主机到主机的时延进行了研究,将时延的构成分为4个部分,详细分析了现实中影响网络时延的各个因素,并给出相应的时延估计.林川等人[13]通过分析网络探测数据,对网络时延因素进行了多层次的分析,并提出不同通信直径条件下,排队时延、传播时延对支配时延的影响关系.

Gupta等人[14]针对新兴的Facebook和Twitter等频繁引起网络请求的手机应用,研究了其对移动蜂窝网络RRC机制与手机电量的影响.Barbera等人[15]和Perta等人[3]通过分析无线通信协议中的RRC状态转换对移动蜂窝网络中数据往返时延的影响,结合终端上的即时通信软件,提出了一种特定条件下可探测用户设备信息的方法.他们研究了通信协议中RRC机制对流量数据时延的影响,但没有对链路协议进行系统分析,也没有据此提出区分移动蜂窝网络流量和固网流量的方法.

2 移动蜂窝网络数据流量的时延特性

当前,可公开获取的网络流量样本大多是经过匿名化、内容移除等隐私保护处理的,无法使用深度包解析(deep package inspection, DPI)的分析方法.另外,由于3G4G与固网客户端可以使用相同的智能移动设备,运行相同的应用程序,数据报的内容和规模可以基本一致.因此,3G4G与固网流量的差异表现主要在数据报时序表现而非内容表达上,典型的如数据报的往返时延(round-trip time, RTT).RTT表示从发送端生成并发送数据开始,到发送端收到来自接收端的相应确认(假设接收端收到数据后,立即响应并发送确认),总共经历的时间间隔.本文主要研究由于移动蜂窝网络与固网通信链路的不同而引起的流量中时延特征的差异.

2.1 移动蜂窝网络架构

拥有互联网数据服务功能的移动蜂窝主要为3G4G网络,协议标准为3GPP和LTE.因此本文以下提到的移动蜂窝网络主要是指3G4G网络,移动蜂窝网络流量主要是指3G4G网络数据流量.

移动蜂窝网络比固定宽带网络架构复杂,系统更加庞大,各个运营商所使用的链路通信技术和参数配置也存在差异.图1以4G网络为例,给出了一个典型的移动蜂窝网络架构示意图.网络包含2个部分:一是直接与终端用户进行通信的无线接入网络(radio access network, RAN),负责无线资源的控制、用户接入管理等;二是运营商的核心业务网络(evolved packet core, EPC),负责用户认证、网络计费、提供互联网服务等.核心业务网络通过网关连接其他网络,比如国际互联网.

Fig. 1 Typical architecture of mobile cellular network
图1 移动蜂窝网络典型架构[16]

用户终端设备UE(user equipment)通过移动蜂窝网络接入互联网时,首先需要接入RAN,建立与基站的通信,然后,其中的资源控制模块分配用户传输数据所需的无线资源(信道和时隙),用户通过分配得到的链路资源将数据发送给基站节点,再经基站转发至核心业务网,最后传至互联网.

2.2 移动蜂窝网络流量时延的影响因素

产生IP数据报时延的原因是多样的,图2列出了主要影响因素.数据从发送端发出到接收端收到,其时延的影响因素主要有2类:1)通信链路的限制;2)网络负载变化.通信链路的限制主要是指信号传输速度、传输距离、网络设备转发速度、路由跳数等因素,产生的时延相对稳定.网络负载的影响指受网络设备性能波动、用户流量潮汐变化、路由队列变化等随机因素的影响,产生的时延会有较大的抖动.通信链路限制产生的时延主要受链路特性的影响,移动蜂窝网络和固网通信方式的区别会对该时延产生不同的影响.为此,研究中将网络负载变化带来的时延视为噪声,通过分析通信链路对网络流量时延的影响,进而对网络数据流量进行来源识别并分类.

Fig. 2 The influence factors of network delay
图2 网络时延的影响因素

2.2.1 接入链路

3G4G或固网用户访问互联网都是先接入网络服务运营商(Internet service provider, ISP)运营商,由运营商的核心业务网接入互联网的高速骨干网.因此通信链路又可以划分为2个部分:一是终端到达ISP核心网的接入链路;二是ISP核心网到目的地址的互联网路由链路.3G4G接入和固网接入的差异主要表现在第1部分接入链路的不同,3G4G接入链路的核心是无线通信技术,以3GPP(3rd generation partner-ship project)和LTE(long term evolution)协议为基础;固网接入链路的核心是有线宽带技术,主要链路协议为802.3和802.11.

在网络负载对数据传输时延影响较小的情况下,网络流量中的数据往返时延RTT差异主要是由通信链路限制引起的通信链路时延.图3根据通信链路的不同部分,将RTT拆分为终端到ISP核心业务网的接入链路时延和核心网到目标地址的互联网路由传输时延,这里我们忽略影响较小的服务器处理时延.移动蜂窝网络和固网流量在时延特征上的不同,主要来自于接入链路时延上,即接入链路时延特征的不同是蜂窝网络与固网流量区别的主要原因.

Fig. 3 Division of network delay
图3 网络时延划分

2.2.2 RRC无线资源控制

在3G4G网络中,都有个独特的模块-无线电资源控制器RRC [17].由于移动设备的电源电量是影响设备使用的一个关键因素,设备也不是所有的时刻都在传输数据,那么如果设备始终都处在高功率的连接状态无疑会消耗很大的电量,这就需要一个机制来调控设备的状态来节省电量.如果设备在传输数据时处在高功率状态、没有数据传输时处在空闲状态,这样就可以有效地节省设备电量,这就是RRC的设计初衷.RRC的主要作用是在无线通信过程中为上层提供来自网络系统的无线资源参数,同时控制下层的参数和行为,对无线资源进行分配并发送相关信令,RRC承担了分配和释放无线链路资源的角色.在移动蜂窝网络通信协议中,RRC有3种典型的状态:IDLE,CELL_FACH,CELL_DCH,分别对应无线链路的空闲、低速通信、高速通信状态.图4描述了这3种状态间的典型转换关系:

Fig. 4 RRC state transition diagram
图4 RRC状态转换示意图

终端在某个时间段内没有网络数据传输时,将处于IDLE状态;此时若有数据要传输,需先重建无线链接,转换为CELL_FACH状态,进而完成通信,这个过程会产生较大的时延.当传输速率超过某个阈值时,RRC会向上调整为CELL_DCH高速通信状态,此时的链路时延最小;在固定时间段内无数据传输时,CELL_DCH状态会向下调整到CELL_FACH状态,进而调整到IDLE状态.终端应用的网络流量变化会导致RRC在不同状态间的转换,RRC的不同状态又会导致网络时延的变化,这种时延影响是移动蜂窝网络中所独有的.RRC状态转换的阈值和不同状态下的时延标准在不同的运营商网络中可能不同,但IDLE状态下传输数据报的时延会明显高于CELL_FACH和CELL_DCH状态下的链路时延.

2.3 移动蜂窝网络流量特征

网络系统是一个时变系统,时延难以用精确的函数表达,但移动蜂窝网络和固网时延特征的不同,必然带来流量中数据报时延统计特征的区别.

2.3.1 链路时延极小值

链路时延极小值代表一条通信链路在理想条件下的时延下限,该值由通信协议设计和通信设备性能水平决定.高速固网环境下,一定范围内链路时延可以接近于0 ms;但在3G4G无线通信网络中,受接入链路和接入协议的限制,该值不会小于某个阈值.

表1列举了在LTE蜂窝网络接入链路中部分因素产生的单向时延估计.UE处理时延、eNodeBRNC处理时延是指手机与基站对无线通信信号进行编码解码所需要的时间,TTI和帧调整是指无线数据帧传输时隙和帧间隔所需的时间.理想情况下,忽略无线数据帧的重传和SP-GW路由转发等因素的影响,蜂窝网络时延下限为前3项的总和,简单计算可得单向时延大于3.5 ms,RTT中包含的通信链路时延为环回往返时延,大于7 ms.现实情况下,考虑网关路由及无线帧的重传因素,实际导致IP数据的报往返时延RTT会更大.

Table 1 Delay Estimation of LTE Network Accessing Link
表1 LTE网络接入链路时延估计

DelayEstimation∕msDelay Factors14UE Processing Delay14eNodeB∕RNC Processing Delay1.5TTI and Frame Adjustment1.52.5Retransmission Rate of 30%50% Results in Delay14S∕P-GW Processing Delay

固网宽带的时延下限主要依赖于接入网络设备的转发时延,对于高速光纤通信设备,在一定距离内时延接近于0 ms,因此并没有统一的下限.相同地区和运营商提供的固网和3G4G网络,其接入链路时延极小值会有明显的区别.不同地区或运营商的流量混杂在一起时,所有的蜂窝网络流量时延极小值会大于某个统一的阈值,而时延小于该阈值的就更可能是固网流量.

2.3.2 链路时延波动

移动蜂窝网络架构复杂,影响网络时延的因素相对固网更多,这就导致移动蜂窝网络时延相对固网有更大的波动性.如手机与基站间距离变化、天气变化、信号强弱变化等,都会引起通信数据报时延的波动.固网使用可靠的有线连接排除网络负载的影响外,时延变化主要受交换路由设备的转发性能影响,相对稳定.

2.3.3 RRC状态转换影响时延

移动蜂窝网络环境中,终端应用在RRC处于不同状态时传输数据,IP数据报会表现出不同的时延.在能够得到单一数据源所有流量的条件下,如果源地址在持续的某个时间段内无数据收发,则表示源地址无网络访问,RRC状态可能处于IDLE状态,从而导致之后收发的第1个数据报会有较大的时延.网络流量中源地址在静默特定时间段后,第1个数据报的时延或重传性质,也是区分移动蜂窝网络和固网的重要特征.

图5使用ping指令,设置不同的时间间隔发送ICMP报文,分别在国内主流移动蜂窝数据网络环境中测试,测量数据报平均往返时延.横坐标为ping报文发送的间隔,纵坐标为以相应间隔测量10次得到的平均往返时延.测量所用的目的地址为国内高速骨干网上的DNS服务器114.114.114.114.

Fig. 5 The relation between the interval of message
sending and the delay of round-trip
图5 报文发送间隔与往返时延的关系

通过图5可以看到,虽然不同运营商的4G网络终端与目标服务器之间的延迟大小有差异,但发送ping包的间隔大于某个阈值后,延迟都明显变大.该阈值对应RRC由非空闲态转换为空闲态的状态转换等待时间.不同包发送间隔产生的时延基本可分为2层,对应2类不同的RRC状态下的时延:空闲态和非空闲态.从图5还可以看出,不同运营商网络环境中,RRC产生状态转换的时间参数并不一致,中国联通和中国移动在用户持续10 s无数据传输时,RRC即转换为IDLE状态,而中国电信的这个参数大约是23 s.

3 网络流量时延特征定义及计算方法

3.1 移动蜂窝网络流量模型

尽管以3G4G为代表的移动蜂窝数据网络已经广泛应用,但是在没有运营商提供支持的条件下,很难直接获得相关的数据.相关研究实验中一般通过2种途径获得移动蜂窝网络流量:

1)在移动终端使用数据嗅探工具(如tcpdump)获取流量.Xu等人[9]使用此方法,在不同的蜂窝网络环境中,实施端到端的数据传输实验,构造特定的网络流量进行研究.

2)如图6所示模型,搭建一个网络接入代理或代理服务器(VPN),手机接入VPN或者代理服务器实现上网,在VPN端获取流量.

Fig. 6 Data acquisition model of mobile cellular network
图6 移动蜂窝网络数据采集模型

本文实验部分用到的公开数据集就是用图6中所示的代理服务器的方法获取的.流量数据在源地址和目的地址之间的代理服务器上截取,本文讨论的特征均以基于此模型截取的流量特征为例,稍加修改即可适用于从互联网骨干节点获取的蜂窝网络流量.

3.2 移动蜂窝网络流量特征

3.2.1 链路时延特征

利用TCPIP网络协议中的确认机制,获取网络的链路时延,为了凸显通信链路属性的影响,降低网络负载变化产生的噪声,选取符合特定条件的数据报往返时延代表链路时延.基于上述模型获取的特定源地址的网络流量,对于图7所示流量中包含的数据报pktdata及对其回应数据pktack,如果其满足条件:

fr(pktdata)=fr(pktack)=0,

(1)

fi(pktack)-fi(pktdata)≤N,

(2)

则定义这次传输的链路时延为

Delaypkt=ft(pktack)-ft(pktdata),

(3)

其中fi为获取指定数据报在流量文件中的序号的函数,这里的流量文件是指该特定源地址发送和接收的流量,如果获取的流量中包含多个源地址,需先将获得流量依源地址切分成不同的流量文件.fr获取指定数据报的重传次数,ft获取指定数据报的捕获时间,N是一个大于0的常量.

Fig. 7 Link delay
图7 链路时延

式(1)要求数据确认数据报无重传,如果有重传,就不能唯一地确定一对pktdatapktack数据报,无法准确计算时延,这样的数据报只能被过滤掉.式(2)要求数据确认数据报之间网络负载尽量轻,如果网络繁忙,数据确认包间可能仍会传输大量的数据报,否则可能处于等待应答状态.数据确认数据报之间无数据报传输,不能表示网络没有发生拥塞,但N越小,网络拥塞的可能性越小;反之,N越大,网络拥塞的可能性越大.

Fig. 8 The relationship between N and the mean,
standard deviation and total ratio of link delay
图8 N值与链路时延的均值、标准差、总占比的关系

图8展示了在同一份网络流量中,使用不同的N值得到链路时延的标准差和均值,以及满足式(2)约束的时延数量占总时延的比例.可以看出,如果N较小,计算得到的链路时延波动较小,说明拥塞带来的时延噪声小,但符合条件的数据报相对少;如果N越大,符合条件的数据报相对多,但得到的链路时延波动较大,时延噪声可能较大.

根据上述定义,结合TCPIP协议,实验选用了2种常见的DataAck数据报,如表2所示:

Table 2 Datagram of DataAck
表2 DataAck数据报

pktdatapktackTCP Syn_AckTCP AckTCP Data(payload>0) TCP Ack

源地址在收到SYN标识位为1或数据有效载荷长度大于0的TCP数据报时,一般会立即发送确认报文,计算符合条件确认报和数据报的时间差可得到链路时延,进而计算如下2个时延分布特征.

1) 链路时延标准差

计算流量中符合条件的DataAck数据报往返时延,得到源地址多次传输行为的链路时延,据此计算链路时延的标准差,代表链路时延的波动性.一般情况下,移动蜂窝条件下产生的流量得到的链路时延波动相对较大,固网的相对较小.

2) 链路时延最小值

通过计算得到的链路时延,用其最小值表示通信链路的时延下限.移动蜂窝网络流量中的链路时延最小值特征与固网之间会存在一个阈值,特征小于此阈值的,较大可能是固网;大于此阈值的,可能是蜂窝网络.

3.2.2 RRC时延特征

移动蜂窝网络环境中,某个时间段内,如果源地址无数据传输,则RRC状态就会发生变化.据此通过定位网络流量中源地址在时间段(trrrc0,trrrc1)内无流量时,之后第1个收到的数据报的链路时延,得到RRC可能处于特定状态下的时延.对于特定源地址相关网络流量中的数据报pktdata及对其响应数据报pktack,如果它们可以计算链路时延,且满足条件:

trrrc0<ft(pktdata)-ft(pktdata-1)<trrrc1,

(4)

则定义RRC链路时延为

Delaypkt_rrc=ft(pktack)-ft(pktdata),

(5)

其中,pktdata-1是在传输pktack数据报前该地址上一个发送或接收的网络数据报,trrrc0trrrc1是2个对应不同RRC状态转换时间的临界值.式(4)表示数据报pktdata与前一个数据报pktdata-1的间隔时间落在区间(trrrc0,trrrc1)中,式(5)表示该次传输的时延.为兼容不同的网络情况,这里仅考虑RRC的空闲和非空闲状态,使用2个典型的间隔区间段,如表3所示:

Table 3 RRC Status and Packet Interval
表3 RRC状态与包间隔区间 s

RRC Statetrrrc0trrrc1Idle State15+∞High Speed∕Low Speed Communication State05

根据RRC不同状态下的数据时延及重传率,进而计算其描述特征如下:

1) RRC空闲态时延标准差

RRC处于空闲态时,网络时延主要依赖RRC状态转换的时间,这个时延称为移动蜂窝网络的控制面时延,受通信协议中多种因素的影响,不仅时延比较大,波动也很大.若源地址属于固网,则不存在RRC的状态转换,时延标准差较小,相反若受移动蜂窝网络通信控制面时延的影响,时延标准差会较大.

2) RRC不同状态时延均值与标准差的距离

据此,可分别计算出源地址在2个间隔区间中的链路时延均值和标准差,若源地址属于固网,那么不存在RRC的状态转换,时延应该有相同的分布,不同状态的时延均值、标准差距离较小;否则会较大.

3) 数据重传率

在RRC处于空闲态时,应用层传输数据会有较大的时延,而TCP协议中,时延过大可能触发超时重传机制,此时包重传率会大于平时.由于上述特征在计算时延时都要求数据报无重传,所以数据报重传率是RRC导致大时延的补充描述特征.

4 实验验证

4.1 实验数据

4.1.1 数据源描述

本文使用的流量来自Coninck等人[18]公开的实验采集数据,采集的是手机终端产生的多路径TCP网络流量.手机终端安装特殊SOCK代理软件,通过代理服务器访问互联网,另外,代理软件可使手机同时通过WiFi和3G4G网络连接代理服务器,SOCK代理服务器转发并截获手机终端的网络流量.多路径TCP实现了用户在WiFi和3G4G都可用时,同时在2个网卡上分别建立TCP子流,协同完成数据传输任务的功能,2个子流同属于一个多路径TCP流,以TCP选项中的某些字段标识.该份数据涉及几十个手机终端,持续7周,有近千个源IP地址.

4.1.2 数据预处理

为便于流量特征提取,同时消除一些噪声和畸形数据,需先对流量进行一些预处理操作.数据预处理的主要有以下5个步骤.

第1步.筛选出流量中所有的客户端地址,获取源IP地址集.由于3G4G网络移动性的特点,其分配的IP地址一般只会给移动终端,而服务器则使用固网提供的IP地址.我们分析数据中涉及到的所有IP地址,依据该IP是否仅发起TCP链接而不接收TCP链接筛选出一个IP地址集合,该集合中包含了全部的3G4G用户的源IP地址和部分固网客户端的IP地址.

第2步.依据IP地址切分流量数据.依据第1步得到IP地址集合,将数据流量切分成小的流量文件,每一个流量文件都是IP地址集合中某个特定的IP地址所发送或接收的流量,切分后的流量保持原流量文件中的包时间、相对顺序.

第3步.依据TOKEN定位同一时刻的子流.依据协议提取所有Multipath-TCP子流的TOKEN,并依据同一时间的子流分属不同网络环境的逻辑,得到相应IP地址的对立关系;

第4步.根据交叉逻辑,将IP地址分类.在数据作者的帮助下,确定了对立的IP地址必定分属3G4G或WiFi,然后结合设备不同时间段在不同网络间的相互交叉的逻辑关系,通过筛选,得到3G4G和WiFi的IP地址集合.

第5步.依时段切分IP流量,获得实验数据集.为获得更多的流量样本测试,将已确定为3G4G或WiFi地址的流量文件,采用分时划分的方法,以60 min为单元,将特定IP的流量文件分割成多个子流量文件,在此基础上清洗掉一些无效的流量,最终得到了954个流量文件,其中WiFi连接流量文件674个,3G4G连接流量文件280个.

4.2 实验平台及流程

本文所使用的数据分析工具是Weka-3.5.6.该工具是由新西兰怀卡托大学Witten教授等人开发的开源工作平台.该平台利用Java语言实现了决策树、朴素贝叶斯等多种机器学习方法.本文实验计算平台为1台PC机,CPU配置为4核Intel CoreTM i5-2520M@2.66 GHz,内存为4 GB;运行kali操作系统.

实验中分类效果的好坏主要取决于提取的流量特征对通信链路差异的描述能力,本文提取的特征从不同侧面描述了这些差异.综合考虑算法的适用性、分类效果和执行效率等因素,实验使用机器学习的方法如表4所示,主要采用SVM,RandomForest,BayesNet,C4.5,Logistic,AdaBoost这6种常用的分类算法. 这些算法能够针对网络流量连续时延特征的数值分布和相关性进行学习和建模,同时也是在其他相关研究工作中,基于网络流量分析的用户分类研究中的主流的有监督机器学习算法.采用这些学习方法有助于本文中提出的基于网络时延特征的流量识别模型向其他应用场景和样本数据上的移植应用,进而比较应用结果.表4中给出了在实验过程中相应的模型参数设置.这些参数的选取是在借鉴了过往经验得到的经典参数设置的范围基础上,在实验过程中通过上下浮动模拟退火算法进行随机微调择优,并进行多次实验取平均分类结果,从中再选定最佳分类结果的参数设置.为了避免过学习及欠学习状态的情况发生,采用10折交叉验证的方法进行样本的训练测试.具体方法如下:实验过程中,随机抽取10%的样本作为测试集,其余为训练集,该过程重复10次.实验中每次训练样本和测试样本都随机抽取,从而保证实验的有效性.

Table 4 Parameter Setting of the Classifier Models
表4 分类器模型的参数设置

ClassifiersParametersSVMSVMType=C_SVC,kernelType=linear:u′×v,cost=1.0Logisticmaxits=-1, ridge=1.0E-8AdaBoostclassifier=DecisionStump,numiterations=10,weightThreshold=100BayesNetestimator=SimpleEstimator,searchAlgorithm=K2RandomForestmaxDepth=100, numExecutionSlots=1,numTree=100,numFeatures=6C4.5confidenceFactor=0.25,minNumObj=2

4.3 实验结果

针对不同条件下获取的网络流量,编写程序实现相关特征的自动提取工具,计算并提取了如表5中列出的6个特征.移动蜂窝网络与固网的不同主要体现在数据链路属性方面,而这些属性会给该网络中传输的数据流量带来时延层面的印记.链路时延最小值体现了2种网络技术在传输时延瓶颈方面的差异;链路时延标准差描述了2种网络技术在时延方面的波动性的差异;RRC相关的4个特征从不同的侧面量化通信协议中RRC机制给网络时延带来的影响.6种特征从不同层面刻画传输链路、协议给流量带来的影响,作为一个特征集合,可对流量的识别产生最好的效果.

Table 5 Extracted Traffic Features
表5 提取的流量特征

IdFeaturesC1Link delay minimumC2Link delay standard deviationC3RRC delay standard deviation in idle stateC4Distance between mean delays of RRC in different statesC5Distance between standard deviations of RRC in different statesC6RRC retransmission rate in idle state

首先对于不同特征的取值分布情况进行分析.图9中横轴为各个特征的取值,纵轴为其累积分布.图9(a)显示,3G4G的链路时延最小值大于20 ms的流量占95%以上,而在固网流量中的比例约为20%.图9(b)显示3G4G流量标准差小于50 ms的比例为50%,而固网中该比例约为80%.图9(c)显示3G4G在RRC处于IDLE状态时,时延的标准差小于400 ms的不到40%,而固网基本100%小于400 ms.图9(d)和图9(e)显示3G4G在RRC不同状态,时延的平均值距离和标准差距离小于400 ms的不到40%,而固网基本100%小于400 ms.图9(f)显示,在包间隔大于15 s时,3G4G流量中有超过60%的流量重传率大于0.4,固网中该比例约为20%.

Fig. 9 The cumulative distribution of features in the data set
图9 特征在数据集中的累积分布

从表6中的结果可以看出,6种算法得到的模型对3G4G流量的判别精度都在90%以上,召回率都在80%以上;对于固网流量有92%以上的精度和96%以上的召回率.其中RandomForest和C4.5决策树模型对3G4G流量和固网流量都有较好的区分效果,同时也说明构造的特征对固网和3G4G流量有很好的分类效果.

Table 6 Experimental Results of Different Classifiers
表6 不同分类器的实验结果

Classifiers3G∕4GEthernetPrecisionRecallPrecisionRecallSVM0.9000.8070.9230.963Logistic0.9220.8460.9380.970AdaBoost0.9560.8460.9390.984BayesNet0.9450.8540.9420.979RandomForest0.9630.9210.9680.985C4.50.9520.9210.9680.981

传统网络流量的分类方法中,开源项目WURFL(wireless universal resource file)[19]提出了一种利用HTTP报文首部中的UA (user-agent)特征字段,识别移动终端操作系统的方法.在流量分析时,使用深度包解析(DPI)的方法提取HTTP协议中的UA字段,但由于仅依赖于字符串匹配的方式,分类的准确度稳定在12%左右,分类效果远远低于本文的提出方法.Liu等人[20]通过匹配UA和终端操作系统的对应关系,获得UA对应的操作系统,进而筛选出手机终端对应的移动互联网流量.该方法对识别移动互联网流量具有较高的正确率91.5%,但对于那些不能使用DPI分析方法的流量,例如经过隐私处理的公开数据集(如本文中使用的数据集),则无法使用.以上2种方法均通过终端操作系统识别流量,并无法区分终端的网络接入类型,而本文方法能够准确区分固网与3G4G网络.

李平红等人[21]中提出了一种基于多分类器集成的网络流量分类算法MCSE,将每个分类器的分类结果与多个分类器的分类结果进行综合考虑,从而有机地选择基集成器进行集成最终的分类结果.基于不同个数的基分类器,分类准确率在91%~96%之间.若希望达到96%左右的准确率,则需要140个基分类器,时间与空间开销较大.周文刚等人[22]中提出一种基于改进的k -means的半监督学习的流量分类识别算法,获得更好的聚类划分结果并利用已知标记信息完成聚类匹配过程,分类准确率在80%~90%之间,分类结果也不及本文分类方法的准确率高.

因此,本文提出的移动蜂窝网络流量的时延特征分析与识别方法能够较好地识别网络的接入类型.相较传统的网络流量识别方法,不再是针对网络协议类型进行分流,而是延伸至网络的接入类型,更具有全局性与前景应用价值.同时,该方法的网络流量分类准确率也高于传统的其他分流方法,无需冗杂的计算过程与大量的时间空间开销.

此外,为了进一步评估并度量各个特征在分类过程中的显著程度和决策权重,同时针对样本流量和实验数据,针对流量识别分类目标,计算了6种时延特征的信息增益如图10所示.

Fig. 10 Information gain of delay features to the
classification
图10 不同时延特征对分类的信息增益

从图10可以看出,特征C1的信息增益最大,即链路时延最小值对流量识别有最大的区分度,这表明移动蜂窝网络和固网的链路时延下限有较为明显的差异;特征C3,C4,C5的信息增益也较大,即RRC不同状态下时延分布的统计特征对流量的识别也有较大贡献;C6的信息增益较小,这是因为由于RRC空闲态导致数据重传的包较少,捕获概率较小,仅能作为RRC空闲态高时延的补充描述;C2的信息增益最小,主要是因为随着移动蜂窝网络技术的提升,其网络质量与固网之间的距离在缩小,用户对移动蜂窝网络和固网的上网体验比较接近.

在实验过程中发现,对于IP地址存活时间较长,数据发送比较稀疏,例如手机处于屏保状态的情况,即时通信软件发送的流量,能较好地计算RRC处于IDLE状态下的时延和重传率等特性;而对于IP地址存活时间较短或一直高速收发状态的流量,RRC处于IDLE状态的机会较少,导致RRC特征信息量较小,甚至特征缺失.

5

本文研究了网络用户通过宽带固定网络或移动蜂窝网络接入互联网所产生流量的时延特征差异,并从理论上分析了2种接入方式的数据链路管理和链路协议实现机制上的差异,相应地设计了6种流量时延特征,并经过实验确认了特征差异的存在性和显著性.基于这些特征,使用多种有监督机器学习算法构建分类器,用于互联网骨干网混合流量中区分移动蜂窝网络数据流量和固定接入网络数据流量.实验采用公开的智能终端产生的互联网流量数据,进行固网与3G4G流量分类和客户端网络链路识别,最高可同时获得92%以上的准确率和召回率,体现了良好的流量时延特征描述能力.5G通信技术是4G之后的延伸,正处于研究阶段,将成为未来一段时间内移动通信的中坚力量.相较3G4G网络,5G将带来更快的网速、更好的信号、更小的延时,但本文的研究方法立足于网络通信中的时延特征差异,5G网络仍然具有RRC相关的4个特征,链路时延最小值特征相较3G4G会更接近固网,但依旧会存在一定的差异性.同样链路时延标准差也是移动网络的主要特性,难以实现固网一样保证网络通信的稳定性,因此本文提出的识别方法依然适用于未来的5G移动通信.

未来针对该流量分类模型的进一步优化和完善工作包括:1)研究如何更加有效地降低网络负载带来的时延噪声;2)克服不同运营商的RRC状态转换时间差异,提高模型在不同移动运营商网络中的通用性;3)考虑更加精准地判断RRC的状态变化,尝试将3G与4G区流量分开,或者将不同运营商的流量区分开.

参考文献

[1]China Internet Network Information Center. The 38th statistical report on Internet development in China[EBOL]. (2016-08-03)[2017-05-12]. http:www.cnnic.cngywmxwzxrdxw2016201608W020160803204144417902.pdf (in Chinese)(中国互联信息网络中心. 第38次中国互联网络发展状况统计报告[EBOL]. (2016-08-03)[2017-05-12]. http:www.cnnic.net.cnhlwfzyjhlwxzbghlwtjbg201608P0201608033-67337470363.pdf)

[2]Center for Applied Internet Data Analysis. The CAIDA Anonymized Internet Traces 2016 Dataset[EBOL]. 2016[2017-01-08]. http:www.caida.orgdata

[3]Perta V C, Barbera M V, Mei A. Exploiting delay patterns for user IPs identification in cellular networks[M] Privacy Enhancing Technologies. Berlin: Springer, 2014: 224-243

[4]Peng Chunyi, Li Chiyu, Tu Guanhua, et al. Mobile data charging: New attacks and countermeasures[C] Proc of the 19th ACM Conf on Computer and Communications Security. New York: ACM, 2012: 195-204

[5]Wen Kun, Yang Jiahai, Cheng Fengjuan, et al. MIL-RoQ: Monitoring, identifying and locating the RoQ attack in backbone network[J]. Journal of Computer Research and Development, 2015, 52(4): 813-822 (in Chinese)(文坤, 杨家海, 程凤娟, 等. 骨干网络中RoQ攻击的监测、定位和识别[J]. 计算机研究与发展, 2015, 52(4): 813-822)

[6]Zhao Xiaohuan, Xia Jingbo, Fu Kai, et al. Frequent items mining algorithm over network flows at high-speed network[J]. Journal of Computer Research and Development, 2014, 51(11): 2458-2469 (in Chinese)(赵小欢, 夏靖波, 付凯, 等. 高速网络流频繁项挖掘算法[J]. 计算机研究与发展, 2014, 51(11): 2458-2469)

[7]Zhang Ying, Rvidsson A. Understanding the characteristics of cellular data traffic[J]. ACM SIGCOMM Computer Communication Review, 2012, 42(4): 461-466

[8]Zhang Ying, Arvidsson A, Siekkinen M, et al. Understanding HTTP flow rates in cellular networks[C] Proc of the 13th IFIP Int Conf on Networking. Piscataway, NJ: IEEE, 2014: 1-8

[9]Xu Yin, Wang Zixiao, Leong W K, et al. An end-to-end measurement study of modern cellular data networks[G] Passive and Active Measurement. Berlin: Springer, 2014: 34-45

[10]Chen Xin, Zhang Lei, Xiang Xudong, et al. End-to-end delay analysis of LTE networks based on random network computing[J]. Chinese Journal of Computers, 2012, 35(1): 46-52 (in Chinese)(陈昕, 张磊, 向旭东, 等. 基于随机网络演算的LTE网络端到端时延分析[J]. 计算机学报, 2012, 35(1): 46-52)

[11]Sandrasegaran K, Ramli H A M, Basukala R. Delay-prioritized scheduling (DPS) for real time traffic in 3GPP LTE system[C] Proc of the 6th IEEE Conf on Wireless Communication and Networking. Piscataway, NJ: IEEE, 2010: 1-6

[12]Nikaein N, Krea S. Latency for real-time machine-to-machine communication in LTE-based system architecture[C] Proc of the 17th European Wireless 2011-Sustainable Wireless Technologies. Berlin: VDE, 2011: 1-6

[13]Lin Chuan, Zhao Hai, Bi Yuanguo, et al. Research on the characteristics of Internet network delay[J]. Journal on Communications, 2015(3): 163-174 (in Chinese)(林川, 赵海, 毕远国, 等. 互联网网络时延特征研究[J]. 通信学报, 2015(3): 163-174)

[14]Gupta M, Jha S C, Koc A T, et al. Energy impact of emerging mobile Internet applications on LTE networks: Issues and solutions[J]. IEEE Communications Magazine, 2013, 51(2): 90-97

[15]Barbera M V, Bronzini S, Mei A, et al. A needle in the haystack-delay based user identification in cellular networks[G] Passive and Active Measurement. Berlin: Springer, 2014: 265-267

[16]Sesia S, Baker M, Toufik I. LTE, the UMTS Long Term Evolution: From Theory to Practice[M]. Hoboken, NJ: Wiley, 2009: 437-440

[17]Kolding T, WigardJ, Dalsgaard L. Balancing power saving and single user experience with discontinuous reception in LTE[C] Proc of the 5th IEEE Int Symp on Wireless Communication Systems. Piscataway, NJ: IEEE, 2008: 713-717

[18]Coninck Q D, Baerts M, Hesmans B, et al. A first analysis of multipath TCP on smartphones[G] Passive and Active Measurement. Berlin: Springer, 2016: 57-69

[19]Passani L, Trasatti A. Wireless Universal ResourceFile[EBOL]. 2004[2016-10-24]. http:wurfl. sourceforge.net

[20]Liu Jun, Li Yinzhou, Felix C, et al. Parallelized Jaccard-based learning method and MapReduce implementation for mobile devices recognition from massive network data[J]. China Communications, 2013, 10(7): 71-84

[21]Li Pinghong, Tao Xiaoling, Wang Yong. A network traffic classification method for multiple classifiers selective ensemble[J]. Computer Applications and Software, 2014, 31(7): 182-185 (in Chinese)(李平红, 陶晓玲, 王勇. 一种多分类器选择性集成的网络流量分类方法[J]. 计算机应用与软件, 2014, 31(7): 182-185)

[22]Zhou Wengang, Chen Leiting, Lubomir B, et al. Algorithm for network traffic classification and identification based on semi-supervised learning[J]. Journal of Electronic Measurement and Instrument, 2014, 28(4): 381-386 (in Chinese)(周文刚, 陈雷霆, Lubomir B, 等. 基于半监督的网络流量分类识别算法[J]. 电子测量与仪器学报, 2014, 28(4): 381-386)

Traffic Latency Characterization and Fingerprinting in Mobile Cellular Networks

Wei Songjie, Wu Chao, Luo Na, and Zhang Gongxuan

(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094)

Abstract Internet backbone traffic is a complicated mix of various data flows initiated by clients via different network connections, including 3G4G-based mobile cellular networks and wired broadband networks. Without examining application layer meta-data or inspecting into TCPIP packet contents, existing network traffic analysis and characterization methods struggle in differentiating traffic flows from these two types of network connections. By studying the different kinds of link layer technics and wireless radio resource control (RRC) mechanisms, the traffic temporal characteristics are analyzed and formalized based on the packet delay variance. By making use of TCPIP packet’s round-trip time (RTT) calculation, the experiments extract six significant network traffic features related to the packet delay, and apply them to train and test machine-learning classifiers to separate 3G4G client traffic flows from broadband connection flows. These features focus on the transmission latency caused by a client’s first-hop Internet connection, and reveal the temporal variance of packet distribution from different link flows. Experiments with realistic dataset of mobile application traffic achieve a classification precision of more than 92% with effective traffic coverage and error resilience. The proposed method surpasses other related solutions also by relying on only the temporal distribution of flow packets without needing to inspect the packet content and encapsulation.

Key words 3G4G; mobile cellular network; traffic characterization; RRC mechanism; network delay

(swei@njust.edu.cn)

中图法分类号 TP393

收稿日期20170628;

修回日期:20180316

基金项目国家自然科学基金项目(61472189);赛尔网络下一代互联网技术创新项目(NGII20160105,NGII20160601);空中交通管理系统与技术国家重点实验室开放基金项目(SKLATM201703)

This work was supported by the National Natural Science Foundation of China (61472189), the CERNET Innovation Project (NGII20160105, NGII20160601), and Open Fund of the State Key Laboratory of Air Traffic Management System and Technology (SKLATM201703).

通信作者张功萱(gongxuan@njust.edu.cn)

Wei Songjie, born in 1977. PhD, associate professor. Member of IEEE and CCF. His main research interests include computer network technology and application, wireless network and mobile computing, intelligent services and cloud computing.

Wu Chao, born in 1994. Master. His main research interests include computer network security and network traffic confusion.(wcraig2012@gmail.com)

Luo Na, born in 1992. Master. Her main research interests include computer network security and machine learning.(luona@njust.edu.cn)

Zhang Gongxuan, born in 1961. PhD, professor and PhD supervisor. Senior member of ACM and IEEE. His main research interests include Web services and distributed computing, trusted computing and information security, multi-core and high-performance computing technology.