• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于扩散模型生成数据重构的客户流失预测

杨斌, 王正阳, 程梓航, 赵慧英, 王鑫, 管宇, 程新洲

杨斌, 王正阳, 程梓航, 赵慧英, 王鑫, 管宇, 程新洲. 基于扩散模型生成数据重构的客户流失预测[J]. 计算机研究与发展, 2024, 61(2): 324-337. DOI: 10.7544/issn1000-1239.202330742
引用本文: 杨斌, 王正阳, 程梓航, 赵慧英, 王鑫, 管宇, 程新洲. 基于扩散模型生成数据重构的客户流失预测[J]. 计算机研究与发展, 2024, 61(2): 324-337. DOI: 10.7544/issn1000-1239.202330742
Yang Bin, Wang Zhengyang, Cheng Zihang, Zhao Huiying, Wang Xin, Guan Yu, Cheng Xinzhou. Customer Churn Prediction Based on Generation Data Reconstruction Using Diffusion Model[J]. Journal of Computer Research and Development, 2024, 61(2): 324-337. DOI: 10.7544/issn1000-1239.202330742
Citation: Yang Bin, Wang Zhengyang, Cheng Zihang, Zhao Huiying, Wang Xin, Guan Yu, Cheng Xinzhou. Customer Churn Prediction Based on Generation Data Reconstruction Using Diffusion Model[J]. Journal of Computer Research and Development, 2024, 61(2): 324-337. DOI: 10.7544/issn1000-1239.202330742
杨斌, 王正阳, 程梓航, 赵慧英, 王鑫, 管宇, 程新洲. 基于扩散模型生成数据重构的客户流失预测[J]. 计算机研究与发展, 2024, 61(2): 324-337. CSTR: 32373.14.issn1000-1239.202330742
引用本文: 杨斌, 王正阳, 程梓航, 赵慧英, 王鑫, 管宇, 程新洲. 基于扩散模型生成数据重构的客户流失预测[J]. 计算机研究与发展, 2024, 61(2): 324-337. CSTR: 32373.14.issn1000-1239.202330742
Yang Bin, Wang Zhengyang, Cheng Zihang, Zhao Huiying, Wang Xin, Guan Yu, Cheng Xinzhou. Customer Churn Prediction Based on Generation Data Reconstruction Using Diffusion Model[J]. Journal of Computer Research and Development, 2024, 61(2): 324-337. CSTR: 32373.14.issn1000-1239.202330742
Citation: Yang Bin, Wang Zhengyang, Cheng Zihang, Zhao Huiying, Wang Xin, Guan Yu, Cheng Xinzhou. Customer Churn Prediction Based on Generation Data Reconstruction Using Diffusion Model[J]. Journal of Computer Research and Development, 2024, 61(2): 324-337. CSTR: 32373.14.issn1000-1239.202330742

基于扩散模型生成数据重构的客户流失预测

基金项目: 云南省软件工程重点实验室开放基金项目(2023SE202)
详细信息
    作者简介:

    杨斌: 1986年生. 博士. CCF会员. 主要研究方向为数据挖掘、自然语言处理

    王正阳: 2003年生. 本科生. 主要研究方向为数据挖掘、人工智能

    程梓航: 2003年生. 本科生. 主要研究方向为数据挖掘、人工智能

    赵慧英: 1991年生. 博士,中国联通集团企业博士后. 主要研究方向为图神经网络、自智网络

    王鑫: 1988年生. 硕士. 主要研究方向为人工智能、图神经网络

    管宇: 1998年生. 硕士生. 主要研究方向为软件测试、数据挖掘、人工智能

    程新洲: 1978年生. 教授级高级工程师. 主要研究方向为网络智能运营、人工智能

  • 中图分类号: TP391

Customer Churn Prediction Based on Generation Data Reconstruction Using Diffusion Model

Funds: This work was supported by the Open Foundation of Yunnan Key Laboratory of Software Engineering (2023SE202).
More Information
    Author Bio:

    Yang Bin: born in 1986. PhD. Member of CCF. His main research interests include data mining and natural language processing

    Wang Zhengyang: born in 2003. Undergraduate. His main research interests include data mining and artificial intelligence

    Cheng Zihang: born in 2003. Undergraduate. His main research interests include data mining and artificial intelligence

    Zhao Huiying: born in 1991. PhD, postdoctoral fellow of China United Network Communications Group Co., Ltd. Her main research interests include graph neural network and autonomous networks

    Wang Xin: born in 1988. Master. Her main research interests include artificial intelligence and graph neural network

    Guan Yu: born in 1998. Master. His main research interests include software test, data mining, and artificial intelligence

    Cheng Xinzhou: born in 1978. Professor level senior engineer. His main research interests include network intelligent operations and artificial intelligence

  • 摘要:

    在数据挖掘领域普遍存在数据不平衡影响到模型预测精度的问题,同时还存在未考虑用户隐私保护的问题. 生成伪造数据是一种重要的解决方法,但在以结构化数据为主的场景中,由于存在数据特征维度多且不相关等特点,生成高质量的数据存在挑战. 考虑到扩散模型在图像生成等任务中被成功应用,以客户流失预测为典型应用场景,尝试将扩散模型应用到客户流失预测任务中. 针对该场景数据中的数值型特征和类别型特征,通过高斯扩散模型和多项式扩散模型获得生成数据,并对模型预测效果和数据隐私保护能力进行研究和分析. 在多个领域的客户流失数据上进行了大量实验,探索应用生成数据对真实数据融合重构的可能性. 实验结果表明基于扩散模型可生成高质量数据,且对多种预测方法均有一定提升,可实现缓解数据不平衡问题. 同时,基于扩散模型生成的数据分布更接近真实数据,具有应用于用户隐私保护的潜在价值.

    Abstract:

    In the field of data mining, the issue of data imbalance impacting model prediction accuracy is widespread, and also the issue of user privacy protection is neglected. Fake dataset generation has come to light as a crucial remedy for these problems. However, because of the traits of high-dimensional and irrelevant features, it is difficult to generate high-quality data in circumstances where structured data predominate. Considering the successful applications of the diffusion model in image generation task, we aim to apply the diffusion model for the task of customer churn prediction, which is a typical scenario in data mining. we utilize the Gaussian diffusion model and polynomial diffusion model to generate data for numerical and categorical features in customer churn data. Research and analysis have been conducted on the predictive performance and data privacy protection capabilities of our model. We conduct extensive experiments on customer churn data from multiple domains to explore the potential of fusing synthetic dataset and real dataset for data reconstruction. The results demonstrate that the diffusion model can generate high-quality data and improve the performance of various prediction methods, which can help alleviate the issue of data imbalance. Additionally, the data produced by the diffusion model exhibit a distribution that is quite similar to the original dataset, which may be useful for protecting user privacy.

  • 近年来,物联网技术在应用领域受到了越来越多的关注和采用.据统计,2016年物联网设备数量达到了176.8亿台,并保持每年17%的增长率.与此同时,无线技术作为物联网的基础技术之一也得到了多样化的发展.比如,WiFi技术被广泛应用在智能家居产品,ZigBee技术应用在无线传感网络的监控,蓝牙设备支持低功耗的连接,LoRa技术能在公里级别的距离传输等.

    随着物联网设备和应用呈现爆发式的增长,在同一个物理空间尤其是室内环境中,各种各样无线网络协议共存的情况越来越普遍.比如在智慧工厂中,ZigBee节点用于监控温度湿度等环境信息,RFID标签用于监控设备的振动转角等状态信息,WiFi路由器为巡检人员提供无线网络连接,等等.在这种不同无线技术相互共存相互融合的场景中,不同无线技术之间就会导致信道竞争、信号冲突、吞吐降低、延迟增加等严重的共存问题.

    多种异质无线网络协议共存在很多物联网应用中都是不可避免的.被动地进行冲突避让、干扰容忍和并发解码只是缓兵之策,不同无线技术之间主动进行数据共享和融合协调才是解决共存问题的突破口.在这种背景下,跨技术通信方法应运而生.多个异构设备之间能够直接地传输数据和交换信息,实现更好的网络管理、干扰控制、交互操作和组网融合等.

    跨技术通信方法是近年来学术界和工业界研究的热点之一,现有工作实现了2类跨技术通信的方法.第1类利用各种异构设备都能进行能量感知的共性,利用数据包级别的特征构建了数据包能量、长度、间隔、状态信息等侧信道来传输跨技术通信的比特信息.第2类挖掘了不同无线技术调制解调的兼容性,提出了物理层模拟的方法实现对目标信号的重构或映射.目前,跨技术通信方法已经取得了积极进展,但同时仍有大量的开放性问题有待解决.

    本文在重新梳理相关研究的基础上,分析了跨技术通信方法产生的背景和研究意义,总结了现有工作提出的跨技术通信方法,并介绍了跨技术通信的相关应用场景.最后,展望了物联网技术的发展趋势,实现更加泛在的跨网络、跨技术、跨频率的互联互通.

    随着无线通信和物联网技术的蓬勃发展,使用不同无线技术的应用系统越来越多地出现和丰富了人们的日常生活.比如WiFi[1-2],ZigBee[3-4],Bluetooth[5-6],LoRa[6-8],RFID[9-10]等无线技术广泛应用在智能家居、智能穿戴、智慧医疗和智慧工业等领域.一方面,不同的无线技术能够适应不同的系统性能要求,比如通信范围、数据率、延迟和能耗等.另一方面,这些不同的无线技术共享同一个频段的信道资源.图1展示了3种运行在2.4 GHz频段上的无线信号的频谱分布,可以发现这3种信号的频段相互重叠.如果这些不同无线技术共存在同一个物理空间时,因为信道竞争和信号冲突,有可能诱发网络丢包、吞吐降低、延迟增加、频谱低效等严重的共存问题.文献[11]中展示了真实环境中WiFi和ZigBee相互干扰的情况,在不同的WiFi流量负载下,ZigBee的丢包率在0%~85%之间变化.

    图  1  常见无线技术在2.4GHz的频谱分布
    Figure  1.  Frequency distribution of common wireless technologies in 2.4 GHz

    不同的无线技术因为物理层标准的不兼容性,不能要求其他无线网络协议的配合,只能被动地调整自己的传输策略.传统的无线共存问题[12]的解决方法包括干扰避让[13-14]、容忍[15-17]和并发机制[18-19].

    1)干扰避让.避让法是尽量从时间、频率和码字3个方面隔离自己的信号和其他无线异质信号.载波侦听多路访问[20-21](carrier sense multiple access, CSMA)和时分多路访问[22-23](time division multiple access, TDMA)是时间隔离的方法.在CSMA中,发射机在发送信号之前首先进行侦听检测信道是否空闲,当信道中有其他信号正在传输时,会随机后退一段时间避让干扰后再进行传输.在跳频技术[24-25]中,无线网络协议并不使用固定的信道,而是在所有可用信道上进行变化.这样不同的无线技术不会长期在某个相同的信道上停留,有效地避免干扰和冲突.另外,还可以通过编码技术,增强信号的抗干扰能力和数据包的解码率.

    2)容忍和并发机制.通常不同无线异构设备具有非对称性,比如WiFi的发送功率更大、竞争信道的能力更强;低功耗设备ZigBee的功率较低、能力较弱.那么WiFi的CSMA监听不到远处ZigBee的传输,不会产生避让,所以ZigBee信号很容易被高功率的WiFi干扰.当2个发送端的数据包到达同一个接收端时可能会存在捕获效应[26-27],通常信号能量较高的数据包可以被成功解析.比如ZIMO[28]中利用干扰消除技术,在ZigBee信号和WiFi信号重叠时,能够消除WiFi干扰成功解码出ZigBee信号.

    跨技术通信是物联网设备共存融合的大势所趋.在物联网迅猛发展的大背景下,多种异质无线网络协议共存是不可避免的.被动地进行冲突避让、干扰容忍和并发解码只是缓兵之策,不同无线技术之间主动进行数据传输和融合协调才是解决共存问题的突破口.

    目前,市场上涌现出了众多网关产品,包括神州数码、艾泰、国富安等多种品牌,可以实现不同调制方式的无线信号转换,应用在工业厂房、家庭监控等场景.与此同时,市场上也有很多用于解决设备连接的软件框架平台技术,比如Niagara是Tridium公司研发设计的用于解决设备连接的软件框架平台,用于提高物联网设备的互操作能力和提供统一的数据呈现.因此,实现不同无线技术之间的转换和通信是物联网设备共存融合的大势所趋.但是纯网关的设计会带来部署和维护的成本提高以及双倍的通信开销,造成信道拥挤并降低整体传输效率[29-31].因此,我们需要去除网关,在无线异构设备之间实现直接的万物互联和异构融合.在这种背景下,跨技术通信方法应运而生.

    跨技术通信是指2个异构的无线设备之间能够实现直接的数据传输和信息交换,而不需要中间的网关.但是,实现跨技术通信也面临着很多挑战,包括信息屏障、媒介缺失和管理失衡.

    首先,异质网元天然存在“信息屏障”,不同无线技术的物理层采用不同的通信协议标准,这些标准是不兼容的.其次,这些异构网络的协同面临“媒介缺失”的问题,不同无线技术的编码调制方式不同,相应的解调解码方式也不同.最后,不同无线技术共享信道资源容易出现“管理失衡”,因为不同无线技术的带宽、速率、接收灵敏度、抗噪声干扰、抢占信道的能力是非对称的.

    为了解决这些挑战,近些年涌现出了很多实现跨技术通信方法的研究工作.对跨技术通信的研究最早可以追溯到2009年,Chebrolu等人[32]提出的Esense借助数据包能量实现了从WiFi到ZigBee的直接数据传输,证明了跨技术通信的可行性.美国明尼苏达大学的He等人[33]在2015年的MobiCom会议上发表论文FreeBee时率先将该成果定义为跨技术通信(cross technology communication,CTC),该团队后续也发表了一系列代表性成果,为跨技术通信方向的研究树立了标杆.随后,清华大学何源老师团队于2016年率先在国内系统性开展跨技术通信相关研究,团队提出的能量编码和数字模拟等方法备受国内外学者的关注和讨论.另外,国内很多其他高校例如浙江大学、北京邮电大学、西北大学、燕山大学等团队都先后开展跨技术通信相关研究.

    跨技术通信的技术方向体现在2方面:一方面,对跨技术通信的研究从使能实现技术向链路层、网络层以及应用层在不断延伸和拓展;另一方面,跨技术通信方法的性能不断完善和提升,比如利用物理层信号模拟和交叉映射的方法提升数据率;通过减小模拟误差逐步增加可靠性;寻找多种无线信号更加细粒度的共性特征来完善兼容性等.

    跨技术通信方法能够实现更好的网络控制、干扰管理、交互操作和异构网络融合,能够应用在家居、工业、医疗等多种场景.

    1)智慧家庭.WiFi AP根据场景的不同动态地给传感器节点(ZigBee设备)分配不同的优先级,保证优先级高的传感器数据能高效稳定地回传到数据中心,更好地管理共存的异构无线设备[34,36].

    2)野外森林.利用大规模传感器网络(WSN)监控温度湿度等环境参数,可以借助LoRa远距离低功耗的优势,给这些分散的传感器节点发送控制信息,从而避免传感器节点自身的多跳传输减少延迟.另外,还可以实现网络诊断,更快速准确地确定故障设备[37].

    3)工业应用.大多数的工业控制机械制造需要多种异构设备的交互才能完成复杂的功能,为了提高控制精度减小误差,我们可以通过从WiFi到ZigBee的跨技术通信方法[38]传送时间戳信息实现毫秒级别的异构网络时钟同步误差.

    4)网络安全.跨技术通信方法在实现异构设备之间直接数据传输的同时,也能让2个异构设备之间可以相互模仿,无法区分出谁是同质设备还是异构设备,从而实现攻击.比如WiFi设备可以模拟一个蓝牙设备,WiFi发出的从WiFi到蓝牙的模拟信号和蓝牙到蓝牙的数据信号非常相似,导致蓝牙接收端无法辨别,从而出现广告推送、数据窃取等安全隐私问题[39].

    5)健康看护.借助跨技术通信方法可以实现对健康数据更快速的上传和更广泛的监控[40].比如可以利用广泛部署的WiFi AP作为蓝牙基站[41],及时上传蓝牙手表、手环等可穿戴设备的测量数据,并且实现更加及时地帮助和救援.另外,跨技术通信方法能够为很多IoT设备制定高效的节能策略[42].通常允许WiFi连接的设备耗电严重,很多设备会采用802.11的PSM模式关闭WiFi接口,来避免设备对环境中可连接WiFi网络的嗅探以此节能,但这种方法也让设备不能及时地连接到可用的WiFi网络上.在这种情况下,我们可以利用低功耗ZigBee传感器节点的监听模式[28]去检测是否有可用的WiFi网络,然后再通过ZigBee到WiFi的跨技术通信方法打开WiFi接口,延长电池寿命.

    因为物理层协议的不兼容,虽然异构无线设备之间不能直接地解调解码(如1.2节分析),但是可以利用数据包级别的特征构建一个能够对收发双方同时有效的侧信道,从而传送异构设备之间的跨技术通信的数据信息.这种方法类似于2个说不同语言的人,虽然听不懂对方的话,但是可以通过声音的高低、一句话的长短等来传递信息.目前,主要有基于接收信号强度(received signal strength, RSS)和信道状态信息(channel state information, CSI)2种基于数据包级别特征的跨技术通信方法.表1总结了现有的数据包级别的跨技术通信方法.表1中,可靠性是用来评估该技术的抗干扰能力,以及提出编码侧信道是否有应对环境干扰的机制.基于RSS的侧信道比基于CSI的侧信道具有更高的可靠性,另外,StripComm[43],FreeBee[33],HoWiES[44]分别采取了曼彻斯特编码、folding技术和多数据包编码策略来抵抗噪声;AdaComm[45],c-Chirp[46],DopplerFi分别采用了神经网络、线性调频和多子载波调制的方法来提高CSI的可靠性.

    表  1  数据包级别的跨协议通信技术概览
    Table  1.  Overview of Packet-Level CTC Methods
    侧信道方法代表工作链路并发传输吞吐量/bps可靠性
    RSS能量WiZig[47]WiFi→ZigBee不支持154
    StripComm[43]WiFi→ZigBee不支持1100
    长度Esense[32]WiFi→ZigBee不支持
    HoWiES[44]WiFi→ZigBee不支持
    间隔FreeBee[33]WiFi→ZigBee支持31.5
    C-Morse[48]WiFi→ZigBee支持12~137
    顺序EMF[49]WiFi→ZigBee支持203
    PRComm[50]WiFi→ZigBee不支持170~410
    CSI特征序列ZigFi[51]ZigBee→WiFi不支持215.9
    AdaComm[45]ZigBee→WiFi不支持229
    波形构建B2W2[52]Bluetooth→WiFi支持1500
    c-Chirp[46]ZigBee→WiFi不支持90.1
    多普勒频偏DopplerFi[53]Bluetooth→WiFi不支持1590
    下载: 导出CSV 
    | 显示表格

    大多数无线设备,比如WiFi,Bluetooth,ZigBee,LoRa等,都能支持RSS检测的功能,能够将收到的无线信号的信号强度直接记录下来,而不需要将信号解码出来.收发双方可以通过信号强度信息来构建可识别的特征序列,从而实现跨技术数据信息的传输.我们可以通过调整数据包的发送能量、长度信息、发送间隔和顺序等来构建不同的RSS序列特征.

    1)数据包能量.通过控制接收端收到的RSS信息在能量强度上发生的变化可以传输跨技术的数据比特.如图2所示,当WiFi发送端有数据包传送时,ZigBee接收端检测到的RSS强度高,可以传递跨技术比特“1”;当WiFi发送端没有数据包传送时,ZigBee接收端检测到的RSS强度低,可以传递跨技术比特“0”.但是,数据包的有无只能在接收端出现2种不同的数据包能量等级(能级),一个时间窗口内只能传送实现1b的跨技术数据.WiZig[47]通过在WiFi发送端调整不同的发送功率来在接收端实现多种不同的能级来提高数据率.比如4种不同的发送功率对应4种不同的能级,就可以传送2b的跨技术数据.另外,StripComm[43]提出将数据包能量信息进行曼彻斯特编码的方法来提高跨技术数据传输的抗干扰能力和鲁棒性.

    图  2  基于包能量的数据包级别跨技术通信方法
    Figure  2.  Packet-level CTC method based on packet energy

    2)数据包长度.发送端发送数据包的长度不同,使接收端收到信号强度的持续时间不同,从而可以对应不同的跨技术数据比特.如图3所示.Esense[32]在发送端和接收端之间建立映射表,规定一个窗口内100种不同长度的数据包以及跨技术数据比特的对应关系.HoWiES[44]改进了Esense,能够在一个窗口传递2744种信息.

    图  3  基于包长度的数据包级别跨技术通信方法
    Figure  3.  Packet-level CTC method based on packet size

    3)数据包间隔.通过改变广播帧的发送间隔,比如WiFi和Bluetooth的beacon帧,可以传递跨技术数据信息,不需要带来额外的数据包开销.比如2个相邻的WiFi广播帧的时间间隔是100 ms,FreeBee[33]中调整了WiFi广播帧的广播间隔,让ZigBee和Bluetooth等接收端采集到的高电平的信号强度间隔发生变化,从而传递WiFi到ZigBee和WiFi到Bluetooth的跨技术信息,如图4所示.

    图  4  基于包间隔的数据包级别跨技术通信方法
    Figure  4.  Packet-level CTC method based on packet interval

    4)数据包顺序.控制不同数据包的发送顺序可以构建不同的信号强度序列.如图5所示,C-Morse[48]调整不同类型、不同长度数据包的发送顺序,在接收端构建{短、短、长、长}、{短、长、短、长}等多种不同类型的摩斯编码序列;EMF[49]中通过调整数据包的发送顺序,改变了接收端在一个时间窗口内收到的高电平的占空比.可以用摩斯编码来改变信号占空比实现跨技术数据比特信息的传递.PRComm[50]主要考虑了同步和抗干扰2个需求,发送端通过改变数据包顺序来构建不同的伪随机序列,提高抗干扰能力,并提出基于可识别编码特征的动态同步解码策略,容忍数据包时间误差的影响.

    图  5  基于包顺序的数据包级别跨技术通信方法
    Figure  5.  Packet-level CTC method based on packet schedule

    无线异构信号在频域上互相重叠的特性为基于CSI的跨技术通信方法提供了理论支持.WiFi 802.11a/g/n 支持20 MHz的信道宽度,每个信道分成64个子信道,CSI[54]是用来指示这些子载波上的信道状态,包括幅度和相位2个部分.相比于RSS,CSI的变化更稳定,抗干扰能力更强.通过影响WiFi接收端收到的CSI的特征序列、波形构建和频偏等,可以实现跨技术通信方法.

    1)特征序列.当WiFi数据包在传送过程中受到其他数据包的干扰或者影响时,CSI序列会发生显著变化,从而可以利用CSI序列实现跨技术数据的传输,如图6所示.比如,当信道中有ZigBee数据包传输时,ZigBee信号会影响WiFi数据包的前导码,从而使接收端收到的CSI序列发生变化.因为环境信道的复杂性,CSI的变化特征很难通过现有的公式进行量化.ZigFi[51]中提出利用支持向量机来对CSI序列进行判断.如果CSI发生了显著变化,则判断信道中有ZigBee数据包,从ZigBee到WiFi的跨技术数据是“1”;反之,从ZigBee到WiFi的跨技术数据是“0”.除了ZigBee信号外,背景噪声、突发信号、多径干扰都会影响WiFi的CSI序列,AdaComm[45]利用机器学习的方法来判断CSI序列的特征,从而增强了跨技术数据传输的鲁棒性和普适性.

    图  6  有/无ZigBee传输情况下WiFi收到的CSI序列
    Figure  6.  CSI sequence received by WiFi with and without ZigBee

    2)波形构建.除了将WiFi的CSI是否发生变化作为特征外,还可以通过不同的CSI大小构建不同的CSI波形来进行跨技术数据的传输.B2W2[52]中通过Bluetooth数据包来影响WiFi收到的CSI,通过调节不同的Bluetooth发送功率,使得WiFi的CSI出现DAFSK的波形,WiFi接收端根据波形的变化来解码数据,如图7所示.受LoRa信号扩频调制技术的启发,c-Chirp[46]在不同的ZigBee信道上发送数据包,WiFi接收端收到的CSI序列会在不同的频率上线性变化,从而将ZigBee到WiFi跨技术通信的距离提高到60 m.

    图  7  利用WiFi CSI构建DAFSK波形
    Figure  7.  DAFSK waveform constructed by WiFi CSI

    因为数据率受限的影响,目前跨技术通信的研究主要集中在基于物理层信号的跨技术通信方法研究.但是相比基于物理层信号的跨技术通信方法,数据包级别的跨技术通信方法在通用性、兼容性和可靠性方面仍然具有较大的优势.

    虽然基于数据包级别的跨技术通信方法实现简单、不需要修改设备的底层硬件和MAC协议、有很强的兼容适配能力,但是这种方法实现的跨技术传输的数据率是非常有限的,通常只有几百bps到几千bps.通常一个数据包的持续时间是几毫秒,所以基于数据包能量、大小、间隔和发送顺序等数据包级别特征的方法的调制粒度有限,从而限制了数据率.

    为了进一步提升跨技术通信的传输效率,近年来提出基于物理层级别的跨技术通信方法,能够实现Mbps的数据率.按照发送端和接收端是否需要修改上层协议,我们将现有的物理层级别的跨技术通信方法分为3类,分别是接收端透明的、发送端透明的、非透明的跨技术通信方法.表2总结了现有的物理层级别的跨技术通信方法.其中,修改程度是指对发送端或者接收端进行修改的程度,分为对软件或固件的修改以及对硬件的修改.修改程度“低”是指只需要对发送端或者接收端中的一端进行软件或固件的修改,改变发送端的发送方式或者接收端的解码规则;修改程度“中”是指需要同时在软件或固件层面对发送端的发送方式和接收端的解码规则进行修改;修改程度“高”是指我们需要对发送端和接收端的硬件进行升级改造来完成跨技术通信.

    表  2  物理层级别的跨技术通信方法概览
    Table  2.  Overview of Physical-Level CTC Methods
    技术代表工作链路修改
    程度
    并发传输吞吐量
    /kbps
    接收端透明WEBee[55]WiFi→ZigBee支持63
    PMC[56]WiFi→ZigBee支持121.02
    WIDE[57]WiFi→ZigBee支持247.2
    BlueBee[58]BLE→ZigBee不支持225
    发送端透明XBee[59]ZigBee→BLE不支持217
    LEGO-Fi[60]ZigBee→WiFi不支持213.6
    非透明TwinBee[61]WiFi→ZigBee支持
    LongBee[62]WiFi→ZigBee支持
    Chiron[63]WiFi→ZigBee支持223.97
    PIC[64]WiFi→ZigBee支持121.02
    Symphony[65]ZigBee/BLE→LoRa支持3
    下载: 导出CSV 
    | 显示表格

    接收端透明的跨技术通信方法是指接收端不需要任何修改就可以直接解码其他异构无线信号的方法.发送端通过适当的硬件修改或者固件升级去模拟接收端的信号.因为发送端有较强的计算能力,所以发送端模拟出的信号和接收端想要的信号非常相近,从而被接收端认为是合法的数据包,实现有效的接收.根据发送端模拟目标的不同,接收端透明的跨技术通信方法又可以分为对接收端时域波形的模拟和对接收端相偏序列的模拟.

    1)对时域波形的模拟.发送端通过改变数据包的内容去模拟接收端想要的时域波形,从而实现跨技术数据的有效接收和解码[66].WEBee[55]提出了基于物理层波形模拟的方法实现从WiFi到ZigBee跨技术通信的方法.如图8所示,WiFi发送端在WiFi数据包的payload域填充合适的数据比特去模拟ZigBee的时域波形,然后像发送正常的WiFi数据包一样发送模拟数据包.ZigBee接收端将WiFi数据包的前导码、包头和尾部数据域认为是噪声丢弃,而WiFi的payload域满足ZigBee的波形要求,会被认为是合法的ZigBee数据包成功解码.

    图  8  基于时域波形模拟的物理层跨技术通信方法
    Figure  8.  Physical-level CTC method based on time-domain emulation

    这种对时域信号的模拟方法主要是通过WiFi发送的逆过程来实现的,如图9所示.假设WiFi发送端发出的模拟信号就是标准的接收端信号,经过去循环前缀(CP)、傅里叶变换、逆映射、解卷积、解交织、解扰码等操作,可以反推出原始的数据比特.如果WiFi发送端将这些数据比特填充到payload域,那么经过发送流程,就能模拟出接收端想要的时域信号,这个过程叫作QAM模拟.根据相似的波形模拟的思想,PMC[56]中WiFi发送端利用WiFi和ZigBee重叠的子载波实现对ZigBee信号的模拟,利用WiFi和ZigBee非重叠的子载波实现WiFi信号的传输.

    图  9  WiFi端的信号发送和信号模拟流程
    Figure  9.  Process of WiFi transmission and emulation

    但是,WiFi端模拟出的时域信号和接收端想要的时域信号之间存在模拟误差,主要来自QAM模拟误差和循环前缀带来的误差.如图10所示,一般WiFi中可用的QAM点大小和数量是固定有限的,ZigBee信号对应的QAM和WiFi可用的QAM点不能重合.所以,用距离最近的WiFi可用QAM点去模拟ZigBee信号时,就会出现QAM误差.WiFi中采用循环前缀机制,将每个OFDM码元后面的0.8us的信号复制到码元的开头,来抵抗多径干扰的影响.但是,ZigBee信号并没有循环前缀的约束,一个ZigBee符号开头和结尾的时域信号并不相同.所以,WiFi的循环前缀也会带来模拟误差.

    图  10  由时域模拟产生的QAM误差
    Figure  10.  QAM errors caused by time-domain emulation

    2)对相偏序列的模拟.因为模拟误差,WiFi发送端的模拟信号和ZigBee想要的时域信号并不能完美地匹配和对应,所以基于时域波形的模拟方法仅能实现50%左右的数据包接收率.另外,我们发现很多接收端是利用相位变化而不是波形来解码的,比如相偏大于0解码为1,相偏小于0解码为0.因此,很多工作提出了基于相偏序列的模拟方法来提高模拟信号的接收率.

    WIDE[57]提出了数字模拟的方法有效地减小了模拟误差,将WiFi到ZigBee跨技术数据包的接收率提高到了85%.ZigBee接收端根据相偏符号实现解码.比如比特1对应相偏为正,无论是pi/2还是pi/4都能满足相偏为正的符号要求;反之比特0对应的相偏为负.所以,如图11所示,给定一个比特序列,有很多种能够满足相偏要求的阶梯状相位序列.不同的相位序列对应的WiFi模拟误差是不同的,所以,WiFi发送端能够选择模拟误差最小的相位序列进行模拟,从而有效地提高模拟信号在接收端的接收率.BlueBee[58]实现了Bluetooth到ZigBee的跨技术数据传输,也是依据Bluetooth和ZigBee都是利用相偏序列进行解码的原理,虽然Bluetooth和ZigBee的时域波形不同,但是它们产生的相偏序列是相同的.

    图  11  基于数字模拟的物理层跨技术通信方法
    Figure  11.  Physical-level CTC method based on digital emulation

    3.1节所述的接收端透明的跨技术通信方法利用发送端强大的计算能力发送模拟信号,接收端不需要任何修改就能直接解码出发送端发送的模拟信号,实现从高端无线设备(计算能力较强,比如WiFi)到低端无线设备(计算能力较弱,比如ZigBee)的跨技术通信方法.反之,如果发送端不需要做任何修改,充分利用接收端的计算能力,可以实现反向的从低端无线设备到高端无线设备的跨技术信息传输,这就是发送端透明的跨技术通信方法.

    发送端透明的跨技术通信方法的核心思想是交叉映射[67-68],通过发送端信号和接收端解码出的信号之间的映射关系,实现跨技术信息的传输和解码.XBee[59]利用交叉映射的思想实现了从ZigBee到Blue tooth的跨技术通信方法.如图12所示,ZigBee发送端利用相偏进行编码,Bluetooth接收端也是根据相偏进行解码.所以,发送端发出的不同ZigBee信号会在Bluetooth解码端解码出不同的比特序列,从而传送不同的跨技术数据.LEGO-Fi[60]通过选择重组了几个不同的WiFi模块,实现了从ZigBee到WiFi的跨技术通信.ZigBee信号经过降采样就可以通过WiFi的短码元检测模块而不会被直接丢弃,把WiFi接收端的长码元序列替换为ZigBee的帧起始符可以用来确定ZigBee信号的起始位置,最后利用WiFi的相位解码器提取相偏序列并利用ZigBee符号和相偏序列的映射关系实现解码.

    图  12  基于交叉逆映射的物理层跨技术通信方法
    Figure  12.  Physical-level CTC method based on cross-demapping

    非透明的跨技术通信方法是指发送端和接收端都做出硬件修改或者固件升级的跨技术通信方法,这类技术通常可以用来改善跨技术通信的性能或者用来实现多路跨技术数据的并发传输.

    1)改善跨技术通信的性能.通常采用接收端透明的跨技术通信方法,发射端发出的模拟信号会有模拟误差,从而影响跨技术模拟信号的接收率.为了提高跨技术通信的鲁棒性,TwinBee[61]在接收端探索了ZigBee端解码WiFi模拟信号得到的符号错误分布情况,并提出了码片组合的方法在接收端将错误的解码比特进行恢复.如图13所示,对于一个ZigBee码片的结果来说,容易出错的码元位置一般位于中间或者2端.另外,ZigBee的码元之间存在循环移位的特点,第“m+2”个码片向左平移8位后就是第“m”个码片.比较码片“m”和循环移位后的“m+2”,我们发现容易出错的分布情况不同.所以接收端将码片“m”和循环移位后的“m+2”进行组合,可以恢复出正确的码片序列.LongBee[62]中利用WiFi发送端的高功率和ZigBee接收端的高灵敏度,将WiFi到ZigBee的跨技术通信距离延长到了90 m.

    图  13  TwinBee中码片组合的编码方法
    Figure  13.  Chip-combining coding in TwinBee

    2)实现多路跨技术数据的并发传输.在文献[63]中,设计和实现了一个Chiron发送器和Chiron接收器,可同时向(或从)商用WiFi和ZigBee设备上发送(或接收)WiFi数据和ZigBee数据.Chiron发送器利用信号模拟的方法,让生成出来的信号能够同时满足WiFi和ZigBee信号的特点,如图14所示.Chiron接收端需要增加一个信号探测模块,根据WiFi和ZigBee码片速率的差异确定接收信号的类型.单WiFi信号、单ZigBee信号和WiFi加ZigBee混合信号分别对应不同的解码算法.类似地,PIC[64]实现了WiFi和Bluetooth之间的跨技术通信信息,发送端能同时发出WiFi和Bluetooth信号,解码端也能同时解码出WiFi和Bluetooth信号.Symphony[65]实现了ZigBee和Bluetooth发送端到LoRa接收端的跨技术通信方法.发送端通过控制ZigBee和Bluetooth数据包中的比特发出不同的波形序列;LoRa的接收端利用不同的接收模版实现对ZigBee和Bluetooth信号的解码.

    图  14  Chiron中的发送机和接收机工作流程
    Figure  14.  Workflow of the sender and the receiver in Chiron

    从技术大类上分,跨技术通信主要包括数据包级别的跨技术通信方法和物理层级别的跨技术通信方法.我们从通用性、高效性和可靠性3个方面对现有2类跨技术通信方法进行比较和分析.

    1)在通用性方面.数据包级别的跨技术通信实现简单,比物理层级别的跨技术通信方法更加通用易用.数据包级别的跨技术通信利用数据包级别的特征比如数据包RSS和CSI来传递跨技术数据,绝大多数物联网设备都支持数据包RSS和CSI的获取.因此,数据包级别的跨技术通信不需要修改数据包的内容、设备的底层硬件和MAC协议,只需要调整发送功率就可以调制跨技术信息,具有很强的兼容适配能力.但是物理层级别的跨技术通信需要对发送端或者接收端的发包内容或者解码流程进行改动.

    2)在高效性方面.物理层级别的跨技术通信方法的数据率显著高于数据包级别的跨技术通信.通常一个数据包的持续时间是几毫秒,所以数据包级别的跨技术通信对数据包RSS和CSI等特征调制粒度有限,从而限制了数据包级别的跨技术通信数据率只有几百bps到几千bps.但是,物理层级别的跨技术通信方法提出波形模拟和相位模拟的方法,利用更加细粒度的波形或者相位信息来调制跨技术信息,能够将跨技术数据率提升到Mbps.

    3)在可靠性方面.数据包级别的跨技术通信技术比物理层级别的跨技术通信方法更加鲁棒,具有更强的抗干扰能力.数据包级别的跨技术通信方法中只要数据包没有被完全淹没到噪声和干扰信号中,就可以实现跨技术数据的传输.但是,物理层级别的跨技术通信方法对波形或者相位信号的质量要求较高,一旦噪声和干扰对波形或者相位产生影响后,就有可能会导致解码错误以及丢包.因此,物理层级别的跨技术通信方法更容易受到噪声或者干扰的影响,需要利用链路层的编码策略和纠错机制来提高跨技术通信的可靠性.

    综上所述,虽然目前学术界对物理层级别的跨技术通信方法研究更为活跃,但并不意味着数据包级别的跨技术通信已落后.实际上,这2类技术在通用性、高效性和可靠性上各有侧重、互为补充.

    第2节和第3节描述的方法是异构设备之间直接通信的物理层基础.除此之外,还需要考虑一些上层协议的问题才能实现更好的跨技术通信网络.比如,在数据链路层,不同能量强度的异构无线设备可能会导致跨技术隐藏终端问题;跨技术链路质量需要实时估计才能更好地进行跨技术通信参数的调整.在网络层,多种无线设备共存异构无线网络需要跨技术通信的路由协议,并且需要跨技术ACK机制保证网络运行的稳定性等.表3总结了一些典型的上层跨技术通信工作,包括信道协调、跨技术ACK机制、链路质量估计、数据转发和路由等.

    表  3  跨技术通信方法的上层应用
    Table  3.  Upper Layer Application of CTC Method
    代表工作划分设计目标链路
    ECC[69]链路层信道协商WiFi→ZigBee
    ECT[70]网络层数据转发ZigBee→WiFi
    NetCTC[71]网络层ACK机制ZigBee→WiFi
    CRF[72]网络层路由洪泛ZigBee→WiFi
    C-LQI[73]链路层链路质量估计WiFi→ZigBee
    X-MIMO[74]链路层链路质量估计ZigBee→WiFi
    下载: 导出CSV 
    | 显示表格

    跨技术通信方法能够帮助低功耗设备更好地进行信道的选择,在和高功率设备共存的场景下实现更好地协调信道的使用[75-76].跨技术通信方法能够让异构无线设备之间传递直接信道协调信息,比如具体的信道空闲时间等,而不需要被动式地侦听和避让,有效地提高了频谱利用率并减少了信号之间的干扰.G-Bee[77]中提出利用WiFi信号传输的保护频带去传输ZigBee信号.在ECC[69]中,WiFi能够在WiFi传输过程中预留空白间隙,并将空白间隙的时间长度直接传递给ZigBee设备.ZigBee设备解码后,可以在已知确定的空白间隙里传输ZigBee数据,避免了盲目等待和随机避让,减少了信号干扰和传输延时,提高了信道利用率.

    对于一个通信系统来说,反馈机制是非常重要的.NetCTC[71]为跨技术数据传输提供了反馈机制,WiFi设备将WiFi到ZigBee的跨技术数据包用喷泉码编码,接收端只要能收到足够多的数据包就能保证解码的成功率.当接收端收到足够多的模拟数据包后,发送“CTC-ACK REQ”信号给WiFi设备.这样的喷泉码加ACK的机制,既能保证跨技术数据传输的稳定性和接收率,还能减少不必要的重传,提高传输效率.

    异构无线设备组成的异构网络的信道链路和同质网络的信道链路是不同的.2个异构无线设备之间的跨技术数据包,在传输过程中除了会受到发送端和接收端之间物理信道造成的影响外,发送端发出的模拟数据包和接收端想要的理想数据包之间本身也存在偏差.C-LQI[73]是关于异构跨技术通信网络里做链路质量估计的文章,将跨技术通信链路分为逻辑链路和物理链路2部分,逻辑链路主要考虑的是跨技术的模拟数据包和理想数据包之间的模拟误差,物理链路主要考虑的是物理信道对模拟数据包的影响.X-MIMO[74]中将信道估计和MIMO技术结合,实现了WiFi到多个ZigBee的跨技术数据传输.

    在多种无线设备共存的异构网络里,跨技术通信方法能够实现更高效的数据转发和路由,提升网络的传输效率和运行能力[34-36].ECT[70]以跨技术通信方法为基础,提出了ZigBee和WiFi共存网络里的数据转发机制.ZigBee节点同时将重要信息和原始信息发送给WiFi AP和其他ZigBee节点.当WiFi AP收到重要信息后传给服务器,服务器将ZigBee网络里各个节点的优先级映射表和路由机制回传给WiFi设备,并由WiFi设备通过跨技术通信方法传递给ZigBee节点.这样ZigBee节点可以直接获取到不同ZigBee设备的优先级和路由信息,实现更好的数据转发,减少延迟.

    在物联网时代,如智能交通、智能电网、智能家居、智慧城市和相似的物联网应用中,数以亿计的智慧物体需要联网交互信息,实现智能管理.一个理想的物联网应用系统无疑需要所有的设备和物体都可以互联互通,并且能够高效、实时地交换数据,分享信息.虽然目前的研究能够实现2个异构无线之间的跨技术通信方法,但是与广泛的互联互通这一愿景相比,却仍有不小的距离.在跨网络、跨频率、跨介质的通信传输等研究方向,仍存在许多开放性问题,下面作简要的分析和探讨.

    反向散射通信(backscatter)系统因为成本低、功耗小、设计简单,在物联网系统中得到了广泛的应用.一个典型的Backscatter系统里包括2个组件:一个是激励源,一个是标签.标签通过反射激励源的信号实现信息的传递.我们可以利用现有的无线设备作为激励源激活标签,标签将感知数据传送给已有的无线设备,这样既可以实现无线设备之间的数据通信,也能利用标签实现低功耗感知数据的监控.

    图15所示,在WiTag[78]中,客户端设备将数据包传输给WiFi AP,标签端通过切换阻抗大小调整反射信号的相位.相位为0度代表标签的数据是1,相位为180度代表标签的数据是0.标签不同相位的反射信号会影响WiFi AP对数据包的解码,WiFi AP通过信号叠加的结果可以解码出标签的感知数据.

    图  15  WiTag的应用场景
    Figure  15.  The application scenario of WiTag

    图16所示,Gatescatter[79]也利用标签辅助实现了ZigBee传感器感知数据到WiFi AP的上传,标签利用硬件设计将ZigBee的OQPSK转换为WiFi 802.11b的信号,从而被WiFi网络有效地接收.

    图  16  Gatescatter的应用场景
    Figure  16.  The application scenario of Gatescatter

    当2个异构无线设备不在同一个频段时,可以利用硬件的非线性实现频移,实现跨频率的通信传输.

    图17所示,Interscatter[80]借助Backscatter标签实现不同频率的Bluetooth和WiFi的跨技术、跨频率传输.Backscatter标签有2个作用:1)它可以产生频率偏移,从而实现Bluetooth频段和WiFi频段的重合;2)通过调节标签的阻抗,可以对反射的Bluetooth信号产生不同影响,从而让WiFi接收端得到不同的解码数据.

    图  17  Interscatter的应用场景
    Figure  17.  The application scenario of Interscatter

    图18所示,TiFi[81]实现了RFID(800~920 MHz)到WiFi设备(2.4 GHz)的跨技术、跨网络数据传输.RFID在反射信号的过程中反射天线会产生谐波分量[82],比如820 MHz信号2次谐波是1.64 GHz,3次谐波是2.46 GHz.因此,可以利用这种硬件的非线性实现频率重叠.

    图  18  利用RFID反射WiFi数据帧
    Figure  18.  Reflection of WiFi beacon by using RFID

    现有的通信技术无法实现跨介质边界的通信,例如跨水和空气介质.因为大部分无线信号会直接在跨介质边界反射,而不会穿过水中,即使到达水中,无线信号在水中的衰减也会很大.如图19所示,TARF[83]实现了水下传感器向空气中的无人机进行数据传输,TARF的设计依赖于声波的基本物理特性,水下声波传感器发出的声波信号是一种压力波,当压力波撞击水面时,会引起表面的扰动或位移.为了提取声波引起的表面信号,我们通过在空中传输射频信号测量水面反射信号,这些反射信号随表面位移而变化.鉴于声波引起的表面振动非常微小,只有几微米到几十微米,TARF在空中传感器发射调频连续波(调频载波)测量反射信号的相位.AmphiLight[84]利用激光实现了反向地从空中传感器到水下接收器之间的跨介质数据传输.

    图  19  空气和水的跨介质通信
    Figure  19.  Cross-media communication between air and water

    本文着眼于异构无线设备的共存问题,探讨了面向物联网的跨技术通信方法.在重新梳理相关研究的基础上,对2类现有的跨技术通信方法(数据包级别的跨技术通信方法和物理层级别的跨技术通信方法)进行了分析和总结.实现万物低功耗的泛在互联是物联网世界一个长期存在的愿景,因此后续关于跨技术通信的研究主要集中在3个方面:1)构建更稳定的特征信号来保证跨技术通信的可靠性;2)实现更细粒度的信号控制来提高跨技术通信的数据率;3)改进通信模式来降低跨技术通信的能耗.

    作者贡献声明:郭秀珍负责文章的文献整理、部分内容撰写,以及论文中图表的绘制;何源负责部分内容撰写以及整体的修改。

    https://www.kaggle.com/datasets/blastchar/telco-customer-churn
    https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
    https://tianchi.aliyun.com/dataset/124814
  • 图  1   基于扩散模型的客户流失预测示意图

    Figure  1.   The schematic diagram of customer churn prediction based on the diffusion model

    图  2   关于生成数据和真实数据的独立特征分布

    Figure  2.   Distribution of independent features in generated data and real data

    图  3   生成数据与真实数据的相关性矩阵差异

    Figure  3.   Difference of correlation matrix between generated data and real data

    图  4   生成数据与真实数据的平均距离

    Figure  4.   Average distance between generated data and real data

    图  5   全局模式:不同数据集中特征重要性对比

    Figure  5.   Global mode: Comparison of the importance of features for the different datasets

    图  6   局部模式:单个样本特征重要性对比

    Figure  6.   Local mode: Comparison of the importance of features for a single Sample

    表  1   电信客户流失数据集生成结果展示

    Table  1   Generation Results Presentation for Telco Customer Churn Datasets

    生成方法 特征集
    REAL Male 0 2 Yes No DSL Mailed check 53.85 108.15
    Female 0 8 Yes Yes Fiber optic Electronic check 99.65 820.5
    DDPM Male 0 1 Yes Yes Fiber optic Electronic check 95.810 135.310
    Female 1 1 Yes Yes Fiber optic Electronic check 75.708 75.535
    Female 0 1 Yes No DSL Mailed check 43.954 45.141
    Male 0 15 Yes Yes Fiber optic Credit card (automatic) 89.232 1370.882
    SMOTE Female 0 6.058 Yes No Fiber optic Electronic check 89.304 581.600
    Female 0 10.409 Yes Yes DSL Electronic check 72.897 749.778
    Male 0 57.535 No No phone service DSL Electronic check 52.085 2966.530
    Male 0 68.014 Yes Yes Fiber optic Credit card (automatic) 111.845 7754.865
    CTAB-GAN Female 1 25.814 Yes No Fiber optic Credit card (automatic) 72.452 107.121
    Male 0 7.578 Yes No DSL Mailed check 45.844 105.699
    Male 0 28.817 Yes Yes DSL Credit card (automatic) 77.303 756.299
    Female 1 26.574 Yes No phone service DSL Electronic check 57.699 781.075
    下载: 导出CSV

    表  2   基于弱分类器算法的数据重构效果

    Table  2   Effect of Data Reconstruction Based on Week Classifiers Algorithm

    电信 银行 互联网
    模型 融合方法 F1 AUC F1 AUC F1 AUC
    REAL 0.5994 0.7246 0.9380 0.7393 0.5881 0.7289
    DDPM Merged_1:1 0.7614 0.7671 0.8481 0.8303 0.8093 0.8238
    Fake+_1:1 0.7387 0.7727 0.8783 0.8099 0.7548 0.8095
    Fake+ 0.6745 0.7562 0.9391 0.7444 0.5691 0.7206
    Fake± 0.6009 0.7273 0.9378 0.7319 0.6077 0.7442
    SMOTE Merged_1:1 0.7894 0.7917 0.8691 0.8532 0.8441 0.8540
    Fake+_1:1 0.7848 0.8120 0.9005 0.8504 0.7957 0.8427
    Fake+ 0.7892 0.7921 0.9480 0.7964 0.6851 0.7929
    Fake± 0.6274 0.7444 0.9458 0.7823 0.7496 0.8319
    CTAB-GAN Merged_1:1 0.7802 0.7624 0.8263 0.7810 0.8224 0.8086
    Fake+_1:1 0.7333 0.7634 0.8532 0.7464 0.7641 0.8075
    Fake+ 0.6385 0.7412 0.9356 0.6604 0.6735 0.7740
    Fake± 0.6778 0.7663 0.9328 0.6305 0.6605 0.7666
    下载: 导出CSV

    表  3   基于Catboost算法的数据重构效果

    Table  3   Effect of Data Reconstruction Based on Catboost Algorithm

    电信 银行 互联网
    模型 融合方法 F1 AUC F1 AUC F1 AUC
    REAL 0.7388 0.8546 0.9456 0.9948 0.8737 0.9528
    DDPM Merged_1:1 0.7232 0.8534 0.9074 0.9931 0.8703 0.9484
    Fake+_1:1 0.7008 0.8285 0.8812 0.9858 0.7449 0.8609
    Fake+ 0.7528 0.8534 0.9320 0.9870 0.7786 0.8881
    Fake± 0.7367 0.8542 0.9241 0.9836 0.8076 0.8893
    SMOTE Merged_1:1 0.7603 0.8456 0.9466 0.9943 0.8687 0.9475
    Fake+_1:1 0.7274 0.8309 0.9232 0.9869 0.7638 0.8525
    Fake+ 0.6851 0.8368 0.9054 0.9869 0.6505 0.8616
    Fake± 0.6946 0.8469 0.9396 0.9925 0.8080 0.8955
    CTAB-GAN Merged_1:1 0.7237 0.8370 0.9526 0.9957 0.8514 0.9431
    Fake+_1:1 0.6780 0.7770 0.6221 0.8190 0.6679 0.7555
    Fake+ 0.5059 0.7699 0.4544 0.8611 0.6296 0.7729
    Fake± 0.7079 0.8175 0.7025 0.9448 0.7236 0.8405
    下载: 导出CSV

    表  4   基于融合真实样本和误分生成样本的Catboost效果

    Table  4   Effect of the Fusion of Real Samples and Misclassified Generated Samples for Catboost

    数据集 电信 银行 互联网
    ACC F1 AUC ACC F1 AUC ACC F1 AUC
    REAL 0.8074 0.7388 0.8546 0.9701 0.9456 0.9948 0.9401 0.8737 0.9528
    Fake_Best 0.8051 0.7367 0.8542 0.9427 0.9074 0.9931 0.9296 0.8703 0.9484
    REAL+ 0.8100 0.7431 0.8590 0.9711 0.9470 0.9953 0.9586 0.9165 0.9725
    注: 加粗数字表示最佳结果.
    下载: 导出CSV

    表  5   生成数据量对效果的影响

    Table  5   Effect of Generated Amount of Data on Effectiveness

    融合方法 电信 银行 互联网
    F1 AUC F1 AUC F1 AUC
    REAL 0.7388 0.8546 0.9456 0.9948 0.8737 0.9528
    1x_fakeall 0.7367 0.8542 0.9241 0.9836 0.8076 0.8893
    10x_fakeall 0.7072 0.8384 0.9239 0.9855 0.8646 0.9511
    30x_fakeall 0.7566 0.8595 0.9277 0.9866 0.8652 0.9556
    50x_fakeall 0.7020 0.844 0.9279 0.9872 0.8708 0.9543
    70x_fakeall 0.7722 0.8731 0.9249 0.9868 0.8757 0.9574
    100x_fakeall 0.7076 0.8442 0.9312 0.9882 0.8687 0.9562
    注: 加粗数字表示最佳结果.
    下载: 导出CSV

    表  6   隐私保护能力分析

    Table  6   Analysis of Privacy Protection Capability

    数据集模型DCRNNDR
    电信DDPM0.00410.0294
    SMOTE0.00160.0124
    CTAB-GAN0.05310.1944
    银行DDPM0.26990.5130
    SMOTE0.05930.1584
    CTAB-GAN0.33680.6566
    互联网DDPM0.05060.0788
    SMOTE0.04340.1138
    CTAB-GAN0.22120.3441
    下载: 导出CSV
  • [1] 姚博. 客户流失预测模型研究及其应用[D]. 西安:西北大学,2017

    Yao Bo. Research and application of customers churn prediction model[D]. Xi’an: Northwest University, 2017 (in Chinese)

    [2]

    Jain H, Khunteta A, Srivastava S. Churn prediction in telecommunication using logistic regression and logit boost[J]. Procedia Computer Science, 2020, 167: 101−112 doi: 10.1016/j.procs.2020.03.187

    [3]

    Qiu Yanfang, Li Chen. Research on e-commerce user churn prediction based on logistic regression[C]// Proc of the 2017 IEEE 2nd Information Technology, Networking, Electronic and Automation Control Conf (ITNEC). Piscataway, NJ: IEEE, 2017: 87−91

    [4]

    Xing Ying, Lin Wanting, Lin Xueyan, et al. Cross-project defect prediction based on two-phase feature importance amplification[J]. Computational Intelligence and Neuroscience, 2022. https://www.hindawi.com/journals/cin/2022/232044

    [5]

    Zeng Fuping, Lin Wanting, Xing Ying, et al. A cross-project defect prediction model using feature transfer and ensemble learning[J]. Tehnički Vjesnik, 2022, 29(4): 1089−1099

    [6] 钱文君,沈晴霓,吴鹏飞,等. 大数据计算环境下的隐私保护技术研究进展[J]. 计算机学报,2022,45(4):669−701

    Qian Wenjun, Shen Qingni, Wu Pengfei, et al. Research progress on privacy-preserving techniques in big data computing environment[J]. Chinese Journal of Computers, 2022, 45(4): 669−701(in Chinese)

    [7] 赵景欣,岳星辉,冯崇朋,等. 基于通用数据保护条例的数据隐私安全综述[J]. 计算机研究与发展,2022,59(10):2130−2163

    Zhao Jingxin, Yue Xinghui, Feng Chongpeng, et al. Survey of data privacy security based on general data protection regulation[J]. Journal of Computer Research and Development, 2022, 59(10): 2130−2163 (in Chinese)

    [8]

    Zhang Hongyi, Cisse M, Dauphin Y, et al. mixup: Beyond empirical risk minimization[C]//Proc of the 6th Int Conf Learn Represent (ICLR). Vancouver, BC, Canada: OpenReview.net, 2018: 1−13

    [9]

    Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321−357 doi: 10.1613/jair.953

    [10]

    Ai-jun L, Peng Z. Research on unbalanced data processing algorithm base tomeklinks-smote[C]//Proc of the 3rd Int Conf on Artificial Intelligence and Pattern Recognition. New York: ACM, 2020: 13−17

    [11]

    Bogaert M, Delaere L. Ensemble methods in customer churn prediction: A comparative analysis of the state-of-the-art[J]. Mathematics, 2023, 11(5): 1137 doi: 10.3390/math11051137

    [12]

    Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139−144 doi: 10.1145/3422622

    [13]

    He Huang, Yu P S, Wang Changhu. An introduction to image synthesis with generative adversarial nets[J]. arXiv preprint, arXiv: 1803. 04469, 2018

    [14]

    Wang Jun, Yu Lantao, Zhang Weinan, et al. IRGAN: A minimax game for unifying generative and discriminative information retrieval models[C]//Proc of the 40th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2017: 515−524

    [15]

    Zhao Zilong, Kunar A, Birke R, et al. CTAB-GAN: Effective table data synthesizing[C]// Proc of Asian Conf on Machine Learning. https://www.acml-conf.org/2021/

    [16]

    Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in Neural Information Processing Systems, 2020, 33: 6840−6851

    [17]

    Yang Bin, Li Huilai, Xing Ying et al. Directed search based on improved whale optimization algorithm for test case prioritization[J]. International Journal of Computers Communications & Control. https://www.univagora.ro/jour/index.php/ijccc/article/view/5049

    [18] 应维云,覃正,赵宇,等. SVM方法及其在客户流失预测中的应用研究[J]. 系统工程理论与实践,2007,27(7):105−110

    Ying Weiyun, Qin Zheng, Zhao Yu, et al. Support vector machine and its application in customer churn prediction[J]. Systems Engineering-Theory & Practice, 2007, 27(7): 105−110 (in Chinese)

    [19]

    Ahn J, Hwang J, Kim D, et al. A survey on churn analysis in various business domains[J]. IEEE Access, 2020, 8: 220816−220839 doi: 10.1109/ACCESS.2020.3042657

    [20]

    Wu Zengyuan, Jing Lizheng, Wu Bei, et al. A PCA-AdaBoost model for e-commerce customer churn prediction[J]. Annals of Operations Research, 2022: 1−18

    [21]

    Prokhorenkova L, Gusev G, Vorobev A, et al. Catboost: Unbiased boosting with categorical features[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2018, 31: 6638−6648

    [22]

    Pekel Ozmen E, Ozcan T. A novel deep learning model based on convolutional neural networks for employee churn prediction[J]. Journal of Forecasting, 2022, 41(3): 539−550 doi: 10.1002/for.2827

    [23]

    Wu Xiaojun, Meng Sufang. E-commerce customer churn prediction based on improved SMOTE and AdaBoost[C]// Proc of the 13th Int Conf on Service Systems and Service Management (ICSSSM). Piscataway, NJ: IEEE, 2016: 1−5

    [24]

    Park N, Mohammadi M, Gorde K, et al. Data synthesis based on generative adversarial networks[J]. arXiv preprint, arXiv: 1806. 03384, 2018

    [25]

    Nichol A Q, Dhariwal P. Improved denoising diffusion probabilistic models[C]// Proc of the Int Conf on Machine Learning. Virtual: PMLR, 2021: 8162−8171

    [26]

    Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2021, 34: 8780−8794

    [27]

    Nie Guangli, Rowe W, Zhang Lingling, et al. Credit card churn forecasting by logistic regression and decision tree[J]. Expert Systems with Applications, 2011, 38(12): 15273−15285 doi: 10.1016/j.eswa.2011.06.028

    [28]

    Xie Yaya, Li Xiu, Ngai E W T, et al. Customer churn prediction using improved balanced random forests[J]. Expert Systems with Applications, 2009, 36(3): 5445−5449 doi: 10.1016/j.eswa.2008.06.121

    [29] 梁家富,邱新泳. 基于GBDT和LR算法的用户流失监控技术研究[J]. 河北软件职业技术学院学报,2021,23(3):1−4

    Liang Jiafu, Qiu Xinyong. Research on user churn monitoring technology based on GBDT and LR algorithm[J]. Journal of Hebei Software Institute, 2021, 23(3): 1−4 (in Chinese)

    [30] 杨光锴. 基于扩散模型的指纹图像生成方法[J]. 河北省科学院学报,2023,40(1):13−18+66

    Yang Guangkai. Fingerprint image generation method based on diffusion model[J]. Journal of the Hebei Academy of Sciences, 2023, 40(1): 13−18+66 (in Chinese)

    [31]

    Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proc of the Int Conf on Machine Learning. Lille, France: PMLR, 2015: 2256-2265

    [32]

    Kotelnikov A, Baranchuk D, Rubachev I, et al. TabDDPM: Modelling tabular data with diffusion models[J]. arXiv preprint, arXiv: 2209.15421,2022

    [33]

    Hoogeboom E, Nielsen D, Jaini P, et al. Argmax flows and multinomial diffusion: Learning categorical distributions [C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2021, 34: 12454−12465

    [34]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2017 [2023-08-01]. https://proceedings.neuri ps. cc/paper_ files/paper/2017/hash/3f5ee243547dee91fbd053clc4a845aa-Abstract. html

    [35]

    Yang Bin, Li Haoling, Teng Sikai, et al. Attentional interactive encoder network focused on aspect for sentiment classification[J]. Electronics, 2023, 12(6): 1329 doi: 10.3390/electronics12061329

    [36]

    Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C] //Advances in Neural Information Processing Systems. New York: Curran Associates. http://proceedings.neurips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract,html

  • 期刊类型引用(2)

    1. 王杨,许佳炜,王傲,宋世佳,谢帆,赵传信,季一木. 融合交叉序列预测和一致性对比的WiFi人体活动识别. 计算机工程与科学. 2025(01): 160-170 . 百度学术
    2. 曹林,王震,杜康宁,郭亚男. 基于层次对比生成对抗网络的非配对素描人脸合成. 中国科技论文. 2024(06): 715-723 . 百度学术

    其他类型引用(3)

图(6)  /  表(6)
计量
  • 文章访问数:  376
  • HTML全文浏览量:  94
  • PDF下载量:  168
  • 被引次数: 5
出版历程
  • 收稿日期:  2023-09-10
  • 修回日期:  2023-12-13
  • 网络出版日期:  2023-12-20
  • 刊出日期:  2024-02-01

目录

/

返回文章
返回