计算机研究与发展 ›› 2021, Vol. 58 ›› Issue (3): 539-547.doi: 10.7544/issn1000-1239.2021.20200324
刘颖1,杨轲2
Liu Ying1, Yang Ke2
摘要: 信用欺诈数据分布极度不均衡时, 信息失真、周期性统计误差和报告偏倚所产生的噪声错误对训练模型干扰凸显, 且易产生过拟合现象.鉴于此, 提出一种深度信念神经网络集成算法来解决类极度不均衡的信用欺诈问题.首先, 提出双向联合采样算法克服信息缺失和过拟合问题; 然后, 构造2阶段基分类器簇, 针对支持向量机(support vector machine, SVM)对不均衡数据分布所表现的分类超平面向少数类偏移问题, 利用增强(boosting)算法生成SVM与随机森林(random forest, RF)结合的基分类器簇; 利用深度信念网络(deep belief network, DBN)整合基分类器簇的多元预测, 输出分类结果.考虑传统精度评价指标过度关注多数类样本, 忽视信用欺诈存在违约损失高于利息收益事实, 引入成本-效益指数兼顾正类和负类样本的识别能力, 提高模型对少数类样本预测精度.通过对欧洲信用卡欺诈数据检测发现, 相比于其他相关算法成本-效益指数均值提高3个百分点, 同时, 实验比较样本不均衡比例对算法精度影响, 结果表明在处理极端不均衡数据时所提算法效果更优.
中图分类号: