基于深度集成学习的类极度不均衡数据信用欺诈检测算法

刘 颖1 杨 轲2

1(吉林财经大学管理科学与信息工程学院 长春 130117) 2(吉林财经大学税务学院 长春 130117)

(lyaihua1995@163.com)

摘 要 信用欺诈数据分布极度不均衡时,信息失真、周期性统计误差和报告偏倚所产生的噪声错误对训练模型干扰凸显,且易产生过拟合现象.鉴于此,提出一种深度信念神经网络集成算法来解决类极度不均衡的信用欺诈问题.首先,提出双向联合采样算法克服信息缺失和过拟合问题;然后,构造2阶段基分类器簇,针对支持向量机(support vector machine, SVM)对不均衡数据分布所表现的分类超平面向少数类偏移问题,利用增强(boosting)算法生成SVM与随机森林(random forest, RF)结合的基分类器簇;利用深度信念网络(deep belief network, DBN)整合基分类器簇的多元预测,输出分类结果.考虑传统精度评价指标过度关注多数类样本,忽视信用欺诈存在违约损失高于利息收益事实,引入成本-效益指数兼顾正类和负类样本的识别能力,提高模型对少数类样本预测精度.通过对欧洲信用卡欺诈数据检测发现,相比于其他相关算法成本-效益指数均值提高3个百分点,同时,实验比较样本不均衡比例对算法精度影响,结果表明在处理极端不均衡数据时所提算法效果更优.

关键词 信用欺诈;类极不均衡;深度信念神经网络;支持向量机;成本-效益指数

中图法分类号 TP391

收稿日期2020-05-13;修回日期:2020-10-13

基金项目国家社会科学基金项目(20BTJ062)

This work was supported by the National Social Science Foundation of China (20BTJ062).

Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning

Liu Ying1 and Yang Ke2

1(School of Management Science and Information Engineering, Jilin University of Finance and Economics, Changchun 130117) 2(School of Taxation, Jilin University of Finance and Economics, Changchun 130117)

Abstract The existence of class imbalance in credit fraud data significantly undermines model performance. In particular, when the sample distribution is extremely unbalanced, noise caused by information distortion, statistical discrepancy and reporting bias will severely damage the process of training models, leading to potential issues such as overfitting. For this reason, this paper proposes an algorithm based on ensembled deep belief network, which is meant to tackle credit fraud data featured by extreme imbalance. First, this paper proposes joint sampling strategy combining under-sampling and over-sampling to retrieve training subset data. Then, we introduce an algorithm of constructing classifier clusters through two stages. Support vector classifiers and random forest classifiers are combined by using Boosting algorithm to overcome classification interface deviation of support vector machine. Finally, deep belief network is exploited to assemble classifiers’ predictions and output final classification result. Besides, traditional evaluation methods put too much emphasis on majority samples, ignoring the reality where the minority matters even more. The revenue cost index that considers identification of both positive and negative samples has thereby been introduced. This paper conducts empirical study on European credit card data and concludes a 3% higher performance on revenue cost index of the proposed algorithm than others’ average. The experiment also evaluates the influence of imbalance ratio over algorithm’s performance and finds that proposed algorithm outperforms others in this aspect.

Key words credit fraud; extremely imbalanced data; deep belief network (DBN); support vector machine (SVM); revenue cost index

经济全球化背景下,金融衍生品的加速膨胀导致市场波动加剧、信用欺诈行为不断出现.信用欺诈识别是通过挖掘征信数据中蕴含的客观规律而对申请人信用等级进行划分,其本质属于二分类问题.然而,在构建信用分类模型时,信用样本的涌现性使得少数类样本点很少,即在获取大量的实际样本中,真正存在欺诈行为的样本点远少于非欺诈行为样本点.在处理这种样本不均衡信用欺诈数据时,错误识别一个信用差的客户往往要比误分一个信用好的客户给企业造成的损失大.因此,提升模型对不平衡数据的分类效果成为信用欺诈识别领域的研究重点.

目前,解决类不均衡问题的相关研究主要集中于重采样方法和集成算法2方面.重采样方法包括欠采样和过采样2种.其中过采样方法以合成少数类技术(synthetic minority oversampling technique, SMOTE)[1]为主要代表,并在所选样本近邻之间插入数据以实现类均衡.虽然历经数十年该方法已经发展成为解决类不均衡问题的经典方法,但SMOTE的算法仍然存在其自身的缺陷.Nguyen等人[2]在2009年以支持向量机(support vector machine, SVM)处理类不均衡数据为例,实验指出当分类样本重叠时,通过SMOTE随机采样可实现SVM分类器在重叠区域的无偏估计.然而如果少数类样本距离理想边界相对较远或者有效样本过少,便很难利用SMOTE随机插值法扩张少数样本.也就是说,当理想样本数量较少,或者样本存在一定数量的噪声、离群点时,SMOTE方法在某种程度上会放大无效样本的影响,进而降低分类精度.针对这一问题,学者们提出其他改进SMOTE方法,如BorderlineSMOTE[3],KMeansSMOTE[4],Generative Adversarial Networks[5].

为了减少训练集不完善对分类性能的影响,学者们也提出集成方法处理类不均衡问题.Chen等人[6]提出对随机森林(random forest, RF)分类器进行样本再平衡,在RF每次迭代的过程中,对不同类别样本的采样数量加以控制:分别从少数类和多数类样本中有放回地抽取一定数量的样本.Liu等人[7]提出Easy Ensemble算法,综合运用欠采样和AdaBoost算法解决欠采样方法丢失多数类样本有效信息的不足.具体而言,将多数类样本分成若干个与少数类样本集相同大小的子集,对每一个多数类样本的子集,将其与少数类样本合并后训练基分类器,最后利用AdaBoost算法集成.此外,Seiffert等人[8]提出RUSBoost算法,在AdaBoost的每次迭代过程中,随机抽取与少数类样本数量相同的多数类样本训练迭代分类器,综合运用随机欠采样和AdaBoost来处理类不均衡问题.Sun等人[9]构建一种装袋法(bagging)集成,即在类不均衡数据集中抽取若干均衡数据子集得到基分类器,最终通过集成规则预测输出训练结果.Díez-Pastor等人[10]研究随机均衡集成,利用特定分类器考虑受试者工作特征曲线(receiver operator characteristic curve, ROC)上不同的执行点,输出更大的曲线下面积(area under curve, AUC)值.夏利宇等人[11]提出迭代重抽样集成模型,在欠抽样的迭代中不断优化模型对于多数类和少数类样本的倾斜,并通过我国征信数据证明了该模型可以显著降低金融机构的违约风险.

大数据时代的金融改革背景下,半结构、非结构化数据大量涌现,深度学习作为一种端到端的数据驱动方法,越来越多的被学者应用于信用欺诈识别[12].Sohony等人[13]采用综合随机森林和神经网络集成算法处理类不均衡问题.Kazemi等人[14]提出使用深度自动编码器从交易数据样本中提取合适特征,并基于这些特征使用Softmax网络识别样本类别.Roy等人[15]使用云计算环境分析证明了神经网络及其拓扑结构在处理信用欺诈问题中的显著表现.Luo等人[16]利用深度信念神经网络(deep belief neural network, DBN)建立信用评估模型对信用违约互换(credit default swaps, CDS)数据进行评估,并将其表现与逻辑回归(logistic regression, LR)、多层感知器(multilayer perceptron, MLP)、SVM等传统机器学习算法比较,证实了DBN拥有最为优异的AUC值.Kim等人[17]基于韩国信用卡公司的实际数据,使用冠军-挑战者测试(champion-challenger)框架分别构建和比较Bagging集成算法和前馈神经网络学习模型,实验表明前馈神经网络算法的复杂神经元更适合处理高维、复杂的信用欺诈数据.

上述方法均能在一定程度上解决不平衡数据分类问题,但仍然存在两大不足:1)评估指标体系不完善.多数文献仍然基于总体分类准确率为目标,必然导致过度关注信用好的多数类样本,忽视信用差的少数类样本.2)较少考虑类极度不均衡问题.部分显示所处理类不均衡数据比例(少数类样本与多数类样本比值)通常不超过1∶10,而在现实的信用欺诈检测中,样本比例往往会达到1∶50,甚至更高.在这种类极度不均衡情况下,算法的设计和测试将面临极大挑战.本文提出一种基于深度信念神经网络集成的类极度不均衡信用欺诈算法.一方面提出双向联合采样法抽取样本,融合欠采样和过采样方法平衡数据集.同时,为了克服SVM在处理极度不均衡数据分类超平面偏移问题,将SVM结合RF生成基分类器簇,利用DBN集成输出.另一方面,提出成本-效益指数,以量化的成本收入改善评价性能.最后,论文以真实发生的欧洲信用卡欺诈数据进行测试,并与传统机器学习算法和类不均衡经典算法进行性能对比.

1 相关工作

1.1 支持向量机(SVM)

SVM[18]于20世纪60年代提出,主要任务是在处理二分类问题中寻求最优超平面.考虑一个有m个样本的n维样本集{(X1,y1),(X2,y2),…,(Xm,ym)},其中,第i个样本的特征为Xi=(x1,x2,…,xn),第i个样本的类标签为yi∈{0,1},超平面定义为

W·X+b=0,

(1)

其中,W=(w1,w2,…,wn),X=(x1,x2,…,xn).对于超平面∀yi=1,W·Xi+b>0;∀yi=-1,W·Xi+b<0,即∀i,yi(W·Xi+b)≥1,SVM的二分类问题转化为规划求解问题,即

(2)

使用拉格朗日公式可得决策边界:

(3)

其中,l表示支持向量个数,Xi为支持向量点的特征向量,yi为支持向量点的类标记,X为输入实例的特征向量,αib0为训练模型得到的参数,αi为拉格朗日乘数.

最后,SVM对目标样本的分类识别公式为

f(X)=sgn(decision(X)).

(4)

对于线性不可分的数据集,通过非线性变换将其转换为高维空间中的线性分类问题,以核函数K(x,z)代替两实例之间的内积即可得到非线性求解公式:

(5)

SVM常用核函数包括径向基函数(radial basis function, RBF)、二项式核函数(binomial kernel function, BKF),本文在求解过程中使用RBF核函数.

1.2 SVM处理非均衡数据性能分析

SVM作为一种经典的模式识别方法,具有泛化能力强、结构简单、易解决高维和小样本数据优势.通常SVM分类算法基于正负类样本数量大致相同的假设,因此样本不均衡可能造成SVM算法分类超平面发生偏移.为了比较非均衡数据对SVM分类器的影响,论文以美国加州大学尔湾分校开发的蘑菇数据集(UCI mushroom)[19]作为实验样本,其总数为8 124,包括6 093个训练样本、2 031个测试样本、22个特征维数.为了更好地可视化,利用主成分分析(principal component analysis, PCA)降至2维.对训练样本进行抽取,分别构建1∶4,1∶40,1∶100的非均衡样本集合.实验选择SVM、基于过采样的SMOTE平衡样本的SMOTE_SVM及基于随机欠采样(random under sampling, RUS)的RUS_SVM这3种模型测试比较,结果如表1所示:

Table 1 Experiment Description of SVM with Imbalanced Data

表1 SVM非均衡数据实验描述

算法正样本数量负样本数量样本比例精度∕%SVMSMOTE_SVMRUS_SVM200020001∶191.235020001∶4088.0650020001∶491.542020001∶10088.2250020001∶488.522020001∶10088.32

实验表明,当样本出现不均衡现象时,重采样方法某种程度上会提高分类精度,但对于样本出现极度不均衡现象时表现效果不佳.

Fig. 1 Framework for DBN ensembled algorithm
图1 DBN深度集成算法框架

2 本文方法

本节首先给出深度信念神经网络集成框架,然后介绍双向联合采样法及DBN深度集成算法,表2列出了本文后续内容使用的一些符号定义.

Table 2 Description of Symbols
表2 符号描述

符号含义num_svmSVM基分类器数量Tr训练数据集Trsnum_svm×1双向联合采样法返回的训练子集,其中Trsc表示第c个训练子集num_rfRF基分类器数量Clfnum_clf×1所提算法输出的基分类器集合

Continued (Table 2)

符号含义Predictnum_svm×JSVM基分类器输出的预测矩阵,其中Predictcj表示第c个SVM基分类器对第j个评估数据集的预测Evanum_svm×J由评估数据集构成的矩阵E从Tr采集到的训练DBN集成器的数据集num_clfClf中设计的基分类器数量EiClf对E的预测矩阵T测试数据集Output所提算法的预测结果向量ApplicantClf对T的预测矩阵

2.1 算法整体框架与流程

DBN集成算法分为3个阶段实现:1)数据划分,主要利用双向联合采样法平衡训练子集;2)训练基分类器,为了解决SVM在处理数据极度不均衡时超平面偏移问题,综合SVM和RF双重分类器构建基分类器集;3)DBN深度集成.算法整体框架与流程如图1所示:

2.2 算法详细步骤

阶段1. 数据划分.首先,在控制采样比例的前提下对训练集中多数类样本和少数类样本进行随机欠采样,然后,针对训练子集执行SMOTE过采样.确定该训练子集中支持向量及其近邻数量,若其近邻数量较少,采取外推方式合成新样本,若其近邻数量较多,采取插值方式合成新样本.迭代上述采样过程,直至训练出与本文设计的SVM分类器相同数量的训练子集.

除表2设计的全局变量,本算法涉及的局部变量为:LS分别表示Tr中多数类和少数类样本的欠采样数量,N为过采样度(100%,200%,300%,…),k表示过采样的少数类样本的近邻数量,m表示决定过采样方式(插值法或外推法)的近邻数量.Trmaj表示多数类样本数据集,Trmin表示少数类样本数据集,Trunder是欠采样后训练子集,表示欠采样后训练子集中少数类样本的数据集,Sv+表示欠采样后训练子集中少数类样本支持向量的数据集,T表示输出的人工合成少数类样本数量,amount表示Trunder中每个少数类样本支持向量过采样次数的数组,nn表示Trunder中每个少数类样本支持向量k个近邻的数组,如算法1所示:

算法1. joint_sampling().

① for c∈[1,num_svm]

② 由Tr提取Trmaj,Trmin

③ 确保LS<10∶1,且S>60;

Trmaj中随机抽取L个样本,在Trmin中随机抽取S个样本组成Trunder

Trunder提取

⑤ 由Trunder训练SVM分类器,得到Sv+

⑥ 在Sv+中平均分配T,得到amount

⑦ 由得到nn

⑨ 由Trunder确定m个近邻;

⑩ 若多数类近邻的数量依据由近到远的顺序,在与其k个近邻的射线上外推新的样本,共外推amount[i]个新少数类样本,此时,每个新的样本其中,nn[i][j]是j个少数类近邻,ρ是介于0和1的随机数;

若多数类近邻的数量依据由近到远的顺序,在与其k个近邻的线段上插入新的样本,共插入amount[i]个新少数类样本;此时,每个新的样本其中,nn[i][j]是j个少数类近邻,ρ是介于0和1的随机数;

end for

将循环得到样本集与Trunder合并得到Trsc

end for

阶段2. 训练基分类器.首先,由算法1采样得到的训练子集训练SVM分类器得到SVM基分类器簇.针对每个SVM基分类器,都从训练集中不放回抽取一定数量的样本构成评估集,共采集若干个互不重叠的评估集,并以该SVM基分类器对这些评估集进行预测,生成未能正确分类样本集Failure,以其为新的训练集训练RF基分类器,最后组合SVM和RF基分类器簇构成本文的基分类器集合.

本算法涉及的局部变量:num_eva表示每个SVM基分类器设置的评估集数量,num_sample_in_eva表示每个评估集采集的样本数量,num_sample_for_rf表示训练RF基分类器时从指定样本中分别抽取多数类和少数类样本的数量,Svm表示训练的支持向量基分类器簇.Rf表示训练的随机森林基分类器簇.具体算法如下:

算法2. base_clf_training().

① for c∈[1,num_svm]

② 由Trsc训练SVM分类器;

③ end for

④ for svmSvm

⑤ for k∈[1,num_eva]

⑥ 从Tr中采集num_sample_in_eva个样本构成Evasvmk

⑦ 使用svmEvasvmk进行预测,输出

Predictsvmk

⑧ 在Evasvmk中筛选出Predictsvmk错误预测的子集放入Failure

⑨ end for

⑩ end for

for c∈[1,num_rf]

Failure中分别采集num_sample_for_rf个多数类和num_sample_for_rf个少数类样本组成Trf

Trf训练随机森林基分类器;

end for

集成SvmRf得到Clf.

阶段3. 深度集成算法.首先从训练集中抽取一个样本集;然后针对每个样本都由基分类器集合中的每个基分类器预测其结果,从而形成以样本为行向量、各分类器预测结果及样本真实标签为列向量的训练集.以该训练集训练DBN集成模型,并对测试集完成预测输出,具体算法如算法3、算法4:

算法3. DBN_ensemble_training().

① for c∈[1,num_clf]

② 由Clfc预测E得到Eic

③ end for

④ 由矩阵(Ei,E(N+1))训练深度信念神经网络.

算法4. DBN_ensemble_predict().

① for c∈[1,num_clf]

② 由Clfc预测T得到Applicantc

③ end for

④ 由深度信念神经网络预测Applicant输出Output.

3 实验与结果

3.1 数据描述

本文实验数据选取源讯科技(Worldline)公司和布鲁塞尔自由大学机器学习研究小组共同开发和维护、经由Kaggle平台发布的信用卡欺诈数据[20-26].数据集表征了2013年9月欧洲信用卡持卡人发生的部分交易及其相关信息.实验数据集(详见表3)共有21 693个样本,28个特征向量经由PCA进行了预处理.样本类别由0和1表示,其中0表示信用好样本(又称负类样本)且为多数类,1表示欺诈样本(又称正类样本)且为少数类样本.少数类样本356个,多数类样本21 337个,不平衡比例达到1∶60,达到类极度不均衡比例.

Table 3 Description of Experiment Data
表3 实验数据描述

数据类别数据来源样本结构特征属性少数类数量:356特征总数:28信用欺诈Kaggle多数类数量:21337特征数据:数值型类不均衡比例:1∶60预处理:PCA

3.2 评价指标

通常,处理类不均衡学习算法可经由ROC曲线下面积AUC来评估其效果[7,16].但当负类样本与正类样本数量差异较大时,ROC的AUC难以显著区分分类器性能.在混淆矩阵中,TN表示被正确识别的负类样本,FP表示被错误识别的负类样本,FN表示被错误识别的正类样本,TP表示被正确识别的正类样本,其中,真正类率TPR=TP(TP+FN),真负类率TNR=TN(FP+TN),假正类率FPR=FP(FP+TN),假负类率FNR=FN(TP+FN).在负类极多、正类极少的情形下,假正类率FPR的分母过大,即使其分子有显著变化,也很难被明显地体现在FPR数值及其最终对应曲线上.同时,单纯考虑混淆矩阵各数值的绝对指标和相对指标会潜在地忽略信用欺诈的现实情境.鉴于此,Yu等人[27]提出成本-效益指数(revenue cost index, RCI),但该指数强调现实成本而忽视机会成本,本文在此基础上完善该评价指标对机会成本的考虑.指标做3个假设:1)信用卡供应商因某笔交易产生一个FP而承担的显隐性成本之和为该笔交易数额的资金在一个记账期内所产生的利息;2)欺诈行为人实施欺诈行为后不会被抓获;3)一个记账期内的利息为10%.

成本-效益评估指标RCI构建公式为

(6)

其中,分子表示期望收益,分母用于将指标数值归一;样本类不均衡比例(imbalance ratio, IR)为样本的不均衡程度,它为样本中多数类样本的数量与少数类样本数量的比值.

3.3 实验结果

本节为了比较所提DBN集成算法的性能,与类不均衡经典算法Balanced Random Forest[6],Easy Ensemble[7],Rus Boost[8],SMOTE_SVM[2],及常用机器学习算法Random Forest[28],SVM[18],MLP进行对比,分别实现基于不同算法和不同样本比例的分类结果.

3.3.1 基于不同算法的实验结果

在第1阶段的双向联合采样法中,设定参数S=100,L=900,N=900,k=5,m=10;在第2阶段的基分类器训练中,设定参数num_svm=100,num_rf=20,num_eva=10,num_sample_in_eva=1 000,num_sample_for_rf=200.本实验进行20次随机实验,最终输出8个分类器的RCI均值,实验结果如表4所示.

Table 4 Comparation among Credit Fraud Detection Machine Learning Algorithms
表4 信用欺诈检测机器学习算法比较 %

评价指标DBNEnsembleRandomForestBalancedRandomForestEasyEnsembleRusBoostSVMSMOTE_SVMMLP平均精度值TPR85.3681.8789.2990.1989.4075.0487.5768.9883.19TNR99.6399.9697.0396.1996.5299.9698.1899.8898.25RCI95.1994.7591.8690.6691.0192.8093.3390.9392.19

注:第2列黑体表示所提模型分类精度,最后一列黑体为除所提模型以外的其他模型平均精度值.

从表4不难发现,在本文设定的成本-效益指数下,DBN深度集成算法产生了最好的效果,RCI达到95.19%,高于传统Random Forest的94.75%,SVM的92.80%,MLP的90.93%三种算法.综合来看,DBN深度集成算法在RCI指标上较其他算法的平均值高出3个百分点.同时,图2显示各个分类器的综合混淆矩阵,包括20次实验TNTPFNFP的平均值.类不均衡算法实现了最高的TP值,但TN较低,削弱了成本-效益的综合表现.DBN集成算法优势是能够在较高TNR值的情况下提高TPR的值,进而获得较高的RCI值.

Fig. 2 Confusion matrix summary for 8 algorithms
图2 8种算法在本次实验中的混淆矩阵比较

3.3.2 基于不均衡样本比例实验结果

为了比较所提算法在样本不均衡比例下的性能变化,本节固定少数类样本数量,调整多数类样本获得样本比例1∶5至1∶55共计11组测试数据集,分别比较8种算法的RCI指标,结果如图3所示.在类不均衡比例较低时,DBN深度集成算法的RCI指标并不能显著高于其他算法;但随着类不均衡比例不断提高,尤其当类不均衡比例超过20进入类极度不均衡状态之后,DBN深度集成算法的RCI表现优于其他算法.

Fig. 3 Comparison of algorithms for different sample proportions
图3 不同样本比例算法比较

4 结 论

样本分布极度不均衡是影响信用欺诈评估的主要因素.本文提出一种深度信念神经网络集成算法来解决类极度不均衡问题.一方面,提出双向联合采样法平衡样本集,为了克服单一SVM分类器处理不平衡数据表现的超平面偏移问题,融合RF分类器构建基分类器簇,利用DBN学习增强对多维伯努利数据的特征识别能力,从而更好地处理信用欺诈检测不均衡数据的极端情形.另一方面,鉴于传统的精度评价指标对信用欺诈风险评价形成较大制约,本文综合考虑正负类样本对数据使用者成本和效益的不同影响,提出成本-效益评估指标评价算法性能.通过对比实验发现在样本类极度不均衡情况下所提算法优于传统机器学习算法和一般类不均衡数据处理方法.

未来的工作包含2个方向:1)进一步结合行业的实际特点建立更加全面的计算成本效益指标数学模型;2)探索本文提出算法的参数优化策略.

参考文献

[1]Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357

[2]Nguyen H M, Cooper E W, Kamei K. Borderline over-sampling for imbalanced data classification[J]. International Journal of Knowledge Engineering and Soft Data Paradigms, 2009, 3(1): 4-21

[3]Han Hui, Wang Wenyuan, Mao Binghuan. Borderline-SMOTE:A new over-sampling method in imbalanced data sets learning[C] Proc of Int Conf on Intelligent Computing. Berlin: Springer, 2005: 878-887

[4]Georgios D, Fernando B, Felix L. Oversampling for imbalanced learning based on K-means and SMOTE[J]. Journal of Information Science, 2018, 465: 1-20

[5]Fiore A D, Santis F, Perla P, el at. Using generative adversarial networks for improving classification effectiveness in credit card fraud detection[J]. Information Sciences, 2019, 479: 448-455

[6]Chen Chao, Liaw A, Breiman L. Using random forest to learn imbalanced data[OL]. 2004[2020-01-05]. http:dx.doi.org

[7]Liu Xuying, Wu Jianxin, Zhou Zhihua, et al. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B :Cybernetics, 2008, 39(2): 539-550

[8]Seiffert C, Khoshgoftaar T M, Hulse J V, et al. A hybrid approach to alleviating class imbalance[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2009, 40(1): 185-197

[9]Sun Zhongbin, Song Qinbao, Zhu Xiaoyan, et al. A novel ensemble method for classifying imbalanced data[J]. Pattern Recognition, 2015, 48(5): 1623-1637

[10]Díez-Pastor J F, Rodríguez J J, García-Osorio C, et al. Random balance: Ensembles of variable priors classifiers for imbalanced data[J]. Knowledge-Based Systems, 2015, 85(1): 96-111

[11]Xia Liyu, He Xiaoqun. Data imbalance in credit score model based on resampling method[J]. Management Review, 2020, 32(3): 75-84 (in Chinese)(夏利宇, 何晓群. 基于重抽样法处理不平衡问题的信用评级模型[J]. 管理评论, 2020, 32(3): 75-84)

[12]Wang Ruiqin, Wu Zongda, Jiang Yunliang, et al. An integrated recommendation model based on two stage deep learning[J]. Journal of Computer Research and Development, 2019, 56(8): 1661-1669 (in Chinese)(王瑞琴, 吴宗大, 蒋云良,等. 一种基于两阶段深度学习的集成推荐模型[J]. 计算机研究与发展, 2019, 56(8): 1661-1669)

[13]Sohony I, Pratap R, Nambiar U. Ensemble learning for credit card fraud detection[C] Proc of ACM India Joint Int Conf on Data Science and Management of Data. New York: ACM, 2018: 289-294

[14]Kazemi Z, Zarrabi H. Using deep networks for fraud detection in the credit card transactions[C] Proc of the 4th IEEE Int Conf on Knowledge-Based Engineering and Innovation (KBEI). Piscataway, NJ: IEEE, 2017: 630-633

[15]Roy A, Sun J,Mahoney R, et al. Deep learning detecting fraud in credit card transactions[C] Proc of Systems and Information Engineering Design Symp(SIEDS). Piscataway, NJ: IEEE, 2018: 129-134

[16]Luo Cuicui, Wu Desheng, Wu Dexiang. A deep learning approach for credit scoring using credit default swaps[J]. Journal of Engineering Applications of Artificial Intelligence, 2017, 65(1): 465-470

[17]Kim E, Lee J, Shin H, et al. Champion-challenger analysis for credit card fraud detection:Hybrid ensemble and deep learning[J]. Journal of Expert Systems With Applications, 2019, 128(1): 214-224

[18]Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(1): 273-297

[19]Dua D, Graff C. UCI Machine learning repository[DBOL]. Irvine, CA: University of California, School of Information and Computer Science, 2019 [2020-07-04]. http:archive.ics.uci.edumldatasetsMushroom

[20]Dal P A, Caelen O, Johnson R A, et al. Calibrating probability with undersampling for unbalanced classification[C] Proc of the IEEE Symp Series on Computational Intelligence. Piscataway, NJ: IEEE, 2015: 159-166

[21]Andrea D P, Olivier C, Yann-Ael L B, et al. Learned lessons in credit card fraud detection from a practitioner perspective[J]. Expert Systems with Applications, 2014, 41(10): 4915-4928

[22]Andrea D P, Olivier B G C, Cesare A, et al. Credit card fraud detection: A realistic modeling and a novel learning strategy[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(8): 3784-3797

[23]Andrea D P. Adaptive machine learning for credit card fraud detection[D]. Brussel: Department of Computer Science, Université Libre de Bruxelles, 2015

[24]Fabrizio C, Andrea D P, Yann-A⊇l L B, et al. A scalable framework for streaming credit card fraud detection with Spark[J]. Information Fusion, 2018, 41(1): 182-194

[25]Fabrizio C, Yann-A⊇l L B, Olivier C, et al. Streaming active learning strategies for real-life credit card fraud detection: assessment and visualization[J]. International Journal of Data Science and Analytics, 2018, 5(4): 285-300

[26]Lebichot B, Borgne Y A L. Deep-learning domain adaptation techniques for credit cards fraud detection[C] Proc of the INNS Big Data and Deep Learning Conf. Berlin: Springer, 2019: 78-88

[27]Yu Lean, Zhou Rongtian, Tang Ling, et al. A DBN-based resampling SVM ensemble learning paradigm for credit classification with imbalanced data[J]. Journal of Applied Soft Computing, 2018, 69: 192-202

[28]Breiman L. Random forest[J]. Machine Learning, 2001, 45(1): 5-32

Liu Ying, born in 1979. PhD, associated professor. Member of CCF. Her research interests include machine learning, finance engineering and data mining.

刘 颖,1979年生.博士,副教授,CCF会员.主要研究方向为机器学习、金融工程和数据挖掘.

Yang Ke, born in 1998. Master candidate. His main research interests include machine learning, stochastic process, multi-factor asset pricing.

杨 轲,1998年生.硕士研究生.主要研究方向为机器学习、随机过程与多因子定价.