• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于深度集成学习的类极度不均衡数据信用欺诈检测算法

刘颖, 杨轲

刘颖, 杨轲. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J]. 计算机研究与发展, 2021, 58(3): 539-547. DOI: 10.7544/issn1000-1239.2021.20200324
引用本文: 刘颖, 杨轲. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J]. 计算机研究与发展, 2021, 58(3): 539-547. DOI: 10.7544/issn1000-1239.2021.20200324
Liu Ying, Yang Ke. Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning[J]. Journal of Computer Research and Development, 2021, 58(3): 539-547. DOI: 10.7544/issn1000-1239.2021.20200324
Citation: Liu Ying, Yang Ke. Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning[J]. Journal of Computer Research and Development, 2021, 58(3): 539-547. DOI: 10.7544/issn1000-1239.2021.20200324
刘颖, 杨轲. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J]. 计算机研究与发展, 2021, 58(3): 539-547. CSTR: 32373.14.issn1000-1239.2021.20200324
引用本文: 刘颖, 杨轲. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J]. 计算机研究与发展, 2021, 58(3): 539-547. CSTR: 32373.14.issn1000-1239.2021.20200324
Liu Ying, Yang Ke. Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning[J]. Journal of Computer Research and Development, 2021, 58(3): 539-547. CSTR: 32373.14.issn1000-1239.2021.20200324
Citation: Liu Ying, Yang Ke. Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning[J]. Journal of Computer Research and Development, 2021, 58(3): 539-547. CSTR: 32373.14.issn1000-1239.2021.20200324

基于深度集成学习的类极度不均衡数据信用欺诈检测算法

基金项目: 国家社会科学基金项目(20BTJ062)
详细信息
  • 中图分类号: TP391

Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning

Funds: This work was supported by the National Social Science Foundation of China (20BTJ062).
  • 摘要: 信用欺诈数据分布极度不均衡时, 信息失真、周期性统计误差和报告偏倚所产生的噪声错误对训练模型干扰凸显, 且易产生过拟合现象.鉴于此, 提出一种深度信念神经网络集成算法来解决类极度不均衡的信用欺诈问题.首先, 提出双向联合采样算法克服信息缺失和过拟合问题; 然后, 构造2阶段基分类器簇, 针对支持向量机(support vector machine, SVM)对不均衡数据分布所表现的分类超平面向少数类偏移问题, 利用增强(boosting)算法生成SVM与随机森林(random forest, RF)结合的基分类器簇; 利用深度信念网络(deep belief network, DBN)整合基分类器簇的多元预测, 输出分类结果.考虑传统精度评价指标过度关注多数类样本, 忽视信用欺诈存在违约损失高于利息收益事实, 引入成本-效益指数兼顾正类和负类样本的识别能力, 提高模型对少数类样本预测精度.通过对欧洲信用卡欺诈数据检测发现, 相比于其他相关算法成本-效益指数均值提高3个百分点, 同时, 实验比较样本不均衡比例对算法精度影响, 结果表明在处理极端不均衡数据时所提算法效果更优.
    Abstract: The existence of class imbalance in credit fraud data significantly undermines model performance. In particular, when the sample distribution is extremely unbalanced, noise caused by information distortion, statistical discrepancy and reporting bias will severely damage the process of training models, leading to potential issues such as overfitting. For this reason, this paper proposes an algorithm based on ensembled deep belief network, which is meant to tackle credit fraud data featured by extreme imbalance. First, this paper proposes joint sampling strategy combining under-sampling and over-sampling to retrieve training subset data. Then, we introduce an algorithm of constructing classifier clusters through two stages. Support vector classifiers and random forest classifiers are combined by using Boosting algorithm to overcome classification interface deviation of support vector machine. Finally, deep belief network is exploited to assemble classifiers’ predictions and output final classification result. Besides, traditional evaluation methods put too much emphasis on majority samples, ignoring the reality where the minority matters even more. The revenue cost index that considers identification of both positive and negative samples has thereby been introduced. This paper conducts empirical study on European credit card data and concludes a 3% higher performance on revenue cost index of the proposed algorithm than others’ average. The experiment also evaluates the influence of imbalance ratio over algorithm’s performance and finds that proposed algorithm outperforms others in this aspect.
  • 期刊类型引用(19)

    1. 唐小勇,王浩东. 融合子图选择和邻域过滤的信贷欺诈审核方法. 计算机科学与探索. 2025(02): 465-475 . 百度学术
    2. 刘联海,黎汇业,毛冬晖. 基于CNN和仿射变换技术的网络入侵检测方法. 网络安全技术与应用. 2025(04): 35-38 . 百度学术
    3. 黄子健,高欣,李保丰,翟峰,秦煜,叶平. 不平衡数据集下基于多粒度近邻图的智能电表故障分类方法. 电网技术. 2024(03): 1291-1309 . 百度学术
    4. 王晓霞,李雷孝,林浩. SMOTE类算法研究综述. 计算机科学与探索. 2024(05): 1135-1159 . 百度学术
    5. 胡海川,代刊. 我国近海阵风预报研究. 气象. 2024(06): 711-722 . 百度学术
    6. 顾明,李飞凤,王晓勇,郑冬花. 基于改进SMOTE算法和深度学习集成框架的信用卡欺诈检测. 贵阳学院学报(自然科学版). 2024(02): 99-104+115 . 百度学术
    7. 孔翎超,刘国柱. 离群点检测算法综述. 计算机科学. 2024(08): 20-33 . 百度学术
    8. 袁洁贞,王志勇. 基于交易行为表征学习的企业财务欺诈检测方法. 贵阳学院学报(自然科学版). 2024(03): 92-97+109 . 百度学术
    9. 胡海川,董林. 一种基于集合数值预报产品的台风强度订正方法. 气象学报. 2023(02): 316-327 . 百度学术
    10. 郜佳蕾,郜佳慧. 基于反馈监督式学习策略的信用卡欺诈检测方法. 淮阴师范学院学报(自然科学版). 2023(02): 125-131 . 百度学术
    11. 马召贵. 基于改进KNN的不均衡信息文本分类算法. 信息与电脑(理论版). 2023(12): 85-87 . 百度学术
    12. 刘华玲,曹世杰,许珺怡,陈尚辉. 数字信用交易反欺诈研究进展. 计算机科学与探索. 2023(10): 2300-2324 . 百度学术
    13. 蒋洪迅,江俊毅,梁循. 基于机器学习的信用卡交易欺诈检测研究综述. 计算机工程与应用. 2023(21): 1-25 . 百度学术
    14. 胡海川,钱传海,渠鸿宇. 黄渤海及其邻近地区阵风估测改进. 应用气象学报. 2023(06): 668-680 . 百度学术
    15. 付钰菲,汪明艳. 深度学习在金融领域的应用研究综述. 软件工程. 2022(03): 1-4 . 百度学术
    16. 储安琪,丁志军. 基于灰狼优化算法的信用评估样本均衡化与特征选择同步处理. 计算机科学. 2022(04): 134-139 . 百度学术
    17. 刘波,梁龙跃. 基于KM-SVMSMOTE-CNN的信用卡欺诈检测. 计算机系统应用. 2022(06): 361-367 . 百度学术
    18. 刘学文,王继奎,杨正国,李强,易纪海,李冰,聂飞平. 密度峰值优化的球簇划分欠采样不平衡数据分类算法. 计算机应用. 2022(05): 1455-1463 . 百度学术
    19. 许明珠,徐浩,孔鹏,吴艳兰. 结合植被指数和卷积神经网络的遥感植被分类方法. 激光与光电子学进展. 2022(24): 273-285 . 百度学术

    其他类型引用(28)

计量
  • 文章访问数:  1019
  • HTML全文浏览量:  9
  • PDF下载量:  536
  • 被引次数: 47
出版历程
  • 发布日期:  2021-02-28

目录

    /

    返回文章
    返回