• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种双层贝叶斯模型:随机森林朴素贝叶斯

张文钧, 蒋良孝, 张欢, 陈龙

张文钧, 蒋良孝, 张欢, 陈龙. 一种双层贝叶斯模型:随机森林朴素贝叶斯[J]. 计算机研究与发展, 2021, 58(9): 2040-2051. DOI: 10.7544/issn1000-1239.2021.20200521
引用本文: 张文钧, 蒋良孝, 张欢, 陈龙. 一种双层贝叶斯模型:随机森林朴素贝叶斯[J]. 计算机研究与发展, 2021, 58(9): 2040-2051. DOI: 10.7544/issn1000-1239.2021.20200521
Zhang Wenjun, Jiang Liangxiao, Zhang Huan, Chen Long. A Two-Layer Bayes Model: Random Forest Naive Bayes[J]. Journal of Computer Research and Development, 2021, 58(9): 2040-2051. DOI: 10.7544/issn1000-1239.2021.20200521
Citation: Zhang Wenjun, Jiang Liangxiao, Zhang Huan, Chen Long. A Two-Layer Bayes Model: Random Forest Naive Bayes[J]. Journal of Computer Research and Development, 2021, 58(9): 2040-2051. DOI: 10.7544/issn1000-1239.2021.20200521
张文钧, 蒋良孝, 张欢, 陈龙. 一种双层贝叶斯模型:随机森林朴素贝叶斯[J]. 计算机研究与发展, 2021, 58(9): 2040-2051. CSTR: 32373.14.issn1000-1239.2021.20200521
引用本文: 张文钧, 蒋良孝, 张欢, 陈龙. 一种双层贝叶斯模型:随机森林朴素贝叶斯[J]. 计算机研究与发展, 2021, 58(9): 2040-2051. CSTR: 32373.14.issn1000-1239.2021.20200521
Zhang Wenjun, Jiang Liangxiao, Zhang Huan, Chen Long. A Two-Layer Bayes Model: Random Forest Naive Bayes[J]. Journal of Computer Research and Development, 2021, 58(9): 2040-2051. CSTR: 32373.14.issn1000-1239.2021.20200521
Citation: Zhang Wenjun, Jiang Liangxiao, Zhang Huan, Chen Long. A Two-Layer Bayes Model: Random Forest Naive Bayes[J]. Journal of Computer Research and Development, 2021, 58(9): 2040-2051. CSTR: 32373.14.issn1000-1239.2021.20200521

一种双层贝叶斯模型:随机森林朴素贝叶斯

基金项目: 国家自然科学基金联合基金重点项目(U1711267);中央高校基本科研业务费专项资金项目(CUGGC03)
详细信息
  • 中图分类号: TP391

A Two-Layer Bayes Model: Random Forest Naive Bayes

Funds: The work was supported by the Joint Fund Key Projects of the National Natural Science Foundation of China (U1711267) and the Fundamental Research Funds for the Central Universities (CUGGC03).
  • 摘要: 文本分类是自然语言处理领域的一项基础工作.文本数据的高维性和稀疏性,给文本分类带来了许多问题和挑战.朴素贝叶斯模型因其简单、高效、易理解的特点被广泛应用于文本分类任务,但其属性条件独立假设在现实的文本数据中很难满足,从而影响了它的分类性能.为了削弱朴素贝叶斯的属性条件独立假设,学者们提出了许多改进方法,主要包括结构扩展、实例选择、实例加权、特征选择、特征加权等.然而,所有这些方法都是基于独立的单词特征来构建朴素贝叶斯分类模型,在一定程度上限制了它们的分类性能.为此,尝试用特征学习的方法来改进朴素贝叶斯文本分类模型,提出了一种双层贝叶斯模型:随机森林朴素贝叶斯(random forest naive Bayes, RFNB).RFNB分为2层,第1层利用随机森林从原始的单词特征中学习单词组合的高层特征.然后将学习到的新特征输入第2层,经过一位有效编码后用于构建伯努利朴素贝叶斯模型.在大量广泛使用的文本数据集上的实验结果表明,提出的RFNB模型明显优于现有的最先进的朴素贝叶斯文本分类模型和其他经典的文本分类模型.
    Abstract: Text classification is an essential task in natural language processing. The high dimension and sparsity of text data bring many problems and challenges to text classification. Naive Bayes (NB) is widely used in text classification due to its simplicity, efficiency and comprehensibility, but its attribute conditional independence assumption is rarely met in real-world text data and thus affects its classification performance. In order to weaken the attribute conditional independence assumption required by NB, scholars have proposed a variety of improved approaches, mainly including structure extension, instance selection, instance weighting, feature selection, and feature weighting. However, all these approaches construct NB classification models based on the independent term features, which restricts their classification performance to a certain extent. In this paper, we try to improve the naive Bayes text classification model by feature learning and thus propose a two-layer Bayes model called random forest naive Bayes (RFNB). RFNB is divided into two layers. In the first layer, random forest (RF) is used to learn high-level features of term combinations from original term features. Then the learned new features are input into the second layer, which is used to construct a Bernoulli naive Bayes model after one-hot encoding. The experimental results on a large number of widely used text datasets show that the proposed RFNB significantly outperforms the existing state-of-the-art naive Bayes text classification models and other classical text classification models.
  • 期刊类型引用(43)

    1. 周显春,喻佳. 基于图神经网络的人工自然语言语义挖掘仿真. 计算机仿真. 2024(01): 344-348 . 百度学术
    2. 程卓. 基于特征学习的无线传感网络入侵行为检测方法. 现代传输. 2024(01): 76-79 . 百度学术
    3. 杨鹏,贺钧,李卫军,李娟. 基于贪婪算法的网络通信未知蠕虫检测仿真. 计算机仿真. 2024(04): 373-377 . 百度学术
    4. 王洁,吕奕飞. 基于流量异常特征的无线网络攻击行为检测方法. 电脑知识与技术. 2024(11): 78-80 . 百度学术
    5. 杨芳,刘全明. 考虑时滞影响的无线传感网络蠕虫病毒自适应检测方法. 传感技术学报. 2024(06): 1073-1077 . 百度学术
    6. 张邢昀,田乔宇,卢煜程,丁国如. 基于知识图谱的通信目标行为分析方法. 通信技术. 2024(07): 701-710 . 百度学术
    7. 李浩. 基于深度学习的网络流量入侵检测方法研究. 电脑知识与技术. 2024(23): 96-99+110 . 百度学术
    8. 胡艳华,张春玉,崔亚楠,韦灵. 基于混沌免疫聚类的网络信息流异常检测方法. 计算机仿真. 2024(08): 400-403+496 . 百度学术
    9. 陈山,吴丽莎,张凯,程轶红,程亚萍,冯驰. 基于LoRa通信的大规模用电信息采集与传输系统设计. 自动化技术与应用. 2024(10): 153-157 . 百度学术
    10. 刘珊,李瑞,王尧. 基于改进长短期记忆网络的新能源场站网络安全评估方法研究. 电信科学. 2024(10): 124-133 . 百度学术
    11. 王祝先,赵忠凯,叶润泽,关兴民,杨智涛,宋邦钰. IPV6多跳网络环境下双通道快速切换算法的构建研究. 应用科技. 2024(05): 101-106 . 百度学术
    12. 周燕,肖莉. 基于改进关联聚类算法的网络异常数据挖掘. 计算机工程与设计. 2023(01): 108-115 . 百度学术
    13. 张国宏. 大规模网络流量数据异常快速检测研究. 长江信息通信. 2023(02): 110-112 . 百度学术
    14. 贾万祥,张平华. 基于多特征识别的非线性网络流量异常检测方法. 湖北科技学院学报. 2023(02): 145-150 . 百度学术
    15. 刘拥民,黄浩,石婷婷,欧阳金怡,刘翰林,谢铁强. 轻量级词典协同记忆聚焦处理的Web攻击检测研究. 重庆理工大学学报(自然科学). 2023(03): 172-182 . 百度学术
    16. 苏文明. 基于M-ATS的动态网络伪装攻击挖掘算法. 湖北理工学院学报. 2023(02): 21-24+58 . 百度学术
    17. 苏江文,宋立华. 基于无监督学习的电力系统网络潜在多步攻击实时检测方法. 电气自动化. 2023(02): 15-17 . 百度学术
    18. 许馨元,李越鹏,王媛媛. 基于改进CURE聚类算法的网络用户异常行为识别方法. 微型电脑应用. 2023(05): 174-177+181 . 百度学术
    19. 马伟,田静,高振怀. 光纤传感网络空间中攻击节点捕获方法研究. 激光杂志. 2023(07): 189-193 . 百度学术
    20. 任春梅,白欣雨,黄岩. 新型电力系统中信息网络攻击行为辨识方法. 电工技术. 2023(13): 233-237 . 百度学术
    21. 毛莉君,王心妍. 基于能耗信任值的无线传感网络克隆攻击检测方法. 传感技术学报. 2023(07): 1122-1127 . 百度学术
    22. 谢从贵. 一种融合实例和聚类信息的网络入侵攻击分类研究. 常熟理工学院学报. 2023(05): 29-35 . 百度学术
    23. 宋国顺. 基于特征加权聚合的传感网络多模式攻击检测方法. 通化师范学院学报. 2023(10): 74-80 . 百度学术
    24. 杨波,徐胜超,毛明扬,陈刚,王宏杰. 基于流量特征的区域互联网攻击源IP地址检测. 计算机测量与控制. 2023(10): 285-290+298 . 百度学术
    25. 窦萌萌,程小辉. 开放网络中分布式隐私数据主动防御仿真分析. 计算机仿真. 2023(09): 385-389 . 百度学术
    26. 梁卫芳,张爽. 基于相遇记录的域间路由协议攻击检测模型. 计算机仿真. 2023(10): 468-472 . 百度学术
    27. 杨春霞,陶可瑞,宋永生. 深度学习算法的舰船网络安全状态识别. 舰船科学技术. 2023(21): 193-196 . 百度学术
    28. 郁滨,熊俊. 基于平衡迭代规约层次聚类的无线传感器网络流量异常检测方案. 电子与信息学报. 2022(01): 305-313 . 百度学术
    29. 周燕茹. 一种基于统计模型的网络阻塞攻击防御方法. 遵义师范学院学报. 2022(02): 94-98 . 百度学术
    30. 杜淑颖. 基于密度峰值聚类的网络入侵检测. 软件. 2022(06): 40-46 . 百度学术
    31. 俞永飞. 基于人工蜂群算法的网络攻击流量自动辨识研究. 内蒙古民族大学学报(自然科学版). 2022(04): 277-283 . 百度学术
    32. 孙茜,吴鸣. N-Gram模型下网络客户端病毒防御方法仿真. 计算机仿真. 2022(10): 400-404 . 百度学术
    33. 倪雪莉,王群,梁广俊. 智能穿戴设备的安全与隐私威胁研究. 信息网络安全. 2022(10): 98-107 . 百度学术
    34. 林志达,张华兵,曹小明,周英耀. 基于Hurst指数方差分析的堡垒机攻击检测方法. 自动化与仪器仪表. 2022(11): 60-63+68 . 百度学术
    35. 樊凯,冯国聪,刘祥. 基于网络熵的网络攻击身份快速追踪方法. 自动化技术与应用. 2022(12): 101-104+151 . 百度学术
    36. 董新玉,解滨,赵旭升,高新宝. 多视角层次聚类下的无线网络入侵检测算法. 计算机科学与探索. 2022(12): 2752-2764 . 百度学术
    37. 谭伦荣,王辉. 基于深度卷积神经网络的无线通信网络异常攻击检测. 重庆科技学院学报(自然科学版). 2022(06): 60-64 . 百度学术
    38. 郭倩林,张翰林. 大规模集群网络疑似攻击自主检测方法仿真. 计算机仿真. 2021(03): 264-267+340 . 百度学术
    39. 苏绍培. 船舶航线远程控制网络攻击信息实时检测方法. 舰船科学技术. 2021(06): 172-174 . 百度学术
    40. 曾宏志,史洪松. 半监督技术和主动学习相结合的网络入侵检测方法. 吉林大学学报(理学版). 2021(04): 936-942 . 百度学术
    41. 王永财. 基于半监督学习的计量运行数据协同检测技术. 信息与电脑(理论版). 2021(14): 33-35 . 百度学术
    42. 陶庆凤. 基于人工蜂群算法的无线网络攻击行为的辨识研究. 宁夏师范学院学报. 2021(07): 89-95 . 百度学术
    43. 秦云涛. 基于网络流量解析的网络攻击检测系统的设计与实现. 信息与电脑(理论版). 2021(17): 207-210 . 百度学术

    其他类型引用(16)

计量
  • 文章访问数:  705
  • HTML全文浏览量:  11
  • PDF下载量:  227
  • 被引次数: 59
出版历程
  • 发布日期:  2021-08-31

目录

    /

    返回文章
    返回