• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

密度峰值聚类算法综述

陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥

陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. DOI: 10.7544/issn1000-1239.2020.20190104
引用本文: 陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. DOI: 10.7544/issn1000-1239.2020.20190104
Chen Yewang, Shen Lianlian, Zhong Caiming, Wang Tian, Chen Yi, Du Jixiang. Survey on Density Peak Clustering Algorithm[J]. Journal of Computer Research and Development, 2020, 57(2): 378-394. DOI: 10.7544/issn1000-1239.2020.20190104
Citation: Chen Yewang, Shen Lianlian, Zhong Caiming, Wang Tian, Chen Yi, Du Jixiang. Survey on Density Peak Clustering Algorithm[J]. Journal of Computer Research and Development, 2020, 57(2): 378-394. DOI: 10.7544/issn1000-1239.2020.20190104
陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. CSTR: 32373.14.issn1000-1239.2020.20190104
引用本文: 陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. CSTR: 32373.14.issn1000-1239.2020.20190104
Chen Yewang, Shen Lianlian, Zhong Caiming, Wang Tian, Chen Yi, Du Jixiang. Survey on Density Peak Clustering Algorithm[J]. Journal of Computer Research and Development, 2020, 57(2): 378-394. CSTR: 32373.14.issn1000-1239.2020.20190104
Citation: Chen Yewang, Shen Lianlian, Zhong Caiming, Wang Tian, Chen Yi, Du Jixiang. Survey on Density Peak Clustering Algorithm[J]. Journal of Computer Research and Development, 2020, 57(2): 378-394. CSTR: 32373.14.issn1000-1239.2020.20190104

密度峰值聚类算法综述

基金项目: 国家自然科学基金项目(61673186,71771094,61876068,61972010);泉州市高层次人才创新创业项目(2018C114R,2018C110R);福建省科技计划项目(2017H01010065,2019H01010129)
详细信息
  • 中图分类号: TP391

Survey on Density Peak Clustering Algorithm

Funds: This work was supported by the National Natural Science Foundation of China (61673186, 71771094, 61876068, 61972010), the Quanzhou City Science & Technology Program of China (2018C114R, 2018C110R), and the Project of Science and Technology Plan of Fujian Province of China (2017H01010065, 2019H01010129).
  • 摘要: 密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.
    Abstract: DPeak(density peak) is a simple but effective clustering method. It is able to map data with arbitrary dimension onto a 2-dimensional space, and construct hierarchical relationship for all data points on the new reduction space. This makes it is easy to pick up some distinguished points (density peaks), each of which has high density and large distance from other regions of higher density. In addition, based on regarding theses density peaks as cluster centers and the hierarchical relationship, the algorithm provides two different ways to perform the final task of clustering, i.e., one is decision diagram that can interact with users, and the other is an automatic method. In this paper, we trace the development and application trends of DPeak in recent years, summarize and comb various improvements or variations of DPeak algorithm from the following aspects. Firstly, the principle of DPeak algorithm is introduced, and its position in the classification system of clustering algorithm is discussed as well. After comparing DPeak with several other main clustering algorithms, it is found that DPeak is highly similar to mean shift, and hence, we think that DPeak may be a special variant of mean shift. Secondly, some shortcomings of DPeak are discussed, such as high time complexity, lack of adaptability, low precision and inefficiency in high dimensional space etc., and then various improved algorithms are demonstrated in different categories. In addition, some applications of DPeak in different fields, such as natural language processing, biomedical analysis and optical applications etc., are presented and combed. Last but not least, we look forward to its future work based on the problems and challenges of the DPeak.
  • 期刊类型引用(52)

    1. 张春昊,解滨,徐童童,张喜梅. 基于自然邻居搜索优化策略的密度峰值聚类算法. 山东大学学报(理学版). 2025(01): 29-44 . 百度学术
    2. 罗碧,沈艳. 基于Gini-PSO-DPC算法的物联网数据异常检测. 软件导刊. 2025(02): 98-106 . 百度学术
    3. 代成龙,李光辉,李栋,申佳华,皮德常. 多项正则化约束的伪标签传播优化脑电信号聚类. 计算机研究与发展. 2024(01): 156-171 . 本站查看
    4. 何凯琳,张正军,位雅,唐莉. 基于人工鱼群的自适应密度峰值聚类算法. 计算机工程与设计. 2024(01): 110-119 . 百度学术
    5. 马福民,宫婷,杨帆,张腾飞. 基于Zipf分布的网格密度峰值聚类算法. 控制与决策. 2024(02): 577-587 . 百度学术
    6. 胡承鑫,曾曙光,管灵,董纯柱,曾祥云,郑胜,黄瑶,罗骁域. 基于局部密度聚类的雷达目标散射中心区域分割. 科学技术与工程. 2024(01): 260-266 . 百度学术
    7. 钟卓辉,陈黎飞. 基于模型的非凸聚类算法. 计算机工程与科学. 2024(02): 292-302 . 百度学术
    8. 刘继,杨金瑞. 基于网格近邻优化的密度峰值聚类算法. 计算机应用研究. 2024(04): 1058-1063 . 百度学术
    9. 何宇豪,陈颖悦,曾高发,刘培谦. 一种邻域粒谱聚类方法. 西南大学学报(自然科学版). 2024(05): 2-10 . 百度学术
    10. 刘素娇,卢明星,王春芳,赵梓枫,刘怡. 基于改进鲸鱼优化CNN的红富士苹果外观分级方法. 食品与机械. 2024(04): 121-126 . 百度学术
    11. 潘潇潇,郑建立. 基于DBSCAN聚类算法的心电图R峰检测研究. 智能计算机与应用. 2024(07): 198-202 . 百度学术
    12. 娄铮铮,张万闯,吴云鹏. 光斑密度峰值的毫米波雷达目标检测. 小型微型计算机系统. 2024(10): 2455-2464 . 百度学术
    13. 赵嘉,马清,陈蔚昌,肖人彬,崔志华,潘正祥. 面向流形数据的加权自然近邻密度峰值聚类算法. 兰州大学学报(自然科学版). 2024(05): 652-660+669 . 百度学术
    14. 胡胜,袁功进,刘聪. 基于改进DPC-IGWO-Elman的负荷分解方法. 湖北工业大学学报. 2024(05): 1-7 . 百度学术
    15. 陈将宏,胡佳慧,时康昊,郑新超,敖志强. 基于改进密度峰值优化全局K-means的风电典型场景聚类方法. 国外电子测量技术. 2024(12): 71-82 . 百度学术
    16. 张新元,贠卫国. 共享K近邻和多分配策略的密度峰值聚类算法. 小型微型计算机系统. 2023(01): 75-82 . 百度学术
    17. 赵丽伟,黄炜斌,赖春羊,马光文,陈仕军,李相锐. 基于密度峰值聚类的水电现货报价单元组建方法. 中国农村水利水电. 2023(04): 263-269 . 百度学术
    18. 付立东,刘佳会,王秋红. 基于密度峰值的标签传播社区发现算法. 计算机应用研究. 2023(08): 2323-2328 . 百度学术
    19. 赵嘉,马清,肖人彬,潘正祥,韩龙哲. 面向流形数据的共享近邻密度峰值聚类算法. 智能系统学报. 2023(04): 719-730 . 百度学术
    20. 潘俊迪,陈中,倪纯奕,万玲玲,王毅. 基于无模型自适应控制的配电网电压控制方案. 电力工程技术. 2023(05): 128-137 . 百度学术
    21. 于展. 基于聚类算法的上海轨道交通站点高峰特征分析. 城市轨道交通研究. 2023(S2): 140-144 . 百度学术
    22. 吕鸿章,杨易扬,杨戈平,巩志国. k近邻密度支配域代表团密度峰值聚类算法. 计算机工程与应用. 2023(24): 78-87 . 百度学术
    23. 徐春,王昭,孙彬. 一种基于网民行为的倾向性密度聚类方法. 沈阳工业大学学报. 2022(01): 68-73 . 百度学术
    24. 姚黄金,雷霞,付鑫权,胡益. 基于改进自适应密度峰值算法的日负荷曲线聚类分析. 电力系统保护与控制. 2022(03): 121-130 . 百度学术
    25. 刘静博,王蓓,顾吉峰. 基于数据生成算法的睡眠分期方法. 计算机工程与设计. 2022(02): 406-412 . 百度学术
    26. 江婧婷,郑朝晖. 面向大规模节点划分的网格密度峰值聚类. 小型微型计算机系统. 2022(03): 498-505 . 百度学术
    27. 吕佳,傅屈寒. 基于改进主动学习和自训练的联合算法. 北京师范大学学报(自然科学版). 2022(01): 25-32 . 百度学术
    28. 孙林,刘梦含,徐久成. 基于优化初始聚类中心和轮廓系数的K-means聚类算法. 模糊系统与数学. 2022(01): 47-65 . 百度学术
    29. 孙林,秦小营,徐久成,薛占熬. 基于K近邻和优化分配策略的密度峰值聚类算法. 软件学报. 2022(04): 1390-1411 . 百度学术
    30. 何洪磊. 使用DPG算法优化K-means初始聚类中心. 信息与电脑(理论版). 2022(04): 73-75 . 百度学术
    31. 李妙珍,李舜酩,陆建涛. 齿轮故障识别的密度峰值聚类欠定盲源分离算法. 航空动力学报. 2022(05): 1010-1019 . 百度学术
    32. 汪康,马宗方,田鸿朋,宋琳. 不确定数据信任密度峰值聚类算法. 信息与控制. 2022(03): 349-360 . 百度学术
    33. 肖鹏,王柯强,黄振林. 基于IABC和聚类优化RBF神经网络的电力信息网络安全态势评估. 智慧电力. 2022(06): 100-106 . 百度学术
    34. 郝杰,唐叶剑. 基于密度峰值聚类并行麻雀搜索算法的食品机器人路径规划. 食品与机械. 2022(06): 123-130 . 百度学术
    35. 郝秀慧,方贤进,杨高明. 基于TFIDF+LSA算法的新闻文本聚类与可视化. 计算机技术与发展. 2022(07): 34-38+45 . 百度学术
    36. 赵力衡,王建,陈虹君. 去中心化加权簇归并的密度峰值聚类算法. 计算机科学与探索. 2022(08): 1910-1922 . 百度学术
    37. 陈延伟,赵兴旺. 基于边界点检测的变密度聚类算法. 计算机应用. 2022(08): 2450-2460 . 百度学术
    38. 刘学文,王继奎,杨正国,李冰,聂飞平. 密度峰值隶属度优化的半监督Self-Training算法. 计算机科学与探索. 2022(09): 2078-2088 . 百度学术
    39. 张翼英,王鹏凯,柳依阳,武延年,郭晓艳. 基于W-ReLU的设备多工况状态异常检测方法. 天津科技大学学报. 2022(05): 63-70 . 百度学术
    40. 李怀旭,孙晓岩,陶少辉,夏力,项曙光. 基于分子热力学性质和密度峰聚类的脱硫汽油集总. 化工学报. 2022(12): 5449-5460 . 百度学术
    41. 吕佳,鲜焱. 结合改进密度峰值聚类和共享子空间的协同训练算法. 计算机应用. 2021(03): 686-693 . 百度学术
    42. 李潇岩,卢宝松. 聚类算法下的饲料粉碎机性能优化研究. 农机化研究. 2021(12): 42-45 . 百度学术
    43. 李慧芳,钟新成,付晓丽. 基于密度峰值聚类的大学生异常行为检测研究. 电脑与电信. 2021(03): 26-29 . 百度学术
    44. 吴辰文,马宁,蒋雨璠. 基于Jeffrey散度相似性度量的加权FCM聚类算法. 激光与光电子学进展. 2021(08): 104-113 . 百度学术
    45. 张亦弛,吕明明,关涛,王佳俊,余佳,任炳昱. 基于改进自回归流模型的坝基三维裂隙网络多参数模拟. 水利学报. 2021(05): 565-577 . 百度学术
    46. 龚旭,吕佳. 基于加权主成分分析和改进密度峰值聚类的协同训练算法. 重庆师范大学学报(自然科学版). 2021(04): 87-96 . 百度学术
    47. 王大刚,丁世飞,钟锦. 基于二阶k近邻的密度峰值聚类算法研究. 计算机科学与探索. 2021(08): 1490-1500 . 百度学术
    48. 徐华杰. K-means聚类在A保险公司客户细分模型中的研究. 网络安全技术与应用. 2021(09): 39-41 . 百度学术
    49. 刘娟,万静. 自然反向最近邻优化的密度峰值聚类算法. 计算机科学与探索. 2021(10): 1888-1899 . 百度学术
    50. 孙悦朋,郭仁拥,于涛. 基于密度聚类的多向行人流群集区域分布比较. 山东科学. 2021(05): 64-74 . 百度学术
    51. 张忠林,赵昱,闫光辉. 自然邻居密度极值聚类算法. 计算机工程与应用. 2021(23): 200-210 . 百度学术
    52. 王舰. 基于高斯核优化的密度峰值聚类算法. 电脑知识与技术. 2020(28): 192-194+209 . 百度学术

    其他类型引用(101)

计量
  • 文章访问数:  3410
  • HTML全文浏览量:  7
  • PDF下载量:  1178
  • 被引次数: 153
出版历程
  • 发布日期:  2020-01-31

目录

    /

    返回文章
    返回