A New Documents Clustering Method Based on Frequent Itemsets
-
摘要: 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method, FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.Abstract: Traditional document clustering methods use vector space model (VSM) of words to represent documents. This VSM representation only measures the importance of a single words, while ignores the semantic relationship between words, and has high dimensionality. In this study, we propose a new document clustering method: FIC (frequent itemsets based document clustering method). In the method, we use frequent itemsets (where a frequent itemset is a set of frequently co-occurred words) mined by FP-Growth algorithm in documents to represent each document. We then construct the document-document relationship network based on the similarity between pairs of documents at this new representation. At last, we divide the network into communities using a given community detection method to complete document clustering. Thereby, FIC can not only overcome the high dimensionality of VSM, but also fully make use of topological relationship among documents. The experimental results on two English corpora (Reters-21578 and 20Newsgroup) and one Chinese corpus (Sougou-News) demonstrate that the proposed method FIC is superior to the other existing frequent itemsets based methods and other classical state-of-the-art document clustering methods, and the top K words for characterizing each topic of documents identified by FIC are more meaningful than the classical topic model LDA (latent Dirichlet allocation).
-
-
期刊类型引用(15)
1. 王气洪,贾洪杰,黄龙霞,毛启容. 联合数据增强的语义对比聚类. 计算机研究与发展. 2024(06): 1511-1524 . 本站查看
2. 吴树芳,王宏彬,朱杰,陈婷. 基于两层异质网络的社交短文本扩展研究. 数据分析与知识发现. 2024(10): 77-88 . 百度学术
3. 原虹,赵丽,王溢琴. 链接文档中基于子空间分解的高效谱聚类算法. 太赫兹科学与电子信息学报. 2022(09): 965-972 . 百度学术
4. 侯朋朋,张珩,武延军,于佳耕,邰阳,苗玉霞. 基于多标签的内核配置图及其应用. 计算机研究与发展. 2021(03): 651-667 . 本站查看
5. 刘鹏,宁鹏飞. 基于VSM的海量医学资源特定信息优化聚类模型. 计算机仿真. 2021(06): 383-386 . 百度学术
6. 孟海宁,冯锴,朱磊,张贝贝,童新宇,黑新宏. 基于Laplacian图谱的短文本聚类算法. 电子学报. 2021(09): 1716-1723 . 百度学术
7. 李云龙,余正涛,高盛祥,郭军军,彭仁杰. 基于案件要素指导及深度聚类的新闻与案件相关性分析. 中文信息学报. 2021(11): 60-69 . 百度学术
8. 王昉,王晓博. 新中国70年反贫困思想的演进路径与逻辑架构——基于政策文件的文本对比研究. 经济学家. 2020(02): 44-53 . 百度学术
9. 李海磊,杨文忠,李东昊,温杰彬,钱芸芸. 基于特征融合的K-means微博话题发现模型. 电子技术应用. 2020(04): 24-28+33 . 百度学术
10. 郑建灵,张艳玲,田俊雄,黄子豪,梁茵. 校园舆情热点问题提取与分析. 软件导刊. 2020(04): 61-66 . 百度学术
11. 贾瑞玉,陈胜发. 结合新概念分解和频繁词集的短文本聚类. 小型微型计算机系统. 2020(06): 1321-1326 . 百度学术
12. 宋中山,张广凯,尹帆,帖军. 基于频繁模式的长尾文本聚类算法. 计算机系统应用. 2019(04): 139-144 . 百度学术
13. 王秀慧,赵治军. 改进的基于词集距离的FTC聚类算法. 计算机工程与设计. 2019(11): 3175-3179 . 百度学术
14. 张丐卓. 文本挖掘及其在信息内容安全中的应用. 华北科技学院学报. 2018(02): 115-121 . 百度学术
15. 赵颖,王华伟. 基于聚类分析算法的铁路通信设备厂商信息智能分类. 铁路计算机应用. 2018(07): 75-79 . 百度学术
其他类型引用(21)
计量
- 文章访问数: 1657
- HTML全文浏览量: 0
- PDF下载量: 912
- 被引次数: 36