计算机研究与发展 ›› 2015, Vol. 52 ›› Issue (9): 1941-1953.doi: 10.7544/issn1000-1239.2015.20140533
彭敏1,2, 黄佳佳1, 朱佳晖3, 黄济民1, 刘纪平1
Peng Min1,2, Huang Jiajia1, Zhu Jiahui3, Huang Jimin1, Liu Jiping1
摘要: 社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering & topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明,STC-TE框架能够全面准确地抽取主题信息,快速有效地实现海量短文本分类.
中图分类号: