计算机研究与发展 ›› 2015, Vol. 52 ›› Issue (8): 1742-1756.doi: 10.7544/issn1000-1239.2015.20150245
所属专题: 2015面向大数据的人工智能技术
杨昙,冯翔,虞慧群
Yang Tan,Feng Xiang,Yu Huiqun
摘要: 随着当今世界逐渐从信息化转型为数据化,模式识别和数据挖掘等领域面临越来越大的挑战.爆炸式增大的数据量使得特征选择过程成为大数据模式识别等领域必不可少的环节.受动物界资源争夺行为启发,在由特征选择模型转变为资源分配问题模型中加入个体的资源争夺行为,提出多群体公平算法(multi-colony fairness algorithm, MCFA)对该行为进行评判和处理,用以取得更优的分配方案(即更优特征子集),其有机融合随机搜索和启发式搜索,且将filter方法和wrapper方法相结合,降低计算量的同时获得更高的分类准确率.对提出的多群体公平算法进行了分析,从理论上证明了算法的收敛性和有效性;UCI机器学习数据库数据集与4种经典特征选择算法:顺序前向搜索算法(sequential forward selection, SFS)、顺序后向搜索算法(sequential backward selection, SBS)、顺序前向浮动搜索算法(sequential floating forward selection, SFFS)、顺序后向浮动搜索算法(sequential floating backward selection, SBFS)和3种主流特征选择算法:相关性-冗余度特征选择算法(relevance-redundancy feature selection, RRFS)、最大相关最小冗余算法(minimal-redundancy-maximal-relevance, mRMR)、ReliefF算法的对比实验表明,提出的多群体公平算法能够有效选择规模和性能都比较好的特征子集.
中图分类号: