基于特征变权的动态模糊特征选择算法

王 玲 孟建瑶

(北京科技大学自动化学院 北京 100083) (工业过程知识自动化教育部重点实验室(北京科技大学) 北京 100083) (lingwang@ustb.edu.cn)

特征选择是数据挖掘和机器学习中的一个重要课题,它不仅有助于理解数据、节约计算成本、减少特征之间的相互影响,而且可以提高预测的准确率 [1-2] .特征选择也称特征子集选择,是指从原始特征中选择出一些最有效特征以降低数据集维度的过程 [3] .目前,特征选择已经应用于多个领域,例如工业传感器数据分析 [4] 、空气质量分析 [5] 、健康数据分析 [6] 等等.

在一些现实的系统中,人们往往利用一些模糊语义将原始特征集转化为模糊特征集,提高系统的可解释性.然而,模糊化后的特征空间比原始的特征空间维度更高,为了减少系统模糊化后的复杂性,从模糊特征中选择有价值的特征显得更为重要.此外,实际应用往往是具有多特征的动态复杂系统,随着时间的变化,特征的重要程度也在逐渐发生变化,例如一些重要的特征随着时间的推移变得冗余,或者起初不重要的特征随着时间的推移变得越来越重要.虽然国内外已经涌现了一系列特征选择算法,例如过滤式特征选择算法 [7] 、封装式特征选择算法 [8] 、嵌入式特征选择算法 [9] 等用于提高学习算法的性能.但上述方法不能体现特征选择的实时性,导致算法延迟和不连续,影响了可解释性.因此,动态特征选择算法应运而生.文献[10]提出基于在线分类器的动态特征选择算法,该算法选择所有可以代表整体数据集信息的特征,但利用分类器评估所选特征的好坏,增加了计算负担;文献[11]提出基于贝叶斯分类器的封装式动态特征选择算法,该算法利用贪婪算法寻找最优的特征子集,增加了算法的时间复杂度和空间复杂度;文献[12]介绍了4种新的特征质量检测指标,然后用检测指标和聚类算法动态地选择有用的特征,但是聚类算法需要人为设置聚类个数,降低了算法的自适应性;文献[13]提出基于 K 均值算法和遗传算法的动态特征选择算法,该算法分别利用遗传算法和 K 均值算法确定目标函数和寻优范围,但该算法得到的特征子集不是全局最优的.尽管如此,针对动态系统,如何自适应地进行模糊特征选择仍然是一个挑战性的课题.

本文主要有4个方面的贡献:

1) 提出一种基于特征变权的动态模糊特征选择算法,包括离线模糊特征选择和在线模糊特征选择2部分;

2) 通过计算每个模糊特征的权重,动态优化所选模糊特征子集,保证了特征选择过程的平滑性和时效性;

3) 在特征变权的基础上,离线模糊特征选择利用后向选择算法和模糊特征筛选指标获得优化模糊特征子集,在线模糊特征选择根据重要度不断更新优化模糊特征子集;

4) 应用不同数据集的实验结果表明:我们提出的动态模糊特征选择算法在无需设置任何参数的情况下,提高了算法的自适应性和预测准确性.

1 相关工作

动态特征选择算法的目的是在动态数据集中选择出能够实时刻画主要特性的特征.关于动态特征选择的研究有很多 [14-18] ,其中,一些动态特征选择算法只能处理类别数据,例如文献[14]提出基于粗糙集的动态特征选择算法,以粗糙集为基础,动态地计算特征的独立性,从而进行特征选择;文献[15]提出基于邻域粗糙集的动态特征选择算法,邻域粗糙集摆脱了粗糙集只能处理离散型数据的约束;文献[16]提出基于信息粒度的动态特征选择算法,利用非矩阵的信息粒度结构减少了算法时间和空间的消耗,提高了算法效率.然而,上述算法都是针对类别数据集,适用范围较小.除此之外,研究者提出一些针对其他类型数据集的动态特征选择算法;文献[17]提出动态无监督特征选择算法,该算法将特征选择直接嵌入聚类算法中,利用聚类算法保存局部信息结构,帮助选择具有辨识能力的特征,然而,该算法需要设置参数控制聚类算法目标函数的构建,导致算法自适应能力不佳;文献[18]提出新的无监督动态特征选择算法,该算法近似地保存数据,根据在近似数据上的回归结果确定特征的重要程度,从而进行特征选择.然而,该算法依赖回归模型进行特征选择,没有独立的特征评价指标,限制了算法的使用范围.

针对模糊数据的特征选择算法较少,文献[19]提出基于最小-最大学习规则和扩展矩阵的模糊特征选择算法,利用模糊化后的数据构建扩展矩阵,根据最小-最大学习规则衡量每个模糊特征包含重要信息的多少,从而获得模糊特征选择结果,但是此算法只适用于静态数据集,不适用于动态系统中的模糊特征选择;文献[20]提出基于在线特征权重的动态模糊特征选择算法,该算法计算每个模糊特征的权重,根据可分离判据,选择有助于分类的模糊特征,然而该算法中需要设置分离阈值,降低了算法的自适应能力.

鉴于此,本文提出了基于特征变权的动态模糊特征选择算法(dynamic fuzzy features selection based on variable weight, DFFS-VW).主要包括2个阶段:

1) 离线模糊特征选择.首先,利用滑动窗口分割模糊数据,在第1个滑动窗口中进行离线模糊特征选择,计算每一个模糊输入特征与输出特征的互信息量;然后根据互信息量计算每一个模糊输入特征的权重,并从大到小排序,计算相邻模糊输入特征的权重梯度和截断点阈值进而获得候选模糊特征子集,缩小了寻找最优模糊输入特征子集的空间,提高了算法效率;在此基础上,根据模糊特征筛选指标既考虑模糊特征子集的输入特征与输出特征之间的互信息量又兼顾模糊输入特征之间的互信息量来筛选特征,并通过后向特征选择算法得到离线的优化模糊特征子集,保证了所选模糊特征子集为全局最优.

2) 在线模糊特征选择.在依次到来的滑动窗口中进行在线模糊特征选择,综合利用当前时刻滑动窗口中的候选模糊特征子集和前一个滑动窗口中的优化模糊特征子集,自适应地跟踪输入模糊特征权重的变化,得到当前滑动窗口中的优化模糊特征子集,提高了模型的解释性并保证学习的平滑性和实效性;根据模糊输入特征与初始化优化模糊特征子集之间的重要度获取最终的优化模糊特征子集,同时考虑历史特征选择结果和当前数据分布,确保最终的优化模糊特征子集的优越性.在DFFS-VW算法中,输出特征可以是类别标签,也可以是连续数据,无论是离线模糊特征选择,还是在线模糊特征选择,都无需依赖分类器或者回归模型,无需人为设置任何参数,提高了算法的自适应性.

2 相关定义

本文以滑动窗口分割模糊化数据为基础,从模糊特征互信息量入手,建立起模糊输入特征与输出特征之间的联系,进而实现动态模糊特征选择.为了确定滑动窗口的大小,这里采用Hoeffding边界检测数据的分布.

定义1 . Hoeffding边界 [21] .对于取值范围为 R 的特征,假设每个滑动窗口包含 n 条数据样本,在置信程度是1- δ ( δ 一般取0.05)的条件下,Hoeffding边界 ε

(1)

其中, R 为特征的取值范围:

R =( x 1.max - x 1.min , x 2.max - x 2,min ,…,
x j ,max - x j ,min ,…, x L ,max - x L ,max ),

其中, x j ,max 是第 j 个变量的最大值, x j ,min 是第 j 个变量的最小值, L 是数据集变量的个数.

随着 n 的增加,Hoeffding边界 ε 在变小,这表明当 n 足够大,Hoeffding边界 ε 将趋近于0.

根据Hoeffding边界,样本集的最小容量 N H 可以确定:

(2)

根据式(2)可知,Hoeffding边界 ε 是获得样本集的最小容量 N H 的关键.假设相邻滑动窗口 W p -1 W p 所包含的样本集均值分别是 μ p -1 μ p ,在置信程度是1- δ 的条件下,| μ p -1 - μ p |≤2 ε ,则样本集的最小容量 N H 的计算公式可以调整为

(3)

由于对数值数据进行模糊化处理不仅有助于提取高层次的含义,而且不需要对数据进行简单地“硬”划分,它被广泛应用于智能系统中 [19] .通常的模糊化方法是根据经验或者知识建立隶属度函数.但是,在多数情况下,很难获取所需要的信息或者专家知识.本文利用以前的研究基础 [22] 对数据特征进行聚类实现特征模糊化.设第 p ( p ≥0)个滑动窗口包含 n 条数据, L 维输入特征和一维输出特征,可以表示为

(4)

令输入特征和输出特征共同组成的特征向量为

定义2 . 输入特征模糊化.假设特征 的聚类结果中分别包含 个类别,根据每个输入特征的聚类结果将输入特征向量 为输入模糊特征向量

(5)

其中, 是第 p 个滑动窗口中第 j (1≤ j L )个特征的第 个模糊特征,可以表示为

(6)

(7)

其中, n 是数据集的样本个数, L 是数据集的输入维度, 是第 p 个滑动窗口中第 i 个样本的第 j 个输入特征值, 是第 p 个滑动窗口中第 j 个输入特征的均值, 是第 p 个滑动窗口中第 j 个输入特征的方差.

为了度量模糊特征之间的相关性,有必要引入新的度量.

定义3 . 模糊信息熵.设 是第 p 个滑动窗口的模糊特征子集, 的模糊信息熵定义如下:

(8)

其中, 是特征子集 相对于第 i 条样本的基:


(9)

其中, 中包含的模糊特征个数, 是第 p 个滑动窗口中第 j 个特征的第 q 个模糊特征, 是第 p 个滑动窗口中第 i 条数据的第 j 个特征值对于模糊特征 的隶属度值, 是第 p 个滑动窗口中第 k 条数据的第 j 个特征值对于模糊特征 的隶属度值.

定义4 . 联合模糊信息熵.设 是第 p 个滑动窗口的模糊特征子集, 是第 p 个滑动窗口中第 j 个特征的第 q 个模糊特征, 的联合模糊信息熵:

(10)

其中, 是模糊特征 相对于第 i 条样本的基:

(11)

3 基于特征变权的动态模糊特征选择算法 ( DFFS - VW )

3 . 1 DFFS - VW算法框架

为了提高模糊动态特征选择的实效性和快速性,降低算法复杂性,发现各个模糊输入特征权重的演化规律.本文提出了DFFS-VW算法,该算法的基本框架如图1所示,首先利用滑动窗口 W 0 , W 1 ,…, W p 分割模糊数据,以第1个滑动窗口中的数据作为初始数据进行离线模糊特征选择,在随后依次到来的滑动窗口中进行在线模糊特征选择.在离线模糊特征选择中,计算每个模糊输入特征的权重,根据权重得到候选模糊特征子集;结合后向特征选择算法和模糊输入特征筛选指标迭代地筛选候选模糊特征子集,每一步都忽略其中权重值最小的模糊特征,得到优化模糊特征子集.在在线模糊特性选择中,根据当前滑动窗口中的数据获取候选模糊特征子集,利用上一个滑动窗口的模糊优化特征子集与当前窗口的候选模糊特征子集的交集作为当前快照的初始优化模糊特征子集,计算其余的模糊输入特征与初始优化模糊特征子集的重要度,若重要度大于0,将模糊输入特征加入优化模糊特征子集.最后,根据各个模糊输入特征的权重对模糊输入特征进行演化分析.

3 . 2 滑动窗口的确定

在动态环境中,滑动窗口是一种被广泛应用的技术.每个滑动窗口中包含着最新产生的样本,并丢弃过去的样本.目前主要有2种确定滑动窗口的方法:1)使用固定的窗口大小;2)根据衰减因子确定滑动窗口中丢弃的数据和保留下来的数据,利用新数据代替已丢弃的数据.这2种方法都需要人为设置参数,然而,这些参数都很敏感,不易确定.根据数据分布直接确定窗口大小,可以解决上述问题.Hoeffding边界考虑了特征的变化范围,不断地调整滑动窗口包含的样本个数 n ,使得通过滑动窗口中的数据求得的最小容量 N H 不大于实际滑动窗口样本个数 n ,将 n 作为固定的滑动窗口大小.在动态特征选择过程中,随着信息不断的采集输入,滑动窗口的任务是以有效的方式管理输入数据,存储信息.相邻滑动窗口记录将被用来进行演化过程中特征之间的对等比较,获取各个输入模糊特征对输出特征的权重演化规律.

Fig. 1 Framework of the DFFS-VW
图1 DFFS-VW框架

3 . 3 模糊特征权重

模糊特征权重是衡量模糊特征重要性的一种指标,在区间[0,1]中连续变化.模糊特征权重越接近1,代表该模糊特征越重要;越接近0,表示模糊特征重要性越低.模糊特征权重具有柔软性和平滑性:柔软性是指权重可以变小,但是不能完全丢弃,具有低模糊特征权重的特征仍然含有较少的信息;平滑性是指模糊特征权重在连续不断地变化,因此,具有低模糊特征权重的特征在之后的学习中仍有可能变成重要的特征.利用模糊特征权重的这2个特性,对模糊特征进行动态特征选择.本文根据互信息量计算每个模糊特征的权重:

(12)

其中, 是第 p 个滑动窗口中第 j 个特征的第 q 个模糊特征, Y p 是第 p 个滑动窗口中输出特征, 是第 p 个滑动窗口中输入模糊特征 与输出特征 Y p 的互信息量:

(13)

Y p 是类标签时, Y p 的熵 H ( Y p ):

(14)

其中, 是输出变量类标签的个数, n l 是类标签为 l 的样本个数.

Y p 的联合信息熵:

(15)

Y p 是连续特征时,利用聚类算法对 Y p 进行归一化处理,根据定义3和定义4计算 H ( Y p )和

仅考虑模糊特征权重大小筛选模糊特征,会导致当模糊特征的权重相差较小时,无法辨识模糊特征之间的差别.为了避免这一问题发生,本文采用模糊权重梯度筛选模糊特征,将模糊特征根据权重从大到小排列,依次计算排序后第 p 个滑动窗口中相邻模糊权重的梯度

(16)

(17)

其中, 是第 p 个滑动窗口中排序后的第 d +1个模糊输入特征的权重, 是第 p 个滑动窗口中排序后的第 d 个模糊输入特征的权重.

如果相邻模糊权重梯度在一定范围内平稳变化,表示模糊输入特征对输出特征的影响几乎保持在同一个水平;如果相邻权重梯度出现明显的下降,表示模糊输入特征对输出特征的影响急剧减小.我们可以将相邻模糊权重与相邻模糊权重均值和相邻模糊权重标准差的和作比较,自适应地发现模糊输入特征对输出特征的影响急剧减小的截断点,将相邻模糊权重均值和相邻模糊权重标准差的和称作是截断点阈值.根据第 p 个滑动窗口中前 d -1个权重梯度,计算第 p 个滑动窗口中第 d 个权重梯度的截断点阈值

(18)

时,排序后的第 d +1个特征是截断点.

无论是模糊特征权重,还是相邻模糊特征权重梯度,都只能衡量单个模糊特征的好坏,特征选择是要保证所选的输入特征子集整体最优.第 p 个滑动窗口中第 j 个特征的第 q 个模糊特征 和第 u 个特征的第 v 个模糊特征 之间的互信息量:

(19)

其中, 分别是第 p 个滑动窗口的模糊输入特征 的模糊信息熵, 的模糊联合信息熵.单个的模糊特征是模糊特征子集的特殊形式,所以可根据定义3和定义4计算模糊特征的模糊信息熵和模糊联合信息熵.

为此,我们将模糊输入特征筛选指标 FCI 作为衡量动态模糊特征选择的衡量标准.它不仅考虑模糊特征子集的输入特征与输出特征之间的互信息量,还考虑模糊输入特征与模糊输入特征之间的互信息量:

(20)

其中, 是第 p 个滑动窗口中模糊特征集合 包含的模糊特征个数, 是第 p 个滑动窗口中 包含的各个模糊特征与输出特征之间互信息量的均值, 是第 p 个滑动窗口中 包含的两两模糊特征的互信息量的均值:

(21)

(22)

3 . 4 离线模糊特征选择

第1个滑动窗口中的数据作为初始数据进行离线模糊特征选择,主要分为2部分:1)根据输入模糊特征和输出特征的互信息量计算各个输入模糊特征的权重,将模糊输入特征根据权重由大到小排序,获取候选模糊特征集;2)在候选模糊特征集中,根据模糊特征筛选指标同时考虑输入模糊特征和输出特征的互信息量与输入模糊特征之间的互信息量,利用后向特征选择和模糊输入特征筛选指标得到与输出特征相关性最大、冗余度最小的优化模糊特征子集.

算法1 . 离线模糊特征选择算法.

输入:所有模糊特征;

输出:最优模糊特征子集.

Step1. 初始化.初始化筛选后的模糊特征子集 ∅( p =0).

Step2. 获取候选模糊特征子集

Step2.1. 分别计算各个模糊特征与输出类别的互信息量.

Step2.2. 根据互信息量计算各个模糊特征的权重,并根据权重从大到小排列模糊输入特征 依次计算排序后相邻权重的梯度.

Step2.3. 初始化候选模糊特征集

Step2.4. 确定候选模糊特征集 如果 则选取排序后的模糊输入特征中的前 d 个特征作为候选模糊特征集

Step3. 获取最优模糊特征子集

Step3.1. 计算候选模糊特征集 的综合指标

Step3.2. 按照 中模糊特征权重由小到大的顺序.

Step3.3. 依次不考虑排序后模糊特征权重对应的模糊特征 时,计算模糊特征子集 的综合指标

Step3.4. 如果 更新综合评价指标 跳到Step3.5.

Step3.5. 循环执行Step3.2~ Step3.4,直到Step3.4中所产生的模糊特征子集的综合指标都不大于 则不再循环.

Step4. 最优模糊特征子集

3 . 5 在线模糊特征选择

为了提高算法的效率,在线模糊特征选择首先利用第 p -1个滑动窗口中的| C p -1 |个聚类中心 和第 p 个滑动窗口中的所有数据组成 D p ,其中 p ≥1,1≤ q ≤| C p -1 |;然后在此数据集中,根据权重的相邻梯度获取候选模糊特征集;最后以第 p -1个滑动窗口中的优化模糊特征子集 与候选模糊特征集的交集作为当前滑动窗口的初始优化模糊特征子集,根据重要度获得第 p 个滑动窗口中的优化模糊特征子集.

算法2 . 在线模糊特征选择算法.

输入:前一个滑动窗口的聚类结果和当前滑动窗口的所有数据;

输出:优化模糊特征子集.

Step1. 构建 D p .当1≤ q ≤| C p -1 |时,利用第 p -1个滑动窗口中的| C p -1 |个聚类中心 和第 p 个滑动窗口中的所有数据组成 D p .

Step2. 获取候选模糊特征集

Step2.1. 输入输出互信息量的计算.根据第 p 个滑动窗口中的所有数据计算模糊输入特征 与输出特征 Y p 的输入输出互信息量

Step2.2. 根据输入输出互信息量计算各个模糊特征的权重,并根据权重从大到小排列模糊输入特征 依次计算排序后相邻权重的梯度.

Step2.3. 初始化候选模糊特征集

Step2.4. 确定候选模糊特征集 d ≥3时,如果 则选取排序后的模糊输入特征中的前 d 个特征作为候选模糊特征集

Step3. 初始第 p 个快照中优化模糊特征子集

Step4. 计算模糊特征 中的重要度:

(23)

Step5. 选择具有最大重要度的模糊特征.选择满足下面条件的属性:

(24)

Step6. 获取优化模糊特征子集 如果 H ( Fa p | 并且返回Step4;否则,直接输出

3 . 6 DFFS - VW算法计算复杂度分析

DFFS-VW算法的时间复杂度取决于模糊特征个数.假设 m 是所有模糊特征个数,DFFS-VW算法包括离线模糊特征选择和在线模糊特征选择.离线模糊特征选择初始化首先计算各个模糊特征的互信息量,所需要的计算量是 O ( m ),根据互信息量计算各个模糊特征的权重,所需要的计算量是 O ( m );然后根据权重从大到小对模糊特征进行排序,所需要的计算量是 O ( m ),依次计算排序后相邻模糊特征权重的梯度 其中 d ≥3,如果 大于截断点阈值,则选取排序后的模糊特征中的前 d 个特征作为候选模糊特征集 最坏情况下,候选模糊特征集 包含的模糊特征个数是 m ,获取候选模糊特征集 所需要的计算量是 O ( m ).最好情况下,候选模糊特征集 包含的模糊特征个数是3,因此,获取候选模糊特征集 所需要的计算量是 O (3),在此基础上,根据综合评价指标不断更新 直到综合评价指标 不再增加.最坏情况下, 所需要的更新次数是 m -3,所以得到最终的优化模糊特征子集所需要的计算量是 O ( m -3).综上所述,无论是最坏情况还是最好情况,该算法的复杂度是 O (4 m ),经化简算法的最终复杂度是 O ( m ).

在线模糊特征选择获取当前窗口的候选模糊特征集的过程与离线模糊特征选择的相似,最坏情况下所需要的时间复杂度是 O ( m + m + m + m );最好情况下所需要的时间复杂度是 O ( m + m + m +3),在此基础上,依次计算其余的模糊特征相对于候选模糊特征集的重要度,直到其重要度不大于0,获得最终的优化模糊特征子集,最坏情况下,所需要的计算复杂度数 O ( m -3).综上所述,该算法的复杂度是 O (4 m ),经化简算法的最终复杂度是 O ( m ).

4 实验结果

4 . 1 实验环境

本文将DFFS-VW算法与基于邻域粗糙集的动态特征选择算法(incremental feature selection based on fuzzy neighborhood rough set, IFSFNRS) [13] 、基于贝叶斯分类器的封装式动态特征选择算法(wrapper feature selection algorithm with incremental Bayesian classifier, WFSIBC) [11] 、动态无监督特征选择算法(online unsupervised multi-view feature selection, OMVFS) [20] 、改进的动态无监督特征选择(feature selection on data streams, FSDS) [20] 对比,选取1个人工合成数据集、UCI数据库中的10个数据集 [23] 、2个分类数据流 [24] 和2个回归数据流作为实验数据进行分析,以测试DFFS-VW算法在无需设置任何参数的情况下,算法执行效率、自适应和预测准确性方面均得到提高.对于所有数据,各个维度均进行输入特征模糊化处理,使得数据集中所有数据值均在[0,1]区间.所有实验都在Inter ® CPU 2.30 GHz工作台上运行,利用matlab 2014.a软件进行仿真.数据集的详细信息如表1所示:

Table 1 Description of Datasets
表1 数据集描述

Dataset#PatternDimensionalitySD20002BCH13724Glass2149Liver3416Wine17813Yeast14848SEA500003Weather181598AirfoilSelf⁃Noise15035Concrete_Data10308EnergyEfficiency7688RedWineQuality159911WhiteWineQuality489811BeijingPM2.5Data438006PPPTS457309

4 . 2 评价指标

本文采用2种评价指标对算法的动态特征选择效果进行评价:分类准确率( Acc )和平均绝对百分比误差( MAPE ).

(25)

其中, a k 代表第 k 个类别中算法的分类结果和实际数据集分类情况相一致的数据个数,| C |是类别个数, n 是数据集中包含的数据个数.

(26)

其中, y i 是第 i 个样本的实际目标值, 是第 i 个样本的模型预测值.

4 . 3 滑动窗口对特征选择结果的影响测试

为了分析滑动窗口大小对DFFS-VW算法模糊特征选择结果的影响,本文利用不同数据集形成大小各异的滑动窗口,以数据集70%作为训练集,30%作为测试集,分析比较模糊特征选择的性能.表2分别对比了CMAR(classification based on multiple association rules)分类器 [25] 、C4.5分类器 [26] 和DFFS-VW算法对不同大小滑动窗口的模糊特征选择结果的分类性能,其中CMAR中的最小支持度设置为10%,最小置信度为70%,C4.5选取信息增益最大的作为划分节点.从表2可以看出,本文所提方法自动确定窗口大小的分类性能优于人为定义窗口大小的分类性能.表3分别对比了BP神经网络 [27] 、支持向量回归(support vector regression, SVR) [28] 和DFFS-VW算法对不同大小滑动窗口的模糊特征选择结果的预测性能,其中BP神经网络有1层隐含层,隐含层中包含10个节点.SVR的核函数为径向基函数,不敏感系数为0.05,惩罚因子为10.从表3可以看出,本文所提出方法的预测结果优于人为定义窗口大小的预测结果.这是由于本文所提出的窗口大小确定方法根据Hoeffding边界考虑了数据的分布情况,提高了分割后的模糊数据的分类性能和预测性能.

Tabel 2 The Comparison of the Classification Accuracy ( Acc ) for CMAR C4 . 5 on Different Window Sizes
表2 不同窗口大小的CMAR C4 . 5分类性能 ( Acc ) 对比

DatasetTheSizeofWindow5%10%CMARC4.5CMARC4.5TheProposedMethodCMARC4.5SD0.8750.8810.8640.8750.9060.912BCH0.8830.8960.8740.8960.9470.958Glass0.9040.9120.8910.9010.9620.967Liver0.8920.8810.8740.8690.9520.948Wine0.9030.9210.8860.8970.9570.969Yeast0.9110.9160.8950.9030.9630.974SEA0.9210.9340.9040.9120.9830.989Weather0.8780.8960.8580.8690.9480.957Mean0.8960.9050.8810.8900.9520.959

Tabel 3 The Comparison of the Prediction Accuracy ( MEAP ) for BP SVR on Different Window Size
表3 不同窗口大小的BP SVR预测性能 ( MEAP ) 对比

DatasetTheSizeofWindow5%10%CMARC4.5CMARC4.5TheProposedMethodCMARC4.5AirfoilSelf⁃Noise0.1940.1850.1850.1760.1410.042Concrete_Data0.1490.1330.1370.1310.1160.053EnergyEfficiency0.2240.2160.2160.2440.1810.057RedWineQuality0.1740.1610.1680.1590.1240.053WhiteWineQuality0.1530.1420.1440.1360.1040.031BeijingPM2.5Data0.2540.2430.2410.2460.1730.026PPPTS0.2540.2490.2360.2190.1940.057Mean0.1970.1900.1900.1840.1480.043

4 . 4 特征选择效果测试

为了充分验证DFFS-VW算法的有效性,对比WFSIBC算法、IFSFNRS算法、OMVFS算法和FSDS算法在多个数据集下的特征选择效果.图2给出5种特征选择算法的模糊特征选择结果与原始模糊特征个数的对比结果.从图2可以看出,除数据集SD,经过5种动态特征选择算法后,所选模糊特征个数都比原始模糊特征个数少,算法DFFS-VW最为明显.DFFS-VW算法所选的模糊特征个数均比其余4种算法的少,这是因为DFFS-VW算法根据模糊权重获取候选模糊特征子集,同时考虑输入模糊特征与输出特征的互信息量与输入模糊特征之间的互信息量得到最优模糊特征子集,使得DFFS-VW算法的特征选择效果更加明显.

Fig. 2 Fuzzy features comparison of different agorithms on different datasets
图2 模糊特征个数对比

表4给出了CMAR分类器和C4.5分类器对原始模糊特征集和3种动态特征选择算法的所选模糊特征集的分类准确性的对比.从表4可以看出,除了SD数据集,DFFS-VW算法所选的模糊特征子集对于CMAR分类器的分类效果最好;经特征选择后,C4.5分类器对于各个数据集的分类准确率均得到了提高,其中DFFS-VW算法所选的模糊特征子集提高得最明显.

表5给出了BP神经网络和支持向量回归对原始模糊特征集和3种动态特征选择算法的所选模糊特征集的预测精确性的对比.从表5可以看出,除SD数据集外,BP神经网络对DFFS-VW算法所选的模糊特征子集的预测精确性最好;经模糊特征选择后,支持向量回归对于各个数据集的预测精确性均得到了提高,其中DFFS-VW算法所选的模糊特征子集提高得最明显.

Tabel 4 The Comparison of the Classification Accuracy ( Acc )
表4 CMAR C4 . 5分类性能 ( Acc ) 对比

DatasetOriginalWFSIBCIFSFNRSDFFS⁃VWCMARC4.5CMARC4.5CMARC4.5CMARC4.5SD0.9060.9120.9060.9120.9060.9120.9060.912BCH0.9210.9250.9400.9450.9360.9380.9470.958Glass0.9320.9060.9510.9580.9450.9490.9620.967Liver0.9160.8960.9320.9330.9280.9310.9520.948Wine0.9250.9130.9390.9360.9380.9320.9570.969Yeast0.9150.9240.9430.9460.9280.9350.9630.974SEA0.9230.9090.9560.9610.9440.9250.9830.989Weather0.9190.9180.9450.9430.9360.9280.9480.957Mean0.9200.9130.9390.9420.9330.9310.9520.959

Tabel 5 The Comparison of the Prediction Accuracy ( MEAP )
表5 BP SVR预测性能 ( MEAP ) 对比

DatasetOriginalOMVFSFSDSDFFS⁃VWCMARC4.5CMARC4.5CMARC4.5CMARC4.5AirfoilSelf⁃Noise0.2480.0750.1830.0550.2090.0620.1410.042Concrete_Data0.2240.0940.1940.0420.2170.0510.1160.033EnergyEfficiency0.2350.0960.2040.0650.2180.0720.1810.057RedWineQuality0.2320.1040.1810.0670.2050.0690.1240.052WhiteWineQuality0.2060.0870.1920.0640.1860.0680.1040.031BeijingPM2.5Data0.3110.0760.2540.0540.2640.0650.1730.026PPPTS0.3410.1060.2720.0740.2950.0860.1940.057Mean0.2570.0920.2110.0610.2280.0680.1480.043

如图3所示,本文采用不同的数据集对5种不同算法的运行时间进行了对比,可以看出,针对同一个数据集,DFFS-VW算法的运行时间最短.由于FSDS算法利用回归模型提高所选模糊子集的预测正确率,在回归模型寻参期间需要不断迭代,时间复杂度大约为 O ( n 3 );WFSIBC算法使用贪婪算法发现最优特征子集,而贪婪算法的时间复杂度是 O ( n log n ),当数据量较大时,算法复杂度也会大幅度地增加;IFSFNRS算法以粗糙邻域为基础,在最坏情况下,需要对整个数据集进行重新特征选择,时间复杂度不低于 O (log n 2 );OMVFS算法将特征选择嵌入到聚类算法中,使得时间复杂度近似为 O ( kn l nL | C |),其中 k 是迭代至收敛的平均迭代次数, n l 是属于第 l 个聚类的样本个数, L 是输入特征个数,| C |是聚类个数,由此可见OMVFS算法的时间复杂度也很大.DFFS-VW算法利用权重梯度选取候选模糊特征子集,减少了最优模糊特征子集的寻找范围,从而减少了算法的运行时间,时间复杂度为 O ( m ),其中 m 是模糊特征个数.其中,DFFS-VW算法对SD数据集的运行时间最长,对Wine数据集的运行时间最短.从图3可以得出,原始模糊特征个数越多,算法的运行时间越长.

Fig. 3 Comparision of the running time for feature selection with different algorithms on different datasets
图3 不同数据集上不同算法特征选择运行时间的比较

4 . 5 模糊特征变权分析

Fig. 4 The variable weight of some fuzzy features on the dataset SEA
图4 数据集SEA部分模糊特征变权

图4是数据集SEA部分模糊特征在不同滑动窗口中权重的变化,可以看出,滑动窗口 W 0 W 4 分别包括10 000条样本,随着滑动窗口中数据的不断变化,所选的模糊特征在不断地发生变化.其中,模糊特征 的权重在不断减少,在滑动窗口 W 0 中,模糊特征的权重达到了最小,对输出特征几乎没有影响;模糊特征 的权重在不断增加,在滑动窗口 W 4 中,模糊特征的权重达到了最大;模糊特征 的权重先减小后增大,滑动窗口 W 0 和滑动窗口 W 4 中模糊特征 的权重几乎相等.

Fig. 5 The effect on classification accuracy of ignoring some fuzzy features on dataset SEA
图5 数据集SEA忽略部分模糊特征前后分类准确率

Fig. 6 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS
图6 数据集PPPTS部分模糊特征权重的演化

为了分析权重变化对分类准确率的影响,以数据集SEA为例,滑动窗口 W 0 W 4 分别包括10 000条样本,按照 的顺序,依次将模糊输入特征从原始模糊输入特征集中忽略,对比忽略前后的分类准确率,结果如图5所示.其中,由于模糊输入特征 的权重在不断减少,所以输入特征 对分类准确性影响越来越小,在滑动窗口 W 0 中,忽略模糊特征前和忽略模糊特征后的分类准确率几乎相等;模糊特征 的权重在不断增加,模糊特征 对分类准确性影响越来越大,在滑动窗口 W 0 中,忽略模糊特征前和忽略模糊特征后的分类准确率相差最大;模糊特征 的权重先减小后增大,模糊特征 对分类准确率的影响先增大后减小.

Fig. 7 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS
图7 数据集PPPTS忽略部分模糊特征前后预测精确率对比

为了分析权重变化对预测精确性的影响,以数据集PPPTS为例,滑动窗口 W 0 W 7 分别包括6 000条样本,取其中的4个模糊输入特征 各个模糊输入特征的权重在不同滑动窗口的变化如图6所示.从图6中可以看出,随着数据的不断更新,模糊输入特征 的权重呈下降趋势,模糊输入特征 的权重呈上升趋势,模糊输入特征 的权重先上升后下降.依次将以上模糊输入特征从原始模糊输忽略,对比忽略前后的预测准确率,结果如图7所示.其中,由于模糊输入特征 的权重在不断减少,所以输入模糊特征 对预测精确率影响越来越小,在滑动窗口 W 7 中,忽略模糊特征前后的预测精确率几乎相等;模糊输入特征 的权重在不断增加,模糊特征 对预测精确率影响越来越大,忽略模糊特征前和忽略模糊特征后的预测精确率的差值在不断变大;模糊特征 的权重先增大后减小,模糊特征 对预测精确率的影响先减小后增大.

综上所述,DFFS-VW算法无需人为设置参数,能够自动得到最优模糊特征子集,具有良好的自适应性;利用互信息量计算特征之间的相关性,不仅考虑了特征之间的线性关系,还考虑了非线性关系,提高了特征选择结果的分类准确看和预测精确率;考虑各个模糊特征的权重,得到候选模糊特征子集,并采取后向搜索的方式得到离线模糊特征选择的优化模糊特征子集,减少了算法运行时间,提高了算法的效率;将当前窗口的候选模糊特征子集和历史模糊特征选择结果的交集作为当前窗口的初始优化模糊特征子集,根据模糊输入特征相对于初始优化模糊特征子集的重要度,获得最终的优化模糊特征子集.通过不同滑动窗口模糊特征权重的演化趋势,发现模糊输入特征对分类准确性或者预测精确性的影响.

5

本文研究动态模糊特征选择问题,无论是连续数据集,还是类别数据集,以输入特征相对与输出特征的权重作为衡量输入特征相对于输出特征之间的重要性,提出基于特征变权的动态模糊特征选择算法.在离线模糊特征选择中,首先根据特征权重,获取候选模糊特征子集.然后,结合后向特征选择方式和模糊特征筛选指标,筛选候选模糊特征子集得到优化模糊特征子集;在线模糊特征选择中,以上一个滑动窗口的优化模糊特征子集与当前滑动窗口中的候选模糊特征集的交集为基础,根据模糊输入特征在模糊特征子集中的重要度,获得当前窗口中的优化模糊特征子集.更进一步,我们分析了窗口之间模糊特征权重的变化,发现输入模糊特征的演化关系和模糊输入特征对分类准确性或者预测误差的影响.实验结果表明了本文所提动态模糊特征选择算法的有效性.但目前的滑动窗口实质上仍然是在离线采集数据的基础上反复学习获得的,本文未来将研究随着在线数据变化,自适应地确定滑动窗口大小,进一步提升动态模糊特征选择算法的性能.

参考文献

[1]Xiao Jin, Xiao Yi, Huang Anqiang, et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction[J]. Knowledge and Information Systems, 2015, 43(1): 29-51

[2]Zhang Xiangrong, He Yudi, Jiao Licheng, et al. Scaling cut criterion-based discriminant analysis for supervised dimension reduction[J]. Knowledge and Information Systems, 2015, 43(3): 633-655

[3]Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(3): 1157-1182

[4]Li Dan, Zhou Yuxun, Hu Guoqiang, et al. Optimal sensor configuration and feature selection for AHU fault detection and diagnosis[J]. IEEE Trans on Industrial Informatics, 2016, 13(3): 1369-1380

[5]Siwek K, Osowski S. Data mining methods for prediction of air pollution[J]. International Journal of Applied Mathematics and Computer Science, 2016, 26(2): 467-478

[6]Soguero-Ruiz C, Hindberg K, Rojo-Alvarez J, et al. Support vector feature selection for early detection of anastomosis leakage from bag-of-words in electronic health records[J]. IEEE Journal Biomedical Health Informatics, 2014, 20(5): 1404-1415

[7]Zhao Peilin, Steven C, Jin Rong. Double updating online learning[J]. Journal of Machine Learning Research, 2011, 12(may): 1587-1615

[8]Kohavi R, John G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997, 97(1/2): 273-324

[9]Zhou Yang, Jin Rong, Steven C. Exclusive lasso for multi-task feature selection[J]. Journal of Machine Learning Research, 2010, 9: 988-995

[10]Wang Jialei, Zhao Peilin, Steven C, et al. Online Feature selection and its applications[J]. IEEE Trans on Knowledge & Data Engineering, 2006, 26(3): 698-710

[11]Li Yang, Gu Xueping. Feature selection for transient stability assessment based on improved maximal relevance and minimal redundancy criterion[J]. Proceedings of the Chinese Society of Electrical Engineering, 2013, 33(34): 179-186 (in Chinese)

(李扬, 顾雪平. 基于改进最大相关最小冗余判据的暂态稳定评估特征选择[J]. 中国电机工程学报, 2013, 33(34): 179-186)

[12]Naqvi S S, Browne W N, Hollitt C. Feature quality-based dynamic feature selection for improving salient object detection[J]. IEEE Trans on Image Processing, 2016, 25(9): 4298-4313

[13]Zhao Wei, Wang Yafei, Li Dan. A dynamic feature selection method based on combination of GA with K-means[C] //Proc of the Int Conf on Industrial Mechatronics and Automation. Piscataway, NJ: IEEE, 2010: 271-274

[14]Raza M S, Qamar U. An incremental dependency calculation technique for feature selection using rough sets[J]. Information Sciences, 2016, 343(12): 41-65

[15]Bilal I S, Keshav P D, Alamgir M H, et al. Diversification of fuzzy association rules to improve prediction accuracy[C] //Proc of the Int Conf on Fuzzy System. Piscataway, NJ: IEEE, 2010: 1-8

[16]Jing Yuege, Li Tianrui, Luo Chuan, et al. An incremental approach for attribute reduction based on knowledge granularity[J]. Knowledge-Based Systems, 2016, 104(7): 24-38

[17]Shao Weixiang, He Lifang, Lu Chunta, et al. Online unsupervised multi-view feature selection[C] //Proc of the 16th Int Conf on Data Mining. Piscataway, NJ: IEEE, 2016: 1203-1208

[18]Huang H, Yoo S, Kasiviswanathan S P. Unsupervised feature selection on data streams[C] //Proc of the 24th ACM Int Conf on Information and Knowledge Management.newyork. New York, ACM, 2015: 1031-104

[19]Li Yun, Wu Zhongfu. Fuzzy feature selection based on min-max learning rule and extension matrix[J]. Pattern Recognition, 2008, 41(1): 217-226

[20]Lughofer E. On-line incremental feature weighting in evolving fuzzy classifiers[J]. Fuzzy Sets & Systems, 2011, 163(1): 1-23

[21]Du Lei, Song Qinbao, Jia Xiaolin. Detecting concept drift: An information entropy based method using an adaptive sliding window[J]. Intelligent Data Analysis, 2014, 18(3): 337-364

[22]Wang Ling, Meng Jianyao. The dynamic clustering algorithm of Bayesian adaptive resonance theory based on local distribution[J]. Control and Decision, 2018, 33(3): 471-478 (in Chinese)

(王玲, 孟建瑶. 基于局部分布的贝叶斯自适应共振理论增量聚类算法[J]. 控制与决策, 2018, 33(3): 471-478)

[23]Comas D S, Meschino G J, Nowe A, et al. Discovering knowledge from data clustering using automatically-defined interval type-2 fuzzy predicates[J]. Expert Systems with Applications, 2016, 68(2): 136-150

[24]Ghazikhani A, Monsefi R, Yazdi H S. Online neural network model for non-stationary and imbalanced data stream classification[J]. International Journal of Machine Learning and Cybernetics, 2014, 5(1): 51-62

[25]Li Wermin, Han Jiawei, Pei Jian. CMAR: Accurate and efficient classification based on multiple class-association Rules[C] //Proc of 2001 IEEE Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2001: 369-376

[26]Mu Yashuang, Liu Xiaodong, Yang Zhihao, et al. A parallel C4.5 decision tree algorithm based on MapReduce[J]. Concurrency and Computation, 2017, 29(6): 1-12

[27]Cui Yongfeng, Ma Xiangqian Li, Liu Zhijie. Application of improved BP neural network with correlation rules in network intrusion detection[J]. International Journal of Security and Its Applications, 2016, 10(4): 423-430

[28]Wang Lihuan, Guo Yonglong, Xin G. An asymmetric weighted SVR for construction final accounting prediction[J]. Journal of Information and Computional Science, 2014, 11(5): 1387-1394

Dynamic Fuzzy Features Selection Based on Variable Weight

Wang Ling and Meng Jianyao

( College of Automation and Electrical Engineering , University of Science and Technology Beijing , Beijing 100083) ( Key Laboratory of Knowledge Automation for Industrial Processes ( University of Science and Technology Beijing ), Ministry of Education , Beijing 100083)

Abstract In this paper, a new scheme for dynamic fuzzy feature selection based on variable weight is proposed to optimize the fuzzy feature subset with the important features dynamically. Firstly, the sliding window is adopted to divide the fuzzy dataset. In the first sliding window, the off-line fuzzy features selection algorithm is proposed to access the candidate fuzzy feature subset by calculating the weight of each fuzzy input feature according to the mutual information between the fuzzy input features and the output feature. Based on this, the optimal fuzzy feature subset are obtained by combining the backward feature selection method with the fuzzy feature selection index. With the new sliding window, the on-line fuzzy features selection algorithm is proposed, by integrating the optimal fuzzy feature selection result in the previous sliding window with the candidate fuzzy feature set in the current sliding window, the importance of the fuzzy input feature is calculated to obtain the optimal feature subset in the current window. Finally, the evolving relationship of the fuzzy input features is found with the fuzzy feature weights between the sliding windows. The simulation results show that the proposed algorithm has a significant improvement in the adaptability and prediction accuracy.

Key words dynamic; feature selection; fuzzy; mutual information; weight; silding window

针对大多数动态特征选择算法不能实时地根据特征重要性的变化动态优化模糊特征的问题,提出了基于特征变权的动态模糊特征选择算法.该算法利用滑动窗口分割模糊化后的数据,在第1个窗口中进行离线模糊特征选择,根据输入模糊特征与输出特征的互信息量,计算各个模糊输入特征的权重,获取候选模糊特征子集,并采取后向特征选择的方式和模糊特征筛选指标得到优化模糊特征子集;在随后的窗口中进行在线模糊特征选择,结合当前窗口的候选模糊特征子集和已有模糊特征选择结果,计算模糊输入特征的重要度,获得当前窗口中的优化模糊特征子集.通过计算窗口之间模糊特征权重的变化,发现输入模糊特征的演化关系.不同数据集的仿真结果表明,所提出算法在自适应性和预测准确性方面均有显著提高.

关键词 动态;特征选择;模糊;互信息量;权重;滑动窗口

中图法分类号 TP18; TP273

收稿日期 :2017-06-30;

修回日期: 2017-11-29

基金项目 :国家自然科学基金项目(61572073);中央高校基本科研业务费专项资金(FRF-BD-16-005A);北京市重点学科共建项目(XK100080537)

This work was supported by the National Natural Science Foundation of China (61572073), the Fundamental Research Funds for the Central Universities (FRF-BD-16-005A), and the Beijing Key Discipline Development Program (XK100080537).

DOI: 10.7544/issn1000-1239.2018.20170503

Wang Ling , born in 1974. PhD, associate professor. Her main research interests include data mining and machine learning.

Meng Jianyao , born in 1992. Master. Her main research interests include data mining (jianyaomeng@qq.com).