一种针对异常点的自适应回归特征选择方法

郭亚庆1 王文剑2 苏美红1

1(山西大学计算机与信息技术学院 太原 030006)2(计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006)

摘 要 数据集中含有不相关特征和冗余特征会使学习任务难度提高,特征选择可以有效解决该问题,从而提高学习效率和学习器性能.现有的特征选择方法大多针对分类问题,面向回归问题的较少,特别是当数据集含异常点时,现有方法对异常点敏感.虽然某些方法可以通过给样本损失函数加权来提高其稳健性,但是其权值一般都已预先设定好,且在特征选择和学习器训练过程中固定不变,因此方法的自适应性不强.针对上述问题,提出了一种针对异常点的回归特征选择方法(adaptive weight LASSO, AWLASSO),它首先根据回归系数更新样本误差,并通过自适应正则项将误差大于当前阈值的样本的损失函数赋予较小权重,误差小于阈值的样本的损失函数赋予较大权重,再在更新权重后的加权损失函数下重新估计回归系数,不断迭代上述过程.AWLASSO算法采用阈值来控制样本是否参与回归系数的估计,在阈值作用下,误差较小的样本才可参与估计,所以迭代完成后会获得较优的回归系数估计.另外,AWLASSO算法的阈值不是固定不变的,而是不断增大的(为使初始回归系数估计值较准确,其初始值较小),这样误判为异常点的样本可以重新进入训练集,并保证训练集含有足够的样本.对于误差大于最大阈值的样本点,由于其学习代价较大,算法将其识别为异常点,令其损失函数权重为0,从而有效降低了异常点的影响.在构造数据和标准数据上的实验结果表明:对于含有异常点的数据集,提出的方法比经典方法具有更好的稳健性和稀疏性.

关键词 特征选择;回归;异常点;稳健;自适应正则项

一些实际学习任务的数据集中常含有大量不相关特征和冗余特征,特征数目巨大,如基因组分析、文本分类和图像检索等,故会导致维数灾难和学习任务难度提高等问题,以至于学习效果不好或学得模型可解释性差.此外,观测某些特征代价昂贵,若这些特征为无关特征,则会造成大量不必要开销.解决上述问题的一种有效途径是特征选择.特征选择是将可以代表整体的含有关键性度量信息的部分特征挑选出来的过程,它使得后续学习过程仅需在一部分特征上构建模型[1-2].另外,现有针对回归问题的特征选择方法,当数据集含异常点时,对其敏感或自适应能力不佳,导致特征选择和学习效果较差.故如何自适应地进行稳健回归特征选择仍然是一个挑战性的课题.

针对分类问题的特征选择方法已有很多,常用的方法可分为2类:一类为过滤式(如Relief(relevant features)、mRMR(max-relevancy, min-redundancy)和Relief-F等);另一类为包裹式(如LVM(Las Vegas wrapper)、SFFS(sequential floating forward selection)、SFS(sequential feature selection)和LRS(Plus-L-Minus-R search)等)[3-6].这些方法都是先对数据集进行特征选择,再训练学习器,其中过滤式方法特征选择过程与后续学习器无关,导致最终学习器性能不好;包裹式方法虽然在选择特征时考虑了学习器性能,但因为多次训练学习器造成了大量时间开销.

上述面向分类的特征选择方法往往不能直接用于回归问题或应用后效果不好.目前针对回归问题的特征选择方法较少,其代表性方法分为两大类:

1) 先对数据集进行特征选择,然后再训练学习器,如向前选择法(forward-stepwise selection)、向后剔除法(backward-stepwise selection)和逐步筛选法(forward-stagewise regression)等,这些方法不仅具有分类特征选择方法的某些缺点,还不适用于特征数目巨大和有相关特征的数据集,适用范围较小,故并不常用[7].

2) 将特征选择过程与学习器训练过程融为一体同时完成,提高了最终学习器的性能,降低了开销,其典型方法有LASSO[8]、LAD-LASSO(least absolute deviation)[9]、L1/2正则化[10]、岭回归(ridge regression)[11]、Elastic Net[12]、Group Lasso[13]、SCAD(smoothly clipped absolute deviation)[14]和MCP(minimax concave penalty) [15]等.其中岭回归因使用L2正则项而不易于获得稀疏解;L1/2正则化的实现算法效率较低;Elastic Net适用于特征之间相关性较高的数据集;Group Lasso适用于协变量之间存在组结构的回归数据集;SCAD和MCP虽然降低了LASSO的泛化误差,但正则项复杂,较难求解,故LASSO和LAD-LASSO这2种方法更为常用.LASSO可以较为准确地完成特征选择,并且计算快捷,故被广泛使用.

上述回归特征选择方法对异常点(数据集中与数据的一般行为或模型不一致的数据对象)极其敏感,导致对于含有异常点的数据集,其稳健性和稀疏性都有所下降.目前提出的稳健回归特征选择方法不多且大多针对含有噪声的数据集,如分位数回归及其改进方法[16-18]和LAD-LASSO等,其中分位数回归及其改进方法模型复杂.针对异常点的稳健回归估计方法有WLAD(weight least absolute deviation)[19]和LTS(least trimmed squares estimator)[20]等,在其基础上WLAD-LASSO [19],LTS-LASSO[20],reweighted LTS-LASSO[20],WLAD-CATREG(categorical regres-sion model) adoptive elastic net[21]和WLAD-SCAD[22]等被相继提出,这些方法增加了易于获得稀疏解的正则项,可以同时完成特征选择和学习器训练.其中LTS-LASSO通过将训练误差较小的数据集子集作为训练集来降低异常点影响,但其时间开销较大;其余针对异常点的回归特征选择方法通过给损失函数加权来提高其稳健性,其中reweighted LTS-LASSO将LTS-LASSO求得的回归系数作为参数初值,WLAD-LASSO,WLAD-CATREG和WLAD-SCAD根据数据集稳健位置估计量、数据集散点估计量和各样本的稳健距离得样本权重,上述通过加权来提高稳健性的回归特征选择方法都是先计算好样本损失函数权重,再进行特征选择和学习器训练,样本权重在整个算法执行过程中固定不变,故它们无法在特征选择和学习器训练过程中根据学习效果多次自主修改权重来进一步提高算法性能,算法自适应能力不佳.此外,针对现有回归特征选择方法当数据集含异常点时性能较差这一固有问题,近年来并没有很好的研究成果.

鉴于此,本文提出一种能不断根据数据集和学习效果自主更新样本权重的用于线性回归的稳健特征选择方法AWLASSO(adaptive weight LASSO),其使用在[0,1]中连续变化的自适应权重以更好地提高自适应性.该方法将特征选择与学习器训练过程融为一体同时完成,以提高学习器性能和降低模型复杂度.AWLASSO算法通过阈值确定样本的损失函数权重;一方面可以使迭代过程总朝着较好的回归系数估计值方向进行;另一方面能保证训练集含有足够的样本,同时可以排除异常点的影响.本文在构造数据和标准数据上验证了提出方法的有效性.

1 预备知识

为便于理解本文提出方法及与LASSO和LAD-LASSO进行比较,本节简要介绍LASSO和LAD-LASSO.

给定数据集其中xi∈Rpyi∈R.考虑线性回归模型y=xTβ,其中回归变量y∈R,预测变量x∈Rp,回归系数β=(β1,β2,…,βp)T∈Rp.估计线性回归模型系数广泛使用最小二乘法,它在求解优化目标时需要对XTX求逆,其中X为特征矩阵,然而事实上大多数XTX不一定可逆.此外,当样本特征很多,样本数较少时,该优化目标易陷入过拟合.LASSO方法可以解决上述问题,它以平方误差为损失函数,增加了一个L1范数的正则化项,其优化目标为

(1)

其中,正则化参数λ>0.求解LASSO的方法有Homotopy[23]、LARS(Least Angle RegresSion)[24]、坐标下降法[25-26]等.

与LASSO方法相比,LAD-LASSO方法以绝对值误差为损失函数,其优化目标为

(2)

将其转化成线性规划问题即可求解[27].

2 针对异常点的自适应回归特征选择方法

2.1 AWLASSO模型

对于不含异常点的数据集,LASSO和LAD-LASSO方法都具有良好的性能,然而对于含有异常点的数据集,这2种方法没有区别对待异常点,可能使得回归系数估计值与真实回归系数相差较大,导致特征选择和学习器训练效果不好.此外,LASSO使用平方误差作为损失函数,相比LAD-LASSO以绝对值误差为损失函数,可能会使异常点的影响被放大,故其稳健性和稀疏性被破坏更为严重.

本文提出的AWLASSO首先根据更新后的回归系数更新样本误差,并通过自适应正则项将误差大于当前阈值的样本的损失函数赋予较小权重,误差小于阈值的样本的损失函数赋予较大权重,再在更新了权重的加权损失函数下重新估计回归系数.通过不断迭代上述过程,它每次在较优样本权重估计值下完成回归系数估计,在较优回归系数估计值下完成样本权重估计.多次自主修正权重后其在合适的加权损失函数下完成特征选择和学习器训练.本文在第1次迭代时随机挑选部分样本作为训练集,该训练集可能含有异常点,故为防止异常点进入下一次迭代,在下一轮迭代中得到较好的回归系数估计值,AWLASSO阈值初始值取较小值.在上述迭代过程中,阈值不断增大,被误判为异常点的样本有机会重新进入训练集,以保证训练集含有足够的样本和保留多种样本信息.相比阈值由大到小进行迭代,上述阈值选取方式,大量异常点进入训练集的可能性较小,不会出现即使减小阈值,由于各样本误差累积,仍无法对样本损失函数准确赋权重,最终得到偏差较大的回归系数估计值的情况.AWLASSO当达到最大阈值时迭代停止,此时它将误差大于最大阈值,即学习代价较大,会严重影响学习效果的样本视作异常点,令其损失函数权重为0,以降低异常点的影响.

AWLASSO具体模型为


(3)

该模型前2项与LASSO模型相似,但第1项增加了加权向量其中v=(v1,v2,…,vn)T是自适应权重向量,其各分量为自适应权重.模型第3项f(v,k)为自适应正则项,其中k为自适应正则化参数.AWLASSO模型也是通过L1范数的正则项来较为准确地完成特征选择,其特征选择过程与学习器训练过程融为一体同时完成.AWLASSO算法主要包括更新样本权重和更新回归系数这2个阶段.

1) 更新样本权重.首先根据当前的回归系数估计值更新各样本误差,然后更新自适应正则化参数,最后利用更新后的各参数和自适应正则项更新样本权重,此时,误差大于当前阈值的样本的损失函数被赋予较小权重,误差小于阈值的样本的损失函数被赋予较大权重,并利用更新后的权重修正加权损失函数.

2) 更新回归系数.求解更新后的目标函数,即完成特征选择和学习器训练,并反馈回归系数估计值.

AWLASSO算法多次迭代上述2个阶段,不断根据数据集和学习效果自主更新样本权重.在上述迭代过程中,阈值不断增大,当达到最大阈值时迭代停止,此时AWLASSO将误差大于最大阈值的样本视作异常点,令其损失函数权重为0,以降低异常点的影响,提高算法性能.其在处理异常点时,不仅不需要较好地回归系数参数初值,也不只依赖数据集,算法具有较好的自适应能力.

2.2 样本权重确定

权重是反映样本误差大小的一项指标,一般取[0,1]之间的数,其自适应正则项为参数k在算法执行过程中不断减小,以使阈值不断增大.在线性回归模型中,当β固定时,可得自适应向量各分量为

(4)

其中,为阈值.当时,即样本误差小于阈值时,样本损失函数权重为1;当时,即样本误差大于阈值时,样本损失函数权重为0.该自适应正则项认为权重为0的样本不包含任何有用信息,故采用它后,在特征选择和学习器训练过程中只考虑权重为1的样本.但在算法迭代过程中,由于尚未得到最优回归系数,根据当前回归系数估计值对样本的判断不一定准确,即某些含有有用信息的样本可能被误判为异常点,在训练学习器时,仍需考虑这些样本.故采用0-1权重不能充分利用样本信息,特征选择和学习器训练效果不是很好.因此本文选用在区间[0,1]中连续变化的权重,认为样本误差大于当前阈值的某些样本仍然含有较少的信息,赋予其损失函数大于0、小于1的权重.

文献[28]对连续变化的自适应权重进行了研究,并从理论和实验2方面验证了其有效性.本文选用该文提出的自适应正则项:其中参数k在AWLASSO算法执行过程中不断减小,参数γ>0控制样本权重取值力度.该正则项增加了大于0、小于1的权重,能更精确地给各样本的损失函数赋权重.引入它的AWLASSO模型可被优化,在其作用下,误差大于当前阈值样本的损失函数被赋予较小权重,误差小于阈值样本的损失函数被赋予较大权重.此外,不断减小该正则项的自适应参数k,阈值不断增大,被误判为异常点的样本重新进入训练集以保证训练集含有足够的样本[28-29].

通过优化

可得自适应向量各分量为

(5)

2.3 模型求解

本文使用交替迭代方法求解AWLASSO模型,每次迭代先固定vβ,再固定βv,直到获得较为满意的结果为止.固定vβ时,AWLASSO的优化目标为

(6)

与常规的LASSO相同,本文也选用坐标下降法[25]求解该优化目标,即:



βj求导得:


时,有:


λ sign(βj).

则:

(7)

其中,βj∈[0,z)或(z,0],且当z≠0时βjλ有关,当λ值较大时,βj有可能成为0.

在下次迭代过程中,通过式(5)更新v.

2.4 算法描述

求解AWLASSO的主要步骤如算法1所示.

算法1. AWLASSO模型求解算法.

输入:训练集X∈Rn×pY∈Rn、自适应参数初始值k0、自适应参数终止值kend、正则化参数λ,且k0>kend,μ>1;

输出:回归系数β.

Step1. 初始化自适应向量v为一个固定值(一般随机令v一半分量为0,另一半分量为1),自适应参数k=k0

Step2. 当自适应参数k>kend时,循环执行以下步骤:

Step2.1. 更新回归系数β

Step2.2. 更新样本误差

Step2.3. 将各参数带入式(5),更新v

AWLASSO算法的执行时间主要由Step2决定,由于每更新1次的值,坐标下降法时间复杂度为O(n),假设每次执行坐标下降法时最多需要更新a并且执行了坐标下降法b次,则AWLASSO算法的时间复杂度仍为O(n).

3 实验结果及分析

3.1 数据集及评价指标

为验证本文提出方法AWLASSO的有效性,分别在2个构造数据集和4个标准数据集上进行实验,并与LASSO和LAD-LASSO进行对比.

对于给定的数据集,一般无法知道其中是否包含异常点,为验证算法,采用文献[19]中的方法来构造含异常点的数据集,该方法通过污染率θ随机选定一定数量的数据改变其分布,改变后的数据被称为异常点,被污染数据数量为m=n×θ.对于构造数据集,由多维正态分布Np(0,Σ)生成其中βtrue=(1,2.5,1.5,2,0,0,0,0)Tβtrue是真实回归系数,使预测变量上可能含有异常值.然后生成m个被污染数据:它们服从多维正态分布其中μ0≠0,βfalseβtrueβfalse是干扰回归系数.本文按照ε服从不同分布得到不同的构造数据集,实验中构造的2个数据集如表1所示,标准数据集[30]如表2所示.

Table 1 Artificial Datasets
表1 构造数据集

Artificial Datasetsε Distribution#SamplesD1t(5)100D2N(0,1)200

Table 2 Benchmark Datasets
表2 标准数据集

Benchmark Datasets#Samples#FeaturesEunite200136715Triazines18659Housing50612Mpg3926

Fig. 1 Feature selection results on D1
图1 在D1数据集上的特征选择结果

实验中AWLASSO方法的参数γ=0.4,μ=1.2,k初始值为2.5,终止值为0.000 1.在构造数据集上,实验重复进行100次,取平均值作为最终结果.

本文用平均平方误差(MSE)作为评价算法稳健性的性能指标,用MSE1表示回归系数估计值β*βtrue的差别,即:

(8)

MSE2表示回归系数估计值β*βfalse的差别,即:

(9)

其中,w表示实验重复次数,表示第t次实验得到的回归系数估计值.用MSE3表示使用回归系数估值求得的Yt与真实Y之间的差别,即:

(10)

其中,w表示实验重复次数,Yt表示第t次实验得到的回归向量预测值.如果某种方法的MSE1较小且MSE2较大或MSE3较小,说明该方法估计出的回归系数与真实回归系数相差较小,与干扰回归系数相差较大,其稳健性较好,反之稳健性较差.同时本文用无关特征选择正确个数的平均表现来评估这3种方法的稀疏性,其值越接近真实回归系数含0总数,对应方法稀疏性越好,反之则越差.

所有实验用MATLABR2014a实现.实验环境为4 GB内存,Intel® CoreTM2 Quad处理器,2.66 GHz,Windows10操作系统.

3.2 构造数据集上的实验结果

3.2.1 特征选择结果

首先比较LASSO,LAD-LASSO和AWLASSO这3种方法特征选择的结果.由于这3种方法在构造数据集D1和D2上特征选择结果基本一致,故本文只给出构造数据集D1上的实验结果.图1为构造数据集D1上的特征选择结果,图1(a)是选出无关特征的个数的平均结果,图1(b)给出了无关特征选择正确个数的平均结果与选出无关特征的个数的平均结果的比例r.在D1数据集上,真实回归系数有4个分量为0,即有4个无关特征,故在图1(a)中选出无关特征的个数的平均结果越接近4,对应方法特征选择效果越好.由于LASSO在各污染率下无关特征选择正确个数的平均结果和选出无关特征的个数的平均结果皆为0,且LAD-LASSO和AWLASSO在各污染率下当λ>25时,得到的回归系数估计值各分量皆为0或极小的数,方法失效,故未在图1中给出上述实验特征选择结果.从图1(a)中可以看出,在不同污染率下,LASSO和LAD-LASSO在不同λ值下选出无关特征的个数的平均结果都接近于0,严重偏离4;AWLASSO当λ取值较小时接近于4.由于LAD-LASSO并未完成特征选择,图1(b)只给出AWLASSO方法的rr值应介于0到1之间.由图1(b)可知AWLASSO方法当选出无关特征的个数的平均结果接近于4时其r都接近于1,即它正确选出了无关特征,特征选择结果较好,但它对参数λ较为敏感,当λ值增大到一定程度后,其得到的回归系数估计值各分量都为0,r=1/2,无法完成特征选择.

3.2.2 稳健性比较

本文还比较了3种方法的稳健性.由于这3种方法在构造数据集D1和D2上实验结果基本一致,故本文只给出构造数据集D2上的实验结果.图2是构造数据集D2在不同污染率下MSE1MSE2的比较结果,其中不含空心圆的曲线表示各方法的MSE1,含空心圆的曲线表示各方法的MSE2.从图2中可以看出,在不同污染率下,无论是MSE1还是MSE2,LASSO方法都较大,说明其对含有异常点的数据处理能力较差.对于MSE1,AWLASSO方法在一定的λ值之下,都小于LAD-LASSO,当λ值继续增大时,LAD-LASSO的MSE1才减小至与AWLASSO的相同.对于MSE2,在绝大多数情况下AWLASSO要高于LAD-LASSO,当λ大于一定值之后,2种方法的MSE2才相同.实验结果表明,AWLASSO方法估计出的回归系数都与回归系数真实值相差较小(MSE1较小),与干扰回归系数相差较大(MSE2较大),它不会像LAD-LASSO方法那样受干扰回归系数的影响,故AWLASSO方法的稳健性更好.

Fig. 2 Comparisons of MSE1 and MSE2 on D2
图2 3种方法在D2数据集上的MSE1MSE2比较结果

为了更好地说明AWLASSO方法与LAD-LASSO方法的稳健性,通过对比图2各分图可得它们在构造数据集D2上污染率取不同值时MSE1的比较结果.从中可以看出,当其他参数取值相同时,LAD-LASSO方法对应的MSE1随着污染率的增大而显著增大,AWLASSO方法对应的MSE1并没有随着污染率的增大而显著增大,而是一直处于某一值附近,其性能不会随着数据集中被污染数据的增加而显著变差,即AWLASSO方法相比LAD-LASSO方法更稳健.

在构造数据集上的所有实验结果表明:无论数据分布如何,异常点分布如何,AWLASSO都比LASSO和LAD-LASSO更稳健更稀疏.

3.3 标准数据集上的实验结果

对于标准数据集,选23的数据作为训练集,剩余部分作为测试集.令SE3表示在测试集上利用训练集的回归系数估计值求得的Y与真实Y之间的平方误差,以此来判断方法的稳健性.实验结果如表3所示,该表中“0”表示某方法在对应参数组合下选出0个无关特征.

Table 3 Experiment Results of Three Methods on Benchmark Datasets
表3 3种方法在标准数据集上的实验结果

λDatasetsLASSOLAD-LASSOAWLASSOIrrelevant FeaturesSE3 ↓Irrelevant FeaturesSE3 ↓Irrelevant FeaturesSE3↓1020304050607080Eunite20012(7,9)1.3435e+1522(7,9)0.84382(7,9)2.8829e+152Housing03.1012e+126020.436512149.9887Mpg02.6395e+67012.174105.0662e+61Triazines2(42,43)Inf5(37,38,42,43,53)1.34292(42,43)InfEunite20012(7,9)4.2613e+1512(7,9)0.94111560.4292Housing02.0405e+126021.935603.0059e+108Mpg06.1209e+65016.737202.8652e+58Triazines2(42,43)Inf3(20,42,43)1.34295917.5200Eunite20012(7,9)8.3136e+1502(7,9)0.95012(7,9)8.7994e+151Housing01.2173e+126023.724309.2335e+107Mpg1(4)33.9041019.23534(2~5)23.2538Triazines2(42,43)Inf5(24,26,37,42,43)1.342958(1~7,9~59)11.5339Eunite20012(7,9)1.5251e+1492(7,9)0.93901560.4292Housing06.1109e+125023.634407.0974e+106Mpg2(4,5)20.4815024.55724(2~5)30.4587Triazines2(42,43)Inf2(42,43)1.342958(1~7,9~59)16.2348Eunite20012(7,9)7.5285e+1482(7,9)0.94282(7,9)1.4692e+151Housing02.2762e+125023.519804.5222e+99Mpg4(2~5)33.2848021.71735(2~6)40.9731Triazines2(42,43)4.8160e+30710(2,3,22~24,37,38,42,43,55)3.67345917.5200Eunite20012(7,9)2.6272e+1452(7,9)1.26042(7,9)2.2272e+150Housing05.8648e+124023.25918(2,4~6,8~10,12)31.2877Mpg4(2~5)39.9588023.46985(2~6)52.7520Triazines5917.52004(11,37,42,43)3.67345917.5200Eunite20012(7,9)1.1880e+14900.95049(1~9)41.7743Housing08.0709e+1231(7)23.784612149.9887Mpg4(2~5)47.6829023.46985(2~6)62.1215Triazines5917.52005(3,17,20,42,43)8.87175917.5200Eunite20012(7,9)3.7001e+1452(7,9)1.11312(7,9)3.7001e+145Housing04.4582e+122024.93719(2,4~10,12)32.5976Mpg5(2~6)55.3897024.5529665.1200Triazines5917.520010(4,6,10,23,30,37,38,42,43,48)8.87175917.5200

Note: “↓” represents the most robust method is the one having the lowest SE3.

1) 原始数据集上的实验结果

由表3知,LASSO在上述标准数据集上的32个回归系数估计值中有10个不含无关特征,LAD-LASSO的有16个不含无关特征,AWLASSO的有6个不含无关特征.AWLASSO在Eunite2001数据集上,当λ=70时,选出了9个无关特征;在Housing数据集上,当λ=80时,选出了9个无关特征;在Mpg数据集上,当λ=50时,选出了5个无关特征;在Tiazines据集上,当λ=30时,选出了58个无关特征,即其在各数据集上选出无关特征最多,且没有将所有特征视作无关特征.在各数据集上,AWLASSO方法对参数λ较为敏感,它只在某些λ值下特征选择效果好,学习器训练效果中等;LAD-LASSO方法在各λ值下学习器训练效果都好,但特征选择效果都不好;LASSO方法在数据集Eunite2001,Housing和Triazines上,特征选择和学习器训练效果都不好,但在数据集MPG上,当参数λ取某些值时,其特征选择和学习器训练效果较好.

由于LASSO方法整体表现不稳定,所以后边实验只比较了LAD-LASSO和AWLASSO方法的性能.表4给出了这2种方法在各自较优参数范围内的实验结果比较,“0”表示在较优参数范围内求得的各回归系数估计值无重叠无关特征.由表4知,当参数λ在较优参数范围内时,LAD-LASSO方法在4个数据集上都没有重叠无关特征,它在各较优参数λ下只有少数回归系数估计值含有少量0分量,其选出的无关特征较少.AWLASSO在所有的数据集上都有大量重叠无关特征,其在较优参数范围内得到的各回归系数都含大量的0分量,它选出了大量无关特征且不会将所有特征视作无关特征.AWLASSO方法的最小SE3和最大SE3要稍大于LAD-LASSO方法的.故在标准数据集上AWLASSO没有LAD-LASSO稳健,但比LAD-LASSO稀疏.

2) 含异常点数据集上的实验结果

由于上述标准数据集是否含异常点未知,所以为了验证本文提出方法的有效性,本文在训练集上增加了一些异常点.首先从训练集中随机选取m个数据,其特征矩阵为X2,再通过生成异常点,其中为干扰回归系数,对于剩下的n-m个数据,在其回归变量上增加偏移量εiε服从t(3)分布.由于在标准数据集上,AWLASSO方法对参数敏感而LAD-LASSO在各λ值下学习器训练效果都好且优于AWLASSO,故在AWLASSO较优参数λ下比较两者MSE3和多次重复实验的重叠无关特征.本文在各污染率θ下实验重复进行50次,实验结果如表5和图3所示.在表5中“0”表示50次重复实验求得的各回归系数估计值无重叠无关特征.

Table 4 Experiment Results with Fitted Parameter λ on Benchmark Datasets
表4 较优参数λ下的标准数据集实验结果

DatasetsλMethodsIrrelevant FeaturesMin SE3∕Max SE3Eunite2001[71,74.1]Housing[63,66.35]MPG[21.53,27]Triazines[23.7,25.57]LAD-LASSO00.5395∕3.5913AWLASSO9(1~9)22.0186∕36.3562LAD-LASSO023.0775∕24.6851AWLASSO8(2,4~6,8~10,12)23.8427∕26.7850LAD-LASSO015.5883∕18.6142AWLASSO4(2~5)20.1550∕22.0695LAD-LASSO01.2319∕3.2475AWLASSO57(1~5,7,9~59)8.6841∕9.7916

由表5可知,在上述标准数据集上,LAD-LASSO在各θ下的50个回归系数估计值都没有重叠无关特征.它在各数据集上所有参数组合下的200个回归系数估计值,在Eunite2001上有174个不含无关特征,有26个有无关特征但无重叠无关特征;在Housing数据集上有193个不含无关特征,有7个有无关特征但无重叠无关特征;在Triazines数据集上有75个不含无关特征,有125个有无关特征但无重叠无关特征;在MPG数据集上有197个不含无关特征,有3个有无关特征但无重叠无关特征.而AWLASSO只在MPG数据集上当污染率θ=0.5时没有重叠无关特征,剩余情况下,其皆有大量重叠无关特征,而且它重叠无关特征数小于数据集特征总数,即AWLASSO没有将所有特征视作无关特征.

Table 5 Feature Selection Results on Benchmark Datasets with Outliers
表5 含异常点的标准数据集特征选择结果

Datasets(λ)Methodsθ=0.2θ=0.3θ=0.4θ=0.5Eunite2001(74)Housing(66)MPG(22)Triazines(24)LAD-LASSO0000AWLASSO15(1~15)9(1~9)9(1~9)9(1~9)LAD-LASSO0000AWLASSO10(2,4~12)10(2,4~12)10(2,4~12)10(2,4~12)LAD-LASSO0000AWLASSO2(4,6)1(6)1(6)0LAD-LASSO0000AWLASSO27(1,2,4,7,10,20~25,30~35,37~40,42,43,48~51,57,58)30(1~3,7,10,11,20,21,27,29~35,37~40,42,43,47,48,50,51,56~59)58(1~7,9~59)58(1~7,9~59)

Fig. 3 Comparisons of MSE3 on benchmark datasets with outliers
图3 含异常点的标准数据集上MSE3的比较结果

由图3可知当异常点含量为20%时,AWLASSO方法只在MPG数据集上MSE3比LAD-LASSO的小,但在Triazines数据集上两者MSE3相差不大.当异常点含量为30%~50%时,AWLASSO方法的MSE3要比LAD-LASSO的小很多,且它不会像LAD-LASSO那样其MSE3随着污染率的增大而显著增大.在标准数据集上的实验结果表明当数据集含异常点时,AWLASSO方法的特征选择能力更强、稳健性更好.

3.4 高维数据集上的实验结果

为验证AWLASSO方法在特征数量较多的数据集上的性能,本文构造高维数据集D3和D4,其构造方法与构造数据集的构造方法相同.高维数据集的真实回归系数βtrue=(1,2.5,1.5,2,0,…,0)T,数据集如表6所示:

Table 6 High Dimensional Datasets
表6 高维数据集

Datasetsε Distribution#Samples#FeaturesD3t(5)200100D4N(0,1)200500

高维数据集上LASSO,LAD-LASSO和AWL-ASSO这3种方法特征选择的结果如图4所示.由于LASSO未完成特征选择,故在图中未给出其结果.由图4(a)(b)可知,当λ取合适值时,LAD-LASSO几乎没有选出无关特征,AWLASSO在D3和D4数据集上选出无关特征数目的均值接近于数据集所含无关特征总数,且它正确选出了无关特征.

图5和图6分别是3种模型在不同污染率下MSE1MSE2的比较结果.从图5和图6中可以看出,在不同污染率下,相比LASSO和LAD-LASSO,绝大多数情况下AWLASSO方法MSE1都较小,MSE2都较大,且其对应的MSE1并没有随着污染率的增大而显著增大.高维数据集上的实验结果表明,当数据集含大量特征时,AWLASSO方法仍有较好的稳健性和特征选择能力.

Fig. 4 Feature selection results on high dimensional data sets
图4 在高维数据集上的特征选择结果

Fig. 5 Comparisons of MSE1 and MSE2 on D3
图5 3种方法在D3数据集上的MSE1MSE2比较结果

Fig. 6 Comparisons of MSE1 and MSE2 on D4
图6 3种方法在D4数据集上的MSE1MSE2比较结果

4 结 语

目前针对回归问题的特征选择方法研究较少,特别地,当数据集含有异常点时,现有的特征选择方法几乎都不能很好地选出有效特征.本文提出的面向异常点的稳健回归特征选择方法AWLASSO,通过自适应正则项自主更新损失函数权重,进而迭代估计回归系数.AWLASSO的迭代过程总是朝着较好的回归系数估计值方向进行,在迭代后期其训练集含有足够的样本,因而其获得了较好的实验结果.此外算法可以排除异常点的影响,故其能较好地同时完成特征选择和学习器训练.与经典的LASSO和LAD-LASSO相比,本文提出方法更稳健、更稀疏,即使异常点含量较多该方法依然有效.然而该方法中的正则参数λ对方法性能有一定影响,如何进一步提高方法的稳健性是我们未来的研究工作.

参考文献

[1]Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(6): 1157-1182

[2]Liu Huan, Motoda H, Setiono R, et al. Feature selection: An ever evolving frontier in data mining[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 19(2): 153-158

[3]Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016: 249-254 (in Chinese)(周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 249-254)

[4]Reunanen J. Overfitting in making comparisons between variable delection methods[J]. Journal of Machine Learning Research, 2003, 3(3): 1371-1382

[5]Nakariyakul S, Casasent D P. An improvement on floating search algorithms for feature subset selection[J]. Pattern Recognition, 2009, 42(9): 1932-1940

[6]Peng Hanchuan, Long Fuhui, Ding C. Feature selection based on mutual information: Criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238

[7]Hastie T. The Element of Statistical Learning: Data Mining, Inference, and Prediction[M]. Berlin: Springer, 2009: 55-75

[8]Tibshirani R. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society, 1996, 58(1): 267-288

[9]Wang Lei. The L1 penalized LAD estimator for high dimensional linear regression[J]. Journal of Multivariate Analysis, 2013, 120(9): 135-151

[10]Zhang Hai, Wang Yao, Chang Xiangyu, et al. L1/2 regularization[J]. Science China Information Sciences, 2010, 40(3): 412-422 (in Chinese)(张海, 王尧, 常象宇, 等. L1/2正则化[J]. 中国科学: 信息科学, 2010, 40(3): 412-422)

[11]Hoerl A, Kennard R. Encyclopedia of Statistical Sciences[M]. New York: Wiley-Interscience, 1998: 129-136

[12]Zou Hui, Hastie T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society, 2005, 67(2): 301-320

[13]Yuan Ming, Lin Yi. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society, 2006, 68(1): 49-67

[14]Fan Jianqi, Li Runze. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Publications of the American Statistical Association, 2001, 96(456): 1348-1360

[15]Zhang Cunhui. Nearly unbiased variable selection under minimax concave penalty[J]. Annals of Statistics, 2010, 38(2): 894-942

[16]Li Youjuan, Zhu Ji. L1-norm quantile regression[J]. Journal of Computational & Graphical Statistics, 2008, 17(1): 163-185

[17]Belloni A, Chernozhukov V. -penalized quantile regression in high-dimensional sparse models[J]. Annals of Statistics, 2011, 39(1): 82-130

[18]Fan Jianqing, Fan Yingying, Barut E. Adaptive robust variable selection[J]. Annals of Statistics, 2014, 42(1): 324-351

[19]Arslan O. Weighted LAD-LASSO method for robust parameter estimation and variable selection in regression[J]. Computational Statistics and Data Analysis, 2012, 56(6): 1952-1965

[20]Alfons A, Gelper S. Sparse least trimmed squares regression for analyzing high-dimensional large data sets[J]. Annals of Applied Statistics, 2013, 7(1): 226-248

[21]Omara T M. Weighted robust Lasso and adaptive elastic net method for regularization and variable selection in robust regression with optimal scaling transformations[J]. American Journal of Mathematics and Statistics, 2017, 7(2): 71-77

[22]Wang Yanxin, Zhu Li. Variable selection and parameter estimation via WLAD-SCAD with a diverging number of parameters[J]. Journal of the Korean Statistical Society, 2017, 46(3): 390-403

[23]Osbome M R, Presnell B, Turlach B A. A new approach to variable selection in least squares problems[J]. IMA Journal of Numerical Analysis, 2000, 20(3): 389-403(15)

[24]Efron B, Hastie T, Johnstone I, et al. Least angle regression[J]. Annals of Statistics, 2004, 32(2): 407-451

[25]Friedman J, Hastie T, Höfling H, et al. Pathwise coordinate optimization[J]. Annals of Applied Statistics, 2007, 1(2): 302-332

[26]Wang Yujun, Gao Qiankun, Zhang Xian, et al. A coordinate descent algorithm for solving capped-L1 regularization problems[J]. Journal of Computer Research and Development, 2014, 51(6): 1304-1312 (in Chinese)(王玉军, 高乾坤, 章显, 等. 一种求解截断L1正则化项问题的坐标下降算法[J]. 计算机研究与发展, 2014, 51(6): 1304-1312)

[27]Benezra M, Peleg S, Werman M. Real-time motion analysis with linear-programming[J]. Computer Vision & Image Understanding, 2000, 78(1): 32-52

[28]Zhao Qian, Meng Deyu, Jiang Lu, et al. Self-paced learning for matrix factorization[C] //Proc of the 29th National Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 3196-3202

[29]Kumar M P, Packer B, Koller D. Self-paced learning for latent variable models[C] //Proc of Int Conf on Neural Information Processing Systems. New York: Curran Associates, 2010: 1189-1197

[30]Chang Chih-Chung, Lin Chih-Jen. LIBSVM: A library for support vector machines[EB/OL]. 2011 [2019-03-10]. http://www.csie.ntu.edu.tw/~cjlin/libsvm

An Adaptive Regression Feature Selection Method for Datasets with Outliers

Guo Yaqing1, Wang Wenjian2, and Su Meihong1

1(School of Computer and Information Technology, Shanxi University, Taiyuan 030006)2(Key Laboratory of Computational Intelligence and Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan 030006)

Abstract Irrelevant and redundant features embedded in data will raise the difficulty for learning tasks, and feature selection can solve this problem effectively and improve learning efficiency and learner performance. Most of existing feature selection approaches are proposed for classification problems, while there are few studies on regression problems. Eespecially in presence of outliers, the present methods do not perform well. Although some methods can increase their robustness by weighting sample loss functions, the weights are set in advance and fixed throughout feature selection and learner training, which leads to bad adaptability. This paper proposes a regression feature selection method named adaptive weight LASSO (AWLASSO) for outliers. Firstly, it updates sample errors according to regression coefficients. Then the weights for loss functions of all samples are set according to the adaptive regularization term, i.e., the loss functions of samples whose errors are larger than current threshold are set smaller weights and loss functions of samples whose errors are less than threshold are set larger weights. The regression coefficient will be estimated iteratively under weighted loss function whose weights are updated. AWLASSO controls whether samples participate in regression coefficient estimation by the threshold. Only those samples with small errors participate in estimation, so a better regression coefficient estimation may be obtained in the end. In addition, the error threshold of AWLASSO algorithm is not fixed but increasing(To make initial regression coefficient estimation be accurate, initial threshold is often smaller). So some samples which are misjudged as outliers will have chance to be added again in training set. The AWLASSO regards samples whose errors are larger than the maximum threshold as outliers for their learning cost is bigger, and the weights of their loss functions are set to 0. Hence, the influence of outliers will be reduced. Experiment results on artificial data and benchmark datasets demonstrate that the proposed AWLASSO has better robustness and sparsity specially for datasets with outliers in comparison with classical methods.

Key words feature selection; regression; outliers; robustness; adaptive regularization term

收稿日期2019-05-30;修回日期:2019-06-18

基金项目国家自然科学基金项目(61673249);国家自然科学联合基金重点项目(U1805263);山西省回国留学人员科研基金项目(2016-004)

This work was supported by the National Natural Science Foundation of China (61673249), the Key Union Fund of National Natural Science Foundation of China (U1805263), and the Scientific Research Foundation for Returned Scholars of Shanxi Province (2016-004).

通信作者王文剑(wjwang@sxu.edu.cn)

(791771653@qq.com)

中图法分类号 TP181

Guo Yaqing, born in 1990. PhD candidate. Her main research interest is machine learning.

Wang Wenjian, born in 1968. PhD. Professor, PhD supervisor. Senior member of CCF. Her main research interests include machine learning, data mining, computing intelligence, image processing, etc.

Su Meihong, born in 1988. PhD candidate. Her main research interest includes machine learning.