线性正则化函数Logistic模型

孟银凤1 梁吉业2

1(山西大学数学科学学院 太原 030006)2(计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006)(mengyf@sxu.edu.cn)

摘 要 函数型数据的模式识别问题广泛存在于医学、经济、金融、生物、气象等各个领域,探索更具泛化性能的分类器对准确挖掘函数型数据当中隐藏的知识至关重要.针对经典函数Logistic模型的泛化性能不高的问题,提出了线性正则化函数Logistic模型,该模型的生成通过求解一个优化问题实现.在该优化问题当中,前项是基于函数样例的似然函数构造的,用于控制函数样例的分类性能;后项是正则化项,用于控制模型的复杂性.同时,这2项进行了线性加权组合,这样,限制了正则化子的取值范围,方便给出一个经验最优参数,然后可在这一经验最优参数的指导下选出一个适当的函数主成分基个数下的Logistic模型用于函数型数据的分类.实验结果表明:选出的线性正则化函数Logistic模型的泛化性能优于经典的函数Logistic模型.

关键词 函数型数据;函数主成分分析;基表示;Logistic回归;线性正则化

在大数据时代,随着互联网、物联网、三网融合、云计算和其他高新通讯技术的发展,系统的运行过程被及时、快速、高频地记录下来[1-2].许多过程数据具有动态、连续的特征[3-4],比如金融领域的股票数据、医疗领域的心电图数据、气象领域的气温数据等,这些都称为函数型数据.由于函数型数据广泛存在于各个领域,所以从这类数据当中发掘有用的知识具有重要的科学意义.

在函数型数据的挖掘任务当中,有许多有关函数型数据的分类问题.例如依据一个人的心电图曲线判断该人是否心律不齐;根据大理石的光谱曲线对其划分等级[5].本质上,每条函数曲线是函数空间的一个元素,应视为一个整体[6-7],但在实践当中是离散采集的观测序列,因此,这个离散序列需要被转化为函数曲线,而这也成为函数型数据独特的数据预处理方式.基函数展开技术为将离散序列转化为函数提供了方法[8-9].受欢迎的基函数有Fourier基[5,10-11]和小波基[12-15].其他基函数有B样条[16-21]、Mercer核变换[22]和径向基[23-25]等.不同于前面提到的基函数,函数主成分基是一种数据驱动的正交基[26-32].

本文主要考虑函数型数据的二分类问题,基于函数主成分基建立线性正则化Logistic模型[28,33-35],以实现更优的泛化性能.为此,借用精确度(Accuracy)、查准率(Precision)、查全率(Recall)、F1度量和Auc值5个指标刻画分类性能[36-37].

本文的主要贡献包括3个方面:

1) 提出了线性正则化函数Logistic模型,该模型在处理函数型数据的分类任务时既考虑了函数型数据的分类性能也考虑了模型的复杂度.

2) 给出的线性正则化Logistic模型限制了正则化子的取值范围,可依据交叉验证的方法在给定范围内选出一个经验最优正则化子.

3) 基于选出的正则化子,可以得到不同基个数下的正则化Logistic模型.

实验表明:当至少用10个主成分基函数去表示函数型数据时,其对应的线性正则化Logistic模型优于经典函数Logistic模型的分类性能,提升了函数型数据分类的泛化性能.

1 相关工作

作为一种广义线性模型[38],Logistic回归模型是一种常用的分类方法.对于输入是向量的Logistic模型,许多书籍[39-40]对其进行了详细介绍.在该模型的基础上,文献[41-42]将基于L1范数的稀疏Logistic模型应用于分类和变量选择问题中;文献[43-44]给出了求解这类稀疏Logistic模型的方法,其中,文献[43]使用了凸规划方法,文献[44]使用了贪婪投影牛顿梯度法;文献[45]基于范数给出了正则化Logistic模型并构造了有效的求解算法.对于输入是平方可积空间的变量时的Logistic模型称为函数Logistic回归模型[28,46],文献[28]基于函数主成分构造了函数Logistic模型并将其应用于基因表达数据的分类问题中;文献[46]将该模型应用于系统性红斑狼疮的分类问题中.

本文面向函数型数据的分类问题,在对函数型数据进行主成分表示的基础上,给出了线性正则化函数Logistic模型,该模型限制了正则化子的取值范围,通过交叉验证便于选出较优的正则化子用于指导分类模型的选择,有利于选出泛化性能较好的模型.

2 函数主成分分析

函数主成分分析为将离散采集的数据序列转化为函数提供了一种数据驱动的方法.本节将介绍函数主成分基的获取方法.

2.1 函数主成分基

x1(t),x2(t),…,xN(t)是Hilbert空间L2(T)(tT)当中的函数样例,函数主成分分析的目标是在L2(T)的k维函数子空间H0中找到一组标准正交基函数ξ1(t),ξ2(t),…,ξk(t)对上述函数型数据进行低维表示,要求在每个特征维上最大化提取样本信息.这组待求的标准正交基函数即为函数主成分基.令表示第i个函数样例在第j个特征维上的得分,于是,第j个特征维上的样本信息(样本方差)为

j=1,2,…,k.

(1)

由于ξj(t),j=1,2,…,k是标准正交基,考虑约束条件:

(2)

通过解约束优化问题,可得特征方程[6]:

(3)

其中,是协方差函数.

介绍一种求解特征方程式(3)的数值计算方法.首先通过其他基函数(如Fourier基、样条基等)将离散观测的数据序列转化为平滑函数,然后提取n个观测点s1,s2,…,sn处的函数值.令ω=|T|/n,这样,式(3)的左边可变为

(4)

ξj(sm)=ξjm,m=1,2,…,n, j=1,2,…,k,由式(4),式(3)可被数值表示为


j=1,2,…,k.

(5)

这样,通过解特征方程式(5)可得第j个主成分基ξj(t)的离散序列{ξj1,ξj2,…,ξjn},然后通过平滑技术得到ξj(t).最后,根据

(6)

计算出第i个函数样例在前k个主成分的得分向量(ci1,ci2,…,cik)T,于是,该函数样例的主成分表示为

(7)

具体地,式(6)的计算可采用如下的数值计算法.基于xi(t)在n个观测点s1,s2,…,sn处的函数值xi(s1),xi(s2),…,xi(sn)和ξj(t)的离散序列{ξj1,ξj2,…,ξjn},拟合得到:

i=1,2,…,N, j=1,2,…,k.

(8)

2.2 主成分分析实例

以Tecator数据集(1)http: //lib.stat.cmu.edu /datasets /tecator为例展示函数主成分基的求解过程.该数据集由215条肉样本的近红外吸收谱曲线构成,其中有138块肉样的脂肪含量Fat低于20%.每条吸收谱曲线在波长850~1 050 nm的范围观测了100个通道.基于其二阶差分曲线如图1所示,进行函数主成分分析,其相应的协方差函数v(s,t)如图2所示.本文给出该数据集的前3个主成分基函数(principal component function, pcf),如图3所示,其前3个主成分已提取超过85%的信息.

Fig. 1 The second differential curves of Tecator data
图1 Tecator数据集的二阶差分曲线

Fig. 2 The covariance function of Tecator data
图2 Tecator数据集的协方差函数

Fig. 3 The first three principal component functions of Tecator data
图3 Tecator数据集的前3个主成分函数

图4给出了其前2个主成分的得分图.由图4可见,函数样例在第一主成分这一特征维上已具有很好的区分性.

Fig. 4 The principal component scores of Tecator data
图4 Tecator数据集的主成分得分图

3 函数Logistic模型

本节介绍经典函数Logistic模型及其求解方法.

3.1 函数二分类Logistic模型

当输入xk(其中kk维向量空间)、输出y∈{0,1}且服从两点分布b(1,p)(其中p=P(y=1|x))、连接函数为logit函数(logit(p)=log(p/(1-p)))时,对应的广义线性模型为Logistic二分类模型.假设参数向量为的增广向量那么该模型为

(9)

也即

(10)

当输出不变,输入由k中的向量x变为可分Hilbert空间L2(T)的函数x(t)(tT)时,对应的Logistic回归模型为函数Logistic二分类模型.此时,模型式(9)变为

(11)

其中,α是参数,β(t)是参数函数.

式(11)可变为

(12)

这里,式(11)或式(12)即为函数二分类Logistic模型.

3.2 函数Logistic模型的最大似然法

假定有N个函数样例x1(t),x2(t),…,xN(t),其相应的类标签为y1,y2,…,yN.若这些函数样例相互独立,其联合分布即为边缘分布的乘积.因而,可得似然函数:

(13)

x1(t),x2(t),…,xN(t)和β(t)进行主成分表示,其中x1(t),x2(t),…,xN(t)的表示结果见式(7),β(t)的主成分表示为

(14)

由于主成分基ξ1(t),ξ2(t),…,ξk(t)是标准正交基函数,则

(15)

此时,式(13)取对数后变为

(16)

然后根据梯度下降法和拟牛顿迭代法得到参数的最大似然估计值.

4 线性正则化函数Logistic模型

本节在第3节的基础上给出线性正则化函数Logistic模型及其求解过程,并通过实例将其求解过程和经典Logistic模型比较.

4.1 模型提出及求解

为提高函数Logistic模型式(12)的泛化性能,在目标函数式(13)的基础上,我们构造出优化目标函数:

(17)

其中,度量模型式(12)的分类性能,度量模型式(12)的复杂性,参数λ∈[0,1]是正则化子.当λ=1时即为经典的函数Logistic模型.由满足式(17)的参数得到的模型式(12)称为线性正则化函数Logistic模型.

介绍优化函数式(17)的求解过程.同样,根据式(7)和式(14),将函数样例和β(t)在函数主成分基生成的k维子空间进行低维表示,并记β=(β1,β2,…,βk)TXi=(ci1,ci2,…,cik)T.优化函数式(17)转化为

ln(1+eα+βTXi)]+(1-λ)βTβ},

(18)

其中,λ∈[0,1].记其关于αβ求导,即

然后令导数为0,得非线性方程:

(19)

给出牛顿迭代法的求解过程.为此,计算:

令多元函数:

(20)

此时方程式(19)变为

(21)

(22)

对多元非线性函数进行线性近似,得到:

从而得到迭代公式:

(23)

其中,是第m次迭代解.

4.2 求解实例

本节仍以Tecator数据集为例探究线性正则化函数Logistic模型的求解过程,并将其与经典函数Logistic模型的优化过程对比,其对比结果见表1.在实验当中,我们采用前3个主成分基函数表示函数样例,因此,在2个Logistic模型中均涉及4个参数的求解,其中,λ=1对应经典函数Logistic模型,λ=0.9对应一个线性正则化函数Logistic模型.表1展示了2个模型的3轮迭代结果,通过表1,我们可以发现:1)正则化函数Logistic模型的迭代次数少于经典函数Logistic模型的迭代次数,因此,相较于后者,前者更能快速收敛;2)正则化函数Logistic模型的参数较小,而经典函数Logistic模型的参数较大,且相继的2次迭代间参数变化较大.对于参数λ取其他值时的线性正则化函数Logistic模型有类似于λ=0.9的结果,这里不再一一列出.因此,在增加正则化项的函数Logistic模型当中,由于其参数受到抑制使得模型更加稳健,从而限制了过拟合现象,为提升模型的泛化性能奠定了基础.

5 实验与结果

本节利用提出的线性正则化函数Logistic模型对函数型数据分类并测试该分类模型的泛化性能.为此,我们基于5个分类性能指标对包括Tecator数据集在内的6个函数型数据集进行了实验.

Table 1 The Iteration Process Comparison of Two Types of Logistic Models
表1 两种Logistic模型的迭代过程比较

mλ=1λ=0.9αβ1β2β3αβ1β2β310.01000.01000.01000.01000.01000.01000.01000.010020.4326162.2197101.3735388.08260.57940.0205-0.0016-0.001030.4214160.4195-144.2080-606.49300.59560.0205-0.0016-0.001040.7216275.7796-83.7813-367.370050.7973365.0932-21.5536-40.141760.7603374.7275-27.9907-75.685910.01000.01000.01000.01000.01000.01000.01000.010020.5240205.509935.3512163.16610.57940.0219-0.0011-0.000130.6787270.1516120.5738568.62480.59560.0219-0.0011-0.000140.3616181.3851-36.0382-180.358650.6099262.8491-14.5480-80.274060.6529296.4414-14.4633-89.152070.8330449.4905-8.0458-104.943010.01000.01000.01000.01000.01000.01000.01000.010020.6569126.0648-7.2184281.77100.57950.0208-0.0003-0.00133-4.8600358.5784-884.6162-8.01180.59560.0208-0.0003-0.00134-2.7702473.8394-673.5696-5.65045-16.3295-0.7041-2.1680-2.19856-56.6663-1.1431-6.8012-7.1994

5.1 度量标准

对于二分类问题,根据测试集上样例的真实标签和分类器给出的预测标签可将样例分成4种状态[40],这4种状态的样例数分别为TP(正类预测为正类的个数)、FN(正类预测为负类的个数)、FP(负类预测为正类的个数)、TN(负类预测为负类的个数).

根据上述样例数,可定义精度(Accuracy)、查准率(Precision)、查全率(Recall)、调和均值(F1)、灵敏度(Sensitivity)和特异度(Specificity),具体定义为

(24)

(25)

(26)

(27)

(28)

(29)

另外,对于给定的阈值,可在二维平面上得到一个以灵敏度为纵坐标、特异度为横坐标的点.随着阈值的变化,会得到一系列点,这些点连成的曲线下的面积记为Auc[47],该值越大表明分类器的分类性能越好.

5.2 数据集

本文将在6个数据集上测试我们提出的方法.其中Tecator数据集在2.2节已介绍,下面介绍其他5个数据集的来源和构成.

Simudata数据集是一个人造数据集.该数据集如图5(a)所示,有2类,每类包含100个函数样例,每个样例等间隔地采集了101个观测点{t=1,1.2,1.4,…,21}[30].

第1类函数样例满足:

x(t)=Uh1(t)+(1-U)h2(t)+ε(t),

第2类函数样例满足:

x(t)=Uh1(t)+(1-U)h3(t)+ε(t),

其中,U是服从[0,1]上均匀分布的随机变量;ε(t)是白噪声过程,满足E[ε(t)]=0,Var[ε(t)]=1;h1(t)=max{6-|t-11|,0},h2(t)=h1(t-4)和h3(t)=h1(t+4).

ECG数据集、Face数据集和CBF数据集均来自同一网址(2)http: //www.cs.ucr.edu /~eamonn /time_series_data/.ECG数据集如图5(b)所示,记录了2组患者的200条心电图数据,每条数据采集了96个观测点,一组有63个样例,另一组有137个样例.Face数据集如图5(c)所示,由56条曲线构成,每条曲线采集了350个观测点,该数据集包含2类:1)22个样例;2)34个样例.CBF数据集如图5(d)所示,包含620个函数样例,每个样例采集了128个观测点,每组各有310个函数样例.

Fig. 5 Curve plots of various data sets
图5 不同数据集的曲线图

Phoneme数据集来自TIMIT数据库[48],该数据集如图5(e)所示,包含2 035个语音框架,其中有1 163个语音框架记录的是“she”中的元音的发音“iy”,872个语音框架记录的是“she”中“sh”的发音.每个语音框架采集了256个瞬时频率的对数周期图.

在图5(a)~(e)的各图中,红色曲线表示一类,黑色曲线表示另一类.

5.3 正则化子的选择

本节通过交叉验证的办法选择正则化子.由于本文给出的模型是线性正则化函数Logistic模型,而其中的正则化子λ∈[0,1],因此,在给定范围内选择一个合适的正则化子相对应的模型是提高分类泛化性能的基础.

以CBF数据集为例给出正则化子参数的选择过程.分别选择函数主成分的贡献率达到85%,90%,95%,99%相对应的主成分个数,然后在基于这些个数的主成分表示下的线性正则化Logistic模型类中选出较优的λ对应的模型作为最终的分类模型.对每个贡献率要求下,参数λ在[0,1]等间隔地取100个点,每个参数取值下做了100次随机实验,得到分类性能指标AccuracyPrecisionRecallF1和Auc的平均值.图6显示了随着参数λ的变化相应的线性正则化Logistic模型的分类精度,其中贡献率cum=85%时主成分个数k=19,当cum=90%时k=30,当cum=95%时k=47,当cum=99%时k=68.对于其他分类性能指标,有类似的曲线图.由图6可知,在不同贡献率下,选择不同个数的主成分基函数去表示模型,最终选出的最优参数λ是一致的,以下按照上述方法选出不同数据集对应的最优参数λ,其结果如表2所示:

Fig. 6 Classification accuracy comparison for different number of basis functions
图6 不同个数基函数的分类精度比较

Table 2 Empirical Optimal λ and Classification Performance of Corresponding Linear Regularized Logistic Model
表2 经验最优λ及相应线性正则化Logistic模型的分类性能

DatasetλAccuracyPrecisionRecallF1AucTecator0.901.00001.00001.00001.00000.9855Simudata0.400.99130.99300.98980.99120.9800ECG0.830.99720.99760.99820.99790.9705Face0.110.94570.99010.87270.92480.9404CBF0.630.97340.96350.98390.97350.9889Phoneme0.090.99000.99290.98950.99120.9976

5.4 模型比较

对不同的数据集,我们将基于选出的最优经验正则化参数λ对应的不同主成分基个数下的线性正则化Logistic模型和经典函数Logistic模型进行比较,每个模型进行100次随机实验,经典函数Logistic模型的实验结果如图7(a)所示,本文给出的线性正则化Logistic模型的实验结果如图7(b)所示.

Fig. 7 Classification accuracy comparison of two types of logistic models
图7 两种函数Logistic模型的分类精度比较

由图7(a)可以看到,在基个数较少时经典函数Logistic模型的分类性能较强,随着基函数数目的增加,相对应模型的分类性能在降低.由图7(b)可以发现,基个数较多时线性正则化函数Logistic模型的分类性能更强,随着基函数数目的增加,相应的分类模型的性能在提升.这是因为在样本容量固定的条件下,一般可以通过降维或正则化的方法提升模型的泛化性能.其中,经典函数Logistic模型是通过降维的办法来提升泛化性能,而这个低维子空间就是由前面少数几个主成分基函数生成的函数子空间;而线性正则化函数Logistic模型是通过正则化方法提升模型的泛化性能,也就是说通过减小模型的参数使模型更简单更稳健进而抑制过拟合.比较图7(a)和图7(b),对于不同的数据集,当基个数取值大于10时对应的线性正则化函数Logistic模型的分类性能普遍优于经典函数Logistic模型的分类性能.

6 总 结

本文面向函数型数据的分类问题,提出了一种线性正则化函数Logistic模型.一方面,由于在该模型的构造中考虑了正则化项,所以能够提升模型的泛化性能;另一方面,由于采用了线性加权的方式构造了优化的目标函数,限制了参数λ的取值范围,方便找到一个经验最优参数值,可参考该经验最优值选出一个较优的Logistic模型,而这个模型通常优于经典的函数Logistic模型.

参考文献

[1]Aneiros G, Cao R, Fraiman R, et al. Recent advances in functional data analysis and high-dimensional statistics[J]. Journal of Multivariate Analysis, 2019, 170: 3-9

[2]Zhang Xiaoke, Wang Jane-Ling. From sparse to dense functional data and beyond[J]. The Annals of Statistics, 2016, 44(5): 2281-2321

[3]Gamasaee R, Zarandi M H F. A new Dirichlet process for mining dynamic patterns in functional data[J]. Information Sciences, 2017, 405: 55-80

[4]Park J, Ahn J. Clustering multivariate functional data with phase variation[J]. Biometrics, 2017, 73(1): 324-333

[5]López M, Martínez J, Matías J M, et al. Functional classification of ornamental stone using machine learning techniques[J]. Journal of Computational and Applied Mathematics, 2010, 234(4): 1338-1345

[6]Meng Yinfeng, Liang Jiye, Qian Yuhua. Comparison study of orthonormal representations of functional data in classification[J]. Knowledge -Based Systems, 2016, 97: 224-236

[7]Ramsay J O, Silverman B W. Applied Functional Data Analysis: Methods and Case Studies[M]. Berlin: Springer, 2002

[8]Ramsay J O, Silverman B W. Functional Data Analysis[M]. Springer Series in Statistics. 2nd ed. Berlin: Springer, 2005

[9]Ferraty F, Vieu P. Nonparametric Functional Data Analysiss: Theory and practice[M]. Springer Series in Statistics. Berlin: Springer, 2006

[10]Faloutsos C, Ranganathan M, Manolopoulos Y. Fast subsequence matching in time-series databases[C] //Proc of ACM SIGMOD’94. New York: ACM, 1994: 419-429

[11]Wang Defeng, Shi Lin, Yeung D S, et al. Ellipsoidal support vector clustering for functional MRI analysis[J]. Pattern Recognition, 2007, 40(10): 2685-2695

[12]Chan K-P, Fu A W-C. Efficient time series matching by wavelets[C] //Proc of the 15th Int Conf on Data Engineering. Piscataway, NJ: IEEE, 1999: 126-133

[13]Favero R F, King R W. Wavelet parameterization for speech recognition: Variations in translation and scale parameters[C] //Proc of IEEE ICSIPNN’94. Piscataway, NJ: IEEE, 1994: 694-697

[14]Liu Yihui, Aickelin U, Feyereisl J, et al. Wavelet feature extraction and genetic algorithm for biomarker detection in colorectal cancer Data[J]. Knowledge -Based Systems, 2013, 37: 502-514

[15]Morris J S, Carroll R J. Wavelet-based functional mixed models[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68 (2): 179-199

[16]Abraham C, Cornillon P A, Molinari M L, et al. Unsupervised curve clustering using B-bplines[J]. Scandinavian Journal of Statistics, 2003, 30(3): 581-595

[17]Ando T. Penalized optimal scoring for the classification of multi-dimensional functional data[J]. Statistical Methodology, 2009, 6(6): 565-576

[18]Friedman J, Hastie T, Tibshirani R. The Elements of Statistical Learning[M]. Springer Series in Statistics. Berlin: Springer, 2001

[19]Luan Yihui, Li Hongzhe. Clustering of time-course gene expression data using a mixed-effects model with B-splines[J]. Bioinformatics, 2003, 19(4): 474-482

[20]Sangalli L M, Ramsay J O, Ramsay T O. Spatial spline regression models[J]. Journal of the Royal Statistical Society, 2013, 75(4): 681-703

[21]Zhou Jianjun, Chen Min. Spline estimators for semi-functional linear model[J]. Statistics and Probability Letters, 2012, 82(3): 505-513

[22]Munoz A, González J. Representing functional data using support vector machines[J]. Pattern Recognition Letters, 2010, 31(6): 511-516

[23]Ando T, Konishi S, Imoto S. Nonlinear regression modeling via regularized radial basis function networks[J]. Journal of Statistical Planning and Inference, 2008, 138(11): 3616-3633

[24]Araki Y, Konishi S, Imoto S.Functional discriminant analysis for microarray gene expression data via radial basis function networks[C] //Proc of the 16th COMPSTAT Symposium. Berlin: Springer, 2004: 613-620

[25]Konishi S, Ando T, Imoto S. Bayesian information criteria and smoothing parameter selection in radial basis function networks[J]. Biometrika, 2004, 91(1): 27-43

[26]Castro P E, Lawton W H, Sylvestre E A. Principal modes of variation for processes with continuous sample curves[J]. Technometrics, 1986, 28(4): 329-337

[27]Hall P, Müller H-G, Wang J-L. Properties of principal component methods for functional and longitudinal data analysis[J]. The Annals of Statistics, 2006: 34(3): 1493-1517

[28]Leng Xiaoyan, Müller H-G. Classification using functional data analysis for temporal gene expression data[J]. Bioinformatics, 2006, 22(1): 68-76

[29]Müller H-G. Functional modelling and classification of longitudinal data[J]. Scandinavian Journal of Statistics, 2005, 32(2): 223-240

[30]Preda C, Saporta G, Lévéder C. PLS classification of functional data[J]. Computational Statistics, 2007, 22(2): 223-235

[31]Yao Fang, Müller H-G, Clifford A J, et al. Shrinkage estimation for functional principal component scores, with application to the population kinetics of plasma folate[J]. Biometrics, 2003, 59(3): 676-685

[32]Yao Fang. Functional principal component analysis for longitudinal and survival data[J]. Statistica Sinica, 2007, 17(3): 965-983

[33]Pregibon D. Logistic regression diagnostics[J]. The Annals of Statistics, 1981, 9(4): 705-724

[34]Hosmer D W, Lemeshow S. Applied Logistic Regression[M]. New York: John Wiley & Sons, 2000

[35]Smeden M V, Moons K G, Groot J A, et al. Sample size for binary logistic prediction models: Beyond events per variable criteria[J]. Statistical Methods in Medical Research, 2019, 28(8): 2455-2474

[36]Joachims T. Estimating the generalization performance of an SVM efficiently[C] //Proc of the 17th Int Conf on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2000: 431-438

[37]Huang Jin, Ling C X. Using AUC and accuracy in evaluating learning algorithms[J].IEEE Transactions on Knowledge & Data Engineering, 2005, 17(3): 299-310

[38]Burridge J, McCullagh P, Nelder J A. Generalized linear models[J]. Journal of the Royal Statistical Society, 2018, 154(2): 361-364

[39]Zhou Zhihua. Machine Learning[M].Beijing: Tsinghua University Press, 2016 (in Chinese )

(周志华. 机器学习[M]. 北京: 清华大学出版社, 2016)

[40]Li Hang. Statistical Leaning Methods[M]. Beijing: Tsinghua University Press, 2019 (in Chinese)

(李航. 统计学习方法[M]. 北京: 清华大学出版社, 2019)

[41]Shevade S K, Keerthi S S. A simple and efficient algorithm for gene selection using sparse logistic regression[J]. Bioinformatics, 2003, 19(17): 2246-2253

[42]Armanfard N, Reilly J P, Komeili M. Logistic localized modeling of the sample space for feature selection and classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(5): 1396-1413

[43]Plan Y, Vershynin R.Robust 1-bit compressed sensing and sparse Logistic regression: A convex programming approach[J]. IEEE Transactions on Information Theory, 2013, 59(1): 482-494

[44]Wang Rui, Xiu Naihua, Zhang Chao. Greedy projected gradient-Newton method for sparse logistic regression[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(2): 527-538

[45]Zhao Qian, Meng Deyu, Xu Zongben. L1 /2 regularized logistic regression[J]. Pattern Recognition and Artificial Intelligence, 2012, 25(5): 721-728

(赵谦, 孟德宇, 徐宗本. L1 /2正则化Logistic回归[J]. 模式识别与人工智能, 2012, 25(5): 721-728)

[46]Aguilera A M, Escabias M, Valderrama M J. Discussion of different logistic models with functional data. Application to Systemic Lupus Erythematosus[J]. Computational Statistics and Data Analysis, 2008, 53(1): 151-163

[47]Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874

[48]Hastie T, Buja A, Tibshirani R. Penalized discriminant analysis[J]. The Annals of Statistics, 1995, 23(1): 73-102

Linear Regularized Functional Logistic Model

Meng Yinfeng1 and Liang Jiye2

1(School of Mathematical Sciences, Shanxi University, Taiyuan 030006)2(Key Laboratory of Computational Intelligence and Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan >030006)

Abstract The pattern recognition problems of functional data widely exist in various fields such as medicine, economy, finance, biology and meteorology, therefore, to explore classifiers with more better generalized performance is critical to accurately mining the hidden knowledge in functional data. Aiming at the low generalization performance of the classical functional logistic model, a linear regularized functional logistic model based on functional principal component representation is proposed and the model is acquired by means of solving an optimization problem. In the optimization problem, the former term is constructed based on the likelihood function of training functional samples to control the classification performance of functional samples. The latter term is the regularization term, which is used to control the complexity of the model. At the same time, the two terms are combined by linear weighted combination, which limits the value range of the regularizer and makes it convenient to give an empirical optimal parameter. Then, under the guidance of this empirical optimal parameter, a logistic model with the appropriate number of principal components can be selected for the classification of functional data. The experimental results show that the generalization performance of the selected linear regularized functional logistic model is better than that of the classical logistic model.

Key words functional data; functional principal component analysis; basis representation; logistic regression; linear regularization

中图法分类号 TP181

收稿日期2020-06-16;修回日期:2020-07-03

基金项目国家自然科学基金项目(61807022, 61876103, 61976184);山西省重点研发计划项目(201903D121162);山西省自然科学基金项目(201801D221168)

This work was supported by the National Natural Science Foundation of China (61807022, 61876103, 61976184), the Projects of Key Research and Development Plan of Shanxi Province (201903D121162), and the Natural Science Foundation of Shanxi Province of China (201801D221168).

通信作者梁吉业(ljy@sxu.edu.cn)

Meng Yinfeng, born in 1979. PhD, associate professor. Member of CCF. Her main research interests include machine learning, data mining and functional data analysis.

Liang Jiye,born in 1962. Professor and PhD supervisor. Member of CCF. His main research interests include artificial intelligence, granular computing, data mining and machine learning.