基于邻域多核学习的后融合多视图聚类算法

夏冬雪1,2 杨燕1 王浩1 阳树洪2

1(西南交通大学信息科学与技术学院成都 611756)2(广西科技大学计算机科学与通信工程学院广西柳州 545006)(vdx_swjtu@126.com)

摘要基于图谱理论的多视图聚类是该领域的代表性方法之一.然而，现有模型尚存在3个问题.1)这类方法大多没有考虑不同视图之间的聚类性能差异，强制要求所有视图共享一个公共相似图；2)部分模型将相似图构建和聚类分步进行，导致所构建的相似图对于聚类任务并非最优；3)虽已有若干模型采用核学习处理数据间的非线性关系，但大多基于全局模型计算数据在核空间中的自表达关系，不利于充分挖掘局部非线性信息，且易带来沉重的计算负荷.为了应对以上问题，提出一种基于邻域多核学习的后融合多视图聚类算法，在类划分空间而不是数据相似图的层次进行信息融合，采用邻域多核学习方案在充分保留局部非线性关系的同时减轻计算负荷，并提出一种交替优化方案将相似图构建、多核组合、类指示矩阵生成等子任务在统一的框架下进行协同优化.多个数据集上的实验表明:该算法具有良好的多视图聚类效果.

关键词邻域结构；多核学习；谱旋转；后融合；多视图聚类

机器学习的许多实际问题中，研究对象常由不同来源的数据或不同特征进行刻画.例如不同机构对同一新闻事件的各自报道，同一图像的不同特征表示，同一故事的视频或文字描述.类似场景中，从不同视角对同一对象集合进行描述的数据，称之为多视图数据[1].多视图学习利用多视图数据来获得对象的全面理解，可以克服单视图数据可能导致的偏差或不足，因而成为近年的研究热点[2].同时，在当前大数据时代，数据产生和收集的速度迅猛增长，人工标注变得非常昂贵和不切实际，聚类分析作为一种重要的无监督学习形式，日益受到研究者的广泛关注.本文主要关注多视图聚类.已有研究表明:多视图聚类能够充分利用视图之间的互补性和一致性，从而产生比单视图聚类更为精确和健壮的数据划分[3-4].

现有的多视图聚类算法大致包括典型相关分析、多视图矩阵分解、图谱聚类等类别[1].近年来，许多基于图谱理论的算法被陆续提出并取得良好效果[3,5-7].这些方法通常以分步进行的方式完成多视图聚类，即首先构造每个视图的相似图S(similarity graph)，然后学习所有视图的公共相似图，最后对得到的公共相似图进行聚类分析[3,6].

上述基于图谱理论的多视图聚类算法在许多场景中被证明是有效的，但仍存在3个缺陷.1)信息融合可在原始数据级、特征级和决策级进行，构建公共相似图的算法本质上是特征级的信息融合[3,7].然而，从相似图的性质来看，一者不同视图描述对象的视角、聚类能力存在较大差异[8]；二来由于实际应用中广泛存在的信息缺失、噪声等因素容易造成某个视图的相似图失真，强制所有视图共享一个公共相似图可能导致最终聚类结果不理想[6].2)目前基于图谱理论的多视图聚类多以分步形式完成：即先构造公共相似图，然后据此进行聚类.而不是在一个统一的过程中优化这2个任务，从而可能导致额外的PAC(probably approximately correct)边界[3,9].3)对于数据中广泛存在的非线性关系，尽管已有若干工作采用核方法进行有效处理，但大多基于全局自表达学习的框架进行核变换[10]，基于局部结构进行多核学习的方法仍鲜见报导.然而，局部结构对于聚类分析和非线性关系建模有重要意义[11-12].具体表现包括：在足够小的邻域范围内，样本间非线性关系通常能用局部线性嵌入一阶逼近，样本的聚类标签可用近邻回归进行预测[12-13]；在稍大的局部范围内，虽然低维输入空间中数据样本分布呈现出非线性流形关系，但若将其嵌入到高维特征空间中，则数据样本在高维空间中的分布仍与欧氏空间局部同胚，从而在局部范围内仍可借鉴欧氏空间的相关理论方法进行建模与分析[13].

因此，本文提出一种基于邻域多核学习的后融合多视图聚类算法(local multi-kernel learning based late fusion multi-view clustering, LMLFMC).其主要贡献包括3个方面：

1) 与基于全局自表达的核方法不同，本文仅考虑近邻数据，无需学习整个数据集的自表达关系，从而在保持局部非线性结构的同时减轻计算负荷.

2) 尽管各视图的相似图可能存在差异，但不同视图的数据是从不同角度描述同一个样本集合，其簇类划分结构是跨越不同视图的全局结构，本文模型将信息融合推迟到数据划分空间进行，因而比基于相似图融合的多视图聚类模型更加鲁棒.

3) 本文模型在一个统一的框架下，对多核组合方式、各个视图的相似图构造及最终的簇类结构划分进行协同优化，从而使得上述子任务能以相互促进的方式迭代提升模型整体性能.

1 相关工作

由于多视图数据的广泛应用，近年来，许多将基于图谱理论的聚类模型扩展到多视图的算法被不断提出[7,14-17].Saha等人[14]首先构造视图的子空间表示，然后在公共子空间实现多视图聚类，但没有考虑不同视图的权重.针对此问题，Nie等人[7]首先生成每个视图的相似图，然后以不同权重将其整合得到一个公共相似图，再在公共相似图上进行聚类分析.后续若干算法对此进行持续研究，提出一系列更为有效的方法[15-16].这些方法并不需要附加的K-means步骤，但仍以分步进行的方式完成信息融合：即首先生成各视图的相似图，保持不变，然后再进行信息融合.此外，上述基于图谱理论的多视图聚类方法强制所有视图统一到一个公共相似图，而该公共相似图并没有以最终的簇类划分为目标进行优化，从而导致对后者而言，该公共相似图并非最优.为了减轻相似度矩阵的计算负担，Wang等人[17]采用数据簇相似度矩阵计算数据点和簇中心之间、而不是对数据点之间的相似度，尽管该方法可以提高计算效率，但仍需一个附加的聚类步骤来获得最终的簇类划分.

本文模型采用谱旋转实现多视图信息的后融合.Yu等人[18]首次采用谱旋转实现多类别划分.Zelnikmanor等人[19]在此基础上提出自适应谱聚类.Huang等人[20]综合比较了谱聚类框架下的谱旋转和K-means算法，提出了一种基于谱旋转的谱聚类算法.Nie等人[6]用谱旋转代替K-means聚类步骤，将文献[20]中的算法推广到多视图聚类，但仍以分步方式完成多视图聚类，即先构造各视图的相似图，在后续的聚类过程中这些相似图保持固定，这可能导致所构造的相似图对于后续的聚类任务并非最优.

核方法由于能有效建模数据点之间的非线性关系而被广泛应用到聚类分析中.Scholkopf等人[21]提出了核K-means聚类算法，Zhang等人[22]将其扩展为基于核PCA的通用核学习框架.Langone等人[23]将核方法引入到谱聚类.上述基于单个核函数的模型的性能严重依赖于核函数的选择.然而，从预定义的函数库中选择最佳核函数非常耗时甚至不切实际.为解决这一问题，Kang等人[24]采用多核学习对多个核函数进行优化加权，从而无需预先选择最佳核函数.此后，Huang等人[10]提出一种基于多核学习的多视图聚类算法.已有研究表明：局部结构对于聚类分析和非线性关系学习有重要意义[11-13].但上述基于核方法的聚类模型，均基于全局自表达学习方案，即在核空间中学习所有样本对于特定样本的全局线性表达，该方法不利于充分挖掘数据间的局部结构，且对于在高维空间进行表达学习的核方法而言，由于需要计算所有数据点的表达系数，从而带来巨大的计算负荷.

2 本文模型

本节介绍本文提出的LMLFMC模型.后文采用斜粗体大 width=5,height=17,dpi=110 小写分别代表矩阵和向量，如X，x.X的第i行和第j列分别用Xi:和X:j表示.矩阵X的元素用相应的斜体小写字母加下标表示如xij.和分别代表X的F范数和x的l2范数.黑体1代表元素全为1的向量.用Ind{Y∈{0,1}n×c}|Y×1=1}代表类别指示矩阵.多视图数据的第v个视图，视上下文方便用上标Xv或下标Xv进行标注.

2.1 核空间中的邻接矩阵构造

对于给定的数据集X=(x1,x2,…,xn)∈m×n，相似图(或称之为邻接矩阵)S最常见的构建方法是k近邻图，即将xi与距其最近的k个数据点进行连接，两点之间边的权重由高斯核函数sij=确定.该方法的问题在于，实际应用中受噪声和离群点等因素影响，超参σ难以确定.Wright等人[25]指出，稀疏表达对噪声和离群点鲁棒.通常假定，两点之间边的权重应和距离成反比，故本文采用稀疏表达构建数据矩阵的相似图S[3]，即：

width=228,height=64,dpi=110 (1)

对邻接矩阵S进行归一化，使得ST1=1，则式(1)的第2项成为常数项，即此处的归一化操作等价于对S进行稀疏化约束.故问题式(1)可改写为

width=155,height=64,dpi=110 (2)

但问题式(2)有平凡解：即对的点xt，sit=1；其他所有j≠t的点xj对应的sij都为零.因此，本文对问题式(2)加入一个先验约束[3,24]：

width=220,height=64,dpi=110 (3)

上述邻接矩阵S的构建基于原始输入空间的欧氏距离.采用该距离测度进行聚类，通常要求数据集本身线性可分[26]，而该条件在真实数据上往往难以满足.为克服该局限性，本文用核技巧将输入空间的数据映射到高维特征空间，以提高数据的可分离性.

具体地，令Φ:m→H为从原始输入空间m到核空间H的非线性映射，则包含n个样本的原始输入数据集X=(x1,x2,…,xn)∈m×n可以映射到Φ(X)=(Φ(x1),Φ(x2),…,Φ(xn)).定义半正定核函数矩阵K=Φ(X)TΦ(X)，则数据样本在核空间中的内积可以用kij=Φ(xi)TΦ(xj)描述.在上述核函数矩阵K的定义中，不需要显示定义非线性映射Φ(X)，从而显著减少核函数矩阵的计算量.利用kij将问题式(3)映射到核空间，得到核空间的相似图S构造问题：

width=261,height=64,dpi=110 (4)

可验证，式(3)是式(4)采用线性核时的一个特例.

2.2 低秩约束的单视图聚类

通过求解问题式(4)，可得到每个视图的相似图Sv，继而通过谱聚类进行聚类分析.然而，传统的谱聚类需要一个附加的K-means步骤来获得最终的聚类结果，而这个附加的聚类步骤可能会带来额外的PAC边界[9].故此，本文提出一种在统一框架下对相似图构造和聚类分析进行协同求解的方法，使得所构造的相似图的连通分量数目正好等于聚类数目，从而省除附加的K-means步骤.

根据图谱理论[27]，令S∈n×n为数据集X的邻接矩阵，定义其度矩阵(degree matrix)为DS=diag(ST1),其中diag(y)代表以其参数向量y为对角元素的对角矩阵.S的拉普拉斯矩阵可以定义为LS=DS-S.拉普拉斯矩阵LS具有如下重要性质[27]：

定理1. 拉普拉斯矩阵LS的特征值0的重数c等于S所对应的图中连通分量的个数.

定理1在聚类分析中的意义在于，如果拉普拉斯矩阵的秩rank(LS)=n-c，则对应的图正好包含c个全连通分量，因此不需要附加的K-means步骤就可以得到最终的聚类结果.

受定理1的启发，本文对问题式(4)添加一个低秩约束，使得所构造的相似图的连通分量数目正好等于聚类数目，即：

width=264,height=64,dpi=110 (5)

由于低秩约束不易处理，且LS依赖于优化变量S，直接求解问题式(5)非常困难.然而，由于LS是半正定矩阵[27]，问题式(5)可转化为易于求解的等价形式.

因为半正定矩阵的所有特征值均大于等于零，令σi(LS)表示LS的第i个最小特征值，约束rank(LS)=n-c等价于据KyFan定理[28]，最小的c个特征值之和可求解为

(6)

问题式(6)的解F*∈n×c由LS的c个最小特征值对应的特征向量构成.从谱聚类的求解过程可知[27]，F*恰好是样本矩阵的谱嵌入，谱聚类正是通过对F*进行K-means聚类而得到最终的聚类结果.

将式(5)中的约束rank(LS)=n-c用式(6)进行替换，问题式(5)转换为

width=217,height=90,dpi=110 (7)

当问题式(7)中的参数λ设置为一个足够大的值时，其解F*可使问题式(5)中约束rank(LS)=n-c得到满足.

2.3 基于谱旋转的后融合多视图聚类

现有基于图谱理论的多视图聚类大多先利用各视图的邻接矩阵Sv学习一个公共邻接矩阵U，然后基于U进行聚类分析[3,7].但从邻接矩阵的角度来看，因不同视图描述对象的角度、可分类性存在差异[8]；且信息缺失、噪声等现象易造成单个视图的邻接矩阵Sv失真.迫使所有视图共享一个公共邻接矩阵可能会导致最终聚类结果不理想[6].另一方面，从类别指示矩阵Y来看，由于不同视图的数据都是从不同角度描述同一个样本集合，该集合的类别指示矩阵Y是一个跨越不同视图的全局结构，且Y并不由各视图的邻接矩阵Sv直接求解得到，因此,对Sv的聚类性能差异和信息失真，Y比公共邻接矩阵U更加鲁棒.因此，当将本文描述的聚类方案扩展到多视图时，本文先对每个视图求解问题式(7)得到邻接矩阵和对应的谱嵌入然后再求解统一的分类指示矩阵Y.

具体而言，对于单个视图，考察式(7)中F的相关目标函数项Tr(FTLSF)和约束FTF=I可知，F的最优解F*有旋转不变性，即：对任意正交矩阵R∈c×c,有Tr(FTLSF)=Tr((FR)T LSFR)和(FR)TFR=I，因此，若{S*,F*}是问题式(7)的解，则{S*,F*R}也是.

对某视图Xv而言，其谱嵌入Fv是其分类指示矩阵Yv的一组正交基[18]，同时，因不同视图有公共的类别指示矩阵Y.因此，虽各视图的谱嵌入Fv存在差异，但因式(7)关于Fv的解具有旋转不变性，皆为Y的正交基，故可通过求解Fv的最优旋转实现谱嵌入矩阵Fv的信息融合，得到最优公共分类指示矩阵Y*.因此，本文构建基于谱旋转的后融合模型：

width=278,height=120,dpi=110 (8)

其中，为视图个数.式(8)中目标函数的最后一项可视为各个视图的谱嵌入矩阵的最佳旋转与统一类别指示矩阵Y之间的差异的正则化项.这一项的值越大，表明该视图的类簇结构与统一类别指示矩阵的差异越大，在信息融合中应该取更小的权重.显然式(8)没有考虑该权重，因此,考虑不同视图在聚类融合中的贡献差异，引入一个权重向量w，用其分量wv描述不同视图的权重差异，将式(8)改写为

width=308,height=132,dpi=110 (9)

从上述分析可知，本文模型是对谱嵌入矩阵而不是样本邻接矩阵进行信息融合.

2.4 基于多核学习的后融合多视图聚类

虽然式(9)描述的模型可在核空间中以统一框架学习邻接矩阵和聚类指示矩阵，但仍面临核函数的选择问题：核方法的性能与核函数的选择高度相关.但针对特定问题预先选择一个最佳核函数非常困难.在多视图学习中，此问题更加棘手，因为各视图的数据之间的非线性关系可能互不相同，对于某个视图而言最佳的核函数却不一定适用于另一个视图.为了克服单个核函数的局限性，本节将式(9)描述的单核模型扩展到多核，用多个预先定义的核函数自动学习最佳核函数组合，从而避免核函数选择的问题.

若共有m个候选核函数则相应地有m个不同的核空间多核学习需利用候选核函数生成一个新核函数，并保证所构建的新核函数仍满足Mercer条件.本文使用映射连接所有核空间[29]，生成核函数：

(10)

其中，向量p为核函数的权重向量,pt≥0(∀t).由式(10)所生成的核函数矩阵是多个半正定矩阵的凸组合，从而可以保证是半正定的，满足Mercer条件[29].

将式(10)代入式(9)，并调整参数位置，最终得到本文基于多核学习的后融合多视图聚类模型：

(11)

3 模型求解

因目标函数式(11)中的优化变量相互耦合、包含离散变量Y，且约束亦不平滑，故求解式(11)并不容易.本文提出一个交替迭代的优化方案求解式(11).下文按优化变量具体介绍其各自更新规则.

3.1 固定其他变量，对每个视图更新Sv

当其他与Sv无关的变量保持不变时，问题式(11)的目标函数关于Sv可加，且关于Sv的约束也可按视图分离.因此，可独立对每个视图依次更新Sv.省略视图上下标，则式(11)可改写为

s.t.sij≥0,ST1=1.

(12)

通常仅保留数据点xi与其最近邻的若干个数据点之间的边，是以在保持邻接矩阵S的稀疏性的同时降低计算复杂度[3,30].若为数据相似图中的每个节点保留k个邻居，即邻接矩阵S每行仅保留k个非零元素，则S的更新方案为

(13)

其中,详细求解过程见附录A.

3.2 固定其他变量，对每个视图更新Fv

与Sv类似，当其他变量保持不变时，Fv亦可依视图进行独立更新，则式(11)可改写为

(14)

因为此处LS，Y，R皆为常量，式(14)可变换为

(15)

问题式(15)是一个典型的Stiefel流形上的二次优化问题(quadratic problem on the Stiefel manifold, QPSM)[31].由于式(15)的目标函数的Hessian矩阵LS为半正定矩阵，所以式(15)是一个凸问题，其全局最优解F*必然存在.若干学者对QPSM进行了深入研究，提出了若干高效稳定的迭代算法，可用于求解式(15)[31-32].

3.3 固定其他变量，对每个视图更新Rv

类似地，Rv亦可依视图独立更新.当其他变量保持不变时，式(11)可变换为

(16)

该问题的解析解为[31]

R+=UVT,

(17)

其中，U和V分别为FTY的SVD分解的左右奇异向量.

3.4 固定其他变量更新核函数权重向量pv

类似地，核函数权重向量pv也可依视图独立更新，此时式(11)等价于：

(18)

定义向量z,其第t个分量为

则式(18)可等价变换为

(19)

问题式(19)的拉格朗日函数为

(20)

据KKT条件可知，令L(p,λ)关于pj的一阶导数为零，并结合约束可得pj的解析解为

(21)

3.5 固定其他变量更新聚类指示矩阵Y

固定其他所有变量，对式(11)求解Y等价于：

(22)

令则式(22)等价于：

(23)

因Y为类别指示矩阵，显然式(23)有解析解为

(24)

3.6 固定其他变量更新视图权重向量w

固定其他所有变量，对式(11)求解w等价于：

s.t.wT1=1,wv≥0(∀v).

(25)

定义辅助向量y和x，其元素分别为和则式(25)等价于：

s.t.wT1=1,wv≥0(∀v).

(26)

问题式(26)可求解如下.据Cauchy-Schwarz不等式有：

(27)

其中，(a)成立基于当x∝y时，不等式(b)的等号成立，即式(26)的目标函数最小值为

(xTy)2=,

(28)

将式(28)的结论回代到问题式(25)，简单计算可得：

(29)

总结本文模型(LMLFMC)的求解算法.

算法1. LMLFMC.

输入：多视图数据Xv、邻居个数k、类别数c、参数μ和λ、最大迭代次数tmax;

输出：类别指示矩阵Y.

① 初始化：t=0，生成核矩阵，初始化w,p.

② 对每个视图Xv：

按式(13)更新Sv;

求解子问题式(15)更新Fv；

按式(17)更新Rv；

按式(21)更新核矩阵权重向量pv.

③ 按式(24)更新Y；

④ 按式(29)更新视图权重向量w；

⑤ 重复②～④直到最大迭代次数.

4 实验与结果分析

4.1 实验方案

实验环境为Intel Xeon Gold 6254@3.10 GHz(X2)CPU,768 GB RAM,2×Tesla V100 GPU.操作系统为Windows Server 2019,编程语言为Matlab.

本文选取6个多视图聚类中广泛采用的公开数据集进行实验：文本数据集3source和BBC,图像数据集Caltech101_7,100leaves和ALOI,以及网络 width=5,height=17,dpi=110 文本数据集WebKB.详情如表1所示：

Table 1 Detailed Information of Benchmark Datasets
表1 基准数据集详细信息

DatasetNVCd1d2d3d4d5d63source16936356036313068BBC685454659463346654684100leaves16003100646464Caltech101_0714746748402541984512928ALOI11025410077136464WebKB203341703230230

表1中N、V、C分别代表数据集的样本个数，视图个数和类别数.di代表第i个视图的特征维数.

实验对原始数据进行归一化处理，采用12个核函数进行多核学习[24]，包括：线性核K(x,y)=xTy；4个多项式核K(x,y)=(a+xTy)b，其中a∈{0,1}，b∈{2,4}；7个高斯核其中dmax为样本间的最大距离，ξ∈{0.01,0.05,0.1,1,10,50,100}.

本文选取了多个代表性多视图聚类算法进行对比分析.包括：MKC(multi-view K-means clustering)[33]，MVCNMF(multi-view clustering via non-negative matrix factorization)[34],CRSC(co-regularized spectral clustering)[35]，RMSC(robust multi-view spectral clustering)[36]，ASMV(adaptive structure-based multi-view clustering)[16]，AMG(auto-weighted multiple graph-learning)[7]，MKMVC(multi-kernel multi-view clustering)[10]，MGFSC(multi-graph fusion spectral clustering)[8].同时，也将标准谱聚类SC(spectral clustering)[37]应用到每一个视图，并给出SC在各单视图的最佳和最差结果.所有算法运行10次，给出结果的均值和方差.

4.2 实验结果分析

本文采用ACC,MNI,F-measure和ARI这4个指标进行聚类效果评价.实验结果如表2～7所示.其中SC_w(Vi)和SC_b(Vj)分别表示将SC应用到相应数据集的各个单视图，分别在第i个和第j个视图上得到的最差(worst)和最佳结果(best).最好的2个结果用黑体显示.

Table 2 Cluster Performance on 3sources Dataset
表2 3sources数据集上的聚类性能

MethodACCNMIF-measureARISC_w(V3)33.55(0.29)6.08(0.47)36.44(0.21)-1.05(0.34)SC_b(V1)34.91(0.00)5.86(0.00)36.96(0.00)-0.36(0.00)MVCNMF51.18(1.73)47.04(1.89)45.64(1.40)29.48(1.87)MKC47.99(3.35)36.30(6.50)38.25(3.98)20.79(4.02)CRSC55.43(4.08)51.57(2.62)48.83(3.07)34.72(4.20)RMSC48.17(1.85)40.71(2.17)42.34(2.13)27.97(2.82)ASMV33.73(0.00)8.96(0.00)35.28(0.00)-2.11(0.00)AMG67.51(3.12)57.88(4.73)60.10(4.78)44.88(7.73)MKMVC72.17(0.00)56.82(0.00)59.63(0.00)46.39(0.00)GFSC70.26(2.21)59.21(2.42)62.66(2.08)47.20(3.96)LMLFMC78.11(0.00)66.98(0.00)70.87(0.00)61.14(0.00)