范畴表示机器学习算法

(苏州大学计算机科学与技术学院江苏苏州 215006) (苏州大学机器学习与类脑计算国际合作联合实验室江苏苏州 215006)

摘要 长期以来，人们认为表示问题是机器学习领域的瓶颈问题之一.机器学习方法的性能在很大程度上依赖于数据表示的选择.数据表示领域的主要问题是如何更好地学习到有意义和有用的数据表示.宽泛来看数据表示领域有深度学习、特征学习、度量学习、成分建模、结构化预测和强化学习等.这些技术应用的范围也非常广泛，包括图像、语音识别和文字理解等.因此，研究机器学习表示方法是一件长期且具有探索意义的工作.基于此，利用范畴理论来研究机器学习方法的表示，提出了范畴表示机器学习方法的基本概念.对决策树、支持向量机、深度神经网络等方法进行研究分析，提出了范畴表示分类算法、范畴表示决策树算法、切片范畴表示主成分分析和支持向量机算法、范畴函子表示深度学习方法，给出相应的理论证明及可行性分析.并对这5种算法做了深入分析，找到了主成分分析和支持向量机之间的本质联系，最后通过仿真实验论证范畴表示方法的可行性.

关键词 范畴表示；机器学习；机器学习表示；范畴表示学习；范畴表示学习算法

众所周知，机器学习方法的性能很大程度上依赖于数据的表示.表示作为机器学习基本问题之一，一直倍受研究者的关注.表示学习领域的发展速度决定更好的数据表示出现的时间.表示具有广泛的应用领域，主要涉及深度学习 [1-3] 、特征学习 [4-5] 、度量学习 [6] 、核学习 [7] 、成分模型 [8-9] 、非线性结构预测 [10-11] 、非凸优化问题 [12-13] 等.在2013—2015年举办的学习表示国际会议 [14-23] 上出现了许多为解决这一问题的思路与方法.这些方法仅是从某类学习方法出发探讨表示问题，而没有给出具有普遍意义的表示方式.如文献[1]从深度学习角度研究文本识别，文献[7]用基于高斯核密度的贝叶斯网络做分类等.并不是从整体普遍的角度来考虑，就分类而言，我们考虑所有的分类算法，如何寻找这些算法的相同点、相异点；寻找到了又如何表达，又如何利用这些相同点、相异点来提高算法效率或者寻找新的算法.为此本文利用范畴理论来研究机器学习方法的一般表示，将现有的以及可能有的机器学习方法包含进范畴表示学习的框架里来给出理论证明，并在文中对几种机器学习方法做了比较详细的研究分析.

综上所述，本文用范畴理论来描述机器学习方法的表示问题有两大优势：1)机器学习表示问题可以转换成输入输出以及它们的关系问题来解决，这符合了范畴的基本思想；2)范畴理论是一个强大且富有兼容性的数学理论，可以将我们现有的以及将有的机器学习方法都用范畴表示，从而进一步利用范畴良好的数学性质来建立机器学习表示理论体系.

1 机器学习方法范畴表示定理

为了便于理解范畴表示学习理论框架，在此给出范畴的基本概念.

2) 任意一对对象A,B，对应映射的集合

(A,B).其元素称为态射( morphism )，使得当A≠A′或者B≠B′时，

(A,B)与

(A′,B′)不交.并满足下面条件:

① 复合运算律( composition law ).若f∈

(A,B)，g∈

(B,C)，A,B,C∈obj，则存在唯一的gf∈

(A,C),称为f与g的复合.

② 结合律( associativity ).若f∈

(A,B),g∈

(B,C)，h∈

(C,D)，A,B,C,D∈obj，则有(hg)f=h(gf).

③ 单位态射( identity morphism ).每一个对象A存在一个态射I A ∈

(A,A)使得对任意的f∈

(A,B)及g∈

(C,A)有fI A =f和I A g=g.

则映射共有3 3 =27个构成集合

(A,B).在此对于每一个映射就是一个态射.更一般地给出一些常见范畴的对象和态射.如表1所示：

Table 1 Example of Category
表1 范畴实例

根据机器学习方法的一般定义：F：X→Y，其中，F表示机器学习方法，X表示样例集合，Y表示实例集合.结合范畴的基本概念，下面给出机器学习方法范畴( category of machine learning algorithm , CMLA )的定义.

2) 任意一对对象A,B对应映射的集合

(A,B).其元素称为态射，使得当A=A′或者B=B′时，

(A,B)与

(A′,B′)不交.

说明：1)这里的对象对应学习问题中的各种训练集、测试集、属性和项的集合，所有的对象组成对象族obj；2)态射是2个对象之间保持特性的过程的一种抽象，这里对应样例集合到实例集合之间的过程抽象.对于不同算法之间的区别在于样例集合、实例集合不同或为空，以及过程抽象不同或者过程选择不同.从而我们将单个学习问题中的各种输入样例集合表示为A：A∈obj，输出实例集合表示为B：B∈obj和其他看成一个或几个对象，并将所有学习问题的所有对象组成对象族；将单个学习问题中的输入样例输出特性之间保持特性的过程抽象为态射，从而所有的态射就构成了对象对应映射的集合

(A,B)，这就是一个学习状态.

定理1 . 机器学习方法范畴表示定理(category representation of machine learning algorithm，CRMLA):机器学习方法构成一个范畴.即机器学习方法可用范畴表示.

证明. 根据定义2描述的机器学习方法范畴的构成可知，每一个输入样例都有对应的输出特性，即样例集与特性集的映射为满射.整个机器学习方法系统的各种训练集、测试集、属性和项的集合构成对象族obj.在obj中,任何一对对象A,B,我们都可以找到一个集合

(A,B)，使它们形成一个态射.比如对象A定义为一个算法的输入集合，对象B定义为一个算法的输出集合，在任何系统中都存在一个从输入到输出的一条路径，这条路径我们可以用

(A,B)表示，即从对象A到对象B的一个态射.

同时在单个机器学习方法中，输入对象A，经过一个或多个模块的处理即多个态射的运算，可以得到输出对象B，在此过程中满足每对不同对象之间的态射是不相交的，即A=A′或者B=B′时，

(A,B)与

(A′,B′)不交，满足范畴的定义.同时容易验证存在单位态射，由定义2可知在算法中单个态射为满射，从而满足复合运算率以及结合律.综上所述，机器学习方法构成一个范畴.

2 范畴表示分类算法

已知集合：C={y 1 ,y 2 ,…,y n }和I={x 1 ,x 2 ,…,x m ,…}，确定映射规则y=f(x)，使得任意x i ∈I有且仅有一个y i ∈C使得y i =f(x i )成立(这里不考虑模糊数学里的模糊集情况).其中，C叫作类别集合，其中每一个元素是一个类别；而I叫作项集合，其中每一个元素是一个待分类项；f叫作分类器.分类算法的任务就是构造分类器f.这就是分类算法的基本思路.

1) 对象族obj={C′,I,…}.其中C′为对应的x i 的集合(在实际操作中一般C=C′).

2) 任意一对对象A,B对应映射的集合

(A,B).其元素称为态射f：C′→I，使得当A=A′或者B=B′时，

(A,B)与

(A′,B′)不交.

说明：1)这里的对象是分类算法中的各种类别集合与项集合，所有的对象组成对象族；2)态射是对应的分类构成的集合.

证明. 显然存在单位态射，由定义3可知对于任意x i ∈I有且仅有一个y i ∈C′从而可知：1)每对不同对象之间的态射是不相交的；2)所有态射都为满射，从而满足复合运算率以及结合律.

输入：训练数据 X =( x 1 , x 2 ,…, x n )、类别信息 Y =(y 1 ,y 2 ,…,y m )、测试数据 x ；

步骤1. 计算每个类别条件下各个特征属性划分的频率：P( x 1 |y 1 ),P( x 2 |y 1 ),…,P( x n |y 1 )；P( x 1 |y 2 )，P( x 2 |y 2 ),…,P( x n |y 2 )；…；P( x 1 |y m ),P( x 2 |y m ),…，P( x n |y m )；

结合分类算法范畴以及朴素贝叶斯分类算法，我们不难发现，设f =y i： max (P( x |y i )P(y i )) ，那么定义朴素贝叶斯算法范畴.在朴素贝叶斯算法范畴中，对象为训练数据 X 、类别信息 Y ，那么f： X → Y 就是朴素贝叶斯算法范畴的一个态射.

输入：E=D 1 ×D 2 ×…×D m 是m维有穷向量空间，其中D i 是有穷离散符号集，E中的元素 e =(v 1 ,v 2 ,…,v m )叫作例子，其中v j ∈D j ,j=1,2,…,m.设PE和NE是E的2个子集，分别叫作正例集和反例集，向量空间E中的PE和NE的大小分别定义为p和n;

步骤1. 节点S信息熵：Entrop(S)=-p

(p+n)× lb ((p

(p+n))-n

(p+n)× lb (n

(p+n))；

步骤4. 选择使Gain(S,A)最大的属性A * ，即 Entrop(S i ,A)最小，作为根节点；

步骤5. 对A * 的不同取值对应的E的k个子集E i ,递归调用步骤1～4过程生成A * 的子节点B 1 ,B 2 ,…,B k ，最终生成决策树.

对比算法1与算法2，我们不难发现,最终生成的决策树是决策树算法范畴中的一个态射，并且定义也类似,在此就不进行赘述.但是我们发现：如果在解决同一问题时，那么分别由朴素贝叶斯算法生成的态射和决策树方法生成的态射都属于同一训练数据到类别信息映射集合的一个元素,但是明显可以发现决策树算法的态射比朴素贝叶斯分类算法的态射要复杂得多.这就体现了范畴表示算法的多样性.

输入：训练数据 X =( x 1 , x 2 ,…, x m )、类别信息 Y =(y 1 ,y 2 ,…,y n )、测试数据x；

在此仅从宏观的分类算法角度来研究支持向量机算法的范畴表示，第3节还会从本质核心的角度来研究，所以仅展示算法的输入输出，具体过程在第3节阐述.

之前已经讲述了2个算法实例，举这2个算法是为了说明范畴表示学习方法的多样性.在此给出第3个算法实例的原因是与第3节用切片范畴表示支持向量机算法做对比，更进一步说明范畴表示学习方法的多样性.由于已经给出了2个算法实例，在此用一句话简略说明支持向量机算法范畴：以训练数据 X 和类别信息 Y 作为对象，以决策函数g： X → Y 作为其态射的范畴.纵观这3个算法实例，我们可以发现范畴表示学习方法十分简洁精炼，但又可以说明问题.

3 切片范畴表示PCA amp; SVM算法

为了说明如何用切片范畴表示主成分分析(principal component analysis， PCA)和支持向量机(support vector machine, SVM)算法，在此给出切片范畴的基本概念.

定义4 . 切片范畴( slice category ).设B为范畴

中的一个对象，考虑范畴中以B为值域的态射φ：T→B，记作(T，φ).则可以构造一个以所有(T，φ)为对象的新范畴，任意2个以B为值域的态射f：A→B和g：C→B，构造态射h：(A，f) →(C，g)是指h：A→C满足f=gh.如图1所示：

Fig. 1 Slice category over B
图1 B上切片范畴

称这样得到的范畴就为B上的切片范畴( slice category over B)，记作

B.对偶可以得到B下的余切片范畴( coslice category under B)，记作B

例2 . 对象A={a，b，c}，B={1，2，3}，C={●，■，▲}对应态射和切片范畴如图2所示:

主成分分析是一种统计分析方法，它可以从多元事物中解析出主要影响因素,主成分分析的目的是将高维数据投影到较低维空间.

步骤1. 将 X 的每一行(代表一个属性字段)进行零均值化，即减去这一行的均值

步骤2. 求出协方差矩阵 W =1

及协方差矩阵的特征λ值和对应的特征向量；

步骤3. 将特征向量按对应特征值大小从上到下按行排列成矩阵 W ′，取前k行组成矩阵 P ， Z = PX 即为降维到k维后的数据.

设数据原始空间及其内部关系构成范畴

，不妨设f： X → O 为范畴

中的一个态射， O 为数据本质.在数据的低维空间中其以及其内部关系构成范畴

，不妨设g: Z → O 为范畴

中的一个态射，其中 Z 为低维数据.构造 O 上的切片范畴，不妨设为

，有h: X → Z ，满足f=hg.其中的f,我们在大多数情况下不知道或者在可计算时间内无法求解，但是可以通过构造切片范畴找到合适的 Z ，满足在 Z 上比 X 上更容易更快速地寻找到理想的g.在此虽然我们不知道f和g的具体表达式，但是我们可以给出 Z 上的切片范畴

的态射表达式h= PX .此时在 Z 上，数据就呈现出一种以尽可能少的维度表示最多的数据本质信息.

支持向量机是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析.

输入：训练数据 X =( x 1 , x 2 ,…, x n )、类别信息 Y =(y 1 ,y 2 ,…,y m )、测试数据 x ；

步骤1. 原规划 max 1

‖ w ‖，使得y i ( w T x i +b)≥1,其中i=1,2,…,n，即 min ‖ w ‖ 2

2 使得y i ( w T x i +b)≥1,其中i=1,2,…,n；

步骤2. 拉格朗日对偶L( w ,b, a )=‖ w ‖ 2

其中 a =(a 1 ,a 2 ,…,a n )为拉格朗日参数；

类似地，设数据原始空间及其内部关系构成范畴

，不妨设f： X → Y 为范畴

中的一个态射， Y 为数据标签在此可类比数据本质.在数据的高维甚至无限维空间中其以及其内部关系构成范畴

，不妨设g： H → Y 为范畴

中的一个态射，其中 H 为高维甚至无限维数据.构造 H 上的切片范畴，不妨设为

，有h: X → H ，满足f=hg.其中的f,我们在大多数情况下不知道或者在可计算时间内无法求解，但是可以通过构造切片范畴找到合适的 H ，满足在 H 上比 X 上更容易更快速地寻找到理想的g.在此对应的 H 上的切片范畴

的态射表达式h=ψ( x ).结合第2节 SVM 算法的宏观范畴表示，我们可以发现对同一算法从不同范畴角度观察分析会得到不一样的表达但是它们都是同一个算法.

SVM 与 PCA 算法的本质核心都是将数据投影到其他空间，然后利用其他空间的特性来进行处理.但是 SVM 与 PCA 不同的是：1) SVM 寻找的空间不是低维空间而是高维甚至无限维空间，无法轻易直观地对数据进行表示；2)在 PCA 中f和g都是不知道具体表达式的，但在 SVM 中g是已表达的.下面给出切片范畴表示 PCA amp; SVM 算法示意图，如图3所示：

Fig. 3 Slice category representation of PCAamp;SVM
图3 切片范畴表示PCAamp;SVM算法

4 范畴函子表示Deep Learning算法

为了说明如何用范畴函子表示Deep Learning算法，在此给出范畴函子的基本概念.

定义5 . 函子( functor ).设

和

是2个范畴.一个函子F:

→

是由2个映射组成:

满足dom(F(f))=F(dom(f)),cod(F(f))=F(cod(f))，F(I A )=I F(A) .并且若dom(g)=cod(f)，则F(g f)=F(g)F(f).其中,dom为定义域，cod为值域.

Deep Learning 算法常见有3种类型：有监督深度学习、无监督深度学习和混合深度学习.监督学习主要用于处理回归和分类问题；无监督学习主要用于处理聚类和密度估计问题；混合深度网络则综合了前2种方式.为了呼应第2节，在此仅以有监督深度学习中的分类算法为例.

输入：训练数据 X ={ x 1 , x 2 ,…, x n }、标签数据 Y ={y 1 ,y 2 ,…,y m }、测试样本 x 、k层深度网络；

设 Deep Learning 算法(n层)的每一层为一个范畴，记为

2,…,

n.第i层，其对应对象族为objd i 关系为f i ：subs(objd i )→subs(objd i )，其中subs为子集.从而算法的目标就是构建函子串，使得在兼顾鲁棒性的情况下提升精确度.函子串定义如下：第i层向第i+1层的函子F i ：

i→

i+1对应2个映射为objd i →objd i+1 ：A|→F i (A)；mord i →mord i+1 ：f|→F i (f).从而我们就得到了 Deep Learning 算法的范畴函子表示.

5 实验仿真

本文进行实验仿真的目的是为了验证范畴表示机器学习方法的可行性，第2～4节中我们对决策树算法、支持向量机算法、深度学习方法进行了理论阐述以及证明.在本节主要针对这3个算法进行可行性验证.

在第2节中我们将决策树算法进行了范畴表示，下面就从范畴表示角度进行计算验证算法的可行性.表2为10位志愿者的房产、婚姻、收入、债务情况.我们将以此为例，通过房产、婚姻、收入来预测能否还清债务，并预测第11位志愿者(无房产、单身、收入5.5万元)的债务情况.

Table 2 Situation of Volunteers
表2 志愿者情况

由第2节决策树范畴中的态射构造方法我们可以计算(不妨将收入分为大于等于8和小于8这2类)：

Entrop ( S )=-0.3 lb 0.3-0.7 lb 0.7=0.811.
Entrop ( Property Y )=0，
Entrop ( Property N )=0.985.
Entrop ( Marriage Single )=1，
Entrop ( Marriage Married )=0，
Entrop ( Marriage Divorce )=1.
Entrop ( Income ≥8 )=0.985，
Entrop ( Income lt;8 )=0.
Entrop ( S , Property )=
0.3×0+0.7×0.985=0.69，
Entrop ( S , Marriage )=
0.4×0+0.4×0+0.2×1=0.6，
Entrop ( S , Income )=0.7×0.985+0.3×0=0.69.
Gain ( S , Property )=0.811-0.69=0.121，
Gain ( S , Marriage )=0.811-0.6=0.211，
Gain ( S , Income )=0.811-0.69=0.121.

从而我们的根节点就是婚姻，重复此过程得到其他分支节点及叶子节点，得到最终态射 f 如图4所示:

Fig. 4 The morphism f
图4 态射f

在第3节中我们将SVM算法进行了范畴表示，下面就从范畴表示角度进行计算验证算法的可行性.实验从人工数据集和ORL人脸数据集上进行验证.

人工数据集(采用线性核)采用服从高斯分布的2组点，分别以(0,0)(2.5,2.5)为中心且标准差为1的2组点，每组100个，进行10次实验取平均准确率为96.57%.其中单次实验效果如图5所示：

Fig. 5 Experimental results on artificial data sets
图5 人工数据集实验效果

ORL人脸数据集(采用高斯核) 包含400幅人脸图像(40人×10)，其中每幅图像大小为112×92.其中一半测试一半训练，高斯核参数选取(0.01,128).多分类构建39×40/2个分类器投票决定类别，10次实验平均准确率为93.68%.

由这2组实验不仅验证范畴表示机器学习方法的可行性，同时第1组实验又构成了第2节范畴表示分类算法的一个例子，第1组实验验证了切片范畴表示SVM算法的可行性.结合第1,2组实验发现SVM可用范畴理论来表示体现了范畴表示机器学习方法的多样性.

MNIST数据集 [24] 是由0～9的手写体数字组成(即10类数据)，包含了60 000张训练图像和10 000张测试图像，每张图像为28×28的灰度图，图6给出了MNIST数据集的一些示例样本.图7为在手写体数据集上196个隐单元的可视化效果.

Fig. 6 Sample for handwritten data set
图6 手写体数据集的示例样本

Fig. 7 Visualization of 196 hidden units on handwritten data set
图7 在手写体数据集上196个隐单元的可视化效果

COIL数据集 [25] 包含的样本为日常生活中的一些瓶子、罐子以及盒子之类的物体.该数据集有7 200张灰度图像，共100类数据，每个类别72张图像，每张图像的大小为32×32.图8给出了该数据集的一些示例样本，有100个样本，分别属于不同的类别.图9 COIL数据集上训练所得196个隐单元的可视化效果我们从每个类别中随机地挑选出50张图像，共计5 000张图像作为训练集，剩余的1 200张图像作为测试集.实验中，MNIST和COIL数据均被归一化到了[0,1]之间.

Fig. 8 Sample for COIL data set
图8 COIL数据集的示例样本

Fig. 9 Visualization of 196 hidden units on COIL data set
图9 COIL数据集上训练所得196个隐单元的可视化效果

本次实验在2个数据集上分别采用深度学习方法，网络的隐单元数均被设为196.MNIST训练样本被随机划分成600批，每批100个样本；COIL训练样本被随机划分成50批，每批100个样本(每一类包含一个数据).最后通过softmax分类器对测试数据进行分类10次实验求平均准确率：在MNIST数据集上为93.03%，在COIL数据集上为98.08%.这不仅验证了范畴表示方法的可行性，同时由可视化效果(图7和图9)可以发现范畴表示方法十分符合人类认知习惯.

6 结束语

本文提出了一种机器学习表示新方法，即范畴表示机器学习方法，并且结合多种机器学习方法来实例验证了机器学习方法表示针对统一性问题的一种可能解法.这种方法包容了所有的机器学习方法，并能对部分方法的本质原理给出依据.因此，本文的创新点主要体现在：

1) 机器学习方法可用范畴表示.不同算法可用同一范畴表示，同一算法可用不同范畴理论表示.这体现了范畴表示机器学习方法的统一性和多样性.

2) 范畴表示机器学习方法能够从表面以及本质上看清算法，同时能够寻找符合人们的认知习惯的表示特征.

范畴表示学习刚刚开始，还有许多工作要做.例如范畴表示学习的拓扑问题、范畴表示学习的流形问题、范畴表示学习的优化问题等.

[1]Belharbi S, Chatelain C, Herault R, et al. Deep structured output learning for unconstrained text recognition[OL]. 2015 [2016-02-06] . https:

arxiv.org

pdf

1412.5903.pdf

[2]Mao Junhua, Xu Wei, Yang Yi, et al. Deep captioning with multimodal recurrent neural networks[OL]. 2014[2016-02-06] . https:

arxiv.org

pdf

1412.6632v3.pdf

[3]Goodfellow I J, Vinyals O, Saxe A M. Qualitatively characterizing neural network optimization problems[OL]. 2014 [2016-02-06]. https:

arxiv.org

pdf

1412.6544.pdf

[4]Liu Tong, Si Yunjuan, Wen Dunwei, et al. Dictionary learning for VQ feature extraction in ECG beats classification[J]. Expert Systems with Applications, 2016, 53: 129-137

[5]Tao Chao, Pan Hongbo, Li Yansheng, et al. Unsupervised spectral-spatial feature learning with stacked sparse autoencoder for hyperspectral imagery classification[J]. IEEE Geoscience amp; Remote Sensing Letters, 2015, 12(12): 2438-2442

[6]Wang Wei, Hu Baogang, Wang Zengfu. Efficient and scalable information geometry metric learning[C]

Proc of the 13th IEEE Int Conf on Data Mining. Los Alamitos, CA: IEEE Computer Society, 2013: 1217-1222

[7]Wang Shuangcheng, Gao Rui, Wang Limin. Bayesian network classifiers based on Gaussian kernel density[J]. Expert Systems with Applications, 2016, 51(C): 207-217

[8]Crouzen P, Hermanns H. Aggregation ordering for massively compositional models[C]

Proc of the 10th Int Conf on Application of Concurrency to System Design. Los Alamitos, CA: IEEE Computer Society, 2010: 171-180

[9]Virtanen T, Gemmeke J F, Raj B, et al. Compositional models for audio processing: Uncovering the structure of sound mixtures[J]. IEEE Signal Processing Magazine, 2015, 32(2): 125-144

[10]Michel O, Hero A. Tree structured non-linear signal modeling and prediction[J]. IEEE Trans on Signal Processing, 1995, 3(2): 267-270

[11]Patel M, Shah H. Protein secondary structure prediction using support vector machines[C]

Proc of the 1st Int Conf on Machine Intelligence and Research Advancement. Piscataway, NJ: IEEE, 2013: 233-244

[12]Parks D, Truszczynski M. Routing non-convex grids without holes[C]

Proc of the 1st Great Lakes Symp on IEEE. Piscataway, NJ: IEEE, 1991: 157-162

[13]Ding Yin, Selesnick I W. Artifact-free wavelet denoising : Non-convex sparse regularization, convex optimization[J]. IEEE Signal Processing Letters, 2015, 22(9): 1364-1368

[14]Bribiesca E, Bribiesca-Contreras G. 2D tree object represen-tation via the slope chain code[J]. Pattern Recognition, 2014, 47(10): 3242-3253

[15]Chen Lichi, Hsieh J W, Yan Yilin, et al. Vehicle make and model recognition using sparse representation and symmetrical SURFs[J]. Pattern Recognition, 2013, 48(6): 1143-1148

[16]Fraz M, Edirisinghe E A, Sarfraz M S. Mid-level represen-tation based lexicon for vehicle make and model recognition[C]

Proc of the 22nd Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2014: 393-398

[17]Liu Haifeng, Yang Zheng, Yang Ji, et al. Local coordinate concept factorization for image representation[J]. IEEE Trans on Neural Networks amp; Learning Systems, 2014, 25(25): 1071-1082

[18]Healy M J. Category theory applied to neural modeling and graphical representations[C]

Proc of the 1st Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 2000: 30-45

[19]Jadoon W, Zhang Haixian. Locality features encoding in regularized linear representation learning for face recognition[C]

Proc of the 2nd Int Conf on Frontiers of Information Technology. Los Alamitos, CA: IEEE Computer Society, 2013: 189-194

[20]Lei Hao, Mei Kuizhi, Zheng Nanning, et al. Learning group-based dictionaries for discriminative image represen-tation[J]. Pattern Recognition, 2014, 47(2): 899-913

[21]Lemus E, Bribiesca E, Gardu

o E. Representation of enclosing surfaces from simple voxelized objects by means of a chain code[J]. Pattern Recognition, 2014, 47(4): 1721-1730

[22]Liang Yan, Lai Jianhuang, Yuen P C, et al. Face hallucination with imprecise-alignment using iterative sparse representation[J]. Pattern Recognition, 2014, 47(10): 3327-3342

[23]Wang Lingfeng, Yan Hongping. Visual tracking via kernel sparse representation with multikernel fusion[J]. IEEE Trans on Circuits amp; Systems for Video Technology, 2014, 24(7): 1132-1141

[24]Lecun Y, Bottou L, Bengio Y, et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324

[25]Nene S A, Nayar S K, Murase H. Columbia object image library (COIL-100), CUCS-006-96[R]. New York: Department of Computer Science, Columbia University, 1996

Xu Xiaoxiang , born in 1991. Doctoral candidate. His main research interests include Lie group machine learning, category theory and homology theory.

Li Fanzhang , born in 1964. Professor and PhD supervisor. Senior member of CCF. His main research interests include Lie group machine learning and dynamic fuzzy logic.

Zhang Li , born in 1975. Professor and PhD supervisor. Senior member of CCF. His main research interests include pattern recognition, machine learning and image processing (zhangliml@suda.edu.cn).

Zhang Zhao , born in 1984. Professor and Master supervisor. Senior member of CCF. His main research interests include pattern recognition, machine learning, data mining and computer vision (cszzhang@suda.edu.cn).

The Category Representation of Machine Learning Algorithm

(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) (Joint International Research Laboratory of Machine Learning and Neuromorphic Computing, Soochow University, Suzhou, Jiangsu 215006)

Abstract For a long time, it is thought that the representation is one of the bottleneck problems in the field of machine learning. The performance of machine learning methods is heavily dependent on the choice of data representation. The rapidly developing field of representation learning is concerned with questions surrounding how we can best learn meaningful and useful representations of data. We take a broad view of the field and include topics such as deep learning, feature learning, metric learning, compositional modeling, structured prediction, reinforcement learning, etc. The range of domains to which these techniques apply is also very broad, from vision to speech recognition, text understanding, etc. Thus, the research on new representation methods for machine learning is a piece of work which is long-term, explorative and meaningful. Based on this, we propose several basic concepts of category representation of machine learning methods via the category theory. We analyze the decision tree, support vector machine, principal component analysis and deep neural network with category representation and give the corresponding category representation for each algorithms: the category representation of decision tree, slice category representation of support vector machine, and functor representation of the neural network. We also give the corresponding theoretical proof and feasibility analysis. According to further reach of category representation of machine learning algorithms, we find the essential relationship between support vector machine and principal component analysis. Finally, we confirm the feasibility of the category representation method using the simulation experiments.

Key words category representation; machine learning; representation of machine learning; category representation learning; category representation learning algorithm

基金项目： 国家自然科学基金项目(61373093,61402310，61672364，61672365)；苏州大学东吴学者计划项目；江苏省普通高校研究生科研创新计划项目

This work was supported by the National Natural Science Foundation of China (61373093, 61402310, 61672364, 61672365), the Soochow Scholar Program of Soochow University, and the Graduate Innovation and Practice Program of Colleges and Universities in Jiangsu Province.