![机器学习:从公理到算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/786/920786/b_920786.jpg)
5.1 主成分分析
当c=1,对象都属于一个类。对于一个类来说,最简单的假设是其对应的对象应该有某些共同的特性。根据前面的假设容易知道,N个对象O={o1,o2,…,oN}在输入空间的共性是所有对象都可位于一个p维坐标系中,在输出空间的共性是所有对象都位于一个d维坐标系中。因此,一个自然的假设是其对应的类表示是一个坐标系。这样,对于对象集O={o1,o2,…,oN}来说,就存在两个类表示。选取哪一个更加合适呢?根据奥卡姆剃刀准则,显然d维坐标系比p维坐标系简单,因此,应该选取d维坐标系来做类表示。由于输入空间与输出空间对应的都是对象的表示且d<p,因此一个自然的假设就是输出空间的d维坐标系可以嵌入输入空间的p维坐标系中。换句话说,Y=[yrk]d×N是这些对象在一个d维坐标系下的坐标,而该d维坐标系的坐标基可以被p维空间中的向量表示,因此,X=[xrk]p×N是这些对象在p维空间的一个嵌入表示。根据同样的分析,在所有的d维坐标系中,最简单的d维坐标系应该是正交坐标系,即其坐标基是单位正交基。故可设其单位正交基分别为w1,w2,…,wd,坐标原点为x0。由此可以知道,其中
,δij=1当i=j,δij=0当i≠j,yrk=(xk−x0)Twr,x0,wi是p×1向量。
由于类表示唯一公理成立,因此一个好的类认知表示需要使得类紧致。因为与
都是坐标系,因此,如果一个对象可以由该坐标系表示,就认为没有差异。故
,而
表示了对象特性输入表示x与类认知表示
的相异度。
易证。显然,如果x是以x0为原点的正交坐标基{w1,w2,…,wd}的线性组合,
此时意味着x可以被
完美表示。因此,如果
,则对象O={o1,o2,…,on}可以被以x0为坐标原点、以{w1,w2,…,wd}为有序正交坐标基完美表示,此时输入类相异度为零。一般情形下,
不成立。
因为类表示唯一性公理成立,类紧致性准则可以用来搜寻最优类表示。故最优
应使得类内方差(5.1)最小化:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00066.jpg?sign=1738799924-9b9B7HQKUjrRSESvqSTsOQfA0bhYkorD-0-768cd58a1f1150bc56d2965085fc5a7c)
显然在约束∀i∀j,下,求目标函数(5.1)最小化,可使用拉格朗日乘子法。
由拉格朗日乘子法,得到如下拉格朗日辅助函数(5.2):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00067.jpg?sign=1738799924-jYHdTwymx9qM6q7Vr0tXohgCCCK9hzo8-0-7b6ba298d56c693ceb65fd00085721b6)
求目标函数L的一阶导数,可得到公式(5.3):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00068.jpg?sign=1738799924-vUY2TRjuvu0Xpi7Jx8wNeMvxXQyTOTle-0-c66a2534edfb45965c48ffbb0ce470c3)
要最大化目标函数L,可令公式(5.3)为零,由此可以知道,
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00069.jpg?sign=1738799924-FxLObNraLrHxE08cnx4rSqRodLe3XNKN-0-3f73949394c6b4bbc323cd17bd7d6ae9)
由公式(5.4)可知,λi是的特征值。容易知道
x0)(xk−x0)T是半正定矩阵,其特征值必定非负,即∀i,λi≥0。由此可以将公式(5.1)化简为公式(5.5)
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00070.jpg?sign=1738799924-y0bFHnewC54oyqt5BugWC6YTkcBzhq9T-0-8f4b4d3788087518af0fb4861fcc62ec)
令,则
。同时,根据方阵的性质,有
,其中λi是
的第i个特征值。由此可以将公式(5.5)写成
。因此,要使得公式(5.5)达到最小值,需要求得
的前d个最大特征值。显然其最大特征值对应的特征向量归一化后,公式(5.4)第二项的意义是投影后样本具有最大方差。
通过上面的分析,可以得到,此即主成分分析。显然主成分分析就是求一个最能代表N个对象的正交投影坐标系,此最优正交投影坐标系为该类的类认知表示,在该表示下,样本的方差最大。