![人工智能:模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/23/33381023/b_33381023.jpg)
2.4 二维主成分分析
众所周知,主成分分析(PCA)是线性特征抽取的最为重要的技术之一,广泛应用在人脸等图像识别领域。采用主成分分析技术进行人脸识别的最为著名的方法是Turk和Pentland所提出的Eigenfaces[23]方法(特征向量转化为图像显示,像一张人脸,故称为特征脸,即Eigenfaces)。尽管Eigenfaces方法在性能上有着不错的表现,但其弱点也是明显的。这是因为传统的PCA是基于图像向量的,图像向量的维数常常高达上万维。尽管利用奇异值分解定理可在一定程度上加速St的特征向量的求解速度,但整个特征抽取过程所耗费的计算量还是相当可观的。
受Liu[24]代数特征抽取思想的启发,本节提出了一种直接基于图像矩阵的PCA方法:二维主成分分析(Two-Dimensional PCA,2DPCA)[25,26]。该方法在处理图像识别问题时,不需要事先将图像矩阵转化为图像向量,而是直接利用图像矩阵本身构造所谓的图像总体散布矩阵,然后取它的d个最大特征值所对应的标准正交的特征向量作为投影轴即可。在标准人脸图像库上的试验结果表明,所提出的方法不仅在识别性能上优于基于传统PCA的Eigenfaces方法,而且大幅度提升了特征抽取的速度。
设X为一个m×n型的图像矩阵,ζ为一个n维单位列向量,我们的思想是将X通过以下线性变换直接投影到ζ上。
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_1.jpg?sign=1739275189-lpGXzVpCO6h138ItiQREeZ7NriKplM2h-0-9dc35c6a90c1b88cf88366436e8681fb)
于是,得到一个m维列向量Y,称为图像X的投影特征向量。那么,究竟往哪个方向投影呢?事实上,可以通过投影特征Y的散布情况来决定投影方向ζ。在此,我们采用以下准则
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_2.jpg?sign=1739275189-O7yPSMfCq8TzeeDgJ66Wlch6mlkVX62O-0-90808a2d64b74a3fda1b9d8ed91847b7)
式中,Sy表示投影特征Y的总体散布矩阵。最大化准则式(2-57)的直观意义是,我们将寻找这样的投影方向ζ,使得投影后所得特征向量的总体散布量最大。Sy可表示为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_3.jpg?sign=1739275189-Kl7LGfOJgKuyPbr9n5RgBC4rZpXyk37R-0-d9f2a1b6f9b5b4b470b09a56c8a34c9b)
则总体散布量为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_4.jpg?sign=1739275189-SBS8lovK0rxjnuBzkHU9HYMiSZo1pJGQ-0-c5a14c09e9ab8f7d8e757bbdfe3a0909)
定义以下的图像总体散布矩阵
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_5.jpg?sign=1739275189-LLzQBXQdVmCUPrC5MGXaXfAQlRAILeQd-0-a27ad8a96f60614fed4a9d725dda758a)
由此定义,易证明Gt为n×n型的非负定矩阵。
故式(2-57)中的准则函数为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_1.jpg?sign=1739275189-yPuVNieZ4iTrzzoNOcH4bHVrsvDdBQr6-0-3d64d172e19622dacd56b91aec61be15)
该准则称为广义总体散布量准则。最大化该准则的单位向量ζ称为最优投影轴,其物理意义是,图像矩阵在ζ方向上投影后所得特征向量的总体分散程度最大。事实上,该最优投影轴即图像总体散布矩阵Gt的最大特征值所对应的单位特征向量。
一般来说,在样本类别数较多的情况下,单一的最优投影方向是不够的,我们希望寻找一组满足标准正交条件且极大化准则函数式(2-61)的最优投影轴ζ1,…,ζd。
由于准则函数式(2-61)等价于
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_2.jpg?sign=1739275189-29BDMjQWZXPYrZCkS6ZpDxCrzMAdR5ch-0-8679d4dc39a73bfa08d2b9960ed05919)
式(2-62)即为矩阵Gt的瑞利商,由瑞利商的极值性质[14],最优投影轴ζ1,…,ζd可取为Gt的d个最大特征值所对应的标准正交的特征向量。具体地讲,设Gt的特征值满足λ1≥λ2≥…≥λn,且对应的标准正交的特征向量为ζ1,…,ζn,则最优投影轴取为前d个ζ1,…,ζd。
基于最优图像投影轴ζ1,…,ζd,令
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_3.jpg?sign=1739275189-fA18Pbp1qrUuFgNr9aOOZl1A0NPuC1Ep-0-1fed9898eb58086a911bbc4648d488f4)
则得到一组m维图像投影特征向量Y1,…,Yd,它们可合并为图像X的一个N=md维整体投影特征Y:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_4.jpg?sign=1739275189-gLO0xbVptBXrKgQCR7NyDuY8NncAfmdp-0-a2bacaaaa9f664f22b347ba378344d77)
Y可以用于随后的分类识别。
接下来介绍基于2DPCA的图像重建。
在特征脸方法中,由特征脸和主成分的加权组合可以重构人脸图像。类似地,2DPCA也可以实现人脸图像的重建。
设ζ1,…,ζd为2DPCA的一组标准正交的投影轴,图像X在这组投影轴上投影后,得到图像投影特征向量为Yk=Xζk(k=1,2,…,d)。令
V=[Y1,…,Yd],U=[ζ1,…,ζd]
则有
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_55_1.jpg?sign=1739275189-HWlk4oH0zwKpVW7v5Zu7isnIrhXC6RGT-0-1ad74b5a5b72aaf62a185ca911ff26a7)
由于ζ1,…,ζd是标准正交的,由式(2-65)容易得到图像X的重建图像:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_55_2.jpg?sign=1739275189-ZLe5dBBPU4KbdKN8d23xDiY3mr8wULcl-0-f7cb23d73ed242a4e65af54960edc646)
每个,与图像X具有相同的大小,构成X的重建子图,通过这些子图的相加可以近似地重建图像X。若选取d=n个主成分向量,其中n是Gt的特征值的总个数,则有
,即实现X的无损重建。否则,若d<n,重建图像
是原始图像X的近似。