基于delta范数的核化主成分分析
一、研究背景
在模式识别和机器学习领域,特征提取是最重要的问题之一。主成分分析(PCA)、线性判别分析(LDA)和神经网络是三种经典方法。其中,主成分分析可谓是应用最为广泛的降维和特征提取工具,它在人脸、掌纹等生物特征识别任务上取得了卓有成效的进展。然而,现有的这些降维模型在噪声环境下的稳健性仍然不足以应对诸如遮挡、光照变化、随机噪声等带来的困难场景的识别问题。与此同时,同时这些模型的迭代求解又在一定程度限制了识别任务的实时性。本课题旨在研究保证算法高效实时性的前提下,如何有效地提高算法在噪声环境下的识别精度。
二、研究现状
主成分分析(PCA)是模式识别和计算机视觉中非常重要的降维学习工具,但它存在两方面的局限。一是它对稀疏腐蚀和异常值不具有鲁棒性,二是它是一种处理非线性数据的线性方法。
首先是鲁棒性的问题。传统的主成分分析方法采用了l2范数,而平方的l2范数夸大了异常值的影响,其性能受到异常值处理的限制。因此,近年来,人们为提高主成分分析的鲁棒性做出了大量的努力,提出了一些PCA的变体。根据产生鲁棒性的方法,可以将方法大致分为两类。
一类是处理数据库中的噪声样本,例如l1范数PCA(l1-PCA),旋转不变l1范数PCA(R1-PCA)与基于l1范数最大化的PCA(PCA-l1)。L1-PCA相对于l2范数会更稳健,但它不具备旋转不变性,且忽略了图像的空间结构。R1-PCA与PCA-l1相对于l2范数能更快的收敛,且两种算法都是旋转不变的。然而,R1-PCA容易受到子空间维数的影响,另外当输入空间维数很大的时候,R1-PCA需要大量的时间来实现收敛,此外,上述方法的增量实现未知,它们二者对于大型训练集的计算代价很高,并且不适合在线学习。再比如鲁棒PCA(R-PCA),它可以在低秩矩阵被稀疏噪声破坏时进行恢复。然而,在实践中,许多矩阵是高秩的,因此不能通过RPCA恢复。
另一类是试图同时削弱受污染部分的影响,提高未污染部分的作用,以减轻异常值的影响,比如加权PCA(WPCA)与Euler PCA(EPCA)。WPCA采用加权的欧氏距离来度量,可以在不增加运算量的情况下大大提高识别率。EPCA采用了一种基于Euler表示的鲁棒相异测度,它具有快速增量计算的优点,并保留了标准l2范数PCA的优点,同时抑制异常值。但是以上方法两种方法都忽略了图像结构的整体性。
再来是针对非线性问题,当数据点位于高度非线性空间时,PCA不能简洁地捕捉数据结构。为了克服这个问题,人们提出了几种PCA的非线性扩展,特别是核主成分分析(KPCA)。KPCA的基本思想是将数据隐式地映射到高维(通常是无限维)的非线性特征空间中,并在该空间中执行主成分分析。然而,KPCA存在两个问题,一是它对稀疏噪声不具有鲁棒性,二是为了考虑非线性关系,通常需要构造一个完整的ntimes;n核矩阵,较大的n会耗费太多的空间和时间,尽管Nystrom方法和随机特征映射等技术可以较好地解决,但它们不能显式地维护流中的基向量,并且占用更多的空间比预期的要多。针对前一个问题,人们提出了一种同时处理非线性数据和稀疏噪声的新方法鲁棒核PCA(RKPCA),该算法也有效地解决了高(满)秩矩阵的恢复问题。而对计算和存储核矩阵的问题,人们提出了一种新的流方法(SKPCA),他在测试时间上相较于其他技术有所改进,在其他空间度量和训练时间上也有较好的效果。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。