鲁棒主成分分析-鲁棒主成分分析源代码-东坡下载

本实验用于验证低秩矩阵恢复算法，将一个低秩的A+稀疏的E得到观测的D，希望从D中恢复出低秩的A。

鲁棒主成分分析算法

1　PCA的原理和鲁棒性

T设输入x为n维的零均值的随机向量。W={w1,w2,…,wm}为n×m维的变换矩阵(m<n),y=Wx

为变换后的随机向量。则y称为随机向量x的m维主成分,如果

2(1)wi=argmax{E(vTix)}vi

并且n维向量vi满足约束条件

α本文于1996年7月20日收到

本文得到国家自然科学基金资助

清华大学智能技术与系统国家重点实验室开放课题基金资助

10系统工程理论与实践

vTivj=0　　Πj≠i

vTivi=11998年1月(2)

i=1,2,…,m。wi称为随机向量x的第i主方向。其中E表示求期望。

传统上,变换矩阵W可以通过对输人随机向量x的协方差矩阵进行特征值分解来获得。设S=E{xxT}为x的协方差矩阵,由于S是正定对称矩阵,所以存在n个不同的正特征值。不妨设为Κ1>Κ2>…>

。因此构成W的m个主方向满足Κn,众所周知第i主方向wi就是Κi所对应的单位特征向量

Swi=Κiwi　　i=1,2,…,m(3)

在实际分析过程中,往往通过统计的办法来估计。给定一个数据集{xi},j=1,2,…,N,可得x的协方差矩阵S的估计为

δS=Nδ进行特征值分解和排序可以得到Κδi和Wδ对Si和W的估计值Κδδδwδ　　i=1,2,…,mSw=Κiii6NxixTi(4)i=1(5)

当前对PCA鲁棒性的考虑主要有两个角度:

一是考虑如何能够达到输出的各主成分之间相互独立。这样就可以把一个多输入的问题分解为多个相互独立的单输入的问题来考虑。毫无疑问,无论输入随机向量x服从何种分布,统计PCA算法得到的m个主成分之间一定是互不相关的,变换为一个对角矩阵,其非对角元(,PCA算法获得的各主成分相互独立当且仅当输入Sn,即其密度函数f)2-()T-1xSx2(6),因此得到的主成分只能。因此,如何在非高斯分布输入的情形下实现各主成分相互独立就成为PCA算法鲁棒性研究的一个主要方向。

现有的主要方法是根据已知的输入样本分布,引入适当的非线性处理环节,提出所谓非线性PCA的算法。这样,就考虑了输入的高阶统计特性,从而实现输出主成分的相互独立。在此基础上,有人提出了独立成分分析(ICA)的概念[3],并且得到了高度的重视。

二是考虑如何去除或减弱有限的训练样本集中少量“劣点”样本的影响从而获得准确主方向。所谓“劣点”样本,直观上是指与样本集中绝大部分样本分布差异过大的极少量样本,它们的存在使得PCA的计算结果会出现很大的误差[2]。“劣点”的产生原因是多方面的,例如突发的随机噪声,测量或者记录的偶尔出错等等。另外,由于样本数是有限的,即使所有样本都是由同一分布产生的,也有可能因为样本数不足从而使得其中少量样本成为实际上的“劣点”样本。因此,从克服“劣点”样本的影响出发是PCA算法鲁棒性研究的另一个主要方向。

显然第一种研究方法有着重大的理论意义。它在信号分离理论这一研究领域已经得到高度的重视。但是在系统科学和系统工程领域,由于实际应用中往往输人样本的分布是未知的;同时由于样本集有限,基于非高斯分布输入的独立成分分析方法不能很好地消除“劣点”样本对算法鲁棒性的影响,难以获得准确的主方向。故而从消除或减弱“劣点”的影响出发研究PCA的鲁棒性有着更为重要的实际意义。

另外,在系统科学和系统工程的很多应用领域中,找出样本集中的少量“劣点”样本本身也是很有意义的工作。例如对一段时间的股票数据进行的分析可以找到其最具特殊性的时间段,从而能够进行深入研究以发现其产生的规律和原因。因此,从去除“劣点”影响的角度建立鲁棒PCA算法拓宽了PCA的应用范围。