如何理解PCA算法过程

发布时间：2021-11-17 10:59:30 作者：柒染
来源：亿速云阅读：194

这篇文章给大家介绍如何理解PCA算法过程，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

前言

PCA，即主成分分析，是一种数据降维的方法,旨在利用降维的思想，把多指标转化为少数几个综合指标,降低数据维数，从而实现提升数据处理速度的目的。

流程

1.数据标准化处理。

先按列计算数据集X的均值Xmean，然后Xnew=X−XmeanXnew=X−Xmean进行归一化处理。

2.求解矩阵Xnew的协方差矩阵。

如何理解PCA算法过程

3. 计算协方差矩阵的特征值和相应的特征向量。

4.将特征值按照从大到小的排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
5.计算降维后的数据集，即将归一化的数据集投影到选取的特征向量矩阵上，这样就得到了我们需要的已经降维的数据集。

个人理解

PCA算法的核心降维其实就是把高维的数据选取一组组基底（即协方差矩阵计算出特征向量）进行分解，这个基底要让高维分解的数据尽量包含更多的信息（方差：数据更分散；协方差：线性无关），毕竟高维数据变成低维数据肯定要损失一些信息，我们要让它的损失降到最小。我们选取包含更多信息的基底可得到对样本起决定性作用最大的前K个特征（特征矩阵）。最后我们只需要把测试的样本进行降维操作（投影）后和一个个降维后人脸样本（投影）进行做差，若差值小于某个我们设定的数值（阈值），我们则可以认为是同一个人脸。

优缺点

1.优点

1）它是无监督学习，无参数限制的。

2）PCA对数据降维的同时也对新求出的特征值进行排序，根据所设置的阈值进行根据重要性程度的排列，可以达到在降维的同时最大程度保留原有信息。

3）各个主成分之间正交，无原始数据之间的互相影响。

2.缺点

1）贡献率小的成分有时含有样本的重要信息。

2）如果我们对所识别对象有一定认识，掌握了一些特征，无法通过参数的设置来干预。

3）非高斯分布的情况下，PCA方法得出的主元可能不是最优的。

关于如何理解PCA算法过程就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

如何理解PCA算法过程

相关阅读