什么是降维算法,PCA主成分分析的原理详解

什么是降维算法,PCA主成分分析的原理详解大家好 今天要讲的内容是 降维算法 PCA 主成分分析 PCA 主成分分析 全称 Principal Component Analysis 是最常用的降维算法 PCA 通过投影的方式 将高维的数据映射到低维的空间中 PCA 算法可以保证 在所投影的维

大家好,欢迎来到IT知识分享网。

大家好,今天要讲的内容是,降维算法,PCA主成分分析。

PCA主成分分析,全称Principal Component Analysis,是最常用的降维算法。

什么是降维算法,PCA主成分分析的原理详解

PCA通过投影的方式,将高维的数据映射到低维的空间中。

PCA算法可以保证,在所投影的维度上,原数据的信息量最大。

因此,通过PCA降维,可以使用较少的数据维度,保留住较多的原始数据特性。

1.PCA主成分分析的优化目标

为了达到降维的目的,PCA可以基于两种思路进行优化,分别是最大可分性和最近重构性。

最大可分性是指,样本投影到低维的超平面后,能够尽量的分开。

什么是降维算法,PCA主成分分析的原理详解

例如,将平面上的数据投影到直线M,明显比投影到直线N,会使样本数据更加分散。

最近重构性是指,样本到所投影的低维超平面的距离,要尽可能的小。

什么是降维算法,PCA主成分分析的原理详解

例如,平面上的样本到M的距离是蓝色线段,到N的距离是绿色线段。

所有蓝色线段的距离和,小于绿色线段,因此认为M比N好。

实际上,基于上述两种思路,最终都可以推导出相同的目标函数:

什么是降维算法,PCA主成分分析的原理详解

也就是无论使用哪一种思路,都可以实现PCA降维算法。

接下来,我们会使用一个具体的例子,来说明PCA算法,是如何找出样本的主成分,实现特征降维的。

2.样本数据的去中心化

已知平面上有6个样本,每个样本包括x1和x2两个特征:

什么是降维算法,PCA主成分分析的原理详解

计算这两个特征的平均值,标记为红色叉子。

然后根据红色叉子,画出蓝色叉子,代表6个样本的中心位置:

什么是降维算法,PCA主成分分析的原理详解

我们将6个样本和中心红色叉子,一起向坐标轴的原点移动。

在移动时,各个样本的相对位置保持不变,最终使得蓝色叉子与坐标轴原点红色圆圈重合。

什么是降维算法,PCA主成分分析的原理详解

这种使样本中心与坐标轴原点重合的过程,被称为去中心化。

去中心化不会影响样本的分布性质,但会简化后续PCA降维算法的推导过程。

3.最近重构性和最大可分性等价

思考下面这个问题:

如果只使用一个维度,如何才能最合理的描述出样本的分布状况呢?

一个维度就是一条直线。

画出任意一条过原点的直线,我们要通过该直线提取样本的成分:

什么是降维算法,PCA主成分分析的原理详解

而提取样本成分,就是将样本投影到这条直线上,通过投影点来描述样本中的成分。

在投影的过程中,将直线旋转:

什么是降维算法,PCA主成分分析的原理详解

这时会发现样本到直线的距离与投影点到原点的距离,会随旋转而变化。

很明显,如果样本到直线的距离小,或者投影点到原点的距离大,那么直线上的投影点就能更好的描述样本的分布情况。

而样本到直线的距离小就对应最近重构性,投影点到原点的距离大对应最大可分性。

单独来看某一个样本:

什么是降维算法,PCA主成分分析的原理详解

设它到原点的距离是a,到直线的距离是b,投影点到原点的距离是c。

根据勾股定理,a平方等于b平方加c平方。

由于样本到原点的距离不随直线变化,因此b平方加c平方的和是固定的。

什么是降维算法,PCA主成分分析的原理详解

这里可以发现,b的增大会使c减小,b的减小会使c增大。

因此,优化样本到直线的距离最小和优化投影点到原点的距离最大,这两种方式是等价的,而后者更容易进行数学推导。

4.PCA主成分分析的举例说明

投影点到原点的距离最大,代表了在新的维度下,样本的方差最大。

设d1到d6为投影点到原点的距离。

什么是降维算法,PCA主成分分析的原理详解

我们要求出d1平方加d2平方一直加到d6平方,这个距离取最大值时,红色直线的参数。

当求出这条直线后,就称这条直线为主成分1,也就是PC1。

观察PC1,设PC1的斜率是1/4:

什么是降维算法,PCA主成分分析的原理详解

它代表样本随着特征x1向外移动4个单位,就会随着特征x2向外移动1个单位。

这也说明了x1比x2更影响特征的分布。

当完成PC1的提取后,可以继续提取PC2,它是描述样本分布的另一个维度:

什么是降维算法,PCA主成分分析的原理详解

为了使PC2表示出最多的信息,它需要和PC1完全独立。

因此,需要再找一条垂直于PC1的直线来描述样本。

因为样本只有两维特征,所以在平面上,只有一条垂直于PC1的直线,这样就将PC2直接求出来了。

我们将样本在PC1和PC2上的投影都标记出来,旋转PC1到水平的位置:

什么是降维算法,PCA主成分分析的原理详解

就完成了PCA主成分分析。

我们可以将主成分PC1与PC2,看做是一个新的坐标系。

通过新的坐标系,重新表示样本。

总结来说,N维空间中的样本可以分解出N个主成分。

我们通过优先选择方差最大的主成分,从而实现降维这一目标。

那么到这里,降维算法,PCA主成分分析就讲完了,感谢大家的观看,我们下节课再会。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/109246.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信