大家好,欢迎来到IT知识分享网。
大家好,今天要讲的内容是,降维算法,PCA主成分分析。
PCA主成分分析,全称Principal Component Analysis,是最常用的降维算法。
PCA通过投影的方式,将高维的数据映射到低维的空间中。
PCA算法可以保证,在所投影的维度上,原数据的信息量最大。
因此,通过PCA降维,可以使用较少的数据维度,保留住较多的原始数据特性。
1.PCA主成分分析的优化目标
为了达到降维的目的,PCA可以基于两种思路进行优化,分别是最大可分性和最近重构性。
最大可分性是指,样本投影到低维的超平面后,能够尽量的分开。
例如,将平面上的数据投影到直线M,明显比投影到直线N,会使样本数据更加分散。
最近重构性是指,样本到所投影的低维超平面的距离,要尽可能的小。
例如,平面上的样本到M的距离是蓝色线段,到N的距离是绿色线段。
所有蓝色线段的距离和,小于绿色线段,因此认为M比N好。
实际上,基于上述两种思路,最终都可以推导出相同的目标函数:
也就是无论使用哪一种思路,都可以实现PCA降维算法。
接下来,我们会使用一个具体的例子,来说明PCA算法,是如何找出样本的主成分,实现特征降维的。
2.样本数据的去中心化
已知平面上有6个样本,每个样本包括x1和x2两个特征:
计算这两个特征的平均值,标记为红色叉子。
然后根据红色叉子,画出蓝色叉子,代表6个样本的中心位置:
我们将6个样本和中心红色叉子,一起向坐标轴的原点移动。
在移动时,各个样本的相对位置保持不变,最终使得蓝色叉子与坐标轴原点红色圆圈重合。
这种使样本中心与坐标轴原点重合的过程,被称为去中心化。
去中心化不会影响样本的分布性质,但会简化后续PCA降维算法的推导过程。
3.最近重构性和最大可分性等价
思考下面这个问题:
如果只使用一个维度,如何才能最合理的描述出样本的分布状况呢?
一个维度就是一条直线。
画出任意一条过原点的直线,我们要通过该直线提取样本的成分:
而提取样本成分,就是将样本投影到这条直线上,通过投影点来描述样本中的成分。
在投影的过程中,将直线旋转:
这时会发现样本到直线的距离与投影点到原点的距离,会随旋转而变化。
很明显,如果样本到直线的距离小,或者投影点到原点的距离大,那么直线上的投影点就能更好的描述样本的分布情况。
而样本到直线的距离小就对应最近重构性,投影点到原点的距离大对应最大可分性。
单独来看某一个样本:
设它到原点的距离是a,到直线的距离是b,投影点到原点的距离是c。
根据勾股定理,a平方等于b平方加c平方。
由于样本到原点的距离不随直线变化,因此b平方加c平方的和是固定的。
这里可以发现,b的增大会使c减小,b的减小会使c增大。
因此,优化样本到直线的距离最小和优化投影点到原点的距离最大,这两种方式是等价的,而后者更容易进行数学推导。
4.PCA主成分分析的举例说明
投影点到原点的距离最大,代表了在新的维度下,样本的方差最大。
设d1到d6为投影点到原点的距离。
我们要求出d1平方加d2平方一直加到d6平方,这个距离取最大值时,红色直线的参数。
当求出这条直线后,就称这条直线为主成分1,也就是PC1。
观察PC1,设PC1的斜率是1/4:
它代表样本随着特征x1向外移动4个单位,就会随着特征x2向外移动1个单位。
这也说明了x1比x2更影响特征的分布。
当完成PC1的提取后,可以继续提取PC2,它是描述样本分布的另一个维度:
为了使PC2表示出最多的信息,它需要和PC1完全独立。
因此,需要再找一条垂直于PC1的直线来描述样本。
因为样本只有两维特征,所以在平面上,只有一条垂直于PC1的直线,这样就将PC2直接求出来了。
我们将样本在PC1和PC2上的投影都标记出来,旋转PC1到水平的位置:
就完成了PCA主成分分析。
我们可以将主成分PC1与PC2,看做是一个新的坐标系。
通过新的坐标系,重新表示样本。
总结来说,N维空间中的样本可以分解出N个主成分。
我们通过优先选择方差最大的主成分,从而实现降维这一目标。
那么到这里,降维算法,PCA主成分分析就讲完了,感谢大家的观看,我们下节课再会。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/109246.html