启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

统计学笔记 | 主成分分析

更新时间:2025-01-17 02:58:51

主成分分析(PCA)是一种多元统计分析方法,主要用于数据降维。其核心思想是通过坐标轴的旋转,将原始的线性相关变量转换成少数几个线性无关的变量,以简化数据结构。

如图1所示,原始变量X1与X2之间存在线性关系,红线表示旋转后的坐标轴。在新坐标轴下,X1与X2可以用一个变量来近似表示,从而在不损失过多信息的情况下降低数据维度。

在主成分分析中,考虑以下线性变换:

[公式]

其中,Z1是第1个主成分,W是载荷向量,X代表样本空间中的任意样本点。主成分分析的目标是在坐标轴正交旋转后,最大化主成分的方差,得到约束条件[公式]。记[公式],则第1个主成分的方差为[公式]。

在方差最大化的过程中,需要对W进行限制,因为总是存在[公式]的情况。因此,主成分分析对载荷向量进行了一些限制,即[公式],等价于让[公式]。求解第1个主成分的问题可以归纳为求解如下约束优化问题:

[公式]

通常情况下,可以采用拉格朗日乘子法求解约束优化问题。为了方便起见,本文首先求解第1个主成分[公式],然后求解优化问题(2)的拉格朗日函数[公式],对[公式]求导可得[公式]。第1个主成分的载荷向量等价于求解属于第1大特征值的特征向量。

载荷是指[公式]的第j维元素在原始变量Xj上的载荷,它反映了原始变量Xj对主成分的重要程度。

将优化问题(1)转化为无约束优化问题,写出优化问题(2)的拉格朗日函数[公式],令式(2)对[公式]求导,并令导数等于[公式],得到[公式]。其中,λ是拉格朗日乘子。

将[公式]两边同时乘以[公式],得到[公式]。由于第1个主成分的载荷向量[公式]等于属于第1大特征值的特征向量,可将式(7)变形为[公式]。根据约束条件可知[公式]。因此式(5)变为[公式]。由[公式],可以解得[公式]。同理可得到[公式]均为[公式]。将[公式]代入式(3)可得[公式]。第1个主成分的载荷向量等价于求解属于第1大特征值的特征向量。

最小化重构误差法与最大方差法的优化问题是等价的。接下来,我们将展开式(4)中的目标函数,观察式(5)最后一项,应用约束条件[公式],可得[公式]。因为[公式]是一个常数,所以式(4)中的目标函数等价于[公式]。根据矩阵迹的性质[公式],式(7)等价于[公式]。此时优化问题为[公式]。显然式(16)与最大方差法的定义是等价的。

在R语言中,可以使用prcomp函数实现主成分分析。以下是一个模拟数据集测试的例子,根据图2所示,X1与X2之间存在明显相关关系,X3与X4没有明显相关关系。通过主成分分析,可以使用两个变量来近似表示这三个变量,从而达到降维的目的。当提取两个主成分时,累计方差贡献率达到了[公式],因此这组数据提取两个主成分即可。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询