当前位置:首页 » 算力简介 » pca为啥要进行去中心化

pca为啥要进行去中心化

发布时间: 2025-07-20 20:52:15

❶ PCA要对数据进行预处理的原因

1.将数据进行中心化的原因:

减去均值等同于坐标移动,这样就能把原始数据点的中心移到与原点重合,此举有利于很多表达,比如数据的协方差矩阵可以直接写成X*X',若没有减去均值,则每两个特征之间都要进行(X-X均值)*(Y-Y均值)运算,再组合成协方差矩阵。

2.将数据除以标准差的原因:

除以标准差是为了统一并消除量纲。一个样本中有多个特征,有些可能表示长度,有些可能表示重量。如果各个特征之间的数值或数量级存在较大差异,就会使得较小的数被淹没,导致主成分偏差较大。所以要将每个特征对应的样本除以标准差,这样才能让他们仅以“数的概念一起比较运算”。

简言之---除以标准差的作用:去掉量纲,将不同量纲的数据拉伸至同一水平。公平比较。 

注意两点:

1.标准化与归一化:

上述1,2两步统称为数据的 标准化 过程----将每个特征(即矩阵的每一列)减去均值并除以标准差。

而数据的 归一化 仅仅是指除以标准差或类似意思。

2.图像不需要除以标准差,因为他们都是像素值,同量纲同尺度(1~255),所以只减去均值即可。

PCA的深层次解释:

协方差矩阵和主成分分析

m.blog.csdn.net/article/details

浅谈协方差矩阵

pinkyjie.com/2010/08/31/covariance/

与PCA相关的一些概念的集合

blog.csdn.net/viewcode/article/details/8789524

❷ 线性判别分析(FLDA) vs. 主成分分析(PCA)

线性判别分析(Linear Discriminant Analysis, LDA)与主成分分析(Principal Component Analysis, PCA)作为两种常用的降维方法,它们在分类与特征保留方面有显著差异。

在二分类问题中,LDA通过计算两类数据的中心,并将数据投影至最优直线,使得投影距离原点的距离最大化,同时减小两类内部差异。LDA的目标是最大化类间距离与最小化类内距离之比,通过解数学优化问题来找到最佳投影方向。

PCA则关注数据的主成分,即数据中的重要方向,保留尽量多的原始信息。对于单个主成分,其方向向量可最小化点到直线的投影误差,或者最大化数据方差。通过计算协方差矩阵的最大特征值对应的特征向量,PCA能够找到数据的最重要方向。

在处理多分类问题时,LDA需进行更复杂的计算,而PCA的多主成分计算同样遵循优化逻辑,逐级保留重要性递减的信息。

在实现上,PCA相对更简单直接,而LDA在计算最优解时需考虑额外约束。数值稳定性问题在处理大量数据时尤为突出,LDA中通过奇异值分解可有效解决。此外,PCA对数据进行去中心化处理后,其优化目标与方差最大化原理相一致,因此计算过程清晰且易于理解。

实际应用中,PCA和LDA分别适用于特征保留与分类任务。选择使用时,应考虑数据的特性与具体目标。PCA更侧重于数据压缩与可视化,而LDA在分类任务中展现出优势,特别是在数据分类性能上。

❸ 主成分分析(PCA)

    本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    主成分分析(Principal Component Analysis,PCA)是中最常用的降维算法之一,也可以用于数据压缩、去除冗余信息、消除噪声等方面。PCA的目的是找出一组低维数据来代表原高维数据,且保留原始数据中的主要信息。例如有m个数据集,n维特征,我们希望将n维特征降低到d维,而且让损失的信息尽可能小,具体怎么做呢?

    首先通过PCA找出第1个新坐标使得原始数据中方差最大;然后找出第2个新坐标与第1个坐标正交平面使得方差最大;再找出第3个坐标与1,2坐标正交平面使得方差最大...,以此类推,得到d个新维度特征。

    直接一点:就是求出样本集的协方差矩阵 的前d个特征值对应的特征向量,组成矩阵 ,然后对每个样本 进行变换 。

    1)特征去中心化,即每个维度特征减去其均值:

    2)计算协方差矩阵

    3) 对协方差矩阵进行特征值分解

    4)取前d个最大的特征值对应的特征向量组成矩阵 。

    5)对每个样本数据进行变换,

    6)得到降维后的数据

    假定现有10个二维数据集 (2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9) ,需要用PCA降到1维。

    首先样本去中心化,这里样本的均值为 (1.81, 1.91) ,所有的样本减去这个 均值 向量后,即中心化后的数据集为 (0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01) 。

    求协方差矩阵:

    求出特征值为 (0.0490833989, 1.28402771) ,对应的特征向量分别为:

由于最大的k=1个特征值为1.28402771,对应的特征向量为 。这也就是特征矩阵 。

    对每个数据样本进转换 得到降维后的数据 (-0.827970186, 1.77758033, -0.992197494, -0.274210416, -1.67580142, -0.912949103, 0.0991094375, 1.14457216, 0.438046137, 1.22382056)

❹ pca去中心化和中心化一样吗

PCA(Principal Component Analysis)主成分分析是一种常用的降维方法,它的核心思想是将原始数据转化为一组无关的表示,其中最主要的是通过计算协方差矩阵的特征向量来确定主成分。

中心化和去中心化是PCA中的两个重要步骤。中心化是将数据的每个特征减去其均值,以使数据的均值为零。这个过程可以在进行PCA之前或之后进行。中心化的目的是消除特征之间的平移效果,提高PCA的准确性。

而去中心化是指在进行PCA之后,将主成分还原为原始数据的过程。去中心化是通过将主成分加上其对应特征的均值来实现的。这个过程是为了使还原后的数据能够回到原始数据的尺度。

所以,中心化和去中心化在PCA中的作用是不同的。中心化是为了消除特征之间的平移效果,提高PCA的准确性;而去中心化是为了将主成分还原为原始数据的过程。因此,中心化和去中心化不是完全一样的。

热点内容
btc3倍做多怎么爆仓 发布:2025-07-21 01:12:32 浏览:641
币圈的兑换码大全 发布:2025-07-21 00:54:35 浏览:233
以太坊有哪些游戏 发布:2025-07-21 00:53:52 浏览:187
btc163网站怎么样 发布:2025-07-21 00:52:00 浏览:560
btc交易平币行情 发布:2025-07-21 00:46:24 浏览:407
币圈有rmb么 发布:2025-07-21 00:25:08 浏览:250
区块链数字资产销售渠道6 发布:2025-07-21 00:24:23 浏览:907
高位比特币卖得出吗 发布:2025-07-21 00:19:52 浏览:733
抖音合约流量包怎么取消 发布:2025-07-21 00:15:24 浏览:677
异度x中数据探机如何改为矿采探机 发布:2025-07-21 00:15:13 浏览:865