pca為啥要進行去中心化

發布時間: 2025-07-20 20:52:15

❶ PCA要對數據進行預處理的原因

1.將數據進行中心化的原因：

減去均值等同於坐標移動，這樣就能把原始數據點的中心移到與原點重合，此舉有利於很多表達，比如數據的協方差矩陣可以直接寫成X*X'，若沒有減去均值，則每兩個特徵之間都要進行(X-X均值)*（Y-Y均值）運算，再組合成協方差矩陣。

2.將數據除以標准差的原因：

除以標准差是為了統一並消除量綱。一個樣本中有多個特徵，有些可能表示長度，有些可能表示重量。如果各個特徵之間的數值或數量級存在較大差異，就會使得較小的數被淹沒，導致主成分偏差較大。所以要將每個特徵對應的樣本除以標准差，這樣才能讓他們僅以「數的概念一起比較運算」。

簡言之---除以標准差的作用：去掉量綱，將不同量綱的數據拉伸至同一水平。公平比較。

注意兩點：

1.標准化與歸一化：

上述1，2兩步統稱為數據的標准化過程----將每個特徵(即矩陣的每一列)減去均值並除以標准差。

而數據的歸一化僅僅是指除以標准差或類似意思。

2.圖像不需要除以標准差，因為他們都是像素值，同量綱同尺度(1~255)，所以只減去均值即可。

PCA的深層次解釋：

協方差矩陣和主成分分析

m.blog.csdn.net/article/details

淺談協方差矩陣

pinkyjie.com/2010/08/31/covariance/

與PCA相關的一些概念的集合

blog.csdn.net/viewcode/article/details/8789524

❷ 線性判別分析(FLDA) vs. 主成分分析(PCA)

線性判別分析(Linear Discriminant Analysis, LDA)與主成分分析(Principal Component Analysis, PCA)作為兩種常用的降維方法，它們在分類與特徵保留方面有顯著差異。

在二分類問題中，LDA通過計算兩類數據的中心，並將數據投影至最優直線，使得投影距離原點的距離最大化，同時減小兩類內部差異。LDA的目標是最大化類間距離與最小化類內距離之比，通過解數學優化問題來找到最佳投影方向。

PCA則關注數據的主成分，即數據中的重要方向，保留盡量多的原始信息。對於單個主成分，其方向向量可最小化點到直線的投影誤差，或者最大化數據方差。通過計算協方差矩陣的最大特徵值對應的特徵向量，PCA能夠找到數據的最重要方向。

在處理多分類問題時，LDA需進行更復雜的計算，而PCA的多主成分計算同樣遵循優化邏輯，逐級保留重要性遞減的信息。

在實現上，PCA相對更簡單直接，而LDA在計算最優解時需考慮額外約束。數值穩定性問題在處理大量數據時尤為突出，LDA中通過奇異值分解可有效解決。此外，PCA對數據進行去中心化處理後，其優化目標與方差最大化原理相一致，因此計算過程清晰且易於理解。

實際應用中，PCA和LDA分別適用於特徵保留與分類任務。選擇使用時，應考慮數據的特性與具體目標。PCA更側重於數據壓縮與可視化，而LDA在分類任務中展現出優勢，特別是在數據分類性能上。

❸ 主成分分析（PCA）

  本文記錄的目的是方便自己學習和復習，有誤之處請諒解，歡迎指出。

主成分分析（Principal Component Analysis，PCA）是中最常用的降維演算法之一，也可以用於數據壓縮、去除冗餘信息、消除雜訊等方面。PCA的目的是找出一組低維數據來代表原高維數據，且保留原始數據中的主要信息。例如有m個數據集，n維特徵，我們希望將n維特徵降低到d維，而且讓損失的信息盡可能小，具體怎麼做呢？

首先通過PCA找出第1個新坐標使得原始數據中方差最大；然後找出第2個新坐標與第1個坐標正交平面使得方差最大；再找出第3個坐標與1，2坐標正交平面使得方差最大...，以此類推，得到d個新維度特徵。

直接一點：就是求出樣本集的協方差矩陣的前d個特徵值對應的特徵向量，組成矩陣，然後對每個樣本進行變換。

1）特徵去中心化，即每個維度特徵減去其均值：

2）計算協方差矩陣

3) 對協方差矩陣進行特徵值分解

4）取前d個最大的特徵值對應的特徵向量組成矩陣。

5）對每個樣本數據進行變換，

6）得到降維後的數據

假定現有10個二維數據集 (2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9) ，需要用PCA降到1維。

  首先樣本去中心化，這里樣本的均值為 (1.81, 1.91) ,所有的樣本減去這個均值向量後，即中心化後的數據集為 (0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01) 。

求協方差矩陣：

  求出特徵值為（0.0490833989， 1.28402771），對應的特徵向量分別為：

由於最大的k=1個特徵值為1.28402771，對應的特徵向量為。這也就是特徵矩陣。

對每個數據樣本進轉換得到降維後的數據 (-0.827970186， 1.77758033， -0.992197494， -0.274210416， -1.67580142， -0.912949103， 0.0991094375， 1.14457216, 0.438046137， 1.22382056)

❹ pca去中心化和中心化一樣嗎

PCA（Principal Component Analysis）主成分分析是一種常用的降維方法，它的核心思想是將原始數據轉化為一組無關的表示，其中最主要的是通過計算協方差矩陣的特徵向量來確定主成分。

中心化和去中心化是PCA中的兩個重要步驟。中心化是將數據的每個特徵減去其均值，以使數據的均值為零。這個過程可以在進行PCA之前或之後進行。中心化的目的是消除特徵之間的平移效果，提高PCA的准確性。

而去中心化是指在進行PCA之後，將主成分還原為原始數據的過程。去中心化是通過將主成分加上其對應特徵的均值來實現的。這個過程是為了使還原後的數據能夠回到原始數據的尺度。

所以，中心化和去中心化在PCA中的作用是不同的。中心化是為了消除特徵之間的平移效果，提高PCA的准確性；而去中心化是為了將主成分還原為原始數據的過程。因此，中心化和去中心化不是完全一樣的。

閱讀全文

熱點內容

收到假eth幣發布：2025-10-20 08:58:16 瀏覽：973

暗黑破壞神2eth打孔發布：2025-10-20 08:42:58 瀏覽：105

BTC和CBT是一樣的嗎發布：2025-10-20 08:42:57 瀏覽：233

華碩trx40Pro供電發布：2025-10-20 08:33:26 瀏覽：432

曬人民幣編號的朋友圈發布：2025-10-20 08:25:32 瀏覽：687

doge格式發布：2025-10-20 08:02:00 瀏覽：382

以太坊會爆發嗎發布：2025-10-20 08:01:59 瀏覽：772

一台比特幣礦機的功率發布：2025-10-20 07:39:24 瀏覽：925

trx輔助帶發布：2025-10-20 07:35:29 瀏覽：48

比特幣哈希值有多少位發布：2025-10-20 07:31:20 瀏覽：633

pca為啥要進行去中心化

與pca為啥要進行去中心化相關的資訊