pca為啥要進行去中心化
❶ PCA要對數據進行預處理的原因
1.將數據進行中心化的原因:
減去均值等同於坐標移動,這樣就能把原始數據點的中心移到與原點重合,此舉有利於很多表達,比如數據的協方差矩陣可以直接寫成X*X',若沒有減去均值,則每兩個特徵之間都要進行(X-X均值)*(Y-Y均值)運算,再組合成協方差矩陣。
2.將數據除以標准差的原因:
除以標准差是為了統一並消除量綱。一個樣本中有多個特徵,有些可能表示長度,有些可能表示重量。如果各個特徵之間的數值或數量級存在較大差異,就會使得較小的數被淹沒,導致主成分偏差較大。所以要將每個特徵對應的樣本除以標准差,這樣才能讓他們僅以「數的概念一起比較運算」。
簡言之---除以標准差的作用:去掉量綱,將不同量綱的數據拉伸至同一水平。公平比較。
注意兩點:
1.標准化與歸一化:
上述1,2兩步統稱為數據的 標准化 過程----將每個特徵(即矩陣的每一列)減去均值並除以標准差。
而數據的 歸一化 僅僅是指除以標准差或類似意思。
2.圖像不需要除以標准差,因為他們都是像素值,同量綱同尺度(1~255),所以只減去均值即可。
PCA的深層次解釋:
協方差矩陣和主成分分析
m.blog.csdn.net/article/details
淺談協方差矩陣
pinkyjie.com/2010/08/31/covariance/
與PCA相關的一些概念的集合
blog.csdn.net/viewcode/article/details/8789524
❷ 線性判別分析(FLDA) vs. 主成分分析(PCA)
線性判別分析(Linear Discriminant Analysis, LDA)與主成分分析(Principal Component Analysis, PCA)作為兩種常用的降維方法,它們在分類與特徵保留方面有顯著差異。
在二分類問題中,LDA通過計算兩類數據的中心,並將數據投影至最優直線,使得投影距離原點的距離最大化,同時減小兩類內部差異。LDA的目標是最大化類間距離與最小化類內距離之比,通過解數學優化問題來找到最佳投影方向。
PCA則關注數據的主成分,即數據中的重要方向,保留盡量多的原始信息。對於單個主成分,其方向向量可最小化點到直線的投影誤差,或者最大化數據方差。通過計算協方差矩陣的最大特徵值對應的特徵向量,PCA能夠找到數據的最重要方向。
在處理多分類問題時,LDA需進行更復雜的計算,而PCA的多主成分計算同樣遵循優化邏輯,逐級保留重要性遞減的信息。
在實現上,PCA相對更簡單直接,而LDA在計算最優解時需考慮額外約束。數值穩定性問題在處理大量數據時尤為突出,LDA中通過奇異值分解可有效解決。此外,PCA對數據進行去中心化處理後,其優化目標與方差最大化原理相一致,因此計算過程清晰且易於理解。
實際應用中,PCA和LDA分別適用於特徵保留與分類任務。選擇使用時,應考慮數據的特性與具體目標。PCA更側重於數據壓縮與可視化,而LDA在分類任務中展現出優勢,特別是在數據分類性能上。
❸ 主成分分析(PCA)
本文記錄的目的是方便自己學習和復習,有誤之處請諒解,歡迎指出。
主成分分析(Principal Component Analysis,PCA)是中最常用的降維演算法之一,也可以用於數據壓縮、去除冗餘信息、消除雜訊等方面。PCA的目的是找出一組低維數據來代表原高維數據,且保留原始數據中的主要信息。例如有m個數據集,n維特徵,我們希望將n維特徵降低到d維,而且讓損失的信息盡可能小,具體怎麼做呢?
首先通過PCA找出第1個新坐標使得原始數據中方差最大;然後找出第2個新坐標與第1個坐標正交平面使得方差最大;再找出第3個坐標與1,2坐標正交平面使得方差最大...,以此類推,得到d個新維度特徵。
直接一點:就是求出樣本集的協方差矩陣 的前d個特徵值對應的特徵向量,組成矩陣 ,然後對每個樣本 進行變換 。
1)特徵去中心化,即每個維度特徵減去其均值:
2)計算協方差矩陣
3) 對協方差矩陣進行特徵值分解
4)取前d個最大的特徵值對應的特徵向量組成矩陣 。
5)對每個樣本數據進行變換,
6)得到降維後的數據
假定現有10個二維數據集 (2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9) ,需要用PCA降到1維。
首先樣本去中心化,這里樣本的均值為 (1.81, 1.91) ,所有的樣本減去這個 均值 向量後,即中心化後的數據集為 (0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01) 。
求協方差矩陣:
求出特徵值為 (0.0490833989, 1.28402771) ,對應的特徵向量分別為:
由於最大的k=1個特徵值為1.28402771,對應的特徵向量為 。這也就是特徵矩陣 。
對每個數據樣本進轉換 得到降維後的數據 (-0.827970186, 1.77758033, -0.992197494, -0.274210416, -1.67580142, -0.912949103, 0.0991094375, 1.14457216, 0.438046137, 1.22382056)
❹ pca去中心化和中心化一樣嗎
PCA(Principal Component Analysis)主成分分析是一種常用的降維方法,它的核心思想是將原始數據轉化為一組無關的表示,其中最主要的是通過計算協方差矩陣的特徵向量來確定主成分。
中心化和去中心化是PCA中的兩個重要步驟。中心化是將數據的每個特徵減去其均值,以使數據的均值為零。這個過程可以在進行PCA之前或之後進行。中心化的目的是消除特徵之間的平移效果,提高PCA的准確性。
而去中心化是指在進行PCA之後,將主成分還原為原始數據的過程。去中心化是通過將主成分加上其對應特徵的均值來實現的。這個過程是為了使還原後的數據能夠回到原始數據的尺度。
所以,中心化和去中心化在PCA中的作用是不同的。中心化是為了消除特徵之間的平移效果,提高PCA的准確性;而去中心化是為了將主成分還原為原始數據的過程。因此,中心化和去中心化不是完全一樣的。