當前位置:首頁 » 算力簡介 » pca為啥要進行去中心化

pca為啥要進行去中心化

發布時間: 2025-07-20 20:52:15

❶ PCA要對數據進行預處理的原因

1.將數據進行中心化的原因:

減去均值等同於坐標移動,這樣就能把原始數據點的中心移到與原點重合,此舉有利於很多表達,比如數據的協方差矩陣可以直接寫成X*X',若沒有減去均值,則每兩個特徵之間都要進行(X-X均值)*(Y-Y均值)運算,再組合成協方差矩陣。

2.將數據除以標准差的原因:

除以標准差是為了統一並消除量綱。一個樣本中有多個特徵,有些可能表示長度,有些可能表示重量。如果各個特徵之間的數值或數量級存在較大差異,就會使得較小的數被淹沒,導致主成分偏差較大。所以要將每個特徵對應的樣本除以標准差,這樣才能讓他們僅以「數的概念一起比較運算」。

簡言之---除以標准差的作用:去掉量綱,將不同量綱的數據拉伸至同一水平。公平比較。 

注意兩點:

1.標准化與歸一化:

上述1,2兩步統稱為數據的 標准化 過程----將每個特徵(即矩陣的每一列)減去均值並除以標准差。

而數據的 歸一化 僅僅是指除以標准差或類似意思。

2.圖像不需要除以標准差,因為他們都是像素值,同量綱同尺度(1~255),所以只減去均值即可。

PCA的深層次解釋:

協方差矩陣和主成分分析

m.blog.csdn.net/article/details

淺談協方差矩陣

pinkyjie.com/2010/08/31/covariance/

與PCA相關的一些概念的集合

blog.csdn.net/viewcode/article/details/8789524

❷ 線性判別分析(FLDA) vs. 主成分分析(PCA)

線性判別分析(Linear Discriminant Analysis, LDA)與主成分分析(Principal Component Analysis, PCA)作為兩種常用的降維方法,它們在分類與特徵保留方面有顯著差異。

在二分類問題中,LDA通過計算兩類數據的中心,並將數據投影至最優直線,使得投影距離原點的距離最大化,同時減小兩類內部差異。LDA的目標是最大化類間距離與最小化類內距離之比,通過解數學優化問題來找到最佳投影方向。

PCA則關注數據的主成分,即數據中的重要方向,保留盡量多的原始信息。對於單個主成分,其方向向量可最小化點到直線的投影誤差,或者最大化數據方差。通過計算協方差矩陣的最大特徵值對應的特徵向量,PCA能夠找到數據的最重要方向。

在處理多分類問題時,LDA需進行更復雜的計算,而PCA的多主成分計算同樣遵循優化邏輯,逐級保留重要性遞減的信息。

在實現上,PCA相對更簡單直接,而LDA在計算最優解時需考慮額外約束。數值穩定性問題在處理大量數據時尤為突出,LDA中通過奇異值分解可有效解決。此外,PCA對數據進行去中心化處理後,其優化目標與方差最大化原理相一致,因此計算過程清晰且易於理解。

實際應用中,PCA和LDA分別適用於特徵保留與分類任務。選擇使用時,應考慮數據的特性與具體目標。PCA更側重於數據壓縮與可視化,而LDA在分類任務中展現出優勢,特別是在數據分類性能上。

❸ 主成分分析(PCA)

    本文記錄的目的是方便自己學習和復習,有誤之處請諒解,歡迎指出。

    主成分分析(Principal Component Analysis,PCA)是中最常用的降維演算法之一,也可以用於數據壓縮、去除冗餘信息、消除雜訊等方面。PCA的目的是找出一組低維數據來代表原高維數據,且保留原始數據中的主要信息。例如有m個數據集,n維特徵,我們希望將n維特徵降低到d維,而且讓損失的信息盡可能小,具體怎麼做呢?

    首先通過PCA找出第1個新坐標使得原始數據中方差最大;然後找出第2個新坐標與第1個坐標正交平面使得方差最大;再找出第3個坐標與1,2坐標正交平面使得方差最大...,以此類推,得到d個新維度特徵。

    直接一點:就是求出樣本集的協方差矩陣 的前d個特徵值對應的特徵向量,組成矩陣 ,然後對每個樣本 進行變換 。

    1)特徵去中心化,即每個維度特徵減去其均值:

    2)計算協方差矩陣

    3) 對協方差矩陣進行特徵值分解

    4)取前d個最大的特徵值對應的特徵向量組成矩陣 。

    5)對每個樣本數據進行變換,

    6)得到降維後的數據

    假定現有10個二維數據集 (2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9) ,需要用PCA降到1維。

    首先樣本去中心化,這里樣本的均值為 (1.81, 1.91) ,所有的樣本減去這個 均值 向量後,即中心化後的數據集為 (0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01) 。

    求協方差矩陣:

    求出特徵值為 (0.0490833989, 1.28402771) ,對應的特徵向量分別為:

由於最大的k=1個特徵值為1.28402771,對應的特徵向量為 。這也就是特徵矩陣 。

    對每個數據樣本進轉換 得到降維後的數據 (-0.827970186, 1.77758033, -0.992197494, -0.274210416, -1.67580142, -0.912949103, 0.0991094375, 1.14457216, 0.438046137, 1.22382056)

❹ pca去中心化和中心化一樣嗎

PCA(Principal Component Analysis)主成分分析是一種常用的降維方法,它的核心思想是將原始數據轉化為一組無關的表示,其中最主要的是通過計算協方差矩陣的特徵向量來確定主成分。

中心化和去中心化是PCA中的兩個重要步驟。中心化是將數據的每個特徵減去其均值,以使數據的均值為零。這個過程可以在進行PCA之前或之後進行。中心化的目的是消除特徵之間的平移效果,提高PCA的准確性。

而去中心化是指在進行PCA之後,將主成分還原為原始數據的過程。去中心化是通過將主成分加上其對應特徵的均值來實現的。這個過程是為了使還原後的數據能夠回到原始數據的尺度。

所以,中心化和去中心化在PCA中的作用是不同的。中心化是為了消除特徵之間的平移效果,提高PCA的准確性;而去中心化是為了將主成分還原為原始數據的過程。因此,中心化和去中心化不是完全一樣的。

熱點內容
幣圈的兌換碼大全 發布:2025-07-21 00:54:35 瀏覽:233
以太坊有哪些游戲 發布:2025-07-21 00:53:52 瀏覽:187
btc163網站怎麼樣 發布:2025-07-21 00:52:00 瀏覽:560
btc交易平幣行情 發布:2025-07-21 00:46:24 瀏覽:407
幣圈有rmb么 發布:2025-07-21 00:25:08 瀏覽:250
區塊鏈數字資產銷售渠道6 發布:2025-07-21 00:24:23 瀏覽:907
高位比特幣賣得出嗎 發布:2025-07-21 00:19:52 瀏覽:733
抖音合約流量包怎麼取消 發布:2025-07-21 00:15:24 瀏覽:677
異度x中數據探機如何改為礦采探機 發布:2025-07-21 00:15:13 瀏覽:865
hiv去疾控中心檢查多少錢 發布:2025-07-21 00:12:48 瀏覽:189