主成分分析與應(yīng)用課件

上傳人：c*** IP屬地：貴州上傳時(shí)間：2023-09-18 格式：PPT 頁數(shù)：27 大小：646.95KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄什么是PCA一個(gè)簡單的模型引出的PCAPCA的代數(shù)原理PCA求解總結(jié)和討論應(yīng)用領(lǐng)域目錄什么是PCA1

PCA（Principalcomponentanalysis），主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù)，最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡化。正如它的名字：主元分析，這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu)，去除噪音和冗余，將原有的復(fù)雜數(shù)據(jù)降維，揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡單，而且無參數(shù)限制，可以方便的應(yīng)用與各個(gè)場合。PCAPCA2目的壓縮變量個(gè)數(shù)用較少的變量去解釋原始數(shù)據(jù)中的大部分變量，剔除冗余信息。即將許多相關(guān)性很高的變量轉(zhuǎn)化成個(gè)數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨(dú)立的幾個(gè)新變量，也就是所謂的主成分。

這樣就可以消除原始變量間存在的共線性，克服由此造成的運(yùn)算不穩(wěn)定、矩陣病態(tài)等問題。目的壓縮變量個(gè)數(shù)3PCA廣泛用于化學(xué)實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分析,進(jìn)行數(shù)據(jù)降維、變量提取與壓縮、確定化學(xué)組分?jǐn)?shù)、分類和聚類以及與其他方法連用進(jìn)行數(shù)據(jù)處理。主成分計(jì)算方法有非線性偏最小二乘(NIPALS)、乘冪法(POWER)、奇異值分解(SVD)和特征值分解(EVD)等。它們的原理基本上是基于特征值問題,計(jì)算結(jié)果也基本相同.主成分分析與應(yīng)用課件4一個(gè)簡單的模型Question:

光譜電壓速度大量的變量代表可能變化的因素限制因素實(shí)驗(yàn)環(huán)境觀測手段復(fù)雜、混亂、冗余How

分析變量背后的關(guān)系？一個(gè)簡單的物理模型一個(gè)簡單的模型光譜電壓速度大量的變量代表可能變化的因素限制因5這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無質(zhì)量無摩擦的彈簧之上，從平衡位置沿軸拉開一定的距離然后釋放。（x0,y0,z0）200HZ沿著某個(gè)x軸的運(yùn)動(dòng)這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測定實(shí)驗(yàn)。假設(shè)球是連接在一6標(biāo)準(zhǔn)正交基200hz拍攝10分鐘，將有10x60x200=120000在線性代數(shù)中，這組基本正交基表示為行列向量線性無關(guān)的單位矩陣標(biāo)準(zhǔn)正交基200hz拍攝10分鐘，將有在線性代數(shù)中，這組基本7基變換Q？如何尋找到另一組正交基，它們是標(biāo)準(zhǔn)正交基的線性組合，而且能夠最好的表示數(shù)據(jù)集?線性關(guān)鍵假設(shè)數(shù)據(jù)被限制在一個(gè)向量空間中，能被一組基表示；隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。X表示原始數(shù)據(jù)集。X是一個(gè)m*n的矩陣，它的每一個(gè)列向量都表示一個(gè)時(shí)間采樣點(diǎn)上的數(shù)據(jù)X，在上面的例子中，m=6，n=120000。Y表示轉(zhuǎn)換以后新的數(shù)據(jù)集。P是他們之間的線性轉(zhuǎn)換。（1）基變換Q？如何尋找到另一組正交基，它們是標(biāo)準(zhǔn)正交基的線性組合8

有如下定義：

pi表示P的行向量。

xi表示X的列向量（或者X）。

yi表示Y的列向量。公式(1)表示不同基之間的轉(zhuǎn)換，在線性代數(shù)中，它有如下的含義：

P是從X到Y(jié)的轉(zhuǎn)換矩陣。幾何上來說，P對(duì)X進(jìn)行旋轉(zhuǎn)和拉伸得到Y(jié)。

P的行向量,{p1,…pm}是一組新的基，而Y是原數(shù)據(jù)X在這組新的基表示下得到的重新表示。有如下定義：公式(1)表示不同基之間的轉(zhuǎn)換，在線性代數(shù)9Y的列向量與中對(duì)應(yīng)列的點(diǎn)積，也就是相當(dāng)于在對(duì)應(yīng)向量上的投影問題怎樣才能最好的表示數(shù)據(jù)X？P的基怎樣選擇才是最好的？體現(xiàn)數(shù)據(jù)特征what?how??Y的列向量與中對(duì)應(yīng)列的點(diǎn)積，也就是相當(dāng)于在對(duì)應(yīng)向量上的投影問10方差和目標(biāo)混亂數(shù)據(jù)噪音旋轉(zhuǎn)冗余A噪音和旋轉(zhuǎn)B冗余C協(xié)方差矩陣D協(xié)方差矩陣對(duì)角化方差和目標(biāo)混亂數(shù)據(jù)噪音旋轉(zhuǎn)冗余A噪音和旋轉(zhuǎn)B冗余C協(xié)方11噪音和旋轉(zhuǎn)噪音對(duì)數(shù)據(jù)的影響是巨大的，如果不能對(duì)噪音進(jìn)行區(qū)分，就不可能抽取數(shù)據(jù)中有用的信息。噪音的衡量有多種方式，最常見的定義是信噪比SNR(signal-to-noiseratio)，或是方差比：(a)攝像機(jī)A的采集數(shù)據(jù)。圖中黑色垂直直線表示一組正交基的方向。是采樣點(diǎn)云在長線方向上分布的方差，而是數(shù)據(jù)點(diǎn)在短線方向上分布的方差。(b)對(duì)P的基向量進(jìn)行旋轉(zhuǎn)使SNR和方差最大。噪音和旋轉(zhuǎn)(a)攝像機(jī)A的采集12冗余不必要的變量1）該變量對(duì)結(jié)果沒有影響；2）該變量可以用其它變量表示，從而造成數(shù)據(jù)冗余。圖表3：可能冗余數(shù)據(jù)的頻譜圖表示。r1和r2分別是兩個(gè)不同的觀測變量。

（比如例子中的xa，yb）。最佳擬合線r2=kr1用虛線表示。二者高度相關(guān)，冗余低冗余，相互獨(dú)立冗余不必要的變量1）該變量對(duì)結(jié)果沒有影響；2）該變量可以用其13

協(xié)方差矩陣

那么，對(duì)于一組具有m個(gè)觀測變量，n個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù)X，將每個(gè)觀測變量的值寫為行向量，可以得到一個(gè)m*n的矩陣A、B分別表示不同的觀測變量所記錄的一組值。將A，B寫成向量的形式：A=[a1,a2,…..an]B=[b1,b2,….bn]協(xié)方差可以表示為：定義協(xié)方差矩陣Cx是一個(gè)m*m的平方對(duì)稱矩陣。Cx對(duì)角線上的元素是對(duì)應(yīng)的觀測變量的方差。非對(duì)角線上的元素是對(duì)應(yīng)的觀測變量之間的協(xié)方差。

協(xié)方差矩陣

那么，對(duì)于一組具有m個(gè)觀測變量，n個(gè)采樣時(shí)14在對(duì)角線上的元素越大，表明信號(hào)越強(qiáng)，變量的重要性越高；元素越小則表明可能是存在的噪音或是次要變量。在非對(duì)角線上的元素大小則對(duì)應(yīng)于相關(guān)觀測變量對(duì)之間冗余程度的大小。一般情況下，初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的，表現(xiàn)為信噪比不高且變量間相關(guān)度大。PCA的目標(biāo)就是通過基變換對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化，找到相關(guān)“主元”。那么，如何進(jìn)行優(yōu)化？矩陣的那些性質(zhì)是需要注意的呢？在對(duì)角線上的元素越大，表明信號(hào)越強(qiáng)，變量的重要性越高；元素越15

協(xié)方差矩陣的對(duì)角化

主元分析以及協(xié)方差矩陣優(yōu)化的原則是：1）最小化變量冗余，對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量??；2）最大化信號(hào)，對(duì)應(yīng)于要使協(xié)方差矩陣的對(duì)角線上的元素盡可能的大。

因?yàn)閰f(xié)方差矩陣的每一項(xiàng)都是正值，最小值為0，所以優(yōu)化的目標(biāo)矩陣Cy的非對(duì)角元素應(yīng)該都是0，對(duì)應(yīng)于冗余最小。所以優(yōu)化的目標(biāo)矩陣Cy應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線上的元素可能是非零值。同時(shí)，PCA假設(shè)P所對(duì)應(yīng)的一組變換基{p1,p2,….pm}必須是標(biāo)準(zhǔn)正交的，而優(yōu)化矩陣Cy對(duì)角線上的元素越大，就說明信號(hào)的成分越大，換句話就是對(duì)應(yīng)于越重要的“主元”。協(xié)方差矩陣的對(duì)角化

主元分析以及協(xié)方差矩陣優(yōu)化的原則是：16

旋轉(zhuǎn)P的方法類似：（1）在m維空間中進(jìn)行遍歷，找到一個(gè)方差最大的向量，令作P1。

(2)在與P1垂直的向量空間中進(jìn)行遍歷，找出次大的方差對(duì)應(yīng)的向量，記作p2。

(3)對(duì)以上過程循環(huán)，直到找出全部m的向量。它們生成的順序也就是“主元”的排序。

特性轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基?？梢酝瑫r(shí)得到新的基向量所對(duì)應(yīng)的“主元排序”，旋轉(zhuǎn)P的方法類似：特性轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基?？梢酝?7PCA求解：特征根分解

尋找一組正交基組成的矩陣P,有Y=PX，使得是對(duì)角陣。則P的行向量（也就是一組正交基），就是數(shù)據(jù)X的主元向量。對(duì)Cy進(jìn)行推導(dǎo)：定義，則A是一個(gè)對(duì)稱陣。對(duì)A進(jìn)行對(duì)角化求取特征向量得：

則D是一個(gè)對(duì)角陣，而E則是對(duì)稱陣A的特征向量排成的矩陣。

PCA求解：特征根分解

尋找一組正交基組成的矩陣P,有Y=18

求出特征向量矩陣后我們?nèi)?，則，由線形代數(shù)可知矩陣P有性質(zhì)，從而進(jìn)行如下計(jì)算：

可知此時(shí)的P就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果：X的主元即是的特征向量，也就是矩陣P的行向量。矩陣Cy對(duì)角線上第i個(gè)元素是數(shù)據(jù)X在方向pi的方差。我們可以得到PCA求解的一般步驟：1）采集數(shù)據(jù)形成m*n的矩陣。m為觀測變量個(gè)數(shù)，n為采樣點(diǎn)個(gè)數(shù)。2）在每個(gè)觀測變量（矩陣行向量）上減去該觀測變量的平均值得到矩陣X。3）對(duì)進(jìn)行特征分解，求取特征向量以及所對(duì)應(yīng)的特征根。

求出特征向量矩陣后我們?nèi)?9總結(jié)和討論

PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序，根據(jù)需要取前面最重要的部分，將后面的維數(shù)省去，可以達(dá)到降維從而簡化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。PCA的特點(diǎn)：主成分是原變量的線性組合；各個(gè)主成分之間互不相關(guān)；主成分按照方差從大到小依次排列，第一主成分對(duì)應(yīng)最大的方差（特征值）；每個(gè)主成分的均值為0、其方差為協(xié)方差陣對(duì)應(yīng)的特征值；不同的主成分軸（載荷軸）之間相互正交；如果原來有p個(gè)變量，則最多可以選取p個(gè)主成分，這p個(gè)主成分的變化可以完全反映原來全部p個(gè)變量的變化；如果選取的主成分少于p個(gè)，則這些主成分的變化應(yīng)盡可能多地反映原來全部p個(gè)變量的變化。

總結(jié)和討論

PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降20計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用

PCA方法是一個(gè)具有很高普適性的方法，被廣泛應(yīng)用于多個(gè)領(lǐng)域。這里要特別介紹的是它在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用，包括如何對(duì)圖像進(jìn)行處理以及在人臉識(shí)別方面的特別作用。

數(shù)據(jù)表示如果要將PCA方法應(yīng)用于視覺領(lǐng)域，最基本的問題就是圖像的表達(dá)。如果是一幅N*N大小的圖像，它的數(shù)據(jù)將被表達(dá)為一個(gè)維的向量：在這里圖像的結(jié)構(gòu)將被打亂，每一個(gè)像素點(diǎn)被看作是一維，最直接的方法就是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是，每一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值，但是需要?jiǎng)潥w到同一緯度上。計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用

PCA方法是一21B.

模式識(shí)別

假設(shè)數(shù)據(jù)源是一系列的20幅圖像，每幅圖像都是N*N大小，那么它們都可以表示為一個(gè)維的向量。將它們排成一個(gè)矩陣：然后對(duì)它們進(jìn)行PCA處理，找出主元。B.

模式識(shí)別假設(shè)數(shù)據(jù)源是一系22

為什么這樣做呢？據(jù)人臉識(shí)別的例子來說，數(shù)據(jù)源是20幅不同的人臉圖像，PCA方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度，因?yàn)槿四樀慕Y(jié)構(gòu)有極大的相似性（特別是同一個(gè)人的人臉圖像），則使用PCA方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu)，也及時(shí)所謂“模式”，如果有新的圖像需要與原有圖像比較，就可以在變換后的主元維度上進(jìn)行比較，則可衡量新圖與原有數(shù)據(jù)集的相似度如何。對(duì)這樣的一組人臉圖像進(jìn)行處理，提取其中最重要的主元，即可大致描述人臉的結(jié)構(gòu)信息，稱作“特臉”(EigenFace)。這就是人臉識(shí)別中的重要方法“特征臉方法”的理論根據(jù)。近些年來，基于對(duì)一般PCA方法的改進(jìn)，結(jié)合ICA、kernel-PCA等方法，在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí)，則能得到更好的效果。主成分分析與應(yīng)用課件23C.

圖像信息壓縮

使用PCA方法進(jìn)行圖像壓縮，又被稱為Hotelling算法，或者KarhunenandLeove(KL)變換。這是視覺領(lǐng)域內(nèi)圖像處理的經(jīng)典算法

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

主成分分析與應(yīng)用課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

主成分分析與應(yīng)用課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔