主成分分析與應(yīng)用課件_第1頁
主成分分析與應(yīng)用課件_第2頁
主成分分析與應(yīng)用課件_第3頁
主成分分析與應(yīng)用課件_第4頁
主成分分析與應(yīng)用課件_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄什么是PCA一個(gè)簡單的模型引出的PCAPCA的代數(shù)原理PCA求解總結(jié)和討論應(yīng)用領(lǐng)域目錄什么是PCA1

PCA(Principalcomponentanalysis),主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡單,而且無參數(shù)限制,可以方便的應(yīng)用與各個(gè)場合。PCAPCA2目的壓縮變量個(gè)數(shù)用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息。即將許多相關(guān)性很高的變量轉(zhuǎn)化成個(gè)數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨(dú)立的幾個(gè)新變量,也就是所謂的主成分。

這樣就可以消除原始變量間存在的共線性,克服由此造成的運(yùn)算不穩(wěn)定、矩陣病態(tài)等問題。目的壓縮變量個(gè)數(shù)3PCA廣泛用于化學(xué)實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分析,進(jìn)行數(shù)據(jù)降維、變量提取與壓縮、確定化學(xué)組分?jǐn)?shù)、分類和聚類以及與其他方法連用進(jìn)行數(shù)據(jù)處理。主成分計(jì)算方法有非線性偏最小二乘(NIPALS)、乘冪法(POWER)、奇異值分解(SVD)和特征值分解(EVD)等。它們的原理基本上是基于特征值問題,計(jì)算結(jié)果也基本相同.主成分分析與應(yīng)用課件4一個(gè)簡單的模型Question:

光譜電壓速度大量的變量代表可能變化的因素限制因素實(shí)驗(yàn)環(huán)境觀測手段復(fù)雜、混亂、冗余How

分析變量背后的關(guān)系?一個(gè)簡單的物理模型一個(gè)簡單的模型光譜電壓速度大量的變量代表可能變化的因素限制因5這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無質(zhì)量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。(x0,y0,z0)200HZ沿著某個(gè)x軸的運(yùn)動(dòng)這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測定實(shí)驗(yàn)。假設(shè)球是連接在一6標(biāo)準(zhǔn)正交基200hz拍攝10分鐘,將有10x60x200=120000在線性代數(shù)中,這組基本正交基表示為行列向量線性無關(guān)的單位矩陣標(biāo)準(zhǔn)正交基200hz拍攝10分鐘,將有在線性代數(shù)中,這組基本7基變換Q?如何尋找到另一組正交基,它們是標(biāo)準(zhǔn)正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集?線性關(guān)鍵假設(shè)數(shù)據(jù)被限制在一個(gè)向量空間中,能被一組基表示;隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。X表示原始數(shù)據(jù)集。X是一個(gè)m*n的矩陣,它的每一個(gè)列向量都表示一個(gè)時(shí)間采樣點(diǎn)上的數(shù)據(jù)X,在上面的例子中,m=6,n=120000。Y表示轉(zhuǎn)換以后新的數(shù)據(jù)集。P是他們之間的線性轉(zhuǎn)換。(1)基變換Q?如何尋找到另一組正交基,它們是標(biāo)準(zhǔn)正交基的線性組合8

有如下定義:

pi表示P的行向量。

xi表示X的列向量(或者X)。

yi表示Y的列向量。公式(1)表示不同基之間的轉(zhuǎn)換,在線性代數(shù)中,它有如下的含義:

P是從X到Y(jié)的轉(zhuǎn)換矩陣。幾何上來說,P對(duì)X進(jìn)行旋轉(zhuǎn)和拉伸得到Y(jié)。

P的行向量,{p1,…pm}是一組新的基,而Y是原數(shù)據(jù)X在這組新的基表示下得到的重新表示。有如下定義:公式(1)表示不同基之間的轉(zhuǎn)換,在線性代數(shù)9Y的列向量與中對(duì)應(yīng)列的點(diǎn)積,也就是相當(dāng)于在對(duì)應(yīng)向量上的投影問題怎樣才能最好的表示數(shù)據(jù)X?P的基怎樣選擇才是最好的?體現(xiàn)數(shù)據(jù)特征what?how??Y的列向量與中對(duì)應(yīng)列的點(diǎn)積,也就是相當(dāng)于在對(duì)應(yīng)向量上的投影問10方差和目標(biāo)混亂數(shù)據(jù)噪音旋轉(zhuǎn)冗余A噪音和旋轉(zhuǎn)B冗余C協(xié)方差矩陣D協(xié)方差矩陣對(duì)角化方差和目標(biāo)混亂數(shù)據(jù)噪音旋轉(zhuǎn)冗余A噪音和旋轉(zhuǎn)B冗余C協(xié)方11噪音和旋轉(zhuǎn)噪音對(duì)數(shù)據(jù)的影響是巨大的,如果不能對(duì)噪音進(jìn)行區(qū)分,就不可能抽取數(shù)據(jù)中有用的信息。噪音的衡量有多種方式,最常見的定義是信噪比SNR(signal-to-noiseratio),或是方差比:(a)攝像機(jī)A的采集數(shù)據(jù)。圖中黑色垂直直線表示一組正交基的方向。是采樣點(diǎn)云在長線方向上分布的方差,而是數(shù)據(jù)點(diǎn)在短線方向上分布的方差。(b)對(duì)P的基向量進(jìn)行旋轉(zhuǎn)使SNR和方差最大。噪音和旋轉(zhuǎn)(a)攝像機(jī)A的采集12冗余不必要的變量1)該變量對(duì)結(jié)果沒有影響;2)該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。圖表3:可能冗余數(shù)據(jù)的頻譜圖表示。r1和r2分別是兩個(gè)不同的觀測變量。

(比如例子中的xa,yb)。最佳擬合線r2=kr1用虛線表示。二者高度相關(guān),冗余低冗余,相互獨(dú)立冗余不必要的變量1)該變量對(duì)結(jié)果沒有影響;2)該變量可以用其13

協(xié)方差矩陣

那么,對(duì)于一組具有m個(gè)觀測變量,n個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù)X,將每個(gè)觀測變量的值寫為行向量,可以得到一個(gè)m*n的矩陣A、B分別表示不同的觀測變量所記錄的一組值。將A,B寫成向量的形式:A=[a1,a2,…..an]B=[b1,b2,….bn]協(xié)方差可以表示為:定義協(xié)方差矩陣Cx是一個(gè)m*m的平方對(duì)稱矩陣。Cx對(duì)角線上的元素是對(duì)應(yīng)的觀測變量的方差。非對(duì)角線上的元素是對(duì)應(yīng)的觀測變量之間的協(xié)方差。

協(xié)方差矩陣

那么,對(duì)于一組具有m個(gè)觀測變量,n個(gè)采樣時(shí)14在對(duì)角線上的元素越大,表明信號(hào)越強(qiáng),變量的重要性越高;元素越小則表明可能是存在的噪音或是次要變量。在非對(duì)角線上的元素大小則對(duì)應(yīng)于相關(guān)觀測變量對(duì)之間冗余程度的大小。一般情況下,初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的,表現(xiàn)為信噪比不高且變量間相關(guān)度大。PCA的目標(biāo)就是通過基變換對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化,找到相關(guān)“主元”。那么,如何進(jìn)行優(yōu)化?矩陣的那些性質(zhì)是需要注意的呢?在對(duì)角線上的元素越大,表明信號(hào)越強(qiáng),變量的重要性越高;元素越15

協(xié)方差矩陣的對(duì)角化

主元分析以及協(xié)方差矩陣優(yōu)化的原則是:1)最小化變量冗余,對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量??;2)最大化信號(hào),對(duì)應(yīng)于要使協(xié)方差矩陣的對(duì)角線上的元素盡可能的大。

因?yàn)閰f(xié)方差矩陣的每一項(xiàng)都是正值,最小值為0,所以優(yōu)化的目標(biāo)矩陣Cy的非對(duì)角元素應(yīng)該都是0,對(duì)應(yīng)于冗余最小。所以優(yōu)化的目標(biāo)矩陣Cy應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線上的元素可能是非零值。同時(shí),PCA假設(shè)P所對(duì)應(yīng)的一組變換基{p1,p2,….pm}必須是標(biāo)準(zhǔn)正交的,而優(yōu)化矩陣Cy對(duì)角線上的元素越大,就說明信號(hào)的成分越大,換句話就是對(duì)應(yīng)于越重要的“主元”。協(xié)方差矩陣的對(duì)角化

主元分析以及協(xié)方差矩陣優(yōu)化的原則是:16

旋轉(zhuǎn)P的方法類似:(1)在m維空間中進(jìn)行遍歷,找到一個(gè)方差最大的向量,令作P1。

(2)在與P1垂直的向量空間中進(jìn)行遍歷,找出次大的方差對(duì)應(yīng)的向量,記作p2。

(3)對(duì)以上過程循環(huán),直到找出全部m的向量。它們生成的順序也就是“主元”的排序。

特性轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基??梢酝瑫r(shí)得到新的基向量所對(duì)應(yīng)的“主元排序”,旋轉(zhuǎn)P的方法類似:特性轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基??梢酝?7PCA求解:特征根分解

尋找一組正交基組成的矩陣P,有Y=PX,使得是對(duì)角陣。則P的行向量(也就是一組正交基),就是數(shù)據(jù)X的主元向量。對(duì)Cy進(jìn)行推導(dǎo):定義,則A是一個(gè)對(duì)稱陣。對(duì)A進(jìn)行對(duì)角化求取特征向量得:

則D是一個(gè)對(duì)角陣,而E則是對(duì)稱陣A的特征向量排成的矩陣。

PCA求解:特征根分解

尋找一組正交基組成的矩陣P,有Y=18

求出特征向量矩陣后我們?nèi)?,則,由線形代數(shù)可知矩陣P有性質(zhì),從而進(jìn)行如下計(jì)算:

可知此時(shí)的P就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果:X的主元即是的特征向量,也就是矩陣P的行向量。矩陣Cy對(duì)角線上第i個(gè)元素是數(shù)據(jù)X在方向pi的方差。我們可以得到PCA求解的一般步驟:1)采集數(shù)據(jù)形成m*n的矩陣。m為觀測變量個(gè)數(shù),n為采樣點(diǎn)個(gè)數(shù)。2)在每個(gè)觀測變量(矩陣行向量)上減去該觀測變量的平均值得到矩陣X。3)對(duì)進(jìn)行特征分解,求取特征向量以及所對(duì)應(yīng)的特征根。

求出特征向量矩陣后我們?nèi)?9總結(jié)和討論

PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。PCA的特點(diǎn):主成分是原變量的線性組合;各個(gè)主成分之間互不相關(guān);主成分按照方差從大到小依次排列,第一主成分對(duì)應(yīng)最大的方差(特征值);每個(gè)主成分的均值為0、其方差為協(xié)方差陣對(duì)應(yīng)的特征值;不同的主成分軸(載荷軸)之間相互正交;如果原來有p個(gè)變量,則最多可以選取p個(gè)主成分,這p個(gè)主成分的變化可以完全反映原來全部p個(gè)變量的變化;如果選取的主成分少于p個(gè),則這些主成分的變化應(yīng)盡可能多地反映原來全部p個(gè)變量的變化。

總結(jié)和討論

PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降20計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用

PCA方法是一個(gè)具有很高普適性的方法,被廣泛應(yīng)用于多個(gè)領(lǐng)域。這里要特別介紹的是它在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,包括如何對(duì)圖像進(jìn)行處理以及在人臉識(shí)別方面的特別作用。

A.

數(shù)據(jù)表示如果要將PCA方法應(yīng)用于視覺領(lǐng)域,最基本的問題就是圖像的表達(dá)。如果是一幅N*N大小的圖像,它的數(shù)據(jù)將被表達(dá)為一個(gè)維的向量:在這里圖像的結(jié)構(gòu)將被打亂,每一個(gè)像素點(diǎn)被看作是一維,最直接的方法就是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是,每一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值,但是需要?jiǎng)潥w到同一緯度上。計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用

PCA方法是一21B.

模式識(shí)別

假設(shè)數(shù)據(jù)源是一系列的20幅圖像,每幅圖像都是N*N大小,那么它們都可以表示為一個(gè)維的向量。將它們排成一個(gè)矩陣:然后對(duì)它們進(jìn)行PCA處理,找出主元。B.

模式識(shí)別假設(shè)數(shù)據(jù)源是一系22

為什么這樣做呢?據(jù)人臉識(shí)別的例子來說,數(shù)據(jù)源是20幅不同的人臉圖像,PCA方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度,因?yàn)槿四樀慕Y(jié)構(gòu)有極大的相似性(特別是同一個(gè)人的人臉圖像),則使用PCA方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu),也及時(shí)所謂“模式”,如果有新的圖像需要與原有圖像比較,就可以在變換后的主元維度上進(jìn)行比較,則可衡量新圖與原有數(shù)據(jù)集的相似度如何。對(duì)這樣的一組人臉圖像進(jìn)行處理,提取其中最重要的主元,即可大致描述人臉的結(jié)構(gòu)信息,稱作“特臉”(EigenFace)。這就是人臉識(shí)別中的重要方法“特征臉方法”的理論根據(jù)。近些年來,基于對(duì)一般PCA方法的改進(jìn),結(jié)合ICA、kernel-PCA等方法,在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí),則能得到更好的效果。主成分分析與應(yīng)用課件23C.

圖像信息壓縮

使用PCA方法進(jìn)行圖像壓縮,又被稱為Hotelling算法,或者KarhunenandLeove(KL)變換。這是視覺領(lǐng)域內(nèi)圖像處理的經(jīng)典算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論