主元分析講稿_第1頁(yè)
主元分析講稿_第2頁(yè)
主元分析講稿_第3頁(yè)
主元分析講稿_第4頁(yè)
主元分析講稿_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于主元分析第一張,PPT共四十四頁(yè),創(chuàng)作于2022年6月什么是PCA PCA是Principal component analysis的縮寫,中文翻譯為主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余;將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu);優(yōu)點(diǎn)和問(wèn)題:抓住主要矛盾,易于表達(dá)和理解;可能喪失有用的信息。第二張,PPT共四十四頁(yè),創(chuàng)作于2022年6月第三張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA舉例-去相關(guān)性第四張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA舉例-去相關(guān)性第五張,PPT共四十

2、四頁(yè),創(chuàng)作于2022年6月PCA舉例-降維npAnkX第六張,PPT共四十四頁(yè),創(chuàng)作于2022年6月一個(gè)簡(jiǎn)單模型理想彈簧運(yùn)動(dòng)規(guī)律的測(cè)定實(shí)驗(yàn)。有先驗(yàn)知識(shí) V.S 無(wú)先驗(yàn)知識(shí)在真實(shí)世界中,對(duì)于第一次實(shí)驗(yàn)的探索者來(lái)說(shuō)球的運(yùn)動(dòng)狀態(tài)未知;有效的特征空間情況未知。第七張,PPT共四十四頁(yè),創(chuàng)作于2022年6月一個(gè)簡(jiǎn)單模型PC 1PC 2第八張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA的線性代數(shù)解釋-正交基 正交基和標(biāo)準(zhǔn)正交基 內(nèi)積為零模為一以上述震動(dòng)模型為例,在每一個(gè)采樣點(diǎn)上得到的位置數(shù)據(jù)對(duì)應(yīng)于一個(gè)六維列向量,構(gòu)成這個(gè)六維特征空間的一組標(biāo)準(zhǔn)正交基可以表示為行列向量線形無(wú)關(guān)的單位矩陣。第九張,PPT共四

3、十四頁(yè),創(chuàng)作于2022年6月PCA的線性代數(shù)解釋-基變換 從更嚴(yán)格的數(shù)學(xué)定義上來(lái)說(shuō),PCA回答的問(wèn)題是:如何尋找到另一組正交基,它們是標(biāo)準(zhǔn)正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集?PCA的關(guān)鍵假設(shè)-線性數(shù)據(jù)被限制在一個(gè)向量空間中,能被一組基表示;隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。這樣一來(lái)數(shù)據(jù)就可以被表示為各種基的線性組合。第十張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA的線性代數(shù)解釋-基變換經(jīng)PCA轉(zhuǎn)換以后,得到一組新的正交基,則采樣點(diǎn)在新正交基下有新的表示形式。 pi是P的行向量xi是X的列向量yi是Y的列向量P是從X到Y(jié)的轉(zhuǎn)換矩陣。P對(duì)X進(jìn)行旋轉(zhuǎn)和拉伸得到Y(jié)。P的行向量是一組新的基,

4、Y是原數(shù)據(jù)X在這組新的基表示下得到的重新表示。第十一張,PPT共四十四頁(yè),創(chuàng)作于2022年6月問(wèn)題和目標(biāo) 問(wèn)題怎樣才能最好的表示原數(shù)據(jù)X?P的基怎樣選擇才是最好的?目標(biāo)消除噪聲和冗余找到包含最多信息的主軸方向第十二張,PPT共四十四頁(yè),創(chuàng)作于2022年6月噪聲第十三張,PPT共四十四頁(yè),創(chuàng)作于2022年6月冗余 實(shí)驗(yàn)中引入了不必要的變量??赡軙?huì)是兩種情況:該變量對(duì)結(jié)果沒(méi)有影響;該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。第十四張,PPT共四十四頁(yè),創(chuàng)作于2022年6月冗余和信息量度量協(xié)方差矩陣冗余-協(xié)方差信息量-方差CX是一個(gè)的mm對(duì)稱矩陣。對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量的方差。非對(duì)角線上的元

5、素是對(duì)應(yīng)的觀測(cè)變量之間的協(xié)方差。第十五張,PPT共四十四頁(yè),創(chuàng)作于2022年6月協(xié)方差矩陣的對(duì)角化 主元分析以及協(xié)方差矩陣優(yōu)化的原則是:最小化變量冗余,對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量??;最大化信號(hào),對(duì)應(yīng)于要使協(xié)方差矩陣的對(duì)角線上的元素盡可能的大。優(yōu)化的目標(biāo)矩陣應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線上的元素可能是非零值。PCA假設(shè)所對(duì)應(yīng)的一組變換基必須是標(biāo)準(zhǔn)正交的,而優(yōu)化矩陣對(duì)角線上的元素越大,就說(shuō)明信號(hào)的成分越大,換句話就是對(duì)應(yīng)于越重要的“主元”。最簡(jiǎn)單最直接的算法就是在多維空間內(nèi)進(jìn)行搜索。在m維空間中進(jìn)行遍歷,找到一個(gè)方差最大的向量p1。在與p1垂直的向量空間中進(jìn)行遍歷,找出次大的方差對(duì)應(yīng)的向量

6、p2 。對(duì)以上過(guò)程循環(huán),直到找出全部m個(gè)向量。它們生成的順序也就是“主元”的排序。第十六張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA的假設(shè)和局限 PCA的假設(shè)條件包括:線性假設(shè)使用均值和方差進(jìn)行充分統(tǒng)計(jì)(高斯)。高信噪比假設(shè):大方差向量具有較大重要性。主元正交假設(shè)。第十七張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA求解:特征根分解問(wèn)題描述:尋找一組正交基組成的矩陣P,有Y=PX,使得CY=YYT/(n-1)是對(duì)角陣。則P的行向量(也就是一組正交基),就是數(shù)據(jù)X的主元向量。A=XXT ,A是一個(gè)對(duì)稱陣。D是一個(gè)對(duì)角陣,E是對(duì)稱陣A的特征向量排成的矩陣。求出特征向量矩陣E后,取P=ET ,

7、則A=PTDP ,又有P-1=PT第十八張,PPT共四十四頁(yè),創(chuàng)作于2022年6月PCA求解:特征根分解結(jié)論X的主元即是XXT的特征向量,也就是矩陣P的行向量。矩陣CY對(duì)角線上第i個(gè)元素是數(shù)據(jù)X在pi方向的方差。我們可以得到PCA求解的一般步驟:采集數(shù)據(jù)形成mn的矩陣。m為觀測(cè)變量個(gè)數(shù),n為采樣點(diǎn)個(gè)數(shù)。在每個(gè)觀測(cè)變量(矩陣行向量)上減去該觀測(cè)變量的平均值得到矩陣X 。對(duì)XXT進(jìn)行特征分解,求取特征向量以及所對(duì)應(yīng)的特征根。第十九張,PPT共四十四頁(yè),創(chuàng)作于2022年6月總結(jié)和討論P(yáng)CA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分

8、,將后面的維數(shù)省去,可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。前文的例子中,經(jīng)過(guò)PCA處理后的數(shù)據(jù)只剩下了一維,也就是彈簧運(yùn)動(dòng)的那一維,從而去除了冗余的變量,揭示了實(shí)驗(yàn)數(shù)據(jù)背后的物理原理。PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無(wú)參數(shù)限制的。在PCA的計(jì)算過(guò)程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。但是,這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無(wú)法通過(guò)參數(shù)化等方法對(duì)處理過(guò)程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果,效率也不高。第二十張,PPT共四十四頁(yè)

9、,創(chuàng)作于2022年6月總結(jié)和討論數(shù)據(jù)在特征空間非線性分布PCA找出的主元將是(P1,P2)。這顯然不是最優(yōu)和最簡(jiǎn)化的主元。 (P1,P2)之間存在著非線性的關(guān)系。在這種情況下,PCA就會(huì)失效。如果加入先驗(yàn)的知識(shí),對(duì)數(shù)據(jù)進(jìn)行某種劃歸,就可以將數(shù)據(jù)轉(zhuǎn)化為以為線性的空間中。這類根據(jù)先驗(yàn)知識(shí)對(duì)數(shù)據(jù)預(yù)先進(jìn)行非線性轉(zhuǎn)換的方法就成為kernel-PCA,它擴(kuò)展了PCA能夠處理的問(wèn)題的范圍,又可以結(jié)合一些先驗(yàn)約束,是比較流行的方法。第二十一張,PPT共四十四頁(yè),創(chuàng)作于2022年6月總結(jié)和討論獨(dú)立分量分析(Independent Component Analysis, ICA) 數(shù)據(jù)的分布不滿足高斯分布。PCA

10、方法得出的主元可能并不是最優(yōu)的。要根據(jù)數(shù)據(jù)的分布情況選擇合適的描述完全分布的變量,然后根據(jù)概率分布式P(y1,y2)=P(y1)P(y2)來(lái)計(jì)算兩個(gè)向量上數(shù)據(jù)分布的相關(guān)性。等價(jià)的,保持主元間的正交假設(shè),尋找的主元同樣要使P(y1,y2)=0 。這一類方法被稱為獨(dú)立主元分解(ICA)。第二十二張,PPT共四十四頁(yè),創(chuàng)作于2022年6月總結(jié)和討論第二十三張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例數(shù)據(jù)表示如果要將PCA方法應(yīng)用于視覺(jué)領(lǐng)域,最基本的問(wèn)題就是圖像的表達(dá)。如果是一幅NN大小的圖像,它的數(shù)據(jù)將被表達(dá)為一個(gè)N2維的向量。在這里圖像的結(jié)構(gòu)將被打亂,每一個(gè)像素點(diǎn)被看作是一維,最直接的方法就

11、是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是,每一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值,但是需要?jiǎng)潥w到同一緯度上。 第二十四張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例模式識(shí)別 對(duì)圖像進(jìn)行PCA處理,找出主元。據(jù)人臉識(shí)別的例子來(lái)說(shuō),數(shù)據(jù)源是20幅不同的人臉圖像,PCA方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度,因?yàn)槿四樀慕Y(jié)構(gòu)有極大的相似性(特別是同一個(gè)人的人臉圖像),則使用PCA方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu),也及時(shí)所謂“模式”,如果有新的圖像需要與原有圖像比較,就可以在變換后的主元維度上進(jìn)行比較,則可衡量新圖與原有數(shù)據(jù)集的相似度如何。對(duì)這樣的一組人臉圖像

12、進(jìn)行處理,提取其中最重要的主元,即可大致描述人臉的結(jié)構(gòu)信息,稱作“特征臉”(EigenFace)。這就是人臉識(shí)別中的重要方法“特征臉?lè)椒ā钡睦碚摳鶕?jù)。近些年來(lái),基于對(duì)一般PCA方法的改進(jìn),結(jié)合ICA、kernel-PCA等方法,在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí),則能得到更好的效果。第二十五張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例圖像信息壓縮 使用PCA方法進(jìn)行圖像壓縮,又被稱為Hotelling算法,或者Karhunen and Leove(KL)變換。這是視覺(jué)領(lǐng)域內(nèi)圖像處理的經(jīng)典算法之一。具體算法與上述過(guò)程相同,使用PCA方法處理一個(gè)圖像序列,提取其中的主元。然后根據(jù)主元的排

13、序去除其中次要的分量,然后變換回原空間,則圖像序列因?yàn)榫S數(shù)降低得到很大的壓縮。例如上例中取出次要的5個(gè)維度,則圖像就被壓縮了1/4。但是這種有損的壓縮方法同時(shí)又保持了其中最“重要”的信息,是一種非常重要且有效的算法。第二十六張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例人臉識(shí)別引用清華大學(xué)張長(zhǎng)水教授相關(guān)工作第二十七張,PPT共四十四頁(yè),創(chuàng)作于2022年6月直接計(jì)算C 的本征值和本征向量是困難的,可以通過(guò)對(duì)矩陣 做奇異值分解間接求出m值的選擇:應(yīng)用舉例本征臉如果將本征向量恢復(fù)成圖像,這些圖像很像人臉,因此稱為“本征臉” M. Turk & A. Pentland, JCN91第二十八張,PP

14、T共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例本征特征(eigenfeature)方法利用PCA分析眼、鼻、嘴等局部特征,即本征特征方法 R. Brunelli & T. Poggio, TPAMI93 A. Pentland et al., CVPR94這實(shí)際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個(gè)本征空間集成起來(lái)第二十九張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例本征臉 vs. 本征特征將二者結(jié)合,可以得到更好的識(shí)別效果同樣,這實(shí)際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個(gè)本征空間集成起來(lái)(2)(1)(3)(4)難題能否自動(dòng)確定:該用哪些特征?(眼睛?鼻子?嘴?)特征的

15、確切位置在哪兒?(從哪兒到哪兒算眼睛?)由于嘴部受表情影響很嚴(yán)重,因此未考慮嘴部特征第三十張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例人臉識(shí)別引用清華大學(xué)張長(zhǎng)水教授相關(guān)工作第三十一張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例基于圖像本身的方法 依賴于圖像的相對(duì)灰度分布識(shí)別性能與訓(xùn)練集合有關(guān)加入新的樣本必須重新訓(xùn)練特征向量的選擇第三十二張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例第三十三張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例中科奧森人臉識(shí)別系統(tǒng)第三十四張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例第三十五張,PPT共四十四頁(yè),創(chuàng)作于2022年6月應(yīng)用舉例第三十六張,PPT共四十四頁(yè),創(chuàng)作于202

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論