模式識別第講_第1頁
模式識別第講_第2頁
模式識別第講_第3頁
模式識別第講_第4頁
模式識別第講_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

模式識別第講第一頁,共三十四頁,編輯于2023年,星期六第3次課程概要模式判別PCA特征評價維數(shù)比率問題第二頁,共三十四頁,編輯于2023年,星期六PCAPrincipalcomponentanalysis主元分析或主成分分析功能:簡化復(fù)雜數(shù)據(jù)到低維空間,從而發(fā)現(xiàn)數(shù)據(jù)中隱藏的簡單結(jié)構(gòu)。原始數(shù)據(jù)源(生數(shù)據(jù))通常有冗余,包含噪聲PCA的目標(biāo):去除冗余,并發(fā)現(xiàn)重要特征PCA特征評價維數(shù)比率問題第三頁,共三十四頁,編輯于2023年,星期六PCA的大致思路認(rèn)為原始數(shù)據(jù)X是復(fù)雜的(有噪聲有冗余),要對X重新表示重新表示后數(shù)據(jù)的維度即為隱藏于X中的簡單結(jié)構(gòu)PCA特征評價維數(shù)比率問題第四頁,共三十四頁,編輯于2023年,星期六PCA怎么做?技術(shù)路線利用線性代數(shù)為工具,用另一組基去重新描述數(shù)據(jù)空間新的基能夠最好地表示原數(shù)據(jù)X原有的基是什么樣的形式呢?Na?vebasis:目標(biāo):找到另一組基,能最好表達(dá)數(shù)據(jù)集,這個新的基是原有基的線性組合PCA特征評價維數(shù)比率問題采用該方法就隱含了一個假設(shè):線性。數(shù)據(jù)限制在一個向量空間里,能被一組基表示第五頁,共三十四頁,編輯于2023年,星期六基變換n個樣本每個樣本m個特征構(gòu)成m×n的矩陣XP是從X到Y(jié)的轉(zhuǎn)換矩陣幾何上,Y由對X旋轉(zhuǎn)拉伸得到P的行向量構(gòu)成一組新的基,而Y是在這組基下對X的重新表示PCA特征評價維數(shù)比率問題第六頁,共三十四頁,編輯于2023年,星期六在線性的假設(shè)條件下,要解答要尋求一組變換后的基,也就是P的行向量{p1,…pm}這組基就是X的主元要解答的問題1我們要將X轉(zhuǎn)換成為的Y是個什么樣子?2對應(yīng)于Y,如何求解P?PCA特征評價維數(shù)比率問題第七頁,共三十四頁,編輯于2023年,星期六我們要將X轉(zhuǎn)換成為的Y是個什么樣子?回顧一下PCA要解決的問題,數(shù)據(jù)復(fù)雜混亂

噪聲冗余PCA特征評價維數(shù)比率問題第八頁,共三十四頁,編輯于2023年,星期六重要特征和噪聲的數(shù)學(xué)描述信噪比要使得信噪比大,信號的方差大,噪聲的方差小假設(shè):變化較大的信息認(rèn)為是信號,變化較小的則是噪聲PCA特征評價維數(shù)比率問題第九頁,共三十四頁,編輯于2023年,星期六冗余的數(shù)學(xué)描述該變量可以用其它變量表示,因此造成了信息冗余PCA特征評價維數(shù)比率問題協(xié)方差矩陣可以反映數(shù)據(jù)的噪聲和冗余的程度第十頁,共三十四頁,編輯于2023年,星期六PCA的目標(biāo)及它基于的假設(shè)PCA特征評價維數(shù)比率問題通過基變換,對協(xié)方差矩陣進(jìn)行優(yōu)化,即使得變換后的數(shù)據(jù)集Y,其協(xié)方差矩陣為對角陣。線性假設(shè):PCA內(nèi)部模型是線性的,是基于原始特征的線性變換。(如果原始數(shù)據(jù)存在非線性屬性,則經(jīng)PCA分析后將不再反映這種非線性屬性)方差越大,特征越重要。(有些對整體方差貢獻(xiàn)不大的主成分,有可能在樣本分類方面起至關(guān)重要的作用)冗余用相關(guān)性表示。(數(shù)據(jù)的概率分布需要滿足高斯分布或是指數(shù)型的概率分布)主元正交,即轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。該假設(shè)的作用是方便求解第十一頁,共三十四頁,編輯于2023年,星期六PCA求解:特征根分解(1)PCA特征評價維數(shù)比率問題尋找一組正交基組成的矩陣P,有Y=PX,使得CY是對角陣,則P的行向量,就是數(shù)據(jù)X的主元向量。D是一個對角陣E是對稱陣A的特征根排成的矩陣解題技巧,令P≡ET第十二頁,共三十四頁,編輯于2023年,星期六PCA求解:特征根分解(2)PCA特征評價維數(shù)比率問題第十三頁,共三十四頁,編輯于2023年,星期六PCA算法的一般求解步驟由以上推導(dǎo),PCA算法的一般求解步驟如下1采集數(shù)據(jù),形成m×n的矩陣,m為特征個數(shù),n為樣本數(shù)。2矩陣中的每個元素減去該維的均值,得到X3求XX‘的特征根PCA特征評價維數(shù)比率問題第十四頁,共三十四頁,編輯于2023年,星期六將PCA用于降維由PCA線性變換后得到的數(shù)據(jù)集,可認(rèn)為是沒有冗余的。在此結(jié)構(gòu)下,可以討論樣本中的哪些屬性(特征)比較重要。按方差由大到小排序,但丟棄的準(zhǔn)則是什么?PCA特征評價維數(shù)比率問題方法一:Kaiser準(zhǔn)則丟棄那些低于1的特征值方法二:觀察特征值的圖,通過斜率檢測,即從圖中曲線開始變平緩的點開始,丟棄后面的全部特征值。第十五頁,共三十四頁,編輯于2023年,星期六有關(guān)PCA需要注意的一個問題原始數(shù)據(jù)集里,每個特征是有意義的。比如圖像中一個對象的形狀、顏色等。但是線性變換后,語義信息丟失了。這對我們解釋識別過程帶來一定的問題。PCA特征評價維數(shù)比率問題第十六頁,共三十四頁,編輯于2023年,星期六特征評價對于特征分類能力的評價(1)圖形考察:盒狀圖分布圖(2)分布模型評價(3)統(tǒng)計推論檢測這些評價方法可為我們觀察某些特征集合下的數(shù)據(jù)分布提供直觀的指導(dǎo)信息PCA特征評價維數(shù)比率問題第十七頁,共三十四頁,編輯于2023年,星期六盒狀圖怎么畫(1)回顧:盒狀圖應(yīng)用在此的目的是:評價特征用于分類的能力因此,我們用來畫盒狀圖的數(shù)據(jù)是樣本集中一個維度(特征)的數(shù)據(jù)繪制步驟:1)將n個數(shù)據(jù)由小到大排序。(由大到小也可以)2)計算3個四分位數(shù)。

a.中位數(shù)(第2個四分位數(shù),Q2)如果n為奇數(shù),則排序后,第(n+1)/2位是中位數(shù)。如果n為偶數(shù),則排序后,第n/2與第(n+1)/2位數(shù)的平均值,為中位數(shù)。

b.不計Q2,計算前半個數(shù)據(jù)集的中位數(shù)Q1。

c.不計Q2,計算后半個數(shù)據(jù)集的中位數(shù)Q3。3)3個四分位數(shù)、最小值、最大值共5個數(shù)字就可以繪制盒狀圖了。PCA特征評價維數(shù)比率問題第十八頁,共三十四頁,編輯于2023年,星期六盒狀圖怎么畫(2)PCA特征評價維數(shù)比率問題將成績排序班級某科某次測試成績?nèi)缦拢旱谑彭?,共三十四頁,編輯?023年,星期六盒狀圖怎么畫(3)PCA特征評價維數(shù)比率問題最小值:27最大值:97Q2:第(39+1)/2=20位的值60Q1:第(19+1)/2=10位的值45Q3:第(21+39)/2=30位的值70排序后的成績第二十頁,共三十四頁,編輯于2023年,星期六盒狀圖怎么畫(4)PCA特征評價維數(shù)比率問題有一半人及格;1/4學(xué)生70分以上;1/4學(xué)生45分以下;另外,還體現(xiàn)了分?jǐn)?shù)是集中還是分散全距最小值:27最大值:97Q2:60Q1:45Q3:70四分位距第二十一頁,共三十四頁,編輯于2023年,星期六如何用盒狀圖觀察特征的分類能力軟木塞數(shù)據(jù)集,三個類別在兩個特征上的盒狀圖PCA特征評價維數(shù)比率問題特征PRT特征PRTG第二十二頁,共三十四頁,編輯于2023年,星期六分布圖數(shù)據(jù)在特征空間分布上存在大量重疊,會對分類造成困難分布圖描繪了數(shù)據(jù)類別的拓?fù)浣Y(jié)構(gòu),可直觀獲取特征間分布重疊狀況PCA特征評價維數(shù)比率問題第二十三頁,共三十四頁,編輯于2023年,星期六分布模型評價給定數(shù)據(jù)集(特征向量的集合),其分布是否與給定的分布模型吻合用適當(dāng)?shù)姆植寄P兔枋鰯?shù)據(jù)集,就可以根據(jù)已知樣本集為分布模型估計參數(shù),確定后的模型可用作分類或聚類。PCA特征評價維數(shù)比率問題第二十四頁,共三十四頁,編輯于2023年,星期六Kolmogorov-Smirnov檢測

K-S檢驗(1)經(jīng)驗分布函數(shù)給定N個由小到大排序的數(shù)據(jù)X1….XN其中n(i)是小于等于Xi的對象個數(shù)PCA特征評價維數(shù)比率問題(1,2,2,2,3,3,3,4)第二十五頁,共三十四頁,編輯于2023年,星期六Kolmogorov-Smirnov檢測

K-S檢驗(2)PCA特征評價維數(shù)比率問題給定一個經(jīng)驗分布函數(shù)FX和一個理論累積分布函數(shù)FYD=max{D+,D-}兩個經(jīng)驗分布函數(shù)第二十六頁,共三十四頁,編輯于2023年,星期六Kolmogorov-Smirnov檢測

K-S檢驗(3)PCA特征評價維數(shù)比率問題K-S檢驗的基本思路就是根據(jù)這兩根曲線的最大間距判斷是否為同一分布給定一個正態(tài)分布下產(chǎn)生的100個隨機(jī)數(shù),下圖繪制了這100個隨機(jī)數(shù)的經(jīng)驗分布函數(shù)以及正態(tài)累積分布函數(shù)第二十七頁,共三十四頁,編輯于2023年,星期六統(tǒng)計推論檢測量化特征的分類能力常用的統(tǒng)計推論檢驗法對于服從正態(tài)分布的特征t-student檢驗Anova統(tǒng)計檢驗有時候,在樣本有限的情況下,避免對特征的分布模型進(jìn)行假設(shè)Kruskal-Wallis檢驗(K-W檢驗,又稱H檢驗)PCA特征評價維數(shù)比率問題第二十八頁,共三十四頁,編輯于2023年,星期六Kruskal-Wallis檢驗給定有類別標(biāo)簽的一個樣本集,檢驗其中一個特征的分類能力,需要挑出該特征下的數(shù)據(jù),形成由n個數(shù)據(jù)組成的集合X(1)對X由小到大排序,每一個數(shù)據(jù)對應(yīng)的序號稱作秩次(2)求評價值Hni:第i類的樣本數(shù)

Ri:第i類中所有樣本的秩次和(3)一般認(rèn)為,具有較高H值的特征有較強(qiáng)分類能力PCA特征評價維數(shù)比率問題第二十九頁,共三十四頁,編輯于2023年,星期六Kruskal-Wallis檢驗

一個例子包含3個類別的樣本集,取其中一個特征得到數(shù)據(jù)集如下:類別1:279;338;334;198;303類別2:229;274;310類別3:210;285;117PCA特征評價維數(shù)比率問題n=11;n1=5;n2=3;n3=3;R1=37;R2=18;R3=11;第三十頁,共三十四頁,編輯于2023年,星期六Kruskal-Wallis檢驗

軟木塞數(shù)據(jù)的檢驗結(jié)果PCA特征評價維數(shù)比率問題第三十一頁,共三十四頁,編輯于2023年,星期六回顧:決策面在一個低維空間里,決策面很復(fù)雜,投射到高維空間中,可以找到一個線性的決策面但是在實際應(yīng)用中,無限制地向高維投射,會存在“維數(shù)災(zāi)難”問題PCA特征評價維數(shù)比率問題第三十二頁,共三十四頁,編輯于2023年,星期六數(shù)據(jù)不斷增加時的兩類分布圖這三個圖想要給我們一個直觀的印象:當(dāng)維數(shù)比率較低時,由訓(xùn)練集合學(xué)習(xí)得到的分類器將會是錯誤的。維數(shù)比率較低對應(yīng)著數(shù)據(jù)分布稀疏的狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論