模式識別導(dǎo)論(五)_第1頁
模式識別導(dǎo)論(五)_第2頁
模式識別導(dǎo)論(五)_第3頁
模式識別導(dǎo)論(五)_第4頁
模式識別導(dǎo)論(五)_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第五章第五章 參數(shù)估計與非參數(shù)估計參數(shù)估計與非參數(shù)估計 參數(shù)估計與監(jiān)督學(xué)習(xí) 參數(shù)估計理論 非參數(shù)估計理論 5-1 參數(shù)估計與監(jiān)督學(xué)習(xí)貝葉斯分類器中只要知道先驗(yàn)概率,條件概率或后驗(yàn)概概率 P(i),P(x/i), P(i /x)就可以設(shè)計分類器了?,F(xiàn)在來研究如何用已知訓(xùn)練樣本的信息去估計P(i),P(x/i), P(i /x) 一參數(shù)估計與非參數(shù)估計參數(shù)估計:先假定研究的問題具有某種數(shù)學(xué)模型,如 正態(tài)分布,二項(xiàng)分布,再用已知類別的學(xué)習(xí) 樣本估計里面的參數(shù)。非參數(shù)估計:不假定數(shù)學(xué)模型,直接用已知類別的學(xué)習(xí) 樣本的先驗(yàn)知識直接估計數(shù)學(xué)模型。二監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):在已知類別樣本指導(dǎo)下的學(xué)習(xí)和

2、訓(xùn)練, 參數(shù)估計和非參數(shù)估計都屬于監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí):不知道樣本類別,只知道樣本的某些 信息去估計,如:聚類分析。5-2參數(shù)估計理論 一最大似然估計一最大似然估計假定: 待估參數(shù)是確定的未知量 按類別把樣本分成M類X1,X2,X3, XM 其中第i類的樣本共N個 Xi = (X1,X2, XN)T 并且是獨(dú)立從總體中抽取的 Xi中的樣本不包含 (ij)的信息,所以可以對每一 類樣本獨(dú)立進(jìn)行處理。 第i類的待估參數(shù)根據(jù)以上四條假定,我們下邊就可以只利用第i類學(xué)習(xí)樣本來估計第i類的概率密度,其它類的概率密度由其它類的學(xué)習(xí)樣本來估計。),.,(21nTij 1.一般原則:一般原則: 第i類樣本的類

3、條件概率密度: P(Xi/i)= P(Xi/ii) = P(Xi/i)原屬于i類的學(xué)習(xí)樣本為Xi=(X1 , X2 ,XN,)T i=1,2,M求求i的最大似然估計就是把的最大似然估計就是把P(Xi/i)看成看成i的函數(shù),求的函數(shù),求出使它最大時的出使它最大時的i值。值。學(xué)習(xí)樣本獨(dú)立從總體樣本集中抽取的 N個學(xué)習(xí)樣本出現(xiàn)概率的乘積取對數(shù) :NkiXkPiXPiiXPii1)|()|().|(NkikikNkXPXP11)|(log)|(log對i求導(dǎo),并令它為0:有時上式是多解的, 上圖有5個解,只有一個解最大即. 0)|(log.11NkikpXP0)|(log.0)|(log111ikNk

4、pikNkXPXPP(Xi/i),即為的估值利用上式求出ii 2. 多維正態(tài)分布情況 已知, 未知,估計 服從正態(tài)分布所以在正態(tài)分布時)|(iiXP0)|(log1XPkNk121|2log21)|(XXXPkkTnk NkkX110NkkX1101i待估參數(shù)為代入上式得所以這說明未知均值的最大似然估計正好是訓(xùn)練樣本的算術(shù)平均。 110)(NkkNXNkkXN11 , 均未知 A. 一維情況:n=1對于每個學(xué)習(xí)樣本只有一個特征的簡單情況: (n=1)由上式得 即學(xué)習(xí)樣本的算術(shù)平均 樣本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkik

5、Nk代入02)(21)|(log12212212NkkikNkXXPNkkXN1111NkXkN122121 討論: 1.正態(tài)總體均值的最大似然估計即為學(xué)習(xí)樣本的算術(shù)平均 2.正態(tài)總體方差的最大似然估計與樣本的方差不同,當(dāng)N較大的時候,二者的差別不大。B多維情況:n個特征(學(xué)生可以自行推出下式)估計值: 結(jié)論:的估計即為學(xué)習(xí)樣本的算術(shù)平均 估計的協(xié)方差矩陣是矩陣 的算術(shù) 平均(nn陣列, nn個值)NkkXN111XTXNkNkk121XXkTk二.貝葉斯估計 最大似然估計是把待估的參數(shù)看作固定的未知量,而貝葉斯估計則是把待估的參數(shù)作為具有某種先驗(yàn)分布的隨機(jī)變量,通過對第i類學(xué)習(xí)樣本Xi的觀察

6、,使概率密度分布P(Xi/)轉(zhuǎn)化為后驗(yàn)概率P(/Xi) ,再求貝葉斯估計。估計步驟: 確定的先驗(yàn)分布P(),待估參數(shù)為隨機(jī)變量。 用第i類樣本xi=(x1, x2,. xN)T求出樣本的聯(lián)合概率密度分布P(xi|),它是的函數(shù)。 利用貝葉斯公式,求的后驗(yàn)概率 dPXPPXPXPiii)()|()().|()|((證明略)求貝葉斯估計dXPi)|(下面以正態(tài)分布的均值估計為例說明貝葉斯估計的過程 一維正態(tài)分布一維正態(tài)分布:已知2,估計 假設(shè)概率密度服從正態(tài)分布 P(X|)=N(,2), P()=N(0,02) 第i類學(xué)習(xí)樣本xi=(x1, x2,. xN)T, i=1,2,M 第i類概率密度P(

7、x|i,xi)=P(x|xi) 所以后驗(yàn)概率 (貝葉斯公式)dPXPPXPXPiii)()|()().|()|(因?yàn)镹個樣本是獨(dú)立抽取的,所以上式可以寫成 其中 為比例因子,只與x有關(guān),與無關(guān) P(Xk| )=N(,2),P(u)=N(0,02) 其中a,a包含了所有與無關(guān)的因子NkkiPXPaXP1)().|()|(dPXPai)()|(121exp2121exp21)|(00221kNkiXaXP 21exp10022NkkXa)1(2)1(21exp 200122202NkkXNaP(| xi)是u的二次函數(shù)的指數(shù)函數(shù)P(| xi)仍然是一個正態(tài)函數(shù), P(|Xi)=N(N,N2) 另外

8、后驗(yàn)概率可以直接寫成正態(tài)形式:比較以上兩個式子,對應(yīng)的系數(shù)應(yīng)該相等 21exp21)|(2NNNiXP0201222022111NkkNNXNN解以上兩式得 將N,N2代入P(|Xi)可以得到后驗(yàn)概率,再用公式 02022120202NXNNkkN2022022NN的估計求 ,)|(dXPi 對的估計為 若令P()=N(0, 02 )=N(0,1) 與最大似然估計相似,只是分母不同 02022120202NXNNkkNNNkkXNN111NidXP)|( 三貝葉斯學(xué)習(xí)1.貝葉斯學(xué)習(xí)的概念:求出的后驗(yàn)概率之后,直接去推導(dǎo)總體分布即當(dāng)觀察一個樣本時,N=1就會有一個的估計值的修正值當(dāng)觀察N=4時,

9、對進(jìn)行修正,向真正的靠近當(dāng)觀察N=9時,對進(jìn)行修正,向真正的靠的更近當(dāng)N,N就反映了觀察到N個樣本后對的最好推測,而N2反映了這種推測的不確定性, N, N2,N2 隨觀察樣本增加而單調(diào)減小,且當(dāng)N, N2 0 當(dāng)N,P(|xi)越來越尖峰突起N, P(|xi)函數(shù),這個過程成為貝葉斯學(xué)習(xí)。 dXPXPdXPXPXXPiii)|()|()|()|()|(2類概率密度的估計 在求出u的后驗(yàn)概率P(|xi)后,可以直接利用式 推斷類條件概率密度。即P(x|xi) P(x|i ,xi)一維正態(tài):已知2,未知的后驗(yàn)概率為dxPxPxxPii)|()|()|(服從正態(tài)分布21exp21)|(21exp2

10、1)|()|(22xxPxPxPNNNiidxPxPdxPxPxxPiii)|()|()|()|()|(代入dxNNN21exp2121exp2122dxxNNNNNNNN21exp21exp2122222222222221exp2122222NNNx為正態(tài)函數(shù)),(22NNN 結(jié)論: 把第i類的先驗(yàn)概率P(i)與第i類概率密度P(x|xi)相乘可以 得到第i類的后驗(yàn)概率P(i/x) ,根據(jù)后驗(yàn)概率可以分類。 對于正態(tài)分布P(x|xi),用樣本估計出來的N代替原來的 用 代替原來的方差 即可。 把估計值N作為的實(shí)際值,那么使方差由原來的 變 為 ,使方差增大22N2222N多維正態(tài)( 已知,估

11、計 )設(shè)P(x|)=N(,) P()=N(0,0).根據(jù)Bayes公式,仿上面步驟可以得到:N , N 有以下關(guān)系21exp)|(1NNNTiaxP).(.1011ANN).(.)(100111BxNkkNN其中a與無關(guān)這就是在多維情況下,對的估計 NANN10:)(011式得由010101)1(1)1(0)(1 NNxNBNkkNN式得:代入分類器設(shè)計就可以代入將BayesdxPxPxxPiiN)|()|()|( 5-3非參數(shù)估計 參數(shù)估計要求密度函數(shù)的形式已知,但這種假定有時并不成立,常見的一些函數(shù)形式很難擬合實(shí)際的概率密度,經(jīng)典的密度函數(shù)都是單峰的,而在許多實(shí)際情況中卻是多峰的,因此用非

12、參數(shù)估計。非參數(shù)估計:直接用已知類別樣本去估計總體密度分布,方法有: 用樣本直接去估計類概率密度p(x/i)以此來設(shè)計分類器, 如窗口估計 用學(xué)習(xí)樣本直接估計后驗(yàn)概率p(i/x)作為分類準(zhǔn)則 來設(shè)計分類器如k近鄰法. 1. 密度估計:一個隨機(jī)變量X落在區(qū)域R的概率為P P(X)為P(X)在R內(nèi)的變化值,P(X)就是要求的總體概率密度 RP(x)RxPdxxPPRr)( 假設(shè)有N個樣本X=(X1, X2, XN)T都是按照P(X)從總體中獨(dú)立抽取的 若N個樣本中有k個落入在R內(nèi)的概率符合二項(xiàng)分布 其中P是樣本X落入R內(nèi)的概率 Pk是k個樣本落入R內(nèi)的概率 數(shù)學(xué)期望:E(k)=k=NP 對概率P的

13、估計: 。 是P的一個比較好的估計 設(shè)P(x)在R內(nèi)連續(xù)變化,當(dāng)R逐漸減小的時候,小到使P(x)在其上 幾乎沒有變化時,則 其中 是R包圍的體積 PpCPkNkkNk1NkP NkNkdxxPPR) (NkVxPdxxPPR)() (RdxV 條件密度的估計: (V足夠小)討論: 當(dāng)V固定的時候N增加, k也增加,當(dāng) 時 只反映了P(x)的空間平均估計而反映不出空間的變化 N固定,體積變小 當(dāng) 時,k=0時 時 所以起伏比較大,噪聲比較大,需要對V進(jìn)行改進(jìn). NkPVxP )(VNkxP)(Nk1NkPVVNkxP1)(0V0)(VNkxP0kVNkxP)(對體積V進(jìn)行改進(jìn):為了估計X點(diǎn)的密度

14、,我們構(gòu)造一串包括X的區(qū)域序列R1,R2,. RN.對R1采用一個樣本進(jìn)行估計,對R2采用二個樣本進(jìn)行估計.。設(shè)VN是RN的體積,KN是N個樣本落入VN的樣本數(shù)則密度的第N次估計: VN是RN的體積 KN是N個樣本落入VN的樣本數(shù)PN(x)是P(x)的第N次估計VNk(x)PNN若若PN(x)收斂于收斂于P(x)應(yīng)滿足三個條件:應(yīng)滿足三個條件: ,當(dāng)N時,VN,N,VN0 這時雖然樣本數(shù)多,但由于VN,落入VN內(nèi)的樣本KN 也減小,所以空間變化才反映出來 ,N ,kN ,N與KN同相變化 ,KN的變化遠(yuǎn)小于N的變化。 因此盡管在R內(nèi)落入了很多的樣本,但同總數(shù)N比較, 仍然是很小的一部分。0li

15、mVNNKNNlim0limNKNN如何選擇VN滿足以上條件: 使體積VN以N的某個函數(shù)減小,如 (h為常數(shù)) 使KN作為N的某個函數(shù),例 VN的選擇使RN正好包含KN個近鄰 V1K1,V2K2,.VRKR Kn近鄰法NhVNNKN窗口法2.Parzen窗口估計假設(shè)RN為一個d維的超立方體,hN為超立方體的長度超立方體體積為: , d=1,窗口為一線段 d=2,窗口為一平面 d=3,窗口為一立方體 d3,窗口為一超立方體窗口的選擇: hVdNN其他.021| , 1)(uu|exp)(uu 方窗函數(shù)指數(shù)窗函數(shù)21exp21)(2uu正態(tài)窗函數(shù)(u) (u)(u)hN 正態(tài)窗函數(shù) (u) 是以原

16、點(diǎn)x為中心的超立方體。在xi落入方窗時,則有 在VN內(nèi)為1 不在VN內(nèi)為0落入VN的樣本數(shù)為所有為1者之和 密度估計22hxxhxxNiNi1212|hhhxxNNNiNiNiNhxxK1)|(NiNiNNNNhxxVNVNKxP1)|(11)(討論: 每個樣本對估計所起的作用依賴于它到x的距離,即 | x-xi|hN/2時, xi在VN內(nèi)為1,否則為0。 稱為 的窗函數(shù),取0,1兩種值,但有 時可以取0, 0.1, 0.2多種數(shù)值,例如隨xi離x接近的程度, 取值由0, 0.1, 0.2到1。)|(hxxNihxxNi|)|(hxxNi 要求估計的PN(x)應(yīng)滿足:為滿足這兩個條件,要求窗函

17、數(shù)滿足: 窗長度hN對PN(x)的影響若hN太大, PN(x)是P(x)的一個平坦, 分辨率低的估計, 有平均誤差若hN太小, PN(x)是P(x)的一個不穩(wěn)定的起伏大的估計,有噪聲誤差為了使這些誤差不嚴(yán)重, hN應(yīng)很好選擇hxhxxdhxxhxxNixNiNiNi|0)|()|(0)|(1)(0)(dxxPxPNN例1:對于一個二類( 1 ,2 )識別問題,隨機(jī)抽取1類的6個樣本X=(x1,x2,. x6)1=(x1,x2,. x6) =(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估計P(x|1)即PN(x)解:選正態(tài)窗函數(shù))21exp(21)(2uu)|(

18、21exp21)|()(2hxxhxxuNiNi0123456x6x5x3x1x2x4xx是一維的上式用圖形表示是6個分別以3.2,3.6,3,6,2.5,1.1為中心的丘形曲線(正態(tài)曲線),而PN(x)則是這些曲線之和。)05| 1 . 1|(21exp134. 0.)05| 2 . 3|(21exp134. 0)|(11)(221xxhxxVNxPNiNiNN5 . 0665 . 0VN665 . 0h,NhhV11NNN,其中選由圖看出,每個樣本對估計的貢獻(xiàn)與樣本間的距離有關(guān),樣本越多, PN(x)越準(zhǔn)確。例2:設(shè)待估計的P(x)是個均值為0,方差為1的正態(tài)密度函數(shù)。若隨機(jī)地抽取X樣本中

19、的1個、 16個、 256個作為學(xué)習(xí)樣本xi,試用窗口法估計PN(x)。解:設(shè)窗口函數(shù)為正態(tài)的, 1,0hN:窗長度,N為樣本數(shù),h1為選定可調(diào)節(jié)的參數(shù)。)|(21exp21)|(2hxxhxxNiNiNhh1N設(shè)NiiNiNiNhNxxNhhxxhNNxP112111|21exp211)|(1)(v用 窗法估計單一正態(tài)分布的實(shí)驗(yàn)Parzen001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hN=N=256N=16N=1討論:由圖看出, PN(x)隨N,

20、 h1的變化情況 當(dāng)N1時, PN(x)是一個以第一個樣本為中心的正態(tài)形狀的小丘,與窗函數(shù)差不多。 當(dāng)N16及N=256時 h10.25 曲線起伏很大,噪聲大 h11 起伏減小 h14 曲線平坦,平均誤差 當(dāng)N時, PN(x)收斂于一平滑的正態(tài)曲線, 估計曲線較好。例3。待估的密度函數(shù)為二項(xiàng)分布解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)x-2.5-210.2502P(x)025. 01)(xP-0.25x-20 x2x為其它NhhuuN12,21exp21)(001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.1

21、0.1025.01h202202202001.001.01.00.10.1011h41hN=N=256N=16N=1v用 窗法估計兩個均勻分布的實(shí)驗(yàn)Parzen當(dāng)N=1、16、256、 時的PN(x)估計如圖所示 當(dāng)N1時, PN(x) 實(shí)際是窗函數(shù)。 當(dāng)N16及N=256時 h10.25 曲線起伏大 h11 曲線起伏減小 h14 曲線平坦 當(dāng)N時,曲線較好。結(jié)論: 由上例知窗口法的優(yōu)點(diǎn)是應(yīng)用的普遍性。對規(guī)則分布,非規(guī)則分布,單鋒或多峰分布都可用此法進(jìn)行密度估計。 要求樣本足夠多,才能有較好的估計。因此使計算量,存儲量增大。3.KN近鄰估計:近鄰估計:在窗口法中存在一個問題是對hN的選擇問題。若hN選太小,則大部分體積將是空的(即不包含樣本),從而使PN(x)估計不穩(wěn)定。若hN選太大,則PN(x)估計較平坦,反映不出總體分布的變化,而KN近鄰法的思想是以x為中心建立空胞,使v,直到捕捉到KN個樣本為止。 稱KN-近鄰估計 v的改進(jìn),樣本密度大,VN ; 樣本密度小,VN ; P(x)的估計為:NkN取,VNk(x)PN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論