模式識別課件第三章NO2(非參數(shù)估計(jì))_第1頁
模式識別課件第三章NO2(非參數(shù)估計(jì))_第2頁
模式識別課件第三章NO2(非參數(shù)估計(jì))_第3頁
模式識別課件第三章NO2(非參數(shù)估計(jì))_第4頁
模式識別課件第三章NO2(非參數(shù)估計(jì))_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、5 總體分布的非參數(shù)估計(jì)方法 前述都設(shè)已知已知總體分布(即已知概密),但實(shí)際不然。因此如何用樣本用樣本來估計(jì)總體分布的問題,就是本節(jié)的目的即非參數(shù)估計(jì)。 含有p(x),p(x|wi),p(wi|x) 等的估計(jì)。 而p(wi|x)的估計(jì)的一種基本方法是繞過概率繞過概率的估計(jì)而直接求決策函數(shù)的方法即近鄰法則。 (1) 基本方法基本方法 1) 本節(jié)所述估計(jì)的目的本節(jié)所述估計(jì)的目的 從樣本樣本集集估計(jì)樣本空間任何一點(diǎn)X的概率密度 P(X); 如果如果來自某一類別(如來自某一類別(如wi類),類),則估計(jì)結(jié)果為類條件概類條件概密密P(X|wi); 如果來自c個類別,但不具體涉及類別,則估計(jì)結(jié)果估計(jì)結(jié)果為

2、混合密度P(X)。2) 非參數(shù)估計(jì)的基本思想非參數(shù)估計(jì)的基本思想 隨機(jī)向量X落入到區(qū)域R的概率P為: 這表示概率P是概密函數(shù)P(X)的一種平均平均,對P作估計(jì)就是估計(jì)出P(X)的這個平均值平均值。dxxPPR)(P(X)RX 設(shè)N個樣本x1,x2,xn是從概密為概密為P(x)的總體中獨(dú)立抽取獨(dú)立抽取的,則N個樣本中有k個個樣本落在區(qū)域落在區(qū)域R中中的概率Pk自然服從二項(xiàng)分布,即 其中,P為樣本X落入R的概率,Pk為k個樣本落入R的概率。 kNkkNkPPCP)1 ()!( !kNkNCkN使Pk取最大的取最大的k值值稱為眾數(shù)(記為眾數(shù)(記為m),), 即 (眾數(shù)的意義是:在抽出的抽出的N個樣本

3、中有個樣本中有m個樣本個樣本落入?yún)^(qū)域R的概率最大概率最大。)對二項(xiàng)分布,眾數(shù)眾數(shù)m為為(N+1) P的整數(shù)部分的整數(shù)部分,即這樣,在在Pm處,就有處,就有m = k (N+1) P N P即即P k / N式中P是P的估計(jì),即P是總體密度P(x)在區(qū)域R上的一個估計(jì)。kmPPmax) 1(PNm 設(shè)設(shè)P(x)連續(xù),連續(xù),且區(qū)域R的體積的體積V足夠小足夠小,則 設(shè)設(shè)P(x)是是P(x)的估計(jì)的估計(jì),由上面二式得: 于是可得: 上式就是X點(diǎn)概率密度點(diǎn)概率密度P(x)的估計(jì)值的估計(jì)值,它與k、N、V有關(guān)。VxPdxxPPR)()( )( )Rkpp xdxp x VN( )k Np xV說明:說明:

4、 從理論理論上講,要使要使P(x)趨于趨于P(x),就須讓積分域積分域R無限小無限小 (即讓其V近于零近于零),同時讓同時讓N、k無窮大無窮大,但實(shí)際實(shí)際估計(jì)時體積V不是任意的小,且樣本總數(shù)也是有限的不是任意的小,且樣本總數(shù)也是有限的,所以P(x) 總是總是存在誤差存在誤差。 如果把體積體積V固定固定,樣本樣本取得足夠多足夠多,則K/N將在概率上收概率上收斂斂,但這時得到的是一個一個R區(qū)域上區(qū)域上P(x)的平均估計(jì)的平均估計(jì)。 即 而要想得到想得到P(x),而不是P(x)在R上的平均,則須讓讓V趨于零趨于零。()RRPxd xPVd x 如果把樣本數(shù)目固定樣本數(shù)目固定,而令V趨于零趨于零,由于

5、樣本數(shù)目總是有限樣本數(shù)目總是有限的,所以當(dāng)V趨于零時,會使區(qū)域區(qū)域R不斷縮小以致于可能不包不斷縮小以致于可能不包含任何樣本含任何樣本,這就會得出P(x)=0(無價值的估計(jì))無價值的估計(jì));如果恰巧有一個或幾個一個或幾個樣本同同X(點(diǎn))重合(點(diǎn))重合的出現(xiàn)在R中,則會使估計(jì)發(fā)散到無窮大估計(jì)發(fā)散到無窮大(這也是無價值的估計(jì))。 3) 3) 理論上的解決方案理論上的解決方案 為了提高提高X處的概密處的概密P(x)的估計(jì)精度的估計(jì)精度,據(jù)極限理論,采取如下步驟以盡量滿足理論要求盡量滿足理論要求。 構(gòu)造一包含樣本X的區(qū)域序列區(qū)域序列R1、R2 、RN 、各區(qū)域RN(N=1,2,)的體積體積VN滿足滿足:

6、 在RN域中取取N個樣本進(jìn)行估計(jì)個樣本進(jìn)行估計(jì)實(shí)驗(yàn),并設(shè)有kN個樣本落入個樣本落入RN中中,樣本數(shù)目應(yīng)滿足樣本數(shù)目應(yīng)滿足:0limNNVNNklim 應(yīng)滿足應(yīng)滿足: 則估計(jì)序列估計(jì)序列 (N=1,2,) 處處收斂于P(x)。說明:說明: 在區(qū)域平滑地縮小,區(qū)域平滑地縮小,且且P(x)在在X點(diǎn)連續(xù)點(diǎn)連續(xù)的情況下,則: 條件條件可使空間平均密度平均密度P / V收斂于真實(shí)的密度密度P(x); 條件條件僅對僅對P(x)0的點(diǎn)才有意義的點(diǎn)才有意義,即當(dāng)P(x)0時,使 P(x)0,可使頻率在概率意義上收斂于概率在概率意義上收斂于概率;0limNkNN ( )NNNkNPxV 條件條件是式 收斂的必要條

7、件,它描述了N的增長速度要大于kN的增長速度,使kN/N為無窮小,而kN/N和VN為同階的無窮小,使 為非無窮大的有界數(shù),避免凡滿足上述三個條件的區(qū)域序列和樣本選取都可以滿足上述三個條件的區(qū)域序列和樣本選取都可以。( )NNNkNPxVNNVNk( )P x 1) Parzen1) Parzen窗估計(jì)的概念窗估計(jì)的概念 要估計(jì)d維空間中某點(diǎn)某點(diǎn)X的概率密度的概率密度時,可以以以X為中心為中心,作一邊作一邊棱棱長為長為hN的的d維超立方體維超立方體VN,則其體積為: 此立方體被視為一個窗口窗口。現(xiàn)在的問題是要求出落入要求出落入VN中的樣本數(shù)中的樣本數(shù)kN。dNNhV(2) Parzen(2) P

8、arzen窗法窗法 u = u1 , udT (u)是一個是一個以原點(diǎn)為中心,邊以原點(diǎn)為中心,邊棱長為棱長為1的的d維超立方體函數(shù),其維超立方體函數(shù),其函數(shù)值為函數(shù)值為1(可用于計(jì)樣本數(shù))。11|,1,2,.,( )20jujdu當(dāng)其它1/21/2-1/2-1/2U2U1 為能用函數(shù)描述區(qū)域區(qū)域RN和對落入落入RN的樣本計(jì)數(shù)的樣本計(jì)數(shù),定義窗窗函數(shù)的基本形式函數(shù)的基本形式為: 由于通過坐標(biāo)的平移平移和尺度的縮放縮放可以改變超立方體的位置和大超立方體的位置和大小。小。所以對于一個以以X為中心,以為中心,以hN為邊棱長為邊棱長的超立方體,用變量Xi(此(此Xi可可作樣本)刻劃下的通用作樣本)刻劃下

9、的通用窗函數(shù)的形式如下窗函數(shù)的形式如下: 1 當(dāng) 0 其他)(NihxxdjhxxNji., 1,2窗口X1X2邊長為1-X1hN X1 1 hN 2 此函數(shù)被稱為Parzen窗函數(shù)窗函數(shù),其含義為如果一個樣本如果一個樣本Xi落入窗口,則落入窗口,則=1(即計(jì)數(shù)為即計(jì)數(shù)為1),否則=0(即計(jì)數(shù)為0)。 換句話說,就是檢查檢查d維空間中的每一個樣本每一個樣本Xi,如果向向量量X-Xi中的每一分量都小于中的每一分量都小于hN/2,則該樣本必在該樣本必在VN以內(nèi)以內(nèi)(且計(jì)且計(jì)數(shù)為數(shù)為1),否則就在在VN以外以外(且不計(jì)數(shù))。 故落入落入VN內(nèi)內(nèi)的樣本數(shù)的樣本數(shù)為: 這樣可得X點(diǎn)點(diǎn)處概率估計(jì)處概率估計(jì)

10、為 這就是Parzen窗窗法估計(jì)的基本公式法估計(jì)的基本公式。NiNiNhxxk1111( )NNiNiNNNkNxxPxVNVh討論:討論: 上式實(shí)際上是一個迭加函數(shù),窗函數(shù)作迭加基函數(shù),每個樣本點(diǎn)處作為迭加節(jié)點(diǎn),使用kN個以樣本Xi為中心的窗函數(shù)迭加對X處的密度進(jìn)行估計(jì); 自然,樣本較密集的區(qū)域上概密估計(jì)(迭加函數(shù))值較大; 上式說明每一樣本Xi對密度函數(shù)的貢獻(xiàn)只在一個窗口范圍內(nèi); 每一樣本Xi對估計(jì)PN(x)所起的作用依賴于它(即Xi)到X的距離; 窗函數(shù)不限于超立方體窗函數(shù),還可有其他形式。2) 2) 估計(jì)估計(jì)量量PN(x)為為密度函數(shù)的條件密度函數(shù)的條件 作為窗函數(shù)需要滿足以下兩個條件

11、需要滿足以下兩個條件: 即窗函數(shù)本身具有密度函數(shù)的形式具有密度函數(shù)的形式,則PN(x) 一定為密度函數(shù)一定為密度函數(shù)。 其中條件條件保證保證PN(x)非負(fù)非負(fù); 條件條件保證在整個參數(shù)空間積分為保證在整個參數(shù)空間積分為1 1,即0)(u1)(duu( )1NPx dx 下面對超立方體方窗函數(shù)方窗函數(shù)(在一維下)進(jìn)行證明: 對于條件條件,自然保證PN(x) 非負(fù); 對于條件條件 所以所以超立方體函數(shù)可作為窗函數(shù),即能得到密度函數(shù)PN(x)。11)(1)(11)(11)(1x-xu11iNNduuNdxhxxhNdxhxxVNdxxPNihduhdxNiNiNNiNiNNNN令一維時3) (3)

12、(一維下一維下) )窗函數(shù)常見的其它幾種形式窗函數(shù)常見的其它幾種形式 方窗函數(shù):方窗函數(shù): 正態(tài)窗函數(shù):正態(tài)窗函數(shù): 2221)(ueu12121-)(uUU)(u2111|( )20uu其它 指數(shù)窗函數(shù):指數(shù)窗函數(shù): 三角窗函數(shù):三角窗函數(shù): ueu21)()(uU21)(u1-111 | 1( )0uuu其它 總之,只要滿足前述兩個條件的函數(shù),都可作為窗函數(shù)使兩個條件的函數(shù),都可作為窗函數(shù)使用用。但最終估計(jì)效果的好壞效果的好壞則與樣本情況、窗函數(shù)及其參樣本情況、窗函數(shù)及其參數(shù)的選擇數(shù)的選擇有關(guān)。4) 4) 寬度寬度hN對估計(jì)量對估計(jì)量PN(x)的的影響影響: : 在樣本數(shù)N有限時,窗寬有限

13、時,窗寬hN對對PN(x)有很大影響有很大影響。 如果定義函數(shù)如果定義函數(shù) N(x)為為: 則可將PN(x)看作看作N個樣本的平均值個樣本的平均值。 VN = hNd, hN既影響既影響 N的幅度,又影響它的寬度的幅度,又影響它的寬度。)(1)(NNNhxVx11 ( )()NNNiiPxxxN 若若hN太大太大,則 N的幅度就很的幅度就很小小,而寬度將拓,而寬度將拓寬寬(因?yàn)榇翱诘拿娣e一定)。同時只有當(dāng)當(dāng)Xi離離X較遠(yuǎn)時,才能使較遠(yuǎn)時,才能使 N(x-xi) 與與 N(0)的函數(shù)值相差的多一些的函數(shù)值相差的多一些,此時PN(x)是N個低幅的、個低幅的、函數(shù)值變化緩慢的、寬垮的函數(shù)值變化緩慢的

14、、寬垮的函數(shù)函數(shù)的疊加疊加,這樣將使PN(x) 較較平滑平滑,但不能跟上不能跟上P(x)的變化,分辨率較低的變化,分辨率較低。 若若hN太小太小,則 N的幅度就很的幅度就很大大,而寬度很,而寬度很窄窄,近似于以Xi為中心的 函數(shù),且峰值出現(xiàn)在峰值出現(xiàn)在X=Xi附近附近,此時PN(x)是是N個個以以Xi為中心的尖脈沖為中心的尖脈沖在X點(diǎn)處點(diǎn)處的疊加的疊加,使PN(x)波動太大波動太大,不穩(wěn)定,可能失去連續(xù)性不穩(wěn)定,可能失去連續(xù)性。 hN的選取對的選取對PN(x)影響很大影響很大,如何選擇,如何選擇hN需要一定的經(jīng)需要一定的經(jīng)驗(yàn),一般要折中考慮。驗(yàn),一般要折中考慮。5) 5) 估計(jì)量估計(jì)量PN(x

15、)的統(tǒng)計(jì)性質(zhì)的統(tǒng)計(jì)性質(zhì) 對于任一固定固定的X,PN(x)的值還與隨機(jī)樣本集還與隨機(jī)樣本集x1,x2,xN有關(guān)有關(guān),采用不同的樣本集,就會有不同的會有不同的PN(x)值值,即PN(x)是一個隨機(jī)變量,且它依賴于隨機(jī)隨機(jī)的訓(xùn)練樣本訓(xùn)練樣本,所以估計(jì)量PN(x)的性質(zhì)只能用統(tǒng)計(jì)性質(zhì)表示只能用統(tǒng)計(jì)性質(zhì)表示。 另外用PN(x)來估計(jì)一個未知密度函數(shù)來估計(jì)一個未知密度函數(shù)時,只能用它的均值均值PN(x),同時為了知道估計(jì)的確定性程度確定性程度,還必須知道它的方它的方差差 2(x)。即如果存在: 則估計(jì)量估計(jì)量PN(x)均方收斂于均方收斂于P(x)。lim ( )( )NNPxP xlim 2(x) =0N

16、 為了保證收斂性收斂性,必須對未知密度未知密度P(x)、窗函數(shù)、窗函數(shù)(u)和窗和窗寬寬hN設(shè)置一些條件設(shè)置一些條件,在滿足下述這些條件后,PN(x)就是漸近就是漸近無偏估計(jì)、均方逼近無偏估計(jì)、均方逼近P(x),漸近正態(tài)分布,漸近正態(tài)分布。條件歸納如下: (1) 總體密度P(x)在在X處連續(xù);處連續(xù); (2) 窗函數(shù)應(yīng)滿足的條件: 0)(u1)(duu)(supuu0)(lim1idiuuu注:sup表示取最大的u.(3)窗寬限制窗寬限制: (4)對樣本的要求對樣本的要求: 0limNNVNNVNlim0limNkNNNNklim說明:上述說明:上述( (新新) )條件可解釋如下:條件可解釋如

17、下: 條件條件是為了保證PN(x)有密度函數(shù)的性質(zhì)有密度函數(shù)的性質(zhì); 條件條件是要求(u)是有界的是有界的,不能為無窮大; 條件條件是要求(u)隨隨u的增長較快地趨于零的增長較快地趨于零,其目的目的是減少遠(yuǎn)距遠(yuǎn)距X的樣本的樣本Xi對對X的影響的影響; 條件條件要求體積體積隨N的增大而趨于零趨于零,但縮減的速度又不縮減的速度又不要太快要太快,其速率要低于速率要低于1/N(即要求VN趨于零的速率低于趨于零的速率低于N的增的增長速率長速率)。(3) kN-近鄰估計(jì)近鄰估計(jì) 在Parzen窗估計(jì)中存在的一個問題是問題是體積序列的體積序列的V1,V2,VN的選擇問題的選擇問題,而把體積VN作為樣本數(shù)N的

18、函數(shù)將導(dǎo)致函數(shù)將導(dǎo)致VN對估計(jì)結(jié)對估計(jì)結(jié)果影響很大果影響很大。 例如:例如: 時,對有限的有限的N,其估計(jì)結(jié)果對初值對初值V1的選擇很敏感的選擇很敏感。 若V1選得太小太小,則導(dǎo)致大部分體積是空的,從而使估計(jì)PN(x)不穩(wěn)定;不穩(wěn)定; 若V1選得太大太大,則PN(x)較平坦較平坦,反映不出真實(shí)總體分布的變化。NVVN1kN-近鄰法的基本思想:近鄰法的基本思想: 使體積VN為數(shù)據(jù)為數(shù)據(jù)kN的函數(shù)的函數(shù),而不是樣本數(shù)不是樣本數(shù)N的函數(shù)的函數(shù)。即使含X點(diǎn)的序列體積點(diǎn)的序列體積V1,V2,VN受落入受落入VN中樣本數(shù)中樣本數(shù)kN的控制的控制,而不是直接作為樣本不是直接作為樣本N的函數(shù)的函數(shù)。 可以預(yù)先確定kN是是N的某個函數(shù)的某個函數(shù),然后在X點(diǎn)附近選擇一個點(diǎn)附近選擇一個較小的區(qū)域作為體積較小的區(qū)域作為體積VN,并讓它不斷增長直至捕獲讓它不斷增長直至捕獲kN個樣本個樣本為止為止,這些樣本即為即為X的的kN個近鄰個近鄰。即只讓只讓VN含含kN個近鄰樣本個近鄰樣本。這樣,如果如果X點(diǎn)附近的概密較大點(diǎn)附近的概密較大,則包含kN個樣本的體積自然就相對較小相對較小;如果X點(diǎn)附近的概密較小概密較小,則包含kN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論