第3章概率密度函數(shù)的估計(jì)_第1頁(yè)
第3章概率密度函數(shù)的估計(jì)_第2頁(yè)
第3章概率密度函數(shù)的估計(jì)_第3頁(yè)
第3章概率密度函數(shù)的估計(jì)_第4頁(yè)
第3章概率密度函數(shù)的估計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章概率密度函數(shù)的估計(jì)參數(shù)估計(jì)的基本概念正態(tài)分布的監(jiān)督參數(shù)估計(jì)(最大似然估計(jì))總體分布的非參數(shù)估計(jì)(Parzen窗法,K近鄰法)分類器錯(cuò)誤率的估計(jì)3.1引言

未知,需要利用樣本集來估計(jì)。

較好估計(jì),重點(diǎn)估計(jì)

兩步法設(shè)計(jì)分類器(1)估計(jì)(2)利用第2章方法設(shè)計(jì)分類器

本章研究問題(1)如何利用樣本估計(jì)(2)估計(jì)量的性質(zhì)(3)利用樣本集估計(jì)錯(cuò)誤率的方法3.1引言—由樣本集估計(jì)參數(shù)估計(jì)

監(jiān)督、非監(jiān)督(最大似然估計(jì)、貝葉斯估計(jì))非參數(shù)估計(jì)

Parzen窗法、K近鄰法3.2參數(shù)估計(jì)—基本概念統(tǒng)計(jì)量

利用包含總體信息的樣本構(gòu)造的某種函數(shù)參數(shù)空間

未知參數(shù)的全體容許值構(gòu)成的集合稱為參數(shù)空間。點(diǎn)估計(jì)、估計(jì)量、估計(jì)值

點(diǎn)估計(jì)即利用統(tǒng)計(jì)量作為對(duì)參數(shù)的估計(jì)量,利用樣本得到估計(jì)量的具體數(shù)值,稱為估計(jì)值。區(qū)間估計(jì)用區(qū)間作為取值的范圍的一種估計(jì),該區(qū)間稱為置信區(qū)間,這類估計(jì)稱為區(qū)間估計(jì)。3.2參數(shù)估計(jì)—估計(jì)量的評(píng)價(jià)無偏性

如果參數(shù)的估計(jì)量的數(shù)學(xué)期望等于,則稱估計(jì)是無偏的。如果當(dāng)樣本趨于無窮時(shí)估計(jì)才具有無偏性,則稱為漸進(jìn)無偏。

有效性

如果一種估計(jì)的方差比另一種估計(jì)的方差小,則稱方差小的估計(jì)更有效。

一致性

如果對(duì)于任意給定的正數(shù),總有,則稱是的一致估計(jì)。簡(jiǎn)評(píng):無偏性與有效性針對(duì)多次估計(jì),不能保證一次估計(jì)性能;而在樣本無窮多時(shí),一致性可保證每一次的估計(jì)量在概率意義上接近真實(shí)值。3.2參數(shù)估計(jì)—最大似然估計(jì)(監(jiān)督)前提條件:(1)是確定而未知的;(2)樣本所屬類別已知,且是從各類總體中獨(dú)立抽取的;(3)形式已知(如正態(tài)),但參數(shù)未知(如)(4)i類樣本不影響j類信息。(類間獨(dú)立,可分別研究C類問題)3.2參數(shù)估計(jì)—最大似然估計(jì)(監(jiān)督)基本思想:似然函數(shù)思想:如果在一次觀察中一個(gè)事件出現(xiàn)了,那么可以認(rèn)為這個(gè)事件出現(xiàn)的可能性很大事件出現(xiàn)——樣本集H出現(xiàn)可能性大——取極大值(極大似然估計(jì))3.2參數(shù)估計(jì)—最大似然估計(jì)(監(jiān)督)計(jì)算過程:S個(gè)求偏導(dǎo)的方程構(gòu)成方程組,求解得參數(shù)!為似然函數(shù)3.2參數(shù)估計(jì)—最大似然估計(jì)(監(jiān)督)注意問題:(1)有時(shí)沒有唯一解。3.2參數(shù)估計(jì)—最大似然估計(jì)(監(jiān)督)(2)求極大值無解(例:均勻分布情況)至少有一個(gè)為無窮大,無意義!此時(shí)可令樣本中最小與最大值為估計(jì)值。3.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)一維情況3.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)針對(duì)所有樣本樣本均值方差算術(shù)平均3.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)多維推廣:為向量是無偏估計(jì),不是無偏估計(jì),其無偏估計(jì)是3.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)算例:有10個(gè)學(xué)生,其中5個(gè)男生,5個(gè)女生。取身高體重兩個(gè)指標(biāo)作為特征,有數(shù)據(jù)表男生女生x1x2x3x4x5x6x7x8x9x10X1身高(m)1.701.751.651.801.781.601.551.601.651.70X2體重(kg)657060657060454550553.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)男生女生3.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)10個(gè)樣本的均值:男生樣本的均值:女生樣本的均值:總體身高的方差:男生身高的方差:女生身高的方差:3.3正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)全體樣本協(xié)方差男生樣本協(xié)方差女生樣本協(xié)方差與最大似然估計(jì)的差別:(1)(2)最大似然估計(jì)中,為確定而未知的參數(shù);貝葉斯估計(jì)中,為隨機(jī)變量。貝葉斯估計(jì)簡(jiǎn)介非監(jiān)督參數(shù)估計(jì)簡(jiǎn)介非監(jiān)督最大似然估計(jì)

需定義混合密度正態(tài)分布下的非監(jiān)督參數(shù)估計(jì)

混合高斯分布,利用EM(期望最大化)算法求解各密度分量參數(shù)。3.4總體分布的非參數(shù)估計(jì)問題的提出

參數(shù)估計(jì):總體分布已知,參數(shù)為未知(監(jiān)督、非監(jiān)督)非參數(shù)估計(jì):總體分布未知,直接由樣本估計(jì)總體分布技術(shù)分類(依據(jù)體積的不同選取方法)3.4總體分布的非參數(shù)估計(jì)基本方法:向量x落入R中的概率現(xiàn)若抽取N個(gè)樣本,k個(gè)落入R,則設(shè)R小到令無變化,則3.4總體分布的非參數(shù)估計(jì)—Parzen窗法假定R為以x為中心的d維超立方體,棱長(zhǎng)為h,則體積為定義窗函數(shù),以找出落入V的樣本個(gè)數(shù)k以原點(diǎn)為中心的超立方體當(dāng)樣本落入其中時(shí)

Parzen窗估計(jì)公式保證為概率密度3.4總體分布的非參數(shù)估計(jì)—Parzen窗法窗函數(shù)應(yīng)滿足的要求:保證非負(fù)保證積分為1窗函數(shù)的選擇:除方窗外,還可選擇正態(tài)窗、指數(shù)窗等3.4總體分布的非參數(shù)估計(jì)—Parzen窗法表明距離越遠(yuǎn),貢獻(xiàn)越小3.4總體分布的非參數(shù)估計(jì)—Parzen窗法圖形解釋:某一點(diǎn)x的密度為其余各點(diǎn)的貢獻(xiàn)和每一樣本對(duì)該點(diǎn)所在位置貢獻(xiàn)最大3.4總體分布的非參數(shù)估計(jì)—Parzen窗法應(yīng)用案例:對(duì)一維高斯分布和兩個(gè)均勻分布的估計(jì)3.4總體分布的非參數(shù)估計(jì)—k近鄰法問題的提出

Parzen窗法中窗寬(或體積)的選擇較為困難。

該式對(duì)初值敏感,初值太小,大部分體積是空的,密度估計(jì)不穩(wěn)定,初值太大,估計(jì)的密度較平坦,無法反映真實(shí)分布,為解決此問題,產(chǎn)生了k近鄰法。3.4總體分布的非參數(shù)估計(jì)—k近鄰法思想:x周圍設(shè)一空胞,擴(kuò)大至包含k個(gè)樣本空胞具有自適應(yīng)性,密度高則體積小,密度低則體積大3.4總體分布的非參數(shù)估計(jì)—k近鄰法k的選取N越大,效果越好。經(jīng)驗(yàn)數(shù)據(jù):一維時(shí),數(shù)百個(gè)樣本二維時(shí),數(shù)千個(gè)3.4總體分布的非參數(shù)估計(jì)—kN近鄰法應(yīng)用案例:對(duì)一維高斯分布和兩個(gè)均勻分布的估計(jì)3.4非參數(shù)估計(jì)舉例—數(shù)字的Bayes分類數(shù)字特征的提取3.4非參數(shù)估計(jì)舉例—數(shù)字的Bayes分類計(jì)算先驗(yàn)概率計(jì)算,再計(jì)算類條件概率密度數(shù)字i的第j個(gè)分量為1的概率數(shù)字i的第j個(gè)分量為0的概率3.4非參數(shù)估計(jì)舉例—數(shù)字的Bayes分類樣本X的類條件概率利用Bayes公式求后驗(yàn)概率最大后驗(yàn)概率對(duì)應(yīng)的類別(0-9)即為得到的數(shù)字類別3.4非參數(shù)估計(jì)舉例—數(shù)字的Bayes分類3.5分類器錯(cuò)誤率的估計(jì)3.5分類器錯(cuò)誤率的估計(jì)已設(shè)計(jì)好分類器(樣本均為考試樣本)1、未知——隨機(jī)抽樣從總體隨機(jī)抽取N個(gè)樣本檢驗(yàn)分類器,假定錯(cuò)分?jǐn)?shù)為,則錯(cuò)誤率估值為是否是最好的估計(jì)?3.5分類器錯(cuò)誤率的估計(jì)證明:每一樣本有正確分類、錯(cuò)誤分類兩種情況,屬于貝努利試驗(yàn),N個(gè)樣本為N重貝努利試驗(yàn)。設(shè)真實(shí)錯(cuò)分概率為已給定,則的分布服從二項(xiàng)分布。最大似然估計(jì)前次錯(cuò)分,后次正確的概率3.5分類器錯(cuò)誤率的估計(jì)2、已知——選擇性抽取

3.5分類器錯(cuò)誤率的估計(jì)未設(shè)計(jì)好分類器的情況(樣本即用于設(shè)計(jì)又用于檢驗(yàn))(再代入法)錯(cuò)誤率偏小,甚至小于貝葉斯錯(cuò)誤率U-法將樣本分為兩部分,一部分用于設(shè)計(jì)分類器,一部分用于檢驗(yàn)分類器,問題的關(guān)鍵在于如何劃分樣本?3.5分類器錯(cuò)誤率的估計(jì)樣本劃分法

若檢驗(yàn)集>設(shè)計(jì)集,則錯(cuò)誤率估計(jì)方差較小,但分類器性能不佳,N越大,效果越好!留一法(樣本少時(shí)采用)

N個(gè)樣本,N-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論