統(tǒng)計決策理論_第1頁
統(tǒng)計決策理論_第2頁
統(tǒng)計決策理論_第3頁
統(tǒng)計決策理論_第4頁
統(tǒng)計決策理論_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1統(tǒng)計決策理論2關(guān)于統(tǒng)計學(xué)的一個笑話:關(guān)于統(tǒng)計學(xué)的一個笑話: 有一個從沒帶過小孩的統(tǒng)計學(xué)家,因為妻子出門勉強答應(yīng)照看三個年幼好動的孩子。妻子回家時,他交出一張紙條,寫的是: “擦眼淚11次;系鞋帶15次;給每個孩子吹玩具氣球各5次,累計15次;每個氣球的平均壽命10秒鐘;警告孩子不要橫穿馬路26次;孩子堅持要穿馬路26次;我還要再過這樣的星期六0次”。 統(tǒng)計學(xué)真的這樣呆板嗎?僅僅收集數(shù)據(jù),整理分析,累加平均 3 統(tǒng)計學(xué)以數(shù)據(jù)為研究內(nèi)容,但僅僅收集數(shù)據(jù),決不構(gòu)成統(tǒng)計學(xué)研究的全部。 下面介紹幾種最常用、也是最基本的統(tǒng)計決策方法。這些方法是以后各種模式識別方法的基礎(chǔ)。4貝葉斯決策理論方法是統(tǒng)計模式識

2、別中的一個基本方貝葉斯決策理論方法是統(tǒng)計模式識別中的一個基本方法,用這種方法進行分類時要求滿足以下兩個條件:法,用這種方法進行分類時要求滿足以下兩個條件:(1 1)各類別總體的概率分布是已知的;)各類別總體的概率分布是已知的;(2 2)要決策的類別數(shù)是一定的。)要決策的類別數(shù)是一定的。在連續(xù)的條件下,假設(shè)要識別的對象有在連續(xù)的條件下,假設(shè)要識別的對象有d種特征測量種特征測量值值 ,每一種特征都是一個隨機變量,因此,每一種特征都是一個隨機變量,因此組成組成d維隨機向量維隨機向量 , d種特征的所有的種特征的所有的取值范圍構(gòu)成了取值范圍構(gòu)成了d維特征空間。維特征空間。 12,.dx xx12(,.

3、)Tdx xxx2.1 Bayes定理定理5u貝葉斯決策理論方法所討論的問題是:已知總共有c個類別及各類別i=1,2,c的先驗概率P(i)及類條件概率密度函數(shù)p(x|i)已知的條件下,如何對某一樣本按其特征向量分類的問題。u由于屬于不同類的待識別對象存在著呈現(xiàn)相同觀察值的可能,即所觀察到的某一樣本的特征向量為X,而在c類中又有不止一類可能呈現(xiàn)這一X值,這種可能性可用P(i|X)表示。如何作出合理的判決就是貝葉斯決策理論所要討論的問題。6 先驗概率u預(yù)先已知的或者可以估計的模式識別系統(tǒng)位于某種類型的概率,即根據(jù)大量統(tǒng)計確定某類事物出現(xiàn)的比例。u如我國理工科大學(xué)男女生比例大約為8:2,則在這類學(xué)校

4、一個學(xué)生是男生的先驗概率為0.8,而為女生的概率是0.2,兩個概率之和為1。7類條件概率密度函數(shù)類條件概率密度函數(shù)u系統(tǒng)位于某種類型條件下模式樣本出現(xiàn)的概率密度分布函數(shù)。u男女生比例是男生與女生這兩類事物之間的關(guān)系,而男生男女生比例是男生與女生這兩類事物之間的關(guān)系,而男生高度的分布則與女生的分布無關(guān)。為了強調(diào)是同一類事物內(nèi)高度的分布則與女生的分布無關(guān)。為了強調(diào)是同一類事物內(nèi)部,因此這種分布密度函數(shù)往往表示成條件概率的形式。部,因此這種分布密度函數(shù)往往表示成條件概率的形式。u例如例如X表示某一個學(xué)生的特征向量,則男生的類條件概率表示某一個學(xué)生的特征向量,則男生的類條件概率密度表示成密度表示成P(

5、X|男生男生),女生的表示成,女生的表示成P(X|女生女生),這兩者之,這兩者之間沒有任何關(guān)系,可為從間沒有任何關(guān)系,可為從01之間的任意值。之間的任意值。8 后驗概率后驗概率u一個具體樣本屬于某種類別的概率。一個具體樣本屬于某種類別的概率。u例如一個學(xué)生用特征向量例如一個學(xué)生用特征向量X表示,它是男性或女性表示,它是男性或女性的概率表示成的概率表示成P(男生男生|X)和和P(女生女生|X),這就是后驗,這就是后驗概率。概率。u由于一個學(xué)生只可能為兩個性別之一,因此有由于一個學(xué)生只可能為兩個性別之一,因此有P(男男生生|X)+P(女生女生|X)=1,這一點是與類分布密度函數(shù),這一點是與類分布密

6、度函數(shù)不同的。不同的。u后驗概率與先驗概率也不同,后驗概率涉及一個具后驗概率與先驗概率也不同,后驗概率涉及一個具體事物,而先驗概率是泛指一類事物,體事物,而先驗概率是泛指一類事物,因此因此 P(男男生生|X)和和P(男生男生)是兩個不同的概念。是兩個不同的概念。9貝葉斯公式u兩個事物兩個事物X與與w聯(lián)合出現(xiàn)的概率稱為聯(lián)合出現(xiàn)的概率稱為聯(lián)合概率聯(lián)合概率,可,可寫成寫成P(X,w),它們又可與條件概率聯(lián)系起來,即,它們又可與條件概率聯(lián)系起來,即P(X,w)=P(X|w)P(w)=P(w|X)P(X),這就是,這就是貝葉斯貝葉斯公式公式。u如果將上式中各個項與先驗概率,類條件概率密如果將上式中各個項

7、與先驗概率,類條件概率密度函數(shù)以及后驗概率聯(lián)合起來,可以找到利用先驗度函數(shù)以及后驗概率聯(lián)合起來,可以找到利用先驗概率,類條件概率分布密度函數(shù)計算后驗概率的方概率,類條件概率分布密度函數(shù)計算后驗概率的方法。法。102.1 Bayes定理定理 假設(shè)每個要識別的細胞已作過預(yù)處理,并抽取出假設(shè)每個要識別的細胞已作過預(yù)處理,并抽取出了了d個特征描述量,用一個個特征描述量,用一個d維的特征向量維的特征向量X表示,表示,識別的目的是要依據(jù)該識別的目的是要依據(jù)該X向量將細胞劃分為正常向量將細胞劃分為正常細胞或者異常細胞細胞或者異常細胞。這里我們用。這里我們用表示是正常細表示是正常細胞,而胞,而則屬于異常細胞。

8、則屬于異常細胞。 下面我們從一個兩類情況的例子下面我們從一個兩類情況的例子癌細胞識別出發(fā)來癌細胞識別出發(fā)來討論,然后推廣到一般情況。討論,然后推廣到一般情況。112.1 Bayes定理定理根據(jù)醫(yī)院細胞病理檢查的大量統(tǒng)計資料可以對某一地區(qū)正根據(jù)醫(yī)院細胞病理檢查的大量統(tǒng)計資料可以對某一地區(qū)正常細胞和異常細胞出現(xiàn)的比例作出估計,即已知先驗概率常細胞和異常細胞出現(xiàn)的比例作出估計,即已知先驗概率P(1)和和P(2) ,P(1)P(2)1。顯然一般情況下顯然一般情況下P(1)P(2),因此如果不仔細觀察具體,因此如果不仔細觀察具體的細胞化驗值,該細胞是正常細胞的判決,在統(tǒng)計的意義上的細胞化驗值,該細胞是正

9、常細胞的判決,在統(tǒng)計的意義上來說,錯判可能性比判為異常細胞時小。來說,錯判可能性比判為異常細胞時小。但僅按先驗概率來決策,就會把所有細胞都劃歸為正常細但僅按先驗概率來決策,就會把所有細胞都劃歸為正常細胞,并沒有達到將正常細胞與異常細胞區(qū)分開的目的。胞,并沒有達到將正常細胞與異常細胞區(qū)分開的目的。這表這表明由先驗概率所提供的信息太少。明由先驗概率所提供的信息太少。12 為此必須利用抽取到的為此必須利用抽取到的d維觀測向量。為簡單起見,假定維觀測向量。為簡單起見,假定d=1,并已知兩類的類條件概率密度函數(shù)分布,如圖所示,其,并已知兩類的類條件概率密度函數(shù)分布,如圖所示,其中中P(x|1)是正常細胞

10、的屬性分布,是正常細胞的屬性分布,P(x|2)是異常細胞的屬性是異常細胞的屬性分布。分布。類條件概率密度圖13由由Bayes公式得到:公式得到: 式中式中 于是由先驗概率于是由先驗概率 轉(zhuǎn)化為后驗概率轉(zhuǎn)化為后驗概率 P(j|x) 。 如果對待分類模式的特征我們得到一個觀察值如果對待分類模式的特征我們得到一個觀察值x,經(jīng)上式計,經(jīng)上式計算出結(jié)果算出結(jié)果 ,則判決,則判決X屬于屬于 ,反之,屬,反之,屬于于 。()()()( )jjjp xPPxp x1( )() ()cjjip xp xP()jP12() ()PxPx12142.2 Bayes決策決策15 例1:在細胞的化驗中,要區(qū)分正常和異常

11、的兩種類型,分別用w1和w2表示,已知p(w1)=0.85, p(w2)=0.15,現(xiàn)有一待測細胞,其觀測值為X,從類條件概率密度分析曲線上查得p(x/w1)=0.15, p(x/w2)=0.45,試對該細胞進行分類。2.2 Bayes決策決策16所以這次化驗的細胞被判斷為正常類型細胞。172.2 Bayes決策決策2.2.2 最小風(fēng)險Bayes決策最小風(fēng)險Bayes決策是考慮各種錯誤造成損失不同而提出的一種決策規(guī)則。例如,通過化驗判斷細胞是不是癌細胞,可能做出兩種錯誤判決:一是把癌細胞錯判為正常細胞;一種是把正常細胞錯判為癌細胞。這兩種錯誤判決帶來的風(fēng)險顯然是不同的。1819一般決策表202

12、122 例2:在細胞化驗中要區(qū)分正常的和異常的兩種類型,分別是分別用w1和w2表示,要得到的判決也是兩種,分別為a1和a2,需要匯集專家們的知識和經(jīng)驗,針對具體問題進行深入的分析,了解各種判決可能造成的風(fēng)險或損失。細胞識別中的風(fēng)險矩陣23解:根據(jù)風(fēng)險矩陣表所以這次化驗的細胞被判斷為異常類型細胞。242.3 分類器的設(shè)計分類器的設(shè)計252.3 分類器的設(shè)計分類器的設(shè)計按最小錯誤率作決策時,決策規(guī)則的形式為 則相應(yīng)的則相應(yīng)的判別函數(shù)判別函數(shù)為:為: gi(X)P(i|X), i=1,2而而決策面方程決策面方程則可寫成則可寫成 g1(X)g2(X)決策規(guī)則也可以寫成用判別函數(shù)表示的形式?jīng)Q策規(guī)則也可以寫成用判別函數(shù)表示的形式 如果如果gi(X)gj(X) i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論