樸素貝葉斯方法處理缺失值.ppt_第1頁
樸素貝葉斯方法處理缺失值.ppt_第2頁
樸素貝葉斯方法處理缺失值.ppt_第3頁
樸素貝葉斯方法處理缺失值.ppt_第4頁
樸素貝葉斯方法處理缺失值.ppt_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

樸素貝葉斯,結(jié) 構(gòu),貝葉斯理論 貝葉斯分類器,=A1A2.Am,是由所有未知類別的可能樣本組成的集合; c=A1A2.AmC是由所有已知類別的樣本組成的集合。D c是訓練樣例集合。 中的元素x表示為x = 。 c中的元素x表示為x = 。其中ai表示第i個屬性的某個取值。,描述用到的符號,我們用Ai表示第i個屬性,C表示決策屬性;aik表示第i個屬性的第k個取值,cj表示第j類;加上絕對值則表示相應的個數(shù),如|Ai|表示第i個屬性的取值個數(shù),|cj|表示第j類樣例個數(shù)。,貝葉斯定理,設(shè)x是一個類別未知的數(shù)據(jù)樣本,cj為某個類別,若數(shù)據(jù)樣本x屬于一個特定的類別cj,那么分類問題就是決定P(cj|x),即在獲得數(shù)據(jù)樣本x時,確定x的最佳分類。所謂最佳分類,一種辦法是把它定義為在給定數(shù)據(jù)集D中不同類別cj先驗概率的條件下最可能(most probable)分類。貝葉斯理論提供了計算這種可能性的一種直接方法,更精確地講,貝葉斯法則基于假設(shè)的先驗概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率,提供了一種計算假設(shè)概率的方法,貝葉斯公式,先驗概率P(cj),聯(lián)合概率P(x|cj),后驗概率P(cj|x),如果沒有這一先驗知識,那么可以簡單地將每一候選類別賦予相同的先驗概率。不過通常我們可以用樣例中屬于cj的樣例數(shù)|cj|比上總樣例數(shù)|D|來 近似,即,P(cj)代表還沒有訓練數(shù)據(jù)前,cj擁有的初始概率。P(cj)常被稱為cj的先驗概率(prior probability) ,它反映了我們所擁有的關(guān)于cj是正確分類機會的背景知識,它應該是獨立于樣本的。,聯(lián)合概率是指當已知類別為cj的條件下,看到樣本x出現(xiàn)的概率。,聯(lián)合概率P(x|cj),若設(shè)x = 則P(x|cj)= P(a1,a2am| cj),后驗概率P(cj |x),即給定數(shù)據(jù)樣本x時cj成立的概率,而這正是我們所感興趣的,P(cj|x )被稱為C的后驗概率(posterior probability),因為它反映了在看到數(shù)據(jù)樣本x后cj成立的置信度,貝葉斯分類,我們現(xiàn)在計算 P(cMAP|x) = max P(cj|x) j(1,|C|),則P(cMAP|x)稱為最大后驗概率 然后我們就把x分到cMAP類中,樸素貝葉斯分類器一,設(shè)x = ,為一個有m個屬性的樣例,= max P(a1,a2am|cj)P(cj) (1),P(cMAP|x)= max P(cj|x) j(1,|C|),= max P(cj|a1,a2am),樸素貝葉斯分類器基于一個簡單的假定:在給定目標值時屬性值之間相互條件獨立。換言之,該假定說明給定實例的目標值情況下,觀察到聯(lián)合的a1,a2am的概率正好是對每個單獨屬性的概率乘積,樸素貝葉斯分類器二,(2),將(2) 式其代入(1)式中,可得到樸素貝葉斯分類器,如下,樸素貝葉斯分類器三,概括地講,樸素貝葉斯學習方法需要估計不同的P(cj)和P(ai|cj)項,也就是它們在訓練數(shù)據(jù)上的頻率。然后使用公式(3)來分類新實例。,CNB=argmax P(cj),(3),其中CNB表示樸素貝葉斯分類器輸出的目標值。注意在樸素貝葉斯分類器中,須從訓練數(shù)據(jù)中估計的不同P(ai|cj)項的數(shù)量只是不同的屬性值數(shù)量乘以不同目標值數(shù)量這比要估計P(a1,a2am|cj)項所需的量小得多,舉例說明,目標概念PlayTennis的訓練樣例,現(xiàn)在假設(shè)有一個樣例x x = Sunny,Hot,High,Weak,第一步統(tǒng)計個數(shù),表1 類別為cj及在cj條件下Ai取ai的樣例數(shù),估計先驗概率和條件概率,表2 先驗概率P(cj) 和條件概率P(ai|cj),樣例判別,現(xiàn)在假設(shè)有一個樣例x x = Sunny,Hot,High,Weak,等于yes的概率 P(Yes|x) = p(Yes)*p(Sunny|Yes)* p(Hot|Yes)* p(High|Yes)* p(Weak|Yes)* =9/14*2/9*2/9*3/9*6/9 =0.007039,等于No的概率 P(No|x) = p(No)*p(Sunny| No)* p(Hot| No)* p(High| No)* p(Weak| No)* =5/14*3/5*2/5*4/5*2/5 =0.027418,max (P(Yes|x), P(No|x) ) = P(No|x) ,所以我們把x分類為No,概率為零,在大多數(shù)情況下,觀察到的比例P(ai|cj)是對其真實概率的一個良好估計,但當|Ai=aiC=cj|很小時估計較差。特別是當|Ai=aiC=cj|等于0時,P(ai|cj)也等于0,如果將來的待估樣例中,包含第i個屬性的取值ai時,此概率項會在分類器中占統(tǒng)治地位。,概率為零之m-估計,一般采用m-估計來解決這個問題。 m-估計定義如下:,pi是將要確定的概率P(ai|cj)的先驗概率,而m是等效樣本大小的常量,它確定了對于觀察到的數(shù)據(jù)如何衡量pi的作用。在缺少其他信息是選擇p的一種典型方法是假定pi =1/|Ai|。也就是將nj個實際觀察擴大,加上m個按pi分布的虛擬樣本。,概率為零之個數(shù)比較,在本次實現(xiàn)中我們采用的不是m-估計,而是下面一種簡單的0個數(shù)比較法。即下面的幾條規(guī)則。在公式(3)中,對每一個類別j,統(tǒng)計P(ai|cj)=0的個數(shù),記為zj。然后按以下3條規(guī)則得到CNB。,1.如果對任意的j,zj都為0,則直接按公式(3)得到CNB,3.如果對任意的j,zj不為0且不相等,則取zj最小者對應的類別作為CNB。若zj最小者不唯一,則對這些最小值對應的j采用第二條規(guī)則進行判

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論