樸素貝葉斯分類器詳細介紹_第1頁
樸素貝葉斯分類器詳細介紹_第2頁
樸素貝葉斯分類器詳細介紹_第3頁
樸素貝葉斯分類器詳細介紹_第4頁
樸素貝葉斯分類器詳細介紹_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、樸素貝葉斯分類器是一種應用基于獨立假設的貝葉斯定理的簡單概率分類器更精確的描述這種潛在的概率模型為獨立特征模型。目錄隱藏1簡介2樸素貝葉斯概率模型3貝葉斯分類器特點4參數(shù)估計5樣本修正6從概率模型中構造分類器7實例o7.1性別分類-7.1.1訓練-二1.2測試O7.2文本分類8討論9參見10參考文獻11外部鏈接簡介編輯貝葉斯分類的基礎是概率推理,就是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,如何完成推理和決策任務。概率推理是與確定性推理相對應的。而樸素貝葉斯分類器是基于獨立假設的,即假設樣本每個特征與其他特征都不相關。舉個例子,如果一種水果其具有紅,圓,直徑大概4英寸等特征,該水果可以被

2、判定為是蘋果。盡管這些特征相互依賴或者有些特征由其他特征決定,然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的概率分布上獨立的。樸素貝葉斯分類器依靠精確的自然概率模型,在有監(jiān)督學習的樣本集中能獲取得非常好的分類效果。在許多實際應用中,樸素貝葉斯模型參數(shù)估計使用最大似然估計方法,換而言之樸素貝葉斯模型能工作并沒有用到貝吐斯概峑或者任何貝葉斯模型。盡管是帶著這些樸素思想和過于簡單化的假設,但樸素貝葉斯分類器在很多復雜的現(xiàn)實情形中仍能夠取得相當好的效果。2004年,一篇分析貝葉斯分類器問題的文章揭示了樸素貝葉斯分類器取得看上去不可思議的分類效果的若干理論上的原因。皿盡管如此,2006年有一篇

3、文章詳細比較了各種分類方法,發(fā)現(xiàn)更新的方法(如boostedtrees和隨機森林)的性能超過了貝葉斯分類器。型樸素貝葉斯分類器的一個優(yōu)勢在于只需要根據(jù)少量的訓練數(shù)據(jù)估計出必要的參數(shù)(變量的均值和方差)。由于變量獨立假設,只需要估計各個變量的方法,而不需要確定整個協(xié)方差矩陣。樸素貝葉斯概率模型編蚩理論上,概率模型分類器是一個條件概率模型。p(C|Fi,,凡)獨立的類別變量C有若干類別,條件依賴于若干特征變量珂,卩2,.,幾。但問題在于如果特征數(shù)量兀較大或者每個特征能取大量值時,基于概率模型列出概率表變得不現(xiàn)實。所以我們修改這個模型使之變得可行。貝葉斯定理有以下式子:p(C|Fbp(C|Fb.,F

4、n)=譏C)p(幾,凡Q)p(rb.,Fn)用樸素的語言可以表達為:posterior=priorxlikelihoodevidenceposterior=實際中,我們只關心分式中的分子部分,因為分母不依賴于C而且特征Fi的值是給定的,于是分母可以認為是一個常數(shù)。這樣分子就等價于聯(lián)合分布模型。重復使用鏈式法則,可將該式寫成條件概率的形式,如下所示:p(C|幾,凡p(C|幾,凡)C)p(碼,凡IGFJC)p(耳(碼,凡心用應)C)p(F2GFi)p(F3c,f15f2)p(F4?,用G幾理F3)C)p(F2C,Fi)p(F3.pFnCyFlyF2,F31.,Fn.cp(C)p(Ficxp(C)p

5、(F1ex(C)p(Fi現(xiàn)在“樸素”的條住獨立假設開始發(fā)揮作用:假設每個特征列對于其他特征巧,J豐是條件獨立的。這就意味著p(FiC,Fj)=pC)對于詳久所以聯(lián)合分布模型可以表達為p(C|幾,凡)exp(C)P(F1Q)P(F2|C)XF3|C).nrp(C)Jp(E|C)1=1這意味著上述假設下,類變量C的條件分布可以表達為:i九P幾占)=刃(7)HpMG厶1=1其中Z(證據(jù)因子)是一個只依賴與F1,,凡等的縮放因子,當特征變量的值己知時是一個常數(shù)。由于分解成所謂的類先驗概率卩()和獨立概率分布(用|),上述概率模型的可掌控性得到很大的提高。如果這是一個斤分類問題,且每個P(FiC=c)可

6、以表達為廠個參數(shù),于是相應的樸素貝葉斯模型有(&-1)+nr個參數(shù)。實際應用中,通常取丘=2(二分類問題),廠=1(伯努利分布作為特征),因此模型的參數(shù)個數(shù)為2厲+1,其中兀是二值分類特征的個數(shù)。貝葉斯分類器特點編輯1、需要知道先驗概率先驗概率是計算后驗概率的基礎。在傳統(tǒng)的概率理論中,先驗概率可以由大量的重復實驗所獲得的各類樣本出現(xiàn)的頻率來近似獲得,其基礎是“大數(shù)定律”,這一思想稱為“頻率主義”。而在稱為“貝葉斯主義”的數(shù)理統(tǒng)計學派中,他們認為時間是單向的,許多事件的發(fā)生不具有可重復性,因此先驗概率只能根據(jù)對置信度的主觀判定來給出,也可以說由“信仰”來確定。2、按照獲得的信息對先驗概率進行修正

7、在沒有獲得任何信息的時候,如果要進行分類判別,只能依據(jù)各類存在的先驗概率,將樣本劃分到先驗概率大的一類中。而在獲得了更多關于樣本特征的信息后,可以依照貝葉斯公式對先驗概率進行修正,得到后驗概率,提高分類決策的準確性和置信度。3、分類決策存在錯誤率由于貝葉斯分類是在樣本取得某特征值時對它屬于各類的概率進行推測,并無法獲得樣本真實的類別歸屬情況,所以分類決策一定存在錯誤率,即使錯誤率很低,分類錯誤的情況也可能發(fā)生。參數(shù)估計編輯只要知道先驗概率(G和獨立概率分布(尺C),就可以設計出一個貝葉斯分類器。先驗概率()不是一個分布函數(shù),僅僅是一個值,它表達了樣本空間中各個類的樣本所占數(shù)量的比例。依據(jù)大數(shù)定

8、理,當訓練集中樣本數(shù)量足夠多且來自于樣本空間的隨機選取時,可以以訓練集中各類樣本所占的比例來估計P(C)的值。獨立概率分布P(Fic)是以某種形式分布的概率密度函數(shù),需要從訓練集中樣本特征的分布情況進行估計。估計方法可以分為參數(shù)估計和非參數(shù)估計。參數(shù)估計先假定類條件概率密度具有某種確定的分布形式,如正態(tài)分布、二項分布,再用己經(jīng)具有類別標簽的訓練集對概率分布的參數(shù)進行估計。非參數(shù)估計是在不知道或者不假設類條件概率密度的分布形式的基礎上,直接用樣本集中所包含的信息來估計樣本的概率分布情況。所有的模型參數(shù)都可以通過訓練集的相關頻率來估計。常用方法是概率的最大似然估計。類的先驗概率可以通過假設各類等概

9、率來計算(先驗概率二1/(類的數(shù)量),或者通過訓練集的各類樣本出現(xiàn)的次數(shù)來估計(A類先驗概率二(A類樣本的數(shù)量)/(樣本總數(shù))o為了估計特征的分布參數(shù),我們要先假設訓練集數(shù)據(jù)滿足某種分布或者非參數(shù)模型。型如果要處理的是連續(xù)數(shù)據(jù)一種通常的假設是這些連續(xù)數(shù)值為高斯分布。例如,假設訓練集中有一個連續(xù)屬性,我們首先對數(shù)據(jù)根據(jù)類別分類,然后計算每個類別中的均值和方差。令表示為在c類上的均值,令為在c類上的方差。在給定類中某個值的概率,P(J=7JIC),可以通過將&表示為均值為“匕方差為正態(tài)分布計算出來。如下,P(x=l;|c)=ry6臥處理連續(xù)數(shù)值問題的另一種常用的技術是通過離散化連續(xù)數(shù)值的方法。通常

10、,當訓練樣本數(shù)量較少或者是精確的分布己知時,通過概率分布的方法是一種更好的選擇。在大量樣本的情形下離散化的方法表現(xiàn)更優(yōu),因為大量的樣本可以學習到數(shù)據(jù)的分布。由于樸素貝葉斯是一種典型的用到大量樣本的方法(越大計算量的模型可以產(chǎn)生越高的分類精確度),所以樸素貝葉斯方法都用到離散化方法,而不是概率分布估計的方法。樣本修正編輯如果一個給定的類和特征值在訓練集中沒有一起出現(xiàn)過,那么基于頻率的估計下該概率將為0。這將是一個問題。因為與其他概率相乘時將會把其他概率的信息統(tǒng)統(tǒng)去除。所以常常要求要對每個小類樣本的概率估計進行修正,以保證不會出現(xiàn)有為0的概率出現(xiàn)。從概率模型中構造分類器編輯討論至此為止我們導出了獨

11、立分布特征模型,也就是樸素貝葉斯概率模型。樸素貝葉斯分迤包括了這種模型和相應的決策規(guī)則。根據(jù)分類決策規(guī)則的不同,貝葉斯分類有多種形式:最小錯誤率貝葉斯分類器,最大似然比貝葉斯分類器,最小風險貝葉斯分類器。一個普通的規(guī)則就是選出最有可能的那個,即將一個待分類樣本劃歸到后驗概率最大的那一類中:這就是大家熟知的最大后驗概率(MAP)決策準則,真正分類器稱為最大后驗概率分類器,與最小錯誤率貝葉斯分類器是等價的。當采取最大后驗概率決策時,分類錯誤概率取得最小值。相應的分類器便是如下定義的classify公式:nclassify(亢=argmaxp(C=c)p(Ft=ftC=c).cf=i獨立概率分布也稱

12、為類c對特征向量Fi的似然函數(shù),表達了某類中的樣本取某個特征值的可能性。PG)bj二P(/l9)稱為似然比,它與待識別的特征向量有關;P(5)QU二卩稱為判決門限,它僅與兩類的先驗概率有關。若Lij(QQij,對任意的1,2,.,c,丨不等于j,則屬于g。該分類器稱為最大似然比貝葉斯分類器。在最小錯誤率貝葉斯分類器中,僅考慮了樣本屬于每一類的后驗概率就做出了分類決策,而沒有考慮每一種分類決策的風險。在獲得樣本屬于每一類的后驗概率后,需要綜合考慮做出各種分類決策所帶來的風險,選擇風險最小的分類決策,稱為最小風險貝葉斯分類器。決策為:把待識別樣本x歸類到G類中;損失心久把真實屬于匂類的樣本x歸類到

13、G類中帶來的損失;條件風險R偽W):對X釆取決策鳥后可能的風險;則最小風險貝葉斯分類器的分類決策規(guī)則為:若/?他|對=minR(oix)t=l?2r.?c,則*屬于堆。實例編輯性別分類編輯問題描述:通過一些測量的特征,包括身高、體重、腳的尺寸,判定一個人是男性還是女性。訓練編輯訓練數(shù)據(jù)如下:性別身高(英尺)體重(磅)腳的尺寸(英寸)男618012男5.92(5T1)19011男5.58(57)17012男5.92(5T1)16510女51006女556)1508女5.425)130L女5759)1509假設訓練集樣本的特征滿足高斯分布,得到下表:性別均值(身高)性別均值(身高)方差(身高)均值

14、(體重)男性5.8553.5033e-02176.25女性5.41759.7225e-02132.5方差(體均值(腳的尺方差(腳的重)寸)尺寸)1.2292e+0211.259.1667e-0155833e+027.51.6667e+00我們認為兩種類別是等概率的,也就是P(male)二P(female)二0.5。在沒有做辨識的情況下就做這樣的假設并不是一個好的點子。但我們通過數(shù)據(jù)集中兩類樣本出現(xiàn)的頻率來確定P(C),我們得到的結果也是一樣的。測試編輯以下給出一個待分類是男性還是女性的樣本。性別身高(英尺)體重(磅)腳的尺寸(英尺)sample61308sample61308我們希望得到的是男

15、性還是女性哪類的后驗概率大。男性的后驗概率通過下面式子來求取posteriormale)=一:一:evtdence女性的后驗概率通過下面式子來求取丄一rP(于巳mol已)p(htight廿巳mak)p(w巳jemQg)p(扛l)QSTCf201JCH2Q.IC):evidence證據(jù)因子(通常是常數(shù))用來使各類的后驗概率之和為1.evidence=Pmale)pheightmale)pweight|male)pfootsizemale)+P(證據(jù)因子是一個常數(shù)(在正態(tài)分布中通常是正數(shù)),所以可以忽略。接下來我們來判定這樣樣本的性別。P(male)=0.5p(height|male)=exp=5

16、.855卅=3妗磁血是訓練集樣本的正態(tài)分布參數(shù).注意,這里的值大于1也是允許的-這里是概率密度而不是概率,因為身高是一個連續(xù)的變量是訓練集樣本的正態(tài)分布參數(shù).注意,這里p(weightmale)=5.9881e-06p(footsizemale)=1.3112e-3posteriornumerator(male)=6.1984eogfemale)=0.5p(heightfemale)2.2346e_1p(weightfemale)=1.6789廠p(footsize|female)=2.8669e_1posteriornumerator(female)=5.3778e04由于女性后驗概率的分子

17、比較大,所以我們預計這個樣本是女性。文本分類編輯這是一個用樸素貝葉斯分類做的一個文圭分類問題的例子??紤]一個基于內(nèi)容的文本分類問題,例如判斷郵件是否為垃圾郵件。想像文本可以分成若干的類別,首先文本可以被一些單詞集標注,而這個單詞集是獨立分布的,在給定的C類文本中第i個單詞出現(xiàn)的概率可以表示為:P(如C)(通過這種處理,我們進一步簡化了工作,假設每個單詞是在文中是隨機分布的-也就是單詞不依賴于文本的長度,與其他詞出現(xiàn)在文中的位置,或者其他文本內(nèi)容。)對于一個給定類別G單詞的文本Q,概率表示為p(DC=lp(wtC)i我們要回答的問題是文檔Q屬于類c的概率是多少。換而言之P(C|)是多少?現(xiàn)在定義

18、通過貝葉斯定理將上述概率處理成似然度的形式PD)=p(DC)假設現(xiàn)在只有兩個相互獨立的類別,s和s(垃圾郵件和非垃圾郵件),這里每個元素(郵件)要么是垃圾郵件,要么就不是。P(DS)=Ypw.iS)P(D-S)=Yp(w.iS)用上述貝葉斯的結果,可以寫成譏sid)=黑口卩伽同P(S|D)=鶴口卩伽|伺兩者相除:衛(wèi)(S|D)PSD)_P(訥S)pE)UiPihs)整理得:衛(wèi)(S|D)p(S|D)_Pnp(w.iS)P(S)戸(嗎lS)這樣概率比p(s|Z?)/p(s|D)可以表達為似然比。實際的概率p(s|0)可以很容易通過log(p(sIZ?)/p(sIQ)計算出來,基于p(sIZ?)+p(sI0)二1。結合上面所討論的概率比,可以得到:p(s|d)yp他LS)(這種對數(shù)似然比的技術在統(tǒng)計中是一種常用的技術。在這種兩個獨立的分類情況下(如這個垃圾郵件的例子),把對數(shù)似然比轉(zhuǎn)化為sigmoidcurve的形式)。時判定為最后文本可以分類,當”(S|D)Ap(S|D)或者時判定為垃圾郵件,否則為正常郵件。討論編輯盡管實際上獨立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論