




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
樸素貝葉斯分類一、樸素貝葉斯分類方法描述設(shè)樣本集T有n個(gè)屬性:A,A,....A,可能類別為m個(gè):C,C,…,C,待分類樣本為:1 2n 1 2mX={x,x,…x},分別計(jì)算條件概率:P(CIX)=P(XC)P、),(1)12n i P(X)則條件概率最大的P(C,IX)對(duì)應(yīng)的類C就是X的預(yù)測(cè)類。在公式(1)中,計(jì)算等式左邊的每個(gè)條件概率時(shí),右邊的分母相同,因此只需要計(jì)算分子,然后比較大小即可。其中P(然后比較大小即可。其中P(Ci)=ICi類IITICi類的樣本數(shù)
訓(xùn)練集T中總的樣本數(shù)另外,用樸素貝葉斯分類時(shí)還需假設(shè)各屬性之間相互獨(dú)立,此時(shí):P(XIC)=P(x ,x,…,xIC)= P(x IC )P(x IC )...P(x IC)=w P(x IC)(3)i 1 2 ni 1i 2i ni jij=1二、條件概率P(xjIC.)的估計(jì)方法L如果屬性人.為離散型隨機(jī)變量,則條件概率_C類中屬性人為x的樣本數(shù)(ji)=C類的總樣本數(shù)
i例1表1是用于構(gòu)造分類模型的訓(xùn)練集,包含14個(gè)樣本和5個(gè)屬性:A1為Outlook(天氣),它的取值有三個(gè):Sunny(晴天)、Overcast(陰天)、Rain(下雨);A2為Temperature(溫度),它的取值有三個(gè):Hot(炎熱)、Mild(適中)、Cool(涼爽);A3為Humidity(濕度),它的取值有兩個(gè):Hign(潮濕)、Normal(一般);A4為Windy(風(fēng)),它的取值有兩個(gè):Falsese(無)、Trueue(有);A5為Play(比賽),它是分類屬性,取值有兩個(gè):Yes(是)、No(否)。
表1訓(xùn)練樣本集Table1Trueainingdataoutlooktemperaturehumiditywindyplaysunnyhothighfalsenosunnyhothightruenoovercasthothighfalseyesrainmildhighfalseyesraincoolnormalfalseyesraincoolnormaltruenoovercastcoolnormaltrueyessunnymildhighfalsenosunnycoolnormalfalseyesrainmildnormalfalseyesovercastmildnormaltrueyesovercastmildhightrueyesovercasthotnormalfalseyesrainmildhightrueno根據(jù)此訓(xùn)練樣本集,用貝葉斯方法判斷新樣本X={rain,hot,high,true}所屬類別。具體過程如下:這是一個(gè)二分類問題,即只有兩個(gè)類別:Yes(是)或No(否)。先對(duì)類別匯總?cè)缦拢河?xùn)練集T類別q(yes)類別C「no)Total9514因此,P(q)=9/14=0.643,P(C2)=5/14=0.643;
對(duì)于屬性氣(Outlook),數(shù)據(jù)匯總?cè)缦翺utlook類別C(yes)1類別C2(no)Sunny13Overcast50Rain32Total95各條件概率計(jì)算如下P(SunnyIYes)-1/9=0.111,P(SunnyINo)-3/5=0.6P(overcastIYes)=5/9=0.556,P(OvercastINo)=0P(RainIYes)=3/9=0.333,P(RainINo)=2/5=0.4類似的,其它個(gè)屬性數(shù)據(jù)分別匯總,計(jì)算其條件概率如下:Temperature類別q(yes)類別C2(no)Hot22Mild42Cool31Total95P(HotIYes)=2/9=0.222,P(HotINo)=2/5=0.4P(MildIYes)=4/9=0.444,P(MildINo)=2/5=0.4P(CoolIYes)=3/9=0.333,P(CoolINo)=1/5=0.2Humidity類別C(yes)1類別C2(no)High34Normal61Total95P(HighIYes)=3/9=0.333,P(HighINo)=4/5=0.8P(NormalIYes)=6/9=0.667,P(NormalINo)=1/5=0.2Windy類別q(yes)類別C「no)False62True33Total95P(FalseIYes)=6/9=0.667,P(FalseINo)=2/5=0.4P(TrueIYes)=3/9=0.333,P(FalseINo)=3/5=0.6對(duì)于待分類樣本X={rain,hot,high,true},分別計(jì)算以下兩個(gè)概率:P1=P("Rain,hot,high,true"IYes)*P(Yes)=P(RainIYes)*P(HotIYes)*P(highIYes)*P(TrueIYes)*P(Yes)=0.333*0.22*0.33*0.3*0.643=0.0053P2=P("Rain,hot,high,true"INo)*P(No)=P(RainINo)*P(HotINo)*P(highINo)*P(TrueIYes)*P(No)=0.4*0.4*0.8*0.6*0.357=0.0274P1<P2,因此X={rain,hot,high,true}為第二類,即不適合比賽。2、屬性為連續(xù)型數(shù)據(jù)類型例2訓(xùn)練數(shù)據(jù)如表2,判斷新樣本X={"是,已婚,120K"}所屬的類別,即是否拖欠貸款。表2訓(xùn)練數(shù)據(jù)2Table2TrainingdataNo.2tid有房婚姻狀況年收入拖欠貸款1是單身125否2否已婚100否3否但是70否4是已婚120否5否離婚95是6否已婚60否7是離婚220否8否單身85是9否已婚75否10否單身90是屬性“年收入”為連續(xù)型數(shù)據(jù)類型,此時(shí)如果再用公式(4)。類中屬性為X的樣本數(shù)P(X^1 ―。類的'總樣本數(shù)來估計(jì)條件概率已不合適,例如,若新樣本的“年收入”為110K,則P(110IYes)=P(110INo)=0,類似的新樣本將無法判別。有兩種策略可以用了估計(jì)連續(xù)型屬性的條件概率。1、把連續(xù)屬性離散化如前面構(gòu)造決策樹的GiniIndex或信息增益方法,把連續(xù)屬性劃分成幾個(gè)區(qū)間,即連續(xù)屬性離散化。按前面所述,如果把“年收入”劃分成兩個(gè)區(qū)間,則最佳的候選劃分點(diǎn)為97K,對(duì)應(yīng)區(qū)間為(0,97]和(97,+8),通過計(jì)算類C中屬性“年收入”落入對(duì)應(yīng)區(qū)間的比例來估計(jì)條件概率P(x,IC),即把訓(xùn)練數(shù)據(jù)集修改為表3表3修改的訓(xùn)練數(shù)據(jù)Table3TrainingdataNo.2tid有房婚姻狀況年收入<97拖欠貸款1是單身否否2否已婚否否3否但是是否4是已婚否否5否離婚是是6否已婚是否7是離婚否否8否單身是是9否已婚是否10否單身是是這樣便可以按例1的方法來預(yù)測(cè)新樣本所屬的類別,此留做練習(xí)。2、用概率分布來估計(jì)條件概率假設(shè)連續(xù)型屬性服從某種概率分布(通常假設(shè)服從正態(tài)分布),然后用訓(xùn)練數(shù)據(jù)估計(jì)出分布的參數(shù),進(jìn)而計(jì)算相應(yīng)的條件概率。如例 2中,假設(shè)“年收入”屬性為隨機(jī)變量X3?N(日,。2),對(duì)于每個(gè)類C,屬性x,屬于類C的條件概率為TOC\o"1-5"\h\z\o"CurrentDocument"P(xIC)= ——exp(_ 一"可)) (5)ji <2kq 2b2ij ij七,bij分別為類^中屬性Xj的期望和方差,可以用^中屬性Xj的觀察值的樣本均值和方差來估計(jì),如表2中訓(xùn)練數(shù)據(jù),設(shè)類別q="否”,C2=“是”,對(duì)應(yīng)的“年收入”如表4年收入125100701209560220857590拖欠貸款否否否否是否否是否是類別q=“否”的兩個(gè)參數(shù)估計(jì)如下:-1X=7(125+100+70+120+60+220+75)=110
S2=1{(125-110)2+(100-110)2+(70-110)26+(120-110)2+(60-110)2+(220-110)2+(75-110)2}=2975S=54.54因此c廣“否”的兩個(gè)參數(shù)分別為:(Ab2)=(110,54.542)同理可以估計(jì)c2=“是”的兩個(gè)參數(shù)為:(四,。2)=(90,52)對(duì)于新樣本X={"是,已婚,120K"},可以估計(jì)“年收入”屬性相應(yīng)的條件概率為:(120-90)2-2*25尸(1201C1(No))=2―5454exp(-“;了(120-90)2-2*25)=)=1.212*10-9尸(1201C2(Yes))=-^2=5exp(說明:公式⑸的解釋有一定的誤導(dǎo)性,因?yàn)槿绻麃V,?為連續(xù)型隨機(jī)變量,則F(Xj=K)=0,取而代之,應(yīng)計(jì)算Xj落在區(qū)間(七,Xj+£]上的概率(£為很小的正數(shù)):E+x.P(X<X<8+XIC)="f(X;日q2)dXRf(X;日q2)*8jj ji jijijjjijijXj對(duì)于每個(gè)Xj的取值,都用同一個(gè)8,在比較時(shí),8成為一個(gè)常數(shù)乘法因此,不影響比較結(jié)訓(xùn)練集T類別q(no)訓(xùn)練集T類別q(no)類別C2(yes)73下面用上述方法來判別新樣本X={”是,已婚,120K"}所屬的類別。離散屬性數(shù)據(jù)匯總?cè)缦?3P(C2)=仍=°.3屬性“有房”類別q(no)類別C2(yes)是30否43Total73P(C)=—=0.7,1 10D 3 一D?p(是|C1)=7=0.4285,尸(是IC2)=04p(否|C1)=-=0.5715,P(否IC2)=1屬性“婚姻狀況”類別q(no)類別C2(yes)離婚11單身22已婚40Total73P(離婚IC1)=1/7=0.1429,P(離婚IC2)=1/3=0.333P(單身IC1)=2/7=0.2857,P(單身IC2)=2/3=0.667P(已婚IC)=4/7=0.5714,P(已婚IC)=012對(duì)于屬性“年輸入”,已估計(jì)相應(yīng)的條件概率為:P(1201CJ=0.0072,P(120IC2)=1.2152*10-9由以上概率計(jì)算樣本X={"是,已婚,120K"}相應(yīng)的條件概率為:P1=P(XIC)=7*4*4*0.0072=0.00161 10773P2=P(XIC2)=仍*0*0*1.2152*10-9=0P1>P2,因此新樣本屬于第二類,即“是”拖欠貸款。3、條件概率的m估計(jì)從上面的例子可以看出,用訓(xùn)練數(shù)據(jù)估計(jì)條件概率時(shí)有一個(gè)潛在的問題:如果有一個(gè)屬性的類條件概率P3「C)為0,則整個(gè)類的后驗(yàn)概率就等于0,簡(jiǎn)單地使用記錄比例來估計(jì)類條件概率的方法就顯得脆弱了,尤其當(dāng)訓(xùn)練樣本很少而屬性數(shù)目有很多時(shí)。如例2,如果訓(xùn)練數(shù)據(jù)中屬性“婚姻狀況”統(tǒng)計(jì)如下而其它數(shù)據(jù)不變:屬性“婚姻狀況”類別q(no)類別C2(yes)離婚01單身32已婚40Total73相應(yīng)的類條件概率為:P(離婚IC1)=0,P(離婚IC2)=1/3=0.333給定一個(gè)新樣本X={"有房,離婚,120"},判斷其類別,計(jì)算如下:TOC\o"1-5"\h\z7 4P1=P(XIC1)=10*0*7*0.0072=03 -P2=P(XIC2)=布*0*0*1.2152*10-9=0此時(shí)將無法識(shí)別新樣本。解決該問題的途徑是使用m估計(jì)(m-estimate)方法來估計(jì)條件概\o
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《貴州飛尚能源有限公司六枝特區(qū)興旺煤礦(變更)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評(píng)審意見
- 珠寶相關(guān)知識(shí)培訓(xùn)課件
- 2025年汕尾下載b2貨運(yùn)從業(yè)資格證模擬考試考試
- 印度課件+-2024-2025學(xué)年人教版七年級(jí)地理下冊(cè)
- 養(yǎng)殖寵物基本知識(shí)培訓(xùn)課件
- 第二單元空氣和氧氣課題3制取氧氣 第1課時(shí)實(shí)驗(yàn)室制取氧氣的原理 分解反應(yīng)教學(xué)設(shè)計(jì)-2024-2025學(xué)年九年級(jí)化學(xué)人教版(2024)上冊(cè)
- 2025年西藏貨運(yùn)從業(yè)證考試內(nèi)容
- 四川省南川區(qū)川東北名校2024-2025學(xué)年高二(上)期末物理試卷【含解析】
- 上海市靜安區(qū)華東模范中學(xué)2024-2025學(xué)年高一(上)期末物理試卷【含解析】
- 2025屆新高考?xì)v史沖刺熱點(diǎn)復(fù)習(xí)中華文明的形成和發(fā)展時(shí)期-秦漢
- 2024年高考全國甲卷歷史試題(含答案)
- NB-T 33015-2014 電化學(xué)儲(chǔ)能系統(tǒng)接入配電網(wǎng)技術(shù)規(guī)定
- 統(tǒng)編版語文四年級(jí)上冊(cè)第七單元 講述人物事跡 弘揚(yáng)家國情懷單元任務(wù)群整體公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)
- 2024年山東教育廳事業(yè)單位筆試真題
- CJT264-2007 水處理用橡膠膜微孔曝氣器
- 母嬰保健技術(shù)服務(wù)工作總結(jié)報(bào)告
- (高清版)WST 227-2024 臨床檢驗(yàn)項(xiàng)目標(biāo)準(zhǔn)操作程序編寫要求
- 配位化學(xué) 本科生版 知到智慧樹網(wǎng)課答案
- 《配電線路旁路作業(yè)工具裝備 第1部分 柔性電纜及連接器》
- 第3章-水文統(tǒng)計(jì)原理
- 斑馬導(dǎo)絲熱縮工藝
評(píng)論
0/150
提交評(píng)論