




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
樸素貝葉斯模型2017-06-09分類模型最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBM)樸素貝葉斯模型樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法生活中很多場(chǎng)合需要用到分類,比如新聞分類、病人分類等等。定義樸素貝葉斯分類器基于一個(gè)簡(jiǎn)單的假定:給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。通過(guò)以上定理和“樸素”的假定,我們知道:P(Category|Document)=P(Document|Category)*P(Category)/P(Document)詳細(xì)內(nèi)容分類是將一個(gè)未知樣本分到幾個(gè)預(yù)先已知類的過(guò)程。數(shù)據(jù)分類問(wèn)題的解決是一個(gè)兩步過(guò)程:第一步,建立一個(gè)模型,描述預(yù)先的數(shù)據(jù)集或概念集。通過(guò)分析由屬性描述的樣本(或?qū)嵗瑢?duì)象等)來(lái)構(gòu)造模型。假定每一個(gè)樣本都有一個(gè)預(yù)先定義的類,由一個(gè)被稱為類標(biāo)簽的屬性確定。為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集,該步也稱作有指導(dǎo)的學(xué)習(xí)。在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBC)。決策樹模型通過(guò)構(gòu)造樹來(lái)解決分類問(wèn)題。首先利用訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造一棵決策樹,一旦樹建立起來(lái),它就可為未知樣本產(chǎn)生一個(gè)分類。在分類問(wèn)題中使用決策樹模型有很多的優(yōu)點(diǎn),決策樹便于使用,而且高效;根據(jù)決策樹可以很容易地構(gòu)造出規(guī)則,而規(guī)則通常易于解釋和理解;決策樹可很好地?cái)U(kuò)展到大型數(shù)據(jù)庫(kù)中,同時(shí)它的大小獨(dú)立于數(shù)據(jù)庫(kù)的大?。粵Q策樹模型的另外一大優(yōu)點(diǎn)就是可以對(duì)有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。決策樹模型也有一些缺點(diǎn),比如處理缺失數(shù)據(jù)時(shí)的困難,過(guò)度擬合問(wèn)題的出現(xiàn),以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等。和決策樹模型相比,樸素貝葉斯分類器(NaiveBayesClassifier,或NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時(shí),NBC模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來(lái)了一定影響。解決這個(gè)問(wèn)題的方法一般是建立一個(gè)屬性模型,對(duì)于不相互獨(dú)立的屬性,把他們單獨(dú)處理。例如中文文本分類識(shí)別的時(shí)候,我們可以建立一個(gè)字典來(lái)處理一些詞組。如果發(fā)現(xiàn)特定的問(wèn)題中存在特殊的模式屬性,那么就單獨(dú)處理。這樣做也符合貝葉斯概率原理,因?yàn)槲覀儼岩粋€(gè)詞組看作一個(gè)單獨(dú)的模式,例如英文文本處理一些長(zhǎng)度不等的單詞,也都作為單獨(dú)獨(dú)立的模式進(jìn)行處理,這是自然語(yǔ)言與其他分類識(shí)別問(wèn)題的不同點(diǎn)。實(shí)際計(jì)算先驗(yàn)概率時(shí)候,因?yàn)檫@些模式都是作為概率被程序計(jì)算,而不是自然語(yǔ)言被人來(lái)理解,所以結(jié)果是一樣的。在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),NBC模型的分類效率比不上決策樹模型。但這點(diǎn)有待驗(yàn)證,因?yàn)榫唧w的問(wèn)題不同,算法得出的結(jié)果不同,同一個(gè)算法對(duì)于同一個(gè)問(wèn)題,只要模式發(fā)生變化,也存在不同的識(shí)別性能。這點(diǎn)在很多國(guó)外論文中已經(jīng)得到公認(rèn),在機(jī)器學(xué)習(xí)一書中也提到過(guò)算法對(duì)于屬性的識(shí)別情況決定于很多因素,例如訓(xùn)練樣本和測(cè)試樣本的比例影響算法的性能。決策樹對(duì)于文本分類識(shí)別,要看具體情況。在屬性相關(guān)性較小時(shí),NBC模型的性能稍微良好。屬性相關(guān)性較小的時(shí)候,其他的算法性能也很好,這是由于信息熵理論決定的。樸素貝葉斯分類器的公式假設(shè)某個(gè)體有n項(xiàng)特征(Feature),分別為F1、F2、...、Fn?,F(xiàn)有m個(gè)類別(Category),分別為C1、C2、...、Cm。貝葉斯分類器就是計(jì)算出概率最大的那個(gè)分類,也就是求下面這個(gè)算式的最大值:P(C|F1F2...Fn)
=P(F1F2...Fn|C)P(C)/P(F1F2...Fn)由于P(F1F2...Fn)對(duì)于所有的類別都是相同的,可以省略,問(wèn)題就變成了求:P(F1F2...Fn|C)P(C)的最大值。樸素貝葉斯分類器則是更進(jìn)一步,假設(shè)所有特征都彼此獨(dú)立,因此:P(F1F2...Fn|C)P(C)
=P(F1|C)P(F2|C)...P(Fn|C)P(C)上式等號(hào)右邊的每一項(xiàng),都可以從統(tǒng)計(jì)資料中得到,由此就可以計(jì)算出每個(gè)類別對(duì)應(yīng)的概率,從而找出最大概率的那個(gè)類。賬號(hào)分類的例子根據(jù)某社區(qū)網(wǎng)站的抽樣統(tǒng)計(jì),該站10000個(gè)賬號(hào)中有89%為真實(shí)賬號(hào)(設(shè)為C0),11%為虛假賬號(hào)(設(shè)為C1)。C0=0.89,C1=0.11用統(tǒng)計(jì)資料判斷一個(gè)賬號(hào)的真實(shí)性F1:日志數(shù)量/注冊(cè)天數(shù)
F2:好友數(shù)量/注冊(cè)天數(shù)
F3:是否使用真實(shí)頭像(真實(shí)頭像為1,非真實(shí)頭像為0)F1=0.1
,F2=0.2
,F3=0請(qǐng)問(wèn)該賬號(hào)是真實(shí)賬號(hào)還是虛假賬號(hào)?方法是使用樸素貝葉斯分類器,計(jì)算下面這個(gè)計(jì)算式的值。P(F1|C)P(F2|C)P(F3|C)P(C)
賬號(hào)分類的例子上面這些值可以從統(tǒng)計(jì)資料得到,但是:F1和F2是連續(xù)變量,不適宜按照某個(gè)特定值計(jì)算概率。一個(gè)技巧是將連續(xù)值變?yōu)殡x散值,計(jì)算區(qū)間的概率。比如將F1分解成[0,0.05]、(0.05,0.2)、[0.2,+∞]三個(gè)區(qū)間,然后計(jì)算每個(gè)區(qū)間的概率。在我們這個(gè)例子中,F(xiàn)1等于0.1,落在第二個(gè)區(qū)間,所以計(jì)算的時(shí)候,就使用第二個(gè)區(qū)間的發(fā)生概率。根據(jù)統(tǒng)計(jì)資料,可得:
P(F1|C0)=0.5,P(F1|C1)=0.1
P(F2|C0)=0.7,P(F2|C1)=0.2
P(F3|C0)=0.2,P(F3|C1)=0.9因此,
P(F1|C0)P(F2|C0)P(F3|C0)P(C0)
=0.5x0.7x0.2x0.89
=0.0623
P(F1|C1)P(F2|C1)P(F3|C1)P(C1)
=0.1x0.2x0.9x0.11
=0.00198可以看到,雖然這個(gè)用戶沒(méi)有使用真實(shí)頭像,但是他是真實(shí)賬號(hào)的概率,比虛假賬號(hào)高出30多倍,因此判斷這個(gè)賬號(hào)為真。F1:日志數(shù)量/注冊(cè)天數(shù)(0.1)
F2:好友數(shù)量/注冊(cè)天數(shù)
(0.2)
F3:是否使用真實(shí)頭像(0)性別分類的例子下面是一組人類身體特征的統(tǒng)計(jì)資料已知某人身高6英尺、體重130磅,腳掌8英寸,請(qǐng)問(wèn)該人是男是女?根據(jù)樸素貝葉斯分類器,計(jì)算下面這個(gè)式子的值。P(身高|性別)xP(體重|性別)xP(腳掌|性別)xP(性別)這里的困難在于,由于身高、體重、腳掌都是連續(xù)變量,不能采用離散變量的方法計(jì)算概率。而且由于樣本太少,所以也無(wú)法分成區(qū)間計(jì)算。怎么辦?性別身高(英尺)體重(磅)腳掌(英寸)男6
180
12
男5.92
190
11
男5.58
170
12
男5.92
165
10
女5
100
6
女5.5
150
8
女5.42
130
7
女5.75
150
9性別分類的例子這時(shí),可以假設(shè)男性和女性的身高、體重、腳掌都是正態(tài)分布,通過(guò)樣本計(jì)算出均值和方差,也就是得到正態(tài)分布的密度函數(shù)。有了密度函數(shù),就可以把值代入,算出某一點(diǎn)的密度函數(shù)的值。比如,男性的身高是均值5.855、方差0.035的正態(tài)分布。所以,男性的身高為6英尺的概率的相對(duì)值等于1.5789(大于1并沒(méi)有關(guān)系,因?yàn)檫@里是密度函數(shù)的值,只用來(lái)反映各個(gè)值的相對(duì)可能性)有了這些數(shù)據(jù)以后,就可以計(jì)算性別的分類了。
P(身高=6|男)xP(體重=130|男)xP(腳掌=8|男)xP(男)
=6.1984xe-9
P(身高=6|女)xP(體重=130|女)xP(腳掌=8|女)xP(女)
=5.3778xe-4可以看到,女性的概率比男性要高出將近10000倍,所以判斷該人為女性。Appendix
決策樹(decisiontree)一般都是自上而下的來(lái)生成的。每個(gè)決策或事件(即自然狀態(tài))都可能引出兩個(gè)或多個(gè)事件,導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹的構(gòu)成有四個(gè)要素:(1)決策結(jié)點(diǎn);(2)方案枝;(3)狀態(tài)結(jié)點(diǎn);(4)概率枝。如圖所示:決策樹的適用范圍科學(xué)的決策是現(xiàn)代管理者的一項(xiàng)重要職責(zé)。我們?cè)谄髽I(yè)管理實(shí)踐中,常遇到的情景是:若干個(gè)可行性方案制訂出來(lái)了,分析一下企業(yè)內(nèi)、外部環(huán)境,大部分條件是己知的,但還存在一定的不確定因素。每個(gè)方案的執(zhí)行都可能出現(xiàn)幾種結(jié)果,各種結(jié)果的出現(xiàn)有一定的概率,企業(yè)決策存在著一定的勝算,也存在著一定的風(fēng)險(xiǎn)。這時(shí),決策的標(biāo)準(zhǔn)只能是期望值。即,各種狀態(tài)下的加權(quán)平均值。針對(duì)上述問(wèn)題,用決策樹法來(lái)解決不失為一種好的選擇。決策樹法作為一種決策技術(shù),已被廣泛地應(yīng)用于企業(yè)的投資決策之中,它是隨機(jī)決策模型中最常見(jiàn)、最普及的一種規(guī)策模式和方法此方法,有效地控制了決策帶來(lái)的風(fēng)險(xiǎn)。所謂決策樹法,就是運(yùn)用樹狀圖表示各決策的期望值,通過(guò)計(jì)算,最終優(yōu)選出效益最大、成本最小的決策方法。決策樹法屬于風(fēng)險(xiǎn)型決策方法,不同于確定型決策方法,二者適用的條件也不同。應(yīng)用決策樹決策方法必須具備以下條件:①具有決策者期望達(dá)到的明確目標(biāo);②存在決策者可以選擇的兩個(gè)以上的可行備選方案;⑧存在著決策者無(wú)法控制的兩種以上的自然狀態(tài)(如氣候變化、市場(chǎng)行情、經(jīng)濟(jì)發(fā)展動(dòng)向等);④不同行動(dòng)方案在不同自然狀態(tài)下的收益值或損失值(簡(jiǎn)稱損益值)可以計(jì)算出來(lái);⑤決策者能估計(jì)出不同的自然狀態(tài)發(fā)生概率決策樹的決策程序決策樹法的決策程序如下:
(1)繪制樹狀圖,根據(jù)已知條件排列出各個(gè)方案和每一方案的各種自然狀態(tài)。
(2)將各狀態(tài)概率及損益值標(biāo)于概率枝上。
(3)計(jì)算各個(gè)方案期望值并將其標(biāo)于該方案對(duì)應(yīng)的狀態(tài)結(jié)點(diǎn)上。
(4)進(jìn)行剪枝,比較各個(gè)方案的期望值,并標(biāo)于方案枝上,將期望值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。決策樹的應(yīng)用前景決策樹法具有許多優(yōu)點(diǎn):條理清晰,程序嚴(yán)謹(jǐn),定量、定性分析相結(jié)合,方法簡(jiǎn)單,易于掌握,應(yīng)用性強(qiáng),適用范圍廣等。人們逐漸認(rèn)識(shí)到,在投資
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 會(huì)所餐具購(gòu)買合同范本
- 創(chuàng)業(yè)商鋪?zhàn)赓U合同范例
- 養(yǎng)殖行業(yè)合同范例
- 便宜網(wǎng)店轉(zhuǎn)讓合同范本
- 蘭州技術(shù)合同范例
- 出售磚瓦設(shè)備合同范本
- 會(huì)計(jì)合作合同范本
- 三福正式員工合同范例
- 業(yè)主房子托管合同范例
- 倉(cāng)庫(kù)承包合同范例
- 2025年安徽省合肥市部分校中考化學(xué)試題考前模擬試題含解析
- 《江城子-密州出獵》1省名師課賽課獲獎(jiǎng)?wù)n件市賽課一等獎(jiǎng)?wù)n件
- DL∕T 868-2014 焊接工藝評(píng)定規(guī)程
- 新人教小學(xué)五年級(jí)數(shù)學(xué)下冊(cè)《怎樣通知最快》示范教學(xué)課件
- 2024年北京中考語(yǔ)文試題及答案
- 施工現(xiàn)場(chǎng)安全標(biāo)準(zhǔn)化施工手冊(cè)(匯編)
- 《串珠》教案-2024鮮版
- (高清版)TDT 1008-2007 土地勘測(cè)定界規(guī)程
- 經(jīng)濟(jì)數(shù)學(xué)(高等職業(yè))全套教學(xué)課件
- 《5G無(wú)線網(wǎng)絡(luò)規(guī)劃與優(yōu)化》 課件 第5、6章 5G無(wú)線網(wǎng)絡(luò)規(guī)劃、5G無(wú)線網(wǎng)絡(luò)優(yōu)化
- 超聲科院感培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論