貝葉斯推斷及其互聯(lián)網(wǎng)應用(一):定理簡介_第1頁
貝葉斯推斷及其互聯(lián)網(wǎng)應用(一):定理簡介_第2頁
貝葉斯推斷及其互聯(lián)網(wǎng)應用(一):定理簡介_第3頁
貝葉斯推斷及其互聯(lián)網(wǎng)應用(一):定理簡介_第4頁
貝葉斯推斷及其互聯(lián)網(wǎng)應用(一):定理簡介_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、作者: 阮一峰日期: 2011年8月25日一年前的這個時候,我正在翻譯Paul Graham的黑客與畫家。那本書的第八章,寫了一個非常具體的技術(shù)問題-如何使用貝葉斯推斷過濾垃圾郵件(英文版)。我沒完全看懂那一章。當時是硬著頭皮,按照字面意思把它譯出來的。雖然譯文質(zhì)量還可以,但是心里很不舒服,下決心一定要搞懂它。一年過去了,我讀了一些概率論文獻,逐漸發(fā)現(xiàn)貝葉斯推斷并不難。原理的部分相當容易理解,不需要用到高等數(shù)學。下面就是我的學習筆記。需要聲明的是,我并不是這方面的專家,數(shù)學其實是我的弱項。歡迎大家提出寶貴意見,讓我們共同學習和提高。=貝葉斯推斷及其互聯(lián)網(wǎng)應用作者:阮一峰一、

2、什么是貝葉斯推斷貝葉斯推斷(Bayesian inference)是一種統(tǒng)計學方法,用來估計統(tǒng)計量的某種性質(zhì)。它是貝葉斯定理(Bayes' theorem)的應用。英國數(shù)學家托馬斯·貝葉斯(Thomas Bayes)在1763年發(fā)表的一篇論文中,首先提出了這個定理。貝葉斯推斷與其他統(tǒng)計學推斷方法截然不同。它建立在主觀判斷的基礎上,也就是說,你可以不需要客觀證據(jù),先估計一個值,然后根據(jù)實際結(jié)果不斷修正。正是因為它的主觀性太強,曾經(jīng)遭到許多統(tǒng)計學家的詬病。貝葉斯推斷需要大量的計算,因此歷史上很長一段時間,無法得到廣泛應用。只有計算機誕生以后,它才獲得真正的重視。人們發(fā)現(xiàn),許多統(tǒng)計

3、量是無法事先進行客觀判斷的,而互聯(lián)網(wǎng)時代出現(xiàn)的大型數(shù)據(jù)集,再加上高速運算能力,為驗證這些統(tǒng)計量提供了方便,也為應用貝葉斯推斷創(chuàng)造了條件,它的威力正在日益顯現(xiàn)。二、貝葉斯定理要理解貝葉斯推斷,必須先理解貝葉斯定理。后者實際上就是計算"條件概率"的公式。所謂"條件概率"(Conditional probability),就是指在事件B發(fā)生的情況下,事件A發(fā)生的概率,用P(A|B)來表示。根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(AB)除以P(B)。因此,同理可得,所以,即這就是條件概率的計算公式。三、全概率公式由于后面要用到,

4、所以除了條件概率以外,這里還要推導全概率公式。假定樣本空間S,是兩個事件A與A'的和。上圖中,紅色部分是事件A,綠色部分是事件A',它們共同構(gòu)成了樣本空間S。在這種情況下,事件B可以劃分成兩個部分。即在上一節(jié)的推導當中,我們已知所以,這就是全概率公式。它的含義是,如果A和A'構(gòu)成樣本空間的一個劃分,那么事件B的概率,就等于A和A'的概率分別乘以B對這兩個事件的條件概率之和。將這個公式代入上一節(jié)的條件概率公式,就得到了條件概率的另一種寫法:四、貝葉斯推斷的含義對條件概率公式進行變形,可以得到如下形式:我們把P(A)稱為"先驗概率"(Prior

5、probability),即在B事件發(fā)生之前,我們對A事件概率的一個判斷。P(A|B)稱為"后驗概率"(Posterior probability),即在B事件發(fā)生之后,我們對A事件概率的重新評估。P(B|A)/P(B)稱為"可能性函數(shù)"(Likelyhood),這是一個調(diào)整因子,使得預估概率更接近真實概率。所以,條件概率可以理解成下面的式子:后驗概率先驗概率 調(diào)整因子這就是貝葉斯推斷的含義。我們先預估一個"先驗概率",然后加入實驗結(jié)果,看這個實驗到底是增強還是削弱了"先驗概率",由此得到更接近事實的"后

6、驗概率"。在這里,如果"可能性函數(shù)"P(B|A)/P(B)>1,意味著"先驗概率"被增強,事件A的發(fā)生的可能性變大;如果"可能性函數(shù)"=1,意味著B事件無助于判斷事件A的可能性;如果"可能性函數(shù)"<1,意味著"先驗概率"被削弱,事件A的可能性變小。五、【例子】水果糖問題為了加深對貝葉斯推斷的理解,我們看兩個例子。第一個例子。兩個一模一樣的碗,一號碗有30顆水果糖和10顆巧克力糖,二號碗有水果糖和巧克力糖各20顆?,F(xiàn)在隨機選擇一個碗,從中摸出一顆糖,發(fā)現(xiàn)是水果糖。請問這顆水果

7、糖來自一號碗的概率有多大?我們假定,H1表示一號碗,H2表示二號碗。由于這兩個碗是一樣的,所以P(H1)=P(H2),也就是說,在取出水果糖之前,這兩個碗被選中的概率相同。因此,P(H1)=0.5,我們把這個概率就叫做"先驗概率",即沒有做實驗之前,來自一號碗的概率是0.5。再假定,E表示水果糖,所以問題就變成了在已知E的情況下,來自一號碗的概率有多大,即求P(H1|E)。我們把這個概率叫做"后驗概率",即在E事件發(fā)生之后,對P(H1)的修正。根據(jù)條件概率公式,得到已知,P(H1)等于0.5,P(E|H1)為一號碗中取出水果糖的概率,等于0.75,那么求

8、出P(E)就可以得到答案。根據(jù)全概率公式,所以,將數(shù)字代入原方程,得到這表明,來自一號碗的概率是0.6。也就是說,取出水果糖之后,H1事件的可能性得到了增強。六、【例子】假陽性問題第二個例子是一個醫(yī)學的常見問題,與現(xiàn)實生活關(guān)系緊密。已知某種疾病的發(fā)病率是0.001,即1000人中會有1個人得病。現(xiàn)有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現(xiàn)陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現(xiàn)陽性?,F(xiàn)有一個病人的檢驗結(jié)果為陽性,請問他確實得病的可能性有多大?假定A事件表示得病,那么P(A)為0.001。這就是"先驗

9、概率",即沒有做試驗之前,我們預計的發(fā)病率。再假定B事件表示陽性,那么要計算的就是P(A|B)。這就是"后驗概率",即做了試驗以后,對發(fā)病率的估計。根據(jù)條件概率公式,用全概率公式改寫分母,將數(shù)字代入,我們得到了一個驚人的結(jié)果,P(A|B)約等于0.019。也就是說,即使檢驗呈現(xiàn)陽性,病人得病的概率,也只是從0.1%增加到了2%左右。這就是所謂的"假陽性",即陽性結(jié)果完全不足以說明病人得病。為什么會這樣?為什么這種檢驗的準確率高達99%,但是可信度卻不到2%?答案是與它的誤報率太高有關(guān)。(【習題】如果誤報率從5%降為1%,請問病人得病的概率會變成

10、多少?)有興趣的朋友,還可以算一下"假陰性"問題,即檢驗結(jié)果為陰性,但是病人確實得病的概率有多大。然后問自己,"假陽性"和"假陰性",哪一個才是醫(yī)學檢驗的主要風險?=關(guān)于貝葉斯推斷的原理部分,今天就講到這里。下一次,將介紹如何使用貝葉斯推斷過濾垃圾郵件。(未完待續(xù))貝葉斯推斷及其互聯(lián)網(wǎng)應用(二):過濾垃圾郵件作者: 阮一峰日期: 2011年8月27日上一次,我介紹了貝葉斯推斷的原理,今天講如何將它用于垃圾郵件過濾。=貝葉斯推斷及其互聯(lián)網(wǎng)應用作者:阮一峰(接上文)七、什么是貝葉斯過濾器?垃圾郵件是一種令人頭痛的頑癥,

11、困擾著所有的互聯(lián)網(wǎng)用戶。正確識別垃圾郵件的技術(shù)難度非常大。傳統(tǒng)的垃圾郵件過濾方法,主要有"關(guān)鍵詞法"和"校驗碼法"等。前者的過濾依據(jù)是特定的詞語;后者則是計算郵件文本的校驗碼,再與已知的垃圾郵件進行對比。它們的識別效果都不理想,而且很容易規(guī)避。2002年,Paul Graham提出使用"貝葉斯推斷"過濾垃圾郵件。他說,這樣做的效果,好得不可思議。1000封垃圾郵件可以過濾掉995封,且沒有一個誤判。另外,這種過濾器還具有自我學習的功能,會根據(jù)新收到的郵件,不斷調(diào)整。收到的垃圾郵件越多,它的準確率就越高。八、建立歷史資料庫貝葉斯過濾器是

12、一種統(tǒng)計學過濾器,建立在已有的統(tǒng)計結(jié)果之上。所以,我們必須預先提供兩組已經(jīng)識別好的郵件,一組是正常郵件,另一組是垃圾郵件。我們用這兩組郵件,對過濾器進行"訓練"。這兩組郵件的規(guī)模越大,訓練效果就越好。Paul Graham使用的郵件規(guī)模,是正常郵件和垃圾郵件各4000封。"訓練"過程很簡單。首先,解析所有郵件,提取每一個詞。然后,計算每個詞語在正常郵件和垃圾郵件中的出現(xiàn)頻率。比如,我們假定"sex"這個詞,在4000封垃圾郵件中,有200封包含這個詞,那么它的出現(xiàn)頻率就是5%;而在4000封正常郵件中,只有2封包含這個詞,那么出現(xiàn)頻率

13、就是0.05%。(【注釋】如果某個詞只出現(xiàn)在垃圾郵件中,Paul Graham就假定,它在正常郵件的出現(xiàn)頻率是1%,反之亦然。這樣做是為了避免概率為0。隨著郵件數(shù)量的增加,計算結(jié)果會自動調(diào)整。)有了這個初步的統(tǒng)計結(jié)果,過濾器就可以投入使用了。九、貝葉斯過濾器的使用過程現(xiàn)在,我們收到了一封新郵件。在未經(jīng)統(tǒng)計分析之前,我們假定它是垃圾郵件的概率為50%。(【注釋】有研究表明,用戶收到的電子郵件中,80%是垃圾郵件。但是,這里仍然假定垃圾郵件的"先驗概率"為50%。)我們用S表示垃圾郵件(spam),H表示正常郵件(healthy)。因此,P(S)和P(H)的先驗概率,都是50%

14、。然后,對這封郵件進行解析,發(fā)現(xiàn)其中包含了sex這個詞,請問這封郵件屬于垃圾郵件的概率有多高?我們用W表示"sex"這個詞,那么問題就變成了如何計算P(S|W)的值,即在某個詞語(W)已經(jīng)存在的條件下,垃圾郵件(S)的概率有多大。根據(jù)條件概率公式,馬上可以寫出公式中,P(W|S)和P(W|H)的含義是,這個詞語在垃圾郵件和正常郵件中,分別出現(xiàn)的概率。這兩個值可以從歷史資料庫中得到,對sex這個詞來說,上文假定它們分別等于5%和0.05%。另外,P(S)和P(H)的值,前面說過都等于50%。所以,馬上可以計算P(S|W)的值:因此,這封新郵件是垃圾郵件的概率等于99%。這說明

15、,sex這個詞的推斷能力很強,將50%的"先驗概率"一下子提高到了99%的"后驗概率"。十、聯(lián)合概率的計算做完上面一步,請問我們能否得出結(jié)論,這封新郵件就是垃圾郵件?回答是不能。因為一封郵件包含很多詞語,一些詞語(比如sex)說這是垃圾郵件,另一些說這不是。你怎么知道以哪個詞為準?Paul Graham的做法是,選出這封信中P(S|W)最高的15個詞,計算它們的聯(lián)合概率。(【注釋】如果有的詞是第一次出現(xiàn),無法計算P(S|W),Paul Graham就假定這個值等于0.4。因為垃圾郵件用的往往都是某些固定的詞語,所以如果你從來沒見過某個詞,它多半是一個正常

16、的詞。)所謂聯(lián)合概率,就是指在多個事件發(fā)生的情況下,另一個事件發(fā)生概率有多大。比如,已知W1和W2是兩個不同的詞語,它們都出現(xiàn)在某封電子郵件之中,那么這封郵件是垃圾郵件的概率,就是聯(lián)合概率。在已知W1和W2的情況下,無非就是兩種結(jié)果:垃圾郵件(事件E1)或正常郵件(事件E2)。其中,W1、W2和垃圾郵件的概率分別如下:如果假定所有事件都是獨立事件(【注釋】嚴格地說,這個假定不成立,但是這里可以忽略),那么就可以計算P(E1)和P(E2):又由于在W1和W2已經(jīng)發(fā)生的情況下,垃圾郵件的概率等于下面的式子:即將P(S)等于0.5代入,得到將P(S|W1)記為P1,P(S|W2)記為P2,公式就變成

17、這就是聯(lián)合概率的計算公式。如果你不是很理解,點擊這里查看更多的解釋。十一、最終的計算公式將上面的公式擴展到15個詞的情況,就得到了最終的概率計算公式:一封郵件是不是垃圾郵件,就用這個式子進行計算。這時我們還需要一個用于比較的門檻值。Paul Graham的門檻值是0.9,概率大于0.9,表示15個詞聯(lián)合認定,這封郵件有90%以上的可能屬于垃圾郵件;概率小于0.9,就表示是正常郵件。有了這個公式以后,一封正常的信件即使出現(xiàn)sex這個詞,也不會被認定為垃圾郵件了。(完)文檔信息§ 版權(quán)聲明:自由轉(zhuǎn)載-非商用-非衍生-保持署名 | Creative Commons BY-NC-N

18、D 3.0§ 原文網(wǎng)址:§ 最后修改時間:2013年9月29日 20:24§ 付費支持: | 相關(guān)文章§ 2013.03.31: 相似圖片搜索的原理(二)二年前,我寫了相似圖片搜索的原理,介紹了一種最簡單的實現(xiàn)方法。§ 2013.03.26: TF-IDF與余弦相似性的應用(三):自動摘要有時候,很簡單的數(shù)學方法,就可以完成很復雜的任務。功能鏈接§ 前一篇:貝葉斯推斷及其互聯(lián)網(wǎng)應用(一):定理簡介§ 后一篇:經(jīng)濟增長是如何換來的?§ 更多內(nèi)容請訪問:首頁 »

19、; 檔案 » 算法§窗體頂端站內(nèi)搜索: 窗體底端§ Feed訂閱: 廣告(購買廣告位)留言(50條)49Degree 說:難怪現(xiàn)在收的開發(fā)票垃圾郵件,都是以附件圖片顯示內(nèi)容了2011年8月27日 18:09 | 檔案 | 引用屎蛋 說:Mark 先!估計發(fā)展一下可以變成炒股公式2011年8月27日 20:16 | 檔案 | 引用3tgame 說:將P(S|W1)記為P1,P(S|W1)記為P2第二個是否應為

20、W2?2011年8月27日 20:58 | 檔案 | 引用小年 說:理論性太強啊2011年8月27日 21:23 | 檔案 | 引用zc 說:不怕漏,漏一點沒關(guān)系,怕被誤殺而且中文的是不是還要加語義分析?2011年8月27日 22:26 | 檔案 | 引用水人 說:能不能說明文章中一些數(shù)據(jù),比如:“如果某個詞只出現(xiàn)在垃圾郵件中,Paul Graham就假定,它在正常郵件的出現(xiàn)頻率是1%,反之亦然。隨著郵件數(shù)量的增加,計算結(jié)果會自動調(diào)整?!敝械?%

21、,請問是不是經(jīng)驗值2011年8月27日 22:48 | 檔案 | 引用Allen 說:P(E1)+P(E2)不等於1嗎?2011年8月27日 23:01 | 檔案 | 引用Bill 說:整個過程講的很清晰,謝謝阮大哥分享,不過,推導中有兩個地方我不太明白:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說的,直覺是P(E1)+P(E2)=1能否解釋一下E1和E2在樣本空間中的精確含義呢?我的理解是E1=S &

22、amp;& W1 && W2,也就是說有E1封郵件,滿足以上三個條件,總郵件S+H封,P(E1)=E1/(S+H)能否解釋一下1和2的理由?謝謝!2011年8月28日 00:36 | 檔案 | 引用Paul Graham中文站 說:本人也是 Paul Graham 的粉絲,也看過你翻譯的黑客與畫家,但還是憑直覺認為 PG 不可能是Bayes filtering的發(fā)明者,你看看這個就知道了:/wiki/Bayesian_spam_filtering#History96年就有人發(fā)布

23、了。2011年8月28日 08:14 | 檔案 | 引用hyh 說:看這里, 96年就有人發(fā)明了Bayes Filtering, PG怎么可能是發(fā)明者。2011年8月28日 08:15 | 檔案 | 引用new4everlau 說:挺好的文章,我是來學習的!在第十一節(jié)上面倒數(shù)第二行有點表述錯誤,不過不影響閱讀!“將P(S|W1)記為P1,P(S|W1)記為P2,公式就變成”“將P(S|W1)記為P1,P(S|W2)記為P2,公式就變成”2011年8月28日 08:22 | 檔

24、案 | 引用阮一峰 說:3tgame:謝謝指出,已經(jīng)更正了。水人:對,是經(jīng)驗值。好在可以根據(jù)新收的郵件不斷調(diào)整。Allen:E1和E2是指后面三個事件同時發(fā)生,所以它們的和不等于1。hyh:Paul Graham發(fā)明的是現(xiàn)在這一套計算方法,大大提高了過濾效果,而不是發(fā)明用貝葉斯推斷過濾郵件的概念。2011年8月28日 08:24 | 檔案 | 引用阮一峰 說:引用Bill的發(fā)言:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)E1代表三個獨立事件同時發(fā)生,因此E1的概率是后面三個概率的乘積。

25、引用Bill的發(fā)言:2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說的,直覺是P(E1)+P(E2)=1如果P(E1)=P(S|W1W2),那么P(E1)+P(E2)確實等于1。但是,我們規(guī)定E1是三個事件同時發(fā)生,因此P(E1)等于P(W1)P(W2)P(S),所以它與P(E2)的和不會等于1。2011年8月28日 09:48 | 檔案 | 引用hyh 說:這類文章真有必要讓國內(nèi)媒體看看。南方周末、南都周刊上面全是垃圾評論,什么炒股賺錢之類。國人人海戰(zhàn)術(shù)的水平還蠻高的2011年8月28日 09:57 | 

26、檔案 | 引用天天向上 說:如果概率論老師能像這樣講些具體應用,我上課也不至于睡覺了2011年8月28日 14:36 | 檔案 | 引用fengyh 說:P1應該是P(W1|S)吧?2011年8月28日 15:15 | 檔案 | 引用mw3000 說:/article.pl?sid=11/08/06/147202貝葉斯定理以18世紀的長老教會牧師Thomas Bayes的名字命名,目的是為了解決一些本質(zhì)問題:當更多信

27、息涌入時我們?nèi)绾胃淖冃叛??是頑固的直到舊有假說完全站不住腳?還是在懷疑第一次出現(xiàn)后立即拋棄舊觀念?貝葉斯的推導已經(jīng)變成了無價的科學工具,它幫助我們一步步認清現(xiàn)實。也許人人都應該像貝葉斯那樣思考。貝葉斯理論的核心依賴于巧妙的轉(zhuǎn)變思路:如果你想評估根據(jù)證據(jù)提出的假說的有力程度,你必須先評估證據(jù)的有力程度。面對著不確定性,貝葉斯提出了三個問題:對最初樹立的信念的真實性我有多大的信心?如果對最初的信念堅信不疑,對新證據(jù)的準確性我有多大的信心?如果對最初的信念搖擺不定,對新證據(jù)的準確性我有多大的信心?大衛(wèi)·休謨就是一位貝葉斯主義者,他就是通過證據(jù)的可能性質(zhì)疑神跡的準確性。這一段話我沒有看得太懂

28、, 博主能不能幫解釋一下.2011年8月28日 16:34 | 檔案 | 引用cumirror 說:粗略看了一遍,很精彩的文章。2011年8月28日 17:13 | 檔案 | 引用呆子 說:第十步的推導建立在三個量的獨立性上,即P(S|W1)、P(S|W2)、P(S),或者說是這三者的相關(guān)性很小,可以忽略。但就在這樣的基礎上,我們得到了P(S)=P(S|W1)XP(S|W2)/(P(S|W1)XP(S|W2)+(1-P(S|W1)X(1-P(S|W2)然而這個關(guān)系式很清楚的給出了P(S|W1)、

29、P(S|W2)、P(S)三者的關(guān)系。這是不是讓我們很遺憾,盡管整個過程是沒有問題的,但我們覺得很別扭。由無關(guān)的假設,卻得到了真真切切的關(guān)系。而筆者似乎忘記了最簡單的計算P(S)的方法:P(S)=P(S|W1)XP(W1)+P(S|W2)XP(W2)+P(S|W3)XP(W3)+這里P(W1)P(W2)P(W3)是W1W2W3出現(xiàn)的頻率。而且這樣做是沒有理論上的缺陷的。是否可以考慮一下?2011年8月28日 18:57 | 檔案 | 引用清風劍 說:引用zc的發(fā)言:不怕漏,漏一點沒關(guān)系,怕被誤殺而且中文的是不是還要加語義分析?對,中文要分詞再做以

30、上步驟,但分詞就表明了你是怎么理解一個句子的,糾結(jié)。2011年8月28日 20:31 | 檔案 | 引用Bill 說: Mw3000:貝葉斯理論的核心依賴于巧妙的轉(zhuǎn)變思路:如果你想評估根據(jù)證據(jù)提出的假說的有力程度,你必須先評估證據(jù)的有力程度。面對著不確定性,貝葉斯提出了三個問題:對最初樹立的信念的真實性我有多大的信心? -> P(A)如果對最初的信念堅信不疑,對新證據(jù)的準確性我有多大的信心?-> P(B|A)如果對最初的信念搖擺不定,對新證據(jù)的準確性我有多大的信心?-> P(B)Bayesian Inference:P(A|B

31、)=P(A)*P(B|A)/P(B)該文揭示了公式中每一項的現(xiàn)實含義。謝謝分享,我一直在想公式里的每一項有什么直接樸素的內(nèi)涵,這三個問題回答了我的疑問。2011年8月28日 23:54 | 檔案 | 引用Chuan 說:請問有什么即有趣,又實用的概率論方面的書嗎?2011年8月29日 14:31 | 檔案 | 引用Michael.Z 說:越來越多的郵件采取圖片和附件的方式發(fā)送垃圾郵件。這方面的鑒別方法又是如何的?2011年8月29日 16:43 | 檔案 |

32、0;引用寧靜致遠 說:在華爾街的高頻交易系統(tǒng),70%的股票交易由計算機算法完成,而算法并不總是很可靠。2010年5月算法曾引起股市在短時間內(nèi)崩盤,它在20分鐘內(nèi)拋出了價值26億美元的股票,導致其它高頻交易算法跟隨,引發(fā)金融市場混亂。這種算法的推廣的結(jié)果是,下個5000天會產(chǎn)生60億個相當于人腦一樣復雜的機器在互聯(lián)網(wǎng)上.2011年8月29日 17:04 | 檔案 | 引用mw3000 說:Bill:謝謝你的解釋.2011年8月29日 19:54 | 檔案 | 引用I believe I can f

33、ly 說:不是很明白:P(S)=p(E1)/(P(E1)+P(E2)求解釋2011年9月 1日 21:10 | 檔案 | 引用Jin 說:引用Bill的發(fā)言:整個過程講的很清晰,謝謝阮大哥分享,不過,推導中有兩個地方我不太明白:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說的,直覺是P(E1)+P(E2)=1感覺推導跳過了幾步:P(S|W1 W2) = P(W1 W2|S)P(S) / (P(W1 W2|S)P(S) + P(W1 W2|S)P(S)W1,W2獨立:P(W1 W2) = P(W1)P(W2), P(W1 W2|S) = P(W1|S)P(W2|S) (?)上式 = P(W1|S)P(W2|S)P(S) / (P(W1|S)P(W2|S)P(S) + P(W1|S)P(W2|S)P(S)應用Bayesian 原理,將 P(Wi|S) 用 P(S|Wi) 表示:上式 = (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2) / (P(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論