通俗地理解貝葉斯公式(定理)_第1頁
通俗地理解貝葉斯公式(定理)_第2頁
通俗地理解貝葉斯公式(定理)_第3頁
通俗地理解貝葉斯公式(定理)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

通俗地理解貝葉斯公式(定理)樸素貝葉斯(NaiveBayesianalgorithm)是有監(jiān)督學(xué)習(xí)的一種分類算法,它基于“貝葉斯定理”實現(xiàn),該原理的提出人是英國著名數(shù)學(xué)家托馬斯·貝葉斯。貝葉斯定理是基于概率論和統(tǒng)計學(xué)的相關(guān)知識實現(xiàn)的,因此在正式學(xué)習(xí)“樸素貝葉斯算法”前,我們有必要先認識“貝葉斯定理”。貝葉斯定理貝葉斯定理的發(fā)明者

托馬斯·貝葉斯

提出了一個很有意思的假設(shè):“如果一個袋子中共有10個球,分別是黑球和白球,但是我們不知道它們之間的比例是怎么樣的,現(xiàn)在,僅通過摸出的球的顏色,是否能判斷出袋子里面黑白球的比例?”上述問題可能與我們高中時期所接受的的概率有所沖突,因為你所接觸的概率問題可能是這樣的:“一個袋子里面有10個球,其中4個黑球,6個白球,如果你隨機抓取一個球,那么是黑球的概率是多少?”毫無疑問,答案是0.4。這個問題非常簡單,因為我們事先知道了袋子里面黑球和白球的比例,所以很容易算出摸一個球的概率,但是在某些復(fù)雜情況下,我們無法得知“比例”,此時就引出了貝葉斯提出的問題。在統(tǒng)計學(xué)中有兩個較大的分支:一個是“頻率”,另一個便是“貝葉斯”,它們都有各自龐大的知識體系,而“貝葉斯”主要利用了“相關(guān)性”一詞。下面以通俗易懂的方式描述一下“貝葉斯定理”:通常,事件A在事件B發(fā)生的條件下與事件B在事件A發(fā)生的條件下,它們兩者的概率并不相同,但是它們兩者之間存在一定的相關(guān)性,并具有以下公式(稱之為“貝葉斯公式”):看到上述公式,你可能一頭霧水,不過不必慌張,下面我們來了解一下“貝葉斯”公式。符號意義首先我們要了解上述公式中符號的意義:P(A)這是概率中最基本的符號,表示A出現(xiàn)的概率。比如在投擲骰子時,P(2)指的是骰子出現(xiàn)數(shù)字“2”的概率,這個概率是六分之一。P(B|A)是條件概率的符號,表示事件A

發(fā)生的條件下,事件B

發(fā)生的概率,條件概率是“貝葉斯公式”的關(guān)鍵所在,它也被稱為“似然度”。P(A|B)是條件概率的符號,表示事件B

發(fā)生的條件下,事件A發(fā)生的概率,這個計算結(jié)果也被稱為“后驗概率”。有上述描述可知,貝葉斯公式可以預(yù)測事件發(fā)生的概率,兩個本來相互獨立的事件,發(fā)生了某種“相關(guān)性”,此時就可以通過“貝葉斯公式”實現(xiàn)預(yù)測。條件概率條件概率是“貝葉斯公式”的關(guān)鍵所在,那么如何理解條件概率呢?其實我們可以從“相關(guān)性”這一詞語出發(fā)。舉一個簡單的例子,比如小明和小紅是同班同學(xué),他們各自準時回家的概率是P(小明回家)=1/2和P(小紅回家)=1/2,但是假如小明和小紅是好朋友,每天都會一起回家,那么P(小紅回家|小明回家)=1(理想狀態(tài)下)。上述示例就是條件概率的應(yīng)用,小紅和小明之間產(chǎn)生了某種關(guān)聯(lián)性,本來倆個相互獨立的事件,變得不再獨立。但是還有一種情況,比如小亮每天準時到家P(小亮回家)=1/2,但是小亮喜歡獨來獨往,如果問P(小亮回家|小紅回家)的概率是多少呢?你會發(fā)現(xiàn)這兩者之間不存在“相關(guān)性”,小紅是否到家,不會影響小亮的概率結(jié)果,因此小亮準時到家的概率仍然是1/2。貝葉斯公式的核心是“條件概率”,譬如P(B|A),就表示當A發(fā)生時,B發(fā)生的概率,如果P(B|A)的值越大,說明一旦發(fā)生了A,B就越可能發(fā)生。兩者可能存在較高的相關(guān)性。先驗概率在貝葉斯看來,世界并非靜止不動的,而是動態(tài)和相對的,他希望利用已知經(jīng)驗來進行判斷,那么如何用經(jīng)驗進行判斷呢?這里就必須要提到“先驗”和“后驗”這兩個詞語。我們先講解“先驗”,其實“先驗”就相當于“未卜先知”,在事情即將發(fā)生之前,做一個概率預(yù)判。比如從遠處駛來了一輛車,是轎車的概率是45%,是貨車的概率是35%,是大客車的概率是20%,在你沒有看清之前基本靠猜,此時,我們把這個概率就叫做“先驗概率”。后驗概率在理解了“先驗概率”的基礎(chǔ)上,我們來研究一下什么是“后驗概率?”我們知道每一個事物都有自己的特征,比如前面所說的轎車、貨車、客車,它們都有著各自不同的特征,距離過遠的時候,我們無法用肉眼分辨,而當距離達到一定范圍內(nèi)就可以根據(jù)各自的特征再次做出概率預(yù)判,這就是后驗概率。比如轎車的速度相比于另外兩者更快可以記做P(轎車|速度快)=55%,而客車體型可能更大,可以記做P(客車|體型大)=35%。如果用條件概率來表述P(體型大|客車)=35%,這種通過“車輛類別”推算出“類別特征”發(fā)生的的概率的方法叫作“似然度”。這里的似然就是“可能性”的意思。樸素+貝葉斯了解完上述概念,你可能對貝葉斯定理有了一個基本的認識,實際上貝葉斯定理就是求解后驗概率的過程,而核心方法是通過似然度預(yù)測后驗概率,通過不斷提高似然度,自然也就達到了提高后驗概率的目的。我們知道“樸素貝葉斯算法”由兩個詞語組成。樸素(native)是用來修飾“貝葉斯”這個名詞的。按照中文的理解“樸素”意味著簡單不奢華。樸素的英文是“native”,意味著“單純天真”。樸素

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論