2024貝葉斯算法講義_第1頁
2024貝葉斯算法講義_第2頁
2024貝葉斯算法講義_第3頁
2024貝葉斯算法講義_第4頁
2024貝葉斯算法講義_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

貝葉斯算法講義貝葉斯貝葉斯貝葉斯簡介:貝葉斯(約1701-1761)ThomasBayes,英國數(shù)學(xué)家貝葉斯方法源于他生前為解決一個“逆概”問題寫的一篇文章生不逢時,死后它的作品才被世人認(rèn)可貝葉斯要解決的問題:正向概率:假設(shè)袋子里面有N個白球,M個黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大逆向概率:如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顏色之后,那么我們可以就此對袋子里面的黑白球的比例作出什么樣的推測Why貝葉斯?現(xiàn)實(shí)世界本身就是不確定的,人類的觀察能力是有局限性的我們?nèi)粘K^察到的只是事物表面上的結(jié)果,因此我們需要提供一個猜測貝葉斯貝葉斯男生總是穿長褲,女生則一半穿長褲一半穿裙子正向概率:隨機(jī)選取一個學(xué)生,他(她)穿長褲的概率和穿裙子的概率是多大逆向概率:迎面走來一個穿長褲的學(xué)生,你只看得見他(她)貝葉斯貝葉斯假設(shè)學(xué)校里面人的總數(shù)是U個穿長褲的(男生):U*P(Boy)*P(Pants|Boy)P(Boy)是男生的概率=60%P(Pants|Boy)是條件概率,即在Boy這個條件下穿長褲的概率是多大,這里是100%,因?yàn)樗心猩即╅L褲穿長褲的(女生):U*P(Girl)*P(Pants|Girl)求解:穿長褲的人里面有多少女生穿長褲總數(shù):U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)P(Girl|Pants)=U*P(Girl)*P(Pants|Girl)/穿長褲總數(shù)U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)]與總?cè)藬?shù)有關(guān)嗎?U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)容易發(fā)現(xiàn)這里校園內(nèi)人的總數(shù)是無關(guān)的,可以消去P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]化簡:P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]分母其實(shí)就是P(Pants)分子其實(shí)就是P(Pants,Girl)貝葉斯公式拼寫糾正實(shí)例:問題是我們看到用戶輸入了一個不在字典中的單詞,我們需要去猜測:“這個家伙到底真正想輸入的單詞是什么呢?P(我們猜測他想輸入的單詞|他實(shí)際輸入的單詞)用戶實(shí)際輸入的單詞記為D(D代表Data,即觀測數(shù)據(jù))猜測1:P(h1|D),猜測2:P(h2|D),猜測3:P(h1|D)。。。統(tǒng)一為:P(h|D)P(h|D)=P(h)*P(D|h)/P(D)用戶實(shí)際輸入的單詞記為D(D代表Data,即觀測數(shù)據(jù))對于不同的具體猜測h1h2h3..,P(D)都是一樣的,所以在比較P(h1|D)和P(h2|D)的時候我們可以忽略這個常數(shù)P(h|D)∝P(h)*P(D|h)對于給定觀測數(shù)據(jù),一個猜測是好是壞,取決于“這個猜測本身獨(dú)立的可能性大?。ㄏ闰?yàn)概率,Prior)”和“這個猜測生成我們觀測到的數(shù)據(jù)的可能性大小。用戶實(shí)際輸入的單詞記為D(D代表Data,即觀測數(shù)據(jù))對于不同的具體猜測h1h2h3..,P(D)都是一樣的,所以在比較P(h1|D)和P(h2|D)的時候我們可以忽略這個常數(shù)P(h|D)∝P(h)*P(D|h)對于給定觀測數(shù)據(jù),一個猜測是好是壞,取決于“這個猜測本身獨(dú)立的可能性大?。ㄏ闰?yàn)概率,Prior)”和“這個猜測生成我們觀測到的數(shù)據(jù)的可能性大小。拼寫糾正實(shí)例:貝葉斯方法計(jì)算:P(h)*P(D|h),P(h)是特定猜測的先驗(yàn)概率比如用戶輸入tlp,那到底是top還是tip?這個時候,當(dāng)最大似然不能作出決定性的判斷時,先驗(yàn)概率就可以插手進(jìn)來給出指示——“既然你無法決定,那么我告訴你,一般來說top出現(xiàn)的程度要高許多,所以更可能他想打的是top”模型比較理論最大似然:最符合觀測數(shù)據(jù)的(即P(D|h)最大的)最有優(yōu)勢奧卡姆剃刀:P(h)較大的模型有較大的優(yōu)勢擲一個硬幣,觀察到的是“正”,根據(jù)最大似然估計(jì)的精神,我們應(yīng)該猜測這枚硬幣擲出“正”的概率是1,因?yàn)檫@個才是能最大化P(D|h)的那個猜測模型比較理論如果平面上有N個點(diǎn),近似構(gòu)成一條直線,但絕不精確地位于一條直線上。這時我們既可以用直線來擬合(模型1),也可以用二階多項(xiàng)式(模型2)擬合,也可以用三階多項(xiàng)式(模型3),特別地,用N-1階多項(xiàng)式便能夠保證肯定能完美通過N個數(shù)據(jù)點(diǎn)。那么,這些可能的模型之中到底哪個是最靠譜的呢?奧卡姆剃刀:越是高階的多項(xiàng)式越是不常見垃圾郵件過濾實(shí)例:問題:給定一封郵件,判定它是否屬于垃圾郵件D來表示這封郵件,注意D由N個單詞組成。我們用h+來表示垃圾郵件,h-表示正常郵件P(h+|D)=P(h+)*P(D|h+)/P(D)P(h-|D)=P(h-)*P(D|h-)/P(D)垃圾郵件過濾實(shí)例:先驗(yàn)概率:P(h+)和P(h-)這兩個先驗(yàn)概率都是很容易求出來的,只需要計(jì)算一個郵件庫里面垃圾郵件和正常郵件的比例就行了。D里面含有N個單詞d1,d2,d3,P(D|h+)=P(d1,d2,..,dn|h+)P(d1,d2,..,dn|h+)就是說在垃圾郵件當(dāng)中出現(xiàn)跟我們目前這封郵件一模一樣的一封郵件的概率是多大!P(d1,d2,..,dn|h+)擴(kuò)展為:P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..垃圾郵件過濾實(shí)例:P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..假設(shè)d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論