2024貝葉斯算法講義

上傳人：1*** IP屬地：山西上傳時間：2024-09-23 格式：DOCX 頁數(shù)：20 大?。?41.46KB 積分：8.4 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

貝葉斯算法講義貝葉斯貝葉斯貝葉斯簡介：貝葉斯(約1701-1761)ThomasBayes，英國數(shù)學(xué)家貝葉斯方法源于他生前為解決一個“逆概”問題寫的一篇文章生不逢時，死后它的作品才被世人認(rèn)可貝葉斯要解決的問題：正向概率：假設(shè)袋子里面有N個白球，M個黑球，你伸手進(jìn)去摸一把，摸出黑球的概率是多大逆向概率：如果我們事先并不知道袋子里面黑白球的比例，而是閉著眼睛摸出一個（或好幾個）球，觀察這些取出來的球的顏色之后，那么我們可以就此對袋子里面的黑白球的比例作出什么樣的推測Why貝葉斯？現(xiàn)實(shí)世界本身就是不確定的，人類的觀察能力是有局限性的我們?nèi)粘Ｋ^察到的只是事物表面上的結(jié)果，因此我們需要提供一個猜測貝葉斯貝葉斯男生總是穿長褲，女生則一半穿長褲一半穿裙子正向概率：隨機(jī)選取一個學(xué)生，他（她）穿長褲的概率和穿裙子的概率是多大逆向概率：迎面走來一個穿長褲的學(xué)生，你只看得見他（她）貝葉斯貝葉斯假設(shè)學(xué)校里面人的總數(shù)是U個穿長褲的（男生）：U*P(Boy)*P(Pants|Boy)P(Boy)是男生的概率=60%P(Pants|Boy)是條件概率，即在Boy這個條件下穿長褲的概率是多大，這里是100%，因?yàn)樗心猩即╅L褲穿長褲的（女生）：U*P(Girl)*P(Pants|Girl)求解：穿長褲的人里面有多少女生穿長褲總數(shù)：U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)P(Girl|Pants)=U*P(Girl)*P(Pants|Girl)/穿長褲總數(shù)U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)]與總?cè)藬?shù)有關(guān)嗎？U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)容易發(fā)現(xiàn)這里校園內(nèi)人的總數(shù)是無關(guān)的，可以消去P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]化簡：P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]分母其實(shí)就是P(Pants)分子其實(shí)就是P(Pants,Girl)貝葉斯公式拼寫糾正實(shí)例：問題是我們看到用戶輸入了一個不在字典中的單詞，我們需要去猜測：“這個家伙到底真正想輸入的單詞是什么呢？P(我們猜測他想輸入的單詞|他實(shí)際輸入的單詞)用戶實(shí)際輸入的單詞記為D（D代表Data，即觀測數(shù)據(jù)）猜測1：P(h1|D)，猜測2：P(h2|D)，猜測3：P(h1|D)。。。統(tǒng)一為：P(h|D)P(h|D)=P(h)*P(D|h)/P(D)用戶實(shí)際輸入的單詞記為D（D代表Data，即觀測數(shù)據(jù)）對于不同的具體猜測h1h2h3..，P(D)都是一樣的，所以在比較P(h1|D)和P(h2|D)的時候我們可以忽略這個常數(shù)P(h|D)∝P(h)*P(D|h)對于給定觀測數(shù)據(jù)，一個猜測是好是壞，取決于“這個猜測本身獨(dú)立的可能性大?。ㄏ闰?yàn)概率，Prior）”和“這個猜測生成我們觀測到的數(shù)據(jù)的可能性大小。用戶實(shí)際輸入的單詞記為D（D代表Data，即觀測數(shù)據(jù)）對于不同的具體猜測h1h2h3..，P(D)都是一樣的，所以在比較P(h1|D)和P(h2|D)的時候我們可以忽略這個常數(shù)P(h|D)∝P(h)*P(D|h)對于給定觀測數(shù)據(jù)，一個猜測是好是壞，取決于“這個猜測本身獨(dú)立的可能性大?。ㄏ闰?yàn)概率，Prior）”和“這個猜測生成我們觀測到的數(shù)據(jù)的可能性大小。拼寫糾正實(shí)例：貝葉斯方法計(jì)算：P(h)*P(D|h)，P(h)是特定猜測的先驗(yàn)概率比如用戶輸入tlp，那到底是top還是tip？這個時候，當(dāng)最大似然不能作出決定性的判斷時，先驗(yàn)概率就可以插手進(jìn)來給出指示——“既然你無法決定，那么我告訴你，一般來說top出現(xiàn)的程度要高許多，所以更可能他想打的是top”模型比較理論最大似然：最符合觀測數(shù)據(jù)的（即P(D|h)最大的）最有優(yōu)勢奧卡姆剃刀：P(h)較大的模型有較大的優(yōu)勢擲一個硬幣，觀察到的是“正”，根據(jù)最大似然估計(jì)的精神，我們應(yīng)該猜測這枚硬幣擲出“正”的概率是1，因?yàn)檫@個才是能最大化P(D|h)的那個猜測模型比較理論如果平面上有N個點(diǎn)，近似構(gòu)成一條直線，但絕不精確地位于一條直線上。這時我們既可以用直線來擬合（模型1），也可以用二階多項(xiàng)式（模型2）擬合，也可以用三階多項(xiàng)式（模型3），特別地，用N-1階多項(xiàng)式便能夠保證肯定能完美通過N個數(shù)據(jù)點(diǎn)。那么，這些可能的模型之中到底哪個是最靠譜的呢？奧卡姆剃刀：越是高階的多項(xiàng)式越是不常見垃圾郵件過濾實(shí)例：問題：給定一封郵件，判定它是否屬于垃圾郵件D來表示這封郵件，注意D由N個單詞組成。我們用h+來表示垃圾郵件，h-表示正常郵件P(h+|D)=P(h+)*P(D|h+)/P(D)P(h-|D)=P(h-)*P(D|h-)/P(D)垃圾郵件過濾實(shí)例：先驗(yàn)概率：P(h+)和P(h-)這兩個先驗(yàn)概率都是很容易求出來的，只需要計(jì)算一個郵件庫里面垃圾郵件和正常郵件的比例就行了。D里面含有N個單詞d1,d2,d3，P(D|h+)=P(d1,d2,..,dn|h+)P(d1,d2,..,dn|h+)就是說在垃圾郵件當(dāng)中出現(xiàn)跟我們目前這封郵件一模一樣的一封郵件的概率是多大！P(d1,d2,..,dn|h+)擴(kuò)展為：P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..垃圾郵件過濾實(shí)例：P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..假設(shè)d

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024貝葉斯算法講義

文檔簡介

溫馨提示

最新文檔

評論

2024貝葉斯算法講義

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔