第五章貝葉斯估計_第1頁
第五章貝葉斯估計_第2頁
第五章貝葉斯估計_第3頁
第五章貝葉斯估計_第4頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、實(shí)用標(biāo)準(zhǔn)文案第五章 貝葉斯統(tǒng)計5.1 簡介到目前為止, 我們已經(jīng)知道了大量的不同的概率模型,并且我們前面已經(jīng)討論了如何用它們?nèi)M合數(shù)據(jù)等等。前面我們討論了如何利用各種先驗(yàn)知識,計算MAP參數(shù)來估計 =argmaxp( |D) 。同樣的, 對于某種特定的請況,我們討論了如何計算后驗(yàn)的全概率p( |D) 和后驗(yàn)的預(yù)測概率密度 p(x|D) 。當(dāng)然在以后的章節(jié)我們會討論一般請況下的算法。5.2 總結(jié)后驗(yàn)分布后驗(yàn)分布總結(jié)關(guān)于未知變量的一切數(shù)值。在這一部分, 我們討論簡單的數(shù),這些數(shù)是可以通過一個概率分布得到的, 比如通過一個后驗(yàn)概率分布得到的數(shù)。與全面聯(lián)接相比, 這些統(tǒng)計匯總常常是比較容易理解和可視化

2、。5.2.1 最大后驗(yàn)估計通過計算后驗(yàn)的均值、中值、或者模型可以輕松地得到未知參數(shù)的點(diǎn)估計。在5.7 節(jié),我們將討論如何利用決策理論從這些模型中做出選擇。典型的后驗(yàn)概率均值或者中值是估計真實(shí)值的恰當(dāng)選擇,并且后驗(yàn)邊緣分布向量最適合離散數(shù)值。然而,由于簡化了優(yōu)化問題,算法更加高效,后驗(yàn)概率模型, 又名最大后驗(yàn)概率估計成為最受歡迎的模型。另外, 通過對先驗(yàn)知識的取對數(shù)來正則化后,最大后驗(yàn)概率可能被非貝葉斯方法解釋(詳情參考6.5 節(jié))。最大后驗(yàn)概率估計模型在計算方面該方法雖然很誘人,但是他有很多缺點(diǎn),下面簡答介紹一下。在這一章我們將更加全面的學(xué)習(xí)貝葉斯方法。圖 5.1 ( a)由雙峰演示得到的非典

3、型分布的雙峰分布,其中瘦高藍(lán)色豎線代表均值,因?yàn)樗咏蟾怕?,所以對分布有個比較好的概括。 (b) 由伽馬繪圖演示生成偏態(tài)分布,它與均值模型完全不同。5.2.1.1無法衡量不確定性最大后驗(yàn)估計的最大的缺點(diǎn)是對后驗(yàn)分布的均值或者中值的任何點(diǎn)估計都不能夠提供一個不確定性的衡量方法。在許多應(yīng)用中,知道給定估計值的置信度非常重要。我們在 5.22 節(jié)將討論給出后驗(yàn)估計置信度的衡量方法。5.2.1.2深耕最大后驗(yàn)估計可能產(chǎn)生過擬合在機(jī)器學(xué)習(xí)中,相比于解釋模型的參數(shù),我們能夠得到精確預(yù)測結(jié)果。然而, 如果我們不能衡量參數(shù)的不確定性, 那么可能過分信任預(yù)測的分布。在第三章我們介紹了幾個例子,之后還有更多這樣

4、的例子。 預(yù)測中的過度自信對于我們的風(fēng)險規(guī)避很成問題;在隨后的 5.7節(jié)我們將詳細(xì)介紹。5.2.1.3 模型是一個非典型的點(diǎn)由于現(xiàn)實(shí)模型常常是一個區(qū)別于均值或者中值的非典型分布,所以選擇一個模型來概括后驗(yàn)分布的效果往往很差。對于一個一維連續(xù)空間圖5.1 ( a)中很好的說明了這一點(diǎn)。該模型的一個根本問題在于它是一個 0-1 的測量值,而中值和均值是在空間體積上的考慮。圖5.1 ( b)給出了另一精彩文檔實(shí)用標(biāo)準(zhǔn)文案個例子: 圖中模型結(jié)果是0. 但是均值非零。這樣的偏態(tài)分布經(jīng)常在推斷方差參數(shù)時出現(xiàn),尤其是在分層模型中。在這樣的例子中,最大后驗(yàn)估計(最大似然估計例外)明顯的是一個非常不好的估計方法

5、。假如模型不是一個很好的選擇項,那么我們應(yīng)該如何概括后驗(yàn)概率呢?在5.7 節(jié)中討論的決策理論將會解答這一疑問。 其基本思想是指定一個損失函數(shù), 如果你對真實(shí)的的估計是 ? 那么損失函數(shù)為 L( , ? ) 。如果我們使用 0-1 損失 L( , ? ) = I( = ? ) ,那么最優(yōu)估計便是后驗(yàn)?zāi)P汀?0-1 損失意味著,如果沒有估計錯誤那么就是正確的,否則就是錯誤的。再這樣的損失函數(shù)下沒有所謂的“部分可信”!對于連續(xù)變量,我們偏好用誤差平方來表征損失函數(shù)即:L( ,? ) = ( -? )2 。對應(yīng)的最優(yōu)估計是后驗(yàn)均值,詳細(xì)參見5.7 節(jié)?;蛘撸覀兛梢允褂靡粋€更可靠地?fù)p失函數(shù):L( ,?

6、 ) = | -? | ,他考慮的是后驗(yàn)的中位數(shù)(中值) 。5.2.1.4最大后驗(yàn)估計不是做改變的重新參數(shù)化最大后驗(yàn)估計的一個更加微妙的是其結(jié)果依賴于概率模型的參數(shù)。從一個表達(dá)形式轉(zhuǎn)化為另一個等效的表達(dá)形式,例如測量單位的變化(長度的度量,我們可以用厘米也可以用英尺),其結(jié)果會變化,這是我們不希望看到的。為了更好地理解這一問題,假定我們要計算X的后驗(yàn),如果我們定義y= f(x),其中 y的分布為公式( 2.87 ),為方便描述抄寫如下公式5.1 :|Dx/dy| 項我們成為雅可比 ( Jacobian ), 他通過 f 來衡量單位體積大小的變化。 則 X的最大后驗(yàn)估計為 ? x = argma

7、xx px(x) 。通常情況下, f(x) 不是 y=argmaxypy(y). 舉個例子來說:xN(6,1),y=f(x),利用蒙特卡洛仿真能夠得到 y的分布 (見 2.7.1 節(jié)) 。其結(jié)果如圖 5.2. 我們看到原始的高斯分布已經(jīng)被非線性的 S曲線乘方。特別的指出的是,我們看到轉(zhuǎn)化后的分布模型不完全等同于原始模型的形式。圖 5.2在非線性轉(zhuǎn)換下的密度轉(zhuǎn)化形式示例。注意轉(zhuǎn)化后的分布函數(shù)與原始分布的區(qū)別。以練習(xí)1.4 為例( bishop 2006b)。圖形由方差的貝葉斯變化生成。為了了解最大后驗(yàn)估計中如何產(chǎn)生這一問題的,考慮如下例子。 伯努利分布是典型的均值參數(shù)精彩文檔實(shí)用標(biāo)準(zhǔn)文案化模型

8、, 所以, p(y = 1| ) = ,其中, y 0, 1。在每個單元間隔,假定我們有一個統(tǒng)一的先驗(yàn): p ( ) = 1 I(0 1) 。如果這里沒有數(shù)據(jù),那么最大后驗(yàn)估計僅僅是前驗(yàn)知識的模型,他們可以是在 0 、 1之間的任意值?,F(xiàn)在,我們開始介紹參數(shù)化的不同能夠在這一任意區(qū)間挑選出不同的點(diǎn)。首先,則新的先驗(yàn)為:因此,最大后驗(yàn)估計依賴于參數(shù)化。因?yàn)樗迫欢仁且粋€函數(shù)而不是概率密度,所以最大似然估計與參數(shù)無關(guān)。 貝葉斯推斷也不受參數(shù)化的影響,因?yàn)樨惾~斯推斷在整合參數(shù)空間的時候已經(jīng)考慮了度量方面變化。解決上述問題的一個方法是最優(yōu)化下面的目標(biāo)函數(shù):I()是與 P有關(guān)的費(fèi)舍爾信息矩陣(參見 6.2

9、.2 節(jié))。這個估計參數(shù)是獨(dú)立的,原因參見 (Jermyn2005 ;。不幸運(yùn)的是,優(yōu)化方程常常很復(fù)雜,這很大限度上降低了該方法的吸引力。5.2.2置信區(qū)間除了點(diǎn)估計,我們經(jīng)常想得到可信度的度量。一個標(biāo)準(zhǔn)的可信度度量形式是數(shù)據(jù)theta 的后驗(yàn)分布的寬度。我們可以利用置信區(qū)間100(1- )%度量,就是說,在C = (l, u),區(qū)域中包括 1 的后驗(yàn)概率的量。這里可能有許多這樣的區(qū)間,所以我們選擇區(qū)域是(1 - )/2 ,位于分布尾端的區(qū)間,并把他稱為置信區(qū)間。圖 5.3( a)中心區(qū)域和( b)HPD區(qū)域的 beta( 3,9 )檢驗(yàn)。置信區(qū)間是( 0.06,0.52)和 HPD是( 0.

10、04,0.48)。精彩文檔實(shí)用標(biāo)準(zhǔn)文案上圖是在圖3.6 的基礎(chǔ)上,利用betaHPD生成的。如果后驗(yàn)是已知的函數(shù)形式,我們可以利用l= F -1( /2) and u = F-1(1 - /2),計算后驗(yàn)分布的中心區(qū)間,F 為后驗(yàn)分布的累計密度曲線。例如,如果后驗(yàn)是高斯分布,5.2.2.1后驗(yàn)密度最高的區(qū)域中心區(qū)間的存在的一個問題是很有可能這里有一個點(diǎn)它的概率密度很高但是不在置信區(qū)間。圖5.3 中處于左側(cè)置信區(qū)間外的點(diǎn)比剛剛好處于右側(cè)區(qū)間的點(diǎn)的概率密度高很多。這便促使了一個替代變量,稱之為最高的后驗(yàn)概率密度或者最高的后驗(yàn)概率密度區(qū)間。這被定義為(一組)最可能的點(diǎn),這是總的概率的100( 1-

11、)%。更正式的,我們發(fā)現(xiàn)概率分布函數(shù)閾值P為:并且定義 HPD區(qū)域?yàn)椋涸?ld ,最大概率密度區(qū)間有時候被稱作最高密度區(qū)間或者HDI。例如,圖 5.3 ( b)表明 BETA的 95%的 HDI是( 0.04,0.48 )。我們看到這個區(qū)間比置信區(qū)間狹窄,但即使這樣,他依然包含了總量的95%;而且,區(qū)間內(nèi)的每一點(diǎn)都比區(qū)間外的概率密度高。對于單峰分布,最大密度區(qū)間將是包含總量95%的最狹窄的區(qū)間。為了看到這個,想想“充水”的反過程,直到全部的95%顯示出來,只剩下5%被淹沒在水下。在Id 情況下,方便計算使用簡單的算法:用最小的寬度簡單的搜索滿足包含總量的95%的區(qū)間。如果我們知道累計分布曲線的

12、,這個可以通過數(shù)值最優(yōu)化來實(shí)現(xiàn)?;蛘呷绻覀冇写罅繕颖荆◤腷etaHPD圖形表示),通過搜索排序的數(shù)據(jù)點(diǎn)。如果后驗(yàn)是多峰的分布,最大概率密度區(qū)間可能不是一個連續(xù)的區(qū)域:例如見圖5.4 ( b)。然而,總結(jié)概括多峰后驗(yàn)經(jīng)常是很難的。5.2.3 不同比例的推斷有時候我們有多個參數(shù),并且想利用這些參數(shù)計算出一些函數(shù)的后驗(yàn)概率分布。例如,假如你要從亞馬遜上買東西,并且有兩個售貨商提供相同的價格。售貨商1有 90的正面評論, 10個反面評論。售貨商 2有兩條正面評論0條負(fù)面評論。那你想要買誰的?表面上看,我們應(yīng)該選擇銷售商2,但是我們不能非常確信銷售商2一定比 1好,因?yàn)樗脑u論太少了。在這一方面, 我

13、們構(gòu)筑貝葉斯方法來分析這個問題。相似的方法可以用來比較不同設(shè)置下的群體比例或比率。精彩文檔實(shí)用標(biāo)準(zhǔn)文案假定 theta1 和 theta2 是可靠度未知的兩個銷售商。因?yàn)槲覀儾涣私馑麄兏嗟男畔ⅲ覀冑x予他們統(tǒng)一的先驗(yàn)分布i Beta(1, 1).后驗(yàn)概率是p( 1|D1)= eta(91, 11)和 p( 2|D2) =Beta(3, 1).我們想要計算 p( 1 2|D). 為方便起見, 定義 = 1 - 2為比率方面的不同 (另外,我們不妨想)利用數(shù)值積分,我們可以計算期望值:我們發(fā)現(xiàn) p( 0|D) = 0.710,這表明你應(yīng)該從銷售商1哪里買。代碼參見amazonsellerDemo

14、 。一個簡單的解決方法是利用蒙特卡洛采樣得到近似的后驗(yàn)概率。這是容易的,因?yàn)閠heta1 和theta2 在后驗(yàn)概率分布中是相互獨(dú)立的,并且兩者都有beta 分布,這樣就可以利用標(biāo)準(zhǔn)方法來采樣。p( i|Di)的分布如圖5.5(b)。通過計算 theta1 大于 theta2 的部分能夠得到一個p( 0|D)的近似值;結(jié)果是0.718 ,非常接近真實(shí)值。圖 5.5 ( a)確切的后驗(yàn)概率分布 p( i|Di).( b)蒙特卡洛近似 p( |D). 我們運(yùn)用核密度估計得到一個平滑曲線。垂直線圍住的是中間95%的區(qū)間。5.3貝葉斯模型選擇在圖 1.18 中,我們知道使用過高的多項式導(dǎo)致過擬合,使用

15、過低的多項式又導(dǎo)致欠擬合的發(fā)生。相似的,在圖 7.8 ( a)中,我們知道使用太小的正則化參數(shù)導(dǎo)致過擬合,使用太大的參數(shù)又導(dǎo)致欠擬合。通常情況,當(dāng)面對一系列不同復(fù)雜性的模型時(相似的參數(shù)化分布),怎樣才能選擇一個最好的呢?這樣一個難題稱為模型選擇問題。一個方法是利用交叉驗(yàn)證的方法去估計所有候選模型的泛化誤差,然后挑選一個看起來最好的。然而,這需要對每個模型擬合 K次,其中, K是訓(xùn)練集交叉驗(yàn)證的次數(shù)。 一個更加高效的方法是計算關(guān)于模型的后驗(yàn)概率分布通過上式,我們可以容易的計算出最大后驗(yàn)估計模型,稱為貝葉斯模型選擇。如果我們在模型中使用了統(tǒng)一的先驗(yàn),p(m) 1, 這相當(dāng)于挑選模型中的最大值對于

16、模型 M,這個數(shù)被稱為邊際似然度,集成的似然度或者證據(jù)。在 5.3.2 中將要詳細(xì)的介紹如何精彩文檔實(shí)用標(biāo)準(zhǔn)文案操作這個積分。但是首先我們要給出這個值的直觀解釋。我們發(fā)現(xiàn)beginequationlabel? p( theta|D) = 0.710endequation這表明你應(yīng)該從銷售商1哪里買。 代碼參見 amazonsellerDemo 。 一個簡單的解決方法是利用蒙特卡洛采樣得到近似的后驗(yàn)概率。這是容易的, 因?yàn)?theta1 和 theta2 在后驗(yàn)概率分布中是相互獨(dú)立的,并且兩者都有beta 分布,這樣就可以利用標(biāo)準(zhǔn)方法來采樣。p(thetai|Di)的分布如圖 5.5( b)。通

17、過計算theta1大于 theta2 的部分能夠得到一個p(delta theta|D)的近似值;結(jié)果是 0.718 ,非常接近真實(shí)值。beginfigurecentering% Requires usepackagegraphicx includegraphicswidth=0.8textwidthfig10 %captionlabelfig:1endfigure圖 5.5 ( a)確切的后驗(yàn)概率分布 p( i|Di).( b)蒙特卡洛近似 p( |D). 我們運(yùn)用核密度估計得到一個平滑曲線。垂直線圍住的是中間95%的區(qū)間。section*5.3貝葉斯模型選擇paragraph 在圖 1.1

18、8 中,我們知道使用過高的多項式導(dǎo)致過擬合,使用過低的多項式又導(dǎo)致欠擬合的發(fā)生。相似的,在圖 7.8 ( a)中,我們知道使用太小的正則化參數(shù)導(dǎo)致過擬合,使用太大的參數(shù)又導(dǎo)致欠擬合。通常情況,當(dāng)面對一系列不同復(fù)雜性的模型時(相似的參數(shù)化分布),怎樣才能選擇一個最好的呢?這樣一個難題稱為模型選擇問題。一個方法是利用交叉驗(yàn)證的方法去估計所有候選模型的泛化誤差,然后挑選一個看起來最好的。然而,這需要對每個模型擬合K次,其中,K是訓(xùn)練集交叉驗(yàn)證的次數(shù)。一個更加高效的方法是計算關(guān)于模型的后驗(yàn)概率分布。beginfigurecentering% Requires usepackagegraphicxincludegraphicswidth=0.8textwidthfig11%captionlabelfig:1endfigure通過上式,我們可以容易的計算出最大后驗(yàn)估計模型beginequat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論