貝葉斯推理課件_第1頁
貝葉斯推理課件_第2頁
貝葉斯推理課件_第3頁
貝葉斯推理課件_第4頁
貝葉斯推理課件_第5頁
已閱讀5頁,還剩87頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Chp11:貝葉斯推斷內容:

貝葉斯觀點和貝葉斯方法貝葉斯推斷vs.頻率推斷1Chp11:貝葉斯推斷內容:1貝葉斯觀點和貝葉斯方法從頻率到信念2貝葉斯觀點和貝葉斯方法從頻率到信念2頻率學派的觀點到目前為止我們講述的都是頻率(經典的)統(tǒng)計學概率指的是相對頻率,是真實世界的客觀屬性。參數是固定的未知常數。由于參數不會波動,因此不能對其進行概率描述。統(tǒng)計過程應該具有定義良好的頻率穩(wěn)定性。如:一個95%的置信區(qū)間應覆蓋參數真實值至少95%的頻率。統(tǒng)計學更多關注頻率推斷3頻率學派的觀點到目前為止我們講述的都是頻率(經典的)統(tǒng)計學統(tǒng)貝葉斯學派的觀點貝葉斯推斷采取了另外一個不同的立場:概率描述的是主觀信念的程度,而不是頻率。這樣除了對從隨機變化產生的數據進行概率描述外,我們還可以對其他事物進行概率描述??梢詫Ω鱾€參數進行概率描述,即使它們是固定的常數。為參數生成一個概率分布來對它們進行推導,點估計和區(qū)間估計可以從這些分布得到機器學習和數據挖掘更偏愛貝葉斯推斷4貝葉斯學派的觀點貝葉斯推斷采取了另外一個不同的立場:機器學習貝葉斯方法貝葉斯推斷的基本步驟如下:選擇一個概率密度函數,用來表示在取得數據之前我們對某個參數的信念。我們稱之為先驗分布。選擇一個模型(在參數推斷一章記為)來反映在給定參數情況下我們對x的信念。當得到數據X1,X2,…Xn

后,我們更新我們的信念并且計算后驗分布。從后驗分布中得到點估計和區(qū)間估計。5貝葉斯方法貝葉斯推斷的基本步驟如下:5回憶貝葉斯規(guī)則亦稱貝葉斯定理條件概率利用貝葉斯規(guī)則將數據和參數的分布聯合起來6回憶貝葉斯規(guī)則亦稱貝葉斯定理6似然函數假設我們有n個IID觀測,記為,產生的數據為,記為,我們用如下公式替代現在似然函數真正解釋為給定參數下數據的概率7似然函數假設我們有n個IID觀測后驗概率因此后驗概率為其中被稱為歸一化常數(normalizingconstant)。該常數經常被忽略,因為我們關心的主要是參數的不同值之間的比較。所以也就是說,后驗和似然函數與先驗的乘積成正比8后驗概率因此后驗概率為8貝葉斯點估計后驗的均值是一個常用的點估計L2損失下的貝葉斯規(guī)則極大后驗估計(maximumaposteriori,MAP)是使后驗最大的的值:是另一個常用的點估計0-1損失下的貝葉斯規(guī)則9貝葉斯點估計后驗的均值9貝葉斯置信區(qū)間估計為了得到貝葉斯區(qū)間估計,我們需找到a和b,使得令因此C稱為后驗區(qū)間。注意:在多次試驗中,并不保證θ在(1?α)100%的次數會落在后驗區(qū)間內。事實上,在復雜的高維模型中,當樣本數很少時,覆蓋概率可能接近于0。注意:是隨機的10貝葉斯置信區(qū)間估計為了得到貝葉斯區(qū)間估計,我們需找到a和b,例:BernoulliI令,假設先驗為均勻分布,根據貝葉斯公式,后驗為其中為成功的次數。11例:BernoulliI令例:BernoulliI為了得到后驗的均值,我們必須計算在這個例子中可以解析計算。后驗恰好為Beta分布其中參數,,均值為12例:BernoulliI為了得到后驗的均值,我們必須計算1例:BernoulliIp的極大似然估計為,為無偏估計。貝葉斯估計還可以寫成其中為先驗的均值,13例:BernoulliIp的極大似然估計為例:BernoulliII現在假設先驗不是均勻分布,而是則后驗為Beta分布,參數為和,即后驗的均值為其中為先驗的均值。先驗和后驗為相同的分布族:共軛如例子中的Beta分布14例:BernoulliII現在假設先驗不是均勻分布,而是例:正態(tài)分布令,為簡單起見,假設已知,并假設先驗為

對θ而言為常數對θ而言為常數15例:正態(tài)分布令例:正態(tài)分布將二者相乘,去掉一些常數項,最后得到一個正態(tài)分布形式的核最后,θ的后驗為其中為MLE的標準誤差。16例:正態(tài)分布將二者相乘,去掉一些常數項,最后得到一個正態(tài)分布例:正態(tài)分布當時,,當n很大時,后驗近似為當n固定而時,對應先驗趨近于均勻分布,上述結論也成立17例:正態(tài)分布當時,例:正態(tài)分布計算后驗區(qū)間,使得所以且因此,由于,所以最后95%的貝葉斯后驗區(qū)間為由于,,也可用近似,同頻率置信區(qū)間18例:正態(tài)分布計算后驗區(qū)間參數的函數問題:已知的貝葉斯后驗分布為,求的后驗分布兩種方法:利用CDF的定義,先求的CDF,然后求后驗密度,其中CDF為

仿真/模擬方法19參數的函數問題:已知的貝葉斯后驗分布為仿真

(Simulation)可以通過仿真而不是解析計算來得到點估計和區(qū)間估計。假設我們抽取樣本則的直方圖可以近似后驗密度后驗的均值近似為后驗的

置信區(qū)間為,其中為樣本的樣本分位數(quantile)一旦從中抽取樣本,令則為來自。這樣避免了解析計算但仿真可能很復雜/困難20仿真

(Simulation)可以通過仿真而不是解析計算來得例:Bernoullil

抽樣:令則為的IID,用直方圖方法可以估計21例:Bernoullil

抽樣:21MLE和貝葉斯令為的極大似然估計,標準誤差為在合適的正則條件下,后驗均值的漸近分布為也就是說,另外,若為漸近頻率的置信區(qū)間,則也是貝葉斯后驗的區(qū)間:22MLE和貝葉斯令為的極大似然估計,標準誤差為2MLE和貝葉斯

定義則分別展開23MLE和貝葉斯分別展開23MLE和貝葉斯將先驗也展開I0為先驗中θ的信息m0最大化f(θ)24MLE和貝葉斯將先驗也展開I0為先驗中θ的信息24MLE和貝葉斯定義結合展開,得到25MLE和貝葉斯定義25MLE和貝葉斯后驗簡化為結論:當n相對參數數目很大時,如果先驗符合真正的知識,則貝葉斯區(qū)間和頻率區(qū)間相同。當數據越多時,先驗的影響越弱。26MLE和貝葉斯后驗簡化為26先驗知識從哪兒來呢?我們可能在觀測數據之前就有一些主觀觀點或真正的先驗知識。但是,通常我們并沒有真正的先驗知識或者我們在貝葉斯估計時想更客觀些,這時可以選擇無信息的先驗(noninformativeprior)?;蛘呖梢詮臄祿烙嬒闰?。這被稱為經驗貝葉斯(empiricalBayes),有時亦稱第II類的極大似然(TypeIImaximumlikelihood)。27先驗知識從哪兒來呢?我們可能在觀測數據之前就有一些主觀觀點或扁平先驗(FlatPriors)考慮一個扁平的先驗:其中c>0為常數。但是

,因此這不是一個pdf。我們稱之為非正常先驗(improperprior)。通常非正常先驗不是問題,只要后驗為一個定義良好的pdf即可。扁平先驗有時為病態(tài)定義的,因為一個參數的扁平先驗并不意味參數的變換也是扁平先驗。請參見書中的例子28扁平先驗(FlatPriors)考慮一個扁平的先驗:28通用先驗一個流行的想法是使用通用先驗,或在任何場合下都可用的缺省的先驗分布。該先驗通常從似然函數推導得到。例子包括最小描述長度(minimumdescriptionlength,MDL)和Jeffrey先驗。這些通常是完全無信息的。29通用先驗一個流行的想法是使用通用先驗,或在任何場合下都可用的Jeffrey先驗Jeffrey提出的創(chuàng)建先驗的規(guī)則:其中為Fisher信息。例:對,則Jeffrey先驗為,即,與均勻分布很相近。30Jeffrey先驗Jeffrey提出的創(chuàng)建先驗的規(guī)則:30Jeffrey先驗對于多元參數情況,Jeffrey先驗為其中表示矩陣A的行列式,為Fisher信息矩陣。31Jeffrey先驗對于多元參數情況,Jeffrey先驗多元參數問題對于多元參數的情況,原則上同處理單個參數相同。后驗密度為:問題:如何對多個參數中的一個進行推斷?計算感興趣參數的后驗邊緣分布例如的邊緣分布為32多元參數問題對于多元參數多元參數問題通常計算是很困難的,可用模擬的方法近似。從后驗分布隨機采樣:上標表示不同的采樣,收集每個樣本中向量的第一個成分,得到為中的樣本,這樣可以避免積分運算。33多元參數問題通常計算33貝葉斯假設檢驗從貝葉斯觀點看假設檢驗時一個很復雜的問題,我們只介紹其基本思想。34貝葉斯假設檢驗從貝葉斯觀點看假設檢驗時一個很復雜的問題,我們貝葉斯假設檢驗數據和模型:檢驗:例:用X表示一個最近被污染區(qū)域中n個蛋中被孵出的蛋的數目,則,其中表示被孵出蛋的真正比例檢驗:其中0為被孵出蛋比例的經驗值35貝葉斯假設檢驗數據和模型:35先驗分布令分別表示H0和H1的先驗分布通常缺省為:在H1下,用表示關于位置的信息的先驗密度對二項分布,通常缺省為:36先驗分布令分別表示H給定數據,

H0

為真的后驗概率根據貝葉斯公式,37給定數據,H0為真的后驗概率根據貝葉斯公式,37給定數據,

H0

為真的后驗概率對上例中的二項檢驗問題,38給定數據,H0為真的后驗概率對上例中的二項檢驗問題,38貝葉斯因子有人更喜歡用H0對H1的貝葉斯因子(Bayesfactor)亦稱為加權似然比因為這樣不涉及Hi的先驗例:假設在上例中則而經典檢驗給出的p值為0.0539貝葉斯因子有人更喜歡用H0對H1的貝葉斯因子(Bayesf貝葉斯假設檢驗的優(yōu)點

反映了真正的期望錯誤率:但p-values

不是。后驗概率允許加入個人觀點,如果喜歡的話。后驗概率可用于多模型檢驗中:40貝葉斯假設檢驗的優(yōu)點貝葉斯推理vs.頻率推理我們應該信仰頻率學派還是貝葉斯學派?41貝葉斯推理vs.頻率推理我們應該信仰頻率學派還是貝葉斯學貝葉斯學派的觀點先驗信息:可以方便的結合先驗信息,而且人們在做推斷時也確實利用了先驗信息,貝葉斯推斷使得這個過程顯式化提供了更多的結構:對小樣本很有效簡練:允許人們對參數進行概率描述,使得似然函數與其邏輯結論一致,減小了數據和參數之間的區(qū)別統(tǒng)一:不必對點估計和區(qū)間估計各個解析推導42貝葉斯學派的觀點先驗信息:可以方便的結合先驗信息,而且人們在反對貝葉斯學派的觀點不方便:后驗區(qū)間不是真正的置信區(qū)間,估計通常都是有偏估計以參數為中心:在很多非參數情況下似然很脆弱計算強度大:積分/仿真或近似很難處理不必要的復雜:即使沒有先驗信息也要有先驗函數假設檢驗:貝葉斯假設檢驗對先驗的選取很敏感43反對貝葉斯學派的觀點不方便:后驗區(qū)間不是真正的置信區(qū)間,估計綜上所述在參數模型中,當樣本數目很多時,貝葉斯方法和頻率方法得到的近似相同的推理。但通常二者的結果不同貝葉斯方法和頻率推理是為了解決不同的問題結合先驗知識和數據:貝葉斯方法構造長期穩(wěn)定的性能(如置信區(qū)間):頻率方法44綜上所述在參數模型中,當樣本數目很多時,貝葉斯方法和頻率方法綜上所述當參數空間為高維時,通常采用貝葉斯方法但當參數比數據還多時,沒有統(tǒng)計方法能跨越自然的本質約束即使先驗知識選擇得當,也只能對“過去”預測很好,對將來不一定能預測很好Youcannotgetsomethingfornothing.Alittlebitofdata,willnothelpyoutolearnaboutamilliondimensional,complexproblem.45綜上所述當參數空間為高維時,通常采用貝葉斯方法45下節(jié)課內容作業(yè):第11章第2、4題第三部分:統(tǒng)計學習基礎46下節(jié)課內容作業(yè):第11章第2、4題46Chp11:貝葉斯推斷內容:

貝葉斯觀點和貝葉斯方法貝葉斯推斷vs.頻率推斷47Chp11:貝葉斯推斷內容:1貝葉斯觀點和貝葉斯方法從頻率到信念48貝葉斯觀點和貝葉斯方法從頻率到信念2頻率學派的觀點到目前為止我們講述的都是頻率(經典的)統(tǒng)計學概率指的是相對頻率,是真實世界的客觀屬性。參數是固定的未知常數。由于參數不會波動,因此不能對其進行概率描述。統(tǒng)計過程應該具有定義良好的頻率穩(wěn)定性。如:一個95%的置信區(qū)間應覆蓋參數真實值至少95%的頻率。統(tǒng)計學更多關注頻率推斷49頻率學派的觀點到目前為止我們講述的都是頻率(經典的)統(tǒng)計學統(tǒng)貝葉斯學派的觀點貝葉斯推斷采取了另外一個不同的立場:概率描述的是主觀信念的程度,而不是頻率。這樣除了對從隨機變化產生的數據進行概率描述外,我們還可以對其他事物進行概率描述。可以對各個參數進行概率描述,即使它們是固定的常數。為參數生成一個概率分布來對它們進行推導,點估計和區(qū)間估計可以從這些分布得到機器學習和數據挖掘更偏愛貝葉斯推斷50貝葉斯學派的觀點貝葉斯推斷采取了另外一個不同的立場:機器學習貝葉斯方法貝葉斯推斷的基本步驟如下:選擇一個概率密度函數,用來表示在取得數據之前我們對某個參數的信念。我們稱之為先驗分布。選擇一個模型(在參數推斷一章記為)來反映在給定參數情況下我們對x的信念。當得到數據X1,X2,…Xn

后,我們更新我們的信念并且計算后驗分布。從后驗分布中得到點估計和區(qū)間估計。51貝葉斯方法貝葉斯推斷的基本步驟如下:5回憶貝葉斯規(guī)則亦稱貝葉斯定理條件概率利用貝葉斯規(guī)則將數據和參數的分布聯合起來52回憶貝葉斯規(guī)則亦稱貝葉斯定理6似然函數假設我們有n個IID觀測,記為,產生的數據為,記為,我們用如下公式替代現在似然函數真正解釋為給定參數下數據的概率53似然函數假設我們有n個IID觀測后驗概率因此后驗概率為其中被稱為歸一化常數(normalizingconstant)。該常數經常被忽略,因為我們關心的主要是參數的不同值之間的比較。所以也就是說,后驗和似然函數與先驗的乘積成正比54后驗概率因此后驗概率為8貝葉斯點估計后驗的均值是一個常用的點估計L2損失下的貝葉斯規(guī)則極大后驗估計(maximumaposteriori,MAP)是使后驗最大的的值:是另一個常用的點估計0-1損失下的貝葉斯規(guī)則55貝葉斯點估計后驗的均值9貝葉斯置信區(qū)間估計為了得到貝葉斯區(qū)間估計,我們需找到a和b,使得令因此C稱為后驗區(qū)間。注意:在多次試驗中,并不保證θ在(1?α)100%的次數會落在后驗區(qū)間內。事實上,在復雜的高維模型中,當樣本數很少時,覆蓋概率可能接近于0。注意:是隨機的56貝葉斯置信區(qū)間估計為了得到貝葉斯區(qū)間估計,我們需找到a和b,例:BernoulliI令,假設先驗為均勻分布,根據貝葉斯公式,后驗為其中為成功的次數。57例:BernoulliI令例:BernoulliI為了得到后驗的均值,我們必須計算在這個例子中可以解析計算。后驗恰好為Beta分布其中參數,,均值為58例:BernoulliI為了得到后驗的均值,我們必須計算1例:BernoulliIp的極大似然估計為,為無偏估計。貝葉斯估計還可以寫成其中為先驗的均值,59例:BernoulliIp的極大似然估計為例:BernoulliII現在假設先驗不是均勻分布,而是則后驗為Beta分布,參數為和,即后驗的均值為其中為先驗的均值。先驗和后驗為相同的分布族:共軛如例子中的Beta分布60例:BernoulliII現在假設先驗不是均勻分布,而是例:正態(tài)分布令,為簡單起見,假設已知,并假設先驗為

對θ而言為常數對θ而言為常數61例:正態(tài)分布令例:正態(tài)分布將二者相乘,去掉一些常數項,最后得到一個正態(tài)分布形式的核最后,θ的后驗為其中為MLE的標準誤差。62例:正態(tài)分布將二者相乘,去掉一些常數項,最后得到一個正態(tài)分布例:正態(tài)分布當時,,當n很大時,后驗近似為當n固定而時,對應先驗趨近于均勻分布,上述結論也成立63例:正態(tài)分布當時,例:正態(tài)分布計算后驗區(qū)間,使得所以且因此,由于,所以最后95%的貝葉斯后驗區(qū)間為由于,,也可用近似,同頻率置信區(qū)間64例:正態(tài)分布計算后驗區(qū)間參數的函數問題:已知的貝葉斯后驗分布為,求的后驗分布兩種方法:利用CDF的定義,先求的CDF,然后求后驗密度,其中CDF為

仿真/模擬方法65參數的函數問題:已知的貝葉斯后驗分布為仿真

(Simulation)可以通過仿真而不是解析計算來得到點估計和區(qū)間估計。假設我們抽取樣本則的直方圖可以近似后驗密度后驗的均值近似為后驗的

置信區(qū)間為,其中為樣本的樣本分位數(quantile)一旦從中抽取樣本,令則為來自。這樣避免了解析計算但仿真可能很復雜/困難66仿真

(Simulation)可以通過仿真而不是解析計算來得例:Bernoullil

抽樣:令則為的IID,用直方圖方法可以估計67例:Bernoullil

抽樣:21MLE和貝葉斯令為的極大似然估計,標準誤差為在合適的正則條件下,后驗均值的漸近分布為也就是說,另外,若為漸近頻率的置信區(qū)間,則也是貝葉斯后驗的區(qū)間:68MLE和貝葉斯令為的極大似然估計,標準誤差為2MLE和貝葉斯

定義則分別展開69MLE和貝葉斯分別展開23MLE和貝葉斯將先驗也展開I0為先驗中θ的信息m0最大化f(θ)70MLE和貝葉斯將先驗也展開I0為先驗中θ的信息24MLE和貝葉斯定義結合展開,得到71MLE和貝葉斯定義25MLE和貝葉斯后驗簡化為結論:當n相對參數數目很大時,如果先驗符合真正的知識,則貝葉斯區(qū)間和頻率區(qū)間相同。當數據越多時,先驗的影響越弱。72MLE和貝葉斯后驗簡化為26先驗知識從哪兒來呢?我們可能在觀測數據之前就有一些主觀觀點或真正的先驗知識。但是,通常我們并沒有真正的先驗知識或者我們在貝葉斯估計時想更客觀些,這時可以選擇無信息的先驗(noninformativeprior)?;蛘呖梢詮臄祿烙嬒闰?。這被稱為經驗貝葉斯(empiricalBayes),有時亦稱第II類的極大似然(TypeIImaximumlikelihood)。73先驗知識從哪兒來呢?我們可能在觀測數據之前就有一些主觀觀點或扁平先驗(FlatPriors)考慮一個扁平的先驗:其中c>0為常數。但是

,因此這不是一個pdf。我們稱之為非正常先驗(improperprior)。通常非正常先驗不是問題,只要后驗為一個定義良好的pdf即可。扁平先驗有時為病態(tài)定義的,因為一個參數的扁平先驗并不意味參數的變換也是扁平先驗。請參見書中的例子74扁平先驗(FlatPriors)考慮一個扁平的先驗:28通用先驗一個流行的想法是使用通用先驗,或在任何場合下都可用的缺省的先驗分布。該先驗通常從似然函數推導得到。例子包括最小描述長度(minimumdescriptionlength,MDL)和Jeffrey先驗。這些通常是完全無信息的。75通用先驗一個流行的想法是使用通用先驗,或在任何場合下都可用的Jeffrey先驗Jeffrey提出的創(chuàng)建先驗的規(guī)則:其中為Fisher信息。例:對,則Jeffrey先驗為,即,與均勻分布很相近。76Jeffrey先驗Jeffrey提出的創(chuàng)建先驗的規(guī)則:30Jeffrey先驗對于多元參數情況,Jeffrey先驗為其中表示矩陣A的行列式,為Fisher信息矩陣。77Jeffrey先驗對于多元參數情況,Jeffrey先驗多元參數問題對于多元參數的情況,原則上同處理單個參數相同。后驗密度為:問題:如何對多個參數中的一個進行推斷?計算感興趣參數的后驗邊緣分布例如的邊緣分布為78多元參數問題對于多元參數多元參數問題通常計算是很困難的,可用模擬的方法近似。從后驗分布隨機采樣:上標表示不同的采樣,收集每個樣本中向量的第一個成分,得到為中的樣本,這樣可以避免積分運算。79多元參數問題通常計算33貝葉斯假設檢驗從貝葉斯觀點看假設檢驗時一個很復雜的問題,我們只介紹其基本思想。80貝葉斯假設檢驗從貝葉斯觀點看假設檢驗時一個很復雜的問題,我們貝葉斯假設檢驗數據和模型:檢驗:例:用X表示一個最近被污染區(qū)域中n個蛋中被孵出的蛋的數目,則,其中表示被孵出蛋的真正比例檢驗:其中0為被孵出蛋比例的經驗值81貝葉斯假設檢驗數據和模型:35先驗分布令分別表示H0和H1的先驗分布通常缺省為:在H1下,用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論