貝葉斯統(tǒng)計先驗分布的確定_第1頁
貝葉斯統(tǒng)計先驗分布的確定_第2頁
貝葉斯統(tǒng)計先驗分布的確定_第3頁
貝葉斯統(tǒng)計先驗分布的確定_第4頁
貝葉斯統(tǒng)計先驗分布的確定_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章先驗分布的確定3.1主觀概率3.1.1概率的公理化定義定義:設(shè)Q為一個樣本空間,F(xiàn)為Q的某些子集組成的一個事件域,如果對任一事件A丘F,定義在F上一個實值函數(shù)P(A)滿足下列條件:⑴非負性公理:對于每一事件A,有P(A)$O;(2)正則性(規(guī)范性)公理:P(Q)=1;⑶可列可加性(完全可加性)公理:設(shè)A1,A2,…是互不相容的事件,即對于izj,A.A.=0,i,j=1,2,…,則有P(A)=三P(A)i ii=1 i=1則稱P(A)為事件A的概率(Probability),稱三元素(QF,P)為概率空間(Probabilityspace)。概率是定義在6域F上的一個非負的、正則的、可列可加的集函數(shù)。3?1?2主觀概率在經(jīng)典統(tǒng)計中,概率是用三條公理定義的:1)非負性;2)正則性;3)可加性。概率確定方法有兩種:1)古典方法;2)頻率方法。實際中大量使用的是頻率方法,所以經(jīng)典統(tǒng)計的研究對象是能大量重復(fù)的隨機現(xiàn)象,不是這類隨機現(xiàn)象就不能用頻率的方法去確定其有關(guān)事件的概率。這無疑把統(tǒng)計學(xué)的應(yīng)用和研究領(lǐng)域縮小了[1]。在經(jīng)典統(tǒng)計中有一種習(xí)慣,對所得到的概率都要給出頻率解釋,這在有些場所是難于做出的。譬如,天氣預(yù)報:“明天下雨的概率是0.8”。貝葉斯統(tǒng)計中要使用先驗信息,而先驗信息主要是指經(jīng)驗和歷史資料。因此如何用人們的經(jīng)驗和過去的歷史資料確定概率和先驗分布是貝葉斯學(xué)派要研究的問題。貝葉斯學(xué)派是完全同意概率的公理化定義,但認為概率也是可以用經(jīng)驗確定。這是與人們的實踐活動一致。這就可以使不能重復(fù)或不能大量重復(fù)的隨機現(xiàn)象也可談及概率。同時也使人們積累的豐富經(jīng)驗得以概括和應(yīng)用。貝葉斯學(xué)派認為:一個事件的概率是人們根據(jù)經(jīng)驗對該事件發(fā)生可能性所給出個人信念。這樣給出的概率稱為主觀概率。下面舉幾個例子:一個企業(yè)家認為“一項新產(chǎn)品在未來市場上暢銷”的概率是0.8,這里的0.8是根據(jù)他自己多年的經(jīng)驗和當(dāng)時一些市場信息綜合而成的個人信念。一位醫(yī)生要對一位病人動手術(shù),他認為成功的概率是0.9,這是他根據(jù)手術(shù)的難易程度和自己的手術(shù)經(jīng)驗而對“手術(shù)成功”所給出的把握程度。這樣的例子在我們生活,生產(chǎn)和經(jīng)濟活動中也是常遇見的,他們觀察的主觀概率絕不是隨意的,而是要求當(dāng)事人對所考察的事件有較透徹的了解和豐富的經(jīng)驗,甚至是這一行的專家。并能對周圍信息和歷史信息進行仔細分析,在這個基礎(chǔ)上確定的主觀概率就能符合實際。所以應(yīng)把主觀概率與主觀臆造,瞎說一通區(qū)別開來。主觀概率要受到實踐檢驗,要符合概率的三條公理,通過實踐檢驗和公理驗證,人們會接受其精華,去其糟粕。主觀概率是頻率方法和經(jīng)典方法的一種補充,有了主觀概率至少使人們在頻率觀點不適用時也能談?wù)摳怕?,使用概率和統(tǒng)計方法。主觀概率并不反對用頻率方法確定概率,但也要看到它的局限性。3?1?3確定主觀概率的方法用對立事件的比較來確定主觀概率(最簡單的方法)例3.1一位出版商要知道一本新書暢銷(事件A)的概率是多少,以決定是否與作者簽訂出版合同。他在了解這本新書的內(nèi)容后,根據(jù)他自己多年出書的經(jīng)驗認為該書暢銷的可能性較大,暢銷(A)比暢銷(A)的可能性要高出一倍,即P(A)=2P(A),由此根據(jù)概率的性質(zhì)P(A)+P(A)=1,可以推得P(A)二2/3,即該書暢銷的主觀概率是2/3。(2)用專家意見來確定主觀概率(最常用)例3.2有一項帶有風(fēng)險的生意,預(yù)估計成功(記為A)的概率。為此,決策者去拜訪這方面的專家(如董事長,銀行家等),向?qū)<姨徇@樣的問題:“如果這種生意做100次,你認為會成功幾次?”專家回答:“成功次數(shù)不會太多,大約60次?!边@時P(A)二0.6是專家的主觀概率,可此專家還不是決策者,過分謹慎的。決策者決定修改專家的估計,把0.6提高到0.7。這樣P(A)二0.7就是決策者自己的主觀概率。(3)通過向多位專家咨詢后,經(jīng)修正和綜合獲得主觀概率例3.3某公司再決定是否成產(chǎn)某種新產(chǎn)品時,想估計該產(chǎn)品在未來市場上的暢銷(記為A)的概率是多少,為此公司經(jīng)理召集設(shè)計,財會,推銷和質(zhì)量管理等方面人員的座談會,仔細分析影響新產(chǎn)品銷路的各種因素,大家認為此新產(chǎn)品質(zhì)量好,只要定價合理,暢銷可能性很大,而影響銷路的主要因素是市場競爭。據(jù)了解,還有一家工廠(簡稱外廠)亦有生產(chǎn)此新產(chǎn)品的想法,該廠技術(shù)和設(shè)備都比本廠強。經(jīng)理在聽取大家的分析后,向在座各位提出二個問題:(i) 假如外廠不生產(chǎn)此新產(chǎn)品本公司的新產(chǎn)品暢銷的可能性(即概率)有多大?(ii) 假如外廠要生產(chǎn)此新產(chǎn)品本公司的新產(chǎn)品暢銷的可能性(即概率)有多大?在座人員根據(jù)自己的經(jīng)驗各寫了二個數(shù),經(jīng)理在計算了二個平均值后,略加修改,提出自己的看法:在上述二種情況下,本公司新產(chǎn)品暢銷概率各為0.9和0.4,這是經(jīng)理在征求多位專家意見后所獲得的主觀概率。另根據(jù)本公司情報部門報告,外廠正忙于另一項產(chǎn)品開發(fā),很可能無暇顧及生產(chǎn)此新產(chǎn)品。經(jīng)理據(jù)此認為外廠將生產(chǎn)此新產(chǎn)品的概率為0.3,不產(chǎn)此新產(chǎn)品的概率為0.7。利用上面4個主觀概率,由全概率公式可得本公司生產(chǎn)此新產(chǎn)品獲暢銷的概率為0.9x0.7+0.4x0.3=0.75注意:1) 向?qū)<姨岬膯栴}要設(shè)計好,既要使專家易懂又要使專家回答不是模棱兩可。2) 要對專家本人比較了解,以便做出修正,形成決策者自己的主觀概率。3) 通過向多位專家咨詢后,經(jīng)修正和綜合獲得主觀概率,關(guān)鍵在于把問題設(shè)計好,便于往后綜合,即在提出問題時,就要想到如何綜合。(4)假如有歷史數(shù)據(jù),要盡量利用,幫助形成初步概念,然后再做一些對比修正,再形成個人信念。例3.4某公司經(jīng)營兒童玩具好多年,今設(shè)計了一種新式玩具將投入市場?,F(xiàn)要估計此新式玩具在未來市場上的銷售情況。經(jīng)理查閱了本公司過去37種新式玩具的銷售記錄,得知銷售狀態(tài)是暢銷(A)、一般(A)、滯銷(A)分別有29,6,1 2 32種,于是算得過去新式玩具的三種銷售狀態(tài)的概率分別為29=0.784 , —=0.162 , —=0.05437 37 37考慮到這次設(shè)計玩具不僅外形新穎,而且在開發(fā)兒童智力上有顯著突破,經(jīng)理認為此種新玩具會更暢銷一些,滯銷可能性更小,故對上述概率作了修改,提出自己的主觀概率如下:P(A)=0.85,P(A)=0.14,P(A)=0.011 2 3根據(jù)經(jīng)驗和歷史資料等先驗信息給出主觀概率沒有什么固定的模式。但是其所確定的主觀概率都必須滿足概率的三條公理,即1) 非負性2) 正則性3) 可列可加性當(dāng)發(fā)現(xiàn)所確定的主觀概率與這三條公理及其推出的性質(zhì)有不和諧時,必須立即修正,直到和諧為止。3.2利用先驗信息確定先驗分布在貝葉斯統(tǒng)計方法中關(guān)鍵的一步是確定先驗分布。1、 當(dāng)總體參數(shù)6是離散時,即參數(shù)空間?只含有限個或可數(shù)個點時,可對0中每個點確定一個主觀概率。2、 當(dāng)總體參數(shù)6是連續(xù)時,即參數(shù)空間?是實數(shù)軸或其上某個區(qū)間時,要構(gòu)造一個先驗密度兀(6),就有些困難了。當(dāng)6的先驗信息足夠多時,下面有三個方法可供使用。3?2?1直方圖法這個方法與一般的直方圖法類似,步驟如下:1) 把參數(shù)空間分成一些小區(qū)間。2) 在每個小區(qū)間上決定主觀概率或依據(jù)歷史數(shù)據(jù)確定其頻率。3) 繪制直方圖。4) 在直方圖上做一條光滑的曲線,此曲線就是兀(6)。下面舉個例子:例3.6表3.1每周平均銷售量統(tǒng)計表平均銷售量(兩)頻率[0,5]0.051(5,10]0.259(10,15]0.327(15,20]0.224(20,25]0.095(25,30]0.044(30,35]0.001某藥材店記錄了吉林人參的每周銷售量,現(xiàn)要尋找每周平均銷售量6的概率分布。現(xiàn)用直方圖法來確定它。1)把參數(shù)空間分成一些小區(qū)間。統(tǒng)計過去二年102個營業(yè)周的銷售記錄每周平均銷售量最高不超過35兩。若以5兩作為小區(qū)間長度,共分為7個小區(qū)間。在每個小區(qū)間上決定主觀概率或依據(jù)歷史數(shù)據(jù)確定其頻率。這里用的是后者,其頻率見表3.1。繪制頻率直方圖。這里繪制的頻率直方圖見圖3.1,其中縱坐標為頻率/5。在直方圖上作一條光滑的曲線,此曲線就是k(9)。在作光滑曲線時,盡量在每個小區(qū)間上使用得曲線下的面積與直方圖的面積相等。這條曲線已在圖3.1上畫出,利用此曲線可求出一個單位區(qū)間上的概率,如P(20<6<21)二1x兀(20.5)二0.03注意:這樣得到的先驗密度常常僅限于有限區(qū)間上,有時使用也不方便。下面這種方法更為適用。3?2?2選定先驗密度函數(shù)形式再估計其超參數(shù)要點:根據(jù)先驗信息選定6的先驗密度函數(shù)的形式兀(6)。當(dāng)先驗分布中含有未知參數(shù)(即超參數(shù))時,給出超參數(shù)的估計值.注意:方法常用,但也極易誤用。因為先驗密度兀(6)的函數(shù)形式選用不當(dāng)將會導(dǎo)致以后推導(dǎo)失誤。例3.7在例3.6中對周平均銷售量6,選用正態(tài)分布N(卩,t2)作為先驗分布,于是確定先驗分布問題就能轉(zhuǎn)化為估計超參數(shù)卩和T2的問題。這可從每周平均銷售量

統(tǒng)計表上作出估計。若對的每個小區(qū)間用其中點作代表,則可算得卩和T2的估計如下:卩二2.5x0.051+...+32.5x0.001二13.4575t2二(2.5-13.4574)2x0.051+...+(32.5-13.4574)2x0.001二36.0830這表明,該商店每周平均銷售量0的先驗分布為N(13.4574,36.0830)。用此先驗分布可以算得:21-13.4575 20-13.4575P(20<9<21)=◎( )—①( )=0.03506.0069 6.0069這個例子說明,若能從先驗信息整理加工中獲得前幾階先驗矩,然后用其估計先驗分布的各個參數(shù)。在給定先驗分布形式時決定其中先驗參數(shù)的另一個方法是從先驗信息中獲得幾個分位數(shù)的統(tǒng)計值,然后選擇先驗分布中的參數(shù)使其盡可能地接近這些分位數(shù)。下面再看一個例子。例3.8設(shè)參數(shù)的取值9范圍是(-冷^),它的先驗分布具有正態(tài)分布形式。若從先驗信息可以得知:先驗中位數(shù)為0;上下四分位數(shù)為-1和1,即先驗的0.25分位數(shù)和0.75分位數(shù)為-1和1。要確定先驗分布N(卩,T2)中的超參數(shù)卩和T2。對正態(tài)分布,均值和中位數(shù)相等故卩二0另外由0.75分位數(shù)為1,可列出方程P(0<1)二0.75或P(0/g<1/G)二0.75。查標準正態(tài)分布表可知1/ 0.675或^=1.481這樣就可得先驗分布為N(0,1.4812)。另外,若設(shè)0的先驗分布為柯西分布C(a,P),其密度函數(shù)為<0<0<g它的期望與方差都不存在,但其各分位數(shù)都有。由于柯西密度函數(shù)是關(guān)于a的對稱函數(shù),故其中位數(shù)是d。由已知條件知?=0。另外由-1是稱函數(shù),故其中位數(shù)是d。-8-8——-——dO=1/4兀P2+O2由此可算得0=1。這時O的先驗分布為柯西分布C(0,1)。這是標準柯西分布。這樣一來,我們面臨著二個先驗分布都滿足給定的先驗信息。假如這二個先驗分布差異不大,對后驗分布影響也不大,那可任選一個,假如面臨著二個差異極大的先驗分布可供選擇時,我們應(yīng)慎重選擇,因為不同的選擇對后驗分布影響也會很大。如在本例中正態(tài)分布N(0,1.4812)與柯西分布C(0,1)在形狀是很相似,都是中間高,兩邊低,左右對稱,但在二側(cè)的尾部的粗細相差很大,正態(tài)分布的尾部很細,柯西分布的尾部很粗,這就導(dǎo)致正態(tài)分布的各階矩都存在,可柯西分布連數(shù)學(xué)期望都不存在。因此在進一步的選擇前還要對先驗信息進行分析,若先驗信息很分散,那就不宜選用正態(tài)分布,若先驗信息較為集中,那就不宜選用柯西分布。關(guān)于在一族先驗分布中如何選擇先驗分布使后驗分布波動不大。這個問題被稱作“穩(wěn)健性”問題。3?2?3定分度法與變分度法定分度法:把參數(shù)可能取值的區(qū)間逐次分為長度相等的小區(qū)間,每次在每個小區(qū)間上請專家給出主觀概率。變分度法:該法是把參數(shù)可能取值的區(qū)間逐次分為機會相等的兩個小區(qū)間,這里的分點由專家確定。3.3利用邊緣分布m(x)確定先驗密度3.3.1邊緣分布m(x)設(shè)總體x的密度函數(shù)為p(xi0),它含有未知參數(shù)e,若e的先驗分布選用形式已知的密度函數(shù)n(e),則可算得X的邊緣分布(即無條件分布)

卩p(x10)兀(0)d0,0為連續(xù)時

m(x)=1咬p(x10爪(0),0為離散時(3.1)0e0當(dāng)先驗分布含有未知參數(shù)時,譬如n(e)=n(8|入),那么邊緣分布m(x)依賴于入,可記為m(x|入)。例3.10設(shè)總體X~N(0Q2),其中°2已知,又設(shè)0的先驗分布為N(?Qf),則可以算得邊際分布m(x)為N(巴,°;+°2)(X-0)2}(X-0)2}2°2(0-卩)2}712兀°兀(0)=丄exP{-cTOC\o"1-5"\h\z.2?!?2°2兀于是邊際分布m(x)=1fs1「(X—0)2 (0—卩)2 m(x)=Jexp{——[ + 廉—]}d02兀°° —8 2 °2 °2兀 兀1(-(x—卩)2]一-exp{ ——-}£2兀(°2+°2) 2(°2+°;)這就是我們要求的結(jié)果。除了已知的°2外,它還有兩個未知的超參數(shù)卩與°2。兀 兀3?3?2混合分布設(shè)隨機變量X以概率n在總體F1中取值,以概率1-n在總體F2中取值。若F(x|。丿和F(x|02)分別是這兩個總體的分布函數(shù),則X的分布函數(shù)為F(x)二兀F(x10)+(1—兀)F(x10)

12或用密度函數(shù)或概率函數(shù)表示p(x)二兀p(x10)+(1一兀)p(x10)12F(x)稱為F(x|0丿和F(x|02)的混合分布。這里的n和1-n可以看作一個新的隨機變量0的分布,即P(0=0)二兀,P(0=0)二(1—兀)從混合分布F(x)中抽取一個樣品X],相當(dāng)于如下兩個抽樣:第一次,從n(0)中抽取一個樣品e。第二次,若e=6,則從F(X|01)中再抽一個樣品,這個樣品就是X1,若e=e2,則從f(x|02)中再抽一個樣品,這個樣品就是X]。若從混合分布抽取一個容量為n的樣本X1,X2,…,Xn,那么其中約有nn(01)個來自F(x|0]),約有nn(02)個來自F(x|02),這樣的樣本有時也稱為混合樣本。說明:(3.1)式表示的邊緣分布m(x)是混合分布的推廣當(dāng)0為離散隨機變量時,m(x)是由有限個或可數(shù)個的密度函數(shù)混合而成當(dāng)0為連續(xù)隨機變量時,m(x)是由無限個不可數(shù)的密度函數(shù)混合而成若從n(e)抽取一個0,然后再從p(x|0)中抽取一個X,這個X可看作從m(x)抽取的樣品。按此過程抽取n個樣品就可獲得容量為n的混合樣本。例3.11混合樣本的例子設(shè)x,x,xx是n位考生的成績,由于每位考生的能力0是不同的,這nTOC\o"1-5"\h\z12 3 n位考生的能力0,0,…,0可看作從某個分布兀(0)抽取的樣本,而x是從p(x10)抽1 2 n i取的樣本。這樣一來,樣本x,x,x,...,x可看作混合樣本。1 2 3 n從一批產(chǎn)品中隨機抽取n件產(chǎn)品,而這n個產(chǎn)品是來自三位工人之手,而這三個工人的不合格品率是不同的,故所測的產(chǎn)品特性x,x,x,...,x可看作一個1 2 3 n混合樣本。某廠的原料來自k個產(chǎn)地,每次改換原料都要抽一個樣本檢查產(chǎn)品質(zhì)量。過去已記錄了若干個樣本的觀察值/、TOC\o"1-5"\h\z\o"CurrentDocument"x .?? x11 鞏x ...x21 2n2x.??xp1 pn

其中n其中n,nn分別是各自的樣本容量。這n+n+...+n個數(shù)據(jù)可看作來自k個總體的混合樣本,也可看作來自某混合分布的一個樣本。3?3?3先驗選擇的ML-II方法”p(x10)兀(0)d0,0為連續(xù)時

m(x)=1咬p(x10加(0),0為離散時 GJ〉I0e0若p(xl9)已知,則m(x)大小反映n(9)的合理程度,這里把m(x)記為m(x|n)或m^x),是由無限個不可數(shù)的密度函數(shù)混合而成。設(shè)r為所考慮的先驗類,"話滿足(對觀察值x)m代(x)=supme(x)Ker於被稱為類型II極大似然函數(shù)先驗,或稱為ML—II先驗。例3.12設(shè)總體X~N(q,&2)其中a?已知。取另一正態(tài)分布N(?,緒2)作為正態(tài)均值0的先驗分布,則可以算得X的邊緣分布為N(巴,2+◎2)。設(shè)X在給定0時條件分布為N(0Q2)兀(0)~N(卩Q2)則邊緣分布, 冗 冗,m(x兀)?N(卩,&2+o2)兀 兀由m(X|兀)二打m(x|兀)ii=1其中,m(x兀)=N(卩,&2+&2)于是/ \rT 1 f/ \rT 1 f(x—卩)2m(x兀)=11 exp{——i k——1 2(&2+&2)i=1[2兀(&2+&2)2n}=[2k(&2+&2)2exp{—412(&2+&2)n

TOC\o"1-5"\h\zn(X—X)2n乙 i-一nr n n(X—卩)2=[2兀(62+62)]2exp{—* }exp{- }冗 2(62+62) 2(62+62)兀 兀取X二1XX,s2二—工(X一X)2

ninii=1 i=1m(m(x兀)二[2兀(62+62)]-2exp{兀ns2 、 「n(x-卩)2}exp{- ?—}2(62+62) 2(62+62)兀 兀由exp{-鼎右兀}知,由exp{-鼎右兀}知,不論G2如何X二卩可使m(x兀)達最大ns2故只需令p(62)=[2兀(62+62)]-2exp{- }求其最大值則可冗 冗 2(62+62)兀d取 [Inp(62)]二- + 二0d62 冗 2(62+62) 2(62+62)2兀 兀 兀ns2注意到:若S2>Q2時Q2=S2-Q2為最大點兀而若S2<62時62二S2-62<0則取62二0為最大點兀性27i?n(n,62),其中門兀 兀 兀 n ii=1,62=max{0,S2-q2}.兀3.4無信息先驗分布貝葉斯統(tǒng)計的特點就在于利用先驗信息(經(jīng)驗與歷史數(shù)據(jù))形成先驗分布,參與統(tǒng)計推斷。它啟發(fā)人們要充分挖掘周圍的各種信息使統(tǒng)計推斷更為有效。但是從貝葉斯統(tǒng)計誕生之日開始就伴著一個“沒有先驗信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論