第8章:經(jīng)驗(yàn)?zāi)P蚠第1頁
第8章:經(jīng)驗(yàn)?zāi)P蚠第2頁
第8章:經(jīng)驗(yàn)?zāi)P蚠第3頁
第8章:經(jīng)驗(yàn)?zāi)P蚠第4頁
第8章:經(jīng)驗(yàn)?zāi)P蚠第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第8章經(jīng)驗(yàn)?zāi)P?/p>

【考試內(nèi)容】

8.1數(shù)據(jù)類型

完整數(shù)據(jù)非完整數(shù)據(jù)

8.2完整數(shù)據(jù)情況下的經(jīng)驗(yàn)分布函數(shù)估計(jì)

個(gè)體數(shù)據(jù)分組數(shù)據(jù)

8.3非完整數(shù)據(jù)情況下的經(jīng)驗(yàn)分布函數(shù)估計(jì)

風(fēng)險(xiǎn)集

Kaplan-Meier乘積極限估計(jì)危險(xiǎn)率函數(shù)的Nelson-Aalen估計(jì)

8.4核密度估計(jì)

核函數(shù)與核密度估計(jì)常見的核函數(shù)帶寬對(duì)估計(jì)的影晌

8.5大樣本數(shù)據(jù)下的經(jīng)驗(yàn)分布函數(shù)估計(jì)

Kaplan-Meier近似多元衰減表

【要點(diǎn)詳解】

§8.1數(shù)據(jù)類型

1.完整數(shù)據(jù)

完整數(shù)據(jù):能夠?qū)Ω怕史植嫉娜我恻c(diǎn)收集數(shù)據(jù),并且能夠記錄每個(gè)觀測(cè)值。

完整個(gè)體數(shù)據(jù):得到每個(gè)觀測(cè)值本質(zhì)上的精確值。

分組數(shù)據(jù):當(dāng)個(gè)體數(shù)據(jù)量過多,對(duì)觀測(cè)值進(jìn)行分組,只記錄觀測(cè)值所屬的分組,得到的數(shù)據(jù)。

2.非完整數(shù)據(jù)

非完整數(shù)據(jù)產(chǎn)生的原因有兩種:刪失或截?cái)唷?/p>

刪失數(shù)據(jù):通常情況下對(duì)屬于某一范圍內(nèi)的數(shù)據(jù)記錄其精確值,如果對(duì)超出該范圍的數(shù)據(jù)只記錄其所屬的范圍而得到的數(shù)據(jù)。

截?cái)鄶?shù)據(jù):對(duì)超出該范圍的數(shù)據(jù)不作記錄而得到的數(shù)據(jù)。

左刪失數(shù)據(jù):只知道觀測(cè)值在某個(gè)給定值之下而不知道其具體值;

右刪失數(shù)據(jù):只知道觀測(cè)值在某個(gè)給定值之上不知道其具體值。

左截?cái)鄶?shù)據(jù):對(duì)低于某個(gè)給定值的觀測(cè)值不作記錄;

右截?cái)鄶?shù)據(jù):對(duì)高于某個(gè)給定值的觀測(cè)值不作記錄。

§8.2完整數(shù)據(jù)情況下的經(jīng)驗(yàn)分布函數(shù)估計(jì)

1.個(gè)體數(shù)據(jù)

(1)經(jīng)驗(yàn)分布函數(shù)

①數(shù)據(jù)依賴型分布:是一種非參數(shù)分布,它的復(fù)雜程度至少與產(chǎn)生它的數(shù)據(jù)或者其他信息相當(dāng),并且其參數(shù)個(gè)數(shù)會(huì)隨著數(shù)據(jù)點(diǎn)或者信息量的增加而增加。如經(jīng)驗(yàn)分布。

②經(jīng)驗(yàn)分布研究某總體分布函數(shù),從中抽取一個(gè)樣本量為n的數(shù)據(jù)集,假設(shè)每個(gè)數(shù)據(jù)點(diǎn)的概率為l/n,觀測(cè)值xi中可能包括相同的數(shù)值,記其中有k個(gè)不同的數(shù)值,y1<y2<…<yk,并且記sj=#{xi:xi=yi}表示取值yi的觀測(cè)值的個(gè)數(shù),則得到經(jīng)驗(yàn)分布:其中:I(?)為示性函數(shù),#A表示集合A中元素的個(gè)數(shù)。

③經(jīng)驗(yàn)分布概率函數(shù)pn(x)定義為取值x的觀測(cè)值的個(gè)數(shù),則并且pn(x)和Fn(x)的關(guān)系為:

(2)風(fēng)險(xiǎn)集與經(jīng)驗(yàn)生存函數(shù)

經(jīng)驗(yàn)生存函數(shù)Sn(x):對(duì)生存時(shí)間大于x的概率的估計(jì),即大于x的觀測(cè)值占總體數(shù)據(jù)集的比例。定義為在觀測(cè)值yj處的風(fēng)險(xiǎn)集:指不小于yj的觀測(cè)值組成的集合,記做:

(3)經(jīng)驗(yàn)分布函數(shù)的統(tǒng)計(jì)分析

①經(jīng)驗(yàn)分布函數(shù)Fn(x)的相合性由于從而因此:,經(jīng)驗(yàn)分布函數(shù)Fn(x)是對(duì)總體分布F(x)函數(shù)的無偏一致估計(jì)量。方差的估計(jì)為:

②經(jīng)驗(yàn)生存函數(shù)的相合性即經(jīng)驗(yàn)生存函數(shù)是相合的。方差的估計(jì):

③概率p的估計(jì)概率p的經(jīng)驗(yàn)估計(jì)為,從而,即估計(jì)量是相合的。近似地服從正態(tài)分布:近似置信區(qū)間為:

例題8.1~8.2的條件如下:從t=0開始觀察一個(gè)由8人組成的團(tuán)體,直到他們?nèi)克劳觯瑑H記錄發(fā)生死亡的時(shí)間(以天為單位)。假設(shè)t=0的初始事件發(fā)生在一天的中點(diǎn),死亡事件也發(fā)生在那天的中點(diǎn),那么,所有的生存期限均為整數(shù)。所觀察的生存期限為3,4,5,5,7,10,10,12。So(t)是觀察的樣本空間的經(jīng)驗(yàn)生存函數(shù)。

【例題8.1】利用So(t)估計(jì)S(t),則S(5)、S(12)的估計(jì)量分別為()。

A.0.125,0

B.0.125,0.125

C.0.375,0

D.0.375,0.125

E.0.500,0

【答案】E

【解析】由于So(t)是右連續(xù)的,t=5時(shí),,而t8=12是最后一次死亡事件發(fā)生的時(shí)間,則So(12)=0。So(t)的圖形如下圖所示。

【例題8.2】(1)若樣本的生存分布為區(qū)間(0,15]上的均勻分布,則Var[So(6)]=

;(2)若沒有均勻分布的假設(shè),則估計(jì)值Var[So(6)]=

。()

A.0.03,0.03125

B.0.03,0.045

C.0.03125,0.03

D.0.03125,0.045

E.0.045,0.03125

【答案】A

【解析】(1)隨機(jī)變量T在區(qū)間(0,15]上服從均勻分布,則,故:(2)由樣本的觀察值得:So(6)=0.5,故:

【例題8.3】數(shù)據(jù)集收集了2009~2011年間94935個(gè)駕駛員每人每年出現(xiàn)交通事故數(shù)的數(shù)據(jù),如下表所示。基于數(shù)據(jù)集可計(jì)算得到p(2)的經(jīng)驗(yàn)估計(jì)及該估計(jì)量的方差分別為(

)。A.B.C.D.E.

【答案】C

【解析】的經(jīng)驗(yàn)估計(jì)為其方差的估計(jì)值為

2.分組數(shù)據(jù)

(1)卵形線和直方圖

經(jīng)驗(yàn)分布光滑曲線(簡(jiǎn)稱卵形線):為了計(jì)算分布函數(shù)在任意觀測(cè)處的取值,采用線性插值法,得到的估計(jì)值。計(jì)算公式為:

直方圖:人為定義的右連續(xù)的密度函數(shù)。計(jì)算公式為:

(2)密度估計(jì)的性質(zhì)

①觀測(cè)值個(gè)數(shù)

?分布設(shè)Nj表示落在cj-1和cj之間的觀測(cè)值個(gè)數(shù)。N1,N2,…,Nk服從聯(lián)合多項(xiàng)分布,其聯(lián)合概率函數(shù)為:從而其邊際分布為二項(xiàng)分布:

?期望和方差在時(shí)刻cj-1前死亡的總?cè)藬?shù)的分布為:因此

②分布函數(shù)的期望和方差由式知

③密度函數(shù)期望和方差由式知的估計(jì)值為:

【例題8.4】下表是一組普通責(zé)任保險(xiǎn)保單的227例賠案的賠付額的觀測(cè)值,則S(10000)和f(10000)的估計(jì)值以及這兩個(gè)估計(jì)值的方差分別為()。A.B.C.D.E.

【答案】B

【解析】S(10000)和f(10000)的點(diǎn)估計(jì)分別為方差估計(jì)分別為

§8.3非完整數(shù)據(jù)情況下的經(jīng)驗(yàn)分布函數(shù)估計(jì)

1.風(fēng)險(xiǎn)集

(1)對(duì)于個(gè)體數(shù)據(jù),必須考慮的兩個(gè)因素是:

①數(shù)據(jù)觀測(cè)值的截?cái)帱c(diǎn),用dj表示,如果沒有截?cái)喟l(fā)生,則dj=0。

②數(shù)據(jù)觀測(cè)值本身。如果該數(shù)據(jù)是刪失值,將其值記為uj,否則記為xj。(2)風(fēng)險(xiǎn)集:由那些在指定年齡仍處于被觀察狀態(tài)的個(gè)體構(gòu)成。

?在觀測(cè)值yi時(shí)刻的風(fēng)險(xiǎn)集包括:

①死亡時(shí)間在yj或yj以后的個(gè)體;

②刪失時(shí)間在yj或yj以后的個(gè)體。

?風(fēng)險(xiǎn)集大小的計(jì)算對(duì)于在yj以后才首次被觀測(cè)到的個(gè)體,認(rèn)為其在時(shí)刻yj并沒有處于被觀測(cè)狀態(tài)。因此,風(fēng)險(xiǎn)集大小的計(jì)算公式為:

或者遞推公式:其中規(guī)定r0=0。

2.Kaplan-Meier乘積極限估計(jì)

(1)Kaplan-Meier估計(jì)的推導(dǎo)

Kaplan-Meier乘積極限公式:對(duì)于個(gè)體在yk以前被刪失,在yk以后的生存函數(shù)無法估計(jì)的情況有三種解決方法:

①取最后得到的函數(shù)值作為S(t)的估計(jì)這種方法得到的估計(jì)量是有偏的,而且當(dāng)sk<rk時(shí),利用生存函數(shù)求取分布的矩時(shí)所作的廣義積分發(fā)散;

②規(guī)定在yk以后的所有取值都為0這種方法得到的估計(jì)量也是有偏的,但是可以用于計(jì)算各階矩;

③選擇一條指數(shù)函數(shù)衰減的曲線去擬合yk以后的生存函數(shù)由指數(shù)函數(shù)的性質(zhì),此時(shí)的經(jīng)驗(yàn)分布函數(shù)對(duì)各階矩的積分都是收斂的。

(2)方差估計(jì)

①Kaplan-Meier公式本質(zhì)上分為如下兩個(gè)步驟:

?將生存函數(shù)分解成一系列條件概率的乘積,再對(duì)每個(gè)條件概率進(jìn)行估計(jì),即:

?構(gòu)造每一個(gè)條件概率的無偏估計(jì)同時(shí)在指定的死亡時(shí)刻yj處的生存概率估計(jì)值Sn(yj)是無偏的,在沒有死亡事件發(fā)生的時(shí)刻,生存概率S(t)的估計(jì)值是有偏的,偏誤為:

②計(jì)算在死亡時(shí)刻yj處估計(jì)量的方差需要用到的兩個(gè)性質(zhì):

?設(shè)X1,X2,…,Xn是相互獨(dú)立的隨機(jī)變量,E(Xi)=μi,Var(Xi)=σi2。則有

?若ai,i=1,2,…,n相對(duì)于某一常數(shù)p均為高階無窮小,ai~o(p),則

③方差計(jì)算由以上兩條性質(zhì),近似計(jì)算方差:由于是的估計(jì),得到Greenwood近似公式拓展到一般時(shí)刻t的情形:

對(duì)數(shù)轉(zhuǎn)換的置信區(qū)間估計(jì)的S(t)的置信區(qū)間端點(diǎn)為:使得到的區(qū)間總在(0,1)之內(nèi)。

【例題8.5】觀察由10名100歲的老人組成的研究對(duì)象,觀察到在時(shí)間2有1人死亡,在時(shí)間4.5有1人死亡,在時(shí)間4有x人退出,若用乘積估計(jì)法估計(jì)

,則x=()。

A.2

B.3

C.4

D.5

E.6

【答案】B

【解析】依題意作下圖所示劃分,其中向下箭頭表退出,×表示死亡。死亡、退出示意圖則有:

,解得:x=3。

【例題8.6】在0到1年的區(qū)間中,面對(duì)死亡威脅的個(gè)體數(shù)(r)為15,身故個(gè)體數(shù)(s)為3;在1到2年的區(qū)間中,面對(duì)死亡威脅的個(gè)體數(shù)和身故個(gè)體數(shù)分別為80和24;在2到3年的區(qū)間中,這2個(gè)量分別為25和5;在3到4年的區(qū)間中,這2個(gè)量變成60和6;在4到5年的區(qū)間中,這2個(gè)量是10和3,則用Greenwood近似公式計(jì)算的方差為()。A.B.C.D.E.

【答案】D

【解析】本題風(fēng)險(xiǎn)集計(jì)算如下表所示。利用乘積極限公式,有則利用Greenwood公式計(jì)算的方差為:

3.危險(xiǎn)率函數(shù)的Nelson-Aalen估計(jì)

?累積危險(xiǎn)率函數(shù)H(t)的Nelson-Aalen估計(jì)值:

?生存函數(shù)的Nelson-Aalen估計(jì)值為:

?對(duì)一般的時(shí)間t,Nelson-Aalen估計(jì)的方差為:

?H(t)的線性置信區(qū)間為:

其對(duì)數(shù)轉(zhuǎn)換的置信區(qū)間為:

【例題8.7】在完整數(shù)據(jù)研究中,恰在第2次死亡之后的累積危險(xiǎn)率函數(shù)H(t)的Nelson-Aalen估計(jì)量為11/30,則恰在第4次死亡后的H(t)的估計(jì)量為()。

A.0.37

B.0.60

C.0.63

D.0.95

E.0.98

【答案】D

【解析】在第2次死亡后,,其中n為初始樣本容量,由已知條件得,即

11n2-71n+30=0,解得:n=6(其中n=5/11舍去)。

故。

【例題8.8】在一完整數(shù)據(jù)研究中,初始樣本容量n=10,S(12)的乘積極限估計(jì)為,并且每次死亡均發(fā)生在不同的時(shí)點(diǎn)上,則S(12)的Nelson-Aalen估計(jì)量為()。

A.0.28546

B.0.33611

C.0.62157

D.0.66389

E.0.71454

【答案】E

【解析】因?yàn)槭峭暾麛?shù)據(jù),則S(12)的乘積極限估計(jì)為,所以在t=12時(shí),有7個(gè)生存者。即t=12以前發(fā)生了3次死亡,于是H(12)的Nelson-Aalen估計(jì)量為:故。

§8.4核密度估計(jì)

1.核函數(shù)與核密度估計(jì)

?核密度估計(jì)的估計(jì)量假設(shè)完整的數(shù)據(jù)集為{x1,x2,,…,xn},其中包括不同的數(shù)值為y1<y2<…<yk,記sj=#{xi:xi=yj}表示取值yj的觀察值的個(gè)數(shù)。

核密度估計(jì)法使用連續(xù)隨機(jī)變量來替代每個(gè)離散的點(diǎn),使用核函數(shù)k(?)進(jìn)行核密度估計(jì)的估計(jì)量是:其中h是帶寬,是尺度變換后的核函數(shù)。

?核密度估計(jì)的估計(jì)量的另一種表達(dá)式如果用y1<y2<…<yk來表示,上式也可寫做:。使得成為密度函數(shù)的充要條件是用于加權(quán)的核函數(shù)kh(·)是一個(gè)密度函數(shù)。

?分布函數(shù)的核密度估計(jì)由密度函數(shù)的核密度估計(jì),可以得到分布函數(shù)的核密度估計(jì)。當(dāng)k(?)是對(duì)稱分布時(shí),其中,Kh(·)是密度函數(shù)kh(·)對(duì)應(yīng)的分布函數(shù):。

【例題8.9】下面是10個(gè)觀察者的死亡年齡:38、40、46、46、48、50、56、58、60、62,使用帶寬為10的均勻核函數(shù),則活過51歲的概率的核密度估計(jì)為()。

A.0.425

B.0.445

C.0.465

D.0.485

E.0.515

【答案】D

【解析】設(shè)觀察者的死亡年齡為X,則估計(jì)概率為對(duì)于估計(jì),需要考慮38,40,46,48,50,56,58,60,且它們的權(quán)重函數(shù)分別為可得:

所以活過51歲的概率的核密度估計(jì)為。

2.常見的核函數(shù)

(1)均勻核函數(shù)一般的均勻核函數(shù)為:它對(duì)應(yīng)了[-h,h]上的均勻分布。相應(yīng)地,基于均勻核函數(shù)的密度函數(shù)的核密度估計(jì)為:

分布函數(shù)的核密度估計(jì)為:

(2)三角核函數(shù)一般的三角核函數(shù)為:它對(duì)應(yīng)了[-h,h]上的三角形分布。相應(yīng)地,(3)伽瑪拉函數(shù)伽瑪核函數(shù)是一種特殊的核函數(shù),它的權(quán)重不是按照樣本點(diǎn)與待估計(jì)點(diǎn)的距離來定義的。對(duì)于每一個(gè)觀測(cè)值xi,用一個(gè)均值為xi的伽瑪分布Г(α,x/α)來代表,其密度函數(shù)為:任意待估計(jì)點(diǎn)x的密度可以通過這樣一族伽瑪分布的平均值得到:在這個(gè)核密度估計(jì)中,參數(shù)α是尺度參數(shù),α越大對(duì)應(yīng)的估計(jì)越平滑。

【例題8.10】有5位患者從發(fā)病到死亡的時(shí)間的數(shù)據(jù)如下:2、3、3、7、8,用帶寬為1的三角核函數(shù)估計(jì)時(shí)間為2.5時(shí)的密度函數(shù)為()。

A.0.15

B.0.2

C.0.25

D.0.3

E.0.35

【答案】D

【解析】為了計(jì)算,需要考慮的點(diǎn)是2,3。由一般的三角函數(shù),其中,得到相應(yīng)的權(quán)重分別為因此。

【例題8.11】設(shè)某總體的分布函數(shù)是F(x),給定下列樣本數(shù)據(jù):2.0、3.3、3.3、4.0、4.0、4.7、4.7、4.7,使用帶寬為1.4的均勻核函數(shù)計(jì)算的F(4)的核密度估計(jì)為()。

A.0.5536

B.0.53125

C.0.4578

D.0.3893

E.0.3557

【答案】B

【解析】對(duì)于,需要考慮的點(diǎn)有2,3.3,4,4.7,根據(jù),計(jì)算它們的權(quán)重分別為因此。

3.帶寬對(duì)估計(jì)的影響

大的帶寬可以得到更加光滑的結(jié)果,而小的帶寬能夠反映出局部的密度變化。對(duì)于相同的帶寬,采用不同核函數(shù)估計(jì)的結(jié)果相差并不大。理論上,帶寬造成的漸進(jìn)偏差為O(h2),而漸進(jìn)方差為,因此使估計(jì)偏誤最小的帶寬為,所以樣本量增大,相應(yīng)應(yīng)該選取較小的帶寬。

§8.5大樣本數(shù)據(jù)下的經(jīng)驗(yàn)分布函數(shù)估計(jì)

1.Kaplan-Meier近似

(1)基本假定給定區(qū)間的端點(diǎn)c0<c1<…<ck,令Dj=#{di:cj-1di<cj}是區(qū)間[cj-1,cj)中某個(gè)點(diǎn)的左截?cái)嗟挠^測(cè)值個(gè)數(shù),Uj=#{ui:cj-1<uicj}表示區(qū)間(cj-1,cj]上某個(gè)點(diǎn)右刪失的觀測(cè)值的個(gè)數(shù)。記(cj-1,cj]中未刪失的觀測(cè)值數(shù)目為Xj。此時(shí),樣本總量為。

(2)推導(dǎo)過程引入一個(gè)假定的值,并且假設(shè)所有未刪失事件都發(fā)生在cj*處。假設(shè)在[cj-1,cj*)上截?cái)嗟膫€(gè)體數(shù)占[cj-1,cj)上截?cái)鄠€(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論