生存分析概述及實例分析.docx_第1頁
生存分析概述及實例分析.docx_第2頁
生存分析概述及實例分析.docx_第3頁
生存分析概述及實例分析.docx_第4頁
生存分析概述及實例分析.docx_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生存分析概述及其應(yīng)用實例侯笛摘 要 :本文對概括性地介紹了生存分析的概念和主要的研究內(nèi)容。對生存分析中常用的術(shù)語進行了描述,包括生存數(shù)據(jù),生存函數(shù),風(fēng)險函數(shù)等。并闡述了生存數(shù)據(jù)估計中常用的三種模型(非參數(shù)模型,參數(shù)模型,半?yún)?shù)模型。)的原理和方法。最后借助SPSS軟件,用不同的生存分析模型對白鼠的治療實驗數(shù)據(jù)進行了統(tǒng)計處理,最后得出了影響白鼠生存時間的主要因素。關(guān)鍵詞:生存分析;SPSS;生存數(shù)據(jù)生存分析是指將終點事件和出現(xiàn)此事件所經(jīng)歷的時間結(jié)合起來分析的一種統(tǒng)計分析方法,研究生存現(xiàn)象和現(xiàn)象的響應(yīng)時間數(shù)據(jù)以及其規(guī)律,是處理以生存時間(survival time)為反應(yīng)變量、含有刪失數(shù)據(jù)一類資料的統(tǒng)計方法。此類資料的生存時間變量大多不服從正態(tài)分布,且常含有刪失值,故不適于用傳統(tǒng)的數(shù)據(jù)分析方法如t檢驗或線性回歸進行分析。所謂刪失值,就是因各種原因?qū)﹄S訪對象的隨訪可能失訪或終檢。能處理刪失數(shù)據(jù)也是生存分析的一個優(yōu)點。作為統(tǒng)計科學(xué)的一個重要分支,生存分析的應(yīng)用已經(jīng)由最初的醫(yī)學(xué)領(lǐng)域擴展到了社會科學(xué)、經(jīng)濟學(xué)等諸多領(lǐng)域?!笆录焙汀皦勖笔巧娣治鲅芯恐械膬蓚€重要變元。生存分析研究的主要內(nèi)容包括以下兩個方面:(1)描述生存過程;(2)分析生存過程的影響因素并對生存的結(jié)局加以預(yù)測。通常將生存分析所用到的數(shù)據(jù)稱為生存數(shù)據(jù),生存數(shù)據(jù)又分為完整數(shù)據(jù)和刪失數(shù)據(jù)。生存分析中常用的分析方法很多,按照是否使用參數(shù)可以分為非參數(shù)方法,參數(shù)方法和半?yún)?shù)方法1。下面將從基本概念,生存分析方法,實例解析三方面作具體的介紹。1. 生存分析中的基本概念1.1 事件和壽命生存生存分析中定義的事件有死亡、損壞、失敗、解雇、病發(fā)等等。例如病人的死亡,產(chǎn)品的失效,疾病的發(fā)生,職員被解雇。而壽命則是指試驗或記錄開始到事件發(fā)生所經(jīng)歷的時間。1.2.生存數(shù)據(jù)生存數(shù)據(jù)可以分為完全數(shù)據(jù)和刪失數(shù)據(jù)。完全數(shù)據(jù)是指提供了完整信息的數(shù)據(jù)。例如,在研究產(chǎn)品的失效時間時,某個樣品從進入研究直到失效都在我們的觀察中,可以得到該樣品的具體失效時間,這就是一個完全數(shù)據(jù)。刪失數(shù)據(jù)則是指在觀測期內(nèi),我們并沒有看見個體的狀態(tài)發(fā)生改變,無法確定個體具體的生存時間。又分為左刪失數(shù)據(jù),右刪失數(shù)據(jù),區(qū)間刪失數(shù)據(jù)。生存分析中最常見的是右刪失數(shù)據(jù),是指試驗個體在觀測終止前(或者離開實驗前)一直存活或工作,其失效或死亡發(fā)生在觀測終止(或離開實驗)之后。左刪失數(shù)據(jù)是指我們知道某個體在某時刻前已經(jīng)失效或死亡,但不知道具體的時間。區(qū)間刪失數(shù)據(jù)是指個體在某個時間區(qū)間內(nèi)死亡,但不能確定具體的死亡時間。1.3生存函數(shù)和風(fēng)險函數(shù)生存分析中有兩個重要的函數(shù):生存函數(shù)和風(fēng)險函數(shù)2。生存函數(shù)(survival function)又稱為累積生存率,記作S(t),是指個體生存時間超過t的概率。風(fēng)險函數(shù)(hazard function)又稱瞬時死亡率,記作h(t),是指在t時刻存活的個體,在t+ t 時刻死亡的概率。用T表示個體生存時間,t表示觀測時間,可以用下式描述兩個函數(shù): S(t)=P(Tt) (1.1) (1.2)2. 生存分析方法分類2.1非參數(shù)方法非參數(shù)方法是生存分析中最常用的一種方法。當(dāng)研究的事件不能被參數(shù)模型很好地擬合時,通??梢圆捎梅菂?shù)方法研究它的生存特征。常用的非參數(shù)方法包括生命表分析和Kaplan-Meier分析。生命表法可以用來描述群體的生存現(xiàn)象,適用于大樣本的情況,它的主要優(yōu)點在于對生存時間的分布沒有限制。生命表分析將觀測時間分成時間段,按時間段逐個統(tǒng)計事件發(fā)生的情況,以此估計生存函數(shù)。假設(shè)共有k個時間段 t 0 , t 1) , t 1 , t 2) , , t k-1 , t k ) , 每個區(qū)間中事件發(fā)生的次數(shù)分別為 d 1 ,d 2 , , d k , 每個區(qū)間中的個體總數(shù)分別為 n 1 , n 2 , , n k ,所以在第 i 個區(qū)間個體存活的概率為(n i - d i )/ n i ,而個體可以從第一個區(qū)間存活到第 i 個區(qū)間的概率(累積生存率)為: (2.1) 易知S(t)為遞減函數(shù)。3Kaplan-Meier分析,也稱為乘積極限估計,是Kaplan和Meier二人在1958年提出的一種估計生存函數(shù)的非參數(shù)方法。與生命表分析不同,K-M分析以事件發(fā)生的時間點將觀測區(qū)間分段,用來估計生存函數(shù)。2.2參數(shù)方法若已經(jīng)證明某事件的發(fā)展可以用某個參數(shù)模型很好地擬合,就可以用參數(shù)方法做該事件的生存分析。常用的參數(shù)模型有指數(shù)分布模型、對數(shù)分布模型、正態(tài)分布模型,威泊分布模型,Gompertz分布模型等2。指數(shù)分布是一種應(yīng)用極廣泛的單參數(shù)分布,它最大的特點是風(fēng)險函數(shù)為常數(shù),即: h(t)= (2.2) Gompertz分布是Gompertz在1825年提出的,常用于刻畫人的生存分布,其風(fēng)險函數(shù)為: h(t)=exp(t),t 0 (2.3)Gompertz分布能夠比較好地擬合出生物出生、成長、衰老死亡的全過程,所以目前在人口,保險精算,生物醫(yī)療等領(lǐng)域都得到了廣泛應(yīng)用。威泊分布對應(yīng)的風(fēng)險函數(shù)為: H(t) = pt p-1,t 0 (2.4)當(dāng)p1時,風(fēng)險函數(shù)是時間的增函數(shù);p=1時,風(fēng)險函數(shù)是常數(shù),威泊分布退化為指數(shù)分布;p1時,風(fēng)險函數(shù)是時間的減函數(shù)。2.3半?yún)?shù)方法生存分析中我們常常遇到個體的生存狀況受到多種因素影響的情況。這些對生存時間有影響的變量稱為協(xié)變量。在分析生存數(shù)據(jù)時要將協(xié)變量的影響考慮進去。Cox半?yún)?shù)模型就很好地解決了這個問題。它假定風(fēng)險函數(shù)由兩部分構(gòu)成:基準(zhǔn)風(fēng)險函數(shù)和協(xié)變量線性組合的指數(shù)。Cox半?yún)?shù)模型又分為獨立協(xié)變量比例風(fēng)險模型和時間相依性協(xié)變量比例風(fēng)險模型兩種。二者的區(qū)別在于協(xié)變量的取值是否和時間有關(guān)。Cox獨立協(xié)變量比例風(fēng)險模型可以寫成如下形式2:122) (2.5)式中,Z1,Z2,Zm為協(xié)變量,這里的協(xié)變量與時間無關(guān),1,2,m為對應(yīng)協(xié)變量的未知參數(shù)。h 0(t)是基準(zhǔn)風(fēng)險函數(shù),是當(dāng)所有協(xié)變量的值為0時在t時刻風(fēng)險函數(shù)的值。實際應(yīng)用中常常計算兩個不同個體風(fēng)險函數(shù)的比率,稱為危險率。假定給定的兩個個體的協(xié)變量觀察值分別為(Z1,Z2,Zm)和(Z1*,Z2*,Zm*),那么對應(yīng)的危險率為: (2.6)因此危險率是與時間無關(guān)的常數(shù),式(2.5)因此稱為風(fēng)險比例模型。實際應(yīng)用中協(xié)變量常常是隨時間變化的,此時危險率不再是常數(shù),協(xié)變量隨時間變化的Cox模型稱為時間相依性協(xié)變量比例風(fēng)險模型。3. 實例分析生存分析常用的軟件有 SAS 和SPSS兩種統(tǒng)計分析軟件,本文采用SPSS進行統(tǒng)計分析。兩組小白鼠用來檢驗癌癥的治療狀況。一組使用傳統(tǒng)治療方法,另一組使用試驗方法,試驗人員記錄了小白鼠的存活時間及狀態(tài):Days為存活時間或觀測時間(天);Status表示生存狀態(tài),取值1表示死亡,0表示存活;Group表示治療方法,取0表示傳統(tǒng)療法,取1表示試驗療法,共有64組數(shù)據(jù)。表3. 1 不同治療方法下白鼠的存活時間DaysStatusGroupDaysStatusGroup14410196011641019811188102040118810205111901020801192102200120610240112091024211210002421121410244112160024411216102441122010244112201024911227102540122710261112401026601244002660124400269112440028011244102801124610284012461029611256002961126510330012651034011266103440130410348013441014211404104140115611142111641142411對于一批生存數(shù)據(jù), 在事先不知道壽命分布的總體趨勢, 且又不好判斷應(yīng)該用何種模型最合適時, 多數(shù)學(xué)者一般直接采用非參數(shù)方法或半?yún)?shù)法。但是, 由于非參數(shù)方法的精度一般低于參數(shù)方法。常用的非參數(shù)法為生命表分析法和K-M方法,生命表方法對生存函數(shù)和生存率的估計依賴于生命表中所有的區(qū)間,應(yīng)用假定是總體在每個區(qū)間內(nèi)各處有近似相等的生存概率,乘積限方法是基于一個個數(shù)據(jù)的估計,而非生命表中按區(qū)間分組的數(shù)據(jù),其假設(shè)為事件發(fā)生的概率僅依賴于時間4。本例中并不知道個體在各個區(qū)間的生存概率是否相等,依次用生命表法和K-M法進行分析。3.1生命表法 圖 3.1 生命表法得到的生存函數(shù) 圖 3.2 生命表法得到的風(fēng)險函數(shù)觀察生存函數(shù)的分布可以看出,大約在200天時兩種治療方法的生存函數(shù)相交,在200天以前傳統(tǒng)治療方法的存活率較高,而在200天以后試驗方法的治療效果明顯優(yōu)于傳統(tǒng)治療方法。觀察風(fēng)險函數(shù)的分布,試驗方法的風(fēng)險函數(shù)基本分布在傳統(tǒng)方法一下,風(fēng)險較低。試驗方法的分布趨勢整體呈現(xiàn)較為穩(wěn)定的低水平,而傳統(tǒng)方法的風(fēng)險則整體呈現(xiàn)增長趨勢。表3.2 檢驗結(jié)果Wilcoxon (Gehan) 統(tǒng)計量dfSig.2.9201.088表2的顯著性檢驗結(jié)果p值為0.0880.05,說明兩種治療方法并不存在顯著性差異。3.2 K-M分析表3.3 K-M分析生存表治療方法時間狀態(tài)此時生存的累積比例累積事件數(shù)剩余個案數(shù)估計標(biāo)準(zhǔn)誤01144.0001.967.0331292164.0001.933.0462283188.0001.3274188.0001.867.0624265190.0001.833.0685256192.0001.800.0736247206.0001.767.0777238209.0001.733.0818229210.0000.82110214.0001.698.08492011216.0001.663.087101912216.0000.101813220.0001.111714220.0001.590.092121615227.0001.131516227.0001.516.094141417240.0001.479.094151318244.0001.442.094161219244.0000.161120244.0000.161021244.0000.16922246.0001.17823246.0001.344.09518724256.0000.18625265.0001.19526265.0001.229.09220427266.0001.172.08521328304.0001.115.07322229344.0001.057.05523130404.0001.000.00024011142.0001.1332142.0001.941.040232生存表治療方法時間狀態(tài)此時生存的累積比例累積事件數(shù)剩余個案數(shù)估計標(biāo)準(zhǔn)誤13156.0001.912.0493314164.0001.882.0554305196.0000.4296198.0001.852.0615287204.0000.5278205.0001.820.0676269208.0000.62510220.0000.62411240.0001.786.07272312242.0001.82213242.0001.718.08092114244.0001.102015244.0001.111916244.0001.121817244.0001.581.090131718249.0001.547.091141619254.0000.141520261.0001.510.092151421266.0000.151322266.0000.151223269.0001.468.093161124280.0001.171025280.0001.383.09418926284.0000.18827296.0001.19728296.0001.287.09220629330.0000.20530340.0001.230.08921431344.0000.21332348.0000.21233414.0000.21134424.0001.000.000220表3.4個案處理摘要治療方法總數(shù)事件數(shù)刪失N百分比03024620.0%134221235.3%整體64461828.1%K-M分析方法與生命表法相比記錄了刪失數(shù)據(jù),由于生命表的結(jié)果不夠直觀,最好觀察生存函數(shù)分布,可以較為清楚的看到試驗療法與傳統(tǒng)療法的差異。 圖 3.3 K-M分析累積生存函數(shù) 圖 3.4 K-M分析累積風(fēng)險函數(shù)K-M分析的生存函數(shù)分布與生命表法的生存函數(shù)類似,200天左右是兩種治療方法生存率的分界線。但由于是按照事件的發(fā)生分段,區(qū)段較多,整體呈現(xiàn)密集的鋸齒,而生命表分析的分布則較為平緩。觀察累積風(fēng)險函數(shù)的分布,發(fā)現(xiàn)傳統(tǒng)治療方法的累積風(fēng)險率高于試驗方法,這種趨勢在觀測后期更加明顯。表3.5不同檢驗方法的比較卡方dfSig.Log Rank (Mantel-Cox)4.7951.029Breslow(Generalized Wilcoxon)2.9671.085Tarone-Ware3.7621.052由表3.5知,不同檢驗方法呈現(xiàn)不同的結(jié)果,其中Log Rank檢驗的p值小于0.05,該檢驗表明兩種治療方法有顯著性差異。 除了治療方法對小白鼠的生存狀況有影響,其他因素如性別,年齡,體重等都可能對其生存時間造成影響。考慮到這些協(xié)變量的影響,結(jié)合相關(guān)數(shù)據(jù),用Cox獨立協(xié)變量比例風(fēng)險模型重新分析。其中年齡的單位是天,體重的單位是盎司,F(xiàn)代表雌性,M代表雄性。DaysStatusGroupSexAgeWeight14410F941016410M501018810M571118810F811119010F891019210M711120610M691120910F811221000F991321410M521221600M691221610M671322010M511322010F781222710M581222710F791324010F921324400F981324400F791224400M681324410M591324610F881324610M731325600F831226510F791226510M661226610M591330410M671334410M691340410F861215611F971116411M721019601M611019811M601120401M621120511F811020801M541222001F781224011F771324211M551324211F941324411F891324411M721324411M711224411F911324911F981325401F911326111M761326601M671326601M601326911F971328011F841228011M621328401M521229611F801329611M571333001F771334011M591334401F791334801F971214211M721141401M751214211M531042411M62133.3 Cox獨立協(xié)變量比例風(fēng)險模型分析在利用Cox獨立協(xié)變量比例風(fēng)險模型分析時要考慮到協(xié)變量的種類。本例中年齡和體重為連續(xù)變量,而治療方法和性別不是連續(xù)變量,我們稱之為分類協(xié)變量。并以試驗療法和雄性作為參考變量,在計算兩個不同個體的風(fēng)險函數(shù)比率(危險率)時以它們作為參考。所得危險率即為雌性風(fēng)險函數(shù)/雄性風(fēng)險函數(shù);傳統(tǒng)療法風(fēng)險函數(shù)/試驗療法風(fēng)險函數(shù)。統(tǒng)計結(jié)果如下:表3.6模型系數(shù)的綜合測試a-2 倍對數(shù)似然值整體 (得分)從上一步驟開始更改從上一塊開始更改卡方dfSig.卡方dfSig.卡方df277.12332.3664.00028

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論