版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第1章基本概念
第1節(jié)生存資料的特點
生存資料(SurvivalData)或失效時間資料(Failure-timeData)與多元線性回歸資料很相似,只不過因變量(或反應(yīng)變量)通常為觀測對象生存的時間,常用t來表示。當(dāng)然,生存時間是廣義的,可以指在通常意義下生物體的生存時間、也可以指所關(guān)心的某現(xiàn)象(如疾病治愈后、合格品使用后)持續(xù)的時間。若生存時間是準(zhǔn)確觀測到的,則稱為完全數(shù)據(jù)。生存資料的一個明顯特點是:所收集的資料中常常包含不完全數(shù)據(jù),也稱為截尾數(shù)據(jù)、刪失數(shù)據(jù)、終檢數(shù)據(jù)(CensoredData)。包括刪失數(shù)據(jù)的資料,稱為刪失資料。對于刪失數(shù)據(jù),既不能簡單地棄之,踴能像對待完全數(shù)據(jù)那樣給予充分的信任,需要采取一些技術(shù)處理。專門處理這種資料的統(tǒng)計方法,稱為生存分析(SurvivalAnalysis)。
導(dǎo)致數(shù)據(jù)刪失有多種原因,最常見的有:失訪(病人因搬家、隨訪信件丟失、車禍等原因,導(dǎo)致醫(yī)生對他們的隨訪觀察中斷)和研究截止。由隨機因素引起的,稱為隨機刪失;若事先就定了截止日期,則稱為定時刪失(也稱Ⅰ型刪失);若事先就定了觀察完多少例就截止研究,則稱為Ⅱ型刪失(也稱為定數(shù)刪失)。在表達刪失數(shù)據(jù)時,常在其右上角放一個“+”號;而用SAS軟件分析時,常在其前放一個“-”號或產(chǎn)生1個指示變量(如:C=0表示刪失數(shù)據(jù)、C=1表示完全數(shù)據(jù),反過來也可以),便于計算時區(qū)別對待。為了使數(shù)據(jù)的表達與計算在形式上統(tǒng)一起來,本篇一律用負(fù)數(shù)表示刪失數(shù)據(jù),因生存時間不可能為負(fù)值,故不會產(chǎn)生混淆。
第2節(jié)生存時間函數(shù)
描述生存時間規(guī)律的函數(shù)很多,統(tǒng)稱為生存時間函數(shù)。其中最主要的有生存函數(shù)、死亡概率函數(shù)、概率密度函數(shù)和危險率函數(shù)。
1.生存函數(shù)(SurvivalFunction)
生存函數(shù)也稱為生存概率或累積生存率,常用S(t)表示,它表示一個體生存時間長于t的概率。在具體問題中,該函數(shù)在t時刻的取值可用式(5.1.1)來估計∶
S(t)≈生存時間長于t的病人數(shù)/病人總數(shù)(5.1.1)
2.死亡概率函數(shù)(FailureProbabilityFunction)
死亡概率函數(shù)簡稱為死亡概率,常用F(t)表示,它表示一個體從開始觀察起到時刻t為止的死亡概率。它可以通過S(t)求得(詳后)。
3.概率密度函數(shù)(ProbabilityDensityFunction)
概率密度函數(shù)簡稱為密度函數(shù),常用f(t)表示,它表示一個體死于(t,t+△t)小區(qū)間內(nèi)的概率的極限。在具體問題中,該函數(shù)在t時刻的取值可用式(5.1.2)來估計∶
f(t)≈t時刻開始的區(qū)間內(nèi)死汀人數(shù)/(病人總數(shù)×區(qū)間寬度)(5.1.2)
4.危險率函數(shù)(HazardFunction)
危險率函數(shù)也稱為風(fēng)險函數(shù)、瞬時死亡率、年齡別死亡率、條件死亡率,常用h(t)表示,它表示已存活到t的一個體,死于(t,t+△t)小區(qū)間內(nèi)的概率的極限。在具體問題中,該函數(shù)在t時刻的取值可用式(5.1.3)來估計∶
h(t)≈t時刻開始的區(qū)間內(nèi)死汀人數(shù)/(生存到t的病人數(shù)×區(qū)間寬度)(5.1.3)
5.上述幾個函數(shù)之間的相互關(guān)系(5.1.4)(5.1.5)(5.1.6)(5.1.7)
上述各函數(shù)中“'”代表對t求導(dǎo)數(shù),“∫”代表積分。
第3節(jié)生存分析方法的分類
像普通統(tǒng)計分析一樣,生存分析也有一套完整的方法:統(tǒng)計描述(包括求生存時間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計、判斷生存時間的圖示法);非參數(shù)檢驗(檢驗分組變量各水平所對應(yīng)的生存曲線是否一致,常用的方法有對數(shù)秩檢驗(Log-rankTest)、威爾科克森檢驗(WilcoxonTest)和似然比檢驗(LikelihoodratioTest));COX模型(半?yún)?shù)模型)回歸分析(在特定的假設(shè)之下,建立生存時間隨多個危險因素變化的回歸方程);參數(shù)模型回歸分析(已知生存時間服從特定的參數(shù)模型時,擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地刻劃變量之間的變化規(guī)律)。
第2章生存資料的非參數(shù)統(tǒng)計方法
第1節(jié)統(tǒng)計描述與非參數(shù)分析概述
1.統(tǒng)計描述
常用來反映一組生存時間平均水平的統(tǒng)計指標(biāo)有中位數(shù)、平均數(shù)2種,因生存資料多為正偏態(tài),故往往選用中位數(shù)更符合資料的特點。
對于壽命資料,首先需給出各時間點上生存函數(shù)的估計值,常用的方法有:乘積─極限法(Product-LimitMethod,簡稱PL法)和壽命表法(Life-TableMethod,簡稱LT法)。PL法是利用ti時刻之前各時間點上生存率的乘積來估計在時刻ti的生存函數(shù)S(ti)、而LT表法是通過計數(shù)落入時間區(qū)間[ti-1,ti]內(nèi)的失效和刪失的觀察例數(shù)來估計S(ti)。
若能知道壽命函數(shù)的具體,可有的放矢地去選用相應(yīng)的參數(shù)模型擬合資料,是非常有益的。實現(xiàn)這一目的途經(jīng)是圖解法,如:用(t,-logS(t))畫圖,若成一條直線,表明S(t)呈指數(shù);又如:用(logt,log(-logS(t))畫圖,若成一條直線,表明S(t)呈圖爾。當(dāng)然,也有一些統(tǒng)計檢驗方法,如:判斷是否服從指數(shù)的G檢驗法、判斷是否服從圖爾的Mann-Scheuer-FertigTiku檢驗法和判斷是否服從對數(shù)正態(tài)的W檢驗法等,具體檢驗方法參見有關(guān)專著。
2.各層間生存曲線的齊性檢驗
設(shè)全部受試者接受了k只同的處理,這k種處理實際上就是一個名義分類變量或楓因素的k個水平,于是,可按層估計生存函數(shù)。研究者常需比較k條生存曲線之間是否有顯著差別,其方法有多種,SAS中用了以下3種:對數(shù)秩檢驗(Log-rankTest)、威爾科克森檢驗(WilcoxonTest)和似然比檢驗(LikelihoodratioTest)。用它們來實現(xiàn)各層之間的齊性檢驗。
3.上述3種非參數(shù)檢驗的比較
當(dāng)生存時間的為指數(shù)、圖爾或?qū)儆诒壤kU模型時,Log-rank檢驗效率較高;當(dāng)生存時間的為對數(shù)正態(tài)等時,Wilcoxon檢驗效率較高;似然比檢驗是建立在指數(shù)模型上的,故當(dāng)資料偏離此模型時,其結(jié)果不如前2種檢驗方法穩(wěn)健。
4.協(xié)變量與生存時間聯(lián)系密切程度的檢驗
當(dāng)資料中還包含與生存時間有關(guān)的其他連續(xù)變量(即協(xié)變量)時,也可分析它們與生存時間聯(lián)系的密切程度。為實現(xiàn)此檢驗,LIFETEST過程中提供了2個分別建立在指數(shù)得分和威爾科克森得分基礎(chǔ)之上的刪失數(shù)據(jù)線性秩統(tǒng)計量─Log-rankTest和WilcoxonTest,這2種檢驗通過合并楓變量后進行計算,從而,校正了楓變量的影響。除了對重復(fù)(ties)生存時間的處理方法不同外,這里所說的2種檢驗與實現(xiàn)各層之間齊性檢驗中所提到的前2種檢驗是相同的。
為了不把讀者的注意力引向復(fù)雜的計算,特將上述各種方法的具體計算公逝在本章第3節(jié)中再介紹,以便必要時備查。
第2節(jié)用LIFETEST過程實現(xiàn)統(tǒng)計計算
[例5.2.1]某醫(yī)生收集到35例白血病患者治療后的生存時間t(月),仔細觀察后發(fā)現(xiàn)這些病人中有一部分人出現(xiàn)了白細胞(WBC)倍增的現(xiàn)象?,F(xiàn)將他們按是否出現(xiàn)WBC倍增分成2組如下(注:負(fù)值代表刪失數(shù)據(jù)),試用生存分析方法分析患者有無WBC倍增,對其生存時間長短有無顯著影響。
A組(有WBC倍增):2,-2.5,3.5,4,4,-5,6,-6,7,-7,8,-9,10.5,12.5,19;
B組(無WBC倍增):2.5,5,7,-8.5,9,-10,11,-11,12,13,-14,15,-16,17,-18,19,-20,21,
24,32。
[SAS程序]──[D5P1.PRG]
DATAabc;PROCLIFETESTMETHOD=PL
INFILE'a:hlwbc.dat';PLOTS=(S,LS,LLS);
INPUTlt@@;TIMEt*censor(1);
IFlt<0THENcensor=1;STRATAgroup;
ELSEcensor=0;RUN;
IF_N_<16THENgroup='high-wbc';PROCLIFETESTMETHOD=LIFE
ELSEgroup='low-wbc';PLOTS=(S,H);
t=ABS(lt);TIMEt*censor(1);
STRATAgroup;
RUN;
(程序的第1部分)(程序的第2部分)
[程序修改指導(dǎo)]用全部35個數(shù)據(jù)建立的數(shù)據(jù)文件名為HLWBC.DAT,第1個IF語句產(chǎn)生1個指示變量CENSOR,其取值為1時為刪失數(shù)據(jù)、取值為0時為完全數(shù)據(jù)。第2個IF語句產(chǎn)生1個分組變量GROUP,前15個數(shù)據(jù)屬于有WBC倍增組、后20個數(shù)據(jù)屬于無WBC倍增組。對表示刪失和完全數(shù)據(jù)的變量lt取絕對值是為了保證參與計算的生存時間t都是正值。
第1個過程步是選擇PL法計算(它也是隱含的方法)、第2個過程步是選擇LT法計算。PLOTS=要求繪圖,其中S表示生存函數(shù)、L表示取對數(shù)、H表示危險率函數(shù),圖形的橫坐標(biāo)與縱坐標(biāo)分別為:
S─(t,S)、LS─(t,-log(S))、LLS─(log(t),log(-(log(S))))、H─(t,H)
生存時間t與指示變量以乘法的形式寫在TIME語句中、分組變量寫在STRATA語句中。
當(dāng)用壽命表(LT)法分析資料時,程序會自動形成生存時間的區(qū)間,也可人為指定生存時間的分組區(qū)間。做法是:在PROC語句的分號之前加上INTERVALS=(atobbyc),a、b、c分別為初值、終值、步長(必須是具體數(shù)值),步長的缺省值為1。
如果資料中還含有數(shù)值型的協(xié)變量,可將它們寫在TEST語句中,如:TESTx1x2x3;以便檢驗協(xié)變量與生存時間聯(lián)系的密切程度。當(dāng)然,若有PHREG和LIFEREG過程,用它們建立起因變量t隨自變量(即危險因素)變化的回歸模型,可更好地揭示變量之間的內(nèi)在聯(lián)系。
[輸出結(jié)果及其解釋]
Product-LimitSurvivalEstimates
GROUP=high-wbc
①②③④⑤⑥
Survival
StandardNumberNumber
TSurvivalFailureErrorFailedLeft
0.00001.000000015
2.00000.93330.06670.0644114
2.5000*...113
3.50000.86150.13850.0911212
4.0000...311
4.00000.71790.28210.1198410
5.0000*...49
6.00000.63820.36180.130458
6.0000*...57
7.00000.54700.45300.140066
7.0000*...65
8.00000.43760.56240.148774
9.0000*...73
10.50000.29170.70830.155082
12.50000.14590.85410.129091
19.000001.00000100
*CensoredObservation
Quantiles75%12.5000Mean9.0775
50%8.0000StandardError1.6768
25%4.0000
這是用PL法對第1組生存資料進行統(tǒng)計描述的結(jié)果。標(biāo)號①~⑥分別是生存時間、生存概率、死亡概率、生存概率的標(biāo)準(zhǔn)誤差、已觀察到的不同失效時間的數(shù)目、尚未觀察到的不同失效或刪失時間的數(shù)目,打*號的是刪失觀察值。接著,給出了生存時間的四分位數(shù)、均數(shù)及其標(biāo)準(zhǔn)誤差。結(jié)果顯示∶第1組患者中有25%的人(約4人)的生存時間短于4個月,即有75%的人的生存時間長于4個月;同理,可解釋P50=8(個月)、P75=12.5(個月)的含義。由此可知∶該組患者的中數(shù)生存期為8個月、平均生存期約為9個月。
Product-LimitSurvivalEstimates
GROUP=low-wbc
Survival
StandardNumberNumber
TSurvivalFailureErrorFailedLeft
0.00001.000000020
2.50000.95000.05000.0487119
5.00000.90000.10000.0671218
7.00000.85000.15000.0798317
8.5000*...316
9.00000.79690.20310.0908415
10.0000*...414
11.00000.74000.26000.1006513
11.0000*...512
12.00000.67830.32170.1095611
13.00000.61660.38340.1156710
14.0000*...79
15.00000.54810.45190.121488
16.0000*...87
17.00000.46980.53020.126896
18.0000*...95
19.00000.37590.62410.1317104
20.0000*...103
21.00000.25060.74940.1348112
24.00000.12530.87470.1113121
32.000001.00000130
*CensoredObservation
Quantiles75%24.0000Mean17.1618
50%17.0000StandardError2.2053
25%11.0000
這是用PL法對第2組生存資料的統(tǒng)計描述結(jié)果。各列的解釋同上,從略。第2組患者的
中數(shù)生存期為17個月、平均生存期約為17個月。
SummaryoftheNumberofCensoredandUncensoredValues
GROUPTotalFailedCensored?nsored
high-wbc1510533.3333
low-wbc2013735.0000
Total35231234.2857
這是2組患者的總?cè)藬?shù)、死亡數(shù)、刪失數(shù)和刪失百分比。
SurvivalFunctionEstimates
SSDF|
u1.0+*---HL
r|H*-HH-L---L
v||L---L---L
i|H---HL-L-L
v|H-HL---L
a0.5+H-HL---L---L
l|H----HL---L
|H---HL-----L
D|||
i|H------------HL---------------L
s0.0+HL
t---+----+----+----+----+----+----+----+----+----+----+----+----+----+---
r0.02.55.07.510.012.515.017.520.022.525.027.530.032.5
i
T
這是反映2組患者生存情況的生存曲線圖,H表示有WBC倍增組、L表示無WBC倍增組,從圖上可明顯看出:無WBC倍增患者比有WBC倍增患者的生存期長。
CensoredObservations
Strata
L+LLLLLLL
H+HHHHH
-------+------+------+------+------+------+------+------+-------
05101520253035
T
這幅圖反映了各組患者刪失時間的情況。
-Log(SurvivalFunction)Estimates
N-LOGSDF|
e2+H+L
g|+++
a|+++
t|++L
i|+H++
v1+++++L
e|+H+++L+
|+H++L+
L|H+++H++L+L+L+
o|+H++L+++L+++L+
g0+*+++H*++
-+----+----+----+----+----+----+----+----+----+----+----+----+----+
S0.02.55.07.510.012.515.017.520.022.525.027.530.032.5
D
T
這是按(t,-log(S(t))繪出的圖,2條線都不呈直線趨勢,說明生存時間不呈指數(shù)。
Log(-Log(SurvivalFunction))Estimates
LL(-L(S))|
o2+
g|
|++H+L
N0++H++++H++L+L+L+
e|++++H++H++LL++L+
g|+H+++++L+++L
a-2++++++H++++++L++++++L++
t|H+++*++++++
i|
v-4+
e|
---+----+----+----+----+----+----+----+----+----+----+----+----+---
L0.500.751.001.251.501.752.002.252.502.753.003.253.50
o
LogT
LegendforStrataSymbols
H:GROUP=high-wbcL:GROUP=low-wbc
這是按(logt,log(-log(S(t)))繪出的圖,2條現(xiàn)別近似呈直線趨勢,說明生存時間近似呈圖爾。
TestingHomogeneityofSurvivalCurvesoverStrata
RankStatistics
①GROUPLog-RankWilcoxon
high-wbc5.073946117
low-wbc-5.07395-117
②CovarianceMatrixfortheLog-RankStatistics
GROUPhigh-wbclow-wbc
high-wbc3.36249-3.36249
low-wbc-3.362493.36249
③CovarianceMatrixfortheWilcoxonStatistics
GROUPhigh-wbclow-wbc
high-wbc2161.30-2161.30
low-wbc-2161.302161.30
④TestofEqualityoverStrata
Pr>
TestChi-SquareDFChi-Square
Log-Rank7.656510.0057
Wilcoxon6.333710.0118
-2Log(LR)2.834710.0922
這是關(guān)于各層生存曲線之間齊性檢驗的結(jié)果。①用2種檢驗方法算得公式(5.2.20)中的向量v,即v=(5.073946,-5.07395)'(Log-Rank法)、v=(117,-117)'(Wilcoxon法)。②、③分別用2種檢驗法算得此式中的協(xié)方差矩陣V,它們都是計算④中卡方值的中間結(jié)果,讀者最需要的是第④部分。這里給出了3種檢驗法的檢驗結(jié)果∶P值依次為0.0057(Log-Rank法)、0.0118(Wilcoxon法)、0.0922(似然比檢驗法,-2Log(LR))。
LifeTableSurvivalEstimates
GROUP=high-wbc
⑴⑵⑶⑷⑸⑹
Conditional
EffectiveConditionalProbability
IntervalNumberNumberSampleProbabilityStandard
[Lower,Upper)FailedCensoredSizeofFailureError
054114.50.27590.1174
510348.00.37500.1712
1015203.00.66670.2722
1520101.01.00000
⑺⑻⑼⑽⑾
SurvivalMedianMedian
IntervalStandardResidualStandard
[Lower,Upper)SurvivalFailureErrorLifetimeError
051.0000009.12702.4177
5100.72410.27590.11746.50002.1213
10150.45260.54740.14403.75002.1651
15200.15090.84910.1322..
EvaluatedattheMidpointoftheInterval
⑿⒀⒁⒂
PDFHazard
IntervalStandardStandard
[Lower,Upper)PDFErrorHazardError
050.05520.02350.0640.031588
5100.05430.02630.0923080.051855
10150.06030.03120.20.122474
15200.03020.02640.40
這是用LT法對第1組資料進行統(tǒng)計描述的結(jié)果。編號⑴~⒂所代表的含義分別為:⑴按區(qū)間寬度=5將生存時間自動劃分成若干區(qū)間、⑵死亡數(shù)、⑶刪失數(shù)、⑷有效樣本大小、⑸死亡的條件概率、⑹第⑸列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⑺區(qū)間左端點處生存概率、⑻區(qū)間左端點處死亡概率、⑼第⑺列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⑽中數(shù)剩余生存壽命(即在時刻ti活著的人有一半可望生存到的時間)、⑾第⑽列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⑿區(qū)間中點概率密度函數(shù)的估計值、⒀第⑿列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⒁區(qū)間左端點處危險概率的估計值、⒂第⒁列數(shù)據(jù)的標(biāo)準(zhǔn)誤差。
此處是用LT法對第2組資料進行統(tǒng)計描述的結(jié)果(從略),解釋方法同上。用3種檢驗方法給出的結(jié)果與用PL方法算得的結(jié)果相同,從略。
PL法與LT法的區(qū)別:在用計算機處理數(shù)據(jù)時,計算麻煩的苦惱已不存在,故PL法可適用于各種情況;當(dāng)用手工計算且樣本含量較大時,用LT法更方便一些。哩的計算結(jié)果基本上是一致的。PL法可看成是LT法的特殊情況,每個生存時間的區(qū)間寬度都為1。
[專業(yè)結(jié)論]因前面的圖示結(jié)果已表明此資料不服從指數(shù),近似服從圖爾,故宜選用Log-Rank法或Wilcoxon法檢驗的結(jié)果。均拒絕H0、接受H1,即2組生存曲線之間差別顯著,無WBC倍增患者的生存期顯著地長于有WBC倍增的患者。
【例5.2.2】1965年某市腫瘤醫(yī)院總結(jié)隨訪了15年曾在該醫(yī)院住院手術(shù)的乳腺癌患者607例,整理后的資料如下,試分析該醫(yī)院乳腺癌患者手術(shù)后的生存率。
術(shù)后年數(shù):0~1~2~3~4~5~6~7~8~9~10~
期內(nèi)死亡人數(shù):59694330137144300
期內(nèi)失訪人數(shù):6371553831262111151222
【分析與解答】此生存資料以分組的形式給出,SAS程序可按如下方式編寫。
【SAS程序】━━【D5P2.PRG】
DATAabc;6359
KEEPftc;7169
RETAINt-0.5;5543
INPUTwithdrawfail;3830
t=t+1;3113
c=0;267
f=fail;2114
OUTPUT;114
c=1;153
f=withdraw;120
OUTPUT;220
CARDS;;
(程序的第1部分)(程序的第2部分)
PROCLIFETESTPLOTS=(S,LS,LLS,H,P)
INTERVALS=(0TO10)METHOD=LT;
TIMEt*c(1);
FREQf;
RUN;
(程序的第3部分)
因篇幅所限,程序修改指導(dǎo)、輸出結(jié)果及其解釋等項內(nèi)容從略。
第3節(jié)生存資料非參數(shù)統(tǒng)計方法中的有關(guān)計算公式
1.乘積─極限法(Product-Limit,PL法或稱為Kaplan-Meier,KM法)
讓t1<t2<…<tk代表離散的失效(死亡或復(fù)發(fā)等)時間,設(shè)ni為第i個時刻開始之前生存的個體數(shù)目,即危險集的大小(i=1,2,…,k),再設(shè)di是在時刻ti失效的個體數(shù)目、si=ni-di。則在時刻ti的生存函數(shù)的PL估計值是ti時刻之前各時間點上生存率的乘積,即(5.2.1)
式中的估計量屬于右連續(xù)的,即在ti時刻發(fā)生的失效事件已包括在S^(ti)的估計中。與它對
應(yīng)的標(biāo)準(zhǔn)誤的估計值可用Greenwood的公式來計算:(5.2.2)
生存時間的第1樣本四分位數(shù)定義如下:(5.2.3)
第2、3樣本分位數(shù)可用類似的方式計算。q.50(即第2樣本分位數(shù))就是中位數(shù),也就是中數(shù)生存期。
平均生存時間的估計值為∶(5.2.4)
式中t0=0。若最后一個是刪失數(shù)據(jù),此式就低估了平均數(shù)。μ^的標(biāo)準(zhǔn)誤差被定義為:(5.2.5)
式中。
2.壽命表法(Life-Table,LT法)
壽命表估計量通過計數(shù)落入時間區(qū)間[ti-1,ti]內(nèi)的失效和刪失的觀察例數(shù)來計算,這
里i=1,2,…,k+1,t0=0、tk+1=∞。令ni為進入?yún)^(qū)間[ti-1,ti]內(nèi)的個體數(shù)目、di和wi分別為發(fā)生在此區(qū)間內(nèi)的事件(指死亡或失效,下同)數(shù)目和刪失數(shù)目、bi=ti-ti-1、n'i=ni-wi/2;
n'i被稱為此區(qū)間內(nèi)有效的樣本大小。再令tmi為此區(qū)間的中點、p^i=1-q^i。事件在此區(qū)間內(nèi)發(fā)生的條件概率及其標(biāo)準(zhǔn)誤差的估計值分別由式(5.2.6)和(5.2.7)定義:(5.2.6)(5.2.7)
在時刻ti生存函數(shù)的估計值及其標(biāo)準(zhǔn)誤差的估計值分別由式(5.2.8)和(5.2.9)定義:(5.2.8)(5.2.9)
在tmi處的密度函數(shù)及其標(biāo)準(zhǔn)誤差的估計值分別由式(5.2.10)和(5.2.11)定義:(5.2.10)
(5.2.11)
在tmi處的危險率函數(shù)及其標(biāo)準(zhǔn)誤差的估計值分別由式(5.2.12)和(5.2.13)定義:(5.2.12)
(5.2.13)
設(shè)在區(qū)間[tj-1,tj]內(nèi)滿足關(guān)系式S^(tj-1)≥S^(ti)/2>S^(tj),則在ti處的中數(shù)剩余壽命(即在ti活著的人有一半可望生存到的時間)及其標(biāo)準(zhǔn)誤差的估計值由式(5.2.14)和(5.2.15)
定義:(5.2.14)(5.2.15)
3.各層間生存曲線的齊性檢驗
(1)對數(shù)秩檢驗和Wilcoxon檢驗
檢驗各層之間齊性所用的秩統(tǒng)計量為:
v'V-v~χ2,df=R(V)(5.2.16)
式中R(V)(即協(xié)方差矩陣V的秩),從而可獲得近似的概率水平。這里,v是一個c×1的向量(v1,v2,…,vc)',其具體表達式為:(5.2.17)]
這里c是分層變量的層數(shù);協(xié)方差矩陣V=(Vjl)由下式來估計:(5.2.18)
這里下標(biāo)i表示離散的失效時間,當(dāng)j=l時,δjl=1;其他情況下,δ=0。nij和dij分別是第i個失效時間第j層中危險集的大小與事件數(shù)目,、、。Vj可以解釋為:在生存曲線相同的假設(shè)之下,觀察的與期望的失效數(shù)目之差的加權(quán)和。
當(dāng)權(quán)wi=1時為對數(shù)秩檢驗;當(dāng)權(quán)wi=ni時為Wilcoxon檢驗。V-代表V的廣義逆矩陣。由此可知:數(shù)值較大的失效時間在對數(shù)秩檢驗統(tǒng)計量中所起的作用大;而數(shù)值較小的失效時間在威爾科克森檢驗統(tǒng)計量中所起的作用大(因通常壽命短的頻數(shù)較大)。
(2)似然比檢驗
當(dāng)資料各層之間服從指數(shù)的假設(shè)成立時,檢驗各層之間齊性(即檢驗指數(shù)的尺度參數(shù)相等)的似然比檢驗統(tǒng)計量由式(5.2.19)定義:(5.2.19)
這里Nj是第j層內(nèi)事件的總例數(shù),,是第j層中用于檢驗的總時間、mj是第j層中觀察的總例數(shù)、。把Z視為服從自由度為c-1的卡方分布,從而求得近似的概率水平。
4.協(xié)變量與生存時間聯(lián)系密切程度的檢驗
用于檢驗協(xié)變量與生存時間聯(lián)系密切程度的秩檢驗是用于齊性檢驗的秩檢驗的更一般推廣,這種秩檢驗統(tǒng)計量具有如下的形式:(5.2.20)
式中v由式(5.2.21)定義、V-為V的廣義逆矩陣、V分別由式(5.2.22)與(5.2.24)定義:(5.2.21)
當(dāng)此式中時,為對數(shù)秩得分檢驗;
當(dāng)此式中時,為Wilcoxon得分檢驗。
式(5.2.21)中下標(biāo)及符號的含義如下:
α是觀測對象的編號,α=1,2,…,n;n是觀察的總數(shù);i,j=1,2,…,k(k為不同的時間點數(shù));t(j)代表有序的事件時間;Z(j)代表相應(yīng)的協(xié)變量向量;tα代表有序時間(含刪失與事件時間)。δα=1(如果觀察到事件發(fā)生)、δα=0(如果觀察到刪失發(fā)生);得分Cα,δα取決于刪失的類型、且對全部觀察值求和。
用于對數(shù)秩統(tǒng)計量的協(xié)方差矩陣的估計量是:(5.2.22)
式中Vi是與t(j)時危險集所對應(yīng)的校正的平和與交叉乘積和構(gòu)成的矩陣,即(5.2.23)
式中
用于Wilcoxon統(tǒng)計量的協(xié)方差矩陣的估計量為下式(其編號為∶(5.2.24))∶此式中ai、a*i、Si、xi、si分別為:、、
、
第3章COX模型回歸分析
第1節(jié)COX回歸模型(半?yún)?shù)回歸模型)
像通常的回歸分析一樣,人們也希望能建立起生存時間(因變量或反應(yīng)變量)隨危險因素(自變量或協(xié)變量)變化的回歸方程,以便對危險因素的作用大小有一個全面的了解和掌握、并根據(jù)危險因素的不同取值對生存概率(或危險率)進行預(yù)測。由于生存時間的準(zhǔn)確很難獲得,前述目的很難直接實現(xiàn)。1972年COX提出了比例危險模型(ProportionalHazardModel),簡稱為COX模型。由于此模型在表達形式上與參數(shù)模型相似,但在對模型中各參數(shù)進行估計時踴依賴于特定的假設(shè),所以又有半?yún)?shù)模型之稱。此模型的實用面很寬,在生存分析中占有特殊的地位。其模型的具體形式為:
hi(t)=h0(t)exp(β1xi1+β2xi2+…+βmxim)(5.3.1)
式中hi(t)為第i名受試者生存到ti時刻的危險率函數(shù),h0(t)是當(dāng)所有危險因素(即xij=0)不存在時的基礎(chǔ)危險率函數(shù),X=(xi1,xi2,…,xim)'是可能與生存時間有關(guān)的m個危險因素所構(gòu)成的向量。將式(5.3.1)變形如下:
ln[hi(t)/h0(t)]=β1xi1+β2xi2+…+βmxim(5.3.2)
此式表明:各危險因素與回歸系數(shù)的線性組合就是第i名受試者的相對危險率函數(shù)的自然對數(shù)值。再設(shè)有i、j2個受試者,其危險因素向量分別為X1與X2,由式(5.3.1)不難得出他們的相對危險率的自然對數(shù)為:
ln[hi(t)/hj(t)]=β1(xi1-xj1)+β2(xi2-xj2)+…+βm(xim-xjm)(5.3.3)
即利用“具有某預(yù)后因素向量的受試者的死亡風(fēng)險與不具有該預(yù)后因素向量的受試者的死亡風(fēng)險在所有時間上都保持一個恒定比例”的假設(shè),巧妙地獲得了各時間點上2個受試者相對危險率函數(shù)的估計值。
然而,當(dāng)資料不滿足上述假設(shè)時,即有些危險因素作用的強度是隨時間而變化的,2個受試者的危險率函數(shù)之比(相對危險)隨時間而改變,就應(yīng)改用時變協(xié)變量模型,也稱為非比例危險模型(Nonproportionalhazardmodel)。當(dāng)只有一個危險因素時,其模型的具體形式為:
hi(t)=h0(t)exp[βxi+γ(xiti)](5.3.4)
式中ti為第i個受試者的生存時間。
上述各式中的回歸系數(shù)需用最大似然法進行估計,一旦有了危險率函數(shù)的估計值,再利用生存時間函數(shù)之間的相互關(guān)系,可獲得其他生存時間函數(shù)的估計值。
第2節(jié)COX模型回歸分析應(yīng)用舉例
[例5.3.1]某醫(yī)院腫瘤科提供的一份關(guān)于肺癌病人的失效時間資料,因變量(或反應(yīng)變量)為病人治療后的生存時間t(天),當(dāng)t為刪失數(shù)據(jù)時,用前面加一個負(fù)號來表示;考察的協(xié)變量(即危險或預(yù)后因素)如下。
①癌細胞的類型(Cell$),它有4個水平,即腺癌細胞(adeno)、鱗癌細胞(squamous)、小細胞肺癌(small)和大細胞肺癌(large);
②治療類型(THERAPY$),它有2個水平,即標(biāo)準(zhǔn)的方法(standard)和試驗的方法(test);
③療前處理(PRIOR$),它有2個水平,即采取了療前處理(yes)和未采取療前處理(no);
④病人的年齡(age)(歲);
⑤從診斷到治療的等待時間(diagtime);
ⅰ人的行動狀態(tài)用Karnofsky率來度量,其取值用KPS表示,10≤KPS≤30表明病人完全靠醫(yī)院護理、40≤KPS≤60表明病人的行動部分地受到限制、70≤KPS≤90表明病人的行動可以自理。
前3個變量被當(dāng)作分類變量,后3個變量被當(dāng)作連續(xù)性變量。資料的形式為:
各組病人的治療方法、癌細胞類型,同一組中的樣本含量
生存時間、KPS值、diagtime值、年齡、與療前處理對應(yīng)的指示變量PR值
(注:PR=0等價于令PRIOR='YES',即表示采取了療前處理;PR=10等價于令PRIOR='NO',即表示未采取療前處理)。全部數(shù)據(jù)如下(文件名:lung.dat):
STANDARDSQUAMOUS15
7260769041170564102286033801266096310
118701165101020549082401069101108029680
3145018430-10070670042604810840586310
144304630-2580952101170114810
STANDARDSMALL30
306036103846094204402350548046310
13604560-123403550-9760567015360146310
593026501178034601630453101515012690
226046805680124310214025510182015420
139802640203056503175365052702550
2876025661018304600516016701228028530
27608620547016707507720635011480
3924046801040236710
STANDARDADENO9
82019611092701060035406620117802380
1328055001250463101628056403303430
95804340
STANDARDLARGE15
177501666101628056202165015520553702470
2786012630124012681026080545020080124110
156702660-1829026201439086001058011660
103805380250708531010060133710
TESTSQUAMOUS20
99990125410112806600-87803480-2315085210
2425017009917075010111703620120216510
58760358038990262033306640252036630
3577013580467902640201802852101507350
30701163044601370102839025101550134010
TESTSMALL18
25302690-103702236102120471013302620
8760260024036441020309541072011660
2460849099703720880268099854620
617027102570270095701610805017710
513087591029408670
TESTADENO18
24402600184056910-8399357031803390
5160562090602250105260343073603700
850566036708610481048107404580
140703630186903600848046210195010420
4540369080404630
TESTLARGE12
5260445016470156810193043910536012660
15305630436011491034080106410133751650
1116056402317018671037880465049303370
[SAS程序]──[D5P3.PRG]
DATAvalung;PROCPHREG;
RETAINtherapycell;MODELt*censor(1)=kpsagediagtime;
LENGTHprior$3;RUN;
INFILE'a:lung.dat';PROCPHREG;
INPUTtherapy$cell$n;MODELt*censor(1)=kpsagediagtime;
DOi=1TOn;STRATAcell;
INPUTtkpsdiagtimeagepr@@;RUN;
censor=(t<0);PROCPHREG;
t=ABS(t);MODELt*censor(1)=kpsagediagtime;
IFpr=10THENprior='yes';STRATAcelltherapyprior;
ELSEprior='no';RUN;
OUTPUT;
END;
(程序的第1部分)(程序的第2部分)
[程序修改指導(dǎo)]調(diào)用PHREG過程時,MODEL語句等號右邊必須是連續(xù)性變量。這里所寫的3個過程步的區(qū)別在于STRATA語句中所包含的楓變量的個數(shù):第1個過程步不含STRATA語句,就是把所有資料看成來自1個總體;第2個過程步要求按CELL的4個水沏分析資料;第3個過程步要求按CELL、THERAPY、PRIOR的16種水平組合楓分析資料。顯然,在分層的條件下,COX所作的比例危險假設(shè)容易得到滿足,但各層的樣本含量不應(yīng)太小。
另外,若連續(xù)變量很多時,可在MODEL語句最后增加選擇項/SELECTION=方法名,進行變量篩選。方法名有如下幾種:
BACKWARD或B(后退法)、FORWARD或F(前進法)、STEPWISE或S(逐步回歸法)、SCORE(最優(yōu)回歸子集法)。
[輸出結(jié)果及其解釋]ThePHREGProcedure
TestingGlobalNullHypothesis:BETA=0
WithoutWith
CriterionCovariatesCovariatesModelChi-Square
-2LOGL397.545363.88133.665with3DF(p=0.0001)
Score..34.158with3DF(p=0.0001)
Wald..31.510with3DF(p=0.0001)
此結(jié)果表明:含3個自變量的COX回歸模型是顯著的(P<0.0001)。
AnalysisofMaximumLikelihoodEstimates
ParameterStandardWaldPr>Risk
VariableDFEstimateErrorChi-SquareChi-SquareRatio
KPS1-0.0361270.0065530.446860.00010.965
AGE1-0.0215710.011573.476020.06230.979
DIAGTIME10.0064260.012450.266240.60591.006
這是用最大似然法對模型中各參數(shù)估計并檢驗的結(jié)果,顯然,只有變量KPS是顯著的(P<0.0001)。這里給出的只是最后1個過程步輸出的結(jié)果,因前2個過程步輸出的結(jié)果與此結(jié)果相似,從略。詳細的討論請看下面的例子。
[例5.3.2]若用LIFETEST過程預(yù)處理此資料會發(fā)現(xiàn):不同細胞類型的生存曲線之間差別非常顯著,生存曲線從左到右依次為:ADENO、SMALL、LARGE、SQUAMOUS。在[例5.3.1]中,請設(shè)法將變量CELL引入COX模型中來,重建模型。
[分析與解答]因分類變量無法直接放入回歸方程,這對模型的擬合是不利的。補救的辦法是:引入啞變量,使分類變量轉(zhuǎn)變成數(shù)值袖量后再用PHREG過程(請看本例);若已知生存時間近似服從某特定的參數(shù)模型時,可直接用LIFEREG過程擬合參數(shù)模型,因參數(shù)模型中可包含2類變量(請看[例5.4.1])。于是,可對變量CELL作變換,使它變成3個啞變量。對數(shù)據(jù)文件作如下修改(改程序較困難):把ADENO改成100;把SMALL改成010;把LARGE改成001;把SQUAMOUS改成000。如第1行
STANDARDSQUAMOUS15應(yīng)改為:STANDARD00015,其他如法炮制。
程序[COXLUNG.PRG]的數(shù)據(jù)步中第1個INPUT語句和過程步需作如下修改
INPUTtherapy$adenosmalllargen;
程序[COXLUNG.PRG]中的過程步需作如下修改(因其他連續(xù)變量的作用不顯著,故未將它們寫入下面的模型語句之中):
PROCPHREG;
MODELt*censor(1)=kpsadenosmalllarge;
STRATAtherapyprior;
RUN;
[輸出結(jié)果及其解釋]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度公寓裝修與智能家居集成合同2篇
- 大學(xué)生職業(yè)生涯規(guī)劃大賽
- 全國山西經(jīng)濟版小學(xué)信息技術(shù)第二冊第一單元活動10《圖文并茂練排版》說課稿
- 山東省泰安市新泰市2024-2025學(xué)年四年級上學(xué)期期末質(zhì)量檢測數(shù)學(xué)試題參考答案
- 8000噸二甲基二硫醚生產(chǎn)項目可行性研究報告模板-立項備案
- 湖北省十堰市城區(qū)2024-2025學(xué)年四年級上學(xué)期期末數(shù)學(xué)試題參考答案
- 浙江省杭州市(2024年-2025年小學(xué)六年級語文)部編版能力評測(下學(xué)期)試卷及答案
- 2024年事業(yè)單位教師招聘言語理解與表達題庫附答案
- Unit2 Special Days Lesson 3(說課稿)-2023-2024學(xué)年人教新起點版英語五年級下冊
- 貴州盛華職業(yè)學(xué)院《近代建筑引論》2023-2024學(xué)年第一學(xué)期期末試卷
- GB/T 19326-2022鍛制支管座
- GB/T 9740-2008化學(xué)試劑蒸發(fā)殘渣測定通用方法
- GB/T 7424.1-1998光纜第1部分:總規(guī)范
- 拘留所教育課件02
- 護士事業(yè)單位工作人員年度考核登記表
- 兒童營養(yǎng)性疾病管理登記表格模板及專案表格模板
- 天津市新版就業(yè)、勞動合同登記名冊
- 數(shù)學(xué)分析知識點的總結(jié)
- 2023年重癥醫(yī)學(xué)科護理工作計劃
- 年會抽獎券可編輯模板
- 感染性疾病標(biāo)志物及快速診斷課件(PPT 134頁)
評論
0/150
提交評論