分析一生存分析數(shù)據(jù)所想到的_第1頁
分析一生存分析數(shù)據(jù)所想到的_第2頁
分析一生存分析數(shù)據(jù)所想到的_第3頁
分析一生存分析數(shù)據(jù)所想到的_第4頁
分析一生存分析數(shù)據(jù)所想到的_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分析一個存分析數(shù)據(jù)所想到的出現(xiàn)的問題往往多于結(jié)論,從教科書可期待什么,整齊的數(shù)據(jù)(可能有些缺失值) 選好的意義明確的變量 完全確定的研究目標(biāo) 按照一定的模型進(jìn)行擬合 得到可合理解釋的結(jié)果和漂亮的輸出 根據(jù)理論(條件當(dāng)然滿足)做出解釋 一切都令人滿意,但是在實(shí)際中,數(shù)據(jù)形式和想象的差別可能很大 可能很難摸清大量變量的內(nèi)在含義和關(guān)系 研究目標(biāo)經(jīng)常無法事先確定 沒有任何現(xiàn)成的理論來確定什么模型合適 得到各種從統(tǒng)計(jì)或醫(yī)學(xué)均不易解釋的輸出 永遠(yuǎn)不知數(shù)據(jù)是否滿足一些定理和方法的條件 還需面對許多醫(yī)學(xué)和統(tǒng)計(jì)的決策 這些決策很難說哪個“對”或“錯,我們的數(shù)據(jù),一個鼻咽癌數(shù)據(jù)* 只有136個觀測值 其中僅有12

2、9個可用 一共41個變量,其中包括,性別;病人診斷資料,如原發(fā)癥狀、原發(fā)部位、病理分級、B癥狀有無、國際預(yù)兆指數(shù)、國際預(yù)兆指數(shù)合并B癥狀、淋巴結(jié)大小、腫瘤M分期、WHO得分、分化程度、腫瘤T分期、淋巴結(jié)單雙側(cè)、腫瘤TNM分期等指標(biāo);病人治療資料,如治療方案、化療方案、化療周期;病人治療近期效果資料,放療療效、化療療效、總初次治療療效;病人遠(yuǎn)期療效資料,復(fù)發(fā)資料-是否復(fù)發(fā)、復(fù)發(fā)時間、復(fù)發(fā)部位、復(fù)發(fā)腫瘤的TNM分期,合并癥資料-是否發(fā)生合并癥、合并癥發(fā)生時間,生存資料-是否死亡(指因癌癥死亡)、生存時間,我們面對的第一個決策問題,我們所關(guān)心的是復(fù)發(fā)還是死亡 沒有任何理論上的理由來排斥哪一個 它們都

3、和醫(yī)療效果相關(guān),但是 從實(shí)踐的角度,復(fù)發(fā)數(shù)據(jù)顯然比死亡完整 因此我們僅以復(fù)發(fā)事件作為考慮重點(diǎn) 這里我們只考慮和此目的有關(guān)的22個變量(其中20個為“自變量”,常規(guī)的分析方法,進(jìn)行“復(fù)發(fā)時間”的常規(guī)生存分析 這些方法包括: 簡單壽命表 Kaplan-Meier分析 Cox比例風(fēng)險模型 等等,生命表,Kaplan-Meier方法,為了檢驗(yàn)復(fù)發(fā)時間與哪些因素有關(guān) 通常采用了以下三種檢驗(yàn)方法: Log Rank檢驗(yàn) Breslow檢驗(yàn) Tarone-Ware檢驗(yàn) 三者的區(qū)別在于其檢驗(yàn)統(tǒng)計(jì)量對不同時間的事件賦予的權(quán)重不同,Kaplan-Meier方法,根據(jù)三種檢驗(yàn)結(jié)果可知 有顯著影響意義的因素包括: T

4、分期、放療療效、化療療效、總初次治療療效 可能有意義的因素包括: 性別、原發(fā)癥狀、ipi和b癥、有無轉(zhuǎn)移、化療周期數(shù)等 于是可以估計(jì)生存函數(shù)(畫圖,一些變量的三種檢驗(yàn)結(jié)果,一些累積生存函數(shù)估計(jì)圖,有些可以區(qū)別明顯 有些不明顯 有些看不出來,生存函數(shù)圖(性別區(qū)分,生存函數(shù)圖 (關(guān)于T分期,生存函數(shù)圖 (關(guān)于初次療效,生存函數(shù)圖 (ipi和b癥,生存函數(shù)圖 (放療療效,EN:鞏固治療,CR:完全治愈,PR:部分治愈, S:輕微緩解(或者是沒變化) PD:腫瘤進(jìn)展,生存函數(shù)圖 (化療療效,EN:鞏固治療,CR:完全治愈,PR:部分治愈, S:輕微緩解(或者是沒變化) PD:腫瘤進(jìn)展,Cox Regr

5、ession,自變量:20個變量 逐步回歸:Forward:LR Ordinal變量處理:當(dāng)作分類變量,Cox Regression,注: M分期為”有無轉(zhuǎn)移” T分期為“腫瘤組織學(xué)分期,選中了M分期和T分期,Cox Regression,生存函數(shù)圖(TM分期,對這些結(jié)果的解釋企圖,確診時的T分期和M分期對于腫瘤的復(fù)發(fā)有顯著影響。 確診時其T分期較早的話,則治療后復(fù)發(fā)的可能性要小于T分期較晚的人群,即使復(fù)發(fā),其復(fù)發(fā)時間也相對要晚一些。 M分期也是一樣。 因此,能在癌癥早期及時發(fā)現(xiàn)是鼻咽癌診治的一個重點(diǎn),三種檢驗(yàn)不一致時的解釋,控制“有無B癥狀”因素,分析放療效果與復(fù)發(fā)的關(guān)系 其復(fù)發(fā)時間分布的L

6、og Rank檢驗(yàn)結(jié)果并不顯著,p-值=0.0744,而另外兩個檢驗(yàn)的結(jié)果是顯著的,Breslow檢驗(yàn), p-值=0.0280,Tarone-Ware檢驗(yàn), p-值=0.0403,三種檢驗(yàn)不一致時的解釋,多數(shù)文獻(xiàn)只進(jìn)行Log Rank檢驗(yàn),而很少用后兩種 這三種檢驗(yàn)有什么區(qū)別呢? 看看這些檢驗(yàn)背后的機(jī)理 這三個檢驗(yàn)的零假設(shè)都是檢驗(yàn)各組間生存分布相同 三個檢驗(yàn)的統(tǒng)計(jì)量均是基于比較每個時點(diǎn)的實(shí)際發(fā)生事件數(shù)與期望發(fā)生事件數(shù),三種檢驗(yàn)不一致時的解釋,這三個檢驗(yàn)的主要區(qū)別在于對不同時間點(diǎn)的權(quán)重不同: Log Rank檢驗(yàn)對每個事件的權(quán)重相同,無論其發(fā)生早晚 Breslow檢驗(yàn)按照在風(fēng)險中的個體數(shù)對事件加

7、權(quán),而在風(fēng)險中的個體時間而減少,因此早期發(fā)生的事件權(quán)重晚期發(fā)生的事件權(quán)重大 Tarone Ware檢驗(yàn)按照在風(fēng)險中的個體數(shù)的平方根對事件加權(quán),因此結(jié)果則介于前面二者之間,對早期事件的權(quán)重要小于Breslow檢驗(yàn),大于Log Rank檢驗(yàn),因而其統(tǒng)計(jì)量和p-值也介于二者之間,三種檢驗(yàn)不一致時的解釋,面對以上的分析數(shù)據(jù),可以認(rèn)為:放療效果對于復(fù)發(fā)來講,是有顯著影響的 但是其影響更多的是對早期復(fù)發(fā),而對晚期復(fù)發(fā)的影響可能要小一些,定序變量看作分類變量或者定量變量,一些方便(傻瓜)軟件默認(rèn)地把定序變量看作分類變量來處理 如果我們把這些Ordinal變量作Interval變量來處理的話,用同樣的Forw

8、ard:LR方法和自變量,結(jié)果又將如何呢,最后我們發(fā)現(xiàn)結(jié)果和上面完全不同。作為分類變量處理時,“T分期”和“M分期”作為兩個重要變量被篩選出來 而作為連續(xù)變量處理時,“國際預(yù)后指數(shù)(ipi)合并B癥狀”則是唯一被選中的變量,定序變量看作分類變量或定量變量,這種結(jié)果該如何解釋? 哪個結(jié)果更可信呢? 問題是在什么情況下,定序變量可作連續(xù)變量來處理,什么情況可作分類變量來處理呢,定序變量看作分類變量或定量變量,對分類變量而言,常將缺失數(shù)據(jù)作為單獨(dú)一組(如問卷調(diào)查中的“不知道”) 這種處理在數(shù)據(jù)整理中為保證數(shù)據(jù)的工整是無可指責(zé)的 但是如果在分析中依然將其作為單獨(dú)一組參與分析,則可能對結(jié)果會有影響,缺失

9、數(shù)據(jù)處理,而將缺失值不納入分析時,輸出為,不將缺失值(未進(jìn)行化療者)去掉,有,數(shù)據(jù)量問題,數(shù)據(jù)量不夠?qū)е卤驹摍z測出的差別檢測不出來 在對“有無轉(zhuǎn)移”進(jìn)行分析時,我們可以得到以下檢驗(yàn)結(jié)果,有無轉(zhuǎn)移”真的沒有影響嗎,從醫(yī)學(xué)專業(yè)知識來判斷,“有無轉(zhuǎn)移”對于腫瘤預(yù)后而言是有顯著影響的 那究竟是什么地方出了問題呢? 可以察看一下數(shù)據(jù)量 “有轉(zhuǎn)移”的病例數(shù)為6例,其中有3例是刪失數(shù)據(jù),只有3例發(fā)生了終點(diǎn)事件, “無轉(zhuǎn)移”病例數(shù)有33例發(fā)生了終點(diǎn)事件, 拿這樣兩組人群進(jìn)行比較時,由于一組人群數(shù)量太少而不能檢出其差別,數(shù)據(jù)量問題,數(shù)據(jù)量不夠?qū)е洛e誤結(jié)論,從專業(yè)知識出發(fā),“ipi合并B癥狀”變量得分越高的人群其

10、疾病的嚴(yán)重性越高,而從上面的分析數(shù)據(jù),可以看到得分為2的人群其平均復(fù)發(fā)時間要長于得分為1的人群 為什么,數(shù)據(jù)量問題,這樣一個不合適結(jié)論是由數(shù)據(jù)量不夠而導(dǎo)致,作研究時,不能盲目看結(jié)果,還要充分考慮樣本量。這一點(diǎn)在很多的文獻(xiàn)中也是被忽略掉的。片面觀察結(jié)果,會忽視了結(jié)果的可靠性,分類數(shù)據(jù)的合并問題,在治療方案的分析中,發(fā)現(xiàn)“治療方案”并不是一個顯著因素,分類數(shù)據(jù)的合并問題,但是觀察其數(shù)據(jù)發(fā)現(xiàn),化療患者只有2人發(fā)生了終點(diǎn)事件,這一類樣本量較少,分類數(shù)據(jù)的合并問題,如把“化療” 一類剔除,并把“先放后化”、“先化后放”、“化放化”三類合并之后,則有,如把“化療”一類剔除,并把“先放后化”、“先化后放”兩

11、類合并為“化放結(jié)合”之后,則會有,結(jié)果差別很大;到底應(yīng)該如何操作呢,混雜因素,依然舉“治療方案”的例子,如將“性別”作為分層變量來控制其混雜效應(yīng),則對于男性,混雜因素,而對于女性,混雜因素,對于全體(控制性別影響之后,值得思考,用決策樹方法(C5.0)進(jìn)行分析 將“是否復(fù)發(fā)”(1為非復(fù)發(fā),2為復(fù)發(fā))作為目標(biāo)變量,將其余20個變量作為X變量,分析這些X變量與“復(fù)發(fā)”的關(guān)系,用決策樹方法進(jìn)行分析,用決策樹方法進(jìn)行分析,得到如下規(guī)則。如其中黑體顯示部分表示:T分期為2,性別為2,國際預(yù)兆指數(shù)為2的病例有7例,其中71.4%為復(fù)發(fā)者,用決策樹方法進(jìn)行生存數(shù)據(jù)的分析,有兩點(diǎn)要注意: 1)決策樹方法是一種

12、數(shù)據(jù)挖掘算法,它對于樣本量的要求要比一般統(tǒng)計(jì)方法要大 2)決策樹方法不能充分利用生存時間信息,其結(jié)果的可靠性有待商討。 不過該方法還是可以作為規(guī)律初步探索的工具,用決策樹方法進(jìn)行分析,對于連續(xù)數(shù)據(jù)進(jìn)行離散化時,如本例中的淋巴結(jié)大小,按照淋巴結(jié)的實(shí)際厘米數(shù)將病例劃分為四組,none,6cm 這些分割點(diǎn)看上去是根據(jù)“專業(yè)經(jīng)驗(yàn)”而選擇的,它們不見得是合適的 如何確定分割點(diǎn),而不是人為地、隨意地進(jìn)行指定呢? 或者根本沒必要將連續(xù)變量進(jìn)行離散,分隔點(diǎn)問題,許多分隔據(jù)說是鑒于醫(yī)學(xué)經(jīng)驗(yàn) 這些醫(yī)學(xué)分隔又有沒有統(tǒng)計(jì)的支持呢? 上面的分隔很規(guī)整:3cm、6cm及以上 類似于“無信息”先驗(yàn)分布 有沒有“無信息”先驗(yàn)

13、分布呢? 誰也說不清哪個空間是“原始空間”還是“變換后的空間” 下面的圖形可能有些啟發(fā),無信息”vs“經(jīng)驗(yàn),等間隔”和“內(nèi)緊外松”的互相變換,等間隔”和“外緊內(nèi)松”的互相變換,等間隔”和“下緊上松”的互相變換,等間隔”和“下緊上松”的互相變換,把連續(xù)變量換成離散變量的現(xiàn)象非常普遍。這包括社會、經(jīng)濟(jì)、醫(yī)療衛(wèi)生等幾乎生活的所有方面 這是不是前計(jì)算機(jī)時代的以定性為主的思維方式的繼續(xù)呢? 但可以肯定的是,離散化不僅失去大量信息、造成處理復(fù)雜化,而且必然會產(chǎn)生分隔點(diǎn)確定的合理性問題 也給產(chǎn)生各種“貓膩”留出了大量的空間,分隔點(diǎn)問題,二維列聯(lián)表,在我們數(shù)據(jù)中共有21個變量(包括“是否復(fù)發(fā)”)在理論上可以組成210個二維列聯(lián)表,但是其中有143個有一個以上空格 在67個無空穴(共210個)二維列聯(lián)表中Pearson統(tǒng)計(jì)量卡方檢驗(yàn)的p值只有4個小于0.05,二維列聯(lián)表,共有134個二維列聯(lián)表能用不太費(fèi)時間的Fisher精確檢驗(yàn),但只有18個p值小于0.05,從二維列聯(lián)表分析,我們可以看到B癥狀的有無和T分期有密切關(guān)系 實(shí)際上,有B癥狀的人中T分期較嚴(yán)重的比例要大于無B癥狀的人。 而且在列聯(lián)表分析中也可以看到有B癥狀的病例其放療療效也劣于無B癥狀者。 是否復(fù)發(fā)和T分期顯著相關(guān),列聯(lián)表的相關(guān)性分析雖然無法和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論