醫(yī)學數(shù)據(jù)挖掘第二章1預測型知識_第1頁
醫(yī)學數(shù)據(jù)挖掘第二章1預測型知識_第2頁
醫(yī)學數(shù)據(jù)挖掘第二章1預測型知識_第3頁
醫(yī)學數(shù)據(jù)挖掘第二章1預測型知識_第4頁
醫(yī)學數(shù)據(jù)挖掘第二章1預測型知識_第5頁
已閱讀5頁,還剩81頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于臨床數(shù)據(jù)發(fā)現(xiàn)預測型知識例1從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇(mmol/L)的測量結果

2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26單變量資料例對10例肺癌病人和12例矽肺(硅沉著病)0期工人用X線片測量肺門橫徑右側距RD值(cm),結果見下表。問肺癌病人的RD值是否高于矽肺0期工人的RD值?肺癌病人矽肺0期工人RD值RD值2.783.233.233.504.204.044.874.155.124.286.214.347.184.478.054.648.564.759.604.824.955.10單變量資料表212只大白鼠的進食量與體重增加量序號進食量(g)體重增加量(g)1305.723.62188.614.73277.219.24364.827.75285.318.96244.716.17255.917.28149.812.99268.918.310247.617.711168.813.712200.615.6合計2957.9215.6變量y變量x雙變量資料醫(yī)學上,還有許多現(xiàn)象之間也都有類似的或強或弱的相互依存變化的關系,如:身高與體重、體溫與脈搏、年齡與血壓、胰島素與血糖水平、癌癥病人術后的生存時間和腫瘤級別與年齡等等多變量資料預測型知識、分類知識、關聯(lián)知識預測型知識指的是預測連續(xù)值,是根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù)。這類知識可以被認為是以時間為關鍵屬性的關聯(lián)知識,因此關聯(lián)知識挖掘方法可以應用到以時間為關鍵屬性的源數(shù)據(jù)挖掘中。分類知識挖掘:分類通常用來預測對象的類標號。然而,在某些應用中,人們可能希望預測某些遺漏的或不知道的數(shù)據(jù)值,而不是類標號。當被預測的值是數(shù)值數(shù)據(jù)時,通常稱之為預測。預測用于預測數(shù)據(jù)對象的連續(xù)取值,如:可以構造一個分類模型來對銀行貸款進行風險評估(安全或危險);挖掘預測型/關聯(lián)知識線性回歸(LinearRegression)一元線性回歸多元線性回歸Cox回歸(CoxRegression)logistic回歸(logisticRegression)線性回歸兩變量間存在某種內(nèi)在聯(lián)系,且某一變量Y隨著另一變量X的變動而變動,其散點圖呈直線趨勢,則統(tǒng)計上把這種描述兩變量間依存變化的數(shù)量關系的現(xiàn)象稱為直線回歸數(shù)據(jù)散點圖直線回歸方程的一般表達式X:自變量(independentvariable),通常也稱為“解釋變量”(explanatoryvariable)

*只有一個自變量,稱簡單回歸(simpleregression)

*多個自變量,稱多元回歸(multipleregression)Y:應變量(dependentvariable),通常也稱為“反應變量”(responsevariable)a為截距(intercept),b為回歸系數(shù)(regressioncoefficient)回歸系數(shù)b的統(tǒng)計學意義:X每增加(或減少)一個單位,Y平均改變b個單位目的:作出以多個自變量估計應變量的多元線性回歸方程。資料:應變量為定量指標;自變量全部或大部分為定量指標,若有少量定性或等級指標需作轉換。用途:解釋和預報。意義:由于事物間的聯(lián)系常常是多方面的,一個應變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標的影響。線性回歸(LinearRegression)

表1多元線性回歸分析的數(shù)據(jù)結構實驗對象yX1X2X3

….XP

1y1a11a12a13

…a1p

2y2a21a22a23

…a2p

3y3a31a32a33

…a3p

nynan1an2an3

…anp

━━━━━━━━━━━━━━━━━━其中:y取值是服從正態(tài)分布表27名糖尿病人的血糖及有關變量的測量結果

缺失值及處理多元線性回歸中,由于觀察變量較多,容易造成缺失(20%以內(nèi))處理:剔除缺失過多的研究對象或變量用均數(shù)替代缺失值-4-202442-2-4極端值造成回歸線上抬刪除該極端值極端值及處理剔除極端值1.賦值錯誤2.單個極端值影響結果明顯明顯違背理論與常規(guī)機制保留極端值極端值較多非強影響值非線性處理:結合專業(yè)知識,考慮回歸方程中加入變量多次方項。

?=a1+b1x1+b2x12對變量數(shù)據(jù)進行轉換對數(shù)變換、log變換

XY原則:各實測點至直線的縱向距離的平方和為最小求解回歸直線最小二乘法(leastsquaremethod)原理表27名糖尿病人的血糖及有關變量的測量結果

R實現(xiàn)線性回歸lm(formula,data,method="qr")參數(shù)解釋:formula代表要做回歸的式子,data是數(shù)據(jù),選定方法例子:data<-read.table("C:\\R實現(xiàn)\\線性回歸數(shù)據(jù).txt",header=T);colnames(data)<-c("X1","X2","X3","X4","Y");#%總膽固醇(X1)、甘油三酯(X2)、胰島素(X3)、糖化血紅蛋白(X4)、血糖(Y)lm(Y~X1+X2+X3+X4,data);結果:Y=5.94+0.14X1+0.35X2-0.27X3+0.64X4挖掘預測型知識線性回歸(LinearRegression)一元線性回歸多元線性回歸Cox回歸(CoxRegression)

logistic回歸(logisticRegression)Cox比例風險回歸模型在醫(yī)學中,一方面要看治療結局的好壞,另一方面還要看生存時間的長短隨訪研究(follow-upstudy)是醫(yī)學中常用前瞻性研究。該類數(shù)據(jù)通過隨訪得到,稱為隨訪資料不同方法對某病人(癌癥、反復發(fā)作疾?。┥鏁r間(緩解時間)與結局(生存率)比較兩種方法腎移植病人術后腎的生存時間和結局(生存率)比較生存時間(t):從起始事件到終點事件之間所經(jīng)歷的時間跨度稱為生存時間

t=結局事件出現(xiàn)日期-事件的起始日期疾病確診隨訪時間死亡治療開始隨訪時間死亡/治愈結局事件:指結局出現(xiàn)的特征,如疾病的死亡、復發(fā)、發(fā)生(y=1或0)生存數(shù)據(jù)的結果變量(Y)有兩個:時間(t)值,t>0結局狀態(tài)(y)=“如死亡或截尾值”生存數(shù)據(jù)完全和不完全數(shù)據(jù)一部分研究對象可觀察到死亡,從而得到準確的生存時間,所提供的信息是完全的,稱為完全數(shù)據(jù)另一部分病人由于失訪、意外事故或到觀察結束時仍存活等原因,無法知道確切的生存時間,提供了不完全的信息,稱為不完全數(shù)據(jù)(截尾數(shù)據(jù)、刪失數(shù)據(jù):consordata)時間(t)=截尾事件日期-起始事件日期記為t+。(例:10+月)隨訪的方式1.全部觀察對象同時接受不同處理(起點相同)隨訪方式:多見于動物實驗隨訪的方式2.觀察對象在不同時間接受處理因素(起點不同)隨訪方式:臨床試驗研究Cox比例風險回歸模型生存時間的長短不僅與治療措施有關,還可能與病人的體質(zhì)、年齡、病情的輕重等多種因素有關。如何找出其中那些因素與生存時間有關、哪些無關呢?生存資料的特點生存時間的分布一般為非正態(tài)分布含有截尾數(shù)據(jù)(consoreddata),信息不完全截尾數(shù)據(jù)提供的信息雖然是不完全的,但也很有價值,不應隨便刪除。由于存在不完全數(shù)據(jù),不能用多元線性回歸分析1972年英國統(tǒng)計學家CoxDR.提出了一種能處理多因素生存分析數(shù)據(jù)的比例危險模型(Cox'sproportionalharzardmodel)。

設含有p個變量x1,x2,…,xp及時間T和結局C的n個觀察對象.其數(shù)據(jù)結構見表3。

表3COX模型數(shù)據(jù)結構實驗對象tCX1X2X3

….XP

1t11a11a12a13

…a1p

2t20a21a22a23

…a2p

3t30a31a32a33

…a3p

ntn1an1an2an3

…anp數(shù)據(jù)結構Cox比例風險回歸模型在分析單個因素或同時分析2個或2個以上因素對生存時間影響的時候,我們需要通過Cox比例風險模型來解決這些問題。借助于多元線回歸及Logistic模型構造的思想

Logistic模型:

ln[P/(1-P)]=β0+β1X1+β2X2…+βpXp多元線回歸

Y^=β0+β1X1+β2X2+…+βpXp

等式右邊不變。能不能左邊直接用時間T代替Y或者P?設不存在因素X1、X2、Xp的影響下,病人t時刻死亡的風險率為h0(t),

存在因素X1、X2、Xpt的影響下,t時刻死亡的風險率為h(t)。COX提出:用死亡風險率的比h(t)/h0(t)代替P/(1-P)即得。h(t,x)=h0(t)exp(-0.7169X3b

-1.0077X3c+0.3585X4+0.1603X5+0.7019X8c+0.2703X9)Cox比例風險回歸模型當事件發(fā)生時間與多個影響因素有關時,可用Cox比例風險回歸分析影響因素對自變量的影響情況??捎糜谘芯扛鞣N因素對于生存期長短的關系,進行單因素或多因素分析。以風險函數(shù)(hazardfunction)作為應變量,以各影響因素作為自變量,做自然指數(shù)回歸方程?;貧w方程的表達式為X1,X2,????,Xm是協(xié)變量

1,2,??????,m是回歸系數(shù),由樣本估計而得。Cox比例風險回歸模型Cox回歸分析是生存分析的一種半?yún)?shù)分析方法h0(t)是未知的由于Cox比例風險模型不是直接利用時間t的全部信息,而只是利用了時間t所提供的順序統(tǒng)計量的信息,故稱之為半?yún)?shù)方法優(yōu)點:多因素分析方法不考慮生存時間分布利用截尾數(shù)據(jù)風險函數(shù)(風險率)h(t,x)表示當各協(xié)變量值X固定時的風險函數(shù),它和h0(t)成比例,所以該模型又稱為比例風險模型(proportionalhazardmodel)表示已生存到時間t的觀察對象,從生存時間t到t+Δt這一非常小的區(qū)間內(nèi)死亡的概率極限,即生存時間已達到t的一群觀察對象在時刻t的瞬時死亡率。用來估計死亡風險的大小。表示所有協(xié)變量Xi均為0時的危險率,一般是未知的。基礎風險率是未知數(shù),但它和風險函數(shù)呈比例。H0(t)與時間有關的任意函數(shù),其分布和形狀無明確的假定,是非參數(shù)的部分。基礎風險函數(shù)(率)j表示自變量變化一個單位,引起的死亡風險改變倍數(shù)的自然對數(shù)值。j是模型中參數(shù)部分,通過樣本觀察值估計,j的計算采用偏似然函數(shù)?;貧w系數(shù)的意義參數(shù)部分j>0,表示當Xj增大時,h(t)也增大,即病人死亡的風險增大,越大使生存時間越短,說明該自變量是死亡的危險因素。j=0,表示Xj的變化不會引起病人死亡風險的改變。j<0,表示當Xj增大,h(t)則減小,即病人死亡的風險減小,越大使生存時間越長,說明該自變量是死亡的保護因素。j的假設檢驗可用最大似然比檢驗、Wald檢驗和計分檢驗,并以此作為篩選變量的依據(jù)?;貧w系數(shù)的意義相對危險度表示其他自變量不變的情況下,某自變量從某個值變化為另一個值時,風險函數(shù)的變化情況。這是一個與時間無關的統(tǒng)計量。計算公式為:假定自變量Xj的取值為0和1時,其相對危險度為

變量xj暴露水平時的風險率與非暴露水平時的風險率之比稱為風險比HR(hazardratio)hr=eβi

hr風險比相對危險度RR風險比HR如果HR/RR接近1,說明該自變量不會影響危險函數(shù);如果大于1,則是危險因素;如果小于1,則是保護因素。COX回歸的應用1)因素分析分析哪些因素(協(xié)變量)對生存期的長短有顯著作用。對各偏回歸系數(shù)作顯著性檢驗,如顯著,則說明在排除其它因素的影響后,該因素與生存期的長短有顯著關系。(2)求各因素在排除其它因素的影響后,對于死亡的相對危險度(或比數(shù)比)如某因素Xi的偏回歸系數(shù)為bi,

則該因素Xi對于死亡的相對危險度為exp(bi)當Xi為二值變量時,如轉移(1=轉移,0=不轉移),exp(bi)為轉移相對于不轉移對于死亡的相對危險度(或比數(shù)比)當Xi為等級變量時,如淋巴結轉移,分0,1,2,3,4五個等級。exp(bi)為每增加一個等級,死亡的相對危險度,如等級3相對于等級0其死亡的相對危險度為:

exp(3bi)當Xi為連續(xù)變量時,如年齡(歲)exp(bi)為每增加一歲時,死亡的相對危險度如60歲相對于35歲其死亡的相對危險度為exp(25bi)3)比較各因素對于生存期長短的相對重要性比較各標準化偏回歸系數(shù)bi’絕對值的大小,絕對值大的對生存期長短的作用也大。(4)考察因素之間的交互作用如考察XL和XK之間的交互作用是否顯著,再增加一各指標:XLK=XL*XK

,如其偏回歸系數(shù)bLK顯著,則XL和XK之間的交互作用顯著。R實現(xiàn)cox回歸coxph(Surv(time,censored)~class,data=)library(survival);參數(shù)解釋:

time代表樣本的生存時間,censored是刪失數(shù)據(jù),0代表未知,1代表死亡class可以分為兩種,一種是離散數(shù)據(jù),一種是連續(xù)數(shù)據(jù)data代表cox回歸所用的數(shù)據(jù)R實現(xiàn)單變量cox回歸library(splines);library(survival);data<-read.table("C:\\R實現(xiàn)\\coxregressiondata.txt",sep="\t",header=T);colnames(data)<-c("type","sample","grade","age","sex","mutation","time","censored");R實現(xiàn)單變量cox回歸data[data[,5]==0,5]<-"female";data[data[,5]==1,5]<-"male";data[data[,6]==0,6]<-"nomutation";data[data[,6]==1,6]<-"mutation";t1<-coxph(Surv(time,censored)~type,data);t2<-coxph(Surv(time,censored)~age,data);t3<-coxph(Surv(time,censored)~sex,data);t4<-coxph(Surv(time,censored)~mutation,data);R實現(xiàn)單變量cox回歸回歸系數(shù)HR值P值TypeII1(refrence)III-2.3350.09692.7e-05IV0.8952.44732.2e-03Age0.03691.040.00049Sexfemale1(refrence)male0.1511.160.55Mutationmutation1(refrence)nomutation1.213.379.5e-05R實現(xiàn)單變量cox回歸coxph(Surv(time,censored)~type+age+mutation,data);生存分析總流程1.篩選影響生存的風險因素通過單變量分析篩選有價值的自變量,然后通過多變量cox回歸考慮因素的獨立性采用前進法、后退法和逐步回歸法篩選進入模型的自變量,建立最佳模型。2.生存率的估計與生存曲線估計生存函數(shù)。比較各組的生存函數(shù)。幾個率概念死亡率、死亡概率、生存概率、生存率死亡率:表示在單位時間(年)內(nèi)死亡發(fā)生的頻率(年平均死亡水平)。死亡概率(F):在某時間(t)開始存活的個體,死于(t+△t)該時段內(nèi)的可能性。生存概率、生存率生存概率(pi=1-F)指某時間段開始存活的個體到該時間段結束時仍存活的概率。生存率(survivalrate)稱為生存函數(shù)記為S(t)指觀察對象從起始事件(如手術時間為0點)開始,到t時刻仍存活的概率。常用n年生存率表示。時間ti,i=1,2,3…n例:某病病人術后生存率

生存期初死亡生存死亡生存生存率時段人數(shù)人數(shù)人數(shù)概率概率[0,1]10010900.10.90.90[1,2]9010800.110.890.80[2,3]8020600.250.750.60

生存曲線2.生存曲線:(survivalcurve)指各時點(t)為橫軸,生存率S(t)為縱軸,連接一起的曲線圖。描述生存率在各時點(t)的變化過程。3.半數(shù)生存期(中位數(shù)生存時間)即生存率為0.5時對應的時間(t),描述一組數(shù)據(jù)平均生存時間。注:生存時間(t)是正偏態(tài)分布。生存曲線以時間t為橫坐標,S(t)為縱坐標所作的曲線稱為生存率曲線,

它是一條下降的曲線,下降的坡度越陡,表示生存率越低或生存時間越短,其斜率表示死亡速率。生存率的估計方法

生存率S(t)的估計方法有參數(shù)法和非參數(shù)法。參數(shù)法可求出一個方程表示生存函數(shù)S(t)和時間t的關系,畫出的生存曲線是光滑的下降曲線。常用非參數(shù)法非參數(shù)法只能得到某幾個時間點上的生存函數(shù),再用直線聯(lián)起來,畫出的生存曲線是呈梯型的。非參數(shù)法主要有二個,即,乘積極限法與壽命表法,前者主要用于觀察例數(shù)較少而未分組的生存資料,后者適用于觀察例數(shù)較多而分組的資料,不同的分組壽命表法的計算結果亦會不同當分組資料中每一個分組區(qū)間中最多只有1個觀察值時,壽命表法的計算結果與乘積極限法完全相同。乘積極限法(Product-LimitMethod)簡稱為積限法或PL法,它是由統(tǒng)計學家Kaplan和Meier于1958年首先提出的,因此又稱為Kaplan-Meier法,是利用條件概率及概率的乘法原理計算生存率及其標準誤的。設S(t)表示t年的生存率,s(ti/ti-1)表示活過ti-1年又活過ti年的條件概率,例如s(1),s(2)分別表示一年,二年的生存率,而s(2/1)表示活過一年者,再活一年的條件概率,據(jù)概率的乘法定律有:S(2)=S(1)S(2/1),一般地有S(ti)=S(ti-1)S(ti/ti-1)例22.1用某中藥加化療(中藥組)和化療(對照組)兩種療法治療白血病后,隨訪記錄各患者的生存時間,不帶"+"號者表示已死亡,即完全數(shù)據(jù),帶"+"號者表示尚存活,即截尾數(shù)據(jù),試作生存分析。時間單位為月。中藥組(16名,死亡8人)10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24對照組(10名,死亡7人)2+,13,7+,11+,6,1,11,3,17,7資料中藥組積限法計算生存率─────────────────────────────────────時間狀態(tài)期初人數(shù)死亡人數(shù)條件生存率累積生di∑di/ni(ni-di)累積生存

tisinidi(ni-di)/ni存率^S(ti)ni(ni-di)率標準誤①②③④⑤⑥⑦⑧⑨=⑥√⑧─────────────────────────────────────2活

4死1510.93330.93330.0047620.0047620.06446活

6活

8活

9死1110.90900.84850.0090910.0138530.09999活

10死910.88890.75420.0138890.0277420.125612活

13死710.85710.64650.0238100.0515510.146818死610.83330.53870.0333330.0848850.157019活

24死410.75000.40400.0833330.1682180.165726死310.66670.26940.1666670.3348850.155931死210.50000.13470.5000000.8348850.123143活─────────────────────────────────────壽命表法(LifeTableMethod)適用于隨訪的病例數(shù)較多,將資料按生存期進行分組,在分組的基礎上計算生存率,本法也能用于不分組的資料,此時計算結果與積限法相同。

某醫(yī)院1946年1月1日到1951年12月31日收治的126例胃癌病例,生存情況如表22.2,試用壽命表法估計生存率。表22.2126例胃癌患者壽命表法估計生存率─────────────────────────────────────────────────────時間(年)期初例數(shù)死亡例數(shù)失訪例數(shù)截尾例數(shù)有效例數(shù)條件生存率累積生存率di∑di/ni(ni-di)累積生存

tin'idiuiwini^S(ti/ti-1)^S(ti)ni(ni-di)率標準誤⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽⑾=⑻√⑽─────────────────────────────────────────────────────0-12647415116.50.59660.59665.805×10-35.805×10-30.04551-60561151.50.90290.53862.088×10-37.893×10-30.04792-38201530.50.93440.50332.301×10-30.01020.05083-2122716.50.87880.44238.359×10-30.01860.06024-100067.01.00000.442300.01860.06025-40042.01.00000.442300.01860.0602─────────────────────────────────────────────────────

壽命表法估計生存率步驟如下:1.將觀察例數(shù)按時間段(年)0-,1-,2-,劃分,分別計數(shù)期初例數(shù),死亡,失訪,截尾例數(shù)列入表22.2的1-5列。事實上,從第二個時間段開始,期初人數(shù)ni系由下式算得:n'i=n'i-1-di-ui-wi

例如第二行,即時間段1-,有

n'2=126-47-4-15=602.計算各時間段期初實際觀察例數(shù),(亦稱有效例數(shù))nini=n'i-ui/2-wi/2

上式表明該時間段期初例數(shù)中的失訪,及截尾例數(shù)只計其半時,即得有效例數(shù)。如第一行,n1=126-4/2-15/2=116.53.分別用(22.5)(22.6)(22.7)式計算條件生存率^S(ti/ti-1),累積生存率s(ti)及其標準誤。計算結果已列于表22.2中,第7,8,11列,表中9,10二列系用于第11列的計算。例如時間段0--中

^S(ti/ti-1)=(116.5-47)/116.5=0.5966^S(ti)=1×0.5966=0.5966SE(S(ti))=0.5966×√5.805×10-3=0.0455

故一年生存率的估計為0.5966±0.0455

同樣二年生存率的估計為0.5386±0.0479

由于壽命表法與積限法的累積生存率及其標準誤的計算公式完全相同,所以,當分組資料中每一個分組區(qū)間中最多只有1個觀察值時,壽命表法就是積限法。性別做生存分析p=??第三節(jié)生存曲線的統(tǒng)計檢驗當有兩個或兩個以上的生存分布時,我們常需比較它們是否來自同一生存分布,常進行生存率曲線間的比較。方法:時序檢驗(Log-Ranktest),可對兩組或多組生存率曲線做比較.檢驗假設:H0:兩總體的生存率曲線相同

H1:兩總體的生存率曲線不同α=0.05,如P≤α,拒絕H0Logrank檢驗(LogRankTest)當比較的幾個樣本生存分布,全部為完全數(shù)據(jù)時,本檢驗又稱為Savage檢驗。Logrank檢驗的計算步驟如下:1.將兩樣本的生存數(shù)據(jù)混合,由小到大排列,并給以秩次i1,當截尾數(shù)據(jù)與完全數(shù)據(jù)數(shù)值相同時,截尾數(shù)據(jù)排列在后。并設兩樣本含量分別為m1,m2,總例數(shù)n=m1+m2。2.列出所比較的兩組中任一個組的序號i2(本處選用中藥組),記入表22.3中第3列。3.列出死亡例的序號i3(見表22.3中第4列)。4.計算完全數(shù)據(jù)各時間點處于危險狀態(tài)的例數(shù)r,它表示該時刻時還剩下多少例數(shù)。r系由與i3相應的i1值計算而得。

r=n-i1+1

5.對秩次i1作logrank變換,即計算logrank變換值W,其算法為秩次為i1的序號為i3非截尾數(shù)據(jù)的W值為秩次為i1的截尾數(shù)據(jù),首先判斷它在那二個非截尾數(shù)據(jù)之間,如果它在序號i3與i3+1之間則W為特別地,當截尾數(shù)據(jù)在第一個非截尾數(shù)據(jù)之前時,取W=0,幾個截尾數(shù)據(jù)落在同樣序號的非截尾數(shù)據(jù)之間時,它們具有相同的W值。6.計算所指定的組別(本例為中藥組,序號為i2)的logrank變換值之和T

上式的連加系在指定的i2范圍內(nèi)相加。其均數(shù)與方差分別為

E(T)=m1/n∑WV(T)=m1m2/[n(n-1)]∑(W-E(T)/m1)2

式中連加系在全部觀察值上完成,m1系指所指定的組別的例數(shù),(本例為中藥組m1=16),n為總例數(shù)。

Z=[T-E(T)]/√V(T)Z服從標準正態(tài)分布,故可由Z0.05=1.96,Z0.01=2.58作出統(tǒng)計推斷。本例資料有T=3.822,E(T)=0.4402×10-6,

V(T)=3.1755,Z=2.145,故P<0.05,拒絕H0,認為兩種療法生存分布不相同。R實現(xiàn)對所有變量畫KMplot,并計算logrankpvaluest11<-survfit(Surv(time,censored)~type,data);plot(t11,col=c(“yellow"","orange","red"),xlab="Time",ylab="Estimatedsurvivalfunctions");legend(1300,0.8,c("typeII","typeIII","typeIV"),col=c(“yellow"","orange","red"),lty=c(1,1,1));survdiff(Surv(time,censored)~type,data);性別做生存分析挖掘預測型知識線性回歸(LinearRegression)一元線性回歸多元線性回歸Cox回歸(CoxRegression)logistic回歸(logisticRegression)logistic回歸模型應變量Y是一個二值變量,取值為如果發(fā)生為0,未發(fā)生為1,則模型中回歸系數(shù)絕對值不變,但符號相反。自變量X1,X2,……,Xm。自變量全部或大部分為定量指標,若有少量定性或等級指標需作轉換。P表示在m個自變量作用下陽性結果發(fā)生的條件概率。1-P=P(y=0|x)為不發(fā)病概率數(shù)據(jù)結構概率型非線性回歸模型S-形曲線,符合流行病學對危險因素與疾病風險關系的認識logit變換事件發(fā)生概率與未發(fā)生概率之比的自然對數(shù),稱為P的logit變換,記作logit(P)。概率P的取值范圍在0~1之間,而logit(P)取值是沒有界限的。0(常數(shù)項):所有影響因素均為0時(記作X=0),個體發(fā)生事件概率與不發(fā)生事件的概率之比的自然對數(shù)值。j

的含義:某因素因素Xj改變一個單位時,個體發(fā)生事件概率與不發(fā)生事件的概率之比的自然對數(shù)變化值。優(yōu)勢(odds)是指某影響因素控制在某種水平時,事件發(fā)生率與事件不發(fā)生率的比值,即P/(1-P)。某影響因素的兩個不同水平的優(yōu)勢的比值稱為優(yōu)勢比如某影響因素的一個水平為c1,另一個水平為c0,則這兩個水平的優(yōu)勢比為:優(yōu)勢比(oddsratio,OR)結果吸煙不吸煙合計食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合計517(a+c)369(b+d)886吸煙與食管癌關系的病例對照調(diào)查結果優(yōu)勢比(oddsratio,OR)OR表示影響因素對事件發(fā)生的影響方向和影響能力大小。一般地,OR>1表示該因素取值越大,事件發(fā)生的概率越大,又稱危險因素。OR<1表示該因素取值越大,事件發(fā)生的概率越小,又稱保護因素。OR=1表示該因素與事件的發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論