




已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1,多元統(tǒng)計分析方法,The Methods of Multivariate Statistical Analysis,2,多元Logistic 回歸分析,Multiple Logistic Regression Analysis,第七章,主要內容,Logistic 回歸分析的基本概念 Logistic 回歸分析的數學模型 Logistic 回歸模型的建立和檢驗 Logistic 回歸系數的解釋 配對病例-對照數據的logistic回歸分析,4,回歸分析的分類,連續(xù)型因變量 (y) - 線性回歸分析,多個因變量 (y1,y2yk),分類型因變量 (y) -Logistic 回歸分析,時間序列因變量 (t) -時間序列分析,生存時間因變量 (t) -生存風險回歸分析,路徑分析 結構方程模型分析,一個因變量 y,回憶:,5,醫(yī)學研究中經常遇到分類型變量,二分類變量: 生存與死亡 有病與無病 有效與無效 感染與未感染 多分類有序變量: 疾病程度(輕度、中度、重度) 治愈效果(治愈、顯效、好轉、無效) 多分類無序變量: 手術方法(A、B、C) 就診醫(yī)院(甲、乙、丙、?。?6,醫(yī)學研究者經常關心的問題,哪些因素導致了人群中有的人患胃癌而有的人不患胃癌? 哪些因素導致了手術后有的人感染,而有的人不感染? 哪些因素導致了某種治療方法出現(xiàn)治愈、顯效、好轉、無效等不同的效果?,是回歸分析問題: Y=f(x),7,如何解決這樣的問題?,不存在,8,1、什么是Logistic 回歸分析?,研究因變量y取某個值的概率變量p與自變量x的依存關系。,p=p(y=1|x)=f(x),第一節(jié) Logistic 回歸分析的概念,9,2、Logistic回歸分析的分類,按數據的類型: 非條件logistic回歸分析(成組數據) 條件logistic回歸分析(配對病例-對照數據) 按因變量取值個數: 二值logistic回歸分析 多值logistic回歸分析 按自變量個數: 一元logistic回歸分析 多元logistic回歸分析,Logistic回歸分析,10,第二節(jié) Logistic 回歸分析的數學模型,令y是1,0變量,x是任意變量,p=p(y=1|x) ,那么,二值變量y關于變量x的一元logistic 回歸模型是:,其中,和是未知參數或待估計的回歸系數。該模型描述了y取某個值(這里y=1)的概率p與自變量x之間的關系。,(1) 二值一元logistic回歸模型:,11,令y是1,0變量,x1,x2,xk是任意k個變量; p=p(y=1|x1,x2,xk),那么,變量y關于變量x1,x2,xk 的k元logistic回歸模型是:,(2) 二值多元logistic回歸模型:,注意:對于二值Logistic回歸模型,Y=0的模型是:,p = p(y=0|x1,xk ) = 1 - p(y=1|x1,xk),12,Logistic 回歸模型的另外一種形式,它給出變量z=logit(p)關于x 的線性函數。,13,(3) 多值logistic回歸模型:,例如,當y取值1,2,3時,logistic回歸模型是:,P1 = p(y=1) = P1 P2 = p(y=2) =P2-P1 P3 = p(y=3) =1-P2,累積概率模型,獨立概率模型,14,1、估計參數 - 最大似然法 2、檢驗參數的顯著性 H0: j=0 vs H1: j0 3、檢驗模型的顯著性 H0: 1=k=0 vs H1: j0 4、解釋參數的實際意義,第三節(jié) Logistic回歸分析方法步驟,15,例1、自變量是二值分類型變量 某醫(yī)院為了研究導致手術切口感染的原因,收集了295例手術者情況,其中,手術時間小于或等于5小時的有242例,感染者13例;手術時間大于5小時的有53例,感染者7例。試建立手術切口感染(y)關于手術時間(x)的logistic回歸模型。,46,53,16,data eg7_1a; input y x wt ; cards; 1 1 7 1 0 13 0 1 46 0 0 229 ; run; proc logistic descending ; model y=x ; weight wt; run;,SAS程序,17,The LOGISTIC Procedure Data Set: WORK.EG7_1A Response Variable: Y Response Levels: 2 Number of Observations: 4 Weight Variable: WT Sum of Weights: 295 Link Function: Logit Response Profile Ordered Total Value Y Count Weight 1 1 2 20.00000 2 0 2 275.00000,18,Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 148.262 146.686 . SC 147.648 145.458 . -2 LOG L 146.262 142.686 3.576 with 1 DF (p=0.0586) Score . . 4.224 with 1 DF (p=0.0399) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -2.8688 0.2851 101.2408 0.0001 . . X 1 0.9860 0.4959 3.9542 0.0468 2.069569 2.681,19,結果:,20,第四節(jié) Logistic回歸模型系數的解釋,回憶流行病學研究中兩個重要概念:,在logistic回歸模型,令x=0和x=1,得到,21,一元logistic回歸模型系數的意義解釋: (1) x =1,0 變量,如果x=1,0,則 e b=OR 近似表示在x=1條件下的發(fā)病率與在x=0 條件下發(fā)病率之比 (相對危險度),或者說, x=1條件下的發(fā)病可能性比x=1條件下多或少(OR-1)*100%。,22,Logistic 回歸模型:,從b=0.986, 得到 RR OR= eb=2.681。 所以,手術時間大于5小時的感染率是手術時間小于或等于5小時的感染率的2.681倍,即感染的可能性增加了186.1% 。,例如,手術感染問題,23,一元logistic回歸模型系數的意義解釋: (2) 如果x是連續(xù)變量 對于任意x1 和x2,x1 x2,如果x 是連續(xù)變量,則OR=eb 近似表示在x 的相鄰兩個單位上的相對危險度。即x 每增加一個單位,相對危險增加 或減少(OR-1)*100%。,24,例2、自變量是連續(xù)型數值變量 為了分析新生兒出生時體重(birthwt)與支氣管肺的發(fā)育不良病(BPD)的關系,調查了223名新生兒。調查的數據列在下表中。,25,data eg7_2; do birthwt=750, 1150, 1550; do bpd=1, 0; input wt ;output; end; end; cards; 49 19 18 62 9 66 run; proc logistic data=eg2 descending; model bpd=birthwt ; weight wt ; run;,SAS程序,26,Response Profile Ordered Value BPD Count 1 1 76 2 0 147 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 288.140 229.166 . SC 291.547 235.980 . -2 LOG L 286.140 225.166 60.974 with 1 DF (p=0.0001) Score . . 56.008 with 1 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 3.7180 0.6387 33.8853 0.0001 . . BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480 0.996,SAS輸出結果,27,1、因變量bpd對自變量birthwt 的logistic回歸模型是: 2、自變量birthwt 的回歸系數在統(tǒng)計意義上不等于0 (p=0.0001),因此,OR=0.996在統(tǒng)計意義上不等于1。 OR=0.996 說明新生兒出生體重每增加一個單位(g),患 BPD病的機會就會減少大約0.4% 。即患bpd病的概率 隨新生兒出生體重的增加而下降。 3、根據上述回歸模型可以預測新生兒出生時可能患BPD病 的 概率。,28,一元logistic回歸模型系數的意義解釋: (3) 如果x 是分類變量 如果x 是分類型變量,特別是名義型變量,則需要將x 轉化為啞變量,再進行Logistic回歸分析。,如果x是g個分類的分類型變量,則要將x 的g-1個啞變量放入模型,每一個啞變量的OR 值表示該組與參照組的相對危險度。,29,什么是啞變量?,一個含有g個類的分類型變量可以構造g個啞變量。,30,如何用SAS程序構造啞變量?,data d2; set d1; array a3 student teacher worker; do i=1 to 3; ai=( x 1= i ) ; end; run;,data d2; set d1; array a3 student teacher worker; do i=1 to 3; if x1=i then ai= 1; else ai=0 ; end; run;,31,如何對啞變量進行分析? (1)將g -1個啞變量放入模型進行分析,留一個啞變 量作為參照變量; (2)每一個啞變量的OR值表示該啞變量組與參照變量組的相對危險度。,32,例3、自變量是分類型變量 為了了解冠心病與種族的關系,某研究所調查了100個樣本,數據列在下表中。試估計各種族間患冠心病的相對危險度。,設y=1表示患冠心病,y=0表示未患冠心病。令x=1表示黑人,x=2表示白人,x=3表示其它種族。將變量x轉化為啞變量,變量名是:black、white和other。,33,data eg7_3; do y=1 , 0; do x=1 to 3; input wt ; output; end; end; cards; 20 5 25 10 20 20 run; data eg7_3; set eg7_3; array a3 black white other; do i=1 to 3; ai=( x = i ) ; end; run; proc logistic descending ; model y= black other ; weight wt ; run;,White作為參照組,34,The LOGISTIC Procedure Response Profile Ordered Total Value Y Count Weight 1 1 3 50.000000 2 0 3 50.000000 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Without With Criterion Covariates Covariates Chi-Square for Covariates AIC 138.629 131.038 . SC 138.629 130.413 . -2 LOG L 138.629 125.038 13.592 with 3 DF (p=0.0035) Score . . 12.889 with 3 DF (p=0.0049) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -1.3863 0.5000 7.6874 0.0056 . . BLACK 1 2.0794 0.6325 10.8103 0.0010 2.349536 8.000 OTHER 1 1.6094 0.5831 7.6186 0.0058 1.974184 5.000,35,模型總體檢驗結果說明該模型具有統(tǒng)計意義(p=0.0035)。 參數檢驗說明,黑人與白人患冠心病的相對危險度是:OR=8(p=0.0010),說明黑人患冠心病的幾率大約是白人的8倍。 參數檢驗說明,其他種族人與白人患冠心病的相對危險度是:OR=5(p=0.0058),說明其他種族人患冠心病的幾率大約是白人的5倍。,結論,36,一元logistic回歸模型系數的意義解釋:,如果x是分類型變量(g個分類),則要將x 的g-1個啞變量放入模型,每一個啞變量的OR 值表示該組與參照組的相對危險度。,如果x=1,0,則 e b=OR 近似表示在x=1條件下的發(fā)病率與在x=0 條件下發(fā)病率之比 (相對危險度),或者說, x=1條件下的發(fā)病可能性比x=1條件下多或少(OR-1)*100%。,如果x 是連續(xù)型變量,則OR=eb 近似表示在x 的相鄰兩個單位上的相對危險度。即x 每增加一個單位,相對危險增加 或減少(OR-1)*100%。,37,b) 多元logistic回歸模型系數的解釋,假設 y 在二值變量 x 1和 x 2上的二元 logistic回歸模型是:,可以證明:,e1 表示消去了x 2 的影響后或在x 2 不變的情況下,x 1 相鄰兩個單位患病率之比(相對危險度); e2 表示消去了x 1 的影響后或在x 1 不變的情況下,x 2 相鄰兩個單位患病率之比(相對危險度)。,38,例4、無交互影響的多元logistic回歸模型 某市調查飲酒對食道癌的影響,共收集了200例食道癌患者作為病例組(y=1),774例非食道癌患者作為對照組(y=0)。詢問了他們的年齡和飲酒情況。數據列在下表中。試分析飲酒對食道癌的影響,將年齡作為混雜因素。,39,data eg4; do y=1,0;do age=1 to 3; do drink=1,0; input wt ;output; end; end; end; cards; 5 5 67 55 24 44 35 270 56 276 18 119 run ; proc logistic descending ; model y=drink age ; weight wt ; run ;,40,SAS輸出結果,The LOGISTIC Procedure Response Profile Ordered Total Value Y Count Weight 1 1 6 200.00000 2 0 6 774.00000 Model Fitting Information and Testing Global Null Hypothesis BETA=0 -2 LOG L 989.029 816.466 172.563 with 2 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -4.1249 0.3226 163.4795 0.0001 . . DRINK 1 1.7788 0.1865 91.0078 0.0001 3.761888 5.923 AGE 1 1.0971 0.1338 67.2705 0.0001 4.108738 2.995,41,結論,模型的總體檢驗說明模型具有統(tǒng)計意義(p=0.0001)。 參數檢驗結果顯示所有回歸系數都具有顯著性意義(p=0.0001)。 OR(drink)=5.923說明除去年齡這個混雜因子的影響后,飲酒者比不飲酒者大約多492.3%的可能性患食道癌(p=0.0001),或者說飲酒者患食道癌的可能性大約是不飲酒者的5.923倍(p=0.0001),42,例5、有交互影響的多元logistic回歸模型 在回顧性研究中,隨機抽查了某地區(qū)818個人的吸煙飲酒等生活方式以及各種慢性疾病的患病情況。表7-5中列出的是一部分調查結果。試分析吸煙、飲酒危險因素對患胃病的影響程度以及它們的交互影響程度。 表7-5 生活方式與胃病的調查數據,43,y =1和0,分別表示患胃病和未患胃??; x 1=1和 0,分別表示吸煙和不吸煙; x 2=1和 0,分別表示飲酒和不飲酒。 建立四個啞變量分別代表四種不同的生活方式,即 x 11=1表示既吸煙又飲酒,0 表示其他; x 10=1表示吸煙但不飲酒, 0 表示其他; x 01=1表示不吸煙但飲酒, 0 表示其他; x 00=1表示既不吸煙又不飲酒, 0 表示其他 。 將前三個啞變量放進模型,則可以得前三種生活方式相對于最后一種生活方式患胃病的相對危險度。,44,data eg7_5; do y=1,0; do x1=1,0; do x2=1,0; input wt ; output ; end ; end ; end ; cards ; 39 25 35 16 101 126 253 223 run; data eg7_5 ; set eg7_5 ; if x1=1 & x2=1 then x11=1; else x11=0; if x1=1 & x2=0 then x10=1; else x10=0; if x1=0 & x2=1 then x01=1; else x01=0; if x1=0 & x2=0 then x00=1; else x00=0; run; proc logistic descending ; model y= x11 x10 x01; weight wt; run;,45,The LOGISTIC Procedure Model Fitting Information and Testing Global Null Hypothesis BETA=0 -2 LOG L 664.261 631.703 32.557 with 3 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -2.6346 0.2588 103.6217 0.0001 . . X11 1 1.6830 0.3202 27.6277 0.0001 3.777933 5.382 X10 1 1.0172 0.3390 9.0031 0.0027 2.351977 2.765 X01 1 0.6565 0.3154 4.3318 0.0374 1.868880 1.928,46,結論: 1)模型具有統(tǒng)計意義(p=0.0001);三個參數均有顯著性意義(p=0.0027、p=0.0374和p=0.0374)。 2)因為四個啞變量中x00作為參照變量,因此,OR(x11)=5.382表示既吸煙又飲酒者患胃病的幾率是不吸煙又不飲酒者的5.382倍; OR(x10)=2.765表示吸煙但不飲酒者患胃病的幾率是不吸煙又不飲酒者的2.765倍;OR(x01)=1.928表示不吸煙但飲酒者患胃病的幾率是不吸煙又不飲酒者的1.928倍。,47,6、多值變量的logistic回歸模型系數的解釋: 某大學醫(yī)院外科采用兩種不同的繃帶和兩種不同的包扎方式進行腿潰瘍的治療處理。治療的結果分三種:不愈、有效和痊愈。治療方式和治療效果列在表7-6中。試分析治療方法對治療效果的影響。 設因變量 y 表示治療效果,0=不愈、1=有效、2=痊愈。設因變量 x 1表示繃帶種類,自變量 x 2 表示包扎方式。,48,腿潰瘍治療方式與效果數據資料,49,【SAS程序】 data eg7_6; input y x1 x2 wt ; cards; 0 0 0 19 2 1 1 5 run; proc logistic descending; model y=x1 x2; weight wt; run;,50,【SAS輸出結果】 The LOGISTIC Procedure Response Profile Ordered Total Value Y Count Weight 1 2 4 15.000000 2 1 4 25.000000 3 0 4 59.000000 Score Test for the Proportional Odds Assumption Chi-Square = 0.7505 with 2 DF (p=0.6871) Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 190.499 178.977 . SC 191.469 180.916 . -2 LOG L 186.499 170.977 15.522 with 2 DF (p=0.0004) Score . . 14.849 with 2 DF (p=0.0006),平行性檢驗,51, Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCP1 1 -2.6680 0.4657 32.8270 0.0001 . . INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 . . X1 1 1.6433 0.4380 14.0736 0.0002 1.358335 5.172 X2 1 -0.1903 0.4189 0.2063 0.6496 -0.157280 0.827,52,對于多值因變量模型,平行性假設決定了每個自變量的OR值對于前g-1個模型是相同的。例如,變量x1的OR=5.172,它表示使用第一種繃帶治愈腿潰瘍的可能性是使用第二種繃帶的5.172倍;它也表示使用第一種繃帶至少有效的可能性是使用第二種繃帶的5.172倍。,53,醫(yī)學中經常需要作配對病例-對照研究。所謂的配對病例-對照研究指的是在病例-對照研究中,對每一個病例配以性別、年齡或其它條件相似的一個(1:1)或幾個(1:M)對照,然后分析比較病例組與對照組以往暴露于致病因素的經歷。 分析配對病例-對照研究資料的統(tǒng)計分析方法一般采用條件logistic回歸分析。 條件logistic回歸分析的數學模型以及分析原理方法均和 非條件logistic回歸分析類似。因為參數的估計公式涉及到條件概率理論,所以稱為條件logistic回歸分析。,第五節(jié) 條件logistic回歸分析,54,配對數據:對按一定條件配成對的n對研究對象分別使用兩種不同的處理方法,或者對n個研究對象在兩個時間點上使用兩種不同的處理方法所得到的觀察數據。,例如,兩個醫(yī)生分別檢查n個病人,檢驗的結果如下:,55,例7、配對病例-對照數據: 某醫(yī)院為了研究孕期照過X射線對兒童患白血病的影響,收集了配對病例-對照資料如下表所示,其中D和D 分別表示兒童患和未患白血病,E和E 分別表示母親孕期照和未照過X線照射。,56,data eg7_7; input id y x wt ; censor=1-y; cards; 1 1 1 3 1 0 1 3 2 1 0 14 2 0 1 14 3 1 1 5 3 0 0 5 4 1 0 62 4 0 0 62 run; proc phreg ; model y*censor(0)=x ; freq wt; strata id ; run;,57,Stepwise regression analysis: excluding X6 The PHREG Procedure Data Set: WORK.EG7_7 Dependent Variable: Y Censoring Variable: CENSOR Censoring Value(s): 0 Frequency Variable: WT Ties Handling: BRESLOW Testing Global Null Hypothesis: BETA=0 Without With Criterion Covariates Covariates Model Chi-Square -2 LOG L 724.793 720.354 4.439 with 1 DF (p=0.0351) Score . . 4.263 with 1 DF (p=0.0389) Wald . . 3.906 with 1 DF (p=0.0481) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Risk Variable DF Estimate Error Chi-Square Chi-Square Ratio X 1 1.029619 0.52099 3.90569 0.0481 2.800,58,結論: OR(x)=2.8RR=p(y=1|x=1) / p(y=1|x=0),結果說明母親孕期有過X線照射的兒童患白血病的幾率大約是母親孕期未有過X線照射的兒童的2.8倍(p=0.0481)。,59,例8、1:1 配對病例-對照數據 為了研究生活方式和胃癌的關系,某研究所按1:1比例配對收集了一批病人和對照組的有關資料(本例僅用10對樣本和3個危險因子進行分析,用以說明分析方法)。數據列在下表中。其中,x1 表示蛋白質攝入量,取值為0,1,2,3;x2 表示不良飲食習慣,取值為0,1,2,3;x3 表示精神狀態(tài),取值為0,1,2。,60,data eg7_8; input id y x1 x2 x3 ; y=1-y; cards; 1 1 1 3 0 1 0 1 0 1 2 1 0 3 1 2 0 1 3 0 9 1 3 3 2 9 0 2 2 0 10 1 2 2 2 10 0 0 0 0 run; proc phreg; model y=x1-x3; strata id; run;,SAS 程序,61,The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Without With Criterion Covariates Covariates Model Chi-Square -2 LOG L 13.863 3.886 9.977 with 3 DF (p=0.0188) Score . . 6.913 with 3 DF (p=0.0747) Wald . . 2.590 with 3 DF (p=0.4592) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Risk Variable DF Estimate Error Chi-Square Chi-Square Ratio X1 1 -0.479042 2.95483 0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025標準茶葉買賣合同范本
- 2025化工產品長途運輸合同范本
- 電源開關電源設計工程師合同
- 2025倉庫租賃合同書
- 2025浙江某銀行信貸財產收益權轉讓合同優(yōu)先級
- 黃州第四單元數學試卷
- 廣州模擬理科數學試卷
- 河南許昌八下數學試卷
- 2025年未明確合同期限和勞動保護條件的合同有效性探究
- 河南許昌中考數學試卷
- 高壓氣體絕緣設備中SF6分解產物檢測SO2傳感器的設計與應用
- DBJ04-T494-2025 《坡地建筑設計防火標準》
- ecmo考試試題及答案
- GB/T 21711.3-2025基礎機電繼電器第3部分:強制定位(機械聯(lián)鎖)觸點繼電器
- 農發(fā)銀行筆試題庫及答案
- 棗莊滕州市屬國有企業(yè)招聘考試真題2024
- 防火防爆培訓要點
- 法院輔警筆試題及答案
- 2025實驗室管理員聘用合同書
- 民辦學校托管合同協(xié)議
- 景區(qū)安全生產管理規(guī)章制度大全
評論
0/150
提交評論