第八章直線回歸直線相關(guān)與logistic回歸(下_第1頁
第八章直線回歸直線相關(guān)與logistic回歸(下_第2頁
第八章直線回歸直線相關(guān)與logistic回歸(下_第3頁
第八章直線回歸直線相關(guān)與logistic回歸(下_第4頁
第八章直線回歸直線相關(guān)與logistic回歸(下_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第八章 直線回歸、直線相關(guān)與logistic回歸(下)(醫(yī)學統(tǒng)計之星)上次更新日期: 8.4 多元線性回歸 REG過程不僅可以完成只有一個自變量的簡單直線回歸,還可以作含有多個自變量的多元線性回歸。作多元線性回歸時REG過程的語法格式與簡單直線回歸的語法幾乎完全相同,只要把要分析的多個自變量名放在MODEL語句中應變量后即可。因為多元線性回歸時一般要作自變量的篩選,涉及到MODEL語句的選項,現(xiàn)將多元線性回歸常用的選項介紹如下:8.4.1 語法選項1. SELECTION=method,規(guī)定變量篩選的方法,method可以是以下幾種選項o FORWARD(或F),前進法,按照SLE規(guī)定的P值從

2、無到有依次選一個變量進入模型 o BACKWARD(或B),后退法,按照SLS規(guī)定的P值從含有全部變量的模型開始,依次剔除一個變量 o STEPWISE(或S),逐步法,按照SLE的標準依次選入變量,同時對模型中現(xiàn)有的變量按SLS的標準剔除不顯著的變量 o NONE,即不選擇任何選項,不作任何變量篩選,此時使用的是含有全部自變量的全回歸模型2. SLE=概率值,入選標準,規(guī)定變量入選模型的顯著性水平,前進法的默認是0.5,逐步法是0.15 3. SLS=概率值,剔除標準,指定變量保留在模型的顯著水平,后退法默認為0.10,逐步法是0.15 4. 標準化偏回歸系數(shù) STB 可用來比較各個自變量作

3、用的大小5. COLLIN 要求詳細分析自變量之間的共線性,給出信息矩陣的特征根和條件數(shù),來判斷自變量之間有無多重共線性。8.4.2 應用實例例8.3 現(xiàn)有20名糖尿病人的血糖(y,mmol/L)、胰島素(X1,mU/L)及生長素(X2,g/L)的測量數(shù)據(jù)列于中,試進行多元線性回歸分析(衛(wèi)生統(tǒng)計第四版例11.1)。20名糖尿病人的血糖、胰島素及生長素的測量數(shù)據(jù)病例號i血 糖 y胰島素X1生長素X2112.2115.209.51214.5416.7011.43312.2711.907.53412.0414.0012.1757.8819.802.33611.1016.2013.52710.4317

4、.0010.07813.3210.3018.89919.595.9013.14109.0518.709.63116.4425.105.10129.4916.404.531310.1622.002.16148.3823.104.26158.4923.203.42167.7125.007.341711.3816.8012.751810.8211.2010.881912.4913.7011.06209.2124.409.16平均值10.8517.778.94假設(shè)上表的資料已建立文本文件c:userli4_1,調(diào)用REG過程擬合多元回歸方程,程序如下:Libname a c:user;data a.b

5、k4_1;infile c:userli4_1;input id y x1 x2;proc reg data=a.bk4_1;model y=x1 x2/stb;model y=x1 x2/ selection=stepwise stb;run;REG過程中MODEL語句可以交互使用,本例我們建立了兩個模型,第一個model沒有作變量篩選,建立一個含有兩個自變量的方程,并輸出標準化偏回歸系數(shù)。第二個model指定逐步回歸法篩選變量。程序運行的主要結(jié)果如下:Model:model1 模型1Dependent Variable:Y Analysis of Variance 回歸模型的方差分析 Su

6、m of Mean Source DF Squares Square F Value ProbF 變異來源 自由度 離均差平方和 均方 F值 P值 Model 2 116.62646 58.31323 21.539 0.0001 Error 17 46.02494 2.70735 C Total 19 162.65140 誤差的均方根 Root MSE 1.64540 決定系數(shù) R-square 0.7170 應變量的均數(shù) Dep Mean 10.85000 調(diào)整的決定系數(shù) Adj R-sq 0.6837 應變量的變異系數(shù) C.V. 15.16500 Parameter Estimates以下

7、是參數(shù)估計和假設(shè)檢驗(t檢驗法) Parameter Standard T for H0: Standardized Variable DF Estimate Error Parameter=0 Prob |T| Estimate 變量名 自由度 參數(shù)估計值 估計值的標準誤Sb t值 P值截距 INTERCEP 1 17. 2. 6.880 0.0001 0. X1 1 -0. 0. -4.313 0.0005 -0. X2 1 0. 0. 0.843 0.4110 0.Model:model2(模型2)Dependent Variable:Y(應變量名) Analysis of Varian

8、ce Sum of Mean Source DF Squares Square F Value ProbF Model 1 114.70324 114.70324 43.060 0.0001 Error 18 47.94816 2.66379 C Total 19 162.65140 Root MSE 1.63211 R-square 0.7052 Dep Mean 10.85000 Adj R-sq 0.6888 C.V. 15.04250 Parameter Estimates Parameter Standard T for H0: Standardized Variable DF Es

9、timate Error Parameter=0 Prob |T| Estimate INTERCEP 1 18. 1. 14.862 0.0001 0. X1 1 -0. 0. -6.562 0.0001 -0.REG過程擬合帶截距項的直線回歸方程,用最小二乘法估計模型的參數(shù),并給出模型及參數(shù)的方差分析和t檢驗。本例的兩個模型檢驗P值都小于0.05,模型有統(tǒng)計學意義。模型1含有兩個自變量,其截距項和X1檢驗有統(tǒng)計學意義,X2的檢驗無統(tǒng)計學意義。模型2為逐步回歸法,只納入了X1。比較兩個模型的決定系數(shù),模型1因含有兩個自變量,決定系數(shù)比模型2要大,但因為模型納入了不顯著的自變量X2,導致它的調(diào)

10、整決定系數(shù)反而較小,所以我們選擇模型2,回歸方程:Y=18.796-0.459X1。8.5 logistic回歸如果應變量為分類的變量,則不符合一般回歸分析模型的要求,可用logistic回歸來分析。Logistic回歸按反應變量的類型分為: 兩分類的Logistic回歸 多分類有序反應變量的Logistic回歸 多分類無序反應變量的Logistic回歸按照設(shè)計類型可分為: 非條件Logistic回歸,即研究對象未經(jīng)過配對 條件Logistic回歸,即研究對象為1:1或1:m配對簡單的Logistic回歸需調(diào)用SAS中LOGISTIC過程完成,一些較復雜的則需要調(diào)用CATMOD過程來實現(xiàn)。本節(jié)

11、我們重點介紹LOGISTIC過程的用法,通過實例說明如何實現(xiàn)簡單的Logistic回歸分析。8.5.1 語法格式PROC LOGISTIC DATA=數(shù)據(jù)集名 選項;MODEL 應變量名=自變量名列/ 選項;BY ;FREQ ;WEIGHT ;OUTPUT .;8.5.2 語法說明LOGISTIC過程,用最大似然法對應變量擬合一個Logistic模型。除了PROC 和MODEL語句為必需,其他都可省略?!具^程選項】 OUTEST=數(shù)據(jù)集名 指定統(tǒng)計量和參數(shù)估計輸出的新數(shù)據(jù)集名。 NOPRINT 禁止統(tǒng)計結(jié)果在OUTPUT視窗中輸出。 ORDER=DATA|FORMATTED|INTERNAL

12、規(guī)定擬和模型的應變量的水平順序 DATA :應變量的順序與數(shù)據(jù)集中出現(xiàn)的順序一致 FORMATTED:按照格式化值的順序,為默認的選項,相當于應變量所賦 值的大小順序 INTERNAL:按照非格式化值的順序 DESCENDING|DES 顛倒應變量的排列順序,如果同時指定了選項ORDER,則系統(tǒng)先按照ORDER規(guī)定的順序排列,然后則降序排列。就是說,如果應變量的賦值,死亡為1,存活0,為了得到死亡對存活的概率(或者說是死亡的風險),應選擇此選項,否則得到的是存活對死亡的概率?!綧ODEL語句】MODEL語句指定模型的自變量、應變量,模型選項及結(jié)果輸出選項,如要擬和交互作用項,需先產(chǎn)生一個表示交

13、互作用的新變量。可以擬合帶有一個或多個自變量的Logistic回歸模型,用最大似然估計法估計模型的參數(shù),打印出模型估計的過程和模型參數(shù)的可信區(qū)間。MODEL語句中常用的選項有: NOINT 在模型中不擬合常數(shù)項,在條件的Logistic回歸中用到。 SELECTION= FORWARD(或F)| BACKWARD(或B)| STEPWISE|SCORE 規(guī)定變量篩選的方法,分別為向前、向后、逐步和最優(yōu)子集法。缺省時為NONE,擬合全回歸模型。 SLE=概率值,指定變量進入模型的顯著水平,缺省為0.05 SLS=概率值,指定變量保留在模型的顯著水平,缺省為0.05 CL|WALDCL,要求估計所

14、有回歸參數(shù)的可信區(qū)間 CLODDS=PL|WALD|BOTH, 要求計算OR值的可信區(qū)間 PLRL,對所有自變量估計OR的可信區(qū)間8.5.3 應用實例例8.4 某工作者在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標本資料,現(xiàn)從中抽取26例資料作為示例進行l(wèi)ogistic回歸分析。表中有關(guān)符號意義說明:i: 樣品序號x1:確診時患者的年齡(歲)x2:腎細胞癌血管內(nèi)皮生長因子(VEGF),其陽性表述由低到高共3個等級x3:腎細胞癌組織內(nèi)微血管數(shù)(MVC)x4:腎癌細胞核組織學分級,由低到高共級x5:腎細胞癌分期,由低到高共期y: 腎細胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1;

15、 無轉(zhuǎn)移y=0)。26例行根治性腎切除術(shù)患者的腎癌標本資料iX1X2X3X4X5Y159243.4210236157.21103612190.02104583128.0431555380.0341661194.4210738176.01108421240.0320950174.01101058368.622011683132.84201225294.64311352156.01101431147.82101536331.63111642166.221017143138.633118321114.02301935140.221020703177.24312165251.644122452124.

16、024023683127.233124312124.823025581128.043026603149.8431本題的應變量為二分類變量,用最簡單的logistic回歸模型進行配合,采用逐步篩選法篩選變量,程序如下:libname a c:user;data a.bk4_2;input x1-x5 y;定義X1,X2,X,X4,X5和Y五個變量。cards;59 2 43.4 2 1 0.60 3 149.8 4 3 1proc logistic des;選項des指定按照y=1|y=0的 概率來擬合模型model y=x1-x5/ selection=stepwise;用逐步回歸法擬合模型r

17、un;過程名后面如果不指定選項DES,則系統(tǒng)按照Y=0的概率擬和模型(Y=0|Y=1),可嘗試一下去掉此選項,會發(fā)現(xiàn)不僅應變量的排序水平顛倒了,而且所有的參數(shù)估計符號相反,OR值為原來的倒數(shù)。程序運行的主要輸出結(jié)果如下: The LOGISTIC Procedure Data Set: A.BK4_2 計算所用的數(shù)據(jù)集名 Response Variable: Y 應變量 Response Levels: 2 應變量的水平數(shù) Number of Observations: 26 觀察單位數(shù) Link Function: Logit 聯(lián)系函數(shù) Response Profile Ordered Va

18、lue Y Count 1 1 9 2 0 17 根據(jù)ORDER和DES選項對應變量的重新排序,給出排序值和及每個水 平相應的例數(shù),擬合排序為1對應的應變量水平的概率 Model Fitting Information and Testing Global Null Hypothesis BETA=0 對模型的總的檢驗,無效假設(shè)為總體的=0, Intercept Intercept andCriterion Only Covariates Chi-Square for CovariatesAIC 35.542 17.826 .SC 36.800 21.600 .-2 LOG L 33.542

19、11.826 21.716 with 2 DF (p=0.0001)(相當于似然比2檢驗)Score . . 15.844 with 2 DF (p=0.0004)(相當于Pearson2檢驗) 模型的總的檢驗,P值均小于0.05,故模型總體有意義。 Analysis of Maximum Likelihood EstimatesParameter Standard Wald Pr Standardized OddSVariable DFEstimate Error Chi-Square Chi-Square Estimate Ratio 自由度參數(shù)估計 標準誤 Wald2 P值 標準化回歸系數(shù) 比值比INTERCPT 1-12.3285 5.4305 5.1540 0.0232 . .X2 12.4134 1.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論