第十一章 spss之線性回歸詳解2(張文彤)_第1頁
第十一章 spss之線性回歸詳解2(張文彤)_第2頁
第十一章 spss之線性回歸詳解2(張文彤)_第3頁
第十一章 spss之線性回歸詳解2(張文彤)_第4頁
第十一章 spss之線性回歸詳解2(張文彤)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十一章分類資料的回歸分析—Regression菜單詳解(下)(醫(yī)學(xué)統(tǒng)計之星:張文彤)上次更新日期:Linear過程簡單操作入門界面詳解輸出結(jié)果解釋復(fù)雜實例操作分析實例結(jié)果解釋CurveEstimation過程界面詳解實例操作10.3BinaryLogistic過程1031界面詳解與實例1032結(jié)果解釋10.3.3模型的進一步優(yōu)化與簡單診斷10.3.3.1模型的進一步優(yōu)化10.3.3.2模型的簡單診斷口嚀

在很久很久以前,地球上還是一個陰森恐怖的黑暗時代,大地上恐龍橫行,我們的老祖先--類人猿驚恐的睜大了雙眼,圍坐在僅剩的火堆旁,擔(dān)心著無邊的黑暗中不知何時會出現(xiàn)的妖魔鬼怪,沒有電視可看,沒有網(wǎng)可上...我是瘋了,還是在說夢話?都不是,類人猿自然不會有機會和恐龍同時代,只不過是我開機準備寫這一部分的時候,心里忽然想到,在10年前,國內(nèi)的統(tǒng)計學(xué)應(yīng)用上還是卡方檢驗橫行,分層的M-H卡方簡直就是超級武器,在流行病學(xué)中稱王稱霸,更有那些1:M的配對卡方,N:M的配對卡方,含失訪數(shù)據(jù)的N:M配對卡方之類的,簡直象恐龍一般,搞得我頭都大了。其實恐龍我還能講出十多種來,可上面這些東西我現(xiàn)在還沒徹底弄明白,好在社會進步迅速,沒等這些恐龍完全統(tǒng)制地球,Logistic模型就已經(jīng)飛速進化到了現(xiàn)代人的階段,各種各樣的Logistic模型不斷地在蠶食著恐龍爺爺們的領(lǐng)地,也許還象貪吃的人類一樣貪婪的享用著恐龍的身體。好,這是好事,這里不能講動物保護,現(xiàn)在我們就遠離那些恐龍,來看看現(xiàn)代白領(lǐng)的生活方式。:尬特別聲明:我上面的話并非有貶低流行病學(xué)的意思,實際上我一直都在做流行病學(xué),我這樣寫只是想說明近些年來統(tǒng)計方法的普及速度之快而已。站據(jù)我一位學(xué)數(shù)學(xué)的師兄講‘Logistic模型和卡方在原理上是不一樣的,在公式推演上也不可能劃等號,只是一般來說兩者的檢驗結(jié)果會非常接近而已,多數(shù)情況下可忽略其不同?!?0.3inaryLogistic§10.3inaryLogistic過程所謂Logistic模型,或者說Logistic回歸模型,就是人們想為兩分類的應(yīng)變量作一個回歸方程出來,可概率的取值在0~1之間,回歸方程的應(yīng)變量取值可是在實數(shù)集中,直接做會出現(xiàn)0~1范圍之外的不可能結(jié)果,因此就有人耍小聰明,將率做了一個Logit變換,這樣取值區(qū)間就變成了整個實數(shù)集,作出來的結(jié)果就不會有問題了,從而該方法就被叫做了Logistic回歸。隨著模型的發(fā)展‘Logistic家族也變得人丁興旺起來,除了最早的兩分類Logistic外,還有配對Logistic模型,多分類Logistic模型、隨機效應(yīng)的Logistic模型等。由于SPSS的能力所限,對話框只能完成其中的兩分類和多分類模型,下面我們就介紹一下最重要和最基本的兩分類模型。界面詳解與實例例11.1某研究人員在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標本資料,現(xiàn)從中抽取26例資料作為示例進行l(wèi)ogistic回歸分析(本例來自《衛(wèi)生統(tǒng)計學(xué)》第四版第11章)。i:標本序號x1:確診時患者的年齡(歲)x2:腎細胞癌血管內(nèi)皮生長因子(VEGF),其陽性表述由低到高共3個等級x3:腎細胞癌組織內(nèi)微血管數(shù)(MVC)?x4:腎癌細胞核組織學(xué)分級,由低到高共4級x5:腎細胞癌分期,由低到高共4期y:腎細胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1;無轉(zhuǎn)移y=0)。ix1x2x3x4x5y159243.4210

236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜單上選擇Analyze==》Regression==》BinaryLogistic...,系統(tǒng)彈出Logistic回歸對話框如下:

;LogisticRegressionSelect>>123d-5?……iXXXXX-¥Dependent:o_PreviousBlock1of1;LogisticRegressionSelect>>123d-5?……iXXXXX-¥Dependent:o_PreviousBlock1of1NextMethod:|Enter3Covariates:左側(cè)是候選變量框,右上角是應(yīng)變量框,選入二分類的應(yīng)變量,下方的Covariates框是用于選入自變量的,只不過這里按國外的習(xí)慣被稱為了協(xié)變量。兩框中間的是BLOCK系列按扭,我在上一課已經(jīng)講過了,不再重復(fù)。中下部的〉a*b>框是用于選入交互作用的,和其他的對話框不太相同(我也不知道為什么SPSS偏在這里做得不同),下方的Method列表框用于選擇變量進入方法,有進入法、前進法和后退法三大類,三類之下又有細分。最下面的四個按鈕比較重要,請大家聽我慢慢道來:oSelect〉>鈕:用于限定一個篩選條件,只有滿足該條件的記錄才會被納入分析,單擊它后對話框會展開讓你填入相應(yīng)的條件。不過我覺得該功能純屬多余,和專門的Select對話框的功能重復(fù)了。oCategorical鈕:如果你的自變量是多分類的(如血型等),你必須要將它用啞變量的方式來分析,那么就要用該按鈕將該變量指定為分類變量,如果有必要,可用里面的選擇按鈕進行詳細的定義,如以哪個取值作

為基礎(chǔ)水平,各水平間比較的方法是什么等。當(dāng)然,如果你弄不明白,不改也可以,默認的是以最大取值為基礎(chǔ)水平,用Devianee做比較。Save鈕:將中間結(jié)果存儲起來供以后分析,共有預(yù)測值、影響強度因子和殘差三大類。oOptions鈕:這一部分非常重要,但又常常被忽視,在這里我們可以對模型作精確定義,還可以選擇模型預(yù)測情況的描述方式,如StatistiesandPlots中的Classifieationplots就是非常重要的模型預(yù)測工具,Correlationsofestimates則是重要的模型診斷工具,Iterationhistory可以看到迭代的具體情況,從而得知你的模型是否在迭代時存在病態(tài),下方則可以確定進入和排除的概率標準,這在逐步回歸中是非常有用的。好,根據(jù)我們的目的,應(yīng)變量為Y,而X1?X5為自變量,具體的分析操作如下:Analyze==》Regression==》BinaryLogistic...Dependent框:選入YCovariates框:選入x1~x5OK鈕:單擊1、Enter:所有自變量強制進入回歸方程;2、Forward:Conditional:以假定參數(shù)為基礎(chǔ)作似然比概率檢驗,向前逐步選擇自變量;3、Forward:LR:以最大局部似然為基礎(chǔ)作似然比概率檢驗,向前逐步選擇自變量;4、Forward:Wald:作Wald概率統(tǒng)計法,向前逐步選擇自變量;5、Backward:Conditional:以假定參數(shù)為基礎(chǔ)作似然比概率檢驗,向后逐步選擇自變量;6、Backward:LR:以最大局部似然為基礎(chǔ)作似然比概率檢驗,向后逐步選擇自變量;7、Backward:Wald:作Wald概率統(tǒng)計法,向后逐步選擇自變量。結(jié)果解釋LogisticRegression幫用丁?芮;:;:=+;:;:=沁總;:心.;:QBP孟上表為記錄處理情況匯總,即有多少例記錄被納入了下面的分析,可見此處因不存在缺失值,26條記錄均納入了分析。上表為應(yīng)變量分類情況列表,沒什么好解釋的。Block0:BeginningBlock此處已經(jīng)開始了擬合,Block0擬合的是只有常數(shù)的無效模型,上表為分類預(yù)測表,可見在17例觀察值為0的記錄中,共有17例被預(yù)測為0,9例1也都被預(yù)測為0,總預(yù)測準確率為65.4%,這是不納入任何解釋變量時的預(yù)測準確率,相當(dāng)于比較基線。上表為Block0時的變量系數(shù),可見常數(shù)的系數(shù)值為-0.636。■護—、、2、2、:上表為在Block0處尚未納入分析方程的侯選變量,所作的檢驗表示如果分別將他們納入方程,則方程的改變是否會有顯著意義(根據(jù)所用統(tǒng)計量的不同,可能是擬合優(yōu)度,Devianee值等)。可見如果將X2系列的啞變量納入方程,則方程的改變是有顯著意義的,X4和X5也是如此,由于Stepwise方法是一個一個的進入變量,下一步將會先納入P值最小的變量X2,然后再重新計算該表,再做選擇。Block1:Method=ForwardStepwise(Conditional)、fj.'fj,、*、*、■!'fj.:2L.⑴牛牛WA、》f*■牛此處開始了Block1的擬合,根據(jù)我們的設(shè)定,采用的方法為Forward(我們只設(shè)定了一個Block,所以后面不會再有Block2了)。上表為全局檢驗,對每一步都作了Step、Block和Model的檢驗,可見6個檢驗都是有意義的。此處為模型概況匯總,可見從STEP1到STEP2,DEVINCE從18降到11,兩種決定系數(shù)也都有上升。?Jv?..23?;:s..K<J:芮£::此處為每一步的預(yù)測情況匯總可見準確率由Block0的65%上升到了84%,最后達到96%,效果不錯,最終只出現(xiàn)了一例錯判。上表為方程中變量檢驗情況列表,分別給出了Step1和Step2的擬合情況。注意X4的P值略大于0.05,但仍然是可以接受的,因為這里用到的是排除標準(默認為0.1),該變量可以留在方程中。以Step2中的X2為例,可見其系數(shù)為2.413,OR值為11。上表為假設(shè)將這些變量單獨移出方程,則方程的改變有無統(tǒng)計學(xué)意義,可見都是有統(tǒng)計學(xué)意義的,因此他們應(yīng)當(dāng)保留在方程中。VariablesnotintheEquationScoredfSig.Step1VariablesX-1.sue■1.369X3.■18S■1X46.199■1.013X53.689■1.055OverallStatistics8.S76斗.064Step2VariablesX-1■1.39S■1.237X3.726■1.394X5■1.662■1.197OverallStatistics5.0973.165最后這個表格說明的是在每一步中,尚未進入方程的變量如果再進入現(xiàn)有方程,則方程的改變有無統(tǒng)計學(xué)意義??梢娫赟tep1時,X4還應(yīng)該引入,而在Step2時,其它變量是否引入都無關(guān)了。模型的進一步優(yōu)化與簡單診斷模型的進一步優(yōu)化前面我們將X1~X5直接引入了方程,實際上,其中X2、X4、X5這三個自變量為多分類變量,我們并無證據(jù)認為它們之間個各等級的OR值是成倍上升的,嚴格來說,這里應(yīng)當(dāng)采用啞變量來分析,即需要用Categorical鈕將他們定義為分類變量。但本次分析不能這樣做,原因是這里總例數(shù)只有26例,如果引入啞變量模型會使得每個等級的記錄數(shù)非常少,從而分析結(jié)果將極為奇怪,無法正常解釋,但為了說明啞變量模型的用法,下面我將演示它是如何做的,畢竟不是每個例子都只有26例。默認情況下定義分類變量非常容易,做到如上圖所示就可以了,此時分析結(jié)果中的改變?nèi)缦拢荷媳頌樽宰兞恐卸喾诸愖兞康膯∽兞咳≈登闆r代碼表。左側(cè)為原變量名及取值,右側(cè)為相應(yīng)的啞變量名及編碼情況:以X5為例,表中可見X5=4時,即取值最高的情況被作為了基線水平,這是多分類變量生成啞變量的默認情況。而X5(1)代表的是X5=1的情況(X5為1時取1,否則取0),X5⑵代表的是X5=2的情況,依此類推。同時注意到許多等級值有幾個記錄,顯然后面的分析結(jié)果不會太好。相應(yīng)的,分析結(jié)果中也以啞變量在進行分析,如下所示:上表出現(xiàn)了非常有趣的現(xiàn)象:所有的檢驗P值均遠遠大于0.05,但是所有的變量均沒有被移出方程,這是怎么回事?再看看下面的這個表格吧。這個表格為方程的似然值改變情況的檢驗,可見在最后Step2生成的方程中,無論移出X2還是X4都會引起方程的顯著性改變。也就是說,似然比檢驗的結(jié)果和上面的Walds檢驗結(jié)果沖突,以誰為準?此處應(yīng)以似然比檢驗為準,因為它是全局性的檢驗,且Walds檢驗本身就不太準,這一點大家記住就行了,實在要弄明白請去查閱相關(guān)文獻。請注意:上面的啞變量均是以最高水平為基線水平,這不符合我們的目的,我們希望將最低水平作為基線水平。比如以腎細胞癌第一期為基線水平,需要這

樣做只要在Categoriacl框中選中相應(yīng)的變量,在ReferenceCategory處選擇First,再單擊Change即可,此時變量旁的標示會做出相應(yīng)的改變?nèi)缦拢悍治鼋Y(jié)果中也會做出相應(yīng)的改變,此處略。模型的簡單診斷SPSS本身提供了幾種用于模型診斷的工具,基本上都集中在Options對話框中,除了大家熟悉的殘差分析外,這里這種介紹三種簡單而有非常有用的工具:迭代記錄、相關(guān)矩陣和分類圖。IterationHistory3bcdeIteration-2Log1ike1ihuudCoefficiPritsCunstantX2X4Step1119.962-3.597■1.550218.229-5.2492.1893■is.uio■6.0812.499418.004-6.2502.561518.004-6.2562.563Step2116.773-4.474■1.031.72S213.-ISO■7.391■1.5331.2673■12.059-9.989■1.9961.7-11411.840-11.7152.3051.996511.826-12.2822.4J52.0S9611.826-12.32S2.4132.096■a.ForwarcK*|:wfceipoidlttjial.liclidedlbHemodel.C.lhmal-2L?|Ll^llh>:M:l:335421eimhatdart龍r^tF?biimter5beca■他kg-llsllb*:M:ldecreasedR陽耳tiaijDIO片rcektBWiarbjh電imhatdat陛rarbjhbimter61疋ca■徒kg-ll?II比o:ldecreasedI殲臥*UahjDIOjwrceit上表為Block1的迭代記錄,可見無論是似然值,還是三個系數(shù)值,均是從迭代開始就向著一個方向發(fā)展,最終達到收斂,這說明整個迭代過程是健康的,問題不大;如果中途出現(xiàn)波折,尤其是當(dāng)引入新變量后變化方向改變了,則提示要好好研究。上表為方程中變量的相關(guān)矩陣,可見X2和常數(shù)相關(guān)性較強,當(dāng)引入X4后仍然如此,提示要關(guān)注這一現(xiàn)象,以防因自變量間的共線性導(dǎo)致方程系數(shù)不穩(wěn)(此時迭代記錄多半也會有波動)。當(dāng)然,由于本例只有26條記錄,這一問題是沒有辦法深入研究的。ObservedGroupsandFredictedFrobabilitiem0ObservedGroupsandFredictedFrobabilitiem016-12-8-04-0Fred

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論