第十一章 spss之線性回歸詳解2(張文彤)

上傳人：d*** IP屬地：天津上傳時間：2023-09-25 格式：DOCX 頁數(shù)：18 大小：273.02KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第十一章分類資料的回歸分析—Regression菜單詳解（下）（醫(yī)學(xué)統(tǒng)計之星:張文彤）上次更新日期：Linear過程簡單操作入門界面詳解輸出結(jié)果解釋復(fù)雜實例操作分析實例結(jié)果解釋CurveEstimation過程界面詳解實例操作10.3BinaryLogistic過程1031界面詳解與實例1032結(jié)果解釋10.3.3模型的進一步優(yōu)化與簡單診斷10.3.3.1模型的進一步優(yōu)化10.3.3.2模型的簡單診斷口嚀

在很久很久以前，地球上還是一個陰森恐怖的黑暗時代，大地上恐龍橫行，我們的老祖先－－類人猿驚恐的睜大了雙眼，圍坐在僅剩的火堆旁，擔(dān)心著無邊的黑暗中不知何時會出現(xiàn)的妖魔鬼怪，沒有電視可看，沒有網(wǎng)可上...我是瘋了，還是在說夢話？都不是，類人猿自然不會有機會和恐龍同時代，只不過是我開機準備寫這一部分的時候，心里忽然想到，在10年前，國內(nèi)的統(tǒng)計學(xué)應(yīng)用上還是卡方檢驗橫行，分層的M-H卡方簡直就是超級武器，在流行病學(xué)中稱王稱霸，更有那些1:M的配對卡方，N:M的配對卡方，含失訪數(shù)據(jù)的N：M配對卡方之類的，簡直象恐龍一般，搞得我頭都大了。其實恐龍我還能講出十多種來，可上面這些東西我現(xiàn)在還沒徹底弄明白，好在社會進步迅速，沒等這些恐龍完全統(tǒng)制地球，Logistic模型就已經(jīng)飛速進化到了現(xiàn)代人的階段，各種各樣的Logistic模型不斷地在蠶食著恐龍爺爺們的領(lǐng)地，也許還象貪吃的人類一樣貪婪的享用著恐龍的身體。好，這是好事，這里不能講動物保護，現(xiàn)在我們就遠離那些恐龍，來看看現(xiàn)代白領(lǐng)的生活方式。:尬特別聲明：我上面的話并非有貶低流行病學(xué)的意思，實際上我一直都在做流行病學(xué)，我這樣寫只是想說明近些年來統(tǒng)計方法的普及速度之快而已。站據(jù)我一位學(xué)數(shù)學(xué)的師兄講‘Logistic模型和卡方在原理上是不一樣的，在公式推演上也不可能劃等號，只是一般來說兩者的檢驗結(jié)果會非常接近而已，多數(shù)情況下可忽略其不同?！?0.3inaryLogistic§10.3inaryLogistic過程所謂Logistic模型，或者說Logistic回歸模型，就是人們想為兩分類的應(yīng)變量作一個回歸方程出來，可概率的取值在0~1之間，回歸方程的應(yīng)變量取值可是在實數(shù)集中，直接做會出現(xiàn)0~1范圍之外的不可能結(jié)果，因此就有人耍小聰明，將率做了一個Logit變換，這樣取值區(qū)間就變成了整個實數(shù)集，作出來的結(jié)果就不會有問題了，從而該方法就被叫做了Logistic回歸。隨著模型的發(fā)展‘Logistic家族也變得人丁興旺起來，除了最早的兩分類Logistic外，還有配對Logistic模型，多分類Logistic模型、隨機效應(yīng)的Logistic模型等。由于SPSS的能力所限，對話框只能完成其中的兩分類和多分類模型，下面我們就介紹一下最重要和最基本的兩分類模型。界面詳解與實例例11.1某研究人員在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中，收集了一批行根治性腎切除術(shù)患者的腎癌標本資料，現(xiàn)從中抽取26例資料作為示例進行l(wèi)ogistic回歸分析（本例來自《衛(wèi)生統(tǒng)計學(xué)》第四版第11章）。i:標本序號x1:確診時患者的年齡（歲）x2:腎細胞癌血管內(nèi)皮生長因子（VEGF），其陽性表述由低到高共3個等級x3:腎細胞癌組織內(nèi)微血管數(shù)（MVC）?x4:腎癌細胞核組織學(xué)分級，由低到高共4級x5:腎細胞癌分期，由低到高共4期y:腎細胞癌轉(zhuǎn)移情況（有轉(zhuǎn)移y=1;無轉(zhuǎn)移y=0）。ix1x2x3x4x5y159243.4210

236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜單上選擇Analyze==》Regression==》BinaryLogistic...，系統(tǒng)彈出Logistic回歸對話框如下：

；LogisticRegressionSelect>>123d-5?……iXXXXX-￥Dependent：o_PreviousBlock1of1；LogisticRegressionSelect>>123d-5?……iXXXXX-￥Dependent：o_PreviousBlock1of1NextMethod：|Enter3Covariates：左側(cè)是候選變量框，右上角是應(yīng)變量框，選入二分類的應(yīng)變量，下方的Covariates框是用于選入自變量的，只不過這里按國外的習(xí)慣被稱為了協(xié)變量。兩框中間的是BLOCK系列按扭，我在上一課已經(jīng)講過了，不再重復(fù)。中下部的〉a*b＞框是用于選入交互作用的，和其他的對話框不太相同（我也不知道為什么SPSS偏在這里做得不同），下方的Method列表框用于選擇變量進入方法，有進入法、前進法和后退法三大類，三類之下又有細分。最下面的四個按鈕比較重要，請大家聽我慢慢道來：oSelect〉＞鈕：用于限定一個篩選條件，只有滿足該條件的記錄才會被納入分析，單擊它后對話框會展開讓你填入相應(yīng)的條件。不過我覺得該功能純屬多余，和專門的Select對話框的功能重復(fù)了。oCategorical鈕：如果你的自變量是多分類的（如血型等），你必須要將它用啞變量的方式來分析，那么就要用該按鈕將該變量指定為分類變量，如果有必要，可用里面的選擇按鈕進行詳細的定義，如以哪個取值作

為基礎(chǔ)水平，各水平間比較的方法是什么等。當(dāng)然，如果你弄不明白，不改也可以，默認的是以最大取值為基礎(chǔ)水平，用Devianee做比較。Save鈕：將中間結(jié)果存儲起來供以后分析，共有預(yù)測值、影響強度因子和殘差三大類。oOptions鈕：這一部分非常重要，但又常常被忽視，在這里我們可以對模型作精確定義，還可以選擇模型預(yù)測情況的描述方式，如StatistiesandPlots中的Classifieationplots就是非常重要的模型預(yù)測工具，Correlationsofestimates則是重要的模型診斷工具，Iterationhistory可以看到迭代的具體情況，從而得知你的模型是否在迭代時存在病態(tài)，下方則可以確定進入和排除的概率標準，這在逐步回歸中是非常有用的。好，根據(jù)我們的目的，應(yīng)變量為Y，而X1?X5為自變量，具體的分析操作如下：Analyze==》Regression==》BinaryLogistic...Dependent框：選入YCovariates框：選入x1~x5OK鈕：單擊1、Enter:所有自變量強制進入回歸方程；2、Forward:Conditional:以假定參數(shù)為基礎(chǔ)作似然比概率檢驗，向前逐步選擇自變量;3、Forward:LR：以最大局部似然為基礎(chǔ)作似然比概率檢驗，向前逐步選擇自變量；4、Forward:Wald:作Wald概率統(tǒng)計法，向前逐步選擇自變量；5、Backward:Conditional：以假定參數(shù)為基礎(chǔ)作似然比概率檢驗，向后逐步選擇自變量;6、Backward:LR：以最大局部似然為基礎(chǔ)作似然比概率檢驗，向后逐步選擇自變量；7、Backward:Wald:作Wald概率統(tǒng)計法，向后逐步選擇自變量。結(jié)果解釋LogisticRegression幫用丁?芮；：；：=+；：；：=沁總；：心.；：QBP孟上表為記錄處理情況匯總，即有多少例記錄被納入了下面的分析，可見此處因不存在缺失值，26條記錄均納入了分析。上表為應(yīng)變量分類情況列表，沒什么好解釋的。Block0:BeginningBlock此處已經(jīng)開始了擬合，Block0擬合的是只有常數(shù)的無效模型，上表為分類預(yù)測表，可見在17例觀察值為0的記錄中，共有17例被預(yù)測為0，9例1也都被預(yù)測為0，總預(yù)測準確率為65.4%，這是不納入任何解釋變量時的預(yù)測準確率，相當(dāng)于比較基線。上表為Block0時的變量系數(shù)，可見常數(shù)的系數(shù)值為-0.636。■護—、、2、2、：上表為在Block0處尚未納入分析方程的侯選變量，所作的檢驗表示如果分別將他們納入方程，則方程的改變是否會有顯著意義(根據(jù)所用統(tǒng)計量的不同，可能是擬合優(yōu)度，Devianee值等)。可見如果將X2系列的啞變量納入方程，則方程的改變是有顯著意義的，X4和X5也是如此，由于Stepwise方法是一個一個的進入變量，下一步將會先納入P值最小的變量X2，然后再重新計算該表，再做選擇。Block1:Method=ForwardStepwise(Conditional)、fj.'fj,、*、*、■!'fj.：2L.⑴牛牛WA、》f*■牛此處開始了Block1的擬合，根據(jù)我們的設(shè)定，采用的方法為Forward（我們只設(shè)定了一個Block,所以后面不會再有Block2了）。上表為全局檢驗，對每一步都作了Step、Block和Model的檢驗，可見6個檢驗都是有意義的。此處為模型概況匯總，可見從STEP1到STEP2，DEVINCE從18降到11，兩種決定系數(shù)也都有上升。?Jv?..23?；：s..K<J：芮￡：：此處為每一步的預(yù)測情況匯總可見準確率由Block0的65%上升到了84%，最后達到96%，效果不錯，最終只出現(xiàn)了一例錯判。上表為方程中變量檢驗情況列表，分別給出了Step1和Step2的擬合情況。注意X4的P值略大于0.05，但仍然是可以接受的，因為這里用到的是排除標準（默認為0.1），該變量可以留在方程中。以Step2中的X2為例，可見其系數(shù)為2.413，OR值為11。上表為假設(shè)將這些變量單獨移出方程，則方程的改變有無統(tǒng)計學(xué)意義，可見都是有統(tǒng)計學(xué)意義的，因此他們應(yīng)當(dāng)保留在方程中。VariablesnotintheEquationScoredfSig.Step1VariablesX-1.sue■1.369X3.■18S■1X46.199■1.013X53.689■1.055OverallStatistics8.S76斗.064Step2VariablesX-1■1.39S■1.237X3.726■1.394X5■1.662■1.197OverallStatistics5.0973.165最后這個表格說明的是在每一步中，尚未進入方程的變量如果再進入現(xiàn)有方程，則方程的改變有無統(tǒng)計學(xué)意義?？梢娫赟tep1時，X4還應(yīng)該引入，而在Step2時，其它變量是否引入都無關(guān)了。模型的進一步優(yōu)化與簡單診斷模型的進一步優(yōu)化前面我們將X1~X5直接引入了方程，實際上，其中X2、X4、X5這三個自變量為多分類變量，我們并無證據(jù)認為它們之間個各等級的OR值是成倍上升的，嚴格來說，這里應(yīng)當(dāng)采用啞變量來分析，即需要用Categorical鈕將他們定義為分類變量。但本次分析不能這樣做，原因是這里總例數(shù)只有26例，如果引入啞變量模型會使得每個等級的記錄數(shù)非常少，從而分析結(jié)果將極為奇怪，無法正常解釋，但為了說明啞變量模型的用法，下面我將演示它是如何做的，畢竟不是每個例子都只有26例。默認情況下定義分類變量非常容易，做到如上圖所示就可以了，此時分析結(jié)果中的改變?nèi)缦拢荷媳頌樽宰兞恐卸喾诸愖兞康膯∽兞咳≈登闆r代碼表。左側(cè)為原變量名及取值，右側(cè)為相應(yīng)的啞變量名及編碼情況：以X5為例，表中可見X5=4時，即取值最高的情況被作為了基線水平，這是多分類變量生成啞變量的默認情況。而X5(1)代表的是X5=1的情況(X5為1時取1，否則取0),X5⑵代表的是X5=2的情況，依此類推。同時注意到許多等級值有幾個記錄，顯然后面的分析結(jié)果不會太好。相應(yīng)的，分析結(jié)果中也以啞變量在進行分析，如下所示：上表出現(xiàn)了非常有趣的現(xiàn)象：所有的檢驗P值均遠遠大于0.05，但是所有的變量均沒有被移出方程，這是怎么回事？再看看下面的這個表格吧。這個表格為方程的似然值改變情況的檢驗，可見在最后Step2生成的方程中，無論移出X2還是X4都會引起方程的顯著性改變。也就是說，似然比檢驗的結(jié)果和上面的Walds檢驗結(jié)果沖突，以誰為準？此處應(yīng)以似然比檢驗為準，因為它是全局性的檢驗，且Walds檢驗本身就不太準，這一點大家記住就行了，實在要弄明白請去查閱相關(guān)文獻。請注意：上面的啞變量均是以最高水平為基線水平，這不符合我們的目的，我們希望將最低水平作為基線水平。比如以腎細胞癌第一期為基線水平，需要這

樣做只要在Categoriacl框中選中相應(yīng)的變量，在ReferenceCategory處選擇First,再單擊Change即可，此時變量旁的標示會做出相應(yīng)的改變?nèi)缦拢悍治鼋Y(jié)果中也會做出相應(yīng)的改變，此處略。模型的簡單診斷SPSS本身提供了幾種用于模型診斷的工具，基本上都集中在Options對話框中，除了大家熟悉的殘差分析外，這里這種介紹三種簡單而有非常有用的工具：迭代記錄、相關(guān)矩陣和分類圖。IterationHistory3bcdeIteration-2Log1ike1ihuudCoefficiPritsCunstantX2X4Step1119.962-3.597■1.550218.229-5.2492.1893■is.uio■6.0812.499418.004-6.2502.561518.004-6.2562.563Step2116.773-4.474■1.031.72S213.-ISO■7.391■1.5331.2673■12.059-9.989■1.9961.7-11411.840-11.7152.3051.996511.826-12.2822.4J52.0S9611.826-12.32S2.4132.096■a.ForwarcK*|：wfceipoidlttjial.liclidedlbHemodel.C.lhmal-2L?|Ll^llh＞：M：l：335421eimhatdart龍r^tF?biimter5beca■他kg-llsllb*：M：ldecreasedR陽耳tiaijDIO片rcektBWiarbjh電imhatdat陛rarbjhbimter61疋ca■徒kg-ll?II比o:ldecreasedI殲臥*UahjDIOjwrceit上表為Block1的迭代記錄，可見無論是似然值，還是三個系數(shù)值，均是從迭代開始就向著一個方向發(fā)展，最終達到收斂，這說明整個迭代過程是健康的，問題不大；如果中途出現(xiàn)波折，尤其是當(dāng)引入新變量后變化方向改變了，則提示要好好研究。上表為方程中變量的相關(guān)矩陣，可見X2和常數(shù)相關(guān)性較強，當(dāng)引入X4后仍然如此，提示要關(guān)注這一現(xiàn)象，以防因自變量間的共線性導(dǎo)致方程系數(shù)不穩(wěn)（此時迭代記錄多半也會有波動）。當(dāng)然，由于本例只有26條記錄，這一問題是沒有辦法深入研究的。ObservedGroupsandFredictedFrobabilitiem0ObservedGroupsandFredictedFrobabilitiem016-12-8-04-0Fred

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第十一章 spss之線性回歸詳解2(張文彤)

文檔簡介

溫馨提示

最新文檔

評論

第十一章 spss之線性回歸詳解2(張文彤)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔