




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第八章第八章Logistic回歸模型 許多社會科學的觀察都只分類而不是連續(xù)的比如,政治學中經(jīng)常研究的是否選舉某候選人 又如,經(jīng)濟學研究中所涉及的是否銷售或購買某種商品、是否簽訂個合同等等這種選擇量度通常分為兩類,即“是與“否” 在社會學和人口研究中,人們的社會行為與事件的發(fā)生如犯罪、逃學、遷移、結(jié)婚、離婚、患病等等都可以按照二分類變量來測量。 線性回歸模型在定量分析中也許是最流行的統(tǒng)計分析方法,然而在許多情況下,線性回歸會受到限制. 比如,當因變量是一個分類變量,不是一個連續(xù)變量時,線性回歸就不適用,嚴重違反假設條件. 分類變量分析通常采用對數(shù)線性模型分類變量分析通常采用對數(shù)線性模型(Log-
2、linear model), 而因變量為二分變量時而因變量為二分變量時, 對數(shù)線性模型就變對數(shù)線性模型就變成成Logistic回歸模型回歸模型.logistic回歸是一個回歸是一個概率型模型概率型模型,因此可以因此可以利用它預測某事件發(fā)生的概率。例如在臨床上可以利用它預測某事件發(fā)生的概率。例如在臨床上可以根據(jù)患者的一些檢查指標,判斷患某種疾病的概率根據(jù)患者的一些檢查指標,判斷患某種疾病的概率有多大。有多大。目的:目的:作出以多個自變量估計作出以多個自變量估計應變量(應變量(結(jié)果結(jié)果因素)因素)的的logistic回歸方程。屬于概率型非線回歸方程。屬于概率型非線性回歸。性回歸。資料:資料:1.
3、應變量為反映某現(xiàn)象發(fā)生與不發(fā)生的應變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;二值變量;2. 自變量宜全部或大部分為分類自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化?;S猛荆河猛荆貉芯磕撤N現(xiàn)象發(fā)生和多個因素(或保護研究某種現(xiàn)象發(fā)生和多個因素(或保護因子)的數(shù)量關系。因子)的數(shù)量關系。用用 檢驗(或檢驗(或u檢驗)的檢驗)的局限性:局限性: 1.只能研究只能研究1個因素;個因素; 2.只能得出定性結(jié)論。只能得出定性結(jié)論。21.成組(非條件)成組(非條件)logistic回歸方程?;貧w方程。2.配對(條件)配對(條件)logistic回歸方
4、程?;貧w方程。 第八章 第一節(jié)第一節(jié)機動 目錄 上頁 下頁 返回 結(jié)束 logistic回歸(非條件(非條件logistic回歸回歸 ) 一、基本概念一、基本概念1 0 Y發(fā)生應變量未發(fā)生12,mXXX自變量,在m個自變量的作用下個自變量的作用下Y=1(發(fā)生發(fā)生)的概率記作的概率記作:),| 1(21mXXXYPP1P011ZPe若令若令: mmXXXZ2211001122ln=1mmPXXXP0112211 exp ()mmPXXX回回歸歸模模型型其中0為常數(shù)項, m,21為回歸系數(shù)。 概率概率P:01,logitP:。 取值范圍取值范圍 logitP logistic函數(shù)的圖形函數(shù)的圖形0
5、0.51-4-3-2-10123410.5PZ:, 0, : 0, 0.5, 1PZ模模型型參參數(shù)數(shù)的的意意義義01122ln=logit1mmPXXXPP常數(shù)項常數(shù)項 表示暴露劑量為表示暴露劑量為0時個體發(fā)病時個體發(fā)病與不發(fā)病概率之比的自然對數(shù)。與不發(fā)病概率之比的自然對數(shù)。回歸系數(shù)回歸系數(shù) 表示自變量表示自變量 改變一個單位時改變一個單位時logitP 的改變量。的改變量。0), 2 , 1(mjjjX流行病學衡量危險因素作用大小的流行病學衡量危險因素作用大小的比數(shù)比例比數(shù)比例指標。指標。計算公式為:計算公式為:1100/(1)/(1)jPPORPP優(yōu)勢比優(yōu)勢比OR(odds ratio)1
6、11000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc對對比比某某一一危危險險因因素素兩兩個個不不同同暴暴露露水水平平1cXj與與0cXj的的發(fā)發(fā)病病情情況況(假假定定其其它它因因素素的的水水平平相相同同) ,其其優(yōu)優(yōu)勢勢比比的的自自然然對對數(shù)數(shù)為為: 與與 logisticP 的關系的關系:0, 1 exp, 0, 1 0, 1 jjjjjjOROROROR無作用危險因保子護因子則有101 , 1, 0 jccX暴非若暴露露由 于jOR值 與 模 型 中的 常 數(shù)項0無 關 ,0在 危 險 因素 分 析中 通 常
7、視 其 為無 效 參數(shù) 。 1100/(1) 1, /(1)PPPORRRPP當則有10 exp()jjORcc即二、二、logisticlogistic回歸模型的參數(shù)估計回歸模型的參數(shù)估計 11(1)iinYYiiiLPP 1lnln(1) ln(1)niiiiiLYPYP mbbbb,210 參數(shù)估計參數(shù)估計 原理:最大似然原理:最大似然( likelihood )估計估計 0112211 exp ()mmPXXX )(exp01ccbROjj)exp(2/jbjSub可反映某一因素兩個不同水平(c1,c0)的優(yōu)勢比。 2. 優(yōu)勢比估計優(yōu)勢比估計 例例設有住房及收入情況的統(tǒng)計資料如表 X
8、XY YX XY YX XY Y10100 017171 120201 117171 113130 011110 018181 121211 18 80 014140 016161 117171 112120 012120 016161 19 91 111110 07 70 020201 116161 117171 113130 012120 015151 19 90 011110 010101 119191 116161 125251 112120 011110 015150 04 40 020201 112120 0在SPSS 中估計參數(shù)步驟如下:(1)在SPSS 中錄入表10-55中數(shù)據(jù)
9、(變量為Y 和X),并保存數(shù)據(jù)文件;在主菜單中選擇Analyze=Regression=Binary Logistic(2)在Logistic Regression對話框中,選擇Y 進入Dependent框作為因變量,選擇X 進入Covariates作為自變量擊Method的下拉菜單,SPSS 提供了7 種方法: Enter:所有自變量強制進入回歸方程; Forward: Conditional:以假定參數(shù)為基礎作似然比檢驗,向前逐步選擇自變量; Forward: LR:以最大局部似然為基礎作似然比檢驗,向前逐步選擇自變量; Forward: Wald:作Wald 概率統(tǒng)計法,向前逐步選擇自變
10、量; Backward: Conditional:以假定參數(shù)為基礎作似然比檢驗,向后逐步選擇自變量; Backward: LR:以最大局部似然為基礎作似然比檢驗,向后逐步選擇自變量; Backward: Wald:作Wald 概率統(tǒng)計法,向后逐步選擇自變量。( 3)單擊Logistic Regression對話框中的Options按鈕,在顯示的子對話框中選擇Classification plots和Hosmer-Lemeshow goodness-of-fit等選項(如圖所示),并單擊Continue返回主對話框。(4)單擊主對話框中OK按鈕,輸出結(jié)果如下:O Om mn ni ib bu u
11、s s T Te es st ts s o of f M Mo od de el l C Co oe ef ff fi ic ci ie en nt ts s35.2071.00035.2071.00035.2071.000StepBlockModelStep 1Chi-squaredfSig.Model SummaryModel Summary38.248a.485.647Step1-2 LoglikelihoodCox & SnellR SquareNagelkerkeR SquareEstimation terminated at iteration number 6 becausepa
12、rameter estimates changed by less than .001.a. Hosmer and Lemeshow TestHosmer and Lemeshow Test12.6447.081Step1Chi-squaredfSig.C Co on nt ti in ng ge en nc cy y T Ta ab bl le e f fo or r H Ho os sm me er r a an nd d L Le em me es sh ho ow w T Te es st t54.9270.073545.6082.392665.2200.780653.93601.06
13、4543.17122.829601.53664.46461.95855.04261.49055.51060.15376.8477123456789Step1ObservedExpectedY = 0ObservedExpectedY = 1TotalClassification TableClassification Tablea a23388.532488.988.7Observed01YOverall PercentageStep 101YPercentageCorrectPredictedThe cut value is .500a. Variables in the EquationV
14、ariables in the Equation.594.14815.9911.0001.811-8.4322.16415.1801.000.000XConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: X.a. 例例: 下表是一個研究吸煙、飲酒與食道癌關系的病下表是一個研究吸煙、飲酒與食道癌關系的病例對照資料,試作例對照資料,試作logistic回歸分析?;貧w分析。 121 0 1 0 1 0 XXY吸 煙不 吸 煙飲 酒不 飲 酒病 例對 照確確定定各各變變量量編編碼碼 分 層 吸 煙 飲 酒 觀 察 例 數(shù) 陽
15、 性 數(shù) 陰 性 數(shù) g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表 吸煙與食道癌關系的病例對照調(diào)查資料吸煙與食道癌關系的病例對照調(diào)查資料 經(jīng)logistic回歸計算后得:22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30)bbS2OR的95可信區(qū)間: 飲酒與不飲酒的優(yōu)勢比 11expexp0.8856=2.42ORb110.05/2expexp(0.8856 1.96 0.1500)(1.81,3.25)bbuSOR1的9
16、5可信區(qū)間 11expexp0.8856=2.42ORb吸煙與不吸煙的優(yōu)勢比: 三、三、logisticlogistic回歸模型的假設檢驗回歸模型的假設檢驗 Wald 檢驗 將各參數(shù)的估計值jb與 0 比較,而用它的標準誤jbS作為參照,檢驗統(tǒng)計量為 2, 1jjjjbbbbuSS2 或 221220111022120.8856 34.860.15000.5261 11.200 :0, :0, 0.05,:0, :0,.157 0 05,2.HHHH 2值均大于 3.84,說明食道癌與吸煙、飲酒有關系,結(jié)論同前。 2. Wald檢驗檢驗1.1.似然比檢驗似然比檢驗方法方法:前進法、后退法和逐步
17、法。檢驗統(tǒng)計量:檢驗統(tǒng)計量:不是 F 統(tǒng)計量,而是似然比統(tǒng)計量、 Wald 統(tǒng)計量和計分統(tǒng)計量之一。四、變量篩選四、變量篩選例: 為了探討冠心病發(fā)生的有關危險因素,對為了探討冠心病發(fā)生的有關危險因素,對26例例冠心病病人和冠心病病人和28例對照者進行病例例對照者進行病例 對照研究,各因?qū)φ昭芯?,各因素的說明及資料見下兩。試用素的說明及資料見下兩。試用logistic 逐步回歸分析方逐步回歸分析方法篩選危險因素。法篩選危險因素。)15. 0,10. 0(出入表冠心病表冠心病8 8個可能的危險因素與賦值個可能的危險因素與賦值序號 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 3 1 0
18、1 0 0 1 1 0 2 2 0 1 1 0 0 1 0 0 3 2 1 0 1 0 0 1 0 0 4 2 0 0 1 0 0 1 0 0 5 3 0 0 1 0 1 1 1 0 6 3 0 1 1 0 0 2 1 0 7 2 0 1 0 0 0 1 0 0 8 3 0 1 1 1 0 1 0 0 9 2 0 0 0 0 0 1 1 0 10 1 0 0 1 0 0 1 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2 0 1 1 0 1 2 1 1 52 2 1 1 1 0 0 2 1 1 53 2
19、1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1 表表 冠心病危險因素的病例冠心病危險因素的病例 對照調(diào)查資料對照調(diào)查資料 表方程中的自變量及有關參數(shù)的估計值表方程中的自變量及有關參數(shù)的估計值 選入 變量 回歸系 數(shù) b 標準誤 bS Wald 2 P 值 標準回歸 系數(shù) b OR 常數(shù)項 -4.705 1.543 9.30 0.0023 - - X1 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.0
20、0 X8 1.947 0.847 5.29 0.0215 0.523 7.01 例例:某研究人員在探討腎細胞癌轉(zhuǎn)移的有關臨床病理某研究人員在探討腎細胞癌轉(zhuǎn)移的有關臨床病理因素研究中,收集了一批行根治性腎切除術患者的因素研究中,收集了一批行根治性腎切除術患者的腎癌標本資料,現(xiàn)從中抽取腎癌標本資料,現(xiàn)從中抽取26例資料作為示例進行例資料作為示例進行l(wèi)ogistic回歸分析回歸分析 。 i: 標本序號標本序號 x1:確診時患者的年齡:確診時患者的年齡(歲歲) x2:腎細胞癌血管內(nèi)皮生長因子:腎細胞癌血管內(nèi)皮生長因子(VEGF),其陽性表,其陽性表述由低到高共述由低到高共3個等級個等級 x3:腎細胞癌
21、組織內(nèi)微血管數(shù):腎細胞癌組織內(nèi)微血管數(shù)(MVC) x4:腎癌細胞核組織學分級,由低到高共:腎癌細胞核組織學分級,由低到高共4級級 x5:腎細胞癌分期,由低到高共:腎細胞癌分期,由低到高共4期期 y: 腎細胞癌轉(zhuǎn)移情況腎細胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移有轉(zhuǎn)移y=1; 無轉(zhuǎn)移無轉(zhuǎn)移y=0)。 ix1x2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.821
22、01536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜單上選擇Analyze=Regression=Binary Logistic.,系統(tǒng)彈出Logistic回歸對話框如下: Select鈕:用于限定一個篩選條件,只有滿足該條件的記錄才會被納入分析,單擊它后對話框會展開讓你填入相應的條件。不過我覺得該功能純屬多余,和專門的Select對話框的功能重復了。
23、 Categorical鈕:如果你的自變量是多分類的(如血型等),你必須要將它用啞變量的方式來分析,那么就要用該按鈕將該變量指定為分類變量,如果有必要,可用里面的選擇按鈕進行詳細的定義,如以哪個取值作為基礎水平,各水平間比較的方法是什么等。當然,如果你弄不明白,不改也可以,默認的是以最大取值為基礎水平,用Deviance做比較。 Save鈕:將中間結(jié)果存儲起來供以后分析,共有預測值、影響強度因子和殘差三大類。 Options鈕:這一部分非常重要,但又常常被忽視,在這里我們可以對模型作精確定義,還可以選擇模型預測情況的描述方式,如Statistics and Plots中的Classificat
24、ion plots就是非常重要的模型預測工具,Correlations of estimates則是重要的模型診斷工具,Iteration history可以看到迭代的具體情況,從而得知你的模型是否在迭代時存在病態(tài),下方則可以確定進入和排除的概率標準,這在逐步回歸中是非常有用的。 記錄處理情況匯總 Case Processing SummaryCase Processing Summary26100.00.026100.00.026100.0Unweighted CasesaIncluded in AnalysisMissing CasesTotalSelected CasesUnselect
25、ed CasesTotalNPercentIf weight is in effect, see classification table for the totalnumber of cases.a. 應變量分類情況列表 Dependent Variable EncodingDependent Variable Encoding01Original Value01Internal ValueClassification TableClassification Tablea,ba,b170100.090.065.4Observed01yOverall PercentageStep 001yPe
26、rcentageCorrectPredictedConstant is included in the model.a. The cut value is .500b. Block 0擬合的是只有常數(shù)的無效模型,上表為分類預測表,可見在17例觀察值為0的記錄中,共有17例被預測為0,9例1也都被預測為0,總預測準確率為65.4%,這是不納入任何解釋變量時的預測準確率,相當于比較基線。 Variables in the EquationVariables in the Equation-.636.4122.3801.123.529ConstantStep 0BS.E.WalddfSig.Exp(
27、B)Block 0時的變量系數(shù),可見常數(shù)的系數(shù)值為-0.636。 上表為在Block 0處尚未納入分析方程的侯選變量,所作的檢驗表示如果分別將他們納入方程,則方程的改變是否會有顯著意義(根據(jù)所用統(tǒng)計量的不同,可能是擬合優(yōu)度,Deviance值等)??梢娙绻麑2系列的啞變量納入方程,則方程的改變是有顯著意義的,X4和X5也是如此,由于Stepwise方法是一個一個的進入變量,下一步將會先納入P值最小的變量X2,然后再重新計算該表,再做選擇。 Variables not in the EquationVariables not in the Equation.2601.61013.1731.00
28、0.2331.62912.0921.0018.1641.00417.7405.003x1x2x3x4x5VariablesOverall StatisticsStep0ScoredfSig.此處開始了Block 1的擬合,根據(jù)我們的設定,采用的方法為Forward(我們只設定了一個Block,所以后面不會再有Block 2了)。上表為全局檢驗,對每一步都作了Step、Block和Model的檢驗,可見6個檢驗都是有意義的 Omnibus Tests of Model CoefficientsOmnibus Tests of Model Coefficients15.5381.00015.538
29、1.00015.5381.0006.1781.01321.7162.00021.7162.000StepBlockModelStepBlockModelStep 1Step 2Chi-squaredfSig.此處為模型概況匯總,可見從STEP1到STEP2,DEVINCE從18降到11,兩種決定系數(shù)也都有上升。 Model SummaryModel Summary18.004a.450.62111.826b.566.781Step12-2 LoglikelihoodCox & SnellR SquareNagelkerkeR SquareEstimation terminated at ite
30、ration number 6 becauseparameter estimates changed by less than .001.a. Estimation terminated at iteration number 7 becauseparameter estimates changed by less than .001.b. 此處為每一步的預測情況匯總,可見準確率由Block 0的65%上升到了84%,最后達到96%,效果不錯,最終只出現(xiàn)了一例錯判。 C Cl la as ss si if fi ic ca at ti io on n T Ta ab bl le ea a152
31、88.22777.884.616194.109100.096.2Observed01yOverall Percentage01yOverall PercentageStep 1Step 201yPercentageCorrectPredictedThe cut value is .500a. 上表為方程中變量檢驗情況列表,分別給出了Step 1和Step 2的擬合情況。注意X4的P值略大于0.05,但仍然是可以接受的,因為這里用到的是排除標準(默認為0.1),該變量可以留在方程中。以Step 2中的X2為例,可見其系數(shù)為2.413,OR值為11。 V Va ar ri ia ab bl le
32、es s i in n t th he e E Eq qu ua at ti io on n2.563.9167.8291.00512.978-6.2562.2897.4681.006.0022.4131.1964.0721.04411.1722.0961.0883.7131.0548.136-12.3285.4315.1541.023.000 x2ConstantStep1ax2x4ConstantStep2bBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: x2.a. Variable(s) entered on step 2: x4.
33、b. 上表為假設將這些變量單獨移出方程,則方程的改變有無統(tǒng)計學意義,可見都是有統(tǒng)計學意義的,因此他們應當保留在方程中。 M Mo od de el l i if f T Te er rm m R Re em mo ov ve ed da a-17.73917.4751.000-10.8029.7781.002-10.2138.6011.003Variablex2Step 1x2x4Step 2Model LogLikelihoodChange in-2 LogLikelihooddfSig. of theChangeBased on conditional parameter estimate
34、sa. 最后這個表格說明的是在每一步中,尚未進入方程的變量如果再進入現(xiàn)有方程,則方程的改變有無統(tǒng)計學意義??梢娫赟tep 1時,X4還應該引入,而在Step 2時,其它變量是否引入都無關了。 Variables not in the EquationVariables not in the Equation.8061.369.1881.6646.1991.0133.6891.0558.8764.0641.3981.237.7261.3941.6621.1975.0973.165x1x3x4x5VariablesOverall StatisticsStep1x1x3x5VariablesOver
35、all StatisticsStep2ScoredfSig. 第八章 第二節(jié)第二節(jié)機動 目錄 上頁 下頁 返回 結(jié)束 條件logistic回歸 一、原理一、原理 配對資料。最常用的是每組中有一個病例和若干個對照,即1: M配對研究(一般)表表 1: M 條件條件logistic回歸數(shù)據(jù)的格式回歸數(shù)據(jù)的格式 * t = 0 為病例,其他為對照 條件條件 logistic 模型模型0112211 exp (.)iimmPXXX 1,2, inPi表示第i層在一組危險因素作用下發(fā)病的概率, 表示各層的效應, 為待估計的參數(shù)。 i0m,21i0與非條件logistic 回歸模型不同之處在常數(shù)項上,不同匹配組的 可以各不相同,但內(nèi)在假定了每個危險因素的致病能力在不同匹配組中相同。 二、應用實二、應用實例例)15. 0,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 長沙衛(wèi)生職業(yè)學院《財會商圈實訓》2023-2024學年第二學期期末試卷
- 泰州學院《產(chǎn)能成本決策虛擬仿真實驗》2023-2024學年第二學期期末試卷
- 天津廣播影視職業(yè)學院《數(shù)理統(tǒng)計方法》2023-2024學年第一學期期末試卷
- 河北工業(yè)大學《樂理視唱》2023-2024學年第一學期期末試卷
- 吉林醫(yī)藥學院《食品工藝學實驗》2023-2024學年第二學期期末試卷
- 工廠電照工程合同
- 手機配件購銷合同
- 土地租賃合同補充協(xié)議書
- 廠房物業(yè)財產(chǎn)移交合同
- 學校專家聘用合同協(xié)議書
- 叉車駕駛員培訓手冊-共89頁PPT課件
- 拆除工程安全的應急預案工程應急預案
- 四線制方向電路
- 【項目申報書】神經(jīng)環(huán)路的形成、功能與可塑性
- 食堂干貨類食材臨時采購需求書
- 注射模具設計說明書
- 《工廠安全用電常識》
- 《DVT深靜脈血栓》
- 導電高分子材料的研究功能高分子材料論文
- 中學運動會秩序冊
評論
0/150
提交評論