第8章 logistic回歸模型1_第1頁
第8章 logistic回歸模型1_第2頁
第8章 logistic回歸模型1_第3頁
第8章 logistic回歸模型1_第4頁
第8章 logistic回歸模型1_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第八章Logistic回歸模型許多社會科學(xué)的觀察都只分類而不是連續(xù)的.比如,政治學(xué)中經(jīng)常研究的是否選舉某候選人.又如,經(jīng)濟學(xué)研究中所涉及的是否銷售或購買某種商品、是否簽訂—個合同等等.這種選擇量度通常分為兩類,即“是’與“否”.在社會學(xué)和人口研究中,人們的社會行為與事件的發(fā)生如犯罪、逃學(xué)、遷移、結(jié)婚、離婚、患病等等都可以按照二分類變量來測量。線性回歸模型在定量分析中也許是最流行的統(tǒng)計分析方法,然而在許多情況下,線性回歸會受到限制.比如,當(dāng)因變量是一個分類變量,不是一個連續(xù)變量時,線性回歸就不適用,嚴(yán)重違反假設(shè)條件.

分類變量分析通常采用對數(shù)線性模型(Log-linearmodel),而因變量為二分變量時,對數(shù)線性模型就變成Logistic回歸模型.logistic回歸是一個概率型模型,因此可以利用它預(yù)測某事件發(fā)生的概率。例如在臨床上可以根據(jù)患者的一些檢查指標(biāo),判斷患某種疾病的概率有多大。目的:作出以多個自變量估計應(yīng)變量(結(jié)果因素)的logistic回歸方程。屬于概率型非線性回歸。資料:1.應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;2.自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化。用途:研究某種現(xiàn)象發(fā)生和多個因素(或保護因子)的數(shù)量關(guān)系。用檢驗(或u檢驗)的局限性:1.只能研究1個因素;2.只能得出定性結(jié)論。1.成組(非條件)logistic回歸方程。2.配對(條件)logistic回歸方程。第八章第一節(jié)機動目錄上頁下頁返回結(jié)束logistic回歸(非條件logistic回歸)

一、基本概念,在m個自變量的作用下Y=1(發(fā)生)的概率記作:若令:

回歸模型概率P:0~1,logitP:-∞~∞。

取值范圍

logistic函數(shù)的圖形模型參數(shù)的意義常數(shù)項表示暴露劑量為0時個體發(fā)病與不發(fā)病概率之比的自然對數(shù)?;貧w系數(shù)表示自變量改變一個單位時logitP的改變量。流行病學(xué)衡量危險因素作用大小的比數(shù)比例指標(biāo)。計算公式為:優(yōu)勢比OR(oddsratio)與logisticP的關(guān)系:二、logistic回歸模型的參數(shù)估計參數(shù)估計

原理:最大似然(likelihood)估計

可反映某一因素兩個不同水平(c1,c0)的優(yōu)勢比。

2.優(yōu)勢比估計

例設(shè)有住房及收入情況的統(tǒng)計資料如表

XYXYXY10017120117113011018121180140161171120120161911107020116117113012015190110101191161251120110150402011201411811712011611706010016119180181110180110100221在SPSS中估計參數(shù)步驟如下:(1)在SPSS中錄入表10-55中數(shù)據(jù)(變量為Y和X),并保存數(shù)據(jù)文件;在主菜單中選擇[Analyze]=>[Regression]=>[BinaryLogistic](2)在[LogisticRegression]對話框中,選擇Y進入[Dependent]框作為因變量,選擇X進入[Covariates]作為自變量擊[Method]的下拉菜單,SPSS提供了7種方法:[Enter]:所有自變量強制進入回歸方程;[Forward:Conditional]:以假定參數(shù)為基礎(chǔ)作似然比檢驗,向前逐步選擇自變量;[Forward:LR]:以最大局部似然為基礎(chǔ)作似然比檢驗,向前逐步選擇自變量;[Forward:Wald]:作Wald概率統(tǒng)計法,向前逐步選擇自變量;[Backward:Conditional]:以假定參數(shù)為基礎(chǔ)作似然比檢驗,向后逐步選擇自變量;[Backward:LR]:以最大局部似然為基礎(chǔ)作似然比檢驗,向后逐步選擇自變量;[Backward:Wald]:作Wald概率統(tǒng)計法,向后逐步選擇自變量。(3)單擊[LogisticRegression]對話框中的[Options]按鈕,在顯示的子對話框中選擇[Classificationplots]和[Hosmer-Lemeshowgoodness-of-fit]等選項(如圖所示),并單擊[Continue]返回主對話框。(4)單擊主對話框中[OK]按鈕,輸出結(jié)果如下:例:下表是一個研究吸煙、飲酒與食道癌關(guān)系的病例-對照資料,試作logistic回歸分析。

確定各變量編碼

表吸煙與食道癌關(guān)系的病例-對照調(diào)查資料

經(jīng)logistic回歸計算后得:的95可信區(qū)間:飲酒與不飲酒的優(yōu)勢比OR1的95可信區(qū)間

吸煙與不吸煙的優(yōu)勢比:三、logistic回歸模型的假設(shè)檢驗2.Wald檢驗1.似然比檢驗方法:前進法、后退法和逐步法。

檢驗統(tǒng)計量:不是F統(tǒng)計量,而是似然比統(tǒng)計量、

Wald統(tǒng)計量和計分統(tǒng)計量之一。四、變量篩選例:

為了探討冠心病發(fā)生的有關(guān)危險因素,對26例冠心病病人和28例對照者進行病例對照研究,各因素的說明及資料見下兩。試用logistic逐步回歸分析方法篩選危險因素。表冠心病8個可能的危險因素與賦值表冠心病危險因素的病例對照調(diào)查資料

表方程中的自變量及有關(guān)參數(shù)的估計值例:某研究人員在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)從中抽取26例資料作為示例進行l(wèi)ogistic回歸分析。i:標(biāo)本序號x1:確診時患者的年齡(歲)x2:腎細胞癌血管內(nèi)皮生長因子(VEGF),其陽性表述由低到高共3個等級

x3:腎細胞癌組織內(nèi)微血管數(shù)(MVC)

x4:腎癌細胞核組織學(xué)分級,由低到高共4級

x5:腎細胞癌分期,由低到高共4期

y:腎細胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1;無轉(zhuǎn)移y=0)。ix1x2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜單上選擇Analyze==》Regression==》BinaryLogistic...,系統(tǒng)彈出Logistic回歸對話框如下:Select>>鈕:用于限定一個篩選條件,只有滿足該條件的記錄才會被納入分析,單擊它后對話框會展開讓你填入相應(yīng)的條件。不過我覺得該功能純屬多余,和專門的Select對話框的功能重復(fù)了。Categorical鈕:如果你的自變量是多分類的(如血型等),你必須要將它用啞變量的方式來分析,那么就要用該按鈕將該變量指定為分類變量,如果有必要,可用里面的選擇按鈕進行詳細的定義,如以哪個取值作為基礎(chǔ)水平,各水平間比較的方法是什么等。當(dāng)然,如果你弄不明白,不改也可以,默認的是以最大取值為基礎(chǔ)水平,用Deviance做比較。Save鈕:將中間結(jié)果存儲起來供以后分析,共有預(yù)測值、影響強度因子和殘差三大類。Options鈕:這一部分非常重要,但又常常被忽視,在這里我們可以對模型作精確定義,還可以選擇模型預(yù)測情況的描述方式,如StatisticsandPlots中的Classificationplots就是非常重要的模型預(yù)測工具,Correlationsofestimates則是重要的模型診斷工具,Iterationhistory可以看到迭代的具體情況,從而得知你的模型是否在迭代時存在病態(tài),下方則可以確定進入和排除的概率標(biāo)準(zhǔn),這在逐步回歸中是非常有用的。記錄處理情況匯總應(yīng)變量分類情況列表Block0擬合的是只有常數(shù)的無效模型,上表為分類預(yù)測表,可見在17例觀察值為0的記錄中,共有17例被預(yù)測為0,9例1也都被預(yù)測為0,總預(yù)測準(zhǔn)確率為65.4%,這是不納入任何解釋變量時的預(yù)測準(zhǔn)確率,相當(dāng)于比較基線。Block0時的變量系數(shù),可見常數(shù)的系數(shù)值為-0.636。上表為在Block0處尚未納入分析方程的侯選變量,所作的檢驗表示如果分別將他們納入方程,則方程的改變是否會有顯著意義(根據(jù)所用統(tǒng)計量的不同,可能是擬合優(yōu)度,Deviance值等)??梢娙绻麑2系列的啞變量納入方程,則方程的改變是有顯著意義的,X4和X5也是如此,由于Stepwise方法是一個一個的進入變量,下一步將會先納入P值最小的變量X2,然后再重新計算該表,再做選擇。此處開始了Block1的擬合,根據(jù)我們的設(shè)定,采用的方法為Forward(我們只設(shè)定了一個Block,所以后面不會再有Block2了)。上表為全局檢驗,對每一步都作了Step、Block和Model的檢驗,可見6個檢驗都是有意義的此處為模型概況匯總,可見從STEP1到STEP2,DEVINCE從18降到11,兩種決定系數(shù)也都有上升。此處為每一步的預(yù)測情況匯總,可見準(zhǔn)確率由Block0的65%上升到了84%,最后達到96%,效果不錯,最終只出現(xiàn)了一例錯判。上表為方程中變量檢驗情況列表,分別給出了Step1和Step2的擬合情況。注意X4的P值略大于0.05,但仍然是可以接受的,因為這里用到的是排除標(biāo)準(zhǔn)(默認為0.1),該變量可以留在方程中。以Step2中的X2為例,可見其系數(shù)為2.413,OR值為11。上表為假設(shè)將這些變量單獨移出方程,則方程的改變有無統(tǒng)計學(xué)意義,可見都是有統(tǒng)計學(xué)意義的,因此他們應(yīng)當(dāng)保留在方程中。最后這個表格說明的是在每一步中,尚未進入方程的變量如果再進入現(xiàn)有方程,則方程的改變有無統(tǒng)計學(xué)意義??梢娫赟tep1時,X4還應(yīng)該引入,而在Step2時,其它變量是否引入都無關(guān)了。第八章第二節(jié)機動目錄上頁下頁返回結(jié)束條件logistic回歸

一、原理配對資料。最常用的是每組中有一個病例和若干個對照,即1:M配對研究(一般M≤3)表1:M

條件logistic回歸數(shù)據(jù)的格式

*t=0為病例,其他為對照條件logistic模型Pi表示第i層在一組危險因素作用下發(fā)病的概率,表示各層的效應(yīng),為待估計的參數(shù)。與非條件logistic回歸模型不同之處在常數(shù)項上,不同匹配組的可以各不相同,但內(nèi)在假定了每個危險因素的致病能力在不同匹配組中相同。二、應(yīng)用實例例

某北方城市研究喉癌發(fā)病的危險因素,用1:2配對的病例對照研究方法進行了調(diào)查?,F(xiàn)選取了6個可能的危險因素并節(jié)錄25對數(shù)據(jù),各因素的賦值說明、資料列于下表。試作條件logistic逐步回歸分析。表進入方程中的自變量及有關(guān)參數(shù)的估計值

采用逐步法

6個危險因素變量篩選4個進方程,結(jié)果見表。

表喉癌1:2配對病例對照調(diào)查資料整理表

選入的4個危險因素分別為吸煙量(X2)、有聲嘶史(X3)、是否經(jīng)常攝食新鮮蔬菜(X4)及癌癥家族史(X6),其中攝食新鮮蔬菜為保護因素(b4<0)。第八章第三節(jié)機動目錄上頁下頁返回結(jié)束logistic回歸的應(yīng)用及其注意事項一、logistic回歸的應(yīng)用1.流行病學(xué)危險因素分析logistic回歸分析的特點之一是參數(shù)意義清楚,即得到某一因素的回歸系數(shù)后,可以很快估計出這一因素在不同水平下的優(yōu)勢比或近似相對危險度,因此非常適合于流行病學(xué)研究。logistic回歸既適合于隊列研究(cohortstudy),也適合于病例-對照研究(case-controlstudy),同樣還可以用于斷面研究(cross-sectio

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論