




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第十六章 logistic回歸分析logistic回歸為概率型非線性回歸模型,是研究分類觀察結(jié)果(y)與一些影響因素(x)之間關(guān)系的一種多變量分析方法問題提出: 醫(yī)學(xué)研究中常研究某因素存在條件下某結(jié)果是否發(fā)生?以及之間的關(guān)系如何? 因素(X) 疾病結(jié)果(Y) x1,x2,x3XK 發(fā)生 Y=1 不發(fā)生 Y=0例:暴露因素 冠心病結(jié)果高血壓史(x1):有 或無 有 或 無高血脂史(x2): 有 或 無吸煙(x3): 有或無研究問題可否用多元線性回歸方法?1.多元線性回歸方法要求 Y 的取值為計量的連續(xù)性隨機(jī)變量。2.多元線性回歸方程要求Y與X間關(guān)系為線性關(guān)系。3.多元線性回歸結(jié)果 不能回答“發(fā)生
2、與否”logistic回歸方法補(bǔ)充多元線性回歸的不足 一、基本概念 1.變量的取值 logistic回歸要求應(yīng)變量(Y)取值為分類變量(兩分類或多個分類) 自變量(Xi)稱為危險因素或暴露因素,可為連續(xù)變量、等級變量、分類變量。 可有m個自變量X1, X2, Xm 2.兩值因變量的logistic回歸模型方程一個自變量與Y關(guān)系的回歸模型如:y:發(fā)生=1,未發(fā)生=0 x 有=1無=0,記為p(y=1/x)表示某暴露因素狀態(tài)下,結(jié)果y=1的概率(P)模型。或模型描述了應(yīng)變量p與x的關(guān)系P概率10.5Z值0123-1-2-3圖16-1 Logistic回歸函數(shù)的幾何圖形為正值,x越大,結(jié)果y=1發(fā)生
3、的可能性(p)越大。幾個logistic回歸模型方程在有多個危險因素(Xi)時多個變量的logistic回歸模型方程的線性表達(dá):或 的含義:某危險因素,暴露水平變化時,即Xi=1與Xi=0相比,發(fā)生某結(jié)果(如發(fā)病)優(yōu)勢比的對數(shù)值。 P1(y=1/x=1)的概率P0(y=1/x=0)的概率 反映了在其他變量固定后,X=1與x=0相比發(fā)生Y事件的對數(shù)優(yōu)勢比。 回歸系數(shù)與OR X與Y的關(guān)聯(lián) =0,OR=1, 無關(guān) 0,OR1 , 有關(guān),危險因素 0,OR1, 有關(guān),保護(hù)因子事件發(fā)生率很小,ORRR。多元回歸模型的的 概念二、 Logistic回歸模型Logistic回歸的分類 二分類 多分類 條件L
4、ogistic回歸 非條件Logistic回歸Logit變換 也稱對數(shù)單位轉(zhuǎn)換 logit P=流行病學(xué)概念:設(shè)P表示暴露因素X時個體發(fā)病的概率,則發(fā)病的概率P與未發(fā)病的概率1-P 之比為優(yōu)勢(odds), logit P就是odds的對數(shù)值。Logistic回歸模型 Logistic回歸的logit模型Logistic回歸模型四、參數(shù)檢驗似然比檢驗(likehood ratio test) 通過比較包含與不包含某一個或幾個待檢驗觀察因素的兩個模型的對數(shù)似然函數(shù)變化來進(jìn)行,其統(tǒng)計量為G (又稱Deviance)。 G=-2(ln Lp-ln Lk) 樣本量較大時, G近似服從自由度為待檢驗因素
5、個數(shù)的分布。比分檢驗(score test) 以未包含某個或幾個變量的模型為基礎(chǔ),保留模型中參數(shù)的估計值,并假設(shè)新增加的參數(shù)為零,計算似然函數(shù)的一價偏導(dǎo)數(shù)(又稱有效比分)及信息距陣,兩者相乘便得比分檢驗的統(tǒng)計量S 。樣本量較大時, S近似服從自由度為待檢驗因素個數(shù)的分布。 上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但兩者均要求較大的計算量;而Wald檢驗未考慮各因素間的綜合作用,在因素間有共線性時結(jié)果不如其它兩者可靠。五、回歸系數(shù)的意義 單純從數(shù)學(xué)上講,與多元線性回歸分析中回歸系數(shù)的解釋并無不同,亦即bi表示xi改變一個單位時, logit P的平均變化量。Logistic回歸
6、中的常數(shù)項(b0)表示,在不接觸任何潛在危險保護(hù)因素條件下,效應(yīng)指標(biāo)發(fā)生與不發(fā)生事件的概率之比的對數(shù)值。Logistic回歸中的回歸系數(shù)( bi )表示,某一因素改變一個單位時,效應(yīng)指標(biāo)發(fā)生與不發(fā)生事件的概率之比的對數(shù)變化值,即OR的對數(shù)值。Logistic回歸系數(shù)的意義分析因素xi為二分類變量時,存在(暴露)xi ,不存在(未暴露)xi ,則Logistic回歸中xi的系數(shù)bi就是暴露與非暴露優(yōu)勢比的對數(shù)值即OR=exp(bi)=e (bi)分析因素xi為多分類變量時,為方便起見,常用1,2,k分別表示k個不同的類別。進(jìn)行Logistic回歸分析前需將該變量轉(zhuǎn)換成k-1個指示變量或啞變量(d
7、esign/dummy variable),這樣指示變量都是一個二分變量,每一個指示變量均有一個估計系數(shù),即回歸系數(shù),其解釋同前。 多因素Logistic回歸分析時,對回歸系數(shù)的解釋都是指在其它所有自變量固定的情況下的優(yōu)勢比。存在因素間交互作用時, Logistic回歸系數(shù)的解釋變得更為復(fù)雜,應(yīng)特別小心。 根據(jù)Wald檢驗,可知Logistic回歸系數(shù)bi服從u分布。因此其可信區(qū)間為進(jìn)而,優(yōu)勢比e(bi)的可信區(qū)間為六、 Logistic回歸分析方法基本思想同線性回歸分析。 從所用的方法看,有強(qiáng)迫法、前進(jìn)法、后退法和逐步法。在這些方法中,篩選變量的過程與線性回歸過程的完全一樣。但其中所用的統(tǒng)計
8、量不再是線性回歸分析中的F統(tǒng)計量,而是以上介紹的參數(shù)檢驗方法中的三種統(tǒng)計量之一。 為計算方便,通常向前選取變量用似然比或比分檢驗,而向后剔除變量常用Wald檢驗。七、條件Logistic回歸對配對/比調(diào)查資料,應(yīng)該用條件Logistic回歸分析。 對于配比資料,第i個配比組可以建立一個Logistic回歸:假設(shè)自變量在各配比組中對結(jié)果變量的作用是相同的,即自變量的回歸系數(shù)與配比組無關(guān)。配比設(shè)計的Logistic回歸模型其中不含常數(shù)項??梢钥闯龃嘶貧w模型與非條件Logistic回歸模型十分相似,只不過這里的參數(shù)估計是根據(jù)條件概率得到的,因此稱為條件Logistic回歸模型。條件Logistic回
9、歸的回歸系數(shù)檢驗與分析,和非條件Logistic回歸完全相同。八、logistic回歸的應(yīng)用 1.疾?。辰Y(jié)果)的危險因素分析和篩選 用回歸模型中的回歸系數(shù)(i)和OR說明危險因素與疾病的關(guān)系。適用的資料: 前瞻性研究設(shè)計、病例對照研究設(shè)計、 橫斷面研究設(shè)計的資料。三類研究計算的logistic 回歸模型的意義是一致。僅常數(shù)項不同。(證明略)2.校正混雜因素,對療效做評價在臨床研究和療效的評價,組間某些因素構(gòu)成不一致干擾療效分析,通過該法可控制非處理因素,正確評價療效。3.預(yù)測與判別預(yù)測個體在某因素存在條件下,發(fā)生某事件(發(fā)?。┑母怕?,為進(jìn)一步治療提供依據(jù)。輸精管切除術(shù)與動脈粥樣硬化疾病的研究
10、1問題的描述(1)輸精管切除術(shù)是否與動脈粥樣硬化疾病有關(guān)?(2)如果存在聯(lián)系,與其他已知的危險因素相比,輸精管切除術(shù)的相對重要性有多大?(3)哪些男性亞群在輸精管切除術(shù)以后發(fā)生動脈粥樣硬化疾病的可能性特別大?九、logistic回歸的應(yīng)用舉例研究目的(1)一般目的 確定輸精管切除術(shù)與其后因動脈粥樣硬化疾病而住院之間是否有因果聯(lián)系;如果有,則確定輸精管切除術(shù)與患動脈粥樣硬化性疾病的危險性是否因觀察對象具有其他冠心病危險因素,如吸煙、高血壓和高膽固醇等而增強(qiáng)。(2)特殊目的A估計輸精管切除術(shù)及其男性動脈粥樣硬化性疾病危險因素的相對危險度(使用單變量分析方法);B估計輸精管切除術(shù)對動脈粥樣硬化性疾病
11、獨(dú)立的作用(利用條件Logistic回歸模型);C檢測輸精管切除術(shù)導(dǎo)致動脈粥樣硬化性疾病的可能期限;D檢測在輸精管切除術(shù)、吸煙和高血壓之間可能的協(xié)同作用。研究變量(1)按照世界衛(wèi)生組織標(biāo)準(zhǔn)來診斷動脈粥樣硬化性疾??;(2)病人特征:年齡,出生日期,宗教,教育,職業(yè),家庭史,婚姻狀況。(3)生育史:存活子女的數(shù)量與性別,妻子的生育情況。(4)生活方式:吸煙習(xí)慣,飲酒量,飲食習(xí)慣,食鹽量,喝咖啡量,體力活動。(5)醫(yī)學(xué)史:有無可能導(dǎo)致不育的疾病或手術(shù)、高血壓、糖尿病或高膽固醇血癥。研究設(shè)計 抽樣: 以完全隨機(jī)抽樣方式確定樣本。樣本量大小的計算是基于事先確定顯著性水平、把握度和打算測知的相對危險度水平
12、。假定樣本量確定為病例組500例,對照組1000例。本設(shè)計力圖避免或減少在病例一對照研究中常見的偏倚與誤差?;貞浧?、選擇偏倚和輸精管切除術(shù)報告偏倚對研究結(jié)果的真實(shí)性是極其重要的。資料收集: 病例組的選取:調(diào)查員審閱每日住院病人情況如果診斷適合研究的范圍,將病例轉(zhuǎn)給心臟病主任醫(yī)師作評估由他做出病例診斷是否合格的決定調(diào)查人員核對病人背景資料是否合格如果病人滿足診斷標(biāo)椎和背景資料合格調(diào)查人員開始詢問并填寫調(diào)查表每完成5個病例和10個配對對照以后,請研究中心的工作人員對調(diào)查表進(jìn)行評估重復(fù)以上步驟。對照組的選?。赫{(diào)查人員評估入院單并選擇符合配對標(biāo)椎和入院診斷合適的對照病例核對病人背景資料是否符合入院標(biāo)
13、準(zhǔn)如對照組成員合格,則進(jìn)行調(diào)查。統(tǒng)計分析:A計算未校正的相對危險比(OR)與95可信限范圍,以估計輸精管切除術(shù)和其他危險因素的相對危險度。B利用配對的條件Logistic 回歸模型計算校正相對危險比,用此比來評價輸精管切除術(shù)對動脈粥樣硬化的獨(dú)立影響。C利用動脈粥樣硬化作為因變量,輸精管切除術(shù)后間隔時間作為自變量,用條件Logistic回歸模型來檢驗輸精管切除術(shù)后時間長短對發(fā)生動脈粥樣硬化的時間效應(yīng)。二、Logistic回歸應(yīng)用的注意事項1.模型中自變量的取值 自變量(X)可為計量數(shù)據(jù)、分類數(shù)據(jù)和等級數(shù)據(jù)。 計量數(shù)據(jù)常重新劃為有序組段,OR的實(shí)際意義較大。 例:年齡(歲,x1) 十、logist
14、ic回歸的注意事項數(shù)據(jù)的幾種賦值形式1)兩分類變量,賦值為:有=1,無=02)有序變量,賦值;無=0,少=1,中=2,多=3 例;年齡 45=1 45-54=2 55-64=3 65=43.)多分類無序變量:賦值為:啞變量(dummy variable)形式見例:注:變量取值不同,方程的系數(shù)和符號將發(fā)生變化。 冠心病可能的危險因素與賦值因素變量名賦值說明年齡(歲)X145=1, 4554=2, 5564=3, 65=4高血壓史X2無=0, 有=1高血壓家族史X3無=0, 有=1吸煙X4不吸=0, 吸=1年齡(X)化為啞變量的賦值年齡(歲)有序變量啞變量(方法一)X水平D1D2D34010004
15、0 210050301060 4001方程1:有序變量方程含義:x每增加1個單位(10歲),發(fā)病的lnOR平均增加1方程2:啞變量方程(啞變量個數(shù)=分類數(shù)1)方程系數(shù)的解釋: 表示40-歲/40歲相比的對數(shù)優(yōu)勢比 表示50-歲/40歲相比的對數(shù)優(yōu)勢比 表示60-歲/40歲相比的對數(shù)優(yōu)勢比啞變量的賦值方法例2:研究某結(jié)果與血型的關(guān)系血型(X) 啞變量X1X2X3A000B100O010AB001變量規(guī)定某個分類為對照,對照組在啞變量的賦值均為0式中回歸系數(shù)表示各對比組與對照組(A型)相比的變化值。變量X4的啞變量的賦值方法規(guī)定治療11周=X4-1,是=1,否=0規(guī)定治療21周=X4-2,是=1,否=0規(guī)定治療1周為對照組。 啞變量的賦值 周 X4-1 X4-2 1 0 0 11 1 0 21 0 12.樣本含量:1)病例和對照組的例數(shù)可相等或不等。2)樣本例數(shù)的估計原則:自變量個數(shù)越多,例數(shù)越多。各組樣本例數(shù)(對照組和病例組)至少為自變量個數(shù)的5-20倍。3.模型的評價 對所建立的回歸方程做擬合優(yōu)度檢驗。檢查模型估計與實(shí)際數(shù)據(jù)的符合情況。統(tǒng)計量的概率值P0.05,認(rèn)為模型擬合較好。4.多分類的Logistic回歸Logistic回歸可處理: 1)應(yīng)變量(Y)為有序的多分類資料如結(jié)果為:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐廳臨時出租協(xié)議書
- 針灸推拿醫(yī)生協(xié)議書
- 裝修公司學(xué)徒協(xié)議書
- 營運(yùn)車輛入股協(xié)議書
- 銀行貸款免還協(xié)議書
- 餐廳經(jīng)營轉(zhuǎn)讓協(xié)議書
- 食品貨車司機(jī)協(xié)議書
- 閑置水廠合作協(xié)議書
- 音樂機(jī)構(gòu)入股協(xié)議書
- 酒店投資合伙協(xié)議書
- 防雷日常管理制度
- DB23T 3711-2024市縣級礦產(chǎn)資源總體規(guī)劃編制技術(shù)規(guī)程
- 智能座艙域控制器液冷散熱設(shè)計及仿真研究
- 2025年沈陽汽車城開發(fā)建設(shè)集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 田徑理論考試復(fù)習(xí)題庫300題(含各題型)
- 泛海三江JB-QGL-9000、JB-QTL-9000、JB-QBL-9000火災(zāi)報警控制器
- 員工團(tuán)建就餐合同
- 電氣工程及其自動化畢業(yè)設(shè)計 基于PLC的噴涂機(jī)器人控制系統(tǒng)的設(shè)計
- 滑雪培訓(xùn)服務(wù)合同
- 肌肉注射課件(共45張課件)
- 工程經(jīng)濟(jì)學(xué)(青島理工大學(xué))知到智慧樹章節(jié)測試課后答案2024年秋青島理工大學(xué)
評論
0/150
提交評論