Logistic回歸(1)_第1頁
Logistic回歸(1)_第2頁
Logistic回歸(1)_第3頁
Logistic回歸(1)_第4頁
Logistic回歸(1)_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、2021/3/111 Logistic回歸分析 Logistic regression 2021/3/112 講述內(nèi)容講述內(nèi)容: : 第一節(jié)第一節(jié) logisticlogistic回歸回歸 第二節(jié)第二節(jié) 條件條件logisticlogistic回歸回歸 第三節(jié)第三節(jié) logisticlogistic回歸的應(yīng)用回歸的應(yīng)用 及其注意事項及其注意事項 2021/3/113 目的:目的:作出以多個自變量(危險因素)估計作出以多個自變量(危險因素)估計 應(yīng)變量(應(yīng)變量(結(jié)果因素)結(jié)果因素)的的logistic回歸方程?;貧w方程。 屬于概率型非線性回歸。屬于概率型非線性回歸。 資料:資料:1. 應(yīng)變量為反

2、映某現(xiàn)象發(fā)生與不發(fā)生的應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的 二值變量;二值變量;2. 自變量宜全部或大部分為分類自變量宜全部或大部分為分類 變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量 化。化。 2021/3/114 用途:用途:研究某種疾病或現(xiàn)象發(fā)生和多個危研究某種疾病或現(xiàn)象發(fā)生和多個危 險因素(或保護因子)的數(shù)量關(guān)系。險因素(或保護因子)的數(shù)量關(guān)系。 用用 檢驗(或檢驗(或u檢驗)的檢驗)的局限性局限性: 1.只能研究只能研究1個危險因素;個危險因素; 2.只能得出定性結(jié)論。只能得出定性結(jié)論。 2 2021/3/115 種類種類: 1. 成組(非條件)成組(非條

3、件)logistic回歸方程?;貧w方程。 2. 配對(條件)配對(條件)logistic回歸方程。回歸方程。 2021/3/116 第一節(jié)第一節(jié) logistic回歸回歸 (非條件(非條件logistic回歸回歸 ) 2021/3/117 (一)基本概念和原理(一)基本概念和原理 1.1.應(yīng)用背景應(yīng)用背景 LogisticLogistic回歸模型是一種概 率模型,適合于病例對照研究、 隨訪研究和橫斷面研究,且結(jié)果發(fā) 生的變量取值必須是二分的或多項 分類??捎糜绊懡Y(jié)果變量發(fā)生的因 素為自變量與因變量,建立回歸方 程。 2021/3/118 設(shè)資料中有一個因變量y、p 個自變量x1, x2,xp,

4、對每個實 驗對象共有n次觀測結(jié)果,可將原 始資料列成表2形式。 2、LogisticLogistic回歸模型的數(shù)據(jù)結(jié)構(gòu) 2021/3/119 表2 LogisticLogistic回歸模型的數(shù)據(jù)結(jié)構(gòu) 實驗對象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多項分類 表3 肺癌與危險因素的調(diào)查分析 例號 是否患病 性別 吸煙 年齡 地區(qū) 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0

5、0 0 26 1 注:是否患病中,0代表否,1代表是。 性別中1代表男,0代表女,吸煙中1 代表吸煙,0代表不吸煙。地區(qū)中,1代 表農(nóng)村,0代表城市。 2021/3/1111 LogisticLogistic回歸回歸 - Logistic- Logistic回歸與回歸與多重多重線性回歸聯(lián)系與區(qū)別線性回歸聯(lián)系與區(qū)別 聯(lián)系聯(lián)系: : 用于分析多個自變量與一個因變量的關(guān)用于分析多個自變量與一個因變量的關(guān) 系,目的是矯正混雜因素、篩選自變量和更系,目的是矯正混雜因素、篩選自變量和更 精確地對因變量作預(yù)測等。精確地對因變量作預(yù)測等。 區(qū)別區(qū)別: : 線性模型中因變量為連續(xù)性隨機變量,線性模型中因變量為連

6、續(xù)性隨機變量, 且要求呈正態(tài)分布且要求呈正態(tài)分布. Logistic. Logistic回歸因變量的回歸因變量的 取值僅有兩個,不滿足正態(tài)分布。取值僅有兩個,不滿足正態(tài)分布。 2021/3/1112 3 3、 Logistic回歸模型 l 令令: y=1 發(fā)?。栃?、死亡、治愈等)發(fā)?。栃?、死亡、治愈等) l y=0 未發(fā)?。幮?、生存、未治愈等)未發(fā)?。幮?、生存、未治愈等) l 將發(fā)病的概率記為將發(fā)病的概率記為P,它與自變量,它與自變量x x1 1, , x x2 2, ,x,xp p之間的之間的Logistic回歸模型為:回歸模型為: l可知,不發(fā)病的概率為:可知,不發(fā)病的概率為: l

7、 )exp(1 )exp( 110 110 pp pp XX XX p )exp(1 1 1 110pp XX p 經(jīng)數(shù)學(xué)變換得: 定義: 為Logistic變換,即: pp XXpp 110 )1/(ln )1/(ln)(logpppit pp XXpLogit 110 )( 2021/3/1114 4、回歸系數(shù)i的意義 流行病學(xué)的常用指標(biāo)優(yōu)勢比(odds ratio,OR)或稱比數(shù)比,定義為:暴露 人群發(fā)病優(yōu)勢與非暴露人群發(fā)病優(yōu)勢 之比。 即Xi的優(yōu)勢比為: )1/( )1/( 00 11 PP PP OR iii PitPitORLn )0() 1( )0(log)1 (log)( 00

8、 故對于樣本資料OR=exp( ) 95%置信區(qū)間為: 可見 是影響因素Xi增加一個單位所引起的對數(shù) 優(yōu)勢的增量,反映了其對Y作用大小。 如果要比較不同因素對Y作用大小,需要消 除變量量綱的影響,為此計算標(biāo)準(zhǔn)化回歸系數(shù) i b i 的標(biāo)準(zhǔn)差。為 的標(biāo)準(zhǔn)差,為其中 yS XSSSbb y iiyiii ,/* 影響越大。其因素對的估計值,此值越大,為Yb ii )(96. 1exp( ii bSEb 二 、Logistic回歸的參數(shù)估計及意義 Logistic回歸的參數(shù)估計及意義 P表示某個體發(fā)生某病的概率,自變量表示 m個危險因素,式中的常數(shù)項表示在無各危險因 素時的發(fā)病概率對不發(fā)病概率之比的

9、自然對數(shù), 而logistic回歸系數(shù)表示當(dāng)危險因素每變化1個單 位時(其它危險因素取值的變化量。 通常用最大似然估計法求解模型中參數(shù)的估計 值 似然函數(shù) n i Y i Y i ii PPL 1 1 )1( 2021/3/1117 5.假設(shè)檢驗 (1)回歸方程的假設(shè)檢驗 H0:所有 H1: 某個 計算統(tǒng)計量為:G=-2lnL,服從自由度等于n-p 的 分布 (2)回歸系數(shù)的假設(shè)檢驗 H0: H1: pi i , 2 , 1 , 0, 0 0 i 2 0 i 0 i 計算統(tǒng)計量為:Wald 2 ,自由度等于1。 2021/3/1118 具體方法是: 先擬合不包含待檢驗因素的logistic模型

10、,求對 數(shù)似然函數(shù)值; 再擬合包含待檢驗因素的logistic模型,求另一 個對數(shù)似然函數(shù)值; 比較兩個對數(shù)似然函數(shù)值差別的大小 2 d 2ln d GDD 不包含此變量的模型 包含此變量的模型 不含此變量的似然函數(shù) 含此變量的似然函數(shù) 2021/3/1119 2021/3/1120 2 , 1 jj jj bb bb u SS 2 或 2 值均大于 3.84,說明食道癌與吸煙、飲酒有關(guān)系,結(jié)論同前。 2. 2021/3/1121 3 score 檢驗檢驗 以未包含某個或幾個變量的模型計算以未包含某個或幾個變量的模型計算 保留模型中參數(shù)的估計值,并假設(shè)新增保留模型中參數(shù)的估計值,并假設(shè)新增 參

11、數(shù)為零,計算似然函數(shù)的一價偏導(dǎo)數(shù)參數(shù)為零,計算似然函數(shù)的一價偏導(dǎo)數(shù) 及信息距陣,兩者相乘便得比分檢驗的及信息距陣,兩者相乘便得比分檢驗的 統(tǒng)計量統(tǒng)計量S S 。n n 較大時,較大時, S S近似服從自由近似服從自由 度為待檢因素個數(shù)的度為待檢因素個數(shù)的 分布。 分布。 2021/3/1122 以上三種方法中,在多數(shù)情況下,似然 比檢驗是最有效的檢驗,score檢驗一般 與它相一致。但兩者計算量均較大; Wald檢驗主要用于對單個回歸系數(shù)的檢 驗,但是Wald檢驗未考慮各因素間的綜 合作用,比較保守,在因素間有共線性 存在時,結(jié)果不像其它兩者可靠。 、似然比檢驗檢驗統(tǒng)計量為 )ln(ln2 0

12、1 LLG G服從2分布, 自由度為增加變量的個數(shù)。 、Wald檢驗 檢驗統(tǒng)計量為 22 ) ) ( ( SE 2021/3/1124 Logistic回歸分析一般過程 變量的選擇 建立logistic回歸模型時,要求進入模型的自 變量應(yīng)對反應(yīng)變量有解釋能力。通常研究者 根據(jù)專業(yè)知識和研究的問題,首先確定要研 究的反應(yīng)變量和自變量 單因素分析(變量的粗略選擇) 用單因素分析對自變量進行篩選:卡方檢驗、 t檢驗或單因素的logistic回歸 2021/3/1125 變量篩選變量篩選 2021/3/1126 解 釋 設(shè)第i個因素的回歸系數(shù)為bi,表示當(dāng)有多 個自變量存在時,其它自變量固定不變的情況

13、 下,自變量Xi每增加一個單位時,所得到的優(yōu) 勢比的自然對數(shù)。也就是其它自變量固定不變 的情況下,自變量Xi每增加一個單位時,影響 因變量Y=0發(fā)生的倍數(shù)。 當(dāng)bi0時,對應(yīng)的優(yōu)勢比(odds ratio, 記為ORi):ORi=exp(bi)1,說明該因素是危險 因素;當(dāng)bi0時,對應(yīng)的優(yōu)勢比ORi=exp(bi)1, 說明該因素是保護因素。 2021/3/1127 二分類二分類LogisticLogistic回歸回歸 method method中文名稱中文名稱剔除依據(jù)剔除依據(jù) EnterEnter全部進入全部進入 Forward:condiForward:condi tionaltiona

14、l 向前逐步向前逐步條件參數(shù)估計似然比條件參數(shù)估計似然比 Forward:LRForward:LR向前逐步向前逐步最大偏似然估計似然比最大偏似然估計似然比 Forward:WaldForward:Wald向前逐步向前逐步WaldWald統(tǒng)計量統(tǒng)計量 Backward:condBackward:cond itionalitional 向后逐步向后逐步條件參數(shù)估計似然比條件參數(shù)估計似然比 Backward:LRBackward:LR向后逐步向后逐步最大偏似然估計似然比最大偏似然估計似然比 Backward:WaldBackward:Wald 向后逐步向后逐步WaldWald統(tǒng)計量統(tǒng)計量 2021/

15、3/1128 二分類二分類LogisticLogistic回歸回歸多重比較的方法多重比較的方法 Indicator第一類或最后一類為參照類,每一類與第一類或最后一類為參照類,每一類與 參照類比較參照類比較 Simple-除參照類外,每一類與參照類比較除參照類外,每一類與參照類比較 Difference-除第一類外,每一類與其前各類的平均除第一類外,每一類與其前各類的平均 效應(yīng)比較,有稱反效應(yīng)比較,有稱反HelmertHelmert Helmert-除最后一類外,每一類與其后各類的平均除最后一類外,每一類與其后各類的平均 Repeated相鄰兩類比較,除第一類外,每類與其前一相鄰兩類比較,除第一

16、類外,每類與其前一 比較比較 Polynominal正交多名義分類比較,該法假設(shè)每一分類正交多名義分類比較,該法假設(shè)每一分類 都都 有相等的空間,僅適于數(shù)值變量有相等的空間,僅適于數(shù)值變量 Deviation除參照類外,每一類與總效應(yīng)比較除參照類外,每一類與總效應(yīng)比較 2021/3/1129 為了探討糖尿病與血壓、血脂等因素 的關(guān)系,某研究者對56例糖尿病病人 和65例對照者進行病例-對照研究,收 集了性別、年齡、學(xué)歷、體重指數(shù)、 家族史、吸煙、血壓、總膽固醇、甘 油三酯、高密度脂蛋白、低密度脂蛋 白11個因素的資料。 例 題 2021/3/1130 性別年齡學(xué)歷體重指數(shù)家族史吸煙血壓總膽固醇

17、 甘油三 脂 hdlldl 糖尿 病 160221114.301.50 1.2 4 2.300 148321114.601.32 1.1 5 2.300 263211124.601.15 1.1 5 2.300 168322114.151.43 1.0 7 3.210 145212113.421.22.632.300 145332114.16.96.982.650 159211114.321.02 1.0 5 3.490 168331113.801.42 2.8 6 .850 263221113.871.55 2.4 4 .810 2021/3/1131 表2 糖尿病影響因素賦值說明 因素變量

18、名賦值說明 性別X1 男=1,女=2 年齡X2 學(xué)歷X3 小學(xué)以下=1,小學(xué)=2,初中=3,高 中=4,大專及以上=5 體重指數(shù)X4 24=1, 2426=2, 26=3 家族史X5 無=1,有=2 吸煙X6 不吸=1,吸=2 血壓X7 正常=1,高=2 總膽固醇X8 甘油三酯X9 高密度脂蛋白X10 低密度脂蛋白X11 糖尿病Y 對照=0,病例=1 2021/3/1132 建立數(shù)據(jù)庫 2021/3/1133 單因素logistic回歸(分別對性別、年齡、學(xué)歷等做回歸分析) 2021/3/1134 V Va ar ri ia ab bl le es s i in n t th he e E E

19、q qu ua at ti io on n .263.636.1711.6791.301.3744.527 .085.0365.5211.0191.0891.0141.168 -.699.2985.5131.019.497.277.891 1.621.5528.6211.0035.0561.71414.915 1.634.6825.7441.0175.1241.34719.497 3.126.71419.1741.00022.7875.62392.341 1.647.6706.0401.0145.1901.39619.298 .606.4721.6471.1991.832.7274.621 2

20、.3121.0424.9291.02610.0981.31177.767 -.914.4324.4841.034.401.172.934 .017.416.0021.9671.017.4502.300 -20.2074.65218.8661.000.000 性別 年齡 學(xué)歷 體重指數(shù) 家族史 吸煙 血壓 總膽固醇 甘油三脂 hdl ldl Constant Step 1 a BS.E.WalddfSig.Exp(B)LowerUpper 95.0% C.I.for EXP(B) Variable(s) entered on step 1: 性別, 年齡, 學(xué)歷, 體重指數(shù), 家族史, 吸煙, 血壓, 總膽固醇, 甘油三脂, hdl, ldl. a. 2021/3/1135 例例2 為了不手術(shù)而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論