Logistic回歸(1)_第1頁(yè)
Logistic回歸(1)_第2頁(yè)
Logistic回歸(1)_第3頁(yè)
Logistic回歸(1)_第4頁(yè)
Logistic回歸(1)_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 Logistic回歸分析 Logistic regression392講述內(nèi)容講述內(nèi)容: :第一節(jié)第一節(jié) logisticlogistic回歸回歸第二節(jié)第二節(jié) 條件條件logisticlogistic回歸回歸第三節(jié)第三節(jié) logisticlogistic回歸的應(yīng)用回歸的應(yīng)用 及其注意事項(xiàng)及其注意事項(xiàng)393目的:目的:作出以多個(gè)自變量(危險(xiǎn)因素)估計(jì)作出以多個(gè)自變量(危險(xiǎn)因素)估計(jì)應(yīng)變量(應(yīng)變量(結(jié)果因素)結(jié)果因素)的的logistic回歸方程?;貧w方程。屬于概率型非線性回歸。屬于概率型非線性回歸。資料:資料:1. 應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;二

2、值變量;2. 自變量宜全部或大部分為分類自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化?;?94用途:用途:研究某種疾病或現(xiàn)象發(fā)生和多個(gè)危研究某種疾病或現(xiàn)象發(fā)生和多個(gè)危 險(xiǎn)因素(或保護(hù)因子)的數(shù)量關(guān)系。險(xiǎn)因素(或保護(hù)因子)的數(shù)量關(guān)系。 用用 檢驗(yàn)(或檢驗(yàn)(或u檢驗(yàn))的檢驗(yàn))的局限性局限性: 1.只能研究只能研究1個(gè)危險(xiǎn)因素;個(gè)危險(xiǎn)因素; 2.只能得出定性結(jié)論。只能得出定性結(jié)論。2395 種類種類: 1. 成組(非條件)成組(非條件)logistic回歸方程?;貧w方程。 2. 配對(duì)(條件)配對(duì)(條件)logistic回歸方程?;貧w方程。

3、396第一節(jié)第一節(jié) logistic回歸回歸 (非條件(非條件logistic回歸回歸 )7(一)基本概念和原理(一)基本概念和原理 1.1.應(yīng)用背景應(yīng)用背景 LogisticLogistic回歸模型是一種概率模型,適合于病例對(duì)照研究、隨訪研究和橫斷面研究,且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類??捎糜绊懡Y(jié)果變量發(fā)生的因素為自變量與因變量,建立回歸方程。8 設(shè)資料中有一個(gè)因變量y、p個(gè)自變量x1, x2,xp,對(duì)每個(gè)實(shí)驗(yàn)對(duì)象共有n次觀測(cè)結(jié)果,可將原始資料列成表2形式。2、LogisticLogistic回歸模型的數(shù)據(jù)結(jié)構(gòu)9 表2 LogisticLogistic回歸模型的數(shù)據(jù)結(jié)構(gòu)實(shí)驗(yàn)對(duì)象

4、y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多項(xiàng)分類 表3 肺癌與危險(xiǎn)因素的調(diào)查分析 例號(hào) 是否患病 性別 吸煙 年齡 地區(qū) 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性別中1代表男,0代表女,吸煙中1代表吸煙,0代表不吸煙。地區(qū)中,1代表農(nóng)村,0代表城市。 11LogisticLogistic回歸回歸- Logistic

5、- Logistic回歸與回歸與多重多重線性回歸聯(lián)系與區(qū)別線性回歸聯(lián)系與區(qū)別聯(lián)系聯(lián)系: : 用于分析多個(gè)自變量與一個(gè)因變量的關(guān)用于分析多個(gè)自變量與一個(gè)因變量的關(guān)系,目的是矯正混雜因素、篩選自變量和更系,目的是矯正混雜因素、篩選自變量和更精確地對(duì)因變量作預(yù)測(cè)等。精確地對(duì)因變量作預(yù)測(cè)等。區(qū)別區(qū)別: : 線性模型中因變量為連續(xù)性隨機(jī)變量,線性模型中因變量為連續(xù)性隨機(jī)變量,且要求呈正態(tài)分布且要求呈正態(tài)分布. Logistic. Logistic回歸因變量的回歸因變量的取值僅有兩個(gè),不滿足正態(tài)分布。取值僅有兩個(gè),不滿足正態(tài)分布。123 3、 Logistic回歸模型l 令令: y=1 發(fā)病(陽(yáng)性、死亡、

6、治愈等)發(fā)?。?yáng)性、死亡、治愈等)l y=0 未發(fā)病(陰性、生存、未治愈等)未發(fā)病(陰性、生存、未治愈等)l 將發(fā)病的概率記為將發(fā)病的概率記為P,它與自變量,它與自變量x x1 1, , x x2 2, ,x,xp p之間的之間的Logistic回歸模型為:回歸模型為:l可知,不發(fā)病的概率為:可知,不發(fā)病的概率為:l )exp(1)exp(110110ppppXXXXp )exp(111110ppXXp 經(jīng)數(shù)學(xué)變換得:定義:為L(zhǎng)ogistic變換,即: ppXXpp 110)1/(ln)1/(ln)(logpppitppXXpLogit 110)(14 4、回歸系數(shù)i的意義 流行病學(xué)的常用指標(biāo)

7、優(yōu)勢(shì)比(odds ratio,OR)或稱比數(shù)比,定義為:暴露人群發(fā)病優(yōu)勢(shì)與非暴露人群發(fā)病優(yōu)勢(shì)之比。 即Xi的優(yōu)勢(shì)比為:)1/()1/(0011PPPPORiiiPitPitORLn)0() 1()0(log)1 (log)(00 故對(duì)于樣本資料OR=exp( ) 95%置信區(qū)間為: 可見 是影響因素Xi增加一個(gè)單位所引起的對(duì)數(shù)優(yōu)勢(shì)的增量,反映了其對(duì)Y作用大小。 如果要比較不同因素對(duì)Y作用大小,需要消除變量量綱的影響,為此計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)ibi的標(biāo)準(zhǔn)差。為的標(biāo)準(zhǔn)差,為其中ySXSSSbbyiiyiii,/*影響越大。其因素對(duì)的估計(jì)值,此值越大,為Ybii)(96. 1exp(iibSEb 二

8、、Logistic回歸的參數(shù)估計(jì)及意義 Logistic回歸的參數(shù)估計(jì)及意義 P表示某個(gè)體發(fā)生某病的概率,自變量表示m個(gè)危險(xiǎn)因素,式中的常數(shù)項(xiàng)表示在無各危險(xiǎn)因素時(shí)的發(fā)病概率對(duì)不發(fā)病概率之比的自然對(duì)數(shù),而logistic回歸系數(shù)表示當(dāng)危險(xiǎn)因素每變化1個(gè)單位時(shí)(其它危險(xiǎn)因素取值的變化量。 通常用最大似然估計(jì)法求解模型中參數(shù)的估計(jì)值 似然函數(shù) niYiYiiiPPL11)1(5.假設(shè)檢驗(yàn) (1)回歸方程的假設(shè)檢驗(yàn) H0:所有 H1: 某個(gè) 計(jì)算統(tǒng)計(jì)量為:G=-2lnL,服從自由度等于n-p的 分布 (2)回歸系數(shù)的假設(shè)檢驗(yàn) H0: H1:pii, 2 , 1 , 0, 0 0i20i0i計(jì)算統(tǒng)計(jì)量為

9、:Wald2,自由度等于1。18 具體方法是:先擬合不包含待檢驗(yàn)因素的logistic模型,求對(duì)數(shù)似然函數(shù)值;再擬合包含待檢驗(yàn)因素的logistic模型,求另一個(gè)對(duì)數(shù)似然函數(shù)值;比較兩個(gè)對(duì)數(shù)似然函數(shù)值差別的大小2d2lndGDD 不包含此變量的模型 包含此變量的模型不含此變量的似然函數(shù)含此變量的似然函數(shù)19202, 1jjjjbbbbuSS2 或 2值均大于 3.84,說明食道癌與吸煙、飲酒有關(guān)系,結(jié)論同前。 2.21 3 score 檢驗(yàn)檢驗(yàn) 以未包含某個(gè)或幾個(gè)變量的模型計(jì)算以未包含某個(gè)或幾個(gè)變量的模型計(jì)算保留模型中參數(shù)的估計(jì)值,并假設(shè)新增保留模型中參數(shù)的估計(jì)值,并假設(shè)新增參數(shù)為零,計(jì)算似然

10、函數(shù)的一價(jià)偏導(dǎo)數(shù)參數(shù)為零,計(jì)算似然函數(shù)的一價(jià)偏導(dǎo)數(shù)及信息距陣,兩者相乘便得比分檢驗(yàn)的及信息距陣,兩者相乘便得比分檢驗(yàn)的統(tǒng)計(jì)量統(tǒng)計(jì)量S S 。n n 較大時(shí),較大時(shí), S S近似服從自由近似服從自由度為待檢因素個(gè)數(shù)的度為待檢因素個(gè)數(shù)的 分布。分布。22 以上三種方法中,在多數(shù)情況下,似然比檢驗(yàn)是最有效的檢驗(yàn),score檢驗(yàn)一般與它相一致。但兩者計(jì)算量均較大; Wald檢驗(yàn)主要用于對(duì)單個(gè)回歸系數(shù)的檢驗(yàn),但是Wald檢驗(yàn)未考慮各因素間的綜合作用,比較保守,在因素間有共線性存在時(shí),結(jié)果不像其它兩者可靠。、似然比檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為 )ln(ln201LLG G服從2分布, 自由度為增加變量的個(gè)數(shù)。、Wal

11、d檢驗(yàn) 檢驗(yàn)統(tǒng)計(jì)量為22)(SELogistic回歸分析一般過程 變量的選擇 建立logistic回歸模型時(shí),要求進(jìn)入模型的自變量應(yīng)對(duì)反應(yīng)變量有解釋能力。通常研究者根據(jù)專業(yè)知識(shí)和研究的問題,首先確定要研究的反應(yīng)變量和自變量 單因素分析(變量的粗略選擇) 用單因素分析對(duì)自變量進(jìn)行篩選:卡方檢驗(yàn)、t檢驗(yàn)或單因素的logistic回歸25變量篩選變量篩選 26解 釋 設(shè)第i個(gè)因素的回歸系數(shù)為bi,表示當(dāng)有多個(gè)自變量存在時(shí),其它自變量固定不變的情況下,自變量Xi每增加一個(gè)單位時(shí),所得到的優(yōu)勢(shì)比的自然對(duì)數(shù)。也就是其它自變量固定不變的情況下,自變量Xi每增加一個(gè)單位時(shí),影響因變量Y=0發(fā)生的倍數(shù)。 當(dāng)bi

12、0時(shí),對(duì)應(yīng)的優(yōu)勢(shì)比(odds ratio,記為ORi):ORi=exp(bi)1,說明該因素是危險(xiǎn)因素;當(dāng)bi0時(shí),對(duì)應(yīng)的優(yōu)勢(shì)比ORi=exp(bi)1,說明該因素是保護(hù)因素。 27二分類二分類LogisticLogistic回歸回歸 method method中文名稱中文名稱剔除依據(jù)剔除依據(jù)EnterEnter全部進(jìn)入全部進(jìn)入Forward:condiForward:conditionaltional向前逐步向前逐步條件參數(shù)估計(jì)似然比條件參數(shù)估計(jì)似然比Forward:LRForward:LR向前逐步向前逐步最大偏似然估計(jì)似然比最大偏似然估計(jì)似然比Forward:WaldForward:Wal

13、d向前逐步向前逐步WaldWald統(tǒng)計(jì)量統(tǒng)計(jì)量Backward:condBackward:conditionalitional向后逐步向后逐步條件參數(shù)估計(jì)似然比條件參數(shù)估計(jì)似然比Backward:LRBackward:LR向后逐步向后逐步最大偏似然估計(jì)似然比最大偏似然估計(jì)似然比Backward:WaldBackward:Wald 向后逐步向后逐步WaldWald統(tǒng)計(jì)量統(tǒng)計(jì)量28二分類二分類LogisticLogistic回歸回歸多重比較的方法多重比較的方法Indicator第一類或最后一類為參照類,每一類與第一類或最后一類為參照類,每一類與 參照類比較參照類比較Simple-除參照類外,每一類

14、與參照類比較除參照類外,每一類與參照類比較Difference-除第一類外,每一類與其前各類的平均除第一類外,每一類與其前各類的平均 效應(yīng)比較,有稱反效應(yīng)比較,有稱反HelmertHelmertHelmert-除最后一類外,每一類與其后各類的平均除最后一類外,每一類與其后各類的平均Repeated相鄰兩類比較,除第一類外,每類與其前一相鄰兩類比較,除第一類外,每類與其前一 比較比較Polynominal正交多名義分類比較,該法假設(shè)每一分類正交多名義分類比較,該法假設(shè)每一分類都都 有相等的空間,僅適于數(shù)值變量有相等的空間,僅適于數(shù)值變量Deviation除參照類外,每一類與總效應(yīng)比較除參照類外,

15、每一類與總效應(yīng)比較 為了探討糖尿病與血壓、血脂等因素的關(guān)系,某研究者對(duì)56例糖尿病病人和65例對(duì)照者進(jìn)行病例-對(duì)照研究,收集了性別、年齡、學(xué)歷、體重指數(shù)、家族史、吸煙、血壓、總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白11個(gè)因素的資料。例 題性別年齡學(xué)歷體重指數(shù)家族史吸煙血壓總膽固醇甘油三脂hdlldl糖尿病160221114.301.501.242.300148321114.601.321.152.300263211124.601.151.152.300168322114.151.431.073.210145212113.421.22.632.300145332114.16.96.982.

16、650159211114.321.021.053.490168331113.801.422.86.850263221113.871.552.44.810 表2 糖尿病影響因素賦值說明因素變量名賦值說明性別X1男=1,女=2年齡X2學(xué)歷X3小學(xué)以下=1,小學(xué)=2,初中=3,高中=4,大專及以上=5體重指數(shù)X424=1, 2426=2, 26=3家族史X5無=1,有=2吸煙X6不吸=1,吸=2血壓X7正常=1,高=2總膽固醇X8甘油三酯X9高密度脂蛋白X10低密度脂蛋白X11糖尿病Y對(duì)照=0,病例=1 建立數(shù)據(jù)庫(kù) 單因素logistic回歸(分別對(duì)性別、年齡、學(xué)歷等做回歸分析)Variables

17、in the EquationVariables in the Equation.263.636.1711.6791.301.3744.527.085.0365.5211.0191.0891.0141.168-.699.2985.5131.019.497.277.8911.621.5528.6211.0035.0561.71414.9151.634.6825.7441.0175.1241.34719.4973.126.71419.1741.00022.7875.62392.3411.647.6706.0401.0145.1901.39619.298.606.4721.6471.1991.832

18、.7274.6212.3121.0424.9291.02610.0981.31177.767-.914.4324.4841.034.401.172.934.017.416.0021.9671.017.4502.300-20.2074.65218.8661.000.000性別年齡學(xué)歷體重指數(shù)家族史吸煙血壓總膽固醇甘油三脂hdlldlConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Variable(s) entered on step 1: 性別, 年齡, 學(xué)歷, 體重指數(shù), 家族史, 吸煙, 血壓, 總膽固醇, 甘油三脂, hdl, ldl.a. 例例2 為了不手術(shù)而又能弄清前列腺癌患者淋巴結(jié)的轉(zhuǎn)移為了不手術(shù)而又能弄清前列腺癌患者淋巴結(jié)的轉(zhuǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論