多元logistics回歸分析_第1頁
多元logistics回歸分析_第2頁
多元logistics回歸分析_第3頁
多元logistics回歸分析_第4頁
多元logistics回歸分析_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多元Logistics回歸分析李忠良華中科技大學(xué)同濟醫(yī)學(xué)院內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用 從數(shù)學(xué)角度看,logistic回歸模型非常巧妙地避開了分類型變量的分布問題,補充完善了線性回歸模型和廣義線性回歸分析的缺陷。 因變量y 是分類型變量,自變量x是與之有關(guān)的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法來解決,其根本原因就在于因變量是分類型變量,嚴重違背了線性回歸分析對數(shù)據(jù)的假設(shè)條件。 從數(shù)學(xué)角度看,很難找到一個函數(shù)y=f (x),當x變化時,它對應(yīng)的

2、函數(shù)值y僅取兩個或幾個有限值。 研究者將所要研究的問題轉(zhuǎn)換了一個角度,不是直接分析y與x的關(guān)系,而是分析y取某個值的概率p與x的關(guān)系。 分析因變量y取某個值的概率p與自變量x的關(guān)系,等價于尋找一個連續(xù)函數(shù)p=p(x),使得當x變化時,它對應(yīng)的函數(shù)值p不超出0,1范圍。數(shù)學(xué)上這樣的函數(shù)是存在且不唯一的,logistic回歸模型就是滿足這種要求的函數(shù)之一。 根據(jù)數(shù)據(jù)的類型,logistic回歸分析分為兩種: 一種是條件logistic回歸(conditional logistic regression),用于分析配對病例對照研究數(shù)據(jù)。 另一種是非條件logistic回歸(unconditional

3、 logistic regression),用于分析成組數(shù)據(jù)或非配對的病例對照研究。非條件logistic回歸分析也簡稱為logistic回歸分析。 內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用logistic回歸模型對變量的要求回歸模型對變量的要求 Logistic回歸分析要求因變量是分類變量,包括順序變量和名義變量。不論是哪種變量都要用數(shù)字來表示它的取值。自變量可以是數(shù)值型連續(xù)變量,也可以是順序型分類變量,如果是名義變量,則需要轉(zhuǎn)換成啞變量來處理。 logistic回歸模型的個數(shù)回歸模型的個數(shù) 取決于因變量的取值個數(shù)。因為 logistic回歸模型描述

4、的是因變量取每個值的概率與自變量的關(guān)系,因此因變量的每一個值都對應(yīng)一個模型。但是由于概率之和為1,所以當因變量是g值變量時,只需要估計g-1個模型 二值因變量的二值因變量的 logistic回歸模型回歸模型 假設(shè)因變量 y是一個取值為1和0的二值變量(binary variable),x 是一個影響y 的危險因子(risk factor)。令在x 條件下y=1的概率是 p=p(y=1| x),那么,表達式 :)exp(1exp1)1(xxeexyppxx10 xp0.5- /p=p(x)圖 7-1 變 量 p 與 x 的 關(guān) 系多元多元 logistic回歸模型回歸模型 )exp(1exp)1

5、(22112211kkxkxxxxxxxypp如果對模型的概率 p 進行l(wèi)ogit 變換 pppit1ln)(loglogistic回歸模型的另一種形式,它給出的是變量z=logit(p)關(guān)于x 的線性函數(shù) kkxxxpppit22111ln)(log多值變量的多值變量的 logistic回歸模型回歸模型 kkjjjjxxxpppit22111ln)(logp j = p( y j | x ),它表示了 y 取前 j 個值的累積概率(cumulative probability)。 累積概率函數(shù)累積概率函數(shù) gjgjxxxjyppjjj當當, 111,)exp(1)exp()(第一個模型表示了

6、y 取第一個值的概率p1與x的關(guān)系;第二個模型表示了y 取前兩個值的累積概率p2與x的關(guān)系。這兩個模型的常數(shù)項不同,回歸系數(shù)完全相同的。 y 取第一個值的概率p(1)=p1 ,y 取第二個值的概率p(2)=p2 -p1,y 取第三個值的概率p(3)=1- p2 。它們的截距不同,斜率相同,所以是g-1條平行直線族。多值因變量logistic回歸模型要求進行數(shù)據(jù)的平行性檢驗。 內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟方法步驟 - 參數(shù)估計參數(shù)估計 - 檢驗參數(shù)檢驗參數(shù) - 模型檢驗?zāi)P蜋z驗 - 平行性檢驗平行性檢驗 系數(shù)解釋 條件Logistics分析 應(yīng)用參數(shù)估計參數(shù)估計在logistic回歸分

7、析模型中,回歸系數(shù)的估計方法通常是最大似然法(Maximum Likelihood method)。最大似然法就是選取使得總體真參數(shù)落在樣本觀察值領(lǐng)域里的概率達到最大的參數(shù)值作為真參數(shù)的估計值。 為了得到一個非偏估計(non-biased estimate),需采用重復(fù)遞推的方法,將最大似然估計值不斷修正。軟件系統(tǒng)使用的是重復(fù)加權(quán)最小二乘遞推法(iteratively reweighted least squares algorithm)來估計回歸系數(shù)。 和線性回歸分析一樣,logistic回歸模型的回歸系數(shù)是自變量對應(yīng)變量作用大小的一種度量。因為自變量的單位不同,不能用回歸系數(shù)的估計值來判斷

8、哪一個自變量對因變量的影響作用最大。為了要進行比較,需要計算出標準回歸系數(shù)。計算原理和線性回歸分析一樣。在標準回歸系數(shù)估計值中,絕對值最大的標準回歸系數(shù)對應(yīng)的 x 變量對 y 變量的影響最大。 檢驗參數(shù)檢驗參數(shù)統(tǒng)計假設(shè)常用的方法是Ward卡方檢驗。當大于樣本對應(yīng)的Ward卡方值的概率小于0.05時,在統(tǒng)計意義上可以拒絕上述零假設(shè)。即,可以認為第 j個 x 變量對y=1的概率p有顯著性影響,其犯第一類錯誤的可能性不超過5% 。和線性回歸分析一樣,當自變量個數(shù)較多時,可采用逐步回歸分析方法來篩選危險因子。 模型檢驗?zāi)P蜋z驗logistic回歸模型的總體檢驗常用的方法有: AIC檢驗法(Akaike

9、 Information Criterion)。用于比較同一數(shù)據(jù)下的不同模型(含自變量個數(shù)不同)。AIC值越小,模型越合適。AIC值的計算公式是: )(2)log(2kgLAICSC檢驗法(Schwarte Coriterion)。和AIC一樣,用于比較同一數(shù)據(jù)下的不同模型(含自變量個數(shù)不同)。SC值越小,模型越合適。SC的計算公式是: )log()()log(2nkgLSC似然比檢驗法(G= -2log L)。用于檢驗全部自變量(包括常數(shù)項)對因變量的聯(lián)合作用。它的計算公式是: )log(2LG計分檢驗法(Score)。用于檢驗全部自變量(不包括常數(shù)項)對因變量的聯(lián)合作用。 因變量取值個數(shù)平

10、行性檢驗平行性檢驗當因變量為多值變量時,模型包含多個回歸方程。Logistic回歸分析要求這多個回歸方程中自變量的系數(shù)是相等的。因此對于多值變量的logistic回歸模型,要求作平行性檢驗,也稱為比例比數(shù)假設(shè)檢驗(test for the proportional odds assumption),使用的方法是計分檢驗法。 當檢驗結(jié)果p0.05時,沒有理由拒絕上述無效假設(shè),這時,多值變量的logistic回歸模型有統(tǒng)計意義。否則,應(yīng)當將因變量的某些值合并,減少因變量的取值個數(shù),使得多值變量logistic回歸模型的平行性成立。 內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logist

11、ics分析 應(yīng)用110=1lnXPP(常數(shù)項):暴露因素Xi=0時,個體發(fā)病概率與不發(fā)病概率之比的自然對數(shù)比值。 0=)0/0(1)0/1(lnxyPxyP0 的含義:的含義:某危險因素,暴露水平變化時,某危險因素,暴露水平變化時,即即Xi=1與與Xi=0相比,發(fā)生某結(jié)果(如發(fā)病相比,發(fā)生某結(jié)果(如發(fā)病)優(yōu)勢比的對數(shù)值。)優(yōu)勢比的對數(shù)值。 11001001 1001 1/(1)lnln/(1)loglog()()PPORPPitPitPxxxP1(y=1/x=1)的概率P0(y=1/x=0)的概率010011)1/()1/(oddsoddsPPPPOReOR 多元回歸模型的的 概念 反映了在其

12、他變量固定后,反映了在其他變量固定后,X=1與與x=0相比相比發(fā)生發(fā)生Y事件的對數(shù)優(yōu)勢比。事件的對數(shù)優(yōu)勢比。 回歸系數(shù)回歸系數(shù)與與OR X與與Y的關(guān)聯(lián)的關(guān)聯(lián) =0,OR=1, 無關(guān)無關(guān) 1,OR1 , 有關(guān),危險因素有關(guān),危險因素 1,OR1, 有關(guān),保護因子有關(guān),保護因子事件發(fā)生率很小,事件發(fā)生率很小,ORRR。ii011logit(p)ln=1mmPXXP復(fù)習相關(guān)概念復(fù)習相關(guān)概念相對危險比數(shù)比21ppRR 221111ppppOR相對危險RR表示暴露在危險因子下的發(fā)病率與不暴露在危險因子下的發(fā)病率的比。例如,如果RR=2.5,那么,暴露下的發(fā)病率是非暴露下的發(fā)病率的2.5倍。比數(shù)比OR表示

13、暴露在危險因子下的發(fā)病率與不發(fā)病率之比與非暴露在危險因子下的發(fā)病率與不發(fā)病率之比的比。比較以上公式可以看出,當發(fā)病率很低時,ORRR。因此,當發(fā)病率很低時,OR=2.5也可以解釋為:暴露下的發(fā)病率是非暴露下的發(fā)病率的2.5倍,或暴露下發(fā)病的幾率比非暴露下發(fā)病的幾率高150% 。 一元一元logistic回歸模型系數(shù)的解釋回歸模型系數(shù)的解釋 當發(fā)病率很低時,ORRR,因此這時e RR,也就是說,e 近似地表示了相對危險度,即暴露下的發(fā)病率與非暴露下的發(fā)病率之比。 有啞變量的有啞變量的logistic回歸模型系數(shù)的解釋回歸模型系數(shù)的解釋 每一個組與對照組的相對危險度的估計值。任意兩組間的OR=ei

14、 / ej 無交互影響的多元無交互影響的多元Logistic回歸模型的系數(shù)解釋回歸模型的系數(shù)解釋 如果模型中因變量y=1,0分別表示有胃病和無胃病;自變量 x 1 =1,0分別表示吸煙和不吸煙;自變量 x 2 =1,0分別表示飲酒和不飲酒,那么,e1 近似地表示消去了飲酒因素的影響后吸煙者患胃病的幾率與不吸煙者患胃病的幾率之比。e2 近似地表示消去了吸煙因素的影響后飲酒者患胃病的幾率與不飲酒者患胃病的幾率之比。 設(shè)因變量 y 取值1和0,分別表示患病和未患病。設(shè)自變量 x 1取值1和0,設(shè)自變量 x 2取值1和0。這樣 x 1 和 x 2 的交叉水平有四個,它們是(1,1)、(1,0)、(0,

15、1)、(1,1),建立四個啞變量分別代表這四個水平,記為 x11、 x 10、 x 01、 x 00 ,它們表示了四種不同的方式。將前三個啞變量放進模型,則可以得前三種方式相對于最后一種方式患病的相對危險度。 有交互影響的多元有交互影響的多元logistic回歸模型的系數(shù)解釋回歸模型的系數(shù)解釋 多值變量的多值變量的logistic回歸模型的系數(shù)解釋回歸模型的系數(shù)解釋 對于多值因變量模型,平行性假設(shè)決定了每個自變量的OR值對于前g-1個模型是相同的。例如,變量x1的OR=5.172,它表示使用第一種的可能性是使用第二種的5.172倍;它也表示使用第一種至少有效的可能性是使用第二種的5.172倍。

16、內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用共有n個匹配組,1:m配對,p個變量資料的條件似然函數(shù):nimjpiijppiijxxxxL110011111再用最大似然法求解參數(shù)估計值,由于匹配關(guān)系,在模型中不含常數(shù)項。數(shù)據(jù)資料特征數(shù)據(jù)資料特征內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用Logistic回歸分析在醫(yī)學(xué)研究中有著相當廣泛的應(yīng)用價值。歸納起來主要的應(yīng)用有:1)篩選危險因子。它常用在流行病學(xué)的病因?qū)W研究中。2)校正混雜因子,校正非研究因素對研究因素的混雜作用。如它可以消除性別、年齡、病情等對治療效果分析的干擾,

17、消除年齡、職業(yè)、收入等對生活嗜好與疾病關(guān)系分析的干擾等。3)預(yù)測疾病或事件發(fā)生的概率。非條件logistic回歸模型是一個概率模型,它可以用來預(yù)測事件發(fā)生的概率,如暴露在某些危險因素下得病的概率,這是其它模型不具有特性。4)將樣本進行判別分類。它起的作用和判別分析(第十三章,例13-2)一樣,但它對數(shù)據(jù)的分布沒有嚴格要求,在醫(yī)學(xué)研究中使用很方便。5)logistic曲線的擬和。醫(yī)學(xué)中不少指標變量之間的關(guān)系呈現(xiàn)如圖7-1所示的logistic曲線形狀。例如劑量和反應(yīng)的關(guān)系。根據(jù)擬和曲線可以作有效劑量估計,劑量反應(yīng)的趨勢分析等。內(nèi)容內(nèi)容 基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistic

18、s分析 應(yīng)用應(yīng)用 - 實例分析實例分析某大學(xué)醫(yī)院外科采用兩種不同的繃帶(bandage-4-layer和convatee)和兩種不同的包扎方式(Granuflex和Na)進行腿潰瘍的治療處理。治療的結(jié)果分三種:不愈、有效和痊愈。治療方式和治療效果列在表7-6中。試分析治療方法對治療效果的影響。設(shè)因變量 y 表示治療效果,0=不愈、1=有效、2=痊愈。設(shè)因變量 x 1表示繃帶種類,1=bandage-4-layer、2=convatee。自變量 x 2 表示包扎方式,1=Granuflex、2=Na。 治療效果 (y)繃帶 (x1)包扎 (x2)人數(shù) (wt)000191004200201091

19、1082106001211013201201110111102115data eg7_6; input y x1 x2 wt ; cards;0 0 0 19 2 1 1 5run;proc logistic descending; model y=x1 x2; weight wt;run; 【SAS程序程序】【SAS輸出結(jié)果】The LOGISTIC Procedure Response ProfileOrdered Total Value Y Count Weight 1 2 4 15.000000 2 1 4 25.000000 3 0 4 59.000000 Score Test fo

20、r the Proportional Odds Assumption Chi-Square = 0.7505 with 2 DF (p=0.6871) Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept andCriterion Only Covariates Chi-Square for CovariatesAIC 190.499 178.977 .SC 191.469 180.916 .-2 LOG L 186.499 170.977 15.522 with 2 DF

21、 (p=0.0004)Score . . 14.849 with 2 DF (p=0.0006) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized OddsVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCP1 1 -2.6680 0.4657 32.8270 0.0001 . .INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 . .X1 1 1.6433 0.43

22、80 14.0736 0.0002 1.358335 5.172X2 1 -0.1903 0.4189 0.2063 0.6496 -0.157280 0.827【結(jié)果解釋】 顯示因變量y的排列數(shù)序:2,1,0。因此輸出的是p(y=2)和p(y=1)的概率模型。 多值logistic回歸模型的平行性檢驗結(jié)果:p=0.6871,不能拒絕零假設(shè),即模型的平行性成立。因此下面得到的回歸模型具有解釋意義。 模型的總體檢驗結(jié)果:p=0.0004,模型具有統(tǒng)計意義。 參數(shù)的檢驗結(jié)果:x1 (繃帶種類)具有顯著性統(tǒng)計意義(p=0.0001),x2 (包扎方式)不具有顯著性統(tǒng)計意義(p=0.6496)。SPS

23、S -Logistic回歸分析非條件Logistic回歸分析Case Processing SummaryCase Processing Summary121100.00.0121100.00.0121100.0Unweighted CasesaIncluded in AnalysisMissing CasesTotalSelected CasesUnselected CasesTotalNPercentIf weight is in effect, see classification table forthe total number of cases.a. Dependent Varia

24、ble EncodingDependent Variable Encoding01Original Value無有InternalValueC Cl la as ss si if fi ic ca at ti io on n T Ta ab bl le ea a, ,b b650100.0560.053.7Observed無有糖尿病Overall PercentageStep 0無有糖尿病PercentageCorrectPredictedConstant is included in the model.a. The cut value is .500b. Omnibus Tests of

25、Model CoefficientsOmnibus Tests of Model Coefficients95.49711.00095.49711.00095.49711.000StepBlockModelStep 1Chi-squaredfSig.M Mo od de el l S Su um mm ma ar ry y71.575a.546.729Step1-2 LoglikelihoodCox & SnellR SquareNagelkerke RSquareEstimation terminated at iteration number7 because parameter

26、estimates changed byless than .001.a. Classification TableClassification Tablea a59690.874987.589.3Observed無有糖尿病Overall PercentageStep 1無有糖尿病PercentageCorrectPredictedThe cut value is .500a. Variables in the EquationVariables in the Equation.263.636.1711.6791.301.3744.527.085.0365.5211.0191.0891.014

27、1.168-.699.2985.5131.019.497.277.8911.621.5528.6211.0035.0561.71414.9151.634.6825.7441.0175.1241.34719.4973.126.71419.1741.00022.7875.62392.3411.647.6706.0401.0145.1901.39619.298.606.4721.6471.1991.832.7274.6212.3121.0424.9291.02610.0981.31177.767-.914.4324.4841.034.401.172.934.017.416.0021.9671.017.4502.300-20.2074.65218.8661.000.000性別年齡學(xué)歷體重指數(shù)家族史吸煙血壓總膽固醇甘油三脂hdlldlConstantStep1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論