版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Logistic回歸
SAS應(yīng)用蔣紅衛(wèi)Email:JHWCCC@21CN.COM學(xué)習(xí)目標(biāo)了解Logistic回歸模型的建立和假設(shè)檢驗(yàn);了解Logistic回歸模型的應(yīng)用領(lǐng)域;掌握Logistic回歸模型系數(shù)的解釋,及回歸系數(shù)與OR值之間的關(guān)系;掌握Logistic回歸過程步;掌握啞變量的設(shè)置和結(jié)果的解釋;掌握多元Logistic回歸模型的逐步過程法和系數(shù)的解釋;了解條件Logistic回歸的應(yīng)用;掌握條件Logistic回歸的SAS程序;概述線性回歸模型和廣義線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系。當(dāng)因變量是分類型變量時(shí),且自變量與因變量沒有線性關(guān)系時(shí),線性回歸模型的假設(shè)條件遭到破壞。這時(shí),最好的回歸模型是Logistic回歸模型,它對因變量的分布沒有要求,從數(shù)學(xué)角度看,Logistic回歸模型非常巧妙地避開了分類型變量的分布問題,補(bǔ)充完善了線性回歸模型和廣義線性回歸模型的缺陷。從醫(yī)學(xué)研究角度看,Logistic回歸模型解決了一大批實(shí)際應(yīng)用問題,對醫(yī)學(xué)的發(fā)展起著舉足輕重的作用。非條件Logistic回歸Logistic回歸分析在醫(yī)學(xué)研究中應(yīng)用廣泛。目前主要是用于流行病學(xué)研究中危險(xiǎn)因素的篩選,但它同時(shí)具有良好的判別和預(yù)測功能,尤其是在資料類型不能滿足Fisher判別和Bayes判別的條件時(shí),更顯示出Logistic回歸判別的優(yōu)勢和效能。本研究對Logistic回歸方程的判別分析進(jìn)行了探討。非條件Logistic回歸醫(yī)學(xué)研究中經(jīng)常需要分析分類型變量的問題。比如,生存與死亡、有病與無病、有效與無效、感染與未感染等二分類變量。研究者關(guān)心的問題是,哪些因素導(dǎo)致了人群中有些人患某種病而有些人不患某種病,哪些因素導(dǎo)致了某種治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)和無效等不同的效果等。這類問題,實(shí)質(zhì)上是一個(gè)回歸問題,因變量就是上述提到的這些分類型變量,自變量x是與之有關(guān)的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法解決,其根本原因在于因變量是分類型變量,嚴(yán)重違背了線性回歸分析對數(shù)據(jù)的假設(shè)條件。那么應(yīng)該怎樣解決這個(gè)問題呢?非條件Logistic回歸研究者將所研究的問題轉(zhuǎn)換一個(gè)角度,不是直接分析y與x的關(guān)系,而是分析y取某個(gè)值的概率P與x的關(guān)系。例如,令y為1,0變量,y=1表示有病,y=0表示未患??;x是與患病有關(guān)的危險(xiǎn)因素。如果P表示患病的概率,即P=prob(y=1),那么研究患病的概率P與危險(xiǎn)因素x的關(guān)系就不是很困難的事情了。非條件Logistic回歸分析因變量y取某個(gè)值的概率P與自變量x的關(guān)系,就是尋找一個(gè)連續(xù)函數(shù),使得當(dāng)x變化時(shí),它對應(yīng)的函數(shù)值P不超出[0,1]范圍。數(shù)學(xué)上這樣的函數(shù)是存在且不唯一的,Logistic回歸模型就是滿足這種要求的函數(shù)之一。與線性回歸分析相似,Logistic回歸分析的基本原理就是利用一組數(shù)據(jù)擬合一個(gè)Logistic回歸模型,然后借助這個(gè)模型揭示總體中若干個(gè)自變量與一個(gè)因變量取某個(gè)值的概率之間的關(guān)系。具體地說,Logistic回歸分析可以從統(tǒng)計(jì)意義上估計(jì)出在其它自變量固定不變的情況下,每個(gè)自變量對因變量取某個(gè)值的概率的數(shù)值影響大小。Logistic回歸模型有條件與非條件之分,前者適用于配對病例對照資料的分析,后者適用于隊(duì)列研究或非配對的病例-對照研究成組資料的分析。問題的提出在流行病學(xué)研究中,經(jīng)常遇到因變量為離散型分類變量的情況。如治療效果的無效好轉(zhuǎn)、顯效、痊愈;不同染毒劑量下小白鼠的存活或死亡;在某種暴露下的發(fā)病與不發(fā)病等。最常見的情況是因變量為二分變量的問題。多元線性回歸的局限性經(jīng)典流行病學(xué)統(tǒng)計(jì)分析方法—分層分析的局限性1.兩種主要的流行病學(xué)設(shè)計(jì)
1)病歷對照研究
2)隊(duì)列研究2.判斷結(jié)局(疾?。┖捅┞叮ㄒ蛩兀┞?lián)系強(qiáng)弱的指標(biāo)
1)相對危險(xiǎn)度:RR=p1/p0 p1:暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率
p0:不暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率(對照)
2)比值比:
OR={P(D=1|E=1)/P(D=0|E=1)}/{P(D=1|E=0)/P(D=0|E=0)} D=1:患某種疾病,D=0:不患某種疾病
E=1:暴露于某個(gè)危險(xiǎn)因素,E=0:不暴露于某個(gè)危險(xiǎn)因素 可以簡單地表述成:OR=(p1/q1)/(p0/q0) p1:暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率
q1:暴露于某個(gè)危險(xiǎn)因素下不發(fā)病的概率
p0:不暴露于某個(gè)危險(xiǎn)因素下發(fā)病的概率
q0:不暴露于某個(gè)危險(xiǎn)因素下不發(fā)病的概率能夠描述病因?qū)W意義的指標(biāo)是RROR本身沒有病因?qū)W意義OR的病因?qū)W意義主要體現(xiàn)在發(fā)病率/患病率比較低的情形,此時(shí),OR近似于RROR值是描述暴露與疾病關(guān)聯(lián)強(qiáng)度的指標(biāo)分層分析中,可以分別計(jì)算出分層后的各層OR值,如果發(fā)現(xiàn)與總的OR有較大的差異,則可以認(rèn)為該風(fēng)層因素是混雜因素。必須對該因素進(jìn)行MH調(diào)整,調(diào)整后的OR值才能真正反映因素和結(jié)局間的關(guān)系。如果當(dāng)分層后各層的OR值經(jīng)過一致性檢驗(yàn)發(fā)現(xiàn):各層間的OR值有統(tǒng)計(jì)學(xué)差異,這時(shí)說明分析因素在分層因素的不同水平上與結(jié)局變量的聯(lián)系強(qiáng)度是不同的,這時(shí)分層因素和研究因素存在這交互作用(效應(yīng)修飾作用)。這時(shí)應(yīng)該分層報(bào)告OR值,而不能計(jì)算調(diào)整OR值。
分層分析的局限性只能控制少數(shù)因素(分層因素過多,每個(gè)格子中的樣本例數(shù)太少)定量資料需要分組,信息丟失不能對因素作用大小進(jìn)行定量分析(交互作用)yy=log2x01二、Logistic回歸原理Logistic模型中系數(shù)的意義:回歸系數(shù)的流行病學(xué)意義是:在其它自變量都不變的條件下,當(dāng)因素X變化一個(gè)測量單位時(shí)所引起的OR值自然對數(shù)的改變量。三、Logistic回歸和OR值間的關(guān)系假設(shè)建立了如下的logistic回歸方程:
LogitP=α+βxx
為二分變量,當(dāng)暴露時(shí),取值為1;不暴露時(shí),取值為0。所以暴露時(shí), Logit(P1)=α+β, 比值(odds)=exp(α+β)所以不暴露時(shí),Logit(P0)=α, 比值(odds)=exp(α)則,暴露對于不暴露的比值比(oddsratio)為:
OR=
exp(α+β)/exp(α)=exp(β)
以四格表為例來說明最大似然求解的意義及過程。 四格表的一般表達(dá)形式
————————————————————————————
發(fā)病(y=1) 不發(fā)病(y=0)
————————————————————————————
暴露(x=1) a b
不暴露(x=0) c d
—————————————————
合計(jì) a+c b+d
—————————————————————————————
暴露者發(fā)病概率p1=a/(a+b);
不暴露者發(fā)病概率p0=c/(c+d) OR=ad/(bc)
四、Logistic回歸最大似然建模用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式: 四格表的另外一種表達(dá)形式(1)
————————————————————————————
發(fā)病(y=1) 不發(fā)病(y=0)
————————————————————————————
暴露(x=1) p1 1-p1
不暴露(x=0) p0 1-p0
—————————————————————————————
暴露者發(fā)病概率:p1=exp(α+βx)/[1+exp(α+βx)]
暴露者不發(fā)病概率:q0=1-p1=1/[1+exp(α+βx)];
不暴露者發(fā)病概率:p0=exp(α)/[1+exp(α)]
不暴露者不發(fā)病概率:q0=1-p0=1/[1+exp(α)];
用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:
四格表的另外一種表達(dá)形式(2)
——————————————————————————————
發(fā)病(y=1) 不發(fā)病(y=0)
——————————————————————————————
暴露(x=1)e(α+β)/[1+e(α+β)]
1/[1+e(α+β)]
不暴露(x=0)eα/[1+eα] 1/[1+eα]
——————————————————————————————
因?yàn)樗母癖淼乃膫€(gè)實(shí)際數(shù)為a,b,c及d,故可構(gòu)造似然函數(shù)為:
L= {e(α+β)/[1+e(α+β)]}a{1/[1+e(α+β)]}b {eα/[1+eα]}c{1/[1+eα]}d
取對數(shù),有
Ln(L)=a(α+β)–aln[1+e(α+β)]–bln[1+e(α+β)]
+cα–cln[1+eα]–dln[1+eα]
對以上似然函數(shù)分別求對α和β的一階偏導(dǎo)數(shù),再令兩個(gè)偏導(dǎo)數(shù)為零,就可以解得α和β的估計(jì)值。在經(jīng)典流行病學(xué)分析里對因素的統(tǒng)計(jì)學(xué)意義檢驗(yàn)是檢驗(yàn)OR值是否為1對于Logistic回歸來說,對模型中變量的統(tǒng)計(jì)學(xué)檢驗(yàn)就是對檢驗(yàn)其回歸系數(shù)是否為0一般常用的方法有三種:似然比檢驗(yàn)、Wald檢驗(yàn)、比分檢驗(yàn)五、Logistic回歸模型的統(tǒng)計(jì)學(xué)檢驗(yàn)1)似然比檢驗(yàn) 似然比檢驗(yàn)的原理是通過分析模型中變量變化對似然比的影響,來檢驗(yàn)增加/減少的自變量是否對應(yīng)變量有統(tǒng)計(jì)學(xué)上的顯著意義。
檢驗(yàn)統(tǒng)計(jì)量:
G=-2[Ln(Lk-1)-Ln(Lk)] Ln((Lk-1)為不包含檢驗(yàn)變量時(shí)模型的對數(shù)似然值
Ln(Lk)為包含檢驗(yàn)變量時(shí)模型的對數(shù)似然值當(dāng)檢驗(yàn)一個(gè)變量時(shí)則G服從自由度為1的χ2分布當(dāng)對模型整個(gè)進(jìn)行檢驗(yàn)時(shí)就是相當(dāng)于模型中所有n個(gè)變量的回歸系數(shù)都為0,G服從自由度為n的χ2分布 2)Wald統(tǒng)計(jì)量-檢驗(yàn)回歸系數(shù)是否為0對于方程內(nèi)單個(gè)自變量的檢驗(yàn),采用Wald統(tǒng)計(jì)量。
W=β/Sβ Sβ為β的標(biāo)準(zhǔn)誤。 其臨界值可取標(biāo)準(zhǔn)正態(tài)分布的臨界值。同時(shí),W2遵循自由度為1的卡方分布。β的95%可信區(qū)間為:(β-1.96×Sβ
,β-1.96×Sβ
)OR的95%可信區(qū)間為:
(exp(β-1.96×Sβ),exp(β+1.96×Sβ)) 3)比分檢驗(yàn)在原有模型的基礎(chǔ)上增加一個(gè)變量,并假設(shè)該變量的回歸系數(shù)為0,似然函數(shù)一階偏導(dǎo)和信息矩陣的乘積為比分檢驗(yàn)統(tǒng)計(jì)量S。S在樣本量較大時(shí)服從自由度為檢驗(yàn)參數(shù)個(gè)數(shù)的χ2
分布上述方法中,似然比檢驗(yàn)最可靠,Wald檢驗(yàn)和比分檢驗(yàn)一致。Wald檢驗(yàn)沒有考慮變量間的相互影響,當(dāng)因素間相關(guān)時(shí)(存在共線性)不可靠參數(shù)的可信區(qū)間是以Wald法計(jì)算的,在應(yīng)用可信區(qū)間時(shí)要注意
PROCLOGISTIC過程SAS系統(tǒng)中進(jìn)行Logistic回歸分析的過程步是PROCLOGISTIC過程。下面我們先了解以下這個(gè)過程步。LOGISTIC過程的語句基本格式如下:
PROCLOGISTICdata=descendingsimpleorder=;Model因變量=自變量/link=nointrsqclrlselection=sle=sls=;freq頻數(shù)變量;outputout=pred=變量名;
run;PROCLOGISTIC過程DESCENDING:指令系統(tǒng)輸出因變量取值由大到小的概率,缺省時(shí),系統(tǒng)輸出因變量取值由小到大的概率。使用和不使用DESCENDING語句的回歸模型的回歸系數(shù)絕對值完全相同,但是符號(hào)完全相反。SIMPLE:指令系統(tǒng)輸出每一個(gè)自變量的基本統(tǒng)計(jì)量。MODEL:給出模型的因變量和自變量。LINK:指定因變量概率函數(shù)的形式NOINT:指令模型不含常數(shù)項(xiàng)。RSQ:指定輸出確定系數(shù)。PROCLOGISTIC過程CL:指定輸出參數(shù)估計(jì)值的可信區(qū)間。RL:指定輸出相對危險(xiǎn)度(或比數(shù)比)的可信區(qū)間。SELECTION、SLE和SLS:和REG過程步的對應(yīng)選項(xiàng)一樣,用于逐步回歸分析。FREQ:是否使用,取決于數(shù)據(jù)的輸入方法。當(dāng)x和y變量的觀察值被直接輸入到SAS數(shù)據(jù)集時(shí),不需要使用FREQ語句。但是,當(dāng)x是分類型變量,且x和y變量的觀察值不是直接輸入到SAS數(shù)據(jù)集時(shí),而是將x和y變量的頻數(shù)輸入到SAS數(shù)據(jù)集中時(shí),需要使用FREQ語句。OUTPUT語句:用來保存指定的分析結(jié)果。Out選擇項(xiàng)用來給出輸出數(shù)據(jù)集的名字。Pred選擇項(xiàng)用來給出一個(gè)預(yù)測概率的變量名。例題-條件二分類某北方城市研究喉癌發(fā)病的危險(xiǎn)因素,用1∶2配對的病例對照研究方法進(jìn)行了調(diào)查?,F(xiàn)選取了6個(gè)可能的危險(xiǎn)因素,試做條件logistic逐步回歸分析
。27因素變量名賦值說明咽炎X1無=1,偶爾=2,經(jīng)常=3吸煙量(支/日)X20=1,1~=2,5~=3,10~=4,20~=5聲嘶史X3無=1,偶爾=2,經(jīng)常=3攝食新鮮蔬菜X4少=1,經(jīng)常=2,每天=3攝食水果X5很少=1,少量=2,經(jīng)常=3癌癥家族史X6無=0,有=1是否患喉癌對照=0,病例=1例題2-多個(gè)自變量的二分類為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對26例冠心病病人和28例對照者進(jìn)行病例-對照研究,試用logistic逐步回歸分析方法篩選危險(xiǎn)因素
。28因素變量名賦值說明年齡(歲)X1<45=1,45~=2,55~=3,65~=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1高血脂史X5無=0,有=1動(dòng)物脂肪攝入X6低=0,高=1體重指數(shù)(BMI)X7<24=1,24~=2,26~=3A型性格X8否=0,是=1冠心病Y對照=0,病例=1例題3-有序分類某研究人員隨機(jī)選擇84例患某病的病人做臨床試驗(yàn),以探討性別和治療方法對該病療效的影響。變量賦值為:性別(
:男=0,女=1)、治療方法(
:傳統(tǒng)療法=0,新型療法=1)、療效(
:無效=1,有效=2,痊愈=3)。請擬合性別、治療方法對療效的有序logistic回歸模型。29例題4-無序多分類某研究人員欲了解不同社區(qū)和性別之間成年居民獲取健康知識(shí)途徑是否不同,對2個(gè)社區(qū)的314名成人進(jìn)行了調(diào)查,結(jié)果見表16-11。變量賦值為:社區(qū)(
:社區(qū)1=0,社區(qū)2=1)、性別(
:男=0,女=1)、獲取健康知識(shí)途徑(
:傳統(tǒng)大眾媒介=1,網(wǎng)絡(luò)=2,社區(qū)宣傳=3)。請擬合社區(qū)和性別對居民獲取健康知識(shí)途徑的多分類logistic回歸模型。30條件Logistic回歸醫(yī)學(xué)研究中的配對病例對照研究資料可以用條件Logistic回歸模型來分析。條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計(jì)是否用到了條件概率。所謂的配對病例對照研究指的是在病例對照研究中,對每一個(gè)病例配以性別、年齡或其它條件相似的一個(gè)(1:1)或幾個(gè)(1:M)對照,然后分析比較病例組與對照組以往暴露于致病因素的經(jīng)歷。分析配對病例對照研究資料所用的條件Logistic回歸模型中參數(shù)的估計(jì)方法也是采用最大似然估計(jì)法,參數(shù)和模型的檢驗(yàn)方法和非條件Logistic回歸模型也一樣。條件Logistic回歸的SAS程序用于條件Logistic回歸分析的過程步一般借用生存數(shù)據(jù)風(fēng)險(xiǎn)回歸分析的PHREG過程步。實(shí)用PHREG過程步時(shí)要注意數(shù)據(jù)的輸入方法和過程步語句的寫法。PHREG過程步的一般格式如下:
Procphregdata=;Model因變量*截尾變量=協(xié)變量/ties=risklimitsselection=sle=slsdetails;Strata分組變量;Run;條件Logistic回歸的SAS程序MODEL語句:用于指定模型的結(jié)構(gòu),適用于生存時(shí)間有右截尾的情況,且生存時(shí)間變量作為模型的因變量,協(xié)變量作為模型的自變量。TIES:用來選擇處理生存時(shí)間結(jié)點(diǎn)的方法,每一種方法使用了不同的公式來計(jì)算最大似然值。RISKLIMITS:指令輸出危險(xiǎn)比的95%置信區(qū)間,供選擇的有:backward、forward、step
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院老人入住手續(xù)制度
- 養(yǎng)老院老人安全保障制度
- 向命運(yùn)挑戰(zhàn)課件
- 城市經(jīng)濟(jì)學(xué)城市化教學(xué)課件
- 救生員入職合同(2篇)
- 2024年度生物安全試劑采購與儲(chǔ)備合同3篇
- 2024年農(nóng)業(yè)設(shè)施維修及保養(yǎng)承包合同樣本3篇
- 2025年大興安嶺貨運(yùn)從業(yè)資格證模擬考試題目
- 2025年塔城貨物運(yùn)輸駕駛員從業(yè)資格考試系統(tǒng)
- 2025年阜陽貨運(yùn)從業(yè)資格證試題庫及答案
- 人教版(2024新版)英語七年級(jí)上冊期末復(fù)習(xí)綜合測試卷(含答案)
- 養(yǎng)老服務(wù)與康復(fù)機(jī)構(gòu)作業(yè)指導(dǎo)書
- 五育并舉-勞以啟智動(dòng)以潤心
- 2024年家裝家居行業(yè)解決方案-淘天集團(tuán)
- 《論語》導(dǎo)讀(復(fù)旦版)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 中國電建在線測評題
- 人教版八年級(jí)上冊數(shù)學(xué)第三次月考試題
- 安徽社區(qū)食堂投標(biāo)方案
- 不良行為學(xué)生教育轉(zhuǎn)化工作實(shí)施方案
- 2024年新人教版七年級(jí)上冊生物課件 第三章 微生物 第一節(jié) 微生物的分布
- 創(chuàng)業(yè)基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評論
0/150
提交評論