同濟(jì)醫(yī)學(xué)院-《SAS》-SAS的logistic回歸(正式)課件_第1頁
同濟(jì)醫(yī)學(xué)院-《SAS》-SAS的logistic回歸(正式)課件_第2頁
同濟(jì)醫(yī)學(xué)院-《SAS》-SAS的logistic回歸(正式)課件_第3頁
同濟(jì)醫(yī)學(xué)院-《SAS》-SAS的logistic回歸(正式)課件_第4頁
同濟(jì)醫(yī)學(xué)院-《SAS》-SAS的logistic回歸(正式)課件_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Logistic回歸

SAS應(yīng)用蔣紅衛(wèi)Email:JHWCCC@21CN.COM學(xué)習(xí)目標(biāo)了解Logistic回歸模型的建立和假設(shè)檢驗;了解Logistic回歸模型的應(yīng)用領(lǐng)域;掌握Logistic回歸模型系數(shù)的解釋,及回歸系數(shù)與OR值之間的關(guān)系;掌握Logistic回歸過程步;掌握啞變量的設(shè)置和結(jié)果的解釋;掌握多元Logistic回歸模型的逐步過程法和系數(shù)的解釋;了解條件Logistic回歸的應(yīng)用;掌握條件Logistic回歸的SAS程序;概述線性回歸模型和廣義線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系。當(dāng)因變量是分類型變量時,且自變量與因變量沒有線性關(guān)系時,線性回歸模型的假設(shè)條件遭到破壞。這時,最好的回歸模型是Logistic回歸模型,它對因變量的分布沒有要求,從數(shù)學(xué)角度看,Logistic回歸模型非常巧妙地避開了分類型變量的分布問題,補充完善了線性回歸模型和廣義線性回歸模型的缺陷。從醫(yī)學(xué)研究角度看,Logistic回歸模型解決了一大批實際應(yīng)用問題,對醫(yī)學(xué)的發(fā)展起著舉足輕重的作用。非條件Logistic回歸Logistic回歸分析在醫(yī)學(xué)研究中應(yīng)用廣泛。目前主要是用于流行病學(xué)研究中危險因素的篩選,但它同時具有良好的判別和預(yù)測功能,尤其是在資料類型不能滿足Fisher判別和Bayes判別的條件時,更顯示出Logistic回歸判別的優(yōu)勢和效能。本研究對Logistic回歸方程的判別分析進(jìn)行了探討。非條件Logistic回歸醫(yī)學(xué)研究中經(jīng)常需要分析分類型變量的問題。比如,生存與死亡、有病與無病、有效與無效、感染與未感染等二分類變量。研究者關(guān)心的問題是,哪些因素導(dǎo)致了人群中有些人患某種病而有些人不患某種病,哪些因素導(dǎo)致了某種治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)和無效等不同的效果等。這類問題,實質(zhì)上是一個回歸問題,因變量就是上述提到的這些分類型變量,自變量x是與之有關(guān)的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法解決,其根本原因在于因變量是分類型變量,嚴(yán)重違背了線性回歸分析對數(shù)據(jù)的假設(shè)條件。那么應(yīng)該怎樣解決這個問題呢?非條件Logistic回歸分析因變量y取某個值的概率P與自變量x的關(guān)系,就是尋找一個連續(xù)函數(shù),使得當(dāng)x變化時,它對應(yīng)的函數(shù)值P不超出[0,1]范圍。數(shù)學(xué)上這樣的函數(shù)是存在且不唯一的,Logistic回歸模型就是滿足這種要求的函數(shù)之一。與線性回歸分析相似,Logistic回歸分析的基本原理就是利用一組數(shù)據(jù)擬合一個Logistic回歸模型,然后借助這個模型揭示總體中若干個自變量與一個因變量取某個值的概率之間的關(guān)系。具體地說,Logistic回歸分析可以從統(tǒng)計意義上估計出在其它自變量固定不變的情況下,每個自變量對因變量取某個值的概率的數(shù)值影響大小。Logistic回歸模型有條件與非條件之分,前者適用于配對病例對照資料的分析,后者適用于隊列研究或非配對的病例-對照研究成組資料的分析。問題的提出在流行病學(xué)研究中,經(jīng)常遇到因變量為離散型分類變量的情況。如治療效果的無效好轉(zhuǎn)、顯效、痊愈;不同染毒劑量下小白鼠的存活或死亡;在某種暴露下的發(fā)病與不發(fā)病等。最常見的情況是因變量為二分變量的問題。多元線性回歸的局限性經(jīng)典流行病學(xué)統(tǒng)計分析方法—分層分析的局限性能夠描述病因?qū)W意義的指標(biāo)是RROR本身沒有病因?qū)W意義OR的病因?qū)W意義主要體現(xiàn)在發(fā)病率/患病率比較低的情形,此時,OR近似于RROR值是描述暴露與疾病關(guān)聯(lián)強度的指標(biāo)分層分析中,可以分別計算出分層后的各層OR值,如果發(fā)現(xiàn)與總的OR有較大的差異,則可以認(rèn)為該風(fēng)層因素是混雜因素。必須對該因素進(jìn)行MH調(diào)整,調(diào)整后的OR值才能真正反映因素和結(jié)局間的關(guān)系。如果當(dāng)分層后各層的OR值經(jīng)過一致性檢驗發(fā)現(xiàn):各層間的OR值有統(tǒng)計學(xué)差異,這時說明分析因素在分層因素的不同水平上與結(jié)局變量的聯(lián)系強度是不同的,這時分層因素和研究因素存在這交互作用(效應(yīng)修飾作用)。這時應(yīng)該分層報告OR值,而不能計算調(diào)整OR值。

分層分析的局限性只能控制少數(shù)因素(分層因素過多,每個格子中的樣本例數(shù)太少)定量資料需要分組,信息丟失不能對因素作用大小進(jìn)行定量分析(交互作用)Logistic模型中系數(shù)的意義:回歸系數(shù)的流行病學(xué)意義是:在其它自變量都不變的條件下,當(dāng)因素X變化一個測量單位時所引起的OR值自然對數(shù)的改變量。三、Logistic回歸和OR值間的關(guān)系

以四格表為例來說明最大似然求解的意義及過程。 四格表的一般表達(dá)形式

————————————————————————————

發(fā)病(y=1) 不發(fā)病(y=0)

————————————————————————————

暴露(x=1) a b

不暴露(x=0) c d

—————————————————

合計 a+c b+d

—————————————————————————————

暴露者發(fā)病概率p1=a/(a+b);

不暴露者發(fā)病概率p0=c/(c+d) OR=ad/(bc)

四、Logistic回歸最大似然建模用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式: 四格表的另外一種表達(dá)形式(1)

————————————————————————————

發(fā)病(y=1) 不發(fā)病(y=0)

————————————————————————————

暴露(x=1) p1 1-p1

不暴露(x=0) p0 1-p0

—————————————————————————————

暴露者發(fā)病概率:p1=exp(α+βx)/[1+exp(α+βx)]

暴露者不發(fā)病概率:q0=1-p1=1/[1+exp(α+βx)];

不暴露者發(fā)病概率:p0=exp(α)/[1+exp(α)]

不暴露者不發(fā)病概率:q0=1-p0=1/[1+exp(α)];

用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:

四格表的另外一種表達(dá)形式(2)

——————————————————————————————

發(fā)病(y=1) 不發(fā)病(y=0)

——————————————————————————————

暴露(x=1)e(α+β)/[1+e(α+β)]

1/[1+e(α+β)]

不暴露(x=0)eα/[1+eα] 1/[1+eα]

——————————————————————————————

因為四格表的四個實際數(shù)為a,b,c及d,故可構(gòu)造似然函數(shù)為:

L= {e(α+β)/[1+e(α+β)]}a{1/[1+e(α+β)]}b {eα/[1+eα]}c{1/[1+eα]}d

取對數(shù),有

Ln(L)=a(α+β)–aln[1+e(α+β)]–bln[1+e(α+β)]

+cα–cln[1+eα]–dln[1+eα]

對以上似然函數(shù)分別求對α和β的一階偏導(dǎo)數(shù),再令兩個偏導(dǎo)數(shù)為零,就可以解得α和β的估計值。在經(jīng)典流行病學(xué)分析里對因素的統(tǒng)計學(xué)意義檢驗是檢驗OR值是否為1對于Logistic回歸來說,對模型中變量的統(tǒng)計學(xué)檢驗就是對檢驗其回歸系數(shù)是否為0一般常用的方法有三種:似然比檢驗、Wald檢驗、比分檢驗五、Logistic回歸模型的統(tǒng)計學(xué)檢驗1)似然比檢驗 似然比檢驗的原理是通過分析模型中變量變化對似然比的影響,來檢驗增加/減少的自變量是否對應(yīng)變量有統(tǒng)計學(xué)上的顯著意義。

檢驗統(tǒng)計量:

G=-2[Ln(Lk-1)-Ln(Lk)] Ln((Lk-1)為不包含檢驗變量時模型的對數(shù)似然值

Ln(Lk)為包含檢驗變量時模型的對數(shù)似然值當(dāng)檢驗一個變量時則G服從自由度為1的χ2分布當(dāng)對模型整個進(jìn)行檢驗時就是相當(dāng)于模型中所有n個變量的回歸系數(shù)都為0,G服從自由度為n的χ2分布 2)Wald統(tǒng)計量-檢驗回歸系數(shù)是否為0對于方程內(nèi)單個自變量的檢驗,采用Wald統(tǒng)計量。

W=β/Sβ Sβ為β的標(biāo)準(zhǔn)誤。 其臨界值可取標(biāo)準(zhǔn)正態(tài)分布的臨界值。同時,W2遵循自由度為1的卡方分布。β的95%可信區(qū)間為:(β-1.96×Sβ

,β-1.96×Sβ

)OR的95%可信區(qū)間為:

(exp(β-1.96×Sβ),exp(β+1.96×Sβ)) 3)比分檢驗在原有模型的基礎(chǔ)上增加一個變量,并假設(shè)該變量的回歸系數(shù)為0,似然函數(shù)一階偏導(dǎo)和信息矩陣的乘積為比分檢驗統(tǒng)計量S。S在樣本量較大時服從自由度為檢驗參數(shù)個數(shù)的χ2

分布PROCLOGISTIC過程SAS系統(tǒng)中進(jìn)行Logistic回歸分析的過程步是PROCLOGISTIC過程。下面我們先了解以下這個過程步。LOGISTIC過程的語句基本格式如下:

PROCLOGISTICdata=descendingsimpleorder=;Model因變量=自變量/link=nointrsqclrlselection=sle=sls=;freq頻數(shù)變量;outputout=pred=變量名;

run;PROCLOGISTIC過程DESCENDING:指令系統(tǒng)輸出因變量取值由大到小的概率,缺省時,系統(tǒng)輸出因變量取值由小到大的概率。使用和不使用DESCENDING語句的回歸模型的回歸系數(shù)絕對值完全相同,但是符號完全相反。SIMPLE:指令系統(tǒng)輸出每一個自變量的基本統(tǒng)計量。MODEL:給出模型的因變量和自變量。LINK:指定因變量概率函數(shù)的形式NOINT:指令模型不含常數(shù)項。RSQ:指定輸出確定系數(shù)。例題-條件二分類某北方城市研究喉癌發(fā)病的危險因素,用1∶2配對的病例對照研究方法進(jìn)行了調(diào)查?,F(xiàn)選取了6個可能的危險因素,試做條件logistic逐步回歸分析

。27因素變量名賦值說明咽炎X1無=1,偶爾=2,經(jīng)常=3吸煙量(支/日)X20=1,1~=2,5~=3,10~=4,20~=5聲嘶史X3無=1,偶爾=2,經(jīng)常=3攝食新鮮蔬菜X4少=1,經(jīng)常=2,每天=3攝食水果X5很少=1,少量=2,經(jīng)常=3癌癥家族史X6無=0,有=1是否患喉癌對照=0,病例=1例題2-多個自變量的二分類為了探討冠心病發(fā)生的有關(guān)危險因素,對26例冠心病病人和28例對照者進(jìn)行病例-對照研究,試用logistic逐步回歸分析方法篩選危險因素

。28因素變量名賦值說明年齡(歲)X1<45=1,45~=2,55~=3,65~=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1高血脂史X5無=0,有=1動物脂肪攝入X6低=0,高=1體重指數(shù)(BMI)X7<24=1,24~=2,26~=3A型性格X8否=0,是=1冠心病Y對照=0,病例=1例題3-有序分類某研究人員隨機選擇84例患某病的病人做臨床試驗,以探討性別和治療方法對該病療效的影響。變量賦值為:性別(

:男=0,女=1)、治療方法(

:傳統(tǒng)療法=0,新型療法=1)、療效(

:無效=1,有效=2,痊愈=3)。請擬合性別、治療方法對療效的有序logistic回歸模型。29例題4-無序多分類某研究人員欲了解不同社區(qū)和性別之間成年居民獲取健康知識途徑是否不同,對2個社區(qū)的314名成人進(jìn)行了調(diào)查,結(jié)果見表16-11。變量賦值為:社區(qū)(

:社區(qū)1=0,社區(qū)2=1)、性別(

:男=0,女=1)、獲取健康知識途徑(

:傳統(tǒng)大眾媒介=1,網(wǎng)絡(luò)=2,社區(qū)宣傳=3)。請擬合社區(qū)和性別對居民獲取健康知識途徑的多分類logistic回歸模型。30條件Logistic回歸醫(yī)學(xué)研究中的配對病例對照研究資料可以用條件Logistic回歸模型來分析。條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率。所謂的配對病例對照研究指的是在病例對照研究中,對每一個病例配以性別、年齡或其它條件相似的一個(1:1)或幾個(1:M)對照,然后分析比較病例組與對照組以往暴露于致病因素的經(jīng)歷。分析配對病例對照研究資料所用的條件Logistic回歸模型中參數(shù)的估計方法也是采用最大似然估計法,參數(shù)和模型的檢驗方法和非條件Logistic回歸模型也一樣。條件Logistic回歸的SAS程序用于條件Logistic回歸分析的過程步一般借用生存數(shù)據(jù)風(fēng)險回歸分析的PHREG過程步。實用PHREG過程步時要注意數(shù)據(jù)的輸入方法和過程步語句的寫法。PHREG過程步的一般格式如下:

Procphregdata=;Model因變量*截尾變量=協(xié)變量/ties=risklimitsselection=sle=slsdetails;Strata分組變量;Run;條件Logistic回歸的SAS程序MODEL語句:用于指定模型的結(jié)構(gòu),適用于生存時間有右截尾的情況,且生存時間變量作為模型的因變量,協(xié)變量作為模型的自變量。TIES:用來選擇處理生存時間結(jié)點的方法,每一種方法使用了不同的公式來計算最大似然值。RISKLIMITS:指令輸出危險比的95%置信區(qū)間,供選擇的有:backward、forward、stepwise、score。條件Logistic回歸的SAS程序SLE:指定協(xié)變量進(jìn)入模型的顯著水平,缺省值是0.05。SLS:指定協(xié)變量停留在模型中的顯著水平,缺省值是0.05。DETAILS:指令輸出逐步回歸過程中每一步的詳細(xì)分析結(jié)果。STRATA:指定用于分組計算的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論