Logistic回歸的實際應(yīng)用_第1頁
Logistic回歸的實際應(yīng)用_第2頁
Logistic回歸的實際應(yīng)用_第3頁
Logistic回歸的實際應(yīng)用_第4頁
Logistic回歸的實際應(yīng)用_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 Logistic回歸的介紹與實際應(yīng)用 摘要本文通過對logistic回歸的介紹,對logistic回歸模型建立的分析,以及其在實際生活中的運用,我們可以得出所建立的模型對實際例子的數(shù)據(jù)擬合結(jié)果不錯。關(guān)鍵詞:logistic回歸;模型建立;擬合;1、 logistic回歸的簡要介紹 1、Logistic回歸的應(yīng)用范圍:      適用于流行病學(xué)資料的危險因素分析      實驗室中藥物的劑量-反應(yīng)關(guān)系      臨床試驗評價  

2、0;   疾病的預(yù)后因素分析 2、 Logistic回歸的分類:      按因變量的資料類型分:二分類、多分類;其中二分較為常用      按研究方法分:條  件Logistic回歸、非條件Logistic回歸兩者針對的資料類型不一樣,后者針對成組研究,前者針對配對或配伍研究。 3、Logistic回歸的應(yīng)用條件是:      獨立性。各觀測對象間是相互獨立的;   

3、;   Logit P與自變量是線性關(guān)系;      樣本量。經(jīng)驗值是病例對照各50例以上或為自變量的5-10倍(以10倍為宜),不過隨著統(tǒng)計技術(shù)和軟件的發(fā)展,樣本量較小或不能進行似然估計的情況下可采用精確logistic回歸分析,此時要求分析變量不能太多,且變量分類不能太多;      當隊列資料進行l(wèi)ogistic回歸分析時,觀察時間應(yīng)該相同,否則需考慮觀察時間的影響(建議用Poisson回歸)。 4、擬和logistic回歸方程的步驟:   

4、;   對每一個變量進行量化,并進行單因素分析;      數(shù)據(jù)的離散化,對于連續(xù)性變量在分析過程中常常需要進行離散變成等級資料??刹捎玫姆椒ㄓ幸罁?jù)經(jīng)驗進行離散,或是按照四分、五分位數(shù)法來確定等級,也可采用聚類方法將計量資料聚為二類或多類,變?yōu)殡x散變量。      對性質(zhì)相近的一些自變量進行部分多因素分析,并探討各自變量(等級變量,數(shù)值變量)納入模型時的適宜尺度,及對自變量進行必要的變量變換;      在單變量分析

5、和相關(guān)自變量分析的基礎(chǔ)上,對P(常取0.2,0.15或0.3)的變量,以及專業(yè)上認為重要的變量進行多因素的逐步篩選;模型程序每擬合一個模型將給出多個指標值,供用戶判斷模型優(yōu)劣和篩選變量??梢圆捎秒p向篩選技術(shù):a進入變量的篩選用score統(tǒng)計量或G統(tǒng)計量或LRS(似然比統(tǒng)計量),用戶確定P值臨界值如:0.05、0.1或0.2,選擇統(tǒng)計量顯著且最大的變量進入模型;b剔除變量的選擇用Z統(tǒng)計量(Wald統(tǒng)計量),用戶確定其P值顯著性水平,當變量不顯者,從模型中予以剔除。這樣,選入和剔除反復(fù)循環(huán),直至無變量選入,也無變量刪除為止,選入或剔除的顯著界值的確定要依具體的問題和變量的多寡而定,一般地,當納入模

6、型的變量偏多,可提高選入界值或降低剔除標準,反之,則降低選入界值、提高刪除標準。但篩選標準的不同會影響分析結(jié)果,這在與他人結(jié)果比較時應(yīng)當注意。      在多因素篩選模型的基礎(chǔ)上,考慮有無必要納入變量的交互作用項;兩變量間的交互作用為一級交互作用,可推廣到二級或多級交互作用,但在實際應(yīng)用中,各變量最好相互獨立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一級交互作用。      對專業(yè)上認為重要但未選入回歸方程的要查明原因。 5、回歸方程擬合優(yōu)劣的判斷(為線性回歸方程判斷依據(jù),可用于

7、logistic回歸分析)      決定系數(shù)(R2)和校正決定系數(shù)(  ),可以用來評價回歸方程的優(yōu)劣。R2隨著自變量個數(shù)的增加而增加,所以需要校正;校正決定系數(shù)( )越大,方程越優(yōu)。但亦有研究指出R2是多元線性回歸中經(jīng)常用到的一個指標,表示的是因變量的變動中由模型中自變量所解釋的百分比,并不涉及預(yù)測值與觀測值之間差別的問題,因此在logistic回歸中不適合。     Cp選擇法:選擇Cp最接近p或p1的方程(不同學(xué)者解釋不同)。Cp無法用SPSS直接計算,可能

8、需要手工。1964年CL Mallows提出:        Cp接近(p+1)的模型為最佳,其中p為方程中自變量的個數(shù),m為自變量總個數(shù)。     AIC準則:1973年由日本學(xué)者赤池提出AIC計算準則,AIC越小擬合的方程越好。在logistic回歸中,評價模型擬合優(yōu)度的指標主要有Pearson 2、偏差(deviance)、Hosmer- Lemeshow (HL)指標、Akaike信息準則(AIC)、SC指標等。Pearson 2、偏差(devia

9、nce)主要用于自變量不多且為分類變量的情況,當自變量增多且含有連續(xù)型變量時,用HL指標則更為恰當。Pearson2、偏差(deviance)、Hosmer- Lemeshow (HL)指標值均服從2分布,2檢驗無統(tǒng)計學(xué)意義(P>0.05)表示模型擬合的較好,2檢驗有統(tǒng)計學(xué)意義(P0.05)則表示模型擬合的較差。AIC和SC指標還可用于比較模型的優(yōu)劣,當擬合多個模型時,可以將不同模型按其AIC和SC指標值排序,AIC和SC值較小者一般認為擬合得更好。 6、擬合方程的注意事項:     進行方程擬合對自變量篩選采用逐步選擇法前進法(forw

10、ard)、后退法(backward)、逐步回歸法(step wise)時,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準;     小樣本檢驗水準定為0.10或0.15,大樣本把定為0.05。值越小說明自變量選取的標準越嚴;     在逐步回歸的時可根據(jù)需要放寬或限制進入方程的標準,或硬性將最感興趣的研究變量選入方程;     強影響點記錄的選擇:從理論上講,每一個樣本點對回歸模型的影響應(yīng)該是同等的,實際并非如此。有些樣本點(記錄)對回歸模型影

11、響很大。對由過失或錯誤造成的點應(yīng)刪去,沒有錯誤的強影響點可能和自變量與應(yīng)變量的相關(guān)有關(guān),不可輕易刪除。     多重共線性的診斷(SPSS中的指標):a容許度:越近似于0,共線性越強;b特征根:越近似于0,共線性越強;c條件指數(shù):越大,共線性越強;     異常點的檢查:主要包括特異點(outher)、高杠桿點(high leverage points)以及強影響點(influential points)。特異點是指殘差較其他各點大得多的點;高杠桿點是指距離其他樣品較遠的點;強影響點是指對模型有

12、較大影響的點,模型中包含該點與不包含該點會使求得的回歸系數(shù)相差很大。單獨的特異點或高杠桿點不一定會影響回歸系數(shù)的估計,但如果既是特異點又是高杠桿點則很可能是一個影響回歸方程的“有害”點。對特異點、高杠桿點、強影響點診斷的指標有Pearson殘差、Deviance殘差、杠桿度統(tǒng)計量H(hat matrix diagnosis)、Cook 距離、DFBETA、Score檢驗統(tǒng)計量等。這五個指標中,Pearson殘差、Deviance殘差可用來檢查特異點,如果某觀測值的殘差值>2,則可認為是一個特異點。杠桿度統(tǒng)計量H可用來發(fā)現(xiàn)高杠桿點, H值大的樣品說明距離其他樣品較遠,可

13、認為是一個高杠桿點。Cook 距離、DFBETA指標可用來度量特異點或高杠桿點對回歸模型的影響程度。Cook距離是標準化殘差和杠桿度兩者的合成指標,其值越大,表明所對應(yīng)的觀測值的影響越大。DFBETA指標值反映了某個樣品被刪除后logistic回歸系數(shù)的變化,變化越大(即DFBETA指標值越大),表明該觀測值的影響越大。如果模型中檢查出有特異點、高杠桿點或強影響點,首先應(yīng)根據(jù)專業(yè)知識、數(shù)據(jù)收集的情況,分析其產(chǎn)生原因后酌情處理。如來自測量或記錄錯誤,應(yīng)剔除或校正,否則處置就必須持慎重態(tài)度,考慮是否采用新的模型,而不能只是簡單地刪除就算完事。因為在許多場合,異常點的出現(xiàn)恰好是我們探測某些

14、事先不清楚的或許更為重要因素的線索。 7、 回歸系數(shù)符號反常與主要變量選不進方程的原因:      存在多元共線性;      有重要影響的因素未包括在內(nèi);      某些變量個體間的差異很大;      樣本內(nèi)突出點上數(shù)據(jù)誤差大;      變量的變化范圍較?。?     樣本數(shù)太少。8

15、、 參數(shù)意義     Logistic回歸中的常數(shù)項(b0)表示,在不接觸任何潛在危險保護因素條件下,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)值。     Logistic回歸中的回歸系數(shù)(bi)表示,其它所有自變量固定不變,某一因素改變一個單位時,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)變化值,即OR或RR的對數(shù)值。需要指出的是,回歸系數(shù)的大小并不反映變量對疾病發(fā)生的重要性,那么哪種因素對模型貢獻最大即與疾病聯(lián)系最強呢? (InL(t-1)-InL(t)三種方法結(jié)果基本一致。

16、0;    存在因素間交互作用時,Logistic回歸系數(shù)的解釋變得更為復(fù)雜,應(yīng)特別小心。     模型估計出OR,當發(fā)病率較低時,ORRR,因此發(fā)病率高的疾病資料不適合使用該模型。另外,Logistic模型不能利用隨訪研究中的時間信息,不考慮發(fā)病時間上的差異,因而只適于隨訪期較短的資料,否則隨著隨訪期的延長,回歸系數(shù)變得不穩(wěn)定,標準誤增加。9、統(tǒng)計軟件能夠進行l(wèi)ogistic回歸分析的軟件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Est

17、imation and Testing Package)等。二、logistic回歸模型的建立 1、實際的例子:在一次住房展銷會上,與房地產(chǎn)商簽訂初步購房意向書的共有n=313名顧客。在隨后的3個月的時間內(nèi),只有部分顧客確實購買了房屋。購買房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對表1中的數(shù)據(jù)建立Logistic回歸模型。 序號年家庭收入(萬元)x 簽訂意向書人數(shù)實際購房人數(shù)實際購房比例邏輯變換權(quán)重11.52580.320000-0.753775.44022.532130.406250-0.379497.71933.558260.448276-0.20

18、76414.34544.552220.423077-0.3101512.69255.543200.465116-0.1397610.69866.539220.5641030.2578299.59077.528160.5714290.2876826.85788.521120.5714290.2876825.14399.515100.6666670.6931473.333 表12、 模型的建立:Logistic回歸方程:,i=1,2,.,c (1) (1)式中c為分組數(shù)據(jù)的組數(shù)。本例中,c=9。將以上回歸方程做線性變換,令 (2)式(2)的變換稱為邏輯變換,變換后的線性回歸模型為: (3)式(3)

19、是一個普通的一元線性回歸模型。式(3)沒有給出誤差項的形式,我們認為其誤差項的形式就是做線性變換所需要的形式。對表1中的數(shù)據(jù),算出經(jīng)驗回歸方程為:, (4)判別系數(shù),顯著性檢驗P值0,高度顯著。將式(4)還原為式(1)的Logistic回歸方程為: (5)三、運用模型進行預(yù)測利用式(5)可以對購房比例做預(yù)測,例如,則有=0.590。四、結(jié)果的實際意義這表明在住房展銷會上與房地產(chǎn)商簽訂初步購房意向書的年收入8萬元家庭中,預(yù)計實際購房比例為59%.或者說,一個簽訂初步購房意向書的年收入8萬元的家庭,其購房概率為59%.五、模型的擬合效果分析我們用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,即異方差性并沒有解決。式(3)的回歸模型不是等方差的,應(yīng)該對式(3),用加權(quán)最小二乘估計。當較大,的近似方差為: (6),其中,因而選取權(quán)數(shù):,(7)對例題重新用加權(quán)最小二乘做估計。利用SPSS軟件操作,點選分析回歸線性回歸,因變量:邏輯變換;自變量:年家庭收入;WLS權(quán)重:權(quán)重。得到結(jié)果如下:模型匯總b,c模型RR 方調(diào)整 R 方標準 估計的誤差Durbin-Watson1.939a.881.8642.42822.059a. 預(yù)測變量: (常量), 邏輯變換。b. 因變量: 年家庭收入xc. 加權(quán)的最小二乘回歸 - 按 權(quán)重w 進行加權(quán)Ano

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論