logistic回歸介紹_第1頁(yè)
logistic回歸介紹_第2頁(yè)
logistic回歸介紹_第3頁(yè)
logistic回歸介紹_第4頁(yè)
logistic回歸介紹_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、logistic 回歸介紹之三 logistic 回歸的應(yīng)用條件logistic回歸與多重線性回歸一樣,在應(yīng)用之前也是需要分析一下資料是否可以采用logistic回歸模型。并不是說(shuō)因變量是分類變量我就可以直接采用logistic回歸,有些條件仍然是需要考慮的。首要的條件應(yīng)該是需要看一下自變量與因變量之間是什么樣的一種關(guān)系。多重線性回歸中,要求自變量與因變量符合線性關(guān)系。而logistic回歸則不同,它要求的是自變量與logit(p)符合線性關(guān)系,所謂logit實(shí)際上就是ln(P/1-P)。也就是說(shuō),自變量應(yīng)與ln(P/1-P)呈線性關(guān)系。當(dāng)然,這種情形主要針對(duì)多分類變量和連續(xù)變量。對(duì)于二分類變

2、量就無(wú)所謂了,因?yàn)閮牲c(diǎn)永遠(yuǎn)是一條直線。這里舉一個(gè)例子。某因素y與自變量x之間關(guān)系分析,y為二分類變量,x為四分類變量。如果x的四分類直接表示為1,2,3,4。則分析結(jié)果為p=0.07,顯示對(duì)y的影響在0.05水準(zhǔn)時(shí)無(wú)統(tǒng)計(jì)學(xué)意義,而如果將x作為虛擬變量,以1為參照,產(chǎn)生x2,x3,x4三個(gè)變量,重新分析,則結(jié)果顯示:x2,x3,x4的p值分別為0.08,0.05和0.03。也就是說(shuō),盡管2和1相比無(wú)統(tǒng)計(jì)學(xué)意義,但3和1相比,4和1相比,均有統(tǒng)計(jì)學(xué)意義。為什么會(huì)產(chǎn)生如此結(jié)果?實(shí)際上如果仔細(xì)分析一下,就可以發(fā)現(xiàn),因?yàn)閤與logit(y)并不是呈線性關(guān)系。而是呈如下圖的關(guān)系:這就是導(dǎo)致上述差異的原因。

3、從圖中來(lái)看,x的4與1相差最大,其次是2,3與1相差最小。實(shí)際分析結(jié)果也是如此,上述分析中,x2,x3,x4產(chǎn)生的危險(xiǎn)度分別為3.1,2.9,3.4。因此,一開始x以1,2,3,4的形式直接與y進(jìn)行分析,默認(rèn)的是認(rèn)為它們與logit(p)呈直線關(guān)系,而實(shí)際上并非如此,因此掩蓋了部分信息,從而導(dǎo)致應(yīng)有的差異沒(méi)有被檢驗(yàn)出來(lái)。而一旦轉(zhuǎn)換為虛擬變量的形式,由于虛擬變量都是二分類的,我們不再需要考慮其與logit(p)的關(guān)系,因而顯示出了更為精確的結(jié)果。最后強(qiáng)調(diào)一下,如果你對(duì)自變量x與y的關(guān)系不清楚,在樣本含量允許的條件下,最好轉(zhuǎn)換為虛擬變量的形式,這樣不至于出現(xiàn)太大的誤差。如果你不清楚應(yīng)該如何探索他們

4、的關(guān)系,也可以采用虛擬變量的形式,比如上述x,如果轉(zhuǎn)換的虛擬變量x2,x3,x4他們的OR值呈直線關(guān)系,那x基本上可以直接以1,2,3,4的形式直接與y進(jìn)行分析。而我們剛才也看到了,x2,x3,x4的危險(xiǎn)度分別為3.1,2.9,3.4。并不呈直線關(guān)系,所以還是考慮以虛擬變量形式進(jìn)行分析最好??傊摂M變量在logistic回歸分析中是非常有利的工具,善于利用可以幫助你探索出很多有用的信息。統(tǒng)計(jì)的分析策略是一個(gè)探索的過(guò)程,只要留心,你就會(huì)發(fā)現(xiàn)在探索數(shù)據(jù)關(guān)系的過(guò)程中充滿了樂(lè)趣,因?yàn)槟隳馨l(fā)現(xiàn)別人所發(fā)現(xiàn)不了的隱藏的信息。希望大家多學(xué)點(diǎn)統(tǒng)計(jì)分析策略,把統(tǒng)計(jì)作為一種藝術(shù),在分析探索中找到樂(lè)趣。SPSS 學(xué)

5、習(xí)筆記之二項(xiàng) Logistic 回歸分析(2012-08-1814:38:17)轉(zhuǎn)載標(biāo)簽:分類:SPSSspsslogistic 回歸統(tǒng)計(jì)一、概述Logistic回歸主要用于因變量為分類變量(如疾病的緩解、不緩解,評(píng)比中的好、中、差等)的回歸分析,自變量可以為分類變量,也可以為連續(xù)變量。他可以從多個(gè)自變量中選出對(duì)因變量有影響的自變量,并可以給出預(yù)測(cè)公式用于預(yù)測(cè)。因變量為二分類的稱為二項(xiàng)logistic回歸,因變量為多分類的稱為多元logistic回歸。下面學(xué)習(xí)一下Odds、OR、RR的概念:在病例對(duì)照研究中,可以畫出下列的四格表:暴露因素病例對(duì)照日,非暴露Odds:稱為比值、比數(shù),是指某事件發(fā)

6、生的可能性(概率)與不發(fā)生的可能性(概率)之比。在病例對(duì)照研究中病例組的暴露比值為:oddsl=(a/(a+c)/(c(a+c)=a/c對(duì)照組的暴露比值為:odds2=(b/(b+d)/(d/(b+d)=b/dOR:比值比,為:病例組的暴露比值(odds1)/X 寸照組的暴露比值(odds2)=ad/bc換一種角度,暴露組的疾病發(fā)生比值:oddsl=(a/(a+b)/(b(a+b)=a/b非暴露組的疾病發(fā)生比值:odds2=(c/(c+d)/(d/(c+d)=c/dOR=odds1/odds2=ad/bc與之前的結(jié)果一致OR的含義與相對(duì)危險(xiǎn)度相同,指暴露組的疾病危險(xiǎn)性為非暴露組的多少倍。OR1

7、說(shuō)明疾病的危險(xiǎn)度因暴露而增加,暴露與疾病之間為“正”關(guān)聯(lián);OR1說(shuō)明疾病的危險(xiǎn)度因暴露而減少,暴露與疾病之間為“負(fù)”關(guān)聯(lián)。還應(yīng)計(jì)算OR的置信區(qū)間,若區(qū)間跨1,一般說(shuō)明該因素?zé)o意義。關(guān)聯(lián)強(qiáng)度大致如下:OR值聯(lián)系強(qiáng)度0.9-1.01.0-1.1無(wú)0.7-0.81.2-1.4弱(前者為負(fù)關(guān)聯(lián),后者為正關(guān)聯(lián))0.4-0.61.5-2.9中等(同上)0.1-0.33.0-9.0強(qiáng)(同上)0.110.0以上很強(qiáng)(同上)RR:相對(duì)危險(xiǎn)度(relativerisk)的本質(zhì)為率比(rateratio)或危險(xiǎn)比(riskratio),即暴露組與非暴露組發(fā)病率之比,或發(fā)病的概率之比。但是病例對(duì)照研究不能計(jì)算發(fā)病率,

8、所以病例對(duì)照研究中只能計(jì)算 OR。當(dāng)人群中疾病的發(fā)病率或者患病率很小時(shí),OR 近似等于 RR,可用 OR 值代替 RR。不同發(fā)病率情況下,OR 與 RR 的關(guān)系圖如下:IncidenceArnanqtheNonexpos弓口bloc-siriskcorn,cn/u/i153355774當(dāng)發(fā)病率1 時(shí),OR 高估了 RR,當(dāng) ORF轉(zhuǎn)換w的1少H彷3白噫巴魄J庭由雷幫眄時(shí).國(guó)”口,怛固斯戢iI甲 i 中說(shuō)件用盤 I目殍爽玨中:裝甲展送女丁/存口洲ji 融甘暮年歸 md工群 krnolun6屆左耳用佰 dcH 嗣/涼 JQ 收入 HNgq|/tfttiftAltdr*iK花用率攵青:zre 北在此

9、,注地質(zhì)餐出北附*是否甄攵賭益【會(huì)加肥6丫刈*點(diǎn)擊確定,完成變量計(jì)算2、統(tǒng)計(jì)菜單選擇卜lid泡*:二二.BBBBBBBBBBa a: :88HBB88HBBS SHHSa3HHSa3由 Mg 型學(xué)法量力-8F 與聿邛心8F 書拄二旬三期用 IH 日股期 eme 由眼稟悻/變,舊.轉(zhuǎn)換分析g)直銷出)圖/(包實(shí)用程序窗口也)希助addrC705625023n報(bào)告描逑統(tǒng)計(jì)衰(T)比較均值國(guó))一般線性福蟹廠義線性模型混合模型理)相關(guān)&)回歸回對(duì)默線性根空(2)神經(jīng)網(wǎng)絡(luò)分類舊筮曲aI亡Cfeddebtothdebt9.3011365.017.301364005.50S62172.902.66,

10、827301.793。aH雌 33函曲魄估計(jì)&.1回部分最公平方4,二元Logistic.3RHi進(jìn)入如下的對(duì)話框(下文稱“主界面”):將“是否拖欠貸款default”作為因變量選入“因變量”框中。將其與變量選入“協(xié)變量”框中,下方的“方法”下拉菜單選擇“向前:LR”(即前向的最大似然法,選擇變量篩選的方法,條件法和最大似然法較好,慎用Wald法)。將“validate”變量選入下方的“選擇變量”框。點(diǎn)擊“選擇變量”框后的“規(guī)則”按鈕,進(jìn)入定義規(guī)則對(duì)話框:E3Loeistic區(qū)定義選擇規(guī)則validateLocistic回歸等于值5hlI設(shè)置條件為“validated”,點(diǎn)擊“繼續(xù)”按

11、鈕返回主界面:點(diǎn)擊右上角“分類”按鈕,進(jìn)入如下的對(duì)話框:該對(duì)話框用來(lái)設(shè)置自變量中的分類變量,左邊的為剛才選入的協(xié)變量,必須將所有分類變量選入右邊的“分類協(xié)變量框中”。本例中只有“教育程度ed”為分類變量,將它選入右邊框中,下方的“更改對(duì)比”可以默認(rèn)。點(diǎn)擊“繼續(xù)”按鈕返回主界面?;氐街鹘缑婧簏c(diǎn)擊“選項(xiàng)”按鈕,進(jìn)入對(duì)話框::.:!Lnsistic回歸:選項(xiàng)統(tǒng)計(jì)量和圖unaii!Binvt-fiBiimiiar分類國(guó)VHosrn即LeEShcw擬合度1H)迭代田史記錄Q)回),卜離群值。所有個(gè)案-輸出荏每個(gè)步驟中但)在最后 T步驟中(口在模型中包括后數(shù)值取捎幫助勾選“分類圖”和“Hosmer-Lem

12、eshow擬合度”復(fù)選框, 輸出欄中選擇“在最后一個(gè)步驟中”,其余參數(shù)默認(rèn)即可?!癏osmer-Lemeshow擬合度”能較好的檢驗(yàn)該模型的擬合程度。點(diǎn)擊繼續(xù)回到主界面,點(diǎn)擊“確定”輸出結(jié)果。四、結(jié)果分析估計(jì)值的相關(guān)性舊),;.個(gè)案的豉差列表)加日的GKX);標(biāo)漉差步進(jìn)艱軍進(jìn)入典x叵三|刪除。:Tin分類標(biāo)唯值電).京火迭代汶數(shù)網(wǎng)X20磅加瞿的事冽*hl百分比再定軍的包恬在分析中rQD1Q0,G裝裝案例00Si+70D1DQ0匍康定的案留C&目計(jì)70010009 鄴曾孜仃鵬,也甘見牙菸晨以我 H 宴網(wǎng)總粗*打黜通向由值W。II1制舞變*ifi 錯(cuò)MX更磔壟的40(2)網(wǎng)他酒水平Didn

13、tfftompiek 一曲由 0。13721000o 的CM040HighschooldecreeI3Booo10 時(shí)900oooSom21 伯電S7D00阿1000喻 0Collegedegree相ooaOftGaoo1.000Poibunaargraduteaaore5m。Q9QOQQg以上是案例處理摘要及變量的編碼模型匯總-2時(shí)熱似數(shù)值Cox&SnellR力NagelkerkeRh4&56.Z323.,298.436a因?yàn)樵诟夜烙?jì)的更改范圍小F.001*所以拈計(jì)在迭鼠次數(shù)6處終止口上表是關(guān)于模型擬合度的檢驗(yàn)。這用Cox&SnellR方和NegelkerkeR方代替

14、了線性回歸中的R方,他們呢的值越接近1,說(shuō)明擬合度越好,這個(gè)他們分別為0.298和0.436,單純看這一點(diǎn),似乎模型的擬合度不好,但是該參數(shù)主要是用于模型之間的對(duì)比。=Hosmer 和 Lcmeshow 檢驗(yàn)=步驟卡方dfSig.48.5568381這是H-L檢驗(yàn)表,P=0.3810.05接受0假設(shè),認(rèn)為該模型能很好擬合數(shù)據(jù)Hosmer 和 Lemesh檢除的舐機(jī)件上是言拖欠款No是方幡父道就二腌總計(jì)己觀測(cè)j朋明伯蛔個(gè)伯一山線417069669033170269685541.4467036466.53953.4617046463.521664797056559.692510.308706505

15、5.1412014.859707484gol52220.984708434T0002729.00070g3230.-1703839,53070101213.3975856,60370H-L檢驗(yàn)的隨機(jī)性表,比較觀測(cè)值與期望值,表中觀測(cè)值與期望值大致相同,可以直觀的認(rèn)為,該模型擬合度較好G 另起 u二 MTK 陽(yáng)。分比桂正W 也Vi).J4”1:隊(duì)陽(yáng);Nr?思訃白仃”47a抬39被S35314IJaD*加相由史的蜜初.舊此.山時(shí)桿*逸丘的事擱舉玨美b.L.;.-1;.I;J?.曲Wm柜E白1c.L:.丁工爐俯皿ml日E1d.I.I;sno這個(gè)是最終模型的預(yù)測(cè)結(jié)果列聯(lián)表。在700例數(shù)據(jù)中進(jìn)行預(yù)測(cè),在

16、未拖欠貸款的478+39=517例中,有478例預(yù)測(cè)正確, 正確率92.5%;在91+92=183例拖欠貸款的用戶中, 有92例預(yù)測(cè)正確, 正確率50.3%??偟恼_率81.4%??梢钥闯鲈撃P蛯?duì)于非拖欠貸款者預(yù)測(cè)效果較好。力器中的殳AtaSEfMs曲Exp 網(wǎng)-型 enrplcy-.243J02S741ST00 丁-785addrews-.0*1C2C17143i000.H22debtincmeJ19zees?1,OT01.092cruddebt.573OB?43109*0001774A3*H252gg就1002a.rA4y;這是最終擬合的結(jié)果,四個(gè)變量入選,P值均一一一_-匚T五d 巨,岳-*匚匚一 i_2匚一一,.一_._,一一-匚 iw_ISA_三 4rr-rraf1fQ8M二匚二-_*、*一一七二;二匚Pb6.2/1.5.:.ft&1Crw!ffiKiKMra 皿 ffliNsm 國(guó) 0間加出 gEiioiffi 國(guó) BoftfflamsMnrmmmYYrrmTmnrrmrmrrmYmTmmnnmnrrr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論