二分類Logistic回歸模型_第1頁
二分類Logistic回歸模型_第2頁
二分類Logistic回歸模型_第3頁
二分類Logistic回歸模型_第4頁
二分類Logistic回歸模型_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、二分類Logistic回歸模型在對資料進行統(tǒng)計分析時常遇到反響變量為分類變量的資料,那么,能否用類似于線性回歸的模型來對這種資料進行分析呢?答案是肯定的。本章將向大家介紹對二分類因變量進行回歸建模的Logistic回歸模型。 第一節(jié) 模型簡介一、模型入門在很多場合下都能碰到反響變量為二分類的資料,如考察公司中總裁級的領(lǐng)導(dǎo)層中是否有女性職員、某一天是否下雨、某病患者結(jié)局是否痊愈、調(diào)查對象是否為某商品的潛在消費者等。對于分類資料的分析,相信大家并不陌生,當(dāng)要考察的影響因素較少,且也為分類變量時,分析者常用列聯(lián)表(contingency Table)的形式對這種資料進行整理,并使用檢驗來進行分析,漢

2、存在分類的混雜因素時,還可應(yīng)用Mantel-Haenszel檢驗進行統(tǒng)計學(xué)檢驗,這種方法可以很好地控制混雜因素的影響。但是這種經(jīng)典分析方法也存在局限性,首先,它雖然可以控制假設(shè)干個因素的作用,但無法描述其作用大小及方向,更不能考察各因素間是否存在交互任用;其次,該方法對樣本含量的要求較大,當(dāng)控制的分層因素較多時,單元格被劃分的越來越細,列聯(lián)表的格子中頻數(shù)可能很小甚至為0,將導(dǎo)致檢驗結(jié)果的不可靠。最后,檢驗無法對連續(xù)性自變量的影響進行分析,而這將大大限制其應(yīng)用范圍,無疑是其致使的缺陷。那么,能否建立類似于線性回歸的模型,對這種數(shù)據(jù)加以分析?以最簡單的二分類因變量為例來加以探討,為了討論方便,常定

3、義出現(xiàn)陽性結(jié)果時反響變量取值為1,反之那么取值為0 。例如當(dāng)領(lǐng)導(dǎo)層有女性職員、下雨、痊愈時反響變量,而沒有女性職員、未下雨、未痊愈時反響變量。記出現(xiàn)陽性結(jié)果的頻率為反響變量。首先,回憶一下標(biāo)準(zhǔn)的線性回歸模型:如果對分類變量直接擬合,那么實質(zhì)上擬合的是發(fā)生概率,參照前面線性回歸方程 ,很自然地會想到是否可以建立下面形式的回歸模型:顯然,該模型可以描述當(dāng)各自變量變化時,因變量的發(fā)生概率會怎樣變化,可以滿足分析的根本要求。實際上,統(tǒng)計學(xué)家們最早也在朝這一方向努力,并考慮到最小二乘法擬合時遇到的各種問題,對計算方法進行了改良,最終提出了加權(quán)最小二乘法來對該模型進行擬合,至今這種分析思路還偶有應(yīng)用。既然

4、可以使用加權(quán)最小二乘法對模型加以估計,為什么現(xiàn)在又放棄了這種做法呢?原因在于有以下兩個問題是這種分析思路所無法解決的:1取值區(qū)間:上述模型右側(cè)的取值范圍,或者說應(yīng)用上述模型進行預(yù)報的范圍為整 個實數(shù)集,而模型的左邊的取值范圍為,二者并不相符。模型本身不能保證在自變量的各種組合下,因變量的估計值仍限制在01內(nèi),因此可能分析者會得到這種荒唐的結(jié)論:男性、30歲、病情較輕的患者被治愈的概率是300%!研究者當(dāng)然可以將此結(jié)果等價于100%可以治愈,但是從數(shù)理統(tǒng)計的角度講,這種模型顯然是極不嚴(yán)謹?shù)摹?曲線關(guān)聯(lián):根據(jù)大量的觀察,反響變量P與自變量的關(guān)系通常不是直線關(guān)系,而是S型曲線關(guān)系。這里以收入水平和購

5、車概率的關(guān)系來加以說明,當(dāng)收入非常低時,收入的增加對購置概率影響很??;但是在收入到達某一閾值時,購置概率會隨著收入的增加而迅速增加;在購置概率到達一定水平,絕大局部在該收入水平的人都會購車時,收入增加的影響又會逐漸減弱。如果用圖形來表示,那么如圖1所示。顯然,線性關(guān)聯(lián)是線性回歸中至關(guān)重要的一個前提假設(shè),而在上述模型中這一假設(shè)是明顯無法滿足的。圖1 S型曲線圖以上問題促使統(tǒng)計學(xué)家們不得不尋求新的解決思路,如同在曲線回歸中,往往采用變量變換,使得曲線直線化,然后再進行直線回歸方程的擬合。那么,能否考慮對所預(yù)測的因變量加以變換,以使得以上矛盾得以解決?基于這一思想,又有一大批統(tǒng)計學(xué)家在尋找適宜的變換

6、函數(shù)。終于,在1970年,Cox引入了以前用于人口學(xué)領(lǐng)域的Logit變換(Logit Transformation),成功地解決了上述問題。那么,什么是Logit變換呢?通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比值(odds,國內(nèi)也譯為優(yōu)勢、比數(shù)),即,取其對數(shù)。這就是logit變換。下面來看一下該變換是如何解決上述兩個問題的,首先是因變量取值區(qū)間的變化,概率是以0.5為對稱點,分布在01的范圍內(nèi)的,而相應(yīng)的logit(P)的大小為: 顯然,通過變換,Logit()的取值范圍就被擴展為以0為對稱點的整個實數(shù)域,這使得在任何自變量取值下,對值的預(yù)測均有實際意義。其次,大量實踐證明,Log

7、it()往往和自變量呈線性關(guān)系,換言之,概率和自變量間關(guān)系的S形曲線往往就符合logit函數(shù)關(guān)系,從而可以通過該變換將曲線直線化。因此,只需要以Logit()為因變量,建立包含p個自變量的logistic回歸模型如下:以上即為logistic回歸模型。由上式可推得: 上面三個方程式相互等價。通過大量的分析實踐,發(fā)現(xiàn)logistic回歸模型可以很好地滿足對分類數(shù)據(jù)的建模需求,因此目前它已經(jīng)成為了分類因變量的標(biāo)準(zhǔn)建模方法。通過上面的討論,可以很容易地理解二分類logistic回歸模型對資料的要求是:1反響變量為二分類的分類變量或是某事件的發(fā)生率。2自變量與Logit()之間為線性關(guān)系。3殘差合計為

8、0,且服從二項分布。4各觀測值間相互獨立。由于因變量為二分類,所以logistic回歸模型的誤差應(yīng)當(dāng)服從二項分布,而不是正態(tài)分布。因此,該模型實際上不應(yīng)當(dāng)使用以前的最小二乘法進行參數(shù)估計,上次均使用最大似然法來解決方程的估計和檢驗問題。二、一些根本概念由于使用了logit變換,Logistic模型中的參數(shù)含義略顯復(fù)雜,但有很好的實用價值,為此現(xiàn)對一些根本概念加以解釋。1. 優(yōu)勢比如前所述,人們常把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比值odds,即。兩個比值之比稱為優(yōu)勢比odds Ratio,簡稱OR。首先考察OR的特性:假設(shè),那么假設(shè),那么假設(shè),那么顯然,OR是否大于1可以用作兩種情形下

9、發(fā)生概率大小的比擬。2. Logistic回歸系數(shù)的意義從數(shù)學(xué)上講,和多元回歸中系數(shù)的解釋并無不同,代表改變一個單位時logit(P)的平均改變量,但由于odds的自然對數(shù)即為logit變換,因此Logistic回歸模型中的系數(shù)和OR有著直接的變換關(guān)系,使得Logistic回歸系數(shù)有更加貼近實際的解釋,從而也使得該模型得到了廣泛的應(yīng)用。下面用一個實例加以說明:以4格表資料為例具體說明各回歸系數(shù)的意義:表1 4格表資料治療方法(treat)治療結(jié)果outcome合計治愈率治愈1未治愈0新療法160 (a)21 (c)8174.07%傳統(tǒng)療法042 (b)27 (d)6960.87%合計10248

10、13068.00%該資料如果擬合Logistic回歸模型,那么結(jié)果如下操作步驟詳見后述: 1常數(shù)項:表示自變量取全為0稱基線狀態(tài)時,比數(shù)(Y=1與Y=0的概率之比)的自然對數(shù)值,本例中為,即傳統(tǒng)療法組的治愈率與未治愈率之比的自然對數(shù)值。在不同的研究設(shè)計中,常數(shù)項的具體含義可能不同,如基線狀態(tài)下個體患病率、基線個體發(fā)病率、基線狀態(tài)中病例所占比例等,但這些數(shù)值的大小研究者一般并不關(guān)心。2各自變最的回歸系數(shù):表示自變量每改變一個單位,優(yōu)勢比的自然對數(shù)值改變量,而即OR值,表示自變量每變化一個單位,陽性結(jié)果出現(xiàn)概率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù),即優(yōu)勢比注意:不是出現(xiàn)陽性結(jié)果的概率為變化前

11、的倍數(shù),即優(yōu)勢比并不等同于相對危險度。本例中自變量治療方法的回歸系數(shù),為兩組病人的治愈率與未治愈率之比的對數(shù)值之差,即。因此,對于四格表資料而言,所建立的Logistic回歸模型也可以寫成:由以上關(guān)系可知,表示傳統(tǒng)療法組的治愈率與未治愈之比值。那么表示治療方法增加一個單位,即將療法從傳統(tǒng)療法改為新療法時,新療法組病人治愈率與未治愈率之比值相對于傳統(tǒng)療法組病人的治愈率與未治愈率比值的倍數(shù)。而兩組病人的治愈率之比,并不完全相同。但是,當(dāng)研究結(jié)果出現(xiàn)陽性的概率較小時一般認為小于0.1 ,反之當(dāng)概率大于0.9時亦可,OR值大小和發(fā)生概率之比非常接近,此時可以近似地說一組研究對象的陽性結(jié)果發(fā)生率是另一組

12、研究對象發(fā)生率的OR值倍,即用OR值的大小來挖地表示相對危險度的大小。三、簡單分析實例SPSS中通過regression模塊中的Binary Logistic過程實現(xiàn)結(jié)果變量為二分類的Logistic回歸,下面通過一個實例分析,具體講解相應(yīng)的操作和結(jié)果解釋。例1某醫(yī)師希望研究病人的年齡歲、性別0為女性,1為男性、心電圖檢驗是否異常ST段壓低,0為正常、1為輕度異常、2為重度異常與患冠心病是否有關(guān)。調(diào)用SPSS中的Binary Logistic過程:圖 2 Logistic回歸主對話框本例中涉及的對話框界面如圖9.2所示,注意對話框中部有一個以前未出現(xiàn)過的a*b按鈕、用于納入交互作用,只要先將相

13、應(yīng)變量選中,然后單擊此按鈕,相應(yīng)的交互項就會被納入模型。本例因較為簡單,未用到此功能。性別雖為分類變量,但僅有兩個取值水平,所以可以直接引入模型,結(jié)果仍然可以被正常解釋。結(jié)果如下:首先輸出分析中使用的記錄數(shù)匯總,此處略。表2 Dependent Variable EncodingOriginal ValueInternal Value未患病0患病1 表2為因變量的取值水平編碼,SPSS擬合模型時默認取值水平高的為陽性結(jié)果,對于本例來講,擬合的模型是logit(P|y=患病)。隨后進行模型擬合,首先給出的是模型不含任何自變量,而只有常數(shù)項即無效模型時的輸出結(jié)果,標(biāo)題為:“Block 0

14、: Beginning Block。此時的模型為:表3 Classification Tablea,bObservedPredicted是否患冠心病Percentage Correct未患病患病Step 0是否患冠心病未患病037.0患病041100.0Overall Percentage52.6a. Constant is included in the model.b. The cut value is .500表9.3輸出的是模型中僅含有常數(shù)項見表4時計算的預(yù)測分類結(jié)果,SPSS根據(jù)p值是否大于0.5將觀察對象判斷為是否出現(xiàn)陽性結(jié)果,即是否患冠心病。由于模型中僅含有常

15、數(shù)項,因此所有人的預(yù)測概率均為樣本率估計值P0.5257,將所有的觀察對象均判斷為冠心病。判斷正確率為52.6%,實際上就是全部研究對象的患病率41、780.5256細小差異為四舍五入產(chǎn)生。也就是說,由于當(dāng)前樣本中大局部人為患病,因此當(dāng)模型中不包含任何自變量時,樣本中所有觀察對象皆被預(yù)測為患病, 總的預(yù)測準(zhǔn)確率為52.6%。表4 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0Constant.103.227.2051.6511.108表4輸出結(jié)果中B為模型中未引入自變量時常數(shù)項的估計值,S.E為其標(biāo)準(zhǔn)誤,Wald為Wald,是對總體回歸

16、系數(shù)是否為0進行統(tǒng)計學(xué)檢驗。表格中df為其自由度,Sig.為相應(yīng)的P值。此時的exp(B)為e的次方。其實際意義為總體研究對象患病率與未患病率的比值。即1.1080.5256/0.4744。表5 Variables not in the EquationScoredfSig.Step 0Variablessex6.0211.014ecg7.1111.008age7.7341.005Overall Statistics18.5623.000表5輸出了當(dāng)前未引入模型的變量的比分檢驗Score Test結(jié)果,其意義為向當(dāng)前模型中引入某變量如sex時,該變量回歸系數(shù)是否等于0的比分檢驗假設(shè)。對于取值水

17、平為二分類的自變量來說,得分檢驗的值等于由該自變量與反響變量構(gòu)成的四格表的Pearson?;跓o效模型,現(xiàn)在開始在分析中引入自變量。標(biāo)題為“Block 1:Method=Enter。表6 Omnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step21.1143.000Block21.1143.000Model21.1143.000由于此處尚未涉及變量篩選的問題,模型中會同時引入三個自變量,自由度3,此處的值為似然比值,等于上一步模型中只含有常數(shù)項時的-2log似然比值與當(dāng)前模型的-2log似然比值的差值,參見表6 。本例。表7 M

18、odel SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square186.811a.237.316a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.表7輸出了當(dāng)前模型的-2log似然比值和兩個偽決定系數(shù)“偽,以示與線性回歸模型中的決定系數(shù)相區(qū)別Cox & Snell 和Nagelkerke 。后兩者從不同角度反映了當(dāng)前模型中自戀量解釋了反響變量的變異占

19、反響變量總變異的比例。但對于Logistic回歸而言,通常看到的模型偽決定系數(shù)的大小不像線性回歸模型中的決定系數(shù)那么大。表8 Classification TableaObservedPredicted是否患冠心病Percentage Correct未患病患病Step 1是否患冠心病未患病251267.6患病103175.6Overall Percentage71.8a. The cut value is .500這是應(yīng)用引入三個自變量后重新擬合的回歸模型進行預(yù)測的分類表格,P>0.5判斷為出現(xiàn)陽性結(jié)果。可見已經(jīng)出現(xiàn)了被預(yù)測為未患病的研究對象,此處78例研究對象中共有5625+31例判斷

20、正確,總正確率為56/7871.8%,如表8所示。表9輸出了模型中各自變量的偏回歸系數(shù)及其標(biāo)準(zhǔn)誤、Wald、自由度、P值,及OR值即表格最右側(cè)的Exp(B)。由此可以得出結(jié)論,男性sex=1較女性更容易患冠心病、心電圖異常程度越高,越容易被診斷為冠心病,年齡越大的越容易患冠心病。由于年齡不可能為0 ,這也超出了樣本所觀察的自變量age取值范圍,因此這里的常數(shù)項無實際意義。表9 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1asex1.356.5466.1621.0133.882ecg.873.3845.1621.0232.395age.

21、093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, age.到此為止,可建立如下Logistic回歸方程:或第二節(jié) 分類自變量的定義與比擬方法一、 使用啞變量的必要性在回歸模型中,回歸系數(shù)b表示其他自變量不變,x每改變一個單位時,所預(yù)測的y的平均變化量,當(dāng)x為連續(xù)性變量時這樣解釋沒有問題,二分類變量由于只存在兩個類別間的比擬,也可以對系數(shù)得到很好的解釋,但是當(dāng)x為多分類變量時擬合一個回歸系數(shù)就不太適宜了,此時需要使用啞變量Dummy Variable

22、方式對模型加以定義,為說明該問題,先引入下面的一個實例。例2 Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素。結(jié)果變量為是否娩出低出生體重兒變量名為LOW,1為低出生體重,即嬰兒出生體重<2500g,0為非低出生體重,考慮的影響自變量有:產(chǎn)婦妊娠前體重1 wt,磅、產(chǎn)婦年齡age,歲、產(chǎn)婦在妊娠期間是否吸煙smoke,0未吸、1吸煙、本次妊娠前早產(chǎn)次數(shù)ptl,次、是否患有高血壓ht,0未患,1患病、子宮對按摩、催產(chǎn)素等刺激引起收縮的應(yīng)激性ui,0無、1有、妊娠前三個月社區(qū)醫(yī)生隨訪次數(shù)ftv,次、種族race,1白人,2黑人,3其他民族。本例包含的自變量種類齊全,

23、有連續(xù)性變量、二分類、無序多分類變量。SPSS默認將所有的自變量均視作連續(xù)性變量,如本例,不同種族的變量賦值為1、2、3 ,但這僅是一個代碼而已,并不意味著白人、黑人、其他民族間存在大小次序的關(guān)系,即并非代表產(chǎn)婦娩出低出生體重兒概率的logit(P)會按此順序線性增加或減少。即使是有序多分類變量,如家庭收入分高、中、低三檔,各類別間的差距也是無法準(zhǔn)確衡量的,按編碼數(shù)值來分析實際上就是強行規(guī)定為等距,這顯然可能引入更大的誤差。在以上情況時,就必須將原始的多分類變量轉(zhuǎn)化為數(shù)個啞變量,每個啞變量只代表某兩個級別或假設(shè)干個級別間的差異,這樣得到的回歸結(jié)果才能有明確而合理的實際意義。 圖3 Catego

24、rical子對話框SPSS提供了Categorical按鈕用于指定無序多分類自變量,如圖3所示,對于取值有n個水平的自變量X,默認會產(chǎn)生n-1個啞變量X1,Xn-1,此時以第n個水平為參照水平,SPSS會在分類變量編碼矩陣中輸出具體的賦值情況,矩陣中元素均為“0的那一行表示以該自變量相對應(yīng)的取值水平作為參照水平。例如種族race有三個水平,那么SPSS會產(chǎn)生兩個啞變量:表10 Categorical Variables CodingsFrequencyParameter coding(1)(2)種族白人961.000.000黑人26.0001.000其他種族67.000.000在表10中可以看

25、出,相應(yīng)的兩個啞變量含義如下:race(1)=1 ,白人;0 ,非白人race(2)=1 ,黑人;0 ,非黑人由于兩個啞變量是同時使用的,而只有“其他種族這一類在兩個啞變量中取值都為0,因此當(dāng)同時使用時,實際上兩個啞變量都是以“其他種族作為參照水平。分別對上述啞變量的系數(shù)進行估計,就可以分別得知白人、黑人和參照水平其他種族的差異,而這兩個啞變量的參數(shù)估計值之差就反映了白人和黑人間的差異。例如在本例中如果只分析種族的作用,那么最終的結(jié)果參見表11. 和其他種族相比,白人低出生體重的風(fēng)險較低,而黑人那么風(fēng)險較高,但兩者均無統(tǒng)計學(xué)意義。如果將白人和黑人相比,那么相應(yīng)的系數(shù)為-0.636-0.209-

26、0.845,其OR值為exp(-0.845)=0.43,白人的風(fēng)險要比黑人小得多。顯然,這兩個類別之間有無這差異還需要進行檢驗,而這在表11中是無法直接表達的。表11 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1arace4.9222.085race(1)-.636.3483.3451.067.529race(2).209.471.1971.6571.232Constant-.519.2534.2181.040.595a. Variable(s) entered on step 1: race.表11的輸出中兩個啞變量均無統(tǒng)計學(xué)意義,

27、如果同一分類變量的不同啞變量出現(xiàn)了有些有意義,有些無意義的情形,又該如何處理?首先,結(jié)果中會對分類變量先進行一個總體的檢驗,例如在本例中種族的檢驗其P值為0.085,說明從總體上講,種族應(yīng)當(dāng)對因變量無影響,此時所有的啞變量都不用再納入分析了,總的檢驗比分項的檢驗更有權(quán)威性;如果總的檢驗有差異,而有些啞變量無統(tǒng)計學(xué)意義,那么由于啞變量應(yīng)當(dāng)同進同出,原那么上仍然應(yīng)當(dāng)在模型中納入所有的啞變量,以保證啞變量代表含義的正確性。否那么,剔除局部啞變量將會導(dǎo)致參照水平的變化,從而啞變量的具體含義也會發(fā)生改變。二、 SPSS中預(yù)設(shè)的啞變量編碼方式除以上默認的啞變量比照方式外,SPSS的Categorical

28、子對話框中還提供了其余幾種比照方式:1 .Indicator:指示比照。用于指定某一分類變量的參照水平。這時計算出來的參數(shù)是以該變量的最后一個或第一個水平作為參照水平取決于下面的Reference Category中選擇的是last還是first。在本例中,Reference Category均為last。變量 race以“其他種族作為參照水平。2.Simple:簡單比照。可計算該分類變量的各水平與參照水平相比的值。對于本例來說,Simple與Indicator選項是一樣的,前提是下面的Reference Category中所選擇的同是last或first。3.Difference:差異比照。

29、分類變量某個水平與其前面的所有水平平均值進行比擬。此法與Helmert法相反,因此也叫反Helmert法。如2水平與1水平相比;3水平與1、2水平的平均值相比,以此類推。如果在某水平處系數(shù)變小且無統(tǒng)計學(xué)意義P>0.05,說明該分類變量對風(fēng)險率產(chǎn)生的影響在該水平處到達停滯狀態(tài)。此選擇項一般用于有序的分類變量。對無序多分類變量那么無實際意義。4. Helmert:赫爾默特比照。分類變量某水平與其后面各水平平均值進行比擬。如果在某水平系數(shù)增大且有統(tǒng)計學(xué)意義,說明該分類變量自該水平起開始對風(fēng)險率產(chǎn)生影響。同樣也適用于有序的分類變量。5.Repeated:重復(fù)比照。分類變量的各水平與其前面相鄰的水

30、平相比擬第一水平除外,此時以“前一水平為參照水平。6.Polynomial:多項式比照。僅用于數(shù)字型的分類變量 。無效假設(shè)是假設(shè)各水平是等距離的可以是線性的關(guān)系,也可以是立方、四次方的關(guān)系。例如年齡每增加5歲,娩出低出生體重兒的危險增加幅度是一樣的,但實際情況常常與之相反,例如在20歲與30歲年齡段,年齡都增加5歲,所增加的娩出低出生體重兒的危險肯定是不一樣的,具體情況需要根據(jù)各人的研究課題而定。7.Deviation:離差比照。除了所規(guī)定的參照水平外,其余每個水平均與總體水平相比。此時每個水平的回歸系數(shù)都是相對于總體水平而言的改變量。對于那個參照水平而言,它的回歸系數(shù)可以通過其他n-1個回歸

31、系數(shù)算出來,等于0減去其他幾個水平回歸系數(shù)的代數(shù)和。即些時n個水平的回歸系數(shù)的代數(shù)和為“0。三、設(shè)置啞變量時要注意的問題1.參照水平最好要有實際意義,否那么將會推動比擬的目標(biāo)。如果將一些難以分類的個體放到一起,然后美其名曰“其他,此時往往不知道的某個類別具體在與誰進行比擬,進而導(dǎo)致啞變量的回歸系數(shù)難以解釋。因為不同研究樣本中的“其他往往是不同的,這樣研究結(jié)果之間難以相互進行比擬。2.參照水平組應(yīng)有一定的頻數(shù)作保證。如果參照水平頻數(shù)過少,將導(dǎo)致其他與之相比照的水平參數(shù)估計的標(biāo)準(zhǔn)誤增大,進而置信區(qū)間擴大,精確度降低。有學(xué)者認為,參照水平組的頻數(shù)應(yīng)不少于30例或50例。3.如果不通過Categori

32、cal模型對分類自變量產(chǎn)生啞變量,而是自己通過Compute過程產(chǎn)生,需要注意在逐步回歸篩選自變量時,啞變量應(yīng)該同時進入模型或者同時退出模型。4.對有序自變量的分析。一是從專業(yè)出發(fā),如果認為在不同等級對反響變量的影響程度是一致的,如文化程度每增加一個等級,成為某項時尚消費品潛在消費者的比數(shù)P/1-P的自然對數(shù)增加幅度也相同,這時可以將該變量作為連續(xù)性變量進行處理,這樣得到的模型也更簡潔,結(jié)果的解釋也更方便。當(dāng)專業(yè)上不能給出以上假設(shè)時,那么需要先將該有序變量分別以啞變量和連續(xù)性變量的方式引入模型,觀察各啞變量的回歸系數(shù)間是否存在等級關(guān)系,以及對兩個模型進行似然比檢驗,似然比值等于兩個模型的-2l

33、og(L)之差,自由度為兩個模型中自變量個數(shù)之差,如果似然比檢驗無統(tǒng)計學(xué)意義,且各啞變量的回歸系數(shù)間存在等級關(guān)系,可以將該自變量作為連續(xù)性變量引入模型,否那么最好還是采用啞變量的方式引入模型。第三節(jié) 標(biāo)準(zhǔn)化回歸系數(shù)和回歸模型的擬合優(yōu)度一、標(biāo)準(zhǔn)化回歸系數(shù)與多重線性回歸類似,自變量量綱單位不同,非標(biāo)準(zhǔn)化的logistic回歸系數(shù)不能用于比擬各自變量對事件發(fā)生概率的奉獻大小。欲研究logistic回歸中各變量的相對奉獻,要么事先將各自變量標(biāo)準(zhǔn)化后再作回歸分析,要么對logistic回歸系數(shù)進行標(biāo)準(zhǔn)化。我們可以用極大似然估計的回歸系數(shù)乘以該變量的樣本標(biāo)準(zhǔn)差求得logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù)。 16SPSS軟件可以提供回歸系數(shù)及其變量的樣本標(biāo)準(zhǔn)差,但不能直接得到標(biāo)準(zhǔn)化回歸系數(shù)。在標(biāo)準(zhǔn)化系數(shù)問題上要謹慎,應(yīng)注意標(biāo)準(zhǔn)化的原意是消去不同量綱的影響,增加可比性。對于一些二分類的自變量,不存在量綱問題,那么不宜作標(biāo)準(zhǔn)化。另外,一般不利用標(biāo)準(zhǔn)化回歸系數(shù)估計優(yōu)勢比,因為按標(biāo)準(zhǔn)化回歸系數(shù)所計算的優(yōu)勢比不是變化一個單位,而是變化一個標(biāo)準(zhǔn)差的優(yōu)勢比了。二、回歸模型的擬合優(yōu)度對回歸系數(shù)進行假

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論