第8章:Logistic回歸分析_第1頁
第8章:Logistic回歸分析_第2頁
第8章:Logistic回歸分析_第3頁
第8章:Logistic回歸分析_第4頁
第8章:Logistic回歸分析_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第第8 8章章 Logistic Logistic回歸分析回歸分析二元二元LogisticLogistic回歸回歸無序多分類無序多分類LogisticLogistic回歸回歸有序多分類有序多分類LogisticLogistic回歸回歸 線性回歸模型的一個局限性是要求因變量是定量變量(定距線性回歸模型的一個局限性是要求因變量是定量變量(定距變量、定比變量)而不能是定性變量(定序變量、定類變量)。變量、定比變量)而不能是定性變量(定序變量、定類變量)。但是在許多實際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)但是在許多實際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)的情況。的情況。 可用于處理分類

2、因變量的統(tǒng)計分析方法有:判別分別可用于處理分類因變量的統(tǒng)計分析方法有:判別分別( (Discriminant analysis) )、Probit 分析、分析、Logistic 回歸分析和對回歸分析和對數(shù)線性模型等。在社會科學(xué)中,應(yīng)用最多是數(shù)線性模型等。在社會科學(xué)中,應(yīng)用最多是Logistic回歸分析?;貧w分析。 Logistic 回歸分析根據(jù)因變量取值類別不同,又可以分為二回歸分析根據(jù)因變量取值類別不同,又可以分為二元元 Logistic 回歸分析和多元回歸分析和多元 Logistic 回歸分析。回歸分析。第一節(jié)第一節(jié) 二元二元LogisticLogistic回歸回歸 現(xiàn)實世界中,經(jīng)常需要判

3、斷一些事情是否將要發(fā)生,候選人現(xiàn)實世界中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會當(dāng)選,為什么一些人易患冠心病,為什么一些人生意會是否會當(dāng)選,為什么一些人易患冠心病,為什么一些人生意會獲得成功。獲得成功。 這些問題的特點是因變量只有兩個值,發(fā)生(是)或不發(fā)生這些問題的特點是因變量只有兩個值,發(fā)生(是)或不發(fā)生(否)。這就要求建立的模型必須保證因變量的取值是(否)。這就要求建立的模型必須保證因變量的取值是0 0、1 1??墒谴蠖鄶?shù)模型的因變量值常常處于一個實數(shù)集中,與因變量可是大多數(shù)模型的因變量值常常處于一個實數(shù)集中,與因變量只有兩個值的要求相悖。因為一般回歸分析要求直接預(yù)測因變只有兩個值

4、的要求相悖。因為一般回歸分析要求直接預(yù)測因變量的數(shù)值,要求因變量呈現(xiàn)正態(tài)分布,并且要求各組中具有相量的數(shù)值,要求因變量呈現(xiàn)正態(tài)分布,并且要求各組中具有相同的方差同的方差協(xié)方差矩陣。協(xié)方差矩陣。 本節(jié)介紹對因變量數(shù)據(jù)假設(shè)要求不高,并且可以用來預(yù)測具本節(jié)介紹對因變量數(shù)據(jù)假設(shè)要求不高,并且可以用來預(yù)測具有兩分特點的因變量概率的統(tǒng)計方法有兩分特點的因變量概率的統(tǒng)計方法 二元邏輯斯諦二元邏輯斯諦(Binary (Binary Logistic)Logistic)回歸模型?;貧w模型。一、一、Logistic 回歸模型回歸模型1 1、 Logistic 模型模型 在二元邏輯斯諦回歸中可以直接預(yù)測觀測量相對于

5、某一事件在二元邏輯斯諦回歸中可以直接預(yù)測觀測量相對于某一事件的發(fā)生概率。的發(fā)生概率。 設(shè)因變量為設(shè)因變量為 y,其取值,其取值 1 1 表示事件發(fā)生,取值表示事件發(fā)生,取值 0 0 表示事件不表示事件不發(fā)生。發(fā)生。( (因變量具有二分的特點,自變量是分類變量或等間隔測度的變量因變量具有二分的特點,自變量是分類變量或等間隔測度的變量) ) 記事件發(fā)生的條件概率為:記事件發(fā)生的條件概率為:iipxyP)1( 包含包含 k 個自變量的回歸模型可以寫為:個自變量的回歸模型可以寫為:kkkkxxxxxxieep22110221101kkkkxxxxxxieep2211022110111其中:其中:pi

6、表示第表示第 i 個觀測中事件發(fā)生的概率,個觀測中事件發(fā)生的概率,1-1-pi 表示第表示第 i 個觀個觀測中事件不發(fā)生的概率。測中事件不發(fā)生的概率。 事件發(fā)生與不發(fā)生之比被稱為事件的發(fā)生比,簡記為事件發(fā)生與不發(fā)生之比被稱為事件的發(fā)生比,簡記為OddOdd。用公式表示:用公式表示: 2 2、Logistic 回歸系數(shù)回歸系數(shù)kkxxepp1101Odd Odd 為一正數(shù),并且沒有上界。為一正數(shù),并且沒有上界。kkxxpp1101ln 對對 Odd Odd 做對數(shù)變換,就能得到做對數(shù)變換,就能得到 Logistic Logistic 回歸模型的線性回歸模型的線性形式:形式: 可以看出可以看出 L

7、ogistic 回歸系數(shù)可以理解為一個單位自變量的回歸系數(shù)可以理解為一個單位自變量的變化對比率的對數(shù)的改變值。變化對比率的對數(shù)的改變值。 由發(fā)生比可以看出,當(dāng)?shù)谟砂l(fā)生比可以看出,當(dāng)?shù)?i 個自變量發(fā)生一個單位的變化時,個自變量發(fā)生一個單位的變化時,發(fā)生比的變化值為發(fā)生比的變化值為 Exp(Exp(bi) )。自變量的系數(shù)為正值,意味著事。自變量的系數(shù)為正值,意味著事件發(fā)生的幾率會增加,件發(fā)生的幾率會增加,Exp(Exp(bi) )的值大于的值大于1 1;變量的系數(shù)為負值,;變量的系數(shù)為負值,意味著事件發(fā)生的幾率會減少,意味著事件發(fā)生的幾率會減少,Exp(Exp(bi) )的值小于的值小于1 1

8、。 極大似然法的基本思想是先建立似然函數(shù),然后求使得似然極大似然法的基本思想是先建立似然函數(shù),然后求使得似然函數(shù)達到最大的參數(shù)估計值。函數(shù)達到最大的參數(shù)估計值。 3 3、Logistic 回歸模型的參數(shù)估計回歸模型的參數(shù)估計niyiyiiippL11)1 ( 對對 Logistic 回歸模型的參數(shù)估計可以采用極大似然法或者迭回歸模型的參數(shù)估計可以采用極大似然法或者迭代法。代法。 對于已有樣本,可建立樣本的似然函數(shù)為:對于已有樣本,可建立樣本的似然函數(shù)為:niiiiipypyL1)1ln()1 (lnln 樣本的對數(shù)似然函數(shù)為:樣本的對數(shù)似然函數(shù)為: 根據(jù)極大似然原理,對根據(jù)極大似然原理,對 l

9、nL L 求一階導(dǎo)數(shù)并令其為求一階導(dǎo)數(shù)并令其為0 0,再用,再用 Newton-Raphson 迭代方法求解,得到參數(shù)估計值及其標準誤。迭代方法求解,得到參數(shù)估計值及其標準誤。niikkiiixxxyL122110)(ln將將 pi 代入得:代入得:)exp(1ln(22110ikkiixxx logistic logistic回歸方程求解參數(shù)是采用極大似然估計方法,因此回歸方程求解參數(shù)是采用極大似然估計方法,因此其回歸方程的整體檢驗通過似然函數(shù)值其回歸方程的整體檢驗通過似然函數(shù)值( ( Likelihood ) )。 4 4、 Logistic 回歸的評價及統(tǒng)計檢驗回歸的評價及統(tǒng)計檢驗 對對

10、于整體模型的檢驗于整體模型的檢驗 所謂似然函數(shù)值表達的是一種概率,即在假設(shè)擬合模型為真所謂似然函數(shù)值表達的是一種概率,即在假設(shè)擬合模型為真實情況時能夠觀察到這一特定樣本數(shù)據(jù)的概率,因此這個函數(shù)實情況時能夠觀察到這一特定樣本數(shù)據(jù)的概率,因此這個函數(shù)值處于值處于0,10,1之間。之間。 因為似然函數(shù)值取自然對數(shù)后在數(shù)學(xué)處理上更為方便,而且因為似然函數(shù)值取自然對數(shù)后在數(shù)學(xué)處理上更為方便,而且似然函數(shù)值是個極小的小數(shù),其對數(shù)值是個負數(shù),所以通常對似然函數(shù)值是個極小的小數(shù),其對數(shù)值是個負數(shù),所以通常對似然函數(shù)值先取自然對數(shù)再乘以似然函數(shù)值先取自然對數(shù)再乘以 -2 -2 以后應(yīng)用。以后應(yīng)用。 SPSS S

11、PSS中就是報告這一指標,標志為中就是報告這一指標,標志為“-2 -2 對數(shù)似然值對數(shù)似然值( (可縮寫可縮寫為為-2LL)-2LL)”。報告值越大,意味著回歸方程的似然值越小,標志。報告值越大,意味著回歸方程的似然值越小,標志模型的擬合程度越差。模型的擬合程度越差。報告值越小報告值越小,意味著回歸方程的似然值,意味著回歸方程的似然值越接近越接近1 1,標志,標志模型的擬合程度越好模型的擬合程度越好。 在模型完全擬合觀察值的情況下,有似然值等于在模型完全擬合觀察值的情況下,有似然值等于1 1,那么似,那么似然值的對數(shù)等于然值的對數(shù)等于0 0。越接近。越接近0 0,模型擬合效果越好。,模型擬合效

12、果越好。 在評價或檢驗一個含有自變量的在評價或檢驗一個含有自變量的 Logistic 回歸模型時,通?;貧w模型時,通常是將其與截距模型相比較。是將其與截距模型相比較。 所謂截距模型,就是將所有自變量刪除后只剩一個截距系數(shù)所謂截距模型,就是將所有自變量刪除后只剩一個截距系數(shù)的模型(的模型(logit p= =a)。)。具體操作方法是:具體操作方法是:定義截距模型為定義截距模型為L L0 0,作為參照模型;,作為參照模型;定義假設(shè)模型為定義假設(shè)模型為L Lx ;計算比率計算比率似然比似然比( (Likelihood - Ratio) )xLLLR0檢驗兩者之比是否顯著區(qū)別于檢驗兩者之比是否顯著區(qū)別

13、于1 1。 當(dāng)似然比等于當(dāng)似然比等于1 1時,意味著這些自變量完全沒有解釋效果,時,意味著這些自變量完全沒有解釋效果,而似然比顯著小于而似然比顯著小于 1 1 時則說明這些自變量對于因變量變化的解時則說明這些自變量對于因變量變化的解釋有顯著的貢獻。釋有顯著的貢獻。 以截距模型作為標準,比較在加入其他自變量后新的模型與以截距模型作為標準,比較在加入其他自變量后新的模型與數(shù)據(jù)的擬合水平是否有顯著提高。數(shù)據(jù)的擬合水平是否有顯著提高。 為在統(tǒng)計上檢驗顯著性,需要知道似然比的抽樣分布。然而為在統(tǒng)計上檢驗顯著性,需要知道似然比的抽樣分布。然而我們不知道似然比服從什么分布。但是可以證明似然比的一個我們不知道

14、似然比服從什么分布。但是可以證明似然比的一個函數(shù)近似地服從于卡方分布,即:函數(shù)近似地服從于卡方分布,即:)(ln220pLLx 如果在如果在SPSS中進行中進行Logistic回歸時定義了自變量,那么回回歸時定義了自變量,那么回歸報告便會自動給出上面這兩項計算值。歸報告便會自動給出上面這兩項計算值。常用的三種卡方統(tǒng)計量分別為:模型、塊、步驟。常用的三種卡方統(tǒng)計量分別為:模型、塊、步驟。 “模型模型”統(tǒng)計量:檢驗除常數(shù)項以外,模型中所有變量系統(tǒng)計量:檢驗除常數(shù)項以外,模型中所有變量系數(shù)為零的假設(shè)。數(shù)為零的假設(shè)。 “塊塊”卡方統(tǒng)計量為當(dāng)前卡方統(tǒng)計量為當(dāng)前 -2LL-2LL 值與后一組變量進入后的值

15、與后一組變量進入后的 -2LL-2LL值之差。如果選擇了多組變量,那么值之差。如果選擇了多組變量,那么“塊塊”卡方值用來對卡方值用來對最后一組變量為最后一組變量為 0 0 的零假設(shè)進行檢驗。的零假設(shè)進行檢驗。 “步驟步驟”卡方值是當(dāng)前與下一步卡方值是當(dāng)前與下一步 -2LL-2LL 之間的差值。用來之間的差值。用來對最后一個加入模型的變量系數(shù)為對最后一個加入模型的變量系數(shù)為 0 0 的零假設(shè)進行檢驗。的零假設(shè)進行檢驗。 當(dāng)前模型的當(dāng)前模型的 -2LL-2LL 與模型中只包括常數(shù)項的與模型中只包括常數(shù)項的 -2LL-2LL 之差。之差。 回歸系數(shù)的檢驗回歸系數(shù)的檢驗 SPSSSPSS軟件在執(zhí)行軟件

16、在執(zhí)行 Logistic 回歸時除報告回歸系數(shù)回歸時除報告回歸系數(shù)i 的估計的估計值以外,還自動報告關(guān)于其統(tǒng)計檢驗量。值以外,還自動報告關(guān)于其統(tǒng)計檢驗量。 Wald Wald 統(tǒng)計量是用來檢驗偏回歸系數(shù)顯著程度的,它是偏回統(tǒng)計量是用來檢驗偏回歸系數(shù)顯著程度的,它是偏回歸系數(shù)與自由度的函數(shù),服從于卡方分布。其計算公式為:歸系數(shù)與自由度的函數(shù),服從于卡方分布。其計算公式為: WaldWald 檢驗值越大表明該自變量的作用越顯著。同一行的檢驗值越大表明該自變量的作用越顯著。同一行的SigSig就是就是 WaldWald 檢驗的顯著度檢驗的顯著度性概率。性概率。) 1 (.222iSESBWaldi

17、WaldWald 統(tǒng)計量的弱點是當(dāng)回歸系數(shù)的絕對值變大時,其標準統(tǒng)計量的弱點是當(dāng)回歸系數(shù)的絕對值變大時,其標準誤將發(fā)生更大的改變,誤將發(fā)生更大的改變,WaldWald 值值就會變得很小,導(dǎo)致拒絕回歸系就會變得很小,導(dǎo)致拒絕回歸系數(shù)的數(shù)的0 0假設(shè)失敗,即認為變量的回歸系數(shù)為假設(shè)失敗,即認為變量的回歸系數(shù)為0 0。 SPSSSPSS軟件沒有給出軟件沒有給出 Logistic 回歸的標準化系數(shù),如果要考慮回歸的標準化系數(shù),如果要考慮自變量的重要性,不妨直接比較自變量的重要性,不妨直接比較 WaldWald 統(tǒng)計量,統(tǒng)計量,WaldWald 值值大者顯大者顯著性高,也就更重要著性高,也就更重要。 6

18、 6、Logistic 回歸的參數(shù)設(shè)置回歸的參數(shù)設(shè)置 依次單擊依次單擊SPSSSPSS軟件軟件“分析分析回歸回歸二元二元Logistic”Logistic”命令,進命令,進入入 Logistic 回歸對話框如下:回歸對話框如下: 5 5、逐步回歸中的變量篩選、逐步回歸中的變量篩選 Logistic 逐步逐步回歸的變量篩選過程與現(xiàn)行逐步回歸過程極為回歸的變量篩選過程與現(xiàn)行逐步回歸過程極為相似,但不再是相似,但不再是 F F 統(tǒng)計量,而是似然比統(tǒng)計量和統(tǒng)計量,而是似然比統(tǒng)計量和WaldWald統(tǒng)計量統(tǒng)計量 例如使用似然比統(tǒng)計量例如使用似然比統(tǒng)計量 作為變量的篩選標作為變量的篩選標準,在進行到第準,

19、在進行到第 l 步時,通過比較含有步時,通過比較含有 Xj 和不含和不含 Xj 的模型,決的模型,決定定 Xj 是否引入模型。是否引入模型。)ln(ln2)(1)(1llLLG 協(xié)變量:用于從變量列表中選入?yún)f(xié)變量。協(xié)變量:用于從變量列表中選入?yún)f(xié)變量。 選擇變量:用于選入一個對樣本篩選變量,只有滿足條選擇變量:用于選入一個對樣本篩選變量,只有滿足條件的觀測記錄才會進入回歸方程。件的觀測記錄才會進入回歸方程。 方法:用于指定協(xié)變量進入回歸模型的方法。方法:用于指定協(xié)變量進入回歸模型的方法。SPSSSPSS給出給出了了7 7種可選方案:種可選方案:l進入:強迫進入法,協(xié)變量全部進入模型。進入:強迫進

20、入法,協(xié)變量全部進入模型。l向前向前: :條件條件向前逐步法向前逐步法( (條件似然比條件似然比) ),變量引入的根據(jù)是得,變量引入的根據(jù)是得分統(tǒng)計量的顯著性水平,變量被剔除的依據(jù)是條件參數(shù)估計所分統(tǒng)計量的顯著性水平,變量被剔除的依據(jù)是條件參數(shù)估計所得的似然比統(tǒng)計量的概率值。得的似然比統(tǒng)計量的概率值。l向前向前:LR:LR向前逐步法向前逐步法( (似然比似然比) ),變量引入的根據(jù)是得分統(tǒng)計,變量引入的根據(jù)是得分統(tǒng)計量的顯著性水平;變量被剔除的依據(jù)是最大偏似然估計所得的量的顯著性水平;變量被剔除的依據(jù)是最大偏似然估計所得的似然比統(tǒng)計量的概率值。似然比統(tǒng)計量的概率值。l向前向前:Wald:Wal

21、d向前逐步法向前逐步法(Wald(Wald法法) ),變量引入的根據(jù)是得分統(tǒng),變量引入的根據(jù)是得分統(tǒng)計量的顯著性水平;變量被剔除的依據(jù)是計量的顯著性水平;變量被剔除的依據(jù)是WaldWald統(tǒng)計量概率值。統(tǒng)計量概率值。l向后向后: :條件條件向后前逐步法向后前逐步法( (條件似然比條件似然比) ),將變量剔除的依據(jù),將變量剔除的依據(jù)是條件參數(shù)估計所得的似然比統(tǒng)計量的概率值。是條件參數(shù)估計所得的似然比統(tǒng)計量的概率值。變量設(shè)置變量設(shè)置 因變量:用于從變量列表中選擇一個二分量作為因變量因變量:用于從變量列表中選擇一個二分量作為因變量 l向后向后:LR:LR向后前逐步法向后前逐步法( (似然比似然比)

22、),將變量剔除的依據(jù)是最大,將變量剔除的依據(jù)是最大偏似然估計所得的似然是統(tǒng)計量的概率值。偏似然估計所得的似然是統(tǒng)計量的概率值。lB B向后向后:Wald:Wald向后逐步法向后逐步法(Wald(Wald法法) ),將變量剔除的依據(jù)是,將變量剔除的依據(jù)是WaldWald統(tǒng)計量的概率值。統(tǒng)計量的概率值。對分類變量設(shè)置對分類變量設(shè)置 單擊單擊“分類分類”按鈕,彈出對話框如下所示:按鈕,彈出對話框如下所示: 協(xié)變量:顯示當(dāng)前可用的協(xié)變量。協(xié)變量:顯示當(dāng)前可用的協(xié)變量。 分類協(xié)變量:顯示當(dāng)前選擇的分類變量。分類協(xié)變量:顯示當(dāng)前選擇的分類變量。 更改對比:用于選擇分類協(xié)變量各水平的對照方式。更改對比:用于

23、選擇分類協(xié)變量各水平的對照方式。 保存的設(shè)置保存的設(shè)置 單擊單擊“保存保存”按鈕,彈出對話框如下所示:按鈕,彈出對話框如下所示: 預(yù)測值:保存模型預(yù)測值。概率預(yù)測值:保存模型預(yù)測值。概率事件發(fā)生的預(yù)測概率;事件發(fā)生的預(yù)測概率;組成員組成員根據(jù)預(yù)測概率得到的每個觀測的預(yù)測分類。根據(jù)預(yù)測概率得到的每個觀測的預(yù)測分類。 殘差殘差 影響影響:保存對單個觀測記錄進行預(yù)測時的有影響力指標。:保存對單個觀測記錄進行預(yù)測時的有影響力指標。 lCook距離:表示把一個個案從計算回歸系數(shù)的樣本中去除時距離:表示把一個個案從計算回歸系數(shù)的樣本中去除時所引起的殘差變化的大小,所引起的殘差變化的大小,CookCook距

24、離越大,表明該個案對回歸距離越大,表明該個案對回歸系數(shù)的影響越大。系數(shù)的影響越大。l杠桿值:用來衡量單個觀測對效果的影響程度,取值范圍在杠桿值:用來衡量單個觀測對效果的影響程度,取值范圍在0n/(n-1)0n/(n-1),取,取0 0時表示當(dāng)前記錄對模型的擬合無影響。時表示當(dāng)前記錄對模型的擬合無影響。lDfBeta(s)DfBeta(s),剔除一個個案后回歸系數(shù)的改變。,剔除一個個案后回歸系數(shù)的改變。l未標準化殘差,觀測值與預(yù)測值之差。未標準化殘差,觀測值與預(yù)測值之差。lLogit,殘差除以,殘差除以“預(yù)測概率預(yù)測概率 (1-(1-預(yù)測概率預(yù)測概率)”)”。l學(xué)生化殘差,用殘差除以殘差標準差的

25、估計值。學(xué)生化殘差,用殘差除以殘差標準差的估計值。l標準化殘差,其均值為標準化殘差,其均值為0 0,標準差為,標準差為1 1。l偏差,基于模型變異的殘差。偏差,基于模型變異的殘差。選項的設(shè)置選項的設(shè)置 單擊單擊“選項選項”按鈕,彈出對話框如下所示:按鈕,彈出對話框如下所示: 【例例8.18.1】在在HosmerHosmer和和LemeshowLemeshow于于19891989年研究了低出生體重年研究了低出生體重嬰兒的影響因素,結(jié)果變量為是否娩出低出生體重兒嬰兒的影響因素,結(jié)果變量為是否娩出低出生體重兒( (變量名為變量名為LOWLOW。值為。值為1 1:低出生體重,即嬰兒出生體重:低出生體重

26、,即嬰兒出生體重25002500克;值為克;值為0 0:非低出生體重非低出生體重) ),希望篩選出低出生體重兒的影響因素,考慮產(chǎn),希望篩選出低出生體重兒的影響因素,考慮產(chǎn)婦妊娠前體重婦妊娠前體重(lwt)(lwt)、產(chǎn)婦年齡、產(chǎn)婦年齡(age)(age)、產(chǎn)婦在妊娠期間是否吸、產(chǎn)婦在妊娠期間是否吸煙煙(smoke)(smoke)、種族等。數(shù)據(jù)文件為、種族等。數(shù)據(jù)文件為“例例8.1”8.1”。 如果考察產(chǎn)婦是否吸煙為低出生體重兒關(guān)系,則四格表為:如果考察產(chǎn)婦是否吸煙為低出生體重兒關(guān)系,則四格表為:31.2%18959130合計40.5%743044吸煙(1)25.2%1152986不吸煙(0)低

27、出生體重(1)正常(0)低出生率合計低出生體重兒產(chǎn)婦在妊娠期間是否吸煙 該資料如果擬合該資料如果擬合Logistic回歸模型,則結(jié)果為:回歸模型,則結(jié)果為:塊塊0 0:起始塊:起始塊塊塊1 1:方法:方法= =輸入輸入smokePLogit704. 0087. 1(低體重兒) 常數(shù)項:表示自變量全為常數(shù)項:表示自變量全為0(0(稱基線狀態(tài)稱基線狀態(tài)) )時,比數(shù)時,比數(shù)(Y=1(Y=1與與Y=0Y=0的概率之比的概率之比) )的自然對數(shù),本例為:的自然對數(shù),本例為:087. 18629ln1158611529ln0即不吸煙的低體重兒概率和正常兒概率之比的自然對數(shù)。即不吸煙的低體重兒概率和正常兒

28、概率之比的自然對數(shù)。 自變量的回歸系數(shù):自變量的回歸系數(shù):表示自變量每改變一個單位,優(yōu)勢表示自變量每改變一個單位,優(yōu)勢比的自然對數(shù)值該變量,本例為:比的自然對數(shù)值該變量,本例為: 【例例8.28.2】在一次關(guān)于公共交通的社會調(diào)查中,一個調(diào)查項在一次關(guān)于公共交通的社會調(diào)查中,一個調(diào)查項目是目是“是乘坐公共汽車上下班,還是騎自行車上下班是乘坐公共汽車上下班,還是騎自行車上下班”。因變。因變量量y=1=1表示主要乘坐公共汽車上下班,表示主要乘坐公共汽車上下班,y=0=0表示主要騎自行車上表示主要騎自行車上下班。自變量下班。自變量 x1 1 是年齡,作為連續(xù)型變量;是年齡,作為連續(xù)型變量;x2 2 是

29、月收入是月收入( (元元) ); x3 3 是性別,是性別,x3 3=1=1表示男性,表示男性,x3 3=0=0表示女性。調(diào)查對象為工薪族表示女性。調(diào)查對象為工薪族群體,數(shù)據(jù)見下表。試建立群體,數(shù)據(jù)見下表。試建立 y 與自變量間的與自變量間的Logistic回歸?;貧w。704. 086294430ln1而而exp(exp() )即優(yōu)勢比,自變量每變化一個單位,陽性結(jié)果出現(xiàn)概即優(yōu)勢比,自變量每變化一個單位,陽性結(jié)果出現(xiàn)概率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)。本例為:率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)。本例為:即不吸煙的低體重兒概率和正常兒概率之比的自然對數(shù)。即不吸煙的低體重兒概

30、率和正常兒概率之比的自然對數(shù)。02. 2)704. 0exp(表示吸煙狀況每增加一個單位,即從不吸煙改為吸煙時,吸煙表示吸煙狀況每增加一個單位,即從不吸煙改為吸煙時,吸煙組的比值相對于不吸煙組的比值的倍數(shù)。組的比值相對于不吸煙組的比值的倍數(shù)。 由此可以得出結(jié)論,在妊娠期間抽煙由此可以得出結(jié)論,在妊娠期間抽煙(smoke=1)(smoke=1)的孕婦會比的孕婦會比不吸煙的女性更容易分娩出低出生體重兒。不吸煙的女性更容易分娩出低出生體重兒。 依次單擊依次單擊“分析分析回歸回歸二元二元Logistic”Logistic”命令,進入命令,進入Logistic回歸對話框如下所示:回歸對話框如下所示: 利

31、用利用SPSSSPSS軟件進行估計的步驟如下:軟件進行估計的步驟如下:將將x1 1、x2 2、x3 3 送入送入“協(xié)變量協(xié)變量”中;中;點擊點擊 保存保存 ,做如下選擇:,做如下選擇:點擊點擊 選項選項 ,做如下選擇:,做如下選擇:點擊點擊 確定確定 ,系統(tǒng)輸出以下結(jié)果:,系統(tǒng)輸出以下結(jié)果:得分(得分(Score)Score)計算公式如下:計算公式如下:niiniiijxxyyyyxScore121)()1 ()( 上表中上表中x3 3( (性別性別) )、x1 1( (年齡年齡) )、x2 2( (月收入月收入) )是是3 3個自變量,個自變量,WalsWals是回歸系數(shù)檢驗的統(tǒng)計量值是回歸

32、系數(shù)檢驗的統(tǒng)計量值: :2jj2)(D.E. SBWaldSig是是Wald檢驗的顯著性概率??梢钥吹?,檢驗的顯著性概率??梢钥吹?,x2 2( (月收入月收入) )不顯著。不顯著。采用采用“進入進入”回歸,輸出結(jié)果見下表:回歸,輸出結(jié)果見下表: 可以看到,可以看到,x1 1 (年齡年齡)、x3 3 (性別性別)兩個自變量都是顯著的,因兩個自變量都是顯著的,因而最終的回歸方程為:而最終的回歸方程為: )224. 2102. 0629. 2exp(1)224. 2102. 0629. 2exp(3131xxxxpi 根據(jù)以上方程式可知:根據(jù)以上方程式可知: 年齡越高乘車的比例也越高;年齡越高乘車的

33、比例也越高; 女性乘公共汽車的比例高于男性。女性乘公共汽車的比例高于男性。 【例例8.38.3】研究研究銀行客戶的貸款拖欠問題。通過分析銀行掌銀行客戶的貸款拖欠問題。通過分析銀行掌握的一些客戶資料和交易信息,推斷指定客戶的預(yù)期信譽。數(shù)握的一些客戶資料和交易信息,推斷指定客戶的預(yù)期信譽。數(shù)據(jù)格式如下:據(jù)格式如下: 本例數(shù)據(jù)集中的前本例數(shù)據(jù)集中的前700700個案例是先前申請過貸款的用戶,將個案例是先前申請過貸款的用戶,將利用其中的一個隨機樣本擬合一個二元邏輯回歸模型,然后用利用其中的一個隨機樣本擬合一個二元邏輯回歸模型,然后用擬合的模型對后擬合的模型對后150150名預(yù)期用戶進行信譽分類。名預(yù)期

34、用戶進行信譽分類。 因變量為是否拖欠因變量為是否拖欠( (default) ),取值為,取值為0(0(No) )時,表示沒有時,表示沒有拖欠貸款;取值為拖欠貸款;取值為1(1(Yes) )時,表示有拖欠貸款。時,表示有拖欠貸款。抽取分析樣本抽取分析樣本 指定隨機種子。依次單擊指定隨機種子。依次單擊“轉(zhuǎn)換轉(zhuǎn)換隨機數(shù)字生成器隨機數(shù)字生成器” 命令,打開生成隨機數(shù)的設(shè)置界面。輸命令,打開生成隨機數(shù)的設(shè)置界面。輸91919729191972 計算篩選變量。依次單擊計算篩選變量。依次單擊“轉(zhuǎn)換轉(zhuǎn)換計算變量計算變量”命令。命令。在在“目標變量目標變量”處輸入變量名處輸入變量名“validate”;在;在“

35、數(shù)字表達式數(shù)字表達式” 編輯框輸入編輯框輸入 rv.bernoulli(0.7)(0.7)。單擊左下角的。單擊左下角的“如果如果”并輸入并輸入 Missing(default)=0變量設(shè)置變量設(shè)置 將是否拖欠變量將是否拖欠變量( (default) )作為因變量選入作為因變量選入“因變量因變量”框,框,將從年齡至其他債務(wù)將從年齡至其他債務(wù)8 8個變量作為協(xié)變量選入個變量作為協(xié)變量選入“協(xié)變量協(xié)變量”列表框。列表框。選中選中“向前向前:LR”,單擊,單擊 “validate” 進入進入“選擇變量選擇變量”框,單擊框,單擊“規(guī)則規(guī)則”,選中選中“等于等于”選項,輸入選項,輸入1 1。分類變量設(shè)置分

36、類變量設(shè)置 在變量列表中選中教育水平變量,將其作為分類變量。在變量列表中選中教育水平變量,將其作為分類變量。保存設(shè)置保存設(shè)置 勾選勾選:“:“概率概率”、“學(xué)生化學(xué)生化”、“Cook距離距離”和和“包含協(xié)包含協(xié)方差矩陣方差矩陣”復(fù)選框。復(fù)選框。選項設(shè)置選項設(shè)置 勾選勾選:“:“分類圖分類圖”和和“Hosmer-Lemeshow擬合度擬合度”復(fù)選框。復(fù)選框。 單擊單擊“確定確定”,系統(tǒng)輸出以下結(jié)果:,系統(tǒng)輸出以下結(jié)果: 上表中上表中 Cox and Snell R Cox and Snell R 方和方和 Nagelkerke R Nagelkerke R 方兩個統(tǒng)計方兩個統(tǒng)計量取代了線性回歸中

37、的量取代了線性回歸中的 R R 方統(tǒng)計量。方統(tǒng)計量。 本例中他們的取值分別為本例中他們的取值分別為 0.281 0.281 和和 0.4170.417,只看這一點,只看這一點,模型擬合的并不理想。模型擬合的并不理想。 這兩個統(tǒng)計量一般用于不同模型之間的比較,這兩個統(tǒng)計量一般用于不同模型之間的比較,R R 方值越大的方值越大的模型,擬合的效果越好。模型,擬合的效果越好。 Hosmer 和和 Lemeshow 檢驗表格的原假設(shè)為:模型能夠很檢驗表格的原假設(shè)為:模型能夠很好擬合數(shù)據(jù)。好擬合數(shù)據(jù)。 從軟件運行結(jié)果看:顯著性檢驗的從軟件運行結(jié)果看:顯著性檢驗的Sig=0.855=0.855 結(jié)論:結(jié)論:

38、接受原假設(shè),認為模型能夠很好擬合數(shù)據(jù)。接受原假設(shè),認為模型能夠很好擬合數(shù)據(jù)。 Hosmer 和和 Lemeshow 檢驗的隨機性表格根據(jù)目標變量的預(yù)檢驗的隨機性表格根據(jù)目標變量的預(yù)測概率,把結(jié)果分為大致相等的測概率,把結(jié)果分為大致相等的1010個組。個組。 “總計總計”列中是每組的觀測數(shù),由于預(yù)測值相等的觀測被分列中是每組的觀測數(shù),由于預(yù)測值相等的觀測被分到一起,所以各組的觀測數(shù)不一定相同。到一起,所以各組的觀測數(shù)不一定相同。 此表直觀地反映了模型預(yù)測的效果,可以看出各組的觀測值此表直觀地反映了模型預(yù)測的效果,可以看出各組的觀測值和預(yù)測值大致相同,所以模型的擬合效果不錯。和預(yù)測值大致相同,所以

39、模型的擬合效果不錯。 上表給出了觀測值和預(yù)測值的列聯(lián)表,預(yù)測概率大于上表給出了觀測值和預(yù)測值的列聯(lián)表,預(yù)測概率大于0.50.5,預(yù)測為預(yù)測為YesYes;反之預(yù)測為;反之預(yù)測為NoNo。 對于最終模型,建模用的對于最終模型,建模用的124124個拖欠用戶中有個拖欠用戶中有5757個判斷正確,個判斷正確,正確率為正確率為46.0%46.0%;建模用的;建模用的375375個無拖欠用戶中有個無拖欠用戶中有352352個判斷正確,個判斷正確,正確率為正確率為93.9%93.9%;總的回判正確率為;總的回判正確率為82.0%82.0%,這說明模型的預(yù)測,這說明模型的預(yù)測效果不錯,尤其是對那些無拖欠的用

40、戶的預(yù)測。效果不錯,尤其是對那些無拖欠的用戶的預(yù)測。 上表中上表中Wald統(tǒng)計量的統(tǒng)計量的Sig值全部小于值全部小于0.050.05,說明參數(shù)估計值,說明參數(shù)估計值都顯著地不為都顯著地不為0 0。利用該模型,就可以對。利用該模型,就可以對150150名預(yù)期用戶進行信名預(yù)期用戶進行信譽分類。譽分類。 Exp(B)表示在其它情況不變的條件下,某個自變量變動表示在其它情況不變的條件下,某個自變量變動 1 1 個單位而引起的發(fā)生比個單位而引起的發(fā)生比 Odd 的變化率。的變化率。 該圖為預(yù)測概率的直方圖。橫軸為對拖欠貸款概率的預(yù)測該圖為預(yù)測概率的直方圖。橫軸為對拖欠貸款概率的預(yù)測概率值,縱軸為觀測的頻

41、數(shù)。符號概率值,縱軸為觀測的頻數(shù)。符號Y Y代表拖欠,代表拖欠,N N代表不拖欠。代表不拖欠。 如果模型對原數(shù)據(jù)成功進行了模擬,則發(fā)生拖欠貸款的觀如果模型對原數(shù)據(jù)成功進行了模擬,則發(fā)生拖欠貸款的觀測應(yīng)分布在圖形的右側(cè),其它觀測應(yīng)分布在圖形的左側(cè)。測應(yīng)分布在圖形的右側(cè),其它觀測應(yīng)分布在圖形的左側(cè)。 本例總體來看,模型的擬合效果不錯。本例總體來看,模型的擬合效果不錯。 該圖為學(xué)生化殘差的平方對預(yù)測概率的散點圖。圖中縱軸該圖為學(xué)生化殘差的平方對預(yù)測概率的散點圖。圖中縱軸取值較大的點表示模型對這些點的擬合效果較差。取值較大的點表示模型對這些點的擬合效果較差。 由低到高的曲線代表的是因變量取由低到高的曲

42、線代表的是因變量取0 0的觀測的殘差的變化,的觀測的殘差的變化,說明這類觀測的預(yù)測概率越大,擬合效果越差。說明這類觀測的預(yù)測概率越大,擬合效果越差。 該圖為該圖為CookCook距離對預(yù)測概率的散點圖。圖中有較少的幾個距離對預(yù)測概率的散點圖。圖中有較少的幾個奇異值,它們的奇異值,它們的CookCook值都很大,可能影響了分析,可以進一步值都很大,可能影響了分析,可以進一步對它們進行單獨研究。對它們進行單獨研究。第二節(jié)第二節(jié) 無序多分類無序多分類LogisticLogistic回歸回歸一、模型簡介一、模型簡介 無序多分類的無序多分類的 Logistic 回歸模型用于分析因變量為無序多分回歸模型用

43、于分析因變量為無序多分類的情況。類的情況。kkxxxpp1212111041ln 對于多分類的對于多分類的 Logistic Logistic 回歸,模型首先會定義因變量的某回歸,模型首先會定義因變量的某一個水平為參照水平一個水平為參照水平(SPSS(SPSS默認取值水平大的為參照水平默認取值水平大的為參照水平) ),其,其他水平各與其相比,建立他水平各與其相比,建立“水平數(shù)水平數(shù)-1”-1”個廣義個廣義 Logit Logit 模型。模型。 以以 4 4 水平因變量為例,其取值水平分別為:水平因變量為例,其取值水平分別為:1 1、2 2、3 3、4 4,對于對于 k 個自變量擬合個自變量擬合

44、 3 3 個廣義個廣義 Logit 回歸模型:回歸模型:kkxxxpp2222121042lnkkxxxpp3232131043ln 顯然,同時應(yīng)當(dāng)有:顯然,同時應(yīng)當(dāng)有:p1 1+ +p2 2+ +p3 3+ +p4 4=1,=1,且可以看出且可以看出Y=4Y=4為參照水為參照水平。平。二、無序多分變量的二、無序多分變量的Logistic回歸過程回歸過程 點擊點擊“分析分析回歸回歸多項多項 Logistic,出現(xiàn)下列對話框:,出現(xiàn)下列對話框: 選擇一個因變量送入選擇一個因變量送入“因變量因變量”框中。一般情況下系統(tǒng)默認框中。一般情況下系統(tǒng)默認因變量的最后一類作為參考類,若要改變單擊因變量的最后

45、一類作為參考類,若要改變單擊“參考類別參考類別”。選擇一個或多個分組變量送入選擇一個或多個分組變量送入“因子因子”框中。在左側(cè)的源變量框中。在左側(cè)的源變量框中選擇一個或多個連續(xù)變量作為協(xié)變量送入框中選擇一個或多個連續(xù)變量作為協(xié)變量送入“協(xié)變量協(xié)變量”框中??蛑小?1 1、變量設(shè)置、變量設(shè)置 單擊單擊“模型模型”按鈕,顯示如下對話框:按鈕,顯示如下對話框: 2 2、模型設(shè)置、模型設(shè)置 3 3、統(tǒng)計量設(shè)置、統(tǒng)計量設(shè)置 4 4、收斂標準設(shè)置、收斂標準設(shè)置 單擊單擊“條件條件”按鈕,顯示如下對話框:按鈕,顯示如下對話框: 5 5、選項設(shè)置、選項設(shè)置 單擊單擊“選項選項”按鈕,顯示如下對話框:按鈕,顯示

46、如下對話框: 6 6、保存設(shè)置、保存設(shè)置三、多分變量的三、多分變量的LogisticLogistic回歸分析實例回歸分析實例 【例例8.48.4】19921992年美國總統(tǒng)選舉的數(shù)據(jù)。年美國總統(tǒng)選舉的數(shù)據(jù)。Pres92(Pres92(投票對象:投票對象:1 1、布什;、布什;2 2、帕羅特;、帕羅特;3 3、克林頓、克林頓) )、sex(sex(性別:性別:1 1、男;、男;0 0、女、女) )、age(age(年齡年齡) )、agecat(agecat(年齡分類年齡分類) )、educ(educ(受教育年限受教育年限) )、degree(degree(學(xué)歷學(xué)歷) )。分析選民投票情況。分析選

47、民投票情況。 選擇選擇 pres92 進入進入“因變量因變量”框,將框,將 degreen、sex 進入進入“因因子子”列表框,操作結(jié)果顯示如下:列表框,操作結(jié)果顯示如下:1 1、建立、建立 Logistic Logistic 回歸模型回歸模型單擊單擊“確定確定”,結(jié)果如下:,結(jié)果如下:)2(deg431. 0) 1(deg387. 0reeree)0(deg198. 0) 1(458. 0805. 0)int()(lnreesexonClpBushpLogit模型:模型:) 3(deg424. 0ree2 2、計算預(yù)測概率、計算預(yù)測概率 根據(jù)所建立的模型可以計算某個選民對每個候選人投票的可根

48、據(jù)所建立的模型可以計算某個選民對每個候選人投票的可能性。例如,具有學(xué)士學(xué)位的男性選民投票給各候選人的可能能性。例如,具有學(xué)士學(xué)位的男性選民投票給各候選人的可能性。性。估算估算 3 3 個模型的值個模型的值077. 0424. 0458. 0805. 0)int()(ln1onClpBushpg624. 0804. 0760. 0188. 2)int()(ln2onClpPerotpg0)int()int(ln3onClponClpg計算每一類的概率值計算每一類的概率值jkkiigggroupp1exp()exp()(412. 0154. 008. 108. 1)(Bushp382. 0154.

49、 008. 11)int(onClp206. 0154. 008. 154. 0)(Perotp計算每一類的概率值計算每一類的概率值jkkiigggroupp1exp()exp()( 數(shù)據(jù)中有數(shù)據(jù)中有160160名男性具有學(xué)士學(xué)位的選民,由此可以判斷:名男性具有學(xué)士學(xué)位的選民,由此可以判斷:其中有其中有6666人會投人會投BushBush的票,的票,3333人會投人會投PerotPerot的票,的票,6161人會投人會投ClintonClinton的票的票 【例例8.58.5】為研究胃癌及癌前病變核仁組織變化情況,分析為研究胃癌及癌前病變核仁組織變化情況,分析核仁組成區(qū)嗜銀蛋白核仁組成區(qū)嗜銀蛋

50、白(AgNoR)(AgNoR)顆粒數(shù)量顆粒數(shù)量( (x1 1分為分為1 1、2 2、3)3)及大小及大小( (x2 2分為分為1 1、2 2、3)3)在胃炎、不典型增生和胃癌在胃炎、不典型增生和胃癌( (id分為分為1 1、2 2、3)3)中中的變化規(guī)律以及臨床的診斷意義,共檢測的變化規(guī)律以及臨床的診斷意義,共檢測129129例患者,檢測結(jié)果例患者,檢測結(jié)果如下表:如下表:230023339122014238010113741401832621521922503031240815233130118192120099111id=3id=2id=1freqx2x1g癌變不典型增生胃炎頻數(shù)顆粒大小顆

51、粒數(shù)分層 建立數(shù)據(jù)文件:例建立數(shù)據(jù)文件:例4.sav4.sav。 1 1、對頻數(shù)變量、對頻數(shù)變量 freq 進行加權(quán)進行加權(quán) 2 2、進行多元、進行多元Logistic分析分析 選擇選擇“數(shù)據(jù)數(shù)據(jù)加權(quán)個案加權(quán)個案”,出現(xiàn)下列對話框:,出現(xiàn)下列對話框: 單擊單擊“分析分析回歸回歸多元多元 Logistic,出現(xiàn)下列對話框:,出現(xiàn)下列對話框: 單擊單擊“確定確定”,得到以下結(jié)果:,得到以下結(jié)果: Logit模型:模型:211714. 3012.10563.27)3() 1(lnxxidpidpG212938. 1721. 4205.16)3()2(lnxxidpidpG x1 1 的系數(shù)都是負的,說明顆粒數(shù)少,胃炎和不典型增生發(fā)的系數(shù)都是負的,說明顆粒數(shù)少,胃炎和不典型增生發(fā)生的概率大于癌變;生的概率大于癌變;x2 2 的系數(shù)都是負的,說明顆粒越小,胃炎的系數(shù)都是負的,說明顆粒越小,胃炎和不典型增生發(fā)生的概率大于癌變。和不典型增生發(fā)生的概率大于癌變。 預(yù)測總的符合率為預(yù)測總的符合率為85.3%85.3%。第三節(jié)第三節(jié) 有序多分類有序多分類LogisticLogistic回歸回歸一、模型簡介一、模型簡介 有序多分類的資料,如城市競爭力等級可以劃分為高、中、有序多分類的資料,如城市競爭力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論