第8章:Logistic回歸分析_第1頁(yè)
第8章:Logistic回歸分析_第2頁(yè)
第8章:Logistic回歸分析_第3頁(yè)
第8章:Logistic回歸分析_第4頁(yè)
第8章:Logistic回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第8 8章章 Logistic Logistic回歸分析回歸分析二元二元LogisticLogistic回歸回歸無(wú)序多分類無(wú)序多分類LogisticLogistic回歸回歸有序多分類有序多分類LogisticLogistic回歸回歸 線性回歸模型的一個(gè)局限性是要求因變量是定量變量(定距線性回歸模型的一個(gè)局限性是要求因變量是定量變量(定距變量、定比變量)而不能是定性變量(定序變量、定類變量)。變量、定比變量)而不能是定性變量(定序變量、定類變量)。但是在許多實(shí)際問(wèn)題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)但是在許多實(shí)際問(wèn)題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)的情況。的情況。 可用于處理分類

2、因變量的統(tǒng)計(jì)分析方法有:判別分別可用于處理分類因變量的統(tǒng)計(jì)分析方法有:判別分別( (Discriminant analysis) )、Probit 分析、分析、Logistic 回歸分析和對(duì)回歸分析和對(duì)數(shù)線性模型等。在社會(huì)科學(xué)中,應(yīng)用最多是數(shù)線性模型等。在社會(huì)科學(xué)中,應(yīng)用最多是Logistic回歸分析?;貧w分析。 Logistic 回歸分析根據(jù)因變量取值類別不同,又可以分為二回歸分析根據(jù)因變量取值類別不同,又可以分為二元元 Logistic 回歸分析和多元回歸分析和多元 Logistic 回歸分析?;貧w分析。第一節(jié)第一節(jié) 二元二元LogisticLogistic回歸回歸 現(xiàn)實(shí)世界中,經(jīng)常需要判

3、斷一些事情是否將要發(fā)生,候選人現(xiàn)實(shí)世界中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會(huì)當(dāng)選,為什么一些人易患冠心病,為什么一些人生意會(huì)是否會(huì)當(dāng)選,為什么一些人易患冠心病,為什么一些人生意會(huì)獲得成功。獲得成功。 這些問(wèn)題的特點(diǎn)是因變量只有兩個(gè)值,發(fā)生(是)或不發(fā)生這些問(wèn)題的特點(diǎn)是因變量只有兩個(gè)值,發(fā)生(是)或不發(fā)生(否)。這就要求建立的模型必須保證因變量的取值是(否)。這就要求建立的模型必須保證因變量的取值是0 0、1 1??墒谴蠖鄶?shù)模型的因變量值常常處于一個(gè)實(shí)數(shù)集中,與因變量可是大多數(shù)模型的因變量值常常處于一個(gè)實(shí)數(shù)集中,與因變量只有兩個(gè)值的要求相悖。因?yàn)橐话慊貧w分析要求直接預(yù)測(cè)因變只有兩個(gè)值

4、的要求相悖。因?yàn)橐话慊貧w分析要求直接預(yù)測(cè)因變量的數(shù)值,要求因變量呈現(xiàn)正態(tài)分布,并且要求各組中具有相量的數(shù)值,要求因變量呈現(xiàn)正態(tài)分布,并且要求各組中具有相同的方差同的方差協(xié)方差矩陣。協(xié)方差矩陣。 本節(jié)介紹對(duì)因變量數(shù)據(jù)假設(shè)要求不高,并且可以用來(lái)預(yù)測(cè)具本節(jié)介紹對(duì)因變量數(shù)據(jù)假設(shè)要求不高,并且可以用來(lái)預(yù)測(cè)具有兩分特點(diǎn)的因變量概率的統(tǒng)計(jì)方法有兩分特點(diǎn)的因變量概率的統(tǒng)計(jì)方法 二元邏輯斯諦二元邏輯斯諦(Binary (Binary Logistic)Logistic)回歸模型?;貧w模型。一、一、Logistic 回歸模型回歸模型1 1、 Logistic 模型模型 在二元邏輯斯諦回歸中可以直接預(yù)測(cè)觀測(cè)量相對(duì)于

5、某一事件在二元邏輯斯諦回歸中可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事件的發(fā)生概率。的發(fā)生概率。 設(shè)因變量為設(shè)因變量為 y,其取值,其取值 1 1 表示事件發(fā)生,取值表示事件發(fā)生,取值 0 0 表示事件不表示事件不發(fā)生。發(fā)生。( (因變量具有二分的特點(diǎn),自變量是分類變量或等間隔測(cè)度的變量因變量具有二分的特點(diǎn),自變量是分類變量或等間隔測(cè)度的變量) ) 記事件發(fā)生的條件概率為:記事件發(fā)生的條件概率為:iipxyP)1( 包含包含 k 個(gè)自變量的回歸模型可以寫為:個(gè)自變量的回歸模型可以寫為:kkkkxxxxxxieep22110221101kkkkxxxxxxieep2211022110111其中:其中:pi

6、表示第表示第 i 個(gè)觀測(cè)中事件發(fā)生的概率,個(gè)觀測(cè)中事件發(fā)生的概率,1-1-pi 表示第表示第 i 個(gè)觀個(gè)觀測(cè)中事件不發(fā)生的概率。測(cè)中事件不發(fā)生的概率。 事件發(fā)生與不發(fā)生之比被稱為事件的發(fā)生比,簡(jiǎn)記為事件發(fā)生與不發(fā)生之比被稱為事件的發(fā)生比,簡(jiǎn)記為OddOdd。用公式表示:用公式表示: 2 2、Logistic 回歸系數(shù)回歸系數(shù)kkxxepp1101Odd Odd 為一正數(shù),并且沒有上界。為一正數(shù),并且沒有上界。kkxxpp1101ln 對(duì)對(duì) Odd Odd 做對(duì)數(shù)變換,就能得到做對(duì)數(shù)變換,就能得到 Logistic Logistic 回歸模型的線性回歸模型的線性形式:形式: 可以看出可以看出 L

7、ogistic 回歸系數(shù)可以理解為一個(gè)單位自變量的回歸系數(shù)可以理解為一個(gè)單位自變量的變化對(duì)比率的對(duì)數(shù)的改變值。變化對(duì)比率的對(duì)數(shù)的改變值。 由發(fā)生比可以看出,當(dāng)?shù)谟砂l(fā)生比可以看出,當(dāng)?shù)?i 個(gè)自變量發(fā)生一個(gè)單位的變化時(shí),個(gè)自變量發(fā)生一個(gè)單位的變化時(shí),發(fā)生比的變化值為發(fā)生比的變化值為 Exp(Exp(bi) )。自變量的系數(shù)為正值,意味著事。自變量的系數(shù)為正值,意味著事件發(fā)生的幾率會(huì)增加,件發(fā)生的幾率會(huì)增加,Exp(Exp(bi) )的值大于的值大于1 1;變量的系數(shù)為負(fù)值,;變量的系數(shù)為負(fù)值,意味著事件發(fā)生的幾率會(huì)減少,意味著事件發(fā)生的幾率會(huì)減少,Exp(Exp(bi) )的值小于的值小于1 1

8、。 極大似然法的基本思想是先建立似然函數(shù),然后求使得似然極大似然法的基本思想是先建立似然函數(shù),然后求使得似然函數(shù)達(dá)到最大的參數(shù)估計(jì)值。函數(shù)達(dá)到最大的參數(shù)估計(jì)值。 3 3、Logistic 回歸模型的參數(shù)估計(jì)回歸模型的參數(shù)估計(jì)niyiyiiippL11)1 ( 對(duì)對(duì) Logistic 回歸模型的參數(shù)估計(jì)可以采用極大似然法或者迭回歸模型的參數(shù)估計(jì)可以采用極大似然法或者迭代法。代法。 對(duì)于已有樣本,可建立樣本的似然函數(shù)為:對(duì)于已有樣本,可建立樣本的似然函數(shù)為:niiiiipypyL1)1ln()1 (lnln 樣本的對(duì)數(shù)似然函數(shù)為:樣本的對(duì)數(shù)似然函數(shù)為: 根據(jù)極大似然原理,對(duì)根據(jù)極大似然原理,對(duì) l

9、nL L 求一階導(dǎo)數(shù)并令其為求一階導(dǎo)數(shù)并令其為0 0,再用,再用 Newton-Raphson 迭代方法求解,得到參數(shù)估計(jì)值及其標(biāo)準(zhǔn)誤。迭代方法求解,得到參數(shù)估計(jì)值及其標(biāo)準(zhǔn)誤。niikkiiixxxyL122110)(ln將將 pi 代入得:代入得:)exp(1ln(22110ikkiixxx logistic logistic回歸方程求解參數(shù)是采用極大似然估計(jì)方法,因此回歸方程求解參數(shù)是采用極大似然估計(jì)方法,因此其回歸方程的整體檢驗(yàn)通過(guò)似然函數(shù)值其回歸方程的整體檢驗(yàn)通過(guò)似然函數(shù)值( ( Likelihood ) )。 4 4、 Logistic 回歸的評(píng)價(jià)及統(tǒng)計(jì)檢驗(yàn)回歸的評(píng)價(jià)及統(tǒng)計(jì)檢驗(yàn) 對(duì)對(duì)

10、于整體模型的檢驗(yàn)于整體模型的檢驗(yàn) 所謂似然函數(shù)值表達(dá)的是一種概率,即在假設(shè)擬合模型為真所謂似然函數(shù)值表達(dá)的是一種概率,即在假設(shè)擬合模型為真實(shí)情況時(shí)能夠觀察到這一特定樣本數(shù)據(jù)的概率,因此這個(gè)函數(shù)實(shí)情況時(shí)能夠觀察到這一特定樣本數(shù)據(jù)的概率,因此這個(gè)函數(shù)值處于值處于0,10,1之間。之間。 因?yàn)樗迫缓瘮?shù)值取自然對(duì)數(shù)后在數(shù)學(xué)處理上更為方便,而且因?yàn)樗迫缓瘮?shù)值取自然對(duì)數(shù)后在數(shù)學(xué)處理上更為方便,而且似然函數(shù)值是個(gè)極小的小數(shù),其對(duì)數(shù)值是個(gè)負(fù)數(shù),所以通常對(duì)似然函數(shù)值是個(gè)極小的小數(shù),其對(duì)數(shù)值是個(gè)負(fù)數(shù),所以通常對(duì)似然函數(shù)值先取自然對(duì)數(shù)再乘以似然函數(shù)值先取自然對(duì)數(shù)再乘以 -2 -2 以后應(yīng)用。以后應(yīng)用。 SPSS S

11、PSS中就是報(bào)告這一指標(biāo),標(biāo)志為中就是報(bào)告這一指標(biāo),標(biāo)志為“-2 -2 對(duì)數(shù)似然值對(duì)數(shù)似然值( (可縮寫可縮寫為為-2LL)-2LL)”。報(bào)告值越大,意味著回歸方程的似然值越小,標(biāo)志。報(bào)告值越大,意味著回歸方程的似然值越小,標(biāo)志模型的擬合程度越差。模型的擬合程度越差。報(bào)告值越小報(bào)告值越小,意味著回歸方程的似然值,意味著回歸方程的似然值越接近越接近1 1,標(biāo)志,標(biāo)志模型的擬合程度越好模型的擬合程度越好。 在模型完全擬合觀察值的情況下,有似然值等于在模型完全擬合觀察值的情況下,有似然值等于1 1,那么似,那么似然值的對(duì)數(shù)等于然值的對(duì)數(shù)等于0 0。越接近。越接近0 0,模型擬合效果越好。,模型擬合效

12、果越好。 在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的 Logistic 回歸模型時(shí),通常回歸模型時(shí),通常是將其與截距模型相比較。是將其與截距模型相比較。 所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù)所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù)的模型(的模型(logit p= =a)。)。具體操作方法是:具體操作方法是:定義截距模型為定義截距模型為L(zhǎng) L0 0,作為參照模型;,作為參照模型;定義假設(shè)模型為定義假設(shè)模型為L(zhǎng) Lx ;計(jì)算比率計(jì)算比率似然比似然比( (Likelihood - Ratio) )xLLLR0檢驗(yàn)兩者之比是否顯著區(qū)別于檢驗(yàn)兩者之比是否顯著區(qū)別

13、于1 1。 當(dāng)似然比等于當(dāng)似然比等于1 1時(shí),意味著這些自變量完全沒有解釋效果,時(shí),意味著這些自變量完全沒有解釋效果,而似然比顯著小于而似然比顯著小于 1 1 時(shí)則說(shuō)明這些自變量對(duì)于因變量變化的解時(shí)則說(shuō)明這些自變量對(duì)于因變量變化的解釋有顯著的貢獻(xiàn)。釋有顯著的貢獻(xiàn)。 以截距模型作為標(biāo)準(zhǔn),比較在加入其他自變量后新的模型與以截距模型作為標(biāo)準(zhǔn),比較在加入其他自變量后新的模型與數(shù)據(jù)的擬合水平是否有顯著提高。數(shù)據(jù)的擬合水平是否有顯著提高。 為在統(tǒng)計(jì)上檢驗(yàn)顯著性,需要知道似然比的抽樣分布。然而為在統(tǒng)計(jì)上檢驗(yàn)顯著性,需要知道似然比的抽樣分布。然而我們不知道似然比服從什么分布。但是可以證明似然比的一個(gè)我們不知道

14、似然比服從什么分布。但是可以證明似然比的一個(gè)函數(shù)近似地服從于卡方分布,即:函數(shù)近似地服從于卡方分布,即:)(ln220pLLx 如果在如果在SPSS中進(jìn)行中進(jìn)行Logistic回歸時(shí)定義了自變量,那么回回歸時(shí)定義了自變量,那么回歸報(bào)告便會(huì)自動(dòng)給出上面這兩項(xiàng)計(jì)算值。歸報(bào)告便會(huì)自動(dòng)給出上面這兩項(xiàng)計(jì)算值。常用的三種卡方統(tǒng)計(jì)量分別為:模型、塊、步驟。常用的三種卡方統(tǒng)計(jì)量分別為:模型、塊、步驟。 “模型模型”統(tǒng)計(jì)量:檢驗(yàn)除常數(shù)項(xiàng)以外,模型中所有變量系統(tǒng)計(jì)量:檢驗(yàn)除常數(shù)項(xiàng)以外,模型中所有變量系數(shù)為零的假設(shè)。數(shù)為零的假設(shè)。 “塊塊”卡方統(tǒng)計(jì)量為當(dāng)前卡方統(tǒng)計(jì)量為當(dāng)前 -2LL-2LL 值與后一組變量進(jìn)入后的值

15、與后一組變量進(jìn)入后的 -2LL-2LL值之差。如果選擇了多組變量,那么值之差。如果選擇了多組變量,那么“塊塊”卡方值用來(lái)對(duì)卡方值用來(lái)對(duì)最后一組變量為最后一組變量為 0 0 的零假設(shè)進(jìn)行檢驗(yàn)。的零假設(shè)進(jìn)行檢驗(yàn)。 “步驟步驟”卡方值是當(dāng)前與下一步卡方值是當(dāng)前與下一步 -2LL-2LL 之間的差值。用來(lái)之間的差值。用來(lái)對(duì)最后一個(gè)加入模型的變量系數(shù)為對(duì)最后一個(gè)加入模型的變量系數(shù)為 0 0 的零假設(shè)進(jìn)行檢驗(yàn)。的零假設(shè)進(jìn)行檢驗(yàn)。 當(dāng)前模型的當(dāng)前模型的 -2LL-2LL 與模型中只包括常數(shù)項(xiàng)的與模型中只包括常數(shù)項(xiàng)的 -2LL-2LL 之差。之差。 回歸系數(shù)的檢驗(yàn)回歸系數(shù)的檢驗(yàn) SPSSSPSS軟件在執(zhí)行軟件

16、在執(zhí)行 Logistic 回歸時(shí)除報(bào)告回歸系數(shù)回歸時(shí)除報(bào)告回歸系數(shù)i 的估計(jì)的估計(jì)值以外,還自動(dòng)報(bào)告關(guān)于其統(tǒng)計(jì)檢驗(yàn)量。值以外,還自動(dòng)報(bào)告關(guān)于其統(tǒng)計(jì)檢驗(yàn)量。 Wald Wald 統(tǒng)計(jì)量是用來(lái)檢驗(yàn)偏回歸系數(shù)顯著程度的,它是偏回統(tǒng)計(jì)量是用來(lái)檢驗(yàn)偏回歸系數(shù)顯著程度的,它是偏回歸系數(shù)與自由度的函數(shù),服從于卡方分布。其計(jì)算公式為:歸系數(shù)與自由度的函數(shù),服從于卡方分布。其計(jì)算公式為: WaldWald 檢驗(yàn)值越大表明該自變量的作用越顯著。同一行的檢驗(yàn)值越大表明該自變量的作用越顯著。同一行的SigSig就是就是 WaldWald 檢驗(yàn)的顯著度檢驗(yàn)的顯著度性概率。性概率。) 1 (.222iSESBWaldi

17、WaldWald 統(tǒng)計(jì)量的弱點(diǎn)是當(dāng)回歸系數(shù)的絕對(duì)值變大時(shí),其標(biāo)準(zhǔn)統(tǒng)計(jì)量的弱點(diǎn)是當(dāng)回歸系數(shù)的絕對(duì)值變大時(shí),其標(biāo)準(zhǔn)誤將發(fā)生更大的改變,誤將發(fā)生更大的改變,WaldWald 值值就會(huì)變得很小,導(dǎo)致拒絕回歸系就會(huì)變得很小,導(dǎo)致拒絕回歸系數(shù)的數(shù)的0 0假設(shè)失敗,即認(rèn)為變量的回歸系數(shù)為假設(shè)失敗,即認(rèn)為變量的回歸系數(shù)為0 0。 SPSSSPSS軟件沒有給出軟件沒有給出 Logistic 回歸的標(biāo)準(zhǔn)化系數(shù),如果要考慮回歸的標(biāo)準(zhǔn)化系數(shù),如果要考慮自變量的重要性,不妨直接比較自變量的重要性,不妨直接比較 WaldWald 統(tǒng)計(jì)量,統(tǒng)計(jì)量,WaldWald 值值大者顯大者顯著性高,也就更重要著性高,也就更重要。 6

18、 6、Logistic 回歸的參數(shù)設(shè)置回歸的參數(shù)設(shè)置 依次單擊依次單擊SPSSSPSS軟件軟件“分析分析回歸回歸二元二元Logistic”Logistic”命令,進(jìn)命令,進(jìn)入入 Logistic 回歸對(duì)話框如下:回歸對(duì)話框如下: 5 5、逐步回歸中的變量篩選、逐步回歸中的變量篩選 Logistic 逐步逐步回歸的變量篩選過(guò)程與現(xiàn)行逐步回歸過(guò)程極為回歸的變量篩選過(guò)程與現(xiàn)行逐步回歸過(guò)程極為相似,但不再是相似,但不再是 F F 統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量和統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量和WaldWald統(tǒng)計(jì)量統(tǒng)計(jì)量 例如使用似然比統(tǒng)計(jì)量例如使用似然比統(tǒng)計(jì)量 作為變量的篩選標(biāo)作為變量的篩選標(biāo)準(zhǔn),在進(jìn)行到第準(zhǔn),

19、在進(jìn)行到第 l 步時(shí),通過(guò)比較含有步時(shí),通過(guò)比較含有 Xj 和不含和不含 Xj 的模型,決的模型,決定定 Xj 是否引入模型。是否引入模型。)ln(ln2)(1)(1llLLG 協(xié)變量:用于從變量列表中選入?yún)f(xié)變量。協(xié)變量:用于從變量列表中選入?yún)f(xié)變量。 選擇變量:用于選入一個(gè)對(duì)樣本篩選變量,只有滿足條選擇變量:用于選入一個(gè)對(duì)樣本篩選變量,只有滿足條件的觀測(cè)記錄才會(huì)進(jìn)入回歸方程。件的觀測(cè)記錄才會(huì)進(jìn)入回歸方程。 方法:用于指定協(xié)變量進(jìn)入回歸模型的方法。方法:用于指定協(xié)變量進(jìn)入回歸模型的方法。SPSSSPSS給出給出了了7 7種可選方案:種可選方案:l進(jìn)入:強(qiáng)迫進(jìn)入法,協(xié)變量全部進(jìn)入模型。進(jìn)入:強(qiáng)迫進(jìn)

20、入法,協(xié)變量全部進(jìn)入模型。l向前向前: :條件條件向前逐步法向前逐步法( (條件似然比條件似然比) ),變量引入的根據(jù)是得,變量引入的根據(jù)是得分統(tǒng)計(jì)量的顯著性水平,變量被剔除的依據(jù)是條件參數(shù)估計(jì)所分統(tǒng)計(jì)量的顯著性水平,變量被剔除的依據(jù)是條件參數(shù)估計(jì)所得的似然比統(tǒng)計(jì)量的概率值。得的似然比統(tǒng)計(jì)量的概率值。l向前向前:LR:LR向前逐步法向前逐步法( (似然比似然比) ),變量引入的根據(jù)是得分統(tǒng)計(jì),變量引入的根據(jù)是得分統(tǒng)計(jì)量的顯著性水平;變量被剔除的依據(jù)是最大偏似然估計(jì)所得的量的顯著性水平;變量被剔除的依據(jù)是最大偏似然估計(jì)所得的似然比統(tǒng)計(jì)量的概率值。似然比統(tǒng)計(jì)量的概率值。l向前向前:Wald:Wal

21、d向前逐步法向前逐步法(Wald(Wald法法) ),變量引入的根據(jù)是得分統(tǒng),變量引入的根據(jù)是得分統(tǒng)計(jì)量的顯著性水平;變量被剔除的依據(jù)是計(jì)量的顯著性水平;變量被剔除的依據(jù)是WaldWald統(tǒng)計(jì)量概率值。統(tǒng)計(jì)量概率值。l向后向后: :條件條件向后前逐步法向后前逐步法( (條件似然比條件似然比) ),將變量剔除的依據(jù),將變量剔除的依據(jù)是條件參數(shù)估計(jì)所得的似然比統(tǒng)計(jì)量的概率值。是條件參數(shù)估計(jì)所得的似然比統(tǒng)計(jì)量的概率值。變量設(shè)置變量設(shè)置 因變量:用于從變量列表中選擇一個(gè)二分量作為因變量因變量:用于從變量列表中選擇一個(gè)二分量作為因變量 l向后向后:LR:LR向后前逐步法向后前逐步法( (似然比似然比)

22、),將變量剔除的依據(jù)是最大,將變量剔除的依據(jù)是最大偏似然估計(jì)所得的似然是統(tǒng)計(jì)量的概率值。偏似然估計(jì)所得的似然是統(tǒng)計(jì)量的概率值。lB B向后向后:Wald:Wald向后逐步法向后逐步法(Wald(Wald法法) ),將變量剔除的依據(jù)是,將變量剔除的依據(jù)是WaldWald統(tǒng)計(jì)量的概率值。統(tǒng)計(jì)量的概率值。對(duì)分類變量設(shè)置對(duì)分類變量設(shè)置 單擊單擊“分類分類”按鈕,彈出對(duì)話框如下所示:按鈕,彈出對(duì)話框如下所示: 協(xié)變量:顯示當(dāng)前可用的協(xié)變量。協(xié)變量:顯示當(dāng)前可用的協(xié)變量。 分類協(xié)變量:顯示當(dāng)前選擇的分類變量。分類協(xié)變量:顯示當(dāng)前選擇的分類變量。 更改對(duì)比:用于選擇分類協(xié)變量各水平的對(duì)照方式。更改對(duì)比:用于

23、選擇分類協(xié)變量各水平的對(duì)照方式。 保存的設(shè)置保存的設(shè)置 單擊單擊“保存保存”按鈕,彈出對(duì)話框如下所示:按鈕,彈出對(duì)話框如下所示: 預(yù)測(cè)值:保存模型預(yù)測(cè)值。概率預(yù)測(cè)值:保存模型預(yù)測(cè)值。概率事件發(fā)生的預(yù)測(cè)概率;事件發(fā)生的預(yù)測(cè)概率;組成員組成員根據(jù)預(yù)測(cè)概率得到的每個(gè)觀測(cè)的預(yù)測(cè)分類。根據(jù)預(yù)測(cè)概率得到的每個(gè)觀測(cè)的預(yù)測(cè)分類。 殘差殘差 影響影響:保存對(duì)單個(gè)觀測(cè)記錄進(jìn)行預(yù)測(cè)時(shí)的有影響力指標(biāo)。:保存對(duì)單個(gè)觀測(cè)記錄進(jìn)行預(yù)測(cè)時(shí)的有影響力指標(biāo)。 lCook距離:表示把一個(gè)個(gè)案從計(jì)算回歸系數(shù)的樣本中去除時(shí)距離:表示把一個(gè)個(gè)案從計(jì)算回歸系數(shù)的樣本中去除時(shí)所引起的殘差變化的大小,所引起的殘差變化的大小,CookCook距

24、離越大,表明該個(gè)案對(duì)回歸距離越大,表明該個(gè)案對(duì)回歸系數(shù)的影響越大。系數(shù)的影響越大。l杠桿值:用來(lái)衡量單個(gè)觀測(cè)對(duì)效果的影響程度,取值范圍在杠桿值:用來(lái)衡量單個(gè)觀測(cè)對(duì)效果的影響程度,取值范圍在0n/(n-1)0n/(n-1),取,取0 0時(shí)表示當(dāng)前記錄對(duì)模型的擬合無(wú)影響。時(shí)表示當(dāng)前記錄對(duì)模型的擬合無(wú)影響。lDfBeta(s)DfBeta(s),剔除一個(gè)個(gè)案后回歸系數(shù)的改變。,剔除一個(gè)個(gè)案后回歸系數(shù)的改變。l未標(biāo)準(zhǔn)化殘差,觀測(cè)值與預(yù)測(cè)值之差。未標(biāo)準(zhǔn)化殘差,觀測(cè)值與預(yù)測(cè)值之差。lLogit,殘差除以,殘差除以“預(yù)測(cè)概率預(yù)測(cè)概率 (1-(1-預(yù)測(cè)概率預(yù)測(cè)概率)”)”。l學(xué)生化殘差,用殘差除以殘差標(biāo)準(zhǔn)差的

25、估計(jì)值。學(xué)生化殘差,用殘差除以殘差標(biāo)準(zhǔn)差的估計(jì)值。l標(biāo)準(zhǔn)化殘差,其均值為標(biāo)準(zhǔn)化殘差,其均值為0 0,標(biāo)準(zhǔn)差為,標(biāo)準(zhǔn)差為1 1。l偏差,基于模型變異的殘差。偏差,基于模型變異的殘差。選項(xiàng)的設(shè)置選項(xiàng)的設(shè)置 單擊單擊“選項(xiàng)選項(xiàng)”按鈕,彈出對(duì)話框如下所示:按鈕,彈出對(duì)話框如下所示: 【例例8.18.1】在在HosmerHosmer和和LemeshowLemeshow于于19891989年研究了低出生體重年研究了低出生體重嬰兒的影響因素,結(jié)果變量為是否娩出低出生體重兒嬰兒的影響因素,結(jié)果變量為是否娩出低出生體重兒( (變量名為變量名為L(zhǎng)OWLOW。值為。值為1 1:低出生體重,即嬰兒出生體重:低出生體重

26、,即嬰兒出生體重25002500克;值為克;值為0 0:非低出生體重非低出生體重) ),希望篩選出低出生體重兒的影響因素,考慮產(chǎn),希望篩選出低出生體重兒的影響因素,考慮產(chǎn)婦妊娠前體重婦妊娠前體重(lwt)(lwt)、產(chǎn)婦年齡、產(chǎn)婦年齡(age)(age)、產(chǎn)婦在妊娠期間是否吸、產(chǎn)婦在妊娠期間是否吸煙煙(smoke)(smoke)、種族等。數(shù)據(jù)文件為、種族等。數(shù)據(jù)文件為“例例8.1”8.1”。 如果考察產(chǎn)婦是否吸煙為低出生體重兒關(guān)系,則四格表為:如果考察產(chǎn)婦是否吸煙為低出生體重兒關(guān)系,則四格表為:31.2%18959130合計(jì)40.5%743044吸煙(1)25.2%1152986不吸煙(0)低

27、出生體重(1)正常(0)低出生率合計(jì)低出生體重兒產(chǎn)婦在妊娠期間是否吸煙 該資料如果擬合該資料如果擬合Logistic回歸模型,則結(jié)果為:回歸模型,則結(jié)果為:塊塊0 0:起始?jí)K:起始?jí)K塊塊1 1:方法:方法= =輸入輸入smokePLogit704. 0087. 1(低體重兒) 常數(shù)項(xiàng):表示自變量全為常數(shù)項(xiàng):表示自變量全為0(0(稱基線狀態(tài)稱基線狀態(tài)) )時(shí),比數(shù)時(shí),比數(shù)(Y=1(Y=1與與Y=0Y=0的概率之比的概率之比) )的自然對(duì)數(shù),本例為:的自然對(duì)數(shù),本例為:087. 18629ln1158611529ln0即不吸煙的低體重兒概率和正常兒概率之比的自然對(duì)數(shù)。即不吸煙的低體重兒概率和正常兒

28、概率之比的自然對(duì)數(shù)。 自變量的回歸系數(shù):自變量的回歸系數(shù):表示自變量每改變一個(gè)單位,優(yōu)勢(shì)表示自變量每改變一個(gè)單位,優(yōu)勢(shì)比的自然對(duì)數(shù)值該變量,本例為:比的自然對(duì)數(shù)值該變量,本例為: 【例例8.28.2】在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng)在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng)目是目是“是乘坐公共汽車上下班,還是騎自行車上下班是乘坐公共汽車上下班,還是騎自行車上下班”。因變。因變量量y=1=1表示主要乘坐公共汽車上下班,表示主要乘坐公共汽車上下班,y=0=0表示主要騎自行車上表示主要騎自行車上下班。自變量下班。自變量 x1 1 是年齡,作為連續(xù)型變量;是年齡,作為連續(xù)型變量;x2 2 是

29、月收入是月收入( (元元) ); x3 3 是性別,是性別,x3 3=1=1表示男性,表示男性,x3 3=0=0表示女性。調(diào)查對(duì)象為工薪族表示女性。調(diào)查對(duì)象為工薪族群體,數(shù)據(jù)見下表。試建立群體,數(shù)據(jù)見下表。試建立 y 與自變量間的與自變量間的Logistic回歸。回歸。704. 086294430ln1而而exp(exp() )即優(yōu)勢(shì)比,自變量每變化一個(gè)單位,陽(yáng)性結(jié)果出現(xiàn)概即優(yōu)勢(shì)比,自變量每變化一個(gè)單位,陽(yáng)性結(jié)果出現(xiàn)概率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)。本例為:率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)。本例為:即不吸煙的低體重兒概率和正常兒概率之比的自然對(duì)數(shù)。即不吸煙的低體重兒概

30、率和正常兒概率之比的自然對(duì)數(shù)。02. 2)704. 0exp(表示吸煙狀況每增加一個(gè)單位,即從不吸煙改為吸煙時(shí),吸煙表示吸煙狀況每增加一個(gè)單位,即從不吸煙改為吸煙時(shí),吸煙組的比值相對(duì)于不吸煙組的比值的倍數(shù)。組的比值相對(duì)于不吸煙組的比值的倍數(shù)。 由此可以得出結(jié)論,在妊娠期間抽煙由此可以得出結(jié)論,在妊娠期間抽煙(smoke=1)(smoke=1)的孕婦會(huì)比的孕婦會(huì)比不吸煙的女性更容易分娩出低出生體重兒。不吸煙的女性更容易分娩出低出生體重兒。 依次單擊依次單擊“分析分析回歸回歸二元二元Logistic”Logistic”命令,進(jìn)入命令,進(jìn)入Logistic回歸對(duì)話框如下所示:回歸對(duì)話框如下所示: 利

31、用利用SPSSSPSS軟件進(jìn)行估計(jì)的步驟如下:軟件進(jìn)行估計(jì)的步驟如下:將將x1 1、x2 2、x3 3 送入送入“協(xié)變量協(xié)變量”中;中;點(diǎn)擊點(diǎn)擊 保存保存 ,做如下選擇:,做如下選擇:點(diǎn)擊點(diǎn)擊 選項(xiàng)選項(xiàng) ,做如下選擇:,做如下選擇:點(diǎn)擊點(diǎn)擊 確定確定 ,系統(tǒng)輸出以下結(jié)果:,系統(tǒng)輸出以下結(jié)果:得分(得分(Score)Score)計(jì)算公式如下:計(jì)算公式如下:niiniiijxxyyyyxScore121)()1 ()( 上表中上表中x3 3( (性別性別) )、x1 1( (年齡年齡) )、x2 2( (月收入月收入) )是是3 3個(gè)自變量,個(gè)自變量,WalsWals是回歸系數(shù)檢驗(yàn)的統(tǒng)計(jì)量值是回歸

32、系數(shù)檢驗(yàn)的統(tǒng)計(jì)量值: :2jj2)(D.E. SBWaldSig是是Wald檢驗(yàn)的顯著性概率??梢钥吹?,檢驗(yàn)的顯著性概率。可以看到,x2 2( (月收入月收入) )不顯著。不顯著。采用采用“進(jìn)入進(jìn)入”回歸,輸出結(jié)果見下表:回歸,輸出結(jié)果見下表: 可以看到,可以看到,x1 1 (年齡年齡)、x3 3 (性別性別)兩個(gè)自變量都是顯著的,因兩個(gè)自變量都是顯著的,因而最終的回歸方程為:而最終的回歸方程為: )224. 2102. 0629. 2exp(1)224. 2102. 0629. 2exp(3131xxxxpi 根據(jù)以上方程式可知:根據(jù)以上方程式可知: 年齡越高乘車的比例也越高;年齡越高乘車的

33、比例也越高; 女性乘公共汽車的比例高于男性。女性乘公共汽車的比例高于男性。 【例例8.38.3】研究研究銀行客戶的貸款拖欠問(wèn)題。通過(guò)分析銀行掌銀行客戶的貸款拖欠問(wèn)題。通過(guò)分析銀行掌握的一些客戶資料和交易信息,推斷指定客戶的預(yù)期信譽(yù)。數(shù)握的一些客戶資料和交易信息,推斷指定客戶的預(yù)期信譽(yù)。數(shù)據(jù)格式如下:據(jù)格式如下: 本例數(shù)據(jù)集中的前本例數(shù)據(jù)集中的前700700個(gè)案例是先前申請(qǐng)過(guò)貸款的用戶,將個(gè)案例是先前申請(qǐng)過(guò)貸款的用戶,將利用其中的一個(gè)隨機(jī)樣本擬合一個(gè)二元邏輯回歸模型,然后用利用其中的一個(gè)隨機(jī)樣本擬合一個(gè)二元邏輯回歸模型,然后用擬合的模型對(duì)后擬合的模型對(duì)后150150名預(yù)期用戶進(jìn)行信譽(yù)分類。名預(yù)期

34、用戶進(jìn)行信譽(yù)分類。 因變量為是否拖欠因變量為是否拖欠( (default) ),取值為,取值為0(0(No) )時(shí),表示沒有時(shí),表示沒有拖欠貸款;取值為拖欠貸款;取值為1(1(Yes) )時(shí),表示有拖欠貸款。時(shí),表示有拖欠貸款。抽取分析樣本抽取分析樣本 指定隨機(jī)種子。依次單擊指定隨機(jī)種子。依次單擊“轉(zhuǎn)換轉(zhuǎn)換隨機(jī)數(shù)字生成器隨機(jī)數(shù)字生成器” 命令,打開生成隨機(jī)數(shù)的設(shè)置界面。輸命令,打開生成隨機(jī)數(shù)的設(shè)置界面。輸91919729191972 計(jì)算篩選變量。依次單擊計(jì)算篩選變量。依次單擊“轉(zhuǎn)換轉(zhuǎn)換計(jì)算變量計(jì)算變量”命令。命令。在在“目標(biāo)變量目標(biāo)變量”處輸入變量名處輸入變量名“validate”;在;在“

35、數(shù)字表達(dá)式數(shù)字表達(dá)式” 編輯框輸入編輯框輸入 rv.bernoulli(0.7)(0.7)。單擊左下角的。單擊左下角的“如果如果”并輸入并輸入 Missing(default)=0變量設(shè)置變量設(shè)置 將是否拖欠變量將是否拖欠變量( (default) )作為因變量選入作為因變量選入“因變量因變量”框,框,將從年齡至其他債務(wù)將從年齡至其他債務(wù)8 8個(gè)變量作為協(xié)變量選入個(gè)變量作為協(xié)變量選入“協(xié)變量協(xié)變量”列表框。列表框。選中選中“向前向前:LR”,單擊,單擊 “validate” 進(jìn)入進(jìn)入“選擇變量選擇變量”框,單擊框,單擊“規(guī)則規(guī)則”,選中選中“等于等于”選項(xiàng),輸入選項(xiàng),輸入1 1。分類變量設(shè)置分

36、類變量設(shè)置 在變量列表中選中教育水平變量,將其作為分類變量。在變量列表中選中教育水平變量,將其作為分類變量。保存設(shè)置保存設(shè)置 勾選勾選:“:“概率概率”、“學(xué)生化學(xué)生化”、“Cook距離距離”和和“包含協(xié)包含協(xié)方差矩陣方差矩陣”復(fù)選框。復(fù)選框。選項(xiàng)設(shè)置選項(xiàng)設(shè)置 勾選勾選:“:“分類圖分類圖”和和“Hosmer-Lemeshow擬合度擬合度”復(fù)選框。復(fù)選框。 單擊單擊“確定確定”,系統(tǒng)輸出以下結(jié)果:,系統(tǒng)輸出以下結(jié)果: 上表中上表中 Cox and Snell R Cox and Snell R 方和方和 Nagelkerke R Nagelkerke R 方兩個(gè)統(tǒng)計(jì)方兩個(gè)統(tǒng)計(jì)量取代了線性回歸中

37、的量取代了線性回歸中的 R R 方統(tǒng)計(jì)量。方統(tǒng)計(jì)量。 本例中他們的取值分別為本例中他們的取值分別為 0.281 0.281 和和 0.4170.417,只看這一點(diǎn),只看這一點(diǎn),模型擬合的并不理想。模型擬合的并不理想。 這兩個(gè)統(tǒng)計(jì)量一般用于不同模型之間的比較,這兩個(gè)統(tǒng)計(jì)量一般用于不同模型之間的比較,R R 方值越大的方值越大的模型,擬合的效果越好。模型,擬合的效果越好。 Hosmer 和和 Lemeshow 檢驗(yàn)表格的原假設(shè)為:模型能夠很檢驗(yàn)表格的原假設(shè)為:模型能夠很好擬合數(shù)據(jù)。好擬合數(shù)據(jù)。 從軟件運(yùn)行結(jié)果看:顯著性檢驗(yàn)的從軟件運(yùn)行結(jié)果看:顯著性檢驗(yàn)的Sig=0.855=0.855 結(jié)論:結(jié)論:

38、接受原假設(shè),認(rèn)為模型能夠很好擬合數(shù)據(jù)。接受原假設(shè),認(rèn)為模型能夠很好擬合數(shù)據(jù)。 Hosmer 和和 Lemeshow 檢驗(yàn)的隨機(jī)性表格根據(jù)目標(biāo)變量的預(yù)檢驗(yàn)的隨機(jī)性表格根據(jù)目標(biāo)變量的預(yù)測(cè)概率,把結(jié)果分為大致相等的測(cè)概率,把結(jié)果分為大致相等的1010個(gè)組。個(gè)組。 “總計(jì)總計(jì)”列中是每組的觀測(cè)數(shù),由于預(yù)測(cè)值相等的觀測(cè)被分列中是每組的觀測(cè)數(shù),由于預(yù)測(cè)值相等的觀測(cè)被分到一起,所以各組的觀測(cè)數(shù)不一定相同。到一起,所以各組的觀測(cè)數(shù)不一定相同。 此表直觀地反映了模型預(yù)測(cè)的效果,可以看出各組的觀測(cè)值此表直觀地反映了模型預(yù)測(cè)的效果,可以看出各組的觀測(cè)值和預(yù)測(cè)值大致相同,所以模型的擬合效果不錯(cuò)。和預(yù)測(cè)值大致相同,所以

39、模型的擬合效果不錯(cuò)。 上表給出了觀測(cè)值和預(yù)測(cè)值的列聯(lián)表,預(yù)測(cè)概率大于上表給出了觀測(cè)值和預(yù)測(cè)值的列聯(lián)表,預(yù)測(cè)概率大于0.50.5,預(yù)測(cè)為預(yù)測(cè)為YesYes;反之預(yù)測(cè)為;反之預(yù)測(cè)為NoNo。 對(duì)于最終模型,建模用的對(duì)于最終模型,建模用的124124個(gè)拖欠用戶中有個(gè)拖欠用戶中有5757個(gè)判斷正確,個(gè)判斷正確,正確率為正確率為46.0%46.0%;建模用的;建模用的375375個(gè)無(wú)拖欠用戶中有個(gè)無(wú)拖欠用戶中有352352個(gè)判斷正確,個(gè)判斷正確,正確率為正確率為93.9%93.9%;總的回判正確率為;總的回判正確率為82.0%82.0%,這說(shuō)明模型的預(yù)測(cè),這說(shuō)明模型的預(yù)測(cè)效果不錯(cuò),尤其是對(duì)那些無(wú)拖欠的用

40、戶的預(yù)測(cè)。效果不錯(cuò),尤其是對(duì)那些無(wú)拖欠的用戶的預(yù)測(cè)。 上表中上表中Wald統(tǒng)計(jì)量的統(tǒng)計(jì)量的Sig值全部小于值全部小于0.050.05,說(shuō)明參數(shù)估計(jì)值,說(shuō)明參數(shù)估計(jì)值都顯著地不為都顯著地不為0 0。利用該模型,就可以對(duì)。利用該模型,就可以對(duì)150150名預(yù)期用戶進(jìn)行信名預(yù)期用戶進(jìn)行信譽(yù)分類。譽(yù)分類。 Exp(B)表示在其它情況不變的條件下,某個(gè)自變量變動(dòng)表示在其它情況不變的條件下,某個(gè)自變量變動(dòng) 1 1 個(gè)單位而引起的發(fā)生比個(gè)單位而引起的發(fā)生比 Odd 的變化率。的變化率。 該圖為預(yù)測(cè)概率的直方圖。橫軸為對(duì)拖欠貸款概率的預(yù)測(cè)該圖為預(yù)測(cè)概率的直方圖。橫軸為對(duì)拖欠貸款概率的預(yù)測(cè)概率值,縱軸為觀測(cè)的頻

41、數(shù)。符號(hào)概率值,縱軸為觀測(cè)的頻數(shù)。符號(hào)Y Y代表拖欠,代表拖欠,N N代表不拖欠。代表不拖欠。 如果模型對(duì)原數(shù)據(jù)成功進(jìn)行了模擬,則發(fā)生拖欠貸款的觀如果模型對(duì)原數(shù)據(jù)成功進(jìn)行了模擬,則發(fā)生拖欠貸款的觀測(cè)應(yīng)分布在圖形的右側(cè),其它觀測(cè)應(yīng)分布在圖形的左側(cè)。測(cè)應(yīng)分布在圖形的右側(cè),其它觀測(cè)應(yīng)分布在圖形的左側(cè)。 本例總體來(lái)看,模型的擬合效果不錯(cuò)。本例總體來(lái)看,模型的擬合效果不錯(cuò)。 該圖為學(xué)生化殘差的平方對(duì)預(yù)測(cè)概率的散點(diǎn)圖。圖中縱軸該圖為學(xué)生化殘差的平方對(duì)預(yù)測(cè)概率的散點(diǎn)圖。圖中縱軸取值較大的點(diǎn)表示模型對(duì)這些點(diǎn)的擬合效果較差。取值較大的點(diǎn)表示模型對(duì)這些點(diǎn)的擬合效果較差。 由低到高的曲線代表的是因變量取由低到高的曲

42、線代表的是因變量取0 0的觀測(cè)的殘差的變化,的觀測(cè)的殘差的變化,說(shuō)明這類觀測(cè)的預(yù)測(cè)概率越大,擬合效果越差。說(shuō)明這類觀測(cè)的預(yù)測(cè)概率越大,擬合效果越差。 該圖為該圖為CookCook距離對(duì)預(yù)測(cè)概率的散點(diǎn)圖。圖中有較少的幾個(gè)距離對(duì)預(yù)測(cè)概率的散點(diǎn)圖。圖中有較少的幾個(gè)奇異值,它們的奇異值,它們的CookCook值都很大,可能影響了分析,可以進(jìn)一步值都很大,可能影響了分析,可以進(jìn)一步對(duì)它們進(jìn)行單獨(dú)研究。對(duì)它們進(jìn)行單獨(dú)研究。第二節(jié)第二節(jié) 無(wú)序多分類無(wú)序多分類LogisticLogistic回歸回歸一、模型簡(jiǎn)介一、模型簡(jiǎn)介 無(wú)序多分類的無(wú)序多分類的 Logistic 回歸模型用于分析因變量為無(wú)序多分回歸模型用

43、于分析因變量為無(wú)序多分類的情況。類的情況。kkxxxpp1212111041ln 對(duì)于多分類的對(duì)于多分類的 Logistic Logistic 回歸,模型首先會(huì)定義因變量的某回歸,模型首先會(huì)定義因變量的某一個(gè)水平為參照水平一個(gè)水平為參照水平(SPSS(SPSS默認(rèn)取值水平大的為參照水平默認(rèn)取值水平大的為參照水平) ),其,其他水平各與其相比,建立他水平各與其相比,建立“水平數(shù)水平數(shù)-1”-1”個(gè)廣義個(gè)廣義 Logit Logit 模型。模型。 以以 4 4 水平因變量為例,其取值水平分別為:水平因變量為例,其取值水平分別為:1 1、2 2、3 3、4 4,對(duì)于對(duì)于 k 個(gè)自變量擬合個(gè)自變量擬合

44、 3 3 個(gè)廣義個(gè)廣義 Logit 回歸模型:回歸模型:kkxxxpp2222121042lnkkxxxpp3232131043ln 顯然,同時(shí)應(yīng)當(dāng)有:顯然,同時(shí)應(yīng)當(dāng)有:p1 1+ +p2 2+ +p3 3+ +p4 4=1,=1,且可以看出且可以看出Y=4Y=4為參照水為參照水平。平。二、無(wú)序多分變量的二、無(wú)序多分變量的Logistic回歸過(guò)程回歸過(guò)程 點(diǎn)擊點(diǎn)擊“分析分析回歸回歸多項(xiàng)多項(xiàng) Logistic,出現(xiàn)下列對(duì)話框:,出現(xiàn)下列對(duì)話框: 選擇一個(gè)因變量送入選擇一個(gè)因變量送入“因變量因變量”框中。一般情況下系統(tǒng)默認(rèn)框中。一般情況下系統(tǒng)默認(rèn)因變量的最后一類作為參考類,若要改變單擊因變量的最后

45、一類作為參考類,若要改變單擊“參考類別參考類別”。選擇一個(gè)或多個(gè)分組變量送入選擇一個(gè)或多個(gè)分組變量送入“因子因子”框中。在左側(cè)的源變量框中。在左側(cè)的源變量框中選擇一個(gè)或多個(gè)連續(xù)變量作為協(xié)變量送入框中選擇一個(gè)或多個(gè)連續(xù)變量作為協(xié)變量送入“協(xié)變量協(xié)變量”框中??蛑?。 1 1、變量設(shè)置、變量設(shè)置 單擊單擊“模型模型”按鈕,顯示如下對(duì)話框:按鈕,顯示如下對(duì)話框: 2 2、模型設(shè)置、模型設(shè)置 3 3、統(tǒng)計(jì)量設(shè)置、統(tǒng)計(jì)量設(shè)置 4 4、收斂標(biāo)準(zhǔn)設(shè)置、收斂標(biāo)準(zhǔn)設(shè)置 單擊單擊“條件條件”按鈕,顯示如下對(duì)話框:按鈕,顯示如下對(duì)話框: 5 5、選項(xiàng)設(shè)置、選項(xiàng)設(shè)置 單擊單擊“選項(xiàng)選項(xiàng)”按鈕,顯示如下對(duì)話框:按鈕,顯示

46、如下對(duì)話框: 6 6、保存設(shè)置、保存設(shè)置三、多分變量的三、多分變量的LogisticLogistic回歸分析實(shí)例回歸分析實(shí)例 【例例8.48.4】19921992年美國(guó)總統(tǒng)選舉的數(shù)據(jù)。年美國(guó)總統(tǒng)選舉的數(shù)據(jù)。Pres92(Pres92(投票對(duì)象:投票對(duì)象:1 1、布什;、布什;2 2、帕羅特;、帕羅特;3 3、克林頓、克林頓) )、sex(sex(性別:性別:1 1、男;、男;0 0、女、女) )、age(age(年齡年齡) )、agecat(agecat(年齡分類年齡分類) )、educ(educ(受教育年限受教育年限) )、degree(degree(學(xué)歷學(xué)歷) )。分析選民投票情況。分析選

47、民投票情況。 選擇選擇 pres92 進(jìn)入進(jìn)入“因變量因變量”框,將框,將 degreen、sex 進(jìn)入進(jìn)入“因因子子”列表框,操作結(jié)果顯示如下:列表框,操作結(jié)果顯示如下:1 1、建立、建立 Logistic Logistic 回歸模型回歸模型單擊單擊“確定確定”,結(jié)果如下:,結(jié)果如下:)2(deg431. 0) 1(deg387. 0reeree)0(deg198. 0) 1(458. 0805. 0)int()(lnreesexonClpBushpLogit模型:模型:) 3(deg424. 0ree2 2、計(jì)算預(yù)測(cè)概率、計(jì)算預(yù)測(cè)概率 根據(jù)所建立的模型可以計(jì)算某個(gè)選民對(duì)每個(gè)候選人投票的可根

48、據(jù)所建立的模型可以計(jì)算某個(gè)選民對(duì)每個(gè)候選人投票的可能性。例如,具有學(xué)士學(xué)位的男性選民投票給各候選人的可能能性。例如,具有學(xué)士學(xué)位的男性選民投票給各候選人的可能性。性。估算估算 3 3 個(gè)模型的值個(gè)模型的值077. 0424. 0458. 0805. 0)int()(ln1onClpBushpg624. 0804. 0760. 0188. 2)int()(ln2onClpPerotpg0)int()int(ln3onClponClpg計(jì)算每一類的概率值計(jì)算每一類的概率值jkkiigggroupp1exp()exp()(412. 0154. 008. 108. 1)(Bushp382. 0154.

49、 008. 11)int(onClp206. 0154. 008. 154. 0)(Perotp計(jì)算每一類的概率值計(jì)算每一類的概率值jkkiigggroupp1exp()exp()( 數(shù)據(jù)中有數(shù)據(jù)中有160160名男性具有學(xué)士學(xué)位的選民,由此可以判斷:名男性具有學(xué)士學(xué)位的選民,由此可以判斷:其中有其中有6666人會(huì)投人會(huì)投BushBush的票,的票,3333人會(huì)投人會(huì)投PerotPerot的票,的票,6161人會(huì)投人會(huì)投ClintonClinton的票的票 【例例8.58.5】為研究胃癌及癌前病變核仁組織變化情況,分析為研究胃癌及癌前病變核仁組織變化情況,分析核仁組成區(qū)嗜銀蛋白核仁組成區(qū)嗜銀蛋

50、白(AgNoR)(AgNoR)顆粒數(shù)量顆粒數(shù)量( (x1 1分為分為1 1、2 2、3)3)及大小及大小( (x2 2分為分為1 1、2 2、3)3)在胃炎、不典型增生和胃癌在胃炎、不典型增生和胃癌( (id分為分為1 1、2 2、3)3)中中的變化規(guī)律以及臨床的診斷意義,共檢測(cè)的變化規(guī)律以及臨床的診斷意義,共檢測(cè)129129例患者,檢測(cè)結(jié)果例患者,檢測(cè)結(jié)果如下表:如下表:230023339122014238010113741401832621521922503031240815233130118192120099111id=3id=2id=1freqx2x1g癌變不典型增生胃炎頻數(shù)顆粒大小顆

51、粒數(shù)分層 建立數(shù)據(jù)文件:例建立數(shù)據(jù)文件:例4.sav4.sav。 1 1、對(duì)頻數(shù)變量、對(duì)頻數(shù)變量 freq 進(jìn)行加權(quán)進(jìn)行加權(quán) 2 2、進(jìn)行多元、進(jìn)行多元Logistic分析分析 選擇選擇“數(shù)據(jù)數(shù)據(jù)加權(quán)個(gè)案加權(quán)個(gè)案”,出現(xiàn)下列對(duì)話框:,出現(xiàn)下列對(duì)話框: 單擊單擊“分析分析回歸回歸多元多元 Logistic,出現(xiàn)下列對(duì)話框:,出現(xiàn)下列對(duì)話框: 單擊單擊“確定確定”,得到以下結(jié)果:,得到以下結(jié)果: Logit模型:模型:211714. 3012.10563.27)3() 1(lnxxidpidpG212938. 1721. 4205.16)3()2(lnxxidpidpG x1 1 的系數(shù)都是負(fù)的,說(shuō)明顆粒數(shù)少,胃炎和不典型增生發(fā)的系數(shù)都是負(fù)的,說(shuō)明顆粒數(shù)少,胃炎和不典型增生發(fā)生的概率大于癌變;生的概率大于癌變;x2 2 的系數(shù)都是負(fù)的,說(shuō)明顆粒越小,胃炎的系數(shù)都是負(fù)的,說(shuō)明顆粒越小,胃炎和不典型增生發(fā)生的概率大于癌變。和不典型增生發(fā)生的概率大于癌變。 預(yù)測(cè)總的符合率為預(yù)測(cè)總的符合率為85.3%85.3%。第三節(jié)第三節(jié) 有序多分類有序多分類LogisticLogistic回歸回歸一、模型簡(jiǎn)介一、模型簡(jiǎn)介 有序多分類的資料,如城市競(jìng)爭(zhēng)力等級(jí)可以劃分為高、中、有序多分類的資料,如城市競(jìng)爭(zhēng)力

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論