第十講定類或定序因變量回歸分析

上傳人：農(nóng)*** IP屬地：廣東上傳時(shí)間：2023-02-18 格式：PPT 頁數(shù)：28 大?。?.09MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十講定類或定序因變量回歸分析第一頁，共二十八頁，2022年，8月28日當(dāng)因變量是一個(gè)定類變量而不是定距變量時(shí)，線性回歸模型受到挑戰(zhàn)。如政治學(xué)中研究是否選舉某候選人，經(jīng)濟(jì)學(xué)研究中涉及的是否銷售或購買某種商品，社會(huì)學(xué)和人口學(xué)研究中所涉及的如犯罪、遷移、婚姻、生育、患病等等都可以按照二分類變量或多分類來測量。

一、問題的提出第二頁，共二十八頁，2022年，8月28日在研究態(tài)度與偏好等心理現(xiàn)象時(shí)也經(jīng)常按類型進(jìn)行測量的，如“強(qiáng)烈反對(duì)”、“反對(duì)”、“中立”、“支持”、和“強(qiáng)烈支持”。連續(xù)變量轉(zhuǎn)換成類型變量的情形，如在分析升學(xué)考試的影響因素時(shí)，將考生分為錄取線以上和錄取線以下。第三頁，共二十八頁，2022年，8月28日

從統(tǒng)計(jì)理論上看，最小二乘法關(guān)注正態(tài)分布，然而社會(huì)經(jīng)濟(jì)現(xiàn)象往往有不同于正態(tài)分布的其他分布，例如：（1）二項(xiàng)分布（binomialdistribution）（2）泊松分布（Poisson）第四頁，共二十八頁，2022年，8月28日

二、線性概率模型1、模型建立以最小二乘法為基礎(chǔ)的線性回歸方程是估測因變量的平均值，而二分變量的均值有一個(gè)特定的意義，即概率。用普通線性回歸方程估測概率，就是所謂的線性概率回歸。用公式表示為：P=a+∑βiXi+ε

對(duì)二項(xiàng)分布線性概率模型的結(jié)果解釋：在其他變量不變的情形下，x每增加一個(gè)單位，事件發(fā)生概率的期望將變動(dòng)β個(gè)單位。

第五頁，共二十八頁，2022年，8月28日例如，林楠和謝文（1988）曾用線性概率模型估測入黨（政治資本）的概率，模型為：P=-0.39+0.01A+0.04E+0.03U

其中：P—黨員概率，A—年齡，E—受教育年限，U—單位身份第六頁，共二十八頁，2022年，8月28日1）無意義的解釋從解釋力上看，由于概率的值是有邊界的，在0與1之間。但林楠方程很有可能要超過該限制，因變量的估計(jì)值可能是負(fù)數(shù)，也可能大于1，因此模型的結(jié)果是無意義的。例如，運(yùn)用林楠方程，我們發(fā)現(xiàn)如果年齡為100歲，受教育程度超過10年，則入黨的概率約等于1。2）非線性關(guān)系2、線性概率模型存在的問題第七頁，共二十八頁，2022年，8月28日

三、簡單對(duì)數(shù)比率回歸

1、模型建立既然用線性概率回歸存在局限性，能否用比率做因變量呢？比如用男女比率作因變量，用成功與不成功之比做因變量。用比率做因變量存在的問題是，比率是非對(duì)稱的.第八頁，共二十八頁，2022年，8月28日表1概率、比率和對(duì)數(shù)比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099對(duì)數(shù)比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.60第九頁，共二十八頁，2022年，8月28日

一個(gè)簡單的解決辦法就是取對(duì)數(shù)，結(jié)果就是所謂對(duì)數(shù)比率（logit)。若用P代表某事件的概率，則對(duì)數(shù)比率函數(shù)的定義為g（P）=log（P/1-P）以對(duì)數(shù)比率為因變量對(duì)自變量X1，X2，X3……做回歸稱為對(duì)數(shù)比率回歸（logisticregression），其方程式為：

第十頁，共二十八頁，2022年，8月28日

該模型即為logit回歸模型。logit回歸模型是普通多元線性回歸模型的推廣，但它的誤差項(xiàng)服從二項(xiàng)分布，因此需要采用極大似然估計(jì)方法進(jìn)行參數(shù)估計(jì)，參數(shù)稱為logit回歸系數(shù)，表示當(dāng)其他自變量取值保持不變時(shí)，該自變量取值增加一個(gè)單位引起的發(fā)生比自然對(duì)數(shù)值的變化量。第十一頁，共二十八頁，2022年，8月28日2、發(fā)生比

發(fā)生比是事件的發(fā)生頻數(shù)與不發(fā)生頻數(shù)之間的比，即：Odds=(事件發(fā)生頻數(shù))/（事件不發(fā)生頻數(shù)）

當(dāng)比值大于1時(shí)，表明事件更有可能發(fā)生。比如一個(gè)事件發(fā)生的概率為0.6，事件不發(fā)生的概率為0.4，發(fā)生比等于0.6/0.4=1.5。事件發(fā)生的可能性是不發(fā)生的1.5倍。第十二頁，共二十八頁，2022年，8月28日四、logistic回歸模型的檢驗(yàn)與評(píng)價(jià)1、Logistic回歸模型估計(jì)的假設(shè)前提第一、數(shù)據(jù)來自于隨機(jī)樣本。第二、因變量Yi被假設(shè)為K個(gè)自變量Xk（k=1，2，…，K）的函數(shù)。第三、正如OLS回歸，logistic回歸也對(duì)多重共線性有所限制，自變量之間存在多重共線性會(huì)導(dǎo)致標(biāo)準(zhǔn)誤的膨脹。

Logistic回歸模型還有一些與OLS回歸不同的假設(shè)前提：第一，因變量是二分變量；第二，因變量和各自變量之間的關(guān)系是非線性的。第十三頁，共二十八頁，2022年，8月28日2、擬合優(yōu)度檢驗(yàn)

如果模型的預(yù)測值能夠與對(duì)應(yīng)的觀測值有較高的一致性，就認(rèn)為這一模型能夠擬合數(shù)據(jù)。否則需要對(duì)模型重新設(shè)置。因此，模型的擬合優(yōu)度是指預(yù)測值與觀測值的匹配程度。檢驗(yàn)擬合優(yōu)度的指標(biāo)有皮爾遜卡方檢驗(yàn)、對(duì)數(shù)似然比卡方檢驗(yàn)等。第十四頁，共二十八頁，2022年，8月28日1）皮爾遜卡方檢驗(yàn)皮爾遜卡方檢驗(yàn)主要用于檢驗(yàn)殘差項(xiàng)的大小。計(jì)算公式：其中yi是觀察值（0或1），pi是估算值的概率，i=1，2…n，分母是估算值的標(biāo)準(zhǔn)差，自由度為n-J-1，其中J為自變量數(shù)目。第十五頁，共二十八頁，2022年，8月28日2）Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)該方法通常適用于自變量很多，或自變量為連續(xù)變量的情形。HL方法根據(jù)預(yù)測概率的大小將所有觀察單位十等分，然后根據(jù)每一組中因變量的實(shí)際值與理論值計(jì)算Peason卡方，其統(tǒng)計(jì)量為：其中G代表分組數(shù)，且G10；ng為第g組中的觀測值數(shù)；yg第g組事件的觀測數(shù)量；pg為第g組的預(yù)測事件概率；ngpg為事件的預(yù)測值，實(shí)際上它等于第g組的觀測概率和。第十六頁，共二十八頁，2022年，8月28日3）對(duì)數(shù)似然比卡方檢驗(yàn)對(duì)數(shù)似然比是用較復(fù)雜模型與基本模型進(jìn)行比較。通常將似然取對(duì)數(shù)并乘以-2，即-2logL，簡稱對(duì)數(shù)似然?；灸Ｐ鸵元?dú)立模型表示：

用L0表示獨(dú)立模型的似然，L1表示非獨(dú)立模型的似然，那么對(duì)數(shù)似然比定義為：遵循卡方分布，其自由度為非獨(dú)立模型的自變量數(shù)目，可用于檢驗(yàn)復(fù)雜模型中自變量對(duì)似然率的增加是否顯著，越大越好。第十七頁，共二十八頁，2022年，8月28日3、logit模型回歸系數(shù)的假設(shè)檢驗(yàn)設(shè)原假設(shè)H0為：βk=0，表示自變量對(duì)事件發(fā)生的可能性無影響；如果原假設(shè)被拒絕，說明自變量對(duì)事件發(fā)生的可能性有影響。Wald檢驗(yàn)在logit模型中，對(duì)回歸系數(shù)進(jìn)行顯著性檢驗(yàn)，通常使用Wald檢驗(yàn)，其計(jì)算公式為：

Wald統(tǒng)計(jì)量實(shí)際上就是正態(tài)分布Z統(tǒng)計(jì)量的平方。在零假設(shè)條件下，每一個(gè)回歸系數(shù)都等于0。Wald統(tǒng)計(jì)量服從卡方分布，其自由度為n-k-1。第十八頁，共二十八頁，2022年，8月28日五、模型解釋

由于logit模型是非線性的，因此不能以傳統(tǒng)回歸模型中自變量與因變量之間的關(guān)系解釋之。通常以發(fā)生比率來解釋logit回歸系數(shù)。

第十九頁，共二十八頁，2022年，8月28日六、多項(xiàng)對(duì)數(shù)比率回歸

我們研究的現(xiàn)象常是多分類的，如職業(yè)的選擇等，這時(shí)需要用多項(xiàng)對(duì)數(shù)比率回歸處理。多項(xiàng)對(duì)數(shù)比率回歸是簡單對(duì)數(shù)比率回歸的擴(kuò)展，由一組對(duì)數(shù)比率方程組成。常用的做法是基準(zhǔn)類比法，即先選出基準(zhǔn)類，然后將它的概率與其它各類的概率進(jìn)行對(duì)比。假如要研究一個(gè)或一組自變量X如何影響人們對(duì)J類職業(yè)選擇，用P1，P2……Pj表示各類職業(yè)的概率，那么多項(xiàng)對(duì)數(shù)比率回歸就可表示為:第二十頁，共二十八頁，2022年，8月28日

需要注意的是：1)就系數(shù)解釋和檢驗(yàn)而言，多項(xiàng)對(duì)數(shù)比率回歸和簡單對(duì)數(shù)比率回歸相同。2)方程組在統(tǒng)計(jì)上不獨(dú)立，必須同時(shí)估算，不可一一求解。第二十一頁，共二十八頁，2022年，8月28日SPSS上的應(yīng)用：1）Analyze—Regression—MultinomialLogistic2）Dependent——用于選入無序多分類的因變量3）Factor——用于選入分類自變量，可以是有序或無序多分類，系統(tǒng)會(huì)自動(dòng)生成虛擬變量。4）Covariates——用于選入連續(xù)型的自變量。選擇系統(tǒng)默認(rèn)值，點(diǎn)擊OK鈕，運(yùn)行所選命令5）結(jié)果解釋數(shù)據(jù)匯總與模型的似然比檢驗(yàn)。擬合優(yōu)度檢驗(yàn)（Pearson，Deviance檢驗(yàn)）。參數(shù)估計(jì)結(jié)果。第二十二頁，共二十八頁，2022年，8月28日七、定序變量對(duì)數(shù)比率

當(dāng)因變量是定序變量，變量值之間具有高低之分時(shí)，在設(shè)計(jì)logit模型時(shí)，就應(yīng)考慮到其中所包含的信息。通常有三種處理方法：鄰類比、升級(jí)比和累進(jìn)比。1、鄰類比鄰類比是將所有相鄰兩類的概率兩兩相比，如果變量含有J個(gè)有序類別，就可得到J-1個(gè)不重復(fù)對(duì)數(shù)比率方程。假如用P1，P2……Pj表示一個(gè)定序變量由低到高各級(jí)類別的概率，設(shè)X是一個(gè)或一組自變量，那么對(duì)數(shù)鄰類比回歸就是：

第二十三頁，共二十八頁，2022年，8月28日

對(duì)于定序變量，常常假設(shè)升級(jí)的作用是一樣的，即在方程組中，各個(gè)方程的斜率項(xiàng)是相同的，β1=β2=……=βj-1,上式可表示為：第二十四頁，共二十八頁，2022年，8月28日2、升級(jí)比

用P1，P2，……Pj表示一定序變量由低到高各級(jí)類別的概率，那么對(duì)數(shù)升級(jí)比回歸就是：第二十五頁，共二十八頁，2022年，8月28日

例如升學(xué)率的研究。將學(xué)校依等級(jí)高低分為小學(xué)、初中、高中和大學(xué)四類。初中升高中的比率不僅是初中畢業(yè)生和高中畢業(yè)生的比率，還應(yīng)包括大學(xué)畢業(yè)生，因?yàn)樗麄円餐瓿闪顺踔械礁咧械纳?jí)過程。升級(jí)比在統(tǒng)計(jì)上是各自獨(dú)立的，因而可以對(duì)照簡單對(duì)數(shù)比率回歸一一估算。加總各獨(dú)立升級(jí)比率回歸的對(duì)數(shù)似然比和自由度，即總模型的對(duì)數(shù)似然比和自由度。第二十六頁，共二十八頁，2022年，8月28日對(duì)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第十講定類或定序因變量回歸分析

文檔簡介

溫馨提示

最新文檔

評(píng)論

第十講定類或定序因變量回歸分析

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔