第十講定類或定序因變量回歸分析_第1頁
第十講定類或定序因變量回歸分析_第2頁
第十講定類或定序因變量回歸分析_第3頁
第十講定類或定序因變量回歸分析_第4頁
第十講定類或定序因變量回歸分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十講定類或定序因變量回歸分析第一頁,共二十八頁,2022年,8月28日當(dāng)因變量是一個(gè)定類變量而不是定距變量時(shí),線性回歸模型受到挑戰(zhàn)。如政治學(xué)中研究是否選舉某候選人,經(jīng)濟(jì)學(xué)研究中涉及的是否銷售或購買某種商品,社會(huì)學(xué)和人口學(xué)研究中所涉及的如犯罪、遷移、婚姻、生育、患病等等都可以按照二分類變量或多分類來測量。

一、問題的提出第二頁,共二十八頁,2022年,8月28日在研究態(tài)度與偏好等心理現(xiàn)象時(shí)也經(jīng)常按類型進(jìn)行測量的,如“強(qiáng)烈反對(duì)”、“反對(duì)”、“中立”、“支持”、和“強(qiáng)烈支持”。連續(xù)變量轉(zhuǎn)換成類型變量的情形,如在分析升學(xué)考試的影響因素時(shí),將考生分為錄取線以上和錄取線以下。第三頁,共二十八頁,2022年,8月28日

從統(tǒng)計(jì)理論上看,最小二乘法關(guān)注正態(tài)分布,然而社會(huì)經(jīng)濟(jì)現(xiàn)象往往有不同于正態(tài)分布的其他分布,例如:(1)二項(xiàng)分布(binomialdistribution)(2)泊松分布(Poisson)第四頁,共二十八頁,2022年,8月28日

二、線性概率模型1、模型建立以最小二乘法為基礎(chǔ)的線性回歸方程是估測因變量的平均值,而二分變量的均值有一個(gè)特定的意義,即概率。用普通線性回歸方程估測概率,就是所謂的線性概率回歸。用公式表示為:P=a+∑βiXi+ε

對(duì)二項(xiàng)分布線性概率模型的結(jié)果解釋:在其他變量不變的情形下,x每增加一個(gè)單位,事件發(fā)生概率的期望將變動(dòng)β個(gè)單位。

第五頁,共二十八頁,2022年,8月28日例如,林楠和謝文(1988)曾用線性概率模型估測入黨(政治資本)的概率,模型為:P=-0.39+0.01A+0.04E+0.03U

其中:P—黨員概率,A—年齡,E—受教育年限,U—單位身份第六頁,共二十八頁,2022年,8月28日1)無意義的解釋從解釋力上看,由于概率的值是有邊界的,在0與1之間。但林楠方程很有可能要超過該限制,因變量的估計(jì)值可能是負(fù)數(shù),也可能大于1,因此模型的結(jié)果是無意義的。例如,運(yùn)用林楠方程,我們發(fā)現(xiàn)如果年齡為100歲,受教育程度超過10年,則入黨的概率約等于1。2)非線性關(guān)系2、線性概率模型存在的問題第七頁,共二十八頁,2022年,8月28日

三、簡單對(duì)數(shù)比率回歸

1、模型建立既然用線性概率回歸存在局限性,能否用比率做因變量呢?比如用男女比率作因變量,用成功與不成功之比做因變量。用比率做因變量存在的問題是,比率是非對(duì)稱的.第八頁,共二十八頁,2022年,8月28日表1概率、比率和對(duì)數(shù)比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099對(duì)數(shù)比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.60第九頁,共二十八頁,2022年,8月28日

一個(gè)簡單的解決辦法就是取對(duì)數(shù),結(jié)果就是所謂對(duì)數(shù)比率(logit)。若用P代表某事件的概率,則對(duì)數(shù)比率函數(shù)的定義為g(P)=log(P/1-P)以對(duì)數(shù)比率為因變量對(duì)自變量X1,X2,X3……做回歸稱為對(duì)數(shù)比率回歸(logisticregression),其方程式為:

第十頁,共二十八頁,2022年,8月28日

該模型即為logit回歸模型。logit回歸模型是普通多元線性回歸模型的推廣,但它的誤差項(xiàng)服從二項(xiàng)分布,因此需要采用極大似然估計(jì)方法進(jìn)行參數(shù)估計(jì),參數(shù)稱為logit回歸系數(shù),表示當(dāng)其他自變量取值保持不變時(shí),該自變量取值增加一個(gè)單位引起的發(fā)生比自然對(duì)數(shù)值的變化量。第十一頁,共二十八頁,2022年,8月28日2、發(fā)生比

發(fā)生比是事件的發(fā)生頻數(shù)與不發(fā)生頻數(shù)之間的比,即:Odds=(事件發(fā)生頻數(shù))/(事件不發(fā)生頻數(shù))

當(dāng)比值大于1時(shí),表明事件更有可能發(fā)生。比如一個(gè)事件發(fā)生的概率為0.6,事件不發(fā)生的概率為0.4,發(fā)生比等于0.6/0.4=1.5。事件發(fā)生的可能性是不發(fā)生的1.5倍。第十二頁,共二十八頁,2022年,8月28日四、logistic回歸模型的檢驗(yàn)與評(píng)價(jià)1、Logistic回歸模型估計(jì)的假設(shè)前提第一、數(shù)據(jù)來自于隨機(jī)樣本。第二、因變量Yi被假設(shè)為K個(gè)自變量Xk(k=1,2,…,K)的函數(shù)。第三、正如OLS回歸,logistic回歸也對(duì)多重共線性有所限制,自變量之間存在多重共線性會(huì)導(dǎo)致標(biāo)準(zhǔn)誤的膨脹。

Logistic回歸模型還有一些與OLS回歸不同的假設(shè)前提:第一,因變量是二分變量;第二,因變量和各自變量之間的關(guān)系是非線性的。第十三頁,共二十八頁,2022年,8月28日2、擬合優(yōu)度檢驗(yàn)

如果模型的預(yù)測值能夠與對(duì)應(yīng)的觀測值有較高的一致性,就認(rèn)為這一模型能夠擬合數(shù)據(jù)。否則需要對(duì)模型重新設(shè)置。因此,模型的擬合優(yōu)度是指預(yù)測值與觀測值的匹配程度。檢驗(yàn)擬合優(yōu)度的指標(biāo)有皮爾遜卡方檢驗(yàn)、對(duì)數(shù)似然比卡方檢驗(yàn)等。第十四頁,共二十八頁,2022年,8月28日1)皮爾遜卡方檢驗(yàn)皮爾遜卡方檢驗(yàn)主要用于檢驗(yàn)殘差項(xiàng)的大小。計(jì)算公式:其中yi是觀察值(0或1),pi是估算值的概率,i=1,2…n,分母是估算值的標(biāo)準(zhǔn)差,自由度為n-J-1,其中J為自變量數(shù)目。第十五頁,共二十八頁,2022年,8月28日2)Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)該方法通常適用于自變量很多,或自變量為連續(xù)變量的情形。HL方法根據(jù)預(yù)測概率的大小將所有觀察單位十等分,然后根據(jù)每一組中因變量的實(shí)際值與理論值計(jì)算Peason卡方,其統(tǒng)計(jì)量為:其中G代表分組數(shù),且G10;ng為第g組中的觀測值數(shù);yg第g組事件的觀測數(shù)量;pg為第g組的預(yù)測事件概率;ngpg為事件的預(yù)測值,實(shí)際上它等于第g組的觀測概率和。第十六頁,共二十八頁,2022年,8月28日3)對(duì)數(shù)似然比卡方檢驗(yàn)對(duì)數(shù)似然比是用較復(fù)雜模型與基本模型進(jìn)行比較。通常將似然取對(duì)數(shù)并乘以-2,即-2logL,簡稱對(duì)數(shù)似然?;灸P鸵元?dú)立模型表示:

用L0表示獨(dú)立模型的似然,L1表示非獨(dú)立模型的似然,那么對(duì)數(shù)似然比定義為:遵循卡方分布,其自由度為非獨(dú)立模型的自變量數(shù)目,可用于檢驗(yàn)復(fù)雜模型中自變量對(duì)似然率的增加是否顯著,越大越好。第十七頁,共二十八頁,2022年,8月28日3、logit模型回歸系數(shù)的假設(shè)檢驗(yàn)設(shè)原假設(shè)H0為:βk=0,表示自變量對(duì)事件發(fā)生的可能性無影響;如果原假設(shè)被拒絕,說明自變量對(duì)事件發(fā)生的可能性有影響。Wald檢驗(yàn)在logit模型中,對(duì)回歸系數(shù)進(jìn)行顯著性檢驗(yàn),通常使用Wald檢驗(yàn),其計(jì)算公式為:

Wald統(tǒng)計(jì)量實(shí)際上就是正態(tài)分布Z統(tǒng)計(jì)量的平方。在零假設(shè)條件下,每一個(gè)回歸系數(shù)都等于0。Wald統(tǒng)計(jì)量服從卡方分布,其自由度為n-k-1。第十八頁,共二十八頁,2022年,8月28日五、模型解釋

由于logit模型是非線性的,因此不能以傳統(tǒng)回歸模型中自變量與因變量之間的關(guān)系解釋之。通常以發(fā)生比率來解釋logit回歸系數(shù)。

第十九頁,共二十八頁,2022年,8月28日六、多項(xiàng)對(duì)數(shù)比率回歸

我們研究的現(xiàn)象常是多分類的,如職業(yè)的選擇等,這時(shí)需要用多項(xiàng)對(duì)數(shù)比率回歸處理。多項(xiàng)對(duì)數(shù)比率回歸是簡單對(duì)數(shù)比率回歸的擴(kuò)展,由一組對(duì)數(shù)比率方程組成。常用的做法是基準(zhǔn)類比法,即先選出基準(zhǔn)類,然后將它的概率與其它各類的概率進(jìn)行對(duì)比。假如要研究一個(gè)或一組自變量X如何影響人們對(duì)J類職業(yè)選擇,用P1,P2……Pj表示各類職業(yè)的概率,那么多項(xiàng)對(duì)數(shù)比率回歸就可表示為:第二十頁,共二十八頁,2022年,8月28日

需要注意的是:1)就系數(shù)解釋和檢驗(yàn)而言,多項(xiàng)對(duì)數(shù)比率回歸和簡單對(duì)數(shù)比率回歸相同。2)方程組在統(tǒng)計(jì)上不獨(dú)立,必須同時(shí)估算,不可一一求解。第二十一頁,共二十八頁,2022年,8月28日SPSS上的應(yīng)用:1)Analyze—Regression—MultinomialLogistic2)Dependent——用于選入無序多分類的因變量3)Factor——用于選入分類自變量,可以是有序或無序多分類,系統(tǒng)會(huì)自動(dòng)生成虛擬變量。4)Covariates——用于選入連續(xù)型的自變量。選擇系統(tǒng)默認(rèn)值,點(diǎn)擊OK鈕,運(yùn)行所選命令5)結(jié)果解釋數(shù)據(jù)匯總與模型的似然比檢驗(yàn)。擬合優(yōu)度檢驗(yàn)(Pearson,Deviance檢驗(yàn))。參數(shù)估計(jì)結(jié)果。第二十二頁,共二十八頁,2022年,8月28日七、定序變量對(duì)數(shù)比率

當(dāng)因變量是定序變量,變量值之間具有高低之分時(shí),在設(shè)計(jì)logit模型時(shí),就應(yīng)考慮到其中所包含的信息。通常有三種處理方法:鄰類比、升級(jí)比和累進(jìn)比。1、鄰類比鄰類比是將所有相鄰兩類的概率兩兩相比,如果變量含有J個(gè)有序類別,就可得到J-1個(gè)不重復(fù)對(duì)數(shù)比率方程。假如用P1,P2……Pj表示一個(gè)定序變量由低到高各級(jí)類別的概率,設(shè)X是一個(gè)或一組自變量,那么對(duì)數(shù)鄰類比回歸就是:

第二十三頁,共二十八頁,2022年,8月28日

對(duì)于定序變量,常常假設(shè)升級(jí)的作用是一樣的,即在方程組中,各個(gè)方程的斜率項(xiàng)是相同的,β1=β2=……=βj-1,上式可表示為:第二十四頁,共二十八頁,2022年,8月28日2、升級(jí)比

用P1,P2,……Pj表示一定序變量由低到高各級(jí)類別的概率,那么對(duì)數(shù)升級(jí)比回歸就是:第二十五頁,共二十八頁,2022年,8月28日

例如升學(xué)率的研究。將學(xué)校依等級(jí)高低分為小學(xué)、初中、高中和大學(xué)四類。初中升高中的比率不僅是初中畢業(yè)生和高中畢業(yè)生的比率,還應(yīng)包括大學(xué)畢業(yè)生,因?yàn)樗麄円餐瓿闪顺踔械礁咧械纳?jí)過程。升級(jí)比在統(tǒng)計(jì)上是各自獨(dú)立的,因而可以對(duì)照簡單對(duì)數(shù)比率回歸一一估算。加總各獨(dú)立升級(jí)比率回歸的對(duì)數(shù)似然比和自由度,即總模型的對(duì)數(shù)似然比和自由度。第二十六頁,共二十八頁,2022年,8月28日對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論