第7講虛擬變量_第1頁
第7講虛擬變量_第2頁
第7講虛擬變量_第3頁
第7講虛擬變量_第4頁
第7講虛擬變量_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七講多元回歸分析:虛擬變量

MultipleRegressionAnalysis:DummyVariables定性信息和虛擬變量自變量中包含虛擬變量因變量為虛擬變量第一節(jié)定性信息和虛擬變量在回歸中,我們常常會(huì)處理一些不具備定量性質(zhì)的信息,比如某個(gè)城市所處的地理位置(東、中、西等)、一個(gè)人的性別、出生的月份(是否九月一號(hào)之前)、抽煙與否等。定性信息一般通過定義一個(gè)二值變量(binaryvariable)或0-1變量刻畫。在計(jì)量經(jīng)濟(jì)學(xué)中,它們被稱為虛擬變量(dummyvariable)此類變量的數(shù)值只能表示樣本中不同個(gè)體的特征及它們所屬的分組,數(shù)值大小本身并沒有實(shí)際的意義。虛擬變量的分類定類/類別變量(nominal/categoricalvariable)定序/有序變量(ordinalvariable)定距/定量變量(intervalvariable)對(duì)于只有兩種取值的定類變量,可以用0和1表示這兩種取值。這樣的變量稱為虛擬變量(dummyvariable)或二分變量(binaryvariable)。其中,賦值為0的一組稱為對(duì)照組(referencegroup)或基準(zhǔn)組(benchmarkgroup)對(duì)于有多個(gè)取值的定類變量,可構(gòu)造多個(gè)虛擬變量來表示用east、central、west三個(gè)虛擬變量表示不同地區(qū)用sx、jy、qt三個(gè)虛擬變量表示本科生畢業(yè)后的狀態(tài)對(duì)于定序變量和定距變量,也可以用虛擬變量表示學(xué)習(xí)成績(jī)(定序變量)年收入(定距變量,但通過劃分收入?yún)^(qū)間轉(zhuǎn)換為虛擬變量)第二節(jié)自變量中包含虛擬變量一、自變量中包含一個(gè)虛擬變量如果自變量?jī)H為一個(gè)虛擬變量,實(shí)際上是以自變量為分類依據(jù),分析因變量的均值差異1.自變量只有一個(gè)虛擬變量例題7.1:工資差異2.自變量包含定距變量和一個(gè)虛擬變量這種情況下,虛擬變量的回歸系數(shù)表示在控制其它自變量之后,兩組之間的差異。例:工資方程對(duì)這個(gè)方程進(jìn)行線性回歸的估計(jì)結(jié)果根據(jù)回歸的結(jié)果,平均來說,女性每小時(shí)比男性少掙2.156美元。但我們的回歸中控制了edu和exper,所以這2.156美元的工資差距不能由男女在受教育水平和工作經(jīng)歷上的平均差距來解釋。虛擬變量可用于政策分析,虛擬變量取值為0的一組稱為控制組或?qū)φ战M(controlgroup),取值為1的一組稱為實(shí)驗(yàn)組(experimentalgroup)或處理組(treatmentgroup)。例題7.3:課本P2273.因變量為log(y)時(shí),對(duì)虛擬變量系數(shù)的解釋當(dāng)log(y)是一個(gè)存在虛擬變量作為自變量模型的因變量時(shí),將虛擬變量的系數(shù)乘上100,可解釋為y在保持所有其他因素不變的情況下的百分比差異。事實(shí)上,精確的百分比差異是。例題7.4、7.5:課本P2283.虛擬變量陷阱如果定性信息(例如性別)有2種狀態(tài),只設(shè)1個(gè)虛擬變量即可。例如在性別工資差異的模型中,如果在我們的模型中既包括虛擬變量female,也包括虛擬變量male。由于male+female=1,將導(dǎo)致完全共線性。由此可見,當(dāng)使用過多的虛擬變量來描述一定組數(shù)的數(shù)據(jù)時(shí),就會(huì)掉進(jìn)虛擬變量陷阱因此,如果有n種分類,為了避免完全共線性,則回歸時(shí)只能引入n-1個(gè)虛擬變量,未引入的即為對(duì)照組。例如在我們分析性別工資差異的模型中,我們選擇男性為基組(basegroup)或?qū)φ战M,模型中只包含一個(gè)虛擬變量female。二、自變量中包含多個(gè)虛擬變量自變量中包含多個(gè)虛擬變量可分為三種情況每個(gè)虛擬變量代表不同的分類若干個(gè)虛擬變量代表同一種分類,且這種分類是定類的若干個(gè)虛擬變量代表同一種分類,且這種分類是定序的例題7.6:性別和婚姻狀況對(duì)工資的影響(課本P229,)引入性別和婚姻狀況兩個(gè)虛擬變量1.每個(gè)虛擬變量代表不同的分類上述結(jié)果表明,性別對(duì)工資有顯著影響,但婚姻狀況沒有顯著影響。這一模型可能存在問題,即假定婚姻狀況的影響對(duì)于男性和女性是相同的。進(jìn)一步的分析應(yīng)考慮婚姻狀況的影響存在性別差異。例7.6:性別和婚姻狀況對(duì)工資的影響(課本P229,例7.6)虛擬變量的定義下面是以單身男性為對(duì)照組的回歸結(jié)果:lwageCoef.Std.Err.tP>t[95%Conf.Interval]mm0.21270.05543.84000.00000.10390.3214sf-0.11040.0557-1.98000.0480-0.2199-0.0008mf-0.19830.0578-3.43000.0010-0.3119-0.0846…………………根據(jù)研究關(guān)注問題的不同,可以選擇不同的對(duì)照組。下面是以已婚女性為對(duì)照組的回歸結(jié)果:lwageCoef.Std.Err.tP>t[95%Conf.Interval]sm0.19830.05783.43000.00100.08460.3119mm0.41090.04588.98000.00000.32100.5009sf0.08790.05231.68000.0940-0.01490.1908…………………不同性別和婚姻狀況個(gè)體的樣本回歸方程2.若干虛擬變量代表同一分類,且這種分類是定類的例:工資的地區(qū)差異northcen=1表示中北部地區(qū);west=1表示西部地區(qū)south=1表示南部地區(qū);

other_region=1表示其他地區(qū)同樣地,如果有n種分類,回歸時(shí)只能引入n-1個(gè)虛擬變量!以其他地區(qū)為對(duì)照組lwageCoef.Std.Err.tP>tnorthcen-0.07830.0563-1.390.1650south-0.10480.0527-1.990.0470west0.02180.06240.350.7270educ0.08900.007511.860.0000lwageCoef.Std.Err.tP>tnorthcen0.02650.05120.520.6040west0.12660.05742.210.0280other_region0.10480.05271.990.0470educ0.08900.007511.860.0000exper0.04180.00528.000.0000expersq-0.00070.0001-6.250.0000_cons0.08700.10720.810.4170以南部地區(qū)為對(duì)照組

顯然,在以其他地區(qū)作為對(duì)照組時(shí),只有南部地區(qū)的系數(shù)是稍微顯著的,在以南部地區(qū)為對(duì)照組時(shí),西部地區(qū)的系數(shù)顯著性提高,說明西部地區(qū)的工資水平要顯著高于南部地區(qū)。3.若干虛擬變量代表同一分類,且這種分類是定序的例題7.8:法學(xué)院排名對(duì)起薪的影響(P233)排名前10top10=1排名11-25r11_25=1排名26-40r26_40=1排名41-60r41_60=1排名61-100r61_100=1排名100以后bottom=1例題7.8:下面是以排名在100名以后的為對(duì)照組的回歸結(jié)果lsalaryCoef.Std.Err.tP>ttop100.69960.053513.080.0000r11_250.59350.039415.050.0000r26_400.37510.034111.010.0000r41_600.26280.02809.400.0000r61_1000.13160.02106.250.0000LSAT0.00570.00311.860.0660GPA0.01370.07420.190.8540llibvol0.03640.02601.400.1650lcost0.00080.02510.030.9730_cons9.16530.411422.280.0000

顯然,排名的系數(shù)均顯著異于零,其他變量的系數(shù)均不顯著,也就是說,法學(xué)院的排名是影響畢業(yè)生起薪的重要原因。排名變量系數(shù)高出的百分點(diǎn)精確的百分?jǐn)?shù)差異排名前10top10=10.6996***69.96%101.3%排名11-25r11_25=10.5935***59.35%81.03%排名26-40r26_40=10.3751***37.51%45.51%排名41-60r41_60=10.2628***26.28%30.06%排名61-100r61_100=10.1316***13.16%14.07%排名100以后bottom=1------------排名對(duì)畢業(yè)生薪水的影響(回歸結(jié)果的計(jì)算)以排名在100名以后的法學(xué)院為對(duì)照組以排名在26-60名的為對(duì)照組lsalaryCoef.Std.Err.tP>ttop100.37330.04378.550.0000r11_250.27660.03238.560.0000r61_100-0.17320.0240-7.220.0000bottom-0.29940.0269-11.140.0000LSAT0.00490.00321.530.1290GPA0.05960.07590.780.4340llibvol0.04360.02701.620.1090lcost0.01030.02600.390.6940_cons9.32140.440221.180.0000三、自變量中涉及虛擬變量的交互作用例如:性別和婚姻狀況對(duì)工資的影響femalemarriedfemale_married單身男性000已婚男性010單身女性100已婚女性1111.含有虛擬變量之間的交互作用以單身男性為對(duì)照組因此有:2.含有虛擬變量與定距變量的交互作用考慮模型:該模型假定男性和女性工資方程的截距不同,但受教育年限的斜率系數(shù)對(duì)于男性和女性都是相同的femalelwagemaleeduc該模型及圖的意思是,各種受教育程度的女人的工資都比同等教育程度的男人少,但教育的邊際對(duì)男、女而言是相同的。考慮模型:該模型假定男性和女性工資方程的截距不同,而且受教育年限的斜率系數(shù)對(duì)于男性和女性也不同。femalelwageeducmale該模型和圖的意思是,女人在受教育程度很低時(shí)工資比男人少,但隨受教育程度的提高,這種差距逐步縮小,并最終會(huì)超過同等受教育程度男人的工資。對(duì)于模型:要檢驗(yàn)?zāi)信芙逃貓?bào)是否相同,用t檢驗(yàn),H0:δ1=0要檢驗(yàn)受教育水平相等的男女平均工資是否相同,用F檢驗(yàn),H0:δ0=δ1=0例題7.10:教育收益率的性別差異(P236)值得注意的是,回歸的結(jié)果表明,female和female與education的交互項(xiàng)均不顯著,是否就意味著男女工資并不存在明顯差異,而且男女受教育的邊際收益也不存在明顯差異?比較之前不含交互項(xiàng)的回歸:顯然,female的系數(shù)是非常顯著的,也就是說男女工資的確存在明顯差異。

在加入交互項(xiàng)之后,female的系數(shù)變得不顯著,可能是因?yàn)榧尤氲慕换ロ?xiàng)和在樣本中高度相關(guān),從而使得female系數(shù)的標(biāo)準(zhǔn)誤差顯著提高,降低了該變量的顯著性。由此可見的,單純依據(jù)這兩個(gè)變量本身的t統(tǒng)計(jì)量,就斷定二者都不顯著是不合理的,必須運(yùn)用F統(tǒng)計(jì)量檢驗(yàn)二者是否同時(shí)為零,帶約束條件的回歸結(jié)果如下:依據(jù)聯(lián)合檢驗(yàn)的方法,得到F統(tǒng)計(jì)量為:由此,可以斷定,男女工資存在顯著差異,但教育的邊際回報(bào)不存在顯著差異。因此,應(yīng)該選擇不含交互項(xiàng)的回歸方程。利用虛擬變量和其它變量的交互項(xiàng)可以用來檢驗(yàn)兩組之間是否有相同的回歸系數(shù)例:大學(xué)運(yùn)動(dòng)員成績(jī)的影響因素P238~239H0意味著三類因素對(duì)男女運(yùn)動(dòng)員成績(jī)的影響是相同的回歸結(jié)果:檢驗(yàn)兩組回歸方程是否完全相同的假設(shè)檢驗(yàn)通常被稱為鄒檢驗(yàn)(Chowtest),同學(xué)們不用刻意去記它,只要知道它是一種特殊的F檢驗(yàn)就可以了也可以只對(duì)斜率的組間差異進(jìn)行檢驗(yàn),即考察三個(gè)解釋變量對(duì)不同性別大學(xué)運(yùn)動(dòng)員成績(jī)的影響是否存在顯著差異因此,最終的模型可設(shè)定為:第三節(jié)因變量為虛擬變量一、線性概率模型(linearprobabilitymodel,LPM)例:婦女的勞動(dòng)力市場(chǎng)參與(P243)例7.12:拘捕率的一個(gè)線性概率模型(P245)二、

Logit模型和Probit模型當(dāng)因變量為虛擬變量時(shí),更為常用的方法是使用logit模型或probit模型。與線性概率模型相比,這兩個(gè)模型的概率估計(jì)值嚴(yán)格介于0到1之間,而且自變量的變化對(duì)因變量的邊際影響不是常數(shù)。通過logit模型和probit模型得到的系數(shù)的符號(hào)及其顯著性與線性概率模型相同,但對(duì)系數(shù)的解釋有所不同。另外,logit模型和probit模型采用的是極大似然估計(jì)法。本課程對(duì)logit模型和probit模型不做要求,但這兩個(gè)模型應(yīng)用很廣,有興趣的同學(xué)可參看課本17.1節(jié),P564-575當(dāng)因變量為多分類變量時(shí),可使用mlogit或mprobit模型當(dāng)因變量為定序變量時(shí),可使用ologit或oprobit模型推廣:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論