整理stata回歸分析完整步驟-吐血推薦_第1頁(yè)
整理stata回歸分析完整步驟-吐血推薦_第2頁(yè)
整理stata回歸分析完整步驟-吐血推薦_第3頁(yè)
整理stata回歸分析完整步驟-吐血推薦_第4頁(yè)
整理stata回歸分析完整步驟-吐血推薦_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、stata回歸分析完整步驟一一吐血推薦*下載連乘函數(shù)prod,方法為:finditdm71sortstkcddate/對(duì)公司和日期排序genr1=1+r/r為實(shí)際公司的股票收益率genr2=1+r_yq/r_yq為公司的預(yù)期股票收益率egenr3=prod(r1),by(stkcddate)/求每個(gè)公司事件日的累計(jì)復(fù)合收益率egenr4=prod(r2),by(stkcddate)/求每個(gè)公司事件日的累計(jì)預(yù)期的復(fù)合收益率genr=r4-r3captureclear(清空內(nèi)存中的數(shù)據(jù))capturelogclose(關(guān)閉所有打開(kāi)的日志文件)setmem128m(設(shè)置用于stata使用的內(nèi)存容量)

2、setmoreoff(關(guān)閉more選項(xiàng)。如果打開(kāi)該選項(xiàng),那么結(jié)果分屏輸出,即一次只輸出一屏結(jié)果。你按空格鍵后再輸出下一屏,直到全部輸完。如果關(guān)閉則中間不停,一次全部輸出。)setmatsize4000(設(shè)置矩陣的最大階數(shù)。我用的是不是太大了?)cdD:(進(jìn)入數(shù)據(jù)所在的盤(pán)符和文件夾。和dos的命令行很相似。)logusing(文件名).log,replace(打開(kāi)日志文件,并更新。日志文件將記錄下所有文件運(yùn)行后給出的結(jié)果,如果你修改了文件內(nèi)容,replace選項(xiàng)可以將其更新為最近運(yùn)行的結(jié)果。)use(文件名),clear(打開(kāi)數(shù)據(jù)文件。)(文件內(nèi)容)logclose(關(guān)閉日志文件。)exit,c

3、lear(退出并清空內(nèi)存中的數(shù)據(jù)。)假設(shè)你清楚地知道所需的變量,現(xiàn)在要做的是檢查數(shù)據(jù)、生成必要的數(shù)據(jù)并形成數(shù)據(jù)庫(kù)供將來(lái)使用。檢查數(shù)據(jù)的重要命令包括codebook,su,ta,des和list。其中,codebook提供的信息最全面,缺點(diǎn)是不能使用if條件限制范圍,所以,有時(shí)還要用別的幫幫忙。su空格加變量名報(bào)告相應(yīng)變量的非缺失的觀察個(gè)數(shù),均值,標(biāo)準(zhǔn)差,最小值和最大值。ta空格后面加一個(gè)(或兩個(gè))變量名是報(bào)告某個(gè)變量(或兩個(gè)變量二維)的取值(不含缺失值)的頻數(shù),比率和按大小排列的累積比率。des后面可以加任意個(gè)變量名,只要數(shù)據(jù)中有。它報(bào)告變量的存儲(chǔ)的類型,顯示的格式和標(biāo)簽。標(biāo)簽中一般記錄這個(gè)變

4、量的定義和單位。list報(bào)告變量的觀察值,可以用if或in來(lái)限制范圍。所有這些命令都可以后面不加任何變量名,報(bào)告的結(jié)果是正在使用的數(shù)據(jù)庫(kù)中的所有變量的相應(yīng)信息。說(shuō)起來(lái)蒼白無(wú)力,打開(kāi)stata親自實(shí)驗(yàn)一下吧。順帶說(shuō)點(diǎn)兒題外話。除了codebook之外,上述統(tǒng)計(jì)類的命令都屬于r族命令(又稱一般命令)。執(zhí)行后都可以使用returnlist報(bào)告儲(chǔ)存在r()中的統(tǒng)計(jì)結(jié)果。最典型的r族命令當(dāng)屬summarize。它會(huì)把樣本量、均值、標(biāo)準(zhǔn)差、方差、最小值、最大值、總和等統(tǒng)計(jì)信息儲(chǔ)存起來(lái)。彳在執(zhí)行su之后,只需敲入returnlist就可以得到所有這些信息。其實(shí),和一般命令的return命令類似,估計(jì)命令(又

5、稱e族命令)也有ereturn命令,具有報(bào)告,儲(chǔ)存信息的功能。在更復(fù)雜的編程中,比如對(duì)回歸分解,計(jì)算一些程序中無(wú)法直接計(jì)算的統(tǒng)計(jì)量,這些功能更是必不可少。檢查數(shù)據(jù)時(shí),先用codebook看一下它的值域和單位。如果有-9,-99這樣的取值,查一下問(wèn)卷中對(duì)缺失值的記錄方法。確定它們是缺失值后,改為用點(diǎn)記錄。命令是replace(變量名尸.if(變量名)=-9。再看一下用點(diǎn)記錄的缺失值有多少,作為選用變量的一個(gè)依據(jù)。得到可用的數(shù)據(jù)后,我會(huì)給沒(méi)有標(biāo)簽的變量加上注解。或者統(tǒng)一標(biāo)簽;或者統(tǒng)一變量的命名規(guī)則。更改變量名的命令是ren(原變量名)空格(新變量名)。定義標(biāo)簽的命令是labelvar(變量名)空格

6、”(標(biāo)簽內(nèi)容)”。整齊劃一的變量名有助于記憶,簡(jiǎn)明的標(biāo)簽有助于明確變量的單位等信息。如果你需要使用通過(guò)原始變量派生出的新變量,那么就需要了解gen,egen和replace這三個(gè)命令。gen和replace常常在一起使用。它們的基本語(yǔ)法是gen(或replace)空格(變量名)=(表達(dá)式)。二者的不同之處在于gen是生成新變量,replace是重新定義舊變量。虛擬變量是我們常常需要用到的一類派生變量。如果你需要生成的虛擬變量個(gè)數(shù)不多,可以有兩種方法生成。一種是簡(jiǎn)明方法:gen空格(變量名)=(限制條件)這外面的小括弧是命令需要的,里面的小括弧不是命令需要的,只是說(shuō)明“限制條件”并非命令。如果某

7、個(gè)觀察滿足限制條件,那么它的這個(gè)虛擬變量取值為1,否則為0。另一種要麻煩一點(diǎn)。就是gen(變量名)=1if(取值為一限制條件)replace(相同的變量名)=0if(取值為零的限制條件)兩個(gè)方法貌似一樣,但有一個(gè)小小的區(qū)別。如果限制條件中使用的變量都沒(méi)有任何缺失值,那么兩種方法的結(jié)果一樣。如果有缺失值,第一種方法會(huì)把是缺失值的觀察的虛擬變量都定義為0。而第二種方法可以將虛擬變量的取值分為三種,-一是等于1,是等于0,二是等于缺失值。這樣就避免了把本來(lái)信息不明的觀察錯(cuò)誤地納入到回歸中去。下次再講如何方便地生成成百上千個(gè)虛擬變量。大量的虛擬變量往往是根據(jù)某個(gè)已知變量的取值生成的。比如,在某個(gè)回歸中

8、希望控制每個(gè)觀察所在的社區(qū),即希望控制標(biāo)記社區(qū)的虛擬變量。社區(qū)數(shù)目可能有成百上千個(gè),如果用上次的所說(shuō)的方法生成就需要重復(fù)成百上千次,這也太笨了。大量生成虛擬變量的命令如下;ta(變量名),gen(變量名)第一個(gè)括號(hào)里的變量名是已知的變量,在上面的例子中是社區(qū)編碼。后一個(gè)括號(hào)里的變量名是新生成的虛擬變量的共同前綴,后面跟數(shù)字表示不同的虛擬變量。如果我在這里填入d,那么,上述命令就會(huì)新生成di,d2,等等,直到所有社區(qū)都有一個(gè)虛擬變量。在回歸中控制社區(qū)變量,只需簡(jiǎn)單地放入這些變量即可。一個(gè)麻煩是虛擬變量太多,怎么簡(jiǎn)單地加入呢?一個(gè)辦法是用省略符號(hào),d*表示所有d字母開(kāi)頭的變量,另一法是用破折號(hào),d

9、1-d150表示第一個(gè)到第150個(gè)社區(qū)虛擬變量(假設(shè)共有150個(gè)社區(qū))。還有一種方法可以在回歸中直接控制虛擬變量,而無(wú)需真的去生成這些虛擬變量。使用命令areg可以做到,它的語(yǔ)法是areg(被解釋變量)(解釋變量),absorb(變量名)absorb選項(xiàng)后面的變量名和前面講的命令中第一個(gè)變量名相同。在上面的例子中即為社區(qū)編碼。回歸的結(jié)果和在reg中直接加入相應(yīng)的虛擬變量相同。生成變量的最后一招是egen。egen和gen都用于生成新變量,但egen的特點(diǎn)是它更強(qiáng)大的函數(shù)功能。gen可以支持一些函數(shù),egen支持額外的函數(shù)。如果用gen搞不定,就得用egen想辦法了。不過(guò)我比較懶,到現(xiàn)在為止只用

10、用取平均、加和這些簡(jiǎn)單的函數(shù)。有的時(shí)候數(shù)據(jù)情況復(fù)雜一些,往往生成所需變量不是非常直接,就需要多幾個(gè)過(guò)程。曾經(jīng)碰到原始數(shù)據(jù)中記錄日期有些怪異的格式。比如,1991年10月23日被記錄為19911023。我想使用它年份和月份,并生成虛擬變量。下面是我的做法:genyr=int(date)genmo=int(data-yr*10000)/100)tayr,gen(yd)tamo,gen(md)假設(shè)你已經(jīng)生成了所有需要的變量,現(xiàn)在最重要白就是保存好你的工作。使用的命令是save空格(文件名),replace。和前面介紹的一樣,replace選項(xiàng)將更新你對(duì)數(shù)據(jù)庫(kù)的修改,所以一定要小心使用。最好另存一個(gè)新

11、的數(shù)據(jù)庫(kù),如果把原始庫(kù)改了又變不回去,就叫天不應(yīng)叫地不靈了。前面說(shuō)的都是對(duì)單個(gè)數(shù)據(jù)庫(kù)的簡(jiǎn)單操作,但有時(shí)我們需要改變數(shù)據(jù)的結(jié)構(gòu),或者抽取來(lái)自不同數(shù)據(jù)庫(kù)的信息,因此需要更方便的命令。這一類命令中我用過(guò)的有:改變數(shù)據(jù)的縱橫結(jié)構(gòu)的命令reshape,生成退化的數(shù)據(jù)庫(kù)collapse,合并數(shù)據(jù)庫(kù)的命令append和merge??v列(longitudinal)數(shù)據(jù)通常包括同一個(gè)行為者(agent)在不同時(shí)期的觀察,所以處理這類數(shù)據(jù)常常需要把數(shù)據(jù)庫(kù)從寬表變成長(zhǎng)表,或者相反。所謂寬表是以每個(gè)行為者為一個(gè)觀察,不同時(shí)期的變量都記錄在這個(gè)觀察下,例如,行為者是廠商,時(shí)期有2000、2001年,變量是雇傭人數(shù)和所在

12、城市,假設(shè)雇傭人數(shù)在不同時(shí)期不同,所在城市則不變。寬表記錄的格式是每個(gè)廠商是一個(gè)觀察,沒(méi)有時(shí)期變量,雇傭人數(shù)有兩個(gè)變量,分別記錄2000年和2001年的人數(shù),所在城市只有一個(gè)變量。所謂長(zhǎng)表是行為者和時(shí)期共同定義觀察,在上面的例子中,每個(gè)廠商有兩個(gè)觀察,有時(shí)期變量,雇傭人數(shù)和所在城市都只有一個(gè),它們和時(shí)期變量共同定義相應(yīng)時(shí)期的變量取值。在上面的例子下,把寬表變成長(zhǎng)表的命令格式如下:reshapelong(雇傭人數(shù)的變量名),i(標(biāo)記廠商的變量名)j(標(biāo)記時(shí)期的變量名)因?yàn)樗诔鞘胁浑S時(shí)期變化,所以在轉(zhuǎn)換格式時(shí)不用放在reshapelong后面,轉(zhuǎn)換前后也不改變什么。相反地,如果把長(zhǎng)表變成寬表則使

13、用如下命令reshapewide(雇傭人數(shù)的變量名),i(標(biāo)記廠商的變量名)j(標(biāo)記時(shí)期的變量名)唯一的區(qū)別是10ng換成了wide。collapse的用處是計(jì)算某個(gè)數(shù)據(jù)庫(kù)的一些統(tǒng)計(jì)量,再把它存為只含有這些統(tǒng)計(jì)量的數(shù)據(jù)庫(kù)。用到這個(gè)命令的機(jī)會(huì)不多,我使用它是因?yàn)樗梢杂?jì)算中位數(shù)和從1到99的百分位數(shù),這些統(tǒng)計(jì)量在常規(guī)的數(shù)據(jù)描述命令中沒(méi)有。如果要計(jì)算中位數(shù),其命令的語(yǔ)法如下collapse(median)(變量名),by(變量名)生成的新數(shù)據(jù)庫(kù)中記錄了第一個(gè)括號(hào)中的變量(可以是多個(gè)變量)的中位數(shù)。右面的by選項(xiàng)是根據(jù)某個(gè)變量分組計(jì)算中位數(shù),沒(méi)有這個(gè)選項(xiàng)則計(jì)算全部樣本的中位數(shù)。合并數(shù)據(jù)庫(kù)有兩種方式,

14、一種是增加觀察,另一種是增加變量。第一種用append,用在兩個(gè)數(shù)據(jù)庫(kù)的格式一樣,但觀察不一樣,只需用append空格using空格(文件名)就可以狗尾續(xù)貂了。簡(jiǎn)單明了,不會(huì)有什么錯(cuò)。另一種就不同了,需要格外小心。如果兩個(gè)數(shù)據(jù)庫(kù)中包含共同的觀察,但是變量不同,希望從一個(gè)數(shù)據(jù)庫(kù)中提取一些變量到另一個(gè)數(shù)據(jù)庫(kù)中用merge。完整的命令如下:use(文件名)打開(kāi)輔助數(shù)據(jù)庫(kù)sort(變量名)根據(jù)變量排序,這個(gè)變量是兩個(gè)數(shù)據(jù)庫(kù)共有的識(shí)別信息save(文件名),replace保存輔助數(shù)據(jù)庫(kù)use(文件名)打開(kāi)主數(shù)據(jù)庫(kù)sort(變量名)對(duì)相同的變量排序merge(變量名)using(文件名),keep(變量名

15、)第一個(gè)變量名即為前面sort后面的變量名,文件名是輔助數(shù)據(jù)庫(kù)的名字,后面的變量名是希望提取的變量名ta_merge顯示_merge的取值情況。_merge等于1的觀察是僅主庫(kù)有的,等于2的是僅輔助庫(kù)有的,等于3是兩個(gè)庫(kù)都有的。dropif_merge=2刪除僅僅來(lái)自輔助庫(kù)的觀察dropmerge刪除_mergesave(文件名),replace將合并后的文件保存,通常另存講到這里似乎對(duì)于數(shù)據(jù)的生成和處理應(yīng)該閉嘴了。大家可能更想聽(tīng)聽(tīng)估計(jì)、檢驗(yàn)這些事情。但我并不想就此止住,因?yàn)閷?shí)際中總是有一些簡(jiǎn)單套用命令無(wú)法輕易辦到的特殊要求。此時(shí)至少有兩條路可以通向羅馬:一是找到更高級(jí)的命令一步到位;二是利用

16、已知簡(jiǎn)單命令多繞幾個(gè)圈子達(dá)到目的。下面講一個(gè)令我刻骨銘心的經(jīng)歷,這也是迄今我所碰到的生成新數(shù)據(jù)中最繁復(fù)的了。原始數(shù)據(jù)中包含了可以識(shí)別屬于同一個(gè)家庭中所有個(gè)人的信息和家庭成員與戶主關(guān)系的信息。目的是利用這些信息建立親子關(guān)系。初步的構(gòu)想是新數(shù)據(jù)庫(kù)以子輩為觀察,找到他們的父母,把父母的變量添加到每個(gè)觀察上。我的做法如下:usea1,clear打開(kāi)全部樣本數(shù)據(jù)庫(kù)keepifgender=2&agemos>=96&a8=1&line<10保留已婚的一定年齡的女性replacea5=1ifa5=0變量a5標(biāo)記和戶主的關(guān)系。等于0是戶主,等于1是戶主的配偶。這里不加區(qū)分地

17、將戶主及其配偶放在一起。keepifa5=1|a5=3|a5=7保留是戶主(=1),是戶主的子女(=3),或是戶主的兒媳(=7)的那些人。renhhf將所需變量加上后綴f,表示女性renlinelf將所需變量加上后綴f,表示女性sortwavehhidsaveb1,replace排序并保存keepifa5f=1留下其中是戶主或戶主配偶的saveb2,replace保存useb1,clearkeepifa5f=3|a5f=7saveb3,replace留下其中是戶主女兒或兒媳的并保存usea3,clear打開(kāi)與戶主關(guān)系是戶主子女的兒童數(shù)據(jù)庫(kù)sortwavehhidmergewavehhidusi

18、ngCHNS01b2,keep(hflf)ta_mergedropif_merge=2sorthhidlinewave處理兩代戶,將戶主配偶女性庫(kù)與兒童庫(kù)合并byhhidlinewave:egenx=count(id)dropx_merge計(jì)算每個(gè)年份家庭匹配的情況,x只取值1,表明兩代戶匹配成功saveb4,replace保存usea4,clear打開(kāi)與戶主關(guān)系是戶主孫子女的兒童數(shù)據(jù)庫(kù)sortwavehhidmergewavehhidusingCHNS01b3,keep(a5fa8fschfa12fhfagemosfc8flf)ta_mergedropif_merge=2處理三代戶,將戶主女

19、兒或兒媳女性庫(kù)與孫子女兒童庫(kù)合并sorthhidlinewavebyhhidlinewave:egenx=count(id)gena=agemosf-agemosdropifa<216&x=3計(jì)算每個(gè)年份家庭匹配的情況,x不只取1,三代戶匹配不完全成功。刪除不合理的樣本,標(biāo)準(zhǔn)是年齡差距和有三個(gè)可能母親的那些家庭。genxx=x_n+1genxxx=x_n-1geny=lfifx=1replacey=lf_n+1ifx=2&xx=1replacey=lf_n-1ifx=2&xxx=1keepifx=1|(lf=y&x=2)對(duì)于有兩個(gè)可能母親的兒童,有相同編碼

20、的女性出現(xiàn)兩次的情況。上面的做法是為了保證不刪除這部分樣本。dropaxxxxxxy_mergesaveb5,replace保存合并后的數(shù)據(jù)庫(kù)對(duì)男性數(shù)據(jù)的合并完全類似,不贅述。logcloseexit,clear我的方法是屬于使用簡(jiǎn)單命令反復(fù)迂回地達(dá)到目的那一類的,所以非常希望有更簡(jiǎn)便的方法來(lái)替代。不過(guò)做實(shí)證時(shí)往往不是非常追求程序的漂亮,常常也就得過(guò)且過(guò)了。stata強(qiáng)大的功能體現(xiàn)在它可以方便地回歸微觀數(shù)據(jù)。而回歸也是微觀實(shí)證中最重要的方法。下面就開(kāi)始講stata中和回歸有關(guān)的常用命令?;净貧w方法有兩種:線性設(shè)定下的最小二乘法(OLS和兩階段最小二乘法(2SLS)。他們?cè)趯?shí)證分析中應(yīng)用廣泛,

21、十分詳細(xì)地掌握這兩種方法是實(shí)證研究的基本要求。講解的順序是先依次介紹如何在stata中實(shí)現(xiàn)OLS和2SLS估計(jì),然后再分析如何在實(shí)際問(wèn)題中選擇合理的方法。后一部分受JoshuaAngrist教授的影響很大,因此,在后面引用他的思想時(shí)會(huì)詳細(xì)注明。假設(shè)你已經(jīng)清楚地了解待估計(jì)方程的形式,那么回歸命令的基本格式就十分簡(jiǎn)單明了:reg(被解釋變量)(解釋變量1)(解釋變量2)方程中的相應(yīng)變量可以簡(jiǎn)單地放在reg的后面。執(zhí)行上面的命令后,stata會(huì)出現(xiàn)兩個(gè)表格,分別報(bào)告一些方差分析和回歸的參數(shù)估計(jì)結(jié)果。我們最關(guān)心的是參數(shù)的大小和顯著性,這在第二個(gè)表格中列出。表格的最左邊一欄列出了解釋變量,在它的右邊是相

22、應(yīng)的系數(shù)估計(jì)值,然后依次是估計(jì)值的標(biāo)準(zhǔn)誤,t比率,原假設(shè)為系數(shù)的真實(shí)值等于零時(shí)錯(cuò)誤地拒絕該假設(shè)的概率一一p值,以及該估計(jì)值的置信度為(1-5%)的置信區(qū)間。我看到回歸結(jié)果的第一眼是瞄著最關(guān)心的解釋變量的符號(hào)、大小和顯著性??纯唇忉屪兞坑绊懙姆较蚝痛笮∈遣皇欠侠碚摰念A(yù)期,是不是合乎常識(shí),以及這個(gè)估計(jì)值是不是顯著。標(biāo)記顯著性的統(tǒng)計(jì)量是t統(tǒng)計(jì)量,在經(jīng)典假設(shè)下,它服從t分布。t分布和標(biāo)準(zhǔn)正態(tài)分布形狀很相似,但它的“尾巴”要比標(biāo)準(zhǔn)正態(tài)分布的“肥”一些,在樣本量比較小的時(shí)候尤其明顯,當(dāng)樣本量趨于無(wú)窮時(shí),t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布。大家對(duì)標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)上一些關(guān)鍵點(diǎn)比較熟悉,比如,1,96是97

23、.5%的關(guān)鍵點(diǎn),1.64是95%勺關(guān)鍵點(diǎn),所以,我們希望知道什么時(shí)候可以安全地使用標(biāo)準(zhǔn)正態(tài)分布。下表列出了一些小自由度下二者的差異(Beyer1987"CRCStandardMathematicalTables,28thed.";Goulden1956"MethodsofStatisticalAnalysis,2nded.")。可以看出,自由度超過(guò)一百時(shí),二者的差別就已經(jīng)相當(dāng)小了。所以,當(dāng)樣本量的數(shù)量級(jí)是100個(gè)或以上時(shí),可以直接認(rèn)為t比率服從標(biāo)準(zhǔn)正態(tài)分布,并以此做檢驗(yàn)。90%95%97.5%99.5%13.077686.3137512.706263.6

24、56721.885622.919994.302659.9248431.637742.353363.182455.8409141.533212.131852.776454.6040951.475882.015052.570584.03214101.372181.812462.228143.16927301.310421.697262.042272.750001001.290071.660231.983972.625891.281561.644871.959992.57588讀者讀到這里可能會(huì)笑話我了,stata不是已經(jīng)報(bào)告了t檢驗(yàn)的p值和置信區(qū)間了嗎?為什么不直接察看這些結(jié)果呢?原因在于實(shí)證文獻(xiàn)

25、往往只報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤,需要讀者自己將估計(jì)值和標(biāo)準(zhǔn)誤相除,計(jì)算顯著性。而且當(dāng)你在寫(xiě)實(shí)證文章時(shí),也應(yīng)該報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤。這比報(bào)告估計(jì)值和它的p值更規(guī)范。伴隨回歸命令的一個(gè)重要命令是predict?;貧w結(jié)束后,使用它可以得到和回歸相關(guān)的一些關(guān)鍵統(tǒng)計(jì)量。語(yǔ)法如下:predict(新變量名),(統(tǒng)計(jì)量名)這里的統(tǒng)計(jì)量名是一些選項(xiàng)。常用的選項(xiàng)有:xb(回歸的擬合值。這是默認(rèn)選項(xiàng),即不加任何選項(xiàng)時(shí),predict賦予新變量前一個(gè)回3的擬合值。);residuals(殘差);leverage(杠桿值)。下面具一個(gè)例子來(lái)解釋predict的用法。有時(shí)樣本中的一個(gè)特別的觀察值會(huì)顯著地改變回歸結(jié)果

26、。這樣的觀察值可以籠統(tǒng)地分為三類:outliers,leverage和influence。Outliers是針對(duì)殘差而言的,指那些回歸中殘差很大的觀察;leverage是針對(duì)解釋變量而言的,是解釋變量相對(duì)其平均值偏里很大的觀察;influence是針對(duì)估計(jì)結(jié)果而言的。如果去掉這個(gè)觀察會(huì)明顯地改變估計(jì)值,那么這個(gè)觀察就是一個(gè)influence。Influence可以看作outliers和leverage共同作用的結(jié)果。異常觀察可能是由于樣本的特性,也可能是因?yàn)殇浫脲e(cuò)誤??傊?,我們希望找到它們。回歸后的predict命令可以發(fā)現(xiàn)這些異常觀察(命令來(lái)自UCLA的"Regressionwit

27、hStata”第二章)。發(fā)現(xiàn)outliers,leverage和influence的命令如下:predictrs,rstudentpredictl,leveragepredictcsd,cooksdpredictdf,dfits這些統(tǒng)計(jì)量都有相應(yīng)的關(guān)鍵值。當(dāng)統(tǒng)計(jì)量(或其絕對(duì)值)超過(guò)關(guān)鍵值時(shí)就應(yīng)該仔細(xì)檢查相應(yīng)的觀察,確認(rèn)是否屬于錄入錯(cuò)誤。rstudent是用來(lái)發(fā)現(xiàn)outliers的統(tǒng)計(jì)量,其關(guān)鍵值是2,2.5和3oleverage是用來(lái)發(fā)現(xiàn)leverage的統(tǒng)計(jì)量,其關(guān)鍵值是(2k+2)/n,其中k解釋變量的個(gè)數(shù),n是樣本量。Cooksd和DFITS是探測(cè)influence的統(tǒng)計(jì)量。它們都綜合了

28、殘差和杠桿的信息,而且二者非常類似,只是單位不同,因而給出的結(jié)果也差不多。Cooksd的關(guān)鍵值是4/n。DFITS的關(guān)鍵值是2*sqrt(k/n)。在使用最小二乘法估計(jì)時(shí),兩個(gè)通常被質(zhì)疑的問(wèn)題是數(shù)據(jù)是否存在多重共線性和異方差。多重共線性是指解釋變量之間的相關(guān)性。通常我們假設(shè)解釋變量之間是相關(guān)的,而且允許解釋變量存在相關(guān)性,并控制可以觀察的因素正是OLS的優(yōu)點(diǎn)。如果把多重共線性看作一個(gè)需要解決的問(wèn)題,那么需要把它解釋為相關(guān)性“較大”。這樣,變量之間沒(méi)有相關(guān)性不好,相關(guān)性太大也不好,優(yōu)劣的分割真是頗費(fèi)琢磨。而且多重共線性并沒(méi)有違反任何經(jīng)典假定,所以,這個(gè)問(wèn)題沒(méi)有很好的定義。本質(zhì)上講,在樣本給定時(shí),

29、多重共線性問(wèn)題無(wú)法解決,或者說(shuō)它是一個(gè)偽問(wèn)題。先看一下為什么解釋變量之間的相關(guān)性大會(huì)有問(wèn)題。在OLS回歸的經(jīng)典假設(shè)(除正態(tài)假設(shè)外)下,某個(gè)系數(shù)的OLS估計(jì)值的總體方差與擾動(dòng)項(xiàng)的方差成正比,與解釋變量的總方差(一般地,我們視解釋變量為隨機(jī)變量)成反比,是該變量對(duì)其它解釋變量回歸的擬合優(yōu)度的增函數(shù)。這個(gè)擬合優(yōu)度可以理解為該變量的總變動(dòng)中可以由其他解釋變量解釋的部分。當(dāng)這個(gè)值趨近于1時(shí),OLS估計(jì)值的總體方差趨向于無(wú)窮大??傮w方差大時(shí),樣本方差也大的概率就大,t檢驗(yàn)就會(huì)不準(zhǔn)確。盡管多重共線性沒(méi)有違背任何經(jīng)典假設(shè),但是OLS方法有時(shí)無(wú)法準(zhǔn)確估計(jì)一些參數(shù)。這個(gè)問(wèn)題可以理解為數(shù)據(jù)提供的信息不足以精確地計(jì)算

30、出某些系數(shù)。最根本的解決方法當(dāng)然是搜集更大的樣本。如果樣本給定,也許我們應(yīng)該修改提出的問(wèn)題,使我們能夠根據(jù)樣本數(shù)據(jù)做出更精確的判斷。去掉一個(gè)解釋變量,或者合并一些解釋變量可以減少多重共線性。不過(guò)要注意的是去掉相關(guān)的解釋變量會(huì)使估計(jì)有偏。實(shí)際操作時(shí)使用方差膨脹系數(shù)衡量解釋變量的多重共線性。我們只需在回歸之后使用vif命令就可以得到方差膨脹系數(shù)。在命令行中敲入vif并回車,stata會(huì)報(bào)告一個(gè)包含所有解釋變量的方差膨脹系數(shù)的表格,如果方差膨脹系數(shù)大于10,這個(gè)變量潛在地有多重共線性問(wèn)題。異方差是一個(gè)更值得關(guān)注的問(wèn)題。首先簡(jiǎn)單地介紹一下異方差會(huì)帶來(lái)哪些問(wèn)題。第一、異方差不影響OLS估計(jì)的無(wú)偏性和一致性。第二、異方差使估計(jì)值方差的估計(jì)有偏,所以此時(shí)的t檢驗(yàn)和置信區(qū)間無(wú)效。第三、F統(tǒng)計(jì)量不再服從F分布,LM統(tǒng)計(jì)量不再服從漸進(jìn)卡方分布,相應(yīng)的檢驗(yàn)無(wú)效。第四、異方差使OLS不再是有效估計(jì)??傊?,異方差影響推斷是否有效,降低估計(jì)的效率,但對(duì)估計(jì)值的無(wú)偏性和一致

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論