整理stata回歸分析完整步驟-吐血推薦

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-03-25 格式：DOCX 頁(yè)數(shù)：12 大小：28.65KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、stata回歸分析完整步驟一一吐血推薦*下載連乘函數(shù)prod,方法為：finditdm71sortstkcddate/對(duì)公司和日期排序genr1=1+r/r為實(shí)際公司的股票收益率genr2=1+r_yq/r_yq為公司的預(yù)期股票收益率egenr3=prod（r1）,by（stkcddate）/求每個(gè)公司事件日的累計(jì)復(fù)合收益率egenr4=prod（r2）,by（stkcddate）/求每個(gè)公司事件日的累計(jì)預(yù)期的復(fù)合收益率genr=r4-r3captureclear（清空內(nèi)存中的數(shù)據(jù)）capturelogclose（關(guān)閉所有打開(kāi)的日志文件）setmem128m（設(shè)置用于stata使用的內(nèi)存容量）

2、setmoreoff（關(guān)閉more選項(xiàng)。如果打開(kāi)該選項(xiàng)，那么結(jié)果分屏輸出，即一次只輸出一屏結(jié)果。你按空格鍵后再輸出下一屏，直到全部輸完。如果關(guān)閉則中間不停，一次全部輸出。）setmatsize4000（設(shè)置矩陣的最大階數(shù)。我用的是不是太大了？）cdD:（進(jìn)入數(shù)據(jù)所在的盤(pán)符和文件夾。和dos的命令行很相似。）logusing（文件名）.log,replace（打開(kāi)日志文件，并更新。日志文件將記錄下所有文件運(yùn)行后給出的結(jié)果，如果你修改了文件內(nèi)容，replace選項(xiàng)可以將其更新為最近運(yùn)行的結(jié)果。）use（文件名）,clear（打開(kāi)數(shù)據(jù)文件。）（文件內(nèi)容）logclose（關(guān)閉日志文件。）exit,c

3、lear（退出并清空內(nèi)存中的數(shù)據(jù)。）假設(shè)你清楚地知道所需的變量，現(xiàn)在要做的是檢查數(shù)據(jù)、生成必要的數(shù)據(jù)并形成數(shù)據(jù)庫(kù)供將來(lái)使用。檢查數(shù)據(jù)的重要命令包括codebook,su,ta,des和list。其中，codebook提供的信息最全面，缺點(diǎn)是不能使用if條件限制范圍，所以，有時(shí)還要用別的幫幫忙。su空格加變量名報(bào)告相應(yīng)變量的非缺失的觀察個(gè)數(shù)，均值，標(biāo)準(zhǔn)差，最小值和最大值。ta空格后面加一個(gè)（或兩個(gè)）變量名是報(bào)告某個(gè)變量（或兩個(gè)變量二維）的取值（不含缺失值）的頻數(shù)，比率和按大小排列的累積比率。des后面可以加任意個(gè)變量名，只要數(shù)據(jù)中有。它報(bào)告變量的存儲(chǔ)的類型，顯示的格式和標(biāo)簽。標(biāo)簽中一般記錄這個(gè)變

4、量的定義和單位。list報(bào)告變量的觀察值，可以用if或in來(lái)限制范圍。所有這些命令都可以后面不加任何變量名，報(bào)告的結(jié)果是正在使用的數(shù)據(jù)庫(kù)中的所有變量的相應(yīng)信息。說(shuō)起來(lái)蒼白無(wú)力，打開(kāi)stata親自實(shí)驗(yàn)一下吧。順帶說(shuō)點(diǎn)兒題外話。除了codebook之外，上述統(tǒng)計(jì)類的命令都屬于r族命令（又稱一般命令）。執(zhí)行后都可以使用returnlist報(bào)告儲(chǔ)存在r（）中的統(tǒng)計(jì)結(jié)果。最典型的r族命令當(dāng)屬summarize。它會(huì)把樣本量、均值、標(biāo)準(zhǔn)差、方差、最小值、最大值、總和等統(tǒng)計(jì)信息儲(chǔ)存起來(lái)。彳在執(zhí)行su之后，只需敲入returnlist就可以得到所有這些信息。其實(shí)，和一般命令的return命令類似，估計(jì)命令（又

5、稱e族命令）也有ereturn命令，具有報(bào)告，儲(chǔ)存信息的功能。在更復(fù)雜的編程中，比如對(duì)回歸分解，計(jì)算一些程序中無(wú)法直接計(jì)算的統(tǒng)計(jì)量，這些功能更是必不可少。檢查數(shù)據(jù)時(shí)，先用codebook看一下它的值域和單位。如果有-9,-99這樣的取值，查一下問(wèn)卷中對(duì)缺失值的記錄方法。確定它們是缺失值后，改為用點(diǎn)記錄。命令是replace（變量名尸.if（變量名）=-9。再看一下用點(diǎn)記錄的缺失值有多少，作為選用變量的一個(gè)依據(jù)。得到可用的數(shù)據(jù)后，我會(huì)給沒(méi)有標(biāo)簽的變量加上注解。或者統(tǒng)一標(biāo)簽；或者統(tǒng)一變量的命名規(guī)則。更改變量名的命令是ren（原變量名）空格（新變量名）。定義標(biāo)簽的命令是labelvar（變量名）空格

6、”（標(biāo)簽內(nèi)容）”。整齊劃一的變量名有助于記憶，簡(jiǎn)明的標(biāo)簽有助于明確變量的單位等信息。如果你需要使用通過(guò)原始變量派生出的新變量，那么就需要了解gen,egen和replace這三個(gè)命令。gen和replace常常在一起使用。它們的基本語(yǔ)法是gen（或replace）空格（變量名）=（表達(dá)式）。二者的不同之處在于gen是生成新變量，replace是重新定義舊變量。虛擬變量是我們常常需要用到的一類派生變量。如果你需要生成的虛擬變量個(gè)數(shù)不多，可以有兩種方法生成。一種是簡(jiǎn)明方法：gen空格（變量名）=（限制條件）這外面的小括弧是命令需要的，里面的小括弧不是命令需要的，只是說(shuō)明“限制條件”并非命令。如果某

7、個(gè)觀察滿足限制條件，那么它的這個(gè)虛擬變量取值為1,否則為0。另一種要麻煩一點(diǎn)。就是gen（變量名）=1if（取值為一限制條件）replace（相同的變量名）=0if（取值為零的限制條件）兩個(gè)方法貌似一樣，但有一個(gè)小小的區(qū)別。如果限制條件中使用的變量都沒(méi)有任何缺失值，那么兩種方法的結(jié)果一樣。如果有缺失值，第一種方法會(huì)把是缺失值的觀察的虛擬變量都定義為0。而第二種方法可以將虛擬變量的取值分為三種，-一是等于1,是等于0,二是等于缺失值。這樣就避免了把本來(lái)信息不明的觀察錯(cuò)誤地納入到回歸中去。下次再講如何方便地生成成百上千個(gè)虛擬變量。大量的虛擬變量往往是根據(jù)某個(gè)已知變量的取值生成的。比如，在某個(gè)回歸中

8、希望控制每個(gè)觀察所在的社區(qū)，即希望控制標(biāo)記社區(qū)的虛擬變量。社區(qū)數(shù)目可能有成百上千個(gè)，如果用上次的所說(shuō)的方法生成就需要重復(fù)成百上千次，這也太笨了。大量生成虛擬變量的命令如下；ta（變量名），gen（變量名）第一個(gè)括號(hào)里的變量名是已知的變量，在上面的例子中是社區(qū)編碼。后一個(gè)括號(hào)里的變量名是新生成的虛擬變量的共同前綴，后面跟數(shù)字表示不同的虛擬變量。如果我在這里填入d,那么，上述命令就會(huì)新生成di,d2,等等，直到所有社區(qū)都有一個(gè)虛擬變量。在回歸中控制社區(qū)變量，只需簡(jiǎn)單地放入這些變量即可。一個(gè)麻煩是虛擬變量太多，怎么簡(jiǎn)單地加入呢？一個(gè)辦法是用省略符號(hào)，d*表示所有d字母開(kāi)頭的變量，另一法是用破折號(hào)，d

9、1-d150表示第一個(gè)到第150個(gè)社區(qū)虛擬變量(假設(shè)共有150個(gè)社區(qū))。還有一種方法可以在回歸中直接控制虛擬變量，而無(wú)需真的去生成這些虛擬變量。使用命令areg可以做到，它的語(yǔ)法是areg(被解釋變量)(解釋變量)，absorb(變量名)absorb選項(xiàng)后面的變量名和前面講的命令中第一個(gè)變量名相同。在上面的例子中即為社區(qū)編碼。回歸的結(jié)果和在reg中直接加入相應(yīng)的虛擬變量相同。生成變量的最后一招是egen。egen和gen都用于生成新變量，但egen的特點(diǎn)是它更強(qiáng)大的函數(shù)功能。gen可以支持一些函數(shù)，egen支持額外的函數(shù)。如果用gen搞不定，就得用egen想辦法了。不過(guò)我比較懶，到現(xiàn)在為止只用

10、用取平均、加和這些簡(jiǎn)單的函數(shù)。有的時(shí)候數(shù)據(jù)情況復(fù)雜一些，往往生成所需變量不是非常直接，就需要多幾個(gè)過(guò)程。曾經(jīng)碰到原始數(shù)據(jù)中記錄日期有些怪異的格式。比如，1991年10月23日被記錄為19911023。我想使用它年份和月份，并生成虛擬變量。下面是我的做法：genyr=int(date)genmo=int(data-yr*10000)/100)tayr,gen(yd)tamo,gen(md)假設(shè)你已經(jīng)生成了所有需要的變量，現(xiàn)在最重要白就是保存好你的工作。使用的命令是save空格(文件名)，replace。和前面介紹的一樣，replace選項(xiàng)將更新你對(duì)數(shù)據(jù)庫(kù)的修改，所以一定要小心使用。最好另存一個(gè)新

11、的數(shù)據(jù)庫(kù)，如果把原始庫(kù)改了又變不回去，就叫天不應(yīng)叫地不靈了。前面說(shuō)的都是對(duì)單個(gè)數(shù)據(jù)庫(kù)的簡(jiǎn)單操作，但有時(shí)我們需要改變數(shù)據(jù)的結(jié)構(gòu)，或者抽取來(lái)自不同數(shù)據(jù)庫(kù)的信息，因此需要更方便的命令。這一類命令中我用過(guò)的有：改變數(shù)據(jù)的縱橫結(jié)構(gòu)的命令reshape,生成退化的數(shù)據(jù)庫(kù)collapse,合并數(shù)據(jù)庫(kù)的命令append和merge?？v列(longitudinal)數(shù)據(jù)通常包括同一個(gè)行為者(agent)在不同時(shí)期的觀察，所以處理這類數(shù)據(jù)常常需要把數(shù)據(jù)庫(kù)從寬表變成長(zhǎng)表，或者相反。所謂寬表是以每個(gè)行為者為一個(gè)觀察，不同時(shí)期的變量都記錄在這個(gè)觀察下，例如，行為者是廠商，時(shí)期有2000、2001年，變量是雇傭人數(shù)和所在

12、城市，假設(shè)雇傭人數(shù)在不同時(shí)期不同，所在城市則不變。寬表記錄的格式是每個(gè)廠商是一個(gè)觀察，沒(méi)有時(shí)期變量，雇傭人數(shù)有兩個(gè)變量，分別記錄2000年和2001年的人數(shù)，所在城市只有一個(gè)變量。所謂長(zhǎng)表是行為者和時(shí)期共同定義觀察，在上面的例子中，每個(gè)廠商有兩個(gè)觀察，有時(shí)期變量，雇傭人數(shù)和所在城市都只有一個(gè)，它們和時(shí)期變量共同定義相應(yīng)時(shí)期的變量取值。在上面的例子下，把寬表變成長(zhǎng)表的命令格式如下：reshapelong（雇傭人數(shù)的變量名），i（標(biāo)記廠商的變量名）j（標(biāo)記時(shí)期的變量名）因?yàn)樗诔鞘胁浑S時(shí)期變化，所以在轉(zhuǎn)換格式時(shí)不用放在reshapelong后面，轉(zhuǎn)換前后也不改變什么。相反地，如果把長(zhǎng)表變成寬表則使

13、用如下命令reshapewide（雇傭人數(shù)的變量名），i（標(biāo)記廠商的變量名）j（標(biāo)記時(shí)期的變量名）唯一的區(qū)別是10ng換成了wide。collapse的用處是計(jì)算某個(gè)數(shù)據(jù)庫(kù)的一些統(tǒng)計(jì)量，再把它存為只含有這些統(tǒng)計(jì)量的數(shù)據(jù)庫(kù)。用到這個(gè)命令的機(jī)會(huì)不多，我使用它是因?yàn)樗梢杂?jì)算中位數(shù)和從1到99的百分位數(shù)，這些統(tǒng)計(jì)量在常規(guī)的數(shù)據(jù)描述命令中沒(méi)有。如果要計(jì)算中位數(shù)，其命令的語(yǔ)法如下collapse（median）（變量名）,by（變量名）生成的新數(shù)據(jù)庫(kù)中記錄了第一個(gè)括號(hào)中的變量（可以是多個(gè)變量）的中位數(shù)。右面的by選項(xiàng)是根據(jù)某個(gè)變量分組計(jì)算中位數(shù)，沒(méi)有這個(gè)選項(xiàng)則計(jì)算全部樣本的中位數(shù)。合并數(shù)據(jù)庫(kù)有兩種方式，

14、一種是增加觀察，另一種是增加變量。第一種用append,用在兩個(gè)數(shù)據(jù)庫(kù)的格式一樣，但觀察不一樣，只需用append空格using空格（文件名）就可以狗尾續(xù)貂了。簡(jiǎn)單明了，不會(huì)有什么錯(cuò)。另一種就不同了，需要格外小心。如果兩個(gè)數(shù)據(jù)庫(kù)中包含共同的觀察，但是變量不同，希望從一個(gè)數(shù)據(jù)庫(kù)中提取一些變量到另一個(gè)數(shù)據(jù)庫(kù)中用merge。完整的命令如下：use（文件名）打開(kāi)輔助數(shù)據(jù)庫(kù)sort（變量名）根據(jù)變量排序，這個(gè)變量是兩個(gè)數(shù)據(jù)庫(kù)共有的識(shí)別信息save（文件名），replace保存輔助數(shù)據(jù)庫(kù)use（文件名）打開(kāi)主數(shù)據(jù)庫(kù)sort（變量名）對(duì)相同的變量排序merge（變量名）using（文件名）,keep（變量名

15、）第一個(gè)變量名即為前面sort后面的變量名，文件名是輔助數(shù)據(jù)庫(kù)的名字，后面的變量名是希望提取的變量名ta_merge顯示_merge的取值情況。_merge等于1的觀察是僅主庫(kù)有的，等于2的是僅輔助庫(kù)有的，等于3是兩個(gè)庫(kù)都有的。dropif_merge=2刪除僅僅來(lái)自輔助庫(kù)的觀察dropmerge刪除_mergesave（文件名），replace將合并后的文件保存，通常另存講到這里似乎對(duì)于數(shù)據(jù)的生成和處理應(yīng)該閉嘴了。大家可能更想聽(tīng)聽(tīng)估計(jì)、檢驗(yàn)這些事情。但我并不想就此止住，因?yàn)閷?shí)際中總是有一些簡(jiǎn)單套用命令無(wú)法輕易辦到的特殊要求。此時(shí)至少有兩條路可以通向羅馬：一是找到更高級(jí)的命令一步到位；二是利用

16、已知簡(jiǎn)單命令多繞幾個(gè)圈子達(dá)到目的。下面講一個(gè)令我刻骨銘心的經(jīng)歷，這也是迄今我所碰到的生成新數(shù)據(jù)中最繁復(fù)的了。原始數(shù)據(jù)中包含了可以識(shí)別屬于同一個(gè)家庭中所有個(gè)人的信息和家庭成員與戶主關(guān)系的信息。目的是利用這些信息建立親子關(guān)系。初步的構(gòu)想是新數(shù)據(jù)庫(kù)以子輩為觀察，找到他們的父母，把父母的變量添加到每個(gè)觀察上。我的做法如下：usea1,clear打開(kāi)全部樣本數(shù)據(jù)庫(kù)keepifgender=2&agemos>=96&a8=1&line<10保留已婚的一定年齡的女性replacea5=1ifa5=0變量a5標(biāo)記和戶主的關(guān)系。等于0是戶主，等于1是戶主的配偶。這里不加區(qū)分地

17、將戶主及其配偶放在一起。keepifa5=1|a5=3|a5=7保留是戶主（=1）,是戶主的子女（=3）,或是戶主的兒媳（=7）的那些人。renhhf將所需變量加上后綴f,表示女性renlinelf將所需變量加上后綴f,表示女性sortwavehhidsaveb1,replace排序并保存keepifa5f=1留下其中是戶主或戶主配偶的saveb2,replace保存useb1,clearkeepifa5f=3|a5f=7saveb3,replace留下其中是戶主女兒或兒媳的并保存usea3,clear打開(kāi)與戶主關(guān)系是戶主子女的兒童數(shù)據(jù)庫(kù)sortwavehhidmergewavehhidusi

18、ngCHNS01b2,keep（hflf）ta_mergedropif_merge=2sorthhidlinewave處理兩代戶，將戶主配偶女性庫(kù)與兒童庫(kù)合并byhhidlinewave:egenx=count(id)dropx_merge計(jì)算每個(gè)年份家庭匹配的情況，x只取值1,表明兩代戶匹配成功saveb4,replace保存usea4,clear打開(kāi)與戶主關(guān)系是戶主孫子女的兒童數(shù)據(jù)庫(kù)sortwavehhidmergewavehhidusingCHNS01b3,keep(a5fa8fschfa12fhfagemosfc8flf)ta_mergedropif_merge=2處理三代戶，將戶主女

19、兒或兒媳女性庫(kù)與孫子女兒童庫(kù)合并sorthhidlinewavebyhhidlinewave:egenx=count(id)gena=agemosf-agemosdropifa<216&x=3計(jì)算每個(gè)年份家庭匹配的情況，x不只取1,三代戶匹配不完全成功。刪除不合理的樣本,標(biāo)準(zhǔn)是年齡差距和有三個(gè)可能母親的那些家庭。genxx=x_n+1genxxx=x_n-1geny=lfifx=1replacey=lf_n+1ifx=2&xx=1replacey=lf_n-1ifx=2&xxx=1keepifx=1|（lf=y&x=2）對(duì)于有兩個(gè)可能母親的兒童，有相同編碼

20、的女性出現(xiàn)兩次的情況。上面的做法是為了保證不刪除這部分樣本。dropaxxxxxxy_mergesaveb5,replace保存合并后的數(shù)據(jù)庫(kù)對(duì)男性數(shù)據(jù)的合并完全類似，不贅述。logcloseexit,clear我的方法是屬于使用簡(jiǎn)單命令反復(fù)迂回地達(dá)到目的那一類的，所以非常希望有更簡(jiǎn)便的方法來(lái)替代。不過(guò)做實(shí)證時(shí)往往不是非常追求程序的漂亮，常常也就得過(guò)且過(guò)了。stata強(qiáng)大的功能體現(xiàn)在它可以方便地回歸微觀數(shù)據(jù)。而回歸也是微觀實(shí)證中最重要的方法。下面就開(kāi)始講stata中和回歸有關(guān)的常用命令?；净貧w方法有兩種：線性設(shè)定下的最小二乘法（OLS和兩階段最小二乘法（2SLS）。他們?cè)趯?shí)證分析中應(yīng)用廣泛，

21、十分詳細(xì)地掌握這兩種方法是實(shí)證研究的基本要求。講解的順序是先依次介紹如何在stata中實(shí)現(xiàn)OLS和2SLS估計(jì)，然后再分析如何在實(shí)際問(wèn)題中選擇合理的方法。后一部分受JoshuaAngrist教授的影響很大，因此，在后面引用他的思想時(shí)會(huì)詳細(xì)注明。假設(shè)你已經(jīng)清楚地了解待估計(jì)方程的形式，那么回歸命令的基本格式就十分簡(jiǎn)單明了：reg（被解釋變量）（解釋變量1）（解釋變量2）方程中的相應(yīng)變量可以簡(jiǎn)單地放在reg的后面。執(zhí)行上面的命令后，stata會(huì)出現(xiàn)兩個(gè)表格，分別報(bào)告一些方差分析和回歸的參數(shù)估計(jì)結(jié)果。我們最關(guān)心的是參數(shù)的大小和顯著性，這在第二個(gè)表格中列出。表格的最左邊一欄列出了解釋變量，在它的右邊是相

22、應(yīng)的系數(shù)估計(jì)值，然后依次是估計(jì)值的標(biāo)準(zhǔn)誤，t比率，原假設(shè)為系數(shù)的真實(shí)值等于零時(shí)錯(cuò)誤地拒絕該假設(shè)的概率一一p值，以及該估計(jì)值的置信度為（1-5%）的置信區(qū)間。我看到回歸結(jié)果的第一眼是瞄著最關(guān)心的解釋變量的符號(hào)、大小和顯著性?？纯唇忉屪兞坑绊懙姆较蚝痛笮∈遣皇欠侠碚摰念A(yù)期，是不是合乎常識(shí)，以及這個(gè)估計(jì)值是不是顯著。標(biāo)記顯著性的統(tǒng)計(jì)量是t統(tǒng)計(jì)量，在經(jīng)典假設(shè)下，它服從t分布。t分布和標(biāo)準(zhǔn)正態(tài)分布形狀很相似，但它的“尾巴”要比標(biāo)準(zhǔn)正態(tài)分布的“肥”一些，在樣本量比較小的時(shí)候尤其明顯，當(dāng)樣本量趨于無(wú)窮時(shí)，t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布。大家對(duì)標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)上一些關(guān)鍵點(diǎn)比較熟悉，比如，1,96是97

23、.5%的關(guān)鍵點(diǎn)，1.64是95%勺關(guān)鍵點(diǎn)，所以，我們希望知道什么時(shí)候可以安全地使用標(biāo)準(zhǔn)正態(tài)分布。下表列出了一些小自由度下二者的差異（Beyer1987"CRCStandardMathematicalTables,28thed."；Goulden1956"MethodsofStatisticalAnalysis,2nded."）。可以看出，自由度超過(guò)一百時(shí)，二者的差別就已經(jīng)相當(dāng)小了。所以，當(dāng)樣本量的數(shù)量級(jí)是100個(gè)或以上時(shí)，可以直接認(rèn)為t比率服從標(biāo)準(zhǔn)正態(tài)分布，并以此做檢驗(yàn)。90%95%97.5%99.5%13.077686.3137512.706263.6

24、56721.885622.919994.302659.9248431.637742.353363.182455.8409141.533212.131852.776454.6040951.475882.015052.570584.03214101.372181.812462.228143.16927301.310421.697262.042272.750001001.290071.660231.983972.625891.281561.644871.959992.57588讀者讀到這里可能會(huì)笑話我了，stata不是已經(jīng)報(bào)告了t檢驗(yàn)的p值和置信區(qū)間了嗎？為什么不直接察看這些結(jié)果呢？原因在于實(shí)證文獻(xiàn)

25、往往只報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤，需要讀者自己將估計(jì)值和標(biāo)準(zhǔn)誤相除，計(jì)算顯著性。而且當(dāng)你在寫(xiě)實(shí)證文章時(shí)，也應(yīng)該報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤。這比報(bào)告估計(jì)值和它的p值更規(guī)范。伴隨回歸命令的一個(gè)重要命令是predict?；貧w結(jié)束后，使用它可以得到和回歸相關(guān)的一些關(guān)鍵統(tǒng)計(jì)量。語(yǔ)法如下：predict（新變量名），（統(tǒng)計(jì)量名）這里的統(tǒng)計(jì)量名是一些選項(xiàng)。常用的選項(xiàng)有：xb（回歸的擬合值。這是默認(rèn)選項(xiàng)，即不加任何選項(xiàng)時(shí)，predict賦予新變量前一個(gè)回3的擬合值。）；residuals（殘差）；leverage（杠桿值）。下面具一個(gè)例子來(lái)解釋predict的用法。有時(shí)樣本中的一個(gè)特別的觀察值會(huì)顯著地改變回歸結(jié)果

26、。這樣的觀察值可以籠統(tǒng)地分為三類：outliers,leverage和influence。Outliers是針對(duì)殘差而言的，指那些回歸中殘差很大的觀察；leverage是針對(duì)解釋變量而言的，是解釋變量相對(duì)其平均值偏里很大的觀察；influence是針對(duì)估計(jì)結(jié)果而言的。如果去掉這個(gè)觀察會(huì)明顯地改變估計(jì)值，那么這個(gè)觀察就是一個(gè)influence。Influence可以看作outliers和leverage共同作用的結(jié)果。異常觀察可能是由于樣本的特性，也可能是因?yàn)殇浫脲e(cuò)誤?？傊?，我們希望找到它們。回歸后的predict命令可以發(fā)現(xiàn)這些異常觀察（命令來(lái)自UCLA的"Regressionwit

27、hStata”第二章）。發(fā)現(xiàn)outliers,leverage和influence的命令如下：predictrs,rstudentpredictl,leveragepredictcsd,cooksdpredictdf,dfits這些統(tǒng)計(jì)量都有相應(yīng)的關(guān)鍵值。當(dāng)統(tǒng)計(jì)量（或其絕對(duì)值）超過(guò)關(guān)鍵值時(shí)就應(yīng)該仔細(xì)檢查相應(yīng)的觀察，確認(rèn)是否屬于錄入錯(cuò)誤。rstudent是用來(lái)發(fā)現(xiàn)outliers的統(tǒng)計(jì)量，其關(guān)鍵值是2,2.5和3oleverage是用來(lái)發(fā)現(xiàn)leverage的統(tǒng)計(jì)量，其關(guān)鍵值是（2k+2）/n,其中k解釋變量的個(gè)數(shù)，n是樣本量。Cooksd和DFITS是探測(cè)influence的統(tǒng)計(jì)量。它們都綜合了

28、殘差和杠桿的信息，而且二者非常類似，只是單位不同，因而給出的結(jié)果也差不多。Cooksd的關(guān)鍵值是4/n。DFITS的關(guān)鍵值是2*sqrt（k/n）。在使用最小二乘法估計(jì)時(shí)，兩個(gè)通常被質(zhì)疑的問(wèn)題是數(shù)據(jù)是否存在多重共線性和異方差。多重共線性是指解釋變量之間的相關(guān)性。通常我們假設(shè)解釋變量之間是相關(guān)的，而且允許解釋變量存在相關(guān)性，并控制可以觀察的因素正是OLS的優(yōu)點(diǎn)。如果把多重共線性看作一個(gè)需要解決的問(wèn)題，那么需要把它解釋為相關(guān)性“較大”。這樣，變量之間沒(méi)有相關(guān)性不好，相關(guān)性太大也不好，優(yōu)劣的分割真是頗費(fèi)琢磨。而且多重共線性并沒(méi)有違反任何經(jīng)典假定，所以，這個(gè)問(wèn)題沒(méi)有很好的定義。本質(zhì)上講，在樣本給定時(shí)，

29、多重共線性問(wèn)題無(wú)法解決，或者說(shuō)它是一個(gè)偽問(wèn)題。先看一下為什么解釋變量之間的相關(guān)性大會(huì)有問(wèn)題。在OLS回歸的經(jīng)典假設(shè)（除正態(tài)假設(shè)外）下，某個(gè)系數(shù)的OLS估計(jì)值的總體方差與擾動(dòng)項(xiàng)的方差成正比，與解釋變量的總方差（一般地，我們視解釋變量為隨機(jī)變量）成反比，是該變量對(duì)其它解釋變量回歸的擬合優(yōu)度的增函數(shù)。這個(gè)擬合優(yōu)度可以理解為該變量的總變動(dòng)中可以由其他解釋變量解釋的部分。當(dāng)這個(gè)值趨近于1時(shí)，OLS估計(jì)值的總體方差趨向于無(wú)窮大?？傮w方差大時(shí)，樣本方差也大的概率就大，t檢驗(yàn)就會(huì)不準(zhǔn)確。盡管多重共線性沒(méi)有違背任何經(jīng)典假設(shè)，但是OLS方法有時(shí)無(wú)法準(zhǔn)確估計(jì)一些參數(shù)。這個(gè)問(wèn)題可以理解為數(shù)據(jù)提供的信息不足以精確地計(jì)算

30、出某些系數(shù)。最根本的解決方法當(dāng)然是搜集更大的樣本。如果樣本給定，也許我們應(yīng)該修改提出的問(wèn)題，使我們能夠根據(jù)樣本數(shù)據(jù)做出更精確的判斷。去掉一個(gè)解釋變量，或者合并一些解釋變量可以減少多重共線性。不過(guò)要注意的是去掉相關(guān)的解釋變量會(huì)使估計(jì)有偏。實(shí)際操作時(shí)使用方差膨脹系數(shù)衡量解釋變量的多重共線性。我們只需在回歸之后使用vif命令就可以得到方差膨脹系數(shù)。在命令行中敲入vif并回車，stata會(huì)報(bào)告一個(gè)包含所有解釋變量的方差膨脹系數(shù)的表格，如果方差膨脹系數(shù)大于10,這個(gè)變量潛在地有多重共線性問(wèn)題。異方差是一個(gè)更值得關(guān)注的問(wèn)題。首先簡(jiǎn)單地介紹一下異方差會(huì)帶來(lái)哪些問(wèn)題。第一、異方差不影響OLS估計(jì)的無(wú)偏性和一致性。第二、異方差使估計(jì)值方差的估計(jì)有偏，所以此時(shí)的t檢驗(yàn)和置信區(qū)間無(wú)效。第三、F統(tǒng)計(jì)量不再服從F分布，LM統(tǒng)計(jì)量不再服從漸進(jìn)卡方分布，相應(yīng)的檢驗(yàn)無(wú)效。第四、異方差使OLS不再是有效估計(jì)?？傊?，異方差影響推斷是否有效,降低估計(jì)的效率，但對(duì)估計(jì)值的無(wú)偏性和一致

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

整理stata回歸分析完整步驟-吐血推薦

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

整理stata回歸分析完整步驟-吐血推薦

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔