常用到的stata命令_第1頁(yè)
常用到的stata命令_第2頁(yè)
常用到的stata命令_第3頁(yè)
常用到的stata命令_第4頁(yè)
常用到的stata命令_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

安裝estat:sscinstallestout,replace\2010-10-1411:38:15來(lái)自:楊囡囡(allawomanlackisawife)(轉(zhuǎn)自人大論壇)調(diào)整變量格式:formatx1%10.3f 將x1的列寬固定為10,小數(shù)點(diǎn)后取三位formatx1%10.3g 將x1的列寬固定為10,有效數(shù)字取三位formatx1%10.3e——將x1的列寬固定為10,采用科學(xué)計(jì)數(shù)法formatx1%10.3fc——將x1的列寬固定為10,小數(shù)點(diǎn)后取三位,加入千分位分隔符formatx1%10.3gc——將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符formatx1%-10.3gc——將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符,加入“-”表示左對(duì)齊合并數(shù)據(jù):use"C:\DocumentsandSettings\xks\桌面\2006.dta”,clearmergeusing"C:\DocumentsandSettings\xks'桌面\1999.dta”——將1999和2006的數(shù)據(jù)按照樣本(observation)排列的自然順序合并起來(lái)use"C:\DocumentsandSettings\xks\桌面\2006.dta”,clearmergeidusing"C:\DocumentsandSettings\xks\桌面'1999.dta”,uniquesort——將1999和2006的數(shù)據(jù)按照唯一的(unique)變量id來(lái)合并,在合并時(shí)對(duì)id進(jìn)行排序(sort)建議采用第一種方法。對(duì)樣本進(jìn)行隨機(jī)篩選:sample50在觀測(cè)案例中隨機(jī)選取50%的樣本,其余刪除sample50,count在觀測(cè)案例中隨機(jī)選取50個(gè)樣本,其余刪除查看與編輯數(shù)據(jù):browsex1x2ifx3>3(按所列變量與條件打開數(shù)據(jù)查看器)editx1x2ifx3>3(按所列變量與條件打開數(shù)據(jù)編輯器)數(shù)據(jù)合并(merge)與擴(kuò)展(append)merge表示樣本量不變,但增加了一些新變量;append表示樣本總量增加了,但變量數(shù)目不變。one-to-onemerge:數(shù)據(jù)源自statatutorial中的exampw1和exampw2第一步:將exampw1按v001?v003這三個(gè)編碼排序,并建立臨時(shí)數(shù)據(jù)庫(kù)tempw1clearuse"t:\statatut\exampw1.dta"su summarize的簡(jiǎn)寫sortv001v002v003savetempw1第二步:對(duì)exampw2做同樣的處理clearuse"t:\statatut\exampw2.dta"susortv001v002v003savetempw2第三步:使用tempw1數(shù)據(jù)庫(kù),將其與tempw2合并:clearusetempw1mergev001v002v003usingtempw2第四步:查看合并后的數(shù)據(jù)狀況:ta_merge tabulate_merge的簡(jiǎn)寫su第五步:清理臨時(shí)數(shù)據(jù)庫(kù),并刪除_merge,以免日后合并新變量時(shí)出錯(cuò)erasetempw1.dtaerasetempw2.dtadrop_merge數(shù)據(jù)擴(kuò)展append:數(shù)據(jù)源自statatutorial中的fac19和newfacclearuse"t:\statatut\fac19.dta"taregionappendusing"t:\statatut\newfac"taregion合并后樣本量增加,但變量數(shù)不變莖葉圖:stemx1,line(2)(做x1的莖葉圖,每一個(gè)十分位的樹莖都被拆分成兩段來(lái)顯示,前半段為0?4,后半段為5?9)stemx1,width(2)(做x1的莖葉圖,每一個(gè)十分位的樹莖都被拆分成五段來(lái)顯示,每個(gè)小樹莖的組距為2)stemx1,round(100)(將x1除以100后再做x1的莖葉圖)直方圖采用auto數(shù)據(jù)庫(kù)histogrammpg,discretefrequencynormalxlabel(1(1)5)(discrete表示變量不連續(xù),frequency表示顯示頻數(shù),normal加入正太分布曲線,xlabel設(shè)定x軸,1和5為極端值,(1)為單位)histogramprice,fractionnorm(fraction表示y軸顯示小數(shù),除了frequency和fraction這兩個(gè)選擇之外,該命令可替換為“percent”百分比,和“density”密度;未加上discrete就表示將price當(dāng)作連續(xù)變量來(lái)繪圖)histogramprice,percentby(foreign)(按照變量“foreign”的分類,將不同類樣本的“price”繪制出來(lái),兩個(gè)圖分左右排布)histogrammpg,discreteby(foreign,col(1))(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來(lái),兩個(gè)圖分上下排布)histogrammpg,discretepercentby(foreign,total)norm(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來(lái),同時(shí)繪出樣本整體的“總”直方圖)二變量圖:graphtwowaylfitpriceweight||scatterpriceweight(作出price和weight的回歸線圖 “l(fā)fit”,然后與price和weight的散點(diǎn)圖相疊加)twowayscatterpriceweight,mlabel(make)(做price和weight的散點(diǎn)圖,并在每個(gè)點(diǎn)上標(biāo)注“make”,即廠商的取值)twowayscatterpriceweight||lfitpriceweight,by(foreign)(按照變量foreign的分類,分別對(duì)不同類樣本的price和weight做散點(diǎn)圖和回歸線圖的疊加,兩圖呈左右分布)twowayscatterpriceweight||lfitpriceweight,by(foreign,col(1))(按照變量foreign的分類,分別對(duì)不同類樣本的price和weight做散點(diǎn)圖和回歸線圖的疊加,兩圖呈上下分布)twowayscatterpriceweight[fweight=displacement],msymbol(oh)(畫出price和weight的散點(diǎn)圖,“msybol(oh)”表示每個(gè)點(diǎn)均為中空的圓圈,[fweight=displacement]表示每個(gè)點(diǎn)的大小與displacement的取值大小成比例)twowayconnectedy1time,yaxis(1)||y2time,yaxis(2)(畫出y1和y2這兩個(gè)變量的時(shí)間點(diǎn)線圖,并將它們疊加在一個(gè)圖中,左邊“yaxis(1)”為y1的度量,右邊“yaxis(2)”為y2的)twowayliney1time,yaxis(1)||y2time,yaxis(2)(與上圖基本相同,就是沒有點(diǎn),只顯示曲線)graphtwowayscattervar1var4||scattervar2var4||scattervar3var4(做三個(gè)點(diǎn)圖的疊加)graphtwowaylinevar1var4||linevar2var4||linevar3var4(做三個(gè)線圖的疊加)graphtwowayconnectedvar1var4||connectedvar2var4||connectedvar3var4(疊加三個(gè)點(diǎn)線相連圖)更多變量:graphmatrixabcy(畫出一個(gè)散點(diǎn)圖矩陣,顯示各變量之間所有可能的兩兩相互散點(diǎn)圖)graphmatrixabcd,half(生成散點(diǎn)圖矩陣,只顯示下半部分的三角形區(qū)域)用auto數(shù)據(jù)集:graphmatrixpricempgweightlength,halfby(foreign,totalcol(1))(根據(jù)foreign變量的不同類型繪制price等四個(gè)變量的散點(diǎn)圖矩陣,要求繪出總圖,并上下排列】=具)其他圖形:graphboxy,over(x)yline(.22)(對(duì)應(yīng)x的每一個(gè)取值構(gòu)建y的箱型圖,并在y軸的0.22處劃一條水平線)graphbar(mean)y,over(x)對(duì)應(yīng)x的每一個(gè)取值,顯示y的平均數(shù)的條形圖。括號(hào)中的“mean"也可換成median、sum、sd、p25、p75等graphbara1a2,over(b)stack(對(duì)應(yīng)在b的每一個(gè)取值,顯示a1和a2的條形圖,a1和a2是疊放成一根條形柱。若不寫入“stack”,則a1和a2顯示為兩個(gè)并排的條形柱)graphdot(median)y,over(x)(畫點(diǎn)圖,沿著水平刻度,在x的每一個(gè)取值水平所對(duì)應(yīng)的y的中位數(shù)上打點(diǎn))qnormx(畫出一幅分位-正態(tài)標(biāo)繪圖)rcharta1a2a2(畫出質(zhì)量控制R圖,顯示a1到a3的取值范圍)簡(jiǎn)單統(tǒng)計(jì)量的計(jì)算:ameansx(計(jì)算變量x的算術(shù)平均值、幾何平均值和簡(jiǎn)單調(diào)和平均值,均顯示樣本量和置信區(qū)間)meanvarl[pweight=var2](求取分組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)誤,varl為各組的賦值,var2為每組的頻數(shù))summarizeyx1x2,detail(可以獲得各個(gè)變量的百分比數(shù)、最大最小值、樣本量、平均數(shù)、標(biāo)準(zhǔn)差、方差、峰度、偏度)***注意***stata中summarize所計(jì)算出來(lái)的峰度skewness和偏度kurtosis有問(wèn)題,與ECELL和SPSS有較大差異,建議不采用stata的結(jié)果。summarizevar1[aweight=var2],detail(求取分組數(shù)據(jù)的統(tǒng)計(jì)量,var1為各組的賦值,var2為每組的頻數(shù))tabstatX1,stats(meannqmaxminsdvarcv)(計(jì)算變量X1的算術(shù)平均值、樣本量、四分位線、最大最小值、標(biāo)準(zhǔn)差、方差和變異系數(shù))概率分布的計(jì)算:(1) 貝努利概率分布測(cè)試:webusequickbitestquick==0.3,detail(假設(shè)每次得到成功案例1的概率等于0.3,計(jì)算在變量quick所顯示的二項(xiàng)分布情況下,各種累計(jì)概率和單個(gè)概率是多少)bitesti10,3,0.5,detail(計(jì)算當(dāng)每次成功的概率為0.5時(shí),十次抽樣中抽到三次成功案例的概率:低于或高于三次成功的累計(jì)概率和恰好三次成功概率)(2) 泊松分布概率:displaypoisson(7,6).44971106(計(jì)算均值為7,成功案例小于等于6個(gè)的泊松概率)displaypoissonp(7,6).14900278(計(jì)算均值為7,成功案例恰好等于6個(gè)的泊松概率)displaypoissontail(7,6).69929172(計(jì)算均值為7,成功案例大于等于6個(gè)的泊松概率)(3)超幾何分布概率:displayhypergeometricp(10,3,4,2).3(計(jì)算在樣本總量為10,成功案例為3的樣本總體中,不重置地抽取4個(gè)樣本,其中恰好有2個(gè)為成功案例的概率)displayhypergeometric(10,3,4,2).96666667(計(jì)算在樣本總量為10,成功案例為3的樣本總體中,不重置地抽取4個(gè)樣本,其中有小于或等于2個(gè)為成功案例的概率)檢驗(yàn)極端值的步驟:常見命令:tabulate、stem、codebook、summarize、list、histogram、graphbox、graghmatrixstep1.用codebook、summarize、histogram、graphboxs、graphmatrix、stem看檢驗(yàn)數(shù)據(jù)的總體情況:codebookyx1x2summarizeyx1x2,detailhistogramx1,norm(正態(tài)直方圖)graphboxx1(箱圖)graphmatrixyx1x2,half(畫出各個(gè)變量的兩兩x-y圖)stemx1(做x1的莖葉圖)可以看出數(shù)據(jù)分布狀況,尤其是最大、最小值step2.用tabulate、list細(xì)致尋找極端值tabulatecodeifx1==極端值(作出x1等于極端值時(shí)code的頻數(shù)分布表,code表示地區(qū)、年份等序列變量,這樣便可找出那些地區(qū)的數(shù)值出現(xiàn)了錯(cuò)誤)listcodeifx1==?端值(直接列出x1等于極端值時(shí)code的值,當(dāng)x1的錯(cuò)誤過(guò)多時(shí),不建議使用該命令)listin-20/l(l表示lastone,-20表示倒數(shù)第20個(gè)樣本,該命令列出了從倒數(shù)第20個(gè)到倒數(shù)第一個(gè)樣本的各變量值)step3.用replace命令替換極端值replacex1=?ifx1==極端值去除極端值:keepify<1000dropify>1000對(duì)數(shù)據(jù)排序:sortxgsort+x(對(duì)數(shù)據(jù)按x進(jìn)行升序排列)gsort-x(對(duì)數(shù)據(jù)按x進(jìn)行降序排列)gsort-x,generate(id)mfirst(對(duì)數(shù)據(jù)按x進(jìn)行降序排列,缺失值排最前,生成反映位次的變量id)對(duì)變量進(jìn)行排序:orderyx3x1x2(將變量按照y、x3、x1、x2的順序排列)生成新變量:genlogx1=log(x1)(得出x1的對(duì)數(shù))genx1'=exp(logx1)(將logx1反對(duì)數(shù)化)genr61_100=1ifrank>=61&rank<=100(若rank在61與100之間,則新變量r61_100的取值為1,其他為缺失值)replacer61_100ifr61_100!=1("!表示不等于,若r61_100取值不為1,則將r61_100替換為0,就是將上式中的缺失值替換為0)genabs(x)(取x的絕對(duì)值)genceil(x)(取大于或等于x的最小整數(shù))gentrunc(x)(取x的整數(shù)部分)genround(x)(對(duì)x進(jìn)行四舍五入)genround(x,y)(以y為單位,對(duì)x進(jìn)行四舍五入)gensqrt(x)(取x的平方根)genmod(x,y)(取x/y的余數(shù))genreldif(x,y)(取x與y的相對(duì)差異,即|x-y|/(|y|+1))genlogit(x)(取ln[x/(1-x)])genx=autocode(x,n,xmin,xmax)(將x的值域,即xmax-xmin,分為等距的n份)genx=cond(x1>x2,x1,x2)(若x1>x2成立,則取x1,若x1>x2不成立,則取x2)sortxgengx=group(n)(將經(jīng)過(guò)排序的變量x分為盡量等規(guī)模的n個(gè)組)egenzx1=std(x1)(得出x1的標(biāo)準(zhǔn)值,就是用(x1-avgx1)/sdx1)egenzx1=std(x1),m(0)s(1)(得出x1的標(biāo)準(zhǔn)分,標(biāo)準(zhǔn)分的平均值為0,標(biāo)準(zhǔn)差為1)egensdx1=sd(x1)(得出x1的標(biāo)準(zhǔn)差)egenmeanx1=mean(x1)(得出x1的平均值)egenmaxx1=max(x1)(最大值)egenminx1=min(x1)(最小值)egenmedx1=med(x1)(中數(shù))egenmodex1=mode(x1)(眾數(shù))egentotalx1=total(x1)(得出x1的總數(shù))egenrowsd=sd(x1x2x3)(得出x1、x2和x3聯(lián)合的標(biāo)準(zhǔn)差)egenrowmean=mean(x1x2x3)(得出x1、x2和x3聯(lián)合的平均值)egenrowmax=max(x1x2x3)(聯(lián)合最大值)egenrowmin=min(x1x2x3)(聯(lián)合最小值)egenrowmed=med(x1x2x3)(聯(lián)合中數(shù))egenrowmode=mode(x1x2x3)(聯(lián)合眾數(shù))egenrowtotal=total(x1x2x3)(聯(lián)合總數(shù))egenxrank=rank(x)(在不改變變量x各個(gè)值排序的情況下,獲得反映x值大小排序的xrank)數(shù)據(jù)計(jì)算器display命令:displayx[12](顯示x的第十二個(gè)觀察值)displaychi2(n,x)(自由度為n的累計(jì)卡方分布)displaychi2tail(n,x)(自由度為n的反向累計(jì)卡方分布,chi2tail(n,x)=1-chi2(n,x))displayinvchi2(n,p)(卡方分布的逆運(yùn)算,若chi2(n,x)=p,那么invchi2(n,p)=x)displayinvchi2tail(n,p)(chi2tail的逆運(yùn)算)displayF(n1,n2,f)(分子、分母自由度分別為n1和n2的累計(jì)F分布)displayFtail(n1,n2,f)(分子、分母自由度分別為n1和n2的反向累計(jì)F分布)displayinvF(n1,n2,P)(F分布的逆運(yùn)算,若F(n1,n2,f)=p,那么invF(n1,n2,p)=f)displayinvFtail(n1,n2,p)(Ftail的逆運(yùn)算)displaytden(n,t)(自由度為n的t分布)displayttail(n,t)(自由度為n的反向累計(jì)t分布)displayinvttail(n,p)(ttail的逆運(yùn)算)給數(shù)據(jù)庫(kù)和變量做標(biāo)記:labeldata"~~~"(對(duì)現(xiàn)用的數(shù)據(jù)庫(kù)做標(biāo)記,"~~~"就是標(biāo)記,可自行填寫)labelvariablex"—”(對(duì)變量x做標(biāo)記)labelvaluesxlabel1(賦予變量x一組標(biāo)簽:label1)labeldefinelabel11"a1"2"a2"(定義標(biāo)簽的具體內(nèi)容:當(dāng)x=1時(shí),標(biāo)記為a1,當(dāng)x=2時(shí),標(biāo)記為a2)頻數(shù)表:tabulatex1,sorttab1x1-x7,sort(做x1到x7的頻數(shù)表,并按照頻數(shù)以降序顯示行)tablec1,c(nx1meanx1sdx1)(在分類變量c1的不同水平上列出x1的樣本量和平均值)二維交互表:auto數(shù)據(jù)庫(kù):tablerep78foreign,c(nmpgmeanmpgsdmpgmedianmpg)centerrowcol(rep78,foreign均為分類變量,rep78為行變量,foreign為列變量,center表示結(jié)果顯示在單元格中間,row表示計(jì)算行變量整體的統(tǒng)計(jì)量,col表示計(jì)算列變量整體的統(tǒng)計(jì)量)tabulatex1x2,all(做x1和x2的二維交互表,要求顯示獨(dú)立性檢驗(yàn)chi2、似然比卡方獨(dú)立性檢驗(yàn)lrchi2、對(duì)定序變量適用的等級(jí)相關(guān)系數(shù)gamma和taub、以及對(duì)名義變量適用的V)tabulatex1x2,columnchi2(做x1和x2的二維交互表,要求顯示列百分比和行變量和列變量的獨(dú)立性檢驗(yàn)一一零假設(shè)為變量之間獨(dú)立無(wú)統(tǒng)計(jì)關(guān)系)tab2x1-x7,allnofreq(對(duì)x1到x7這七個(gè)變量?jī)蓛傻刈龆S交互表,不顯示頻數(shù):nofreq)三維交互表:byx3,sort:tabulatex1x2,nofreqcolchi2(同時(shí)進(jìn)行x3的每一個(gè)取值內(nèi)的x1和x2的二維交互表,不顯示頻數(shù)、顯示列百分比和獨(dú)立性檢驗(yàn))四維交互表:tablex1x2x3,c(ferqmeanx1meanx2meanx3)by(x4)tabstatX1X2,by(X3)stats(meannqmaxminsdvarcv)col(stats)tabstatX1X2,by(X3)stats(meanrangeqsdvarcvp5p95median),[aw=X4](以X4為權(quán)重求X1、X2的均值,標(biāo)準(zhǔn)差、方差等)ttestX1=1countifX1==0countifX1>=0genX2=1ifX1>=0corrx1x2x3(做x1、x2、x3的相關(guān)系數(shù)表)swilkx1x2x3(用Shapiro-WilkWtest對(duì)x1、x2、x3進(jìn)行正太性分析)sktestx1x2x3(對(duì)x1、x2、x3進(jìn)行正太性分析,可以求出峰度和偏度)ttestx1=x2(對(duì)x1、x2的均值是否相等進(jìn)行T檢驗(yàn))ttestx1,by(x2)unequal(按x2的分組方式對(duì)x1進(jìn)行T檢驗(yàn),假設(shè)方差不齊性)sdtestx1=x2(方差齊性檢驗(yàn))sdtestx1,by(x2)(按x2的分組方式對(duì)x1進(jìn)行方差齊性檢驗(yàn))聚類分析:clusterkmeansyx1x2x3,k(3) 依據(jù)y、x1、x2、x3,將樣本分為n類,聚類的核為隨機(jī)選取clusterkmeansyx1x2x3,k(3)measure(L1)start(everykth)——"start"用于確定聚類的核,"everykth"表示將通過(guò)構(gòu)造三組樣本獲得聚類核:構(gòu)造方法為將樣本id為1、1+3、1+3x2、1+3x3......分為一組、將樣本id為2、2+3、2+3x2、2+3x3......分為第二組,以此類推,將這三組的均值作為聚類的核;"measure"用于計(jì)算相似性和相異性的方法,"L1"表示采用歐式距離的絕對(duì)值,也直接可采用歐式距離(L2)和歐式距離的平方(L2squared)。PS:這個(gè)方法所得的結(jié)果與SPSS所得結(jié)果相同。sortc1c2(對(duì)c1和c2兩個(gè)分類變量排序)byc1c2:regyx1x2x3(在c1、c2的各個(gè)水平上分別進(jìn)行回歸)bysortc1c2:regyx1x2x3ifc3=1(逗號(hào)前面相當(dāng)于將上面兩步驟合一,既排序又回歸,逗號(hào)后面的“ifc3=1”表示只有在c3=1的情況下才進(jìn)行回歸)stepwise,pr(.2):regyx1x2x3(使用Backwardselection,去除P值大于0.2時(shí)變量)stepwise,pe(.2):regyx1x2x3(使用forwardselection,去除P值小于0.2時(shí)變量)stepwise,pr(.2)pe(.01):regyx1x2x3(使用backward-stepwiseselection,取P值在0.01和0.2之間的變量)stepwise,pe(.2)forward:regyx1x2x3(使用forward-stepwiseselection)regyx1x2x3predictYhat,xbpredictu,residpredictustd,stdr(獲得殘差的標(biāo)準(zhǔn)誤)predictstd,stdp(獲得y估計(jì)值的標(biāo)準(zhǔn)誤)predictstdf,stdf(獲得y預(yù)測(cè)值的標(biāo)準(zhǔn)誤)predicte,e(1,12)(獲得y在1到12之間的估計(jì)值)predictp,pr(1,12)(獲得y在1到12之間的概率)predictrstu,rstudent(獲得student的t值)predictlerg,leverage(獲得杠桿值)predictckd,cooksd(獲得cooksd)regyx1x2x3c1c2adjustx1x2x3,se(使得變量x1、x2和x3等于其均值,求y的預(yù)測(cè)值和標(biāo)準(zhǔn)誤)adjustx1x2x3,stdfci(使得變量x1、x2和x3等于其均值,求y的預(yù)測(cè)值,預(yù)測(cè)標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1x2,by(c1)seci(控制變量x1、x2,亦即取它們的均值,在分類變量c1的不同水平上求y預(yù)測(cè)值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1x2x3,by(c1)stdfci(控制變量x1、x2、x3,亦即取它們的均值,在分類變量c1的不同水平上求y預(yù)測(cè)值,預(yù)測(cè)標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1x2,by(c1c2)seci(控制變量x1、x2,在分類變量c1、c2的不同水平上求y的預(yù)測(cè)值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1x2x3,by(c1c2)stdfc(控制變量x1、x2、x3,在分類變量c1、c2的不同水平上求y的預(yù)測(cè)值,預(yù)測(cè)標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1=ax2=bx3=c,seci(當(dāng)x1=a、x2=b、x3=c時(shí),求y的預(yù)測(cè)值、標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1=ax2=bx3=c,by(c1)seci(當(dāng)x1=a、x2=b、x3=c時(shí),在分類變量c1的不同水平上,求y的預(yù)測(cè)值、標(biāo)準(zhǔn)誤和置信區(qū)間)adjustx1=ax2=bc1=1,by(c1)seci(當(dāng)x1=a、x2=b,并假設(shè)所有的樣本均為c1=1,求在分類變量c1的不同水平上,因?yàn)樽兞縳3的均值不同,而導(dǎo)致的y的不同的預(yù)測(cè)值......)mvregY1Y2......:X1X2X3......(多元回歸)mvregy1y2y3:x1x3x3(多元回歸分析,y1y2y3為因變量,x1x3x3為自變量)以下命令只有在進(jìn)行了mvreg之后才能進(jìn)行test[y1](測(cè)試對(duì)y1的回歸系數(shù)聯(lián)合為0)test[y1]:x1x2(測(cè)試對(duì)y1的回歸中x1、x2的系數(shù)為0)testx1x2x3(測(cè)試在所有的回歸中,x1、x2、x3的系數(shù)均為0)test[y1=y2](對(duì)y1的回歸和對(duì)y2的回歸系數(shù)相等)test[y1=y2]:x1x2x3,mtest(對(duì)y1和y2的回歸中,分別測(cè)試x1、x2、x3的系數(shù)是否相等,若沒有mtest這個(gè)命令,則測(cè)試他們的聯(lián)和統(tǒng)計(jì))test[y1=y2=y3](三個(gè)回歸的系數(shù)是否相等,可加mtest以分別測(cè)試)test[y1=y2=y3]:x1x2(測(cè)試三個(gè)回歸中的x1、x2是否相等,可加mtest)est命令的用法:(1) 儲(chǔ)存回歸結(jié)果:regyx1x2x3(不限于reg,也可儲(chǔ)存ivreg、mvreg、reg3)eststoreA(2) 重現(xiàn)回歸結(jié)果:estreplayA(3) 對(duì)回歸結(jié)果進(jìn)行進(jìn)一步分析estforA:sum(對(duì)A回歸結(jié)果中的各個(gè)變量運(yùn)行sum命令)異方差問(wèn)題:獲得穩(wěn)健性標(biāo)準(zhǔn)誤regyx1x2x3ifc1==1(當(dāng)分類變量c1=1時(shí),進(jìn)行y和諸x的回歸)regyx1x2x3,robust(回歸后顯示各個(gè)自變量的異方差-穩(wěn)健性標(biāo)準(zhǔn)誤)estatvif(回歸之后獲得VIF)estathettest,mtest(異方差檢驗(yàn))異方差檢驗(yàn)的套路:(1)Breusch-pagan法:regyx1x2x3predictu,residgenusq=uA2regusqx1x2x3求F值displayR/(1-R)*n2/n1(n1表示分子除數(shù),n2表示分母除數(shù))displayFtail( )求LM值displayR*n(n表示總樣本量)displaychi2tail( )white法:regyx1x2x3predictu,residgenusq=uA2predictygenysq=yA2regusqyysq求F值displayR/(1-R)*n2/n1(n1表示分子除數(shù),n2表示分母除數(shù))displayFtail( )求LM值displayR*n(n表示總樣本量)displaychi2tail( )必要補(bǔ)充F值和LM值轉(zhuǎn)換為P值的命令:displayFtail(n1,n2,a)(利用F值求p值,n1表示分子除數(shù),n2表示分母除數(shù),a為F值)displaychi2tail(n3,b)(利用LM值求p值,n3表示自由度的損失量,一般等于n1,b為L(zhǎng)M值)異方差的糾正 WLS(weightedleastsquareestimator)(1)基本思路:regyx1x2x3[aw=x1](將x1作為異方差的來(lái)源,對(duì)方程進(jìn)行修正)上式相當(dāng)于:regy/(x1A0.5)1/(x1A0.5)x1/(x1A0.5)x2/(x1A0.5)x3/(x1A0.5),noconstant(2)糾正異方差的常用套路(構(gòu)造h值)regyx1x2x3predictu,residgenusq=uA2genlogusq=log(usq)reglogusqx1x2x3predictggenh=exp(g)regyx1x2x3[aw=1/h]異方差hausman檢驗(yàn):regyx1x2x3eststoreA(將上述回歸結(jié)果儲(chǔ)存到A中)regyx1x2x3[aw=1/h]eststoreBhausmanAB當(dāng)因變量為對(duì)數(shù)形式時(shí)(log(y))如何預(yù)測(cè)yreglogyx1x2x3predictkgenm=exp(k)regym,noconstantm的系數(shù)為iy的預(yù)測(cè)值=ixexp(k)方差分析:一元方差分析anovayg1/g1|g2/(g*表示不同分類變量,計(jì)算g1和交互項(xiàng)/g1|g2/這兩種分類的y值是否存在組內(nèi)差異)anovayd1d2d1*d2(d*表示虛擬變量,計(jì)算d1、d2和d1*d2的這三種分類的y值是否有組內(nèi)差異)anovaydid2x1d2*x1,continuous(xl)(x*表示連續(xù)的控制變量)多元方差分析webusejawmanovay1y2y3=genderfracturegender*fracture(按性別、是否骨折及二者的交互項(xiàng)對(duì)y1、y2和y3進(jìn)行方差分析)manovay1=genderfracturegender*fracture(相當(dāng)于一元方差分析,以y1為因變量)webusenobetweengenmycons=1manovatest1test2test3=mycons,noconstantmatc=(1,0,-1\0,1,-1)manovatestmycons,ytransform(c)進(jìn)行多元回歸的方法:多元回歸分析:(與mvreg相同)foreachvnameiny1y2y3((確定y變量組vname)reg'vname'x1x2x3(將y變量組中的各個(gè)變量與諸x變量進(jìn)行回歸分析,注意vname的標(biāo)點(diǎn)符號(hào))}上式等價(jià)于:mvregy1y2y3=x1x2x3reg3命令:(1)簡(jiǎn)單用法:reg3(y1=x1x2x3)(y2=x1x3x4)(y3=x1x2x5)測(cè)試y1coefs=0test[y1]測(cè)試不同回歸中相同變量的系數(shù):test[y1=y2=y3],commontest([y1=y2])([y1=y3]),commonconstant(constant表示包含截距項(xiàng))(2)用reg3進(jìn)行2SLSreg3(y1=y2x1x2)(y2=y1x4),2sls(2)用reg3進(jìn)行OLSreg3(y1=y2x1x2)(y2=y1x4),ols對(duì)兩個(gè)回歸結(jié)果進(jìn)行hausman檢驗(yàn):reg3(y1=x1x2x3)(y2=y1x4),2slseststoretwoslsreg3(y1=x1x2x3)(y2=y1x4),olseststoreolshausmantwoslsols,equations(1:1)(對(duì)兩次回歸中的方程1,即“y1=x1x2x3”進(jìn)行hausman檢驗(yàn))hausmantwoslsols,equations(2:2)(對(duì)兩次回歸中的方程2,即“y2=y1x4”進(jìn)行hausman檢驗(yàn))hausmantwoslsols,alleqs(對(duì)所有方程一起進(jìn)行檢驗(yàn))檢驗(yàn)忽略變量(模型的RESET):regyx1x2x3estatovtest滯后變量的制取對(duì)變量y滯后一期:geny_l1=y[_n-1]滯后兩期:geny_l2=y[_n-2]以此類推。制取樣本序號(hào):genid=_n獲得樣本總量:genid=_N時(shí)間序列回歸:回歸元嚴(yán)格外生時(shí)AR(1)序列相關(guān)的檢驗(yàn)regyx1x2predictu,residgenu_1=u[_n-1]reguu_1,noconstant回歸之后,u_1的序數(shù)如果不異于零,則該序列不相關(guān)用Durbin-WatsonStatistics檢驗(yàn)序列相關(guān):tssetyear@(對(duì)時(shí)間序列回歸中代表時(shí)間的變量進(jìn)行定義)@regyx1x2dwstat@(求出時(shí)間序列回歸的DW值)@durbina@(對(duì)該回歸是否具有序列相關(guān)進(jìn)行檢驗(yàn),H0為無(wú)序列相關(guān),可根據(jù)chi2值求出P值)@durbina,small@(small可以根據(jù)F值求出P值,以代替chi2值)@durbina,force@(讓檢驗(yàn)?zāi)茉趓obust、neway之后進(jìn)行)@durbina,smalllag(1/10)@(lag可以求出更高階滯后的序列相關(guān),如本例中可求出1到10階的序列相關(guān))@durbina,robustlag(1/10)@(robust可進(jìn)行異方差一穩(wěn)健性回歸,避免未知形式的異方差)@bgodfrey@(利用Breusch-Godfreytest求出高階序列相關(guān))@bgodfrey,smalllag(1/10)數(shù)據(jù)調(diào)查:surveydata源數(shù)據(jù):dataset文件夾中的svydata步驟:1、定義surveydatasvysetpsuid[pweight=finalwgt],strata(stratid) 定義primarysamplingunit為psuid??赡苁菧y(cè)試的編號(hào),1or2 定義pweight為finalwgt 定義stratumidentifer為stratid??赡苁菧y(cè)試中被試的編號(hào),1to312、 生成malegenmale=(sex==1)if!missing(sex) 當(dāng)sex不缺失且等于1時(shí),male=sex3、 生成行變量為highbp,列變量為sizplace的表格svy,subpop(male):tabulatehighbpsizplace,colobspearsonlrnullwald subpop規(guī)定了以male為數(shù)據(jù)調(diào)查的范圍 tabulatehighbpsizplace表示繪制行變量為highbp,歹。變量為sizplace的表格——col表示每一列的加總為100%,row表示每一行的加總為100%,cell表示橫縱所有單元格的加總為100%——obs表示列出每個(gè)單元格的樣本量,se表示列出每個(gè)單元格的標(biāo)準(zhǔn)誤,ci表示列出每個(gè)單元格的置信區(qū)間 pearson表示求取pearson'schi-squired,皮爾遜的卡方檢定 lr表示求取likelihoodratio null表示求取null-basedstatistics wald表示求取adjustedwald,llwald表示求取adjustedlog-linearWald,noadjust表示求取unadjustedWaldstatistics4、 svy:meanx1x2x3 對(duì)x1、x2、x3求取mean、se和ci5、 簡(jiǎn)單的tabulatetwoway(不用svyset就可執(zhí)行)tab2yx,colchi2exactlr col、cell、row等均可換用,chi2指的是Pearson'schi-squared、exact指的是fisherexacttest>lr指的是likelihood-ratiochi-squared6、 svy的其他用法:svy:regyx建立人工數(shù)據(jù)集:創(chuàng)建一個(gè)包含從獨(dú)立標(biāo)準(zhǔn)正態(tài)分布中抽取的2000個(gè)觀察案例和三個(gè)隨機(jī)Z1、Z2、Z3,并分別定義他們的平均值和標(biāo)準(zhǔn)差。matrixm=(0,2,3) 定義三個(gè)變量的平均值matrixsd=(1,.5,2) 定義三個(gè)變量的標(biāo)準(zhǔn)差drawnormz1z2z3,n(2000)means(m)sds(sd) 創(chuàng)建樣本量為2000,均值和標(biāo)準(zhǔn)差符合上面定義的數(shù)據(jù)集補(bǔ)充:除了定義均值和標(biāo)準(zhǔn)差之外,還可定義相關(guān)矩陣和協(xié)方差矩陣等。logit回歸logityx1x2x3——y必須為二分變量glogitoutcomedatapopulationdatax1x2x3 outcomedata為目標(biāo)樣本總量,populationdata為觀測(cè)樣本總量,outcomedata/populationdata的值便是一個(gè)概率,相當(dāng)于logit命令中的y面板數(shù)據(jù)(PanelData)1、 基本套路:xtregyx1x2,reeststorerextregyx1x2,feeststorefehausmanrefe——如果hausman檢驗(yàn)的結(jié)果為顯著,則采用固定效應(yīng)(fe)模型,不顯著,則選取隨機(jī)效應(yīng)(re)模型2、 隨機(jī)效應(yīng)的檢驗(yàn):xtregyx1x2,rexttest0xttest1 xttest1是xttest0的擴(kuò)展,若這xttest0的結(jié)果為顯著,則采用隨機(jī)效應(yīng)(re)模型xttest1的假設(shè)是沒有隨機(jī)效應(yīng)和/或沒有序列相關(guān),它的七個(gè)結(jié)果分別表示:LMTestforrandomeffects,assumingnoserialcorrelation(假設(shè)沒有序列相關(guān)情況下對(duì)隨機(jī)效應(yīng)進(jìn)行LM檢驗(yàn))AdjustedLMtestforrandomeffects,whichworksevenunderserialcorrelation(假設(shè)有序列相關(guān)的情況下對(duì)隨機(jī)LM檢驗(yàn))3) OnesidedversionoftheLMtestforrandomeffects(假設(shè)沒有序列相關(guān)的情況下對(duì)隨機(jī)效應(yīng)進(jìn)行單邊檢驗(yàn))4) OnesidedversionoftheadjustedLMtestforrandomeffects(假設(shè)有序列相關(guān)的情況下對(duì)隨機(jī)效應(yīng)進(jìn)行單邊檢驗(yàn))5) LMtestforfirst-orderserialcorrelation,assumingnorandomeffects(假設(shè)沒有隨機(jī)效應(yīng)的情況下對(duì)一階序列相關(guān)進(jìn)行檢驗(yàn))6) Adjustedtestforfirst-orderserialcorrelation,whichworksevenunderrandomeffects(假設(shè)有隨機(jī)效應(yīng)的情況下對(duì)一階序列相關(guān)進(jìn)行檢驗(yàn))7) LMJointtestforrandomeffectsandserialcorrelation(隨機(jī)效應(yīng)和序列相關(guān)的聯(lián)合檢驗(yàn))3、固定效應(yīng)模型,可采用廣義最小二乘法(gls)進(jìn)行估算,也可采用固定效應(yīng)方程(fe):xtserialyx1x2xtglsyx1x2xttest2xttest3 xtserial用于檢驗(yàn)固定效應(yīng)模型中的一階序列自相關(guān),可通用于xtgls和fe之前——xttest2用于檢驗(yàn)不同廠商的相似性,若顯著則各廠家的截面相似,可通用于xtgls和fe之后——xttest3用于檢驗(yàn)固定效應(yīng)模型中的異方差問(wèn)題,若顯著則有異方差,可通用于xtgls和fe之后http://hi.baidu.eom/cheerhappywo/blog/item/bd9f2f96a5dfb40ad21b70b0.html我常用到的stata命令最重要的兩個(gè)命令莫過(guò)于help和search了。即使是經(jīng)常使用stata的人也很難,也沒必要記住常用命令的每一個(gè)細(xì)節(jié),更不用說(shuō)那些不常用到的了。所以,在遇到困難又沒有免費(fèi)專家咨詢時(shí),使用stata自帶的幫助文件就是最佳選擇。stata的幫助文件十分詳盡,面面俱到,這既是好處也是麻煩。當(dāng)你看到長(zhǎng)長(zhǎng)的幫助文件時(shí),是不是對(duì)迅速找到相關(guān)信息感到?jīng)]有信心?閑話不說(shuō)了°help和search都是查找?guī)椭募拿?,它們之間的區(qū)別在于help用于查找精確的命令名,而search是模糊查找。如果你知道某個(gè)命令的名字,并且想知道它的具體使用方法,只須在stata的命令行窗口中輸入help空格加上這個(gè)名字。回車后結(jié)果屏幕上就會(huì)顯示出這個(gè)命令的幫助文件的全部?jī)?nèi)容。如果你想知道在stata下做某個(gè)估計(jì)或某種計(jì)算,而不知道具體該如何實(shí)現(xiàn),就需要用search命令了。使用的方法和help類似,只須把準(zhǔn)確的命令名改成某個(gè)關(guān)鍵詞?;剀嚭蠼Y(jié)果窗口會(huì)給出所有和這個(gè)關(guān)鍵詞相關(guān)的幫助文件名和鏈接列表。在列表中尋找最相關(guān)的內(nèi)容,點(diǎn)擊后在彈出的查看窗口中會(huì)給出相關(guān)的幫助文件。耐心尋找,反復(fù)實(shí)驗(yàn),通??梢暂^快地找到你需要的內(nèi)容。下面該正式處理數(shù)據(jù)了。我的處理數(shù)據(jù)經(jīng)驗(yàn)是最好能用stata的do文件編輯器記下你做過(guò)的工作。因?yàn)楹苌儆幸豁?xiàng)實(shí)證研究能夠一次完成,所以,當(dāng)你下次繼續(xù)工作時(shí)。能夠重復(fù)前面的工作是非常重要的。有時(shí)因?yàn)橐恍┘?xì)小的不同,你會(huì)發(fā)現(xiàn)無(wú)法復(fù)制原先的結(jié)果了。這時(shí)如果有記錄下以往工作的do文件將把你從地獄帶到天堂。因?yàn)槟悴槐匾槐橛忠槐榈卦噲D重現(xiàn)做過(guò)的工作。在stata窗口上部的工具欄中有個(gè)孤立的小按鈕,把鼠標(biāo)放上去會(huì)出現(xiàn)“bringdo-fileeditortofront”,點(diǎn)擊它就會(huì)出現(xiàn)do文件編輯器。為了使do文件能夠順利工作,一般需要編輯do文件的“頭”和“尾”。這里給出我使用的“頭”和“尾”。/*(標(biāo)簽。簡(jiǎn)單記下文件的使命。)*/captureclear(清空內(nèi)存中的數(shù)據(jù))capturelogclose(關(guān)閉所有打開的日志文件)setmem128m(設(shè)置用于stata使用的內(nèi)存容量)setmoreoff(關(guān)閉more選項(xiàng)。如果打開該選項(xiàng),那么結(jié)果分屏輸出,即一次只輸出一屏結(jié)果。你按空格鍵后再輸出下一屏,直到全部輸完。如果關(guān)閉則中間不停,一次全部輸出。)setmatsize4000(設(shè)置矩陣的最大階數(shù)。我用的是不是太大了?)cdD:(進(jìn)入數(shù)據(jù)所在的盤符和文件夾。和dos的命令行很相似。)logusing(文件名).log,replace(打開日志文件,并更新。日志文件將記錄下所有文件運(yùn)行后給出的結(jié)果,如果你修改了文件內(nèi)容,replace選項(xiàng)可以將其更新為最近運(yùn)行的結(jié)果。)use(文件名),clear(打開數(shù)據(jù)文件。)(文件內(nèi)容)logclose(關(guān)閉日志文件。)exit,clear(退出并清空內(nèi)存中的數(shù)據(jù)。)這個(gè)do文件的“頭尾”并非我的發(fā)明,而是從沈明高老師那里學(xué)到的。版權(quán)歸沈明高老師。(待續(xù))我常用到的stata命令:(續(xù))實(shí)證工作中往往接觸的是原始數(shù)據(jù)。這些數(shù)據(jù)沒有經(jīng)過(guò)整理,有一些錯(cuò)漏和不統(tǒng)一的地方。比如,對(duì)某個(gè)變量的缺失觀察值,有時(shí)會(huì)用點(diǎn),有時(shí)會(huì)用-9,-99等來(lái)表示。回歸時(shí)如果使用這些觀察,往往得出非常錯(cuò)誤的結(jié)果。還有,在不同的數(shù)據(jù)文件中,相同變量有時(shí)使用的變量名不同,會(huì)給合并數(shù)據(jù)造成麻煩。因此,拿到原始數(shù)據(jù)后,往往需要根據(jù)需要重新生成新的數(shù)據(jù)庫(kù),并且只使用這個(gè)新庫(kù)處理數(shù)據(jù)。這部分工作不難,但是非常基礎(chǔ)。因?yàn)槿绻谶@里你不夠小心,后面的事情往往會(huì)白做。假設(shè)你清楚地知道所需的變量,現(xiàn)在要做的是檢查數(shù)據(jù)、生成必要的數(shù)據(jù)并形成數(shù)據(jù)庫(kù)供將來(lái)使用。檢查數(shù)據(jù)的重要命令包括codebook,su,ta,des和list。其中,codebook提供的信息最全面,缺點(diǎn)是不能使用if條件限制范圍,所以,有時(shí)還要用別的幫幫忙。su空格加變量名報(bào)告相應(yīng)變量的非缺失的觀察個(gè)數(shù),均值,標(biāo)準(zhǔn)差,最小值和最大值。ta空格后面加一個(gè)(或兩個(gè))變量名是報(bào)告某個(gè)變量(或兩個(gè)變量二維)的取值(不含缺失值)的頻數(shù),比率和按大小排列的累積比率。des后面可以加任意個(gè)變量名,只要數(shù)據(jù)中有。它報(bào)告變量的存儲(chǔ)的類型,顯示的格式和標(biāo)簽。標(biāo)簽中一般記錄這個(gè)變量的定義和單位。list報(bào)告變量的觀察值,可以用if或in來(lái)限制范圍。所有這些命令都可以后面不加任何變量名,報(bào)告的結(jié)果是正在使用的數(shù)據(jù)庫(kù)中的所有變量的相應(yīng)信息。說(shuō)起來(lái)蒼白無(wú)力,打開stata親自實(shí)驗(yàn)一下吧。順帶說(shuō)點(diǎn)兒題外話。除了codebook之外,上述統(tǒng)計(jì)類的命令都屬于r族命令(又稱一般命令)。執(zhí)行后都可以使用returnlist報(bào)告儲(chǔ)存在r()中的統(tǒng)計(jì)結(jié)果。最典型的r族命令當(dāng)屬summarize。它會(huì)把樣本量、均值、標(biāo)準(zhǔn)差、方差、最小值、最大值、總和等統(tǒng)計(jì)信息儲(chǔ)存起來(lái)。你在執(zhí)行su之后,只需敲入returnlist就可以得到所有這些信息。其實(shí),和一般命令的return命令類似,估計(jì)命令(又稱e族命令)也有ereturn命令,具有報(bào)告,儲(chǔ)存信息的功能。在更復(fù)雜的編程中,比如對(duì)回歸分解,計(jì)算一些程序中無(wú)法直接計(jì)算的統(tǒng)計(jì)量,這些功能更是必不可少。檢查數(shù)據(jù)時(shí),先用codebook看一下它的值域和單位。如果有-9,-99這樣的取值,查一下問(wèn)卷中對(duì)缺失值的記錄方法。確定它們是缺失值后,改為用點(diǎn)記錄。命令是replace(變量名)=.if(變量名)==-9。再看一下用點(diǎn)記錄的缺失值有多少,作為選用變量的一個(gè)依據(jù)。得到可用的數(shù)據(jù)后,我會(huì)給沒有標(biāo)簽的變量加上注解?;蛘呓y(tǒng)一標(biāo)簽;或者統(tǒng)一變量的命名規(guī)則。更改變量名的命令是ren(原變量名)空格(新變量名)。定義標(biāo)簽的命令是labelvar(變量名)空格”(標(biāo)簽內(nèi)容)”。整齊劃一的變量名有助于記憶,簡(jiǎn)明的標(biāo)簽有助于明確變量的單位等信息。如果你需要使用通過(guò)原始變量派生出的新變量,那么就需要了解gen,egen和replace這三個(gè)命令°gen和replace常常在一起使用。它們的基本語(yǔ)法是gen(或replace)空格(變量名)=(表達(dá)式)。二者的不同之處在于gen是生成新變量,replace是重新定義舊變量。虛擬變量是我們常常需要用到的一類派生變量。如果你需要生成的虛擬變量個(gè)數(shù)不多,可以有兩種方法生成。一種是簡(jiǎn)明方法:gen空格(變量名)=((限制條件))[這外面的小括弧是命令需要的,里面的小括弧不是命令需要的,只是說(shuō)明“限制條件”并非命令]。如果某個(gè)觀察滿足限制條件,那么它的這個(gè)虛擬變量取值為1,否則為0。另一種要麻煩一點(diǎn)。就是gen(變量名)=1if(取值為一限制條件)replace(相同的變量名)=0if(取值為零的限制條件)兩個(gè)方法貌似一樣,但有一個(gè)小小的區(qū)別。如果限制條件中使用的變量都沒有任何缺失值,那么兩種方法的結(jié)果一樣。如果有缺失值,第一種方法會(huì)把是缺失值的觀察的虛擬變量都定義為0。而第二種方法可以將虛擬變量的取值分為三種,一是等于1,二是等于0,三是等于缺失值。這樣就避免了把本來(lái)信息不明的觀察錯(cuò)誤地納入到回歸中去。下次再講如何方便地生成成百上千個(gè)虛擬變量。我常用到的stata命令:(續(xù))大量的虛擬變量往往是根據(jù)某個(gè)已知變量的取值生成的。比如,在某個(gè)回歸中希望控制每個(gè)觀察所在的社區(qū),即希望控制標(biāo)記社區(qū)的虛擬變量。社區(qū)數(shù)目可能有成百上千個(gè),如果用上次的所說(shuō)的方法生成就需要重復(fù)成百上千次,這也太笨了。大量生成虛擬變量的命令如下;ta(變量名),gen((變量名))第一個(gè)括號(hào)里的變量名是已知的變量,在上面的例子中是社區(qū)編碼。后一個(gè)括號(hào)里的變量名是新生成的虛擬變量的共同前綴,后面跟數(shù)字表示不同的虛擬變量。如果我在這里填入山那么,上述命令就會(huì)新生成dl,d2,等等,直到所有社區(qū)都有一個(gè)虛擬變量。在回歸中控制社區(qū)變量,只需簡(jiǎn)單地放入這些變量即可。一個(gè)麻煩是虛擬變量太多,怎么簡(jiǎn)單地加入呢?一個(gè)辦法是用省略符號(hào),d*表示所有d字母開頭的變量,另一法是用破折號(hào),d1-d150表示第一個(gè)到第150個(gè)社區(qū)虛擬變量(假設(shè)共有150個(gè)社區(qū))。還有一種方法可以在回歸中直接控制虛擬變量,而無(wú)需真的去生成這些虛擬變量。使用命令areg可以做到,它的語(yǔ)法是areg(被解釋變量)(解釋變量),absorb(變量名)absorb選項(xiàng)后面的變量名和前面講的命令中第一個(gè)變量名相同。在上面的例子中即為社區(qū)編碼?;貧w的結(jié)果和在reg中直接加入相應(yīng)的虛擬變量相同。生成變量的最后一招是egen。egen和gen都用于生成新變量,但egen的特點(diǎn)是它更強(qiáng)大的函數(shù)功能。gen可以支持一些函數(shù),egen支持額外的函數(shù)。如果用gen搞不定,就得用egen想辦法了。不過(guò)我比較懶,到現(xiàn)在為止只用用取平均、加和這些簡(jiǎn)單的函數(shù)。有的時(shí)候數(shù)據(jù)情況復(fù)雜一些,往往生成所需變量不是非常直接,就需要多幾個(gè)過(guò)程。曾經(jīng)碰到原始數(shù)據(jù)中記錄日期有些怪異的格式。比如,1991年10月23日被記錄為19911023。我想使用它年份和月份,并生成虛擬變量。下面是我的做法:genyr二int(date)genmo=int((data-yr*10000)/100)tayr,gen(yd)tamo,gen(md)假設(shè)你已經(jīng)生成了所有需要的變量,現(xiàn)在最重要的就是保存好你的工作。使用的命令是save空格(文件名),replace。和前面介紹的一樣,replace選項(xiàng)將更新你對(duì)數(shù)據(jù)庫(kù)的修改,所以一定要小心使用。最好另存一個(gè)新的數(shù)據(jù)庫(kù),如果把原始庫(kù)改了又變不回去,就叫天不應(yīng)叫地不靈了。我常用到的stata命令(續(xù))前面說(shuō)的都是對(duì)單個(gè)數(shù)據(jù)庫(kù)的簡(jiǎn)單操作,但有時(shí)我們需要改變數(shù)據(jù)的結(jié)構(gòu),或者抽取來(lái)自不同數(shù)據(jù)庫(kù)的信息,因此需要更方便的命令。這一類命令中我用過(guò)的有:改變數(shù)據(jù)的縱橫結(jié)構(gòu)的命令reshape,生成退化的數(shù)據(jù)庫(kù)collapse,合并數(shù)據(jù)庫(kù)的命令append和merge??v列(longitudinal)數(shù)據(jù)通常包括同一個(gè)行為者(agent)在不同時(shí)期的觀察,所以處理這類數(shù)據(jù)常常需要把數(shù)據(jù)庫(kù)從寬表變成長(zhǎng)表,或者相反。所謂寬表是以每個(gè)行為者為一個(gè)觀察,不同時(shí)期的變量都記錄在這個(gè)觀察下,例如,行為者是廠商,時(shí)期有2000、2001年,變量是雇傭人數(shù)和所在城市,假設(shè)雇傭人數(shù)在不同時(shí)期不同,所在城市則不變。寬表記錄的格式是每個(gè)廠商是一個(gè)觀察,沒有時(shí)期變量,雇傭人數(shù)有兩個(gè)變量,分別記錄2000年和2001年的人數(shù),所在城市只有一個(gè)變量。所謂長(zhǎng)表是行為者和時(shí)期共同定義觀察,在上面的例子中,每個(gè)廠商有兩個(gè)觀察,有時(shí)期變量,雇傭人數(shù)和所在城市都只有一個(gè),它們和時(shí)期變量共同定義相應(yīng)時(shí)期的變量取值。在上面的例子下,把寬表變成長(zhǎng)表的命令格式如下:reshapelong(雇傭人數(shù)的變量名),i((標(biāo)記廠商的變量名))j((標(biāo)記時(shí)期的變量名))因?yàn)樗诔鞘胁浑S時(shí)期變化,所以在轉(zhuǎn)換格式時(shí)不用放在reshapelong后面,轉(zhuǎn)換前后也不改變什么。相反地,如果把長(zhǎng)表變成寬表則使用如下命令reshapewide(雇傭人數(shù)的變量名),i((標(biāo)記廠商的變量名))j((標(biāo)記時(shí)期的變量名))唯一的區(qū)別是long換成了wide。collapse的用處是計(jì)算某個(gè)數(shù)據(jù)庫(kù)的一些統(tǒng)計(jì)量,再把它存為只含有這些統(tǒng)計(jì)量的數(shù)據(jù)庫(kù)。用到這個(gè)命令的機(jī)會(huì)不多,我使用它是因?yàn)樗梢杂?jì)算中位數(shù)和從

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論