版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、STATA十八講:3數(shù)據(jù)3數(shù)據(jù)數(shù)據(jù)文件是一個(gè)矩形的矩陣,這個(gè)矩陣的每一行都代表或?qū)?yīng)著一個(gè)“觀測(cè) 單位”(比如是一個(gè)人,一個(gè)村或一個(gè)地區(qū)等等),矩陣的每一列都代表或?qū)?yīng)著 一個(gè)“變量”(比如年齡,身高、體重,月工資收入等等)。因此,數(shù)據(jù)文件矩陣 中的每一個(gè)元素(case)都代表或?qū)?yīng)著某一個(gè)“觀測(cè)單位”(如張三、李四,A 廠、B廠)中的某一個(gè)“變量”(比如年齡、體重,月收入等等)的變量值或觀 察值。3.1打開示例數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù):use3.1.1示例數(shù)據(jù)示例數(shù)據(jù)為STATA幫助文件中所用的數(shù)據(jù),其后輟名為.dta,如果在STATA 軟件當(dāng)前路徑下,直接用use命令即可打開,如果不在當(dāng)前路徑下,則
2、可以使用 sysuse命令打開。.useauto,clear/ 打開汽車數(shù)據(jù) auto.dta.cd d:/改變路徑到d:/.useauto, clearfile auto.dta not found /系統(tǒng)提示無(wú)法找到文件,因?yàn)閍uto.dta 不在d:/r(601);.sysuseauto,clear /無(wú)論當(dāng)前路徑是什么,該命令均能打開系統(tǒng)自帶文件示例數(shù)據(jù)Auto :美國(guó)1978年汽車數(shù)據(jù),包括產(chǎn)地、車名、行使里程、重量等變量Bplong血壓數(shù)據(jù)Cancer藥物實(shí)驗(yàn)生存數(shù)據(jù)Cen sus1980年美國(guó)分州人口普查數(shù)據(jù)Citytemp美國(guó)城市氣溫?cái)?shù)據(jù) Educ99gdp教育與GDP關(guān)系數(shù)據(jù)
3、 Gnp96美國(guó)1967-2002年的GNP數(shù)據(jù)Lifeexp預(yù)期壽命數(shù)據(jù)Nlsw88美國(guó)年輕婦女研究數(shù)據(jù)Pop2000美國(guó)2000年人口普查數(shù)據(jù)Sp500 S&P500歷史數(shù)據(jù)Uslifeexp美國(guó)預(yù)期壽命 1900-1999Voter美國(guó)1992年選舉民意調(diào)查數(shù)據(jù)3.1.2從網(wǎng)絡(luò)獲取數(shù)據(jù)上述示例數(shù)據(jù)可能沒(méi)有全部下載安裝于你的電腦中,因此簡(jiǎn)單地使用use和sysuse命令時(shí),可能出現(xiàn)錯(cuò)誤,女口.use nl swork, clearfile nlswork.dta not found此時(shí),如果確定該數(shù)據(jù)為示例數(shù)據(jù),可以直接通過(guò)網(wǎng)絡(luò)獲取,其命令為:.usehttp:/www.stata- /
4、從網(wǎng)站獲取數(shù)據(jù),或者.webusenlswork, clear /與前一命令等價(jià),從 STATA官方數(shù)據(jù)庫(kù)獲取數(shù)據(jù) webuse只能從 http:/www.stata-該網(wǎng)站的數(shù)據(jù),webuse失效,只能把網(wǎng)站地址完全寫出來(lái)。使用該命令時(shí)必須 確保網(wǎng)絡(luò)連接正常另一個(gè)網(wǎng)絡(luò)數(shù)據(jù)較多的地方是波士登大學(xué)的數(shù)據(jù)中心,我們所用的計(jì)量經(jīng)濟(jì)學(xué)導(dǎo)論一書中所使用的全部數(shù)據(jù)都可以通過(guò)該數(shù)據(jù)中心獲得。比如.USehttp:/ec-p/data/wooldridge/CEOSAL1即打開教材中例2.3中所使用的CEO數(shù)據(jù)。use命令只能打開后輟名為“ *.dta”格式的數(shù)據(jù),.dta格式以外的數(shù)
5、據(jù),STATA 不能直接讀取,需要從外部讀入,最簡(jiǎn)單而直接的辦法是復(fù)制和粘貼,但有時(shí)沒(méi)有其他軟件,比如有 SAS格式或SPSS格式的數(shù)據(jù),但沒(méi)有 SAS軟件和SPSS 軟件,此時(shí)需要用STATA提供的其他命令或者使用transfer數(shù)據(jù)格式轉(zhuǎn)化軟件。 在討論其他輸入或?qū)霐?shù)據(jù)的方法之前,我們先來(lái)學(xué)習(xí)一點(diǎn)數(shù)據(jù)類型的知識(shí)。3.2數(shù)據(jù)類型STATA!常把變量劃分為三類:分別是數(shù)值型,字符型和日期型 3.2.1數(shù)值變量:用0、1、2, 9及+、-(正負(fù)號(hào))與小數(shù)點(diǎn)“()”來(lái)表示。在輸入數(shù)據(jù)時(shí), 逗號(hào)不能被識(shí)別,如1,024應(yīng)該直接寫成1024.其他示例5-55.25.2e+35.2e-2后面兩個(gè)數(shù)據(jù)為
6、科學(xué)計(jì)數(shù)法的數(shù)據(jù),分別表示5200和0.052.其中的e相當(dāng)于 10,因此 5.2e+3 的意思是:5.2*10 3=5200數(shù)值型變量按其精度區(qū)分,又有五種類型,分別是:存貯類型最小最大 0-領(lǐng)域字節(jié)byte-127100 +/-1 1int-32,76732,740+/-12long-2,147,483,6472,147,483,620+/-14float -1.70141173319*1038 1.70141173319*1036+/-10A-364double -8.9884656743*10A307 8.9884656743*10八307+/-10八-3238當(dāng)運(yùn)算精度要求很高的時(shí)候
7、,需要將變量設(shè)置成浮點(diǎn)型和雙精度型。注意1和1.0000的精度是不同的,前者在(0.5,1.5)區(qū)間內(nèi)近似,而后者在 (0.99995,1.00005)區(qū)間內(nèi)近似。若多次運(yùn)算反復(fù)取四舍五入,精度較低時(shí)將使 計(jì)算誤差迅速變大,然而,精度高時(shí)占用的內(nèi)存資源較多。下面的命令有助于理 解變量存貯類型變換。clearset obs1obs was 0,now 1 /提示信息說(shuō),之前系統(tǒng)中沒(méi)有觀察單位,現(xiàn)在有了一個(gè) gen a=1/生成一個(gè)新變量a,令a取值為1d/*d為describ命令的略寫,describ命令顯示數(shù)據(jù)集的屬性信息,注意觀察顯示結(jié)果中,a的storage type 為float型, 浮
8、點(diǎn)型為默認(rèn)類型*/Contains data obs:1 (觀察值個(gè)數(shù))vars:1(變量個(gè)數(shù))size:8 (99.9% of memory free)(內(nèi)存空間大小) storage displayvaluevariable nametype formatlabelvariable labelafloat %9.0gSorted by:(按什么分類)Note: dataset has changed since last sav(d注 釋)compress /在不損害信息的基礎(chǔ)上壓縮,使數(shù)據(jù)占用空間盡可能小 a was float, now byte/a由浮點(diǎn)型變?yōu)榱俗止?jié)型d/ 注意a的s
9、torage type 現(xiàn)在為byte型replacea=101/* 注意a的storage type 現(xiàn)在自動(dòng)升為int型,因?yàn)閎yte最大只能為100*/a was byte now int(1 real cha nge made)replacea=100compress d replacea=32741 gen doubleb=1/重新變回到byte型/直接變到Io ng型,因?yàn)閕nt型最大只能到32740recast double a/將a變成雙精度變量b/直接生成雙精度變量b中國(guó)人民大學(xué) 陳傳波chrisccbSTATA十八講:3數(shù)據(jù)d/注意到a和b均為雙精度型中國(guó)人民大學(xué) 陳傳波c
10、hrisccbSTATA十八講:3數(shù)據(jù)3.2.2字符串變量:字符變量通常是一些身份信息,如姓名,地名。另外,分類形跡也可以用字 符變量來(lái)表示,如性別分為“男”和“女”。字符串變量由字母或一些特殊的符號(hào)組成的(如地名籍貫變量,遷出地,住址,職業(yè)等等)。字符串變量也可以由數(shù)字來(lái)組成,但數(shù)字在這里僅代表一些 符號(hào)而不再是數(shù)字。字符串變量通常以引號(hào)“”注標(biāo),而且引號(hào)一般不被試同為 字符的一部分。注意這里的引號(hào)必須是英文輸入狀態(tài)下的引號(hào)。字符串最多可以達(dá)244個(gè)字符。一般用str#來(lái)表示字符的多少,如str20 表示將有20個(gè)字符。一般三個(gè)中文字的姓名需要 6個(gè)字符。字符型示例String ”a.str
11、i ng” 丄stri ng”丄stri ng”/特殊字符串,表示空字符,缺失值。” ”/注意與空字符串的區(qū)別,含有一個(gè)空格”125.27”/ ” 125.27 ”由于有雙引號(hào),將被視同為字符而非數(shù)值。$2,343.68 ”l“l(fā)ove you ”旺材是條狗”注意前四個(gè)字符串均不相同,大小寫是不一樣的,有無(wú)空格及空格的位置不 同,都表示不同的字符串。對(duì)于” 125.27”這樣的數(shù)值型的字符串,可以用real() 函數(shù)或者destri ng命令轉(zhuǎn)化成數(shù)值型變量。具體操作見 3.3.1。3.2.3日期型變量在STATA中, 1960年1月1日被認(rèn)為是第0天,因此1959年12月31日為 第-1天,
12、2001年1月25日為15000天。對(duì)日期型變量的討論將在后面的時(shí)間序 列分析部分。1999 12 10jan/10/200110ja n2001-15,000- 01dec1918-31-01dec1959-1 -31dec19590 - 01jan1960中國(guó)人民大學(xué) 陳傳波chrisccbSTATA十八講:3數(shù)據(jù)1 3102ja n196001feb196015,000 - 25ja n2001 3.2.4缺失值沒(méi)有意義的計(jì)算結(jié)果顯示為”.”如將一個(gè)字符型數(shù)據(jù)和一個(gè)數(shù)據(jù)值型數(shù) 據(jù)相加沒(méi)有意義,結(jié)果輸出為“ ”.display 2/0另一種情況是,數(shù)據(jù)中含有缺失值,STATA默認(rèn)的缺失值也
13、用“ ”來(lái)表示。 在有些數(shù)據(jù)文件中,缺失值不是用“ ”或者空來(lái)表示的,而是用-9996等來(lái)表 示,如果要將其全部替換為“ ”,或者反之,將“ ”替換為-9996,命令為:.mvencodeage,mv(-9996).mvdecodeage,mv(-9996)3.3數(shù)據(jù)類型轉(zhuǎn)化任務(wù):將destringl, destring2 和tostring中的數(shù)據(jù)類型進(jìn)行相互轉(zhuǎn)化*3.3.1字符型轉(zhuǎn)化成數(shù)值型:destringdestring 1數(shù)據(jù)中的數(shù)據(jù)全為字符型,轉(zhuǎn)換為數(shù)值型webusedestri ng1, cleardes/*注意到所有的變量存貯類型(storage type )均為字符型str#
14、, 其中#號(hào)表示字符串長(zhǎng)度*/Contains dataobs:10from http:/www.stata-vars:53 Mar 2005 10:15size:240 (99.9% of memory free)variable namestorage displaytype formatvalue labelvariable labelSTATA十八講:3數(shù)據(jù)STATA十八講:3數(shù)據(jù)idnum code total incomestr3 %9sstr3 %9sstr4 %9sstr5 %9sstr5 %9ssum因?yàn)樗凶兞繛樽址?,所以不能進(jìn)行數(shù)值計(jì)算gen nin com=in co
15、m+10 /因字符不能進(jìn)行四則運(yùn)算,不能進(jìn)行加法運(yùn)算*type mismatch系統(tǒng)提示類型不匹配,因?yàn)閕n come為字符型,10為數(shù)值型destring, replace/全部轉(zhuǎn)換為數(shù)值型,replace表示將原來(lái)的變量(值)更新中國(guó)人民大學(xué) 陳傳波chrisccbSTATA十八講:3數(shù)據(jù)sum/注意到轉(zhuǎn)換為數(shù)值型后,可以求五數(shù)概略了gen nin com=i ncome*1.3 轉(zhuǎn)換后,可以運(yùn)算,工資終于漲了 30%! list nin com in come*將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù):去掉字符間的空格 destring2數(shù)據(jù)集中的data變量為字符型,且年月日間有空格,轉(zhuǎn)移為數(shù)據(jù)型
16、 webusedestri ng2, cleardes注意到所有的變量均為字符型strlist date注意到date年月曰之間均有空格date1. 佃 99 12 102. 200007083. 佃97 03 024. 佃99 09 00destring date, replace /想把date轉(zhuǎn)換成數(shù)值型,但失敗了,系統(tǒng)提示說(shuō) *date contains non-numeric characters; no replac/* 由于含有非數(shù)值型字符(即空格),因此沒(méi)有更新,也即轉(zhuǎn)換命令沒(méi)有執(zhí)行。*/destring date, replace ignore(”/*忽略空格,然后轉(zhuǎn)換,注意
17、這里的”中間有一個(gè)空格,不是”。*/date: characters space removed replaced as long 成功轉(zhuǎn)換為 long 型 des/注意至U date 的 storage type 已變?yōu)?longlist date/注意到空格消失了date1. 199912102. 200007083. 佃970302/*與date變量類似,變量price前面有美元符號(hào),變量percent后有百分號(hào), 換為數(shù)值型時(shí)需要忽略這些非數(shù)值型字符。*/destring price percent, gen(price2 percent2) ignore( $ ,%”)list/注意
18、到price2前面的$號(hào)消失,percent2后面的號(hào)消失dateprice price2 perce nt perce nt234861. 19991210$2,343.682343.6834%2. 20000708$7,233.447233.4486%d/注意到price2和percent2均變?yōu)閿?shù)據(jù)值型變量double和byte *3.3.2數(shù)值型轉(zhuǎn)化為字符型:tostringwebusetostri ng, clear/*該數(shù)據(jù)中年月日的數(shù)據(jù)類型不一樣,不能直接相加生成一個(gè)反映日期的新變量*/des/注意到mo nth為字符型,而年和日為數(shù)值型listgen date仁month+”
19、”+day+”/”+year/將年月日構(gòu)成一個(gè)新的日期變量type mismatch 由于mon th為字符型,年和日為數(shù)值型,不同類型不能相加r(109);tostring year day, replace 將年和日轉(zhuǎn)化為字符型des注意到,現(xiàn)在全部變?yōu)樽址蚲en date仁month+”+day+”+year/將年月日構(gòu)成一個(gè)新的日期變量list生成了一個(gè)新的變量datel,其為三個(gè)字符串和兩個(gè)”/”符號(hào)連接而成gen date2=date(date1;mdy”)/* date ()為日期函數(shù),它以 I960年 1 月 1日為第0天,計(jì)算從那天起直到括號(hào)中指定的某天 datel 一共過(guò)
20、了多少天?!眒dy”指定datel的排列順序,這里是 按照月日年的順序來(lái)表示日期。*/list新生成的date2表示總天數(shù)*請(qǐng)算算你活了多少天?示例:一個(gè)生于1975年12月27日的家伙,他活了? di date( 1975/12/27”ymd”3.4數(shù)據(jù)顯示格式:format/*format只控制數(shù)據(jù)的顯示格式,并不改變內(nèi)存中數(shù)據(jù)的大小。*/webusece nsus10clear/ 美國(guó)人口普查數(shù)據(jù)des第三列顯示了數(shù)據(jù)的格式display formatvariable n amestorage typedisplay formatvalue labelvariable labelstat
21、estr14%14sStateregi onint%8.0gcenregCen sus regi onpoplong%11.0gPopulati onmedagefloat%9.0gMedia n age*注意到,stata變量的格式為14s,表示右對(duì)齊,共14個(gè)字符,為固定用法list in 1/4/注意不同的顯示格式:均為右對(duì)齊stateregi onpopmedage1.AlabamaSouth389388829.32.AlaskaWest40185126.13.Ariz onaWest271821529.24.Arka nsasSouth228643530.6format state
22、%- 14s/該命令使stata的顯示格式左對(duì)齊,14前面多了個(gè) 負(fù)號(hào)list in 1/4注意不同的顯示格式,state現(xiàn)在左對(duì)齊了+stateregi onpop medage1.AlabamaSouth389388829.32.AlaskaWest40185126.13.Ariz onaWest271821529.24.Arka nsasSouth228643530.6format region %-8.0g /*region變量看起來(lái)是字符型變量,但實(shí)際上為中國(guó)人民大學(xué) 陳傳波chrisccbSTATA十八講:3數(shù)據(jù)list in 1/4數(shù)據(jù)型,它也可以左對(duì)齊,同樣是加一個(gè)負(fù)號(hào) 注意r
23、egion現(xiàn)在左對(duì)齊了format pop %11.0gc /*pop的顯示格式為11.0g后面加上c,則每三位數(shù)間 用逗號(hào)分開,c為comma的意思.*/list in 1/4/結(jié)果加上了逗號(hào),但是第五個(gè)觀察值沒(méi)有任何變化stateregionpopmedage1.AlabamaSouth3,893,88829.32.AlaskaWest401,85126.13.ArizonaWest2,718,21529.24.ArkansasSouth2,286,43530.65.CaliforniaWest2366790229.9*因?yàn)檫@個(gè)數(shù)太大,加逗號(hào)將超過(guò)11位數(shù),我們可以先把總的位數(shù)增加form
24、at pop %12.0gc/把pop顯示總長(zhǎng)度數(shù)增加到 12位list in 5現(xiàn)在所有的pop都按逗號(hào)分開了5. California West 23,667,902 29.9format medage %8.1f/要求所有的 medage都顯示一位小數(shù)list in 1/4stateregi onpop medagestate regionpop medage id1. AlabamaSouth 389388829.312. AlaskaWest 4018513. ArizonaWest 271821526.1 229.298421.AlabamaSouth3,893,88829.32.
25、AlaskaWest401,85126.13.Ariz onaWest2,718,21529.24.Arka nsasSouth2,286,43530.6gen id=_nreplace id=9842 in 3list in 1/3STATA十八講:3數(shù)據(jù)format id %05.0flist in 1/31.AlabamaSouth389388829.3000012.AlaskaWest40185126.1000023.ArizonaWest271821529.209842對(duì)于編號(hào),我們希望前面用零使得位數(shù)對(duì)齊注意到通過(guò)在前面補(bǔ)零,所有的id都成了 5位數(shù)state regionpop
26、medage id3.5在STATA中直接錄入數(shù)據(jù):in put3.5.1菜單式操作任務(wù):按學(xué)號(hào)錄入五個(gè)學(xué)生的經(jīng)濟(jì)學(xué)成績(jī) 中國(guó)人民大學(xué) 陳傳波chrisccbideconomy140280390470553操作:(1)點(diǎn)擊圖標(biāo) 在打開的數(shù)據(jù)表格第一列中錄入五個(gè)姓名 在第二列 中錄入另五個(gè)成績(jī)STATA十八講:3數(shù)據(jù)STATA十八講:3數(shù)據(jù)雙擊varl彈出對(duì)話框 將變量改名為id在label中寫入學(xué)號(hào) 雙擊var2彈出對(duì)話框 將變量改名為nameM label中寫入姓名 關(guān)閉數(shù)據(jù)編輯器St技1砂 Edi tur-SL at u.J nforn.-STATA十八講:3數(shù)據(jù)STATA十八講:3數(shù)據(jù)(
27、2)點(diǎn)擊圖標(biāo)保存數(shù)據(jù) 給數(shù)據(jù)命令為student 退出STATA十八講:3數(shù)據(jù)中國(guó)人民大學(xué) 陳傳波chrisccbSTATA十八講:3數(shù)據(jù)在建立數(shù)據(jù)文件后,如果沒(méi)有存盤,這個(gè)文件即是一個(gè)“臨時(shí)的”數(shù)據(jù)文件, 它將隨著退出STATA系統(tǒng)時(shí)而消失。當(dāng)數(shù)據(jù)文件被存儲(chǔ)在后,它將成為一個(gè)“永 久性”的數(shù)據(jù)文件,用戶可以在以后經(jīng)常使用它而不必重新建立之。3.5.2命令操作任務(wù):按學(xué)號(hào)錄入五個(gè)學(xué)生的學(xué)號(hào)和姓名idn ameeconomy1Joh n402Chris803Jack904Hua ng435Tom70clear操作:在comma nd窗口中鍵入(注:前面的點(diǎn)號(hào)不必健入,每完成一行按回車鍵 黑體為命
28、令,斜體為變量名或文件名):對(duì)于字符型變量,需要指明其為字符型 并指明最大的字符長(zhǎng)度。/清空內(nèi)存? input id str10 name economy /輸入變量名,特別注意姓名前的strlO.?1John 40/錄入第一個(gè)學(xué)生的學(xué)號(hào)和成績(jī)?2Chris 80?3Jack 904 Hua ng 70? 5 Tom53? end/錄入數(shù)據(jù)結(jié)束saveeco nomy/保存數(shù)據(jù)到當(dāng)前路徑,文件名為 economy3.5.3程序操作(1)打開do file editor,鍵入(注:前面的點(diǎn)號(hào)不心健入,每完成一行按回車鍵):clear/清空內(nèi)存input id str10 name economy
29、 /輸入變量名,特別注意姓名前的 str10.1John 40/錄入第一個(gè)學(xué)生的學(xué)號(hào)和成績(jī)2Chris 803Jack 904Huang 705Tom53end/錄入數(shù)據(jù)結(jié)束saveec ono myerplace /保存數(shù)據(jù)至U當(dāng)前路徑,文件名為 economy(2) 保存程序文件為mydo(3) 點(diǎn)擊団,執(zhí)行后得到數(shù)學(xué)成績(jī)3.6導(dǎo)入其他格式數(shù)據(jù):in sheet經(jīng)常會(huì)遇到的情形是:我們有其他格式的數(shù)據(jù),需要導(dǎo)入到STATA中進(jìn)行分析,建議大家此時(shí)將其他格式數(shù)據(jù)復(fù)制到分析數(shù)據(jù)的文件目錄下,然后直接用STATA的導(dǎo)入數(shù)據(jù)文件命令導(dǎo)入原始數(shù)據(jù),用程序模式進(jìn)行處理,然后導(dǎo)出處 理結(jié)果。這樣做的最大
30、好處是:既不會(huì)破壞最原始的數(shù)據(jù)文件,又使我們的每一步數(shù)據(jù)處理和分析過(guò)程都有章可循。3.6.1 insheet命令找到“ 3origin.xls”數(shù)據(jù),將其打開并另存為“ 3origin.csv”,然后在STATA 命令窗口中用下述命令導(dǎo)入.insheet using3orig in.csv, clear查看數(shù)據(jù),發(fā)現(xiàn)變量名為v1-v6。可以用第二小節(jié)的辦法將其整理成一個(gè)完 整的數(shù)據(jù)文件。也可以先將“ 3origin.xls”數(shù)據(jù)打開并另存為“ 3origin.txt ”,然后用下面的命 令導(dǎo)入.insheet usingorig in.txt, clear當(dāng)數(shù)據(jù)中某個(gè)變量的位數(shù)特別長(zhǎng)的時(shí)候,需
31、要在該命令后面加double選項(xiàng)。3.6.2 infile 命令對(duì)于“ 3origin.txt” a或“3origin.csv”,還可用 infile 命令導(dǎo)入 STATA,此時(shí) 需要先指出變量名。尤其要注意,當(dāng)變量為字符型時(shí),要先指明。infile id str10 name gender minority economy math using origin.txt clear 或者infile id str10 name gender minority economy math using origin.csv clear3.6.3 infix 命令還有一種標(biāo)準(zhǔn)化的數(shù)據(jù),每個(gè)變量的位數(shù)是確
32、定的,不足時(shí),前面用0補(bǔ)齊, 以origin.數(shù)據(jù)的后面四個(gè)變量為例,其數(shù)據(jù)格式為114068128052029076024390037096115385028536129565如果遇到這種數(shù)據(jù)格式,需要對(duì)照數(shù)據(jù)說(shuō)明導(dǎo)入數(shù)據(jù),相應(yīng)的命令為:infix gen der 1 minority 2 economy 3-4 math 5-6 using orig in.csv clear其中的數(shù)字為對(duì)應(yīng)的數(shù)字位數(shù)。3.6.4 outsheet命 令與前述三個(gè)命令相反,有時(shí)我們需要將STATA數(shù)據(jù)導(dǎo)出為其他格式數(shù)據(jù),比如文本格式:此時(shí)需要使用 outsheet命令實(shí)現(xiàn),該命令的基本格式如下。outshe
33、etus ing myresult.txt此時(shí)建立的文件myresult.txt第一行為變量名,第26行為變量值。變量列間用 Tab鍵分隔。如果不希望在第一行存儲(chǔ)變量名,則可以使用 non ames選項(xiàng)。如果 文件已經(jīng)存在,則需要使用replace選項(xiàng),相應(yīng)的命令分別為。outsheetus ing myresult.txt nonamesoutsheetus ing myresult.txt nonames replace3.6.4 使用 transfer 軟件Transfer軟件專用于轉(zhuǎn)換不同格式的數(shù)據(jù)文件,使用起來(lái)非常方便。只需要 在in put File Type欄中選擇需要轉(zhuǎn)化的原數(shù)
34、據(jù)文件類型,然后定位打開需要轉(zhuǎn)化 的原數(shù)據(jù)文件。再選定輸出文件類型,指定輸出文件的存放位置和文件名。最后點(diǎn)擊transfer按鈕。數(shù)據(jù)便被轉(zhuǎn)化。3.7標(biāo)簽數(shù)據(jù):label要掌握的命令:為了創(chuàng)建一個(gè)完整的文件,要掌握下面的命令。命令命令解釋用法示例pwd顯示當(dāng)前路徑pwddir列示當(dāng)前路徑文件夾中的所有文件dirmkdir在當(dāng)前路徑下創(chuàng)建一個(gè)新的文件夾mkdir d:/mydatacd將cd后面的路徑設(shè)定為當(dāng)前路徑cd d:/mydatadescrib顯示整個(gè)數(shù)據(jù)集的信息desren ame將現(xiàn)有變量名改為新的變量名ren ame gen der sexlabel給數(shù)據(jù)/變量/變量值加注標(biāo)簽說(shuō)明
35、label data標(biāo)簽數(shù)據(jù)label data2004 級(jí)成績(jī)表label var標(biāo)簽變量label var n ame姓名”label value label defi ne標(biāo)簽變量值label values gen der gen derlb label define genderlb 1 男0 女n ote為數(shù)據(jù)加注額外說(shuō)明note: 9月10日為數(shù)據(jù)加注說(shuō)明list列示內(nèi)存中的數(shù)據(jù)list id n amesave保存數(shù)據(jù)save mydata, replaceerase刪除數(shù)據(jù)文件erase mydata1.dta,replace以上命令可以通過(guò)help comma nd查看到具體
36、的命令格式要完成的任務(wù):創(chuàng)建一個(gè)文件(文件名為 mydata.dta )并將其放在 D: /mydata 文件夾下(如果沒(méi)有該文件夾,請(qǐng)用 mkdir命令創(chuàng)建)。標(biāo)簽該數(shù)據(jù)(用label 命令)使得任何一個(gè)使用該數(shù)據(jù)的人都能明白該數(shù)據(jù)(包括整個(gè)數(shù)據(jù) /其中的變 量及變量值)的含義。原始數(shù)據(jù)的內(nèi)容如下:3origi n.xls1Joh n1140682Chris1280523Jack0290764Hua ng0243905Tom0370966Han1153857Phillip0285368Jin129565其中第一列為學(xué)號(hào)id,第二列為姓名name第三列為性別gender( 1表示男性, 0表示
37、女性),第四列為民族minority ( 1表示漢族,2表示少數(shù)民族,3表示不 知道);第五列為經(jīng)濟(jì)學(xué)成績(jī)economy第六列為數(shù)學(xué)成績(jī)math。案例的參考操作注:紅色雙線之間的內(nèi)容可以復(fù)制到 STATA勺程序編輯器中直接執(zhí)行,執(zhí)行到紅 色錯(cuò)誤信息處會(huì)停止,如要繼續(xù)執(zhí)行,可選定后面的內(nèi)容接著執(zhí)行。另下面程序中的所有命令中加黑的為固定用法,不能靈活選擇;而斜體表示文件名和變量名,可以自己根據(jù)自己的文件和變量情況靈活選擇或改動(dòng)。*=chapter2.do=*路徑和環(huán)境設(shè)定/*假設(shè)你想在D盤的根目錄下創(chuàng)建一個(gè)新的文件夾 mydata來(lái)存放數(shù)據(jù)文件,命 令為mkdir。如果該文件夾已經(jīng)存在,運(yùn)行該命令
38、時(shí)會(huì)出現(xiàn)錯(cuò)誤信息,加上capture 后,STATA會(huì)自動(dòng)判斷,如果mydata文件夾存在,則跳過(guò)該命令,如果不存在, 則創(chuàng)建。*/clearcapture mkdir d:/mydata中國(guó)人民大學(xué) 陳傳波chrisccbSTATA十八講:3數(shù)據(jù)*然后,進(jìn)入該目錄,命令為cdcd d:/mydata*3.7.1變量重命令:rename/*采用直接復(fù)制粘貼法,將原始數(shù)據(jù)粘入state。然后退出數(shù)據(jù)編輯器,先將該數(shù)據(jù)保存起來(lái),文件名為3origin.dta。*/save 30rigin, replace/*新粘入的變量自動(dòng)命令為varl, var2,.var6,為使變量容易理解和記憶, 要將變量
39、重新命名,命令為nameo在此之前,可以先用一個(gè)describ命令看看數(shù) 據(jù)情況*/use 3origin, cleardes/查看數(shù)據(jù)集的整體情況,注意變量名為 var1-var6rename var1 id將第一個(gè)變量重新命令為id.rename var2 n ame.rename var3 gen der.rename var4 min ority.rename var5 economy.rename var6 math.des/再次查看數(shù)據(jù)集的整體情況,注意變量名變?yōu)閕d-math*3.7.2 標(biāo)簽文件:label data/*為免時(shí)間太長(zhǎng),忘記變量的含義,我們可以用label命令來(lái)標(biāo)
40、記。該命令可以用來(lái)標(biāo)記數(shù)據(jù)文件,如我們將該文件取名為“2004年秋5632班學(xué)習(xí)成績(jī)單” */label data 2004年秋5632班學(xué)習(xí)成績(jī)單”*在文件處理過(guò)程中加注說(shuō)明,命令為 notesnote: 2006年9月6日由任我行創(chuàng)建該數(shù)據(jù)*下一次打開數(shù)據(jù),要查看創(chuàng)建和數(shù)據(jù)處理的說(shuō)明時(shí),直接鍵入note*3.7.3 標(biāo)簽變量:label var*也可以用來(lái)標(biāo)記變量,如將id標(biāo)記為“學(xué)號(hào)”label var id “學(xué)號(hào)”label var name 姓名”label var gender 性別 1 =男 2=女”label var mi nority 民族”*3.7.4 標(biāo)簽變量值:label define和 label values*還可以標(biāo)記變量的取值。注意要按以下兩步來(lái)操作:label define gen derlb 1 男0 女list注意此時(shí)gender變量顯示的值為0或1label valuesge nder gen
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版房地產(chǎn)買賣合同擔(dān)保及產(chǎn)權(quán)轉(zhuǎn)移范本3篇
- 2025版農(nóng)業(yè)科技股份收購(gòu)與農(nóng)產(chǎn)品品牌合作合同3篇
- 2025年高標(biāo)準(zhǔn)住宅小區(qū)水電安裝及售后服務(wù)合同2篇
- 2025年銷售薪資與銷售團(tuán)隊(duì)激勵(lì)合同3篇
- 桶裝水銷售合同中的質(zhì)量糾紛處理2025年度3篇
- 2025版事業(yè)單位職工食堂職工餐飲滿意度調(diào)查與分析承包合同3篇
- 2025版司機(jī)雇傭服務(wù)質(zhì)量監(jiān)督與考核合同3篇
- 2025版標(biāo)準(zhǔn)二手車鑒定評(píng)估師服務(wù)合同3篇
- 二零二五版門頭廣告位招商與運(yùn)營(yíng)管理合同4篇
- 2025版?zhèn)€人小額教育貸款抵押擔(dān)保協(xié)議3篇
- 油氣行業(yè)人才需求預(yù)測(cè)-洞察分析
- 《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作
- 高一化學(xué)《活潑的金屬單質(zhì)-鈉》分層練習(xí)含答案解析
- 華為集團(tuán)干部管理
- 圖書館前臺(tái)接待工作總結(jié)
- 衛(wèi)生院藥品管理制度
- 理論力學(xué)智慧樹知到期末考試答案章節(jié)答案2024年中國(guó)石油大學(xué)(華東)
- 2024老年人靜脈血栓栓塞癥防治中國(guó)專家共識(shí)(完整版)
- 四年級(jí)上冊(cè)脫式計(jì)算100題及答案
- 上海市12校2023-2024學(xué)年高考生物一模試卷含解析
- 儲(chǔ)能電站火災(zāi)應(yīng)急預(yù)案演練
評(píng)論
0/150
提交評(píng)論