




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章 Stata 概貌§1.1 Stata 的功能、特點(diǎn)和背景Stata 是一個(gè)用于分析和管理數(shù)據(jù)的功能強(qiáng)大又小巧玲瓏的實(shí)用統(tǒng)計(jì)分析軟件,由美國(guó)計(jì)算機(jī)資源中心( Computer Resource Center )研制。從 1985至 1998的十四年時(shí)間里,已連續(xù)推出1.1 ,1.2 ,1.3,1.4 ,1.5 ,, 及2.0 ,2.1,3.0 ,3.1,4.0 ,5.0 ,6.0 等多個(gè)版本,通過(guò)不斷更新和擴(kuò)充,內(nèi)容日趨完善。它同時(shí)具有數(shù)據(jù)管理軟件、統(tǒng)計(jì)分析軟件、繪圖軟件、矩陣計(jì)算軟件和程序語(yǔ)言的特點(diǎn),又在許多方面別 具一格。 Stata 融匯了上述程序的優(yōu)點(diǎn),克服了各自的缺點(diǎn)
2、,使其功能更加強(qiáng)大,操作更加靈活、簡(jiǎn)單, 易學(xué)易用,越來(lái)越受到人們的重視和歡迎。Stata 的突出特點(diǎn)是只占用很少的磁盤空間,輸出結(jié)果簡(jiǎn)潔,所選方法先進(jìn),內(nèi)容較齊全,制作的圖形十 分精美,可直接被圖形處理軟件或字處理軟件如WOR等直接調(diào)用。一、Stata 的數(shù)據(jù)管理能力1. Stata 的數(shù)據(jù)管理空間受計(jì)算機(jī)的操作系統(tǒng)和計(jì)算機(jī)擴(kuò)展內(nèi)存的影響。對(duì)640k 內(nèi)存的微機(jī), 3.1版本的Stata可以管理2400個(gè)記錄X 99個(gè)變量,并隨計(jì)算機(jī)擴(kuò)展內(nèi)存的增加而增加;對(duì) 4.0的WINDOW版本,Stata可以管理4800個(gè)記錄X 99個(gè)變量;對(duì) WINDOWS5下的5.0版本,可根據(jù)計(jì) 算機(jī)的配置情況
3、設(shè)置變量數(shù)和記錄數(shù),如32M擴(kuò)展內(nèi)存的計(jì)算機(jī),可處理 2千萬(wàn)個(gè)數(shù)據(jù)。變量數(shù)和記錄數(shù)可以互相交易( trade ),即減少記錄數(shù)可以增加變量數(shù),減少變量數(shù)可以增加記錄數(shù)。2. 可以將分組變量轉(zhuǎn)換成指示變量( 啞變量 ),將字符串變量映射成數(shù)字代碼。3. 可以對(duì)數(shù)據(jù)文件進(jìn)行橫向和縱向鏈接,可以將行數(shù)據(jù)轉(zhuǎn)為列數(shù)據(jù),或反之。4. 可以恢復(fù)、修改執(zhí)行過(guò)的命令。5. 可以利用數(shù)值函數(shù)或字符串函數(shù)產(chǎn)生新變量。6. 可以從鍵盤或磁盤讀入數(shù)據(jù)。二、Stata 的統(tǒng)計(jì)功能Stata 的統(tǒng)計(jì)功能很強(qiáng),除了傳統(tǒng)的統(tǒng)計(jì)分析方法外,還收集了近 20 年發(fā)展起來(lái)的新方法, 如 Cox 比例風(fēng) 險(xiǎn)回歸,指數(shù)與 Weibull
4、 回歸,多類結(jié)果與有序結(jié)果的 logistic 回歸, Poisson 回歸、負(fù)二項(xiàng)回歸及廣義 負(fù)二項(xiàng)回歸,隨機(jī)效應(yīng)模型等。具體說(shuō), Stata 具有如下統(tǒng)計(jì)分析能力:1. 數(shù)值變量資料的一般分析:參數(shù)估計(jì),t檢驗(yàn),單因素和多因素的方差分析,協(xié)方差分析,交互 效應(yīng)模型,平衡和非平衡設(shè)計(jì),嵌套設(shè)計(jì),隨機(jī)效應(yīng),多個(gè)均數(shù)的兩兩比較,缺項(xiàng)數(shù)據(jù)的處理, 方差齊性檢驗(yàn),正態(tài)性檢驗(yàn),變量變換等。2. 分類資料的一般分析:參數(shù)估計(jì),列聯(lián)表分析 (2檢驗(yàn),列聯(lián)系數(shù),確切概率 ) ,流行病學(xué)表格分析等。3. 等級(jí)資料的一般分析:秩變換,秩和檢驗(yàn),秩相關(guān)等。4. 相關(guān)與回歸分析:簡(jiǎn)單相關(guān),偏相關(guān),典型相關(guān),以及多達(dá)
5、數(shù)十種的回歸分析方法,如多元線性回歸,逐步回歸,加權(quán)回歸,穩(wěn)鍵回歸,二階段回歸,百分位數(shù)(中位數(shù))回歸,殘差分析、強(qiáng)影響點(diǎn)分析,曲線擬合,隨機(jī)效應(yīng)的線性回歸模型,等。5. 危險(xiǎn)度分析:條件和非條件的 logistic 回歸,多類結(jié)果與有序結(jié)果的 logistic 回歸, Probit 回 歸,及其他廣義線性模型,隨機(jī)效應(yīng)的 logistic 回歸,隨機(jī)效應(yīng)的 Poisson 回歸,等。6. 生存分析:基線生存曲線的估計(jì)、相對(duì)危險(xiǎn)度的估計(jì),Kaplan-Meier 生存曲線、壽命表分析,對(duì)數(shù)秩檢驗(yàn), Mantel-Haenszel 檢驗(yàn), Wilcoxon-Gehan 檢驗(yàn), Cox 比例風(fēng)險(xiǎn)模
6、型,正態(tài)截尾及 Tobit 回歸,指數(shù)回歸和 Weibull 回歸,等。7. 其它方法:質(zhì)量控制,整群抽樣的設(shè)計(jì)效率,診斷試驗(yàn)評(píng)價(jià),kappa,等。三、Stata 的作圖功能Stata 的作圖模塊,主要提供如下八種基本圖形的制作 : 直方圖 (histogram) ,條形圖 (bar), 百分條圖 (oneway) ,百分圓圖 (pie) ,散點(diǎn)圖 (twoway) ,散點(diǎn)圖矩陣 (matrix) ,星形圖 (star) ,分位數(shù)圖。這些圖形的巧妙應(yīng)用,可以滿足絕大多數(shù)用戶的統(tǒng)計(jì)作圖要求。在有些非繪圖命令中,也提供了專門繪制某種圖 形的功能,如在生存分析中,提供了繪制生存曲線圖,回歸分析中提供
7、了殘差圖等。詳見(jiàn)第五章。四、Stata的矩陣運(yùn)算功能矩陣代數(shù)是多元統(tǒng)計(jì)分析的重要工具,Stata提供了多元統(tǒng)計(jì)分析中所需的矩陣基本運(yùn)算,如矩陣的加、積、逆、Cholesky分解、Kronecker內(nèi)積等;還提供了一些高級(jí)運(yùn)算,如特征根、特征向量、奇異值分解 等;在執(zhí)行完某些統(tǒng)計(jì)分析命令后,還提供了一些系統(tǒng)矩陣,如估計(jì)系數(shù)向量、估計(jì)系數(shù)的協(xié)方差矩陣等。盡管Stata的容量最大只容許 400的矩陣(默認(rèn)為40然不現(xiàn)實(shí),但用它來(lái)做一些練習(xí),提高多元統(tǒng)計(jì)分析的教學(xué)效率,無(wú)疑是很有幫助。詳見(jiàn)第十八章。五、Stata的程序設(shè)計(jì)功能Stata是一個(gè)統(tǒng)計(jì)分析軟件,但它也具有很強(qiáng)的程序語(yǔ)言功能,這給用戶提供了一
8、個(gè)廣闊的開(kāi)發(fā)應(yīng)用的天地,用戶可以充分發(fā)揮自己的聰明才智,熟練應(yīng)用各種技巧,真正做到隨心所欲。事實(shí)上,Stata的ado文件(高級(jí)統(tǒng)計(jì)部分)都是用Stata自己的語(yǔ)言編寫的。下面這段程序是筆者自行編寫的,用于產(chǎn)生n個(gè)參Poisson分布的隨機(jī)數(shù)。prog defi ne rp/*定義程序名set obs '2 '/*疋義數(shù)據(jù)庫(kù)的最大記錄數(shù)set seed '3 '/*設(shè)置隨機(jī)數(shù)種子,gen rp=./*疋義變量rp,用于存放 Poisson分布隨機(jī)數(shù)local lamda0=exp('1 ')/* 計(jì)算 lamda0=exp(local j=1/*
9、 j=1while 'j ' <'2 ' +1 /*對(duì)j<n循環(huán),j表示產(chǎn)生的第j個(gè)Poisson分布隨機(jī)數(shù)local i=1/* i=1local r0=1/* r0=1while 'i ' >0 /* i循環(huán)local r仁un iform()/* r1=均勻分布的隨機(jī)數(shù)local r0='r1' *'r0 '/* r0=r1*t0if 'r0' < 'lamda0 ' /* 如果 r0<lamda0local n0= 'i '-1/
10、* n0= i-1local i=-1local i= 'i' +1quiet replace rp='n0' if _n='j'/* i=-1/* i循環(huán)/* 第 j 個(gè) rp = n0local j= 'j' +1end/* j循環(huán)§ 1.2 Stata 的界面Windows版本的Stata的界面上有一級(jí)菜單行,二級(jí)菜單窗口,命令窗口,結(jié)果窗口,圖形窗口,變量名 窗口,已執(zhí)行過(guò)的命令窗口,幫助窗口等。窗口的大小、位置可根據(jù)用戶需要進(jìn)行調(diào)整。§ 1.3進(jìn)入和退出Stata一、DOS版本的Stata的進(jìn)入和退出
11、前已述及,要將 Stata程序所在的路徑放入autoexec.bat中,我們可在 DOS下任何目錄位置進(jìn)入Stata,但我們假定 盤上進(jìn)行。D:>Stata進(jìn)入Stata后,屏幕顯示 Stata的版本號(hào),公司所在地等信息,Dos版本下的Stata即出現(xiàn)圓點(diǎn)提示符。這時(shí)即可鍵入Stata的各種命令。若已在Stata狀態(tài)讀入了數(shù)據(jù),并且已將數(shù)據(jù)按Stata指令存盤,或讀入的數(shù)據(jù)雖經(jīng)分析,但對(duì)數(shù)據(jù)及數(shù)據(jù)結(jié)構(gòu)等未作任何修改,則只須鍵入:.exit_ 即可退出Stata。如未將數(shù)據(jù)按Stata指令存盤,或讀入的數(shù)據(jù)或數(shù)據(jù)結(jié)構(gòu)已被修改 (Stata的有些命令會(huì)自動(dòng)修改數(shù)據(jù)結(jié)構(gòu), 如按某變量排序等),
12、這時(shí),Stata將拒絕退出Stata狀態(tài)。若確實(shí)不需要存盤而退出Stata,可鍵入:.e , clear(e為exit的簡(jiǎn)寫)即可強(qiáng)行退出Stata?;蚍謨刹?,即先放棄所有數(shù)據(jù),.drop _all 再退出Stata ,.exitWINDOW版本的Stata的進(jìn)入和退出17在桌面上雙擊 Wstata的圖標(biāo):Vstata即可進(jìn)入Stata,并出現(xiàn)命令窗口。在Stata的菜單中選File , 再選exit ,如數(shù)據(jù)已經(jīng)存盤,則可退出Stata。如數(shù)據(jù)未存盤,則Stata給出如下提示:" Data has changed without being saved. Do you really
13、 want to exit?” (數(shù)據(jù)已改變,但未存盤,是否真的要退出?)如要退出,則按確定,否則按 取消。將數(shù)據(jù)存盤后再退出。在WINDOW下,亦可用 DOS的命令退出 Stata。§ 1.4 Stata的數(shù)據(jù)輸入與儲(chǔ)存Stata可以從鍵盤輸入數(shù)據(jù),也可以從文件讀入數(shù)據(jù)。WINDOW下的Stata還可以用Stata的數(shù)據(jù)編輯器輸入、修改和管理數(shù)據(jù)。這里簡(jiǎn)單介紹如何從鍵盤輸入數(shù)據(jù),有關(guān)更詳細(xì)的數(shù)據(jù)讀入方式將在第三章中講 述。一、從鍵盤輸入數(shù)據(jù)例1.1某實(shí)驗(yàn)得到如下數(shù)據(jù)x12345y45.56.27.78.5進(jìn)入Stata后,操作過(guò)程如下,其中劃線部分為操作者輸入部分。 .input
14、x yx y1. 14_2. 2 5.53. 3 6.24. 4 7.75. 5 8.56. end用list命令可以看到輸入的數(shù)據(jù)。.listxy1.142.25.53.36.24.47.75.58.5、保存數(shù)據(jù)為了方便以后應(yīng)用,輸入Stata的數(shù)據(jù)應(yīng)存盤。如欲將上述數(shù)據(jù)存入子目錄中,文件名為ex1.dta,命令為:.save d:mydataex1file d:tempex1replace.dta saved該指令在d:盤的mydata子目錄中建立了一個(gè)名為“ex1.dta "的Stata格式的數(shù)據(jù)文件。后綴dta是Stata內(nèi)定的數(shù)據(jù)格式文件。該格式文件只能在Stata中用us
15、e命令打開(kāi):.use d:mydataex1如目標(biāo)盤及子目錄中已有相同文件名的文件存在,則該命令將給出如下信息:file d: mydataex1.dtaalready exists,告訴用戶在該目標(biāo)盤及子目錄中已有相同的文件名存在。如欲覆蓋已有文件,則加選擇項(xiàng)replace。命令及結(jié)果如下:.save d:mydataex1 , replacefile d:tempex1.dta saved這樣,Stata在d:盤的mydata子目錄中建立了一個(gè)名為" 有文件。§ 1.5 Stata 的結(jié)果文件Stata在屏幕上顯示的運(yùn)行結(jié)果有兩種,一種是純字符型的 圖形。若要將操作過(guò)程
16、和純字符型結(jié)果記錄下來(lái),需事先打開(kāi)一個(gè).log using 文件名設(shè)結(jié)果文件名為result1 ,則Stata自動(dòng)加上后綴“ .logex1.dta ”的Stata格式數(shù)據(jù)文件,并替換了原(如方差分析結(jié)果,回歸分析結(jié)果等),一種是log文件:,亦可由用戶自己加上其他后綴。執(zhí)行該指令后的所有操作指令和文字結(jié)果(除help下顯示的結(jié)果)將記錄在結(jié)果文件"result1.log ”中。若執(zhí)行某一指令后的結(jié)果沒(méi)有必要記錄下來(lái),則可事先用指令“l(fā)og off ”暫停記錄,需要記錄時(shí)再用“l(fā)og on ”繼續(xù)記錄,最后用“ log close ”關(guān)閉文件。如果結(jié)果文件“ result1.log”
17、已經(jīng)存在,用“ log using result1 ”不能打開(kāi)已有文件result1. log 。如要覆蓋文件result1.log,則加選擇項(xiàng)replace。即鍵入:.log using result1, replace如要在其后進(jìn)行添加,則鍵入:.log using result1, appendsaving ”選擇項(xiàng)。例如,畫例1.1中x與y的散點(diǎn)圖并存入文件“ ex1.gph ”,可用下述指令:文件“ result1.log ”可在EDIT、PE2、WPS或 WOR等字處理軟件下編輯、打印,也可在DOS下用type或 print命令通過(guò)顯示器瀏覽或打印機(jī)輸出硬拷貝。 若要將圖形結(jié)果打印
18、下來(lái),需要在繪圖指令中加上內(nèi)定的圖形文件后綴,用戶亦可自己定義后綴名)。該圖形可在Stata狀態(tài)用"graph using d:mydataex1 重新顯示在屏幕上,可在File 的Print Graph打印,也可用打印命令“gphdot ”打印。DOS版本的Stata可在DOS提示符下用“ gphdot ” 命令打?。篋:MYDATA>gphdot ex1.gph 更詳細(xì)的內(nèi)容見(jiàn)第五章。§ 1.6 Stata的操作方式Stata的操作有交互式操作和非交互式操作兩種形式。一、交互式操作在Stata狀態(tài)直接鍵入指令,每輸入一個(gè)指令,Stata執(zhí)行一個(gè),這種方式稱為交互式
19、操作。例1.2 用例1.1數(shù)據(jù)建立回歸方程。.use ex1 reg y x二、非交互式操作若分析內(nèi)容很多,有時(shí)甚至涉及到多個(gè)數(shù)據(jù)庫(kù),有幾十個(gè)甚至成百個(gè)分析內(nèi)容,若仍采取交互式操作,不 僅要將許多時(shí)間花在等待運(yùn)算結(jié)果上,而且容易漏掉一些主要的分析內(nèi)容或做一些無(wú)益的重復(fù)勞動(dòng)。這時(shí) 最好在EDIT, PE2, WORD?文字處理下將這些指令寫入一個(gè)以“ do”為擴(kuò)展名的命令文件(文本格式,即ASCII碼),并仔細(xì)核對(duì)分析內(nèi)容、命令格式,直至組織數(shù)據(jù)文件的合理性等,修改好后再在Stata狀態(tài)執(zhí)行該命令文件。例1.3用非交互式操作對(duì)例1.1數(shù)據(jù)進(jìn)行相關(guān)和回歸分析。第一步,在字處理軟件下寫入如下指令,并
20、以文件名“ex1.do ”存入磁盤子目錄中。set more 1/扌曰疋結(jié)果窗口中,當(dāng)輸出結(jié)果滿 屏后,不再 顯示-more-,直接顯示下一屏log using d:mydataex1 .log/*打開(kāi)結(jié)果文件 ex1.loguse d:mydataex1.dta/* 調(diào)用數(shù)據(jù)文件 d:mydataex1.dtagra y x,savi ng(d:mydtataex1)/* 作 y 與 x的散點(diǎn)圖,并存入d:mydtataex1.gphcor y x/*作y與x的相關(guān)reg y x/*作y與x的回歸log close/*關(guān)閉結(jié)果文件ex1.logset more 0/扌曰疋纟口果窗口中,當(dāng)輸出
21、纟口果滿 屏后,顯示-more-,直到按任意鍵后,再顯示下一屏第二步,在 Stata狀態(tài)鍵入:.do d:mydtataex1.doStata將首先打開(kāi)一個(gè)名為“ ex1.log ”的結(jié)果文件,然后打開(kāi)數(shù)據(jù)文件“ ex1.dta ”,畫散點(diǎn)圖并將圖形 存入文件“ ex1.gph ”,進(jìn)行相關(guān)分析、回歸分析,最后關(guān)閉結(jié)果文件。此時(shí),Stata執(zhí)行這些命令是自動(dòng)的,不間斷的。§ 1.7 Stata的幫助功能Stata具有很強(qiáng)的幫助功能。幫助功能的使用有兩種方式。一是在Stata狀態(tài),需要了解某個(gè)指令的格式和功能,這時(shí)只需鍵入help(或按功能鍵F1),然后空一格鍵入該指令即可。例如,若需
22、了解回歸分析的指令格式,則:help regress則可得到幫助。二是利用菜單,在 Stata的菜單上按Help ,出現(xiàn)幫助窗口。此時(shí)輸入需要幫助的命令關(guān)鍵詞,如regress,按0K即可得到幫助。如需了解Stata的全部命令,可鍵入 help contents ,可得到Stata的全部命令及其簡(jiǎn)單解釋;或在幫助 窗口按Contents ,則出現(xiàn)如下的幫助內(nèi)容窗口。在知道所要幫助的命令時(shí),在命令窗口鍵入help加命令,即可獲得幫助;在不知道所要幫助的命令時(shí),用菜單操作更好。Stata的常用命令見(jiàn)附錄。下面以多元線性回歸命令為例,介紹Stata的命令的格式。多元線性回歸命令為regress,欲得
23、到命令格式,鍵入help regress即可得到:by varlist: regress depvar varlistl (varlist2) weight if exp i n ran ge , level(#)beta hasc ons nocon sta nt n oheader eform(stri ng) dep name(var name) mse1 命令中,內(nèi)為選擇項(xiàng),括號(hào)外為必選項(xiàng)。這里介紹命令的公共選擇部分,該命令的專用選擇項(xiàng)將在相應(yīng)章節(jié)作介紹。group,且取值為1,1. by varlist,是指定按變量varlist的取值逐一作多元線性回歸。如變量名為2, 3, 4,則
24、"by group: ” 是指定 Stata 分別按 group=1, group=2, group=3 和 group=4 的觀察 值分別作4個(gè)回歸方程。在選用該選擇項(xiàng)前,要對(duì)變量排序,即先執(zhí)行sort,女口: .sort group2. weight,是指本命令允許使用加權(quán)或頻數(shù),有fw=頻數(shù)變量和aw=加權(quán)變量?jī)煞N形式。if group=1if group>2if group=1 | group=2if group=3if group=1 & sex=0/*對(duì)滿足group=1條件的觀察值進(jìn)行分析/*對(duì)滿足group>2條件的觀察值進(jìn)行分析/*對(duì)滿足grou
25、p=1或group=2條件的觀察值進(jìn)行分析/*對(duì)滿足group不等于3條件的觀察值進(jìn)行分析/*對(duì)滿足group=1,同時(shí)sex=0條件的觀察值進(jìn)行分析3. if exp,用條件語(yǔ)句指定條件。如,下列條件是合法的:in range4.in 1/25in 26/44in 26/lin 5/l,指定觀察值的范圍,對(duì)觀察值范圍為對(duì)觀察值范圍為對(duì)觀察值范圍為/*/*/*/*對(duì)在范圍內(nèi)的觀察值作分析。下列語(yǔ)句是合法的:125號(hào)的觀察值作分析2644號(hào)的觀察值作分析26最后(last)的觀察值作分析對(duì)最后5個(gè)觀察值進(jìn)行分析這些公共選擇項(xiàng)在很多命令中都可選用,本書在介紹各命令時(shí)將省去這些公共選擇項(xiàng)。另外一個(gè)選
26、擇項(xiàng),也可用于很多命令,它就是for。例如,在作回歸分析時(shí),自變量為x1,x2,” x22共22變量,而因變量有y1,y2, y10, z1, z5共15個(gè)變量。欲分別建立每個(gè)因變量 yi和zi與x1,x2, x22 的回歸,則需要寫15個(gè)命令。而用for選擇項(xiàng)只需一個(gè)命令即可:for y1-y10 z1-z5 : regress x1-x22命令中,for后面的變量是選定的,regress是作回歸分析,是替換符,Stata自動(dòng)用for語(yǔ)句指定的變 量逐一替換作為因變量,而自變量為x1-x22。又如,for y* : summ ,detail表示,對(duì)以y字母開(kāi)始的變量作詳細(xì)的統(tǒng)計(jì)描述。第一章數(shù)
27、據(jù)輸入,存盤和調(diào)用文件命令以及數(shù)據(jù)管理命令本節(jié)STATA命令摘要1 輸入數(shù)據(jù)命令:1)in put變量名1變量名2 ,變量名 m(各變量數(shù)據(jù)之間用空格隔開(kāi),每行一個(gè)記錄,最后以end 表示結(jié)束)2)i nfile變量名1 變量名2 , 變量名m using 文件名(該文件為文本文件,各變量數(shù)據(jù)之間用空格隔開(kāi),每行一個(gè)記錄)存盤命令:save 路徑文件名replace(以STATA格式存盤,缺省擴(kuò)展名為dta,replace表示覆蓋同名同路徑的文件;也可以在菜單File中選SAVEas或SAVE進(jìn)行操作)outfile using 路徑文件名replace(以文本格式存盤,缺省擴(kuò)展名為raw,
28、replace表示覆蓋同名同路徑的文件)調(diào)用已存的STATA格式文件use 路徑文 件 名,clear(也可以在菜單File 中選open進(jìn)行操作)產(chǎn)生新變量gen 新變量名=表達(dá)式修改變量值replace 變量名=表達(dá)式in 范圍if 邏輯表達(dá)式(變量的缺省值(mining data)表達(dá)式為.)在STATA軟件中數(shù)據(jù)輸入通常有三種方式:鍵盤直接輸入,從外部的文本文 件(ASC碼文件)讀入數(shù)據(jù)和在DOS環(huán)境下應(yīng)用Transfer 軟件直接把Fox或其他 格式存盤的文件轉(zhuǎn)換成Stata 軟件格式的文件。1、鍵盤輸入方式:命令格式:in put 變量1 變量 2, 變量 m輸入數(shù)據(jù), 變量之間用
29、空格,每個(gè)記錄一行 當(dāng)數(shù)據(jù)輸完后,輸入end例:應(yīng)用克矽平治療矽肺患者10名,治療刖后血紅蛋白的含量如下(數(shù)摘自金丕煥主編醫(yī)用統(tǒng)計(jì)方法,pp 37):血紅蛋白含量治療前113150150135128治療后140138140135135治療前100110120130123治療后120147114138120在下列STATA操作中用變量x1和x2分別代表治療前和治療后。STATA數(shù)據(jù)輸入操作命令:1. 鍵盤直接輸入nputx1 x2113140150138150140135135128135100120110147120114130 138123 120 end2.調(diào)用外部文本數(shù)據(jù)文件如果數(shù)據(jù)已經(jīng)
30、用其它軟件(如:Foxbase)輸入,并已以文本格式生成一個(gè)文本數(shù)據(jù)文件,并且滿足上述每個(gè)記錄一行和兩個(gè)變量之間用空格分割的格式。則用STATA命令:infile 變量1變量2 , 變量m using 路徑文本數(shù)據(jù)文件名如:上例數(shù)據(jù)已以文本方式存在C:user子目錄中的文件 ex1.txt ,并滿足每個(gè)記錄一行和兩個(gè)變量之間用空格分割的格式,則:STATA命 令:in file x1 x2 using c:userex1.txt以STATA格式存盤save ex1以ex1.dta為文件名在當(dāng)前目錄中存盤。(因?yàn)镾TATA格式的數(shù)據(jù)文件的缺省擴(kuò)展名為.dta)如果ex1.dta在當(dāng)前目錄中已存在
31、,并且打算把當(dāng)前數(shù)據(jù)所存的文件覆蓋當(dāng)前目錄中已存在的文件ex1.dta,則:save ex1,replace如果打算把ex1.dta 文件存入c:user 子目錄中,則save c:userex1.dta或 save c:userex1.dta, replace以文本方式存數(shù)據(jù)文件:STATA命令:outfile 變量1變量2 , 變量m using路徑文本數(shù)據(jù)文件名replace其中子命令,replace 表示覆蓋現(xiàn)有同目錄中與該文本數(shù)據(jù)文件相同的文 件設(shè)上述資料已在STATA狀態(tài)下輸入到計(jì)算機(jī)中,準(zhǔn)備生成一個(gè)文本數(shù)據(jù)文 件 ex1.txt 并存入 c:user ,貝U:STATA命令:ou
32、tfile x1 x2 using c:userex1.txt若 在c:user 中已經(jīng)有ex1.txt ,并打算用當(dāng)前STATA環(huán)境中的 數(shù)據(jù)覆蓋它。則outfile x1 x2 using c:userex1.txt,replace調(diào)用現(xiàn)有數(shù)據(jù)文件(以STATA格式存盤的文件,又稱STATA系統(tǒng)數(shù)據(jù)文件) use 路徑文件名,clear若當(dāng)前STATA狀態(tài)已調(diào)入數(shù)據(jù),則要調(diào)入新的數(shù)據(jù)時(shí),需要用 clear子命令,表示清除原先已在計(jì)算機(jī)中 的數(shù)據(jù)。如:調(diào)用在c:user子目錄下的ex1.dtaSTATA系統(tǒng)數(shù)據(jù)文件,則:use c:userex1若當(dāng)前狀態(tài)已有數(shù)據(jù)在計(jì)算機(jī)內(nèi),貝U:use c
33、:userex1,clear注意:use與save是一對(duì)調(diào)用 STATA系統(tǒng)數(shù)據(jù)文件和以STATA系統(tǒng)格式 存盤的命令;infile 和outfile也是一對(duì)調(diào)用外部文本數(shù)據(jù)文件和以文本文件格式存盤的命令。數(shù)據(jù)管理命令產(chǎn)生新的變量:STATA命令:gen新變量名=表達(dá)式例如:當(dāng)前計(jì)算機(jī)中正處于STATA狀態(tài)下,并有二個(gè)配對(duì)變量x1和x2的數(shù)據(jù),因此需要計(jì)算兩個(gè)變量的差:x1-x2,則:gen x=x1-x2修改數(shù)據(jù):STATA命令:replace 變量名= 表達(dá)式if邏輯表達(dá)式in 范圍如:變量x中所有值為999的數(shù)據(jù)是缺省資料,現(xiàn)改為STATA缺省值的記號(hào),所有大于100的數(shù)據(jù)將改為2; x
34、小于或等于100且大于5的所有數(shù)據(jù)改為1 ; x小于或等于5的所有數(shù)據(jù)為0。則:replace x=. if x=999replace x =0 if x<=5replace x=1 if x>5 & x<=1002replace x=2 if x>1001、方括號(hào)中的子命令表示可以省略,但方括號(hào)中的子命令是處理一些特殊情況的。2在邏輯表達(dá)式中:“等于”用 =表示;“不等于”用=表示;“或”用|表示;“并且”用&表示。第二章描述性統(tǒng)計(jì)命令與輸出結(jié)果說(shuō)明本節(jié)STATA命令摘要by 分組變量:summarize 變量名1 變量名2, 變量名m,detailc
35、i變量名1 變量名2, 變量名m , level(#) bi no mialpoisson exposure(varname) by(分組變 量)cii 樣本量 均數(shù) 標(biāo)準(zhǔn)差,level(#)tab1變量名,generate(變量名)資料特征描述(均數(shù),中位數(shù),離散程度)例:某地測(cè)定克山病患者與克山病健康人的血磷測(cè)定值如下表(數(shù)據(jù)摘自四川醫(yī)學(xué)院主編的衛(wèi)生統(tǒng)計(jì)學(xué),1978 出版,p21):患者2.63.243.733.734.324.735.185.585.786.406.53健康人1.671.981.982.332.342.503.603.734.144.174.574.825.78并假定這些
36、數(shù)據(jù)已以STATA格式存入ex2.dta文件中,其中變量x1為患者的血磷測(cè)定值數(shù)據(jù),變量x2為健康人的血磷測(cè)定值數(shù)據(jù)。上述數(shù)據(jù)也可以用變量x表示血磷測(cè)定值,分組變量group=0表示患者組和group=1表示健康組(如:患者組中第一個(gè)數(shù)據(jù)為2.6,則x=2.6,group=0 ;又如:健康組中第三個(gè)數(shù)據(jù)為1.98,貝U x為1.98以及group為1),并假定這些數(shù)據(jù)已以STATA格式存入ex2a.dta文件中。計(jì)算 資料 均數(shù),標(biāo)準(zhǔn)差命令summarize ,以述資料為例:use ex2,clearsummarize x1 x2結(jié)果:變量樣本數(shù) 均數(shù) 標(biāo)準(zhǔn)差最小值最大值Variable |
37、ObsMea nStd. Dev. Min Max+x1 |114.710909 1.3029772.66.53x2 |133.354615 1.3043681.675.78即:本例中急性克山病患者組的樣本數(shù)為11,血磷測(cè)定值均數(shù)為 4.711(mg%),相應(yīng)的標(biāo)準(zhǔn)差為1.303,最小值為2.6以及最大值為6.53 ;健康組的樣本量為 13,血磷測(cè)定值均數(shù)為 3.3546,相應(yīng)的標(biāo)準(zhǔn)差為1.3044, 最小值為1.67以及最大值為5.78。計(jì)算資料均數(shù),標(biāo)準(zhǔn)差,中位數(shù),低四分位數(shù)和高四分位數(shù)的命令summarize以及子命令detail ,仍以述資料為例:use ex2,clearsummar
38、ize x1 x2,detail結(jié)果:x1Perce ntilesSmallest(最小值)1%2.62.65%2.63.2410%3.243.73Obs11(樣本數(shù))25%3.73 (低四分位)3.73 Sum of Wgt.1150%4.73 (中位數(shù))(最大值)Mean4.710909(均數(shù))LargestStd. Dev. 1.302977(標(biāo)準(zhǔn)差)75%5.78(咼四分位)5.5890%6.45.78Varia nee1.697749 (方差)95%6.536.4Skew ness-.0813446(偏度)99%6.536.53Kurtosis1.809951 (峰度)x2Perce
39、 ntilesSmallest1%1.671.675%1.671.9810%1.981.98Obs1325% 2.332.33Sum of Wgt.1350%3.6Mea n3.354615LargestStd. Dev. 1.30436875%4.174.1790%4.824.57 Varia nee1.70137795%5.784. 82 Skew ness.296394399%5.785.78 Kurtosis1.875392由上述結(jié)果可知:summarize命令并使用子命令detail ,不僅可以得到各變量資料的均數(shù)和標(biāo)準(zhǔn)差,而且可以得到主要的非參數(shù)描述指標(biāo):低四分位(lowerqua
40、rtile) ,中位數(shù)(Median)以及高四分位(upperquartile)。對(duì)于非正態(tài)資料,一般不應(yīng)用均數(shù)土標(biāo)準(zhǔn)差進(jìn)行描述,而應(yīng)使用中位數(shù)以及(低四分位-高四分位,稱interquartilerange,IQR)進(jìn)行描述。如:若本資料不正態(tài)1,貝U x1的Median以及IQR為:4.73(3.73-5.78) 以及x2的Median以及IQR為:3.6(2.33-4.17)。為樣本方差;為偏度,偏度的絕對(duì)值越小,表明該數(shù)據(jù)的正態(tài)對(duì)稱性越好;峰度,峰度值越大表明該數(shù)據(jù)的正態(tài)峰越明顯;在該數(shù) 據(jù)中最小的四個(gè)數(shù)據(jù);在該數(shù)據(jù)中最大的四個(gè)數(shù)據(jù)。若調(diào)用ex2a.dta文件,進(jìn)行描述性統(tǒng)計(jì),可用下列
41、命令:use ex2a,clearsort group ( 將資料以group 變量為例從小到大排序)by group:summarize x結(jié)果:-> group=x0Perce ntilesSmallest1%2.62.65%2.63.2410%3.243.73Obs1125%3.733.73Sum of Wgt.1150%4.73Mea n4.710909LargestStd. Dev.1.30297775%5.785.5890%6.45.78Varia nee1.69774995%6.536.4Skew ness-.081344699%6.536.53Kurtosis1.8099
42、51-> group=1xPerce ntilesSmallest1%1.671.675%1.671.9810%1.981.98Obs1325%2.332.33Sum of Wgt.1350%3.6Mea n3.354615LargestStd. Dev.1.30436875%4.174.1790%4.824.57Varia nee1.70137795%5.784.82Skew ness.296394399%5.785.78Kurtosis1.875392上述結(jié)果與前面的結(jié)果對(duì)應(yīng)相同。根據(jù)樣本數(shù)據(jù)計(jì)算可信限295%可信限計(jì)算:正態(tài)數(shù)據(jù):ci變量名0-1數(shù)據(jù):ci變量名,bi no mia
43、lpoiss on分布數(shù)據(jù):ci變量名,poisson90%可信限計(jì)算(其它可信限類推)正態(tài)數(shù)據(jù):ci 變量名,level(90)0-1 數(shù)據(jù):ci 變量名,level(90) bi no mialpoisson 分布數(shù)據(jù):ci 變量名,level(90) poisson 以ex2.dta 為 例計(jì)算x1,x2 的95 % 可 信 限。use ex2.dta,clear Variable | Obs Mea n Std. Err. 95% Co nf. In terval+x1 |114.710909.39286243.8355575.586261x2 |133.354615.36176672
44、.566393 4.142837以上結(jié)果中:為樣本數(shù);為均數(shù);為標(biāo)準(zhǔn)誤;為95%的可信限,因此x1的 95% 可信限為3.8356,5.5863, x2 的 95 % 可信限為2.5664,4.1428。根據(jù)樣本數(shù),樣本均數(shù)和標(biāo)準(zhǔn)差計(jì)算可信限3。若數(shù)據(jù)服從正態(tài)分布,并已知樣本均數(shù)和標(biāo)準(zhǔn)差以及樣本數(shù),則95%可信 限計(jì)算為:cii 樣本數(shù) 樣本均數(shù)標(biāo)準(zhǔn)差,level(#)例:已知樣本數(shù)為90 樣本均數(shù)為40以及樣本標(biāo)準(zhǔn)差為12,則:計(jì)算該樣本 均數(shù)的95%可信限為cii 90 40 12Variable | ObsMea n Std. Err. 95% Co nf. In terval+|904
45、01.26491137.48665 42.51335該樣本均數(shù)的90% 可信限為37.48665,42.51335cii 90 40 12,level(90)Variable | ObsMea nStd. Err. 90% Co nf. In terval+|90401.26491137.8975242.10248計(jì)數(shù)資料中頻數(shù)和比例STATA命令:tab1 變量名,g( 新變量名)因?yàn)樵撁钪饕m用描述計(jì)數(shù)資料(即:屬性資料),當(dāng)使用子命令g(新變 量),則產(chǎn)生屬性指示變量。在回歸分析中經(jīng)常需要這些指示變量作為亞 元變量進(jìn)行分析。例:50只小鼠隨機(jī)分配到5 個(gè)不同飼料組,每組10 只小鼠。在
46、喂養(yǎng)一定時(shí) 間后,測(cè)定鼠肝中的鐵的含量(mg/g)如表所示:試比較各組鼠肝中鐵的含量 是否有顯著性差另”摘自醫(yī)學(xué)統(tǒng)計(jì)方法,金丕煥主編,p220)。用x 表示鼠肝 中鐵的含量以及用group=1 , 2, 3, 4, 5分別表示對(duì)應(yīng)的5個(gè)組。x:2.231.142.6311.352.011.641.131.011.70group:1111111111x:5.590.966.961.231.612.941.963.681.542.59group:2222222222x:4.53.9210.338.232.074.96.846.423.726group:3333333333x:1.351.060.7
47、40.961.162.080.690.680.841.34group:4444444444x:1.41.512.491.741.591.3634.815.215.12group:5555555555tab1 group,g(a)-> tabulati on of groupgroup|Freq.Perce ntCum+1 |10 20.00 20.002 |1020.0040.003 |1020.0060.004 |1020.0080.005 |1020.00100.00+-Total |50100.00 為各屬性資料的頻數(shù);為該屬性占整個(gè)資料樣本數(shù)的百分比;為累 計(jì)百分比。本例中,總樣
48、本數(shù)為50,共有5 組,每組有10個(gè)樣本占八、)各占總樣本數(shù)的10% 因?yàn)槭褂昧俗用?g(a),從而產(chǎn)生5個(gè)指示變量(又可稱亞元變量):a1,a2, a3, a4 和a5。 變量a1用于指示第1組的資料:即:當(dāng)資料屬于第1組的(group=1),則a1=1 ;其它組的資料(group11),則 a1=0。變量a2用于指示第2組的資料,變量a3,a4和a5相應(yīng)分別指示第3,4,5 組的資料(詳細(xì)見(jiàn)下表)。X:2.231.142.6311.352.011.641.131.011.70group:1111111111a11111111111a20000000000a30000000000a40000000000a50000000000x:5.590.966.961.231.612.941.963.681.542.59group:2222222222a10000000000a21111111111a30000000000a40000000000a50000000000x:4.53.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2013版總包合同范例
- 產(chǎn)品工業(yè)合同范例
- 供貨加工合同范例
- 公司合同范例評(píng)審
- 個(gè)人車輛合同范例
- 代理工地合同范例
- 企業(yè)工程施工合同范例
- 養(yǎng)殖大院出租合同范例
- 促銷促產(chǎn)傭金合同范例
- 農(nóng)村別墅砍價(jià)合同范例
- 優(yōu)生五項(xiàng)臨床意義
- 2024年池州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)標(biāo)準(zhǔn)卷
- 事故隱患內(nèi)部報(bào)告獎(jiǎng)勵(lì)機(jī)制實(shí)施細(xì)則
- 小學(xué)六年級(jí)數(shù)學(xué)學(xué)情分析及提升方案
- 事業(yè)單位考試(公共基礎(chǔ)知識(shí))3000題每日練習(xí)
- 新會(huì)計(jì)法下加強(qiáng)企業(yè)財(cái)會(huì)監(jiān)督策略研究
- 人力資源社會(huì)保障宣傳工作計(jì)劃及打算
- 2024年秋兒童發(fā)展問(wèn)題的咨詢與輔導(dǎo)終考期末大作業(yè)案例分析1-5答案
- 廣東省廣州市2021年中考道德與法治試卷(含答案)
- 2024年貴州省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 2024-2030年中國(guó)滑板車行業(yè)競(jìng)爭(zhēng)策略及發(fā)展前景預(yù)測(cè)報(bào)告
評(píng)論
0/150
提交評(píng)論