Stata實驗指導(dǎo)、統(tǒng)計分析與應(yīng)用chap10PPT課件_第1頁
Stata實驗指導(dǎo)、統(tǒng)計分析與應(yīng)用chap10PPT課件_第2頁
Stata實驗指導(dǎo)、統(tǒng)計分析與應(yīng)用chap10PPT課件_第3頁
Stata實驗指導(dǎo)、統(tǒng)計分析與應(yīng)用chap10PPT課件_第4頁
Stata實驗指導(dǎo)、統(tǒng)計分析與應(yīng)用chap10PPT課件_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2021/3/912021/3/92主要內(nèi)容泊松回歸模型負(fù)二項和廣義負(fù)二項回歸模型零膨脹回歸模型2021/3/93實驗實驗10-110-1:泊松回歸模型:泊松回歸模型實驗基本原理實驗基本原理 對上式兩邊取對數(shù)可得對數(shù)似然函數(shù),之后對求導(dǎo)便可得最大似然估計值。2021/3/94實驗內(nèi)容及數(shù)據(jù)來源實驗內(nèi)容及數(shù)據(jù)來源本書附帶光盤data文件夾下的“airinjure.dta”工作文件,給出了美國九家大的航線一年中的傷亡人數(shù)數(shù)據(jù)。 變量包括airline=航線,injuries=該航線一年的傷亡人數(shù),n=各航線飛離紐約的航班數(shù)量占全部飛離紐約的航班數(shù)量的比例,XYZowned=航線是否為XYZ公司所擁

2、有(1代表為XYZ公司擁有,0代表為其他公司擁有)。利用這些數(shù)據(jù),我們分析XYZ公司擁有的航線是否有更高的傷亡率。因為被解釋變量injuries為計數(shù)數(shù)據(jù),所以我們考慮使用泊松模型。利用“airinjure.dta”的數(shù)據(jù),我們將講解泊松回歸的操作、擬合優(yōu)度的檢驗以及模型的預(yù)測。2021/3/95實驗操作指導(dǎo)實驗操作指導(dǎo)1 泊松回歸的操作泊松回歸的操作(1)泊松回歸的基本操作進(jìn)行泊松回歸的基本命令如下:poisson depvar indepvar if in weight ,options其中,poisson代表“泊松回歸”的基本命令語句,depvar代表被解釋變量的名稱,indepvar代

3、表解釋變量的名稱,if代表條件語句,in代表范圍語句,weight代表權(quán)重語句,options代表其他選項。2021/3/96表10.2顯示了各options選項及其含義。2021/3/972021/3/98(2)計算發(fā)生率比IRR我們重新進(jìn)行前面的回歸,令其匯報發(fā)生率比。輸入命令: poisson injuries XYZowned, exposure(n) irr 其中,選項exposure()約束ln(n)的系數(shù)為1,irr表示結(jié)果匯報發(fā)生率比。2021/3/99(3)水平形式的泊松回歸我們先產(chǎn)生一個變量ln(n),然后再進(jìn)行泊松回歸。 gen lnn=ln(n) poisson inj

4、uries XYZowned lnn 其中,第一步為產(chǎn)生一個新變量lnn,其值為n的自然對數(shù);第二步進(jìn)行泊松回歸,被解釋變量為injuries,解釋變量為XYZowned和lnn。2021/3/9102.泊松回歸的檢驗和預(yù)測泊松回歸的檢驗和預(yù)測(1)擬合優(yōu)度(goodness of fit)檢驗命令estat gof 用于檢驗?zāi)P褪欠衽c數(shù)據(jù)吻合良好。在泊松回歸之后進(jìn)行該檢驗,原假設(shè)為模型服從泊松分布。當(dāng)p值很小時,我們就應(yīng)該拒絕原假設(shè)。對前面回歸的模型進(jìn)行擬合優(yōu)度檢驗,命令為:quietly poisson injuries XYZowned, exposure(n)estat gof其中,第

5、一步命令中的quietly用于指示stata不顯示該步的結(jié)果;第二步為擬合優(yōu)度的檢驗。2021/3/911(2)泊松回歸的預(yù)測預(yù)測的基本命令格式為:predict type newvar if in , statistic nooffset其中,predict是預(yù)測的基本命令語句,newvar代表生成的新變量的名稱,type代表新變量的類型,if代表條件語句,in代表范圍語句,statistic代表要預(yù)測的統(tǒng)計量。表10.3顯示了各statistic統(tǒng)計量及其含義。2021/3/9122021/3/913實驗實驗10-210-2:負(fù)二項和廣義負(fù)二項回歸模:負(fù)二項和廣義負(fù)二項回歸模型型實驗基本原

6、理實驗基本原理2021/3/914實驗內(nèi)容及數(shù)據(jù)來源實驗內(nèi)容及數(shù)據(jù)來源本書附帶光盤data文件夾下的“mortality.dta”工作文件給出了不同時期兒童死亡人數(shù)的調(diào)查數(shù)據(jù)。變量包括:cohort=分組變量(1代表出生于1941-1959年間,2代表出生于1960-1967年間,3代表出生于1968-1976年間), age_mos=死亡時的年齡(單位為月),deaths=死亡人數(shù), exposure=暴露于風(fēng)險的總年數(shù)(=兒童人數(shù)*相應(yīng)的年齡)。利用這些數(shù)據(jù),我們研究不同年代對兒童死亡率的影響。我們會進(jìn)行泊松回歸及其擬合優(yōu)度檢驗,負(fù)二項回歸以及廣義負(fù)二項回歸。2021/3/915實驗操作指

7、導(dǎo)實驗操作指導(dǎo)1 泊松回歸及擬合優(yōu)度檢驗泊松回歸及擬合優(yōu)度檢驗因為我們要進(jìn)行的回歸分析中,被解釋變量死亡人數(shù)是計數(shù)變量,因此,我們首先考慮進(jìn)行泊松回歸。命令如下:gen logexp=ln(exposure)xi: poisson deaths i.cohort, offset(logexp)其中,第一步生成了一個新變量logexp,其值為變量exposure的自然對數(shù);第二步為泊松回歸。在第二步中,xi表示生成擴(kuò)展交互項(interaction expansion),在這里,解釋變量cohort之前有前綴“i.”,即表示生成cohort的虛擬變量(因為分組變量cohort取值為1、2、3,所

8、以會生成3個虛擬變量)。也就是說,被解釋變量為deaths,解釋變量為虛擬變量_Icohort_1、_Icohort_2和_Icohort_3。為避免多重共線性,stata會自動刪掉一個虛擬變量。此外,選項offset(logexp)表明約束logexp的系數(shù)為1,這是因為我們要研究組別對死亡率的影響,而死亡人數(shù)除以暴露期才是死亡率。2021/3/916對上面的回歸進(jìn)行擬合優(yōu)度檢驗:estat gof結(jié)果顯示,我們應(yīng)當(dāng)拒絕數(shù)據(jù)服從泊松回歸的原假設(shè)。2021/3/9172 負(fù)二項回歸負(fù)二項回歸對 “mortality.dta”的數(shù)據(jù)進(jìn)行泊松回歸后,擬合優(yōu)度檢驗表明泊松回歸模型是不合適的。這樣,我

9、們考慮用負(fù)二項回歸模型。負(fù)二項回歸的基本命令格式為:nbreg depvar indepvar if in weight , nbreg_options其中,nbreg代表“負(fù)二項回歸”的基本命令語句,depvar代表被解釋變量的名稱,indepvar代表解釋變量的名稱,if代表條件語句,in代表范圍語句,weight代表權(quán)重語句,nbreg_options代表其他選項。2021/3/918下面,我們利用“mortality.dta”的數(shù)據(jù)進(jìn)行負(fù)二項回歸,命令為:xi: nbreg deaths i.cohort, offset(logexp) nolog其中,被解釋變量為deaths,解釋變

10、量為cohort的虛擬變量,選項offset(logexp)約束logexp的系數(shù)為1,nolog表明不顯示迭代過程。2021/3/9193 廣義負(fù)二項回歸廣義負(fù)二項回歸廣義負(fù)二項回歸的命令與負(fù)二項回歸基本一致,為:gnbreg depvar indepvar if in weight , gnbreg_options其中,gnbreg代表“廣義負(fù)二項回歸”的基本命令語句,gnbreg_options代表其他選項。仍利用“mortality.dta”的數(shù)據(jù),我們假設(shè)死亡人數(shù)是年齡的函數(shù),而參數(shù)則是分組變量cohort的函數(shù)。為了擬合這個模型,我們鍵入以下命令:xi: gnbreg deaths

11、 age_mos, lnalpha(i.cohort) offset(logexp)該命令中,xi:是為了與i.cohort相呼應(yīng),生成cohort的虛擬變量。選項lnalpha(i.cohort) 表明,參數(shù)則是cohort的虛擬變量的函數(shù)。如果我們認(rèn)為在cohort相鄰兩組間的差異是一樣的時候,可以直接使用cohort,而不必用其虛擬變量。2021/3/9204 模型的預(yù)測模型的預(yù)測負(fù)二項回歸和廣義負(fù)二項回歸的模型預(yù)測和泊松回歸的模型預(yù)測大致相同,只有幾個選項不一樣。預(yù)測的基本的命令格式如下:predict type newvar if in , statistic nooffset其中,

12、predict代表預(yù)測的基本命令語句,newvar代表生成的新變量的名稱,type代表新變量的類型,if代表條件語句,in代表范圍語句,statistic代表進(jìn)行預(yù)測的統(tǒng)計量。nbreg和gnbreg可用的statistic選項包括n、ir、xb和stdp,對選項的解釋,也和poisson相同。2021/3/921下面,讓我們通過例子來加深對命令的理解。仍使用“mortality.dta”的數(shù)據(jù),我們先進(jìn)行負(fù)二項回歸,然后預(yù)測,再考察預(yù)測值的描述統(tǒng)計量。命令為:quietly xi: nbreg deaths i.cohortpredict countsummarize deaths coun

13、t其中,第一步為進(jìn)行負(fù)二項回歸,quietly表明不顯示該回歸的結(jié)果;第二步對被解釋變量進(jìn)行預(yù)測,并將其命名為count;第三步將顯示被解釋變量deaths和預(yù)測變量count的描述統(tǒng)計量。下面,我們再進(jìn)行scores的預(yù)測,并對預(yù)測結(jié)果進(jìn)行描述。命令為:predict dscore1 dscore2, scoresdescribe deaths dscore1 dscore22021/3/922實驗實驗10-310-3:零膨脹回歸模型:零膨脹回歸模型實驗基本原理實驗基本原理當(dāng)計數(shù)數(shù)據(jù)中含有大量的“0”值時,可以考慮使用“零膨脹泊松回歸”(Zero-Inflated Poisson regre

14、ssion,簡記ZIP)或“零膨脹負(fù)二項回歸”(Zero-Inflated Negative Binomial regression,簡記ZINB)。對零膨脹回歸模型而言,估計是分兩階段進(jìn)行的。首先,決定計數(shù)變量“取零”還是“取正整數(shù)”,這相當(dāng)于二值選擇。其次,如果決定“取正整數(shù)”,則進(jìn)一步確定選擇哪個正整數(shù)。2021/3/923實驗內(nèi)容及數(shù)據(jù)來源實驗內(nèi)容及數(shù)據(jù)來源本書附帶光盤data文件夾的“fish.dta”工作文件給出了某一國家公園中游客捕魚情況的數(shù)據(jù),主要變量包括: count=各群游客捕獲的魚的條數(shù),persons=該群游客的數(shù)量,child=該群游客中兒童的數(shù)量,livebait=

15、是否使用活餌,camper=是否露營。利用這些數(shù)據(jù),我們研究各因素對游客捕魚條數(shù)的影響。考慮到被解釋變量count中有142個觀測值取值為0,我們使用零膨脹回歸模型來進(jìn)行模型擬合。下面,利用“fish.dta”的數(shù)據(jù),我們來講解零膨脹泊松回歸、零膨脹負(fù)二項回歸的擬合和預(yù)測。2021/3/924實驗操作指導(dǎo)實驗操作指導(dǎo)1 零膨脹泊松回歸(零膨脹泊松回歸(ZIP)的操作)的操作2021/3/925對于“fish.dta”的數(shù)據(jù),我們認(rèn)為,影響捕獲的魚的條數(shù)(count)的因素主要有該群游客有幾人(persons)以及是否使用活餌(livebait),而影響游客捕魚與否的因素則包括游客中有幾人是兒童

16、(child)以及是否露營(camper)。我們希望在回歸的過程中匯報Vuong統(tǒng)計量,這樣,該回歸的命令為:zip count persons livebait, inf(child camper) vuong2021/3/9262 零膨脹泊松回歸的預(yù)測零膨脹泊松回歸的預(yù)測2021/3/927對于本例,我們可以預(yù)測捕獲的魚的數(shù)量,并命名為pcount:predict pcount或預(yù)測捕魚數(shù)量為0的概率,并命名為prob:predict prob, pr 對于其他選項,道理相同,在此不再舉例。2021/3/9283 零膨脹負(fù)二項回歸(零膨脹負(fù)二項回歸(ZINB)的操作)的操作仍然利用“fis

17、h.dta”的數(shù)據(jù),我們來擬合零膨脹負(fù)二項回歸,并匯報Vuong統(tǒng)計量以及似然比檢驗。zinb count persons livebait, inf(child camper) vuong zip這里,被解釋變量為count,解釋變量為persons和livebait,決定是否捕魚的變量為child和camper。2021/3/929習(xí)題習(xí)題1.利用本書附帶光盤data文件夾下“poissonreg.dta”工作文件對決定初中生曠課天數(shù)的因素進(jìn)行分析。主要變量包括: id=學(xué)生的編號,school=學(xué)校,male=是否男生,math=數(shù)學(xué)課成績,langarts=語言藝術(shù)課成績,daysatt=在校天數(shù),daysabs=曠課天數(shù)。以daysabs為被解釋變量,以male和langarts為解釋變量,進(jìn)行泊松回歸模型的擬合。下圖列出了數(shù)據(jù)的基本情況。2021/3/9302.在習(xí)題1的回歸之后,對曠課天數(shù)進(jìn)行預(yù)測,并比較使用不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論