事件史統(tǒng)計(jì)分析法講課提綱_第1頁
事件史統(tǒng)計(jì)分析法講課提綱_第2頁
事件史統(tǒng)計(jì)分析法講課提綱_第3頁
事件史統(tǒng)計(jì)分析法講課提綱_第4頁
事件史統(tǒng)計(jì)分析法講課提綱_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1史方法基本概念1史統(tǒng)計(jì)分析法講課提綱斯坦福大學(xué)周雪光講座提綱第一講史分析法的研究對象、資料要求、統(tǒng)計(jì)基礎(chǔ)第二講史方法中離散時(shí)間統(tǒng)計(jì)模式 (discrete-time hazard model) 史方法中的COX模型 (The Cox proportional hazard model) 史分析法中的參數(shù)方程 (Parametric hazard models)史方法在實(shí)際研究中的應(yīng)用第三講第四講第五講課程的重點(diǎn)史統(tǒng)計(jì)方法的基本概念和模型·· 動(dòng)手能力:建構(gòu)史資料、應(yīng)用統(tǒng)計(jì)分析工具、解釋統(tǒng)計(jì)結(jié)果閱讀材料1統(tǒng)計(jì)方法參考資料粱在?!笆贩治觥?。Hans-Peter Blossfe

2、ld and Gotz Rohwer. 2002. Techniques of Event History Modeling: New Approaches to Causal Analysis. NJ: Lawrence Erlbaum Associates.Mario A. Cleves, William W. Gould, and Roberto G. Gutierrez. 2002. An Introduction to Survival Analysis Using STATA. College Station, Texas: Stata Corporation.2研究應(yīng)用的例子周雪

3、光、候立仁。1999?!爸械暮⒆觽儺?dāng)代中國的與生命歷程?!敝?。(譯自Xueguang Zhou and: The State and Life Course國學(xué)第二卷,第372-407頁。上海Liren Hou. 1999. “Children of the in PRC.” ASR 64: 12-36.)Jesper B. Sorensen. 2000. “The Longitudinal Effects of Group Tenure Composition on Turnover.” American Sociological Review 65: 298-310.1史方法基本概念2第一

4、講、史分析的基本概念、資料要求、描述性統(tǒng)計(jì)本講提綱1 為什么需要史分析方法?234史分析的基本概念史分析的資料要求史分析中的描述性統(tǒng)計(jì)1為什么使用史分析方法? 史分析:研究現(xiàn)象動(dòng)態(tài)過程的一類統(tǒng)計(jì)模式§§§理論:研究現(xiàn)象變遷的過程因果關(guān)系的模式化(時(shí)間序列)控制潛在特質(zhì)的影響(能力與、提干之間關(guān)系)例子:一個(gè)人在勞動(dòng)力市場上的就業(yè)過程(就業(yè)、換工作、再就業(yè)) 職位提升:何時(shí)、為什么?§§人口學(xué):§出生、結(jié)婚、離婚等發(fā)生的時(shí)間性和原因組織§§§學(xué):升遷、調(diào)動(dòng)一個(gè)組織類型的產(chǎn)生、擴(kuò)展、:時(shí)間性和原因組織采納某種

5、形式(M-form)或做法(組織制度)的原因其他:§§成人重新就學(xué)的時(shí)間性和原因、培訓(xùn)機(jī)會(huì)等1史方法基本概念3這些現(xiàn)象(因變量)的特點(diǎn)§因變量:(離散型變量)o 可數(shù)、整數(shù)、是/否,存在/不存在§時(shí)間序列過程是關(guān)注點(diǎn):時(shí)間性的因素(timing)o 提升:是否、什么時(shí)間o 何時(shí):時(shí)間維度需要多長時(shí)間才能經(jīng)歷到如此o 時(shí)間不是原因,但是因果關(guān)系體現(xiàn)在時(shí)間維度?§為什么:產(chǎn)生這些現(xiàn)象的因果過程:o 提升:歷史背景、是否黨員、類型,等等o 結(jié)婚:教育程度、就業(yè)狀況、歷史背景,等等一個(gè)例子:(是/否):· 建立“理論”模型o 因變量:與否o

6、解釋變量:、教育、工作、父親地位· 使用cross-sectional資料進(jìn)行分析o 為什么有問題?o 變量之間關(guān)系不是發(fā)生時(shí)的關(guān)系:教育、工作· 使用史分析方法1史方法基本概念4 的史的描述ID演變的時(shí)間序列123400000000000000000010005001.時(shí)間x censoredo 經(jīng)歷了“” x x x ox o時(shí)間1史方法基本概念52.史分析方法的基本概念§:1. 離散型變量: 0/12. 變量值隨著時(shí)間而變化§例子:結(jié)婚、提升、換工作,等等史 :有關(guān)變化和相應(yīng)時(shí)間性的時(shí)間序列的。§· 例子:有關(guān)一個(gè)人工作經(jīng)歷歷史

7、的類型和時(shí)間)(第一次工作,工作變化的§非重復(fù)性(出生、)、重復(fù)性(提升、結(jié)婚)§“風(fēng)險(xiǎn)集”的概念§在某一時(shí)間點(diǎn)上(或時(shí)間區(qū)間內(nèi))所有可能經(jīng)歷某一本)的集合。風(fēng)險(xiǎn)集的概念十分重要例子:的人(樣§§ððð結(jié)婚教育機(jī)會(huì)§資料的考慮:§§§使用了的信息:是否發(fā)生、何時(shí)發(fā)生、因果關(guān)系的時(shí)間性對資料有很高的要求對資料的設(shè)置有很高的要求刪截:§左刪節(jié) 很難在統(tǒng)計(jì)上處理; 右刪節(jié): 常見。§§ðð隨觀察(資料收集)結(jié)束而結(jié)束;隨機(jī)現(xiàn)象;系統(tǒng)

8、偏差:時(shí)間追蹤的姻問題:樣本的人可能有婚§§中間刪節(jié):史過程中的某一部分時(shí)間段不詳??梢蕴幚?。有關(guān)刪截的進(jìn)一步討論1史方法基本概念6不同“刪截”情形的討論:A沒有進(jìn)入抽樣框架,沒有觀察,左刪截。B“左刪截”。C全部過程完全觀察到,在統(tǒng)計(jì)上沒有問題;D觀察到開始及大部分過程,但從樣本“消失”(drop out)。是否隨機(jī)? E“右刪截”,可以統(tǒng)計(jì)處理。F沒有進(jìn)入抽樣框架,右刪截。G開始與結(jié)束沒有觀察到,“左、右刪截”。§§注意:我們假設(shè),如果“右刪截”發(fā)生,這是一個(gè)隨機(jī)過程;中間刪截:知道“”發(fā)生,但是不知道過去的確切時(shí)間。1史方法基本概念7§因

9、果過程的時(shí)間性:(統(tǒng)計(jì)意義上)§§§連續(xù)型離散型在概念上,總是連續(xù)型的§解釋變量:§§不隨時(shí)間變化:隨時(shí)間變化:收入、職務(wù)§史研究:有關(guān)史的統(tǒng)計(jì)分析方法。 要考慮的問題:§理論上:什么樣的因果過程導(dǎo)致了我們觀察到的這些實(shí)證狀況?o 就業(yè)、換工作的狀況o的分布狀況統(tǒng)計(jì)上:§o什么樣的統(tǒng)計(jì)分布過程(統(tǒng)計(jì)模型)可以描述我們在資料中看到的這些模式?我們需要什么樣的資料/信息才能對這類現(xiàn)象進(jìn)行統(tǒng)計(jì)分析? 我們怎樣處理這些“刪節(jié)”的案例?我們需要什么樣的統(tǒng)計(jì)(估測estimation)方法來分析資料? 怎樣解釋統(tǒng)計(jì)分

10、析的結(jié)果?o o o o§我們的講座主要是討論“統(tǒng)計(jì)”方面的問題,特別是有關(guān)統(tǒng)計(jì)模式、統(tǒng)計(jì)分析、和統(tǒng)計(jì)解釋這些方面的問題。1史方法基本概念83史方法的統(tǒng)計(jì)基礎(chǔ)描述和概括史資料有著三個(gè)基本的統(tǒng)計(jì)函數(shù)-分布函數(shù)、生存函數(shù)、風(fēng)險(xiǎn)函數(shù)1. 生命時(shí)間T (duration 持續(xù)期)的概率函數(shù)(Probability Functions of Lifetime T (duration))設(shè) T為有關(guān)某量,t為T的實(shí)現(xiàn)。設(shè) f(t) 和 F(t)發(fā)生的時(shí)間的隨分別為T的概率密度函數(shù)和累積概率函數(shù)。 我們有如下公式:F(t) 是有關(guān)該變量小于或等于我們所選定的某一值t的概率的函數(shù)。如果我們知道有關(guān)t

11、的每一個(gè)值所相應(yīng)的F函數(shù)值,那么,我們有了關(guān)于T分布的 全部信息。概率密度函數(shù)(Probability density functionp.d.f.)p.d.f. 的定義為(2)也就是說,p.d.f. 是c.d.f. 的導(dǎo)數(shù)或斜率slope。p.d.f. 與我們直觀上的概率分布性狀的關(guān)聯(lián)更為直接。例如,我們通常所說的鐘型正態(tài)分布是概率的 密度函數(shù),而不是累積概率函數(shù)。2. 生存函數(shù)(Survival Function )在生存函數(shù)分析中,我們常常使用一個(gè)密切相關(guān)的函數(shù)生存函數(shù)(3)1史方法基本概念9如果我們關(guān)心的點(diǎn)t及以后的概率。是“”,那么,生存函數(shù)提供了有關(guān)生存到時(shí)間注意:如果 f(t)

12、是連續(xù)的,且在t = 0 and ¥之間不為0, 那么 S(t) 是一個(gè)單調(diào)下降的連續(xù)性函數(shù),S(0) = 1 and S(¥) = lim t¥ S(t) = C. (對于所有à,C 為0.)無法避免的,如人或動(dòng)物的10¥ t3. 風(fēng)險(xiǎn)函數(shù)( Hazard Function )定義:某一在時(shí)間t尚未發(fā)生,在t和t+Dt 之間發(fā)生的概率。(4)h(t) 是建立史統(tǒng)計(jì)模型的關(guān)鍵所在。對以上公式的討論:在時(shí)間t發(fā)生的瞬息風(fēng)險(xiǎn)的定量化。因?yàn)闀r(shí)恰恰在時(shí)間t發(fā)生的概率為0。但是,我們可§這一定義的目的是對某間是連續(xù)性變量,一在t和t+Dt 之間

13、極小間隔時(shí)間內(nèi)發(fā)生的概率。我們需要以考慮該考慮這一的條件概率,即生存到時(shí)間t之后再可能經(jīng)歷的概率。如果一個(gè)人在t時(shí)間前已經(jīng)“”,那么,他就已經(jīng)不在風(fēng)險(xiǎn)集內(nèi)了。因此,我們只考慮那些“生存”到時(shí)間區(qū)域(t, t+Dt)開始時(shí)的式上:: Pr(t£T<t+Dt).那些人。這些考慮反映在以上公式的現(xiàn)在考慮分母。首先,概率是關(guān)于Dt的函數(shù),或單調(diào)上升,或不下降§(nondecreasing)。時(shí)間區(qū)間越長,就越可能在這一區(qū)間發(fā)生。針對這一情況,我們需要在分母中除以Dt。第二,我們要的是事1史方法基本概念10件在時(shí)間 t上的風(fēng)險(xiǎn)度,而不是t開始的某一區(qū)間。因此,我們讓Dt 趨于0

14、,使得這一區(qū)間越來越小。風(fēng)險(xiǎn)率的解釋:§§“風(fēng)險(xiǎn)率”作為概率函數(shù),是不能觀察到的,但可以加以測算。不能為負(fù),但沒有上限。如果是連續(xù)性函數(shù),h(t)可以大于1。率中,假設(shè)我們有,在 20-24h(t) = .460即,我們期待每個(gè)婦女-年,有 .460 個(gè)例子:在段,。§ 設(shè)E(T)為等待時(shí)間的期待值。如果 h(t)在t區(qū)間不變,那么 E(T) =l/h(t);在這里,T 是該發(fā)生前的等待時(shí)間。.例子.h(t) = .460, 時(shí)間是“年”,那么 1/.460 = 2.174 年,即一個(gè)生所期待的等待時(shí)間。發(fā)§ 我們通常假定風(fēng)險(xiǎn)隨著時(shí)間 t 變化。如果在t

15、維度的變化是連續(xù)性的,那么這是連續(xù)時(shí)間的風(fēng)險(xiǎn)模型。如果變化是離散性的(即在某一小區(qū)間內(nèi)為常量),那么我們需要離散性時(shí)間的風(fēng)險(xiǎn)模型。不同函數(shù)之間的關(guān)系我們以上討論的各種函數(shù), f(t), F(t), S(t), h(t) ,都是關(guān)于T的分布的各種描述,它們在數(shù)學(xué)上都是相同的,可以互為推導(dǎo)的。(5)(6)1史方法基本概念11換言之: 對 h(x)的模型化與對 f(t), or S(t), or F(t)的模型化都是相當(dāng)?shù)?其他幾個(gè)有用的公式:Integrating both sides àwhereWhy are they useful?S(t)可以從實(shí)際資料中測算出來,我們可以隨之建立

16、有關(guān)h(t)的模型。1史方法基本概念124。史資料的結(jié)構(gòu)和處理1特點(diǎn):時(shí)間性變量可以隨時(shí)間變化因變量是 “生命時(shí)間”(持續(xù)期duration)2一個(gè)例子id開始年份結(jié)束年份持續(xù)期教育程度9122129441122? 1?現(xiàn)在考慮解釋變量34不隨時(shí)間變化的變量:隨時(shí)間變化的變量:教育程度為了將隨時(shí)間變化的變量結(jié)合進(jìn)來,我們需要相應(yīng)的資料結(jié)構(gòu),例如id=29(Appendix資料結(jié)構(gòu))我們可以考慮更為復(fù)雜的資料結(jié)構(gòu)。· competing risks· 不同時(shí)間區(qū)間(· 不同群體間的比較段、不同歷史時(shí)期)1史方法基本概念13史資料的設(shè)置:STATA的STSET程序&#

17、167;§§資料的結(jié)構(gòu)風(fēng)險(xiǎn)集的建立STSET 的設(shè)置:生命時(shí)間變量Time-of-failure/censoring-variable 生命時(shí)間起點(diǎn)origin(time riskyear)idfailure(party)每個(gè)時(shí)間段的起點(diǎn)time0(t0)o o o o oSTSET后的檢查§Stset后的output:o List 變量、查看資料結(jié)構(gòu)o Stdes:描述資料Stvary§4 風(fēng)險(xiǎn)率的描述性統(tǒng)計(jì)1. Kaplan-Meier 方法 (Product-limit method)S(t) 是一個(gè)時(shí)間大于t的概率;t可能是任何一個(gè)非負(fù)的數(shù)字。在

18、沒有刪節(jié)的情況下,KM參數(shù)計(jì)量S(t)正是樣本中時(shí)間大于t時(shí)的比例 。例如,如果我們的觀察中有75%的樣本的時(shí)間大于5,那么S(5) = .75。對于刪節(jié)的資料,假設(shè)有k個(gè)不同的我們說,有nj個(gè)個(gè)人有可能經(jīng)歷該,t1 < t2 < t3 < tk. 在每一個(gè)時(shí)間tj,?!坝锌赡芙?jīng)歷” 意思是他們在 tj之前”的個(gè)人數(shù)目,KM沒有經(jīng)歷該,而且也沒有被刪節(jié)。設(shè)dj為在時(shí)間tj “ 參數(shù)的定義為,for t1 £ t £ tk用語言來表述,就是說,在一個(gè)具體的時(shí)間t,把所有小于或等于t的時(shí)間放在一起。對于這些時(shí)間的每一個(gè)時(shí)間,計(jì)算在括號(hào)內(nèi)的量,這可以解釋為生存到

19、時(shí)間tj后又生存到時(shí)間tj+1的條件概率。然后,所有的這些條件概率相乘。1史方法基本概念142 累積風(fēng)險(xiǎn)函數(shù)我們在上面寫下了如下的關(guān)系,該式左方的log生存函數(shù)被稱之為累積(或整合)風(fēng)險(xiǎn)率,用 L(t)代表 . 如果 h(t)是常量,有著l的值(這意味著一個(gè) exponential 函數(shù)),那么,累積風(fēng)險(xiǎn)函數(shù)是L(t) = lt. 這個(gè)結(jié)果意味著 log S(t) 在 t軸上的圖形是從坐標(biāo)0出發(fā)的一條直線。因此,我們畫出log-生存函數(shù)圖形可以幫助我們辨認(rèn)風(fēng)險(xiǎn)率是隨著時(shí)間而不變,上升、或下降。風(fēng)險(xiǎn)率的描述性統(tǒng)計(jì)可以提供許多信息§例子o o o o第一次的風(fēng)險(xiǎn)率第一次工作的風(fēng)險(xiǎn)率職務(wù)提

20、升的風(fēng)險(xiǎn)率第一胎的風(fēng)險(xiǎn)率1史方法基本概念151史方法基本概念161史方法基本概念17STATA output. * We can perform simple test about stratified hahzard rates,> using information on survival estimates;. sts test sex, logrank;failure _d: party analysis time _t: (year-origin)origin: time riskyear id: idLog-ranktest forequality of survivorfu

21、nctions|+Events observedEvents expectedsex男女|+663043.6052.40Total |9696.00chi2(1) Pr>chi2=21.280.0000. * We can crate strata test;of theoreticalinterest toconductstraified.genage = year - birth;.genage2 = age*age/100;.genagegrp = 1;.replace agegrp = 2 if age>= 30;(8928 real changes made). tab1

22、 agegrp;-> tabulationofagegrpagegrp|+Freq.PercentCum.12|+6,7318,92842.9857.0242.98100.00Total|15,659100.00. sts test sex,logrank strata(agegrp)detail;failure _d: analysis time _t:origin:id:party(year-origin) time riskyear idStratified log-rank test for equality of survivor functions1史方法基本概念18->

23、; agegrp = 1|+Events observedEvents expectedsex男女|+41922.9027.10Total |5050.00chi2(1) Pr>chi2=26.640.0000-> agegrp= 2|+Events observedEvents expectedsex男女|+252120.7025.30Total |4646.00chi2(1) Pr>chi2=1.640.2004-> Total|+Events observedEvents expected(*)sex男女|+663043.6052.40Total |9696.00

24、(*) sumover calculationswithinagegrpchi2(1) = Pr>chi2 =21.280.00001史方法基本概念19風(fēng)險(xiǎn)率模型的建立:以下講座的概括介紹1從描述統(tǒng)計(jì)到因果分析§§對風(fēng)險(xiǎn)率的進(jìn)一步分析,描述性統(tǒng)計(jì)為什么男女的風(fēng)險(xiǎn)率不同?教育水平,工作,。2 對風(fēng)險(xiǎn)率建立模型第一步:將風(fēng)險(xiǎn)率作為時(shí)間和解釋變量的函數(shù)。最為常用的例風(fēng)險(xiǎn)模型(the Cox model),法是:比ln h(t, x) = a(t) +bx在上式中, a(t)是一個(gè)沒有具體確定的時(shí)間函數(shù),b 是一組需要在統(tǒng)計(jì)分析中加以估測的參數(shù)。下一步:對 a(t) 進(jìn)行模型

25、化第一種情形: 簡單的情形風(fēng)險(xiǎn)率為常量·h(t) = lè log h(t) = m è S(t) = e-ltè f(t) = l e-lt- t-constant意義:風(fēng)險(xiǎn)率為常量意味著從開始到(exponential)函數(shù)分布。發(fā)生的時(shí)間是一個(gè)指數(shù)第二種情形。假設(shè)風(fēng)險(xiǎn)率的自然對數(shù)( the natural log of the hazard rat)是時(shí)間的線形函數(shù)·log h(t) = m+ at è h(t) = lgt在這里 l=emandg=ea èthe Gompertz model第三種情形。假設(shè)·

26、;1史方法基本概念20log h(t) = m + a log t=> h(t) = ltawith l=emð Weibull model 史模型的統(tǒng)計(jì)估測史分析中的一個(gè)問題是,我們無法觀察到那些被刪截的樣本的時(shí)間T。但是最大似然值法使得我們可以充分使用這些樣本的已有信息。這些刪截的 樣本的似然該式如下,用語言來表達(dá),如果一個(gè)樣本的時(shí)間T可以觀察到,那么它對似然估算的貢 獻(xiàn)是T的密度函數(shù);如果一個(gè)樣本的時(shí)間T無法觀察到,即在 ti 被刪截,那么它的貢獻(xiàn)是1-累布函數(shù)。小結(jié)基本概念資料要求描述性統(tǒng)計(jì)分析1史方法基本概念21作業(yè)1:史的資料結(jié)構(gòu)和描述性統(tǒng)計(jì)選擇一個(gè)研究(例如,結(jié)婚

27、、就業(yè)等),和幾個(gè)相關(guān)的解釋變量(包括·隨時(shí)間變化、和不隨時(shí)間變化的變量);采用“stset”程序建立一個(gè)可供史分析的資料;··對選擇的研究提供描述性統(tǒng)計(jì)分析;o KM 生存函數(shù)o 風(fēng)險(xiǎn)函數(shù)o 累積風(fēng)險(xiǎn)函數(shù)寫一個(gè)簡要的報(bào)告(不超過兩頁):(1)解釋在設(shè)置“stset”的考慮;(2)對描述性統(tǒng)計(jì)的結(jié)果加以分析解釋。·1史方法基本概念22附錄:史資料結(jié)構(gòu). list id party t0 sex educ in 1/144, nolab;+|+idpartyt0sexeduc|1.2.3.4.5.999990000019821983198419851986

28、1111111222|6.7.8.9.10.9999900000198719881989199019911111122222|11.12.13.14.15.9999900000199219931994199519961111122222|16.17.18.19.20.9999900000199719981999200020011111122222|21.22.23.24.25.9912121200000200220031964196519661111122111|26.27.28.29.30.121212121200000196719681969197019711111111111|31.32

29、.33.34.35.121212121200000197219731974197519761111111111|36.37.38.39.40.121212121200000197719781979198019811111111111|41.42.43.44.45.121212121201111198219831984198519861111111111|46.47.48.49.50.121212121211111198719881989199019911111111111|51.121199211|1史方法基本概念2352.53.54.55.|1212121211111993199419951

30、99611111111|56.57.58.59.60.121212121211111199719981999200020011111111111|61.62.63.64.65.121221212111000200220031981198219831122211222|66.67.68.69.70.212121212100000198419851986198719882222244444|71.72.73.74.75.212121212100000198919901991199219932222244444|76.77.78.79.80.21212121210000019941995199619

31、9719982222244444|81.82.83.84.85.212121212100000199920002001200220032222244444|86.87.88.89.90.292929292900000195119521953195419552222212228|91.92.93.94.95.292929292900000195619571958195919602222288888|96.97.98.99.100.292929292900000196119621963196419652222288888|101.102.103.104.105.292929292900000196

32、619671968196919702222288888|106.107.108.109.110.292929292900000197119721973197419752222288888|1史方法基本概念24111.112.113.114.115.|+292929292900000197619771978197919802222288888|116.117.118.119.120.292929292900000198119821983198419852222288888|121.122.123.124.125.292929292900000198619871988198919902222288

33、888|126.127.128.129.130.292929292900000199119921993199419952222288888|131.132.133.134.135.292929292900000199619971998199920002222288888|136.137.138.139.140.292929363600000200120022003199819992221188822|141.142.143.144.363636360000200020012002200311112888|+1史方法基本概念25/*/*/*/*/*/*/*/*/*/*/*/*/*/*/*/*/*

34、/*/*/*/*/*/EHA_DESC.DOThis program prepares the data set and descriptive statistics for event history analysis.For illustration purpose, we use "party membership" as the "event" to be analyzed.12/16/04 xz;/*/#delimit ; clear;set mem 50m; set more off;set matsize 800; set more off

35、;* First, link to the dataset, and define working directory;* use c:datasample600_eha, clear;global log c:data; global data c:data;cap log close;log using $logeha_desc.log, replace; use $datasample600_eha;/*/*/* The program below uses STATA's 'stset' procedure to define event history/* d

36、ataset. Once the event history data are properly defined in STATA, you/* can conduct various statistical analyses using the dataset./*/*/*/*/*/*/* An illustration using party membership as dependent var */* One of the most important tasks in EHA data construction is to define appropriate "risks

37、et". The program below carries out this task. Essentially, we keep any respondent whose age is at or above 18. There are more than one way toplish this task. Below is one way to do so.First, define a variable 'riskyear' for the year when one enters the riskset: age=18, then keep those r

38、ecords when the respondent is in the riskset;1史方法基本概念26gen riskyear = birth + 18; keep if t0 >= riskyear;* First, prepare "marker" variables to facilitate the preparation of EHA data: Year - the ending time (time unit = year) for each spellt0- the beginning time (year) for each spell;*

39、Below we define the beginning and ending time for each spell; gen year = t0;replace t0 = year - 1;* In the following 'stset' procedure, we define the following 'marker' variables: 'year' - defines time-of-failure/censoring-variable (the ending time of eachspell)'origin (t

40、ime riskyear) - defines the origin time to be the year when the respondent is 18 years old (the beginning time of lifetime)'failure(party) - defines the 'event variable' 1=event, 0=no event 'id(id)' - defines the 'id' variable'time0(t0) - specifies the beginning of th

41、e spell;stset year, origin(time riskyear) id(id) failure(party) time0(t0);* Now check the data to make sure that the 'stset' procedure works properly. Also we take advantage of 'stset' procedure to get information about the data we just defined;list id party t0 year _t0 _t _d _st in

42、1/50; summarize _st;stdes; stvary; sts list;* Below, we turn to conduct descriptive statistical (nonparametric) analysis;* First, we calculate and plot Kaplan-Meirer survival estimator; sts graph;gr save km.gph, replace; /* save graph for later use */* Second, we plot K-M survival function, by sex;

43、sts graph, by (sex);gr save km_sex.gph, replace;* Now, we plot Nelson-Aalen cumulative hazard estimates; sts graph, by (sex) na;gr save na_sex.gph, replace;* Finally, we plot Smoothed N-A hazard rate; sts graph, hazard by (sex);1史方法基本概念27gr save hazard_sex.gph, replace;* We can perform simple test a

44、bout stratified hahzard rates, using information on survival estimates;sts test sex, logrank;* We can crate strata of theoretical interest to conduct straified test;gen age = year - birth; gen age2 = age*age/100;gen agegrp = 1;replace agegrp = 2 if age >= 30;tab1 agegrp;sts test sex, logrank stra

45、ta(agegrp) detail;* Below we prepare future use;indepedent variables and save the new dataset forgen govt = 0;gen firmst = gen firmcl = gen firmpr = gen firmfo = gen public =0;0;0;0;0;gen firmoth = 0;replace govt = replace firmst replace firmcl replace firmpr replace firmfo replace public1=if wkunit = 1;11111if if if if ifwkunit = 2;wkunit = 4;wkunit = 5 | wkunit = 6; wkunit = 7;wkunit = 3;replace firmoth = 1 if wkun

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論