抽樣及樣本含量估計_20110315_第1頁
抽樣及樣本含量估計_20110315_第2頁
抽樣及樣本含量估計_20110315_第3頁
抽樣及樣本含量估計_20110315_第4頁
抽樣及樣本含量估計_20110315_第5頁
已閱讀5頁,還剩102頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、抽樣及樣本含量估計抽樣及樣本含量估計北京協(xié)和醫(yī)學院基礎學院流行病學系王 麗主要內容主要內容l概述l抽樣l樣本含量估計抽樣抽樣l抽樣是通過抽取總體中的部分單元,收集這些單元的信息,用來對總體進行推斷的一種手段總體抽取樣本推斷總體樣本流行病學研究中涉及到的抽樣流行病學研究中涉及到的抽樣l抽樣通常會在橫斷面研究中討論.l其他研究中也會涉及抽樣的問題. l隊列研究:研究對象的選擇l病例對照研究:病例和對照的選擇,尤其是對照l臨床試驗:將研究對象隨機分配到不同的處理組為什么要抽樣?為什么要抽樣?l為什么不能對每個研究對象都進行調查(抽樣的優(yōu)點)?l節(jié)約費用l時效性強l可以承擔全面調查無法勝任的工作l有助

2、于提高調查數據的質量普查普查 vs 抽樣抽樣l抽樣調查不能代替普查l普查能提供研究對象的總體情況,還可以提供各區(qū)域、各類別的統(tǒng)計信息l普查是構建抽樣框的基礎l抽樣調查作為普查的補充l我國每10年進行一次全國性的人口普查,中間每年進行一次人口變動量的抽樣調查,對當年的人口出生、死亡、遷移等情況進行估計全國第六次人口普查工作全國第六次人口普查工作l普查標準時點:普查年度(2010年的11月1日零日零時l 普查對象:“普查標準時點在中華人民共和國境內的自然人,以及在中華人民共和國境外但未定居的中國公民,不包括在中華人民共和國境內短期停留的境外人員”l調查內容:人口和住戶的基本情況,包括姓名、性別、年

3、齡、民族、國籍、受教育程度、行業(yè)、職業(yè)、遷移流動、社會保障、婚姻、生育、死亡、住房情況等。普查普查 VS 抽樣抽樣l用抽樣調查對全面統(tǒng)計資料進行評估和修正l在普查結束后,采用抽查對隨機抽取的部分單位進行自己復核,計算誤差率,對普查結果進行質量評估和數據修正l利用抽樣調查進行深層次的分析l利用抽樣調查,提前獲得總體目標量的估計抽樣抽樣 l抽樣被廣泛的應用于各個領域l政治方面: 美國總統(tǒng)大選投票(蓋洛普公司)l經濟方面: 消費者對整個國家的經濟形勢以及個人的消費能力等有關消費信心的調查 l由于不太可能對目標人群中的所有的人進行調查,因此在大多數調查中都可能會涉及到抽樣 抽樣在公共衛(wèi)生中的應用抽樣在

4、公共衛(wèi)生中的應用l衛(wèi)生機構想評價全國的衛(wèi)生現狀(如:一些重要的慢性病的患病情況、保險的覆蓋率、醫(yī)療保健的可獲得性等),從而指導衛(wèi)生資源的分配,并評價衛(wèi)生政策的效果。 l在美國,National Center for Health Statistics (NCHS)是主要的衛(wèi)生統(tǒng)計機構 (/nchs/about.htm),先后主持了一系列的調查,如 l全國衛(wèi)生及營養(yǎng)狀況調查 l全國家庭增長的調查l在中國,近幾年來,也先后開展了一系列的全國性健康調查,如:l全國慢性乙型肝炎感染狀態(tài)調查l結核病患病率調查Geographic Distribution and Dem

5、ographic Characteristics of the study population from 160 DSPs in the Seroepidemiological Survey in 2006 aged 1-4 years ( n = 16376 ) aged 5-14 years ( n = 23753 ) aged 15-59 years ( n =41646 )Male:38895Female:42880Sample Size: 81775Sampling Design: Multistage SamplingLab Test: ELISAData source:from

6、 Xiaofeng Liang and Fuqiang Cui of China CDCGlobal Distribution of HBV Infection by HBsAg endemicity HBsAg endemicity 8% - High endemic areas (45%)27% - moderate endemic areas(43%) 2% - Low endemic areas (12%)Data Source: (1) Dai ZC, Qi GM. Seroepidemiological Survey in Chinese population (part one)

7、, 1992-1995. Beijing. Sci Tech Exp 1996:3959. (2) Liang XF et al. Vaccine 2009 27:6550-6557HBV Carriage: 9.75% in 1992HBV Carriage: 7.18% in 2006你所知道的抽樣中可能你所知道的抽樣中可能存在什么問題?存在什么問題?有關抽樣的基本概念有關抽樣的基本概念總體總體l目標總體:所要研究對象的理想的總體,即研究對象的全體。 l抽樣總體:目標總體中選擇的有代表性的、限定具體時間和地域范圍的可以獲得的群體。 目標總體和抽樣總體的差別抽樣框抽樣框l抽樣總體的具體表現是

8、抽樣框,抽樣框應包含所有抽樣單元的名單.l抽樣框中應該有抽樣單元名稱和地理位置的信息,以便研究人員能找到被選中的單元.l好的抽樣框不僅與目標總體保持一致,而且還盡可能的提供與研究的目標量有關的輔助信息。l年齡、性別等l舉例:l居委會住戶名單抽樣的類型抽樣的類型 l概率抽樣l按一定的概率以隨機原則抽取樣本l概率抽樣中抽樣框是關鍵l抽中的概率已知l當用樣本對總體目標進行估計時,要考慮到該樣本被抽中的概率l“概率抽樣”不等于“等概率抽樣”l非概率抽樣(如:方便方便, 判斷樣本,目的抽樣等):不是按照隨機原則,而是根據主觀判斷有目的,有意識的進行。但則不可能從樣本外推到總體或進行統(tǒng)計推斷l(xiāng)首選概率抽樣

9、概率抽樣的類型概率抽樣的類型l單純隨機抽樣(Simple random sampling)l分層抽樣(Sampling with stratification)l整群抽樣(Cluster sampling)l系統(tǒng)抽樣(Systematic sampling)l多階段抽樣(Multistage sampling )單純隨機抽樣單純隨機抽樣單純隨機抽樣單純隨機抽樣l從含有N個單元的總體中抽取n個單元組成樣本,l總體中的每個觀察單位都有同等機會被抽取進入樣本(1/CNn )l最簡單的抽樣方法,是其他抽樣方法的基礎抽樣方法抽樣方法l先將調查總體的全部觀察單位統(tǒng)一編號,再用隨機數字表或抽簽等方法隨機抽取

10、部分觀察單位組成樣本 l舉例:假如你想從ID號為1 2 3 6 7 8 9 10 11 17的10人中隨機抽取三人l抽簽l隨機數字隨機數字法隨機數字法l使用EXCEL中的RAND()10.70444620.56682930.00925360.25185470.29714580.70899690.818349100.792495110.358031170.944461170.94446190.818349100.79249580.70899610.70444620.566829110.35803170.29714560.25185430.009253樣本估計和總體參數樣本估計和總體參數l對于簡單

11、隨機抽樣,可以用樣本均數來估計總體均數24簡單隨機抽樣的特點簡單隨機抽樣的特點l優(yōu)點: (1)比較容易理解和掌握;(2)抽樣框不需要其他輔助信息;l缺點: (1)沒有利用輔助信息;(2)樣本分散,面訪費用較高;(3)有可能抽到較差的樣本;(4)抽選大樣本比較費時簡單隨機抽樣樣本量估計(總體參數簡單隨機抽樣樣本量估計(總體參數為為p )2/ 222(1)n:0 . 7/ 2n15 7 . 3s i n(1)uu文獻估計人群患病率:容許控制誤差但當 0 . 3 或時例:估計的老年癡呆患病率為例:估計的老年癡呆患病率為 P = 2; 定定 0.05 0.05,則,則 = 1.96;定;定 = 0.1

12、P時:時: n= 1.96 X (0.02 X 0.98)1/2 / (0.1 X 0.02)2 = 18824 或采用下述簡化的公式估計:或采用下述簡化的公式估計: n = 400 x (1- p)/p = 400 X (1-0.02)/0.02 = 19600簡單隨機抽樣樣本量估計(總體參數簡單隨機抽樣樣本量估計(總體參數為均數為均數)22/222=%=nxu :總體的方差,根據預試驗估計當用相對容許誤差(與總體均數相差不超過真值的( )表示時,則舉例:抽樣調查時估計總體均數時舉例:抽樣調查時估計總體均數時l為調查某一鎮(zhèn)靜藥的某有效成分的含量,采用單純隨機抽樣的方法。據報道,一個鎮(zhèn)靜藥中某

13、有效成分含量為2.25,標準差為0.85l以=0.05,估計有效成分含量的均值在真值的 0.10范圍內,需要調查多少樣本?l以95%的可信度,估計有效成分含量的均值在真值的10%范圍內,需要多大的樣本?ln1=1.962*0.852/0.102=277.56278lN2=1.962*0.852/(2.25*10%)2=54.3855l簡單隨機抽樣樣本量估計是其他概率抽樣方法樣本量估計的基礎l其他概率抽樣樣本量估計可以用簡單隨機抽樣樣本量乘以設計效應deffl如多階段抽樣deff范圍約在1.33之間分層隨機抽樣分層隨機抽樣分層抽樣的必要性分層抽樣的必要性l簡單隨機抽樣適用條件:調查的總體的N較小

14、l倘若N較大,如總體是全國13億人口,要從中抽取10萬人的樣本,則變得很困難。表現在:l實施的困難l樣本的代表性定義定義l在抽樣前,先將總體N個單元劃分成L個互不重復的子總體,每個子總體稱為層,其大小分別為N1,N2,NL,這L個層合起來就是整個總體。然后,在每個層中分別獨立地進行抽樣。 分層分層 的原則的原則l調查目的:l如某指標在不同地區(qū)、不同民族的分布特征。l層內單元具有相同性質 l層間單元的差異盡可能大 l抽樣組織實施的方便 分層抽樣的抽樣過程分層抽樣的抽樣過程l按總體某一特征按總體某一特征(如年齡、性別或職業(yè)暴露等如年齡、性別或職業(yè)暴露等)將總體將總體N分為若干類分為若干類(組組),

15、即分層。該分類,即分層。該分類(組組)數即層數數即層數l確定每層抽樣比例。確定每層抽樣比例。l若在各層采用相同的抽樣比例若在各層采用相同的抽樣比例(Pi=總樣本人數總樣本人數 / 總體人數總體人數= n / N),即樣本中各層抽取人數占總體中各層人數的比例相同時,即樣本中各層抽取人數占總體中各層人數的比例相同時,稱比例抽樣,適用于各層的率在,稱比例抽樣,適用于各層的率在0.10.9 之間總體人群的抽之間總體人群的抽樣。樣。l相反,各層抽樣比例不同時稱非比例抽樣,適用于各層的率相反,各層抽樣比例不同時稱非比例抽樣,適用于各層的率相差較大時,如在相差較大時,如在0.0010.500或或0.9500

16、.999之間之間分層抽樣的過程(續(xù))分層抽樣的過程(續(xù))l確定每層抽樣人數確定每層抽樣人數 nil比例抽樣:比例抽樣: ni =總體第總體第i層人數層人數X (總樣本數總樣本數 / 總體人數總體人數) = Ni (n / N)l非比例抽樣:非比例抽樣:l在每一層對抽樣單位進行編號,制作每層的抽樣框在每一層對抽樣單位進行編號,制作每層的抽樣框l按單純隨機抽樣方法,根據每層的抽樣人數抽取研究按單純隨機抽樣方法,根據每層的抽樣人數抽取研究對象對象 某研究者計劃在某工廠某研究者計劃在某工廠5000050000名中調查高血壓患名中調查高血壓患病率。該廠不同工種的工人分布于病率。該廠不同工種的工人分布于1

17、111個車間。個車間。比例抽樣實例比例抽樣實例 (1) 總樣本數:總樣本數:n = 1000人;人; (2) 分層:按工種即車間將總體人數分層:按工種即車間將總體人數50000人分人分為為11層;層; (3) 確定每層抽樣比例和抽樣人數:確定每層抽樣比例和抽樣人數: 第一車間抽樣比例:第一車間抽樣比例: P1 = 總樣本人數總樣本人數1000/全廠總人數全廠總人數50000 = 0.02 第一車間抽樣人數:第一車間抽樣人數:n1= 1400 X 0.02 =28 第二車間抽樣比例:第二車間抽樣比例: P2 = 總樣本人數總樣本人數1000/全廠總人數全廠總人數50000 = 0.02 第二車間

18、抽樣人數:第二車間抽樣人數:n2= 7000 X 0.02 =140; 依次確定每車間的抽樣人數。依次確定每車間的抽樣人數。 (4) 按簡單隨機抽樣方法按簡單隨機抽樣方法, 從每一層從每一層(車間車間)內抽內抽出相應樣本數量的樣本,各層樣本數量之和即等出相應樣本數量的樣本,各層樣本數量之和即等于樣本數于樣本數n,共,共1000人。人。 分層抽樣的作用分層抽樣的作用 l抽樣效率高,估計精度高l能同時對總體指標和各層指標進行估計l各層內抽樣方法可不同整群抽樣整群抽樣(Cluster Sampling)定義定義l先將總體分成若干群體,形成一個抽樣框;l從中隨機抽取幾個群體組成樣本;l對抽樣群體中的全

19、部個體進行調查整群抽樣過程整群抽樣過程l將總體中的個體按其某一屬性將總體中的個體按其某一屬性(如行政區(qū)或機構等如行政區(qū)或機構等)分為分為若干個群,若干個群, 按群作為抽樣單位編號制作抽樣框按群作為抽樣單位編號制作抽樣框l用簡單隨機抽樣方法抽出調查樣本用簡單隨機抽樣方法抽出調查樣本l再對每一群內所有個體均進行調查再對每一群內所有個體均進行調查整群抽樣的優(yōu)點整群抽樣的優(yōu)點 整群抽樣的缺點整群抽樣的缺點(1)能大大減低收集數據的費用;(2)當總體單元自然形成群時,容易取得抽樣框,抽樣也更容易;(3)當群內單元差異大,而不同群之間的差異小時,可以提高效率。 (1)若群內個單元有趨同性,效率將會降低;

20、(2)通常無法預先知道總樣本量,因為不知道群內有多少單元; (3)方差估計比簡單隨機抽樣更為復雜 “分層分層”和和“整群整群”之間的區(qū)別之間的區(qū)別l均為分組的因素l在分層抽樣中,所有層都將包含在最終的樣本中。 同時在分層時,我們期望層間差異盡可能的大,層內的差異盡可能的小。l而在整群抽樣中,只有“群”中的一個樣本被包含在最終的樣本中,我們期望不同群之間 差異盡可能的小,而群內單元之間的差異盡可能的大。 在群間差異較小且群內個體變異與總體變異在群間差異較小且群內個體變異與總體變異相近時,整群抽樣的調查結果對總體有很好的代相近時,整群抽樣的調查結果對總體有很好的代表性。表性。 整群抽樣常和分層抽樣

21、結合,稱分層整群抽整群抽樣常和分層抽樣結合,稱分層整群抽樣。樣。整群抽樣的精確性整群抽樣的精確性l相同樣本下,整群抽樣通常精確性要低于簡單隨機抽樣l若想達到相同的精確性,整群抽樣與簡單隨機抽樣的樣本量之比應近似為: 1 + (群內相關系數)*(群的大小 -1) l當群內同質(即群內相關系數大時)或者各個群的樣本量太大時,精確性會更差。因此,“群”的大小對精確度會有很大的影響。 系統(tǒng)抽樣系統(tǒng)抽樣定義定義l是按照某種順序給總體中的每個個體編號,然后隨機抽取一個編號作為第一個調查個體,其他的調查個體按照某種確定的規(guī)則抽取l最簡單同時也最常用的是等間隔抽取,又稱“等距抽樣”l又稱“機械抽樣”系統(tǒng)抽樣系

22、統(tǒng)抽樣l總體的編號l隨機,系統(tǒng)抽樣等同于簡單隨機抽樣l非完全隨機,而是帶有一定的規(guī)律性,則系統(tǒng)抽樣后的樣本代表性差系統(tǒng)抽樣時總體單元的排序系統(tǒng)抽樣時總體單元的排序l按無關標志排列:各單元的排列順序與所研究的內容無關。此種排隊抽樣類似簡單隨機抽樣l如:調查學生的視力,將學生按學號排序l按有關標志排序:各單元的排列順序與所研究的內容有關。此種排隊抽樣為有序系統(tǒng)抽樣,代表性更好,減少抽樣誤差,提高估計的效率l如:調查學生的身高,將全部學生按入校體檢時的身高由高到低排序l處于兩者之間,根據各單元原有的自然位置進行排序。l如:入戶調查根據街道門牌號碼按一定間隔抽樣系統(tǒng)抽樣的優(yōu)點系統(tǒng)抽樣的優(yōu)點l實施方便l

23、能保證樣本有一定程度的代表性l有時系統(tǒng)抽樣不必重新編制抽樣框,尤其是在被調查單元具有自然順序排列時。如:流水線上生產的產品每隔k各抽查一次系統(tǒng)抽樣的缺點系統(tǒng)抽樣的缺點l樣本代表性不好:總體中單元的排列呈現一定的規(guī)律性甚至周期性時l在實際中被認為行之有效的系統(tǒng)抽樣一般不是嚴格的概率抽樣,此時要估算估計量的方差會遇到很大的問題系統(tǒng)抽樣、系統(tǒng)抽樣、整群抽樣和分層抽樣的關系整群抽樣和分層抽樣的關系l系統(tǒng)抽樣的特點:l一旦起始單元確定,整個樣本就確定了l系統(tǒng)抽樣可以看成是一種特殊的整群抽樣,也可以看成是一種特殊的分層抽樣(但不是分層隨機抽樣)四種抽樣方法的比較四種抽樣方法的比較簡單隨機抽樣系統(tǒng)抽樣整群抽

24、樣分層抽樣優(yōu)點簡單直觀,是其他抽樣的基礎;均數(或比率)及標準誤計算簡便簡便易行;易得到按比例分配的樣本便于組織;節(jié)省經費;容易控制調查質量抽樣誤差?。粚Σ煌瑢涌刹捎貌煌闃臃椒?;可對不同層獨立進行分析缺點不適合從例數較多的總體抽樣;樣本分散,難以組織調查如果抽樣間隔與抽樣對象的某些特征分布吻合,容易產生偏差抽樣誤差較大;群間變異越大,抽樣誤差越大需要掌握對抽樣對象的分層特征。抽樣工作量大適用范圍主要用于小樣本的情形適合抽樣對象有某種順序的情形適合抽樣總體很大的情況主要用于控制重要混雜因素的影響多階段抽樣多階段抽樣(multi-stage sampling)問題的提出問題的提出l整群抽樣具有樣

25、本比較集中的特點,因此便于組織實施,回答率也很高。l但由于群內通常具有相似性,尤其是當群比較大時,此時沒有必要對群內所有單元都進行調查,而是對群內進行再抽樣,對部分被抽中的單元進行調查,即實際工作中的多階段抽樣。總體多階段抽樣的定義多階段抽樣的定義 由兩個或更多個連續(xù)的階段抽取樣本的方法。由兩個或更多個連續(xù)的階段抽取樣本的方法。 多階抽樣示意圖:多階抽樣示意圖:第一階樣本最終樣本多階段抽樣多階段抽樣 常用于大規(guī)模的抽樣調查?;驹硎菍⒖偝S糜诖笠?guī)模的抽樣調查?;驹硎菍⒖傮w按行政區(qū)體按行政區(qū)(如省、縣、鄉(xiāng)、村等如省、縣、鄉(xiāng)、村等)或機構或機構(如中央如中央、地方機構等、地方機構等)分級,每

26、級均制作各自的抽樣框,分級,每級均制作各自的抽樣框,然后逐級隨機抽取一定的抽樣單位組成樣本。然后逐級隨機抽取一定的抽樣單位組成樣本。 實例:實例:全國農村腦卒中患病率調查全國農村腦卒中患病率調查抽樣設計抽樣設計l將省作為第一級抽樣單位,假定全部的省均進行調查,因而全部抽出l將每一省的縣作為第二級抽樣單位,從每省隨機抽取一定的縣l依次將鄉(xiāng)、村和村民定為第三、四、五級抽樣單位,逐一抽取相應的樣本l全國調查的樣本為各省抽中的縣、鄉(xiāng)、村中的全部村民l在實際使用多階段抽樣時,各階段的定義可以根據行政管理級別確定,如:街道、居委會、居民戶。l但也可根據組織的管理的方便和實際的可能跳過某些行政機構多階段抽樣

27、抽樣方法與推斷原理多階段抽樣抽樣方法與推斷原理l多階段抽樣每一個階段的抽樣方法可以相同,也可多階段抽樣每一個階段的抽樣方法可以相同,也可以不同以不同l通常與分層抽樣、整群抽樣、系統(tǒng)抽樣結合使用通常與分層抽樣、整群抽樣、系統(tǒng)抽樣結合使用多階段抽樣舉例多階段抽樣舉例l某調查公司接受了一項關于全國城市居民人均奶制某調查公司接受了一項關于全國城市居民人均奶制品消費支出及每天至少喝一杯鮮奶的人數的比例情品消費支出及每天至少喝一杯鮮奶的人數的比例情況的調查。確定抽樣范圍為全國地級以上城市中的況的調查。確定抽樣范圍為全國地級以上城市中的成年居民。成年居民指年滿成年居民。成年居民指年滿18周歲以上的居民。周歲

28、以上的居民。l第一步:確定抽樣方法第一步:確定抽樣方法l多階段抽樣方法進行方案設計。多階段抽樣方法進行方案設計。l調查的最小單元:成年居民調查的最小單元:成年居民l第二步:樣本量的確定第二步:樣本量的確定l按簡單隨機抽樣,在按簡單隨機抽樣,在95%置信度下,絕對誤差為置信度下,絕對誤差為5%,取使方差達,取使方差達到最大的(消費奶制品的居民)比例到最大的(消費奶制品的居民)比例50%,樣本量為:,樣本量為:n0=t2*P*Q/d2= 22*0.5*0.5/0.052=400(人)人)l根據以往的調查經驗,估計應答率根據以往的調查經驗,估計應答率=80%,則調整樣本量為,則調整樣本量為“400/

29、0.8=500(人)(人)l多階段抽樣的效率比簡單隨機抽樣的效率低,設設計效應多階段抽樣的效率比簡單隨機抽樣的效率低,設設計效應deff=3.2,則在全國調查的樣本量為:則在全國調查的樣本量為:5003.2=1600(人)(人)l各階段的樣本量配置為:各階段的樣本量配置為:l初級單元:初級單元:20個城市個城市l(wèi)二級單元:二級單元:80個街道,每個樣本市內抽個街道,每個樣本市內抽4個街道個街道l三級單元:三級單元:160個居委會,每個樣本街道內抽個居委會,每個樣本街道內抽2個居委會個居委會l四級單元:四級單元:1600個居民戶,每個樣本居委會內抽個居民戶,每個樣本居委會內抽10個居個居民戶民戶

30、l在樣本居民戶內,利用隨機表抽在樣本居民戶內,利用隨機表抽1名成年居民名成年居民l第三步:確定抽樣方法第三步:確定抽樣方法l第一階段:在全國城市中按與人口數成比例的放回的不第一階段:在全國城市中按與人口數成比例的放回的不等概率抽樣,即等概率抽樣,即PPS抽樣抽樣l第二階段和第三階段分別按與人口數成比例的第二階段和第三階段分別按與人口數成比例的不等概率不等概率等距抽樣等距抽樣l以第二階段為例:在某個被抽中的樣本城市中,將其所屬的以第二階段為例:在某個被抽中的樣本城市中,將其所屬的街道編號,搜集各街道的人口數,賦予每個街道與其人口相街道編號,搜集各街道的人口數,賦予每個街道與其人口相同的代碼數;根

31、據該市總人口數除以樣本量同的代碼數;根據該市總人口數除以樣本量4,確定抽樣間距;,確定抽樣間距;然后對代碼進行隨機起點的等距抽樣,則被抽中代碼所在的然后對代碼進行隨機起點的等距抽樣,則被抽中代碼所在的街道為樣本街道。街道為樣本街道。不等概率抽樣的提出:不等概率抽樣的提出:PPS抽樣抽樣(sampling with probability proportional to size)l出現總體單元差異大時,將總體單元按規(guī)模(大?。┏霈F總體單元差異大時,將總體單元按規(guī)模(大小)分層,較大單元的層抽樣比高(甚至為分層,較大單元的層抽樣比高(甚至為100%),),而小單元的抽樣比低;而小單元的抽樣比低;

32、l賦予每個單元與其規(guī)模(或輔助變量)成比例的入賦予每個單元與其規(guī)模(或輔助變量)成比例的入樣概率樣概率l推算時對入樣概率較大的單元則賦予其一個較小的推算時對入樣概率較大的單元則賦予其一個較小的權重;反之,入樣概率較小,推算時,賦予其一個權重;反之,入樣概率較小,推算時,賦予其一個較大的權重。較大的權重。PPS抽樣舉例抽樣舉例l不放回按抽樣單位規(guī)模大小成比例的概率抽樣不放回按抽樣單位規(guī)模大小成比例的概率抽樣(PPS)方法簡介)方法簡介(鏈接)(鏈接)l第三步:確定抽樣方法(續(xù))第三步:確定抽樣方法(續(xù))l第四階段:分別在每個樣本居委會中,按等距抽樣抽出第四階段:分別在每個樣本居委會中,按等距抽樣

33、抽出10個居民戶。即根據居委會擁有的居民戶數除以樣本量個居民戶。即根據居委會擁有的居民戶數除以樣本量10得到抽樣間距,然后隨機起點等距抽樣。得到抽樣間距,然后隨機起點等距抽樣。l在每個居民戶中:按二維隨機表抽取在每個居民戶中:按二維隨機表抽取1名成年居民。名成年居民。l第四步:推算牛奶消費量第四步:推算牛奶消費量多階段抽樣小結多階段抽樣小結l對于大規(guī)模的抽樣調查項目,通常采用多階段抽樣。對于大規(guī)模的抽樣調查項目,通常采用多階段抽樣。此方法可以看作是對樣本群內的單元進行再抽樣的此方法可以看作是對樣本群內的單元進行再抽樣的一種方法。一種方法。l和整群抽樣一樣,當各級單元大小相同時,各階的和整群抽樣

34、一樣,當各級單元大小相同時,各階的抽樣采用等概率抽樣的方法。抽樣采用等概率抽樣的方法。l但是實際中,大多數是各級單元大小不同的情形,但是實際中,大多數是各級單元大小不同的情形,此時最簡單的就是構造自加權的樣本。即前幾階采此時最簡單的就是構造自加權的樣本。即前幾階采用用PPS抽樣,最后一階采用等概率抽樣,并且從第抽樣,最后一階采用等概率抽樣,并且從第二階開始,每一階的樣本量都相同。二階開始,每一階的樣本量都相同。多階段抽樣的優(yōu)點多階段抽樣的優(yōu)點l當群具有同質性時,多階抽樣的效率高于整群抽樣l樣本的分布比簡單隨機抽樣集中,調查可以節(jié)約時間和費用l不需要整個總體單元的名錄框,只要群的名錄框和抽中群的

35、單元名單多階段抽樣的缺點多階段抽樣的缺點l效率不如簡單隨機抽樣l調查的組織較整群抽樣復雜l估計值與抽樣方差的計算較為復雜抽樣調查的基本步驟和準備抽樣調查的基本步驟和準備l首先要確定調查的目的和要求首先要確定調查的目的和要求l了解哪些指標了解哪些指標l準備估計哪些參數準備估計哪些參數l參數估計的精度參數估計的精度l目的確定了,被抽樣的總體也就完全確定目的確定了,被抽樣的總體也就完全確定非概率抽樣非概率抽樣l方便抽樣l目的抽樣l滾雪球抽樣l志愿者抽樣方便抽樣方便抽樣l研究者根據現實情況,以自己方便的形式抽取偶然遇到的人作為調查對象,或者僅僅選擇那些離得最近的、最容易找到的人作為調查對象目的抽樣目的

36、抽樣l調查者根據研究的目標和自己主觀的分析,來選擇和確定調查對象的方法。l研究者依據主觀判斷選取可以代表總體的個體作為樣本。樣本的代表性取決于研究者對總體的了解程度和判斷能力。滾雪球抽樣滾雪球抽樣l當我們無法了解總體情況時,可以從總體中的少數成員入手,對他們進行調查,向他們詢問還知道哪些符合條件的人;再去找那些人并詢問他們知道的人。如同滾雪球一樣,我們可以找到越來越多具有相同性質的群體成員。非概率抽樣的優(yōu)缺點非概率抽樣的優(yōu)缺點l缺點:l不能推論總體l優(yōu)點:l有時嚴格的概率抽樣無法實現l可用于只是為了進行探索性研究而不是推論總體l操作方便,省錢省力l注意:非概率抽樣也必須評價代表性試驗設計中樣本

37、含量估計試驗設計中樣本含量估計(一)率的估計與(一)率的估計與假設檢驗的樣本量假設檢驗的樣本量1.估計總體率估計總體率l為調查北京地區(qū)腸易激綜合癥的患病率,某衛(wèi)生部門在北京市居民中按簡單隨機抽樣的方法進行抽樣調查。根據文獻資料,人群患病率為15%。若要求在可信度為95%下,將容許誤差控制在3%,則應抽出多少居民進行調查? l如果人群患病率為45%,則樣本量為多少?1.估計總體率(續(xù))估計總體率(續(xù))2/ 222(1)n:0 .7/ 2n15 7 .3s in(1)uu文 獻 估 計 人 群 患 病 率: 容 許 控 制 誤 差但 當0或(0)則單個總體率假設檢驗時樣本量的估計公式為:l如果為雙

38、側檢驗,即H1:0則將公式中的u改為u/2即可 2200n11uu 1.645*(0.15*(1-0.15)1/2+1.282*(0.1*(1-0.1)1/22 N= - 0.052 = 377.9 378 2.單個總體率的假設檢驗單個總體率的假設檢驗(續(xù))續(xù))l當P0.7時,正態(tài)性較差,此時樣本量計算公式為: 110n2usinsinu3.完全隨機設計的兩個總體率的假設完全隨機設計的兩個總體率的假設檢驗檢驗l例:某單位研究甲、乙兩藥對某病的療效,預試驗得甲藥有效率為60%,乙藥為85%?,F擬進一步作治療試驗,設=0.05, =0.10,問每組最少需要觀察多少病例?l設兩總體率為1、2,兩樣本

39、率為p1,p2。當假設檢驗為單側時,用pearson 卡方檢驗進行檢驗的樣本量為l 221211221212:/22111nnwherepppppppuuppppuu和分別為單側標準正態(tài)離差當假設檢驗為雙側時,用當假設檢驗為雙側時,用pearson pearson 卡卡方檢驗進行檢驗的樣本量為方檢驗進行檢驗的樣本量為2212/211221212:/22 111nnwherepppppppuup pp pP1=.60, p2=0.85, U0.05/2=1.96, U0.10=1.282 1.96*(2*0.725*0.275)0.5+1.282*(0.60*0.40+0.85*0.15)0.5

40、2N1=n2=- (0.60-0.85)2 =64.96 65l而當兩個率都很小的時候,則樣本量為:21121n2+upsinsinup()4.完全隨機設計的多個總體率的假設完全隨機設計的多個總體率的假設檢驗檢驗 l某單位擬觀察3種療法治療消化性潰瘍的效果,預試驗結果為:甲法有效率為40%,乙法為50%,丙法為65%,設=0.05, =0.10,試估計所需樣本量。 2minmaxminmaxminmax2n11maxmin:=k1=0.5-/ 2=0.5+/ 222sinsinwhereppppppppddd為自由度時的界值(查表:值:多個樣本率比較時樣本量的計算)k:組數和為所有總體率估計值(樣本率)中的最大率和最效率,通過預試驗獲得也可以估計最大率和最小率之差,然后計算和pppPmax=0.65, pmin=0.40, df=3-1=2, =0.05, =0.10查附表值(多個樣本率比較時樣本量估計用)0.05,0.10(2)=12.65N=2*12.65/(2sin-1(0.65)0.5 2sin-1(0.40)0.5)2 =98.8每組需要99例,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論