抽樣調(diào)查:不等概率抽樣_第1頁
抽樣調(diào)查:不等概率抽樣_第2頁
抽樣調(diào)查:不等概率抽樣_第3頁
抽樣調(diào)查:不等概率抽樣_第4頁
抽樣調(diào)查:不等概率抽樣_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、簡單隨機抽樣的特點簡單隨機抽樣的特點:總體中每個個體被抽中入樣的概率都相同。對總體中每個個體被抽中入樣的概率都相同。對于各單元所處地位幾乎于各單元所處地位幾乎 “ “平等平等” ” 的總體,這種抽樣原則既公正又方便的總體,這種抽樣原則既公正又方便。不等概率抽樣不等概率抽樣:但在許多社會經(jīng)濟活動中并非所有單元地位相同。但在許多社會經(jīng)濟活動中并非所有單元地位相同。使得使得“大大”單元入樣概率大,單元入樣概率大,“小小”單元入樣概率小,這里的單元入樣概率小,這里的“大大”、“小小”與我們所關心的調(diào)查指標有著密切的關系。與我們所關心的調(diào)查指標有著密切的關系。第三章第三章 不等概抽樣不等概抽樣 例如,要

2、了解上海地區(qū)鋼鐵企業(yè)的景氣狀況,總體有上鋼一廠、三例如,要了解上海地區(qū)鋼鐵企業(yè)的景氣狀況,總體有上鋼一廠、三廠、五廠廠、五廠等等,再加上寶鋼。由于寶鋼規(guī)模極大,它是否景氣對整等等,再加上寶鋼。由于寶鋼規(guī)模極大,它是否景氣對整個上海地區(qū)鋼鐵工業(yè)起著至關重要的作用。而在抽樣中將它與其它規(guī)模個上海地區(qū)鋼鐵工業(yè)起著至關重要的作用。而在抽樣中將它與其它規(guī)模較小的單位處于同等地位就會既不公正又使抽樣推斷結果有較大可能發(fā)較小的單位處于同等地位就會既不公正又使抽樣推斷結果有較大可能發(fā)生大的偏差。生大的偏差。3.1 PPS 3.1 PPS 抽抽 樣樣 PPSPPS抽樣抽樣:抽取概率正比于規(guī)模測度。:抽取概率正比

3、于規(guī)模測度。Sampling with Probability Proportional to Size.M.iii0MY于于單單元元被被抽抽取取的的概概率率正正比比在在抽抽取取樣樣本本單單元元時時,各各規(guī)規(guī)模模測測度度總總體體單單元元 。中中的的單單元元再再作作下下次次抽抽取取一一次次抽抽取取后后,放放回回被被抽抽,正正比比于于被被抽抽中中的的概概率率單單元元取取,第第概概率率抽抽樣樣方方案案。每每次次抽抽抽抽樣樣是是常常見見的的一一種種不不等等有有放放回回M M p i PPS1iNjjiiiiiMMMpY 不等概率不等概率 抽樣抽樣有放回不等概率抽樣有放回不等概率抽樣 (PPS)ps 無

4、放回不等概率抽樣無放回不等概率抽樣 ( )PS 一、實現(xiàn)方法一、實現(xiàn)方法(1)累積和法)累積和法 或或 代碼法代碼法 它適合于它適合于 N N 不太大的情形。假定所有的不太大的情形。假定所有的 為整數(shù),倘為整數(shù),倘若在實際中存在若在實際中存在 不是整數(shù)的話,則可以乘以一個倍數(shù)使其不是整數(shù)的話,則可以乘以一個倍數(shù)使其為整數(shù)。見下表。為整數(shù)。見下表。iMiM單元單元i單元大小單元大小iM代碼數(shù)代碼數(shù)12N 12NMMM 11101111,2,NNNiiiNiiiMMMMM 11 , 2 , M11121,2,MMMM 表表3 31 1 ppspps 抽樣時各單元的代碼數(shù)抽樣時各單元的代碼數(shù)每次抽樣

5、前,先在整數(shù)每次抽樣前,先在整數(shù) 里面隨機等可能的選里面隨機等可能的選取一個整數(shù),設為取一個整數(shù),設為m ,m ,若代碼若代碼 m m 屬于第屬于第 j j個單元擁有的代碼個單元擁有的代碼數(shù),則第數(shù),則第 j j個單元入樣。整個過程重復個單元入樣。整個過程重復 n n次,得到次,得到 n n個單元個單元入樣(當然存在重復的可能性)構成入樣(當然存在重復的可能性)構成 ppspps 樣本。樣本。01, 2 , M例例3.13.1 設某總體共有設某總體共有N=8N=8個單元,相應個單元,相應 及代碼如表所示及代碼如表所示iM1 12 23 34 45 56 67 78 8iiM2/52/51/21

6、/22/32/34/34/38/58/53/53/52/32/3 1 130iM 12121515202040404848181820203030累計累計1212272747478787135135153153173173203203代碼代碼1 1121213132727282847474848878788881351351361361531531541541731731741742032030203M 假設第假設第 個單元在個單元在 n n次抽樣中被抽中次抽樣中被抽中 次,則次,則是一個隨機向量,其聯(lián)合分布為:是一個隨機向量,其聯(lián)合分布為:iit12( , ,)Nt tt這是我們熟悉的這是我

7、們熟悉的多項分布多項分布,多項抽樣多項抽樣其名正出于此。其名正出于此。121212!NtttNNnZ ZZttt1Niitn ( (3.1)3.1) 多項分布多項分布( (3.1)3.1)具有如下性質(zhì):具有如下性質(zhì):( )( )(1)1,2,( ,)iiiiiijijE tnZVar tnZZiNCov t tnZ Zij 倘若單元有一個數(shù)值度量其大小,諸如職工人數(shù)、工廠產(chǎn)值倘若單元有一個數(shù)值度量其大小,諸如職工人數(shù)、工廠產(chǎn)值商店銷售額等,或者感興趣的調(diào)查指標在上一次普查時的數(shù)商店銷售額等,或者感興趣的調(diào)查指標在上一次普查時的數(shù)據(jù)也可以作為其單元大小的一種度量。記據(jù)也可以作為其單元大小的一種度

8、量。記 為第為第 個單元的個單元的“大小大小”,并記,并記iMi01NMiiM 若取若取 n=3n=3,在在1 1203203中隨機有放回地產(chǎn)生中隨機有放回地產(chǎn)生3 3個隨機整數(shù),不個隨機整數(shù),不妨設為妨設為4545、8989、101101,則第,則第 3 3 個單元入樣一次,第個單元入樣一次,第 5 5 個單個單元入樣元入樣 2 2 次。次。(2 2)最大規(guī)模法)最大規(guī)模法 或或 LahiriLahiri( (拉希里拉希里) )方法方法 當當 N N 相當大時,累計的相當大時,累計的 將很大,給代碼法的實施帶將很大,給代碼法的實施帶來很多不方便。來很多不方便。LahiriLahiri提出下列

9、方法:令提出下列方法:令每次抽取每次抽取 1 1N N 中一個隨機整數(shù)中一個隨機整數(shù) 及及 1 1 內(nèi)一個隨機整數(shù)內(nèi)一個隨機整數(shù) ,如果,如果 ,則第,則第 個單元入樣;若個單元入樣;若 ,則按前面,則按前面步驟重抽步驟重抽 ,顯然,第,顯然,第 個單元的入樣與否受到個單元的入樣與否受到 的影的影響,只有響,只有 時它才入樣,因此第時它才入樣,因此第 個單元入樣的概率與個單元入樣的概率與 的大小成正比,此時的大小成正比,此時*1maxiiNMM iiii( ,)i m*MmiMm iMm iMm iM0iiZMM 0Mmn定理定理3.1.1 在有放回在有放回PPS抽樣下,抽樣下,二、估二、估

10、值值 法法PPS抽樣法的估值法的理論依據(jù)抽樣法的估值法的理論依據(jù) niiipy1PPSn1Y.i YY N1i的無偏估計的無偏估計是總體總數(shù)是總體總數(shù) .)p(ii單元對應的抽取概率單元對應的抽取概率總體中第總體中第時的抽取概率,而不是時的抽取概率,而不是個樣本單元個樣本單元為第為第iyi估計的均方偏差為:估計的均方偏差為:.)Ypy(p)niiii21PPSn1YV( n證明證明 考慮隨機變量考慮隨機變量Z, P ,ppYZiii 212111n12n111E111E1E)YpY(pnp)z(pY(n)zvar(n)zvar(n)zvar()Y(V,Y)z(n)Y(E,YppY)z(Niii

11、iiNiiiiiPPSiiPPSiNiiii的的獨獨立立同同分分布布樣樣本本,故故是是隨隨機機變變量量則則ZyiipZ n定理定理3.1.2 在有放回在有放回PPS抽樣下,抽樣下, Yn)py()n(n)Ypy()n(n)Y(vPPSniiiPPSniiiPPS2212111 11).Yv(N1)Yv(;YYN1YYPPS2PPSPPSPPS)(;和和為為其均方誤差的估計分別其均方誤差的估計分別估計總體平均值估計總體平均值用用估計總體總數(shù)估計總體總數(shù)可用可用注:注:果園序號果園序號12345678規(guī)模測度規(guī)模測度X503065801404420100例例 一村莊有一村莊有8個果園,分別由果樹個

12、果園,分別由果樹50, 30, 65, 80, 140, 44, 20, 100棵,要調(diào)查該村莊水果產(chǎn)量,以正比于果樹棵樹的概率取棵,要調(diào)查該村莊水果產(chǎn)量,以正比于果樹棵樹的概率取3個果園作樣本個果園作樣本. 如果實地調(diào)查得第如果實地調(diào)查得第5、第、第8、第、第3號三個果園的產(chǎn)量分別為號三個果園的產(chǎn)量分別為15,12,7,求該村八個果園的總產(chǎn)量估計,求該村八個果園的總產(chǎn)量估計.解:解:. 59.04 )52965(7)529100(12)529140(1531 n1Y1PPS niiipy這一估計的均方偏差的估計為這一估計的均方偏差的估計為 9341121.)Ypy()n(n)Y(vPPSni

13、iiPPS2 2、Hansen-Hurwitz Hansen-Hurwitz (漢森(漢森赫維茨)估計量赫維茨)估計量 若若 是按是按 為入樣概率的多項抽樣而得的樣為入樣概率的多項抽樣而得的樣本數(shù)據(jù),它們相應的本數(shù)據(jù),它們相應的 值自然記為值自然記為 ,則對總,則對總體總和,體總和, Hansen-Hurwitz Hansen-Hurwitz 給出了如下的估計量:給出了如下的估計量:12,nyyy12,nz zziZiZ11niH Hiiyynz 且且 ,即,即 是是總體總和總體總和 的無偏估計。的無偏估計。()HHE yY HHy Y 211()()NiHHiiiYVar yZYnZ ()H

14、HVar y 的無偏估計為的無偏估計為211()()(1)niHHHHiiyv yyn nz 有放回不等概率抽樣有放回不等概率抽樣:從實施上還是從估計計算以及精度估計都顯得從實施上還是從估計計算以及精度估計都顯得十分方便。但一個單元被抽中兩次以上總會使樣本的代表性打折扣,從十分方便。但一個單元被抽中兩次以上總會使樣本的代表性打折扣,從而引起抽樣誤差的增加。而引起抽樣誤差的增加。實際調(diào)查工作者一般傾向于使用實際調(diào)查工作者一般傾向于使用不放回形式不放回形式。問題問題:最簡單的最簡單的不放回不等概率抽樣不放回不等概率抽樣方式自然會想到逐一抽樣這在第方式自然會想到逐一抽樣這在第一次抽樣時不會發(fā)生問題,

15、但在抽第二個樣本時面臨的情況與有放回時一次抽樣時不會發(fā)生問題,但在抽第二個樣本時面臨的情況與有放回時大不相同,余下的大不相同,余下的 ( ( N-1 ) N-1 ) 個單元以什么樣的概率參與第二次抽樣就個單元以什么樣的概率參與第二次抽樣就是個問題;再在抽第三個樣本時又面臨新問題。是個問題;再在抽第三個樣本時又面臨新問題。一是抽樣實施的復雜;一是抽樣實施的復雜;二是估計量及其方差計算的復雜。二是估計量及其方差計算的復雜。在本節(jié)討論在本節(jié)討論: :(1)(1) n n 固定,尤其是固定,尤其是n=2n=2時的情形。時的情形。(2)(2)總體中每個單元的入樣概率嚴格地與其總體中每個單元的入樣概率嚴格

16、地與其“大小大小”成比例,即成比例,即 抽抽樣。樣。ps 3.2 3.2 不等概不等概 抽樣抽樣 PS 幾種嚴格的不放回幾種嚴格的不放回 抽樣方法抽樣方法ps (1)Brewer(布魯爾)抽樣方法(布魯爾)抽樣方法(1963)個樣本單元。個樣本單元。抽取第抽取第第二步:以概率第二步:以概率放回;放回;個單元入樣,取出后不個單元入樣,取出后不設第設第單元,單元,的概率抽取第一個樣本的概率抽取第一個樣本第一步:以正比于第一步:以正比于且記且記其中其中令令2-p1pippp21p1ppXpjN1iiii1)ji ()(;X,XXiiiiNiiii 前面已經(jīng)指出,所謂前面已經(jīng)指出,所謂“嚴格不放回嚴格

17、不放回 ”是指樣本容量是指樣本容量n 固定,嚴格不放回、固定,嚴格不放回、 的抽樣。僅介紹的抽樣。僅介紹n=2的情形。的情形。ps inpi 1. 對這種抽樣,總體中個體單元對這種抽樣,總體中個體單元i 的入樣概率為的入樣概率為2. 設計好第一次抽取的概率,第二次抽取的概率與設計好第一次抽取的概率,第二次抽取的概率與 成成正比,使總的入樣概率正比于正比,使總的入樣概率正比于 .)p)(p()pp(Dpp,pjijijiijii2121122 ipiX特點特點:(2)Durbin(德賓)方法(德賓)方法(1967).)(2Dp211p211pp2pippjiiiiii 個個樣樣本本單單元元。抽抽

18、取取第第第第二二步步:以以概概率率放放回回;個個單單元元入入樣樣,取取出出后后不不設設第第單單元元,的的概概率率抽抽取取第第一一個個樣樣本本第第一一步步:以以1. 對這種抽樣,總體中個體單元對這種抽樣,總體中個體單元i 的入樣概率為的入樣概率為.)p)(p()pp(Dpp,pjijijiijii2121122 2. 第一次抽取的概率與第一次抽取的概率與 成正比,第二次抽取的概率使成正比,第二次抽取的概率使總的入樣概率正比于總的入樣概率正比于 .ipiX特點特點:Durbin方法中的方法中的 與與Brewer方法中的方法中的 完全一樣完全一樣這表明兩種不等概率抽樣方法其實是等價的。這表明兩種不等

19、概率抽樣方法其實是等價的。,iij ,iij (3)Sen-Midzuno抽樣方法抽樣方法.個個單單元元的的樣樣本本本本單單元元,組組成成個個樣樣無無放放回回抽抽取取個個單單元元中中,以以簡簡單單隨隨機機第第二二步步:從從剩剩下下的的元元,取取出出后后不不放放回回;概概率率抽抽取取第第一一個個樣樣本本單單第第一一步步:以以n1n1-Npi .pNf),N)pp(N(Nn,NnpNnijii近似正比于近似正比于很小時,很小時,當抽樣比當抽樣比分別為分別為和同時入樣概率和同時入樣概率對應的入樣概率對應的入樣概率iijiijin22-n22-n11 111-N (4) HorvitzThompson

20、(霍維茨霍維茨湯普森湯普森)HT估計量估計量對于不放回不等概率抽樣對于不放回不等概率抽樣, 常用常用HT估計。估計??傮w總數(shù)總體總數(shù)Y的無偏估計量為:的無偏估計量為: niiiHTyY1 該估計量的均方偏差為:該估計量的均方偏差為:.YY)(Y)()Y(VjiNiNijjijiijNiiiiHT 11j121 HT估計的均方偏差的兩個無偏估計量為估計的均方偏差的兩個無偏估計量為.)yy()()Y(v,yy)(y)()Y(vjjiiNinijijijjiHTjiNinijijjijiijiniiiHT2121212121 注注:兩估計量均有可能取負值,通過模擬比較,兩估計量均有可能取負值,通過模擬比較,v2較穩(wěn)定且較穩(wěn)定且 較少取負值。較少取負值。3.3 3.3 RaoRao-Hartley-Cochran-Hartley-Coc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論