抽樣技術7不等概率抽樣_第1頁
抽樣技術7不等概率抽樣_第2頁
抽樣技術7不等概率抽樣_第3頁
抽樣技術7不等概率抽樣_第4頁
抽樣技術7不等概率抽樣_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 第七章第七章 不等概抽樣不等概抽樣放回不等概率抽樣放回不等概率抽樣不放回不等概率抽樣不放回不等概率抽樣利用軟件進行抽樣和計算利用軟件進行抽樣和計算案例分析案例分析第一節(jié) 不等概率抽樣概述一、不等概率抽樣的必要性一、不等概率抽樣的必要性 1、在簡單隨機抽樣中,總體(或?qū)?中的每個單元入樣的概率都相等。等概率抽樣的特點是總體中的每個單元在該總體中的地位(或重要性)相同,在抽樣時對每個單元采取的是“不偏不倚”的態(tài)度 。等概率抽樣不僅實施簡單,而且相應的數(shù)據(jù)處理公式也簡單。但是在許多實際問題中,我們還需要使用不等概率抽樣(sampling with unequal probabilities)。2、

2、抽樣單元在總體中所占的地位不一致:例如:要反映某小麥品種的優(yōu)良情況,以村作為抽樣單位,但各村的種植面積不同,一些種植面積大的村莊在抽樣中是否被抽中對推斷總體的結果有很大影響 ,所以讓“大單元”被抽到的概率大,“小單元”被抽到的概率小,這樣能夠大大提高樣本的代表性,減少抽樣誤差。 不等概率抽樣概述 不等概率抽樣的特點 2、不等概率抽樣的主要優(yōu)點優(yōu)點是由于使用了輔助信息,提高了抽樣策略的統(tǒng)計效率, 能顯著地減少抽樣誤差。1、凡需使用不等概率抽樣的場合,必須提供總體單元的某種輔助信息。例如:例如:每個單元的“大小”度量Mi。注意:注意:比估計和回歸估計是估計方法用到了輔助信息,本章是抽樣方法用到輔助

3、信息.不等概率抽樣的特點3 3、抽樣框的創(chuàng)建比簡單隨機抽樣和系統(tǒng)抽樣成本、抽樣框的創(chuàng)建比簡單隨機抽樣和系統(tǒng)抽樣成本高,更復雜,因為需要存儲總體中每一個單元高,更復雜,因為需要存儲總體中每一個單元的度量大小的度量大??;4 4、并非在任何情況下都能使用,因為并不是每一、并非在任何情況下都能使用,因為并不是每一個總體都有穩(wěn)定且與主要調(diào)查變量相關的有關個總體都有穩(wěn)定且與主要調(diào)查變量相關的有關大小或規(guī)模的度量大小或規(guī)模的度量;5 5、抽樣及估計(特別對不放回抽樣)相當復雜、抽樣及估計(特別對不放回抽樣)相當復雜; 6 6、 當單元大小度量不準確或不穩(wěn)定時不適用當單元大小度量不準確或不穩(wěn)定時不適用。6不等

4、概率抽樣的分類放回不等概抽樣放回不等概抽樣:按照總體單元的規(guī)模大小來確定在每次抽中的概率。抽取后放回總體,再進行下一次抽樣,每次抽樣都是獨立的。這種抽樣稱為放回不等概抽樣(sampling with p probabilities p proportional to s sizes,簡稱PPS抽樣) 不放回的不等概抽樣不放回的不等概抽樣:每次在總體中對每個單元按入樣概率進行抽樣,抽出的樣本不再放回總體,因此,在抽取了第一個單元后,余下的單元再以什么概率被抽取就較復雜。 這種抽樣不是獨立的,無論是抽樣方法還是方差估計,都要比放回抽樣繁復得多。不放回抽樣通常稱為PS抽樣。抽樣。放回不等概抽樣 PP

5、S PPS抽樣:有放回的不等概抽樣抽樣:有放回的不等概抽樣01100,11NiiNiiiiiNMiiNinMMMZMnZ抽設總體包含 個單元,是第 個單元的大小或規(guī)模的度量, , ,總體的總規(guī)模度量為:則第 個單元的抽選概率為:即,一次抽完后再,進行下一次抽取。獨立地進行這樣的抽樣 次樣概率正比于規(guī)模度量放回有可能重復,只調(diào)查一次,但計算時按,共抽到 個重復數(shù)單元(計算)。0N1N1jj1N1jj1N1jjN2111211iMMM2M1MMNMM2M1MM2M21M1Mi ,代代碼碼單單元元大大小小單單元元在PPS抽樣中,賦予每個單元與Mi相等的代碼數(shù),將代碼數(shù)累加得到M0,每次抽樣都等概等概

6、產(chǎn)生一個1,M0之間的隨機數(shù),設為m,代碼m所對應的單元被抽中。放回不等概率抽樣實施方法放回不等概率抽樣實施方法1.代碼法代碼法累計累計代碼代碼10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.11173872873873.8738 例例5.1 設某個總體有設某個總體有10個單元,相應的單元大小及其代碼個單元,相應的單元大小及其代碼數(shù)如下表,在其中產(chǎn)生一個數(shù)如下表,在其中產(chǎn)生一個n=

7、3的樣本。的樣本。 iMi假設在假設在1,7381,738 中中等概等概產(chǎn)生第一個隨機數(shù)為產(chǎn)生第一個隨機數(shù)為354354,再在,再在1,7381,738中產(chǎn)生第二中產(chǎn)生第二個隨機數(shù)為個隨機數(shù)為553553,最后在,最后在1,7381,738中產(chǎn)生第三個隨機數(shù)為中產(chǎn)生第三個隨機數(shù)為493493,則它們所,則它們所對應的第對應的第5 5,7 7,6 6號單元被抽中。號單元被抽中。 Mi*10例:假設有例:假設有10個鄉(xiāng),每個鄉(xiāng)的村莊數(shù)不同,按個鄉(xiāng),每個鄉(xiāng)的村莊數(shù)不同,按pps抽抽3個鄉(xiāng)個鄉(xiāng)鄉(xiāng)村莊數(shù)Mi累計代碼155152283363332659345941473607351083748363812

8、1841217712812212885017812917892180179180108188181188結合一下整群抽樣、結合一下整群抽樣、多階段抽樣多階段抽樣2.2.拉希里法拉希里法( (二次抽取法二次抽取法) )(統(tǒng)計學家(統(tǒng)計學家LahiriLahiri最先提出):最先提出):1max 11M ,MM1M M.Mii NaaiiiiiMNMapN M Mi令每次從 ,中簡單隨機地抽取一隨機數(shù)a,同時再獨立從 ,中抽取一隨機數(shù)b。若b則第 個單元入樣,若b則重抽。第i個單元被抽中的概率:z =pa=i,b=pa=ib=顯然地,z簡單隨機設設 M1, M2,MN為單元的規(guī)模為單元的規(guī)模放回不

9、等概率抽樣實施方法放回不等概率抽樣實施方法拉希里法抽樣舉例:拉希里法抽樣舉例:例例5.1中,中,M=150,N=10.在在1,10,1,150 中分別產(chǎn)中分別產(chǎn)生(生( i,m)如下)如下:第一次第一次 (3,121) , M3=15121, 舍棄,重抽舍棄,重抽 ;第二次(第二次(8,50),),M8=3677, 第第7號單元入樣;號單元入樣;第四次(第四次(5,127),),M5=7877, 第第4號單元入樣;號單元入樣;第六次第六次(9,60),M9=6060, 第第9號單元入樣;號單元入樣;因此第因此第4,7,9號單元被抽中。號單元被抽中。三、三、Hansen-HurwitzHanse

10、n-Hurwitz(漢森漢森- -郝維茨郝維茨)估計量及其性質(zhì):)估計量及其性質(zhì):112121,1(1) ()1(2) ()()1(3) ()()()(1)nniHHiiHHNiHHiiiniHHHHHHiizzyYnzE YYYV YZYnZyYYV Yn nvz樣本單元被抽中的概率 , ,則對總體總量Y的估計是是的無偏估計。 因為是放回抽樣,所以是獨立樣本,數(shù)理統(tǒng)計的結因為是放回抽樣,所以是獨立樣本,數(shù)理統(tǒng)計的結論可以在這里應用。論可以在這里應用。放回不等概率抽樣對總體特征的估計放回不等概率抽樣對總體特征的估計對上述結論加以說明:對上述結論加以說明: 獨立同分布樣本y1y2yn抽中概率z1

11、z2zn新變量 ty1/ z1y2 /z2yn/zn22111222111111v()=v(1V T()(1)1()11niniiHHinitHHiHHHHnnitiHHiiiiitytYnnzV tV YYtnnnysttysYnzYnnz樣本均值 ()即 ()的無偏估計量為:)()()漢森漢森-赫維茨估計量估計給出總體總量的估計赫維茨估計量估計給出總體總量的估計, 如果對總體均值估計可按下公式:如果對總體均值估計可按下公式:0100221011()()(1)nHHiHHiiniHHHHiiMyYYMM nzyv YYM n nz假設是總體規(guī)模大小的度量例:例:某縣農(nóng)業(yè)局要調(diào)查全縣養(yǎng)豬專業(yè)戶

12、今年生豬的出欄頭某縣農(nóng)業(yè)局要調(diào)查全縣養(yǎng)豬專業(yè)戶今年生豬的出欄頭數(shù),現(xiàn)有全縣數(shù),現(xiàn)有全縣365365個養(yǎng)豬專業(yè)戶個養(yǎng)豬專業(yè)戶去年的生豬存欄數(shù)去年的生豬存欄數(shù),各專業(yè),各專業(yè)戶的規(guī)模相差較大,決定以放回方式按與各養(yǎng)豬專業(yè)戶上戶的規(guī)模相差較大,決定以放回方式按與各養(yǎng)豬專業(yè)戶上年末生豬存欄頭數(shù)成比例的年末生豬存欄頭數(shù)成比例的PPS抽樣 從中抽取從中抽取3030戶進行調(diào)戶進行調(diào)查,結果如下,已知全縣養(yǎng)豬專業(yè)戶上年末生豬存欄頭數(shù)查,結果如下,已知全縣養(yǎng)豬專業(yè)戶上年末生豬存欄頭數(shù)為為95429542頭,頭,試估計該縣養(yǎng)豬專業(yè)戶生豬今年出欄總頭數(shù)和試估計該縣養(yǎng)豬專業(yè)戶生豬今年出欄總頭數(shù)和抽樣標準誤。抽樣標準誤

13、。(摘自:(摘自:“應用抽樣技術應用抽樣技術”李金昌)李金昌)imiyiimiyiimiyi11575114025821191242 2232313413412321862226160393713176923372154291521426156242110458451511492574963118516362212643336724133172514527189682917318533283017791374191938382882881019872042304其中第其中第2、19號被抽中兩次號被抽中兩次解:根據(jù)題中所給資料,解:根據(jù)題中所給資料,n=30,M0=9542,01119542 7

14、5134177(2.)56163()30152330nniiHHiiyMyYnznm 頭2220112222M1()() =()(1)(1)954275561631345616317756163()()2.() 30 291595422395423095422806070()1675nniiHHHHHHiiiiHHyyYYYn nzvvn nmY(頭)利用漢森利用漢森-郝維茨估計量,則有:郝維茨估計量,則有:例例5.25.2:某部門要了解所屬8500家生產(chǎn)企業(yè)當月完成的利潤,該部門手頭已有一份去年各企業(yè)完成產(chǎn)量的報告,將其匯總得到所屬企業(yè)去年完成的產(chǎn)量為3676萬噸。考慮到時間緊,準備采用抽樣

15、調(diào)查來推算當月完成的利潤。根據(jù)經(jīng)驗,企業(yè)的產(chǎn)量和利潤相關性比較強,且企業(yè)的特點是規(guī)模和管理水平差異比較大,通常大企業(yè)的管理水平較高些,因此采用與去年產(chǎn)量成比例的PPS抽樣,從所屬企業(yè)中抽出一個樣本量為30的樣本。 iimiyiimiyiimiy1*38.2310926105.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301315.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600245.00311710.80290

16、1615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640275.20510niiiHHmynMY102 . 651070.13102423.381092623.381092630367622121211()()=45%=20%SSnnSSrttrttHHHHHHHHHHHHYY,YYYY773861.0595%t=1.96()1741181.9645%757087srtHHHHHH在置信度為時,對應的,YY 的相對誤差為:Y相對誤差達到相對誤差達到20時所需樣本量:時所需樣本量:220.45301520.2n2220

17、11M1()() =()(1)(1)=30317005145.8(1741)8=1nniiHHHHHHiiiiHHyyv YYYn nzn nmv Y解:解:有放回不等概整群抽樣有放回不等概整群抽樣 群規(guī)模不等的整群抽樣中,可采用群規(guī)模不等的整群抽樣中,可采用等概和不等概等概和不等概抽樣;抽樣;如果群規(guī)模如果群規(guī)模差異不大差異不大,可采用,可采用等概等概抽樣;如果群規(guī)模差異抽樣;如果群規(guī)模差異較大較大,各個群對總體的影響不同,此時采用,各個群對總體的影響不同,此時采用不等概不等概抽樣。抽樣。把群規(guī)模作為輔助信息,能提高估計精度,而且方差估計把群規(guī)模作為輔助信息,能提高估計精度,而且方差估計形式

18、簡單。但在抽樣時要掌握輔助信息,比簡單隨機復雜。形式簡單。但在抽樣時要掌握輔助信息,比簡單隨機復雜。 假設群的抽取是按與假設群的抽取是按與 MMi i成比例的成比例的ppspps抽樣,每次按抽樣,每次按 Z Zi i=M=Mi i/M/M0 0(i=1,2i=1,2,NN)的概率抽取第)的概率抽取第i i個群。個群。由漢森由漢森- -赫維茨估計量,赫維茨估計量, ppspps整群抽樣總體總值估計量為整群抽樣總體總值估計量為01212011()(1 )(),niiniiYvYyMyYnZynnZyM估計量方差的估計為:v ( Y ) =Yv () = 例例 某企業(yè)欲估計上季度每位職工的平均病假天

19、數(shù)。該企業(yè)共8個分廠,現(xiàn)用不等概整群抽樣擬抽取3個分廠,并以置信度95%計算其置信區(qū)間。分廠編號 職工人數(shù) Mi 累積區(qū)間123456781200450210086028401910390320011200120116501651375037514610461174507451936093619750975112950有放回不等概整群抽樣有放回不等概整群抽樣解:n3,采用PPS抽樣,隨機抽取的3個數(shù)為02011,07972,10281。調(diào)查結果如下:01232110100243204160579011()(1)11 43205790()2.023 210032( )00( )0.0356nni

20、iiiniiiyyyyyYnZn nZMyYyyMM nMnv yv YM,v(Y)=Y=有放回不等概整群抽樣有放回不等概整群抽樣注:注:1、對于群規(guī)模不等的整群抽樣,采用不等概對于群規(guī)模不等的整群抽樣,采用不等概PPS抽抽樣,可以得到總體目標量的無偏估計,樣,可以得到總體目標量的無偏估計, 2、估計量和估計量的方差都有比較簡明的形式,估估計量和估計量的方差都有比較簡明的形式,估計的效率也比較高,是值得優(yōu)先考慮采用的方法,計的效率也比較高,是值得優(yōu)先考慮采用的方法, 3、使用條件:在抽取樣本前,要掌握各群規(guī)模的信使用條件:在抽取樣本前,要掌握各群規(guī)模的信息。息。多階段有放回不等概抽樣多階段有放

21、回不等概抽樣 當初級單元規(guī)模不等時,常采用不等概抽樣。對初級單當初級單元規(guī)模不等時,常采用不等概抽樣。對初級單元進行元進行PPS抽樣時,事先規(guī)定每個初級單元被抽中的概率抽樣時,事先規(guī)定每個初級單元被抽中的概率 Z Zi i=M=Mi i/M/M0 0 (i=1N),(i=1N),可利用代碼法,可利用代碼法,對抽中的對抽中的初級初級單元再單元再抽抽取取m mi i個二級單元;個二級單元;如果對第二階段實行簡單隨機抽樣,且如果對第二階段實行簡單隨機抽樣,且抽相同的樣本數(shù)(抽相同的樣本數(shù)(第一階段抽出來的一般是單元的規(guī)模較第一階段抽出來的一般是單元的規(guī)模較大,而且彼此差別不大大,而且彼此差別不大),

22、此時估計形式較簡單,且是自),此時估計形式較簡單,且是自加權的。加權的。這是實際中經(jīng)常采用的多階段不等概抽樣法。這是實際中經(jīng)常采用的多階段不等概抽樣法。 111100011222011210i111/1()=()()(1)(1)(), ( )(1)mijnnnijiiiHHiiiiiinmijijnniHHHHiiiiniHHiyM yMYYnznznMMMyMynMYv YYyyn nzn nyyYyv yMn nmm HHY二階抽樣的自加權形式:多階段有放回不等概抽樣多階段有放回不等概抽樣實際工作中,如果初級單元大小不等,實際工作中,如果初級單元大小不等,人們喜歡:人們喜歡:1 1、第一階

23、段抽樣時按放回的與二級單元成比例的第一階段抽樣時按放回的與二級單元成比例的PPSPPS抽抽樣;樣;2 2、第二階抽樣進行簡單隨機抽樣,且抽的樣本量相同,第二階抽樣進行簡單隨機抽樣,且抽的樣本量相同,這樣得到的樣本是自加權的,估計量的形式也非常簡單。這樣得到的樣本是自加權的,估計量的形式也非常簡單。 例:例:某縣農(nóng)村共有某縣農(nóng)村共有1414個鄉(xiāng)個鄉(xiāng)509509個村,在實現(xiàn)小康的進程中個村,在實現(xiàn)小康的進程中欲計算該縣農(nóng)村的恩格爾系數(shù),欲計算該縣農(nóng)村的恩格爾系數(shù),即居民戶的食品支出占即居民戶的食品支出占總支出的比例。首先要調(diào)查全縣的食品總支出,現(xiàn)采用總支出的比例。首先要調(diào)查全縣的食品總支出,現(xiàn)采用

24、了二階段抽樣,第一階段先在了二階段抽樣,第一階段先在1414個鄉(xiāng)中,按村的數(shù)目多個鄉(xiāng)中,按村的數(shù)目多少進行少進行PPSPPS抽樣,共抽了抽樣,共抽了5 5個鄉(xiāng),第二階段在抽中的鄉(xiāng)中個鄉(xiāng),第二階段在抽中的鄉(xiāng)中隨機地抽選隨機地抽選6 6個村,然后對抽中的村做全面調(diào)查,取得的個村,然后對抽中的村做全面調(diào)查,取得的數(shù)據(jù)如下,數(shù)據(jù)如下,估計全縣的食品支出總額及其標準誤。估計全縣的食品支出總額及其標準誤。樣本鄉(xiāng)序號村數(shù)樣本村數(shù)樣本村平均食品支出(萬元)119648241617537261084546905366100多階段有放回不等概抽樣例題分析多階段有放回不等概抽樣例題分析多階段有放回不等概抽樣例題分析

25、多階段有放回不等概抽樣例題分析011001222011M =509509=511=1()=()()(1)(1)=nnniiiHHiiiiiinniHHHHiiiiiM yMYYynznznMYv YYyyznMMn nni解:已知村,可按照各單位的入樣概率z =采用公式:(48+175+108+90+100)53037.8(萬元)故全縣農(nóng)村的食品支出總額為:53037.8萬元,其方差估計為:(1)1040834876199.4HHv Y 誤差有點偏大,要想提高估計精度,必須誤差有點偏大,要想提高估計精度,必須 增加第增加第一階段的樣本量一階段的樣本量 例;某小區(qū)有例;某小區(qū)有10座高層建筑,每

26、座高層建筑座高層建筑,每座高層建筑 擁有的樓層數(shù)如下表,擁有的樓層數(shù)如下表, 高層建筑ABCDEFGHIJ樓層12121615101610181620 用二階段抽樣方法抽出用二階段抽樣方法抽出1010個摟層進行調(diào)查,第一階段個摟層進行調(diào)查,第一階段PPSPPS抽出抽出5 5座建筑座建筑,第二階段按簡單隨機抽樣對每座建筑,第二階段按簡單隨機抽樣對每座建筑抽取抽取兩個兩個樓層,具體數(shù)據(jù)如下表所示,對小區(qū)總居民進樓層,具體數(shù)據(jù)如下表所示,對小區(qū)總居民進行估計,并給出估計的誤差。行估計,并給出估計的誤差。初級樣本序號12345居民數(shù)18,1215,1819,13 16,1016,11多階段有放回不等概

27、抽樣例題分析多階段有放回不等概抽樣例題分析解:已知解:已知n=5,m=2,M0=145,11148nmijy 01102201222145148214625214614.8145()()(1)145=(1514.8)(16.514.8).549776.62()98.88()9%/595%nmijniMYynmYyMMv Yyyn nv Yv YY 在 置 信 度 為, 估 計 的 相 對 誤 差 為r=1.96這時,多階抽樣的總樣本量可以這樣確定:這時,多階抽樣的總樣本量可以這樣確定: 1.1.根據(jù)簡單隨機抽樣時應抽樣本量根據(jù)簡單隨機抽樣時應抽樣本量 2.2.再乘以設計效應再乘以設計效應def

28、fdeff獲得。獲得。 多階抽樣與簡單隨機抽樣相比其效率比較低,多階抽樣與簡單隨機抽樣相比其效率比較低,deffdeff應該大于應該大于1 1。實際工作中,可取。實際工作中,可取deffdeff的經(jīng)驗數(shù)據(jù)。不同項的經(jīng)驗數(shù)據(jù)。不同項目的目的deffdeff不同。不同。 下面是一案例分析下面是一案例分析多階有放回不等概抽樣多階有放回不等概抽樣例例: : 某調(diào)查公司接受了一項關于某調(diào)查公司接受了一項關于全國城市成年居全國城市成年居民民人均奶制品每天至少喝一杯奶的人數(shù)的比例人均奶制品每天至少喝一杯奶的人數(shù)的比例情況的調(diào)查。確定抽樣范圍為全國地級及以上情況的調(diào)查。確定抽樣范圍為全國地級及以上城市中的成年

29、居民。成年居民指年滿城市中的成年居民。成年居民指年滿1818周歲以周歲以上的居民。上的居民。第一步:確定抽樣方法。第一步:確定抽樣方法。 調(diào)查公司決定采用多階抽樣方法進行方案調(diào)查公司決定采用多階抽樣方法進行方案設計,調(diào)查的最小單元為成年居民。確定調(diào)查設計,調(diào)查的最小單元為成年居民。確定調(diào)查的各個階段為城市、街道、居委會、居民戶,的各個階段為城市、街道、居委會、居民戶,在居民戶中利用在居民戶中利用 簡單隨機法抽取成年居民。簡單隨機法抽取成年居民。第二步:確定樣本量及各階樣本量的配置。第二步:確定樣本量及各階樣本量的配置。 按簡單隨機抽樣時,在按簡單隨機抽樣時,在9595置信度下,絕置信度下,絕對

30、誤差為對誤差為5 5,取使方差達到最大時的消費奶,取使方差達到最大時的消費奶制品的居民比例為制品的居民比例為5050,則全國樣本量應為:,則全國樣本量應為: 40005. 05 . 05 . 02dPQtn22220 根據(jù)以往調(diào)查的經(jīng)驗,估計回答率根據(jù)以往調(diào)查的經(jīng)驗,估計回答率b=80b=80,因此調(diào)整樣,因此調(diào)整樣本量為:本量為:多階抽樣的效率比簡單隨機抽樣的效率低,這里取設計多階抽樣的效率比簡單隨機抽樣的效率低,這里取設計效應效應deff=3.2deff=3.2,則在全國范圍內(nèi)應調(diào)查的樣本居民為:,則在全國范圍內(nèi)應調(diào)查的樣本居民為:各階的樣本量配置為:各階的樣本量配置為:初級單元:初級單元

31、:2020個樣本城市;個樣本城市;二級單元:二級單元:每個樣本市內(nèi)抽每個樣本市內(nèi)抽4 4個街道,共個街道,共8080個街道;個街道;三級單元:三級單元:每個樣本街道內(nèi)抽每個樣本街道內(nèi)抽2 2個居委會,共個居委會,共160160個居委會;個居委會;四級單元:四級單元:每個樣本居委會內(nèi)抽每個樣本居委會內(nèi)抽1010個居民戶,個居民戶,16001600個居民戶。個居民戶。 在樣本居民戶內(nèi),利用隨機表抽在樣本居民戶內(nèi),利用隨機表抽1 1名成年居民。名成年居民。5008 . 0400bnn01 )(16002 . 3500deffnn12人人 第三步:確定抽樣方法。第三步:確定抽樣方法。 第第1 1階,階

32、,在全國城市中按與人口數(shù)成比例的放回的不等在全國城市中按與人口數(shù)成比例的放回的不等概抽樣,即概抽樣,即PPSPPS抽樣抽樣(probability propotional to size)(probability propotional to size)。 第第2 2階和第階和第3 3階分別按與人口數(shù)成比例的不等概等距抽階分別按與人口數(shù)成比例的不等概等距抽樣。樣。 以第以第2 2階為例,階為例,在某個被抽中的樣本城市中,將其所屬在某個被抽中的樣本城市中,將其所屬的街道編號,搜集各街道的人口數(shù),賦予每個街道與其人口的街道編號,搜集各街道的人口數(shù),賦予每個街道與其人口相同的代碼數(shù)相同的代碼數(shù);根據(jù)

33、該市總?cè)丝跀?shù)除以樣本量根據(jù)該市總?cè)丝跀?shù)除以樣本量4 4,確定抽樣間,確定抽樣間距;然后對代碼進行隨機起點的等距抽樣,則被抽中代碼所距;然后對代碼進行隨機起點的等距抽樣,則被抽中代碼所在的街道為樣本街道。在的街道為樣本街道。 第第4 4階,分別在每個樣本居委會中,按等距抽樣抽出階,分別在每個樣本居委會中,按等距抽樣抽出1010個個民戶。民戶。 即根據(jù)居委會擁有的居民戶數(shù)除以樣本量即根據(jù)居委會擁有的居民戶數(shù)除以樣本量1010得到抽樣距,得到抽樣距,然后隨機起點等距抽樣。然后隨機起點等距抽樣。 在每個樣本居民戶中,調(diào)查員按在每個樣本居民戶中,調(diào)查員按 隨機表抽取隨機表抽取1名成年居民名成年居民,1,

34、.,80iiapin1niiaa2042101111120 4 2 101600ijklapa 20211( )()(1)iiv pppn np第四步:推算方法。第四步:推算方法。 記各樣本城市的記各樣本城市的80位樣本居民中,每天至少喝一杯奶位樣本居民中,每天至少喝一杯奶的人數(shù)為的人數(shù)為ai,全國,全國1600名居民組成的樣本中,每天至少名居民組成的樣本中,每天至少喝一杯鮮奶的人數(shù)為喝一杯鮮奶的人數(shù)為樣本是自加權的,故成年居民每天至少喝一杯鮮奶所占比例為樣本是自加權的,故成年居民每天至少喝一杯鮮奶所占比例為: 的方差的估計為的方差的估計為: 其中其中pi是各樣本城市每天至少喝一杯鮮奶的人數(shù)所

35、占比例是各樣本城市每天至少喝一杯鮮奶的人數(shù)所占比例:2 2 不放回的不等概率抽樣不放回的不等概率抽樣 1 1、有放回不等概率抽樣,無論從實施上還是從估計計算、有放回不等概率抽樣,無論從實施上還是從估計計算以及精度估計都顯得十分方便。但是,一個單元被抽中兩次以及精度估計都顯得十分方便。但是,一個單元被抽中兩次以上總會使樣本的代表性打折扣,從而引起抽樣誤差的增加。以上總會使樣本的代表性打折扣,從而引起抽樣誤差的增加。 2 2、不放回不等概率抽樣,是指在抽樣的過程中被抽到的單、不放回不等概率抽樣,是指在抽樣的過程中被抽到的單元不能再被抽中,這種抽樣要求元不能再被抽中,這種抽樣要求 總體中第總體中第i

36、 i個單元的個單元的入樣概率入樣概率為為i ,這就是所謂的,這就是所謂的 抽樣。抽樣。 3 3、因為在抽取了第一個單元后,余下的因為在抽取了第一個單元后,余下的 ( N-1 ) ( N-1 ) 個單元以個單元以什么樣的概率參與第二次抽樣就很復雜;再在抽第三個樣本什么樣的概率參與第二次抽樣就很復雜;再在抽第三個樣本時又面臨新問題,如此下去,時又面臨新問題,如此下去,一是抽樣實施的復雜,二是估一是抽樣實施的復雜,二是估計量及其方差計算的復雜計量及其方差計算的復雜。因此,在本節(jié)僅討論因此,在本節(jié)僅討論 n n固定,尤其是固定,尤其是n=2n=2時的情形時的情形。 ps 不放回不等概率抽樣一、一、 P

37、SPS抽樣與包含概率抽樣與包含概率包含概率:包含概率:在不放回抽樣中,每個單元被包含到樣本的概率也即入樣概率i及任意兩個單元都被包含到樣本中的概率ijij1ij1=(n-1)1(1)2NNiiiijNNijjnnn n 對固定的 ,包含概率滿足:, 特別的,如果每個單元入樣概率與單元大小成比例的概率抽樣稱這種情形為嚴格的稱這種情形為嚴格的 抽樣抽樣ps實施起來復雜,實施起來復雜, 也不易求得,方差的估算很困難,也不易求得,方差的估算很困難,只有在只有在n=2時有簡單的算法;當時有簡單的算法;當n2時可以通過分層,時可以通過分層,每層中進行嚴格的每層中進行嚴格的n=2 抽樣抽樣ijps010,N

38、iiiiiMnZnMMM 不放回不等概率抽樣不放回不等概率抽樣2、HorvitzThompson(霍維茨(霍維茨湯普森)估計量湯普森)估計量1niHTiiyy HT估計量與估計量與HH估計量是估計量是 極其相似的。極其相似的。因為因為 ,它們在形式上似乎完全一樣,但是它們在形式上似乎完全一樣,但是HH估估計量中的計量中的 yi 可以互相重復,可以互相重復,而而HT中的中的yi 卻是絕對地互不相同。卻是絕對地互不相同。iinZ 21()()NNjiHTijijiijijYYVar y 當當 n 固定時,固定時,HT估計量的方差為:估計量的方差為:例例5.3 假設有假設有5個居委會,每個居委會的住

39、戶數(shù)個居委會,每個居委會的住戶數(shù)X已知已知但常住居民未知,我們從但常住居民未知,我們從5個居委會抽出個居委會抽出2個來估計常個來估計常住居民的總?cè)藬?shù)。如下表:住居民的總?cè)藬?shù)。如下表: iX(住戶數(shù)) Y(常住居民人數(shù)) zi140011000.80.422506000.50.2532005000.40.241002400.20.1550800.10.05總和1000252021i10種不同的樣本分別利用種不同的樣本分別利用霍維茨霍維茨湯普森估計量和簡單湯普森估計量和簡單隨機抽樣簡單估計隨機抽樣簡單估計計算對總量的估計如下表:計算對總量的估計如下表:樣本1,2257542501,32625400

40、01,4257533501,5217529502,3245027502,4240021002,520001700 3,4, 245018503,5205014504,52000800平均25202520p sYs r sY1、從均值上來看,它們都是無偏估計,均值都是、從均值上來看,它們都是無偏估計,均值都是2520.2、為比較估計量的優(yōu)劣,需計算估計量的方差,為比較估計量的優(yōu)劣,需計算估計量的方差,這用到這用到每個樣本被抽出的概率。每個樣本被抽出的概率。 3、不放回不等概率樣本,每個樣本被抽出的概率計算很、不放回不等概率樣本,每個樣本被抽出的概率計算很復雜。復雜。 不過從直觀上來看,例子用不過

41、從直觀上來看,例子用霍維茨霍維茨湯普森估計量比湯普森估計量比簡簡單隨機抽樣單隨機抽樣簡單估計要精確簡單估計要精確結果分析:結果分析:(1)Brewer(布魯爾)方法(布魯爾)方法(1963) 假設對所有假設對所有 ,均有,均有 ,現(xiàn)抽取,現(xiàn)抽取兩個兩個單元單元,最通常的,最通常的方法是逐個選取。方法是逐個選取。i12iZ 幾種嚴格的不放回不等概抽樣幾種嚴格的不放回不等概抽樣iiPSinZ 這里提到的嚴格的抽樣,是指n固定、嚴格不放回、包含概率與單元大小嚴格成比例,即(1) 12iiiZZZN1ij按與成比例從 個單元中抽取第 個單元,假設抽中第 個單位,不放回,在剩下的單元中,再按與M 成比例

42、抽第二個單元,假設抽中第j個單元。(1)(1 2 )1.iiiizzpz DiN其中其中11(1)1112212NNiiiiiiiZZZDZZ 第一次第第一次第i個單元被抽中的概率為:個單元被抽中的概率為:取出第一個不放回,假設第一次抽取了第取出第一個不放回,假設第一次抽取了第i個單元,個單元,第二次單元第二次單元j被抽中的概率為:被抽中的概率為:(| )1jizpjiz這種抽樣方法可以保證每個單元入樣概率為:這種抽樣方法可以保證每個單元入樣概率為:2(1,2,)iiZiN 而而(12)(12)ijijijjiZ ZZ ZDZDZ 14(1)(12)(12)(1)12ijijNiijiiZ Z

43、ZZZZZZ 其中其中11(1)1112212NNiiiiiiiZZZDZZ 1211=+(+)2()(HTnjjiiiHTiijijNHTijijijjjijTiHiyyyyyyyYzzE YYvYY 對總值和方差的估計如下:對總值和方差的估計如下:采用霍維茨采用霍維茨湯普森估計量湯普森估計量例例5.4 對于例對于例5.3,如果抽樣是按布魯爾法的,則,如果抽樣是按布魯爾法的,則其所有可能樣本的其所有可能樣本的 如下表:如下表:i j樣本1,225750.348791,326250.265741,425750.124571,521750.06092,324500.091352,424000.0

44、40482,520000.019383,424500.029073,520500.013844,520000.00588psYi jBrewer 抽樣方法舉例:抽樣方法舉例:鄉(xiāng)種植面積(千畝)總產(chǎn)量(單位:千公斤) 110100220220330285440360合計100965例:某縣有四個鄉(xiāng),糧食總產(chǎn)量和種植面積如下表:例:某縣有四個鄉(xiāng),糧食總產(chǎn)量和種植面積如下表:用布魯爾方法抽取兩個鄉(xiāng)作樣本估計本縣的總產(chǎn)量,用布魯爾方法抽取兩個鄉(xiāng)作樣本估計本縣的總產(chǎn)量,驗證抽選結果符合驗證抽選結果符合PS的要求,并計算估計量方差。的要求,并計算估計量方差。 Brewer法第一個單元的被抽中概率法第一個單

45、元的被抽中概率鄉(xiāng)種植面積規(guī)模比例第1次被抽中概率1100.10.11250.053462200.20.26670.126753300.30.5250.249504400.41.20.57029合計2.10421(1)12iiizzz(1)(1)12=12iiiiiizzzzzDzD,第一次被抽中的概率本題計算過程:本題計算過程:,(1)(1)100001 21 2121042ijzzzziiiiMizziiPPS第一個單元的抽選辦法可采用方法中的代碼法相當于,將乘以化為整數(shù),在中隨機等概抽選一個數(shù),該數(shù)落入哪第二個單元在余下的單元中抽選,按規(guī)模大小成比例,假定第一次抽到了第四單元,第二次對余下

46、的三個單元利用個單元的代碼區(qū)間,該單元即為第代碼法進行抽樣。一個抽中的單元。下面是如何計算 Brewer法法2個單元的抽選辦法:個單元的抽選辦法:第二次抽中第第二次抽中第j個單元(第一次抽中第個單元(第一次抽中第i個單元)的概率為個單元)的概率為(| )1jizpjiz第一次抽中第第一次抽中第i個單元,第二次抽中第個單元,第二次抽中第j個單元的聯(lián)合概率為個單元的聯(lián)合概率為( ) ( | )( )1jijizpp i p j ip iz假定第一次抽中第假定第一次抽中第1個單元,第二次抽中第個單元,第二次抽中第2個單元,個單元,其聯(lián)合概率為:其聯(lián)合概率為:120.2(1) (2|1)0.05346

47、0.011880.9ppp第一次抽中第第一次抽中第1個單元,第二次抽中第個單元,第二次抽中第4個單元的聯(lián)合概率為個單元的聯(lián)合概率為第一次抽中第第一次抽中第1個單元,第二次抽中第個單元,第二次抽中第3個單元的聯(lián)合概率為個單元的聯(lián)合概率為130.3(1) (3|1)0.053460.017820.9ppp140.4(1) (4|1)0.053460.023760.9ppp第一次抽中第第一次抽中第2個單元,第二次抽中第個單元,第二次抽中第1個單元的聯(lián)合概率為個單元的聯(lián)合概率為210.1(2) (1|2)0.126750.015641 0.2ppp第一次抽中第第一次抽中第2個單元,第二次抽中第個單元,

48、第二次抽中第3個單元的聯(lián)合概率為個單元的聯(lián)合概率為230.3(2) (3|2)0.126750.0475310.2ppp依次可得各種可能被抽中的概率如下表依次可得各種可能被抽中的概率如下表單元第二次抽中 1 2 3 4合計1234第一次抽第一次抽中中00.011880.017820.023760.053640.0156400.047530.063380.126750.035640.0712900.142570.249500.095060.190090.2851500.57030合計0.146540.273260.35050.22971110.053460.146540.22Z1同理可驗證同理可

49、驗證20.126750.273260.42Z230.24950.35050.62Z340.57030.229710.82Z4所以抽選結果符合所以抽選結果符合ps要求要求樣本單元1,2100/0.2220/0.410500.027721,3100/0.2285/0.69750.053461,4100/0.2360/0.89500.118822,3220/0.4285/0.610250.118822,4220/0.4360/0.810000.253473,4285/0.6360/0.89250.42772iiyjjy1niHtiyYijijijjipp說明:說明:本題是總體信息已知,對書中的結果做

50、了驗證。本題是總體信息已知,對書中的結果做了驗證。我們在實際工作中只抽到了一個我們在實際工作中只抽到了一個PS樣本,比如說,樣本,比如說,抽到了第抽到了第3、4個單元,個單元,只用計算只用計算p34,p43,算出算出34,其,其余不用計算。余不用計算。然后代入公式進行計算即可然后代入公式進行計算即可123434341=+(+)2()()=285=360=0.6=0.8=0.4227njjiiiHTiijijijijjipsijijyyyyyYzzyyv Yyy 其 中,(2)Durbin(德賓)方法(德賓)方法(1967)的概率抽取第二個樣本。此時的概率抽取第二個樣本。此時以概率以概率 在總體中進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論