被等概率抽樣課件_第1頁
被等概率抽樣課件_第2頁
被等概率抽樣課件_第3頁
被等概率抽樣課件_第4頁
被等概率抽樣課件_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1第六章不等概率抽樣第一節(jié)不等概率抽樣概述第二節(jié)放回不等概率抽樣第三節(jié)不放回不等概率抽樣1第六章不等概率抽樣第一節(jié)不等概率抽樣概述12第一節(jié)不等概率抽樣概述

一、不等概率抽樣的必要性在簡單隨機抽樣中,總體(或?qū)?中的每個單元入樣的概率都相等。如果總體中的每個單元在該總體中的地位(或重要性)相差不多,則這種基于等概率的抽樣是理所當(dāng)然的選擇。等概率抽樣不僅實施簡單,而且相應(yīng)的數(shù)據(jù)處理公式也簡單。但是在許多實際問題中,我們還需要使用不等概率抽樣(samplingwithunequalprobabilities)。2第一節(jié)不等概率抽樣概述一、不等概率抽樣的必要性23一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致。另一種需要用到不等概率抽樣的情況是,抽樣單元在總體中所占的地位不一致。最重要的一種不等概率抽樣乃是使每個單元入樣的概率與該單元的大小成比例的抽樣(samplingwithprobabilitiesproportionaltosizes,簡稱PPS抽樣)。3一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致34第三種需用不等概率抽樣的情況是為了改善估計量的特性。每個可能的樣本若被抽的概率與樣本中單元的輔助變量之和成正比的話,則按此進行不等概率抽樣所得到的樣本,用通常的比估計方法所得的估計量是無偏的。4第三種需用不等概率抽樣的情況是為了改善估計量的特性45總之,在實際工作中需要我們經(jīng)常采用不等概率抽樣。另外,從上面列舉的情況也可看到,凡需使用不等概率抽樣的場合,必須提供總體單元的某種輔助信息,例如每個單元的“大小”度量Mi或輔助變量Xi等。5總之,在實際工作中需要我們經(jīng)常采用不等概率抽樣。另56二、不等概率抽樣的主要分類不等概率抽樣可按多種原則進行分類。鑒于不等概率抽樣同時會帶來目標量估計及其方差估計的復(fù)雜性,可分為放回抽樣:每次在總體(或?qū)?中按一定概率抽取一個單元,抽取后放回總體,再進行下一次抽樣,每次抽樣都是獨立的。不放回抽樣。其代價是:由于喪失了獨立性,無論是抽樣方法還是方差估計,都要比放回抽樣繁復(fù)得多。6二、不等概率抽樣的主要分類不等概率抽樣可按多種原則67另一種分類是:視每次抽樣(放回抽樣的情形)概率或每個單元的入樣概率(不放回抽樣的情形)是否嚴格地與單元的大小成比例。另外,看樣本量n是固定的還是隨機的。最重要的情形乃是當(dāng)n固定,且上述概率與單元大小嚴格成比例的不等概率抽樣。以后我們將這種情形的放回抽樣稱為PPS抽樣,稱相應(yīng)的不放回抽樣為πPS抽樣。7另一種分類是:視每次抽樣(放回抽樣的情形)概率或每78對于不放回抽樣,按其樣本單元抽取方式的不同又可分為以下幾種方法:1.逐個抽取法。每次從尚未入樣的單元中以一定概率抽取一個單元,這個概率通常與已經(jīng)入樣的單元有關(guān),2.重抽法。以一定概率逐個進行放回抽樣,若一旦抽到重復(fù)單元,則放棄所有已抽到的單元而重新抽取,直到抽到規(guī)定單元數(shù)且所有入樣單元都不同為止。Back8對于不放回抽樣,按其樣本單元抽取方式的不同又可分為893.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的單元入樣(或其倍數(shù))累計起來,并確定抽樣間隔,在這個范圍內(nèi)產(chǎn)生一個隨機數(shù)以確定初始入樣單元,然后按上述抽樣間隔確定其余的樣本單元。4.全樣本方法。對每個可能樣本規(guī)定一個被抽中的概率,按這個概率一次抽取整個樣本。Back93.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的910三、不等概率抽樣的特點不等概率抽樣的主要優(yōu)點是由于使用了輔助信息,提高了抽樣策略的統(tǒng)計效率,與簡單隨機抽樣甚至與分層抽樣相比,能顯著地減少抽樣誤差。10三、不等概率抽樣的特點不等概率抽樣的主要優(yōu)點是由1011不等概率抽樣有以下的缺點:抽樣框中的所有單元,都要有高質(zhì)量的、能用作大小度量的輔助信息;抽樣框的創(chuàng)建比簡單隨機抽樣和系統(tǒng)抽樣成本高,更復(fù)雜,因為需要度量和存儲總體中每一個單元的大??;并非在任何情況下都能使用,因為并不是每一個總體都有穩(wěn)定且與主要調(diào)查變量相關(guān)的有關(guān)大小或規(guī)模的度量;抽樣及估計(特別對不放回抽樣)相當(dāng)復(fù)雜;

當(dāng)單元大小度量不準確或不穩(wěn)定時不適用,此時更好的辦法是將單元按大小分組并使用分層抽樣。Back11不等概率抽樣有以下的缺點:抽樣框中的所有單元,都1112第二節(jié)放回不等概率抽樣一、多項抽樣多項抽樣是一種最簡單的不等概率抽樣。它是從容量為N的總體中有放回地進行獨立抽樣,每次抽樣中,使抽到第i個單元的概率為Zi,i=1,2,…,N,,連續(xù)抽n次,從而抽到n個單元。12第二節(jié)放回不等概率抽樣一、多項抽樣1213若記為總體中第i個單元在n次抽樣中被抽到的次數(shù),顯然對每個i都有:,且。作為隨機變量(,,…),它的聯(lián)合分布即是以下的多項分布:這就是多項抽樣這個術(shù)語的來源。13若記為總體中第i個單元在n次抽樣中被抽到的次數(shù),1314根據(jù)多項分布的性質(zhì),有當(dāng)每個單元具有一個說明其大小或規(guī)模的度量時,每個單元在每次抽樣中的入樣概率與單元大小成比例,稱這種特殊的多項抽樣為放回的與大小成比例的概率抽樣,簡稱PPS抽樣。14根據(jù)多項分布的性質(zhì),有1415二、PPS抽樣PPS抽樣是與大?。ɑ蛞?guī)模)成比例的概率抽樣,是一種使用輔助信息從而使入樣概率不相等的抽樣技術(shù)。如果總體單元的大小或規(guī)模變化很大,且這些大小是已知的,這樣的信息就可以用在抽樣中,以提高統(tǒng)計效率。如果單元大小的度量是準確的,而且所研究的變量與單元的大小相關(guān),PPS抽樣能極大地提高精度。但如果大小的度量不大準確,最好按大小分組并使用分層抽樣。15二、PPS抽樣1516PPS抽樣的入樣概率。如上所述,PPS抽樣時可取為第i個單元的入樣概率,其中是總體中所有單元的“大小”之和,為第i個單元的大小。16PPS抽樣的入樣概率。如上所述,PPS抽樣時可取1617有時,關(guān)于單元的大小只是約略知道或這個“大小”并不是用單元所含的次級單元數(shù)來表示的,而是用其它有關(guān)尺度來計量。此時,設(shè)第i單元大小的計量尺度為,則有:

這時的PPS抽樣也稱作PPZ抽樣。17有時,關(guān)于單元的大小只是約略知道或這個“1718三、多項抽樣的實施方法如何抽取一個不等概率樣本呢?有三種主要方法:代碼法、系統(tǒng)法及隨機系統(tǒng)法。以下的討論以PPS抽樣為例,并假定單元大小皆為整數(shù)。18三、多項抽樣的實施方法1819(1)代碼法(累計和法,隨機法或漢森—赫維茨法)設(shè)N不太大,且(或)為第i單元大小的度量,且為整數(shù),對總體中的每個單元計算累計大小,得到總體所有單元代碼的累計和,對總體中每個單元確定與它相對應(yīng)的代碼范圍;在1到總的累計大小范圍內(nèi)抽取一個隨機數(shù),該隨機數(shù)相應(yīng)的代碼范圍中的單元即為入樣單元。重復(fù)上述步驟,直到抽得n個單元為止。19(1)代碼法(累計和法,隨機法或漢森—赫維茨法)1920PPS抽樣時,單元的代碼如下表:20PPS抽樣時,單元的代碼如下表:2021(2)拉希里法(二次抽樣法)代碼法要將累計,在N不太大時是適用的,但當(dāng)N很大時,就很不方便。此時可用Lahiri(拉希里)1951年提出的方法。令每次抽取一個范圍內(nèi)的隨機數(shù)及范圍內(nèi)的隨機數(shù)m,若,則第單元入樣;否則,重抽。此時,第i個單元的入樣概率與成正比,從而。重復(fù)這一過程,直到抽夠所需的個單元。21(2)拉希里法(二次抽樣法)2122(3)系統(tǒng)PPS抽樣方法對總體中的每個單元,計算累計大?。粚傮w中每個單元確定與它相對應(yīng)的代碼范圍;確定抽樣間隔k=總累計大小/n;在1和k的范圍內(nèi)確定一個隨機起點r;與代碼r,r+k,r+2k,…,r+(n-1)k所在范圍相對應(yīng)的單元入樣。注意,當(dāng)r+(n-1)k超過總累計大小時,應(yīng)使用圓形系統(tǒng)抽樣中的模余數(shù)法。22(3)系統(tǒng)PPS抽樣方法2223(4)隨機系統(tǒng)抽樣法在這種方法中,名錄在系統(tǒng)抽樣前要進行隨機排序。如果完全按原來的排序,會把一些可能的樣本排除在外。在上面介紹的系統(tǒng)抽樣的例子中,不可能把單元3和4同時抽入同一個樣本。把名錄重新隨機排列后會增加潛在的可能抽到的樣本數(shù)量。實際上這些方法都有些問題。例如,對系統(tǒng)抽樣法或隨機系統(tǒng)抽樣法,一個大小大于抽樣間隔的單元,就有重復(fù)被抽中的可能。只有把這些大單元放入單獨的一個層,并獨立地對它們進行抽樣,才能克服這個問題。另一個問題是估計值的抽樣方差估計比較困難。23(4)隨機系統(tǒng)抽樣法2324

四、估計量對于多項抽樣,由于抽樣是不等概率的,每個樣本單元的觀測值就不再是“平等的”,因此對于總體參數(shù)的估計與等概率抽樣不同。漢森—赫維茨提出,如果是按為入樣概率的多項抽樣抽得的樣本指標值,相應(yīng)的為,則總體總和Y的無偏估計量如下:24四、估計量2425且若n〉1,則的無偏估計量為25且2526對于PPS抽樣,,所以有其中是第i個樣本單元的觀測值,例如商店的年銷售額,而是該單元的大小,例如商店的員工人數(shù),則即是第i個商店人均年銷售額。對n個取平均即是樣本商業(yè)網(wǎng)點人均年銷售額的平均,將此數(shù)乘以,即該地所有商業(yè)網(wǎng)點的員工總數(shù),即可獲得該地商業(yè)銷售總額的估計。26對于PPS抽樣,,所以有2627舉例:下表是某系統(tǒng)全部N=36個單位上一年職工人數(shù)及當(dāng)年職工人數(shù)的數(shù)據(jù),以為單位大小的度量,對單位進行PPS抽樣,n=6,估計全系統(tǒng)當(dāng)年職工總?cè)藬?shù)Y,并與簡單隨機抽樣做精度比較。27舉例:2728第三節(jié)不放回不等概率抽樣一、包含概率與πPS抽樣放回不等概率抽樣實施簡單,數(shù)據(jù)處理也不復(fù)雜,在不等概率抽樣中占有一定的地位。但是由于放回抽樣有可能重復(fù)抽到同一單元,特別是個別大單元被重復(fù)抽到的可能性比較大,這就在一定程度上影響了樣本的代表性,降低了抽樣效率,也不易被實際工作者所接受。即使在相同樣本量下,放回抽樣的精度比不放回抽樣的差。因此,我們?nèi)杂斜匾芯坎环呕夭坏雀怕食闃?。事實上,由于不放回抽樣的樣本不是獨立的,因此無論是實施還是數(shù)據(jù)處理,特別是方差估計,都要比放回的多項抽樣復(fù)雜得多。28第三節(jié)不放回不等概率抽樣一、包含概率與πPS2829在放回的不等概率抽樣中,每個單元的入樣概率起著關(guān)鍵作用。在不放回抽樣中,每個單元被包含到樣本的概率也即入樣概率及任意兩個單元都包含到樣本的概率都起著十分重要的作用,它們通稱為包含概率。29在放回的不等概率抽樣中,每個單元的入樣概率起著關(guān)29對于固定的n包含概率滿足以下性質(zhì):(1)(2)(3)對于固定的n包含概率滿足以下性質(zhì):30其中性質(zhì)1是顯然的。性質(zhì)2是對每個已在樣本中的單元而言的,固定了這個特定單元,總體中其它N-1個單元在樣本中只可能有n-1個單元,因此其中最后一個等式利用了性質(zhì)1。性質(zhì)3則直接利用性質(zhì)2:其中性質(zhì)1是顯然的。性質(zhì)2是對每個已在樣本中的單元而言的,固31與放回的PPS抽樣類似,對于不放回不等概率抽樣,我們最感興趣的是與單元大小成比例的情形。若仍記,則由性質(zhì)1有:以后我們將這種不放回的與單元大小成比例的概率抽樣稱為πPS抽樣。與放回的PPS抽樣類似,對于不放回不等概率抽樣,我們32嚴格的πPS抽樣實施起來非常復(fù)雜。事實上,只有當(dāng)n=2時,才有一些簡單且實用的方法。在不放回抽樣的情形,如果抽選的單元多于一個,要使入樣概率與單元大小成正比以及對調(diào)查估計值的誤差進行估計都比較復(fù)雜。在用不放回πPS抽樣抽取多于兩個單元時,情況就更加復(fù)雜。實際上,這仍是一個需要進行認真研究的問題。除了實施方面的原因外,當(dāng)n大時,的計算也極其困難,而這對于方差估計是不可少的。嚴格的πPS抽樣實施起來非常復(fù)雜。事實上,只有當(dāng)n=33

二、霍維茨—湯普森估計量及其性質(zhì)對不放回的不等概率抽樣,總體總和Y的估計采用霍維茨(Horvitz)與湯普森(Thompson)提出的以下估計量:注意這個估計量與多項抽樣的漢森—赫維茨估計量非常相似。事實上,對于πPS抽樣,由于,與相應(yīng)PPS抽樣的完全一致。二、霍維茨—湯普森估計量及其性質(zhì)34霍維茨—湯普森估計量具有如下性質(zhì):(1)若,則是Y的無偏估計,且它的方差為:當(dāng)n固定時,又有霍維茨—湯普森估計量具有如下性質(zhì):35(2)若,則是的無偏估計。又當(dāng)n固定時,以下的耶茨(Yates)—格倫迪(Grundy)—森(Sen)估計量也是的無偏估計:(2)若3637

三、n=2的嚴格πPS抽樣對于πPS抽樣,由于作為總體總和的霍維茨—湯普森估計量的形式相當(dāng)簡單,因此就應(yīng)用角度來說,是否便利主要在于它的實施方法以及的計算。當(dāng)n=2時,有幾種比較實用的方法(但在具體應(yīng)用中,n=2并不是一個十分嚴重的限制)。這些方法常用在對總體分層,在每層中抽取兩個樣本單元的情況。37三、n=2的嚴格πPS抽樣3738(1)布魯爾(Brewer)方法該方法要求對每個i,都滿足,即總體(層)中的最大單元必須小于全部單元大小總和的1/2(若不然可以將這個“特大”單元作為必調(diào)查的單元)。兩個樣本單元采用逐個抽取法抽?。旱谝粋€單元按與成比例的概率抽?。坏诙€單元則在剩下的N-1個單元中按與成比例的概率抽取。38(1)布魯爾(Brewer)方法3839(2)德賓(Durbin)方法兩個樣本單元仍用逐個抽取法抽取。第一個樣本單元以概率抽取,設(shè)抽到的是單元i;第二個樣本單元則按與成比例的概率抽取。由于此時的,且與布魯爾方法的相等,因此德賓方法與布魯爾方法實際上是等價的。應(yīng)用德賓方法也要求對每個i,都滿足。39(2)德賓(Durbin)方法3940四、n>2的嚴格πPS抽樣

n>2的嚴格πPS抽樣要比n=2的情況復(fù)雜得多,即使可以實現(xiàn),的計算也相當(dāng)復(fù)雜。下面僅介紹三種方法。(1)水野(Midzuno)方法這也是一種逐個抽取方法,關(guān)鍵是第一個樣本單元的抽取,它是以概率抽取的。在抽取第一個單元以后,在剩下的N-1個單元中不放回地等概率抽取n-1個單元。40四、n>2的嚴格πPS抽樣4041(2)布魯爾(Brewer)方法這是n=2的布魯爾方法在n〉2情形的推廣,也采用逐個抽取法。第一個單元是以與成比例的概率抽取。在第r次抽取時,以與成比例的概率從當(dāng)時尚未入樣的單元中抽取一個單元。41(2)布魯爾(Brewer)方法4142(3)拉奧(Rao)—桑普福特(Sampford)方法這種方法是先以的概率抽取第一個樣本單元,然后以與成比例的概率有放回地抽取n-1個單元(設(shè)所有的)。一旦有單元被重復(fù)抽中,則放棄所有已經(jīng)抽到的單元重抽,直到抽中的n個單元都不同為止。這種方法的也比較復(fù)雜,需要通過計算機計算。42(3)拉奧(Rao)—桑普福特(Sampford4243五、n>2的兩種非嚴格的πPS抽樣當(dāng)n>2時,嚴格的πPS抽樣比較復(fù)雜,特別是在對包含概率的計算上。為此統(tǒng)計學(xué)家研究了一些非嚴格的πPS抽樣方法。(1)莫蒂(Murthy)方法(2)拉奧(Rao)—哈特利(Hartley)—科克倫(Cochran)方法43五、n>2的兩種非嚴格的πPS抽樣43本章內(nèi)容講授結(jié)束本章內(nèi)容講授結(jié)束4445第六章不等概率抽樣第一節(jié)不等概率抽樣概述第二節(jié)放回不等概率抽樣第三節(jié)不放回不等概率抽樣1第六章不等概率抽樣第一節(jié)不等概率抽樣概述4546第一節(jié)不等概率抽樣概述

一、不等概率抽樣的必要性在簡單隨機抽樣中,總體(或?qū)?中的每個單元入樣的概率都相等。如果總體中的每個單元在該總體中的地位(或重要性)相差不多,則這種基于等概率的抽樣是理所當(dāng)然的選擇。等概率抽樣不僅實施簡單,而且相應(yīng)的數(shù)據(jù)處理公式也簡單。但是在許多實際問題中,我們還需要使用不等概率抽樣(samplingwithunequalprobabilities)。2第一節(jié)不等概率抽樣概述一、不等概率抽樣的必要性4647一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致。另一種需要用到不等概率抽樣的情況是,抽樣單元在總體中所占的地位不一致。最重要的一種不等概率抽樣乃是使每個單元入樣的概率與該單元的大小成比例的抽樣(samplingwithprobabilitiesproportionaltosizes,簡稱PPS抽樣)。3一種情況是調(diào)查的總體單元與抽樣總體的單元可能不一致4748第三種需用不等概率抽樣的情況是為了改善估計量的特性。每個可能的樣本若被抽的概率與樣本中單元的輔助變量之和成正比的話,則按此進行不等概率抽樣所得到的樣本,用通常的比估計方法所得的估計量是無偏的。4第三種需用不等概率抽樣的情況是為了改善估計量的特性4849總之,在實際工作中需要我們經(jīng)常采用不等概率抽樣。另外,從上面列舉的情況也可看到,凡需使用不等概率抽樣的場合,必須提供總體單元的某種輔助信息,例如每個單元的“大小”度量Mi或輔助變量Xi等。5總之,在實際工作中需要我們經(jīng)常采用不等概率抽樣。另4950二、不等概率抽樣的主要分類不等概率抽樣可按多種原則進行分類。鑒于不等概率抽樣同時會帶來目標量估計及其方差估計的復(fù)雜性,可分為放回抽樣:每次在總體(或?qū)?中按一定概率抽取一個單元,抽取后放回總體,再進行下一次抽樣,每次抽樣都是獨立的。不放回抽樣。其代價是:由于喪失了獨立性,無論是抽樣方法還是方差估計,都要比放回抽樣繁復(fù)得多。6二、不等概率抽樣的主要分類不等概率抽樣可按多種原則5051另一種分類是:視每次抽樣(放回抽樣的情形)概率或每個單元的入樣概率(不放回抽樣的情形)是否嚴格地與單元的大小成比例。另外,看樣本量n是固定的還是隨機的。最重要的情形乃是當(dāng)n固定,且上述概率與單元大小嚴格成比例的不等概率抽樣。以后我們將這種情形的放回抽樣稱為PPS抽樣,稱相應(yīng)的不放回抽樣為πPS抽樣。7另一種分類是:視每次抽樣(放回抽樣的情形)概率或每5152對于不放回抽樣,按其樣本單元抽取方式的不同又可分為以下幾種方法:1.逐個抽取法。每次從尚未入樣的單元中以一定概率抽取一個單元,這個概率通常與已經(jīng)入樣的單元有關(guān),2.重抽法。以一定概率逐個進行放回抽樣,若一旦抽到重復(fù)單元,則放棄所有已抽到的單元而重新抽取,直到抽到規(guī)定單元數(shù)且所有入樣單元都不同為止。Back8對于不放回抽樣,按其樣本單元抽取方式的不同又可分為52533.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的單元入樣(或其倍數(shù))累計起來,并確定抽樣間隔,在這個范圍內(nèi)產(chǎn)生一個隨機數(shù)以確定初始入樣單元,然后按上述抽樣間隔確定其余的樣本單元。4.全樣本方法。對每個可能樣本規(guī)定一個被抽中的概率,按這個概率一次抽取整個樣本。Back93.系統(tǒng)抽取法。將總體單元按某種順序排列,且將規(guī)定的5354三、不等概率抽樣的特點不等概率抽樣的主要優(yōu)點是由于使用了輔助信息,提高了抽樣策略的統(tǒng)計效率,與簡單隨機抽樣甚至與分層抽樣相比,能顯著地減少抽樣誤差。10三、不等概率抽樣的特點不等概率抽樣的主要優(yōu)點是由5455不等概率抽樣有以下的缺點:抽樣框中的所有單元,都要有高質(zhì)量的、能用作大小度量的輔助信息;抽樣框的創(chuàng)建比簡單隨機抽樣和系統(tǒng)抽樣成本高,更復(fù)雜,因為需要度量和存儲總體中每一個單元的大??;并非在任何情況下都能使用,因為并不是每一個總體都有穩(wěn)定且與主要調(diào)查變量相關(guān)的有關(guān)大小或規(guī)模的度量;抽樣及估計(特別對不放回抽樣)相當(dāng)復(fù)雜;

當(dāng)單元大小度量不準確或不穩(wěn)定時不適用,此時更好的辦法是將單元按大小分組并使用分層抽樣。Back11不等概率抽樣有以下的缺點:抽樣框中的所有單元,都5556第二節(jié)放回不等概率抽樣一、多項抽樣多項抽樣是一種最簡單的不等概率抽樣。它是從容量為N的總體中有放回地進行獨立抽樣,每次抽樣中,使抽到第i個單元的概率為Zi,i=1,2,…,N,,連續(xù)抽n次,從而抽到n個單元。12第二節(jié)放回不等概率抽樣一、多項抽樣5657若記為總體中第i個單元在n次抽樣中被抽到的次數(shù),顯然對每個i都有:,且。作為隨機變量(,,…),它的聯(lián)合分布即是以下的多項分布:這就是多項抽樣這個術(shù)語的來源。13若記為總體中第i個單元在n次抽樣中被抽到的次數(shù),5758根據(jù)多項分布的性質(zhì),有當(dāng)每個單元具有一個說明其大小或規(guī)模的度量時,每個單元在每次抽樣中的入樣概率與單元大小成比例,稱這種特殊的多項抽樣為放回的與大小成比例的概率抽樣,簡稱PPS抽樣。14根據(jù)多項分布的性質(zhì),有5859二、PPS抽樣PPS抽樣是與大?。ɑ蛞?guī)模)成比例的概率抽樣,是一種使用輔助信息從而使入樣概率不相等的抽樣技術(shù)。如果總體單元的大小或規(guī)模變化很大,且這些大小是已知的,這樣的信息就可以用在抽樣中,以提高統(tǒng)計效率。如果單元大小的度量是準確的,而且所研究的變量與單元的大小相關(guān),PPS抽樣能極大地提高精度。但如果大小的度量不大準確,最好按大小分組并使用分層抽樣。15二、PPS抽樣5960PPS抽樣的入樣概率。如上所述,PPS抽樣時可取為第i個單元的入樣概率,其中是總體中所有單元的“大小”之和,為第i個單元的大小。16PPS抽樣的入樣概率。如上所述,PPS抽樣時可取6061有時,關(guān)于單元的大小只是約略知道或這個“大小”并不是用單元所含的次級單元數(shù)來表示的,而是用其它有關(guān)尺度來計量。此時,設(shè)第i單元大小的計量尺度為,則有:

這時的PPS抽樣也稱作PPZ抽樣。17有時,關(guān)于單元的大小只是約略知道或這個“6162三、多項抽樣的實施方法如何抽取一個不等概率樣本呢?有三種主要方法:代碼法、系統(tǒng)法及隨機系統(tǒng)法。以下的討論以PPS抽樣為例,并假定單元大小皆為整數(shù)。18三、多項抽樣的實施方法6263(1)代碼法(累計和法,隨機法或漢森—赫維茨法)設(shè)N不太大,且(或)為第i單元大小的度量,且為整數(shù),對總體中的每個單元計算累計大小,得到總體所有單元代碼的累計和,對總體中每個單元確定與它相對應(yīng)的代碼范圍;在1到總的累計大小范圍內(nèi)抽取一個隨機數(shù),該隨機數(shù)相應(yīng)的代碼范圍中的單元即為入樣單元。重復(fù)上述步驟,直到抽得n個單元為止。19(1)代碼法(累計和法,隨機法或漢森—赫維茨法)6364PPS抽樣時,單元的代碼如下表:20PPS抽樣時,單元的代碼如下表:6465(2)拉希里法(二次抽樣法)代碼法要將累計,在N不太大時是適用的,但當(dāng)N很大時,就很不方便。此時可用Lahiri(拉希里)1951年提出的方法。令每次抽取一個范圍內(nèi)的隨機數(shù)及范圍內(nèi)的隨機數(shù)m,若,則第單元入樣;否則,重抽。此時,第i個單元的入樣概率與成正比,從而。重復(fù)這一過程,直到抽夠所需的個單元。21(2)拉希里法(二次抽樣法)6566(3)系統(tǒng)PPS抽樣方法對總體中的每個單元,計算累計大小;對總體中每個單元確定與它相對應(yīng)的代碼范圍;確定抽樣間隔k=總累計大小/n;在1和k的范圍內(nèi)確定一個隨機起點r;與代碼r,r+k,r+2k,…,r+(n-1)k所在范圍相對應(yīng)的單元入樣。注意,當(dāng)r+(n-1)k超過總累計大小時,應(yīng)使用圓形系統(tǒng)抽樣中的模余數(shù)法。22(3)系統(tǒng)PPS抽樣方法6667(4)隨機系統(tǒng)抽樣法在這種方法中,名錄在系統(tǒng)抽樣前要進行隨機排序。如果完全按原來的排序,會把一些可能的樣本排除在外。在上面介紹的系統(tǒng)抽樣的例子中,不可能把單元3和4同時抽入同一個樣本。把名錄重新隨機排列后會增加潛在的可能抽到的樣本數(shù)量。實際上這些方法都有些問題。例如,對系統(tǒng)抽樣法或隨機系統(tǒng)抽樣法,一個大小大于抽樣間隔的單元,就有重復(fù)被抽中的可能。只有把這些大單元放入單獨的一個層,并獨立地對它們進行抽樣,才能克服這個問題。另一個問題是估計值的抽樣方差估計比較困難。23(4)隨機系統(tǒng)抽樣法6768

四、估計量對于多項抽樣,由于抽樣是不等概率的,每個樣本單元的觀測值就不再是“平等的”,因此對于總體參數(shù)的估計與等概率抽樣不同。漢森—赫維茨提出,如果是按為入樣概率的多項抽樣抽得的樣本指標值,相應(yīng)的為,則總體總和Y的無偏估計量如下:24四、估計量6869且若n〉1,則的無偏估計量為25且6970對于PPS抽樣,,所以有其中是第i個樣本單元的觀測值,例如商店的年銷售額,而是該單元的大小,例如商店的員工人數(shù),則即是第i個商店人均年銷售額。對n個取平均即是樣本商業(yè)網(wǎng)點人均年銷售額的平均,將此數(shù)乘以,即該地所有商業(yè)網(wǎng)點的員工總數(shù),即可獲得該地商業(yè)銷售總額的估計。26對于PPS抽樣,,所以有7071舉例:下表是某系統(tǒng)全部N=36個單位上一年職工人數(shù)及當(dāng)年職工人數(shù)的數(shù)據(jù),以為單位大小的度量,對單位進行PPS抽樣,n=6,估計全系統(tǒng)當(dāng)年職工總?cè)藬?shù)Y,并與簡單隨機抽樣做精度比較。27舉例:7172第三節(jié)不放回不等概率抽樣一、包含概率與πPS抽樣放回不等概率抽樣實施簡單,數(shù)據(jù)處理也不復(fù)雜,在不等概率抽樣中占有一定的地位。但是由于放回抽樣有可能重復(fù)抽到同一單元,特別是個別大單元被重復(fù)抽到的可能性比較大,這就在一定程度上影響了樣本的代表性,降低了抽樣效率,也不易被實際工作者所接受。即使在相同樣本量下,放回抽樣的精度比不放回抽樣的差。因此,我們?nèi)杂斜匾芯坎环呕夭坏雀怕食闃印J聦嵣?,由于不放回抽樣的樣本不是獨立的,因此無論是實施還是數(shù)據(jù)處理,特別是方差估計,都要比放回的多項抽樣復(fù)雜得多。28第三節(jié)不放回不等概率抽樣一、包含概率與πPS7273在放回的不等概率抽樣中,每個單元的入樣概率起著關(guān)鍵作用。在不放回抽樣中,每個單元被包含到樣本的概率也即入樣概率及任意兩個單元都包含到樣本的概率都起著十分重要的作用,它們通稱為包含概率。29在放回的不等概率抽樣中,每個單元的入樣概率起著關(guān)73對于固定的n包含概率滿足以下性質(zhì):(1)(2)(3)對于固定的n包含概率滿足以下性質(zhì):74其中性質(zhì)1是顯然的。性質(zhì)2是對每個已在樣本中的單元而言的,固定了這個特定單元,總體中其它N-1個單元在樣本中只可能有n-1個單元,因此其中最后一個等式利用了性質(zhì)1。性質(zhì)3則直接利用性質(zhì)2:其中性質(zhì)1是顯然的。性質(zhì)2是對每個已在樣本中的單元而言的,固75與放回的PPS抽樣類似,對于不放回不等概率抽樣,我們最感興趣的是與單元大小成比例的情形。若仍記,則由性質(zhì)1有:以后我們將這種不放回的與單元大小成比例的概率抽樣稱為πPS抽樣。與放回的PPS抽樣類似,對于不放回不等概率抽樣,我們76嚴格的πPS抽樣實施起來非常復(fù)雜。事實上,只有當(dāng)n=2時,才有一些簡單且實用的方法。在不放回抽樣的情形,如果抽選的單元多于一個,要使入樣概率與單元大小成正比以及對調(diào)查估計值的誤差進行估計都比較復(fù)雜。在用不放回πPS抽樣抽取多于兩個單元時,情況就更加復(fù)雜。實際上,這仍是一個需要進行認真研究的問題。除了實施方面的原因外,當(dāng)n大時,的計算也極其困難,而這對于方差估計是不可少的。嚴格的πPS抽樣實施起來非常復(fù)雜。事實上,只有當(dāng)n=77

二、霍維茨—湯普森估計量及其性質(zhì)對不放回的不等概率抽樣,總體總和Y的估計采用霍維茨(Horvitz)與湯普森(Thompson)提出的以下估計量:注意這個估計量與多項抽樣的漢森—赫維茨估計量非常相似。事實上,對于πPS抽樣,由于,與相應(yīng)PPS抽樣的完全一致。二、霍維茨—湯普森估計量及其性質(zhì)78霍維茨—湯普森估計量具有如下性質(zhì):(1)若,則是Y的無偏估計,且它的方差為:當(dāng)n固定時,又有霍維茨—湯普森估計量具有如下性質(zhì):79(2)若,則是的無偏估計。又當(dāng)n固定時,以下的耶茨(Yates)—格倫迪(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論