第四章-整群抽樣課件_第1頁
第四章-整群抽樣課件_第2頁
第四章-整群抽樣課件_第3頁
第四章-整群抽樣課件_第4頁
第四章-整群抽樣課件_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四章整群抽樣4.1引言4.2群規(guī)模相等時的估計4.3總體比例的估計6/9/20231第一節(jié)引言一.整群抽樣的定義與特點(一)定義整群抽樣(clustersampling)或集團抽樣,是將總體劃分為若干群,然后以群為抽樣單元,從總體中隨機抽取一部分群,對中選群中的所有基本單元進行調(diào)查的一種抽樣技術(shù)。6/9/20232【例1】對某校的學生思想或身體情況進行調(diào)查:

某校學生學生宿舍宿舍學生估計某居民區(qū)現(xiàn)有的電話擁有率全體居民若干幢樓居民【例2】某地小學生的視力狀況進行調(diào)查【例3】

某地小學生某所小學小學生6/9/20233整群抽樣是由一階抽樣向多階段抽樣過渡的橋梁。此章介紹的是單階段整群抽樣。

注:多階段抽樣與多階段整群抽樣的不同。

(二)特點

1.抽樣框編制得以簡化。在大規(guī)模抽樣調(diào)查中,常常沒有或很難編制出包括總體所有次級單元在內(nèi)的抽樣框,而整群抽樣則不需要編制龐大的抽樣框。因此,在缺少基本單元名單,但群有現(xiàn)成的名單或明顯的空間界限時使用此方法很方便。

6/9/20234【例】某市有100所小學共50,000名學生,要從中抽2000名學生顯然是困難的,而若以小學為單位抽取若干小學,再對抽中的學校的全體學生進行調(diào)查就簡化了.【例】調(diào)查農(nóng)村居民住戶,不必列出農(nóng)村所有居民住戶的抽樣框,可以利用現(xiàn)成的行政區(qū)域,如縣、鄉(xiāng)、村,將農(nóng)村劃分為若干群,這給抽樣設(shè)計方案帶來很大方便。

即使具備總體基本單元的名單,能直接抽取,但總體基本單元在空間上的分布面很廣,那么選定調(diào)查單位后的調(diào)查工作卻可能相當大。如果是實地觀測調(diào)查費用則很高,并需要較長的時間。2.實施調(diào)查便利,節(jié)省費用。6/9/20235對于整群抽樣,由于樣本單元的分布相對較集中,在樣本單元數(shù)相同的條件下,整群抽樣與簡單隨機抽樣相比,雖然樣本的代表性較差,但調(diào)查組織實施過程更加便利,同時還可以大大地節(jié)省調(diào)查費用。因此,實際工作中,在權(quán)衡費用和精度之后,有時寧可適當增加一些樣本單元數(shù),也采用整群抽樣方法。6/9/20236例如,在進行農(nóng)村居民戶收入情況調(diào)查時,在一個縣抽千分之五的村莊,對其所有居民戶進行調(diào)查,明顯地比從全縣直接抽千分之五的農(nóng)戶進行調(diào)查,更便于組織,節(jié)省人力、旅途往返時間及費用。6/9/202373.整群抽樣的隨機性體現(xiàn)在群與群間不重疊,也無遺漏,總體任何一個基本單元都必須且只能歸于某一群,群的抽選按概率確定。4.如果把每一個群看作一個單位,則整群抽樣可以被理解為是一種特殊的簡單隨機抽樣。理解這一點對給出整群抽樣的估計量的方差有幫助.5.整群抽樣也是多階段抽樣的前提和基礎(chǔ)。6/9/202386.整群抽樣有特殊的用途。有些現(xiàn)象的研究,如果直接調(diào)查作為基本單元的個體,很難說明問題,必須以一定范圍所包括的基本單元為群體,進行整群抽樣,才能滿足調(diào)查的目的。例1:

人口普查后的復查、要想估計出普查的差錯率,只有通過對一定地理區(qū)域(如省,市,縣,街道等)內(nèi)的人口群體作全面調(diào)查才行。類似地諸如人口出生率、流動率等調(diào)查都需要采用整群抽樣。例2:

對某地人口性別比例的調(diào)查,以家庭作為群比直接抽取個人進行估計精度要高,因為家庭的結(jié)構(gòu)基本相似。7.整群抽樣要求分群后各群所含次級單元數(shù)目應該確知,否則會給抽樣推斷帶來不便。6/9/20239缺點:

整群抽樣由于調(diào)查單位只能集中在若干群上,而不能均勻分布在總體的各個部分,因此,它的精度比起簡單隨機抽樣來要低一些。例如,在一個有500個村莊、100000個農(nóng)戶的縣,抽取1%的農(nóng)戶就是1000戶,而抽1%的村莊則只有5個村莊,也許抽到的5個村莊農(nóng)戶多于1000,但由于樣本單位只集中在5個村莊,顯然不如在全縣范圍內(nèi)簡單隨機抽取1000戶分布均勻,代表性一般要差一些,抽樣誤差較大。6/9/202310當然,由于整群抽樣省時省力,每個單元的平均調(diào)查費用較少,我們可以通過多抽幾個群,適當增大樣本量的方法彌補估計精度的損失。6/9/202311

二.群的劃分

1.根據(jù)行政或地域形成的群體;

如:村莊、城鎮(zhèn)、一片森林等

2.調(diào)查人員人為確定的;

對可控制規(guī)模的群,群規(guī)模不宜過大6/9/202312分群的原則:劃分群時應使群內(nèi)方差盡可能大,群間方差盡可能小。(注意:這一點與分層抽樣中總體內(nèi)層的劃分有著極大的差別)這意味著每個群均具有足夠的代表性。如果劃分的群相互之間頗多相似之處,那么少量群的抽取足以提供良好的精度。6/9/202313分析:

整群抽樣對于群而言是非全面調(diào)查,對于被抽中群內(nèi)基本單元而言則是全面調(diào)查,是“先部分,后全體”的抽樣組織形式,與分層抽樣正好相反。根據(jù)方差分析原理,當總體劃分為群后,總體方差可以分解為群間方差和群內(nèi)方差兩部分。這兩部分是此消彼長的關(guān)系。由于整群抽樣是對入選群中的所有單元都進行調(diào)查,因此影響整群抽樣誤差的主要是群間方差。為了提高整群抽樣估計的精度,劃分群時應使群內(nèi)方差盡可能大,群間方差盡可能小。6/9/202314群間相似群間差異較大6/9/202315

三.群的規(guī)模即組成群的單元的數(shù)量。

整群抽樣中,如何有效地對群的大小進行計量,直接關(guān)系到抽樣估計效率的高低。研究表明,對群的大小的最優(yōu)計量尺度是各群在所研究標志上的標志總量大小。但在實際工作中,它是未知的。因此通常選擇與所研究標志高度線性相關(guān)的另一輔助標志作為計量尺度。

6/9/202316注:整群抽樣與分層抽樣的的比較二者在分組(層或群)的條件、調(diào)查的方式、分組(層或群)的目的、分組(層或群)的原則、總體方差的分解等方面都存在著較為明顯的差別。6/9/202317群的規(guī)模大,估計的精度差但費用省;群的規(guī)模小,估計的精度高但費用增大。

通常我們面臨的總體會有自然的初級單元,例如各所中學它們互相之間關(guān)于學生的體質(zhì)很相似,但在一個學校里每個學生之間有一定的差異。倘若需要我們自行劃分群,一般還要考慮到組織管理上的方便、精度上的要求以及費用的多少等因素。6/9/202318當各群所含次級單元數(shù)相等時,就稱群的大小相等;當各群所含次級單元數(shù)不相等時,就稱群的大小不相等。當群的大小接近時,常采用簡單隨機抽樣抽取群;當群的大小相差比較大時,為提高效率則更多地采用不等概率(按與群的大小成比例的概率抽樣)方法。6/9/202319第二節(jié)群規(guī)模相等時的估計一.符號說明總體有N個群,每個群包含的單元數(shù)M相等(或相近)。

符號:總體群數(shù):N樣本群數(shù):n總體第i群中第j個單元的指標值:樣本第i群中第j個單元的指標值:第i群中的單元數(shù):6/9/202320總體中單元總數(shù):總體中第i群的群總值:樣本中第i群的群總值:總體中第i群的個體均值:6/9/202321樣本中第i群的個體均值:

總體中的群均值:

樣本中的群均值:

總體中的個體均值:6/9/202322樣本中的個體均值:總體方差:總體群間方差:6/9/202323總體群內(nèi)方差:樣本方差:

樣本群間方差:樣本群內(nèi)方差:6/9/202324

總體ANOVA(方差分析)表---群規(guī)模相等的整群抽樣來源自由度平方和均方群間群內(nèi)

N-1N(M-1)總計NM-16/9/202325二.估計量整群抽樣是以群為單位進行抽樣,如果群的抽取是簡單隨機的,則當群的大小都相等時,可以將簡單隨機抽樣理解為是一種特殊的整群抽樣,特別當總體分群后的每個群都只包括一個次級單元時,整群抽樣和簡單隨機抽樣一致。因此,整群抽樣的估計量可以比照簡單隨機抽樣方式來構(gòu)造。6/9/202326(一)均值估計量的定義在群的抽取是簡單隨機的,且群的大小(M)相等,則總體均值的估計為:6/9/202327(二)估計量的性質(zhì)性質(zhì)1

的無偏估計.性質(zhì)2的方差為:6/9/202328證明:因為,則6/9/202329總體總值的估計量及相應的方差為:性質(zhì)3的樣本估計為:6/9/202330三、整群抽樣效率分析整群抽樣的估計精度與群內(nèi)相關(guān)系數(shù)有關(guān)。分子可寫成:6/9/202331分母可寫成:于是又可以寫成:6/9/202332的方差可以用群內(nèi)相關(guān)系數(shù)近似表示:(當N-1=N,NM-1=NM時)6/9/202333其中:6/9/202334若采用簡單隨機抽樣,則樣本均值的方差為:等群抽樣的設(shè)計效應為:說明整群抽樣的方差約為簡單隨機抽樣方差的倍.6/9/202335另外,群內(nèi)相關(guān)系數(shù)也可以用群內(nèi)方差和群間方差表示:6/9/202336證明:因為而

于是(1)6/9/202337

當N很大,而M相對于NM很小,NM-1NM-M,則上式可寫成:又因為(2)(3)總離差的分解群間方差群內(nèi)方差6/9/202338則將其代入(1),(2)式,便有由(3)式(4)(5)6/9/202339因為是的無偏估計,是的無偏估計,故由(6)、(2)或(5)式整理得

N很大時(6)6/9/202340整群抽樣的估計效率,與群內(nèi)相關(guān)系數(shù)關(guān)系密切。

如果群內(nèi)各單元的值都相等,則群內(nèi)方差等于零,此時為最大值,deff=M,即整群抽樣的估計量方差是簡單隨機抽樣估計量的方差的M倍;

若群內(nèi)方差與總體方差相等,意味著分群是完全隨機的,此時,,deff=1,整群抽樣與簡單隨機抽樣估計效率相同;

當群內(nèi)方差大于總體方差時,為負值,deff<1,整群抽樣的效率高于簡單隨機抽樣。6/9/202341當群間方差等于0,即各群均值都相等時,

有極小值,所以的取值范圍是。

當=1時,deff=M

當=0時,deff=1

當為負時,deff<1

群內(nèi)方差為0群間方差為0群內(nèi)方差大于總體方差相等6/9/202342【例】在一次對某寄宿中學在校生零化錢的調(diào)查中,以寄宿作為群進行整群抽樣。每個宿舍有6名學生。用簡單隨機抽樣在全部315間宿舍中抽取n=8間宿舍。全部48個學生上周每人的零化錢及相關(guān)計算數(shù)據(jù)如下頁表,試估計該學校平均每個學生每周的零化錢,并給出其95%的置信區(qū)間。6/9/2023438個宿舍48名學生每周零化錢支出額(元)宿舍1宿舍2宿舍3宿舍4宿舍5宿舍6宿舍7宿舍8學生158911239911011112096學生28383891059910011580學生37479949813211611763學生482111109107879999130學生5661017912999107106105學生68769809012410512086758995.67104.67108.5106.33112.8393.33125.6233.6299.07177.87287.542.2772.57527.876/9/202344解:N=315n=8M=6f=n/N=0.02546/9/202345置信區(qū)間:【例】估計上例中宿舍為群的群內(nèi)相關(guān)系數(shù)與設(shè)計效應。6/9/2023466/9/202347

deff=1+(M-1)=1+(6-1)0.348256=2.741若采用簡單隨機抽樣,其樣本量為:6/9/202348

【練習題】在一次某城市居民小區(qū)居民食品消費量調(diào)查中,以每個樓層(相當于居民小組)為群進行整群抽樣。每個樓層都有M=8個住戶。用簡單隨機抽樣在全部N=510個樓層中抽取n=12個樓層。全部96個樣本戶人均月食品消費額yij及按樓層的平均數(shù)與標準差si如下表所示。試估計該居民小區(qū)人均食品消費額的戶平均值,并給出其95%的置信區(qū)間,計算群內(nèi)相關(guān)系數(shù)與設(shè)計效應6/9/20234912個樓層96戶居民人均月食品消費額資料

iyijsi123456789101112240,187,162,185,206,197,154,173210,192,184,148,186,175,169,180149,168,145,130,170,144,125,167202,187,166,232,205,263,198,210210,285,308,198,264,275,183,231394,256,192,280,267,334,216,289192,121,172,165,152,224,195,241230,205,187,176,212,253,189,240274,208,195,307,264,258,210,309232,187,150,182,175,212,169,222342,294,267,309,258,198,244,286228,294,182,312,267,254,232,298188.00180.50149.75207.875244.25278.50182.75211.50253.125191.125274.75258.37527.1917.9817.3229.1745.2063.8738.7727.4844.5228.2943.7043.526/9/202350解:已知N=510,n=12,M=8,f=n/N=0.0235故6/9/202351于是的置信度為95%的置信區(qū)間為也即6/9/202352例2由例1數(shù)據(jù),計算群內(nèi)相關(guān)系數(shù)與設(shè)計效應解:由前已算出樣本群間方差而群內(nèi)方差為6/9/2023536/9/202354若令為簡單隨機抽樣的樣本量則即可達到整群抽樣96戶樣本量相同的估計精度6/9/202355第三節(jié)群規(guī)模不等的估計一、等概抽樣,簡單估計條件:群之間的規(guī)模差異相差不很大對總體均值的估計為:的方差估計為:當群Mi規(guī)模不等時,有不同的抽取方法和估計方法6/9/202356此法特點1.估計量是有偏的2.操作簡便,易于掌握和使用3.適用條件,群之間的規(guī)模差異不大時6/9/202357二、等概抽樣,加權(quán)估計思路:

以群規(guī)模Mi為權(quán)數(shù),乘以各群均值得到群觀察值總和yi.再將樣本中n個群的總和平均,求得群總和均值,再除以群平均規(guī)模,

求得均值估計.6/9/202358如果總體平均規(guī)模未知,可以用樣本平均規(guī)模代替.6/9/202359總體的總量Y的估計:

或為總體中的個體單元總數(shù).

方差:6/9/202360它的無偏估計為:均值的方差:6/9/202361特點:

此種方法由于考慮了群規(guī)模,所以估計量是無偏估計量。在估計精度方面,如果群規(guī)模差別很大時,該方法與前一種方法相比沒有明顯改觀。三、等概抽樣,比率估計該種方法適合大樣本量情況。

總體均值:這里輔助變量不是Xi而是群規(guī)模Mi6/9/202362它是一個有偏估計。當樣本群數(shù)n很大時,其偏倚很小,可以忽略不計??傮w總值Y的比率估計為:

6/9/202363估計量的方差分別是:

對比6/9/202364由方差公式可以看出,估計量的方差取決于群的個體均值的差異。所以,盡管群的規(guī)模差異可能很大,但之間的差異比之間的差異要小得多。因此,與前一種方法相比,在大樣本量情況下,比率估計的精度要更高一些。的樣本估計分別為:6/9/202365及

6/9/202366四、方法比較【例】某縣有33個鄉(xiāng),共726個村,該年度某農(nóng)作物種植面積為30525畝。(見下表)現(xiàn)采用等概抽樣隨機抽取10個鄉(xiāng)進行該種農(nóng)作物的產(chǎn)量調(diào)查,根據(jù)下面的資料估計全縣總產(chǎn)量以及估計量標準差,并對上述方法進行比較分析。6/9/202367樣本鄉(xiāng)編號村莊數(shù)農(nóng)作物總產(chǎn)量(鄉(xiāng))yi(萬公斤)種植面積(鄉(xiāng))xi(畝)115228001.466721822.87801.266732630.210001.161541421.77001.5552025.38801.26562831.211001.1143721268501.238181920.58001.07993133.812001.0903101723.68301.3882合計209257.18940_6/9/202368解:1、用等概抽樣,簡單估計:平均每個村的產(chǎn)量為:=726*1.262=916.212(萬公斤)6/9/202369由上述計算結(jié)果可知:此種方法的估計過程雖不復雜,但卻是有偏估計。

(二)、等概抽樣,加權(quán)估計6/9/202370此種方法雖可獲得無偏估計量,但與前種方法相比,估計量的估計方差沒有改觀,反而有所增大。6/9/202371(三)等概抽樣,比率估計6/9/202372比率估計將群規(guī)模作為輔助變量引入估計,其估計方差取決于群均值的差異。從計算的結(jié)果看,其估計量的方差比上面兩種方法要小,所以比率估計比前兩種方法獲得更好的估計效果,但比率估計是有偏估計,當樣本群數(shù)n較大時,比率估計是比較理想的估計方法。6/9/202373

(四)以其他變量作為輔助變量的比率估計由于目標變量—農(nóng)作物的總產(chǎn)量不僅受村莊數(shù)(群規(guī)模)的影響,而且更受種植面積的影響,下面采用種植面積為輔助變量進行比率估計:6/9/202374評價:與前面幾種方法相比,估計量的估計誤差最小,估計效果最好。因為和相比,更小,因而有更好的估計效果。此種方法不僅用于群規(guī)模相等時的估計,也可用于群規(guī)模不等時的估計。其前提條件是能夠獲得與目標變量關(guān)系密切的輔助變量的總體信息。6/9/202375

【例】某企業(yè)欲估計上季度每位職工的平均病假天數(shù)。該企業(yè)共有8個分廠,現(xiàn)用不等概整群抽樣擬抽取3個分廠為樣本,并以95%的置信度計算其置信區(qū)間。(資料見下表)

解:n=3

在1-12950之間產(chǎn)生隨機數(shù):02011,07972,10281則3,6,8分廠入樣.

調(diào)查得三個分廠的職工的病假天數(shù):y1=4320,y2=4160,y3=57906/9/202376

8個分廠的職工人數(shù)資料分廠編號職工人數(shù)()累積區(qū)間112001—120024501201-1650321001651-375048603751-4610528404611-7450619107451-936073909361-9750832009751-129506/9/202

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論