抽樣調(diào)查系統(tǒng)抽樣_第1頁
抽樣調(diào)查系統(tǒng)抽樣_第2頁
抽樣調(diào)查系統(tǒng)抽樣_第3頁
抽樣調(diào)查系統(tǒng)抽樣_第4頁
抽樣調(diào)查系統(tǒng)抽樣_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

§6.1引言定義定義6.1系統(tǒng)抽樣(systematicsampling)又稱為等距抽樣、機(jī)械抽樣。按照這種抽樣方法,從總體中抽取第一個樣本點(隨機(jī)起點),然后按某種固定的順序和規(guī)律依次抽取其余的樣本點,最終構(gòu)成樣本。這種抽樣被稱為系統(tǒng)抽樣是因為這種抽樣的第一個樣本點雖然隨機(jī),但其余樣本點的抽取看起來好像不再隨機(jī),因而是系統(tǒng)的?!盃恳话l(fā)而動全身”。比如要對居民用戶抽樣,可按戶口冊每隔多少戶抽一戶;工廠為檢查產(chǎn)品質(zhì)量,在連續(xù)的生產(chǎn)線上每隔20分鐘抽選一個或若干個樣品進(jìn)行檢查;農(nóng)業(yè)上為估計農(nóng)作物產(chǎn)量或病蟲危害,對一大片農(nóng)田每隔一定距離抽取一塊進(jìn)行實際測量或調(diào)查,等等。本章只作簡單方法介紹。更多內(nèi)容參見文獻(xiàn)2、文獻(xiàn)3。系統(tǒng)抽樣的一般方法定義6.3直線等距抽樣假設(shè)總體單元數(shù)為,樣本容量為,為的整數(shù)倍。把總體單元排列成一直線。先計算出系統(tǒng)抽樣間隔,(當(dāng)不是的整數(shù)倍時,可令k等于最接近的整數(shù))。然后在第一階段1~k個單元中隨機(jī)抽取一個單元,假設(shè)為r,然后每隔k個單元抽取一個單元,即分別為:r+k,r+2k,…….,直至抽取了n個單元。抽取的樣本編號為:r+(j-1)k(j=1,2,…,n)。12…r……kk+1k+2…k+r……2k2k+12k+2…2k+r……3k…kkkkk+r2k+r(n-1)k+rrk(k為抽取間隔)例如某學(xué)院有200個學(xué)生,要抽取10個學(xué)生作為樣本。首先計算=20,然后在1~20中隨機(jī)抽取一個數(shù)字,假設(shè)抽中排列中第3位的學(xué)生,則其它入樣單元依次為23,43,63,83,103,123,143,163,183。定義6.4圓形等距抽樣(Lahiri)這種方法主要適用于不為整數(shù)時。因為當(dāng)k不為整數(shù),取其最接近的整數(shù)時,實際樣本容量可能與n相差1,而且每個單元入樣的概率不等,這時用直線等距抽樣可能產(chǎn)生偏倚。例:設(shè)總體N=10,其標(biāo)志值分別為,總體均值為。若要求樣本容量為n=3,采用直線等距抽樣,驗證樣本均值是否為總體均值的無偏估計?解:先計算間距….,取k=3,在1~3中取一個隨機(jī)起點,然后每隔3個單元抽取1個單元可得下列的可能樣本:三個可能的系統(tǒng)抽樣樣本均值分別為:,,所有=,因此樣本均值不是總體均值的無偏估計。在這種情況下,樣本均值將不等于總體均值,因而估計不是無偏的。為了使得樣本均值是總體均值無偏估計,將個總體單元排成首尾相接的一個圓。抽樣間距k取最接近的整數(shù),從1——中隨機(jī)抽取一個隨機(jī)起點作為起始單元,然后每隔k個抽取一個,直到抽取n個為止。如果序號大于時,將其減去得到的在1——中的號碼入選。正是因為排列為圓形而非直線且隨機(jī)起點在1~N中而非在1~[k](或[k]+1)中,導(dǎo)致了該抽樣下的每個樣本嚴(yán)格等概率地被抽中,因而估計是無偏的。若是圓形等距抽樣,則在1~10中抽取一個隨機(jī)起點,假設(shè)為7,然后每隔3個單元取一個,它們的序號是7、10、13。事實上是、、入樣??紤]到實際問題中,n通常比較大(大于等與50),多一個少一個并無關(guān)宏旨,因此可以不必考慮N/n不是整數(shù)的影響,故通常我們都假定N是n的整數(shù)倍。3不等概率抽樣法不等概率抽樣中每個單元入樣的概率不相等。最簡單也是最常用的是系統(tǒng)抽樣,即入樣的概率與單元規(guī)模大小成比例的系統(tǒng)抽樣。令表示所有單元規(guī)模大小總和,則(包含概率,見不放回不等概率抽樣)。在實際中,不等概率的實施常采用代碼法。如下所示:先將單元規(guī)模(不失一般性,設(shè)其為整數(shù))值累加,欲從總體中抽取容量為n的樣本,取最接近的整數(shù)k為抽樣間距,從[1,k]中隨機(jī)抽取一個整數(shù)r作為起點,則代碼r,r+k,…,r+(n-1)k所對應(yīng)的單元入樣。設(shè)總體由10個行政村組成,N=10,每個行政村人數(shù)為,見表7.1。利用系統(tǒng)抽樣抽取n=3個行政村樣本。表7.1用系統(tǒng)抽樣抽取行政村行政村編號人數(shù)累計人數(shù)抽中號碼12345678910合計103432962468473205168146317187010353563187796110341239140715531870100*723*1346*,從1~623中抽取一整數(shù),例如是,則,,所對應(yīng)的行政村入樣,其序號分別為1、4、8。這種方法,當(dāng)所有單元規(guī)模時,每個單元不可能重復(fù),是一種不重復(fù)抽樣;當(dāng)時(超過抽樣間隔),第i個單元為必然被抽中單元,且有可能重復(fù)抽中;當(dāng),第i個單元為必然被重復(fù)抽中。實際中應(yīng)盡量避免這種重復(fù)抽中現(xiàn)象。一種簡單的方法就是把這種大規(guī)模單元作為必然調(diào)查單元,不再列入抽樣總體,另一種方法是將大規(guī)模單元劃分為幾個小規(guī)模單元??傮w單元排序1按無關(guān)標(biāo)志排序,如調(diào)查學(xué)生視力,按學(xué)號排列,顯然視力與學(xué)號沒有關(guān)系2按有關(guān)標(biāo)志排序調(diào)查身高時,按入校體檢的身高順序排列3介于以上兩者之間系統(tǒng)抽樣的優(yōu)缺點優(yōu)點:系統(tǒng)抽樣是實際中常用的一種抽樣方法,1其簡單易行,只要確定起點和間距,便于推廣2便于利用已知信息,系統(tǒng)抽樣的誤差大小與總體單元的排列順序有關(guān),因此當(dāng)對總體的結(jié)構(gòu)有一定的認(rèn)識了解,并有相關(guān)的標(biāo)志可以利用時,可以運用已知的信息先對總體單元進(jìn)行排列,再采用系統(tǒng)抽樣,就能提高系統(tǒng)抽樣的效率。但缺點也很明顯:1方差復(fù)雜,難以估計2如果單元排列存在周期性,而抽樣者缺乏對此了解,則很容易抽取出的樣本代表性很差。例如,要調(diào)查70路每天的客流量,采用系統(tǒng)抽樣,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,還是星期六到星期日中的哪天作為起點,樣本代表性都很差。系統(tǒng)抽樣與整群抽樣和分層抽樣的關(guān)系系統(tǒng)抽樣可以看作特殊的整群抽樣和分層抽樣表6-1系統(tǒng)抽樣的總體單元123…j…n行平均123rk列平均………………見下表6-1,如果將每一行單元視為一個群,則總體由k個群組成,每個群規(guī)模大小都為n。系統(tǒng)抽樣從,,…,中任選一個,被選中的單元所在行的所有單元就構(gòu)成系統(tǒng)抽樣的樣本。顯然每個群都是可能的樣本。因此系統(tǒng)抽樣可以看成從k個群中隨機(jī)抽取1個群的整群抽樣。同樣將每一列視為一層,則總體由n個層組成,每個層大小都為k。系統(tǒng)抽樣可以看作從每個層中抽取一個單元的分層抽樣,但由于樣本單元在各層位置相同,因此系統(tǒng)抽樣不同與分層抽樣。表6-2系統(tǒng)抽樣總體單元重新編號12…j…n群平均12rk層平均……………§6.2等概率系統(tǒng)抽樣估計量為討論方便,今后總是設(shè)。符號說明第r行第j列單元指標(biāo),對照表6-2換個排序方式有總體單元數(shù)N;樣本單元數(shù)n總體方差總體(群)均值,(每行均值)樣本(群)均值,系統(tǒng)樣本均值,總體層均值,,或,(每列均值)6.2.2估計量假設(shè)起始點為r,則相應(yīng)的系統(tǒng)樣本的平均值為,(6.1)(群內(nèi)普查)取系統(tǒng)樣本平均值作為總體均值的估計量,即:=(6.2)(由于群內(nèi)普查)當(dāng),有k個可能樣本,因此是無偏估計。(6.9)(方差定義)用系統(tǒng)樣本(群)內(nèi)方差表示為系統(tǒng)樣本(群)內(nèi)方差(類似整群抽樣中的定義)因為系統(tǒng)抽樣相當(dāng)于抽取一個群的整群抽樣,因此群內(nèi)的單元差異大小,也即系統(tǒng)樣本內(nèi)的差異大小會直接影響系統(tǒng)抽樣的效果,故定義了系統(tǒng)樣本(群)內(nèi)方差,它反映了所有k個可能系統(tǒng)樣本內(nèi)的方差大小。因此可以想象,和整群抽樣一樣,系統(tǒng)樣本內(nèi)方差愈大,抽樣效率愈高。注意此習(xí)慣敘述,(大寫)本該表示總體,由于群內(nèi)普查,這里的特殊性在于所謂的“系統(tǒng)樣本”實際是表6-2中行表示的總體群。(6.10)證明:(交叉項為0)兩邊同除以,根據(jù)方差定義和定義,得到#如果直接用簡單隨機(jī)抽樣,則,作差:,于是對于固定總體,總體方差是唯一固定的,因此系統(tǒng)樣本內(nèi)方差越大,系統(tǒng)抽樣精度越高。故為了提高系統(tǒng)抽樣的精度,總體單元的排列應(yīng)盡可能增大樣本(群)內(nèi)方差,使得群內(nèi)基本單元樣本差異比較大。系統(tǒng)抽樣可以看作特殊整群抽樣,其方差可用樣本(群)內(nèi)相關(guān)系數(shù)表示其中系統(tǒng)樣本(群)內(nèi)相關(guān)系數(shù)(系統(tǒng)樣本內(nèi)各單位兩兩之間的相關(guān)系數(shù))為(類似4.9)證明:總體單元數(shù)群內(nèi)單元數(shù)總體群數(shù)樣本群數(shù)總體均值估計量群內(nèi)相關(guān)系數(shù)系統(tǒng)抽樣整群抽樣NNMnMkN1n、、由整群抽樣,(P141,4.11)。#由看出,系統(tǒng)樣本(群)內(nèi)正相關(guān)性越大,即樣本(群)內(nèi)單元越相似,則估計量方差越大,系統(tǒng)抽樣精度越差,這與定理6.2結(jié)論一致。系統(tǒng)抽樣可看成特殊的分層抽樣,其方差可以用層內(nèi)方差和表示定義:總體層內(nèi)方差總體(層)內(nèi)相關(guān)系數(shù):同一系統(tǒng)樣本內(nèi)對層均值離差的相關(guān)系數(shù),系統(tǒng)樣本內(nèi)各單元兩兩之間分別與各自層的平均數(shù)相比較而計算的相關(guān)系數(shù)?!簩τ诠潭ǖ娜?,兩個不同單元離差乘積共有個組合,所以總體這樣的離差乘積有個,因此上式分子為分母應(yīng)為對個基本單元的對所在層的層均值離差平方求平均,因此可以表示為,于是』證明:由表6.2可以看出,系統(tǒng)抽樣可以看作一種特殊的分層抽樣,共n層,每層均為k個單元(規(guī)模相等),從每層固定同一位置各取1個單元作為樣本。,而根據(jù)(),兩邊同乘以,有=+,因此公式成立。#比較系統(tǒng)抽樣方差與比例分配的分層隨機(jī)抽樣方差(即),作商:,因此,。從前面的系統(tǒng)抽樣排列的方陣看出,如果按有關(guān)標(biāo)志排列后采用直線等距抽樣,系統(tǒng)樣本中的單位往往會同時大于所在各層的均值,或同時小于所在各層的均值,造成;因而需考慮適當(dāng)?shù)母倪M(jìn)抽樣方式,使得盡可能滿足。例設(shè)某個模擬總體有N=32個單元,總體單元排列顯然有穩(wěn)定上升趨勢。我們要抽取一個容量為4的等距樣本。將總體單元排列如下表7.4,k=8,n=4。每一列是一個等距樣本,共有8個等距樣本。表層ⅠⅡⅢⅣ等距樣本編號層均值層內(nèi)方差1234567817172718182838203031120314122434514243461625367162738群均值1322可以看出,層內(nèi)正相關(guān),前四個樣本對各層均值離差均小于0,后4個樣本與各層均值離差均大于0,所以(同一層內(nèi)兩不同單元離差乘積,累積),因此系統(tǒng)抽樣精度要低于分層抽樣。有:例利用上例,將第二層和第四層觀察值調(diào)換,見表表層ⅠⅡⅢⅣ等距樣本編號層均值層內(nèi)方差1234567811617381161836314203431220344112431582430682528772727群均值1868可以看出,等距樣本內(nèi)數(shù)據(jù)對各層均值離差有正有負(fù)。造成,因此系統(tǒng)抽樣精度要高于分層隨機(jī)抽樣。此時,沒有影響、。但等距抽樣均值的方差??梢娤到y(tǒng)抽樣的效率很大程度上取決于總體的特征。P200見PPT§6.3不同特征總體的系統(tǒng)抽樣隨機(jī)次序排列第總體系統(tǒng)抽樣的方差決定于單元的排列順序,它是不穩(wěn)定的,因為不同的排列順序會使系統(tǒng)樣本內(nèi)的方差發(fā)生變動,得到不同的抽樣方差可能大于相應(yīng)簡單隨機(jī)抽樣的方差,也可能小于相應(yīng)當(dāng)簡單隨機(jī)抽樣的方差。例如,若總體共有N個基本單元,則總體共有種排列方式,其中任何一種固定的排列方式對應(yīng)的系統(tǒng)抽樣其抽樣方差可能大于也可能小于簡單隨機(jī)抽樣。但從平均意義上講,系統(tǒng)抽樣方差與簡單隨機(jī)抽樣方差相等。即,詳見文獻(xiàn):杜子芳《抽樣技術(shù)及其應(yīng)用》,P390。因此,可以用簡單隨機(jī)抽樣的方差作為系統(tǒng)抽樣的方差估計:,比如總體按照無關(guān)標(biāo)志排列,可以看作隨機(jī)排列的,因此系統(tǒng)樣本內(nèi)方差和總體方差相差不大,系統(tǒng)抽樣的方差也就接近簡單抽樣的方差。對于很多客觀總體,并不存在或很難找到與目標(biāo)變量相關(guān)的輔助變量作為排列依據(jù),于是只能借助原來的自然順序或按無關(guān)變量進(jìn)行排列,這時就是所謂的隨機(jī)次序排列。例:某鄉(xiāng)村公路兩旁種植了20000棵小樹,一年后檢查小樹的成活率。采用系統(tǒng)抽樣的方法,先在1~100棵樹之間隨機(jī)地抽取一棵樹作為起點,然后每隔100棵抽選1棵,一共抽取了200棵樹作為樣本,發(fā)現(xiàn)其中成活174棵,估計成活率的95%的置信區(qū)間。解:,方差用簡單估計量的方差估計=0.00056266,,82.6%~91.74%。線性趨勢的總體1線性趨勢總體若總體單元按指標(biāo)從小到大順序排列或按某個與其有線性關(guān)系的輔助變量的大小順序排列,此時指標(biāo)值與單元序號也是線性相關(guān)。一般地,對于線性趨勢總體,系統(tǒng)抽樣優(yōu)于簡單隨機(jī)抽樣,但比分層抽樣差。為了說明問題,我們不妨假設(shè)其指標(biāo)變量為簡單線性函數(shù)。()。做變化得到,,所以:,,從而:;因為每層含有k個單元,每個單元相差1,有n個層,因此方差相同,即有:,每層抽1個單元,等同于按比例分配樣本的分層抽樣,;最后,比較三者關(guān)系有,在實際問題中,當(dāng)然不可能完全按指標(biāo)值的大小順序排列,只能找到一些與指標(biāo)值相關(guān)的變量進(jìn)行排序,當(dāng)然也不可能是完全線性的趨勢,但是系統(tǒng)抽樣的效率總會高于簡單隨機(jī)抽樣。因此如果采用簡單隨機(jī)抽樣的誤差公式,這將是一個比較保守的估計。也就是說,實際誤差應(yīng)該沒有估計那么大,因此統(tǒng)計學(xué)家們提出了一些改進(jìn)估計方差的公式。見后文。2對線性趨勢總體的系統(tǒng)抽樣的改進(jìn)抽樣方法的改進(jìn)中心位置法當(dāng)總體單元的排列呈現(xiàn)線性趨勢,起始單元的位置偏高或偏低會直接影響整個樣本的代表性,為提高抽樣效率,麥多(Madow,1953)提出中心位置法,即初始樣本不是隨機(jī)抽選,而是直接取第一階段的k個單元處于中間位置的單元。當(dāng)為奇數(shù)時,中點??;當(dāng)為偶數(shù)時,中點取或。此種抽樣法雖然可以提高精度,但對于一定順序排列的總體,樣本是確定的,失去了隨機(jī)性。尤其對同樣問題進(jìn)行連續(xù)性調(diào)查,樣本老化,會帶來較大不利影響。例如某學(xué)院共有200個學(xué)生,要抽取10個學(xué)生作樣本,抽樣間距為。如果采取中心抽樣法,起始樣本就是第10個學(xué)生,其余樣本單元依次為第30,50,70,90,110,130,150,170,190位學(xué)生。對稱系統(tǒng)抽樣(1)塞蒂(Sethi,1965)對稱系統(tǒng)抽樣這時一種分組對稱方法。當(dāng),為偶數(shù)時,將總體分為組,每組含有個單元,在各段內(nèi)隨機(jī)抽取與兩端等距地兩個單元作為樣本,一端靠近低端,一端靠近高端。假設(shè)起始隨機(jī)數(shù)為,入樣的單元為::,當(dāng)為奇數(shù),仍按上述步驟進(jìn)行,但到后,增加靠近終端的一個單元,。仍是從200個學(xué)生中抽取10個作為樣本,將總體分為段,1~40,41~80,81~120,121~160,161~200。假設(shè)隨機(jī)起點為3,則樣本單元依次為第3,38;43,78;83,118;123,158;163,198位學(xué)生。(2)辛(Singn,1968)對稱系統(tǒng)抽樣這種方法是每次選取與總體的兩端相對稱的單元。假當(dāng),為偶數(shù)時,設(shè)起始隨機(jī)數(shù)為,入樣的單元為::,。當(dāng)為奇數(shù),仍按上述步驟進(jìn)行,但到后,增加靠近中間的一個單元。假設(shè)從300位學(xué)生中抽取15個作為樣本,則,抽樣間距為。假設(shè)隨機(jī)起點為3,則樣本單元依次為第3,298;23,278;43,258;63,238;83,218;103,198;123,178;143。3估計量改進(jìn)首尾校正法(Yates,1948;Bellhouse&Rao,1975)針對情形,假設(shè)隨機(jī)起點樣本單元編號為,則首樣本單元的權(quán)重為尾樣本單元的權(quán)重為其它樣本權(quán)重為首尾校正法修正后的估計量為針對情形,假設(shè)隨機(jī)起點樣本單元編號為,如果滿足,則所有個樣本單元都不經(jīng)過單元,相應(yīng)權(quán)重如下:首樣本單元的權(quán)重為()尾樣本單元的權(quán)重為()其它樣本權(quán)重為如果滿足,則有樣本單元都越過單元,假設(shè)越過單元的樣本有個,相應(yīng)權(quán)重如下:首樣本單元的權(quán)重為()尾樣本單元的權(quán)重為()其它樣本權(quán)重為總體有個單元,擬抽取個樣本,則,取與之最接近的整數(shù)。然后在總體中隨機(jī)抽取一個起點,假設(shè),樣本單元的順序編號分別為:19,1,6,11,16。首樣本單元,尾樣本單元。求相應(yīng)單元的權(quán)重。解:由于首樣本單元的權(quán)重為尾樣本單元的權(quán)重為、周期波動的總體周期波動是指總體單元指標(biāo)按其順序呈現(xiàn)周期變化。例如,商店的日銷售量一般以7為周期變化,城市交通以24小時為周期變化。等等。對周期變化的總體,使用系統(tǒng)抽樣要特別注意。抽樣的間距盡量不要等于周期,一般取半周期。通常采用交叉法,即在同一個總體中獨立地取多個樣本,再將幾個樣本合并計算估計量及方差。§6.4系統(tǒng)抽樣的方差估

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論