調(diào)查中的復(fù)雜樣本_第1頁
調(diào)查中的復(fù)雜樣本_第2頁
調(diào)查中的復(fù)雜樣本_第3頁
調(diào)查中的復(fù)雜樣本_第4頁
調(diào)查中的復(fù)雜樣本_第5頁
已閱讀5頁,還剩98頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)于調(diào)查中的復(fù)雜樣本第一頁,共103頁幻燈片第一節(jié)概述重抽樣(復(fù)制樣本),泰勒級數(shù),廣義方差函數(shù)典型抽樣方法?復(fù)雜設(shè)計:多種抽樣方法結(jié)合,多種抽樣框復(fù)雜估計:非線性,無回答調(diào)整,加權(quán)估計,事后分層第二頁,共103頁幻燈片第二節(jié)隨機(jī)組法一.什么是隨機(jī)組法(RandomGroupMethod)

不同的名稱:

replicatesamples重復(fù)樣本

ultimatecluster末級群交叉樣本等

不同的術(shù)語來自于不同的應(yīng)用。第三頁,共103頁幻燈片第四頁,共103頁幻燈片第五頁,共103頁幻燈片第六頁,共103頁幻燈片無偏估計第七頁,共103頁幻燈片第八頁,共103頁幻燈片全樣本估計第九頁,共103頁幻燈片保守估計第十頁,共103頁幻燈片第十一頁,共103頁幻燈片第十二頁,共103頁幻燈片利用隨機(jī)組方法估計拒答率及其方差樣本樣本拒答戶數(shù)合格調(diào)查戶數(shù)拒答戶數(shù)合格調(diào)查戶數(shù)城區(qū)S1S2拒答戶數(shù)合格調(diào)查戶數(shù)拒答戶數(shù)合格調(diào)查戶數(shù)141150371492401493014833814538150總計119444105447第十三頁,共103頁幻燈片第十四頁,共103頁幻燈片172個抽屜64張卡片,卡片可能是可能是合同汽車旅館、飯店、空白卡片等1.總體中約有5000個合同汽車旅館,并準(zhǔn)備抽取約700個單元作總樣本,這樣,總抽樣比約為700/5000,即約7個里面抽1個。所以,每一個抽屜都各增加6張空白卡片,這樣每個抽屜都有70張卡片。2.從每一個抽屜中隨機(jī)抽取一張卡片,組成一個172張卡片的樣本。抽樣在不同的抽屜中是互相獨(dú)立的。

3.按照第2步的方法有放回地再抽取9個樣本,10個樣本(或隨機(jī)組)互相獨(dú)立。

4.結(jié)果有854個汽車旅館被抽入總樣本,向每一個單元寄一張調(diào)查表。其他單元不是合同汽車放館,不屬于被調(diào)查總體。沒有單元被重復(fù)觀測。

5.10天后,對無回答的單元第二次寄調(diào)查表,再過一星期第三次寄調(diào)查表。如果一個單元24天后仍無返回調(diào)查表,就被認(rèn)為是無回答者。

6.將無回答者按隨機(jī)組的數(shù)字順序排列,并從每3個相鄰組中隨機(jī)抽選一個。忽略對隨機(jī)組估計量獨(dú)立性的破壞。第十五頁,共103頁幻燈片第十六頁,共103頁幻燈片第十七頁,共103頁幻燈片總數(shù)第十八頁,共103頁幻燈片=70×(16+3×1)=1330權(quán)數(shù):入樣概率倒數(shù)

=70×94=6580

第一隨機(jī)組中回答者和無回答者子樣本的求和第十九頁,共103頁幻燈片第二十頁,共103頁幻燈片第二十一頁,共103頁幻燈片實(shí)際應(yīng)用中很難實(shí)現(xiàn)多次有放回抽樣,而是把一次樣本隨機(jī)分為k個隨機(jī)組,所以隨機(jī)組相互不獨(dú)立第二十二頁,共103頁幻燈片第二十三頁,共103頁幻燈片4多階段抽樣:來自同一初級抽樣單元(PSU)的所有基本樣本單元的集合:末級群。隨機(jī)組是通過將所有末級群分成組而得到的,具體的劃分方法根據(jù)第一階抽樣方法而定。5如果采用的是二重抽樣,則應(yīng)將第一重樣本劃分成個隨機(jī)組;而第二重樣本則被相應(yīng)地分成隨機(jī)組,即第二重樣本單元所在的隨機(jī)組完全由第一次劃分時決定。第二十四頁,共103頁幻燈片第二十五頁,共103頁幻燈片第二十六頁,共103頁幻燈片第二十七頁,共103頁幻燈片在許多大規(guī)模調(diào)查中偏差通常都不會很大第二十八頁,共103頁幻燈片隨機(jī)組問題的討論涉及兩個主要問題:

1.估計量的方差

2.估計量方差的精度,即對隨機(jī)組方差估計的質(zhì)量評估。

第二十九頁,共103頁幻燈片第三十頁,共103頁幻燈片當(dāng)N,n很大,抽樣比很小時,也可用于不獨(dú)立隨機(jī)組第三十一頁,共103頁幻燈片(1)峰度第三十二頁,共103頁幻燈片由(1)式看出,近似地反比于隨機(jī)組個數(shù)K定理說明CV依賴于兩個因素,和K1.K小,CV則大2.大,CV也大第三十三頁,共103頁幻燈片說明,方差的隨機(jī)組估計的精度,不但依賴k,而且與的分布(從而與)有關(guān)。令m=n/k,如取采用有放回簡單隨機(jī)抽樣,取為a組的樣本均值,則

第三十四頁,共103頁幻燈片這時若抽樣方式為放回PPS抽樣,取為第a組的總體總和的估計量,則第三十五頁,共103頁幻燈片第三十六頁,共103頁幻燈片上述兩種形式蘊(yùn)含了這樣一個事實(shí),從本質(zhì)上講,的形式。m從1開始增長時,峰度明顯減少,但隨m越來越大,峰度的遞減作用減少,因此對越來越大的m,峰度的邊際遞減不足以彌補(bǔ)必要的k的遞減,K對減少CV和提高方差估計精度比組容量m更重要。第三十七頁,共103頁幻燈片第三十八頁,共103頁幻燈片要滿足需要的精度水平

需要什么樣的m和k?估計聽取專家意見根據(jù)經(jīng)驗判斷K增長時費(fèi)用會增加,因此最優(yōu)k的選擇應(yīng)該在費(fèi)用約束下尋找第三十九頁,共103頁幻燈片總結(jié):randomgroupmethods優(yōu)點(diǎn):計算簡單,適用面廣適于多參數(shù)、非參數(shù)問題,適于分中位數(shù)等非平滑函數(shù),也可用于非抽樣誤差加權(quán)調(diào)整后的方差估計。缺點(diǎn):隨機(jī)組數(shù)目一般較少,方差估計不穩(wěn)定,一般至少10個隨機(jī)組。隨機(jī)組的產(chǎn)生較困難:要求機(jī)制與復(fù)雜抽樣相同,而且限制隨機(jī)組數(shù)目,如每層2個PSU第四十頁,共103頁幻燈片ResamplingandreplicationmethodsSampling:“population”Subsamples(WR):估計方差BanlancedRepeatedReplicationJacknifebootstrap第四十一頁,共103頁幻燈片半樣本法:50年代末美國普查局的W.N.赫維茨和M.格尼平衡半樣本法:麥卡錫BanlancedRepeatedReplication第四十二頁,共103頁幻燈片第三節(jié)平衡半樣本方法半樣本基本原理每層只抽兩個單元的分層抽樣隨機(jī)組方法第四十三頁,共103頁幻燈片隨機(jī)組缺點(diǎn)?由于僅僅一個自由度,其穩(wěn)定性比標(biāo)準(zhǔn)估計量差半樣本:從每層抽取一個單元形成半樣本,總共可能出現(xiàn)?個半樣本半樣本之間是彼此相關(guān)的第四十四頁,共103頁幻燈片半樣本估計量=1,如果第h層中第一個單元被選入第個半樣本;

=0,否則。第四十五頁,共103頁幻燈片半樣本估計量的性質(zhì)第四十六頁,共103頁幻燈片平衡半樣本

一個小的半樣本子集(k)盡量保留所有的信息滿足該條件的k個半樣本為平衡半樣本完全正交平衡(fullorthogonalbalance)半樣本滿足該條件的平衡半樣本稱為完全正交平衡半樣本第四十七頁,共103頁幻燈片第四十八頁,共103頁幻燈片完全正交平衡半樣本:k的選擇應(yīng)該是大于L的4的最小整數(shù)倍半樣本層12341+1+1+1-12-1+1-1-13-1-1+1-14+1-1-1-1第四十九頁,共103頁幻燈片部分平衡半樣本

假設(shè)有L層,采用K組半樣本

L層可分為G群各群用同樣方法構(gòu)造正交列半樣本層12341+1+1+1+12+1-1+1-1部分平衡半樣本的方差估計量雖然不如完全平衡半樣本精確,但也是無偏的。第五十頁,共103頁幻燈片用于多階段抽樣在L層中的每一層初級抽樣單元(PSU)都是按放回的抽樣抽取的第五十一頁,共103頁幻燈片用于非線性估計對于非線性估計量,一般和是不等的,但多數(shù)調(diào)查實(shí)踐中兩者非常接近第五十二頁,共103頁幻燈片推廣nh=1nh〉2第五十三頁,共103頁幻燈片第四節(jié)Jackknife方法Pseudovalue第五十四頁,共103頁幻燈片第五十五頁,共103頁幻燈片第五十六頁,共103頁幻燈片第五十七頁,共103頁幻燈片第五十八頁,共103頁幻燈片第五十九頁,共103頁幻燈片第六十頁,共103頁幻燈片第六十一頁,共103頁幻燈片第六十二頁,共103頁幻燈片第六十三頁,共103頁幻燈片PPS例前面srs+wr例當(dāng)k=n時,由于第j個虛擬值為平均值中的第j個變量,因此有第六十四頁,共103頁幻燈片第六十五頁,共103頁幻燈片第六十六頁,共103頁幻燈片第六十七頁,共103頁幻燈片第六十八頁,共103頁幻燈片第六十九頁,共103頁幻燈片第七十頁,共103頁幻燈片

Jackknife的虛擬值為

Jackknife的估計量為在非線性估計條件下,第七十一頁,共103頁幻燈片第七十二頁,共103頁幻燈片第七十三頁,共103頁幻燈片第七十四頁,共103頁幻燈片第七十五頁,共103頁幻燈片第七十六頁,共103頁幻燈片拒答率案例第七十七頁,共103頁幻燈片第五節(jié)其他方法簡介第七十八頁,共103頁幻燈片一、bootstrap(Efron,1979)SRS,n,”population”,resamples,假設(shè)S是一個容量為n的簡單隨機(jī)樣本;將S視為總體,從中再抽取重復(fù)樣本。如果樣本與總體確實(shí)相似——如果樣本的經(jīng)驗概率密度函數(shù)(epmf)與總體的概率密度函數(shù)相似——那么從經(jīng)驗概率密度函數(shù)中產(chǎn)生的樣本應(yīng)該與從總體中抽取的樣本表現(xiàn)出相同的特性。WR,WOR優(yōu)勢:非平滑函數(shù),方便的構(gòu)造置信區(qū)間第七十九頁,共103頁幻燈片第八十頁,共103頁幻燈片例利用文件ht.srs中的樣本,用bootstrap方法估計身高中位數(shù)的方差。總體中身高的中位數(shù)是168;而ht.srs中樣本中位數(shù)是169??傮w概率密度函數(shù)與樣本柱狀圖有相同的形狀,因此預(yù)期從S中放回地抽取容量為n的簡單隨機(jī)樣本,與從總體中放回地抽取的簡單隨機(jī)樣本是類似的。從S中抽取的重復(fù)樣本可能與S并不完全一致,因為重復(fù)樣本是放回的——S中的有些觀測值可能在重復(fù)樣本中多次出現(xiàn),有些觀測值卻從未被抽到過。第八十一頁,共103頁幻燈片一共從S中抽取R=2000個重復(fù)樣本(n=200),分別計算每個樣本的中位數(shù),得到2000個樣本中位數(shù)的頻數(shù)表:這2000個值的樣本均值為169.3,樣本方差為0.9148(方差的bootstrap估計量)。中位數(shù)的95%置信區(qū)間為[167.5,171]。直接利用bootstrap估計出的抽樣分布,確定bootstrap分布的2.5百分位數(shù)和97.5百分位數(shù),就可以得到95%的置信區(qū)間。中位數(shù)165166166.5167167.5168168.5169169.5170170.5171171.5172頻數(shù)1524015268877391114914418854第八十二頁,共103頁幻燈片初始簡單隨機(jī)樣本是無放回Gross(1980)建議生成個樣本的復(fù)制,以此作為“虛擬的總體”,再從虛擬總體中無放回地抽取R個簡單隨機(jī)樣本。如果很小,那么放回與無放回的bootstrap分布應(yīng)該相差不大。第八十三頁,共103頁幻燈片復(fù)雜抽樣中bootstrap方法,Rao和Wu(1988)從第h層的樣本中放回地抽取一個容量為的簡單隨機(jī)樣本。各層的抽樣獨(dú)立進(jìn)行。對于每個重復(fù)樣本r,生成一個新的權(quán)數(shù)變量其中是觀測單元i被選入重復(fù)樣本的次數(shù)。利用新的權(quán)數(shù)來計算。將第1、2步重復(fù)R次,R應(yīng)該是一個很大的數(shù)。計算第八十四頁,共103頁幻燈片二、Generalizedvariancefunction(GVFs)1990,NCVS,估計某種犯罪受害者人數(shù)t20-24歲第八十五頁,共103頁幻燈片1990年搶劫總次數(shù)的估計值為800510次;該估計的標(biāo)準(zhǔn)差是如果對于不同的估計量有近似的設(shè)計效應(yīng)(deff),第八十六頁,共103頁幻燈片構(gòu)建廣義方差函數(shù)的一般步驟:

使用復(fù)制或其他方法,估計感興趣的k個總體總量()的方差。令相對方差=構(gòu)建一個模型。=利用回歸技術(shù)估計和。Valliant(1987)建議采用加權(quán)最小二乘方法估計這兩個參數(shù),并為較小的項目賦予較大的權(quán)數(shù)。第八十七頁,共103頁幻燈片優(yōu)點(diǎn)

在公布信息不充分的情況下可以用GVF來直接計算標(biāo)準(zhǔn)差。廣義方差函數(shù)節(jié)省了大量時間,加速了年度報告的產(chǎn)生。GVF對于將來類似調(diào)查的設(shè)計也很有借鑒意義。缺點(diǎn)

模型可能并不適用,因此得出的方差估計是不可靠的。對計算回歸參數(shù)時未采用的那些量的方差進(jìn)行估計時,應(yīng)用GVF必須謹(jǐn)慎。如果子總體中的群deff非常高時,GVF會嚴(yán)重低估方差。第八十八頁,共103頁幻燈片三、泰勒級數(shù)法(線性化方法)

例如犯罪損失調(diào)查是搶劫受害者報告的被搶金額,是受害者因此耽誤的工作日,是搶劫受害者支付的醫(yī)療費(fèi)用,假設(shè)每工作日損失150美元,對搶劫經(jīng)濟(jì)損失的可能是。

更簡便的辦法:在觀測單元水平上定義新的變量,第八十九頁,共103頁幻燈片總體總量的平滑非線性函數(shù)第九十頁,共103頁幻燈片例第九十一頁,共103頁幻燈片將均值和總量的非線性函數(shù)的方差估計量線性化的一般步驟:將目標(biāo)量表示成樣本中測量或計算變量的均值或總量的函數(shù)。通常的形式為計算關(guān)于各個自變量的偏導(dǎo)數(shù)。以形成線性化步驟中的常數(shù)。應(yīng)用Taylor定理將估計量線性化:定義新的變量q計算的方差,將其作為方差的近似。第九十二頁,共103頁幻燈片例如比估計應(yīng)用Taylor定理:第九十三頁,共103頁幻燈片第九十四頁,共103頁幻燈片優(yōu)點(diǎn):如果偏導(dǎo)數(shù)已知,應(yīng)用線性化方法可以給出統(tǒng)計量的方差估計、并可以應(yīng)用于一般的抽樣設(shè)計中。線性化方法在統(tǒng)計學(xué)中有長期的應(yīng)用,相關(guān)理論得到了很好的發(fā)展?,F(xiàn)在有很多計算比率、回歸系數(shù)等非線性函數(shù)的線性化方差估計的軟件。缺點(diǎn)計算過于繁瑣,在包含權(quán)數(shù)的復(fù)雜函數(shù)中這一方法難于應(yīng)用。需要確定h的偏導(dǎo)數(shù)的分析表達(dá)式,或?qū)ζ珜?dǎo)數(shù)進(jìn)行具體的數(shù)值計算。對估計的每個非線性統(tǒng)計量都需要一個單獨(dú)的方差公式,并需要進(jìn)行專門的設(shè)計;而每個統(tǒng)計量所需的方法都有不同。并不是所有的統(tǒng)計量都可以表示成總體總量的平滑函數(shù)——如中位數(shù)和其他百分位數(shù)就不適用。線性化近似的準(zhǔn)確度取決于樣本量——如果樣本量不夠大,方差的估計通常是偏低的。第九十五頁,共103頁幻燈片總體總量的平滑函數(shù)的置信區(qū)間

大部分方差估計方法都假定漸近服從標(biāo)準(zhǔn)正態(tài)分布如果假定成立,近似95%置信區(qū)間為線性化方法、jackknife、BRR和bootstrap方法有如下假定:目標(biāo)量可以表示為總體總量的平滑函數(shù);更確切地說有連續(xù)的二階偏導(dǎo)函數(shù)。樣本量較大:或者是各層抽取的psu數(shù)量較大,或者是調(diào)查包含的層數(shù)較多。第九十六頁,共103頁幻燈片總體分位數(shù)的置信區(qū)間定義分位數(shù)為滿足的y的最小值如果隨機(jī)組的數(shù)量R適中,BRR或bootstrap方法:

不是平滑函數(shù),但假定總體和樣本足夠大時,近似為連續(xù)函數(shù)自由度為R-1第九十七頁,共103頁幻燈片Woodruff方法(1952)總體總量的函數(shù)近似95%的置信區(qū)間為0.95第九十八頁,共103頁幻燈片例:對于身高數(shù)據(jù)ht.srs,應(yīng)用Woodruff方法構(gòu)造身高中位數(shù)的95%置信區(qū)間。

是簡單隨機(jī)樣本中取值小于等于值的觀測單元的樣本比例,忽略有限總體校正系數(shù),有中位數(shù)的置信下限是置信上限是

第九十九頁,共103頁幻燈片y

1670.4051680.4401700.5151710.5501720.605第一百頁,共103頁幻燈片總結(jié)線性化方法:理論特性被研究得最為透徹的、也是最常采用的方法。但方差估計過程過于復(fù)雜。隨機(jī)組方法:易于解釋和計算,它可以應(yīng)用于幾乎所有的統(tǒng)計量。缺點(diǎn)是,如果要得到一個穩(wěn)健的方差估計量,需要有足夠多的隨機(jī)組。在分層多階段抽樣中采用再抽樣方法,必須謹(jǐn)慎地構(gòu)造子樣本,以確保同一群中觀測值之間的相關(guān)性不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論