zCH分層隨機抽樣第節(jié)_第1頁
zCH分層隨機抽樣第節(jié)_第2頁
zCH分層隨機抽樣第節(jié)_第3頁
zCH分層隨機抽樣第節(jié)_第4頁
zCH分層隨機抽樣第節(jié)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、St的內容體系 從抽樣設計的基本思路的角度st的選擇n的確定n的分配實施抽樣、調查估計推斷層數(shù)及界限的劃分4.14.44.34.24.5抽樣效果分析8/7/202214.4 樣本量n的確定重點:理解并掌握n確定的思路理解公式的來歷,不要求記憶具體公式內容:一、只考慮精度不考慮費用時n的確定二、最優(yōu)分配需要考慮費用時n的確定三、估計總體比例P時n的確定8/7/20222 一、只考慮精度 不考慮費用時n的確定(一)一般公式(二)具體公式8/7/20223(一)一般公式 P81 4.25基本思路(與srs相同):給定一定的精度要求,根據(jù)精度與n的關系式,推導出n的表達式令nh=nh與n無關8/7/2

2、0224、r與V之間的關系精度的表現(xiàn)形式有: 絕對誤差、相對誤差r、估計量方差V等,但最終都可歸結到V上如果事先給定V的要求,則直接用上式如果事先給定的要求,則 如果事先給定r的要求,則8/7/20225(二)具體公式1、prop2、Ney8/7/202261、prop P81 4.26nh=nh在prop的條件下Srs下n08/7/202272、Ney P81 4.27nh=nh在Ney的條件下8/7/20228P81例4.4說明1、基本思路:給定r,先借助r與V的關系轉化為V,再計算n0,最后求出n(或者直接得到n)2、計算表的使用3、驗證:Ney比prop更優(yōu) 原因:本例中各層的Sh相差

3、較大Neyprop8/7/20229二、最優(yōu)分配需要考慮費用時n的確定兩個公式形式8/7/202210形式1V給定簡單線性費用函數(shù) C=c0+chnh使得費用最節(jié)省8/7/202211形式2C給定C=c0+chnh如果總費用C給定,n的確定公式為來歷:利用opt分配公式證明過程中的一個中間結論:再利用nh=n8/7/202212三、估計總體比例P時n的確定基本思路:與均值估計完全相同討論前提:不考慮費用Nh較大,因此Nh-1Nh討論prop和ney兩種分配形式估計P時n的確定總體參數(shù)的預估:n確定公式中會用到各層總體比例Ph,需要預先估計8/7/2022131、propn0PhQh8/7/20

4、22142、NeyPhQh8/7/202215P84例4.5說明從絕對誤差轉化到V8/7/202216作業(yè)P95習題思考與討論:4.1、4.2作業(yè):4.3、4.4、4.5、4.64.4結束8/7/202217St的內容體系 從抽樣設計的基本思路的角度st的選擇n的確定n的分配實施抽樣、調查估計層數(shù)及界限的劃分4.14.44.34.24.5抽樣效果分析8/7/2022184.5 分層抽樣效果及其他一、抽樣效果分析二、層的劃分(一)分層標志的選擇(二)各層界限的劃分(三)層數(shù)的確定三、其他層權偏差、opt偏差等對估計的影響,多目標分層、事后分層等(大綱中沒有要求)8/7/202219一、抽樣效果分

5、析這是str的精度研究研究目的:1、從理論上比較str與srs的精度,驗證str確實具有能提高估計量精度的作用2、探討str要提高估計量精度應該滿足的條件三個層次的內容:(一)str一般優(yōu)于srs,條件(二)VoptVpropVsrs(三)現(xiàn)實實踐中,propstr更常用,除非Sh相差較大8/7/202220(一)str一般優(yōu)于srs條件:1、分層合理 層內同質,層間差異2、各層樣本量分配合理 prop、opt、ney都屬于合理的分配方法否則,str有可能效果還不如srs注意:Str的使用價值除了提高估計精度,還有,能夠滿足子總體估計的需要或者能使組織實施便利,這些目的下的str的效果可能不如

6、srs,但更易操作,更能滿足實踐的需要8/7/202221(二)VoptVprop Vsrs前提條件:1、n固定,即在n相同的條件下來比較不同方法的估計量方差2、1/Nh相對于1可以忽略不計,即Nh足夠大,從而 Nh-1Nh,N-1N8/7/202222方差的比較prop與neyoptneyopt可達到最小方差,第一個不等式成立結論:若各層標準差相差很大,則ney更好8/7/202223方差的比較prop與srs總離差平方和=層內離差平方和+層間離差平方和結論:一般的,只要分層能保證Sw2 S2,因此有可能出現(xiàn)VstrVsrs,但在實際中,這種情況極少出現(xiàn)8/7/202224(三)現(xiàn)實實踐中,

7、prop更常用,除非Sh相差較大以下三個理由使prop更受實際工作者的歡迎:1、理論上opt的最小方差很難達到,且除非各層Sh間的差異十分明顯,prop的精度并不會比opt差多少主要原因:opt時,需要知道ShSh往往需要根據(jù)以往的調查數(shù)據(jù)或與目標變量Y相關的輔助指標的信息來估計;或采用其他一些反映離散度的統(tǒng)計量,比如當層內Cv不大時,可采用與WhY h成比例的分配方式利用層內極差Rh信息,采用與WhRh成比例的分配方式這些估計誤差都會影響opt的精度8/7/202225(三)現(xiàn)實實踐中,prop更常用,除非Sh相差較大(續(xù))2、prop是典型意義下的等概率抽樣,因此估計量滿足自加權形式,使估

8、計變得簡單3、多目標調查中prop往往能綜合各目標量的差異,通常效果不錯經驗性的結論:若prop估計量方差僅比理論上opt的估計量方差大1020%,采用propstr是可行的8/7/202226二、層的劃分(一)分層標志的選擇(二)各層界限的劃分(三)層數(shù)的確定8/7/202227討論的前提分層的狀態(tài)直接影響到str的效果分層的目的1、為了子總體的估計或者為了方便組織 自然分層2、為了提高抽樣估計精度 人為分層本問題在人為分層的前提下討論8/7/202228(一)分層標志的選擇假設,Y為被考察的變量,定義分層變量為X則X通常有兩種選擇:1、X=Yt-1 常用于固定樣本連續(xù)調查中2、X可以完全是

9、另一個變量,但與Y有高度相關關系 常用于探索性調查研究中,此時沒有歷史信息可供利用8/7/202229(二)各層界限的劃分 即層的分界點的確定最優(yōu)分層前提:在層數(shù)L已經確定的前提下討論各層分界點的位置1、平均分配法2、累積平方根法即Dalenius-Hodges的快速近似法基本思想:等分X分布的累積平方根3、逐步系數(shù)法目前應用較多8/7/202230累積平方根法是一種確定層界的快速近似法由戴倫紐斯(Dalenius)和霍捷斯(Hodges)提出的做法:等分分層變量(Xi)分布的累積平方根,從而獲得最優(yōu)分層舉例說明累積平方根法的操作過程8/7/202231累積平方根法舉例某地區(qū)電信部門在對利用電

10、話上網的居民家庭安裝ADSL意愿進行調查時,以轄區(qū)內最近三個月有電話上網支出的居民用戶為總體(上網電話費為0.02元/分鐘),并準備按上網電話費支出(記為x)進行分層要求:確定各層的分點已有資料:居民家庭上網電話費支出分布8/7/202232逐步系數(shù)法做法:1、將總體單元按分層變量x從大到小排序-降序2、從第一個單元開始,采用逐步遞移的方式計算變異系數(shù),直到某單元,不加它變異系數(shù)尚不足15%,但加上它變異系數(shù)即超過15%,此時,將截至到該單元前的所有單元作為一層3、從該單元開始,再重復上面的操作,直到所有單元均參與了分層為止舉例說明逐步系數(shù)法的操作過程8/7/202233逐步系數(shù)法舉例462家

11、上市公司按總股數(shù)進行分層8/7/202234逐步系數(shù)法與累積平方根法的區(qū)別累積法是在L已知的前提下,等分x分布的累積平方根逐步系數(shù)法是以變異系數(shù)的形式給出了層內差異的一個高限,要求層內變異系數(shù)不得超過15%相比較,逐步系數(shù)法更切合分層的基本原則8/7/202235(三)層數(shù)的確定討論的前提:n已經確定1、一般討論首先給出L的一個取值范圍: 0Ln/2理由:n已知,每層至少抽1個,則最大層數(shù)為n考慮到在做估計量方差的無偏估計時,需要各層的樣本方差,則每層nh至少為2,所以Ln/28/7/2022362、L取多大更適宜結論:L6,一般為5或6層,當然還需要具體情況具體分析str的抽樣精度與Sw2有

12、關,與Sb2沒有關系。一般來講,層數(shù)越少,Sw2越大;層數(shù)越多,Sw2越小。從這個意義上說,L越大越好但是,由于X畢竟不是Y,X與Y不一致的地方不會因分層而減小,當L大到一定程度時,抽樣方差不會繼續(xù)顯著減小。研究表明,除非XY95%,否則,當L6時,方差減少的速度將大為減緩 費用的限制也不允許L過大56LV8/7/202237特例說明:考慮一種簡單的情形 fpc忽略不計分層標志即目標量YYi是區(qū)間d上的均勻分布則,Y變量的總體方差為則,srs均值估計量的方差為Prop分配n,則4.5結束8/7/202238分層抽樣樣本量分配的一個案例8/7/202239問題的提出分層抽樣中樣本量在各層中如何分

13、配,關系到抽樣精度的保證問題,是抽樣設計中的一個重要問題。分配各層的樣本量需要一些輔助信息,比如,各層的層權Wh,各層中目標變量的方差Sh2。在抽樣調查的實踐中,特別是一次性的抽樣調查中,上述所需的輔助信息常常不具備。因此,我們經常面臨著在信息量很小的條件下如何在各層中分配樣本量的問題。以下是美國的一個實例,主要來說明在極小信息量條件下如何在分層抽樣中進行樣本量分配這一問題提供一種思考的途徑。8/7/202240背景調查目的:欲了解在美國的亞洲血統(tǒng)人口(即有亞洲血統(tǒng)的美國籍公民)對一些問題的看法,并和其他血統(tǒng)人口的看法進行對比分析調查對象:美籍居民調查方式:電話調查,即向專門的公司購買隨機電話

14、號碼;然后由調查員依號碼撥打,實施調查樣本要求: (1)全國范圍內完成2700人,其中1200人為亞洲血統(tǒng)(Asian),600人為西班牙血統(tǒng)(Hispanic),300人為非西班牙血統(tǒng)黑人(Non-Hispanic-Black,以下簡寫作NonH-B),600人為非西班牙血統(tǒng)白人(Non-Hispanic-White,以下簡寫作NonH-W) (2)必須有芝加哥市的樣本(原因略)要解決的問題:決定需要購買的電話號碼數(shù)量及電話號碼購買數(shù)在各地區(qū)的分配8/7/202241其它說明或假定經分析,決定采用美國1990年人口普查資料作為計算樣本量的輔助資料。該資料有分地區(qū)的戶數(shù),按血統(tǒng)分類的人口總數(shù),

15、但是沒有按血統(tǒng)分類的戶數(shù)(事實上這種劃分很難,一些家庭是由多種血統(tǒng)人口組合而成的),而電話號碼多以戶為單位,故把分血統(tǒng)的人口比例視為分血統(tǒng)的戶數(shù)比例此外,各地區(qū)電話號碼中,非居民住戶電話號碼所占比例略有差異。實際設計中有所考慮。為使分析簡明,在此舍棄此因素,并假定無回答率均為60由于沒有其它輔助信息,所以假定各地區(qū)目標變量總體方差相等8/7/202242所需電話號碼總數(shù)的確定對美國1990人口普查資料進行分析發(fā)現(xiàn),就全國范圍看,各種族人口所占比重分別為:Asian占2.706%,Hispanic占8.636%,NonH-B占11.443%,NonH-W占77.215%“亞洲血統(tǒng)人口所占比重遠遠

16、小于其他種族人口。而本項調查的重點是亞洲血統(tǒng)人口,對該種族要求的樣本量較大。因此,抽樣設計的主要矛盾是如何滿足亞洲血統(tǒng)人口的樣本量。由于電話號碼是隨機抽取的,可以設想,能滿足亞洲血統(tǒng)人口樣本量的個數(shù),自然也會滿足其他種族樣本量的要求(事實證明確實如此)。所以,設計的重點放在確定各地區(qū)抽取亞洲血統(tǒng)人口的樣本量如果樣本量按人口比例在全國各地區(qū)鋪開,將非居民住戶電話號碼因素舍棄,并假定回答率為60%,則所需要的電話號碼個數(shù)為: 所需個數(shù)=1200/(0.027060.6)=73909.838/7/202243電話號碼在各地區(qū)分配的初步設想分析人口普查資料發(fā)現(xiàn),各地區(qū)亞洲血統(tǒng)人口的比重是不同的。例如在

17、舊金山(S.F.),該比重高達28.614%。因此,若能在亞洲血統(tǒng)人口比重高的地區(qū)多抽,在該比重低的地區(qū)少抽,則能減少所需購買的電話號碼數(shù)量由人口普查資料可知:將各地區(qū)亞洲血統(tǒng)人口比重按由高至低的順序排列,前幾個地區(qū)依次為:舊金山(S.F.)28.614%,西雅圖(Seattle)11.781%,洛杉磯(L.A. )10.443%,紐約(N.Y.)6.964%。此外,必選城市芝加哥(Chicago)為3.70%除上述5個地區(qū)之外的其它廣大地區(qū)(以Blance表示)占全國人口的比例超過90%,亞洲血統(tǒng)人口比重僅為2.170%具體情況見下表8/7/202244美國不同地區(qū)亞洲血統(tǒng)人口分布地區(qū)人口數(shù)

18、(人)地區(qū)人口占全國比重(%)亞裔人口數(shù)(人)亞裔人口比重(%)S.F.7239590.28420715528.614Seattle5162590.2026081911.781L.A.3.47192556110.443N.Y.2.8685099556.964Chicago1.0901029383.698Balance23510353692.0842.170Total255313208100.0002.7068/7/202245存在的問題但上述做法帶來的負作用是,樣本若過于集中于某地區(qū),將會使樣本的代表性降低因此,需要尋找一個結合點,使得抽選的樣本量盡可能地少,同時又保證樣本具有一定的代表性8/

19、7/202246樣本量分配為了便于調查的組織和管理,可以按地域分層。以上表資料所示,將全部地區(qū)劃分為6個層。于是要解決的問題是:在僅有的有限的輔助信息(人口數(shù)、戶數(shù)、種族分類)的條件下,如何在各層中分配樣本量,使得調查費用盡可能少(即盡可能少地購買電話號碼),同時保證樣本具有一定的代表性。為便于分析,將有關符號作如下說明: N:Asian總戶數(shù),N=總戶數(shù)Asian人口比重 Nh:第h層中Asian戶數(shù)(h=1,2,6) Nh=第h層總戶數(shù)第h層Asian人口比重,則N=Nh的和 n:完成的Asian樣本戶數(shù),即n=1200 nh:第h層完成的Asian樣本戶數(shù) Th:第h層需抽取的電話號碼數(shù)

20、,T=Th的和 Rh:第h層亞洲血統(tǒng)人口比重 由于研究變量總體標準差和第h層標準差未知,故假定研究變量總體標準差=第h層標準差,用習慣的方式來表達8/7/202247樣本量分配為求得各層樣本量的最優(yōu)分配方案,借用LKish提出的設計效應( Deff: Design Effect,),結合樣本量的分配,設定一個目標函數(shù)TDeff,希望使其最小;再依前述條件設置約束s.t.,形成一個規(guī)劃問題,即:8/7/202248樣本量分配由設計效應定義有:目標函數(shù)為:根據(jù)柯西不等式,容易推出按以下形式分配Th,可使目標函數(shù)達到最優(yōu)(忽略nh取整的影響)8/7/202249分配結果(1)地區(qū)(2)總戶數(shù)(3)Rh(%)(4)Nh(Rh)0.5=2 (Rh) 3/2(5)nh=1200*(4)/(7)(6)Th=(5)/(0.6*Rh)S.F.30558428.61446773.814115.32671.70Seattle23670211.7819571.04623.60333.84L.A.10.443100885.907248.743969.82N.Y.6.96451815.521127.753057.37Chicago3.6987289.89817.97810.08Balance2.170270377.285666.6251195.01Total2.706

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論