




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第3章分層隨機抽樣在前面一章,我們介紹了簡單隨機抽樣。應該說簡單隨機抽樣在實際中具有 廣泛的應用,尤其是在總體 N較小或者總體方差S2與任意局部方差基本相當 的 情況下,簡單隨機抽樣的優(yōu)勢明顯。然而,當總體單元數N較大或者總體各單元 之間差異較大時,采用簡單隨機抽樣對總體指標進行估計通常會產生很大的誤 差。例如,欲通過調查了解我國居民的人均年收入水平。這時總體是全國人口的13億人,倘若采取簡單隨機抽樣從中抽取 10萬人入樣,則需要將全國人口依次 編號,然后在113億中生產10萬個隨機數,然后將這些隨機數對應成具體某個人。顯然這樣做是不實際的,就算可以,由于某些人口較少的省市或民族的 樣本量過小
2、,甚至沒有樣本點,從而降低了樣本對總體的代表性。不僅如此,由 于類似的全國性調查總是需要地方政府的大力協調與配合,如果地方政府不能通 過此次調查獲取轄區(qū)內的相關信息,達到一舉兩得的效果,那就勉為其難了。為了克服簡單隨機抽樣上述缺陷和不足,本章引入一一分層隨機抽樣(Stratified sampling )。§ 3.1 定義與符號一、定義與符號(一)定義定義3.1層(類):如果一個包含N個基本單元的總體可以分成“不重不漏” 的L個子總體,即每個單元必屬于且只屬于其中一個子總體,則稱這樣的子總體為層(stratum )。設L個子總體所包含的單元數分別為 2,2,NL,即有:7 = Y1
3、,Y2 , ,丫N,Nh 二Yh1,丫h2, ,丫hNj , h = 1,2, ,L定義3.2分層抽樣 又稱為類型抽樣或分類抽樣,即抽樣在每個層中獨立進 行,總的樣本由各層樣本構成。定義3.3分層隨機抽樣若在每層中的抽樣采用SRS這樣得到的樣本為 分層隨機樣本(stratified random sample)。即從第h層簡單隨機抽樣nh個單元,構成第h層子樣本。LLyh 二 yh1, yh2 , , yhni , y yh 二 y1, y2 , , yn , nnh11(二)分層的原因(1)當總體各單元差異比較大時,對參數估計誤差比較大。將總體分層, 同一層中各單位差異小,從每一層中抽取構成
4、樣本,這樣樣本就有代表性,可以 提高估計的精度;(2)可以同時對子總體進行參數估計;(3)便于依托各級管理機構進行組織和實施。(層內類似,層間差異)(三)符號說明用下標h表示層號(h =1,2,丄)。關于第h層子總體的記號如下單元總數:Nh , 樣本單元數:nh,第i個單元標志值(觀察值):yhi ,層權:WhNh抽樣比fh二nhnjnu liqicai49njnu liqicai#1nhNh皿J,子樣本均值:子總體均值:YhL幺=遲WhYh=罟 NhY?N h呂(3.1)子總體總量:NhYh八,Yhi二NhYh,子樣本總量:h = NhVh(注意此說法)y子總體方差:1Nh1 nhs: =
5、z Mi Yh 2,子樣本方差:s2(yhi Th )2N h 1 i 4nh 1 i 二yh = yhi, nh id§ 3.2簡單估計量及其性質一、總體均值的估計(一)簡單估計量的定義對于分層樣本,對總體的均值估計是通過對各層的子總體均值估計,按層權加權平均得到的。因此總體均值Y估計量的公式為:(局部平均加權)njnu liqicai#njnu liqicai#根據簡單隨機抽樣:_ 1 nh _ 2 yhyhi, Vh rNhVh,Shnh i=i1 nh2-1 Nhm/r分別是"NJ,Yh八£i =11 W2昨占:Th的估計量,而且它們都是無偏的則此時公式為
6、:必訂戎=丄£N h(3.2)njnu liqicai#njnu liqicai#(二)估計量的性質定理3.1對于一般的分層抽樣,如果 Y是Y,的無偏估計(h=1,2,L),則YSt是Y的無偏估計定理3.2 Y?t的方差(均方誤差)為:(3.3/3.4 )V(Y?J =£ Wh(Y?)h 4證明:由于各層抽樣是 獨立的,故上面兩結論自然成立。#定理3.3對于分層隨機抽樣,yst是Y的無偏估計,yst的方差為:LL1 _ fv(yst)八 whv®)八 W2-s2(3.6/3.7)h 1h4nh乜丄 Wh2s" =Z WS-Z W(3.8/3.9)h 生
7、lnh Nh Jh z1 nhhd N證明:顯然#定理3.4對于分層隨機抽樣,V(yst)的一個無偏估計為:LL 1 _ fV(yst ) = ' Wh v( yh)八 Whsh(3.10)h 壬hnhL ,z i 22 L wf sh L whs2=H Wh2s24(3.11/3.12 )h壬 Inh Nh 丿hm nhhA N證明:顯然#二、總體總量的估計(一)簡單估計量的定義LLY?t =NY?t =送 YhNhY?,h =1h =1t 二 Nyst(二)估計量的性質推論3.1 (1)對于一般的分層抽樣,如果Z是Y的無偏估計(h=1,2,丄), 則Y?t是丫的無偏估計。Y?t的方
8、差(均方誤差)為:v(Y?t) =n2v(YL) =£ v(Yh)h =1= N2Wh2V(?h NV(Yh)h :1h =1證明:顯然#(2)對于分層隨機抽樣,Yt = Nyst是丫的無偏估計,Yt的方差為:V(YSt) = N2V(YSt)八 N;V(Yh)八 nJ_ fhJh 4nhhSh2證明:顯然#(3)對于分層隨機抽樣,V(Y?t)的一個無偏估計為:NhV(yh)N2 1h 4h 4nhnjnu liqicai53證明:顯然#例3.1調查某地區(qū)的居民奶制品年消費支出,以居民戶為抽樣單元,根據 經濟及收入水平將居民劃分為 4層,每層按簡單隨機抽樣抽取10戶,調查獲得 數據如
9、下(單位:元),如表3.1。估計該地區(qū)居民奶制品年消費總支出及估計 的標準差。表3.1解:W1W2W3W413 3 4-WCT5E7W 令10ii1213M1516H18沖202122尊242£訪計囲押燉si豎吐.用艮戶裁200他T50150PD D Dn.u2 豹130翻35$1 055&0沖11:1608 篦1 S4:3宦2晝1e聞斛虞I諾館純 區(qū)堆 UdT-聞血 0:曇大值1W求和i-jft由上表,NN1200N2850N2400N2850N3_ 750N2850N41500N2850謂平均24的杠準i 4-4120中值 251豹密式 309L WC13-9 卅桿兀1R
10、-Qttft 0. 63fffi 27.5 中f直10價式襯推角如賈桃 佯豐方至 祥豐;J 出 £3018 1Q刃Q50240L0.U=2850,nh =10 , h =1,2,34,各層層權和抽樣比為:0.07018 , f1:0.14035 , f20.26316 , f3:0.52632 , f4n110=St 1N1200n210=a:N2400n310_stN3750n4100.05 ,0.025 ,0.0133,N415000.0067。_ f N:(Nh nh)PhQh x I巴flwi) A3 in A.AHJZRd.i制E即百 qp仲a _ # K1Q匕.知14n
11、/ yE ES 耳 H._- * i-:各層的樣本均值及樣本方差為:1 " 2 1012yi =E yii =39.5 , s1 N2 Nhnh = Z (% yj2 賂 1624722,ni ym -1 yy? = 105,3 = 165 ,4 = 24 ,sf 2166.667, s2 8205.556, s2 193.333,因此估計奶制品年消費總支出為:4Y,Nhyh =200 39.5 400 105 750 165 1500 24h丄=209 650(元)估計量方差和標準差樣本估計值為:441 _ fv(£t)= N2' Wh2vWh)八 Nh2-s2
12、: 5.39 108h 壬hmnhS(G)v(Y?t) : 23208 (元)95%勺置信區(qū)間為憶 土t s(Y?t ),即164162,255138.三、總體比例的估計(一) 簡單估計量的定義L易知總體比例的估計為:Pst二"Wh Phh=!(二) 估計量的性質推論3.2 (1)對一般分層抽樣,如果Ph是Ph的無偏估計(h=1,2,丄)則LPst是P的無偏估計,Pst的方差為:V (Pst)二 Wh2V (Ph)。h=l(2)對于分層隨機抽樣,Pst是P的無偏估計,注意到njnu liqicai55njnu liqicai#V(心騎晉及WNh,因此pst的方差為:njnu liqi
13、cai#njnu liqicai#(3.15)LV(Pst)八 Wh2V(Ph)二h=i丄 J N;(Nh - nh) PhQh N2 h# Nh -1nhnjnu liqicai#njnu liqicai#(3.17)njnu liqicai#P Qh八 Wh2(1 fh)h=1nhnjnu liqicai57njnu liqicai#(3)對于分層隨機抽樣,V(Pst)的一個無偏估計為:L2v(Pst)八 Wh v(Ph)h=1' W2(1 _ f:) Phqh h qnh -1(3.16)njnu liqicai#njnu liqicai#PhQhnh 1L八 Wh2(1_ fh
14、)h A例3. 2在例3.1的調查中,同時調查了居民戶擁有家庭電腦的情況,獲得 如下數據(單位:臺)如表3.2。估計該地區(qū)居民用有家庭電腦的比例及估計的 標準差。表3.2njnu liqicai#解:由上表可得Pi= 0.2,P2=02,P3-04,P4 0.=(200 x 0.2 + 400 x 0.2 + 750 x 0.4 +1500 x 0.1) = 0.2 ,v(pj =(1 - fi)- : 0.0169,v(p2)=(1 - f2)- : 0.0173, 厲 一1n 2 -1v(P3)=(1- 彳3) : 0.0263,v(p4)= (1 - f4) : 0.0099 門3 1門
15、4 1因此,該地區(qū)居民擁有家庭電腦比例為:一41 4Pst 八 WhPhNh Ph2850h=tN h#V(Pst)N22' NhV(Ph) : 0.005 ,h 4s(Pst) : 0.07推論3.3關于某特征單元總數A的估計 類似 略§ 3.3比率估計量及其性質將比率估計的思想和技術用于分層估計隨機樣本時,有兩種可行的辦法,一種是對每層樣本分別考慮比估計量,然后對各層的比估計量進行加權平均,此時得到的估計量稱為分別估計量(separate ratio estimato)。另一種可行的辦法是先 對兩個指標先分別計算出分層估計,然后再構造比估計,這時得到的估計量稱為聯合比估計
16、(combined ratio estimato)一、分別比率估計因為比率估計是有偏估計,只有在大樣本情況下,偏倚才會趨向于0,所以對分層隨機抽樣來說,如果采用分別比率估計,則同時要求各層樣本量比較大。定義3.4總體均值Y和總體總量Y的分別比率估計量為:八Wh出XhXh(3.23)njnu liqicai#(3.24)L 八YRh h A定理3.5各層樣本容量均較大時,估計是漸進無偏的,且mseR%):LV畝)、h=1Wh2(1-七h RjsXh -2RhSyhSxh(3.27)njnu liqicai#njnu liqicai#(3.39)IrY” 蟲 噸 S:RfsXh -2RhhSyhS
17、xhhmnh_ _s(3.27) (3.39)分別由(2.39) (2.40。易得,其中 RY Xh,5 匯 Syh Sxh在對分別比率估計量的方差進行估計時,通常將sXh和s:h分別用s2h和s:h來估計;用rh (rh表示第h層Y與X的樣本相關系數)來估計,&用R;二禺來 估計。分別比率估計需知道 Xh (每一層輔助變量的平均)。二、聯合比率估計如果達不到每層樣本量都比較大的要求,則使用聯合比率估計效果可能更 好些,或Xh未知而知道X已知。njnu liqicai59定義3.5總體均值Y和總體總量Y的聯合比率估計量為:?Rc竺X 二 RCXxst(3.40)YRc 4x =RCxx
18、st(3.41)LLyst = ' Wh y h、xst = ' Wh xh 分別是 Y、X 分層估計量;RC =h4hVstXst定理3.6聯合比率估計是漸近無偏的,EYRc : YEyrc Y ,(3.42, 3.37)msetq:Nh(1- fh) s;hR2sXh -2RbSyhSxh(3.43, 3.44)MSE?Y):hTnh4爲 +R2sXh - 2RPhSyhSxh )(3.56,3.57)其中R=Y X -YX o事實上:L_由于 E xst八 WhE xh 八WhXh 二 X,故一般 xsX,而h4Yrc-丫二 x - Y XYst- Rxst :Yst-
19、販七Whyh- RxhXstXsth d因此 E Yrc -YE yst-Rxst =0,所以 E YrY oV(Yrc)=E(Yrc Yf 壯E(YstRxst)2L八Wh2h=1(1 fh)(syh +R2sXh -2RPhSyhSxh)(見(2.35, 2.39)之證明)nhnjnu liqicai#njnu liqicai#(令 Ghi 二丫怕-RXhi,則 Gh =Yh-RXh , h =1,2,,L,又令gst二Yst - Rxst,是G的分層簡單估計量,則Egst二0 , _ _ _ 2 _ 2V(Yrc) : e Yst - R& i; = e gst ,V(YRc&q
20、uot;E(gst “V(gst) = z W2(_ fh)S:h,h =1nh21 Nh21 Nh2Sgh =- Gi -Gh = -丫忖-“ -RXhi-XhNh - I 1Nh - I 1二 S:h R2S:h _2R:hSyhSxh在對聯合比率估計量的方差進行估計時,通常將sXh和s:h分別用Sh和s:h來估計;幾用rh( rh表示第h層Y與X的樣本相關系數)來估計,R用RC = Vst. 來估計。例3.3某市1996年對950家港口生產單位完成吞吐量進行了調查,1997年欲對全市港口生產單位完成吞吐量進行抽樣調查。對港口生產單位按非國有(h =1)和國有(h = 2 )分為兩層,單位
21、數分別為800和150家,分別在兩層 中調查了 10家、15家港口生產單位,調查數據如表3.3試估計1997年全市港口 生產單位完成的吞吐量。解:表3.3h =1非國有h = 2國有合計nh, Nh10, 80015,15025,950Wh,fh0.8421,0.01250.157895, 0.11X h, X h171400, 214.25102900,686274300Xh,yh226.7,217.6655.6,688.22 2 sxh,syh8477.344,10704.7194665.26, 82541.89Syxh ,Rh9072.2,0.95985981071.51, 1.0497
22、251 按分別比率估計LYRS 八 Rhxh =0.959859X 171400+1.049X 102900=272536.5h母v(YRs)* 朗仆-心垃十螢sXh -2春乂山91938952.68 h =1nhs(YRs).v(YRs) =9588.482 按聯合比率估計Xst八NhVhYst 1X 2 入八NhXhiYRc = Rx = 277310274300 二 271956.1279700v(YRc)拓E Nh(1 _人)9秫 +R2s:h _2Rs yxh )=86293698.84h4nhsO?J - v(YRc) =9289.44三、分別比估計與聯合比估計的比較當每層的樣本量
23、nh都比較大,總樣本量n也比較大,此時分別比估計和聯合 比估計都可以被采用,那么哪一種估計方式精度更高呢?下面對此比教一下。由( 3.27)( 3.44):L W2( 1一 fh )222V(lRc)- V(*s) - RR.2 Sxh2 R-RhhSyhSh(3.58)L=11h 二W2(1 - fh)R-RhR-Rh SXh-2 SyhSxh-RX(3.59)上 3(1一 fh)(R-Rh fsXh2(RRS:) h生nh注意(3.59)式:(1)當R-Rh=0 或 R-RhsXh-2 USyhSxh-RhS:=0 即Rh二 R 或:hRhSxh 時,二者相當。h2 Syh(2)當(R-R
24、h )式0 而 PhSyhSxh-&S: ) = 0時,此時每層的Yhi與是經過原 點的線性關系時,即Y與Xhi成比例(RhhSyhSxh/sXh二Syxh/S2h是第h層Y 對 X 的線性回歸系數),2(R-&PhSyhSxh - &S2 )= 0,V(yRc) -V(yRs W2(1fh) R-R. 2S;h-0.hTnh這意味著分別比估計優(yōu)于聯合比估計。當每層比率Fh等于(或近似等于)層內回歸系數Bh時,分別比估計優(yōu)于聯 合比估計。而要使得Fh= Bh,前提是一研究的主變量與輔助變量存在強線性關系;二是各層的樣本容量nh比較大。顯然一般比估計有效都要求前提一成立。
25、因此前提二有實質討論意義。概言之,當各層的nh都比較大時,各層比率之間差異比較大(R-& - 0的 一種解釋),此時分別比估計要優(yōu)于聯合比估計;而當某些層的 nh不夠大時,或 者各層的比率差異較小(R=Rh成立),還是采用聯合比估計更有效些。§ 3.4回歸估計量及其性質一、分別回歸估計 (separate regressi on estimator分別回歸估計,就是先在各層中求出各層的回歸系數,用回歸估計量對各 層的均值或總量作出回歸估計,然后對各層的均值加權來估計總體均值,或把各 層的總量相加來估計總體總量。定義3.6LL_yi rs= ' Wh yl r h= &
26、#39; Wh' h X h _ x(3.60,3.61)h 二h 二L_,W rs= Ny| rs= ' Nhyhh Xh -Xh I(3.62,3.64)1、當各層的回歸系數B h為事先給定常數時 分別回歸估計量是無偏的,其方差為:1 _ fV Ylrs 八 Wh2h S;h:h2S;h -2:hSxyh(3.65)h叫S且當 h = Bh廠,h = 1,2,,L,V ylrs達到最小,即Sxh(3.75)(3.76)VminVlrs 八 Wh2: '!2hnh2、通常了未知,用樣本回歸系數bh估計它,即Syxhbh廠sxh、yhi Vh 乂忖xhi =±
27、hi -xh2i m該估計是有偏的,其方差近似值njnu liqicai65(3.77)VyirsL 1 f八 Wh2s2hh)nh(3.78)nh1-2Ld _ fV yirs卜瓦Wh2二p'),方差的一個近似估計為: h4nhnjnu liqicai#njnu liqicai#二、聯合回歸估計(combined regression estimator定義3.7聯合回歸估計是先對Y和X采用分層估計,得到-進行回歸估計(3.83)LLyst =嘉Whyh,親戎=為WhXh,然后利用聯合回歸系數h 二h £ylrc =Vst X -XstYrc 二 Nyc 遅t: X -心(
28、3.86)1、當回歸系數是事先給定的則該聯合回歸估計是無偏的,方差分別為(3.90)L 1 _ fV Frc 八 Wh h Syh©2hS xyh( 3.91)h 二nh證:令Gh丸X-Xh,則Gh =Y- )C-X .同時對于所抽取的樣本,ghi =yhiX - Xhi,則G分層簡單估計量為gsYsr : X -乂戎i=yirc.根據分 層簡單估計量的方差計算公式,有L 21 _ 仁 2Vgst八 Wh2-丄s:h,hmnh1 Nh_ 2 1 Nh _ _其中盼百:二NX'-XXhiXXh1Nh_2YhiYh"X 肯 XhNh -1 ii -=S2l:, 2S 2
29、2 S#Sy hS x h 2 S x y h卄L 1 f(3.97)V Yrc=7 N1 Syf 2 ©2:S xyhh#nh并且,只要取1為L 2 1 - fn、Wh2nSB h 1nhBe =Z Wh2 1 _h 1nhnSyxh時,h 2Sxh(3.99)2Vmin% 八 Whhnh(3.106)注:如果令ah =Wh2 1一fS丄S;h,Bh 竽(每層的回歸系數),這說明Be應是Bh niSxhL按權重ahv ah的一個加權平均。h=4作業(yè):試推導該結論。2、當回歸系數未知時取為Bc的樣本估計值bnSyxh nh(3.107)njnu liqicai67h 2_ Sxh n
30、h此時聯合回歸估計量為漸近無偏,其近似方差及方差的估計值:(3.112)h nhV(%c )注 舛 °一 fh)(Syh+B:S;h-2BcSxyh )22 2SyhQ Sxh - 2bcSxyh(3.114)廠、V W2(1fh)v yirc h 叫三、分別回歸估計與聯合回歸估計的比較為簡單起見,我們只比較Vmin Ylrs與Vmin %c情形。2 1 - fhVminylrs可SXyh(4.49)njnu liqicai#njnu liqicai#1 - fhSnhSxh(Bh 二 Sxyh / SXh )_1 _ fVminVlrc八W?丄h叫Vminy Ire Vminyir
31、s Whh:計 BhSh B怎(ah = Wi仁 fhSxh / nh )2 2i ahBh -v ahBchh» ahB -2 ahB;' ahB;hhhf)=S ahB -2 Bd ah B。+遲 hI h 丿h=11h(Bc是Bh按權重aL'、ah的一個加權平均:h ABc = ' ahBh 二ah)h. h4ah Bh - 2 二 ahBh.h '、ahBc hnjnu liqicai69njnu liqicai#* ahB2 -2f ahBhBcahB;h. hh=ah Bh _ Bc- 0h上式表明,當、和B均取最優(yōu)時,分別回歸估計優(yōu)于聯合
32、回歸估計,尤其 是當各層的回歸系數相差較大時,分別回歸估計的優(yōu)越性就更加明顯了。不過判斷分別回歸估計量好還是聯合回歸估計量好,沒有一條嚴格不變通的 規(guī)則。一般來說,當回歸系數需要由樣本估計時,如果各層的樣本量不太小,而 且各層的回歸系數之間差異較大,采用分別回歸估計比較適宜;如果各層的樣本 量不太,而且各層的回歸系數大致相等, 采用聯合回歸估計較為適宜;如果各層 的回歸系數差別不是太大,而且并不是每層的樣本量都相當大,聯合回歸可能更 保險些。例3.3 P96詳見教材§ 3.5樣本量在各層的分配若樣本總量是n是固定,接下來的問題是如何把這n個樣本合理地分配到各 層中去。在分層隨機抽樣中
33、,樣本量在各層中的不同分配方式會對估計量的精度 產生一定的影響,這一方面由于層的大小規(guī)模不同或在總體中所占地位不同,另 一方面是因為各層的子總體方差 S:不同,所有這些都會影響估計量的精度。回憶分層估計中均值估計量方差的表達:Lv(y八Wh2hm1 - fh S2ShW:sWhS2(3.125)nhh ¥ nh上式可看出,只有等式右端第一項與各層的樣本量 nh有關,該項同時還與Wfsf有關。那么nh的分配的遵循什么規(guī)則才能使 V(yj盡可能小呢?通常有以下幾種分配思路:(1)常數分配;(2)與各層方差S"成比例分配;(3)與層權Wh成比 例分配;(4 )與WhSh成比例分配
34、。一些實際的研究表明:等額分配的效果相對 較差;與層內方差Sh2成比例分配適用于要求每層的估計量都達到相當的精度的情況;與層權Wh成比例的分配和與WhSh成比例的分配效果相對較好。在實際中 我們還有盡量避免單位調查費用比較高的層樣本過多。此節(jié)我們主要討論(3)(4)情形以及展開。一、比例分配(proporti onal allocati on )定義3.8在分層抽樣中,若每層的樣本量 nh都與層的大小Nh成比例,則稱 這種分配為等比例分配或比例分配,也即每層的抽樣比相同:fh 二匹二衛(wèi)二 f 或匹二業(yè)二Wh,或 nh =nWh( h =12 ,L )( 3.126/7 )Nh NnN對于分層隨
35、機抽樣,這時樣本均值 Y的估計是:LL nLy proph=jnY?rop1 Lnh1 n' yhi yn h生i生n i a二y (簡單平均)= Nyprop 顯八 fn fV(Vprop)八 Wh2v(%)Wh 匹h=11 - f L2WhSh n hd(3.128)(3.129)(3.131 )f S2 nL(記sWWhSh2為層內方差,各層方差的加權平均)h=1hm n 叫八Wh%八U八 h生njnu liqicai#njnu liqicai#總體比例P的估計是:1 上4” 2 NhPpw = P ' ah,注意到 S2h PhQh : PAn h丑Nh TV(p pr
36、opL NfPhQhh N h _'1L''Wh PhQhh =injnu liqicai#njnu liqicai#、最優(yōu)分配(一)最優(yōu)分配(optimum allocati on )njnu liqicai#定義3.10在分層隨機抽樣中,對于給定的費用,使估計量方差達到最小, 或對于給定的估計量方差,使得總費用達到最小的各層樣本量的分配就是最優(yōu)分 配。在實際調查項目中,費用函數可能是線形的,也可能是非線形的。為方便研 究,考慮簡單線形費用函數(我們總是這樣假設),總費用為:L定理3.7 C 二6nk, Co為與樣本量無關的固定費用,Ch為第h層7中抽取一個單元的 平
37、均費用。則此時最優(yōu)分配是:7 = yL WhSh_h 4、5NhSh(權重嗆八"W®h): Ch h ChWhSh可見ncWh,Sh,nh二1/., ch。因此如果某一層單元數多,內部差異大,費用省,則該層樣本量要多分一些L證明:僅5nk是與各層樣本量nh有關的費用。我們的目標是同時權衡費k生用和方差兩個指標,在方差給定時使得費用盡可能小,或在費用給定時使得方差 盡可能小。因此構造目標函數:CV =(C -Co)(V J WhSh) = (J Cknk)(V J WhSh)心 N心NL L=c (,贏)2k Ah=J注意到方差公式 V(Vst) J wh21 fhs2 =-
38、WSh-WhSh (3.125) hmhmhm N第三部分第一項與樣本量在各層分配有關,用 V "表示,而第二項與樣本分 配無關,可以看作是常數根據Cauchy-Schwarz不等式a:b:八._ ahbh 2:等號成立當且僅當bh 二常數,h 二1,2,令 ah =WhSh, bn = Mh,于是當 bh = K =常數, ahy “hah即nh = K,對所有h成立時,C V達到最小,求和即得J®*LWhShWhShNhSh_ . Chh 丄ch因此最優(yōu)分配為:弓、L WhShhJ2, ,Lh 4 匸 chNhSh(3.134)最優(yōu)分配表達式中的n是需要根據所要研究的問
39、題確定的:(1)研究目的:在給定方差V的情況下,使得費用最小此時需要把nh =K二h=h代入V(y表達式,通過計算可得2WhShLLLWhSh . ChL WhSh. Ch)L WhSh/、Ch)K = 七,將其代入n得到n =上旦2 2V 、WhSh /NV 、WhSh / Nh 4h=4(2) 研究目的:給定費用C使得方差最小此時需要把nh = K代入C的表達式中,通過計算可得WhShL_C - c°(C-c°)(E WhSh/丘)K二L -0,將其代入n得到n二 WhSh':ch二 WhSh . 5h=1h=1(二)奈曼最優(yōu)分配 (Neyman 1934 &a
40、mp; Tschuprow1923 楚波羅)對于分層隨機抽樣,作為特例,如果每層抽樣的單位費用相同,即5二c,h =1,2/丄,此時費用函數就變?yōu)镃 =co,cn (費用固定,不考慮費用因素), 此時分配 匹的表達式形式大大簡化:n定理 3.8 Wh=M 二LNhSh ,h =1,2,丄。(3.145)二.Wh Sh二 N hShhWh W這種分配被稱為Neymar分配。此時方差最小為:(3.145)代入(3.125)訂LY1 LVmin(yst)= Z WhSh-書瓦 WhSh2(3.147)n g丿N hL(可以考慮用條件極值求解,在n = v nh約束下,求方差的極值,h =1;L N:
41、 S2-n)F =瓦+九(n1 +nLh4 N帀 0 ;r- 0, nL nh左nhh 2例3.4見教材P107現要進行家庭收入的調查。令n = 500,已知甲地某市共有甲乙兩個地區(qū),區(qū)共有20000戶居民,乙地區(qū)共有50000戶居民;甲地居民和乙地居民年收入標 準差估計分別為S =2500元,S2 =2000元,同時對甲地和乙地抽樣的平均每戶費用之比為2: 3,請分別計算在甲地和乙地進行 比例分配、一般最優(yōu)分配(考慮費用因素)以及奈 曼分配(不考慮費用因素)的樣本量。解:根據已知的數據,整理如下表 4.3hNhWhShChWhShWhSh Q Ch1200000.285725002714.2
42、857505.07632500000.7143200031428.5714824.7861合計700001.00002142.85711329.8624(1)按比例分配nW =500 0.2857 =142.86 : 143n2 二 nW2 =500 0.7143 =357.14 : 357(2) 一般最優(yōu)分配W.S,“ =n JW:%=500189898'190h . chW2S2JCh824 79n2 二 n J -500310.102 : 310T WhSh1329.86hT :Ch(3) 奈曼分配n 2W1S1=500714.286166.67 : 167f “ c2142.8
43、57WhShh F1428.5712142.857=333.33 : 333W2S2n2 =n '、WhShh=1比較上面三組結果,一般最優(yōu)分配在乙地所抽取的樣本量是最小的。這是因為一般最優(yōu)分配考慮了費用的因素, 在乙地抽樣的單位平均費用較高,所以最優(yōu) 的原則是適當增加甲地的樣本量,減少乙地的樣本量。將表中數據代入最小方差 公式(3.150),可以計算出奈曼分配下的估計量的最小方差。當然,這一方差也 可以將奈曼分配下的 厲和壓直接代入估計量方差公式(3.125)得到。理論上二 者應該是一致的,但是因為計算各層樣本量時有一些取整的過程, 所以可能二者 有出入。(三)某些層要求大于100%
44、由樣的修正此時取該第i層樣本量為n= Ni (即對該層100%入樣),將剩下的未取到的n, -N,個樣本數目按適當比例分配到其他各層中,其做法如下:不妨設計算結果顯示:n1 N1,則令m = N1i in,(n - NJ L ,i -2送 WiSii =2若所有的m乞Ni,則分配完畢,否則,如n2N2,則取n2二2,山=(n_ 2,i _3Z WiSii =3如此重復,直至每一層樣本量都不超過 Ni為止。此時:1 ( 1Vmin(yst-a 'WhSh -z 'WhS2,此處瓦'僅對ni蘭Ni的層求和,n是 n I丿N這些層樣本量的總數。此公式不在證明,但直觀上可以理解
45、:因為對那些實施普 查的層來說,已經不存在所謂的抽樣誤差,自然需要從原來的公式中將它們舍棄。例3.5某總體分為4層,數據如下表,若n= 80,請問該如何進行奈曼最優(yōu)分配?hNhShNhSh154002000210500500032001020004400208000合計61517000解:第一步:根據表中數據:500njnu liqicai75=80 竺0*917000N1S1比=n 4' NhShh 4而Ni =5,可見ni Ni,因此令n 1 = Ni = 5第二步:將n - ni =75個待分配的樣本量按奈曼分配的原則分配到 2至4層。=75 遡=2515000N 2S2門2 =
46、(n -ni) 送 NhShh =2而 N2 =i0,可見 n2 - N2,因此再令 n i=Ni=5, n2 = N2=iO第三步:將n 一 ni 一 n2二65個待分配樣本按奈曼分配原則分配到 3至4層。N3S33 3n3(n -ni - n?) 丁遲 NhShh =3=652000 =i3 :: N3 二 200i0000N 4S4n4 (n -ni -壓)4二 N hShh=3=65 哋=52i0000:N 4 二 400第四步:確定各層樣本量厲=5, n2 = i0,n3 = i3, n4 = 52_i:i第五步:Vmin(和盲WhSh I -S2WhSh20%。+400沢202-
47、丄色%。2656i56i56i5 6i5竺2026i5= 4.0676 0.4759 =3.59i7§ 3.6總樣本量的確定分層隨機抽樣中總樣本量的確定相對簡單隨機抽樣來說要復雜。因為它不僅與調查精度要求、費用限制以及估計的統(tǒng)計量有關,而且還與如何分層以及各層 樣本量的分配方式有關。一、估計總體均值時樣本量的確定i 精度要求以v(yj的上限v的形式給出V 八 Wh2 w;sh / WhShh=4nh-Zhj 山 h 4 N(3.180)(1)確定的樣本量分配nh二nwh, h =1,2,丄將nh二nwh代入(3.125)式得到V 二 w2sL J WhS2 1w2< 1=-LL
48、一2h 4 nh、Whs:可以解得:(3.182 )常令:n0二v 七 wS/n21 L止曲酣吋,則n =noLNV h呂' WhShnV'(3.183)(2)按比例分配Wh =Wh將 Wh 二 Wh 代入(3.24-1 )式,得 no住 WhSfV hdno(3.186)(3)奈曼分配Wh二嚴、WhShh T將whWhShLWhShh d代入(3.24-1 ) (3.24 )可得,2(S) WhShh母1 2V WhSfN h :ino1 L21 而:VSh(3.188)(4) 一般最優(yōu)分配見第三節(jié)二(一)L_ L_h =1(3.189 )c WhSh .Ch)(7 WhSh
49、/.一 Ch) h ¥L2V 、WhSh / N2精度要求以對丫戎的絕對誤差限d (在給定的置信水平1 -:下)的形式給出此時要求 Pyst Y 蘭d )1a 二 pl.%-Y < d £i“,于是, Qjv(yst)嚴仏),令,d =u,即V®st) =d2/u:,以此置換1中各表達式的V即可得到相應的樣本容量公式。(作業(yè):請自己寫出)3精度以對yst的相對誤差限r (在給定的置信水平1-:下)的形式給出此時要求P ysY蘭r'l-a二PQyst - Y蘭rY )K1-a,相當于要求絕對 I 丫丿誤差限d的形式給出:d二rY。以V(yJ二丄丫 置換
50、1中各表達式的V即可 lUo/2 丿得到相應的樣本容量公式。(作業(yè):請自己寫出)值得注意的是,當精度要求是以對yst的相對誤差限r的形式給出的,不僅需要 對Sh進行估計,還需要對Y進行估計。例3.7某工廠生產的機器供應全國219家用戶,現在想請用戶對該廠機器進行 評價。今把這些用戶分成成本地區(qū)、本省外地區(qū)以及外省地區(qū)三層,相關資料見 表(其中5為在第h層中調查一個用戶的平均費用):現在要求評分均值的估計 量的方差v(yj =0.1,同時要求費用最省(co = 0,且費用為線性形式)。求樣 本量n及其在各層的分配,并計算出對應的最低費用。本地區(qū)本省外地區(qū)外省N =1122 =68N3 =39S2 = 2.25S; =3.24Sf = 3.24G =9c2 =25c = 36分析:從本例所要達到的目的看出,這個問題屬于“對于給定的估計量方差, 使總費用達到最小”的一般最優(yōu)分配問題,宜用(3.189 )式解:hWhSh応WhSh y/Ch_Wh Sh / J ChWhS:Wh10.51141.500032.30140.25571.15070.607520.31
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀行財務工作總結及風險控制計劃
- 2025年機場應急演練計劃
- 2024-2025學年小學班級管理工作計劃范文
- 貸款二手房協議
- 互聯網營銷月度推廣計劃
- 利用信息技術促進農業(yè)發(fā)展協議
- 學騎車400字小學作文8篇范文
- 《明清時期的社會經濟變革:初中歷史課程教案》
- 2025小學總務校園基礎設施更新計劃
- 廣告代言及合作協議
- 私人房屋抵押合同
- 腹瀉課件模板
- 《市場人員商務禮儀》課件
- 《OSB-單板復合集裝箱底板剛度模型及工藝研究》
- 3.3.1天氣系統(tǒng)-鋒與天氣課件高二地理湘教版(2019)選擇性必修1
- 《重大火災隱患判定規(guī)則》知識培訓
- 辦公室主任職業(yè)規(guī)劃
- 第九章新時代中國特色大國外交與構建人類命運共同體-2024版研究生新中特教材課件
- 出國工作合同范例
- 《執(zhí)法規(guī)范化建設探究的國內外文獻綜述》2700字
- 大學物業(yè)服務月考核評價評分表
評論
0/150
提交評論