版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第四章分層隨機(jī)抽樣第一節(jié)概述一、什么是分層抽樣和分層隨機(jī)抽樣分層抽樣有時(shí)也稱為類型抽樣或分類抽樣。各層中的抽樣是獨(dú)立進(jìn)行的,因此,在各層中所采取的抽樣手段完全可以不相同,在一個(gè)層進(jìn)行簡單隨機(jī)抽樣,在另一層則可采用更復(fù)雜一些的抽樣,完全視各層的情況不同而定,這種因地制宜的手段將使樣本盡可能反映總體的特性以及子總體的特性。二、分層抽樣的特點(diǎn)和使用場合(一)特點(diǎn)
(二).使用場合(PP42)在對層進(jìn)行具體劃分時(shí),通??紤]如下原則:1.層內(nèi)單元具有相同性質(zhì),通常按調(diào)查對象的不同類型進(jìn)行劃分,這時(shí),分層抽樣能夠?qū)γ恳活惖哪繕?biāo)量進(jìn)行估計(jì)。2.盡可能使層內(nèi)單元的標(biāo)志值相近,層間單元的差異盡可能大,從而達(dá)到提高抽樣估計(jì)精度的目的.3.既按類型又按層內(nèi)單元標(biāo)志值相近的原則進(jìn)行多重分層,同時(shí)達(dá)到實(shí)現(xiàn)估計(jì)類值以及提高估計(jì)精度的目的.4.為了抽樣組織實(shí)施的方便,通常按行政管理機(jī)構(gòu)設(shè)置進(jìn)行分層第二節(jié)估計(jì)量
一.總體均值的估計(jì)(一)簡單估計(jì)量的定義對于分層樣本,對總體均值的估計(jì)是通過對各層的的估計(jì),按層權(quán)加權(quán)平均得到的。公式為:如果得到的是分層隨機(jī)樣本,則總體均值的簡單估計(jì)為:
(二)簡單估計(jì)量的性質(zhì)
性質(zhì)1對于一般的分層抽樣,如果是的無偏估計(jì)(h=1,2,…L),則是的無偏估計(jì).即對各層估計(jì)是無偏的,則對總體的估計(jì)也是無偏的.的方差為:
由于各層的抽樣是相互獨(dú)立的性質(zhì)2對于分層隨機(jī)抽樣,是的無偏估計(jì),差為:性質(zhì)3對于分層隨機(jī)抽樣,的一個(gè)無偏估計(jì)為:二、總體總量的估計(jì)
(一)簡單估計(jì)量的定義
總體總量Y的估計(jì)為:
對于分層隨機(jī)樣本:
(二)估計(jì)量的性質(zhì)性質(zhì)4對于一般的分層抽樣,如果是的無偏估計(jì),則是Y的無偏估計(jì).的方差為:性質(zhì)5對于分層隨機(jī)抽樣,的方差為:性質(zhì)6對于分層隨機(jī)抽樣,的一個(gè)無偏估計(jì)為:【例3.1】調(diào)查某地區(qū)的居民奶制品年消費(fèi)支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟(jì)及收入水平將居民戶劃分為4層,每層按簡單隨機(jī)抽樣抽?。保皯簦{(diào)查獲得如下數(shù)據(jù)(單位:元),估計(jì)該地區(qū)居民奶制品年消費(fèi)總支出及估計(jì)的標(biāo)準(zhǔn)差.課本P44頁例樣本戶奶制品年消費(fèi)支出層居民戶總數(shù)樣本戶奶制品年消費(fèi)支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:N=200+400+750+1500=2580=10(h=1,2,3,4)各層的層權(quán)及抽樣比為:
各層樣本均值及樣本方差為:該地區(qū)居民奶制品年消費(fèi)總支出:估計(jì)量方差及標(biāo)準(zhǔn)差的樣本估計(jì)為:
在95%的概率保證下該地區(qū)居民奶制品年消費(fèi)總支出區(qū)間為:【例3.2】某市進(jìn)行家庭收入調(diào)查,分城鎮(zhèn)居民和農(nóng)村居民兩部分抽樣,在全部城鎮(zhèn)23560戶中抽取300戶,在全部農(nóng)村148420戶中抽取250戶(均按簡單隨機(jī)抽樣進(jìn)行),調(diào)查結(jié)果是城鎮(zhèn)年平均戶收入為15180元,標(biāo)準(zhǔn)差為2972元;農(nóng)村年平均收入為9856元,標(biāo)準(zhǔn)差為2546元.求全市年平均戶收入的估計(jì)及其90%的置信區(qū)間.解:全市年戶均收入的置信區(qū)間:10585.391.645142.287,即10351.33—10819.45(元)注:由于城鎮(zhèn)居民與農(nóng)村居民收入水平和抽樣比不同(前者大于后者),如果不分層,計(jì)算樣本平均數(shù)作為全市戶均年收入是不合理的:三.總體比例的估計(jì)
(一)簡單估計(jì)量的定義總體比例P的估計(jì)為:(二)估計(jì)量的性質(zhì)如果定義,第i個(gè)單元具有所考慮的特征,其他i=1,2…N
性質(zhì)7對于一般的分層抽樣,如果是的無偏估計(jì)(h=1,2,…L),則是P的無偏估計(jì).的方差為:
性質(zhì)8對于分層隨機(jī)抽樣,是P的一個(gè)無偏估計(jì),的方差為:
性質(zhì)9對于分層隨機(jī)抽樣,的一個(gè)無偏估計(jì)為:
【例3.3】P46了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計(jì)該地區(qū)家庭擁有電腦的比例及估計(jì)的標(biāo)準(zhǔn)差.樣本戶擁有家庭電腦情況層
居民戶總數(shù)樣本戶擁有家庭電腦情況12345678910120000010001002400010000001037501100001010415001000000000解:
該地區(qū)家庭擁有電腦的比例的估計(jì)、估計(jì)量的方差、估計(jì)的標(biāo)準(zhǔn)差為:(三)總體具有所考慮特征單元總數(shù)A的估計(jì)它的方差及方差估計(jì)分別是:【例3.4】為調(diào)查某個(gè)高血壓高發(fā)病地區(qū)青少年與成年人高血壓的患病率,對14歲以上的人分四個(gè)年齡組進(jìn)行分層隨機(jī)抽樣,調(diào)查結(jié)果如下,求總體高血壓的患病率P的估計(jì)及其標(biāo)準(zhǔn)差的估計(jì).
高血壓患病率調(diào)查數(shù)據(jù)年齡組(歲)層權(quán)層樣本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536解:
P的估計(jì)量為:為求的方差估計(jì),取第三節(jié)樣本量在各層的分配簡單隨機(jī)抽樣只需要根據(jù)調(diào)查精度的要求與費(fèi)用的限制來確定抽樣容量的大小,而分層抽樣則提出另一個(gè)重要的問題,一旦確定n,又如何在各層中分配抽樣容量nh一、樣本量分配對精度的影響某個(gè)總體分為三層,其層權(quán)及層標(biāo)準(zhǔn)差見下表,設(shè)總樣本量為300,考慮四種不同的樣本量分配,并計(jì)算出每一種分配下,總體均值估計(jì)量的方差:樣本量的不同分配對方差的影響h常數(shù)分配與成正比與成正比與成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.00二、比例分配(proportionalallocation)即按各層單元數(shù)占整體單元數(shù)的比例進(jìn)行分配,也就是按各層的層權(quán)進(jìn)行分配,即大的子總體多抽一些,小的子總體少抽一些:比例分配時(shí),也與層權(quán)成比例.
或由上式可以看出,當(dāng)比例分配時(shí),無論是哪一層,總體單元被抽中的概率皆為f,因此比例分配的分層隨機(jī)抽樣是一種等概率抽樣。說明此時(shí)分層估計(jì)即是樣本均值,顯然估計(jì)量有相當(dāng)簡單的形式,而在通常情況下,比例分配時(shí),總體均值的估計(jì)是:比例分配時(shí),總體總量Y的估計(jì)也很簡單:不管哪種抽樣方法,如果總體總量(或均值)的一個(gè)估計(jì)量可以寫成樣本觀測值的總和(或平均數(shù))的常數(shù)倍,那么這種估計(jì)(或相應(yīng)的樣本)稱作自加權(quán)的或等加權(quán)的.按比例分配的分層抽樣就是自加權(quán)的.簡單隨機(jī)抽樣(放回的和不放回的)也是自加權(quán)的.的方差為:注意:是各層方差按層權(quán)的加權(quán)平均!二.最優(yōu)分配在分層隨機(jī)抽樣中,在總費(fèi)用給定的條件下,使估計(jì)量的方差達(dá)到最?。换蛟诮o定估計(jì)量方差的條件下,使總費(fèi)用最小的各層樣本量的分配稱為最優(yōu)分配(optimumallocation).
考慮簡單線性費(fèi)用函數(shù)的情形,總費(fèi)用為:這時(shí)的最優(yōu)分配為(參見PP61~62的證明):上式表明,越大(即層越大),則層內(nèi)抽樣應(yīng)越多;又若越大(即層內(nèi)變差越大),則層內(nèi)抽樣也應(yīng)越多;但如果越大(即層內(nèi)平均每單元費(fèi)用越大),則在該層中的抽樣應(yīng)少一些.即最優(yōu)分配的與或成正比,與成反比.(二)Neyman(內(nèi)曼)分配條件:如果每層的單位抽樣費(fèi)用相同,即時(shí),最優(yōu)分配可簡化為:將代入即得:使得達(dá)到最小:【例3.5】(續(xù)例3.1)如果樣本量為n=40,則按比例分配和Neyman分配,各層的樣本量應(yīng)為多少?
解:按比例分配時(shí),各層的樣本量為:
即按比例分配時(shí),各層的樣本量分別為:3,6,11,20按Neyman分配時(shí):各層的樣本量為:即各層的樣本量分別為:3,7,23,7【例3.6】在例3.2中若固定n=550不變,城鎮(zhèn)居民與農(nóng)村居民年收入的標(biāo)準(zhǔn)差估計(jì)分別為元,元,對城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費(fèi)用比1:2,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量.又若不考慮費(fèi)用因素,那么最優(yōu)分配的結(jié)果又有何變化?如何計(jì)算呢?解:
城鎮(zhèn)與農(nóng)村居民年收入調(diào)查樣本量分配的計(jì)算h12356000411.021484200.863250022157.51525.6∑171980———2568.51936.6(1)比例分配(2)最優(yōu)分配(3)內(nèi)曼分配
不考慮費(fèi)用的內(nèi)曼分配在農(nóng)村的樣本量比考慮費(fèi)用的最優(yōu)分配在農(nóng)村的樣本量更大.這是因?yàn)檗r(nóng)村調(diào)查費(fèi)用較高,因此最優(yōu)原則是適當(dāng)增加城鎮(zhèn)樣本量,減少農(nóng)村樣本量.(三)某些層要求大于100%抽樣時(shí)的修正以不考慮費(fèi)用的內(nèi)曼分配為例,實(shí)際操作步驟如下:第四節(jié)樣本量的確定一.影響樣本總量n的因素
1.估計(jì)量精度的要求:(1)對總體參數(shù)估計(jì)的精度(2)對各層參數(shù)估計(jì)的精度2.費(fèi)用的限制(1)總費(fèi)用的限制(2)不同層中平均抽取一個(gè)單元的費(fèi)用由于估計(jì)量的精度實(shí)際上取決于每層樣本量的大小,因此在總樣本量給定的情況下,對層樣本量的不同分配,其精度也不同.反之,對同一精度要求,對不同的樣本量分配形式,計(jì)算得到的總樣本量也有差異,因此,在確定總樣本時(shí),要求先確定樣本量的分配形式.3.層的劃分和層的樣本量的分配形式二.估計(jì)總體均值情形則有:從而可以解出n:1、當(dāng)按比例分配時(shí),有則上式為:在實(shí)際工作中,上式計(jì)算可分為兩步,a.先計(jì)算:b.當(dāng)不能忽略不計(jì)時(shí),再計(jì)算:2、當(dāng)按Neyman分配時(shí),有則:令:有:3、如果精度是以誤差限的形式給出的,則其中,d為絕對誤差限,r為相對誤差限,t為標(biāo)準(zhǔn)正態(tài)分布的雙側(cè)分位數(shù),為總體均值.這時(shí)上式可以表示為:【例3.7】(續(xù)例3.1)如果在95%置信度下,相對誤差不超過10%,則按比例分配和Neyman分配時(shí),總樣本量分別為多少?解:按比例分配時(shí):2679.22對進(jìn)行修正得n:95%置信度時(shí),對應(yīng)的又:得:按Neyman分配時(shí):簡單線性函數(shù):C=將代入n的一般公式,(1)當(dāng)方差V給定時(shí),可得:三、最優(yōu)分配需要考慮費(fèi)用時(shí)則:(2)而當(dāng)總費(fèi)用C給定時(shí),有:四.估計(jì)總體比例P的情形當(dāng)方差V給定時(shí),如果都比較大,使得
將代入一般公式,得總樣本量:(一)按比例分配令得:(二)Neyman分配(三)最優(yōu)分配
計(jì)算樣本量之前,需要對作預(yù)估計(jì).【例3.8】(續(xù)PP49例3.3)
如果在95%置信度下,絕對誤差不超過5%,則按比例分配和Neyman分配時(shí),總樣本量分別為多少?
解:t=1.96d=5%按比例分配時(shí):Neyman分配時(shí):第五節(jié)分層時(shí)的若干問題一.抽樣效果分析與簡單隨機(jī)抽樣相比.分層隨機(jī)抽樣的精度與樣本量的分配及各層的方差有關(guān).在固定樣本的情況下,如果相對1可以忽略,則分別為分層隨機(jī)抽樣最優(yōu)分配、分層隨機(jī)抽樣按比例分配、簡單隨機(jī)抽樣簡單估計(jì)的方差.簡單隨機(jī)抽樣和按比例分配隨機(jī)抽樣比較:最優(yōu)分配與按比例分配比較:如果各層的均值差異越大,則用比例分配法較好,而當(dāng)各層的標(biāo)準(zhǔn)差較大時(shí),用最優(yōu)分配法較好。通常用比例分配法較多,因?yàn)椋海?)最優(yōu)分配并不是對每個(gè)指標(biāo)都是最優(yōu)的。(2)由于最優(yōu)分配時(shí)需對層標(biāo)準(zhǔn)差進(jìn)行估計(jì),估計(jì)又不可能十分精確,加上計(jì)算時(shí)樣本量必須取整數(shù),因此理論上的最優(yōu)分配的最小方差并不一定能達(dá)到。(3)按比例分配簡單易行,估計(jì)量自加權(quán),有時(shí)即使相對最優(yōu)分配增加20%的方差,也被采用。對于最優(yōu)分配,需要各層標(biāo)準(zhǔn)差Sh的值,可以用調(diào)查指標(biāo)的歷史數(shù)據(jù)或通過輔助指標(biāo)的信息推算有沒有可能簡單隨機(jī)抽樣優(yōu)于分層隨機(jī)抽樣?層間方差小于層內(nèi)方差時(shí)<0二.層的劃分
基本原則:
使層內(nèi)差異盡可能小—各層有自己鮮明特色,使層間差異明顯地較大---各層之間有顯著不同.
(一)分幾層
1.分層數(shù)目與估計(jì)量方差大體成如下關(guān)系
假設(shè)按y分層,y均勻分布Sy2=d2/12均分為L層,各層層內(nèi)方差為Syh2=d2/12L2V(yst)=VSRS/L2L2345678Deff0.250.110.060.040.0280.020.016L=6層數(shù)方差2.在實(shí)踐中,由于目標(biāo)量Y未知,因此,分層變量往往并非Y,而是選擇與Y高度相關(guān)的輔助指標(biāo)XLr=0.99r=0.95r=0.90r=0.8520.260.320.390.4630.130.200.280.3640.080.150.240.3250.060.130.220.3160.050.120.210.30∞0.020.100.190.28除非xy相關(guān)系數(shù)r大于0.95,超過6層后方差減少比較少Deff3.如何確定各層的分點(diǎn).(1)根據(jù)自然標(biāo)志確定(2)按數(shù)量標(biāo)志分層思路:設(shè)總體分成h層,假定與分別為總體的最小與最大可能值.按數(shù)值分層即為在與之間插上(k-1)個(gè)分點(diǎn):如果各層的抽樣分配方案已定,即設(shè)法求這些分點(diǎn)以使得達(dá)到最小.確定層界的快速近似法:累積平方根法:由戴倫紐斯(Daleniues)與霍捷斯(Hodges)提出的根據(jù)等分分層變量分布的累積平方根的最優(yōu)分層方法,簡稱累積平方根法.累積平方根法【例3.9】p56
某地區(qū)電信部門在對利用電話上網(wǎng)的居民家庭安裝ADSL意愿進(jìn)行調(diào)查時(shí),以轄區(qū)內(nèi)最近三個(gè)月有電話上網(wǎng)支出的居民用戶為總體(上網(wǎng)電話費(fèi)為0.02元/分鐘),并準(zhǔn)備按上網(wǎng)電話支出(x)進(jìn)行分層,試確定各層的分點(diǎn).范圍x頻數(shù)f累計(jì)0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.00380~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.949最終累計(jì)頻數(shù)是2712.949,如果取層數(shù)為4,則應(yīng)每隔2712.04/4=678.237分一層.因此應(yīng)該使得累計(jì)最接近678.237
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人心理咨詢與輔導(dǎo)服務(wù)合同3篇
- 2025年度林業(yè)權(quán)屬林權(quán)登記與林業(yè)碳匯項(xiàng)目實(shí)施合同4篇
- 2025年福建貨運(yùn)從業(yè)資格證新政
- 七夕節(jié)趣味活動(dòng)策劃方案
- 二零二五年度高速鐵路鋁合金門窗安全檢測與安裝合同4篇
- 二零二五年度0號柴油環(huán)保油品居間服務(wù)合同3篇
- 2025年度個(gè)人房產(chǎn)交易過戶手續(xù)辦理協(xié)議3篇
- 二零二五年度土地租賃及經(jīng)營權(quán)轉(zhuǎn)讓合同樣本-@-1
- 二零二五年度離婚房產(chǎn)分割與子女醫(yī)療費(fèi)用承擔(dān)合同3篇
- 二零二五年度企業(yè)員工培訓(xùn)課程版權(quán)購買協(xié)議4篇
- 2024年社區(qū)警務(wù)規(guī)范考試題庫
- 2024年食用牛脂項(xiàng)目可行性研究報(bào)告
- 2024-2030年中國戶外音箱行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報(bào)告
- 家務(wù)分工與責(zé)任保證書
- 消防安全隱患等級
- (新版)國民經(jīng)濟(jì)行業(yè)分類代碼表(八大行業(yè))
- 北京地鐵13號線
- 2023山東春季高考數(shù)學(xué)真題(含答案)
- 為加入燒火佬協(xié)會(huì)致辭(7篇)
- 職業(yè)衛(wèi)生法律法規(guī)和標(biāo)準(zhǔn)培訓(xùn)課件
- 高二下學(xué)期英語閱讀提升練習(xí)(二)
評論
0/150
提交評論