版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、抽樣技術(shù)第 1 章 緒論1.1 調(diào)查與抽樣調(diào)查調(diào)查(survey):通過使用明確的概念、方法和程序,依據(jù)專門設(shè)計的調(diào)查方案指導(dǎo)的方式,從一個總體全部或部分單元中搜集感興趣的指標(biāo)信息,并將這些信息綜合整理成數(shù)據(jù)系列的有關(guān)活動。例:調(diào)查北京市民對出租車行業(yè)的滿意度調(diào)查全面調(diào)查與非全面調(diào)查根據(jù)“調(diào)查是否針對總體的所有單元”劃分:全面調(diào)查:普查非全面調(diào)查非全面調(diào)查相對于全面調(diào)查的優(yōu)點:(1)時間短速度快;(2)費用少成本低;(3)調(diào)查結(jié)果比較準(zhǔn)確;(4)應(yīng)用范圍廣泛。應(yīng)用前提抽樣調(diào)查的基本概念抽樣調(diào)查(sampling survey)是一種非全面的調(diào)查,指從研究對象的全體(總體)中抽取一部分單元作為樣
2、本,根據(jù)對所抽取的樣本進(jìn)行調(diào)查,獲得有關(guān)總體目標(biāo)量的了解。抽樣調(diào)查的作用1節(jié)約費用 2時效性強 3可以承擔(dān)全面調(diào)查無法勝任的項目 4有助于提高調(diào)查數(shù)據(jù)的質(zhì)量 根據(jù)“單元是否按照一定的概率入樣”劃分: 概率抽樣和 非概率抽樣隨機抽樣是指按照概率原則,從總體中抽取一定數(shù)目的單位作為樣本進(jìn)行觀察,隨機抽樣使總體中每個單位都有一定的概率被選入樣本,從而使根據(jù)樣本所做出的結(jié)論對總體具有充分的代表性。非隨機抽樣是以方便為出發(fā)點或根據(jù)研究者主觀的判斷來抽取樣本。非隨機抽樣主要依賴研究者個人的經(jīng)驗和判斷,它無法估計和控制抽樣誤差,無法用樣本的量化數(shù)據(jù)來推斷總體。 概率抽樣調(diào)查非概率抽樣調(diào)查優(yōu)點:能夠保證樣本的
3、代表性,避免人為因素的干擾;用概率抽樣取得的樣本去估計總體特征時,可以對由抽樣產(chǎn)生的抽樣誤差進(jìn)行估計。缺點:難以評價樣本的代表性無法估計抽樣誤差偏倚往往較大概率(隨機)抽樣(probability sampling )非概率(非隨機)抽樣(non- probability sampling ) 抽樣調(diào)查應(yīng)用領(lǐng)域 社會經(jīng)濟現(xiàn)象的調(diào)查 社會性的民意調(diào)查 市場調(diào)查 1.2 基本概念 目標(biāo)總體與抽樣總體 抽樣框與抽樣單元 總體參數(shù)與統(tǒng)計量 估計量方差、偏差、均方誤差 抽樣誤差與非抽樣誤差 精度與費用 目標(biāo)總體與抽樣總體總體目標(biāo)總體也可簡稱為總體,是指所要研究對象的全體,或者說是希望從中獲取信息的總體,
4、它是由研究對象中所有性質(zhì)相同的個體所組成組成總體的各個個體稱作總體單元或單位。 抽樣總體是指從中抽取樣本的總體。 抽樣框與抽樣單元抽樣總體的具體表現(xiàn)是抽樣框。通常抽樣框是一份包含所有抽樣單元的名單。抽樣框的形式:名單、手冊、地圖、數(shù)據(jù)包等等。抽樣框的要求:(1)抽樣框必須是有序的,即抽樣單元必須編號,且根據(jù)某種順序進(jìn)行了排列。(2)抽樣框中包含的抽樣單元務(wù)必要“不重不漏”,否則將出現(xiàn)抽樣框誤差。抽樣單元分級:初級單元次級單元三級單元四級單元基本抽樣單元??傮w參數(shù)和(樣本)統(tǒng)計量總體參數(shù):總體是調(diào)查的客體,而總體參數(shù)是總體某個特征或?qū)傩缘臄?shù)量表現(xiàn)。常見的總體參數(shù)有4種:(1)總體總值;(2)總體
5、均值;(3)總體比例;(4)總體比率??傮w總值、總體均值、總體比例三者是統(tǒng)一的,它們都可以用總體均值來表示。why統(tǒng)計量和估計方法統(tǒng)計量是根據(jù)樣本的n個單元的變量值計算出的一個量,也叫估計量,用于對總體參數(shù)的估計。估計量是隨機變量,比如樣本均值估計方法:最常見的估計方法是簡單線性估計,除此之外,還可以借助于輔助變量。輔助變量必須滿足的兩個條件:(1)與要估計的變量高度相關(guān);(2)其總體信息已知。估計量方差、偏差、均方誤差估計量分布的方差稱為估計量方差,它是從平均的意義上說明估計值與待估參數(shù)的差異狀況,也是我們對抽樣方案進(jìn)行評價的標(biāo)準(zhǔn)之一。 估計量方差表達(dá)式: 偏差是指按照某一抽樣方案反復(fù)進(jìn)行抽
6、樣,估計值的數(shù)學(xué)期望與待估參數(shù)之間的離差。 偏差的表達(dá)式 :對于無偏估計量 ,偏差為零 。估計量方差、偏差、均方誤差均方誤差(Mean Square Error, MSE )指所有可能的估計值與待估參數(shù)之間離差平方的均值,它等于估計量方差加偏差的平方。 =估計量方差、偏差、均方誤差抽樣誤差與非抽樣誤差抽樣誤差:抽樣誤差是由于抽取樣本的隨機性造成的樣本值與總體值之間的差異,只要采用抽樣調(diào)查,抽樣誤差就不可避免。抽樣誤差是一個一般的概念,它可以用不同的量值來表示。例如:估計量方差或估計量標(biāo)準(zhǔn)差。非抽樣誤差:是相對于抽樣誤差而言的,它不是由于抽樣的隨機性,而是由于其它多種原因引起的估計值與總體參數(shù)之
7、間的差異。 包括:抽樣框誤差、計量誤差、無回答誤差等精度與費用調(diào)查的費用是一個與樣本量有關(guān)的函數(shù),最簡單的是線性費用函數(shù)。最優(yōu)抽樣設(shè)計:指以最小的費用達(dá)到要求的精度或者在給定費用的情況下達(dá)到最大的精度樣本容量抽樣誤差精度由誤差來表現(xiàn)。抽樣誤差與樣本量有關(guān),樣本量越大,在其它條件相同情況下,抽樣誤差就越小,抽樣調(diào)查的精度就越高。幾種基本的抽樣方式 概率抽樣調(diào)查 非概率抽樣調(diào)查簡單隨機抽樣分層抽樣系統(tǒng)抽樣整群抽樣多階段抽樣 判斷抽樣(包括典型調(diào)查和重點調(diào)查)便利抽樣自愿樣本滾雪球抽樣配額抽樣等簡單隨機抽樣簡單隨機抽樣(simple random sampling)又稱純隨機抽樣,考慮一個包含N個單
8、位的母體,從中抽取n個單位作為樣本。如果抽樣是不放回的,即同一個單位不能在樣本中重復(fù)出現(xiàn),那么總共有C(N,n) 種不同的取法,也就是說共有C(N,n)個可能的不同樣本。如果每個樣本被抽中的概率都相等,則稱這種抽樣方法為簡單隨機抽樣,所得到的樣本叫做簡單隨機樣本(SRS)。 例題:某大學(xué)欲了解該校研究生中打算報考托福人數(shù)的比例,全校研究生共有570人,隨機抽取了100人,其中有14人準(zhǔn)備參加托??荚嚕囈?5%的把握程度對研究生中欲報考托福人數(shù)的比例作出估計。 簡單隨機抽樣分層抽樣 分層抽樣(stratified sampling)又稱類別抽樣,它是先將總體所有單位按某些重要標(biāo)志進(jìn)行分類(層)
9、,然后在各類(層)中采用簡單隨機抽樣或系統(tǒng)抽樣方式抽取樣本單位的一種抽樣方式。例如,對員工收入狀況進(jìn)行調(diào)查,就可將員工按職業(yè)不同,分為生產(chǎn)人員、商業(yè)人員、服務(wù)性工作人員等各層,再從各層中抽取員工。等比例抽樣不等比例抽樣優(yōu)點更為精確對每層的推論 分層抽樣系統(tǒng)抽樣 系統(tǒng)抽樣是將N個總體單位按一定順序排列,先隨機抽取一個單位作為樣本的第一個單位,然后按某種確定的規(guī)則抽取樣本的其它單位。其中最簡單也是最常用的規(guī)則是等間隔抽取。所以系統(tǒng)抽樣又稱等距抽樣。系統(tǒng)抽樣排列順序與調(diào)查項目無關(guān)排列順序與調(diào)查項目有關(guān)例如,從600名大學(xué)生中抽選50名大學(xué)生利用學(xué)?,F(xiàn)有名冊按順序編號排序,從第001號編至600號。抽
10、選距離=N/n=600/50=12(人)如從第一個12人中用簡單隨機抽樣方式,抽取第一個樣本單位,如抽到的是8號,依次抽出的是20號,32號,44號等。 系統(tǒng)抽樣優(yōu)點均勻地分布 簡單易行 缺點抽樣誤差計算較為復(fù)雜 周期性重合時會影響調(diào)查的精確度需要較為詳細(xì)、具體的相關(guān)資料 整群抽樣整群抽樣是先將總體劃分成許多不相重合的子總體或群,然后以群為抽樣單位,按某種隨機方式從中抽取若干個群,形成一個“群”的隨機樣本,對抽中的群內(nèi)所有單位都進(jìn)行調(diào)查。例如,某大學(xué)要調(diào)查學(xué)生的視力,可以將班做為一個群,隨機抽取幾個班,對這些班的全部學(xué)生進(jìn)行調(diào)查。 整群抽樣一是沒有總體最終單位的抽樣框?qū)嵤┍憷⒐?jié)省費用影響整群
11、抽樣誤差的主要是群間方差。分群時使群內(nèi)方差盡可能大,使群間方差盡可能小。 整群抽樣的估計精度一般低于簡單隨機抽樣 多階段抽樣(multi stage sampling) 多階段抽樣是指抽取樣本單位時分幾個階段進(jìn)行:首先在總體中按隨機原則抽取若干初級(一級)單位,然后再從被抽中的初級單位中抽取若干次級(二級)單位,這種抽樣稱為二階段抽樣。如果每個次級單位又可以進(jìn)一步分為更小的三級單位,那么在每個被抽中的二級單位中再抽取三級單位,這稱為三階段抽樣,以此類推,可以定義更多階段的抽樣。多階段抽樣例如,全國性調(diào)查,??;市或縣;街道、鎮(zhèn)、或鄉(xiāng),等等。在大規(guī)模的抽樣調(diào)查中,特別是當(dāng)抽樣單位為各級行政單位時,
12、通常都采用多階段抽樣。優(yōu)點:樣本單位相對集中,實施調(diào)查比較方便,可以節(jié)省調(diào)查費用。抽樣時并不需要全部低級單位的抽樣框 非隨機抽樣技術(shù) 原因:1受客觀條件限制,無法進(jìn)行嚴(yán)格的隨機抽樣;2為了快速獲得調(diào)查結(jié)果;3在調(diào)查對象不確定,或無法確定的情況下采用,例如,對某一突發(fā)(偶然)事件進(jìn)行現(xiàn)場調(diào)查等;4總體各單位間離散程度不大,且調(diào)查員具有豐富的調(diào)查經(jīng)驗時。方便抽樣根據(jù)調(diào)查者的方便與否來抽取樣本,“街頭攔人法” 判斷抽樣憑研究人員的主觀意愿、經(jīng)驗和知識,從總體中選擇具有典型代表性樣本作為調(diào)查對象平均型”或“多數(shù)型” 按照一定標(biāo)準(zhǔn),主觀選取樣本 非隨機抽樣技術(shù) 配額抽樣事先要對總體中所有單位按其屬性、特
13、征分為若干類型,這些屬性、特征稱為“控制特征”。如被調(diào)查者的姓名、年齡、收入、職業(yè)、教育程度等;然后,按照各個控制特征分配樣本數(shù)額。 簡單易行,樣本具有較高的代表性 雪球抽樣前提:是總體單位之間具有一定的聯(lián)系,非隨機抽樣技術(shù) 1.4 抽樣調(diào)查步驟(1) 確定調(diào)研問題(2) 抽樣方案設(shè)計(3) 問卷設(shè)計 (4) 實施調(diào)查過程 (5) 數(shù)據(jù)處理分析(6) 撰寫調(diào)查報告 抽樣方案設(shè)計內(nèi)容 第一、確定抽樣調(diào)查的目的、任務(wù)和要求;第二、確定調(diào)查對象的范圍和抽樣單位;第三、確定抽取樣本方法;第四、確定必要的樣本數(shù);第五、對主要抽樣指針的精度提出要求;第六、確定總體目標(biāo)量的估算方法;第七、制訂實施總體方案的
14、辦法和步驟。 第2章 簡單隨機抽樣(SRS)2.1 概述2.2 簡單估計量及其性質(zhì)2.3 比率估計量及其性質(zhì)2.4 回歸估計量及其性質(zhì)2.5 簡單隨機抽樣的實施2.1 概述簡單隨機抽樣也稱為純隨機抽樣。從含有 N 個單元的總體中抽取 n 個單元組成樣本,如果抽樣是不放回的,則所有可能的樣本有 個,若每個樣本被抽中的概率相同,都為 ,這種抽樣方法就是簡單隨機抽樣。具體抽樣時,通常是逐個抽取樣本單元,直到抽滿n個單元為止。 有限放回簡單隨機抽樣與不放回簡單隨機抽樣放回簡單隨機抽樣(SRS with replacement)當(dāng)從總體N個抽樣單元中抽取n個抽樣單元時,如果依次抽取單元時,不管以前是否被
15、抽中過,每次都從N個抽樣單元中隨機抽取,這時,所有可能的樣本為 ? 個(考慮樣本單元的順序),每個樣本被抽中的概率為?放回簡單隨機抽樣在每次抽取樣本單元時,都將前一次抽取的樣本單元放回總體,因此,總體的結(jié)構(gòu)不變,抽樣是相互獨立進(jìn)行的,這一點是它與不放回簡單隨機抽樣的主要不同之處。放回簡單隨機抽樣的樣本量不受總體大小的限制,可以是任意的。除非特別說明,簡單隨機抽樣指的是不放回簡單隨機抽樣【例2.1】設(shè)總體有5個單元(1、2、3、4、5),按放回簡單隨機抽樣的方式抽取2個單元,則所有可能的樣本為25個(考慮樣本單元的順序):1,12,13,14,15,11,22,23,24,25,21,32,33
16、,34,35,31,42,43,44,45,41,52,53,54,55,5不放回簡單隨機抽樣當(dāng)從總體N個抽樣單元中依次抽取n個抽樣單元時,每個被抽中的單元不再放回總體,而是從總體剩下的單元中進(jìn)行抽樣。不放回簡單隨機抽樣的樣本量要受總體大小的限制。在實際工作中,更多的采用不放回簡單隨機抽樣。 【例2.2】設(shè)總體有5個單元(1、2、3、4、5),按不放回簡單隨機抽樣的方式抽取2個單元,則所有可能的樣本為個:1,22,33,44,51,32,43,51,42,51,5簡單隨機抽樣的抽取原則:(1)按隨機原則取樣;(2)每個抽樣單元被抽中的概率都是已知的或事先確定的;(3)每個抽樣單元被抽中的概率都
17、是相等的。所有可能樣本每個樣本被抽中的概率相同所有可能樣本每個樣本被抽中的概率相同符號 大寫符號表示總體的標(biāo)志值,小寫符號表示樣本的標(biāo)志值 總 體樣 本 數(shù)理統(tǒng)計中的任何參數(shù)估計問題都是抽樣調(diào)查涵蓋的范圍,理論上人們一般只關(guān)注四個方面的總體特征:總體均值總體總值總體比率總體比率2.2 簡單估計量及其性質(zhì) 判斷下面要估計的總體目標(biāo)量分別屬于什么類型?調(diào)查城市居民家庭平均用電量。估計湖中魚的數(shù)量。測試日光燈的壽命。估計居民家庭用于做飯菜及飲用的用水量占家庭總用水量的比重。估計嬰兒出生性別比。檢測食鹽中碘含量。 一、對總體均值的估計 以樣本均值作為總體均值的估計性質(zhì)1:對于簡單隨機抽樣, 是 的無偏
18、估計。 例設(shè)總體為0,1,3,5,6,計算總體均值 =3、總體方差 =5.2和 =6.5;給出全部 的樣本,并驗證 及 。 1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95樣本編號單元1單元2樣本均值-樣本方差 證明 性質(zhì)1 對于固定的有限總體,估計量的期望是對所有可能樣本求平均得到的,因此總體中每個特定的單元 在不同的樣本中出現(xiàn)的次數(shù)。 證明 性質(zhì)1(對稱性論證法) 由于每個單元出現(xiàn)在總體所有可能樣本中的次數(shù)
19、相同,因此 一定是 的倍數(shù),且這個倍數(shù)就是 , 性質(zhì)2:對于有限總體的方差定義 :性質(zhì)2:對于簡單隨機抽樣, 的方差式中: 為抽樣比, 為有限總體校正系數(shù)。 證明性質(zhì)2(對稱論證法): 中的求和是對 項的, 中的求和是對 項的 每個特定單位被選入樣本的概率: =P(i)=故其定義為:* 不放回抽樣* 每個樣本被抽中的概率為* 每個單位被選入樣本的概率 利用無限總體理論 Mean =隨機變量證明性質(zhì)2簡單隨機抽樣下,簡單估計量估計精度影響因素: 估計量的方差 是衡量估計量精度的度量。影響估計量方差的因素主要是樣本量n,總體大小N和總體方差 。通常N很大,當(dāng)f0.5 ,比率估計比簡單估計更為精確比
20、率估計的其他問題為何不對 的分子、分母各自按簡單估計獲得置信區(qū)間,然后根據(jù)兩個區(qū)間的上下限構(gòu)造R的區(qū)間邊界為何不對每個樣本點計算ri,然后使用 估計R呢?是否存在具有無偏性的比率估計量?2.4 回歸估計量及其性質(zhì)回歸估計的性質(zhì) 假如研究發(fā)現(xiàn),Y和X之間存在近似的線性關(guān)系,但這(直)線并不通過Y和X構(gòu)成的平面坐標(biāo)的原點,也就是所謂截距不等于0,那么這時利用比率估計顯然不合適,最好構(gòu)造Y對X的線性回歸關(guān)系進(jìn)行估計。主要變量總體均值 的回歸估計量定義 時為簡單估計量 時為比率估計 時為差估計因此簡單估計量與比率估計量都是回歸估計量的特例?;貧w估計里輔助變量X的特點與比率估計里的十分相似:輔助變量必須
21、與主要變量高度相關(guān);輔助變量與主要變量之間的相關(guān)關(guān)系整體上相當(dāng)穩(wěn)定;輔助變量的信息質(zhì)量更好,幫忙而不添亂;輔助變量的總體總值必須是已知的,或是更容易獲得的。對于簡單隨機抽樣,如為常數(shù)(記為0),則有 具體證明見定理2.8使回歸估計量的估計精度最高,即V( )最小的0為此時對于簡單隨機抽樣,n足夠大時, 的數(shù)學(xué)期望對于簡單隨機抽樣,n足夠大時, 的方差這個定理的內(nèi)容也包含兩個結(jié)論:一個是說 不是無偏的;一個是說在某種條件下, 是近似無偏的。各種估計量的精度比較n足夠大的情形簡單估計:比率估計:回歸估計:n不夠大的情形2.5 簡單隨機抽樣的實施費用 總費用 固定費用 可變費用 設(shè)計費分析費辦公費管
22、理費場租費等訪問員費交通費禮品費電話費等樣本量的確定STEPS所需要的精度找出樣本量與精度之間的關(guān)系估計所需的數(shù)值,求解 n如超出預(yù)算,調(diào)整精度值重新計算精度margin of error對精度的要求通常以允許絕對誤差( 絕對誤差限)或允許相對誤差( 相對誤差限)來表示。 樣本量足夠大時,可用正態(tài)分布近似 變異系數(shù) Sample Size n0為重復(fù)抽樣條件下的樣本量當(dāng)N很大時, 0, n n0,wr與wor幾乎沒有區(qū)別??傮w參數(shù)為P的情形 f0.05 總體方差的估計根據(jù)預(yù)調(diào)查數(shù)據(jù)或以前文獻(xiàn)資料根據(jù)數(shù)據(jù)的分布粗略估算S,例如全距/4,全距/ 6對于比例估計,如果P在0.5附近(),可根據(jù)PQ在
23、P=0.5時達(dá)到極大值來對樣本量進(jìn)行計算 .如果時間允許,且總體在時間上變化不快,調(diào)查可以分為兩步,首先確定一個可以承受的樣本量,調(diào)查后對估計精度進(jìn)行計算,如果精度達(dá)到要求,則不再進(jìn)行下一步,否則,計算為達(dá)到精度要求所需的樣本量,再調(diào)查補充樣本通過定性分析 ,最好是對總體變異系數(shù)進(jìn)行分析并估計,因為變異系數(shù)通常變化不大.樣本量設(shè)計中的誤區(qū) 1. 估計精度越高越好嗎? 簡單隨機抽樣估計比例P的樣本量與誤差(當(dāng)P=0.5時) 樣本量 誤差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0.0098 對精度要求的判斷十分重要。為得到最小誤差而選擇最大樣本量
24、不是好的選擇。2. 樣本量與總體規(guī)模N有關(guān)嗎?按照總體比例確定樣本量合適嗎?例:簡單隨機抽樣估計P,置信度95%,允許誤差5%,在P=0.5條件下 總體規(guī)模(N) 所需樣本量(n) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 抽樣調(diào)查中的樣本量 由此可知,在精度要求相同條件下,在北京市進(jìn)行一項調(diào)查和在全國進(jìn)行一項調(diào)查,樣本量的差別并不大。 總體規(guī)模越大,進(jìn)行抽樣調(diào)查的效率越高。 若分類、分區(qū)、分層分別進(jìn)行估計,如何處理? 對于多項目,如何處理?其他影響因素1. 所研究問
25、題目標(biāo)量的個數(shù)2. 調(diào)查表的回收率 例如回收率估計為80%,則應(yīng)接觸的樣本量為計算出所需樣本量的1.25倍;3.非抽樣誤差4.資源限制5.有效樣本etc 定義:簡單隨機抽樣的樣本估計量的方差與復(fù)雜抽樣的樣本估 計 量的方差的比率。 Deff Var( )為復(fù)雜樣本估計量的方差。設(shè)計效果(Design effect, Deff)設(shè)計效應(yīng)基什(L. Kish)提出 比較不同抽樣方法的效率. 不放回簡單隨機抽樣簡單估計量的方差 某個抽樣設(shè)計在同樣樣本量條件下估計量的方差。 Deff的作用: (1)評價抽樣設(shè)計的一個依據(jù), 如果deff1, 則抽樣設(shè)計比簡單隨機抽樣的效率低。(2)計算樣本量如多階段抽
26、樣的 Deff大約在22.5之間。 n= n(deff) n為簡單隨機抽樣所需樣本量。放回簡單隨機抽樣的deff為: 常用于復(fù)雜抽樣樣本量的確定;在一定精度條件下,簡單隨機抽樣所需的樣本量比較容易得到,復(fù)雜抽樣的樣本量為, 第三章 分層隨機抽樣 3.1 概述3.2 簡單估計量及其性質(zhì)3.3 比率估計量及其性質(zhì)3.4 回歸估計量及其性質(zhì)3.5 各層樣本量的分配3.6 總樣本量的確定3.7 分層抽樣的其他方面2022/8/28106第一節(jié) 概述2022/8/281072022/8/28108 定義3.3 分層隨機抽樣(stratified random sampling):如果每層中的抽樣都是獨立
27、地按照簡單隨機抽樣進(jìn)行的,那么這樣的分層抽樣稱為分層隨機抽樣,所得的樣本稱為分層隨機樣本(stratified random sample)。2022/8/28109二、作用由于每層都進(jìn)行抽樣,這就可使樣本在總體中分布更加均勻,從而具有更好的代表性。由于抽樣在每一層中獨立進(jìn)行,所以一者允許各層選擇不同的適合本層的抽樣方法,二則可同時對各子總體(層)進(jìn)行參數(shù)估計,而不單是對整個總體的參數(shù)進(jìn)行估計。由于各層的總體方差因單元之間差異小而肯定小于整個總體的方差,而抽樣精度與此成正比,所以分層抽樣可以提高參數(shù)估計的精度。2022/8/28110三、符號2022/8/28111所有總體參數(shù)的估計量都采用下
28、標(biāo)“st”以示區(qū)別:2022/8/28112第二節(jié) 簡單估計量及其性質(zhì)一、對總體均值的估計分層樣本,總體均值 的估計分層隨機樣本,總體均值 的簡單估計 2022/8/28113估計量的性質(zhì) 性質(zhì)1&2:對于一般的分層抽樣,如果 是 的無偏估計( ),則 是 的無偏估計。 的方差為:只要對各層估計無偏,則總體估計也無偏。各層可以采用不同的抽樣方法,只要相應(yīng)的估計量是無偏的,則對總體的推算也是無偏的。2022/8/28114證明性質(zhì)1 由于對每一層有 因此, 估計量的方差 由于各層是獨立抽取的,因此上式第二項中的協(xié)方差全為0,從而有 2022/8/28115 性質(zhì)3:對于分層隨機抽樣, 是 的無偏
29、估計, 的方差為: 2022/8/28116證明性質(zhì)3: 對于分層隨機抽樣,各層獨立進(jìn)行簡單隨機抽樣,對每一層有 因此,由性質(zhì)1,有 由第二章性質(zhì)2,得 因此 2022/8/28117 性質(zhì)4:對于分層隨機抽樣, 的一個無偏估計為: 2022/8/28118證明性質(zhì)4: 對于分層隨機抽樣,各層獨立進(jìn)行簡單隨機抽樣,由第二章性質(zhì)3,得 的無偏估計為: 因此, 的一個無偏估計為: 2022/8/28119二、對總體總量的估計 總體總量 的估計為: 如果得到的是分層隨機樣本,則總體總量的簡單估計為: 2022/8/281202.估計量的性質(zhì)性質(zhì)1:對于一般的分層抽樣,如果是 的無偏估計,則 是 的無
30、偏估計。 的方差為:2022/8/28121性質(zhì)2:對于分層隨機抽樣, 的方差為:2022/8/28122性質(zhì)3:對于分層隨機抽樣, 的一個無偏估計為: 2022/8/28123例3.1 調(diào)查某地區(qū)的居民奶制品年消費支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟及收入水平將居民戶劃分為4層,每層按簡單隨機抽樣抽取10戶,調(diào)查獲得如下數(shù)據(jù)(單位:元),要估計該地區(qū)居民奶制品年消費總支出及其95%的置信區(qū)間。2022/8/28124層居民戶總數(shù)樣本戶奶制品年消費支出1234567891012001040011015104080900240050130608010055160851601703750180260
31、1100140602001803002204150050351502030251030252022/8/28125同理,求得:2022/8/28126 三、對總體比例的估計 總體比例P的估計為: 估計量的性質(zhì) 2022/8/28127 性質(zhì)1:對于一般的分層抽樣,如果 是 的無偏估計( ),則 是 的無偏估計。 的方差為:性質(zhì)2:對于分層隨機抽樣, 是 的無偏估計,2022/8/28128因而 的方差為: 性質(zhì)3:對于分層隨機抽樣, 的一個無偏估計為:2022/8/28129第三節(jié) 比率估計量及其性質(zhì)先“比”后“加權(quán)”,此時所得的估計量稱為分別比估計(separate ratio estima
32、tor)先 “加權(quán)”后“比”,這樣所得的估計量稱為聯(lián)合比估計(combined ratio estimator)2022/8/28130分別比估計定義3.4 總體均值 和總體總量 的分別比估計為:2022/8/28131定理3.5 對于分層隨機抽樣的分別比估計,若各層的樣本量 都比較大,則有2022/8/28132證明根據(jù)比估計量的性質(zhì),當(dāng) 比較大時,有2022/8/28133聯(lián)合比估計2022/8/281342022/8/28135分別比估計與聯(lián)合比估計的比較2022/8/281361)當(dāng) ,即 或 分別比估計的精度與聯(lián)合比估計的精度是一樣的。2)當(dāng) ,即 ,分別比估計的精度不低于聯(lián)合比估計
33、的精度。3)當(dāng) 且 ,這意味著分別比估計的精度要高于聯(lián)合比估計的精度。2022/8/281374)當(dāng) 且 , 或 且 ,聯(lián)合比估計的精度要高于分別比估計的精度。5)當(dāng) ,即比估計量的方差小于簡單估計量的方差時,需視具體情況而定。 2022/8/28138第四節(jié) 回歸估計量及其性質(zhì)與比估計相似,將回歸估計的思想與技術(shù)用于分層隨機樣本時,同樣有兩種可行的辦法:先“回歸”后“加權(quán)”,此時所得的估計量稱為分別回歸估計;先“加權(quán)”后“回歸”,這時所得的估計量稱為聯(lián)合回歸估計3.4.1分別回歸估計定義3.6分別回歸估計是指在分層隨機抽樣中,先在每層中對層均值或?qū)涌偤妥龌貧w估計,然后再對各層的回歸估計按總體
34、層權(quán)進(jìn)行加權(quán)平均。1. 各層的回歸系數(shù)h事先給定 2.不能事先設(shè)定各層的回歸系數(shù)h3.4.2聯(lián)合回歸估計1.當(dāng)為事先設(shè)定的常數(shù)時2.當(dāng)回歸系數(shù)不能事先設(shè)定時3.4.3 分別回歸估計與聯(lián)合回歸估計的比較經(jīng)化簡得:例3.3已知某公司一般職員(包括辦事員和保管人員)及高級管理(經(jīng)理)人員剛進(jìn)入公司時的工資總額,欲通過抽樣調(diào)查估計當(dāng)前該公司職員的工資總額Y。抽樣按照一般職員層與高管層進(jìn)行分層隨機抽取。一般職員層抽取n1=15名職員,高管層抽取n2=10名職員。同時還知道一般職員層人員總數(shù)N1=390名,該類職員進(jìn)入公司時工資總額為X1=5 523 965元;高管層人員總數(shù)N2=84名,該類職員進(jìn)入公司
35、時工資總額為X2=2 541 660元。經(jīng)過分層隨機抽樣調(diào)查所得的數(shù)據(jù)如表35所示。請對上述數(shù)據(jù)分別按照分別比估計、聯(lián)合比估計、分別回歸估計、聯(lián)合回歸估計以及差估計方法對該公司當(dāng)前職員工資總額Y做出估計,同時計算出各個估計量的精度。五種估計方法結(jié)果比較注意:此時的比估計和回歸估計(回歸系數(shù)采用樣本回歸系數(shù)進(jìn)行估計)均為有偏估計,并且考慮到各層的樣本量都不大,回歸估計的偏倚有可能更大,所以此時采用比估計,特別是聯(lián)合比估計會更保險。 而差估計雖然標(biāo)準(zhǔn)差相對較大,但它卻是無偏的,均方誤差并不一定大,所以仍然有采用的價值。3.4.4 比率估計與回歸估計小結(jié)在分層隨機抽樣中,當(dāng)輔助變量可加以利用時,為了
36、提高估計量的精度,可以采用分別比估計、聯(lián)合比估計、分別回歸估計以及聯(lián)合回歸估計等估計方法。在比估計中, 當(dāng)各層樣本量都較大時,分別比估計與聯(lián)合比估計近似無偏;當(dāng)某些層的樣本量不夠大,而總樣本量較大時,聯(lián)合比估計近似無偏。在回歸估計中,少數(shù)情況下,回歸系數(shù)可以是事先設(shè)定的常數(shù),其估計量無偏;多數(shù)情況下,回歸系數(shù)需利用樣本回歸系數(shù)進(jìn)行估計,其估計有偏,但在大樣本的情況下近似無偏。當(dāng)Y與X高度相關(guān)時,分別比估計、聯(lián)合比估計、分別回歸估計以及聯(lián)合回歸估計等估計等產(chǎn)生的估計量都是有效的。選擇估計方法,大致需遵循的原則在選擇估計方法時,大致需遵循下面的原則:(1)由于分別估計(無論是分別比估計還是分別回歸
37、估計)要求各層的樣本量都比較大,所以當(dāng)某些層的樣本量不夠大時,建議采用聯(lián)合估計(2)當(dāng)回歸系數(shù)需要由樣本進(jìn)行估計時,回歸估計量是有偏的。 在這種情況下,采取比估計尤其是聯(lián)合比估計也許更保險(3)如果各層的樣本量都比較大,同時每層的比估計或回歸估計也比較有效(即h均比較大),而且各層的Rh之間(或h之間)差異較大,則此時分別估計優(yōu)于聯(lián)合估計,估計量的方差更小(4) 如果各層的樣本量不大,而且各層的Rh之間(或h之間)差異較小,則采用聯(lián)合估計較為適宜(5) 如果各層的Rh之間(或h之間)差別不是太大,而且并不是每層的樣本量都相當(dāng)大,則聯(lián)合估計可能更保險一些如果各層的回歸系數(shù)都接近于1,則可以采用差
38、估計。雖然有時差估計量的方差偏大,但由于它為無偏估計量,所以總的均方誤差不一定大第五節(jié) 各層樣本量的分配 確定樣本量:總的樣本量,各層樣本量估計量的方差不僅與各層的方差有關(guān),還和各層所分配的樣本量有關(guān)。2022/8/28166實際工作中有不同的分配方法,可以按各層單元數(shù)占總體單元數(shù)的比例分配,也可以采用使估計量總方差達(dá)到最小、費用最小。 2022/8/28167一、比例分配 按各層單元數(shù)占總體單元數(shù)的比例,也就是按各層的層權(quán)進(jìn)行分配.對于分層隨機抽樣,這時總體均值的估計是2022/8/28168自加權(quán)總體中的任一個單元,不管它在哪一個層,都以同樣的概率入樣,因此按比例分配的分層隨機樣本,估計量
39、的形式特別簡單。這種樣本也稱為自加權(quán)的樣本。總體比例的估計是 2022/8/28169二、最優(yōu)分配 (一)最優(yōu)分配在分層隨機抽樣中,如何將樣本量分配到各層,使得總費用給定的條件下,估計量的方差達(dá)到最小,或給定估計量方差的條件下,使總費用最小,能滿足這個條件的樣本量分配就是最優(yōu)分配。2022/8/281702022/8/281712022/8/28172定理3.7的證明對所有層成立時, 達(dá)到極小 2022/8/28173常數(shù)簡單線性費用函數(shù),總費用由此得出下面的行為準(zhǔn)則,如果某一層單元數(shù)較多內(nèi)部差異較大費用比較省則對這一層的樣本量要多分配一些。2022/8/28174三 Neyman(內(nèi)曼)最優(yōu)
40、分配如果每層抽樣的費用相同,最優(yōu)分配可簡化為這種分配稱為Neyman分配。這時, 達(dá)到最小。 2022/8/28175例3.4 某市有甲、乙兩個地區(qū),現(xiàn)要進(jìn)行家庭收入的調(diào)查。令n=500,已知甲地區(qū)共有20 000戶居民,乙地區(qū)共有50 000戶居民;甲地居民和乙地居民年收入標(biāo)準(zhǔn)差估計分別為S1=2 500,S2=2 000;同時對甲地和乙地每戶的平均抽樣費用之比為23,請分別計算出在甲地和乙地進(jìn)行比例分配、一般最優(yōu)分配(考慮費用因素)以及內(nèi)曼分配(不考慮費用因素)的樣本量。2022/8/281762022/8/281772022/8/28178四、某些層要求大于100%抽樣時的修正 按最優(yōu)分
41、配時,有時抽樣比f較大,某個層的 又比較大,則可能出現(xiàn)按最優(yōu)分配計算的這個層的樣本量 超過 的情況。實際工作中,如果第 k 層出現(xiàn)這種情況,最優(yōu)分配是對這個層進(jìn)行100%的抽樣,即取 ,然后,將剩下的樣本量 按最優(yōu)分配分到各層。 2022/8/28179五、偏離最優(yōu)分配時對精度的影響2022/8/28180例3.62022/8/281812022/8/28182第六節(jié) 總樣本量的確定 令 當(dāng)方差 給定時 2022/8/28183當(dāng)按比例分配時, 實際工作中,n的計算可以分為兩步,先計算:然后進(jìn)行修正: 2022/8/28184當(dāng)按Neyman分配時, 2022/8/281852022/8/28
42、1862、精度要求是以 的絕對誤差限d(在給定的置信水平1-下)的形式給出的2022/8/281872022/8/281883.精度要求以 的相對誤差限r(nóng)(在給定的置信水平1-下)的形式給出2022/8/281892022/8/28190例3.72022/8/281912022/8/281922022/8/28193二、總費用給定時總樣本量的確定給定V時2022/8/28194給定C時2022/8/28195第七節(jié) 分層抽樣的其他方面 一、多重分層定義當(dāng)調(diào)查指標(biāo)與兩個或多個輔助變量x1,x2,都存在相關(guān)關(guān)系時,為了提高分層的效益,需要按每一個輔助變量進(jìn)行分層,通常的做法是先按最主要的變量分成大
43、層,在大層中再按第二主要變量分成子層,從而形成交叉分層。當(dāng)存在多個分層變量時,這種分層方式即稱為多重分層(multiple stratification)。2022/8/28196對于多重分層,當(dāng)“子層”劃分好以后,就要考慮樣本量在各子層的分配問題。最簡單常用的樣本量分配方法是按照與每一子層大小成比例的原則進(jìn)行分配。在多重分層中,有時會出現(xiàn)這樣一個問題:當(dāng)總樣本量n相對于子層總數(shù)RC不夠大時,會出現(xiàn)某些子層分配不到樣本的情況。 若nmax (R,C),則此時應(yīng)當(dāng)考慮重新確定分層變量或者不采用分層抽樣,否則這種分層的效益是很難保證的。 若nRC,同時還滿足nmax (R,C),就可以考慮用試驗設(shè)
44、計的思想來進(jìn)行樣本量的分配。2022/8/28197二、事后分層 實際工作中,有時進(jìn)行事先分層會存在一定的困難各層的抽樣框無法得到幾個變量都適合于分層,要進(jìn)行事先的交叉分層比較困難,并且我們并不需要交叉分層后每個子層的估計一個單位到底屬于哪一層要等到樣本數(shù)據(jù)收集到以后才知道總體規(guī)模N太大,事先分層太費事等2022/8/28198事后分層技術(shù)要求層權(quán)Wh已知或者可以通過某種途徑獲得,當(dāng)層權(quán)Wh未知而需要進(jìn)行估計時,應(yīng)當(dāng)確保層權(quán)的估計值與實際的層權(quán)相差甚小,否則將達(dá)不到提高估計量精度的目的。同時,在使用事后分層技術(shù)時還應(yīng)該注意“事后層”的數(shù)目不宜太多。2022/8/28199事后分層的具體實施辦法
45、2022/8/282002022/8/28201簡單隨機樣本,事后分層落到第層的樣本量nh2022/8/28202nh固定并都大于0的條件下n足夠大時,為無偏估計第一項就是按比例分配分層抽樣估計量的方差,第二項表示因事后分層而非事先按比例分配分層引起的方差增加量只要樣本量足夠大,事后分層的精度與按比例分配事先分層的精度相當(dāng)2022/8/28203 如果樣本是按某一個輔助指標(biāo)分層后抽取的,只要這個事先分層抽樣是嚴(yán)格按比例分配進(jìn)行的,則這個樣本是自加權(quán)的,總體中每個單元被抽中的概率相同,我們可以將這個樣本看作簡單隨機樣本,分別對其它指標(biāo)進(jìn)行事后分層估計。 2022/8/28204第四章 等概率整群
46、抽樣和多階段抽樣第一節(jié) 概述一 整群抽樣定義及特點什么是整群抽樣 將總體劃分為若干群,以群為抽樣單元,從總體 中隨機抽取一部分群,對入選群內(nèi)的所有單元進(jìn) 行調(diào)查的一種抽樣技術(shù) 的所有單位進(jìn)行調(diào)查。整群抽樣的特點抽樣框編制得以簡化實施調(diào)查便利,節(jié)省費用抽樣誤差較大對某些特殊結(jié)構(gòu)總體反而有較高的精度與多階段抽樣,多階段整群抽樣的關(guān)系第一節(jié) 概述二 群的劃分大致可分為兩類根據(jù)行政或地域形成的群體調(diào)查人員人為確定的分群的原則可用方差分析原理說明:群內(nèi)差異盡可能大,群間差異盡可能小第一節(jié) 概述三 群的規(guī)模群的規(guī)模大,估計的精度差但費用省群的規(guī)模小,估計的精度可以提高但費用增大正常情況下,群的規(guī)模不宜過大
47、,對于規(guī)模很大的群,通常需要采用多階段抽樣。有群規(guī)模相等與不相等兩種情況第一節(jié) 概述 第一節(jié) 概述 Yij: 總體第i個群中第j個SSU的取值 yij: 樣本第i個群中第j個SSU的取值Yi: 總體中第i群的總量yi: 樣本中第i群的總量第一節(jié) 概述 : 總體中第i群個體均值 : 樣本中第i群個體均值 : 總體的群均值 : 樣本的群均值第一節(jié) 概述 : 總體中的個體均值 (各群 ) : 樣本中的個體均值 第一節(jié) 概述 : 總體方差 : 總體群間方差 : 總體群內(nèi)方差 第一節(jié) 概述 : 樣本方差 : 樣本群間方差 : 樣本群內(nèi)方差 第二節(jié) 等概率整群抽樣比較SRS抽取nM個樣本第二節(jié) 等概率整群
48、抽樣第二節(jié) 等概率整群抽樣第二節(jié) 等概率整群抽樣已知 ,又 故 第二節(jié) 等概率整群抽樣第二節(jié) 等概率整群抽樣總體總值,據(jù)此,可直接推出其估計量及相應(yīng)的方差 例4-1i12345678 58 83 74 82 66 87 91 83 79 111 101 69123 89 94 109 79 80 99 105 98 107 129 90110 99 132 87 99 124111 100 116 99 107 105120 115 117 99 106 120 96 80 63 130 105 8675.0089.0095.67104.67108.50106.33112.8393.33125
49、.60233.60299.07177.87287.5042.2772.57527.87第二節(jié) 等概率整群抽樣解:N=315 ,n=8 ,M=6,f=n/N=0.0254,故 第二節(jié) 等概率整群抽樣由式(4.5)有第二節(jié) 等概率整群抽樣2.整群抽樣效率分析分層抽樣中估計量的方差取決于層內(nèi)變異性整群抽樣的情形則相反,估計量的方差依賴于群間的變異性第二節(jié) 等概率整群抽樣來源自由度平方和均方群間N-1群內(nèi)N(M-1)總計NM-1總體ANOVA表-群規(guī)模相等時的整群抽樣第二節(jié) 等概率整群抽樣群內(nèi)相關(guān)系數(shù) 表達(dá)式為:上式中的分子為:第二節(jié) 等概率整群抽樣上式中的分母為:故 又可寫為:第二節(jié) 等概率整群抽樣
50、事實上, 的方差可用群內(nèi)相關(guān)系數(shù)近似表示第二節(jié) 等概率整群抽樣簡單隨機抽樣的方差公式為由此可計算出等群抽樣的設(shè)計效應(yīng)為第二節(jié) 等概率整群抽樣 整群抽樣的估計效率,與群內(nèi)相關(guān)系數(shù) 的關(guān)系密切 當(dāng) 1時,deffM 當(dāng) 0時,deff1 當(dāng) 為負(fù)時,deff m,第i個單位被抽中第一節(jié) 不等概抽樣2.不放回不等概抽樣 對于不放回抽樣,對總體參數(shù)的估計及其方差估計比較簡單,但樣本單元中可能有單元被抽中多次,直觀上看,沒有必要對同一單元調(diào)查多次,因此可以考慮放回不等概抽樣,即每次在總體中對每個單元按入樣概率進(jìn)行抽樣,抽取出來的樣本單元不再放回總體,對總體中剩下的單元進(jìn)行下一次抽樣。第一節(jié) 不等概抽樣
51、對于不放回不等概抽樣,樣本的抽取可以有以下幾種方法(1)逐個抽取(2)重抽法(3)全樣本抽??;樣本量隨機(4)系統(tǒng)抽樣法第二節(jié) 放回不等概抽樣一 只抽取一個樣本單元(n=1)的不等概抽樣 為了演示不等概抽樣的思想,先看一個例子。一個城市有4個超市,營業(yè)面積從100平米到1000平米。我們的目標(biāo)是通過抽取一家超市來估計4個超市上個月的總銷售量因為我們只抽取一個超市,所以超市第一次被抽中的概率 等于超市進(jìn)入樣本(入樣)的概率 。這個例子中,入樣概率正比于超市營業(yè)面積 第一節(jié) 不等概抽樣因為超市A占四個超市營業(yè)面積的1/16,所以它的入樣概率為1/16。假設(shè)我們知道所有超市的銷售額 超市營業(yè)面積(萬
52、元)A1001/1611B2002/1620C3003/1624D100010/16245Total16001300第二節(jié) 放回不等概抽樣 在估計中,可以使用選擇概率來彌補不等概率抽樣。如果超市的營業(yè)面積近似正比于超市的銷售額,那么超市A的銷售額就占所有超市銷售額的1/16,因此超市A的銷售額乘16可以近似的估計所有超市的銷售額。因此,樣本量為1的不等概率抽樣的總體總量估計量為第二節(jié) 放回不等概抽樣樣本ZiyiA1/161117615375B2/162016019600C3/162412829584D10/162453928464四個n=1的可能的不等概抽樣第二節(jié) 放回不等概抽樣第二節(jié) 放回不
53、等概抽樣例如樣本A1/4114465536B1/4208048400C1/4249641616D1/4245980462400第二節(jié) 放回不等概抽樣二 有放回不等概抽樣 對于放回不等概抽樣,對總體總量的估計是漢森-赫維茨(Hansen-hurwitz)估計例如:估計超市銷售額,m:員工人數(shù)解釋公式意義第二節(jié) 放回不等概抽樣可以證明例5.2 某部門要了解所屬8500家生產(chǎn)企業(yè)當(dāng)月完成的利潤,該部門手頭已有一份去年各企業(yè)完成產(chǎn)量的報告,將其匯總得到所屬企業(yè)去年完成的產(chǎn)量為3676萬噸。考慮到時間緊,準(zhǔn)備采用抽樣調(diào)查來推算當(dāng)月完成的利潤。根據(jù)經(jīng)驗,企業(yè)的產(chǎn)量和利潤相關(guān)性比較強,且企業(yè)的特點是規(guī)模和管
54、理水平差異比較大,通常大企業(yè)的管理水平較高些,因此采用以與去年產(chǎn)量成比例的PPS抽樣,從所屬企業(yè)中抽出一個樣本量為30的樣本, 第二節(jié) 放回不等概抽樣1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784
55、298.8199218*21.00640276.20510第二節(jié) 放回不等概抽樣765404174454=45%相對誤差達(dá)到20時所需樣本量對誤差達(dá)到20時所需樣本量nnnnnnnn= 150第二節(jié) 放回不等概抽樣第二節(jié) 放回不等概抽樣第三節(jié) 多階段放回不等概抽樣第三節(jié) 多階段放回不等概抽樣第三節(jié) 多階段放回不等概抽樣第三節(jié) 多階段放回不等概抽樣實際工作中,如果初級單元大小不相等,人們通常喜歡在第一階段抽樣時按放回的與二級單元數(shù)成比例的PPS抽樣,第二階段抽樣則進(jìn)行簡單隨機抽樣,且每個初級單元內(nèi)的二級單元樣本量都相同,這樣得到的樣本是自加權(quán)的,估計量的形式非常簡單第三節(jié) 多階段放回不等概抽樣二
56、 多階段有放回不等概抽樣以三階段抽樣為例第三節(jié) 多階段放回不等概抽樣 實際工作中,通常做法是前二階采用PPS,最后一階按等概率抽取最終單元,且各階段樣本量對不同單元都等于常數(shù),則所得樣本是自加權(quán)的。此時有:第三節(jié) 多階段放回不等概抽樣第三節(jié) 多階段放回不等概抽樣例【5-5】某調(diào)查公司接受了一項關(guān)于全國城市成年居民人均奶制品消費支出及每天至少喝一杯鮮奶的人數(shù)的比例情況的調(diào)查。第三節(jié) 多階段放回不等概抽樣確定抽樣范圍為全國地級及以上城市中的成年居民。成年居民指年滿18周歲以上的居民。 第一步:確定抽樣方法 調(diào)查公司決定采用多階段抽樣方法進(jìn)行方案設(shè)計,調(diào)查的最小單元為成年居民。確定調(diào)查的各個階段為城
57、市、街道、居委會、居民戶,在居民戶中利用二維隨機表(Kish隨機表的簡化)抽取成年居民。第三節(jié) 多階段放回不等概抽樣第二步:確定樣本量及各階段樣本量的配置 第三節(jié) 多階段放回不等概抽樣初級單元:20個城市;二級單元:80個街道,每個樣本行政區(qū)內(nèi)抽4個街道;三級單元:160個居委會,每個樣本街道內(nèi)抽2個居委會;四級單元:1600個居民戶,每個樣本居委會內(nèi)抽10戶居民戶。 在樣本居民戶內(nèi),利用二維隨機表抽1名成年居民。第三步:抽樣方法第一階段,在全國城市中按與人口數(shù)成比例的放回的不等概抽樣,即PPS抽樣。第二和第三階段分別按與人口數(shù)成比例的不等概系統(tǒng)抽樣。 以第二階段為例,在某個被抽中的樣本城市中
58、,將其所屬的街道編號,搜集各街道的人口數(shù),賦予每個街道與其人口相同的代碼數(shù);根據(jù)該市總?cè)丝跀?shù)除以樣本量4,確定抽樣間距;然后對代碼進(jìn)行隨機起點的等距抽樣,則被抽中代碼所在的街道為樣本街道。第四階段,分別在每個樣本居委會中,按等距抽樣抽出10個居民戶。即根據(jù)居委會擁有的居民戶數(shù)除以樣本量10得到抽樣間距,然后隨機起點的等距抽樣。第四步:推算方法第四節(jié) 不放回不等概抽樣第四節(jié) 不放回不等概抽樣第四節(jié) 不放回不等概抽樣第四節(jié) 不放回不等概抽樣3.不同情況下的PS抽樣n=2條件下嚴(yán)格的PS抽樣布魯爾方法德賓方法n 2條件下嚴(yán)格的PS抽樣水野方法n2條件下非嚴(yán)格的PS抽樣莫蒂方法布魯爾方法條件:所有Zi
59、0.5逐個抽?。旱谝粋€與 成比例的概率抽取第二個與 成比例的概率在N-1個單元內(nèi)抽取水野方法總體差異不要太大逐個抽?。宏P(guān)鍵:第一個單元與 成比例的概率抽取剩余的N-1個單位不放回等概抽取Chap6 系統(tǒng)抽樣 Systematic sampling第一節(jié) 概述6.1 定義與實施方法一 什么是系統(tǒng)抽樣 總體中的N個單元按一定順序排列,抽取一個起始單元,按某種規(guī)則選取其它單元直到滿n個為止 等距抽樣:按照固定的間隔選取 直線等距抽樣:總體中的N個單元已按某種確定順序編號為 , 先從頭K個單元編號中隨機抽出一個單元編號,然后每隔K個單元編號抽出一個單元編號, 直到抽出n個單元編號為止。圓形等距抽樣:假
60、設(shè)總體單元數(shù) 總體中的N個單元已按某種確定順序編號為 ,將這些編號看成首尾相接的一個環(huán),并從1到N中按簡單隨機抽樣方式抽取一個單元編號作為隨機起點,然后每隔 K抽取一個單元編號,直到抽滿n個單元為止直線等距抽樣實施方法 : 抽樣間隔 K=N/n 編號 隨機起點 入選單元i K 2K 3K (n-1)K nK 21 19 3 4 17 16 6 15 7 隨機起點 8 13 11 2012102圓形等距抽樣 實施方法 :編號不是直線排列而是環(huán)狀(圓形)排列,是隨機起點的選擇范圍由1到k 擴展到1到N二、系統(tǒng)抽樣特點優(yōu)點:簡便易于控制有潛在分層功能弱點:有時估計量是有偏的抽樣誤差計算上比較復(fù)雜三、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇大學(xué)京江學(xué)院《工程力學(xué)B(I)》2021-2022學(xué)年第一學(xué)期期末試卷
- 文化傳媒活動策劃與推廣實施方案
- 空調(diào)國慶節(jié)活動方案簡介
- 中秋促銷活動方案
- 廣東省遠(yuǎn)程工作勞動合同2024版
- 第七單元電子備課教案
- Pep六年級英語上冊教案
- 物流園區(qū)kv配電站施工合同
- 四年級上冊語文教案
- 山東施工合同違約賠償
- 機動車維修竣工出廠合格證
- 房地產(chǎn):融創(chuàng) -建筑行業(yè)第三方測評體系宣貫
- GBZ(衛(wèi)生) 18-2013職業(yè)性皮膚病的診斷總則
- GB/T 29894-2013木材鑒別方法通則
- 某廠房主體結(jié)構(gòu)驗收匯報材料
- GB/T 20466-2006水中微囊藻毒素的測定
- GB 30721-2014水(地)源熱泵機組能效限定值及能效等級
- 云南校長職級考試試題
- GA/T 1081-2020安全防范系統(tǒng)維護保養(yǎng)規(guī)范
- 三重一大存在問題及整改措施六篇
- 中班數(shù)學(xué)《米老鼠的水果店認(rèn)識以內(nèi)的數(shù)》課件一等獎幼兒園名師優(yōu)質(zhì)課獲獎比賽公開課面試試講
評論
0/150
提交評論