樣本量的確定.ppt_第1頁
樣本量的確定.ppt_第2頁
樣本量的確定.ppt_第3頁
樣本量的確定.ppt_第4頁
樣本量的確定.ppt_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、樣本量的確定,本講主要內容,如何計算簡單隨機抽樣的樣本量確定 如何實現分層抽樣中各層樣本單位數的分配,樣本容量的確定,樣本量=費用+精度 (函數),確定樣本容量,需要處理好預定的精度與現有經費,同時也要考慮資源和時間等限制條件,最終的樣本量確定是在上述因素之間的權衡關系。,分層抽樣分配樣本的標準,總的樣本容量事先確定 估計值要求達到的精度預先給定,影響調查樣本容量的因素,調查估計值所希望達到的精度 調查估計值所能允許的誤差。 估計量的抽樣方差較小,估計值是精確的 估計值的精度越高,所需的樣本容量就越大 影響精度的因素也同樣影響著樣本容量的大小 所研究指標在總體中的變異程度 總體的大小 樣本設計

2、和所使用的估計量 無回答率,客戶提供的經費能支持多大容量的樣本 整個調查持續(xù)的時間有多長 調查需要多少訪員 能招聘到的訪員有多少,除了估計值的精度以外,調查實際操作的限制條件也許是影響樣本容量的最大因素。,1給定精度水平下樣本容量的確定,樣本容量的大小與調查估計值所要求的精度緊密相關,數據是通過抽樣而不是普查收集的,就會產生抽樣誤差。 精度是由抽樣方差來測量的。 隨著樣本容量的增加,調查估計值的精度也會不斷提高。,標準誤差 誤差界限 變異系數,抽樣方差的幾種計量方法,抽樣調查中樣本容量的確定,也經常會使用一種或多種這樣的計量方法來對精度進行說明。,非抽樣誤差,非抽樣誤差會對調查估計值的精度產生

3、顯著的影響 非抽樣誤差的大小與樣本容量的大小卻沒有很大的關系 確定樣本容量,就不必將這些誤差作為影響因素加以考慮 為確保調查結果的準確性,應該消除非抽樣誤差,至少應盡可能使之最小化,由于我們將在某一給定誤差界限下,闡述樣本容量確定的過程,所以有必要復習一下置信區(qū)間的概念。,對于具有正態(tài)分布的估計量來說,95%的置信區(qū)間意味著在同樣的條件下,反復抽樣100次所得的100個樣本中,有95個樣本的估計值所確定的區(qū)間包含總體真值,這個區(qū)間以樣本的估計值為中心,半徑為1.96倍的標準誤差。,置信區(qū)間,2誤差界限,誤差界限是標準誤差的倍數 標準誤差是估計量抽樣方差的平方根 乘數因子取決于在調查估計中所希望

4、 達到的置信水平(或稱置信度),對于估計值 t, 在給定其標準誤差 t的情況下, 置信區(qū)間的公式可以表示為:(t-zt t+zt),這里 zt是誤差界限, z是對應于某一置 信水平的標準正態(tài)分布的分位點值 該z值可從標準正態(tài)分布表中查得,大多 數統計學教材中都附有這樣的統計表,常用的z值包括,對于 90% 的置信度,對應的z值為 1.64 對于 95% 的置信度,對應的z值為 1.96 對于 99% 的置信度,對應的z值為 2.56,3多大的抽樣方差是可接受的,調查估計值能容忍多大的不確定性?。 常用的95%的置信度、5%的誤差界限對我們的 調查目標是否適宜 估計值是否需要更高(或更低)精度

5、如果調查結果將用于進行一項有重大意義或有較大風險的決策, 那么,估計值可能需要較高的精度; 如果我們只是簡單地希望取得所研究總體某個特征的感性認識, 那么,稍低一點的精度就可以滿足要求了,多大抽樣方差是可以接受,是否需要對調查的子總體(或稱作域)進行估計? 調查結果可能需要包括一些細分的數據 這些數據稱為子總體估計值(或域估計值) 為使數據滿足調查要求,應該確定合適的精度 與調查估計值有關的抽樣方差有多大?,對于不同的子總體,對精度的要求可能有所不同 例如,在一次全國范圍的抽樣調查中,對國家層次的數據,調查主辦者可能需要3%的誤差界限;但對于省級層次的估計值,5%的誤差界限可能就可以滿足要求;

6、 而對于省級以下層次的估計值,10%的誤差界限可能就足夠了。,在這種情況下,通常對每個研究域都進行分層, 并單獨計算各層的樣本容量 將各個研究域中所有層的樣本容量相加,便得到 了調查所需的總樣本容量,調查估計值有關的抽樣方差有多大,為達到調查結果要求的精度,最小的調查估計值是什 么?假設我們進行比例估計。其中,一些指標的比例 可能是P=50%或更高,但是其它指標的比例則可能較 低,如P=5% 或者 P=10% 事實上,P可以是P=0 到 P=1.0之間的任一數值。在確 定調查估計值所需的精度時,應該考慮當某個既定精 度達到時所得的最小估計值。如果最小的估計值是 P=5%,那么誤差界限就應該小于

7、5%。,例如: 某公司決定,如果公司所在的地區(qū)中,至少有P=4%的人群對某一種產品存在需求,那么該公司就決定生產這種產品。因此,該公司的市場調研部準備對當地的居民一項調查,以便估計他們在這種產品上的消費需求。 對于P=4%5%水平左右的調查估計值就不太合適,應規(guī)定更小的誤差界限,如小于或等于0.01、 0.02等,這時候置信區(qū)間應該是( 0.05 0.01) 或( 0.05 0 .02)。,Table 1 樣本容量和在P=0.5時運用簡單隨機抽樣估計P值得到的誤差界限,最佳的解決辦法,不應為追求最小的誤差界限而選擇最大可能的樣本 可以接受一個較大的誤差界限,同時有效地利用現有資源 在此基礎上,

8、獲得具有相對較高精度的估計結果 采用一個較小的樣本而不是大樣本而節(jié)省下來的費用, 可以用來修正其它影響調查結果精度的因素 例如減少無回答率(如回訪拒答者、實施小型的試點調查、 培訓訪員,等等),這樣做可能更有效率,4總體的變異程度,調查總體中,我們所研究的項目或指標,對于不同的個人、住戶或企業(yè),得到的估計結果可能會有很大的不同。雖然我們不能控制這種變異性,但它的大小卻影響到了給定精度水平下,研究項目所必需的樣本容量。,我們來看假設有一個首次開展的調查,試圖估計對某企業(yè)提供的服務持滿意態(tài)度的顧客比例。對“顧客滿意”這一指標,設置兩個可能的值:滿意或者不滿意。,表2 列出了持滿意和不滿意態(tài)度的顧客

9、可能占的比例的組合,要精確地測量總體中具有高度變異性或不 經常出現的特征是很困難的。 要對這樣的變量提供精確的估計值,需要 較大的樣本容量。 當研究的特征具有最大的變異程度時,調 查需要的樣本容量也最大。 對于只取兩個值的特征,則當這兩個值在 總體中以5050的比例出現時,特征的變 異程度最大。,總體的變異程度,如果所研究特征的真實變異程度大于確定 樣本容量時我們估計的變異程度,那么, 調查估計值的精度就會低于期望的精度。 相反,如果所研究特征的真實變異程度與 我們所估計的變異程度相比要小,那么, 與調查目標所要求的估計值相比,抽樣調 查得到的估計值會更加精確。,確保達到調查要求的精度,對某一

10、特征的總體變異程度進行保守估計 如果事先不知道調查中要測量特征變異程度的 數據,假定研究特征具有最大的變異程度 對于只有兩個可能取值的變量,應該假設總體 中該變量的變異程度為兩個取值5050平分。,建議在計算所需樣本容量,多個測量的指標,抽樣調查時,測量指標(或稱項目,特征) 通常不止一個,有時數目是很大的 每個指標的變異程度可能都不相同 對某一指標來說足夠大的樣本,對變異程度 較大的另一個指標來說可能就有些偏小 為確保樣本容量對所有的研究指標都足夠大, 應該根據具有最大變異程度或被認為最重要 的那個指標,確定樣本容量。,5.總體的大小,總體所起的作用視它規(guī)模的大小而有所差異 小規(guī)模總體的大小

11、將起重要作用 對于中等規(guī)模的總體,其作用中等重要 大總體的規(guī)模對樣本容量確定則不起作用,在樣本容量確定的過程中,表3: 顯示了不同規(guī)模的總體在P=0.5時,使用簡單隨機抽樣,且以誤差界限為0.05、置信度為95%的標準估計P 所需的樣本容量,對于小規(guī)??傮w,通常必須調查較大比例的樣本,以取得所期望的精度。因此,實際操作中,對小規(guī)模總體經常采用普查而不是抽樣調查。,計算樣本容量時,通常假定采用的抽樣方式為簡單隨機抽樣(SRS)。所以,如果樣本容量計算公式假定為簡單隨機抽樣。,6樣本設計和估計量,分層抽樣得到的估計值通常比相同規(guī)模的簡單隨機抽樣更精確,或者至少 一樣精確。 整群抽樣得到的估計值,其

12、精度通常低于使用同一估計量進行估計時的簡單隨機抽樣的估計值的精度,設計效果因子,一般來說,當樣本容量的計算公式假定為簡單隨機抽樣SRS,但使用的是更復雜的選樣方式時,達到既定精度所需的樣本容量應該乘以設計效果因子。,設計效果=對于同樣規(guī)模的樣本容量,給定樣本設計下 估計量的抽樣方差對簡單隨機抽樣估計量的 抽樣方差的比率。,對于簡單隨機抽樣設計,設計效果 = 1 對于分層抽樣設計,設計效果 1 對于整群抽樣設計,設計效果 1,7回答率,所有的調查都會遇到無回答的困擾即: 由于某些原因,不能獲得被抽中樣本單位的信息 當一個被調查單位的所有或幾乎所有的數據都缺 失時,我們就稱之為完全無回答(或稱單位

13、無回答) 某次調查的回答率是用調查得到的有效問卷數占 預期樣本容量的一個百分比來表示的 完全無回答會減少有效樣本的數量,從而會增加 抽樣誤差,并進而降低估計值的精度,例如,如果初始樣本容量是400,而通過上述途徑估計的回答率為75%,那么選擇的樣本容量就應該為:,根據預計的回答率調整樣本容量,一個最簡單的例子 沒有無回答的簡單隨機抽樣樣本容量的計算公式,簡單隨機抽樣下,通常使用誤差界限和估計量的標準誤來確定所需的樣本容量。,在無放回簡單隨機抽樣情況下 總體均值估計量的標準誤差的表達式,其中,S 是總體的標準差,如果誤差界限設為e,那么:,解n,得:,這里Z是對應于某一置信水平的標準正態(tài)分布的分

14、位點值。,其中,總體方差S2是最不容易得到的,通常需要根據過去對類似總體所做的研究作近似計算。,為確定n,需要知道,期望的誤差界限e 置信水平 對應的標準正態(tài)分布的分位點值 Z 總體規(guī)模 N 總體方差 S2,求比例樣本容量的確定,下面用一個例子,說明估計比例問題時樣本容量的確定過程。 在這一例子中,所需的精度是根據誤差界限確定的,所研究的指標取兩個值,即P和1-P。,在這種情況下,對于大總體,且估計量服從正態(tài)分布時, P的總體方差為:,若總體真值已知,那么直接將它代入上面的等式 就可以得到樣本容量 若總體真值未知,而且也沒有以前的信息可以利 用,那么可以P=0.5 用,因為這時的方差最大, 可

15、以求得一個比較保守的樣本容量,計算比例估計樣本容量的詳細步驟,先計算初始樣本容量,然后根據總體的大小、設計效果和回答率分別對它進行調整,最后求得最終的樣本容量。,第1步:計算初始樣本容量,注意,公式(1)使用了有限總體校正因子n/N,對總體規(guī)模進行校正。如果忽略這個因子,初始樣本容量n1就可以按下列公式計算:,如果e 和 P都不用比例表示,而用百分數表示, n1 的計算公式同樣成立。,第2步:使用下列等式對總體的大小進行調整,第3步:設計效果調整樣本容量,如果樣本設計不是采用簡單隨機抽樣,那么可以使用下列公式,即用抽樣設計效果對樣本容量進行調整 :,其中,是設計效果,并且有: 在簡單隨機抽樣設

16、計下,B = 1, 在分層抽樣設計下, B 1, 在整群抽樣設計下, B 1。,根據無回答再次進行調整,以確定最終的樣本容量n,其中, r = 估計的回答率。,第4步:無回答調整樣本容量,樣本容量確定的例子,下面用實例說明樣本容量的計算過程 。 例 1. 某雜志出版商希望得到讀者對該雜志綜合滿意程度的估計值。通過郵寄調查,出版商可以聯系到所有的2500個訂戶。但是,由于時間的限制,出版商決定使用簡單隨機抽樣進行電話調查。請問應訪問多少個讀者 ?,如果真實的總體比例落在總體比例的樣本估計值的0.10范圍內,則該出版商將感到滿意。 換句話說,誤差界限e為0.10 。 出版商希望調查估計值的置信度為

17、95%,這就意味著20次抽樣中只有1次,所得的樣本估計值確定的置信區(qū)間不包含總體真值P,而且,Z=1.96。 使用簡單隨機抽樣SRS。 估計回答率為65% ,即r =0.65。 由于事先沒有關于顧客滿意度真實比例P 的可利用的信息,因此,我們假定方差取最大的情況,即假設 P=0.5。,假 設,樣本容量的計算步驟,第 1步:計算初始樣本容量n1,注意,隨著P 趨向0.50,P(1-P) 的值將達到最大值,因此選擇P=0.5,可得到最保守的n1的估計值。,第 2步:調整初始樣本容量,將總體的大小這一影響樣本容量確定的因素也考慮進來 。,(記住,這一步只適于小規(guī)??傮w以及中等規(guī)模的總體),第3步:

18、根據抽樣設計效果來調整樣本容量,對這個例子來說,由于假設使用簡單隨機抽樣設計,所以取 B= 1。,第4步:根據無回答情況進行調整 確定最終的樣本容量n,例 2. 現準備實施一項民意調查,以決定贊成建立一個公園的居民的比例??傮w由所有在兩個城市和一個農村地區(qū)居住的、年齡在18歲及以上的居民組成。通過從每個城市或農村中各抽取一個簡單隨機樣本,可以得到一個分層隨機樣本。 問 每一層需要多大的樣本容量?,總體的單位數為 657,500 總體在各層的分布情況如下:,所需要的樣本容量取決于調查對數據的具體要求, 為此,可以考慮以下兩個方案。,方案一,假設不需要得到各個層估計值的精度,而且如果整個地區(qū)的估計

19、值達到95%的置信度、5%的誤差界限,就認為估計值足夠可靠了。由于沒有整個地區(qū)贊成建立省級公園居民比例的真值,所以我們假設P=0.5,預計回答率為50%。,計算過程如下: 第 1步:計算初始樣本容量n,第 2步:計算初步修正的樣本容量n2,(注意:如果 n1 /N 可以忽略不計, 則可取 n2=n1),第 3步:根據設計效果,再次進行調整n3,對于分層隨機抽樣,通常 B 1。 但這里,由于沒有可利用的B的估計值,因此,取B= 1 得到保守(即更大)的樣本容量。,第4步:根據無回答情況 確定最終的樣本容量n,即根據該方案,調查所需的樣本容量為 768。,方案 二,假設對每一層,都要求得到誤差界限

20、為0.05、置信度為95%的估計結果,那么就需要單獨計算各層的樣本容量(即將每一層作為一個總體,估計調查所需的樣本容量)。,計算之前,考慮到城市1和城市2是大總體,因而可以認為,對它們來說,總體的大小對樣本容量的確定沒有影響。由此,如果第1、2層中的取值與案例1相同,就可以認為這兩層需要的樣本容量都是768。然而,對于農村地區(qū),由于總體是小規(guī)模的,因此總體的大小對該層樣本容量的確定會產生一定的影響。,計算步驟如下:,城市 1,由于,可以認為,所以,城市 2,因為城市2也是一個大城市,所以,同樣可以忽略有限總體校正因子對樣本容量的影響:,農村地區(qū),因此, 方案2所需的總樣本容量為 768 + 7

21、68 + 732 = 2,268。,比較方案2的總樣本容量2,268和方案1的樣本容量768,可以發(fā)現方案2的樣本容量幾乎是方案1樣本容量的3倍之大。 換句話說,如果僅僅需要得到包含所有層的整個總體的估計值,那么要求的樣本容量將大大小于需要分別對各層進行估計時所需的樣本容量。 因為對各層分別進行估計時,需要確保使每一層的樣本容量都足夠大。,兩種方案比較,例2 清楚地說明了要求對各研究域分別進行估計時,審查每一層精度要求的重要性。 但如果調查涉及到許多研究域,這一要求可能會使總的樣本容量顯著增大,并可能導致樣本容量超出調查研究者的預算和現有資源的承受能力。 一般來說,要求估計的研究域越多,所需要

22、的樣本容量也就越大。 因此,可能需要在精度與費用之間進行折衷,以保證估計的誤差在可接受的范圍之內。 通過增大每一層估計值的允許誤差,或合并其中兩個或多個域,就可以使精度和費用達成權衡。,分層抽樣的樣本分配,決定分層抽樣效率的一個重要因素是樣本單位在層間的分配方式。,分層抽樣設計,主要理由: 使抽樣方案的效率高于簡單隨機抽樣或系統抽樣。 確保對要進行分析的特定研究域有足夠的樣本量, 以便進行分析。 避免抽到一個“差的”樣本。,采用分層抽樣時,總體被分為同質的、互不重疊的幾個子總體(層)。然后,在每一個層中獨立地抽取樣本??梢允褂萌魏我环N抽樣方法來對每個層進行抽樣,從比較簡單的方法如簡單隨機抽樣、

23、系統抽樣,到較復雜的方法如概率與大小成比例的抽樣(PPS)、整群抽樣、多階段抽樣或多相抽樣。,包含N個單位的總體,被分成大小分別為: N1,N2,NL的L個互不重疊的子總體(層)。 其中:N=N1+N2+NL。 從每層中分別獨立抽取一個樣本,各層內樣本容量 分別為nh(h=1,2,L)。 其中: n=n1+n2+nL。,分層抽樣分配樣本的標準,固定樣本容量:先確定總的樣本容量,然后 再在層間分配樣本。 固定變異系數:先根據預定的精度,確定每 層所需樣本容量,然后將各層的樣本容量加 總得到總的樣本容量。,固定樣本容量,第一步:確定總的樣本容量n 第二步:計算分配給第h層的樣本比例ah ah=nh

24、/n 0ah1 且 第三步:計算第h層的樣本容量 nh=nah,給定變異系數C下總樣本容量n的計算,Nh 是第h層單位總數 Sh2是第h層單位yi的真實方差 C 是Y的總體變異系數 Y 是總體總值的真值 ah 是分配給第h層的樣本比例,分配方法,按比例分配 不按比例分配,按比例分配,每一層的樣本容量nh與該層的總體規(guī)模Nh的 比例相同,即各層的抽樣比fh=nh/Nh是相同的 ,并等于總的抽樣比n/N。 層的規(guī)模越大,分配的樣本容量越就越多。,例2方案1中,計算總樣本容量=768,按比例分配方法的各層樣本容量確定如下:,第一步:計算各層的分配因子ah,城市1 城市2 農村,第二步:計算各層樣本容量nh,城市1 城市2 農村,各層抽樣比相等,均為0.0012,得到一個自加權的樣本設計。,不按比例分配,采用不按比例分配方案時,各層之間的抽樣比不相同。,Y-比例分配 平方根N-比例分配 平方根Y-比例分配 最優(yōu)分配 內曼最優(yōu)分配 層方差相等最優(yōu)分配,Y-比例分配,每層的分配因子ah等于該層規(guī)模度量與總體規(guī)模度量的比率。在總體估計值Y是規(guī)模度量時使用。,平方根N-比例分配,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論