抽樣和抽樣調查_第1頁
抽樣和抽樣調查_第2頁
抽樣和抽樣調查_第3頁
抽樣和抽樣調查_第4頁
抽樣和抽樣調查_第5頁
已閱讀5頁,還剩77頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、關于抽樣與抽樣調查第一張,PPT共八十二頁,創(chuàng)作于2022年6月為什么要知道一個人的血液情況,只需抽一點點血來化驗就行了?由部分認識總體同質和異質第二張,PPT共八十二頁,創(chuàng)作于2022年6月蓋洛普,美國民意測驗中心1936年美國總統(tǒng)大選預測(配額抽樣)1948年美國總統(tǒng)大選預測(失?。?984年美國總統(tǒng)大選預測1994年美國總統(tǒng)大選預測樣本數(shù)據(jù)3000左右第三張,PPT共八十二頁,創(chuàng)作于2022年6月1994年美國總統(tǒng)大選預測民意調查日期主辦機構總統(tǒng)候選人克林頓多爾佩羅其他10/28-31CBS/N.Y TIME54359211/1-3Reuter49418211/1-3Harris5139

2、9111/1-3ABC52399211/1-3NBC/Wall ST.51387211/1-3Gallup/CNN513892選舉結果494192第四張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣解決什么問題?對象的選取問題:如何從總體中選出一部分對象來作為總體的代表第五張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣調查的含義抽樣調查:是指按照科學的原理和計算從所要研究現(xiàn)象的全部分析單位中按隨機原則抽取部分單位進行調查,取得資料后,再根據(jù)樣本的實際數(shù)據(jù)對總體的數(shù)量特征作出具有一定可靠程度的估計和判斷的方法。抽樣調查旨在以樣本的資料來推斷調查對象總體的相關統(tǒng)計數(shù)據(jù)。第六張,PPT共八十二頁,創(chuàng)作

3、于2022年6月抽樣理論與方法是構建在現(xiàn)代統(tǒng)計學和概率論(尤其是概率抽樣)基礎上的。第七張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣調查的特點1)抽取樣本時要遵循隨機原則,即產(chǎn)生樣本時,調查對象總體中的所有單位都有同等被抽中的機會。2)大數(shù)規(guī)律起作用的條件是樣本容量足夠大,如此樣本對總體才有充分的代表性3)抽樣誤差可以事先經(jīng)過計算而控制在一定范圍內(nèi),并且能采取一定的組織措施控制這個誤差。第八張,PPT共八十二頁,創(chuàng)作于2022年6月幾個關鍵概念抽樣sampling:指的是從組成某個總體的所有元素的集合中,按一定的方式選擇或抽取一部分元素的過程。抽樣單位sampling unit:是一次直接的

4、抽樣所使用的基本單位或與元素。如班級(學生) 元素element :構成總體的單位,也是樣本所包含的內(nèi)容。 抽樣單位與構成總體的元素有時相同,有時不同。如抽樣單位班級構成總體的元素學生抽樣框sampling frame:又稱作抽樣范圍。指一次直接抽樣時總體中所有抽樣單位的名單。班級(學生)名單 第九張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣框的重要性舉例:1936年文學文摘的民意測量:從電話薄和車牌登記名單中選擇1000萬人,最后收到200萬人預測出43% 的羅斯福支持率(實際是61%)思考:抽樣框是什么?為什么預測不準? 抽樣框選擇的不合理只選擇了不成比例的富人樣本,而排除了窮人。成功的

5、對比:蓋洛普的配額抽樣第十張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣的一般程序界定總體掌握總體的結構及各方面情況制定抽樣框對名單進行統(tǒng)一編號,多階段抽樣需要分別建立不同的抽樣框。決定抽樣方案抽樣方法抽樣規(guī)模主要目標量的精確程度實際抽取樣本評估樣本質量對樣本的質、代表性、偏差進行初步檢驗和衡量。即用樣本中某些重要指標與總體中的指標進行比較,結果越接近越好。第十一張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣方法 概率抽樣 非概率抽樣 簡單隨機抽樣 偶遇抽樣 等距抽樣 判斷抽樣 分層抽樣 定額抽樣 整群抽樣 雪球抽樣 多階段抽樣第十二張,PPT共八十二頁,創(chuàng)作于2022年6月概率抽樣proba

6、bility sampling 是依據(jù)概率論基本原理,按照隨機原則進行抽樣,不加主觀因素,組成總體的每個單位都有被抽中的概率(非零概率),可以避免樣本出現(xiàn)偏差,樣本對總體有很強的代表性。非概率抽樣nonprobability sampling 是按主觀意向進行的抽樣(非隨機的),組成總體的很大部分單位沒有被抽中的機會(零概率),使調查很容易出現(xiàn)傾向性偏差。常在探索性調查中使用。第十三張,PPT共八十二頁,創(chuàng)作于2022年6月方便/偶遇抽樣accidental sampling 樣本限于總體中易于抽到的一部分。因此它并沒有保證總體中的每一成員都具有同等被抽中的概率。常被誤認為隨機抽樣,但有以上差

7、別。最常見的方便抽樣是偶遇抽樣,即研究者將在某一時間和環(huán)境中所遇到的每一總體單位均作為樣本成員?!敖诸^攔人法”就是一種偶遇抽樣。某些調查對被調查者來說是不愉快的、麻煩的,這時為方便起見就采用以自愿被調查者為調查樣本的方法。方便抽樣是非隨機抽樣中最簡單的方法,省時省錢,但樣本代表性因受偶然因素的影響太大而得不到保證。不能依賴偶遇抽樣的樣本值來推斷總體。第十四張,PPT共八十二頁,創(chuàng)作于2022年6月立意判斷抽樣purposive sampling立意抽樣又稱判斷抽樣,研究人員從總體中選擇那些被判斷為最能代表總體的單位作樣本的抽樣方法。研究者對自己的研究領域十分熟悉,對研究總體比較了解時采用這種抽

8、樣方法,可獲代表性較高的樣本。這種抽樣方法多應用于總體小而內(nèi)部差異大的情況,以及在總體邊界無法確定或因研究者的時間與人力、物力有限時采用。 第十五張,PPT共八十二頁,創(chuàng)作于2022年6月滾雪球抽樣 snowball sampling以若干個具有所需特征的人為最初的調查對象,然后依靠他們提供認識的合格的調查對象,再由這些人提供第三批調查對象,依次類推,樣本如同滾雪球般由小變大。滾雪球抽樣多用于總體單位的信息不足或觀察性研究的情況。這種抽樣中有些分子最后仍無法找到,有些分子被提供者漏而不提,兩者都可能造成誤差。 如喜歡公園活動的老人喜歡在家的老人第十六張,PPT共八十二頁,創(chuàng)作于2022年6月定

9、額抽樣quota sampling定額抽樣也稱配額抽樣,是將總體依某種標準分層(群);然后按照各層樣本數(shù)與該層總體數(shù)成比例的原則主觀抽取樣本。參考書145表6-7 100個人的定額樣本分布表(性別學科年級種分類特征)定額抽樣與分層概率抽樣很接近,最大的不同是分層概率抽樣的各層樣本是隨機抽取的,而定額抽樣的各層樣本是非隨機的,是按事先規(guī)定的條件有目的地尋找的。第十七張,PPT共八十二頁,創(chuàng)作于2022年6月定額抽樣總體也可按照多種標準的組合分層(群),例如,在研究自殺問題時,考慮到婚姻與性別都可能對自殺有影響,可將研究對象分為未婚男性、已婚男性、未婚女性和已婚女性四個組,然后從各群非隨機地抽樣。

10、定額抽樣是通常使用的非概率抽樣方法,這項抽樣方法要求對總體的情況比較了解。蓋洛普1948年失敗的案例(二戰(zhàn)導致1940年人口普查數(shù)據(jù)的變化) 第十八張,PPT共八十二頁,創(chuàng)作于2022年6月簡單隨機抽樣 simple random sampling思考什么是隨機?在班上隨便抽點10個同學是不是隨機?是概率抽樣最基本的形式。常用辦法有抽簽、隨機數(shù)表、人民幣等來抽樣要點:取得抽樣框名單 將總體中所有元素一一按順序編號 根據(jù)總體規(guī)模是幾位數(shù)來確定從隨 機數(shù)表中選幾位數(shù)。特點:在差異較大的總體中,簡單隨機抽樣的樣本不一定能保證樣本的代表性。 第十九張,PPT共八十二頁,創(chuàng)作于2022年6月隨機數(shù)表的使

11、用將總體中所有數(shù)據(jù)編碼確定所選擇的隨機數(shù)需要幾位數(shù)字根據(jù)總體數(shù)據(jù)的位數(shù)來定查閱隨機數(shù)表,建立某個執(zhí)行原則(如從上到下或從左到右)來選擇隨機數(shù)當選到的數(shù)超過范圍或重復時,跳過這個數(shù)選擇下一個 P353第二十張,PPT共八十二頁,創(chuàng)作于2022年6月系統(tǒng)抽樣等距抽樣systematic sampling又稱系統(tǒng)抽樣。把總體中的單位進行編號排序后,再計算出某種間隔,然后按這一固定的間隔抽取個體的號碼來組成樣本的方法。K(抽樣間隔)=N(總體規(guī)模)/n(樣本規(guī)模)個體編號為A,A+K,A+2K,A+(n-1)K抽樣比率=樣本大小/總體大小注意:若總體名單中,個體的排列具有某種等級的高低(如學生名單是按

12、學生成績高低來排的)或周期性分布,則應打破原次序,重新編制總體名單。等距抽樣比簡單隨機抽樣簡便易行,規(guī)模較大時多采用。第二十一張,PPT共八十二頁,創(chuàng)作于2022年6月分層抽樣stratified sampling又稱類型抽樣。它是先將總體中的所有單位按某種特征或標志(如性別、年齡、職業(yè)或地域等)劃分成若干個類型或層次然后再在各個類型或層次中采用簡單隨機抽樣或系統(tǒng)抽樣的辦法抽取一個子樣本,最后將這些子樣本合起來構成總體的樣本。第二十二張,PPT共八十二頁,創(chuàng)作于2022年6月分層抽樣特點:層內(nèi)同質,層間異質 分層抽樣在層內(nèi)是抽樣調查,層間是全面調查,所以分層時應該盡量讓每層內(nèi)的變異程度小,而層

13、間的變異程度大。(因此分層要全面考慮,而分層的首要目標就是達到同質性) 。分層抽樣的優(yōu)點就是在不增加樣本規(guī)模的前提下降低抽樣誤差。它的抽樣誤差較簡單隨機抽樣小,樣本具有很好的代表性。(參考抽樣誤差的公式)第二十三張,PPT共八十二頁,創(chuàng)作于2022年6月考慮分層的比例問題,又分為1、比例分配法; 考慮每層中的總體單位數(shù),按比例在每層中抽出相同比例的樣本,即每層的樣本容量第二十四張,PPT共八十二頁,創(chuàng)作于2022年6月例如: 調查在校學生的閱讀傾向將符合要求的學生做統(tǒng)計后(除去留學生,成教等)總數(shù)為2萬多人,考慮要作年級和教育差異對比,可將學生分為本科、碩士、博士三個大群體,根據(jù)最大樣本數(shù)估計

14、(允許的抽樣誤差在3%)需要抽取1068人就足夠了。經(jīng)求取比例,最低比例4.3可以滿足樣本需求。各層均按照4.3進行抽樣,做到了各層次中抽取的樣本單位數(shù)量的比例、該樣本在總體中抽取的樣本單位的比例、該樣本在總體中所占的比例這三個比例保持一致,這就是分層比例抽樣。 第二十五張,PPT共八十二頁,創(chuàng)作于2022年6月非隨機抽樣中有一種配額抽樣和分層比例抽樣極為相似。差別在于:配額抽樣不要求樣本結構與總體完全相等,或具有已知的確切關系,具體單位樣本的選擇也是由調研人員在實施調研時才在給定的配額內(nèi)主觀地選取,其實質是一種分層的估計抽樣。 第二十六張,PPT共八十二頁,創(chuàng)作于2022年6月2、不按比例分

15、層抽樣當總體中有些分層的數(shù)目太少,若以比例抽樣,則有的層在樣本中個案太少,影響分析。為了對不同層次的子總體進行專門研究,則可不按比例分層抽樣。但需注意,若要用樣本資料推斷總體時,則需要對各層數(shù)據(jù)資料進行加權處理,使樣本中各層的比例恢復到總體中各層實際的比例結構。第二十七張,PPT共八十二頁,創(chuàng)作于2022年6月例如:某廠600工人(男500,女100人)調查他們的平均收入。計劃抽樣60人。按比例抽樣: 男500*(60/600)=50人,女100*(60/600)=10人不按比例抽樣,即男女各抽30人全廠工人平均收入=(每個男工的收入*5/3+每個女工的收入*1/3)/60人第二十八張,PPT

16、共八十二頁,創(chuàng)作于2022年6月 是各層的標準差。 是總體中各層的數(shù)量 2、奈曼最佳分配法 考慮每層中總體單位的變異程度不同,在樣本容量一定的條件下,變異大的層樣本容量也大,變異小的層樣本容量也小。每層的樣本容量為第二十九張,PPT共八十二頁,創(chuàng)作于2022年6月整群抽樣cluster sampling概念:首先將總體劃分為群R;然后按隨機的原則不重復抽出群r ,在每群中進行全面調查。該調查方法適用于單位較多的總體。與分層抽樣相反,整群抽樣在群內(nèi)是全面調查,在群間是抽樣調查。第三十張,PPT共八十二頁,創(chuàng)作于2022年6月整群抽樣適用于:不同子群相互之間差別不大,而每個子群內(nèi)部的異質性程度比較

17、大。 -層內(nèi)異質,層間同質(與分層抽樣相反)當我們不可能或不方便編制一個完整的名單形成目標總體的時候,可以使用整群抽樣。如對城市的人口進行抽樣的時候,沒有整個城市的人的名冊,可以先選出幾個街道樣本,對街道中的所有戶進行抽樣。第三十一張,PPT共八十二頁,創(chuàng)作于2022年6月整群抽樣優(yōu)點:簡便易行、節(jié)省費用缺點:樣本分布面不廣,樣本對總體的代表性相對較差第三十二張,PPT共八十二頁,創(chuàng)作于2022年6月多段抽樣 multistage sampling又稱分段抽樣。它是按抽樣元素的隸屬關系或層次關系,把抽樣過程分為幾個階段進行。適合于總體規(guī)模特別大,或總體分布范圍特別廣。方法:從總體中隨機抽取若干

18、大群,然后從大群中抽取若干小群,層層抽下去,直到抽到最基本的抽樣元素為止。重復兩個基本步驟:列表名冊和抽樣在上述每個階段的抽樣中,都要采用簡單隨機抽樣或等距抽樣或分層抽樣的方法進行。第三十三張,PPT共八十二頁,創(chuàng)作于2022年6月多段抽樣時,需要考慮類別和個體之間如何保持平衡? 考慮兩個因素REF 書P137表6-3各個抽樣階段中的子總體同質性程度。同質性越高的子總體,所抽規(guī)模就小一點。反之亦然??紤]人力和經(jīng)費-“大的類別抽取的多,每一子類抽取的相應較少”所花的人力經(jīng)費就多,但又可適當減少抽樣誤差 每級抽樣都會產(chǎn)生誤差,故多段抽樣的誤差較大。第三十四張,PPT共八十二頁,創(chuàng)作于2022年6月

19、Q:如何控制多段整群抽樣的抽樣誤差?從抽樣誤差的公式入手 增加樣本容量提高樣本要素的同質性(然而,如果總樣本數(shù)量一定的話,抽取的群數(shù)量增加每個群中被抽取的要素的數(shù)量勢必減少。)整群抽樣的原則就是盡可能多的選取群(群的同質性強),而減少每個群中要素的數(shù)量。但又可能違背整群抽樣效率的功能第三十五張,PPT共八十二頁,創(chuàng)作于2022年6月戶內(nèi)抽樣within-household sampling適用于以家庭作為分析單位,以入戶訪談的方法收集資料入戶前的抽樣可以采用多段抽樣的方式如市/縣區(qū)/鄉(xiāng)街/村居委會/組家庭戶確定戶后,如何對戶內(nèi)的成年人進行選擇?-生日接近法- KISH選擇表第三十六張,PPT共

20、八十二頁,創(chuàng)作于2022年6月KISH選擇法將調查表編號為A,B1,B2,C,D,E1,E2,F 八種,每種表的數(shù)目分別占調查表總數(shù)的1/6,1/12,1/12,1/6,1/6,1/12,1/12,1/6每個調查員配備一套KISH選擇表(一套8種)對每戶中成年人進行排序和編號:男在前,女在后;年紀大在前,小在后. 按照調查表上的編號找出選擇表,根據(jù)家庭人口數(shù)目從選擇表中查出該選個體的序號.對這一序號的成員進行調查.第三十七張,PPT共八十二頁,創(chuàng)作于2022年6月第三十八張,PPT共八十二頁,創(chuàng)作于2022年6月概率比率抽樣(PPS抽樣) probability proportionate t

21、o size一種多段整群抽樣(適用于大規(guī)模調查)其中的群被選取的概率并不相等,其被選中的概率和其規(guī)模大小成比例根據(jù)群中其子樣本的數(shù)量來衡量。特點是總體中含量大的部分被抽中的概率也大,可以提高樣本的代表性。第三十九張,PPT共八十二頁,創(chuàng)作于2022年6月對比:EPSEM /PPSEPSEM:equal probability of selection method 等概率抽樣選擇城市中的住戶(假設100000戶分散在1000條街道,如何抽取1000戶居民) 1000條街道挑選100個街道:10%的選中機會假設每條街道只有100戶(即規(guī)模相同) ,則抽10戶即可,100戶抽10戶: 10%的選中

22、機會則城市中每一戶被選中的概率=0.1*0.1=1%這樣,每戶人家被選中的概率相同,挑選出來的樣本對城市中的所有住戶來說具有代表性思考:一個陷阱:如果每條街道戶數(shù)不同,例如甲居委會有200戶,乙居委會只有50戶。思考: EPSEM抽樣結果會怎樣?甲居委會居民被抽中的概率:100/1000*10/200=0.005乙居委會居民被抽中的概率:100/1000*10/50=0.02乙居委會居民被抽中的概率是甲居委會居民被抽中的概率的4倍第四十張,PPT共八十二頁,創(chuàng)作于2022年6月PPS抽樣每一個元素被抽中的概率=所抽取的群數(shù)*(子群的規(guī)模/總體的規(guī)模)*(平均每個子群中所要抽取的元素/子群的規(guī)模

23、)甲居委會居民被抽中的概率:100*200/100000*10/200=0.01乙居委會居民被抽中的概率:100*50/100000*10/50=0.01第四十一張,PPT共八十二頁,創(chuàng)作于2022年6月PPS抽樣總結以階段性的不等概率換取最終的總體的等概率第四十二張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣設計的原則目的性原則以研究目標為依據(jù)可測性原則能夠從樣本自身計算出有效的估計值或抽樣變動的近似值??尚行栽瓌t在實踐中切實可行經(jīng)濟性原則考慮人、財、物、時間第四十三張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣是問卷調查的前提抽樣方法選擇的正確與否直接決定著調查數(shù)據(jù)的可靠程度,同時也就決定

24、了調查的成敗。掌握幾個重要的概念抽樣分布/概率理論/抽樣誤差/置信度和置信區(qū)間 第四十四張,PPT共八十二頁,創(chuàng)作于2022年6月抽樣分布三種不同性質的分布 一. 總體分布 二. 樣本分布 三. 抽樣分布第四十五張,PPT共八十二頁,創(chuàng)作于2022年6月一.總體分布(population distribution) 統(tǒng)計研究對象的全體稱為總體. 實際問題所研究的是總體中個體的某一特征 X ,X 是一個隨機變量,而 X 的可能取值全體即為總體. 稱 X 的分布為總體分布. 第四十六張,PPT共八十二頁,創(chuàng)作于2022年6月二.樣本分布(sample distribution) 樣本中各觀察值的分

25、布稱為樣本分布, 也稱經(jīng)驗分布. 樣本分布可以用樣本的頻數(shù)分布來表示. 第四十七張,PPT共八十二頁,創(chuàng)作于2022年6月三.抽樣分布(sampling distribution) 統(tǒng)計量的分布稱為抽樣分布. 討論的統(tǒng)計量有樣本均值、樣本比例和樣本方差等.第四十八張,PPT共八十二頁,創(chuàng)作于2022年6月一個總體參數(shù)推斷時統(tǒng)計量的抽樣分布 一. 樣本均值的抽樣分布 二. 樣本比例的抽樣分布 三. 樣本方差的抽樣分布第四十九張,PPT共八十二頁,創(chuàng)作于2022年6月總體參數(shù)parameter 描述總體數(shù)量特征的指標。總體是唯一的,所以參數(shù)也是唯一的;參數(shù)值只有通過對總體中的每一個元素都進行調查或

26、測量才能得到。樣本統(tǒng)計量 statistic 描述樣本數(shù)量特征的指標,由樣本計算而得。由于樣本是隨機的,所以樣本統(tǒng)計量是隨機變量。抽樣的目的就是盡可能通過統(tǒng)計值去估計參數(shù)值。第五十張,PPT共八十二頁,創(chuàng)作于2022年6月總體參數(shù)樣本統(tǒng)計量樣本統(tǒng)計量公式總體平均數(shù)樣本平均數(shù)總體成數(shù)樣本成數(shù)總體方差樣本方差總體標準差樣本標準差NEXT第五十一張,PPT共八十二頁,創(chuàng)作于2022年6月 成數(shù)的概念 若總體單位的某種標志只有兩種表現(xiàn),總體成數(shù)是指具有某種特征和屬性的單位在全部總體單位重所占比重。記為p。 以 代表總體單位中具有某種特征的單位數(shù), 代表總體單位中不具有某種特征的單位數(shù),N=N1+N0。

27、有第五十二張,PPT共八十二頁,創(chuàng)作于2022年6月一.樣本均值的抽樣分布(一)抽樣分布的形成過程 例 設一個總體N = 4,分別為X1=1, X2=2, X3=3 和 X4=4 , 可得總體的均值、方差 現(xiàn)從總體中抽取 n2 的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本. 所有不同的樣本為第五十三張,PPT共八十二頁,創(chuàng)作于2022年6月表 所有可能的樣本和樣本均值(n = 2 )第五十四張,PPT共八十二頁,創(chuàng)作于2022年6月表 樣本均值的分布樣本均值的分布呈現(xiàn)正態(tài)分布,隨著樣本容量n的增大,就越接近正態(tài)分布第五十五張,PPT共八十二頁,創(chuàng)作于2022年6月從N中抽取n個樣本,

28、不重復抽樣樣本數(shù)目為m=N!/(N-n)!n!不重復抽樣參見書P122圖6-26,第五十六張,PPT共八十二頁,創(chuàng)作于2022年6月(二)樣本均值的抽樣分布形式 中心極限定理(central limit theorem) 設從均值為,方差2 的總體中隨機抽取樣本容量為n 的樣本,當n充分大時,樣本均值 的抽樣分布近似服從均值為,方差為 的正態(tài)分布.(即全部樣本平均數(shù)的平均數(shù)正好等于總計的平均數(shù) ,全部樣本平均數(shù)的標準差(稱為標準誤SE)則等于總體標準差除以 )抽樣分布是根據(jù)概率的原則而成立的理性分布,它顯示出:從一個總體中不斷抽取樣本時,各種可能出現(xiàn)的樣本統(tǒng)計值的分布情況第五十七張,PPT共八

29、十二頁,創(chuàng)作于2022年6月(三)樣本均值的抽樣分布特征 1 樣本均值的數(shù)學期望 2 樣本均值的方差(1)重復抽樣:(2)不重復抽樣:(6.1)(6.2)(6.3)第五十八張,PPT共八十二頁,創(chuàng)作于2022年6月二.樣本比例的抽樣分布 總體(或樣本)中具有某種屬性的單位數(shù)與單位總數(shù)之比(1)總體比例:(2)樣本比例:第五十九張,PPT共八十二頁,創(chuàng)作于2022年6月樣本比例的抽樣分布 1 樣本比例的數(shù)學期望 2 樣本比例的方差 (1)重復抽樣: (2)不重復抽樣:(6.4)(6.5)(6.6)第六十張,PPT共八十二頁,創(chuàng)作于2022年6月率的標準誤用抽樣方法進行研究時,必然存在抽樣誤差。率

30、的抽樣誤差大小可用率的標準誤來表示,計算公式如下:式中:p為率的標準誤,為總體陽性率,n為樣本含量。因為實際工作中很難知道總體陽性率,故一般采用樣本率p 來代替,而上式就變?yōu)闃藴收`的計算第六十一張,PPT共八十二頁,創(chuàng)作于2022年6月河北省組織高碘地方性甲狀腺腫流行病學調查,作者調查了飲用不同碘濃度井水居民甲狀腺腫的患病情況,其中有兩組資料如下表,試分別求出率的標準誤。水中含碘量均數(shù)(g/L)受檢人數(shù)患病人數(shù)患病率(%)458.253315591.78825.9532151805.60舉例 第六十二張,PPT共八十二頁,創(chuàng)作于2022年6月計算法:第一組:n1=3315,p1=1.78%=0

31、.01781-p1=1-0.0178=0.9822第二組:n2=3215,p2=5.60%=0.0561-p2=1-0.056=0.944第六十三張,PPT共八十二頁,創(chuàng)作于2022年6月概率理論作用概率理論提供抽樣誤差sampling error 的計算公式,以估計這些樣本統(tǒng)計值與真實值的差距.抽樣誤差如果我們由總體內(nèi)隨機抽取許多獨立的樣本,這些隨機抽樣所得到的統(tǒng)計結果將以一種可知的方式分布在總體參數(shù)附近.那么抽樣結果集中在總體參數(shù)多大的范圍內(nèi)呢?置信水平和置信區(qū)間第六十四張,PPT共八十二頁,創(chuàng)作于2022年6月概率理論明確指出: 一定比例的樣本估計值會落在總體參數(shù)值的某個增量內(nèi)(一個標準

32、誤SE就是一個增加單位)-置信區(qū)間第六十五張,PPT共八十二頁,創(chuàng)作于2022年6月置信區(qū)間與置信水平置信水平confident level : 總體參數(shù)值落在樣本統(tǒng)計值某一區(qū)間的概率(把握程度)。它反映抽樣的可靠性程度。如置信度為95%:指對某一總體進行的同樣形式的100次抽樣中,總體值將有95次都落在樣本值周圍的某一區(qū)間內(nèi)。在其他條件一定的情況下,置信度越高,推論的把握性越大,所要求的樣本規(guī)模就越大。置信區(qū)間confident interval : 估測總體參數(shù)值的范圍.它是指在一定的置信度下,樣本值與總體值之間的誤差范圍。它反映的是抽樣的精確程度。范圍越大,精確性程度越低。在其他條件一定

33、的情況下,置信區(qū)間越小,精確性程度要求就越高,即樣本值與總體值之間的誤差范圍越小,則所要求的樣本規(guī)模就越大。舉例: 我們有95%的信心說,35-45%的投票者會投票給A 第六十六張,PPT共八十二頁,創(chuàng)作于2022年6月由于平均數(shù)的抽樣分布是正態(tài)分布,其平均數(shù)的次數(shù)就是正態(tài)曲線下的面積.而根據(jù)概率統(tǒng)計論,正態(tài)分布曲線下的面積是可以用數(shù)學方法推算的.有90%落在u1.65SE之間有95%落在u1.96SE之間有98%落在u2.33SE之間有99%落在u2.58SE之間我們可以這樣說:對于任何一次抽樣來說,其樣本統(tǒng)計值落在總體參數(shù)值正負2個標準誤之間的概率是95%第六十七張,PPT共八十二頁,創(chuàng)作

34、于2022年6月總體率的可信區(qū)間由于樣本率與總體率之間存在著抽樣誤差,所以也需根據(jù)樣本率來推算總體率所在的范圍,根據(jù)樣本含量n和樣本率P的大小不同,分別采用下列2種方法: 第六十八張,PPT共八十二頁,創(chuàng)作于2022年6月正態(tài)近似法當樣本含量n足夠大,且樣本率P和(1-p)均不太小,如np或n(1-p)均5時,樣本率的分布近似正態(tài)分布,則總體率的可信區(qū)間可由下列公式估計:總體率()的95%可信區(qū)間:p1.96sp總體率()的99%可信區(qū)間:p2.58sp查表法當樣本含量n較小,如n50,特別是p接近0或1時,則按二項分布原理確定總體率的可信區(qū)間,其計算較繁,讀者可根據(jù)樣本含量n和陽性數(shù)X參照專

35、用統(tǒng)計學介紹的二項分布中95%可信限表。樣本率的分布第六十九張,PPT共八十二頁,創(chuàng)作于2022年6月Q : 如何才能減少標準誤?P(1-p)的值(當P=0.5時,標準誤最大;而當P=1/0時,標準誤最小)與樣本容量N 成反比: 當樣本的容量增加4倍時, 標準誤會減少一半 如何控制率的抽樣誤差?第七十張,PPT共八十二頁,創(chuàng)作于2022年6月如何控制抽樣誤差?從同質總體中抽取樣本比從異值總體中樣本所產(chǎn)生的抽樣誤差小. 如果總體中99%的人同意某個陳述,任何概率抽樣的樣本結果,嚴重偏離此同意程度的可能是非常小的。相對來說,如果總體中只有50%的人同意某陳述,抽樣誤差就大多了.抽樣中的分層抽樣就是

36、基于此原理來減少抽樣誤差. 第七十一張,PPT共八十二頁,創(chuàng)作于2022年6月例子假設某研究大學生對校規(guī)的贊成程度,總體參數(shù)值是50%的學生贊成.每次抽樣的學生為100名.計算: 標準誤是多少?我們有95%的信心保證樣本統(tǒng)計值落在參數(shù)值() 個標準誤之間,即贊成學生的比例將介于()-()之間如果我們希望有95%的信心讓研究結果與總體參數(shù)值的差異在正負5%的范圍內(nèi),那么樣本容量至少要多少人?總體率()的95%可信區(qū)間:p1.96sp總體率()的99%可信區(qū)間:p2.58sp第七十二張,PPT共八十二頁,創(chuàng)作于2022年6月答案5%正負2個標準誤之間,40%-60%400第七十三張,PPT共八十二頁,創(chuàng)作于2022年6月概率抽樣總結概率抽樣的基本原則是:當我們從總體中隨機抽取樣本,用樣本的平均值來推論總體平均值時,我們發(fā)現(xiàn),樣本量越大,抽樣誤差就越小。第七十四張,PPT共八十二頁,創(chuàng)作于2022年6月概率抽樣總結樣本量越大,則成本就越高。根據(jù)數(shù)理統(tǒng)計規(guī)律,樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論