抽樣與抽樣調(diào)查_(kāi)第1頁(yè)
抽樣與抽樣調(diào)查_(kāi)第2頁(yè)
抽樣與抽樣調(diào)查_(kāi)第3頁(yè)
抽樣與抽樣調(diào)查_(kāi)第4頁(yè)
抽樣與抽樣調(diào)查_(kāi)第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于抽樣與抽樣調(diào)查第1頁(yè),共82頁(yè),2023年,2月20日,星期四為什么要知道一個(gè)人的血液情況,只需抽一點(diǎn)點(diǎn)血來(lái)化驗(yàn)就行了?由部分認(rèn)識(shí)總體同質(zhì)和異質(zhì)第2頁(yè),共82頁(yè),2023年,2月20日,星期四蓋洛普,美國(guó)民意測(cè)驗(yàn)中心1936年美國(guó)總統(tǒng)大選預(yù)測(cè)(配額抽樣)1948年美國(guó)總統(tǒng)大選預(yù)測(cè)(失敗)1984年美國(guó)總統(tǒng)大選預(yù)測(cè)1994年美國(guó)總統(tǒng)大選預(yù)測(cè)樣本數(shù)據(jù)3000左右第3頁(yè),共82頁(yè),2023年,2月20日,星期四1994年美國(guó)總統(tǒng)大選預(yù)測(cè)民意調(diào)查日期主辦機(jī)構(gòu)總統(tǒng)候選人克林頓多爾佩羅其他10/28-31CBS/N.YTIME54359211/1-3Reuter49418211/1-3Harris51399111/1-3ABC52399211/1-3NBC/WallST.51387211/1-3Gallup/CNN513892選舉結(jié)果494192第4頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣解決什么問(wèn)題?對(duì)象的選取問(wèn)題:如何從總體中選出一部分對(duì)象來(lái)作為總體的代表第5頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣調(diào)查的含義抽樣調(diào)查:是指按照科學(xué)的原理和計(jì)算從所要研究現(xiàn)象的全部分析單位中按隨機(jī)原則抽取部分單位進(jìn)行調(diào)查,取得資料后,再根據(jù)樣本的實(shí)際數(shù)據(jù)對(duì)總體的數(shù)量特征作出具有一定可靠程度的估計(jì)和判斷的方法。抽樣調(diào)查旨在以樣本的資料來(lái)推斷調(diào)查對(duì)象總體的相關(guān)統(tǒng)計(jì)數(shù)據(jù)。第6頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣理論與方法是構(gòu)建在現(xiàn)代統(tǒng)計(jì)學(xué)和概率論(尤其是概率抽樣)基礎(chǔ)上的。第7頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣調(diào)查的特點(diǎn)1)抽取樣本時(shí)要遵循隨機(jī)原則,即產(chǎn)生樣本時(shí),調(diào)查對(duì)象總體中的所有單位都有同等被抽中的機(jī)會(huì)。2)大數(shù)規(guī)律起作用的條件是樣本容量足夠大,如此樣本對(duì)總體才有充分的代表性3)抽樣誤差可以事先經(jīng)過(guò)計(jì)算而控制在一定范圍內(nèi),并且能采取一定的組織措施控制這個(gè)誤差。第8頁(yè),共82頁(yè),2023年,2月20日,星期四幾個(gè)關(guān)鍵概念抽樣sampling:指的是從組成某個(gè)總體的所有元素的集合中,按一定的方式選擇或抽取一部分元素的過(guò)程。抽樣單位samplingunit:是一次直接的抽樣所使用的基本單位或與元素。如班級(jí)(/學(xué)生)元素element:構(gòu)成總體的單位,也是樣本所包含的內(nèi)容。抽樣單位與構(gòu)成總體的元素有時(shí)相同,有時(shí)不同。如抽樣單位班級(jí)--構(gòu)成總體的元素學(xué)生抽樣框samplingframe:又稱(chēng)作抽樣范圍。指一次直接抽樣時(shí)總體中所有抽樣單位的名單。班級(jí)(學(xué)生)名單

第9頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣框的重要性舉例:1936年《文學(xué)文摘》的民意測(cè)量:從電話(huà)薄和車(chē)牌登記名單中選擇1000萬(wàn)人,最后收到200萬(wàn)人預(yù)測(cè)出43%的羅斯福支持率(實(shí)際是61%)思考:抽樣框是什么?為什么預(yù)測(cè)不準(zhǔn)?抽樣框選擇的不合理—只選擇了不成比例的富人樣本,而排除了窮人。成功的對(duì)比:蓋洛普的配額抽樣第10頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣的一般程序界定總體--掌握總體的結(jié)構(gòu)及各方面情況制定抽樣框--對(duì)名單進(jìn)行統(tǒng)一編號(hào),多階段抽樣需要分別建立不同的抽樣框。決定抽樣方案--抽樣方法/抽樣規(guī)模/主要目標(biāo)量的精確程度實(shí)際抽取樣本評(píng)估樣本質(zhì)量--對(duì)樣本的質(zhì)、代表性、偏差進(jìn)行初步檢驗(yàn)和衡量。即用樣本中某些重要指標(biāo)與總體中的指標(biāo)進(jìn)行比較,結(jié)果越接近越好。第11頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣方法

概率抽樣非概率抽樣簡(jiǎn)單隨機(jī)抽樣偶遇抽樣等距抽樣判斷抽樣分層抽樣定額抽樣整群抽樣雪球抽樣多階段抽樣第12頁(yè),共82頁(yè),2023年,2月20日,星期四概率抽樣probabilitysampling是依據(jù)概率論基本原理,按照隨機(jī)原則進(jìn)行抽樣,不加主觀(guān)因素,組成總體的每個(gè)單位都有被抽中的概率(非零概率),可以避免樣本出現(xiàn)偏差,樣本對(duì)總體有很強(qiáng)的代表性。非概率抽樣nonprobabilitysampling是按主觀(guān)意向進(jìn)行的抽樣(非隨機(jī)的),組成總體的很大部分單位沒(méi)有被抽中的機(jī)會(huì)(零概率),使調(diào)查很容易出現(xiàn)傾向性偏差。常在探索性調(diào)查中使用。第13頁(yè),共82頁(yè),2023年,2月20日,星期四方便/偶遇抽樣

accidentalsampling樣本限于總體中易于抽到的一部分。因此它并沒(méi)有保證總體中的每一成員都具有同等被抽中的概率。常被誤認(rèn)為隨機(jī)抽樣,但有以上差別。最常見(jiàn)的方便抽樣是偶遇抽樣,即研究者將在某一時(shí)間和環(huán)境中所遇到的每一總體單位均作為樣本成員。“街頭攔人法”就是一種偶遇抽樣。某些調(diào)查對(duì)被調(diào)查者來(lái)說(shuō)是不愉快的、麻煩的,這時(shí)為方便起見(jiàn)就采用以自愿被調(diào)查者為調(diào)查樣本的方法。方便抽樣是非隨機(jī)抽樣中最簡(jiǎn)單的方法,省時(shí)省錢(qián),但樣本代表性因受偶然因素的影響太大而得不到保證。不能依賴(lài)偶遇抽樣的樣本值來(lái)推斷總體。第14頁(yè),共82頁(yè),2023年,2月20日,星期四立意/判斷抽樣

purposivesampling立意抽樣又稱(chēng)判斷抽樣,研究人員從總體中選擇那些被判斷為最能代表總體的單位作樣本的抽樣方法。研究者對(duì)自己的研究領(lǐng)域十分熟悉,對(duì)研究總體比較了解時(shí)采用這種抽樣方法,可獲代表性較高的樣本。這種抽樣方法多應(yīng)用于總體小而內(nèi)部差異大的情況,以及在總體邊界無(wú)法確定或因研究者的時(shí)間與人力、物力有限時(shí)采用。第15頁(yè),共82頁(yè),2023年,2月20日,星期四

滾雪球抽樣snowballsampling

以若干個(gè)具有所需特征的人為最初的調(diào)查對(duì)象,然后依靠他們提供認(rèn)識(shí)的合格的調(diào)查對(duì)象,再由這些人提供第三批調(diào)查對(duì)象,……依次類(lèi)推,樣本如同滾雪球般由小變大。滾雪球抽樣多用于總體單位的信息不足或觀(guān)察性研究的情況。這種抽樣中有些分子最后仍無(wú)法找到,有些分子被提供者漏而不提,兩者都可能造成誤差。如喜歡公園活動(dòng)的老人--喜歡在家的老人第16頁(yè),共82頁(yè),2023年,2月20日,星期四定額抽樣quotasampling定額抽樣也稱(chēng)配額抽樣,是將總體依某種標(biāo)準(zhǔn)分層(群);然后按照各層樣本數(shù)與該層總體數(shù)成比例的原則主觀(guān)抽取樣本。參考書(shū)P145表6-7100個(gè)人的定額樣本分布表(性別/學(xué)科/年級(jí)3種分類(lèi)特征)定額抽樣與分層概率抽樣很接近,最大的不同是分層概率抽樣的各層樣本是隨機(jī)抽取的,而定額抽樣的各層樣本是非隨機(jī)的,是按事先規(guī)定的條件有目的地尋找的。第17頁(yè),共82頁(yè),2023年,2月20日,星期四定額抽樣總體也可按照多種標(biāo)準(zhǔn)的組合分層(群),例如,在研究自殺問(wèn)題時(shí),考慮到婚姻與性別都可能對(duì)自殺有影響,可將研究對(duì)象分為未婚男性、已婚男性、未婚女性和已婚女性四個(gè)組,然后從各群非隨機(jī)地抽樣。定額抽樣是通常使用的非概率抽樣方法,這項(xiàng)抽樣方法要求對(duì)總體的情況比較了解。蓋洛普1948年失敗的案例(二戰(zhàn)導(dǎo)致1940年人口普查數(shù)據(jù)的變化)第18頁(yè),共82頁(yè),2023年,2月20日,星期四簡(jiǎn)單隨機(jī)抽樣

simplerandomsampling思考什么是隨機(jī)?在班上隨便抽點(diǎn)10個(gè)同學(xué)是不是隨機(jī)?是概率抽樣最基本的形式。常用辦法有抽簽、隨機(jī)數(shù)表、人民幣等來(lái)抽樣要點(diǎn):取得抽樣框名單將總體中所有元素一一按順序編號(hào)根據(jù)總體規(guī)模是幾位數(shù)來(lái)確定從隨機(jī)數(shù)表中選幾位數(shù)。特點(diǎn):在差異較大的總體中,簡(jiǎn)單隨機(jī)抽樣的樣本不一定能保證樣本的代表性。第19頁(yè),共82頁(yè),2023年,2月20日,星期四隨機(jī)數(shù)表的使用將總體中所有數(shù)據(jù)編碼確定所選擇的隨機(jī)數(shù)需要幾位數(shù)字—根據(jù)總體數(shù)據(jù)的位數(shù)來(lái)定查閱隨機(jī)數(shù)表,建立某個(gè)執(zhí)行原則(如從上到下或從左到右)來(lái)選擇隨機(jī)數(shù)當(dāng)選到的數(shù)超過(guò)范圍或重復(fù)時(shí),跳過(guò)這個(gè)數(shù)選擇下一個(gè)P353第20頁(yè),共82頁(yè),2023年,2月20日,星期四系統(tǒng)抽樣/等距抽樣

systematicsampling又稱(chēng)系統(tǒng)抽樣。把總體中的單位進(jìn)行編號(hào)排序后,再計(jì)算出某種間隔,然后按這一固定的間隔抽取個(gè)體的號(hào)碼來(lái)組成樣本的方法。K(抽樣間隔)=N(總體規(guī)模)/n(樣本規(guī)模)個(gè)體編號(hào)為A,A+K,A+2K,…A+(n-1)K抽樣比率=樣本大小/總體大小注意:若總體名單中,個(gè)體的排列具有某種等級(jí)的高低(如學(xué)生名單是按學(xué)生成績(jī)高低來(lái)排的)或周期性分布,則應(yīng)打破原次序,重新編制總體名單。等距抽樣比簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)便易行,規(guī)模較大時(shí)多采用。第21頁(yè),共82頁(yè),2023年,2月20日,星期四分層抽樣

stratifiedsampling又稱(chēng)類(lèi)型抽樣。它是先將總體中的所有單位按某種特征或標(biāo)志(如性別、年齡、職業(yè)或地域等)劃分成若干個(gè)類(lèi)型或?qū)哟稳缓笤僭诟鱾€(gè)類(lèi)型或?qū)哟沃胁捎煤?jiǎn)單隨機(jī)抽樣或系統(tǒng)抽樣的辦法抽取一個(gè)子樣本,最后將這些子樣本合起來(lái)構(gòu)成總體的樣本。第22頁(yè),共82頁(yè),2023年,2月20日,星期四分層抽樣特點(diǎn):層內(nèi)同質(zhì),層間異質(zhì)分層抽樣在層內(nèi)是抽樣調(diào)查,層間是全面調(diào)查,所以分層時(shí)應(yīng)該盡量讓每層內(nèi)的變異程度小,而層間的變異程度大。(因此分層要全面考慮,而分層的首要目標(biāo)就是達(dá)到同質(zhì)性)。分層抽樣的優(yōu)點(diǎn)就是在不增加樣本規(guī)模的前提下降低抽樣誤差。它的抽樣誤差較簡(jiǎn)單隨機(jī)抽樣小,樣本具有很好的代表性。(參考抽樣誤差的公式)第23頁(yè),共82頁(yè),2023年,2月20日,星期四考慮分層的比例問(wèn)題,又分為1、比例分配法;考慮每層中的總體單位數(shù),按比例在每層中抽出相同比例的樣本,即每層的樣本容量第24頁(yè),共82頁(yè),2023年,2月20日,星期四例如:調(diào)查在校學(xué)生的閱讀傾向?qū)⒎弦蟮膶W(xué)生做統(tǒng)計(jì)后(除去留學(xué)生,成教等)總數(shù)為2萬(wàn)多人,考慮要作年級(jí)和教育差異對(duì)比,可將學(xué)生分為本科、碩士、博士三個(gè)大群體,根據(jù)最大樣本數(shù)估計(jì)(允許的抽樣誤差在3%)需要抽取1068人就足夠了。經(jīng)求取比例,最低比例4.3%可以滿(mǎn)足樣本需求。各層均按照4.3%進(jìn)行抽樣,做到了各層次中抽取的樣本單位數(shù)量的比例、該樣本在總體中抽取的樣本單位的比例、該樣本在總體中所占的比例這三個(gè)比例保持一致,這就是分層比例抽樣。第25頁(yè),共82頁(yè),2023年,2月20日,星期四非隨機(jī)抽樣中有一種配額抽樣和分層比例抽樣極為相似。差別在于:配額抽樣不要求樣本結(jié)構(gòu)與總體完全相等,或具有已知的確切關(guān)系,具體單位樣本的選擇也是由調(diào)研人員在實(shí)施調(diào)研時(shí)才在給定的配額內(nèi)主觀(guān)地選取,其實(shí)質(zhì)是一種分層的估計(jì)抽樣。第26頁(yè),共82頁(yè),2023年,2月20日,星期四2、不按比例分層抽樣當(dāng)總體中有些分層的數(shù)目太少,若以比例抽樣,則有的層在樣本中個(gè)案太少,影響分析。為了對(duì)不同層次的子總體進(jìn)行專(zhuān)門(mén)研究,則可不按比例分層抽樣。但需注意,若要用樣本資料推斷總體時(shí),則需要對(duì)各層數(shù)據(jù)資料進(jìn)行加權(quán)處理,使樣本中各層的比例恢復(fù)到總體中各層實(shí)際的比例結(jié)構(gòu)。第27頁(yè),共82頁(yè),2023年,2月20日,星期四例如:某廠(chǎng)600工人(男500,女100人)調(diào)查他們的平均收入。計(jì)劃抽樣60人。按比例抽樣:男500*(60/600)=50人,女100*(60/600)=10人不按比例抽樣,即男女各抽30人全廠(chǎng)工人平均收入=(每個(gè)男工的收入*5/3+每個(gè)女工的收入*1/3)/60人第28頁(yè),共82頁(yè),2023年,2月20日,星期四

是各層的標(biāo)準(zhǔn)差。是總體中各層的數(shù)量2、奈曼最佳分配法

考慮每層中總體單位的變異程度不同,在樣本容量一定的條件下,變異大的層樣本容量也大,變異小的層樣本容量也小。每層的樣本容量為第29頁(yè),共82頁(yè),2023年,2月20日,星期四整群抽樣

clustersampling概念:首先將總體劃分為群R;然后按隨機(jī)的原則不重復(fù)抽出群r,在每群中進(jìn)行全面調(diào)查。該調(diào)查方法適用于單位較多的總體。與分層抽樣相反,整群抽樣在群內(nèi)是全面調(diào)查,在群間是抽樣調(diào)查。第30頁(yè),共82頁(yè),2023年,2月20日,星期四整群抽樣適用于:不同子群相互之間差別不大,而每個(gè)子群內(nèi)部的異質(zhì)性程度比較大。--層內(nèi)異質(zhì),層間同質(zhì)(與分層抽樣相反)當(dāng)我們不可能或不方便編制一個(gè)完整的名單形成目標(biāo)總體的時(shí)候,可以使用整群抽樣。如對(duì)城市的人口進(jìn)行抽樣的時(shí)候,沒(méi)有整個(gè)城市的人的名冊(cè),可以先選出幾個(gè)街道樣本,對(duì)街道中的所有戶(hù)進(jìn)行抽樣。第31頁(yè),共82頁(yè),2023年,2月20日,星期四整群抽樣優(yōu)點(diǎn):簡(jiǎn)便易行、節(jié)省費(fèi)用缺點(diǎn):樣本分布面不廣,樣本對(duì)總體的代表性相對(duì)較差第32頁(yè),共82頁(yè),2023年,2月20日,星期四多段抽樣

multistagesampling又稱(chēng)分段抽樣。它是按抽樣元素的隸屬關(guān)系或?qū)哟侮P(guān)系,把抽樣過(guò)程分為幾個(gè)階段進(jìn)行。適合于總體規(guī)模特別大,或總體分布范圍特別廣。方法:從總體中隨機(jī)抽取若干大群,然后從大群中抽取若干小群,層層抽下去,直到抽到最基本的抽樣元素為止。重復(fù)兩個(gè)基本步驟:列表名冊(cè)和抽樣在上述每個(gè)階段的抽樣中,都要采用簡(jiǎn)單隨機(jī)抽樣或等距抽樣或分層抽樣的方法進(jìn)行。第33頁(yè),共82頁(yè),2023年,2月20日,星期四多段抽樣時(shí),需要考慮類(lèi)別和個(gè)體之間如何保持平衡?考慮兩個(gè)因素REF書(shū)P137表6-3各個(gè)抽樣階段中的子總體同質(zhì)性程度。同質(zhì)性越高的子總體,所抽規(guī)模就小一點(diǎn)。反之亦然。考慮人力和經(jīng)費(fèi)--“大的類(lèi)別抽取的多,每一子類(lèi)抽取的相應(yīng)較少”所花的人力經(jīng)費(fèi)就多,但又可適當(dāng)減少抽樣誤差每級(jí)抽樣都會(huì)產(chǎn)生誤差,故多段抽樣的誤差較大。第34頁(yè),共82頁(yè),2023年,2月20日,星期四Q:如何控制多段整群抽樣的抽樣誤差?從抽樣誤差的公式入手增加樣本容量提高樣本要素的同質(zhì)性(然而,如果總樣本數(shù)量一定的話(huà),抽取的群數(shù)量增加每個(gè)群中被抽取的要素的數(shù)量勢(shì)必減少。)整群抽樣的原則就是盡可能多的選取群(群的同質(zhì)性強(qiáng)),而減少每個(gè)群中要素的數(shù)量。但又可能違背整群抽樣效率的功能第35頁(yè),共82頁(yè),2023年,2月20日,星期四戶(hù)內(nèi)抽樣

within-householdsampling適用于以家庭作為分析單位,以入戶(hù)訪(fǎng)談的方法收集資料入戶(hù)前的抽樣可以采用多段抽樣的方式如市/縣—區(qū)/鄉(xiāng)—街/村—居委會(huì)/組—家庭戶(hù)確定戶(hù)后,如何對(duì)戶(hù)內(nèi)的成年人進(jìn)行選擇?--生日接近法--KISH選擇表第36頁(yè),共82頁(yè),2023年,2月20日,星期四KISH選擇法將調(diào)查表編號(hào)為A,B1,B2,C,,D,E1,E2,F八種,每種表的數(shù)目分別占調(diào)查表總數(shù)的1/6,1/12,1/12,1/6,1/6,1/12,1/12,1/6每個(gè)調(diào)查員配備一套KISH選擇表(一套8種)對(duì)每戶(hù)中成年人進(jìn)行排序和編號(hào):男在前,女在后;年紀(jì)大在前,小在后.按照調(diào)查表上的編號(hào)找出選擇表,根據(jù)家庭人口數(shù)目從選擇表中查出該選個(gè)體的序號(hào).對(duì)這一序號(hào)的成員進(jìn)行調(diào)查.第37頁(yè),共82頁(yè),2023年,2月20日,星期四第38頁(yè),共82頁(yè),2023年,2月20日,星期四概率比率抽樣(PPS抽樣)

probabilityproportionatetosize一種多段整群抽樣(適用于大規(guī)模調(diào)查)其中的群被選取的概率并不相等,其被選中的概率和其規(guī)模大小成比例—根據(jù)群中其子樣本的數(shù)量來(lái)衡量。特點(diǎn)是總體中含量大的部分被抽中的概率也大,可以提高樣本的代表性。

第39頁(yè),共82頁(yè),2023年,2月20日,星期四對(duì)比:EPSEM/PPSEPSEM:equalprobabilityofselectionmethod等概率抽樣選擇城市中的住戶(hù)(假設(shè)100000戶(hù)分散在1000條街道,如何抽取1000戶(hù)居民)1000條街道—挑選100個(gè)街道:10%的選中機(jī)會(huì)假設(shè)每條街道只有100戶(hù)(即規(guī)模相同),則抽10戶(hù)即可,100戶(hù)抽10戶(hù):10%的選中機(jī)會(huì)則城市中每一戶(hù)被選中的概率=0.1*0.1=1%這樣,每戶(hù)人家被選中的概率相同,挑選出來(lái)的樣本對(duì)城市中的所有住戶(hù)來(lái)說(shuō)具有代表性思考:一個(gè)陷阱:如果每條街道戶(hù)數(shù)不同,例如甲居委會(huì)有200戶(hù),乙居委會(huì)只有50戶(hù)。思考:EPSEM抽樣結(jié)果會(huì)怎樣?甲居委會(huì)居民被抽中的概率:100/1000*10/200=0.005乙居委會(huì)居民被抽中的概率:100/1000*10/50=0.02乙居委會(huì)居民被抽中的概率是甲居委會(huì)居民被抽中的概率的4倍第40頁(yè),共82頁(yè),2023年,2月20日,星期四PPS抽樣每一個(gè)元素被抽中的概率=所抽取的群數(shù)*(子群的規(guī)模/總體的規(guī)模)*(平均每個(gè)子群中所要抽取的元素/子群的規(guī)模)甲居委會(huì)居民被抽中的概率:100*200/100000*10/200=0.01乙居委會(huì)居民被抽中的概率:100*50/100000*10/50=0.01第41頁(yè),共82頁(yè),2023年,2月20日,星期四PPS抽樣總結(jié)以階段性的不等概率換取最終的\總體的等概率第42頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣設(shè)計(jì)的原則目的性原則★--以研究目標(biāo)為依據(jù)可測(cè)性原則--能夠從樣本自身計(jì)算出有效的估計(jì)值或抽樣變動(dòng)的近似值??尚行栽瓌t★--在實(shí)踐中切實(shí)可行經(jīng)濟(jì)性原則--考慮人、財(cái)、物、時(shí)間第43頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣是問(wèn)卷調(diào)查的前提抽樣方法選擇的正確與否直接決定著調(diào)查數(shù)據(jù)的可靠程度,同時(shí)也就決定了調(diào)查的成敗。掌握幾個(gè)重要的概念抽樣分布/概率理論/抽樣誤差/置信度和置信區(qū)間第44頁(yè),共82頁(yè),2023年,2月20日,星期四抽樣分布三種不同性質(zhì)的分布一.總體分布二.樣本分布三.抽樣分布第45頁(yè),共82頁(yè),2023年,2月20日,星期四一.總體分布(populationdistribution)

統(tǒng)計(jì)研究對(duì)象的全體稱(chēng)為總體.

實(shí)際問(wèn)題所研究的是總體中個(gè)體的某一特征X

,X

是一個(gè)隨機(jī)變量,而X

的可能取值全體即為總體.稱(chēng)X

的分布為總體分布.

第46頁(yè),共82頁(yè),2023年,2月20日,星期四二.樣本分布(sampledistribution)

樣本中各觀(guān)察值的分布稱(chēng)為樣本分布,也稱(chēng)經(jīng)驗(yàn)分布.樣本分布可以用樣本的頻數(shù)分布來(lái)表示.第47頁(yè),共82頁(yè),2023年,2月20日,星期四三.抽樣分布(samplingdistribution)

統(tǒng)計(jì)量的分布稱(chēng)為抽樣分布.討論的統(tǒng)計(jì)量有樣本均值、樣本比例和樣本方差等.第48頁(yè),共82頁(yè),2023年,2月20日,星期四一個(gè)總體參數(shù)推斷時(shí)統(tǒng)計(jì)量的抽樣分布

一.樣本均值的抽樣分布二.樣本比例的抽樣分布三.樣本方差的抽樣分布第49頁(yè),共82頁(yè),2023年,2月20日,星期四總體參數(shù)parameter—描述總體數(shù)量特征的指標(biāo)??傮w是唯一的,所以參數(shù)也是唯一的;參數(shù)值只有通過(guò)對(duì)總體中的每一個(gè)元素都進(jìn)行調(diào)查或測(cè)量才能得到。樣本統(tǒng)計(jì)量statistic—描述樣本數(shù)量特征的指標(biāo),由樣本計(jì)算而得。由于樣本是隨機(jī)的,所以樣本統(tǒng)計(jì)量是隨機(jī)變量。抽樣的目的就是盡可能通過(guò)統(tǒng)計(jì)值去估計(jì)參數(shù)值。第50頁(yè),共82頁(yè),2023年,2月20日,星期四總體參數(shù)樣本統(tǒng)計(jì)量樣本統(tǒng)計(jì)量公式總體平均數(shù)樣本平均數(shù)總體成數(shù)樣本成數(shù)總體方差樣本方差總體標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差NEXT第51頁(yè),共82頁(yè),2023年,2月20日,星期四

成數(shù)的概念

若總體單位的某種標(biāo)志只有兩種表現(xiàn),總體成數(shù)是指具有某種特征和屬性的單位在全部總體單位重所占比重。記為p。

以代表總體單位中具有某種特征的單位數(shù),代表總體單位中不具有某種特征的單位數(shù),N=N1+N0。有第52頁(yè),共82頁(yè),2023年,2月20日,星期四一.樣本均值的抽樣分布(一)抽樣分布的形成過(guò)程

例設(shè)一個(gè)總體N=4,分別為X1=1,X2=2,X3=3和X4=4,可得總體的均值、方差

現(xiàn)從總體中抽取n=2的簡(jiǎn)單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本.所有不同的樣本為第53頁(yè),共82頁(yè),2023年,2月20日,星期四表所有可能的樣本和樣本均值(n=2)第54頁(yè),共82頁(yè),2023年,2月20日,星期四表樣本均值的分布樣本均值的分布呈現(xiàn)正態(tài)分布,隨著樣本容量n的增大,就越接近正態(tài)分布第55頁(yè),共82頁(yè),2023年,2月20日,星期四從N中抽取n個(gè)樣本,不重復(fù)抽樣樣本數(shù)目為m=N!/(N-n)!n!不重復(fù)抽樣參見(jiàn)書(shū)P122圖6-2—6,第56頁(yè),共82頁(yè),2023年,2月20日,星期四(二)樣本均值的抽樣分布形式

中心極限定理(centrallimittheorem)

設(shè)從均值為μ,方差σ2

的總體中隨機(jī)抽取樣本容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ,方差為的正態(tài)分布.(即全部樣本平均數(shù)的平均數(shù)正好等于總計(jì)的平均數(shù)μ,全部樣本平均數(shù)的標(biāo)準(zhǔn)差(稱(chēng)為標(biāo)準(zhǔn)誤SE)則等于總體標(biāo)準(zhǔn)差除以)抽樣分布是根據(jù)概率的原則而成立的理性分布,它顯示出:從一個(gè)總體中不斷抽取樣本時(shí),各種可能出現(xiàn)的樣本統(tǒng)計(jì)值的分布情況第57頁(yè),共82頁(yè),2023年,2月20日,星期四(三)樣本均值的抽樣分布特征1樣本均值的數(shù)學(xué)期望

2樣本均值的方差(1)重復(fù)抽樣:(2)不重復(fù)抽樣:(6.1)(6.2)(6.3)第58頁(yè),共82頁(yè),2023年,2月20日,星期四二.樣本比例的抽樣分布

總體(或樣本)中具有某種屬性的單位數(shù)與單位總數(shù)之比(1)總體比例:(2)樣本比例:第59頁(yè),共82頁(yè),2023年,2月20日,星期四樣本比例的抽樣分布1樣本比例的數(shù)學(xué)期望2樣本比例的方差(1)重復(fù)抽樣:(2)不重復(fù)抽樣:(6.4)(6.5)(6.6)第60頁(yè),共82頁(yè),2023年,2月20日,星期四率的標(biāo)準(zhǔn)誤

用抽樣方法進(jìn)行研究時(shí),必然存在抽樣誤差。率的抽樣誤差大小可用率的標(biāo)準(zhǔn)誤來(lái)表示,計(jì)算公式如下:

式中:σp為率的標(biāo)準(zhǔn)誤,π為總體陽(yáng)性率,n為樣本含量。因?yàn)閷?shí)際工作中很難知道總體陽(yáng)性率π,故一般采用樣本率p來(lái)代替,而上式就變?yōu)?/p>

標(biāo)準(zhǔn)誤的計(jì)算第61頁(yè),共82頁(yè),2023年,2月20日,星期四河北省組織高碘地方性甲狀腺腫流行病學(xué)調(diào)查,作者調(diào)查了飲用不同碘濃度井水居民甲狀腺腫的患病情況,其中有兩組資料如下表,試分別求出率的標(biāo)準(zhǔn)誤。水中含碘量均數(shù)(μg/L)受檢人數(shù)患病人數(shù)患病率(%)458.253315591.78825.9532151805.60舉例第62頁(yè),共82頁(yè),2023年,2月20日,星期四計(jì)算法:第一組:n1=3315,p1=1.78%=0.0178

1-p1=1-0.0178=0.9822

第二組:n2=3215,p2=5.60%=0.056

1-p2=1-0.056=0.944第63頁(yè),共82頁(yè),2023年,2月20日,星期四概率理論作用概率理論提供抽樣誤差samplingerror的計(jì)算公式,以估計(jì)這些樣本統(tǒng)計(jì)值與真實(shí)值的差距.—抽樣誤差如果我們由總體內(nèi)隨機(jī)抽取許多獨(dú)立的樣本,這些隨機(jī)抽樣所得到的統(tǒng)計(jì)結(jié)果將以一種可知的方式分布在總體參數(shù)附近.那么抽樣結(jié)果集中在總體參數(shù)多大的范圍內(nèi)呢?—置信水平和置信區(qū)間第64頁(yè),共82頁(yè),2023年,2月20日,星期四概率理論明確指出:

一定比例的樣本估計(jì)值會(huì)落在總體參數(shù)值的某個(gè)增量?jī)?nèi)(一個(gè)標(biāo)準(zhǔn)誤SE就是一個(gè)增加單位)---置信區(qū)間第65頁(yè),共82頁(yè),2023年,2月20日,星期四置信區(qū)間與置信水平置信水平confidentlevel:總體參數(shù)值落在樣本統(tǒng)計(jì)值某一區(qū)間的概率(把握程度)。它反映抽樣的可靠性程度。如置信度為95%:指對(duì)某一總體進(jìn)行的同樣形式的100次抽樣中,總體值將有95次都落在樣本值周?chē)哪骋粎^(qū)間內(nèi)。在其他條件一定的情況下,置信度越高,推論的把握性越大,所要求的樣本規(guī)模就越大。置信區(qū)間confidentinterval:估測(cè)總體參數(shù)值的范圍.它是指在一定的置信度下,樣本值與總體值之間的誤差范圍。它反映的是抽樣的精確程度。范圍越大,精確性程度越低。在其他條件一定的情況下,置信區(qū)間越小,精確性程度要求就越高,即樣本值與總體值之間的誤差范圍越小,則所要求的樣本規(guī)模就越大。舉例:我們有95%的信心說(shuō),35-45%的投票者會(huì)投票給A第66頁(yè),共82頁(yè),2023年,2月20日,星期四由于平均數(shù)的抽樣分布是正態(tài)分布,其平均數(shù)的次數(shù)就是正態(tài)曲線(xiàn)下的面積.而根據(jù)概率統(tǒng)計(jì)論,正態(tài)分布曲線(xiàn)下的面積是可以用數(shù)學(xué)方法推算的.有90%落在u±1.65SE之間有95%落在u±1.96SE之間有98%落在u±2.33SE之間有99%落在u±2.58SE之間我們可以這樣說(shuō):對(duì)于任何一次抽樣來(lái)說(shuō),其樣本統(tǒng)計(jì)值落在總體參數(shù)值正負(fù)2個(gè)標(biāo)準(zhǔn)誤之間的概率是95%第67頁(yè),共82頁(yè),2023年,2月20日,星期四總體率的可信區(qū)間由于樣本率與總體率之間存在著抽樣誤差,所以也需根據(jù)樣本率來(lái)推算總體率所在的范圍,根據(jù)樣本含量n和樣本率P的大小不同,分別采用下列2種方法:

第68頁(yè),共82頁(yè),2023年,2月20日,星期四正態(tài)近似法當(dāng)樣本含量n足夠大,且樣本率P和(1-p)均不太小,如np或n(1-p)均≥5時(shí),樣本率的分布近似正態(tài)分布,則總體率的可信區(qū)間可由下列公式估計(jì):總體率(π)的95%可信區(qū)間:p±1.96sp總體率(π)的99%可信區(qū)間:p±2.58sp查表法當(dāng)樣本含量n較小,如n≤50,特別是p接近0或1時(shí),則按二項(xiàng)分布原理確定總體率的可信區(qū)間,其計(jì)算較繁,讀者可根據(jù)樣本含量n和陽(yáng)性數(shù)X參照專(zhuān)用統(tǒng)計(jì)學(xué)介紹的二項(xiàng)分布中95%可信限表。樣本率的分布第69頁(yè),共82頁(yè),2023年,2月20日,星期四Q:如何才能減少標(biāo)準(zhǔn)誤?P(1-p)的值(當(dāng)P=0.5時(shí),標(biāo)準(zhǔn)誤最大;而當(dāng)P=1/0時(shí),標(biāo)準(zhǔn)誤最小)與樣本容量N成反比:當(dāng)樣本的容量增加4倍時(shí),標(biāo)準(zhǔn)誤會(huì)減少一半如何控制率的抽樣誤差?第70頁(yè),共82頁(yè),2023年,2月20日,星期四如何控制抽樣誤差?從同質(zhì)總體中抽取樣本比從異值總體中樣本所產(chǎn)生的抽樣誤差小.如果總體中99%的人同意某個(gè)陳述,任何概率抽樣的樣本結(jié)果,嚴(yán)重偏離此同意程度的可能是非常小的。相對(duì)來(lái)說(shuō),如果總體中只有50%的人同意某陳述,抽樣誤差就大多了.抽樣中的分層抽樣就是基于此原理來(lái)減少抽樣誤差.第71頁(yè),共82頁(yè),2023年,2月20日,星期四例子假設(shè)某研究大學(xué)生對(duì)校規(guī)的贊成程度,總體參數(shù)值是50%的學(xué)生贊成.每次抽樣的學(xué)生為100名.計(jì)算:標(biāo)準(zhǔn)誤是多少?我們有95%的信心保證樣本統(tǒng)計(jì)值落在參數(shù)值()個(gè)標(biāo)準(zhǔn)誤之間,即贊成學(xué)生的比例將介于()-()之間如果我們希望有95%的信心讓研究結(jié)果與總體參數(shù)值的差異在正負(fù)5%的范圍內(nèi),那么樣本容量至少要多少人?總體率(π)的95%可信區(qū)間:p±1.96sp總體率(π)的99%可信區(qū)間:p±2.58sp第72頁(yè),共82頁(yè),2023年,2月20日,星期四答案5%正負(fù)2個(gè)標(biāo)準(zhǔn)誤之間,40%-60%400第73頁(yè),共82頁(yè),2023年,2月20日,星期四概率抽樣總結(jié)概率抽樣的基本原則是:當(dāng)我們從總體中隨機(jī)抽取樣本,用樣本的平均值來(lái)推論總體平均值時(shí),我們發(fā)現(xiàn),樣本量越大,抽樣誤差就越小。第74頁(yè),共82頁(yè),2023年,2月20日,星期四概率抽樣總結(jié)樣本量越大,則成本就越高。根據(jù)數(shù)理統(tǒng)計(jì)規(guī)律,樣本量增加呈直線(xiàn)遞增的情況下

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論