版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
PAGEPAGE76抽樣講義壹、導(dǎo)論抽樣的意思顧名名思義,就是是從全體之中中抽取一部分分個(gè)體做為樣樣本,借著對對樣本的觀察察,再對全體體做出推論。譬譬如說,我們們想知道某個(gè)個(gè)地區(qū)七歲到到十二歲的小小孩在除夕夜夜平均每人收收了多少壓歲歲錢,這些錢錢又跑到那里里去了;或是是我們的商品品檢驗(yàn)單位想想要知道有一一批貨柜的棒棒球是不是每每一個(gè)都符合合使用標(biāo)準(zhǔn);;或是水庫管管理當(dāng)局想要要知道到底水水庫里有多少少魚。在理論論上,我們當(dāng)當(dāng)然可以不厭厭其煩地針對對母體所有成成員一個(gè)一個(gè)個(gè)觀察以取得得數(shù)據(jù),但在在實(shí)際上我們們知道這很不不容易做到,事事實(shí)上在有些些情況下我們們還非得做抽抽樣調(diào)查不可可。為什么要抽樣??(一)因?yàn)橐?jié)節(jié)省經(jīng)費(fèi),((二)因?yàn)橐?jié)省省時(shí)間。這兩兩個(gè)理由很容容易了解,如如果要訪問全全體,則所耗耗費(fèi)的時(shí)間和和經(jīng)費(fèi)是相當(dāng)當(dāng)可觀的,而而且有許多調(diào)調(diào)查性質(zhì)具有有時(shí)間性,如如果拖得太長長就會失去時(shí)時(shí)效。例如想想知道學(xué)生們們對某一項(xiàng)考考試的反應(yīng)如如何,就非得得打鐵趁熱,在在短時(shí)間內(nèi)完完成調(diào)查不可可。(三)因?yàn)橐岣吒哔Y料的準(zhǔn)確確性,這是由由于全體調(diào)查查牽涉到相當(dāng)當(dāng)大量而又繁繁雜的作業(yè),動(dòng)動(dòng)員不少人力力、物力和行行政管道,增增加許多犯錯(cuò)錯(cuò)的機(jī)會,導(dǎo)導(dǎo)致取得的數(shù)數(shù)據(jù)質(zhì)量不佳佳,而抽樣調(diào)調(diào)查工作涉及及的作業(yè)負(fù)擔(dān)擔(dān)相對地輕松松許多,參與與人員因?yàn)檩^較少,好控制制,使得數(shù)據(jù)據(jù)的品質(zhì)也較較好。事實(shí)上上聯(lián)合國的專專家們也發(fā)現(xiàn)現(xiàn),在一些教教育較不發(fā)達(dá)達(dá)的地區(qū),人人口普查的資資料就不如抽抽樣調(diào)查來得得好。(四)因?yàn)橐〉玫幂^詳盡的數(shù)數(shù)據(jù),譬如我我們想要知道道七歲到十二二歲小孩的壓壓歲錢流到那那里去,如果果進(jìn)行全體調(diào)調(diào)查的話,由由于人力和物物力的限制,我我們只能針對對每一個(gè)小孩孩取得一點(diǎn)點(diǎn)點(diǎn)資料,但是是如果是抽樣樣調(diào)查,則因因?yàn)檎{(diào)查對象象不多,反而而可以很從容容的取得細(xì)節(jié)節(jié)資料提供分分析之用。每每十年一次的的人口普查,除除了全體都查查之外,總是是還要再抽取取少數(shù)樣本做做更詳盡的訪訪問就是這個(gè)個(gè)道理。(五)因?yàn)橐獪p輕輕損失,例如如汽車車身的的耐撞試驗(yàn),罐罐頭食品的安安全檢查,或或是電燈泡壽壽命的質(zhì)量管管理檢驗(yàn)。這這些調(diào)查本身身就具有破壞壞性,總不能能每部汽車都都撞一撞,或或是每個(gè)罐頭頭都打開檢查查,這種情形形非得進(jìn)行抽抽樣檢驗(yàn)不可可,而且樣本本數(shù)目還要控控制到越少越越好。二、機(jī)率抽樣與與非機(jī)率抽樣樣在談抽樣設(shè)計(jì)之之前,讓我們們先厘清一下下這里所談的的抽樣是指機(jī)機(jī)率抽樣,也也就是說:「「在完整定義義的母體之中中,每一個(gè)個(gè)個(gè)體都有一個(gè)個(gè)不為零的中中選機(jī)會」。凡凡不屬于這個(gè)個(gè)定義范圍的的都是非機(jī)率率抽樣。常見見的非機(jī)率抽抽樣方法,綜綜合Kishh(19655)和Cochrran(19977)的說說法,有下列列幾種:(一)偶遇遇樣本(haaphazaardsaample)或或便利抽樣(convenientsample),是碰到誰就選誰的抽樣,做研究的人并不在乎調(diào)查對象是否有代表性,例如生物學(xué)家解剖青蛙,心理學(xué)家觀察人們對聲光刺激的反應(yīng),醫(yī)生征求自愿者做藥物反應(yīng)的實(shí)驗(yàn)等等。(二)立意意選樣要照顧每個(gè)省的情況。不得已而為之。造成了不等機(jī)率抽樣。所以要加權(quán)。立意選樣按照母體的資料來分層。事后分層把母體的結(jié)構(gòu)找出來(purpoosivesamplling)或或判斷選樣(要照顧每個(gè)省的情況。不得已而為之。造成了不等機(jī)率抽樣。所以要加權(quán)。立意選樣按照母體的資料來分層。事后分層把母體的結(jié)構(gòu)找出來(三)自愿愿樣本(voolunteeersuubjectts),聽任任自動(dòng)送上門門來的人組成成樣本群。(四)配額額選樣(quuotassampliing),依依照母體的人人口特征按比比例分配樣本本數(shù),在配額額之內(nèi)進(jìn)行非非機(jī)率抽樣,也也就是把調(diào)查查對象依照特特征分類后,根根據(jù)各類別的的百分比每類類立意選樣至至額滿為止。例例如某個(gè)地區(qū)區(qū)七歲到十二二歲的小孩之之中,約有一一半是男的,另另一半是女的的,有四分之之一住在都市市,四分之三三住在鄉(xiāng)村。如如果樣本數(shù)是是一千,則根根據(jù)上述各類類別的比例先先算出各種特特征交叉匯編編后每一組合合的配額,在在配額內(nèi)立意意選出符合該該類別的人即即可。這樣做做可以節(jié)省時(shí)時(shí)間和資源,而而又維持了樣樣本的「代表表性」。(五)雪球球抽樣(snnowballledssamplee),先找到到原始受訪者者,然后再從從受訪者所提提供的信息找找到其它受訪訪者。以上這些非非機(jī)率抽樣方方法由于沒有有機(jī)率做推論論基礎(chǔ),大多多只能做描述述性的用途,而而不能對全體體做科學(xué)的估估計(jì)或驗(yàn)證理理論的假設(shè)檢檢定,因?yàn)樗鼈兲岵怀龃_確切的誤差數(shù)數(shù)據(jù),無法計(jì)計(jì)算樣本數(shù)據(jù)據(jù)的準(zhǔn)確程度度。貳、抽樣的基本本原理假設(shè)某個(gè)地區(qū)七七歲到十二歲歲的小孩共有有兩百四十萬萬人,如果我我們要抽取一一千個(gè)人來調(diào)調(diào)查有關(guān)他們們的壓歲錢收收入和支出情情形,怎么抽抽才會「準(zhǔn)」」呢?用常識識來判斷,總總要有一些都都市人,一些些鄉(xiāng)下人,要要男生,也要要女生,要富富豪子弟,也也要清寒子弟弟等等。這些些顧慮都是擔(dān)擔(dān)心萬一抽得得不好,變成成瞎子摸象,整整個(gè)推論就失失效了。在談抽樣原原理之前,首首先讓我們先先熟悉幾個(gè)名名詞和符號。資料的中心點(diǎn)和和離散程度::平均數(shù)和標(biāo)標(biāo)準(zhǔn)差大家都知道道平均數(shù)是什什么,它是所所有個(gè)案觀察察值的總和除除以累加的個(gè)個(gè)案數(shù),也就就是我們通常常說的一組資資料的中心點(diǎn)點(diǎn)。我們把全全體的平均數(shù)數(shù)寫成μ(念成mu)。它的的定義是:=(x1+x2+…++xN)/NN……………(2.1)式中N是全體的的總個(gè)案數(shù),xi是第i個(gè)個(gè)案的觀察值。其次一個(gè)個(gè)名詞是標(biāo)準(zhǔn)準(zhǔn)差σ(念成siggma),是是衡量一組資資料中各個(gè)點(diǎn)點(diǎn)和中心點(diǎn)之之間的「標(biāo)準(zhǔn)準(zhǔn)距離」。也也就是衡量一一組數(shù)據(jù)中各各點(diǎn)的集中或或離散程度。它它的定義是::……………(2.2)從定義上來看,它它是每一個(gè)點(diǎn)點(diǎn)和中心點(diǎn)μμ的差,平方方后累加起來來取平均數(shù),再再開根號還原原。平方的原原因是要避免免各點(diǎn)和中心心點(diǎn)的差正負(fù)負(fù)相抵。二、正態(tài)分布和和中央極限定定理假設(shè)這個(gè)地區(qū)兩兩百多萬個(gè)七七歲到十二歲歲小孩的壓歲歲錢平均數(shù)是是μ,標(biāo)準(zhǔn)差是是σ?,F(xiàn)在我們們要抽取一千千個(gè)樣本,從從樣本觀察值值來估計(jì)μ,一個(gè)很自自然的選擇是是用樣本的平平數(shù)來估計(jì),讓讓我們把樣本本的平均數(shù)寫寫成(念成XXBar,Bar是橫杠杠的意思),它它的定義是::…………………(2.3)式中n是樣本數(shù)數(shù)。如果我們使用一一套機(jī)率抽樣樣的作業(yè)程序序抽出一千人人,取得他們們的觀察值后后會得到一個(gè)個(gè)平均數(shù),把把它寫成,表表示是第一次次抽樣得到的的結(jié)果。現(xiàn)在在把整個(gè)作業(yè)業(yè)重做一遍,我我們可能得到到不同的一千千個(gè)人,因?yàn)闉樵跈C(jī)率抽樣樣之下每個(gè)人人都有中選的的機(jī)會,重新新做一遍就可可能抽到不同同的人。我們們把第二次抽抽樣的結(jié)果寫寫成。當(dāng)然這這個(gè)不一定會會和相同,就就像兩顆子彈彈不會射中相相同的一點(diǎn)一一樣。如此一一直做下去,如如果我們做KK次的話,會會有一共有KK個(gè)樣本平均均數(shù)。在數(shù)學(xué)學(xué)上有個(gè)中央央極限定理,它它的內(nèi)容是::在樣本數(shù)足足夠大的情況況下,如果把把這K個(gè)排起起來,它們會會形成正態(tài)分布,而而這些樣本平平均數(shù)的平均均數(shù)會等于μμ,這些樣本本平均數(shù)的標(biāo)標(biāo)準(zhǔn)差會等于于。什么是正態(tài)分布呢??它是一種鐘鐘形,以平均均數(shù)為中心、左左右對稱的圖圖形分布。譬譬如說,全校校同學(xué)的身高高由低而高排排列起來,會會有少數(shù)人很很矮或很高,大大部分人集中中在中間,而而越靠近平均均身高的人會會越多,形成成像鐘形的樣樣子。事實(shí)上上,我們可以以利用正態(tài)分布的特特性計(jì)算出身身高在某一高高度之間者到到底有多少人人。這是因?yàn)闉楦鶕?jù)正態(tài)分布,有有68%的人會會落在平均數(shù)數(shù)左右一個(gè)標(biāo)標(biāo)準(zhǔn)差距離之之內(nèi),有955%的人會落落在平均數(shù)左左右兩個(gè)標(biāo)準(zhǔn)準(zhǔn)差之內(nèi),而而有99.77%的人會落落在平均數(shù)左左右三個(gè)標(biāo)準(zhǔn)準(zhǔn)差范圍之內(nèi)內(nèi)的緣故。三、點(diǎn)估計(jì)、區(qū)區(qū)間估計(jì)、和和信賴系數(shù)根據(jù)中央極限定定理,我們知知道如果做很很多次抽樣的的話會得到很很多個(gè),而這這些排起來會會形成正態(tài)分布,它它們的平均數(shù)數(shù)是μ,標(biāo)準(zhǔn)差是是。換句話說說,有68%的會落在之間,有有95%的會落在之間,有有99.7%的的會落在之間。把上述的說法稍稍為轉(zhuǎn)換一下下就變成:有有68%的會包含著著μ,有95%的會包含著著μ,有99.77%的會包含著著μ,而這就是是抽樣和估計(jì)計(jì)最根本的道道理。我們從從全體之中以以機(jī)率抽樣方方式抽?。顐€(gè)個(gè)樣本,取得得樣本觀察值值,計(jì)算它們們的平均數(shù),然然后加減兩倍倍的得到一組組上下區(qū)間,然然后說:我們們有95%的信心心,這個(gè)上下下區(qū)間一定會會包含著全體體的平均數(shù)μμ。如果我們們?nèi)圆环判牡牡脑?,可以用用加減三倍的的,那么這組組區(qū)間包含著著μ的信賴度就就有99.77%。用樣本平均數(shù)來來估計(jì)全體的的平均數(shù)μ稱為點(diǎn)估計(jì)計(jì)。點(diǎn)估計(jì)命命中目標(biāo)的機(jī)機(jī)會是很低的的,因?yàn)橹粦{憑著少數(shù)樣本本觀察值得到到的結(jié)果要和和全體的平均均數(shù)吻合幾乎乎是不可能的的事,所以我我們最好不要要用點(diǎn)估計(jì),而而要用區(qū)間估估計(jì)。根據(jù)中中央極限定理理和正態(tài)分布的特特性我們知道道這個(gè)區(qū)間包包含著全體平平均數(shù)μ的機(jī)會有688%,的機(jī)會有有95%,而的機(jī)會會有99.77%!真正可可靠的估計(jì)勢勢必要用區(qū)間間估計(jì),只有有這樣做我們們才可以知道道估計(jì)準(zhǔn)確的的程度,而這這68%,95%,99.77%就稱做是是信賴系數(shù)。說說得更確切一一點(diǎn),以955%信賴系數(shù)數(shù)為例,它的的意思是:如如果我們進(jìn)行行一百次獨(dú)立立的抽樣估計(jì)計(jì),會有一百百個(gè)樣本平均均數(shù),也會有有一百個(gè)區(qū)間間估計(jì),而這這一百個(gè)區(qū)間間估計(jì)里會有有95個(gè)正確地地包含著全體體平均數(shù)μ。實(shí)際上我我們不會做一一百次抽樣,而而是只做一次次,所以說這這一次抽樣而而來的區(qū)間估估計(jì)會包含著著μ的機(jī)會是955%,信賴系系數(shù)越高,估估計(jì)的區(qū)間也也就越寬,這這是高信賴系系數(shù)所必須付付出的代價(jià)。譬譬如我們估計(jì)計(jì)全國七歲到到十二歲小孩孩的壓歲錢平平均數(shù)是在110元到10000元之間。這這個(gè)估計(jì)即使使有99.77%的信賴度度也沒有什么么用,因?yàn)檫@這段區(qū)間實(shí)在在太寬了,如如果是1000元到120元之間間,而且信賴賴系數(shù)是999.7%,這這就是個(gè)非常常好的估計(jì)。我我們學(xué)習(xí)抽樣樣方法就是要要使這個(gè)信賴賴區(qū)間盡可能能的縮小。剛剛提到過一個(gè)個(gè)好的估計(jì)必必須既準(zhǔn)又穩(wěn)穩(wěn),我們用來來估計(jì)μ,如果做很很多次的話,會會有很多個(gè)。中中央極限定理理已經(jīng)給我們們保證,這些些的平均數(shù)會會等于μ,所以是「「準(zhǔn)」的估計(jì)計(jì)已無問題,但但是這些是否否都靠近在一一起,稱得上上是「穩(wěn)」呢呢?這就要看看這些的標(biāo)準(zhǔn)準(zhǔn)差了。我們們已經(jīng)知道的的標(biāo)準(zhǔn)差是,其其中σ是全體的標(biāo)標(biāo)準(zhǔn)差,n是是樣本數(shù),把把樣本數(shù)加大大會使得標(biāo)準(zhǔn)準(zhǔn)差變小,所所以我們馬上上領(lǐng)悟到樣本本數(shù)越大,估估計(jì)也就越穩(wěn)穩(wěn)。其次,σσ是全體數(shù)據(jù)據(jù)的標(biāo)準(zhǔn)差,我我們并不知道道它到底是多多少,在區(qū)間間估計(jì)里我們們也需要用到到它,因此為為了要知道估估計(jì)的準(zhǔn)確程程度,連全體體資料的σ也要一起估估計(jì)才行。至少有兩種方法法來估計(jì)σ,一是用樣樣本觀察值的的標(biāo)準(zhǔn)差,它它的定義是::……(2.4)在數(shù)學(xué)上可以證證明用來估計(jì)計(jì)是合乎「準(zhǔn)準(zhǔn)」的要求的的,但是這個(gè)個(gè)方法必須做做完抽樣,取取得樣本數(shù)據(jù)據(jù)后才能派上上用場,有時(shí)時(shí)很不方便事事前的規(guī)劃和和設(shè)計(jì)。二是是用速簡方式式,我們知道道通常的數(shù)據(jù)據(jù)若以平均數(shù)數(shù)為中心,左左右各三個(gè)標(biāo)標(biāo)準(zhǔn)差的距離離大概可以網(wǎng)網(wǎng)羅絕大部分分的數(shù)據(jù)。所所以我們可以以用常識判斷斷,找出這組組資料可能的的最大數(shù)和最最小數(shù)的差,再再除以六,即即是我們對σσ的速簡估計(jì)計(jì),因?yàn)閺淖钭钚?shù)到最大大數(shù)之間大概概有六個(gè)標(biāo)準(zhǔn)準(zhǔn)差的距離。舉舉例來說:壓壓歲錢最少的的大概是零,最最大的大概有有一萬元,差差距是一萬,除除以六得1667元,這就是是我們對σ的估計(jì)。先先不論我們抽抽樣得到的是是多少,在規(guī)規(guī)畫作業(yè)時(shí)我我們就可以知知道,如果樣樣本數(shù)是一千千,那么955%信賴度的的區(qū)間寬度是是,估計(jì)是或是是±105元,這這個(gè)寬度通常常也叫做抽樣樣誤差。抽樣誤差和樣本本數(shù)的決定習(xí)慣上我們們都以95%的信賴賴系數(shù)做為一一般抽樣設(shè)計(jì)計(jì)的常模,因因此公式就成成為我們決定定樣本數(shù)和誤誤差大小的依依據(jù)。上述的的例子說明了了如果樣本數(shù)數(shù)是一千,則則抽樣誤差是是±105元。若若希望把誤差差控制在±50元之內(nèi),那那么至少需要要多少樣本呢呢?我們可以以代入公式,計(jì)計(jì)算得到n應(yīng)應(yīng)該是44446人。另外一個(gè)比比較快速的估估計(jì)方式是使使用百分比。假假設(shè)我們想調(diào)調(diào)查的是全體體國民之中有有多少百分比比的人吸煙,則則以前的平均均數(shù)現(xiàn)在變成成百分比,亦亦即從0到11之間的一個(gè)個(gè)數(shù)字。樣本本百分比的標(biāo)標(biāo)準(zhǔn)差則跟著著這個(gè)百分比比變化,但是是絕對不會超超過,P(1-P)開方,最大值0.5*0.5為了保險(xiǎn)起起見,我們就就用來代入,換換句話說,原原來的公式現(xiàn)現(xiàn)在變成,這這是估計(jì)的最最大抽樣誤差差。例如樣本本數(shù)為4000時(shí),抽樣誤誤差為;樣本本數(shù)為9000時(shí),抽樣誤誤差是±0.0333;同理,樣樣本數(shù)一千六六百時(shí),抽樣樣誤差是正負(fù)負(fù)二點(diǎn)五個(gè)百百分點(diǎn);樣本本數(shù)二千五百百時(shí)抽樣誤差差是正負(fù)二個(gè)個(gè)百分點(diǎn)。我我們可以看到到樣本數(shù)在一一千到一千六六百時(shí)最劃得得來;若再往往上加,經(jīng)費(fèi)費(fèi)會增加很多多,但抽樣誤誤差卻減少得得很有限,并并不經(jīng)濟(jì),所所以一千到一一千六百是最最常見到的樣樣本數(shù)。P(1-P)開方,最大值0.5*0.5還有一件值得注注意的事情是是:樣本數(shù)的的大小和母體體總數(shù)的大小小并沒有什么么關(guān)系。這似似乎出乎一般般人的意料之之外。在理論論上,如果樣樣本數(shù)和母體體數(shù)的比例,也也就是抽取率率,在百分之之五以下的話話,樣本數(shù)的的決定幾乎不不受母體數(shù)的的影響。美國國有三億人,蓋洛洛普民意調(diào)查查經(jīng)常把樣本本數(shù)定在一千千二百左右,英英國有六千萬萬人,要達(dá)到到相同的準(zhǔn)確確度也需要相相同的樣本數(shù)數(shù),北京大學(xué)學(xué)有三萬學(xué)生生,同樣的也也需要一樣多多的樣本數(shù)。參、單純隨機(jī)抽抽樣在介紹抽樣方法法之前,讓我我們先認(rèn)識一一下隨機(jī)數(shù)表表(如附錄表表一)。這個(gè)個(gè)表是根據(jù)兩兩個(gè)原則做出出來的:(一)從0到9任任何一個(gè)數(shù)字字在任何位置置出現(xiàn)的機(jī)會會都是一樣的的。(二)每一個(gè)數(shù)字字出現(xiàn)在任何何一個(gè)位置并并不影響其它它數(shù)字出現(xiàn)在在其它的位置置。換句話說說,每一個(gè)數(shù)數(shù)字的出現(xiàn)都都是獨(dú)立的,從從這兩個(gè)特性性我們可以引引申到:(三)從00,001,02,到98,99任何兩位數(shù)出現(xiàn)在一起的機(jī)會都是相等的。(四)從000,001,到998,999任何三位數(shù)出現(xiàn)在一起的機(jī)會都是相等的。(五)以此類推到更多位數(shù)。我們將透過過以下抽樣方方法的介紹來來熟悉隨機(jī)數(shù)數(shù)表的使用。一、單純隨機(jī)抽抽樣的定義單純隨機(jī)抽樣(simplerandomsampling,srs)的定義是:任何樣本數(shù)為n的樣本組合中選的機(jī)率都是相等的。這個(gè)方法有理論上的用途,但實(shí)際上使用的并不多。二、單純隨機(jī)抽抽樣的執(zhí)行把全體所有成員員從1到N編編號,然后依依隨機(jī)數(shù)表抽抽?。顐€(gè)號碼碼。例如從四四千人中抽五五個(gè)人,把所所有人自1到到4000編編號,然后用用隨機(jī)數(shù)表隨隨便選一行開開始,假設(shè)我我們選第三行行,由于40000是四位位數(shù),所以我我們一次要用用四個(gè)數(shù)字以以使得從00001到40000之間的的每一個(gè)號碼碼都有相同的的中選機(jī)會。自自上至下第三三行起自左向向右,所有的的數(shù)字都依次次算入,它們們是45466,77177,09777,55800,00955,32866,32944,85822,22699,00566,52711,等。把把超過40000的號碼舍舍去,我們有有0977,00095,33286,33294,22269五個(gè)個(gè)號碼中選,代代表這五個(gè)號號碼的人就是是我們的樣本本。三、對母體平均均數(shù)的估計(jì)=i/n(3.1)四、的變異數(shù)數(shù)估計(jì)(抽出出不放回)()=s2/n((N-n)/N)(3.2)式中ss2=(yi-)2/(n-11)是樣本變異異數(shù)。五、對母體百分分比的估計(jì)=i/n(3.3)式中yi=1如果第i個(gè)個(gè)案具備備該特征,yi=0如果第i個(gè)個(gè)案不具具備該特征。六、的變異數(shù)數(shù)估計(jì)(抽出出不放回)()=((1-)/n--1)((N-n)/N)……(3.4)肆、等距抽樣SSYS比較好好用一、等距抽樣的的定義等距抽樣(syystemaaticssampliing)也有有人稱它為系系統(tǒng)抽樣。它它是先把全體體總數(shù)N除以以樣本數(shù)n,得得到K,也就就是每間隔KK個(gè)抽一個(gè)的的意思,再用用隨機(jī)數(shù)表自自1到K選一一個(gè)隨機(jī)數(shù)RR,則R,RR+K,R++2K,,RR+(n-11)K等號碼碼中選。例如如四千人抽五五人,K=44000/55=800,每每隔800個(gè)個(gè)抽一個(gè),自自1到8000選一個(gè)隨機(jī)機(jī)數(shù)。假設(shè)我我們自隨機(jī)數(shù)數(shù)表第五行開開始,8000是三位數(shù),所所以我們要用用三位數(shù),自自上至下第五五行,自左向向右,第一個(gè)個(gè)是955太太大舍去,第第二個(gè)是9229,也太大大舍去,第三三個(gè)是4000,所以編號號400,11200,22000,22800,33600,這這五個(gè)人中選選。如果K不是是整數(shù),我們們可以四舍五五入取整數(shù),也也可以用「借借一位小數(shù)」」的方法,也也就是把所有有的數(shù)字都向向后挪一位數(shù)數(shù),包括K值、隨機(jī)數(shù)數(shù)值在內(nèi),抽抽出之后再將將此一小數(shù)去去掉,如此則則不會出現(xiàn)多多抽或少抽一一個(gè)樣本的情情形。例如NN=50,n=6,K=8.333,借1位小數(shù),取取K=83,由1到83取一個(gè)隨隨機(jī)隨機(jī)數(shù)553,則得到到53、136、219、302、385、468等五個(gè)個(gè)樣本,將個(gè)位數(shù)無無條件刪去,則則中選的樣本本是第5,13,21,30,38,46等五個(gè)。二、母體清冊((抽樣框可以有有形也可以無無形)(framee)的排列次序序無次序汽車通過十字路口可以亂抽無次序汽車通過十字路口可以亂抽=0\有次序負(fù)design<1(周期性正)公共汽車車的乘客,百百貨公司的顧顧客無形學(xué)學(xué)校的學(xué)生有有形等距抽樣的效果果和據(jù)以抽樣樣的母體清冊冊(framme)的排列列次序有很大大的關(guān)系。理理論上,等距距抽樣的樣本本平均數(shù)變異異數(shù)是VV(sy)=〔1+(n-11)〕2/n(4.1)式中是是「群內(nèi)相關(guān)關(guān)系數(shù)」(iintracclusteercorrrelattion)=E(yij-)(yij’-)/E(yij-)2(4.2)理論上,當(dāng)母體清冊呈無無次序狀態(tài)完完全隨機(jī)方式式排列時(shí),=00,樣本平均均數(shù)的變異數(shù)數(shù)完全等于單單純隨機(jī)抽樣樣下樣本平均均數(shù)的變異數(shù)數(shù),估計(jì)公式式可以直接引引用上一節(jié)的的所有公式(3.1)至(3.4)。當(dāng)母體清冊呈有次序排列時(shí),是負(fù)值,樣本平均數(shù)的變異數(shù)比單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù)還要小,引用上述公式形成高估。當(dāng)母體清冊呈周期性排列時(shí),是正值,樣本平均數(shù)的變異數(shù)比單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù)還要大,引用上述公式形成低估。例如在有次序排排列的情況下下:N=9,n=3,K=3,=1,2,3,4,5,6,7,8,9;=5,r=1時(shí)時(shí),中選1,4,7,平均數(shù)為為4,其群內(nèi)組組合為(1,4)(11,7)(44,7);r=2時(shí)時(shí),中選2,5,8,平均數(shù)為為5,其群內(nèi)組組合為(2,5)(22,8)(55,8);r=3時(shí)時(shí),中選3,6,9,平均數(shù)為為6,其群內(nèi)組組合為(3,6)(33,9)(66,9)。另一個(gè)例子是母母體清冊在周周期性排列的的情況下:N=9,nn=3,K=33,=1,4,7,2,5,8,3,6,9;==5,r=1時(shí)時(shí),中選1,2,3,平均數(shù)為為2,其群內(nèi)組組合為(1,2)(11,3)(22,3);r=2時(shí)時(shí),中選4,5,6,平均數(shù)為為5,其群內(nèi)組組合為(4,5)(44,6)(55,6);r=3時(shí)時(shí),中選7,8,9,平均數(shù)為為8,其群內(nèi)組組合為(7,8)(77,9)(88,9);所以在母體清冊冊有次序排列列的情況下,等等距抽樣的中中選樣本不但但可以自動(dòng)反反映母體的代代表性(或母母體結(jié)構(gòu))KK分之一照相相,也可以降降低抽樣誤差差。在幾乎大大部分的母體體清冊都計(jì)算算機(jī)化之后,排排序容易,等等距抽樣勢將將成為主流趨趨勢。從另一一方面來看,母母體清冊如果果是在周期性性排列的情況況下,這種情情況大多是時(shí)時(shí)間序列或是是經(jīng)濟(jì)方面的的數(shù)據(jù),也有有可能是有規(guī)規(guī)則性的組合合如軍隊(duì)、中中小學(xué)生等,為正值,抽樣誤差可能非常大,解決的辦法是抽取多個(gè)隨機(jī)數(shù),例如有一組周期性排列的數(shù)據(jù),N=1000,n=10,K=100,若利用等距抽樣,原為1至k抽一個(gè)隨機(jī)數(shù),現(xiàn)在改采1至rk抽r個(gè)隨機(jī)數(shù)。若r=2,則為1-200抽2個(gè)r,假設(shè)抽到隨機(jī)數(shù)036和147,則中選的樣本是:36,147,236,347,436,547,636,747,836,847。等距抽樣的好處處是快速方便便,所以用得得很多。有時(shí)時(shí)候不知道NN和n,只知知道K也可以以用。譬如以以百貨公司顧顧客、汽車乘乘客或球場觀觀眾為對象,若若決定每三十十人抽一人,則則馬上即可進(jìn)進(jìn)行而不必事事先知道全體體有多少人,樣樣本要多少等等等。它的缺缺點(diǎn)是最怕遇遇到具有周期期性的數(shù)據(jù),萬萬一這一個(gè)周周期和K成比比例,則樣本本死守一個(gè)規(guī)規(guī)則,完全失失去代表性。例例如每七天查查一次帳,結(jié)結(jié)果永遠(yuǎn)查到到一星期內(nèi)的的同一天,后后果必然不堪堪設(shè)想。
伍、分層不分白不分,物以類聚隨機(jī)抽抽樣不分白不分,物以類聚分層隨機(jī)抽樣(stratifiedrandomsampling)是先把母群體的所有個(gè)體依某些特征分類,也就是分層,然后在各層之內(nèi)再進(jìn)行獨(dú)立的隨機(jī)抽樣。譬如某個(gè)地區(qū)七歲到十二歲的小孩,我們可以先區(qū)分為都和鄉(xiāng)村兩大層,然后各自以各層為新的全體進(jìn)行抽樣。這個(gè)方法的好處很多,不但可以減化工作量,而且可以提高估計(jì)的精確度,只要分層時(shí)守著「同層之內(nèi)同構(gòu)型取其最大,異層之間異質(zhì)性取其最大」的原則即可。如此可使得層內(nèi)的數(shù)據(jù)一致而集中,標(biāo)準(zhǔn)差愈小,則抽樣誤差也愈小。一、對母體平均均數(shù)的估計(jì)st=ii(5.1)二、st的的變異數(shù)估計(jì)計(jì)(抽出不放放回)(st)=i2(si2/ni)((Ni-ni)/Ni)(5.2)三、對母體百分分比的估計(jì)st=ii(5.3)四、st的的變異數(shù)估計(jì)計(jì)(抽出不放放回)(st)=i2(i(1-i)/ni-1)((Ni-ni)/Ni)(5.4)五、各層樣本數(shù)數(shù)的分配:紐紐曼的最佳分分配(Neyyman’ssopptimummalloocatioon)如果不考考慮各層的抽抽樣調(diào)查費(fèi)用用或是各層的的費(fèi)用沒有差差別,則ni=nn(Nii/ii)(5.5)可導(dǎo)致最最小的抽樣誤誤差。陸、比率估計(jì)比率估計(jì)并不是是抽樣方法的的一種,卻是是常用的一種種估計(jì)方式。它它借著輔助變變量當(dāng)作分母母提出一些比比前幾節(jié)直接接估計(jì)較為間間接但卻可能能更好的估計(jì)計(jì)方法,譬如如回歸就是其其中一個(gè)例子子。在接下來來要介紹的集集體抽樣方法法用的也是比比率估計(jì)。一、對母體比率率值的估計(jì)r=(i)/(i)=/(6.1)二、r的變變異數(shù)估計(jì)(r)=(6.2)式中=(yi-rxxi)2/(n-11)(6.3)三、對母體平均均數(shù)的估計(jì)y=((i)/(i))x=rx(6.4)四、對y變異數(shù)的估估計(jì)(y)=(6.5)柒、集體抽樣能不用就不用能不用就不用集體抽樣教育、公共衛(wèi)生一般用得多(cllusterrsamppling)是是先把母群體體分割成許多多小集群,把把這些小集群群編上號碼,然然后隨機(jī)抽取取這些號碼,凡凡是被抽中的的,則整個(gè)小小集群的所有有成員全部調(diào)調(diào)查。譬如學(xué)學(xué)校的班級就就是常用的集集群。教育、公共衛(wèi)生一般用得多這個(gè)方法的的冒險(xiǎn)性非常常大。主要的的功能是節(jié)省省時(shí)間、人力力和經(jīng)費(fèi),是是很不得已的的作法,非萬萬不得已不要要采用樣本數(shù)失控。只適合政府用不適合學(xué)術(shù)界用,因?yàn)橘Y料只能估計(jì)不能分析,只有集體數(shù)據(jù)沒有個(gè)體數(shù)據(jù)。不能做個(gè)案分析,一個(gè)學(xué)校4萬人,一個(gè)學(xué)校3000人,每個(gè)學(xué)校出來一個(gè)數(shù)據(jù)。每個(gè)學(xué)校的個(gè)案不相等。即使使要用,也要要守著「集群群內(nèi)部異質(zhì)性性越大越好」」的原則來做樣本數(shù)失控。只適合政府用不適合學(xué)術(shù)界用,因?yàn)橘Y料只能估計(jì)不能分析,只有集體數(shù)據(jù)沒有個(gè)體數(shù)據(jù)。不能做個(gè)案分析,一個(gè)學(xué)校4萬人,一個(gè)學(xué)校3000人,每個(gè)學(xué)校出來一個(gè)數(shù)據(jù)。每個(gè)學(xué)校的個(gè)案不相等一、對母體平均均數(shù)的估計(jì)=(i)/(i)(7.1)式中yi是第i個(gè)集體體所有樣本觀觀察值的加總總,n是是抽出的樣本本集體數(shù),mi是第i個(gè)集體體的個(gè)體數(shù)。二、的變異數(shù)數(shù)估計(jì)()=(7.2)式中=(yi-mi)2/(n-11)(7.3)NN是母體總總集體數(shù),是母體平均均每一集體的的個(gè)體數(shù)。捌、多階段集體體抽樣一、兩段集體抽抽樣(twoo-staggecluustersamplling)兩段或多段集體體抽樣其實(shí)并并沒有「集體體全查」的意意思,它是指指在第一個(gè)階階段先抽出一一部分集體(PrimarySamplingUnit,PSU經(jīng)費(fèi)少第一階段可以抽上層的比如省級,但樣本代表性不好。經(jīng)費(fèi)多可以從種菜抽比如縣級。不過要從整體上思考??梢詮娜丝诿芏瓤紤],按照密度排序,再抽100個(gè)縣),譬如說大學(xué),然后在下一個(gè)階段自中選的集體抽出第二階段的集體(SecondarySamplingUnit,SSU)經(jīng)費(fèi)少第一階段可以抽上層的比如省級,但樣本代表性不好。經(jīng)費(fèi)多可以從種菜抽比如縣級。不過要從整體上思考??梢詮娜丝诿芏瓤紤],按照密度排序,再抽100個(gè)縣,譬如說系所,其其次在最后階階段抽出樣本本個(gè)體,譬如如說學(xué)生。(一)對母體平平均數(shù)的估計(jì)計(jì)(假設(shè)每個(gè)個(gè)階段都是SSRS抽出)=(N/MM)ii/n(8.1)式中Mi是母體第ii個(gè)集體的的總個(gè)體數(shù),M是母體所有有個(gè)體數(shù),i是第i個(gè)集體體的樣本平均均數(shù)。(二)的變異異數(shù)估計(jì)()=++(s/mi)式中=(Mii-)2/(n-11)s=/(mi-1)(8.2)二、抽取率與單單位大小成比比例的多階段段階段越少越好,誤差越小??紤]代表性、錢、人、時(shí)間。例如選校、系、人。三階段。我們可以選20*2*50=2000資金缺乏的做法,不在乎學(xué)校和學(xué)校的差異,在乎人的差異;50*2*20=2000資金充足的做法。在乎學(xué)校和學(xué)校的差異,不在乎人的差異。第一階段可以按照省將學(xué)校排序或者按照學(xué)校規(guī)模,甚至按女生人數(shù)排序。然后等距抽樣。第二階段隨后按系排Ai/b=k然后抽人。Bj/C=k抽樣(pro階段越少越好,誤差越小。考慮代表性、錢、人、時(shí)間。例如選校、系、人。三階段。我們可以選20*2*50=2000資金缺乏的做法,不在乎學(xué)校和學(xué)校的差異,在乎人的差異;50*2*20=2000資金充足的做法。在乎學(xué)校和學(xué)校的差異,不在乎人的差異。第一階段可以按照省將學(xué)校排序或者按照學(xué)校規(guī)模,甚至按女生人數(shù)排序。然后等距抽樣。第二階段隨后按系排Ai/b=k然后抽人。Bj/C=kpropportioonalttosizze,ppps)非常巧妙的的設(shè)計(jì)可以控控制每個(gè)樣本本被選中的概概率這個(gè)方法大多用用在規(guī)模比較較大的抽樣工工作。譬如調(diào)調(diào)查對象是某某個(gè)地區(qū)七歲歲到十二歲的的小孩,我們們在第一階段段先抽取一部部分鄉(xiāng)鎮(zhèn)市區(qū)區(qū),第二階段段再自中選的的鄉(xiāng)鎮(zhèn)市區(qū)抽抽村或居委會會,第三階段段再自中選的的村或居委會會抽戶或直接接抽人。在抽抽樣過程中每每一階段各單單位的中選機(jī)機(jī)率和那個(gè)單單位的大小成成比例,也就就是單位越大大的中選機(jī)率率越高。但是是到最后結(jié)算算下來,所有有全體的每一一個(gè)成員都有有相等的機(jī)會會被抽中。讓讓我們看一個(gè)個(gè)多階段抽樣樣的例子(如如表8.1):表8.1區(qū)個(gè)案數(shù)累積個(gè)案數(shù)11000100022000300032000500041500650053000950064000135007250016000現(xiàn)在要從全體七七個(gè)區(qū)總共116000人人中第一階段段先抽取兩個(gè)個(gè)區(qū),然后再再自中選區(qū)中中每區(qū)各抽550人,也就就是自全部116000人人中抽?。保埃埃叭?。第一階段要要抽兩個(gè)區(qū),意意思是每隔116000//2=80000人抽一個(gè)個(gè)區(qū),自1至至8000選選一個(gè)隨機(jī)數(shù)數(shù),假設(shè)自隨隨機(jī)數(shù)表第八八行開始,我我們需要四位位數(shù),結(jié)果66094中選選,其次60094+80000防止隨機(jī)數(shù)落在同一個(gè)選區(qū)=144094中選選。這兩個(gè)號號碼一個(gè)落在在第四區(qū),另另一個(gè)在第七七區(qū),所以兩兩個(gè)區(qū)中選。這這個(gè)階段各區(qū)區(qū)中選的機(jī)率率要看各區(qū)的的大小而定。其其次,我們再再分別自第四四區(qū)和第七區(qū)區(qū)各抽50人人,方法可以以自行決定,單單純隨機(jī)方式式或等距方式式均可。為什什么說全體之之中的每一個(gè)個(gè)人中選機(jī)會會都相等呢??譬如李先生位在第第三區(qū),他中中選的機(jī)率是是a*Ai/N*b/Ai=n/N防止隨機(jī)數(shù)落在同一個(gè)選區(qū)a*Ai/N*b/Ai=n/N(把第一階段的的中選率看做做是20000/80000可能較容易易了解)而王王先生位在第第六區(qū),他中中選的機(jī)率是是很顯然的,到最最后每一個(gè)人人中選的機(jī)率率都是1000/160000,也就是是早先決定的的抽取率。(一)對母體平平均數(shù)的估計(jì)計(jì)ppss=(8.3)(二)pps的變異數(shù)估估計(jì)(pps)=(i-pps)2(8.4)玖、其它抽樣方方法全查沒有代表性性,有時(shí)可以以利用交情全全查,查回來來后用PPSS處理,個(gè)案案就有代表性性了一、雙重抽樣(doublesampling,ortwo-phasesampling)這是先以低廉快速低廉的方式通常是電話訪問。篩選。對公共汽車的乘客。的的代價(jià)先自全全體之中抽取取大量的樣本本,然后再自自這群樣本中中抽取第二次次樣本。在流流行病學(xué)的研研究里比較常常見到這種方方法。通常是是先用很快的的方法初步選選取大量的樣樣本驗(yàn)血,然然后再自有反反應(yīng)的血液中中追溯抽樣,選選取少數(shù)的樣樣本進(jìn)行詳細(xì)細(xì)的查驗(yàn)工作作??焖俚土姆绞酵ǔJ请娫捲L問。篩選。對公共汽車的乘客。在設(shè)計(jì)流程中,有有時(shí)會遇到定定義母體困難難或抽樣清冊冊無從建立的的情況,譬如如汽車使用者者的意見調(diào)查查,或?qū)W校畢畢業(yè)生的成就就調(diào)查,最常常見到的則是是某項(xiàng)服務(wù)或或某項(xiàng)產(chǎn)品的的消費(fèi)者意見見調(diào)查。這些些調(diào)查的共同同困難是建立立抽樣清冊極極不可能或代代價(jià)極高。在在實(shí)務(wù)上就可可以使用雙重重抽樣來解決決,先以較快快速低廉的代代價(jià)進(jìn)行抽樣樣調(diào)查,如電電話訪問或信信件回郵,只只詢問受訪者者資格方面的的問題,其次次再自合格的的樣本中第二二次抽樣,進(jìn)進(jìn)行訪問。二、「捉-放--捉」式的野野生動(dòng)物抽樣樣(captture-rrecaptturemethood)這種方法主要用用來估計(jì)野生生動(dòng)物的數(shù)目目。通常是選選定某些地區(qū)區(qū)在一定的時(shí)時(shí)間內(nèi)捕捉動(dòng)動(dòng)物。在動(dòng)物物身上記上標(biāo)標(biāo)志后放走,隔隔了一陣時(shí)間間后再于同一一地區(qū)捕捉動(dòng)動(dòng)物,打上標(biāo)標(biāo)記后再放走走,如此一再再重復(fù)進(jìn)行在相同的地點(diǎn)重復(fù)。統(tǒng)統(tǒng)計(jì)專家們可可以用重復(fù)被被捉的機(jī)率來來推算該區(qū)動(dòng)動(dòng)物的總數(shù)也可以研究城市。把大地區(qū)切割成小格子。評估治安。每季或者每月調(diào)查一次,是否是犯罪的被害者。重復(fù)被害率。FBI的網(wǎng)站上公布官方數(shù)字。地下賭場的估計(jì)。。在相同的地點(diǎn)重復(fù)也可以研究城市。把大地區(qū)切割成小格子。評估治安。每季或者每月調(diào)查一次,是否是犯罪的被害者。重復(fù)被害率。FBI的網(wǎng)站上公布官方數(shù)字。地下賭場的估計(jì)。敏感性問題的隨隨機(jī)反應(yīng)估計(jì)計(jì)(randdomizeedressponsee)有時(shí)候研究者必必須對敏感性性的問題做出出合理的估計(jì)計(jì),譬如比如買票。但是電話調(diào)查很難。生日是單數(shù)回答。血型是O型的回答。生日是0123,456,789誠實(shí)回答考試有沒有作弊。面訪容易成功。同性戀傾傾向,考試舞舞弊,或是墮墮胎等議題。一一個(gè)可行的方方式是準(zhǔn)備一一迭卡片,其其中有百分比的卡卡片是正面陳陳述,例如「「我考試作弊弊」,其余卡卡片則是反面面陳述,例如如「我考試沒沒有作弊」。訪訪員可以請受受訪者過目所所有卡片后洗洗牌抽出一張張,然后問受受訪者「是不不是同意抽中中卡片上所說說的事」,假假設(shè)所有回答答「是」的比如買票。但是電話調(diào)查很難。生日是單數(shù)回答。血型是O型的回答。生日是0123,456,789誠實(shí)回答考試有沒有作弊。面訪容易成功。受訪者人數(shù)為n1,則母體考考試作弊的百百分比估計(jì)為為:==-(9.1)()=(9.2)通常值不等等于0.55以免分母母為零,此外外這種估計(jì)通通常都放在問問卷最后一題題,而且不能能進(jìn)行交叉分分析。區(qū)域抽樣(arreasaamplinng)用地圖來抽樣,,采用ppss抽樣,pssu為couunty.第第二階段為戶戶口普查區(qū)或或者鄉(xiāng)鎮(zhèn),然然后選街道(在在美國四個(gè)街街道圍起來為為一個(gè)Bloock。估計(jì)Bloock的單位位的規(guī)模Siize人口數(shù)數(shù),不用很準(zhǔn)準(zhǔn)就是排序累累加。抽完后一定定要真的調(diào)查查每個(gè)街道的的戶數(shù),然后后抽第一戶。戶中選樣。每戶選一個(gè)人利用KISHTABLE找人。8+12個(gè)表(在訪員身上輪)問戶中合格人數(shù)年齡最大的、中的小的。拾、抽樣設(shè)計(jì)與與執(zhí)行步驟在我們面臨一個(gè)個(gè)抽樣調(diào)查或或研究案時(shí),通通常會依照下下列步驟進(jìn)行行:決定數(shù)據(jù)的搜集集方式:面訪訪、郵寄問卷卷、電話訪問問、或混合使使用。定義母體。決定操作性定義義及據(jù)以抽樣樣的母體清冊冊,如會員名名單、戶籍?dāng)?shù)數(shù)據(jù)、或電話話簿。決定樣本數(shù)。分層。決定各層樣本數(shù)數(shù)。各層獨(dú)立進(jìn)行抽抽樣設(shè)計(jì)。分段。決定各段抽出單單位數(shù)。執(zhí)行。十一、列出母體體參數(shù)的推估估公式及其變變異數(shù)之估計(jì)計(jì)式;如有必必要加權(quán),列列出加權(quán)公公式。以下我們將討論論其中的一些些考慮因素。面訪、郵寄問卷卷、與電話訪訪問一般說來,面訪訪所需經(jīng)費(fèi)最最大,行政作作業(yè)繁雜,訪訪問失敗問題題嚴(yán)重,數(shù)據(jù)據(jù)質(zhì)量亦難監(jiān)監(jiān)控,其抽樣樣設(shè)計(jì)著重在在如何有效率率地運(yùn)用有限限資源,使得得訪員順利接接近受訪者。因因此在初步對對調(diào)查對象的的操作性定義義上,通常先先把困難度高高、耗費(fèi)大、工工作負(fù)荷重的的地區(qū)排除在在外,或單獨(dú)獨(dú)列為一次母母體另行處理理。郵寄寄問卷和電話話訪問滲透力力強(qiáng),無遠(yuǎn)弗弗屆,行政作作業(yè)易于掌握握,抽樣設(shè)計(jì)計(jì)束縛條件極極少。然而郵郵寄問卷有回回收率的問題題,電話訪問問有不完整包包羅性和問卷卷不能深入的的問題,抽樣樣設(shè)計(jì)雖然容容易,非抽樣樣的問題則難難以解決。樣本數(shù)的決定數(shù)據(jù)搜集方式和和調(diào)查對象確確定之后,第第一件要做的的事就是決定定樣本數(shù)。一一般要考慮的的因素有:抽樣誤差假設(shè)非抽樣樣誤差(譬如如問卷設(shè)計(jì)不不當(dāng)、訪員作作假、數(shù)據(jù)鍵鍵入錯(cuò)誤)不不存在,只計(jì)計(jì)算因抽樣而而來的估計(jì)θθ和母體參數(shù)數(shù)θ的差異量,通通常用平均差差方(MeaanSquuaredErrorr,MSE)表表示,,E表表示期待值或或平均數(shù),則則,第一項(xiàng)是是的變異數(shù),表表示每次抽樣樣都會得到不不同的,如果果做很多次,這這些就會有集集中或分散的的現(xiàn)象,用示示之,是對母母體參數(shù)估計(jì)計(jì)的穩(wěn)定程度度或可靠度的的意思;biias表示偏偏差,如果做做許多次抽樣樣的話,會有有許多個(gè),這這些的平均數(shù)數(shù)和被估計(jì)的的母體參數(shù)θθ的差即是偏偏差。一般情情況下,偏差差均可透過統(tǒng)統(tǒng)計(jì)方法控制制為零,所以以抽樣誤差一一般也指估計(jì)計(jì)的穩(wěn)定程度度。不同的抽抽樣設(shè)計(jì)和估估計(jì)方法會有有不同的抽樣樣誤差,直接接影響到對母母體推估的精精確程度。樣樣本數(shù)越大,得得到的估計(jì)值值越穩(wěn)定,抽抽樣誤差也越越小,但它們們之間并不成成簡單的比例例,所以必須須咨詢專家,決決定最有效率率的樣本數(shù)和和可以容忍的的推論誤差。常常見到的抽樣樣誤差表達(dá)方方式,是換算算成對母體參參數(shù)區(qū)間估計(jì)計(jì)的上下限,例例如我們常會會見到「以995%信賴度度估計(jì),對母母體的各項(xiàng)推推論最大抽樣樣誤差不會超超過正負(fù)3%%」即是。經(jīng)費(fèi)、工作量、和和時(shí)效在現(xiàn)實(shí)世界界里資源有限限,樣本數(shù)的的大小通常由由可運(yùn)用資源源的多寡來決決定,必須和和前一項(xiàng)抽樣樣誤差妥協(xié)。次母體推論的精精確度抽樣調(diào)查的的目的有時(shí)也也包括對次母母體的推論,譬譬如以某個(gè)地地區(qū)民眾為對對象的抽樣調(diào)調(diào)查,會以地地區(qū)內(nèi)各縣市市為推論次母母體,若每一一縣市的推論論都要達(dá)到相相當(dāng)程度的精精確度,則每每一縣市就需需要相當(dāng)于那那個(gè)精確度的的樣本數(shù),如如此一來,整整個(gè)調(diào)查地區(qū)區(qū)的樣本數(shù)勢勢必要膨脹。同同樣的道理,這這些次母體有有時(shí)候可以是是地區(qū)、城鄉(xiāng)鄉(xiāng)、行業(yè)、公公私立別等等等。深入研究的必要要性有時(shí)候整個(gè)個(gè)調(diào)查計(jì)劃的的目的在做深深入的比較分分析,例如民民眾的吸煙行行為會和教育育程度、性別別、行職業(yè)、地地區(qū)、收入、年年齡等有密切切的關(guān)系。欲欲深入研究其其間之交互作作用,則這些些因素交叉之之后每個(gè)組合合交集必須要要有起碼的樣樣本數(shù),以此此最低要求反反向推估所需需的樣本總數(shù)數(shù)。這種性質(zhì)質(zhì)的調(diào)查比起起單純的母體體百分比推估估所需的樣本本數(shù)顯然較大大。抽取率從理論上來來看,樣本數(shù)數(shù)的決定和抽抽取率并無太太大關(guān)系,實(shí)實(shí)際上,每1100人抽11人和每5000人抽1人人,如果樣本本數(shù)相同,雖雖然母體大小小相差很大,但但兩者的抽樣樣精確度是可可認(rèn)定為完全全相同的。只只有在抽取率率高于每200人抽1人時(shí)時(shí),才要考慮慮到這個(gè)因素素。樣本的累積有些按月、季季、年調(diào)查的的抽樣設(shè)計(jì),每每次調(diào)查的樣樣本數(shù)是可以以累積的,譬譬如國民營養(yǎng)養(yǎng)狀況調(diào)查、健健康衛(wèi)生和疾疾病調(diào)查、傳傳播媒體閱聽聽調(diào)查等。可可以累積的理理由是:這些些性質(zhì)的調(diào)查查對象生活習(xí)習(xí)慣不會在短短期內(nèi)有重大大的改變。不不過要注意的的是每次調(diào)查查的母體定義義必須相同,以以免每次推論論都是以偏概概全,造成嚴(yán)嚴(yán)重的偏差。抽出樣本數(shù)與有有效樣本數(shù)由于實(shí)務(wù)作作業(yè)上必然會會有訪問失敗敗的現(xiàn)象.郵郵寄問卷時(shí)這這種情況尤其其嚴(yán)重,使得得有效樣本數(shù)數(shù)只能成為抽抽出樣本數(shù)的的一個(gè)比例而而已。如果僅僅以有效樣本本來對母體進(jìn)進(jìn)行推論的話話,則會產(chǎn)生生偏差,其幅幅度等于失敗敗率乘上有效效樣本和失敗敗樣本的差異異。筆者(11989)建建議依照預(yù)估估的成功率擴(kuò)擴(kuò)大抽出樣本本數(shù),使得最最后完成的有有效樣本數(shù)接接近原先的規(guī)規(guī)劃數(shù),并對對失敗樣本進(jìn)進(jìn)行抽樣追蹤蹤訪問,得到到有效樣本和和失敗樣本之之間差異的估估計(jì),藉以修修正以有效樣樣本來做推論論所造成的偏偏差。三、分層與分段段(一)分層母體定義清楚,樣樣本數(shù)決定后后,接下來便便是搜集有關(guān)關(guān)資料進(jìn)行分分層的工作;;這是因?yàn)閺膹某闃永碚搧韥砜?,分層抽抽樣可以很有有效地降低推推論的誤差。另另外一個(gè)重要要的原因是行行政上的考量量,以推論次次母體來分層層(如各縣市市或公私立學(xué)學(xué)校)可使抽抽樣調(diào)查的目目的易于達(dá)成成。有關(guān)工商商業(yè)界或各行行業(yè)的抽樣調(diào)調(diào)查尤其需要要分層。有些些調(diào)查不但要要依次母體分分層,而且還還不能合并做做統(tǒng)一推論,例例如對各行業(yè)業(yè)的抽樣調(diào)查查就是一個(gè)典典型的例子,由由于絕大部分分的企業(yè)單位位規(guī)模極小,而而少數(shù)企業(yè)單單位規(guī)模極大大,不論以人人或以企業(yè)單單位做為推論論的個(gè)案基礎(chǔ)礎(chǔ)都有缺點(diǎn),最最合理的做法法是以行業(yè)和和企業(yè)單位規(guī)規(guī)模交叉分層層,然后以各各層為次母體體獨(dú)立進(jìn)行推推論。分層工作的原則則是:「同層層之內(nèi)同構(gòu)型型愈大愈好,不不同層之間各各層平均數(shù)差差異量愈大愈愈好。」如此此可以使得推推估的誤差降降至最小。分分層之后各層層視同一個(gè)獨(dú)獨(dú)立的母體,分分別進(jìn)行各層層的抽樣設(shè)計(jì)計(jì)。第一件要要決定的事是是如何分配各各層的樣本數(shù)數(shù)。如果我們們希望有一個(gè)個(gè)等機(jī)率抽樣樣的設(shè)計(jì),則則采用等比例例方式,依照照各層母體人人數(shù)占母體總總?cè)藬?shù)的百分分比分配樣本本數(shù),亦即nni=nNii/N,i=1,,K。其其次,我們亦亦可依各層內(nèi)內(nèi)部的同質(zhì)程程度來分配樣樣本數(shù),同構(gòu)構(gòu)型越高者,分分配樣本數(shù)越越少,如此可可使樣本數(shù)做做最有效率的的運(yùn)用,亦稱稱最適分配或或紐曼分配抽樣的時(shí)候同質(zhì)性少選擇的樣本少。差異大標(biāo)準(zhǔn)差大的選擇樣本多。第第三種分配方方式是立意分分配,以主觀觀判斷給予各各層樣本數(shù),常常見的做法是是各層樣本數(shù)數(shù)相等。抽樣的時(shí)候同質(zhì)性少選擇的樣本少。差異大標(biāo)準(zhǔn)差大的選擇樣本多以上第二和第三三種方式都會會造成不等機(jī)機(jī)率抽樣,對對母體的推論論必須加權(quán)處處理。如果先先分別計(jì)算各各層平均數(shù)再再合并推論母母體,則各層層之權(quán)值為WWi=Ni//N,亦即各各層人數(shù)占母母體總數(shù)的比比重,而母體體平均數(shù)的估估計(jì)則為如果在計(jì)算機(jī)上上操作,以個(gè)個(gè)案為基礎(chǔ)直直接對母體做做推論,則各各層之個(gè)案加加權(quán)值為:對母體平均數(shù)的的估計(jì)則為::
加權(quán)處理是是很重要的步步驟,尤其在在不等機(jī)率抽抽樣或因樣本本代表性失真真而采用事后后分層方式補(bǔ)補(bǔ)救時(shí)更是必必要,遺憾的的是有許多調(diào)調(diào)查應(yīng)該使用用而未使用,造造成推論上嚴(yán)嚴(yán)重的失誤。(二)分段并不是每一一個(gè)抽樣設(shè)計(jì)計(jì)都要分段,但但是當(dāng)母體的的規(guī)模足夠大大時(shí),以單純純隨機(jī)抽樣(SimpleRandomSampling,SRS)或等距抽樣(SystematicSampling)在實(shí)際上無法執(zhí)行或即使執(zhí)行了,搜集數(shù)據(jù)的代價(jià)太高時(shí)就必須考慮分段。分段的用意是把樣本聚集在少數(shù)幾個(gè)第一抽出單位(PrimarySelectionUnit,PSU)里以減輕工作量。譬如小學(xué)學(xué)童的抽樣設(shè)計(jì),以全體國小學(xué)生名冊為對象進(jìn)行隨機(jī)或等距抽樣事實(shí)上不可行,即使可行,訪問工作遍及全境,執(zhí)行代價(jià)亦太高;我們應(yīng)考慮多段集體抽樣方式,第一階段先抽出a所學(xué)校,第二階段再自中選的學(xué)校每校抽出b班,第三階段再自中選的班中每班抽出c人,亦即a×b×c=n。分段抽樣會會導(dǎo)致抽樣誤誤差的增加,因因每一段皆有有組間差和組組內(nèi)差,但代代價(jià)是值得的的。它的理論論要求是每一一階段抽出的的單位數(shù)一定定要大于或等等于2,否則則抽樣誤差會會因分母是零零而無法計(jì)算算。在實(shí)務(wù)上,決決定各階段抽抽出的單位數(shù)數(shù),最主要的的因素是經(jīng)費(fèi)費(fèi)和工作負(fù)荷荷量的分配,其其次才是組間間差和組內(nèi)差差的考慮。例例如北京大學(xué)學(xué)要抽出4000個(gè)樣本,分分兩段執(zhí)行,第第一階段抽系系,第二階段段抽人。我們們可以抽出440系,每個(gè)個(gè)系10人;;亦可抽出220系,每系系20人;或或是抽出100系,每系440人;前者者第一段太多多,系的代表表性顧慮到了了,但每系110人,工作作分配不易,且且40系會使使訪員到處奔奔波,系間差差異有了,系系內(nèi)差異可能能顯現(xiàn)不出來來;后者經(jīng)費(fèi)費(fèi)和工作量容容易分配,但但前段太少,怕怕代表性不夠夠,也無法顯顯現(xiàn)出系間差差異來,取舍舍之間沒有標(biāo)標(biāo)準(zhǔn),只能用用妥協(xié)的方式式解決??偟恼f說來,抽樣工工作的執(zhí)行方方式不外乎隨隨機(jī)、等距、和和PPS三種。一般般情況下,以以等距抽樣方方式為最好,因因?yàn)樗赏高^過清冊的排序序作業(yè)控制樣樣本的代表性性,進(jìn)而降低低抽樣誤差;;另外,它又又有易于執(zhí)行行的優(yōu)點(diǎn)。在在多段抽樣時(shí)時(shí),PPS則是較合理理的方式,尤尤其在第一抽抽出單位大小小不一時(shí)更具具優(yōu)越性。例例如中國27797個(gè)縣、區(qū)區(qū)要抽1200個(gè)縣、區(qū),不不論隨機(jī)或等等距抽樣,都都將27977個(gè)縣、區(qū)一一視同仁,極極不合理;但但PPS配合等距方方式執(zhí)行,卻卻同時(shí)考慮到到了代表性和和各縣區(qū)大小小不等的實(shí)際際狀況,其執(zhí)執(zhí)行過程舉例例而言,可先先將27977個(gè)縣區(qū)依照照各縣區(qū)人口口密度由大到到小排列,列列出各縣區(qū)人人口數(shù),然后后逐一累加,最最后得總數(shù)NN,現(xiàn)欲抽出出120個(gè)縣區(qū)區(qū),令N/1120=K,自自1至K抽隨隨機(jī)數(shù)R,則則在累加數(shù)字字欄上,R的的所在縣區(qū)中中選,其次RR+K的所在在縣區(qū)中選,以以此類推,至至R+4K的的所在縣區(qū)中中選,如此使使得大縣區(qū)中中選機(jī)會大,小小縣區(qū)中選機(jī)機(jī)會小,而抽抽出的1200個(gè)縣區(qū)又有有高、中、低低度人口密度度的代表性,這這是其它抽樣樣方式做不到到的。其次,多段PPPS抽樣方式雖雖然每一個(gè)階階段每一個(gè)單單位中選機(jī)率率都不相等,但但整體而言,它它卻是個(gè)等機(jī)機(jī)率的抽樣設(shè)設(shè)計(jì)。以小學(xué)學(xué)生抽樣設(shè)計(jì)計(jì)為例,假設(shè)設(shè)我們要在全全區(qū)小學(xué)生((N)中分三三段抽出10000名學(xué)童童,各階段抽抽出單位數(shù)分分別是20××5×10=10000,亦即即抽出20校,每校校抽出5班,每每班抽出100人,則全區(qū)區(qū)每位小學(xué)生生的中選機(jī)率率是:由此可證母體之之中,每一個(gè)個(gè)人的中選機(jī)機(jī)會相等。時(shí)間序列的抽樣樣設(shè)計(jì)我們經(jīng)常會有機(jī)機(jī)會針對同樣樣的主題做時(shí)時(shí)間序列方式式的抽樣調(diào)查查,藉以了解解時(shí)代的脈動(dòng)動(dòng)和民意的走走向。由于在在兩個(gè)時(shí)間點(diǎn)點(diǎn)所進(jìn)行的兩兩個(gè)獨(dú)立調(diào)查查,只能觀察察到整體差異異,無法偵測測出個(gè)體差異異,使得抽樣樣設(shè)計(jì)必須做做些改變。例例如5年前吸吸煙人口有555%,目前前則有53%,整體體差異下降了了兩個(gè)百分點(diǎn)點(diǎn),但我們無無法知道有多多少人在這段段期間戒了煙煙,而又有多多少人新加入入吸煙的行列列,這5年也也許人口結(jié)構(gòu)構(gòu)有了變化,也也許人們改變變了認(rèn)知、態(tài)態(tài)度與行為。欲欲弄清楚其中中緣故,DuuncanandKKaltonn(19877)介紹了幾幾種可行的抽抽樣設(shè)計(jì)和它它們可達(dá)成的的目標(biāo),這些些方法有:重復(fù)進(jìn)行獨(dú)立的的抽樣設(shè)計(jì)。固定樣本連續(xù)訪訪問。樣本輪換,按每每月、季、年年,依序更換換一部分樣本本,重迭一部部分樣本?;旌显O(shè)計(jì),某一一部分設(shè)定為為固定樣本,某某一部分設(shè)定定為輪換樣本本。上述這些方法可可視為樣本重重迭設(shè)計(jì),重重迭的百分比比從百分之百百(固定樣本本連續(xù)訪問)到到零(獨(dú)立抽抽樣)。至于于如何決定重重迭的百分比比,則要看調(diào)調(diào)查目的、資資源和容許的的抽誤差而定定。拾壹、抽樣實(shí)務(wù)務(wù)及相關(guān)議題題一、樣本代表性性的問題近年來由政府、民民間、及學(xué)術(shù)術(shù)機(jī)構(gòu)所進(jìn)行行的各種抽樣樣調(diào)查相當(dāng)?shù)牡亩?,這些調(diào)調(diào)查在對母體體進(jìn)行推論時(shí)時(shí)大都建立在在「有效問卷卷」的基礎(chǔ)上上。在統(tǒng)計(jì)理理論上,以單單純隨機(jī)抽樣樣選出的樣本本數(shù)據(jù)在對母母體做推論時(shí)時(shí),受到中央央極限定理的的保護(hù),并沒沒有樣本代表表性的顧慮,但但是在資料分分析時(shí),通常常會針對不同同的人口特征征群做進(jìn)一步步的比較分析析,諸如性別別、年齡、教教育程度、地地區(qū)等,這些些人口特征的的代表性是否否和母體的分分布一致馬上上就受到考驗(yàn)驗(yàn)。
一般般說來,國外外的抽樣調(diào)查查通常不十分分憂慮樣本代代表性的問題題。學(xué)者的研研究多偏向失失敗的處理,但但亦可視為樣樣本代表性的的補(bǔ)充。GrrovesandKKahn(11979)曾曾細(xì)致而徹底底的比較面訪訪和電話訪問問的優(yōu)劣。DDillmaan(19778)則針對對電話訪問和和郵寄問卷做做比較。樣本本代表性問題題是他們整個(gè)個(gè)研究領(lǐng)域里里的一個(gè)環(huán)節(jié)節(jié)而已。(一)影響樣本本代表性的因因素影響樣本代表表性的因素大大體而言有兩兩個(gè)主要部分分:一是抽樣樣的設(shè)計(jì),其其次是資料搜搜集的過程。1.抽樣設(shè)計(jì)計(jì):母體定義:研究究對象通常會會有時(shí)間、空空間、和資格格的定義,這這些定義給樣樣本的代表性性設(shè)定了標(biāo)準(zhǔn)準(zhǔn)。抽樣清冊(frrame)的的涵蓋性:在在實(shí)務(wù)上抽樣樣清冊決定了了樣本代表性性的最佳狀況況底線。分層與各層樣本本數(shù)的決定::等機(jī)率抽樣樣與不等機(jī)率率抽樣的設(shè)計(jì)計(jì)會使樣本代代表性因人為為的干預(yù)而受受到扭曲。抽樣的執(zhí)行方式式,如隨機(jī)抽抽樣、系統(tǒng)抽抽樣、集群抽抽樣等不同的的技巧都可能能造成不同性性質(zhì)的樣本代代表性。戶中選樣:在等等機(jī)率抽戶而而戶中有不同同數(shù)目的合格格受訪者時(shí),是是否執(zhí)行戶中中選樣以及執(zhí)執(zhí)行的程序都都會影響到樣樣本的代表性性。(二)補(bǔ)救辦法法對于上述情情形一般的補(bǔ)補(bǔ)救辦法有三三:在時(shí)間和經(jīng)費(fèi)都都許可的情況況下繼續(xù)進(jìn)行行追蹤訪問,可可惜通常皆不不可行。以插補(bǔ)(impputatiion)方法法補(bǔ)足缺失的的樣本數(shù)據(jù)。以事后分層(ppost-sstratiificattion)方方式加權(quán)處理理。上述插補(bǔ)和加權(quán)權(quán)將在稍后再再予介紹。二、訪問失敗的的問題政府、企業(yè)、與與學(xué)術(shù)機(jī)構(gòu)的的各種研究調(diào)調(diào)查多以抽樣樣調(diào)查做為搜搜集資料的主主要方式,其其中較為嚴(yán)謹(jǐn)謹(jǐn)者通常都能能先將研究對對象予以明確確定義后進(jìn)行行抽樣,然后后對選出的樣樣本進(jìn)行數(shù)據(jù)據(jù)搜集或衡量量的工作。這這些工作的執(zhí)執(zhí)行過程中不不可避免的一一定會遭遇到到訪問失敗的的問題。一般般說來,訪問問失敗有兩種種情形:一是是沒有取得中中選樣本的全全部數(shù)據(jù),種種為個(gè)案無反反應(yīng)(uniitnonnrespoonse),二二是沒有取得得中選樣本的的一部分?jǐn)?shù)據(jù)據(jù),例如每月月收入等,稱稱為項(xiàng)目無反反應(yīng)(iteemnonnrespoonse)。后后者因?yàn)橐延杏胁糠謹(jǐn)?shù)據(jù),還還可以藉大部部分已知的情情形來推估少少部分未知項(xiàng)項(xiàng)目的期待值值。即使用常識判斷斷都可以知道道如果僅用訪訪問成功者的的數(shù)據(jù)來對母母體做推論一一定會有偏差差。不幸的是是,多數(shù)調(diào)查查者在沒有更更好的辦法之之下,往往只只能依據(jù)訪問問成功者的數(shù)數(shù)據(jù),或者使使用預(yù)備樣本本或替代樣本本來湊足預(yù)定定的樣本數(shù)進(jìn)進(jìn)行推論,這這些做法所造造成的偏差因因調(diào)查性質(zhì)而而異。如果我我們把整個(gè)抽抽樣設(shè)計(jì)看做做是分層抽樣樣,一層是有有反應(yīng)者,或或訪問成功者者,母體數(shù)是是,樣本數(shù)是是,另一層是是無反應(yīng)者,或或訪問失敗者者,母體數(shù)是是,樣本數(shù)是是,所以母體體總數(shù),樣本本總數(shù)。令反反應(yīng)率,無反反應(yīng)率。假設(shè)設(shè)母體某項(xiàng)特特征的百分比比是,而所有有樣本中具有有該項(xiàng)特征的的個(gè)案數(shù)是XX,則,,是對對母體的無偏偏估計(jì),。事實(shí)上,因?yàn)樵L訪問失敗的情情形使我們僅僅有個(gè)具有該該項(xiàng)特征的樣樣本,是無反反應(yīng)樣本中具具有該項(xiàng)特征征的個(gè)案數(shù),因因訪問失敗而而未知。令,,而我們知道是對母母體百分比的的無偏估計(jì)。如如果僅用成功功樣本的百分分比來代替,則其其差距是公式(2))的數(shù)值可以以很容易的推推論到母體參參數(shù)的差距上上。換句話說說,如果僅用用成功樣本的的百分比來推推論母體百分分比,則其偏偏差可以證明明是等于母體體的無反應(yīng)層層比例乘上有有反應(yīng)層中具具有該特征的的百分比和無無反應(yīng)層中該該項(xiàng)百分比的的差距(Coochrann,19777.p3611)。用日常常生活語言來來看,公式((2)可以看看做是訪問失失敗的代價(jià)。如果只用成功樣本來做推論,則所造成的偏差等于失敗率乘上有反應(yīng)者和無反應(yīng)者之間的差異。Cochran(1977,p362)和洪永泰(1986)曾針對不同的失敗率計(jì)算出這些偏差的幅度預(yù)定樣本、膨脹樣本、替代樣本、追蹤失敗樣本至少50個(gè)。將失敗樣本同成功樣本做卡方檢定。先預(yù)估失敗率,用膨脹樣本多抽樣準(zhǔn)備失敗樣本抽1600,失敗600,然后追蹤失敗,然后與成功樣本比對。千萬不要替代樣本不然會惡化偏差。。預(yù)定樣本、膨脹樣本、替代樣本、追蹤失敗樣本至少50個(gè)。將失敗樣本同成功樣本做卡方檢定。先預(yù)估失敗率,用膨脹樣本多抽樣準(zhǔn)備失敗樣本抽1600,失敗600,然后追蹤失敗,然后與成功樣本比對。千萬不要替代樣本不然會惡化偏差。有關(guān)這方面面的研究在國國外自五十年年代即有人提提出探討,并并做了一些建建議(PollitzandSSimmonns,19449),歷經(jīng)經(jīng)三、四十年年不斷的充實(shí)實(shí),雖然迄今今仍無一種公公認(rèn)的最佳解解決辦法,但但至少已經(jīng)建建立了一些基基本的處理方方式和解決方方向。Yattes(19933)最早早曾以最小平平方法來估計(jì)計(jì)不完整的數(shù)數(shù)據(jù),這是插插補(bǔ)(impputatiion)方法法的開始。HHartleey(19558)則以最最大概似法((MaximmumLiikelihhoodEEstimaate)來做做插補(bǔ)。另一一方面,Deeming((1944))從「再訪」」(Calllback))技術(shù)上下手手。這是追蹤蹤訪問方法的的開始。Haansen和和Hurwiitz(19946)把「「訪問失敗者者的二度抽樣樣訪問」理論論建立起來,他他們把再訪費(fèi)費(fèi)用當(dāng)做是一一個(gè)重要的因因素來決定再再訪樣本數(shù)。Politz-Simmons(1949,1950)則根據(jù)Hartley的想法而發(fā)展出一套加權(quán)辦法,以不同層的失敗率反算回去各層的加權(quán)數(shù),藉以修正因訪問失敗而造成的推論偏差。遺憾的是是,雖然這方方面的研究已已有數(shù)十年的的歷史,可是是始終無法確確定一個(gè)良好好可行的補(bǔ)救救辦法。19977年美國國國家科學(xué)院院(NatiionalAcadeemyoffScieences))的國家研究究會議(NaationaalRessearchhCounncil)乃乃責(zé)成其國家家統(tǒng)計(jì)委員會會(CommmitteeeonNNationnalSttatisttics)和和「行為、社社會科學(xué)、及及教育委員會會」(CommmissiiononnBehaavioraalanddSociialScciencees,anndEduucatioon)組成一一個(gè)「不完整整數(shù)據(jù)討論小小組」(PaaneloonInccompleeteDaata),聚聚集各方學(xué)者者專家綜合總總結(jié)有關(guān)抽樣樣調(diào)查中訪問問失敗問題的的研究,做出出一個(gè)回顧性性的總整理,其其最后報(bào)告三三巨冊于19983年問世世(Madoowetal,19983)。稍稍后,Rubbin(19987)將多多重插補(bǔ)法((MultiipleIImputaation))專輯成書。LLittleeandRubinn(19877)則對統(tǒng)計(jì)計(jì)上遺漏數(shù)據(jù)據(jù)(Misssingddata)的的分析做了完完整的處理。這這三本書可以以說是當(dāng)今有有關(guān)訪問失敗敗問題最重要要的參考書籍籍。關(guān)于訪問失敗敗的補(bǔ)救辦法法大體上可分分為三大類::一是加權(quán)處處理weigghtingg),二是插插補(bǔ)(impputatiion),三三是建立模型型(modeelbuiildingg)。這三類類方法當(dāng)中有有許多處理原原則在實(shí)際運(yùn)運(yùn)用上變成相相同的程序和和結(jié)果,稍后后將予介紹。三、加權(quán)加權(quán)議題在抽樣樣調(diào)查方法論論的領(lǐng)域里早早已存在,先先進(jìn)國家有關(guān)關(guān)這方面的理理論研究與實(shí)實(shí)務(wù)操作已有有相當(dāng)規(guī)模,且且因研究設(shè)計(jì)計(jì)和數(shù)據(jù)搜集集方式日新月月異而不斷推推陳出新,其其間比較具有有里程碑意義義的文獻(xiàn)有::DemingandSStephaan(1940)::事后分層重重復(fù)多個(gè)變數(shù)數(shù)逐一加權(quán);;HansenandHHurwittz(1943)::以抽取率的的倒數(shù)加權(quán);;HorvitzzandThomppson(1952)::以單位中選選率的倒數(shù)加加權(quán);Kish(19965):加加權(quán)的理論與與實(shí)務(wù),偏向向應(yīng)用層面;;Madow,Olkinn,anddRubiin(1983)::階段性總整整理的論文集集;SurveyMethoodologgy13卷2期(19877):個(gè)人與與家戶加權(quán)議議題特刊;Kasprzyyk,Duuncan,,Kaltton,aandSiingh(1989)::時(shí)間序列下下的加權(quán);SurveyMethoodologgy21卷1期(19955):時(shí)間序序列下個(gè)人與與家戶加權(quán)的的議題;如果先不考慮復(fù)復(fù)雜的研究設(shè)設(shè)計(jì),只論大大家熟悉的獨(dú)獨(dú)立抽樣調(diào)查查個(gè)案,則一一般情況之下下所涉及的加加權(quán)處理方式式大略可歸類類為以下幾種種:如果是不等機(jī)率率的抽樣設(shè)計(jì)計(jì),則以每個(gè)個(gè)個(gè)體中選機(jī)機(jī)率的倒數(shù)加加權(quán);這個(gè)權(quán)權(quán)值也有人稱稱為「放大系系數(shù)」或「膨膨脹系數(shù)」。例例如某校有330個(gè)系,10,,000名學(xué)學(xué)生,現(xiàn)在要要抽樣調(diào)查全全校學(xué)生吸煙煙的比例,決決定以隨機(jī)方方式抽出100個(gè)系,每個(gè)個(gè)系抽出100個(gè)學(xué)生,總總計(jì)樣本數(shù)1100人。這這個(gè)抽樣設(shè)計(jì)計(jì)使得每個(gè)系系中選機(jī)率都都是10/330,但因每每個(gè)系學(xué)生人人數(shù)并不相等等,造成每個(gè)個(gè)學(xué)生的中選選機(jī)率到最后后變成(10/300)*(10//A),A是每系的學(xué)學(xué)生數(shù),所以以是個(gè)不等機(jī)機(jī)率的抽樣;;表12.11是個(gè)假設(shè)性性的說明:表12.1一個(gè)假設(shè)的的不等機(jī)率抽抽樣下不加權(quán)權(quán)與加權(quán)的比比較學(xué)系編號學(xué)學(xué)生數(shù)樣本數(shù)吸煙人數(shù)數(shù)抽取率率權(quán)值推推估1250010033(10/300)*(10/2550)7752252120010022(10/300)*(10/1220)3367223560010055(10/300)*(10/5660)16888404420010044(10/300)*(10/4220)12665045180010011(10/300)*(10/1880)5545446220010044(10/300)*(10/2220)6662647480010033(10/300)*(10/4880)14444328360010011(10/300)*(10/3660)10881089240010022(10/300)*(10/2440)77214410520106(10/300)*(10/5220)1566936合計(jì)100033135779估計(jì)母群體抽抽煙比率31%%335.79%%如果是等機(jī)率抽抽戶,再以戶戶中選樣程序序每戶抽出一一位受訪者,則則因每戶的合格人數(shù)數(shù)不相等而造造成不等機(jī)率率抽樣,應(yīng)依依上一項(xiàng)原則則處理。這個(gè)個(gè)加權(quán)程序在在美國一向被被忽略,因?yàn)闉槊绹募覒魬艚Y(jié)構(gòu)差異性性較小,加權(quán)權(quán)雖有其正當(dāng)當(dāng)性,但影響響估計(jì)成效極極微,傳統(tǒng)上上被認(rèn)為不值值得而遭忽略略。分層抽樣在合并并全體數(shù)據(jù)對對母體進(jìn)行推推估時(shí),通常常需要考慮使使用比較適用的估計(jì)方方法,例如最最基本的形式式是以各層樣樣本平均數(shù)乘乘上各層母體體比重(亦即即各層權(quán)值),常常見的公式是是:=式中w=N/NN,N是母體總個(gè)個(gè)案數(shù),N是母體第ii層總個(gè)案案數(shù);但也有有引用輔助變變量成為比率率估計(jì)(raatioeestimaate)的作作法,此一輔輔助變量即成成為權(quán)值,例例如r=Σyy/Σx,屆時(shí)可可以考慮的選選擇就多了,可可以先在各層層內(nèi)先得到各各層的r值再依各層層比重合并,也也可以先分別別加權(quán)合并各各層的y和x然后再再計(jì)算最后的的r。以事后分層(ppost-sstratiificattion)方方式加權(quán),這這是完全不顧顧數(shù)據(jù)的搜集過程,只考慮慮將現(xiàn)有的數(shù)數(shù)據(jù)依照已知知的母體分布布結(jié)構(gòu)給予每每一個(gè)案一個(gè)個(gè)權(quán)值使得加加權(quán)后的數(shù)據(jù)據(jù)在加權(quán)變量量的分布上和和母體一致,是是標(biāo)準(zhǔn)的「鋸鋸箭」作法。這這種作法的好好處是可以提提高估計(jì)的準(zhǔn)準(zhǔn)確度,也可可以補(bǔ)救因?yàn)闉槌闃忧鍍院w性不完整整以及訪問失失敗和樣本代代表性方面的的缺失;只是是在使用時(shí)必必須具備兩個(gè)個(gè)條件:一是是必須知道母母體中各層的的比重,二是是各層樣本數(shù)數(shù)必須夠大,Scheafferetal(1990)以為各層樣本數(shù)至少應(yīng)有20人。事后分層對母體參數(shù)的估計(jì)和各層權(quán)值的計(jì)算公式是:====式中=(N/N)*(n//n)即是以個(gè)個(gè)案為計(jì)算單單位的權(quán)值,我我們也可以看看出第i層之內(nèi)每個(gè)個(gè)個(gè)案權(quán)值都都是相同的。至至于母體平均均數(shù)估計(jì)的變變異量估計(jì)則則是:這個(gè)公式的第一一項(xiàng)和一般分分層抽樣的結(jié)結(jié)果完全相同同,第二項(xiàng)是是事后分層的的代價(jià),但是是數(shù)量極小,因因?yàn)樵谡5牡臉颖緮?shù)情況況下幾乎可以以忽略。(五)涵蓋性不不足(nonn-coveerage)及及訪問失?。╪on-response)的補(bǔ)救加權(quán),這幾乎是文獻(xiàn)上討論最多的議題,理論和實(shí)務(wù)的建議處理方式極多,可是絕對居優(yōu)勢或適用條件最好的方法仍未產(chǎn)生。本文將使用分組推估訪問成功率,然后以其倒數(shù)為放大系數(shù)的作法加權(quán)并評估其成效。(六)多個(gè)變數(shù)數(shù)逐一加權(quán)反反復(fù)操作至收收斂為止(rrakingg),這是在在實(shí)務(wù)上通常常研究者會有有某些變量的的母體分布數(shù)數(shù)據(jù),或相當(dāng)當(dāng)好的母體分分布估計(jì)數(shù)據(jù)據(jù),但是不會會有變量間的的交叉分布母母體數(shù)據(jù),例例如研究者當(dāng)當(dāng)然會有某個(gè)個(gè)地區(qū)各縣市市的人口分布布數(shù)據(jù),也可可能有不錯(cuò)的的教育程度的的分布數(shù)據(jù),但但卻沒有各縣縣市內(nèi)各種教教育程度分布布數(shù)據(jù),加權(quán)權(quán)的作法是先先把樣本數(shù)據(jù)據(jù)分組,然后后挑選一個(gè)變變量如縣市,以以事后分層的的方式加權(quán)將將全體樣本的的縣市分布調(diào)調(diào)整到和母體體分布一致,再再以這時(shí)后的的樣本教育程程度分布為基基礎(chǔ),進(jìn)行教教育程度變量量的加權(quán),結(jié)結(jié)果會使教育育程度分布「「正確」但縣縣市分布又「「歪」了,此此時(shí)再
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生活垃圾焚燒發(fā)電項(xiàng)目冬期專項(xiàng)施工方案
- 企業(yè)法人變更說明
- 2024-2025學(xué)年山東省濰坊市昌樂縣統(tǒng)編版五年級上冊期中考試道德與法治試卷(無答案)
- 帕金森病病案討論
- 珠寶行業(yè)保理業(yè)務(wù)規(guī)范
- 商業(yè)綜合體單元門安裝協(xié)議
- 礦產(chǎn)資源電梯租賃協(xié)議范本
- 水利工程現(xiàn)場管理指南
- 建筑工程授權(quán)合同范本
- 豆制品加工場地租賃合同
- 2024-2025學(xué)年廣東省珠海一中、廣州二中等六校高三(上)第二次聯(lián)考物理試卷(10月份)(含答案)
- 河南省信陽市2024-2025學(xué)年人教版八年級上期數(shù)學(xué)期中測試
- 第六章 一次函數(shù)(13個(gè)題型突破)
- 人教版(2024新版)八年級上冊物理期中檢測試卷(第一章 機(jī)械運(yùn)動(dòng)~第三章 物態(tài)變化)(含答案)
- 2024秋期國家開放大學(xué)本科《國際私法》一平臺在線形考(形考任務(wù)1至5)試題及答案
- 2024年不能勝任工作解除勞動(dòng)合同協(xié)議范本
- 2025屆重慶市七校聯(lián)盟數(shù)學(xué)高二上期末學(xué)業(yè)水平測試試題含解析
- 2024-2025學(xué)年初中信息技術(shù)(信息科技)七年級上冊蘇科版(2023)教學(xué)設(shè)計(jì)合集
- 2024年6月高考真題浙江卷化學(xué)試題(解析版)
- 2024-2025學(xué)年高一上學(xué)期期中考試動(dòng)員主題班會課件
- 部編人教版三年級道德與法治上冊:期末測試卷(含答案)
評論
0/150
提交評論