




已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
調(diào)查技能教程培訓(xùn)講義 第一章 調(diào)查導(dǎo)論調(diào)查就是使用明確的概念、方法和程序,以有組織、有條理的方式,從一個總體的部分或所有單元中搜集感興趣的指標(biāo)信息,并將這些信息綜合編輯成有用的簡要形式的所有活動。調(diào)查的步驟包括:- 調(diào)查目標(biāo)的系統(tǒng)陳述;- 抽樣框的選擇;- 抽樣方法的確定;- 問卷設(shè)計;- 數(shù)據(jù)收集;- 數(shù)據(jù)編碼和錄入;- 審核與插補(bǔ);- 估計;- 數(shù)據(jù)分析和調(diào)查結(jié)果的表述;- 數(shù)據(jù)發(fā)布;- 文檔。調(diào)查的生命周期- 調(diào)查計劃;- 設(shè)計和開發(fā);- 操作與實(shí)施;- 調(diào)查評估。第二章 調(diào)查目標(biāo)的系統(tǒng)陳述步驟與過程1)確定信息需求(陳述問題)使用一般的術(shù)語來描述客戶對調(diào)查的信息需求。2) 確定數(shù)據(jù)的使用者(用戶)和數(shù)據(jù)的用途數(shù)據(jù)用戶的意見在調(diào)查計劃階段中十分重要確定數(shù)據(jù)應(yīng)用的范圍應(yīng)適當(dāng)控制,不宜過大應(yīng)使信息需求得到具體且精確的表述。3)概念及運(yùn)作定義盡可能地使用清楚、精確,已形成共識的標(biāo)準(zhǔn)定義,方便數(shù)據(jù)使用者和被調(diào)查者的交流,確保調(diào)查的一致性。4)調(diào)查內(nèi)容必須確認(rèn)調(diào)查內(nèi)容包括信息需求的所有方面,但不包括任何無關(guān)項目。5)分析方案(生成表)確定每個項目的調(diào)查結(jié)果所需的詳細(xì)程度及形式。對數(shù)據(jù)分析和表示方式的詳細(xì)計劃稱為分析方案,并需要制作生成表(數(shù)據(jù)匯總表的格式)。生成表是將每個調(diào)查項目的調(diào)查結(jié)果按被調(diào)查者的類別分類列出而生成的數(shù)值表或頻數(shù)表。生成表為以后的分析,也為問卷設(shè)計中確定相應(yīng)調(diào)查項目的詳細(xì)程度及整個問卷的框架提供了依據(jù)。生成表的例:表2.3 2001年按P省地域劃分的成年人口的勞動力情況地域勞動力情況就業(yè)待業(yè)下崗非勞動力合計城市A城市B城市C地區(qū)D地區(qū)E地區(qū)F地區(qū)G地區(qū)H地區(qū)I地區(qū)J地區(qū)K總計影響目標(biāo)陳述的限制性因素- 要求的精度;- 可以利用的資源(預(yù)算、人力和設(shè)備);- 時間限制;- 用現(xiàn)有的技術(shù)能否對調(diào)查變量進(jìn)行測量;- 對被調(diào)查者的回答負(fù)擔(dān);- 被調(diào)查單位或個人的隱私或機(jī)密是否會被泄露;- 對被調(diào)查者的名譽(yù)是否有負(fù)面影響。第三章 調(diào)查設(shè)計導(dǎo)論兩種不同的調(diào)查:普查與抽樣調(diào)查在普查中,我們從總體的所有單元中收集信息;而在抽樣調(diào)查中我們僅僅從總體中的一部分(通常是很小的一部分)單元中收集信息。抽樣調(diào)查能在充分滿足客戶所需信息質(zhì)量的前提下,提供一種更快、更節(jié)省的方法。相對于普查來說,抽樣調(diào)查規(guī)模小,因而更容易進(jìn)行監(jiān)控,對被調(diào)查者的心理壓力也小。一項經(jīng)科學(xué)設(shè)計并嚴(yán)格實(shí)施的抽樣調(diào)查完全有可能獲得比全面調(diào)查(普查)更為準(zhǔn)確、更為可靠的結(jié)果。在抽樣調(diào)查和普查之間作抉擇時,最需要考慮的因素:- 費(fèi)用- 時效- 總體大小- 小區(qū)域估計- 屬性的多寡- 調(diào)查誤差- 特殊要求- 其它因素進(jìn)行普查的一個原因是為了獲得一些標(biāo)準(zhǔn)信息(或輔助信息)。這些信息可以用于改進(jìn)抽樣設(shè)計或抽樣調(diào)查的估計量。目標(biāo)總體和調(diào)查總體目標(biāo)總體就是希望從中獲取信息的總體。它是所感興趣的所有單元的集合。在陳述調(diào)查目標(biāo)時就應(yīng)定義目標(biāo)總體。定義目標(biāo)總體所必不可少的四個因素是:- 總體中單元的類型;- 單元的特征(指標(biāo));- 單元的地理位置;- 調(diào)查的標(biāo)準(zhǔn)時點(diǎn)(或時期)。目標(biāo)總體只是概念性的,并不一定需要一個實(shí)際存在的名錄。調(diào)查總體(抽樣總體)即實(shí)際調(diào)查所覆蓋的總體。它可以與目標(biāo)總體不完全一致,理想狀態(tài)下,這兩個總體應(yīng)該很相似。依據(jù)調(diào)查的結(jié)果所得出的結(jié)論僅適用于調(diào)查總體。抽樣框(調(diào)查框)抽樣框(調(diào)查框)提供了一條辨別和聯(lián)系調(diào)查總體單元的有效途徑。對于抽樣調(diào)查,可根據(jù)抽樣框計算總體中每個單元的入樣概率。抽樣框應(yīng)該包括下述部分或全部內(nèi)容:- 識別資料;- 聯(lián)系資料;- 分類資料;- 維護(hù)與連接資料(為更新抽樣框);- 輔助資料。抽樣框的類型名錄框(目錄框)是有關(guān)所有總體單元的一份實(shí)際的或者概念的名錄清單。概念名錄框常是基于一個調(diào)查正在進(jìn)行中才存在的總體。實(shí)際名錄框可取自各種不同的來源。各級政府機(jī)構(gòu)因各自的管理目的都保存一些名錄,他們也是對抽樣框進(jìn)行維護(hù)的最有效的資料來源。區(qū)域框是其單元由地理區(qū)域構(gòu)成的一種特殊的名錄框,也稱地域框。區(qū)域框適用于以下所述的兩種情況:當(dāng)調(diào)查本質(zhì)就是地理性質(zhì)的(如通過每平方公里的野生動物數(shù)來估計野生動物的總數(shù));或者不能獲得一個適當(dāng)?shù)拿浛?。?dāng)沒有合適的名錄框時,可以考慮借助區(qū)域框來構(gòu)造名錄框。通過一個區(qū)域框抽取地理區(qū)域,并列出被抽中區(qū)域內(nèi)的單元清單。對不斷變化的總體,任何名錄框都會很快過時。比較而言,由于地理邊界相對穩(wěn)定,維護(hù)一個區(qū)域框也就更為容易。區(qū)域框中的單元可以分不同的層次,上一級單元可以細(xì)分成許多下一級單元。多重抽樣框是兩個或兩個以上的抽樣框的組合(如名錄框和區(qū)域框的組合或者兩個或兩個以上名錄框的組合)。抽樣框的優(yōu)良性準(zhǔn)則:- 實(shí)用;- 精確;- 時效;- 費(fèi)用。抽樣框可能的缺陷:- 不完全涵蓋(或不完全覆蓋)- 過涵蓋(過覆蓋);- 重復(fù);- 分類誤差。調(diào)查誤差- 抽樣誤差抽樣誤差是指僅根據(jù)對總體的一部分而不是全部的調(diào)查來估計總體特征所引起的誤差。對于概率抽樣調(diào)查,可以計算抽樣誤差。計算方法取決所用的抽樣方法與估計方法(抽樣策略)。抽樣誤差的大小取決于下列因素:- 樣本量;- 總體指標(biāo)的變異程度;- 抽樣設(shè)計;- 估計方法;- 總體大小。- 非抽樣誤差非抽樣誤差為除抽樣之外的幾乎所有調(diào)查活動過程中所產(chǎn)生的誤差。非抽樣誤差不僅出現(xiàn)在抽樣調(diào)查中,也出現(xiàn)在普查中。非抽樣誤差可以劃分為兩類:1)隨機(jī)誤差:如果樣本足夠大,這類誤差可以忽略。隨機(jī)誤差只增加估計值的變異性。2)系統(tǒng)誤差:誤差傾向于同一個方向,會導(dǎo)致最終結(jié)果的偏倚。非抽樣誤差的計量,極為困難。與抽樣方差不同的是,系統(tǒng)誤差導(dǎo)致的偏倚不能隨樣本量的增大而減少。非抽樣誤差的來源:- 涵蓋誤差涵蓋誤差表示在抽樣框或者樣本中出現(xiàn)了單元的遺漏、錯誤的包含、重復(fù)以及錯誤的分類。涵蓋誤差可以導(dǎo)致估計的偏倚,且偏倚的大小隨總體的不同子總體而不同。- 計量誤差 計量誤差是指對一個問題所做的回答記錄與它的真值之間的差異。計量誤差能影響非抽樣誤差的大小并造成估計的偏倚。如果計量誤差是隨機(jī)的(實(shí)際獲得的觀測值隨機(jī)地散布在真值周圍),則會增大估計值的方差,從而降低調(diào)查的精度。如果計量誤差系統(tǒng)地偏向某個方向或某個類別,就會產(chǎn)生估計的偏倚。- 無回答誤差無回答有兩種類型:全部無回答(單元無回答)和部分無回答(項目無回答)。單元無回答是指被調(diào)查單元沒有提供任何信息,而項目無回答是指問卷中某些問題的回答空缺。無回答的影響:無回答的被調(diào)查者與回答的被調(diào)查者具有不同的特征,因此如果對無回答不予糾正,將會引起調(diào)查估計的偏倚。由于比預(yù)期的要少的單元進(jìn)行了回答,有效樣本的數(shù)量減少,從而使抽樣誤差增大。單元無回答的產(chǎn)生的原因:無人在家、拒絕訪問或者由于某些原因所抽中的人無法參加調(diào)查;不完整的抽樣框資料是無回答產(chǎn)生的另一個原因。項目無回答發(fā)生在以下場合:被調(diào)查者不知道答案,拒絕回答某個問題,忘了回答,或者錯誤地跟隨問卷的進(jìn)程漏了回答,或由于有病或語言障礙而不能回答。設(shè)計低劣的問卷或者訪問本身也會引起項目無回答。- 處理誤差 處理是指將收集的調(diào)查結(jié)果轉(zhuǎn)化為適合于列表及進(jìn)行進(jìn)一步數(shù)據(jù)分析所需要的形式。處理包含數(shù)據(jù)收集以后,作估計以前,對數(shù)據(jù)的編碼、錄入、審核及插補(bǔ)等的一切活動。處理誤差通??赏ㄟ^質(zhì)量保證和控制方法來監(jiān)控。第四章 數(shù)據(jù)收集方法數(shù)據(jù)收集是在調(diào)查中對每一個被抽中的單元收集信息的過程。- 找到被抽中單元并與之相接觸或建立聯(lián)系;- 取得他們的配合;- 提問(或直接測量);- 記錄回答(結(jié)果)。數(shù)據(jù)收集的目標(biāo)是獲得盡可能完整且精確的數(shù)據(jù)。兩種主要數(shù)據(jù)收集模式紙張式 回答記錄在用紙印刷的問卷上,數(shù)據(jù)錄入是數(shù)據(jù)收集后的一個單獨(dú)的過程。對于一次性調(diào)查來說,紙張式方法通常比計算機(jī)輔助式方法更便宜,且開發(fā)所需時間也少。計算機(jī)輔助式 問卷出現(xiàn)在計算機(jī)屏幕上,調(diào)查時將答案直接輸入到計算機(jī)中。數(shù)據(jù)收集成為一個完整、快速的,比紙張式方法更有效的過程。計算機(jī)輔助數(shù)據(jù)收集方法的其他優(yōu)點(diǎn):- 問卷在問題的設(shè)置流程和審核方面可以更復(fù)雜;- 對數(shù)據(jù)質(zhì)量更容易進(jìn)行監(jiān)督和控制;- 更容易產(chǎn)生關(guān)于訪問情況的管理報告;- 能夠?qū)е螺^少的回答負(fù)擔(dān);- 減少數(shù)據(jù)收集之后對某些單元的追蹤回訪;- 對重復(fù)性調(diào)查,可以減少回答誤差;- 對類似的調(diào)查或重復(fù)性調(diào)查,可節(jié)省開發(fā)費(fèi)用。計算機(jī)方式收集方法的其他缺點(diǎn)有:- 需要做大量的程序開發(fā)工作,且需經(jīng)過嚴(yán)格的測試;- 必須為每位訪員提供一臺已裝好程序及有關(guān)文件的筆記本電腦;- 要求填寫問卷的人經(jīng)過培訓(xùn);- 不同計算機(jī)之間的數(shù)據(jù)傳輸必須保證調(diào)查資料的保密性;- 容易受到技術(shù)問題的困擾。數(shù)據(jù)收集的基本方法- 自填式:被調(diào)查者在沒有訪員協(xié)助的情況下完成問卷。把問卷遞送/返回的方法有:由調(diào)查員分發(fā),通過郵寄或傳真。在使用計算機(jī)輔助自我調(diào)查(CASI): 將問卷的電子版本送交給被調(diào)查者,被調(diào)查者使用計算機(jī)完成問卷;- 人員面訪:訪問以面對面的形式進(jìn)行,訪(問)員協(xié)助被調(diào)查者完成問卷。用紙張式方法時,由于同時需要用筆,故這種方法也稱為紙筆面訪(PAPI);當(dāng)用計算機(jī)式方法時,稱作計算機(jī)輔助式面訪(CAPI);- 電話訪問:訪員通過電話協(xié)助被調(diào)查者完成問卷。用紙張式方法時,稱為紙筆訪問(PATI);使用計算機(jī)方式時,稱為計算機(jī)輔助電話訪問(CATI)。1)自填式自填式問卷要求問卷結(jié)構(gòu)嚴(yán)謹(jǐn),應(yīng)有制作詳細(xì)、形象友好的說明。有時可使用記帳式(日記式)問卷。自填式方法通常適用于受過相當(dāng)好的教育的被調(diào)查者,管理相對容易。對于要求詳細(xì)信息的調(diào)查,由于可以參考個人記錄,可減少回答誤差,也可用于敏感問題的調(diào)查。但自填式的回答率通常低于訪員協(xié)助式方法。- 對被調(diào)查者的回答負(fù)擔(dān)很大。- 當(dāng)用郵寄的方式遞送和返回問卷時,需要的時間較長。- 是所有數(shù)據(jù)收集方法中最便宜的一種方法。計算機(jī)輔助自我調(diào)查(CASI)在CASI中,出現(xiàn)在計算機(jī)上的問卷具有審核和“幫助”功能,用電子文件的形式將問卷傳送給被調(diào)查者。被調(diào)查者使用自己的計算機(jī)完成問卷。2) 訪員協(xié)助方法有訪員的好處是他或她能使面訪個性化,能提高回答率。在識字率較低,或當(dāng)概念及問卷較復(fù)雜時,訪員特別有用。隨著回答率的不斷提高,數(shù)據(jù)質(zhì)量也因?yàn)樵L員的存在而得到提高,從而減少回答誤差,避免部分無回答,減少事后的追蹤回訪,也會減輕被調(diào)查者的負(fù)擔(dān)。訪員協(xié)助式方法的缺點(diǎn)是費(fèi)用較高且較難管理。對于敏感性問題,被調(diào)查者可能不會像在自填式方法情況下那樣愿意提供回答。計算機(jī)輔助調(diào)查(CAI)在計算機(jī)輔助調(diào)查(CAI)的情況下,訪員配備計算機(jī),調(diào)查是在計算機(jī)的輔助下進(jìn)行的。CAI調(diào)查可以通過電話進(jìn)行(即計算機(jī)輔助電話調(diào)查,CATI),也可以通過訪員與被調(diào)查者面對面進(jìn)行(即計算機(jī)輔助面訪,CAPI)。計算機(jī)輔助調(diào)查的主要優(yōu)點(diǎn):回答率較高,反應(yīng)速度快。更容易對調(diào)查進(jìn)行管理。更容易對調(diào)查過程進(jìn)行質(zhì)量控制。訪員協(xié)助式數(shù)據(jù)收集方法與自填式方法的比較自填式方法訪員協(xié)助式方法面訪電話訪問費(fèi) 用低高中時 間較長平均較短回答率低高中偏高數(shù)據(jù)收集的其他方法直接觀測;電子數(shù)據(jù)傳輸或報告;行政數(shù)據(jù);結(jié)合法;搭車或混合調(diào)查。第五章 問卷設(shè)計問卷(或調(diào)查表、統(tǒng)計表)是專門為從被調(diào)查者那里獲得有關(guān)某個主題的信息而設(shè)計的一組或一系列問題。在數(shù)據(jù)收集過程中,問卷起著核心作用,也是影響數(shù)據(jù)質(zhì)量的主要因素。設(shè)計優(yōu)良的問卷應(yīng)該是:- 能有效地用來收集數(shù)據(jù),盡可能避免錯誤和前后不一致;- 對被調(diào)查者與訪員有友好的界面;- 應(yīng)盡量減少由無回答所引起的追蹤回訪的數(shù)量,最終減少收集和處理數(shù)據(jù)所花費(fèi)的費(fèi)用和時間。問卷開發(fā)程序問卷開發(fā)過程開始于調(diào)查目標(biāo)的陳述和信息需求,還包括下列步驟:- 向數(shù)據(jù)用戶和對象進(jìn)行咨詢;- 參考以前相同主題的問卷;- 起草問題;- 對問卷進(jìn)行審議與修改;- 對問卷進(jìn)行測試與修改;- 定稿。問卷的測試和修改測試目的:- 使問卷對被調(diào)查者和訪員具有友好的界面;- 有利于收集到正確的數(shù)據(jù);- 使問卷格式更有利于數(shù)據(jù)編碼和錄入;- 減少數(shù)據(jù)收集和處理的費(fèi)用及時間。測試方法:- 認(rèn)知法;- 焦點(diǎn)座談;- 非正式測試(預(yù)檢驗(yàn));- 向被調(diào)查者了解情況;- 向訪員了解情況;- 行為編碼;- 分離樣本測試;- 試點(diǎn)測試。1)認(rèn)知法認(rèn)知法是為研究被調(diào)查者回答過程的步驟而設(shè)計的。認(rèn)知法提供了考察被調(diào)查者回答問題時思考過程的方法。它有助于評估問題的有效性,并識別計量誤差的潛在來源。認(rèn)知訪談通常在“實(shí)驗(yàn)室”環(huán)境或在帶有單面鏡等監(jiān)督設(shè)備的房間中進(jìn)行。2)焦點(diǎn)座談焦點(diǎn)座談是由從所研究總體中選出的若干對象對所選主題進(jìn)行的非正式討論。通過焦點(diǎn)座談這種形式,使被調(diào)查對象或數(shù)據(jù)用戶以及訪員有機(jī)會把他們的觀點(diǎn)納入問卷設(shè)計過程。3)非正式測試(試答)對問卷的非正式測試可用于:- 發(fā)現(xiàn)問題措辭不當(dāng)或順序排列不好;- 識別問卷格式或指南中的錯誤;- 確定被調(diào)查者無力或不愿回答的問題;- 提出對某些問題增加可以預(yù)編碼的回答選項的建議;- 提供完成一次訪問所需的時間和回答率(包括項目無回答)的初始估計。問題的類型1)開放式問題 不向被調(diào)查者提供回答選項的問題。被調(diào)查者使用自己的語言或提供精確的數(shù)字來回答。開放式問題主要用于下列情況:用于問卷開發(fā)和測試階段。對審議實(shí)際問卷中問題的措辭和選項很為重要;可以從變化范圍很大的指標(biāo)中獲得確切的數(shù)字;為封閉式問題提供補(bǔ)充。開放式問題的優(yōu)點(diǎn):被調(diào)查者有機(jī)會進(jìn)行自我表達(dá)或詳細(xì)描述。開放式問題的缺點(diǎn):對被調(diào)查者來說,必須在沒有選項幫助的情況下確定問題的意圖。需要更多的時間來完成問卷。對統(tǒng)計調(diào)查機(jī)構(gòu)來說,記錄回答的過程(即數(shù)據(jù)錄入)及編碼更為困難。相對于封閉式問題而言,開放式問題會導(dǎo)致費(fèi)用更高、更費(fèi)時,而且更容易產(chǎn)生誤差。2)封閉式問題 在提出問題的同時,列出若干可能的答案供被調(diào)查者進(jìn)行選擇。每種答案稱為一個選項,要求被調(diào)查者在這些選項中,選擇一個(或幾個)作為回答。優(yōu)點(diǎn):被調(diào)查者能更快、更容易地回答問題,更可能按設(shè)計者希望的意圖來回答問題,收集起來的數(shù)據(jù)更容易分析。與開放式問題相比,封閉式問題的編碼和數(shù)據(jù)錄入也更容易,花費(fèi)也更省。如果一個問題被用于多項調(diào)查之中,運(yùn)用相同的回答選項將有助于對調(diào)查結(jié)果進(jìn)行比較。封閉式問題有多種:最常用的是二項選擇問題、多項選擇問題和多選問題、排序問題和等級評定問題等。特別強(qiáng)調(diào)所有選項應(yīng)互斥(不相重疊),且窮盡的。問題的措辭- 措辭要簡單- 定義縮略語或簡稱- 確保問題適用- 措辭要具體- 避免意義雙關(guān)的問題- 避免引導(dǎo)性問題- 避免使用雙重否定- 減少敏感問題或隱私問題的影響- 確保問題讀起來順口問卷格式問題的順序問題的順序應(yīng)能鼓勵被調(diào)查者完成問卷,并維持他們對問卷的興趣;還應(yīng)利于被調(diào)查者回憶,并使被調(diào)查者覺得自然;應(yīng)該反映被調(diào)查者的邏輯,同時還要集中于調(diào)查的主題。問題應(yīng)該自然地從一個轉(zhuǎn)到另一個,應(yīng)將同一主題的問題組織在一起。1) 引言問卷的引言應(yīng)該包含如下內(nèi)容:* 表明調(diào)查的名稱或主題;* 明確是誰組織進(jìn)行的調(diào)查;* 說明調(diào)查的目的;* 請求被調(diào)查者配合;* 說明完成問卷的重要性;* 確保被調(diào)查者弄清提供信息的價值;* 解釋將如何使用調(diào)查數(shù)據(jù);* 說明被調(diào)查者如何取得數(shù)據(jù);* 表明個人回答將予以保密,并顯示統(tǒng)計數(shù)據(jù)將與其它統(tǒng)計調(diào)查機(jī)構(gòu)、政府部門和客戶共享的任何協(xié)議;* 在郵寄調(diào)查中,提供返回地址和返回日期。2) 開場問題開場問題起著鼓勵被調(diào)查者參與調(diào)查的作用。第一個問題應(yīng)與調(diào)查的目的直接相關(guān)。3) 敏感問題的位置敏感問題應(yīng)該在被調(diào)查者感到輕松以及與其它問題的聯(lián)系最有意義的地方引入。4) 有關(guān)被調(diào)查者的背景材料和分類問題的位置有關(guān)被調(diào)查者的信息通常被用于分組。在住戶調(diào)查和許多社會調(diào)查中,反映被調(diào)查者本人或家庭的一些背景材料的問題通常放在問卷的最后。對被調(diào)查者提示或說明每份問卷應(yīng)該有一個唯一的識別號碼,即問卷編號。與問卷有關(guān)的計量誤差及其控制第六章 抽樣方法第一節(jié) 抽樣抽樣是通過抽取總體中的部分單元,收集這些單元的信息,用來對作為整體的總體進(jìn)行推斷的一種手段。兩種抽樣方法:非概率抽樣與概率抽樣。選擇使用哪種方法主要取決于我們是否打算對總體進(jìn)行推斷。第二節(jié) 非概率抽樣非概率抽樣是用一種主觀的(非隨機(jī)的)方法從總體中抽選單元。由于不需要完整的抽樣框,非概率抽樣是一種快速、簡單且節(jié)省的獲得數(shù)據(jù)的方法。由于非概率抽樣抽取樣本有傾向性與偏差且沒有一個抽樣框,不可能計算出各個單元的入樣概率,從而無法得到總體目標(biāo)量的可靠估計值及其抽樣誤差估計值。一、非概率抽樣能用在下面幾個方面的研究中:1.用來形成一種想法;2.作為設(shè)計開發(fā)概率抽樣調(diào)查的初始步驟;3.后續(xù)步驟中幫助理解概率抽樣調(diào)查結(jié)果。有時,非概率抽樣是唯一可行的選擇(例如,在醫(yī)學(xué)實(shí)驗(yàn)中,采用志愿者抽樣可能是取得數(shù)據(jù)的唯一途徑。非概率抽樣常被用于抽選參加焦點(diǎn)座談和深入訪問的個人。另一個能較好發(fā)揮非概率抽樣作用的例子是預(yù)研究。二、非概率抽樣的優(yōu)點(diǎn)是:1.快速簡便;2.費(fèi)用相對較低;3.不需要抽樣框;4.對探索性研究和調(diào)查的設(shè)計開發(fā)很有用。三、非概率抽樣的缺點(diǎn)是:1.為了對總體進(jìn)行推斷,需要對樣本的代表性做很強(qiáng)的假定。2.不可能得到可靠的估計值以及抽樣誤差估計值。四、幾種非概率抽樣方法:隨意抽樣;志愿者抽樣;判斷抽樣;配額抽樣;修正的概率抽樣。第三節(jié) 概率抽樣概率抽樣能使通過對樣本的調(diào)查,對總體進(jìn)行推斷。概率抽樣有兩條基本準(zhǔn)則:1) 單元是隨機(jī)抽取的;2) 調(diào)查總體中的每個單元都有一個非零的入樣概率,并且能計算出這些概率。概率抽樣的主要優(yōu)點(diǎn)有:能得到總體的可靠估計值并能計算每個估計值的抽樣誤差,因而能對總體進(jìn)行推斷。概率抽樣的主要缺點(diǎn)有:與非概率抽樣相比,概率抽樣比較復(fù)雜,更費(fèi)時,通常也更費(fèi)錢。但總的說來,其利遠(yuǎn)大于弊。一、簡單隨機(jī)抽樣(SRS)所有概率抽樣的出發(fā)點(diǎn)和理論基礎(chǔ)。簡單隨機(jī)抽樣是一種一步抽樣法,它保證樣本量為n的每個可能的樣本都有相同的被抽中的概率p=n/N。抽樣可以是放回的,也可以是不放回的。簡單隨機(jī)抽樣被用作評估其他抽樣策略的效率的基準(zhǔn),這里抽樣策略是指抽樣方法與所用估計量的結(jié)合。一個估計量就是一個用來計算估計值的公式。估計量的抽樣誤差是通過其抽樣方差來測量的,而抽樣方差定義為對采用這種抽樣設(shè)計的所有可能樣本,估計值距其平均值的差(稱為離差)平方的平均。如果一種抽樣策略的抽樣方差比另一種抽樣策略的抽樣方差小,我們就稱這種抽樣策略更有效率(統(tǒng)計效率)。一個有較小抽樣方差的估計量具有較高的精度。與其他抽樣技術(shù)相比,簡單隨機(jī)抽樣有以下優(yōu)點(diǎn):1.是最簡單的抽樣技術(shù);2.抽樣框不需要其他(輔助)信息,唯一需要的只是一個關(guān)于調(diào)查總體所有單元的一個完全的清單和與其如何聯(lián)系的信息;3.關(guān)于樣本量的確定、總體估計與方差估計都有現(xiàn)成的標(biāo)準(zhǔn)公式可以利用,因此技術(shù)發(fā)展已經(jīng)成熟。簡單隨機(jī)抽樣的缺點(diǎn)是:1.抽樣框中即使有現(xiàn)成的輔助信息也不加利用,使得估計的統(tǒng)計效率較其他利用輔助信息的樣本設(shè)計低;2.由于樣本在總體中的地理分布范圍比較廣,如果采用面訪,費(fèi)用較高;3.有可能抽到一個“差的”樣本;4.如果不用計算機(jī),而用隨機(jī)數(shù)表抽一個大樣本將十分單調(diào)勞神。簡單隨機(jī)樣本(圖示)二、系統(tǒng)抽樣(SYS)在系統(tǒng)抽樣中,樣本單元是從總體中按一定的(抽樣)間距抽出的。如果N不能被n整除,則可以使用圓形系統(tǒng)抽樣法來避免出現(xiàn)可能樣本量不一致的情況。圓形系統(tǒng)抽樣法的優(yōu)點(diǎn)是每一個單元都有相同的被抽入樣本的機(jī)會。使用系統(tǒng)抽樣的另一個問題是,抽樣間距k有可能正好碰上總體中變化的某種周期性,從而影響抽樣精度。系統(tǒng)抽樣的一個優(yōu)點(diǎn)是,在事先沒有總體單元名錄的情況下,也可以用。此時,我們可以使用并構(gòu)造一個概念抽樣框(只需要單元的排列順序),每隔k個抽一個單元直到總體的末尾。這種方法的一個缺點(diǎn)是,只有抽樣完成后才知道實(shí)際樣本量n。系統(tǒng)抽樣有以下優(yōu)點(diǎn):- 在沒有抽樣框時,可代替簡單隨機(jī)抽樣;- 與簡單隨機(jī)抽樣一樣,系統(tǒng)抽樣不需要輔助的抽樣框信息;- 與簡單隨機(jī)抽樣相比,系統(tǒng)抽樣樣本的分布較好(這還取決于抽樣間隔及名錄是如何排列的);- 與簡單隨機(jī)抽樣一樣,估計值容易計算;- 系統(tǒng)抽樣比簡單隨機(jī)抽樣簡單。系統(tǒng)抽樣的缺點(diǎn)有:- 如果抽樣間距正好碰上總體變化的某種未知的周期性,就會得到一個“差的”系統(tǒng)樣本;- 由于不使用抽樣框中的輔助信息,抽樣策略的效率不高;- 在使用概念框時,不能預(yù)先知道最終樣本量;- 抽樣方差沒有一個無偏的估計量;- 在總體大小N不能被樣本量n整除且不使用圓形抽樣法時,會得到樣本量不同的樣本。系統(tǒng)樣本(圖示)三、與大?。ɑ蛞?guī)模)成比例的概率(PPS)抽樣PPS抽樣是一種使用輔助信息從而使入樣概率不相等的抽樣技術(shù)。如果單元大小的度量是準(zhǔn)確的,而且所研究的變量與單元的大小相關(guān),PPS抽樣能極大地提高精度。PPS抽樣的一個很好的例子是商業(yè)調(diào)查。單元大小度量可用雇員數(shù)、年銷售額、經(jīng)營場所數(shù)等。PPS抽樣的主要優(yōu)點(diǎn)是由于使用了輔助信息,提高了抽樣策略的統(tǒng)計效率,能顯著地減少抽樣誤差。PPS抽樣有以下的缺點(diǎn):- 抽樣框中的所有單元,都要有高質(zhì)量的、能用作大小度量的輔助信息第七章 估計第一節(jié) 估計就是根據(jù)從樣本中收集的信息對總體未知量進(jìn)行推斷的過程。 第二節(jié) 加權(quán) 估計的第一步,就是給每個樣本單元或樣本中的每個回答單元賦予一個權(quán)數(shù)。 設(shè)計權(quán)數(shù)指的是每個樣本單元所代表的調(diào)查總體的單元數(shù),設(shè)計權(quán)數(shù)等于樣本單元的入樣概率的倒數(shù)。 等概率抽樣的加權(quán) 如果所有樣本單元的設(shè)計權(quán)數(shù)都相同,那么稱這樣的抽樣設(shè)計為自加權(quán)設(shè)計,等概率抽樣是自加權(quán)的。 對于自加權(quán)的抽樣設(shè)計,如果無需對權(quán)數(shù)進(jìn)行調(diào)整,那么在計算諸如總值、均值、比例等估計量時可以將其忽略,對總值的估計僅僅需要將樣本總值乘上某個倍數(shù)便可。 以下設(shè)計是自加權(quán)的: 簡單隨機(jī)抽樣; 等概率系統(tǒng)抽樣(等距抽樣); 比例分配,且每個層內(nèi)都使用簡單隨機(jī)抽樣或等距抽樣的分層抽樣; 除最后一階抽樣外,其它各階都按PPS抽樣,而在最后一階用相同樣本量等概率抽樣的多階抽樣。 例7.1 一個由N=1000個人構(gòu)成的總體被劃分為兩個層:第一層由N1=400名男性組成,第二層由N2= 600名女性組成。從中抽取樣本量為n=250的一個樣本,將樣本等比例地分配給各層,使得兩層的抽樣比都等于n/N=1/4。 男性層的樣本量是: 女性層的樣本量是: 此時,設(shè)計權(quán)數(shù)是多少? 對于男性層,入樣概率p1為: 對于女性層,入樣概率p2為: 這樣,每個人都有相同的入樣概率1/4,設(shè)計權(quán)數(shù)w 皆等于4。 二、不等概率抽樣設(shè)計的加權(quán) 例7.2 對于一項公共交通系統(tǒng)調(diào)查,總體由1100人組成,并按城鄉(xiāng)分為兩個層。城市層N1=1000,農(nóng)村層N2 =100。抽取一個n=250的樣本:城市層n1=200,農(nóng)村層n2=50。 層 總體大小 樣本量 城市 N1=1000 n1=200 農(nóng)村 N2=100 n2 =50 各層的權(quán)數(shù)是層單元入樣概率的倒數(shù): 城市層: 農(nóng)村層: 三、對無回答(單元無回答)的權(quán)數(shù)調(diào)整 處理無回答的最簡單的辦法就是忽略它。在一些特殊的情況下,對無回答進(jìn)行調(diào)整后所得的均值或比例的估計值,與未作任何調(diào)整的估計值相比并沒有任何改進(jìn)。然而,對總值的估計如果不對無回答進(jìn)行調(diào)整,則會導(dǎo)致對總值的低估。 無回答調(diào)整因子是原樣本單元的權(quán)數(shù)之和與回答單元的權(quán)數(shù)之和的比值。 對于自加權(quán)設(shè)計,這個比值也可以用原樣本的單元數(shù)與回答單元數(shù)的比值(回答率的倒數(shù))來表示。 例7.3 從一個N=100人的總體中抽取一個n =25人的簡單隨機(jī)樣本。記回答單元的數(shù)量為 ,結(jié)果只有20個人提供了所需的信息。求無回答的調(diào)整權(quán)數(shù)? 步驟1:計算設(shè)計權(quán)數(shù): 入樣概率p為: 每個樣本單元的設(shè)計權(quán)數(shù)為4。 步驟2:對無回答的設(shè)計權(quán)數(shù)進(jìn)行調(diào)整。 由于在n=25人中只有nr=20人提供了所需的信息此時無回答調(diào)整因子為: 步驟3:計算無回答的調(diào)整權(quán)數(shù)。 無回答的調(diào)整權(quán)數(shù)wnr等于設(shè)計權(quán)數(shù)與無回答調(diào)整因子的乘積: 于是對數(shù)據(jù)文件中的每一條記錄應(yīng)賦予權(quán)數(shù)5。 不同子總體往往具有不同的回答率,應(yīng)對這些子總體分別進(jìn)行無回答調(diào)整。 例7.2(續(xù)) 城市層中nr,1=150,農(nóng)村層nr,2=40 層 總體大小 樣本量 回答數(shù)量 城 市 N1=1000 n1=200 nr,1=150 農(nóng) 村 N2=100 n2=50 nr,2=40 步驟1:各層的設(shè)計權(quán)數(shù)為: 城市層wd,1=5,農(nóng)村層wd,2 = 2 步驟2:各層的無回答調(diào)整因子計算如下: 城市層: 農(nóng)村層: 步驟3:無回答的調(diào)整權(quán)數(shù)等于設(shè)計權(quán)數(shù)與無回答調(diào)整因子的乘積: 城市層: 農(nóng)村層: 四、事后分層調(diào)整 在調(diào)查中經(jīng)常應(yīng)使調(diào)查的估計值與已知的總體總值,或者從另一調(diào)查所得的估計值相匹配。例如,許多社會調(diào)查使用最新的人口普查數(shù)據(jù)來調(diào)整估計值,以確保這些估計值(如年齡、性別分布等)的一致性。 數(shù)據(jù)收集之前,可能得不到合適的分層信息,在數(shù)據(jù)收集后,利用樣本數(shù)據(jù),選用其中合適的變量對樣本進(jìn)行分層,這就是事后分層。事后分層需要對權(quán)數(shù)進(jìn)行調(diào)整。 例7.4 為得到某公司職員是否有吸煙習(xí)慣的信息,進(jìn)行了一項調(diào)查。從N=78人的名錄中抽出了一個n=25人的簡單隨機(jī)樣本。在設(shè)計階段,沒有可用于分層的輔助信息。 在收集關(guān)于吸煙習(xí)慣的信息的同時,收集了每個回答者的年齡和性別情況??偣灿衝r=15個人作了回答,樣本數(shù)據(jù)的分布為: 回答者數(shù)量 男性 女性 總計 吸煙的人數(shù) 1 7 8 總 人 數(shù) 3 12 nr =15 1.每個回答者的權(quán)數(shù)以及對無回答的調(diào)整計算如下: 設(shè)計權(quán)數(shù)是入樣概率的倒數(shù): 假定樣本中每個被調(diào)查者作出回答的概率都是相同的,用調(diào)查的總?cè)藬?shù)除以回答者的總?cè)藬?shù),得無回答調(diào)整因子: 無回答調(diào)整權(quán)數(shù)wnr即為設(shè)計權(quán)數(shù)與無回答調(diào)整因子的乘積: 2.利用無回答的調(diào)整權(quán)數(shù),可得到如下估計值: 調(diào)查的估計值 男性 女性 總計 第八章 樣本量的確定樣本量的確定 樣本量的確定 一、影響調(diào)查樣本量的因素首先是調(diào)查估計值要求達(dá)到的精度。 下列因素會影響精度,從而影響樣本量: - 總體指標(biāo)的變異程度; - 總體大??; - 樣本設(shè)計和所使用的估計量; - 回答率。 除了估計值的精度以外,實(shí)際調(diào)查運(yùn)作的限制也是影響樣本量的主要因素。 樣本量的確定包括對估計值的精度要求與各種運(yùn)作限制之間的平衡,這些運(yùn)作限制包括可獲得的預(yù)算、資源和時間。 二、精度(抽樣誤差)的幾種度量方法: 抽樣方差; 標(biāo)準(zhǔn)差; 誤差限; 置信區(qū)間; 變異系數(shù)。 三、確定精度需要考慮的因素 1)怎樣用調(diào)查估計值?對于調(diào)查估計值來說,多大的抽樣方差是可以接受的? 2)是否需要對調(diào)查總體中的子總體(域)進(jìn)行估計? 3)與調(diào)查估計值有關(guān)的抽樣方差有多大? 4)精度要求的實(shí)際含義是什么? 四、影響精度的因素 總體指標(biāo)的變異程度; - 總體大?。?- 樣本設(shè)計和所用的估計量; - 回答率。 1.總體的變異程度(總體方差) 若總體指標(biāo)變異性很大,或具有所研究特征的單元數(shù)量很少,對這樣的總體,要求精確估計是很困難的,需要較大的樣本量。 為確保樣本量對所有的研究指標(biāo)都足夠大,應(yīng)該根據(jù)最大變異程度或被認(rèn)為最重要的指標(biāo),來確定樣本量。 2.總體大小 在樣本量確定過程中,總體所起的作用因它的大小而有所差異。對于小規(guī)??傮w,它起著重要作用;對于中等規(guī)模的總體,其作用中等;而大總體對樣本量影響的作用很小。 3. 樣本設(shè)計和估計量 一般來說,當(dāng)樣本量采用簡單隨機(jī)抽樣的計算公式,而實(shí)際使用的是更復(fù)雜的抽樣方式時,為達(dá)到給定精度所需的樣本量,應(yīng)該在此基礎(chǔ)上乘以一個稱為設(shè)計效應(yīng)因子。 設(shè)計效應(yīng)是對于相等的樣本量,給定樣本設(shè)計估計量的抽樣方差對簡單隨機(jī)抽樣估計量的抽樣方差的比率。 簡單隨機(jī)抽樣設(shè)計,設(shè)計效應(yīng)等于1; 分層抽樣設(shè)計,設(shè)計效應(yīng)一般小于等于1; 整群或多階抽樣設(shè)計,設(shè)計效應(yīng)一般大于等于1。 若過去相同或相似主題的調(diào)查所用的抽樣設(shè)計與我們計劃實(shí)施的抽樣設(shè)計相同或相似,就能得到當(dāng)前調(diào)查主要變量設(shè)計效應(yīng)的估計值。我們也可以從試調(diào)查中得到設(shè)計效應(yīng)的估計值。 4.調(diào)查的回答率 需要根據(jù)預(yù)計的回答率調(diào)整樣本量的大小,根據(jù)預(yù)計的回答率確定一個較大的樣本才可能達(dá)到精度要求。 五、樣本量的計算公式 1)對于簡單隨機(jī)抽樣,給定均值估計 的精度(100回答) 簡單隨機(jī)抽樣下,通常使用誤差限和估計量的標(biāo)準(zhǔn)差來確定所需的樣本量。 2)對于簡單隨機(jī)抽樣,給定比例估計 的精度(100%回答率) 于是公式(1)變?yōu)椋?若在以往調(diào)查中可得總體比例的一個較好估計 ,那么直接將它代入上面的公式就可以得到所需的樣本量;否則可以用 ,因?yàn)檫@時總體的方差最大。 3)對一般抽樣設(shè)計,給定比例估計 的精度,逐步計算樣本量(回答率小于100%)。 第1步:計算初始樣本量 注意,公式(1)使用了有限總體校正因子1n/N,對總體大小進(jìn)行校正。如果忽略這個因子,初始樣本量 應(yīng)按下列公式計算: 第2步:對總體大小進(jìn)行調(diào)整: 第3步:如果抽樣設(shè)計不是簡單隨機(jī)抽樣,則用下面公式對樣本量進(jìn)行調(diào)整 : 其中, 是設(shè)計效應(yīng)。 第4步:根據(jù)無回答再次進(jìn)行調(diào)整,以確定最終的樣本量 : 其中, 為預(yù)計的回答率。 確定樣本量的例子 例 8.1 某雜志出版商希望得到讀者對該雜志綜合滿意度的估計值。通過郵寄調(diào)查,出版商可以聯(lián)系到所有2500個訂戶。但由于時間的限制,出版商決定使用簡單隨機(jī)抽樣進(jìn)行電話調(diào)查。請問應(yīng)訪問多少個訂戶 ? 我們假定: - 可接受的誤差限e為0.10; - 調(diào)查估計值的置信度為95%,因此 =1.96; - 使用簡單隨機(jī)抽樣; - 預(yù)計回答率 =0.65; - 由于事先沒有關(guān)于顧客滿意度的估計 ,方差應(yīng)取最大,即 。 樣本量的計算步驟如下: 第 1步:計算初始樣本量 : 第 2步:根據(jù)總體大小調(diào)整樣本量(這一步只需對中小規(guī)模的總體): 第3步: 根據(jù)抽樣的設(shè)計效應(yīng)來調(diào)整樣本量: 在這個例子中,由于假定采用簡單隨機(jī)抽樣設(shè)計,所以 = 1。 第4步:根據(jù)無回答情況進(jìn)行調(diào)整,確定最終的樣本量 : 費(fèi)用、時間和現(xiàn)場操作的限制 在實(shí)際中,在確定樣本量時,不考慮時間和費(fèi)用這兩個極為重要的因素是不可思議的。大多數(shù)統(tǒng)計調(diào)查機(jī)構(gòu)(和他們的客戶)都不可能忽視這些限制條件。最終確定的樣本量必須與可獲得的經(jīng)費(fèi)預(yù)算和允許的時限保持一致。 最終樣本量的確定需要在精度、費(fèi)用、時限和操作的可行性等相互沖突的限制條件之間進(jìn)行協(xié)調(diào)。它還可能需要重新審查初始樣本量、數(shù)據(jù)需求、精度水平、調(diào)查計劃的要素和現(xiàn)場操作因素,并作必要的調(diào)整。通常,統(tǒng)計調(diào)查機(jī)構(gòu)和客戶尋求在最有效使用費(fèi)用的基礎(chǔ)上(例如縮短訪問時間),使用戶能對所需的樣本量提供經(jīng)費(fèi)支持。 分層抽樣中 樣本在各層中的分配 將n個樣本單元分配到L層中去有兩種方式:一是先用確定總的樣本量,然后再在層間進(jìn)行分配,即總樣本量固定的情況;另一種情況是先根據(jù)預(yù)定的精度,確定每一層所需要的樣本量,然后將各層的樣本量加總得到總的樣本量(若精度是由變異系數(shù)表示的,即是給定變異系數(shù)的情況)。 1) 總樣本量固定 這種準(zhǔn)則是先確定總的樣本量,然后再將確定的總樣本量n以某種方式分配到各個層。分配給第 層的樣本分配系數(shù)為 ,這里每個 都在0到1之間取值,包括0和1(即0 1),同時, 的和等于 1 (即 )。 由此,對于第h層,其樣本量 等于該層的樣本分配系數(shù)ah 乘以總的樣本量 : 2) 給定變異系數(shù) 確定總樣本量 的另一種準(zhǔn)則是在給定總體估計值精度水平的情況下,計算確定每一層所需的樣本量 (h=1,2,L),使估計值的變異系數(shù)不超過事先估計的值 。 用給定變異系數(shù)法要比總樣本量固定方法復(fù)雜,在下面樣本分配的例子中只用總樣本量固定方法。 樣本分配方法 1 ) 比例分配 比例分配即是與N成比例分配,就是每一層的樣本量 與該層的總體大小 成比例的分配。因此,層的規(guī)模越大,分配到的樣本單元數(shù)也就越多。即各層的抽樣比 是相同的,等于總的抽樣比 。 比例分配的分層隨機(jī)抽樣還是一個自加權(quán)的樣本設(shè)計。 2)與Y成比例分配 調(diào)查中,如果變量yhi (第h層中的第i個單元的指標(biāo))是關(guān)于大?。ɑ蛞?guī)模)的一種度量,那么第 層的樣本量 就可以是第 層大小或規(guī)模度量Yh的一個比例,這種分配方法稱為與Y成比例分配。這時, ,即每層的分配系數(shù) 等于該層大小度量與總體大小度量的比。 與Y成比例分配方法在商業(yè)調(diào)查中有著廣泛的應(yīng)用。因?yàn)檫@類調(diào)查中, 經(jīng)常呈偏態(tài)分布。 3)與N的平方根成比例分配 到目前為止,所介紹的所有分配方法都只考慮了總體估計值 的精度。但是通??蛻暨€希望層估計值 也具有較高的精度。例如,如果以省為層,那么省和全國的估計值可能都很重要。 換句話說,分配系數(shù) 等于該層總體大小的平方根與所有層總體大小平方根的總和之比。 4)與Y的平方根成比例分配 確保層估計值和總估計值都有較高精度的另一種方法,是使用與Y的平方根成比例分配。 即分配系數(shù) 等于層大小度量的平方根與所有層大小度量平方根的總和之比。 5) 最優(yōu)分配 當(dāng)各層單元調(diào)查費(fèi)用不全相同,以及層間的方差 變化很大的情況下,可以考慮使用以下稱為最優(yōu)分配的不按比例分配方法。 最優(yōu)分配的分配系數(shù) 按下式計算: 最優(yōu)分配法可以在規(guī)定的抽樣費(fèi)用下,使估計值的抽樣方差最小;或者在給定的總抽樣方差下,使費(fèi)用最少。 當(dāng)所有層的費(fèi)用和方差都相等時,最優(yōu)分配就簡化為比例分配。在這種情況下,與N成比例分配是使估計值的抽樣方差最小的分配形式。當(dāng)所有層的層內(nèi)抽樣費(fèi)用都相等時,最優(yōu)分配就簡化為以下討論的奈曼分配。 6)奈曼分配 各層中每個單元的調(diào)查費(fèi)用都相同的最優(yōu)分配就稱為奈曼分配。 奈曼分配下,分配系數(shù)表示為: 7)方差相等時的最優(yōu)分配 最優(yōu)分配的另一個特例是所有層方差都相等的情況。該方法將更多的樣本單元分配到規(guī)模較大的層和單元抽樣費(fèi)用較小的層。分配系數(shù)計算如下: 分配樣本時需要注意的事項 在進(jìn)行樣本分配時,應(yīng)考慮以下問題: 1)借助輔助數(shù)據(jù)進(jìn)行與Y成比例的分配和與Y的平方根成比例分配; 2)超額分配; 3)根據(jù)多個變量進(jìn)行分配第十章 處理(數(shù)據(jù))處理就是把調(diào)查中收集到的數(shù)據(jù)轉(zhuǎn)換為適合匯總制表和數(shù)據(jù)分析的形式。 數(shù)據(jù)收集完畢之后,估計之前對數(shù)據(jù)進(jìn)行加工處理的所有活動:主要包括數(shù)據(jù)的編碼、錄入、審核、插補(bǔ)、離群值的檢測和處理等。最后生成一個為進(jìn)一步分析用的數(shù)據(jù)庫。 1)編碼 編碼是給問題的每項答案賦予一個數(shù)值代碼,以便于數(shù)據(jù)錄入和作進(jìn)一步處理的過程。 編碼具體方法很多,包括: - 問卷中已預(yù)先編碼; - 在數(shù)據(jù)收集完畢之后進(jìn)行手工編碼; - 通過文本識別軟件進(jìn)行自動編碼(即借助軟件給一串字符賦予一個代碼)。 2)數(shù)據(jù)錄入 數(shù)據(jù)錄入是將回答轉(zhuǎn)化成可機(jī)讀的形式。采用紙張式收集數(shù)據(jù)的方法時,數(shù)據(jù)錄入是在數(shù)據(jù)收集完畢之后(通常是在對問卷進(jìn)行一些“梳理”和初步審核之后)進(jìn)行。采用計算機(jī)輔助數(shù)據(jù)收集方法時,數(shù)據(jù)錄入是在數(shù)據(jù)收集的同時完成的。 下面幾種方法可以提高數(shù)據(jù)錄入的效率: - 采用計算機(jī)輔助數(shù)據(jù)收集方法; - 對紙張式問卷進(jìn)行光電掃描; - 對紙張式問卷進(jìn)行預(yù)先編碼。 3)審核 審核是應(yīng)用各種檢查規(guī)則來辨別缺失、無效或不一致的錄入,這些會導(dǎo)致數(shù)據(jù)記錄的潛在錯誤。審核的目的就是要保證調(diào)查最后所得的數(shù)據(jù)的完整性、一致性和有效性(包括邏輯性)。 審核主要可分為三類:即有效性審核、一致性審核與分布審核。有效性審核和一致性審核是對單張問卷進(jìn)行的審核;分布審核則是對全部問卷或部分問卷的數(shù)據(jù)一起進(jìn)行審核。 通常,審核規(guī)則的確定基于以下幾個方面: - 關(guān)于調(diào)查主題的專業(yè)知識; - 問卷和問題的結(jié)構(gòu); - 其它相關(guān)的調(diào)查或數(shù)據(jù); - 統(tǒng)計理論(如離群值的檢測方法)。 數(shù)據(jù)收集完畢后,對審核失效,通常按下列方法進(jìn)行處理: - 將其剔除; - 進(jìn)行插補(bǔ); - 設(shè)立特殊代碼。 有些時候,一條記錄(或整份問卷)不符合多條審核規(guī)則的要求,或者不符合少數(shù)幾條關(guān)鍵審核規(guī)則的要求,從而使得后續(xù)的處理失去意義。在這種情況下,通??梢詫⑦@些記錄剔除,作為無回答處理,同時將賦予各被調(diào)查單元的權(quán)數(shù)進(jìn)行調(diào)整。 對大多數(shù)審核失效都應(yīng)該加以標(biāo)示,留待作插補(bǔ)處理。 對于有些項目,我們可以用特殊代碼標(biāo)示的方法,對確認(rèn)為審核失效而不可接受的值或無效的空白加以保留。 選擇性審核 選擇性審核基于這樣一種思想:即只有那些“關(guān)鍵”的審核失效,而不是所有的審核失效,才需要采取相應(yīng)的處理措施。選擇性審核一般適于定量數(shù)據(jù)。 對審核失效進(jìn)行選擇性審核時,可能需要對被調(diào)查者進(jìn)行再訪,但對于那些需要進(jìn)一步處理和插補(bǔ)的記錄的審核失效除外。 審核的指導(dǎo)方針 審核的目標(biāo)是: - 更好地理解數(shù)據(jù)和數(shù)據(jù)處理過程; - 檢查問卷; - 回訪被調(diào)查者; - 檢出錯填或漏填的數(shù)據(jù); - 刪除無效記錄; - 分離需要插補(bǔ)的記錄。 審核的準(zhǔn)則: - 審核不僅對整理數(shù)據(jù)有用,而且審核失效發(fā)生率不論是對當(dāng)前調(diào)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中職電子商務(wù)教師資格證試題解析與答案
- 2024年育嬰師心理素質(zhì)試題及答案
- 2025-2030中國食品專用硫化劑行業(yè)發(fā)展分析及發(fā)展前景與投資研究報告
- 2025-2030中國飛機(jī)內(nèi)部清洗設(shè)備行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國預(yù)充式小分子注射器行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國韓國酞菁顏料行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國鞣制助劑行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展研究報告
- 2025-2030中國面板行業(yè)產(chǎn)能趨勢預(yù)測及投融資渠道研究研究報告
- 家長會發(fā)言稿怎么寫內(nèi)容(范文7篇)
- 2025-2030中國非銀金融產(chǎn)業(yè)行情監(jiān)測及未來發(fā)展機(jī)遇預(yù)判研究報告
- 1、工貿(mào)行業(yè)重大事故隱患重點(diǎn)排查事項清單
- 2025年紀(jì)檢工作要點(diǎn)
- 醫(yī)院工程材料采購合同范本
- 金屬冶煉中的鈹冶煉與鈹合金生產(chǎn)
- 加氣站安全生產(chǎn)獎懲規(guī)定模版(3篇)
- 細(xì)胞治療政策環(huán)境分析-洞察分析
- 2025年河南鄭州醫(yī)藥健康職業(yè)學(xué)院招考聘用高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《控制器接口》課件
- 超全自考英語二詞匯表-含音標(biāo)4500-個單詞
- 外墻腳手架施工方案完整版
- 境外工程項目安全生產(chǎn)管理規(guī)定
評論
0/150
提交評論