版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
市場調(diào)查課程第十章定量調(diào)查資料的整理(二)學習目標理解調(diào)查資料整理的作用
熟悉調(diào)查數(shù)據(jù)整理的一般流程
理解編碼的作用,掌握編碼表的設計技巧
了解確實數(shù)據(jù)的處理方法
了解調(diào)查數(shù)據(jù)中的權(quán)數(shù)設計本講內(nèi)容3調(diào)查資料整理概述01調(diào)查問卷的回收及審核02調(diào)查資料的編碼0304調(diào)查數(shù)據(jù)的清潔和預處理調(diào)查數(shù)據(jù)的清潔和預處理045數(shù)據(jù)的清潔包括一致性檢查、邏輯檢查和缺失數(shù)據(jù)的處理等。6審核階段進行的初步的一致性審核主要采用手工形式,此階段的一致性檢查主要通過計算機進行,更加全面廣泛。調(diào)查數(shù)據(jù)的一致性檢查和邏輯檢查一致性檢查變量的取值是否超出合理范圍有無邏輯錯誤有無極端值若超出合理范圍,則必須給予矯正。對于超出范圍的變量取值,應核對原始問卷進行改正檢查數(shù)據(jù)有無邏輯錯誤,邏輯錯誤的形式是多樣的。并非所有的極端值都來自誤差,但有時通過極端值可以找出有問題的數(shù)據(jù)例如,在要求被調(diào)查者給出滿意度的5級量表中,表達滿意度的選項從1~5,假設用9表示缺失值,則如果出現(xiàn)6,7,8,0這些數(shù)字,就說明超出了取值范圍。例如,在商品房租賃市場調(diào)查中,沒有租房卻填寫房屋租金。又如,不知道某個品牌的產(chǎn)品卻又頻繁使用該產(chǎn)品。還有年齡為15歲的人文化程度為碩士以上。這些數(shù)據(jù)都有邏輯錯誤,需要核對改正。例如,某被調(diào)查者對某品牌的評價非常低,原因是他對所有問題一律都答1。7如果數(shù)據(jù)空缺或無效,一般視為缺失值。如果缺失數(shù)據(jù)比例較大,或者缺失數(shù)據(jù)的分布與總體分布有明顯差異,就可能使分析有偏。缺失數(shù)據(jù)的處理在收集階段盡量減少無回答,在審核階段嚴把關,并采取再次回訪調(diào)查或核實數(shù)據(jù)等在數(shù)據(jù)清潔階段對缺失數(shù)據(jù)的處理處理方法事前控制事后控制8四種事后控制缺失值處理方法刪除個案刪除缺失值加權(quán)組調(diào)整法插補法將有缺失數(shù)據(jù)的個案都刪除掉,不參加數(shù)據(jù)分析適用于樣本量很大、有缺失數(shù)據(jù)個案比例較小,且有缺失數(shù)據(jù)個案與無缺失數(shù)據(jù)個案在分布上無顯著差異如果許多被調(diào)查者都有一些問題沒有回答,將刪除大量的數(shù)據(jù)導致小樣本,可能會使結(jié)果產(chǎn)生嚴重偏差不刪除有缺失數(shù)據(jù)的所有個案,僅在計算時刪除相應變量的缺失值,即對變量有完整回答的個案才能參加計算,對變量有缺失值的個案不參加該次計算如果某變量有缺失值個案與無缺失值個案在分布上有明顯差異,可能導致偏差樣本量較大、缺失數(shù)據(jù)較少并且變量間不是高度相關的情況下,可使用對回答數(shù)據(jù)使用加權(quán)因子,降低缺失值的偏差影響利用其他數(shù)據(jù)替代或估算缺失值常用的插補法主要有均值插補法、回歸插補法、最近鄰插補法、隨機插補法等例如,被調(diào)查家庭對某產(chǎn)品的購買量有缺失數(shù)據(jù),可以根據(jù)回答數(shù)據(jù)建立購買量與家庭人口、家庭收入等變量的多元回歸模型,然后根據(jù)估計的回歸方程預測缺失的產(chǎn)品購買量數(shù)據(jù)。9常用的插補法[1]均值插補法用回答單元觀測值的均值對缺失值進行插補如果利用輔助信息對樣本進行分層,,然后在每一層中,用層內(nèi)回答單元的均值插補該層的缺失值,則稱為分層均值插補法均值插補法不會改變估計量的均值,但可能會導致估計量方差的低估回歸插補法利用回歸模型對缺失數(shù)據(jù)進行預測插補例如,被調(diào)查家庭對某產(chǎn)品的購買量有缺失數(shù)據(jù),可以根據(jù)回答數(shù)據(jù)建立購買量與家庭人口、家庭收入等變量的多元回歸模型,然后根據(jù)估計的回歸方程預測缺失的產(chǎn)品購買量數(shù)據(jù)。10常用的插補法[2]最近鄰插補法根據(jù)樣本單元在輔助變量上的接近程度來選擇缺失值的賦值單元即在變量Y的無回答單元鄰近的回答單元中,利用輔助變量定義樣本單元間的距離函數(shù),選擇滿足所設定距離條件的回答單元的變量Y取值為插補值隨機插補法在前面的確定性插補基礎上加入隨機成分,其基本表達式為:
11與大部分數(shù)值相比有較大差別的數(shù)據(jù)被稱為異常值或離群值。異常值的出現(xiàn)可能是隨機波動的極端情況,也可能是源于調(diào)查過程的測量誤差或過程誤差。異常值的診斷異常值的存在對抽樣估計誤差有很大影響,因此在數(shù)據(jù)整理過程中,需要對異常值進行識別診斷和處理異常值診斷貝克曼和庫克在1986年指出,異常值一般被理解為數(shù)據(jù)集明顯不協(xié)調(diào)、出現(xiàn)概率非常小的數(shù)據(jù)點,
或者為不是與數(shù)據(jù)集來自同一部分摻入該數(shù)據(jù)集中的“雜質(zhì)”
異常值的異常之處是相對于數(shù)據(jù)集的總體或假定的模型而言的基礎的
數(shù)據(jù)集有異常值時,直接使用數(shù)據(jù)集進行統(tǒng)計分析將影響分析的準確性,甚至得出錯誤的結(jié)論,因此
需要判斷異常值的類型,然后決定是否提出異常值或做其他平滑處理12異常值診斷的常用方法:統(tǒng)計分布法與回歸診斷法
統(tǒng)計分布法利用輔助變量對檢測變量構(gòu)建回歸模型,通過估計的回歸模型進行殘差檢驗,如果出現(xiàn)異常大的殘差或Cook距離,判斷是異常值點回歸檢驗法13異常值診斷的常用方法:戈羅伯斯檢驗法與四位分數(shù)法將所有數(shù)據(jù)按數(shù)值大小排序,計算上四分位數(shù)UQ、下四分位數(shù)LQ以及四分位差IQR=UQ-LQ,不在區(qū)間
(LQ
-
k
×
IQR,
UQ
+
k
×
IQR)
內(nèi)的樣本數(shù)據(jù)被判定為異常值。系數(shù)
k
可以根據(jù)具體情況自己設定,實踐中通常設為1.5
四位分數(shù)法
戈羅伯斯檢驗法14對于被檢測出來的異常值不能簡單采用提出的方法,具體選擇處理方法之前應該判斷可能的產(chǎn)生原因。異常值產(chǎn)生原因判斷判斷原因示例測量誤差是異常值最常見的來源??赡苁菃柧淼脑O計不夠規(guī)范,例如測量距離時計量單位標注不清楚,有受訪者把公里誤解為米。也有可能是主題敏感導致受訪者自己故意高報或低報數(shù)值。
在數(shù)據(jù)收集、記錄、錄入、處理過程中經(jīng)常會出現(xiàn)人為錯誤導致數(shù)據(jù)出現(xiàn)異常值,例如家庭常住人口數(shù)出現(xiàn)55很可能是重復錄入5導致的
抽樣錯誤:例如規(guī)模以下企業(yè)調(diào)查中由于編碼錯誤,抽取了大規(guī)模企業(yè),導致產(chǎn)值數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)。
自然異常值,異常值也可能不是錯誤導致的自然數(shù)據(jù),例如大學生身高調(diào)查中可能會訪問到身高2米的籃球特長生,住戶收支調(diào)查也可能訪問到億萬富翁。
15異常值的處理(1)刪除法(2)縮尾法(6)穩(wěn)健估計(5)插補法(4)調(diào)整權(quán)數(shù)(3)變換變量適用于抽樣錯誤的異常值以及異常值比較少的情況把樣本數(shù)據(jù)y1,…,yn從小到大依次排序為y(1),…,y(n),如果排在第k位的數(shù)據(jù)y(k)至最大值y(n)被認為是離群值,則在估計時將所有離群值的數(shù)值y(k),…,y(n)均替換為y(k-1)的數(shù)值參與計算比如自然對數(shù)變換可以減少由極值引起的變化,分組合并也是一種變換方式,決策樹算法允許變量的合并也可很好地處理異常值降低異常值的權(quán)數(shù),使得異常值的影響變小。將異常值單獨分組賦予很小的抽樣權(quán)數(shù)可以有效降低抽樣方差,但主觀降低權(quán)數(shù)也可能導致低估總體參數(shù)將異常值直接刪除,視為缺失數(shù)據(jù)進行插補處理采用對異常值不太敏感的穩(wěn)健估計量,比如中位數(shù)比均值更為穩(wěn)健,四分位數(shù)間距比方差估計量更為穩(wěn)健16設計權(quán)數(shù)是由抽樣設計所規(guī)定的每個樣本單元所代表研究總體的單元數(shù),也就是樣本單元入樣概率的倒數(shù)。設計權(quán)數(shù)用Wdi
表示第
i
個單元的設計權(quán)數(shù),則總體總值的估計為:
所以總體總值的估計又可以寫為:在多階段抽樣條件下,設計權(quán)數(shù)由每個單元在不同階段的入樣概率相乘而得。例如,對于二階段的抽樣設計,令P1i
代表第i
個單位在第一個階段的入樣概率,P2i
代表第i
個單元在第二個階段的入樣概率,則i
單元的設計權(quán)數(shù)為:以此可以推演到更多階段抽樣設計的情況17權(quán)數(shù)的結(jié)構(gòu)調(diào)整包括的范圍比較廣,主要指調(diào)查現(xiàn)場出現(xiàn)與抽樣設計不同的情況,為了保證抽樣設計方案的落實而進行的某些權(quán)數(shù)調(diào)整。
權(quán)數(shù)的結(jié)構(gòu)調(diào)整我國勞動力抽樣調(diào)查是多階段分層整群抽樣,最后階段抽取群,群由30個家庭戶組,對抽中群內(nèi)的家庭戶全部進行調(diào)查。在調(diào)查實施中,不可能保證所有的群都正好為30戶,如在農(nóng)村有自然村,對于很小的自然村(遠少于30戶)可以合并為群,對于規(guī)模差不多的自然村(30戶左右),該自然村就是一個群。在城市通常取某棟住宅樓或某個單元為一個群。有些群的規(guī)模與抽樣設計相同(正好30戶)或相仿(30戶左右),有些群的規(guī)模則與抽樣設計要求相差較大,需要對入樣單元的設計權(quán)數(shù)進行調(diào)整。例:
18調(diào)查中都會遇到無回答的情況,只能得到回答者的數(shù)據(jù);此時如果不對原有的設計權(quán)數(shù)進行調(diào)整,哪些無回答單位的權(quán)數(shù)就會喪失,總體的規(guī)模就會被低估。權(quán)數(shù)的無回答調(diào)整權(quán)數(shù)的無回答調(diào)整可以計算無回答調(diào)整系數(shù):令Wnri
為無回答調(diào)整系數(shù),
Wri
為調(diào)查中回答單元的權(quán)數(shù)和,。Wni
為調(diào)查中無回答單元的權(quán)數(shù)和,則無回答調(diào)整系數(shù)為
調(diào)整的思路是把無回答單元的設計權(quán)數(shù)在回答單元之間進行重新分配,無回答調(diào)整系數(shù)Wnri就是分配比例。如果是大規(guī)模調(diào)查,無回答調(diào)整系數(shù)應該分別計算(如按群,按層等)19最終權(quán)數(shù)是對目標量進行估計所使用的權(quán)數(shù),是設計全是、結(jié)構(gòu)調(diào)整系數(shù)、無回答調(diào)整系數(shù)的最終結(jié)合體。最終權(quán)數(shù)最終權(quán)數(shù)設計權(quán)數(shù)結(jié)構(gòu)調(diào)整系數(shù)無回答調(diào)整系數(shù)=xx令最終權(quán)數(shù)位Wi,則有:=xx20變量重新定義根據(jù)數(shù)據(jù)分析的需要,在分析之前可能要對現(xiàn)有的變量進行一定的修改或生成新變量。變量的轉(zhuǎn)換[1]某些分析方法可能對變量的數(shù)學特性有一定要求,因此可能要改變數(shù)據(jù)的測量水平,把定距、定比變量轉(zhuǎn)為定序、定類變量。例:進行交叉列聯(lián)分析時,必須先將某變量(如收入)劃分為高、中、低三組。另外,同測度內(nèi)有時還需要進行再分組,如年齡最初分為10組,但實際分析中分組過細反而不便于分析,因而要把小類合并為大類
變量轉(zhuǎn)換為了模型的擬合程度在分析前把變量標準化,并且對變量進行對數(shù)變換等措施。例:①
進行聚類分析、因子分析時,必須消除量綱的影響,要在分析前先把變量標準化。②
進行回歸分析時,為了改進模型的擬合程度,要對變量進行對數(shù)變換、平方根變換等。
21定類變量轉(zhuǎn)化為0-1變量根據(jù)數(shù)據(jù)分析的需要,在分析之前可能要對現(xiàn)有的變量進行一定的修改或生成新變量。變量的轉(zhuǎn)換[2]重新組合新變量為便于分析,有時要把定類變量轉(zhuǎn)換為0-1變量。這種轉(zhuǎn)換便于進行定量分析。例:被調(diào)查者的居住地包括北京、上海、廣州和杭州這四類,,可以將其轉(zhuǎn)變?yōu)閄1,X2,和
X3
這三個0-1變量。一般在正式進行統(tǒng)計分析之前,為了定量分析的方便,常把一些定類變量轉(zhuǎn)換為若干個0-1變量。一般來說,含K個類別的變量可以用K-1個0-1變量來表示。某些特定的統(tǒng)計分析(如你和模型)需要把幾個變量重新組合為一個新的變量,重新進行定義。例:根據(jù)被調(diào)查者對耐用消費品在若干方面的評價,把各方面的評價值加權(quán)平均,就可以得到一個新變量“綜合評價得分”
22為了保證數(shù)據(jù)的可比性,便于進行數(shù)據(jù)分析,有時候還要做一些量表的變換。量表的轉(zhuǎn)換一些量表可能會分別從正、反兩個方向設計問題。分析時需要注意統(tǒng)一方向,便于比較。例:從一下6個角度調(diào)查觀眾對某廣告的看法在分析數(shù)據(jù)前,應把量表問題的方向統(tǒng)一,這樣才能進行比較分析,否則各題的答案之間沒有可加性為了合乎人們比較的習慣或滿足其他分析需要,要對量表數(shù)據(jù)進行轉(zhuǎn)換為了使不同單位或不同量表的變量在分析中具有可比性,可以對數(shù)據(jù)進行標準化
正正正反反反例如同樣都選2,對D為正面評價,對F則是反面評價。假設將以上問題統(tǒng)一為正面問題,則要改變A,C,F。以F為例,改為F1“天天播此廣告,不會讓我產(chǎn)生反感”,當然該題的取值也應該顛倒位置,原來選1現(xiàn)在改為4,原來選4現(xiàn)在改為1,原來選2現(xiàn)在改為3,原來選3現(xiàn)在改為2。這樣,同樣都選2,對D和F1都為正面評價。23數(shù)據(jù)的變換處理
標準化轉(zhuǎn)換規(guī)格化轉(zhuǎn)換【小結(jié)】124市場調(diào)查數(shù)據(jù)收集回來以后,必須經(jīng)過整理才能進行分析。調(diào)查數(shù)據(jù)的整理主要依據(jù)調(diào)查資料的整理方案來進行,數(shù)據(jù)整理的步驟一般包括:對原始資料進行審核、訂正;編碼;數(shù)據(jù)的錄入;數(shù)據(jù)的清潔;進行統(tǒng)計預處理。調(diào)查問卷的回收是一項非常具體的工作,問卷回收中登記和編號工作很重要。對調(diào)查資料進行審核是保證調(diào)查工作質(zhì)量的關鍵。審核的內(nèi)容一般包括完整性的審核、正確性的審核、一致性的審核、及時性的審核以及清楚易懂等幾個方面。審核的主要方法有經(jīng)驗判斷、邏輯檢查、計算審核等。以最常見的中心辦公室審核為例,審核的基本步驟是接收核查問卷(又稱一審)、編輯檢查(又稱二審)及采取相應處理措施等?!拘〗Y(jié)】225編碼是將問卷信息(包括調(diào)查問題和答案)轉(zhuǎn)化為統(tǒng)一設計的計算機可識別的代碼,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 批量設備采購合同
- 廉潔合同的終止與解除
- 個人安全共同守護
- 挖掘機使用合同文本
- 通風與空調(diào)工程勞務分包契約
- 銷售合同必要
- 房地產(chǎn)中介合同范本
- 積極進取上學保證書
- 標準化的民間借款合同
- 負責任的倉庫保管承諾
- 天津市河東區(qū)2022-2023學年七年級上學期期末地理試題
- JT-T-860.2-2013瀝青混合料改性添加劑第2部分:高黏度添加劑
- 江蘇開放大學本科財務管理專業(yè)060111馬克思主義基本原理期末試卷
- 2024年4月自考00155中級財務會計試題及答案
- 商務英語寫作1(山東聯(lián)盟)智慧樹知到期末考試答案章節(jié)答案2024年山東管理學院
- 細胞生物學智慧樹知到期末考試答案章節(jié)答案2024年中南民族大學
- 2024中國留學生歸國求職洞察報告
- 2024年全國人才流動中心招聘事業(yè)編制人員3人歷年公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 中班音樂《小看戲》課件
- 電大財務大數(shù)據(jù)分析編程作業(yè)2
- 葡萄糖醛酸在藥物開發(fā)中的應用
評論
0/150
提交評論