數(shù)據(jù)處理和分析_第1頁(yè)
數(shù)據(jù)處理和分析_第2頁(yè)
數(shù)據(jù)處理和分析_第3頁(yè)
數(shù)據(jù)處理和分析_第4頁(yè)
數(shù)據(jù)處理和分析_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于數(shù)據(jù)處理與分析第一張,PPT共五十一頁(yè),創(chuàng)作于2022年6月1.編碼編碼是給問(wèn)題的每項(xiàng)答案賦予一個(gè)數(shù)值代碼,以便于數(shù)據(jù)錄入和作進(jìn)一步處理的過(guò)程。編碼具體方法很多,包括:?jiǎn)柧碇幸杨A(yù)先編碼;在數(shù)據(jù)收集完畢之后進(jìn)行手工編碼;通過(guò)文本識(shí)別軟件進(jìn)行自動(dòng)編碼(即借助軟件給一串字符賦予一個(gè)代碼)。第二張,PPT共五十一頁(yè),創(chuàng)作于2022年6月2)數(shù)據(jù)錄入數(shù)據(jù)錄入是將回答轉(zhuǎn)化成可機(jī)讀的形式。采用紙張式收集數(shù)據(jù)的方法時(shí),數(shù)據(jù)錄入是在數(shù)據(jù)收集完畢之后(通常是在對(duì)問(wèn)卷進(jìn)行一些“梳理”和初步審核之后)進(jìn)行。采用計(jì)算機(jī)輔助數(shù)據(jù)收集方法時(shí),數(shù)據(jù)錄入是在數(shù)據(jù)收集的同時(shí)完成的。第三張,PPT共五十一頁(yè),創(chuàng)作于2022年6

2、月下面幾種方法可以提高數(shù)據(jù)錄入的效率:采用計(jì)算機(jī)輔助數(shù)據(jù)收集方法;對(duì)紙張式問(wèn)卷進(jìn)行光電掃描;對(duì)紙張式問(wèn)卷進(jìn)行預(yù)先編碼。第四張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 3.審核審核是應(yīng)用各種檢查規(guī)則來(lái)辨別缺失、無(wú)效或不一致的錄入,這些會(huì)導(dǎo)致數(shù)據(jù)記錄的潛在錯(cuò)誤。審核的目的就是要保證調(diào)查最后所得的數(shù)據(jù)的完整性、一致性和有效性(包括邏輯性)。審核主要可分為三類:即有效性審核、一致性審核與分布審核。有效性審核和一致性審核是對(duì)單張問(wèn)卷進(jìn)行的審核;分布審核則是對(duì)全部問(wèn)卷或部分問(wèn)卷的數(shù)據(jù)一起進(jìn)行審核。第五張,PPT共五十一頁(yè),創(chuàng)作于2022年6月通常,審核規(guī)則的確定基于以下幾個(gè)方面:關(guān)于調(diào)查主題的專業(yè)知識(shí);問(wèn)

3、卷和問(wèn)題的結(jié)構(gòu);其它相關(guān)的調(diào)查或數(shù)據(jù);統(tǒng)計(jì)理論(如離群值的檢測(cè)方法)。第六張,PPT共五十一頁(yè),創(chuàng)作于2022年6月數(shù)據(jù)收集完畢后,對(duì)審核失效,通常按下列方法進(jìn)行處理:將其剔除;進(jìn)行插補(bǔ);設(shè)立特殊代碼。第七張,PPT共五十一頁(yè),創(chuàng)作于2022年6月有些時(shí)候,一條記錄(或整份問(wèn)卷)不符合多條審核規(guī)則的要求,或者不符合少數(shù)幾條關(guān)鍵審核規(guī)則的要求,從而使得后續(xù)的處理失去意義。在這種情況下,通??梢詫⑦@些記錄剔除,作為無(wú)回答處理,同時(shí)將賦予各被調(diào)查單元的權(quán)數(shù)進(jìn)行調(diào)整。第八張,PPT共五十一頁(yè),創(chuàng)作于2022年6月對(duì)大多數(shù)審核失效都應(yīng)該加以標(biāo)示,留待作插補(bǔ)處理。對(duì)于有些項(xiàng)目,我們可以用特殊代碼標(biāo)示的方法

4、,對(duì)確認(rèn)為審核失效而不可接受的值或無(wú)效的空白加以保留。第九張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 選擇性審核選擇性審核基于這樣一種思想:即只有那些“關(guān)鍵”的審核失效,而不是所有的審核失效,才需要采取相應(yīng)的處理措施。選擇性審核一般適于定量數(shù)據(jù)。對(duì)審核失效進(jìn)行選擇性審核時(shí),可能需要對(duì)被調(diào)查者進(jìn)行再訪,但對(duì)于那些需要進(jìn)一步處理和插補(bǔ)的記錄的審核失效除外。第十張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 審核的指導(dǎo)方針審核的目標(biāo)是:-更好地理解數(shù)據(jù)和數(shù)據(jù)處理過(guò)程;-檢查問(wèn)卷;-回訪被調(diào)查者;-檢出錯(cuò)填或漏填的數(shù)據(jù);-刪除無(wú)效記錄;-分離需要插補(bǔ)的記錄。第十一張,PPT共五十一頁(yè),創(chuàng)作于2022年6月

5、 審核的準(zhǔn)則:審核不僅對(duì)整理數(shù)據(jù)有用,而且審核失效發(fā)生率不論是對(duì)當(dāng)前調(diào)查的質(zhì)量度量,還是對(duì)將來(lái)調(diào)查的改進(jìn)都很有用,它能提供調(diào)查中有關(guān)數(shù)據(jù)處理的信息;不論什么時(shí)候,開始一項(xiàng)調(diào)查時(shí),總是要對(duì)數(shù)據(jù)做一些假定,審核時(shí)可以檢驗(yàn)這些假定的合理性。例如,可能很明顯,有些領(lǐng)域的審核規(guī)則太嚴(yán),或者有些類型的審核失效太頻繁,這些情況表明審核規(guī)則可能不太合適(或問(wèn)卷可能存在問(wèn)題);第十二張,PPT共五十一頁(yè),創(chuàng)作于2022年6月審核應(yīng)該分階段進(jìn)行;審核工作應(yīng)由對(duì)本次調(diào)查的主題、問(wèn)卷的設(shè)計(jì)和數(shù)據(jù)分析有專業(yè)知識(shí)、并且有類似調(diào)查經(jīng)驗(yàn)的人員來(lái)進(jìn)行;各階段所進(jìn)行的審核不應(yīng)與其它階段的審核相抵觸;應(yīng)該將審核的信息和審核工作對(duì)調(diào)

6、查數(shù)據(jù)的影響通知數(shù)據(jù)的用戶。第十三張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 4.插補(bǔ)插補(bǔ)就是解決在審核過(guò)程中辨別出來(lái)的數(shù)據(jù)缺失、無(wú)效與不一致等問(wèn)題的過(guò)程。插補(bǔ)是對(duì)審核過(guò)程中發(fā)現(xiàn)的所有缺失信息的記錄進(jìn)行補(bǔ)充或用合適的數(shù)值進(jìn)行替代,確保得出內(nèi)在一致的記錄。第十四張,PPT共五十一頁(yè),創(chuàng)作于2022年6月插補(bǔ)方法可以歸為兩類隨機(jī)插補(bǔ)和確定性插補(bǔ)。確定性插補(bǔ),對(duì)于特定的被調(diào)查的數(shù)據(jù),可能的插補(bǔ)值只有一個(gè)。隨機(jī)插補(bǔ)則含有隨機(jī)因素因此,每次得出的插補(bǔ)值可能會(huì)不一樣。第十五張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 幾種確定性插補(bǔ)方法如下: -推理插補(bǔ);-均值插補(bǔ);-比(率)/回歸插補(bǔ);-序貫熱平臺(tái)插補(bǔ);

7、-序貫冷平臺(tái)插補(bǔ);-最近鄰值插補(bǔ)。每一種確定性的插補(bǔ)方法都對(duì)應(yīng)著一種隨機(jī)插補(bǔ)方法。插補(bǔ)定量數(shù)據(jù)時(shí),用確定性的方法得出一個(gè)插補(bǔ)值,加上從某個(gè)適宜的分布或模型產(chǎn)出的一個(gè)殘差作為最后的插補(bǔ)值,就成為隨機(jī)插補(bǔ)。第十六張,PPT共五十一頁(yè),創(chuàng)作于2022年6月隨機(jī)插補(bǔ)能更好地保持?jǐn)?shù)據(jù)集的頻數(shù)結(jié)構(gòu),保持比確定性插補(bǔ)方法更真實(shí)的變異性。 除供者插補(bǔ)方法外,下面介紹的方法可逐項(xiàng)進(jìn)行插補(bǔ)。所謂的供者插補(bǔ)方法,就是用一個(gè)供者來(lái)插補(bǔ)一個(gè)受者的所有缺失的或不一致的數(shù)據(jù)。第十七張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 4.1推理插補(bǔ)推理插補(bǔ):缺失的或不一致的數(shù)據(jù)能通過(guò)推斷確定。通常,這種推理是根據(jù)問(wèn)卷上其它回答項(xiàng)的模

8、式來(lái)進(jìn)行的。下面簡(jiǎn)述一些常用的插補(bǔ)方法。對(duì)所有這些插補(bǔ)方法,最好是把類似的記錄歸為一組,就象進(jìn)行無(wú)回答權(quán)數(shù)調(diào)整時(shí)一樣,這些組稱為插補(bǔ)類。第十八張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 4.2 均值插補(bǔ)用均值插補(bǔ),缺失或不一致的值可用插補(bǔ)類的均值來(lái)代替。對(duì)缺失數(shù)據(jù),用均值插補(bǔ)相當(dāng)于對(duì)同一插補(bǔ)類中的所有被調(diào)查者使用相同的無(wú)回答權(quán)數(shù)進(jìn)行調(diào)整。 均值插補(bǔ)會(huì)得到較好的點(diǎn)估計(jì),但由于在插補(bǔ)類均值這一點(diǎn)形成一個(gè)人為的“峰值”,從而破壞了分布狀態(tài)和變量之間的關(guān)系。因此,如果用常規(guī)的抽樣方差公式進(jìn)行計(jì)算,就會(huì)低估最終的方差。均值插補(bǔ)通常在沒(méi)有輔助信息可用或只有少量記錄需要作插補(bǔ)處理時(shí),才被采用。第十九張,PP

9、T共五十一頁(yè),創(chuàng)作于2022年6月 4.3 比(率)或回歸插補(bǔ)比率或回歸插補(bǔ)是使用輔助信息及其它記錄中的有效回答建立一個(gè)比率或回歸模型,該模型表明了兩個(gè)或多個(gè)變量之間的關(guān)系。例如,比率插補(bǔ)所使用的模型為:其中:yi是變量y的第i個(gè)單元值; xi是與變量y相關(guān)的變量x的第i個(gè)單元值; R是直線的斜率(即每變動(dòng)一個(gè)單位,平均變動(dòng)的數(shù)值); 是模型的隨機(jī)誤差項(xiàng),均值為0、方差為。第二十張,PPT共五十一頁(yè),創(chuàng)作于2022年6月這時(shí), 的插補(bǔ)值按如下公式計(jì)算: 式中: 是變量y第i個(gè)記錄的插補(bǔ)值; 是插補(bǔ)類中記錄的x值的均值; 是插補(bǔ)類中記錄的y值的均值。 這里我們假定,擬合一個(gè)插補(bǔ)類中有效數(shù)據(jù)(即通

10、過(guò)了所有的審核)的比率或回歸模型,同樣適用于該插補(bǔ)類中審核失效的數(shù)據(jù)。第二十一張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 比率和回歸估計(jì)產(chǎn)生的插補(bǔ)值比簡(jiǎn)單均值法產(chǎn)生的插補(bǔ)值更加穩(wěn)定。這種方法常用于的商業(yè)調(diào)查中的定量變量,在這種調(diào)查中常可用前期數(shù)據(jù)來(lái)預(yù)測(cè)現(xiàn)期數(shù)據(jù)。利用前期的數(shù)據(jù)進(jìn)行插補(bǔ),也稱前向插補(bǔ),是比率或回歸插補(bǔ)的一個(gè)特例,只是直接用前期調(diào)查的數(shù)據(jù)來(lái)作為當(dāng)前調(diào)查的缺失數(shù)據(jù)的插補(bǔ)值。第二十二張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 4.4 熱平臺(tái)插補(bǔ) 熱平臺(tái)插補(bǔ)是使用同一插補(bǔ)類中的供者記錄的信息來(lái)代替一個(gè)相似的受者記錄中缺失的或不一致數(shù)據(jù)。為了找到一個(gè)與受者記錄相似的供者記錄,必須先確定與需

11、要進(jìn)行插補(bǔ)處理的變量相關(guān)的變量,建立插補(bǔ)類。然后,插補(bǔ)類中通過(guò)所有審核的記錄集就是供者記錄的集合,這些記錄用來(lái)插補(bǔ)受者中缺失的數(shù)據(jù)。 熱平臺(tái)插補(bǔ)可以用來(lái)插補(bǔ)定量數(shù)據(jù),也可以用來(lái)插補(bǔ)定性數(shù)據(jù),但通常只用定性變量建立插補(bǔ)類。 第二十三張,PPT共五十一頁(yè),創(chuàng)作于2022年6月樣本序號(hào) 性別 年齡 婚姻狀況 收入 汽車擁有1 男 青年 未婚 70 無(wú)2 男 中老年 已婚 100 有3 女 青年 未婚 50 無(wú)4 男 中老年 已婚 70 有5 男 青年 未婚 90 有6 女 中老年 喪偶 30 無(wú)7 男 中老年 已婚 - -8 女 青年 離異 45 有9 男 青年 未婚 - 無(wú)10 女 中老年 喪偶

12、20 -11 男 青年 未婚 50 有12 男 中老年 已婚 - -第二十四張,PPT共五十一頁(yè),創(chuàng)作于2022年6月插補(bǔ)情況:受者 收入 汽車擁有 供者 7 70 有 4 9 90 5 10 無(wú) 6 12 70 有 4第二十五張,PPT共五十一頁(yè),創(chuàng)作于2022年6月在序貫熱平臺(tái)插補(bǔ)方法中,數(shù)據(jù)在插補(bǔ)類中是按某種順序排列進(jìn)行處理的,插補(bǔ)就是用這個(gè)序列需要插補(bǔ)數(shù)據(jù)前面某一個(gè)有效的回答單元的數(shù)據(jù)來(lái)代替缺失的數(shù)值。如果每次都使用相同的排序及選取方法,序貫熱平臺(tái)法是一種確定性的插補(bǔ)方法。而隨機(jī)熱平臺(tái)插補(bǔ),供者是在插補(bǔ)類中隨機(jī)選出的,因此是一種隨機(jī)插補(bǔ)方法。第二十六張,PPT共五十一頁(yè),創(chuàng)作于2022

13、年6月供者插補(bǔ)方法(局限于熱平臺(tái)插補(bǔ)和最近鄰插補(bǔ))的優(yōu)點(diǎn)是,因?yàn)橄嗨频墓┱撸ㄈ绻竞图彝サ龋┚哂邢嗨频奶卣?,因此插補(bǔ)出的數(shù)值應(yīng)該是相當(dāng)準(zhǔn)確的。使用供者插補(bǔ)可以保持?jǐn)?shù)據(jù)的原始分布形式。 第二十七張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 4.5 冷平臺(tái)插補(bǔ) 冷平臺(tái)插補(bǔ)與熱平臺(tái)插補(bǔ)類似,不同之處在于熱平臺(tái)插補(bǔ)使用當(dāng)前調(diào)查的供者,而冷平臺(tái)插補(bǔ)則使用其它資料中的供者。 冷平臺(tái)插補(bǔ)經(jīng)常使用前期的調(diào)查或普查中的歷史數(shù)據(jù)。第二十八張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 4.6 最近鄰插補(bǔ)最近鄰插補(bǔ),就像熱平臺(tái)插補(bǔ),也是基于匹配變量選擇一個(gè)供者記錄。但是,用這種方法,目的不一定是非要找出一個(gè)和受者記錄在匹

14、配變量上完全相同的供者記錄,而是要在插補(bǔ)類中按匹配變量找到和受者記錄最接近的供者記錄即找到距離最近的值?!白罱笔峭ㄟ^(guò)兩個(gè)觀測(cè)對(duì)象之間的距離來(lái)定義的,兩個(gè)觀測(cè)對(duì)象之間的距離是由輔助數(shù)據(jù)計(jì)算的。第二十九張,PPT共五十一頁(yè),創(chuàng)作于2022年6月4.7 隨機(jī)性插補(bǔ)任何用于定量數(shù)據(jù)的確定性插補(bǔ)都能通過(guò)加上隨機(jī)殘差變得具有非確定性。例如,我們可以用平均值加上隨機(jī)殘差來(lái)進(jìn)行插補(bǔ):其中, 是y變量第i個(gè)記錄的插補(bǔ)值; 是插補(bǔ)類的均值; 是從被調(diào)查者或某一分布的隨機(jī)模型中抽取的殘差。 第三十張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 哪些值需要插補(bǔ)由于無(wú)回答或回答無(wú)效檢出的審核失效的記錄一般都需要進(jìn)行插補(bǔ)。

15、但是并不是所有審核失效的數(shù)據(jù)都需插補(bǔ)。對(duì)一個(gè)記錄應(yīng)盡可能限制需插補(bǔ)的項(xiàng)目。確定哪些字段需要插補(bǔ)應(yīng)遵循以下三條準(zhǔn)則: 應(yīng)該通過(guò)變更盡可能少的數(shù)據(jù)項(xiàng)(字段),以使每條記錄都滿足審核規(guī)則的要求;盡可能保持?jǐn)?shù)據(jù)文檔的原始頻數(shù)結(jié)構(gòu);插補(bǔ)規(guī)則的確定,不是參考其它任何具體規(guī)定,而是由相應(yīng)的審核規(guī)則導(dǎo)出。第三十一張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 舉例說(shuō),假設(shè)某份問(wèn)卷中關(guān)于一位被調(diào)查者的背景資料是:受教育程度(大學(xué)),婚姻狀況(已婚),性別(女),年齡(10歲)。顯然,這條記錄中,年齡-婚姻狀況、年齡、受教育程度是不符合審核規(guī)則的。為了糾正審核失效,可以同時(shí)調(diào)整婚姻狀況和受教育程度,也可以只對(duì)年齡作調(diào)

16、整,一般傾向于采用后者。第三十二張,PPT共五十一頁(yè),創(chuàng)作于2022年6月插補(bǔ)后數(shù)據(jù)的方差估計(jì)前面講到的所有插補(bǔ)方法都能為每一個(gè)缺失的或不一致的值生成一個(gè)單一的插補(bǔ)值,這些方法也都會(huì)在某種程度上扭曲插補(bǔ)變量的原始分布,并導(dǎo)致使用標(biāo)準(zhǔn)方差估計(jì)公式得出的不適當(dāng)?shù)姆讲罟烙?jì)。分布扭曲的程度很大程度上取決于插補(bǔ)量的大小和所使用的插補(bǔ)方法。 第三十三張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 插補(bǔ)的準(zhǔn)則雖然插補(bǔ)能改善最終數(shù)據(jù)的質(zhì)量,但也要小心選擇適當(dāng)?shù)牟逖a(bǔ)方法。插補(bǔ)方法是否適當(dāng)取決于調(diào)查的類型、目的、可用的輔助信息和錯(cuò)誤的性質(zhì)。審核和插補(bǔ)帶來(lái)的風(fēng)險(xiǎn)是它們會(huì)破壞報(bào)告數(shù)據(jù),產(chǎn)生符合預(yù)想模型的記錄,而這種模型后

17、來(lái)可能表明并不正確。第三十四張,PPT共五十一頁(yè),創(chuàng)作于2022年6月以下是進(jìn)行插補(bǔ)的幾條準(zhǔn)則: 插補(bǔ)得到的記錄應(yīng)該和審核失效的記錄非常相似。這通常可以通過(guò)只對(duì)盡可能少的變量進(jìn)行插補(bǔ)而盡可能多地保留被調(diào)查者的原始回答數(shù)據(jù)來(lái)做到。 基本的假定(在實(shí)際工作中并不總成立)是一個(gè)被調(diào)查者更有可能只出錯(cuò)一兩次,而出錯(cuò)多次的情況較少; 好的插補(bǔ)會(huì)為評(píng)估留下審查的線索,并保證插補(bǔ)的記錄具有內(nèi)部一致性。插補(bǔ)處理過(guò)程應(yīng)該是自動(dòng)的、客觀的、可再現(xiàn)的和有效的;第三十五張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 插補(bǔ)得到的記錄應(yīng)該滿足所有的審核規(guī)則;- 插補(bǔ)值應(yīng)標(biāo)明,插補(bǔ)方法和插補(bǔ)使用的資料也應(yīng)清楚地標(biāo)明。記錄中變量

18、的插補(bǔ)和非插補(bǔ)的值都應(yīng)該保留,以便對(duì)插補(bǔ)的程度和影響進(jìn)行評(píng)估;- 仔細(xì)選擇插補(bǔ)的方法,考慮每一種插補(bǔ)方法的優(yōu)缺點(diǎn)以及要插補(bǔ)的數(shù)據(jù)的類型;第三十六張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 - 插補(bǔ)方法應(yīng)減少無(wú)回答偏倚,并盡可能地保持不同變量之間的關(guān)系(即不應(yīng)破壞數(shù)據(jù)的多變量結(jié)構(gòu));-插補(bǔ)系統(tǒng)應(yīng)事先思考、提出、編程和調(diào)試;-插補(bǔ)系統(tǒng)應(yīng)該能處理各種缺失或不一致的字段;第三十七張,PPT共五十一頁(yè),創(chuàng)作于2022年6月-對(duì)于供者插補(bǔ)方法,插補(bǔ)得到的記錄應(yīng)盡可能與選中的供者相似。這有利于保證插補(bǔ)記錄中插補(bǔ)值與非插補(bǔ)值的組合不僅滿足審核規(guī)則而且具有多樣性。第三十八張,PPT共五十一頁(yè),創(chuàng)作于2022年6

19、月 5) 離群值的檢測(cè)和處理 離群值的檢測(cè)可以看作審核的一種類型, 主要是用來(lái)發(fā)現(xiàn)和確認(rèn)可疑的記錄。應(yīng)該區(qū)分極值和影響值。 如果一個(gè)記錄值和抽樣權(quán)數(shù)的組合對(duì)估計(jì)有較大的影響,我們就稱這樣的觀測(cè)值為影響值。但極值不一定是影響值。第三十九張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 應(yīng)區(qū)別單變量離群值和多變量離群值。 如果一個(gè)離群值對(duì)應(yīng)一個(gè)變量,該觀測(cè)值就是一個(gè)單變量離群值;如果一個(gè)離群值對(duì)應(yīng)兩個(gè)或多個(gè)變量,我們就說(shuō)該觀測(cè)值是一個(gè)多變量離群值。 例如,某人的身高是2米,或體重是45公斤,這種情況可能并不少,但身高2米且體重只有45公斤的人,即是一個(gè)多變量離群值的例子。第四十張,PPT共五十一頁(yè),創(chuàng)作

20、于2022年6月有許多原因會(huì)導(dǎo)致離群值的產(chǎn)生:數(shù)據(jù)中有錯(cuò)誤(如,數(shù)據(jù)錄入錯(cuò)誤);離群值可能來(lái)自另一模型或分布,如,大多數(shù)數(shù)據(jù)服從某個(gè)正態(tài)分布,但所推測(cè)的離群值很可能是來(lái)自一個(gè)指數(shù)分布;離群值的出現(xiàn),可能是由于數(shù)據(jù)固有的變異性??雌饋?lái)值得懷疑的東西,可能僅僅是由于數(shù)據(jù)集固有的變異性。第四十一張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 離群值的檢測(cè)傳統(tǒng)上,離群值是通過(guò)測(cè)量它們和數(shù)據(jù)中心的相對(duì)距離來(lái)辯認(rèn)的。設(shè) 是觀測(cè)到的樣本數(shù)據(jù),m和s分別是數(shù)據(jù)集中趨勢(shì)和離散趨勢(shì)的度量,離數(shù)據(jù)中心的相對(duì)距離 定義為:如果大于預(yù)先確定的偏離值(如d=1.96,對(duì)應(yīng)的概率為95%,d=2.58,對(duì)應(yīng)的概率為99%),那

21、么該觀測(cè)值就被認(rèn)為是一個(gè)離群值。第四十二張,PPT共五十一頁(yè),創(chuàng)作于2022年6月 離群值也可以通過(guò)下面的容許區(qū)間進(jìn)行確認(rèn):這里, 和 分別是預(yù)先確定的下限和上限的值。如果總體是偏態(tài)的, 和 就不相等。落在這個(gè)區(qū)間之外的觀測(cè)值被認(rèn)為是離群值。第四十三張,PPT共五十一頁(yè),創(chuàng)作于2022年6月樣本均值和樣本方差是度量數(shù)據(jù)集中趨勢(shì)和離散程度最常用的統(tǒng)計(jì)量。但是,由于它們對(duì)離群值比較敏感。因?yàn)樯鲜鲈?,檢測(cè)離群值的最常用的方法之一是四分位數(shù)法。這種方法用中位數(shù)度量數(shù)據(jù)的集中趨勢(shì),四分位數(shù)間距度量數(shù)據(jù)的離散程度,因?yàn)檫@些統(tǒng)計(jì)量對(duì)離群值更為穩(wěn)健(即不大敏感)。第四十四張,PPT共五十一頁(yè),創(chuàng)作于2022年6月注意這里所說(shuō)的中位數(shù)和四分位數(shù)都是用加權(quán)的樣本數(shù)據(jù)計(jì)算出來(lái)的。 與 分別稱為下四分位數(shù)間距與上四分位數(shù)間距。由此可得容許區(qū)間為:其中, 和 可以通過(guò)以前的數(shù)據(jù)或基于過(guò)去的經(jīng)驗(yàn)來(lái)確定。任何落到這個(gè)區(qū)間之外的觀測(cè)值都被認(rèn)為是一個(gè)離群值。第四十五張,PPT共五十一頁(yè),創(chuàng)作于2022年6月10.6.2 離群值的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論