




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 數(shù)據(jù)預處理和描述性分析 本章內容第一節(jié) 異常值和缺失值的處理第二節(jié) 信度與效度分析第三節(jié) 描述性分析第一節(jié) 異常值和缺失值的處理 一、異常值的檢驗和處理 (一)異常值的檢驗 一批數(shù)據(jù)中,有部分數(shù)據(jù)與其他數(shù)據(jù)相比明顯不一致的稱為異常值,或稱離群值。如果數(shù)據(jù)中混進了異常值,就會使相應分析誤差增大。因此,在利用數(shù)據(jù)進行分析之前,有必要對異常數(shù)據(jù)進行檢驗并做相應處理,以便于發(fā)現(xiàn)具有普遍性的規(guī)律。 SPSS中Explore過程主要用于對資料的性質、分布特點等完全不清楚時的一種檢驗,故又稱之為探索性分析,對于異常值的檢驗具有很好的作用。1、探究分析的作用 (1)考察數(shù)據(jù)的奇異性。過大或過小的數(shù)據(jù)均
2、有可能是異常值、影響點或是錯誤輸入的數(shù)據(jù)。對于這樣的數(shù)據(jù)第一要找出,第二要分析原因,第三要決定是否對這些數(shù)據(jù)進行處理。 (2)檢查數(shù)據(jù)分布特征。許多分析方法對數(shù)據(jù)的分布有一定要求,例如要求樣本來自正態(tài)分布總體,從實驗或實際測量得到的數(shù)據(jù)是否符合正態(tài)分布的規(guī)律,決定了它們是否可以選用只對正態(tài)分布數(shù)據(jù)適用的分析方法。 (3)考查方差齊性。另外對若干組數(shù)據(jù)均值差異性的分析需要根據(jù)其方差是否相等,選擇進行檢驗的計算公式。2、探索分析提供的考查方法(1)箱圖:是對任何分布的數(shù)據(jù)的整體描述。其中: 矩陣框是箱圖的主體,上中下三條線分別表示變量的第75、50、25百分位數(shù)。 中間的縱向直線稱觸須線,上截止截
3、線是變量值本體最大值,下截止截線是變量值本體最小值。除異常值和極值以外的變量值成為本體值。 異常值所使用的標記為“0” 。 極值所使用標記為“*”。 (2)莖葉圖:能直觀地描述數(shù)據(jù)的頻數(shù)分布。莖葉圖自左至右分為三大部分:頻數(shù)、莖、葉。莖表示數(shù)值的整數(shù)部分,葉表示數(shù)值的小數(shù)部分。每行的莖和每個葉組成的數(shù)字相加再乘以莖寬,即莖葉所表示實際數(shù)據(jù)的近似值。 (3)正態(tài)性檢驗:除偏度、峰度統(tǒng)計量外,SPSS還提供以下兩種方法進行正態(tài)性檢驗: 常用的觀測量數(shù)據(jù)的正態(tài)分布檢驗的方法是Q-Q圖,后面的章節(jié)會加以介紹。 Lillifors統(tǒng)計量檢驗法可以在方差與均值未知的情況下直接使用,它是對Kolmogoro
4、v-Smirnov統(tǒng)計量的修正。(4)方差齊性檢驗 在進行均值多組間比較時,要求各組的方差相同,所以要進行方差齊性檢驗,例如常用的方差分析就要求分組樣本的數(shù)據(jù)來自方差相同的正態(tài)總體。另外,在進行獨立樣本T檢驗之前也要事先進行方差齊性檢驗。具體內容請見第六章。3、探索分析過程在SPSS中的實現(xiàn) (1)建立或打開了數(shù)據(jù)文件后,按從“Analyze” “Descriptive Statistics”“Explore”,進入Explore對話框。見圖4-1所示。 圖4-1 數(shù)據(jù)探索對話框 (2)從源變量中,選擇若干個數(shù)值型變量作為因變量送入Dependent框中。 (3)指定分組變量。在源變量框中選擇
5、一個或多個分組變量進入Factor框中。 (4)選擇標識變量。在源變量表中指定一個變量作為觀測量的標識變量,送入Label Cases by框中。 (5)Display欄,確定輸出項。其中:Both選項表示輸出圖形以及描述統(tǒng)計量,Statistics選項表示只輸出描述統(tǒng)計量。Plots選項表示只輸出圖形。(6)單擊Statistics按鈕,打開如圖4-2所示的對話框,選擇描述統(tǒng)計量。其中:圖4-2 選擇描述性統(tǒng)計量的對話框 Descriptive復選項,要求輸出基本描述統(tǒng)計量,包括平均數(shù)、中位數(shù)、眾數(shù)、5%的調整平均值、標準誤、方差、標準差、最大值、最小值、范圍、等距四分位數(shù)、峰度與偏度、峰度
6、與偏度的標準誤。在Confidence intervals for mean框中設置均值的置信區(qū)間。 M-estimators復選項,要求輸入集中趨勢最大似然比的穩(wěn)健估計。 Outliers復選項,要求輸出5個最大值與最小值,在輸出窗口中它們被標明為極端值。 Percentiles復選項,要求輸出第5、10、25、50、75、90以及95百分位數(shù)。 (7)展開Plots對話框,見圖4-3所示,選擇統(tǒng)計圖形及其參數(shù)。圖4-3 統(tǒng)計圖對話框 Boxplots單選項組:確定箱式圖的繪制方式,可以是按組別分組繪制(Factor levels together),也可以不分組一起繪制(Depentend
7、s together),或者不繪制(None)。 Descriptive復選項組:可以選擇繪制莖葉圖(Stem-and-leaf)和直方圖(Histogram)。 Normality plots with test選項:繪制正態(tài)分布圖并進行變量是否符合正態(tài)分布的檢驗。 Spread vs. Level with Levene Test單選項組:當選擇了分組變量時,對所有的散布/層次圖來說,同時輸出回歸直線斜率以及方差齊性的Levenes檢驗結果。如果選擇了Transformed轉換選項,將依據(jù)轉換后的數(shù)據(jù)計算。(8)單擊Options按鈕,彈出如圖4-4所示的對話框 圖4-4 選擇對話框圖4-
8、4中: Exclude cases listwise表示分析過程中,剔除帶有缺失值的觀測量; Exclude cases pairwise表示分析過程中,成對剔除有缺失值的觀測量; Report values表示分組變量中的缺失值將被單獨分為一組。輸出頻數(shù)表時也包括缺失組。(二)異常值的處理 1、刪除法。如果樣本充分大,刪除異常值后對整個結論沒有影響,這種方法不失為一種簡單可行的方法。但如果樣本數(shù)量本身有限,刪除異常值后,樣本本身的代表性值得懷疑,也就會影響研究結論。 2、替代法,就是用正常數(shù)據(jù)區(qū)間的端點來替代異常數(shù)據(jù)。如果某項數(shù)據(jù)服從正態(tài)分布,運用“拉依達準則(3準則)”來進行異常值的檢驗;
9、如果某項指標不符合正態(tài)分布,就用 “五數(shù)概括法”來進行異常值的檢驗。二、缺失值的分類和處理 (一)缺失值的分類 缺失值是指現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完全的。缺失值分為幾下幾種: 1、從缺失的原因來講分為機械原因和人為原因。 2、從缺失的分布來講可以分為完全隨機缺失(MCAR) ,隨機缺失(MAR)和系統(tǒng)缺失(systematic missing) 。 (二)缺失值的處理 1、刪除法 當采集到的數(shù)據(jù)量很大時,可以將數(shù)據(jù)缺失的樣本刪除。刪除法又分為表列刪除法和配對刪除法。 (1)表列刪除法,是將數(shù)據(jù)缺失的受訪者的所有資料全部刪除的方法,不管受訪者缺失數(shù)據(jù)的數(shù)量,只要一項遺漏,則該受訪者全部
10、資料均被刪除,以保證進行運行的所有受訪者數(shù)據(jù)都是完整的。這種方法只有當觀測的樣本數(shù)據(jù)量足夠或數(shù)據(jù)缺失時,不會因刪除導致參數(shù)的有效估計時,才可采用。 (2)配對刪除法,是只在需要用缺失或遺漏值進行分析時,才被刪除,其他信息仍然被使用的方法。 配對刪除法相對于表列刪除法,觀測樣本數(shù)量不會因刪除而減少過多,同時信息利用較為充分。但同時也帶來以下方面的問題:一是不一致性;二是假設檢驗產生問題;三是導致產生系統(tǒng)性偏差; 四是導致以 統(tǒng)計量為基礎的各種指數(shù)產生偏差; 五是必須假定所有缺失都是MCAR類型。 2.替代法 替代法是設法為缺失值尋找合適的替代值,將其插補到缺失值的位置,而進行計算的方法,它的思想
11、來源是以最可能的值來插補缺失值比全部刪除不完全樣本所產生的信息丟失要少。 (1)平均數(shù)替代:平均數(shù)替代是以變量中有效值的平均數(shù)替代缺失值的方法。 (2)回歸估計替代:回歸估計替代是用回歸模型的估計值替代缺失值的方法。 (3)Cold deck替代:Cold deck替代不是利用獲取的數(shù)據(jù)本身,而是利用外在資源或以往研究結果作為缺失值的替代值。 (4)個例替代:是通過尋找樣本以外、與其類似的觀察案例,以其取值替代缺失值的方法。 (5)多元替代:將幾種方法組合,如取幾種替代值的平均值替代缺失,這就是多元替代。 (6)形態(tài)匹配替代:是在已經(jīng)采集的數(shù)據(jù)中,尋找與缺失值類似的另一例,即相匹配的個例,以其
12、取值作為替代值的方法。第二節(jié) 信度與效度分析一、信度分析(一)信度的定義 信度(reliability)是指測量結果具有一致性或穩(wěn)定性的程度,對于同一個人在不同時間,以相同的測量工具進行測量,如果兩次測量結果一致,表明測量結果具有穩(wěn)定性、可靠性。一致性越高,信度越高。一致性的程度也是相對的,誤差越小,信度越高。信度主要檢測所收集數(shù)據(jù)的可靠性。(二)信度的衡量方法測量中通常有兩類誤差發(fā)生,即系統(tǒng)誤差和隨機誤差。測量的結果可以表示為: 信度可以定義為 這時,信度表示成一種變差的比例,即相關系數(shù)的平方,或如式 信度度量的具體方法有: 1、再測信度,采用同一個問卷在同一人群中先后測量兩次,評價兩次測量
13、的相關性。 2、復本信度,是在一個測量中采用兩個或兩個以上的復本來對同一群研究對象進行測量時所得到的結果的一致性程度。 3、折半信度,是指只用一個測量工具對同一組受試者實施一次測量,但將奇數(shù)題和偶數(shù)題分開計分,再計算奇數(shù)題和偶數(shù)題分數(shù)之間的相關系數(shù)。 4、內部一致性信度,問卷對每個概念的測量往往都要用一系列的條目,因而根據(jù)這些條目之間的相關性可以評價信度。 5、評分者信度,是由調查者給被測者打分或評定等級,則這種測量的可靠性主要取決于調查者評分的一致性和穩(wěn)定性。(三)信度度量方法在SPSS軟件中的實現(xiàn)表4-6信度測量調用過程表測量方法調用過程分析結果再測信度AnalyzeScaleReliab
14、ility StatisticsIntraclass correlation co-efficient選項內部相關ICC系數(shù)(測量變量為連續(xù)變量和等級變量)AnalyzeDescriptive statistics CrosstabsKappa選項Kappa系數(shù)(測量變量為分類變量)復本信度AnalyzeCorrelationbivariate根據(jù)需要可選擇Pearson、Kendalls tau-b和Spearman選項Spearson相關系數(shù)、Kendall等級相關系數(shù)和Spearman等級相關系數(shù)續(xù)表4-6信度測量調用過程表測量方法調用過程分析結果折半信度Analyze Scale Re
15、liabilityModel中Split-half選項Spearman-Brown系數(shù)、Guttman Split-Half系數(shù)內部一致性信度Analyze Scale Reliabilitymodel 中Alpha選項Cronbachs Alpha系數(shù)評分者信度Analyze Scale ReliabilityStatistics中Friedman chi-square選項Kendall和諧系數(shù)Analyze Correlation bivariate根據(jù)需要可選擇Pearson、Kendalls tau-b和Spearman選項Spearson相關系數(shù)、Kendall等級相關系數(shù)、Spea
16、rman等級相關系數(shù)二、效度分析(一)效度的定義 效度(validity)是指測量工具能夠正確測量出所要測量問題的程度。效度越高表示測量結果越能顯示出所要測量對象的真正特征。 信度與效度的關系為:信度僅考慮測量結果是否一致,不涉及結果是否正確;效度是針對測量目的,考察測量的有效程度。測量結果要有效是前提,在有效的前提下再考慮測量的精確性,因為可信不一定有效。(二)效度衡量的具體方法 效度表示測量工具能夠測出其所要測量的特征的正確性,通常采用效度系數(shù)來衡量。效度系數(shù)一般規(guī)定為與測量目標值的方差在總測量值方差中所占的比例,即效度系數(shù)為:其中 , 是想要測量的目標值,則是與測量目的不相關的系統(tǒng)性偏差
17、。效度度量的具體方法 1、表面效度,是指測量結果與人們頭腦中的印象或學術界形成的共識的吻合程度,如果吻合度高,則表面效度高。 2、內容效度,是指測量內容的適合性和相符性,即測量所選題目是否符合測量目的和要求。 3、效標效度,是指測量結果與一些能夠精確表示被測概念的標準之間的一致性程度。 4、結構效度,指問卷所能衡量到理論上期望的特征的程度,即問卷所要測量的概念能顯示出科學的意義并符合理論上的設想。 (三)效度測量在SPSS軟件中的實現(xiàn) 在SPSS統(tǒng)計分析軟件中沒有專門的效度分析模塊,表面效度和內容效度屬于主觀指標,一般采取專家評價法。效標效度和結構效度可以通過Analyze菜單進行分析,其調用
18、過程見表4-7所示。 表4-7 效度測量調用過程表測量方法調用過程分析結果效標效度Analyze Correlation bivariate根據(jù)需要可選擇Pearson、Kendalls tau-b和Spearman選項Spearson 相關系數(shù)(測量變量為連續(xù)變量)、Kendall或Spearman等級相關系數(shù)(測量變量為分類變量)結構效度Analyze Data Reduction Factor(一般在Extraction和Rota-tion選項下選擇Principal components和Varimax進行主成分極大方差旋轉因子分析法)公共因子的累積方差貢獻率、公因子方差值、每個條目公
19、共因子負荷值等第三節(jié) 描述性分析一、描述性分析概述 (一)描述性分析的作用 描述性分析的目的通常不是對研究假設的檢驗,而是為了說明樣本選擇的適當性,因此人們常常稱之為有效性測試。有效性測試通常包括檢驗樣本數(shù)據(jù)的代表性、對照數(shù)據(jù)的匹配性以及樣本數(shù)據(jù)結構與理論推測的一致性。在某些研究中,作者也借助于描述性統(tǒng)計對預期結果作一些輔助性觀察,作為對預期假設支持或否定的部分證據(jù)。有時,描述性統(tǒng)計也為調整樣本數(shù)據(jù)分布提供依據(jù)。 (二)基本描述統(tǒng)計量 1、頻數(shù)、百分比 計算變量的頻數(shù)和百分比就是計算變量在某個變量值上取值的個案數(shù),以及占總個案數(shù)的比例。 2、集中趨勢 集中趨勢是對頻數(shù)分布資料的集中狀況和平均水
20、平的綜合測度。包括算術平均數(shù),眾數(shù)和中位數(shù)。 3、離散程度 離散程度是對頻數(shù)分布的差異程度的度量,用來衡量集中趨勢數(shù)值的代表性,或者反映變量值的穩(wěn)定性和均衡性。包括標準差,分位值等等。 4、分布 分布是說明數(shù)據(jù)分布與標準正態(tài)分布的吻合程度。包括峰度和偏度。 5、統(tǒng)計圖形 統(tǒng)計圖是一種最為直接的數(shù)據(jù)刻畫方式,它無疑能夠非常清晰直觀地展示變量的取值狀況。常用的圖形有:條形圖、直方圖等。 二、頻數(shù)分布表分析(一)概述 頻數(shù)分布表是描述性統(tǒng)計中最常用的方法之一,F(xiàn)requencies 過程就是專門為產生頻數(shù)表而設計的。它不僅可以產生詳細的頻數(shù)表,還可以按要求給出某百分位點的數(shù)值,以及常用的條圖、圓圖等
21、統(tǒng)計圖。對于頻率報告和條形圖,可以用升序或降序排列不同的值,也可以按其頻率對類別進行排序。當變量具有許多不相同的值時,可提取頻率報告。(二)頻數(shù)分布分析過程在SPSS中的實現(xiàn)1、建立或打開了數(shù)據(jù)文件后,按Analyze Descriptive StatisticsFrequencies,打開如圖4-8所示的對話框。圖4-8 頻數(shù)分布主對話框 2、在源變量框中選擇一個或多個變量,送入Variable(s)框中。 3、選中Display frequency tables,要求輸出頻數(shù)分布表。 4、單擊Statistics按鈕,打開相應對話框,見圖4-9所示。圖4-9 輸出統(tǒng)計量對話框(1)Perc
22、entile Values欄,指定百分位數(shù)。 Quartiles復選項,輸出四分位數(shù)。 Cut points for equal groups復選項,輸出等分點的百分位數(shù)。 Percentile(s)復選項,自定義百分位數(shù)。 (2)Central Tendency欄,指定集中趨勢統(tǒng)計量。包括Mean(均值)、Median(中位數(shù))、Mode(眾數(shù))和Sun(所有值的總和)。如果中位數(shù)與眾數(shù)相差很大,說明觀測量中存在異常值。 (3)Dispersion欄,離散程度統(tǒng)計量欄。包括Std.Deviation(標準差)、Variance(方差)、Range(全距)、Minimum(最小值)、Maxim
23、um(最大值)和S.E.mean(均值標準誤)。 (4)Distribution欄,檢查數(shù)據(jù)的正態(tài)性。包括Skewness(偏度)和Kurtosis(峰度)。 (5)Values are group midpoints項,在接受百分位數(shù)值和中位數(shù)時,假設數(shù)據(jù)已經(jīng)分組,用各組的組中值代表各組數(shù)據(jù)。 5、單擊Charts按鈕,展開Frequencies: Charts對話框,見圖4-10。圖4-10 圖形參數(shù)選擇對話框 (1)Chart Type欄,選擇圖形類型。 None,不選擇作圖; Bar charts,輸出條形圖。適用于分類變量。 Pie charts,輸出餅圖。適用于分類變量。 Histogram,輸出直方圖。適用于連續(xù)的數(shù)值型變量。 (2)Chart Value欄,在選擇了條形圖和餅圖后生效。 Frequencies,條形圖縱軸表示頻數(shù),餅圖的每塊表示屬于該組的觀測量頻數(shù)。 Percentages, 條形圖縱軸表示百分比,餅圖的每塊表示該組觀測量數(shù)占總數(shù)的百分比。 6、單擊Format按鈕,打開如圖4-11所示的對話框。在對話框中設置頻數(shù)表輸出格式圖4-11 頻數(shù)分布表格式對話框 (1)Order by欄,設置頻數(shù)表順序,在選擇了Display
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 炎癥性腸炎的護理常規(guī)
- 財務管理核心流程優(yōu)化與控制
- 單詞挑戰(zhàn)賽課件
- 醫(yī)藥收貨驗收工作總結
- 未來教育發(fā)展藍圖
- 征信合規(guī)與信息安全培訓
- 外科護理學第20章膿胸
- 住院患者低血糖的表現(xiàn)及護理
- 2025年商業(yè)寫字樓智能化初步設計評估與智能化改造案例研究報告
- 基于流體動力學的儲能電池熱管理系統(tǒng)研究報告
- 電線電纜廠材料倉庫管理制度
- 混凝土襯砌(二襯)專項施工方案
- DB64-T 1999.1-2024 國土空間生態(tài)修復工程建設標準 第1部分:國土整治
- 湖北省黃岡市黃州區(qū)2023-2024學年六年級下學期期末考試英語試題
- 國家開放大學《初級經(jīng)濟學》形考任務1-3參考答案
- TYNZYC 0095-2022 綠色藥材 金果欖(青牛膽)栽培技術規(guī)程
- 2024年廣西壯族自治區(qū)中考歷史真題(含解析 )
- 幼兒園戶外混齡建構游戲案例分析
- 電線老化檢測委托
- 創(chuàng)業(yè)修煉智慧樹知到期末考試答案章節(jié)答案2024年同濟大學
- JGJ52-2006 普通混凝土用砂、石質量及檢驗方法標準
評論
0/150
提交評論