Excel中自動完成方差齊性與非齊性t檢驗_第1頁
Excel中自動完成方差齊性與非齊性t檢驗_第2頁
Excel中自動完成方差齊性與非齊性t檢驗_第3頁
Excel中自動完成方差齊性與非齊性t檢驗_第4頁
Excel中自動完成方差齊性與非齊性t檢驗_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1、缺失值處理缺失值是數據分析中一個非常常見的現象,出現的主要原因有:設備故障、拒絕回答、測驗時走神等,對此應對缺失值的進行檢測,SPSS默認缺失值以黑點表示,可以通過快速瀏覽數據列表發(fā)現,記錄下缺失值所在的變量即數據的列。缺失值的處理方式有以下三種:剔除有缺失值的觀測單位,即刪除SPSS數據列表中缺失值所在的數據行。在SPSS的統(tǒng)計分析程序中,打開options按鈕,便會出現缺失值的處理欄,可分別選擇下列選項:“剔除正在分析的變量中帶缺失值的觀察單位”、“剔除所有分析變量中帶缺失值的觀察單位”。雖然這種做法可以為執(zhí)行許多統(tǒng)計分析命令掃清障礙,但要求每一步統(tǒng)計分析都聯系于特定的有效樣本容量,而

2、樣本容量不能穩(wěn)定會給整個分析帶來不便。對缺失值進行估計后補上。主要有兩種方法:一是根據文獻報道等知識經驗進行估計;二是用SPSS提供的工具進行估計。在“transform菜單下的“replacemissingvalues列出了5種替代的方法:seriesmean:以列的算術平均值進行替代;meanofnearlypoint:以缺失值鄰近點的算術平均值進行替代;Medianofnearlypoint:以缺失值臨近點的中位數替代;linearinterpolation:根據缺失值前后的2個觀察值進行線性內查法估計和替代;lineartrendatpoint:用線形回歸法進行估計和替代。將缺失值作為

3、常數值,如:作為“0”。2、奇異值和極端值的處理奇異值和極端值是指各變量中與整體數據相距太遠的極值,由于它的夸大作用,常常會歪曲統(tǒng)計結果,導致犯一類和二類錯誤。導致奇異值和極端值的原因:(1)數據輸入時出錯;(2)在不同數據格式之間進行轉換時缺失值處的數碼代號被當成了實際觀測值;(3)出現奇異值的樣本并非屬于所要考察的總體;(4)考察的樣本相對于正態(tài)分布有比較多的極值。奇異值和極端值的檢測:在描述統(tǒng)計分析菜單下,點擊Explore(探索性分析)對話框后把變量選入Variables框中,單擊統(tǒng)計量選擇描述統(tǒng)計量,單擊圖可以選擇箱形圖、莖葉圖、直方圖與正態(tài)檢驗的QQ圖等檢測有無極端值和奇異值。通過

4、箱形圖可以發(fā)現數據中的異常點,對數據進行核對、檢驗和篩選。以箱形圖為例,箱形圖中都標有奇異值的行號。箱形圖圖形的含義是:中間的粗線為中位數,灰色的箱體為四分位,兩頭伸出的線條表現極端值(下線為最小值、上線為最大值)。箱形圖用離群值和極端值表示那些在繩索外側的值。離群值,是指值與框的上下邊界的距離在1.5倍框的長度到3倍框的長度之間的個案,在圖種用“o”號表示。極端值是指值距離框的上下邊界超過3倍框長的個案,用“”號表示。框的長度是四分位數之間的全距。如圖1所示,對某問卷中家庭收入進行分析的箱形圖中既有離群值也有極端值。圖中3個極端值分別位于:81號家庭、93號家庭、62號;此外2個離群值為:6

5、7號家庭、76號家庭。有時,鑒于81號家庭遠遠游離于箱體、繩索及鄰近的極端值所組成的群體之外,可以把它視作飛點。減少奇異值和極端值影響的方法:將奇異值和極端值作為缺失值處理:在variableview視圖中點擊missing欄下含有奇異值和極端值的變量,彈出“missingvalues對話框,有3個選項可以使用:1)discretemissingvalues最多可以指定3個數值為缺失值;2)rangeofmissingvalues指定某一取值范圍內的數值為缺失值;3)rangeplusoneoptionaldiscretemissing指定某一取值范圍和某一特定數值為缺失值;根據檢測的奇異值和

6、極端值,用dataselecteases工具中的“if.”對數據的取值范圍進行限定,然后再進行統(tǒng)計分析;對奇異值進行估計,方法同缺失值的估計;將原始數據轉換成標準Z分數(statistics/summarize/descriptives/save/standardizedvalueas)或進行其他的轉換后再進行統(tǒng)計分析;刪除奇異值所在的觀察單位。3、統(tǒng)計分析前的假設檢驗許多統(tǒng)計檢驗都需要樣本數據服從正態(tài)分布,并且相關聯的變量之間應方差齊同。若不符合上述條件便應進行數據轉換,否則便會導致錯誤。但大樣本數據可以近似地認為其為正態(tài)分布,而不用去進行正態(tài)性檢驗。analyze下的descriptive

7、s,frequencies和explore可以完成這些工作。(1)方差齊性檢驗(spreadvs.levelwithlevenetest)descriptives和“frequencies的功能基本相同,都可進行正態(tài)性檢驗和方差齊性檢驗。若滿足方差齊性,則可進行下一步工作;若不滿足,選powerestimetion進行數據變換來滿足。方差齊性,有6種方法可供選擇:(1)naturallog:取自然對數;(2)1/squareroot:取平方根的倒數;(3)reciprocal:取倒數;(4)squareroot:取平方根;(5)square:取平方;cube:取立方。若SPSS提供的6種變換均

8、不能滿足要求,應考慮采用非參數統(tǒng)計的方法。(2)正態(tài)檢驗(normalityplotswithtests)在“analyzedescriptivesstatisticsexplore中可進行正態(tài)檢驗,及做出QQ圖。若不支持正態(tài)分布,則應進行數據變換,方法同方差齊性檢驗,或選用非參數統(tǒng)計的方法。4、相關分析前的數據檢查相關分析之前應用descriptivesstatistics對數據進行觀察。當一個變量取值范圍很窄時,應做數據變換后再進行相關分析,否則會使相關的資料得出不相關的結論;在做連續(xù)變量和等級資料的相關或兩個等級資料的相關時,若90%的被試都選擇等級資料中的一種情況(如:90%的被試都選

9、擇“嚴重”),則相關性通常會很低,對這類數據應用其他方法進行分析;當均值是一個很大的數,而同時標準差很小時,相關系數值通常也會很小,對這樣的資料不宜做相關分析。摘自劉瑩SPSS在問卷數據校驗中的應用研究,科技資訊2008(8)。多項選擇題數據的輸入方法1:多重二分法。有多少選項就設多少個變量,某個個案選擇了某項則在該變量名下錄入“1”,未選擇某項則錄入“0”,即將每個變量變成類似于“是”、“否”的選擇題。方法2:多重分類法。有多少選項就設多少個變量,某個個案選擇了某項則在該變量名下錄入“1”,未選擇某項則錄入“0”。例如,某個個案選擇了第“1”、“3”、“4”項,則依次錄入“1、0、1、1、0

10、、0”。方法3:多重分類法。選了多少項就設置多少個變量,如命名為seq1、seq2和seq3,如果某個個案選擇了第“1”、“3”、“2”項時,則依次輸入“1”、“3”、“2”。方法4:多重分類法,利用Excle的分列功能。第一步,設置一個變量,命名為var1。第二步,錄入數據。例如,某個個案選擇了第“1、3、2”項,則輸入“132”。第三步,將該多選題及其數據另存為Excle文件。第四步,在excle中將varl這一個變量分列,步驟是“選定該變量-數據-分列-固定寬度-下一步-使用鼠標分列-下一步-完成。這樣,原來的一個變量組成的數據庫轉化為由幾個變量組成的新的數據庫,如下。黒變量和數值新0勺

11、變量名和數值varISeq1Seq2Seq3132盤32145臂斗;$第五步,將新的變量Seq1,Seq2,Seq3保存。最后,使用SPSS軟件讀取該數據文件。多項選擇題的數據集合的定義可從兩種方式進入:從菜單Analyze(分析)MultipleResponse(定義多重響應集)進入。(2)從菜單Analyze(分析)Tables(表)MultipleResponseTables(多響應集)進入。例:項目1、您的性別:1男2女項目2、您購車時,哪些因素會影響你的購車決策。(允許選擇3個答案,而且要求被調查者按主次順序選出答案,如521,即價格最重要,其次是款式,再次是性能。)1性能2款式3油

12、耗4品牌5價格6顏色7其他從菜單Analyze(分析)Tab1es(表)MultipleResponseTables(多響應集)進入:第一步:在VariablesinSet(設置定義)框是選入需要加入同一個多項選擇題變量集的變量系列,這些變量必須進行分類,并按照相同的方式來編碼。若項目是按多重二分法編碼,將SetDefinition(設置定義)框中的a1、a2、a3a7放入VariablesinSet(集合中的變量)框,在VariablesAreCodedAs(將變量編碼為)單選框中的選擇dichotomies(二分法),在Countedvalue(計數值)右側框中輸入1。若項目是按多重分類法

13、編碼,將SetDefinition(設置定義)框中的b1、b2、b3放入VariablesinSet(集合中的變量)框,在VariablesAreCodedAs(將變量編碼為)單選框中的選擇categories(多重分類法編碼方式),則需要設定取值范圍,在該范圍內的記錄值納入分析。一般的取值范圍是該多項選擇題選項的最大和最小代碼,因此,在range右側框中輸入1,through后輸入7。第二步:定義多重反應分析的變量集的名稱并附上名稱標簽。在Name(名稱)框是輸入多項選擇題變量集的名稱,項目2命名為“GCJCYXYS”。在Lable(標簽)框是多項選擇題變量集定以一個名稱標簽,項目2用的是“

14、購車決策影響因素”。第三步:單擊Add鈕,將定義完成的“變量集”填加到多選集”(MultipieResponsesets)中,此時變量集名前自動添加了集符號“$“(如:$GCJCYXYS)MuitResponseSets框是存放已定義好的多項選擇題變量集的列表,在此框中可定義多個,它左側的三個按鈕Add、Change和Remove,分別用于添加、修改和移出變量集的定義。第四步:最后單擊Close按鈕,相應的多項選擇題變量集就定義完成了。在SPSS統(tǒng)計軟件中的多重反應分析過程(MultipieResponse),最多可以定義20個多項選擇題變量集,對于一次問卷調查一般不會有超過20個的多項選擇題

15、,所以完全夠用了。多項選擇題的分析多項選擇題的數據集合定義完成之后,就可以對數據進行分析。分析包括兩種:頻數分析和列聯表分析。1、頻數分析過程多項選擇題的頻數分析過程(Freqencies),只能通過MultipieResponse菜單里的Freqencies過程實現,生成多項選擇題的頻數分析表比較簡單。從菜單AnalyzeMuitipieResponseFreqencies進入。然后從MultResponseSets框中將分析對象(本例如購車決策影響因素$GCJCYXYS)選入右邊的Table(s)for框,其他默認,單擊OK鈕,多項選擇題的頻數表就生成了。義2血車訣發(fā)影呃醫(yī)褻多項選揮題的顧

16、數分祈親Categorylabel(購車決策影響因素)CedeCountPertengagedRe&ponss(%1PercentagefCasa(愴)性能1:499.628.8款式2備12.73S.2油耗310420.461.2品麗4.Si1S.054.1.價格5iso29.488.2顏色7.823.5:其他7102.05.9Tctalrespcns.es510:100.0300.0如表3所示。在本次調查中,對170名受訪者的調查結果為:在決策影響因素中,居于前三位的分別為:價格被選率最高29.4%,其次是油耗為20.2%,再次是品牌為18.0%。2、列聯表分析過程多項選擇題的列聯表分析過程

17、(Crosstabs),可以產生多重交叉列聯表,而且可以對單元格進行很細致的分析。列聯表分析可以通過兩種不同的方式進入:從菜單AnalyzeMultipleResponseCrosstabs進入;從菜單AnalyzeiTablesiMultipleResponseTables進入。在MultResponseSets框中,顯示已經定義好得多項選擇題變量集,本例把變量集“購車決策影響因素”$GCJCYXYS選入Colums框。把變量sex放入Rows框,并對性別要定義變量值的范圍,單擊DefineRanges鈕,定義最小值和最大值,本例定義最小值為1,定義最大值為2(1=男”,2=女”)。對于Op

18、tion子對話框,本例選擇了CellPercengtage(百分比)的Row,PercengtageBasedon選擇的是Case,一般選擇其默認狀況即可。最后單擊OK鈕,便得到多項選擇題的列聯表(表4)。價格被選率最高為84.5%(49/58),其次是油耗為60.3%(35/58),再次是性能為58.6%(34/58)。在被調查的112名女性中,價格被選率最高為90.2%(101/112),其次是油耗為60.7%(68/112),再次是品牌為52.7%(59/112)。多項選擇題答案的排序分析多項選擇題答案的排序分析,其數據編碼和變量設置只能采取多重分類法(multiplecategorym

19、ethod)。分析結果若想得到每個選項的交叉列聯表,有三種方法:1、從菜單AnalyzeiMultipleResponseiCrosstabs進入,此時需要把變量sex放入Rows框,單擊DefineRanges鈕,定義最小值為1,定義最大值為2。把變量b1、b2、b3(b1是購車決策影響因素中最重要的、其次是b2、再次是b3)放入Columns框,單擊0K鈕即可。2、從菜單AnalyzeiDescriptiveStatisticsiCrosstabs進入,把變量sex放入Rows框,把變量b1、b2、b3選入Columns框,單擊OK鈕即可。3、從菜單AnalyzeiTablesiMulti

20、pleResponseTables進入,把變量sex放入Rows框,把變量b1選入Columns框,單擊0K鈕得到性別與最重要購車決策影響因素列聯表,然后分別把b1換成b2,把b1換成b3,就分別得到性別與其次購車決策影響因素列聯表和性別與再次購車決策影響因素列聯表。注意不能把變量bl、b2、b3同時選入Columns框。(以上主要摘自李燦、辛玲SPSS軟件中多項選擇題的處理方法研究,江蘇商論2007.10)相關分析研究變量之間的相互關系的密切程度和變化趨勢,并用適當的統(tǒng)計指標描述,稱為相關分析。把變量間相互關系用函數表達出來,用一個或多個變量的取值來估計另一個變量的取值,則稱為回歸分析。SP

21、SS提供了三種相關分析方法:1、Bivariate方法用于進行兩個/多個變量間的參數/非參數相關分析。如果是多個變量,則給出兩兩相關的分析結果。該方法十分常用通常會占到所有相關分析的95%以上。2、Partial方法用于偏相關分析,通常在進行相關分析的兩個變量其取值均受到其他變量的影響時使用。3、Distances方法對同一變量內部各觀察單位間的數值或各個不同變量間進行距離相關分析,在教育教學研究中使用較少。Bivariate相關分析舉例:語文成績與數學成績是不是相關?假設采集30名學生的數學和語文成績進行分析。分析方法:輸入數據后,對數據的信度進行檢查,并繪制散點圖,直觀查看兩變量間是否有相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論