版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、Spss的數(shù)據(jù)預處理數(shù)據(jù)預處理的目的:在數(shù)據(jù)文件建立好后,通常還要對待分析的數(shù)據(jù)進行必要的預加工處 理,這是數(shù)據(jù)分析過程中不可缺少的一個關鍵環(huán)節(jié)。數(shù)據(jù)的預加工處理是服 務與數(shù)據(jù)分析和建模的,需要解決的問題如下:1、缺失值和異常數(shù)據(jù)的處理。2、數(shù)據(jù)的轉(zhuǎn)換處理。 數(shù)據(jù)的轉(zhuǎn)換處理是在原有數(shù)據(jù)的基礎上, 計算產(chǎn)生 一些含有更豐富信息的新數(shù)據(jù)或?qū)?shù)據(jù)原有分布進行轉(zhuǎn)換等。3、數(shù)據(jù)抽樣。從實際問題、算法或效率等方面考慮,并非收集到的所有 數(shù)據(jù)(個案) 在某項分析中都有用途, 有必要按照一定的規(guī)則從大量 數(shù)據(jù)中選取部分樣本參與分析。4、選取變量。并非所有數(shù)據(jù)項(變量)在某項分析中均有意以,選取部 分變量參與分
2、析是必要的。Spss 提供了一些專門的功能輔助用戶實現(xiàn)數(shù)據(jù)的預加工處理工 作,通過預處理還可以使用戶對數(shù)據(jù)的總體分布有所了解。、數(shù)據(jù)預處理步驟:1、數(shù)據(jù)的排序:(1)數(shù)據(jù)排序的目的:a通常數(shù)據(jù)編輯窗口中個案的前后次序是由數(shù)據(jù)數(shù)錄入的先后順序決 定的,數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽,有助于了解數(shù)據(jù)取值狀況、缺失 值數(shù)量的多少。、通過數(shù)據(jù)排序能夠快速找到最大值和最小值, 進而可以計算出數(shù)據(jù) 的全距,快速把握和比較數(shù)據(jù)的離散程度。c、通過數(shù)據(jù)排序能夠快速發(fā)現(xiàn)數(shù)據(jù)的異常值。(2)、數(shù)據(jù)排序的步驟:a選擇菜單:【Date】f【Sort Casedb、指定主排序量到【Sort by】框中,并選擇【Sort Ord
3、er框中的選項指出該變量按升序還是降序排序排序?!続sce nding】表示升序,【Desce ndinQ 表示降序。c、如果是多重排序,還要依次指定第二、第三排序變量及相應的排序規(guī)則。否則本部可略。排序窗口如下圖:拶 Sort CaesQdA A2& A3/ A4:A A4 d A4B A4BQ A4:C IMG 矽 Ai n rAAnSort byR年級A)Sort Order.o AscendingC1 DescendingrSave Sorted DataReset 丿Cancel HrpFNeSave file with sorted data圖12、變量計算:(1)變量計算的目的:
4、a通過數(shù)據(jù)的轉(zhuǎn)換處理,在原有數(shù)據(jù)的基礎上,計算產(chǎn)生一些含量更 豐富的新數(shù)據(jù)。、對數(shù)據(jù)的原有分布狀態(tài)進行轉(zhuǎn)換,由于數(shù)據(jù)分析和建模中某些模型 對數(shù)據(jù)分布有一定的要求,因此可以利用變量計算對原有數(shù)據(jù)的分布進行轉(zhuǎn)換。c、spss變量計算是在原有數(shù)據(jù)的基礎上,根據(jù)用戶給出的spss的算術表達式以及函數(shù),對所有個案或滿足條件的部分個案,計算產(chǎn)生一系列新變量(2) 變量計算的操作步驟:a、選擇菜單:【Transform】f【Compute Variable】出現(xiàn)如圖2所示窗口:圖2在【Numeric Exepression】框給出spss算術表達式和函數(shù)??梢允止ぽ斎胍部梢园创翱诘陌粹o算數(shù)表達式和函數(shù)的輸入
5、工作。6在【Target Variable框中輸入存放結果的變量名。、如果用戶只希望對符合一定條件的個案計算產(chǎn)生變量,則按if按鈕,出現(xiàn)如圖3所示的窗口。選擇【Include if case satisfies conditior】選項,然后輸入條 件 表 達 式, 否 則 本 步 略 去。圖33、變量的選?。?1) 數(shù)據(jù)選取的目的:a提高數(shù)據(jù)的分析效率。b、檢驗模型。(2) 數(shù)據(jù)選取的步驟:a、【Date】 【Select Casd在【Select!框中選擇選取方法。如圖4所示:Select Cases對話框圖44、計數(shù):(1) 計數(shù)的目的:把握個案各方面的特征。(2) 計數(shù)的步驟:a、選擇
6、菜單:【Transform】f【Count Values within Cased 如圖 5 所示:b、選擇參與計數(shù)的變量到【Numeric VariableSI框中。6在【Target Variable框中輸入存放技術結果的的變量名,并在【TargetLabel框中輸入相應的變量名標簽斗npn斗門nnr圖5d、按Define Values按鈕定義計數(shù)區(qū)間,出現(xiàn)圖6所示窗口。通過Add、d、按Define Values按鈕定義計數(shù)區(qū)間,出現(xiàn)圖6所示窗口。通過Add、Remove按鈕完成計數(shù)區(qū)間的增加、修改和刪除。e如果僅希望對滿足條件的個案進行計數(shù),則按if按鈕并輸入spss相應表達式。否則本
7、部可略Count Valuer within Cases: Values to CountValues to Count.Value i / VslLlCSystem-missingSystem- nr user-trussingRange:through:-RanseL LOWEST through vlue:Rangeh vlue through HIGHEST:Conti nuECancel5、分類匯總:(1) 【Date】 【Aggregate(2) 指定分類變量到【Break Variables框中,指定匯總變量到【aggregated Variables框中,如圖7:(3) 按fu
8、nction按鈕指定對匯總變量計算那些統(tǒng)計量。Spss默認計算均值。(4) 制定將匯總結果保存到何處。(5) 按name&Lab按鈕重新指定匯總結果中的變量名或變量名標簽。(6) 如果希望在結果文件中保存各分類組的個案數(shù)則選擇【Number of cased .6、數(shù)據(jù)分組:(1) 【Transform】 【Recode into Dfferent Variable(2) 選擇分組變量到【Numeric Variable Output】框中。(3) 在【Numeric Variable框中的【name】后輸入存放分組結果的變量名, 并按 change按鈕確認。(4) 按old and new
9、Values按鈕進行分組區(qū)間定義。如圖 8所示:(5) 如果只對符合條件的個案進行分組,則按if按鈕輸入spss條件表達式7、數(shù)據(jù)轉(zhuǎn)置:(1) 【Date】 【transposd如圖9所示:(2) 指定數(shù)據(jù)轉(zhuǎn)置后保留那些變量,將它們們選入【Variables框中3)指定數(shù)據(jù)轉(zhuǎn)置后應保留那些變量名。8、加權處理:(1) 【Date】 【W(wǎng)eight Cased(2) 選擇【W(wǎng)eight Cases bj選項,并選擇某變量作為加權變量到 【FrequencyVariable框中。如圖10所示:9、數(shù)據(jù)拆分:(1)數(shù)據(jù)拆分的目的: 根據(jù)指定變量對數(shù)據(jù)進行分組,它將為以后進行的分組統(tǒng)計分析提供便 利。
10、(2)數(shù)據(jù)分組的步驟:a【Date】 【Split File】如圖11所示:b、選擇拆分變量到【Groups based on框中。c、拆分會使后面的分組統(tǒng)計產(chǎn)生兩種不同格式的結果。d、如果數(shù)據(jù)編輯窗口中的數(shù)據(jù)已經(jīng)事先安所指定的拆分變量進行了排序, 則可以選擇【File is already sorted項,他可以提高拆分執(zhí)行的速度,否則選擇【Sort the file by grouping Variables!項。、spss數(shù)據(jù)預處理應注意的事項:1、數(shù)據(jù)排序時須注意的事項:1 )數(shù)據(jù)排序是整行數(shù)據(jù)排序,而不只是對某列變量進行排序(2)多重排序中指定排序變量的次序很關鍵。(3) 數(shù)據(jù)排序以
11、后,原有數(shù)據(jù)的排列必然別打亂。2、變量計算:(1) 如果指定存放計算結果的變量為新變量,spss會自動創(chuàng)建它,如果指 定產(chǎn)生的變量已經(jīng)存在,spss會提問用戶是否以計算出的新值覆蓋原 有舊值。(2) 對不滿足指定條件的個案,spss不進行變量值計算。對新變量取值為 系統(tǒng)缺失值,對已有舊變量,變量值保持不變。3、數(shù)據(jù)選?。?1按上述操作步驟完成數(shù)據(jù)選取后,以后的 spss分析操作僅針對那些被 選中的個案直到用戶再次改變數(shù)據(jù)選取為止。(2)采用按指定條件選取和隨機選取方法進行數(shù)據(jù)選取后,spss將在數(shù)據(jù), 編輯窗口中自動生成一個名為filter_$的新變量,取值為1或0。1表示 本條個案被選中,0表示為別選中。該變量是spss產(chǎn)生的中間變量,如 果刪除它,則自動取消樣本選取。4、分類匯總:(1) 分類匯總中的分類變量可以是多個,此時的分類匯總陳偉多重分類匯 總。(2) 類似與數(shù)據(jù)排序,在多重分類匯總中,指定多個分類變量的先后次序 是關鍵的。5、數(shù)據(jù)的分組:在定義分組
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年網(wǎng)絡安全服務合同標的質(zhì)量驗收
- 2024模具行業(yè)數(shù)據(jù)分析與共享合同
- 2024日常建筑設施維修維護及改造合同范本2篇
- 2024年鏟車安全操作規(guī)程合同
- 2024慈善捐贈協(xié)議書
- 2024正畸治療新型材料研發(fā)與應用合作合同3篇
- 2024年種羊遺傳材料交換合同3篇
- 2024房地產(chǎn)廣告設計服務合同
- 2025年度文化旅游資源開發(fā)合同6篇
- 2024房地產(chǎn)買賣保密協(xié)議合同范本
- 2025年湖北省武漢市東湖高新區(qū)管委會招聘工作人員歷年高頻重點提升(共500題)附帶答案詳解
- 2024年萍鄉(xiāng)衛(wèi)生職業(yè)學院單招職業(yè)適應性測試題庫參考答案
- 中國農(nóng)業(yè)銀行信用借款合同
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應用實踐指導材料之9:“5領導作用-5.3創(chuàng)新戰(zhàn)略”(雷澤佳編制-2025B0)
- 江蘇省連云港市2023-2024學年八年級上學期期末數(shù)學試題(原卷版)
- 初中英語聽力高頻詞
- 2025年生活飲用水監(jiān)督檢查工作計劃
- Unit 3 My School Section B 1a-1d 教學實錄 2024-2025學年人教版七年級上冊英語
- 2024年度知識產(chǎn)權許可合同:萬達商業(yè)廣場商標使用許可合同3篇
- 服務營銷課件-課件
- 一年級期末數(shù)學家長會課件
評論
0/150
提交評論