Spss的數(shù)據(jù)預(yù)處理復(fù)習(xí)過程_第1頁
Spss的數(shù)據(jù)預(yù)處理復(fù)習(xí)過程_第2頁
Spss的數(shù)據(jù)預(yù)處理復(fù)習(xí)過程_第3頁
Spss的數(shù)據(jù)預(yù)處理復(fù)習(xí)過程_第4頁
Spss的數(shù)據(jù)預(yù)處理復(fù)習(xí)過程_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Spss的數(shù)據(jù)預(yù)處理精品文檔Spss的數(shù)據(jù)預(yù)處理、 數(shù)據(jù)預(yù)處理的目的:在數(shù)據(jù)文件建立好后,通常還要對待分析的數(shù)據(jù)進(jìn)行必要的預(yù)加工處 理,這是數(shù)據(jù)分析過程中不可缺少的一個關(guān)鍵環(huán)節(jié)。數(shù)據(jù)的預(yù)加工處理是 服務(wù)與數(shù)據(jù)分析和建模的,需要解決的問題如下:1、缺失值和異常數(shù)據(jù)的處理。2、數(shù)據(jù)的轉(zhuǎn)換處理。數(shù)據(jù)的轉(zhuǎn)換處理是在原有數(shù)據(jù)的基礎(chǔ)上,計算產(chǎn) 生一些含有更豐富信息的新數(shù)據(jù)或?qū)?shù)據(jù)原有分布進(jìn)行轉(zhuǎn)換等。3、數(shù)據(jù)抽樣。從實(shí)際問題、算法或效率等方面考慮,并非收集到的所 有數(shù)據(jù)(個案)在某項(xiàng)分析中都有用途,有必要按照一定的規(guī)則從 大量數(shù)據(jù)中選取部分樣本參與分析。4、選取變量。并非所有數(shù)據(jù)項(xiàng)(變量)在某項(xiàng)分析中均有意

2、以,選取 部分變量參與分析是必要的。Spss提供了一些專門的功能輔助用戶實(shí)現(xiàn)數(shù)據(jù)的預(yù)加工處理工 作,通過預(yù)處理還可以使用戶對數(shù)據(jù)的總體分布有所了解。、數(shù)據(jù)預(yù)處理步驟:1、數(shù)據(jù)的排序:(1)數(shù)據(jù)排序的目的:a通常數(shù)據(jù)編輯窗口中個案的前后次序是由數(shù)據(jù)數(shù)錄入的先后順序決 定的,數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽,有助于了解數(shù)據(jù)取值狀況、缺 失值數(shù)量的多少。收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔、通過數(shù)據(jù)排序能夠快速找到最大值和最小值,進(jìn)而可以計算出數(shù)據(jù) 的全距,快速把握和比較數(shù)據(jù)的離散程度。c、通過數(shù)據(jù)排序能夠快速發(fā)現(xiàn)數(shù)據(jù)的異常值。(2)、數(shù)據(jù)排序的步驟:3選擇菜單:Date 一【Sort Casedb、

3、指定主排序量到【Sort by】框中,并選擇【Sort Orded框中的選項(xiàng) 指出該變量按升序還是降序排序排序。【Ascending表示升序,【Descending 表示降序。c、如果是多重排序,還要依次指定第二、第三排序變量及相應(yīng)的排序規(guī) 則。否則本部可略。排序窗口如下圖:收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔圖12、變量計算:(1)變量計算的目的:a、通過數(shù)據(jù)的轉(zhuǎn)換處理,在原有數(shù)據(jù)的基礎(chǔ)上,計算產(chǎn)生一些含量更豐富的新數(shù)據(jù)。、對數(shù)據(jù)的原有分布狀態(tài)進(jìn)行轉(zhuǎn)換,由于數(shù)據(jù)分析和建模中某些模型對數(shù)據(jù)分布有一定的要求,因此可以利用變量計算對原有數(shù)據(jù)的分布進(jìn)行轉(zhuǎn)換。c、spss變量計算是在原有數(shù)據(jù)的

4、基礎(chǔ)上,根據(jù)用戶給出的spss的算術(shù)表達(dá)式以及收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔函數(shù),對所有個案或滿足條件的部分個案,計算產(chǎn)生一系列新變量。(2)變量計算的操作步驟:a、選擇菜單:【Transform 一 Compute Variable出現(xiàn)如圖2所示窗口:圖2b、在【Numeric Exepressiori框名&出spssB術(shù)表達(dá)式和函數(shù)。可以手工輸入也可以按窗口的按鈕算數(shù)表達(dá)式和函數(shù)的輸入工作。c、在【Target Variable】框中輸入存放結(jié)果的變量名。、如果用戶只希望對符合一定條件的個案計算產(chǎn)生變量,則按 if按鈕,出現(xiàn)如圖3所示的窗口。選擇【Include if

5、 case satisfies conditiori選項(xiàng),然后輸收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔入條件表達(dá)式,否則本步略去f3、變量的選?。?1)數(shù)據(jù)選取的目的:a、提高數(shù)據(jù)的分析效率。b、檢驗(yàn)?zāi)P汀?2)數(shù)據(jù)選取的步驟:a、【Date 一【Select Casdb、在【Selectl框中選擇選取方法。如圖4所示:收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔基盛Ges衲框4、計數(shù):(1)計數(shù)的目的:把握個案各方面的特征。(2)計數(shù)的步驟:a 選擇菜單:【Transform 一 Count Values within Cased 如圖 5 所示:b、選擇參與計數(shù)的變量到【Numeri

6、c Variables框中。c、在【Target Variable框中輸入存放技術(shù)結(jié)果的的變量名,并在【TargetLabel框中輸入相應(yīng)的變量名標(biāo)簽。收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔Tjarjel variable:收入水平依4存率'率和美恒司目的一值7目的二仃-2艮的=晅7_周物價本早同即物折謔稻:第】Target Lacet 收入狀配Nmeric Variablss: 1一獲惜況曲2 ,ji未來收入3型啟3口Q.efin& Values.If . (optional case 名日日Eion cdfidrtion)CartcelOK Paste圖5d、按De巾

7、ne Values按鈕定義計數(shù)區(qū)間,出現(xiàn)圖 6所示窗口。通過 Add、Remove按鈕完成計數(shù)區(qū)間的增加、修改和刪除。8如果僅希望對滿足條件白個案進(jìn)行計數(shù),則按if按鈕并輸入spss相應(yīng)表達(dá)式。否則本部可略。收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔圖65、分類匯總:(1)【Date一 Aggregate(2)指定分類變量到【Break Variables】框中,指定匯總變量到【aggregatedVariables(3)框中,如圖7:按function按鈕指定對匯總變量計算那些統(tǒng)計量。SpssR認(rèn)計算均值。(4)制定將匯總結(jié)果保存到何處。(5)(6)如果希望在結(jié)果文件中保存各分類組的個案數(shù)

8、則選擇【Number of按name&Lab按鈕重新指定匯總結(jié)果中的變量名或變量名標(biāo)簽。caseSI收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔6、數(shù)據(jù)分組:(1)【Transform】【Recode into Dfferent Variable0(2)選擇分組變量到【Numeric Variable>Output框中。(3)在【Numeric Variable框中的【name】后輸入存放分組結(jié)果的變量名, 并按change按鈕確認(rèn)。(4)按01d and new Values按鈕進(jìn)行分組區(qū)間定義。如圖 8所示:(5)如果只對符合條件的個案進(jìn)行分組,則按if按鈕輸入spss條件表

9、達(dá)式7、數(shù)據(jù)轉(zhuǎn)置:Variables框中。(1)【Date一 transpose!如圖 9所示:(2)指定數(shù)據(jù)轉(zhuǎn)置后保留那些變量,將它們們選入【(3)指定數(shù)據(jù)轉(zhuǎn)置后應(yīng)保留那些變量名。收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔8、加權(quán)處理:(1)【Date】一【W(wǎng)eight Cased(2)選擇【W(wǎng)eight Cases b4選項(xiàng),并選擇某變量作為加權(quán)變量到Frequency Variable 框中。如圖 10所示:9、數(shù)據(jù)拆分:(1)數(shù)據(jù)拆分的目的:根據(jù)指定變量對數(shù)據(jù)進(jìn)行分組,它將為以后進(jìn)行的分組統(tǒng)計分析提供便利,(2)數(shù)據(jù)分組的步驟:a、 【Date】一【Split File如圖11所示:

10、b、選擇拆分變量到【Groups based on框中。c、拆分會使后面的分組統(tǒng)計產(chǎn)生兩種不同格式的結(jié)果。d、如果數(shù)據(jù)編輯窗口中的數(shù)據(jù)已經(jīng)事先安所指定的拆分變量進(jìn)行了排序,則可以選擇File is already sorted項(xiàng),他可以提高拆分執(zhí)行的速度,否則選擇Sort收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔the file by grouping Variables; 項(xiàng)。三、spss數(shù)據(jù)預(yù)處理應(yīng)注意的事項(xiàng):1、數(shù)據(jù)排序時須注意的事項(xiàng):(1)數(shù)據(jù)排序是整行數(shù)據(jù)排序,而不只是對某列變量進(jìn)行排序(2)多重排序中指定排序變量的次序很關(guān)鍵。(3)數(shù)據(jù)排序以后,原有數(shù)據(jù)的排列必然別打亂。2、變量

11、計算:(1)如果指定存放計算結(jié)果的變量為新變量,spss會自動創(chuàng)建它,如果指定產(chǎn)生的變量已經(jīng)存在,spss會提問用戶是否以計算出的新值覆蓋原 有舊值。(2)對不滿足指定條件的個案,sps/進(jìn)行變量值計算。對新變量取值為系統(tǒng)缺失值,對已有舊變量,變量值保持不變。3、數(shù)據(jù)選取:(1按上述操作步驟完成數(shù)據(jù)選取后,以后的spss分析操作僅針對那些被選中的個案直到用戶再次改變數(shù)據(jù)選取為止。收集于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系管理員刪除精品文檔(2)采用按指定條件選取和隨機(jī)選取方法進(jìn)行數(shù)據(jù)選取后,spss將在數(shù)據(jù),編輯窗口中自動生成一個名為 日伯_$的新變量,取值為1或0。1表示本條個案被選中,0表示為別選中。該變量是spss產(chǎn)生的中間變量,如果刪除它,則自動取消樣本選取。4、分類匯總:(1)分類匯總中的分類變量可以是多個,此時的分類匯總陳偉多重分類匯總。(2)類似與數(shù)據(jù)排序,在多重分類匯總中,指定多個分類變量的先后次序是關(guān)鍵的。5、數(shù)據(jù)的分組:在定義分組區(qū)間時,應(yīng)遵循補(bǔ)充不漏的原則。6、加權(quán)處理:一旦指定了加權(quán)變量,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論