《SPSS數(shù)據(jù)的預處理》PPT課件.ppt_第1頁
《SPSS數(shù)據(jù)的預處理》PPT課件.ppt_第2頁
《SPSS數(shù)據(jù)的預處理》PPT課件.ppt_第3頁
《SPSS數(shù)據(jù)的預處理》PPT課件.ppt_第4頁
《SPSS數(shù)據(jù)的預處理》PPT課件.ppt_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 SPSS數(shù)據(jù)的預處理,本章重點: 數(shù)據(jù)的排序 選擇觀測量 變量計算 數(shù)據(jù)選取,計數(shù) 分類匯總 數(shù)據(jù)分組 數(shù)據(jù)預處理的其他功能,3.1 數(shù)據(jù)的排序,數(shù)據(jù)排序的目的及注意事項 數(shù)據(jù)排序實例,3.1.1 數(shù)據(jù)排序的目的及注意事項,數(shù)據(jù)排序是指將數(shù)據(jù)編輯窗口中的數(shù)據(jù)按照一個或多個指定變量的變量值升序或降序重新排列。這里所說的變量也叫做排序變量。排序變量只有一個的排序稱為單值排序;排序變量有多個的排序稱為多重排序。 多重排序中,第一個指定的排序變量稱為主排序變量;其他則依次為第二排序變量、第三排序變量等。多重排序時,數(shù)據(jù)首先按照主排序變量的大小進行排序,然后對那些具有相同主排序變量值的數(shù)據(jù)再按照

2、第二排序變量值的次序進行排序。 在進行數(shù)據(jù)排序時應注意以下幾點: (1)數(shù)據(jù)排序是將整行的數(shù)據(jù)進行排序的,而不是只對某個變量進行排序。 (2)多重排序中指定排序變量的次序是很關鍵的。排序時先指定的變量優(yōu)于后指定的變量。多重排序可以在按某個變量值升序排序的同時再按其他變量值降序排序。 (3)數(shù)據(jù)排序以后,原有數(shù)據(jù)的排列次序將被打亂。因此,有必要注意保留數(shù)據(jù)的原始排列順序。,3.1.2 數(shù)據(jù)排序實例,3.2 選擇觀測量,在數(shù)據(jù)處理過程中,有時需要從數(shù)據(jù)文件中選取一部分觀測量,將篩選出來的觀測量進行統(tǒng)計分析。選擇觀測量的操作步驟如下: (1)在數(shù)據(jù)編輯窗口中,執(zhí)行“Data/Select Case”

3、命令,彈出如圖3-1所示的“Select Case”對話框。 (2)在該對話框中的“Select”選項中選擇挑選數(shù)據(jù)子集的方式。 (3)在“Select Case”對話框中選擇挑選數(shù)據(jù)子集的方式后在“Output”選項中指定未選中的觀測量的處理方式。 (4)單擊“OK”按鈕后,即可在數(shù)據(jù)編輯窗口根據(jù)不同的輸出方式得到選擇觀測量的結果數(shù)據(jù)文件。,圖3- 1 “Select Case”對話框,3.3 變量計算,變量計算的目的 SPSS算術表達式 SPSS條件表達式 SPSS函數(shù) 變量計算實例,3.3.1 變量計算的目的,變量計算的目的主要有以下幾點:,1. 數(shù)據(jù)的轉換處理,數(shù)據(jù)的轉換處理是在原有數(shù)

4、據(jù)的基礎上,計算產生含有更豐富信息的新數(shù)據(jù)。如,根據(jù)職工的基本工資、失業(yè)保險、獎金等數(shù)據(jù)計算實際月收入;根據(jù)購房者的貸款總額和按揭方案計算比率指標以評價其風險大??;根據(jù)顧客的消費總金額和消費時間計算平均消費以預測理想客戶等。,2. 對數(shù)據(jù)的原有分布狀態(tài)進行轉換,由于數(shù)據(jù)分析和建模中某些模型對數(shù)據(jù)分布有一定的要求,因此可以利用變量計算對數(shù)據(jù)的分布進行轉換。,簡單條件表達式是由關系運算符、常量、變量及算術表達式等組成的式子。其中,關系運算符包括有大于、小于、等于、不等于、大于等于、小于等于。,1. 簡單條件表達式,3.3.2 SPSS算術表達式,在變量計算過程中,應根據(jù)實際需要指出按照什么方法計算

5、變量。這里的方法一般都以SPSS算術表達式的形式給出。SPSS算術表達式是由常量、變量、算術運算符、圓括號、函數(shù)等組成的式子。,3.3.3 SPSS條件表達式,條件表達式是一個對條件進行判斷的式子。其結果有兩種取值:如果判斷條件成立,則結果為真;如果判斷條件不成立,則結果為假。條件表達式包括:簡單條件表達式和復合條件表達式。,復合條件表達式又稱為邏輯表達式,是由邏輯運算符號、圓括號和簡單條件表達式等組成的式子。其中,邏輯運算符包括有:&或AND (并且)、或OR(或者)、或NOT(非)。NOT的運算最優(yōu)先,其次是AND,最低是OR??梢酝ㄟ^圓括號改變這種運算次序。,2. 復合條件表達式,3.3

6、.4 SPSS函數(shù),根據(jù)函數(shù)功能和處理的變量類型,SPSS函數(shù)大致可以分成8種類型,分別是:,1. 算術函數(shù),算術函數(shù)主要用來完成一些特定的算術計算功能。函數(shù)值和參數(shù)通常為數(shù)值型。,2.統(tǒng)計函數(shù),統(tǒng)計函數(shù)一般用來計算基本描述統(tǒng)計量,函數(shù)值和參數(shù)通常為數(shù)值型。,3.分布函數(shù),分布函數(shù)用來產生一個服從某種統(tǒng)計分布的隨機數(shù)序列。函數(shù)值 為數(shù)值型。,4. 邏輯函數(shù),邏輯函數(shù)用來進行邏輯判斷。邏輯函數(shù)的函數(shù)值有兩個取值:如果判斷結果為真,則函數(shù)值為1;如果判斷結果為假,則函數(shù)值為0。,5.字符串函數(shù),字符串函數(shù)主要用來對字符型數(shù)據(jù)進行處理。字符串函數(shù)的參數(shù)和函數(shù)值有時為字符型,有時也可以是數(shù)值型。,6.

7、日期型函數(shù),日期函數(shù)主要是對日期進行處理。日期函數(shù)的函數(shù)值為日期型或數(shù)值型。,7.缺失值函數(shù),缺失值函數(shù)主要用于判斷缺失值。,8.其他函數(shù),除上述的函數(shù)之外,SPSS還有一些輔助函數(shù)。,3.3.5 變量計算實例,本例對某公司員工的福利待遇進行調查,計算每個員工根據(jù)職稱的不同,每月應發(fā)的工資。如員工的職稱為4的工資增加1;職稱為6的工資增加3%;職稱為8的,工資增加5,要求根據(jù)這三個條件來計算每個員工每月的應發(fā)工資。,3.4 數(shù)據(jù)選取,數(shù)據(jù)選取的目的 數(shù)據(jù)選取實例,數(shù)據(jù)選取主要有以下幾個目的:,3.4.1 數(shù)據(jù)選取的目的,1. 提高數(shù)據(jù)分析效率,如果數(shù)據(jù)量較大會在一定程序上影響計算和建模的效率,

8、因此,可以依據(jù)一定的抽樣方法從總體上抽取少量樣本,后面的分析只針對樣本進行,這樣會大大提高分析的效率。當然,抽取出的樣本應具有總體代表性,否則分析的結果可能會有一些偏差。,2.檢驗模型的需要,在數(shù)據(jù)分析中,所建的模型是否能夠較完整準確地反映數(shù)據(jù)的特征,是否能用于以后的數(shù)據(jù)預測,這些問題都是人們極為關心的。為了驗證模型一般可依據(jù)一定的抽樣方法只選擇部分樣本參與數(shù)據(jù)建模,其余的數(shù)據(jù)用于模型檢驗。,3.4.2 數(shù)據(jù)選取實例,本節(jié)以選取“員工基本情況”數(shù)據(jù)文件中工資“gz”大于1500的個案為例,介紹數(shù)據(jù)選取的具體操作步驟。,3.5 計數(shù),計數(shù)目的 計數(shù)區(qū)間 計數(shù)實例,SPSS實現(xiàn)的計數(shù)是對所有個案或

9、滿足某條件的部分個案,計算若干個變量中有幾個變量的值落在指定的區(qū)間內,并將計數(shù)結果存入一個新變量中的過程。因此,SPSS實現(xiàn)計數(shù)的關鍵步驟是: (1)指定哪些變量參與計數(shù),計數(shù)的結果存入哪個新變量中 (2)指定計數(shù)區(qū)間,3.5.1 計數(shù)目的,3.5.2 計數(shù)區(qū)間,在使用SPSS實現(xiàn)計數(shù)時,計數(shù)區(qū)間顯得特別重要。計數(shù)區(qū)間可以有以下幾種描述形式: 單個變量值(Value) 系統(tǒng)缺失值(System-missing) 系統(tǒng)缺失值或用戶缺失值(System or user-missing) 給定最大值和最小值的區(qū)間(n through m) 小于等于某指定值的區(qū)間(Lowest through n)

10、大于等于某指定值的區(qū)間(n through highest),3.5.3 計數(shù)實例,本例以“員工基本情況”數(shù)據(jù)文件為例,介紹計數(shù)區(qū)間的操作方法。假設本例需要計數(shù)該數(shù)據(jù)文件中工資“gz”小于或等于1500的個案。,3.6 分類匯總,分類匯總的目的 分類匯總實例,3.6.1 分類匯總的目的,進行分類匯總的目的是為了對兩個或多個類別的數(shù)據(jù)進行比較,得出這些類別之間存在的差異。 SPSS要實現(xiàn)分類匯總應涉及到以下兩個方面的重要內容: 按照哪個變量進行分類。 對哪個變量進行匯總,并指定對匯總變量計算哪些統(tǒng)計量。,3.6.2 分類匯總實例,本例以常見的銀行存取款為例,使用分類匯總分析城鎮(zhèn)人口與農村人口的一

11、次平均存(?。┛罱痤~是否存在著差異。,3.7 數(shù)據(jù)分組,數(shù)據(jù)分組的目的 SPSS的單變量值分組 SPSS的組距分組 SPSS的分位數(shù)分組,3.7.1 數(shù)據(jù)分組的目的,數(shù)據(jù)分組就是根據(jù)統(tǒng)計研究的需要,將數(shù)據(jù)按照某種標準重新劃分為不同的組別。在數(shù)據(jù)分組的基礎上進行的頻數(shù)分析,更能夠概括和體現(xiàn)數(shù)據(jù)的分布特征。另外,分組還能夠實現(xiàn)數(shù)據(jù)的離散化處理等。,SPSS的單變量值分組是把每一個變量值作為一組,這種分組方法通常只適合于離散變量且變量值較少的情況。 在SPSS中進行單變量值分組的步驟如下: (1)打開要進行分組的數(shù)據(jù)文件,本例以“員工基本情況”數(shù)據(jù)文件為例。 (2)執(zhí)行“Transform/Auto

12、matic Recode”命令,彈出如圖3-2所示的單變量分組窗口。,3.7.2 SPSS的單變量值分組,圖3- 2 單變量分組窗口,(3)在該窗口中選擇變量“gz”到“VariableNew Name”框中,如圖3-3所示。 (4)在“New Name”框中輸入存放分組結果的變量名,并單擊“New Name”按鈕,如圖3-4所示。,圖3- 4 輸入存放分組結果的變量名,圖3- 3 選擇變量,(5)選擇按升序進行分組,即“Lowest value”單選按鈕,然后單擊“OK”按鈕,如圖3-5所示。 (6)返回數(shù)據(jù)編輯窗口后,其分組結果如圖3-6所示。,圖3- 6 分組效果,圖3- 5 確認設置,

13、在連續(xù)變量或變量值較多的情況下,數(shù)據(jù)分組通常采用組距分組。組距分組是將全部變量值依次劃分為若干個區(qū)間,并將這一區(qū)間的變量值作為一組。組距分組中的關鍵問題主要有以下兩個。,3.7.3 SPSS的組距分組,1.分組數(shù)目的確定,數(shù)據(jù)應分成多少組比較適合,通常與數(shù)據(jù)本身的數(shù)據(jù)個數(shù)有關。由于分組的目的之一是為了觀察數(shù)據(jù)分布的特征,因此,組數(shù)的確定應以能夠清楚地顯示數(shù)據(jù)分布特征和規(guī)律為原則。組數(shù)太少會使數(shù)據(jù)的分布過于集中,而組數(shù)太多又會使數(shù)據(jù)的分布過于分散,這樣都不便于觀察數(shù)據(jù)分布的特征和規(guī)律。,2.組距的確定,組距是一個組的上限與下限之差。組距可根據(jù)全部數(shù)據(jù)的最大值和最小值及組數(shù)來確定,即: 組距(最大

14、值最小值)/組數(shù) 當上述問題確定以后,便可以實施分組操作了。在SPSS分組操作時應注意指定分組變量、定義分組區(qū)間和指定存入分組結果的變量。,在連續(xù)變量或變量值較多的情況下,分位數(shù)分組是一種較為有效而快捷的分組方法。分位數(shù)分組與上述的組距分組非常類似,不同的是,分位數(shù)分組中各組的下限值和上限值是由分位數(shù)決定的。 分位數(shù)分組中也應首先確定分組數(shù)目。依據(jù)的原則同組距分組一樣。在確定分組數(shù)目之后,應計算相應的分位數(shù)。分位數(shù)是將全部數(shù)據(jù)按升序排序并等分成n份后相應分位點上的變量值。,3.7.4 SPSS的分位數(shù)分組,3.8 數(shù)據(jù)預處理的其他功能,數(shù)據(jù)轉置 加權處理 數(shù)據(jù)拆分,SPSS的數(shù)據(jù)轉置就是將數(shù)據(jù)

15、編輯窗口中數(shù)據(jù)的行和列互換。如以“員工基本情況”數(shù)據(jù)文件為例進行數(shù)據(jù)轉置,其具體操作步驟如下: (1)打開“員工基本情況”數(shù)據(jù)文件。 (2)執(zhí)行“Data/Transpose”命令,彈出數(shù)據(jù)轉置窗口,如圖3-7所示。 (3)在該窗口的左側選擇要保留的變量到“Variable(s)”框中,如圖3-8所示。,圖3- 8 選擇變量,圖3-7 數(shù)置轉換窗口,3.8.1 數(shù)據(jù)轉置,(4)在“Name Variable:”框中添加轉置后數(shù)據(jù)文件標記,然后單擊“OK”按鈕,如圖3-9所示。如果略去本步驟,則轉置后數(shù)據(jù)各變量名默認為VAR00001、VAR00002、VAR00003等。 (5)此時,SPSS將自動完成轉置,并將轉置后的結果顯示在數(shù)據(jù)編輯窗口中,同時產生一個名為Case_lbl的新變量,用來存放原數(shù)據(jù)文件中的各變量名,如圖3-10所示。,圖3- 8 選擇變量,圖3-7 數(shù)置轉換窗口,在SPSS中指定加權處理的操作步驟如下: (1)首先打開數(shù)據(jù)文件。 (2)執(zhí)著行“Data/Weight Cases”命令,彈出如圖3-11所示的指定加權變量窗口。 (3)在該窗口中選擇“Weight Cases by”單選按鈕,再將要作為權數(shù)的變量添加到該框中即可,如圖3-12所示。,圖3- 12 設置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論