版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章數(shù)據(jù)文件的建立及基本統(tǒng)計(jì)描述在社會(huì)各項(xiàng)經(jīng)濟(jì)活動(dòng)和科學(xué)研究過(guò)程中,經(jīng)常獲得許多數(shù)據(jù),而這些數(shù)據(jù)中包含著大量有用的信息。若要準(zhǔn)確地、科學(xué)地提取這些信息,就要應(yīng)用各種統(tǒng)計(jì)分析方法,其中最基本的方法是數(shù)據(jù)的基本統(tǒng)計(jì)描述。通過(guò)數(shù)據(jù)的基本統(tǒng)計(jì)描述,可以得到數(shù)據(jù)的分布狀況,數(shù)據(jù)的主要特征值,時(shí)間序列的趨勢(shì)性,是否存在異常值以及數(shù)據(jù)的大致圖形等。當(dāng)然,要實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析和描述,首先要從建立數(shù)據(jù)文件開(kāi)始。這一章主要介紹數(shù)據(jù)文件的建立和數(shù)據(jù)的基本統(tǒng)計(jì)描述方法。§1.1SPSS的啟動(dòng)及數(shù)據(jù)庫(kù)的建立§1.1.2SPSS簡(jiǎn)介SPSS(StatisticsPackageforSocialScience)forWindows是一種運(yùn)行在Windows系統(tǒng)下的社會(huì)科學(xué)統(tǒng)計(jì)軟件軟件包。SPSS軟件包集數(shù)據(jù)整理、分析過(guò)程、結(jié)果輸出等功能為一體,采用窗口操作界面,統(tǒng)計(jì)分析方法涵蓋面廣,用戶操作使用方便,輸出數(shù)據(jù)表格圖文并貌,并且隨著它的功能不斷完善,統(tǒng)計(jì)分析方法不斷充實(shí),大大提高了統(tǒng)計(jì)分析工作的效率。從1968年由美國(guó)斯坦福大學(xué)開(kāi)發(fā)使用至今,已經(jīng)擁有全球數(shù)以萬(wàn)計(jì)的用戶,分布在通信、醫(yī)療、銀行、證券、保險(xiǎn)、制造、商業(yè)、市場(chǎng)研究、科學(xué)教育等眾多的行業(yè)領(lǐng)域,成為世界上應(yīng)用最廣泛的專業(yè)統(tǒng)計(jì)軟件之一。SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等,具體內(nèi)容包括描述統(tǒng)計(jì)、列聯(lián)分析,總體的均值比較、相關(guān)分析、回歸模型分析、聚類分析、主成份分析、時(shí)間序列分析、非參數(shù)檢驗(yàn)等多個(gè)大類,每個(gè)類中還有多個(gè)專項(xiàng)統(tǒng)計(jì)方法。SPSS設(shè)有專門的繪圖系統(tǒng),可以根據(jù)使用者的需要將給出的數(shù)據(jù)繪制各種圖形,能夠滿足用戶的不同需求。SPSS的運(yùn)行方式SPSS提供了3種基本運(yùn)行方式:完全窗口菜單方式,程序運(yùn)行方式、混合運(yùn)行方式。程序運(yùn)行方式和混合運(yùn)行方式是使用者從特殊的分析需要出發(fā),編寫自己的SPSS命令程序,通過(guò)語(yǔ)句直接運(yùn)行。這里只介紹完全窗口菜單管理方式,這種操作方式簡(jiǎn)單明了,除數(shù)據(jù)輸入工作需要鍵盤外,大部分的操作命令、統(tǒng)計(jì)分析方法的實(shí)現(xiàn)是通過(guò)菜單、圖標(biāo)按鈕、對(duì)話框來(lái)完成的,非常適用于一般的統(tǒng)計(jì)分析人員和一般統(tǒng)計(jì)方法的應(yīng)用者。SPSS中使用的對(duì)話框主要有兩類,一類是文件操作對(duì)話框,文件操作對(duì)話窗口操作與Windows應(yīng)用軟件操作風(fēng)格一致。另一類是統(tǒng)計(jì)分析對(duì)話框,統(tǒng)計(jì)分析對(duì)話框可以分為主窗口和下級(jí)窗口,在該類對(duì)話框中,選擇參與分析的各類變量及統(tǒng)計(jì)方法是對(duì)話框的主要任務(wù)。有關(guān)對(duì)話框的詳細(xì)操作將在后面的統(tǒng)計(jì)方法的實(shí)驗(yàn)中解釋。SPSS的實(shí)驗(yàn)環(huán)境要求1、系統(tǒng)運(yùn)行環(huán)境SPSS10.0以上版本軟件包可以工作在兩種模式下,單機(jī)模式和作為網(wǎng)絡(luò)系統(tǒng)的用戶界面模式。SPSSforWindows軟件包可以運(yùn)行在微軟公司的Windows98、WindowsNT4.0、WindowsME、Windows2000和WindowsXP操作系統(tǒng)之下。由于統(tǒng)計(jì)分析軟件的數(shù)據(jù)量比較大,所以系統(tǒng)運(yùn)行需要大于16M以上空間。2、輔助軟件環(huán)境SPSS可以直接將SPSS數(shù)據(jù)文件保存為Excel工作表,也可以直接打開(kāi)一個(gè)Excel工作表,因此,為了方便數(shù)據(jù)錄入(許多人對(duì)Excel工作表編輯比較熟習(xí)),應(yīng)在操作系統(tǒng)下安裝一個(gè)Excel軟件。另外,許多數(shù)據(jù)在處理之前可能保存在某個(gè)數(shù)據(jù)庫(kù)中,例如FoxBase、Sybase、SQL_Server、Oracle等等,如有需要從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)的分析,應(yīng)在操作系統(tǒng)下安裝相應(yīng)的數(shù)據(jù)庫(kù)管理系統(tǒng)。SPSS的主要界面SPSS的主要界面有數(shù)據(jù)編輯窗口和結(jié)果輸出窗口。數(shù)據(jù)編輯窗口與微軟的Exdel類似,但SPSS的統(tǒng)計(jì)功能更多。SPSS的結(jié)果輸出窗口是顯示統(tǒng)計(jì)分析的結(jié)果,此窗口的內(nèi)容可以以結(jié)果文件.spo的形式保存。數(shù)據(jù)編輯窗口和結(jié)果輸出窗口的詳細(xì)描述將在有關(guān)SPSS的數(shù)據(jù)文件建立的內(nèi)容中查到。SPSS的幫助系統(tǒng)SPSS對(duì)一些基本模塊中的統(tǒng)計(jì)提供了幫助,可以通過(guò)單擊Help菜單中的StatisticsCoach命令,選擇所需要的統(tǒng)計(jì)指導(dǎo)。§1.1.2啟動(dòng)SPSS軟件包當(dāng)用戶在操作系統(tǒng)下運(yùn)行SPSS軟件后,計(jì)算機(jī)屏幕上出現(xiàn)一個(gè)對(duì)話框,如圖1.1所示:圖1.1SPSS啟動(dòng)后操作對(duì)話框?qū)υ捒虬ㄒ粋€(gè)六選一單選對(duì)話框和一個(gè)復(fù)選對(duì)話框,其內(nèi)容為:Runthetutorial運(yùn)行操作指南;Typeindata輸入數(shù)據(jù)選項(xiàng),建立新的數(shù)據(jù)集時(shí)可選擇此項(xiàng);Runanexistingquery運(yùn)行一個(gè)已經(jīng)存在的數(shù)據(jù)文件選項(xiàng);CreatenewqueryusingDatabaseWizard用數(shù)據(jù)庫(kù)處理工具建立新文件;Openanexistingdatesource打開(kāi)一個(gè)已經(jīng)存在的數(shù)據(jù)文件;Openanothertypeoffile打開(kāi)其他類型的文件。Don’tshowthisdialoginthefuture是一復(fù)選對(duì)話框,選中該復(fù)選項(xiàng)后,下次啟動(dòng)SPSS時(shí)將不會(huì)顯示對(duì)話框,直接顯示數(shù)據(jù)編輯窗口。§1.1.3數(shù)據(jù)文件的建立當(dāng)對(duì)話框選擇Typeindata后,點(diǎn)擊OK,系統(tǒng)將顯示出SPSS軟件包數(shù)據(jù)編輯主窗口,數(shù)據(jù)文件的建立就是在數(shù)據(jù)編輯窗口中完成的。數(shù)據(jù)編輯窗口可以顯示兩張表,分別是DataView(見(jiàn)圖1.2)和VariableView(見(jiàn)圖1.3),通過(guò)點(diǎn)擊下端的2個(gè)同名窗口標(biāo)簽按鈕實(shí)現(xiàn)相互切換。標(biāo)尺欄標(biāo)尺欄菜單欄工具欄數(shù)據(jù)輸入?yún)^(qū)數(shù)據(jù)編輯區(qū)窗口標(biāo)簽標(biāo)題欄圖1.2SPSSforWindows主窗口示意圖狀態(tài)欄當(dāng)前數(shù)據(jù)欄顯示區(qū)滾動(dòng)條數(shù)據(jù)編輯區(qū)是SPSS的主要操作窗口,是一個(gè)二維平面表格,用于對(duì)數(shù)據(jù)進(jìn)行各種編輯;標(biāo)尺欄由縱向標(biāo)尺欄和橫向標(biāo)尺欄,橫向標(biāo)尺欄顯示數(shù)據(jù)變量,縱向標(biāo)尺欄顯示數(shù)據(jù)順序(如時(shí)間順序)。DataView表可以直接輸入觀測(cè)數(shù)據(jù)值或存放數(shù)據(jù),表的左端列邊框顯示觀測(cè)個(gè)體的序號(hào),最上端行邊框顯示變量名。VariableView表用來(lái)定義和修改變量的名稱、類型及其他屬性,如圖1.3所示。圖1.3VariableView表在VariableView表中,每一行描述一個(gè)變量,依次是:Name:變量名。變量名必須以字母、漢字及@開(kāi)頭,總長(zhǎng)度不超過(guò)8個(gè)字符,共容納4個(gè)漢字或8個(gè)英文字母,英文字母不區(qū)別大小寫,最后一個(gè)字符不能是句號(hào)。Type:變量類型。變量類型有8種,最常用的是Numeric數(shù)值型變量。其它常用的類型有:String字符型,Date日期型,Comma逗號(hào)型(隔3位數(shù)加一個(gè)逗號(hào))等。Width:變量所占的寬度。Decimals:小數(shù)點(diǎn)后位數(shù)。Label:變量標(biāo)簽。關(guān)于變量涵義的詳細(xì)說(shuō)明。Values:變量值標(biāo)簽。關(guān)于變量各個(gè)取值的涵義說(shuō)明。Missing:缺失值的處理方式。Columns:變量在DateView中所顯示的列寬(默認(rèn)列寬為8)。Align:數(shù)據(jù)對(duì)齊格式(默認(rèn)為右對(duì)齊)。Measure:數(shù)據(jù)的測(cè)度方式。系統(tǒng)給出名義尺度、定序尺度和等間距尺度三種(默認(rèn)為等間距尺度)。如果輸入變量名后回車,將給出變量的默認(rèn)屬性。如果不定義變量的屬性,直接輸入數(shù)據(jù),系統(tǒng)將默認(rèn)變量Var00001,Var00002等。定義了變量的各種屬性后,回到DataView表中,就可以直接在表中錄入數(shù)據(jù)。輸入數(shù)據(jù)后可以點(diǎn)擊Save或Saveas作為數(shù)據(jù)文件保存。另外對(duì)于統(tǒng)計(jì)分析的結(jié)果也可以作為文件保存起來(lái)。為了在統(tǒng)計(jì)分析過(guò)程中能有效的利用其它軟件產(chǎn)生的數(shù)據(jù),SPSS軟件編輯窗口除可以使用*.sav擴(kuò)展名數(shù)據(jù)文件,還可以直接打開(kāi)和保存下述類型的文件。SPSSDOS版本產(chǎn)生的數(shù)據(jù)文件*.sys;Excel報(bào)表程序產(chǎn)生的數(shù)據(jù)文件*.xls;DBASE數(shù)據(jù)庫(kù)格式文件*.dbf;SAS統(tǒng)計(jì)軟件產(chǎn)生的數(shù)據(jù)文件?!?.2數(shù)據(jù)的編輯與整理當(dāng)錄入數(shù)據(jù)之后,就可以對(duì)原始數(shù)據(jù)進(jìn)行整理和分析,關(guān)于數(shù)據(jù)的整理和分析都是在數(shù)據(jù)窗口完成的。下面將介紹SPSS統(tǒng)計(jì)分析軟件在數(shù)據(jù)窗口的主要操作方式和菜單相應(yīng)的功能。§1.2.1數(shù)據(jù)窗口菜單欄功能操作數(shù)據(jù)編輯窗口的主菜單如圖1.4所示,主菜單中的具體功能包括:圖1.4SPSS主菜單1.File:文件操作。2.Edit:文件編輯。3.View:視圖編輯。4.Data:數(shù)據(jù)操作。5.Transform:數(shù)據(jù)轉(zhuǎn)換。6.Analyze:統(tǒng)計(jì)分析方法。7.Graphs:圖形編輯。8.Utilities:實(shí)用程序。9.Windows:窗口控制。10.Help:幫助。在統(tǒng)計(jì)分析過(guò)程中常用的功能主要集中在數(shù)據(jù)操作、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析、統(tǒng)計(jì)圖形的建立與編輯等操作?!?.2.2Date數(shù)據(jù)功能數(shù)據(jù)編輯窗口的Data菜單為用戶創(chuàng)建和定義數(shù)據(jù)提供了方便的功能,如圖1.5所示。這個(gè)菜單是SPSS統(tǒng)計(jì)軟件數(shù)據(jù)整理的特有功能菜單。它的功能包括:對(duì)變量、觀測(cè)量的編輯處理;對(duì)變量數(shù)據(jù)的變換;對(duì)觀察量數(shù)據(jù)整理。這些功能為各種統(tǒng)計(jì)分析要求提供極其靈活了數(shù)據(jù)整理功能,用戶可以根據(jù)不同統(tǒng)計(jì)分析對(duì)數(shù)據(jù)的要求對(duì)數(shù)據(jù)進(jìn)行整理。圖1.5Data菜單項(xiàng)示意圖圖1.5Data菜單項(xiàng)示意圖拷貝數(shù)據(jù)屬性定義變量屬性插入一個(gè)變量定義日期變量定位觀測(cè)量插入觀測(cè)量重構(gòu)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)文件轉(zhuǎn)置觀測(cè)量排序標(biāo)識(shí)重復(fù)觀測(cè)量分類或不分類匯總合并數(shù)據(jù)文件觀測(cè)量加權(quán)選擇觀測(cè)量拆分?jǐn)?shù)據(jù)文件正交設(shè)計(jì)
一、定義和編輯變量、觀測(cè)量的命令DefineVariableProperties用于定義變量屬性;CopyDataProperties由外部文件和工作文件拷貝數(shù)據(jù)變量和屬性;DefineDates定義或編輯日期變量格式;InsertVariable在數(shù)據(jù)編輯窗口插入一個(gè)變量;InsertCase在數(shù)據(jù)編輯窗口插入一個(gè)觀測(cè)量;GotoCase光標(biāo)跳轉(zhuǎn)到某一指定觀測(cè)量。二、變量數(shù)據(jù)變換的命令SortCases對(duì)觀測(cè)量進(jìn)行排序;Transpose對(duì)觀測(cè)量進(jìn)行轉(zhuǎn)置;Restructure對(duì)現(xiàn)有的觀測(cè)量進(jìn)行重新構(gòu)造,形成新格式的數(shù)據(jù)文件;MergeFile把外部文件數(shù)據(jù)合并到工作文件中;Aggregate對(duì)數(shù)據(jù)進(jìn)行分類或不分類匯總,產(chǎn)生新文件或代替工作文件。IdentifyDuplicateCases標(biāo)識(shí)重復(fù)觀測(cè)量;OrthogonalDesign進(jìn)行正交設(shè)計(jì)。三、觀察量數(shù)據(jù)整理的命令SplitFile拆分?jǐn)?shù)據(jù)文件的觀測(cè)量,觀測(cè)量進(jìn)行條件分組;SelectCases選擇觀測(cè)量;WeightCases對(duì)觀測(cè)量進(jìn)行加權(quán)處理。通過(guò)選擇上述命令,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的整理編輯?!?.2.3Transform變換及轉(zhuǎn)換功能數(shù)據(jù)編輯窗口的Transform菜單為用戶創(chuàng)建和定義復(fù)雜的數(shù)據(jù)提供了方便的功能,如圖2.3所示。它與Data菜單共同使用,可對(duì)基本的數(shù)據(jù)進(jìn)行重新編輯,形成新的變量和觀測(cè)量。這個(gè)菜單主要對(duì)變量進(jìn)行操作,分為三部分的功能。這些功能也為各種統(tǒng)計(jì)分析要求提供極其靈活了數(shù)據(jù)處理功能。產(chǎn)生新的分組變量創(chuàng)建時(shí)間序列變量創(chuàng)建計(jì)數(shù)變量變量值重新編碼計(jì)算產(chǎn)生新變量運(yùn)行其它轉(zhuǎn)換程序設(shè)定隨機(jī)數(shù)種子觀測(cè)量排秩變量值自動(dòng)編碼創(chuàng)建代替缺失值變量產(chǎn)生新的分組變量創(chuàng)建時(shí)間序列變量創(chuàng)建計(jì)數(shù)變量變量值重新編碼計(jì)算產(chǎn)生新變量運(yùn)行其它轉(zhuǎn)換程序設(shè)定隨機(jī)數(shù)種子觀測(cè)量排秩變量值自動(dòng)編碼創(chuàng)建代替缺失值變量圖圖1.6Transform菜單項(xiàng)示意圖一.通過(guò)基本變量創(chuàng)建各種新變量;Compute計(jì)算產(chǎn)生新變量,SPSS提供了10類100多個(gè)函數(shù),通過(guò)該菜單可以用表達(dá)式產(chǎn)生一個(gè)新變量;RandomNumberSeed創(chuàng)建隨機(jī)數(shù)種子;CreateTimesSeries創(chuàng)建時(shí)間序列變量;二.創(chuàng)建各種參數(shù)變量;Count創(chuàng)建一個(gè)計(jì)數(shù)變量,用于統(tǒng)計(jì)計(jì)數(shù);Recode對(duì)變量值重新編碼;RankCases為觀測(cè)量排秩,求得的秩在數(shù)據(jù)窗口作為一個(gè)新變量保存;CategorizeVariables建立新的分組變量,使數(shù)據(jù)分成若干個(gè)組;AutomaticRecode對(duì)變量值自動(dòng)編碼,產(chǎn)生一個(gè)連續(xù)的變量值編碼;ReplaceMissingValues創(chuàng)建替代缺失值變量;三.運(yùn)行其它自定義的轉(zhuǎn)輸程序。RunPendingTransform運(yùn)行其它轉(zhuǎn)換程序。在一般的情況下,通過(guò)Date菜單和Transform菜單的操作就可以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的整理和變換?!?.2.4數(shù)據(jù)的編輯在DataView中,用鼠標(biāo)左鍵單擊數(shù)據(jù)表左邊框的觀測(cè)個(gè)體序號(hào),這一行值就會(huì)被選中,用鼠標(biāo)左鍵單擊上邊框的變量名,這個(gè)列就被選中,和其它Windows中的操作類似,也可以用鼠標(biāo)對(duì)選中一部分單元格,選中的行、列、單元格后,單擊鼠標(biāo)右鍵,可以對(duì)它們進(jìn)行復(fù)制、刪除、剪切等操作。如果需要對(duì)已經(jīng)輸入的數(shù)據(jù)進(jìn)行修改,就要對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行編輯,SPSS有許多數(shù)據(jù)編輯功能。下面介紹幾種常用的數(shù)據(jù)編輯功能。一、插入一個(gè)新觀測(cè)量(Case)插入一個(gè)新觀測(cè)量(數(shù)據(jù))的命令是InsertCases。在數(shù)據(jù)窗口主菜單上單擊DateInsertCases命令,可以在光標(biāo)所在位置的前上一行插入一行新的觀測(cè)個(gè)體,可以輸入新的觀測(cè)數(shù)據(jù)。二、查找指定的觀測(cè)量(數(shù)據(jù))查找指定的觀測(cè)數(shù)據(jù)的命令是GotoCase。在數(shù)據(jù)窗口單擊DateGotoCase,彈出一個(gè)對(duì)話框,如圖1.7所示:輸入要找的觀測(cè)量的序號(hào)后,點(diǎn)OK按鈕,數(shù)據(jù)表中光標(biāo)就會(huì)指到選定的觀測(cè)量個(gè)體。圖1.7GoToCase對(duì)話框三、觀測(cè)數(shù)據(jù)排序給觀測(cè)量數(shù)據(jù)排序的命令是SortCases。在數(shù)據(jù)窗口單擊DateSortCases,打開(kāi)SortCases對(duì)話框(見(jiàn)圖1.8)。圖1.8SortCase對(duì)話框從對(duì)話框左側(cè)的變量列表中選擇排序變量,點(diǎn)擊右箭頭按鈕加入Sortby框中,然后在SortOrder欄中選擇排序順序:Ascending觀測(cè)個(gè)體按照選定的排序變量值由小到大的升序排列;Descending觀測(cè)個(gè)體按照選定的排序變量值降序排列。注意:觀測(cè)個(gè)體.排序變量可以是一個(gè)或多個(gè),當(dāng)選擇多個(gè)排序變量時(shí),首先按第一個(gè)變量值排序,然后在第一個(gè)變量取值相同的那些個(gè)體中再按第二個(gè)變量值排序,依次類推。注意在排序的時(shí)候,觀測(cè)個(gè)體整行的值一同變到新位置,而不是只有排序變量那一列變動(dòng)。但數(shù)據(jù)表中左邊框上的序號(hào)并不隨著變動(dòng),因此,為了保留原始數(shù)據(jù)的信息,最好自己定義一個(gè)變量來(lái)記錄觀測(cè)個(gè)體的序號(hào)。四、在數(shù)據(jù)中選取子集如果需要從數(shù)據(jù)文件中選取一部分?jǐn)?shù)據(jù),可以在數(shù)據(jù)編輯窗口單擊Data→SelectCase,打開(kāi)SelectCase對(duì)話框,如圖1.9所示:圖1.9SelectCase對(duì)話框在該對(duì)話框的Select欄中選擇挑選數(shù)據(jù)子集的方式(單選):Allcase:選擇所有數(shù)據(jù);Ifconditionissatisfied:按指定條件選擇數(shù)據(jù)。單擊If按紐,打開(kāi)SelectCase:If對(duì)話框,如圖1.10所示,先選擇變量,然后定義條件。RandomSampleofcases:對(duì)觀察值進(jìn)行隨機(jī)抽樣。單擊Sample按紐,打開(kāi)SelectCase:Randomsample對(duì)話框。如圖1.11所示。圖1.10SelectCase:If對(duì)話框在SampleSize欄中有兩種選擇方式,一種是大概抽樣(Approximately),即鍵入抽樣比例后由系統(tǒng)隨機(jī)抽樣;另一種是精確抽樣((Exactly),要求輸入從第幾個(gè)觀察值起抽取多少數(shù)據(jù)。圖1.11SelectCase:RandomSample對(duì)話框Basedontimeorcaserange:順序抽樣。單擊Range按紐,打開(kāi)SelectCase:Range對(duì)話框,用戶自行定義從第幾個(gè)觀察值開(kāi)始抽到第幾個(gè)觀察值結(jié)束。Usefiltervariable:用指定變量作過(guò)濾。先選擇一個(gè)變量,系統(tǒng)自動(dòng)在數(shù)據(jù)管理器中將該變量值為0的觀測(cè)單位標(biāo)上刪除記號(hào),系統(tǒng)對(duì)標(biāo)有刪除記號(hào)的觀測(cè)單位不作分析。選擇了挑選數(shù)據(jù)子集的方式后,單擊OK,在數(shù)據(jù)窗口可看到新的變量filter_s。如在數(shù)據(jù)文件SY-1中,選擇年齡大于48歲的人作為選擇子集。則滿足條件的年齡大于48歲的相應(yīng)的新變量數(shù)據(jù)為1,否則為0。五、數(shù)據(jù)分類匯總(數(shù)據(jù)分組匯總)用戶可以根據(jù)需要對(duì)數(shù)據(jù)按指定的變量的數(shù)值進(jìn)行歸類分組匯總。以數(shù)據(jù)庫(kù)SY-2兩個(gè)班的學(xué)生成績(jī)?yōu)槔?,如果按照性別對(duì)數(shù)學(xué)成績(jī)進(jìn)行匯總,可以使用分類匯總命令實(shí)現(xiàn)。具體操作如下。1.指定分類變量和匯總變量。打開(kāi)數(shù)據(jù)庫(kù)SY-2,在數(shù)據(jù)窗口單擊DateAggregate命令,打開(kāi)AggregateDate對(duì)話框。如圖1.12所示:圖1.12AggregateDate對(duì)話框2.在變量名列表框中選擇分類變量”性別”進(jìn)入BreakVariable(s)。3.在變量名列表框中選擇匯總變量”Math”進(jìn)入AggregateVariable(s)。4.單擊Function按紐,打開(kāi)AggregateDate:Function對(duì)話框,如圖1.13所示。在此對(duì)話框中可以選擇平均值、數(shù)據(jù)和、標(biāo)準(zhǔn)差的形式,特別值形式,百分?jǐn)?shù)形式、頻數(shù)形式等其中之一的方法進(jìn)行分類匯總。選擇分類匯總的函數(shù)形式后返回AggregateDate對(duì)話框中。圖1.13AggregateDate:AggregateFunction對(duì)話框5.在AggregateDate對(duì)話框中指定匯總文件的保存路徑。有兩種選擇:一種是選中創(chuàng)建新數(shù)據(jù)文件,通過(guò)File按紐,重新指定結(jié)果文件名。一種是替代原來(lái)數(shù)據(jù)文件,用分類匯總結(jié)果覆蓋當(dāng)前編輯窗口的數(shù)據(jù)。6.單擊Name&Label按紐,可以重新指定結(jié)果文件中的變量名并加入變量標(biāo)簽。SPSS默認(rèn)的結(jié)果文件中的變量名為原變量名最后加上_1.7.如果希望在結(jié)果文件中保存各分類組的數(shù)據(jù)個(gè)數(shù),可以選擇Savenumberofcaseinbreakgroupasvariable項(xiàng)。最后單擊OK,可得相應(yīng)的數(shù)據(jù)文件。六、缺失值的替代方式如果用戶希望對(duì)缺失值進(jìn)行定義,可以采用以下的操作:在數(shù)據(jù)窗口點(diǎn)擊TransformReplaceMissingValues,打開(kāi)ReplaceMissingValues,對(duì)話框,如圖.1.14.所示:圖1.14ReplaceMissingValues對(duì)話框在變量中選擇具有缺失值的變量進(jìn)入NewVariable框內(nèi),系統(tǒng)可以自動(dòng)產(chǎn)生替代缺失值的新變量,也可處定義新變量。然后在Method的下拉菜單中選擇缺失值的替代方式。五種方式依次是:Seriesmean用該變量所有非缺失值的平均值替代缺失值;Meanofnearlypoint用缺失值相鄰點(diǎn)的的非缺失值的平均數(shù)據(jù)替代缺失值;Medianofnearlypoint用缺失值相鄰點(diǎn)的的非缺失值的中位數(shù)替代缺失值;Linearinterpolation用缺失值相鄰點(diǎn)的的非缺失值的中點(diǎn)值替代缺失值;Lineartrendatpoint用線性擬合方式替代缺失值。七、數(shù)據(jù)秩(序)的確定如果用戶需要對(duì)已有的數(shù)據(jù)變量排秩(序),如對(duì)數(shù)據(jù)SY-1中兩個(gè)班的數(shù)學(xué)成績(jī)分別排出名次,可以在數(shù)據(jù)窗口采用以下操作。1.單擊TransformRandCases,打開(kāi)RandCases對(duì)話框,如圖1.15所示:圖1.15RandCases對(duì)話框2.從左邊變量名列表框中選擇變量”數(shù)學(xué)”(也可選擇多個(gè)變量)進(jìn)入Variable(s)框中,選擇變量”班級(jí)”進(jìn)入By框中,則系統(tǒng)排序時(shí)將按照進(jìn)入By的變量值“班級(jí)”進(jìn)行分別排序。3.單擊Ties按紐,選擇Ties(Ties是指兩個(gè)或兩個(gè)以上的數(shù)據(jù)相等的情況)的處理方式。由于秩與數(shù)據(jù)個(gè)數(shù)是一一對(duì)應(yīng)的,當(dāng)數(shù)據(jù)有相同的時(shí),確定它們相應(yīng)的秩有三種處理方式:對(duì)應(yīng)秩的Mean平均值、Low最小值和high最大值。如本例選擇最大值。選擇后返回在主對(duì)話框。點(diǎn)擊OK,就可以在數(shù)據(jù)窗口看到排序結(jié)果。RankTypes按紐提供排秩方式。單擊RankTypes按紐,打開(kāi)types對(duì)話框,從中選擇排秩類型,排秩類型從左到右依次是:Rank普通排序(系統(tǒng)默認(rèn)),新變量的值就是秩;Fractionalrankas%累計(jì)百分?jǐn)?shù)排序;Savagescore以指數(shù)分布為基礎(chǔ)的原始分排序;SumofCaseweights以分組例數(shù)之和的權(quán)重排序;Fractionalrank以秩變量除以分組例數(shù)之和排序;Ntile先給定一個(gè)大于1的整數(shù),系統(tǒng)按照此數(shù)的范圍確定秩?!?.2.5SPSS對(duì)變量的編輯一、插入一個(gè)新變量插入一個(gè)新變量的命令是InsertVariable。在數(shù)據(jù)窗口單擊Data→InsertVariable,會(huì)在光標(biāo)所在位置的前一列插入一個(gè)新的變量,變量名字和屬性可以在VariableView窗口中定義。二、已存在的變量生成新變量對(duì)于已存在的數(shù)據(jù)變量,根據(jù)需要進(jìn)行計(jì)算生成新變量的命令是Compute。在數(shù)據(jù)窗口單擊TransformCompute,打開(kāi)ComputeVariable對(duì)話框,如圖1.16所示。在對(duì)話框左上方TargetVariable欄中,鍵入即將生成的新變量的名稱,并單擊Type&Lable按紐確定變量標(biāo)簽及數(shù)據(jù)類型。對(duì)話框的左下欄中給出了數(shù)據(jù)文件中所有可用的變量列表,我們可以用右箭頭按鈕從中選取所需的變量進(jìn)入右上方的NumericExpression欄中,該欄存放運(yùn)算表達(dá)式,運(yùn)算表達(dá)式中所需要的常用函數(shù)可以從下的Functions列表中直接選取。這些常用函數(shù)(見(jiàn)附錄2)和其它語(yǔ)言中的函數(shù)名稱類似,在框中按字母順序排列,用鼠標(biāo)選中某個(gè)函數(shù),用Functions右面的上箭頭按鈕加入數(shù)值表達(dá)式中,對(duì)話框中間是一個(gè)小鍵盤,可以用來(lái)輸入數(shù)字、運(yùn)算符號(hào)等。ComputeVariable對(duì)話框的下面還有一個(gè)if按鈕,可以選一部分滿足某種條件的觀測(cè)個(gè)體來(lái)做運(yùn)算,不滿足條件觀測(cè),其新變量值缺失。圖1.16ComputeVariable對(duì)話框如圖1.16表示的是數(shù)據(jù)SY-2中每個(gè)學(xué)生的數(shù)學(xué)和物理總成績(jī)。在ComputeVariable對(duì)話框中填好新變量名稱和運(yùn)算表達(dá)式后,點(diǎn)擊OK按鈕,就可以在數(shù)據(jù)文件中看到,已經(jīng)生成了一個(gè)新變量Total。三、產(chǎn)生計(jì)數(shù)變量如果用戶需要對(duì)滿足某項(xiàng)條件的數(shù)據(jù)進(jìn)行計(jì)數(shù),可以使用Count命令。以學(xué)生成績(jī)數(shù)據(jù)SY-1為例,說(shuō)明具體操作步驟:在數(shù)據(jù)窗口單擊TransformCount,打開(kāi)CountOccurrenceofValuewithinCases對(duì)話框,如圖1.17所示:圖1.17CountOccurrenceofValuewithinCases對(duì)話框先在TargetVariable中指定一個(gè)變量(可以是已經(jīng)存在的變量或新變量),并定義變量標(biāo)簽,然后指定要統(tǒng)計(jì)的變量加到NumericVariables框中,再單擊DefineValues按紐,打開(kāi)ValuetoCount對(duì)話框。如圖1.18所示:圖1.18CountValueswithinCases:ValuetoCount對(duì)話框在上面的對(duì)話框中,確定需要計(jì)數(shù)的數(shù)值,其Value值的設(shè)置項(xiàng)依次是:Value:輸入某個(gè)值為清點(diǎn)對(duì)象;System-missing:以系統(tǒng)的缺失值為清點(diǎn)對(duì)象;System-orusermissing:以系統(tǒng)或用戶指定的缺失值為清點(diǎn)對(duì)象;Range:指定數(shù)值的計(jì)數(shù)區(qū)域:其中包括:()through()在框內(nèi)指定下限和上限lowestthrough():在框內(nèi)只指定上限;()highestthrough:在框內(nèi)只指定下限。圖中給出的是計(jì)算達(dá)到優(yōu)良標(biāo)準(zhǔn),即學(xué)生達(dá)到80分以上課程數(shù)。確定了計(jì)數(shù)數(shù)值后,單擊Add,使選擇結(jié)果進(jìn)入Valuestocount框內(nèi)。單擊Continue按紐,返回主對(duì)話框中。如果需要,可以單擊If按紐確定計(jì)數(shù)條件。最后點(diǎn)OK可在數(shù)據(jù)窗口得到計(jì)數(shù)變量。四、變量分組(編碼)與自動(dòng)分組(編碼)Transform菜單下還有以上兩條分組(編碼)命令。對(duì)變量數(shù)據(jù)的重新分組(編碼),是指給每個(gè)變量值重新賦予一個(gè)碼來(lái)描述他們的某些屬性。碼數(shù)相同的即為一組。比如,可以對(duì)年齡重新分組,19歲及以下年齡賦予一個(gè)編碼1,20-29歲的年齡碼賦予2,30-39歲年齡碼賦予3,依此類推,這些碼只能取正整數(shù)值。從某種程度上來(lái)講,編碼也可以看做分組:一個(gè)組對(duì)應(yīng)一個(gè)組號(hào),這樣就把這些人按年齡分為幾個(gè)組,一目了然。變量重新編碼命令為Recode,自動(dòng)重新編碼命令為AutomaticRecode。Automatic兩者的區(qū)別是:AutomaticRecode命令是SPSS系統(tǒng)自動(dòng)設(shè)定碼為正整數(shù),而Recode可以根據(jù)用戶的需要指定特別的碼值。自動(dòng)編碼的具體操作為:在數(shù)據(jù)窗口單擊TransformAutomaticRecode打開(kāi)AutomaticRecode。對(duì)話框,從左側(cè)的變量列表中選出被將重新編碼的原變量,在NewName按鈕右邊空白欄中輸入新的碼值的變量名,點(diǎn)NewName按鈕放到上面的欄中。對(duì)話框底下有兩個(gè)選項(xiàng),以確定編碼是從最小的開(kāi)始,還是從最大的開(kāi)始,點(diǎn)OK執(zhí)行這條命令。需要注意的是,碼與秩是不同的,請(qǐng)讀者在學(xué)習(xí)時(shí)注意它們的區(qū)別。如果用戶需要自定義分組的條件,可選擇Recode命令。Recode命令有兩個(gè)選項(xiàng),分別是:IntoSameVariables:數(shù)據(jù)編碼后新的碼值直接放到原來(lái)的變量中;IntoDifferentVariables:數(shù)據(jù)編碼后新的碼值存到一個(gè)新變量中。為了避免數(shù)據(jù)丟失,盡量不要輕易選擇前者。選擇后者的Recode命令對(duì)話框如圖1.19所示,圖1.19RecodeIntoDifferentVariables對(duì)話框選擇需要重新分組(編碼)的變量進(jìn)入NumericVariableOutput框中,并在右邊的OutputVariable框中定義新的變量名及變量標(biāo)簽,單擊OldandNewValues按紐,打開(kāi)對(duì)話框,OldandNewValues對(duì)話框最左側(cè)有六個(gè)選項(xiàng),用來(lái)確定原變量的取值區(qū)間(或單個(gè)變量值),它們將被賦予一個(gè)相同的新碼值,新的碼值在右上方的NewValue欄中填入。填好后Add按鈕就被激活了,單擊此按鈕,就把這個(gè)舊的變量區(qū)間(值)以及新的碼值到Old->News欄中。重復(fù)以上步驟,把所有的區(qū)間一個(gè)一個(gè)都輸入后,點(diǎn)Continue按鈕回到RecodeIntoDifferentVariables菜單,點(diǎn)OK按鈕執(zhí)行命令,即在數(shù)據(jù)窗口可得到需要的分組賦值變量?!?.3基本統(tǒng)計(jì)描述在建立了數(shù)據(jù)文件之后,需要對(duì)數(shù)據(jù)作進(jìn)一步的考察,如了解數(shù)據(jù)的基本特征,如數(shù)據(jù)的均值、標(biāo)準(zhǔn)差、四分位點(diǎn),數(shù)據(jù)的分布形態(tài)等,這個(gè)過(guò)程稱為對(duì)數(shù)據(jù)進(jìn)行基本統(tǒng)計(jì)描述。所以說(shuō),數(shù)據(jù)的基本統(tǒng)計(jì)描述的目的是:了解數(shù)據(jù)的基本特征和基本分布形狀,為進(jìn)一步分析做好充分準(zhǔn)備。本節(jié)主要內(nèi)容:數(shù)據(jù)的基本統(tǒng)計(jì)描述方法:頻數(shù)分析、探索分析及交叉列聯(lián)表分析等?!?.3.1描述統(tǒng)計(jì)分析過(guò)程描述統(tǒng)計(jì)分析是對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)性描述??梢缘贸鰯?shù)據(jù)的平均值(Mean)、和(sum)、標(biāo)準(zhǔn)差(Stddeviation)、最大值(Max)、最小值(Min)、方差(Variance)、極差(range)、平均值標(biāo)準(zhǔn)誤(S.E.Mean),峰度(Kurtosis)、偏度(Skewness)等統(tǒng)計(jì)量。以2002年全國(guó)職工平均工資表為例(數(shù)據(jù)庫(kù)SY-2),介紹描述統(tǒng)計(jì)分析的具體操作步驟如下:1、首先打開(kāi)數(shù)據(jù)表SY-2,按照AnalyzeDescriptivesStatisticsDescriptives打開(kāi)Descriptives對(duì)話框,如圖1.20所示圖1.20Descriptives主對(duì)話框從左邊源變量中選擇一個(gè)或者幾個(gè)變量進(jìn)入右框中,單擊Options按鈕,打開(kāi)Options對(duì)話框,如圖1.21所示:圖1.21DescriptivesOptions對(duì)話框在對(duì)話框中最上面一行是Mean:均值,sum:算術(shù)和Dispersion離差欄Std.Deviation標(biāo)準(zhǔn)差Minimum最小值Variance方差Maximum最大值Range極差S.E.mean均值的標(biāo)準(zhǔn)誤Distribution分布狀態(tài)欄Skewness偏度Kurtosis峰度DisplayOrder欄,選擇輸出方式:VariableList按變量表次序;Alphabetic按字母順序;AscendingMeas按平均值升序;DescendingMeans按平均值降序。如在此例中選擇按平均值升序項(xiàng),返回主對(duì)話框,單擊OK,在輸出窗口得描述統(tǒng)計(jì)分析輸出表。表1.1DescriptiveStatistics基本描述統(tǒng)計(jì)表 DescriptiveStatisticsNMinimumMaximumMeanStd.Deviation城鎮(zhèn)集體315100148517926.032335.188股份合作315396154869280.872887.924有限責(zé)任3175552145011549.873674.871股份有限3181652504613510.064301.683國(guó)有單位3193682567513559.904809.971外商投資2977653942814395.076396.869ValidN(listwise)29§1.3.2頻數(shù)分析對(duì)于一組數(shù)據(jù),考察不同的數(shù)據(jù)出現(xiàn)的頻數(shù),或者是數(shù)據(jù)所落入指定的區(qū)域內(nèi)的頻數(shù),可以了解數(shù)據(jù)的分布狀況。數(shù)據(jù)文件SY-3是一個(gè)公司職員表,其中有性別、年齡,受教育年限等五個(gè)變量,具體操作如下:1、打開(kāi)數(shù)據(jù)文件SY-3后,單擊AnalyzeDescriptiveStatisticsFrequencies打開(kāi)頻數(shù)分析對(duì)話框如圖1.22所示。圖1.22頻數(shù)分布主對(duì)話框2、在左邊的變量框中選中一個(gè)或多個(gè)變量送入Variable(s)。3、選中Displayfrequencytables要求輸出分布表。4、單擊Statistics按鈕,得到對(duì)話框圖1.23。在Frequencies:Statistics對(duì)話框中選擇要求輸出的統(tǒng)計(jì)量。圖1.23Frequencies:Statistics對(duì)話框PercentileValues百分?jǐn)?shù)選擇項(xiàng)欄(復(fù)選項(xiàng))Quartile四分位數(shù),Cutpointsequalgroups等分位點(diǎn)百分位數(shù)(取值范圍在2100之間)。Percentile(s)自定義百分?jǐn)?shù)。Dispersion離差欄(見(jiàn)§1.3.1基本統(tǒng)計(jì)描述過(guò)程)CentralTendency中心趨勢(shì)欄Mean算術(shù)平均值(均值),Median中位數(shù),Mode眾數(shù),Sum算術(shù)和.Distribution分布狀態(tài)欄在本例中選擇四分位點(diǎn)、10等分的百分位點(diǎn);標(biāo)準(zhǔn)差、方差、最大、最小值;全距、均值、均值的標(biāo)準(zhǔn)誤,中位數(shù)、偏度、峰度等復(fù)選項(xiàng)。5、單擊Chart按鈕,得到Frequencies:Chart對(duì)話框圖1.24.在對(duì)話框中有ChartType圖形欄(單選),選擇輸出的圖形類型。None不輸出圖形(系統(tǒng)默許)Barcharts條形圖Piecharts餅圖Histograms直方圖Withnormalcurve直方圖中顯示正態(tài)曲線(只有選擇直方圖時(shí)才能選擇)。ChartValues欄,選擇圖形中分類值的表現(xiàn)形式。Frequencies直方圖縱軸為頻數(shù),餅圖中每塊表示屬于該組觀測(cè)值頻數(shù);Percentage直方圖縱軸為百分比,餅圖中每塊表示該組的觀測(cè)量數(shù)占總數(shù)的百分比。圖1.24Frequencies:Chart對(duì)話框6、單擊Format按鈕,得到對(duì)話框圖1.25。
圖1.25Frequencies:Format對(duì)話框在Frequencies:Format對(duì)話框中:Orderby排序欄,表示頻數(shù)分布表的排列順序。(單選)Ascendingvalues按變量值升序排列(系統(tǒng)默許)。Descendingvalues按變量值降序排列。Ascendingcounts按變量各種取值發(fā)生的頻數(shù)升序排列。Descendingcounts按變量各種取值發(fā)生的頻數(shù)降序排列。如果設(shè)置了直方圖,頻數(shù)表將按照變量值順序排列。MultipleVariables多變量輸出表格設(shè)置(單選)。Comparevariables將所有變量的結(jié)果輸出在一個(gè)表中。Organizeoutputbyvariables為每一個(gè)變量輸出一個(gè)表。Suppresstableswithmorethan_categories控制頻數(shù)表輸出的分類數(shù)復(fù)選項(xiàng)。Maximumnumberofcategories分類數(shù)最大參數(shù)值,默許值是10.本例中均選擇系統(tǒng)默認(rèn)項(xiàng)。點(diǎn)擊OK,得到輸出表1.2. 表1-2(a)Statistics統(tǒng)計(jì)分析表年齡NValid70Missing0Mean均值42.66Std.ErrorofMean均值的標(biāo)準(zhǔn)誤1.223Std.Deviation標(biāo)準(zhǔn)差10.232Skewness偏度.775Std.ErrorofSkewness偏度的標(biāo)準(zhǔn)誤.287Kurtosis峰度-.010Std.ErrorofKurtosis峰度的標(biāo)準(zhǔn)誤.566Minimum最小值24Maximum最大值70Percentiles百分?jǐn)?shù)1033.002035.002536.003036.004038.005039.006042.607046.707550.008052.009059.00表1-2(b)頻數(shù)表年齡Frequency頻數(shù)Percent%ValidPercentCumulativePercentValid243033345.75.714.33422.92.917.13545.75.722.936710.010.032.93745.75.738.63868.68.647.1394134.34.358.64211.41.460.04322.92.962.94411.41.464.34534.34.368.64611.41.470.04722.92.972.94911.41.474.35022.92.977.15111.41.478.65222.92.981.45322.92.984.35511.41.485.75711.41.487.15811.41.488.65934.34.392.96122.92.995.76622.92.998.67011.41.4100.0Total70100.0100.0表1.2(c)直方圖從上面的表和直方圖中可以觀察到該公司32歲至47歲之間的人數(shù)最多,占到總?cè)藬?shù)的60%以上。§1.3.3探索分析過(guò)程探索分析是對(duì)數(shù)據(jù)進(jìn)行初步的觀察分析,主要的分析項(xiàng)目有:觀察數(shù)據(jù)的分布特征:可通過(guò)繪制箱圖和莖葉圖等圖形直觀地反映數(shù)據(jù)的分布形式和數(shù)據(jù)的一些規(guī)律性,包括考察數(shù)據(jù)中是否存在異常值等。正態(tài)分布檢驗(yàn):檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。方差齊性的檢驗(yàn):用Levene檢驗(yàn)比較各組的方差是否相等。以數(shù)據(jù)庫(kù)SY-1提供的兩個(gè)班的學(xué)習(xí)成績(jī)數(shù)據(jù)為例,對(duì)兩個(gè)班的數(shù)學(xué)成績(jī)按照性別進(jìn)行數(shù)據(jù)的分布、按照性別檢驗(yàn)其數(shù)學(xué)成績(jī)的方差是否相等。打開(kāi)數(shù)據(jù)庫(kù)SY-1,具體操作步驟:1、單擊Analyze->Descriptivestatistics->Explore,打開(kāi)Explore主對(duì)話框:如圖1.26所示:圖1.26探索分析主對(duì)話框從左側(cè)的變量列表中選出變量”數(shù)學(xué)”,送入DependentList欄;選擇”性別”作為因子變量,送入FactorList欄。有了因子變量,SPSS會(huì)把所有的觀測(cè)個(gè)體按照因子變量的取值分成若干各組,再分組考察DependentList中的各個(gè)變量,如果不選擇因子變量,SPSS會(huì)對(duì)全部觀測(cè)來(lái)做探索分析。選擇”班級(jí)”標(biāo)識(shí)變量送入LabelCase欄,當(dāng)輸出涉及到觀測(cè)量時(shí),使用該變量值標(biāo)識(shí)各觀測(cè)量。在Display欄中選擇輸出項(xiàng),依次是Both選擇項(xiàng),輸出圖形與描述統(tǒng)計(jì)量(系統(tǒng)默認(rèn)),只輸出描述統(tǒng)計(jì)量和只輸出圖形。本例中選擇默認(rèn)項(xiàng)。2、單擊Statistics統(tǒng)計(jì)量按鈕,打開(kāi)Statistics對(duì)話框,選擇統(tǒng)計(jì)輸出量。有四個(gè)選擇項(xiàng),分別是:Descriptives基本統(tǒng)計(jì)描述。同時(shí)指定均值的置信區(qū)間的置信度,系統(tǒng)默認(rèn)為95%。M-估計(jì)(M估計(jì)在計(jì)算時(shí)對(duì)所有觀測(cè)量賦予權(quán)重,隨觀測(cè)量距分布中心的遠(yuǎn)近而變化);Outliers輸出分析數(shù)據(jù)中五個(gè)最大值和五個(gè)最小值;Percentiles輸出百分?jǐn)?shù)。本例中選擇Descriptives和Outliers后,返回主對(duì)話框。如圖1.27所示。圖1.27探索分析Statistics對(duì)話框單擊Plots圖形按鈕,打開(kāi)Plots對(duì)話框,如圖1.28所示。圖1.28探索分析Plots對(duì)話框?qū)υ捒蛑杏兴膫€(gè)選擇欄:Boxplot箱圖選擇欄。Factorlevelstogether因變量按因素水平分組(系統(tǒng)默認(rèn));Dependentstogether所有因變量生成一個(gè)并列箱圖(本例中選擇項(xiàng));None不顯示箱圖。箱圖中,最底部的水平線段是數(shù)據(jù)的最小值(奇異點(diǎn)除外),頂部的水平線段是數(shù)據(jù)的最大值(奇異點(diǎn)除外),中間矩形箱子的底所在位置是數(shù)據(jù)的第一個(gè)四分位數(shù)(即25%分位數(shù)),箱子頂部所在位置是數(shù)據(jù)的第三個(gè)四分位數(shù)據(jù)(即75%分位數(shù))。箱子中間的水平線段刻畫的是數(shù)據(jù)的中位數(shù)(即50%分位數(shù))。Descriptive描述圖形欄(復(fù)選項(xiàng))。Stem-and-leaf莖葉圖(系統(tǒng)默認(rèn))Histogram直方圖Normalityplotswithtest(復(fù)選項(xiàng)),正態(tài)分布檢驗(yàn)并輸出Q-Q圖。SpreadvslevelwithLeveneTest欄,對(duì)所有的散布—層次圖,同時(shí)輸出回歸直線的斜率以及方差齊性的Levenes檢驗(yàn),但如果沒(méi)有指定分組變量,此選擇項(xiàng)無(wú)效。四個(gè)單選項(xiàng)依次為:None:不產(chǎn)生回歸直線的斜率和方差齊性檢驗(yàn)(系統(tǒng)默認(rèn));PowerEstimation轉(zhuǎn)換冪值估計(jì)(對(duì)每組數(shù)據(jù)產(chǎn)生一個(gè)中位數(shù)自然對(duì)數(shù)及四個(gè)分位數(shù)的自然對(duì)數(shù)的散點(diǎn)圖)選項(xiàng);Transformed變換原始數(shù)據(jù)選擇項(xiàng)(可在參數(shù)框中選擇數(shù)據(jù)變換類型);Untransformed不變換變換原始數(shù)據(jù)選擇項(xiàng)。本例中選擇莖葉圖,正態(tài)分布檢驗(yàn),方差齊性檢驗(yàn)等。4、單擊Option按紐,打開(kāi)Option對(duì)話框如圖1.29所示??蛇x擇缺失值的處理方式,SPSS提供三種處理方式:圖1.29探索分析Option對(duì)話框Excludecaseslistwies剔除帶缺失值的觀測(cè)量(系統(tǒng)默認(rèn))。本例選擇此項(xiàng)。Excludecasespairwise剔除帶缺失值的觀測(cè)量時(shí)還一并剔除與缺失值有成對(duì)關(guān)系的觀測(cè)量。Reportvalues輸出頻數(shù)表時(shí)同時(shí)輸出缺失值。5、單擊OK,得到相應(yīng)的輸出結(jié)果如表1.3所示。表1.3Explore探索分析表1.3(a)CaseProcessingSummary數(shù)據(jù)概述性別Cases數(shù)據(jù)Valid有效值Missing缺失值Total總數(shù)N個(gè)數(shù)Percent百分比NPercentNPercent數(shù)學(xué)女33100.0%0.0%33100.0%男47100.0%0.0%47100.0%表1-3(b)Descriptives基本統(tǒng)計(jì)描述表性別StatisticStd.Error數(shù)學(xué)女Mean均值78.821.93495%ConfidenceIntervalforMean置信區(qū)間LowerBound置信下限74.88UpperBound置信上限82.765%TrimmedMean修正均值79.35Median中位數(shù)79.00Variance方差123.403Std.Deviation標(biāo)準(zhǔn)差11.109Minimum最小值46Maximum最大值99Range極差53InterquartileRange四分位間距12.50Skewness偏度-.771.409Kurtosis峰度1.320.798男Mean均值78.641.51495%ConfidenceIntervalforMeanLowerBound置信下限75.59UpperBound置信上限81.695%TrimmedMean78.78Median81.00Variance107.714Std.Deviation10.379Minimum53Maximum98Range45Interquartile16.00Skewness-.367.347Kurtosis-.533.681表1.3(c)ExtremeValues極端值(按照性別輸出數(shù)學(xué)成績(jī)的五個(gè)最大值及五個(gè)最小值)性別CaseNumber班級(jí)Value數(shù)學(xué)女Highest180199278296375194474192570189Lowest111462315738164412266514267男Highest179298277196376294473291571190(a)Lowest1225325262341624726356163aOnlyapartiallistofcaseswiththevalue90areshowninthetableofupperextremes.表1.3(d)TestsofNormality正態(tài)分布檢驗(yàn)表性別Kolmogorov-Smirnov(a)Shapiro-WilkStatisticdfSig.StatisticdfSig.數(shù)學(xué)女.09733.200(*).96333.324男.11047.200(*).97147.291*Thisisalowerboundofthetruesignificance.aLillieforsSignificanceCorrection從表1.3(d)的檢驗(yàn)結(jié)果可以看出,由于假設(shè)檢驗(yàn)的P值均大于0.05,故可以認(rèn)為男女生的數(shù)學(xué)成績(jī)分布都近似地服從正態(tài)分布。 表1.3(e)TestofHomogeneityofVariance方差齊性檢驗(yàn)LeveneStatisticdf1df2Sig.數(shù)學(xué)BasedonMean基于均值.045178.833BasedonMedian基于中位數(shù).023178.880BasedonMedianandwithadjusteddf基于中位數(shù)及修正的自由度.023176.348.880Basedontrimmedmean基于修正的均值.033178.856由表1.3(e)得出方差齊性檢驗(yàn)的P值為0.8以上,故認(rèn)為男女生數(shù)學(xué)成績(jī)的方差是相等的。表1.3(f)Stem-and-LeafPlots莖葉圖數(shù)學(xué)Stem-and-LeafPlotforSEX=女FrequencyStem&Leaf1.00Extremes(=<46)一個(gè)極端值1.005.71.006.43.006.6783.007.2349.007.5667788994.008.23347.008.55667892.009.242.009.69Stemwidth:10Eachleaf:1case(s)表1.3(g)NormalQ-QPlots正態(tài)分布Q-Q圖上圖中間的斜線是服從正態(tài)分布的標(biāo)準(zhǔn)線。從上面的分布圖中看出,除個(gè)別極端點(diǎn)外,數(shù)據(jù)點(diǎn)都在斜線周圍波動(dòng),故可以認(rèn)為女生的數(shù)學(xué)成績(jī)近似服從正態(tài)分布。表1.3(h)DetrendedNormalQ-QPlots離散正態(tài)分布圖從上面的離散正態(tài)分布圖中看出,除個(gè)別極端點(diǎn)外,離散點(diǎn)都在±2的周圍波動(dòng),故可以認(rèn)為女生的數(shù)學(xué)成績(jī)近似服從正態(tài)分布。表1.3(i)按照性別繪制的數(shù)學(xué)成績(jī)的箱圖從上面的箱圖中可以得出結(jié)論:女生的數(shù)學(xué)成績(jī)的平均水平比男生低且分散程度小,但有一個(gè)極端值?!?.4交叉列聯(lián)表分析當(dāng)觀察的現(xiàn)象與兩個(gè)因素有關(guān)時(shí),如某種服裝的銷量受價(jià)格和居民收入影響;某種產(chǎn)品的生產(chǎn)成本受原材料價(jià)格和產(chǎn)量的影響等等,交叉列聯(lián)表分析可以比較好的反映出兩個(gè)因素之間有無(wú)關(guān)聯(lián)性,兩因素與現(xiàn)象之間的相關(guān)關(guān)系。因此,數(shù)據(jù)交叉列聯(lián)表分析主要包括兩個(gè)基本任務(wù):根據(jù)收集的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;在交叉列聯(lián)表的基礎(chǔ)上,對(duì)兩兩變量間是否存在關(guān)聯(lián)性進(jìn)行檢驗(yàn)。下面仍然以數(shù)據(jù)SY-1學(xué)生成績(jī)?yōu)槔瑢W(xué)生成績(jī)按照五級(jí)制分等級(jí)后,按照班級(jí)形成數(shù)學(xué)等級(jí)和物理等級(jí)交叉分析表,并考察學(xué)生的物理和數(shù)學(xué)成績(jī)間有無(wú)關(guān)聯(lián)性?!?.4.1交叉列聯(lián)表的形成制作交叉列聯(lián)表的具體操作步驟.1、打開(kāi)數(shù)據(jù)SY-1,單擊AnalyzeDescriptiveStatisticsCrosstabs對(duì)話框如圖1.30所示。2、如果是二維列聯(lián)表分析,可以將行變量選擇進(jìn)入Row(s)中,將列變量選擇進(jìn)入Column(s)框中。如進(jìn)行三維以上的列聯(lián)表,可以將其它變量作為控制變量選到Layer框中。多控制變量可以是同層次的也可以是逐層疊加的。此例中選擇數(shù)學(xué)等級(jí)為行變量,物理等級(jí)為列變量,班級(jí)作為控制變量。3、Displayclusteredbarchart選擇項(xiàng),可以指定繪制各變量交叉頻數(shù)分布柱形圖。Suppresstable表示不輸出列聯(lián)表,只有在分析行列變量間關(guān)系時(shí)選擇此項(xiàng)。此例中不選擇這一項(xiàng)。圖1.30交叉列聯(lián)表對(duì)話框4、單擊Cell按紐,打開(kāi)Crosstabs:CellDisplay對(duì)話框,如圖1.31所示。從對(duì)話框中指定列聯(lián)表單元格中的輸出內(nèi)容。在Counts框中選擇Observed觀察值(系統(tǒng)默認(rèn))或Expected期望頻數(shù);。在Percentages框內(nèi)選擇Row行百分比、Column列百分比及Total總百分比。在Residuals框中選擇輸出殘差。其中Standardize為標(biāo)準(zhǔn)化殘差。Adj.standardize為修正的標(biāo)準(zhǔn)化殘差。本列中選擇默認(rèn)項(xiàng)觀察值。圖1.31Crosstabs:CellDisplay對(duì)話框5、單擊Format按紐,指定列聯(lián)表的輸出排列順序,一般選擇系統(tǒng)默認(rèn)的升序。然后點(diǎn)擊OK,就可得到交叉列聯(lián)表如表1.4所示。表1.4 數(shù)學(xué)等級(jí)*物理等級(jí)*班級(jí)Crosstabulation交叉列聯(lián)表Count班級(jí)物理等級(jí)Total優(yōu)良中及不及格1數(shù)學(xué)等級(jí)優(yōu)410005良31020015中0551011及002316不及格000202Total716961392數(shù)學(xué)等級(jí)優(yōu)410005良11210014中0562013及003328不及格000011Total518105341從上表中可以看出,一班中數(shù)學(xué)和物理成績(jī)均為優(yōu)秀者有四人,數(shù)學(xué)不及格的兩人的物理成績(jī)都是及格?!?.4.2兩變量關(guān)聯(lián)性檢驗(yàn)(Chi-squareTest卡方檢驗(yàn))卡方檢驗(yàn)是一種非參數(shù)檢驗(yàn)方法。可以用來(lái)檢驗(yàn)兩個(gè)變量因素之間是否有關(guān)聯(lián)關(guān)系。如果要考察學(xué)生的數(shù)學(xué)成績(jī)和物理成績(jī)之間是否有關(guān)聯(lián),相當(dāng)于檢驗(yàn)假設(shè):H0:數(shù)學(xué)成績(jī)和物理成績(jī)之間是相互獨(dú)立的(無(wú)關(guān)聯(lián)關(guān)系);H1:數(shù)學(xué)成績(jī)和物理成績(jī)之間的關(guān)聯(lián)關(guān)系顯著。由于列聯(lián)分析表1.4中出現(xiàn)數(shù)據(jù)中小于5的值太多,故將數(shù)學(xué)等級(jí)合并,優(yōu)良等級(jí)合成一組,中、及和不及等級(jí)合成一組,同樣可得物理分組,通過(guò)Transform菜單中Recode命令實(shí)現(xiàn)。實(shí)現(xiàn)新的分組后,可以實(shí)施卡方檢驗(yàn)的具體操作步驟:1、打開(kāi)數(shù)據(jù)SY-1,打開(kāi)數(shù)據(jù)文件后按照AnalyzeDescriptiveStatisticsCrosstabs對(duì)話框如圖1.30所示.2、選擇數(shù)學(xué)分組為行變量,物理分組為列變量,班級(jí)作為控制變量。3、單擊Cell按紐,打開(kāi)CellDisplay對(duì)話框,選擇觀察值為輸出內(nèi)容。4、單擊Exact按紐,打開(kāi)ExactTest對(duì)話框如圖1.32,此對(duì)話框提供檢驗(yàn)方式。三個(gè)單選項(xiàng)分別是:Asymptoticonly選擇項(xiàng),適用于具有漸近分布的大樣本數(shù)據(jù)(默認(rèn)項(xiàng));MonteCarlo選擇項(xiàng),此項(xiàng)為精確顯著水平值的無(wú)偏估計(jì),無(wú)需數(shù)據(jù)具有漸近分布的假設(shè),是一種非常有效的計(jì)算確切顯著性水平的方法。在Confidence參數(shù)框k中輸入數(shù)據(jù),確定置信區(qū)間的大小,一般為90,95,99。在Mumberofsample樣本框中輸入樣本量數(shù)據(jù)。Exact選擇項(xiàng),觀察結(jié)果概率,同時(shí)在下面的Timelimitpertest框內(nèi),選擇進(jìn)行精確檢驗(yàn)的最大時(shí)限。本例中不作選擇。圖1.32ExactTest對(duì)話框5、單擊Format按紐,從中選擇排列順序。一般取默認(rèn)項(xiàng),即升序排列。6、單擊Statistics按紐,打開(kāi)Crosstabs:Statistics對(duì)話框如圖1.33所示。從中選擇檢驗(yàn)統(tǒng)計(jì)量:圖1.33Crosstabs:Statistics對(duì)話框Chi-square卡方檢驗(yàn)復(fù)選項(xiàng),主要檢驗(yàn)是行與列變量的獨(dú)立性檢驗(yàn),也可稱作Pearsonchi-square檢驗(yàn)。本例中只選擇此項(xiàng)。Correlations復(fù)選項(xiàng),要求輸出Pearson和Spearman相關(guān)系數(shù)。Nominal欄,適用于名義變量統(tǒng)計(jì)量。Contingencycoefficient列聯(lián)系數(shù);PhiandCramersV系數(shù)和Cramer系數(shù);Lambda系數(shù)Uncertaintycoefficient系數(shù)Ordinal欄,適用于有序變量的統(tǒng)計(jì)量。Gamma選擇項(xiàng),兩有序變量之間的關(guān)聯(lián)性的對(duì)稱檢驗(yàn);Somers兩有序變量之間的關(guān)聯(lián)性的檢驗(yàn);Kendallstan-b復(fù)選項(xiàng),考慮有結(jié)的秩或等級(jí)變量關(guān)聯(lián)性的非參數(shù)檢驗(yàn)。Kendallstan-c復(fù)選項(xiàng),忽略有結(jié)的秩或等級(jí)變量關(guān)聯(lián)性的非參數(shù)檢驗(yàn)。Nominalbyinte
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 污水課程設(shè)計(jì)紫外消毒
- 數(shù)字電路ic課程設(shè)計(jì)
- 教育培訓(xùn)行業(yè)教學(xué)方法培訓(xùn)體驗(yàn)
- 電子課程設(shè)計(jì)網(wǎng)課答案
- 稅務(wù)工作總結(jié)制度建設(shè)與規(guī)范化監(jiān)督
- 急救護(hù)理工作總結(jié)
- 貸款經(jīng)理工作總結(jié)
- 電信通訊科技行業(yè)技術(shù)分析
- 旅游行業(yè)促銷活動(dòng)總結(jié)
- 酒店用品銷售工作總結(jié)
- 道路運(yùn)輸企業(yè)安全生產(chǎn)管理人員安全考核試題題庫(kù)與答案
- 年終抖音運(yùn)營(yíng)述職報(bào)告
- 車間修繕合同模板
- 腦梗死患者的護(hù)理常規(guī)
- 2024年7月國(guó)家開(kāi)放大學(xué)法律事務(wù)??啤斗勺稍兣c調(diào)解》期末紙質(zhì)考試試題及答案
- 護(hù)士條例解讀
- 醫(yī)務(wù)人員崗前培訓(xùn)課件
- SQE年終總結(jié)報(bào)告
- 檢修工(題庫(kù))附答案
- 2025屆高考語(yǔ)文一輪復(fù)習(xí):小說(shuō)情節(jié)結(jié)構(gòu)之伏筆 練習(xí)題(含答案)
- 《化學(xué)實(shí)驗(yàn)室安全》課程教學(xué)大綱
評(píng)論
0/150
提交評(píng)論