版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章SPSS統(tǒng)計(jì)分析軟件概述SPSS使用基礎(chǔ)SPSS的基本運(yùn)行方式利用SPSS進(jìn)行數(shù)據(jù)分析的基本步驟引言SPSS的英文縮寫
StatisticalPackageforSocialScience:社會(huì)科學(xué)統(tǒng)計(jì)軟件包StatisticalProductandServiceSolutions:統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案SPSS的應(yīng)用:當(dāng)今世界上公認(rèn)和流行的綜合統(tǒng)計(jì)分析軟件包SPSS以其強(qiáng)大的統(tǒng)計(jì)分析功能、方便的用戶操作界面、靈活的表格式分析報(bào)告及其精美的圖形展現(xiàn),受到了社會(huì)各界統(tǒng)計(jì)分析人員的喜愛目前,SPSS軟件使用已經(jīng)成為許多大專院校統(tǒng)計(jì)學(xué)專業(yè)和財(cái)經(jīng)類、管理類專業(yè)本科學(xué)生的必修課程引言SPSS的特點(diǎn)操作簡(jiǎn)便。絕大多數(shù)操作是通過(guò)菜單、按鈕、對(duì)話框完成的無(wú)需計(jì)算機(jī)編程、需記憶大量命令和參數(shù)分析方法豐富、分析結(jié)果清晰、直觀可以直接讀取其他常用軟件格式的數(shù)據(jù)文件,如:Excle、SAS等SPSS可在Windows、Linux、MacOS操作系統(tǒng)上運(yùn)行,支持多種語(yǔ)言環(huán)境。SPSS提供了與R語(yǔ)言和Python語(yǔ)言的集成插件,用戶可在SPSS中方便地進(jìn)行R和Python的編程,不僅有效提升了SPSS靈活處理數(shù)據(jù)的能力,也大大拓展了SPSS數(shù)據(jù)可視化和數(shù)據(jù)建模的功能不方便與一般的辦公軟件直接兼容SPSS使用基礎(chǔ)SPSS的基本窗口:數(shù)據(jù)編輯器窗口數(shù)據(jù)編輯窗口是對(duì)分析對(duì)象---SPSS數(shù)據(jù)文件進(jìn)行錄入、修改、管理等基本操作的窗口SPSS數(shù)據(jù)文件均以.sav作為文件擴(kuò)展名存儲(chǔ)在磁盤上數(shù)據(jù)視圖:顯示SPSS數(shù)據(jù)的內(nèi)容變量視圖:顯示SPSS數(shù)據(jù)的結(jié)構(gòu)組成:窗口主菜單、工具欄、數(shù)據(jù)編輯區(qū)、狀態(tài)區(qū)SPSS使用基礎(chǔ)SPSS的基本窗口:查看器窗口數(shù)據(jù)查看器窗口是顯示和管理SPSS統(tǒng)計(jì)分析結(jié)果、報(bào)表及圖形的窗口SPSS統(tǒng)計(jì)分析結(jié)果以.spv作為文件擴(kuò)展名存儲(chǔ)在磁盤上兩個(gè)部分:目錄和內(nèi)容組成:窗口主菜單、工具欄、結(jié)果顯示區(qū)、狀態(tài)區(qū)SPSS的基本運(yùn)行方式完全窗口菜單方式所有分析操作過(guò)程都是通過(guò)菜單和按鈕及對(duì)話框方式進(jìn)行的是經(jīng)常使用的一種運(yùn)行方式,適用于一般分析和SPSS的初學(xué)者SPSS的基本運(yùn)行方式完全窗口菜單方式將待分析的變量從左邊的列表框選擇到右邊的列表框中變量是統(tǒng)計(jì)學(xué)中的基本概念。它指代的是現(xiàn)象的某種特征,如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級(jí)等都可以看做變量。變量的具體取值稱為變量值,即數(shù)據(jù)。變量一般以列的形式展現(xiàn),是數(shù)據(jù)分析的基本單元。SPSS的基本運(yùn)行方式程序運(yùn)行方式:手工編寫SPSS命令程序一次性提交計(jì)算機(jī)運(yùn)行適用于大規(guī)模的分析工作和熟練的SPSS程序員實(shí)現(xiàn)方法:打開語(yǔ)法窗口并編寫和修改SPSS程序點(diǎn)擊語(yǔ)法窗口中的運(yùn)行菜單項(xiàng),選擇運(yùn)行方式運(yùn)行SPSS的基本運(yùn)行方式混合運(yùn)行方式:先通過(guò)菜單選擇分析過(guò)程和參數(shù),不立即提交(確定)執(zhí)行,而是按粘貼按鈕計(jì)算機(jī)自動(dòng)將用戶剛定義的分析過(guò)程和參數(shù)轉(zhuǎn)換成SPSS的命令,并顯示到語(yǔ)法窗口中用戶可對(duì)其進(jìn)行必要的修改后再提交給計(jì)算機(jī)執(zhí)行一般適用于熟練的SPSS程序員利用SPSS進(jìn)行數(shù)據(jù)分析的基本步驟數(shù)據(jù)分析的一般步驟明確數(shù)據(jù)分析目標(biāo)正確收集數(shù)據(jù)加工和整理數(shù)據(jù)選擇恰當(dāng)?shù)慕y(tǒng)計(jì)分析方法進(jìn)行探索分析讀懂統(tǒng)計(jì)分析結(jié)果利用SPSS進(jìn)行數(shù)據(jù)分析的一般步驟SPSS數(shù)據(jù)的準(zhǔn)備SPSS數(shù)據(jù)的加工SPSS數(shù)據(jù)的分析SPSS分析結(jié)果的閱讀和解釋第2章SPSS數(shù)據(jù)文件的建立和管理SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)的結(jié)構(gòu)和定義方法SPSS數(shù)據(jù)的錄入與編輯讀取其他格式的數(shù)據(jù)文件SPSS數(shù)據(jù)文件合并SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件擴(kuò)展名是.sav建立SPSS數(shù)據(jù)文件的兩項(xiàng)任務(wù)描述SPSS數(shù)據(jù)的結(jié)構(gòu)錄入編輯SPSS的數(shù)據(jù)內(nèi)容這兩部分工作分別在SPSS數(shù)據(jù)編輯器窗口的變量視圖和數(shù)據(jù)視圖中完成SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)的基本組織方式原始數(shù)據(jù)的組織方式數(shù)據(jù)編輯器窗口中的一行稱為一個(gè)個(gè)案(case)或觀測(cè),所有個(gè)案組成完整的SPSS數(shù)據(jù)數(shù)據(jù)編輯器窗口中的一列稱為一個(gè)變量。每個(gè)變量都有一個(gè)名字,稱為變量名,是訪問和分析SPSS變量的唯一標(biāo)識(shí)示例:當(dāng)代大學(xué)生的職業(yè)生涯規(guī)劃現(xiàn)狀和愿望的問卷調(diào)查SPSS數(shù)據(jù)文件SPSS數(shù)據(jù)的基本組織方式計(jì)數(shù)數(shù)據(jù)的組織方式:數(shù)據(jù)編輯器窗口中的一行為變量的一個(gè)分組(或多變量交叉分組下的一個(gè)分組)。所有行囊括了該變量的所有分組情況(或多變量交叉下的所有分組情況)。數(shù)據(jù)編輯器窗口中的一列仍為一個(gè)變量,代表某個(gè)問題(或某個(gè)方面的特征)以及相應(yīng)的計(jì)數(shù)結(jié)果示例:SPSS數(shù)據(jù)的結(jié)構(gòu)和定義方法SPSS數(shù)據(jù)的結(jié)構(gòu)是對(duì)SPSS每列變量及其相關(guān)屬性的描述在數(shù)據(jù)編輯器窗口的變量視圖中進(jìn)行定義示例:變量名變量類型、列寬、小數(shù)位變量名標(biāo)簽變量值標(biāo)簽缺失值計(jì)量尺度變量角色SPSS數(shù)據(jù)的結(jié)構(gòu)和定義方法SPSS數(shù)據(jù)的結(jié)構(gòu)是對(duì)SPSS每列變量及其相關(guān)屬性的描述強(qiáng)調(diào)1:缺失數(shù)據(jù)數(shù)據(jù)中明顯錯(cuò)誤或明顯不合理的數(shù)據(jù)以及漏填的數(shù)據(jù)都可看做缺失數(shù)據(jù)用戶缺失示例SPSS數(shù)據(jù)的結(jié)構(gòu)和定義方法SPSS數(shù)據(jù)的結(jié)構(gòu)是對(duì)SPSS每列變量及其相關(guān)屬性的描述強(qiáng)調(diào)2:計(jì)量尺度,統(tǒng)計(jì)學(xué)依據(jù)變量的計(jì)量尺度將變量分為三大類數(shù)值型變量:指諸如身高、體重、血壓等連續(xù)數(shù)值型變量定序型變量:具有內(nèi)在固有大小或高低順序,但它又不同于數(shù)值型變量,一般可以用數(shù)值或字符表示定類型變量:是指沒有內(nèi)在固有大小或高低順序,一般以數(shù)值或字符表示的各個(gè)類別SPSS數(shù)據(jù)的錄入與編輯SPSS數(shù)據(jù)的錄入帶變量值標(biāo)簽的數(shù)據(jù)錄入SPSS數(shù)據(jù)的編輯SPSS數(shù)據(jù)的定位插入和刪除一個(gè)個(gè)案插入和刪除一個(gè)變量數(shù)據(jù)的移動(dòng)復(fù)制和刪除SPSS數(shù)據(jù)的保存SPSS支持的數(shù)據(jù)格式SPSS格式EXCEL格式文本格式讀取其他格式的數(shù)據(jù)文件直接讀取其他格式的數(shù)據(jù)文件使用向?qū)?dǎo)入其他格式的數(shù)據(jù)示例SPSS數(shù)據(jù)文件的合并SPSS中合并數(shù)據(jù)文件:是指將一個(gè)(或多個(gè))已存儲(chǔ)在磁盤上的SPSS數(shù)據(jù)文件或其他數(shù)據(jù)集中的數(shù)據(jù)文件分別依次與SPSS當(dāng)前數(shù)據(jù)編輯器窗口中的數(shù)據(jù)合并SPSS提供了兩種合并數(shù)據(jù)文件的方式縱向合并橫向合并SPSS數(shù)據(jù)文件的合并縱向合并:是將當(dāng)前數(shù)據(jù)編輯器窗口中的數(shù)據(jù)與另一個(gè)SPSS數(shù)據(jù)文件中的數(shù)據(jù)進(jìn)行首尾對(duì)接,即將一個(gè)SPSS數(shù)據(jù)文件的內(nèi)容追加到當(dāng)前數(shù)據(jù)編輯器窗口中數(shù)據(jù)的后面,依據(jù)兩份數(shù)據(jù)文件中的變量名進(jìn)行數(shù)據(jù)對(duì)接示例和操作職工和追加職工數(shù)據(jù)的合并SPSS數(shù)據(jù)文件的合并橫向合并:將數(shù)據(jù)編輯器窗口中的數(shù)據(jù)與另一個(gè)SPSS數(shù)據(jù)文件中的數(shù)據(jù)進(jìn)行左右對(duì)接,即將一個(gè)SPSS數(shù)據(jù)文件的內(nèi)容拼到數(shù)據(jù)編輯器窗口中當(dāng)前數(shù)據(jù)的右邊,依據(jù)兩個(gè)數(shù)據(jù)文件中的個(gè)案進(jìn)行數(shù)據(jù)對(duì)接示例和操作職工數(shù)據(jù)和獎(jiǎng)金數(shù)據(jù)的橫向合并第3章SPSS數(shù)據(jù)的預(yù)處理數(shù)據(jù)的排序查找重復(fù)個(gè)案變量計(jì)算數(shù)據(jù)選取計(jì)數(shù)分類匯總其他數(shù)據(jù)的排序數(shù)據(jù)排序的作用便于數(shù)據(jù)的瀏覽快捷地找到數(shù)據(jù)的最大值和最小值,進(jìn)而可以計(jì)算出數(shù)據(jù)的全距,初步把握和比較數(shù)據(jù)的離散程度發(fā)現(xiàn)數(shù)據(jù)中可能異常的值,為進(jìn)一步明確它們是否對(duì)分析產(chǎn)生重要影響等提供幫助SPSS的數(shù)據(jù)排序?qū)?shù)據(jù)編輯器窗口中的數(shù)據(jù)按照某個(gè)或多個(gè)指定變量的變量值升序或降序重新排列。這里的變量也稱為排序變量。排序變量只有一個(gè)時(shí),稱為單變量排序。排序變量有多個(gè)時(shí),稱為多重排序。多重排序中,第一個(gè)指定的排序變量稱為主排序變量,其他依次指定的變量分別稱為第二排序變量、第三排序變量等數(shù)據(jù)的排序示例與操作大學(xué)生職業(yè)生涯規(guī)劃問卷調(diào)查數(shù)據(jù),按專業(yè)分類和畢業(yè)后意向進(jìn)行多重排序查找重復(fù)個(gè)案查找重復(fù)個(gè)案的方法:排序示例和操作對(duì)2.6.1節(jié)數(shù)據(jù)縱向合并后的數(shù)據(jù),找到其中的重復(fù)個(gè)案變量計(jì)算變量計(jì)算的目的派生新變量變換數(shù)據(jù)的原有分布SPSS變量計(jì)算是在原有數(shù)據(jù)的基礎(chǔ)上,根據(jù)用戶給出的SPSS算術(shù)表達(dá)式以及函數(shù),對(duì)所有個(gè)案或滿足條件的部分個(gè)案,計(jì)算產(chǎn)生變量變量計(jì)算過(guò)程中涉及幾個(gè)概念SPSS算術(shù)表達(dá)式SPSS條件表達(dá)式SPSS函數(shù)變量計(jì)算SPSS算術(shù)表達(dá)式:是由常量、變量、算術(shù)運(yùn)算符、圓括號(hào)、函數(shù)等組成的式子變量是指那些已存在于數(shù)據(jù)編輯器窗口中的已有變量算術(shù)運(yùn)算符主要包括:+(加)、-(減)、?(乘)、/(除)、??(乘方)操作對(duì)象的數(shù)據(jù)類型為數(shù)值型運(yùn)算的先后次序是:先計(jì)算乘方,再計(jì)算乘除,最后計(jì)算加減。在同級(jí)運(yùn)算中,按從左往右的順序進(jìn)行計(jì)算。通過(guò)圓括號(hào)改變?cè)械挠?jì)算順序在同一算術(shù)表達(dá)式中的常量及變量,數(shù)據(jù)類型應(yīng)該一致,否則無(wú)法計(jì)算變量計(jì)算SPSS條件表達(dá)式簡(jiǎn)單條件表達(dá)式:由關(guān)系運(yùn)算符、常量、變量以及算術(shù)表達(dá)式等組成的式子。其中,關(guān)系運(yùn)算符包括>(大于)、=(大于等于)、<=(小于等于)復(fù)合條件表達(dá)式:又稱邏輯表達(dá)式,是由邏輯運(yùn)算符、圓括號(hào)和簡(jiǎn)單條件表達(dá)式等組成的式子。其中,邏輯運(yùn)算符包括&或AND(并且)、|或OR(或者)、~或NOT(非)。NOT的運(yùn)算最優(yōu)先,其次是AND,最后是OR??梢酝ㄟ^(guò)圓括號(hào)改變這種運(yùn)算次序變量計(jì)算SPSS函數(shù)函數(shù)是事先編好并存儲(chǔ)在SPSS軟件中,能夠?qū)崿F(xiàn)某些特定計(jì)算任務(wù)的一段計(jì)算機(jī)程序。這些程序段都有各自的名字,稱為函數(shù)名,執(zhí)行這些程序段得到的計(jì)算結(jié)果稱為函數(shù)值用戶在使用這些函數(shù)時(shí),只需通過(guò)書寫相應(yīng)的函數(shù)名,并給出必要的計(jì)算參數(shù),SPSS便會(huì)自動(dòng)計(jì)算函數(shù)值幾類SPSS函數(shù)算術(shù)函數(shù)、統(tǒng)計(jì)函數(shù)、與分布相關(guān)的函數(shù)查找函數(shù)、字符串函數(shù)日期函數(shù)、缺失值函數(shù)、其他函數(shù)變量計(jì)算示例與操作數(shù)據(jù)選取數(shù)據(jù)選?。菏歉鶕?jù)分析的需要,從已收集到的大批量數(shù)據(jù)(總體)中按照一定的規(guī)則抽取部分?jǐn)?shù)據(jù)(樣本)參與分析數(shù)據(jù)選取方法按指定條件選取隨機(jī)選取隨機(jī)數(shù)的生成選取某一區(qū)域內(nèi)的樣本通過(guò)篩選器變量選取數(shù)據(jù)選取示例與操作數(shù)據(jù)計(jì)數(shù)數(shù)據(jù)計(jì)數(shù)SPSS實(shí)現(xiàn)的計(jì)數(shù)是對(duì)所有個(gè)案或滿足某條件的部分個(gè)案,計(jì)算若干個(gè)變量中有幾個(gè)變量的值落在指定的區(qū)間內(nèi),并將計(jì)數(shù)結(jié)果存入一個(gè)新變量的過(guò)程步驟:指定哪些變量參與計(jì)數(shù),計(jì)數(shù)的結(jié)果存入哪個(gè)新變量中指定計(jì)數(shù)區(qū)間區(qū)間:?jiǎn)蝹€(gè)變量值;系統(tǒng)缺失值;系統(tǒng)或用戶缺失值;給定最大值和最小值的區(qū)間;小于等于某指定值的區(qū)間;大于等于某指定值的區(qū)間數(shù)據(jù)計(jì)數(shù)示例與操作分類匯總分類匯總:按照某分類變量進(jìn)行分類計(jì)算SPSS實(shí)現(xiàn)分類匯總涉及按照哪個(gè)變量進(jìn)行分類對(duì)哪個(gè)變量進(jìn)行匯總,并指定對(duì)匯總變量計(jì)算哪些統(tǒng)計(jì)量(如平均工資、平均消費(fèi)金額和標(biāo)準(zhǔn)差)分類匯總示例與操作數(shù)據(jù)分組數(shù)據(jù)分組:對(duì)數(shù)值型數(shù)據(jù)進(jìn)行整理和粗略把握數(shù)據(jù)分布的重要工具組距分組:將全部變量值依次劃分為若干個(gè)區(qū)間,并將同一區(qū)間的變量值作為一組組距分組中的兩個(gè)關(guān)鍵問題分組數(shù)目的確定組距的確定數(shù)據(jù)分組示例與操作數(shù)據(jù)預(yù)處理的其他數(shù)據(jù)加權(quán)和數(shù)據(jù)拆分示例和操作第4章SPSS基本統(tǒng)計(jì)分析頻數(shù)分析計(jì)算基本描述統(tǒng)計(jì)量交叉分組下的頻數(shù)分析多選項(xiàng)分析比率分析頻數(shù)分析通過(guò)頻數(shù)分析了解變量取值的狀況頻數(shù)分析的基本任務(wù)編制頻數(shù)分布表SPSS中的頻數(shù)分布表包括:頻數(shù)、百分比、有效百分比、累計(jì)百分比繪制統(tǒng)計(jì)圖統(tǒng)計(jì)圖是一種最為直接的數(shù)據(jù)刻畫方式柱形圖、餅圖、直方圖頻數(shù)分析示例與操作擴(kuò)展功能、示例和操作:計(jì)算分位數(shù)分位數(shù)是變量在不同分位點(diǎn)上的取值分位點(diǎn)在0~100之間。一般使用較多的是四分位點(diǎn),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點(diǎn)依次是25%,50%,75%。于是,四分位數(shù)分別是25%,50%,75%分位點(diǎn)對(duì)應(yīng)的變量值,依次稱為下四分位數(shù)、中位數(shù)和上四分位數(shù)計(jì)算基本描述統(tǒng)計(jì)量常見的基本描述統(tǒng)計(jì)量大致刻畫集中趨勢(shì)的描述統(tǒng)計(jì)量刻畫離散程度的描述統(tǒng)計(jì)量刻畫分布形態(tài)的描述統(tǒng)計(jì)量以上三類統(tǒng)計(jì)量能夠極為準(zhǔn)確和清晰地刻畫數(shù)據(jù)的分布特點(diǎn)刻畫集中趨勢(shì)的描述統(tǒng)計(jì)量均值、中位數(shù)、眾數(shù)均值標(biāo)準(zhǔn)誤計(jì)算基本描述統(tǒng)計(jì)量刻畫離散程度的描述統(tǒng)計(jì)量樣本標(biāo)準(zhǔn)差:是對(duì)變量取值距均值的平均離散程度的估計(jì)樣本標(biāo)準(zhǔn)差值越大,說(shuō)明變量值之間的差異越大,距均值這個(gè)中心值的離散趨勢(shì)越明顯。樣本標(biāo)準(zhǔn)差是有計(jì)量單位的方差:樣本方差值越大,說(shuō)明變量值之間的差異越大。樣本方差沒有計(jì)量單位全距:是數(shù)據(jù)的最大值與最小值之間的絕對(duì)差計(jì)算基本描述統(tǒng)計(jì)量刻畫分布形態(tài)的描述統(tǒng)計(jì)量偏度系數(shù):是描述變量取值分布形態(tài)對(duì)稱性的統(tǒng)計(jì)量時(shí),偏度值等于0;分布是不對(duì)稱分布時(shí),偏度值大于0表示正偏或稱右偏,直方圖中有一條長(zhǎng)尾拖在右邊;偏度值小于0表示負(fù)偏或稱左偏,直方圖中有一條長(zhǎng)尾拖在左邊偏度絕對(duì)值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大計(jì)算基本描述統(tǒng)計(jì)量刻畫分布形態(tài)的描述統(tǒng)計(jì)量峰度系數(shù):描述變量取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量數(shù)據(jù)分布與標(biāo)準(zhǔn)正態(tài)分布的陡緩程度相同時(shí),峰度值等于0峰度值大于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭,稱為尖峰分布峰度值小于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更平緩,稱為平峰分布計(jì)算基本描述統(tǒng)計(jì)量示例與操作計(jì)算基本描述統(tǒng)計(jì)量示例與操作數(shù)據(jù)標(biāo)準(zhǔn)化處理后(標(biāo)準(zhǔn)化值或z分?jǐn)?shù))更利于對(duì)異常值的判斷假設(shè)認(rèn)知得分的總體分布為正態(tài)分布,根據(jù)統(tǒng)計(jì)學(xué)中經(jīng)典的3σ準(zhǔn)則,異常值通常為3個(gè)標(biāo)準(zhǔn)差之外的變量值z(mì)分?jǐn)?shù)的絕對(duì)值大于3,則為異常值交叉分組下的頻數(shù)分析交叉分組下的頻數(shù)分析的目的和基本任務(wù)根據(jù)收集到的樣本數(shù)據(jù)編制交叉列聯(lián)表在交叉列聯(lián)表的基礎(chǔ)上,對(duì)兩變量間是否存在一定的相關(guān)性進(jìn)行分析交叉列聯(lián)表的主要內(nèi)容行變量列變量邊緣分布條件分布交叉分組下的頻數(shù)分析交叉列聯(lián)表行列變量間關(guān)系的分析兩個(gè)特例的列聯(lián)表正相關(guān)負(fù)相關(guān)交叉分組下的頻數(shù)分析交叉列聯(lián)表的卡方檢第一步,提出原假設(shè)行變量與列變量獨(dú)立第二步,計(jì)算檢驗(yàn)統(tǒng)計(jì)量期望頻數(shù)的計(jì)算方法交叉分組下的頻數(shù)分析交叉列聯(lián)表的卡方檢第三步,確定顯著性水平和臨界值顯著性水平α是指原假設(shè)為真卻將其拒絕的風(fēng)險(xiǎn),即棄真的概率。通常設(shè)為0.05或0.01第四步,得出結(jié)論和決策第一,根據(jù)統(tǒng)計(jì)量觀測(cè)值和臨界值比較的結(jié)果進(jìn)行決策第二,根據(jù)統(tǒng)計(jì)量觀測(cè)值的概率P-值和顯著性水平α比較的結(jié)果進(jìn)行決策交叉列聯(lián)表卡方檢驗(yàn)的說(shuō)明列聯(lián)表各單元格中期望頻數(shù)的大小對(duì)卡方檢驗(yàn)統(tǒng)計(jì)量的影響樣本量的大小對(duì)卡方檢驗(yàn)統(tǒng)計(jì)量的影響交叉分組下的頻數(shù)分析示例與操作多選項(xiàng)分析多選項(xiàng)分析的目的和思路SPSS中的多選項(xiàng)分析是針對(duì)問卷調(diào)查中的多選項(xiàng)問題的多選項(xiàng)問題:要求被調(diào)查者從問卷給出的若干個(gè)可選答案中選擇兩個(gè)及以上的答案多選項(xiàng)問題的回答方式大致分為兩類第一類,選擇的答案有一定的先后順序第二類,選擇的答案沒有一定的先后順序?qū)Χ噙x項(xiàng)問題分析的一般步驟第一,將多選項(xiàng)問題分解第二,利用頻數(shù)分析或交叉分組下的頻數(shù)分析等方法進(jìn)行分析多選項(xiàng)分析多選項(xiàng)問題的分解將問卷中的一個(gè)多選項(xiàng)問題分解成若干個(gè)問題,對(duì)應(yīng)設(shè)置若干個(gè)SPSS變量,分別存放描述這些問題的幾個(gè)選擇答案對(duì)一個(gè)多選項(xiàng)問題的分析就可以轉(zhuǎn)化成對(duì)多個(gè)問題的分析,也即對(duì)多個(gè)SPSS變量的分析多選項(xiàng)問題的分解通常有兩種方法:第一,多選項(xiàng)二分法將多選項(xiàng)問題中的每個(gè)備選答案設(shè)為一個(gè)SPSS變量,每個(gè)變量只有0和1兩個(gè)取值,分別表示選擇該答案和不選擇該答案第二,多選項(xiàng)分類法首先估計(jì)多選項(xiàng)問題最多可能出現(xiàn)的答案?jìng)€(gè)數(shù);然后,為每個(gè)答案設(shè)置一個(gè)SPSS變量,變量取值為多選項(xiàng)問題中的備選答案多選項(xiàng)分析多選項(xiàng)問題的分解示例示例多選項(xiàng)分析SPSS的多選項(xiàng)分析:用于處理多選項(xiàng)問題,基本思路:第一,按多選項(xiàng)二分法或多選項(xiàng)分類法將多選項(xiàng)問題分解成若干個(gè)問題,并設(shè)置若干個(gè)SPSS變量第二,采用多選項(xiàng)頻數(shù)分析或多選項(xiàng)交叉分組下的頻數(shù)分析示例和操作多選項(xiàng)分析示例和操作比率分析比率分析的目的和主要指標(biāo)比率分析用于對(duì)兩變量間變量值比率變化的描述分析,適用于數(shù)值型變量主要指標(biāo)加權(quán)比率均值平局絕對(duì)離差離散系數(shù)變異系數(shù)比率分析示例與操作第5章SPSS的參數(shù)檢驗(yàn)參數(shù)檢驗(yàn)概述單樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)兩配對(duì)樣本t檢驗(yàn)參數(shù)檢驗(yàn)概述推斷統(tǒng)計(jì)與參數(shù)檢驗(yàn)參數(shù)檢驗(yàn)是推斷統(tǒng)計(jì)的重要組成部分推斷統(tǒng)計(jì)方法是根據(jù)樣本數(shù)據(jù)推斷總體特征的方法它在對(duì)樣本數(shù)據(jù)描述的基礎(chǔ)上,以概率的形式對(duì)統(tǒng)計(jì)總體的未知數(shù)量特征(如均值、方差等)進(jìn)行表述利用樣本數(shù)據(jù)對(duì)總體特征的推斷通常在以下兩種情況下進(jìn)行第一,總體分布已知(如總體為正態(tài)分布)的情況下,根據(jù)樣本數(shù)據(jù)對(duì)總體分布的統(tǒng)計(jì)參數(shù)(如均值、方差等)進(jìn)行推斷--參數(shù)檢驗(yàn)第二,總體分布未知的情況下,根據(jù)樣本數(shù)據(jù)對(duì)總體的分布形式或特征進(jìn)行推斷—非參數(shù)檢驗(yàn)對(duì)總體特征的推斷一般采用參數(shù)估計(jì)(點(diǎn)估計(jì)和區(qū)間估計(jì))和假設(shè)檢驗(yàn)兩類方式實(shí)現(xiàn)參數(shù)檢驗(yàn)概述假設(shè)檢驗(yàn)的基本思想首先,對(duì)總體參數(shù)值提出假設(shè)然后,利用樣本告知的信息去驗(yàn)證先前提出的假設(shè)是否成立如果樣本數(shù)據(jù)不能夠充分證明和支持假設(shè),則在一定的概率條件下,應(yīng)拒絕該假設(shè)如果樣本數(shù)據(jù)不能夠充分證明和支持假設(shè)是不成立的,則不能推翻假設(shè)成立的合理性和真實(shí)性假設(shè)檢驗(yàn)推斷過(guò)程所依據(jù)的原理:小概率原理即發(fā)生概率很小的隨機(jī)事件在某一次特定的實(shí)驗(yàn)中是幾乎不可能發(fā)生的參數(shù)檢驗(yàn)概述假設(shè)檢驗(yàn)的基本步驟第一,提出原假設(shè)(記為H0)和備擇假設(shè)(記為H1)根據(jù)推斷檢驗(yàn)的目標(biāo),對(duì)待推斷的總體參數(shù)或分布提出一個(gè)基本假設(shè),即原假設(shè)第二,選擇檢驗(yàn)統(tǒng)計(jì)量在原假設(shè)成立的條件下,樣本值(或更極端值)發(fā)生的概率,是通過(guò)計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值發(fā)生的概率而間接得到第三,計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值發(fā)生的概率在認(rèn)為原假設(shè)成立的條件下,利用樣本數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值發(fā)生的概率,即概率P-值或稱為相伴,該概率值間接地給出了樣本值(或更極端值)在原假設(shè)成立條件下發(fā)生的概率第四,給定顯著性水平α,并作出統(tǒng)計(jì)決策若概率P-值小于α,拒絕原假設(shè);否則,不能拒絕原假設(shè)單樣本t檢驗(yàn)單樣本t檢驗(yàn)的目的:利用來(lái)自某總體的樣本數(shù)據(jù),推斷該總體的均值是否與指定的檢驗(yàn)值存在顯著差異,是對(duì)總體均值的假設(shè)檢驗(yàn)單樣本t檢驗(yàn)中僅涉及一個(gè)總體,且將采用t檢驗(yàn)的方法進(jìn)行分析單樣本t檢驗(yàn)的前提是樣本來(lái)自的總體應(yīng)服從或近似服從正態(tài)分布示例單樣本t檢驗(yàn)單樣本t檢驗(yàn)的基本步驟提出原假設(shè)(H0):總體均值與檢驗(yàn)值之間不存在顯著差異,備擇假設(shè)為它們之間存在差異選擇檢驗(yàn)統(tǒng)計(jì)量計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P-值給定顯著性水平α,并作出決策t統(tǒng)計(jì)量服從有n-1個(gè)自由度的t分布單樣本t檢驗(yàn)示例與操作原假設(shè):兩獨(dú)立樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)的目的:利用來(lái)自兩個(gè)總體的獨(dú)立樣本,推斷兩個(gè)總體的均值是否存在顯著差異兩獨(dú)立樣本t檢驗(yàn)的前提:樣本來(lái)自的總體應(yīng)服從或近似服從正態(tài)分布兩樣本相互獨(dú)立,即從一總體中抽取一個(gè)樣本對(duì)從另一總體中抽取一個(gè)樣本沒有任何影響,兩個(gè)樣本的樣本量可以不等示例兩獨(dú)立樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)的基本步驟提出原假設(shè)(H0):兩總體均值無(wú)顯著差異選擇檢驗(yàn)統(tǒng)計(jì)量?jī)煽傮w分布分別為:兩樣本均值差的抽樣分布仍為正態(tài)分布,均值為:方差為:方差估計(jì):方差未知且相等;方差未知且不相等兩獨(dú)立樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)的基本步驟選擇檢驗(yàn)統(tǒng)計(jì)量?jī)煽傮w方差是否相等是決定如何估計(jì)抽樣分布方差的關(guān)鍵兩總體方差是否相等的檢驗(yàn):原假設(shè):兩總體方差無(wú)顯著差異SPSS中通過(guò)LeveneF方法采用F統(tǒng)計(jì)量進(jìn)行檢驗(yàn)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P-值兩獨(dú)立樣本t檢驗(yàn)兩獨(dú)立樣本t檢驗(yàn)的基本步驟給定顯著性水平α,并作出決策:兩步?jīng)Q策第一步,利用F檢驗(yàn)判斷兩總體的方差是否相等第二步,利用t檢驗(yàn)判斷兩總體均值是否存在顯著差異兩獨(dú)立樣本t檢驗(yàn)示例與操作研究男生與女生的專業(yè)和職業(yè)認(rèn)知得分的平均值是否存在顯著差異研究長(zhǎng)期吸煙是否為導(dǎo)致膽固醇升高的直接原因?qū)⑦^(guò)度吸煙組與短期吸煙組的煙齡和膽固醇數(shù)據(jù),看做來(lái)自兩個(gè)近似服從正態(tài)分布的總體的隨機(jī)獨(dú)立樣本。采用兩獨(dú)立樣本t檢驗(yàn)進(jìn)行分析兩配對(duì)樣本t檢驗(yàn)兩配對(duì)樣本t檢驗(yàn)的目的:利用來(lái)自兩個(gè)總體的配對(duì)樣本,推斷兩個(gè)總體的均值是否存在顯著差異配對(duì)樣本可以是個(gè)案在“前”、后”兩種狀態(tài)下某屬性的兩種不同特征,也可以是對(duì)某事物兩個(gè)不同側(cè)面的描述配對(duì)樣本通常具有兩個(gè)特征兩個(gè)樣本的樣本量相同兩個(gè)樣本觀測(cè)值的先后順序是一一對(duì)應(yīng)的,不能隨意更改示例:研究減肥茶是否有顯著的減肥效果兩配對(duì)樣本t檢驗(yàn)兩配對(duì)樣本t檢驗(yàn)的基本步驟兩配對(duì)樣本t檢驗(yàn)的原假設(shè):兩總體均值無(wú)顯著差異選擇檢驗(yàn)統(tǒng)計(jì)量,思路:首先,對(duì)兩個(gè)樣本分別計(jì)算出每對(duì)觀測(cè)值的差值得到差值樣本然后,利用差值樣本,通過(guò)對(duì)其總體均值是否與0有顯著差異的檢驗(yàn),推斷兩總體均值的差是否顯著為0如果差值樣本的總體均值與0有顯著差異,則可以認(rèn)為兩總體的均值有顯著差異如果差值樣本的總體均值與0無(wú)顯著差異,則可以認(rèn)為兩總體的均值不存在顯著差異兩配對(duì)樣本t檢驗(yàn)兩配對(duì)樣本t檢驗(yàn)的基本步驟計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P-值給定顯著性水平α,并作出決策示例與操作第6章SPSS的方差分析方差分析概述單因素方差分析多因素方差分析協(xié)方差分析方差分析概述方差分析:從觀測(cè)變量的方差入手,研究諸多控制變量中哪些變量是對(duì)觀測(cè)變量有顯著影響的變量,對(duì)觀測(cè)變量有顯著影響的各個(gè)控制變量其不同水平以及各水平的交互搭配是如何影響觀測(cè)變量方差分析認(rèn)為觀測(cè)變量值的變化受兩類因素的影響控制因素(控制變量)不同水平所產(chǎn)生的影響隨機(jī)因素(隨機(jī)變量)所產(chǎn)生的影響若觀測(cè)變量值在某控制變量的各個(gè)水平中出現(xiàn)了明顯波動(dòng),則認(rèn)為該控制變量是影響觀測(cè)變量的主要因素若觀測(cè)變量值在某控制變量的各個(gè)水平中沒有出現(xiàn)明顯波動(dòng),則認(rèn)為該控制變量沒有對(duì)觀測(cè)變量產(chǎn)生重要影響,觀測(cè)變量的數(shù)據(jù)波動(dòng)是由抽樣誤差造成的方差分析概述判斷依據(jù):控制變量各水平下的觀測(cè)變量總體的分布是否出現(xiàn)顯著差異兩個(gè)基本假設(shè)前提:觀測(cè)變量各總體應(yīng)服從正態(tài)分布觀測(cè)變量各總體的方差應(yīng)相同基于上述兩個(gè)基本假設(shè),方差分析對(duì)各總體分布是否有顯著差異的推斷就轉(zhuǎn)化成對(duì)各總體均值是否存在顯著差異的推斷根據(jù)控制變量個(gè)數(shù)和類型,方差分析分成單因素方差分析多因素方差分析協(xié)方差分析單因素方差分析單因素方差分析:研究一個(gè)控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響觀測(cè)變量方差的分解比較觀測(cè)變量總離差平方和各部分的比例若組間離差平方和所占比例較大,則說(shuō)明觀測(cè)變量的變動(dòng)主要是由控制變量引起的若組間離差平方和所占比例較小,則說(shuō)明控制變量的不同水平?jīng)]有給觀測(cè)變量帶來(lái)顯著影響,觀測(cè)變量的變動(dòng)是由隨機(jī)變量因素引起的單因素方差分析單因素方差分析的數(shù)學(xué)模型如果控制變量A對(duì)觀測(cè)變量沒有影響,則各水平的效應(yīng)ai應(yīng)全部為0;否則應(yīng)不全為0稱為水平Ai對(duì)觀測(cè)變量產(chǎn)生的效應(yīng)單因素方差分析單因素方差分析的基本步驟提出原假設(shè):選擇檢驗(yàn)統(tǒng)計(jì)量:F統(tǒng)計(jì)量服從(k-1,n-k)個(gè)自由度的F分布計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P-值給定顯著性水平α,并作出決策若概率P-值小于顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為控制變量不同水平下觀測(cè)變量各總體的均值存在顯著差異,控制變量的各個(gè)效應(yīng)不同時(shí)為0,控制變量的不同水平對(duì)觀測(cè)變量均值產(chǎn)生了顯著影響反之,不應(yīng)拒絕原假設(shè)單因素方差分析示例與操作單因素方差分析單因素方差分析的進(jìn)一步分析方差齊性檢驗(yàn):對(duì)控制變量不同水平下各觀測(cè)變量總體方差是否相等進(jìn)行分析多重比較檢驗(yàn):利用全部觀測(cè)變量值,對(duì)各個(gè)水平下觀測(cè)變量總體均值進(jìn)行逐對(duì)比較LSD方法:最小顯著性差異方法檢驗(yàn)統(tǒng)計(jì)量其他檢驗(yàn):先驗(yàn)對(duì)比檢驗(yàn)、趨勢(shì)檢驗(yàn)統(tǒng)計(jì)量服從n-k個(gè)自由度的t分布單因素方差分析示例與操作多因素方差分析多因素方差分析:研究?jī)蓚€(gè)及兩個(gè)以上控制變量是否對(duì)觀測(cè)變量產(chǎn)生顯著影響不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)控制因素的交互作用能否對(duì)觀測(cè)變量的分布產(chǎn)生顯著影響觀測(cè)變量方差的分解多因素方差分析比較觀測(cè)變量總離差平方和各部分的比例若SSA所占比例較大,則說(shuō)明控制變量A是引起觀測(cè)變量變動(dòng)的主要因素之一,觀測(cè)變量的變動(dòng)可以部分地由控制變量A來(lái)解釋;反之,不能對(duì)SSB和SSAB同理多因素方差分析的數(shù)學(xué)模型如果控制變量A(或B)對(duì)觀測(cè)變量沒有影響,則各水平的效應(yīng)ai(或bj)應(yīng)全部為0;否則不全為0多因素方差分析多因素方差分析的基本步驟提出原假設(shè):選擇檢驗(yàn)統(tǒng)計(jì)量:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P-值給定顯著性水平α,并作出決策如果FA的概率P-值小于顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為控制變量A的各個(gè)效應(yīng)不同時(shí)為0,控制變量A的不同水平對(duì)觀測(cè)變量產(chǎn)生了顯著影響;反之。其他同理。多因素方差分析示例與操作多因素方差分析多因素方差分析的進(jìn)一步分析多因素方差分析的非飽和模型SPSS多因素方差分析的其他功能均值對(duì)比控制變量交互作用的圖形分析多因素方差分析示例與操作協(xié)方差分析協(xié)方差分析:將那些人為很難做水平控制的控制因素作為協(xié)變量,并在剔除協(xié)變量對(duì)觀測(cè)變量影響的條件下,分析控制變量(可控)對(duì)觀測(cè)變量的作用,從而更加準(zhǔn)確地對(duì)水平可控因素進(jìn)行評(píng)價(jià)協(xié)方差分析的數(shù)學(xué)模型zij是水平Ai下的第j次試驗(yàn)的觀測(cè)值對(duì)應(yīng)的協(xié)變量值協(xié)方差分析示例與操作結(jié)果解讀第7章SPSS的非參數(shù)檢驗(yàn)單樣本的非參數(shù)檢驗(yàn)兩獨(dú)立樣本的非參數(shù)檢驗(yàn)多獨(dú)立樣本的非參數(shù)檢驗(yàn)兩配對(duì)樣本的非參數(shù)檢驗(yàn)多配對(duì)樣本的非參數(shù)檢驗(yàn)單樣本的非參數(shù)檢驗(yàn)單樣本非參數(shù)檢驗(yàn):對(duì)單個(gè)總體的分布類型等進(jìn)行推斷,主要包括:卡方檢驗(yàn)、二項(xiàng)分布檢驗(yàn)、K-S檢驗(yàn)、變量值隨機(jī)性檢驗(yàn)總體分布的卡方檢驗(yàn)基本思想:根據(jù)樣本數(shù)據(jù),推斷總體分布與期望分布或某一理論分布是否存在顯著差異,是一種吻合性檢驗(yàn)適用于對(duì)有多個(gè)分類值的總體分布的分析原假設(shè)H0:樣本來(lái)自的總體分布與期望分布或某一理論分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量:決策:若χ2的概率P-值小于顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為樣本來(lái)自的總體分布與期望分布或某一理論分布存在顯著差異;反之單樣本的非參數(shù)檢驗(yàn)示例與操作單樣本的非參數(shù)檢驗(yàn)二項(xiàng)分布檢驗(yàn)基本思想:通過(guò)樣本數(shù)據(jù)檢驗(yàn)樣本來(lái)自的總體是否服從指定概率為p的二項(xiàng)分布原假設(shè)H0:樣本來(lái)自的總體與指定的二項(xiàng)分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量小樣本下的精確統(tǒng)計(jì)量:大樣本下的近似統(tǒng)計(jì)量:決策:若概率值小于顯著性水平α,則拒絕原假設(shè),認(rèn)為樣本來(lái)自的總體與指定的二項(xiàng)分布有顯著差異;反之單樣本的非參數(shù)檢驗(yàn)示例與操作單樣本的非參數(shù)檢驗(yàn)單樣本K-S檢驗(yàn)基本思想:利用樣本數(shù)據(jù)推斷樣本來(lái)自的總體是否服從某一理論分布,是一種擬合優(yōu)度的檢驗(yàn)適用于探索連續(xù)型隨機(jī)變量的分布檢驗(yàn)統(tǒng)計(jì)量決策:若樣本的總體分布與理論分布的差異不明顯,則D不應(yīng)較大若D統(tǒng)計(jì)量的概率P-值小于顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為樣本來(lái)自的總體與指定的分布有顯著差異;反之單樣本的非參數(shù)檢驗(yàn)示例與操作單樣本的非參數(shù)檢驗(yàn)變量值隨機(jī)性檢驗(yàn)基本思想:通過(guò)對(duì)樣本觀測(cè)值的分析,實(shí)現(xiàn)對(duì)變量值的出現(xiàn)是不是隨機(jī)進(jìn)行檢驗(yàn)原假設(shè)H0:變量值的出現(xiàn)是隨機(jī)的檢驗(yàn)統(tǒng)計(jì)量:基于游程構(gòu)建游程是觀測(cè)值序列中連續(xù)出現(xiàn)相同數(shù)值的次數(shù)決策:如果概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為變量值的出現(xiàn)不是隨機(jī)的;反之。單樣本的非參數(shù)檢驗(yàn)示例與操作兩獨(dú)立樣本的非參數(shù)檢驗(yàn)兩獨(dú)立樣本的非參數(shù)檢驗(yàn):在對(duì)總體分布不甚了解的情況下,通過(guò)對(duì)兩個(gè)獨(dú)立樣本的分析推斷樣本來(lái)自的兩總體的分布是否存在顯著差異主要方法:曼惠特尼U檢驗(yàn)K-S檢驗(yàn)W-W游程檢驗(yàn)極端反應(yīng)檢驗(yàn)示例兩獨(dú)立樣本的非參數(shù)檢驗(yàn)兩獨(dú)立樣本的曼惠特尼U檢驗(yàn)基本思想:通過(guò)對(duì)兩個(gè)樣本平均秩的研究來(lái)進(jìn)行推斷秩,簡(jiǎn)單說(shuō)就是變量值排序的名次原假設(shè)H0:兩獨(dú)立樣本來(lái)自的兩總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量:決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設(shè),認(rèn)為樣本來(lái)自的兩總體的分布存在顯著差異;反之。兩獨(dú)立樣本的非參數(shù)檢驗(yàn)兩獨(dú)立樣本的K-S檢驗(yàn)原假設(shè)H0:兩獨(dú)立樣本來(lái)自的兩總體的分布無(wú)顯著差異計(jì)算步驟:首先,將兩樣本混合并按升序排序然后,分別計(jì)算兩樣本秩的累計(jì)頻數(shù)和累計(jì)頻率最后,計(jì)算兩組累計(jì)頻率差的絕對(duì)值,得到累計(jì)頻率絕對(duì)差序列并得到D統(tǒng)計(jì)量決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設(shè),認(rèn)為樣本來(lái)自的兩總體的分布存在顯著差異;反之。兩獨(dú)立樣本的非參數(shù)檢驗(yàn)兩獨(dú)立樣本的游程檢驗(yàn)原假設(shè)H0:兩獨(dú)立樣本來(lái)自的兩總體的分布無(wú)顯著差異計(jì)算依據(jù):游程,且游程數(shù)依賴于變量的秩計(jì)算步驟:首先,將兩樣本混合并按升序排序然后,對(duì)組標(biāo)記值序列計(jì)算游程數(shù)如果兩總體的分布存在較大差距,那么基于組標(biāo)記的游程數(shù)會(huì)相對(duì)比較少;反之最后,根據(jù)游程數(shù)計(jì)算Z統(tǒng)計(jì)量,該統(tǒng)計(jì)量近似服從正態(tài)分布決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設(shè),認(rèn)為樣本來(lái)自的兩總體的分布存在顯著差異;反之。兩獨(dú)立樣本的非參數(shù)檢驗(yàn)兩獨(dú)立樣本的極端反映檢驗(yàn)原假設(shè)H0:兩獨(dú)立樣本來(lái)自的兩總體的分布無(wú)顯著差異計(jì)算依據(jù):將一個(gè)樣本作為控制樣本,另一個(gè)樣本作為實(shí)驗(yàn)樣本計(jì)算步驟:首先,將兩個(gè)樣本混合按升序排序然后,求出控制樣本的最小秩Qmin和最大秩Qmax,并計(jì)算出跨度(Span):S=Qmax-Qmin+1最后,為消除樣本數(shù)據(jù)中極端值對(duì)分析結(jié)果的影響,在計(jì)算跨度之前可按比例(通常為5%)剔除控制樣本中2h個(gè)靠近兩端的觀測(cè)值,然后再求跨度,得到截頭跨度決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設(shè),認(rèn)為樣本來(lái)自的兩總體的分布存在顯著差異;反之。兩獨(dú)立樣本的非參數(shù)檢驗(yàn)示例與操作多獨(dú)立樣本的非參數(shù)檢驗(yàn)多獨(dú)立樣本的非參數(shù)檢驗(yàn):通過(guò)分析多組獨(dú)立樣本數(shù)據(jù),推斷樣本來(lái)自的多個(gè)總體的中位數(shù)或分布是否存在顯著差異SPSS提供的多獨(dú)立樣本的非參數(shù)檢驗(yàn)方法主要包括中位數(shù)檢驗(yàn)Kruskal-Wallis檢驗(yàn)Jonckheere-Terpstra檢驗(yàn)示例多獨(dú)立樣本的非參數(shù)檢驗(yàn)多獨(dú)立樣本的中位數(shù)檢驗(yàn)原假設(shè)H0:多個(gè)獨(dú)立樣本來(lái)自的多個(gè)總體的中位數(shù)無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量和計(jì)算步驟:首先,將多個(gè)樣本混合,按升序排序,并求出混合樣本的中位數(shù)然后,分別計(jì)算各樣本中大于和小于上述中位數(shù)的樣本量最后,利用卡方檢驗(yàn)方法分析各樣本來(lái)自的總體對(duì)于上述中位數(shù)的分布是否一致若多個(gè)總體的中位數(shù)無(wú)顯著差異,則這個(gè)共同的中位數(shù)應(yīng)在各樣本中均處在中間位置上。每個(gè)樣本中大于該中位數(shù)與小于該中位數(shù)的樣本量應(yīng)大致相同決策:如果概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為多個(gè)獨(dú)立樣本來(lái)自的多個(gè)總體的中位數(shù)存在顯著差異;反之多獨(dú)立樣本的非參數(shù)檢驗(yàn)多獨(dú)立樣本的Kruskal-Wallis檢驗(yàn)原假設(shè)H0:多獨(dú)立樣本來(lái)自的多個(gè)總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量和計(jì)算步驟:首先,將多個(gè)樣本數(shù)據(jù)混合并按升序排序,求出各變量值的秩然后,考察各組秩的均值是否存在顯著差異如果各組秩的均值不存在顯著差異,則是多組數(shù)據(jù)充分混合,數(shù)值相差不大的結(jié)果,可以認(rèn)為多個(gè)總體的分布無(wú)顯著差異;反之決策:如果概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為多個(gè)獨(dú)立樣本來(lái)自的多個(gè)總體的分布存在顯著差異;相反,多獨(dú)立樣本的非參數(shù)檢驗(yàn)多獨(dú)立樣本的Jonckheere-Terpstr檢驗(yàn)原假設(shè)H0:多獨(dú)立樣本來(lái)自的多個(gè)總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量:計(jì)算一個(gè)樣本的觀測(cè)值小于其他樣本的觀測(cè)值的個(gè)數(shù)決策:如果概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為多個(gè)獨(dú)立樣本來(lái)自的多個(gè)總體的分布存在顯著差異;相反,多獨(dú)立樣本的非參數(shù)檢驗(yàn)示例與操作兩配對(duì)樣本的非參數(shù)檢驗(yàn)兩配對(duì)樣本的非參數(shù)檢驗(yàn):在對(duì)總體分布不甚了解的情況下,通過(guò)對(duì)兩配對(duì)樣本的分析,推斷樣本來(lái)自的兩個(gè)總體的分布是否存在顯著差異SPSS兩配對(duì)樣本的非參數(shù)檢驗(yàn)方法,主要包括:McNemar檢驗(yàn)符號(hào)檢驗(yàn)Wilcoxon符號(hào)秩檢驗(yàn)兩配對(duì)樣本的非參數(shù)檢驗(yàn)兩配對(duì)樣本的McNemar檢驗(yàn)是一種變化顯著性檢驗(yàn),它將研究對(duì)象自身作為對(duì)照者檢驗(yàn)其“前后”的變化是否顯著原假設(shè)H0:兩配對(duì)樣本來(lái)自的兩總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量:McNemar檢驗(yàn)采用二項(xiàng)分布檢驗(yàn)的方法,計(jì)算分布是否服從概率p為0.5的二項(xiàng)分布決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為兩配對(duì)樣本所來(lái)自的兩總體的分布存在顯著差異兩配對(duì)樣本的非參數(shù)檢驗(yàn)示例與操作兩配對(duì)樣本的非參數(shù)檢驗(yàn)兩配對(duì)樣本的符號(hào)檢驗(yàn)原假設(shè)H0:兩配對(duì)樣本來(lái)自的兩總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量和計(jì)算步驟:采用二項(xiàng)分布檢驗(yàn)首先,分別用第二個(gè)樣本的各個(gè)觀測(cè)值減去第一個(gè)樣本對(duì)應(yīng)的觀測(cè)值,差值為正則記為正號(hào),差值為負(fù)則記為負(fù)號(hào)然后,將正號(hào)的個(gè)數(shù)與負(fù)號(hào)的個(gè)數(shù)進(jìn)行比較若正號(hào)個(gè)數(shù)和負(fù)號(hào)個(gè)數(shù)大致相當(dāng),則可以認(rèn)為第二個(gè)樣本大于第一個(gè)樣本觀測(cè)值的個(gè)數(shù),與第二個(gè)樣本小于第一個(gè)樣本觀測(cè)值的個(gè)數(shù)是大致相當(dāng)?shù)?從總體上講,這兩個(gè)配對(duì)樣本的總體分布差距較小;反之決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為兩配對(duì)樣本所來(lái)自的兩總體的分布存在顯著差異兩配對(duì)樣本的非參數(shù)檢驗(yàn)示例與操作操作步驟同兩配對(duì)樣本的McNemar檢驗(yàn),選擇【符號(hào)】選項(xiàng)兩配對(duì)樣本的非參數(shù)檢驗(yàn)兩配對(duì)樣本的Wilcoxon符號(hào)秩檢驗(yàn)原假設(shè)H0:兩配對(duì)樣本來(lái)自的兩總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量和計(jì)算步驟:基于秩首先,分別用第二個(gè)樣本的各個(gè)觀測(cè)值減去第一個(gè)樣本對(duì)應(yīng)的觀測(cè)值。差值為正記為正號(hào),為負(fù)則記為負(fù)號(hào),同時(shí)保存差值的絕對(duì)值然后,將差值的絕對(duì)值按升序排序,并求出差值的秩最后,分別計(jì)算正號(hào)秩和W+及負(fù)號(hào)秩和W-如果正號(hào)秩和與負(fù)號(hào)秩和大致相當(dāng),則說(shuō)明一個(gè)樣本大于另一個(gè)樣本和該樣本小于另一個(gè)樣本的幅度大致相當(dāng),兩樣本數(shù)據(jù)差的正負(fù)變化程度基本相當(dāng),兩配對(duì)樣本來(lái)自的兩總體的分布無(wú)顯著差異決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為兩配對(duì)樣本所來(lái)自的兩總體的分布存在顯著差異兩配對(duì)樣本的非參數(shù)檢驗(yàn)示例與操作操作步驟同兩配對(duì)樣本的McNemar檢驗(yàn),選擇威爾科克森(Wilcoxon)選項(xiàng)多配對(duì)樣本的非參數(shù)檢驗(yàn)多配對(duì)樣本的非參數(shù)檢驗(yàn):通過(guò)分析多個(gè)配對(duì)樣本數(shù)據(jù),推斷樣本來(lái)自的多個(gè)總體的中位數(shù)或分布是否存在顯著差異的方法SPSS中的多配對(duì)樣本的非參數(shù)檢驗(yàn)方法,主要包括:Friedman檢驗(yàn)CochranQ檢驗(yàn)Kendall協(xié)同系數(shù)檢驗(yàn)多配對(duì)樣本的非參數(shù)檢驗(yàn)多配對(duì)樣本的Friedman檢驗(yàn):利用秩實(shí)現(xiàn)對(duì)多個(gè)總體分布是否存在顯著差異進(jìn)行檢驗(yàn)原假設(shè)H0:多個(gè)配對(duì)樣本來(lái)自的多個(gè)總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量:采用類似方差分析的方法構(gòu)造檢驗(yàn)統(tǒng)計(jì)量無(wú)論觀察哪個(gè)區(qū)組,每一種處理下的數(shù)據(jù)在本區(qū)組內(nèi)的秩的所有可能取值為1~k(k種處理)中的任何一個(gè)值如果k種處理不存在差異,則每一種處理下的各區(qū)組的秩和Ri(i=1,2,…k)(或平均秩)應(yīng)等于其他任何一種下各區(qū)組的秩和Rj(或平均秩);反之決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為兩配對(duì)樣本所來(lái)自的兩總體的分布存在顯著差異多配對(duì)樣本的非參數(shù)檢驗(yàn)示例與操作多配對(duì)樣本的非參數(shù)檢驗(yàn)多配對(duì)樣本的
CochranQ檢驗(yàn):利用秩實(shí)現(xiàn)對(duì)多個(gè)總體分布是否存在顯著差異進(jìn)行檢驗(yàn)原假設(shè)H0:多個(gè)配對(duì)樣本來(lái)自的多個(gè)總體的分布無(wú)顯著差異檢驗(yàn)統(tǒng)計(jì)量:認(rèn)為每行中取1的個(gè)數(shù)是可確定的。在原假設(shè)成立的條件下,每列中出現(xiàn)1的概率是相等的,且這個(gè)概率值與各行中出現(xiàn)1的個(gè)數(shù)有關(guān)決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為兩配對(duì)樣本所來(lái)自的兩總體的分布存在顯著差異多配對(duì)樣本的非參數(shù)檢驗(yàn)示例與操作操作步驟同多配對(duì)樣本的Friedman檢驗(yàn),選擇柯克蘭Q(CochranQ)選項(xiàng)多配對(duì)樣本的非參數(shù)檢驗(yàn)多配對(duì)樣本的
Kendall協(xié)同系數(shù)檢驗(yàn):與Friedman檢驗(yàn)方法相結(jié)合,可方便地實(shí)現(xiàn)對(duì)評(píng)判者的評(píng)判標(biāo)準(zhǔn)是否一致的分析原假設(shè)H0:評(píng)判者的評(píng)判標(biāo)準(zhǔn)不一致示例:如果利用Friedman方法檢驗(yàn)出各總體的分布不存在顯著差異,即各個(gè)歌手得分的秩不存在顯著差異,則意味著評(píng)委的打分存在隨意性,評(píng)分標(biāo)準(zhǔn)不一致。第8章SPSS的相關(guān)分析相關(guān)分析繪制散點(diǎn)圖計(jì)算相關(guān)系數(shù)偏相關(guān)分析相關(guān)分析相關(guān)分析是分析客觀事物之間關(guān)系的數(shù)量分析方法客觀事物之間的關(guān)系大致可歸納為兩大類:函數(shù)關(guān)系和統(tǒng)計(jì)關(guān)系相關(guān)分析是用來(lái)分析事物之間統(tǒng)計(jì)關(guān)系的方法統(tǒng)計(jì)關(guān)系指的是兩事物之間的一種非一一對(duì)應(yīng)的關(guān)系,即當(dāng)一個(gè)變量x取一定值時(shí),另一變量y無(wú)法依確定的函數(shù)取唯一確定的值統(tǒng)計(jì)關(guān)系可進(jìn)一步劃分為線性相關(guān)關(guān)系和非線性相關(guān)關(guān)系線性相關(guān)關(guān)系又可分為正線性相關(guān)關(guān)系和負(fù)線性相關(guān)關(guān)系正線性相關(guān)關(guān)系指兩個(gè)變量線性的相隨變動(dòng)方向相同負(fù)線性相關(guān)關(guān)系指兩個(gè)變量線性的相隨變動(dòng)方向相反繪制散點(diǎn)圖和計(jì)算相關(guān)系數(shù)是相關(guān)分析最常用的工具繪制散點(diǎn)圖繪制散點(diǎn)圖:將數(shù)據(jù)以點(diǎn)的形式畫在直角平面上通過(guò)觀察散點(diǎn)圖能夠直觀發(fā)現(xiàn)數(shù)據(jù)點(diǎn)的大致走向探索變量間的統(tǒng)計(jì)關(guān)系以及強(qiáng)弱程度繪制散點(diǎn)圖示例和操作計(jì)算相關(guān)系數(shù)相關(guān)系數(shù)以數(shù)值的方式精確地反映了兩個(gè)變量間線性相關(guān)的強(qiáng)弱程度。利用相關(guān)系數(shù)進(jìn)行變量間線性關(guān)系的分析的步驟第一,利用樣本數(shù)據(jù)計(jì)算樣本相關(guān)系數(shù)r樣本相關(guān)系數(shù)r反映了兩變量間線性相關(guān)程度的強(qiáng)弱對(duì)不同類型的變量應(yīng)采用不同的相關(guān)系數(shù)指標(biāo)相關(guān)系數(shù)r的取值在-1~+1之間r>0:兩變量存在正的線性相關(guān)關(guān)系;|r|>0.8:兩變量具有較強(qiáng)的線性相關(guān)關(guān)系;|r|<0.3:兩變量的線性相關(guān)關(guān)系較弱第二,對(duì)樣本來(lái)自的兩總體是否存在顯著的線性關(guān)系進(jìn)行推斷原假設(shè)H0:兩總體無(wú)顯著線性關(guān)系,存在零相關(guān)檢驗(yàn)統(tǒng)計(jì)量:對(duì)不同類型的變量應(yīng)采用不同的檢驗(yàn)統(tǒng)計(jì)量計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率P-值決策計(jì)算相關(guān)系數(shù)相關(guān)系數(shù)的種類Pearson簡(jiǎn)單相關(guān)系數(shù)Spearman等級(jí)相關(guān)系數(shù)Kendallτ相關(guān)系數(shù)Pearson簡(jiǎn)單相關(guān)系數(shù):用來(lái)度量?jī)蓴?shù)值型變量間的線性相關(guān)關(guān)系定義:檢驗(yàn)統(tǒng)計(jì)量:計(jì)算相關(guān)系數(shù)Spearman等級(jí)相關(guān)系數(shù):用來(lái)度量定序型變量間的線性相關(guān)關(guān)系計(jì)算時(shí)利用數(shù)據(jù)的秩:將兩變量的秩記為(Ui,Vi)定義:檢驗(yàn)統(tǒng)計(jì)量:如果兩變量的相關(guān)性較強(qiáng),它們秩的變化具有同步性當(dāng)兩變量完全正相關(guān)時(shí)Ui=Vi如果兩變量的相關(guān)性較弱,它們秩的變化不具有同步性計(jì)算相關(guān)系數(shù)Kendallτ相關(guān)系數(shù)采用非參數(shù)檢驗(yàn)方法度量定序型變量間的線性相關(guān)關(guān)系利用變量的秩計(jì)算一致對(duì)數(shù)目(U)和非一致對(duì)數(shù)目(V)如果兩變量具有較強(qiáng)的正相關(guān)關(guān)系,則一致對(duì)數(shù)目U應(yīng)較大,非一致對(duì)數(shù)目V應(yīng)較小如果兩變量具有較強(qiáng)的負(fù)相關(guān)關(guān)系,則一致對(duì)數(shù)目U應(yīng)較小,非一致對(duì)數(shù)目V應(yīng)較大如果兩變量的相關(guān)性較弱,則一致對(duì)數(shù)目U和非一致對(duì)數(shù)目V應(yīng)大致相等定義:檢驗(yàn)統(tǒng)計(jì)量:計(jì)算相關(guān)系數(shù)示例與操作偏相關(guān)分析偏相關(guān)系數(shù)也稱凈相關(guān)分析:是在控制其他變量的線性影響的條件下分析兩變量間的線性相關(guān)性計(jì)算偏相關(guān)系數(shù)(凈相關(guān)系數(shù))一個(gè)控制變量時(shí)的
偏相關(guān)系數(shù)稱為一階偏相關(guān)系數(shù)零個(gè)控制變量時(shí)的偏相關(guān)系數(shù)稱為零階偏相關(guān)系數(shù),即相關(guān)系數(shù)偏相關(guān)分析的步驟計(jì)算樣本的偏相關(guān)系數(shù)對(duì)樣本來(lái)自的兩總體是否存在顯著的凈相關(guān)進(jìn)行推斷原假設(shè)H0:兩總體的偏相關(guān)系數(shù)與零無(wú)顯著差異選擇檢驗(yàn)統(tǒng)計(jì)量計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率P-值決策偏相關(guān)分析示例與操作將體脂率作為控制變量,分析體重和腰圍的相關(guān)性第9章SPSS的線性回歸分析回歸分析概述線性回歸分析和線性回歸模型回歸方程的統(tǒng)計(jì)檢驗(yàn)多元回歸分析中的其他問題線性回歸分析的基本操作線性回歸分析的應(yīng)用舉例曲線估計(jì)回歸分析概述什么是回歸分析回歸分析用于分析事物之間的統(tǒng)計(jì)關(guān)系,側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過(guò)回歸方程的形式描述和反映這種關(guān)系,幫助人們準(zhǔn)確把握變量受其他一個(gè)或多個(gè)變量影響的程度,為預(yù)測(cè)提供科學(xué)依據(jù)高爾頓:回歸和回歸線如何得到回歸線--局部平均在散點(diǎn)圖上得到一系列(xj,yj)(j表示散點(diǎn)圖從左往右的第j個(gè)小區(qū)間)對(duì)應(yīng)的數(shù)據(jù)點(diǎn)如果這些點(diǎn)足夠多,則可以得到一條光滑的曲線---回歸線的近似線回歸線是局部平均的結(jié)果回歸分析概述如何得到回歸線---函數(shù)擬合,基本思路首先,通過(guò)散點(diǎn)圖觀察變量之間的統(tǒng)計(jì)關(guān)系,得到對(duì)回歸線形狀(線性關(guān)系或非線性關(guān)系)的直觀認(rèn)知,并確定一個(gè)能夠反映和擬合這種認(rèn)知且最簡(jiǎn)潔的(參數(shù)最少的)數(shù)學(xué)形式(線性函數(shù)或非線性函數(shù)),即回歸模型其次,利用樣本數(shù)據(jù)在一定的統(tǒng)計(jì)擬合準(zhǔn)則下,估計(jì)出回歸模型中的各個(gè)參數(shù),得到一個(gè)確定的回歸方程最后,對(duì)回歸方程進(jìn)行各種檢驗(yàn),判斷該方程是否真實(shí)地反映了事物總體間的統(tǒng)計(jì)關(guān)系回歸分析概述回歸分析的一般步驟確定回歸分析中的解釋變量x和被解釋變量y確定回歸模型建立回歸方程對(duì)回歸方程進(jìn)行各種檢驗(yàn)利用回歸方程進(jìn)行預(yù)測(cè)等線性回歸分析和線性回歸模型觀察被解釋變量y和一個(gè)或多個(gè)解釋變量xi的散點(diǎn)圖當(dāng)發(fā)現(xiàn)y與xi
之間呈現(xiàn)出顯著的線性關(guān)系時(shí),則應(yīng)采用線性回歸分析的方法,建立y關(guān)于xi的線性回歸模型根據(jù)解釋變量的個(gè)數(shù),線性回歸模型可分為:一元線性回歸模型,對(duì)應(yīng)一元線性回歸分析多元線性回歸模型,對(duì)應(yīng)多元線性回歸分析線性回歸分析和線性回歸模型一元線性回歸模型一元線性回歸模型是指只有一個(gè)解釋變量的線性回歸模型,用于揭示被解釋變量與另一個(gè)解釋變量之間的線性關(guān)系對(duì)應(yīng)一條回歸直線線性回歸分析和線性回歸模型多元線性回歸模型多元線性回歸模型是指含有多個(gè)解釋變量的線性回歸模型,用于揭示被解釋變量與其他多個(gè)解釋變量之間的線性關(guān)系對(duì)應(yīng)一個(gè)回歸平面線性回歸分析和線性回歸模型參數(shù)的普通最小二乘估計(jì)對(duì)于一元線性回歸方程對(duì)于多元線性回歸方程回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的統(tǒng)計(jì)檢驗(yàn),主要包括:回歸方程的擬合優(yōu)度檢驗(yàn)回歸方程的顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn)殘差分析擬合優(yōu)度檢驗(yàn):檢驗(yàn)樣本數(shù)據(jù)點(diǎn)聚集在回歸線周圍的密集程度,評(píng)價(jià)回歸方程對(duì)樣本數(shù)據(jù)的擬合基本思路:y的各觀測(cè)值與均值的總差異源于兩方面解釋變量x取值不同其他隨機(jī)因素表述為:離差平方和=回歸平方和+剩余平方和回歸方程的統(tǒng)計(jì)檢驗(yàn)擬合優(yōu)度檢驗(yàn):檢驗(yàn)樣本數(shù)據(jù)點(diǎn)聚集在回歸線周圍的密集程度,評(píng)價(jià)回歸方程對(duì)樣本數(shù)據(jù)的擬合對(duì)于一元線性回歸方程:R2統(tǒng)計(jì)量R2的取值在0~1之間。R2越接近1,說(shuō)明回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)的擬合優(yōu)度越高;R2越接近0,說(shuō)明回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)的擬合優(yōu)度越低離差平方和=回歸平方和+剩余平方和SST=SSR+SSE回歸方程的統(tǒng)計(jì)檢驗(yàn)擬合優(yōu)度檢驗(yàn):檢驗(yàn)樣本數(shù)據(jù)點(diǎn)聚集在回歸線周圍的密集程度,評(píng)價(jià)回歸方程對(duì)樣本數(shù)據(jù)的擬合對(duì)于多元線性回歸方程:調(diào)整的R2統(tǒng)計(jì)量調(diào)整的R2的取值在0~1之間為什么采用調(diào)整的R2?剔除解釋變量增加帶來(lái)的“虛假”擬合離差平方和=回歸平方和+剩余平方和SST=SSR+SSE回歸方程的顯著性檢驗(yàn)回歸方程的顯著性檢驗(yàn):檢驗(yàn)被解釋變量與所有解釋變量之間的線性關(guān)系是否顯著,用線性模型來(lái)描述它們之間的關(guān)系是否恰當(dāng)對(duì)于一元線性回歸方程原假設(shè)H0:β1=0,即回歸系數(shù)與零無(wú)顯著差異,意味著:當(dāng)回歸系數(shù)為零時(shí),無(wú)論x的取值如何變化都不會(huì)引起y的線性變化,x無(wú)法解釋y的線性變化,即它們之間不存在線性關(guān)系檢驗(yàn)統(tǒng)計(jì)量:F統(tǒng)計(jì)量計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),回歸系數(shù)與零存在顯著差異,被解釋變量y與解釋變量x的線性關(guān)系顯著,可以用線性模型描述和反映它們之間的關(guān)系;反之回歸方程的顯著性檢驗(yàn)回歸方程的顯著性檢驗(yàn):對(duì)于多元線性回歸方程原假設(shè)H0:β1=β2=…=βp=0,即各個(gè)偏回歸系數(shù)同時(shí)與零無(wú)顯著差異,意味著:當(dāng)偏回歸系數(shù)同時(shí)為零時(shí),無(wú)論各個(gè)x取值如何變化都不會(huì)引起y的線性變化,所有x無(wú)法解釋y的線性變化,y與x的全體不存在線性關(guān)系檢驗(yàn)統(tǒng)計(jì)量:F統(tǒng)計(jì)量計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),偏回歸系數(shù)不同時(shí)為零,被解釋變量y與解釋變量x的全體的線性關(guān)系顯著,可以用線性模型描述和反映它們之間的關(guān)系;反之回歸系數(shù)的顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn):研究回歸方程中的每個(gè)解釋變量與能否有效地解釋被解釋變量的線性變化,它們能否保留在線性回歸方程中對(duì)于一元線性回歸方程原假設(shè)H0:β1=0,即回歸系數(shù)與零無(wú)顯著差異,意味著:當(dāng)回歸系數(shù)為零時(shí),無(wú)論x取值如何變化都不會(huì)引起y的線性變化,x無(wú)法解釋y的線性變化,它們之間不存在線性關(guān)系檢驗(yàn)統(tǒng)計(jì)量:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為回歸系數(shù)與零有顯著差異,被解釋變量y與解釋變量x的線性關(guān)系顯著,x應(yīng)該保留在回歸方程中;反之回歸系數(shù)的顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn):對(duì)于多元線性回歸方程原假設(shè)H0:βi=0,即回歸系數(shù)與零無(wú)顯著差異,意味著:當(dāng)回歸系數(shù)為零時(shí),無(wú)論xi取值如何變化都不會(huì)引起y的線性變化,xi無(wú)法解釋y的線性變化,它們之間不存在線性關(guān)系檢驗(yàn)統(tǒng)計(jì)量:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應(yīng)拒絕原假設(shè),認(rèn)為回歸系數(shù)與零有顯著差異,被解釋變量y與解釋變量xi的線性關(guān)系顯著,xi應(yīng)該保留在回歸方程中;反之殘差分析殘差分析的對(duì)象:殘差--指由回歸方程計(jì)算所得的預(yù)測(cè)值與實(shí)際樣本值之間的差距出發(fā)點(diǎn):如果回歸方程能夠較好地反映被解釋變量的特征和變化規(guī)律,那么殘差序列中應(yīng)不包含明顯的規(guī)律性和趨勢(shì)性主要任務(wù):殘差是否為服從均值為零的正態(tài)分布?xì)埐钍欠穹牡确讲畹恼龖B(tài)分布?xì)埐钚蛄惺欠癃?dú)立探測(cè)樣本中的異常值殘差分析殘差均值為零的正態(tài)性分析繪制殘差圖殘差的獨(dú)立性分析殘差序列應(yīng)滿足cov(εi,εj)=0(i≠j),表示殘差序列的前期和后期之間不存在相關(guān)關(guān)系,即不存在自相關(guān)殘差序列存在自相關(guān)會(huì)帶來(lái)許多問題如果殘差的均值為零,殘差圖中的點(diǎn)應(yīng)在縱坐標(biāo)為零的橫線上下隨機(jī)散落殘差分析殘差的獨(dú)立性分析工具繪制殘差序列圖:殘差隨著時(shí)間的推移不應(yīng)呈現(xiàn)規(guī)律性計(jì)算殘差的自相關(guān)系數(shù)DW檢驗(yàn):推斷小樣本序列是否存在自相關(guān)殘差分析異方差分析解釋變量取怎樣的值,對(duì)應(yīng)殘差的方差都應(yīng)相等,方差不應(yīng)隨解釋變量或被解釋變量預(yù)測(cè)值的變化而變化;否則認(rèn)為出現(xiàn)了異方差現(xiàn)象當(dāng)存在異方差時(shí),參數(shù)的最小二乘估計(jì)不再是最小方差無(wú)偏估計(jì)異方差分析的工具繪制殘差圖計(jì)算等級(jí)相關(guān)分析殘差分析探測(cè)樣本中的異常值通常異常值是指那些遠(yuǎn)離均值的數(shù)據(jù)點(diǎn),對(duì)回歸方程的參數(shù)估計(jì)有較大影響,應(yīng)盡量找出它們并加以排除被解釋變量y和解釋變量x中都有可能出現(xiàn)異常值異常值的探測(cè)方法一般方法計(jì)算標(biāo)準(zhǔn)化殘差:絕對(duì)值大于3對(duì)應(yīng)的觀測(cè)值為異常值學(xué)生化殘差:絕對(duì)值大于3對(duì)應(yīng)的觀測(cè)值為異常值剔除殘差:在計(jì)算第i個(gè)觀測(cè)的殘差時(shí),用剔除該觀測(cè)后剩余的n-1個(gè)觀測(cè)擬合回歸方程,并計(jì)算第i個(gè)觀測(cè)的預(yù)測(cè)值和相應(yīng)的殘差。這個(gè)殘差與第i個(gè)觀測(cè)無(wú)關(guān),不受第i個(gè)觀測(cè)y值是不是異常值的影響,稱為剔除殘差剔除殘差更能如實(shí)反映第i個(gè)觀測(cè)的y的異常性絕對(duì)值大于3對(duì)應(yīng)的觀測(cè)值為異常值多元回歸分析中的其他解釋變量的篩選問題并非引入的解釋變量越多越好,有必要采取一些策略對(duì)解釋變量引入回歸方程加以控制和篩選解釋變量篩選的一般策略向前篩選:解釋變量不斷進(jìn)入回歸方程的過(guò)程向后篩選:解釋變量不斷剔除出回歸方程的過(guò)程逐步篩選:向前篩選和向后篩選策略的綜合多元回歸分析中的其他變量的多重共線性問題多重共線性:是指解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象解釋變量間高度的多重共線性會(huì)給回歸方程帶來(lái)許多影響測(cè)度解釋變量間的多重共線性一般方式容忍度:方差膨脹因子:取值范圍在0~1之間,越接近0,表示多重共線性越強(qiáng);越接近1,表示多重共線性越弱方差膨脹因子的取值大于等于1。解釋變量間的多重共線性越弱,VIF越接近1;解釋變量間的多重共線性越強(qiáng),VIFi越大通常,如果VIFi大于等于10,說(shuō)明解釋變量xi與方程中其余解釋變量之間有嚴(yán)重的多重共線性線性回歸分析的基本操作和應(yīng)用舉例
線性回歸分析的基本操作和應(yīng)用舉例核心操作回歸方程的檢驗(yàn)和殘差分析線性回歸分析的基本操作和應(yīng)用舉例帶虛擬自變量的回歸分析示例生成虛擬自變量:是男性嗎最后得到的估計(jì)的回歸方程:進(jìn)一步:曲線估計(jì)曲線估計(jì):解決本質(zhì)線性關(guān)系的回歸問題例如:曲線估計(jì)示例和操作第10章SPSS的聚類分析聚類分析的一般問題層次聚類K-Means聚類聚類分析的一般問題聚類分析:研究“物以類聚”問題的多元統(tǒng)計(jì)分析方法聚類分析:是一種建立分類的多元統(tǒng)計(jì)分析方法能夠?qū)⒁慌^測(cè)(或變量)數(shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度,在沒有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類—聚類解類內(nèi)部個(gè)體特征具有相似性,不同類間個(gè)體特征的差異性較大示例:聚類分析的一般問題聚類分析中“親疏程度”的度量--個(gè)體間差異程度的測(cè)度:距離先將每個(gè)觀測(cè)數(shù)據(jù)看成p維(p個(gè)聚類變量)空間上的一個(gè)點(diǎn)數(shù)值型變量個(gè)體間距離的常見計(jì)算方式歐氏距離平方歐氏距離切比雪夫距離聚類分析的一般問題二值變量個(gè)體間距離的計(jì)算方式簡(jiǎn)單匹配系數(shù)Jaccard系數(shù)聚類分析的一般問題聚類分析的幾點(diǎn)說(shuō)明所選擇的變量應(yīng)迎合聚類的分析目標(biāo)各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系層次聚類層次聚類的兩種類型Q型聚類:對(duì)觀測(cè)進(jìn)行聚類,使具有相似特征的觀測(cè)聚集在一起,使差異性大的觀測(cè)分離開來(lái)R型聚類:對(duì)變量進(jìn)行聚類,使差異性大的變量分離開來(lái),具有相似性的變量聚集在一起可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù)和變量降維的目的層次聚類層次聚類的常用方式:凝聚方式聚類首先,每個(gè)觀測(cè)個(gè)體自成一類然后,按照某種方法度量所有個(gè)體間的“親疏程度”,并將其中最“親密”的個(gè)體聚成一小類,形成n-1個(gè)類;接下來(lái),再次度量剩余觀測(cè)個(gè)體和小類間的“親疏程度”,并將當(dāng)前最親密的個(gè)體或小類再聚成一類;重復(fù)上述過(guò)程,不斷將所有個(gè)體和小類聚集成越來(lái)越大的類,直到所有個(gè)體聚到一起,形成一個(gè)最大的類為止可見,在凝聚方式聚類過(guò)程中,隨著聚類的進(jìn)行,類內(nèi)的“親密”程度在逐漸降低對(duì)n個(gè)觀測(cè)個(gè)體,通過(guò)n-1步可凝聚成一大類層次聚類個(gè)體與小類、小類與小類間“親疏程度”的常用度量方法個(gè)體與小類間的最近鄰距離:該個(gè)體與小類中每個(gè)個(gè)體距離的最小值個(gè)體與小類間的最遠(yuǎn)鄰距離:該個(gè)體與小類中每個(gè)個(gè)體距離的最大值個(gè)體與小類間的組間平均鏈鎖:該個(gè)體與小類中每個(gè)個(gè)體距離的平均值個(gè)體與小類間的組內(nèi)平均鏈鎖:該個(gè)體與小類中每個(gè)個(gè)體距離以及小類內(nèi)各個(gè)體間距離的平均值層次聚類分析基本操作K-Means聚類K-Means聚類,也稱快速聚類,仍將數(shù)據(jù)看成p維空間上的點(diǎn),以距離作為測(cè)度個(gè)體“親疏程度”的指標(biāo),算法效率高K-Means聚類分析的核心步驟如下:第一步,指定聚類數(shù)目K第二步,確定K個(gè)初始類中心點(diǎn),一般方式:用戶指定方式系統(tǒng)指定方式第三步,根據(jù)距離最近原則進(jìn)行分類依次計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到K個(gè)類中心點(diǎn)的歐氏距離,并按照與K個(gè)類中心點(diǎn)距離最短的原則將所有觀測(cè)分派到K個(gè)分類中第四步,重新確定K個(gè)類中心點(diǎn):均值點(diǎn)第五步,判斷是否已經(jīng)滿足終止聚類分析的條件。若未滿足重復(fù)第三四步K-Means聚類K-Means重復(fù)多次迭代的目的K-Means聚類示例與操作第11章SPSS的因子分析因子分析概述因子分析的基本內(nèi)容因子分析的基本操作及案例因子分析概述因子分析:以最少的信息丟失為前提,將眾多的原有變量綜合成較少的幾個(gè)綜合指標(biāo),名為因子因子分析的意義:實(shí)現(xiàn)變量降維因子的特點(diǎn):因子個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于原有變量的個(gè)數(shù)因子能夠反映原有變量的絕大部分信息因子之間的線性關(guān)系不顯著因子具有命名解釋性因子分析概述因子分析的數(shù)學(xué)模型矩陣形式的表示:F稱為因子,又稱為公共因子,fj(j=1,2,…,k)彼此不相關(guān)A稱為因子載荷矩陣,aij(i=1,2,…,p;j=1,2,…,k)稱為因子載荷,是第i個(gè)原有變量在第j個(gè)因子上的載荷ε稱為特殊因子,表示原有變量不能被因子解釋的部分,其均值為0,獨(dú)立于fj(j=1,2,…,k)p個(gè)原有變量x1,…,xp且每個(gè)變量(經(jīng)標(biāo)準(zhǔn)化處理后)的均值為0,標(biāo)準(zhǔn)差均為1因子分析概述因子分析中的重要概念因子載荷aij在因子不相關(guān)的前提下,aij是變量xi與因子fj的相關(guān)系數(shù),反映了變量xi與因子fj的相關(guān)程度因子載荷aij的平方反映了因子fj對(duì)解釋變量xi的重要作用和程度變量共同度即變量方差,是全部因子對(duì)變量xi方差解釋說(shuō)明的比例,體現(xiàn)了全部因子對(duì)變量xi的解釋貢獻(xiàn)程度,越接近1越好,意味折變量xi方差丟失少因子的方差貢獻(xiàn)方差貢獻(xiàn)反映了因子fj對(duì)原有變量總方差的解釋能力。越高說(shuō)明相應(yīng)因子的重要性越高因子分析的基本內(nèi)容因子分析的基本步驟因子分析的前提條件判斷分析原有變量是否存在相關(guān)關(guān)系,是否適合進(jìn)行因子分析因子提取將原有變量綜合成少數(shù)幾個(gè)因子,是因子分析的核心內(nèi)容使因子具有命名解釋性通過(guò)各種方法使提取出的因子實(shí)際含義清晰,使因子具有命名解釋性計(jì)算各觀測(cè)的因子得分通過(guò)各種方法計(jì)算各觀測(cè)在各因子上的得分,為進(jìn)一步的分析奠定基礎(chǔ)因子分析的基本內(nèi)容因子分析的前提條件判斷,方法:計(jì)算相關(guān)系數(shù)矩陣計(jì)算反映像相關(guān)矩陣矩陣第i行對(duì)角線上的元素為變量xi的MSAiMSAi值越接近1,意味著變量xi與其他變量間的相關(guān)性越強(qiáng)其他大多數(shù)元素的絕對(duì)值均較小,對(duì)角線上元素的值較接近1,說(shuō)明變量的相關(guān)性較強(qiáng),適合進(jìn)行因子分析巴特利特球度檢驗(yàn)原假設(shè)H0:相關(guān)系數(shù)矩陣是單位陣KMO檢驗(yàn),常用的KMO度量標(biāo)準(zhǔn)0.9以上非常適合;0.8適合;0.7一般0.6不太適合;0.5以下極不適合因子分析的基本內(nèi)容因子提取和因子載荷矩陣的求解因子分析的關(guān)鍵是根據(jù)樣本數(shù)據(jù)求解因子載荷矩陣因子載荷矩陣的最常用求解方法:主成分分析法主成分分析法:通過(guò)坐標(biāo)變換,將原有的p個(gè)相關(guān)變量xi(標(biāo)準(zhǔn)化后)做線性組合,轉(zhuǎn)換成另一組不相關(guān)的變量yi:其中:因子分析的基本內(nèi)容因子載荷矩陣的求解原則根據(jù)上述原則確定的變量y1,y2,y3,…,yp依次稱為原有變量x1,x2,x3,…,xp
的第1,2,3,…,p個(gè)主成分y1在總方差中所占比例最大,體現(xiàn)原有變量方差的能力最強(qiáng)y2,y3,…,yp在總方差中所占比例依次遞減,體現(xiàn)原有變量方差的能力依次減弱因子分析的基本內(nèi)容因子載荷矩陣的求解原則從幾何意義的角度理解,例如:因子分析的基本內(nèi)容因子載荷矩陣的求解的基本步驟因子載荷陣因子分析的基本內(nèi)容因子載荷矩陣的求解的基本步驟包含k個(gè)因子的因子載荷矩陣:確定因子個(gè)數(shù)k根據(jù)特征值λj確定因子數(shù):選取特征值大于1的因子,即應(yīng)至少解釋1個(gè)方差
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣播稿400字左右(35篇)
- 高中技術(shù)《技術(shù)與設(shè)計(jì)2》模塊測(cè)試題 一
- 課外書的心得體會(huì)范文
- 幼兒園主題方案簡(jiǎn)單
- 風(fēng)險(xiǎn)合規(guī)部工作總結(jié)
- 銷售培訓(xùn)心得(35篇)
- 居間代理房屋合同(3篇)
- 《技術(shù)的未來(lái)》教學(xué)設(shè)計(jì)(兩篇)
- 蘇教版 高中技術(shù)《技術(shù)與設(shè)計(jì)1》教案合集
- 26.1 銳角三角函數(shù) 同步練習(xí)
- 植物盆栽課件教學(xué)課件
- 2024年中小學(xué)天文知識(shí)競(jìng)賽初賽試卷
- 2024年10月時(shí)政100題(附答案)
- 學(xué)生校外托管協(xié)議書
- 建筑幕墻施工方案
- 第二章 地圖(考點(diǎn)串講課件)七年級(jí)地理上學(xué)期期中考點(diǎn)大串講(人教版2024)
- 2024年危險(xiǎn)化學(xué)品經(jīng)營(yíng)單位安全管理人員證考試題庫(kù)
- JJF(蘇) 275-2024 測(cè)斜儀校驗(yàn)臺(tái)校準(zhǔn)規(guī)范
- 【9道期中】安徽省黃山地區(qū)2023-2024學(xué)年九年級(jí)上學(xué)期期中考試道德與法治試題(含詳解)
- 2024年醫(yī)療污水處理管理制度范本(二篇)
- 2024年官方獸醫(yī)考試題庫(kù)(單選題)
評(píng)論
0/150
提交評(píng)論