




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、武漢大學計算機學院武漢大學計算機學院計算中心計算中心第第6章章 非參數(shù)檢驗非參數(shù)檢驗Nonparametric Testsv6.1 非參數(shù)檢驗非參數(shù)檢驗v6.2 單樣本的非參數(shù)檢驗單樣本的非參數(shù)檢驗v6.3 獨立樣本的非參數(shù)檢驗獨立樣本的非參數(shù)檢驗v6.4 相關樣本的非參數(shù)檢驗相關樣本的非參數(shù)檢驗武漢大學計算機學院武漢大學計算機學院6.1 非參數(shù)檢驗非參數(shù)檢驗v 非參數(shù)檢驗:非參數(shù)檢驗: (1)在總體分布)在總體分布未知未知或知道或知道甚少甚少的情況下,利用樣本數(shù)的情況下,利用樣本數(shù)據(jù)對總體據(jù)對總體分布形態(tài)分布形態(tài)等進行推斷的方法。等進行推斷的方法。 (2)推斷過程中)推斷過程中不涉及不涉及有
2、關總體分布的有關總體分布的參數(shù)參數(shù)。檢驗的內(nèi)容適用范圍特點參數(shù)檢驗關于總體的參數(shù)(如均值、方差)總體呈正態(tài)分布檢驗精確,效能好。非參數(shù)檢驗總體的分布位置(如中位數(shù))、分布形狀1.總體分布不確定,參數(shù)檢驗方法的條件不滿足時。2.研究定類變量和定序變量間的關系。優(yōu)點:穩(wěn)健性、使用范圍廣缺點:檢驗效能差武漢大學計算機學院武漢大學計算機學院6.2 單樣本的非參數(shù)檢驗單樣本的非參數(shù)檢驗1.目的:樣本來自總體的分布是否與某個已知的分布目的:樣本來自總體的分布是否與某個已知的分布相吻合?相吻合?繪制樣本數(shù)據(jù)的直方圖、繪制樣本數(shù)據(jù)的直方圖、pp圖、圖、QQ圖判斷圖判斷粗略粗略通過非參數(shù)檢驗通過非參數(shù)檢驗精確精
3、確2.單樣本非參數(shù)檢驗單樣本非參數(shù)檢驗(1)對單個總體的分布形態(tài)等進行推斷)對單個總體的分布形態(tài)等進行推斷(2)方法:)方法: 卡方檢驗 二項分布檢驗 K-S檢驗 游程檢驗武漢大學計算機學院武漢大學計算機學院6.2.1卡方卡方(Chi-square)檢驗檢驗v 卡方檢驗的基本理論依據(jù)卡方檢驗的基本理論依據(jù) 如果從一個隨機變量X中隨機抽取若干個觀察樣本,這些觀察樣本落在X的k個互不相交的子集中的觀察頻數(shù)服從一個多項分布,這個多項分布當k趨于無窮時近似服從卡方分布。 基于此思想,對變量X的總體分布的檢驗可以從對各個觀察頻數(shù)的分析入手.期望頻數(shù),觀察頻數(shù),子集個數(shù),iikiiiiEOkkEEO) 1
4、()(2122布無顯著差異自的總體分布與理論分不拒絕原假設,樣本來值對應的存在顯著差異的總體分布與理論分布拒絕原假設,樣本來自值對應的數(shù)分布差距越小觀測頻數(shù)分布與期望頻值越小數(shù)分布差距越大觀測頻數(shù)分布與期望頻值越大,2222pp卡方統(tǒng)計量服卡方統(tǒng)計量服從自由度為從自由度為k-1的卡方分布的卡方分布武漢大學計算機學院武漢大學計算機學院v原假設:樣本來自的總體分布與期望分布原假設:樣本來自的總體分布與期望分布無顯著無顯著差差異。異。v卡方統(tǒng)計量卡方統(tǒng)計量,是指根據(jù)變量類別的是指根據(jù)變量類別的觀察頻率觀察頻率和和期望期望頻率頻率間的差異間的差異v例如例如: 醫(yī)生研究心臟病人猝死人數(shù)與日期有關系,一周
5、內(nèi),星期一猝死者較多,其他日子基本相當,各天的比例近似為:2.8:1:1:1:1:1:1 檢驗現(xiàn)在人口結(jié)構(gòu)和十年前是否一樣 血型是否和人的性格有關系 現(xiàn)代社會中受過高等教育/高中畢業(yè)/初中畢業(yè)/小學畢業(yè)/文盲的比例是否為3:6:10:2:1武漢大學計算機學院武漢大學計算機學院v例例1:數(shù)據(jù)文件:數(shù)據(jù)文件“dischargedata.sav”記錄了記錄了醫(yī)院每天的病人流量。醫(yī)院管理者需要了解是否醫(yī)院每天的病人流量。醫(yī)院管理者需要了解是否一周中每天的病人流量是相同的。一周中每天的病人流量是相同的。計算中心計算中心武漢大學計算機學院武漢大學計算機學院v對對discharg(日均病人流量日均病人流量)
6、作為權(quán)重,作加權(quán)作為權(quán)重,作加權(quán)處理處理v菜單菜單 “分析分析/非參數(shù)檢驗非參數(shù)檢驗/卡方卡方”計算中心計算中心武漢大學計算機學院武漢大學計算機學院計算中心計算中心vH0:樣本來自的總體分布與假設分布(也稱,期樣本來自的總體分布與假設分布(也稱,期望分布與理論分布)無顯著差異望分布與理論分布)無顯著差異v結(jié)論:醫(yī)院每天的病人流量有顯著區(qū)別,星期五結(jié)論:醫(yī)院每天的病人流量有顯著區(qū)別,星期五人最多,星期日人最少。人最多,星期日人最少。用EXCEL算卡方值武漢大學計算機學院武漢大學計算機學院例例2:“患憂郁癥人數(shù)分布患憂郁癥人數(shù)分布.sav”記錄了記錄了某地一周內(nèi)某地一周內(nèi)各日患憂郁癥的人數(shù)分布,請
7、檢驗一周內(nèi)各日人們各日患憂郁癥的人數(shù)分布,請檢驗一周內(nèi)各日人們憂郁數(shù)是否滿足憂郁數(shù)是否滿足1:1:2:2:1:1:1。周 日患 者 數(shù)131238370480529624731武漢大學計算機學院武漢大學計算機學院先對先對患者數(shù)加權(quán)患者數(shù)加權(quán)v H0:一周內(nèi)各日憂郁數(shù)比與一周內(nèi)各日憂郁數(shù)比與1:1:2:2:1:1:1無顯著差異無顯著差異v P=0.640.05,接受原假設接受原假設v 觀察頻率與期望頻率的比例相吻合,一周內(nèi)各日人們憂郁觀察頻率與期望頻率的比例相吻合,一周內(nèi)各日人們憂郁數(shù)是否滿足數(shù)是否滿足1:1:2:2:1:1:1武漢大學計算機學院武漢大學計算機學院例例3:某集團公司打算進行一項改
8、革,但此項改革:某集團公司打算進行一項改革,但此項改革涉及到各分公司的利益。今采用抽樣方法分別從涉及到各分公司的利益。今采用抽樣方法分別從下設的四個分公司中共抽取下設的四個分公司中共抽取420名職工了解對此項名職工了解對此項改革的看法。如果四個分公司對改革的看法一致改革的看法。如果四個分公司對改革的看法一致,則決定實施這項改革。調(diào)查結(jié)果如下表所示,則決定實施這項改革。調(diào)查結(jié)果如下表所示,“關于改革方案調(diào)查結(jié)果關于改革方案調(diào)查結(jié)果.sav”公司1公司2公司3公司4合計贊成68755779279反對32453331141合計10012090110420關于改革方案調(diào)查結(jié)果的樣本數(shù)據(jù)列聯(lián)表中的卡方檢
9、驗武漢大學計算機學院武漢大學計算機學院公司1公司2公司3公司4合計贊成68755779279反對32453331141合計10012090110420關于改革方案調(diào)查結(jié)果的樣本數(shù)據(jù)態(tài)度贊成反對r12公司公司1公司2公司3公司4 c 1 2 3 4觀察頻數(shù) fo定義變量68755779324533313142833327452263212579414573137521268111focr序號在spss數(shù)據(jù)集中的排列武漢大學計算機學院武漢大學計算機學院05. 0430. 03761. 22值自由度P故接受原假設。即四個分公司態(tài)度一致【描述統(tǒng)計描述統(tǒng)計-交叉表交叉表】武漢大學計算機學院武漢大學計算機
10、學院小結(jié)1.卡方檢驗可應用到定類變量和定序變量,可根卡方檢驗可應用到定類變量和定序變量,可根據(jù)變量類別的據(jù)變量類別的觀察值頻率觀察值頻率和和期望頻率期望頻率間的差異來間的差異來計算卡方統(tǒng)計量。計算卡方統(tǒng)計量。2.卡方檢驗一般需要先對卡方檢驗一般需要先對“頻率頻率”變量進行加權(quán)變量進行加權(quán)處理。處理。3.單個定類變量一般使用單個定類變量一般使用【非參數(shù)檢驗非參數(shù)檢驗-卡方卡方】菜單,兩個定類變量或定類變量與定序變量的結(jié)菜單,兩個定類變量或定類變量與定序變量的結(jié)合一般使用合一般使用【描述統(tǒng)計描述統(tǒng)計-交叉表交叉表】完成。完成。武漢大學計算機學院武漢大學計算機學院6.2.2二項分布檢驗二項分布檢驗二
11、項分布:在現(xiàn)實生活中有很多的取值是兩類的,如人群二項分布:在現(xiàn)實生活中有很多的取值是兩類的,如人群的男和女、產(chǎn)品的合格和不合格、學生的三好學生和非三的男和女、產(chǎn)品的合格和不合格、學生的三好學生和非三好學生、投擲硬幣的正面和反面。這時如果某一類出現(xiàn)的好學生、投擲硬幣的正面和反面。這時如果某一類出現(xiàn)的概率是概率是P,則另一類出現(xiàn)的概率就是,則另一類出現(xiàn)的概率就是1-P。這種分布稱為二。這種分布稱為二項分布。項分布。SPSS的二項式檢驗通過樣本數(shù)據(jù)檢驗樣本來自的總體是的二項式檢驗通過樣本數(shù)據(jù)檢驗樣本來自的總體是否服從指定的二項分布。否服從指定的二項分布。例如:例如:現(xiàn)代社會男女的比例是否為現(xiàn)代社會男
12、女的比例是否為1.01:1;工廠的次品合格率是否為工廠的次品合格率是否為1%等。等。6.2.2 二項分布二項分布(Binomial)檢驗檢驗武漢大學計算機學院武漢大學計算機學院6.2.2二項分布檢驗二項分布檢驗v 基本思想基本思想(1)通過樣本數(shù)據(jù)檢驗樣本來自的總體是否服從指定概率)通過樣本數(shù)據(jù)檢驗樣本來自的總體是否服從指定概率p的二項分布。的二項分布。(2)二項式檢驗 二分類變量的二項式檢驗。二分類變量的二項式檢驗。 連續(xù)變量的二項式檢驗。連續(xù)變量的二項式檢驗。武漢大學計算機學院武漢大學計算機學院18教材實例教材實例例例4: 一家電信公司每個月大約有一家電信公司每個月大約有27%的用戶會離開
13、,為減少客的用戶會離開,為減少客戶流失,公司經(jīng)理想了解戶流失,公司經(jīng)理想了解不同的客戶群流失不同的客戶群流失比例是否有差異。比例是否有差異。數(shù)據(jù)文件為:數(shù)據(jù)文件為: telco.sav操作步驟操作步驟:1.數(shù)據(jù)數(shù)據(jù) 排序個案排序個案 定類多值變量作為主排序變量,二分變量作為次排序變量。定類多值變量作為主排序變量,二分變量作為次排序變量。 (主)客戶類型(主)客戶類型(1,2,3,4):升序,也可降序。升序更符合觀察習慣。):升序,也可降序。升序更符合觀察習慣。 (次)上個月流失與否(次)上個月流失與否(1是;是;0無):降序。題目中要求檢驗無):降序。題目中要求檢驗chum=1 二項式檢驗中的
14、第一個類別為成功類別。二項式檢驗中的第一個類別為成功類別。2.拆分文件拆分文件 目的:按目的:按custcat客戶類型(客戶類型(1,2,3,4)拆分文件(以比較組方式)。)拆分文件(以比較組方式)。 注:勾選注:勾選【文件已排序文件已排序】3.分析分析 非參數(shù)檢驗非參數(shù)檢驗 二項式二項式 檢驗變量:檢驗變量:chum 檢驗值:檢驗值:0.27思考:該二項式檢驗屬于何種類型的思考:該二項式檢驗屬于何種類型的二項式檢驗?二項式檢驗?武漢大學計算機學院武漢大學計算機學院v結(jié)論結(jié)論 B和和E,客戶流失比例大致等于,客戶流失比例大致等于27% P和和T,客戶流失比例顯著不等于,客戶流失比例顯著不等于2
15、7%武漢大學計算機學院武漢大學計算機學院20如果想知道收入的高低與流失是否有關系。以收入的中位數(shù)如果想知道收入的高低與流失是否有關系。以收入的中位數(shù)$47,000作作為分割點,為分割點,檢驗在流失和沒有流失的客戶中,收入在檢驗在流失和沒有流失的客戶中,收入在$47,000以上的家以上的家庭和庭和$47,000以下的家庭所占的比例是否有顯著差異。以下的家庭所占的比例是否有顯著差異。(數(shù)據(jù)文件為:(數(shù)據(jù)文件為: telco.sav)實現(xiàn)步驟:實現(xiàn)步驟:1.拆分文件拆分文件-根據(jù)流失與未流失分組比較家庭收入根據(jù)流失與未流失分組比較家庭收入 分組方式分組方式:churn 選擇選擇:按分組變量排序文件按
16、分組變量排序文件2.二項式檢驗二項式檢驗-輸入家庭收入的分割點值和檢驗值輸入家庭收入的分割點值和檢驗值 檢驗變量:檢驗變量:income 割點:割點:47 檢驗值:檢驗值:0.5 選項選項/統(tǒng)計量統(tǒng)計量:描述性描述性,四分位數(shù)四分位數(shù)(在(在流失人群和非流失人群流失人群和非流失人群中中低收入和高收入群體的比例低收入和高收入群體的比例相等。)相等。)思考:該二項式檢驗屬于何種類思考:該二項式檢驗屬于何種類型的二項式檢驗?型的二項式檢驗?武漢大學計算機學院武漢大學計算機學院結(jié)論:結(jié)論: 1)無客戶流失組中,家庭收入中位數(shù)47 和中位數(shù)47的比例值接近50% 2)有客戶流失組中,兩者比值有顯著區(qū)別,
17、收入中位數(shù)47的家庭流失的比例多一些武漢大學計算機學院武漢大學計算機學院6.2.3單樣本單樣本K-S檢驗檢驗(1)以俄羅斯數(shù)學家柯爾莫哥和斯米諾夫()以俄羅斯數(shù)學家柯爾莫哥和斯米諾夫( Kolmogorov和和Smirnov )名字命名。)名字命名。(2)基本思路)基本思路:先將順序分類資料數(shù)據(jù)先將順序分類資料數(shù)據(jù)(定序變量定序變量)的理論累計的理論累計頻率分布頻率分布,同觀測的經(jīng)驗累計頻率分布加以比較同觀測的經(jīng)驗累計頻率分布加以比較,求出它們最求出它們最大的偏離值大的偏離值,然后在給定的顯著性水平上檢驗這種偏離值是然后在給定的顯著性水平上檢驗這種偏離值是否是偶然出現(xiàn)的否是偶然出現(xiàn)的.(3)K
18、-S檢驗可以檢驗四種理論分布:檢驗可以檢驗四種理論分布:正態(tài)分布均勻分布泊松分布指數(shù)分布 (4) 原假設原假設:樣本來自的總體與指定的理論分布無顯著差異樣本來自的總體與指定的理論分布無顯著差異。武漢大學計算機學院武漢大學計算機學院v例例5:分析某個地區(qū)駕駛員的交通事故數(shù)量是否:分析某個地區(qū)駕駛員的交通事故數(shù)量是否服從泊松分布。數(shù)據(jù)文件為:服從泊松分布。數(shù)據(jù)文件為:utoaccidents.savv結(jié)論:v0.0280.05,拒絕“過去5年的事故數(shù)的分布為具有均值1.72的泊松分布”的原假設。泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。如某一服務設施在一定時間內(nèi)到達的人數(shù),電話交換機接到呼叫
19、的次數(shù),汽車站臺的候客人數(shù),機器出現(xiàn)的故障數(shù),自然災害發(fā)生的次數(shù)等等。 武漢大學計算機學院武漢大學計算機學院v1.定義:定義:“單樣本變量值的隨機性檢驗單樣本變量值的隨機性檢驗”是對某變量是對某變量的取值出現(xiàn)是否隨機進行檢驗,也稱為游程檢驗。的取值出現(xiàn)是否隨機進行檢驗,也稱為游程檢驗。v所謂游程是樣本序列中連續(xù)出現(xiàn)的變量值的次數(shù)。所謂游程是樣本序列中連續(xù)出現(xiàn)的變量值的次數(shù)。 00000001111110000111100以上序列有3個0游程,2個1游程,共5個游程v2.游程檢驗基本思想游程檢驗基本思想(1)通過對樣本變量值的分析,實現(xiàn)對總體的變量值出現(xiàn))通過對樣本變量值的分析,實現(xiàn)對總體的變量
20、值出現(xiàn)是否隨是否隨機機進行檢驗。進行檢驗。(2)原假設:總體中變量值的出現(xiàn)是隨機的。原假設:總體中變量值的出現(xiàn)是隨機的。 檢驗依據(jù):游程檢驗依據(jù):游程-樣本序列中連續(xù)出現(xiàn)相同的變量值的次數(shù)。樣本序列中連續(xù)出現(xiàn)相同的變量值的次數(shù)。 游程數(shù)太大或太小都表明變量值存在不隨機的現(xiàn)象游程數(shù)太大或太小都表明變量值存在不隨機的現(xiàn)象6.2.5 變量值隨機性檢驗變量值隨機性檢驗(游程檢驗游程檢驗Runs Test)武漢大學計算機學院武漢大學計算機學院例例6:6:游程檢驗實例數(shù)據(jù)與結(jié)果游程檢驗實例數(shù)據(jù)與結(jié)果11010001101011100110擲硬幣20次的實驗結(jié)果 平均數(shù)作為分界點的結(jié)果平均數(shù)作為分界點的結(jié)果
21、自定義分界點的結(jié)果自定義分界點的結(jié)果武漢大學計算機學院武漢大學計算機學院例例7 對若干根電纜作耐壓實驗對若干根電纜作耐壓實驗,檢驗設備的工作是否檢驗設備的工作是否正常。正常。試在試在=0.10的水平下檢驗這批數(shù)據(jù)是否的水平下檢驗這批數(shù)據(jù)是否受到非隨機因素干擾。受到非隨機因素干擾。Runs Test耐電壓值Test Valuea204.55Cases = Test Value10Total Cases20Number of Runs13Z.689Asymp. Sig. (2-tailed).491a. Median本次檢驗以中位數(shù)本次檢驗以中位數(shù)(Median)204.55為為分界值,分界值,p
22、值為值為0.4910.10,因此,接,因此,接受原假設,即在受原假設,即在=0.10顯著性水平下,這些數(shù)顯著性水平下,這些數(shù)據(jù)是隨機的,因此據(jù)是隨機的,因此,設備設備的工作正常的工作正常武漢大學計算機學院武漢大學計算機學院小小 結(jié)結(jié)單樣本非參數(shù)檢驗的各種方法及其區(qū)別單樣本非參數(shù)檢驗的各種方法及其區(qū)別1.卡方檢驗:比較觀察可能性和假設可能性。2.二項式檢驗:比較觀察二分類可能性和假設二分類可能性。3.K-S檢驗:檢驗變量樣本是否為正態(tài)分布、均勻分布、泊松分布或指數(shù)分布。4.游程檢驗:檢驗變量的值序列是否為隨機序列。武漢大學計算機學院武漢大學計算機學院6.3 獨立樣本的非參數(shù)檢驗獨立樣本的非參數(shù)檢
23、驗(1)獨立樣本:在一個總體中隨機抽樣對在另一)獨立樣本:在一個總體中隨機抽樣對在另一個總體中隨機抽樣沒有影響的情況下所獲得的樣個總體中隨機抽樣沒有影響的情況下所獲得的樣本。本。(2)推斷樣本來自的兩個(或多個)總體的)推斷樣本來自的兩個(或多個)總體的分布分布等是否存在等是否存在顯著差異顯著差異。武漢大學計算機學院武漢大學計算機學院檢驗方法檢驗方法v 曼曼-惠特尼惠特尼U檢驗檢驗v K-S檢驗檢驗v W-W游程檢驗游程檢驗v Mose極端反應檢驗極端反應檢驗v 中位數(shù)檢驗中位數(shù)檢驗v K-W檢驗檢驗v JT檢驗檢驗武漢大學計算機學院武漢大學計算機學院兩獨立樣本的兩獨立樣本的Mann-Whit
24、ney UMann-Whitney U檢驗主要通過檢驗主要通過對平均秩的研究來實現(xiàn)推斷。秩簡單地說就是對平均秩的研究來實現(xiàn)推斷。秩簡單地說就是名次。如果將數(shù)據(jù)按照升序進行排序,這時每名次。如果將數(shù)據(jù)按照升序進行排序,這時每一個具體數(shù)據(jù)都會有一個在整個數(shù)據(jù)中的位置一個具體數(shù)據(jù)都會有一個在整個數(shù)據(jù)中的位置或名次,這就是該數(shù)據(jù)的秩,數(shù)據(jù)有多少個,或名次,這就是該數(shù)據(jù)的秩,數(shù)據(jù)有多少個,秩便有多少個。秩便有多少個。1兩獨立樣本的兩獨立樣本的Mann-Whitney U檢驗檢驗兩獨立樣本的兩獨立樣本的Mann-Whitney U(Mann-Whitney U(曼曼- -惠特尼惠特尼) )檢檢驗的零假設驗
25、的零假設H0H0為樣本來自的兩獨立為樣本來自的兩獨立總體均值總體均值沒沒有顯著差異有顯著差異武漢大學計算機學院武漢大學計算機學院2兩獨立樣本的兩獨立樣本的K-S檢驗檢驗兩獨立樣本的兩獨立樣本的K-SK-S檢驗能夠?qū)瑟毩颖镜目倷z驗能夠?qū)瑟毩颖镜目傮w分布情況進行比較。其零假設是體分布情況進行比較。其零假設是H0H0為樣本來為樣本來自的兩獨立自的兩獨立總體分布總體分布沒有顯著差異。沒有顯著差異。武漢大學計算機學院武漢大學計算機學院3兩獨立樣本的游程檢驗(兩獨立樣本的游程檢驗(Wald-Wolfwitz Runs)4兩獨立樣本的極端反應檢驗(兩獨立樣本的極端反應檢驗(Moses Extreme
26、 Reactions) 兩獨立樣本的游程檢驗用來檢驗樣本來自的兩獨立總體兩獨立樣本的游程檢驗用來檢驗樣本來自的兩獨立總體的分布是否存在顯著差異。其零假設是的分布是否存在顯著差異。其零假設是H0H0為樣本來自的兩獨為樣本來自的兩獨立立總體分布總體分布沒有顯著差異。沒有顯著差異。 兩獨立樣本的極端反應檢驗用來檢驗樣本來自的兩獨立總兩獨立樣本的極端反應檢驗用來檢驗樣本來自的兩獨立總體的分布是否存在顯著差異。其零假設體的分布是否存在顯著差異。其零假設H0H0為樣本來自的兩獨為樣本來自的兩獨立立總體分布總體分布沒有顯著差異。沒有顯著差異。武漢大學計算機學院武漢大學計算機學院例:研究兩個不同廠家生產(chǎn)的燈泡
27、使用壽命是否存在顯著差異。隨機抽取兩個廠家生成的燈泡若干,實驗得到使用壽命,數(shù)據(jù)如表所示。燈泡壽命(h)廠 家 編 號67516821691167016501693165016492680263026502646265126202比較有用的結(jié)果:比較四個sig值,如果有三個及以上sig0.05,認為使用壽命無顯著性差異。兩獨立樣本非參數(shù)檢驗兩獨立樣本非參數(shù)檢驗武漢大學計算機學院武漢大學計算機學院武漢大學計算機學院武漢大學計算機學院武漢大學計算機學院武漢大學計算機學院多個獨立樣本非參數(shù)檢驗方法多個獨立樣本非參數(shù)檢驗方法v通過分析多個樣本數(shù)據(jù),推斷樣本來自的多個總通過分析多個樣本數(shù)據(jù),推斷樣本來自
28、的多個總體的體的中位數(shù)或分布中位數(shù)或分布是否存在顯著差異。方法有三是否存在顯著差異。方法有三種:種: Median:是通過對中位數(shù)的研究來實現(xiàn)推斷的 KW:是通過對推廣的平均秩的研究來實現(xiàn)推斷的 JT:與兩個獨立樣本檢驗的Mann-Whitney U類似武漢大學計算機學院武漢大學計算機學院多個獨立樣本非參數(shù)檢驗多個獨立樣本非參數(shù)檢驗v例:一個公司把他們的銷售代表隨機他到三個不例:一個公司把他們的銷售代表隨機他到三個不同組中,進行不同的培訓。兩個月后對銷售進行同組中,進行不同的培訓。兩個月后對銷售進行考察,數(shù)據(jù)文件考察,數(shù)據(jù)文件“salesperformance.sav” 記記錄了他們的考試得分
29、。用非參數(shù)檢驗比較不同組錄了他們的考試得分。用非參數(shù)檢驗比較不同組別的銷售代表考試得分是否存在顯著差異。別的銷售代表考試得分是否存在顯著差異。 分別用中位數(shù)檢驗、多獨立樣本的K-W檢驗、多獨立樣本的JT檢驗實現(xiàn)。 按不同組別繪制考試得分的箱圖。 對結(jié)果作出結(jié)論。武漢大學計算機學院武漢大學計算機學院武漢大學計算機學院武漢大學計算機學院應用案例應用案例v利用利用“多城市兒童身高多城市兒童身高”數(shù)據(jù),對北京、上海、數(shù)據(jù),對北京、上海、成都、廣州四城市的周歲兒童身高進行比較分析成都、廣州四城市的周歲兒童身高進行比較分析,推斷四城市周歲兒童身高是否存在顯著差異。,推斷四城市周歲兒童身高是否存在顯著差異。
30、v分析:分析:(1)對身高分布無確切把握,涉及多個獨立樣本)對身高分布無確切把握,涉及多個獨立樣本,采用采用多獨立樣非參數(shù)檢驗多獨立樣非參數(shù)檢驗(2)分別用中位數(shù)檢驗、多獨立樣本的)分別用中位數(shù)檢驗、多獨立樣本的Kruskal-Wallis檢驗、多獨立樣本的檢驗、多獨立樣本的Jonckheere-Terpstra檢驗實現(xiàn)。檢驗實現(xiàn)。武漢大學計算機學院武漢大學計算機學院6.4 相關樣本的非參數(shù)檢驗相關樣本的非參數(shù)檢驗二個相關樣本檢驗v通過通過兩配對樣本兩配對樣本推斷樣本來自的兩個總體的分布是推斷樣本來自的兩個總體的分布是否存在顯著差異。否存在顯著差異。原假設:兩配對樣本來自的兩總原假設:兩配對樣
31、本來自的兩總體的分布無顯著差異。體的分布無顯著差異。v方法:方法:McNemar檢驗、符號檢驗、檢驗、符號檢驗、Wilcoxon符號秩檢驗。符號秩檢驗。武漢大學計算機學院武漢大學計算機學院符號檢驗符號檢驗sign 與與 Wilcoxonv符號檢驗符號檢驗sign:通過分析二個樣本的正負通過分析二個樣本的正負符號個數(shù)判斷它們是否來自相同的總體符號個數(shù)判斷它們是否來自相同的總體 配對數(shù)據(jù)之差為正值用”+”表示,負值用”-”表示.若兩組數(shù)據(jù)的分布無顯著差異,那么差值為+-號的個數(shù)應大致相等,即出現(xiàn)+或-的概率都為0.5 若在某次隨機抽樣的配對數(shù)據(jù)中,+過多或過少,就可以在一定的顯著性水平上,推斷這兩
32、組數(shù)據(jù)的中位數(shù)水平或總體分布不相同.vWilcoxon秩和檢驗秩和檢驗:是一種改進后的符號檢驗是一種改進后的符號檢驗,不僅考慮兩組配對數(shù)據(jù)之差的正負號不僅考慮兩組配對數(shù)據(jù)之差的正負號,而且還利用而且還利用了其差異大小的信息了其差異大小的信息,是一種更有效的方法是一種更有效的方法.武漢大學計算機學院武漢大學計算機學院McNemar檢驗檢驗 與與 邊際同質(zhì)性邊際同質(zhì)性v 數(shù)據(jù)若是二分類的數(shù)據(jù)若是二分類的,應使用應使用McNemar檢驗檢驗 此時,每個研究對象觀測二次,檢驗其“前后”的變化是否顯著。該方法能檢驗初始的觀測比率(事件前)是否等于最終的觀測比率(事件后),可用于研究特定事件對研究對象的影
33、響.v 數(shù)據(jù)若是多分類的數(shù)據(jù)若是多分類的,應使用邊際同質(zhì)性檢驗應使用邊際同質(zhì)性檢驗 它是McNemar檢驗從二分類事件向多分類事件的推廣.該方法使用卡方分布檢驗事件前及后觀測數(shù)據(jù)的變化.SPSS自動計算自動計算Z統(tǒng)計量和對應的統(tǒng)計量和對應的p值值 p值值顯著性水平,不拒絕原假設,兩配對樣本來自的兩總體顯著性水平,不拒絕原假設,兩配對樣本來自的兩總體分布無顯著差異分布無顯著差異武漢大學計算機學院武漢大學計算機學院 分析10個學生接受某種方法進行跳遠訓練的效果,收集到這些學生在訓練前、后的成績,如表所示。表格的每一行表示一個學生的4個成績。其中訓練前和訓練后,0表示不合格,1表示合格;第三列表示訓
34、練前學生的具體成績;第四列表示訓練后學生的具體成績。問訓練前后學生的成績是否存在顯著差異? SPSS中實現(xiàn)過程訓練前訓練后訓練前成績訓練后成績0158.0070.001170.0071.000145.0065.000156.0068.000045.0050.000050.0055.001161.0075.001170.0070.000155.0065.001160.0070.00武漢大學計算機學院武漢大學計算機學院vH0:訓練前后的數(shù)據(jù)來自同一個分布的總體訓練前后的數(shù)據(jù)來自同一個分布的總體,即訓即訓練效果不顯著練效果不顯著vP=0.1250.05,接受接受H0武漢大學計算機學院武漢大學計算機學院多個相關樣本檢驗方法有三種:方法有三種:v Cochran Q:要求樣本數(shù)據(jù)為二值的:要求樣本數(shù)據(jù)為二值的(1滿意滿意 0不滿意)不滿意),適用于對適用于對二值二值品質(zhì)型數(shù)據(jù)品質(zhì)型數(shù)據(jù)進行檢驗。進行檢驗。vFriedman:利用秩實現(xiàn):利用秩實現(xiàn),適用于對數(shù)值適用于對數(shù)值型數(shù)據(jù)進行檢驗。型數(shù)據(jù)進行檢驗。vKendall協(xié)同系數(shù)檢驗(協(xié)同系數(shù)檢驗(可實現(xiàn)對評判者評可實現(xiàn)對評判者評判
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZSM 0060-2024“領跑者”評價技術要求 微型往復活塞空氣壓縮機
- 二零二五年度競業(yè)禁止期限及競業(yè)限制解除后的競業(yè)禁止責任及賠償執(zhí)行及監(jiān)督合同
- 二零二五年度金融衍生品合同印花稅稅率變動與市場創(chuàng)新
- 二零二五年度手房過戶二手房交易中介服務合同協(xié)議
- 二零二五年度智慧能源合伙經(jīng)營股權(quán)協(xié)議書
- 二零二五年度文藝演出宣傳推廣合作協(xié)議
- 2025年度智能債權(quán)轉(zhuǎn)讓服務合同不可適用借款合同解析
- 2025年度生態(tài)魚塘資源租賃管理合同
- 二零二五年度商鋪租賃糾紛解決機制合同
- 二零二五年度跨區(qū)域集體合同-XX行業(yè)職工勞動條件提升協(xié)議
- 近三年投標沒有發(fā)生過重大質(zhì)量安全事故的書面聲明范文
- 《工程熱力學》(第四版)全冊配套完整課件
- 2024時事政治考試題庫(100題)
- 2024年司法考試真題及答案
- 膽總管切開取石T管引流術護理查房參考課件
- YYT 1814-2022 外科植入物 合成不可吸收補片 疝修補補片
- 工程機械設備綜合保險
- 中圖版高中地理選擇性必修1第3章第1節(jié)常見天氣現(xiàn)象及成因課件
- 2024年時政必考試題庫(名師系列)
- 獸醫(yī)檢驗題庫與答案
- 第三章 環(huán)境污染物在體內(nèi)的生物轉(zhuǎn)運和生物轉(zhuǎn)化課件
評論
0/150
提交評論