非參數(shù)統(tǒng)計-2016_第1頁
非參數(shù)統(tǒng)計-2016_第2頁
非參數(shù)統(tǒng)計-2016_第3頁
非參數(shù)統(tǒng)計-2016_第4頁
非參數(shù)統(tǒng)計-2016_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、華中農(nóng)業(yè)大學(xué)數(shù)學(xué)建模基地非參數(shù)統(tǒng)計非參數(shù)統(tǒng)計華中農(nóng)業(yè)大學(xué)數(shù)學(xué)建?;厝A中農(nóng)業(yè)大學(xué)數(shù)學(xué)建?;貐?shù)檢驗 parametric test 如 t 檢驗: F 檢驗:0:171.2Hcm012:kH一. 問題的提出 非參數(shù)檢驗(nonparametric test)對數(shù)據(jù)的總體分布類型不作嚴格假定,又稱任意分布檢驗(distribution-free test), 它直接對總體分布的位置作假設(shè)檢驗。 缺點:缺點:方法比較粗糙,對于符合參數(shù)檢驗條件者,采用方法比較粗糙,對于符合參數(shù)檢驗條件者,采用非參數(shù)檢驗非參數(shù)檢驗會損失部分信息,其檢驗效能較低會損失部分信息,其檢驗效能較低;樣本含;樣本含量較大時,

2、兩者結(jié)論常相同量較大時,兩者結(jié)論常相同應(yīng)用非參數(shù)檢驗的情況1.不滿足正態(tài)和方差齊性條件不滿足正態(tài)和方差齊性條件的小樣本資料;的小樣本資料;2.總體總體分布類型不明分布類型不明的小樣本資料;的小樣本資料;3.一端或二端是不確定數(shù)值(如一端或二端是不確定數(shù)值(如0.002、65等)等)的資料的資料;4.單向有序列聯(lián)表單向有序列聯(lián)表資料;資料;5. 各種資料的各種資料的初步分析初步分析。無效無效有效有效顯效顯效實驗組 61935對照組 142024秩次(rank)將數(shù)值變量值從小到大,或等級變量值從弱到強所排列的序號。例例1 11只大鼠存活天數(shù):只大鼠存活天數(shù):存活天數(shù)存活天數(shù) 4,10,7,50,

3、3,15,2,9,13,60,60秩次 3 6 4 9 2 8 1 5 7 10 11 10.5 10.5例例2 7名名 肺炎病人的治療結(jié)果:肺炎病人的治療結(jié)果:危險程度危險程度 治愈治愈 治愈治愈 死亡死亡 無效無效 治愈治愈 有效有效 治愈治愈秩次 1 2 7 6 3 5 4平均秩次平均秩次 2.5 2.5 7 6 2.5 5 2.5本次介紹的非參數(shù)的假設(shè)檢驗方法 主要基于秩次秩次秩次相同(tie)取平均秩次!二. 基本思想(4)由樣本值計算由樣本值計算T的值,若的值,若T W,則拒絕,則拒絕H0 否則否則, ,接受接受H0 0(1)根據(jù)實際問題提出原假設(shè)根據(jù)實際問題提出原假設(shè)H0和備擇假

4、設(shè)和備擇假設(shè)H1(2)選取適當?shù)慕y(tǒng)計量選取適當?shù)慕y(tǒng)計量T,并在并在H0成立條件下確定成立條件下確定出出T的分布的分布(3)確定拒絕域確定拒絕域W,使使PT W|H0真真=三. 基本步驟華中農(nóng)業(yè)大學(xué)數(shù)學(xué)建?;厝A中農(nóng)業(yè)大學(xué)數(shù)學(xué)建?;厮? 非參數(shù)檢驗的方法介紹1. 兩組樣本數(shù)據(jù)的檢驗兩組樣本數(shù)據(jù)的檢驗 1.1 兩個兩個相關(guān)樣本相關(guān)樣本檢驗檢驗 1.2 兩個兩個獨立樣本獨立樣本檢驗檢驗2.多組樣本數(shù)據(jù)的檢驗多組樣本數(shù)據(jù)的檢驗 2.1 多組個獨立樣本獨立樣本檢驗 2.2 多組個相關(guān)樣本相關(guān)樣本檢驗3.相關(guān)性指標與檢驗相關(guān)性指標與檢驗 1.1 兩個相關(guān)樣本檢驗配對樣本比較的Wilcoxon符號秩檢驗

5、(Wilcoxon signed-rank test)1配對樣本差值的中位數(shù)與0的比較2單個樣本中位數(shù)和總體中位數(shù)比較 表 12份血清兩法測血清谷-丙轉(zhuǎn)氨酶(nmol S-1/L)的比較 (1)配對樣本差值的中位數(shù)與配對樣本差值的中位數(shù)與0的比較的比較1. 建立檢驗假設(shè),確定檢驗水平2. 求檢驗統(tǒng)計量T值 省略所有差值為0的對子數(shù)檢驗步驟 按差值的絕對值從小到大編秩,相同秩(ties)則取平均秩 任取正秩和或負秩和為任取正秩和或負秩和為T,本例取,本例取T=11.5。3. 確定P值,作出推斷結(jié)論 (1)當n50時,查T界值表 判斷原則判斷原則: T 在范圍之外,Pn=12, =0.10 :13

6、-53 =0.05 :10-56T=11.5(2)若當n50,超出附表9范圍,可用正態(tài)近似法作z檢驗。 3(1)/4z()(1)(21)2448jjTn nttn nn注:注:tj(j=1,2,L)為第j個相同秩次的個數(shù)data d1; input id x1 x2 ; d=x1-x2; cards; 1 60 80 2 142152 3 195243 4 80 82 5 242240 6 220220 7 190205 8 25 38 9 212243 10 38 44 11236200 12 95100;proc univariate;var d; run;SAS 程序Univariate

7、 ProcedureVariable=D1 Tests for Location: Mu0=0 Test -Statistic- -p Value- Students t t 1.60232 Pr |t| 0.1374 Sign M 3.5 Pr = |M| 0.0654 SAS 輸出結(jié)果(2)單個樣本中位數(shù)和總體中位數(shù)比較11n,單側(cè)0.05的T范圍為13-53;T=1.5 在此范圍之外, P |t| 0.0072Sign M 4.5 Pr = |M| 0.0117 SAS 輸出結(jié)果1.2 兩個獨立樣本檢驗Wilcoxon秩和檢驗 Wilcoxon rank sum test 1區(qū)間(計量)

8、數(shù)據(jù)的兩樣本比較 2有序(等級)數(shù)據(jù)的兩樣本比較1區(qū)間(定量)數(shù)據(jù)的兩樣本比較 符合參數(shù)條件時,采用兩樣本均數(shù)的t檢驗表15.1 不同作業(yè)的兩組工人的血鉛值 例數(shù)較小者為n1、T1檢驗步驟求檢驗統(tǒng)計量T 值 把兩樣本數(shù)據(jù)混合從小到大編秩,遇數(shù)據(jù)相等者取平均秩; 以樣本例數(shù)小者為1n,其秩和(1T)為T,若兩樣本例數(shù)相等,可任取一樣本的秩和(1T或2T)為T,本例T=93.5。 H0:兩組總體分布位置相同; H1 :分布位置不相同;0.05確定P值,作出推斷下結(jié)論 1. 查表法 (樣本含量較小,根據(jù)T查P值) 2. 較大作正態(tài)近似性檢驗 1312312(1)/2()(1)112(1,2,)jjj

9、Tn Nzttn n NNNtjjNnn為第 個相同秩次的個數(shù)Ldata a; input y g; cards;515161719112 113 115 118 121 117 218 220 225 234 243 22;proc npar1way wilcoxon; class g; var y; run;SAS 程序 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under

10、 H0 Under H0 Score - 1 10 59.50 90.0 10.234386 5.950000 2 7 93.50 63.0 10.234386 13.357143 Average scores were used for ties. Wilcoxon Two-Sample Test Statistic 93.5000 Normal Approximation Z 2.9313 One-Sided Pr Z 0.0017 Two-Sided Pr |Z| 0.0034 t Approximation One-Sided Pr Z 0.0049 Two-Sided Pr |Z|

11、0.0098 Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square 8.8813 DF 1 Pr Chi-Square 0.0029SAS 輸出結(jié)果 2 單項有序列聯(lián)表數(shù)據(jù)的兩樣本比較 名義數(shù)據(jù)的兩樣本比較,采用率或構(gòu)成比的卡方 檢驗常錯誤采用 卡方檢驗 表 吸煙與不吸煙工人的HbCO(%)含量的比較 注:HbCO:一氧化碳血紅蛋白,一氧化碳血紅蛋白,HbCO不具有與氧氣進行有效交換的功能,會導(dǎo)致攜帶氧氣能力下降0H:吸煙工人和不吸煙工人的 HbCO 含量總體分布位置相同 1H:吸煙工人的 HbCO

12、含量高于不吸煙工人的 HbCO 含量 0.05 先確定各等級的合計人數(shù)、秩范圍和平均秩,見表8-6的(4)欄、(5)欄和(6)欄,再計算兩樣本各等級的秩和,見(7)欄和(8)欄; 本例T=1917; 3191739 (79 1)/23.702339 40 (79 1)52230(1)127979Z查附表得單側(cè)0.0005P ,按0.05水準拒絕0H,接受1H,可認為吸煙工人的 HbCO(%)含量高于不吸煙工人的 HbCO(%)含量。 139n ,240n ,394079N 計算Z值333333()(33)(3131)(2727)(1414)(44) 52230jjttdata a; input

13、 y g FREQ; cards;1112183116411051412222233211424520;proc npar1way wilcoxon; class g; FREQ FREQ; var y; run;SAS 程序 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score - 1 39 1917.0 1560.0 96.426663

14、49.153846 2 40 1243.0 1600.0 96.426663 31.075000 Average scores were used for ties. Wilcoxon Two-Sample Test Statistic 1917.0000 Normal Approximation Z 3.6971 One-Sided Pr Z 0.0001 Two-Sided Pr |Z| 0.0002 t Approximation One-Sided Pr Z 0.0002 Two-Sided Pr |Z| 0.0004 Z includes a continuity correctio

15、n of 0.5. Kruskal-Wallis Test Chi-Square 13.7070 DF 1 Pr Chi-Square 0.0002SAS 輸出結(jié)果2.1 多組個獨立樣本檢驗完全隨機設(shè)計多個樣本比較的Kruskal-Wallis H檢驗 1區(qū)間(計量)數(shù)據(jù)的樣本比較 2有序(等級)數(shù)據(jù)的樣本比較(1)區(qū)間(定量)數(shù)據(jù)的多個樣本比較 Kruskal-Wallis H檢驗H0 :多個總體分布位置相同; H1 :多個總體分布位置。 如果滿足參數(shù)條件,這類資料一般作完全隨機設(shè)計ANOVA確定確定P值,作出推斷結(jié)論值,作出推斷結(jié)論 1. 當3g , 5in 時,查H界值表 2. 若3g

16、且最小ni大于5時,H或CH近似服從1g的2分布,查2界值表。 本例15N ,1235nnn,查附表得0.01P ,按0.05水準拒絕0H,接受1H,可認為三種藥物殺滅釘螺的效果不同。 data a; input y g; cards;32.5135.5140.5146 149 116 220.5222.5229 236 26.5 39 312.5318 324 3;proc npar1way wilcoxon; class g; var y; run;SAS 程序 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable

17、y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score - 1 5 63.0 40.0 8.164966 12.60 2 5 38.0 40.0 8.164966 7.60 3 5 19.0 40.0 8.164966 3.80 Kruskal-Wallis Test Chi-Square 9.7400 DF 2 Pr Chi-Square 0.0077SAS 輸出結(jié)果(2)單項有序列聯(lián)表數(shù)據(jù)的樣本比較這種數(shù)據(jù)常被錯誤采用卡方檢驗0H:四種疾病患者痰液內(nèi)嗜酸性白細胞總體

18、分布位置相同 1H:四種疾病患者痰液內(nèi)嗜酸性白細胞總體分布位置不全相同 0.05 如表 8-11 第欄(支氣管擴張組)的秩和1R是用第欄各等級的 頻 數(shù) 與 第 ( 8 ) 欄 平 均 秩 相 乘 再 求 和 , 即10(6)2(21)9(40.5)6(55.5)739.5R ,仿此得表8 11iR下部 行。 222212739.5436.5409.5244.5()3(60 1)14.2860(60 1)17151711H data a; input y g FREQ; cards;1102123194161232253254221352373334321432453434 4 0;proc

19、npar1way wilcoxon; class g; FREQ FREQ; var y; run; SAS 程序 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score - 1 17 739.50 518.50 58.490529 43.500000 2 15 436.50 457.50 56.205491 29.100000 3 17 40

20、9.50 518.50 58.490529 24.088235 4 11 244.50 335.50 50.225150 22.227273 Average scores were used for ties. Kruskal-Wallis Test Chi-Square 15.5058 DF 3 Pr Chi-Square 0.0014SAS 輸出結(jié)果2.2 多組相關(guān)樣本檢驗隨機區(qū)組設(shè)計隨機區(qū)組設(shè)計多個樣本比較的Friedman M檢驗 在每個配伍組內(nèi)編秩次2222()(1) /4iiMRRRb k k222222(111623.529.5 )84 (41) /4199.5M data a;

21、 input block group y ; cards;118.4129.62111.62212.7319.4329.1419.8428.7518.3528618.6629.8718.9729817.8828.2139.81411.72311.824123310.4349.8439.94412538.6548.6639.66410.67310.67411.4838.58410.8;Proc freq; tables block*group*y / noprint cmh2 scores=rank;run; SAS 程序 The FREQ Procedure Summary Statistic

22、s for group by y Controlling for blockCochran-Mantel-Haenszel Statistics (Based on Rank Scores)Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 15.0722 0.0001 Total Sample Size = 32SAS 輸出結(jié)果3. 等級相關(guān)應(yīng)用:兩個樣本的相關(guān)分析當兩個變量不服從正態(tài)分布時,可以采用等級相關(guān)分析。Pearson相關(guān)系數(shù)的估計和檢驗 1)估計相關(guān)系數(shù),估計公式:其中,xi和yi是服從正態(tài)

23、分布的兩個隨機變量, 分別是這兩個隨機變量的均值。 y x 80 307 75 259 90 341 70 237 75 254 105 416 70 267 85 320 88 374 78 316回憶:2、 計算估計值r 的標準誤3、 的假設(shè)檢驗 H0: =0 vs H1: 04、統(tǒng)計推斷結(jié)論:查=n-2 的 t-分布表。的估計公式:當兩個隨機變量xi和yi不服從正態(tài)分布或分布未知時,用下面公式估計相關(guān)系數(shù),這就是Spearman相關(guān)系數(shù)。其中si和ti分別是xi和yi的秩次, 分別是si和ti的均值。Spearman 相關(guān)系數(shù)的估計和檢驗與計算Pearson相關(guān)系數(shù)的區(qū)別:采用秩次代替原

24、變量Spearman相關(guān)系數(shù)的另一計算公式:其中,d= s-t 16122nndrs相同秩次較多時YXYXsTnnTnndTTnnr26/ )(26/ )()(6/ )(3323TX(或TY)(t3t)/12,t為X(或Y)中相同秩次的個數(shù)。 【例15.6】 某地作肝癌病因研究,調(diào)查了10個不同地區(qū)肝癌死亡率(1/10萬)與某種食物中黃曲霉素相對含量,見表15.16第(2)、(4)欄。試作等級相關(guān)分析 。注:在濕熱地區(qū)食品中出現(xiàn)黃曲霉毒素的機率最高。存在于土壤、動植物、各種堅果中,是霉菌毒素中毒性最大、對人類健康危害極為突出的一類霉菌毒素。食品中所污染的主要是黃曲霉毒素B1,其毒性一般認為有三種臨床特征;急性中毒、慢性中毒和致癌性1. 建立檢驗假設(shè),確定檢驗水準H0: 不同地區(qū)肝癌死亡率與黃曲霉素相對含量不相關(guān)。H1:不同地

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論