SAS方差分析理論+程序?qū)嵗齙第1頁
SAS方差分析理論+程序?qū)嵗齙第2頁
SAS方差分析理論+程序?qū)嵗齙第3頁
SAS方差分析理論+程序?qū)嵗齙第4頁
SAS方差分析理論+程序?qū)嵗齙第5頁
免費預覽已結(jié)束,剩余28頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二十五課方差分析當影響觀察結(jié)果的影響因素(原因變量或分組變量)的水平數(shù)大于 2 或原因變量的個數(shù)大于 1 個,一元時常用 F 檢驗(也稱一元方差分析),多元時用多元方差分析(最常用 WilksA 檢驗)。方差分析概述方差分析(analysisofvariance)又稱變異數(shù)分析,可簡記為 ANOVA,主要用于檢驗計量資料中的兩個或兩個以上均值間差別顯著性的方法。 當欲比較幾組均值時, 理論上抽得的幾個樣本, 都假定來自正態(tài)總體,且有一個相同的方差,僅僅均值可以不相同。還需假定每一個觀察值都由若干部分累加而成,也即總的效果可分成若干部分,而每一部分都有一個特定的含義,稱之謂效應的可加性。所謂的

2、方差是離均差平方和除以自由度,在方差分析中常簡稱為均方 MS(meansquare)。1 .方差分析的基本思想根據(jù)效應的可加性,將總的離均差平方和分解成若干部分,每一部分都與某一種效應相對應,總自由度也被分成相應的各個部分,各部分的離均差平方除以相應部分的自由度得出各部分的均方,然后列出方差分析表算出F值,作出統(tǒng)計推斷。方差分析的關(guān)鍵是總離均差平方和的分解,分解越細致,各部分的含義就越明確,對各種效應的作用就越了解,統(tǒng)計推斷就越準確。方差分析表的一般形式見表 25.1 所示:表 25.1 方差分析表形式變異來源離差平方和自由度均方F 統(tǒng)計量P 概率值sourceSSdfMSFP效應SISS1d

3、f1MSI=SS1/df1F1(df1,dfe)=MS1/MSePI效應 S2SS2df2MS2=SS2/df2F2(df2,dfe)=MS2/MSeP2,效應 Sm,SSm,dfm,MSm=SSm/dfm,Fm(dfmdfe)=MSm/MSePm誤差 SeSSedfeMSe=SSe/dfe總變異 STSST=SS1+SS2+,+SSm+SSedfT=df1+df2+,+dfm+dfeMST=SST/dfTFT(dfT,dfe)=MST/MSePT表中變異來源一欄,可分為總變異(total),誤差(residual),各個效應(effect)相對應的項。效應項與試驗設計或統(tǒng)計分析的目的有關(guān),一

4、般有:主效應(包括各種因素),交互影響項(因素間的多級交互影響),協(xié)變量(來自回歸的變異項),等等。當分析和確定了各個效應項 S 后,根據(jù)原始觀察資料可計算出各個離均差平方和 SS,再根據(jù)相應的自由度 df,由公式 MS=SS/df,求出均方 MS,最后由相應的均方,求出各個變異項的 F 值,F(xiàn) 值實際上是兩個均方之比值,通常情況下,分母的均方是誤差項的均方。根據(jù)F 值的分子、分母士方的自由度 f1和 f2,在確定顯著性水平為 0 情況下,由F(f1,f2)臨界值表查得單側(cè)F界限值。當F,不拒絕原假設H。,說明不拒絕這個效應項的效應為0的原假設,也即這個效應項是可能對總變異沒有實質(zhì)影響的;如果

5、F之FQ,則上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFEP PMot,拒絕原假設Ho,說明拒絕這個效應項的效應為 0 的原假設,也即這個效應項是很可能對總變異有實質(zhì)影響的。2 .方差分析的試驗設計為了確定方差分析表中各個有關(guān)效應項,需要在試驗設計階段就作出安排,再根據(jù)設計要求進行試驗,得出原始觀察值, 按原來設計方案算出方差分析表中的各項。 在試驗設計階段常需要作主要四個方面的考慮:1)研究的主要變量方差分析的主要變量,也稱響應變量或因變量(dependentvariable),它是我們試驗所要觀察的主要指標。一次試驗時可以有多個觀察指標,方差分析時也可以同時對多個因變量進行分析。2)因素和水

6、平試驗的因素(factor)可以是品種、人員、方法、時間、地區(qū)等等,因素所處的狀態(tài)叫水平(level)。在每一個因素下面可以分成若干水平。例如,某工廠的原料來自四個不同地區(qū),那么用不同地區(qū)的原料生產(chǎn)的產(chǎn)品質(zhì)量是否一致呢?所要比較的地區(qū)就是因素,四個地區(qū)便是地區(qū)這一因素的四個水平。當某個主要因素的各個水平間的主要因變量的均值呈現(xiàn)統(tǒng)計顯著性時, 必要時可作兩兩水平間的比較, 稱為均值間的兩兩比較。3)因素間的交互影響多因素的試驗設計,有時需要分析因素間的交互影響(interaction),2 個因素間的交互影響稱為一級交互影響,例如因素 A 與因素 B 的一級交互影響可記為 AxB,3 個因素間的

7、交互影響稱為二級交互影響,例如因素 A 與因素 B 與因素 C 的二級交互影響可記為 AxBx&當交互影響項呈現(xiàn)統(tǒng)計不顯著時,表明各個因素獨立,當呈現(xiàn)統(tǒng)計顯著時,就需要列出這個交互影響項的效應,以助于作出正確的統(tǒng)計推斷。二、單因素方差分析單 因 素 方 差 分 析(onefactorANOVA 或 one-wayANOVA) 或 稱 為 完 全 隨 機 設 計 的 方 差 分 析(completelyrandomdesignANOVA)。試驗設計時按受試對象的抽取或分組的隨機程度不同可細分為以下兩類:完全隨機設計一一從符合條件的總體中完全隨機地抽取所需數(shù)目的受試對象,再將全部受試對象完

8、全隨機地分配到 k 組中去。此時,受試對象與試驗因素間無直接聯(lián)系。組內(nèi)完全隨機設計一一按試驗因素的 k 個水平將全部受試對象劃分成 k 個子總體,再分別從 k 個子總體中完全隨機地抽取所需數(shù)目的受試對象。此時,試驗因素的各水平?jīng)Q定了受試對象各自應該歸屬的組別。設因素A有 k 個水平A,A2,,A,在每一個水平下考察的指標可以看成一個總體,現(xiàn)有 k 個水平,故有 k 個總體,并假定:每一總體均服從正態(tài)分布;每一總體的方差相同;從每一總體中抽取的樣本相互獨立。我們要比較各個總體的均值是否一致,就是要檢驗各總體的均值是否相同,設第體的均值為此,那么就是要檢驗如下原假設:上海財經(jīng)大學經(jīng)濟信息管理系 I

9、S/SHUFEi 個總Hi:1,2,,k不全相同。設從第 i 個總體獲得容量為 n n 的樣本觀察值為yii,yi2,,y*,i i=1,2=1,2,k,k,各樣本間還是相互獨立的。樣本觀察值yj可看成是來自均值為匕的總體,這樣yj就是其均值巳與隨機誤差aj迭加而產(chǎn)生的。上面我們已經(jīng)假定在A水平下的yj服從N(,。2)分布,則有的N(0,02)。因此,我們有單因素方差分析的統(tǒng)計模型:,ij=凡+%,i i=1,2, ,k, ,j=1,2, ,ni各囪相互獨立,且都服從 N(0N(0O2) )為了能更仔細地描述數(shù)據(jù),常在方差分析模型中引人一般平均與效應的概念。稱各個匕的加權(quán)平均1 1k口“n n

10、$ $nynyk為總平均,其中 n n= = m m。稱i1ai-i-J,i=1,2,k(25.3)為因素 A 在第 i 水平的主效應,也簡稱為 A 的效應,同時也表明第 i 個總體的均值是一般平均與其效應的迭加。容易看出效應間有如下關(guān)系式:k、* *i3 3i=0=0(25.4)i1此時,單因素方差分析的統(tǒng)計模型可改寫成包含效應的形式:=N+陽,i=1,2,,k,j=1,2,,小kna=0(25.5)iT、各句相互獨立,且都服從N(0,。2)所要檢驗的原假設也可改寫成:H0:a1=a2=ak=0現(xiàn)在,我們知道造成各yj間差異的原因可能有兩個:一個可能是假設H0不真,即各水上海財經(jīng)大學經(jīng)濟信息

11、管理系 IS/SHUFE其備選假設為:(25.1)(25.2)平下總體均值(或水平效應 a)不同,因此從各總體中獲得的樣本觀察值也就有差異了;另一可能是H0為真,差異是由于隨機誤差引起的。為了進一步定量分析這些差異,我們需要把這些差異表達出來。由(25.1)可推導出:=-N,(25.6)Ini其中y*=Zyj/ni,嬴=句/口。即組內(nèi)樣本觀察值的平均值等于組內(nèi)總體均值加上ij1組內(nèi)隨機誤差的平均值。還可由(25.5)推導出:y-;(25.7)knikni其中y=yj/n,z%。即所有樣本觀察值的平均值等于總平均(各組均值的iz1j4i4j4加權(quán)平均)加上所有隨機誤差的平均值。這樣,每一個觀察值

12、yj與總平均 y 的偏差可以分解成兩部分:%y=也yj)位.一9)(25.8)其中yij-Yi稱為組內(nèi)偏差,由(25.1)和(25.6)代入得到:yij-yi.=(i;ij)-(,i;i)二;ij-;i(3.2.9)說明組內(nèi)偏差僅僅反映了隨機誤差。而YQy稱為組間偏差,由(25.6)、(25.7)和(25.3)代入得到:y.-y=(5;)(;)=ai(25.9)說明第 i 組間偏差除了反映隨機誤差外還反映了第 i 個水平白效應aiO各yj間總的差異大小可用總偏差平方和ST表示:kniST二二(yij-y)2(25.10)yj日由(25.9)隨機誤差引起的數(shù)據(jù)間的差異可以用組內(nèi)偏差平方和表示,也

13、稱誤差偏差平方和Se:kniSe=(yij-yj(25.11)idjd由于組間偏差除了隨機誤差外,還反映了效應的差異,故由于效應不同引起的數(shù)據(jù)差異可以用組間偏差平方和表示,也稱因素 A 的偏差平方和SA:上海財經(jīng)大學經(jīng)濟信息管理系IS/SHUFE來假設檢驗。三、多重比較當 k 組均值比較,如果經(jīng)過 F F 檢驗拒絕原假設,表明因素 A A 是顯著的,即 k 個水平對應的指標均值不全相等,但不一定兩兩之間都有差異。在一些實際問題中,當方差分析的結(jié)論是因素 A A 顯著時,還需要我們進一步去確認哪些水平間是確有差異的,哪些水平間無顯著差異。同時比較任意兩個水平均值間有無顯著性差異的問題稱為多重比較

14、,即要以顯著性水平u,同時檢驗以下 C C;個假設:2SA=y)y)i1將表示總差異的平方和進行分解:knikniST八(yij-y)2-%(yij7i.yi.-y)2i4j4i4j4kniknikni(yij-yj一七二(Vi.-y)22%(yij-y/Si.T)ijji4ji4jknik八%(yj-%J2八nMy-y)2i3jWi1=SeSA(25.12)(25.13)ni其中工(yjy)=0。證明了:總的差異=組內(nèi)差異+組間差異。由于j11ni1ni土”(yij-y)=土(;ij-。22(ni-1)-j1j-j1(25.14)又由丁2分布的可加性可知Se2CJkini|k=|2工(yij

15、yji=*(ni1)=?2(nk)i3j三-i凸(25.15)還可證明,在H0為真時,即各組效應&都為 0SA22 (k(k- -d)d)O(25.16)因此可采用統(tǒng)計量SA/(1)SeZ(n-k)F(k-1,n-k)(25.17)H0:片=i:二j,i,j=1,2,k均值間的多重比較的方法從形式上可分為幾類: 臨界值相對固定的兩兩比較、 臨界值不固定的多級檢驗、全部處理組均值與一個對照組均值比較。每一種類型中,根據(jù)所控制誤差的類型和大小不同,又有許多不同的具體方法。如 T(成組比較 t 檢驗法)、Bon(Bonforronit 檢驗法)、Dunnett(與對照組均數(shù)比較)、SNK(S

16、tudent-Newman-Keuls 或稱 q 檢驗法)、Tukey(學生化極差 HSD 或稱最大顯著差)、Duncan(新多極差檢驗法)、LSD(最小顯著差)、SIDAK(Sidak 不等式進行校正 t 檢驗法)、SCHEFFE(Scheffe 的多重對比檢驗)、Waller-Duncan(k 比率 t 檢驗)、GT2 或 SMM(學生化最大模數(shù)和 Sidak 不等式進行校正 t 檢驗法)、REGWF(多重 F 檢驗)、REGWQ(多重極差檢驗)。在多重比較時,選用什么樣的檢驗方法,首先要注意每種方法適用的試驗設計條件,其次要關(guān)心所要控制的誤差類型和大小。例如,某因素有 10 個水平,若采

17、用通常的 t 檢驗進行多重比較,共需要比較的次數(shù)為C120=45次,即使每次比較時都把第一類錯誤a控制在 0.05水平上,但經(jīng)過 45 次多重比較后,犯第一類錯誤的概率上升到:1-(1-0.05)45=0.90。從中我們可以看到選用 t 檢驗法進行多重比較,僅僅控制了每次比較的顯著水平,但卻大大增加了整體的顯著水平。下面是所要控制的幾種誤差類型和選用的檢驗方法:第一類誤差率一一即犯第一類錯誤的概率 a a。比較誤差率一一即每一次單獨比較時,所犯第一類錯誤的概率??墒褂?T 法、LSD 法、DUNCAN法。試驗誤差率一一即完成全部比較后,整體所犯第一類錯誤的概率。完全無效假設下的試驗誤差率一一即

18、在HO假設完全無效下的試驗誤差率。可使用SNK 法。部分無效假設下的試驗誤差率一一即在HO假設部分無效下的試驗誤差率。最大試驗誤差率一一即在在HO假設完全或部分無效下,完成全部比較后所犯第類錯誤的最大概率。 可使用BON法、 SIDAK法、 SCHEFFE法、 TUKEY法、 GT2/SMM法、 GABRIEL法、REGWQ 法、REGWF 法、DUNNETT 法。1)T 檢驗和 Bonforroni 檢驗當因素有 k 個水平時,對任意兩個水平均值間的差異的顯著性檢驗,可用兩兩比較的次數(shù)共有m=C:=k k(k-1k-1)/2/2, ,因此,共有m個置信水平,每次比較的顯著水平:T 檢驗的方法

19、取 a a。完成所有比較后的整體顯著水平等于1-(1-二)由(25.21)當比較次數(shù)m越大,試驗誤差就越大。而 Bonforroni 檢驗的方法取口/m/m。完成所有比較后(25.18)t 統(tǒng)計量(25.19)上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE當 yi+-yyi+-yj生 LSDLSDj時,則 P PMotMot。3)SNK 檢驗和 Duncan 檢驗(應用最多)SNK 法和 Duncan 法都屬于多級檢驗法中的一種,使用多級檢驗可以獲得同時檢驗的更高效率。多級檢驗分為步長增加法和步長減少法,SAS 系統(tǒng)采用步長減少法。當因素有 k 個水平時,即有 k 個均值需要比較,檢驗步驟為:1

20、將均值由大到小排隊,即y1之y2之,;yk.。2比較.與yk渦否有顯著差異。此時跨度 a a= =k k。若兩者之間無顯著差異,說明其他均值之差比它小的任何兩個水平均值之間的差別也無顯著性,所以停止一切比較;反之,則繼續(xù)進行下一步。3比較工與Vk,比較y2與Vk是否有顯著差異。此時這 2 個比較的跨度a=k-a=k-1 1。若兩者之間的比較無顯著差異,則停止一切比較。如果每一步都有不滿足停止比較的對比組存在,最后應到達跨度為 2 的所有需要比較的相鄰兩水平均值間都作完比較時為止。多級檢驗在作每一級比較時,通過控制比較誤差率aa的顯著水平來實現(xiàn)其最終要控制的試驗誤差率。要注意的是在每一級比較時可

21、能是不同的,它是跨度a和整體試驗誤差率口的函數(shù),即=f(a,u)。另外,要注意的是 y ya a 其實就是每一級比較時特定統(tǒng)計量分布的顯著水平。常用的兩種方法是 SNK 檢驗和 Duncan 檢驗。它們的檢驗統(tǒng)計量為 q(也稱學生化極差統(tǒng)計量),如下yi一yj/,xqj-q(a,n-k)Se1十1(25.24):2(n-k)jinj其中a是.和yj/間的跨度值,q q 分布的自由度是a和 n-k,n-k,顯著水平為乙SNK檢驗和 Duncan 檢驗的區(qū)別主要在于?a a取值上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE的整體顯著水平等于1(1Y/m)m:(25.22)即最大試驗誤差率小于1a。2

22、)LSD 檢驗既可以通過兩兩比較的顯著水平的特定限制來控制最終的試驗誤差率,也可以通過兩兩比較的絕對差異界限來判別顯著性。最容易想到的這個界限就是在兩兩比較中采用的法而得到 Fisher 最小顯著差(LSD)為t 檢驗(25.23)LSDj=t:萬11一十一JinjSNK 檢驗:工=u。注意,當比較次數(shù)很大時,最大試驗誤差率將趨向于 1。Duncan 檢驗:?a=1_(1_ot)a。四、隨機單位組設計的方差分析隨機單位組設計(randomizedblockdesign)又稱隨機區(qū)組設計或隨機配伍組設計,它是兩樣本配對試驗的擴大。欲比較因素 A 中的 k 個水平的各個均值,試驗設計時,先將受試對

23、象按性質(zhì)相同或相近者組成單位組,每個單位組有 k 個受試對象,分別隨機分配到因素 A 的k 個水平上。這時每個水平的受試對象,不僅數(shù)量相同,而且性質(zhì)也相同或相近,就能縮小誤差,提高試驗效率。這樣的設計可將單位組看作一個因素,就成為兩個因素的設計(因素與單位組),由于兩個因素的各水平僅僅交叉 1 次,所以重復數(shù)為 1,在這樣的意義下,隨機單位組設計可看作為兩因素重復數(shù)為 1 的設計,一般這種設計不考慮交互影響。設有因素A具有 k 個水平,受試對象按性質(zhì)相同或相近者分成 b 個單位組,每個單位組有 k 個受試對象,分別隨機分配到因素 A 的 k 個水平上。那么,隨機單位組設計的方差分析表見表 25

24、.2 所不表 25.2方差分析表形式變異來源離差平方和自由度均方F 統(tǒng)計量P 概率值sourceSSdfMSFP因素 ASSAk1MSA=SSA/(k-1)FA=MSA/MSePA單位組SS單b1MS單=SS單/(b-1)F單=MS單/MSeP單誤差 SeSSebkkb+1MSe=SSe/(bk-k-b+1)總變異STSST=SSA+SS單+SSebk1MST=SST/(bk-1)FT=MST/MSePTSS 計算公式為y yj= =y,*,y,*,fk_SSSSA=b=bx x(A(Ai-y)-y)2i1b_SSSS2 2立組(B-y)(B-y)2j1kb_SSSS;=、(y(yij-A-A

25、i-B-Bjy)y)2i凸jm五、析因設計的方差分析析因設計(factorialdesign)是一種多因的設計。各因素在試驗中所處的地位基本平等,而且因素之間存在一級(即 2 個因素之間)、二級(即 3 個因素之間)乃至更復雜的交互作用。例如,兩個因素時,第 1 個因素有 3 個水平,第 2 個因素有 2 個水平,全部水平組合共有 3X2=6 種組合,每種組合都作試驗時就是析因試驗設計,也可稱為 3X2 析因試驗設計。同樣3X4X2 析因試驗設計,則代表 3 個因素,分別有 3,4,2 個水平,全部試驗后的水平組合為 3X4X2=24 種。在每一種組合下,適當重復幾次,稱為重復數(shù)。重復數(shù)可以不

26、相等,一般上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE地說,重復數(shù)相等時,效率最高。析因設計能夠檢驗每個因素的各水平間主要變量的平均值的統(tǒng)計差異,也能檢驗因素間的交互影響。當存在交互影響時,表示一個因素各水平間的差異會隨著另一個因素的水平改變而不同;當不存在交互影響時,則各個因素獨立,即一個因素的水平改變時不影響另一個因素的各個水平之效應。析因設計的方差分析因為能研究交互影響,所以能提供較多信息。但是,當有較高級(二級以上)的交互影響時,由于涉及多個因素,各有多個水平,情況將錯綜復雜,可能會引起解釋上的困難。析因設計的方差分析同樣是從數(shù)據(jù)差異的總平方和開始分解。例如,對于AxB雙因素方差分析,

27、這個總差異能分解成:A 因素的各個水平之間的差異,B 因素的各個水平之間的差異,A 與 B 的各種不同組合之間的差異,以及觀察數(shù)據(jù)必然會產(chǎn)生的隨機誤差這四部分。方差分析的主要目的就是要將這四部分從總平方和中分離出來,再以各個平方和與誤差平方和作比較。假設 A 因素有 r 個水平,B 因素有 c 個水平,每一種水平下的重復數(shù)為 m,那么總的觀察數(shù)據(jù)有 n=rxcxm個,方差分析表見表 25.3 所示:表 25.3 雙因素(rxc)重復數(shù)m的方差分析表形式變異來源離差平方和自由度均方F 統(tǒng)計量P 概率值sourceSSdfMSFP因素 ASSAr1MSA=SSA/(r-1)FA=MSA/MSePA

28、因素 BSSBc1MSB=SSB/(c-1)FB=MSB/MSePBAXBSSAB(r-1)(c-1)MSAB=SSAB/(r-1)(c-1)FAB=MSAB/MSePAB誤差 SeSSerxcx(m-1)MSe=SSe/(rc(m-1)總變異STSST=SSA+SSB+SSAB+SSerxcxm-1MST=SST/(rcm1)FT=MST/MSePTSS 計算公式為rcm_SST二、(丫冰-y)i1jTkT=卜冰yj)+(%-ABj+y)+(Ay)+(Bjy)2六、拉丁方設計的方差分析若試驗中涉及到 3 個因素,當它們之間不存在交互作用或交互作用可以忽略不計,且各因素均取相同水平時,適合于選

29、擇拉丁方設計。用 K 個拉丁字母排成 K 行 K 列的方陣,使每行每列中每個字母僅出現(xiàn) 1 次,這樣的方陣稱為拉丁方(latinsquare)。然后將 3 個因素分別四個 5X5 的拉丁方為:上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE放置到拉丁方的行、列及字母上面。例如,三個4X4 的拉丁方為:ABCDBADCDCBACDABABCDBADCCDABDCBAABCDDCBABADCCDABABCDEBCDEACDEABDEABCABCDECDEABEABCDBCDEAABCDEDEABCEABCDBCDEAABCDEEABCDDEABCCDEABEABCDDEABCCDEABBCDEA使用時

30、可選擇其中一個。拉丁方試驗設計的關(guān)鍵是這 3 個因素之間不存在交互作用或者交互作用可以忽略不計,一般情況是僅涉及到 1 個試驗因素,因此就不存在交互作用。試驗因素有 K 個水平(如 A、B、C、D、E),還有 2 個是非處理因素,或者說是 2 個區(qū)組因素,讓這 2 個區(qū)組因素也正好取 K 個水平,同時把這 2 個區(qū)組因素放在 KXK 拉丁方陣的橫向和縱向上,構(gòu)成了KXK 個區(qū)組水平組合,每種組合下伴有試驗因素 K 個水平中的 1 個水平。七、procanova 和 procglm 過程SAS 系統(tǒng)的 STAT 軟件提供了 anova 過程和 glm 過程等幾個過程進行方差分析。anova過程主

31、要處理均衡數(shù)據(jù),所謂均衡數(shù)據(jù)是指自變量(或稱分類變量)的每種組合中的觀察數(shù)是相等的,如果不相等則稱為非均衡數(shù)據(jù)。雖然 glm 過程能夠處理均衡和不均衡的兩種數(shù)據(jù),但是 anova 過程考慮到均衡設計的特殊構(gòu)造,對于均衡數(shù)據(jù)使用 anova 比使用 glm 計算快且占用存儲少,還可以處理拉丁方設計、若干不完全的均衡區(qū)組設計等等。因此,無論何時作方差分析,一旦可能都應該用 anova 過程來完成。如果試驗設計不均衡,也不是上述的幾種特殊情況之一,那么應該使用 glm 過程。1.anova 過程的語句格式anova 過程的主要控制語句如下:procanova 輸入數(shù)據(jù)集名選項列表;class 變量列

32、表;model 因變量列表=自變量列表/選項列表;means 效應列表/選項列表;testH=效應列表E=效應列表;run;其中 class 語句、model 語句是必需的,而且 class 語句必須出現(xiàn) model 語句之前。test 語句必須放在model 語句之后。1) procmeans 語句中的選項列表。manova按多元方式刪除那些含有丟失值的觀察,也即在因變量中有丟失值就從這次分析中刪除這個觀察。outstat=輸出數(shù)據(jù)集名生成一個輸出數(shù)據(jù)集,它包含模型中每個效應的平方和、F 統(tǒng)計量和概率水平。2) class 語句。在 anova 過程中要使用的分類變量、區(qū)組變量必須首先在 c

33、lass 語句的變量列表中說明。Class 語句是必需的,且必須放在 model 語句前面。Class 變量可以是數(shù)值型,也可以是字符型。3) model 語句。該語句用來規(guī)定因變量和自變量效應。如果沒有規(guī)定自變量的效應,則只擬合截距,假設檢驗為因變量的均值是否為 0。Model 語句的主要形式有四種:主效應模型Modely=abc;含有交叉因素的模型Modely=abca*ba*cb*ca*b*c;上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE嵌套模型Modely=abc(ab);包含嵌套、交叉和主效應的模型Modely=ab(a)c(a)b*c(a);Model 語句的選項列表有:int打印

34、與截距有關(guān)的假設檢驗結(jié)果。anova 過程總是把截距作為模型的一個效應進行處理,缺省時,不打印結(jié)果。nouni 不打印單變量分析結(jié)果。4) means 語句。該語句是用來計算在 means 語句后列出的每個效應所對應的因變量均值。Anova 過程可以對出現(xiàn)在 model 語句等號右邊的任一效應計算因變量的均值。不過這些均值沒有針對模型中的效應進行修正。如果需要修正的均值,應該調(diào)用 glm 過程,使用其中的 lsmenas 語句。在 anova 過程里可以使用任意多個 means 語句,它們放在 model 語句后面。Means 語句的選項列表主要有兩個內(nèi)容,一是選擇多重比較的檢驗方法,二是規(guī)定

35、這些檢驗的細節(jié),注意這些細節(jié)選項只能用于主效應。多重比較的檢驗方法bon 對所有主效應均值之差進行 Bonferroni 的 t 檢驗。duncan 對所有主效應均值進行 Duncan 的多重極差檢驗。dunnett進彳DDunnett 的雙尾 t 檢驗。用以檢驗對所有主效應均值的某個水平作為對照,處理有無顯著差異。為了規(guī)定這個對照效應的水平,在括號內(nèi)用單引號把這個水平的格式化值括起來。缺省時,效應的第一個水平作為對照。dunnettl進彳DDunnett 的單尾 t 檢驗。它檢驗是否任一個處理顯著地小于這個對照。dunnettu進彳DDunnett 的單尾 t 檢驗。它檢驗是否任一個處理顯著

36、地大于這個對照。gabriel 對所有主效應均值進行 Gabriel 的多重對比檢驗。regwf 對所有主效應均值進行 Ryan-Einot-Gabriel-Welsch 的多重 F 檢驗。regwq 對所有主效應均值進行 Ryan-Einot-Gabriel-Welsch 的多重極差檢驗。scheffe 對所有主效應均值進行 Scheffe 的多重對比檢驗。sidak對所有主效應均值水平依據(jù) Sidak 不等式進行調(diào)整后,對其均值之差兩兩進彳 Tt 檢驗。Smm|gt2 當樣本量不等時,基于學生化最大模和 Sidak 不相關(guān) t 不等式,等到Hochberg 的 GT2 方法,對主效應均值進

37、行兩兩對比檢驗。snk 對所有主效應均值進行 Student-Newman-Keuls 的多重極差檢驗。t|lsd-對所有主效應均值進行兩兩 t 檢驗,它相當于在單元觀察數(shù)相等時 Fisher的最小顯著差(Fishersleast-significant-difference)檢驗。tukey 對所有主效應均值進行 Tukey 的學生化極差檢驗。waller 對所有主效應均值進行 Waller-Duncan 的 k 比率(k-ratio)檢驗。多重比較的檢驗細節(jié)alpha=p給出均值間對比檢驗的顯著性水平。缺省值是 0.05。cldiff要求把兩兩均值之差的結(jié)果用置信區(qū)間的形式輸出。clm對變

38、量的每個水平的均值按置信區(qū)間形式輸出。e=效應一一指定在多重對比檢驗中所使用的誤差均方。如果缺省,使用殘差均方(MS)。指定的效應必須是在 model 語句中出現(xiàn)過的效應。上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFEb 和 c 代表分類變量;y1、y2、Modely=x1;Modely=x1x2;Modely=x1x1*x1;Modely1y2=x1x2;Modely=a;Modely=abc;Modely=aba*b;Modely=ab(a)c(ba);x1 和 x2 代表連續(xù)變量。(簡單回歸)(多重回歸)(多項式回歸)(多元回歸)(單因素方差分析)(主效應模型)(因素模型)(嵌套模型)kr

39、atio=值給出 Waller-Duncan 檢驗的類型 1/類型 2 的誤差限制比例。Kratio 的合理彳 1 為 50、100、500,大約相當于兩水平時 alpha 值為 0.1、0.05、0.01。缺省值為 100。lines按下降次序列出所有檢驗方法產(chǎn)生的均值,并用一條線段在均值旁指出非顯著的子集。hovtest 要求輸出組間方差齊性的 Levene 檢驗。5) test 語句在分析中,如果這個語句缺省,仍然使用殘差均方(MS)作為誤差項對所有平方和(SS)計算 F值。但用戶可以使用本語句要求使用其他效應作為誤差項,得到另外的 F 檢驗??梢允褂枚鄠€ test 語句,把它們放在 m

40、odel 語句后面。Test 語句的選項為:h=效應一一規(guī)定模型里哪些效應用來作為假設的效應。e=效應一一規(guī)定一個而且只能是一個效應用來作為誤差項,這個說明項是必須的。2.glm 過程的語句格式procglm 是分析符合一般線性模型(GeneralLinearModels)的數(shù)據(jù),因此取名 GLM。它能被用在許多不同的分析中,如簡單回歸、多元回歸、方差分析、協(xié)方差分析、加權(quán)回歸、多項式回歸、偏相關(guān)分析、多元方差分析等。在 glm 過程中的大多數(shù)方差分析的語句和選項與 anova 過程中基本相同。用 anova 過程編寫的程序幾乎不用修改就可在 glm 過程中運行。glm 過程僅僅是附加了三條語

41、句:contrast、estimate 和lsmeans。contrast 和 estimate 語句允許你測試和估計均值的某種功能。lsmeans 語句允許你計算調(diào)整后的均值。glm 過程的主要控制語句如下:procglm 輸入數(shù)據(jù)集名選項列表;class 變量列表;model 因變量列表=自變量列表/選項列表;contrast,標簽, 效應值表/選項列表estimate,標簽, 效應值表/選項列表lsmeans效應列表/選項列表;means效應列表 /選項列表;outputout=輸出數(shù)據(jù)集名統(tǒng)計量關(guān)鍵字=變量名列表;testH=效應列表E=效應列表;run;其中 class 語句、mod

42、el 語句是必需的,而且 class 語句必須出現(xiàn) model 語句之前。其他語句必須放在 model 語句之后。下面主要介紹與 anova 過程相比不同的語句和新增加的語句。1) model 語句。在 glm 過程的 model 語句中可以使用幾種不同效應,下面是使用這些效應的幾個例子,a、上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFEModely1y2=ab;(多元方差分析模型)Modely=ax1(協(xié)方差分析模型)Model 語句的主要選項有(與 anova 過程中的 model 語句選項相同不再列出)solution 打印正規(guī)方程的解,即參數(shù)估計值。e1/e2/e3/e4打印模型中每一效

43、應的類型 1/類型 2/類型 3/類型 4 的可估函數(shù),并計算相應的平方和。ss1/ss2/sS3/ss4對每個效應,才 T T 印與類型 1/類型 2/類型 3/類型 4 的可估函數(shù)相關(guān)的平方和。alpha=0.01/0.05/0.1指定置信區(qū)間的 ot 水平。缺省值為 0.05。cli/clm打印每一觀察的預測值/預測均值的置信限,兩者不能同時使用。p 打印自變量沒有缺失值的每一觀察值、預測值和殘差值。同時還打印 Durbin-Waston統(tǒng)計量。xpx打印叉積矩陣 XXXX。i打印矩陣 XXXX 的逆矩陣或廣義逆矩陣。2) contrast 語句。提供一種獲得一般假設檢驗的技巧。其中,效

44、應可以是截距,用字符 intercept 表示。通過規(guī)定 L L 向量或 M M 矩陣來構(gòu)造一元假設檢驗 LPLP=0=0 或多元假設檢驗 LPMLPM=0=0。例如,當發(fā)現(xiàn)某兩個因素的交互作用項有顯著性時,我們可用本語句來實現(xiàn)一個因素被控制在某水平上,對另一個因素的各水平間進行兩兩比較的目的。設 M 因素有三個水平 a、b、c,V 因素有兩個水平 1、2,且 M MMV有顯著性。如果我們要比較1 1-(.c)2 2的差異,那么有幾種不同的比較方法:在因素 V 的每一個水平上,分別比較因素 M 的三個水平 a、b、c 均值的之間的線性關(guān)系假設是否顯著。也即H0:Na1-0.5b1-0.5c1=

45、0和H0:Na2-0.5b2-0.5c2=0。2在因素 V 平均的所有水平上,比較因素 M 的三個水平 a、b、c 均值的之間的線性關(guān)系假設是否顯著。也即H0:0.5(a1-0.5b1-0.5c1)+0.5(a2-0.5b2-0.5c2)=0o3在因素 V 平均的子集上,比較因素 M 的三個水平 a、b、c 均值的之間的線性關(guān)系假設是否顯著。也即H0:(匕1-0.5%-0.5、)-(-2-05匕-0.5,2)=0glm 模型為雙因素試驗設計的方差分析指定了下面的效應公式:=L(:-)ij其中,是因素Mi水平與因素Vj水平在 ijij 單元上所有觀察值的平均。N為總平均。%是因素 M M 在 i

46、 i 水平上的主效應,Pj是因素 V V 在 j j 水平上的主效應,(aPaP)j為因素 M M 和因素 V V上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE(25.25)在 ijij 水平上的交互效應。因此,對任一觀察值有yijk二,ij.;ijk=J.L.1(二M)ij;ijk因此,根據(jù)單元均值給出的線性組合可以轉(zhuǎn)換成效應模型的合并參數(shù)形式,即 LPLP=0,=0,如a10.5b10.5c1-:a(郊)a1-0.5;-05b-0.5-1-0.5(:)b1-0.5-05c-0.5-1-0.5(:)c1=:a-0.5:b-0.5:c(:-)a1-0.5(:)b1-0.5(:)c1同理a2-0.

47、5%-0.5%2=1a-05b-05c(-)a2-0.5(:)b2一0.5(二一)c2相應的 glm 過程的語句為procglm;classMV;modelY=MVM*V;contrastavsb,cinv1M1-0.5-0.5M*V10-0.50-0.50;contrastavsb,cinv1M1-0.5-0.5M*V010-0.50-0.5;run;Contrast 語句中的可選項:e 打印整個 L 向量。e=效應一一規(guī)定模型中的某個效應作為誤差項。過程將把這一效應作為單變量 F 檢驗的分母。如果缺省,過程把均方誤差(MSE)作為誤差項。etype=n 指明 e=效應的類型(1、2、3、4

48、)。如果指明 e=而沒有指明 etype=,則使用最高類型。3) Estimate 語句可用來估計參數(shù)的線性函數(shù),通過用參數(shù)的估計 b b 乘以向量 L L 來得到 LbLb。其中b=(XX)XY。Estimate 語句的使用格式同 contrast 語句。estimate 語句中的可選項:e 打印整個 L 向量。divisor=數(shù)字一一為簡便地輸入效應的系數(shù)而規(guī)定的一個值,用該值除以所有系數(shù)使得分數(shù)系數(shù)可以作為整數(shù)輸入。例如estimate1/3(a+b)2/3cM11-2/divisor=3;可替代estimate1/3(a+b)2/3cM0.333330.33333-0.66667;4)

49、 Lsmeans 語句計算列在語句中的每一效應的最小二乘均值(LSM)。最小二乘均值估計是針對非均衡數(shù)據(jù)設計的,而類和子類的算術(shù)平均值是針對均衡數(shù)據(jù)設計的。lsmeans 語句中的可選項:cov 在選項 out=指明的輸出數(shù)據(jù)集中輸出協(xié)方差。e打印用以計算最小二乘均值的可估函數(shù)。(25.26)上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFEe=效應一一規(guī)定模型中的某個效應作為誤差項。etype=n 指明 e=效應的類型(1、2、3、4)。out=輸出數(shù)據(jù)集名一一產(chǎn)生一個包含 LSM 值、標準差及協(xié)方差的輸出數(shù)據(jù)集。pdiff 一一打印假設檢驗Ho:LSM(i)=LSM(j)的所有可能的概率值。st

50、derr 一一打印 LSM 的標準差和H0:LSM=0的概率值。tdiff 一一打印假設檢驗H0:LSM(i)=LSM(j)的 t 值和相應的概率值。pdiff=all/control/conroll/controlu 打印最小二乘均值之差的概率值。adjust=bon/dunnett/scheffe/sidak/smm/gt2/tukey/t 要求多重比較對最小二乘均值之差的概率值和置信限進行調(diào)整。缺省值為toslice=效應通過規(guī)定的這個效應來分開交叉的 LSM 效應。例如,假定交叉項 A*B 是顯著的,如果想對 B 的每個效應檢驗 A 的效應,使用下面語句:lsmeansA*B/slic

51、e=B;八、實例分析1.單因素試驗設計的均值比較例25.1考慮在5種不同品牌的人工合成膠合板材料上進行磨損時間測試, 每種品牌的材料做四次試驗,且都是采用的同一種磨損措施,所有的試驗都是在完全隨機的順序下在相同的機器上完成的。程序如下:datastudy.veneer;inputbrand$wear;cards;ACME2.3ACME2.1ACME2.4ACME2.5CHAMP2.2CHAMP2.3CHAMP2.4CHAMP2.6AJAX2.2AJAX2.0AJAX1.9AJAX2.1TUFFY2.4TUFFY2.7TUFFY2.6TUFFY2.7XTRA2.3XTRA2.5XTRA2.3XT

52、RA2.4;procanovadata=study.veneer;classbrand;modelwear=brand;meansbrand;meansbrand/hovtest;/方差齊性檢驗run;程序說明:因為數(shù)據(jù)僅僅是按照 brand 值分類,所以在 class 語句中這是僅有的一個變量。變量 wear 是被分析的因變量,故 wear 出現(xiàn)在 model 語句等號的左邊。在方差分析表中,除了總方差和誤差外,方差的來源僅僅是由于各種不同 brand 值的變異造成的,因此 brand 出現(xiàn)在 model 語句等號的右邊。Means 語句計算主效應 brand 不同水平所對應的因變量均值,選

53、項hovtest 計算不同品牌組方差齊性的假設檢驗。上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE輸出的結(jié)果見表 25.4 所示:TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesBRAND5ACMEAJAXCHAMPTUFFYXTRANumberofobservationsindataset=20/20 個記錄,自由度 19SourceDFAnalysisofVarianceProcedureDependentVariable:WEARSumofSquares/tssMeanSquareFV

54、aluePrFModel40.61700000/組間誤差0.154250007.400.0017Error150.31250000/組內(nèi)誤差0.02083333CorrectedTotal190.92950000R-SquareC.V.RootMSEWEARMean0.6637986.1551200.144337572.34500000SourceDFAnovaSSMeanSquareFValuePrFBRAND40.617000000.154250007.400.0017LevenesTestforEqualityofWEARVarianceANOVAofSquaredDeviationsf

55、romGroupMeans/齊性檢驗SumofMeanSourceDFSquaresSquareFValuePrFBRAND40.0006590.0001650.53100.7149Error150.004660.00031表 25.4 單因素設計的方差分析結(jié)果結(jié)果分析:anova 過程總是輸出兩個基本的方差分析表。一個是總體模型的方差分析表,一個是包含模型中各個變量的方差分析。首先輸出 class 語句中規(guī)定的每個變量(brand)、分類變量的取值數(shù)(5)、具體取值(ACMEAJAXCHAMPTUFFYXTRA)以及數(shù)據(jù)集中的觀察個數(shù)(20)。接著 anova 過程對 model 語句中每個

56、因變量輸出方差分析表。包括:因變量的總平方和(0.9295)、屬于模型部分的平方和(0.6170)、屬于誤差部分的平方和(0.3125)、自由度 DF(4、5、19)、模型的均方 MS(0.15425=0.617/4)、誤差的均方 MSE(0.02083333=0.3125/15)、2模型的 F 值(7.40=0.15425000/0.02083333)、分布大于 7.40 的概率(0.0017)、R R(0.663798=0.617/0.9295)、變異系數(shù) CV(6.155120=100X00.0208333/2.345)因變量的上海財經(jīng)大學經(jīng)濟信息管理系 IS/SHUFE標準差(0.14

57、433757=)0.0208333)、因變量均值(2.345)。對模型中的每個效應,anova 過程還輸出方差分析表。brand 自由度 DF(4)、平方和(0.617)、均方MS(0.15425=0.617/4)、F 值(7.40=0.15425000/0.02083333)、分布大于 7.40 的概率(0.0017)??傮w F 檢驗是顯著的(0.00170.05),表明模型是有意義的。品牌 brand 的 F 檢驗也是顯著的(0.00170.05)不同品牌組里觀察值的方差是相等的原假設。最后輸出的是每種品牌的觀察數(shù)、 均值和標準差。 例如, ACME 品牌的觀察數(shù)為 4,均值為 2.325

58、00000,標準差為 0.17078251。2.均值的多重比較和置信區(qū)間例 25.2 繼續(xù)上例的分析。由于品牌 brand 的 F 檢驗是顯著的(0.00170.239,則為顯著,所以品牌 TUFFY 的均值不同與 AJAX,應該標識不同的字母。因為存在 5 個均值之間最大差的顯著性,接下來就需要比較 4 個均值之間差的顯著性,臨界值為 0.2346。2.6002.325=0.2750.2346,顯著,2.3752.050=0.3250.2346,顯著,只要存在一個顯著性,就需要繼續(xù)比較3 個均值之間差的顯著性。雖然,均值 2.600、2.375 和 2.375 之間的差小于 0.2280,均

59、值 2.375、2.375 和 2.325 之間的差也小于 0.2280,但由于存在 2.375-2.050=0.3250.2280,顯著,繼續(xù)比較 2 個均值之間差白顯著性。2.6002.375=0.2250.2175,顯著,2.3252.050=0.2750.2175,顯著,其他相鄰兩均值比較不顯著。表 25.5(b)各組均值的 t 檢驗置信區(qū)間TConfidenceIntervalsforvariable:WEARAlpha=0.05Confidence=0.95df=15MSE=0.020833CriticalValueofT=2.13HalfWidthofConfidenceInte

60、rval=0.153824LowerUpperBRANDNConfidenceMeanConfidenceLimitLimitTUFFY42.446182.600002.75382XTRA42.221182.375002.52882表 25.5(b)中結(jié)果分析:均值 t 分布的 95%置信區(qū)間的一半寬度為 0.153824,因此 TUFFY 品牌均值置信區(qū)間的下限為 2.6000.153824=2.44618,上限為 2.600+0.153824=2.75382。其他品牌均值的置信區(qū)間計算,同樣是均值加減 0.153824 而得到的。表 25.5(c)lsd 最小顯著差檢驗上海財經(jīng)大學經(jīng)濟信息管理系 IS/S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論