第八章 方差分析教材_第1頁
第八章 方差分析教材_第2頁
第八章 方差分析教材_第3頁
第八章 方差分析教材_第4頁
第八章 方差分析教材_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第八章第八章 方差分析方差分析8.1 方差分析引論 方差分析及其有關(guān)術(shù)語方差分析及其有關(guān)術(shù)語 方差分析的基本思想和原理方差分析的基本思想和原理 方差分析的基本假定方差分析的基本假定 問題的一般提法問題的一般提法某公司計劃引進一條生產(chǎn)線。為了選擇一條某公司計劃引進一條生產(chǎn)線。為了選擇一條質(zhì)量優(yōu)良的生產(chǎn)線以減少日后的維修問題,他們對質(zhì)量優(yōu)良的生產(chǎn)線以減少日后的維修問題,他們對6種型號的生產(chǎn)線作了初步調(diào)查,每種型號調(diào)查種型號的生產(chǎn)線作了初步調(diào)查,每種型號調(diào)查4條,條,結(jié)果列于下表。這些結(jié)果表示每個型號的生產(chǎn)線上個結(jié)果列于下表。這些結(jié)果表示每個型號的生產(chǎn)線上個月維修的小時數(shù)。試問由此結(jié)果能否判定由于生

2、產(chǎn)線月維修的小時數(shù)。試問由此結(jié)果能否判定由于生產(chǎn)線型號不同而造成它們在維修時間方面有顯著差異型號不同而造成它們在維修時間方面有顯著差異? 一、方差分析及有關(guān)術(shù)語一、方差分析及有關(guān)術(shù)語 對對6 6種型號生產(chǎn)線維修時數(shù)的調(diào)查結(jié)果種型號生產(chǎn)線維修時數(shù)的調(diào)查結(jié)果 序序號號型號型號1 12 23 34 4A A型型9.59.58.88.811.411.47.87.8B B型型4.34.37.87.83.23.26.56.5C C型型6.56.58.38.38.68.68.28.2D D型型6.16.17.37.34.24.24.14.1E E型型10.010.04.84.85.45.49.69.6F F

3、型型9.39.38.78.77.27.210.110.1現(xiàn)在的試驗就是進行調(diào)查現(xiàn)在的試驗就是進行調(diào)查, ,每種型號調(diào)查每種型號調(diào)查4 4臺臺, ,相當相當于每個總體中抽取一個容量為于每個總體中抽取一個容量為4 4的樣本的樣本, ,得到的數(shù)據(jù)記得到的數(shù)據(jù)記作作y yijij(i=1,2,(i=1,2,6;j=1,2,3,4),6;j=1,2,3,4),即為下表數(shù)據(jù)。即為下表數(shù)據(jù)。計算各樣本平均數(shù)計算各樣本平均數(shù) 如下如下: :iy型號型號A AB BC CD DE EF F9.49.45.55.57.97.95.45.47.57.58.88.8iy表表 8 82 2兩個總體平均值比較的檢驗法兩個

4、總體平均值比較的檢驗法把樣本平均數(shù)兩兩組成對把樣本平均數(shù)兩兩組成對: :與與 , , 與與 , , 與與 , , 與與 , , , 與與 , ,共有共有( 15)( 15)對。對。 1y2y1y3y1y6y2y3y5y6y26C即使每對都進行了比較即使每對都進行了比較, ,并并且都以且都以0.950.95的置信度得出的置信度得出每對均值都相等的結(jié)論每對均值都相等的結(jié)論, ,但但是由此要得出這是由此要得出這6 6個型號的個型號的維修時間的均值都相等。維修時間的均值都相等。這一這一結(jié)論的置信度僅是結(jié)論的置信度僅是 上上述述方方法法存存在在的的問問題題工作量大工作量大置信度低置信度低將這將這1515

5、對平均數(shù)一一進對平均數(shù)一一進行比較檢驗行比較檢驗 4632. 0)95. 0(15方差分析方法則是同時考慮所有的樣本,因此排除了錯誤累積的概率,從而避免拒絕一個真實的原假設(shè)(一)什么是方差分析(ANOVA)?(analysis of variance) 1. 檢驗多個總體均值是否相等通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等2. 研究分類型自變量對數(shù)值型因變量的影響 一個或多個分類型自變量兩個或多個 (k 個) 處理水平或分類 一個數(shù)值型因變量3. 有單因素方差分析和雙因素方差分析 單因素方差分析:涉及一個分類的自變量 雙因素方差分析:涉及兩個分類的自變量什么是方差分析? 消費者對四個行業(yè)的投訴

6、次數(shù)消費者對四個行業(yè)的投訴次數(shù) 行業(yè)行業(yè)觀測值觀測值零售業(yè)零售業(yè)旅游業(yè)旅游業(yè)航空公司航空公司家電制造業(yè)家電制造業(yè)1 12 23 34 45 56 67 757576666494940403434535344446868393929294545565651513131494921213434404044445151656577775858什么是方差分析? (例題分析)1. 分析4個行業(yè)之間的服務(wù)質(zhì)量是否有顯著差異,也就是要判斷“行業(yè)”對“投訴次數(shù)”是否有顯著影響2. 作出這種判斷最終被歸結(jié)為檢驗這四個行業(yè)被投訴次數(shù)的均值是否相等3. 若它們的均值相等,則意味著“行業(yè)”對投訴次數(shù)是沒有影響的,即它

7、們之間的服務(wù)質(zhì)量沒有顯著差異;若均值不全相等,則意味著“行業(yè)”對投訴次數(shù)是有影響的,它們之間的服務(wù)質(zhì)量有顯著差異(二)方差分析中的有關(guān)術(shù)語1. 因素或因子(factor) 所要檢驗的對象 分析行業(yè)對投訴次數(shù)的影響,行業(yè)行業(yè)是要檢驗的因子2.水平或處理(treatment) 因子的不同表現(xiàn) 零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)3.觀察值 在每個因素水平下得到的樣本數(shù)據(jù) 每個行業(yè)被投訴的次數(shù)方差分析中的有關(guān)術(shù)語1. 試驗 這里只涉及一個因素,因此稱為單因素4水平的試驗2. 總體 因素的每一個水平可以看作是一個總體 零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)是4個總體3.樣本數(shù)據(jù)被投訴次數(shù)可以看作是從這4

8、個總體中抽取的樣本數(shù)據(jù)二、方差分析的基本思想和原理(圖形分析散點圖)不同行業(yè)被投訴次數(shù)的散點圖不同行業(yè)被投訴次數(shù)的散點圖020406080012345行業(yè)被投訴次數(shù) 零售業(yè) 旅游業(yè) 航空公司 家電制造1.從散點圖上可以看出 不同行業(yè)被投訴的次數(shù)有明顯差異 同一個行業(yè),不同企業(yè)被投訴的次數(shù)也明顯不同 家電制造被投訴的次數(shù)較高,航空公司被投訴的次數(shù)較低2.行業(yè)與被投訴次數(shù)之間有一定的關(guān)系 如果行業(yè)與被投訴次數(shù)之間沒有關(guān)系,那么它們被投訴的次數(shù)應(yīng)該差不多相同,在散點圖上所呈現(xiàn)的模式也就應(yīng)該很接近方差分析的基本思想和原理(圖形分析)1.散點圖觀察不能提供充分的證據(jù)證明不同行業(yè)被投訴的次數(shù)之間有顯著差異

9、 這種差異可能是由于抽樣的隨機性造成的2.需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析 所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差 這個名字也表示:它是通過對數(shù)據(jù)誤差來源的分析判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數(shù)據(jù)誤差的來源方差分析的基本思想和原理方差分析的基本思想和原理(兩類誤差)1.1.隨機誤差隨機誤差 因素的同一水平(總體)下,樣本各觀察值之間的差異 比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)之間的差異 這種差異可以看成是隨機因素的影響,稱為隨機誤差隨機誤差 2.2.系統(tǒng)誤差系統(tǒng)誤差因素的不同水平(不同總體)之

10、間觀察值的差異比如,不同行業(yè)之間的被投訴次數(shù)之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系系統(tǒng)誤差(統(tǒng)誤差(因素水平引起的偏差)因素水平引起的偏差)方差分析的基本思想和原理(誤差平方和SS)1. 數(shù)據(jù)的誤差用平方和(sum of squares)表示2. 組內(nèi)平方和(within groups) 因素的同一水平下數(shù)據(jù)誤差的平方和 比如,零售業(yè)被投訴次數(shù)的誤差平方和 只包含隨機誤差隨機誤差3. 組間平方和(between groups) 因素的不同水平之間數(shù)據(jù)誤差的平方和 比如,4個行業(yè)被投訴次數(shù)之間的誤差平方和 既包

11、括隨機誤差隨機誤差,也包括系統(tǒng)誤差系統(tǒng)誤差方差分析的基本思想和原理(均方MS)1.平方和除以相應(yīng)的自由度2.若原假設(shè)成立,組間均方與組內(nèi)均方的數(shù)值就應(yīng)該很接近,它們的比值就會接近13.若原假設(shè)不成立,組間均方會大于組內(nèi)均方,它們之間的比值就會大于14.當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,即自變量對因變量有影響 判斷行業(yè)對投訴次數(shù)是否有顯著影響,也就是檢驗被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對投訴次數(shù)有顯著影響三、方差分析的基本假定1. 每個總體都應(yīng)服從正態(tài)分布 對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨

12、機樣本 比如,每個行業(yè)被投訴的次數(shù)必須服從正態(tài)分布2. 各個總體的方差必須相同 各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的 比如,4個行業(yè)被投訴次數(shù)的方差都相等3. 觀察值是獨立的 比如,每個行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨立方差分析中的基本假定1. 在上述假定條件下,判斷行業(yè)對投訴次數(shù)是否有顯著影響,實際上也就是檢驗具有同方差的4個正態(tài)總體的均值是否相等2. 如果4個總體的均值相等,可以期望4個樣本的均值也會很接近4個樣本的均值越接近,推斷4個總體均值相等的證據(jù)也就越充分樣本均值越不同,推斷總體均值不同的證據(jù)就越充分 方差分析中的基本假定 如果原假設(shè)成立,即H0 : m1 = m2

13、= m3 = m44個行業(yè)被投訴次數(shù)的均值都相等意味著每個樣本都來自均值為m、方差為 2的同一正態(tài)總體 方差分析中的基本假定若備擇假設(shè)成立,即H1 : mi (i=1,2,3,4)不全相等至少有一個總體的均值是不同的4個樣本分別來自均值不同的4個正態(tài)總體 四、問題的一般提法1. 設(shè)因素有k個水平,每個水平的均值分別用m m1 1 , , m m2 2, , , , m mk k 表示2. 要檢驗k個水平(總體)的均值是否相等,需要提出如下假設(shè): H H0 0 : m m1 1 m m2 2 m mk k H H1 1 : m m1 1 , , m m2 2 , , ,m mk k 不全相等不全

14、相等3. 設(shè)m m1 1為零售業(yè)被投訴次數(shù)的均值,m m2 2為旅游業(yè)被投訴次數(shù)的均值,m m3 3為航空公司被投訴次數(shù)的均值,m m4 4為家電制造業(yè)被投訴次數(shù)的均值,提出的假設(shè)為H H0 0 : m m1 1 m m2 2 m m3 3 m m4 4 H H1 1 : m m1 1 , , m m2 2 , , m m3 3 , , m m4 4 不全相等不全相等8.2 單因素方差分析數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)分析步驟分析步驟關(guān)系強度的測量關(guān)系強度的測量方差分析中的多重比較方差分析中的多重比較一、單因素方差分析的數(shù)據(jù)結(jié)構(gòu)(one-way analysis of variance) 觀察值觀察值 (

15、j )因素因素( (A A) ) i 水平水平A A1 1 水平水平A A2 2 水平水平A Ak k1 12 2: : :n n x11 x21 xk1 x12 x22 xk2 : : : : : : : : x1nx2n xkn二、分析步驟提出假設(shè)構(gòu)造檢驗統(tǒng)計量統(tǒng)計決策提出假設(shè)1. 一般提法 H0 :m1 = m2 = mk 自變量對因變量沒有顯著影響 H1 :m1 ,m2 , ,mk不全相等 自變量對因變量有顯著影響 2. 注意:拒絕原假設(shè),只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等 構(gòu)造檢驗的統(tǒng)計量構(gòu)造統(tǒng)計量需要計算水平的均值全部觀察值的總均值誤差平方和均方(MS)

16、 構(gòu)造檢驗的統(tǒng)計量(計算水平的均值)1. 假定從第i個總體中抽取一個容量為ni的簡單隨機樣本,第i個總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個數(shù)2. 計算公式為 式中: ni為第 i 個總體的樣本觀察值個數(shù) xij 為第 i 個總體的第 j 個觀察值 構(gòu)造檢驗的統(tǒng)計量(計算全部觀察值的總均值)1. 全部觀察值的總和除以觀察值的總個數(shù)2. 計算公式為 構(gòu)造檢驗的統(tǒng)計量(例題分析)構(gòu)造檢驗的統(tǒng)計量(計算總誤差平方和 SST)1. 全部觀察值 與總平均值 的離差平方和2. 反映全部觀察值的離散狀況3. 其計算公式為構(gòu)造檢驗的統(tǒng)計量(計算組間平方和 SSA)1.各組平均值 與總平均值 的離差

17、平方和2.反映各總體的樣本均值之間的差異程度3.該平方和既包括隨機誤差,也包括系統(tǒng)誤差4.計算公式為 前例的計算結(jié)果 SSA = 1456.608696構(gòu)造檢驗的統(tǒng)計量(計算組內(nèi)平方和 SSE )1.每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和2.反映每個樣本各觀察值的離散狀況3.該平方和反映的是隨機誤差的大小4.計算公式為 前例的計算結(jié)果 SSE = 2708構(gòu)造檢驗的統(tǒng)計量(三個平方和的關(guān)系)總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間的關(guān)系構(gòu)造檢驗的統(tǒng)計量(計算均方MS)1. 各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對誤差平方和

18、大小的影響,需要將其平均,這就是均方均方,也稱為方差2. 由誤差平方和除以相應(yīng)的自由度求得3. 三個平方和對應(yīng)的自由度分別是SST SST 的自由度為n-1,其中n為全部觀察值的個數(shù)SSASSA的自由度為k-1,其中k為因素水平(總體)的個數(shù)SSE SSE 的自由度為n-k構(gòu)造檢驗的統(tǒng)計量(計算均方 MS)1.1. 組間方差組間方差:SSA的均方,記為MSA,計算公式為SSE的均方,記為MSE,計算公式為構(gòu)造檢驗的統(tǒng)計量(計算檢驗統(tǒng)計量 F )1. 將MSA和MSE進行對比,即得到所需要的檢驗統(tǒng)計量F2. 當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布,即

19、構(gòu)造檢驗的統(tǒng)計量(F分布與拒絕域)統(tǒng)計決策 將統(tǒng)計量的值F與給定的顯著性水平的臨界值F進行比較,作出對原假設(shè)H0的決策根據(jù)給定的顯著性水平,在F分布表中查找與第一自由度df1k-1、第二自由度df2=n-k 相應(yīng)的臨界值 F 若FF ,則拒絕原假設(shè)H0 ,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若FF ,拒絕拒絕原假設(shè)H0 ,表明均值之間的差異是顯著的,即所檢驗的行因素對觀察值有顯著影響若FC F ,拒絕拒絕原假設(shè)H0 ,表明均值之間有顯著差異,即所檢驗的列因素對觀察值有顯著影響 雙因素方差分析表(基本結(jié)構(gòu))誤差來源誤差來源平方和平方和(SS)(SS)自由度自由度(df)(d

20、f)均方均方(MS)(MS)F F值值P P值值F F臨界值臨界值行因素行因素SSRSSRk-k-1 1MSRMSRMSRMSRMSEMSE列因素列因素SSCSSCr-1r-1MSCMSCMSCMSCMSEMSE誤差誤差SSESSE( (k-k-1)(1)(r r- -1)1)MSEMSE總和總和SSTSSTkr-kr-1 1雙因素方差分析(例題分析)提出假設(shè) 對品牌因素提出的假設(shè)為H0:m1=m2=m3=m4 (品牌對銷售量無顯著影響)H1:mi (i =1,2, , 4) 不全相等 (有顯著影響) 對地區(qū)因素提出的假設(shè)為H0:m1=m2=m3=m4=m5 (地區(qū)對銷售量無顯著影響)H1:m

21、j (j =1,2,5) 不全相等 (有顯著影響) 用用ExcelExcel進行無重復雙因素分析進行無重復雙因素分析雙因素方差分析(例題分析)差異源差異源SSdfMSFP-valueF crit 行行(品牌品牌)13004.634334.8518.10789.46E-053.4903 列列(地區(qū)地區(qū))2011.74502.9252.100850.143673.2592 誤差誤差2872.712239.392 總和總和1788919雙因素方差分析(關(guān)系強度的測量)1. 行平方和(SSR)度量了品牌這個自變量對因變量(銷售量)的影響效應(yīng)2. 列平方和(SSC)度量了地區(qū)這個自變量對因變量(銷售量)

22、的影響效應(yīng)3. 這兩個平方和加在一起則度量了兩個自變量對因變量的聯(lián)合效應(yīng)4. 聯(lián)合效應(yīng)與總平方和的比值定義為R25. 其平方根R反映了這兩個自變量合起來與因變量之間的關(guān)系強度 雙因素方差分析(關(guān)系強度的測量)例題分析品牌因素和地區(qū)因素合起來總共解釋了銷售量差異的83.94%其他因素(殘差變量)只解釋了銷售量差異的16.06%R=0.9162,表明品牌和地區(qū)兩個因素合起來與銷售量之間有較強的關(guān)系 可重復雙因素分析(例題)【例】【例】城市道路交通管理部門為研究不同的路段和不同的時間段對行車時間的影響,讓一名交通警察分別在兩個路段和高峰期與非高峰期親自駕車進行試驗,通過試驗共獲得了20個行車時間(單位:min)的數(shù)據(jù),如下表。試分析路段、時段以及路段和時段的交互作用對行車時間的影響 交互作用的圖示(interaction)可重復雙因素方差分析表(基本結(jié)構(gòu))誤差來源誤差來源平方和平方和(SS)(SS)自由度自由度(df)(df)均方均方(M(MS)S)F F值值P P值值F F臨界值臨界值行因素行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論