數(shù)學(xué)建模之方差分析_第1頁
數(shù)學(xué)建模之方差分析_第2頁
數(shù)學(xué)建模之方差分析_第3頁
數(shù)學(xué)建模之方差分析_第4頁
數(shù)學(xué)建模之方差分析_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第一講方差分析1.1方差分析的概念1.2單因素方差分析1.3有交互作用的雙因素方差分析1.4無交互作用的雙因素方差分析

一、問題的引入

在實際應(yīng)用中,我們常常會遇到需要對兩個以及兩個以上總體均值是否相等進行檢驗,從而判斷某一種因素對我們所研究的對象是否產(chǎn)生了顯著的影響。

1.1

方差分析的概念例1:某飲料生產(chǎn)企業(yè)研制出一種新型飲料。飲料的顏色共有四種,分別為橘黃色、粉色、綠色和無色透明。這四種飲料的營養(yǎng)含量、味道、價格、包裝等可能影響銷售量的因素全部相同。現(xiàn)從地理位置相似、經(jīng)營規(guī)模相仿的五家超級市場上收集了前一時期該飲料的銷售情況,見下表,試分析飲料的顏色是否對銷售量產(chǎn)生影響。

該飲料在五家超市的銷售情況超市無色粉色橘黃色綠色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8例2某公司為了研究三種不同內(nèi)容的廣告宣傳對某種無季節(jié)性的大型機械的銷售量是否有顯著影響,經(jīng)調(diào)查統(tǒng)計,一年四個季度的銷售量(單位:臺)如下:

A1是強調(diào)運輸方便性的廣告,A2是強調(diào)節(jié)省燃料的經(jīng)濟性的廣告,A3是強調(diào)噪音低的優(yōu)良性的廣告.試判斷:新聞廣告的類型對該種機械的銷售量是否有顯著影響?若影響顯著,哪一種廣告內(nèi)容為好?廣告類型第一季度第二季度第三季度第四季度A1163176170185A2184198179190A3206191218224方差分析:在若干個能夠相互比較的資料組中,判別各組資料是否存在差異以及分析差異原因的方法和技術(shù)。方差分析由英國統(tǒng)計學(xué)家R.A.Fisher首創(chuàng),為紀(jì)念Fisher,方差分析又稱F檢驗(Ftest)。用于推斷多個總體均值有無差異二、基本概念

1.因素又稱因子,指需要考察的引起數(shù)據(jù)變動的主要原因,通常用A、B、C……表示。如:要分析飲料的顏色對銷售量是否有影響,顏色是要檢驗的因素或因子.

又如:要分析新聞廣告的內(nèi)容對某種機械的銷售量是否有顯著影響,新聞廣告類型是所要檢驗的因素??梢钥刂频脑囼灄l件單因素方差分析:在實驗中考察的因素只有一個。多因素方差分析:在實驗中考察的因素有兩個以上。雙因素方差分析:在實驗中考察的因素有兩個。2.水平:因子在實驗中的不同狀態(tài)。如:例1中橘黃色、粉色、綠色和無色透明四種顏色就是因素的四個水平。3.交互影響:如果因子間存在相互作用,稱之為“交互影響”;如果因子間是相互獨立的,則稱為無交互影響。4.觀察值:在每個因素不同水平下得到的樣本值。如例1中每種顏色飲料的銷售量就是觀察值。三、方差分析的基本思想比較兩類誤差以檢驗均值是否相等隨機誤差和系統(tǒng)誤差隨機誤差:在因素的同一水平(同一個總體)下,樣本的各觀察值之間的差異。比如,同一種顏色的飲料在不同超市上的銷售量是不同的。不同超市銷售量的差異可以看成是隨機因素的影響,或者說是由于抽樣的隨機性所造成的,稱為隨機誤差。系統(tǒng)誤差:在因素的不同水平(不同總體)下,各觀察值之間的差異。比如,同一家超市,不同顏色飲料的銷售量也是不同的。這種差異可能是由于抽樣的隨機性所造成的,也可能是由于顏色本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差。比較的基礎(chǔ)是方差比組內(nèi)方差、組間方差

組內(nèi)方差:因素的同一水平(同一個總體)下樣本數(shù)據(jù)的方差。比如,無色飲料在5家超市銷售數(shù)量的方差。組內(nèi)方差只包含隨機誤差組間方差:因素的不同水平(不同總體)下各樣本之間的方差比如,例1中橘黃色、粉色、綠色和無色透明四種顏色飲料銷售量之間的方差。組間方差既包括隨機誤差,也包括系統(tǒng)誤差。方差的比較如果不同顏色(水平)對銷售量(結(jié)果)沒有影響,那么在組間方差中只包含有隨機誤差,而沒有系統(tǒng)誤差。這時,組間方差與組內(nèi)方差就應(yīng)該很接近,兩個方差的比值就會接近1。如果不同的水平對結(jié)果有影響,在組間方差中除了包含隨機誤差外,還會包含有系統(tǒng)誤差,這時組間方差就會大于組內(nèi)方差,組間方差與組內(nèi)方差的比值就會大于1。當(dāng)這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異。四、基本假定1.每個總體都應(yīng)服從正態(tài)分布對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機樣本比如,每種顏色飲料的銷售量必須服從正態(tài)分布2.各個總體的方差必須相同對于各組觀察數(shù)據(jù),是從具有相同方差的總體中抽取的。比如,四種顏色飲料的銷售量的方差都相同。

3.不同水平下的樣本相互獨立一、數(shù)學(xué)模型表1觀察結(jié)果水平樣本總和樣本均值總體均值1.2單因素方差分析假設(shè)單因素試驗方差分析的數(shù)學(xué)模型需要解決的問題1.檢驗假設(shè)數(shù)學(xué)模型的等價形式總平均s個水平原數(shù)學(xué)模型改寫為檢驗假設(shè)等價于檢驗假設(shè)—數(shù)據(jù)的總平均—總離差平方和(總變差)二、平方和的分解—誤差(殘差)平方和—組間離差平方和(效應(yīng)平方和)組內(nèi)平方和ST是全部觀察值與總平均值的離差平方和,反映全部觀察值的離散狀況,從而反映了全部數(shù)據(jù)總的誤差程度。SA既包括隨機誤差,也包括系統(tǒng)誤差,反映的是隨機誤差和系統(tǒng)誤差的大小??傉`差平方和=組間誤差平方和+組內(nèi)誤差平方和如果組間方差明顯高于組內(nèi)方差,說明樣本數(shù)據(jù)波動的主要來源是組間方差,因子是引起波動的主要原因,可認為因子對實驗的結(jié)果存在顯著的影響;反之,如果波動的主要部分來自組內(nèi)方差,則因子的影響就不明顯,沒有充足理由認為因子對實驗或抽樣的結(jié)果有顯著作用。判斷因子的不同水平是否對其觀察值有影響,實際上就是比較組間方差與組內(nèi)方差之間差異的大小。

檢驗這種差異,需要構(gòu)造一個用于檢驗的統(tǒng)計量。檢驗假設(shè)拒絕域為組間均方差組內(nèi)均方差三、假設(shè)檢驗單因素試驗方差分析表方差來源因素A誤差總和平方和自由度均方F比四、單因素方差分析的Matlab實現(xiàn)p=anova1(X,group)輸入:X是一個向量,從第一個總體的樣本到第r個總體的樣本依次排列,group是與X有相同長度的向量,表示X中的元素是如何分組的.group中某元素等于i,表示X中這個位置的數(shù)據(jù)來自第i個總體.因此group中分量必須取正整數(shù),從1直到r.p=anova1(X)%比較X中各列數(shù)據(jù)的均值是否相等此時輸出的p是零假設(shè)成立時,數(shù)據(jù)的概率,當(dāng)p<0.05稱差異是顯著的,當(dāng)p<0.01稱差異是高度顯著的.輸入X各列的元素相同,即各總體的樣本大小相等,稱為均衡數(shù)據(jù)的方差分析,不均衡時用下面的命令例1某水產(chǎn)研究所為了比較四種不同配合飼料對魚的飼喂效果,選取了條件基本相同的魚20尾,隨機分成四組,投喂不同飼料,經(jīng)一個月試驗以后,各組魚的增重結(jié)果列于下表。表1飼喂不同飼料的魚的增(單位:10g)飼料魚的增重(xij)A131.927.931.828.435.9A224.825.726.827.926.2A322.123.627.324.925.8A427.030.829.024.528.5四種不同飼料對魚的增重效果是否顯著?解:這是單因素均衡數(shù)據(jù)的方差分析,Matlab程序如下:A=[31.927.931.828.435.924.825.726.827.926.222.123.627.324.925.827.030.829.024.528.5];%原始數(shù)據(jù)輸入

B=A';%將矩陣轉(zhuǎn)置,Matlab中要求各列為不同水平p=anova1(B)運行后得到一表一圖,表是方差分析表(重要);圖是各列數(shù)據(jù)的盒子圖,離盒子圖中心線較遠的對應(yīng)于較大的F值,較小的概率p.Source方差來源SS平方和df自由度MS均方差F統(tǒng)計量P值Columns(因素A組間)SSAr-1SS/(r-1)7.140.0029Error誤差(組內(nèi))SSEn-rSS/(n-r)Total總和SSTn-1表中所列出的各項意義如下:因為p=0.0029<0.01,故不同飼料對魚的增重效果極為顯著.如果沒有給出概率,如何查表?四種不同飼料對魚的增重效果極為顯著,那么哪一種最好呢?請看下圖此時,第一個圖對應(yīng)第一種飼料且離盒子圖中心線較遠,效果最突出。如果從原始數(shù)據(jù)中去掉第一種飼料的試驗數(shù)據(jù),得到的結(jié)果為各種飼料之間對魚的增重效果不顯著.p=anova1(B(:,2:4))例2為比較同一類型的三種不同食譜的營養(yǎng)效果,將19支幼鼠隨機分為三組,各采用三種食譜喂養(yǎng).12周后測得體重,三種食譜營養(yǎng)效果是否有顯著差異?食譜體重增加量甲164190203205206214228257乙185197201231丙187212215220248265281解:這是單因素非均衡數(shù)據(jù)的方差分析A=[164190203205206214228257185197201231187212215220248265281];group=[ones(1,8),2*ones(1,4),3*ones(1,7)];p=anova1(A,group)方差分析表均值盒子圖由于概率p=0.1863比較大,故認為三種食料沒有顯著差異.五、因素各水平均值的估計與比較從例1的結(jié)果可以知道四種飼料對魚類體重增長效果有顯著差異,如何進一步比較選擇最優(yōu)的因素水平?1.各水平均值的估計及其置信區(qū)間根據(jù)方差分析的要求每個因素水平Ai的數(shù)據(jù)來自正態(tài)分布N(

i,2),因此樣本均值標(biāo)準(zhǔn)化得到又因為,所以進而根據(jù)定理:設(shè)X~N(0,1),則因為代入定理立得對給定的置信水平,可得

i置信度為1-

的置信區(qū)間為:2.各對均值差的置信區(qū)間根據(jù)兩樣本均值差構(gòu)造標(biāo)準(zhǔn)正態(tài)分布,進而得到兩樣本的T統(tǒng)計量,于是

i-j置信度1-的置信區(qū)間3.多重比較的MATLAB實現(xiàn)為了便于解決實際問題,我們給出多重比較的MATLAB命令。c=multcompare(s)其中輸入s,由[p,c,s]=anova1(b);得到輸出C共有6列,每一行給出均值差的置信區(qū)間例3四個實驗室試制同一型號紙張,為了比較光滑度每個實驗室測量了8張紙,進行方差分析

實驗室紙張光滑度A138.741.543.844.545.54647.758A2

39.239.339.741.441.842.943.345.8A33435394043434445A43434.834.835.437.237.841.242.8解:a=[38.7,41.5,43.8,44.5,45.5,46,47.7,5839.2,39.3,39.7,41.4,41.8,42.9,43.3,45.834,35,39,40,43,43,44,4534,34.8,34.8,35.4,37.2,37.8,41.2,42.8];%輸入數(shù)據(jù)b=a’;%MATLAB只對各列進行分析[p,c,s]=anova1(b);%方差分析c=multcompare(s)%多重比較從方差分析表可知:四個實驗室生產(chǎn)有差異,那么如何比較?軟件輸出c如下所示:1,2列表示比較的實驗室號碼,3,5列分別為置信區(qū)間左右端點

,第4列是均值差的統(tǒng)計量觀測值.

1.00002.0000-1.47534.03759.55031.00003.0000-0.17535.337510.85031.00004.00002.94978.462513.97532.00003.0000-4.21281.30006.81282.00004.0000-1.08784.42509.93783.00004.0000-2.38783.12508.6378若置信區(qū)間包含原點則無顯著差異,可見只有1,4實驗室有顯著差異.另外,軟件輸出一幅圖形,告知1,4有顯著差異.1.3有交互作用的雙因素方差分析一、問題的引出在實際問題的分析中,常常需要考慮多個因素的影響。如在對某商品銷售量影響因素的分析中,除了考慮廣告內(nèi)容的影響,還要考慮銷售價格、包裝等因素的影響。——多因素的方差分析若只考慮兩個因素的影響——雙因素的方差分析

有交互作用的雙因素方差分析無交互作用的雙因素方差分析表2因素A因素B二、數(shù)學(xué)模型假設(shè)記號總平均有交互作用的雙因素方差分析的數(shù)學(xué)模型檢驗假設(shè)2.研究統(tǒng)計特性;檢驗步驟1.分解平方和;3.確定拒絕域.1.分解平方和總偏差平方和(總變差)誤差平方和因素

A的效應(yīng)平方和因素

B的效應(yīng)平方和因素A,B的交互效應(yīng)平方和2.研究統(tǒng)計特性自由度數(shù)學(xué)期望3.確定拒絕域表3有交互作用的雙因素方差分析表方差來源平方和自由度均方F

比因素

A因素

B交互作用誤差總和例

抗?fàn)坷瓘姸仁怯蚕鹉z的一項重要的性能指標(biāo),現(xiàn)試驗考察下列兩個因素對該指標(biāo)的影響.A(硫化時間):A1(40秒),A2(60秒).B(催化劑種類):B1(甲種),B2(乙種),B3(丙種).六種組合水平下,各重復(fù)做了兩次試驗,測得數(shù)據(jù)(單位:kg/cm2)如下,試問因素A,因素B對該指標(biāo)的影響是否顯著?應(yīng)用EXCEL軟件可得如下結(jié)果:從以上結(jié)果可見,乙種催化劑、硫化60秒可使硬橡膠的抗?fàn)坷瓘姸冗_到最大.

檢驗兩個因素的交互效應(yīng),對兩個因素的每一組合至少要做兩次試驗.

如果已知不存在交互作用,或已知交互作用對試驗的指標(biāo)影響很小,則可以不考慮交互作用.

對兩個因素的每一組合只做一次試驗,也可以對各因素的效應(yīng)進行分析——無交互作用的雙因素方差分析1.4無交互作用的雙因素方差分析表4

因素B因素A假設(shè)無交互作用的雙因素方差分析的數(shù)學(xué)模型檢驗假設(shè)表5無交互作用的雙因素方差分析表方差來源平方和自由度均方F比因素A因素B誤差總和例

為提高某種產(chǎn)品的合格率,考察原料用量和來源地對其是否有影響.原料來源地有三個:甲、乙、丙.原料用量有三種:現(xiàn)用量、增加5%、增加8%.每個水平組合各做一次試驗,得到的數(shù)據(jù)如下:試分析原料用量及來源地對產(chǎn)品合格率的影響是否顯著.解:設(shè)原料來源地為因素A,三個地區(qū)為因素A的三個水平,第i個水平對合格率的特殊效應(yīng)為;原料用量為因素B,三種用料量為因素B的三個水平,第j個水平對合格率的特殊效應(yīng)為,原假設(shè)為由EXCEL軟件可得如下結(jié)果:最優(yōu)條件為A2B2,即采用乙地原料并在原有用料量上增加5%,這一方案為最佳.雙因素方差分析的Matlab實現(xiàn)調(diào)用格式:p=anova2(X,reps)含義:比較樣本X中兩列或兩列以上和兩行或兩行以上數(shù)據(jù)的均值。不同列的數(shù)據(jù)代表因素A的變化,不同行的數(shù)據(jù)代表因素B的變化。若在每個行-列匹配點上有一個以上的觀測量,則參數(shù)reps指示每個單元中觀測量的個數(shù)。

返回:當(dāng)reps=1(默認值)時,anova2將兩個p值返回到向量p中。

H0A:因素A的所有樣本(X中的所有列樣本)取自相同的總體;

H0B:因素B的所有樣本(X中的所有行樣本)取自相同的總體。當(dāng)reps>1時,anova2還返回第三個p值:

H0AB:因素A與因素B沒有交互效應(yīng)。解釋:如果任意一個p值接近于0,則認為相關(guān)的零假設(shè)不成立。

Matlab程序:disp1=[58.256.265.3;4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論