方差分析復(fù)習(xí)知識(shí)講解_第1頁(yè)
方差分析復(fù)習(xí)知識(shí)講解_第2頁(yè)
方差分析復(fù)習(xí)知識(shí)講解_第3頁(yè)
方差分析復(fù)習(xí)知識(shí)講解_第4頁(yè)
方差分析復(fù)習(xí)知識(shí)講解_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

方差分析復(fù)習(xí)知識(shí)講解方差分析基本框架①

研究問(wèn)題:探究分類型自變量對(duì)數(shù)值型因變量的影響。②

方法:根據(jù)樣本數(shù)據(jù)對(duì)多個(gè)總體間均值是否相等進(jìn)行假設(shè)檢驗(yàn)。(H0:各個(gè)總體均值相等)③

概念:統(tǒng)計(jì)量:樣本中各水平均值。參數(shù):總體中各水平期望。④

方差分析基本假設(shè):正態(tài)性:每個(gè)總體服從正態(tài)分布方差齊性:各個(gè)總體的方差是相等的獨(dú)立性:各個(gè)觀測(cè)值的抽取是獨(dú)立的方差分析原理方差分析的方法論即是根據(jù)樣本數(shù)據(jù)探究各個(gè)總體間均值是否相等。下面以單因素方差分析為例探究其中蘊(yùn)含的思想以及基本假設(shè)在方差分析中所起到的作用。書上例子:以上為樣本數(shù)據(jù),方差分析即是根據(jù)以上四個(gè)行業(yè)投訴量樣本均值來(lái)探究總體期望是否相等,如果相等(即H0成立),那么說(shuō)明四個(gè)行業(yè)間的投訴量沒(méi)有明顯差異,投訴次數(shù)與行業(yè)間的差異無(wú)關(guān)。步驟一:畫圖將樣本數(shù)據(jù)繪制為點(diǎn)圖后發(fā)現(xiàn),航空公司投訴量明顯偏高,家電制造業(yè)投訴量明顯偏低,但是樣本畢竟無(wú)法完全代表總體,各個(gè)總體間均值是否相等還需要進(jìn)一步的統(tǒng)計(jì)檢驗(yàn)。步驟二:統(tǒng)計(jì)檢驗(yàn)①

基本假設(shè):1.

獨(dú)立性首先從獨(dú)立性入手,這是一個(gè)非常好理解的假設(shè),因?yàn)槿绻^測(cè)值的抽取非獨(dú)立,假設(shè)抽樣者對(duì)于零售業(yè)有偏好,專門從投訴量低的集合中抽樣,而相對(duì)于零售業(yè),對(duì)旅游業(yè)的態(tài)度較為悲觀,專門從投訴量高的集合中抽樣,那么根據(jù)這個(gè)樣本所進(jìn)行統(tǒng)計(jì)檢驗(yàn)的結(jié)果偏向于各個(gè)總體期望不相等,但是這個(gè)結(jié)果并不客觀,因此獨(dú)立性假設(shè)是方差分析最強(qiáng)的前提假設(shè)之一,如果違反該假定,方差分析將失去意義。2.

正態(tài)性先看方差分析的檢驗(yàn)統(tǒng)計(jì)量:由檢驗(yàn)統(tǒng)計(jì)量的定義知,F(xiàn)統(tǒng)計(jì)量是根據(jù)標(biāo)準(zhǔn)正態(tài)分布進(jìn)行構(gòu)建的。因此如果正態(tài)性假定不成立,那么就不能根據(jù)F分布來(lái)進(jìn)行假設(shè)檢驗(yàn)。但是并不意味著方差分析不能夠進(jìn)行下去,如果能夠找到所設(shè)置檢驗(yàn)統(tǒng)計(jì)量的抽樣分布,那么依舊可以進(jìn)行假設(shè)檢驗(yàn)。因此正態(tài)性假定是為了方便檢驗(yàn)統(tǒng)計(jì)量的構(gòu)建,對(duì)方差分析的影響并不強(qiáng)烈。3.

方差齊性這是一個(gè)并不太好理解的假設(shè)。因此從方差分析的原理入手:Ⅰ.

方差分析原理:假設(shè)原假設(shè)成立,即各個(gè)總體的期望相等。且這個(gè)時(shí)候方差分析基本假定(獨(dú)立性,正態(tài)性、方差齊性)成立,那么上述例子中的四個(gè)行業(yè)總體分布即可認(rèn)為服從同一個(gè)正態(tài)分布:此時(shí)不論是從某一個(gè)行業(yè)內(nèi)部進(jìn)行抽樣,還是將行業(yè)混合起來(lái)進(jìn)行抽樣,所計(jì)算出來(lái)的方差都是該正態(tài)分布方差的一致估計(jì),也就是說(shuō)當(dāng)中只包含隨機(jī)誤差,因此從中計(jì)算出來(lái)的組間誤差與組內(nèi)誤差平均后的數(shù)值應(yīng)該非常接近(只包含隨機(jī)誤差)。如果此時(shí)假設(shè)原假設(shè)不成立,即各個(gè)總體的不期望相等。且這個(gè)時(shí)候方差分析基本假定(獨(dú)立性,正態(tài)性、方差齊性)成立,那么各個(gè)總體假設(shè)服從下圖所示的正態(tài)分布:由于各個(gè)總體的方差相等,因此從各個(gè)總體內(nèi)部抽取樣本計(jì)算方差,都可視為相同方差(σ)的一致估計(jì)。因此各個(gè)水平內(nèi)部計(jì)算出的組內(nèi)誤差仍十分接近,也就是只包含隨機(jī)誤差。而此時(shí)計(jì)算出的組間誤差,根據(jù)計(jì)算公式:所包含的就不只是隨機(jī)誤差,因?yàn)槭歉鶕?jù)所有總體中抽取的樣本計(jì)算出來(lái)的,如下所示(假設(shè)黃線為總體均值):此時(shí)根據(jù)黑色正態(tài)分布計(jì)算出的組間平方和大概率大約藍(lán)色正態(tài)分布計(jì)算出的組間平方和,因此組間平方和就將水平間的差異體現(xiàn)了出來(lái),此時(shí)組間平方和不僅僅包含隨機(jī)誤差,也包含由于各個(gè)水平所處總體的期望不同所導(dǎo)致的系統(tǒng)誤差。由于此時(shí)組間平方和包含系統(tǒng)誤差,所以可以根據(jù)組間平方和與組內(nèi)平方和平均后的比值大小來(lái)判斷是否真正存在系統(tǒng)誤差,也就是對(duì)原假設(shè)進(jìn)行假設(shè)檢驗(yàn)。Ⅱ.

方差齊性假定的作用如果不滿足方差齊性假定:(此時(shí)將綠色正態(tài)分布標(biāo)準(zhǔn)差設(shè)置為15,其他都為12)這時(shí)綠色正態(tài)分布中樣本計(jì)算出的組內(nèi)平方和就是它自己方差的一致估計(jì)(15的平方),其他樣本計(jì)算出的組內(nèi)平方和是(12的平方)的一致估計(jì),因此在這種情況下,組內(nèi)平方和也包含了系統(tǒng)誤差,然而組間平方和仍然包含系統(tǒng)誤差,因此就不能根據(jù)組內(nèi)平方和與組間平方和平均后的比值來(lái)判斷原假設(shè)是否成立。這就是方差齊性假定所起到的作用。方差分析模型仍然以單因素方差分析為例:SST=SSA+SSE此時(shí)SSA(組間平方和)即包含系統(tǒng)誤差,也包含隨機(jī)誤差,而SSE是模型剝離出來(lái)的隨機(jī)誤差。因此通過(guò)比較SSA與SSE平均后的數(shù)值來(lái)判斷原假設(shè)是否成立。SSE類似回歸分析中的殘差項(xiàng),即在單因素方差分析中,認(rèn)為SSE沒(méi)有蘊(yùn)含其他有用信息,只包含隨機(jī)誤差。但是事實(shí)未必如此,可能有其他因素也對(duì)我們要研究的數(shù)值型因變量起作用,此時(shí)SSE中仍然包含其他有用信息,因此出現(xiàn)了無(wú)交互作用雙因素方差分析,有交互作用雙因素方差分析,以及多因素方差分析等。下面進(jìn)入無(wú)交互作用雙因素方差分析:此時(shí)加入了一個(gè)變量,但是SSR、SSC的計(jì)算方式與之前沒(méi)有任何區(qū)別,也就是說(shuō),如果只有C(列)變量,將問(wèn)題轉(zhuǎn)化為單因素方差分析,SSC與單因素方差分析中的SSA沒(méi)有任何區(qū)別,此時(shí)SSR是從單因素方差分析中的SSE中剝離出來(lái)的,在這種情況下,R、C變量對(duì)總體SST的解釋程度增加(R方增大),而單純減少殘差項(xiàng)SSE。其中檢驗(yàn)邏輯與基本假設(shè)設(shè)置的原因與單因素方差分析相同,只是變成了二維正態(tài)分布。有交互作用的雙因素方差分析和多因素方差分析同理。

統(tǒng)計(jì)學(xué)基礎(chǔ)——方差分析今天,我們將繼續(xù)學(xué)習(xí)統(tǒng)計(jì)學(xué)的分析方法——方差分析。同樣作為一種重要的統(tǒng)計(jì)分析方法,被廣泛應(yīng)用于心理學(xué)、生物學(xué)、工程和醫(yī)藥的試驗(yàn)數(shù)據(jù)。從形式上看,方差分析是比較多個(gè)總體的均值是否相等,但本質(zhì)上研究的還是變量之間的關(guān)系,與前面學(xué)習(xí)的分類數(shù)據(jù)分析和后面介紹的回歸分析不同,方差分析研究的是分類型自變量與一個(gè)數(shù)值型因變量之間的關(guān)系。(一)方差分析導(dǎo)論一、方差分析定義方差分析是通過(guò)檢驗(yàn)各總體的均值是否相等來(lái)判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響。二、方差分析相關(guān)術(shù)語(yǔ)1、因素(因子):所檢驗(yàn)的對(duì)象稱為因素或因子。2、水平(處理):因素的不同表現(xiàn)稱為水平或處理。3、觀測(cè)值:每個(gè)因子水平下得到的樣本數(shù)據(jù)被稱為觀測(cè)值。例:要分析行業(yè)對(duì)投訴次數(shù)是否有顯著影響。研究人員選取了零售業(yè)、旅游業(yè)、航空業(yè)、家電制造業(yè)這4個(gè)行業(yè),其中零售業(yè)抽取了7家公司、旅游業(yè)抽取了6家公司、航空公司與家電制造業(yè)分別抽取了5家公司,得到的觀察值如下:零售業(yè)旅游業(yè)航空公司家電制造業(yè)5768314466394951492921654045347734564058535144由于只涉及到行業(yè)一個(gè)因素,且有零售業(yè)、旅游業(yè)、航空業(yè)、家電制造業(yè)這4個(gè)水平,因此也被稱為單因素4水平的試驗(yàn)。因素的每一個(gè)水平都可以看做一個(gè)總體,因此零售業(yè)、旅游業(yè)、航空業(yè)、家電制造業(yè)就可以看做是4個(gè)總體,上面的數(shù)據(jù)可以看做是從這4個(gè)總體中抽取的樣本數(shù)據(jù)。這里的行業(yè)就是要檢驗(yàn)的對(duì)象,也是自變量,稱為因素或因子;它是一個(gè)分類型變量,有零售業(yè)、旅游業(yè)、航空業(yè)、家電制造業(yè)4個(gè)取值,這4個(gè)行業(yè)的取值就是行業(yè)這一因素的具體表現(xiàn),稱為水平或處理;被投訴的次數(shù)是因變量,在每個(gè)行業(yè)下得到的樣本數(shù)據(jù)(被投訴次數(shù))就是因變量的取值,也是數(shù)值型變量,與方差分析的概念相吻合。三、方差分析基本原理為了分析分類型自變量對(duì)數(shù)值型因變量的影響,需要從對(duì)數(shù)據(jù)的誤差來(lái)源分析入手。通過(guò)對(duì)數(shù)據(jù)誤差來(lái)源的分析來(lái)判斷不同總體的均值是否相等,進(jìn)而分析自變量對(duì)因變量是否有顯著影響。1、組內(nèi)誤差與組間誤差還是以上述例子為例,同一行業(yè)(同一總體)下,被抽取的幾家公司的投訴次數(shù)是不一樣的,由于企業(yè)是隨機(jī)抽取的,因此它們之間的差異可以看做是抽樣的隨機(jī)性帶來(lái)的,也就是隨機(jī)因素造成的隨機(jī)誤差。這種來(lái)自水平內(nèi)部的數(shù)據(jù)誤差也被稱為組內(nèi)誤差,它反映了一個(gè)樣本內(nèi)部數(shù)據(jù)的離散程度。顯然,組內(nèi)誤差只含有隨機(jī)誤差。而在不同行業(yè)(不同總體)之間的觀測(cè)值也是不同的。這種差異可能是由于抽樣本身形成的隨機(jī)誤差,也可能是由于行業(yè)不同這一系統(tǒng)性因素造成的系統(tǒng)誤差。來(lái)自水平之間的數(shù)據(jù)誤差被稱為組間誤差。顯然,組間誤差是隨機(jī)誤差和系統(tǒng)誤差的總和。2、誤差的表示在搞清楚了組內(nèi)誤差與組間誤差后,我們還得知道如何計(jì)算這些誤差,在方差分析中,數(shù)據(jù)的誤差是用平方和來(lái)表示。(關(guān)于公式的計(jì)算本篇只做概述,下篇再詳細(xì)介紹具體計(jì)算細(xì)節(jié))(1)總平方和反映全部數(shù)據(jù)誤差大小的平方和稱為總平方和,記為SST。例如,所抽取的全部23家企業(yè)被投訴次數(shù)之間的誤差平方和就是總平方和。它反映了全部觀測(cè)值的離散狀況。計(jì)算公式如下:

(2)組內(nèi)平方和反映組內(nèi)誤差大小的平方和被稱為組內(nèi)平方和,也被稱為誤差平方和或殘差平方和,記為SSE。例如,每個(gè)樣本內(nèi)部的數(shù)據(jù)平方和加在一起就是組內(nèi)平方和,反映了每個(gè)樣本內(nèi)各觀測(cè)值的離散狀況。

(3)組間平方和反映組間誤差大小的平方和被稱為組間平方和,也被稱為因素平方和,記為SSA。例如,四個(gè)行業(yè)被投訴次數(shù)之間的誤差平方和就是組間平方和,反映樣本均值之間的差異程度。

3、誤差的分析如果不同行業(yè)對(duì)投訴次數(shù)沒(méi)有影響,那么組間誤差中應(yīng)該只包含隨機(jī)誤差,而沒(méi)有系統(tǒng)誤差。這時(shí),組間誤差與組內(nèi)誤差經(jīng)過(guò)平均后的數(shù)值(被稱為均方或方差)就應(yīng)該很接近,比值也就接近1。反之,如果不同行業(yè)對(duì)被投訴有影響,在組間誤差中除了包含隨機(jī)誤差還會(huì)有系統(tǒng)誤差,這時(shí)組間誤差平均后的數(shù)值就會(huì)大于組內(nèi)誤差平均后的數(shù)值,它們之間的比值會(huì)大于1。當(dāng)比值大到某種程度,就可以認(rèn)為因素的不同水平之間存在顯著差異,也就是自變量對(duì)因變量有顯著影響。四、方差分析基本假定1、每個(gè)總體都服從正態(tài)分布。也就是說(shuō)對(duì)于因素的每一個(gè)水平,其觀測(cè)值是來(lái)自正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本。即每個(gè)行業(yè)被投訴的次數(shù)必須服從正態(tài)分布。2、各個(gè)總體的方差

σ

必須相同。也就是說(shuō)各組觀察數(shù)據(jù)是從具有相同方差的正態(tài)總體中抽取的。即要求每個(gè)行業(yè)被投訴次數(shù)的方差都相同。3、觀測(cè)值是獨(dú)立的。即每個(gè)被抽中的企業(yè)被投訴的次數(shù)與其他企業(yè)被投訴的次數(shù)獨(dú)立。五、問(wèn)題的一般提法設(shè)因素

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論