第十三章-卡方檢驗(yàn)與方差分析+_第1頁
第十三章-卡方檢驗(yàn)與方差分析+_第2頁
第十三章-卡方檢驗(yàn)與方差分析+_第3頁
第十三章-卡方檢驗(yàn)與方差分析+_第4頁
第十三章-卡方檢驗(yàn)與方差分析+_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十三章檢驗(yàn)與方差分析我們前面已經(jīng)比較系統(tǒng)地討論了雙樣本的參數(shù)和非參數(shù)檢驗(yàn)的問題?,F(xiàn)在,我們希望利用一般的方法來檢驗(yàn)三個(gè)以上樣本的差異,檢驗(yàn)法和方差分析法就是解決這方面問題的。檢驗(yàn)法可以對擬合優(yōu)度和獨(dú)立性等進(jìn)行檢驗(yàn),方差分析法則可以對多個(gè)總體均值是否相等進(jìn)行檢驗(yàn)。后者由于通過各組樣本資料之間的方差和組內(nèi)方差的比較來建立服從F分布的檢驗(yàn)統(tǒng)計(jì)量,所以又稱F檢驗(yàn)。第一節(jié):擬合優(yōu)度檢驗(yàn)第二節(jié):無關(guān)聯(lián)性檢驗(yàn)第三節(jié):方差分析第四節(jié):回歸方程與相關(guān)系數(shù)的檢驗(yàn)第一節(jié)擬合優(yōu)度檢驗(yàn)運(yùn)用Z檢驗(yàn)、t檢驗(yàn)等討論假設(shè)檢驗(yàn)的問題,一般要求總體服從正態(tài)分布,或者在大樣本條件下可以利用漸近正態(tài)分布理論來描述抽樣分布。也就是說,我們都要直接或間接地假定對象總體具有已知的分布形式,然后對總體的未知參數(shù)進(jìn)行假設(shè)檢驗(yàn)。如果不知道總體的分布形式,就無法運(yùn)用t檢驗(yàn)法等對總體參數(shù)進(jìn)行假設(shè)檢驗(yàn)。于是,這里有一個(gè)前面留下來的尚未討論的問題很重要,就是怎樣檢定總體是否具有正態(tài)或其他分布形式?擬合優(yōu)度檢驗(yàn)正是就這一問題而言的檢驗(yàn)方法。第十一章最后一節(jié),我們將累計(jì)頻數(shù)檢驗(yàn)用于經(jīng)驗(yàn)分布與理論分布的比較,實(shí)際已經(jīng)提供了擬合優(yōu)度檢驗(yàn)的一種方法。擬合優(yōu)度檢驗(yàn)與累計(jì)頻數(shù)擬合優(yōu)度檢驗(yàn)相對應(yīng),在評估從經(jīng)驗(yàn)上得到的頻數(shù)和在一組特定的理論假設(shè)下期望得到的頻數(shù)之間是否存在顯著差異時(shí),是一種更普遍的檢驗(yàn)方法?,F(xiàn)在我們再來看看第七章提到的著名的孟德爾豌豆試驗(yàn)。根據(jù)孟德爾提出的分離規(guī)律,純種豌豆雜交后的子二代出現(xiàn)分化,紅花植株與白花植株的數(shù)目應(yīng)為3∶1。但由于隨機(jī)性,觀察結(jié)果與3∶1理論值總有些差距。因此有必要去考察某一大小的差距是否已構(gòu)成否定3∶l理論的充分根據(jù)。這正是我們所討論的擬合優(yōu)度檢驗(yàn)的問題。解決這類問題的工具,是卡·皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂檢驗(yàn)法。

1.問題的導(dǎo)出首先把問題表述成一般模式。設(shè)一總體包含c種可區(qū)別的個(gè)體。根據(jù)某種理論或純粹的假設(shè),第i種個(gè)體出現(xiàn)的概率應(yīng)為某個(gè)已知的數(shù)Pi(i=1,2,…,c),有Pi>0,=1。這一組概率(P1,P3,…,Pc)就構(gòu)成了我們的理論分布?,F(xiàn)在在該總體中隨機(jī)地抽取一個(gè)容量為n的樣本,發(fā)現(xiàn)其中第I種個(gè)體的數(shù)目為fi(i=1,2,…,c),并有=n。我們要據(jù)此檢驗(yàn)理論分布。用概率論的語言可以這樣說,設(shè)對象總體中隨機(jī)變量X有c種取值。當(dāng)X的取值是xi時(shí),按零假設(shè),其總體分布等于理論分布,即

P()=Pi

(i=1,2,…,c)

例如,就孟德爾的3∶1理論來說,c=2,P(x1)=3/4,P(x2)=1/4?,F(xiàn)在從該總體中隨機(jī)地抽取一個(gè)容量為n的樣本,發(fā)現(xiàn)其中xi(i=1,2…,c)出現(xiàn)的次數(shù)為fi(i=1,2,…,c),并有=n。知道了頻數(shù)也就知道了頻率,即:出現(xiàn)的頻率為,并有=1。

現(xiàn)在我們就是要據(jù)此經(jīng)驗(yàn)分布來檢驗(yàn)總體分布等于理論分布的零假設(shè)。2.?dāng)M合優(yōu)度檢驗(yàn)(比率擬合檢驗(yàn))擬合優(yōu)度檢驗(yàn)如何進(jìn)行?關(guān)鍵是確定合適的檢驗(yàn)統(tǒng)計(jì)量以及該統(tǒng)計(jì)量所服從的概率分布。這里不可避免地要引進(jìn)某種人為因素,即人們設(shè)計(jì)出下面這樣的綜合性可比指標(biāo):其中k1,k2,…,kc是適當(dāng)選取的常數(shù)。仔細(xì)觀察不難發(fā)現(xiàn),L值大,意味著經(jīng)驗(yàn)分布與理論分布偏離大;L值小,意味著經(jīng)驗(yàn)分布與理論分布偏離小。當(dāng)在某個(gè)選定的水平上,經(jīng)驗(yàn)分布顯著偏離理論分布,那么對象總體具有某種分布形式的零假設(shè)便被否定。結(jié)論:用作為檢定Ho成立的檢驗(yàn)統(tǒng)計(jì)量,理論證明,當(dāng)n足夠大

時(shí),該統(tǒng)計(jì)量服從分布,它是一種具有已知的并制成表的概率

分布,因此對給定的顯著性水平α,可求得臨界值,與比

較,進(jìn)而作出檢驗(yàn)結(jié)論。顯而易見,理論頻數(shù)fe與觀測頻數(shù)fo越接近,統(tǒng)計(jì)值越小,經(jīng)驗(yàn)分布與理論分布擬合程度越好。反之,fe與fo差距越大,值越大,經(jīng)驗(yàn)分布與理論分布擬合程度越差,擬合優(yōu)度檢驗(yàn)由此得名。[例]孟德爾遺傳定律表明:在純種紅花豌豆與白花豌豆雜交后所生的子二代豌豆中,紅花對白花之比為3:1。某次種植試驗(yàn)的結(jié)果為;紅花豌豆176株,白花豌豆48株。試在α=0.05的顯著性水平上,對孟德爾定律作擬合優(yōu)度檢驗(yàn)。(參見下表)應(yīng)用舉例

3.正態(tài)擬合檢驗(yàn)[例]試對下表所給男青年身高分布的數(shù)據(jù)作正態(tài)擬合檢驗(yàn),選取α=0.05。[解]

檢驗(yàn)的另一個(gè)重要應(yīng)用是對交互分類資料的獨(dú)立性檢驗(yàn),即列聯(lián)表檢驗(yàn)。在上一章,我們曾多次提到過性別與收入高低有無關(guān)聯(lián)的問題,在實(shí)際中類似的問題很多。例如受教育程度與投票行為有無關(guān)聯(lián)?吸煙與壽命長短有無關(guān)聯(lián)?家庭小孩多少與收入多少有無關(guān)聯(lián)?受教育時(shí)間長短與收入多少有無關(guān)聯(lián)?血型與某種性格上的差異有無關(guān)聯(lián)?等等,把這類問題上升到一般,就是在列聯(lián)表的基礎(chǔ)上考察變量X與Y有無關(guān)聯(lián)。由于列聯(lián)表一般是按品質(zhì)標(biāo)志把兩個(gè)變量的頻數(shù)進(jìn)行交互分類的,所以:①檢驗(yàn)法用于對交互分類資料的獨(dú)立性檢驗(yàn),有其它方法無法比擬的優(yōu)點(diǎn);②如何求得列聯(lián)表中的理論頻數(shù)就成了獨(dú)立性檢驗(yàn)的關(guān)鍵。第二節(jié)無關(guān)聯(lián)性檢驗(yàn)1、獨(dú)立性、理論頻數(shù)及自由度應(yīng)用此式,不必計(jì)算理論頻數(shù)計(jì)算與這個(gè)檢驗(yàn)統(tǒng)計(jì)量相聯(lián)系的自由度算出統(tǒng)計(jì)量之值并定出其自由度后,就可以依前述的方法,在給定了顯著性水平之后,來對X,Y屬性無關(guān)聯(lián)的零假設(shè)進(jìn)行檢驗(yàn)了。應(yīng)用舉例[例]檢驗(yàn)也適用于定類變量和定類變量的相關(guān)統(tǒng)計(jì),即可以用它檢定λ和τ系數(shù)是否顯著。就下表所示資料,試以檢驗(yàn)檢定性別與收入之間的相關(guān)程度是否顯著(α取0.001)。[解]

故拒絕H0,即認(rèn)為總體上性別與收入高低之間不獨(dú)立,有顯著相關(guān)關(guān)系。[例]在某種流行病流行的時(shí)候,共有120個(gè)病人進(jìn)行了治療,其中40個(gè)病人按標(biāo)準(zhǔn)劑量服用某種新藥,另有40個(gè)病人按標(biāo)準(zhǔn)劑量的2倍服用了這種新藥,其余40個(gè)病人只按病狀治療(而不是按病因治療),治療結(jié)果按迅速痊愈、緩慢痊愈、未痊愈分為三類,最后交叉分類的情況列于下表,試問這三種療法之間有沒有差別(α取0.05)。[解]

H0:這三種療法之間沒有差別

H1:這三種療法之間有差別

由于α=0.05;自由度k=(c―l)(r―l)=2×2=4,查分布表得臨界值:

在零假設(shè)下,計(jì)算檢驗(yàn)統(tǒng)計(jì)量,計(jì)算過程參見后表。

因此>,故拒絕零假設(shè),即三種療法之間有顯著差別。第三節(jié)方差分析

方差分析,是一種很重要的分析方法,它可以檢驗(yàn)兩個(gè)以上樣本均值之差。方差分析是均值差檢驗(yàn)的推廣,一般用于處理自變量是一個(gè)(或多個(gè))定類變量和因變量是一個(gè)定距變量之間的關(guān)系。方差分析所包含的假定與均值差檢驗(yàn)所包含的假定差不多,例如正態(tài)分布、獨(dú)立隨機(jī)樣本、等方差性等,但檢驗(yàn)本身卻很不相同。方差分析直接涉及的是方差而不是均值和標(biāo)準(zhǔn)差。同時(shí),比較也不取兩種估計(jì)量之差,而是取兩種估計(jì)量的比率。在兩種估計(jì)量彼此獨(dú)立的前提下,兩種估計(jì)量之比率F具有已知的抽樣分布,因而可進(jìn)行很簡單的檢驗(yàn)。1.總變差及其分解

總變差:在方差分析中記作SST,它表示對于總均值的偏差之平方和。即:

SST=式中:ni是第i個(gè)樣本的容量,n=

為什么會形成總變差這個(gè)散布度呢?一是三個(gè)樣本可能不同,這使全部數(shù)據(jù)有三個(gè)“中心”;二是隨機(jī)抽樣誤差的影響,使數(shù)據(jù)在每個(gè)中心附近有散布。

總變差分解

可以看出,總變差分解成兩部分:第一部分是各觀測值對其所屬類別均值的偏差的平方和,稱為組內(nèi)變差(Within-groupsSumofSquares),記作SSW。組內(nèi)變差反映了數(shù)據(jù)圍繞各“中心”的散布程度,即反映了因隨機(jī)波動(dòng)所產(chǎn)生的變異,與自變量因素?zé)o關(guān)。換言之,SSW是自變量因素所沒有解釋的的變異。因此,又稱之為殘差。第二部分是組間平方和(Between-groupsSumofSquares),記作SSB

,它涉及到諸類別均值對總均值的偏差,反映了前表中數(shù)據(jù)的c個(gè)“中心”的散布程度。

弄清了組間變差和組內(nèi)變差,檢驗(yàn)“A1≠A2≠A3”(也就是零假設(shè)μ1=μ2=μ3)的思路也就梳理出來了:關(guān)鍵是比較兩種變差是否有顯著差異。若第一種變差明顯大于第二種變差,則認(rèn)為家庭因素對孩子圖書消費(fèi)是有影響的;若第一種變差與第二種變差之間無顯著區(qū)別,則不能認(rèn)為家庭因素對孩子圖書消費(fèi)有影響。但在統(tǒng)計(jì)學(xué)上,方差分析不取兩者之差而取兩者之比來進(jìn)行這種比較。而且,方差分析不是直接用SSB/SSW作為檢驗(yàn)統(tǒng)計(jì)量,而是用

可以解釋的方差/不能解釋的方差作為檢驗(yàn)統(tǒng)計(jì)量,即:2.關(guān)于自由度

組間平方和代表c個(gè)樣本均值對總均值的偏差。也就是每個(gè)可看作為一個(gè)單位,c個(gè)可看作為c個(gè)單位,有c個(gè)自由度,求用去一個(gè)自由度。因而,與組間平方和相聯(lián)系的自由度為c―1。再看組內(nèi)平方和,計(jì)算時(shí)每列失去一個(gè)自由度。因而,與組內(nèi)平方和相聯(lián)系的自由度為n―c。最后看總平方和,計(jì)算總均值時(shí)失去一個(gè)自由度。因而,與總平方和相聯(lián)系的自由度為n―l??偟膩砜从?

n―l=(n―c)+(c―1)總自由度=組內(nèi)自由度+組間自由度

上式是在在零假設(shè)(H0:μ1=μ2=…=μc)之下,檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算公式。理論證明:上式服從分子自由度為k1=c―1、分母自由度為k2=(n―c)的F分布。于是,給定顯著性水平α,我們就可以很方便地從F分布表中查到臨界值Fα(c―1,n―c)。如果出現(xiàn)Fo>Fα的情況,我們將在這個(gè)顯著性水平上拒絕零假設(shè)。在實(shí)際運(yùn)用中,方差分析的結(jié)果常用一種稱為“方差分析表”的標(biāo)準(zhǔn)形式的表格表示出來,其基本形式如表后所示。

為了簡化檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算,有必要將SST、SSW、SSB這三個(gè)定義式展開,其方法與分解總變差的方法相同。于是有:3.關(guān)于檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算

注意,由于總變差等于另兩個(gè)變差之和,所以三個(gè)變差中僅需求出兩個(gè)變差。求出組內(nèi)平方和比求另兩個(gè)平方和繁瑣得多,故通常我們都是從總平方和減去組間平方和來求組內(nèi)平方和的。[例]試對下表中的資料,計(jì)算SST

、SSW、SSB

,并檢驗(yàn)μ1=μ2=μ3的零假設(shè)(α取0.05)。解:據(jù)題意,n1=n2=n3=8,n1+n2+n3=24

組內(nèi)自由度=n―c=24―3=21

組間自由度=c―1=3―1=2

分別計(jì)算SST和SSB,計(jì)算過程參見下表。

由于α=0.05,查F分布表得臨界值:Fα(c―1,n―c)=F0.05(2,21)=3.47>1.19故在0.05顯著性水平上不否定零假設(shè),即沒有充分根據(jù)提出這三類家庭的孩子在圖書消費(fèi)方面有顯著不同。

[例]研究某種商品銷量與品牌的關(guān)系,得下表資料,其中A1,A2,A3表示不同的品牌,數(shù)據(jù)表示銷量。試以顯著性水平10%判斷

品牌對該種商品的銷量有無影響。

[解]

據(jù)題意,n1=n1+n2+n3=2+4+3=9

組內(nèi)自由度=n―c=9―3=6

組間自由度=c―1=3―1=2

分別計(jì)算SST和SSB,計(jì)算過程參見前表13.16。于是得MSB

MSW

MSB=SSB/(c―1)=6.89/2=3.45

MSW

=SSW/(n―c)=30/6=5.00

再根據(jù)(13.19)式求檢驗(yàn)統(tǒng)計(jì)量Fo

Fo===0.69<1

故在0.10顯著性水平上不否定零假設(shè),即不能判斷不同品脾對該種商品的銷量有顯著影響。

4.相關(guān)比率當(dāng)方差分析的檢驗(yàn)呈顯著性后,進(jìn)一步討論兩變量間的相關(guān)程度是很自然的。方差分析中相關(guān)程度的測定仍采用PRE法。當(dāng)不知因變量Y的取值與自變量X的取值A(chǔ)1,A2,…,Ac有關(guān)時(shí),最好的預(yù)測是以總均值作為Y的估計(jì)值。此時(shí),估計(jì)所犯的錯(cuò)誤將等于SST

E1=SST=當(dāng)已知因變量Y的取值與自變量X的取值A(chǔ)1,A2,…,Ac有關(guān)后,自然用各樣本的均值作為各類別的預(yù)測值,此時(shí)預(yù)測所產(chǎn)生的誤差將等于SSW

E2=SSW=

所以消減誤差比例可寫成PRE===正是因?yàn)樯鲜剑覀儼裇SB稱為已解釋的變差。顯然,已解釋的變差越大,預(yù)測Y所減少的誤差就越多,X與Y之間的關(guān)系就越密切。據(jù)此,方差分析中把已解釋的變差對總變差的比值稱為相關(guān)比率,用符號表示=1―=

可用于一個(gè)定類變量與一個(gè)定距變量的相關(guān)程度的測定,當(dāng)然也可以用于定序—定距變量或定距—定距變量的相關(guān)程度的測定。[例]試以表13.12的資料,分析孩子圖書消費(fèi)與家庭類型的關(guān)系。

解:據(jù)前面例題中已計(jì)算的結(jié)果,已知SSB=28,SST=276,因而有

=1―===10.1%

可見,就表給資料而言,利用家庭類型預(yù)測孩子圖書消費(fèi)量,只能削減10.1%的預(yù)測誤差。小結(jié):相關(guān)比率研究的是定類—定距變量之間的相關(guān)程度。由于定類變量不具有數(shù)量大小的問題,不存在關(guān)系是否線性的問題。因此,當(dāng)被用于研究定距—定距變量之間的關(guān)系時(shí),不僅可以作為線性相關(guān)的量度,也可以作為非線性相關(guān)的量度。這意味著,對線性相關(guān),相關(guān)比率與r2(積差系數(shù)之平方)有相同的PRE性質(zhì);但如果對非線性相關(guān),用積差系數(shù)r來討論就不行了。對于定距—定距變量,曲線相關(guān)既然要用R來測量,那么反過來,同一資料通過相關(guān)指數(shù)R與積差系數(shù)r計(jì)算的比較,可以判斷確定兩定距變量的關(guān)系是不是直線。如果同時(shí)求出r與R,r等于或略大于R,可說明兩變量關(guān)系是直線的,用r去測量是合適的;如果r<R,則說明兩變量關(guān)系可能是曲線的。首先,MSB和MSW可以分別稱為組間方差和組內(nèi)方差,其中(在等方差的假設(shè)下)組內(nèi)方差總是σ2的無偏估計(jì);而組間方差,只有當(dāng)諸總體(即各樣本所代表的子總體)均值實(shí)際上相等時(shí),它才是σ2的無偏估計(jì)。這就是說,如果零假設(shè)為真,MSB和MSW之間將沒有太大的差別。反之。如果零假設(shè)實(shí)際不正確,可以期望MSB和MSW的比值大于1。如果這個(gè)比值小于1,則不從F分布表中查找臨界值Fα就可以判斷零假設(shè)不能被否定。其次,以上兩個(gè)例題也可以用均值差檢驗(yàn)來處理。均值差檢驗(yàn)涉及t分布,可以做三組合的比較.即A1與A2,A2與A3,A1與A3。與均值差檢驗(yàn)不同,方差分析僅進(jìn)行一次檢驗(yàn)來判定三種類別的家庭(或品牌)在消費(fèi)(或銷售)上彼此是否有顯著性差異。方差分析的優(yōu)點(diǎn)在于,一個(gè)檢驗(yàn)可以代替多個(gè)檢驗(yàn)。如果有四個(gè)類別,均值差檢驗(yàn)需做(4×3)/2=6次;如果有六個(gè)類別,需做(6×5)/2=15次;如果有十個(gè)類別,需做(10×9)/2=45次。況且,如果做15次均值差檢驗(yàn)。其中4次結(jié)果具有顯著性,這時(shí)應(yīng)當(dāng)下什么結(jié)論?可能很難回答。

5.關(guān)于方差分析的幾點(diǎn)討論第三,方差分析中的自變量X如果是二分變量,也可以采用均值差t檢驗(yàn)。在這種情況下,F(xiàn)的分子自由度是2―1=1,分母自由度是n―2,這與均值差檢驗(yàn)中的t相同。經(jīng)過計(jì)算可知,具有自由度n―2的t

2值等于具有分子自由度為1和分母自由度為n―2的F值。比較F表和t表也可以核實(shí)這一點(diǎn)。換言之,t是分子自由度為l的F的平方根。這當(dāng)然意味著,對于樣本而言,此時(shí)不論采用方差分析或均值差檢驗(yàn),其結(jié)果完全相同。第四,本節(jié)集中討論了自變量為一個(gè)定類變量而因變量為一個(gè)定距變量的情況。如果對因變量Y影響的自變量由一個(gè)變?yōu)閮蓚€(gè)以上,我們就將面對多元方差分析了??傋儾罘纸獾乃枷肟梢灾苯油茝V至多因素顯著性檢驗(yàn)。例如就兩個(gè)自變量(A和B)獨(dú)立對因變量Y影響的情況,可以得到下述方差分析表(表13.17)。相關(guān)與回歸,由于其廣泛應(yīng)用,如今在統(tǒng)計(jì)學(xué)中是高度發(fā)展的分支之一。而從實(shí)用的觀點(diǎn)來看,線性關(guān)系是最簡單也是最重要的一種關(guān)系。本書第十二章已經(jīng)對積差系數(shù)與回歸直線作了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論