卡方檢驗與方差分析_第1頁
卡方檢驗與方差分析_第2頁
卡方檢驗與方差分析_第3頁
卡方檢驗與方差分析_第4頁
卡方檢驗與方差分析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上 第十三章 檢驗與方差分析我們前面已經(jīng)比較系統(tǒng)地討論了雙樣本的參數(shù)和非參數(shù)檢驗的問題?,F(xiàn)在,我們希望利用一般的方法來檢驗三個以上樣本的差異,檢驗法和方差分析法就是解決這方面問題的。檢驗法可以對擬合優(yōu)度和獨立性等進行檢驗,方差分析法則可以對多個總體均值是否相等進行檢驗。后者由于通過各組樣本資料之間的方差和組內(nèi)方差的比較來建立服從F分布的檢驗統(tǒng)計量,所以又稱F檢驗。 第一節(jié) 擬合優(yōu)度檢驗 1問題的導出 第十一章最后一節(jié),我們將累計頻數(shù)檢驗用于經(jīng)驗分布與理論分布的比較,實際已經(jīng)提供了擬合優(yōu)度檢驗的一種方法。擬合優(yōu)度檢驗與累計頻數(shù)擬合優(yōu)度檢驗相對應,在評估從經(jīng)驗上得到的頻數(shù)和

2、在一組特定的理論假設下期望得到的頻數(shù)之間是否存在顯著差異時,是一種更普遍的檢驗方法。 2擬合優(yōu)度檢驗(比率擬合檢驗)據(jù)經(jīng)驗分布來檢驗總體分布等于理論分布的零假設,檢驗統(tǒng)計量是 理論證明,當n足夠大時,該統(tǒng)計量服從分布。因此對給定的顯著性水平,將臨界值與比較,可以就Ho作出檢驗結(jié)論。對于擬合優(yōu)度檢驗,在試驗規(guī)模小時,否定零假設的意義大,接受零假設的意義不大;若試驗規(guī)模大時,則接受零假設的意義大,否定零假設的意義不大。 3正態(tài)擬合檢驗第二節(jié) 無關聯(lián)性檢驗 檢驗的另一個重要應用是對交互分類資料的獨立性檢驗,即列聯(lián)表檢驗。由于列聯(lián)表一般是按品質(zhì)標志把兩個變量的頻數(shù)進行交互分類的,所以,檢驗法用于對交互

3、分類資料的獨立性檢驗,有其它方法無法比擬的優(yōu)點;如何求得列聯(lián)表中的理論頻數(shù)就成了獨立性檢驗的關鍵。 1獨立性、理論頻數(shù)及自由度檢驗統(tǒng)計量 進一步上式可變?yōu)?n 在使用檢驗法進行列聯(lián)表檢驗之前,還必須確定與這個檢驗統(tǒng)計量相聯(lián)系的自由度,即 (r×c-1)-(r-1)-(c-1)(c-1)(r-1)。 2關于頻數(shù)比較和連續(xù)性修正用卡方作為列聯(lián)表的統(tǒng)計量,有兩點我們應該特別注意。首先,列聯(lián)表檢驗是通過頻數(shù)而不是通過相對頻數(shù)的比較進行的。其次,使用卡方對列聯(lián)表進行檢驗每一格理論頻數(shù)必須保持在一定數(shù)目之上。 3列聯(lián)表的卡方分解 若一個復雜的列聯(lián)表具有顯著性,有時需要檢查子表以確定表格的那一部分

4、卡方影響最大。一種可行的簡便方法就是考察每一格的殘差,其公式為 根據(jù)計算結(jié)果可以知道哪一個殘差對卡方影響大。另一種方法是利用卡方分布的可加性,把r×c表的總體卡方分解為若干獨立部分。 4關系強度的量度 到目前為止,本節(jié)一直在討論列聯(lián)表變量間是否存在關系。其方法是建立變量間無關系的零假設,然后再試圖否定它。然而,對變量間是否存在關系的討論,必然引出對變量間關系強弱的討論。在樣本小的時候,獲得顯著性即表明變量間有強關系。對大樣本來說,更重要的問題是:“如果變量間存在關系,其強度有多大?”現(xiàn)在由于PRE準則,許多不同測量層次的變量已經(jīng)可以統(tǒng)一起來進行關聯(lián)強度的討論了。第三節(jié) 方差分析方差分

5、析,是一種很重要的分析方法,它可以檢驗兩個以上樣本均值之差。方差分析是均值差檢驗的推廣,一般用于處理自變量是一個(或多個)定類變量和因變量是一個定距變量之間的關系。方差分析所包含的假定與均值差檢驗所包含的假定差不多,例如正態(tài)分布、獨立隨機樣本、等方差性等,但檢驗本身卻很不相同。方差分析直接涉及的是方差而不是均值和標準差。同時,比較也不取兩種估計量之差,而是取兩種估計量的比率。在兩種估計量彼此獨立的前提下,兩種估計量之比率F具有已知的抽樣分布,因而可進行很簡單的檢驗。 1總變差及其分解第十二章已經(jīng)引入了變差的概念。但在方差分析中,由于自變量都是定類變量,我們不能像回歸分析那樣找出自變量和因變量的

6、線性或非線性關系,即不能確定自變量X取不同值時因變量Y的擬合值Yc,而只能研究自變量X取不同類別時,因變量Y的均值是否有所不同。但是在三種變差的討論中,和Yc的地位是一樣的。所以,有了上一章的知識,方差分析的方法是不難掌握的。 首先我們看總變差??傋儾钸@個概念不同于方差,在方差分析中記作SST,它表示對于總均值的偏差之平方和,即 SST 為什么會形成總變差這個散布度呢?顯然有兩個原因:一是三個樣本可能不同,這使全部數(shù)據(jù)有三個“中心”;二是隨機抽樣誤差的影響,使數(shù)據(jù)在每個中心附近有散布。這樣,將總變差分解成兩部分。第一部分是各觀測值對其所屬類別均值的偏差的平方和,稱為組內(nèi)變差,記作SSW。組內(nèi)變

7、差反映了數(shù)據(jù)圍繞各“中心”的散布程度,即反映了因隨機波動所產(chǎn)生的變異,與自變量因素無關。換言之,SSW是自變量因素所沒有解釋的的變異。因此,又稱之為殘差。第二部分是組間平方和,記作SSB ,它涉及到諸類別均值對總均值的偏差,反映數(shù)據(jù)在c個“中心” 附近的散布程度。2關于自由度 弄清了組間變差和組內(nèi)變差,檢驗零假設(H0:12c)的思路也就梳理出來了:關鍵是比較兩種變差是否有顯著差異。但在統(tǒng)計學上,方差分析不取兩者之差而取兩者之比來進行這種比較。而且,方差分析不是直接用SSB/SSW作為檢驗統(tǒng)計量,而是用(可以解釋的方差)/(不能解釋的方差)作為檢驗統(tǒng)計量,即 在統(tǒng)計學上,變差除以自由度即可“規(guī)

8、格化”成方差??傋杂啥冉M內(nèi)自由度 + 組間自由度,即nl (nc)+(c1)。這樣一來,在零假設(H0:12c)之下,檢驗統(tǒng)計量Fo的計算公式就找到了 Fo 3關于檢驗統(tǒng)計量Fo的計算 總平方和(SST) 組間平方和(SSB) 組內(nèi)平方和(SSW)總平方和(SST)組間平方和(SSB) 注意,由于總變差等于另兩個變差之和,所以三個變差中僅需求出兩個變差。求出組內(nèi)平方和比求另兩個平方和繁瑣得多,故通常我們都是從總平方和減去組間平方和來求組內(nèi)平方和的。 檢驗統(tǒng)計量 Fo 4相關比率 當方差分析的檢驗呈顯著性后,進一步討論兩變量間的相關程度是很自然的。方差分析中相關程度的測定仍采用PRE法。 PRE

9、 正是因為上式,我們把SSB稱為已解釋的變差。顯然,已解釋的變差越大,預測Y所減少的誤差就越多,X與Y之間的關系就越密切。據(jù)此,方差分析中把已解釋的變差對總變差的比值稱為相關比率,用符號表示 1 可用于一個定類變量與一個定距變量的相關程度的測定,當然也可以用于定序定距變量或定距定距變量的相關程度的測定。 相關比率研究的是定類定距變量之間的相關程度。由于定類變量不具有數(shù)量大小的問題,不存在關系是否線性的問題。因此,當被用于研究定距定距變量之間的關系時,不僅可以作為線性相關的量度,也可以作為非線性相關的量度。這意味著,對線性相關,相關比率與r2(積差系數(shù)之平方)有相同的PRE性質(zhì);但如果對非線性相

10、關,用積差系數(shù)r來討論就不行了。對于定距定距變量,曲線相關既然要用R來測量,那么反過來,同一資料通過相關指數(shù)R與積差系數(shù)r計算的比較,可以判斷確定兩定距變量的關系是不是直線。如果同時求出r與R,r等于或略大于R,可說明兩變量關系是直線的,用r去測量是合適的;如果rR,則說明兩變量關系可能是曲線的。 5關于方差分析的幾點討論 鑒于方差分析的重要性,我們有必要對它進行某些深入討論:(1)MSB和MSW可以分別稱為組間方差和組內(nèi)方差,其中(在等方差的假設下)組內(nèi)方差總是2的無偏估計;而組間方差,只有當諸總體(即各樣本所代表的子總體)均值實際上相等時,它才是2的無偏估計。(2)方差分析的優(yōu)點在于,一個

11、檢驗可以代替多個檢驗。(3)方差分析中的自變量X如果是二分變量,也可以采用均值差t檢驗。(1)如果對因變量Y影響的自變量由一個變?yōu)閮蓚€以上,我們就將面對多元方差分析了。總變差分解的思想可以直接推廣至多因素顯著性檢驗。 第四節(jié) 回歸方程與相關系數(shù)的檢驗 1回歸系數(shù)的檢驗 檢驗兩個總體變量(定距定距變量)是否具有線性關系,主要是檢驗總體的回歸系數(shù)B是否等于零。在H0成立的條件下,檢驗回歸直線的統(tǒng)計量可構造為 Fo F(1,n2) 對選定顯著性水平,可查表得臨界值F。若出現(xiàn)FoF(1,n2)的情況,則拒絕H0,即認為回歸方程中X變量對Y的解釋力是顯著的;若出現(xiàn)FoF(1,n2)的情況,則不能拒絕H0

12、,即認為回歸方程中X變量對Y沒有的顯著的解釋力。 2積差系數(shù)的檢驗 在社會研究中,要想確切了解兩總體變量 (定距定距變量)間的積差系數(shù)是很困難的。所以,通常需要通過樣本積差系數(shù)的統(tǒng)計檢驗來認識總體的積差系數(shù) 。設有兩變量X和Y,它們的積差系數(shù)記為。當0時,表示X和Y不具有線性相關關系,當0時,表示X和Y具有線性相關關系。統(tǒng)計理論證明,樣本積差系數(shù)r是總體積差系數(shù)的一個無偏估計量,有=,=而且當0時,樣本容量越大,r(顯然為一隨機變量)的抽樣分布越接近于自由度為n2的t分布(見圖13.1)。因而有檢驗統(tǒng)計量 tor t(n2) 3回歸方程的區(qū)間估計對于定距定距變量計算積差系數(shù)r時,要求相關的兩個

13、變量均為隨機變量。回歸分析則不同,因為回歸方程旨在披露X和Y之間的因果聯(lián)系,所以自變量X是給定的,只有因變量Y才是隨機的。這樣一來,就回歸線來說,Y值在每個估計值Yc兩側(cè)都有個隨機分布。而且,Yc對Y的代表性越高,Y值在回歸線兩側(cè)分布得就越集中;Yc對Y的代表性越差,Y值在回歸線兩側(cè)分布得就越分散。根據(jù)第九章的知識,當知道Y和X有關系后,用Yc來估計Y固然可以消減不少估計誤差,這也不過是點估計。而如果我們能在擬合值Yc上下設置一個合適區(qū)間,那么Y被估計到的可能性便會大大增加。這樣一來,回歸方程區(qū)間估計的問題便提出來了。當然,在回歸線兩側(cè)設置一個估計區(qū)間總是容易做到的,但問題是我們需要對估計的信度和效度作通盤考慮。為此,我們必須了解Y在Yc兩側(cè)的分布特征以及Y在Yc兩側(cè)的分散程度。所幸的是,由于誤差為正態(tài)分布的原理(即中心極限定理),當樣本容量n大于30時,我們可以作如下假定:(1) Y的實際觀測值在對應的每個估計值Yc周圍都是正態(tài)分布。越靠近Yc的地方,Y值出現(xiàn)的機會越多;反之出現(xiàn)的機會越少;(2)所有正態(tài)分布都具有相同的標準差,即所謂的同方差性。于是,除了重溫過去的知識,只有一個具體問題要解決:為了測定回歸線的代表性,有必要參照標準差的意

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論