獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 (2)_第1頁
獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 (2)_第2頁
獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 (2)_第3頁
獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 (2)_第4頁
獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 (2)_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.制作人:趙艷麗.1.2 1.2 獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 在統(tǒng)計(jì)學(xué)中,獨(dú)立性檢驗(yàn)就是檢驗(yàn)兩個分類變在統(tǒng)計(jì)學(xué)中,獨(dú)立性檢驗(yàn)就是檢驗(yàn)兩個分類變量是否有關(guān)系的一種統(tǒng)計(jì)方法。量是否有關(guān)系的一種統(tǒng)計(jì)方法。 如果某種變量的不同如果某種變量的不同“值值”表示個體所屬的不表示個體所屬的不同類別,像這樣的變量稱為同類別,像這樣的變量稱為“分類變量分類變量”。如,對。如,對于性別變量,其取值為男和女兩種。在現(xiàn)實(shí)生活中,于性別變量,其取值為男和女兩種。在現(xiàn)實(shí)生活中,分類變量是大量存在的,例分類變量是大量存在的,例如如是否吸煙,是否吸煙,宗教信仰,宗教信仰,國籍國籍 在日常生

2、活中,我們常常關(guān)心兩個分類變量之在日常生活中,我們常常關(guān)心兩個分類變量之間是否有關(guān)系,例如吸煙是否與患肺癌有關(guān)系?性間是否有關(guān)系,例如吸煙是否與患肺癌有關(guān)系?性別是否對于喜歡數(shù)學(xué)課程有影響等等。別是否對于喜歡數(shù)學(xué)課程有影響等等。.為調(diào)查吸煙是否對患肺癌有影響為調(diào)查吸煙是否對患肺癌有影響,某腫瘤研究所隨機(jī)某腫瘤研究所隨機(jī)地調(diào)查了地調(diào)查了9965人人,得到如下結(jié)果得到如下結(jié)果(單位單位:人人)表表1-7 吸煙與患肺癌列聯(lián)表吸煙與患肺癌列聯(lián)表那么吸煙是否對患肺癌有影響那么吸煙是否對患肺癌有影響?因此因此,直觀上得到結(jié)論直觀上得到結(jié)論:吸煙者和不吸煙者患肺癌的可能性存在差異。吸煙者和不吸煙者患肺癌的可

3、能性存在差異。在不吸煙者中患肺癌的比例是在不吸煙者中患肺癌的比例是在吸煙者中患肺癌的比例是在吸煙者中患肺癌的比例是0.54%0.54%2.28%2.28%與表格相比,與表格相比,三維柱形圖和三維柱形圖和二維條形圖能二維條形圖能更直觀地反映更直觀地反映出相關(guān)數(shù)據(jù)的出相關(guān)數(shù)據(jù)的總體狀況總體狀況9965919874總計(jì)總計(jì)2148492099吸煙吸煙7817427775不吸煙不吸煙總計(jì)總計(jì)患肺癌患肺癌不患肺癌不患肺癌列聯(lián)表列聯(lián)表:兩個兩個分類變量的分類變量的頻數(shù)表頻數(shù)表探究:探究:.三維柱形圖三維柱形圖作三維柱形圖要作三維柱形圖要注意選擇恰當(dāng)?shù)淖⒁膺x擇恰當(dāng)?shù)囊暯?,以使每個視角,以使每個柱體都能看到。

4、柱體都能看到。777542209949.二維條形圖二維條形圖777542209949.等高條形圖等高條形圖不患病比例不患病比例患病比例患病比例0.54%0.54%2.28%2.28%.上面我們通過分析數(shù)據(jù)和圖形上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是得到的直觀印象是“吸吸煙和患肺癌有關(guān)煙和患肺癌有關(guān)”。這一直覺來自于觀測數(shù)據(jù),即樣本。這一直覺來自于觀測數(shù)據(jù),即樣本。 問題是它能夠在多大程度上代表總體呢?問題是它能夠在多大程度上代表總體呢?H0:吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系我們假設(shè)我們假設(shè)看看能推出什么樣的結(jié)論??纯茨芡瞥鍪裁礃拥慕Y(jié)論。a+b+c+db+da+c總計(jì)總計(jì)c+ddc

5、吸煙吸煙a+bba不吸煙不吸煙總計(jì)總計(jì)患肺癌患肺癌不患肺癌不患肺癌為了研究的一般性為了研究的一般性,在列聯(lián)表在列聯(lián)表1-7中中用字母代替數(shù)字:中中用字母代替數(shù)字:.結(jié)論:結(jié)論:|ad-bc|越小越小,說明吸煙與患肺癌之間關(guān)系越弱說明吸煙與患肺癌之間關(guān)系越弱; |ad-bc|越大越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng)說明吸煙與患肺癌之間關(guān)系越強(qiáng);如果如果”吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”,則在吸煙樣本中不則在吸煙樣本中不患肺癌的比例應(yīng)該與不吸煙樣本中相應(yīng)的比例差不多患肺癌的比例應(yīng)該與不吸煙樣本中相應(yīng)的比例差不多,即即acabcda+b+c+db+da+c總計(jì)總計(jì)c+ddc吸煙吸煙a+bba

6、不吸煙不吸煙總計(jì)總計(jì)患肺癌患肺癌不患肺癌不患肺癌a cdc ab0adbc.為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn)為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),基于基于上述分析上述分析,我們構(gòu)造一個我們構(gòu)造一個隨機(jī)變量隨機(jī)變量(卡方統(tǒng)計(jì)量卡方統(tǒng)計(jì)量)22n ad bcKa bc da c b dnabcd(1)其中為樣本容量若若H0成立,即成立,即“吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”,則,則 應(yīng)應(yīng)該很小。該很小。2K.利用公式(利用公式(1)計(jì)算得)計(jì)算得K2的觀測值為的觀測值為:29965 7775 4942 209956.6327817 2148 9874 91k接下來,我們就利用卡

7、方統(tǒng)計(jì)量接下來,我們就利用卡方統(tǒng)計(jì)量K2來判斷探究中來判斷探究中“吸吸煙與患肺癌有關(guān)煙與患肺癌有關(guān)”的可靠程度。的可靠程度。例:例:現(xiàn)在,根據(jù)表現(xiàn)在,根據(jù)表1-7中的數(shù)據(jù)中的數(shù)據(jù)9965919874總計(jì)總計(jì)2148492099吸煙吸煙7817427775不吸煙不吸煙總計(jì)總計(jì)患肺癌患肺癌不患肺癌不患肺癌.在在H0成立的情況下成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率統(tǒng)計(jì)學(xué)家估算出如下的概率:26.6350.010P K即在即在H0成立的情況下成立的情況下,K2的值大于的值大于6.635的概率非常小的概率非常小,近似于近似于0.010。現(xiàn)在的觀測值現(xiàn)在的觀測值56.632遠(yuǎn)大于遠(yuǎn)大于6.635,即假設(shè)

8、成立的概率,即假設(shè)成立的概率為為0.010,是小概率事件,所以有理由斷定,是小概率事件,所以有理由斷定H0不成立,不成立,即認(rèn)為即認(rèn)為“吸煙與患肺癌有關(guān)系吸煙與患肺癌有關(guān)系”。但這種判斷會犯錯。但這種判斷會犯錯誤,犯錯誤的概率不會超過誤,犯錯誤的概率不會超過0.010 。即有。即有99%的把握認(rèn)的把握認(rèn)為為“吸煙與患肺癌有關(guān)吸煙與患肺癌有關(guān)”。上面這種利用隨機(jī)變量上面這種利用隨機(jī)變量K2來確定在多大程度上可以認(rèn)來確定在多大程度上可以認(rèn)為為“兩個分類變量有關(guān)系兩個分類變量有關(guān)系”的方法稱為兩個分類變量的方法稱為兩個分類變量的的獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn)。.練習(xí)練習(xí)1、在吸煙和患肺癌這兩個分類變量的計(jì)算

9、中,、在吸煙和患肺癌這兩個分類變量的計(jì)算中,下列說法正確的是下列說法正確的是 ( )A、若、若K2的觀測值的觀測值k=6.635,我們在犯錯的概率不超,我們在犯錯的概率不超過過0.010的前提下認(rèn)為吸煙與患肺癌有關(guān)系,那么在的前提下認(rèn)為吸煙與患肺癌有關(guān)系,那么在100個吸煙的人中必有個吸煙的人中必有99人患有肺病人患有肺病B、從獨(dú)立性檢驗(yàn)可知有、從獨(dú)立性檢驗(yàn)可知有99%的把握認(rèn)為吸煙與患肺的把握認(rèn)為吸煙與患肺癌有關(guān)系時(shí),我們說某人吸煙,那么他有癌有關(guān)系時(shí),我們說某人吸煙,那么他有99%的可能的可能患有肺病患有肺病C、若從統(tǒng)計(jì)量中求出有、若從統(tǒng)計(jì)量中求出有5%的可能性使得推斷出現(xiàn)的可能性使得推斷

10、出現(xiàn)錯誤,是指有錯誤,是指有95%的把握認(rèn)為吸煙與患肺病有關(guān)系的把握認(rèn)為吸煙與患肺病有關(guān)系D、以上三種說法都不正確、以上三種說法都不正確C解析:因?yàn)榻y(tǒng)計(jì)結(jié)果只是說明事件發(fā)生的概率大解析:因?yàn)榻y(tǒng)計(jì)結(jié)果只是說明事件發(fā)生的概率大小,具體到一個個體不一定發(fā)生。小,具體到一個個體不一定發(fā)生。.1212, ,(2 2):XYx xy y一般地 假設(shè)有兩個分類變量 和它們的取值分別為和其樣本頻數(shù)列聯(lián)表 稱為列聯(lián)表 為a+b+c+db+da+c總計(jì)c+ddca+bba總計(jì)1x2x1y2y若要推斷的結(jié)論為若要推斷的結(jié)論為H1:”X與與Y有關(guān)系有關(guān)系”,可進(jìn)行如下操作可進(jìn)行如下操作:2、圖形分析法:圖形分析法:通

11、過等高條形圖。通過等高條形圖。你能從上述探究過程中總結(jié)出判斷兩個分類變量有關(guān)你能從上述探究過程中總結(jié)出判斷兩個分類變量有關(guān)系的思路嗎?系的思路嗎?1、頻率比較法:頻率比較法:根據(jù)列聯(lián)表。根據(jù)列聯(lián)表。思考:思考:.3、獨(dú)立性檢驗(yàn)法獨(dú)立性檢驗(yàn)法22n adbcKabcdacbdnabcd 其中為樣本容量用它的大小可以決定是否拒絕用它的大小可以決定是否拒絕原假設(shè)原假設(shè)H0,如果,如果K2值很值很大,就斷言大,就斷言H0不成立,即認(rèn)為不成立,即認(rèn)為“兩個分類變量有關(guān)兩個分類變量有關(guān)系系”;如果很小,則說明在樣本數(shù)據(jù)中沒有發(fā)現(xiàn)足夠;如果很小,則說明在樣本數(shù)據(jù)中沒有發(fā)現(xiàn)足夠證據(jù)拒絕證據(jù)拒絕H0。當(dāng)?shù)玫降挠^

12、測數(shù)據(jù)當(dāng)?shù)玫降挠^測數(shù)據(jù)a,b,c,d都不小于都不小于5時(shí)時(shí),可以通過查卡可以通過查卡方臨界值表來斷言方臨界值表來斷言”吸煙與患肺癌有關(guān)吸煙與患肺癌有關(guān)系系”的可信程度。的可信程度。具體做法是具體做法是:首先假設(shè)該結(jié)論不成立,即首先假設(shè)該結(jié)論不成立,即 H0:X與與Y沒有關(guān)系沒有關(guān)系根據(jù)觀測數(shù)據(jù)計(jì)算卡方統(tǒng)計(jì)量的預(yù)測值根據(jù)觀測數(shù)據(jù)計(jì)算卡方統(tǒng)計(jì)量的預(yù)測值.10.8287.8796.6355.0243.8412.7062.0721.3230.7080.4550.0010.0050.0100.0250.050.100.150.250.400.5020()P Kk0k(1)10.828,99.9%kXY如

13、果就有的把握認(rèn)為與 有關(guān)系(2)7.879,99.5%kXY如果就有的把握認(rèn)為與 有關(guān)系(3)6.635,99%kXY如果就有的把握認(rèn)為與 有關(guān)系(4)5.024,97.5%kXY如果就有的把握認(rèn)為與 有關(guān)系(5)3.841,95%kXY如果就有的把握認(rèn)為與 有關(guān)系(6)2.706,90%kXY如果就有的把握認(rèn)為與 有關(guān)系(7)2.706,kXY如果就認(rèn)為沒有充分的證據(jù)顯示與 有關(guān)系卡方臨界值表:卡方臨界值表:.例例1 在某醫(yī)院在某醫(yī)院,因?yàn)榛夹呐K病而住院的因?yàn)榛夹呐K病而住院的665名男性病人名男性病人中中,有有214人禿頂人禿頂;而另外而另外772名不是因?yàn)榛夹呐K病而住名不是因?yàn)榛夹呐K病而住

14、院的男性病人中,有院的男性病人中,有175人禿頂人禿頂. 利用圖形利用圖形判斷禿頂與判斷禿頂與患心臟病是否有關(guān)系。患心臟病是否有關(guān)系。能否在犯錯誤的概率不超過能否在犯錯誤的概率不超過0.010的前提下認(rèn)為禿頂與患心臟病有關(guān)系?的前提下認(rèn)為禿頂與患心臟病有關(guān)系?解解:根據(jù)題目所得數(shù)據(jù)得到列聯(lián)表根據(jù)題目所得數(shù)據(jù)得到列聯(lián)表:1437772665總計(jì)總計(jì)1048597451不禿頂不禿頂389175214禿頂禿頂總計(jì)總計(jì)患其他病患其他病患心臟病患心臟病禿頂與患心臟病列聯(lián)表禿頂與患心臟病列聯(lián)表例題解析:例題解析:.(1)圖形分析法)圖形分析法從圖中可以看出,禿頂樣本中患心臟病的頻率明顯高于從圖中可以看出,

15、禿頂樣本中患心臟病的頻率明顯高于不禿頂樣本中患心臟病的頻率,因此可直觀地認(rèn)為禿頂不禿頂樣本中患心臟病的頻率,因此可直觀地認(rèn)為禿頂與患心臟病有關(guān)系。與患心臟病有關(guān)系。.22,1437214 597 175 45116.373389 1048 665 772Kk根據(jù)列聯(lián)表中的數(shù)據(jù) 得的觀測值為 因此,在犯錯誤的概率不超過因此,在犯錯誤的概率不超過0.010的前提下認(rèn)為的前提下認(rèn)為“禿頂與患心臟病有關(guān)禿頂與患心臟病有關(guān)”,即有,即有99%的把握認(rèn)為的把握認(rèn)為“禿禿頂與患心臟病有關(guān)頂與患心臟病有關(guān)”。(2)獨(dú)立性檢驗(yàn)法)獨(dú)立性檢驗(yàn)法1437772665總計(jì)總計(jì)1048597451不禿頂不禿頂38917

16、5214禿頂禿頂總計(jì)總計(jì)患其他病患其他病患心臟病患心臟病6.635.n1 1、通過頻率比較法,圖、通過頻率比較法,圖形分析法判斷兩個分類形分析法判斷兩個分類變量是否有關(guān)系。(不變量是否有關(guān)系。(不精準(zhǔn))精準(zhǔn)) (1 1) ad -bcad -bc (2 2) a/a+bc/c+d a/a+bc/c+d a+b+c+da+b+c+db+db+da+ca+c總計(jì)總計(jì)c+dc+dd dc cx x2 2a+ba+bb ba ax x1 1總計(jì)總計(jì)y y2 2y y1 1n2 2、利用、利用獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn)判判斷兩個分類變量是否有斷兩個分類變量是否有關(guān)系。關(guān)系。 (1 1)假設(shè)無關(guān))假設(shè)無關(guān) (2 2)求)求k k值值 (3 3)下結(jié)論)下結(jié)論判斷兩分類變判斷兩分類變量是否有關(guān)的量是否有關(guān)的方法:方法:小結(jié):小結(jié):.課后活動:課后活動:為考察高中生的性別與是否喜歡數(shù)學(xué)課程為考察高中生的性別與是否喜歡數(shù)學(xué)課程之間的關(guān)系之間的關(guān)系,同學(xué)們課后不妨在班級展開調(diào)查,構(gòu)造同學(xué)們課后不妨在班級展開調(diào)查,構(gòu)造一個關(guān)于每個學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論