8.3列聯(lián)表和獨立性檢驗課件-2023-2024學年高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第1頁
8.3列聯(lián)表和獨立性檢驗課件-2023-2024學年高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第2頁
8.3列聯(lián)表和獨立性檢驗課件-2023-2024學年高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第3頁
8.3列聯(lián)表和獨立性檢驗課件-2023-2024學年高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第4頁
8.3列聯(lián)表和獨立性檢驗課件-2023-2024學年高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

8.3

列聯(lián)表和獨立性檢驗8.3列聯(lián)表和獨立性檢驗復習回顧1、殘差平方和:2、最小二乘法將稱為Y關(guān)于x的經(jīng)驗回歸方程.3、判斷模型擬合的效果:①殘差分析②決定系數(shù)R2法R2越大,表示殘差平方和越小,即模型的擬合效果越好R2越小,表示殘差平方和越大,即模型擬合效果越差.自主探究

例如,就讀不同學校是否對學生的成績有影響,不同班級學生用于體育鍛煉的時間是否有差別,吸煙是否會增加患肺癌的危險。

在現(xiàn)實生活里,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間是否存在關(guān)聯(lián)性或相互影響的問題。

前面我們學習的變量,如人的身高、樹的高度等等,都是數(shù)值變量,數(shù)值變量的取值都為實數(shù),其大小和運算都有實際含義。

在討論上述問題時,為了表述方便,我們經(jīng)常會使用一種特殊的隨機變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類隨機變量稱之為分類變量。自主探究

分類變量的取值可以用實數(shù)表示,例如,學生所在的班級可以用1,2,3等表示,可以用數(shù)字1表示男性,數(shù)字0表示女性。

如果X表示受訪者的性別,并且記X=0表示男性,X=1表示女性

如果Y表示受訪者是否抽煙,并且記Y=0表示抽煙,Y=1表示不抽煙

比如我們研究一個問題:吸煙是否與性別有關(guān)。

那么,我們的變量其實有兩類,是否吸煙以及性別那么,請同學們思考一下,P(X=0|Y=1)這個條件概率表示的是什么?受訪者不抽煙的概率下,受訪者是男性的概率自主探究

如果X表示受訪者的性別,并且記X=0表示男性,X=1表示女性

如果Y表示受訪者是否抽煙,并且記Y=0表示抽煙,Y=1表示不抽煙

這些數(shù)值可以只作為編號使用,并沒有通常的大小和運算意義,本節(jié)我們主要討論取值于{0,1}的分類變量的關(guān)聯(lián)性問題。自主探究問題1:為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛煉的情況進行了普查.

全校生的普查數(shù)據(jù)如下:

523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.

你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?最常見的方法是:我們比較經(jīng)常鍛煉的學生在女生和男生中的比率。如果f0=f1,則說明經(jīng)常鍛煉的學生在男生和女生中的比率相同.則學生性別對本校學生體育鍛煉的經(jīng)常性沒有影響.如果f0≠f1,則說明經(jīng)常鍛煉的學生在男生和女生中的比率不同.則學生性別對本校學生體育鍛煉的經(jīng)常性有影響.自主探究問題1:為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛煉的情況進行了普查.

全校學生的普查數(shù)據(jù)如下:

523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.

你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?且f1-f0=0.77-0.633=0.154,男生經(jīng)常鍛煉的比率比女生高出15.4個百分點,所以男生更經(jīng)常鍛煉顯然f0≠f1,則該校的女生和男生在體育鍛煉的經(jīng)常性方面有差異自主探究我們從分類變量的角度來思考這個問題性別對體育鍛煉的經(jīng)常性沒有影響:性別對體育鍛煉的經(jīng)常性有影響:用Ω表示該校全體學生構(gòu)成的集合,定義一對分類變量X和Y如下:對于Ω中的每一名學生,分別令P(Y=1|X=0)=P(Y=1|X=1)P(Y=1|X=0)≠P(Y=1|X=1)自主探究問題1:為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛煉的情況進行了普查.

全校生的普查數(shù)據(jù)如下:

523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.

你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?性別鍛煉合計不經(jīng)常(Y=0)經(jīng)常(Y=1)女生(X=0)192331523男生(X=1)128473601合計3208041124P(Y=1|X=1)>P(Y=1|X=0)在該校的學生中,性別對體育鍛煉的經(jīng)常性有影響,男生更經(jīng)常性的鍛煉.概念講解2×2列聯(lián)表的概念

在實踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問題的需要,將數(shù)據(jù)分類統(tǒng)計,并做成表格加以保存.我們將形如下表這種形式的數(shù)據(jù)統(tǒng)計表稱為2×2列聯(lián)表.2×2列聯(lián)表給出了成對分類變量數(shù)據(jù)的交叉分類頻數(shù).組別甲(Y=0)乙(Y=1)合計A(X=0)aba+bB(X=1)cdc+d合計a+cb+da+b+c+d例題解析1、為比較甲、乙兩所學校學生的數(shù)學水平,采用簡單隨機抽樣的方法抽取88名學生.通過測驗得到了如下數(shù)據(jù):甲校43名學生中有10名數(shù)學成績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀.試分析兩校學生中數(shù)學成績優(yōu)秀率之間是否存在差異.解:用Ω表示兩所學校的全體學生構(gòu)成的集合.考慮以Ω為樣本空間的古典概型.對于Ω中每一名學生,定義分類變量X和Y如下:學校數(shù)學成績合計不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計711788例題解析列聯(lián)表中甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為乙校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為依據(jù)頻率穩(wěn)定于概率的原理,可推斷概率P(Y=1|X=0)>P(Y=1|X=1).故可認為兩校學生的數(shù)學成績優(yōu)秀率存在差異,甲校學生的數(shù)學成績優(yōu)秀率比乙校學生的高.學校數(shù)學成績合計不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計711788概念講解2×2列聯(lián)表的概念組別甲(Y=0)乙(Y=1)合計A(X=0)aba+bB(X=1)cdc+d合計a+cb+da+b+c+d若不相等,則推斷兩個分類變量有關(guān)聯(lián)或存在明顯差異.若相等,則推斷兩個分類變量無關(guān)聯(lián)或沒有明顯差異.比較頻率比較概率P(Y=1|X=0)和P(Y=1|X=1).根據(jù)頻率穩(wěn)定于概率的原理,隨堂練習1、假設(shè)有兩個分類變量X與Y,它們的可能取值分別為{0,1}和{0,1},其2×2列聯(lián)表為:

則當m取()時,X與Y的關(guān)系最弱.XY合計Y=0Y=1X=0101828X=1m26m+26合計10+m44m+54A.8

B.9

C.14

D.19X與Y的關(guān)系幾乎無關(guān)聯(lián)C例題解析學校數(shù)學成績合計不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計711788我們可以用等高堆積條形圖直觀地展示上述計算結(jié)果:等高條形圖可直觀展示列聯(lián)表數(shù)據(jù)的頻率特征,依據(jù)頻率穩(wěn)定與概率的原理,我們可以推斷結(jié)果.①和表格相比,等高條形圖更能直觀地反映出兩個分類變量間是否相互影響.②觀察相同顏色區(qū)域的高度,若高度差明顯,則判斷兩個分類變量有關(guān)系或存在明顯差異.等高堆積條形圖隨堂練習2、兩個分類變量x,y之間關(guān)系最強的是()D

在上面例題的兩種解答中,使用了學校全部學生的調(diào)查數(shù)據(jù),利用這些數(shù)據(jù)能夠完全確定解答問題所需的比率和條件概率.然而,對于大多數(shù)實際問題,我們無法獲得所關(guān)心的全部對象的數(shù)據(jù),因此無法準確計算出有關(guān)的比率或條件概率.在這種情況下,上述古典概型和條件概率的觀點為我們提供了一個解決問題的思路.比較簡單的做法是利用隨機抽樣獲得一定數(shù)量的樣本數(shù)據(jù),再利用隨機事件發(fā)生的頻率穩(wěn)定于概率的原理對問題答案作出推斷。規(guī)律方法:兩個分類變量之間關(guān)聯(lián)關(guān)系的定性分析的方法:(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個分類變量間是否互相影響,常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特征.將列聯(lián)表中的數(shù)據(jù)用高度相同的兩個條形圖表示出來,其中兩列的數(shù)據(jù)分別對應不同的顏色,這就是等高堆積條形圖.等高堆積條形圖可以展示列聯(lián)表數(shù)據(jù)的頻率特征,能夠直觀地反映出兩個分類變量間是否相互影響.(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的頻率大小進行比較來分析分類變量之間是否有關(guān)聯(lián)關(guān)系.

如可以通過列聯(lián)表中

值的大小粗略地判斷分類變量X和Y之間有無關(guān)系.一般其值相差越大,分類變量有關(guān)系的可能性越大.隨堂練習3、為了了解某高校學生喜歡使用手機支付是否與性別有關(guān),隨機抽取了部分學生,統(tǒng)計后作出如圖所示的等高堆積條形圖,則下列說法正確的是()A、喜歡使用手機支付與性別無關(guān)B、樣本中男生喜歡使用手機支付的人數(shù)約占男生總?cè)藬?shù)的60%C、樣本中女生喜歡使用手機支付的人數(shù)比男生多D、女生比男生喜歡使用手機支付的可能性大些D自主探究問題2:你認為例題中的“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這一結(jié)論是否有可能是錯誤的?有可能“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這個結(jié)論是根據(jù)兩個頻率間存在差異推斷出來的.有可能出現(xiàn)這種情況:在隨機抽取的這個樣本中,兩個頻率間確實存在差異,但兩校學生的數(shù)學成績優(yōu)秀率實際上是沒有差別的.

對于隨機樣本而言,因為頻率具有隨機性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷方法,同時也希望能對出現(xiàn)錯誤推斷的概率有一定的控制或估算.獨立性檢驗方法自主探究在合理的假設(shè)前提下,小概率事件幾乎不會發(fā)生.若小概率事件發(fā)生了,則認為原假設(shè)不成立.課前需知概念講解獨立性檢驗公式及定義:為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標準,基于上述分析,我們構(gòu)造一個隨機變量提出零假設(shè)(原假設(shè))H0:分類變量X和Y獨立用χ2取值的大小作為判斷零假設(shè)H0是否成立的依據(jù),當它比較大時推斷H0不成立,否則認為H0成立。這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.假定我們通過簡單隨機抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,在列聯(lián)表中,如果零假設(shè)H0成立,則應滿足

,即ad-bc≈0.因此|ad-bc|越小,說明兩個分類變量之間關(guān)系越弱;

|ad-bc|越大,說明兩個分類變量之間關(guān)系越強.

概念講解臨界值思考:那么χ2大到什么程度,可以推斷H0不成立呢?或者說,怎樣確定判斷χ2大小的標準呢?

我們設(shè)定一個極小概率事件的概率值為α,它對應的χ2為xα,使得下面關(guān)系成立P(x≥xα)=α,稱xα為α的臨界值,這個臨界值可作為判斷χ2大小的標準,概率值α越小,臨界值xα越大.

由上式可知,只要把概率值α取得充分小,在假設(shè)H0成立的情況下,事件{χ2≥xα}是不大可能發(fā)生的.根據(jù)這個規(guī)律,如果該事件發(fā)生,我們就可以推斷H0不成立.不過這個推斷有可能犯錯誤,但犯錯誤的概率不會超過α.概念講解基于小概率值α的檢驗規(guī)則:當χ2≥xα時,我們就推斷H0不成立,即認為X和Y不獨立,該推斷犯錯誤的概率不超過α;當χ2<xα時,我們沒有充分證據(jù)推斷H0不成立,可以認為X和Y獨立.χ2獨立性檢驗中幾個常用的小概率值和相應的臨界值.P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828例題解析2、為比較甲、乙兩所學校學生的數(shù)學水平,采用簡單隨機抽樣的方法抽取88名學生.通過測驗得到了如下數(shù)據(jù):甲校43名學生中有10名數(shù)學成績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀.依據(jù)小概率值α=0.1的χ2獨立性檢驗,分析例1中的抽樣數(shù)據(jù),能否據(jù)此推斷兩校學生的數(shù)學成績優(yōu)秀率有差異?解:零假設(shè)為H0:分類變量X與Y相互獨立,即兩校學生的數(shù)學成績優(yōu)秀率無差異.因為學校數(shù)學成績合計不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計711788計算得到:根據(jù)小概率值α=0.1的χ2獨立性檢驗,沒有充分證據(jù)推斷H0不成立,因此可以認為H0成立,即認為兩校的數(shù)學成績優(yōu)秀率沒有差異.例題解析3、某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到了如下數(shù)據(jù):抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概率值α=0.005的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.解:零假設(shè)為H0:療法與療效獨立,即兩種療法效果沒有差異.將所給數(shù)據(jù)進行整理,得到兩種療法治療數(shù)據(jù)的列聯(lián)表,根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計算得到根據(jù)小概率值α=0.005的χ2獨立性檢驗,沒有充分證據(jù)推斷H0不成立,因此可以認為H0成立,即認為兩種療法效果沒有差異.療法療效合計未治愈治愈甲155267乙66369合計21115136自主探究思考1:若對調(diào)兩種療法的位置或?qū)φ{(diào)兩種療效的位置,這樣做會影響χ2取值的計算結(jié)果嗎?療法療效合計治愈未治愈甲521567乙63669合計11521136療法療效合計未治愈治愈乙66369甲155267合計21115136療法療效合計未治愈治愈甲155267乙66369合計21115136不影響自主探究思考2:根據(jù)小概率值α=0.05的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.療法療效合計未治愈治愈甲155267乙66369合計21115136解:零假設(shè)為H0:療法與療效獨立,即兩種療法效果沒有差異.根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計算得到根據(jù)小概率值α=0.05的χ2獨立性檢驗,我們推斷H0不成立,即可以認為兩種療法效果有差異,該推斷犯錯誤的概率不超過0.05.甲種療法未治愈和治愈的頻率分別是因此可以推斷乙種療法的效果比甲種療法好乙種療法未治愈和治愈的頻率分別是例題解析4、為了調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所采取有放回簡單隨機抽樣,調(diào)查了9965人,得到如下結(jié)果(單位:人),依據(jù)小概率值α=0.001的獨立性檢驗,分析吸煙是否會增加患肺癌的風險。解:零假設(shè)為H0:吸煙和患肺癌之間沒有關(guān)系;根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計算得吸煙肺癌合計非肺癌患者肺癌患者非吸煙者7775427817吸煙者2099492148合計9874919965根據(jù)小概率值α=0.001的獨立性檢驗,推斷H0不成立,即認為吸煙與患肺癌有關(guān)聯(lián),此推斷犯錯誤的概率不大于0.001,即我們有99.9%的把握認為“吸煙與患肺癌有關(guān)系”.自主探究根據(jù)表中的數(shù)據(jù)計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論