第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017

上傳人：g*** IP屬地：北京上傳時(shí)間：2023-02-04 格式：PPT 頁數(shù)：180 大小：6.21MB 積分：30 舉報(bào) 版權(quán)申訴

第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第2頁

第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第3頁

第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第4頁

第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第5頁

已閱讀5頁，還剩175頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章試驗(yàn)數(shù)據(jù)檢驗(yàn)與處理

（假設(shè)檢驗(yàn)）假設(shè)檢驗(yàn)的基本問題

一個(gè)總體參數(shù)的檢驗(yàn)

兩個(gè)總體參數(shù)的檢驗(yàn)假設(shè)檢驗(yàn)在統(tǒng)計(jì)方法中的地位統(tǒng)計(jì)方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)第一節(jié)假設(shè)檢驗(yàn)的基本問題一、假設(shè)的陳述二、兩類錯(cuò)誤與顯著性水平三、統(tǒng)計(jì)量與拒絕域四、利用P值進(jìn)行決策假設(shè)的陳述什么是假設(shè)?

對總體參數(shù)的具體數(shù)值所作的陳述(一個(gè)判斷)總體參數(shù)包括總體均值、比率、方差等分析之前必須陳述我認(rèn)為這種新藥的療效比原有的藥物更有效!什么是假設(shè)檢驗(yàn)?

先對總體的參數(shù)(或分布形式)提出某種假設(shè)，然后利用樣本信息判斷假設(shè)是否成立的過程有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)邏輯上運(yùn)用反證法，統(tǒng)計(jì)上依據(jù)小概率原理假設(shè)檢驗(yàn)的基本思想...因此我們拒絕假設(shè)

=50...如果這是總體的假設(shè)均值樣本均值m=50抽樣分布H0這個(gè)值不像我們應(yīng)該得到的樣本均值...20總體假設(shè)檢驗(yàn)的過程抽取隨機(jī)樣本均值

x=20我認(rèn)為白領(lǐng)的平均收入是50萬元提出假設(shè)

拒絕假設(shè)別無選擇!

作出決策原假設(shè)與備擇假設(shè)原假設(shè)研究者想收集證據(jù)予以反對的假設(shè)又稱“0假設(shè)”總是有符號,

或表示為H0H0：

=某一數(shù)值指定為符號=，或例如,H0：

10cm研究者想收集證據(jù)予以支持的假設(shè)也稱“研究假設(shè)”總是有符號,

或表示為H1H1：

<某一數(shù)值，或某一數(shù)值例如,H1：

<10cm，或10cm備擇假設(shè)【例】一種零件的生產(chǎn)標(biāo)準(zhǔn)是直徑應(yīng)為10cm，為對生產(chǎn)過程進(jìn)行控制，質(zhì)量監(jiān)測人員定期對一臺加工機(jī)床檢查，確定這臺機(jī)床生產(chǎn)的零件是否符合標(biāo)準(zhǔn)要求。如果零件的平均直徑大于或小于10cm，則表明生產(chǎn)過程不正常，必須進(jìn)行調(diào)整。試陳述用來檢驗(yàn)生產(chǎn)過程是否正常的原假設(shè)和被擇假設(shè)提出假設(shè)解：研究者想收集證據(jù)予以證明的假設(shè)應(yīng)該是“生產(chǎn)過程不正?！?。建立的原假設(shè)和備擇假設(shè)為

H0：

10cmH1：

10cm【例】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱：平均凈含量不少于500克。從消費(fèi)者的利益出發(fā)，有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來驗(yàn)證該產(chǎn)品制造商的說明是否屬實(shí)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)提出假設(shè)解：研究者抽檢的意圖是傾向于證實(shí)這種洗滌劑的平均凈含量并不符合說明書中的陳述。建立的原假設(shè)和備擇假設(shè)為

H0：

500H1：

<500500g【例】一家研究機(jī)構(gòu)估計(jì)，某城市中家庭擁有汽車的比率超過30%。為驗(yàn)證這一估計(jì)是否正確，該研究機(jī)構(gòu)隨機(jī)抽取了一個(gè)樣本進(jìn)行檢驗(yàn)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)提出假設(shè)解：研究者想收集證據(jù)予以支持的假設(shè)是“該城市中家庭擁有汽車的比率超過30%”。建立的原假設(shè)和備擇假設(shè)為

H0：

30%H1：

30%原假設(shè)和備擇假設(shè)是一個(gè)完備事件組，而且相互對立在一項(xiàng)假設(shè)檢驗(yàn)中，原假設(shè)和備擇假設(shè)必有一個(gè)成立，而且只有一個(gè)成立先確定備擇假設(shè)，再確定原假設(shè)等號“=”總是放在原假設(shè)上因研究目的不同，對同一問題可能提出不同的假設(shè)(也可能得出不同的結(jié)論)提出假設(shè)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)備擇假設(shè)沒有特定的方向性，并含有符號“”的假設(shè)檢驗(yàn)，稱為雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)(two-tailedtest)備擇假設(shè)具有特定的方向性，并含有符號“>”或“<”的假設(shè)檢驗(yàn)，稱為單側(cè)檢驗(yàn)或單尾檢驗(yàn)(one-tailedtest)備擇假設(shè)的方向?yàn)椤?lt;”，稱為左側(cè)檢驗(yàn)

備擇假設(shè)的方向?yàn)椤?gt;”，稱為右側(cè)檢驗(yàn)

雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)假設(shè)雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)原假設(shè)H0:m

=m0H0:m

m0H0:m

m0備擇假設(shè)H1:m

≠m0H1:m<m0H1:m>m0兩類錯(cuò)誤與顯著性水平假設(shè)檢驗(yàn)中的兩類錯(cuò)誤1. 第Ⅰ類錯(cuò)誤(棄真錯(cuò)誤)原假設(shè)為真時(shí)拒絕原假設(shè)第Ⅰ類錯(cuò)誤的概率記為被稱為顯著性水平2. 第Ⅱ類錯(cuò)誤(納偽錯(cuò)誤)原假設(shè)為假時(shí)未拒絕原假設(shè)第Ⅱ類錯(cuò)誤的概率記為βH0:無罪假設(shè)檢驗(yàn)中的兩類錯(cuò)誤(決策結(jié)果)陪審團(tuán)審判裁決實(shí)際情況無罪有罪無罪正確錯(cuò)誤有罪錯(cuò)誤正確H0檢驗(yàn)決策實(shí)際情況H0為真H0為假未拒絕H0正確決策(1–a)第Ⅱ類錯(cuò)誤(b)拒絕H0第Ⅰ類錯(cuò)誤(a)正確決策(1-b)假設(shè)檢驗(yàn)就好像一場審判過程統(tǒng)計(jì)檢驗(yàn)過程

錯(cuò)誤和

錯(cuò)誤的關(guān)系你不能同時(shí)減少兩類錯(cuò)誤!和的關(guān)系就像翹翹板，小就大，大就小影響

錯(cuò)誤的因素1. 總體參數(shù)的真值隨著假設(shè)的總體參數(shù)的減少而增大2. 顯著性水平當(dāng)

減少時(shí)增大3. 總體標(biāo)準(zhǔn)差當(dāng)增大時(shí)增大4. 樣本容量n當(dāng)n減少時(shí)增大顯著性水平

(significantlevel)1. 是一個(gè)概率值2. 原假設(shè)為真時(shí)，拒絕原假設(shè)的概率被稱為抽樣分布的拒絕域3.

表示為(alpha)常用的

值有0.01,0.05,0.104. 由研究者事先確定假設(shè)檢驗(yàn)中的小概率原理什么小概率？1. 在一次試驗(yàn)中，一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率2. 在一次試驗(yàn)中小概率事件一旦發(fā)生，我們就有理由拒絕原假設(shè)3. 小概率由研究者事先確定檢驗(yàn)統(tǒng)計(jì)量與拒絕域根據(jù)樣本觀測結(jié)果計(jì)算得到的，并據(jù)以對原假設(shè)和備擇假設(shè)作出決策的某個(gè)樣本統(tǒng)計(jì)量對樣本估計(jì)量的標(biāo)準(zhǔn)化結(jié)果原假設(shè)H0為真點(diǎn)估計(jì)量的抽樣分布檢驗(yàn)統(tǒng)計(jì)量(teststatistic)

標(biāo)準(zhǔn)化的檢驗(yàn)統(tǒng)計(jì)量顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值a/2a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H01-置信水平抽樣分布顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值a/2

a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值

a/2a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值a/2

a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(單側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(左側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平觀察到的樣本統(tǒng)計(jì)量顯著性水平和拒絕域

(左側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(右側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平觀察到的樣本統(tǒng)計(jì)量顯著性水平和拒絕域

(右側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量抽樣分布1-置信水平拒絕H0決策規(guī)則給定顯著性水平，查表得出相應(yīng)的臨界值z或z/2，t或t/2將檢驗(yàn)統(tǒng)計(jì)量的值與水平的臨界值進(jìn)行比較作出決策雙側(cè)檢驗(yàn)：I統(tǒng)計(jì)量I>臨界值，拒絕H0左側(cè)檢驗(yàn)：統(tǒng)計(jì)量<臨界值，拒絕H0右側(cè)檢驗(yàn)：統(tǒng)計(jì)量>臨界值，拒絕H0利用P值進(jìn)行決策什么是P值?

(P-value)在原假設(shè)為真的條件下，檢驗(yàn)統(tǒng)計(jì)量的觀察值大于或等于其計(jì)算值的概率雙側(cè)檢驗(yàn)為分布中兩側(cè)面積的總和反映實(shí)際觀測到的數(shù)據(jù)與原假設(shè)H0之間不一致的程度被稱為觀察到的(或?qū)崪y的)顯著性水平?jīng)Q策規(guī)則：若p值<,拒絕H0雙側(cè)檢驗(yàn)的P值/

2Z拒絕H0拒絕H00臨界值計(jì)算出的樣本統(tǒng)計(jì)量計(jì)算出的樣本統(tǒng)計(jì)量臨界值1/2P值1/2P值左側(cè)檢驗(yàn)的P值0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值右側(cè)檢驗(yàn)的P值0臨界值a拒絕H0抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值假設(shè)檢驗(yàn)步驟的總結(jié)1.陳述原假設(shè)和備擇假設(shè)2.從所研究的總體中抽出一個(gè)隨機(jī)樣本3.確定一個(gè)適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量，并利用樣本數(shù)據(jù)算出其具體數(shù)值4.確定一個(gè)適當(dāng)?shù)娘@著性水平，并計(jì)算出其臨界值，指定拒絕域5.將統(tǒng)計(jì)量的值與臨界值進(jìn)行比較，作出決策統(tǒng)計(jì)量的值落在拒絕域，拒絕H0，否則不拒絕H0也可以直接利用P值作出決策第二節(jié)一個(gè)總體參數(shù)的檢驗(yàn)一、總體均值的檢驗(yàn)二、總體比率的檢驗(yàn)三、總體方差的檢驗(yàn)一個(gè)總體參數(shù)的檢驗(yàn)z檢驗(yàn)(單尾和雙尾)

t檢驗(yàn)(單尾和雙尾)z

檢驗(yàn)(單尾和雙尾)

2檢驗(yàn)(單尾和雙尾)均值一個(gè)總體比率方差總體均值的檢驗(yàn)總體均值的檢驗(yàn)

(作出判斷)是否已知小樣本容量n大是否已知否t檢驗(yàn)否z檢驗(yàn)是z檢驗(yàn)

是z檢驗(yàn)總體均值的檢驗(yàn)

(大樣本)總體均值的檢驗(yàn)

(大樣本)1. 假定條件正態(tài)總體或非正態(tài)總體大樣本(n30)使用z檢驗(yàn)統(tǒng)計(jì)量2

已知：2

未知：總體均值的檢驗(yàn)(2

已知)

(例題分析)H0

：

=255H1

：

255

0.05n

40臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:z01.96-1.960.025拒絕H0拒絕H00.025決策:結(jié)論:

不拒絕H0樣本提供的證據(jù)表明：該天生產(chǎn)的飲料符合標(biāo)準(zhǔn)要求總體均值的檢驗(yàn)(2

未知)

(例題分析)【例】一種機(jī)床加工的零件尺寸絕對平均誤差為1.35mm。生產(chǎn)廠家現(xiàn)采用一種新的機(jī)床進(jìn)行加工以期進(jìn)一步降低誤差。為檢驗(yàn)新機(jī)床加工的零件平均誤差與舊機(jī)床相比是否有顯著降低，從某天生產(chǎn)的零件中隨機(jī)抽取50個(gè)進(jìn)行檢驗(yàn)。利用這些樣本數(shù)據(jù)，檢驗(yàn)新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比是否有顯著降低？(=0.01)左側(cè)檢驗(yàn)50個(gè)零件尺寸的誤差數(shù)據(jù)(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371.381.601.261.171.121.230.820.86總體均值的檢驗(yàn)(2

未知)

(例題分析)H0

：

1.35H1

：

<1.35=0.01n

=50臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:

拒絕H0新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比有顯著降低決策:結(jié)論:-2.33z0拒絕H00.01總體均值的檢驗(yàn)(z檢驗(yàn))

(P值的圖示)0-2.33a=0.01z拒絕H0抽樣分布1-計(jì)算出的樣本統(tǒng)計(jì)量=2.6061P值P=0.004579

總體均值的檢驗(yàn)(2

未知)

(例題分析)【例】某一小麥品種的平均產(chǎn)量為5200kg/hm2

。一家研究機(jī)構(gòu)對小麥品種進(jìn)行了改良以期提高產(chǎn)量。為檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高，隨機(jī)抽取了36個(gè)地塊進(jìn)行試種，得到的樣本平均產(chǎn)量為5275kg/hm2，標(biāo)準(zhǔn)差為120/hm2

。試檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高？(=0.05)

右側(cè)檢驗(yàn)總體均值的檢驗(yàn)(2

未知)

(例題分析)H0

：

5200H1

：

>5200

=0.05n

36臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:拒絕H0(P=0.000088<

=0.05)改良后的新品種產(chǎn)量有顯著提高決策:結(jié)論:z0拒絕H00.051.645總體均值的檢驗(yàn)(z檢驗(yàn))

(P值的圖示)抽樣分布P=0.000088

01.645a=0.05拒絕H01-計(jì)算出的樣本統(tǒng)計(jì)量=3.75P值總體均值的檢驗(yàn)

(小樣本)總體均值的檢驗(yàn)

(小樣本)1. 假定條件總體服從正態(tài)分布小樣本(n<

30)檢驗(yàn)統(tǒng)計(jì)量2

已知：2

未知：總體均值的檢驗(yàn)

(例題分析)【例】一種汽車配件的平均長度要求為12cm，高于或低于該標(biāo)準(zhǔn)均被認(rèn)為是不合格的。汽車生產(chǎn)企業(yè)在購進(jìn)配件時(shí)，通常是經(jīng)過招標(biāo)，然后對中標(biāo)的配件提供商提供的樣品進(jìn)行檢驗(yàn)，以決定是否購進(jìn)?，F(xiàn)對一個(gè)配件提供商提供的10個(gè)樣本進(jìn)行了檢驗(yàn)。假定該供貨商生產(chǎn)的配件長度服從正態(tài)分布，在0.05的顯著性水平下，檢驗(yàn)該供貨商提供的配件是否符合要求？10個(gè)零件尺寸的長度(cm)12.210.812.011.811.912.411.312.212.012.3總體均值的檢驗(yàn)

(例題分析)H0

：

=12H1

：

=0.05df=10-1=9臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:不拒絕H0該供貨商提供的零件符合要求

決策：結(jié)論：t02.262-2.2620.025拒絕

H0拒絕H00.025總體比率的檢驗(yàn)適用的數(shù)據(jù)類型離散數(shù)據(jù)

連續(xù)數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)據(jù)品質(zhì)數(shù)據(jù)總體比率檢驗(yàn)1.假定條件總體服從二項(xiàng)分布可用正態(tài)分布來近似(大樣本)2.檢驗(yàn)的z統(tǒng)計(jì)量0為假設(shè)的總體比率總體比率的檢驗(yàn)

(例題分析)【例】一種以休閑和娛樂為主題的雜志，聲稱其讀者群中有80%為女性。為驗(yàn)證這一說法是否屬實(shí)，某研究部門抽取了由200人組成的一個(gè)隨機(jī)樣本，發(fā)現(xiàn)有146個(gè)女性經(jīng)常閱讀該雜志。分別取顯著性水平

=0.05和=0.01

，檢驗(yàn)該雜志讀者群中女性的比率是否為80%？它們的值各是多少？雙側(cè)檢驗(yàn)總體比率的檢驗(yàn)

(例題分析)H0

：

=80%H1

：

80%

=0.05n

=200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:拒絕H0(P=0.013328<

=0.05)該雜志的說法并不屬實(shí)

決策:結(jié)論:z01.96-1.960.025拒絕

H0拒絕

H00.025總體比率的檢驗(yàn)

(例題分析)H0

：

=80%H1

：

80%

0.01n

200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:不拒絕H0(P=0.013328>=0.01)該雜志的說法屬實(shí)

決策:結(jié)論:z02.58-2.580.025拒絕H0拒絕H00.025總體方差的檢驗(yàn)

(2檢驗(yàn))總體方差的檢驗(yàn)

(2檢驗(yàn))

檢驗(yàn)一個(gè)總體的方差或標(biāo)準(zhǔn)差假設(shè)總體近似服從正態(tài)分布使用2分布檢驗(yàn)統(tǒng)計(jì)量樣本方差假設(shè)的總體方差總體方差的檢驗(yàn)

(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

：2=02H1：

202H0

：202H1：2<02H0：

202H1

：2>02統(tǒng)計(jì)量拒絕域P值決策

拒絕H0總體方差的檢驗(yàn)

(例題分析)【例】啤酒生產(chǎn)企業(yè)采用自動(dòng)生產(chǎn)線灌裝啤酒，每瓶的裝填量為640ml，但由于受某些不可控因素的影響，每瓶的裝填量會有差異。此時(shí)，不僅每瓶的平均裝填量很重要，裝填量的方差同樣很重要。如果方差很大，會出現(xiàn)裝填量太多或太少的情況，這樣要么生產(chǎn)企業(yè)不劃算，要么消費(fèi)者不滿意。假定生產(chǎn)標(biāo)準(zhǔn)規(guī)定每瓶裝填量的標(biāo)準(zhǔn)差不應(yīng)超過和不應(yīng)低于4ml。企業(yè)質(zhì)檢部門抽取了10瓶啤酒進(jìn)行檢驗(yàn)，得到的樣本標(biāo)準(zhǔn)差為s=3.8。試以0.10的顯著性水平檢驗(yàn)裝填量的標(biāo)準(zhǔn)差是否符合要求？朝日BEER朝日BEER朝日BEER朝日總體方差的檢驗(yàn)

(例題分析)H0

：2=42H1

：2

=0.10df

10-1=9臨界值(s):統(tǒng)計(jì)量:不拒絕H0裝填量的標(biāo)準(zhǔn)差否符合要求

2016.91903.32511/2=0.05決策:結(jié)論:第三節(jié)兩個(gè)總體參數(shù)的檢驗(yàn)一、兩個(gè)總體均值之差的檢驗(yàn)二、兩個(gè)總體比率之差的檢驗(yàn)三、兩個(gè)總體方差比的檢驗(yàn)兩個(gè)總體參數(shù)的檢驗(yàn)兩個(gè)總體參數(shù)的檢驗(yàn)z

檢驗(yàn)(大樣本)t

檢驗(yàn)(小樣本)t

檢驗(yàn)(小樣本)z檢驗(yàn)F

檢驗(yàn)獨(dú)立樣本配對樣本均值比率方差兩個(gè)總體均值之差的檢驗(yàn)

(獨(dú)立大樣本)

兩個(gè)總體均值之差的檢驗(yàn)

(獨(dú)立大樣本)1. 假定條件兩個(gè)樣本是獨(dú)立的隨機(jī)樣本正態(tài)總體或非正態(tài)總體大樣本(n130和n230)檢驗(yàn)統(tǒng)計(jì)量12

，

已知：12

，22

未知：兩個(gè)總體均值之差的檢驗(yàn)

(大樣本檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

：m1-m2=0H1：m1-m20

：m1-m20H1：m1-m2<0H0：m1-m20

H1：m1-m2>0統(tǒng)計(jì)量12

，

已知12

，

未知拒絕域P值決策拒絕H0兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)

【例】某公司對男女職員的平均小時(shí)工資進(jìn)行了調(diào)查，獨(dú)立抽取了具有同類工作經(jīng)驗(yàn)的男女職員的兩個(gè)隨機(jī)樣本，并記錄下兩個(gè)樣本的均值、方差等資料如右表。在顯著性水平為0.05的條件下，能否認(rèn)為男性職員與女性職員的平均小時(shí)工資存在顯著差異？

兩個(gè)樣本的有關(guān)數(shù)據(jù)

男性職員女性職員n1=44n1=32x1=75x2=70S12=64S22=42.25兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)H0

：1-2=0H1

：1-2

=0.05n1

=44，n2

=32臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

拒絕H0該公司男女職員的平均小時(shí)工資之間存在顯著差異

z01.96-1.960.025拒絕H0拒絕H00.025兩個(gè)總體均值之差的檢驗(yàn)

(獨(dú)立小樣本)

兩個(gè)總體均值之差的檢驗(yàn)

(12，

已知)假定條件兩個(gè)獨(dú)立的小樣本兩個(gè)總體都是正態(tài)分布12，

22已知檢驗(yàn)統(tǒng)計(jì)量兩個(gè)總體均值之差的檢驗(yàn)

(12，22

未知但12=22)假定條件兩個(gè)獨(dú)立的小樣本兩個(gè)總體都是正態(tài)分布12、

22未知但相等，即12=22檢驗(yàn)統(tǒng)計(jì)量其中：自由度：兩個(gè)總體均值之差的檢驗(yàn)

(12，

未知且不相等1222)假定條件兩個(gè)總體都是正態(tài)分布12，

22未知且不相等，即1222樣本容量相等，即n1=n2=n檢驗(yàn)統(tǒng)計(jì)量自由度：兩個(gè)總體均值之差的檢驗(yàn)

(12，

未知且不相等1222)假定條件兩個(gè)總體都是正態(tài)分布12，22未知且不相等，即1222樣本容量不相等，即n1n2檢驗(yàn)統(tǒng)計(jì)量自由度：兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)【例】甲、乙兩臺機(jī)床同時(shí)加工某種同類型的零件，已知兩臺機(jī)床加工的零件直徑(單位：cm)分別服從正態(tài)分布，并且有12=22

。為比較兩臺機(jī)床的加工精度有無顯著差異，分別獨(dú)立抽取了甲機(jī)床加工的8個(gè)零件和乙機(jī)床加工的7個(gè)零件，通過測量得到如下數(shù)據(jù)。在=0.05的顯著性水平下，樣本數(shù)據(jù)是否提供證據(jù)支持

“兩臺機(jī)床加工的零件直徑不一致”的看法？兩臺機(jī)床加工零件的樣本數(shù)據(jù)

(cm)甲20.519.819.720.420.120.019.019.9乙20.719.819.520.820.419.620.2兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)H0

：1-2

=0H1

：1-2

0.05n1

=8，n2

=7臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

不拒絕H0沒有理由認(rèn)為甲、乙兩臺機(jī)床加工的零件直徑有顯著差異

t02.160-2.1600.025拒絕H0拒絕H00.025兩個(gè)總體均值之差的估計(jì)

(例題分析)【例】為檢驗(yàn)兩種方法組裝產(chǎn)品所需時(shí)間的差異，分別對兩種不同的組裝方法各隨機(jī)安排12個(gè)工人，每個(gè)工人組裝一件產(chǎn)品所需的時(shí)間(分鐘)下如表。假定兩種方法組裝產(chǎn)品的時(shí)間服從正態(tài)分布，但方差未知且不相等。取顯著性水平0.05，能否認(rèn)為方法1組裝產(chǎn)品的平均數(shù)量明顯地高于方法2？兩個(gè)方法組裝產(chǎn)品所需的時(shí)間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個(gè)總體均值之差的檢驗(yàn)

(匹配樣本)

兩個(gè)總體均值之差的檢驗(yàn)

(匹配樣本)假定條件兩個(gè)總體配對差值構(gòu)成的總體服從正態(tài)分布配對差是由差值總體中隨機(jī)抽取的

數(shù)據(jù)配對或匹配(重復(fù)測量(前/后))檢驗(yàn)統(tǒng)計(jì)量樣本差值均值樣本差值標(biāo)準(zhǔn)差匹配樣本

(數(shù)據(jù)形式)

觀察序號樣本1樣本2差值1x11x21d1=x11-x212x12x22d2=x12-x22MMMMix1ix2idi

=x1i

-x2iMMMMnx1nx2ndn

=x1n-x2n兩個(gè)總體均值之差的檢驗(yàn)

(匹配樣本檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

：d=0H1：d0H0

：d0H1：d<0H0：d0

H1：d>0統(tǒng)計(jì)量拒絕域P值決策拒絕H0兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)

【例】某飲料公司開發(fā)研制出一新產(chǎn)品，為比較消費(fèi)者對新老產(chǎn)品口感的滿意程度，該公司隨機(jī)抽選一組消費(fèi)者(8人)，每個(gè)消費(fèi)者先品嘗一種飲料，然后再品嘗另一種飲料，兩種飲料的品嘗順序是隨機(jī)的，而后每個(gè)消費(fèi)者要對兩種飲料分別進(jìn)行評分(0分～10分)，評分結(jié)果如下表。取顯著性水平=0.05，該公司是否有證據(jù)認(rèn)為消費(fèi)者對兩種飲料的評分存在顯著差異？兩種飲料平均等級的樣本數(shù)據(jù)新飲料54735856舊飲料66743976兩個(gè)總體比率之差的檢驗(yàn)1. 假定條件兩個(gè)總體都服從二項(xiàng)分布可以用正態(tài)分布來近似2.檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)H0：1-2=0檢驗(yàn)H0：1-2=d0兩個(gè)總體比率之差的檢驗(yàn)兩個(gè)總體比率之差的檢驗(yàn)

(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

：1-2=0H1：1-20H0

：1-20

H1：1-2<0

H0：1-20

H1：1-2>0

統(tǒng)計(jì)量拒絕域P值決策拒絕H0兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)

【例】一所大學(xué)準(zhǔn)備采取一項(xiàng)學(xué)生在宿舍上網(wǎng)收費(fèi)的措施，為了解男女學(xué)生對這一措施的看法是否存在差異，分別抽取了200名男學(xué)生和200名女學(xué)生進(jìn)行調(diào)查，其中的一個(gè)問題是：“你是否贊成采取上網(wǎng)收費(fèi)的措施？”其中男學(xué)生表示贊成的比率為27%，女學(xué)生表示贊成的比率為35%。調(diào)查者認(rèn)為，男學(xué)生中表示贊成的比率顯著低于女學(xué)生。取顯著性水平=0.01，樣本提供的證據(jù)是否支持調(diào)查者的看法？21netnet兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)H0

：1-2

0H1

：1-2<0

0.05n1=200,

n2=200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

拒絕H0(P=0.041837<

=0.05)樣本提供的證據(jù)支持調(diào)查者的看法

-1.645Z0拒絕域兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)

【例】有兩種方法生產(chǎn)同一種產(chǎn)品，方法1的生產(chǎn)成本較高而次品率較低，方法2的生產(chǎn)成本較低而次品率則較高。管理人員在選擇生產(chǎn)方法時(shí)，決定對兩種方法的次品率進(jìn)行比較，如方法1比方法2的次品率低8%以上，則決定采用方法1，否則就采用方法2。管理人員從方法1生產(chǎn)的產(chǎn)品中隨機(jī)抽取300個(gè)，發(fā)現(xiàn)有33個(gè)次品，從方法2生產(chǎn)的產(chǎn)品中也隨機(jī)抽取300個(gè)，發(fā)現(xiàn)有84個(gè)次品。用顯著性水平=0.01進(jìn)行檢驗(yàn)，說明管理人員應(yīng)決定采用哪種方法進(jìn)行生產(chǎn)？兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)H0

：1-28%H1

：1-2<8%

0.01n1=300,n2=300臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

拒絕H0(P=1.22E-15<

=0.05)方法1的次品率顯著低于方法2達(dá)8%，應(yīng)采用方法1進(jìn)行生產(chǎn)-2.33Z0拒絕域兩個(gè)總體方差比的檢驗(yàn)兩個(gè)總體方差比的檢驗(yàn)

檢驗(yàn))1.假定條件兩個(gè)總體都服從正態(tài)分布，且方差相等兩個(gè)獨(dú)立的隨機(jī)樣本檢驗(yàn)統(tǒng)計(jì)量兩個(gè)總體方差比的F

檢驗(yàn)

(臨界值)FF1-F拒絕H0方差比F檢驗(yàn)示意圖拒絕H0兩個(gè)總體方差比的檢驗(yàn)

(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0：12/22=1H1：

12/221H0：12/221H1：12/22<1

H0：12/221

H1：12/22>1

統(tǒng)計(jì)量拒絕域兩個(gè)總體方差比的檢驗(yàn)

(例題分析)【例】一家房地產(chǎn)開發(fā)公司準(zhǔn)備購進(jìn)一批燈泡，公司打算在兩個(gè)供貨商之間選擇一家購買。這兩家供貨商生產(chǎn)的燈泡平均使用壽命差別不大，價(jià)格也很相近，考慮的主要因素就是燈泡使用壽命的方差大小。如果方差相同，就選擇距離較近的一家供貨商進(jìn)貨。為此，公司管理人員對兩家供貨商提供的樣品進(jìn)行了檢測，得到的數(shù)據(jù)如右表。檢驗(yàn)兩家供貨商燈泡使用壽命的方差是否有顯著差異

(=0.05)兩家供貨商燈泡使用壽命數(shù)據(jù)樣本1650569622630596637628706617624563580711480688723651569709632樣本2568540596555496646607562589636529584681539617統(tǒng)計(jì)結(jié)論中拒絕與接受的含義

在假設(shè)檢驗(yàn)中，對棄真的概率進(jìn)行了控制，而對納偽的概率并沒有嚴(yán)加控制。當(dāng)H0遭到拒絕時(shí)，有非常大的把握說這個(gè)結(jié)論是正確的。當(dāng)H0不被拒絕時(shí)，只能說沒有足夠的證據(jù)來懷疑H0

，而不能肯定H0是完全正確的。在應(yīng)用回歸分析、方差分析等統(tǒng)計(jì)分析手段時(shí)，對實(shí)驗(yàn)數(shù)據(jù)有一定的要求，即：樣本對總體的代表性和樣本遵從特定的檢驗(yàn)方法的要求。因此，在對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析之前，必須對實(shí)驗(yàn)數(shù)據(jù)本身進(jìn)行檢驗(yàn)與處理，使其符合統(tǒng)計(jì)分析的要求?；貧w分析對原始數(shù)據(jù)的要求原始數(shù)據(jù)必須相互獨(dú)立獨(dú)立性原始數(shù)據(jù)必須來自正態(tài)總體正態(tài)性原始數(shù)據(jù)須合理合理性原始數(shù)據(jù)各組之間的方差必須一致等方差性獨(dú)立性、正態(tài)性、合理性和方差一致性檢驗(yàn)的共性采用假設(shè)檢驗(yàn)方法，檢驗(yàn)步驟和過程相似各自有很多種檢驗(yàn)方法（注意每種方法的特點(diǎn)）注意每種方法的需要滿足的前提對于同樣樣本的數(shù)據(jù)采用不同的方法可能會有不同的結(jié)論第四節(jié)正態(tài)分布的概念和特征一、正態(tài)分布(normaldistribution)的概念A(yù).DeMoivre:德國數(shù)學(xué)家和天文學(xué)家Gauss:高斯（JohannCarlFriedrichGau?(Gauss)（1777－1855），德國著名數(shù)學(xué)家、物理學(xué)家、天文學(xué)家、大地測量學(xué)家。高斯被認(rèn)為是最重要的數(shù)學(xué)家，并有“數(shù)學(xué)王子”的美譽(yù)。

正態(tài)分布圖形

例數(shù)更多，分組更細(xì)頻數(shù)分布圖全部觀察對象BellShaped’Symmetrical自然學(xué)科很多資料符合正態(tài)分布兩頭低，中間高，左右對稱，呈鐘型的單峰曲線。

二、正態(tài)分布的特征

1、連續(xù)型隨機(jī)變量及其概率分布變量—研究指標(biāo)，身高，體重等隨機(jī)變量—可以等于任意數(shù)，不確定的值連續(xù)型—－∽≤X≤+∽，中途不間斷，即包含小數(shù)離散型—中途間斷，即只有整數(shù)，沒有小數(shù)2、連續(xù)型隨機(jī)變量的分布函數(shù)二、正態(tài)分布的特征

（1）概率密度函數(shù)（曲線的高度）（2）概率分布函數(shù)（曲線的面積）σ—總體標(biāo)準(zhǔn)差μ—總體均數(shù)π—圓周率，3.14159….（3）正態(tài)分布特征⑴曲線在橫軸上方均數(shù)處最高；⑵以均數(shù)為中心，左右對稱；⑶正態(tài)分布有兩個(gè)參數(shù)：位置參數(shù)μ

、形狀參數(shù)σ

⑷正態(tài)分布曲線下的面積有一定的分布規(guī)律。

二、正態(tài)分布的特征

正態(tài)分布的兩個(gè)參數(shù)（1）μ－位置參數(shù)：當(dāng)σ一定時(shí)，μ越大，曲線越向右移動(dòng)；μ越小，曲線越向左移動(dòng)。（2）σ－離散度參數(shù)，決定曲線的形態(tài)：當(dāng)μ一定時(shí)，

σ越大，表示數(shù)據(jù)越分散，曲線越“胖”；

σ越小，表示數(shù)據(jù)越集中，曲線越“瘦”。正態(tài)分布的兩個(gè)參數(shù)正態(tài)曲線下面積分布規(guī)律

無論μσ取什么值，正態(tài)曲線與橫軸間的面積總等于1面積總等于1這個(gè)面積等于多少？－∞＋∞μx熟記下列常用的曲線下面積分布規(guī)律：

1、μ±σ的區(qū)間占總面積的68.27％

2、μ±1.96σ的區(qū)間占總面積的95％

3、μ±2.58σ的區(qū)間占總面積的99％質(zhì)量控制

＋2S＋3S上控制線下控制線警戒線警戒線

－2S

－3S第五節(jié)標(biāo)準(zhǔn)正態(tài)分布及其應(yīng)用1、標(biāo)準(zhǔn)正態(tài)分布與標(biāo)準(zhǔn)化變換

正態(tài)分布是一個(gè)分布族。對應(yīng)于不同的參數(shù)μ和σ會產(chǎn)生不同位置不同形狀的正態(tài)分布。（1）概率密度函數(shù)（曲線的高度）（2）概率分布函數(shù)（曲線的面積）σ—總體標(biāo)準(zhǔn)差μ—總體均數(shù)π—圓周率，3.14159….這個(gè)面積等于多少？－∞＋∞μx為了應(yīng)用方便，令u服從均數(shù)為0、標(biāo)準(zhǔn)差為1的正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布u變換當(dāng)μ和σ未知時(shí)，用和s來估計(jì)u值。標(biāo)準(zhǔn)正態(tài)分布：凡均數(shù)為0、標(biāo)準(zhǔn)差為1的正態(tài)分布。所有的正態(tài)分布，經(jīng)u變換后，都可以轉(zhuǎn)為標(biāo)準(zhǔn)正態(tài)分布。2、標(biāo)準(zhǔn)正態(tài)分布表－∞－3－2－10＋1＋2＋3＋∞Φ(u)附表Ⅰ

查表確定標(biāo)準(zhǔn)正態(tài)分布曲線下的面積時(shí)，必須注意：

（1）u變換當(dāng)μ，σ已知時(shí)，先按u變換公式求得u值，再用u值查表；

當(dāng)μ，σ未知時(shí)，用樣本均數(shù)和樣本標(biāo)準(zhǔn)差s代替求u值。

（2）查表時(shí)，可以利用標(biāo)準(zhǔn)正態(tài)分布的兩個(gè)特征：

a.曲線下對稱于0的區(qū)間，面積相等；

b.曲線下橫軸上的總面積為100％或1。

例求x1=μ-1.96σ與x2=μ+1.96σ區(qū)間的面積。查附表，φ1(-1.96)=0.025,φ2(1.96)=1-φ(-1.96)=1-0.025=0.975,區(qū)間面積φ=φ2-φ1=0.975-0.025=0.95=95%第六節(jié)卡方分布擬合檢驗(yàn)如，某鐘表廠對生產(chǎn)的鐘進(jìn)行精確性檢查，抽取100個(gè)鐘作試驗(yàn)，撥準(zhǔn)后隔24小時(shí)以后進(jìn)行檢查，將每個(gè)鐘的誤差（快或慢）按秒記錄下來.問該廠生產(chǎn)的鐘的誤差是否服從正態(tài)分布？再如，某工廠制造一批骰子，聲稱它是均勻的.為檢驗(yàn)骰子是否均勻，要把骰子實(shí)地投擲若干次，統(tǒng)計(jì)各點(diǎn)出現(xiàn)的頻率與1/6的差距.也就是說，在投擲中，出現(xiàn)1點(diǎn)，2點(diǎn)，…，6點(diǎn)的概率都應(yīng)是1/6.得到的數(shù)據(jù)能否說明“骰子均勻”的假設(shè)是可信的？問題是：K.皮爾遜這是一項(xiàng)很重要的工作，不少人把它視為近代統(tǒng)計(jì)學(xué)的開端.

解決這類問題的工具是英國統(tǒng)計(jì)學(xué)家K.皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂

檢驗(yàn)法.

檢驗(yàn)法是在總體X的分布未知時(shí)，根據(jù)來自總體的樣本，檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法.

H0：總體X的分布函數(shù)為F(x)

然后根據(jù)樣本的經(jīng)驗(yàn)分布和所假設(shè)的理論分布之間的吻合程度來決定是否接受原假設(shè).使用

對總體分布進(jìn)行檢驗(yàn)時(shí)，我們先提出原假設(shè):檢驗(yàn)法這種檢驗(yàn)通常稱作擬合優(yōu)度檢驗(yàn)，它是一種非參數(shù)檢驗(yàn).

在用

檢驗(yàn)假設(shè)H0時(shí)，若在H0下分布類型已知，但其參數(shù)未知，這時(shí)需要先用極大似然估計(jì)法估計(jì)參數(shù)，然后作檢驗(yàn).檢驗(yàn)法分布擬合的

的基本原理和步驟如下:檢驗(yàn)法3.根據(jù)所假設(shè)的理論分布,可以算出總體X的值落入每個(gè)Ai的概率pi,于是npi就是落入Ai的樣本值的理論頻數(shù).1.將總體X的取值范圍分成k個(gè)互不重迭的小區(qū)間,記作A1,A2,…,Ak.2.把落入第i個(gè)小區(qū)間Ai的樣本值的個(gè)數(shù)記作fi

，稱為實(shí)測頻數(shù).所有實(shí)測頻數(shù)之和f1+f2+…+fk等于樣本容量n.標(biāo)志著經(jīng)驗(yàn)分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計(jì)量表示經(jīng)驗(yàn)分布與理論分布之間的差異:統(tǒng)計(jì)量的分布是什么?在理論分布已知的條件下,npi是常量實(shí)測頻數(shù)理論頻數(shù)皮爾遜證明了如下定理:

若原假設(shè)中的理論分布F(x)已經(jīng)完全給定，那么當(dāng)時(shí)，統(tǒng)計(jì)量的分布漸近(k-1)個(gè)自由度的分布.

如果理論分布F(x)中有r個(gè)未知參數(shù)需用相應(yīng)的估計(jì)量來代替，那么當(dāng)時(shí)，統(tǒng)計(jì)量的分布漸近(k-r-1)個(gè)自由度的分布.

為了便于理解，我們對定理作一點(diǎn)直觀的說明.

如果根據(jù)所給的樣本值X1,X2,…,Xn算得統(tǒng)計(jì)量的實(shí)測值落入拒絕域，則拒絕原假設(shè)，否則就認(rèn)為差異不顯著而接受原假設(shè).得拒絕域:(不需估計(jì)參數(shù))(估計(jì)r個(gè)參數(shù))查分布表可得臨界值，使得

根據(jù)這個(gè)定理，對給定的顯著性水平，

皮爾遜定理是在n無限增大時(shí)推導(dǎo)出來的，因而在使用時(shí)要注意n要足夠大，以及npi

不太小這兩個(gè)條件.

根據(jù)計(jì)算實(shí)踐，要求n不小于50，以及npi

都不小于5.否則應(yīng)適當(dāng)合并區(qū)間，使npi滿足這個(gè)要求.143一、采用卡方檢驗(yàn)進(jìn)行正態(tài)性檢驗(yàn)144分組不同，擬合的結(jié)果可能不同。需要有足夠的樣本含量。

第七節(jié)W檢驗(yàn)方法對于樣本量較小(50n8)的情況，可以用Shapiro—Wilk檢驗(yàn)代替偏度一峰度檢驗(yàn)。與偏度一峰度檢驗(yàn)不同的是，Shapiro—Wilk檢驗(yàn)對偏度和峰度以外的非正態(tài)性特征也敏感，但不能區(qū)分總體對正態(tài)分布的偏離表現(xiàn)在什么方面，只是籠統(tǒng)地判斷一個(gè)樣本是否來自正態(tài)分布的總體。其統(tǒng)計(jì)假設(shè)為：H0，樣本來自正態(tài)分布的總體，H1：樣本來自非正態(tài)分布的總體。

對樣本量等于n的一個(gè)樣本，將全體觀測值按從小到大次序排列，得：

對該樣本進(jìn)行Shapiro-Wilk檢驗(yàn)的第一步是根據(jù)樣本量n從附表A6中查取n個(gè)Shapiro-Wilk檢驗(yàn)系數(shù)，記為k(w)。Shapiro—Wilk檢驗(yàn)的統(tǒng)計(jì)量為：

其中，當(dāng)n為偶數(shù)時(shí)，當(dāng)n為奇數(shù)時(shí)，根據(jù)和n查表（附表A7）可知w的臨界值Z。由此可作出判斷：

當(dāng)w<Z時(shí)，拒絕H0,即分布不呈正態(tài)。

當(dāng)wZ時(shí)，不拒絕H0,即分布呈正態(tài)。[例]測得某種紗的伸長率（%）的數(shù)據(jù)為：

15.2,15.4，14.8,13.0,14.2，14.6,14.5，14.2。問其是否符合正態(tài)分布。解：1.將各值按大小順序排列：

x1,

x2,

x3,

x4,

x5,x6,x7,x8

13.0,14.2，14.2,14.5，14.6,14.8,15.2，15.4

其平均值為：

2計(jì)算統(tǒng)計(jì)量W

因?yàn)閚為偶數(shù)，所以查附表A6可知：1(w)=0.6052,2(w)=0.3164,3(w)=0.1743,3(w)=0.0561。

查附表A7知：Z(=0.05）為Z0.05=0.818作出統(tǒng)計(jì)判斷：W>Z

,不拒絕H0，即數(shù)據(jù)呈正態(tài)分布。。造成試驗(yàn)結(jié)果非正態(tài)性的原因有兩種：一是總體本身就不是正態(tài)分布的，二是樣本中包含個(gè)別異常值。

對于非正態(tài)分布的總體，做適當(dāng)數(shù)據(jù)變換（如對對數(shù)正態(tài)分布總體做對數(shù)變換，對左偏或右偏數(shù)據(jù)作Box—Cox變換等），或者改用非參數(shù)檢驗(yàn)方法都是可行的選擇。在有異常值存在的情況下，則應(yīng)將其先剔除再作方差分析。第八節(jié)獨(dú)立性檢驗(yàn)

保證個(gè)體的獨(dú)立性就是要使所采集的每個(gè)樣品與上一個(gè)樣本沒有關(guān)聯(lián)。一個(gè)樣本是否能代表它的總體，關(guān)鍵在于采樣的隨機(jī)性。非隨機(jī)采樣一方面可能導(dǎo)致樣本特征與總體特征的不一致，另一方面也可能反映在個(gè)體的非獨(dú)立性方面，樣本中個(gè)體的獨(dú)立性是指它們的采集過程完全不受其它個(gè)體的干擾。對那些分布在某一時(shí)間或空間范圍內(nèi)的個(gè)體而言，個(gè)體間的自相關(guān)特性是導(dǎo)致采樣非獨(dú)立性的重要原因。獨(dú)立性檢驗(yàn)兩個(gè)分類變量的獨(dú)立性檢驗(yàn)問題。在日常生活中，我們常常關(guān)心分類變量之間是否有關(guān)系：例如，吸煙是否與患肺癌有關(guān)系？性別是否對于喜歡數(shù)學(xué)課程有影響？等等。

吸煙與肺癌列聯(lián)表不患肺癌患肺癌總計(jì)不吸煙7775427817吸煙2099492148總計(jì)9874919965為了調(diào)查吸煙是否對肺癌有影響，某腫瘤研究所隨機(jī)地調(diào)查了9965人，得到如下結(jié)果（單位：人）列聯(lián)表在不吸煙者中患肺癌的比重是

在吸煙者中患肺癌的比重是

說明：吸煙者和不吸煙者患肺癌的可能性存在差異，吸煙者患肺癌的可能性大。0.54%2.28%探究不患肺癌患肺癌總計(jì)不吸煙7775427817吸煙2099492148總計(jì)98749199651、列聯(lián)表2、三維柱形圖3、二維條形圖不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出各個(gè)頻數(shù)的相對大小。從二維條形圖能看出，吸煙者中患肺癌的比例高于不患肺癌的比例。通過圖形直觀判斷兩個(gè)分類變量是否相關(guān)：不吸煙吸煙患肺癌比例不患肺癌比例4、等高條形圖等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例。

上面我們通過分析數(shù)據(jù)和圖形，得到的直觀印象是吸煙和患肺癌有關(guān)，那么事實(shí)是否真的如此呢？這需要用統(tǒng)計(jì)觀點(diǎn)來考察這個(gè)問題。

現(xiàn)在想要知道能夠以多大的把握認(rèn)為“吸煙與患肺癌有關(guān)”，為此先假設(shè)

H0：吸煙與患肺癌沒有關(guān)系.不患肺癌患肺癌總計(jì)不吸煙aba+b吸煙cdc+d總計(jì)a+cb+da+b+c+d把表中的數(shù)字用字母代替，得到如下用字母表示的列聯(lián)表

用A表示不吸煙，B表示不患肺癌，則“吸煙與患肺癌沒有關(guān)系”等價(jià)于“吸煙與患肺癌獨(dú)立”，即假設(shè)H0等價(jià)于P(AB)=P(A)P(B).因此|ad-bc|越小，說明吸煙與患肺癌之間關(guān)系越弱；

|ad-bc|越大，說明吸煙與患肺癌之間關(guān)系越強(qiáng)。不患肺癌患肺癌總計(jì)不吸煙aba+b吸煙cdc+d總計(jì)a+cb+da+b+c+d在表中，a恰好為事件AB發(fā)生的頻數(shù)；a+b和a+c恰好分別為事件A和B發(fā)生的頻數(shù)。由于頻率接近于概率，所以在H0成立的條件下應(yīng)該有

為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn)，基于上述分析，我們構(gòu)造一個(gè)隨機(jī)變量-----卡方統(tǒng)計(jì)量（1）

若H0成立，即“吸煙與患肺癌沒有關(guān)系”，則K2應(yīng)很小。根據(jù)表3-7中的數(shù)據(jù)，利用公式（1）計(jì)算得到K2的觀測值為：那么這個(gè)值到底能告訴我們什么呢？（2）

獨(dú)立性檢驗(yàn)在H0成立的情況下，統(tǒng)計(jì)學(xué)家估算出如下的概率

即在H0成立的情況下，K2的值大于6.635的概率非常小，近似于0.01。

也就是說，在H0成立的情況下，對隨機(jī)變量K2進(jìn)行多次觀測，觀測值超過6.635的頻率約為0.01。思考

答：判斷出錯(cuò)的概率為0.01。判斷是否成立的規(guī)則如果，就判斷不成立，即認(rèn)為吸煙與患肺癌有關(guān)系；否則，就判斷成立，即認(rèn)為吸煙與患肺癌有關(guān)系。獨(dú)立性檢驗(yàn)的定義

上面這種利用隨機(jī)變量K2來確定在多大程度上可以認(rèn)為“兩個(gè)分類變量有關(guān)系”的方法，稱為兩個(gè)分類變量的獨(dú)立性檢驗(yàn)。在該規(guī)則下，把結(jié)論“成立”錯(cuò)判成“不成立”的概率不會差過即有99%的把握認(rèn)為不成立。獨(dú)立性檢驗(yàn)的基本思想（類似反證法）(1)假設(shè)結(jié)論不成立,即“兩個(gè)分類變量沒有關(guān)系”.(2)在此假設(shè)下我們所構(gòu)造的隨機(jī)變量K2

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017

文檔簡介

溫馨提示

最新文檔

評論

第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔