第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第1頁(yè)
第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第2頁(yè)
第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第3頁(yè)
第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第4頁(yè)
第2章數(shù)據(jù)檢驗(yàn)與處理(假設(shè)檢驗(yàn))2017_第5頁(yè)
已閱讀5頁(yè),還剩175頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章試驗(yàn)數(shù)據(jù)檢驗(yàn)與處理

(假設(shè)檢驗(yàn))假設(shè)檢驗(yàn)的基本問(wèn)題

一個(gè)總體參數(shù)的檢驗(yàn)

兩個(gè)總體參數(shù)的檢驗(yàn)假設(shè)檢驗(yàn)在統(tǒng)計(jì)方法中的地位統(tǒng)計(jì)方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)第一節(jié)假設(shè)檢驗(yàn)的基本問(wèn)題一、假設(shè)的陳述二、兩類(lèi)錯(cuò)誤與顯著性水平三、統(tǒng)計(jì)量與拒絕域四、利用P值進(jìn)行決策假設(shè)的陳述什么是假設(shè)?

對(duì)總體參數(shù)的具體數(shù)值所作的陳述(一個(gè)判斷)總體參數(shù)包括總體均值、比率、方差等分析之前必須陳述我認(rèn)為這種新藥的療效比原有的藥物更有效!什么是假設(shè)檢驗(yàn)?

先對(duì)總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過(guò)程有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)邏輯上運(yùn)用反證法,統(tǒng)計(jì)上依據(jù)小概率原理假設(shè)檢驗(yàn)的基本思想...因此我們拒絕假設(shè)

=50...如果這是總體的假設(shè)均值樣本均值m=50抽樣分布H0這個(gè)值不像我們應(yīng)該得到的樣本均值...20總體假設(shè)檢驗(yàn)的過(guò)程抽取隨機(jī)樣本均值

x=20我認(rèn)為白領(lǐng)的平均收入是50萬(wàn)元提出假設(shè)

拒絕假設(shè)別無(wú)選擇!

作出決策原假設(shè)與備擇假設(shè)原假設(shè)研究者想收集證據(jù)予以反對(duì)的假設(shè)又稱(chēng)“0假設(shè)”總是有符號(hào),

或表示為H0H0:

=某一數(shù)值指定為符號(hào)=,或例如,H0:

10cm研究者想收集證據(jù)予以支持的假設(shè)也稱(chēng)“研究假設(shè)”總是有符號(hào),

或表示為H1H1:

<某一數(shù)值,或某一數(shù)值例如,H1:

<10cm,或10cm備擇假設(shè)【例】一種零件的生產(chǎn)標(biāo)準(zhǔn)是直徑應(yīng)為10cm,為對(duì)生產(chǎn)過(guò)程進(jìn)行控制,質(zhì)量監(jiān)測(cè)人員定期對(duì)一臺(tái)加工機(jī)床檢查,確定這臺(tái)機(jī)床生產(chǎn)的零件是否符合標(biāo)準(zhǔn)要求。如果零件的平均直徑大于或小于10cm,則表明生產(chǎn)過(guò)程不正常,必須進(jìn)行調(diào)整。試陳述用來(lái)檢驗(yàn)生產(chǎn)過(guò)程是否正常的原假設(shè)和被擇假設(shè)提出假設(shè)解:研究者想收集證據(jù)予以證明的假設(shè)應(yīng)該是“生產(chǎn)過(guò)程不正?!?。建立的原假設(shè)和備擇假設(shè)為

H0:

10cmH1:

10cm【例】某品牌洗滌劑在它的產(chǎn)品說(shuō)明書(shū)中聲稱(chēng):平均凈含量不少于500克。從消費(fèi)者的利益出發(fā),有關(guān)研究人員要通過(guò)抽檢其中的一批產(chǎn)品來(lái)驗(yàn)證該產(chǎn)品制造商的說(shuō)明是否屬實(shí)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)提出假設(shè)解:研究者抽檢的意圖是傾向于證實(shí)這種洗滌劑的平均凈含量并不符合說(shuō)明書(shū)中的陳述。建立的原假設(shè)和備擇假設(shè)為

H0:

500H1:

<500500g【例】一家研究機(jī)構(gòu)估計(jì),某城市中家庭擁有汽車(chē)的比率超過(guò)30%。為驗(yàn)證這一估計(jì)是否正確,該研究機(jī)構(gòu)隨機(jī)抽取了一個(gè)樣本進(jìn)行檢驗(yàn)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)提出假設(shè)解:研究者想收集證據(jù)予以支持的假設(shè)是“該城市中家庭擁有汽車(chē)的比率超過(guò)30%”。建立的原假設(shè)和備擇假設(shè)為

H0:

30%H1:

30%原假設(shè)和備擇假設(shè)是一個(gè)完備事件組,而且相互對(duì)立在一項(xiàng)假設(shè)檢驗(yàn)中,原假設(shè)和備擇假設(shè)必有一個(gè)成立,而且只有一個(gè)成立先確定備擇假設(shè),再確定原假設(shè)等號(hào)“=”總是放在原假設(shè)上因研究目的不同,對(duì)同一問(wèn)題可能提出不同的假設(shè)(也可能得出不同的結(jié)論)提出假設(shè)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)備擇假設(shè)沒(méi)有特定的方向性,并含有符號(hào)“”的假設(shè)檢驗(yàn),稱(chēng)為雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)(two-tailedtest)備擇假設(shè)具有特定的方向性,并含有符號(hào)“>”或“<”的假設(shè)檢驗(yàn),稱(chēng)為單側(cè)檢驗(yàn)或單尾檢驗(yàn)(one-tailedtest)備擇假設(shè)的方向?yàn)椤?lt;”,稱(chēng)為左側(cè)檢驗(yàn)

備擇假設(shè)的方向?yàn)椤?gt;”,稱(chēng)為右側(cè)檢驗(yàn)

雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)假設(shè)雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)原假設(shè)H0:m

=m0H0:m

m0H0:m

m0備擇假設(shè)H1:m

≠m0H1:m<m0H1:m>m0兩類(lèi)錯(cuò)誤與顯著性水平假設(shè)檢驗(yàn)中的兩類(lèi)錯(cuò)誤1. 第Ⅰ類(lèi)錯(cuò)誤(棄真錯(cuò)誤)原假設(shè)為真時(shí)拒絕原假設(shè)第Ⅰ類(lèi)錯(cuò)誤的概率記為被稱(chēng)為顯著性水平2. 第Ⅱ類(lèi)錯(cuò)誤(納偽錯(cuò)誤)原假設(shè)為假時(shí)未拒絕原假設(shè)第Ⅱ類(lèi)錯(cuò)誤的概率記為βH0:無(wú)罪假設(shè)檢驗(yàn)中的兩類(lèi)錯(cuò)誤(決策結(jié)果)陪審團(tuán)審判裁決實(shí)際情況無(wú)罪有罪無(wú)罪正確錯(cuò)誤有罪錯(cuò)誤正確H0檢驗(yàn)決策實(shí)際情況H0為真H0為假未拒絕H0正確決策(1–a)第Ⅱ類(lèi)錯(cuò)誤(b)拒絕H0第Ⅰ類(lèi)錯(cuò)誤(a)正確決策(1-b)假設(shè)檢驗(yàn)就好像一場(chǎng)審判過(guò)程統(tǒng)計(jì)檢驗(yàn)過(guò)程

錯(cuò)誤和

錯(cuò)誤的關(guān)系你不能同時(shí)減少兩類(lèi)錯(cuò)誤!和的關(guān)系就像翹翹板,小就大,大就小影響

錯(cuò)誤的因素1. 總體參數(shù)的真值隨著假設(shè)的總體參數(shù)的減少而增大2. 顯著性水平當(dāng)

減少時(shí)增大3. 總體標(biāo)準(zhǔn)差當(dāng)增大時(shí)增大4. 樣本容量n當(dāng)n減少時(shí)增大顯著性水平

(significantlevel)1. 是一個(gè)概率值2. 原假設(shè)為真時(shí),拒絕原假設(shè)的概率被稱(chēng)為抽樣分布的拒絕域3.

表示為(alpha)常用的

值有0.01,0.05,0.104. 由研究者事先確定假設(shè)檢驗(yàn)中的小概率原理什么小概率?1. 在一次試驗(yàn)中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率2. 在一次試驗(yàn)中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)3. 小概率由研究者事先確定檢驗(yàn)統(tǒng)計(jì)量與拒絕域根據(jù)樣本觀測(cè)結(jié)果計(jì)算得到的,并據(jù)以對(duì)原假設(shè)和備擇假設(shè)作出決策的某個(gè)樣本統(tǒng)計(jì)量對(duì)樣本估計(jì)量的標(biāo)準(zhǔn)化結(jié)果原假設(shè)H0為真點(diǎn)估計(jì)量的抽樣分布檢驗(yàn)統(tǒng)計(jì)量(teststatistic)

標(biāo)準(zhǔn)化的檢驗(yàn)統(tǒng)計(jì)量顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值a/2a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H01-置信水平抽樣分布顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值a/2

a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值

a/2a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(雙側(cè)檢驗(yàn))0臨界值臨界值a/2

a/2

樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(單側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(左側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平觀察到的樣本統(tǒng)計(jì)量顯著性水平和拒絕域

(左側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(右側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平觀察到的樣本統(tǒng)計(jì)量顯著性水平和拒絕域

(右側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量抽樣分布1-置信水平拒絕H0決策規(guī)則給定顯著性水平,查表得出相應(yīng)的臨界值z(mì)或z/2,t或t/2將檢驗(yàn)統(tǒng)計(jì)量的值與水平的臨界值進(jìn)行比較作出決策雙側(cè)檢驗(yàn):I統(tǒng)計(jì)量I>臨界值,拒絕H0左側(cè)檢驗(yàn):統(tǒng)計(jì)量<臨界值,拒絕H0右側(cè)檢驗(yàn):統(tǒng)計(jì)量>臨界值,拒絕H0利用P值進(jìn)行決策什么是P值?

(P-value)在原假設(shè)為真的條件下,檢驗(yàn)統(tǒng)計(jì)量的觀察值大于或等于其計(jì)算值的概率雙側(cè)檢驗(yàn)為分布中兩側(cè)面積的總和反映實(shí)際觀測(cè)到的數(shù)據(jù)與原假設(shè)H0之間不一致的程度被稱(chēng)為觀察到的(或?qū)崪y(cè)的)顯著性水平?jīng)Q策規(guī)則:若p值<,拒絕H0雙側(cè)檢驗(yàn)的P值/

2/

2Z拒絕H0拒絕H00臨界值計(jì)算出的樣本統(tǒng)計(jì)量計(jì)算出的樣本統(tǒng)計(jì)量臨界值1/2P值1/2P值左側(cè)檢驗(yàn)的P值0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值右側(cè)檢驗(yàn)的P值0臨界值a拒絕H0抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值假設(shè)檢驗(yàn)步驟的總結(jié)1.陳述原假設(shè)和備擇假設(shè)2.從所研究的總體中抽出一個(gè)隨機(jī)樣本3.確定一個(gè)適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量,并利用樣本數(shù)據(jù)算出其具體數(shù)值4.確定一個(gè)適當(dāng)?shù)娘@著性水平,并計(jì)算出其臨界值,指定拒絕域5.將統(tǒng)計(jì)量的值與臨界值進(jìn)行比較,作出決策統(tǒng)計(jì)量的值落在拒絕域,拒絕H0,否則不拒絕H0也可以直接利用P值作出決策第二節(jié)一個(gè)總體參數(shù)的檢驗(yàn)一、總體均值的檢驗(yàn)二、總體比率的檢驗(yàn)三、總體方差的檢驗(yàn)一個(gè)總體參數(shù)的檢驗(yàn)z檢驗(yàn)(單尾和雙尾)

t檢驗(yàn)(單尾和雙尾)z

檢驗(yàn)(單尾和雙尾)

2檢驗(yàn)(單尾和雙尾)均值一個(gè)總體比率方差總體均值的檢驗(yàn)總體均值的檢驗(yàn)

(作出判斷)是否已知小樣本容量n大是否已知否t檢驗(yàn)否z檢驗(yàn)是z檢驗(yàn)

是z檢驗(yàn)總體均值的檢驗(yàn)

(大樣本)總體均值的檢驗(yàn)

(大樣本)1. 假定條件正態(tài)總體或非正態(tài)總體大樣本(n30)使用z檢驗(yàn)統(tǒng)計(jì)量2

已知:2

未知:總體均值的檢驗(yàn)(2

已知)

(例題分析)H0

=255H1

255

=

0.05n

=

40臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:z01.96-1.960.025拒絕H0拒絕H00.025決策:結(jié)論:

不拒絕H0樣本提供的證據(jù)表明:該天生產(chǎn)的飲料符合標(biāo)準(zhǔn)要求總體均值的檢驗(yàn)(2

未知)

(例題分析)【例】一種機(jī)床加工的零件尺寸絕對(duì)平均誤差為1.35mm。生產(chǎn)廠家現(xiàn)采用一種新的機(jī)床進(jìn)行加工以期進(jìn)一步降低誤差。為檢驗(yàn)新機(jī)床加工的零件平均誤差與舊機(jī)床相比是否有顯著降低,從某天生產(chǎn)的零件中隨機(jī)抽取50個(gè)進(jìn)行檢驗(yàn)。利用這些樣本數(shù)據(jù),檢驗(yàn)新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比是否有顯著降低?(=0.01)左側(cè)檢驗(yàn)50個(gè)零件尺寸的誤差數(shù)據(jù)(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371.381.601.261.171.121.230.820.86總體均值的檢驗(yàn)(2

未知)

(例題分析)H0

1.35H1

<1.35=0.01n

=50臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:

拒絕H0新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比有顯著降低決策:結(jié)論:-2.33z0拒絕H00.01總體均值的檢驗(yàn)(z檢驗(yàn))

(P值的圖示)0-2.33a=0.01z拒絕H0抽樣分布1-計(jì)算出的樣本統(tǒng)計(jì)量=2.6061P值P=0.004579

總體均值的檢驗(yàn)(2

未知)

(例題分析)【例】某一小麥品種的平均產(chǎn)量為5200kg/hm2

。一家研究機(jī)構(gòu)對(duì)小麥品種進(jìn)行了改良以期提高產(chǎn)量。為檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高,隨機(jī)抽取了36個(gè)地塊進(jìn)行試種,得到的樣本平均產(chǎn)量為5275kg/hm2,標(biāo)準(zhǔn)差為120/hm2

。試檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高?(=0.05)

右側(cè)檢驗(yàn)總體均值的檢驗(yàn)(2

未知)

(例題分析)H0

5200H1

>5200

=0.05n

=

36臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:拒絕H0(P=0.000088<

=0.05)改良后的新品種產(chǎn)量有顯著提高決策:結(jié)論:z0拒絕H00.051.645總體均值的檢驗(yàn)(z檢驗(yàn))

(P值的圖示)抽樣分布P=0.000088

01.645a=0.05拒絕H01-計(jì)算出的樣本統(tǒng)計(jì)量=3.75P值總體均值的檢驗(yàn)

(小樣本)總體均值的檢驗(yàn)

(小樣本)1. 假定條件總體服從正態(tài)分布小樣本(n<

30)檢驗(yàn)統(tǒng)計(jì)量2

已知:2

未知:總體均值的檢驗(yàn)

(例題分析)【例】一種汽車(chē)配件的平均長(zhǎng)度要求為12cm,高于或低于該標(biāo)準(zhǔn)均被認(rèn)為是不合格的。汽車(chē)生產(chǎn)企業(yè)在購(gòu)進(jìn)配件時(shí),通常是經(jīng)過(guò)招標(biāo),然后對(duì)中標(biāo)的配件提供商提供的樣品進(jìn)行檢驗(yàn),以決定是否購(gòu)進(jìn)?,F(xiàn)對(duì)一個(gè)配件提供商提供的10個(gè)樣本進(jìn)行了檢驗(yàn)。假定該供貨商生產(chǎn)的配件長(zhǎng)度服從正態(tài)分布,在0.05的顯著性水平下,檢驗(yàn)該供貨商提供的配件是否符合要求?10個(gè)零件尺寸的長(zhǎng)度(cm)12.210.812.011.811.912.411.312.212.012.3總體均值的檢驗(yàn)

(例題分析)H0

=12H1

12

=0.05df=10-1=9臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:不拒絕H0該供貨商提供的零件符合要求

決策:結(jié)論:t02.262-2.2620.025拒絕

H0拒絕H00.025總體比率的檢驗(yàn)適用的數(shù)據(jù)類(lèi)型離散數(shù)據(jù)

連續(xù)數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)據(jù)品質(zhì)數(shù)據(jù)總體比率檢驗(yàn)1.假定條件總體服從二項(xiàng)分布可用正態(tài)分布來(lái)近似(大樣本)2.檢驗(yàn)的z統(tǒng)計(jì)量0為假設(shè)的總體比率總體比率的檢驗(yàn)

(例題分析)【例】一種以休閑和娛樂(lè)為主題的雜志,聲稱(chēng)其讀者群中有80%為女性。為驗(yàn)證這一說(shuō)法是否屬實(shí),某研究部門(mén)抽取了由200人組成的一個(gè)隨機(jī)樣本,發(fā)現(xiàn)有146個(gè)女性經(jīng)常閱讀該雜志。分別取顯著性水平

=0.05和=0.01

,檢驗(yàn)該雜志讀者群中女性的比率是否為80%?它們的值各是多少?雙側(cè)檢驗(yàn)總體比率的檢驗(yàn)

(例題分析)H0

=80%H1

80%

=0.05n

=200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:拒絕H0(P=0.013328<

=0.05)該雜志的說(shuō)法并不屬實(shí)

決策:結(jié)論:z01.96-1.960.025拒絕

H0拒絕

H00.025總體比率的檢驗(yàn)

(例題分析)H0

=80%H1

80%

=

0.01n

=

200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:不拒絕H0(P=0.013328>=0.01)該雜志的說(shuō)法屬實(shí)

決策:結(jié)論:z02.58-2.580.025拒絕H0拒絕H00.025總體方差的檢驗(yàn)

(2檢驗(yàn))總體方差的檢驗(yàn)

(2檢驗(yàn))

檢驗(yàn)一個(gè)總體的方差或標(biāo)準(zhǔn)差假設(shè)總體近似服從正態(tài)分布使用2分布檢驗(yàn)統(tǒng)計(jì)量樣本方差假設(shè)的總體方差總體方差的檢驗(yàn)

(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

:2=02H1:

202H0

:202H1:2<02H0:

202H1

:2>02統(tǒng)計(jì)量拒絕域P值決策

拒絕H0總體方差的檢驗(yàn)

(例題分析)【例】啤酒生產(chǎn)企業(yè)采用自動(dòng)生產(chǎn)線灌裝啤酒,每瓶的裝填量為640ml,但由于受某些不可控因素的影響,每瓶的裝填量會(huì)有差異。此時(shí),不僅每瓶的平均裝填量很重要,裝填量的方差同樣很重要。如果方差很大,會(huì)出現(xiàn)裝填量太多或太少的情況,這樣要么生產(chǎn)企業(yè)不劃算,要么消費(fèi)者不滿(mǎn)意。假定生產(chǎn)標(biāo)準(zhǔn)規(guī)定每瓶裝填量的標(biāo)準(zhǔn)差不應(yīng)超過(guò)和不應(yīng)低于4ml。企業(yè)質(zhì)檢部門(mén)抽取了10瓶啤酒進(jìn)行檢驗(yàn),得到的樣本標(biāo)準(zhǔn)差為s=3.8。試以0.10的顯著性水平檢驗(yàn)裝填量的標(biāo)準(zhǔn)差是否符合要求?朝日BEER朝日BEER朝日BEER朝日總體方差的檢驗(yàn)

(例題分析)H0

:2=42H1

:2

42

=0.10df

=

10-1=9臨界值(s):統(tǒng)計(jì)量:不拒絕H0裝填量的標(biāo)準(zhǔn)差否符合要求

2016.91903.32511/2=0.05決策:結(jié)論:第三節(jié)兩個(gè)總體參數(shù)的檢驗(yàn)一、兩個(gè)總體均值之差的檢驗(yàn)二、兩個(gè)總體比率之差的檢驗(yàn)三、兩個(gè)總體方差比的檢驗(yàn)兩個(gè)總體參數(shù)的檢驗(yàn)兩個(gè)總體參數(shù)的檢驗(yàn)z

檢驗(yàn)(大樣本)t

檢驗(yàn)(小樣本)t

檢驗(yàn)(小樣本)z檢驗(yàn)F

檢驗(yàn)獨(dú)立樣本配對(duì)樣本均值比率方差兩個(gè)總體均值之差的檢驗(yàn)

(獨(dú)立大樣本)

兩個(gè)總體均值之差的檢驗(yàn)

(獨(dú)立大樣本)1. 假定條件兩個(gè)樣本是獨(dú)立的隨機(jī)樣本正態(tài)總體或非正態(tài)總體大樣本(n130和n230)檢驗(yàn)統(tǒng)計(jì)量12

,

22

已知:12

,22

未知:兩個(gè)總體均值之差的檢驗(yàn)

(大樣本檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

:m1-m2=0H1:m1-m20

H0

:m1-m20H1:m1-m2<0H0:m1-m20

H1:m1-m2>0統(tǒng)計(jì)量12

22

已知12

22

未知拒絕域P值決策拒絕H0兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)

【例】某公司對(duì)男女職員的平均小時(shí)工資進(jìn)行了調(diào)查,獨(dú)立抽取了具有同類(lèi)工作經(jīng)驗(yàn)的男女職員的兩個(gè)隨機(jī)樣本,并記錄下兩個(gè)樣本的均值、方差等資料如右表。在顯著性水平為0.05的條件下,能否認(rèn)為男性職員與女性職員的平均小時(shí)工資存在顯著差異?

兩個(gè)樣本的有關(guān)數(shù)據(jù)

男性職員女性職員n1=44n1=32x1=75x2=70S12=64S22=42.25兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)H0

:1-2=0H1

:1-2

0

=0.05n1

=44,n2

=32臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

拒絕H0該公司男女職員的平均小時(shí)工資之間存在顯著差異

z01.96-1.960.025拒絕H0拒絕H00.025兩個(gè)總體均值之差的檢驗(yàn)

(獨(dú)立小樣本)

兩個(gè)總體均值之差的檢驗(yàn)

(12,

22

已知)假定條件兩個(gè)獨(dú)立的小樣本兩個(gè)總體都是正態(tài)分布12,

22已知檢驗(yàn)統(tǒng)計(jì)量?jī)蓚€(gè)總體均值之差的檢驗(yàn)

(12,22

未知但12=22)假定條件兩個(gè)獨(dú)立的小樣本兩個(gè)總體都是正態(tài)分布12、

22未知但相等,即12=22檢驗(yàn)統(tǒng)計(jì)量其中:自由度:兩個(gè)總體均值之差的檢驗(yàn)

(12,

22

未知且不相等1222)假定條件兩個(gè)總體都是正態(tài)分布12,

22未知且不相等,即1222樣本容量相等,即n1=n2=n檢驗(yàn)統(tǒng)計(jì)量自由度:兩個(gè)總體均值之差的檢驗(yàn)

(12,

22

未知且不相等1222)假定條件兩個(gè)總體都是正態(tài)分布12,22未知且不相等,即1222樣本容量不相等,即n1n2檢驗(yàn)統(tǒng)計(jì)量自由度:兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)【例】甲、乙兩臺(tái)機(jī)床同時(shí)加工某種同類(lèi)型的零件,已知兩臺(tái)機(jī)床加工的零件直徑(單位:cm)分別服從正態(tài)分布,并且有12=22

。為比較兩臺(tái)機(jī)床的加工精度有無(wú)顯著差異,分別獨(dú)立抽取了甲機(jī)床加工的8個(gè)零件和乙機(jī)床加工的7個(gè)零件,通過(guò)測(cè)量得到如下數(shù)據(jù)。在=0.05的顯著性水平下,樣本數(shù)據(jù)是否提供證據(jù)支持

“兩臺(tái)機(jī)床加工的零件直徑不一致”的看法??jī)膳_(tái)機(jī)床加工零件的樣本數(shù)據(jù)

(cm)甲20.519.819.720.420.120.019.019.9乙20.719.819.520.820.419.620.2兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)H0

:1-2

=0H1

:1-2

0

=

0.05n1

=8,n2

=7臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

不拒絕H0沒(méi)有理由認(rèn)為甲、乙兩臺(tái)機(jī)床加工的零件直徑有顯著差異

t02.160-2.1600.025拒絕H0拒絕H00.025兩個(gè)總體均值之差的估計(jì)

(例題分析)【例】為檢驗(yàn)兩種方法組裝產(chǎn)品所需時(shí)間的差異,分別對(duì)兩種不同的組裝方法各隨機(jī)安排12個(gè)工人,每個(gè)工人組裝一件產(chǎn)品所需的時(shí)間(分鐘)下如表。假定兩種方法組裝產(chǎn)品的時(shí)間服從正態(tài)分布,但方差未知且不相等。取顯著性水平0.05,能否認(rèn)為方法1組裝產(chǎn)品的平均數(shù)量明顯地高于方法2??jī)蓚€(gè)方法組裝產(chǎn)品所需的時(shí)間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個(gè)總體均值之差的檢驗(yàn)

(匹配樣本)

兩個(gè)總體均值之差的檢驗(yàn)

(匹配樣本)假定條件兩個(gè)總體配對(duì)差值構(gòu)成的總體服從正態(tài)分布配對(duì)差是由差值總體中隨機(jī)抽取的

數(shù)據(jù)配對(duì)或匹配(重復(fù)測(cè)量(前/后))檢驗(yàn)統(tǒng)計(jì)量樣本差值均值樣本差值標(biāo)準(zhǔn)差匹配樣本

(數(shù)據(jù)形式)

觀察序號(hào)樣本1樣本2差值1x11x21d1=x11-x212x12x22d2=x12-x22MMMMix1ix2idi

=x1i

-x2iMMMMnx1nx2ndn

=x1n-x2n兩個(gè)總體均值之差的檢驗(yàn)

(匹配樣本檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

:d=0H1:d0H0

:d0H1:d<0H0:d0

H1:d>0統(tǒng)計(jì)量拒絕域P值決策拒絕H0兩個(gè)總體均值之差的檢驗(yàn)

(例題分析)

【例】某飲料公司開(kāi)發(fā)研制出一新產(chǎn)品,為比較消費(fèi)者對(duì)新老產(chǎn)品口感的滿(mǎn)意程度,該公司隨機(jī)抽選一組消費(fèi)者(8人),每個(gè)消費(fèi)者先品嘗一種飲料,然后再品嘗另一種飲料,兩種飲料的品嘗順序是隨機(jī)的,而后每個(gè)消費(fèi)者要對(duì)兩種飲料分別進(jìn)行評(píng)分(0分~10分),評(píng)分結(jié)果如下表。取顯著性水平=0.05,該公司是否有證據(jù)認(rèn)為消費(fèi)者對(duì)兩種飲料的評(píng)分存在顯著差異??jī)煞N飲料平均等級(jí)的樣本數(shù)據(jù)新飲料54735856舊飲料66743976兩個(gè)總體比率之差的檢驗(yàn)1. 假定條件兩個(gè)總體都服從二項(xiàng)分布可以用正態(tài)分布來(lái)近似2.檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)H0:1-2=0檢驗(yàn)H0:1-2=d0兩個(gè)總體比率之差的檢驗(yàn)兩個(gè)總體比率之差的檢驗(yàn)

(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0

:1-2=0H1:1-20H0

:1-20

H1:1-2<0

H0:1-20

H1:1-2>0

統(tǒng)計(jì)量拒絕域P值決策拒絕H0兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)

【例】一所大學(xué)準(zhǔn)備采取一項(xiàng)學(xué)生在宿舍上網(wǎng)收費(fèi)的措施,為了解男女學(xué)生對(duì)這一措施的看法是否存在差異,分別抽取了200名男學(xué)生和200名女學(xué)生進(jìn)行調(diào)查,其中的一個(gè)問(wèn)題是:“你是否贊成采取上網(wǎng)收費(fèi)的措施?”其中男學(xué)生表示贊成的比率為27%,女學(xué)生表示贊成的比率為35%。調(diào)查者認(rèn)為,男學(xué)生中表示贊成的比率顯著低于女學(xué)生。取顯著性水平=0.01,樣本提供的證據(jù)是否支持調(diào)查者的看法?21netnet兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)H0

:1-2

0H1

:1-2<0

=

0.05n1=200,

n2=200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

拒絕H0(P=0.041837<

=0.05)樣本提供的證據(jù)支持調(diào)查者的看法

-1.645Z0拒絕域兩個(gè)總體比率之差的檢驗(yàn)

(例題分析)

【例】有兩種方法生產(chǎn)同一種產(chǎn)品,方法1的生產(chǎn)成本較高而次品率較低,方法2的生產(chǎn)成本較低而次品率則較高。管理人員在選擇生產(chǎn)方法時(shí),決定對(duì)兩種方法的次品率進(jìn)行比較,如方法1比方法2的次品率低8%以上,則決定采用方法1,否則就采用方法2。管理人員從方法1生產(chǎn)的產(chǎn)品中隨機(jī)抽取300個(gè),發(fā)現(xiàn)有33個(gè)次品,從方法2生產(chǎn)的產(chǎn)品中也隨機(jī)抽取300個(gè),發(fā)現(xiàn)有84個(gè)次品。用顯著性水平=0.01進(jìn)行檢驗(yàn),說(shuō)明管理人員應(yīng)決定采用哪種方法進(jìn)行生產(chǎn)??jī)蓚€(gè)總體比率之差的檢驗(yàn)

(例題分析)H0

:1-28%H1

:1-2<8%

=

0.01n1=300,n2=300臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:

拒絕H0(P=1.22E-15<

=0.05)方法1的次品率顯著低于方法2達(dá)8%,應(yīng)采用方法1進(jìn)行生產(chǎn)-2.33Z0拒絕域兩個(gè)總體方差比的檢驗(yàn)兩個(gè)總體方差比的檢驗(yàn)

(F

檢驗(yàn))1.假定條件兩個(gè)總體都服從正態(tài)分布,且方差相等兩個(gè)獨(dú)立的隨機(jī)樣本檢驗(yàn)統(tǒng)計(jì)量?jī)蓚€(gè)總體方差比的F

檢驗(yàn)

(臨界值)FF1-F拒絕H0方差比F檢驗(yàn)示意圖拒絕H0兩個(gè)總體方差比的檢驗(yàn)

(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0:12/22=1H1:

12/221H0:12/221H1:12/22<1

H0:12/221

H1:12/22>1

統(tǒng)計(jì)量拒絕域兩個(gè)總體方差比的檢驗(yàn)

(例題分析)【例】一家房地產(chǎn)開(kāi)發(fā)公司準(zhǔn)備購(gòu)進(jìn)一批燈泡,公司打算在兩個(gè)供貨商之間選擇一家購(gòu)買(mǎi)。這兩家供貨商生產(chǎn)的燈泡平均使用壽命差別不大,價(jià)格也很相近,考慮的主要因素就是燈泡使用壽命的方差大小。如果方差相同,就選擇距離較近的一家供貨商進(jìn)貨。為此,公司管理人員對(duì)兩家供貨商提供的樣品進(jìn)行了檢測(cè),得到的數(shù)據(jù)如右表。檢驗(yàn)兩家供貨商燈泡使用壽命的方差是否有顯著差異

(=0.05)兩家供貨商燈泡使用壽命數(shù)據(jù)樣本1650569622630596637628706617624563580711480688723651569709632樣本2568540596555496646607562589636529584681539617統(tǒng)計(jì)結(jié)論中拒絕與接受的含義

在假設(shè)檢驗(yàn)中,對(duì)棄真的概率進(jìn)行了控制,而對(duì)納偽的概率并沒(méi)有嚴(yán)加控制。當(dāng)H0遭到拒絕時(shí),有非常大的把握說(shuō)這個(gè)結(jié)論是正確的。當(dāng)H0不被拒絕時(shí),只能說(shuō)沒(méi)有足夠的證據(jù)來(lái)懷疑H0

,而不能肯定H0是完全正確的。在應(yīng)用回歸分析、方差分析等統(tǒng)計(jì)分析手段時(shí),對(duì)實(shí)驗(yàn)數(shù)據(jù)有一定的要求,即:樣本對(duì)總體的代表性和樣本遵從特定的檢驗(yàn)方法的要求。因此,在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析之前,必須對(duì)實(shí)驗(yàn)數(shù)據(jù)本身進(jìn)行檢驗(yàn)與處理,使其符合統(tǒng)計(jì)分析的要求。回歸分析對(duì)原始數(shù)據(jù)的要求原始數(shù)據(jù)必須相互獨(dú)立獨(dú)立性原始數(shù)據(jù)必須來(lái)自正態(tài)總體正態(tài)性原始數(shù)據(jù)須合理合理性原始數(shù)據(jù)各組之間的方差必須一致等方差性獨(dú)立性、正態(tài)性、合理性和方差一致性檢驗(yàn)的共性采用假設(shè)檢驗(yàn)方法,檢驗(yàn)步驟和過(guò)程相似各自有很多種檢驗(yàn)方法(注意每種方法的特點(diǎn))注意每種方法的需要滿(mǎn)足的前提對(duì)于同樣樣本的數(shù)據(jù)采用不同的方法可能會(huì)有不同的結(jié)論第四節(jié)正態(tài)分布的概念和特征一、正態(tài)分布(normaldistribution)的概念A(yù).DeMoivre:德國(guó)數(shù)學(xué)家和天文學(xué)家Gauss:高斯(JohannCarlFriedrichGau?(Gauss)(1777-1855),德國(guó)著名數(shù)學(xué)家、物理學(xué)家、天文學(xué)家、大地測(cè)量學(xué)家。高斯被認(rèn)為是最重要的數(shù)學(xué)家,并有“數(shù)學(xué)王子”的美譽(yù)。

正態(tài)分布圖形

例數(shù)更多,分組更細(xì)頻數(shù)分布圖全部觀察對(duì)象BellShaped’Symmetrical自然學(xué)科很多資料符合正態(tài)分布兩頭低,中間高,左右對(duì)稱(chēng),呈鐘型的單峰曲線。

二、正態(tài)分布的特征

1、連續(xù)型隨機(jī)變量及其概率分布變量—研究指標(biāo),身高,體重等隨機(jī)變量—可以等于任意數(shù),不確定的值連續(xù)型—-∽≤X≤+∽,中途不間斷,即包含小數(shù)離散型—中途間斷,即只有整數(shù),沒(méi)有小數(shù)2、連續(xù)型隨機(jī)變量的分布函數(shù)二、正態(tài)分布的特征

(1)概率密度函數(shù)(曲線的高度)(2)概率分布函數(shù)(曲線的面積)σ—總體標(biāo)準(zhǔn)差μ—總體均數(shù)π—圓周率,3.14159….(3)正態(tài)分布特征⑴曲線在橫軸上方均數(shù)處最高;⑵以均數(shù)為中心,左右對(duì)稱(chēng);⑶正態(tài)分布有兩個(gè)參數(shù):位置參數(shù)μ

、形狀參數(shù)σ

⑷正態(tài)分布曲線下的面積有一定的分布規(guī)律。

二、正態(tài)分布的特征

正態(tài)分布的兩個(gè)參數(shù)(1)μ-位置參數(shù):當(dāng)σ一定時(shí),μ越大,曲線越向右移動(dòng);μ越小,曲線越向左移動(dòng)。(2)σ-離散度參數(shù),決定曲線的形態(tài):當(dāng)μ一定時(shí),

σ越大,表示數(shù)據(jù)越分散,曲線越“胖”;

σ越小,表示數(shù)據(jù)越集中,曲線越“瘦”。正態(tài)分布的兩個(gè)參數(shù)正態(tài)曲線下面積分布規(guī)律

無(wú)論μσ取什么值,正態(tài)曲線與橫軸間的面積總等于1面積總等于1這個(gè)面積等于多少?-∞+∞μx熟記下列常用的曲線下面積分布規(guī)律:

1、μ±σ的區(qū)間占總面積的68.27%

2、μ±1.96σ的區(qū)間占總面積的95%

3、μ±2.58σ的區(qū)間占總面積的99%質(zhì)量控制

+2S+3S上控制線下控制線警戒線警戒線

-2S

-3S第五節(jié)標(biāo)準(zhǔn)正態(tài)分布及其應(yīng)用1、標(biāo)準(zhǔn)正態(tài)分布與標(biāo)準(zhǔn)化變換

正態(tài)分布是一個(gè)分布族。對(duì)應(yīng)于不同的參數(shù)μ和σ會(huì)產(chǎn)生不同位置不同形狀的正態(tài)分布。(1)概率密度函數(shù)(曲線的高度)(2)概率分布函數(shù)(曲線的面積)σ—總體標(biāo)準(zhǔn)差μ—總體均數(shù)π—圓周率,3.14159….這個(gè)面積等于多少?-∞+∞μx為了應(yīng)用方便,令u服從均數(shù)為0、標(biāo)準(zhǔn)差為1的正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布u變換當(dāng)μ和σ未知時(shí),用和s來(lái)估計(jì)u值。標(biāo)準(zhǔn)正態(tài)分布:凡均數(shù)為0、標(biāo)準(zhǔn)差為1的正態(tài)分布。所有的正態(tài)分布,經(jīng)u變換后,都可以轉(zhuǎn)為標(biāo)準(zhǔn)正態(tài)分布。2、標(biāo)準(zhǔn)正態(tài)分布表-∞-3-2-10+1+2+3+∞Φ(u)附表Ⅰ

查表確定標(biāo)準(zhǔn)正態(tài)分布曲線下的面積時(shí),必須注意:

(1)u變換當(dāng)μ,σ已知時(shí),先按u變換公式求得u值,再用u值查表;

當(dāng)μ,σ未知時(shí),用樣本均數(shù)和樣本標(biāo)準(zhǔn)差s代替求u值。

(2)查表時(shí),可以利用標(biāo)準(zhǔn)正態(tài)分布的兩個(gè)特征:

a.曲線下對(duì)稱(chēng)于0的區(qū)間,面積相等;

b.曲線下橫軸上的總面積為100%或1。

例求x1=μ-1.96σ與x2=μ+1.96σ區(qū)間的面積。查附表,φ1(-1.96)=0.025,φ2(1.96)=1-φ(-1.96)=1-0.025=0.975,區(qū)間面積φ=φ2-φ1=0.975-0.025=0.95=95%第六節(jié)卡方分布擬合檢驗(yàn)如,某鐘表廠對(duì)生產(chǎn)的鐘進(jìn)行精確性檢查,抽取100個(gè)鐘作試驗(yàn),撥準(zhǔn)后隔24小時(shí)以后進(jìn)行檢查,將每個(gè)鐘的誤差(快或慢)按秒記錄下來(lái).問(wèn)該廠生產(chǎn)的鐘的誤差是否服從正態(tài)分布?再如,某工廠制造一批骰子,聲稱(chēng)它是均勻的.為檢驗(yàn)骰子是否均勻,要把骰子實(shí)地投擲若干次,統(tǒng)計(jì)各點(diǎn)出現(xiàn)的頻率與1/6的差距.也就是說(shuō),在投擲中,出現(xiàn)1點(diǎn),2點(diǎn),…,6點(diǎn)的概率都應(yīng)是1/6.得到的數(shù)據(jù)能否說(shuō)明“骰子均勻”的假設(shè)是可信的?問(wèn)題是:K.皮爾遜這是一項(xiàng)很重要的工作,不少人把它視為近代統(tǒng)計(jì)學(xué)的開(kāi)端.

解決這類(lèi)問(wèn)題的工具是英國(guó)統(tǒng)計(jì)學(xué)家K.皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂

檢驗(yàn)法.

檢驗(yàn)法是在總體X的分布未知時(shí),根據(jù)來(lái)自總體的樣本,檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法.

H0:總體X的分布函數(shù)為F(x)

然后根據(jù)樣本的經(jīng)驗(yàn)分布和所假設(shè)的理論分布之間的吻合程度來(lái)決定是否接受原假設(shè).使用

對(duì)總體分布進(jìn)行檢驗(yàn)時(shí),我們先提出原假設(shè):檢驗(yàn)法這種檢驗(yàn)通常稱(chēng)作擬合優(yōu)度檢驗(yàn),它是一種非參數(shù)檢驗(yàn).

在用

檢驗(yàn)假設(shè)H0時(shí),若在H0下分布類(lèi)型已知,但其參數(shù)未知,這時(shí)需要先用極大似然估計(jì)法估計(jì)參數(shù),然后作檢驗(yàn).檢驗(yàn)法分布擬合的

的基本原理和步驟如下:檢驗(yàn)法3.根據(jù)所假設(shè)的理論分布,可以算出總體X的值落入每個(gè)Ai的概率pi,于是npi就是落入Ai的樣本值的理論頻數(shù).1.將總體X的取值范圍分成k個(gè)互不重迭的小區(qū)間,記作A1,A2,…,Ak.2.把落入第i個(gè)小區(qū)間Ai的樣本值的個(gè)數(shù)記作fi

,稱(chēng)為實(shí)測(cè)頻數(shù).所有實(shí)測(cè)頻數(shù)之和f1+f2+…+fk等于樣本容量n.標(biāo)志著經(jīng)驗(yàn)分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計(jì)量表示經(jīng)驗(yàn)分布與理論分布之間的差異:統(tǒng)計(jì)量的分布是什么?在理論分布已知的條件下,npi是常量實(shí)測(cè)頻數(shù)理論頻數(shù)皮爾遜證明了如下定理:

若原假設(shè)中的理論分布F(x)已經(jīng)完全給定,那么當(dāng)時(shí),統(tǒng)計(jì)量的分布漸近(k-1)個(gè)自由度的分布.

如果理論分布F(x)中有r個(gè)未知參數(shù)需用相應(yīng)的估計(jì)量來(lái)代替,那么當(dāng)時(shí),統(tǒng)計(jì)量的分布漸近(k-r-1)個(gè)自由度的分布.

為了便于理解,我們對(duì)定理作一點(diǎn)直觀的說(shuō)明.

如果根據(jù)所給的樣本值X1,X2,…,Xn算得統(tǒng)計(jì)量的實(shí)測(cè)值落入拒絕域,則拒絕原假設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè).得拒絕域:(不需估計(jì)參數(shù))(估計(jì)r個(gè)參數(shù))查分布表可得臨界值,使得

根據(jù)這個(gè)定理,對(duì)給定的顯著性水平,

皮爾遜定理是在n無(wú)限增大時(shí)推導(dǎo)出來(lái)的,因而在使用時(shí)要注意n要足夠大,以及npi

不太小這兩個(gè)條件.

根據(jù)計(jì)算實(shí)踐,要求n不小于50,以及npi

都不小于5.否則應(yīng)適當(dāng)合并區(qū)間,使npi滿(mǎn)足這個(gè)要求.143一、采用卡方檢驗(yàn)進(jìn)行正態(tài)性檢驗(yàn)144分組不同,擬合的結(jié)果可能不同。需要有足夠的樣本含量。

第七節(jié)W檢驗(yàn)方法對(duì)于樣本量較小(50n8)的情況,可以用Shapiro—Wilk檢驗(yàn)代替偏度一峰度檢驗(yàn)。與偏度一峰度檢驗(yàn)不同的是,Shapiro—Wilk檢驗(yàn)對(duì)偏度和峰度以外的非正態(tài)性特征也敏感,但不能區(qū)分總體對(duì)正態(tài)分布的偏離表現(xiàn)在什么方面,只是籠統(tǒng)地判斷一個(gè)樣本是否來(lái)自正態(tài)分布的總體。其統(tǒng)計(jì)假設(shè)為:H0,樣本來(lái)自正態(tài)分布的總體,H1:樣本來(lái)自非正態(tài)分布的總體。

對(duì)樣本量等于n的一個(gè)樣本,將全體觀測(cè)值按從小到大次序排列,得:

對(duì)該樣本進(jìn)行Shapiro-Wilk檢驗(yàn)的第一步是根據(jù)樣本量n從附表A6中查取n個(gè)Shapiro-Wilk檢驗(yàn)系數(shù),記為k(w)。Shapiro—Wilk檢驗(yàn)的統(tǒng)計(jì)量為:

其中,當(dāng)n為偶數(shù)時(shí),當(dāng)n為奇數(shù)時(shí),根據(jù)和n查表(附表A7)可知w的臨界值Z。由此可作出判斷:

當(dāng)w<Z時(shí),拒絕H0,即分布不呈正態(tài)。

當(dāng)wZ時(shí),不拒絕H0,即分布呈正態(tài)。[例]測(cè)得某種紗的伸長(zhǎng)率(%)的數(shù)據(jù)為:

15.2,15.4,14.8,13.0,14.2,14.6,14.5,14.2。問(wèn)其是否符合正態(tài)分布。解:1.將各值按大小順序排列:

x1,

x2,

x3,

x4,

x5,x6,x7,x8

13.0,14.2,14.2,14.5,14.6,14.8,15.2,15.4

其平均值為:

2計(jì)算統(tǒng)計(jì)量W

因?yàn)閚為偶數(shù),所以查附表A6可知:1(w)=0.6052,2(w)=0.3164,3(w)=0.1743,3(w)=0.0561。

查附表A7知:Z(=0.05)為Z0.05=0.818作出統(tǒng)計(jì)判斷:W>Z

,不拒絕H0,即數(shù)據(jù)呈正態(tài)分布。。造成試驗(yàn)結(jié)果非正態(tài)性的原因有兩種:一是總體本身就不是正態(tài)分布的,二是樣本中包含個(gè)別異常值。

對(duì)于非正態(tài)分布的總體,做適當(dāng)數(shù)據(jù)變換(如對(duì)對(duì)數(shù)正態(tài)分布總體做對(duì)數(shù)變換,對(duì)左偏或右偏數(shù)據(jù)作Box—Cox變換等),或者改用非參數(shù)檢驗(yàn)方法都是可行的選擇。在有異常值存在的情況下,則應(yīng)將其先剔除再作方差分析。第八節(jié)獨(dú)立性檢驗(yàn)

保證個(gè)體的獨(dú)立性就是要使所采集的每個(gè)樣品與上一個(gè)樣本沒(méi)有關(guān)聯(lián)。一個(gè)樣本是否能代表它的總體,關(guān)鍵在于采樣的隨機(jī)性。非隨機(jī)采樣一方面可能導(dǎo)致樣本特征與總體特征的不一致,另一方面也可能反映在個(gè)體的非獨(dú)立性方面,樣本中個(gè)體的獨(dú)立性是指它們的采集過(guò)程完全不受其它個(gè)體的干擾。對(duì)那些分布在某一時(shí)間或空間范圍內(nèi)的個(gè)體而言,個(gè)體間的自相關(guān)特性是導(dǎo)致采樣非獨(dú)立性的重要原因。獨(dú)立性檢驗(yàn)兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)問(wèn)題。在日常生活中,我們常常關(guān)心分類(lèi)變量之間是否有關(guān)系:例如,吸煙是否與患肺癌有關(guān)系?性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等。

吸煙與肺癌列聯(lián)表不患肺癌患肺癌總計(jì)不吸煙7775427817吸煙2099492148總計(jì)9874919965為了調(diào)查吸煙是否對(duì)肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了9965人,得到如下結(jié)果(單位:人)列聯(lián)表在不吸煙者中患肺癌的比重是

在吸煙者中患肺癌的比重是

說(shuō)明:吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大。0.54%2.28%探究不患肺癌患肺癌總計(jì)不吸煙7775427817吸煙2099492148總計(jì)98749199651、列聯(lián)表2、三維柱形圖3、二維條形圖不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出各個(gè)頻數(shù)的相對(duì)大小。從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例。通過(guò)圖形直觀判斷兩個(gè)分類(lèi)變量是否相關(guān):不吸煙吸煙患肺癌比例不患肺癌比例4、等高條形圖等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例。

上面我們通過(guò)分析數(shù)據(jù)和圖形,得到的直觀印象是吸煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要用統(tǒng)計(jì)觀點(diǎn)來(lái)考察這個(gè)問(wèn)題。

現(xiàn)在想要知道能夠以多大的把握認(rèn)為“吸煙與患肺癌有關(guān)”,為此先假設(shè)

H0:吸煙與患肺癌沒(méi)有關(guān)系.不患肺癌患肺癌總計(jì)不吸煙aba+b吸煙cdc+d總計(jì)a+cb+da+b+c+d把表中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表

用A表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒(méi)有關(guān)系”等價(jià)于“吸煙與患肺癌獨(dú)立”,即假設(shè)H0等價(jià)于P(AB)=P(A)P(B).因此|ad-bc|越小,說(shuō)明吸煙與患肺癌之間關(guān)系越弱;

|ad-bc|越大,說(shuō)明吸煙與患肺癌之間關(guān)系越強(qiáng)。不患肺癌患肺癌總計(jì)不吸煙aba+b吸煙cdc+d總計(jì)a+cb+da+b+c+d在表中,a恰好為事件AB發(fā)生的頻數(shù);a+b和a+c恰好分別為事件A和B發(fā)生的頻數(shù)。由于頻率接近于概率,所以在H0成立的條件下應(yīng)該有

為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于上述分析,我們構(gòu)造一個(gè)隨機(jī)變量-----卡方統(tǒng)計(jì)量(1)

若H0成立,即“吸煙與患肺癌沒(méi)有關(guān)系”,則K2應(yīng)很小。根據(jù)表3-7中的數(shù)據(jù),利用公式(1)計(jì)算得到K2的觀測(cè)值為:那么這個(gè)值到底能告訴我們什么呢?(2)

獨(dú)立性檢驗(yàn)在H0成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率

即在H0成立的情況下,K2的值大于6.635的概率非常小,近似于0.01。

也就是說(shuō),在H0成立的情況下,對(duì)隨機(jī)變量K2進(jìn)行多次觀測(cè),觀測(cè)值超過(guò)6.635的頻率約為0.01。思考

答:判斷出錯(cuò)的概率為0.01。判斷是否成立的規(guī)則如果,就判斷不成立,即認(rèn)為吸煙與患肺癌有關(guān)系;否則,就判斷成立,即認(rèn)為吸煙與患肺癌有關(guān)系。獨(dú)立性檢驗(yàn)的定義

上面這種利用隨機(jī)變量K2來(lái)確定在多大程度上可以認(rèn)為“兩個(gè)分類(lèi)變量有關(guān)系”的方法,稱(chēng)為兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)。在該規(guī)則下,把結(jié)論“成立”錯(cuò)判成“不成立”的概率不會(huì)差過(guò)即有99%的把握認(rèn)為不成立。獨(dú)立性檢驗(yàn)的基本思想(類(lèi)似反證法)(1)假設(shè)結(jié)論不成立,即“兩個(gè)分類(lèi)變量沒(méi)有關(guān)系”.(2)在此假設(shè)下我們所構(gòu)造的隨機(jī)變量K2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論