第2章數據檢驗與處理(假設檢驗)2017_第1頁
第2章數據檢驗與處理(假設檢驗)2017_第2頁
第2章數據檢驗與處理(假設檢驗)2017_第3頁
第2章數據檢驗與處理(假設檢驗)2017_第4頁
第2章數據檢驗與處理(假設檢驗)2017_第5頁
已閱讀5頁,還剩175頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2章試驗數據檢驗與處理

(假設檢驗)假設檢驗的基本問題

一個總體參數的檢驗

兩個總體參數的檢驗假設檢驗在統計方法中的地位統計方法描述統計推斷統計參數估計假設檢驗第一節(jié)假設檢驗的基本問題一、假設的陳述二、兩類錯誤與顯著性水平三、統計量與拒絕域四、利用P值進行決策假設的陳述什么是假設?

對總體參數的具體數值所作的陳述(一個判斷)總體參數包括總體均值、比率、方差等分析之前必須陳述我認為這種新藥的療效比原有的藥物更有效!什么是假設檢驗?

先對總體的參數(或分布形式)提出某種假設,然后利用樣本信息判斷假設是否成立的過程有參數檢驗和非參數檢驗邏輯上運用反證法,統計上依據小概率原理假設檢驗的基本思想...因此我們拒絕假設

=50...如果這是總體的假設均值樣本均值m=50抽樣分布H0這個值不像我們應該得到的樣本均值...20總體假設檢驗的過程抽取隨機樣本均值

x=20我認為白領的平均收入是50萬元提出假設

拒絕假設別無選擇!

作出決策原假設與備擇假設原假設研究者想收集證據予以反對的假設又稱“0假設”總是有符號,

或表示為H0H0:

=某一數值指定為符號=,或例如,H0:

10cm研究者想收集證據予以支持的假設也稱“研究假設”總是有符號,

或表示為H1H1:

<某一數值,或某一數值例如,H1:

<10cm,或10cm備擇假設【例】一種零件的生產標準是直徑應為10cm,為對生產過程進行控制,質量監(jiān)測人員定期對一臺加工機床檢查,確定這臺機床生產的零件是否符合標準要求。如果零件的平均直徑大于或小于10cm,則表明生產過程不正常,必須進行調整。試陳述用來檢驗生產過程是否正常的原假設和被擇假設提出假設解:研究者想收集證據予以證明的假設應該是“生產過程不正?!?。建立的原假設和備擇假設為

H0:

10cmH1:

10cm【例】某品牌洗滌劑在它的產品說明書中聲稱:平均凈含量不少于500克。從消費者的利益出發(fā),有關研究人員要通過抽檢其中的一批產品來驗證該產品制造商的說明是否屬實。試陳述用于檢驗的原假設與備擇假設提出假設解:研究者抽檢的意圖是傾向于證實這種洗滌劑的平均凈含量并不符合說明書中的陳述。建立的原假設和備擇假設為

H0:

500H1:

<500500g【例】一家研究機構估計,某城市中家庭擁有汽車的比率超過30%。為驗證這一估計是否正確,該研究機構隨機抽取了一個樣本進行檢驗。試陳述用于檢驗的原假設與備擇假設提出假設解:研究者想收集證據予以支持的假設是“該城市中家庭擁有汽車的比率超過30%”。建立的原假設和備擇假設為

H0:

30%H1:

30%原假設和備擇假設是一個完備事件組,而且相互對立在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立先確定備擇假設,再確定原假設等號“=”總是放在原假設上因研究目的不同,對同一問題可能提出不同的假設(也可能得出不同的結論)提出假設雙側檢驗與單側檢驗備擇假設沒有特定的方向性,并含有符號“”的假設檢驗,稱為雙側檢驗或雙尾檢驗(two-tailedtest)備擇假設具有特定的方向性,并含有符號“>”或“<”的假設檢驗,稱為單側檢驗或單尾檢驗(one-tailedtest)備擇假設的方向為“<”,稱為左側檢驗

備擇假設的方向為“>”,稱為右側檢驗

雙側檢驗與單側檢驗雙側檢驗與單側檢驗假設雙側檢驗單側檢驗左側檢驗右側檢驗原假設H0:m

=m0H0:m

m0H0:m

m0備擇假設H1:m

≠m0H1:m<m0H1:m>m0兩類錯誤與顯著性水平假設檢驗中的兩類錯誤1. 第Ⅰ類錯誤(棄真錯誤)原假設為真時拒絕原假設第Ⅰ類錯誤的概率記為被稱為顯著性水平2. 第Ⅱ類錯誤(納偽錯誤)原假設為假時未拒絕原假設第Ⅱ類錯誤的概率記為βH0:無罪假設檢驗中的兩類錯誤(決策結果)陪審團審判裁決實際情況無罪有罪無罪正確錯誤有罪錯誤正確H0檢驗決策實際情況H0為真H0為假未拒絕H0正確決策(1–a)第Ⅱ類錯誤(b)拒絕H0第Ⅰ類錯誤(a)正確決策(1-b)假設檢驗就好像一場審判過程統計檢驗過程

錯誤和

錯誤的關系你不能同時減少兩類錯誤!和的關系就像翹翹板,小就大,大就小影響

錯誤的因素1. 總體參數的真值隨著假設的總體參數的減少而增大2. 顯著性水平當

減少時增大3. 總體標準差當增大時增大4. 樣本容量n當n減少時增大顯著性水平

(significantlevel)1. 是一個概率值2. 原假設為真時,拒絕原假設的概率被稱為抽樣分布的拒絕域3.

表示為(alpha)常用的

值有0.01,0.05,0.104. 由研究者事先確定假設檢驗中的小概率原理什么小概率?1. 在一次試驗中,一個幾乎不可能發(fā)生的事件發(fā)生的概率2. 在一次試驗中小概率事件一旦發(fā)生,我們就有理由拒絕原假設3. 小概率由研究者事先確定檢驗統計量與拒絕域根據樣本觀測結果計算得到的,并據以對原假設和備擇假設作出決策的某個樣本統計量對樣本估計量的標準化結果原假設H0為真點估計量的抽樣分布檢驗統計量(teststatistic)

標準化的檢驗統計量顯著性水平和拒絕域

(雙側檢驗)0臨界值臨界值a/2a/2

樣本統計量拒絕H0拒絕H01-置信水平抽樣分布顯著性水平和拒絕域

(雙側檢驗)0臨界值臨界值a/2

a/2

樣本統計量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(雙側檢驗)0臨界值臨界值

a/2a/2

樣本統計量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(雙側檢驗)0臨界值臨界值a/2

a/2

樣本統計量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(單側檢驗)0臨界值a樣本統計量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(左側檢驗)0臨界值a樣本統計量拒絕H0抽樣分布1-置信水平觀察到的樣本統計量顯著性水平和拒絕域

(左側檢驗)0臨界值a樣本統計量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域

(右側檢驗)0臨界值a樣本統計量拒絕H0抽樣分布1-置信水平觀察到的樣本統計量顯著性水平和拒絕域

(右側檢驗)0臨界值a樣本統計量抽樣分布1-置信水平拒絕H0決策規(guī)則給定顯著性水平,查表得出相應的臨界值z或z/2,t或t/2將檢驗統計量的值與水平的臨界值進行比較作出決策雙側檢驗:I統計量I>臨界值,拒絕H0左側檢驗:統計量<臨界值,拒絕H0右側檢驗:統計量>臨界值,拒絕H0利用P值進行決策什么是P值?

(P-value)在原假設為真的條件下,檢驗統計量的觀察值大于或等于其計算值的概率雙側檢驗為分布中兩側面積的總和反映實際觀測到的數據與原假設H0之間不一致的程度被稱為觀察到的(或實測的)顯著性水平決策規(guī)則:若p值<,拒絕H0雙側檢驗的P值/

2/

2Z拒絕H0拒絕H00臨界值計算出的樣本統計量計算出的樣本統計量臨界值1/2P值1/2P值左側檢驗的P值0臨界值a樣本統計量拒絕H0抽樣分布1-置信水平計算出的樣本統計量P值右側檢驗的P值0臨界值a拒絕H0抽樣分布1-置信水平計算出的樣本統計量P值假設檢驗步驟的總結1.陳述原假設和備擇假設2.從所研究的總體中抽出一個隨機樣本3.確定一個適當的檢驗統計量,并利用樣本數據算出其具體數值4.確定一個適當的顯著性水平,并計算出其臨界值,指定拒絕域5.將統計量的值與臨界值進行比較,作出決策統計量的值落在拒絕域,拒絕H0,否則不拒絕H0也可以直接利用P值作出決策第二節(jié)一個總體參數的檢驗一、總體均值的檢驗二、總體比率的檢驗三、總體方差的檢驗一個總體參數的檢驗z檢驗(單尾和雙尾)

t檢驗(單尾和雙尾)z

檢驗(單尾和雙尾)

2檢驗(單尾和雙尾)均值一個總體比率方差總體均值的檢驗總體均值的檢驗

(作出判斷)是否已知小樣本容量n大是否已知否t檢驗否z檢驗是z檢驗

是z檢驗總體均值的檢驗

(大樣本)總體均值的檢驗

(大樣本)1. 假定條件正態(tài)總體或非正態(tài)總體大樣本(n30)使用z檢驗統計量2

已知:2

未知:總體均值的檢驗(2

已知)

(例題分析)H0

=255H1

255

=

0.05n

=

40臨界值(c):檢驗統計量:z01.96-1.960.025拒絕H0拒絕H00.025決策:結論:

不拒絕H0樣本提供的證據表明:該天生產的飲料符合標準要求總體均值的檢驗(2

未知)

(例題分析)【例】一種機床加工的零件尺寸絕對平均誤差為1.35mm。生產廠家現采用一種新的機床進行加工以期進一步降低誤差。為檢驗新機床加工的零件平均誤差與舊機床相比是否有顯著降低,從某天生產的零件中隨機抽取50個進行檢驗。利用這些樣本數據,檢驗新機床加工的零件尺寸的平均誤差與舊機床相比是否有顯著降低?(=0.01)左側檢驗50個零件尺寸的誤差數據(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371.381.601.261.171.121.230.820.86總體均值的檢驗(2

未知)

(例題分析)H0

1.35H1

<1.35=0.01n

=50臨界值(c):檢驗統計量:

拒絕H0新機床加工的零件尺寸的平均誤差與舊機床相比有顯著降低決策:結論:-2.33z0拒絕H00.01總體均值的檢驗(z檢驗)

(P值的圖示)0-2.33a=0.01z拒絕H0抽樣分布1-計算出的樣本統計量=2.6061P值P=0.004579

總體均值的檢驗(2

未知)

(例題分析)【例】某一小麥品種的平均產量為5200kg/hm2

。一家研究機構對小麥品種進行了改良以期提高產量。為檢驗改良后的新品種產量是否有顯著提高,隨機抽取了36個地塊進行試種,得到的樣本平均產量為5275kg/hm2,標準差為120/hm2

。試檢驗改良后的新品種產量是否有顯著提高?(=0.05)

右側檢驗總體均值的檢驗(2

未知)

(例題分析)H0

5200H1

>5200

=0.05n

=

36臨界值(c):檢驗統計量:拒絕H0(P=0.000088<

=0.05)改良后的新品種產量有顯著提高決策:結論:z0拒絕H00.051.645總體均值的檢驗(z檢驗)

(P值的圖示)抽樣分布P=0.000088

01.645a=0.05拒絕H01-計算出的樣本統計量=3.75P值總體均值的檢驗

(小樣本)總體均值的檢驗

(小樣本)1. 假定條件總體服從正態(tài)分布小樣本(n<

30)檢驗統計量2

已知:2

未知:總體均值的檢驗

(例題分析)【例】一種汽車配件的平均長度要求為12cm,高于或低于該標準均被認為是不合格的。汽車生產企業(yè)在購進配件時,通常是經過招標,然后對中標的配件提供商提供的樣品進行檢驗,以決定是否購進?,F對一個配件提供商提供的10個樣本進行了檢驗。假定該供貨商生產的配件長度服從正態(tài)分布,在0.05的顯著性水平下,檢驗該供貨商提供的配件是否符合要求?10個零件尺寸的長度(cm)12.210.812.011.811.912.411.312.212.012.3總體均值的檢驗

(例題分析)H0

=12H1

12

=0.05df=10-1=9臨界值(c):檢驗統計量:不拒絕H0該供貨商提供的零件符合要求

決策:結論:t02.262-2.2620.025拒絕

H0拒絕H00.025總體比率的檢驗適用的數據類型離散數據

連續(xù)數據數值型數據數據品質數據總體比率檢驗1.假定條件總體服從二項分布可用正態(tài)分布來近似(大樣本)2.檢驗的z統計量0為假設的總體比率總體比率的檢驗

(例題分析)【例】一種以休閑和娛樂為主題的雜志,聲稱其讀者群中有80%為女性。為驗證這一說法是否屬實,某研究部門抽取了由200人組成的一個隨機樣本,發(fā)現有146個女性經常閱讀該雜志。分別取顯著性水平

=0.05和=0.01

,檢驗該雜志讀者群中女性的比率是否為80%?它們的值各是多少?雙側檢驗總體比率的檢驗

(例題分析)H0

=80%H1

80%

=0.05n

=200臨界值(c):檢驗統計量:拒絕H0(P=0.013328<

=0.05)該雜志的說法并不屬實

決策:結論:z01.96-1.960.025拒絕

H0拒絕

H00.025總體比率的檢驗

(例題分析)H0

=80%H1

80%

=

0.01n

=

200臨界值(c):檢驗統計量:不拒絕H0(P=0.013328>=0.01)該雜志的說法屬實

決策:結論:z02.58-2.580.025拒絕H0拒絕H00.025總體方差的檢驗

(2檢驗)總體方差的檢驗

(2檢驗)

檢驗一個總體的方差或標準差假設總體近似服從正態(tài)分布使用2分布檢驗統計量樣本方差假設的總體方差總體方差的檢驗

(檢驗方法的總結)假設雙側檢驗左側檢驗右側檢驗假設形式H0

:2=02H1:

202H0

:202H1:2<02H0:

202H1

:2>02統計量拒絕域P值決策

拒絕H0總體方差的檢驗

(例題分析)【例】啤酒生產企業(yè)采用自動生產線灌裝啤酒,每瓶的裝填量為640ml,但由于受某些不可控因素的影響,每瓶的裝填量會有差異。此時,不僅每瓶的平均裝填量很重要,裝填量的方差同樣很重要。如果方差很大,會出現裝填量太多或太少的情況,這樣要么生產企業(yè)不劃算,要么消費者不滿意。假定生產標準規(guī)定每瓶裝填量的標準差不應超過和不應低于4ml。企業(yè)質檢部門抽取了10瓶啤酒進行檢驗,得到的樣本標準差為s=3.8。試以0.10的顯著性水平檢驗裝填量的標準差是否符合要求?朝日BEER朝日BEER朝日BEER朝日總體方差的檢驗

(例題分析)H0

:2=42H1

:2

42

=0.10df

=

10-1=9臨界值(s):統計量:不拒絕H0裝填量的標準差否符合要求

2016.91903.32511/2=0.05決策:結論:第三節(jié)兩個總體參數的檢驗一、兩個總體均值之差的檢驗二、兩個總體比率之差的檢驗三、兩個總體方差比的檢驗兩個總體參數的檢驗兩個總體參數的檢驗z

檢驗(大樣本)t

檢驗(小樣本)t

檢驗(小樣本)z檢驗F

檢驗獨立樣本配對樣本均值比率方差兩個總體均值之差的檢驗

(獨立大樣本)

兩個總體均值之差的檢驗

(獨立大樣本)1. 假定條件兩個樣本是獨立的隨機樣本正態(tài)總體或非正態(tài)總體大樣本(n130和n230)檢驗統計量12

22

已知:12

,22

未知:兩個總體均值之差的檢驗

(大樣本檢驗方法的總結)假設雙側檢驗左側檢驗右側檢驗假設形式H0

:m1-m2=0H1:m1-m20

H0

:m1-m20H1:m1-m2<0H0:m1-m20

H1:m1-m2>0統計量12

,

22

已知12

,

22

未知拒絕域P值決策拒絕H0兩個總體均值之差的檢驗

(例題分析)

【例】某公司對男女職員的平均小時工資進行了調查,獨立抽取了具有同類工作經驗的男女職員的兩個隨機樣本,并記錄下兩個樣本的均值、方差等資料如右表。在顯著性水平為0.05的條件下,能否認為男性職員與女性職員的平均小時工資存在顯著差異?

兩個樣本的有關數據

男性職員女性職員n1=44n1=32x1=75x2=70S12=64S22=42.25兩個總體均值之差的檢驗

(例題分析)H0

:1-2=0H1

:1-2

0

=0.05n1

=44,n2

=32臨界值(c):檢驗統計量:決策:結論:

拒絕H0該公司男女職員的平均小時工資之間存在顯著差異

z01.96-1.960.025拒絕H0拒絕H00.025兩個總體均值之差的檢驗

(獨立小樣本)

兩個總體均值之差的檢驗

(12,

22

已知)假定條件兩個獨立的小樣本兩個總體都是正態(tài)分布12,

22已知檢驗統計量兩個總體均值之差的檢驗

(12,22

未知但12=22)假定條件兩個獨立的小樣本兩個總體都是正態(tài)分布12、

22未知但相等,即12=22檢驗統計量其中:自由度:兩個總體均值之差的檢驗

(12,

22

未知且不相等1222)假定條件兩個總體都是正態(tài)分布12,

22未知且不相等,即1222樣本容量相等,即n1=n2=n檢驗統計量自由度:兩個總體均值之差的檢驗

(12,

22

未知且不相等1222)假定條件兩個總體都是正態(tài)分布12,22未知且不相等,即1222樣本容量不相等,即n1n2檢驗統計量自由度:兩個總體均值之差的檢驗

(例題分析)【例】甲、乙兩臺機床同時加工某種同類型的零件,已知兩臺機床加工的零件直徑(單位:cm)分別服從正態(tài)分布,并且有12=22

。為比較兩臺機床的加工精度有無顯著差異,分別獨立抽取了甲機床加工的8個零件和乙機床加工的7個零件,通過測量得到如下數據。在=0.05的顯著性水平下,樣本數據是否提供證據支持

“兩臺機床加工的零件直徑不一致”的看法?兩臺機床加工零件的樣本數據

(cm)甲20.519.819.720.420.120.019.019.9乙20.719.819.520.820.419.620.2兩個總體均值之差的檢驗

(例題分析)H0

:1-2

=0H1

:1-2

0

=

0.05n1

=8,n2

=7臨界值(c):檢驗統計量:決策:結論:

不拒絕H0沒有理由認為甲、乙兩臺機床加工的零件直徑有顯著差異

t02.160-2.1600.025拒絕H0拒絕H00.025兩個總體均值之差的估計

(例題分析)【例】為檢驗兩種方法組裝產品所需時間的差異,分別對兩種不同的組裝方法各隨機安排12個工人,每個工人組裝一件產品所需的時間(分鐘)下如表。假定兩種方法組裝產品的時間服從正態(tài)分布,但方差未知且不相等。取顯著性水平0.05,能否認為方法1組裝產品的平均數量明顯地高于方法2?兩個方法組裝產品所需的時間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個總體均值之差的檢驗

(匹配樣本)

兩個總體均值之差的檢驗

(匹配樣本)假定條件兩個總體配對差值構成的總體服從正態(tài)分布配對差是由差值總體中隨機抽取的

數據配對或匹配(重復測量(前/后))檢驗統計量樣本差值均值樣本差值標準差匹配樣本

(數據形式)

觀察序號樣本1樣本2差值1x11x21d1=x11-x212x12x22d2=x12-x22MMMMix1ix2idi

=x1i

-x2iMMMMnx1nx2ndn

=x1n-x2n兩個總體均值之差的檢驗

(匹配樣本檢驗方法的總結)假設雙側檢驗左側檢驗右側檢驗假設形式H0

:d=0H1:d0H0

:d0H1:d<0H0:d0

H1:d>0統計量拒絕域P值決策拒絕H0兩個總體均值之差的檢驗

(例題分析)

【例】某飲料公司開發(fā)研制出一新產品,為比較消費者對新老產品口感的滿意程度,該公司隨機抽選一組消費者(8人),每個消費者先品嘗一種飲料,然后再品嘗另一種飲料,兩種飲料的品嘗順序是隨機的,而后每個消費者要對兩種飲料分別進行評分(0分~10分),評分結果如下表。取顯著性水平=0.05,該公司是否有證據認為消費者對兩種飲料的評分存在顯著差異?兩種飲料平均等級的樣本數據新飲料54735856舊飲料66743976兩個總體比率之差的檢驗1. 假定條件兩個總體都服從二項分布可以用正態(tài)分布來近似2.檢驗統計量檢驗H0:1-2=0檢驗H0:1-2=d0兩個總體比率之差的檢驗兩個總體比率之差的檢驗

(檢驗方法的總結)假設雙側檢驗左側檢驗右側檢驗假設形式H0

:1-2=0H1:1-20H0

:1-20

H1:1-2<0

H0:1-20

H1:1-2>0

統計量拒絕域P值決策拒絕H0兩個總體比率之差的檢驗

(例題分析)

【例】一所大學準備采取一項學生在宿舍上網收費的措施,為了解男女學生對這一措施的看法是否存在差異,分別抽取了200名男學生和200名女學生進行調查,其中的一個問題是:“你是否贊成采取上網收費的措施?”其中男學生表示贊成的比率為27%,女學生表示贊成的比率為35%。調查者認為,男學生中表示贊成的比率顯著低于女學生。取顯著性水平=0.01,樣本提供的證據是否支持調查者的看法?21netnet兩個總體比率之差的檢驗

(例題分析)H0

:1-2

0H1

:1-2<0

=

0.05n1=200,

n2=200臨界值(c):檢驗統計量:決策:結論:

拒絕H0(P=0.041837<

=0.05)樣本提供的證據支持調查者的看法

-1.645Z0拒絕域兩個總體比率之差的檢驗

(例題分析)

【例】有兩種方法生產同一種產品,方法1的生產成本較高而次品率較低,方法2的生產成本較低而次品率則較高。管理人員在選擇生產方法時,決定對兩種方法的次品率進行比較,如方法1比方法2的次品率低8%以上,則決定采用方法1,否則就采用方法2。管理人員從方法1生產的產品中隨機抽取300個,發(fā)現有33個次品,從方法2生產的產品中也隨機抽取300個,發(fā)現有84個次品。用顯著性水平=0.01進行檢驗,說明管理人員應決定采用哪種方法進行生產?兩個總體比率之差的檢驗

(例題分析)H0

:1-28%H1

:1-2<8%

=

0.01n1=300,n2=300臨界值(c):檢驗統計量:決策:結論:

拒絕H0(P=1.22E-15<

=0.05)方法1的次品率顯著低于方法2達8%,應采用方法1進行生產-2.33Z0拒絕域兩個總體方差比的檢驗兩個總體方差比的檢驗

(F

檢驗)1.假定條件兩個總體都服從正態(tài)分布,且方差相等兩個獨立的隨機樣本檢驗統計量兩個總體方差比的F

檢驗

(臨界值)FF1-F拒絕H0方差比F檢驗示意圖拒絕H0兩個總體方差比的檢驗

(檢驗方法的總結)假設雙側檢驗左側檢驗右側檢驗假設形式H0:12/22=1H1:

12/221H0:12/221H1:12/22<1

H0:12/221

H1:12/22>1

統計量拒絕域兩個總體方差比的檢驗

(例題分析)【例】一家房地產開發(fā)公司準備購進一批燈泡,公司打算在兩個供貨商之間選擇一家購買。這兩家供貨商生產的燈泡平均使用壽命差別不大,價格也很相近,考慮的主要因素就是燈泡使用壽命的方差大小。如果方差相同,就選擇距離較近的一家供貨商進貨。為此,公司管理人員對兩家供貨商提供的樣品進行了檢測,得到的數據如右表。檢驗兩家供貨商燈泡使用壽命的方差是否有顯著差異

(=0.05)兩家供貨商燈泡使用壽命數據樣本1650569622630596637628706617624563580711480688723651569709632樣本2568540596555496646607562589636529584681539617統計結論中拒絕與接受的含義

在假設檢驗中,對棄真的概率進行了控制,而對納偽的概率并沒有嚴加控制。當H0遭到拒絕時,有非常大的把握說這個結論是正確的。當H0不被拒絕時,只能說沒有足夠的證據來懷疑H0

,而不能肯定H0是完全正確的。在應用回歸分析、方差分析等統計分析手段時,對實驗數據有一定的要求,即:樣本對總體的代表性和樣本遵從特定的檢驗方法的要求。因此,在對實驗數據進行統計分析之前,必須對實驗數據本身進行檢驗與處理,使其符合統計分析的要求?;貧w分析對原始數據的要求原始數據必須相互獨立獨立性原始數據必須來自正態(tài)總體正態(tài)性原始數據須合理合理性原始數據各組之間的方差必須一致等方差性獨立性、正態(tài)性、合理性和方差一致性檢驗的共性采用假設檢驗方法,檢驗步驟和過程相似各自有很多種檢驗方法(注意每種方法的特點)注意每種方法的需要滿足的前提對于同樣樣本的數據采用不同的方法可能會有不同的結論第四節(jié)正態(tài)分布的概念和特征一、正態(tài)分布(normaldistribution)的概念A.DeMoivre:德國數學家和天文學家Gauss:高斯(JohannCarlFriedrichGau?(Gauss)(1777-1855),德國著名數學家、物理學家、天文學家、大地測量學家。高斯被認為是最重要的數學家,并有“數學王子”的美譽。

正態(tài)分布圖形

例數更多,分組更細頻數分布圖全部觀察對象BellShaped’Symmetrical自然學科很多資料符合正態(tài)分布兩頭低,中間高,左右對稱,呈鐘型的單峰曲線。

二、正態(tài)分布的特征

1、連續(xù)型隨機變量及其概率分布變量—研究指標,身高,體重等隨機變量—可以等于任意數,不確定的值連續(xù)型—-∽≤X≤+∽,中途不間斷,即包含小數離散型—中途間斷,即只有整數,沒有小數2、連續(xù)型隨機變量的分布函數二、正態(tài)分布的特征

(1)概率密度函數(曲線的高度)(2)概率分布函數(曲線的面積)σ—總體標準差μ—總體均數π—圓周率,3.14159….(3)正態(tài)分布特征⑴曲線在橫軸上方均數處最高;⑵以均數為中心,左右對稱;⑶正態(tài)分布有兩個參數:位置參數μ

、形狀參數σ

⑷正態(tài)分布曲線下的面積有一定的分布規(guī)律。

二、正態(tài)分布的特征

正態(tài)分布的兩個參數(1)μ-位置參數:當σ一定時,μ越大,曲線越向右移動;μ越小,曲線越向左移動。(2)σ-離散度參數,決定曲線的形態(tài):當μ一定時,

σ越大,表示數據越分散,曲線越“胖”;

σ越小,表示數據越集中,曲線越“瘦”。正態(tài)分布的兩個參數正態(tài)曲線下面積分布規(guī)律

無論μσ取什么值,正態(tài)曲線與橫軸間的面積總等于1面積總等于1這個面積等于多少?-∞+∞μx熟記下列常用的曲線下面積分布規(guī)律:

1、μ±σ的區(qū)間占總面積的68.27%

2、μ±1.96σ的區(qū)間占總面積的95%

3、μ±2.58σ的區(qū)間占總面積的99%質量控制

+2S+3S上控制線下控制線警戒線警戒線

-2S

-3S第五節(jié)標準正態(tài)分布及其應用1、標準正態(tài)分布與標準化變換

正態(tài)分布是一個分布族。對應于不同的參數μ和σ會產生不同位置不同形狀的正態(tài)分布。(1)概率密度函數(曲線的高度)(2)概率分布函數(曲線的面積)σ—總體標準差μ—總體均數π—圓周率,3.14159….這個面積等于多少?-∞+∞μx為了應用方便,令u服從均數為0、標準差為1的正態(tài)分布標準正態(tài)分布u變換當μ和σ未知時,用和s來估計u值。標準正態(tài)分布:凡均數為0、標準差為1的正態(tài)分布。所有的正態(tài)分布,經u變換后,都可以轉為標準正態(tài)分布。2、標準正態(tài)分布表-∞-3-2-10+1+2+3+∞Φ(u)附表Ⅰ

查表確定標準正態(tài)分布曲線下的面積時,必須注意:

(1)u變換當μ,σ已知時,先按u變換公式求得u值,再用u值查表;

當μ,σ未知時,用樣本均數和樣本標準差s代替求u值。

(2)查表時,可以利用標準正態(tài)分布的兩個特征:

a.曲線下對稱于0的區(qū)間,面積相等;

b.曲線下橫軸上的總面積為100%或1。

例求x1=μ-1.96σ與x2=μ+1.96σ區(qū)間的面積。查附表,φ1(-1.96)=0.025,φ2(1.96)=1-φ(-1.96)=1-0.025=0.975,區(qū)間面積φ=φ2-φ1=0.975-0.025=0.95=95%第六節(jié)卡方分布擬合檢驗如,某鐘表廠對生產的鐘進行精確性檢查,抽取100個鐘作試驗,撥準后隔24小時以后進行檢查,將每個鐘的誤差(快或慢)按秒記錄下來.問該廠生產的鐘的誤差是否服從正態(tài)分布?再如,某工廠制造一批骰子,聲稱它是均勻的.為檢驗骰子是否均勻,要把骰子實地投擲若干次,統計各點出現的頻率與1/6的差距.也就是說,在投擲中,出現1點,2點,…,6點的概率都應是1/6.得到的數據能否說明“骰子均勻”的假設是可信的?問題是:K.皮爾遜這是一項很重要的工作,不少人把它視為近代統計學的開端.

解決這類問題的工具是英國統計學家K.皮爾遜在1900年發(fā)表的一篇文章中引進的所謂

檢驗法.

檢驗法是在總體X的分布未知時,根據來自總體的樣本,檢驗關于總體分布的假設的一種檢驗方法.

H0:總體X的分布函數為F(x)

然后根據樣本的經驗分布和所假設的理論分布之間的吻合程度來決定是否接受原假設.使用

對總體分布進行檢驗時,我們先提出原假設:檢驗法這種檢驗通常稱作擬合優(yōu)度檢驗,它是一種非參數檢驗.

在用

檢驗假設H0時,若在H0下分布類型已知,但其參數未知,這時需要先用極大似然估計法估計參數,然后作檢驗.檢驗法分布擬合的

的基本原理和步驟如下:檢驗法3.根據所假設的理論分布,可以算出總體X的值落入每個Ai的概率pi,于是npi就是落入Ai的樣本值的理論頻數.1.將總體X的取值范圍分成k個互不重迭的小區(qū)間,記作A1,A2,…,Ak.2.把落入第i個小區(qū)間Ai的樣本值的個數記作fi

,稱為實測頻數.所有實測頻數之和f1+f2+…+fk等于樣本容量n.標志著經驗分布與理論分布之間的差異的大小.皮爾遜引進如下統計量表示經驗分布與理論分布之間的差異:統計量的分布是什么?在理論分布已知的條件下,npi是常量實測頻數理論頻數皮爾遜證明了如下定理:

若原假設中的理論分布F(x)已經完全給定,那么當時,統計量的分布漸近(k-1)個自由度的分布.

如果理論分布F(x)中有r個未知參數需用相應的估計量來代替,那么當時,統計量的分布漸近(k-r-1)個自由度的分布.

為了便于理解,我們對定理作一點直觀的說明.

如果根據所給的樣本值X1,X2,…,Xn算得統計量的實測值落入拒絕域,則拒絕原假設,否則就認為差異不顯著而接受原假設.得拒絕域:(不需估計參數)(估計r個參數)查分布表可得臨界值,使得

根據這個定理,對給定的顯著性水平,

皮爾遜定理是在n無限增大時推導出來的,因而在使用時要注意n要足夠大,以及npi

不太小這兩個條件.

根據計算實踐,要求n不小于50,以及npi

都不小于5.否則應適當合并區(qū)間,使npi滿足這個要求.143一、采用卡方檢驗進行正態(tài)性檢驗144分組不同,擬合的結果可能不同。需要有足夠的樣本含量。

第七節(jié)W檢驗方法對于樣本量較小(50n8)的情況,可以用Shapiro—Wilk檢驗代替偏度一峰度檢驗。與偏度一峰度檢驗不同的是,Shapiro—Wilk檢驗對偏度和峰度以外的非正態(tài)性特征也敏感,但不能區(qū)分總體對正態(tài)分布的偏離表現在什么方面,只是籠統地判斷一個樣本是否來自正態(tài)分布的總體。其統計假設為:H0,樣本來自正態(tài)分布的總體,H1:樣本來自非正態(tài)分布的總體。

對樣本量等于n的一個樣本,將全體觀測值按從小到大次序排列,得:

對該樣本進行Shapiro-Wilk檢驗的第一步是根據樣本量n從附表A6中查取n個Shapiro-Wilk檢驗系數,記為k(w)。Shapiro—Wilk檢驗的統計量為:

其中,當n為偶數時,當n為奇數時,根據和n查表(附表A7)可知w的臨界值Z。由此可作出判斷:

當w<Z時,拒絕H0,即分布不呈正態(tài)。

當wZ時,不拒絕H0,即分布呈正態(tài)。[例]測得某種紗的伸長率(%)的數據為:

15.2,15.4,14.8,13.0,14.2,14.6,14.5,14.2。問其是否符合正態(tài)分布。解:1.將各值按大小順序排列:

x1,

x2,

x3,

x4,

x5,x6,x7,x8

13.0,14.2,14.2,14.5,14.6,14.8,15.2,15.4

其平均值為:

2計算統計量W

因為n為偶數,所以查附表A6可知:1(w)=0.6052,2(w)=0.3164,3(w)=0.1743,3(w)=0.0561。

查附表A7知:Z(=0.05)為Z0.05=0.818作出統計判斷:W>Z

,不拒絕H0,即數據呈正態(tài)分布。。造成試驗結果非正態(tài)性的原因有兩種:一是總體本身就不是正態(tài)分布的,二是樣本中包含個別異常值。

對于非正態(tài)分布的總體,做適當數據變換(如對對數正態(tài)分布總體做對數變換,對左偏或右偏數據作Box—Cox變換等),或者改用非參數檢驗方法都是可行的選擇。在有異常值存在的情況下,則應將其先剔除再作方差分析。第八節(jié)獨立性檢驗

保證個體的獨立性就是要使所采集的每個樣品與上一個樣本沒有關聯。一個樣本是否能代表它的總體,關鍵在于采樣的隨機性。非隨機采樣一方面可能導致樣本特征與總體特征的不一致,另一方面也可能反映在個體的非獨立性方面,樣本中個體的獨立性是指它們的采集過程完全不受其它個體的干擾。對那些分布在某一時間或空間范圍內的個體而言,個體間的自相關特性是導致采樣非獨立性的重要原因。獨立性檢驗兩個分類變量的獨立性檢驗問題。在日常生活中,我們常常關心分類變量之間是否有關系:例如,吸煙是否與患肺癌有關系?性別是否對于喜歡數學課程有影響?等等。

吸煙與肺癌列聯表不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965為了調查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調查了9965人,得到如下結果(單位:人)列聯表在不吸煙者中患肺癌的比重是

在吸煙者中患肺癌的比重是

說明:吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大。0.54%2.28%探究不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計98749199651、列聯表2、三維柱形圖3、二維條形圖不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出各個頻數的相對大小。從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例。通過圖形直觀判斷兩個分類變量是否相關:不吸煙吸煙患肺癌比例不患肺癌比例4、等高條形圖等高條形圖更清晰地表達了兩種情況下患肺癌的比例。

上面我們通過分析數據和圖形,得到的直觀印象是吸煙和患肺癌有關,那么事實是否真的如此呢?這需要用統計觀點來考察這個問題。

現在想要知道能夠以多大的把握認為“吸煙與患肺癌有關”,為此先假設

H0:吸煙與患肺癌沒有關系.不患肺癌患肺癌總計不吸煙aba+b吸煙cdc+d總計a+cb+da+b+c+d把表中的數字用字母代替,得到如下用字母表示的列聯表

用A表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒有關系”等價于“吸煙與患肺癌獨立”,即假設H0等價于P(AB)=P(A)P(B).因此|ad-bc|越小,說明吸煙與患肺癌之間關系越弱;

|ad-bc|越大,說明吸煙與患肺癌之間關系越強。不患肺癌患肺癌總計不吸煙aba+b吸煙cdc+d總計a+cb+da+b+c+d在表中,a恰好為事件AB發(fā)生的頻數;a+b和a+c恰好分別為事件A和B發(fā)生的頻數。由于頻率接近于概率,所以在H0成立的條件下應該有

為了使不同樣本容量的數據有統一的評判標準,基于上述分析,我們構造一個隨機變量-----卡方統計量(1)

若H0成立,即“吸煙與患肺癌沒有關系”,則K2應很小。根據表3-7中的數據,利用公式(1)計算得到K2的觀測值為:那么這個值到底能告訴我們什么呢?(2)

獨立性檢驗在H0成立的情況下,統計學家估算出如下的概率

即在H0成立的情況下,K2的值大于6.635的概率非常小,近似于0.01。

也就是說,在H0成立的情況下,對隨機變量K2進行多次觀測,觀測值超過6.635的頻率約為0.01。思考

答:判斷出錯的概率為0.01。判斷是否成立的規(guī)則如果,就判斷不成立,即認為吸煙與患肺癌有關系;否則,就判斷成立,即認為吸煙與患肺癌有關系。獨立性檢驗的定義

上面這種利用隨機變量K2來確定在多大程度上可以認為“兩個分類變量有關系”的方法,稱為兩個分類變量的獨立性檢驗。在該規(guī)則下,把結論“成立”錯判成“不成立”的概率不會差過即有99%的把握認為不成立。獨立性檢驗的基本思想(類似反證法)(1)假設結論不成立,即“兩個分類變量沒有關系”.(2)在此假設下我們所構造的隨機變量K2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論