




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章
抽樣分布與參數(shù)估計第6章6.1抽樣理由和抽樣方法6.2抽樣誤差6.3抽樣分布6.4參數(shù)估計6.5樣本容量的確定
抽樣分布與參數(shù)估計第6章在本章中你將學到:區(qū)分不同的抽樣方法抽樣分布的概念計算樣本平均數(shù)和樣本比例相關(guān)的概率中心極限定理的重要性理解點估計與置信區(qū)間估計計算均值和比例的置信區(qū)間根據(jù)所要得到的置信區(qū)間確定樣本容量。本章教學目的抽樣分布與參數(shù)估計第6章區(qū)分不同的抽樣方法理解抽樣分布的概念理解中心極限定理的重要性計算均值和比例的置信區(qū)間本章重點和難點抽樣分布與參數(shù)估計第6章6.1.1抽樣理由6.1.2抽樣方法6.1抽樣理由和抽樣方法第6章選擇樣本比總體(人口普查)中的每一項要節(jié)省時間。選擇樣本比總體中的每一項要節(jié)省費用。分析樣本要比分析整個總體容易且更加實際。6.1.1抽樣理由6.1抽樣理由和抽樣方法第6章抽樣過程從抽樣框開始抽樣框是對組成總體的一系列條目的列舉。抽樣框是類似總體清單,目錄或者地圖的數(shù)據(jù)源。如果抽樣框里沒有包括總體的某些部分,不準確或者有偏的結(jié)果就可能產(chǎn)生。使用不同的抽樣框得到數(shù)據(jù)會得出不同的結(jié)論。6.1抽樣理由和抽樣方法6.1.2抽樣方法第6章樣本非概率樣本判斷樣本概率樣本簡單隨機樣本系統(tǒng)樣本群樣本便利樣本分層樣本樣本類型6.1抽樣理由和抽樣方法第6章在非概率樣本中,選中的條目不根據(jù)他們發(fā)生的概率。在便利抽樣中,條目的選擇簡單,便宜,且方便抽樣。在判斷樣本中,我們得到預先選好的專家就主題發(fā)表的意見。樣本類型:非概率樣本6.1抽樣理由和抽樣方法第6章在概率樣本中,樣本中條目的選擇基于已知的概率。概率樣本簡單隨機樣本系統(tǒng)樣本分層樣本群樣本樣本類型:概率樣本6.1抽樣理由和抽樣方法第6章架構(gòu)里的每一個條目都有同等的機會被選中。n代表樣本容量,N代表抽樣框的大小,對抽樣框中的每個條目進行編號為1到N。抽樣可以放回(選擇了某一個條目之后再把它放回架構(gòu)里,它再次被選中的概率仍然相同)或者不放回(選擇的某一個條目,不能放回架構(gòu)中)。簡單隨機樣本適用于總體較小,且同質(zhì)性比較高的情況。樣本通過隨機數(shù)表或隨機數(shù)產(chǎn)生器取得。概率樣本:簡單隨機樣本6.1抽樣理由和抽樣方法第6章有850條目的總體抽樣架構(gòu)條目名條目號BevR. 001UlanX. 002. .... .. .JoannP. 849PaulF. 850隨機數(shù)表(部分)492808892435779002838116307275111000234012860746979664489439098932399720048494208887208401簡單隨機樣本前5個條目Item#492Item#808Item#892--不存在所以忽略Item#435Item#779Item#002使用隨機數(shù)表選擇簡單隨機樣本6.1抽樣理由和抽樣方法取決于樣本容量:n抽樣框中N個個體分成含k個個體的組:k=N/n從第一組隨機選擇一個個體接下來,每數(shù)到第k個數(shù)都依次選取簡單易行,但可能帶來周期性問題,導致抽樣偏差第6章N=40n=4k=10第一組6.1抽樣理由和抽樣方法概率樣本:系統(tǒng)樣本第6章根據(jù)一些常見的特征,把總體分成兩個或兩個以上的亞群體,即層(strata)。在每個層中根據(jù)層容量相應選擇簡單隨機樣本。分層選擇的樣本然后加以合并。當抽樣總體是選民時,根據(jù)種族或社會經(jīng)濟層次分層是常用的技術(shù)??傮w分成4個層6.1抽樣理由和抽樣方法概率樣本:分層樣本第6章某公司要從800名全職雇員中選取32名全職雇員作為樣本,估計一項公司贊助的牙科保健計劃方面的費用。在全職雇員中,25%是經(jīng)理,75%是非經(jīng)理。如何選擇分層的樣本使樣本能代表經(jīng)理雇員和非經(jīng)理雇員正確的比例?假定回復率為80%??傮w800經(jīng)理200非經(jīng)理600抽取40*25%=10抽取40*75%=30解:共需發(fā)送32/0.8=40份調(diào)查問卷。例
選取分層樣本6.1抽樣理由和抽樣方法第6章總體分為若干個“聚類”或者“群”,每個聚類或群代表整個總體。隨機選擇聚類樣本或群樣本使用選中的聚類里的所有項目或者從聚類里面選取基于概率的樣本。聚類樣本的通常應用是選舉,其中選擇特定選區(qū)并抽樣。總體分成16個聚類樣本。隨機選擇聚類樣本抽樣概率樣本:聚類樣本6.1抽樣理由和抽樣方法第6章簡單隨機樣本和系統(tǒng)樣本使用簡單可能不能很好的代表總體的潛在特性分層樣本確保代表的個體覆蓋整個總體聚類樣本成本效率更高有效性較低(需要更大的樣本以取得同等程度的精確性)概率樣本:比較抽樣方法6.1抽樣理由和抽樣方法第6章樣本統(tǒng)計量和對應的總體參數(shù)之間的差異,稱之為抽樣誤差。抽樣誤差的產(chǎn)生是由于抽樣的非全面性和隨機性所引起的,是偶然性誤差。非抽樣誤差抽樣框誤差系統(tǒng)性誤差測量誤差登記誤差6.2抽樣誤差第6章抽樣分布就是選出所有可能的樣本情況下結(jié)果的分布兩類統(tǒng)計量的抽樣分布:樣本均值和樣本比例。例如,
假設(shè)想知道某學院學生的平均成績,隨機選擇50個學生。
如果得到很多不同的50個學生的樣本,將計算每個樣本不同平均數(shù)。我們可以計算對于任意給定的50個學生的樣本,我們對所有潛在的平均成績感興趣。6.3抽樣分布第6章均值的抽樣分布是指在給定樣本容量的情況下所有可能的樣本均值的分布。6.3.1樣本均值的抽樣分布6.3抽樣分布第6章假設(shè)總體…總體容量N=4隨機樣本變量,X,
是個體的年齡X的觀測值:24,28,
32,36(歲)ABCD例子1.樣本均值的均值6.3抽樣分布第6章總體均值總體的均值等于總體的所有數(shù)值之和除以總體容量N??傮w的標準差6.3抽樣分布第6章.3.2.10
24283236
ABCD均勻分布P(x)x總體分布的概括度量:樣本均值的均值——例子(續(xù))6.3抽樣分布16個可能的樣本(有放回的抽樣)現(xiàn)在考慮容量n=2的所有可能的樣本第6章(續(xù))16個樣本平均數(shù)第一個觀測值第二個
觀測值242832362424,2424,2824,3224,362828,2428,2828,3228,363232,2432,2832,3232,363636,2436,2836,3236,36樣本均值的均值——例子第一個第二個觀測值觀測值2428323624242628302826283032322830323436303234366.3抽樣分布
第6章
所有樣本平均數(shù)的抽樣分布
X樣本平均數(shù)的分布16個樣本平均數(shù)P(X)
0.1.224262830323436.3_(續(xù))(不再是均勻分布)樣本均值的均值——例子第一個第二個觀測值觀測值2428323624242628302826283032322830323436303234366.3抽樣分布第6章該抽樣分布的概括度量:(續(xù))樣本均值的均值——例子6.3抽樣分布第6章算術(shù)平均數(shù)是無偏的,因為所有可能的樣本均值(給定樣本容量n)的平均值等于總體的均值。樣本均值的均值——例子6.3抽樣分布第6章242628303234360.1.2.3P(X)X
24
28
32
36AB
C
D0.1.2.3總體N=4P(X)X_樣本平均數(shù)分布n=2_2.樣本均值的標準誤差6.3抽樣分布第6章同樣總體相同容量的不同的樣本導致不同的樣本平均數(shù)樣本與樣本之間平均數(shù)的變動用均值的標準誤差來度量:(這假設(shè)是有放回的抽樣或者無限總體無放回的抽樣)均值的標準誤差是所有可能的樣本均值的標準差。注意平均數(shù)的標準差隨著樣本容量
增加而減少6.3抽樣分布第6章總體服從正態(tài)分布,平均數(shù)μ
且標準差σ,抽樣分布
也服從正態(tài)分布。
且3、正態(tài)分布總體的抽樣分布6.3抽樣分布第6章
抽樣分布的Z值:其中: =樣本平均數(shù) =總體平均數(shù) =總體標準差
n=樣本容量平均數(shù)抽樣分布的Z值6.3抽樣分布總體正態(tài)分布抽樣分布也正態(tài)分布(有同樣的平均數(shù))第6章抽樣分布特征6.3抽樣分布第6章較大的樣本容量較小的
樣本容量(續(xù))隨著n增加,減少抽樣分布特征6.3抽樣分布第6章假設(shè)每盒麥片的重量服從正態(tài)分布,均值為368克,標準差為15克。如果從同一天包裝的幾萬盒麥片中隨機抽取25盒作為樣本,則該樣本均值低于365克的可能性有多大?解:即所有容量為25的樣本的均值有15.87%的概率低于365克。例子:麥片包裝問題6.3抽樣分布第6章假設(shè)每盒麥片的重量服從正態(tài)分布,均值為368克,標準差為15克。如果從同一天包裝的幾萬盒麥片中隨機抽取100盒作為樣本,則該樣本均值低于365克的可能性有多大?解:即所有容量為100的樣本的均值有2.28%的概率低于365克。例子:麥片包裝問題6.3抽樣分布第6章我們可以使用中心極限定理:即使總體非正態(tài)分布,總體的樣本平均數(shù)
將近似正態(tài)分布只要樣本容量足夠的大.抽樣分布的特征:
且6.3.2中心極限定理6.3抽樣分布n↑第6章隨著樣本容量變得足夠的大…不管總體的分布如何,抽樣分布趨近于正態(tài)分布6.3.2中心極限定理6.3抽樣分布第6章總體分布抽樣分布(隨著n的增加服從正態(tài)分布)集中趨勢變異程度較大的樣本容量較小的
樣本容量(續(xù))抽樣分布特征:6.3抽樣分布第6章對于大多數(shù)分布,n>30
將導致抽樣分布近乎正態(tài)分布對于完全對稱分布,n>15一般足夠?qū)е鲁闃臃植冀跽龖B(tài)分布對正態(tài)分布的總體,平均數(shù)的抽樣分布總是服從正態(tài)分布多大是足夠的大?6.3抽樣分布第6章假設(shè)總體的平均數(shù)μ=8且標準差σ=3.
假設(shè)選中容量n=36隨機樣本。樣本平均數(shù)介于7.8和8.2之間的概率是多少?例子6.3抽樣分布第6章結(jié)論:即使總體非正態(tài)分布,中心極限定理可以應用(n>30)…因此抽樣分布近乎正態(tài)分布…且平均數(shù)…且標準差(續(xù))例子6.3抽樣分布第6章
結(jié)論(續(xù)):(續(xù))抽樣分布標準正態(tài)分布總體
分布樣本標準化????????????XZ-0.40.4.1554+.15547.88.2例子6.3抽樣分布第6章
π=有著某種特性的總體的比例
樣本比例(p)
提供π的估計:0≤p≤1當n比較大時,p近乎正態(tài)分布 (假設(shè)是有放回的抽樣或者無限總體無放回的抽樣)
6.3.3比例的抽樣分布6.3抽樣分布第6章近乎正態(tài)分布分布,如果:
其中
且(其中
π=總體比例)抽樣分布P(
ps).3.2.100.2.4.681pp的抽樣分布6.3抽樣分布第6章使用公式將p標準化為Z值:比例的Z值6.3抽樣分布
ifπ=0.4且n=200,P(0.40≤p≤0.45)是多少?第6章如果支持A主張的投票者的真正比例是π=0.4,容量200的樣本導致樣本比例介于0.40與0.45之間的概率是多少?也就是說:例子6.3抽樣分布第6章
ifπ=0.4且n=200,P(0.40≤p≤0.45)是多少?(續(xù))轉(zhuǎn)換成標準正態(tài)分布:計算:例子6.3抽樣分布第6章Z1.440.4251標準化抽樣分布標準正態(tài)分布
ifπ=0.4且n=200,P(0.40≤p≤0.45)是多少?(續(xù))使用標準正態(tài)分布表:
P(0≤Z≤1.44)=0.425100.450.40p例子6.3抽樣分布第6章6.4.1點估計
使用單個樣本的統(tǒng)計量來估計總體參數(shù)的方法。6.4參數(shù)估計第6章置信區(qū)間估計:是在樣本點左右構(gòu)造的一段區(qū)間,從而可以知道總體參數(shù)落在特定區(qū)間內(nèi)的概率。對于未知參數(shù)
,找到兩個數(shù)值
和
,使參數(shù)
位于區(qū)間
的概率為
,即
式中,區(qū)間
表示總體參數(shù)的區(qū)間估計或置信區(qū)間。6.4.2置信區(qū)間估計6.4參數(shù)估計第6章點估計是單個數(shù)值置信區(qū)間提供了估計變動的額外信息點估計置信區(qū)間下界置信區(qū)間上界置信區(qū)間寬度點估計和置信區(qū)間估計6.4參數(shù)估計第6章區(qū)間給出了觀測值的一個范圍:考慮樣本統(tǒng)計量隨著樣本的不同而變化基于一個樣本的觀測值給出接近未知總體參數(shù)的信息以置信度表示例如95%的置信度,99%的置信度不能為100%的置信度6.4.3總體均值的置信區(qū)間估計(
已知時)6.4參數(shù)估計第6章置信度:置信區(qū)間包含未知總體參數(shù)的百分比(低于100%)假設(shè)置信度=95%,也可寫成(1-
)=0.95,(故
=0.05)
為分布中置信區(qū)間外的兩個尾部的比例。一般的相關(guān)解釋:構(gòu)造的所有置信區(qū)間95%包含未知的真實參數(shù)特別的,區(qū)間可以包含也可以不包含真實參數(shù)置信度(1-)6.4參數(shù)估計第6章
假設(shè)總體標準差σ已知總體是正態(tài)分布如果總體非正態(tài),則使用大樣本置信區(qū)間估計:
其中
Zα/2是標準正態(tài)分布曲線上上限臨界值以上的比例為/2對應的數(shù)值;μ的置信區(qū)間(σ已知)6.4參數(shù)估計第6章考慮置信度是95%的置信區(qū)間:置信下限臨界值置信上限臨界值Z:X:點估計0Zα/2=-1.96Zα/2=1.96尋找臨界值,Zα/26.4參數(shù)估計第6章通常使用的置信度是90%,95%,和99%置信度置信系數(shù)
Zα/2
值1.281.6451.962.332.583.083.270.800.900.950.980.990.9980.99980%90%95%98%99%99.8%99.9%常用置信度6.4參數(shù)估計第6章置信區(qū)間(1-
)x100%
區(qū)間包含μ;(
)x100%
不包含均值的樣本分布區(qū)間從
擴展到
x1x2置信區(qū)間和置信度6.4參數(shù)估計第6章一個文具商店想要估計庫存中賀卡的平均銷售額。隨機選擇100張賀卡,均值為3.65元,標準差為0.4元。假設(shè)服從正態(tài)分布,計算該店庫存中所有賀卡的均值的95%置信區(qū)間估計。
解:95%的置信度對應的臨界值即庫存中所有賀卡的平均銷售額的95%置信區(qū)間估計為3.5716~3.7284元。
【例6-1】6.4參數(shù)估計第6章如果總體標準差
σ是未知的,我們可以用樣本標準差S來替代。這種做法是非常不確定的,因為S隨著樣本的變化而變化。所以我們用t分布來代替正態(tài)分布。6.4.3總體均值的置信區(qū)間估計(
未知時)6.4參數(shù)估計如果隨機變量X服從正態(tài)分布,那么下面的統(tǒng)計量服從自由度為n-1的t分布:其中S為樣本標準差。第6章1.學生t分布6.4參數(shù)估計
第6章t(df=5)
t(df=13)t-分布是鐘形的對稱的,但其尾部比正態(tài)的“胖”標準正態(tài)(t有df=∞)t0注意:tZn增加2.t分布的特性6.4參數(shù)估計d.f.=n-1第6章t是一個分布集tα/2的值依賴于自由度(d.f.)觀察值在樣本均值計算后是自由變化的
t分布的特性(續(xù))6.4參數(shù)估計如果這三個數(shù)的均值是8.0,
那么X3一定是9(即,X3
不是自由變化的)令X1=7令X2=8X3是多少?例子:假設(shè)3個數(shù)字的均值是8.0第6章這里,n=3,所以自由度=n–1=3–1=2(對于一個給定的均值,2個值可以是任意的數(shù)字,但是第三個數(shù)是不能自由變化的)思想:觀察值在樣本均值計算后是自由變化的
3.自由度(df)的概念6.4參數(shù)估計當σ未知時,均值的置信區(qū)間估計為:(其中tα/2
是具有n-1自由度和α/2的累積面積的t分布的臨界值)第6章4.置信區(qū)間的表達式(σ未知)6.4參數(shù)估計第6章上部的尾部面積df.25.10.0511.0003.0786.31420.8171.8862.92030.7651.6382.353表的主體包含t值,但沒有概率令:n=3
df=n-1=2
=0.10
/2=0.05t02.920
/2=0.05t分布表6.4參數(shù)估計第6章某醫(yī)院想估計其急診室服務的病人的平均等候時間。隨機抽取33名急診室病人進行調(diào)查,經(jīng)計算樣本均值為222分鐘,樣本標準差為76分鐘。在95%的置信水平下估計平均等候時間的置信區(qū)間。解:由題意知,
95%的置信度,自由度為32時,對應的t分布的臨界值為
,應用公式(6-13)可得:即【例6-2】6.4參數(shù)估計第6章6.4.4比例的置信區(qū)間估計總體比例(π)的區(qū)間估計可以通過對樣本比例(p)的不確定性增加一個限制來計算。6.4參數(shù)估計第6章置信區(qū)間上下界通過以下公式來計算其中Zα/2
是所要求的置信度的標準正態(tài)值P是樣本比例n是樣本容量注意:一定要np>5
和n(1-p)>56.4參數(shù)估計第6章某網(wǎng)站對1120名全職媽媽進行了調(diào)查,其中280位表明她們對工作-生活的平衡并不滿意。計算全職媽媽中對工作-生活的平衡并不滿意的總體比例的90%置信區(qū)間估計。解:置信區(qū)間估計可以計算如下:90%的置信度對應的關(guān)鍵值
,則有即【例6-3】6.4參數(shù)估計第6章均值樣本容量的確定比例6.5樣本容量的確定第6章樣本容量需要達到置信度(1-
)要求下的誤差界限(ME)此誤差界限也稱為抽樣誤差總體參數(shù)估計時的不精確量點估計生成置信區(qū)間時增加減少的量
6.5.1估計總體均值時樣本容量的確定6.5樣本容量的確定第6章均值樣本容量的確定抽樣誤差(誤差界限)6.5樣本容量的確定第6章均值樣本容量的確定求解n得到6.5樣本容量的確定第6章為了確定均值所需的樣本容量,必須知道:目標置信度(1-
),其決定了關(guān)鍵值Zα/2可接受的抽樣誤差標準差σ6.5樣本容量的確定第6章如果
=45,在90%的置信度下均值±5的估計所需的樣本容量要多大?
(取整)所以目標樣本容量n=220求樣本容量的例子6.5樣本容量的確定第6章如果σ是未知的,其可以通過目標樣本容量的公式來進行估計使用的σ值應期望至少與真實的σ值一樣大選擇一個試驗樣本并通過樣本標準差S來估計σ如果σ未知6.5樣本容量的確定第6章樣本容量的確定比例求解n得到6.5.2、估計總體比例時樣本容量的確定6.5樣本容量的確定第6章為了確定比例的目標樣本容量,必須知道:目標置信度(1-
),其決定了關(guān)鍵值Zα/2可接受的抽樣誤差
MEp真實的總體比例ππ可以通過一個試驗樣本來估計(或者謹慎的使用0.5來估計π)(續(xù))樣本容量的確定6.5樣本容量的確定第6章在95%的置信度下,多大的樣本可以估計真實比例,且其總體誤差在±3%以內(nèi)?(假定一個試驗樣本p=0.12)求樣本容量的例子6.5樣本容量的確定第6章解:對于95%的置信度,Zα/2=1.96MEp=0.03p=0.12,用此估計π故n=451(續(xù))求樣本容量的例子6.5樣本容量的確定第6章討論了概率與非概率樣本敘述了四種常見概率樣本討論了調(diào)查價值和調(diào)查誤差的類型介紹了抽樣分布敘述了平均數(shù)的抽樣分布對于正態(tài)分布總體使用中心極限定理敘述了比例的抽樣分布使用抽樣分布計算概率小結(jié)第6章介紹置信區(qū)間的概念討論點估計置信區(qū)間的估計均值的置信區(qū)間估計(σ已知)均值的置信區(qū)間估計(σ未知)比例的置信區(qū)間估計目標均值比例的樣本容量的確定小結(jié)假設(shè)檢驗第七章
第7章
7.1假設(shè)檢驗的概念及分類7.2檢驗假設(shè)的五個步驟7.3幾種常見的假設(shè)檢驗7.4假設(shè)檢驗決策的風險假設(shè)檢驗第7章在本章,你將學到:
基本的假設(shè)檢驗原理掌握幾種常用的假設(shè)檢驗每種假設(shè)檢驗過程的前提假設(shè),如何評價他們,以及被違反的后果正確理解假設(shè)檢驗的兩類錯誤及其關(guān)系。本章教學目的假設(shè)檢驗第7章本章重點和難點基本的假設(shè)檢驗原理,關(guān)于總體均值、總體比例的假設(shè)檢驗假設(shè)檢驗的兩類錯誤及其關(guān)系。假設(shè)檢驗第7章假設(shè)是關(guān)于總體參數(shù)的聲稱(斷言):總體均值總體比例例:一個城市的每月電話賬單均值μ=$42例:一個城市成年人擁有手機的比例π=0.687.1假設(shè)檢驗的概念及分類第7章假設(shè)檢驗單側(cè)檢驗雙側(cè)檢驗7.1假設(shè)檢驗的概念及分類第7章7.2假設(shè)檢驗的五個步驟7.2.1提出原假設(shè)和備擇假設(shè)7.2.2選擇顯著性水平7.2.3確定檢驗統(tǒng)計量7.2.4建立決策準則7.2.5做出決策第7章檢驗的聲稱或斷言例:在美國每個家庭平均有3臺電視機是總體參數(shù),不是樣本統(tǒng)計量7.2.1提出原假設(shè)和備擇假設(shè)
原假設(shè),H07.2假設(shè)檢驗的五個步驟第7章首先假設(shè)零假設(shè)是真的與無罪,被證明有罪的概念是相似的引用現(xiàn)狀或歷史價值總是包含“=”,“≤”或“”可能被拒絕,也可能不(續(xù))7.2假設(shè)檢驗的五個步驟原假設(shè),H0第7章零假設(shè)的對立面例:在美國每個家庭的電視機不是3臺(H1:μ≠3)向現(xiàn)狀發(fā)出挑戰(zhàn)不包含“=”,“≤”或“”可能被證明,也可能不一般是研究者試圖去證明的備擇假設(shè),H17.2假設(shè)檢驗的五個步驟第7章7.2.2選擇顯著性水平顯著性水平是原假設(shè)為真時拒絕原假設(shè)的概率,通常用希臘字母α表示。把概率小于α的事件稱為小概率事件。α越大,樣本統(tǒng)計量的值與總體參數(shù)假設(shè)值之間的差異成為顯著性差異的可能性越大;α越小,這種差異成為顯著性差異的可能性越小??梢詫@著性水平α設(shè)定為0.05(通常表示為5%),或0.01,或0.10,或介于0與1之間的任意其他數(shù)值。7.2假設(shè)檢驗的五個步驟第7章7.2.3確定檢驗統(tǒng)計量檢驗統(tǒng)計量是由樣本信息確定的用于決定是否拒絕原假設(shè)的一個數(shù)值。檢驗統(tǒng)計量有很多,常用的有Z統(tǒng)計量、t統(tǒng)計量、F統(tǒng)計量和χ2(卡方)統(tǒng)計量,需要根據(jù)具體問題和樣本情況選擇合適的統(tǒng)計量。7.2假設(shè)檢驗的五個步驟第7章7.2.4建立決策準則決策準則是原假設(shè)被拒絕或原假設(shè)不被拒絕的具體條件。接受或拒絕原假設(shè),最終要以顯著性水平為依據(jù)確定決策準則。決策準則的制定有兩種方法:臨界值方法和p值方法。
7.2假設(shè)檢驗的五個步驟第7章1、臨界值方法臨界值方法,是先把α值轉(zhuǎn)化為一定分布下的臨界值(將拒絕原假設(shè)和不拒絕原假設(shè)的區(qū)域的分界點稱為臨界值),然后計算檢驗統(tǒng)計量的值,最后把檢驗統(tǒng)計值與臨界值相比較來判斷是否拒絕原假設(shè)。7.2假設(shè)檢驗的五個步驟第7章檢驗統(tǒng)計量的抽樣分布臨界值拒絕域α/2拒絕域α/2接受域1-α正態(tài)分布雙側(cè)檢驗接受域與拒絕域示意圖7.2假設(shè)檢驗的五個步驟第7章檢驗統(tǒng)計量的抽樣分布臨界值拒絕域α接受域1-α正態(tài)分布單側(cè)檢驗接受域與拒絕域示意圖-17.2假設(shè)檢驗的五個步驟第7章檢驗統(tǒng)計量的抽樣分布臨界值拒絕域α接受域1-α正態(tài)分布單側(cè)檢驗接受域與拒絕域示意圖-27.2假設(shè)檢驗的五個步驟第7章2、p值方法P值是在原假設(shè)為真的情況下,使得某一檢驗統(tǒng)計量等于或者大于樣本結(jié)果的概率。在P值檢驗中,拒絕的決策準則是:(1)如果P值大于或等于,不拒絕原假設(shè);(2)如果P值小于,拒絕原假設(shè)。7.2假設(shè)檢驗的五個步驟第7章將檢驗統(tǒng)計量的值與臨界值進行比較,然后做出是否拒絕原假設(shè)的決定。如果計算得到統(tǒng)計量的值落入接受域,則不能拒絕原假設(shè)。不拒絕原假設(shè)的邏輯是,這樣小的值很可能是由偶然性或抽樣誤差造成的。如果計算得到統(tǒng)計量的值落入拒絕域,則拒絕原假設(shè)。拒絕原假設(shè)的推理邏輯是,計算出的值如此之大,不大可能是由抽樣誤差(偶然性)造成的。7.2.5做出決策7.2假設(shè)檢驗的五個步驟第7章7.3.1總體均值的假設(shè)檢驗;7.3.2總體比例的假設(shè)檢驗;7.3.3兩個總體均值之差的假設(shè)檢驗;7.3.4兩個總體比例之差的假設(shè)檢驗。7.3幾種常見的假設(shè)檢驗第7章7.3幾種常見的假設(shè)檢驗檢驗的目的是總體均值μ是否等于(或大于等于,或小于等于)某一特定的數(shù)值μ0。我們建立如下假設(shè):7.3.1總體均值的假設(shè)檢驗(雙側(cè)檢驗)(左單側(cè)檢驗)(右單側(cè)檢驗)或或第7章已知未知
的假設(shè)檢驗(Z檢驗)(t檢驗)7.3幾種常見的假設(shè)檢驗Chap9-105
第7章
把樣本統(tǒng)計量(x)轉(zhuǎn)換為ZSTAT
檢驗統(tǒng)計量
檢驗統(tǒng)計量是:σKnownσUnknown
的假設(shè)檢驗已知未知(Z檢驗)(t檢驗)1.總體均值的Z檢驗(σ
已知)7.3幾種常見的假設(shè)檢驗第7章根據(jù)抽樣分布原理,當總體服從正態(tài)分布N(μ,
2)時,那么從中抽?。ㄖ貜统闃樱┤萘繛閚的樣本,其樣本均值
服從正態(tài)分布
,而統(tǒng)計量
服從標準正態(tài)分布。對于雙側(cè)檢驗,對給定的顯著性水平α,當
時,不能拒絕原假設(shè);
當
時,拒絕原假設(shè)而接受備擇假設(shè)。
7.3幾種常見的假設(shè)檢驗第7章【例7-2】一家燈泡廠聲稱其生產(chǎn)的燈泡的平均壽命為375小時。假定燈泡壽命服從正態(tài)分布,總體標準差為25小時。質(zhì)量控制經(jīng)理想要確定該廠生產(chǎn)的燈泡壽命是否符合其規(guī)定,從中抽取100只燈泡,其平均壽命為379小時。試問在0.05的顯著性水平下,燈泡的平均壽命與375小時有無明顯差異。解:由題意知,這是雙側(cè)檢驗問題,可建立如下假設(shè):由樣本均值
和總體標準差
=25,計算得檢驗統(tǒng)計量Z值為:在α=0.05顯著性水平下,
,由于
,不能拒絕H0,即沒有證據(jù)表明燈泡的平均壽命與375小時存在顯著差異。7.3幾種常見的假設(shè)檢驗第7章對于左單側(cè)檢驗,對給定的顯著性水平α,當
時,要拒絕原假設(shè)而接受備擇假設(shè);當
時,則接受原假設(shè)。
對于右單側(cè)檢驗,對給定的顯著性水平α,當
時,要拒絕原假設(shè)而接受備擇假設(shè);當
時,則接受原假設(shè)。
7.3幾種常見的假設(shè)檢驗第7章【例7-3】某快餐連鎖店的平均服務時間是3分鐘。為提高其服務質(zhì)量,快餐店啟動了一項質(zhì)量提升項目,力求縮短平均服務時間。為測試項目實施效果,隨機抽取了50名顧客作為樣本,其平均等待時間是2.75分鐘。假定顧客等待時間服從正態(tài)分布,總體標準差為0.5分鐘。試問在0.05的顯著性水平下,新項目的實施是否明顯縮短了平均服務時間。解:由題意知,這是左單側(cè)檢驗問題,可建立如下假設(shè):由樣本均值和總體標準差
=0.5,計算可得檢驗統(tǒng)計量Z值為:7.3幾種常見的假設(shè)檢驗第7章在
=0.05時,
。由于
,落入了拒絕域,因此要拒絕原假設(shè)而接受備擇假設(shè),說明新流程明顯縮短了服務時間。7.3幾種常見的假設(shè)檢驗
第7章把樣本統(tǒng)計量()轉(zhuǎn)變?yōu)闄z驗統(tǒng)計量tSTAT
X檢驗統(tǒng)計量是:
的假設(shè)檢驗σKnownσUnknown已知未知(Z檢驗)(t檢驗)2.總體均值的t檢驗(σ未知)7.3幾種常見的假設(shè)檢驗第7章在關(guān)于均值的假設(shè)檢驗中,當為未知時,檢驗統(tǒng)計量對于雙側(cè)檢驗,當時,接受H0而拒絕H1;若
或時,則要拒絕H0而接受H1。對于左單側(cè)檢驗,當
時,拒絕H0;當
時,則接受H0。對于右單側(cè)檢驗,當
時,拒絕H0;當
時,則接受H0。服從自由度為n-1的t分布。7.3幾種常見的假設(shè)檢驗第7章【例7-4】某罐裝奶粉的標準重量為900克?,F(xiàn)從生產(chǎn)線上抽取16罐為樣本,測得平均重量為905克,標準差為20克。試問在0.05的顯著性水平下,是否有證據(jù)表明每罐奶粉的平均質(zhì)量不同于900克。解:由題意知,這是雙側(cè)檢驗問題,可建立如下假設(shè):由樣本均值和樣本標準差S=20,計算可得檢驗統(tǒng)計量t的值為:查t分布表,在
=0.05,自由度為15時,雙側(cè)臨界值,由于,落入非拒絕域,因此不能拒絕H0,即沒有證據(jù)表明每罐奶粉的平均質(zhì)量不同于900克。7.3幾種常見的假設(shè)檢驗第7章【例7-5】引用【例7-4】,試問在相同的顯著性水平下,該奶粉生產(chǎn)商生產(chǎn)的罐裝奶粉的平均重量是否偏高。解:由題意知,這是右單側(cè)檢驗問題,可建立如下假設(shè):檢驗統(tǒng)計量t的值仍為1,查t分布表,在
=0.05,,由于,落入非拒絕域,因此不能拒絕H0,即沒有證據(jù)表明罐裝奶粉的平均重量比規(guī)定的重量偏高。自由度為15時,右單側(cè)臨界值7.3幾種常見的假設(shè)檢驗第7章涉及絕對變量兩種可能的結(jié)果具有成功的特性不具有成功的特性總體成功數(shù)的部分或比例表示成π7.3.2總體比例的假設(shè)檢驗7.3幾種常見的假設(shè)檢驗第7章樣本的成功數(shù)比例表示成p
當nπ和n(1-π)都大于5,p將接近于正態(tài)分布,均值和標準差如下:
7.3幾種常見的假設(shè)檢驗第7章p的抽樣分布接近于正態(tài)分布,所以檢驗統(tǒng)計量是ZSTAT
值:nπ5和n(1-π)5p的假設(shè)檢驗nπ<5或n(1-π)<5本章不討論7.3幾種常見的假設(shè)檢驗第7章關(guān)于總體比例,可建立如下假設(shè):(雙側(cè)檢驗)(左單側(cè)檢驗)(右單側(cè)檢驗)或或7.3幾種常見的假設(shè)檢驗第7章【例7-6】某快餐店承諾,90%的訂餐可以在訂單被確認后的10分鐘內(nèi)送到。由100份訂單組成一個樣本,其中有82份訂餐在承諾的時間內(nèi)送到。試問在0.01的顯著性水平下,是否可以說在10分鐘內(nèi)送到的訂餐比例小于90%。解:由題意知,這是左單側(cè)檢驗問題,可建立如下假設(shè):樣本比例,檢驗統(tǒng)計量的值為:,落入拒絕域,因此要拒絕H0而接受H1,即有證據(jù)表明在10分鐘內(nèi)送到的訂餐比例小于90%。7.3幾種常見的假設(shè)檢驗第7章7.3.3兩個總體均值之差的假設(shè)檢驗設(shè)兩個總體的均值分別為,兩個總體的方差分別為,來自兩個總體的樣本容量
分別為n1和n2,樣本均值分別為。檢驗的目的是驗證兩個總體的均值是否相等,或兩個總體的均值之差是否為零。7.3幾種常見的假設(shè)檢驗第7章關(guān)于總體均值之差的檢驗,可建立如下假設(shè):(雙側(cè)檢驗)(左單側(cè)檢驗)(右單側(cè)檢驗)或或7.3幾種常見的假設(shè)檢驗第7章1.兩個總體均值之差的Z檢驗
兩個總體均值之差的Z檢驗適用于兩個總體服從正態(tài)分布且方差已知,或兩個總體方差未知但為大樣本的情形。此時,統(tǒng)計量為:當原假設(shè)H0:成立時,若兩總體的方差已知,檢驗統(tǒng)計量為:7.3幾種常見的假設(shè)檢驗
第7章
若兩個總體方差未知,當原假設(shè)H0:成立時,檢驗統(tǒng)計量為:則用樣本方差若樣本容量n1和n2都足夠大時,來估計,
對于雙側(cè)檢驗,當
時,拒絕H0;當
時,接受H0.對于左單側(cè)檢驗,當
時,拒絕H0;當
時,接受H0.對于右單側(cè)檢驗,當
時,拒絕H0,當
時,接受H0.7.3幾種常見的假設(shè)檢驗第7章【例7-7】要比較甲乙兩個餐飲店的便利窗口的平均服務時間。甲快餐店隨機調(diào)查50人,平均服務時間為3.5分鐘,標準差為0.5分鐘;乙快餐店隨機調(diào)查40人,平均服務時間為3.6分鐘,標準差為0.4分鐘。試問在0.05的顯著性水平下,甲乙兩個快餐店的便利窗口的平均服務時間是否有顯著差異。解:由題意知,這是雙側(cè)檢驗問題,可建立如下假設(shè):根據(jù)樣本均值和樣本標準差S1=0.5,S2=0.4計算得檢驗統(tǒng)計量Z值為:7.3幾種常見的假設(shè)檢驗第7章因此,不能拒絕H0,即沒有證據(jù)表明兩個快餐店的便利窗口的平均服務時間存在顯著差異。,落入接受域,7.3幾種常見的假設(shè)檢驗第7章2.兩個總體均值之差的t檢驗
若兩個總體均服從正態(tài)分布,方差未知且相等,那么當兩個樣本容量n1和n2都不夠大時,關(guān)于兩個總體均值之差的假設(shè)檢驗就可以用t檢驗。此時,下列統(tǒng)計量服從自由度為n1+n2-1的t分布,即:式中,表示混合標準差;來自總體1的樣本方差;表示來自總體2的樣本方差。7.3幾種常見的假設(shè)檢驗第7章當原假設(shè)成立時,檢驗統(tǒng)計量為:
對于雙側(cè)檢驗,當
時,拒絕H0;當
時,接受H0.對于左單側(cè)檢驗,當時,拒絕H0。當時,接受H0。當時,拒絕H0。當時,接受H0。對于右單側(cè)檢驗,7.3幾種常見的假設(shè)檢驗第7章【例7-8】表7-1給出的是度量AA可充電鋰電池和鎳氫可充電電池隨機樣本的單次充電平均持續(xù)使用分鐘數(shù)結(jié)果。表7-1不同類型電池的單次充電平均使用分鐘數(shù)
試問在顯著性水平=0.05下,這兩種電池的單次充電平均使用分鐘數(shù)是否不同。假設(shè)單次充電使用分鐘數(shù)總體方差不相等。鋰電池鎳氫電池樣本均值樣本標準差樣本容量96.56.51482.911.2187.3幾種常見的假設(shè)檢驗第7章解:由題意知,這是雙側(cè)檢驗問題,可建立如下假設(shè)根據(jù)樣本均值和樣本標準差S1=6.5,S2=11.2計算得檢驗統(tǒng)計量t的值為:7.3幾種常見的假設(shè)檢驗第7章在
=0.05,自由度14+18-2=30時,,落入拒絕域,因此拒絕H0,,即認為這兩種電池的單次充電平均使用分鐘數(shù)存在顯著差異。7.3幾種常見的假設(shè)檢驗第7章7.3.4兩個總體比例之差的假設(shè)檢驗設(shè)兩個總體的比例分別為,樣本比例分別為是否為零??山⑷缦录僭O(shè):。檢驗兩個總體比例是否相等,或兩個總體比例之差(雙側(cè)檢驗)(左單側(cè)檢驗)(右單側(cè)檢驗)或或第7章
當n1和n2都足夠大時(n1p1,n1p1(1-p1),n2p2,n2p2(1-p2)均大于5),兩個樣本比例之差的抽樣分布漸近服從正態(tài)分布。即
由于
未知,要以p1和p2來估計,因此在原假設(shè)H0為真時,要以兩個樣本的合并比例作為兩個總體比例的共同估計值,即當原假設(shè)成立時,檢驗統(tǒng)計量為:7.3幾種常見的假設(shè)檢驗第7章【例7-9】某銀行想檢驗網(wǎng)上銀行的青年客戶比老年客戶的百分比高的假設(shè)。在對年齡小于40歲的80名客戶調(diào)查中,發(fā)現(xiàn)有68人使用網(wǎng)上銀行的多數(shù)服務;對大于等于40歲的100名客戶調(diào)查中,有72人使用網(wǎng)上銀行的多數(shù)服務。用
=0.05的顯著性水平來檢驗使用網(wǎng)上銀行的青年客戶比例較高的假設(shè)。解:由題意知,這是右單側(cè)檢驗問題,可建立如下假設(shè)
根據(jù)題中調(diào)查數(shù)據(jù),可以計算出青年客戶使用網(wǎng)上銀行的比例為p1=0.85,老年客戶使用網(wǎng)上銀行的比例為p2=0.72.合并估計值為7.3幾種常見的假設(shè)檢驗第7章計算得檢驗統(tǒng)計量Z的值為:
在
=0.05時,Z
=1.64。由于Z>Z
,落入了拒絕域,因此要拒絕原假設(shè)H0,即有證據(jù)表明使用網(wǎng)上銀行的青年客戶比例較高。
7.3幾種常見的假設(shè)檢驗第7章7.4.1假設(shè)檢驗的兩類錯誤7.4.2兩類錯誤的關(guān)系7.4假設(shè)檢驗決策的風險第7章第一類錯誤拒絕真實的零假設(shè)考慮一類嚴重的錯誤發(fā)生第一類錯誤的概率
稱作統(tǒng)計檢驗的顯著性水平研究者預先設(shè)定的第二類錯誤沒有拒絕錯誤的零假設(shè)發(fā)生第二類錯誤的概率β7.4.1假設(shè)檢驗的兩類錯誤7.4假設(shè)檢驗決策的風險第7章可能出現(xiàn)的假設(shè)檢驗結(jié)果真實情況統(tǒng)計決策H0為真H0為假不拒絕H0正確決策概率1-α第二類錯誤概率β拒絕H0第一類錯誤概率α正確決策概率1-β(續(xù))假設(shè)檢驗的兩類錯誤7.4假設(shè)檢驗決策的風險第7章犯第一類錯誤的概率α又被稱為統(tǒng)計檢驗的顯著性水平。顯著性水平通常取0.01,0.05或0.1.取哪個值取決于犯第一類錯誤的代價。α確定之后即可知道拒絕域的大小,從而能夠確定將拒絕域和非拒絕域區(qū)別開來的臨界值。(續(xù))假設(shè)檢驗的兩類錯誤7.4假設(shè)檢驗決策的風險第7章置信系數(shù)
(1-α):是當H0為真且不應該被拒絕的情況下,進行假設(shè)檢驗沒有拒絕H0的概率。假設(shè)檢驗的置信水平
是(1-α)*100%.β風險:犯第二類錯誤的概率。它依賴于總體參數(shù)的假設(shè)值和真實值之間的差別。統(tǒng)計檢驗能力
(1-β)是當H0是假的時候拒絕的概率(續(xù))假設(shè)檢驗的兩類錯誤7.4假設(shè)檢驗決策的風險第7章第一類與第二類錯誤不可能同時發(fā)生
第一類錯誤僅在H0是真的時候發(fā)生第二類錯誤僅在H0是假的時候發(fā)生
如果第一類錯誤的概率(
),那么第二類錯誤的概率(β)7.4.2兩類錯誤的關(guān)系7.4假設(shè)檢驗決策的風險第7章所有其它條件不變,
β當
當
σ當
n
β
β
β當假設(shè)參數(shù)和真實值之間的差別影響第二類錯誤的因素7.4假設(shè)檢驗決策的風險
第7章
1.什么是原假設(shè)和備擇假設(shè)?2.假設(shè)檢驗的基本原理是什么?3.假設(shè)檢驗的臨界值方法和p值方法的區(qū)別?4.假設(shè)檢驗的兩類錯誤是什么?有何關(guān)系?第8章
我們生活在信息時代,信方差分析是統(tǒng)計。
第8章
8.1
F分布8.2比較兩個總體的方差8.3方差分析引論8.4單因素方差分析8.5雙因素方差分析8.6用Stata軟件進行方差分析第8章
方差分析
第8章
掌握F分布的特征;通過假設(shè)檢驗來確定兩個總體的方差是否相等;理解方差分析的一般思想;掌握單因素方差分析的原理、方法及應用條件;掌握多因素方差分析的原理、方法及應用。本章教學目的
第8章
方差分析的原理、方法及應用條件;理解各平方和與自由度的剖分方法,F(xiàn)檢驗及多種比較的應用。本章重點和難點第8章
方差分析第8章F分布是以統(tǒng)計學家R.A.Fisher姓氏的第一個字母命名的.F分布具有以下特征:F分布是一族分布。F分布是連續(xù)的。F分布是非負的。F分布是正偏分布。F分布是漸進分布8.1F分布第8章8.1F分布第8章
F分布可用于檢驗兩個正態(tài)總體的方差。雙側(cè)檢驗的原假設(shè)和備擇假設(shè)為:
單側(cè)檢驗的原假設(shè)和備擇假設(shè)為:8.2
比較兩個總體的方差第8章比較兩個總體方差的檢驗統(tǒng)計量為:其中,
為樣本1(容量為n1)的樣本方差;為樣本2(容量為n2)的樣本方差;
如果原假設(shè)為真,則檢驗統(tǒng)計量服從自由度為n1-1和n2-1的F分布。
8.2
比較兩個總體的方差第8章F臨界值來自F表有兩個自由度:分子和分母其中在F表中,分子自由度確定列分母自由度確定行df1=n1–1;df2=n2–18.2
比較兩個總體的方差第8章H0:σ12=σ22H1:σ12≠σ22H0:σ12≤σ22H1:σ12>σ22F
0
Fα
拒絕H0不拒絕H0拒絕H0
如果FSTAT>FαF
0
/2拒絕H0不拒絕H0Fα/2
拒絕H0
如果FSTAT>Fα/2確定拒絕域8.2
比較兩個總體的方差
第8章線
路1線
路2526756457054645960615156635765表8-1不同線路的開車時間【例8-1】王先生從家到公司的駕車線路有兩條,他想要研究每條線路的開車時間并比較結(jié)果。他收集的樣本數(shù)據(jù)如表8-1所示(單位:分鐘)。線間在0.10的顯著性水平下,兩條線路駕駛時間的變異性是否有差異。8.2
比較兩個總體的方差第8章解:經(jīng)計算兩條線路駕駛時間的均值幾乎相等。經(jīng)過線路1的平均時間為58.29分鐘,經(jīng)過線路2的平均時間為59分鐘。然而,在評估平均駕駛時間的同時,王先生還考慮了駕駛時間的變異性。根據(jù)題意,要比較兩條線路所需時間的變異性是否存在差異,是雙側(cè)檢驗問題,原假設(shè)和備擇假設(shè)分別為:8.2
比較兩個總體的方差第8章
根據(jù)樣本數(shù)據(jù),計算可得兩條線路的樣本均值和方差分別為:8.2
比較兩個總體的方差
第8章
計算兩個樣本的方差的比值,得到檢驗統(tǒng)計量的值,從而做出關(guān)于原假設(shè)的決策。
由于計算出的F值(4.23)大于臨值(3.87),因此拒絕原假設(shè)。結(jié)論:兩條線路駕駛時間的變異性存在差異。分子自由度為
,分母自由度為
。在0.05(
)的顯著性水平的F分布臨界值表中,查得臨界值為3.87。因此,決策準則是:如果樣本方差的比值大于3.87,則拒絕原假設(shè)8.2
比較兩個總體的方差第8章方差分析(AnalysisofVariance,ANOVA),又稱“變異數(shù)分析”或“F檢驗”,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。方差分析即是通過推斷在控制變量各水平下觀測變量的總體分布是否有顯著差異來實現(xiàn)其分析目標的。使用方差分析,需要做如下假設(shè):(1)各樣本是相互獨立的隨機樣本;(2)各總體服從正態(tài)分布;(3)各總體有相同的標準差。8.3方差分析引論
第8章
研究者控制一個觀察因素該觀察因素分為多個水平不同的水平生成不同的組(組別)把每一個組作為來自不同總體的樣本檢驗每組參數(shù)是否存在差異8.4單因素方差分析第8章1.明確觀測變量和控制變量2.分析觀測變量的方差
單因素方差分析將觀測變量總離差平方和(SST)分解為組間離差平方和(SSA)與組內(nèi)離差平方和(SSE)兩部分,用數(shù)學形式表述為:SST=SSA+SSE 其中,SST表示觀測變量總離差平方和;SSA表示組間離差平方和,是由控制變量的不同水平造成的變差;SSE表示組內(nèi)離差平方和,是由抽樣誤差引起的變差。8.4.1單因素方差分析的基本思想8.4單因素方差分析第8章因素產(chǎn)生的差異(SSA)隨機誤差產(chǎn)生的差異(SSW)總離差(SST)=+8.4單因素方差分析第8章
式中:表示全局均值;表示控制變量第j個平下的第i個觀值;表示控制量第j個水平下的觀測值的數(shù)量;n表示所有組別合在一起的觀測值的數(shù)量(即r表示控制變量的水平數(shù)(組別數(shù))。
總離差平方和的計算8.4單因素方差分析第8章
式中:表示所比較組別數(shù);表示控制變量個平下的觀測值的數(shù)量;表示水平組的樣本均值;表示全局均值。組間離差平方和的計算8.4單因素方差分析第8章不同組間的差異間均方=SSA/自由度(續(xù))組間離差8.4單因素方差分析第8章式中:表示控制變量第個水平下第個觀測值;表示水平組的樣本均值。組內(nèi)離差平方和的計算8.4單因素方差分析第8章每組間離差相加知道所有的組內(nèi)均方=SSE/自由度(續(xù))組內(nèi)離差8.4單因素方差分析第8章
均值平方通過相關(guān)的自由度劃分多方面的均值平方和得到間均方(d.f.=r-1)內(nèi)均方(d.f.=n-r)總均方(d.f.=n-1)求均值平方8.4單因素方差分析第8章在觀測變量總離差平方和中,如果組間離差平方和所占比例較大,則說明觀測變量的變動主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測變量帶來了顯著影響;反之,如果組間離差平方和所占比例較小,則說明觀測變量的變動不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測變量帶來顯著影響,觀測變量的變動是由隨機變量因素引起的。3.比較觀測變量總離差平方和各部分的比例
8.4單因素方差分析第8章1.提出原假設(shè)和備擇假設(shè)
所有的總體均值是相同的即,不受因素影響(每組間的均值沒有變化)
H1:不是所有的總體均值都是一樣的至少一個總體均值是不一樣的即,有因素影響不意味著所有的總體均值是不同的(有些可能是一樣的)8.4.2單因素方差分析的基本步驟8.4單因素方差分析第8章零假設(shè)是真的所有的均值是一樣的:(沒有因素影響)8.4單因素方差分析第8章零假設(shè)不是真的至少一個均值是不一樣的(影響因素存在)or8.4單因素方差分析第8章8.4單因素方差分析2.選擇顯著性水平3.確定檢驗統(tǒng)計量方差分析的檢驗統(tǒng)計量是F統(tǒng)計量,公式如下:式中,n表示樣本總量;分別表示SSA和SSE的自由度;第8章F統(tǒng)計量是組間離差估計與組內(nèi)離差估計的比率比率必須是正的df1=r-1代表小的
df2=n-r代表大的決策:拒絕H0如果F>Fα,否則不拒絕H00
拒絕H0不拒絕H0Fα4.建立決策準則8.4單因素方差分析第8章
5.做出決策離差來源平方和自由度均方(方差)組間r-1MSA=組內(nèi)SSEn-rMSE=總離差SSTn–1SSAMSAMSEFr=組別數(shù)n=所有組的樣本容量和df=自由度SSAr-1SSEn-rFSTAT=單因素方差分析表8.4單因素方差分析
第8章表8-4不同類型商店出售的玩具價格統(tǒng)計試問在0.05的顯著性水平下,上述3種類型商店出售的玩具價格是否有差異?【例8-2】某玩具生產(chǎn)商想知道在不同類型的商店出售的玩具價格是否存在差異。隨機抽取5家折扣商店、5家雜貨商店和5家百貨商店進行調(diào)查,結(jié)果如表8-4所示。8.4單因素方差分析第8章解:并非所有均值都相等
要做出ANOVA總結(jié)表,首先要計算每組的樣本均值,然后加總所有的觀測值并除以觀測值的數(shù)量,從而得到全局均值:8.4單因素方差分析第8章利用公式(8-2)~(8-4)得到平方和:8.4單因素方差分析第8章從而,運用公式(8-6)計算得檢驗統(tǒng)計量的值為:
當α=0.05,查F分布表可查右側(cè)臨界值
,因為所以拒絕原假設(shè),即不同類型的商店出售的玩具價格存在顯著差異。8.4單因素方差分析
第8章說出哪個總體均值是顯著不同的例:μ1=μ2
μ3在單因素方差分析中拒絕同等均值可以成對比較絕對均值差異與臨界極差的對比xμ1
=μ2μ38.4.3多重比較檢驗8.4單因素方差分析第8章LSD方法Bonferroni方法Turkey方法常用的多重比較檢驗方法8.4單因素方差分析第8章LSD方法稱為最小顯著性差異(LeastSignificanceDifference)法。最小顯著性差異法體現(xiàn)了其檢驗敏感性高的特點,即水平間的均值只要存在一定程度的微小差異就可能被檢驗出來。LSD方法的檢驗統(tǒng)計量為t統(tǒng)計量,其定義為:式中,MSE表示觀測變量的組內(nèi)方差;以及分別表示第i個和第j個水平下觀測變量的樣本均值和樣本量。1.LSD方法8.4單因素方差分析第8章Bonferroni方法與LSD方法基本相同。不同的是Bonferroni方法對犯第一類錯誤的概率進行了控制。兩總體均值差的置信區(qū)間為:2.Bonferroni方法8.4單因素方差分析第8章與LSD方法有所不同,Tukey方法中采用的檢驗統(tǒng)計量是q統(tǒng)計量,其定義為式中,MSE表示觀測變量的組內(nèi)方差;k表示各水平下觀測值的個數(shù),即樣本量。3.Turkey方法
8.4單因素方差分析第8章8.5.1問題的提出8.5.2無交互作用的雙因素方差分析8.5.3有交互作用的雙因素方差分析8.5雙因素方差分析第8章在許多實際問題中,往往需要同時考察幾個因素對指標的影響,這種同時研究兩個因素對試驗指標影響的方差分析,就是雙因素方差分析問題。由于存在兩個因素的影響,就產(chǎn)生一個新問題,兩因素對指標的影響是否正好是它們每個因素對指標的影響的迭加?這種各個因素的不同水平的搭配所產(chǎn)生的新的影響在統(tǒng)計上稱為交互作用,各因素是否存在交互作用是多因素方差分析新產(chǎn)生的問題。8.5.1問題的提出8.5雙因素方差分析第8章雙因素方差分析無交互作用的雙因素方差分析有交互作用的雙因素方差分析8.5雙因素方差分析第8章設(shè)有A、B兩個因素影響試驗結(jié)果,即有兩個控制變量。因素A有r個水平,因素B有s個水平,因素A、B的不同水平的每種組合都只做一次試驗(觀察),在這種情況下,因素A、B之間沒有交互作用。其數(shù)據(jù)結(jié)構(gòu)如下:8.5.2無交互作用的雙因素方差分析8.5雙因素方差分析第8章在無交互作用的雙因素方差分析中,觀測變量值的變動受因素A、因素B及隨機因素的影響。觀測變量的總變差分解為:式中,SST表示觀測變量的總變差;SSA、SSB分別表示控制變量A、B獨立作用引起的變差;SSE表示隨機因素引起的變差。8.5雙因素方差分析第8章無交互作用的雙因素方差分析的主要任務是:分析因素A和因素B對觀測變量的影響大小。這一問題等價于以下兩種假設(shè)。在總體分布的正態(tài)性、等方差性條件滿足時,可用F統(tǒng)計量進行檢驗。8.5雙因素方差分析第8章對于
,檢驗統(tǒng)計量為:對于
,檢驗統(tǒng)計量為:
對于選定的顯著性水平α,查找F分布臨界值表,得臨界值,將FA與臨界值進行比較,
如果
,則拒絕原假設(shè),認為因素A對觀測變量有顯著影響。同理,查找臨界值,將FB與臨界值進行比較,如果,則拒絕原假設(shè),即認為因素B對觀測變量有顯著影響。8.5雙因素方差分析第8章來源平方和自由度均方和FAB誤差合計SSASSBSSESSTr-1s-1(r-1)(s-1)nT-1
無交互作用的雙因素方差分析表8.5雙因素方差分析第8章Ⅰ
Ⅱ
Ⅲ甲乙丙丁5063
524754
424757
415358
4855.047.748.353.049.358.045.8機器B工人A【例8-3】設(shè)甲、乙、丙、丁四個工人操作機器Ⅰ、Ⅱ、Ⅲ各一天,其產(chǎn)品產(chǎn)量如表8-8所示,問在0.05的顯著性水平下,工人和機器對產(chǎn)品產(chǎn)量是否有顯著影響。8.5雙因素方差分析
第8章
解:利用公式(8-11)~(8-13),求解得:8.5雙因素方差分析第8章
由公式(8-14)和(8-15),計算可得檢驗統(tǒng)計量的值分別為:對于顯著性水平0.05,查F分布表,得F分布的右側(cè)臨界值分別為:顯然有因此,在0.05的顯著性水平下,工人和機器對產(chǎn)量均有顯著影響。8.5雙因素方差分析第8章如果因素A和因素B沒有交互作用,則只需要在各個組合水平下各做一次試驗就可以進行方差分析。但是,如果因素A和因素B有交互作用,這時必須在各個組合水平下做重復試驗方可進行方差分析。對于有交互作用的方差分析,與無交互作用的方差分析思想完全相同,只是對離差總平方和進行分解時增加交互項的影響。8.5.3有交互作用的雙因素方差分析8.5雙因素方差分析第8章
有交互作用的雙因素方差分析數(shù)據(jù)結(jié)構(gòu)8.5雙因素方差分析第8章在有交互作用的雙因素方差分析中,觀測變量值的變動受因素A、因素B、因素A和因素B交互作用及隨機因素的影響。觀測變量的總變差的分解式為:8.5雙因素方差分析第8章有交互作用的雙因素方差分析的主要任務是:分析因素A和因素B對觀測變量取值的影響大小,以及因素A、B交互作用對觀測變量取值的影響大小。檢驗統(tǒng)計量分別為:8.5雙因素方差分析第8章來源平方和自由度均方和FASSABSSBABSSAB誤差SSE合計SST有交互作用的雙因素方差分析表8.5雙因素方差分析第8章【例8-4】為了提高某產(chǎn)品的得率,研究了提取溫度(A)和提取時間(B)對產(chǎn)品得率的影響。提取溫度(A)有3個水平,A1為80℃、A2為90℃、A3為100℃;提取時間B有3個水平,B1為40min,B2為30min,B3為20min,共組成9個水平處理組合,每個水平組合含3個重復。實驗結(jié)果如表8-12所示,試分析提取溫度和提取時間對該產(chǎn)品得率的影響。提取時間提取溫度B1B2B3A1888776656A2998796876A37768781099提取溫度和提取時間對產(chǎn)品得率的影響8.5雙因素方差分析
第8章方差來源SSdfMSFP-value時間1.55555620.7777781.31250.293702溫度交互內(nèi)部6.22222222.2222210.6666724183.1111115.5555560.5925935.259.3750.015990.000281總計40.6666726
時間要素P值=0.293702>0.05,說明不同處理時間之間無顯著差異。
溫度要素P值=0.01599,,說明不同處理溫度之間有差異。
時間要素與溫度要素交互P值=0.000281<0.01,說明不同時間與溫度的交互作用對得率有極顯著差異。解:因素A“提取溫度”有3個水平,每個水平有9例,因素B“提取時間”有3個水平,每個水平有9例。
由于有交互作用的雙因素方差分析計算量較大,所以此處省略計算過程,其計算結(jié)果如下表所示:8.5雙因素方差分析第8章1.方差分析實現(xiàn)的是多個總體均值是否相等的檢驗,此方法為什么稱作方差分析?2.方差分析的假設(shè)條件是什么?3.什么是總平方和?組間平方和?組內(nèi)平方和?4.方差分析的一般步驟是什么?第9章一元線性回歸分析9.1相關(guān)分析9.2回歸分析9.3一元線性回歸模型的假定及系數(shù)估計9.4一元線性回歸模型的檢驗9.5一元線性回歸模型的預測9.6用Stata軟件進行相關(guān)性分析和回歸分析第9章一元線性回歸分析全面理解相關(guān)分析和回歸分析的含義、分類、主要內(nèi)容及兩者之間的關(guān)系;掌握一元線性回歸模型的基本假定;掌握普通最小二乘法(OLS)的基本原理,能夠應用OLS估計一元線性回歸模型的參數(shù)并檢驗其有效性;掌握一元線性回歸模型的點預測和區(qū)間預測;掌握Stata軟件操作方法,能夠應用Stata軟件解決一元線性回
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)文化對市場影響的分析試題及答案
- 全面掌握:人力資源管理師考試試題及答案
- 第17課 彩虹的形成(教學設(shè)計)五年級科學上冊同步高效課堂系列(冀人版)
- 教師資格證考試常識試題及答案
- 黑龍江省七臺河市2025年初三下學期3月練習卷物理試題試卷含解析
- 黑龍江省佳木斯市建三江一中2025年高三下學期防疫期間“停課不停學”網(wǎng)上周考(二)化學試題含解析
- 黑龍江省雙鴨山市第三十一中學2024-2025學年高考數(shù)學試題沖刺試題含解析
- 黑龍江省哈爾濱市實驗中學2024-2025學年高三英語試題模擬試題含解析
- 黑龍江省哈爾濱市高中名校2025年高三3月份第一次模擬考試物理試題試卷含解析
- 黑龍江省大慶市一中2024-2025學年高三階段性測試(二)數(shù)學試題B卷含解析
- 2025年湖南省長沙市開福區(qū)審計局招聘4人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 人教PEP版英語五年級下冊全冊教案
- 基礎(chǔ)護理學試題及標準答案
- 2025年四川成都市蒲江鄉(xiāng)村建設(shè)發(fā)展集團有限公司招聘筆試參考題庫附帶答案詳解
- 2024版房產(chǎn)經(jīng)紀人無底薪勞動協(xié)議
- 2025年上半年度交通運輸部南海航海保障中心公開招聘126人工作人員易考易錯模擬試題(共500題)試卷后附參考答案
- 社戒社康培訓
- 招聘團隊管理
- 船舶建造流程
- 低氧血癥護理查房
- 小學一年級數(shù)學20以內(nèi)的口算題(可直接打印A4)
評論
0/150
提交評論