統(tǒng)計學(xué) 參數(shù)估計和假設(shè)檢驗_第1頁
統(tǒng)計學(xué) 參數(shù)估計和假設(shè)檢驗_第2頁
統(tǒng)計學(xué) 參數(shù)估計和假設(shè)檢驗_第3頁
統(tǒng)計學(xué) 參數(shù)估計和假設(shè)檢驗_第4頁
統(tǒng)計學(xué) 參數(shù)估計和假設(shè)檢驗_第5頁
已閱讀5頁,還剩128頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學(xué)制作:安徽大學(xué)商學(xué)院洪文統(tǒng)計學(xué)

版權(quán)所有,未經(jīng)準許,不得翻制3第五章參數(shù)估計和假設(shè)檢驗

第一節(jié)抽樣分布

第二節(jié)

參數(shù)估計第三節(jié)假設(shè)檢驗的基本原理第四節(jié)幾種常見的假設(shè)檢驗第五節(jié)方差分析附錄6用SPSS進行參數(shù)估計和假設(shè)檢驗4第一節(jié)抽樣分布

從總體中抽取樣本的方法有很多,根據(jù)抽取的原則不同,抽樣方法可分為隨機抽樣法和非隨機抽樣法兩種。隨機抽樣法又稱概率抽樣法,即樣本的抽取按照一定的概率原則,不依據(jù)個人的主觀意愿,隨機性地從總體中抽取樣本。相應(yīng)的,非隨機抽樣法又稱為非概率抽樣法,即樣本的抽取不是按照一定的概率原則,而是根據(jù)人們的主觀經(jīng)驗或其他條件來抽取樣本。5第一節(jié)抽樣分布

抽樣推斷在通常情況下都是建立在隨機抽樣的基礎(chǔ)上的,因為這種方法在保證所抽取的樣本具有總體代表性的前提下,還可以用一定的概率來保證抽樣誤差被控制在規(guī)定的范圍之內(nèi)。6第一節(jié)抽樣分布

一、簡單隨機抽樣(SimpleRandomSampling)

(一)什么是簡單隨機抽樣?簡單隨機抽樣也稱為純隨機抽樣,是從總體N個單位中任意抽取n個單位作為樣本,而且每個單位可能被抽中的概率相等的一種抽樣方法。按照樣本抽選時每個單位是否允許被重復(fù)抽中,簡單隨機抽樣可分為重復(fù)抽樣和不重復(fù)抽樣兩種。7第一節(jié)抽樣分布

重復(fù)抽樣是指從總體的N個單位中抽取一個單位數(shù)為n的樣本,每次抽出一個單位,登記其特征后,再放回總體再抽,這樣連續(xù)抽n次即得到所需樣本。特點:(1)同一總體單位可能被重復(fù)抽中;(2)每次抽取是獨立的,都是在N個總體單位中抽一個。例如,從20個總體單位中抽取2個,若第一次抽中5號,第二次還有抽中5號單位的可能。第一次抽取的結(jié)果并不影響第二次抽取的結(jié)果,每次抽取各總體單位被抽中的概率都是1/N。8第一節(jié)抽樣分布

不重復(fù)抽樣是指從總體中隨機抽取一個單位,登記其特征后不再放回總體中,下一個樣本單位再從余下的總體單位中抽取,這樣連續(xù)抽取n次即得到一個單位數(shù)為n的樣本。不重復(fù)抽樣方法的特點是:

(1)同一總體單位不可能被再次抽?。?/p>

(2)每次抽取不是獨立的,上次抽取的結(jié)果要影響下次抽取的結(jié)果,每次抽取是在不同數(shù)目的總體單位中進行的。9第一節(jié)抽樣分布

例如,從10個總體單位中抽取3個單位構(gòu)成樣本,若第一次抽中6號單位,第二次只能在其余9個單位中抽取,不可能再抽到6號單位,同理第三次只能在余下的8個單位中抽取。在抽樣調(diào)查中,特別是對社會經(jīng)濟現(xiàn)象的抽樣調(diào)查中,簡單隨機抽樣一般是指不重復(fù)抽樣。簡單隨機抽樣是其他隨機抽樣方法的基礎(chǔ),因為它在理論上最容易處理,而且當(dāng)總體單位數(shù)N不太大時,實施起來也不困難。10第一節(jié)抽樣分布

(二)簡單隨機抽樣的實施方法常用簡單隨機抽樣方法有兩種:抽簽法和隨機數(shù)字表法。隨機數(shù)字表法:首先對總體元素編號,確定位數(shù)(總體位數(shù)+1),選定列數(shù)和起點。確定樣本個數(shù),符合總體編號的元素就被選中,達到樣本個數(shù)中止。

11第一節(jié)抽樣分布

抽樣的目的就是要根據(jù)樣本的統(tǒng)計量去估計總體的參數(shù),如根據(jù)樣本均值估計總體均值,根據(jù)樣本比例p估計總體比例等。但在做這樣的估計之前,必須要知道樣本統(tǒng)計量的概率分布。由前面的介紹可知,從總體中抽取樣本的方法有多種,而簡單隨機抽樣是最常用的一種方法,以下討論的就是在簡單隨機抽樣方法下有關(guān)抽樣分布的問題。12第一節(jié)抽樣分布

什么是抽樣分布呢?可以這樣理解:在抽樣過程中,由于樣本是隨機抽取的,因此統(tǒng)計量(樣本的函數(shù))是一個隨機變量,其形成的概率分布稱為抽樣分布,它是進行統(tǒng)計推斷的理論基礎(chǔ)。13第一節(jié)抽樣分布

一、單一樣本統(tǒng)計量的抽樣分布當(dāng)我們要對某一總體的參數(shù)進行估計時,就要研究來自該總體的所有可能樣本統(tǒng)計量的分布問題,比如樣本均值的分布、樣本比例的分布等,目的是概括有關(guān)統(tǒng)計量抽樣分布的一般規(guī)律。(一)樣本均值的抽樣分布

1、樣本均值抽樣分布的構(gòu)成14第一節(jié)抽樣分布2、樣本均值抽樣分布的特征如同描述總體數(shù)據(jù)的數(shù)量特征一樣,要反映樣本均值的數(shù)量特征,同樣也需要計算樣本均值的平均數(shù)(集中趨勢值)和標準差(離散程度值)。數(shù)理統(tǒng)計證明樣本均值抽樣分布有如下兩個主要特征值(證明從略):

*無論是重復(fù)抽樣還是不重復(fù)抽樣,樣本均值的期望值總是等于總體均值,即15第一節(jié)抽樣分布

*樣本均值的標準差總是小于總體標準差,其關(guān)系表現(xiàn)為:

公式中樣本均值的標準差反映所有可能樣本均值與其中心的平均離散程度,可用于衡量樣本對總體的代表性大小。16第一節(jié)抽樣分布

對比上面兩個公式可以看出二者僅相差系數(shù)[(N-n)/(N-1)]0.5,,該系數(shù)通常被稱為有限總體修正系數(shù)。在實際應(yīng)用中,這一系數(shù)常常被忽略不計,主要是因為:對于無限總體進行不重復(fù)抽樣時,由于N未知,此時樣本均值的標準差仍可重復(fù)抽樣來處理;對于有限總體,當(dāng)N很大,其修正系數(shù)趨于1,通常在樣本容量n小于總體容量N的5%,即n/N≤5%時,有限總體修正系數(shù)就可以忽略不計了。17第一節(jié)抽樣分布3、樣本均值抽樣分布的形狀上面介紹了樣本均值抽樣分布的均值和標準差,但我們還不知道其抽樣分布的形狀。如果樣本均值所圍繞的總體均值的抽樣分布的形狀不同,則推斷的概率界限便不同。通常,樣本均值抽樣分布的形狀與下述抽樣分布定理有關(guān)。18第一節(jié)抽樣分布*正態(tài)分布再生定理如果總體服從正態(tài)分布,總體均值為、總體標準差為,則從這個總體中抽取容量為n的隨機樣本,樣本均值的抽樣分布也服從于正態(tài)分布,其平均數(shù)仍為,其標準差為*

。這條定理表示,只要總體分布是正態(tài)的,在總體標準差已知時,則不管樣本單位數(shù)是多少,樣本均值都服從正態(tài)分布,分布的中心不變。19第一節(jié)抽樣分布

而標準差x

則視重復(fù)抽樣或不重復(fù)抽樣分別為:

例1某罐頭廠出口鮮蘑菇罐頭,已知每瓶罐頭的凈重服從正態(tài)分布,平均每瓶罐頭重量為184克,標準差為2.5克,若隨機抽取16罐作為樣本,試求:(a)樣本平均重量的數(shù)學(xué)期望與標準差值;(b)樣本平均重量的抽樣分布的形狀;(c)樣本罐頭平均重量超過184.5克的概率是多少?20第一節(jié)抽樣分布

(a)

(b)由于已知總體重量服從正態(tài)分布,且=184,=2.5,依據(jù)正態(tài)分布再生定理得:樣本均值的抽樣分布也是正態(tài)分布。服從N(184,0.6252)。21第一節(jié)抽樣分布

結(jié)果表明:隨機抽取16罐樣本罐頭,平均重量超過184.5克的概率是21.19%(查表和演示)。22第一節(jié)抽樣分布*中心極限定理對任意分布形狀的平均數(shù)為,標準差為的總體進行隨機抽樣,只要樣本容量足夠大,則樣本均值抽樣分布逼近期望值為,標準差為x的正態(tài)分布。其中標準差x視重復(fù)抽樣或不重復(fù)抽樣分別為:23第一節(jié)抽樣分布

在實際應(yīng)用中,中心極限定理所說的樣本“足夠大”,可以理解為n在30以上。就是說,在處理實際問題時,只要樣本容量n>30,即使總體明顯是偏態(tài)的,樣本均值的抽樣分布仍近似服從正態(tài)分布?,F(xiàn)舉例說明其應(yīng)用。24第一節(jié)抽樣分布

例2某地區(qū)高考學(xué)生的入學(xué)考試成績均值為550分,標準差為250分,若從考生中隨機抽取100名,求:(a)樣本平均成績的數(shù)學(xué)期望與標準差值;(b)分析樣本平均成績的抽樣分布;(c)樣本平均成績在520~580分之間的概率有多大?(d)樣本平均成績小于580分的概率有多大?

解:(a)25第一節(jié)抽樣分布(b)雖然總體成績的分布形態(tài)未知,但已知,且n=100為大樣本,依據(jù)中心極限定理得:樣本均值的抽樣分布近似服從正態(tài)分布。26第一節(jié)抽樣分布

例3已知某單位有2000名職工,平均每人每年醫(yī)療費用為1200元,標準差為380元,若隨機抽取100名職工,求:(a)樣本平均醫(yī)療費用的數(shù)學(xué)期望與標準差是多少?(b)樣本平均醫(yī)療費用的抽樣分布怎樣?(c)樣本平均醫(yī)療費用在1100元至1350元之間的概率。解:(a)27第一節(jié)抽樣分布(b)雖然總體成績的分布形態(tài)未知,但已知,且n=100為大樣本,依據(jù)中心極限定理得:樣本均值的抽樣分布近似服從正態(tài)分布。28第一節(jié)抽樣分布(二)樣本比例的抽樣分布樣本比例即指樣本中具有某種特征的單位所占的比例,如樣本合格率、樣本失業(yè)率等。在許多管理問題中,都要用樣本的比例p去估計相應(yīng)總體的比例P(總體均值P,方差P(1-P)),因此掌握樣本比例的抽樣分布問題就顯得十分必要。樣本比例是一種特殊的樣本均值*,故樣本比例的抽樣分布就是前述樣本均值分布的一個特例。29第一節(jié)抽樣分布

根據(jù)前面介紹的內(nèi)容,顯然樣本比例的分布屬于二項分布問題,當(dāng)樣本容量n足夠大時,即nP與n(1-P)都不小于5時,樣本比例的抽樣分布近似為正態(tài)分布(說明、演示)。在大樣本情況下,樣本比例的抽樣分布特征值可概括如下:*無論是重復(fù)抽樣還是不重復(fù)抽樣,樣本比例p的數(shù)學(xué)期望總是等于總體比例P,即

E(p)=P30第一節(jié)抽樣分布

而樣本比例p的標準差為p,其計算公式為:31第一節(jié)抽樣分布

例4已知某廠零件加工不合格率達到6%,現(xiàn)從中隨機抽取100件,求:(a)樣本不合格率的期望值與標準差;(b)此時樣本不合格率的抽樣分布如何?(c)樣本不合格率在4%以上的可能性有多大?

解:(a) P=0.06,n=100

E(p)=P=0.0632第一節(jié)抽樣分布(b)由于已知P=0.06,n=100,所以nP=6,n(1-P)=94,均大于5,所以樣本不合格率的抽樣分布近似為正態(tài)分布。服從N(0.06,0.02372)。33第一節(jié)抽樣分布

二、兩個樣本統(tǒng)計量的抽樣分布當(dāng)我們要對兩個總體有關(guān)參數(shù)的差異進行估計時,就要研究來自這兩個總體的所有可能樣本相應(yīng)統(tǒng)計量差異的抽樣分布,比如,樣本均值差異的抽樣分布,樣本比例差異的抽樣分布等。34第一節(jié)抽樣分布

(一)兩個樣本均值差異的抽樣分布若從總體X1和總體X2中分別獨立地抽取容量為n1和n2的樣本,則由兩個樣本均值之差的所有可能取值形成的概率分布稱為兩個樣本均值差異的抽樣分布。假設(shè)總體X1和總體X2的均值分別是1和2,標準差分別是1和2,則兩個樣本均值之差的抽樣分布可概括為以下兩種情況:35第一節(jié)抽樣分布1、若總體X1~N(1,1),總體X2~N(2,2),則2、若兩個總體都是非正態(tài)總體,當(dāng)兩個樣本容量n1和n2都足夠大時,依據(jù)中心極限定理,兩個樣本均值之差分別近似服從正態(tài)分布,故36第一節(jié)抽樣分布

例5某家具公司在市區(qū)和郊區(qū)開辦兩個家具城,根據(jù)某年的銷售統(tǒng)計,得資料如下:總體平均消費額(元)總體標準差(元)市區(qū)4000800郊區(qū)3500900

若分別從市區(qū)和郊區(qū)的消費者中隨機抽取36人和49人,問:37第一節(jié)抽樣分布(1)樣本平均消費額差異的抽樣分布怎樣?(2)樣本平均消費額差異的標準差是多少?(3)樣本平均消費額差異在總體平均消費額差異附近±2倍的抽樣標準差之間的概率為多少?

解:(1)由于兩個隨機樣本是獨立大樣本,所以樣本平均消費額差異的抽樣分布近似為正態(tài)分布。樣本平均消費額差異的的均值為500。38第一節(jié)抽樣分布(2)兩個總體標準差分別已知,所以樣本平均消費額差異的標準差是:

(3)查正態(tài)分布概率表得:樣本平均消費額差異在總體平均消費額差異附近±2倍的抽樣標準差之間的概率即為95.45%。39第一節(jié)抽樣分布

(二)兩個樣本比例差異的抽樣分布若從總體X1和總體X2中分別獨立地抽取容量為n1和n2的樣本,則由兩個樣本比例之差p1-p2的所有可能取值形成的概率分布稱為兩個樣本比例差異的抽樣分布。假設(shè)兩個總體的比例分別是P1和P2,當(dāng)n1和n2足夠大時,即n1P1與n1(1-P1)且n2P2與n2(1-p2)都不小于5時,根據(jù)中心極限定理,pl和p2分別近似服從正態(tài)分布,故40第一節(jié)抽樣分布

例6據(jù)某中學(xué)醫(yī)務(wù)室體檢結(jié)果的統(tǒng)計,男、女生配戴近視眼鏡的比例分別為32%和45%,若分別從男生和女生中隨機抽取100人和150人,問:(1)兩個樣本中戴眼鏡比例差異的抽樣分布怎樣?(2)樣本比例差異的標準差是多少?(3)樣本比例差異在總體比例差異附近±2.58倍的抽樣標準差之間的概率為多少?41第一節(jié)抽樣分布

解:(1)設(shè)P1=32%,n1=100,P2=45%,n2=150

由于n1P1與n1(1-P1)且n2P2與n2(1-P2)都不小于5,所以樣本比例差異的抽樣分布近似為正態(tài)分布。樣本比例差異的均值為0.07。

(2)樣本比例差異的的標準差是:42第一節(jié)抽樣分布(3)查表得:樣本比例差異在總體比例差異附近±2.58倍的抽樣標準差之間的概率為99%。43第二節(jié)參數(shù)估計所謂參數(shù)估計也就是用樣本統(tǒng)計量去估計總體的參數(shù)。比如,用樣本均值估計總體均值,用樣本比例p估計總體比例P,等等。參數(shù)估計的方法有點估計和區(qū)間估計兩種,下面分別予以介紹。44第二節(jié)參數(shù)估計

一、參數(shù)估計的基本原理

1、幾個基本概念

(1)參數(shù)(Parameter)

參數(shù)是用來描述總體特征的概括性數(shù)值。如總體均值()、總體比例(P)等。在進行推斷統(tǒng)計時,總體數(shù)據(jù)通常是不完全的,所以參數(shù)是一個未知的常數(shù)。45第二節(jié)參數(shù)估計(2)統(tǒng)計量(Statistic)

統(tǒng)計量是用來描述樣本特征的概括性值(樣本的函數(shù))。如樣本均值、樣本比例(p)等。由于樣本是經(jīng)過隨機抽樣確定的,所以統(tǒng)計量是隨機變量,可以根據(jù)抽樣結(jié)果計算出具體的數(shù)值。推斷統(tǒng)計的目的就是要根據(jù)已知樣本統(tǒng)計量去估計未知總體參數(shù)。例如,根據(jù)樣本職工的平均收入去推斷總體職工的平均收入;根據(jù)樣本產(chǎn)品的合格率去推斷總體產(chǎn)品的合格率,等等。46第二節(jié)參數(shù)估計(3)估計量(Estimator)

估計量是用于估計總體參數(shù)的統(tǒng)計量的名稱。例如,根據(jù)樣本汽車的平均價格去估計總體汽車的平均價格時,樣本汽車的平均價格就是估計量。顯然,樣本是隨機的,所以估計量也是一個隨機變量(對于總體均值參數(shù),樣本均值,最大值,最小值都可以是總體均值的估計量)。47第二節(jié)參數(shù)估計(4)估計值(Estimate)

根據(jù)隨機抽樣的結(jié)果計算的估計量的具體數(shù)值即為估計值。例如,根據(jù)某次抽樣結(jié)果計算得樣本旅客的平均通過安檢的時間為167.77秒,用于估計總體旅客的平均通過安檢的時間,這個167.77秒就是估計值。48第二節(jié)參數(shù)估計

二、點估計(Pointestimate)

點估計就是用樣本估計量的觀察值直接作為總體參數(shù)的估計值。比如,用樣本均值直接作為總體均值的估計值,用樣本比例p直接作為總體比例P的估計值,等等。49第二節(jié)參數(shù)估計

例72006年中國民航業(yè)迅猛發(fā)展,民航旅客的滿意度越來越受到社會的關(guān)注,其中機場安全檢查的通過時間就是關(guān)系到旅客滿意度的重要指標之一,調(diào)查員于2006年年底在某機場的某個安檢通道隨機抽取了35位旅客,測量他們通過安全檢查的時間如下(單位:秒):

50第二節(jié)參數(shù)估計 86158229180145295158 204187471122339089 1761382512227597165 11821016936270167130 1899525014398539121

根據(jù)此樣本數(shù)據(jù),對同期該機場旅客的平均安檢通過時間以及通過安檢時間在3分鐘及以上旅客所占比例作出點估計。51第二節(jié)參數(shù)估計

解:根據(jù)抽樣調(diào)查的35個數(shù)據(jù)計算得樣本平均通過時間為167.77秒,樣本數(shù)據(jù)中通過時間在3分鐘以上者占34.29%(演示)。據(jù)此可以估計同期該機場所有旅客通過安檢通道的平均時間為167.77秒,而通過時間在3分鐘及以上者占34.29%。這里的167.77秒和34.29%就作為整個機場旅客的平均安檢通過時間和通過時間在3分鐘及以上者比例的估計值,這些都是采用點估計方法。52第二節(jié)參數(shù)估計*點估計優(yōu)良性評價的標準在上述點估計問題中,為了估計機場旅客的平均安檢通過時間,我們是用樣本安檢通過時間均值作點估計的,這里能否利用樣本的中位數(shù)作點估計呢(樣本中某人時間太長效果就不好)?實際上,我們在對具體問題的估計中總是希望使用估計效果最好的估計量,而數(shù)理統(tǒng)計證明,一個好的估計量一定滿足以下幾個評價標準:53第二節(jié)參數(shù)估計(1)無偏性(Undiasedness)

無偏性是指估計量抽樣分布的數(shù)學(xué)期望等于被估計的總體參數(shù)。這表明,從一次抽樣結(jié)果來看,樣本估計量的值與總體參數(shù)可能存在誤差,但結(jié)合抽樣分布的情況,所有估計量的平均數(shù)等于總體參數(shù)實際值,即平均來講估計是無偏的??梢哉f樣本均值和樣本比例p分別是總體均值和總體比例P的無偏估計量(樣本標準差除n-1就是為了滿足無偏性)。54第二節(jié)參數(shù)估計(2)有效性(Efficiency)

有效性是指估計量的離散程度比較小。對估計量有效性的評價往往是在無偏性基礎(chǔ)之上進行的,若兩個估計量都是總體參數(shù)的無偏估計量,則標準差較小的估計量更有效。很明顯,樣本均值與樣本中某個值都是總體均值的無偏估計,即55第二節(jié)參數(shù)估計

但是樣本均值抽樣分布的標準差為:

樣本均值X抽樣分布的標準差小于樣本中某個值的標準差,可以判斷樣本均值比樣本中某個值作為總體均值的估計值更有效(樣本均值也是最有效的估計量)。

56第二節(jié)參數(shù)估計(3)一致性(Consistency)

一致性是指隨著樣本容量的增大,估計量的值與總體參數(shù)真值越來越接近??梢宰C明,樣本均值和樣本比例p分別是總體均值和總體比例P的一致估計量。

在實際問題的分析中,我們不一定能找到完全符合以上標準的優(yōu)良估計量(樣本標準差滿足無偏性但不滿足有效性),但總是希望所采用的估計量盡可能接近這些標準。57第二節(jié)參數(shù)估計

理論證明,再重復(fù)抽樣的前提下,樣本均值作為總體均值的估計量、樣本比例作為總體比例的估計量,都具有上述優(yōu)良性質(zhì),所以,通常采用樣本均值或樣本比例作為相應(yīng)的總體均值或總體比例的點估計量。

58第二節(jié)參數(shù)估計

很明顯,點估計的優(yōu)點是簡單、具體、明確。它能夠提供總體參數(shù)的具體估計值,可以作為行動決策的數(shù)量依據(jù)。但要使點估計的結(jié)果恰好等于總體參數(shù)的值幾乎是不可能的,通??傆幸欢ǖ某闃诱`差,而點估計本身無法說明抽樣誤差的大小。若估計總體參數(shù)可能落在某一個區(qū)間內(nèi)就有把握多了,因此在實際問題估計中,我們更多地使用區(qū)間估計。59第二節(jié)參數(shù)估計

三、區(qū)間估計

1、區(qū)間估計的基本原理區(qū)間估計(IntervalEstimate)是在點估計的基礎(chǔ)上,根據(jù)給定的置信度估計總體參數(shù)取值范圍的方法。比如,根據(jù)樣本結(jié)果估計出民航旅客的通過安檢時間總體的均值介于150秒到200秒之間,而且估計的概率(可能性)是95%,這就是區(qū)間估計。我們以總體均值的區(qū)間估計為例說明區(qū)間估計的基本原理。60第二節(jié)參數(shù)估計

由上一節(jié)所講述的樣本均值的抽樣分布可知,在大樣本情況下,樣本均值近似服從正態(tài)分布,且樣本均值的數(shù)學(xué)期望等于總體均值,樣本均值的標準差為:

由此可以利用正態(tài)分布概率表確定樣本均值落在總體均值的兩側(cè)各為一個標準差范圍內(nèi)的概率為0.687;落在兩個標準差范圍內(nèi)的概率為0.9545,等等。61第二節(jié)參數(shù)估計

依此類推,我們可以求出樣本均值落在總體均值的兩側(cè)任何幾個標準差值的范圍內(nèi)的概率。但實際估計時,要求的情況恰好相反。樣本均值是已知的,而是未知的,怎樣根據(jù)樣本均值估計呢?62第二節(jié)參數(shù)估計

總體均值的區(qū)間估計的數(shù)學(xué)表達式可概括為(100個抽樣,100個區(qū)間,95個包含總體均值):

式中:區(qū)間上下端點稱為置信上限和下限;

1-表示該區(qū)間包括總體均值的概率;1-稱為置信水平;z/2稱為概率度,是標準正態(tài)分布的臨界值,依據(jù)給定的置信水平1-查表確定。63第二節(jié)參數(shù)估計2、區(qū)間估計的準確程度和可靠程度如前所述,點估計方法既不能說明抽樣誤差的大小,也不能說明估計的結(jié)果有多大把握程度,但區(qū)間估計方法可以彌補這一不足。64第二節(jié)參數(shù)估計z/2x是估計總體均值時的誤差范圍,表示用樣本均值估計時最大允許誤差,可見這一乘積的值越大,說明樣本均值與總體均值的誤差越大,則區(qū)間估計的準確性就越差;反之,這一乘積的值越小,說明樣本均值與總體均值的誤差越小,則區(qū)間估計的準確性就越好。65第二節(jié)參數(shù)估計置信水平1-則反映著區(qū)間估計的可靠程度,顯然置信水平越大,據(jù)此查正態(tài)概率表得到的概率度z值也越大,然而估計的誤差范圍z/2x也隨之越大,則估計的準確性就越差。上述分析說明,在其他條件不變的情況下,要提高區(qū)間估計的可靠程度,就會增大允許誤差,從而降低估計的準確程度;而縮小允許誤差,提高估計的準確程度,則會降低區(qū)間估計的可靠程度。66第二節(jié)參數(shù)估計3、區(qū)間估計的步驟現(xiàn)將總體均值的區(qū)間估計步驟歸納如下:

(1)確定置信水平1-,即估計的可靠性或把握程度。對于可靠性要求較高的統(tǒng)計問題,置信度要求也較高,實際統(tǒng)計推斷中通常采用95%。

(2)根據(jù)置信水平1-

,查標準正態(tài)分布表確定z/2值。

(3)實際抽樣,計算樣本均值和標準差x。

(4)確定置信區(qū)間。67第二節(jié)參數(shù)估計

前面給出了總體均值區(qū)間估計的一般步驟,在實際估計時,通常依據(jù)研究問題的不同或資料條件的不同而采用不同的處理方法,主要有大樣本情況下對單一總體均值的區(qū)間估計、小樣本情況下對單一總體均值的區(qū)間估計以及大樣本情況下對兩個總體均值之差的區(qū)間估計等幾種情況。68第二節(jié)參數(shù)估計

四、單一總體均值的區(qū)間估計1、大樣本

依據(jù)中心極限定理,我們不難判斷:只要進行大樣本(n>30)抽樣,無論總體是否服從正態(tài)分布,樣本均值的抽樣分布均近似為正態(tài)分布。當(dāng)總體標準差已知時,在重復(fù)抽樣情況下,總體均值在1-置信水平下的置信區(qū)間為:69第二節(jié)參數(shù)估計

如果采取的是有限總體不重復(fù)抽樣,而且抽取樣本數(shù)比較大(n/N>5%)時,則樣本均值抽樣分布的標準差應(yīng)乘以修正系數(shù):

這時總體均值在1-置信水平下的置信區(qū)間可以寫為:70第二節(jié)參數(shù)估計

當(dāng)總體標準差未知時,在大樣本條件下,則可以用樣本標準差s代替總體標差,這時無論總體是否服從正態(tài)分布,總體均值在1-置信水平下的置信區(qū)間可以寫為:71第二節(jié)參數(shù)估計

現(xiàn)在我們按照以上介紹的方法來解決例5.7中的相關(guān)問題。例8假定調(diào)查人員從該機場得到的信息是:雖然每個旅客通過安檢的時間有所不同,但每人通過安檢時間的總體標準差=100秒。試根據(jù)隨機抽樣的結(jié)果,在95%的置信水平下估計所有旅客的平均通過安檢時間的置信區(qū)間。解:由于n=35,此題屬于大樣本抽樣;72第二節(jié)參數(shù)估計

已知=100;當(dāng)天的旅客總量N未知,做出區(qū)間估計如下:樣本旅客等候時間的均值:

由已知1-=0.95,查標準正態(tài)分布概率表得:z0.025=1.96,于是在95%的置信水平下置信區(qū)間為:73第二節(jié)參數(shù)估計

結(jié)果表明:誤差范圍是33.13,總體均值在95%的置信水平下的置信區(qū)間為(134.6,200.9)。即調(diào)查人員可以95%的把握認為該抽查的安檢通道旅客通過安檢時間的總體均值介于134.64秒到200.9秒之間。74第二節(jié)參數(shù)估計

例9若已知當(dāng)天從該通道通過的旅客總量N=350人,調(diào)查人員是按照不重復(fù)抽樣的方法進行調(diào)查得到樣本數(shù)據(jù)的,假定總體標準差=100秒,試在95%的置信水平下估計該安檢通道所有旅客平均通過安檢時間的置信區(qū)間。解:由于n=35,為大樣本抽樣;=100;N=350,且n/N=10%>5%,做出區(qū)間估計如下:

在95%的置信水平下置信區(qū)間為:75第二節(jié)參數(shù)估計

結(jié)果表明:誤差范圍是31.47,總體均值在95%的置信水平下的置信區(qū)間為:(136.3,199.24)即調(diào)查人員可以95%的把握認為該安檢通道旅客通過安檢時間的總體均值介于136.3秒到199.24秒之間(為什么區(qū)間會變???)。76第二節(jié)參數(shù)估計

對比例8與例9會發(fā)現(xiàn),對于同樣的資料(信息不完全一樣),按照重復(fù)抽樣方法得到的置信區(qū)間略大些,說明重復(fù)抽樣的誤差大于不重復(fù)抽樣的誤差,但隨著總體容量增大,抽樣比會縮小,修正系數(shù)接近于1,兩種方法的抽樣誤差就趨于一致了。因此,盡管實際抽樣中一般是進行不重復(fù)抽樣的,但為了簡便計算,在大樣本情況下通常是按照重復(fù)抽樣方法估計置信區(qū)間的。77第二節(jié)參數(shù)估計

例10如果總體的旅客通過安檢的時間標準差未知,試根據(jù)上述隨機抽樣的結(jié)果,在95%的置信水平下估計該安檢通道的所有旅客平均通過安檢時間的置信區(qū)間。解:由于n=35,為大樣本抽樣;總體標準差未知,可以樣本的標準差s代替(區(qū)間變大變小不確定,有偶然性),做出區(qū)間估計如下:78第二節(jié)參數(shù)估計

在95%的置信水平下置信區(qū)間為:

結(jié)果表明:誤差范圍是30.26,總體均值在95%的置信水平下的置信區(qū)間為:

(137.51,198.03)。即調(diào)查人員可以95%的把握認為該安檢通道旅客通過安檢時間的總體均值介于137.51秒到198.03秒之間。79第二節(jié)參數(shù)估計2、小樣本

在實際工作中,為了經(jīng)濟節(jié)約,常常進行小樣本抽樣;或有時受條件限制(如帶有破壞性的檢查),做大樣本抽樣是十分困難的,所以實踐中利用小樣本對總體均值進行估計的情況較為常見。正如前一節(jié)所述,若總體服從正態(tài)分布,只要總體標準差已知,無論樣本容量如何,樣本均值的抽樣分布都服從正態(tài)分布,計算總體均值的置信區(qū)間和前面一樣。80第二節(jié)參數(shù)估計

例11假設(shè)研究人員于某日在該機場通道隨機抽取12位旅客的安檢通過時間組成樣本,得到樣本如下:

8616225021315995 2043212719732070

據(jù)以往情況知:安檢通過時間服從正態(tài)分布,且標準差為100秒。試以95%的置信水平估計平均通過時間的置信區(qū)間。81第二節(jié)參數(shù)估計

解:已知通過安檢的時間服從正態(tài)分布,且總體標準差=100,盡管n=12為小樣本,但依據(jù)正態(tài)分布再生定理,樣本均值的抽樣分布仍為正態(tài)分布。計算:樣本均值=187.33,1-=0.95,

z/2=1.96,估計得:82第二節(jié)參數(shù)估計

即187.33±56.58=(130.75,243.91)。也就是說,我們可以95%的概率估計該通道旅客通過安檢時間的總體均值介于130.75秒到243.91秒之間(效果比較差,是不是一定如此?)。83第二節(jié)參數(shù)估計

上面討論的樣本均值的分布都有一個前提,需要知道總體的標準差。而在抽樣估計的問題中,一般情況下總體的標準差是未知的,這時可以考慮用樣本的標準差s來代替,于是便得到一個新的統(tǒng)計量,即:

這個t的分布已不是正態(tài)分布了,稱t為服從自由度為n-1的t分布,記為T~t(n-1)。84第二節(jié)參數(shù)估計t分布與正態(tài)分布一樣都是對稱分布,但較正態(tài)分布離散度強,分布密度曲線較標準正態(tài)分布密度曲線更為扁平,t分布為一曲線族,隨著自由度n-1的增大,其曲線中部向上攏起,兩尾部向下低垂,逐漸逼近于標準正態(tài)曲線。因此,對于正態(tài)總體不明確的樣本均值的抽樣分布,首先要分清楚n是否大于30。不大于30,稱為小樣本,按t分布處理。反之,稱為大樣本,按z分布(正態(tài)分布)處理(演示)。85第二節(jié)參數(shù)估計86第二節(jié)參數(shù)估計t的取值在(-,+)之間,若計算樣本均值落在某一區(qū)間內(nèi)的概率可以通過查t分布表得到(見書后附表3,舉例說明)。如果總體服從正態(tài)分布,但是總體的標準差未知,且在小樣本抽樣情況下,則需要用樣本標準差s代替,這時應(yīng)采用t分布來建立總體均值在1-置信水平下的置信區(qū)間,公式為:87第二節(jié)參數(shù)估計

式中:t/2是自由度為n-1時,t分布中上側(cè)面積為/2時的t值,可通過書后附表3查得;s為樣本標準差。下面通過實例說明這種方法的應(yīng)用。88第二節(jié)參數(shù)估計

例12假設(shè)研究人員于某日在該機場隨機抽取12位旅客的安檢通過時間組成樣本,得到樣本如下:

8616225021315995 2043212719732070

據(jù)以往情況知:安檢通過的時間服從正態(tài)分布,且總體標準差未知。試以95%的置信水平估計平均通過時間的置信區(qū)間。89第二節(jié)參數(shù)估計

解:已知安檢通過的時間服從正態(tài)分布,且總體標準差未知,小樣本。根據(jù)樣本計算得:

樣本均值=187.33,s=90.20,1-=0.95,

t(0.025,11)=2.201,所以置信區(qū)間為:

即187.33±57.31=(130.02,244.64)。90第二節(jié)參數(shù)估計

也就是說,我們可以95%的概率估計該安檢通道旅客安檢通過時間的總體均值介于130.02秒到244.64秒之間(效果差,原因何在?)。

對比例11與例12可以看出,在小樣本情況下,由于ta/2>za/2,所以即使其他條件一樣,t分布置信區(qū)間的寬度會大于正態(tài)分布,因此在實際抽樣中,為了提高估計的精度,最好抽取大樣本。

91第二節(jié)參數(shù)估計

五、兩個總體均值差異的區(qū)間估計(大樣本)

在實際管理工作中,我們經(jīng)常需要對來自兩個不同總體的均值進行比較,如比較兩個地區(qū)平均收入的差異、比較兩種產(chǎn)品平均壽命的差異等,往往是利用樣本數(shù)據(jù)對這些情況做出估計。在上節(jié)中介紹了兩個樣本均值差異的抽樣分布理論,從中我們可以得出:若兩個樣本容量都較大(n1>=30且n2>=30),對兩個總體均值差異做區(qū)間估計的公式為:92第二節(jié)參數(shù)估計

上式適用于以下兩種情形:

(1)如果兩個總體都服從正態(tài)分布,標準差分別已知,即x1~N(1,1),x2~N(2,2)。(2)若兩個總體均不服從正態(tài)分布,分別從這兩個總體中隨機抽取兩個獨立樣本,當(dāng)兩個樣本容量n1和n2都足夠大時。93第二節(jié)參數(shù)估計

在此情形下,若兩個總體的標準差1和2未知,可分別以樣本的標準差s1和s2來代替。94第二節(jié)參數(shù)估計

例13機場為了提高顧客滿意度,在2006年下半年對機場的安檢設(shè)施進行了改良,有關(guān)調(diào)查人員想對比該機場2006年年底與年中抽查的安檢通道旅客平均通過時間的差異,于是在年中的機場數(shù)據(jù)中隨機抽取30名旅客的等待時間,得到數(shù)據(jù)如下:

9520445301168 45614116880536 18057513710815195第二節(jié)參數(shù)估計 13310515533695 21025116899177 16161163101147

將以上數(shù)據(jù)和例5.7的數(shù)據(jù)整理如下:年中年底樣本容量樣本均值樣本標準差30190.23130.135167.7796.1496第二節(jié)參數(shù)估計

根據(jù)以上整理的結(jié)果,試以95%的置信水平估計該機場年底與年中旅客平均通過安檢時間差異的置信區(qū)間。解:由于兩個樣本相互獨立,而且均為大樣本,因此樣本均值差異也近似服從正態(tài)分布,并以樣本標準差代替未知的總體標準差,所以在置信度95%時的置信區(qū)間為:97第二節(jié)參數(shù)估計

即(-33.95,78.87)。結(jié)果表明,可以95%的概率估計該安檢通道旅客總體通過安檢時間的差異介于-33.9秒到78.9秒之間。本例中,所求置信區(qū)間包含0,說明我們沒有足夠的理由認為該地區(qū)2006年年底與年中旅客的平均安檢通過時間有明顯差異(演示)。

98第二節(jié)參數(shù)估計

例14某研究機構(gòu)想要估計某城市與近郊地區(qū)家庭收入的差異狀況,隨機在這兩個地區(qū)抽取一定量的家庭構(gòu)成樣本,得到樣本家庭收入的資料如下:城區(qū)近郊家庭數(shù)年收入均值年收入標準差606000090004055000700099第二節(jié)參數(shù)估計

試以95%的置信水平估計兩個地區(qū)家庭平均收入差異的置信區(qū)間。解:由于大樣本抽樣,與上例情況相同,在95%的置信水平下置信區(qū)間為:

即(1855,8145)。100第二節(jié)參數(shù)估計

結(jié)果表明,在95%的置信水平下,兩個地區(qū)家庭的年平均收入差異的區(qū)間估計為1855元至8145元之間,即估計城市居民平均收入比郊區(qū)至少高1855元。101第二節(jié)參數(shù)估計可以得到以下結(jié)論:對于兩個總體均值差異的區(qū)間估計,如果所求置信區(qū)間的置信上限與下限均為正值,則意味著兩個總體均值實際之差可能為正,即1>2;如果所求置信區(qū)間的置信上限與下限均為負值,則意味著兩個總體均值實際之差可能為負,即1<2;如果所求置信區(qū)間包含0,則意味著不能判斷出兩個總體均值實際存在差異。102第二節(jié)參數(shù)估計六、單一總體比例的區(qū)間估計(大樣本)與總體均值的區(qū)間估計一樣,在對總體比例進行區(qū)間估計時,通常也分為對單一總體比例的區(qū)間估計以及對兩個總體比例之差的區(qū)間估計等情況。下面僅就大樣本情形分別予以介紹。在統(tǒng)計推斷問題中,常常需要推斷總體中具有某種特征的數(shù)量所占的百分比,這種隨機變量與二項分布有密切關(guān)系。103第二節(jié)參數(shù)估計

如前所述,二項分布當(dāng)nP與n(1-P)不小于5時,樣本的比例P的抽樣分布趨于正態(tài)分布。p的數(shù)學(xué)期望等于總體的比例P;而p的抽樣標準差在重復(fù)抽樣條件下為:

在利用樣本的比例p估計總體比例P時,由于P未知,大樣本情況下,我們可以用樣本比例p來代替P

,于是得:104第二節(jié)參數(shù)估計總體比例P在1-

置信水平下的置信區(qū)間為:105第二節(jié)參數(shù)估計

例15在例7問題中,根據(jù)抽樣的結(jié)果,試以95%的概率估計該機場通道年底的安檢通過時間在3分鐘及以上的旅客所占比例的置信區(qū)間。解:已知n=35,根據(jù)抽樣結(jié)果計算的樣本比例為p=12/35=34.29%,由于np與n(1-p)都大于5,假設(shè)當(dāng)天抽查的通道旅客總量N未知,依題意:1-

=95%,得Z/2=1.96106第二節(jié)參數(shù)估計

所以

即(18.56%,50.02%)。

也就是說,我們可以95%的概率估計該機場此通道年底的平均通過時間在3分鐘及以上的旅客所占比例在18.56%到50.02%之間(如果認為區(qū)間太寬怎么辦?)。

107第二節(jié)參數(shù)估計

例16某企業(yè)共有職工1000人。企業(yè)準備實行一項改革,在職工中征求意見,采取不重復(fù)抽樣方法隨機抽取200人作為樣本,調(diào)查結(jié)果顯示,有150人表示贊成該項改革,50人表示反對。試以90%的概率估計企業(yè)全部職工中贊成改革的人員比例的置信區(qū)間。解:已知n=200,根據(jù)抽樣結(jié)果計算的贊成改革的人數(shù)比例為p=150/200=75%。108第二節(jié)參數(shù)估計

由于np與n(1-p))都大于5,且n/N=200/1000=20%>5%,根據(jù)1-=90%,得Z/2=1.645

即75%土4.5%=(70.5%,79.5%)。109第二節(jié)參數(shù)估計

也就是說,我們可以90%的概率估計該企業(yè)職工中贊成改革的人數(shù)比例在70.5%到79.5%之間。

七、兩個總體比例差異的區(qū)間估計根據(jù)抽樣分布理論,可以判定,如兩個樣本容量足夠大,即指n1P1與n1(1-P1))且n2P2與n2(1-P2))都不小于5,p1和p2分別近似服從正態(tài)分布,則有:110第二節(jié)參數(shù)估計

在對總體參數(shù)進行估計時,由于總體比例P是未知的,所以需要以樣本比例p代替,因此,在1-置信水平下,兩個總體比例差異的置信區(qū)間為:111第二節(jié)參數(shù)估計

例17根據(jù)例13調(diào)查的資料,試以95%的概率估計該機場2006年年底與年中抽查的安檢通道旅客通過時間在3分鐘及以上者所占比例的差異的置信區(qū)間。解:根據(jù)樣本數(shù)據(jù)計算得:年中p1=9/30=30%,年底p2=12/35=34.29%,由n1p1=9,n1(1-p1)=21,且n2p2=12,n2(1-p2)=23均大于5,且為大樣本,因此p1-p2也近似服從正態(tài)分布。112第二節(jié)參數(shù)估計置信區(qū)間為:

即-0.0429±0.2272=(-0.2701,0.1843)

結(jié)果表明,以95%概率估計該機場此通道年底與年中的旅客安檢通過時間在3分鐘及以上的旅客所占比例差異的置信區(qū)間在-27%到18%之間,并未看出年底與年中存在明顯差異(演示)。113第二節(jié)參數(shù)估計八、樣本容量的確定所謂樣本容量是指抽取的樣本中包含的單位數(shù)目,通常表示為n。在對社會經(jīng)濟問題進行抽樣調(diào)查時,樣本容量的多少,與抽樣誤差和調(diào)查費用都有直接的關(guān)系。如果樣本容量很大,即使抽樣誤差很小,但是調(diào)查的工作量會很大,時間和經(jīng)費也會被浪費掉,這樣一來就體現(xiàn)不出來抽樣調(diào)查的優(yōu)越性。114第二節(jié)參數(shù)估計

反之,如果樣本容量過小,工作量和耗費會減少,但是抽樣誤差太大,抽樣推斷就會失去意義。所以抽樣設(shè)計中的一個重要內(nèi)容就是要確定需要的樣本容量即抽樣數(shù)目。關(guān)于樣本容量的確定方法,通常是根據(jù)所研究的具體問題,首先提出估計的置信度和允許的誤差范圍,然后結(jié)合經(jīng)驗值或抽樣數(shù)據(jù)估計總體的標準差值,再通過抽樣允許的誤差范圍計算公式推算必要的樣本容量。115第二節(jié)參數(shù)估計

下面僅就估計總體均值時所必需的樣本容量的確定和估計總體比例時所必需的樣本容量的確定方法做一概括介紹。

1、估計總體均值時所需樣本容量在重復(fù)抽樣條件下,若規(guī)定在一定的置信水平下允許的誤差范圍為E,即

則可以推導(dǎo)出確定樣本容量的計算公式如下:116第二節(jié)參數(shù)估計

同樣,在不重復(fù)抽樣條件下,我們可以得出確定樣本容量的公式為:

在實際應(yīng)用中,通常的值不知道,為了求得樣本容量,需要對作出估計,一般采用以往經(jīng)驗值或類似的樣本值s來代替。117第二節(jié)參數(shù)估計

例18研究人員欲估計2011年年底該機場此安檢通道旅客的平均通過時間是多少。已知當(dāng)日該通道旅客總量為350人,按照以往的經(jīng)驗,總體標準差約為100秒。要求在95%的置信水平下,使平均通過時間的誤差范圍不超出30秒,應(yīng)抽取多大的樣本?

解:已知N=350,=100,E=30,

1-=95%,z/2=1.96。118第二節(jié)參數(shù)估計

在重復(fù)抽樣條件下,得:

即應(yīng)抽職43名旅客作為樣本。在不重復(fù)抽樣條件下,得:

即應(yīng)抽取39名旅客作為樣本。119第二節(jié)參數(shù)估計2、估計總體比例時所需樣本容量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論