《正態(tài)分布》設(shè)計 全市一等獎_第1頁
《正態(tài)分布》設(shè)計 全市一等獎_第2頁
《正態(tài)分布》設(shè)計 全市一等獎_第3頁
《正態(tài)分布》設(shè)計 全市一等獎_第4頁
《正態(tài)分布》設(shè)計 全市一等獎_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《正態(tài)分布》教學(xué)設(shè)計(1)【教學(xué)目標(biāo)】(1)深刻理解并掌握正態(tài)分布和正態(tài)曲線的概念、意義及性質(zhì).(2)理解和掌握標(biāo)準(zhǔn)正態(tài)總體、標(biāo)準(zhǔn)正態(tài)曲線的概念、意義及性質(zhì).(3)能用正態(tài)分布、正態(tài)曲線研究有關(guān)隨機(jī)變量分布的規(guī)律.教學(xué)難點正態(tài)分布的意義及性質(zhì),標(biāo)準(zhǔn)正態(tài)總體,標(biāo)準(zhǔn)正態(tài)曲線的概念.如果說二項分布是離散型隨機(jī)變量最具典型意義的概率分布,那么連續(xù)型隨機(jī)變量最具典型意義的概率分布就是正態(tài)分布了。實踐中常見的一類連續(xù)型隨機(jī)變量,多數(shù)服從或近似服從正態(tài)分布。例如測量誤差、智商以及人體的身高體重、運動員的成績等等,都可以用正態(tài)分布進(jìn)行描述。一般地講,若影響某一變量的隨機(jī)因素很多,而每個因素所起的作用不太大且相互獨立,則這個變量服從正態(tài)分布。更為重要的是,正態(tài)分布還是抽樣理論和統(tǒng)計推斷的基礎(chǔ)。例如,不論總體是否服從正態(tài)分布,只要樣本容量n足夠大,樣本平均數(shù)的抽樣分布就趨于正態(tài)分布。正態(tài)分布的研究始于18世紀(jì),是最重要的概率分布,這是因為:①許多自然現(xiàn)象與社會現(xiàn)象,都可用正態(tài)分布加以敘述;②不少離散型隨機(jī)變量與連續(xù)型隨機(jī)變量的概率分布都以正態(tài)分布為其極限(即當(dāng)樣本相當(dāng)大時,可用正態(tài)近似法解決這些概率分布的問題);③許多統(tǒng)計量的抽樣分布呈正態(tài)分布,故在參數(shù)估計與假設(shè)檢驗上經(jīng)常以正態(tài)分布為理論基礎(chǔ)?!窘虒W(xué)重點】正態(tài)曲線的性質(zhì)【教學(xué)難點】對正態(tài)分布的理解及應(yīng)用課時安排:1課時1.正態(tài)分布的數(shù)學(xué)形式自本書第三章引出變量數(shù)列,我們便可以列舉出不少總體的分布很接近于正態(tài)分布,例如男性的身高。如果我們擁有的數(shù)據(jù)非常多,在編制變量數(shù)列時我們就可以把組分得很細(xì),并得到組距很小的直方圖?,F(xiàn)在想象,如果組越分越細(xì),并且縱軸采用頻率密度(=),直方圖最終就轉(zhuǎn)化為的概率密度曲線(X=x)(參見圖7.2)。很顯然,從圖7.2可以看出,這樣的平滑曲線如“鐘型”,它具有單峰、對稱這兩個特點,并且曲線向左、向右延伸,以橫軸為漸近線。上述實例,對于我們領(lǐng)會正態(tài)分布是很有啟發(fā)性的。根據(jù)經(jīng)驗總結(jié)和理論分析可知,正態(tài)分布的概率密度表達(dá)為如下形式(X=x)=(7.5)式中π和e都是常數(shù),分別近似等于3.14和2.72。從正態(tài)分布的數(shù)學(xué)表達(dá)式可以看出,當(dāng)總體均值μ和方差σ2確定后,正態(tài)分布曲線的精確形式也就確定了。換句話說,有許多不同的正態(tài)曲線,每一個對應(yīng)于μ和σ的一個組合。分析正態(tài)分布的概率密度(X=x),很容易理解正態(tài)曲線具有下列性質(zhì):(1)正態(tài)曲線以X=μ呈鐘形對稱,其均值、中位數(shù)和眾數(shù)三者必定相等。(2)(X=x)在X=μ處取極大值。X離μ越遠(yuǎn),(X=x)值越小。這表明對于同樣長度的區(qū)間,當(dāng)區(qū)間離μ越遠(yuǎn),X落在這個區(qū)間的概率越小。正態(tài)曲線以X鈾為漸近線,即(X=x)在|X|無限增大時趨于零,即(x)=0或(x)=0。(3)對于固定的σ值,不同均值μ的正態(tài)曲線的外形完全相同,差別只在于曲線在橫軸方向上整體平移了一個位置(參見圖7.3)。(4)對于固定的μ值,改變σ值,σ值越小,正態(tài)曲線越陡峭;σ值越大,正態(tài)曲線越低平(參見圖7.4)。(5)正態(tài)分布的數(shù)學(xué)期望E(X)=μ,變異數(shù)D(X)=σ2,因為E(X)==μD(X)==σ2正態(tài)曲線的性質(zhì)可供闡明標(biāo)準(zhǔn)差。由于曲線的形狀完全取決于標(biāo)準(zhǔn)差σ,所以σ可供作為衡量總體分布狀況的一個統(tǒng)一的尺度,稱為標(biāo)準(zhǔn)差。從直觀上去理解,σ實際上是一個很好的離勢的量度:σ值越小,離中趨勢越小,總體中各變量值也就越接近;;σ值越大,離中趨勢越大,總體中各變量值也就越分散。2.標(biāo)準(zhǔn)正態(tài)分布我們在統(tǒng)計分析時,經(jīng)常性的重要工作是要確定給定區(qū)間所含總體單位數(shù)的比重,也就是變量X的取值在這個給定區(qū)間內(nèi)出現(xiàn)的頻率。因此在對有限總體的數(shù)據(jù)進(jìn)行分組時,得到相對頻數(shù)分布是很重要的。對于連續(xù)變量,過去由于分組有限,只能加以近似地討論?,F(xiàn)在,由于正態(tài)曲線的一些異乎尋常的數(shù)學(xué)性質(zhì),使得這項工作非但不困難,反而變得簡單易行。一般作法是引入新的隨機(jī)變量Z[參見(5.12)式]Z=(7.6)上式表明,Z代表以標(biāo)準(zhǔn)差σ為單位表示的變量值離開均值μ的偏差,即代表經(jīng)σ標(biāo)準(zhǔn)化之后的X對μ的離差。故Z經(jīng)常被稱為變量X的標(biāo)準(zhǔn)分,或稱Z分?jǐn)?shù);Z亦被稱為標(biāo)準(zhǔn)正態(tài)變量。如果把Z代入(7.5)式,我們便得到了用Z分?jǐn)?shù)表達(dá)的標(biāo)準(zhǔn)正態(tài)分布,其概率密度為(Z)=(7.7)比較(7.5)和(7.7)式,很容易得知標(biāo)準(zhǔn)正態(tài)變量的數(shù)學(xué)期望E(Z)=0,變異數(shù)(即方差)D(Z)=1。實際上,標(biāo)準(zhǔn)正態(tài)分布(Z)只是正態(tài)分布的一個特例,即μ=0,σ2=1的正態(tài)分布,簡記作N(0,1)。對于一般正態(tài)分布則簡記為N(μ,σ2)。3.正態(tài)曲線下的面積我們在第三章學(xué)習(xí)過頻數(shù)(或頻率)分布圖,從中我們體會到,用幾何圖形表示統(tǒng)計資料的好處在于,直觀地從圖形的升降起伏就可以看出總體的分布特征和規(guī)律性。具體來說,矩形的高度(更確切地說是矩形的面積)是和相應(yīng)區(qū)間里所含的總體單位數(shù)成正比的。如果取各矩形的總面積為1,一定區(qū)間圖形所含的面積就等于變量的取值在該區(qū)間出現(xiàn)的頻率?,F(xiàn)在組距不斷變小,直方圖過渡到了平滑曲線,但基本原理并沒有變。和頻率分布的直方圖一樣,正態(tài)曲線下的總面積也為1。從直方圖中選取任一個矩形,如圖7.5所示,平滑曲線多包含的那一部分面積等于被曲線切去一角的那一部分矩形的面積,增減相當(dāng)。而作為頻率分布的極限,正態(tài)曲線下的面積可設(shè)想是組距趨于0而矩形無限增多時所有矩形面積的總和。在頻數(shù)分布直方圖中,所有矩形的總面積為1,所以正態(tài)曲線下的面積當(dāng)然也是l。正態(tài)分布是最具典型意義的連續(xù)型隨機(jī)變量的概率分布。上一章已經(jīng)說明,對于連續(xù)型隨機(jī)變量,由于X=x的取值充滿一個區(qū)間,不能一一列出,因此只能關(guān)心X的取值落在一個區(qū)間的概率?,F(xiàn)在既然有了正態(tài)分布的概率密度(7.5)式,隨機(jī)變量X的取值在某區(qū)間{x1≤X≤x2}上的概率便可用下式求得P(x1≤X≤x2)=但積分畢竟太麻煩了,更何況許多人對積分運算不熟悉,為此須計算出現(xiàn)成的數(shù)值表供使用者查找。由于正態(tài)曲線的優(yōu)良性質(zhì),這項工作可以卓有成效地完成:①經(jīng)過X的標(biāo)準(zhǔn)分Z=,可以將任何正態(tài)分布N(μ,σ2)轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布N(0,1);②運用分布函數(shù)的定義,并利用正態(tài)曲線的對稱性,通過下式(分布函數(shù))可以計算編制出正態(tài)分布表(見附表4)。F(Zα)=P(0≤Z≤Zα)=(7.8)采用標(biāo)準(zhǔn)正態(tài)變量表達(dá)正態(tài)分布,使標(biāo)準(zhǔn)差得到了進(jìn)一步闡明。我們看到,標(biāo)準(zhǔn)差是計算總體單位分布及其標(biāo)志值變異范圍的主要依據(jù),圖7.6說明了這一點。如果從總體均值向右一個標(biāo)準(zhǔn)差定出一區(qū)間,則在這個區(qū)間正態(tài)曲線下方所包含的面積為0.3413。因此這個面積的兩倍,X的取值有68.26%包含在均值兩側(cè)各一個標(biāo)準(zhǔn)差的范圍之內(nèi)。換言之,略多于2/3的總體單位出現(xiàn)在總體均值兩邊的一個標(biāo)準(zhǔn)差的范圍之內(nèi)。同樣,在均值與距它兩個標(biāo)準(zhǔn)差的區(qū)間內(nèi),正態(tài)曲線下方所含面積是0.4773。因此略多于95%的總體單位包含在均值兩邊的兩個標(biāo)準(zhǔn)差的范圍之內(nèi)。雖然理論上正態(tài)曲線向兩邊可擴(kuò)展至無限遠(yuǎn),但幾乎所有總體單位(99.73%)都位于均值兩邊的三個標(biāo)準(zhǔn)差的范圍之內(nèi)??傊?,決定任意兩點間的面積都完全是可能的。比如向均值兩側(cè)移1.96個標(biāo)準(zhǔn)差,曲線下方便包含了大約95%的面積,如移動2.58個標(biāo)準(zhǔn)差,則面積幾乎是99%。附錄4已編制了關(guān)于Z和標(biāo)準(zhǔn)正態(tài)曲線所含面積之間關(guān)系的精確數(shù)值表,即Z從0到+∞變化,相應(yīng)區(qū)間所含的面積從0變至0.5。這種處理具有重要的實用價值,以后只要知道分布是正態(tài)的,有關(guān)計算只要查表就成了。[例7.3.1]設(shè)隨機(jī)變量X服從正態(tài)分布N(50.102),試求P(50≤X≤65)。[解]已知μ=50,σ=10,Z1=0Z2===1.5查表得正態(tài)曲線在此區(qū)間的面積是0.4332(參見圖7,7)。所以,P(50≤X≤65)=43.32%。[例7.3.2]設(shè)隨機(jī)變量X服從正態(tài)分布N(168,122),試求P(X≤143)。[解]已知μ=168,σ=12,Zα===―2.08Z是負(fù)值,表示X的取值處于均值左邊。由于曲線完全對稱,所以使用正態(tài)分布表時可以忽略Zα的正負(fù)號。查表可知,正態(tài)曲線在均值與Zα=2.08之間所含的面積是0.4812。由于總面積的一半是0.5,因此P(X≤143)可以由下面計算求得P(X≤143)=0.5―P(0≤Z≤2.08)=0.5―0.4812=1.88%這說明,X的取值小于或等于143的概率大約是2%。由于即將討論的正態(tài)檢驗幾乎都要涉及概率分布的尾端,所以此例說明的是一個非常普遍的問題(參見圖7.8)。[例7.3.3]設(shè)隨機(jī)變量X服從正態(tài)分布N(60,82),試求:①第一四分位數(shù)的標(biāo)志值;②第一四分位數(shù)和標(biāo)志值為50的取值之間正態(tài)曲線所含的面積(參見圖7.9)。[解]先根據(jù)四分位數(shù)的定義,通過正態(tài)曲線左邊尾端面積為0.25,查表求出四分位數(shù)Q1對應(yīng)的Z分?jǐn)?shù)Zα=0.67=Q1=μ―Zασ=60―0.67×8=54.64由此可見,第一四分位數(shù)的標(biāo)志值是54.64。再求標(biāo)志值為50的Z分?jǐn)?shù)Zα==1.25查表得Zα=1.25和均值之間正態(tài)曲線所含的面積是0.3944。所以P(50≤X≤Q1)=0.3944―0.25=0.1444這說明,X的取值在第一四分位數(shù)Q1和50之間的概率是14.44%。4.二項分布的正態(tài)近似法二項分布是在所謂的重復(fù)獨立試驗之中產(chǎn)生的。通過本章第一節(jié)的討論,我們已經(jīng)知道二項分布受成功事件概率p和試驗次數(shù)n兩個參數(shù)的影響,只要確定了p和n,二項分布也隨之確定了。但是,二項分布的應(yīng)用價值實際上受到了n的很大限制。也就是說,只有當(dāng)n較小時,我們才能比較方便地利用(7.3)式計算二項分布。所幸的是,二項分布是以正態(tài)分布為極限的。所以當(dāng)n很大時,只要p或q不近于零,我們就可以用正態(tài)近似來解決二項分布的計算問題,即=P(Z1≤Z≤Z2)=dz(7.9)又Zα=(7.10)式中:Z為標(biāo)準(zhǔn)正態(tài)隨機(jī)變量,n為重復(fù)試驗的次數(shù),p為成功的概率,q=1―p為失敗的概率,x為二項隨機(jī)變量。[例7.3.4]在拋擲一枚硬幣10次的二項試驗中,試以二項分布與二項分布的正態(tài)近似法,求成功3到6次的概率。[解1]已知p=0.5,n=10,查附表3得P(3≤x≤6)=(x;10,=0.9453―0.1719=0.7734[解2]用二項分布的正態(tài)近似法μ=np=10×0.5=5σ===1.58Z2===-1.58Z2===0.95查表得P(Z1≤Z≤Z2)=P(―1.58≤Z≤0.95)=0.4430十0.3289=0.77l9由正態(tài)近似法求得的概率為0.7719,這一數(shù)值十分接近由二項分布算得的0.7734。簡言之,二項分布的正態(tài)近似法,即以np=μ、npq=σ2,將B(x;n,p)視為N(np,npq)進(jìn)行計算。在社會統(tǒng)計中,當(dāng)樣本量n≥30,np、nq均不小于5時,對二項分布作正態(tài)近似是可靠的。[例11.3.5]鐵路部門預(yù)計對號車票的旅客中有5%趕不上該列車,該列車有座位600個,但卻售出了620張票,試求每位旅客都有座位之概率。[解]設(shè)“趕不上火車”為成功事件,則隨機(jī)變量“趕不上火車的人數(shù)”可看成服從二項分布。因n=620大于30,np=620×0.05=31,nq=620×0.95=589,所以可對二項分布作正態(tài)近似?,F(xiàn)μ=np=31,σ2=npq=620×0.05×0.95=29.45。列車有600座位卻售出了620張車票,故每位旅客都有座位的概率是P(x>20),于是有Zα===―2.03查表得P(x>20)=P(Z>―2.03)=0.4788十0.5=97.88%所以,每位旅客都有座位的概率為97.88%。[例11.3.6]共有5000個同齡人參加人壽保險,設(shè)年死亡率為0.1%。參加保險的人在年初應(yīng)交納保險費10元,死亡時家屬可領(lǐng)2000元。求保險公司一年從這些保險的人中,獲利不少于30000元的概率。[解]據(jù)題意,保險公司一年內(nèi)若獲利不少于30000元,最多理賠人數(shù)為x==10(人)現(xiàn)因n=5000大于30,np=5000×0.001=5,所以二項分布可用正態(tài)分布近似法處理。于是有Zα===2.237查表得P(x≤10)=P(Z≤2.237)=0.4875十0.5=98.75%所以保險公司一年內(nèi)從這些保險的人中獲利不少于30000元的概率為98.75%。第四節(jié)中心極限定理在各種分布中,正態(tài)分布居于首要地位。這不僅因為許多總體分布具有正態(tài)分布的特征,更為重要的是,無論總體服從什么分布,其樣本均值的概率分布都隨著樣本量的增加而呈正態(tài)分布。這一節(jié)我們將著重討論抽樣分布與中心極限定理,后者是全部統(tǒng)計推斷理論中最重要的定理。在推論統(tǒng)計中,作為研究對象的總體,其分布總是未知的。中心極限定理對大樣本均值正態(tài)分布性質(zhì)的揭示,為未知總體的研究奠定了理論基礎(chǔ)。1.抽樣分布在本章第二節(jié),我們已經(jīng)引入了抽樣分布的概念。為什么要討論抽樣分布?這是因為一旦統(tǒng)計的學(xué)習(xí)進(jìn)入到推論統(tǒng)計,我們就必須同時與三種不同的分布概念打交道,即總體分布、樣本分布、抽樣分布。為了不產(chǎn)生混淆,視分布不同,將統(tǒng)計指標(biāo)的符號加以區(qū)別是完全必要的。對那些反映標(biāo)志值集中趨勢和離中趨勢的綜合指標(biāo),尤其對均值和標(biāo)準(zhǔn)差(或方差),現(xiàn)在我們應(yīng)該注意鑒別它們在具體場合哪些是概括總體特征的,哪些是概括樣本特征的,哪些是概括抽樣分布特征的。為此列表如下:表7.4均值標(biāo)準(zhǔn)差總體分布樣本分布抽樣分布μμσS已知一總體分布,可求得它的特征值。根據(jù)總體分布計算的特征值,即根據(jù)總體各個單位標(biāo)志值計算的統(tǒng)計指標(biāo),在推論統(tǒng)計中稱為總體參數(shù)??傮w均值和總體標(biāo)準(zhǔn)差(或方差)是反映總體分布特征最重要的兩個總體參數(shù),習(xí)慣上分別記作μ和σ(或σ2)。同理,已知一樣本分布.可求得它的特征值。根據(jù)樣本分布計算特征值,即根據(jù)樣本各個單位標(biāo)志值計算的統(tǒng)計指標(biāo),在推論統(tǒng)計中稱為統(tǒng)計量。樣本均值和樣本標(biāo)準(zhǔn)差(或方差)是反映樣本分布特征最重要的兩個統(tǒng)計量,習(xí)慣上分別記作和S(或S2)。將總體均值、總體標(biāo)準(zhǔn)差與樣本均值、樣本標(biāo)準(zhǔn)差加以區(qū)別是很必要的。因為總體參數(shù)和統(tǒng)計量之間存在著重要差別。參數(shù)是有關(guān)總體的固定值,一般都是未知的。例如,在任何給定的時間,某學(xué)校學(xué)生平均年齡這樣的參數(shù)一般是未知的,因為如果參數(shù)已知就用不著抽取樣本了。但參數(shù)如果能得知,那么對所有觀察者來講都必定相同。因此μ和σ都應(yīng)該是唯一確定的值。而統(tǒng)計量則不然。任何統(tǒng)計總體,由于樣本容量n小于總體容量N,可能被重復(fù)抽取的樣本就不止一個(也可以說可以抽取許許多多乃至無數(shù)個樣本)。在一總體中,當(dāng)從一個樣本換為另一個樣本,統(tǒng)計量很可能不同。例如從學(xué)生總體中隨機(jī)地抽取10個學(xué)生組成樣本,我們就不能期望樣本不同也可以得到精確相同的年齡均值。所以,統(tǒng)計量必定是隨機(jī)變量。另一方面,與參數(shù)不同,對于一個特定的樣本而言,統(tǒng)計量是可以計算出來的,這便是抽樣調(diào)查的價值所在。不過,一個特定的樣本對總體的實際代表程度如何,則是另一回事。由于統(tǒng)計量是隨機(jī)變量,并且在一個統(tǒng)計總體中可以重復(fù)抽取的樣本在理論上是無數(shù)的,所以可以用概率分布來進(jìn)行描述。在推論統(tǒng)計中,理論和實際的一個重要結(jié)合就是通過抽樣分布和抽樣調(diào)查這兩者的聯(lián)系來實現(xiàn)的。首先,抽樣調(diào)查是從總體中隨機(jī)地抽取樣本,然后借助樣本指標(biāo)數(shù)值來推算總體指標(biāo)數(shù)值。只有遵從隨機(jī)原則,樣本分布才接近于總體分布,進(jìn)而表現(xiàn)樣本分布的特征值才對反映總體分布的特征有較大的代表性。與此同時,只有遵從隨機(jī)原則,盡可能減少非抽樣誤差,樣本調(diào)查的結(jié)果才能在假設(shè)檢驗中作為有效的檢驗統(tǒng)計量。其次,抽樣調(diào)查只涉及總體的部分單位,因此哪怕隨機(jī)樣本是有保障的,樣本的統(tǒng)計量與總體參數(shù)之間也存在一定的差別。對于用樣本指標(biāo)代表總體指標(biāo)而不可避免存在著的誤差,除了運用數(shù)理統(tǒng)計的方法得到抽樣分布,樣本本身不能告訴些什么。這樣,本書在引出總體分布、樣本分布的概念之后,又引出了抽樣分布的概念。需要再次提醒大家,抽樣分布是運用數(shù)理統(tǒng)計的方法,把具體概率賦予樣本的所有可能結(jié)果的一種理論分布。但有了抽樣分布對概率分布的具體化,研究者便找到了一種理論與實際相聯(lián)系的有效途徑。2.中心極限定理我們知道,概率論中用來闡明大量隨機(jī)現(xiàn)象平均結(jié)果的穩(wěn)定性的定理,是著名的大數(shù)定理。其具體內(nèi)容是:頻率穩(wěn)定于概率,平均值穩(wěn)定于期望值。但是,大量隨機(jī)現(xiàn)象的穩(wěn)定性不僅表現(xiàn)在平均結(jié)果上,同時也表現(xiàn)在分布上,這就是中心極限定理所要闡明的內(nèi)容。仔細(xì)考慮統(tǒng)計量和與之相對應(yīng)的未知參數(shù)的接近程度,引出了研究和應(yīng)用抽樣分布的課題。顯然,推論統(tǒng)計需要有一座能夠架通抽樣調(diào)查和抽樣分布的橋梁。中心極限定理告訴我們:如果從任何一個具有均值μ和方差σ2的總體(可以具有任何形式)中重復(fù)抽取容量為n的隨機(jī)樣本,那么當(dāng)n變得很大時,樣本均值的抽樣分布接近正態(tài),并具有均值μ和方差。通過上一節(jié),我們已對正態(tài)分布留下了深刻印象。不過,在現(xiàn)實世界里,像身高、體重、婚齡、智商等等近似服從于正態(tài)分布的總體其實是相當(dāng)有限的。幸運的是,中心極限定理大大放寬了對正態(tài)總體的前提要求。它指出,無論總體的分布多么異常,只要n足夠大,我們可以相信得到的樣本均值的抽樣分布近似于正態(tài)分布。正如二項檢驗?zāi)菢樱驗樵陲@著性檢驗中使用的是抽樣分布,而不是總體分布。這就意味著,只要n足夠大,我們就完全不必顧忌總體是不是正態(tài),盡可以在檢驗中使用正態(tài)曲線。而正態(tài)曲線具有特別的數(shù)學(xué)性質(zhì),使用它是很方便的。無疑,中心極限定理大大拓展了正態(tài)分布的適用面,同時我們得到了以下重要信息:(1)雖然樣本的均值可能和總體均值有差別,但我們可期望這些將聚集在μ的周圍。因此均值抽樣分布的算術(shù)平均數(shù)能和總體的均值很好地重合,這就是為什么在表7.4中總體均值和抽樣分布的均值用同一個μ表示的緣故。由于抽樣分布的標(biāo)準(zhǔn)差要比總體標(biāo)準(zhǔn)差小,并且=,所以如圖7.10所示,樣本容量越大,抽樣分布的峰態(tài)愈陡峭,由樣本結(jié)果來推斷總體參數(shù)的可靠性也隨之提高。這是與我們的常識相一致的。在無偏的前提下,在估計總體均值時,較之用小樣本,我們更相信大樣本。而定理比常識高明之處在于,它指出,如果n增加了一定的數(shù)量,那么可靠性將隨之提高到什么程度。例如,為了把抽樣分布的標(biāo)準(zhǔn)差縮小一半,就要把n擴(kuò)大4倍。在后面學(xué)習(xí)的統(tǒng)計推論中,我們一般是用樣本均值作為總體均值的估計量的。早在本書第二章我們就已經(jīng)知道,在遵守隨機(jī)原則的條件下,用樣本指標(biāo)值代表總體指標(biāo)值不可避免地存在著抽樣誤差。統(tǒng)計推論不能從樣本資料算出統(tǒng)計量就完事了,還必須進(jìn)行誤差分析。從直觀的意義上去理解,抽樣誤差應(yīng)該是指某一次抽樣結(jié)果所得的樣本統(tǒng)計量與總體參數(shù)之間的差別。但事實上,這一差別無從得知。因為,如果知道了總體參數(shù),也就不需要抽樣了。具體某一次抽樣結(jié)果的誤差,僅僅是反復(fù)抽樣下一系列抽樣結(jié)果可能出現(xiàn)的誤差中的一個,它亦是隨機(jī)變量,顯然不能用來概括一系列抽樣可能產(chǎn)生的抽樣誤差。而抽樣分布的標(biāo)準(zhǔn)差可以綜合地反映了樣本均值在總體均值附近的變異程度,因此我們用它來概括一系列抽樣可能產(chǎn)生的誤差,并把它稱為抽樣平均誤差。后面我們將看到,利用抽樣分布計算,在統(tǒng)計推斷與估計的誤差分析中也具有重要意義(抽樣平均誤差將在第九章較系統(tǒng)地加以討論)。為了理解中心極限定理的正確性,最好的方法是從一個已知均值和標(biāo)準(zhǔn)差的總體中抽取一些樣本,計算樣本均值,并把這些均值一一在圖上標(biāo)出,看抽樣分布是不是正態(tài),同時找出這些均值的標(biāo)準(zhǔn)差,再把它與做比較。但是,為什么在總體分布不是正態(tài)的時候,其抽樣分布卻很可能會是正態(tài)呢?下面我們來看在一個男女人數(shù)相等的性別總體中,當(dāng)抽取的樣本越來越大時將會發(fā)生些什么?描述這個該總體只要分兩組、用兩個標(biāo)志值就可以了,因此其分布顯然不可能是正態(tài)的。為了簡單起見,用X=1表示男性,X=0表示女性。并且,因為男女人數(shù)相等,所以相對頻數(shù)都是1/2,計算后知總體均值μ也等于1/2,圖7.11表示了這種十分簡單的分布。當(dāng)然,嚴(yán)格來講分布是離散的,而不是圖中畫的那樣是連續(xù)的?,F(xiàn)在我們從這個總體抽取隨機(jī)樣本,看樣本均值的分布怎樣隨其容量n起變化。先抽2人,井計算樣本均值的抽樣分布。很顯然,如果對抽到的人加以區(qū)分,能得到四種結(jié)果:兩人都是男性,標(biāo)志值和最大(為2);兩人都是女性,標(biāo)志值和最小(為0);男性女性各一人則會有兩種情況。四種結(jié)果的標(biāo)志值可分別顯示為(1,1),(0,0),(1,0),(0,1)。求樣本均值的方法很簡單,只要按(4.1)式把標(biāo)志值加起來除以2。樣本均值的抽樣分布可按古典法直接算出,也可以由(7.3)式算出。樣本均值的概率分布分別見表7.5和圖7.12。表7.5(均值)P(概率)01201/211/41/21/4然后抽取容量為4人的隨機(jī)樣本,樣本均值的分布如表7.6所示。除均值和其概率的計算稍許復(fù)雜一點外,計算方法和n=2的樣本完全一樣,繪成圖7.13。表7.6(均值)P(概率)0123401/41/23/411/164/166/164/161/16再取樣本容量為8人,樣本均值抽樣分布如表7.7所示,繪成圖便是圖7.14。表7.7(均值)P(概率)01234567801/82/83/81/25/86/87/811/2568/25628/25656/25670/25656/25628/2568/2561/256至圖7.14,樣本均值的抽樣分布已經(jīng)開始接近正態(tài)曲線了,盡管這時樣本容量還不過是8。這就從直觀上說明了為什么當(dāng)容量n越來越大時,樣本均值的抽樣分布會逼近正態(tài)曲線,而總體分布怎樣是無關(guān)緊要的。那么究竟n多大時,才可以放寬總體是正態(tài)的限制而放心使用中心極限定理呢?這個問題尚無簡單的答案,因為它還與下列問題有關(guān):①估計第一類錯誤所要求的精度;②總體接近正態(tài)的程度(雖然總體分布是與抽樣分布含義不同的分布,但正態(tài)總體的抽樣分布要比非正態(tài)總體的抽樣分布更容易接近正態(tài))。一般我們采用經(jīng)驗定則:如果n>100,正態(tài)總體的限制總是可以放寬;如果n>50,同時經(jīng)驗表明總體分布與正態(tài)分布的差異不大時,可以放心使用中心極限定理;如果n≤30,就應(yīng)該避免使用該定理。統(tǒng)計檢驗應(yīng)用正態(tài)分布和二項分布有兩點區(qū)別:①抽樣分布在這里是連續(xù)的而非離散的,否定域的大小可以和顯著性水平的要求精確地一致起來。②計算檢驗統(tǒng)計量不再像在應(yīng)用二項分布時那樣,可以不勞而獲了。很顯然,為了能使用現(xiàn)成的正態(tài)分布表,關(guān)鍵是要從樣本資料中計算出在N(0,1)形式下的統(tǒng)計量Z,再根據(jù)Z是否落在否定城內(nèi)而對被檢驗假設(shè)的取舍作出決定。在上一節(jié)()式,我們曾引出Z=。Z的這種形式適用于N(μ,σ2)的總體,但并不適用于取正態(tài)的抽樣分布。正如我們反復(fù)強(qiáng)調(diào)的那樣,統(tǒng)計檢驗單純依靠樣本自身是得不出結(jié)果的,必須首先在一系列假設(shè)的基礎(chǔ)上求出抽樣分布。如果這些假設(shè)實際上正確,那么抽樣分布將告訴我們得到一個給定的的可能性是多少。在抽樣分布中,隨機(jī)變量的取值是每個,均值是μ,標(biāo)準(zhǔn)差是=。因此Z如果作為檢驗統(tǒng)計量,應(yīng)該用替換X,用替換σ,μ不動,因而有Z=(7.11)第五節(jié)總體均值和成數(shù)的單樣本檢驗現(xiàn)在我們來看中心極限定理在統(tǒng)計檢驗中的應(yīng)用。雖然不必每一次都明寫出來,但本章第二節(jié)論述的檢驗程序的每一步都不能缺少。把從樣本調(diào)查中得到的檢驗統(tǒng)計量與假設(shè)的總體均值作比較,我們很快發(fā)現(xiàn)了正態(tài)分布的重要的實用價值。1.σ已知,對總體均值的檢驗例如,一位研究者試圖檢驗?zāi)骋簧鐣{(diào)查(如家庭收入調(diào)查)所運用的抽樣程序,該項調(diào)查是由一些缺乏經(jīng)驗的采訪員進(jìn)行的,研究者懷疑屬于干部和知識分子的家庭抽得過多。過去的統(tǒng)計資料表明,這一街區(qū)的家庭的平均年收入是24500元,標(biāo)準(zhǔn)差是3000元。這次調(diào)查共隨機(jī)抽選了l00個家庭,樣本的家庭平均年收入是25300元。該研究人員是否有理由懷疑該樣本有偏估(選用α=0.05)。研究者主要由于采訪者缺乏經(jīng)驗而對隨機(jī)樣本這一點不放心,因此隨機(jī)抽樣就是待檢驗的零假設(shè)。因為樣本容量為100,可以運用中心極限定理。于是求抽樣分布,在這里變?yōu)槿ゲ檎龖B(tài)分布表。在統(tǒng)計檢驗中,我們多半使用一些現(xiàn)成的數(shù)值表。應(yīng)該明白,這些數(shù)值表是用概率論計算出來的,使用它們實際上就是在使用抽樣分布。根據(jù)題意,顯著性水平為0.05,并由于研究者懷疑抽樣調(diào)查對中上收入家庭做了較多的抽取,所以用單側(cè)檢驗。查正態(tài)分布表得知,離均值1.65標(biāo)準(zhǔn)差以外的正態(tài)曲線的面積是全部面積的5%,這就是否定域(圖7.15中的陰影部分)。所以,只要樣本均值大于μ的量超過1.65個標(biāo)準(zhǔn)差時,便否定零假設(shè)。題目實際已給出下列量:=24500元,μ=25300元,σ=3000元,n=I00,根據(jù)(7.11)式計算檢驗統(tǒng)計量有Z===2.67>1.65檢驗統(tǒng)計量Z的計算表明,樣本均值比總體均值大2.67個標(biāo)準(zhǔn)差(),超過了顯著性水平規(guī)定的臨界值,調(diào)查者應(yīng)該否定“隨機(jī)抽樣”的零假設(shè)。也就是說,由于抽樣在程序上不合要求,這項社會調(diào)查有必要重新組織。中心極跟定理實際解決了大樣本均值的檢驗問題。假定樣本比較大(n>50,這在社會調(diào)查中一般都能得到滿足),樣本均值的抽樣分布就與總體分布無關(guān),而服從正態(tài)分布。當(dāng)H0成立時,樣本均值的觀察值比較集中地分布在總體均值μ周圍;當(dāng)H0不成立時,對μ有明顯偏離的趨勢。因而,我們可以在選定的顯著性水平上,通過計算檢驗統(tǒng)計量Z,對零假設(shè)進(jìn)行檢定。[例7.5.1]某單位統(tǒng)計報表顯示,人均月收入為2330元,為了驗證該統(tǒng)計報表的正確性,作了共81人的抽樣調(diào)查,樣本人均月收入為2350元,標(biāo)準(zhǔn)差為75元,問能否說明該統(tǒng)計報表顯示的人均收入的數(shù)字有誤(取顯著性水平α=0.05)。[解]根據(jù)題意,可作如下的假設(shè)H0:μ=2330元H1:μ≠2330元因α=0.05,查正態(tài)分布表得Zα/2=1.96,故否定域為|Z|≥1.96根據(jù)(7.11)式計算檢驗統(tǒng)計量Z=≈==2.40<1.96所以,可以認(rèn)為該單位人均月收入不是2330元,即可以認(rèn)為該統(tǒng)計報表有誤。2.學(xué)生t分布(小樣本總體均值的檢驗)在大多數(shù)場合,把總體參數(shù)作為已知是不切實際的。通常我們既不知道μ的值,也不知σ的值。但中心極限定理涉及到σ,而我們又不能輕視這條定理的價值。那么怎么辦呢?一種方法就是用樣本標(biāo)準(zhǔn)差S來代替σ。在Z的公式中,σ/直接被S/取代。因為S可以從樣本數(shù)據(jù)中計算出來,所以公式中就沒有未知數(shù)了。事實證明,當(dāng)n大的時候,用這種方法可以得到很好的結(jié)果。問題是當(dāng)n較小的時候,用這種方法求出的概率可能是錯誤的,有必要做某種修正。于是人們設(shè)計了另一種檢驗統(tǒng)計量t=(7.12)這個統(tǒng)計量最初是由戈塞持(Gosset,1876一1937年)用筆名“學(xué)生”發(fā)表,所以這個統(tǒng)計量的抽樣分布稱為學(xué)生t分布。比較t和Z,我們注意到它們的分子相同,而分母卻稍有不同:①σ為S所代替(這一點無須解釋);②根號下是n―1。圖7.16大致從直觀上說明(7.12)式中采用n―1的原因。因為樣本數(shù)據(jù)的全距只能小于(頂多等于)總體數(shù)據(jù)的全距,可以明顯看出,樣本數(shù)據(jù)的離散程度小于總體數(shù)據(jù)的離散程度。如果用樣本的標(biāo)準(zhǔn)差來代替總體的標(biāo)準(zhǔn)差,就會偏小,即產(chǎn)生所謂的“向下偏誤”。為了修正這種偏誤,以便使修正的樣本標(biāo)準(zhǔn)差更好地估計總體標(biāo)推差,所以用n―l而不用n。n―1實際為自由度數(shù)k,這一點將在第九章得到說明。圖7.16當(dāng)Z為t替代的時候,雖然用因子n—I所導(dǎo)致的修正看起來不大,但在樣本容量較小時,這種修正就會起很大作用了。所以當(dāng)不知道σ值,而樣本容量較小時,我們應(yīng)該考慮應(yīng)用t分布而不是Z分布。通過下式可以編制出t分布表(見附錄5)。==(7.13)注意tα(k)寫法的含義,它表示自由度數(shù)為k的t分布當(dāng)分布函數(shù)=時隨機(jī)變量t的臨界值。當(dāng)n變大,t分布將越來越接近正態(tài)分布,應(yīng)用t分布還是Z分布就無所謂了。事實上隨著n變大,S逐漸變成σ的精確估計量,因而分母項無論使用S還是σ,差別都非常小。但特別要留意,使用t分布的條件比使用Z分布的條件苛刻,即必須假定總體為正態(tài)。[例7.5.2]一個容量為25的樣本,具有均值52和標(biāo)準(zhǔn)差12,用單側(cè)檢驗和雙側(cè)檢驗分別來檢驗總體均值為57的假設(shè)(都取0.05)。[解]據(jù)題意,已知n=25,=52,S=12,μ=57(零假設(shè))。因n小而又不知道σ值,故采用t檢驗。對自由度24來講,單側(cè)檢驗和顯著性水平0.05,查表知否定域為t值等于或大于1.711;而雙側(cè)檢驗和顯著性水平0.05,查表知否定域為t值等于或大于2.064。下面計算檢驗統(tǒng)計量t===-2.041我們已經(jīng)確定,單側(cè)檢驗時,任何一個大于1.711的|t|值都在否定域內(nèi)。現(xiàn)在因為|t|=2.041,故單側(cè)檢驗時要否定μ=57的零假設(shè)。而雙側(cè)檢驗時,|t|值要在大于2.064時才落在否定城內(nèi)?,F(xiàn)在因為|t|=2.041,所以雙側(cè)檢驗時不能否定μ=57的零假設(shè)。通過上例,我們又一次看到單側(cè)檢驗的優(yōu)點。在犯第一類錯誤概率相同的情況下,如果結(jié)果出現(xiàn)在預(yù)測方向上,研究者使用單側(cè)檢驗比雙側(cè)檢驗更可能否定零假設(shè)。與此同時,犯第二類錯誤的危險也隨之減少。反過來講,當(dāng)檢驗不能否定零假設(shè)時,使用單側(cè)檢驗比使用雙側(cè)檢驗更令人放心?,F(xiàn)在可以對t分布的性質(zhì)做三點歸納:①t分布對稱于E(t)=0,但非正態(tài)分布;②對比Z分布表和t分布表,只有當(dāng)樣本比較小的時候,Z分布和t分布才有較大的差別;③使用t分布表時,除非n較大,否則還必須假定總體為正態(tài)。因為當(dāng)n相當(dāng)大時,檢驗統(tǒng)計量t可以由Z來替代,所以t檢驗是在小樣本且可假定總體為正態(tài)的情況下才具有實用價值。3.關(guān)于總體成數(shù)的檢驗有時,需要對總體中具有某種特征的單位在總體中所占的的比例p(即總體成數(shù))作顯著性檢驗,如人口中的失業(yè)率、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論