統(tǒng)計量與抽樣分布_第1頁
統(tǒng)計量與抽樣分布_第2頁
統(tǒng)計量與抽樣分布_第3頁
統(tǒng)計量與抽樣分布_第4頁
統(tǒng)計量與抽樣分布_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章統(tǒng)計量與抽樣分布數(shù)理統(tǒng)計是具有廣泛應(yīng)用的一個數(shù)學(xué)分支,它以概率論為理論基礎(chǔ),根據(jù)試驗(yàn)或觀察得到的數(shù)據(jù),來研究隨機(jī)現(xiàn)象,對研究對象的客觀規(guī)律性作出種種合理的估計和判斷。數(shù)理統(tǒng)計的內(nèi)容包括:如何收集、整理數(shù)據(jù)資料;如何對所得的數(shù)據(jù)資料進(jìn)行分析、研究,從而對所研究的對象的性質(zhì)、特點(diǎn)作出推斷。后者就是我們所說的統(tǒng)計推斷問題。本書只講述統(tǒng)計推斷的基本內(nèi)容。在概率論中,我們所研究的隨機(jī)變量,它的分布都是假設(shè)已知的,在這一前提下去研究它的性質(zhì)、特點(diǎn)和規(guī)律性,例如求出它的數(shù)字特征,討論隨機(jī)變量函數(shù)的分布,介紹常用的各種分布等。在數(shù)理統(tǒng)計中,我們研究的隨機(jī)變量,它的分布是未知的,或者是不完全知道的,人們是通過對所研究的隨機(jī)變量進(jìn)行重復(fù)獨(dú)立的觀察,得到許多觀察值,對這些數(shù)據(jù)進(jìn)行分析,從而對所研究的隨機(jī)變量的分布作出種種推斷的?;靖拍?.1.1總體與個體在統(tǒng)計學(xué)中,將我們研究的問題所涉及的對象的全體稱為總體,而把總體中的每個成員稱為個體。這是一個比較形象的說法。例如:我們研究一家工廠的某種產(chǎn)品的廢品率,這種產(chǎn)品就是我們的總體,而每件產(chǎn)品則是個體。又如把某市每戶居民人數(shù)的全體看成總體,一戶的人數(shù)便是個體。再如研究電大學(xué)生學(xué)習(xí)“高等數(shù)學(xué)”的期末考試成績情況,全體學(xué)員的期末考試成績構(gòu)成總體,而每個學(xué)員的成績則為個體。個體與總體就好像集合論中的元素與集合之間的關(guān)系。這里所講的產(chǎn)品的廢品率、居民戶的人數(shù)、學(xué)員的考試成績,它們的取值都是不同的,即每個個體所取的值是不同的。在試驗(yàn)中抽取某個個體所觀察得到的數(shù)值X就是一個隨機(jī)變量,因而我們用X的分布去描述總體分布情況。以后我們把總體與隨機(jī)變量X可能取值的全體所組成的集合等同起來,并把隨機(jī)變量X的分布稱為總體的分布,即總體分布就是設(shè)定的表示總體的隨機(jī)變量X的分布??傮w的分布一般說來是未知的,有時雖已知總體分布的類型(如正態(tài)分布),但不知道分布中所含的參數(shù),有時連分布所屬的類型也不能肯定。統(tǒng)計學(xué)的任務(wù)就是對總體的未知分布進(jìn)行推斷。1.1.2總體與樣本前面指出,作為統(tǒng)計研究對象的總體的分布一般來說是未知的。為了獲得對總體分布的知識,一般的方法是對總體進(jìn)行抽樣觀察。通常的做法是從它的全部產(chǎn)品中隨機(jī)地抽取一些樣品,在統(tǒng)計學(xué)上稱為樣本。例1.1.1研究某地區(qū)N個農(nóng)戶的年收入。在這里,總體即指這N個農(nóng)戶,如果我們從這N個農(nóng)戶中隨機(jī)地抽出n個農(nóng)戶作為調(diào)查對象,那么,n個農(nóng)戶他們年收入的n個數(shù)字就是樣本。在上面的例子中,總體是很直觀的,是看得見,摸得著的。但是客觀情況并不總是這樣。例1.1.2用一把尺子去量一個物體的長度,假定n次測量值為X,X,…,X。TOC\o"1-5"\h\z\o"CurrentDocument"1 2n顯然,在這個問題中,我們把測量值X,X,…,X看成了樣本,但是,總體是什么呢?1 2n事實(shí)上,這里沒有一個現(xiàn)實(shí)存在的個體的集合可以作為我們的總體??墒?,我們可以這樣考慮,既然n個測量值X,X,…,X是樣本,那么總體就應(yīng)該理解為一切所有可能的測量值1 2n的全體。這種類型的總體的例子不勝枚舉。例如:為研究某種安眠藥的藥效,讓n個病人同時服用此藥,記錄下他們各自服藥后的睡眠時間比未服藥前延長的小時數(shù)X,X,…,X。這1 2n些數(shù)字就是樣本。總體就是設(shè)想讓某個地區(qū)或某個國家,甚至全世界所有患失眠癥的病人都服用此藥,他們所增加的睡眠時間的小時數(shù)的全體,就是該問題中的總體。例1.1.3在例1.1.1中,若農(nóng)戶年收入以萬元計,假定N戶中收入X為:0.5,0.8,1,1.2,1.5的農(nóng)戶個數(shù)分別為n1,n2,n3,n4,n5,這里n1+n2+n3+n4+n5=N,則總體X的分布為離散型分布,其分布律為X0.50.811.21.5pi“1NnNnNnNn—5-N例1.1.4在例1.1.2中,假定物體的真正長度為卩(未知)。一般說來測量值X,也就是我們的總體,取卩附近值的概率要大一些,而離卩愈遠(yuǎn)的值被取到的概率就小一些。如果測量過程沒有系統(tǒng)性誤差,那么X取大于卩和小于卩的概率也會相等。在這樣的情況下,人們往往認(rèn)為X服從均值為卩的正態(tài)分布。假定其方差為◎2,則◎2反映了測量的精度。于是,總體X的分布為N(卩Q2),記為X?N(卩Q2)。這里有一個問題,即物體長度的測量值總是在它的真正長度卩的附近,它根本不可能取到負(fù)值,而隨機(jī)變量取值在(--,+-)上,那么怎么可以認(rèn)為測量值服從正態(tài)分布呢?要回答這個問題,需要用到正態(tài)分布的一條性質(zhì)。對于正態(tài)變量X~N(卩,b2)p{|Li-3b<X<卩+3b}>99.7%即X落在區(qū)間(y-3b,卩+3b)之外的概率不超過0.003,可見這個概率是非常小的。顯然X落在(卩-46卩+4c)之外的概率也就更小了。比如,假定物體長度卩=10厘米,測量誤差約為0.01厘米,則62二0.012,這時,(卩-36卩+36)=(9.9997,10.0003),于是測量值落在這個區(qū)間之外的概率最多只有0.003,可以忽略不計??梢姡谜龖B(tài)分布n(10,0.012)去描述測量值是適當(dāng)?shù)?。另外,正態(tài)分布取值范圍是無限區(qū)間(--,+-),還可以解決規(guī)定測量值取值范圍上的困難。如若不然,我們用一個定義在有限區(qū)間(a和b)的隨機(jī)變量來描述測量值,那么a和b到底取什么值,測量者事先很難確定。再退一步,即便我們能夠確定出a和b,卻仍很難找出一個定義在(a和b)上的非均勻分布能夠用來恰當(dāng)?shù)孛枋鰷y量值,與其這樣,還不如我們干脆就把取值區(qū)間放大到(--,+-),并采用正態(tài)分布去描述測量值,這樣既簡化了問題又不致引起較大的誤差。如果總體所包含的個體數(shù)量是有限的,則稱該總體為有限總體,其分布是離散型的,如例1.1.3。如果總體所包含的個體數(shù)量是無限的,則稱該總體為無限總體,其分布可以是連續(xù)型的,如例1.1.4。在數(shù)理統(tǒng)計中,研究有限總體比較困難,因?yàn)樗姆植际请x散型的且分布律與總體所含個體數(shù)量有關(guān)系。所以,通常在總體所含個體數(shù)量比較大時,我們就把它近似地視為無限總體,并且用連續(xù)型分布去逼近總體的分布,這樣便于做進(jìn)一步的統(tǒng)計分析。例如,我們研究某大城市年齡在1到10歲之間兒童的身高。顯然,不管這個城市規(guī)模有多大,在這個年齡段的兒童數(shù)量總是有限的。因此,這個總體只能是有限總體??傮w分布也只能是離散型分布。然而,為了便于處理問題,我們可以把它近似地看成一個無限總體,并且通常用正態(tài)分布來逼近這個總體的分布。當(dāng)城市比較大,兒童數(shù)量比較多時,這種逼近所帶來的誤差,從應(yīng)用觀點(diǎn)來看,可以忽略不計。1.1.3樣本的二重性樣本的一個重要性質(zhì)是它的二重性。假設(shè)X,X,…,X是從總體X中抽取的樣本,在12n一次具體的觀測或試驗(yàn)中,它們是一批測量值,是一些已知的數(shù)。這就是說,樣本具有數(shù)的屬性。這一點(diǎn)比較容易理解。但是,另一方面,由于在具體的試驗(yàn)或觀測中,受到各種隨機(jī)因素的影響,在不同的觀測中樣本取值可能不同。因此,當(dāng)脫離開特定的具體試驗(yàn)或觀測時,我們并不知道樣本X,X,…,X的具體取值到底是多少,因此,可以把它們看成隨機(jī)變量。12n這時,樣本就具有隨機(jī)變量的屬性。樣本X,X,…,X既可被看成數(shù)又可被看成隨機(jī)變量,12n這就是所謂的樣本二重性。這里需要特別強(qiáng)調(diào)的是,以后凡是我們離開具體的一次觀測或試驗(yàn)來談及樣本X,X,…,X時,它們總是被看成隨機(jī)變量,關(guān)于樣本的這個基本的認(rèn)識對12n理解后面的內(nèi)容十分重要。既然樣本X1,X…,X被看作隨機(jī)變量,自然就需要研究它們的分布。在前面測量物12n體長度的例子中,如果我們是在完全相同的條件下,獨(dú)立地測量了n次,把這n次測量結(jié)果,即樣本記為X,X,…,X,那么我們完全有理由認(rèn)為,這些樣本相互獨(dú)立且有相同分布,TOC\o"1-5"\h\z1 2 n其分布與總體分布N(2)相同。推廣到一般情況,如果我們在相同條件下對總體X進(jìn)行n次重復(fù)的獨(dú)立觀測,那么都可以認(rèn)為所獲得的樣本X,X,…,X是獨(dú)立同分布的變量,1 2 n這樣的樣本稱為簡單隨機(jī)樣本,簡稱為樣本。在統(tǒng)計文獻(xiàn)中,通常把n稱為樣本大小,或樣本容量,或樣本數(shù),而把X,X,…,X稱為一組容量為n的樣本或一個樣本(這是把1 2 nX,X,…,X看成一個整體)。1 2 n充分統(tǒng)計量與完備統(tǒng)計量1.2.1樣本的聯(lián)合分布函數(shù)為了今后討論方便,我們約定,以大寫英文字母X表示隨機(jī)變量,而以相應(yīng)的小寫英i文字母X表示它的觀察值,并稱樣本X,X,…,X的一組具體的觀察值X,x,…,x為樣TOC\o"1-5"\h\zi 1 2 n 1 2n本值,全體樣本值組成的集合稱為樣本空間?。設(shè)總體X的分布函數(shù)為F(x),則由前面知識,我們知道樣本乂,X,…,X的分布函1 2 n數(shù)為F(x,x,…,x)=刃F(x)\o"CurrentDocument"1 2n ii=1并稱之為樣本的聯(lián)合分布函數(shù)。假設(shè)總體X具有概率密度函數(shù)f(x),則由于樣本X,X,…,X是相互獨(dú)立且與X1 2 n同分布,于是樣本的聯(lián)合概率密度函數(shù)為g(x,x,…,x)=Hf(x)o1 2n ii=1例1.2.1假設(shè)某大城市居民的收入服從正態(tài)分布N(R,b2),其概率密度函數(shù)為

1_(x-卩)2f(x)= e_202, (_g<x<+8)J2g 丿現(xiàn)從中隨機(jī)抽取一組樣本X,X,…,X,因?yàn)樗鼈兿嗷オ?dú)立,且都與總體同分布,即12nX?N(PQ2),i二1,2,…,n。i于是樣本X,X,…,X的聯(lián)合概率密度為1 2ng(g("l,3,…,"n)二(2^7工(x廠口)2_7^1e 202在數(shù)理統(tǒng)計中,總體或者說總體分布是我們研究的目標(biāo),而樣本是從總體中隨機(jī)抽取的一部分個體。通過對這些個體(即樣本)進(jìn)行具體的研究,我們所得到的統(tǒng)計結(jié)論以及對這些結(jié)論的統(tǒng)計解釋,都反映或體現(xiàn)著總體的信息,也就是說,這些信息是對總體而言的。因此,我們總是著眼于總體,而著手于樣本,用樣本去推斷總體。這種由已知推斷未知,用具體推斷抽象的思想,對我們后面的學(xué)習(xí)和研究是大有裨益的。1.2.2統(tǒng)計量在獲得了樣本之后,下一步我們就要對樣本進(jìn)行統(tǒng)計分析,也就是對樣本進(jìn)行加工、整理,從中提取有用信息。例如,當(dāng)我們把一個長度為卩的物體測量了n次,獲得了一組樣本X,X,…,X后,往往計算它們的算術(shù)平均值X=1LX:n,用來作為卩的估計,這1 2 n ii=1X就是對樣本X,X,…,X進(jìn)行加工處理后得到的一個量,在統(tǒng)計學(xué)上稱為統(tǒng)計量。1 2 n一般,我們把樣本的函數(shù)稱為統(tǒng)計量,它只依賴于樣本,而不能包含問題中的任何未知量。因此,一旦有了樣本,就可以算出統(tǒng)計量。例如在上面討論的測量物體長度的例子中,X就是一個統(tǒng)計量,但X-R就不是統(tǒng)計量,因?yàn)楹笳甙舜烙嫷奈粗口唷=y(tǒng)計是用來對總體分布參數(shù)作估計或檢驗(yàn)的,因此它應(yīng)該包含了樣本中有關(guān)參數(shù)的盡可能多的信息,在統(tǒng)計學(xué)中,根據(jù)不同的目的構(gòu)造了許多不同的統(tǒng)計量。下面是幾種常用的重要統(tǒng)計量。樣本均值:設(shè)X,X,…,X為一組樣本,則稱1 2 n-工Xnii=1為樣本均值。它的基本作用是估計總體分布的均值和對有關(guān)總體均值的假設(shè)作檢驗(yàn)。如果我們改變測量的起點(diǎn)和度量單位,數(shù)學(xué)上相當(dāng)于對樣本X,X,…,X做一個變換1 2 nY=aX+b,i=1,2,…,nii這里a和b是已知常數(shù),則新樣本Y,Y,…,Y的均值YY/n和X有如下關(guān)系1 2n ii=1Y=aX+b樣本方差:設(shè)X,X,…,X為一組樣本,則稱1 2 nS2=1工(X-X)2n-1ii=1為樣本方差。它的基本作用是用來估計總體分布的方鄭2和對有關(guān)總體分布的均值或方差的假設(shè)進(jìn)行檢驗(yàn)。需要特別說明的是,在一些統(tǒng)計著作中,有時把樣本方差定義為工(X-X)2/n。這種定義的缺點(diǎn)是,它不具有所謂的無偏性,而S2具有無偏性。這一點(diǎn)ii=1在后續(xù)討論中將會看到。往往我們稱S2的平方根S,即S= —£(X-X)2n-1 ii=1為樣本標(biāo)準(zhǔn)差,它的基本作用是用來估計總體分布的標(biāo)準(zhǔn)差b。注意,S與樣本具有相同的度量單位,而S2則不然。如果X,X,…,X為一組樣本,Y,Y,…,Y像例1.2.2那樣定義。記S2和S2分別1 2 n 1 2n XY為它們的樣本方差,則我們?nèi)菀鬃C明如下關(guān)系S2=a2S2.YX另外一類重要統(tǒng)計量是樣本矩。我們稱A=—工Xkkn ii=1和M=1工(X-X)kkn ii=1分別為k階樣本原點(diǎn)矩和k階樣本中心矩。顯然,一階樣本原點(diǎn)矩即為樣本均值,因此可把樣本原點(diǎn)矩理解為樣本均值概念的推廣;二階樣本中心矩即為未修正樣本方差,因此可把樣本中心矩理解為未修正樣本方差概念的推廣。前面我們已經(jīng)講過,樣本具有二重性。統(tǒng)計量作為樣本的函數(shù)也具有二重性,即對一次具體的觀測或試驗(yàn),它們都是具體的數(shù)值。這時我們會說,樣本均值x=1.5,或樣本方差s2=0.4等等。但是脫離開具體的某次觀測或試驗(yàn),樣本是隨機(jī)變量。因此統(tǒng)計量也是隨機(jī)

變量,也有自己的概率分布,稱為統(tǒng)計量的抽樣分布。這個分布原則上可以從樣本的概率分布計算出來。但是,一般說來,統(tǒng)計量的抽樣分布的計算是很困難的。如果總體服從正態(tài)分布,那么像樣本均值和樣本方差等常見的較簡單的統(tǒng)計量的精確抽樣分布是容易算出的,這將在下一節(jié)討論。對于一般的總體分布,我們可以借助中心極限定理算出一些統(tǒng)計量的近似分布,這種近似只有當(dāng)樣本容量很大時才成立,所以也稱為大樣本分布。下面的定理建立了樣本均值的大樣本分布。定理1.2.1假設(shè)X,X,…,X為來自均值為卩,方差為b2的總體的一組樣本。則當(dāng)12nn充分大時,近似地有X?X?N(卩,b2證明因?yàn)閄,X,…,X為來自均值為卩,方差為b2的總體的一組樣本,是獨(dú)立12n同分布的。且E(X)=卩,D(X) 2,i=1,2,…,n。根據(jù)中心極限定理我們有£X-npTNTN(0,1),即對充分大的n,近似地有等價地b2X?N(p,——定理證畢。這個定理表明,不管總體分布的具體形式如何,只要它的均值為P,方差為b2,那么從這個總體抽樣算得的樣本均值X就近似地服從均值為P,方差為b2的正態(tài)分布。這就b2是說,對許多總體而言,可以用正態(tài)分布N(p,)作為樣本均值的近似分布,這在實(shí)際應(yīng)用中是既方便又有效。根據(jù)上面的定理,對任意的常數(shù)a,X的分布函數(shù)這里①(?)表示標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù)。這個式子說明,當(dāng)n充分大時,樣本均值X的分布函數(shù)可以近似地通過標(biāo)準(zhǔn)正態(tài)分布函數(shù)來計算。另外,我們利用上面的定理還可以近似地計算X與均值卩的偏差不超過任一給定的概率。事實(shí)上,對任意給定的我們有p'X一卩<cLp〔c<x-^<」對給定的b2和c,當(dāng)樣本大小n增大時,上面的概率也隨之增加。在具體計算時,我們不必套用上面的式子,因?yàn)樗鼈兌际侵苯訌亩ɡ?.2.1推出的,我們只需直接利用定理的結(jié)論。請看下面的例子。例1.2.2某公司用機(jī)器向瓶子里灌裝液體洗凈劑,規(guī)定每瓶裝卩毫升。但實(shí)際灌裝量總有一定的波動。假定灌裝量的方差b2二1,如果每箱裝25瓶這樣的洗凈劑,試問這25瓶洗凈劑的平均灌裝量與標(biāo)準(zhǔn)定值卩相差不超過0.3毫升的概率是多少?解記一箱中25瓶洗凈劑灌裝量為X,X,,X,他們均來自均值為卩,方差為11 2 25的總體中的樣本。我們需要計算的是事件|X-訕<0.3的概率。根據(jù)定理1.2.1有pj-X—詞<0.3Lpt0.3<X—卩<0.3)二2①(1.5)-1二0.8664這就是說,對于裝25瓶的一箱而言,平均每瓶罐裝量與標(biāo)準(zhǔn)定值不超過0.3毫升的概率近似地為0.8664。如果每箱裝50瓶,我們不難算出PW-r<0沁0.966可見,當(dāng)每箱由25瓶增加到50瓶時,我們能以更大的概率保證廠家和商家都不吃虧。1.2.3經(jīng)驗(yàn)分布函數(shù)為了從理論上進(jìn)一步說明隨機(jī)樣本能夠很好地反映總體X的情況,我們引入經(jīng)驗(yàn)分布函數(shù)。定義1.2.1設(shè)有總體X的n個獨(dú)立的觀察值,按大小次序可排成x<x<…<x,1 2 n對(-8,+8)上的一切x定義函數(shù)廠0,x<x1kF(x)=<—,x<x<x (k=1,2,…,n—1)nk k+11,x<xn稱為函數(shù)F(x)為總體X的經(jīng)驗(yàn)分布函數(shù)或樣本分布函數(shù)。如圖1.2.1所示,圖中的階梯形n的曲線是經(jīng)驗(yàn)分布函數(shù),而光滑曲線是總體X的分布函數(shù)F(x)。

圖1.2.1經(jīng)驗(yàn)分布函數(shù)例如,已知樣本值:6.60,4.60,5.40,5.80,5.40。將它們從小到大重新排列:4.60,5.40,5.40,5.80,6.60。經(jīng)驗(yàn)分布函數(shù)為0,x<4.60;<x<5.40;5F5(xF5(x),5.4<x<5.805,5.8<x<6.60;5<x根據(jù)經(jīng)驗(yàn)分布函數(shù)的定義,F(xiàn)(x)等于樣本值落入?yún)^(qū)間(—g,x]內(nèi)的頻率??紤]隨機(jī)事n件A二{X<x},A的概率P(A)二F(x)。把樣本值x,x, ,x看作n次獨(dú)立試驗(yàn)的結(jié)1 2n果,在這n次試驗(yàn)中A發(fā)生的頻率為F(x)。根據(jù)大數(shù)定律,對于任意的e>0,有nlimP{F(x)一F(x)|<e}=1n事實(shí)上,還可以進(jìn)一步證明下述定理:定理1.2.2當(dāng)nTa時,F(xiàn)(x)以概率1關(guān)于x一致地收斂于F(x),即nP{limsup|F(x)一F(x)|=0}=1nnTg-8<x<+8上述事實(shí)表明,當(dāng)樣本容量n充分大時,樣本取值的分布相當(dāng)準(zhǔn)確地反映了總體X的分布。從而,有可能通過樣本值來了解總體X的情況。抽樣分布前面已指出,當(dāng)取得總體的樣本后,通常是借助樣本的統(tǒng)計量對未知的總體分布進(jìn)行推斷。為了實(shí)現(xiàn)推斷的目的必須進(jìn)一步確定相應(yīng)的統(tǒng)計量所服從的分布。這樣就有必要補(bǔ)充一些在本書概率論部分未曾提及,但在統(tǒng)計學(xué)中卻經(jīng)常用到的分布。分位數(shù)在統(tǒng)計推斷中,經(jīng)常用到統(tǒng)計分布的一類數(shù)字特征——分位數(shù)。在即將討論一些常用的

統(tǒng)計分布前,我們首先給出分位數(shù)的一般概念。定義1.3.1設(shè)隨機(jī)變量X的分布函數(shù)F(x)為,對給定的實(shí)數(shù)a(0<a<1),如果實(shí)數(shù)F滿足aP{X>F}=aa即1-F(F)二a或F(F)二1-aaa則稱F為隨機(jī)變量X的分布的水平a的上側(cè)分位數(shù)?;蛑苯臃Q為分布函數(shù)F(x)的水平aa的上側(cè)分位數(shù)。顯然,如果F(x)是嚴(yán)格單調(diào)增的,那么其水平a的上側(cè)分位數(shù)為F二F-1(1-a)a當(dāng)X是連續(xù)型隨機(jī)變量時,設(shè)其概率密度函數(shù)為f(x),則其水平a的上側(cè)分位數(shù)F滿足aJf(x)dx二aFa在圖形上(圖1.3.1),介于密度函數(shù)曲線下方,x軸上方與垂直直線x=F右方之間的a陰影區(qū)域的面積恰恰等于a。例如,標(biāo)準(zhǔn)正態(tài)分布N(0,1)的水平a的上側(cè)分位數(shù)通常記作u,則u滿足a a1—①(u)=a0a即①(u)=1—a0a圖1.3.2給出了標(biāo)準(zhǔn)正態(tài)分布的水平a的上側(cè)分位數(shù)的圖示。圖1.3.1圖1.3.1上側(cè)分位數(shù)圖1.3.2標(biāo)準(zhǔn)正態(tài)分布的上側(cè)分位數(shù)一般講,直接求解分位數(shù)是很困難的,對常見的統(tǒng)計分布,在本書附錄中給出了分布函數(shù)值表或分位數(shù)表,通過查表,可以很方便地得到分位數(shù)的值。比如,對給趣的,查標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)值表,可得到u的值。對于像標(biāo)準(zhǔn)正態(tài)分布那樣的對稱分布(概率密a度函數(shù)為偶函數(shù),關(guān)于y軸對稱!),統(tǒng)計學(xué)中還用到另一種分位數(shù)一一雙側(cè)分位數(shù)。定義1.3.2設(shè)X是對稱分布的隨機(jī)變量,其分布函數(shù)為F(x),對給定的實(shí)數(shù)a,如果實(shí)數(shù)T滿足apfx|>T}=aa即F(T)-F(—T)=1-aaa則稱實(shí)數(shù)T為隨機(jī)變量X的分布的水平a的雙側(cè)分位數(shù),也簡稱為分位數(shù)?;蛑苯臃Q為分a布(函數(shù))F(x)的水平a的分位數(shù)。由于對稱性,可改寫為F(T)二1-aa2或圖1.3.3標(biāo)準(zhǔn)正態(tài)分布的水平a的雙側(cè)分位數(shù)a1—F(T)二a2a可見,水平a的分位數(shù)實(shí)際等于水平-的上側(cè)分位數(shù)。即有T二F2aa2圖1.3.3以標(biāo)準(zhǔn)正態(tài)分布為例給出了雙側(cè)分位數(shù)的圖示。例1.3.1設(shè)a二0.05,求標(biāo)準(zhǔn)正態(tài)分布的水平0.05的上側(cè)分位數(shù)和雙側(cè)分位數(shù)。解由于①(u)二1-0.05二0.950 0.05

查標(biāo)準(zhǔn)正態(tài)分布函數(shù)值表可得u二1.6450.05而水平0.05的雙側(cè)分位數(shù)為u ,它滿足0.025①(u)二1-0.025二0.9750 0.025查表得u二1.960.025下面我們給出統(tǒng)計三大分布的生成背景。X2分布、t分布和F分布是統(tǒng)計學(xué)上的三大分布,它們在統(tǒng)計上有著廣泛的應(yīng)用,在獨(dú)立性的假設(shè)下可以導(dǎo)出這些分布。X2分布定義1.3.3(X2分布的由來)設(shè)X,X,…,X是n個相互獨(dú)立、同分布的隨機(jī)變量,1 2 n其共同分布為標(biāo)準(zhǔn)正態(tài)分布N(0,1),則隨機(jī)變量服從自由度為n的X2分布,記為X2。下面來導(dǎo)出X2分布的概率密度函數(shù)。n首先令Z=X2,并求其分布。由于Z非負(fù),故當(dāng)z<0時,P(Z<z)二0;而當(dāng)z>01時,則Z的分布函數(shù)為P(Z<z)=P(X2<z)=Pd<X<託)11=F(辰)-F(-展)X1X1對z求導(dǎo)數(shù),得Z的概率密度函數(shù)p(z)=1z-2_Z{}其中p1(x)=(y2兀)-1Exp-x%為標(biāo)準(zhǔn)正態(tài)概率密度函數(shù)。代入上式,可得1 -1 -z(1.3.1)z-2e-2,z>0(1.3.1)0,z<0111這正是r分布廠(2,2),即形狀參數(shù)和尺度參數(shù)皆為2的廠分布(廠。為Gamma函數(shù))。由于X,X,…,X獨(dú)立同分布,故X2,X2,…,X2亦為獨(dú)立同分布,其公共分布為1 2 n 1 2 n

11r(,)。再由r分布的可加性(或再生性)可得Y=X2+X2hfX2的分布為2212n(n1)r ,這正是x2分布,其概率密度函數(shù)為122丿n_[ _yy2_en_[ _yy2_e_2,y>(1.3.2)12丿0,y<0其中n稱為自由度,是X2分布中唯一的參數(shù)。X2分布密度函數(shù)的圖形如圖1.3.4所示。。由于X2變量Y是n個獨(dú)立變量X,X,…,X的平方和,每個變量X都可以隨意取值,2n i可以說它有n個變量,故有n個自由度。X2分布具有下面的重要性質(zhì):1.可加性設(shè)Y?X2,Y?X2,且兩者相互獨(dú)立,則Y+Y?X21m2n 1 2 mhn事實(shí)上,根據(jù)X2分布的定義,我們可以把Y和Y分別表示為12二X2+X2+…+X2112m和=Z2+Z2+?…+Z2TOC\o"1-5"\h\z1 2 n其中X,X,…,X和Z,Z,…,Z都服從N(0,1),且相互獨(dú)立,于是1 2 m1 2nY+Y=X2+X2+?…+X2+Z2+Z2+?…+Z21 2 1 2 m1 2 n根據(jù)X2分布的定義,這就證明了Y+Y?X2 。1 2 mhn2.E(x2)二n,D(x2)二2n。即X2分布的均值等于它的自由度,而方差等于它的nn自由度的二倍。設(shè)Y?X2,則Y=X2+X2h fX2可以表示為,這里X?N(0,1)且相互獨(dú)立。n 1 2 n i因而E(X)=0,D(X)=E(X2)=1。故i i i

E(Y)=E(工X2)=1Le(X2)=niii=1 i=1這就證明了第一條結(jié)論。另一方面,利用分部積分不難驗(yàn)證1 gE(X4)= fx4e-2dx=3,i=1,2,…,ni J2?!猤于是D(X2)=E(X4)—(E(X2))2=3—1=2i i i再利用X,X,…,X的獨(dú)立性,有1 2nD(Y)=》D(X2)=2nii=1這就證明了第二條結(jié)論。對于給定的正數(shù)a,0<a<1,我們稱滿足條件+gP(X2>X2(a))=fk(y)dy=ann nXn2(a)的數(shù)X2(a)為X2分布的上a分位數(shù),如圖1.3.5所示,對不同的n和a,分位數(shù)X2(a)的n n n圖1.圖1.3.4X2分布的概率密度函數(shù)n圖1.3.5X2分布的分位數(shù)n值可在附表3中查到。例如a=O.°5,n=2°,X評05)=31.410。t分布定義1.3.4 (t分布的由來)設(shè)隨機(jī)變量X~N(0,1),Y?X2且X與Y相互獨(dú)立。n則隨機(jī)變量的分布稱為自由度為n的t分布,記為T-t。下面來導(dǎo)出t分布的概率密度函數(shù)。

n首先令Z=vT/n,并求其的分布。由于Z為正,故當(dāng)z<0時,P(Z<z)二0;而當(dāng)z>0時,Z的分布函數(shù)為P(Z<z)=卩(\.帀<z)=P(Y<nz2)=F(nz2)對z求導(dǎo)數(shù),得Z的概率密度函數(shù)p(z)=2nzk(nz2),z>0 (1.3.3)Z n其中k(?)為自由度n的x2分布的概率密度函數(shù)。如1.3.2式所示。n其次,我們求二個獨(dú)立隨機(jī)變量商T=XZ的分布。把隨機(jī)變量T的取值記為u。由于Z>0,而正態(tài)變量X可在(-也8)上取值,故T變量也可在(-也8)上取值,其分布函數(shù)為X “P(T<u)=P(一<u)=P(X<uZ)=Kp(x)p(z)dxdzZ xzx<uz由于z>0,上述二重積分的積分區(qū)域如圖1.3.6所示,通過化重積分為累次積分,可得P(T<u)=f卩p%(x)dx(z)dzo-8對u求導(dǎo)數(shù),即得t分布函數(shù)的概率密度函數(shù)為8p(u)=fzp(uz)p(z)dz (1.3.4)t X Z0這里我們就證明了下面定理。圖1.3.6積分區(qū)域定理1.3.1設(shè)X與Z是二個相互獨(dú)立僅在(0,8)上取值的隨機(jī)變量,其概率密度函數(shù)分別為p(x)和p(z),則其商T=XZ的密度函數(shù)為1.3.4式所示。X Z在1.3.4式中,取p(x)是標(biāo)準(zhǔn)正態(tài)概率密度函數(shù),p(z)是如1.3.3式所示的概率密XZ

度函數(shù),代入后可得p(u)=Jzt0e-(uz)度函數(shù),代入后可得p(u)=Jzt0e-(uz)2'2 2nz丿n-1 ;■(nz2)2-e-nz22dz丿n-12n2Jzne- 2dz作變量替換z=r2v、12,上述積分可化為r函數(shù),即n-1作變量替換z=r2v、12,上述積分可化為r函數(shù),即n-12n;p(u)tn+1「2Tn-丄2Jv2-2e-vdv-(n+1)2(-a-(n+1)2(-a<u<g)4u21+——n丿最后得到概率密度函數(shù)就是自由度為n的t分布。它只含唯一的參數(shù)n,而n正是咒2分布的自由度。自由度為n的t分布的概率密度函數(shù)圖形如圖1.3.8所示。t分布的密度函數(shù)與N(0,1)分布的密度函數(shù)很類似,都是單峰偶函數(shù),峰在原點(diǎn)處,但t分布的峰值總是低于N(0,1)分布的峰值0.399,如圖1.3.7所示。t分布的密度函數(shù)的兩側(cè)都按t-(?+1)速度趨向于零,這比負(fù)指數(shù)函數(shù)e-x2趨向于零的速度慢一些,故t分布的密度函數(shù)兩側(cè)尾部要比N(0,1)分布的兩側(cè)尾部粗一些,從而方差大一些,N(0,1)分布的方差為1,而t分布的方差都大于1,并且當(dāng)n<2時,即t和t方差還不存在;當(dāng)n>3時,t的1 2 n方差為n(n-2),其數(shù)學(xué)期望總為零(當(dāng)n>2時)圖1.3.7t與N(0,1)的概率密度函數(shù)比較 圖1.3.8t分布的概率密度函數(shù)nn自由度為1的t分布就是柯西分布。隨著自由度n的增加,t的密度函數(shù)越來越接近nN(0,1)的密度函數(shù),一般認(rèn)為n>30時,這兩個分布偏離就可以忽略了。t分布是統(tǒng)計中的一個重要分布,它與 N(0,1)的微小差別是戈塞特(Gosset,1876-1937)提出的。他是英國一家釀酒廠的化學(xué)技師,在長期從事實(shí)驗(yàn)和數(shù)據(jù)分析工作中,發(fā)現(xiàn)了t分布,并在1908年以“Student”筆名發(fā)表此項(xiàng)結(jié)果,故后人又稱它為“學(xué)生氏分布。在當(dāng)時正態(tài)分布一統(tǒng)天下的情況下,戈塞特的t分布沒有被外界理解和接受,只能在他的釀酒廠中使用,直到1923年英國統(tǒng)計學(xué)家費(fèi)西爾(Fisher,1890-1962)給出分布的嚴(yán)格推導(dǎo)并于1925年編制了t分布表后,t分布才得到學(xué)術(shù)界的承認(rèn),并獲得迅速的傳播、發(fā)展和應(yīng)用。設(shè)T~t,對給定的a,0<a<1,我們稱滿足條件n+gP(T>t(a))二J p(u)du二ant(a)tn的數(shù)t(a)為t分布的上a分位數(shù)。t分布的分位數(shù)的具體數(shù)值可以從t分布表中查到,見n n附表。F分布定義1.3.5(F分布的由來)設(shè)隨機(jī)變量X?X2,Y?X2,且X與Y相互獨(dú)立。則mn

隨機(jī)變量F= 服從自由度為m和n的F分布,記為F~F。下面來導(dǎo)出F分布的Yn m,n概率密度函數(shù)。X首先令X二,并求其分布。由于X為正,故當(dāng)x<0時,P(X<x)=0;而1m 1 1 1當(dāng)x>0時,X的分布函數(shù)11XP(X<x)二P(—<x)1 1m1=P(X<mx)=F(mx)1X1對xi求導(dǎo)數(shù),可得X1的概率密度函數(shù)p(x)=mk(mx),x>0X1 1 m1 1Y其中k(?)為1.3.2式所示。類似地Y= 的概率密度函數(shù)為m 1npY1(y1)=nkn(ny1),y1>01而當(dāng)yi<0時,PY(yi)=0。由于X與Y相互獨(dú)立,從而X1與Y1也獨(dú)立。1其次,我們求F=X1=的概率密度函數(shù)。記隨機(jī)變量F的取值為u,由于X1與Y1均為正,故F亦為正,從而在〃<0時,F(xiàn)的概率密度函數(shù)PF(u)=0;當(dāng)u>0時,可利用一般公式134式直接求得商F=XJ£的概率密度函數(shù)pF(u)=Jy1pX1(uy1)pY1(y1)dy10=gJnmyk(muy)k(ny)dy1m1n1 10=nmJy1=nmJy10Ir12丿_mA12丿

nAnny(ny)2_1e—21dy1112丿r(m)r〔n丄 丄 12丿m亠nnm2n2m2mgn亠m

u2_1Jy2_1e號(mu+n)dy110利用變量替換y1二2v,可使上述積分化為r函數(shù),即1mu+ng n+m-Jy2e10mu+n)dy=1代回原式,化簡后即得PF(U)=l2n+m2r2丿這就是自由度為m和n的F分布的概率密度函數(shù),它含有兩個參數(shù):m和n。F分布的概率密度函數(shù)如圖1.3.9所示。它的數(shù)學(xué)期望與方差分別為nE(F)二一-,n>2n一2D(F)二2n2(n+m—2)

m(n—2)2(n—4)圖1.3.9F,分布的概率密度函數(shù)m,n設(shè)F?F ,對給定的a,0<a<1,我們稱滿足條件m,n+gP(F>F(a))二J p(u)du二am,n F(a)Fm,n的數(shù)F(a)為F分布的上a分位數(shù)。其中p(u)為F分布的概率密度函數(shù)。它可以從Fm,n F分布表中查到,見附表。F分布具有下列重要性質(zhì):11、設(shè)X?F。記Y二,則Y?Fm,n X n,m這個性質(zhì)可以直接從F分布的定義推出。利用這個性質(zhì)我們可以得到F分布分位數(shù)的如下關(guān)系。F(1—a)=m,n1F (a)n,m1.3.5)這個關(guān)系式的證明如下,若X?F,m,n依據(jù)分位點(diǎn)的定義F(1—X)m,n1—a二p(X>F(1—F(1—X)m,n=P\ym=P\y1<—F(1—X)m,n=1—P[Y1F(1—a)m,n等價地P[y>F(1—X)m,n=(X因?yàn)閅?F1,再根據(jù)分位數(shù)的定義,知 就是F (a),即n,m F(1—a) n,mm,n=F (a),F(xiàn) (1-a) n,mm,n證畢。在通常F分布表中,只對X比較小的值,如X=0.1,0.01,0.05,0.025等列出了分位數(shù)。但有時我們也需要知道X值相對比較大的分位數(shù),它們在F分布表中查不到。這時我們就可以利用分位數(shù)的關(guān)系(1.3.5)式把它們計算出來。例如,對m=12,n=9,a=0.95,我們在F分布表中查不到。但由(1.3.5)式知11“95)=F5)=預(yù)=°357,9,12這里F9,12(0.05)二2.80是可以從F分布表查到的。2、設(shè)X?t,X2?F。n 1,n證明設(shè)X?t,根據(jù)定義,X可以表為nX=丄其中Y?N(0,1),Z?x2且相互獨(dú)立。于是nX2亠Zn注意到Y(jié)2?%12'依據(jù)尸分布的定義知,X2?仁正態(tài)總體統(tǒng)計量的分布1.4.1正態(tài)總體的抽樣分布總體的分布往往是未知的,或部分地未知。根據(jù)實(shí)際問題的需要,有時需對總體未知的重要數(shù)字特征或總體分布所含的未知參數(shù)進(jìn)行推斷。這類問題我們稱作為參數(shù)的統(tǒng)計推斷在參數(shù)統(tǒng)計推斷問題中,經(jīng)常需要利用總體的樣本構(gòu)造出合適的統(tǒng)計量,并使其服從或漸近地服從已知的分布。統(tǒng)計學(xué)中泛稱統(tǒng)計量的分布為抽樣分布。討論抽樣分布的途徑有兩個一是精確地求出抽樣分布并稱相應(yīng)的統(tǒng)計推斷為小樣本統(tǒng)計推斷;另一是讓樣本容量趨于無窮并求出抽樣分布的極限分布,然后,在樣本容量充分大時,再利用該極限分布作為抽樣分布的近似分布,既而對未知參數(shù)進(jìn)行統(tǒng)計推斷,因此稱相應(yīng)的統(tǒng)計推斷為大樣本統(tǒng)計推斷本書只討論小樣本統(tǒng)計推斷。前面我們已反復(fù)強(qiáng)調(diào)指出,三種常用的統(tǒng)計分布均可視為正態(tài)隨機(jī)變量函數(shù)的分布。這些分布的討論為正態(tài)總體的抽樣分布作了必要的準(zhǔn)備。不過,在一般地討論正態(tài)分布的抽樣分布以前,我們還需要介紹一個涉及正態(tài)總體樣本均值與樣本方差的抽樣分布的定理,它是討論正態(tài)總體抽樣分布的一個基礎(chǔ)性定理。定理1.4.1(基本定理)設(shè)X,X,,X是來自正態(tài)總體N(2)的樣本。X和S21 2 n分別為此樣本的樣本均值和樣本方差,則C2X?N(卩,),n(n-1)S2/o2?咒2TOC\o"1-5"\h\zn-1 ,X與S2相互獨(dú)立,其中X為樣本均值,S2為樣本方差,即X=1工X ,S2=1工(X-X)2.\o"CurrentDocument"ni n-1 ii=1 i=1上述定理中結(jié)論(1)的證明是容易的,請學(xué)員自己完成,結(jié)論(2)與(3)證明較復(fù)雜,我們略去。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論