數(shù)理統(tǒng)計課件_第1頁
數(shù)理統(tǒng)計課件_第2頁
數(shù)理統(tǒng)計課件_第3頁
數(shù)理統(tǒng)計課件_第4頁
數(shù)理統(tǒng)計課件_第5頁
已閱讀5頁,還剩655頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1§1.2隨機(jī)變量的特征函數(shù)及其性質(zhì)

定義

2顯然,特征函數(shù)只與分布函數(shù)有關(guān),因此也稱某一分布函數(shù)的特征函數(shù)。

3此時,特征函數(shù)即為密度函數(shù)的Fourier變換。

4二、特征函數(shù)g(t)的性質(zhì)

性質(zhì)4

相互獨(dú)立的隨機(jī)變量之和的特征函數(shù)等于它們的特征函數(shù)之積。

56定理

(惟一性定理)分布函數(shù)由其特征函數(shù)惟一決定.

7三、多元特征函數(shù)

與一元的場合類似,對多元特征函數(shù)仍具有如下性質(zhì)與結(jié)論:

891011121314§1.3常用分布族15二項(xiàng)分布16例1

設(shè)生男孩的概率為p,生女孩的概率為q=1-p,令X表示隨機(jī)抽查出生的4個嬰兒中“男孩”的個數(shù).一、貝努里概型和二項(xiàng)分布我們來求X的概率分布.17X的概率函數(shù)是:男女X表示隨機(jī)抽查的4個嬰兒中男孩的個數(shù),生男孩的概率為p.X=0X=1X=2X=3X=4X可取值0,1,2,3,4.18例2

將一枚均勻骰子拋擲3次,令X表示3次中出現(xiàn)“4”點(diǎn)的次數(shù)X的概率函數(shù)是:不難求得,19

擲骰子:“擲出4點(diǎn)”,“未擲出4點(diǎn)”

一般地,設(shè)在一次試驗(yàn)中我們只考慮兩個互逆的結(jié)果:A或,或者形象地把兩個互逆結(jié)果叫做“成功”和“失敗”.

新生兒:“是男孩”,“是女孩”

抽驗(yàn)產(chǎn)品:“是正品”,“是次品”20

這樣的n次獨(dú)立重復(fù)試驗(yàn)稱作n重貝努里試驗(yàn),簡稱貝努里試驗(yàn)或貝努里概型.

再設(shè)我們重復(fù)地進(jìn)行n次獨(dú)立試驗(yàn)(“重復(fù)”是指這次試驗(yàn)中各次試驗(yàn)條件相同),

每次試驗(yàn)成功的概率都是p,失敗的概率都是q=1-p.21

用X表示n重貝努里試驗(yàn)中事件A(成功)出現(xiàn)的次數(shù),則(2)不難驗(yàn)證:(1)稱r.vX服從參數(shù)為n和p的二項(xiàng)分布,記作X~B(n,p)當(dāng)n=1時,P(X=k)=pk(1-p)1-k,k=0,1稱X服從0-1分布22例3

已知100個產(chǎn)品中有5個次品,現(xiàn)從中有放回地取3次,每次任取1個,求在所取的3個中恰有2個次品的概率.解:因?yàn)檫@是有放回地取3次,因此這3次試驗(yàn)的條件完全相同且獨(dú)立,它是貝努里試驗(yàn).依題意,每次試驗(yàn)取到次品的概率為0.05.設(shè)X為所取的3個中的次品數(shù),于是,所求概率為:則X~B(3,0.05),23注:若將本例中的“有放回”改為”無放回”,那么各次試驗(yàn)條件就不同了,不是貝努里概型,此時,只能用古典概型求解.古典概型與貝努里概型不同,有何區(qū)別?請思考:24

貝努里概型對試驗(yàn)結(jié)果沒有等可能的要求,但有下述要求:(1)每次試驗(yàn)條件相同;二項(xiàng)分布描述的是n重貝努里試驗(yàn)中出現(xiàn)“成功”次數(shù)X的概率分布.(2)每次試驗(yàn)只考慮兩個互逆結(jié)果A或,

且P(A)=p

,;(3)各次試驗(yàn)相互獨(dú)立.可以簡單地說,25例4

某類燈泡使用時數(shù)在1000小時以上的概率是0.2,求三個燈泡在使用1000小時以后最多只有一個壞了的概率.解:設(shè)X為三個燈泡在使用1000小時已壞的燈泡數(shù).X~B(3,0.8),把觀察一個燈泡的使用時數(shù)看作一次試驗(yàn),“使用到1000小時已壞”視為“成功”.每次試驗(yàn),“成功”的概率為0.8

P(X1)=P(X=0)+P(X=1)=(0.2)3+3(0.8)(0.2)2=0.10426

對于固定n及p,當(dāng)k增加時,概率P(X=k)先是隨之增加直至達(dá)到最大值,隨后單調(diào)減少.二項(xiàng)分布的圖形特點(diǎn):X~B(n,p)當(dāng)(n+1)p不為整數(shù)時,二項(xiàng)概率P(X=k)在k=[(n+1)p]達(dá)到最大值;([x]表示不超過

x

的最大整數(shù))n=10,p=0.7nPk27

對于固定n及p,當(dāng)k增加時,概率P(X=k)先是隨之增加直至達(dá)到最大值,隨后單調(diào)減少.二項(xiàng)分布的圖形特點(diǎn):X~B(n,p)當(dāng)(n+1)p為整數(shù)時,二項(xiàng)概率P(X=k)在k=(n+1)p和k=(n+1)p-1處達(dá)到最大值.課下請自行證明上述結(jié)論.n=13,p=0.5Pkn028二、二項(xiàng)分布的泊松近似

當(dāng)試驗(yàn)次數(shù)n很大時,計算二項(xiàng)概率變得很麻煩,如教材例4中,要計算

我們先來介紹二項(xiàng)分布的泊松近似,后面第十七講中,我們將介紹二項(xiàng)分布的正態(tài)近似.或諸如此類的計算問題,必須尋求近似方法.29證明見教材.

定理的條件意味著當(dāng)

n很大時,pn

必定很小.因此,泊松定理表明,當(dāng)n

很大,p

很小時有以下近似式:其中泊松定理設(shè)是一個正整數(shù),,則有30n100,np10時近似效果就很好實(shí)際計算中,其中31

此例說明,當(dāng)p不是很小,而是很大(接近于1),可將問題略為轉(zhuǎn)換一下,仍然可以應(yīng)用泊松近似.

當(dāng)n很大時,p不是很小,而是很大(接近于1)時,能否應(yīng)用二項(xiàng)分布的泊松近似?請看教材例5.下面我們看一個應(yīng)用例子.32例5

為保證設(shè)備正常工作,需要配備適量的維修人員.設(shè)共有300臺設(shè)備,每臺的工作相互獨(dú)立,發(fā)生故障的概率都是0.01.若在通常的情況下,一臺設(shè)備的故障可由一人來處理.問至少應(yīng)配備多少維修人員,才能保證當(dāng)設(shè)備發(fā)生故障時不能及時維修的概率小于0.01?我們先對題目進(jìn)行分析:33300臺設(shè)備,獨(dú)立工作,出故障概率都是0.01.一臺設(shè)備故障一人來處理.

問至少配備多少維修人員,才能保證當(dāng)設(shè)備發(fā)生故障時不能及時維修的概率小于0.01?

設(shè)X為300臺設(shè)備同時發(fā)生故障的臺數(shù),300臺設(shè)備,獨(dú)立工作,每臺出故障概率p=0.01.可看作n=300的貝努里概型.X~B(n,p),n=300,p=0.01可見,34300臺設(shè)備,獨(dú)立工作,出故障概率都是0.01.一臺設(shè)備故障一人來處理.

問至少配備多少維修人員,才能保證當(dāng)設(shè)備發(fā)生故障時不能及時維修的概率小于0.01?設(shè)X為300臺設(shè)備同時發(fā)生故障的臺數(shù),X~B(n,p),n=300,

p=0.01設(shè)需配備N個維修人員,所求的是滿足P(X>N)<0.01或P(X

N)0.99的最小的N.35解:設(shè)X為300臺設(shè)備同時發(fā)生故障的臺數(shù),X~B(n,p),n=300,p=0.01設(shè)需配備N個維修人員,所求的是滿足P(X>N)<0.01的最小的N.

P(X>N)n大,p小,np=3,用=np=3的泊松近似下面給出正式求解過程:36即至少需配備8個維修人員.查書末的泊松分布表得N+19,即N8我們求滿足的最小的N.37這一講,我們介紹了二項(xiàng)分布.二項(xiàng)分布是實(shí)際中最常見的離散型分布之一.二項(xiàng)分布描述的是n重貝努里試驗(yàn)中出現(xiàn)“成功”次數(shù)X的概率分布.我們介紹了二項(xiàng)分布的泊松近似,使用時應(yīng)注意條件.

在解應(yīng)用題時需要注意判斷問題是否為貝努里概型,可否用二項(xiàng)分布求解.38泊松分布39讓我們回憶一下上一講介紹的泊松定理:

等式右端給出的概率分布,是又一種重要的離散型分布:泊松分布設(shè)是一個正整數(shù),,則有40三、泊松分布的定義及圖形特點(diǎn)

設(shè)隨機(jī)變量X所有可能取的值為0,1,2,…,且概率分布為:其中>0是常數(shù),則稱X服從參數(shù)為的泊松分布,記作X~P().41請看演示

泊松分布的圖形特點(diǎn):X~P()泊松分布42

歷史上,泊松分布是作為二項(xiàng)分布的近似,于1837年由法國數(shù)學(xué)家泊松引入的.

近數(shù)十年來,泊松分布日益顯示其重要性,成為概率論中最重要的幾個分布之一.

在實(shí)際中,許多隨機(jī)現(xiàn)象服從或近似服從泊松分布.四、二項(xiàng)分布與泊松分布43

由泊松定理,n重貝努里試驗(yàn)中稀有事件出現(xiàn)的次數(shù)近似地服從泊松分布.“二項(xiàng)分布與泊松分布”

我們把在每次試驗(yàn)中出現(xiàn)概率很小的事件稱作稀有事件.如地震、火山爆發(fā)、特大洪水、意外事故等等請看演示44

在自然界和人們的現(xiàn)實(shí)生活中,經(jīng)常要遇到在隨機(jī)時刻出現(xiàn)的某種事件.我們把在隨機(jī)時刻相繼出現(xiàn)的事件所形成的序列,叫做隨機(jī)事件流.

若事件流具有平穩(wěn)性、無后效性、普通性,則稱該事件流為泊松事件流(泊松流).五、泊松分布產(chǎn)生的一般條件下面簡要解釋平穩(wěn)性、無后效性、普通性.45平穩(wěn)性:

在任意時間區(qū)間內(nèi),事件發(fā)生k次(k≥0)的概率只依賴于區(qū)間長度而與區(qū)間端點(diǎn)無關(guān).無后效性:普通性:

在不相重疊的時間段內(nèi),事件的發(fā)生是相互獨(dú)立的.

如果時間區(qū)間充分小,事件出現(xiàn)兩次或兩次以上的概率可忽略不計.46都可以看作泊松流.某電話交換臺收到的電話呼叫數(shù);到某機(jī)場降落的飛機(jī)數(shù);一個售貨員接待的顧客數(shù);一臺紡紗機(jī)的斷頭數(shù);

…一放射性源放射出的粒子數(shù);例如47

對泊松流,在任意時間間隔(0,t)內(nèi),事件(如交通事故)出現(xiàn)的次數(shù)服從參數(shù)為t

的泊松分布.稱為泊松流的強(qiáng)度.48例1

一家商店采用科學(xué)管理,由該商店過去的銷售記錄知道,某種商品每月的銷售數(shù)可以用參數(shù)λ=5的泊松分布來描述,為了以95%以上的把握保證不脫銷,問商店在月底至少應(yīng)進(jìn)某種商品多少件?解:設(shè)該商品每月的銷售數(shù)為X,已知X服從參數(shù)λ=5的泊松分布.設(shè)商店在月底應(yīng)進(jìn)某種商品m件,求滿足P(X≤m)>0.95的最小的m.進(jìn)貨數(shù)銷售數(shù)49求滿足P(X≤m)>0.95的最小的m.查泊松分布表得P(X>m)≤0.05也即于是得m+1=10,或m=9件50這一講,我們介紹了泊松分布我們給出了泊松分布產(chǎn)生的一般條件

n重貝努里試驗(yàn)中稀有事件出現(xiàn)的次數(shù)近似地服從泊松分布.

泊松分布在管理科學(xué)、運(yùn)籌學(xué)以及自然科學(xué)的某些問題中都占有重要的地位.51正態(tài)分布52

正態(tài)分布是應(yīng)用最廣泛的一種連續(xù)型分布.

正態(tài)分布在十九世紀(jì)前葉由高斯加以推廣,所以通常稱為高斯分布.德莫佛

德莫佛最早發(fā)現(xiàn)了二項(xiàng)概率的一個近似公式,這一公式被認(rèn)為是正態(tài)分布的首次露面.53不知你們是否注意到街頭的一種賭博活動?用一個釘板作賭具。54

也許很多人不相信,玩這種賭博游戲十有八九是要輸?shù)舻?,不少人總想碰碰運(yùn)氣,然而中大獎的概率實(shí)在是太低了。55

平時,我們很少有人會去關(guān)心小球下落位置的規(guī)律性,人們可能不相信它是有規(guī)律的。一旦試驗(yàn)次數(shù)增多并且注意觀察的話,你就會發(fā)現(xiàn),最后得出的竟是一條優(yōu)美的曲線。56高爾頓釘板試驗(yàn)這條曲線就近似我們將要介紹的正態(tài)分布的密度曲線。57正態(tài)分布的定義是什么呢?對于連續(xù)型隨機(jī)變量,一般是給出它的概率密度函數(shù)。58

一、正態(tài)分布的定義

若r.vX的概率密度為記作f(x)所確定的曲線叫作正態(tài)曲線.其中和都是常數(shù),任意,>0,則稱X服從參數(shù)為和的正態(tài)分布.59正態(tài)分布有些什么性質(zhì)呢?

由于連續(xù)型隨機(jī)變量唯一地由它的密度函數(shù)所描述,我們來看看正態(tài)分布的密度函數(shù)有什么特點(diǎn)。60二、正態(tài)分布的圖形特點(diǎn)

正態(tài)分布的密度曲線是一條關(guān)于對稱的鐘形曲線.特點(diǎn)是“兩頭小,中間大,左右對稱”.61

決定了圖形的中心位置,決定了圖形中峰的陡峭程度.

正態(tài)分布的圖形特點(diǎn)62

能不能根據(jù)密度函數(shù)的表達(dá)式,得出正態(tài)分布的圖形特點(diǎn)呢?容易看到,f(x)≥0即整個概率密度曲線都在x軸的上方;63故f(x)以μ為對稱軸,并在x=μ處達(dá)到最大值:令x=μ+c,

x=μ-c(c>0),

分別代入f(x),

可得f(μ+c)=f(μ-c)且f(μ+c)≤f(μ),f(μ-c)≤f(μ)64這說明曲線f(x)向左右伸展時,越來越貼近x軸。即f(x)以x軸為漸近線。

當(dāng)x→

∞時,f(x)→0,65用求導(dǎo)的方法可以證明,為f(x)的兩個拐點(diǎn)的橫坐標(biāo)。x=μσ這是高等數(shù)學(xué)的內(nèi)容,如果忘記了,課下再復(fù)習(xí)一下。66根據(jù)對密度函數(shù)的分析,也可初步畫出正態(tài)分布的概率密度曲線圖。67

回憶我們在本章第三講中遇到過的年降雨量問題,我們用上海99年年降雨量的數(shù)據(jù)畫出了頻率直方圖。從直方圖,我們可以初步看出,年降雨量近似服從正態(tài)分布。68下面是我們用某大學(xué)男大學(xué)生的身高的數(shù)據(jù)畫出的頻率直方圖。紅線是擬合的正態(tài)密度曲線可見,某大學(xué)男大學(xué)生的身高應(yīng)服從正態(tài)分布。69人的身高高低不等,但中等身材的占大多數(shù),特高和特矮的只是少數(shù),而且較高和較矮的人數(shù)大致相近,這從一個方面反映了服從正態(tài)分布的隨機(jī)變量的特點(diǎn)。70請同學(xué)們想一想,實(shí)際生活中具有這種特點(diǎn)的隨機(jī)變量還有那些呢?71

除了我們在前面遇到過的年降雨量和身高外,在正常條件下各種產(chǎn)品的質(zhì)量指標(biāo),如零件的尺寸;纖維的強(qiáng)度和張力;農(nóng)作物的產(chǎn)量,小麥的穗長、株高;測量誤差,射擊目標(biāo)的水平或垂直偏差;信號噪聲等等,都服從或近似服從正態(tài)分布.72服從正態(tài)分布的隨機(jī)變量X的概率密度是X的分布函數(shù)P(X≤x)是怎樣的呢?73

設(shè)X~,X的分布函數(shù)是74

正態(tài)分布由它的兩個參數(shù)μ和σ唯一確定,當(dāng)μ和σ不同時,是不同的正態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布下面我們介紹一種最重要的正態(tài)分布75三、標(biāo)準(zhǔn)正態(tài)分布的正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布.其密度函數(shù)和分布函數(shù)常用

表示:76它的依據(jù)是下面的定理:

標(biāo)準(zhǔn)正態(tài)分布的重要性在于,任何一個一般的正態(tài)分布都可以通過線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布.

根據(jù)定理1,只要將標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)制成表,就可以解決一般正態(tài)分布的概率計算問題.,則~N(0,1)

設(shè)定理177

書末附有標(biāo)準(zhǔn)正態(tài)分布函數(shù)數(shù)值表,有了它,可以解決一般正態(tài)分布的概率計算查表.四、正態(tài)分布表表中給的是x>0時,Φ(x)的值.當(dāng)-x<0時78若~N(0,1)

若X~N(0,1),79由標(biāo)準(zhǔn)正態(tài)分布的查表計算可以求得,這說明,X的取值幾乎全部集中在[-3,3]區(qū)間內(nèi),超出這個范圍的可能性僅占不到0.3%.當(dāng)X~N(0,1)時,P(|X|1)=2(1)-1=0.6826

P(|X|2)=2(2)-1=0.9544P(|X|3)=2(3)-1=0.9974五、3準(zhǔn)則80將上述結(jié)論推廣到一般的正態(tài)分布,時,可以認(rèn)為,Y的取值幾乎全部集中在區(qū)間內(nèi).

這在統(tǒng)計學(xué)上稱作“3準(zhǔn)則”(三倍標(biāo)準(zhǔn)差原則).81

上一講我們已經(jīng)看到,當(dāng)n很大,p接近0或1時,二項(xiàng)分布近似泊松分布;如果n很大,而p不接近于0或1,那么可以證明,二項(xiàng)分布近似于正態(tài)分布.

下面我們不加證明地介紹有關(guān)二項(xiàng)分布近似于正態(tài)分布的一個定理,稱為棣莫佛-拉普拉斯定理.它是第五章要介紹的中心極限定理的一個最重要的特殊情況.82六、二項(xiàng)分布的正態(tài)近似定理(棣莫佛-拉普拉斯定理)

設(shè)隨機(jī)變量服從參數(shù)n,p(0<p<1)的二項(xiàng)分布,則對任意x,有

定理表明,當(dāng)n很大,0<p<1是一個定值時(或者說,np(1-p)也不太小時),二項(xiàng)變量的分布近似正態(tài)分布N(np,np(1-p)).83

實(shí)用中,n30,np10時正態(tài)近似的效果較好.84例1

將一枚硬幣拋擲10000次,出現(xiàn)正面5800次,認(rèn)為這枚硬幣不均勻是否合理?試說明理由.解:設(shè)X為10000次試驗(yàn)中出現(xiàn)正面的次數(shù),采用正態(tài)近似,np=5000,np(1-p)=2500,若硬幣是均勻的,X~B(10000,0.5),近似正態(tài)分布N(0,1).即85=1-Φ(16)≈0此概率接近于0,故認(rèn)為這枚硬幣不均勻是合理的.P(X≥5800)=1-P(X<5800)近似正態(tài)分布N(0,1).86

例2

公共汽車車門的高度是按男子與車門頂頭碰頭機(jī)會在0.01以下來設(shè)計的.設(shè)男子身高X~N(170,62),問車門高度應(yīng)如何確定?解:設(shè)車門高度為hcm,按設(shè)計要求P(X≥h)≤0.01或P(X<h)≥0.99,下面我們來求滿足上式的最小的h.再看一個應(yīng)用正態(tài)分布的例子:87因?yàn)閄~N(170,62),故P(X<h)=0.99查表得(2.33)=0.9901>0.99所以=2.33,即h=170+13.98184設(shè)計車門高度為184厘米時,可使男子與車門碰頭機(jī)會不超過0.01.P(X<h)0.99求滿足的最小的h.88統(tǒng)計三大分布89記為分布1、定義:設(shè)相互獨(dú)立,都服從正態(tài)分布N(0,1),則稱隨機(jī)變量:

所服從的分布為自由度為

n

的分布.分布是由正態(tài)分布派生出來的一種分布.90分布的密度函數(shù)為來定義.其中伽瑪函數(shù)通過積分91由分布的定義,不難得到:1.

設(shè)相互獨(dú)立,都服從正態(tài)分布則2.設(shè)且X1,X2相互獨(dú)立,則這個性質(zhì)叫分布的可加性.92應(yīng)用中心極限定理可得,若

,則當(dāng)n充分大時,若的分布近似正態(tài)分布N(0,1).則可以求得,

E(X)=n,D(X)=2n若93T的密度函數(shù)為:記為T~t(n).

定義:設(shè)X~N(0,1),Y~,且X與Y相互獨(dú)立,則稱變量所服從的分布為自由度為n的t分布.2、t分布94具有自由度為n的t分布的隨機(jī)變量T的數(shù)學(xué)期望和方差為:

E(T)=0;D(T)=n/(n-2),對n>2當(dāng)n充分大時,其圖形類似于標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)的圖形.t分布的密度函數(shù)關(guān)于x=0對稱,且95由定義可見,3、F分布定義:設(shè)X與Y相互獨(dú)立,則稱統(tǒng)計量服從自由度為n1及n2的F分布,n1稱為第一自由度,n2稱為第二自由度,記作F~F(n1,n2).~F(n2,n1)96即它的數(shù)學(xué)期望并不依賴于第一自由度n1.X的數(shù)學(xué)期望為:若n2>2若X~F(n1,n2),X的概率密度為97

統(tǒng)計三大分布的定義、基本性質(zhì)在后面的學(xué)習(xí)中經(jīng)常用到,要牢記??!98第二章統(tǒng)計量與抽樣分布§2.1基本概念99

數(shù)理統(tǒng)計的特點(diǎn)是應(yīng)用面廣,分支較多.社會的發(fā)展不斷向統(tǒng)計提出新的問題.

計算機(jī)的誕生與發(fā)展,為數(shù)據(jù)處理提供了強(qiáng)有力的技術(shù)支持,數(shù)理統(tǒng)計與計算機(jī)的結(jié)合是必然的發(fā)展趨勢.100

由于學(xué)時有限,課程的的這部分內(nèi)容重點(diǎn)在于介紹數(shù)理統(tǒng)計的一些重要概念和典型的統(tǒng)計方法,它們是實(shí)際中最常用的知識.101

學(xué)習(xí)統(tǒng)計無須把過多時間化在計算上,可以更有效地把時間用在基本概念、方法原理的正確理解上.國內(nèi)外著名的統(tǒng)計軟件包:SAS,SPSS,STAT等,都可以讓你快速、簡便地進(jìn)行數(shù)據(jù)處理和分析.

配合教學(xué)編制的教學(xué)軟件“數(shù)理統(tǒng)計教學(xué)系統(tǒng)”,可使你根據(jù)自己的進(jìn)度,在計算機(jī)上進(jìn)行學(xué)習(xí).102

從歷史的典籍中,人們不難發(fā)現(xiàn)許多關(guān)于錢糧、戶口、地震、水災(zāi)等等的記載,說明人們很早就開始了統(tǒng)計的工作.但是當(dāng)時的統(tǒng)計,只是對有關(guān)事實(shí)的簡單記錄和整理,而沒有在一定理論的指導(dǎo)下,作出超越這些數(shù)據(jù)范圍之外的推斷.103

到了十九世紀(jì)末二十世紀(jì)初,隨著近代數(shù)學(xué)和概率論的發(fā)展,才真正誕生了數(shù)理統(tǒng)計學(xué)這門學(xué)科.數(shù)理統(tǒng)計學(xué)104

數(shù)理統(tǒng)計學(xué)是一門應(yīng)用性很強(qiáng)的學(xué)科.它是研究怎樣以有效的方式收集、整理和分析帶有隨機(jī)性的數(shù)據(jù),以便對所考察的問題作出推斷和預(yù)測,直至為采取一定的決策和行動提供依據(jù)和建議.105

數(shù)理統(tǒng)計不同于一般的資料統(tǒng)計,它更側(cè)重于應(yīng)用隨機(jī)現(xiàn)象本身的規(guī)律性進(jìn)行資料的收集、整理和分析.

由于大量隨機(jī)現(xiàn)象必然呈現(xiàn)出它的規(guī)律性,因而從理論上講,只要對隨機(jī)現(xiàn)象進(jìn)行足夠多次觀察,被研究的隨機(jī)現(xiàn)象的規(guī)律性一定能清楚地呈現(xiàn)出來.只允許我們對隨機(jī)現(xiàn)象進(jìn)行次數(shù)不多的觀察試驗(yàn),也就是說,我們獲得的只是局部觀察資料.但客觀上106

數(shù)理統(tǒng)計的任務(wù)就是研究怎樣有效地收集、整理、分析所獲得的有限的資料,對所研究的問題,盡可能地作出精確而可靠的結(jié)論.107

由于推斷是基于抽樣數(shù)據(jù),抽樣數(shù)據(jù)又不能包括研究對象的全部信息.因而由此獲得的結(jié)論必然包含不肯定性.

在數(shù)理統(tǒng)計中,不是對所研究的對象全體(稱為總體)進(jìn)行觀察,而是抽取其中的部分(稱為樣本)進(jìn)行觀察獲得數(shù)據(jù)(抽樣),并通過這些數(shù)據(jù)對總體進(jìn)行推斷.108下面我們以一例進(jìn)行說明:109

某種子公司A,栽種了幾種類別的鮮花,收獲了大量的花籽,并把每25?;ㄗ言梢恍“鍪?一個零售商批發(fā)了若干包,并向顧客保證:在每包25?;ㄗ阎兄辽儆?2粒將能發(fā)芽,否則的話可免費(fèi)調(diào)換另一包.每包要是有3粒不發(fā)芽,馬上免費(fèi)退換!每包25粒110每包25粒中至少有22粒將發(fā)芽所有的包都如此嗎??

這種類型的不肯定性,即不知道種子公司出售的小包中可接受的比例,它是由于對總體的真實(shí)狀態(tài)(天然狀態(tài))無知所引起的不肯定性.零售商面臨如下兩種類型的不肯定性:(1)他對種子公司出售的小包中可接受(即至少有22?;ㄗ褜l(fā)芽)的包數(shù)所占比例是不清楚的.這是第一類不肯定性.111(2)由于種子公司出售的花籽的貨單上,這類花籽共有一百萬包,而零售商只購買了200包,那些包是可接受的呢??這就是盡管他知道了一百萬包可接受的比例,但對他所購買的200包,其中可接受的比例仍舊沒有“把握”.從中購買200包共100萬包因此他又面臨著另一類不肯定性;112零售商購買的200包仍有可能“碰巧”是從不可接受的一萬包中選取的.那些包是可接受的呢??即使是0.99,即種子公司出售的一百萬包中有99萬包是可接受的,這樣他就要損失一筆資金.從中購買200包共100萬包113

這一類不肯定性是由于“隨機(jī)性”所引起的.

在已知的條件下,這種不肯定性的程度已在概率論部分作過討論.下面我們回到第一類不肯定性:

零售商對種子公司出售的小包中可接受(即至少有22?;ㄗ褜l(fā)芽)的包數(shù)所占比例是多少沒有把握.114零售商能夠根據(jù)試驗(yàn)的方法(請公司進(jìn)行發(fā)芽試驗(yàn))來改善他的處境.根據(jù)試驗(yàn)他能作出天然狀況是多少的決策.這就是抽取部分種籽進(jìn)行發(fā)芽試驗(yàn),通過這部分中發(fā)芽數(shù)所占比例(頻率)來對的真值進(jìn)行推斷.115(1)怎樣設(shè)計試驗(yàn),決定觀察的數(shù)目;(2)怎樣利用試驗(yàn)觀察的結(jié)果作出一個“好”的推斷等.這都是數(shù)理統(tǒng)計所要研究的問題.

雖然他不能精確地和肯定地確定,但可以期望獲得一個(在某種意義下)比較好的推斷.這就涉及到116

第一個問題是怎樣進(jìn)行抽樣,使抽得的樣本更合理,并有更好的代表性?這是抽樣方法和試驗(yàn)設(shè)計問題:最簡單易行的是進(jìn)行隨機(jī)抽樣.

第二個問題是怎樣從取得的樣本去推斷總體?這種推斷具有多大的可靠性?這是統(tǒng)計推斷問題.本課程著重討論第二個問題,即最常用統(tǒng)計推斷方法.117

概率論是數(shù)理統(tǒng)計的基礎(chǔ),而數(shù)理統(tǒng)計是概率論的重要應(yīng)用.但它們是并列的兩個學(xué)科,并無從屬關(guān)系.

可見,在數(shù)理統(tǒng)計中必然要用到概率論的理論和方法.因?yàn)殡S機(jī)抽樣的結(jié)果帶有隨機(jī)性,不能不把它當(dāng)作隨機(jī)現(xiàn)象來處理.

由此也可以說,118統(tǒng)計方法具有“部分推斷整體”的特征

.在結(jié)束本節(jié)之前,我們需要強(qiáng)調(diào)說明一點(diǎn):因?yàn)槲覀兪菑囊恍〔糠謽颖居^察值去推斷該全體對象(總體)情況,即由部分推斷全體.這里使用的推理方法是“歸納推理”.119這種歸納推理不同于數(shù)學(xué)中的“演繹推理”,

它在作出結(jié)論時,是根據(jù)所觀察到的大量個別情況,“歸納”起來所得,而不是從一些假設(shè)、命題、已知的事實(shí)等出發(fā),按一定的邏輯推理去得出來的.120

例如,在幾何學(xué)中要證明“等腰三角形底角相等”只須從“等腰”這個前提出發(fā),運(yùn)用幾何公理,一步一步推出這個結(jié)論.

而一個習(xí)慣于統(tǒng)計思想的人,就可能想出這樣的方法:做很多大小形狀不一的等腰三角形,實(shí)地測量其底角,看差距如何,根據(jù)所得資料看看可否作出“底角相等”的結(jié)論.這樣做就是歸納式的方法.121

現(xiàn)在要問:從局部觀察要對總體下結(jié)論有沒有片面性呢?結(jié)論是否可靠?

顯然這里不僅依賴于進(jìn)行局部觀察的“樣本”是否具有總體的代表性,也依賴于對從這些樣本得到數(shù)據(jù)的合理加工、分析并得出論斷.122

我們說,如果這一切都建立在可靠的科學(xué)基礎(chǔ)上,則對總體下結(jié)論是可能的也是可靠的.因?yàn)檫@里存在著樣品(隨機(jī)抽取的一個個體)個性(特殊性)和總體共性(普遍性)之間的一種內(nèi)在的、對立統(tǒng)一的辯證關(guān)系.

“每一事物內(nèi)部不但包括了矛盾的特殊性,而且包含了矛盾的普遍性,普遍性即存在于特殊性之中.”《矛盾論》毛澤東123

我們對每個經(jīng)過合理手續(xù)選取的一個樣品也應(yīng)看到它所具有的兩重性:

一方面它具有特殊性,因?yàn)樗吘故莻€別觀察值,不能反映總體的全面性質(zhì),有片面性.

因而統(tǒng)計上往往不采用由一次抽取的樣品來下結(jié)論.124

在這個基礎(chǔ)上再加上科學(xué)的推斷方法,對總體下的結(jié)論同樣也是可靠的.

另一方面也要看到“普遍性即存在于特殊性之中”,即每個樣品的情況又必然反映總體的一些普遍性.

當(dāng)樣品有一定數(shù)量時總體的普遍性是可以得到比較真實(shí)的反映的.125

但此時還應(yīng)記住畢竟是由“局部”推斷“整體”,因而仍可能犯錯誤,結(jié)論往往又是在某個“可靠性水平”之下得出的.

這種矛盾的特殊性與普遍性的辯證統(tǒng)一在統(tǒng)計學(xué)中貫穿始終,是我們應(yīng)該記住的基本思想.126

一個統(tǒng)計問題總有它明確的研究對象.1.總體…研究某批燈泡的質(zhì)量研究對象的全體稱為總體(母體),總體中每個成員稱為個體.總體一、總體和樣本127

然而在統(tǒng)計研究中,人們關(guān)心總體僅僅是關(guān)心其每個個體的一項(xiàng)(或幾項(xiàng))數(shù)量指標(biāo)和該數(shù)量指標(biāo)在總體中的分布情況.這時,每個個體具有的數(shù)量指標(biāo)的全體就是總體.某批燈泡的壽命該批燈泡壽命的全體就是總體國產(chǎn)轎車每公里的耗油量國產(chǎn)轎車每公里耗油量的全體就是總體128

由于每個個體的出現(xiàn)是隨機(jī)的,所以相應(yīng)的數(shù)量指標(biāo)的出現(xiàn)也帶有隨機(jī)性.從而可以把這種數(shù)量指標(biāo)看作一個隨機(jī)變量,因此隨機(jī)變量的分布就是該數(shù)量指標(biāo)在總體中的分布.

這樣,總體就可以用一個隨機(jī)變量及其分布來描述.129

而概率分布正是刻劃這種集體性質(zhì)的適當(dāng)工具.因此在理論上可以把總體與概率分布等同起來.從另一方面看

統(tǒng)計的任務(wù),是根據(jù)從總體中抽取的樣本,去推斷總體的性質(zhì).

由于我們關(guān)心的是總體中的個體的某項(xiàng)指標(biāo)(如人的身高、體重,燈泡的壽命,汽車的耗油量…),所謂總體的性質(zhì),無非就是這些指標(biāo)值的集體的性質(zhì).130

例如:研究某批燈泡的壽命時,關(guān)心的數(shù)量指標(biāo)就是壽命,那么,此總體就可以用隨機(jī)變量X表示,或用其分布函數(shù)F(x)表示.某批燈泡的壽命總體壽命X可用一概率分布來刻劃鑒于此,常用隨機(jī)變量的記號或用其分布函數(shù)表示總體.如說總體X或總體F(x).F(x)131

類似地,在研究某地區(qū)中學(xué)生的營養(yǎng)狀況時,若關(guān)心的數(shù)量指標(biāo)是身高和體重,我們用X和Y分別表示身高和體重,那么此總體就可用二維隨機(jī)變量(X,Y)或其聯(lián)合分布函數(shù)F(x,y)來表示.

統(tǒng)計中,總體這個概念的要旨是:總體就是一個概率分布.132

為推斷總體分布及各種特征,按一定規(guī)則從總體中抽取若干個體進(jìn)行觀察試驗(yàn),以獲得有關(guān)總體的信息,這一抽取過程稱為“抽樣”,所抽取的部分個體稱為樣本.樣本中所包含的個體數(shù)目稱為樣本容量.2.樣本從國產(chǎn)轎車中抽5輛進(jìn)行耗油量試驗(yàn)樣本容量為5133

但是,一旦取定一組樣本,得到的是n個具體的數(shù)(X1,X2,…,Xn),稱為樣本的一次觀察值,簡稱樣本值.

樣本是隨機(jī)變量.抽到哪5輛是隨機(jī)的容量為n的樣本可以看作n維隨機(jī)變量.1342.獨(dú)立性:X1,X2,…,Xn是相互獨(dú)立的隨機(jī)變量.

由于抽樣的目的是為了對總體進(jìn)行統(tǒng)計推斷,為了使抽取的樣本能很好地反映總體的信息,必須考慮抽樣方法.

最常用的一種抽樣方法叫作“簡單隨機(jī)抽樣”,它要求抽取的樣本滿足下面兩點(diǎn):1.代表性:X1,X2,…,Xn中每一個與所考察的總體有相同的分布.135

由簡單隨機(jī)抽樣得到的樣本稱為簡單隨機(jī)樣本,它可以用與總體獨(dú)立同分布的n個相互獨(dú)立的隨機(jī)變量X1,X2,…,Xn表示.

簡單隨機(jī)樣本是應(yīng)用中最常見的情形,今后,當(dāng)說到“X1,X2,…,Xn是取自某總體的樣本”時,若不特別說明,就指簡單隨機(jī)樣本.若總體的分布函數(shù)為F(x),則其簡單隨機(jī)樣本的聯(lián)合分布函數(shù)為F(x1)F(x2)…F(xn)

136

事實(shí)上我們抽樣后得到的資料都是具體的、確定的值.如我們從某班大學(xué)生中抽取10人測量身高,得到10個數(shù),它們是樣本取到的值而不是樣本.我們只能觀察到隨機(jī)變量取的值而見不到隨機(jī)變量.3.總體、樣本、樣本值的關(guān)系137總體(理論分布)?樣本

樣本值

統(tǒng)計是從手中已有的資料--樣本值,去推斷總體的情況---總體分布F(x)的性質(zhì).

總體分布決定了樣本取值的概率規(guī)律,也就是樣本取到樣本值的規(guī)律,因而可以由樣本值去推斷總體.樣本是聯(lián)系二者的橋梁138

由樣本值去推斷總體情況,需要對樣本值進(jìn)行“加工”,這就要構(gòu)造一些樣本的函數(shù),它把樣本中所含的(某一方面)的信息集中起來.二、統(tǒng)計量和樣本矩1.統(tǒng)計量

這種不含任何未知參數(shù)的樣本的函數(shù)稱為統(tǒng)計量.它是完全由樣本決定的量.139

幾個常見統(tǒng)計量樣本均值樣本方差它反映了總體均值的信息它反映了總體方差的信息140樣本k階原點(diǎn)矩樣本k階中心矩

k=1,2,…它反映了總體k階矩的信息它反映了總體k階中心矩的信息141

2.經(jīng)驗(yàn)分布函數(shù)142§2.2充分統(tǒng)計量與完備統(tǒng)計量一充分統(tǒng)計量在數(shù)理統(tǒng)計中,由樣本來推斷總體的前提是:樣本包含了總體分布的信息。樣本中包含的關(guān)于總體分布的信息可分為:1、關(guān)于總體結(jié)構(gòu)的信息,即反映總體分布的類型。如總體服從正態(tài)分布,則來自該總體的樣本相互獨(dú)立并均服從該正態(tài)分布,即樣本包含了總體分布為正態(tài)分布的信息。2、關(guān)于總體未知參數(shù)的信息,這是由于樣本的分布中包含了總體分布中的未知參數(shù)。

為了推斷總體分布的未知參數(shù),需要把樣本中關(guān)于未知參數(shù)的信息“提煉“出來,即構(gòu)造合適的統(tǒng)計量,顯然,一個“好”的統(tǒng)計量應(yīng)該能夠?qū)颖局兴年P(guān)于未知參數(shù)的信息全部提煉出來,而不沒有任何有用信息損失,這就是英國著名統(tǒng)計學(xué)家Fisher于1922年提出的一個重要的概念-----充分統(tǒng)計量。二、

因子分解定理

根據(jù)充分統(tǒng)計量的含義,在對總體未知參數(shù)進(jìn)行推斷時,應(yīng)在可能的情況下盡量找出關(guān)于未知參數(shù)的充分統(tǒng)計量。但從定義出發(fā)來判別一個統(tǒng)計量是否是充分統(tǒng)計量是很麻煩的。為此,需要一個簡單的判別準(zhǔn)則。下面給出一個定理——因子分解定理,運(yùn)用這個定理,判別甚至尋找一個充分統(tǒng)計量有時會很方便。例2.4根據(jù)因子分解定理證明例2.3。

證明樣本的聯(lián)合分布律為

若取

則有

若取

則三、完備統(tǒng)計量

為了介紹完備統(tǒng)計量的概念,首先需要引人完備分布函數(shù)族的概念。

完備統(tǒng)計量的含義不如充分統(tǒng)計量那么明確,但由定義可見它有如下特征:

但反之不成立,

如果一個統(tǒng)計量既是充分的,又是完備的,則稱為充分完備統(tǒng)計量。在尋求總體分布中未知參數(shù)的優(yōu)良估計中,充分完備統(tǒng)計量扮演著重要的角色。

四、指數(shù)型分布族與式(2.9)比較有

168§2.3抽樣分布盡管在一般情況下,要確定某個統(tǒng)計量的分布是非常困難的,但在總體服從正態(tài)分布時,可以確定某些統(tǒng)計量的分布.

169170請注意(3.1)與(3.4),(3.2)與(3.3)的區(qū)別和聯(lián)系.

171證明:略.

172以上定理統(tǒng)稱為抽樣分布定理,這些定理在以后的區(qū)間估計、假設(shè)檢驗(yàn)中有非常重要的作用.

173因此174175故176所以故177令則U和V相互獨(dú)立,且由t分布的定義可知,于是以上定理統(tǒng)稱為抽樣分布定理,這些定理在以后的區(qū)間估計、假設(shè)檢驗(yàn)中有非常重要的作用.

178§2.4

次序統(tǒng)計量及其分布一次序統(tǒng)計量179顯然有

180

定理次序統(tǒng)計量是充分統(tǒng)計量。所以

此條件分布與總體分布無關(guān),故次序統(tǒng)計量是充分統(tǒng)計量。

181182183184二、樣本中位數(shù)和樣本極差

它的值為185樣本中位數(shù)與樣本均值一樣是刻劃樣本位置特征的量,而且樣本中位數(shù)的計算方便并不受樣本異常值的影響,所以有時比樣本均值更有代表性。

樣本極差定義為

它的值為

樣本極差與樣本方差一樣是反映樣本值變化幅度或離散程度的數(shù)字特征,而且計算方便,所以在實(shí)際中有廣泛的應(yīng)用。186例從總體中抽取容量為6的樣本,測得樣本值為32,65,28,35,30,29,

由小到大排列為28,29,30,32,35,65;

則樣本中位數(shù)為:

而樣本均值為:

187188第三章參數(shù)估計

§3.1點(diǎn)估計與優(yōu)良性189

引言

上一講,我們介紹了總體、樣本、簡單隨機(jī)樣本、統(tǒng)計量和抽樣分布的概念,介紹了統(tǒng)計中常用的三大分布,給出了幾個重要的抽樣分布定理.它們是進(jìn)一步學(xué)習(xí)統(tǒng)計推斷的基礎(chǔ).190

總體樣本統(tǒng)計量描述作出推斷研究統(tǒng)計量的性質(zhì)和評價一個統(tǒng)計推斷的優(yōu)良性,完全取決于其抽樣分布的性質(zhì).隨機(jī)抽樣191

現(xiàn)在我們來介紹一類重要的統(tǒng)計推斷問題

參數(shù)估計問題是利用從總體抽樣得到的信息來估計總體的某些參數(shù)或者參數(shù)的某些函數(shù).

參數(shù)估計估計廢品率估計新生兒的體重估計湖中魚數(shù)……估計降雨量

在參數(shù)估計問題中,假定總體分布形式已知,未知的僅僅是一個或幾個參數(shù).192這類問題稱為參數(shù)估計.參數(shù)估計問題的一般提法X1,X2,…,Xn要依據(jù)該樣本對參數(shù)作出估計,或估計的某個已知函數(shù).現(xiàn)從該總體抽樣,得樣本設(shè)有一個統(tǒng)計總體,總體的分布函數(shù)向量).為F(x,),其中為未知參數(shù)(可以是193參數(shù)估計點(diǎn)估計區(qū)間估計194(假定身高服從正態(tài)分布)設(shè)這5個數(shù)是:1.651.671.681.781.69估計為1.68,這是點(diǎn)估計.這是區(qū)間估計.估計在區(qū)間[1.57,1.84]內(nèi),假如我們要估計某隊(duì)男生的平均身高.

現(xiàn)從該總體選取容量為5的樣本,我們的任務(wù)是要根據(jù)選出的樣本(5個數(shù))求出總體均值的估計.而全部信息就由這5個數(shù)組成.195一、點(diǎn)估計概念及討論的問題例1

已知某地區(qū)新生嬰兒的體重X~隨機(jī)抽查100個嬰兒…得100個體重數(shù)據(jù)10,7,6,6.5,5,5.2,

…呢?據(jù)此,我們應(yīng)如何估計和而全部信息就由這100個數(shù)組成.196

為估計,我們需要構(gòu)造出適當(dāng)?shù)臉颖镜暮瘮?shù)T(X1,X2,…Xn),每當(dāng)有了樣本,就代入該函數(shù)中算出一個值,用來作為的估計值.把樣本值代入T(X1,X2,…Xn)

中,得到的一個點(diǎn)估計值.T(X1,X2,…Xn)稱為參數(shù)的點(diǎn)估計量,197

請注意,被估計的參數(shù)

是一個未知常數(shù),而估計量T(X1,X2,…Xn)是一個隨機(jī)變量,是樣本的函數(shù),當(dāng)樣本取定后,它是個已知的數(shù)值,這個數(shù)常稱為

的估計值.198使用什么樣的統(tǒng)計量去估計?可以用樣本均值;也可以用樣本中位數(shù);還可以用別的統(tǒng)計量.問題是:199我們知道,服從正態(tài)分布由大數(shù)定律,自然想到把樣本體重的平均值作為總體平均體重的一個估計.類似地,用樣本體重的方差.用樣本體重的均值樣本體重的平均值200樣本均值是否是的一個好的估計量?(2)怎樣決定一個估計量是否比另一個估計量“好”?樣本方差是否是的一個好的估計量?這就需要討論以下幾個問題:(1)我們希望一個“好的”估計量具有什么特性?(3)如何求得合理的估計量?那么要問:201

二、估計量的優(yōu)良性準(zhǔn)則

在介紹估計量優(yōu)良性的準(zhǔn)則之前,我們必須強(qiáng)調(diào)指出:

評價一個估計量的好壞,不能僅僅依據(jù)一次試驗(yàn)的結(jié)果,而必須由多次試驗(yàn)結(jié)果來衡量.

這是因?yàn)楣烙嬃渴菢颖镜暮瘮?shù),是隨機(jī)變量.因此,由不同的觀測結(jié)果,就會求得不同的參數(shù)估計值.因此一個好的估計,應(yīng)在多次試驗(yàn)中體現(xiàn)出優(yōu)良性.202

常用的幾條標(biāo)準(zhǔn)是:1.無偏性2.有效性3.相合性這里我們重點(diǎn)介紹前面兩個標(biāo)準(zhǔn).203

估計量是隨機(jī)變量,對于不同的樣本值會得到不同的估計值.我們希望估計值在未知參數(shù)真值附近擺動,而它的期望值等于未知參數(shù)的真值.這就導(dǎo)致無偏性這個標(biāo)準(zhǔn).1.無偏性則稱為的無偏估計.設(shè)是未知參數(shù)的估計量,若204

例如,用樣本均值作為總體均值的估計時,雖無法說明一次估計所產(chǎn)生的偏差,但這種偏差隨機(jī)地在0的周圍波動,對同一統(tǒng)計問題大量重復(fù)使用不會產(chǎn)生系統(tǒng)偏差.無偏性是對估計量的一個常見而重要的要求.無偏性的實(shí)際意義是指沒有系統(tǒng)性的偏差.205所以無偏估計以方差小者為好,這就引進(jìn)了有效性這一概念.的大小來決定二者和一個參數(shù)往往有不止一個無偏估計,若

和都是參數(shù)

的無偏估計量,比較我們可以誰更優(yōu).由于2062.有效性D()<D()則稱較有效.都是參數(shù)

的無偏估計量,若有設(shè)和207在數(shù)理統(tǒng)計中常用到最小方差無偏估計.它的定義是:(也稱最佳無偏估計)若滿足:(1),即為的無偏估計;(2),是的任一無偏估計.則稱為的最小方差無偏估計.設(shè)是取自總體X的一個樣本,是未知參數(shù)的一個估計量,208§3.2點(diǎn)估計量的求法

209

二、尋求估計量的方法1.矩估計法2.極大似然法3.最小二乘法4.貝葉斯方法……這里我們主要介紹前面兩種方法.2101.矩估計法

其基本思想是用樣本矩估計總體矩

.

理論依據(jù):

或格列汶科定理(見教材177頁)

它是基于一種簡單的“替換”思想建立起來的一種估計方法.是英國統(tǒng)計學(xué)家K.皮爾遜最早提出的.大數(shù)定律211記總體k階矩為樣本k階矩為用相應(yīng)的樣本矩去估計總體矩的估計方法就稱為矩估計法.記總體k階中心矩為樣本k階中心矩為212

設(shè)總體的分布函數(shù)中含有k個未知參數(shù)都是這k個參數(shù)的函數(shù),記為:,那么它的前k階矩一般i=1,2,…,k從這k個方程中解出j=1,2,…,k那么用諸的估計量Ai分別代替上式中的諸,即可得諸的矩估計量:j=1,2,…,k213解:由矩法,樣本矩總體矩從中解得的矩估計.即為數(shù)學(xué)期望是一階原點(diǎn)矩

例2

設(shè)總體X的概率密度為是未知參數(shù),其中X1,X2,…,Xn是取自X的樣本,求參數(shù)的矩估計.214解:由密度函數(shù)知

例3

設(shè)X1,X2,…Xn是取自總體X的一個樣本其中>0,求的矩估計.具有均值為的指數(shù)分布故E(X-)=

D(X-)=即

E(X)=

D(X)=215解得令用樣本矩估計總體矩即

E(X)=

D(X)=216

矩法的優(yōu)點(diǎn)是簡單易行,并不需要事先知道總體是什么分布.

缺點(diǎn)是,當(dāng)總體類型已知時,沒有充分利用分布提供的信息.一般場合下,矩估計量不具有唯一性.

其主要原因在于建立矩法方程時,選取那些總體矩用相應(yīng)樣本矩代替帶有一定的隨意性.2172.極大似然法

是在總體類型已知條件下使用的一種參數(shù)估計方法.

它首先是由德國數(shù)學(xué)家高斯在1821年提出的,GaussFisher然而,這個方法常歸功于英國統(tǒng)計學(xué)家費(fèi)歇

.

費(fèi)歇在1922年重新發(fā)現(xiàn)了這一方法,并首先研究了這種方法的一些性質(zhì).218

極大似然法的基本思想

先看一個簡單例子:一只野兔從前方竄過.是誰打中的呢?某位同學(xué)與一位獵人一起外出打獵.如果要你推測,你會如何想呢?只聽一聲槍響,野兔應(yīng)聲倒下.219

下面我們再看一個例子,進(jìn)一步體會極大似然法的基本思想.

你就會想,只發(fā)一槍便打中,獵人命中的概率一般大于這位同學(xué)命中的概率.看來這一槍是獵人射中的.

這個例子所作的推斷已經(jīng)體現(xiàn)了極大似然法的基本思想.220

例4

設(shè)X~B(1,p),p未知.設(shè)想我們事先知道p只有兩種可能:問:應(yīng)如何估計p?p=0.7或p=0.3如今重復(fù)試驗(yàn)3次,得結(jié)果:0,0,0由概率論的知識,3次試驗(yàn)中出現(xiàn)“1”的次數(shù)k=0,1,2,3221

將計算結(jié)果列表如下:應(yīng)如何估計p?p=0.7或p=0.3k=0,1,2,3p值 P(Y=0)P(Y=1)P(Y=2)P(Y=3)0.7 0.0270.189 0.441 0.3430.3 0.3430.441 0.189 0.027 出現(xiàn)估計出現(xiàn)出現(xiàn)出現(xiàn)估計估計估計0.3430.4410.4410.343222如果有p1,p2,…,pm可供選擇,又如何合理地選p呢?從中選取使Qi最大的pi作為p的估計.i=1,2,…,m則估計參數(shù)p為時Qi

最大,比方說,當(dāng)

若重復(fù)進(jìn)行試驗(yàn)n次,結(jié)果“1”出現(xiàn)k次(0≤k≤n),

我們計算一切可能的

P(Y=k;pi

)=Qi

i=1,2,…,m223

如果只知道0<p<1,并且實(shí)測記錄是Y=k(0≤k≤n),又應(yīng)如何估計p呢?注意到是p的函數(shù),可用求導(dǎo)的方法找到使f(p)達(dá)到極大值的p.但因f(p)與lnf(p)達(dá)到極大值的自變量相同,故問題可轉(zhuǎn)化為求lnf(p)的極大值點(diǎn).=f(p)224將lnf(p)對p求導(dǎo)并令其為0,這時,對一切0<p<1,均有從中解得=0便得

p(n-k)=k(1-p)225

以上這種選擇一個參數(shù)使得實(shí)驗(yàn)結(jié)果具有最大概率的思想就是極大似然法的基本思想.這時,對一切0<p<1,均有則估計參數(shù)p為226

極大似然估計原理:

當(dāng)給定樣本X1,X2,…Xn時,定義似然函數(shù)為:

設(shè)X1,X2,…Xn是取自總體X的一個樣本,樣本的聯(lián)合密度(連續(xù)型)或聯(lián)合概率函數(shù)(離散型)為f(X1,X2,…Xn;).f(X1,X2,…Xn;)227

似然函數(shù):

極大似然估計法就是用使達(dá)到最大值的去估計.稱為的極大似然估計(MLE).

看作參數(shù)的函數(shù),它可作為將以多大可能產(chǎn)生樣本值X1,X2,…Xn的一種度量.f(X1,X2,…Xn;)228(4)在最大值點(diǎn)的表達(dá)式中,用樣本值代入就得參數(shù)的極大似然估計值.求極大似然估計(MLE)的一般步驟是:(1)由總體分布導(dǎo)出樣本的聯(lián)合概率函數(shù)

(或聯(lián)合密度);(2)把樣本聯(lián)合概率函數(shù)(或聯(lián)合密度)中自變量看成已知常數(shù),而把參數(shù)看作自變量,

得到似然函數(shù)L();(3)求似然函數(shù)L()

的最大值點(diǎn)(常常轉(zhuǎn)化為求lnL()的最大值點(diǎn)),即

的MLE;229兩點(diǎn)說明:1、求似然函數(shù)L()

的最大值點(diǎn),可以應(yīng)用微積分中的技巧。由于ln(x)是x的增函數(shù),lnL()與L()在的同一值處達(dá)到它的最大值,假定是一實(shí)數(shù),且lnL()是的一個可微函數(shù)。通過求解所謂“似然方程”:可以得到的MLE.

若是向量,上述方程必須用似然方程組代替.2302、用上述求導(dǎo)方法求參數(shù)的MLE有時行不通,這時要用極大似然原則來求.兩點(diǎn)說明:231

下面舉例說明如何求極大似然估計L(p)=f(X1,X2,…Xn;p

)

例5

設(shè)X1,X2,…Xn是取自總體X~B(1,p)的一個樣本,求參數(shù)p的極大似然估計.解:似然函數(shù)為:232對數(shù)似然函數(shù)為:對p求導(dǎo)并令其為0,=0得即為p

的MLE.233解:似然函數(shù)為對數(shù)似然函數(shù)為例6

設(shè)X1,X2,…Xn是取自總體X的一個樣本求的極大似然估計.其中

>0,234求導(dǎo)并令其為0=0從中解得即為的MLE.對數(shù)似然函數(shù)為235解:似然函數(shù)為

例7

設(shè)X1,X2,…Xn是取自總體X的一個樣本其中>0,求的極大似然估計.i=1,2,…,n236對數(shù)似然函數(shù)為解:似然函數(shù)為i=1,2,…,n237=0(2)由(1)得=0(1)對分別求偏導(dǎo)并令其為0,對數(shù)似然函數(shù)為用求導(dǎo)方法無法最終確定用極大似然原則來求.238是對故使達(dá)到最大的即的MLE,于是

取其它值時,即為的MLE.且是的增函數(shù)由于239極大似然估計的一個性質(zhì)可證明極大似然估計具有下述性質(zhì):

設(shè)的函數(shù)g=g()是上的實(shí)值函數(shù),且有唯一反函數(shù).如果是的MLE,則g()也是g()的極大似然估計.240

例8

一罐中裝有白球和黑球,有放回地抽取一個容量為n的樣本,其中有k個白球,求罐中黑球與白球之比R

的極大似然估計.解:設(shè)X1,X2,…,Xn為所取樣本,則X1,X2,…,Xn是取自B(1,p)的樣本,p是每次抽取時取到白球的概率,p未知.先求p的MLE:241p的MLE為

在前面例4中,我們已求得由前述極大似然估計的性質(zhì)不難求得的MLE是242第二次捕出的有記號的魚數(shù)X是r.v,X具有超幾何分布:為了估計湖中的魚數(shù)N,第一次捕上r條魚,做上記號后放回.隔一段時間后,再捕出S條魚,結(jié)果發(fā)現(xiàn)這S條魚中有k條標(biāo)有記號.根據(jù)這個信息,如何估計湖中的魚數(shù)呢?最后,我們用極大似然法估計湖中的魚數(shù)243應(yīng)取使L(N;k)達(dá)到最大的N,作為N的極大似然估計.但用對N求導(dǎo)的方法相當(dāng)困難,我們考慮比值:把上式右端看作N的函數(shù),記作L(N;k).經(jīng)過簡單的計算知,這個比值大于或小于1,或而定.由244經(jīng)過簡單的計算知,這個比值大于或小于1,或而定.由

這就是說,當(dāng)N增大時,序列P(X=k;N)先是上升而后下降;當(dāng)N為小于的最大整數(shù)時,達(dá)到最大值.故N的極大似然估計為245

這一講,我們介紹了參數(shù)點(diǎn)估計,討論了估計量的優(yōu)良性準(zhǔn)則.給出了尋求估計量最常用的矩法和極大似然法.

參數(shù)點(diǎn)估計是用一個確定的值去估計未知的參數(shù).看來似乎精確,實(shí)際上把握不大.為了使估計的結(jié)論更可信,需要引入?yún)^(qū)間估計.這是下一講的內(nèi)容.246§3.3最小方差無偏估計

247一、最小方差無偏估計

由定義3.4知,最小方差無偏估計(MVUE)是在無偏估計類中,使均方誤差達(dá)到最小的估計量,即在均方誤差最小意義下的最優(yōu)估計。它是在應(yīng)用中,人們希望尋求的一種估計量。

248249250251252253

定理3.7給出了最小方差無偏估計的一種判別方法,但由上例可見,該判別法使用并不方便,而且還只是一個充分條件。為了尋求更好的方法,需要借助充分統(tǒng)計量甚至充分完備統(tǒng)計量的概念。

254255256257258259260261262§3.4區(qū)間估計

263

引言

前面,我們討論了參數(shù)點(diǎn)估計.它是用樣本算得的一個值去估計未知參數(shù).但是,點(diǎn)估計值僅僅是未知參數(shù)的一個近似值,它沒有反映出這個近似值的誤差范圍,使用起來把握不大.區(qū)間估計正好彌補(bǔ)了點(diǎn)估計的這個缺陷.264

譬如,在估計湖中魚數(shù)的問題中,若我們根據(jù)一個實(shí)際樣本,得到魚數(shù)N的極大似然估計為1000條.

若我們能給出一個區(qū)間,在此區(qū)間內(nèi)我們合理地相信N的真值位于其中.這樣對魚數(shù)的估計就有把握多了.實(shí)際上,N的真值可能大于1000條,也可能小于1000條.265也就是說,我們希望確定一個區(qū)間,使我們能以比較高的可靠程度相信它包含真參數(shù)值.湖中魚數(shù)的真值[]這里所說的“可靠程度”是用概率來度量的,稱為置信概率,置信度或置信水平.

習(xí)慣上把置信水平記作

,這里是一個很小的正數(shù).266置信水平的大小是根據(jù)實(shí)際需要選定的.例如,通常可取置信水平=0.95或0.9等.根據(jù)一個實(shí)際樣本,由給定的置信水平,我小的區(qū)間,使們求出一個盡可能置信區(qū)間.稱區(qū)間為的置信水平為的267

尋找置信區(qū)間的方法,一般是從確定誤差限入手.使得稱

為與

之間的誤差限

.

我們選取未知參數(shù)的某個估計量,根據(jù)置信水平,可以找到一個正數(shù)

,只要知道的概率分布,確定誤差限并不難.268

下面我們就來正式給出置信區(qū)間的定義,并通過例子說明求置信區(qū)間的方法.由不等式可以解出:這個不等式就是我們所求的置信區(qū)間.269教材上已經(jīng)給出了概率分布的上側(cè)分位數(shù)(分位點(diǎn))的定義,為便于應(yīng)用,這里我們再簡要介紹一下.在求置信區(qū)間時,要查表求分位數(shù).

設(shè)0<<1,對隨機(jī)變量X,稱滿足的點(diǎn)為X的概率分布的上分位數(shù).270例如:

設(shè)0<<1,對隨機(jī)變量X,稱滿足的點(diǎn)為X的概率分布的上分位數(shù).標(biāo)準(zhǔn)正態(tài)分布的上分位數(shù)271例如:

設(shè)0<<1,對隨機(jī)變量X,稱滿足的點(diǎn)為X的概率分布的上分位數(shù).

分布的上分位數(shù)自由度為n的272

設(shè)0<<1,對隨機(jī)變量X,稱滿足的點(diǎn)為X的概率分布的上分位數(shù).F分布的上分位數(shù)自由度為n1,n2的273

書末附有分布、t

分布、F分布的上側(cè)分位數(shù)表,供使用.需要注意的事項(xiàng)在教材上有說明.

至于如何由標(biāo)準(zhǔn)正態(tài)分布函數(shù)表查表求得分位數(shù),若你對分布函數(shù)定義熟悉的話,這個問題不難解決.現(xiàn)在回到置信區(qū)間題目上來.274

一、置信區(qū)間定義:滿足設(shè)是一個待估參數(shù),給定若由樣本X1,X2,…Xn確定的兩個統(tǒng)計量則稱區(qū)間是

的置信水平(置信度、置信概率)為

的置信區(qū)間.分別稱為置信下限和置信上限.275

一旦有了樣本,就把估計在區(qū)間內(nèi).這里有兩個要求:可見,

對參數(shù)作區(qū)間估計,就是要設(shè)法找出兩個只依賴于樣本的界限(構(gòu)造統(tǒng)計量)(X1,…Xn)(X1,…Xn)2762.估計的精度要盡可能的高.如要求區(qū)間長度盡可能短,或能體現(xiàn)該要求的其它準(zhǔn)則.1.要求以很大的可能被包含在區(qū)間內(nèi),就是說,概率要盡可能大.即要求估計盡量可靠.可靠度與精度是一對矛盾,一般是在保證可靠度的條件下盡可能提高精度.277~N(0,1)選的點(diǎn)估計為求參數(shù)的置信度為的置信區(qū)間.

例1

設(shè)X1,…Xn是取自

的樣本,二、置信區(qū)間的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論