水文統(tǒng)計課件_第1頁
水文統(tǒng)計課件_第2頁
水文統(tǒng)計課件_第3頁
水文統(tǒng)計課件_第4頁
水文統(tǒng)計課件_第5頁
已閱讀5頁,還剩464頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

假設(shè)檢驗

§8-1基本概念

基本思想

假設(shè)檢驗的一般步驟兩類錯誤

小概率事件(實際推斷原理)將概率很小、接近於0的事件(小概率事件)在一次試驗中看成實際上的不可能事件;將概率較大、接近1的事件(大概率事件)在一次試驗中看成實際上的必然事件。這就是概率論中的一個重要原理,即實際推斷原則。例如,交通事故時有發(fā)生,但對每個人來講,遇到車禍的概率是很小的,可看成實際上的不可能事件;又例如,若某種彩票中頭獎的概率為1/500萬,則買一張彩票就中頭獎是一個小概率事件,也可看成實際上的不可能事件。假設(shè)檢驗的基本方法

假設(shè)檢驗的基本方法是所謂的概率反證法。即:假定某種假設(shè)H0是正確的。在此前提下構(gòu)造一個小概率事件A,作一次實驗,如果事件A沒有發(fā)生,就接受H0

;反之,就有理由拒絕H0。

例:某車間用一臺自動包裝機包裝奶粉,額定標(biāo)準(zhǔn)假設(shè)檢驗的一般步驟下麵通過例子來說明假設(shè)檢驗的一般步驟為每袋淨(jìng)重0.5公斤,設(shè)包裝機稱得的奶粉重量服從正態(tài)分佈,且根據(jù)長期的經(jīng)驗知其標(biāo)準(zhǔn)差是0.015(公斤),某天開工後,為檢驗包裝機的工作是否正常,隨機抽取它所包裝的奶粉9袋,稱得淨(jìng)重為:0.497,0.506,0.518,0.524,0.488,0.511,0.510,0.515,0.512。問這天包裝機的工作是否正常?

解:設(shè)這天包裝機所包裝的奶粉重量為X,已知X~N

(a,0.0152)。首先,假設(shè)a=0.5,記作H0:

a=0.5。如果H0成立,

取一臨界值,使之在H0

成立的條件下,則設(shè)

因為|1.8|<1.96,這表明小概率事件沒有發(fā)生,我們沒有理由否定原來的假設(shè),只能認為原假設(shè)成立,接受原假設(shè)H0

,即認為這天包裝機工作正常。這種檢驗又稱顯著性檢驗。假設(shè)檢驗的內(nèi)容和形式儘管很多,但檢驗步驟一般如下:①②③④⑤假設(shè)檢驗中的基本術(shù)語

上例中“H0:a=0.5”為原假設(shè)或零假設(shè),而把相反的結(jié)論稱作對立假設(shè)或備擇假設(shè),上例中的備擇假設(shè)為“H1:a

≠0.5”。如果拒絕H0

,則就接受H1

。給定的小概率為顯著水準(zhǔn)。拒絕原假設(shè)的區(qū)域稱為拒絕域或否定域。接受原假設(shè)的區(qū)域稱為接受域。

兩類錯誤

第一類錯誤(“以真作假”錯誤或“棄真”錯誤):在原假設(shè)為真的情況下,如果一次試驗中,小概率事件A發(fā)生了,我們就拒絕原假設(shè),實際上,在成立條件下,雖然事件A發(fā)生的概率很小(等於顯著水準(zhǔn)),但是,它還是有可能發(fā)生的,一旦發(fā)生,就拒絕原假設(shè),即把一個正確的假定給否定了。犯第一類錯誤的概率就是

。第二類錯誤(“以假作真”錯誤或“取偽”錯誤):在我們進行假設(shè)檢驗的時候,當(dāng)我們接受原假設(shè)時,並不能保證原假設(shè)一定是正確的。因為在原假設(shè)不成立的情況下,統(tǒng)計量的取值也有可能落在接受域。犯第二類錯誤的概率為β(如下圖)。

在樣本容量一定的情況下,變小了,則β變大了;反之,β變小了,則變大,不可能使兩者同時都很小。當(dāng)然,人們總希望盡可能地減小犯兩類錯誤的概率。但是,欲使和β都變小,必須增加樣本容量。因為n越大,σ2/n越小,分佈越集中。

我們知道對同一個原假設(shè),根據(jù)同一組樣本,不同,可能有不同的判別結(jié)果。因此,的選擇也很重要,一般鬚根據(jù)實際情況來確定。例如,在檢驗藥品中,某種成分是否等於規(guī)定指標(biāo),因為關(guān)係到人民的安全,我們情願犯“以真作假”的錯誤,而不願犯“以假作真”的錯誤,即寧可將合格藥品判為不合格藥品,而不願將不合格藥品判為合格藥品,此時,應(yīng)把取大些。而在另外一些場合,例如,檢查盒裝螺絲釘?shù)闹亓?,就不必那麼嚴(yán)格了,值可以取小些?!?-2正態(tài)總體均值的假設(shè)檢驗

分兩種情況討論:一個正態(tài)總體均值的假設(shè)檢驗1①1.2.

2.

例:由生產(chǎn)經(jīng)驗知,某種鋼筋的強度服從正態(tài)分佈N(a,σ2)

,但a,σ2均未知,今隨機抽取6根鋼筋進行強度試驗,測得強度分別是(單位:kg/mm2):48.5,49.0,53.5,49.5,56.0,52.5,問能否認為該種鋼筋的強度為52.0(=0.05)?解:

正態(tài)總體均值的雙側(cè)假設(shè)檢驗與

單側(cè)假設(shè)檢驗

雙側(cè)假設(shè)檢驗:假設(shè)檢驗的否定域分佈在接受域的兩側(cè)。單側(cè)假設(shè)檢驗原假設(shè)為:兩個正態(tài)總體均值的假設(shè)檢驗

例:設(shè)我國南方甲、乙兩市的年降水量,分別服從正態(tài)分佈,X~N(a1,σ12),Y~N(a2,σ22)且已知

σ1=250,σ2=260

。根據(jù)甲城市的15年降水資料計算得平均年降水量為1050mm,又根據(jù)乙城市13年降水資料計算得平均降水量為1000mm

,試在=0.05下檢驗兩市年降水量的均值有無顯著差異?解:

如果兩正態(tài)總體方差未知,但已知兩正態(tài)總體方差相等,則在H0成立時統(tǒng)計量

其中這樣,可以採用t檢驗法。

多個正態(tài)總體均值的假設(shè)檢驗

(方差分析)表1:在水文研究中,方差分析主要用於分析水文現(xiàn)象的週期性?!?-3正態(tài)總體方差的假設(shè)檢驗

分兩種情況:一個正態(tài)總體方差的假設(shè)檢驗a已知

a未知

例:某車間生產(chǎn)的鋼絲折斷力在正常情況服從N(a,σ2)

,按規(guī)定生產(chǎn)精度σ2=64,某天抽取10根鋼絲作折斷試驗,結(jié)果為(單位:kg)578,572,570,568,572,570,572,596,584,570。試問該天生產(chǎn)的精度有無顯著變化?(取=0.05)解:,兩個正態(tài)總體方差的假設(shè)檢驗

例:

對A,B兩批同類無線電元件的電阻進行測試(單位:歐),各抽6件,根據(jù)測試結(jié)果。求得,能否認為這兩批元件電阻的方差相等。(=0.02)解:

根據(jù)已知條件,求得F的計算值為:

因為0.09<1.06<11,所以可以認為這兩批元件電阻的方差無顯著差異?!?-4零相關(guān)檢驗

設(shè)X與Y為服從正態(tài)分佈的隨機變數(shù),ρ為它們的相關(guān)係數(shù)。(X1,X2,…,Xn)和(Y1,Y2,…,Yn)分別為X與Y的樣本,R為它們的樣本相關(guān)係數(shù),與其他樣本數(shù)字特徵一樣,也是隨機變數(shù)。

一般來講,如果X與Y的線性相關(guān)程度越高,則R的絕對值越大;反之,則R的絕對值越小。但是,有時即使X與Y不相關(guān),甚至相互獨立,由於抽樣的隨機性仍有可能有較大的樣本相關(guān)係數(shù)。因此,常常有必要對相關(guān)係數(shù)是否為零進行檢驗,這種檢驗成為零相關(guān)檢驗。提出原假設(shè):

H0:ρ=0;H1:ρ≠0在實際工作中,常採用另外一種等價的檢驗方法。

例:根據(jù)12年資料,算得某流域年徑流量與年降水量的相關(guān)係數(shù)r=0.88,試檢驗該流域的年徑流量和年降水量是否顯著相關(guān)(=0.05)。解:

由=0.05,根據(jù)自由度n-2=10,查附表(相關(guān)係數(shù)檢驗表)得:因為

所以拒絕原假設(shè)ρ=0,即該流域的年徑流量與年降水量是顯著相關(guān)的?!?-5非參數(shù)假設(shè)檢驗

分佈的假設(shè)檢驗獨立性檢驗一致性檢驗

前面所討論的檢驗對象都是總體的未知參數(shù),所以稱為參數(shù)假設(shè)檢驗。而在某些場合需要檢驗?zāi)硞€樣本是否來自某已知分佈的總體,或者根據(jù)樣本,要檢驗隨機變數(shù)的獨立性,有時還要判斷某組樣本是否屬於同一總體,等等。這些都屬於非參數(shù)假設(shè)檢驗。分佈的假設(shè)檢驗

隨機變數(shù)X的分佈函數(shù)F(x)未知,F0(x)為某個已知的分佈函數(shù)。H0:F(x)=F0(x),H1:F(x)≠

F0(x)

將X的取值範(fàn)圍劃分成若干個連續(xù)的區(qū)間,統(tǒng)計樣本落在各區(qū)間內(nèi)的個數(shù)mi,再計算出H0成立時,n次試驗中在各區(qū)間取值的理論頻數(shù)npi。皮爾遜證明,當(dāng)

例:下表中①,②兩列是某隨機變數(shù)X的容量n=269的樣本的頻率分佈,試檢驗X

是否服從正態(tài)分佈N(a,σ2)(=0.05)。各組的頻數(shù)不應(yīng)太小,一般要求不小於5,否則,將它與鄰組合並,總組數(shù)k按合併後的組數(shù)計算。解:根據(jù)樣本,用極大似然法估計正態(tài)分佈中的兩個參數(shù)。將表中的最前2組和最後3組分布合併,使每組頻數(shù)不少於5??偨M數(shù)k=11。由

=0.05,自由度v=11-2-1=8,查分佈表得。由上表求得的值為7.47。因為7.47<15.51,所以接受原假設(shè),即可以認為隨機變數(shù)X服從正態(tài)分佈。獨立性檢驗

在水文分析中,常常要考慮隨機變數(shù)的獨立性,一般情況下,可通過分析物理成因和抽樣方式作出判斷。如果資料充分,也可運用獨立性檢驗作出判斷。設(shè)X與Y為兩個隨機變數(shù)。

H0:X與Y相互獨立將X與Y的取值範(fàn)圍分別劃分成r個和k個互不相交的區(qū)間,統(tǒng)計樣本觀測值落在各區(qū)間的頻數(shù)nij,製成列聯(lián)表。

可以證明

一致性檢驗

設(shè)F1(x)、F2(x)分別為隨機變數(shù)X1和X2的分佈函數(shù);Fn1(x)、Fn2(x)分別為X1和X2的經(jīng)驗分佈函數(shù),n1和n2分別為X1和X2的樣本容量。H0:F1(x)=F2(x)其中

本章小結(jié)假設(shè)檢驗是統(tǒng)計推斷方法之一,它的基本思想是根據(jù)實際需要,對所研究的隨機現(xiàn)象的某種統(tǒng)計性質(zhì)作出某種假設(shè),然後通過實驗或觀測獲得該現(xiàn)象的樣本,利用這個樣本檢驗所作的假設(shè)是否可以接受,所作的假設(shè)稱為原假設(shè)(或統(tǒng)計假設(shè)),假設(shè)檢驗有參數(shù)檢驗和非參數(shù)檢驗兩種。假設(shè)檢驗的內(nèi)容很多,這裏只介紹了幾種常用的方法,這些方法的掌握以後,對其他假設(shè)檢驗問題將會觸類旁通。

第二章

隨機變量及其分布隨機變數(shù)及其分佈§2-1隨機變數(shù)與分佈函數(shù)§2-2離散型隨機變數(shù)的概率分佈§2-3連續(xù)型隨機變數(shù)與分佈密度§2-4隨機變數(shù)函數(shù)的分佈§2-1隨機變數(shù)與分佈函數(shù)隨機變數(shù)隨機變數(shù)的兩種基本類型分佈函數(shù)隨機變數(shù)

如果隨機試驗的所有結(jié)果可以用一個變數(shù)X的各種不同取值來表示,則這種變數(shù)稱為隨機變數(shù)或隨機變數(shù)。例如,有一批產(chǎn)品共100件,其中有5件次品,今從中任取2件,我們可用X來表示任取的2件產(chǎn)品中次品的件數(shù)。用“X=0”表示“沒有取到次品”;“X=1”表示“取到1件次品”;“X=2”表示“取到2件次品”。例如,我們?nèi)粲肶表示長江某站的年最高水位,則“Y=8”表示“年最高水位等於8米”;“Y11”表示“年最高水位不超過11米”;“7<Y<9”表示“年最高水位在7~9米”之間。結(jié)果不是數(shù)量性的隨機試驗,也可以用一個變數(shù)來表示這個試驗的結(jié)果。例如拋擲硬幣,可用“Z=1”表示“正面朝上”;“Z=0”表示“反面朝上”。隨機變數(shù)的定義如果對試驗E的每一個結(jié)果賦予一個實數(shù)X(w),且對任意實數(shù),{X(w)<x}有著確定的概率,則稱X(w)為隨機變數(shù)。

可以用右圖說明上述X(w

)與w的關(guān)係。其中w是試驗E的任一事件,X(w

)為在數(shù)軸上與w對應(yīng)的的一個實數(shù)。把隨機變數(shù)X(w)簡寫成X;

用X,Y,Z……表示隨機變數(shù);用小寫的英文字母x,y,z……

表示隨機變數(shù)的取值。隨機變數(shù)的兩種基本類型離散型隨機變數(shù)非離散型隨機變數(shù)

離散型隨機變數(shù)隨機變數(shù)X的全體可能取值為有限個,或無限多個但可以一一列舉的數(shù)。例如,擲一顆骰子,用X表示其出現(xiàn)的點數(shù),則X的可能取值為有限個數(shù):1,2,3,4,5,6;記錄某電話總機在24小時內(nèi)接到的呼喚次數(shù),以Z表示呼喚次數(shù),則Z的可能取值有無限多個,但可以一一列舉出來:0,1,2……

非離散型隨機變數(shù)若隨機變數(shù)X的可能取值不能列舉(即非有限,非可列),則稱X為非離散型隨機變數(shù),非離散型隨機變數(shù)範(fàn)圍很廣,其中最重要最常見的是所謂連續(xù)型隨機變數(shù)。連續(xù)性隨機變數(shù)的嚴(yán)格定義將在後面給出,這裏只是指出它的一個最重要特徵,即它的可能取值充滿數(shù)軸上一個有限或無限區(qū)間。例如,年降水量、年最大洪峰流量、峰現(xiàn)時間、測量誤差等。注意:對連續(xù)型隨機變數(shù),我們所關(guān)心的往往不是它取某個特定值的概率(以後將證明,它取任一特定值的概率為0),而是它的取值落在某個區(qū)間內(nèi)的概率。例如,年雨量在800至1000毫米間的概率,洪峰流量大於某個數(shù)值的概率等。

分佈函數(shù):設(shè)X為一隨機變數(shù),x為任意實數(shù),則(X<x)代表了樣本空間Ω中的一個事件。當(dāng)x為不同值時,(X<x)代表不同的事件,從而其概率P(X<x)也不同。一般來說,P(X<x)隨x的改變而變化,即P(X<x)為x的函數(shù)。若記F(x)=P(X<x),則稱F(x)為隨機變數(shù)X的分佈函數(shù)。

分佈函數(shù)的性質(zhì)分佈函數(shù)的性質(zhì)1

分佈函數(shù)的性質(zhì)2分佈函數(shù)的性質(zhì)3根據(jù)概率的性質(zhì)可得上述性質(zhì)?!?-2離散型隨機變數(shù)的

概率分佈

概率分佈幾種重要的離散型隨機變數(shù)的概率分佈離散型隨機變數(shù)的概率分佈設(shè)隨機變數(shù)X為離散型隨機變數(shù),則X的取值可以一一列舉出來。若X的所有可能取值為xi(i=1,2……),X取xi的概率為Pi,即P(X=xi)=Pi,i=1,2…

則P(X=xi)=Pi,i=1,2…

稱為隨機變數(shù)X的概率函數(shù)。離散型隨機變數(shù)的分佈列

將X的所有可能取值xi以及與其相應(yīng)的概率Pi列成表Xx1X2

…xi…P(X=xi)P1P2…Pi…概率函數(shù)的性質(zhì)此表稱為隨機變數(shù)X的分佈列。

性質(zhì)1:性質(zhì)2:分佈函數(shù)離散型隨機變數(shù)的分佈函數(shù)為:

例:從一批含有13只正品、2只次品的產(chǎn)品中,不放回地抽取3次,每次抽取1只,求抽得次品數(shù)X的分佈列及分佈函數(shù)。解:從含有2只次品的15只產(chǎn)品中抽取3只,抽得的次品數(shù)的可能取值為0,1,2。所以,X的分佈列為:

X012

所以,X的分佈函數(shù)為幾種重要的離散型隨機變數(shù)的概率分佈

(0-1)分佈(又稱兩點分佈)貝努利概型、二項分佈泊松分佈泊松定理(0-1)分佈(又稱兩點分佈)設(shè)隨機變數(shù)X只可能取0和1二個值,它的概率分佈是

P(X=1)=p,

P(X=0)=1-p=q,(0<p<1)則稱服從(0-1)分佈,或稱X具有(0-1)分佈。分佈列為:X的分佈函數(shù)為:X01Pi1-pp

貝努利概型與二項分佈將試驗E重複進行n次,若各次試驗的結(jié)果互不影響,即每次試驗出現(xiàn)什麼結(jié)果的概率都不依賴於其他各次試驗的結(jié)果,則稱這n次試驗是獨立的。設(shè)試驗E只有二個可能的結(jié)果:A及,記P(A)=p,P()=1-p=q(0<p<1),將E獨立地重複進行n次,則稱這一串重複的獨立試驗為n重(次)貝努利試驗,簡稱貝努利試驗。貝努利試驗是一種很重要的數(shù)學(xué)模型,這種模型有時又被稱為重複獨立試驗概型或貝努利概型。在貝努力概型中,求事件A恰發(fā)生K(0k

n)次的概率Pn(k)。例:對同一目標(biāo)作三次獨立射擊。每次命中目標(biāo)的概率為p,不命中目標(biāo)的概率是q=1-p,若以X表示三次射擊中擊中目標(biāo)的次數(shù),則X是貝努利型的隨機變數(shù),試求X的分佈列。解:設(shè)Ai表示“第i次射擊命中目標(biāo)”,i=1,2,3則

由概率的加法公式和乘法公式得:二項分佈的一般公式: 在n次貝努利試驗中,A恰好出現(xiàn)次的概率為

k=0,1,…,n

因式的右端是二項式展開式的第k+1項,所以稱此分佈為二項分佈,簡記為,其中n,p為分佈參數(shù)。例:一座小型水庫,每年出現(xiàn)超標(biāo)洪水的概率為1/50,假定各年是否出現(xiàn)超標(biāo)洪水是相互獨立的,求在建成後20年內(nèi)恰有2年出現(xiàn)超標(biāo)洪水的概率和出現(xiàn)超標(biāo)洪水的年數(shù)在4年以上的概率。解:將記錄每年的最大洪水看成一次試驗。令X表示出現(xiàn)超標(biāo)洪水的年數(shù),則X~B(20,1/50)分佈,於是所求概率為

泊松分佈

設(shè)隨機變數(shù)X的可能取值為0,1,…,n而(X=k)的概率為

例:一電話交換臺每分鐘內(nèi)接到的呼喚次數(shù)服從參數(shù)為4的泊松分佈,求1)一分鐘內(nèi)恰有8次呼喚的概率2)一分鐘內(nèi)的呼喚次數(shù)大於3的概率

泊松定理設(shè)一串隨機變數(shù)Xn(n=1,2,…)服從二項分佈,其分佈律為

因此,當(dāng)n很大時,二項分佈的計算很麻煩,在這種情況下,可通過泊松分佈來求出二項分布的近似值。例:為了保證設(shè)備正常工作,需要配備適量維修工人(工人配備多了就浪費,配備少了又要影響生產(chǎn)),現(xiàn)有同類型設(shè)備300臺,各臺工作是相互獨立的,發(fā)生故障的概率都是0.01,在通常情況下一臺設(shè)備的故障可由一個人來處理(我們也只考慮這種情況),問至少需要多少工人,才能保證當(dāng)設(shè)備發(fā)生故障,但不能及時維修的概率小於0.01?解:設(shè)需要配備N人,記同一時刻發(fā)生故障的設(shè)備臺數(shù)為X,那麼,X~B(300,0.01),所要解決的問題是確定N使得

P(X>N)≤0.01

由泊松定理(這裏λ=np=3)

P(X>N)=1-P(X≤N)

於是解上式得最小的N應(yīng)該是8。因此達到上述要求至少需配備8各人。§2-3連續(xù)型隨機變數(shù)的分佈密度

連續(xù)型隨機變數(shù)和分佈密度幾種重要的連續(xù)型隨機變數(shù)的分佈均勻分佈

正態(tài)分佈皮爾遜Ⅲ型分佈

連續(xù)型隨機變數(shù)和分佈密度設(shè)隨機變數(shù)X的分佈函數(shù)為F(x),如果存在非負函數(shù)f(x),使對任意實數(shù)x,有密度函數(shù)的性質(zhì)密度函數(shù)的兩條基本性質(zhì):

連續(xù)型隨機變數(shù)X落在[a,b]區(qū)間的概率

密度函數(shù)和分佈函數(shù)的關(guān)係

密度函數(shù)的意義

注意:連續(xù)型隨機變數(shù)取單個值的概率為0。因此,在討論連續(xù)型隨機變數(shù)的概率時,總是考慮它取值於某個區(qū)間的概率,而不考慮它取某一特定值的概率。而且在進行概率計算時,區(qū)間的端點包不包括在內(nèi)是無關(guān)緊要的,這是連續(xù)型隨機變數(shù)與離散型隨機變數(shù)的重大區(qū)別。超過累積頻率

在水文計算中,常常關(guān)心某些水文特徵值超過某一標(biāo)準(zhǔn)的概率,在描述水文變數(shù)的概率分佈時,常常不採用上述定義的分佈函數(shù),而採用它的餘量。

幾種重要的連續(xù)型隨機變數(shù)的分佈均勻分佈

正態(tài)分佈皮爾遜Ⅲ型分佈

均勻分佈設(shè)隨機變數(shù)X在有限區(qū)間〔a,b〕內(nèi)取值,且其概率密度為

則稱X在區(qū)間〔a,b〕上服從均勻分佈,簡記為X的分佈函數(shù)為

正態(tài)分佈設(shè)隨機變數(shù)X的概率密度為正態(tài)分佈的分佈函數(shù)為

標(biāo)準(zhǔn)化正態(tài)分佈若正態(tài)概率密度中a=0,σ=1,

則稱這樣的正態(tài)分佈為標(biāo)準(zhǔn)化正態(tài)分佈,相應(yīng)的隨機變數(shù)為標(biāo)準(zhǔn)化正態(tài)變數(shù)。標(biāo)準(zhǔn)化正態(tài)分佈的概率密度和分佈函數(shù)分別用

標(biāo)準(zhǔn)化正態(tài)分佈重要性質(zhì):

通過查表可求得標(biāo)準(zhǔn)化正態(tài)隨機變數(shù)X的超過制概率Q(x)

正態(tài)分佈的計算例:解:1)對於一般正態(tài)隨機變數(shù),可通過下列關(guān)係式

例:設(shè)X服從正態(tài)分佈N(10,22),求解:

皮爾遜Ⅲ型分佈

英國生物學(xué)家皮爾遜研究了大量資料後發(fā)現(xiàn),許多隨機變數(shù)的頻率分佈密度曲線都是單峰鈴形,峰值兩邊的頻率逐漸減少,最後趨於與橫軸相切。於是,他概括出這種形狀的頻率密度曲線的微分方程,通過積分,得到13種不同型式的密度函數(shù),組成皮爾遜曲線簇。其中的Ⅰ、Ⅲ、Ⅴ三種型式的密度曲線都曾受到水文學(xué)者的推薦和研究,特別是第Ⅲ型,簡記為P-Ⅲ型,1924年福斯特(Foster)首先將它應(yīng)用於水文現(xiàn)象,以後得到各國水文工作者的廣泛研究,也是我國水文計算規(guī)範(fàn)指定採用的分佈線型。皮爾遜Ⅲ型的分佈密度

§2-4隨機變數(shù)函數(shù)的分佈例:設(shè)X為離散型隨機變數(shù),其分佈列為

求Y=X2的分佈律解:因此,Y的分佈列為連續(xù)型隨機變數(shù)函數(shù)的情形

設(shè)y=g(x)是x的單調(diào)函數(shù)

y=g(x)單調(diào)增加

例:設(shè)X服從正態(tài)分佈

一般情況隨機變數(shù)函數(shù)的分佈

設(shè)隨機變數(shù)X有密度函數(shù)是單值連續(xù)函數(shù),若方程對y有實根,即且均存在,那麼Y的密度函數(shù)為本章小結(jié)離散型隨機變數(shù)和連續(xù)隨機變數(shù)是兩類最主要的隨機變數(shù),分佈列和分佈密度函數(shù)就是分別針對這兩類隨機變數(shù)而提出的,而分佈函數(shù)則可用於一般情況。分佈列、分佈密度和分佈函數(shù)都能完整地反映隨機變數(shù)的概率特性。學(xué)習(xí)本章內(nèi)容,除了應(yīng)熟悉隨機變數(shù)及其分佈的一些基本概念之外,還應(yīng)熟記它們的基本性質(zhì)。兩點分佈、二項分佈、泊松分佈是離散型隨機變數(shù)中最常見的分佈;均勻分佈、正態(tài)分佈是連續(xù)型隨機變數(shù)中最常見的分佈;P-Ⅲ分佈是我國水文工作中使用最普遍的分佈。在所有分佈中,正態(tài)分佈佔有特別重要的地位。它具有良好的性質(zhì),不論在理論研究中,還是在實際工作中,都得到廣泛的應(yīng)用。推求已知分佈的隨機變數(shù)函數(shù)的分佈,也是十分重要的內(nèi)容,應(yīng)熟練掌握。第九章回歸分析回歸分析§9-1基本概念§9-2一元線性回歸§9-3多元線性回歸§9-4非線性回歸§9-1基本概念變數(shù)間的關(guān)係自然界中的許多變數(shù),它們之間的關(guān)係可概括為三種類型。

第一種類型是確定性關(guān)係,即一個變數(shù)的值完全由另一個或另幾個變數(shù)的值所確定,這種關(guān)係可以用函數(shù)式來表述。例如:自由落體運動中,物體下落的距離S與下落時間t之間就有如下的函數(shù)關(guān)係

第二種類型是一個變數(shù)的取值與另一個變數(shù)的值毫無關(guān)係。

第三種類型是一個變數(shù)的取值既不象確定性關(guān)係中那樣完全由另一個變數(shù)值決定,也不象第二種類型所述的與另一個變數(shù)值完全無關(guān),它與另一個變數(shù)有一定的關(guān)係,這種關(guān)係稱為相關(guān)關(guān)係。具有相關(guān)關(guān)係的兩個變數(shù)中,一個變數(shù)的取值,除受到另一個變數(shù)值的制約之外,還受到其他變數(shù)的影響,因此,它不完全由另一個變數(shù)確定。在水文工作中所研究的變數(shù),很多屬於相關(guān)關(guān)係。例如,河流某斷面處的流量與水位的關(guān)係,對某個確定的水位,流量是不確定的,而是在一個數(shù)值上下變動。這是因為影響流量大小的,除了水位以外,還有水面比降、河道糙率等因素。因此,同一水位下各次測得的流量不同。但是,一般來說,水位高,流量大;水位低,流量小,因此,稱水位與流量之間存在相關(guān)關(guān)係。再例如,測流斷面的徑流量與斷面以上流域內(nèi)的平均降雨量之間的關(guān)係,也屬於相關(guān)關(guān)係。由於徑流量除了主要受降雨量影響外,還受其他因素的影響,如土壤含水量、河湖蓄水量以及蒸發(fā)量等。因此,對於相同的降水量,並不對應(yīng)著一個確定的徑流量。但是,總的來說,降雨量大,徑流量也大;降雨量小,徑流量也小。相關(guān)關(guān)係雖然不是確定性的,但往往也存在一定規(guī)律?;貧w分析就是研究變數(shù)間相關(guān)關(guān)係的一種數(shù)學(xué)方法?;貧w分析的主要任務(wù),就是根據(jù)因變數(shù)和引數(shù)的觀測數(shù)據(jù),確定它們之間的趨勢函數(shù)並對其進行統(tǒng)計分析。在水文學(xué)的研究和實踐中,回歸分析是極其重要的工具。線性模型具有相關(guān)關(guān)係的變數(shù)之間,因變數(shù)雖然不能由引數(shù)唯一確定,但因變數(shù)的變化趨勢卻是可以由引數(shù)確定的,如果能夠找出因變數(shù)隨引數(shù)變化的趨勢函數(shù),就可以根據(jù)這種趨勢函數(shù)對因變數(shù)的未來發(fā)展作出預(yù)報或控制。設(shè)隨機變數(shù)Y與m個引數(shù)x1,x2,…

,

xm之間存在相關(guān)關(guān)係,假定它們之間可用下述關(guān)係表示

式中g(shù)(x1,x2,…,xm;β0,β1,…,βm,)是Y依x1,x2,…

xm變化的趨勢函數(shù)(也稱為主值函數(shù)),β0,β1,…,βm為參數(shù),ε為隨機變數(shù),它表示除去x1,x2,…

xm對Y的影響外,其他隨機因素對Y的影響,也刻劃了用趨勢函數(shù)g(x1,x2,…

,

xm;β0,β1,…,βm,)表示Y的值時產(chǎn)生的誤差,所以ε也稱為隨機誤差。Y=g(x1,x2,…,xm;β0,β1,…,βm)+ε

在實際問題中,要找到函數(shù)g的準(zhǔn)確形式常常是很困難的,甚至是不可能的。因此,在回歸分析中,常把函數(shù)g限定為x1,x2,…,xm的線性函數(shù),這不僅使理論研究變得較為方便,而且能夠滿足大多數(shù)實際應(yīng)用的要求。此時式變成Y

=β0+β1x1+β2x2…+βmxm+ε

上述模型稱為線性回歸模型。β0,β1,β2,…,βm稱為回歸係數(shù),ε除表示x1,x2,…,xm

以外其他因素對Y的影響外,還包括x1,x2,…,xm對Y的非線性影響。而β0+β1x1+β1x1…+βmxm僅表示x1,x2,…,xm對Y的線性影響程度。Y=g(x1,x2,…,xm;β0,β1,…,βm,)+ε

將(x1,x2,…,xm

)的一組觀測值(x1i,x2i,…,xmi)

代入公式:Y=β0+β1x1+β2x2…+βmxm+ε

得Yi=β0+β1x1i+β2x2i…+βmxmi+εi

由於隨機誤差εi的干擾,對給定的一組(x1i,x2i,…,xmi),Yi不是一個確定值,而是一個隨機變數(shù)(注意:Yi是對應(yīng)於引數(shù)(x1,x2,…,xm

)取固定值(x1i,x2i,…,xmi)的Y值),它有一個概率分佈。我們也可以把的Yi概率分佈理解為在引數(shù)(x1,x2,…,xm

)取值(x1i,x2i,…,xmi)的Y的條件分佈。(i=1,2,…,n)在回歸分析中,對εi有如下假定:①獨立性即對任意i與j,εi與εj相互對立,從而Cov(εi,εj)=0,i≠j;②零均值性即對任意εi有E(εi)=0;③共方差性即對任意i有D(εi)=

;④正態(tài)性即對任意i有εi~N(0,)。以上四點可用一句話概括為“隨機誤差εi是相互獨立服從同一正態(tài)分佈N(0,)的隨機變數(shù)”。

從式Y(jié)i=β0+β1x1i+β2x2i…+βmxmi+εi中看到Y(jié)i是εi的線性函數(shù),因此,根據(jù)上述對εi的假定可知,Yi是相互獨立的正態(tài)隨機變數(shù),且有

E(Yi)=β0+β1x1i+β2x2i…+βmxmiD(Yi)=D(εi)=

(與i無關(guān))也可以把它們看成是當(dāng)引數(shù)(x1,x2,…,xm

)取固定值(x1i,x2i,…,xmi)時隨機變數(shù)(因變數(shù))Y的條件期望與條件方差(注意區(qū)別E(Y)和E(Yi)及D(Y)和D(Yi)的不同意義)。(i=1,2,…,n)由於i的任意性,通常略去上式中的下標(biāo)i,於是可得因變數(shù)Y依引數(shù)的(線性)回歸方程,如下:§9-2一元線性回歸回歸方程估計量b0,b1的性質(zhì)回歸方程的顯著性檢驗預(yù)報及其誤差回歸方程線性模型中只含有一個引數(shù)x,則稱為一元線性回歸,即為了利用回歸方程對因變數(shù)y的未來發(fā)展作出預(yù)測或控制,必須通過觀測或試驗,根據(jù)樣本對回歸係數(shù)作出估計。 下麵介紹在一元線性回歸情況下,如何根據(jù)實測資料估計式中。設(shè)有引數(shù)x的一組觀測值及與之對應(yīng)的因變數(shù)Y的一組觀測值這樣就得到引數(shù)x與因變數(shù)y的n

對觀測值,將它們點繪在直角坐標(biāo)中,如右圖那樣,點據(jù)大致分佈在一條不平行於x軸的直線附近,就可猜想,x與y之間可能存在線性相關(guān)關(guān)係。x0y以表示的估計量,則經(jīng)驗回歸直線為理論回歸直線的估計線。那麼,應(yīng)該怎樣選擇才能使這種估計達到最好呢?根據(jù)方差的定義及方差的最小性質(zhì)可知,隨機變數(shù)Y對理論回歸直線上的離差平方和應(yīng)該是最小的,自然也應(yīng)要求觀測值對經(jīng)驗回歸直線的離差的平方和達到最小。即這一原則稱為最小二乘原理。根據(jù)這一原理求得的稱為的最小二乘估計量。下麵推求估計量的計算公式。根據(jù)高等數(shù)學(xué)中求極值的原理可知,使達極小的可由下列正規(guī)方程組解出:

回歸直線的另一種形式:若記:

則的計算公式為事實上,還可表示為:其中:為變數(shù)x與y的樣本相關(guān)關(guān)係

為y系列的均方差

為x系列的均方差

例1:現(xiàn)有河南省洛陽市瓦廟站和興華站的年降雨量同步觀測系列,見下表。假設(shè)興華站缺測1996年~1999年4年的年降雨量,要求建立兩站年降雨量的回歸方程。瓦廟站、興華站年降雨量表

單位:mm

年份瓦廟站年降雨量興華站年降雨量年份瓦廟站年降雨量興華站年降雨量1977558.2524.91989871.5796.51978730.7624.81990578.1503.91979885.5843.51991571.2475.11980756.4852.51992788.16751981572.5595.11993773.7660.41982841.2858.91994631.3619.71983895.6770.91995531.5507.619841019.9870.91996974.5(900.9)1985740.9616.61997439.2(380.9)1986569.2442.71998735.2(714.3)1987820.6742.11999630.4(618.1)1988728.7699.2解:選擇1977

年~1995年兩站同步觀測資料進行分析計算。設(shè)瓦廟站年降雨量系列為xi,興華站年降雨量系列為yi。點繪兩站年降雨量的散點圖,如上圖,兩變數(shù)的關(guān)係在圖上呈直線趨勢,故決定建立y對x的回歸直線方程。計算按下表(回歸方程計算表)進行。yx年份xiyixiyi1977558.2524.9311587.2275520.0292999.21978730.7624.8533922.5390375.0456541.41979885.5843.5784110.3711492.3746919.31980756.4852.5572141.0726756.3644831.01981572.5595.1327756.3354144.0340694.81982841.2858.9707617.4737709.2722506.71983895.6770.9802099.4594286.8690418.019841019.9870.91040196.0758466.8888230.91985740.9616.6548932.8380195.6456838.91986569.2442.7323988.6195983.3251984.81987820.6742.1673384.4550712.4608967.31988728.7699.2531003.7488880.6509507.01989871.5796.5759512.3634412.3694149.81990578.1503.9334199.6253915.2291304.61991571.2475.1326269.4225720.0271377.11992788.1675621101.6455625.0531967.51993773.7660.4598611.7436128.2510951.51994631.3619.7398539.7384028.1391216.61995531.5507.6282492.3257657.8269789.4總和13865.112680.310477997.48812008.89571448.8平均729.7667.4551473.5463789.9503760.5由表得:因此,所配直線回歸方程為估計量b0,b1的性質(zhì)由於b0和b1都是樣本的函數(shù),因此,當(dāng)用不同的樣本推求b0和b1時,所得的數(shù)值一般是不相同的,因此,容易理解,b0

和b1

都是隨機變數(shù),並且可以計算其數(shù)學(xué)期望值和方差值,藉以描述它們的性質(zhì)。因為yi(i=1,2,…,n)

是n個相互獨立的隨機變數(shù),而且所以,b0、b1的數(shù)學(xué)期望值分別為即b0和b1分別是α和β的無偏估計。由於即是的無偏估計。同樣可以求得b0和b1的方差值由於方差反映了隨機變數(shù)取值的分散程度,上式表明,回歸係數(shù)b1的波動大小不僅與誤差的方差有關(guān),而且還取決於觀測中變數(shù)x的分散程度,當(dāng)x的值比較分散時,b1值的波動才能比較小,所得的估計比較精確。

由於方差反映了隨機變數(shù)取值的分散程度,上式表明,b0的方差不僅與誤差的方差以及x的分散程度有關(guān),而且還和觀測值的個數(shù)n有關(guān),n越大,x值越分散,b0

越精確。因此,為了求得滿意的樣本回歸方程,應(yīng)儘量增加觀測資料,擴大樣本容量。另一方面,應(yīng)使x的取值盡可能的分散。b0的方差值:估計量b0和b1的分佈因為yi是相互獨立且都服從正態(tài)分佈的隨機變數(shù),而b1又是yi

(i=1,2,…,n)的線性組合,因此也服從正態(tài)分佈。同樣,b0也是yi

(i=1,2,…,n)的線性組合,所以,也服從正態(tài)分佈。即b0,b1的協(xié)方差為其中的無偏估計量為回歸方程的顯著性檢驗

從求回歸方程的過程可以看出,對任何一組觀測值,不管x和y之間是否存在線性關(guān)係,都可以用最小二乘法求得形如的線性方程。但是,如果x和y根本不存在線性相關(guān)關(guān)係,則這個方程就不能描述x和y之間的真正關(guān)係了。因此,需要對變數(shù)x和y間是否存在線性相關(guān)關(guān)係,或者說對所得到的回歸方程是否有實際意義,進行檢驗。Y的總變數(shù)可以用觀測值yi與其算術(shù)平均值的離差平方和表示,現(xiàn)記為,稱為總平方和則有於是有

由於則記

:回歸平方和殘差平方和或剩餘平方和於是,可將下式簡化為

由可知,要判斷x和y之間是否存在線性相關(guān)關(guān)係,可以把S回和S剩進行比較,如果在S總中S回所占的比重大,則S剩所占的比重就小,這說明x對y的線性影響較大。從而可以認為x和y之間存在線性相關(guān)關(guān)係。

如果x和y之間不符合線性回歸數(shù)學(xué)模型,那麼一次項係數(shù)所以,檢驗兩個變數(shù)x和y是否具有相關(guān)

關(guān)係,事實上為檢驗下列假設(shè):。根據(jù)F分佈的定義可知,在成立時根據(jù)給定的顯著性水準(zhǔn),查表求得滿足關(guān)係式的臨界值,如果由樣本求得的F值大於,則否定原假設(shè),即認為x和y之間有線性相關(guān)關(guān)係,或稱回歸方程顯著,反之不顯著,表示該回歸方程沒有意義。這種用F檢驗對回歸方程進行顯著性檢驗的方法也稱為方差分析。顯然上式中的分母就是的無偏估計量。在檢驗中,為方便計算,S回與S剩常用下來公式計算其中

預(yù)報及其誤差分析回歸方程通過檢驗,如果是顯著的,則可以利用它進行預(yù)報和插補。即對於給定的x0,以作為真值的預(yù)報值或插補值。例:用上例中建立的回歸方程

插補興華站1996年~1999年4年缺測的年降雨量。解:按將已知的x值代入上述回歸方程或直接從圖上可插補出興華站缺測年份的年降雨量。結(jié)果如下表:興華站年降雨量插補值表單位:mm瓦廟站興華站興華站實際年降雨量年份1996974.5882.9900.91997439.2411.8380.91998735.2672.3714.31999630.4580.1618.1由上表可以看出,插補出的興華站年降雨量

與其真值

是有誤差的,該誤差可以看作是由其他隨機因素綜合作用的結(jié)果。下麵討論以估計真值的誤差。記考慮到與相互獨立,則整理後可得:以的無偏估計量代替上式中的可得用估計的均方誤差為:還可以證明,統(tǒng)計量於是,可以利用t分佈求得y0的置信區(qū)間,當(dāng)n較大時,且x0較接近均值時,可近似表示為其中:,又因為n較大時,自由度為

n-2的t分佈接近N(0,1),所以也可用正態(tài)分佈表近似求得。例:在上例中,給定=0.05,=974.5,求y0的預(yù)測區(qū)間。解:所以置信度為0.95的y0的預(yù)測區(qū)間為

§9-3

多元線性回歸多元回歸的數(shù)學(xué)模型在實際問題中,和因變數(shù)相關(guān)的往往不只是一個引數(shù),而可能有多個引數(shù),此時因變量與引數(shù)的定量關(guān)係就是多元回歸問題,與一元回歸一樣,多元回歸中最簡單而又最常用的多元線性回歸問題。多元線性回歸的數(shù)學(xué)模型如下:

將y和x1,x2,…,xm的n組觀測值代入可得記:記:則有:多元線性回歸的回歸方程式如下:回歸係數(shù)的最小二乘估計

設(shè)為因變數(shù)與引數(shù)的n組觀測值,若以表示的估計值,則觀測值yi可表示為這裏使得

故得:

根據(jù)高等數(shù)學(xué)中求極值的原理,使Q剩達極小值的b0,b1,…,bm應(yīng)滿足方程組:

將代入上式,即得正規(guī)方程組。正規(guī)方程組形式如下:其中b0,b1,…,bm為未知量,其他量都可由實測樣本算出。記:於是,正規(guī)方程組的矩陣形式為:AB1=D1從而解得B1=A-1D1=C1D1式中C1=A-1為A的逆矩陣,即:這樣從正規(guī)方程組第一式中解出代入

可得

此時剩餘平方和可寫成令

可得

將上式展開即得正規(guī)方程的中心化形式。正規(guī)方程組的中心化形式:其中

也稱為協(xié)方差。

正規(guī)方程組及其中心化形式的係數(shù)和常數(shù)項的數(shù)量級及其差異一般都比較大,以致計算比較繁難,而且計算誤差也難以控制,因此實際計算中常用標(biāo)準(zhǔn)化形式的正規(guī)方程組,形式如下:多元線性回歸的統(tǒng)計檢驗在作因變數(shù)與引數(shù)之間的回歸分析時,選擇線性模型只是一種假設(shè),這種假定是否符合實際,即因變數(shù)的變化趨勢與引數(shù)之間是否真的存在線性關(guān)係,是需要檢驗的;另一方面,回歸分析中的引數(shù)是人們選擇的,每個引數(shù)是否都與因變數(shù)的變化有顯著關(guān)係也是需要檢驗的。因此,在求出回歸方程以後,還必須進行統(tǒng)計檢驗,才能確定所求得的回歸方程是否有效。檢驗命題“因變數(shù)與引數(shù)總體間是否存在線性回歸關(guān)係”的原假設(shè)是“因變數(shù)與引數(shù)的總體間不存在線性回歸關(guān)係”,如果接受這一假設(shè),就說明所求得的經(jīng)驗回歸方程無效,不能採用。如果否定這一假設(shè)就說明所求得的經(jīng)驗回歸方程有意義。和一元回歸一樣,多元回歸的總平方和S總、回歸平方和S回以及剩餘平方和S剩(或稱殘差平方和)為:S回與S剩的計算利用求回歸係數(shù)過程中的一些過程推求S回與S剩式中Sij是xi與xj的協(xié)方差

複相關(guān)系數(shù)前面說過S回刻劃了在因變數(shù)y的總變化中由於引數(shù)x1,x2,…,xm的線性影響所作的貢獻,而S??虅澚顺齲1,x2,…,xm對y的線性影響以外的其他隨機因素的貢獻,因此,可以用S回在S總中所占比值來刻劃y與x1,x2,…,xm間線性關(guān)係的密切程度,這個比值的方根就稱為因變數(shù)y與引數(shù)x1,x2,…,xm間的複相關(guān)係數(shù),記為R,即按簡單的相關(guān)關(guān)係定義,應(yīng)有可推求得:

回歸方程的顯著性檢驗回歸方程顯著性檢驗的原假設(shè)為:統(tǒng)計量

於是可用F檢驗法進行檢驗,即對給定的顯著性水準(zhǔn),查F分佈表得到臨界值F,這裏F滿足關(guān)係式:

當(dāng)時,拒絕H0,認為線性回歸方程時顯著的。否則認為總體中因變數(shù)與引數(shù)不存在線性回歸關(guān)係。

回歸方程的顯著性檢驗一般用方差檢驗表來表示。回歸分析方差檢驗表方差來源差方和自由度方差方差比臨界值回歸mS回/m總和n-1Fα(m,n-m-1)剩餘S剩=S總-S回n-m-1各個引數(shù)的顯著性檢驗如果一個回歸方程經(jīng)檢驗後認為是顯著的,這並不說明方程中的所有引數(shù)與因變數(shù)間的線性關(guān)係都是顯著的。所以,為了判明回歸方程中各個引數(shù)的作用,在確認回歸方程顯著後,還必須對每個引數(shù)的顯著性進行檢驗,把不顯著的引數(shù)從方程中剔出。檢驗?zāi)硞€引數(shù)xk是否顯著的原假設(shè)是如果接受這一假設(shè),則xk

就應(yīng)從回歸方程中剔除,反之,則保留不動。各個引數(shù)的方差貢獻用Vk表示引數(shù)xk對y的方差貢獻:也稱為xk的偏回歸平方和。則Y與xk的偏相關(guān)係數(shù)為:

它表示,除去x1,x2,…,xk-1,xk+1,…,xm,這m-1個引數(shù)的作用後,xk可將y的剩餘平方和進一步降低的程度。應(yīng)該注意,在多元相關(guān)分析中,只有偏相關(guān)係數(shù)才真正反映xk與y的線性關(guān)係好壞,而不考慮其他因素的簡單相關(guān)係數(shù)r則不能。簡單相關(guān)係數(shù)的數(shù)值與偏相關(guān)係數(shù)的數(shù)值可能相差很大,甚至符號相反。各個引數(shù)的顯著性檢驗為了檢驗引數(shù)xk的作用是否顯著,可作原假設(shè)統(tǒng)計量於是可用F檢驗法進行檢驗,即對給定的顯著性水準(zhǔn),查F分佈表得到臨界值F

,這裏Fα滿足關(guān)係式:當(dāng)時,拒絕H0,說明xk的作用顯著,應(yīng)於保留;反之,說明xk的作用不顯著,應(yīng)於剔除?;貧w預(yù)測的誤差回歸方程經(jīng)各種檢驗通過以後,已知引數(shù)的一組值x10,x20,…,xm0,可用作為與該組引數(shù)值相對應(yīng)的因變數(shù)的真值y0的估計值。若以表示此估計值的誤差,則此估計的均方誤差為:§9-4非線性回歸前面幾節(jié)中討論了線性回歸問題,即總體回歸方程是線性的情形。但在實際問題中,常常遇到回歸方程為非線性函數(shù)的情況,例如,水文計算中,設(shè)計洪峰流量Q與流域面積F之間的經(jīng)驗公式Q=CFb就是個非線性函數(shù)。本節(jié)僅就一元非線性回歸問題,討論其參數(shù)估計。一元非線性回歸方程參數(shù)估計常採用線性化方法、直接最小二乘法和二步法等。本章小結(jié)回歸分析是常用的統(tǒng)計分析方法,是統(tǒng)計推斷方法的具體應(yīng)用?;貧w分析主要是根據(jù)觀測數(shù)據(jù),運用統(tǒng)計推斷原理,對引數(shù)與因變數(shù)之間的相關(guān)關(guān)係作種種統(tǒng)計推斷,找出其平均關(guān)係——回歸方程。通過本章的學(xué)習(xí),應(yīng)學(xué)會用最小二乘法建立回歸方程,對回歸方程進行顯著性檢驗,並利用回歸方程對因變數(shù)進行預(yù)報和插補。第六章

抽樣分布

抽樣分布

§6-1簡單隨機抽樣§6-2樣本分佈§6-3抽樣分佈的概念§6-4幾種統(tǒng)計量的抽樣分佈§6-5順序統(tǒng)計量及其分佈§6-1.簡單隨機抽樣總體與樣本(一)總體

(二)樣本

簡單隨機抽樣

作為n元隨機變數(shù)的樣本總體與樣本總體

(母體):在數(shù)理統(tǒng)計中,所研究對象的全體.個體:組成母體的每一個成員。例:研究某工廠生產(chǎn)某種規(guī)格的10萬只燈泡的品質(zhì),這10萬只燈泡就是一個總體,每個燈泡是一個個體。例:某水文站,所有年平均流量的全體是一個總體,而每一年的平均流量則是一個個體??傮w可以按其所含個體的多少分為有限總體和無限總體??傮w我們所研究的往往是對象的某一特性值。將特性值看成一個隨機變數(shù)??傮w正好體現(xiàn)一個隨機變數(shù)的分佈。以後,凡是提到總體就是指一個隨機變數(shù),提到隨機變數(shù)就是指一個總體。所謂總體已知,就是指隨機變數(shù)的概率分佈已知。

常用表示隨機變數(shù)的大寫字母X,Y,Z等表示總體。

樣本

抽樣:在數(shù)理統(tǒng)計中,為了研究總體的性質(zhì),需要進行的觀測或試驗。樣本(觀測資料或?qū)崪y資料):通過試驗或觀測得到的總體中一部分個體構(gòu)成的集合。水文中習(xí)慣稱之為實測系列。樣本容量:樣本中所含個體的數(shù)目,水文中常稱之為系列長度,記為n。例如:我們在一條河流的某一斷面處觀測年最大洪峰流量,觀測50年,就得到一個長度為50的年最大洪峰流量的實測系列。簡單隨機抽樣

隨機樣本:因為在概率論和數(shù)理統(tǒng)計中所說的試驗都是指隨機試驗,所以,所得樣本就叫做隨機樣本.簡單隨機抽樣:n次試驗是相互獨立的(前面的試驗結(jié)果並不影響後面的試驗出現(xiàn)什麼結(jié)果)的抽樣方法.簡單隨機樣本(樣本或子樣):簡單隨機抽樣得到的樣本稱為簡單隨機樣本.作為n元隨機變數(shù)的樣本

袋中裝有2個白球和3個紅球,現(xiàn)有放回地從中隨機抽球,每次抽一球。觀察球的顏色,設(shè)X=0表示抽得白球,X=1表示抽得紅球。則P(X=0)=2/5,P(X=1)=3/5,抽球n次以後即得容量為n的樣本(x1,x2,…xn)。x1為第一次抽球結(jié)果,可能值為0和1,

x1是0的概率為2/5,

x1是1的概率為3/5,因此,

x1可以看作是隨機變數(shù)X1的取值,而且X1的分佈與X的分佈相同。同理,xi

(i=1,2,…,n)都可以看作是Xi

(i=1,2,…,n)的取值,而且Xi是相互獨立,都具有與總體X相同的分佈。獲得的實際樣本(x1,x2,…,xn

)(或稱實現(xiàn)或觀察值)可以看作是隨機變數(shù)X的n次試驗的結(jié)果,也可看作n元隨機變數(shù)(X1,X2,…,Xn

)一次試驗的結(jié)果。通常將樣本看作n元隨機變數(shù)。

必須注意(x1,x2,…,xn

)與(X1,X2,…,Xn)的區(qū)別

。如前所述,由於(X1,X2,…Xn)是獨立同分佈的隨機變數(shù),若總體X的分佈函數(shù)為F(x),則(X1,X2,…,Xn)的聯(lián)合分佈函數(shù)應(yīng)為若總體X為連續(xù)型隨機變數(shù),其密度函數(shù)為f(x),則(X1,X2,…,Xn)的聯(lián)合密度函數(shù)為§6-2樣本分佈頻率直方圖樣本分佈函數(shù)

樣本數(shù)字特徵

頻率直方圖設(shè)

為連續(xù)型隨機變數(shù)X的樣本,在X值域[a,b]內(nèi)插入許多分點

統(tǒng)計樣本

中落入?yún)^(qū)間

內(nèi)觀測值的個數(shù)(稱為頻數(shù)),記為

,則在樣本容量n很大時,頻率

可近似表示隨機變數(shù)X在區(qū)間

中取值的概率

,若

以表示區(qū)間內(nèi)頻率的平均密度,則可作出以

為高,為底寬的許多相鄰矩形。如圖6-1:每個矩形的面積為稱圖6-1為樣本

的頻率密度直方圖

樣本分佈函數(shù)樣本分佈:如果我們從隨機變數(shù)X的總體中抽取了一個樣本,把樣本的n個值x1,x2,…,xn加以排隊並把它看成是某個離散隨機變數(shù)Xne的全部可能取值,它的概率分佈為

那麼可以求得Xne的分佈函數(shù):

樣本分佈函數(shù)與總體分佈函數(shù)的關(guān)係

:

格利汶科-肯達利定理

設(shè)F(x)是隨機變數(shù)X的分佈函數(shù),

是X的經(jīng)驗分佈函數(shù),則

格利汶科-肯達利定理是用簡單隨機樣本推斷總體的依據(jù)。樣本數(shù)字特徵對於一個給定的樣本x1,

x2

,…,

xn,有了樣本分佈函數(shù)後就可以計算它的數(shù)字特徵,為了區(qū)別於總體數(shù)字特徵,我們稱它們?yōu)闃颖緮?shù)字特徵。樣本數(shù)字特徵就是離散型隨機變數(shù)Xne的數(shù)字特徵

。樣本k階原點矩樣本平均值樣本方差樣本均方差樣本k階中心矩

樣本變差係數(shù)

樣本偏態(tài)係數(shù)上述兩式中,對於二元隨機變數(shù)(X,Y),每次試驗得到一對數(shù)值(x,y),因此其樣本可記為(x1,y1),(x2,y2),…,(xn,yn),利用類似於一元隨機變數(shù)樣本分佈的定義方法可定義二元隨機變數(shù)的樣本分佈函數(shù),也可以計算樣本數(shù)字特徵,除了每一個變數(shù)的均值、方差和矩外,還有樣本協(xié)方差和樣本相關(guān)係數(shù),它們的公式可按離散型二元隨機變數(shù)數(shù)字特徵公式得到,即樣本協(xié)方差樣本相關(guān)係數(shù)例:用測溫儀對一物體的溫度測量5次,其結(jié)果為(℃):1250,1565,1245,1260,1275,試求樣本均值、方差、樣本離勢係數(shù)及偏態(tài)係數(shù)。解:樣本均值

樣本均方差

樣本離勢函數(shù)樣本偏態(tài)係數(shù)

§6-3抽樣分佈的概念

統(tǒng)計量

抽樣分佈

的概念抽樣分佈的數(shù)字特徵統(tǒng)計量

設(shè)X1

X2

,…,

Xn為總體X的一個樣本,

U=U(X1,X2,…,Xn)為樣本的連續(xù)函數(shù),如果函數(shù)中不包含任何未知參數(shù),則稱U為統(tǒng)計量。

例如則

因為

未知。樣本k階原點矩樣本平均值樣本方差樣本均方差樣本k階中心矩

樣本變差係數(shù)樣本偏態(tài)係數(shù)上述兩式中,樣本相關(guān)係數(shù)抽樣分佈的概念樣本是進行統(tǒng)計推斷的主要依據(jù),統(tǒng)計量則是根據(jù)特定的統(tǒng)計推斷需要而對樣本進行的加工和整理,是進行統(tǒng)計推斷的主要手段和工具,統(tǒng)計量也是隨機變數(shù),它的分佈稱為抽樣分佈。統(tǒng)計量的分佈有精確分佈和極限分佈(或稱漸進分佈)兩種形式。若總體X的分佈函數(shù)運算式已知,如對任一自然數(shù)n,都能給出統(tǒng)計量U(X1,X2,……,Xn)的分佈函數(shù),則稱此分佈函數(shù)為統(tǒng)計量U的精確分佈。導(dǎo)出統(tǒng)計量的精確分佈,是用小樣本進行統(tǒng)計推斷的基礎(chǔ)和前提,但是,一般而言,要導(dǎo)出各種統(tǒng)計量的精確分佈,僅在某些特別簡單的情況下才能做到,在大多數(shù)情況下是很難做到的,甚至是不可能做到的。若統(tǒng)計量U的精確分佈無法求得,則可退而求其次,求出其當(dāng)

時的極限分佈,這是用大樣本進行統(tǒng)計推斷的一般做法。應(yīng)當(dāng)注意的是,在實際問題中,應(yīng)用極限分佈作統(tǒng)計推斷是,應(yīng)該有足夠大的樣本容量n,但究竟n有多大才算大樣本,並沒有嚴(yán)格的限定,而且對於不同的統(tǒng)計量,要求也是不一樣的。抽樣分佈的數(shù)字特徵1.樣本均值的數(shù)學(xué)期望與方差2.樣本k階原點矩的數(shù)學(xué)期望和方差3.樣本方差的數(shù)學(xué)期望與方差§6-4幾種統(tǒng)計量的抽樣分佈

例:設(shè)總體X服從的分佈,求樣本的平均值

的分佈。解:因為X的特徵函數(shù)為

所以

的特徵函數(shù)為

可見(1)(2)(3)

(4)

(5)§6-5順序統(tǒng)計量及其分佈順序統(tǒng)計量的概念:設(shè)(X1,X2,…,Xn)為X的樣本,定義樣本函數(shù)

,

=g(X1,X2,…,Xn),(m=1,2,…,n)

含義:當(dāng)(X1,X2,…,Xn

)取值(x1,x2,…,xn

)時,

取(x1,x2,…,xn

)中從大到小排列的第m項數(shù)值。即當(dāng)把(x1,x2,…,xn)按由大到小的順序排列成

順序統(tǒng)計量。順序統(tǒng)計量的分佈

假定X為連續(xù)型隨機變數(shù),其分佈函數(shù)為F(x),密度函數(shù)為f(x)。

Xm*的分佈函數(shù)為Fm(x),密度函數(shù)為fm(x)。

6-4所以

利用Bata函數(shù)

本章小結(jié)本章介紹了總體、樣本、經(jīng)驗分佈、統(tǒng)計量等基本概念,以及常用的幾種抽樣分佈。順序統(tǒng)計量及其抽樣分佈在水文頻率計算中有著重要的運用,應(yīng)很好掌握。在生產(chǎn)實際中,隨機變數(shù)的概率分佈通常是未知的,往往需要通過研究其經(jīng)驗分佈來對總體進行推斷,因此本章學(xué)習(xí)的有關(guān)抽樣分佈的知識是學(xué)習(xí)後面估計理論的基礎(chǔ)。第七章

水文頻率計算

水文頻率計算§7-1概述§7-2參數(shù)點估計的矩法和極大似然法

§7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論