




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)理統(tǒng)計(jì)例舉王曉謙wxqmath南京師范大學(xué) 主要內(nèi)容隨機(jī)變量及其分布 經(jīng)驗(yàn)分布函數(shù)和頻率直方圖 參數(shù)估計(jì) 假設(shè)檢驗(yàn) 相關(guān)分析與回歸分析簡介 MATLAB例題例1能量供應(yīng)問題(二項(xiàng)分布) 例2 放射性 (泊松) 例3正態(tài)分布 例4指數(shù)分布 例5 多元隨機(jī)變量例6經(jīng)驗(yàn)分布函數(shù) 例7超市問題(指數(shù)分布) 例8區(qū)間估計(jì) 例9 擬合檢驗(yàn)1 例10擬合檢驗(yàn)2 例11概率紙檢驗(yàn)法 例12道德 (獨(dú)立性檢驗(yàn)) 例13腸癌 例14 J效應(yīng) 隨機(jī)變量及其分布例1、能量供應(yīng)問題(二項(xiàng)分布)假定有個(gè)工人間歇性地使用電力,估計(jì)所需要的總負(fù)荷。首先我們要知道,或者是假定,每個(gè)工人彼此獨(dú)立工作,而每一時(shí)刻每個(gè)工人都以相同
2、的概率p需要一個(gè)單位的電力。那么,同時(shí)使用電力的人數(shù)就是一個(gè)隨機(jī)變量,它服從所謂的二項(xiàng)分布。用X表示這個(gè)隨機(jī)變量,記做,且有 這是非常重要的一類概率分布。其中E(X)np, D(X)=np(1-p)。 其次,要根據(jù)經(jīng)驗(yàn)來估計(jì)出,p值是多少?例如,一個(gè)工人在一個(gè)小時(shí)里有12分鐘在使用電力,那么應(yīng)該有。最后,利用公式我們求出隨機(jī)變量X的概率分布表如下:X012345678910P0.1073740.2684350.301990.2013270.088080.0264240.0055050.0007860.0000740.0000040.000000累積概率0.1073740.375810.6778
3、0.8791260.9672070.9936310.9991360.9999220.99999611為直觀計(jì),我們給出如下概率分布圖: 目錄 Back Next可以看出,也就是說,如果供應(yīng)6個(gè)單位的電力,則超負(fù)荷工作的概率只有0.000864,即每中,才可能有一分鐘電力不夠用。還可以算出,八個(gè)或八個(gè)以上工人同時(shí)使用電力的概率就更小了,比上面概率的還要小。問題:二項(xiàng)分布是一個(gè)重要的用來計(jì)數(shù)的分布。什么樣的隨機(jī)變量會(huì)服從二項(xiàng)分布? 進(jìn)行n次獨(dú)立觀測,在每次觀測中所關(guān)心的事件出現(xiàn)的概率都是p,那么在這n次觀測中事件A出現(xiàn)的總次數(shù)是一個(gè)服從二項(xiàng)分布B(n,p)。作業(yè):用MATLAB計(jì)算本題。binop
4、df(x,n,p) 計(jì)算x中每個(gè)值對應(yīng)的二項(xiàng)分布概率binocdf(x,n,p) 計(jì)算x中每個(gè)值對應(yīng)的分布函數(shù)值 binoinv(y,n,p) 計(jì)算使得分布函數(shù)值大于等于y的最小整數(shù)x:P(X<=x)>=y binornd(n,p, mm, nn) 產(chǎn)生二項(xiàng)分布隨機(jī)數(shù),mm行nn列。再如,產(chǎn)生兩行五列的隨機(jī)數(shù)用binornd(10,0.2,2,5)例如binopdf(0:10,10,0.2), binoinv(0.9,10,0.2)=4,binoinv(0:10)/10,10,0.2)binornd(10,0.2,1,5)ans = 2 2 1 1 4例2、Rutherford 對
5、裂變物質(zhì)的觀測 (Poisson分布)英國著名物理學(xué)家 Rutherford(18711937)在其放射性物質(zhì)試驗(yàn)中,觀測在時(shí)間間隔T內(nèi)放射性物質(zhì)放射出的粒子數(shù)。實(shí)際試驗(yàn)時(shí),取時(shí)間間隔為T=7.5秒,觀測了N2608次,將每次觀測到的粒子數(shù)記錄下來,列在下表中第1,2行:粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561
6、970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547 我們用X表示T=7.5秒內(nèi)觀測到的粒子數(shù),它是一個(gè)隨機(jī)變量,服從什么分布呢?在2608次觀測中,共觀測到10094個(gè)粒子數(shù),平均每次觀測到=M÷N10094÷26083.87個(gè)粒子數(shù),用參數(shù)為=3.87的Poisson分布P計(jì)算一下: 將計(jì)算結(jié)果列在上表中最后一行,與列在第3行的實(shí)際頻率比較,比較的圖示在下圖中。(Excel)可以看出,認(rèn)為X服從參數(shù)為3.87的Poisson分布還是非常合理的。在后面統(tǒng)計(jì)部分,我們會(huì)用Pearson擬合檢驗(yàn)法
7、來證明這種合理性。 作業(yè):用MATLAB計(jì)算本題。poisspdf(x,),計(jì)算poisson概率,poisscdf, poissinv, poissrnd例如,poisspdf(0:9,3.87)問題:Poisson分布是又一類非常重要的用來計(jì)數(shù)的離散型分布,它依賴于一個(gè)參數(shù)。什么樣的隨機(jī)變量會(huì)服從Poisson分布呢?在給定的觀測范圍內(nèi)(例如給定時(shí)間內(nèi),給定區(qū)域內(nèi),等等),事件會(huì)發(fā)生多少次?把觀測范圍分成n個(gè)小范圍:1、 給定事件在每個(gè)小范圍內(nèi)可能發(fā)生,也可能不發(fā)生,發(fā)生多少次取決于小范圍的大??;2、 在不同的小范圍內(nèi)發(fā)生多少事件相互獨(dú)立;3、 在小范圍里發(fā)生的事件數(shù)多于一個(gè)的概率,和小范
8、圍的大小相比可以忽略不計(jì),用表示在小范圍內(nèi)事件發(fā)生一次的概率。那么在給定范圍內(nèi)發(fā)生的總事件數(shù)X近似服從,為給定范圍內(nèi)事件發(fā)生次數(shù)的近似平均值。令,則為給定范圍內(nèi)事件發(fā)生次數(shù)的準(zhǔn)確平均值,這時(shí)這正是Poisson分布,其中參數(shù)。 例3、正態(tài)分布隨機(jī)變量X如果有密度函數(shù)則稱此隨機(jī)變量服從參數(shù)為的正態(tài)分布,記做,其中都是給定的參數(shù),。稱為標(biāo)準(zhǔn)正態(tài)分布,用表示其分布函數(shù),其密度函數(shù)為時(shí),我們有大量連續(xù)型隨機(jī)變量服從正態(tài)分布,所以正態(tài)分布在處理數(shù)據(jù)時(shí)是非常有用處的。我們在統(tǒng)計(jì)部分會(huì)大量用到它。Matlab中用norm表示正態(tài)分布,參數(shù)是數(shù)學(xué)期望和標(biāo)準(zhǔn)差。下面是正態(tài)分布的密度函數(shù)圖像:(正態(tài)密度圖像) 例
9、4、指數(shù)分布稱隨機(jī)變量X服從參數(shù)為1的指數(shù)分布或標(biāo)準(zhǔn)指數(shù)分布,若它有密度函數(shù)它的分布函數(shù)為 設(shè)是給定常數(shù),則Y的分布函數(shù)為其密度函數(shù)為這是一般的指數(shù)分布。b0的指數(shù)分布的密度函數(shù)圖像如下所示(指數(shù)密度):可見,隨著的減小,隨機(jī)變量取到較大值的概率增加。事實(shí)上,是隨機(jī)變量的數(shù)學(xué)期望。 指數(shù)隨機(jī)變量經(jīng)常用來刻畫壽命。 例5、 多元隨機(jī)變量我們經(jīng)常需要考慮量與量之間的關(guān)系,如果這些量是隨機(jī)變量,那么就需要把多個(gè)隨機(jī)變量放在一起,考慮多元隨機(jī)變量。設(shè)是n元隨機(jī)變量,它的分布函數(shù)是一個(gè)n元函數(shù):利用這個(gè)分布函數(shù)就可以討論這n個(gè)隨機(jī)變量之間各種各樣的關(guān)系。 1、 邊際分布與獨(dú)立性相互獨(dú)立當(dāng)且僅當(dāng)2、 相關(guān)
10、系數(shù)兩個(gè)隨機(jī)變量之間的相關(guān)系數(shù)定義為其中相關(guān)系數(shù)刻畫了隨機(jī)變量之間的線性相關(guān)程度,越接近于0,線性相關(guān)關(guān)系越弱。 定理:設(shè)二維隨機(jī)變量(X,Y)的相關(guān)系數(shù)為,則(1)、(2)、在(X,Y)服從二元正態(tài)分布的條件下,X與Y獨(dú)立的充要條件是;(3)、若,則幾乎必然有其中是確定的常數(shù);若,則幾乎必然有其中是確定的常數(shù)。 3、 條件分布在已知其中某些隨機(jī)變量的取值的情況下,可以進(jìn)一步確定其他隨機(jī)變量的條件分布。例如,在有密度函數(shù)的情況下,我們還可以求條件密度函數(shù),甚至利用Bayes定理,解決許多重要問題。綜上所述,我們知道在概率論里學(xué)過許多分布,當(dāng)然,還有許多分布我們沒有學(xué)過。但是,在實(shí)踐中我們可能會(huì)
11、遇到各種各樣的分布,甚至還有沒被發(fā)現(xiàn)的分布。在處理數(shù)據(jù)的時(shí)候,我們要搞清楚:1、 數(shù)據(jù)是哪個(gè)或哪些指標(biāo)的取值?2、 這個(gè)或這些指標(biāo)是不是隨機(jī)變量或隨機(jī)向量? 3、 如果是,那么它服從什么分布?4、 用統(tǒng)計(jì)方法確定分布;5、 分布確定后,用概率方法求出問題的解。下面我們就討論用統(tǒng)計(jì)方法確定分布的問題。經(jīng)驗(yàn)分布函數(shù)和頻率直方圖當(dāng)我們確定討論的指標(biāo)的確是隨機(jī)變量后,剩下的關(guān)鍵任務(wù)就是確定它的分布。那么它的觀測數(shù)據(jù)就是我們賴以解決問題的基本資料,叫做樣本,而這個(gè)隨機(jī)變量就叫做總體。這些數(shù)據(jù)反映了該隨機(jī)變量分布的基本特征。我們可以利用這些數(shù)據(jù)構(gòu)造一個(gè)分布函數(shù),理論上可以證明它很接近于那個(gè)未知分布。這個(gè)分
12、布函數(shù)就叫做經(jīng)驗(yàn)分布函數(shù)。例6、例2續(xù)(經(jīng)驗(yàn)分布函數(shù))在例2,我們確定所討論的指標(biāo)在時(shí)間間隔T秒內(nèi)放射出的粒子數(shù)X,是一個(gè)隨機(jī)變量。且有該隨機(jī)變量的n2608個(gè)觀測值,這就是一個(gè)容量為2608的樣本。在沒有其他信息的情況下,首先應(yīng)該給出該樣本的經(jīng)驗(yàn)分布函數(shù):在這里我們可求出這個(gè)經(jīng)驗(yàn)分布函數(shù)如下:這個(gè)函數(shù)的圖像如下(Poisson2):如果熟悉Poisson分布的分布函數(shù)圖像的話,就可以從這個(gè)圖像判斷出,X可能服從參數(shù)為3.87的Poisson分布。從這個(gè)經(jīng)驗(yàn)分布函數(shù)容易解決概率計(jì)算問題: 當(dāng)然,由于是離散型的隨機(jī)變量,我們可能更熟悉如下頻率分布圖像:也就是說,對于離散型隨機(jī)變量,我們更常用的方
13、法是繪制這種頻率分布圖。為了判斷分布的類型,對于離散型隨機(jī)變量,要繪制頻率分布圖!作業(yè):用MATLAB計(jì)算本例。例7、超市問題(頻率直方圖)隨機(jī)抽取某大學(xué)超市137位顧客的購買金額的實(shí)際記錄(單位:元),數(shù)據(jù)如下。請問購買金額服從什么分布?65.209.9029.7261.1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094
14、.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.
15、125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.76 用X表示顧客的購買金額,那么它應(yīng)該是一個(gè)連續(xù)型的隨機(jī)變量。對于連續(xù)型的隨機(jī)變量,我們一般就不作它的經(jīng)驗(yàn)分布函數(shù)了,而是改作它的頻率直方圖。一般認(rèn)為,X應(yīng)該服從正態(tài)分布,數(shù)學(xué)期望為。其實(shí)不然,其頻率直方圖如下圖所示:(超市)它很像參數(shù)為的指數(shù)分布密度函數(shù),如圖中紅色曲線所示。所以我們就認(rèn)為X的分布是這樣的一
16、個(gè)指數(shù)分布。例如,給定,可以求出表明該店顧客一次消費(fèi)金額在20元以下的人數(shù)占到近七成。這是什么原因呢?原來這是一家小型社區(qū)超市,人們只來買日用品,不在這里買大件。這對超市的經(jīng)營管理是一個(gè)重要信息。對于連續(xù)型隨機(jī)變量,要繪制頻率直方圖!作業(yè):1、用Excel完成本例;2、經(jīng)驗(yàn)分布函數(shù)。 經(jīng)驗(yàn)分布函數(shù)、頻率分布圖和頻率直方圖可以幫助我們了解隨機(jī)變量的類型。當(dāng)我們已經(jīng)了解到隨機(jī)變量的分布類型后,該隨機(jī)變量的分布一般就取決于一個(gè)或幾個(gè)參數(shù)了。如果知道了這些參數(shù),就可以把分布完全確定下來。那么,如何確定這未知參數(shù)呢?數(shù)字特征計(jì)算:+ stat:計(jì)算均值和方差參數(shù)估計(jì)設(shè)隨機(jī)變量X的分布形式已經(jīng)知道,而其中
17、的一個(gè)或幾個(gè)參數(shù)未知,我們記這個(gè)分布為。注意,在應(yīng)用中,X可能是離散型隨機(jī)變量,也可能是連續(xù)型隨機(jī)變量,未知參數(shù)是具體的,要寫出分布的具體形式,例如寫出概率分布列或密度函數(shù),而不要抽象地記為。我們有樣本,這就是大家在實(shí)際問題中拿到的數(shù)據(jù)。(相對于這個(gè)樣本,我們一般把X叫做總體)。怎樣利用樣本估計(jì)參數(shù)呢?有兩套理論,即點(diǎn)估計(jì)理論和區(qū)間估計(jì)理論。 目錄 Back Next 點(diǎn)估計(jì)首先要掌握點(diǎn)估計(jì)方法。大家學(xué)過兩種點(diǎn)估計(jì)方法矩估計(jì)法和極大似然估計(jì)法。這里就不具體講這兩種求法了,我們只講一下幾個(gè)重要的結(jié)果。1、 樣本均值是總體均值的無偏估計(jì),所以當(dāng)總體的數(shù)學(xué)期望E(X)未知時(shí),我們一般用樣本均值作為E
18、(X)的估計(jì)。在例2中,根據(jù)例6的結(jié)果看,應(yīng)該用Poisson分布,而這時(shí),所以我們用作為的估計(jì),得到具體的一個(gè)Poisson分布。為什么恰好取3.87而非其它的值?這個(gè)為什么的問題是一個(gè)物理問題,我們無能為力。但是,從統(tǒng)計(jì)角度看,我們選用Poisson分布合理嗎?后面我們再解決這個(gè)問題。再如例7,我們利用頻率直方圖得到X應(yīng)該服從指數(shù)分布的判斷,而對于參數(shù)為的指數(shù)分布,因?yàn)?,是無偏估計(jì),所以在那里取。那么,用這個(gè)指數(shù)分布從統(tǒng)計(jì)角度來說合理嗎?這個(gè)問題也留到后面解決。 現(xiàn)在大家應(yīng)該理解點(diǎn)估計(jì)的重要意義了吧,可以看出來,沒有一個(gè)好的點(diǎn)估計(jì)量,就不可能得到一個(gè)至少是直觀上合理的分布。下面我們再給出另
19、一個(gè)重要的點(diǎn)估計(jì)量。2、 修正樣本方差是總體方差的無偏估計(jì)量,所以當(dāng)總體方差D(X)未知時(shí),我們一般用作為D(X)的估計(jì)量。例如在很多情況下,我們會(huì)用到正態(tài)分布,那時(shí)我們不但要用來估計(jì),而且還要用來估計(jì),從而得到一個(gè)具體的正態(tài)分布。(注意,當(dāng)樣本容量n較大時(shí), 與 沒有多大區(qū)別,所以在應(yīng)用中有時(shí)會(huì)直接使用。)Matlab里計(jì)算樣本統(tǒng)計(jì)量的函數(shù):geomean幾何平均,harmmean調(diào)和平均,iqr四分位間距,mean均值,median中位數(shù),std標(biāo)準(zhǔn)差,var無偏樣本方差 區(qū)間估計(jì) 在一個(gè)或兩個(gè)正態(tài)總體情況下的參數(shù)的區(qū)間估計(jì)問題在任何一本數(shù)理統(tǒng)計(jì)學(xué)的教材中都可以找到標(biāo)準(zhǔn)的求法??墒顷P(guān)于非正
20、態(tài)總體的情況在實(shí)際問題中也是常碰到的。下面就通過一個(gè)例子來體會(huì)一下它的求法。 例8、續(xù)例7(區(qū)間估計(jì))我們討論例7中的一個(gè)問題,求消費(fèi)金額不超過20元的概率p的區(qū)間估計(jì),置信水平為。 用Y表示消費(fèi)金額不超過20元這個(gè)事件,對i1,2,137,記那么總體Y服從兩點(diǎn)分布,。為其樣本,而且由原始數(shù)據(jù)可得n137,還可得每個(gè)的取值即樣本觀測值。被估計(jì)量為,但是也未知。的樣本方差為,用它來代替總體Y的方差。我們知道利用關(guān)于二項(xiàng)分布的中心極限定理,當(dāng)n較大時(shí),近似地有 從而近似地有由此不難求出p的置信區(qū)間: 由,給定,可得p的置信度為的置信區(qū)間約為 。一般情況下,我們總會(huì)想到正態(tài)總體的區(qū)間估計(jì)方法。但是,
21、對于非正態(tài)總體,如果需要,我們也要設(shè)法作區(qū)間估計(jì),方法有兩類:象正態(tài)總體那樣,構(gòu)造樞軸變元,利用已知分布求區(qū)間估計(jì),另一類方法就是在大樣本情況下用正態(tài)分布的方法求近似區(qū)間估計(jì),如本例所示。綜上所述,點(diǎn)估計(jì)和區(qū)間估計(jì)的理論與方法在實(shí)踐中有重要應(yīng)用,而我們在數(shù)理統(tǒng)計(jì)中也學(xué)過這些方法,所以在建模時(shí),要在需要的時(shí)候充分利用。這些內(nèi)容在數(shù)理統(tǒng)計(jì)的任何一本教材中都可以容易地查到,所以在建模的時(shí)候,這些問題不應(yīng)該成為大家的攔路虎。Matlab函數(shù):normfit(r): 樣本r下正態(tài)總體參數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)。例如先產(chǎn)生兩列(每列100個(gè))正態(tài)隨機(jī)數(shù)(均值10,方差2*2=4):r=normrnd(10,2
22、,100,2)。然后a,b,c,d=normfit(r,alpha)產(chǎn)生均值、標(biāo)準(zhǔn)差的點(diǎn)估計(jì)、區(qū)間估計(jì),其中a,b放的是點(diǎn)估計(jì),c,d放的是區(qū)間估計(jì)。 假設(shè)檢驗(yàn)當(dāng)然我們不會(huì)在這里講數(shù)理統(tǒng)計(jì)課堂上作為重點(diǎn)學(xué)習(xí)過的那些正態(tài)總體未知參數(shù)的假設(shè)檢驗(yàn)方法,這些應(yīng)該是大家必須熟練掌握的基本內(nèi)容。在這里,我們要介紹兩個(gè)很有用的非參數(shù)檢驗(yàn)方法,一個(gè)方法用來解決前面提到的“總體服從某個(gè)分布是否合理”的問題,如例2及例6中認(rèn)為X服從參數(shù)為3.87的Poisson分布,例7中認(rèn)為X服從參數(shù)為的指數(shù)分布,這樣作從統(tǒng)計(jì)角度看合理嗎?也就是要檢驗(yàn)總體分布是否為某給定分布。另一個(gè)方法是用來檢驗(yàn)兩個(gè)隨機(jī)變量是否獨(dú)立的所謂獨(dú)立
23、性檢驗(yàn)方法。注意要掌握思想,揣摩何時(shí)需要做這些檢驗(yàn),需要的時(shí)候,可以在任何一本統(tǒng)計(jì)學(xué)的教材中找到具體步驟。所以我不要求大家記住具體步驟,而要理解其重要性。擬合檢驗(yàn)例9、續(xù)例2(離散型)例2中認(rèn)為在時(shí)間間隔內(nèi)放射性物質(zhì)放射出的粒子數(shù)X服從Poisson分布,是否合理?我們現(xiàn)在解決這個(gè)問題。這是一個(gè)非參數(shù)假設(shè)檢驗(yàn)問題,原假設(shè)為H0:X服從Poisson分布當(dāng)然其對立假設(shè)就是X不服從Poisson分布。檢驗(yàn)的第一步要解決的問題是,如果H0成立,那么它服從參數(shù)為多少的Poisson分布?要先估計(jì)未知參數(shù)。因?yàn)檫@時(shí),所以用點(diǎn)估計(jì)法有,??芍绻鸋0成立,那么。 檢驗(yàn)的第二步要解決的問題是,觀測數(shù)據(jù)是否支
24、持原假設(shè)?如果原假設(shè)成立,那么X的分布如表中1、4行所示,我們可以計(jì)算出在總共N2608次觀測中X取每個(gè)值的理論頻數(shù)Npk:粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理論概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理論頻數(shù)N
25、pk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489 直觀上看,表中的理論頻數(shù)和實(shí)際頻數(shù)之間相差不大,但是我們必須構(gòu)造統(tǒng)計(jì)量來刻畫這個(gè)差別,而且要利用統(tǒng)計(jì)量的分布給出小概率事件,用實(shí)際推斷原理來嚴(yán)格檢驗(yàn)原假設(shè)。構(gòu)造統(tǒng)計(jì)量如下:。其中k表示X的取值情況數(shù),我們更喜歡稱之為X的取值的分組個(gè)數(shù)。本例中k11。這里要用到一個(gè)著名的定理,叫Pearson-Fisher定理: 若H0成立,不論總體服從什么分布,當(dāng)樣本容量時(shí),由上式定義的統(tǒng)計(jì)量的極限分布為。其中的r為計(jì)算理論頻數(shù)時(shí)
26、所估計(jì)的未知參數(shù)的個(gè)數(shù)。 所以,當(dāng)樣本容量較大時(shí),近似地有.顯然,H0成立時(shí),值不應(yīng)該太大。所以,取為否定域,給定檢驗(yàn)水平,H0成立時(shí), 。很小時(shí),是一個(gè)小概率事件。如果,則否定原假設(shè),否則說明數(shù)據(jù)與原假設(shè)沒有矛盾,接受原假設(shè)。檢驗(yàn)的第三步,具體計(jì)算。本例中,N2608 很大,k11,r1,可計(jì)算得 。我們?nèi)z驗(yàn)水平,可查表求得,所以不否定原假設(shè),認(rèn)為X服從Poisson分布.事實(shí)上,H0成立時(shí)可以求得(利用MATLAB,1-chi2cdf(12.8849381,9)),這個(gè)概率還是相當(dāng)大的,一般來說遠(yuǎn)遠(yuǎn)大于所要求的檢驗(yàn)水平??梢钥闯鰜?,只要檢驗(yàn)水平?jīng)]有超過0.1679,就可以接受原假設(shè)。換句
27、話說,除非檢驗(yàn)水平大于0.1679, 否則接受原假設(shè)。這是所謂p值判斷法。 作業(yè):用MATLAB完成本例計(jì)算。 這個(gè)例子講述了離散總體情況下的總體分布的2擬合檢驗(yàn)。那么,對于連續(xù)(注意沒有要求是連續(xù)型的)總體該如何處理?我們還是用例子來說明。 例10、續(xù)例7(連續(xù)型)解決例7超市問題中遺留下來的問題,認(rèn)為顧客的購買金額X服從參數(shù)為的指數(shù)分布,合理嗎? 上一個(gè)問題中,總體X是離散型隨機(jī)變量,我們把它的所有可能的取值分成了11個(gè)不同的情況,比較每一種情況下的理論與觀測結(jié)果,構(gòu)造統(tǒng)計(jì)量解決問題。本問題中,總體X不再是離散型隨機(jī)變量,所有可能取值為全體正實(shí)數(shù)。 我們要借用離散型的思想,將這X的無窮多個(gè)
28、取值分成k個(gè)不同的情況(k不能太大也不能太小,一般在420之間),即將全體正實(shí)數(shù)分解成k個(gè)區(qū)間。怎樣分?保證樣本中的觀測值在每個(gè)區(qū)間中的個(gè)數(shù)一般不少于5個(gè)(大部分區(qū)間上這樣就可以了,在數(shù)據(jù)的最大最小值附近的區(qū)間上一般不一定要這樣)。這樣就可以統(tǒng)計(jì)每個(gè)區(qū)間中的觀測值的個(gè)數(shù),同時(shí),在原假設(shè)成立的情況下計(jì)算每個(gè)區(qū)間中的理論頻數(shù)。這樣就把問題簡化為離散型的數(shù)據(jù)結(jié)構(gòu),那里用到的統(tǒng)計(jì)量仍可以使用,那里的定理還成立,所有后面的步驟不再變化?,F(xiàn)在解決本例中的問題。原假設(shè)為.注意這里的原假設(shè)與上一個(gè)例子不同,參數(shù)認(rèn)為是已知的,不要再去估計(jì)了。如果認(rèn)為參數(shù)未知,則如上一題那樣還要在下面估計(jì),這涉及到用到的自由度問
29、題。 為了計(jì)算簡便,再考慮到所有數(shù)據(jù)在0100之間,我們把區(qū)間0,72)分成9等分,把72,100)作為一個(gè)區(qū)間,依次得到10個(gè)區(qū)間。統(tǒng)計(jì)各個(gè)區(qū)間上觀測值的頻數(shù),填入下表。區(qū)間分割0,8)8,16)16,24)24,32)32,40)40,48)48,56)56,64)64,72)72,100)頻數(shù)nk51292114862321理論概率pk0.3716210.2335190.1467380.0922070.0579410.0364090.0228790.0143760.0090340.012271理論頻數(shù)Npk50.9120531.9920720.1031512.63247.9379394.
30、9880353.1343771.9695781.2376411.68113在原假設(shè)成立的情況下,計(jì)算如下概率:將計(jì)算結(jié)果也列在同一表中。利用所得概率可以計(jì)算出N137次觀測中各個(gè)區(qū)間上觀測值的理論頻數(shù),計(jì)算結(jié)果也列在表中。 原假設(shè)成立時(shí),。這里k10,r0。給定檢驗(yàn)水平,可查表求得,否定域?yàn)?。?jì)算統(tǒng)計(jì)量的值,所以不否定原假設(shè),認(rèn)為.通過這兩個(gè)例子大家應(yīng)該清楚總體分布的Pearson擬合檢驗(yàn)法了。這是一個(gè)幾乎可以解決所有問題的通用方法。作業(yè):還是自己完成計(jì)算。 另一種檢驗(yàn)方法:K-S檢驗(yàn)法:H=kstest(x,cdf,alpha)其中x是樣本列向量,cdf=(x,x的原假設(shè)分布函數(shù)值)是n行兩
31、列的矩陣。例如cdf=y',expcdf(y',17.22),y是超市數(shù)據(jù)。h=kstest(y,cdf)得到h = 0,不否定原假設(shè)。例11、概率紙檢驗(yàn)法概率紙是一張坐標(biāo)紙。每一個(gè)分布都對應(yīng)一張概率紙,其橫坐標(biāo)與普通坐標(biāo)系的橫坐標(biāo)沒有區(qū)別,但是其縱坐標(biāo)的刻度依賴于分布函數(shù)F(x)。如果總體X的分布函數(shù)為F(x),那么在這個(gè)分布函數(shù)對應(yīng)的概率紙上,函數(shù)yF(x)是一條直線。所以將觀測數(shù)據(jù)構(gòu)成的點(diǎn)點(diǎn)在概率紙上,除了兩端的點(diǎn)外(因?yàn)樵跀?shù)據(jù)的兩個(gè)極端附近,數(shù)據(jù)必然較少,經(jīng)驗(yàn)分布函數(shù)與總體分布函數(shù)會(huì)有較大差距),應(yīng)該呈直線狀。常用的概率紙有正態(tài)概率紙、對數(shù)正態(tài)概率紙、威布爾(Weibu
32、ll)分布概率紙等。在MATLAB中有專門的命令來處理,極易。 用概率紙法檢驗(yàn)例7中的數(shù)據(jù),看總體是否服從正態(tài)分布。用MATLAB完成:h=normplot(x)可以看出總體顯然不是正態(tài)分布的。 目錄 Back Next再看看其Weibull分布概率圖:h=weibplot(x)從此圖看,用Weibull分布比較合理。 實(shí)際上指數(shù)分布是威布爾分布的一個(gè)特例,威布爾分布有兩個(gè)參數(shù),記為W(m,),其分布函數(shù)如下:其中m>0叫形狀參數(shù),>0叫刻度參數(shù)。更一般的形式:將上面的x改為x-r,r叫位置參數(shù)。m=1時(shí)即為指數(shù)分布。參見現(xiàn)代數(shù)學(xué)手冊隨機(jī)數(shù)學(xué)卷。 獨(dú)立性檢驗(yàn)例12、中央民族大學(xué)教育
33、學(xué)研究室的課題“學(xué)習(xí)成績與道德的認(rèn)識(shí)水平之間的關(guān)系”要研究的問題是,學(xué)生的學(xué)習(xí)成績與道德認(rèn)識(shí)水平有關(guān)系嗎?他們將學(xué)生的學(xué)習(xí)成績分為優(yōu)、良、中、差四個(gè)等級(jí),將道德認(rèn)識(shí)水平分為好、中上、中下、差四檔,隨機(jī)調(diào)查了150名同學(xué),調(diào)查結(jié)果如下表: B道德A學(xué)習(xí) nij20810295401416002186260111233525514430n150從調(diào)查數(shù)據(jù)看,道德認(rèn)識(shí)水平與學(xué)習(xí)成績有沒有關(guān)系? 我們在這個(gè)例子里要為大家介紹獨(dú)立性檢驗(yàn)的概念。如果用X表示學(xué)習(xí)成績,Y表示道德認(rèn)識(shí)水平,都是量化的數(shù)量指標(biāo),那么(X,Y)是二元隨機(jī)變量。我們要檢驗(yàn)的是X與Y是否獨(dú)立。所以原假設(shè)是。那么怎樣檢驗(yàn)?zāi)兀课覀儼裍的
34、取值范圍分成四個(gè)部分,即所謂的優(yōu)、良、中、差四個(gè)等級(jí),分別用表示;將Y的取值范圍也分為四個(gè)部分,即好、中上、中下、差四檔,分別用表示。則原假設(shè)“”成立時(shí),我們必有那么,表中調(diào)查數(shù)據(jù)支持上面的這些等式嗎? 我們用表中數(shù)據(jù)將上面等式中的各個(gè)概率一一估計(jì)出來,原假設(shè)成立的時(shí)候,應(yīng)該有或構(gòu)造如下統(tǒng)計(jì)量:若H0成立,則當(dāng)時(shí),這個(gè)統(tǒng)計(jì)量的分布收斂到。 至少在樣本容量n較大的時(shí)候,我們可以近似地認(rèn)為,從而構(gòu)造否定域。事實(shí)上,當(dāng)H0成立時(shí),不應(yīng)該太大,所以給定檢驗(yàn)水平,否定域?yàn)椤?在本例中,rs4,我們?nèi)?,查表得。統(tǒng)計(jì)量的觀測值為因?yàn)樗苑穸ㄔ僭O(shè),認(rèn)為道德認(rèn)識(shí)水平與學(xué)習(xí)成績有之間不獨(dú)立,有顯著的關(guān)系。作業(yè):
35、還是自己完成計(jì)算。相關(guān)分析與回歸分析簡介 在前面討論了兩個(gè)隨機(jī)變量X與Y之間的獨(dú)立性檢驗(yàn)問題。我們要清楚,研究的對象是二元隨機(jī)變量(X,Y),利用的是成對觀測數(shù)據(jù)。如果數(shù)據(jù)否定了獨(dú)立性假設(shè),那么X與Y之間的關(guān)系應(yīng)該怎樣描述呢?這是一個(gè)非常復(fù)雜的問題。下面我們通過實(shí)例介紹一點(diǎn)處理這類問題思路。 例13、下表是德國1955年至1995年男性與女性得腸癌的逐年病例數(shù)記錄。從常識(shí)上看,在同一國家,男性與女性的生活飲食環(huán)境類似,所以兩者犯病的可能性也應(yīng)該有一定的關(guān)系。從統(tǒng)計(jì)的角度刻畫兩者的關(guān)系。女性男性女性男性女性男性3936435610588892113684101964138462310995908
36、013626996744434769112289106138651025845944769115819475138211041050195193120129680141861074754395260123791015913965106905710539012771996613982107396558608712835102921444411151712265631321010303142861102176416781126129816139531103981257142129519989138821104184597560127819818871974511283798611022086021
37、33159869104448540132099952 分別用X和Y表示男性與女性得腸癌的病例數(shù)。我們簡單地用上面的數(shù)據(jù)繪制一張散點(diǎn)圖,可以看出來X與Y之間有密切關(guān)系,二者顯然不獨(dú)立。它們是什么樣的關(guān)系呢?回顧一下概率論里學(xué)過的一個(gè)重要概念相關(guān)系數(shù)。我們可以用相關(guān)系數(shù)來刻畫這種關(guān)系。所以,我們要學(xué)會(huì)利用樣本估計(jì)、檢驗(yàn)總體相關(guān)系數(shù)的方法。 首先引入如下樣本相關(guān)系數(shù)的概念:對二元總體(X,Y)的樣本,定義樣本相關(guān)系數(shù)為其中分別為X和Y的樣本方差,叫X與Y之間的樣本協(xié)方差。這是第三個(gè)重要統(tǒng)計(jì)量,與總體相關(guān)系數(shù)相對應(yīng)。例如,利用本例中的數(shù)據(jù)可求得樣本相關(guān)系數(shù)為。那么,怎樣充分發(fā)揮這個(gè)統(tǒng)計(jì)量的作用呢?下面
38、我們講講如何利用它對總體相關(guān)系數(shù)作假設(shè)檢驗(yàn)和區(qū)間估計(jì)。 1、原假設(shè)為對立假設(shè)為 在原假設(shè)成立的情況下,可以證明下面的統(tǒng)計(jì)量服從自由度為n-2的t分布: 所以給定檢驗(yàn)水平,可得原假設(shè)的否定域。(圖) 本例中我們?nèi)〔楸淼?,而,否定原假設(shè),認(rèn)為男女患腸癌人數(shù)之間存在高顯著相關(guān)性,而且是正相關(guān)。 2、原假設(shè)為對立假設(shè)為 英國統(tǒng)計(jì)學(xué)家Fisher提出了如下統(tǒng)計(jì)量,其中如果原假設(shè)成立,那么當(dāng)n充分大時(shí),Z近似服從N (0,1)分布。所以給定檢驗(yàn)水平,原假設(shè)的否定域?yàn)?。本例中n41比較大,可用此統(tǒng)計(jì)量。我們檢驗(yàn)一下原假設(shè)。計(jì)算統(tǒng)計(jì)量的值: 查標(biāo)準(zhǔn)正態(tài)分布表易知,對于任給的一個(gè)檢驗(yàn)水平,一般都有,所以否定原假
39、設(shè),認(rèn)為。這個(gè)結(jié)果還提示我們,應(yīng)該有那么是否會(huì)有呢?我們提出如下原假設(shè),再做單邊檢驗(yàn) 3、一般地,可以證明在成立的情況下,所以,成立時(shí),給定檢驗(yàn)水平,有,所以,還是用上面給的統(tǒng)計(jì)量Z,可得否定域本例中我們?nèi)〔楸淼?,而,否定原假設(shè),認(rèn)為男女患腸癌人數(shù)之間的相關(guān)系數(shù)比0.95還要大。那么,這個(gè)相關(guān)系數(shù)到底有多大呢?我們下面做一個(gè)區(qū)間估計(jì)。 區(qū)間估計(jì) 我們要對相關(guān)系數(shù)作區(qū)間估計(jì),就要找一個(gè)樞軸變量。在n較大的時(shí)候,選用 即可,這時(shí)近似地。所以給定置信水平,有 所以的置信水平為的置信區(qū)間為.本例中,我們?nèi)?,可得從而的置信水平?.95的置信區(qū)間為0.9898,0.9971,可見男女患腸癌人數(shù)之間的相關(guān)
40、系數(shù)是非常高的。作業(yè):完成計(jì)算! 但是要注意,這不說明兩者之間有因果關(guān)系。我們也不會(huì)找一個(gè)由X計(jì)算Y或由Y計(jì)算X的公式,因?yàn)橐话闱闆r下這兩個(gè)數(shù)總是同時(shí)觀測到的。此例表明,相關(guān)系數(shù)可以刻畫兩個(gè)量之間的線性關(guān)系的強(qiáng)弱,但是為什么有這種關(guān)系,則不是統(tǒng)計(jì)學(xué)可以解決的問題。 注:上面用到的Z,只有當(dāng)樣本容量n較大時(shí)才近似服從標(biāo)準(zhǔn)正態(tài)分布。一般當(dāng)時(shí)我們用它。當(dāng)時(shí),統(tǒng)計(jì)學(xué)家建議用用如下的Hotelling統(tǒng)計(jì)量代替Z:其中。在進(jìn)行區(qū)間估計(jì)時(shí),其中的換成即可。它還是近似服從標(biāo)準(zhǔn)正態(tài)分布。 例14、(J效應(yīng))(回歸分析簡介)國際金融與宏觀經(jīng)濟(jì)學(xué)中有一個(gè)理論認(rèn)為,當(dāng)一個(gè)國家的本幣對外幣進(jìn)行大幅度貶值時(shí),固然有利于本國出口,但這并不能馬上見效,相反,貿(mào)易收支首先會(huì)惡化。如果相應(yīng)的措施和政策是正確的,則在經(jīng)過一段時(shí)間后,收支才能轉(zhuǎn)虧為盈。因而在時(shí)間軌跡上,收支先下降而后才上升,呈現(xiàn)為英文的“J”字形,稱為J效應(yīng)。二十世紀(jì)八、九十年代墨西哥發(fā)生金
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二年級(jí)上冊數(shù)學(xué)教案-練習(xí)七-北師大版
- 六年級(jí)上冊數(shù)學(xué)教案-3.1 倒-數(shù) |西師大版
- 六年級(jí)下冊數(shù)學(xué)教案-4.1扇形統(tǒng)計(jì)圖的認(rèn)識(shí) ︳西師大版
- 三年級(jí)上冊數(shù)學(xué)教案-解決問題第一課時(shí)|蘇教版
- 六年級(jí)上冊數(shù)學(xué)教案 -2.1 分?jǐn)?shù)混合運(yùn)算|北師大版
- 融資擔(dān)保培訓(xùn)協(xié)議書(2篇)
- 北師大版數(shù)學(xué)三年級(jí)上冊單元測試卷-第三單元-加與減(含答案)
- 2024年血壓調(diào)節(jié)用品項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 2025年度兩人共同投資可再生能源項(xiàng)目的股份合作合同
- 2025年度合伙人退出與合作伙伴關(guān)系維護(hù)協(xié)議
- 生涯規(guī)劃與就業(yè)創(chuàng)業(yè)全套課件電子教案板
- 湘少版六年級(jí)英語下冊《全冊課件》
- 2024-2030年中國護(hù)眼臺(tái)燈行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報(bào)告
- 《土壤肥料學(xué)通論》課程教學(xué)大綱
- 第十四屆全國交通運(yùn)輸行業(yè)職業(yè)技能競賽(公路收費(fèi)及監(jiān)控員)賽項(xiàng)題庫-下(多選題-共3部分-2)
- 集合功能的測定(雙眼視檢查)
- 2024年農(nóng)村自建房裝修合同
- 2024年《高等教育心理學(xué)》考前輔導(dǎo)必背習(xí)題庫(300題)
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫完美版
- 2024年廣西職業(yè)院校技能大賽中職組《智慧物流作業(yè)》模塊MC競賽樣題
- 人事專員簡歷模板
評論
0/150
提交評論