概率統(tǒng)計(jì)建模講義(重要分布舉例卡方檢驗(yàn))

上傳人：2*** IP屬地：湖北上傳時(shí)間：2022-06-17 格式：DOC 頁數(shù)：49 大?。?.01MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩44頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)理統(tǒng)計(jì)例舉王曉謙wxqmath南京師范大學(xué) 主要內(nèi)容隨機(jī)變量及其分布經(jīng)驗(yàn)分布函數(shù)和頻率直方圖參數(shù)估計(jì) 假設(shè)檢驗(yàn) 相關(guān)分析與回歸分析簡介 MATLAB例題例1能量供應(yīng)問題（二項(xiàng)分布）例2 放射性（泊松）例3正態(tài)分布例4指數(shù)分布例5 多元隨機(jī)變量例6經(jīng)驗(yàn)分布函數(shù) 例7超市問題（指數(shù)分布）例8區(qū)間估計(jì) 例9 擬合檢驗(yàn)1 例10擬合檢驗(yàn)2 例11概率紙檢驗(yàn)法例12道德（獨(dú)立性檢驗(yàn)）例13腸癌例14 J效應(yīng) 隨機(jī)變量及其分布例1、能量供應(yīng)問題（二項(xiàng)分布）假定有個(gè)工人間歇性地使用電力，估計(jì)所需要的總負(fù)荷。首先我們要知道，或者是假定，每個(gè)工人彼此獨(dú)立工作，而每一時(shí)刻每個(gè)工人都以相同

2、的概率p需要一個(gè)單位的電力。那么，同時(shí)使用電力的人數(shù)就是一個(gè)隨機(jī)變量，它服從所謂的二項(xiàng)分布。用X表示這個(gè)隨機(jī)變量，記做，且有這是非常重要的一類概率分布。其中E(X)np， D(X)=np(1-p)。其次，要根據(jù)經(jīng)驗(yàn)來估計(jì)出，p值是多少？例如，一個(gè)工人在一個(gè)小時(shí)里有12分鐘在使用電力，那么應(yīng)該有。最后，利用公式我們求出隨機(jī)變量X的概率分布表如下：X012345678910P0.1073740.2684350.301990.2013270.088080.0264240.0055050.0007860.0000740.0000040.000000累積概率0.1073740.375810.6778

3、0.8791260.9672070.9936310.9991360.9999220.99999611為直觀計(jì)，我們給出如下概率分布圖：目錄 Back Next可以看出，也就是說，如果供應(yīng)6個(gè)單位的電力，則超負(fù)荷工作的概率只有0.000864，即每中，才可能有一分鐘電力不夠用。還可以算出，八個(gè)或八個(gè)以上工人同時(shí)使用電力的概率就更小了，比上面概率的還要小。問題：二項(xiàng)分布是一個(gè)重要的用來計(jì)數(shù)的分布。什么樣的隨機(jī)變量會(huì)服從二項(xiàng)分布？進(jìn)行n次獨(dú)立觀測，在每次觀測中所關(guān)心的事件出現(xiàn)的概率都是p，那么在這n次觀測中事件A出現(xiàn)的總次數(shù)是一個(gè)服從二項(xiàng)分布B（n，p）。作業(yè)：用MATLAB計(jì)算本題。binop

4、df(x,n,p) 計(jì)算x中每個(gè)值對應(yīng)的二項(xiàng)分布概率binocdf(x,n,p) 計(jì)算x中每個(gè)值對應(yīng)的分布函數(shù)值 binoinv(y,n,p) 計(jì)算使得分布函數(shù)值大于等于y的最小整數(shù)x：P（X<=x）>=y binornd(n,p, mm, nn) 產(chǎn)生二項(xiàng)分布隨機(jī)數(shù)，mm行nn列。再如，產(chǎn)生兩行五列的隨機(jī)數(shù)用binornd(10,0.2,2,5)例如binopdf(0:10,10,0.2), binoinv(0.9,10,0.2)=4,binoinv(0:10)/10,10,0.2)binornd(10,0.2,1,5)ans = 2 2 1 1 4例2、Rutherford 對

5、裂變物質(zhì)的觀測（Poisson分布）英國著名物理學(xué)家 Rutherford（18711937）在其放射性物質(zhì)試驗(yàn)中，觀測在時(shí)間間隔T內(nèi)放射性物質(zhì)放射出的粒子數(shù)。實(shí)際試驗(yàn)時(shí)，取時(shí)間間隔為T=7.5秒，觀測了N2608次，將每次觀測到的粒子數(shù)記錄下來，列在下表中第1，2行：粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561

6、970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547 我們用X表示T=7.5秒內(nèi)觀測到的粒子數(shù)，它是一個(gè)隨機(jī)變量，服從什么分布呢？在2608次觀測中，共觀測到10094個(gè)粒子數(shù)，平均每次觀測到=M÷N10094÷26083.87個(gè)粒子數(shù)，用參數(shù)為=3.87的Poisson分布P計(jì)算一下：將計(jì)算結(jié)果列在上表中最后一行，與列在第3行的實(shí)際頻率比較，比較的圖示在下圖中。（Excel）可以看出，認(rèn)為X服從參數(shù)為3.87的Poisson分布還是非常合理的。在后面統(tǒng)計(jì)部分,我們會(huì)用Pearson擬合檢驗(yàn)法

7、來證明這種合理性。作業(yè)：用MATLAB計(jì)算本題。poisspdf（x，），計(jì)算poisson概率，poisscdf, poissinv, poissrnd例如，poisspdf(0:9,3.87)問題：Poisson分布是又一類非常重要的用來計(jì)數(shù)的離散型分布，它依賴于一個(gè)參數(shù)。什么樣的隨機(jī)變量會(huì)服從Poisson分布呢？在給定的觀測范圍內(nèi)（例如給定時(shí)間內(nèi)，給定區(qū)域內(nèi)，等等），事件會(huì)發(fā)生多少次？把觀測范圍分成n個(gè)小范圍：1、給定事件在每個(gè)小范圍內(nèi)可能發(fā)生，也可能不發(fā)生，發(fā)生多少次取決于小范圍的大??；2、在不同的小范圍內(nèi)發(fā)生多少事件相互獨(dú)立；3、在小范圍里發(fā)生的事件數(shù)多于一個(gè)的概率，和小范

8、圍的大小相比可以忽略不計(jì)，用表示在小范圍內(nèi)事件發(fā)生一次的概率。那么在給定范圍內(nèi)發(fā)生的總事件數(shù)X近似服從，為給定范圍內(nèi)事件發(fā)生次數(shù)的近似平均值。令，則為給定范圍內(nèi)事件發(fā)生次數(shù)的準(zhǔn)確平均值，這時(shí)這正是Poisson分布，其中參數(shù)。例3、正態(tài)分布隨機(jī)變量X如果有密度函數(shù)則稱此隨機(jī)變量服從參數(shù)為的正態(tài)分布，記做，其中都是給定的參數(shù)，。稱為標(biāo)準(zhǔn)正態(tài)分布，用表示其分布函數(shù)，其密度函數(shù)為時(shí)，我們有大量連續(xù)型隨機(jī)變量服從正態(tài)分布，所以正態(tài)分布在處理數(shù)據(jù)時(shí)是非常有用處的。我們在統(tǒng)計(jì)部分會(huì)大量用到它。Matlab中用norm表示正態(tài)分布，參數(shù)是數(shù)學(xué)期望和標(biāo)準(zhǔn)差。下面是正態(tài)分布的密度函數(shù)圖像：（正態(tài)密度圖像）例

9、4、指數(shù)分布稱隨機(jī)變量X服從參數(shù)為1的指數(shù)分布或標(biāo)準(zhǔn)指數(shù)分布，若它有密度函數(shù)它的分布函數(shù)為設(shè)是給定常數(shù)，則Y的分布函數(shù)為其密度函數(shù)為這是一般的指數(shù)分布。b0的指數(shù)分布的密度函數(shù)圖像如下所示（指數(shù)密度）：可見，隨著的減小，隨機(jī)變量取到較大值的概率增加。事實(shí)上，是隨機(jī)變量的數(shù)學(xué)期望。指數(shù)隨機(jī)變量經(jīng)常用來刻畫壽命。例5、多元隨機(jī)變量我們經(jīng)常需要考慮量與量之間的關(guān)系，如果這些量是隨機(jī)變量，那么就需要把多個(gè)隨機(jī)變量放在一起，考慮多元隨機(jī)變量。設(shè)是n元隨機(jī)變量，它的分布函數(shù)是一個(gè)n元函數(shù)：利用這個(gè)分布函數(shù)就可以討論這n個(gè)隨機(jī)變量之間各種各樣的關(guān)系。 1、邊際分布與獨(dú)立性相互獨(dú)立當(dāng)且僅當(dāng)2、相關(guān)

10、系數(shù)兩個(gè)隨機(jī)變量之間的相關(guān)系數(shù)定義為其中相關(guān)系數(shù)刻畫了隨機(jī)變量之間的線性相關(guān)程度，越接近于0，線性相關(guān)關(guān)系越弱。定理：設(shè)二維隨機(jī)變量(X，Y)的相關(guān)系數(shù)為，則（1）、（2）、在(X，Y)服從二元正態(tài)分布的條件下，X與Y獨(dú)立的充要條件是；（3）、若，則幾乎必然有其中是確定的常數(shù)；若，則幾乎必然有其中是確定的常數(shù)。 3、條件分布在已知其中某些隨機(jī)變量的取值的情況下，可以進(jìn)一步確定其他隨機(jī)變量的條件分布。例如，在有密度函數(shù)的情況下，我們還可以求條件密度函數(shù)，甚至利用Bayes定理，解決許多重要問題。綜上所述，我們知道在概率論里學(xué)過許多分布，當(dāng)然，還有許多分布我們沒有學(xué)過。但是，在實(shí)踐中我們可能會(huì)

11、遇到各種各樣的分布，甚至還有沒被發(fā)現(xiàn)的分布。在處理數(shù)據(jù)的時(shí)候，我們要搞清楚：1、數(shù)據(jù)是哪個(gè)或哪些指標(biāo)的取值？2、這個(gè)或這些指標(biāo)是不是隨機(jī)變量或隨機(jī)向量？ 3、如果是，那么它服從什么分布？4、用統(tǒng)計(jì)方法確定分布；5、分布確定后，用概率方法求出問題的解。下面我們就討論用統(tǒng)計(jì)方法確定分布的問題。經(jīng)驗(yàn)分布函數(shù)和頻率直方圖當(dāng)我們確定討論的指標(biāo)的確是隨機(jī)變量后，剩下的關(guān)鍵任務(wù)就是確定它的分布。那么它的觀測數(shù)據(jù)就是我們賴以解決問題的基本資料，叫做樣本，而這個(gè)隨機(jī)變量就叫做總體。這些數(shù)據(jù)反映了該隨機(jī)變量分布的基本特征。我們可以利用這些數(shù)據(jù)構(gòu)造一個(gè)分布函數(shù)，理論上可以證明它很接近于那個(gè)未知分布。這個(gè)分

12、布函數(shù)就叫做經(jīng)驗(yàn)分布函數(shù)。例6、例2續(xù)(經(jīng)驗(yàn)分布函數(shù))在例2，我們確定所討論的指標(biāo)在時(shí)間間隔T秒內(nèi)放射出的粒子數(shù)X，是一個(gè)隨機(jī)變量。且有該隨機(jī)變量的n2608個(gè)觀測值，這就是一個(gè)容量為2608的樣本。在沒有其他信息的情況下，首先應(yīng)該給出該樣本的經(jīng)驗(yàn)分布函數(shù)：在這里我們可求出這個(gè)經(jīng)驗(yàn)分布函數(shù)如下：這個(gè)函數(shù)的圖像如下（Poisson2）：如果熟悉Poisson分布的分布函數(shù)圖像的話，就可以從這個(gè)圖像判斷出，X可能服從參數(shù)為3.87的Poisson分布。從這個(gè)經(jīng)驗(yàn)分布函數(shù)容易解決概率計(jì)算問題：當(dāng)然，由于是離散型的隨機(jī)變量，我們可能更熟悉如下頻率分布圖像：也就是說，對于離散型隨機(jī)變量，我們更常用的方

13、法是繪制這種頻率分布圖。為了判斷分布的類型，對于離散型隨機(jī)變量，要繪制頻率分布圖！作業(yè)：用MATLAB計(jì)算本例。例7、超市問題（頻率直方圖）隨機(jī)抽取某大學(xué)超市137位顧客的購買金額的實(shí)際記錄（單位：元），數(shù)據(jù)如下。請問購買金額服從什么分布？65.209.9029.7261.1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094

14、.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.

15、125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.76 用X表示顧客的購買金額，那么它應(yīng)該是一個(gè)連續(xù)型的隨機(jī)變量。對于連續(xù)型的隨機(jī)變量，我們一般就不作它的經(jīng)驗(yàn)分布函數(shù)了，而是改作它的頻率直方圖。一般認(rèn)為，X應(yīng)該服從正態(tài)分布，數(shù)學(xué)期望為。其實(shí)不然，其頻率直方圖如下圖所示：（超市）它很像參數(shù)為的指數(shù)分布密度函數(shù)，如圖中紅色曲線所示。所以我們就認(rèn)為X的分布是這樣的一

16、個(gè)指數(shù)分布。例如，給定，可以求出表明該店顧客一次消費(fèi)金額在20元以下的人數(shù)占到近七成。這是什么原因呢？原來這是一家小型社區(qū)超市，人們只來買日用品，不在這里買大件。這對超市的經(jīng)營管理是一個(gè)重要信息。對于連續(xù)型隨機(jī)變量，要繪制頻率直方圖！作業(yè)：1、用Excel完成本例；2、經(jīng)驗(yàn)分布函數(shù)。經(jīng)驗(yàn)分布函數(shù)、頻率分布圖和頻率直方圖可以幫助我們了解隨機(jī)變量的類型。當(dāng)我們已經(jīng)了解到隨機(jī)變量的分布類型后，該隨機(jī)變量的分布一般就取決于一個(gè)或幾個(gè)參數(shù)了。如果知道了這些參數(shù)，就可以把分布完全確定下來。那么，如何確定這未知參數(shù)呢？數(shù)字特征計(jì)算：+ stat：計(jì)算均值和方差參數(shù)估計(jì)設(shè)隨機(jī)變量X的分布形式已經(jīng)知道，而其中

17、的一個(gè)或幾個(gè)參數(shù)未知，我們記這個(gè)分布為。注意，在應(yīng)用中，X可能是離散型隨機(jī)變量，也可能是連續(xù)型隨機(jī)變量，未知參數(shù)是具體的，要寫出分布的具體形式，例如寫出概率分布列或密度函數(shù)，而不要抽象地記為。我們有樣本，這就是大家在實(shí)際問題中拿到的數(shù)據(jù)。（相對于這個(gè)樣本，我們一般把X叫做總體）。怎樣利用樣本估計(jì)參數(shù)呢？有兩套理論，即點(diǎn)估計(jì)理論和區(qū)間估計(jì)理論。目錄 Back Next 點(diǎn)估計(jì)首先要掌握點(diǎn)估計(jì)方法。大家學(xué)過兩種點(diǎn)估計(jì)方法矩估計(jì)法和極大似然估計(jì)法。這里就不具體講這兩種求法了，我們只講一下幾個(gè)重要的結(jié)果。1、樣本均值是總體均值的無偏估計(jì)，所以當(dāng)總體的數(shù)學(xué)期望E(X)未知時(shí)，我們一般用樣本均值作為E

18、(X)的估計(jì)。在例2中，根據(jù)例6的結(jié)果看，應(yīng)該用Poisson分布，而這時(shí)，所以我們用作為的估計(jì)，得到具體的一個(gè)Poisson分布。為什么恰好取3.87而非其它的值？這個(gè)為什么的問題是一個(gè)物理問題，我們無能為力。但是，從統(tǒng)計(jì)角度看，我們選用Poisson分布合理嗎？后面我們再解決這個(gè)問題。再如例7，我們利用頻率直方圖得到X應(yīng)該服從指數(shù)分布的判斷，而對于參數(shù)為的指數(shù)分布，因?yàn)?，是無偏估計(jì)，所以在那里取。那么，用這個(gè)指數(shù)分布從統(tǒng)計(jì)角度來說合理嗎？這個(gè)問題也留到后面解決。現(xiàn)在大家應(yīng)該理解點(diǎn)估計(jì)的重要意義了吧，可以看出來，沒有一個(gè)好的點(diǎn)估計(jì)量，就不可能得到一個(gè)至少是直觀上合理的分布。下面我們再給出另

19、一個(gè)重要的點(diǎn)估計(jì)量。2、修正樣本方差是總體方差的無偏估計(jì)量，所以當(dāng)總體方差D(X)未知時(shí)，我們一般用作為D(X)的估計(jì)量。例如在很多情況下，我們會(huì)用到正態(tài)分布，那時(shí)我們不但要用來估計(jì)，而且還要用來估計(jì)，從而得到一個(gè)具體的正態(tài)分布。（注意，當(dāng)樣本容量n較大時(shí)，與沒有多大區(qū)別，所以在應(yīng)用中有時(shí)會(huì)直接使用。）Matlab里計(jì)算樣本統(tǒng)計(jì)量的函數(shù)：geomean幾何平均，harmmean調(diào)和平均，iqr四分位間距，mean均值，median中位數(shù)，std標(biāo)準(zhǔn)差，var無偏樣本方差區(qū)間估計(jì) 在一個(gè)或兩個(gè)正態(tài)總體情況下的參數(shù)的區(qū)間估計(jì)問題在任何一本數(shù)理統(tǒng)計(jì)學(xué)的教材中都可以找到標(biāo)準(zhǔn)的求法?？墒顷P(guān)于非正

20、態(tài)總體的情況在實(shí)際問題中也是常碰到的。下面就通過一個(gè)例子來體會(huì)一下它的求法。例8、續(xù)例7（區(qū)間估計(jì)）我們討論例7中的一個(gè)問題，求消費(fèi)金額不超過20元的概率p的區(qū)間估計(jì)，置信水平為。用Y表示消費(fèi)金額不超過20元這個(gè)事件，對i1，2，137，記那么總體Y服從兩點(diǎn)分布，。為其樣本，而且由原始數(shù)據(jù)可得n137，還可得每個(gè)的取值即樣本觀測值。被估計(jì)量為，但是也未知。的樣本方差為，用它來代替總體Y的方差。我們知道利用關(guān)于二項(xiàng)分布的中心極限定理，當(dāng)n較大時(shí)，近似地有從而近似地有由此不難求出p的置信區(qū)間：由，給定，可得p的置信度為的置信區(qū)間約為。一般情況下，我們總會(huì)想到正態(tài)總體的區(qū)間估計(jì)方法。但是，

21、對于非正態(tài)總體，如果需要，我們也要設(shè)法作區(qū)間估計(jì)，方法有兩類：象正態(tài)總體那樣，構(gòu)造樞軸變元，利用已知分布求區(qū)間估計(jì)，另一類方法就是在大樣本情況下用正態(tài)分布的方法求近似區(qū)間估計(jì)，如本例所示。綜上所述，點(diǎn)估計(jì)和區(qū)間估計(jì)的理論與方法在實(shí)踐中有重要應(yīng)用，而我們在數(shù)理統(tǒng)計(jì)中也學(xué)過這些方法，所以在建模時(shí)，要在需要的時(shí)候充分利用。這些內(nèi)容在數(shù)理統(tǒng)計(jì)的任何一本教材中都可以容易地查到，所以在建模的時(shí)候，這些問題不應(yīng)該成為大家的攔路虎。Matlab函數(shù)：normfit(r): 樣本r下正態(tài)總體參數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)。例如先產(chǎn)生兩列（每列100個(gè)）正態(tài)隨機(jī)數(shù)（均值10，方差2*2=4）：r=normrnd(10,2

22、,100,2)。然后a,b,c,d=normfit(r，alpha)產(chǎn)生均值、標(biāo)準(zhǔn)差的點(diǎn)估計(jì)、區(qū)間估計(jì)，其中a，b放的是點(diǎn)估計(jì)，c，d放的是區(qū)間估計(jì)。假設(shè)檢驗(yàn)當(dāng)然我們不會(huì)在這里講數(shù)理統(tǒng)計(jì)課堂上作為重點(diǎn)學(xué)習(xí)過的那些正態(tài)總體未知參數(shù)的假設(shè)檢驗(yàn)方法，這些應(yīng)該是大家必須熟練掌握的基本內(nèi)容。在這里，我們要介紹兩個(gè)很有用的非參數(shù)檢驗(yàn)方法，一個(gè)方法用來解決前面提到的“總體服從某個(gè)分布是否合理”的問題，如例2及例6中認(rèn)為X服從參數(shù)為3.87的Poisson分布，例7中認(rèn)為X服從參數(shù)為的指數(shù)分布，這樣作從統(tǒng)計(jì)角度看合理嗎？也就是要檢驗(yàn)總體分布是否為某給定分布。另一個(gè)方法是用來檢驗(yàn)兩個(gè)隨機(jī)變量是否獨(dú)立的所謂獨(dú)立

23、性檢驗(yàn)方法。注意要掌握思想，揣摩何時(shí)需要做這些檢驗(yàn)，需要的時(shí)候，可以在任何一本統(tǒng)計(jì)學(xué)的教材中找到具體步驟。所以我不要求大家記住具體步驟，而要理解其重要性。擬合檢驗(yàn)例9、續(xù)例2（離散型）例2中認(rèn)為在時(shí)間間隔內(nèi)放射性物質(zhì)放射出的粒子數(shù)X服從Poisson分布，是否合理？我們現(xiàn)在解決這個(gè)問題。這是一個(gè)非參數(shù)假設(shè)檢驗(yàn)問題，原假設(shè)為H0:X服從Poisson分布當(dāng)然其對立假設(shè)就是X不服從Poisson分布。檢驗(yàn)的第一步要解決的問題是，如果H0成立，那么它服從參數(shù)為多少的Poisson分布？要先估計(jì)未知參數(shù)。因?yàn)檫@時(shí)，所以用點(diǎn)估計(jì)法有，?？芍绻鸋0成立，那么。檢驗(yàn)的第二步要解決的問題是，觀測數(shù)據(jù)是否支

24、持原假設(shè)？如果原假設(shè)成立，那么X的分布如表中1、4行所示，我們可以計(jì)算出在總共N2608次觀測中X取每個(gè)值的理論頻數(shù)Npk：粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理論概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理論頻數(shù)N

25、pk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489 直觀上看，表中的理論頻數(shù)和實(shí)際頻數(shù)之間相差不大，但是我們必須構(gòu)造統(tǒng)計(jì)量來刻畫這個(gè)差別，而且要利用統(tǒng)計(jì)量的分布給出小概率事件，用實(shí)際推斷原理來嚴(yán)格檢驗(yàn)原假設(shè)。構(gòu)造統(tǒng)計(jì)量如下：。其中k表示X的取值情況數(shù)，我們更喜歡稱之為X的取值的分組個(gè)數(shù)。本例中k11。這里要用到一個(gè)著名的定理，叫Pearson-Fisher定理：若H0成立，不論總體服從什么分布，當(dāng)樣本容量時(shí)，由上式定義的統(tǒng)計(jì)量的極限分布為。其中的r為計(jì)算理論頻數(shù)時(shí)

26、所估計(jì)的未知參數(shù)的個(gè)數(shù)。所以，當(dāng)樣本容量較大時(shí)，近似地有.顯然，H0成立時(shí)，值不應(yīng)該太大。所以，取為否定域，給定檢驗(yàn)水平，H0成立時(shí)，。很小時(shí)，是一個(gè)小概率事件。如果，則否定原假設(shè)，否則說明數(shù)據(jù)與原假設(shè)沒有矛盾，接受原假設(shè)。檢驗(yàn)的第三步，具體計(jì)算。本例中，N2608 很大，k11，r1，可計(jì)算得。我們?nèi)z驗(yàn)水平，可查表求得，所以不否定原假設(shè)，認(rèn)為X服從Poisson分布.事實(shí)上，H0成立時(shí)可以求得（利用MATLAB，1-chi2cdf(12.8849381,9)），這個(gè)概率還是相當(dāng)大的，一般來說遠(yuǎn)遠(yuǎn)大于所要求的檢驗(yàn)水平?？梢钥闯鰜?，只要檢驗(yàn)水平?jīng)]有超過0.1679，就可以接受原假設(shè)。換句

27、話說，除非檢驗(yàn)水平大于0.1679, 否則接受原假設(shè)。這是所謂p值判斷法。作業(yè)：用MATLAB完成本例計(jì)算。這個(gè)例子講述了離散總體情況下的總體分布的2擬合檢驗(yàn)。那么，對于連續(xù)（注意沒有要求是連續(xù)型的）總體該如何處理？我們還是用例子來說明。例10、續(xù)例7（連續(xù)型）解決例7超市問題中遺留下來的問題，認(rèn)為顧客的購買金額X服從參數(shù)為的指數(shù)分布，合理嗎？上一個(gè)問題中，總體X是離散型隨機(jī)變量，我們把它的所有可能的取值分成了11個(gè)不同的情況，比較每一種情況下的理論與觀測結(jié)果，構(gòu)造統(tǒng)計(jì)量解決問題。本問題中，總體X不再是離散型隨機(jī)變量，所有可能取值為全體正實(shí)數(shù)。我們要借用離散型的思想，將這X的無窮多個(gè)

28、取值分成k個(gè)不同的情況（k不能太大也不能太小，一般在420之間），即將全體正實(shí)數(shù)分解成k個(gè)區(qū)間。怎樣分？保證樣本中的觀測值在每個(gè)區(qū)間中的個(gè)數(shù)一般不少于5個(gè)（大部分區(qū)間上這樣就可以了，在數(shù)據(jù)的最大最小值附近的區(qū)間上一般不一定要這樣）。這樣就可以統(tǒng)計(jì)每個(gè)區(qū)間中的觀測值的個(gè)數(shù)，同時(shí)，在原假設(shè)成立的情況下計(jì)算每個(gè)區(qū)間中的理論頻數(shù)。這樣就把問題簡化為離散型的數(shù)據(jù)結(jié)構(gòu)，那里用到的統(tǒng)計(jì)量仍可以使用，那里的定理還成立，所有后面的步驟不再變化?，F(xiàn)在解決本例中的問題。原假設(shè)為.注意這里的原假設(shè)與上一個(gè)例子不同，參數(shù)認(rèn)為是已知的，不要再去估計(jì)了。如果認(rèn)為參數(shù)未知，則如上一題那樣還要在下面估計(jì)，這涉及到用到的自由度問

29、題。為了計(jì)算簡便，再考慮到所有數(shù)據(jù)在0100之間，我們把區(qū)間0,72)分成9等分，把72,100)作為一個(gè)區(qū)間，依次得到10個(gè)區(qū)間。統(tǒng)計(jì)各個(gè)區(qū)間上觀測值的頻數(shù)，填入下表。區(qū)間分割0,8)8,16)16,24)24,32)32,40)40,48)48,56)56,64)64,72)72,100)頻數(shù)nk51292114862321理論概率pk0.3716210.2335190.1467380.0922070.0579410.0364090.0228790.0143760.0090340.012271理論頻數(shù)Npk50.9120531.9920720.1031512.63247.9379394.

30、9880353.1343771.9695781.2376411.68113在原假設(shè)成立的情況下，計(jì)算如下概率：將計(jì)算結(jié)果也列在同一表中。利用所得概率可以計(jì)算出N137次觀測中各個(gè)區(qū)間上觀測值的理論頻數(shù)，計(jì)算結(jié)果也列在表中。原假設(shè)成立時(shí)，。這里k10，r0。給定檢驗(yàn)水平，可查表求得，否定域?yàn)?。?jì)算統(tǒng)計(jì)量的值，所以不否定原假設(shè)，認(rèn)為.通過這兩個(gè)例子大家應(yīng)該清楚總體分布的Pearson擬合檢驗(yàn)法了。這是一個(gè)幾乎可以解決所有問題的通用方法。作業(yè)：還是自己完成計(jì)算。另一種檢驗(yàn)方法：K-S檢驗(yàn)法：H=kstest(x,cdf,alpha)其中x是樣本列向量，cdf=（x，x的原假設(shè)分布函數(shù)值）是n行兩

31、列的矩陣。例如cdf=y',expcdf(y',17.22)，y是超市數(shù)據(jù)。h=kstest(y,cdf)得到h = 0，不否定原假設(shè)。例11、概率紙檢驗(yàn)法概率紙是一張坐標(biāo)紙。每一個(gè)分布都對應(yīng)一張概率紙，其橫坐標(biāo)與普通坐標(biāo)系的橫坐標(biāo)沒有區(qū)別，但是其縱坐標(biāo)的刻度依賴于分布函數(shù)F(x)。如果總體X的分布函數(shù)為F(x),那么在這個(gè)分布函數(shù)對應(yīng)的概率紙上，函數(shù)yF(x)是一條直線。所以將觀測數(shù)據(jù)構(gòu)成的點(diǎn)點(diǎn)在概率紙上，除了兩端的點(diǎn)外（因?yàn)樵跀?shù)據(jù)的兩個(gè)極端附近，數(shù)據(jù)必然較少，經(jīng)驗(yàn)分布函數(shù)與總體分布函數(shù)會(huì)有較大差距），應(yīng)該呈直線狀。常用的概率紙有正態(tài)概率紙、對數(shù)正態(tài)概率紙、威布爾(Weibu

32、ll)分布概率紙等。在MATLAB中有專門的命令來處理，極易。用概率紙法檢驗(yàn)例7中的數(shù)據(jù)，看總體是否服從正態(tài)分布。用MATLAB完成：h=normplot(x)可以看出總體顯然不是正態(tài)分布的。目錄 Back Next再看看其Weibull分布概率圖：h=weibplot(x)從此圖看，用Weibull分布比較合理。實(shí)際上指數(shù)分布是威布爾分布的一個(gè)特例，威布爾分布有兩個(gè)參數(shù)，記為W(m,)，其分布函數(shù)如下：其中m>0叫形狀參數(shù)，>0叫刻度參數(shù)。更一般的形式：將上面的x改為x-r,r叫位置參數(shù)。m=1時(shí)即為指數(shù)分布。參見現(xiàn)代數(shù)學(xué)手冊隨機(jī)數(shù)學(xué)卷。獨(dú)立性檢驗(yàn)例12、中央民族大學(xué)教育

33、學(xué)研究室的課題“學(xué)習(xí)成績與道德的認(rèn)識(shí)水平之間的關(guān)系”要研究的問題是，學(xué)生的學(xué)習(xí)成績與道德認(rèn)識(shí)水平有關(guān)系嗎？他們將學(xué)生的學(xué)習(xí)成績分為優(yōu)、良、中、差四個(gè)等級(jí)，將道德認(rèn)識(shí)水平分為好、中上、中下、差四檔，隨機(jī)調(diào)查了150名同學(xué)，調(diào)查結(jié)果如下表： B道德A學(xué)習(xí) nij20810295401416002186260111233525514430n150從調(diào)查數(shù)據(jù)看，道德認(rèn)識(shí)水平與學(xué)習(xí)成績有沒有關(guān)系？我們在這個(gè)例子里要為大家介紹獨(dú)立性檢驗(yàn)的概念。如果用X表示學(xué)習(xí)成績，Y表示道德認(rèn)識(shí)水平，都是量化的數(shù)量指標(biāo)，那么（X，Y）是二元隨機(jī)變量。我們要檢驗(yàn)的是X與Y是否獨(dú)立。所以原假設(shè)是。那么怎樣檢驗(yàn)?zāi)兀课覀儼裍的

34、取值范圍分成四個(gè)部分，即所謂的優(yōu)、良、中、差四個(gè)等級(jí)，分別用表示；將Y的取值范圍也分為四個(gè)部分，即好、中上、中下、差四檔，分別用表示。則原假設(shè)“”成立時(shí)，我們必有那么，表中調(diào)查數(shù)據(jù)支持上面的這些等式嗎？我們用表中數(shù)據(jù)將上面等式中的各個(gè)概率一一估計(jì)出來，原假設(shè)成立的時(shí)候，應(yīng)該有或構(gòu)造如下統(tǒng)計(jì)量：若H0成立，則當(dāng)時(shí)，這個(gè)統(tǒng)計(jì)量的分布收斂到。至少在樣本容量n較大的時(shí)候，我們可以近似地認(rèn)為，從而構(gòu)造否定域。事實(shí)上，當(dāng)H0成立時(shí)，不應(yīng)該太大，所以給定檢驗(yàn)水平，否定域?yàn)椤?在本例中，rs4，我們?nèi)?，查表得。統(tǒng)計(jì)量的觀測值為因?yàn)樗苑穸ㄔ僭O(shè)，認(rèn)為道德認(rèn)識(shí)水平與學(xué)習(xí)成績有之間不獨(dú)立，有顯著的關(guān)系。作業(yè)：

35、還是自己完成計(jì)算。相關(guān)分析與回歸分析簡介在前面討論了兩個(gè)隨機(jī)變量X與Y之間的獨(dú)立性檢驗(yàn)問題。我們要清楚，研究的對象是二元隨機(jī)變量（X，Y），利用的是成對觀測數(shù)據(jù)。如果數(shù)據(jù)否定了獨(dú)立性假設(shè)，那么X與Y之間的關(guān)系應(yīng)該怎樣描述呢？這是一個(gè)非常復(fù)雜的問題。下面我們通過實(shí)例介紹一點(diǎn)處理這類問題思路。例13、下表是德國1955年至1995年男性與女性得腸癌的逐年病例數(shù)記錄。從常識(shí)上看，在同一國家，男性與女性的生活飲食環(huán)境類似，所以兩者犯病的可能性也應(yīng)該有一定的關(guān)系。從統(tǒng)計(jì)的角度刻畫兩者的關(guān)系。女性男性女性男性女性男性3936435610588892113684101964138462310995908

36、013626996744434769112289106138651025845944769115819475138211041050195193120129680141861074754395260123791015913965106905710539012771996613982107396558608712835102921444411151712265631321010303142861102176416781126129816139531103981257142129519989138821104184597560127819818871974511283798611022086021

37、33159869104448540132099952 分別用X和Y表示男性與女性得腸癌的病例數(shù)。我們簡單地用上面的數(shù)據(jù)繪制一張散點(diǎn)圖，可以看出來X與Y之間有密切關(guān)系，二者顯然不獨(dú)立。它們是什么樣的關(guān)系呢？回顧一下概率論里學(xué)過的一個(gè)重要概念相關(guān)系數(shù)。我們可以用相關(guān)系數(shù)來刻畫這種關(guān)系。所以，我們要學(xué)會(huì)利用樣本估計(jì)、檢驗(yàn)總體相關(guān)系數(shù)的方法。首先引入如下樣本相關(guān)系數(shù)的概念：對二元總體(X，Y)的樣本，定義樣本相關(guān)系數(shù)為其中分別為X和Y的樣本方差，叫X與Y之間的樣本協(xié)方差。這是第三個(gè)重要統(tǒng)計(jì)量，與總體相關(guān)系數(shù)相對應(yīng)。例如，利用本例中的數(shù)據(jù)可求得樣本相關(guān)系數(shù)為。那么，怎樣充分發(fā)揮這個(gè)統(tǒng)計(jì)量的作用呢？下面

38、我們講講如何利用它對總體相關(guān)系數(shù)作假設(shè)檢驗(yàn)和區(qū)間估計(jì)。 1、原假設(shè)為對立假設(shè)為在原假設(shè)成立的情況下，可以證明下面的統(tǒng)計(jì)量服從自由度為n-2的t分布：所以給定檢驗(yàn)水平，可得原假設(shè)的否定域。（圖）本例中我們?nèi)〔楸淼?，而，否定原假設(shè)，認(rèn)為男女患腸癌人數(shù)之間存在高顯著相關(guān)性，而且是正相關(guān)。 2、原假設(shè)為對立假設(shè)為英國統(tǒng)計(jì)學(xué)家Fisher提出了如下統(tǒng)計(jì)量，其中如果原假設(shè)成立，那么當(dāng)n充分大時(shí)，Z近似服從N (0，1)分布。所以給定檢驗(yàn)水平，原假設(shè)的否定域?yàn)?。本例中n41比較大，可用此統(tǒng)計(jì)量。我們檢驗(yàn)一下原假設(shè)。計(jì)算統(tǒng)計(jì)量的值：查標(biāo)準(zhǔn)正態(tài)分布表易知，對于任給的一個(gè)檢驗(yàn)水平，一般都有，所以否定原假

39、設(shè)，認(rèn)為。這個(gè)結(jié)果還提示我們，應(yīng)該有那么是否會(huì)有呢？我們提出如下原假設(shè)，再做單邊檢驗(yàn) 3、一般地，可以證明在成立的情況下，所以，成立時(shí)，給定檢驗(yàn)水平，有，所以，還是用上面給的統(tǒng)計(jì)量Z，可得否定域本例中我們?nèi)〔楸淼?，而，否定原假設(shè)，認(rèn)為男女患腸癌人數(shù)之間的相關(guān)系數(shù)比0.95還要大。那么，這個(gè)相關(guān)系數(shù)到底有多大呢？我們下面做一個(gè)區(qū)間估計(jì)。區(qū)間估計(jì) 我們要對相關(guān)系數(shù)作區(qū)間估計(jì)，就要找一個(gè)樞軸變量。在n較大的時(shí)候，選用即可，這時(shí)近似地。所以給定置信水平，有所以的置信水平為的置信區(qū)間為.本例中，我們?nèi)?，可得從而的置信水平?.95的置信區(qū)間為0.9898,0.9971，可見男女患腸癌人數(shù)之間的相關(guān)

40、系數(shù)是非常高的。作業(yè)：完成計(jì)算！但是要注意，這不說明兩者之間有因果關(guān)系。我們也不會(huì)找一個(gè)由X計(jì)算Y或由Y計(jì)算X的公式，因?yàn)橐话闱闆r下這兩個(gè)數(shù)總是同時(shí)觀測到的。此例表明，相關(guān)系數(shù)可以刻畫兩個(gè)量之間的線性關(guān)系的強(qiáng)弱，但是為什么有這種關(guān)系，則不是統(tǒng)計(jì)學(xué)可以解決的問題。注：上面用到的Z，只有當(dāng)樣本容量n較大時(shí)才近似服從標(biāo)準(zhǔn)正態(tài)分布。一般當(dāng)時(shí)我們用它。當(dāng)時(shí)，統(tǒng)計(jì)學(xué)家建議用用如下的Hotelling統(tǒng)計(jì)量代替Z：其中。在進(jìn)行區(qū)間估計(jì)時(shí)，其中的換成即可。它還是近似服從標(biāo)準(zhǔn)正態(tài)分布。例14、（J效應(yīng)）（回歸分析簡介）國際金融與宏觀經(jīng)濟(jì)學(xué)中有一個(gè)理論認(rèn)為，當(dāng)一個(gè)國家的本幣對外幣進(jìn)行大幅度貶值時(shí)，固然有利于本國出口，但這并不能馬上見效，相反，貿(mào)易收支首先會(huì)惡化。如果相應(yīng)的措施和政策是正確的，則在經(jīng)過一段時(shí)間后，收支才能轉(zhuǎn)虧為盈。因而在時(shí)間軌跡上，收支先下降而后才上升，呈現(xiàn)為英文的“J”字形，稱為J效應(yīng)。二十世紀(jì)八、九十年代墨西哥發(fā)生金

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

概率統(tǒng)計(jì)建模講義(重要分布舉例卡方檢驗(yàn))

文檔簡介

溫馨提示

最新文檔

評論

概率統(tǒng)計(jì)建模講義(重要分布舉例卡方檢驗(yàn))

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔