概率統(tǒng)計建模講義

上傳人：4*** IP屬地：湖北上傳時間：2022-11-16 格式：DOC 頁數(shù)：34 大小：1.06MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

數(shù)理統(tǒng)計例舉王曉謙wxqmath@263.net南京師范大學2014年4月主要內(nèi)容HYPERLINK隨機變量及其分布HYPERLINK經(jīng)驗分布函數(shù)和頻率直方圖HYPERLINK參數(shù)估計HYPERLINK假設(shè)檢驗HYPERLINK相關(guān)分析與回歸分析簡介HYPERLINKMATLAB例題HYPERLINK例4指數(shù)分布HYPERLINK例5多元隨機變量HYPERLINK例6經(jīng)驗分布函數(shù)HYPERLINK例7超市問題HYPERLINK例9擬合檢驗1HYPERLINK例10擬合檢驗2HYPERLINK例11概率紙檢驗法HYPERLINK例12道德HYPERLINK例13腸癌HYPERLINK例14J效應(yīng)HYPERLINKBackHYPERLINK隨機變量及其分布HYPERLINK粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547我們用X表示ΔT=7.5秒內(nèi)觀測到的α粒子數(shù)，它是一個隨機變量，服從什么分布呢？在2608次觀測中，共觀測到10094個α粒子數(shù)，平均每次觀測到λ=M÷N＝10094÷2608≈3.87個α粒子數(shù)，用參數(shù)為λ=3.87的Poisson分布P計算一下：將計算結(jié)果列在上表中HYPERLINK最后一行，與列在第3行的實際頻率比較，比較的圖示在下圖中。（Excel）可以看出，認為X服從參數(shù)為3.87的Poisson分布還是非常合理的。在后面統(tǒng)計部分,我們會用Pearson－擬合檢驗法來證明這種合理性。HYPERLINKBackHYPERLINKNext在給定的觀測范圍內(nèi)（例如給定時間內(nèi)，給定區(qū)域內(nèi)，等等），事件會發(fā)生多少次？把觀測范圍分成n個小范圍：給定事件在每個小范圍內(nèi)可能發(fā)生，也可能不發(fā)生，發(fā)生多少次取決于小范圍的大?。辉诓煌男》秶鷥?nèi)發(fā)生多少事件相互獨立；在小范圍里發(fā)生的事件數(shù)多于一個的概率，和小范圍的大小相比可以忽略不計，用表示在小范圍內(nèi)事件發(fā)生一次的概率。那么在給定范圍內(nèi)發(fā)生的總事件數(shù)X近似服從，為給定范圍內(nèi)事件發(fā)生次數(shù)的近似平均值。令，則為給定范圍內(nèi)事件發(fā)生次數(shù)的準確平均值，這時這正是Poisson分布，其中參數(shù)。HYPERLINKBackHYPERLINKNextHYPERLINKNext綜上所述，我們知道在概率論里學過許多分布，當然，還有許多分布我們沒有學過。但是，在實踐中我們可能會遇到各種各樣的分布，甚至還有沒被發(fā)現(xiàn)的分布。在處理數(shù)據(jù)的時候，我們要搞清楚：數(shù)據(jù)是哪個或哪些指標的取值？這個或這些指標是不是隨機變量或隨機向量？如果是，那么它服從什么分布？用統(tǒng)計方法確定分布；分布確定后，用概率方法求出問題的解。下面我們就討論用統(tǒng)計方法確定分布的問題。HYPERLINK經(jīng)驗分布函數(shù)和頻率直方圖當我們確定討論的指標的確是隨機變量后，剩下的關(guān)鍵任務(wù)就是確定它的分布。那么它的觀測數(shù)據(jù)就是我們賴以解決問題的基本資料，叫做樣本，而這個隨機變量就叫做總體。這些數(shù)據(jù)反映了該隨機變量分布的基本特征。我們可以利用這些數(shù)據(jù)構(gòu)造一個分布函數(shù)，理論上可以證明它很接近于那個未知分布。這個分布函數(shù)就叫做經(jīng)驗分布函數(shù)。HYPERLINK紅色曲線所示。所以我們就認為X的分布是這樣的一個指數(shù)分布。例如，給定，可以求出表明該店顧客一次消費金額在20元以下的人數(shù)占到近七成。這是什么原因呢？原來這是一家小型社區(qū)超市，人們只來買日用品，不在這里買大件。這對超市的經(jīng)營管理是一個重要信息。對于連續(xù)型隨機變量，要繪制頻率直方圖！作業(yè)：1、用Excel完成本例；2、經(jīng)驗分布函數(shù)。經(jīng)驗分布函數(shù)、頻率分布圖和頻率直方圖可以幫助我們了解隨機變量的類型。當我們已經(jīng)了解到隨機變量的分布類型后，該隨機變量的分布一般就取決于一個或幾個參數(shù)了。如果知道了這些參數(shù)，就可以把分布完全確定下來。那么，如何確定這未知參數(shù)呢？數(shù)字特征計算：+stat：計算均值和方差HYPERLINK參數(shù)估計設(shè)隨機變量X的分布形式已經(jīng)知道，而其中的一個或幾個參數(shù)未知，我們記這個分布為。注意，在應(yīng)用中，X可能是離散型隨機變量，也可能是連續(xù)型隨機變量，未知參數(shù)是具體的，要寫出分布的具體形式，例如寫出概率分布列或密度函數(shù)，而不要抽象地記為。我們有樣本，這就是大家在實際問題中拿到的數(shù)據(jù)。（相對于這個樣本，我們一般把X叫做總體）。怎樣利用樣本估計參數(shù)呢？有兩套理論，即HYPERLINK點估計理論和HYPERLINK區(qū)間估計理論。點估計首先要掌握點估計方法。大家學過兩種點估計方法——矩估計法和極大似然估計法。這里就不具體講這兩種求法了，我們只講一下幾個重要的結(jié)果。樣本均值是總體均值的無偏估計，所以當總體的數(shù)學期望E(X)未知時，我們一般用樣本均值作為E(X)的估計。在例2中，根據(jù)例6的結(jié)果看，應(yīng)該用Poisson分布，而這時，所以我們用作為的估計，得到具體的一個Poisson分布。為什么恰好取3.87而非其它的值？這個為什么的問題是一個物理問題，我們無能為力。但是，從統(tǒng)計角度看，我們選用Poisson分布合理嗎？后面我們再解決這個問題。再如例7，我們利用頻率直方圖得到X應(yīng)該服從指數(shù)分布的判斷，而對于參數(shù)為的指數(shù)分布，因為，是無偏估計，所以在那里取。那么，用這個指數(shù)分布從統(tǒng)計角度來說合理嗎？這個問題也留到后面解決。HYPERLINKNext現(xiàn)在大家應(yīng)該理解點估計的重要意義了吧，可以看出來，沒有一個好的點估計量，就不可能得到一個至少是直觀上合理的分布。下面我們再給出另一個重要的點估計量。修正樣本方差是總體方差的無偏估計量，所以當總體方差D(X)未知時，我們一般用作為D(X)的估計量。例如在很多情況下，我們會用到正態(tài)分布，那時我們不但要用來估計，而且還要用來估計，從而得到一個具體的正態(tài)分布。（注意，當樣本容量n較大時，與沒有多大區(qū)別，所以在應(yīng)用中有時會直接使用。）Matlab里計算樣本統(tǒng)計量的函數(shù)：geomean幾何平均，harmmean調(diào)和平均，iqr四分位間距，mean均值，median中位數(shù)，std標準差，var無偏樣本方差區(qū)間估計在一個或兩個正態(tài)總體情況下的參數(shù)的區(qū)間估計問題在任何一本數(shù)理統(tǒng)計學的教材中都可以找到標準的求法。可是關(guān)于非正態(tài)總體的情況在實際問題中也是常碰到的。下面就通過一個例子來體會一下它的求法。HYPERLINKNext我們知道利用關(guān)于二項分布的中心極限定理，當n較大時，近似地有從而近似地有由此不難求出p的置信區(qū)間：由，給定，，可得p的置信度為的置信區(qū)間約為。一般情況下，我們總會想到正態(tài)總體的區(qū)間估計方法。但是，對于非正態(tài)總體，如果需要，我們也要設(shè)法作區(qū)間估計，方法有兩類：象正態(tài)總體那樣，構(gòu)造樞軸變元，利用已知分布求區(qū)間估計，可參見教材中P265第16題的方法（作為習題，請同學們做這道題）；另一類方法就是在大樣本情況下用正態(tài)分布的方法求近似區(qū)間估計，如本例所示。綜上所述，點估計和區(qū)間估計的理論與方法在實踐中有重要應(yīng)用，而我們在數(shù)理統(tǒng)計中也學過這些方法，所以在建模時，要在需要的時候充分利用。這些內(nèi)容在數(shù)理統(tǒng)計的任何一本教材中都可以容易地查到，所以在建模的時候，這些問題不應(yīng)該成為大家的攔路虎。Matlab函數(shù)：normfit(r):樣本r下正態(tài)總體參數(shù)的點估計和區(qū)間估計。例如先產(chǎn)生兩列（每列100個）正態(tài)隨機數(shù)（均值10，方差2*2=4）：r=normrnd(10,2,100,2)。然后[a,b,c,d]=normfit(r，alpha)產(chǎn)生均值、標準差的點估計、區(qū)間估計，其中a，b放的是點估計，c，d放的是區(qū)間估計。HYPERLINK假設(shè)檢驗當然我們不會在這里講數(shù)理統(tǒng)計課堂上作為重點學習過的那些正態(tài)總體未知參數(shù)的假設(shè)檢驗方法，這些應(yīng)該是大家必須熟練掌握的基本內(nèi)容。在這里，我們要介紹兩個很有用的非參數(shù)檢驗方法，HYPERLINK一個方法用來解決前面提到的“總體服從某個分布是否合理”的問題，如例2及例6中認為X服從參數(shù)為3.87的Poisson分布，例7中認為X服從參數(shù)為的指數(shù)分布，這樣作從統(tǒng)計角度看合理嗎？也就是要檢驗總體分布是否為某給定分布。HYPERLINK另一個方法是用來檢驗兩個隨機變量是否獨立的所謂獨立性檢驗方法。注意要掌握思想，揣摩何時需要做這些檢驗，需要的時候，可以在任何一本統(tǒng)計學的教材中找到具體步驟。所以我不要求大家記住具體步驟，而要理解其重要性。HYPERLINKNext檢驗的第一步要解決的問題是，如果H0成立，那么它服從參數(shù)為多少的Poisson分布？要先估計未知參數(shù)。因為這時，所以用點估計法有，?？芍绻鸋0成立，那么。檢驗的第二步要解決的問題是，觀測數(shù)據(jù)是否支持原假設(shè)？如果原假設(shè)成立，，那么X的分布如表中1、4行所示，我們可以計算出在總共N＝2608次觀測中X取每個值的理論頻數(shù)Npk：粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理論概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理論頻數(shù)Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489直觀上看，表中的理論頻數(shù)和實際頻數(shù)之間相差不大，但是我們必須構(gòu)造統(tǒng)計量來刻畫這個差別，而且要利用統(tǒng)計量的分布給出小概率事件，用實際推斷原理來嚴格檢驗原假設(shè)。構(gòu)造統(tǒng)計量如下：。其中k表示X的取值情況數(shù)，我們更喜歡稱之為X的取值的分組個數(shù)。本例中k＝11。這里要用到一個著名的定理，叫Pearson-Fisher定理：若H0成立，不論總體服從什么分布，當樣本容量時，由上式定義的統(tǒng)計量的極限分布為。其中的r為計算理論頻數(shù)時所估計的未知參數(shù)的個數(shù)。r是參數(shù)的個數(shù)所以，當樣本容量較大時，近似地有.顯然，H0成立時，值不應(yīng)該太大。所以，取為HYPERLINK否定域，給定檢驗水平α，H0成立時，。很小時，是一個小概率事件。如果，則否定原假設(shè)，否則說明數(shù)據(jù)與原假設(shè)沒有矛盾，接受原假設(shè)。檢驗的第三步，具體計算。本例中，N＝2608很大，k＝11，r＝1，可計算得。我們?nèi)z驗水平，可查表求得，，所以不否定原假設(shè)，認為X服從Poisson分布.事實上，H0成立時可以求得（利用MATLAB，＝1-chi2cdf(12.8849381,9)），這個概率還是相當大的，一般來說遠遠大于所要求的檢驗水平。可以看出來，只要檢驗水平?jīng)]有超過0.1679，就可以接受原假設(shè)。換句話說，除非檢驗水平大于0.1679,否則接受原假設(shè)。這是所謂p值判斷法。作業(yè)：用MATLAB完成本例計算。這個例子講述了離散總體情況下的總體分布的χ2擬合檢驗。那么，對于連續(xù)（注意沒有要求是連續(xù)型的）總體該如何處理？我們還是用例子來說明。HYPERLINKNext再看看其Weibull分布概率圖：h=weibplot(x)從此圖看，用Weibull分布比較合理。實際上指數(shù)分布是威布爾分布的一個特例，威布爾分布有兩個參數(shù)，記為W(m,η)，其分布函數(shù)如下：其中m>0叫形狀參數(shù)，η>0叫刻度參數(shù)。更一般的形式：將上面的x改為x-r,r叫位置參數(shù)。m=1時即為指數(shù)分布。參見現(xiàn)代數(shù)學手冊隨機數(shù)學卷。獨立性檢驗HYPERLINKNext我們在這個例子里要為大家介紹獨立性檢驗的概念。如果用X表示學習成績，Y表示道德認識水平，都是量化的數(shù)量指標，那么（X，Y）是二元隨機變量。我們要檢驗的是X與Y是否獨立。所以原假設(shè)是。那么怎樣檢驗?zāi)?？我們把X的取值范圍分成四個部分，即所謂的優(yōu)、良、中、差四個等級，分別用表示；將Y的取值范圍也分為四個部分，即好、中上、中下、差四檔，分別用表示。則原假設(shè)“”成立時，我們必有那么，表中調(diào)查數(shù)據(jù)支持上面的這些等式嗎？HYPERLINKNext我們用表中數(shù)據(jù)將HYPERLINK上面等式中的各個概率一一估計出來，原假設(shè)成立的時候，HYPERLINK相關(guān)分析與回歸分析簡介在前面討論了兩個隨機變量X與Y之間的獨立性檢驗問題。我們要清楚，研究的對象是二元隨機變量（X，Y），利用的是成對觀測數(shù)據(jù)。如果數(shù)據(jù)否定了獨立性假設(shè)，那么X與Y之間的關(guān)系應(yīng)該怎樣描述呢？這是一個非常復(fù)雜的問題。下面我們通過實例介紹一點處理這類問題思路。HYPERLINKNext1、原假設(shè)為對立假設(shè)為在原假設(shè)成立的情況下，可以證明下面的統(tǒng)計量服從自由度為n-2的t分布：．所以給定檢驗水平，可得原假設(shè)的否定域。（HYPERLINK圖）本例中我們?nèi)〔楸淼茫?，否定原假設(shè)，認為男女患腸癌人數(shù)之間存在高顯著相關(guān)性，而且是正相關(guān)。2、原假設(shè)為對立假設(shè)為英國統(tǒng)計學家Fisher提出了如下統(tǒng)計量，其中如果原假設(shè)成立，那么當n充分大時，Z近似服從N(0，1)分布。所以給定檢驗水平，原假設(shè)的否定域為。本例中n＝41比較大，可用此統(tǒng)計量。我們檢驗一下原假設(shè)。計算統(tǒng)計量的值：查標準正態(tài)分布表易知，對于任給的一個檢驗水平，一般都有，所以否定原假設(shè)，認為。這個結(jié)果還提示我們，應(yīng)該有那么是否會有呢？我們提出如下原假設(shè)，再做單邊檢驗3、一般地，可以證明在成立的情況下，所以，成立時，給定檢驗水平，有，所以，還是用上面給的統(tǒng)計量Z，可得否定域本例中我們?nèi)〔楸淼?，而，否定原假設(shè)，認為男女患腸癌人數(shù)之間的相關(guān)系數(shù)比0.95還要大。那么，這個相關(guān)系數(shù)到底有多大呢？我們下面做一個區(qū)間估計。區(qū)間估計我們要對相關(guān)系數(shù)作區(qū)間估計，就要找一個樞軸變量。在n較大的時候，選用即可，這時近似地。所以給定置信水平，有所以的置信水平為的置信區(qū)間為.本例中，我們?nèi)。傻脧亩闹眯潘綖?.95的置信區(qū)間為[0.9898,0.9971]，可見男女患腸癌人數(shù)之間的相關(guān)系數(shù)是非常高的。作業(yè)：完成計算！但是要注意，這不說明兩者之間有因果關(guān)系。我們也不會找一個由X計算Y或由Y計算X的公式，因為一般情況下這兩個數(shù)總是同時觀測到的。此例表明，相關(guān)系數(shù)可以刻畫兩個量之間的線性關(guān)系的強弱，但是為什么有這種關(guān)系，則不是統(tǒng)計學可以解決的問題。注：上面用到的Z，只有當樣本容量n較大時才近似服從標準正態(tài)分布。一般當時我們用它。當時，統(tǒng)計學家建議用用如下的HYPERLINKHotelling統(tǒng)計量代替Z：其中。在進行區(qū)間估計時，其中的換成即可。它還是近似服從標準正態(tài)分布。HYPERLINK\l"目錄"例14、

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

概率統(tǒng)計建模講義

文檔簡介

溫馨提示

最新文檔

評論

概率統(tǒng)計建模講義

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔