MATLAB在統(tǒng)計(jì)模型中的應(yīng)用_第1頁
MATLAB在統(tǒng)計(jì)模型中的應(yīng)用_第2頁
MATLAB在統(tǒng)計(jì)模型中的應(yīng)用_第3頁
MATLAB在統(tǒng)計(jì)模型中的應(yīng)用_第4頁
MATLAB在統(tǒng)計(jì)模型中的應(yīng)用_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 MATLAB在統(tǒng)計(jì)模型中的應(yīng)用摘要我們知道MATLAB具有強(qiáng)大的圖形處理功能,它本身帶有許多繪圖的庫函數(shù),可以很輕松地畫出各種復(fù)雜的二維和多維圖形,這使得MATLAB成為是技術(shù)數(shù)據(jù)可視化的杰出代表,也使得其成為應(yīng)用統(tǒng)計(jì)的重要工具。MATLAB在統(tǒng)計(jì)模型中的作用主要體現(xiàn)在其在應(yīng)用統(tǒng)計(jì)中歸納了較為簡潔的方法,這里我們主要介紹MATLAB在概率統(tǒng)計(jì)中的一些應(yīng)用。關(guān)鍵詞:MATLAB;數(shù)理統(tǒng)計(jì);概率ApplicationofMATLABinthestatisticalmodelABSTRACTWeknowthatMATLABhasapowerfulgraphicscap

2、abilities,libraryfunctionitselfwithmanydrawing,caneasilydrawavarietyofcomplextwo-dimensionalandmulti-dimensionalpattern,whichmakestheMATLABbecomeistheoutstandingrepresentativeoftechnologyofdatavisualization,alsomakeitbecomeanimportanttoolinappliedstatistics.TheroleofMATLABinthestatisticalmodelismain

3、lyreflectedintheinductionmethodissimpleanditsapplicationinstatistics,hereweintroducesomeapplicationsofMATLABintheprobabilitystatistics.Keywords:MATLAB,;mathematicalstatistics,;probability目錄1MATLAB的簡介.42MATLAB與統(tǒng)計(jì)模型.5統(tǒng)計(jì)模型的理論5什么是統(tǒng)計(jì)模型.5異常值.9統(tǒng)計(jì)模型的實(shí)踐.10TOC o 1-5 h z HYPERLINK l bookmark18 2.2.1統(tǒng)計(jì)相關(guān)建模的目的和步

4、驟102.2.2數(shù)據(jù)的預(yù)處理.11 HYPERLINK l bookmark24 2.3MATLAB在統(tǒng)計(jì)模型中的應(yīng)用142.3.1MATLAB與數(shù)據(jù)可視化142.3.2MATLAB在統(tǒng)計(jì)模型中的應(yīng)用183結(jié)論22 HYPERLINK l bookmark42 課題提出的目的22 HYPERLINK l bookmark44 研究中得出的結(jié)果22參考文獻(xiàn).24附錄25附錄A25附錄B27MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 1MATLAB的簡介MATLAB是一種功能十分強(qiáng)大,運(yùn)算效率很高的數(shù)學(xué)工具軟件。全稱是MatrixLaboratory,起初它是一種專門用于矩陣運(yùn)算

5、的軟件,經(jīng)過多年的發(fā)展,MATLAB已經(jīng)發(fā)展成為一種功能全面的軟件,幾乎可以解決科學(xué)計(jì)算中的任何問題1。MATLAB是當(dāng)前最優(yōu)秀的科學(xué)計(jì)算軟件之一,也是科學(xué)領(lǐng)域中分析、應(yīng)用和開發(fā)的基本工具。MATLAB編寫簡單、代碼效率高等優(yōu)點(diǎn)使得MATLAB在通信、信號處理、金融計(jì)算等領(lǐng)域都已經(jīng)被廣泛應(yīng)用。在MATLAB環(huán)境下,用戶可以集成程序設(shè)計(jì)、數(shù)值計(jì)算、圖形繪制、輸入輸出、文件管理等多項(xiàng)操作。MATLAB已成為多學(xué)科、多種工作平臺的功能強(qiáng)大、界面友好、語言自然并且開放性的大型應(yīng)用軟件。MATLAB的主要特點(diǎn)是:(1)有高性能數(shù)值計(jì)算的高級算法,特別適合矩陣代數(shù)領(lǐng)域;(2)有大量事先定義的數(shù)學(xué)領(lǐng)域,并且

6、有很強(qiáng)的用戶自定義函數(shù)的能力;(3)有強(qiáng)大的繪圖功能以及具有教育、科學(xué)和藝術(shù)學(xué)的圖解和可視化的二維、三維圖;(4)基于HTML的完整的幫助功能;(5)適合個(gè)人應(yīng)用的強(qiáng)有力的面向矩陣(向量)的高級程序設(shè)計(jì)語言;(6)與其他語言編寫的程序結(jié)合和輸入輸出格式化數(shù)據(jù)的能力;(7)有在多個(gè)應(yīng)用領(lǐng)域解決難題的工具箱。2MATLAB與統(tǒng)計(jì)模型統(tǒng)計(jì)模型診斷是20世紀(jì)70年代中期發(fā)展起來的統(tǒng)計(jì)學(xué)領(lǐng)域一個(gè)新的研究方向,其主要目的是評價(jià)統(tǒng)計(jì)模型的適當(dāng)性以及識別數(shù)據(jù)中可能存在的異常值和強(qiáng)影響點(diǎn)。在模型適當(dāng)性的評價(jià)方面,線性模型中目前主要采用殘差分析來判斷模型擬合的好壞。而我們可以利用MATLAB來做到這一點(diǎn)。2.1統(tǒng)

7、計(jì)模型的理論2.1.1什么是統(tǒng)計(jì)模型在統(tǒng)計(jì)上,調(diào)查和試驗(yàn)數(shù)據(jù)可以看作是地理過程的隨機(jī)表現(xiàn),具有隨機(jī)過程的性質(zhì)。概率論是隨機(jī)過程的基礎(chǔ),大數(shù)定律是使用統(tǒng)計(jì)學(xué)方法研究隨機(jī)過程的基本依據(jù)。在統(tǒng)計(jì)研究中,一般假定研究對象的數(shù)據(jù)分布類型為正態(tài)分布。對于非正態(tài)分布的數(shù)據(jù),需要轉(zhuǎn)換為正態(tài)分布后才能進(jìn)行統(tǒng)計(jì)分析,否則,要選擇與數(shù)據(jù)分布類型相一致的分析方法。分析單個(gè)變量或兩組變量之間的關(guān)系,使用相關(guān)分析方法;分析變量組合所表現(xiàn)出來的相關(guān)關(guān)系,使用因子分析方法。通過相關(guān)分析和因子分析建立成因過程與地理現(xiàn)象的聯(lián)系,為科學(xué)的理論提供基礎(chǔ)。在相關(guān)分析的基礎(chǔ)上,利用變量之間的關(guān)系通過回歸分析對具有相同分布的新數(shù)據(jù)進(jìn)行預(yù)測

8、?,F(xiàn)代科學(xué)研究中包含三個(gè)要素:理論、觀察和統(tǒng)計(jì)??茖W(xué)理論關(guān)系到科學(xué)的邏輯方面,它是在基本原理的指導(dǎo)下,根據(jù)已經(jīng)掌握的事實(shí),經(jīng)過一系列的思維過程,形成對未知現(xiàn)象的內(nèi)在規(guī)律的猜想,這個(gè)過程稱為科學(xué)假說。在科學(xué)發(fā)展過程中,假說是理論發(fā)展的重要途徑之一。假說是理論形成的初級階段,隨著假說的科學(xué)性得到驗(yàn)證和證明,假說可以轉(zhuǎn)化成理論。觀察是為研究取得客觀實(shí)際材料的過程,它和研究方法直接聯(lián)系。這里所說的觀察是廣義的觀察,包括應(yīng)用實(shí)驗(yàn)方法、調(diào)查方法、實(shí)地研究方法等。這些方法應(yīng)該在方法論的指導(dǎo)下得到正確的應(yīng)用。首先,研究目的要明確,要清楚地認(rèn)識到所進(jìn)行的研究是描述型、解釋型、還是探索型的。其次,還要明確研究總體

9、和分析單位。然后,根據(jù)研究的目的和研究的對象選擇觀察的方法。統(tǒng)計(jì)除了可用于觀察數(shù)據(jù)匯總和統(tǒng)計(jì)描述外,還可以對多變量之間的關(guān)系進(jìn)行定量描述,可以用來把實(shí)際觀察資料與理論假說的推論聯(lián)系起來對假說進(jìn)行檢驗(yàn)。從研究過程看,理論、觀察和統(tǒng)計(jì)三個(gè)要素是密切聯(lián)系,相互制約的。將它們統(tǒng)一在一個(gè)完整的研究設(shè)計(jì)方案中加以實(shí)施,是推進(jìn)對現(xiàn)象認(rèn)識的最佳途徑。統(tǒng)計(jì)的應(yīng)用不僅需要專業(yè)理論的指導(dǎo),也需要方法論的指導(dǎo)。忽視這兩個(gè)方面,便極易導(dǎo)致研究結(jié)論中的謬誤。一般而言,統(tǒng)計(jì)方法指對數(shù)據(jù)的收集、顯示、分析的方法,這種方法可以作為地理、生物等研究的基礎(chǔ)。統(tǒng)計(jì)分析可以分為兩部分。描述統(tǒng)計(jì)學(xué)(Descriptivestatisti

10、cs)和推斷統(tǒng)計(jì)學(xué)(InferentialStatistics)。描述統(tǒng)計(jì)學(xué)主要處理數(shù)據(jù)的組織和匯總,其目的是用較少的匯總性的測度代替大量的數(shù)據(jù)。其關(guān)鍵是針對不同的問題采用合適的統(tǒng)計(jì)測度,以避免采用不合適的統(tǒng)計(jì)測度所帶來的后果。推斷統(tǒng)計(jì)學(xué)主要與概率理論相聯(lián)系,它是為了能夠?qū)⑸贁?shù)個(gè)體的研究結(jié)果推廣應(yīng)用到更大群體中的方法。這一推廣應(yīng)用的過程與以下幾個(gè)概念密切相關(guān),這些概念之間的關(guān)系如圖2.1.1所示。 #圖2.1.1統(tǒng)計(jì)分析中各個(gè)概念的關(guān)系1總體總體是研究對象中所有要素的集合??傮w可分為有限總體和無限總體。統(tǒng)計(jì)分析要考慮有限的和無限的總體。2總體特征總體特征是指總體中任一要素的可測屬性??傮w特征的

11、取值隨總體包括的要素不同而變化,所以常用變量來表征總體特征??傮w特征的值是變化的,需要關(guān)注其隨時(shí)間的變化過程。3變量變量是能夠取不同值的要素的總體特征。對于總體而言,可以從兩個(gè)方面來收集信息。一是確定總體中每個(gè)感興趣要素的變量值,這就是通常說的總體普查(總體枚舉)方法。很清楚,這只能用于總體有限的情況。另一方面是確定總體中有限個(gè)體子集的變量值,這就是采樣的方法,它用于總體無限的情況,在實(shí)踐中更為重要。4總體普查MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 總體普查是指總體中所有要素的相關(guān)總體特征的完全列表。5樣本樣本是總體中要素的子集,用來推斷總體的某些特征。6采樣誤差采樣誤差

12、是總體特征值與由樣本得到的總體特征值之間的差異。7非采樣誤差非采樣誤差是數(shù)據(jù)在采集、記錄、編輯等過程中產(chǎn)生的誤差。連接樣本和總體的是概率論??傮w的推斷基于樣本的信息,推斷的質(zhì)量取決于樣本對總體的反映程度。由于缺少總體普查,通常不是使用代表性樣本,而是使用隨機(jī)樣本進(jìn)行分析。樣本量越大,越可獲得無偏估計(jì)量。統(tǒng)計(jì)推斷的過程如圖4.2所示。在采樣過程中,選擇的是總體的成員。這些成員構(gòu)成了樣本。從該樣本中,可以作出關(guān)于總體的推斷。采樣是從總體中得到樣本,統(tǒng)計(jì)推斷則從樣本回到總體。圖4.2總體與樣本關(guān)系統(tǒng)計(jì)推斷的目標(biāo)是基于樣本的信息提供總體的特征。有兩種方式進(jìn)行這種推斷。一類是估計(jì),另一類是假設(shè)檢驗(yàn)。8估

13、計(jì)估計(jì)是利用樣本信息推測未知的總體特征的值。9假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)是判斷樣本數(shù)據(jù)是否支持假設(shè)的某些總體特征的特定值。在假設(shè)檢驗(yàn)中,先假設(shè)某些總體特征的值,然后判斷樣本數(shù)據(jù)對該假設(shè)值的支持程度。在進(jìn)行實(shí)際的工作之間,對于變量和樣本,我們需要考慮如下的問題。(1)變量1)變量足夠嗎?2)變量之間有關(guān)系嗎?如果有,那么關(guān)系的形式和強(qiáng)度如何,怎么獲取和表述?3)如果我們希望變量之間無關(guān),怎么進(jìn)行變換?變換的有效性如何?4)變量的分布符合正態(tài)嗎?能夠使用經(jīng)典的統(tǒng)計(jì)學(xué)方法處理嗎?5)不同測量尺度的變量怎么進(jìn)行混合處理?哪些方法合適呢?(2)樣本1)樣本足夠嗎?2)如果樣本太多,怎么選擇合適的樣本和數(shù)量?3)如

14、果樣本太少,怎么補(bǔ)充樣本?4)如果某變量有樣本缺失,怎么進(jìn)行處理?2.1.2異常值異常值的識別主要在一定的異常模型假設(shè)下進(jìn)行統(tǒng)計(jì)檢驗(yàn)。而影響點(diǎn)的識別主要是研究數(shù)據(jù)點(diǎn)f或數(shù)據(jù)集)對我們關(guān)注的某個(gè)內(nèi)容的影響程度并識別數(shù)據(jù)中的特殊結(jié)構(gòu),這項(xiàng)工作也稱之為影響分析。統(tǒng)計(jì)模型診斷可以為統(tǒng)計(jì)模型的改進(jìn)提供重要的參考信息。在某些領(lǐng)域中,異常值及影響點(diǎn)還可以為我們提供某些特殊信息:如在地質(zhì)找礦中,異常值及影響點(diǎn)可能對應(yīng)著礦產(chǎn)資源富集信息;而在經(jīng)濟(jì)領(lǐng)域,異常的出現(xiàn)還可能是某種預(yù)警信息的表現(xiàn)。異常值對我們現(xiàn)代人來說并不陌生,人們甚至不自覺地會采用一些手段來處理現(xiàn)實(shí)生活中出現(xiàn)的異常現(xiàn)象。最典型的就是在體育比賽中對裁判

15、打分的平均算法一一去掉一個(gè)最高分和最低分,再作平均。人們對異常值的認(rèn)識可以追溯到16世紀(jì),Bernoulli提到:“在200多年前,人們丟掉異常值的處理方法已經(jīng)是常見的現(xiàn)象。”處理和識別異常值的統(tǒng)計(jì)方法可追溯到1850年。雖然異常值的識別和處理方法在現(xiàn)代已經(jīng)發(fā)展很快,但是對異常值的定義依然有不同的理解和爭論。例如Edgeworth(1887)認(rèn)為:不一致觀測值(discordantobservation)可以定義為那些與所在樣本中其他數(shù)據(jù)點(diǎn)遵從的頻率規(guī)則flawoffrequency)不一致的觀測值。82年后,Grubbs(1969)又這樣表述:MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)

16、模型中的應(yīng)用 龍?zhí)嶯殳#一個(gè)異常的觀測值,即異常值,是嚴(yán)重偏離所在樣本其他數(shù)據(jù)點(diǎn)的觀測值。這些表述實(shí)質(zhì)上認(rèn)為異常值是有目的的、后驗(yàn)的.這種有目的性的識別異常值的方法,一般只能在數(shù)據(jù)中的異常值可以預(yù)先通過視覺觀察時(shí)才能使用(在一元小樣本中較多)。事實(shí)上,對樣本量較大或較為復(fù)雜的數(shù)據(jù)集,比如回歸、多元數(shù)據(jù)、試驗(yàn)設(shè)計(jì)等,預(yù)先觀察到異常值是很困難的.因此,就有在觀察到異常值之前制定一種客觀的準(zhǔn)則,這種準(zhǔn)則大多依賴于異常值模型(outliermodel)。由于近幾年來強(qiáng)調(diào)統(tǒng)計(jì)建模的重要性,許多研究者認(rèn)為異常值是那些來自于非目標(biāo)總體(某種統(tǒng)計(jì)模型)的觀察值.Hawkins(1980)給出了一種比較明確的定

17、義:異常值是指污染的觀測值或不一致觀測值的總稱。不一致觀測值是指那些讓調(diào)查者感到吃驚或有較大偏差的數(shù)據(jù)點(diǎn)。而污染的觀測值是指來自非目標(biāo)總體的觀測值。2.2統(tǒng)計(jì)模型的實(shí)踐統(tǒng)計(jì)相關(guān)建模的目的和步驟2.2.1.1統(tǒng)計(jì)相關(guān)建模目的1變量間相關(guān)性研究人們對變量間關(guān)系的本質(zhì)感興趣,并試圖通過這種聯(lián)系建立對事物總體的認(rèn)識。是否所有變量都相互獨(dú)立?還是一個(gè)變量或多個(gè)變量依賴于其他變量?如果是后者,這些變量之間的關(guān)系如何?相關(guān)分析就是分析這類問題的。2形成科學(xué)的成因假設(shè)根據(jù)變量之間的關(guān)系建立成因過程與現(xiàn)象的聯(lián)系,解釋所發(fā)生的地理現(xiàn)象。因子分析就是可用的方法之一。3預(yù)測為了根據(jù)某些變量的觀測值預(yù)測另一個(gè)或另一些變

18、量的值,必須建立各個(gè)變量之間的聯(lián)系?;貧w分析就是可用的方法之一。4數(shù)據(jù)簡化或結(jié)構(gòu)簡化在不損失有價(jià)值信息的情況下盡可能簡單地將被研究的現(xiàn)象描述出來,希望這樣能使解釋變得更容易些。因子分析同時(shí)也具有這樣的-功能。建模步驟統(tǒng)計(jì)相關(guān)模型建立在觀察或搜集到的數(shù)據(jù)基礎(chǔ)之上。建模主要有下面5個(gè)步驟。1數(shù)據(jù)整理整理調(diào)查數(shù)據(jù),按照變量的性質(zhì)和測量尺度進(jìn)行歸類,形成規(guī)則表格并錄入計(jì)算機(jī)。在這項(xiàng)工作中,要注意以下幾點(diǎn):1)變量命名是否規(guī)范2)明確變量的測量尺度和數(shù)據(jù)類型3)檢查樣本4)數(shù)據(jù)錄入5)填寫說明日志2數(shù)據(jù)預(yù)處理根據(jù)研究目的和使用的方法,對數(shù)據(jù)進(jìn)行預(yù)處理,包括分析數(shù)據(jù)的統(tǒng)計(jì)特征檢查數(shù)據(jù)分布、進(jìn)行數(shù)據(jù)變換三方

19、面的內(nèi)容。對于統(tǒng)計(jì)相關(guān)模型而言,本步重點(diǎn)要考察數(shù)據(jù)分布是否為正態(tài)分布,如果不是,則要進(jìn)行轉(zhuǎn)換。3模型計(jì)算選擇模型和模型參數(shù),運(yùn)行求解。模型計(jì)算的結(jié)果可以是數(shù)字、表格或圖形當(dāng)前,模型求解的工作由計(jì)算機(jī)來完成,關(guān)鍵是參數(shù)的選擇。4模型檢驗(yàn)對模型進(jìn)行檢驗(yàn),包括模型是否滿足假設(shè)的要求,是否具有簡約性,模型的結(jié)果是否合理,誤差分布如何等。5模型解釋和應(yīng)用根據(jù)建立的模型對研究問題進(jìn)行解釋、預(yù)測等。工作的質(zhì)量主要取決于建模人員的專業(yè)素質(zhì)。數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理主要是確定數(shù)據(jù)的分布類型和統(tǒng)計(jì)特征,并根據(jù)分析模型的需要進(jìn)行數(shù)據(jù)變換描述單個(gè)變量的統(tǒng)計(jì)特征,又稱為描述性統(tǒng)計(jì)(Descriptivestatisti

20、cs)或數(shù)據(jù)特征統(tǒng)計(jì)量。平均特征描述反映數(shù)據(jù)分布的位置,常用的概念有:期望(ExpectedValue),均值(Mean),眾數(shù)(Mode),中位數(shù)(Median),四分位數(shù)(Quartiles)。1期望和均值在統(tǒng)計(jì)分布研究中經(jīng)常使用期望的概念,在數(shù)據(jù)處理中常用均值概念。對于任意的一個(gè)數(shù)列或變量X,其均值為:i-1其中,n是樣本的個(gè)數(shù)(或數(shù)列的長度)。在統(tǒng)計(jì)學(xué)中,均值也常用“表示。對于正態(tài)分布的數(shù)據(jù),均值很好地表述了數(shù)據(jù)的分布位置。2中位數(shù)中位數(shù):將觀察值按照由小到大的順序排列后,位于中間位置的數(shù)稱為中位數(shù)。如果序列的長度n為偶數(shù),中位數(shù)為:X,另外,在工作中經(jīng)常用的還有四分位數(shù),包括上四分位

21、數(shù)和下四分位數(shù)(Upper&Lowerquartiles)。上四分位數(shù)指的是75%樣本數(shù)對應(yīng)的值,下四分位數(shù)指的是25%樣本數(shù)對應(yīng)的值。假設(shè)有100個(gè)樣本,按照由小到大的順序排列后,最小的為1,上四分位數(shù)是第75個(gè)記錄對應(yīng)的值,下四分位數(shù)是第25個(gè)記錄對應(yīng)的值,中位數(shù)則是第50、51個(gè)記錄對應(yīng)值的平均。3眾數(shù)在指定的變量(數(shù)列,觀察序列)中出現(xiàn)次數(shù)最多的數(shù)(頻數(shù)最高的數(shù))。如果不統(tǒng)計(jì)數(shù)據(jù)的頻數(shù),也可以利用中位數(shù)來計(jì)算:介數(shù)=戈-3返-中位數(shù))在應(yīng)用中,如果數(shù)據(jù)的變化范圍不大,應(yīng)用均值較好,否則,應(yīng)該使用中位數(shù)。眾數(shù)用于觀察數(shù)據(jù)的極值不確定的情況下。如果要進(jìn)行統(tǒng)計(jì)分析,經(jīng)常使用的是均值。如果數(shù)據(jù)

22、存在異常分布,則需對異常值分析處理后再進(jìn)行統(tǒng)計(jì)分析。如果工作的目的在于精確的描述數(shù)據(jù)的平均特征,那么,則需要針對不同的情況使用這些概念。在有些情況下,還要進(jìn)行穩(wěn)健分析,即分析在較穩(wěn)定的條件下數(shù)據(jù)的平均特征。變化特征描述反映數(shù)據(jù)的離散程度或變化尺度。常用的有離差,方差,標(biāo)準(zhǔn)差,變異系數(shù)。1離差離差有幾種描述形式。極差:最大值與最小值的差。偏差:數(shù)據(jù)序列中各個(gè)數(shù)據(jù)與其均值的差。離差平方和:數(shù)據(jù)序列中各個(gè)數(shù)據(jù)與其均值的差的平方在加和,即另(兀-酊或揮爲(wèi)尸2方差、標(biāo)準(zhǔn)差方差(Variance)是變量的離差平方和除以樣本數(shù)。”i-i標(biāo)準(zhǔn)差(StandardDeviation)是方差的平方根。在統(tǒng)計(jì)學(xué)中,

23、標(biāo)準(zhǔn)差常用o表示。3變異系數(shù)變異系數(shù)又稱離差系數(shù),指標(biāo)準(zhǔn)差與均值的比值。變異系數(shù)越大,數(shù)據(jù)離散程度越高。分布特征描述用來反映數(shù)據(jù)的分布形狀,即數(shù)據(jù)偏離正態(tài)分布的程度。常用的有:峰度(Kurtosis),偏度(Skewness)。正態(tài)分布是對稱的,所以其偏度為0,峰度為0。不同的文獻(xiàn)中,給出的偏度和峰度的公式不同。這里使用的是StatSfot公司的產(chǎn)品Statistica中的定義。MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 其中,偏度大于0為正偏(平均值在正態(tài)分布峰值的右邊),小于0為負(fù)偏(平均值在正態(tài)分布峰值的左邊),0則表示分布是對稱的。如果偏度顯著的不為0,那么,分布就是

24、不對稱的。峰度大于0表示數(shù)據(jù)的分布比正態(tài)分布更為集中,小于0則更為分散。在使用基于正態(tài)分布假設(shè)的統(tǒng)計(jì)方法以前,計(jì)算這兩個(gè)參數(shù)是很有必要的。如果偏度遠(yuǎn)偏于0或峰度遠(yuǎn)偏于0,那么,數(shù)據(jù)為非正態(tài)分布,需要進(jìn)行變換(參數(shù)據(jù)變換一節(jié))。2.3MATLAB在統(tǒng)計(jì)模型中的應(yīng)用2.3.1MATLAB與數(shù)據(jù)可視化圖形可以直觀明了的顯示數(shù)據(jù),使用戶能夠更加直接、清楚的了解數(shù)據(jù)的屬性。因此,在科學(xué)研究和工程實(shí)踐中,經(jīng)常需要將數(shù)據(jù)可視化。MATLAB的繪圖功能滿足了用戶的圖形需要。MATLAB中包含了大量的繪圖函數(shù),使用戶可以輕松實(shí)現(xiàn)數(shù)據(jù)的可視化2。MATLAB的圖形功能在直角坐標(biāo)系中或極坐標(biāo)系中繪制基本圖像;繪制特

25、殊圖像,如條形圖、柱狀圖、輪廓線和表面網(wǎng)格圖等。我們知道MATLAB具有強(qiáng)大的圖形處理功能,它本身帶有許多繪圖的庫函數(shù),可以很輕松地畫出各種復(fù)雜的二維和多維圖形,這使得MATLAB成為是技術(shù)數(shù)據(jù)可視化的杰出代表。MATLAB在數(shù)據(jù)可視化中的運(yùn)用主要體現(xiàn)在數(shù)據(jù)的二維曲線,三維曲線和曲面,四維切片圖等方面,它為科研和教研中數(shù)據(jù)的表現(xiàn)提供了強(qiáng)有力的工具。2.3.1.1二維圖形(1)polt函數(shù)polt函數(shù)用來繪制線形圖形,其使用格式如下:polt(Y)命令依據(jù)Y每列的標(biāo)志繪制出的Y每一列。如果Y屬于復(fù)平面,那么polt(Y)等價(jià)與polt(real(Y),imag(Y),即以real(Y)為橫坐標(biāo),

26、以imag(Y)為縱坐標(biāo)來繪制二維圖形。當(dāng)輸入量多與一個(gè)時(shí),變量虛部將會被忽略。polt(X,Y)命令繪制向量Y相對向量X的圖形。如果X或者Y為矩陣的形式,那么繪制的向量則對應(yīng)于矩陣中的行或列;如果X是一標(biāo)量二Y為一向量,那么length(Y)形成不連續(xù)的點(diǎn)將被MATLAB繪制出來。polt(X,Y,S)命令可以用來繪制不同線性、標(biāo)識和顏色的圖形,其中S為一個(gè)字符串。如:polt(X,Y,c+:)所繪制的曲線在每一個(gè)數(shù)據(jù)點(diǎn)都由“+”組成。而polt(X,Y,bd)所繪制的曲線在每個(gè)數(shù)據(jù)點(diǎn)都由藍(lán)色的菱形組成,并且在這些點(diǎn)之間沒有線連接。polt(X1,Y1,S1,X1,Y2,S2,X3,Y3,S

27、3,)命令可以將多個(gè)圖形放置在一個(gè)圖形框里,其中Xs和Ys為向量或矩陣,是S”s為字符串。(2)bar函數(shù)bar(X,Y)命令可以繪制矩陣Y(mxn)各列的垂直條形圖。值得注意的是向量X必須單調(diào)遞增或單調(diào)遞減。bar(Y)命令可以依據(jù)X的默認(rèn)值為X=1:M,對于輸入的向量,bar(X,Y)或bar(Y)繪制length(Y)的條形圖。bar(X,Y,WIDTH)或者bar(Y,WIDTH)可以制定條形的寬度。如果WIDTH1,將產(chǎn)生重疊的條形圖,WIDTH的值默認(rèn)為0.8。(3)pie函數(shù):用于繪制餅形圖。在MATLAB中,提供了豐富的個(gè)性化繪圖工具。用戶在繪制圖形時(shí),可以MATLAB在統(tǒng)計(jì)模

28、型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 定義自己喜歡的曲線色彩、線型和數(shù)據(jù)點(diǎn)型,這里對這些操作做簡要介紹。表2.3.1.1曲線的色彩、線型和數(shù)據(jù)點(diǎn)型參數(shù)定義顏色符號含義數(shù)據(jù)點(diǎn)型含義線型含義b藍(lán)色占八、-實(shí)線g綠色xX符號:點(diǎn)線r紅色+號-.點(diǎn)劃線c藍(lán)綠色h六角星形-虛線m紫紅色*星號y黃色s方形k黑色d菱形v下三角A上三角右三角p正五邊形2.3.1.2三維維圖形的繪制一)三維線圖指令plot3plot3函數(shù)用來繪制三維曲線圖形plot3(X,Y,Z),其中X,Y,Z為向量或矩陣。當(dāng)X,Y,Z為長度相同的向量時(shí),該命令將繪制一條分別以向量X,Y,Z為x,y,z坐標(biāo)的空間曲線;當(dāng)X,Y,Z為mX

29、n矩陣時(shí),該命令以每個(gè)矩陣對應(yīng)列為x,y,z坐標(biāo)繪制出m條空間曲線;plot3(X1,Y1,Z1,LineSpec),通過LineSpec指定曲線和點(diǎn)的屬性;plot3(,PropertyName,PropertyValue,),利用指定的屬性繪制圖形;h=plot3(),繪制圖形并返回圖形句柄,h為一個(gè)列向量,每個(gè)元素對應(yīng)圖形中每個(gè)對象的句柄。二)三維網(wǎng)線圖和曲面圖Matlab提供了mesh函數(shù)和surf函數(shù)來繪制三維曲面圖。mesh函數(shù)用來繪制三維網(wǎng)格圖,而surf用來繪制三維曲面圖,各線條之間的補(bǔ)面用顏色填充。1)mesh函數(shù)mesh(X,Y,Z,C)命令通過4個(gè)矩陣參數(shù)繪制彩色的三維網(wǎng)

30、格圖形。其中,圖形的視口有vew函數(shù)定義;圖形的各軸范圍由X、Y和Z或者通過當(dāng)前的axis函數(shù)值定義;圖形顏色范圍由C或者當(dāng)前的CAXIS值定義。mesh(X,Y,Z)命令使用C=Z,因此圖形的顏色隨高度按比例變化。mesh(Z)命令和mesh(Z,C)命令默認(rèn)為x=1:n和y=1:m.在這種情況下,高度Z是一個(gè)單值函數(shù)。2)surf函數(shù)3surf是通過矩形區(qū)域來觀測數(shù)學(xué)函數(shù)的函數(shù)。surf和surfc能夠產(chǎn)生由X、Y、Z指定的有色參數(shù)化曲面,即三維有色圖。當(dāng)x=l:n、y=l:m,并且m,n二size(Z)時(shí),surf(Z)會產(chǎn)生一個(gè)矩陣Z的z部分的三維遮罩層,這里Z是一個(gè)定義在幾何矩形網(wǎng)格

31、內(nèi)的單值函數(shù)。surf(X,Y,Z)同樣產(chǎn)生矩陣Z的有色遮罩層,XY可以是有xy定義的向量或矩陣surf(X,Y,Z,C)是產(chǎn)生一個(gè)由C定義顏色的矩陣Z的有色遮罩層。2.3.2MATLAB在統(tǒng)計(jì)模型中的應(yīng)用在MATLAB中列舉了多種常見的概率分布,給出了這些概率分布的分布密度函數(shù)、分布函數(shù)、逆分布函數(shù)、隨機(jī)數(shù)發(fā)生函數(shù)等等,在這一節(jié)中,主要研究的是常見概率分布的數(shù)字特征(數(shù)學(xué)期望,方差,協(xié)方差以及相關(guān)系數(shù))和一些概率的計(jì)算MATLAB中列舉的離散型隨機(jī)變量包括:離散均勻分布、二項(xiàng)分布、泊松分布、幾何分布、超幾何分布、負(fù)二項(xiàng)分布(Pascal分布):連續(xù)型隨機(jī)變量包括:連續(xù)均勻分布、指數(shù)分布、正態(tài)

32、分布、對數(shù)正態(tài)分布、2分布、非中心2分布、t分布、非中心t分布、FxX分布、非中心F分布、P分布、Y分布、Rayleigh分布、Weibull分布。這里有幾個(gè)例子可以參考:例1:設(shè)XN(3,1.52)(1)求X的密度函數(shù)在x=2是的值(2)求Px1,P1x2解:(1)p=normpdf(2,3,1.5)p=0.2130所以X的密度函數(shù)在x=2是的值是0.2130(2)令p1=Pxp1=normcdf(1,3,1.5)結(jié)果:p1=0.0912令p2=P1xp=normcdf(1,3,1.5);q=normcdf(3,3,1.5);MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 p2

33、=q-p結(jié)果:p2=0.4088方法二:p2=normspec(1,3,3,1.5)結(jié)果:p2=0.40879CriticalValue即臨界值Density即密度圖中藍(lán)色部分表示隨機(jī)變量XN(3,1.52),變量X在1.5,3的概率為0.48079由藍(lán)色曲線與橫軸圍成的部分的概率為1令p3=Px42,因此p3=1Px4W2=1P2WxW6p3=1-normcdf(6,3,1.5)+normcdf(2,3,1.5)結(jié)果:p3=0.2752或者p3=1-normspec(2,6,3,1.5)結(jié)果:p3=0.2752例2:生產(chǎn)某種產(chǎn)品的廢品率為0.1,抽取20件產(chǎn)品,初步檢查已發(fā)現(xiàn)有2件廢品,問這

34、20件中,廢品不少于3件的概率。4解:設(shè)抽取20件產(chǎn)品中廢品的個(gè)數(shù)為g,則gB(20,0.1),由于初步檢查已發(fā)現(xiàn)有2件廢品,說明已知20件產(chǎn)品中廢品數(shù)g$2,因此是求在給定g$2的條件概率于是Pg$3|g$2=Pg$3,g$2FPg$2=Pg$3FPg$2令P=Pg$3|g$2p=(1-binocdf(3,20,0.1)/(1-binocdf(2,20,0.1)結(jié)果:p=0.4115例3:某人進(jìn)行射擊試驗(yàn),假定在300米處向目標(biāo)射擊的命中率為0.02,現(xiàn)獨(dú)立射擊500次,問至少命中3發(fā)的概率是多少?4解:將每次射擊視為一次試驗(yàn)E,500次射擊相當(dāng)于作500重Bernouli試驗(yàn)E500.用g

35、表示E500擊中目標(biāo)的次數(shù),依題意,g服從參數(shù)為n=500,p=0.02的二項(xiàng)分布b(x,500,0.02),于是,所求概率為P(g$3)=1-P(gW2)=lP(g=0)-P(g=1)-P(g=2)由于n足夠大,p足夠小,所以可以用泊松分布近似,p=0.02,n=500,入=np=10在matlab中的實(shí)現(xiàn)程序?yàn)椋簆=l-poisspdf(0,10)-poisspdf(l,10)-poisspdf(2,10)結(jié)果:p=0.9972所以P(g$3)0.9972例4:修理某機(jī)器所需時(shí)間(單位:小時(shí))服從參數(shù)入=0.5指數(shù)分布,試求修理時(shí)間超過2小時(shí)的概率是多少?若已經(jīng)持續(xù)修理了9小時(shí),問還需要至

36、少一小時(shí)才能修好的概率是多少?4解:(1)表示修理時(shí)間g,g服從參數(shù)入=0.5指數(shù)分布,實(shí)際是求pg2=1PgW2程序如下:p=1-expcdf(2,0.5)結(jié)果:p=0.0183(3)由指數(shù)分布的無記憶性可知P(g1+9|g9)=P(g1)=1P(gW1)程序如下:p=1-expcdf(1,0.5)結(jié)果:p=0.1353例5:設(shè)隨機(jī)變量服從U0,5上均勻分布,問方程4x2+4gx+g+2=0,有兩個(gè)不同的實(shí)數(shù)根的概率是多少?解:4x2+4gx+g+2=0,有兩個(gè)不同的實(shí)數(shù)根,則=16g2-16(g+2)0,則g一1或g2MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 # P(有

37、兩個(gè)不同的實(shí)數(shù)根)=p(g2)=l+p(gp=l+unifcdf(T,0,5)-unifcdf(2,0,5)結(jié)果:p=0.6000所以有兩個(gè)不同實(shí)數(shù)根的概率是0.6例6.某車間用一臺包裝機(jī)包裝葡萄糖,包得的袋裝糖重是一個(gè)隨機(jī)變量,它服從正態(tài)分布。當(dāng)機(jī)器正常時(shí),其均值為0.5公斤,標(biāo)準(zhǔn)差為0.015。某日開工后檢驗(yàn)包裝機(jī)是否正常,隨機(jī)地抽取所包裝的糖9袋,稱得凈重為(公斤)0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512問機(jī)器是否正常?解:總體卩和a已知,該問題是當(dāng)a2為已知時(shí),在水平a=0.05下,根據(jù)樣本值判斷0.5還是卩工0.5。為此

38、提出假設(shè):原假設(shè):H0:戶卩0=0.5備擇假設(shè):H1:卩工0.5X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512;h,sig,ci,zval=ztest(X,0.5,0.015,0.05,0)結(jié)果顯示為:h=1,sig=0.0248ci=0.50140.5210,zval=2.2444結(jié)果表明:h=1,說明在水平a=0.05下,可拒絕原假設(shè),即認(rèn)為包裝機(jī)工作不正常。MATLAB在統(tǒng)計(jì)模型中的應(yīng)用MATLAB在統(tǒng)計(jì)模型中的應(yīng)用 3總結(jié)3.1課題提出的目的MATLAB是由美國mathworks公司發(fā)布的主要面對科學(xué)計(jì)算、可視化以及交互式程

39、序設(shè)計(jì)的高科技計(jì)算環(huán)境。它將數(shù)值分析、矩陣計(jì)算、科學(xué)數(shù)據(jù)可視化以及非線性動態(tài)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一個(gè)易于使用的視窗環(huán)境中,為科學(xué)研究、工程設(shè)計(jì)以及必須進(jìn)行有效數(shù)值計(jì)算的眾多科學(xué)領(lǐng)域提供了一種全面的解決方案,并在很大程度上擺脫了傳統(tǒng)非交互式程序設(shè)計(jì)語言(如C、Fortran)的編輯模式,代表了當(dāng)今國際科學(xué)計(jì)算軟件的先進(jìn)水平。我們研究MATLAB在統(tǒng)計(jì)模型中的應(yīng)用,不僅可以多多的認(rèn)識和理解MATLAB,也可以多熟悉統(tǒng)計(jì)學(xué)的知識。研究中得出的結(jié)論Matlab的優(yōu)勢和特點(diǎn)(1)友好的工作平臺和編程環(huán)境MATLAB由一系列工具組成這些工具方便用戶使用MATLAB的函數(shù)和件其中多工具采用的

40、是圖形用戶界面。包括MATLAB桌面和命令窗口、歷史命令窗口、編輯器和調(diào)試器、路徑搜索和用于用戶瀏覽幫助、工作空間、文件的瀏覽器。隨著MATLAB的商業(yè)化以及軟件本身的不斷升級,MATLAB的用戶界面也越來越精致,更加接近Windows的標(biāo)準(zhǔn)界面,人機(jī)交互性更強(qiáng),操作更簡單。而且新版本的MATLAB提供了完整的聯(lián)機(jī)查詢、幫助系統(tǒng),極大的方便了用戶的使用。簡單的編程環(huán)境提供了比較完備的調(diào)試系統(tǒng),程序不必經(jīng)過編譯就可以直接運(yùn)行,而且能夠及時(shí)地報(bào)告出現(xiàn)的錯(cuò)誤及進(jìn)行出錯(cuò)原因分析。(2)簡單易用的程序語言Matlab個(gè)高級的距陣,陣列語言,它包含控制語句、函數(shù)、數(shù)據(jù)結(jié)構(gòu)、輸入和輸出和面向?qū)ο缶幊烫攸c(diǎn)。用戶可以在命令窗口中將輸入語句與執(zhí)行命令同步,也可以先編寫好一個(gè)較大的復(fù)雜的應(yīng)用程顱文件)后再一起運(yùn)行。新版本的MATLAB語言是基于最為流行的+語言基礎(chǔ)上的,因此語法特征與C+語言極為相似,而且更加簡單,更加符合科技人員對數(shù)學(xué)表達(dá)式的書寫格式。使之更利于非計(jì)算機(jī)專業(yè)的科技人員使用。而且這種語言可移植性好、可拓展性極強(qiáng),這也是MATLAB能夠深入到科學(xué)研究及工程計(jì)算各個(gè)領(lǐng)域重要原因。數(shù)據(jù)是符號的集合。信息是有用的數(shù)據(jù)。信息不等同于知識。信息不能像知識那樣去反映數(shù)據(jù)之間的內(nèi)在聯(lián)系。對于知識,有人主張可分成兩類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論