回歸模型在統(tǒng)計分析中的應(yīng)用_第1頁
回歸模型在統(tǒng)計分析中的應(yīng)用_第2頁
回歸模型在統(tǒng)計分析中的應(yīng)用_第3頁
回歸模型在統(tǒng)計分析中的應(yīng)用_第4頁
回歸模型在統(tǒng)計分析中的應(yīng)用_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 回歸模型在統(tǒng)計分析中的應(yīng)用摘要在人們研究對象的內(nèi)在特性和個因素間的關(guān)系時,通常會建立數(shù)學(xué)模型。在無法分析實際對象內(nèi)在的因果關(guān)系時,往往會基于對數(shù)據(jù)的統(tǒng)計分析去建立模型?;貧w分析作為統(tǒng)計數(shù)據(jù)尋求變量間關(guān)系的近似表達式的一種方法,其廣泛用途使得回歸模型成為了數(shù)據(jù)統(tǒng)計分析中的一種常見模型。本論文分別從數(shù)學(xué)模型,回歸分析,統(tǒng)計分析等的基本概念出發(fā),進一步闡述了數(shù)學(xué)建模的基本方法和一般步驟,回歸分析的基本模型、步驟和分類,以及統(tǒng)計分析的步驟。最后借用MATLAB軟件,以一個關(guān)于人們對某種品牌食品的評價的實例,用合理的步驟詳細描述了在解決回歸模型在統(tǒng)計分析中的應(yīng)用的問題中該如何具體去做。關(guān)鍵詞:數(shù)學(xué)模型

2、;統(tǒng)計分析;回歸分析;回歸模型;MATLAB軟件APPLICATION OF REGRESSION MODEL IN STATISTICAL ANALYSISABSTRACT In the process of researching the relationship between the inner characteristics and factors of the object,people usually build mathematical model. In the case of the inner causality that people can not analyse o

3、f actual object,we often to build model based on statistical analysis of data. As a method for seeking a approximate expressions of the statistical data,the wide applications of regression analysis made regression model become a common model in statistical analysis of data.This paper starts from the

4、 the basic concept such as the mathematical model,regression analysis and statistical analysis.Then further elaborated the basic methods and general steps of mathematical modeling, the basic model, steps and classification of regression analysis, and the steps of statistical analysis. Finally, apply

5、ing MATLAB software,using reasonable steps to describe how to solve the problem that the application of regression models in statistical analysis in detail,by using a example about peoples evaluation towards a certain brand of food.Key words: mathematical model; statistical analysis; regression anal

6、ysis; regression model; MATLAB software226目 錄1 問題的提出12 數(shù)學(xué)模型與數(shù)學(xué)建模22.1 基本概念22.2 數(shù)學(xué)建模的基本方法22.2 數(shù)學(xué)建模的一般步驟23 回歸分析與回歸模型43.1 基本概念43.2 刻畫回歸模型43.3 回歸分析的步驟43.4 回歸分析的分類54 統(tǒng)計分析64.1 基本概念64.2 統(tǒng)計分析的步驟65 一個線性回歸模型實例75.1 問題的提出75.2 分析與假設(shè)75.3 模型建立85.4 模型求解85.5 結(jié)果分析95.5.1 輸出數(shù)據(jù)結(jié)果95.5.2 模型檢驗95.5.3 解決提出的三個問題106 結(jié)論14參考文獻15附

7、錄16261 問題的提出 當人們在研究對象的內(nèi)在特性和各因素間的關(guān)系時,通常會尋求變量間的一個具體表達式,采用機理分析方法建立數(shù)學(xué)模型。而往往由于客觀事物內(nèi)部規(guī)律的復(fù)雜性及人們認識程度的限制,無法分析實際對象內(nèi)在的因果關(guān)系,不能確定一個具體的表達式,于是便建立合乎機理規(guī)律的數(shù)學(xué)模型,去尋求變量間關(guān)系的近似表達式,通常的方法是搜集大量的數(shù)據(jù),基于對數(shù)據(jù)的統(tǒng)計分析去建立模型。而統(tǒng)計回歸模型是用途非常廣泛的一類隨機模型1。2 數(shù)學(xué)模型與數(shù)學(xué)建模2.1 基本概念數(shù)學(xué)模型(Mathematical Model)可以描述為,對于現(xiàn)實世界的一個特定對象,為了一個特定目的,根據(jù)特有的內(nèi)在規(guī)律,做出一些必要的簡

8、化假設(shè),運用適當?shù)臄?shù)學(xué)工具,得到的一個數(shù)學(xué)結(jié)構(gòu)。這里的“特定對象”是為了解決某個實際問題而提出的;“特定目的”是指當研究一個特定對象時要達到的目的,如分析、預(yù)測、控制、決策等;“數(shù)學(xué)結(jié)構(gòu)”可以是數(shù)學(xué)關(guān)系式,也可以是程序、圖、表等。數(shù)學(xué)建模(Mathematical Modeling)則是指建立數(shù)學(xué)模型的全過程1。2.2 數(shù)學(xué)建模的基本方法一般來說,建模方法大體上可分為兩種:機理分析和測試分析。(1) 機理分析:根據(jù)對客觀事物特性的認識,找出反映內(nèi)部機理的數(shù)量規(guī)律,建立的模型常有明確的物理或現(xiàn)實意義。(2) 測試分析:將研究對象看作一個“黑箱”系統(tǒng)(意思是它的內(nèi)部機理看不清楚),通過對系統(tǒng)輸入、

9、輸出數(shù)據(jù)的測量和統(tǒng)計分析,按照一定的準則找出與數(shù)據(jù)擬合得最好的模型1。2.2 數(shù)學(xué)建模的一般步驟(1) 模型準備:了解問題的實際背景,明確建模實際目的和意義,搜集對象必要的信息如現(xiàn)象、數(shù)據(jù)等,盡量弄清對象的主要特征,形成一個比較清晰的“問題”,由此初步確定模型的類型。(2) 模型假設(shè):根據(jù)實際對象的特征和建模的目的,抓住問題的本質(zhì),忽略次要因素,做出必要的、合理的簡化假設(shè)。(3) 模型構(gòu)成:根據(jù)所作的假設(shè),用數(shù)學(xué)的語言、符號描述對象的內(nèi)在規(guī)律,建立包含常量、變量等的數(shù)學(xué)模型,如優(yōu)化模型、微分方程模型、差分方程模型、圖的模型等。(4) 模型求解:利用獲取的數(shù)據(jù)資料,采用解方程、畫圖法、優(yōu)化方法、

10、數(shù)值計算、統(tǒng)計分析等各種數(shù)學(xué)方法,尤其是計算機技術(shù)以及數(shù)學(xué)軟件等對模型的所有參數(shù)做出計算(或近似計算)。(5) 模型分析:對所要建立模型的思路進行闡述,對所得的結(jié)果進行數(shù)學(xué)上的分析,如結(jié)果的誤差分析、統(tǒng)計分析、模型對數(shù)據(jù)的靈敏性分析、對假設(shè)的強健性分析等。(6) 模型檢驗:將求解和分析結(jié)果翻譯回到實際問題中,并與實際情形進行比較,以此來驗證模型的準確性、合理性和實用性。(7) 模型應(yīng)用與推廣:應(yīng)用的方式與問題性質(zhì)、建模目的及最終的結(jié)果有關(guān),而模型的推廣就是將已有模型擴展為一個更加全面,更加符合現(xiàn)實情況,更加適用的模型1。3 回歸分析與回歸模型3.1 基本概念回歸分析(regression an

11、alysis)是用統(tǒng)計數(shù)據(jù)尋求變量間關(guān)系的近似表達式的一種方法,并利用所得公式進行統(tǒng)計描述、分析和推斷,解決預(yù)測、控制和優(yōu)化問題。回歸模型(regression model)是對統(tǒng)計關(guān)系進行定量描述的一種數(shù)學(xué)模型。線性回歸(liner regressing)是應(yīng)用上最重要、理論上較完善的回歸分析方法2,5。3.2 刻畫回歸模型 用表示因變量,用表示自變量,其中是自變量的個數(shù),和之間的真實關(guān)系可近似地用下述回歸模型刻畫 (3-1)其中是隨機誤差,它代表在近似過程中產(chǎn)生的偏差,也就是模型不能精確擬合數(shù)據(jù)的原因。函數(shù)刻畫了和之間的關(guān)系,最簡單的情形是線性回歸模型3 (3-2)3.3 回歸分析的步驟

12、回歸分析包括以下步驟:(1) 問題陳述(2) 確定變量(3) 收集數(shù)據(jù)(4) 模型設(shè)定(5) 進行相關(guān)分析(6) 計算預(yù)測誤差(7) 確定預(yù)測值3,43.4 回歸分析的分類 根據(jù)條件可將回歸分析分為如下幾類3:表 1 回歸分析的分類回歸類型條 件單變量只有一個定量的因變量多變量有兩個或兩個以上定量的因變量簡單只有一個自變量多元有兩個或兩個以上自變量線性方程關(guān)于所有的參數(shù)都是線性的,或經(jīng)變量變換后是線性的非線性因變量和某些自變量之間具有非線性關(guān)系,或一些參數(shù)是以非線性形式出現(xiàn)的,并且不能經(jīng)變換將參數(shù)線性化方差分析自變量都是定性變量協(xié)方差分析自變量有定量變量,也有定性變量Logistic因變量是定

13、性變量4 統(tǒng)計分析4.1 基本概念統(tǒng)計分析(statistical analysis)是商業(yè)智能(BI)的一方面,涉及收集、審查業(yè)務(wù)數(shù)據(jù)和趨勢報告。統(tǒng)計分析是繼統(tǒng)計設(shè)計、統(tǒng)計調(diào)查、統(tǒng)計整理之后的一項十分重要的工作,是在前幾個階段工作的基礎(chǔ)上通過分析從而達到對研究對象更為深刻的認識。統(tǒng)計分析是運用統(tǒng)計方法及與分析對象有關(guān)的知識,從定量與定性的結(jié)合上進行的研究活動。它又是在一定的選題下,集分析方案的設(shè)計、資料的搜集和整理而展開的研究活動。統(tǒng)計分析的必要條件是系統(tǒng)、完善的資料;重要特征是運用統(tǒng)計方法、定量與定性的結(jié)合;產(chǎn)品是高質(zhì)量、準確而又及時的統(tǒng)計數(shù)據(jù)和高層次、有一定深度、廣度的統(tǒng)計分析報告;特點

14、是數(shù)據(jù)性、目的性和時效性6。4.2 統(tǒng)計分析的步驟統(tǒng)計分析可以分為以下5個步驟:(1) 描述要分析的數(shù)據(jù)的性質(zhì)(2) 研究基礎(chǔ)群體的數(shù)據(jù)關(guān)系(3) 創(chuàng)建一個模型,總結(jié)數(shù)據(jù)與基礎(chǔ)群體的聯(lián)系(4) 證明(或否定)該模型的有效性(5) 采用預(yù)測分析來預(yù)測將來的趨勢65 一個線性回歸模型實例5.1 問題的提出為了研究人們對某種品牌食品的喜愛程度和該食品的水分含量和甜度的關(guān)系,進行了一個完全隨機化設(shè)計的小規(guī)模試驗,得到下列數(shù)據(jù):表 2 某品牌食品的水分含量、甜度和人們的喜愛程度數(shù)據(jù)12345678444466662424242464736176728071839101112131415168888101

15、010102424242483898693889594100試建立線性回歸擬合模型,對如何解釋?并做進一步的分析(1) 求出殘差向量,分別作出殘差關(guān)于擬合值,以及的殘差圖及殘差的正態(tài)圖,具體分析并予以評述。(2) 對給出合理的假設(shè),給出一組新的數(shù)據(jù)觀測值,給出的預(yù)測值和99%的置信區(qū)間。(3) 擬合關(guān)于的一元線性回歸模型,與二元線性回歸模型作比較,由此得出什么結(jié)論2? 5.2 分析與假設(shè) 初步分析表中數(shù)據(jù)可知,該食品的水分含量和甜度均與人們的喜愛程度在一定程度上呈正相關(guān),具有函數(shù)相關(guān)性。并且通過比較可以發(fā)現(xiàn),人們對這該產(chǎn)品的水分偏愛較甜度更為敏感。為簡化數(shù)據(jù)模型,可作出如下假設(shè):(1) 該食品

16、的水分含量和甜度構(gòu)成回歸自變量; (2) 因變量是人們對該種品牌食品的喜愛程度;(3) 自變量,與因變量之間具有顯著的線性關(guān)系,且考慮(,)固定取幾組值;(4) 實驗所得數(shù)據(jù)值與估計值之間的偏差均值為0,方差為,并且實驗所得數(shù)據(jù)值的統(tǒng)計規(guī)律為正態(tài)分布。5.3 模型建立 根據(jù)假設(shè),可初步確定該食品的水分含量和甜度與人們的喜愛程度之間的關(guān)系,即為線性關(guān)系,建立如下二元線性回歸模型: (5-1)5.4 模型求解 直接運用MATLAB統(tǒng)計工具箱中的命令regress求解,使用格式為:b,bint,r,rint,stats=regress(Y,X,alpha)得出回歸模型(5-1)中的參數(shù)分別是,,則回

17、歸方程為 (5-1) 其中對于的解釋分析為: 我們用食品的水分含量來預(yù)測人們對某種品牌食品的喜愛程度的回歸系數(shù)為;而的標準差為2.3094,的標準差為11.4514,因此表準化后的回歸系數(shù)為;由回歸分析原理知道,對的影響程度很大,就是預(yù)測的最佳擬合直線的斜率。 模型求解的詳細計算步驟及MATLAB運行結(jié)果見附錄:1。5.5 結(jié)果分析5.5.1 輸出數(shù)據(jù)結(jié)果由MATLAB輸出結(jié)果我們可得到如下數(shù)據(jù):回歸模型(5-1)中的參數(shù)分別是:,決定系數(shù):相關(guān)系數(shù):檢驗統(tǒng)計量: 值: 5.5.2 模型檢驗需要檢驗(1) 檢驗法由于給定的顯著性水平:,查分布表,,顯然,根據(jù)檢驗準則知,拒絕,即認為,與的線性關(guān)

18、系顯著。(2) 相關(guān)系數(shù)的評價由相關(guān)系數(shù)在范圍內(nèi),可判斷,與具有較強的線性關(guān)系。(3) 值檢驗由于值滿足,因此可以說明,與的線性關(guān)系顯著。以上使用三種統(tǒng)計推斷方法推斷的結(jié)果是一致的,都認為自變量,與因變量的線性關(guān)系顯著。說明以上模型假設(shè)和回歸模型能夠基本反映,與的關(guān)系。5.5.3 解決提出的三個問題(1) 由MATLAB輸出結(jié)果可知,殘差向量為:r =-0.1000,0.1500,-3.1000,3.1500,-0.9500,-1.7000,-1.95001.3000,1.2000,-1.5500,4.2000,2.4500,-2.6500,-4.4000,3.3500,0.6000 利用殘差

19、向量r和MATLAB語句normplot(r),得到殘差向量的正態(tài)性檢驗圖,如圖1:圖1 殘差向量的正態(tài)性檢驗圖 利用殘差向量r,殘差的區(qū)間估計值rint和MATLAB語句:rcoplot(r,rint),得到時序殘差圖,如圖2:圖2 時序殘差圖分別以的擬合值,以及為橫坐標,殘差向量為縱坐標,作出作出殘差關(guān)于擬合值,以及的殘差圖,如圖3(源程序見附錄:2):圖3 殘差關(guān)于擬合值,以及的殘差圖分析及評述:觀察圖1,殘差向量的正態(tài)檢驗圖中,點“+”呈現(xiàn)的散點在一條直線上,因此可知,誤差的正態(tài)性假設(shè)是合理的。觀察圖2,時序殘差圖中的殘差值均落在以“”為中軸線的帶狀區(qū)域內(nèi),且無明顯的趨勢,說明數(shù)據(jù)沒有

20、奇異點,并且建立的線性回歸模型比較適合于樣本數(shù)據(jù)。觀察圖3,殘差關(guān)于擬合值,以及的殘差圖中,由四幅圖所出現(xiàn)的形狀可知,他們沒有明顯的趨勢性變化,是比較滿意的形式。(2) 對的合理假設(shè):假定是獨立同正態(tài)分布的隨機變量,有零均值和常值方差。因此,若擬合的回歸模型適合于所給數(shù)據(jù),那么殘差應(yīng)基本上反映未知誤差的這些特性。將新的數(shù)據(jù)觀測值帶入回歸方程,將得到的點估計值。MATLAB程序:x0=1,5,4;y0=b*x0計算結(jié)果:y0 =77.2750即的估計值為77.275。使用MATLAB語句:rstool(X,Y,inmodel,alpha),擬合二次響應(yīng)曲面回歸明顯以及預(yù)測的交互式界面,程序如下:

21、X=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;Y=64 73 61 76 72 80 71 83 83 89 86 93 88 95 94 100;alpha=0.01;rstool(X,Y)得到界面如圖4:圖4 二次曲面交互界面在所得界面的兩個窗口分別輸入,則圖形左側(cè)顯示數(shù)據(jù),它即使在點處99%的置信區(qū)間,即73.6711,80.8789。(3) 利用MATLAB擬合關(guān)于的一元線性回歸模型(源程序及輸出結(jié)果見附錄:3):回歸方程為: 決定系數(shù):相關(guān)系數(shù):統(tǒng)計檢驗量: 值: 運用三種模型檢驗方法:檢驗

22、法,相關(guān)系數(shù)的評價和值檢驗均可推斷出都認為自變量與因變量的線性關(guān)系顯著。說明該一元線性回歸模型能夠基本反映與的關(guān)系。比較性結(jié)論:此一元線性回歸模型與第一問建立的二元線性回歸模型比較,我們可以看到二者的的回歸系數(shù)是相同的,以此我們可以認為與不相關(guān)。并且在二元線性回歸模型中,將回歸系數(shù)標準化后可得出:喜愛程度()與水分含量()的標準回歸系數(shù)為0.8924,說明二者顯著相關(guān);而喜愛程度(Y)與甜度()的標準回歸系數(shù)為0.3946,說明二者不顯著相關(guān)。而這一點與問題初步分析中得出的“人們對這該產(chǎn)品的水分偏愛較甜度更為敏感”的初步印象是相一致的;可以說第四問的解答進一步說明了所建立的線性回歸模型是合理的

23、,較為真實的反映了實際信息。206 結(jié)論 在做這次課程設(shè)計之前,我一直認為回歸分析是一個很難的知識點,每次遇到關(guān)于回歸分析的問題我都感到無從下手,這當然與自己不能靜下心來好好研究此類問題有關(guān)。做這次課程設(shè)計的過程中,通過查找資料與自己動手寫程序操作,在MATLAB的幫助下,發(fā)現(xiàn)回歸分析并不是像自己之前所想的那么難,關(guān)鍵是要找到理清思路,根據(jù)特定的步驟,并借用MATLAB進行分析。而且做完這次課程設(shè)計后,更加深刻體會到MATLAB的強大功能。在數(shù)學(xué)建模和統(tǒng)計分析中運用MATLAB能使問題更加簡單、快速地解決。因此,我認為自己應(yīng)該多看些數(shù)學(xué)建模的實例,提高建模的能力,同時也要提高對數(shù)據(jù)統(tǒng)計分析的能

24、力,還要更深入地研究MATLAB,了解MATLAB更加強大的功能。參考文獻1 姜啟源,謝金星,葉俊數(shù)學(xué)模型(第四版)M北京:高等教育出版社,2011:1-18,325-3322 劉瓊蓀,龔劬,何中市,傅鸝,任善強數(shù)學(xué)實驗M北京:高等教育出版社,2004:89-1083 (美)Samprit Chatterjee,Ali S. Hadi著,鄭忠國,許靜譯例解回歸分析(原書第5版)M.北京:機械工業(yè)出版社,2013:14 回歸分析_百度百科5 回歸模型_百度百科6 統(tǒng)計分析_百度百科附錄1.二元線性模型求解的詳細計算步驟及MATLAB運行結(jié)果:(1) 輸入數(shù)據(jù)A=4 4 4 4 6 6 6 6 8

25、 8 8 8 10 10 10 10; 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;a=ones(16,1);X=a,A;alpha=0.01;Y=64 73 61 76 72 80 71 83 83 89 86 93 88 95 94 100;(2) MATLAB調(diào)用格式b,bint,r,rint,stats=regress(Y,X,alpha)(3) 輸出結(jié)果b = 37.6500 4.4250 4.3750bint = 28.6249 46.6751 3.5179 5.3321 2.3468 6.4032r = -0.1000 0.1500 -3.1000 3.150

26、0 -0.9500 -1.7000 -1.9500 1.3000 1.2000 -1.5500 4.2000 2.4500 -2.6500 -4.4000 3.3500 0.6000rint = -7.4731 7.2731 -7.2225 7.5225 -9.9632 3.7632 -3.6960 9.9960 -8.7486 6.8486 -9.4016 6.0016 -9.6067 5.7067 -6.4603 9.0603 -6.5725 8.9725 -9.2755 6.1755 -2.7399 11.1399 -5.0973 9.9973 -9.6543 4.3543 -10.70

27、33 1.9033 -3.4238 10.1238 -6.7551 7.9551stats = 0.9521 129.0832 0.0000 7.25382.繪制殘差關(guān)于擬合值,以及的殘差圖:X1= 4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;X2=2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;Y=37.650+4.425*X1+4.375*X2;X=X1.*X2;r=-0.1000 0.1500 -3.1000 3.1500 -0.9500 -1.7000 -1.9500 1.3000 1.2000 -1.5500 4.2000 2.4500 -2.6500 -4.4000 3.3500 0.6000;subplot(2,2,1),plot(Y,r,+),title(殘差關(guān)于Y的估量值的殘差圖);subplot(2,2,2),plot(X1,r,+),title(殘差關(guān)于X1的殘差圖);subplot(2,2,3),plot(X2,r,+),title(殘差關(guān)于X2的殘差圖);subplot(2,2,4),plot(X,r,+),title(殘差關(guān)于X1X2的殘差圖);3.擬合關(guān)于的一元線性回歸模型:(1) 輸入數(shù)據(jù):A=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;a=o

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論