回歸分析法預測_第1頁
回歸分析法預測_第2頁
回歸分析法預測_第3頁
回歸分析法預測_第4頁
回歸分析法預測_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

回歸分析法預測第1頁,共77頁,2023年,2月20日,星期四YOURSITEHERE主要內(nèi)容第一節(jié)引言

第二節(jié)一元線性回歸

第三節(jié)多元線性回歸

第四節(jié)逐步回歸

第2頁,共77頁,2023年,2月20日,星期四YOURSITEHERE第一節(jié)引言第3頁,共77頁,2023年,2月20日,星期四YOURSITEHERE變量間的關系函數(shù)關系——變量間的確定性關系,有精確的數(shù)學表達式。統(tǒng)計關系——大量觀測或試驗以后建立起來的一種經(jīng)驗關系,并不一定包含這因果關系。統(tǒng)計關系函數(shù)關系第4頁,共77頁,2023年,2月20日,星期四相關系數(shù)

◆樣本的相關系數(shù)用r(correlationcoefficient)◆相關系數(shù)r的值在-1和1之間。正相關時,r值在0和1之間,這時一個變量增加,另一個變量也增加;負相關時,r值在-1和0之間,此時一個變量增加,另一個變量將減少。◆r的絕對值越接近1,兩變量的關聯(lián)程度越強,r的絕對值越接近0,兩變量的關聯(lián)程度越弱。第5頁,共77頁,2023年,2月20日,星期四YOURSITEHERE一般來說,回歸分析是研究自變量(解釋變量)與因變量(被解釋變量)之間相依關系(因果關系)的一種統(tǒng)計分析方法。對地質(zhì)變量而言,也就是從不存在確定性關系的大量觀測數(shù)據(jù)中,建立一個地質(zhì)變量與另一個或其它幾個地質(zhì)變量之間相關關系的數(shù)學表達式?;貧w分析是一種由因索果的定量分析、預測技術。

一、回歸分析的定義第6頁,共77頁,2023年,2月20日,星期四YOURSITEHERE①確定回歸方程確定一個地質(zhì)變量與另一個或其它幾個地質(zhì)變量之間是否存在相關關系,如果存在的話,可以找出它們之間合適的數(shù)學表達式;②預測根據(jù)一個或幾個變量值(自變量,相對而言較易測定),來預測另一個地質(zhì)變量(因變量)的估計值,并確定預測精度;③判斷自變量與因變量的親疏關系在共同影響某個特定變量(因變量)的許多變量(自變量)之中,找出哪些是重要的,哪些是次要的,以及它們之間有什么關系。二、回歸分析主要解決問題在地質(zhì)研究工作中,回歸分析主要解決以下幾個方面的問題:第7頁,共77頁,2023年,2月20日,星期四YOURSITEHERE第二節(jié)一元線性回歸第8頁,共77頁,2023年,2月20日,星期四YOURSITEHERE回歸模型

(強假定條件)一元線性回歸模型

的回歸方程為:一、一元線性回歸模型和回歸方程第9頁,共77頁,2023年,2月20日,星期四YOURSITEHERE二、參數(shù)估計1.

回歸系數(shù)和的最小二乘估計第10頁,共77頁,2023年,2月20日,星期四YOURSITEHERE對于樣本觀測值(xi;yi)(i=1,2,…,n),尋找參數(shù)的估計值,使得隨機擾動誤差項的平方和達到最小,滿足如下條件:定義離差平方和(二元)函數(shù)(非負二次函數(shù)):普通最小二乘法(OrdinaryLeastSquareEstimation,OLSE)基本思想:→min(也即殘差平方和達到最小)第11頁,共77頁,2023年,2月20日,星期四YOURSITEHERE滿足下列方程組上式整理后可得正規(guī)方程組(NormalEquations)→第12頁,共77頁,2023年,2月20日,星期四YOURSITEHERE解之,得于是可得

回歸方程為:還可等價表示為:

(回歸直線過樣本數(shù)據(jù)點重心)第13頁,共77頁,2023年,2月20日,星期四YOURSITEHERE2.回歸方程(回歸直線)的特點④回歸直線通過x和y的樣本均值點()(觀測數(shù)據(jù)的重心)幾何上:相對于將y軸平移到位置處,回歸直線斜率不變而新的截距將是y的樣本平均值。⑤殘差與xi不相關。⑥殘差與?i不相關。對x變量作中心化處理所得的線性回歸模型可寫成第14頁,共77頁,2023年,2月20日,星期四YOURSITEHERE3.標準誤差無偏估計→是不可觀測的隨機變量,故其方差也不能直接計算,而需要估計?;貧w模型的總離差可被分解成兩個部分:總離差可解釋的離差

可由回歸直線所解釋的變差不可解釋的離差

無法用回歸直線所解釋的變差第15頁,共77頁,2023年,2月20日,星期四YOURSITEHERE三個平方和之間的關系:SST=SSR+SSE4.標準誤差無偏估計第16頁,共77頁,2023年,2月20日,星期四YOURSITEHERESSR和SSE是此消彼長的關系,

SSR從正面來衡量線性模型的擬合優(yōu)度,

SSE則可從反面判定線性模型的擬合優(yōu)度。的無偏估計量,有SST=SSR+SSE對于一元線性回歸模型第17頁,共77頁,2023年,2月20日,星期四YOURSITEHERE5.擬合優(yōu)度系數(shù)R2擬合程度——樣本觀測值聚集在樣本回歸線周圍的緊密程度?;颍ㄓ址Q樣本決定系數(shù)、測定系數(shù)、判定系數(shù),CoefficientofDetermination)第18頁,共77頁,2023年,2月20日,星期四YOURSITEHERE5.擬合優(yōu)度系數(shù)R2擬合程度——樣本觀測值聚集在樣本回歸線周圍的緊密程度。其它等價表示:(又稱樣本決定系數(shù)、測定系數(shù)、判定系數(shù),CoefficientofDetermination)第19頁,共77頁,2023年,2月20日,星期四YOURSITEHERER2性質(zhì):①R2度量了由回歸模型作出的解釋的y變差在y總變差中所占的比例(或百分數(shù)),由于在總變差恒定,故R2越大,回歸效果越好。②反映回歸直線(回歸方程)擬合程度③取值范圍是 0≤R2≤1R2=1表示完全擬合;R2=0表示自變量和因變量之間沒有任何線性關系。④測定系數(shù)等于相關系數(shù)的平方。計算R2不能代替對回歸方程總體線性關系的F檢驗。第20頁,共77頁,2023年,2月20日,星期四YOURSITEHERE第三節(jié)多元線性回歸第21頁,共77頁,2023年,2月20日,星期四YOURSITEHERE一、多元線性回歸模型和回歸方程回歸模型

(強假定條件)(i=1,2,…,n)

第22頁,共77頁,2023年,2月20日,星期四YOURSITEHERE多元線性回歸模型的回歸方程為:為待估回歸參數(shù),在多元線性回歸中稱為偏回歸系數(shù)(partialregressioncoefficient),表示各個回歸系數(shù)在回歸方程中其它自變量保持不變情況下,自變量xj每增加一個單位時因變量y的平均增加程度。第23頁,共77頁,2023年,2月20日,星期四YOURSITEHERE二、參數(shù)估計1.回歸系數(shù)的最小二乘估計定義離差平方和(p+1)元函數(shù)(非負二次函數(shù)):矩陣表示普通最小二乘法(OrdinaryLeastSquareEstimation,OLSE)基本思想:第24頁,共77頁,2023年,2月20日,星期四YOURSITEHERE滿足下列方程組→矩陣形式表示第25頁,共77頁,2023年,2月20日,星期四YOURSITEHERE當存在時,即得回歸參數(shù)的最小二乘估計為上式整理后可得用矩陣形式表示的

正規(guī)方程組(NormalEquations)為(經(jīng)驗)回歸方程。移項得稱第26頁,共77頁,2023年,2月20日,星期四YOURSITEHERE2.標準誤差無偏估計SST=SSR+SSE第27頁,共77頁,2023年,2月20日,星期四YOURSITEHERE檢驗因變量與所有的自變量和之間的是否存在一個顯著的線性關系,也被稱為總體的顯著性檢驗檢驗方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著如果是顯著的,因變量與自變量之間存在線性關系如果不顯著,因變量與自變量之間不存在線性關系回歸方程的顯著性檢驗(線性關系的檢驗)三、顯著性檢驗第28頁,共77頁,2023年,2月20日,星期四YOURSITEHERE1.提出假設H0:12p=0線性關系不顯著H1:1,2,,p至少有一個不等于02.計算檢驗統(tǒng)計量F3.確定顯著性水平和分子自由度p、分母自由度n-p-1找出臨界值F(上側(cè)分位數(shù))4.作出決策若FF,拒絕H0;若F<F,接受H0回歸方程的顯著性檢驗步驟第29頁,共77頁,2023年,2月20日,星期四YOURSITEHERE給定信度α

(α

=0.05,0.01,0.1),查表求如果統(tǒng)計量:則回歸高度顯著則回歸在α=0.05水平上顯著則回歸在α=0.1水平上顯著則回歸不顯著。第30頁,共77頁,2023年,2月20日,星期四YOURSITEHERE1.如果F檢驗已經(jīng)表明了回歸模型總體上是顯著的,那么回歸系數(shù)的檢驗就是用來確定每一個單個的自變量xi

對因變量y的影響是否顯著2.對每一個自變量都要單獨進行檢驗3.應用t檢驗4.在多元線性回歸中,回歸方程的顯著性檢驗不再等價于回歸系數(shù)的顯著性檢驗?;貧w系數(shù)的顯著性檢驗要點第31頁,共77頁,2023年,2月20日,星期四YOURSITEHERE1.提出假設H0:

=0(自變量xi與

因變量y沒有線性關系)H1:

0(自變量xi與

因變量y有線性關系)2.計算檢驗的統(tǒng)計量t3.確定顯著性水平,并進行決策tt,拒絕H0;t<t,接受H0回歸系數(shù)的顯著性檢驗步驟第32頁,共77頁,2023年,2月20日,星期四YOURSITEHERE1.將各控制單元的自變量代入最優(yōu)回歸方程,求出各控制單元的回歸估計值。這樣,每個單元都有一個觀測值yi和回歸估值。

2.以控制單元為橫坐標,以礦床值(或其對數(shù)值)為縱坐標,繪出礦床值上升序列曲線圖。根據(jù)上升序列曲線圖及各單元的礦化情況,確定回歸估計臨界值。 確定回歸估計臨界值時要考慮以下因素:(1)已知單元礦床值的大小及預測要求。(2)上升序列曲線的變化趨勢。四、確定回歸估計臨界值

進行成礦遠景區(qū)預測第33頁,共77頁,2023年,2月20日,星期四YOURSITEHERE回歸估計臨界值也可采用已知有礦控制單元回歸估計值的平均值或最小值,或已知有礦床單元回歸估值的最小值與已知有礦點單元回歸估值最大值的平均值。第34頁,共77頁,2023年,2月20日,星期四YOURSITEHERE若某單元的回歸估計值大于回歸臨界值,說明該單元為找礦遠景單元,其中可能有礦床的產(chǎn)出。反之,可能為無礦單元。另外,還可將未知單元回歸估計值的大小與已知有礦單元回歸估計值進行對比,以次來確定找礦遠景單元的級別。如果控制單元的礦床值yi與回歸估計值呈線性相關,則可將預測單元的回歸估值轉(zhuǎn)換成礦床值,并進而轉(zhuǎn)換成資源量。3.將未知單元的自變量觀測值代入回歸方程,確定每個單元的回歸估計值第35頁,共77頁,2023年,2月20日,星期四YOURSITEHERE注意在所選控制區(qū)單元中自變量的取值盡可能分散一些,樣本可盡可能大一些(使得回歸系數(shù)估計更穩(wěn)定和避免回歸曲線外推預測)注意異常值和空缺數(shù)據(jù)的處理。注意其時間、空間特性(時間序列數(shù)據(jù)、空間數(shù)據(jù)),要注意數(shù)據(jù)是否具備可比性、等方差性。在回歸模型的運用中,我們還強調(diào)定性分析與定量分析的有機結(jié)合。數(shù)理統(tǒng)計方法所研究的數(shù)量關系是否反映事物的本質(zhì)?本質(zhì)究竟如何?在實際問題中,我們不能僅憑樣本數(shù)據(jù)估計的結(jié)果不加分析地定論,必須把參數(shù)估計的結(jié)果和學科理論知識、具體地質(zhì)問題以及現(xiàn)實情況緊密結(jié)合,這樣才能保證回歸模型在地質(zhì)問題研究中的正確應用。當然,建立正確的數(shù)學模型,有效提取信息、有效解釋變異和有效查明數(shù)量規(guī)律,對于地質(zhì)概念和定義的多解性、地質(zhì)假說及理論的可檢驗性可發(fā)揮特殊作用。第36頁,共77頁,2023年,2月20日,星期四YOURSITEHERE第四節(jié)逐步回歸第37頁,共77頁,2023年,2月20日,星期四YOURSITEHERE在實際問題中可以提出許多對應變量有影響的自變量,變量選擇太少或不恰當,會使建立的模型與實際有較大的偏離;而變量選得太多,增加了模型的復雜度,模型應用費用增加,并且有時也會削弱估計和預測的穩(wěn)定性。我們希望礦床值和各地質(zhì)因素及找礦標志線性關系密切,即回歸效果要好,同時方程中每個自變量對礦床值的影響顯著而相互之間的相關很?。ū苊馓峁┲丿B信息)。這就存在回歸方程中最優(yōu)變量組合問題。這樣,既保證盡量高的預報精度,同時最大限度地減少自變量是運算方便又不失信息。一、回歸分析中變量選擇問題變量選擇問題是一個十分重要的問題!第38頁,共77頁,2023年,2月20日,星期四YOURSITEHERE①對因變量有顯著作用的自變量,全部選入回歸方程;②對因變量無顯著作用的自變量,一個也不引入回歸方程?!白顑?yōu)回歸方程”是指:選擇”最優(yōu)回歸方程”的方法有:1.最優(yōu)子集回歸法2.向后剔除法(backwardselection)3.向前引入法(forwardselection)4.逐步回歸法(stepwiseselection)逐步選擇法第39頁,共77頁,2023年,2月20日,星期四YOURSITEHERE按一定準則選擇最優(yōu)模型,常用的準則有:①校正決定系數(shù)(考慮了自變量的個數(shù)):

R2adj達到最大。②Cp準則(C即criterion,p為所選模型中變量的個數(shù):Cp統(tǒng)計量達到最?、跘IC準則(Akaike’sInformationCriterion)

AIC越小越好有p個可供選擇的自變量,可能的回歸方程有2p-1個。二、最優(yōu)子集回歸法第40頁,共77頁,2023年,2月20日,星期四YOURSITEHERE三、逐步選擇法1.前進法(forwardselection)---只進不出

若max(Fj)>Fα,引入j變量后退法(backwardelimination)---只出不進 若min(Fj)<Fα,剔除j變量3.逐步回歸法(stepwiseregression)---有進有出它們的共同特點是每一步只引入或剔除一個自變量。決定其取舍則基于對偏回歸平方和的F檢驗此F檢驗與對j變量回歸系數(shù)的t檢驗是一致的。第41頁,共77頁,2023年,2月20日,星期四YOURSITEHERE前進法局限性:后續(xù)變量的引入可能會使先進入方程的自變量變得不重要。后退法局限性:自變量高度相關時,可能得不出正確的結(jié)果;開始時剔除的變量即使后來變得有顯著性也不能再進入方程。雙向篩選:引入有意義的變量(前進法),剔除無意義變量(后退法)---逐步回歸小樣本檢驗水準

a一般定為0.10或0.15,

大樣本把a值定為0.05。

a值越小表示選取自變量的標準越嚴第42頁,共77頁,2023年,2月20日,星期四YOURSITEHERE在供選擇的m個自變量中,依各自變量對因變量作用的大小,即偏回歸平方和的大小,由大到小把自變量依次逐個引入。每引入一個變量,就對它進行假設檢驗。當該自變量的偏回歸平方和經(jīng)檢驗是顯著時,將該自變量引入回歸方程。新變量引入回歸方程后,對方程中原有的自變量也要進行假設檢驗,并把貢獻最小且退化為不顯著的自變量逐個剔出方程。逐步回歸分析的基本思想因此逐步回歸每一步(引入一個自變量或剔除一個自變量)前后都要進行假設檢驗,直至既沒有自變量能夠進入方程,也沒有自變量從方程中剔除為止?;貧w結(jié)束,最后所得方程即為所求得的“最優(yōu)”回歸方程。第43頁,共77頁,2023年,2月20日,星期四YOURSITEHERE曲線估計(CurveEstimation)對于一元回歸,若散點圖的趨勢不呈線性分布,可以利用曲線估計方便地進行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。采用哪種擬合方式主要取決于各種擬合模型對數(shù)據(jù)的充分描述(例如看修正AdjustedR2)rainfallandresultingwaterlevelchangesdatafromaandslidealongtheOhioRivervalleynearCincinnati,Ohio(HanebergandG?kce,1994)第44頁,共77頁,2023年,2月20日,星期四YOURSITEHERE實例安徽××地區(qū)玢巖鐵礦床

礦石礦物為磁鐵礦第45頁,共77頁,2023年,2月20日,星期四YOURSITEHERE已知 n=32 p=2未知 m=7x1

磁異常指數(shù)x2

閃長玢巖出露面積比值y礦床經(jīng)濟價值(作對數(shù)變換)y<22-3.5>3.5礦點小礦大中礦UnitID x1 x2 y6 0.958 0.010 0.77812 1.456 24.200 2.20414 0.001 0.010 0.47720 1.861 36.250 4.00721 2.301 0.750 0.47727 2.045 6.250 5.38528 3.057 35.210 5.63631 0.612 0.010 0.47733 1.513 7.000 0.47735 2.000 22.700 5.76336 1.468 7.250 3.99237 0.001 0.010 0.47743 0.783 0.570 0.47745 1.301 73.000 5.46746 2.672 24.200 5.03547 3.250 75.200 3.46456 1.096 7.000 0.47758 0.001 8.500 2.55359 2.950 11.000 0.82960 1.491 11.000 0.47763 0.001 0.750 0.95464 0.001 1.500 0.95465 0.001 5.750 4.62566 0.001 1.500 0.47767 0.001 0.010 0.47768 0.001 0.750 0.95476 0.001 0.010 3.43777 0.001 0.010 0.47783 0.001 0.010 0.77887 0.001 1.000 0.47789 0.001 0.150 2.813100 0.001 0.010 0.477UnitID x1 x2 y29 1.602 0.001 30 0.001 0.001 34 0.001 0.750 44 1.021 0.001 48 2.672 34.500 49 1.740 0.001 51 1.491 22.000第46頁,共77頁,2023年,2月20日,星期四YOURSITEHEREX1yyX1X2X2yX2X1第47頁,共77頁,2023年,2月20日,星期四YOURSITEHEREy=1.1921+0.3241*x1+0.0489*x2

yMean=2.0572SST=117.8631SSE=73.2383SSR=SST-SSE=44.6248第48頁,共77頁,2023年,2月20日,星期四YOURSITEHEREyX2X1第49頁,共77頁,2023年,2月20日,星期四YOURSITEHEREUnitID x1 x2 y yfit y-yfit6 0.958 0.010 0.778 1.503 -0.72512 1.456 24.200 2.204 2.848 -0.64414 0.001 0.010 0.477 1.193 -0.71620 1.861 36.250 4.007 3.569 0.43821 2.301 0.750 0.477 1.975 -1.49827 2.045 6.250 5.385 2.161 3.22428 3.057 35.210 5.636 3.906 1.73131 0.612 0.010 0.477 1.391 -0.91433 1.513 7.000 0.477 2.025 -1.54835 2.000 22.700 5.763 2.951 2.81236 1.468 7.250 3.992 2.023 1.96937 0.001 0.010 0.477 1.193 -0.71643 0.783 0.570 0.477 1.474 -0.99745 1.301 73.000 5.467 5.185 0.28246 2.672 24.200 5.035 3.242 1.79347 3.250 75.200 3.464 5.925 -2.46156 1.096 7.000 0.477 1.890 -1.41358 0.001 8.500 2.553 1.608 0.94559 2.950 11.000 0.829 2.686 -1.85760 1.491 11.000 0.477 2.214 -1.73763 0.001 0.750 0.954 1.229 -0.27564 0.001 1.500 0.954 1.266 -0.31265 0.001 5.750 4.625 1.474 3.15166 0.001 1.500 0.477 1.266 -0.78967 0.001 0.010 0.477 1.193 -0.71668 0.001 0.750 0.954 1.229 -0.27576 0.001 0.010 3.437 1.193 2.24477 0.001 0.010 0.477 1.193 -0.71683 0.001 0.010 0.778 1.193 -0.41587 0.001 1.000 0.477 1.241 -0.76489 0.001 0.150 2.813 1.200 1.613100 0.001 0.010 0.477 1.193 -0.716yyfit第50頁,共77頁,2023年,2月20日,星期四YOURSITEHEREF0.01(2,29)=5.42F0.05(2,29)=3.34F0.1(2,29)=2.49R2=SSR/SST=0.3786F=(SSR/2)/(SSE/29)=8.8350p-value=0.0010=sqrt(SSE/29)=

1.5892第51頁,共77頁,2023年,2月20日,星期四YOURSITEHERE第52頁,共77頁,2023年,2月20日,星期四YOURSITEHEREUnitIDx1x2y291.6020.0011.711300.0010.0011.193340.0010.7501.229441.0210.0011.523482.67234.5003.746491.7400.0011.756511.49122.0002.752<2礦點小礦大中礦>3.5未知單元預測預測臨界回歸估計值=2.5已知單元8個第53頁,共77頁,2023年,2月20日,星期四YOURSITEHERE本講介紹的線性回歸,僅僅是回歸的一種,也是歷史最悠久的一種。但是,任何模型都是某種近似;線性回歸當然也不例外。它被長期廣泛深入地研究主要是因為數(shù)學上相對簡單。它已經(jīng)成為其他回歸的一個基礎。應該用批判的眼光看待這些模型。NOTES第54頁,共77頁,2023年,2月20日,星期四YOURSITEHERE殘差圖——以殘差為縱坐標,以自變量為橫坐標標準化殘差回歸函數(shù)的形式應為曲線回歸分析中

存在異方差性五、殘差分析第55頁,共77頁,2023年,2月20日,星期四YOU

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論