《回歸分析一》課件_第1頁(yè)
《回歸分析一》課件_第2頁(yè)
《回歸分析一》課件_第3頁(yè)
《回歸分析一》課件_第4頁(yè)
《回歸分析一》課件_第5頁(yè)
已閱讀5頁(yè),還剩151頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

回歸分析(一)回歸分析(一)1什么是回歸分析?

(Regression)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度回歸一詞是怎么來(lái)的??什么是回歸分析?

(Regression)從一組樣本數(shù)據(jù)出發(fā)2回歸模型

(regressionmodel)回答“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1個(gè)數(shù)值型的因變量(響應(yīng)變量,dependentvariable)被預(yù)測(cè)的變量1個(gè)或多個(gè)數(shù)值型的或分類的自變量(解釋變量,independentvariable)用于預(yù)測(cè)的變量3. 主要用于預(yù)測(cè)和估計(jì)回歸模型

(regressionmodel)回答“變量之間3回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于4回歸模型的類型回歸模型的類型5第一節(jié):一元線性回歸一元線性回歸模型參數(shù)的最小二乘估計(jì)回歸直線的擬合優(yōu)度顯著性檢驗(yàn)第一節(jié):一元線性回歸一元線性回歸模型6一元線性回歸模型一元線性回歸模型7一元線性回歸涉及一個(gè)自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測(cè)或被解釋的變量稱為因變量(dependentvariable),用y表示用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一條線性方程來(lái)表示一元線性回歸涉及一個(gè)自變量的回歸8一元線性回歸模型描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型一元線性回歸模型可表示為y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映了由于x的變化而引起的y的變化誤差項(xiàng)

是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)一元線性回歸模型描述因變量y如何依賴于自變量x和誤差9一元線性回歸模型

(基本假定,高斯假設(shè))為保證回歸模型的估計(jì)值具有無(wú)偏性、有效性、和一致性,需要滿足以下假設(shè):誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=0+

1x對(duì)于所有的x值,ε的方差σ2都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān)對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)一元線性回歸模型

(基本假定,高斯假設(shè))為保證回歸模型的估計(jì)10

方差非齊性方差非齊性11回歸方程

(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下E(y)=0+1x方程的圖示是一條直線,也稱為直線回歸方程0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值回歸方程

(regressionequation)描述12估計(jì)的回歸方程

(estimatedregressionequation)一元線性回歸中估計(jì)的回歸方程為用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程總體回歸參數(shù)和

是未知的,必需利用樣本數(shù)據(jù)去估計(jì)其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值

估計(jì)的回歸方程

(estimatedregression13參數(shù)的最小二乘估計(jì)參數(shù)的最小二乘估計(jì)14最小二乘估計(jì)使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來(lái)求得和的方法。即用最小二乘法擬合的直線來(lái)代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小最小二乘估計(jì)使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小15最小二乘估計(jì)

(圖示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^最小二乘估計(jì)

(圖示)xy(xn,yn)(x1,y16最小二乘法

(

和的計(jì)算公式)

根據(jù)最小二乘法的要求,可得求解和的公式如下最小二乘法

(和的計(jì)算公式)根據(jù)最小二17估計(jì)方程的求法

(例題分析)【例】求不良貸款對(duì)貸款余額的回歸方程回歸方程為:y=-0.8295+0.037895x回歸系數(shù)=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元

估計(jì)方程的求法

(例題分析)【例】求不良貸款對(duì)貸款余額的回歸18估計(jì)方程的求法

(例題分析)不良貸款對(duì)貸款余額回歸方程的圖示估計(jì)方程的求法

(例題分析)不良貸款對(duì)貸款余額回歸方程的圖示19回歸直線的擬合優(yōu)度回歸直線的擬合優(yōu)度20變差因變量

y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來(lái)源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響對(duì)一個(gè)具體的觀測(cè)值來(lái)說(shuō),變差的大小可以通過(guò)該實(shí)際觀測(cè)值與其均值之差來(lái)表示變差因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。21變差的分解

(圖示)xyy{}}變差的分解

(圖示)xyy{}}22離差平方和的分解

(三個(gè)平方和的關(guān)系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{離差平方和的分解

(三個(gè)平方和的關(guān)系)SST=SSR23離差平方和的分解

(三個(gè)平方和的意義)總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說(shuō),是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和離差平方和的分解

(三個(gè)平方和的意義)總平方和(SST)24判定系數(shù)r2

(coefficientofdetermination)回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

R21,說(shuō)明回歸方程擬合的越好;R20,說(shuō)明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)2判定系數(shù)r2

(coefficientofdeter25判定系數(shù)r2

(例題分析)【例】計(jì)算不良貸款對(duì)貸款余額回歸的判定系數(shù),并解釋其意義

判定系數(shù)的實(shí)際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系來(lái)解釋,或者說(shuō),在不良貸款取值的變動(dòng)中,有71.16%是由貸款余額所決定的。也就是說(shuō),不良貸款取值的差異有2/3以上是由貸款余額決定的??梢?jiàn)不良貸款與貸款余額之間有較強(qiáng)的線性關(guān)系判定系數(shù)r2

(例題分析)【例】計(jì)算不良貸款對(duì)貸款余額回26估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對(duì)誤差項(xiàng)的標(biāo)準(zhǔn)差的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小

計(jì)算公式為注:例題的計(jì)算結(jié)果為1.9799估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofesti27顯著性檢驗(yàn)顯著性檢驗(yàn)28模型整體線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著殘差均方(MSE)是σ2(即誤差項(xiàng)的方差)的無(wú)偏有效估計(jì)量,而當(dāng)回歸系數(shù)為0時(shí),回歸均方(MSR)才是σ2的無(wú)偏有效估計(jì)量。因此,將MSR與MSE加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著。如果差別顯著,則說(shuō)明回歸系數(shù)并不等于零,方程具有較好的線性關(guān)系。回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)p)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1)模型整體線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯29模型整體線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)提出假設(shè)H0:1=0線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F作出決策:若F>F,拒絕H0;若F<F,不能拒絕H0模型整體線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)提出假設(shè)2.30模型整體線性關(guān)系的檢驗(yàn)

(例題分析)提出假設(shè)H0:1=0不良貸款與貸款余額之間的線性關(guān)系不顯著計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平=0.05,并根據(jù)分子自由度1和分母自由度25-2找出臨界值F=4.28作出決策:若F>F,拒絕H0,線性關(guān)系顯著模型整體線性關(guān)系的檢驗(yàn)

(例題分析)提出假設(shè)確定顯著性水31單個(gè)回歸系數(shù)的檢驗(yàn)在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn)檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說(shuō),檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布單個(gè)回歸系數(shù)的檢驗(yàn)在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢32回歸系數(shù)的檢驗(yàn)

(樣本統(tǒng)計(jì)量的分布)

是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,它有自己的分布的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于未知,需用其估計(jì)量sy來(lái)代替得到的估計(jì)的標(biāo)準(zhǔn)差回歸系數(shù)的檢驗(yàn)

(樣本統(tǒng)計(jì)量的分布)是根據(jù)最小二33回歸系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)H0:b1=0(沒(méi)有線性關(guān)系)H1:b1

0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不能拒絕H0回歸系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)確定顯著性水平,34回歸系數(shù)的檢驗(yàn)

(例題分析)對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(=0.05)提出假設(shè)H0:b1=0H1:b1

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

t=7.533515>t=2.201,拒絕H0,表明不良貸款與貸款余額之間有線性關(guān)系回歸系數(shù)的檢驗(yàn)

(例題分析)對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢35用SPSS進(jìn)行回歸分析用SPSS進(jìn)行回歸分析36第二節(jié)利用回歸方程進(jìn)行

估計(jì)和預(yù)測(cè)點(diǎn)估計(jì)區(qū)間估計(jì)第二節(jié)利用回歸方程進(jìn)行

估計(jì)和37利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)根據(jù)自變量x的取值估計(jì)或預(yù)測(cè)因變量y的取值估計(jì)或預(yù)測(cè)的類型點(diǎn)估計(jì)y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)y的平均值的置信區(qū)間估計(jì)y的個(gè)別值的預(yù)測(cè)區(qū)間估計(jì)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)根據(jù)自變量x的取值估計(jì)或預(yù)測(cè)因38點(diǎn)估計(jì)點(diǎn)估計(jì)39點(diǎn)估計(jì)2.點(diǎn)估計(jì)值有y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同對(duì)于自變量x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)值點(diǎn)估計(jì)2.點(diǎn)估計(jì)值有對(duì)于自變量x的一個(gè)給定值x0,根40

y的平均值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的平均值的一個(gè)估計(jì)值E(y0),就是平均值的點(diǎn)估計(jì)在前面的例子中,假如我們要估計(jì)貸款余額為100億元時(shí),所有分行不良貸款的平均值,就是平均值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得y的平均值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x41y的個(gè)別值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的一個(gè)個(gè)別值的估計(jì)值,就是個(gè)別值的點(diǎn)估計(jì)比如,如果我們只是想知道貸款余額為72.8億元的那個(gè)分行(這里是編號(hào)為10的那個(gè)分行)的不良貸款是多少,則屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得y的個(gè)別值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的42區(qū)間估計(jì)區(qū)間估計(jì)43區(qū)間估計(jì)點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計(jì)對(duì)于自變量

x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間區(qū)間估計(jì)有兩種類型置信區(qū)間估計(jì)(confidenceintervalestimate)預(yù)測(cè)區(qū)間估計(jì)(predictionintervalestimate)區(qū)間估計(jì)點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤44置信區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的平均值的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-置信水平下的置信區(qū)間為式中:sy為估計(jì)標(biāo)準(zhǔn)誤差置信區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值45置信區(qū)間估計(jì)

(例題分析)

【例】求出貸款余額為100億元時(shí),不良貸款95%的置信區(qū)間解:根據(jù)前面的計(jì)算結(jié)果,已知n=25,sy=1.9799,t(25-2)=2.0687置信區(qū)間為當(dāng)貸款余額為100億元時(shí),不良貸款的平均值在2.1422億元到3.7778億元之間置信區(qū)間估計(jì)

(例題分析)【例】求出貸款余額為100億元46預(yù)測(cè)區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測(cè)區(qū)間(predictioninterval)

y0在1-置信水平下的預(yù)測(cè)區(qū)間為預(yù)測(cè)區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值47預(yù)測(cè)區(qū)間估計(jì)

(例題分析)【例】求出貸款余額為72.8億元的分行,不良貸款95%的預(yù)測(cè)區(qū)間

解:根據(jù)前面的計(jì)算結(jié)果,已知n=25,sy=1.9799,t(25-2)=2.0687置信區(qū)間為貸款余額為72.8億元的那個(gè)分行,其不良貸款的預(yù)測(cè)區(qū)間在-2.2467億元到6.1067億元之間預(yù)測(cè)區(qū)間估計(jì)

(例題分析)【例】求出貸款余額為72.8億元的48影響區(qū)間寬度的因素置信水平(1-)區(qū)間寬度隨置信水平的增大而增大數(shù)據(jù)的離散程度(s)區(qū)間寬度隨離散程度的增大而增大3. 樣本容量區(qū)間寬度隨樣本容量的增大而減小4. 用于預(yù)測(cè)的xp與x的差異程度區(qū)間寬度隨xp與x的差異程度的增大而增大影響區(qū)間寬度的因素置信水平(1-)49置信區(qū)間、預(yù)測(cè)區(qū)間、回歸方程xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下限置信區(qū)間、預(yù)測(cè)區(qū)間、回歸方程xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)50用SPSS進(jìn)行估計(jì)和預(yù)測(cè)用SPSS進(jìn)行估計(jì)和預(yù)測(cè)51用SPSS進(jìn)行估計(jì)和預(yù)測(cè)其中:pre_1為預(yù)測(cè)(均)值;sep_1為預(yù)測(cè)均值的標(biāo)準(zhǔn)差;(lmci_1,umci_1)為置信區(qū)間;(lici_1,uici_1)為預(yù)測(cè)區(qū)間用SPSS進(jìn)行估計(jì)和預(yù)測(cè)其中:pre_1為預(yù)測(cè)(均)值;52第三節(jié):殘差分析用殘差證實(shí)模型的假定用殘差檢測(cè)異常值和有影響的觀測(cè)值第三節(jié):殘差分析用殘差證實(shí)模型的假定53殘差

(residual)因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程求出的預(yù)測(cè)值之差,用e表示反映了用估計(jì)的回歸方程去預(yù)測(cè)而引起的誤差確定有關(guān)誤差項(xiàng)的假定是否成立檢測(cè)有影響的觀測(cè)值殘差

(residual)因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程54用殘差證實(shí)模型的假定用殘差證實(shí)模型的假定55殘差圖

(residualplot)表示殘差的圖形關(guān)于x的殘差圖關(guān)于y的殘差圖(適用于多變量回歸分析)標(biāo)準(zhǔn)化殘差圖學(xué)生化殘差圖標(biāo)準(zhǔn)化殘差直方圖正態(tài)概率圖用于判斷誤差的假定是否成立檢測(cè)有影響的觀測(cè)值殘差圖

(residualplot)表示殘差的圖形56殘差圖

(形態(tài)及判別)殘差圖

(形態(tài)及判別)57殘差圖

(例題分析)殘差圖

(例題分析)58標(biāo)準(zhǔn)化殘差

(standardizedresidual)殘差除以它的標(biāo)準(zhǔn)差后得到的數(shù)值。計(jì)算公式為

是第i個(gè)殘差的標(biāo)準(zhǔn)差,其計(jì)算公式為

標(biāo)準(zhǔn)化殘差

(standardizedresidual)59標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立若假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布(可從直方圖上觀察)在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否60標(biāo)準(zhǔn)化殘差圖

(例題分析)標(biāo)準(zhǔn)化殘差圖

(例題分析)61標(biāo)準(zhǔn)化殘差直方圖橫軸為標(biāo)準(zhǔn)化殘差,縱軸為其頻數(shù)。判斷其是否服從正態(tài)分布,適用于樣本量較大的情況,否則難以識(shí)別。標(biāo)準(zhǔn)化殘差直方圖橫軸為標(biāo)準(zhǔn)化殘差,縱軸為其頻數(shù)。62正態(tài)概率圖是累積誤差的觀測(cè)分布與正態(tài)假設(shè)條件下的期望分布的比較,如果實(shí)際與假設(shè)條件完全吻合,那么散點(diǎn)將完全落在由原點(diǎn)出發(fā)的參照線上。橫軸為觀測(cè)的累積概率,縱軸為期望的累積概率。正態(tài)概率圖是累積誤差的觀測(cè)分布與正態(tài)假設(shè)條件下的期望分布的比63Durbin-Watson檢驗(yàn)

dL和dU值通過(guò)查表獲得(根據(jù)自變量數(shù)和樣本量來(lái)查)用于檢驗(yàn)誤差項(xiàng)是否自相關(guān)。查表:當(dāng)DW<dL時(shí),存在正的自相關(guān)當(dāng)DW>4-dL時(shí),存在負(fù)的自相關(guān)當(dāng)dU<DW<4-dU時(shí),不存在自相關(guān)。

灰色區(qū)間灰色區(qū)間DW44-dL4-dududL0拒絕原假設(shè)存在正相關(guān)不能拒絕原假設(shè)拒絕原假設(shè)存在負(fù)相關(guān)Durbin-Watson檢驗(yàn)

dL和dU值通過(guò)查表獲得64用殘差檢測(cè)異常值和

有影響的觀測(cè)值用殘差檢測(cè)異常值和

有影響的觀測(cè)值65異常值

(outlier)如果某一個(gè)點(diǎn)與其他點(diǎn)所呈現(xiàn)的趨勢(shì)不相吻合,這個(gè)點(diǎn)就有可能是異常點(diǎn),或稱為野點(diǎn)如果異常值是一個(gè)錯(cuò)誤的數(shù)據(jù),比如記錄錯(cuò)誤造成的,應(yīng)該修正該數(shù)據(jù),以便改善回歸的效果如果是由于模型的假定不合理,使得標(biāo)準(zhǔn)化殘差偏大,應(yīng)該考慮采用其他形式的模型,比如非線性模型,或可以考慮增加樣本量如果完全是由于隨機(jī)因素而造成的異常值,則應(yīng)該保留該數(shù)據(jù)在處理異常值時(shí),若一個(gè)異常值是一個(gè)有效的觀測(cè)值,不應(yīng)輕易地將其從數(shù)據(jù)集中予以剔出異常值

(outlier)如果某一個(gè)點(diǎn)與其他點(diǎn)所呈現(xiàn)的趨勢(shì)不66異常值

(識(shí)別)異常值也可以通過(guò)標(biāo)準(zhǔn)化殘差或?qū)W生化殘差來(lái)識(shí)別如果某一個(gè)觀測(cè)值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差較大,就可以識(shí)別為異常值一般情況下,當(dāng)一個(gè)觀測(cè)值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差小于-2或大于+2時(shí),就可以將其視為異常值異常值

(識(shí)別)異常值也可以通過(guò)標(biāo)準(zhǔn)化殘差或?qū)W生化殘差來(lái)識(shí)別67有影響的觀測(cè)值如果某一個(gè)或某一些觀測(cè)值對(duì)回歸的結(jié)果有強(qiáng)烈的影響,那么該觀測(cè)值或這些觀測(cè)值就是有影響的觀測(cè)值一個(gè)有影響的觀測(cè)值可能是一個(gè)異常值,即有一個(gè)的值遠(yuǎn)遠(yuǎn)偏離了散點(diǎn)圖中的趨勢(shì)線對(duì)應(yīng)一個(gè)遠(yuǎn)離自變量平均值的觀測(cè)值或者是這二者組合而形成的觀測(cè)值,有影響的觀測(cè)值如果某一個(gè)或某一些觀測(cè)值對(duì)回歸的結(jié)果有強(qiáng)烈的影68有影響的觀測(cè)值

(圖示)不存在影響值的趨勢(shì)不存在影響值的趨勢(shì)存在影響值的趨勢(shì)有影響的觀測(cè)值

(圖示)不存在影響值的趨勢(shì)不存在影響值的趨勢(shì)69杠桿率點(diǎn)

(leveragepoint)如果自變量存在一個(gè)極端值,該觀測(cè)值則稱為高杠桿率點(diǎn)(highleveragepoint)在一元回歸中,第i個(gè)觀測(cè)值的杠桿率用hi表示,其計(jì)算公式為

如果一個(gè)觀測(cè)值的杠桿率就可以將該觀測(cè)值識(shí)別為有高杠桿率的點(diǎn)

一個(gè)有高杠桿率的觀測(cè)值未必是一個(gè)有影響的觀測(cè)值,它可能對(duì)回歸直線的斜率沒(méi)有什么影響SPSS可計(jì)算中心化杠桿值,為高杠桿值減去杠桿率點(diǎn)

(leveragepoint)如果自變量存在一個(gè)70高杠桿率點(diǎn)

(圖示)高杠桿率點(diǎn)高杠桿率點(diǎn)

(圖示)高杠桿率點(diǎn)71[Plots子對(duì)話框]用于選擇需要繪制的回歸分析診斷或預(yù)測(cè)圖左側(cè)給出繪圖時(shí)可用的中間變量列表。

繪制標(biāo)準(zhǔn)化殘差圖,可供選擇的有直方圖和正態(tài)P-P圖

對(duì)每個(gè)自變量繪出它與因變量殘差的散布圖,主要用于回歸診斷.[Plots子對(duì)話框]用于選擇需要繪制的回歸分析診斷或預(yù)測(cè)圖72回歸模型對(duì)因變量的原始預(yù)測(cè)值.進(jìn)行標(biāo)準(zhǔn)化后回歸模型的預(yù)測(cè)值,此時(shí)均數(shù)為0,標(biāo)準(zhǔn)差為1。去掉當(dāng)前記錄時(shí),當(dāng)前模型對(duì)該記錄的因變量的預(yù)測(cè)值?;貧w預(yù)測(cè)值的標(biāo)準(zhǔn)差。模型預(yù)測(cè)值對(duì)因變量觀測(cè)值的原始?xì)埐睢?/p>

進(jìn)行標(biāo)準(zhǔn)化后的殘差,此時(shí)均數(shù)為0,標(biāo)準(zhǔn)差為1。

標(biāo)準(zhǔn)化法采用的是U變換,如果采用t變換,則產(chǎn)生的就是此處的學(xué)生化殘差,亦稱史氏化殘差。去掉當(dāng)前記錄時(shí),當(dāng)前模型對(duì)該記錄因變量的預(yù)測(cè)值對(duì)因變量觀測(cè)值的原始?xì)埐睿ㄟ^(guò)觀察它可以發(fā)現(xiàn)可疑的強(qiáng)影響點(diǎn)。

上一個(gè)預(yù)測(cè)值進(jìn)行t變換后的結(jié)果。

[Save子對(duì)話框]用來(lái)存儲(chǔ)中間結(jié)果(1/3)回歸模型對(duì)因變量的原始預(yù)測(cè)值.進(jìn)行標(biāo)準(zhǔn)化后回歸模型的預(yù)測(cè)值,73[Save子對(duì)話框]用來(lái)存儲(chǔ)中間結(jié)果(2/3)

馬哈拉諾夫距離,表示記錄值離樣本平均值的距離若某條記錄多個(gè)自變量出現(xiàn)大的”馬氏”距離,則該記錄可能為離群值。

表示如果將該記錄去除,模型殘差會(huì)發(fā)生多大的變化一般而言,Cook's距離大于1,則該記錄可能為離群值或強(qiáng)影響點(diǎn)。杠桿值,用于測(cè)量該數(shù)據(jù)點(diǎn)的影響強(qiáng)度若該數(shù)值大于2*P/N(P為變量數(shù),N為樣本量),則該記錄可能為強(qiáng)影響點(diǎn)。一些專門用于判斷強(qiáng)影響點(diǎn)的統(tǒng)計(jì)量。

即DifferenceinBeta的縮寫,表示去除某觀察值后其回歸系數(shù)的變化值。

標(biāo)準(zhǔn)化的DfBeta值,當(dāng)它大于2/Sqrt(N)時(shí)(Sqrt()為平方根函數(shù)),該點(diǎn)可能為強(qiáng)影響點(diǎn)。即Differenceinfitvalue的縮寫,表示去除某觀察值后,其預(yù)測(cè)值的變化值。

標(biāo)準(zhǔn)化的DfFit值,當(dāng)它大于2/Sqrt(P/N)時(shí),該點(diǎn)可能為強(qiáng)影響點(diǎn)。

去除某觀察值之后協(xié)方差陣與含全部觀察值的協(xié)方差陣的比率其絕對(duì)值大于3*P/N時(shí),該觀察值可能為強(qiáng)影響點(diǎn)。

一系列用于測(cè)量數(shù)據(jù)點(diǎn)與擬合模型距離的指標(biāo)。

[Save子對(duì)話框]用來(lái)存儲(chǔ)中間結(jié)果(2/3)馬哈拉諾夫74要求給出均數(shù)的可信區(qū)間或個(gè)體參考值范圍的上下界,默認(rèn)為95%區(qū)間可以自己設(shè)定概率值。將模型信息存入XML文件以便進(jìn)一步分析.以上選擇默認(rèn)會(huì)在當(dāng)前數(shù)據(jù)集中建立新變量;Savetonewfile組則可以讓用戶將這些新變量存儲(chǔ)到一個(gè)新的SPSS數(shù)據(jù)文件中。

[Save子對(duì)話框]用來(lái)存儲(chǔ)中間結(jié)果(3/3)要求給出均數(shù)的可信區(qū)間或個(gè)體參考值范圍的上下界,默認(rèn)為95%75用SPSS進(jìn)行殘差分析用SPSS進(jìn)行殘差分析76一元回歸分析的練習(xí)家庭人均支出的分析雇員數(shù)據(jù)的分析一元回歸分析的練習(xí)家庭人均支出的分析77結(jié)束結(jié)束78回歸分析(一)回歸分析(一)79什么是回歸分析?

(Regression)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度回歸一詞是怎么來(lái)的??什么是回歸分析?

(Regression)從一組樣本數(shù)據(jù)出發(fā)80回歸模型

(regressionmodel)回答“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1個(gè)數(shù)值型的因變量(響應(yīng)變量,dependentvariable)被預(yù)測(cè)的變量1個(gè)或多個(gè)數(shù)值型的或分類的自變量(解釋變量,independentvariable)用于預(yù)測(cè)的變量3. 主要用于預(yù)測(cè)和估計(jì)回歸模型

(regressionmodel)回答“變量之間81回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于82回歸模型的類型回歸模型的類型83第一節(jié):一元線性回歸一元線性回歸模型參數(shù)的最小二乘估計(jì)回歸直線的擬合優(yōu)度顯著性檢驗(yàn)第一節(jié):一元線性回歸一元線性回歸模型84一元線性回歸模型一元線性回歸模型85一元線性回歸涉及一個(gè)自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測(cè)或被解釋的變量稱為因變量(dependentvariable),用y表示用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一條線性方程來(lái)表示一元線性回歸涉及一個(gè)自變量的回歸86一元線性回歸模型描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型一元線性回歸模型可表示為y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映了由于x的變化而引起的y的變化誤差項(xiàng)

是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)一元線性回歸模型描述因變量y如何依賴于自變量x和誤差87一元線性回歸模型

(基本假定,高斯假設(shè))為保證回歸模型的估計(jì)值具有無(wú)偏性、有效性、和一致性,需要滿足以下假設(shè):誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=0+

1x對(duì)于所有的x值,ε的方差σ2都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān)對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)一元線性回歸模型

(基本假定,高斯假設(shè))為保證回歸模型的估計(jì)88

方差非齊性方差非齊性89回歸方程

(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下E(y)=0+1x方程的圖示是一條直線,也稱為直線回歸方程0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值回歸方程

(regressionequation)描述90估計(jì)的回歸方程

(estimatedregressionequation)一元線性回歸中估計(jì)的回歸方程為用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程總體回歸參數(shù)和

是未知的,必需利用樣本數(shù)據(jù)去估計(jì)其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值

估計(jì)的回歸方程

(estimatedregression91參數(shù)的最小二乘估計(jì)參數(shù)的最小二乘估計(jì)92最小二乘估計(jì)使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來(lái)求得和的方法。即用最小二乘法擬合的直線來(lái)代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小最小二乘估計(jì)使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小93最小二乘估計(jì)

(圖示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^最小二乘估計(jì)

(圖示)xy(xn,yn)(x1,y94最小二乘法

(

和的計(jì)算公式)

根據(jù)最小二乘法的要求,可得求解和的公式如下最小二乘法

(和的計(jì)算公式)根據(jù)最小二95估計(jì)方程的求法

(例題分析)【例】求不良貸款對(duì)貸款余額的回歸方程回歸方程為:y=-0.8295+0.037895x回歸系數(shù)=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元

估計(jì)方程的求法

(例題分析)【例】求不良貸款對(duì)貸款余額的回歸96估計(jì)方程的求法

(例題分析)不良貸款對(duì)貸款余額回歸方程的圖示估計(jì)方程的求法

(例題分析)不良貸款對(duì)貸款余額回歸方程的圖示97回歸直線的擬合優(yōu)度回歸直線的擬合優(yōu)度98變差因變量

y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來(lái)源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響對(duì)一個(gè)具體的觀測(cè)值來(lái)說(shuō),變差的大小可以通過(guò)該實(shí)際觀測(cè)值與其均值之差來(lái)表示變差因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。99變差的分解

(圖示)xyy{}}變差的分解

(圖示)xyy{}}100離差平方和的分解

(三個(gè)平方和的關(guān)系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{離差平方和的分解

(三個(gè)平方和的關(guān)系)SST=SSR101離差平方和的分解

(三個(gè)平方和的意義)總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說(shuō),是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和離差平方和的分解

(三個(gè)平方和的意義)總平方和(SST)102判定系數(shù)r2

(coefficientofdetermination)回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

R21,說(shuō)明回歸方程擬合的越好;R20,說(shuō)明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)2判定系數(shù)r2

(coefficientofdeter103判定系數(shù)r2

(例題分析)【例】計(jì)算不良貸款對(duì)貸款余額回歸的判定系數(shù),并解釋其意義

判定系數(shù)的實(shí)際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系來(lái)解釋,或者說(shuō),在不良貸款取值的變動(dòng)中,有71.16%是由貸款余額所決定的。也就是說(shuō),不良貸款取值的差異有2/3以上是由貸款余額決定的??梢?jiàn)不良貸款與貸款余額之間有較強(qiáng)的線性關(guān)系判定系數(shù)r2

(例題分析)【例】計(jì)算不良貸款對(duì)貸款余額回104估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對(duì)誤差項(xiàng)的標(biāo)準(zhǔn)差的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小

計(jì)算公式為注:例題的計(jì)算結(jié)果為1.9799估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofesti105顯著性檢驗(yàn)顯著性檢驗(yàn)106模型整體線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著殘差均方(MSE)是σ2(即誤差項(xiàng)的方差)的無(wú)偏有效估計(jì)量,而當(dāng)回歸系數(shù)為0時(shí),回歸均方(MSR)才是σ2的無(wú)偏有效估計(jì)量。因此,將MSR與MSE加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著。如果差別顯著,則說(shuō)明回歸系數(shù)并不等于零,方程具有較好的線性關(guān)系。回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)p)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1)模型整體線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯107模型整體線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)提出假設(shè)H0:1=0線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F作出決策:若F>F,拒絕H0;若F<F,不能拒絕H0模型整體線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)提出假設(shè)2.108模型整體線性關(guān)系的檢驗(yàn)

(例題分析)提出假設(shè)H0:1=0不良貸款與貸款余額之間的線性關(guān)系不顯著計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平=0.05,并根據(jù)分子自由度1和分母自由度25-2找出臨界值F=4.28作出決策:若F>F,拒絕H0,線性關(guān)系顯著模型整體線性關(guān)系的檢驗(yàn)

(例題分析)提出假設(shè)確定顯著性水109單個(gè)回歸系數(shù)的檢驗(yàn)在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn)檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說(shuō),檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布單個(gè)回歸系數(shù)的檢驗(yàn)在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢110回歸系數(shù)的檢驗(yàn)

(樣本統(tǒng)計(jì)量的分布)

是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,它有自己的分布的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于未知,需用其估計(jì)量sy來(lái)代替得到的估計(jì)的標(biāo)準(zhǔn)差回歸系數(shù)的檢驗(yàn)

(樣本統(tǒng)計(jì)量的分布)是根據(jù)最小二111回歸系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)H0:b1=0(沒(méi)有線性關(guān)系)H1:b1

0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不能拒絕H0回歸系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)確定顯著性水平,112回歸系數(shù)的檢驗(yàn)

(例題分析)對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(=0.05)提出假設(shè)H0:b1=0H1:b1

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

t=7.533515>t=2.201,拒絕H0,表明不良貸款與貸款余額之間有線性關(guān)系回歸系數(shù)的檢驗(yàn)

(例題分析)對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢113用SPSS進(jìn)行回歸分析用SPSS進(jìn)行回歸分析114第二節(jié)利用回歸方程進(jìn)行

估計(jì)和預(yù)測(cè)點(diǎn)估計(jì)區(qū)間估計(jì)第二節(jié)利用回歸方程進(jìn)行

估計(jì)和115利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)根據(jù)自變量x的取值估計(jì)或預(yù)測(cè)因變量y的取值估計(jì)或預(yù)測(cè)的類型點(diǎn)估計(jì)y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)y的平均值的置信區(qū)間估計(jì)y的個(gè)別值的預(yù)測(cè)區(qū)間估計(jì)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)根據(jù)自變量x的取值估計(jì)或預(yù)測(cè)因116點(diǎn)估計(jì)點(diǎn)估計(jì)117點(diǎn)估計(jì)2.點(diǎn)估計(jì)值有y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同對(duì)于自變量x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)值點(diǎn)估計(jì)2.點(diǎn)估計(jì)值有對(duì)于自變量x的一個(gè)給定值x0,根118

y的平均值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的平均值的一個(gè)估計(jì)值E(y0),就是平均值的點(diǎn)估計(jì)在前面的例子中,假如我們要估計(jì)貸款余額為100億元時(shí),所有分行不良貸款的平均值,就是平均值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得y的平均值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x119y的個(gè)別值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的一個(gè)個(gè)別值的估計(jì)值,就是個(gè)別值的點(diǎn)估計(jì)比如,如果我們只是想知道貸款余額為72.8億元的那個(gè)分行(這里是編號(hào)為10的那個(gè)分行)的不良貸款是多少,則屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得y的個(gè)別值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的120區(qū)間估計(jì)區(qū)間估計(jì)121區(qū)間估計(jì)點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計(jì)對(duì)于自變量

x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間區(qū)間估計(jì)有兩種類型置信區(qū)間估計(jì)(confidenceintervalestimate)預(yù)測(cè)區(qū)間估計(jì)(predictionintervalestimate)區(qū)間估計(jì)點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤122置信區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的平均值的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-置信水平下的置信區(qū)間為式中:sy為估計(jì)標(biāo)準(zhǔn)誤差置信區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值123置信區(qū)間估計(jì)

(例題分析)

【例】求出貸款余額為100億元時(shí),不良貸款95%的置信區(qū)間解:根據(jù)前面的計(jì)算結(jié)果,已知n=25,sy=1.9799,t(25-2)=2.0687置信區(qū)間為當(dāng)貸款余額為100億元時(shí),不良貸款的平均值在2.1422億元到3.7778億元之間置信區(qū)間估計(jì)

(例題分析)【例】求出貸款余額為100億元124預(yù)測(cè)區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測(cè)區(qū)間(predictioninterval)

y0在1-置信水平下的預(yù)測(cè)區(qū)間為預(yù)測(cè)區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值125預(yù)測(cè)區(qū)間估計(jì)

(例題分析)【例】求出貸款余額為72.8億元的分行,不良貸款95%的預(yù)測(cè)區(qū)間

解:根據(jù)前面的計(jì)算結(jié)果,已知n=25,sy=1.9799,t(25-2)=2.0687置信區(qū)間為貸款余額為72.8億元的那個(gè)分行,其不良貸款的預(yù)測(cè)區(qū)間在-2.2467億元到6.1067億元之間預(yù)測(cè)區(qū)間估計(jì)

(例題分析)【例】求出貸款余額為72.8億元的126影響區(qū)間寬度的因素置信水平(1-)區(qū)間寬度隨置信水平的增大而增大數(shù)據(jù)的離散程度(s)區(qū)間寬度隨離散程度的增大而增大3. 樣本容量區(qū)間寬度隨樣本容量的增大而減小4. 用于預(yù)測(cè)的xp與x的差異程度區(qū)間寬度隨xp與x的差異程度的增大而增大影響區(qū)間寬度的因素置信水平(1-)127置信區(qū)間、預(yù)測(cè)區(qū)間、回歸方程xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下限置信區(qū)間、預(yù)測(cè)區(qū)間、回歸方程xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)128用SPSS進(jìn)行估計(jì)和預(yù)測(cè)用SPSS進(jìn)行估計(jì)和預(yù)測(cè)129用SPSS進(jìn)行估計(jì)和預(yù)測(cè)其中:pre_1為預(yù)測(cè)(均)值;sep_1為預(yù)測(cè)均值的標(biāo)準(zhǔn)差;(lmci_1,umci_1)為置信區(qū)間;(lici_1,uici_1)為預(yù)測(cè)區(qū)間用SPSS進(jìn)行估計(jì)和預(yù)測(cè)其中:pre_1為預(yù)測(cè)(均)值;130第三節(jié):殘差分析用殘差證實(shí)模型的假定用殘差檢測(cè)異常值和有影響的觀測(cè)值第三節(jié):殘差分析用殘差證實(shí)模型的假定131殘差

(residual)因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程求出的預(yù)測(cè)值之差,用e表示反映了用估計(jì)的回歸方程去預(yù)測(cè)而引起的誤差確定有關(guān)誤差項(xiàng)的假定是否成立檢測(cè)有影響的觀測(cè)值殘差

(residual)因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程132用殘差證實(shí)模型的假定用殘差證實(shí)模型的假定133殘差圖

(residualplot)表示殘差的圖形關(guān)于x的殘差圖關(guān)于y的殘差圖(適用于多變量回歸分析)標(biāo)準(zhǔn)化殘差圖學(xué)生化殘差圖標(biāo)準(zhǔn)化殘差直方圖正態(tài)概率圖用于判斷誤差的假定是否成立檢測(cè)有影響的觀測(cè)值殘差圖

(residualplot)表示殘差的圖形134殘差圖

(形態(tài)及判別)殘差圖

(形態(tài)及判別)135殘差圖

(例題分析)殘差圖

(例題分析)136標(biāo)準(zhǔn)化殘差

(standardizedresidual)殘差除以它的標(biāo)準(zhǔn)差后得到的數(shù)值。計(jì)算公式為

是第i個(gè)殘差的標(biāo)準(zhǔn)差,其計(jì)算公式為

標(biāo)準(zhǔn)化殘差

(standardizedresidual)137標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立若假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布(可從直方圖上觀察)在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否138標(biāo)準(zhǔn)化殘差圖

(例題分析)標(biāo)準(zhǔn)化殘差圖

(例題分析)139標(biāo)準(zhǔn)化殘差直方圖橫軸為標(biāo)準(zhǔn)化殘差,縱軸為其頻數(shù)。判斷其是否服從正態(tài)分布,適用于樣本量較大的情況,否則難以識(shí)別。標(biāo)準(zhǔn)化殘差直方圖橫軸為標(biāo)準(zhǔn)化殘差,縱軸為其頻數(shù)。140正態(tài)概率圖是累積誤差的觀測(cè)分布與正態(tài)假設(shè)條件下的期望分布的比較,如果實(shí)際與假設(shè)條件完全吻合,那么散點(diǎn)將完全落在由原點(diǎn)出發(fā)的參照線上。橫軸為觀測(cè)的累積概率,縱軸為期望的累積概率。正態(tài)概率圖是累積誤差的觀測(cè)分布與正態(tài)假設(shè)條件下的期望分布的比141Durbin-Watson檢驗(yàn)

dL和dU值通過(guò)查表獲得(根據(jù)自變量數(shù)和樣本量來(lái)查)用于檢驗(yàn)誤差項(xiàng)是否自相關(guān)。查表:當(dāng)DW<dL時(shí),存在正的自相關(guān)當(dāng)DW>4-dL時(shí),存在負(fù)的自相關(guān)當(dāng)dU<DW<4-dU時(shí),不存在自相關(guān)。

灰色區(qū)間灰色區(qū)間DW44-dL4-dududL0拒絕原假設(shè)存在正相關(guān)不能拒絕原假設(shè)拒絕原假設(shè)存在負(fù)相關(guān)Durbin-Watson檢驗(yàn)

dL和dU值通過(guò)查表獲得142用殘差檢測(cè)異常值和

有影響的觀測(cè)值用殘差檢測(cè)異常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論