第六相關(guān)與回歸分析_第1頁
第六相關(guān)與回歸分析_第2頁
第六相關(guān)與回歸分析_第3頁
第六相關(guān)與回歸分析_第4頁
第六相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(優(yōu)選)第六相關(guān)與回歸分析當前1頁,總共83頁。學習目標1、理解相關(guān)關(guān)系的概念2、掌握一元線性回歸的基本原理和參數(shù)估計及模型檢驗的基本方法3、了解多元線性與曲線回歸的分析方法4、利用回歸方程進行估計和預(yù)測5、用Excel

進行回歸分析當前2頁,總共83頁。第一節(jié)相關(guān)關(guān)系概述當前3頁,總共83頁。一、變量間的關(guān)系當前4頁,總共83頁。(一)函數(shù)關(guān)系1、反映變量之間一一對應(yīng)的確定關(guān)系。2、設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x

,當變量x取某個數(shù)值時,

y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量3、各觀測點落在一條線上

xy當前5頁,總共83頁。函數(shù)關(guān)系

(幾個例子)函數(shù)關(guān)系的例子某種商品的銷售額y與銷售量x之間的關(guān)系可表示為y=px(p為單價)圓的面積S與半徑之間的關(guān)系可表示為S=R2

企業(yè)的原材料消耗額y與產(chǎn)量x1

、單位產(chǎn)量消耗x2

、原材料價格x3之間的關(guān)系可表示為

y=x1x2x3

當前6頁,總共83頁。(二)相關(guān)關(guān)系

(correlation)變量間之間不嚴格的數(shù)量依存關(guān)系。一個變量的取值不能由另一個變量唯一確定。當變量

x取某個值時,變量y的取值可能有幾個。各觀測點不在一條線上。

xy當前7頁,總共83頁。相關(guān)關(guān)系

(幾個例子)相關(guān)關(guān)系的例子父親身高y與子女身高x之間的關(guān)系收入水平y(tǒng)與受教育程度x之間的關(guān)系居民消費支出y與收入x之間的關(guān)系商品銷售額y與廣告費支出x之間的關(guān)系居民儲蓄余額y與收入x之間的關(guān)系當前8頁,總共83頁。

二、相關(guān)關(guān)系的種類單相關(guān)1、按相關(guān)的形式分為:線性相關(guān)非線性相關(guān)2、按所研究的變量多少分為:復(fù)相關(guān)3、按相關(guān)的方向分為:正相關(guān)負相關(guān)4、按相關(guān)的程度分為:完全相關(guān)不完全相關(guān)不相關(guān)當前9頁,總共83頁。不同相關(guān)形式散點圖

(scatterdiagram)不相關(guān)負線性相關(guān)正線性相關(guān)非線性相關(guān)完全負線性相關(guān)完全正線性相關(guān)當前10頁,總共83頁。三、相關(guān)關(guān)系分析的方法當前11頁,總共83頁。(一)相關(guān)分析相關(guān)分析主要用于測定具有相關(guān)關(guān)系的變量之間相互關(guān)系的密切程度。是回歸分析的基礎(chǔ)。分析方法主要有:繪制散點圖、編制相關(guān)表、計算相關(guān)系數(shù)或相關(guān)指數(shù)等。當前12頁,總共83頁。(二)回歸分析

(Regression)研究具有相關(guān)關(guān)系的變量值之間一般的數(shù)量變動關(guān)系,即自變量發(fā)生變化時,因變量平均會發(fā)生多大的變化。通過建立回歸方程進行分析。回歸方程除可用于研究相關(guān)變量之間的一般數(shù)量變動關(guān)系外,還常用于進行預(yù)測。當前13頁,總共83頁?;貧w模型的類型當前14頁,總共83頁。第二節(jié)相關(guān)分析當前15頁,總共83頁。一、相關(guān)表和相關(guān)圖當前16頁,總共83頁。相關(guān)表與相關(guān)圖

(概念要點)1、相關(guān)表和相關(guān)圖是研究相關(guān)關(guān)系的直觀工具。一般在進行詳細的定量分析之前,可以利用它們對現(xiàn)象之間存在的相關(guān)關(guān)系的方向、形式和密切程度做大致的判斷。2、相關(guān)表是一種反映變量之間相關(guān)關(guān)系的統(tǒng)計表。3、相關(guān)圖又稱散點圖:用來反映變量之間相關(guān)關(guān)系的圖形。當前17頁,總共83頁。相關(guān)表

(例6.1)家庭編號12345678910可支配收入25186045628892997598可支配收入18254560627588929899

10各家庭收入和消費的原始資料計量單位:百元

消費和收入相關(guān)表計量單位:百元消費支出20154030426065705378消費支出15203040425360657870當前18頁,總共83頁。

散點圖

(例6.2)當前19頁,總共83頁。二、相關(guān)系數(shù)及其檢驗當前20頁,總共83頁。(一)相關(guān)系數(shù)及其計算當前21頁,總共83頁。

相關(guān)系數(shù)

(correlationcoefficient)用于測度變量之間線性相關(guān)關(guān)系密切程度的度量值(指標)。對兩個變量之間線性相關(guān)程度的度量稱為單相關(guān)系數(shù)。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為,若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r當前22頁,總共83頁。相關(guān)系數(shù)

(計算公式)

樣本相關(guān)系數(shù)的計算公式或化簡為當前23頁,總共83頁。相關(guān)系數(shù)

(取值及其意義)

r

的取值范圍是[-1,1]

|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負正相關(guān)

r=0,不存在線性相關(guān)關(guān)系

-1r<0,為負相關(guān)

0<r1,為正相關(guān)

|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切當前24頁,總共83頁。相關(guān)系數(shù)

(取值及其意義)-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加當前25頁,總共83頁。相關(guān)系數(shù)

(密切程度的判斷標準)當r=0時,不存在線性相關(guān)關(guān)系當0﹤|r|≦0.3時,為弱度相關(guān)當0.3﹤|r|≦0.5時,為低度相關(guān)當0.5﹤|r|≦0.8時,為中度相關(guān)0.8﹤|r|﹤1時,為高度相關(guān)當|r|

=1時,為完全相關(guān)

當前26頁,總共83頁。相關(guān)系數(shù)

(例題分析)

[例6.3]一位心理學家搜集了10名工人的智商值和勞動生產(chǎn)率資料如表6-3所示。根據(jù)表中的資料計算智商值和勞動生產(chǎn)率之間的相關(guān)系數(shù)r如下:當前27頁,總共83頁。表6-3相關(guān)系數(shù)計算表樣本序號智商值x勞動生產(chǎn)率(件/小時)yx2y2xy11105.21210027.0457221206.0144003672031306.31690039.6981941265.71587632.49718.251224.81488423.04585.661214.21464117.64508.271033.01060993098982.996048.41284.29802.764007.2921610973.2940910.24310.4合計110744.0124823.0210.845042.6當前28頁,總共83頁。相關(guān)系數(shù)的顯著性檢驗當前29頁,總共83頁。相關(guān)系數(shù)的顯著性檢驗

(r

的抽樣分布)r的抽樣分布隨總體相關(guān)系數(shù)和樣本量的大小而變化。

當為較大的正值時,r呈現(xiàn)左偏分布;當為較小的負值時,r呈現(xiàn)右偏分布。只有當接近于0,而樣本容量n很大時,才能認為r是接近于正態(tài)分布的隨機變量具體表現(xiàn)為:當前30頁,總共83頁。1-10=0.1r

的抽樣分布P接近0時樣本相關(guān)系數(shù)r的分布當前31頁,總共83頁。1r

的抽樣分布-10=0.8P接近1時樣本相關(guān)系數(shù)r的分布當前32頁,總共83頁。1-10=-0.8r

的抽樣分布P接近-1時樣本相關(guān)系數(shù)r的分布當前33頁,總共83頁。相關(guān)系數(shù)的顯著性檢驗

(檢驗的步驟)1. 檢驗兩個變量之間是否存在線性相關(guān)關(guān)系由于對r的正態(tài)性假設(shè)具有很大的風險,因此通常情況下,不采用正態(tài)檢驗,而采用提出的t檢驗,該檢驗可用于小樣本,也可用于大樣本。檢驗的步驟為:提出假設(shè):H0:;H1:0

計算檢驗的統(tǒng)計量:

確定顯著性水平,并作出決策若t>t,拒絕H0

若t<t,不能拒絕H0當前34頁,總共83頁。相關(guān)系數(shù)的顯著性檢驗

(例題分析)對[例6.3]智商值與勞動生產(chǎn)率之間的相關(guān)系數(shù)進行顯著性檢(0.05)提出假設(shè):H0:;H1:0計算檢驗的統(tǒng)計量3.根據(jù)顯著性水平=0.05,查t分布表得t(n-2)=2.306由于t=4.921>t(10-2)=2.306,拒絕H0,智商值與勞動生產(chǎn)率之間存在著顯著的正線性相關(guān)關(guān)系當前35頁,總共83頁。第三節(jié)一元線性回歸當前36頁,總共83頁。一、一元線性回歸函數(shù)與模型當前37頁,總共83頁。一元線性回歸函數(shù)一元線性回歸模型總體樣本(一)一元線性回歸函數(shù)與模型的數(shù)學表達式

式中:0是回歸直線在y軸上的截距,是當x=0時y的期望值。1是直線的斜率,稱為回歸系數(shù),表示當x每變動一個單位時,y的平均變動值。當前38頁,總共83頁。XYX1X2X3X4(二)一元線性回歸函數(shù)與模型意義的圖形解釋當前39頁,總共83頁。(三)一元線性回歸模型的基本假定1.誤差項u是一個期望值為0的正態(tài)分布隨機變量,即2.對于所有的x值,u的方差σ2都相同,即3.對于一個特定的x值,它所對應(yīng)的u與其他x值所對應(yīng)的u不相關(guān)。即4.對于一個特定的x值,它所對應(yīng)的y值與其他x所對應(yīng)的y值也不相關(guān)當前40頁,總共83頁。XYX1X2X3X4回歸模型基本假定的圖形解釋當前41頁,總共83頁。(四)樣本回歸方程與總體回歸方程的聯(lián)系與區(qū)別聯(lián)系:樣本回歸方程與總體回歸方程具有相同的形式,且樣本回歸模型是作為總體回歸模型的估計而存在的。區(qū)別:1、總體回歸線是未知的,且只有一條。而樣本回歸線則是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一個樣本,便可以擬合一條回歸線。2、總體回歸方程中的參數(shù)是未知的,但它是確定的。而樣本回歸方程中的參數(shù)是隨機變量,隨樣本的不同而不同。3、總體回歸模型中的ui是(因變量實際觀測值)Yi與總體回歸線之間的縱向距離,它是不可直接觀測的。而樣本回歸模型中ei是Yi與樣本回歸線之間的縱向距離,當根據(jù)樣本數(shù)據(jù)擬合出樣本回歸線之后,可以計算出ei的具體數(shù)值。當前42頁,總共83頁。二、模型參數(shù)的估計當前43頁,總共83頁。(一)回歸系數(shù)的估計

—最小二乘估計使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小當前44頁,總共83頁。最小二乘估計

(圖示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^當前45頁,總共83頁。最小二乘法

(

和的計算公式)

根據(jù)最小二乘法的要求,可得求解和的公式如下當前46頁,總共83頁。最小二乘法

(例題分析)【例6.4】一項調(diào)查得到9個家庭的月收入和存款數(shù)據(jù)如表7-4,用最小而乘法建立回歸方程如下:回歸方程為:回歸系數(shù)為0.1017,表示收入每增加1千元,家庭存款額平均增加0.1017千元

當前47頁,總共83頁。當前48頁,總共83頁。用Excel繪制回歸直線當前49頁,總共83頁。(二)總體方差的估計

此外,S2的正平方根也叫做回歸估計的標準差。S越小,回歸線的代表性越強,否則相反。

總體方差(б2)是檢驗?zāi)P蜁r,必須利用的一個重要參數(shù),可以反映理論模型誤差的大小。由于б2本身不能直接觀測,因而需要用∑et2(最小二乘殘差)來估計б2。

可以證明б2的無偏估計為:當前50頁,總共83頁。三、回歸模型的檢驗當前51頁,總共83頁。1、經(jīng)濟理論檢驗經(jīng)濟理論檢驗主要涉及估計值的符號和取值區(qū)間。2、統(tǒng)計檢驗(一級檢驗)統(tǒng)計檢驗是利用統(tǒng)計學中的抽樣理論檢驗樣本回歸方程的可靠性,包括擬合優(yōu)度檢驗和顯著性檢驗。3、計量經(jīng)濟學檢驗(二級檢驗)計量經(jīng)濟學檢驗是對標準回歸方程的假定條件能否得到滿足進行檢驗。(一)模型檢驗的內(nèi)容當前52頁,總共83頁。(二)模型擬合優(yōu)度檢驗當前53頁,總共83頁。

擬合優(yōu)度檢驗是檢驗樣本回歸方程對樣本觀測值代表性大小。衡量這一問題的指標稱為可決系數(shù)(決定系數(shù)),其公式為:

(RegressionSumofSquare)(ResidualSumofSquare)(TotalDeviationSumofSquare)1、概念及公式當前54頁,總共83頁。變差的分解

(圖示)xyy{}}當前55頁,總共83頁。離差平方和的分解

(三個平方和的關(guān)系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{當前56頁,總共83頁。離差平方和的分解

(三個平方和的意義)總平方和(SST)反映因變量的n個觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和當前57頁,總共83頁。2、可決系數(shù)r2

的特性(1)具有非負性(2)r2的值越接近1,SSR越接近SST,即說明回歸方程對實際觀測值的擬合程度愈好,否則相反。(3)可決系數(shù)是樣本觀測值的函數(shù),它也是一個隨機變量。(4)可決系數(shù)的平方根為相關(guān)系數(shù),用公式表示為:

當前58頁,總共83頁??蓻Q系數(shù)r2

(例題分析)

根椐【例6.4】計算月收入與存款額回歸的判定系數(shù),并解釋其意義

計算結(jié)果表明,存款額的總變差中,有96.6%可以由家庭月收入與存款額之間的關(guān)系來解釋,只有3%屬于隨機因素的影響。因此,上述擬合的是合適的。當前59頁,總共83頁。(三)顯著性檢驗當前60頁,總共83頁。顯著性檢驗(概念要點)

回歸分析中的顯著性檢驗包括兩方面的內(nèi)容:一是對各回歸系數(shù)的顯著性檢驗;對于回歸系數(shù)的顯著性檢驗通常采用t檢驗。二是對整個回歸方程的顯著性檢驗。對回歸方程的顯著性檢驗則是在方差分析的基礎(chǔ)上采用F檢驗。當前61頁,總共83頁?;貧w系數(shù)的檢驗

(概念要點)2.檢驗x與y之間是否具有線性關(guān)系,或者說,檢驗自變量x對因變量y的影響是否顯著3.理論基礎(chǔ)是回歸系數(shù)

的抽樣分布,

1.就是根據(jù)樣本估計的結(jié)果對總體回歸系數(shù)的是否為0進行假設(shè)檢驗。當前62頁,總共83頁。回歸系數(shù)的檢驗

(的分布)1.

是根據(jù)最小二乘法求出的樣本統(tǒng)計量,它是一個隨機變量,有自己的分布2.的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學期望:標準差:由于未知,需用其估計量sy來代替得到的估計標準差當前63頁,總共83頁?;貧w系數(shù)的檢驗

(檢驗步驟)提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計算檢驗的統(tǒng)計量

確定顯著性水平,并進行決策t>t,拒絕H0;t<t,不能拒絕H00當前64頁,總共83頁?;貧w系數(shù)的檢驗

(例題分析)對例題的回歸系數(shù)進行顯著性檢驗(=0.05)提出假設(shè)H0:b1=0H1:b1

0計算檢驗的統(tǒng)計量

t=14.956>t=2.365,拒絕H0,表明家庭月收入與存款額之間有線性關(guān)系,收入是影響存款的顯著因素。當前65頁,總共83頁。四、利用樣本回歸方程進行預(yù)測當前66頁,總共83頁。利用樣本回歸方程進行預(yù)測根據(jù)自變量x

的取值估計或預(yù)測因變量y的取值估計或預(yù)測的類型點估計y的平均值的點估計y的個別值的點估計區(qū)間估計y的平均值的置信區(qū)間估計y的個別值的預(yù)測區(qū)間估計當前67頁,總共83頁。(一)點估計當前68頁,總共83頁。點估計

(概念要點)2.點估計值有y的平均值的點估計y的個別值的點估計在點估計條件下,平均值的點估計和個別值的的點估計是一樣的,但在區(qū)間估計中則不同對于自變量x的一個給定值x0

,根據(jù)回歸方程得到因變量y的一個估計值當前69頁,總共83頁。

y的平均值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的平均值的一個估計值E(y0),就是平均值的點估計在前面的例子中,假如我們要估計收入為25千元時,所有家庭存款額的平均值,就是平均值的點估計。根據(jù)估計的回歸方程得當前70頁,總共83頁。y的個別值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的一個個別值的估計值,就是個別值的點估計例如,如果我們只是想知道月收入為20千元的那個家庭(這里是編號為9的那個家庭)的存款額是多少,則屬于個別值的點估計。根據(jù)估計的回歸方程得當前71頁,總共83頁。(二)區(qū)間估計當前72頁,總共83頁。區(qū)間估計與預(yù)測點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進行區(qū)間估計對于自變量

x的一個給定值x0,根據(jù)回歸方程得到因變量y的一個估計區(qū)間區(qū)間估計有兩種類型均值的預(yù)測區(qū)間(confidenceintervalestimate)個別值的預(yù)測區(qū)間(predictionintervalestimate)當前73頁,總共83頁。均值的區(qū)間估計利用樣本回歸函數(shù)方程,對于自變量x的一個給定值x0

,求出因變量y

的平均值的估計區(qū)間,這一估計區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-置信水平下的置信區(qū)間為式中:sy為估計標準誤差當前74頁,總共83頁。均值的區(qū)間估計

(例題分析)

【例6.5】求出月收入為25千元時,存款額95%置信水平下的置信區(qū)間

解:根據(jù)前面的計算結(jié)果,已知n=9,

sy=0.053,t(9-2)=2.365

置信區(qū)間為當月為25千元時,家庭存款額的平均值在0.1065千元到2.5271千元之間當前75頁,總共83頁。個別值的預(yù)測區(qū)間利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的一個個別值的估計區(qū)間,這一區(qū)間稱為預(yù)測區(qū)間(predictioninterval)

y0在1-置信水平下的預(yù)測區(qū)間為注意!當前76頁,總共83頁。預(yù)測區(qū)間估計

(例題分析)【例6.6】求出月收入為20千元時,家庭存款額95%

置信水平下的預(yù)測區(qū)間

解:根據(jù)前面的計算結(jié)果,已知n=9,

sy=0.053,t(9-2)=2.356

置信區(qū)間為家庭月收入為20千元的那個家庭,其存款額的預(yù)測區(qū)間在0.6058千元到0.9531千元之間當前77頁,總共83頁。影響區(qū)間寬度的因素置信水平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論