第十章-相關與回歸分析_第1頁
第十章-相關與回歸分析_第2頁
第十章-相關與回歸分析_第3頁
第十章-相關與回歸分析_第4頁
第十章-相關與回歸分析_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十章相關與回歸分析

第一節(jié)相關分析第二節(jié)一元線性回歸分析第三節(jié)多元線性回歸分析第四節(jié)用計算機軟件進行相關和回歸分析第一節(jié)相關分析一、變量間的關系函數關系

是變量之間一種完全確定的關系。如,圓的面積與圓半徑之間的關系即函數關系。相關關系(correlation)

指變量之間的數量變化受隨機因素的影響而不能惟一確定的相互依存關系,其一般數學表達式為,其中代表隨機因素。如,居民受教育程度與收入的關系即相關關系。由于客觀上常會出現觀察或測量上的誤差等原因,函數關系在實際工作中往往通過相關關系表現出來。而在研究相關關系時,為了找出變量之間數量關系的內在聯系和表現形式,又常常需要借助函數關系的形式加以描述。

8-2二、相關關系的種類

根據相關變量之間的密切程度不同,可分為不相關、完全相關和不完全相關。根據相關變量的變化方向劃分,可分為正相關和負相關根據相關變量的多少劃分,可分為單相關、復相關和偏相關。根據變量間依存關系的形式劃分,可分為直線相關和曲線相關。三、相關關系的描述與測度相關表散點圖(scatter)由坐標軸及n組變量值(xi,yi)在坐標上對應散點構成的二維數據圖。

散點圖與相關的類型相關系數(correlationcoefficient)是測度變量之間相關關系密切程度和相關方向的統計指標。簡單相關系數、復相關系數和偏相關系數總體相關系數和樣本相關系數相關系數的特點:1.參與相關分析的兩個變量是對等的,可以不區(qū)分自變量和因變量,其相關系數只有一個值。2.簡單相關系數有正負號,反映相關關系的方向。正號表示正相關,負號表示負相關。3.如果以樣本的數據資料來分析,則兩個變量應有相同的隨機性。

4.相關系數顯著并不能說明變量間存在因果關系。因果關系應由理論分析確定。四、皮爾遜線性相關系數對兩個變量之間相關方向和程度的指標稱為簡單相關系數。簡單相關系數常用的有皮爾遜直線相關系數、斯皮爾曼等級相關系數、肯德爾相關系數等。簡單相關系數根據總體全部數據計算的,稱為總體相關系數,記為;若是根據樣本數據計算的,則稱為樣本相關系數,記為。兩個變量的皮爾遜線性相關系數

由于總體數據通常無法得到,總體相關系數也無法直接計算出來,一般用樣本相關系數對它進行估計。由于相關系數的計算值對數據十分敏感,用上述計算方法,環(huán)節(jié)多,四舍五入的結果會影響計算結果的精確度。因此,計算皮爾遜相關系數一般按照下列簡捷公式計算

相關系數的取值范圍在-1和+1之間,即:–1≤≤1。若0<≤1,表明和之間存在正線性相關關系;若-1≤<0,表明和之間存在負線性相關關系;若=1,表明和之間是完全正線性相關關系;若=-1,表明和之間是完全負線性相關關系。

=0只表示兩個變量之間不存在線性相關關系,并不說明變量之間沒有任何關系,比如它們之間可能存在非線性相關關系。通常認為,當n很大時:0≤︱︱<0.3為微弱相關;0.3≤︱︱<0.5為低度相關;0.5≤︱︱<0.8為顯著相關;0.8≤︱︱<1為高度相關。相關系數的顯著性檢驗

;

統計量

例10.12016年河南省各省轄市規(guī)模以上工業(yè)企業(yè)主營業(yè)務收入和利潤總額(計量單位:億元)如下表所示。要求:做散點圖并計算工業(yè)企業(yè)主營業(yè)務收入和利潤總額的相關系數。

解:觀察所做的散點圖,表明主營業(yè)務收入與利潤總額之間存在線性正相關關系,可以計算皮爾遜相關系數。省轄市主營業(yè)務收入利潤總額省轄市主營業(yè)務收入利潤總額鄭州市14158.171079.14許昌市6295.50534.46開封市3001.75257.73漯河市3275.20311.15洛陽市7468.82276.00三門峽市3194.30161.78平頂山市2480.53186.52南陽市4513.85205.73安陽市3833.07167.59商丘市3545.19179.51鶴壁市2065.31109.68信陽市2714.39174.47新鄉(xiāng)市4480.34265.51周口市4530.41488.83焦作市5692.23362.53駐馬店市3073.22216.35濮陽市3772.24178.26濟源市1562.6285.36由表中的原始數據計算得,代入簡捷公式

相關系數的顯著性檢驗:在原假設成立時,計算檢驗的統計量取顯著性水平=0.05,根據自由度,在EXCEL單元格中輸入“=tinv(0.05,16)”即可得到檢驗用臨界值。因為﹥2.752,所以拒絕,表明在0.05的顯著性水平下,工業(yè)企業(yè)主營業(yè)務收入和利潤總額之間的正線性相關關系通過了檢驗。

五、斯皮爾曼等級相關系數斯皮爾曼等級相關系數也叫斯皮爾曼秩相關系數,是由英國統計學家斯皮爾曼在皮爾遜相關系數的基礎上推導出來的計算等級相關系數。(一)斯皮爾曼等級相關系數的計算

1.確定兩個變量值的等級(即秩)對每一個變量按照它的取值大小或優(yōu)劣順序,得到每個變量值和對應的序數值和,形成成對等級數列()。如果其間遇到相同的變量值,則計算這些相同變量值的平均序數值,作為這些相同變量值的共同等級。

2.計算每對變量等級的差額3.計算斯皮爾曼等級相關系數斯皮爾曼等級相關系數的值域是。當,稱兩個變量的等級完全一致;當,稱兩個變量的等級完全相反。當,稱兩個變量的等級正相關;當,稱兩個變量的等級負相關。注意,等級相關不能解釋為線性相關。(二)斯皮爾曼等級相關系數的顯著性檢驗檢驗的假設是,

1.當抽取小樣本檢驗時,在原假設成立條件下,可查教材附表5,得到顯著性水平下的臨界值。如果,則拒絕原假設,表明兩個變量等級相關顯著;否則,接受原假設,表明兩個變量等級相關不顯著。

2.當抽取大樣本檢驗時,樣本等級相關系數近似服從均值為,方差為的正態(tài)分布。因此,可構建用于檢驗的統計量,如果,則拒絕原假設。例10.3

從某班級抽取10名同學,調查得到統計學和計算機基礎課的考試成績如表10.3所示。試估計這兩門課程考試成績的相關系數并在0.05的顯著性水平下檢驗這兩門課成績是否等級相關。表10.3某班級10名同學的成績等級表

解:兩門課程的成績等級計算見表10.3所示。已知,;計算得

學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10合計計算機成績x優(yōu)秀優(yōu)秀及格中等良好良好中等優(yōu)秀優(yōu)秀良好-

等級Rx2.52.5108.5668.52.52.56-統計學成績y74766683636675939376-

等級Ry74.58.53108.561.51.54.5-等級差d-4.5-21.55.5-4-2.52.5111.5-等級差平方d220.2542.2530.25166.256.25112.2589.51.計算斯皮爾曼等級相關系數2.顯著性檢驗。設總體等級相關系數是,建立假設,。因為n=10為小樣本,查附表5,得到檢驗的臨界值。因為,所以不能拒絕原假設。因此,該班同學的統計學和計算機基礎課的考試成績呈等級正相關,但在0.05的顯著性水平下等級相關系數不顯著。第二節(jié)一元線性回歸分析一、回歸分析的概念和種類回歸一詞是由英國生物學家高爾頓在研究人類身高的遺傳規(guī)律時首先提出:人類身高遺傳回歸于平均的一般身高?,F代回歸分析是研究一個變量受另一個或多個變量影響的平均變動數量規(guī)律的統計分析方法。解釋變量:也叫自變量,指回歸分析中,作為影響因素的變量。一般用表示。被解釋變量:也叫應變量,指回歸分析中,作為受影響的變量。一般用表示?;貧w模型:也叫回歸方程,指回歸分析中,用解釋變量的數量變動來解釋被解釋變量數量的平均變動規(guī)律的數學方程式?;貧w分析的種類:按照回歸模型的形式劃分一元回歸模型和多元回歸模型線性回歸模型和非線性回歸模型二、一元線性回歸模型的設定

1.總體一元回歸模型的一般形式

2.總體一元線性回歸模型的條件均值形式上式中的和稱為回歸參數。其中,是線性回歸模型的截距,反映了不受解釋變量影響時的被解釋變量的平均水平;是線性回歸模型的斜率,反映了解釋變量每變動1個單位時,被解釋變量平均水平變動的單位數量。

居民戶月人均可支配收入和人均消費支出的總體數據計量單位:元每戶月人均可支配收入xi2000250030003500400045005000550060006500每戶月人均消費支出yi13751625197520002550275030003375342537501500175021002325267528753400342536253800162518502250237527503000350035003875437517502000235025752900325036003800412544501875212524502700295033753625392543754500

2200

282531253500

400047254625

2875

4050

4775P(y=yi/x=xi)1/51/61/51/71/61/61/51/71/61/7E(yi/x=xi)1625192522252525282531253425372540254325

3.總體一元線性回歸模型的個別值形式式中,稱為隨機擾動項或隨機誤差項。隨機擾動項反映的是除了解釋變量之外,其他所有對被解釋變量產生影響的因素影響值的總和,以及模型的設定偏差、變量值的測量誤差和隨機誤差等??傮w回歸模型中的回歸參數需要用總體數據求解。然而,總體的數據一般很難得到。(二)樣本回歸模型1.樣本一元線性回歸模型的條件均值形式式中,稱為樣本回歸模型中被解釋變量的條件均值,它是E(yi/x=xi)的估計值。和是樣本回歸系數,它們是回歸參數和的估計值。

4.樣本一元線性回歸模型的個別值形式式中,稱為殘差項或剩余項。殘差項與隨機擾動項的不同在于,是不可觀測的變量而是可以計算和觀測的。

二、一元線性回歸模型的估計

(一)估計一元線性回歸模型的基本假定1.對模型的假定。第一,解釋變量是確定性變量,被解釋變量是隨機變量。第二,變量沒有測量誤差。第三,模型的函數形式正確,無設定誤差。

2.對隨機擾動項的假定。(1)零均值假定,即(2)同方差假定,即(3)無自相關假定,即(4)解釋變量與不相關,即(5)正態(tài)性假定,即滿足上述基本假定的條件下,回歸模型參數的估計量是最佳線性無偏估計量。

(二)一元線性回歸模型的最小二乘估計最小二乘法的基本思想是估計出的樣本回歸模型應使被解釋變量的估計值與觀察值的離差(殘差)平方和為最小值,其數學表達式為

利用數學求極值的方法,由條件

可得關于參數和的方程組,稱為正規(guī)方程組:

解得:

例10.4根據表的數據,求不良貸款對貸款余額的回歸方程。分行編號各項貸款余額(觀測值)不良貸款額(觀測值)不良貸款額(估計值)殘差

-1234567891011121314151617181920212223242567.3111.3173.080.8199.716.2107.4185.496.172.864.2132.258.6174.6263.579.314.873.524.7139.4368.295.7109.6196.2102.20.91.14.83.27.82.71.612.51.02.60.34.00.83.510.23.00.20.41.06.811.61.61.27.23.21.72083.38825.72632.23246.7381-0.21563.24046.19622.81221.92921.60334.18021.39115.78699.15572.1755-0.26871.95570.10654.453013.12332.79703.32376.60543.0433-0.8208-2.2882-0.92630.96761.06192.9156-1.64046.3038-1.81220.6708-1.3033-0.1802-0.5911-2.28691.04430.82450.4687-1.55570.89352.3470-1.5233-1.1970-2.12370.59460.1567

解:

作散點圖判斷回歸類型為直線回歸。代入公式求回歸系數其回歸方程為:

這表明:銀行貸款余額越多,則不良貸款額越高;貸款余額每增加1億元,不良貸款平均增加0.0378947億元。三、一元線性回歸模型的擬合優(yōu)度離差平方和的分解總平方和等于回歸平方和與殘差平方和之和。

SST=SSR+SSE即因為兩邊平方后求和其中,回歸效果的顯著性檢驗

1、判定系數對于一元回歸,越接近于1,表明回歸直線與各觀測點越接近,用解釋變量的變化解釋被解釋變量變化的比例越高,回歸直線的擬合程度就越好;越接近于0,表明回歸方程的擬合程度越差。

四、一元線性回歸模型回歸參數的顯著性檢驗(t檢驗)

檢驗提出的假設:

檢驗使用的統計量:

其中,

在顯著性水平下,如果或值<,或估計的置信閉區(qū)間不包含0,則拒絕原假設,說明兩個變量之間存在顯著的線性關系;否則,不拒絕原假設,說明兩個變量之間不存在顯著的線性關系。

對例10.4所估計回歸模型中的回歸系數的顯著性進行檢驗。設置假設計算統計量取值在顯著性水平0.05下,由于,所以拒絕原假設,表明回歸系數是統計顯著的,貸款余額對不良貸款有顯著的線性影響。

五、一元線性回歸模型的預測

點預測利用估計的回歸模型,對于給定的變量的任一值,用回歸值作為變量的預測(估計)值。區(qū)間預測

1、的平均值的置信閉區(qū)間估計對于給定的,在給定置信水平條件下的預測閉區(qū)間為:

2、的個別值的置信閉區(qū)間估計

當給定置信水平時,值的預測閉區(qū)間為:

例10.5

根據例10.4的估計回歸方程,求出(1)貸款余額為100億元時,不良貸款95%的置信區(qū)間;(2)貸款余額為80.8億元那個分行不良貸款的預測區(qū)間。

解:已知:,,(1)當時,不良貸款的點估計值為:的置信區(qū)間為:

(2)貸款余額為80.8億元那個分行不良貸款的預測區(qū)間為:

第三節(jié)多元線性回歸分析多元線性回歸分析是研究一個被解釋變量與兩個或兩個以上解釋變量之間數量相依關系的統計分析方法。一、多元線性回歸模型總體多元回歸模型

其中的稱為偏回歸系數。例如,表示當不變時,每變動一個單位,因變量的平均變動量。

樣本多元線性回歸模型

二、多元線性回歸模型的估計多元回歸模型的古典假定:(1)對模型的假定(同一元回歸)。(2)對的假定。一元回歸模型假定+無多重共線性假定無多重共線性是指解釋變量之間不存在線性相關關系,即

式中,是隨機誤差項,是常數且不全為零。在滿足古典假定的條件下,估計多元線性回歸模型中的回歸參數可通過最小二乘法由容量為n(n>k+1)的樣本數據估計。即,使殘差平方和由取得極值的條件,可以推出一個k元方程組

即解此方程組即得各偏回歸系數。多元回歸系數一般使用計算機軟件求得。

三、多元線性回歸模型的擬合優(yōu)度、復相關系數和偏相關系數(一)多重可決系數

在多元回歸分析中,可決系數稱為多重可決系數。為避免因為增加解釋變量而高估,統計學家提出用離差平方和的自由度去修正,計算出修正的多重可決系數,記為,其計算公式為

(二)復相關系數和偏相關系數1.復相關系數多重可決系數的平方根稱為復相關系數或多重相關系數。復相關系數可用來度量被解釋變量同個解釋變量的相關程度。它只取正根。

2.偏相關系數是反映在多個變量相互影響的環(huán)境中,在控制其他變量取值不變的條件下,某兩個特定變量之間相關方向和密切程度的統計指標。用多個變量之間的單相關系數計算偏相關系數用多元回歸模型中的偏回歸系數計算相關系數首先,估計模型

用上述回歸模型計算三個變量、和之間的偏回歸系數的計算公式如下

四、多元線性回歸模型的顯著性檢驗

(一)F檢驗如果被解釋變量和所有解釋變量之間不存在相關關系,就意味著將同時等于0。因此,F檢驗的假設設置為

至少有一個回歸參數不為零檢驗統計量是F統計量F檢驗實質上是一個方差分析。對于給定的顯著性水平,如果F0>或者值<則拒絕原假設,說明回歸模型通過了F檢驗,模型整體統計顯著;否則,接受原假設,說明回歸模型沒有通過F檢驗,模型整體統計不顯著。F檢驗統計不顯著的回歸模型是沒有研究價值的,進行回歸分析沒有意義。

(二)檢驗與一元線性回歸模型t檢驗的區(qū)別是,K元線性回歸模型有K個解釋變量,需要做K個t檢驗。對于每個回歸參數,設:,:檢驗的統計量是t統計量在顯著性水平下,如果,或者值

()、值(),或者的置信區(qū)閉間未包含0,則拒絕原假設,否則接受原假設。一個好的回歸模型估計結果往往不是通過一次估計就能確定下來的,一般需要采用多種方法進行估計→檢驗→修正→再估計→再撿驗→再修正等反復多次才能最終下來。

例10.5為了研究新時期我國外貿出口的決定因素,現收集了2000年至2016年共17年我國貨物出口總額、工業(yè)增加值和人民幣兌美元匯率的樣本數據,如下表所示。試估計和檢驗我國貨物出口總額依工業(yè)增加值和人民幣匯率變動的回歸模型。年度貨物出口總額y(億元)工業(yè)增加值x1(億元)匯率x2(100美元)yx1yx2x1x2x12x22200020634.440259.7827.8483073475417081982333285901620843444685319200122024.443855.6827.796589327718229596362992801923313651685087200226947.947776.3827.7128747095522304777395444442282574842685087200336287.955363.8827.7200903603830035495458246173065150350685087200449103.365776.8827.68322985794340641819544421424326587418685054200562648.177960.5819.17488407720051319444638629036077839560671039200677597.292238.4797.18715744157261858936735306088507922435635496200793563.6111693.9760.4104504833827114576184932042124755272975782082008100394.94131727.6694.5113224784498697252909148613517352160602482344200982029.69138095.5683.1113279310555603448194333036190703671204666262010107022.84165126.4676.951767229628772449112111782316272667279774582612011123240.56195142.8645.882404950795279598613126038832380807123924171612012129359.3208905.6631.252702388218281658058131871660436415497113984772013137131.4222337.6619.323048946636184928219137698122494340083743835572014143883.75233856.4614.283364813579488384910143653309546888158213773402015141166.83236506.3622.843338684464687924348147305584559352299403879302016138419.29247877.7664.23343110552419194224516464780561443354157441201合計1491455.42314500.912367.73255948899137102526308615805814254.07193E+119123276

解:經濟理論認為,在其他條件不變的情況下,本國生產越多可供出口的貨物越多;本幣升值不利于本國貨物出口,也就是說本國工業(yè)規(guī)模和匯率是影響貨物出口的兩個主要因素。由圖10.5和圖10.6的散點圖可知,貨物出口總額與工業(yè)增加值、人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論