第十二章相關和回歸分析_第1頁
第十二章相關和回歸分析_第2頁
第十二章相關和回歸分析_第3頁
第十二章相關和回歸分析_第4頁
第十二章相關和回歸分析_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十二章相關和回歸分析1第十二章相關和回歸分析第一節(jié)相關分析概述一、相關分析的概念客觀世界中的許多現象都存在著一定的聯系,它們互相依賴、互相制約、互相作用。離開周圍的現象而孤立存在的現象幾乎是沒有的。現象之間的這種數量聯系,歸納起來,可以分為兩種類型:一種是確定性關系,也稱函數關系,另一種是非確定性關系,則稱為相關關系。2函數關系是現象間存在的確定的依存關系,即對自變量的任何一個值,因變量都有唯一確定的值與之相對應。函數關系通常可以用數學公式確切地表示出來。如圓的面積:

S=πR2,相關關系一般是不確定的,當一個現象發(fā)生變化時,另一個現象也相應地發(fā)生變化,但其變化的數值是不固定的,往往會出現幾個不同的數值與其對應,這些數值分布在它們的平均數周圍。例如,當取身高為1.70米進行調查時,凡是身高為1.70米的人的體重卻不完全相等。在統計上,把現象之間存在的這種不確定的關系稱為相關關系,從數量上研究現象之間相關關系的理論和方法稱為相關分析。3

二、相關關系的種類相關關系按分類依據不同,可作不同的分類。(一)按相關的程度不同可分為:

不相關不完全相關完全相關

如果兩個現象互不影響,彼此的數量變化互相獨立,這種關系稱為不相關。

如果一個現象的數量變化由另一個現象的數量變化所唯一確定,這時兩個現象間的關系稱為完全相關。這種情況下,相關關系實際是函數關系.所以,函數關系是相關關系的一種特殊情況。

如果兩個現象之間的關系介于不相關和完全相關之間,就稱為不完全相關。大多數相關現象都是不完全相關現象。4(二)按相關的方向不同可分為:

正相關負相關兩個相關現象之間,呈現出同方向變化趨勢時,這種相關關系稱為正相關。如消費支出與工資收入之間就是正相關;兩個現象之間呈現出反方向變化趨勢時,這種相關關系稱為負相關。如勞動生產率與單位產品成本之間的關系,就是負相關。(三)按相關的形式不同可分為:

直線相關曲線相關當相關的一個變量的數值增加時,另一個變量的數值相應地發(fā)生大致均等的增加,如果將各對觀測值畫成散點圖,則各個觀測點的分布近似地表現為直線形式.這種相關關系稱為直線相關;當相關的一個變量變動時,另一個變量也相應的發(fā)生變動,但這種變動是不均等的,從散點圖上看,各個觀測點的分布近似地表現為各種不同的曲線,這種相關關系就稱為曲線相關。

5(四)按相關因素的多少不同可分為:單相關復相關單相關是指兩個變量之間的相關關系。一個變量和兩個或兩個以上變量之間的相關關系,稱為復相關。6

三、相關分析的步驟(一)根據對客觀現象的定性認識來進行判斷現象之間的相關性(二)繪制相關圖(三)計算相關系數(四)進行回歸分析——確定回歸直線(五)計算估計標準誤差(六)進行回歸估計或回歸預測7第二節(jié)相關圖和相關系數一、相關圖相關圖又叫散點圖、散布圖。它是利用直角坐標系,將其中一個變量的值放在橫軸上,另一變量的值放在縱軸上,將兩變量的對應值用坐標點畫出來,通過觀察相關點的分布情況,大致可以看出兩個變量之間有無相關關系及相關的類型和密切程度。兩個變量之間相關關系的各種類型,都可以用相關圖表示出來,如圖12-1、圖12-2、圖12-3所示。8圖12-1相關圖9圖12-2正、負相關圖10圖123直線、非直線相關圖11二、相關系數(一)相關系數的概念從相關圖可以判斷兩個現象之間是否相關以及相關的類型,但不能準確判斷相關的密切程度。要判斷現象之間相關關系的密切程度,需要計算相關系數。相關系數是在直線相關條件下說明兩個變量之間相關關系密切程度的統計指標。嚴格地講,應稱為直線相關系數,一般簡稱相關系數。12

(二)相關系數的計算

積差式簡捷式13(三)相關系數密切程度的判斷一般情況下,通過相關系數判斷相關關系密切程度的標準如下:當r=0時,X和Y不相關?;蛘卟淮嬖谥本€相關,但可能存在其他類型的關系。當0<∣r∣≤0.3時,X和Y為微弱相關。當0.3<∣r∣≤0.5時,X和Y為低度相關。當0.5<∣r∣≤0.8時,X和Y為中度相關。當0.8<∣r∣<1時,X和Y為高度相關。當∣r∣

=1時,X和Y完全相關,即所有散點完全在一條直線上,也就是函數關系。

14圖12-5r等于1的計算圖為什么所有觀測都在一條直線上時,X和Y完全相關。我們可以通過圖12-5來加以證明。15三、相關系數的顯著性檢驗

由于上述相關系數是根據樣本數據計算得到的。因而帶有一定的隨機性。樣本容量越小,其隨機性越大,如當變量X和Y各具有兩個數據時,其相關系數總是1,但這并不等于兩個變量就是完全相關。因此,相關系數也有一個顯著性檢驗問題,即通過樣本相關系數r對總體相關系數ρ是否等于零作出判斷。為了便于檢驗,特制定了相關系數檢驗表,我們可以根據不同顯著性水平α以及自由度(n-2)直接查相關系數檢驗表(見附表4)。若|r|超過了表中的臨界值,則認為總體相關系數ρ不等于零,變量X和Y之間的直線相關關系在α水平上是顯著的,否則,不顯著。由表12-1所計算的相關系數r=0.9565,取α=0.01查相關系數檢驗表(見附表4),有R0.01(8)=0.765,因|r|=0.9565>0.765,故認為X和Y之間的直線相關系數在α=0.01水平上是顯著的。這個結果與一般教材上采用t檢驗法是相一致的。16四、等級相關系數及其檢驗

(一)等級相關系數前述采用積差法計算的相關系數r,它只適用于變量X、Y的觀測值(即數量標志值)都是基數的情況下,而且是屬于線性關系。如果兩個變量X和Y是以品質標志出現的,要研究它們之間是否具有相關關系,則要用等級相關系數進行計算。等級相關系數側重于觀測的現象的等級,就是把有關聯的品質標志按其表現排列成等級次序(當然數量標志值更容易排成等級次序),形成X、Y的兩個序數數列,再測定這兩個序數數列之間的相關程度,用這種方法計算的相關指標,就叫等級相關系數。這里主要介紹統計學家斯皮爾曼相關系數,用rs表示。

17斯皮爾曼相關系數公式:式中:n為樣本容量;D為序列等級之差。利用斯皮爾曼等級相關系數還可以判斷多元線性回歸模型中是否存在異方差性,18(二)等級相關系數的顯著性檢驗等級相關系數的顯著性檢驗在樣本容量不大時,同樣可以查詢斯皮爾曼等級相關系數臨界值表(見附表5),若|rs|的值超過了表中的監(jiān)界值,則認為總體等級相關系數不等于零,變量X和Y的等級之間具有一定的相關關系。19五、計算相關系數應注意的問題(1)變量Y與變量X的相關系數等于變量X與變量Y的相關系數。(2)簡單相關系數只適用于兩個變量之間的相關關系。若變量為三個或三個以上時,就要用復相關系數(或偏相關系系數)計算。(3)相關系數r只適用于簡單直線相關,如果是非直線相關,就要用相關指數。(4)相關分析要以定性分析為前提,不然就會出現“虛擬相關”。因為相關系數僅從統計上表明現象之間的數量關系,即使相關系數接近1也并不意味著數據之間存在著因果關系。20第三節(jié)回歸分析一、回歸分析的概念研究現象之間的一般關系求出關系方程式,由此對某變量的一個值推斷出另一變量的可能值,就稱為回歸分析。它實際上是將相關現象間不確定、不規(guī)則的數量關系一般化、規(guī)則化。采用的方法是配合直線或曲線,用這條直線或曲線來代表現象之間的一般數量關系。這條直線或曲線叫回歸直線或回歸曲線,它們的方程式叫直線回歸方程或曲線回歸方程。21二、回歸分析與相關分析的聯系與區(qū)別回歸分析與相關分析有著密切的聯系。一方面相關分析是回歸分析的基礎和前提,如果缺少相關分析,沒有從定性上說明現象間是否具有相關關系,沒有對相關關系的密切程度作出判斷,就不能進行回歸分析,即使勉強進行了回歸分析,也是沒有意義的;另一方面,回歸分析是相關分析的深入和繼續(xù),僅僅說明現象間具有密切的相關關系是不夠的,只有進行了回歸分析,擬合了回歸方程,才可能進行有關的分析和預測,相關分析才有實際的意義。因此,如果僅有回歸分析而缺少相關分析,將會因為缺乏必要的基礎和前提而影響回歸分析的可靠性,如果僅有相關分析而缺少回歸分析,就猶如有頭無尾,沒有實際結果而降低相關分析的意義。只有把兩者結合起來,才能達到統計分析的目的。22回歸分析與相關分析有如下區(qū)別:(1)相關分析所研究的兩個變量是對等關系,不反映任何自變量和因變量的關系;回歸分析所研究的兩個變量不是對等關系,必須根據研究目的,先確定一個為自變量,另一個為因變量。(2)對兩個變量X和Y來說,相關分析只能計算出一個反映兩變量間相關密切程度的相關系數;回歸分析可分別建立兩個不同的回歸方程。以X為自變量,Y為因變量,可以得出Y關于X的回歸方程。以Y為自變量,以X為因變量,可得出X關于Y的回歸方程。(3)相關分析對資料的要求是,兩個變量都必須是隨機的;而回歸分析對資料的要求是,自變量是給定的,因變量是隨機的。23三、簡單回歸直線的確定(一)簡單直線回歸的概念通過計算相關系數,可以判斷兩個變量之間直線相關的密切程度,但不能說明它們之間因果關系的數量表現。簡單直線回歸就是對具有顯著直線相關的兩個變量間數量變化的一般關系進行測定,配合一個直線回歸方程,以便于估計或預測的統計方法。進行簡單直線回歸之前,需根據研究目的確定哪個變量是自變量,哪個是因變量。根據因果關系不同,可以求得兩個回歸方程,它們的一般形式如下:

Y關于X的回歸方程:=a+bXX關于Y的回歸方程:=c+dY式中:a、b、c、d都是待定系數;a和c是兩條直線的截距;b和d是直線的斜率,稱為回歸系數。必須注意的是,配合回歸直線的前提條件是,兩個變量之間確實存在高度的直線相關關系。否則,配合回歸直線毫無意義。因此,在進行回歸分析之前,應先計算相關系數,在相關程度較高的條件下,再配合回歸直線。24

(二)回歸直線的配合方法對回歸直線的要求:它能最好地代表已知散點的平均軌跡。借助數學上的最小平方法,將能得出一條最優(yōu)的、唯一的回歸直線。設所求的回歸直線方程為:=a+bx最小平方法要求各散點到該直線的垂直距離的平方和最小,即通過數學推導可得到兩個方程式組成的標準方程組解這個方程組,得將a,b的值代入回歸方程式,即得所求回歸方程。

25(三)回歸系數b和彈性系數η的關系回歸系數b在宏觀經濟中稱之為邊際效用系數,它與彈性系數有直接的關系。回歸系數表明自變量每增加一個單位時,因變量平均增加多少個單位。彈性系數是因變量增長速度與自變量增長速度的比率,表明自變量每增長1%時,因變量平均來說增長的百分數。在直線回歸方程中,ΔY/ΔX就是斜率,即b=ΔY/ΔX26圖12-6回歸直線圖27四、估計標準誤差所謂估計值的代表性,就是回歸直線的代表性。一般常用估計標準誤差來說明回歸直線代表性的大小。估計標準誤差就是實際值和估計值的平均離差。若估計標準誤差愈大,則回歸直線的代表性愈小;若估計標準誤差愈小,則回歸直線的代表性愈大。因此,只有估計標準誤差小的情況下,用回歸方程作估計或預測才有實用價值。估計標準誤差的計算公式為:其中:SYX代表估計標準誤差;Y是因變量實際值;

n-2稱為自由度。但當實際觀測值甚多且數值較大時,根據上述公式計算估計標準誤差十分麻煩,一般運用下述公式計算28五、回歸估計的置信區(qū)間根據回歸方程和估計標準誤差,可以進一步對因變量Y進行估計或預測,其中應用最廣泛的就是建立回歸估計的置信區(qū)間,借以確定回歸方程預測的范圍。由于Y和X之間是一種相關關系,當樣本容量較大且X取值在附近時,我們可以認為,對于每一個給定的X=X0對應的Y值有好多個,從理論上講,這些Y以Y0為中心形成一個正態(tài)分布,而對應每一個給定的X的Y值的形成的正態(tài)分布可假定它們是同方差的。這樣,由樣本數據求出估計值的標準誤差以后,就可以利用標準化正態(tài)分布曲線下的面積查對表,以一定的概率和精確度對總體回歸值作出區(qū)間估計。29圖12-7回歸直線的置信區(qū)間30第四節(jié)樣本的擬合優(yōu)度前面我們雖然計算了樣本相關系數,但由于因變量Y的觀測值是隨機變動的,它和回歸直線之間總是存在一定的離差,而相關系數并不能解釋存在這種變差的原因;另外,我們雖然估計了回歸直線,但并沒有說明這條回歸直線與樣本觀測值擬合得怎么樣,也就是說需要測量觀測值與該回歸直線的離差。如果觀測值離直線越近,擬合的程度就越好。否則,擬合的程度就越差。31圖12-8樣本的擬合并不是最佳32一、變差分析圖129變差分析圖33二、擬合優(yōu)度的度量——可決系數我們定義R2稱為可決系數,它可以用來度量樣本回歸直線擬合的優(yōu)劣程度。可以證明,R2的取值一般在0~1之間。當R2=1時,觀測值和回歸直線完全擬合;當R2=0時,說明因變量Y和自變量X之間完全沒有直線相關關系,可能有其他曲線相關關系。在實際工作中,R2也可用下式計算:34三、相關系數、可決系數、回歸系數以及估計標準誤差之間的關系如果變量X和Y之間確實存在著相關關系且呈一元回歸直線形式,可以證明,可決系數就是相關系數的平方,即R2=r2。也就是說,盡管X和Y的相關系數很高,在前例中,r=0.9565但r2=0.91,說明X只能解釋Y的總變差中的91%,而R2=0.91也說明了這樣的意思。所以,不論相關關系呈現為直線或是曲線形式,我們都可用R2的平方根來測定相關關系的密切程度。其計算公式為:R習慣上稱作相關指數。(2)可以證明相關系數r、回歸系數b、估計標準誤差SYX以及X的標準差σX、Y的標準差σY之間在數值計算上有如下的換算關系:35第五節(jié)非線性回歸分析建立曲線回歸方程時,關鍵的問題是要確定關系的類型和形式,除根據一定的專業(yè)知識等判斷外,通過描散點圖,并觀察散點圖的形狀和特點來進行判斷,也是一種重要的方法。一元非線性回歸方程的配合方法是,確定回歸方程的類型和形式后,通過變量變換,將非線性模型轉化為線性模型,用最小平方法求出所得線性模型的待定系數,再將原變量代回,則得所求非線性回歸方程。下面介紹幾種常見的一元非線性回歸模型。36一、指數曲線模型Y=abx式中a、b為待定系數。對上式兩邊取對數,得lnY=lna+Xlnb作變量代換,令Y’=lnY,a’=lna,b’=lnb則得一元線性回歸模型Y’=a’+b’X再用最小平方法求a’、b’的值,再查反對數表求出a、b的值,即可求得原指數曲線回歸方程=abx。二、雙曲線回歸模型1/Y=a+b/X在上式中,令Y’=1/Y,X’=1/X,則得到如下線性回歸模型Y’=a+bX’再用最小平方法求出a、b的值,即可求得原雙曲線回歸方程。37三、冪函數曲線Y=dXb上式兩邊取對數,得lnY=lnd+blnX令Y’=lnYa=lndX’=lnX則有Y′=a+bX’再用最小平方法求出a、b的值,再查反對數表求出d,同樣可求得原冪函數曲線方程。四、龔伯茨(Gompertz)曲線Y=debx(略)五、邏輯斯蒂(Logistic)曲線Y=1/(a+be-x)(略)38第六節(jié)相關及回歸分析的計算機實現下面我們根據表12-1的數據運用spss軟件計算相關系數,繪制散點圖,擬合回歸方程,實現相關和回歸分析。一、操作步驟(一)建立數據文件定義變量可支配收入與儲蓄存款余額,并相應輸入表12-1的數據。(二)計算相關系數(1)Analyze→Correlate→Bivariate,彈出BivariateCorrelations對話框,將變量添加到右側的Variables欄內,然后在下方選擇相關系數的種類,軟件默認為Pearson相關系數,計算機顯示界面見圖12-10。39圖12-10BivariateCorrelations(兩變量相關)對話框40(2)由表12-4可知,變量的Pearson(皮爾遜)相關系數為0.957。標記**表示在1%的顯著水平下相關系數顯著。表12-4為二維相關系數表,變量可支配收入與儲蓄存款余額自身的相關系數為1。41(三)作散點圖,判斷兩變量是否存在線性關系點擊Graph→Scatter/Dot,彈出Scatter/Dot菜單,選擇散點圖的種類,此題可選擇Simple(簡單散點圖)。圖12-11Scatter/Dot(散點類型選擇)菜單42

(2)點擊Define,出現GraphScatterplot對話框。確定散點圖坐標軸,將儲蓄存款余額添加到Y軸,可支配收入添加到X軸,點擊OK,輸出散點圖。圖12-12GraphScatterplot(散點圖變量選擇)對話框43圖12-13散點圖44(四)計算回歸方程由散點圖與相關系數的計算結果可知,變量儲蓄存款余額與可支配收入之間存在明顯的線性關系。由此我們可以對模型進行估計。點擊Analyze→Regression→

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論